張守先 任鵬 李滿江
(1.半島都市報社,山東 青島 266071;2.濰坊日報社,山東 濰坊 261000;3. 濰坊北大青鳥華光照排有限公司,山東 濰坊 261061)
新聞報道是及時傳播信息和監(jiān)督社會的重要方式,對社會發(fā)展非常重要。這要求新聞寫作高效和準確,全天候產(chǎn)出大量高質(zhì)量新聞。然而,傳統(tǒng)新聞寫作完全依賴人工記者,效率比較低,難免會出現(xiàn)延遲和錯誤,影響新聞的時效性和準確性。同時,傳統(tǒng)寫作也易受個人主觀因素影響,新聞報道的真實性和客觀性難以保證。
近年來,神經(jīng)網(wǎng)絡、深度學習和生成模型等技術的快速發(fā)展,特別是預訓練語言模型的出現(xiàn),使機器具有了比較強的語義理解能力和長文本生成能力。這為新聞自動寫作提供了可能,有望提高新聞寫作的效率和客觀性。如基于seq2seq 和GPT 的方法實現(xiàn)了新聞摘要和標題生成;基于BERT 的方法可以生成簡短的新聞文章。這些工作推動了新聞自動寫作技術的發(fā)展,但生成文本的連貫性或多樣性仍有提高的空間。
目前基于人工智能的新聞寫作,主要用于以下幾個方面。
(1)自動化新聞撰寫:基于數(shù)據(jù)模板,生成如運動比賽、股票行情、天氣預報等自動化新聞。
(2)財經(jīng)新聞編寫:根據(jù)金融數(shù)據(jù),自動生成相關的財經(jīng)新聞、分析報道。
(3)影評撰寫:根據(jù)影片數(shù)據(jù)和評論材料,自動生成影評文章。
(4)賽事新聞:根據(jù)體育賽事數(shù)據(jù),自動生成球賽新聞、運動員數(shù)據(jù)分析等。
(5)新聞稿自動編輯:輔助編輯進行新聞寫作和修訂工作。
(6)新聞摘要生成:自動析出新聞文章的關鍵內(nèi)容摘要。
為實現(xiàn)新聞寫作的高效化、準確化和客觀化,這個項目提出利用ERNIE 等預訓練語言模型,通過大量新聞數(shù)據(jù)集的訓練,實現(xiàn)高質(zhì)量新聞稿自動生成的方法。ERNIE 是一種基于BERT 的語言表示模型,在長文本生成和多樣性方面有較強的能力。項目使用大規(guī)模新聞語料庫訓練ERNIE 新聞寫作模型,使其學習新聞文章的語法、詞匯、結構和風格等知識。在此基礎上實現(xiàn)高質(zhì)量新聞稿的自動生成,以期達到與人工寫作相當?shù)男Ч?/p>
這個項目的提出是基于新聞寫作需求和現(xiàn)有技術發(fā)展的考量。方案有望實現(xiàn)新聞采寫的自動化與智能化,構建高效、準確與客觀的新聞報道體系。
新聞自動寫作是自然語言生成的重要應用之一。早期的工作主要基于模板和規(guī)則,生成效果比較差。隨著深度學習和神經(jīng)網(wǎng)絡的發(fā)展,特別是預訓練語言模型的提出,新聞自動寫作取得了比較大的進展。對新聞自動寫作而言,核心是訓練一個能夠生成連貫、語法正確、主題明確的長文本的神經(jīng)網(wǎng)絡模型。具體來說,常用的技術路線包括。
(1)數(shù)據(jù)準備:收集大規(guī)模的高質(zhì)量新聞文本數(shù)據(jù),包括新聞標題、內(nèi)容、摘要等。并進行數(shù)據(jù)清洗、分詞等預處理。
(2)模型選擇:通常選擇基于Transformer 或LSTM 等結構的預訓練語言模型,如GPT、BERT 等,這類模型在長文本生成任務上效果較好。
(3)模型訓練:使用新聞文本數(shù)據(jù)針對語言生成任務進行模型精調(diào)。訓練目標是最大化生成新聞文本的鏈式概率。
(4)文本生成:給定新聞主題、關鍵詞等條件,模型自動生成標題和正文??梢陨梢黄暾男侣?,也可以只生成摘要等。
(5)生成文本后處理:對模型生成文本進行語句規(guī)范化、語法糾錯等后處理,提高可讀性。
(6)結果評估:從語法、邏輯、連貫性等方面評估生成文本的質(zhì)量,并反饋改進模型。
關鍵的創(chuàng)新點是利用大規(guī)模預訓練模型,讓模型學習新聞語言的語法和風格特征。相比以往基于模板的方法,預訓練模型生成的新聞文本連貫性更好,逼近人工寫作效果。但仍需人工審核,以確保生成質(zhì)量。
基于seq2seq 模型的方法可以生成新聞摘要和標題,但生成的文本連貫性和準確性比較差。GPT 在較長文本生成方面有優(yōu)勢,應用于新聞文章生成,但生成的文章主題單一,缺乏多樣性。BERT 的出現(xiàn)使機器具有比較強的語義理解能力,在文本分類、摘要和問答等任務上均取得優(yōu)異效果?;贐ERT 的方法實現(xiàn)了新聞摘要和關系抽取,證明BERT 可用于新聞生成。但BERT 對長文本生成的能力較弱,生成的新聞文章較短。ERNIE 是在BERT 基礎上的改進,在長文本生成與多樣性方面表現(xiàn)更優(yōu)。Sun 等證明ERNIE 可以生成連續(xù)且主題多樣的長文本,為新聞文章生成提供有益啟發(fā)。
這個項目在ERNIE 等預訓練語言模型的啟發(fā)下,提出通過新聞數(shù)據(jù)集訓練ERNIE 模型,實現(xiàn)高質(zhì)量新聞稿自動生成的方法。此方案生成的新聞稿連貫且準確,具有較強實用性,期望達到與人工寫作相當?shù)男Ч?/p>
為實現(xiàn)新聞寫作的高效化、準確化與客觀化,本項目提出利用ERNIE 等預訓練語言模型,通過海量新聞數(shù)據(jù)集訓練,實現(xiàn)高質(zhì)量新聞稿自動生成的方案。
百度在預訓練語言表示模型領域進行了大量研發(fā)和應用,主要的中文預訓練模型包括:ERNIE(Enhanced Representation through kNowledge IntEgration)、ERNIE 2.0(在ERNIE 基礎上提出持續(xù)學習框架,可以不斷從數(shù)據(jù)中學習,增強模型能力)、ERNIE-Gram(針對語法任務,如語法解析、語義角色標注進行預訓練,獲得強大的語法建模能力)、ERNIE-Gen(支持端到端的文本生成,構建通用的生成預訓練框架)、PCL-Med(醫(yī)療領域特定的預訓練語言模型,提供精準的醫(yī)療文本理解)、PLATO-2(大規(guī)模預訓練語言模型,具有超過200 億參數(shù),是當時最大的中文預訓練模型)、 CPM(Chinese Pretrained Model)(百度自研的最新預訓練模型,具有千億規(guī)模的參數(shù)量和強大的語言理解能力)等。ERNIE 是百度推出的一款基于BERT 的中文預訓練語言表示模型,代表了百度在知識增強預訓練模型上的創(chuàng)新,是在BERT 基礎上的改進,引入了知識圖譜,增加實體語義的理解能力,增加了語言表示對多義詞、同義詞的理解,提高句法分析能力,采用逐段預測的訓練方式,提高長文本生成能力,引入短文本匹配任務,增強了文本相似度的判斷能力,設計了新的數(shù)據(jù)集,如多義詞數(shù)據(jù)集、同義詞數(shù)據(jù)集、新聞標題數(shù)據(jù)集等,進行細致的語義理解預訓練,構建了領域知識圖譜,如百科知識圖譜、產(chǎn)業(yè)知識圖譜等,加入先驗知識,采用了句子重排、相似句子匹配等預訓練任務,進一步強化語義理解,使用海量高質(zhì)量的數(shù)據(jù)進行了預訓練,提升了模型的效果。ERNIE 相比BERT 在文本生成效果上有顯著提升,更適用于智能寫作等生成應用。相比BERT,ERNIE 在長文本生成和多樣性方面表現(xiàn)更優(yōu),適用于新聞文章生成。[4-5]本項目使用ERNIE模型,其參數(shù)量較小,訓練速度更快。[3]
項目使用百度新聞數(shù)據(jù)集,其包含數(shù)百萬篇新聞文章及元數(shù)據(jù)。選取了近3 年的近百萬條新聞,數(shù)據(jù)集按7 : 2 : 1 比例劃分為訓練集、驗證集和測試集。訓練集(Training Set)用于訓練模型的參數(shù)和權重,占數(shù)據(jù)集的最大比例,一般60%~80%,反復使用以“訓練”模型,使其逐步學會特征模式。驗證集(Validation Set)用于調(diào)整超參數(shù)和評估訓練過程中模型的性能,占數(shù)據(jù)集的較小比例,一般10%~20%,不用于訓練參數(shù),只用于指導如何改進模型。測試集(Test Set),用于評估最終訓練好的模型在真實數(shù)據(jù)上的表現(xiàn),占數(shù)據(jù)集的較小比例,一般10%~20%,只使用一次來全面評估模型效果,不用于也不可見訓練。劃分這三個數(shù)據(jù)集是為了使模型泛化性更好,避免過擬合訓練數(shù)據(jù)。采用不同數(shù)據(jù)的評估使模型更穩(wěn)定可靠。
在數(shù)據(jù)集上訓練ERNIE 新聞寫作模型的流程如下。
(1) 對新聞數(shù)據(jù)集進行清洗、分詞和過濾,獲得高質(zhì)量的數(shù)據(jù)集;去除重復新聞、用程序去除空行無效字符等噪聲數(shù)據(jù)、糾正一些明顯的拼寫錯誤、用程序移除無實際語義的停用詞(吧、嗎、啊、噢,等)、刪除信息量太少的新聞樣本等,這樣可以提高數(shù)據(jù)集的整體質(zhì)量,移除噪聲數(shù)據(jù),獲得干凈、高質(zhì)量的新聞語料庫,更好地訓練ERNIE 寫作模型;
(2) 按照ERNIE 模型的輸入格式,對數(shù)據(jù)集中的文章標題、內(nèi)容和摘要等進行編碼,增加[SEP] 、[CLS] 等標記,ERNIE 模型限制最大輸入長度為512 個詞匯,超過的部分會被截斷;
(3) 設定ERNIE 模型結構和訓練超參數(shù),如學習率(Learning Rate)、訓練批大小(Batch Size)、訓練輪數(shù)(Epoch Number)、序列長度(Sequence Length)、優(yōu)化器(Optimizer)、權重衰減(Weight Decay)、 熱啟動比例(Warmup Proportion)、 峰值學習率(Peak Learning Rate)、損失函數(shù)(Loss Function)、裁剪比例(Clipping Ratio)、隨機失活比例等,這些超參數(shù)需要通過反復試驗來確定合適的組合,才能讓ERNIE 在新聞寫作任務上獲得最佳的訓練效果;
(4) 使用訓練集對ERNIE 新聞寫作模型進行預訓練;
(5) 使用驗證集對模型進行評估,調(diào)整超參數(shù),選擇較優(yōu)模型;
(6) 最終模型在測試集上生成新聞稿,并進行人工評估。
模型生成新聞稿的流程為:輸入新聞主要內(nèi)容(主題、關鍵字等);ERNIE 模型自動生成一篇完整的新聞文章,包括標題、內(nèi)容和摘要。
本方案使用先進的ERNIE 預訓練模型,通過高質(zhì)量新聞數(shù)據(jù)的訓練,使其學會新聞語言表達的各個方面,在此基礎上實現(xiàn)新聞文章的自動生成。生成的新聞稿流暢連貫,準確度較高,更具有實用價值,有望達到與專業(yè)記者寫作效果相當?shù)馁|(zhì)量。
為驗證本方案的效果,我們進行了新聞自動寫作的實驗。
使用百度新聞數(shù)據(jù)集,包含近3 年數(shù)百萬篇新聞文章及元數(shù)據(jù)。[1-2]選擇其中近百萬篇作為實驗數(shù)據(jù)集,包含新聞標題、內(nèi)容和摘要。新聞類別包括政治、財經(jīng)、社會、娛樂、科技等共30 個左右類別。按7:2:1 比例劃分為訓練集、驗證集和測試集。
采用ERNIE 模型,其參數(shù)量較小,訓練速度更快。訓練10 輪,訓練60 小時。
從準確性、主觀性和多樣性等幾個方面評估模型生成的新聞稿:
事實準確性:新聞內(nèi)容是否能夠描述清楚事件的基本事實,時間、地點、人物等要素是否準確。
邏輯性:新聞表述是否連貫清晰,沒有邏輯錯誤或語句前后矛盾的情況,查看文章段落之間的銜接是否順暢自然,是否存在邏輯斷裂的情況,分析文章段落的主題或中心句是否一致,是否會出現(xiàn)跳躍性主題轉變的情況,檢查文章內(nèi)容的敘述順序是否合理,事件或描述是否按時間順序敘述,觀察因果關系的敘述是否合乎常理,不會出現(xiàn)違反事理的因果關聯(lián),判斷交代的細節(jié)或事例是否能有效支持中心論點,避免出現(xiàn)例子與論點不一致。
流暢性:語言表達是否通順、風格一致,沒有語法錯誤或語句不通順的地方,逐句閱讀文章,感受句子之間的銜接是否平順自然,看詞匯使用是否得體精準,避免出現(xiàn)語義不通或使用不當?shù)脑~語,判斷行文節(jié)奏是否合理,不會出現(xiàn)語句結構或長度突然失衡的情況,觀察用詞表達方式是否多樣,不會重復使用相同詞語或句式模板,語音朗讀文章,感受朗讀流暢性,判斷是否存在容易打結的語段。
完整性:新聞結構是否完整,包含必要的標題、導語、正文、結尾等部分,是否遺漏了重要信息,正文內(nèi)容是否涵蓋了事件或觀點需要闡述的主要方面,是否成功傳達了中心思想或觀點,不只是斷片式的描述,文章各部分是否條理清晰,前后呼應,不會出現(xiàn)邏輯跳躍。
客觀性:新聞觀點是否中立客觀,沒有包含過于主觀的評論或判斷,避免存在明顯的傾向性或情緒化表達,文章引用的依據(jù)是否可靠權威,文章對不同觀點或立場是否給予公正的描述,而非只立足一方,文章中人物描寫是否公正,避免出現(xiàn)傾向性評價,是否過多使用含情緒色彩的詞語,文章中因果關系分析是否符合邏輯,避免出現(xiàn)以偏概全的情況,文章的觀點是否有事實或數(shù)據(jù)支持,而不是主觀臆斷。
可讀性:新聞的可讀性和趣味性是否足夠,是否過于單調(diào)或模板化。
總體流暢度:從整體上看,新聞質(zhì)量是否達到可以發(fā)布的標準,逐段通讀全文,感受篇章語言風格和語句流暢度的整體一致性、各個段落的銜接是否自然、文章的起承轉合是否完整、開頭和結尾是否吸引人并帶來完滿的閱讀感受、避免整體用詞單一重復性太高、全文語言風格是否會出現(xiàn)風格劇變的情況。
根據(jù)這些指標,對算法生成文章的優(yōu)劣進行整體判斷,并給出改進方向,指導模型進一步優(yōu)化,利用評分機制,允許模型輸出多候選文章,人工選擇評分最高的來反饋給模型,調(diào)整損失函數(shù),增強對特定指標的懲罰力度(如流暢性等)。
本實驗的最終結果表明:
(1) 生成新聞稿準確性較好,匹配輸入主題,事實基本準確;
(2) 不存在明顯的主觀傾向,達到一定的客觀中立性;
(3) 輸入不同條件,生成新聞稿主題和內(nèi)容較為多樣。
綜上,本方案生成的新聞稿在準確性、客觀性和多樣性等方面均達到較高水平。相比人工新聞寫作,本方案在減輕人工工作量、提高效率和準確性方面顯示出較大優(yōu)勢。
本項目利用ERNIE 等預訓練語言模型,通過海量新聞數(shù)據(jù)集訓練,實現(xiàn)高質(zhì)量新聞稿自動生成的方案,達到較好的效果。該方法具有以下優(yōu)點:
(1)顯著提高新聞寫作效率,大幅減輕記者工作量,說明具有較強的實用性;
(2)生成新聞稿準確度較高,難以被輕易檢測出,達到專業(yè)水準,更適合應用于真實場景;
(3)支持一次輸入生成多篇主題和內(nèi)容各異的新聞稿,顯示出較強的多樣性。在一定程度上降低了個人主觀的影響,使新聞報道更加客觀和中立。
然而,該方法也存在一定不足:
(1)生成新聞稿的多樣性還有提高空間,多個條件下生成的文章主題和內(nèi)容重合度較高;
(2)生成的新聞稿缺乏個性化表達和真實感,難以達到人工寫作的效果;
(3)模型生成的新聞稿需要人工審閱和修改后才可直接發(fā)布,這增加了后續(xù)工作量。
未來工作主要關注以下幾點:
(1)使用更大規(guī)模的訓練數(shù)據(jù),采用更強大的預訓練模型,如BERT-large 等,提高生成效果。BERTlarge 總參數(shù)量達到了3.4 億參數(shù),使用更多未標注的語料進行預訓練,包括整個維基百科和書籍語料庫,因此語言表達能力更加強大和通用、下游任務效果更好、處理長文本時表現(xiàn)更好。
(2)研究條件輸入的方式和生成策略,增強生成新聞稿的多樣性;
(3)優(yōu)化數(shù)據(jù)預處理和模型訓練流程,使生成的新聞稿融入個人化表達和真實感;
(4)人工審核與機器生成的協(xié)同,構建高效準確的新聞生產(chǎn)系統(tǒng),實現(xiàn)人工智能的互補;
(5)加強連貫性的調(diào)整,不斷提高生成的文章的連貫性。
新聞報道是及時和準確傳播信息的重要方式,對社會發(fā)展來說很重要。但是,以前的新聞寫作方法效率不高,難以滿足全天候大量高質(zhì)量新聞的需要,而利用人工智能寫稿可以一定程度上滿足我們的要求,人工智能寫稿可以提高寫作效率,節(jié)省人力成本,可以在短時間內(nèi)生成大量文章草稿,尤其適用于產(chǎn)出需求較高的應用場景。人工智能寫稿還減少人為錯誤,提高寫作質(zhì)量,算法生成可以避免人工誤操作,保證輸出文本的標準性和一致性。自動寫稿技術在效率、質(zhì)量、創(chuàng)新等多個方面對人類具有重要意義和價值。當然,也需要人機密切協(xié)作,才能發(fā)揮最大作用。
該項目用ERNIE 這種預訓練語言模型,通過訓練大量高質(zhì)量新聞數(shù)據(jù)集,實現(xiàn)了自動生成高質(zhì)量新聞稿的方法。實驗結果表明,這個方法生成的新聞稿在準確度、客觀性和多樣性方面達到比較不錯的水平。
與人工新聞寫作相比,這個方法在很大程度上提高了效率和準確度,彌補了人工寫作的不足,實現(xiàn)了新聞采寫的自動化和智能化。但是,生成的新聞稿個性化表達和真實感仍然不足,多樣性還需要提高,還需要人工審閱,首先要檢查人工智能生成的文本的邏輯性和連貫性,現(xiàn)有生成模型偶爾會產(chǎn)生不合邏輯、不連貫的語句或段落,需要人工修改和完善,人工智能生成的文章可能會包含不準確的信息或錯誤的事實(所謂一本正經(jīng)的胡說八道),需要人工核實真實性,算法難以理解人文精神內(nèi)涵,需要人工加入這方面內(nèi)容,此外,機器學習依賴歷史數(shù)據(jù),對全新事件理解能力弱,需要人工創(chuàng)新,因此自動寫作技術尚未完全成熟,仍需人機互補才能產(chǎn)出高質(zhì)量文本,因此當前階段人工參與不可或缺。未來隨著技術進步,人工干預需求可能會下降。
該項目為新聞自動寫作的研究和應用作出了有用的探索。通過不斷優(yōu)化數(shù)據(jù)和模型,新聞自動寫作技術期望達到與人工新聞記者相媲美的效果,進一步改變新聞行業(yè)的生產(chǎn)模式,為構建信息時代高質(zhì)量的新聞報道體系提供重要支持。