□ 王熠 成鵬 劉穎旭
內(nèi)容提要 媒體智能化發(fā)展使得新聞內(nèi)容核校和核查迎來了新的挑戰(zhàn)和機(jī)遇,本文通過分析內(nèi)容檢校技術(shù)發(fā)展,結(jié)合新華社研發(fā)“較真”智能檢校工具的五大工作實(shí)踐,探索在人工智能、區(qū)塊鏈、大數(shù)據(jù)發(fā)展趨勢(shì)之下,新聞內(nèi)容核校的新模式。
人工智能時(shí)代來臨,智能語言處理、視覺識(shí)別等技術(shù)驅(qū)動(dòng)促進(jìn)媒體的智能化發(fā)展。媒體多元化內(nèi)容和跨媒體信息給新聞的質(zhì)量核校和內(nèi)容核查帶來了新的挑戰(zhàn)和機(jī)遇。
新華社技術(shù)局積極探索新技術(shù)應(yīng)用,將人工智能深度融合在全媒體采編發(fā)的內(nèi)容核校環(huán)節(jié),實(shí)現(xiàn)了新華社稿件核校工作從“人工”向“人工智能+”的階段性跨越?;趯?duì)新華社百萬級(jí)優(yōu)質(zhì)稿件進(jìn)行算法學(xué)習(xí),結(jié)合業(yè)務(wù)部門積累總結(jié)的權(quán)威語料庫,打造出“較真”智能檢校服務(wù)。本文結(jié)合“較真”的開發(fā)與實(shí)踐,介紹實(shí)現(xiàn)對(duì)新聞內(nèi)容質(zhì)量和網(wǎng)絡(luò)新聞的真實(shí)性進(jìn)行把控,建立更適配“主流媒體”的內(nèi)容核校機(jī)制的體會(huì)與認(rèn)識(shí)。
新媒體的新聞借助數(shù)字技術(shù)、網(wǎng)絡(luò)技術(shù),通過多類型移動(dòng)終端傳遞信息,具有即時(shí)性、強(qiáng)擴(kuò)散性、強(qiáng)互動(dòng)性等特點(diǎn)。信息傳播速度的提升,促使信息生產(chǎn)加速,事先審查的內(nèi)容激增、時(shí)間縮短、難度加大。高擴(kuò)散和互動(dòng)的特性使得信息傳播具有不可預(yù)測(cè)性,而另一方面,自媒體蓬勃發(fā)展,使得大量UGC(用戶產(chǎn)生內(nèi)容)出現(xiàn),匿名性、碎片化、娛樂性內(nèi)容缺乏合理規(guī)范約束,使得新聞內(nèi)容核查技術(shù)亟需升級(jí)。
借助人工智能技術(shù),國(guó)內(nèi)外機(jī)構(gòu)已經(jīng)形成了新的核查力量和核校機(jī)制。
1.通過人工智能拓展事實(shí)發(fā)現(xiàn)的渠道和維度。例如,路透社的“路透新聞追蹤器”能夠?qū)崟r(shí)監(jiān)控推特上的話題,從業(yè)者可在此基礎(chǔ)上依據(jù)該軟件算法設(shè)置的40項(xiàng)評(píng)分指標(biāo)判斷是否繼續(xù)進(jìn)行人工調(diào)查。
2.利用人工智能助力事實(shí)核查和版權(quán)檢驗(yàn)。例如,杜克大學(xué)記者實(shí)驗(yàn)室部署使用的ClaimBuster軟件能夠基于自然語言處理和機(jī)器學(xué)習(xí)技術(shù),區(qū)分文本中陳述性的事實(shí)和值得核查的觀點(diǎn)性內(nèi)容。該軟件使用來自直播活動(dòng)的音頻或視頻并將其轉(zhuǎn)換為文本,用過濾器識(shí)別其中有關(guān)事實(shí)的語句,然后將這些語句與數(shù)據(jù)庫進(jìn)行匹配。
3.使用人工智能改變傳媒內(nèi)容糾錯(cuò)的方式。例如,Grammarly為媒體撰稿人提供英語的語法糾錯(cuò),標(biāo)點(diǎn)修改,詞句潤(rùn)色,句子結(jié)構(gòu)優(yōu)化等功能。以色列Ginger產(chǎn)品可根據(jù)每句話的上下文在MS-Word、Outlook、PowerPoint、IE和Firefox中糾正拼寫和語法錯(cuò)誤。
隨著互聯(lián)網(wǎng)時(shí)代的到來,新媒體信息傳播迅捷,新華社發(fā)稿需求呈現(xiàn)出“新媒體時(shí)代無改稿”的特點(diǎn),對(duì)重要稿件準(zhǔn)確及時(shí)播發(fā)提出更高的要求,新聞內(nèi)容核校工作面臨更大的挑戰(zhàn)。技術(shù)局突破多項(xiàng)技術(shù)難點(diǎn),立足新聞稿件采寫需求,打造出具有高準(zhǔn)確率、強(qiáng)政治內(nèi)核的“較真”智能檢校服務(wù)。
1.以新聞場(chǎng)景為導(dǎo)向?!拜^真”是一款有新聞通訊社特點(diǎn)、具備政治屬性的智能內(nèi)容檢校服務(wù),不斷推出面向多個(gè)媒體場(chǎng)景的檢校能力。針對(duì)兩會(huì)新聞報(bào)道,更新兩會(huì)報(bào)道規(guī)范用語規(guī)則,對(duì)類似“社會(huì)主義核心價(jià)值觀”簡(jiǎn)稱規(guī)范,“大眾創(chuàng)業(yè)、萬眾創(chuàng)新”的誤用均進(jìn)行了語料更新。針對(duì)“新中國(guó)成立70周年”的18種不規(guī)范表達(dá),在國(guó)慶報(bào)道前增加檢校范圍,對(duì)類似情況查漏補(bǔ)缺。針對(duì)歷史稿件中曾出現(xiàn)的問題,建立邏輯排序、電頭檢查、敏感詞、人名不一致性檢查算法,將經(jīng)驗(yàn)成果不斷積累。比如將臺(tái)灣與新加坡不可以并列在一起,“全國(guó)人大常委會(huì)副委員長(zhǎng)”不應(yīng)該錯(cuò)為“全國(guó)人大副委員長(zhǎng)”等問題。
2.以主流規(guī)則為約束。新華社是國(guó)家通訊社,政治性差錯(cuò)雖然少見,但是影響面廣、后果嚴(yán)重。單純依靠機(jī)器學(xué)習(xí)解決不了政治屬性問題,所以我們?cè)黾恿舜罅咳斯ぴO(shè)定的規(guī)則作為系統(tǒng)的“定盤星”,將價(jià)值取向主觀因素轉(zhuǎn)換為可量化、可衡量的規(guī)則邏輯,把權(quán)威的數(shù)據(jù)變成知識(shí)庫,并且通過人機(jī)協(xié)同的方式不斷更新,從政治固定搭配、習(xí)慣語、邏輯規(guī)則多方實(shí)現(xiàn)對(duì)算法的駕馭。
3.以優(yōu)質(zhì)稿件為基石。優(yōu)質(zhì)的數(shù)據(jù)是好的決策結(jié)果的先決條件,對(duì)于高度依賴內(nèi)容的核校算法而言,優(yōu)質(zhì)的文字稿件就是一位優(yōu)秀的指導(dǎo)老師,為核校算法提供正確的學(xué)習(xí)方向和知識(shí)語料。新華社稿件涵蓋了政治、體育、社會(huì)、生活、文化等多種類型,數(shù)據(jù)規(guī)模龐大,目前在數(shù)據(jù)庫中的稿件總數(shù)超過1億條。稿件數(shù)據(jù)里面蘊(yùn)含了海量的語言智慧:優(yōu)質(zhì)的語言表達(dá)、合理的語義結(jié)構(gòu)、完善的知識(shí)特征。因此,我們以新華社稿件為學(xué)習(xí)語料,為后續(xù)算法進(jìn)行知識(shí)習(xí)得、理解領(lǐng)悟、遷移應(yīng)用創(chuàng)造了良好的應(yīng)用基礎(chǔ)和指導(dǎo)內(nèi)核。
4.以先進(jìn)算法為手段。在中文語境下,解決內(nèi)容核校問題是一道超級(jí)難題。錯(cuò)誤類型千奇百怪,有輸入法聯(lián)想導(dǎo)致的同音錯(cuò),拼音錯(cuò)誤,形近字錯(cuò)誤,網(wǎng)絡(luò)亂用語錯(cuò)誤等。而且,漢語表達(dá)主觀多樣,分詞斷句需要根據(jù)上下文語義進(jìn)行理解。
項(xiàng)目突破了對(duì)上下文語法及搭配錯(cuò)誤的判別技術(shù)難點(diǎn),以深度學(xué)習(xí)為基礎(chǔ),構(gòu)建基于LSTM、Fasttext、Ngram、Bert多個(gè)算法模型,針對(duì)詞模型、字模型、概率預(yù)測(cè),每個(gè)模型都有獨(dú)特的理解力,算法將多個(gè)模型共同進(jìn)行融合決策。對(duì)于可能出現(xiàn)錯(cuò)誤的位置進(jìn)行預(yù)判和修正,不斷調(diào)試參數(shù),機(jī)器逐步形成了對(duì)新聞?wù)Z法的表達(dá)概念。再利用強(qiáng)化學(xué)習(xí)“舉一反三”,通過快速記錄對(duì)錯(cuò)誤的反饋和干預(yù),進(jìn)行算法自我迭代,將系統(tǒng)調(diào)試得日趨精準(zhǔn)。
5.以自主研發(fā)為保障。新聞內(nèi)容核校是一個(gè)需要長(zhǎng)期維護(hù)的服務(wù)能力,互聯(lián)網(wǎng)信息傳播增速導(dǎo)致新詞、新概念、新說法層出不窮,我們依靠強(qiáng)大的自研團(tuán)隊(duì)和維護(hù)運(yùn)維團(tuán)隊(duì),完成對(duì)稿件數(shù)據(jù)學(xué)習(xí)、業(yè)務(wù)驗(yàn)證、增強(qiáng)數(shù)據(jù)學(xué)習(xí)的良性閉環(huán)。根據(jù)測(cè)試數(shù)據(jù)表明,“較真”智能檢校服務(wù)準(zhǔn)確性已經(jīng)超過市面同類廠商。
從2019年1月上線以來,“較真”智能檢校功能服務(wù)調(diào)用超過55萬余次,隨著服務(wù)推廣,每月使用量增長(zhǎng)超過30%,編輯部及職能部門用戶認(rèn)為“該系統(tǒng)算法先進(jìn),查錯(cuò)能力優(yōu)于傳統(tǒng)檢校軟件”,在多次重大報(bào)道發(fā)稿核校工作中為編輯記者提供了有力的輔助支撐。
在完善新華社自身對(duì)內(nèi)容核較之外,如何及時(shí)發(fā)現(xiàn)互聯(lián)網(wǎng)上的虛假新聞也是智能核校的發(fā)展方向。2018年《科學(xué)》指出,美國(guó)大選期間平均每人每天要看4篇假新聞?;谌斯ぶ悄芗夹g(shù)的造假能力遠(yuǎn)超虛假檢測(cè)能力。主動(dòng)研發(fā)針對(duì)算法作惡、新聞?wù)`導(dǎo)、機(jī)器人偽造等現(xiàn)象的核較能力是國(guó)家媒體的社會(huì)責(zé)任。
1.增強(qiáng)多媒體新聞可信度認(rèn)證
隨著互聯(lián)網(wǎng)傳播形態(tài)的變化,媒體開始往圖、文、短視頻的多媒體形式轉(zhuǎn)變。融媒體內(nèi)容承載著更加豐富與直觀的信息,因此虛假新聞更傾向于多媒體模式描述新聞事件,使得信息更容易傳播且更具煽動(dòng)性。因此,針對(duì)多媒體內(nèi)容的檢測(cè)是對(duì)新聞內(nèi)容核較的重要挑戰(zhàn)。通過特征、熱門圖片比例、圖片清晰度、壓縮比等方式,可發(fā)現(xiàn)新聞內(nèi)容本身的圖文不符合、圖片篡改等問題。通過判斷配圖是否具有強(qiáng)烈的視覺沖擊以及文字是否會(huì)有極端的情感煽動(dòng)性,可判斷新聞傳播真實(shí)性。
2.完善基于大數(shù)據(jù)的新聞質(zhì)量核校
為適應(yīng)新媒體時(shí)代新聞生產(chǎn)和傳播的新特點(diǎn),建立互聯(lián)網(wǎng)新聞可信度評(píng)估體系,從可讀性、邏輯性、可信度、專業(yè)性、交互性、有趣度、動(dòng)人度、完整性多個(gè)維度進(jìn)行新聞質(zhì)量評(píng)估預(yù)測(cè),通過大數(shù)據(jù)分析形成新聞寫作話術(shù)體系,從而為記者編輯撰寫高質(zhì)量新聞提供大數(shù)據(jù)的分析支撐和引導(dǎo)。
3.探索基于區(qū)塊鏈的新聞可靠性評(píng)估
區(qū)塊鏈新聞是將所有的新聞生產(chǎn)、制作、傳播等皆在“區(qū)塊鏈”場(chǎng)景中產(chǎn)生,所有的過程在區(qū)塊鏈程序代碼當(dāng)中留下標(biāo)記,具有透明可查且不可篡改等顯著特征,從而創(chuàng)造一種新機(jī)制來追蹤和評(píng)估新聞的可靠性,這一機(jī)制與區(qū)塊鏈技術(shù)應(yīng)用的分布式存儲(chǔ)結(jié)構(gòu)、密碼學(xué)、智能合約等技術(shù)相關(guān)。此方法局限性在于只能覆蓋區(qū)塊鏈上呈現(xiàn)的范圍,離開這個(gè)場(chǎng)域的新聞生產(chǎn)過程依然存在監(jiān)管死角。