任鼎
在2019年1月,習(xí)近平總書(shū)記在中共中央政治局第十二次集體學(xué)習(xí)時(shí)強(qiáng)調(diào),探索將人工智能運(yùn)用在新聞采集、生產(chǎn)、分發(fā)、接收、反饋中,全面提高輿論引導(dǎo)能力。機(jī)器新聞寫(xiě)作作為人工智能與新聞業(yè)相結(jié)合的典型代表,是新聞業(yè)基于人工智能技術(shù)創(chuàng)新出的內(nèi)容生產(chǎn)方式。在媒體競(jìng)爭(zhēng)中,回歸優(yōu)質(zhì)內(nèi)容將是媒體內(nèi)容生產(chǎn)的重要趨勢(shì),新聞內(nèi)容的高質(zhì)量和多元化是其主要競(jìng)爭(zhēng)力,這勢(shì)必會(huì)推動(dòng)新聞內(nèi)核的重歸。機(jī)器新聞寫(xiě)作對(duì)搜集和輸入的數(shù)據(jù)信息進(jìn)行自動(dòng)化的分析、處理和加工,進(jìn)而根據(jù)特定的場(chǎng)景生成一篇較為完整的新聞報(bào)道,通常包括數(shù)據(jù)挖掘、知識(shí)圖譜、自然語(yǔ)言處理、事理圖譜、神經(jīng)網(wǎng)絡(luò)、深度學(xué)習(xí)等人工智能技術(shù)。
機(jī)器新聞寫(xiě)作應(yīng)用現(xiàn)狀
機(jī)器新聞寫(xiě)作最早起源于美國(guó),至今仍然以絕對(duì)的優(yōu)勢(shì)領(lǐng)先,中國(guó)在第二批發(fā)展浪潮中表現(xiàn)亮眼,瑞典、英國(guó)、法國(guó)、丹麥等國(guó)家緊隨其后。目前機(jī)器新聞寫(xiě)作的話題較為局限,以體育競(jìng)技與經(jīng)濟(jì)熱點(diǎn)為主,包括體育賽況報(bào)告、財(cái)報(bào)解讀等,社會(huì)民生、自然災(zāi)害、氣象變化等話題占比合計(jì)僅為30%。
在國(guó)外,美聯(lián)社、雅虎、華盛頓郵報(bào)、BBC新聞都已開(kāi)始使用機(jī)器新聞寫(xiě)作技術(shù)來(lái)負(fù)責(zé)稿件的生成,其中,華盛頓郵報(bào)的Heliograf軟件,只需編輯設(shè)置稿件模板,確定好關(guān)鍵詞便可完成稿件編寫(xiě),升級(jí)之后,可以用更加專(zhuān)業(yè)的評(píng)論語(yǔ)氣和分析事情的思路進(jìn)行寫(xiě)稿;BBC新聞實(shí)驗(yàn)室的Juicer在2012年被首次引入,它的任務(wù)包括新聞快訊、視頻新聞、政府公告、社交媒體信息等在內(nèi)的海量數(shù)據(jù)匯集,并進(jìn)行自由調(diào)用,同時(shí)監(jiān)控著850余個(gè)媒體新聞源、政府信息源和部分互聯(lián)網(wǎng)新聞源,再將其分門(mén)別類(lèi)以供寫(xiě)稿使用。
中國(guó)的機(jī)器新聞寫(xiě)作研究起步較晚,但發(fā)展迅速,新華社的“快筆小新”在擅長(zhǎng)的體育和財(cái)經(jīng)領(lǐng)域,編輯記者需要用15~30分鐘時(shí)間完成的稿件,小新只需要3~5秒鐘,而且小新可根據(jù)文字自動(dòng)搜索資源庫(kù)匹配關(guān)聯(lián)性最強(qiáng)的圖片、視頻、音頻素材,自動(dòng)制作成一段視頻,同時(shí)支持語(yǔ)言配音。封面新聞的小封機(jī)器人在2018年世界杯期間總共推送了世界杯相關(guān)資訊600多篇,獲得了全網(wǎng)總閱讀量超2億的成績(jī)。字節(jié)跳動(dòng)Xiaomingbot作為首個(gè)3D多語(yǔ)言AI記者,除了新聞寫(xiě)作的基本功能外,還被賦予了3D動(dòng)畫(huà)形象,能夠配合文本內(nèi)容完成多種語(yǔ)言的新聞播報(bào)任務(wù)。
機(jī)器新聞寫(xiě)作技術(shù)支撐
人工智能的三大支撐為算力、數(shù)據(jù)與算法,機(jī)器新聞寫(xiě)作同樣如此。算力被形容為支撐人工智能走向應(yīng)用的“發(fā)動(dòng)機(jī)”,芯片、加速計(jì)算、服務(wù)器等軟硬件技術(shù)和產(chǎn)品的完整系統(tǒng)提供超強(qiáng)算力,幫助算法快速運(yùn)算出結(jié)果。數(shù)據(jù)作為大數(shù)據(jù)時(shí)代的基石,為人工智能的實(shí)際應(yīng)用提供“燃料”,大數(shù)據(jù)具備5V特點(diǎn)(IBM提出):Volume(大量)、Velocity(高速)、Variety(多樣)、Value(低價(jià)值密度)、Veracity(真實(shí)性)。算法模型是人工智能落地的“承載體”,其復(fù)雜度不斷加深,解決問(wèn)題的能力以及服務(wù)的業(yè)務(wù)場(chǎng)景也不斷增強(qiáng)。
硬件平臺(tái)支撐。在人工智能發(fā)展的早期階段,以能力訓(xùn)練為核心,這一階段更多的計(jì)算負(fù)載集中在離線的數(shù)據(jù)中心。在進(jìn)入大規(guī)模應(yīng)用階段后,人工智能的能力賦能產(chǎn)品或行業(yè)解決方案,成為普適的應(yīng)用技術(shù),在這一階段將呈現(xiàn)“云+端”部署、分散化、終端化、場(chǎng)景化的特點(diǎn),對(duì)算力的需求也將迅速增長(zhǎng),更加多元化。
媒體大數(shù)據(jù)云服務(wù)平臺(tái)基礎(chǔ)。媒體大數(shù)據(jù)云服務(wù)平臺(tái)涵蓋數(shù)據(jù)采集、數(shù)據(jù)挖掘、自然語(yǔ)言處理、計(jì)算機(jī)視覺(jué)處理等一系列的相關(guān)技術(shù)與理論,并對(duì)海量文、圖、音視頻數(shù)據(jù)進(jìn)行統(tǒng)一采集、處理、存儲(chǔ)、檢索以及深度智能挖掘分析的大數(shù)據(jù)平臺(tái)。
數(shù)據(jù)采集。數(shù)據(jù)是起點(diǎn),數(shù)據(jù)讓機(jī)器新聞寫(xiě)作所需內(nèi)容的關(guān)聯(lián)、預(yù)測(cè)、分析成為可能。數(shù)據(jù)采集為大數(shù)據(jù)平臺(tái)的基礎(chǔ),廣泛、大量、多樣性的真實(shí)數(shù)據(jù)保障模型的學(xué)習(xí)訓(xùn)練與優(yōu)化。
大數(shù)據(jù)平臺(tái)的數(shù)據(jù)源大致可以分為三類(lèi):互聯(lián)網(wǎng)公開(kāi)采集數(shù)據(jù)、中央媒體新聞稿件、媒體單位內(nèi)部數(shù)據(jù)。由于外部數(shù)據(jù)的獲取渠道不同,需要多種數(shù)據(jù)采集方式,以實(shí)現(xiàn)覆蓋新聞/視頻網(wǎng)站、微博、微信、移動(dòng)新聞客戶端等多種媒體渠道的文、圖、音視頻的富文本數(shù)據(jù)采集。
大數(shù)據(jù)平臺(tái)建設(shè)。隨著智能媒體時(shí)代到來(lái),傳統(tǒng)媒體正處于向新型智能媒體的轉(zhuǎn)型期。構(gòu)建媒體大數(shù)據(jù)服務(wù)平臺(tái)為媒體單位的網(wǎng)站、官方微博、微信、移動(dòng)新聞客戶端的運(yùn)營(yíng)提供強(qiáng)有力的數(shù)據(jù)支撐,也為機(jī)器新聞寫(xiě)作提供底層數(shù)據(jù)支持,助力技術(shù)與傳統(tǒng)媒體和新媒體在新聞生產(chǎn)、內(nèi)容傳播、技術(shù)創(chuàng)新、產(chǎn)品創(chuàng)新、服務(wù)創(chuàng)新等方面深度結(jié)合。
機(jī)器新聞寫(xiě)作旨在特定的新聞報(bào)道場(chǎng)景下,如重大突發(fā)性事件、體育、財(cái)經(jīng)等,可以快速地生產(chǎn)出內(nèi)容,在這一過(guò)程中,并不否定人參與的重要性,而是通過(guò)機(jī)器新聞寫(xiě)作得到完成度極高的稿件內(nèi)容,在機(jī)器或者人工審核通過(guò)后進(jìn)行最終發(fā)布。為了保障機(jī)器新聞寫(xiě)作的成稿質(zhì)量,數(shù)據(jù)的規(guī)范性以及標(biāo)簽體系的構(gòu)建顯得尤為重要,數(shù)據(jù)的準(zhǔn)確性與代表性是模型學(xué)習(xí)訓(xùn)練的關(guān)鍵,這對(duì)大數(shù)據(jù)平臺(tái)的建設(shè)提出了較高的要求。
非結(jié)構(gòu)化數(shù)據(jù)的數(shù)據(jù)消重、垃圾信息過(guò)濾、非相關(guān)數(shù)據(jù)過(guò)濾、統(tǒng)一格式等多種數(shù)據(jù)處理操作,轉(zhuǎn)換為格式規(guī)范的數(shù)據(jù),并存入數(shù)據(jù)資源池。自然語(yǔ)言處理技術(shù)與計(jì)算機(jī)視覺(jué)處理技術(shù)實(shí)現(xiàn)文本數(shù)據(jù)的多維挖掘分析,以及圖像內(nèi)容的提取分析識(shí)別處理。
圍繞當(dāng)前媒體融合發(fā)展的趨勢(shì),針對(duì)不同行業(yè)以及媒體單位屬性構(gòu)建符合其特點(diǎn)的分類(lèi)標(biāo)簽體系,對(duì)來(lái)自不同媒體渠道、不同表現(xiàn)形式、不同數(shù)據(jù)字段的多媒體數(shù)據(jù)進(jìn)行分類(lèi)與標(biāo)注,從而快速發(fā)現(xiàn)互聯(lián)網(wǎng)熱點(diǎn)線索與信息,為機(jī)器新聞寫(xiě)作提供方向與素材。
應(yīng)用服務(wù)。脫離了應(yīng)用場(chǎng)景的機(jī)器新聞寫(xiě)作以及人工智能技術(shù)是沒(méi)有意義的,技術(shù)的發(fā)展更新迭代都是為了更好地服務(wù)業(yè)務(wù)場(chǎng)景的實(shí)際應(yīng)用需要,技術(shù)、算法與模型的實(shí)際落地也需要同應(yīng)用服務(wù)場(chǎng)景相結(jié)合。
算法模型支撐。算法是計(jì)算機(jī)科學(xué)領(lǐng)域最重要的基石之一,算法與模型自人工智能與機(jī)器新聞寫(xiě)作技術(shù)提出以來(lái)就備受關(guān)注,諸多公司將算法作為企業(yè)的核心競(jìng)爭(zhēng)力之一。算法按照模型訓(xùn)練方式和解決任務(wù)不同可以劃分為很多類(lèi)型,在具體的業(yè)務(wù)場(chǎng)景中,算法的選擇與使用也呈現(xiàn)出差異化的特點(diǎn)。
目前的機(jī)器新聞寫(xiě)作大致可以分為兩類(lèi):一是將數(shù)據(jù)填空到系統(tǒng)模板形成新聞,模板是常量,數(shù)據(jù)是變量;二是從管理系統(tǒng)獲取數(shù)據(jù),將數(shù)據(jù)進(jìn)行分類(lèi)、篩選、匯總、計(jì)算處理后,利用最終數(shù)據(jù)形成文本,主要適用于寫(xiě)作財(cái)經(jīng)類(lèi)新聞文本?,F(xiàn)有機(jī)器新聞寫(xiě)作報(bào)道算法缺乏針對(duì)深度報(bào)道、追蹤報(bào)道以及富文本形式報(bào)道的稿件生成算法,隨著短視頻的興起,針對(duì)短視頻的機(jī)器新聞寫(xiě)作報(bào)道也將是大家關(guān)注的焦點(diǎn)。
新聞熱點(diǎn)發(fā)現(xiàn)與新聞素材匹配。基于內(nèi)容相似度計(jì)算模型與聚類(lèi)算法模型,對(duì)大數(shù)據(jù)平臺(tái)中的素材進(jìn)行相似度計(jì)算與內(nèi)容聚類(lèi),快速發(fā)現(xiàn)互聯(lián)網(wǎng)新聞熱點(diǎn)線索,為機(jī)器新聞寫(xiě)作提供內(nèi)容創(chuàng)作方向。構(gòu)建從語(yǔ)言、圖片和視頻到文本的跨模態(tài)語(yǔ)義映射和對(duì)齊,對(duì)未標(biāo)注的原始數(shù)據(jù)進(jìn)行自動(dòng)精確的文本標(biāo)注,將提取到的語(yǔ)義特征投影到深度特征空間進(jìn)行面向語(yǔ)義理解的多層次的深度匹配,以實(shí)現(xiàn)在報(bào)道需求確定后,新聞素材的快速匹配。
新聞報(bào)道脈絡(luò)挖掘。以大數(shù)據(jù)平臺(tái)提供的新聞素材為數(shù)據(jù)基礎(chǔ),事理圖譜與馬爾科夫隨機(jī)場(chǎng)為計(jì)算模型學(xué)習(xí)新聞報(bào)道事件間的因果關(guān)系,使模型實(shí)現(xiàn)自動(dòng)識(shí)別新聞報(bào)道脈絡(luò),并具備連續(xù)報(bào)道事件的能力。
典型新聞報(bào)道場(chǎng)景下新聞與短視頻生成。對(duì)語(yǔ)音、圖片、視頻數(shù)據(jù)的文本標(biāo)注,結(jié)合知識(shí)圖譜技術(shù)與弱監(jiān)督學(xué)習(xí)的方法,融合多元信息,面向新聞素材領(lǐng)域的弱監(jiān)督遷移學(xué)習(xí)?;谧匀徽Z(yǔ)言生成算法和注意力機(jī)制,實(shí)現(xiàn)端到端學(xué)習(xí)自動(dòng)生成新聞文本,自動(dòng)選擇圖片與視頻素材,不斷提高學(xué)習(xí)網(wǎng)絡(luò)模型的魯棒性。最終形成面向多領(lǐng)域、多主題事件模型的泛化性,開(kāi)展零次學(xué)習(xí)、主動(dòng)學(xué)習(xí)與強(qiáng)化學(xué)習(xí)的模式。
在機(jī)器新聞寫(xiě)作走向應(yīng)用的過(guò)程中,以業(yè)務(wù)場(chǎng)景為核心,實(shí)現(xiàn)以最少的數(shù)據(jù)、最簡(jiǎn)單的模型、最少的計(jì)算力解決最實(shí)際的問(wèn)題,達(dá)到最好的效果。
機(jī)器新聞寫(xiě)作評(píng)價(jià)體系
機(jī)器新聞寫(xiě)作自2015年走入國(guó)內(nèi)公眾的視野以來(lái),已經(jīng)歷了5年的發(fā)展,機(jī)器新聞寫(xiě)作評(píng)價(jià)體系的建立對(duì)算法模型與數(shù)據(jù)質(zhì)量的優(yōu)化將起到一定的指導(dǎo)性作用。目前,國(guó)內(nèi)外還沒(méi)有針對(duì)機(jī)器新聞寫(xiě)作評(píng)價(jià)體系的權(quán)威發(fā)布,對(duì)標(biāo)傳統(tǒng)媒體內(nèi)容與新媒體內(nèi)容稿件的評(píng)價(jià)標(biāo)準(zhǔn)與指標(biāo)權(quán)重體系,維度包含內(nèi)容的完整性、準(zhǔn)確性與時(shí)效性,內(nèi)容安全,傳播效果以及寫(xiě)稿的效率評(píng)估。
內(nèi)容的完整性、準(zhǔn)確性與時(shí)效性。在地震、爆炸、事故等重大突發(fā)性事件的報(bào)道工作中,基于其硬新聞的屬性,有極嚴(yán)格的時(shí)間要求,報(bào)道必須迅速、準(zhǔn)確、信息盡可能量化,這類(lèi)新聞一般帶有強(qiáng)烈的時(shí)效性、廣泛性和指向性。機(jī)器新聞寫(xiě)作,可實(shí)現(xiàn)文字、圖片、短視頻等多媒體稿件與專(zhuān)題的自動(dòng)生成,大大減少了新聞成稿的時(shí)間,也保證了內(nèi)容的完整、準(zhǔn)確與時(shí)效。
內(nèi)容安全。在新聞的內(nèi)容審核環(huán)節(jié),可以對(duì)文字、圖片、音視頻進(jìn)行基于人工智能的內(nèi)容審核,精準(zhǔn)識(shí)別涉政、涉黃、涉暴、涉恐和敏感人物等信息,有效管控業(yè)務(wù)違規(guī)風(fēng)險(xiǎn)。
通過(guò)語(yǔ)法分析、語(yǔ)義分析、知識(shí)圖譜、規(guī)則模型以及檢索模型等技術(shù)實(shí)現(xiàn)稿件內(nèi)容審查。解決常見(jiàn)的字詞差錯(cuò)、標(biāo)點(diǎn)差錯(cuò)、政治性差錯(cuò)、常識(shí)性差錯(cuò)、中英文關(guān)鍵詞差錯(cuò)等類(lèi)型,實(shí)現(xiàn)自動(dòng)查錯(cuò)、手動(dòng)糾錯(cuò),提示錯(cuò)誤原因、修改建議,并可統(tǒng)計(jì)錯(cuò)情、生成勘誤表。
傳播效果。機(jī)器新聞寫(xiě)作的內(nèi)容大多發(fā)布在新媒體渠道中,在早先學(xué)者的研究中,網(wǎng)絡(luò)新聞的傳播效果體現(xiàn)在:一是網(wǎng)民的新聞消費(fèi)行為,二是網(wǎng)民的新聞生產(chǎn)行為,三是媒體的反應(yīng),并且提出了點(diǎn)擊量、網(wǎng)站訪問(wèn)瀏覽量、網(wǎng)民搜索等網(wǎng)民消費(fèi)行為的評(píng)估方式,網(wǎng)民評(píng)論、轉(zhuǎn)發(fā)、收藏、受眾調(diào)查等網(wǎng)民新聞生產(chǎn)行為的評(píng)估方式以及從媒體轉(zhuǎn)發(fā)量、媒體跟進(jìn)報(bào)道兩個(gè)方面分析媒體反應(yīng)與網(wǎng)絡(luò)新聞傳播效果的評(píng)估方式。
機(jī)器新聞寫(xiě)作寫(xiě)稿效率。機(jī)器新聞寫(xiě)作需要與現(xiàn)媒體單位使用的數(shù)據(jù)庫(kù)、采編系統(tǒng)、發(fā)布系統(tǒng)、媒資系統(tǒng)等平臺(tái)以及環(huán)境相適配,確保順利運(yùn)行。同時(shí),作為新的生產(chǎn)工具,需要一定的可操作性與便捷性,才能更快地推動(dòng)落地應(yīng)用。
機(jī)器新聞寫(xiě)作的優(yōu)勢(shì)與影響
新聞內(nèi)容的生產(chǎn)方式在由PGC(媒體生產(chǎn)內(nèi)容)到UGC(用戶生產(chǎn)內(nèi)容),再到AGC(算法生產(chǎn)內(nèi)容)的演變趨勢(shì)發(fā)展。機(jī)器新聞寫(xiě)作依托數(shù)據(jù)與算法自動(dòng)生成新聞稿件,避免了主觀因素導(dǎo)致的新聞失實(shí),減輕新聞創(chuàng)作者的重復(fù)性工作,使新聞的生產(chǎn)與傳播更加高效,內(nèi)容更加豐富。
真實(shí)、準(zhǔn)確、客觀。新聞具有播散性與導(dǎo)向性,真實(shí)、準(zhǔn)確、客觀是新聞報(bào)道工作的基本要求,在新聞生產(chǎn)過(guò)程中,為報(bào)道一篇作品,新聞人員需要對(duì)歷史新聞數(shù)據(jù)有基本的了解與掌握,而對(duì)于素材的收集整理歸類(lèi)是一項(xiàng)需要時(shí)間的繁重且重復(fù)性工作。機(jī)器新聞寫(xiě)作一是可以將新聞工作者從重復(fù)的素材整理工作中解脫出來(lái),二是能提高內(nèi)容生產(chǎn)的真實(shí)性、準(zhǔn)確性與客觀性。
快速、高產(chǎn)。前文提到的美聯(lián)社使用的Wordsmith平臺(tái),每秒甚至能生產(chǎn)2000篇文章,每周將可以寫(xiě)出上百萬(wàn)篇文章。財(cái)報(bào)報(bào)道的工作效率已經(jīng)大大超過(guò)預(yù)期,在采用該平臺(tái)之前,每季度僅能夠完成300家企業(yè)的財(cái)報(bào),而現(xiàn)在能夠完成3000家企業(yè)的報(bào)道。
對(duì)于地震、火災(zāi)等突發(fā)性重大事件的報(bào)道,機(jī)器新聞寫(xiě)作在報(bào)道速度方面體現(xiàn)了極大的優(yōu)勢(shì)。2017年,九寨溝地震的第一條新聞報(bào)道便來(lái)自于寫(xiě)稿機(jī)器人,7.0級(jí)地震報(bào)道用時(shí)25秒,其他余震消息僅用時(shí)5秒。
結(jié)語(yǔ)
馬克思在《資本論》中提出:“社會(huì)勞動(dòng)生產(chǎn)力首先是科學(xué)的力量。大工業(yè)把巨大的自然力和自然科學(xué)并入生產(chǎn)過(guò)程,必然會(huì)極大地提高勞動(dòng)生產(chǎn)率?!比斯ぶ悄艿目焖侔l(fā)展給生產(chǎn)效率帶來(lái)了提升,諸多行業(yè)都享受到了這次技術(shù)革新帶來(lái)的紅利。在智能媒體時(shí)代,從新聞素材采集、數(shù)據(jù)處理與分類(lèi)標(biāo)簽、新聞報(bào)道選題策劃、富文本內(nèi)容的生產(chǎn)編輯、新聞的發(fā)布與精準(zhǔn)推送、新聞人員的績(jī)效考核,人工智能將參與到媒體行業(yè)的各個(gè)環(huán)節(jié)。
太極計(jì)算機(jī)股份有限公司深耕媒體行業(yè)20年,長(zhǎng)期服務(wù)于媒體單位,見(jiàn)證并參與了媒體行業(yè)的技術(shù)發(fā)展及產(chǎn)業(yè)轉(zhuǎn)型,太極深刻地理解技術(shù)給媒體帶來(lái)的巨大影響。人工智能等新技術(shù)將持續(xù)賦能媒體應(yīng)用,創(chuàng)新新聞創(chuàng)作、發(fā)布形式,太極將同媒體單位一起擁抱新技術(shù),引領(lǐng)媒體融合的未來(lái)。
作者系太極計(jì)算機(jī)股份有限公司文旅戰(zhàn)略業(yè)務(wù)本部業(yè)務(wù)發(fā)展中心總經(jīng)理