王 勇 王 磊 孟光升
美國技術(shù)史學(xué)家魯斯·施瓦茨·柯望曾指出:“電子傳播的整個(gè)歷史,都遵循著在20世紀(jì)最初幾十年的廣播歷史中建立起來的模式”;“在無線電廣播出現(xiàn)的早期,許多人認(rèn)為這將是人類傳播的最終形式,……但有些善于發(fā)明創(chuàng)造的人已經(jīng)開始嘗試設(shè)計(jì)新的傳播介質(zhì)”;“電子界的變化步伐一直是相當(dāng)快的,而且沒有哪個(gè)單獨(dú)的人、公司、元器件或媒介能夠長(zhǎng)時(shí)間地占據(jù)主導(dǎo)地位”[1]。特別是近年來,隨著計(jì)算機(jī)技術(shù)、互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展,傳播技術(shù)更是呈現(xiàn)出加速度發(fā)展趨勢(shì),新的傳播工具、傳播手段不斷涌現(xiàn),并帶來了新聞生產(chǎn)方式的不斷變革。就在數(shù)據(jù)新聞方興未艾,被認(rèn)為是“新聞發(fā)展趨勢(shì)”“新聞改革方向”,甚至是“新聞業(yè)的未來”時(shí),機(jī)器人新聞?dòng)謾M空出世了?!懊缆?lián)社、紐約時(shí)報(bào)用機(jī)器人寫新聞的消息一度充斥媒體,最近騰訊財(cái)經(jīng)也用機(jī)器人寫新聞了”[2];“近兩年來,‘機(jī)器人記者’以迅猛之勢(shì)進(jìn)入了大眾視野”[3],“國內(nèi)外新聞業(yè)界和學(xué)界都在熱議‘機(jī)器人新聞’”[4]。
機(jī)器人新聞是在數(shù)據(jù)新聞的基礎(chǔ)上發(fā)展起來的,是對(duì)數(shù)據(jù)新聞的超越,擁有一些數(shù)據(jù)新聞所不可比擬的優(yōu)勢(shì)。但作為一種新的新聞報(bào)道方式和傳播手段,機(jī)器人新聞并不完美,它不但繼承了數(shù)據(jù)新聞的一些“基因缺陷”,而且還存在一些新技術(shù)所帶來的不足。
數(shù)據(jù)新聞與機(jī)器人新聞都是計(jì)算機(jī)時(shí)代、互聯(lián)網(wǎng)時(shí)代、大數(shù)據(jù)時(shí)代的產(chǎn)物,都是通過計(jì)算機(jī)技術(shù)、互聯(lián)網(wǎng)技術(shù)搜集、過濾、統(tǒng)計(jì)、分析數(shù)據(jù)信息,發(fā)現(xiàn)有價(jià)值的新聞事實(shí),產(chǎn)制新聞。數(shù)據(jù)信息是數(shù)據(jù)新聞和機(jī)器人新聞共同的基礎(chǔ)和核心內(nèi)容。
數(shù)據(jù)新聞(data journalism),“是指采用計(jì)算機(jī)技術(shù)、網(wǎng)絡(luò)技術(shù)抓取、挖掘、過濾、統(tǒng)計(jì)、分析數(shù)據(jù)和可視化呈現(xiàn)數(shù)據(jù)來報(bào)道具有新聞價(jià)值的事實(shí)的新聞報(bào)道形式”[5]。2009年,英國《衛(wèi)報(bào)》率先嘗試進(jìn)行數(shù)據(jù)新聞的生產(chǎn)實(shí)踐;2010年,全球第一屆國際數(shù)據(jù)新聞圓桌會(huì)議在荷蘭阿姆斯特丹召開;2011年,第一本數(shù)據(jù)新聞專業(yè)書籍《數(shù)據(jù)新聞手冊(cè)》在歐洲新聞學(xué)中心和開放知識(shí)基金會(huì)的倡導(dǎo)下編寫面世;2012年,首個(gè)國際數(shù)據(jù)新聞獎(jiǎng)由谷歌與全球編輯網(wǎng)合作設(shè)立并進(jìn)行了首次評(píng)獎(jiǎng)?lì)C獎(jiǎng)。此后數(shù)據(jù)新聞風(fēng)靡世界許多大大小小的新聞媒體,成為一種非常熱門的新聞報(bào)道方式和傳播手段。
數(shù)據(jù)新聞的關(guān)鍵和核心是“數(shù)據(jù)”,它是通過抓取、分析數(shù)據(jù)信息和可視化呈現(xiàn)數(shù)據(jù)來報(bào)道新聞的,所以數(shù)據(jù)新聞?dòng)直环Q為“數(shù)據(jù)驅(qū)動(dòng)的新聞”(data driven journalism)?!皵?shù)據(jù)新聞的產(chǎn)生,是社會(huì)的進(jìn)步、媒介環(huán)境的變化、技術(shù)的發(fā)展、受眾的需求、新聞界的追求等多種因素共同影響、共同作用的結(jié)果”[6],其中有兩個(gè)最關(guān)鍵的推動(dòng)因素:
一是社會(huì)的發(fā)展進(jìn)步帶來了大量可獲取的數(shù)據(jù)資源。進(jìn)入21世紀(jì)后,民主理念進(jìn)一步普及,加之“維基解密事件”等一些重要事件的推動(dòng)和倒逼,使信息公開特別是涉及公共利益的信息的公開成為時(shí)代共識(shí)和社會(huì)強(qiáng)烈要求,信息公開以及信息收集、加工、存儲(chǔ)、傳播技術(shù)的發(fā)展帶來了大量可公開獲取的數(shù)據(jù)資源;而互聯(lián)網(wǎng)、手機(jī)等新媒體和博客、論壇、播客、微博、微信、推特、臉譜等社交媒體的不斷普及,成為人們學(xué)習(xí)、工作、娛樂、社交的重要工具和發(fā)表意見、交流感情、表達(dá)思想的重要平臺(tái),它們記錄下了人們的思想、態(tài)度、行為方面的海量信息;還有物聯(lián)網(wǎng)時(shí)代遍布社會(huì)各個(gè)角落的傳感器記錄下的海量信息等,這些都使可挖掘、獲取、分析的數(shù)據(jù)資源前所未有的豐富。
二是科學(xué)技術(shù)的發(fā)展進(jìn)步提高了挖掘、抓取和處理數(shù)據(jù)的技術(shù)。近年來,隨著科學(xué)技術(shù)的發(fā)展,特別是計(jì)算機(jī)技術(shù)、互聯(lián)網(wǎng)技術(shù)的發(fā)展,數(shù)據(jù)挖掘、抓取、過濾、統(tǒng)計(jì)、分析和可視化技術(shù)得到了長(zhǎng)足進(jìn)步,從而為新聞媒體獲取數(shù)據(jù)、處理數(shù)據(jù)、可視化呈現(xiàn)數(shù)據(jù)奠定了技術(shù)基礎(chǔ)。
總之,正是社會(huì)的進(jìn)步帶來了大量可獲取的數(shù)據(jù)資源,科技的發(fā)展帶來了挖掘、抓取和處理數(shù)據(jù)的技術(shù),從而促發(fā)了數(shù)據(jù)新聞的產(chǎn)生。
機(jī)器人新聞(robot journalism),又稱自動(dòng)化新聞(automated journalism)、計(jì)算機(jī)生成內(nèi)容(computer-generated content)等等,“是指由新聞機(jī)器人自動(dòng)搜集、分析數(shù)據(jù)信息,發(fā)現(xiàn)有價(jià)值的新聞事實(shí),并套用既有的新聞模板自動(dòng)撰寫而成的新聞”[7]。機(jī)器人新聞與傳統(tǒng)新聞或者說一般新聞最大的區(qū)別是,直接從事機(jī)器人新聞生產(chǎn)的主角不是人類記者,而是新聞機(jī)器人,即“一套軟件或算法語言”,“它自動(dòng)采集數(shù)據(jù),然后撰寫成人類可讀的內(nèi)容”[4]。
機(jī)器人新聞與數(shù)據(jù)新聞一樣,也是利用計(jì)算機(jī)技術(shù)、互聯(lián)網(wǎng)技術(shù)挖掘、抓取、過濾、統(tǒng)計(jì)、分析數(shù)據(jù)信息來報(bào)道具有新聞價(jià)值的事實(shí),數(shù)據(jù)也是機(jī)器人新聞的基礎(chǔ)和核心內(nèi)容。早在1968年,美國明尼阿波利斯《明星論壇報(bào)》的編輯兼出版商Otto Silha在一次公開演講中,曾設(shè)想了未來的編輯機(jī),它能“用數(shù)值確定故事中每個(gè)單詞的價(jià)值,并通過數(shù)學(xué)公式確定故事中最重要的是什么,然后按照指示,重新生成故事”[8]。這是對(duì)新聞機(jī)器人的較早構(gòu)想,這一構(gòu)想的重要意義在于它較早地認(rèn)識(shí)到“數(shù)值”轉(zhuǎn)變?cè)谧詣?dòng)化寫作中的重要性,在于它向人們提示了數(shù)據(jù)是機(jī)器人新聞的基礎(chǔ)和核心?!敖裉?,正是來自商業(yè)報(bào)道的財(cái)報(bào)、體育報(bào)道的賽事、醫(yī)療的臨床數(shù)據(jù)、天氣預(yù)報(bào)的氣象指標(biāo)、教育的升學(xué)和就業(yè)指數(shù)、交通路況的行車流量等不同領(lǐng)域的信息,經(jīng)過數(shù)據(jù)化處理后成為驅(qū)動(dòng)機(jī)器自動(dòng)撰寫新聞報(bào)道的不竭‘原油’”;“數(shù)據(jù)是機(jī)器新聞生產(chǎn)的‘原油’”[8]。如美國Autamated Insights公司開發(fā)的新聞機(jī)器人Wordsmith,將它與相關(guān)的數(shù)據(jù)平臺(tái)連接,就能自動(dòng)即時(shí)獲取數(shù)據(jù),迅速完成數(shù)據(jù)處理和信息發(fā)布?!皺C(jī)器之所以能運(yùn)用數(shù)據(jù)快速進(jìn)行自動(dòng)化新聞生產(chǎn),不僅取決于Wordsmith之類的自動(dòng)寫作軟件已具備對(duì)數(shù)據(jù)進(jìn)行快速處理的能力,更重要的是數(shù)據(jù)本身具有規(guī)模化、操作透明化、獲取開放性等‘媒介性’”[8];“適合通過機(jī)器或算法進(jìn)行的新聞寫作,一般是以各種數(shù)據(jù)、圖表的引用和分析為基礎(chǔ)的硬新聞,新聞的主體來源于對(duì)數(shù)據(jù)的引用、解釋和分析,具有明顯的‘?dāng)?shù)據(jù)處理’色彩”[9];“機(jī)器人新聞的產(chǎn)生基于日益龐大的數(shù)據(jù)庫,是數(shù)據(jù)新聞的延伸和應(yīng)用?!盵10]
機(jī)器人新聞雖然與數(shù)據(jù)新聞一樣通過利用計(jì)算機(jī)、互聯(lián)網(wǎng)技術(shù)抓取、處理數(shù)據(jù)來報(bào)道新聞,但機(jī)器人新聞是在數(shù)據(jù)新聞的基礎(chǔ)上的進(jìn)一步發(fā)展。數(shù)據(jù)新聞是人類記者確立新聞選題后,設(shè)計(jì)數(shù)據(jù)挖掘、抓取、過濾、統(tǒng)計(jì)、分析程序,并操作程序來挖掘、抓取、過濾、統(tǒng)計(jì)、分析相關(guān)數(shù)據(jù),發(fā)現(xiàn)新聞故事,并由人類記者撰寫新聞,用可視化技術(shù)呈現(xiàn)新聞,人在其中起關(guān)鍵作用,計(jì)算機(jī)程序只起輔助作用,所以數(shù)據(jù)新聞也被人稱之為“計(jì)算機(jī)輔助報(bào)道”[11];而機(jī)器人新聞是人類根據(jù)某類基于數(shù)據(jù)化事實(shí)的新聞,設(shè)計(jì)一套“搜集數(shù)據(jù)——分析數(shù)據(jù)——套用模板——撰寫稿件”程序,并讓其自動(dòng)與相關(guān)數(shù)據(jù)平臺(tái)相連,自動(dòng)運(yùn)行,一旦有數(shù)據(jù)生成,它就自動(dòng)抓取、分析數(shù)據(jù),并按既有模板撰寫稿件。這其中除了設(shè)計(jì)程序以及有些在最后設(shè)有人工審核把關(guān)環(huán)節(jié)外,全部都是由計(jì)算機(jī)程序自動(dòng)完成。“機(jī)器人新聞最大的特征是新聞生產(chǎn)的全自動(dòng)化。在具體新聞寫作過程中,人工參與并不是新聞產(chǎn)品產(chǎn)出的關(guān)鍵和決定性環(huán)節(jié),新聞生產(chǎn)的主體實(shí)現(xiàn)了由人向機(jī)器的轉(zhuǎn)變?!盵10]因此,機(jī)器人新聞是在數(shù)據(jù)新聞的基礎(chǔ)上的進(jìn)一步發(fā)展,是在數(shù)據(jù)新聞的基礎(chǔ)上引入了自然語言生成技術(shù),是“數(shù)據(jù)新聞+自然語言生成技術(shù)”,使人工撰寫新聞稿件變成機(jī)器(程序)自動(dòng)生成新聞稿件,實(shí)現(xiàn)了新聞的全自動(dòng)化生產(chǎn),它是技術(shù)不斷進(jìn)步特別是人工智能技術(shù)發(fā)展的產(chǎn)物。
美國媒介理論家保羅·萊文森曾提出過“補(bǔ)救性媒介”理論。他認(rèn)為任何媒介都是不完美的,都需要不斷地進(jìn)行改進(jìn);后續(xù)媒介通常在某些方面對(duì)前面的媒介進(jìn)行了改進(jìn),可看作是對(duì)前續(xù)媒介的“補(bǔ)救”?!罢麄€(gè)的媒介演化進(jìn)程都可以看作是補(bǔ)救措施”,“因特網(wǎng)可以看作是補(bǔ)救性媒介的補(bǔ)救性媒介,因?yàn)樗菍?duì)報(bào)紙、書籍、電臺(tái)和電話等等媒介的改進(jìn)”[12]。機(jī)器人新聞作為在數(shù)據(jù)新聞基礎(chǔ)上發(fā)展起來的一種后續(xù)新聞報(bào)道方式和傳播手段,在某種意義上也可以說,它是對(duì)本身存在不足的數(shù)據(jù)新聞的一種“補(bǔ)救”,具體表現(xiàn)在機(jī)器人新聞對(duì)數(shù)據(jù)新聞的以下超越:
數(shù)據(jù)新聞是人類記者確定一個(gè)新聞選題后,根據(jù)報(bào)道構(gòu)思設(shè)計(jì)編制程序搜集數(shù)據(jù),過濾、統(tǒng)計(jì)、分析數(shù)據(jù),發(fā)現(xiàn)數(shù)據(jù)中的新聞故事,撰寫新聞并利用可視化技術(shù)呈現(xiàn)數(shù)據(jù)。數(shù)據(jù)新聞的生產(chǎn),雖然利用了計(jì)算機(jī)技術(shù)、互聯(lián)網(wǎng)技術(shù),但從確定選題,進(jìn)行報(bào)道構(gòu)思,到設(shè)計(jì)編制搜集、過濾、統(tǒng)計(jì)、分析數(shù)據(jù)的程序,再到操作程序搜集、過濾、統(tǒng)計(jì)、分析數(shù)據(jù),發(fā)現(xiàn)新聞故事,最后撰寫新聞,并利用或設(shè)計(jì)編制程序可視化呈現(xiàn)數(shù)據(jù),都離不開人的親力親為,都需要耗費(fèi)人的大量腦力、體力,而且這中間人是起主導(dǎo)作用和主要作用的,計(jì)算機(jī)只起到一個(gè)輔助工具的作用,因此最多只是一種半自動(dòng)化生產(chǎn)。
而機(jī)器人新聞不同,它一般是針對(duì)某一類基于數(shù)據(jù)生成或變動(dòng)的新聞,如地震報(bào)道、體育報(bào)道、財(cái)經(jīng)報(bào)道等,設(shè)計(jì)一套程序,一旦具有新聞價(jià)值的數(shù)據(jù)發(fā)生或變動(dòng),這套程序就自動(dòng)搜集、分析數(shù)據(jù),并撰寫新聞稿件。整個(gè)新聞稿件的產(chǎn)制過程都是由電腦程序也就是寫稿機(jī)器人自動(dòng)完成的,除了最初的設(shè)計(jì)、編制、安裝程序和一些媒體安排的最后審稿把關(guān)環(huán)節(jié)外,沒有也不需要人的參與。例如美國時(shí)間2014年3月17日早上6時(shí)25分,洛杉磯發(fā)生4.1級(jí)地震?!堵迳即墪r(shí)報(bào)》的地震新聞機(jī)器人Quakebot,在搜集到美國地質(zhì)勘探局電腦發(fā)出的地震信息后,自動(dòng)將數(shù)據(jù)輸入新聞模板寫好新聞并提交采編系統(tǒng),被震醒的記者大致審閱后,按下發(fā)布命令,這則地震報(bào)道就在地震發(fā)生后的3分鐘內(nèi)發(fā)布了。整個(gè)過程除了最后的審核發(fā)布環(huán)節(jié)外,都是由新聞機(jī)器人自動(dòng)完成的。實(shí)際上目前許多媒體對(duì)新聞機(jī)器人撰寫的新聞甚至不加審核,從數(shù)據(jù)采集到稿件撰寫再到發(fā)布全部由新聞機(jī)器人自動(dòng)完成。如《今日頭條》就是將新聞機(jī)器人“小明”撰寫的新聞稿件不經(jīng)編輯審核直接發(fā)布的??傊瑱C(jī)器人新聞實(shí)現(xiàn)了新聞生產(chǎn)的全自動(dòng)化,這是人類歷史上第一次實(shí)現(xiàn)全自動(dòng)化新聞內(nèi)容的生產(chǎn)。
因此,數(shù)據(jù)新聞是人類借助電腦程序的協(xié)助來報(bào)道新聞,機(jī)器人新聞則是人類完全委托電腦程序(新聞機(jī)器人)來報(bào)道新聞。從數(shù)據(jù)新聞到機(jī)器人新聞,一個(gè)非常大的進(jìn)步就是實(shí)現(xiàn)了新聞生產(chǎn)從半自動(dòng)化到全自動(dòng)化的跨越。
作為一種半自動(dòng)化的新聞生產(chǎn)方式,數(shù)據(jù)新聞的生產(chǎn)效率比較低。從已有的數(shù)據(jù)新聞生產(chǎn)實(shí)踐來看,每制作一篇新聞,一般首先需要編輯、記者確定新聞選題;然后根據(jù)報(bào)道構(gòu)思設(shè)計(jì)編制搜集、過濾、統(tǒng)計(jì)、分析數(shù)據(jù)的程序;再接著操作程序搜集、過濾、統(tǒng)計(jì)、分析數(shù)據(jù),發(fā)現(xiàn)新聞故事;最后由人工來撰寫新聞稿件,并利用已有的可視化程序或設(shè)計(jì)編制可視化程序來呈現(xiàn)數(shù)據(jù)。一般每生產(chǎn)一篇數(shù)據(jù)新聞,就需要設(shè)計(jì)編制一次數(shù)據(jù)搜集、處理程序,稿件還需要人工撰寫并要進(jìn)行數(shù)據(jù)的可視化呈現(xiàn),導(dǎo)致新聞生產(chǎn)難度大,耗時(shí)長(zhǎng),需要花費(fèi)比較多的人力,效率比較低。目前,在數(shù)據(jù)新聞生產(chǎn)方面走在前面的媒體大都是一天刊發(fā)一篇數(shù)據(jù)新聞,甚至數(shù)天刊發(fā)一篇。據(jù)統(tǒng)計(jì),2012年全球首屆“數(shù)據(jù)新聞獎(jiǎng)”收到的286件參賽作品,平均每個(gè)作品由3.96個(gè)人完成,參與制作人數(shù)最多的作品的人數(shù)達(dá)30人之多,作品耗時(shí)最長(zhǎng)的達(dá)7年,最短的也用了8個(gè)小時(shí),平均耗時(shí)約達(dá)160天。[13]數(shù)據(jù)新聞的生產(chǎn)難度之大、效率之低由此可見一斑。
而機(jī)器人新聞,它是一種完全自動(dòng)化的新聞報(bào)道方式和傳播手段,而且是一種批量化生產(chǎn),它針對(duì)某一類主要基于數(shù)據(jù)生成或變動(dòng)的新聞設(shè)計(jì)編制一套“搜集數(shù)據(jù)——分析數(shù)據(jù)——套用模板——撰寫稿件”的程序后,就交由這套程序全天候24小時(shí)自動(dòng)搜集、分析數(shù)據(jù),撰寫新聞。它充分發(fā)揮了電腦快速、高效的特點(diǎn),只要一產(chǎn)生有新聞價(jià)值的數(shù)據(jù),它就以“一觸即發(fā)式的新聞生產(chǎn)速度”源源不斷地生產(chǎn)新聞,生產(chǎn)效率非常高。如敘述科學(xué)公司利用新聞機(jī)器人完成一篇體育報(bào)道只需要30秒,生成一個(gè)新聞標(biāo)題只需要2秒;Automated Insights公司的新聞機(jī)器人Wordsmifh每秒能生產(chǎn)2000篇文章,每周可以寫出上百萬篇文章;在美聯(lián)社,相同的時(shí)間內(nèi),人類記者只能產(chǎn)出300條新聞,而機(jī)器人記者能產(chǎn)出4400條新聞,差不多是人類記者的15倍;2013年,美聯(lián)社使用Automated Insights公司的新聞機(jī)器人Wordsmifh自動(dòng)撰寫了3億條新聞,是世界上其他所有新聞媒體所生產(chǎn)的新聞數(shù)量的總和,2014年的數(shù)量則達(dá)到驚人的10億條。[4]機(jī)器人新聞生產(chǎn)速度之快、效率之高令人嘆為觀止。
因此,雖然數(shù)據(jù)新聞與機(jī)器人新聞都是基于數(shù)據(jù)的新聞報(bào)道方式和傳播手段,但從數(shù)據(jù)新聞發(fā)展到機(jī)器人新聞,在生產(chǎn)效率方面實(shí)現(xiàn)了非常大的飛躍。這是人類在新聞行業(yè)不斷改進(jìn)生產(chǎn)技術(shù)、提高生產(chǎn)效率、追求“更快”“更多”的結(jié)果。
作為在數(shù)據(jù)新聞基礎(chǔ)上發(fā)展起來的機(jī)器人新聞,雖然它成功引入了人工智能技術(shù),實(shí)現(xiàn)了全自動(dòng)化生產(chǎn),在生產(chǎn)效率方面實(shí)現(xiàn)了非常大的飛躍,但正如保羅·萊文森指出的那樣,“技術(shù)有其固有的問題,因?yàn)閯?chuàng)造技術(shù)的人是不完美的”[12](88);“所有的技術(shù)進(jìn)步——的確,是所有的進(jìn)步——并不是沒有缺陷?!盵14]機(jī)器人新聞作為一種利用最新傳播技術(shù)的新聞報(bào)道方式和傳播手段,也存在許多不足,包括“數(shù)據(jù)”作為核心內(nèi)容所帶來的局限和人工智能技術(shù)本身的不足所帶來的缺陷。
機(jī)器人新聞與數(shù)據(jù)新聞一樣,都是利用計(jì)算機(jī)技術(shù)、網(wǎng)絡(luò)技術(shù)搜集和處理數(shù)據(jù)來報(bào)道新聞,只不過數(shù)據(jù)新聞最終需要人工撰寫,而機(jī)器人新聞則完全由計(jì)算機(jī)程序自動(dòng)完成,但數(shù)據(jù)是數(shù)據(jù)新聞和機(jī)器人新聞共同的基礎(chǔ)和核心內(nèi)容?!皼]有大數(shù)據(jù)采集和挖掘、分析系統(tǒng)的支撐,機(jī)器自動(dòng)新聞寫作就成了無源之水、無本之木?!盵9]因此,機(jī)器人新聞與數(shù)據(jù)新聞一樣,既擁有數(shù)據(jù)作為內(nèi)容所帶來的優(yōu)勢(shì),也存在數(shù)據(jù)作為內(nèi)容所帶來的局限,即受“數(shù)據(jù)”所限,最突出的就是新聞報(bào)道選題有限。主要原因有以下方面:
一是數(shù)據(jù)化的新聞?lì)}材有限。數(shù)據(jù)化的新聞?lì)}材是指用數(shù)據(jù)來表達(dá)的新聞事實(shí),或者說量化的新聞事實(shí),但“許多新聞?lì)}材沒有數(shù)據(jù)化或無法數(shù)據(jù)化或沒有必要數(shù)據(jù)化”[15]。目前社會(huì)上的絕大多數(shù)新聞事實(shí)是沒有數(shù)據(jù)化的,而且許多新聞事實(shí)是無法數(shù)據(jù)化的;此外還有許多新聞事實(shí)也沒有必要數(shù)據(jù)化,比如人物故事,采用文字講述相比數(shù)據(jù)表達(dá)更生動(dòng)鮮活,更能寫出人情味,就沒有必要進(jìn)行數(shù)據(jù)化。對(duì)沒有數(shù)據(jù)化的新聞事實(shí),機(jī)器人新聞還難有用武之地。目前數(shù)據(jù)化的新聞事實(shí)主要集中在經(jīng)濟(jì)、體育、教育、災(zāi)難、氣象、交通等有限的領(lǐng)域。
二是數(shù)據(jù)質(zhì)量不高。如有些數(shù)據(jù)比較簡(jiǎn)單、粗糙、膚淺,有的殘缺不全;有些數(shù)據(jù)不準(zhǔn)確,或受到了污染,不“干凈”;有些數(shù)據(jù)格式不規(guī)范等等,導(dǎo)致在機(jī)器人新聞生產(chǎn)中無法使用?!叭绻麩o法取得結(jié)構(gòu)化的數(shù)據(jù),或者數(shù)據(jù)質(zhì)量較差時(shí),機(jī)器人新聞幾無用武之地?!盵16]因此,機(jī)器人新聞還受到數(shù)據(jù)質(zhì)量的限制。
三是數(shù)據(jù)收集困難。數(shù)據(jù)收集的困難也會(huì)導(dǎo)致機(jī)器人新聞生產(chǎn)受到限制。數(shù)據(jù)不開放,不聯(lián)網(wǎng),格式不統(tǒng)一,乃至人為設(shè)置障礙,人為阻撓,都會(huì)導(dǎo)致數(shù)據(jù)收集困難,從而無法進(jìn)行機(jī)器人新聞的生產(chǎn)。目前“在全球數(shù)據(jù)開放的進(jìn)程不一,數(shù)據(jù)供應(yīng)商尚未專業(yè)化,各信息單位的數(shù)據(jù)結(jié)構(gòu)化尚在起始階段,數(shù)據(jù)處理尚未形成一個(gè)統(tǒng)一的公開標(biāo)準(zhǔn)的情勢(shì)下,數(shù)據(jù)資源獲取的局限愈加凸顯?!盵8]因此,“算法新聞依賴社會(huì)整體數(shù)據(jù)化水平”[4]。
總之,機(jī)器人新聞對(duì)“數(shù)據(jù)”的依賴,導(dǎo)致機(jī)器人新聞在新聞報(bào)道題材方面受到限制?!爸挥心切?duì)數(shù)字比較敏感的領(lǐng)域,如天氣、金融、政治選舉、交通、體育等領(lǐng)域的數(shù)據(jù)才易于被標(biāo)準(zhǔn)化,容易清洗,變形的概率較低,可能提取出有價(jià)值的信息。”[8]因此當(dāng)前的機(jī)器人新聞主要局限于金融、天氣、交通、體育、政治選舉等數(shù)據(jù)化水平較高的領(lǐng)域,而且由于不同國家的信息公開程度、數(shù)據(jù)化水平不同,機(jī)器人新聞報(bào)道選題的寬窄也不一樣。
保羅·萊文森認(rèn)為,后續(xù)媒介雖然是對(duì)前面媒介的“補(bǔ)救”,但在彌補(bǔ)前面媒介的某些缺陷時(shí),也產(chǎn)生了新的缺陷?!爱?dāng)補(bǔ)救性的媒介起作用時(shí),結(jié)果通常是一方面帶來純粹的進(jìn)步,一方面帶來新的挑戰(zhàn),如何去補(bǔ)救這一補(bǔ)救可能帶來的新問題。新的補(bǔ)救性媒介解決了這些問題,必然又會(huì)產(chǎn)生更新的問題,永遠(yuǎn)沒有結(jié)束的時(shí)候。”[14](111)機(jī)器人新聞作為數(shù)據(jù)新聞的一種“補(bǔ)救”,它在克服數(shù)據(jù)新聞的半自動(dòng)化、低效率等缺陷時(shí),所采用的新技術(shù)——人工智能技術(shù)也帶來了一些新的缺陷,主要有以下幾方面:
一是可讀性問題。機(jī)器人新聞主要依靠計(jì)算機(jī)程序?qū)⑺鸭臄?shù)據(jù)套用現(xiàn)成的新聞報(bào)道模板來實(shí)現(xiàn)新聞報(bào)道的自動(dòng)化批量生產(chǎn),它在新聞線索的發(fā)現(xiàn)和新聞撰寫角度的選擇上完全依靠算法得出的數(shù)值變化進(jìn)行自動(dòng)取舍,這種方式對(duì)于新聞報(bào)道模板和公式化的語詞樣本庫的依賴非常大,因此機(jī)器人新聞從結(jié)構(gòu)到內(nèi)容到用詞容易模式化。而且計(jì)算機(jī)程序不像生活在社會(huì)中的有血有肉的記者那樣擁有自己的立場(chǎng)和情感,能聯(lián)系社會(huì)背景和新聞?wù)Z境,甚至揣摩不同受眾的喜好,采用自己的寫作風(fēng)格和語言來報(bào)道新聞,因此,相比人類記者所撰寫的新聞報(bào)道,機(jī)器人新聞在人性化、個(gè)性化、創(chuàng)新性、聯(lián)系性、分析性、人情味、生活味以及細(xì)節(jié)等方面還存在很大差距。新聞機(jī)器人開發(fā)公司Autamated Insights就認(rèn)為,“讓機(jī)器人寫新聞其真正的難點(diǎn)在于怎么讓它看起來像人類寫的。雖然該公司目前擁有超過3億種模板可以供不同類型的新聞來套用,但如何讓其看起來像人寫的則著實(shí)大費(fèi)周章”;美聯(lián)社副總裁兼總編輯費(fèi)拉拉認(rèn)為,“通過機(jī)器人撰寫的稿件會(huì)因?yàn)閮?nèi)容的生硬和重復(fù)而影響稿件的質(zhì)量,讓稿件失去人性化和個(gè)人風(fēng)格,不能帶來閱讀快感?!盵17]雖然目前人們?cè)谠O(shè)計(jì)機(jī)器人新聞程序時(shí)注意到了可讀性問題,大量增加所套用的新聞寫作模版數(shù)量,甚至設(shè)計(jì)模仿一些知名記者的用詞習(xí)慣和寫作風(fēng)格,但目前人工智能本身的缺陷導(dǎo)致機(jī)器人新聞在報(bào)道框架和角度上存在固定化、模式化、機(jī)械化、重復(fù)性等問題,在報(bào)道風(fēng)格上存在生硬、呆板、枯燥、單調(diào)、乏味等不足。“在可讀性方面,記者報(bào)道比自動(dòng)化新聞更具優(yōu)勢(shì)?!盵18]有關(guān)實(shí)驗(yàn)也證實(shí)了這一點(diǎn)。據(jù)NPR所做的調(diào)查顯示,人類記者Scott和機(jī)器人記者Wordsmifh就同一題材所撰寫的兩篇報(bào)道,前者得到了9916名讀者認(rèn)可,而后者僅得到912名讀者認(rèn)可。[19]一份來自德國、瑞典和荷蘭等三個(gè)國家的實(shí)驗(yàn)也發(fā)現(xiàn),人類寫的新聞比機(jī)器人新聞在可讀性上得分更高。[20]
二是報(bào)道深度問題。機(jī)器人新聞的運(yùn)作過程,簡(jiǎn)單地說就是通過程序搜集、分析數(shù)據(jù),發(fā)現(xiàn)新聞故事并利用自然語言生成技術(shù)生成新聞稿件。機(jī)器人新聞的報(bào)道角度和寫作模板都是事先設(shè)計(jì)好的,只要有價(jià)值的數(shù)據(jù)發(fā)生,它就自動(dòng)抓取并進(jìn)行分析,然后套用報(bào)道角度和寫作模板生成新聞稿件。這種新聞生產(chǎn)方式?jīng)Q定了它主要是對(duì)相關(guān)數(shù)據(jù)進(jìn)行置換以及進(jìn)行一些簡(jiǎn)單的分析,不可能對(duì)新聞事件再進(jìn)行深入采訪,也難以對(duì)新聞事件發(fā)生的前因后果、來龍去脈進(jìn)行深入挖掘,對(duì)事件之間的錯(cuò)綜復(fù)雜的關(guān)系進(jìn)行深入分析,對(duì)事件的發(fā)展趨勢(shì)以及社會(huì)影響等進(jìn)行深入解讀,因此,機(jī)器人新聞總的來看缺乏報(bào)道深度。機(jī)器人新聞“如同流水線工作般,通過收集數(shù)據(jù)、整理數(shù)據(jù)而形成新聞稿件,并以最快的速度發(fā)布新聞。但簡(jiǎn)單的數(shù)據(jù)疊加讓新聞報(bào)道停留在表面,未能進(jìn)行新聞的深度加工和挖掘”;“盡管機(jī)器寫稿已滿足新聞寫作的基本要素,但與人類記者相比,它仍停留在要素表象敘述,缺乏新聞信息深度挖掘能力和處理加工能力”[21];參與開發(fā)《今日頭條》新聞機(jī)器人“小明”、《南方都市報(bào)》新聞機(jī)器人“小南”、《廣州日?qǐng)?bào)》新聞機(jī)器人“阿同”的北京大學(xué)計(jì)算機(jī)科學(xué)技術(shù)研究所研究員萬小軍也坦承:“目前寫稿機(jī)器人還是很難替代深度報(bào)道的”,“跟記者比深度報(bào)道寫稿機(jī)器人會(huì)輸”[22]。
總之,人工智能技術(shù)本身的缺陷導(dǎo)致機(jī)器人新聞存在可讀性、報(bào)道深度不足等問題。