□ 文/肖書(shū)瑤 趙鹿鳴
內(nèi)容提要 本文結(jié)合對(duì)2018年美國(guó)計(jì)算機(jī)輔助新聞報(bào)道年會(huì)的觀察,介紹了美國(guó)以及各國(guó)媒體在數(shù)據(jù)新聞等領(lǐng)域的最新技術(shù)與前沿思考供借鑒、探討。
美國(guó)計(jì)算機(jī)輔助新聞報(bào)道協(xié)會(huì)(The National Institute for Computer-Assisted Reporting,以下簡(jiǎn)稱(chēng)NICAR)創(chuàng)立至今已有二十余年歷史。每年舉行的NICAR大會(huì)既是全球調(diào)查記者、數(shù)據(jù)新聞?dòng)浾叩慕涣魇?huì),也是觀測(cè)美國(guó)媒體如何進(jìn)行融合轉(zhuǎn)型的風(fēng)向標(biāo)。
2018年3月11日,新一屆的NICAR大會(huì)在美國(guó)佛羅里達(dá)州落下帷幕。224個(gè)分會(huì)議和334位演講者為上千名參會(huì)者帶來(lái)了美國(guó)以及各國(guó)媒體在數(shù)據(jù)新聞等領(lǐng)域的最新技術(shù)與前沿思考。他們當(dāng)下的理念、方法及挑戰(zhàn),可以給中國(guó)的數(shù)據(jù)新聞業(yè)提供經(jīng)驗(yàn)參考。
20世紀(jì)80年代中期,計(jì)算機(jī)輔助報(bào)道在美國(guó)興起,一些記者嘗試用電腦進(jìn)行數(shù)據(jù)分析,借此完成新聞報(bào)道。1989年,美國(guó)《普羅維登斯報(bào)》記者埃利奧特·賈斯平(Elliot Jaspin)在密蘇里新聞學(xué)院創(chuàng)辦了計(jì)算機(jī)輔助報(bào)道協(xié)會(huì)。1994年,NICAR成為IRE(Investigative Reporters and Editors,調(diào)查記者與編輯協(xié)會(huì))附屬項(xiàng)目,并開(kāi)始舉行一年一度的交流大會(huì)。目前,“計(jì)算機(jī)輔助報(bào)道”這個(gè)術(shù)語(yǔ)在美國(guó)被更多地描述為“數(shù)據(jù)新聞”,因此,每年的NICAR大會(huì)便成為了全球數(shù)據(jù)新聞行業(yè)難得的溝通機(jī)會(huì)。
NICAR大會(huì)的參與者既有來(lái)自世界各媒體的記者、編輯、設(shè)計(jì)師,也有來(lái)自美國(guó)各高校的老師與學(xué)生。許多參會(huì)者并沒(méi)有數(shù)據(jù)新聞從業(yè)的經(jīng)驗(yàn),甚至并沒(méi)有系統(tǒng)學(xué)習(xí)過(guò)。因此,大會(huì)不僅為經(jīng)驗(yàn)豐富的從業(yè)者設(shè)立最前沿的研討會(huì)、小組討論,還為“半路出家”的初學(xué)者開(kāi)設(shè)了視頻演示課以及實(shí)踐性極強(qiáng)的教學(xué)課程。從Excel基本知識(shí)和進(jìn)階技巧、谷歌表格的使用到R,Python和SQL語(yǔ)言的學(xué)習(xí),再到可視化設(shè)計(jì)和地圖繪制,基本涵蓋了數(shù)據(jù)新聞生產(chǎn)的全流程和常用的工具軟件。224個(gè)分會(huì)議的內(nèi)容涉及到數(shù)據(jù)挖掘、數(shù)據(jù)分析、信息設(shè)計(jì)、動(dòng)畫(huà)視頻、軟件展示、機(jī)器學(xué)習(xí)、案例分享、新聞思維以及新聞教育等方面。
數(shù)據(jù)新聞已經(jīng)成為近年來(lái)中國(guó)學(xué)界和業(yè)界熱議的話(huà)題。數(shù)據(jù)化才是數(shù)據(jù)新聞最主要的特征,而大數(shù)據(jù)、人工智能并不是此前生產(chǎn)一份數(shù)據(jù)新聞的必要條件。理解這一事實(shí)是我們考察其發(fā)展動(dòng)向的前提。
但值得一提的是,近年來(lái),越來(lái)越多的美國(guó)媒體開(kāi)始將機(jī)器學(xué)習(xí)、自然語(yǔ)言處理等技術(shù)作為輔助報(bào)道的手段,例如事實(shí)核查或幫助記者進(jìn)行重復(fù)枯燥的工作,甚至是識(shí)別天空上方隱藏的偵察機(jī)。這使得數(shù)據(jù)新聞在數(shù)據(jù)化的基礎(chǔ)上,開(kāi)始真正呈現(xiàn)智能化的趨向。NICAR大會(huì)上談到在媒體領(lǐng)域的機(jī)器學(xué)習(xí)應(yīng)用,至少?gòu)乃哪昵熬烷_(kāi)始了。
在今年大會(huì)的“機(jī)器學(xué)習(xí)輔助報(bào)道的入門(mén)指南”(Getting started with machine learning for reporting)研討會(huì)上,來(lái)自Buzzfeed、《紐約時(shí)報(bào)》(New York Times)、《明尼阿波里斯星壇報(bào)》(Minneapolis Star Tribune)和《洛杉磯時(shí)報(bào)》(Los Angeles Times)的記者介紹了三個(gè)機(jī)器學(xué)習(xí)在新聞上的應(yīng)用案例,討論了“對(duì)記者來(lái)說(shuō)機(jī)器學(xué)習(xí)到底意味著什么?”“什么時(shí)候需要使用機(jī)器學(xué)習(xí)”以及“如何為你選擇的算法來(lái)優(yōu)化數(shù)據(jù)結(jié)構(gòu)”。
▲ BuzzFeed News與Flightradar 24通過(guò)機(jī)器學(xué)習(xí)追蹤偵察機(jī)飛行軌跡。
▲ 《芝加哥論壇報(bào)》嘗試從數(shù)據(jù)中找到新聞故事中的報(bào)道對(duì)象。
《洛杉磯時(shí)報(bào)》此前的一篇調(diào)查報(bào)道揭露了洛杉磯警察部門(mén)因?yàn)殄e(cuò)誤地將14000條嚴(yán)重襲擊歸為輕型犯罪,使洛杉磯地區(qū)暴力犯罪率統(tǒng)計(jì)顯示下降。記者利用此前時(shí)報(bào)的關(guān)于犯罪的報(bào)道作為樣本訓(xùn)練機(jī)器學(xué)習(xí)關(guān)鍵詞來(lái)分辨什么是“嚴(yán)重犯罪”和“輕型犯罪”,然后應(yīng)用分析于當(dāng)?shù)鼐觳块T(mén)自2005到2012年以來(lái)的犯罪數(shù)據(jù)記錄。報(bào)道促使當(dāng)?shù)鼐讲扇“ǜ倪M(jìn)內(nèi)部問(wèn)責(zé)和培訓(xùn)警察正確分類(lèi)犯罪行為在內(nèi)的一系列改變措施。
此外,美國(guó)新聞聚合機(jī)構(gòu)BuzzFeed News也在大會(huì)上深度解析了他們運(yùn)用機(jī)器學(xué)習(xí)技術(shù)完成的作品《天空中的密探》。這篇報(bào)道與航班追蹤網(wǎng)站Flightradar 24合作,獲取了兩百架聯(lián)邦政府偵察機(jī)的定位數(shù)據(jù),然后用地圖的形式展示出它們累積的飛行路線(xiàn)及隨時(shí)間變化的航班動(dòng)態(tài),從而完成對(duì)政府空中巡查規(guī)模和范圍的調(diào)查呈現(xiàn)。
其中,最引入矚目的流程是他們的數(shù)據(jù)收集——團(tuán)隊(duì)首先將偵察機(jī)的規(guī)范圖像錄入一臺(tái)電腦,然后訓(xùn)練電腦以此作為依據(jù),對(duì)美國(guó)上空所有的政府偵察機(jī)進(jìn)行識(shí)別,再對(duì)它們的飛行路線(xiàn)進(jìn)行追蹤,最后完成可視化。如果說(shuō)現(xiàn)場(chǎng)圖片的人臉識(shí)別僅僅是提高了記者的采寫(xiě)效率,那么對(duì)于這篇作品而言,沒(méi)有機(jī)器的幫助,報(bào)道幾乎無(wú)法完成。
總體來(lái)看,美國(guó)的數(shù)據(jù)新聞業(yè)正朝著智能化的方向?qū)徤髑靶?。機(jī)器學(xué)習(xí)聽(tīng)起來(lái)非常艱深,但在媒體使用最多的技術(shù)場(chǎng)景,還是對(duì)資料進(jìn)行分類(lèi)和打上標(biāo)簽。比如,有大量政府文件需要知道分別是什么類(lèi)型的,那么記者可以設(shè)計(jì)一個(gè)算法訓(xùn)練機(jī)器去學(xué)習(xí)以往的數(shù)據(jù)來(lái)獲得分類(lèi)特征,一定量的學(xué)習(xí)后,機(jī)器便能夠?qū)⑿碌恼募鶕?jù)特征而自動(dòng)分類(lèi),代替人工閱讀海量的文本文件,省去了很多重復(fù)性勞動(dòng)。
《明尼阿波里斯星壇報(bào)》的記者蔡司·戴維斯(Chase Davis)也在“何種情況下需要使用機(jī)器學(xué)習(xí)”給出了他的建議:是否重復(fù)而枯燥;可以讓實(shí)習(xí)生來(lái)做嗎;但如果這樣會(huì)感覺(jué)到強(qiáng)烈的愧疚嗎?同時(shí),Buzzfeed的記者彼得·奧爾胡斯(Peter Aldhous)則提醒同行永遠(yuǎn)要記得去檢查機(jī)器學(xué)習(xí)的結(jié)論,“不然你就讓算法做了你應(yīng)做的工作?!?/p>
需要注意的是,智能化的數(shù)據(jù)新聞生產(chǎn)固然有利于將新聞作品的時(shí)效、深度、廣度提升到新高度。但美國(guó)的新聞從業(yè)者也在反思,在視人工智能為一種新方法時(shí),要持有謹(jǐn)慎且懷疑的態(tài)度,因?yàn)樗械乃惴ǘ际怯扇祟?lèi)編寫(xiě),不可避免地包含了人們的固有偏見(jiàn)和主觀判斷。NICAR大會(huì)有一個(gè)分會(huì)議的主題就是“算法問(wèn)責(zé)制”(Algorithmic Accountability)。
酷炫的可視化效果是數(shù)據(jù)新聞吸引眼球的最終視覺(jué)呈現(xiàn),但一篇數(shù)據(jù)新聞背后還隱藏著大量的數(shù)據(jù)挖掘和清洗工作。甚至在某些看起來(lái)并不那么“數(shù)據(jù)化”的新聞背后,往往是數(shù)據(jù)驅(qū)動(dòng)的結(jié)果,是數(shù)據(jù)引領(lǐng)記者找到背后的故事和真相。
在“數(shù)字背后:如何在數(shù)據(jù)中找到你的報(bào)道對(duì)象”分會(huì)議中,《芝加哥論壇報(bào)》(Chicago Tribune)的記者M(jìn)icheal J. Berens介紹了如何在數(shù)據(jù)中找到適合報(bào)道的對(duì)象并且豐富他們?cè)诠适轮械男蜗?,尤其是在?shù)據(jù)驅(qū)動(dòng)型報(bào)道中找到典型,把他們從幕后帶向臺(tái)前?!吨ゼ痈缯搲瘓?bào)》在當(dāng)?shù)蒯t(yī)療數(shù)據(jù)庫(kù)中對(duì)相關(guān)醫(yī)療事件進(jìn)行分級(jí),從中找到了三個(gè)典型人物,然后對(duì)他們進(jìn)行了跟蹤采訪(fǎng),由此通過(guò)一系列融合數(shù)據(jù)、圖片、視頻的多媒體報(bào)道揭露了伊利諾伊州的醫(yī)療輔助機(jī)構(gòu)對(duì)殘疾人的虐待問(wèn) 題。
顯然,這并不是我們所說(shuō)的一個(gè)智能化的數(shù)據(jù)新聞,但這顯示了一種典型的數(shù)據(jù)驅(qū)動(dòng)型新聞工作流程:跟蹤極端值、量化和分離數(shù)據(jù)、給數(shù)據(jù)評(píng)級(jí)、做實(shí)地調(diào)查、得出結(jié)論。他們努力從數(shù)據(jù)中找到新聞報(bào)道的對(duì)象(Turn Data Into Characters In Your Story)的方法依然收獲了美國(guó)同仁的贊譽(yù)。因?yàn)樵诒3旨夹g(shù)更新之外,依然不要忘記對(duì)數(shù)據(jù)背后反映的真相進(jìn)行實(shí)地調(diào)研和采訪(fǎng),這才是一個(gè)完整的數(shù)據(jù)新聞作品不可或缺的重要流程,也是目前美國(guó)媒體進(jìn)行數(shù)據(jù)新聞生產(chǎn)的共有理念。
《芝加哥論壇報(bào)》的邁克爾·J·貝倫斯(Micheal J. Berens)談到了許多數(shù)據(jù)分析與調(diào)查采訪(fǎng)結(jié)合的實(shí)用技巧,例如:創(chuàng)建你自己的數(shù)據(jù)庫(kù);報(bào)道對(duì)象并不一定是“人”;不要使用不能反映普遍現(xiàn)象的異常數(shù)據(jù);一個(gè)代表性的對(duì)象和好過(guò)幾個(gè)弱的;與愿意和你交談的人談話(huà);追蹤和觀察報(bào)道對(duì)象的生活而不僅僅是聽(tīng)他怎么說(shuō)。
當(dāng)前,全世界的傳統(tǒng)媒體都在困窘中前行,數(shù)據(jù)新聞能否成為媒體融合轉(zhuǎn)型的長(zhǎng)期路徑,學(xué)界依然在討論中。但無(wú)論如何,越來(lái)越多的美國(guó)新聞院校開(kāi)始意識(shí)到數(shù)據(jù)的重要性,因?yàn)樾畔⒐_(kāi)法案、政府公開(kāi)數(shù)據(jù)、社交網(wǎng)絡(luò)數(shù)據(jù)的出現(xiàn),使其成為了一個(gè)不可或缺的內(nèi)容來(lái)源。由此,新聞院校與媒體在近年來(lái)達(dá)成的又一個(gè)共有理念是:掌握計(jì)算機(jī)編程、數(shù)據(jù)挖掘、可視化等技術(shù),或?qū)⑹俏磥?lái)人才培養(yǎng)的基本要求。
可是,當(dāng)智能化的新技術(shù)成為目前媒體的轉(zhuǎn)型邏輯,新的挑戰(zhàn)接踵而至——當(dāng)技術(shù)趨于成熟,它是否會(huì)反噬新聞業(yè),對(duì)編輯、記者的職業(yè)本身造成新的沖擊?這一話(huà)題也在2018年的NICAR大會(huì)上多次提及,具體來(lái)看,它不僅是促成了數(shù)據(jù)新聞的進(jìn)一步變革,而是會(huì)對(duì)整個(gè)新聞業(yè)施以影響。
首先,如果讀者已習(xí)慣在社交網(wǎng)絡(luò)和信息聚合類(lèi)應(yīng)用上閱讀新聞,那么這些平臺(tái)上的算法如何推送新聞將影響各媒體的流量多寡,這對(duì)大量依靠互聯(lián)網(wǎng)流量的機(jī)構(gòu)來(lái)說(shuō)無(wú)疑是個(gè)巨大的考驗(yàn)。如2016年,皮尤研究中心的結(jié)果顯示,美國(guó)有44%的新聞閱讀流量來(lái)自社交平臺(tái)臉書(shū)(Facebook),但同年這一平臺(tái)卻調(diào)整了他們的內(nèi)部算法,不再以推送新聞優(yōu)先,而是以用戶(hù)親朋分享的實(shí)時(shí)動(dòng)態(tài)為推送優(yōu)先。這使得諸多機(jī)構(gòu)如 Five Thirty Eight、Buzzfeed News在短時(shí)間內(nèi)減少了大量流量,進(jìn)而失去了一部分廣告收入,他們不得不裁掉部分辦公室、精簡(jiǎn)團(tuán)隊(duì)來(lái)節(jié)省支出,本需要大量復(fù)合技能人才的數(shù)據(jù)新聞業(yè)只能向美國(guó)東西兩岸的大型媒體靠攏。這一過(guò)程一方面讓相關(guān)人才向計(jì)算機(jī)行業(yè)外流,另一方面也迫使媒體在數(shù)據(jù)新聞的生產(chǎn)上削減開(kāi)支或調(diào)整周期。近來(lái)年,作為一種應(yīng)對(duì),美國(guó)媒體開(kāi)始在用戶(hù)體驗(yàn)和效果監(jiān)測(cè)上狠下功夫——比如積極與技術(shù)公司合作,開(kāi)發(fā)分析平臺(tái)來(lái)監(jiān)測(cè)讀者的覆蓋率、觀看率、觀看時(shí)間;同時(shí)調(diào)查讀者的瀏覽習(xí)慣,相應(yīng)地調(diào)整新聞推送的平臺(tái)、頻率等等。這些舉措,都讓媒體更好地理解讀者,從而對(duì)內(nèi)容生產(chǎn)做出更明智的決定。
其次,新興技術(shù)的加入也使新聞業(yè)的用工需求出現(xiàn)變化。比如,在2016年的美國(guó)總統(tǒng)大選期間,美國(guó)的數(shù)據(jù)新聞業(yè)就迎來(lái)了井噴,幾乎所有媒體都愿意招聘擁有編程、數(shù)據(jù)分析、可視化等技術(shù)的人才,以便在新聞作品中提供更全面的內(nèi)容、更吸引人的交互效果。但是當(dāng)大選結(jié)束后,這類(lèi)需求卻急遽下降,因?yàn)槌R?guī)時(shí)期的媒體并不需要這么多的數(shù)據(jù)新聞?dòng)浾?。此外,算法加持下的自?dòng)化新聞(Automated Journalism)的出現(xiàn)也迫使媒體對(duì)記者、編輯們的分工進(jìn)行調(diào)整。因?yàn)樽詣?dòng)化新聞在代替記者撰寫(xiě)一些相對(duì)“機(jī)械”的內(nèi)容的同時(shí),也讓媒體意識(shí)到,這種“人機(jī)聯(lián)動(dòng)”的生產(chǎn)模式一旦成熟,那么記者也許可以獲得更充裕的時(shí)間去完成一些更深度的報(bào)道,整個(gè)新聞業(yè)的工作分配就會(huì)繼續(xù)調(diào)整。如何吸引更多的計(jì)算機(jī)科學(xué)、數(shù)據(jù)科學(xué)人才的加入?如何訓(xùn)練傳統(tǒng)記者與智能技術(shù)的相處?如何調(diào)整人與算法的工作分配?將是未來(lái)所有新聞行業(yè)都會(huì)面臨的挑戰(zhàn)和機(jī)遇所在。