□ 黃曉勇
(作者系新華社攝影部高級編輯,中國人民大學(xué)新聞學(xué)院研究生業(yè)界導(dǎo)師)
今年6月8日,美國公益新聞組織ProPublica發(fā)布了使用數(shù)據(jù)挖掘手段生產(chǎn)的深度報道《超級富翁如何避稅》,其中稱:巴菲特、貝佐斯、馬斯克等億萬富豪的納稅稅率“遠低于普通中產(chǎn),有些竟然一分錢沒交”,一時引起輿論喧嘩。
這則轟動新聞是近年來ProPublica利用數(shù)據(jù)挖掘技術(shù)取得的又一成果。ProPublica在創(chuàng)建后不久,就成立了以記者、程序員和數(shù)據(jù)分析員為核心的數(shù)據(jù)團隊,拿手武器便是從數(shù)據(jù)中挖掘新聞。借助先進的機器學(xué)習(xí)和挖掘技術(shù),ProPublica已經(jīng)發(fā)布了大量數(shù)據(jù)驅(qū)動的深度報道,并多次斬獲普利策新聞獎,成為數(shù)據(jù)新聞界的楷模。除ProPublica之外,衛(wèi)報、紐約時報、路透社等西方主流媒體也著力于數(shù)據(jù)挖掘方向的深度報道,發(fā)表了一批知名作品。
全球興起的數(shù)據(jù)新聞熱潮近年來逐漸影響我國,頭部主流媒體和商業(yè)媒體幾乎都在此方向投入了大量資源,并獲得長足進步。我國數(shù)據(jù)新聞的發(fā)展成果主要集中于數(shù)據(jù)新聞的前臺——數(shù)據(jù)可視化,而數(shù)據(jù)新聞的后臺核心技術(shù),即對深度報道更為關(guān)鍵、技術(shù)含量更高的數(shù)據(jù)挖掘,在發(fā)展上卻明顯滯后,成為深度報道的明顯“短板”。
數(shù)據(jù)挖掘(Data Mining)是廣義數(shù)據(jù)分析的重要組成部分,顧名思義是深入研究和分析數(shù)據(jù),并在數(shù)據(jù)中發(fā)現(xiàn)隱含知識的過程。這個“數(shù)據(jù)”并不限于數(shù)字,它包括一切可感知、分析、計算的信息,包括數(shù)字、語篇、圖像、聲音、氣味、視頻等數(shù)據(jù)形式。
在強大“三算”(算力、算據(jù)、算法)技術(shù)的支撐下,數(shù)據(jù)挖掘發(fā)展到可以從海量的、模糊的非結(jié)構(gòu)化數(shù)據(jù)中,通過人機協(xié)同的方式,嘗試發(fā)現(xiàn)潛在的必然聯(lián)系,簡言之就是大數(shù)據(jù)→信息→知識的過程。當(dāng)前,“數(shù)據(jù)挖掘”一般都是“大數(shù)據(jù)挖掘”的代名詞。
深度報道一般是指運用解釋、分析、預(yù)測的方法,深入探索和闡明事件的內(nèi)在規(guī)律性,揭示事件實質(zhì)并探索其發(fā)展趨向,以反映重大新聞事件和社會問題。當(dāng)今世界,數(shù)字化、網(wǎng)絡(luò)化、信息化所形成的數(shù)字網(wǎng)絡(luò)成為社會的底層操作系統(tǒng),重大新聞事件的背后一般都離不開數(shù)據(jù)的分析和利用。
數(shù)據(jù)挖掘是深度報道的重要線索來源。近10年來,國內(nèi)外數(shù)據(jù)挖掘技術(shù)發(fā)展迅猛,在用戶數(shù)據(jù)利用、證券交易輔助決策、商品關(guān)聯(lián)銷售(如著名的“啤酒與尿布”分析)、預(yù)測犯罪與傳染病、安全生產(chǎn)、災(zāi)害預(yù)報、打擊走私、情緒分析、交通控制、生產(chǎn)控制等方面成果卓著,而這些領(lǐng)域恰恰又是深度報道的重要線索來源。
在常規(guī)方法無法獲取線索的情況下,如果記者在辦公室中請算法工程師協(xié)助,應(yīng)用數(shù)據(jù)挖掘軟件,從紛繁蕪雜的數(shù)據(jù)中獲得“解題鑰匙”并完成深度報道。那么,這種生產(chǎn)方式將成為深度報道的最優(yōu)選擇之一。如2019年獲全球數(shù)據(jù)新聞獎(Data Journalism Award,以下簡稱DJA)數(shù)據(jù)新聞應(yīng)用獎的《移民犯罪的神話》,四所大學(xué)的研究者搜集了美國200多個都市40年間的犯罪數(shù)據(jù)并輸入數(shù)據(jù)庫,經(jīng)過數(shù)據(jù)挖掘得出高移民率與高犯罪率沒有正相關(guān)的結(jié)論,有力地駁斥了“移民帶來犯罪”的言論。在這個例子中,“犯罪數(shù)據(jù)”“沒有正相關(guān)”“移民犯罪率不高”分別對應(yīng)“數(shù)據(jù)”“信息”和“知識”。
在我國,從數(shù)據(jù)中發(fā)現(xiàn)線索也經(jīng)常成為深度報道的關(guān)鍵,如20世紀(jì)90年代開始,我國不時發(fā)生礦難人數(shù)瞞報、地方統(tǒng)計數(shù)據(jù)作假等事件,曾多次被記者用深挖數(shù)據(jù)的方式“揭開蓋子”。但嚴(yán)格意義上說,這些記者的工作方式主要是“小數(shù)據(jù)分析”,并非真正意義的“大數(shù)據(jù)挖掘”。
數(shù)據(jù)挖掘為深度報道提供新的數(shù)據(jù)分析框架。數(shù)學(xué)建模是數(shù)據(jù)挖掘的重要前驅(qū)流程,也是經(jīng)常被用到的分析工具。用數(shù)學(xué)建模的方式模擬新聞事件,已經(jīng)不是一件新鮮事。2020年2月初,天津大學(xué)、南開大學(xué)的幾名博士生用數(shù)學(xué)模型還原了天津?qū)氎姘儇洿髽堑囊咔閿U散事件,其中對傳染關(guān)系圖譜、染病人數(shù)、防疫措施的分析令人信服。得益于大數(shù)據(jù)技術(shù)的飛速發(fā)展,深度報道背后新聞事件的主體、原因、結(jié)果及邏輯關(guān)系等元素,目前很多已可用數(shù)學(xué)模型搭建框架。也就是說,將實際發(fā)生的新聞事件“代入模型”,可以經(jīng)由數(shù)據(jù)挖掘給出事件發(fā)展的邏輯關(guān)系。當(dāng)然,在信息不全的情況下,由數(shù)據(jù)挖掘給出的結(jié)果可能會有太多的選擇。此時,深度報道記者要做的是,通過采訪逐步豐富事件的關(guān)鍵信息,排除和事件無關(guān)的干擾項以縮小范圍,最終通過人機協(xié)同的方式選擇恰當(dāng)?shù)倪\算結(jié)果。
近年來,數(shù)據(jù)挖掘工作者在各行業(yè)實踐中逐漸總結(jié)了一套較為成熟的工作模式,主要有聚類、分類、異常、關(guān)聯(lián)、預(yù)測、演變、特異群組等。具體到新聞領(lǐng)域,又以聚類、分類、異常、預(yù)測為主,使用的算法主要是決策樹法、遺傳算法、模糊集法及神經(jīng)網(wǎng)絡(luò)法等,主要目的是將異構(gòu)型數(shù)據(jù)結(jié)構(gòu)化,最終通過對數(shù)據(jù)的分析發(fā)現(xiàn)規(guī)律,回溯事件的邏輯關(guān)系,并預(yù)測事件發(fā)展的走向。
以獲2019年D J A開放數(shù)據(jù)獎的《OCCRP數(shù)據(jù)》(有組織犯罪和腐敗報告項目)為例,項目組將波黑某政府研究中心泄露的海量數(shù)據(jù)和一些公開文件以專業(yè)工具清洗、整合,利用數(shù)學(xué)模型挖掘出大量有價值的政商關(guān)系線索,最后以搜索平臺的形式向社會公布。還有,今年6月11日,紐約時報的報道《數(shù)據(jù)庫:美國近三分之一的新冠病毒死亡病例出現(xiàn)在療養(yǎng)院》獲得普利策新聞獎。該報數(shù)據(jù)團隊從衛(wèi)生部門的數(shù)據(jù)庫中抓取大量療養(yǎng)院和新冠關(guān)系的數(shù)據(jù)集,并在本地建立自己的分析數(shù)據(jù)庫,最終提煉出如題所示的驚人結(jié)論,引起社會各界對特朗普政府的口誅筆伐。
大數(shù)據(jù)挖掘技術(shù)可為深度報道增加預(yù)測和數(shù)據(jù)驗證功能。數(shù)據(jù)挖掘的另一重要優(yōu)勢就是提供事件發(fā)展的趨勢分析,可在經(jīng)濟走勢、犯罪傾向、傳染病甚至突發(fā)事件預(yù)測方面大有作為,這為深度報道又增加了額外的競爭力。如通過大數(shù)據(jù)評估某行業(yè)安全生產(chǎn)水平,可為政府和企業(yè)提供有用的避險報告;如通過監(jiān)測網(wǎng)民情緒傾向數(shù)據(jù),分析社會矛盾是否超過閾值,可為社會各界提供警示信息;如通過分析污染傳感器數(shù)據(jù),可為公眾健康提供更好的服務(wù);如通過對地區(qū)既往犯罪率、破案率、經(jīng)濟變遷等數(shù)據(jù)的分析,可估算該地未來一段時間的犯罪率,為政府部門提供決策參考。
ProPublica和得克薩斯論壇報2016年聯(lián)合發(fā)表的互動新聞《地獄與高水》,利用多種數(shù)據(jù)挖掘技術(shù),從風(fēng)險控制的角度出發(fā),預(yù)測休斯頓地區(qū)面對沿海風(fēng)暴的脆弱性,并對政府的一些短視行為提出批評。
數(shù)據(jù)挖掘還可為深度報道提供“定性假設(shè)”的“定量驗證”,令結(jié)論更為人信服。如2019年獲DJA數(shù)據(jù)新聞創(chuàng)新獎的德國《雷德梅瑟》是一件“假設(shè)驗證”的探索作品,目的是找出人們不在城里騎自行車的原因。項目團隊由數(shù)據(jù)專家、物理學(xué)家和調(diào)查記者組成,物理學(xué)家研發(fā)了100個汽車超車距離傳感器,由騎自行車的志愿者在兩個月的時間內(nèi)攜帶試用。經(jīng)過數(shù)據(jù)分析之后,最終得出結(jié)論——人們不騎自行車的原因在于“汽車距離騎行者過近,威脅騎行安全”。
因此,從看似尋常的數(shù)據(jù)中挖掘出事件的內(nèi)在聯(lián)系,提升新聞價值,并以數(shù)據(jù)挖掘成果驗證假設(shè)并預(yù)測未來,是未來深度報道的重要發(fā)展方向。
經(jīng)過廣泛的文獻研究和網(wǎng)絡(luò)、電話采訪,筆者嘗試總結(jié)了深度報道領(lǐng)域數(shù)據(jù)挖掘的一般流程(部分環(huán)節(jié)次序可以調(diào)整):
確定目標(biāo)及定義問題:由團隊領(lǐng)導(dǎo)者確定選題,并同軟件工程師制定數(shù)據(jù)挖掘的目標(biāo),評估獲取數(shù)據(jù)資源的難度,以及數(shù)據(jù)是否可以轉(zhuǎn)化為意義等。
算法及模型擬定:軟件工程師、數(shù)據(jù)分析師根據(jù)數(shù)據(jù)來源、數(shù)據(jù)結(jié)構(gòu)以及是否提供API接口等情況,根據(jù)現(xiàn)有資源確定使用哪種算法搜集數(shù)據(jù);評估可能獲取的數(shù)據(jù)結(jié)構(gòu),決定搭建采取何種數(shù)學(xué)模型和采取何種算法實施挖掘。
數(shù)據(jù)獲?。鹤孕兴鸭瘮?shù)據(jù)或從數(shù)據(jù)庫中、網(wǎng)頁上以確定的算法獲取數(shù)據(jù)。目前,網(wǎng)絡(luò)數(shù)據(jù)獲取的流行做法是通過Python語言抓取網(wǎng)頁數(shù)據(jù)或通過Open API獲取開放平臺數(shù)據(jù)。
數(shù)據(jù)清洗及結(jié)構(gòu)化:評估獲取的數(shù)據(jù),并進行數(shù)據(jù)清洗和結(jié)構(gòu)化(去掉干擾項或重復(fù)項等)等預(yù)處理,建立自己的數(shù)據(jù)挖掘?qū)ο髱?。這方面的通用工具主要有R語言、MySQL、Python和Open Refine等。
數(shù)據(jù)處理及假設(shè)驗證:建立數(shù)據(jù)處理模型之后,需要認(rèn)真考察哪種模型最為適用,有時還需要準(zhǔn)備其他數(shù)據(jù)集提前驗證模型的可靠性。隨后,程序員或數(shù)據(jù)分析師運行數(shù)據(jù)處理算法,嘗試找出具備新聞意義的線索。這一步是數(shù)據(jù)挖掘的關(guān)鍵步驟,主要目的就是將數(shù)據(jù)代入設(shè)定的算法框架,以驗證假設(shè)是否正確。目前,深度學(xué)習(xí)算法已經(jīng)成為數(shù)據(jù)挖掘的重點發(fā)展方向,因為它可以在大量數(shù)據(jù)中優(yōu)化學(xué)習(xí),在理想情況下可以向使用者自動呈現(xiàn)線索。這方面的數(shù)據(jù)工具和編程語言主要有MySQL、R語言、Python、C++、Pandas、SPSS等。
意義轉(zhuǎn)化:數(shù)據(jù)分析員評估數(shù)據(jù)處理的結(jié)果,確定是否滿足預(yù)期,并將其轉(zhuǎn)化成具備新聞價值的意義。團隊領(lǐng)導(dǎo)人審看數(shù)據(jù)挖掘的成果,并同其他團隊成員回顧流程是否無懈可擊,最終確定數(shù)據(jù)挖掘是否成功。
可視化:將數(shù)據(jù)挖掘成果可視化,使受眾易讀易懂。有時將復(fù)雜的數(shù)據(jù)可視化,還可揭示之前未發(fā)現(xiàn)的新聞價值。
趨勢預(yù)測:以數(shù)據(jù)挖掘結(jié)果為支撐,向人們提供基于概率表示的預(yù)測能力。
對于以上流程,2018年獲DJA年度調(diào)查報道獎的數(shù)據(jù)新聞作品《快錢》稱得上是個典型的例子。加拿大《環(huán)球郵報》的數(shù)據(jù)團隊在確定證券犯罪的選題之后,擬定了數(shù)據(jù)抓取和數(shù)據(jù)挖掘的方式,將數(shù)千個獲取的數(shù)據(jù)文件經(jīng)過清洗和結(jié)構(gòu)化之后輸入自建的數(shù)據(jù)庫,并用已搭建的數(shù)據(jù)模型和算法對證券犯罪的規(guī)模、懲罰和再犯率等數(shù)據(jù)展開數(shù)據(jù)挖掘,最終得出加拿大監(jiān)管部門對證券犯罪者處罰過輕的結(jié)論,驗證了最初的假設(shè),并預(yù)示了證券犯罪的前景。在此作品中,犯罪分子的規(guī)避策略及受害者被不公平對待等情況也被一一揭示。
上述這些流程看似復(fù)雜,但一旦進入產(chǎn)業(yè)化操作模式,效率會明顯提高,挖掘成本也將大幅降低。
與新聞業(yè)界形成鮮明對照的是,我國新聞學(xué)界較為重視數(shù)據(jù)挖掘的應(yīng)用和研究,比之英美等國都不遑多讓。眾多教授團隊充分借鑒數(shù)據(jù)挖掘在產(chǎn)業(yè)界的廣泛應(yīng)用,將其研究路徑和新技術(shù)運用于新聞效果、媒體比較、社會關(guān)系、輿情分析等方面的研究,每年的研究成果可謂汗牛充棟。
由是觀之,數(shù)據(jù)挖掘在深度報道方面應(yīng)用受限,并非業(yè)界很多人所說的技術(shù)落后的原因。筆者曾就此問題,帶領(lǐng)研究生探訪多個主流媒體,發(fā)現(xiàn)認(rèn)識上的偏差和產(chǎn)業(yè)結(jié)合能力欠缺是主要原因。
認(rèn)識上的偏差:首先,數(shù)據(jù)新聞可視化容易出成績,將各大部委、新聞發(fā)布會及新華社發(fā)布的通稿等信息,以動態(tài)及互動的新媒體形式展示出來,報道上較為安全,并較容易得到上級部門和受眾的認(rèn)可;數(shù)據(jù)挖掘則需要數(shù)據(jù)分析方向的專業(yè)知識,不少媒體負責(zé)同志認(rèn)為很難駕馭,心存畏難情緒。其次,很多主流媒體負責(zé)人對于數(shù)據(jù)挖掘并不熟悉,認(rèn)識不到它在深度報道方面的巨大潛力。
產(chǎn)業(yè)結(jié)合能力欠缺:如果將視野進一步擴大到產(chǎn)業(yè)界,我國數(shù)據(jù)挖掘的應(yīng)用卻是非常廣泛與高端,在用戶畫像、安全生產(chǎn)、情緒分析、交通疏堵、犯罪防范等領(lǐng)域的實踐水平均位居世界前列。這些領(lǐng)域都是深度報道的用武之地。
我國新聞信息界的數(shù)據(jù)挖掘產(chǎn)業(yè)模式尚未形成,各大媒體亦未建立常設(shè)項目組機制,不能隨時通過數(shù)據(jù)挖掘發(fā)現(xiàn)優(yōu)秀深度報道選題,當(dāng)然談不上為社會提供信息附加值并產(chǎn)生正向循環(huán)了。