喻國明+劉界儒+李陽
在人工智能各項技術的發(fā)展下,數據新聞生產的各個環(huán)節(jié)都獲得了更成熟的技術支撐,從數據收集到數據分析再到數據展示,人工智能技術雖然不能解決數據新聞在發(fā)展過程中面對的所有問題,但是AI時代的數據新聞,勢必獲得前所未有的發(fā)展機會。更強有力的信息存儲平臺、更智能的信息識別與采集系統(tǒng)和更人性化的可視化技術,都為數據新聞的未來發(fā)展拓寬了道路。
同時,機器人寫作、傳感器新聞和可視化新聞等人工智能時代下發(fā)展起來的新聞生產創(chuàng)新模式也昭示著:AI時代下的新聞生產和傳播領域將是智慧與智能的共同參與,人與機器合作建構的。
喻國明 劉界儒 李陽
【摘要】依靠數據的采集、挖掘和展示所形成的數據新聞已經以其獨有的功能和價值在新聞傳播領域嶄露頭角。但是由于受大數據技術發(fā)展的限制,還存在一系列問題亟待解決。從人工智能背景下大數據方法的關鍵性改善入手,探討人工智能對于大數據技術在新聞傳播領域中的應用所能提供的關鍵性技術支撐,分析和預測數據新聞生產的三個重要環(huán)節(jié)(數據新聞、傳感器新聞和可視化新聞)的技術改善之道。
【關鍵詞】人工智能;大數據方法;數據新聞;數據價值挖掘
雖然,數據新聞已經在既往的實踐中有了長足的發(fā)展,但數據挖掘(Data mining)不足仍然是數據新聞發(fā)展必須面對的主要問題。數據挖掘指的是對數據庫中的數據進行探索的一個過程,是在海量數據中挖掘有效數據的重要技術。一般而言,數據挖掘在概念的層面分為三個階段:數據源數據的收集、對于數據源數據的處理以及最終的有效數據的表示。如圖1所示,數據挖掘主要通過四個步驟實現:源數據的收集階段、數據預處理階段、數據處理階段、數據評估以及知識表示階段[1]。具體來說,數據挖掘不足可以體現在以下三個方面:數據收集來源單一、數據處理能力有限和數據可視化表達程度有限。
一、現階段數據新聞的實操所存在的主要問題
(一)數據收集來源單一
目前數據新聞面臨的首要問題就是缺乏可收集的數據信息源,或者數據庫信息過于單一,缺乏全面、結構性的數據源數據庫。從我國的情況來看,作為常用來源的商業(yè)數據庫中的數據,通常只集中在某一個方面,其所能描述的用戶特征也只是片面和單一角度的認識。騰訊作為目前擁有最大即時通信工具的互聯網巨頭公司,掌握著大量用戶的社交關系數據,雖然通過微信線上支付(紅包)的功能,占據了一定移動支付的市場,但比起支付寶(阿里巴巴旗下的個人第三方支付平臺)來說,騰訊對于用戶消費習慣和財務狀況的洞察和了解又遠不及后者。圖2是2016年第二季度的第三方互聯網支付市場交易份額,財付通(騰訊在線支付平臺)雖然僅次于支付寶占據了移動支付市場的第二位,但仍然無法與支付寶等量齊觀。從整體的數據庫類型的情況看是這樣,落實到具體的依靠數據挖掘實現個性化新聞生產的實踐中時,依然面對著信息來源單一的挑戰(zhàn)。
以今日頭條為國內個性化推送新聞的媒體為例,作為國內第一個個性新聞化推送新聞的產品類實踐者,今日頭條自2012年創(chuàng)建后,到2016年8月,已經擁有裝機用戶超過5.5億,日活躍人數超過6000萬。從其CEO對今日頭條有關用戶的數據信息來源的介紹來看,主要是三個方面:第一,今日頭條通過對用戶的行為,如點擊、停留、評論、轉發(fā)等數據的搜集和聚合分析,獲得用戶對新聞信息的個人喜好和需求的推算。第二,根據用戶所處的環(huán)境特征,上網環(huán)境是Wi-Fi還是付費流量、GPS所在地,是在常駐地還是旅游,是白天還是晚上等獲得用戶地理方面的數據信息。第三,基于用戶使用社交網絡賬號關聯登錄后,系統(tǒng)對于用戶社交圈和社交關系的分析,來得到關于用戶更清楚的社會化畫像,從職業(yè)身份或共同愛好入手計算用戶的興趣和需求。最后,系統(tǒng)通過把用戶行為、地理、社交三方面特征組合,利用算法綜合實現對用戶偏好和個性需要的挖掘。
但是,伴隨著個性化推送新聞的發(fā)展,也出現了“信息繭房”這種對現代人接收信息弊大于利的問題。有學者認為出現“信息繭房”的主要原因是,在互聯網時代,人們可以完全根據自己的愛好定制信息,從海量信息中隨意選擇自己關注的話題,久而久之,這種“個人日報”式的信息選擇行為會導致網絡繭房的出現。當商業(yè)信息服務利用個人定制的需求開始為個人提供個性化新聞時,人們會不自覺地失去了解不同事物的能力和接觸機會,深陷個人“信息繭房”之中。減輕“信息繭房”負面影響的方法首先是要提高算法對個人信息需求的構面了解,不但要滿足受眾顯性的,比如根據行為特征收集到的需求,還要結合其社交圈子,綜合改善個性化推送新聞對用戶需求的完整定義和把握,盡可能避免越推送越窄,越推送越偏的現象。
(二)數據處理能力有限
除了數據來源單一以外,數據新聞目前存在的第二個問題是,處理數據能力有限。而數據處理和分析能力是決定數據挖掘的關鍵環(huán)節(jié)。目前,我們所使用的數據處理工具和算法都還比較傳統(tǒng),不適用大數據規(guī)模大、體量大的特點。祝建華教授說過,雖然大數據正在發(fā)生,但是我們對大數據的了解、處理能力還處在早期階段。這就勢必會影響數據新聞未來的發(fā)展。有學者認為成熟的數據處理技術涉及三個方面:存儲、提取和統(tǒng)計分析[2]。
目前,在存儲方面,我們計算機的存儲水平還是遠遠跟不上大數據的規(guī)模,分析數據前先要把數據讀到內存里,而現在功能比較強大的計算機內存也遠遠滿足不了一個大型網站一天所產生的數據,這樣一來,這個過程就需要耗費大量的時間,影響數據處理速度[3]。根據2014年萬璞和王麗莎的總結,目前常見的分析數據的算法和模型有:①傳統(tǒng)統(tǒng)計方法:抽樣技術、多元統(tǒng)計分析和統(tǒng)計預測方法等。②決策樹:它利用一系列規(guī)則劃分,建立樹狀圖,用樹形結構來表示決策集合,可用于分類和預測,常用的算法有CART、CHAID、ID3、C4.5、C5.0等。③人工神經網絡:它模擬人的神經元功能,從結構上模仿生物神經網絡,經過輸入層、隱藏層、輸出層等,對數據進行調整、計算,最后得到結果,是一種通過訓練來學習的非線性預測模型,它可以完成分類、聚類、特征挖掘、回歸分析等多種數據挖掘任務。④遺傳算法:它是基于自然進化理論,在生物進化概念的基礎上設計的一種優(yōu)化技術,它包括基因組合、交叉、變異和自然選擇等一系列過程,通過這些過程以達到優(yōu)化的目的,是模擬基因聯合、突變、選擇等過程的一種優(yōu)化技術。⑤關聯規(guī)則挖掘算法:關聯規(guī)則是描述數據之間存在關系的規(guī)則,形式為“A1∧A2∧…∧An→B1∧B2∧…∧Bn,一般分為兩個步驟:第一步,求出頻繁數據項集;第二步,用頻繁數據項集產生關聯規(guī)則。⑥最近鄰技術:這種技術通過已辨別歷史記錄的組合來辨別新的記錄,它可以用來做聚類和偏差分析[4]。
根據以上方法我們可以看出,現有的大數據分析技術都是基于計算機技術輔助統(tǒng)計技術實現的,除了遺傳算法和人工神經網絡外,都是經典的統(tǒng)計學算法,這些算法從19世紀七八十年代開始發(fā)展,到20世紀20年代初成型,距今已有80—120年的歷史[5]。雖然它們具有極高的穩(wěn)定性且較為成熟,但它們是為分析普通數據設計的,對于大數據的特點來說,難免有不能契合的方面。
(三)數據可視化表達程度有限
數據挖掘的第三個環(huán)節(jié)是數據展示,即可視化表達數據處理結果。米爾科·勞倫茲于2010年在阿姆斯特丹召開的第一屆國際數據新聞圓桌會議中指出,數據新聞要以可視化的呈現數據并合成新聞故事為最后一個流程[6]。
數據可視化,在今天已經是一個固定的概念,指的是將數據信息的“量值”或“關系”等轉變?yōu)橹庇^的圖形。數據的可視化加工,目前主要包括將數值型、文本型的數據及其關系用視覺化手段,例如圖片、動畫等形式呈現出來[7]。
可視化新聞是隨著數據在新聞中的廣泛運用出現并發(fā)展起來的,它是以數據為核心、信息為支撐、可視化為基本載體的跨媒體新聞報道形式??梢暬侣劦膬r值一方面取決于它的表現形式,另一方面取決于它對隱藏在宏觀、抽象數據背后的新聞故事性的展示。
然而,并不是所有的新聞事實都適合用數字或數字化的方式來表現。數據的可視化表達一方面受表達形式的局限,在告訴受眾“發(fā)生了什么”的方面要強于告訴受眾“為什么發(fā)生”。當數據的可視化僅限于告知事實時,可視化新聞或者數據可視化手段就只能用于最基礎的新聞報道。像深度報道這一類的新聞,就不能很好地涉足。另一方面,即便可視化技術有所改善,也很難改變數據本身不擅長表現復雜因素和關系的特點。學者丁柏銓說過:“個人與個人或群體之間的關系多涉及政治、經濟、文化等各種因素,涉及現實中的利害關系和歷史上的恩恩怨怨?!盵8]
二、人工智能時代數據新聞的發(fā)展之道
在人工智能時代,人工智能和大數據形成了相互推動的關系,一方面人工智能需要大量的知識和豐富的經驗,使機器獲得足夠的數據量;另一方面,大數據技術在人工智能時代獲得了前所未有的發(fā)展機會,我們就以上有關數據挖掘的三個環(huán)節(jié),來看人工智能帶給數據存儲、數據分析和數據展示三個方面的機遇和挑戰(zhàn),作為探討傳感器新聞和可視化新聞未來發(fā)展的技術基礎。
(一)云服務平臺——夯實數據存儲基礎
在人工智能時代,伴隨云計算的飛速發(fā)展,關于數據存儲的技術能力邁上了新的臺階。云計算指的是在技術上可以理解為將眾多能力較弱的服務器,通過網絡有機集在一起,形成一個能力超強的、可動態(tài)伸縮的資源池以完成大任務。它是一種按需提供的網絡訪問,用戶通過付費進入計算機資源共享池,這些資源包括網絡、服務器、存儲和應用軟件等。而云平臺的出現,使得云計算成為互聯網上一項成熟的公共服務,它的優(yōu)勢在于,平臺性的收集、聚合和儲存海量碎片化的數據,為進一步分析數據提供可靠基礎,是挖掘和處理大數據的操作平臺。從整體上來看,這降低了個體儲存、計算、分析數據的成本,使整個互聯網上的數據存儲和計算通過云平臺獲得了規(guī)模效應。
不管是技術上還是經濟上,云平臺都將為我們應對持續(xù)出現的海量數據提供最基礎的技術保障,使人們能更游刃有余地應對數據洪流。未來新聞媒體建立自己獨立的數據庫是大勢所趨,面對可能到來的海量數據,大型云服務平臺的出現,將緩解有關大數據存儲的困境。谷歌于2015年年底已正式建立谷歌云平臺,綜合其他服務為用戶提供一體化解決方案。
(二)智能感知——傳感器新聞:提高數據收集質量
隨著物聯網技術的發(fā)展,裝配在大量終端上的各類傳感器可以采集到海量且種類豐富的實時數據;不斷升級的通信網絡技術,又使這些數據可以完整地回傳到云端服務器上;而應用廣泛的云計算技術,令網絡和設備運營商又有途徑去進行實時存儲和高效并行處理[9]。這些都為解決數據新聞來源缺乏的問題提供了希望,同時也為傳感器新聞的發(fā)展奠定了基礎。
傳感器新聞來源于2013年6月成立于哥倫比亞大學托爾數字中心的“傳感器新聞”工作小組,根據該中心的定義,傳感器新聞指“利用傳感器生成或收集數據,然后分析、可視化、使用數據來支持新聞報道”[10]。目前,在新聞領域應用傳感器還屬于比較新的探索,僅有美國的個別媒體在進行嘗試。
雖然伴隨著移動通信網絡以及智能終端的發(fā)展,采集到的數據呈指數型爆發(fā),但以傳感器收集到的現場數據作為新聞數據源,卻無法避免量化優(yōu)勢背后的數據體積大、結構復雜、冗余度高且價值隱匿等問題。這些問題都會使數據分析和提取格外耗費成本,并考驗新聞從業(yè)者的綜合素質[11]。
在人工智能時代,具有智能識別和學習能力的分析系統(tǒng)可以幫助媒體有效挖掘大數據中最有價值的信息。比如通過進行有效的數據分類,提高數據資源的利用率和匹配程度。一個常見的情形是,當傳感器采集到大量數據進行數據匯聚和初步處理時,如果入網網關具備智能感知的功能,就可以過濾掉重復冗余的信息、只上傳必要和價值高的數據,這樣不僅可以節(jié)省大量的傳輸帶寬,也可以在第一時間收集到敏感信息[12]。新聞媒體在篩選第一系統(tǒng)的數據時,如果能配合智能算法,也可以淘汰掉不符合新聞生產標準的低價值數據,并依據新聞生產的要求,篩選敏感信息和關鍵部分。最理想的情況是還能做到根據具體的應用場景和需求合理配置數據,提高數據資源的利用效率。
這樣既緩解了數據新聞缺乏有效數據源的問題,又幫助數據新聞從生產源頭起就提高了分析數據的操作效率,從數據的結構和質量兩個方面作出有益的技術支持。
(三)智能展示——可視化新聞:完善數據展示功能
從米爾科·勞倫茲于2010年提出可視化新聞的概念到現在,雖然這一新聞形式誕生還不到十年,但是借助新媒體在信息傳播中的主導地位以及數據采集和分析技術的不斷突破,它已經表現出了強勁的發(fā)展勢頭。[13]在以大數據技術為核心基礎上形成的新聞可視化,關鍵在于如何通過可視化的方式傳遞、通過數據挖掘,產生有價值的信息。
目前,數據新聞在發(fā)布過程中倚重圖表表達和數說新聞的方式,在數據新聞的最終作品上,自然的科學性是它最大的特點,不擅長講故事和缺乏傳統(tǒng)新聞特有的人文主義關懷精神是它的局限所在。
人工智能(AI)時代,伴隨著視覺技術的進一步發(fā)展和新聞打開方式的不斷創(chuàng)新,數據展示技術也在不斷提高,受眾對數據成果的可接觸程度也將獲得新的深度。一方面數據分析后的結果可以最大限度地以最方便受眾的方式呈現出來,另一方面數據挖掘出的意義關系也可以體現得更明顯。近年興起的虛擬現實(VR)/增強現實(AR)技術,都代表了未來智能展示技術的發(fā)展方向。以2015年媒體對9·3閱兵的報道為例來看,利用VR技術進行新聞現場直播和全景展示已經逐步進入新聞媒體的報道中,全景式報道和基于數據分析的可視化新聞已經成為新聞報道創(chuàng)新的一大亮點。日后,新聞+VR/AR的模式將幫助受眾更清晰地進入時間或空間跨度大的環(huán)境中,在物理形式不受限的條件下認識到數據背后更長期、總體的規(guī)律。比起過去傳統(tǒng)的可視化手段,大數據與視覺技術的結合帶來的沉浸式新聞不僅是新技術手段下新的新聞革新方式,更是數據可視化新的發(fā)展機會。
數據可視化技術的創(chuàng)新不能解決可視化新聞的所有問題,在數據新聞發(fā)展的同時,我們不能放棄對新聞事實做質性分析和文字描述的工作,畢竟文字記錄才具有表達豐富性和敘事故事性的特征,更能體現新聞產品的人文關懷和新聞活動的本質。
三、結語
隨著人工智能各項技術的發(fā)展,數據新聞生產的各個環(huán)節(jié)都獲得了更成熟的技術支撐,從數據收集到數據分析再到數據展示,人工智能技術雖然不能解決數據新聞在發(fā)展過程中面對的所有問題,但是AI時代的數據新聞,勢必會獲得前所未有的發(fā)展機會。更強有力的信息存儲平臺、更智能的信息識別和采集系統(tǒng)、更人性化的可視化技術,都為數據新聞的未來發(fā)展拓寬了道路。
同時,機器人寫作、傳感器新聞和可視化新聞等人工智能時代發(fā)展起來的新聞生產創(chuàng)新模式也昭示著:AI時代的新聞生產和傳播領域將是智慧與智能的共同參與、人與機器的合作建構的。
參考文獻:
[1]萬璞,王麗莎.數據挖掘與人工智能技術研究[J].無線互聯科技,2016(5).
[2]祝建華.從大數據到數據新聞[J].新媒體與社會,2014(11).
[3]祝建華.從大數據到數據新聞[J].新媒體與社會,2014(11).
[4]萬璞,王麗莎.數據挖掘與人工智能技術研究[J].無線互聯科技,2016(5).
[5]祝建華.從大數據到數據新聞[J].新媒體與社會,2014(11).
[6]王傳寶,滕瀚.新媒體時代的“新聞可視化”初探[J].新聞研究導刊,2014(3).
[7]彭蘭.“信息是美的”:大數據時代下信息圖表的價值及運用[J].新聞記者,2013(6).
[8]丁柏銓.數據新聞的價值與局限[J].編輯之友,2014(7).
[9]孫松林,陳娜.大數據助推人工智能[J].郵電設計技術,2016(8).
[10]許向東.大數據時代新聞生產新模式:傳感器新聞的理念、實踐與思考[J].國際新聞界,2015(10).
[11]許向東.大數據時代新聞生產新模式:傳感器新聞的理念、實踐與思考[J].國際新聞界,2015(10).
[12]孫松林,陳娜.大數據助推人工智能[J].郵電設計技術,2016(8).
[13]葉文宇.大數據時代可視化新聞的特點及發(fā)展趨勢[J].傳播與版權,2015(9).
(喻國明為教育部長江學者特聘教授,北京師范大學新聞傳播學院執(zhí)行院長,中國人民大學新聞與社會發(fā)展研究中心主任;劉界儒、李陽為北京師范大學新聞傳播學院碩士生)
編校:王 謙