陳雪奇,王昱力
(四川大學(xué)文學(xué)與新聞學(xué)院,四川 成都 610064)
在新聞傳播活動過程中,新聞價(jià)值判斷由于涉及的是多變的受眾群體、善變的媒體及其從業(yè)者本身以及不斷變幻的環(huán)境,因此媒體很難做出準(zhǔn)確預(yù)測。預(yù)測是大數(shù)據(jù)的核心,只要涉及人類的判斷過程它都可以發(fā)揮作用。事實(shí)上,大數(shù)據(jù)分析手法已經(jīng)開始對新聞價(jià)值帶來影響,大數(shù)據(jù)影響新聞價(jià)值判斷有三個重要維度:有用性、時(shí)效性和異常性。
理論上,只要涉及人類的判斷行為,大數(shù)據(jù)都可以發(fā)揮作用。新聞價(jià)值是媒體的行業(yè)標(biāo)準(zhǔn),記者根據(jù)它對事件做出判斷,因此,大數(shù)據(jù)分析方法必定會對這一判斷過程產(chǎn)生影響。本文根據(jù)布魯克斯和門徹的闡述,并綜合其它觀點(diǎn),而形成判斷新聞價(jià)值的三個重要維度——“有用性”、“時(shí)效性”和“異常性”,來著重探討大數(shù)據(jù)分析方法在這三個維度上所產(chǎn)生的影響,以及大數(shù)據(jù)應(yīng)用在更深層面的滲透。
新聞價(jià)值的有用性主要是指,健康、消費(fèi)以及其它指導(dǎo)性報(bào)道能對受眾的生活有所幫助。在上述領(lǐng)域內(nèi),過去我們只能根據(jù)已經(jīng)呈現(xiàn)的狀態(tài),盡可能給受眾生活提供有用的指導(dǎo)性報(bào)道,但這些報(bào)道本身在很多時(shí)候缺乏緊迫性,從而導(dǎo)致其價(jià)值不高。而在大數(shù)據(jù)背景下,這一狀況完全可以得到改變。人們可以通過對海量數(shù)據(jù)的收集和存貯、并進(jìn)行復(fù)雜的相關(guān)性統(tǒng)計(jì)分析,在準(zhǔn)確預(yù)測未來發(fā)展趨勢基礎(chǔ)之上,提供更加迫切、影響范圍更大的實(shí)用性信息。
大數(shù)據(jù)的核心就是預(yù)測,但這種預(yù)測與固有的預(yù)測性新聞(anticipatory journalism)并不相同。預(yù)測性新聞報(bào)道主要由下列過程組成:“發(fā)現(xiàn)趨勢、在運(yùn)動的早期發(fā)展階段加以確認(rèn)、尋找了解重要信息的個人?!盵1]這是一種根據(jù)已知推測未來的新聞報(bào)道方式,它所涉及的領(lǐng)域是新聞事實(shí)發(fā)展的趨向、后果和未來將要發(fā)生的事件或社會現(xiàn)象,帶有很強(qiáng)的不確定性。不確定性的原因主要在于預(yù)測性報(bào)道是建立在預(yù)感和直覺基礎(chǔ)之上,而預(yù)感和直覺又是靠他們長期的經(jīng)驗(yàn)積累形成的感受。一直以來,記者都是靠直覺來感受具體某一個事件的意義,并透過復(fù)雜的表面現(xiàn)象看清隱藏在事件背后的關(guān)鍵因素。在大多數(shù)時(shí)候,直覺在新聞價(jià)值判斷過程起著重要的作用。對此,盡管阿爾伯特·愛因斯坦(Albert Einstein)對這種直覺也表示贊許,“直覺,由與經(jīng)驗(yàn)有關(guān)的感受所支持”,但這僅僅是愛因斯坦所表述的第一個階段,接下來卻是漫長而又復(fù)雜的驗(yàn)證過程。相比之下,用于預(yù)測性新聞的直覺卻缺少這一科學(xué)檢驗(yàn)環(huán)節(jié),依賴于經(jīng)驗(yàn)和情感進(jìn)行的新聞價(jià)值判斷往往會因?yàn)槠姸霈F(xiàn)偏差。
大數(shù)據(jù)的預(yù)測是建立在相關(guān)關(guān)系分析法的基礎(chǔ)之上,它比基于直覺的分析法更加準(zhǔn)確、快捷,而且不受偏見的影響。在預(yù)測過程中尋找關(guān)聯(lián)物非常關(guān)鍵,舍恩伯格進(jìn)一步解釋:“相關(guān)關(guān)系的核心是量化兩個數(shù)據(jù)之間的數(shù)理關(guān)系。相關(guān)關(guān)系強(qiáng)是指當(dāng)一個數(shù)據(jù)增加時(shí),另一個數(shù)據(jù)值很有可能會隨之增加?!盵2]這種具有很強(qiáng)相關(guān)關(guān)系的大數(shù)據(jù)分析,典型地表現(xiàn)在2009年,美國谷歌公司預(yù)測出了甲型H1N1流感在美國的傳播。
當(dāng)流感在美國爆發(fā)的前幾周,谷歌公司的專家就在《自然》雜志發(fā)表相關(guān)論文,解釋了他們?yōu)槭裁茨軌蝾A(yù)測出流感的傳播:他們不僅預(yù)測出了在全美范圍內(nèi)的傳播,而且還具體到了特定的地區(qū)和州。他們主要是通過觀察人們在網(wǎng)上的搜索來完成預(yù)測流感傳播趨勢:在一個特定的地區(qū),越多的人通過谷歌搜索特定的詞條,那么該地區(qū)就有更多的人患上了流感。谷歌公司之所以能夠完成預(yù)測,首先在于它保存了多年來所有的搜索記錄,而且每天都會收到來自全球超過30億條搜索指令,龐大的數(shù)據(jù)資源足以支撐他們完成預(yù)測;其次是強(qiáng)大的數(shù)據(jù)處理能力,單是為了測試檢索詞條,它們就總共處理了4.5億個不同的數(shù)學(xué)模型;最后是相關(guān)性分析,它們把5 000萬條美國人最常用的檢索詞條與美國疾控中心在2003年至2008年間流感傳播時(shí)期的所有數(shù)據(jù)進(jìn)行了比較,通過分析搜索記錄來判斷人們是否患上了流感。
從目前大數(shù)據(jù)分析法的實(shí)踐進(jìn)程考察,包括谷歌公司對流感的預(yù)測、Farecast公司對機(jī)票價(jià)格走勢和增降幅度的預(yù)測、沃爾瑪公司對颶風(fēng)期間人們的食物需求預(yù)測等等,它們都是基于大數(shù)據(jù)基礎(chǔ)上的相關(guān)性分析所做出的概率預(yù)測,因而都具有很強(qiáng)的有用性。谷歌公司能提前讓人們防范流感的侵襲、Farecast公司可以讓消費(fèi)者平均每張機(jī)票節(jié)省50美元、沃爾瑪公司可以滿足消費(fèi)者緊急情況下的特殊食物需求,這些預(yù)測信息都具有精準(zhǔn)、具體和清晰等特征,它們拓寬了我們對新聞價(jià)值觀中有用性的理解。同時(shí),由于預(yù)測結(jié)果在時(shí)間軸上的延伸,使得人們有更充裕準(zhǔn)備時(shí)間,因而增大了“有用性”價(jià)值。
破新聞報(bào)道的“時(shí)效性”(Timeliness)
新聞價(jià)值的時(shí)效性主要是指新近發(fā)生事件的及時(shí)報(bào)道。從時(shí)間性上看,它包含兩個時(shí)間段:一個是事件發(fā)生的時(shí)間,另一個是報(bào)道的時(shí)間。對于前者而言,一般認(rèn)為,發(fā)生在當(dāng)天或者前一天的事件才有新聞報(bào)道的可能,或者是與當(dāng)天有關(guān)的以前的事件;對于后者而言,新聞報(bào)道必須迅速及時(shí),并且要不斷更新以滿足人們不斷追蹤的欲望和需求。因此,時(shí)效性是指新聞的報(bào)道與新聞事實(shí)發(fā)生之間的時(shí)間差,時(shí)距越短新聞價(jià)值就越大,傳播的效果就會越好。作為商業(yè)機(jī)構(gòu)的媒體,總是力圖想讓受眾與事件保持同步,并全力在報(bào)道的時(shí)間上展開激烈競爭,但是他們卻從未想過,如何在事件發(fā)生的時(shí)間段上來搶占先機(jī)。在這方面,大數(shù)據(jù)分析方法能派上用場么?
一直以來,新聞都是針對已經(jīng)發(fā)生的事實(shí)報(bào)道,事實(shí)被視為新聞的本源,是新聞傳播學(xué)研究的邏輯起點(diǎn)。在這種觀念之下,媒介從事的“預(yù)發(fā)性報(bào)道”——即事實(shí)還沒有發(fā)生,傳播者憑借以往的“經(jīng)驗(yàn)”寫出的“新聞報(bào)道”,被一些學(xué)者認(rèn)定為“違背了新聞的先有事實(shí)后有新聞的客觀規(guī)律”[3]。在這里,對“經(jīng)驗(yàn)”的論斷有些武斷,因?yàn)樗鼪]有注意到記者長期訓(xùn)練成的新聞直覺和經(jīng)驗(yàn)是發(fā)現(xiàn)事實(shí)的一個重要因素。事實(shí)上,在很多情況下直覺和情感的確能夠幫助人們的判斷,雖然同時(shí)它也極容易產(chǎn)生錯誤。相比之下,大數(shù)據(jù)分析方法不是臆測,也不是直接推理,更沒有改變事件的特質(zhì),它只不過是在海量數(shù)據(jù)分析的基礎(chǔ)之上,通過提出概率預(yù)測來幫助人們進(jìn)行判斷。說到底,數(shù)字本身仍然是客觀存在的事實(shí)。
大數(shù)據(jù)的分析方法目的是讓人們提前知曉尚未發(fā)生事件的趨勢,因此,它對新聞價(jià)值觀的改變就是把新聞報(bào)道的時(shí)間起點(diǎn)提前——即在事件發(fā)生之前新聞報(bào)道就開始介入。而這一改變發(fā)生的理論前提,是大數(shù)據(jù)概率預(yù)測的學(xué)理性,以及我們對新聞本身的理解。
運(yùn)用已經(jīng)掌握的信息來進(jìn)行概率預(yù)測,這在傳播學(xué)的學(xué)科領(lǐng)域內(nèi)并不是新東西,只不過可能被我們忽略掉了。在對傳播學(xué)的科學(xué)化發(fā)展起著巨大推動作用的信息論提出者克勞德﹒E﹒香農(nóng)(Claude E.Shannon)看來,信息就是“在人們需要進(jìn)行決策之際,影響他們可能的行為選擇之概率的物質(zhì)—能量的型式”[4]。這句話的意思是,人們對事物的判斷是基于對事物的認(rèn)知,而任何事物都具有自身內(nèi)在的屬性或規(guī)律,這些屬性或規(guī)律則是通過一定的物質(zhì)或能量的型式表現(xiàn)出來。人們只有獲得這些表現(xiàn)出來的信息,才能做出正確的判斷。熵①熵——是用來描述一個體系的混亂程度的。奧地利物理學(xué)家路德維格·波爾茲曼(Ludwig Boltzmann)將熵S和系統(tǒng)可用狀態(tài)數(shù)?通過公式S=log?聯(lián)系起來。這即是說,如果系統(tǒng)內(nèi)的狀態(tài)很清淅,那么它的狀態(tài)數(shù)是1,也就是說?=1,那么此時(shí)S就是0。當(dāng)熵為0時(shí),理論上我們就可以100%地進(jìn)行準(zhǔn)確的預(yù)測。是香農(nóng)的理論的一個核心概念,并用它來衡量系統(tǒng)內(nèi)信息的尺度。如果系統(tǒng)內(nèi)的各種狀態(tài)具有同等的可能性時(shí),熵就達(dá)到最大值,對此人們就很難做出比較準(zhǔn)確的判斷。例如,按照香農(nóng)的計(jì)算,“如果英語的相對熵值只有30%,即可預(yù)測性只有70%,那么用英語去設(shè)計(jì)和完成填字游戲就沒有絲毫的樂趣了。另一方面,如果相對熵值高達(dá)70%,即可預(yù)測性只有30%,那就容易設(shè)計(jì)和完成三維填字游戲了”[5]。這說明,熵值越低,可預(yù)測性就越高,反之,可預(yù)測性就越低。按照信息論觀點(diǎn),信息就是必須消除系統(tǒng)中的不確定性和隨機(jī)性,以提高人們判斷的精準(zhǔn)度。
熵值高低決定了可預(yù)測程度的大小,然而熵值本身又是由什么來決定的呢?早在1948年,克勞德﹒E﹒香農(nóng)就發(fā)表的一篇標(biāo)志信息論誕生的里程碑式的論文《A Mathematical Theory of Communication》。在這篇論中文中,他通過構(gòu)建的通信數(shù)學(xué)模型,明確地提出信息的度量問題。他根據(jù)熵的概念,指出英語有50%的重復(fù)性,這就把熵值的高低與重復(fù)性特質(zhì)聯(lián)系起來了。艾伯特·拉斯洛·巴拉巴西進(jìn)一步論述了一個人的重復(fù)性決定其熵值的觀點(diǎn),2008年在分析百萬個手機(jī)用戶、并測算這些用戶的熵值時(shí),他發(fā)現(xiàn),“所有用戶的平均可預(yù)測程度都在93%左右,這就意味著人們只有7%的時(shí)間是行蹤不定的”[6]。甚至對一些熵值低的用戶,可預(yù)測程度接近100%,這說明了重復(fù)性的生活規(guī)律在其中起了重要作用。
準(zhǔn)確的預(yù)測完全可以把新聞報(bào)道的時(shí)間提前至事件發(fā)生之前,完全可以實(shí)現(xiàn)并超越李普曼的夢想。前面提到的美國谷歌公司預(yù)測流感在美國的傳播,從時(shí)間上來看,它們能在甲型H1N1流感爆發(fā)的前幾周,就可以準(zhǔn)確判斷出流感是從哪里傳播出來的,這一預(yù)測就非常及時(shí)。相比之下,官方的正式報(bào)告卻要在流感爆發(fā)后一至兩周才能夠做到。對于這種大規(guī)模飛速傳播的病毒而言,信息滯后一兩周將會出現(xiàn)致命效果。從這一事件中,至少我們可以發(fā)現(xiàn):新聞報(bào)道突破傳統(tǒng)的時(shí)效性觀念不僅具有可能性,而且還具有必要性。
新聞價(jià)值的“異常性”主要是指非普通、少有或離奇的事,以及從事非正?;顒拥娜恕_@些事和人,用門徹的話說,就是從正常事件流程中脫軌而出的信息,是某種預(yù)期的中斷,因而符合新聞價(jià)值的異常性。然而,媒體和記者如何來判斷異常性呢?一直以來,他們是主要靠自身長期養(yǎng)成的新聞敏感來進(jìn)行肉眼目測判定,并成為新聞工作的常態(tài)。然而這種建立在直覺和情感基礎(chǔ)上的判斷,往往會出現(xiàn)判斷失誤的狀況。在大數(shù)據(jù)背景下,仍靠隨機(jī)抽樣的方法,是很難從海量數(shù)據(jù)中捕捉到那些隱藏很深的異常狀況。
盡管之前統(tǒng)計(jì)學(xué)的研究表明,隨機(jī)抽樣分析的準(zhǔn)確性是隨著抽樣隨機(jī)性的增大而大幅提高,與樣本量的增加關(guān)系不大。但是這種隨機(jī)抽樣方法是在不可能收集全部數(shù)據(jù)和無法對全部數(shù)據(jù)進(jìn)行分析的情況下而進(jìn)行的,這是一種用較少花費(fèi)做出較高精準(zhǔn)度推斷的分析方法。事實(shí)上,這種方法的缺點(diǎn)也非常明顯:首先要實(shí)現(xiàn)采樣的隨機(jī)性本身就是一件非常困難的事,甚至在很多時(shí)候難以找到一個抽樣的最優(yōu)標(biāo)準(zhǔn),而采樣中的任何偏見都會使最終結(jié)果產(chǎn)生巨大偏差;其次,隨機(jī)抽樣極有可能會漏掉那些與抽樣對象總體結(jié)構(gòu)特性不一致,但又具有特殊重要價(jià)值的信息。
因此,檢查所有的數(shù)據(jù)對于捕捉異常性就顯得非常有價(jià)值了。典型的例子就是,美國芝加哥大學(xué)教授斯蒂夫·列維特(Steven Levitt)在他的《魔鬼經(jīng)濟(jì)學(xué)》(Freakonomics)一書中用各種搜集起來的數(shù)據(jù),通過巧妙的分析,最終得出了令人瞠目結(jié)舌的結(jié)果。其中,對芝加哥公立學(xué)校的教師作弊案的分析,就是用了接近于全部的所有數(shù)據(jù),它再次說明了全數(shù)據(jù)模式——樣本=總體,對于挖掘異常情況的重要性。
斯蒂夫·列維特的研究對于我們捕捉新聞事件中的反常性具有以下三個方面的重要意義:首先,大數(shù)據(jù)分析是建立在掌握所有數(shù)據(jù),或至少是盡可能多的數(shù)據(jù)基礎(chǔ)之上,所以它并不只關(guān)注一個隨機(jī)的樣本。在上述案例中,用隨機(jī)抽樣采樣分析方法無法發(fā)現(xiàn)教師作弊現(xiàn)象,相反,只有通過全部數(shù)據(jù)的分析才能捕捉到那些鮮為人知的細(xì)節(jié);其次,大數(shù)據(jù)的“大”并不是絕對意義上的大,所有的數(shù)據(jù)庫也并不一定需要有以太字節(jié)計(jì)的數(shù)據(jù),在芝加哥教師作弊案中數(shù)據(jù)庫所包含的字節(jié)量就并不算太大,但正是大數(shù)據(jù)的思維讓我們發(fā)現(xiàn)了其中的異常情況;第三,對于全數(shù)據(jù)的樣本心須要有相應(yīng)的分析和處理的方法,才能發(fā)現(xiàn)出其中隱藏著的問題。在上述案例中,正是用了相關(guān)數(shù)據(jù)進(jìn)行對比分析,同時(shí)還借助于方程分析,才發(fā)現(xiàn)了其中的隱秘情況。
綜上所述,大數(shù)據(jù)已經(jīng)對新聞價(jià)值觀帶來了改變,而未來這種變化將會越來越大、影響也會越來越深刻。因此,面對呈指數(shù)級增長的數(shù)據(jù),如何進(jìn)行搜集、管理和分析就成為媒體下一步研究的重點(diǎn)。就信息的傳播而言,一方面,由于數(shù)據(jù)存儲器性能的不斷提升、價(jià)格的不斷下降,它使得人類復(fù)制和傳播信息的邊際成本越來越低,信息的交流和共享變得越來越簡單、方便和快捷;另一方面,隨著分析與數(shù)據(jù)環(huán)境關(guān)聯(lián)性、海量并行處理機(jī)構(gòu)(MPP)、云計(jì)算、網(wǎng)格計(jì)算以及MapReduce等信息技術(shù)的發(fā)展,它使得海量數(shù)據(jù)的收集和處理已經(jīng)成為可能。這一切不僅在技術(shù)層面改變著信息傳播特征,同時(shí)也在觀念層面撼動著我們對整個新聞業(yè)的理解。隨著新聞傳播事業(yè)的發(fā)展,可以預(yù)見的是,未來這種影響將會是積極的。