文|蔣遠翔
頭條屬于誰?大數(shù)據(jù)說了算
文|蔣遠翔
隨著科技的進步和社會的飛速發(fā)展,全球的互聯(lián)網(wǎng)保持高速發(fā)展的趨勢。截至2013年底,全球互聯(lián)網(wǎng)中數(shù)據(jù)總量已經(jīng)達到4ZB,如果將數(shù)據(jù)存儲在DVD光盤中,總厚度有26萬公里,大約是地球到月亮距離的三分之二,其中34%的數(shù)據(jù)具有價值,但只有7%的數(shù)據(jù)被標注整理,1%的數(shù)據(jù)被分析。在此背景下,大數(shù)據(jù)應用與分析服務快速崛起。而現(xiàn)階段各大門戶網(wǎng)站對新聞重要程度的評價的主要還依舊處于人工判定的階段,這種方式無法反映某一新聞的真正影響范圍。在大數(shù)據(jù)背景下如何從種類多樣、內(nèi)容多變、形式多元的實時數(shù)據(jù)中獲取大家所關心的新聞并正確描述新聞演化的規(guī)律成為眾人關心的重點。
據(jù)Mary Meeker發(fā)布的2014年度互聯(lián)網(wǎng)趨勢報告顯示,移動數(shù)據(jù)流量正在呈現(xiàn)爆炸式增長趨勢,較去年相比其增幅達到81%,新興計算設備的用戶比上一代大十倍,互聯(lián)網(wǎng)的用戶數(shù)在未來可能突破百億大關?;ヂ?lián)網(wǎng)憑借其高效的實時性、廣泛的覆蓋面、內(nèi)容的豐富性以及良好的互動性已經(jīng)代替報紙、廣播、電視等傳統(tǒng)的傳媒手段成為人們獲取信息最重要的手段。而在互聯(lián)網(wǎng)上層出不窮的社交軟件、新聞客戶端、信息推送軟件將新聞的影響變得更加多元化,但直觀的來看,新聞通過不同平臺發(fā)布所造成的影響力完全不一樣,因此新聞發(fā)布的網(wǎng)站也是衡量新聞影響力的重要標準。
近五年來,中國網(wǎng)民規(guī)模不斷上升,網(wǎng)絡普及率不斷增高,截止到2014年6月底,全國網(wǎng)民人數(shù)共有6.32億,互聯(lián)網(wǎng)普及率達到46.9%;手機網(wǎng)民在所有網(wǎng)民中所占比重為83.4%,網(wǎng)民的平均每周上網(wǎng)時長為25.9小時,網(wǎng)民的評論和看法已經(jīng)成為影響新聞影響力的重要因素,如圖1所示。
因此通過綜合考慮用新聞發(fā)布網(wǎng)站和用戶觀點來決定新聞的影響力應該是未來媒體發(fā)展的主要方向,大數(shù)據(jù)計算為這種評價方式提供了可能。
階段隨著互聯(lián)網(wǎng)中的數(shù)據(jù)急劇增多,給新聞媒體和網(wǎng)民提出了巨大的挑戰(zhàn)。人們每天接受到的信息量在快速增長,現(xiàn)階段每人每天獲取的信息量大約相當516張報紙,共計5000篇左右的文章。一方面新聞媒體需要考慮如何將大量的數(shù)據(jù)按照合理合適的方式展示給用戶,以便在引起用戶廣泛關注的同時又能避免用戶對大量冗余的信息感到厭煩,達到提升用戶體驗的目的;另一方面網(wǎng)民需要考慮如何利用有限的時間接受更多有用的信息、關注實時熱點新聞以及新聞演化的整個過程,同時避免大量的冗余信息、過濾不關心的新聞并有效抵制無意義的信息推送。因此針對海量網(wǎng)絡數(shù)據(jù)的熱點新聞發(fā)現(xiàn)及演化必將成為已經(jīng)成為了媒體大數(shù)據(jù)挖掘領域的熱點,也是現(xiàn)實應用提出的迫切需求。
在進行新聞影響力計算之前,我們要對新聞的數(shù)據(jù)量有一個直觀的認識,現(xiàn)階段我國每天產(chǎn)生的信息量約有800EB,如果裝在DVD光盤中要裝1.68億張、裝在硬盤中要裝80萬個。如此龐大的信息量,哪怕只取其中的1%去處理,傳統(tǒng)的計算方式是無法達到了,因此利用分布式的處理框架來進行海量數(shù)據(jù)的處理,是現(xiàn)階段較為可行的方式之一。
在進行新聞影響力計算的過程中,我們要分別考慮媒體的影響力和網(wǎng)民的影響力。在計算媒體影響力的過程中,我們通過媒體每天發(fā)布的新聞的個數(shù),以及媒體每天的訪問量進行一個計算,得到媒體在整個網(wǎng)絡中的影響力。對每一個新聞來說,我們可以通過采集網(wǎng)民的評論個數(shù),網(wǎng)民的評論時間,以及新聞的發(fā)布時間,通過計算得出單位時間內(nèi)某一新聞的評論量以及評論的正負面傾向,綜合考慮媒體的影響力和網(wǎng)民的影響力得到一個關于新聞影響力的綜合排序。
除此之外我們可以通過統(tǒng)計網(wǎng)民對某一領域的關注程度,得出網(wǎng)民的興趣點以及所關心的主題,通過計算熱點新聞和網(wǎng)民興趣點之間的關系,得到一個關于網(wǎng)民的個性化的新聞推薦策略,實現(xiàn)高效推薦與定點推薦相結合,提高了推薦的效率和有效性,這可以很大程度上減少網(wǎng)民閱讀海量信息的負擔,增強用戶的體驗,推動媒體界的可持續(xù)發(fā)展。
圖1 網(wǎng)絡用戶規(guī)模和普及率
在計算新聞影響力的基礎上,通過獲取新聞訪問量和用戶評論量的動態(tài)變化,以及信息學中信息衰減的原理,構建一種基于時間變化的新聞影響力變化曲線,通過曲線我們可以查看新聞的整個演化過程,以及在演化過程中新聞關注點以及網(wǎng)民關注點的變化。
首先,新聞熱度計算過程中新聞的涵蓋范圍更廣,網(wǎng)絡中查看熱點事件時,只在單一的幾個網(wǎng)站中查看個別事件,并沒有過多的時間和精力和關注所有相關的事件和內(nèi)容,新聞熱度計算不但給用戶一個關于新聞熱度的定量描述,還可以消除用戶關注與某一特定網(wǎng)站的局限性,將不同網(wǎng)站間所有相關的內(nèi)容一次性展示給用戶。
其次,新聞熱度計算可以為用戶提供一種直觀的描述,新聞重要與否,可以通過熱度值直觀的表示。通過網(wǎng)頁發(fā)布時間、抓取網(wǎng)頁文本時間、點擊量評論量我們可以較為合理的計算出每一個新聞的熱度,熱度值的計算可以代替?zhèn)鹘y(tǒng)的人工判讀,減少了大量的人力開銷,也在一定程度上減少了主觀因素。
再次,新聞熱度就有很強的實時性,傳統(tǒng)的熱點排行榜通過統(tǒng)計事件報道次數(shù)和網(wǎng)頁的歷史點擊量來評價計算事件的熱度,或者通過人為判讀來確定事件的重要程度,這種方法無法計算新聞的實時熱度。我們通過計算不同時間片內(nèi)的新聞的熱度,得到關于某一新聞的熱度曲線,通過新聞中關鍵字的變化來描述新聞內(nèi)容的演化過程,整個過程具有很強的實時性。
最后,通過熱度曲線描述的新聞演化過程可以使人們了解一個新聞從發(fā)生、發(fā)展、衰退到消失的全過程。也可以通過整個過程來分析新聞的規(guī)律,對敏感事件的爆發(fā)做到提前預防,甚至可以將網(wǎng)絡惡性傳播事件消滅在萌芽當中。
這種新聞影響力的計算和演化方法,實現(xiàn)了大數(shù)據(jù)背景下熱點新聞影響力實時計算的功能,為政府和民眾提供了一個掌握實時熱點新聞平臺,實現(xiàn)對熱點新聞的全方位監(jiān)控,為網(wǎng)絡輿情控制奠定了堅實的基礎。
(作者單位:新華社湖南分社技術中心)