胡開遠 王少劍
摘要:隨著信息技術快速發(fā)展和新媒體的興起,海量互聯(lián)網(wǎng)用戶對信息的貢獻和傳播使得在線內容展現(xiàn)出了前所未有的繁榮;然而,在線內容中的大多數(shù)在發(fā)布后不久便淡出了人們的視線,只有少數(shù)內容能夠持續(xù)傳播并成為網(wǎng)絡熱點,其中的原因尚有待研究和解釋。以信息分享和在線內容傳播相關理論為基礎,通過訪談關注微博新聞消息的用戶,識別影響內容早期傳播的因素,并抓取相應傳播數(shù)據(jù)進行驗證,結果表明,在線內容的初期傳播與內容的信息質量有關,同時受發(fā)布時在線用戶活躍度影響。
關鍵詞:在線內容;早期傳播;信息分享;微博
中圖分類號:F062.9 文獻標識碼:A 文章編號:1003-3890(2013)05-0085-05
一、引言
隨著信息技術的快速發(fā)展,以社會化媒體為代表的新型互聯(lián)網(wǎng)應用不斷誕生和繁榮,從最早的博客、播客、維基一直到最近流行的社交網(wǎng)絡、微博客,不同的互聯(lián)網(wǎng)服務平臺上累積了龐大的用戶基礎。據(jù)iUserTracker最新的調查顯示①,截至2012年5月,社區(qū)交友服務覆蓋人數(shù)超4億,滲透率達80%,其中,微博及SNS的覆蓋人數(shù)最多,微博覆蓋人數(shù)約為2.7億人,SNS覆蓋人數(shù)約為2.6億人。借助這些平臺,用戶持續(xù)不斷地發(fā)布和傳播著各種各樣的信息,使得互聯(lián)網(wǎng)在線內容呈現(xiàn)出欣欣向榮的景象。
在繁榮的背后,可以關注到在線內容特有的現(xiàn)象:少數(shù)內容在短期內獲得了大量的關注和傳播而成為熱點,而大多數(shù)內容則人氣平庸,在誕生后不久便退出了人們的視線。這一現(xiàn)象,在具有協(xié)同過濾(collaborative filtering)功能特性的社會化媒體中顯得尤為突出:用戶往往只關注和傳播自身感興趣的人發(fā)布的內容,從而形成基于興趣的關注鏈條,當內容符合用戶群體的興趣時將得以沿著鏈條持續(xù)傳播,否則將很快停止傳播并消退。這使得在線內容的傳播成為了包括企業(yè)組織和政府機構在內的許多社會化媒體用戶所關注的問題,因為準確而實時的在線內容流行度預測一方面使得企業(yè)能夠通過對內容訪問的定價和廣告投放實現(xiàn)收益的最大化(Lerman和Hogg,2010)[1],另一方面有助于政府把握和掌控網(wǎng)絡輿情,積極回應民眾通過網(wǎng)絡渠道的訴求并治理傳播中的有害信息。
盡管對在線內容的流行度(popularity)和網(wǎng)絡熱點的研究提出了不少能實時發(fā)現(xiàn)熱門話題的算法和模型,然而對于特定在線內容是否能夠成為熱點的問題則有待進一步的研究探索?;诖?,本研究首先對國內外有關研究進行介紹和評述,然后以新聞微博帳號為研究對象,采用用戶訪談與歷史數(shù)據(jù)抓取與分析相結合的方式,探索并驗證在線內容早期傳播的影響因素。
二、相關研究評述
在國外,在線內容流行度的預測已經(jīng)受到學者們的關注。Wu和Huberman(2007)通過分析digg.com上近100萬人的互動情況,確定數(shù)千個新故事的關注的增長和消退,并驗證了一個用于預測故事生命周期的動力學和統(tǒng)計分布的理論模型[2];Saha和Sindhwani(2012)提出了一個基于文本內容的在線非負矩陣因子分解框架,用于預測即將產生的熱點主題,并且取得良好效果[3]。
在國內,不少學者也提出了不同的網(wǎng)絡熱點探索和發(fā)現(xiàn)方法,如劉星星等(2008)面向互聯(lián)網(wǎng)新聞設計了熱點事件發(fā)現(xiàn)系統(tǒng),能夠根據(jù)大規(guī)模數(shù)據(jù)自動發(fā)現(xiàn)特定時期內的熱點事件[4];基于已有的熱點挖掘和輿情分析技術,吳方照(2012)實現(xiàn)了一個完整的網(wǎng)絡熱點話題挖掘與分析系統(tǒng),能夠確保獲取的熱點話題的時效性[5]。這些研究的特點在于基于一定的算法構建模型,然后通過網(wǎng)站的宏觀歷史數(shù)據(jù)對模型進行驗證,并且能夠用于新熱點的發(fā)掘和預測。然而,這些模型無法用于對具體內容的傳播以及流行度的預測,而對于具體的用戶而言,更關心的往往是特定的內容(通常是用戶自身發(fā)布的內容)能否獲得廣泛傳播并成為熱點。要回答這一問題,首先需要理解在線內容傳播的過程。
在線內容的傳播通??梢苑譃樵缙趥鞑ズ烷L期傳播兩個階段。在早期傳播階段,內容的傳播主要受到哈羅德·拉斯韋爾提出的傳播“5W”(Who says what in which channel to who with what effect)模式,即內容發(fā)布者、內容本身、傳播媒體(渠道)、內容接收者以及傳播效果的影響,因為在這一階段,內容往往只是傳播至發(fā)布源的直接關注者,二次傳播尚未開始;而長期傳播,則受到包括協(xié)同過濾機制在內的許多其他因素的影響:一方面,一些內容的接收者進一步也成為內容的分發(fā)者,因而后來的內容接收者將可能感受到多個層次的內容來源(Sundar,2007)[6];另一方面,媒體對多次傳播的內容提供了多樣化的線索,這些線索能夠幫助用戶評估內容,從而也會影響內容的進一步傳播,如在新浪微博中,已被用戶大量討論的話題會成為熱門話題,從而出現(xiàn)在首頁右側的熱門話題榜中,進一步引發(fā)了其他用戶的關注和討論。
盡管內容的長期傳播機制十分復雜,然而多個研究表明,內容的早期傳播情況對長期傳播有良好的預測能力。例如,Szabo和Huberman(2010)的研究表明,在線內容的長期流行度(popularity)可以通過早期的用戶訪問量來預測,其誤差不高于10%[7];Lerman和Hogg(2010)指出,盡管大量因素在影響內容傳播的先驗預測,但基于早期內容出現(xiàn)的用戶反應能夠預測內容未來的流行度[1]。因此,部分學者將研究重點放在了在線內容的早期傳播上,并探索出了一些可能影響用戶分享內容的意愿并最終影響內容流行度的因素,如發(fā)布者(來源)的可信度(Ha和Ahn,2011)[8]、內容質量(Agarwal等,2008)[9]、接收者對內容質量、風險的感知和信任(厲鐘靈,2012)[10]、用戶的動機(Marett和Joshi,2009)[11]以及對在線社區(qū)的參與度(Chang和Chuang,2011)[12]等。這些研究的特點在于回歸到微觀的傳播行為中,基于對個體用戶行為意愿的研究得出結論,所采用的模型的因變量往往是用戶對內容的分享或轉發(fā)意愿而非實際的早期傳播效果,因而有待在實際的傳播情境中進行驗證。
綜上所述,本研究將從內容發(fā)布者的實踐出發(fā),重點關注與內容發(fā)布相關的因素對早期傳播的影響。
三、研究設計
(一)研究對象的選取
本研究選取了目前國內最為流行的一類社會化媒體中的內容傳播,即微博中的消息轉發(fā)作為具體的研究對象。微博(micro-blogging,又稱微博客)作為繼博客、視頻網(wǎng)站、社交網(wǎng)絡和維基以后出現(xiàn)的一種新型社會化媒體,其特點在于信息技術的集成化與信息傳播的社會化,它一方面允許用戶通過多種渠道隨時在上面發(fā)布文本、圖片、鏈接和地理位置,另一方面允許用戶關注并分享自身感興趣的內容,具有信息發(fā)布門檻低、信息傳播速度快和信息收發(fā)干預難的特點(劉淵,2011)[13]。這些特點結合微博龐大的用戶基礎,使得微博多次在國內外重大公共事件中發(fā)揮重大作用,如國外的2009年的伊朗綠色革命、2011年日本東北地方太平洋近海地震以及國內的2011年“7·23”甬溫線特別重大鐵路交通事故等。由于具備較強的媒體影響力,不少企業(yè)乃至于政府均試圖利用微博成為自身信息發(fā)布及宣傳、營銷的渠道。因此,選取微博作為具體的研究對象,有助于增強本研究對現(xiàn)實的指導意義。
進一步地,本研究選取了新浪微博中的“頭條新聞”帳號(http://weibo.com/breakingnews)作為研究對象。選擇這一帳號的理由包括:該帳號為新浪微博官方運營的帳號,與其他富有話題性和爭議性的消息發(fā)布者相比,普通用戶對該帳號的認知和信任一致性較強。該帳號擁有超過1 600萬的關注用戶,有助于降低單個關注者對內容傳播的影響,使得該帳號所發(fā)布的內容的流行度更能視作海量用戶傳播行為的結果,否則,內容傳播可能高度依賴個別具有較大影響力的關注者的轉發(fā),從而不利于對影響因素的研究。該帳號所發(fā)布的消息均為新聞消息,內容具有較強的同質性,有助于控制用戶對消息類型的偏好對傳播的影響。該帳號7天24小時實時發(fā)布新聞消息,有助于研究在不同時段發(fā)布內容是否對傳播造成影響。
(二)研究變量的選取
內容的信息質量影響了用戶對信息的使用(Nicolaou和McKnight,2006[14];厲鐘靈,2012[10]),在具體的研究中,學者通常用感知信息質量(perceived information quality,PIQ),即用戶對其信息期望和實際信息產出之間的差距的感受來測量實際的信息質量(Bailey和Pearson,1983)[15]。根據(jù)這一定義,對于同樣的內容,不同用戶可能由于具有不同的期望而產生不同的感知;當內容本身有差異時,由于不同的學者在不同的研究中發(fā)展出了不同的PIQ框架,因此對PIQ的測量可能缺乏信度,因為此時無法區(qū)分所測量到的PIQ差異到底是來自內容的不同,還是來自用戶之間的感知差異。不過,根據(jù)雙重加工理論,如精細加工可能性模型(ELM)和啟發(fā)式-系統(tǒng)模型(HSM),以及以此為基礎的一系列研究,用戶可能會依賴于一些簡單的、易于判斷的線索來對內容進行判斷(Petty和Cacioppo,1986[16];Chaiken,1980[17];Sundar,2007[6])。例如,用戶可能會認為圖片有助于幫助說明事實,因為比起文本內容來說,圖片更難偽造,因此對于附帶圖片的內容,用戶可能有更高的感知信息質量;消息的長度可能會給人以論述更為詳細、完善的感覺,從而具有更高的質量;附帶鏈接的內容,能夠予用戶以旁征博引、引經(jīng)據(jù)典的感受,使得用戶感到發(fā)布者客觀、嚴謹?shù)膽B(tài)度,從而對其發(fā)布的內容有更高的感知質量(Ha和Ahn,2012)[8];等等。與內容本身內在的質量相比,這些與內容高度相關的、客觀的內容線索一方面能夠影響用戶對信息質量的感知,從而可能影響了用戶轉發(fā)消息的意愿;另一方面則是易于觀察和測量的客觀因素,能夠提高研究的信度。
為探索可能影響用戶轉發(fā)意愿的影響因素,本研究基于前人的研究,對“頭條新聞”帳號所發(fā)布的消息進行觀察分析,整理出可能影響用戶轉發(fā)的因素。由于“頭條新聞”帳號在自身發(fā)布消息的同時也會轉發(fā)其他帳號所發(fā)布的消息,對于這些消息,用戶可能在對消息來源的感知上產生不可控制的差異,因此本研究排除了這部分轉發(fā)的消息,只考慮該帳號原創(chuàng)發(fā)布的消息。這些消息的基本特點如下:新聞內容在一開始先以“[]”符號給出新聞標題,然后通過一段不超過160字的文本對新聞內容進行摘要描述,然后附上詳細的新聞鏈接,部分新聞消息還附上了圖片。鑒于所有的新聞都附有鏈接,因此本研究只選取新聞消息的長度以及新聞消息是否附帶圖片這兩個變量,作為測量新聞消息的信息質量的變量。
由于信息質量與具體的應用情境有關(Eppler和Wittig,2000[18]),為了進一步確認在微博的情境下,所選取的變量是否確實影響了用戶對信息質量的感知,本研究設計了相應的訪談提綱,并且邀請“頭條新聞”帳號的關注者和消息轉發(fā)者進行訪談。訪談提綱具體如下:
(1)你是“頭條新聞”帳號的關注者嗎?
(2)你曾經(jīng)轉發(fā)過“頭條新聞”帳號發(fā)布的原創(chuàng)消息嗎?如有,請指出你最近轉發(fā)的一條消息。
(3)你通常通過何種渠道看到并轉發(fā)“頭條新聞”帳號發(fā)布的:a.在自己微博首頁上看到原消息 b.看到他人轉發(fā)后自己再進行轉發(fā)c.其它,請說明__
(4)你是否認同更詳盡的新聞更有價值/有說服力/質量更高?請?zhí)接懩愕目捶ā?/p>
(5)你是否會查看新聞消息附帶的圖片?你是否認同附帶圖片的新聞更有價值/有說服力/質量更高?請?zhí)接懩愕目捶ā?/p>
(6)你的微博首頁上顯示的最早一條消息與最新一條消息相差__分鐘。
(7)請描述你訪問微博的習慣和頻率。
(8)收集人口統(tǒng)計數(shù)據(jù),包括性別、年齡、學歷、職業(yè)等。
本研究共向9位微博用戶發(fā)出了訪談邀請,其中7位做出了回應,6位最終完成了所有問題。6位受訪者的人口統(tǒng)計數(shù)據(jù)如表1。
6名受訪者均為“頭條新聞”帳號的關注者,并且至少通過自身微博首頁看到并轉發(fā)過一條該帳號原創(chuàng)發(fā)布的新聞消息;其中5位受訪者認同更詳細的消息更有價值的觀點,除了FLR認為“短的消息便于用戶快速理解和接收,可能更利于傳播”;盡管只有2名受訪者會點開新聞附帶的圖片,但所有受訪者均認同附帶圖片的新聞會更有說服力。
此外,由于本研究關注的是內容的早期傳播,而微博的內容呈現(xiàn)采用的是將關注者發(fā)布的消息按照發(fā)布時間的倒序呈現(xiàn)在用戶微博首頁的“時間線”機制,因此在用戶訪問微博首頁的時刻,過早的消息可能會從首頁消失,用戶只有通過翻頁或點進發(fā)布者頁面才能看到。由于不同媒體的早期傳播持續(xù)時間不同(Szabo和Huberman,2010[7]),本研究首先統(tǒng)計了用戶首頁所呈現(xiàn)的消息的時間范圍:6名受訪者微博首頁上最早一條消息與最新一條消息平均相差10分鐘,因此本研究假定,“頭條新聞”帳號發(fā)布新聞消息后的10分鐘內屬于早期傳播階段,在這一階段發(fā)生的消息轉發(fā)絕大部分均為帳號關注者直接從自身微博首頁中關注到所發(fā)布的消息(而非通過他人的轉發(fā))的行為。
最后,根據(jù)“時間線”機制,在內容發(fā)布的時間點,有多少關注者正在使用微博,將對消息的早期傳播有重要影響。本研究通過了解受訪者的微博使用習慣,發(fā)現(xiàn)在一天當中的幾個時間段(下文簡稱“黃金時段”)里,用戶訪問的頻率較高,具體為:8:30-10:00;11:30-14:00;16:30-18:00;22:00-23:00。此外,對于上班族的受訪者,周末的訪問習慣與工作日有所差異。
根據(jù)訪談結果,本研究建立了如下的多元回歸模型:
TMR=β0+β1L+β2P+β3W+β2G+μ
其中TMR代表消息在發(fā)布后10分鐘內的轉發(fā)次數(shù),L代表消息的長度;P、W和G為虛變量,P代表消息是否附帶圖片(0—無,1—有);W代表消息發(fā)布日是否為周末(0—否,1—是);G代表消息發(fā)布時間是否處于黃金時段(0—否,1—是)。
四、數(shù)據(jù)收集及處理
本研究通過新浪微博開放平臺,對“頭條新聞”帳號的發(fā)布和傳播數(shù)據(jù)進行抓取。新浪微博開放平臺是基于新浪微博系統(tǒng)的信息獲取和發(fā)布平臺,被廣泛用于各類基于微博的網(wǎng)頁端、電腦客戶端以及移動客戶端應用的開發(fā)。該平臺提供了豐富的訪問接口以供開發(fā)者使用。本研究采用了Python腳本語言與SQLite3數(shù)據(jù)庫,基于新浪微博開放平臺提供的Python軟件開發(fā)工具包構建數(shù)據(jù)抓取程序,收集了“頭條新聞”自2012年12月2日0時至2013年1月19日24時期間所原創(chuàng)發(fā)布的1113新聞消息,以及這些消息在發(fā)布后10分鐘內的234283條轉發(fā)消息。
抓取完成后,研究人員利用SQL語句對數(shù)據(jù)庫中的數(shù)據(jù)進行了整理和合并,形成回歸模型所使用的數(shù)據(jù)。在這1 113條微博數(shù)據(jù)中,10分鐘內的最少和最多轉發(fā)數(shù)分別為0次和2 193次,平均被轉發(fā)210.50次;最短和最長的消息分別為74字和198字,平均為144.85字;其中425條消息附帶圖片,282條消息發(fā)布于周末,351條消息發(fā)布于黃金時段。
最后,本模型利用SPSS 17.0中的多元線性回歸功能,對數(shù)據(jù)進行回歸分析。由于模型中包含控制變量W和G,因此回歸時采用ENTER方法,使得所有自變量均包含在模型當中。對回歸方程擬合優(yōu)度的檢驗結果顯示,調整后的可決系數(shù)R2為0.63;方程總體顯著性F=19.744(p<0.001),表明回歸模型在0.1%的水平上顯著。對自變量的顯著性檢驗結果如表2:
結果表明,在微博新聞消息的早期傳播階段:(1)消息中的平均每個字能貢獻1次轉發(fā),顯示用戶更加青睞詳盡的消息;(2)附帶圖片的消息平均能增加約55次轉發(fā),這表明“圖文并茂”確實能夠幫助內容的傳播;(3)發(fā)布時間是否位于黃金時段對傳播的影響較為顯著,一方面表明10分鐘的早期傳播假定具有其合理性,另一方面與用戶訪談結果相吻合;而是否位于周末則不太顯著,其原因可能在于使用微博已經(jīng)成為人們日常生活的重要一環(huán),許多人不區(qū)分工作日和周末來使用微博;也可能在于和其他類型的消息不同,頭條新聞是隨時發(fā)生并隨時播報的,因此人們對其的關注并沒有顯著的工作日和周末的區(qū)分。
五、結語
本文以微博為例,通過用戶訪談與真實歷史訪問數(shù)據(jù)分析相結合的方式,對可能影響在線內容早期傳播的因素進行了探索和驗證,結論表明內容翔實、圖文并茂的內容更受用戶的青睞,從而能夠取得更好的早期傳播效果乃至于最終的傳播效果;此外,盡管包括社會化媒體在內的許多互聯(lián)網(wǎng)應用的用戶均有著自發(fā)形成關注關系并自發(fā)對內容進行傳播分享的特點,但在在線內容極大豐富、舊內容快速被新內容取代并占領用戶視線的大背景下,對用戶使用習慣和使用偏好進行了解,從而選擇合適的時機和方式發(fā)布內容,能夠增加內容呈現(xiàn)在用戶面前的概率,有效避免內容尚未被用戶接收就已經(jīng)成為歷史的問題。
本研究的局限性在于:對媒體平臺、發(fā)布者和消息類型進行了限定,研究的外部效度有待進一步提高;在信息質量的測量上,未能采用更加深入的方式,如文本挖掘分析等方法提取內生的信息質量,未來研究可以在這一方向上進行深化。
注釋:
①資料來源:iResearch—2011-2012年中國SNS和微博用戶行為研究報告。
參考文獻:
[1]LERMAN K,HOGG T. Using a Model of Social Dynamics to Predict Popularity of News; Proceedings of the 19th International Conference on World Wide Web,F(xiàn),2010 [C]. ACM.
[2]WU F,HUBERMAN B A. Novelty and collective attention[J]. Proceedings of the National Academy of Sciences,2007,104(45):17599-601.
[3]SAHA A,SINDHWANI V. Learning evolving and emerging topics in social media:a dynamic nmf approach with temporal regularization[M]. Proceedings of the fifth ACM international conference on Web search and data mining. Seattle,Washington,USA; ACM. 2012:693-702.
[4]劉星星,等.網(wǎng)絡熱點事件發(fā)現(xiàn)系統(tǒng)的設計[J].中文信息學報,2008,22(6).
[5]吳方照. 網(wǎng)絡熱點話題的挖掘與分析[J].2012,
[6]SUNDAR S S. The MAIN Model:A Heuristic Approach to Understanding Technology Effects on Credibility[J]. The John D and Catherine T MacArthur Foundation Series on Digital Media and Learning,2007:73-100.
[7]SZABO G,HUBERMAN B A. Predicting the Popularity of Online Content[J]. Communications of the ACM,2010,53(8).
[8]HA S,AHN J. Why Are You Sharing Others' Tweets?:The Impact of Argument Quality and Source Credibility on Information Sharing Behavior[M]. ICIS 2011 Proceedings. 2011.
[9]AGARWAL N,LIU H,TANG L,et al. Identifying the influential bloggers in a community; proceedings of the Proceedings of the international conference on Web search and web data mining,F(xiàn),2008[C]. ACM.
[10]厲鐘靈.微博用戶轉發(fā)意愿研究[D].杭州:浙江大學,2012.
[11]MARETT K,JOSHI K D. The Decision to Share Information and Rumors:Examining the Role of Motivation in an Online Discussion Forum[J]. Communications of the Association for Information Systems,2009,24(1):47-68.
[12]CHANG H H,CHUANG S-S. Social capital and individual motivations on knowledge sharing:Participant involvement as a moderator[J]. Information & Management,2011,48(1):9-18.
[13]劉淵.微博的技術特征及其現(xiàn)實挑戰(zhàn)[N].光明日報,2011-09-07.
[14]NICOLAOU A I,MCKNIGHT D H. Perceived Information Quality in Data Exchanges:Effects on Risk,Trust,and Intention to Use[J]. Information Systems Research,2006,17(4):332-51.
[15]BAILEY J E,PEARSON S W. Development of a Tool for Measuring and Analyzing Computer User Aatisfaction [J]. Management Science,1983,29(5):
[16]PETTY R E,CACIOPPO J T. The Elaboration Likelihood Model of Persuasion[M].LEONARD B. Advances in Experimental Social Psychology. Academic Press. 1986:123-205.
[17]CHAIKEN S. Heuristic versus systematic information processing and the use of source versus message cues in persuasion[J]. Journal of Personality and Social Psychology,1980,39(5):752-66.
[18]EPPLER M J,WITTIG D. Conceptualizing Information Quality:A Review of Information Quality Frameworks from the Last Ten Years; proceedings of the Proceedings of the 2000 Conference on Information Quality,F(xiàn),2000[C].
責任編輯、校對:馬彥麗
Research on Influencing Factors of Online Contents' Early Spread
——Taking Micro-blogging as an Example
Hu Kaiyuan, Wang Shaojian
(School of Management, Zhejiang University, Hangzhou 310000, China)
Abstract: The rapid development of IT and rise up of new media has enabled mass user to publish and spread information, which makes online contents flourishing. Only few of these contents, however, could reach continually spread, with others appear and fade rapidly. To explore the mechanism of online content spread, this research proposed interviews of micro-blogging user and analysis of data from a news publishing account of micro-blogging based on theories of communication and information sharing to identify determinants of early spread of online content. The results show that the initial propagation, information quality and content of online content is concerned, at the same time by publishing online user activity influence.
Key words: Online content; Early spread; Information sharing; Micro-blogging