蘇林森 易偉芳
大數(shù)據(jù)技術(shù)對傳播研究方法的影響與挑戰(zhàn)
蘇林森 易偉芳
基于數(shù)據(jù)挖掘的大數(shù)據(jù)技術(shù)對傳播研究產(chǎn)生了深刻的影響,本文在列舉一些利用大數(shù)據(jù)進行傳播學研究的案例之后,比較傳統(tǒng)傳播學研究和應用數(shù)據(jù)挖掘技術(shù)進行傳播學研究在研究目的、手段、邏輯等方面存在的區(qū)別,論文最后還分析了用數(shù)據(jù)挖掘來分析傳播資料存在的問題和挑戰(zhàn),包括技術(shù)難題、隱私保護問題、數(shù)據(jù)低可信度與開放性、理論缺乏和網(wǎng)絡受眾代表性不足等問題,只有突破這些不足,才能充分發(fā)揮大數(shù)據(jù)在傳播學研究中的作用。
大數(shù)據(jù);傳播研究;媒介;影響;挑戰(zhàn)
近年來,基于數(shù)據(jù)挖掘的大數(shù)據(jù)技術(shù)在傳播領域產(chǎn)生了一系列成功的應用,如美國The-Numbers.com公司擁有過去幾十年美國所有商業(yè)電影在內(nèi)的大約3000萬條記錄數(shù)據(jù)庫,在好萊塢影片上映之前就能利用海量數(shù)據(jù)和特定算法預測出一部電影的票房①;曾于2008年12月8日申請破產(chǎn)保護的芝加哥論壇報開發(fā)實時流量監(jiān)測(Real-time Traffic Metrics),實時監(jiān)測網(wǎng)上新聞被點擊、轉(zhuǎn)發(fā)情況等信息,并生成圖表,該報還開發(fā)“數(shù)碼新聞港”(Digital Hub),根據(jù)受眾需要在不同時間向不同介質(zhì)的媒體上發(fā)送新聞提要或全文,從而使報紙有的放矢地滿足受眾,這些數(shù)字化戰(zhàn)略幫助該報于2012年12月31日宣布結(jié)束破產(chǎn)保護狀態(tài)②;基于百度搜索量,中國人民大學輿論研究所提出和構(gòu)建了社會暖度指數(shù)、社會輿情運行壓力指數(shù)、社會幸福度指數(shù)等指數(shù),通過指數(shù)高低來“刻畫”公眾感知整個社會溫暖程度的“溫度計”③……大數(shù)據(jù)技術(shù)使傳播研究方法產(chǎn)生了深刻的改變,也存在亟待突破的問題。
相對于以抽樣調(diào)查為主要方法的傳統(tǒng)傳播學研究,利用大數(shù)據(jù)進行傳播學研究在方法上發(fā)生了革命性的變化,主要表現(xiàn)如下:
1.大數(shù)據(jù)的全體數(shù)據(jù)代替了抽樣調(diào)查的隨機樣本
利用大數(shù)據(jù)進行傳播學研究和傳統(tǒng)的傳播學研究最大的區(qū)別是,利用大數(shù)據(jù)進行傳播學研究可通過對海量數(shù)據(jù)的“普查”代替?zhèn)鹘y(tǒng)的“窺一斑見全豹”式的抽樣。
傳統(tǒng)的傳播學研究在測量受眾態(tài)度、認知和行為時,多采取隨機抽樣或固定樣本,以問卷調(diào)查、內(nèi)容分析、實驗法等定量研究或深度訪談等定性研究方法為主,但傳統(tǒng)調(diào)查成本越來越高,難度越來越大?;ヂ?lián)網(wǎng)和社交媒體的廣泛使用使人的行為和信息取向通過網(wǎng)絡反映出來,在技術(shù)支持下,研究者通過對人們“電子蹤跡”的識別、發(fā)掘和利用,直接將網(wǎng)民心理和行為轉(zhuǎn)化為可識別的海量數(shù)據(jù)。在社會多元化、受眾個性化、傳播渠道多樣化等背景下,樣本量有限的傳統(tǒng)抽樣研究難以捕捉到受眾的細分信息,如傳統(tǒng)調(diào)查中年齡30歲以下、大學以上教育水平、年純收入10萬元以上的城市女性觀眾就很少,甚至可能沒有,而這種細分研究因為大數(shù)據(jù)技術(shù)而成為可能,使數(shù)據(jù)挖掘技術(shù)成為傳統(tǒng)傳播研究的有益補充。
需要強調(diào)的是,所謂利用大數(shù)據(jù)進行傳播學研究所進行的“普查”并不等同于人口普查中的“普查”,而是針對某一特定對象或主題的數(shù)據(jù)抓取,如觀看某一部影視劇的觀眾數(shù)據(jù)、某一類微博用戶數(shù)據(jù)等等,使用較多的“滾雪球”式在線網(wǎng)民數(shù)據(jù)抓取得到的樣本并非隨機樣本,其質(zhì)量并不一定比傳統(tǒng)抽樣得到的樣本質(zhì)量高,因此數(shù)據(jù)挖掘并不能代替?zhèn)鹘y(tǒng)抽樣調(diào)查。
2.研究的目的差異
傳統(tǒng)的以抽樣調(diào)查為典型研究方法的傳播學研究,其首要研究目的是探索因果關系,因果關系的成立需滿足三個必要條件:第一,時間的先后順序,即先因后果;第二,因果變量的共變關系,即原因變量出現(xiàn)變化時,結(jié)果變量也要隨之變化;第三,非虛假關系,即因果變量之間的關系不是其他變量造成的。而大數(shù)據(jù)研究首先關注相關關系,如網(wǎng)民的搜索量和電影票房之間并無因果邏輯關系,只存在相關關系④。與此相適應,傳統(tǒng)的傳播學研究既可以用來描述現(xiàn)狀,也可以用以解釋傳播理論,或進行受眾預測等,而利用大數(shù)據(jù)來研究傳播現(xiàn)象主要用于預測,更多用于商業(yè)領域,也有少數(shù)基于大數(shù)據(jù)的傳播學研究根據(jù)“大數(shù)據(jù)”找到一些過去沒有討論或無法討論的理論問題,如社交媒體中的“議程設置”現(xiàn)象研究。
3.大數(shù)據(jù)下的傳播學研究放棄對精確性的追求
從傳統(tǒng)的傳播研究所依賴的“小數(shù)據(jù)”到大數(shù)據(jù)的一大變化就是后者放棄對精確性的追求。第一,由于傳統(tǒng)抽樣調(diào)查樣本量有限,調(diào)查人員需盡力保證收集到的每個樣本數(shù)據(jù)都是精確的,抽樣調(diào)查的核心就是如何減少(但不可避免)錯誤的發(fā)生,在收集數(shù)據(jù)的時候,抽樣調(diào)查專家會采用種種策略來減少錯誤發(fā)生的概率,在數(shù)據(jù)分析之前,也要對收集到的數(shù)據(jù)進行清理補充,這樣會耗費大量的人力;當采用大數(shù)據(jù)技術(shù)收集海量數(shù)據(jù)時,這種防錯和糾錯方法就行不通了,不僅因為這樣耗費巨大,也由于保持大規(guī)模數(shù)據(jù)收集標準的一致基本不太可能,而擁有更大數(shù)據(jù)量所能帶來的商業(yè)價值遠遠超過耗費巨大才能增加的一點精確性,如某一微博粉絲量很少的時候差異很大,這時需顯示精確數(shù)字,500個粉絲比400個粉絲多25%,但當微博粉絲量很大時,只需顯示近似值:121萬,再顯示1209989則沒有必要。但從統(tǒng)計推斷看,采用傳統(tǒng)概率抽樣調(diào)查獲取的樣本能減少抽樣過程中的人為誤差,樣本的隨機誤差是可知可控的,從而保證樣本的代表性,而通過大數(shù)據(jù)采樣獲取的數(shù)據(jù)往往是非概率抽樣(如“滾雪球”抓取數(shù)據(jù)),樣本不具代表性,誤差往往較大且無法估計;
第二,與傳統(tǒng)結(jié)構(gòu)化數(shù)據(jù)不同,互聯(lián)網(wǎng)上只有5%的數(shù)字資料是結(jié)構(gòu)化的,其他95%的非結(jié)構(gòu)化數(shù)字資料,如圖片、音頻、視頻等,很難像傳統(tǒng)的傳播學研究所主要依賴的結(jié)構(gòu)化或類結(jié)構(gòu)化數(shù)據(jù)那樣精確化,只有接受混雜性,大數(shù)據(jù)挖掘分析才成為可能;
第三,根據(jù)“平均人”假設,數(shù)據(jù)越多,其平均值就越傾向于固定的平均值,單個資料可能是錯誤的,但總體的平均數(shù)據(jù)傾向于定值,如針對某一類網(wǎng)民收入資料的數(shù)字挖掘中,有的網(wǎng)民傾向于減小收入水平,而有的則可能增大自己的收入水平,最后得到的平均值往往傾向于某一接近實際的定值。
除上述差異外,由于研究手段的差異,傳統(tǒng)傳播研究和利用大數(shù)據(jù)進行研究在結(jié)果展示上存顯著差異,傳統(tǒng)研究結(jié)果多依賴圖表來表示,而利用大數(shù)據(jù)進行傳播研究的結(jié)果較多采用可視化方式進行展示,信息可視化工具包括:圖表、圖解、圖形、表格、地圖、動畫和列表等,以可視化方式呈現(xiàn)的信息不再是枯燥、乏味的,讓看似瑣碎的信息變得連貫增強了研究結(jié)果的可讀性⑤。
過去結(jié)構(gòu)性的數(shù)據(jù)收集成本、時間耗費比較多,大數(shù)據(jù)來自于生活的自然流露,包括在生活中的購物行為、搜索行為、表達行為等等,這些都反映著人的真實生活狀態(tài),因此大數(shù)據(jù)的數(shù)據(jù)來源本身隨著數(shù)字化記錄、存儲和傳輸技術(shù)的日臻完善而變得非常豐富,而且其數(shù)據(jù)的采集幾乎可以與信息的發(fā)生同步,獲得數(shù)據(jù)信息的成本又很低⑥,與傳統(tǒng)調(diào)查常介入研究對象不同,大數(shù)據(jù)分析多采用實時或流處理,調(diào)查方式是非介入式的,相對客觀,如google流感趨勢預測是分析全美幾十億條互聯(lián)網(wǎng)檢索關鍵詞記錄,來監(jiān)測流感是否爆發(fā),其結(jié)果發(fā)布比美國疾病預防控制中心(CDS)還早兩周,這種快捷的結(jié)果預測更適合互聯(lián)網(wǎng)時代對傳播研究的需要。
歸納起來,從研究方法看,利用大數(shù)據(jù)進行傳播研究和傳統(tǒng)的傳播研究如表1所示。
表1 傳統(tǒng)傳播研究和大數(shù)據(jù)傳播研究方法差異
運用大數(shù)據(jù)技術(shù)進行傳播學研究具有巨大的價值潛力,但作為一項新近發(fā)展起來的技術(shù),仍然存在一系列的問題和挑戰(zhàn)。
1.傳播學研究的技術(shù)困境
傳統(tǒng)的傳播學研究采用抽樣調(diào)查或訪談形式,研究所依據(jù)的數(shù)據(jù)量有限,因而數(shù)據(jù)庫相對比較簡單,但基于大數(shù)據(jù)進行傳播學研究所依據(jù)的數(shù)據(jù)資料多來自互聯(lián)網(wǎng)、新興社交媒體等所產(chǎn)生的大量非結(jié)構(gòu)化數(shù)據(jù)(圖1),如文本、圖片、HTML、音頻/視頻等,有價值的信息隱藏于這些非結(jié)構(gòu)化數(shù)據(jù)中,則需要專門軟件進行分析。
與結(jié)構(gòu)化數(shù)據(jù)相比,非結(jié)構(gòu)化數(shù)據(jù)不方便用結(jié)構(gòu)化數(shù)據(jù)的二維數(shù)據(jù)庫來表現(xiàn)(即每一列表示一個變量、每一行表示一個記錄),不利于檢索、查詢和存儲,增加了數(shù)據(jù)丟失的可能性,因此,數(shù)據(jù)多樣化和急速膨脹所帶來的數(shù)據(jù)體量的巨大和數(shù)量格式的復雜對傳統(tǒng)分析軟件和存儲提出了很大挑戰(zhàn),大數(shù)據(jù)分析要求作出的實時或在線處理需求也是傳統(tǒng)數(shù)據(jù)倉庫技術(shù)面臨的挑戰(zhàn)。與數(shù)據(jù)處理需求相伴隨的是對海量數(shù)據(jù)跟蹤分析軟件的研發(fā),既需要高額成本,也需要專門人才,這些都是極度匱乏的。
圖1 結(jié)構(gòu)化數(shù)據(jù)與非結(jié)構(gòu)化數(shù)據(jù)
2.傳播研究中的隱私保護困境
大數(shù)據(jù)時代,個人的隱私越來越少,尤其是在社會化媒體平臺上,日常生活已經(jīng)進入一種可見的、透明的、不設防的生產(chǎn)狀態(tài)中(劉濤,2014),這使得隱私保護越來越受到挑戰(zhàn)。大數(shù)據(jù)和智能軟件相結(jié)合后將會產(chǎn)生巨大的數(shù)據(jù),比如網(wǎng)頁、瀏覽習慣、傳感器信號、智能手機位置跟蹤、基因信息等讓個人隱私無處藏身。2013年6月5日,美國中央情報局職員愛德華·斯諾登爆料,自2007年起,美國情報機構(gòu)啟動“棱鏡計劃”(PRISM),在九家互聯(lián)網(wǎng)公司中進行數(shù)據(jù)挖掘,監(jiān)控的種類包括信息電郵、即時消息、視頻、照片、語音聊天、視頻會議、文件傳輸、社交網(wǎng)絡資料、登陸時間以及存儲數(shù)據(jù),“棱鏡門”事件引起外界對美國國家安全局電子監(jiān)控項目的顧慮,從而致使美國云計算產(chǎn)業(yè)損失350億美元⑦。
除了個人隱私泄露,基于數(shù)據(jù)挖掘獲取的個人信息和對人們狀態(tài)和行為的預測讓個人隱私更防不勝防,幾乎任何類型的數(shù)據(jù)就像人的指紋,都能用來識別創(chuàng)造它的人,如通過分析用戶的社交媒體信息,可以發(fā)現(xiàn)用戶的年齡、性別、消費習慣和興趣愛好等“簡歷”信息;通過某個網(wǎng)民所有網(wǎng)購記錄,可以分析出該網(wǎng)民的婚姻狀況,甚至可以推測某位女性網(wǎng)民是否懷孕;通過網(wǎng)民在網(wǎng)上下載的電影、用手機發(fā)出的定位信息,甚至是你被監(jiān)控攝像所拍下來的步態(tài)都可以作為識別依據(jù)“按圖索驥”⑧,而且,被記錄并保存下來的受眾信息往往在被加工后用作商業(yè)推銷。
3.數(shù)據(jù)源的開放性與數(shù)據(jù)可信度問題
目前,數(shù)據(jù)源的開放性不足,權(quán)威大數(shù)據(jù)源常常掌握在政府及大公司手中,國家必須從制度和機制上給予保障,這方面,美國的做法值得借鑒。2012年3月22日,美國耗資2億美元啟動“大數(shù)據(jù)研究和發(fā)展計劃”,把大數(shù)據(jù)研究上升為國家意志⑨。與此同時,數(shù)據(jù)的質(zhì)量也至關重要,但如果不注意甄別,數(shù)據(jù)也會欺騙??尚哦葐栴}首先表現(xiàn)在偽造和刻意編造的虛假信息,如網(wǎng)上個人信息的質(zhì)量和準確性較低且多未經(jīng)驗證;其次為編造數(shù)據(jù),如各類點評網(wǎng)站的虛假評論等等;再次是數(shù)據(jù)失真,這既包括數(shù)據(jù)采集中出現(xiàn)的人工干預導致數(shù)據(jù)失真,也包括數(shù)據(jù)更新后早期數(shù)據(jù)不能反映真實情況⑩。對這種類型的數(shù)據(jù)收集、分析和使用后產(chǎn)生的分析結(jié)果可能會導致錯誤的決策,出現(xiàn)網(wǎng)托、網(wǎng)絡水軍、良莠不齊的網(wǎng)絡公關公司等產(chǎn)生的數(shù)據(jù)更不可信,甚至會得出錯誤的結(jié)論。
4.大數(shù)據(jù)下傳播學研究的代表性問題
基于數(shù)據(jù)挖掘的大數(shù)據(jù)研究數(shù)據(jù)多來自互聯(lián)網(wǎng)或以互聯(lián)網(wǎng)為基礎技術(shù)的各類終端,其存在較嚴重的問題,主要表現(xiàn)在如下四方面:
第一,大數(shù)據(jù)分析所主要依據(jù)的網(wǎng)民行為并不能代表全體受眾行為。據(jù)中國互聯(lián)網(wǎng)信息中心(CNNIC)《第33次中國互聯(lián)網(wǎng)絡發(fā)展狀況統(tǒng)計報告》顯示,截止2013年12月底,中國網(wǎng)民達6.18億,但其普及率僅45.8%(CNNIC《第34次中國互聯(lián)網(wǎng)絡發(fā)展狀況統(tǒng)計報告》顯示,截止2014年6月底,中國網(wǎng)民達6.32億,普及率46.9%),即超過一半的人不能上網(wǎng),這些人就被排除在大數(shù)據(jù)分析之外;
第二,更關鍵的是,非網(wǎng)民與網(wǎng)民之間存在較明顯的結(jié)構(gòu)性差異,如6.18億網(wǎng)民中,農(nóng)村網(wǎng)民占28.6%,30歲以下網(wǎng)民占57.2%,而據(jù)國家統(tǒng)計局的數(shù)據(jù)顯示,截止2013年底,全國人口中農(nóng)村人口占近一半(46.27%),30歲以下人口占41.24%,網(wǎng)民表現(xiàn)出明顯的年輕化、城鎮(zhèn)化傾向;
第三,大數(shù)據(jù)分析的資料為活躍網(wǎng)民數(shù)據(jù),而并不能代表全體網(wǎng)民。網(wǎng)民分經(jīng)常發(fā)帖、評論的活躍分子和沉默的“潛水者”。Fu和Chau(2013)抽取了29998個新浪微博用戶,發(fā)現(xiàn)其中近六成(12774個用戶,占57.4%)的用戶從未發(fā)過貼,在發(fā)過貼的用戶中,近九成(86.9%)的用戶最近七天從未發(fā)過原創(chuàng)貼(11),雖然作者并沒有進一步研究活躍網(wǎng)民和“僵尸”用戶的屬性區(qū)別,但兩類人群很可能存在系統(tǒng)性差異,因此基于活躍網(wǎng)民的數(shù)據(jù)挖掘不能代表全體受眾;
第四,傳統(tǒng)調(diào)查中經(jīng)常出現(xiàn)的誤差在大數(shù)據(jù)分析中同樣存在。以上誤差屬非抽樣誤差,基于數(shù)據(jù)挖掘的大數(shù)據(jù)分析常需要抽樣,傳統(tǒng)調(diào)查中的抽樣誤差就同樣存在。如2013年7月9日,虎嗅網(wǎng)發(fā)布消息稱新浪微博的活躍度已降至2011年初水平(圖2),第二天(7月10日),數(shù)據(jù)提供方知微公開向新浪致歉,稱該數(shù)據(jù)“不足以說明整個微博平臺的發(fā)展狀況”。造成該偏差主要有三點抽樣誤差:(1)樣本偏差:只分析部分粉絲大于1萬的用戶;(2)屬性缺失:只采集微博發(fā)布量數(shù)據(jù),不含轉(zhuǎn)發(fā)、評論等互動數(shù)據(jù);(3)終端遷移:主要采集PC端的數(shù)據(jù)(新浪微博用戶移動端登陸比例已近80%)(12)。顯然,這種非概率抽樣會產(chǎn)生很大的誤差,當然,目前仍缺乏理想的網(wǎng)絡抽樣方法來解決網(wǎng)絡抽樣誤差問題,在線分析常用的“滾雪球”法獲得的樣本同樣不具代表性。
圖2 新浪微博活躍度(2011-2013)
5.大數(shù)據(jù)分析存在明顯重技術(shù)輕理論的現(xiàn)象
基于大數(shù)據(jù)的傳播學研究對理論的關注嚴重不足,明顯存在重數(shù)據(jù)輕理論、重相關輕因果、重挖掘輕闡釋、重軟件輕開發(fā)的“四重四輕”現(xiàn)象。目前基于大數(shù)據(jù)來研究傳播現(xiàn)象的主要研究者是傳播學者和計算機學者,前者雖對傳統(tǒng)受眾理論比較熟悉,但多忽視了理論驗證或建構(gòu),只專注于用新穎的數(shù)據(jù)挖掘技術(shù),后者往往對數(shù)據(jù)挖掘較熟悉,但缺乏傳播學理論,難以對人類的傳播規(guī)律進行深入的因果闡釋。目前大數(shù)據(jù)在傳播學中的應用也多以實踐應用為主,這種重技術(shù)輕理論的傳播研究在受眾至上的傳播業(yè)界或許有一定的商業(yè)價值,但對于傳播學學術(shù)研究則不可取。傳播學研究的最主要目的是發(fā)現(xiàn)人類傳播行為的規(guī)律,增加這方面的知識,一個有理論價值的傳播研究,也一定是有應用價值的,反之,僅做實踐應用而缺乏理論視角的傳播研究難以產(chǎn)生理論貢獻。
大數(shù)據(jù)技術(shù)給整個新聞傳播領域帶來了革命性的變化,尤其是深刻地改變了傳統(tǒng)的傳播學研究方法和理念。但如同任何新事物一樣,基于大數(shù)據(jù)的傳播研究并非一帆風順,在實際中是一把雙刃劍,基于大數(shù)據(jù)的傳播研究面臨新的技術(shù)、倫理、理論等挑戰(zhàn),同傳統(tǒng)的傳播學研究一樣,基于大數(shù)據(jù)的傳播研究只是一種工具和手段,只有趨利避害,充分利用新技術(shù)拓展研究的領域和問題,發(fā)展新媒體環(huán)境下的傳播研究理論,才能充分發(fā)揮大數(shù)據(jù)在傳播學研究中的價值。
(本文系北京交通大學基本科研業(yè)務費項目“互聯(lián)網(wǎng)語境下中國新聞報道議程設置功能研究”(項目編號:2014RC024)的研究成果。)
注釋:
① 參見網(wǎng)站:http://www.the-numbers.com/。
② 陶志強:《大數(shù)據(jù)背景下的報紙轉(zhuǎn)型樣本——以芝加哥論壇報、佛山日報的大數(shù)據(jù)應用為例》,《新聞與寫作》,2013年第9期。
③ 喻國明:《呼喚“社會最大公約數(shù)”:2012年社會輿情運行態(tài)勢研究——基于百度熱搜詞的大數(shù)據(jù)分析》,《編輯之友》,2013年第5期。
④ 關于這一點學術(shù)界存在較大的爭議,部分學者認為相關關系在一定程度上反映了因果關系。
⑤ 蘇林森等:《大數(shù)據(jù)對新聞生產(chǎn)的影響》,《科研信息化技術(shù)與應用》,2014年第3期。
⑥ 喻國明:《大數(shù)據(jù)方法與新聞傳播創(chuàng)新:從理論定義到操作路線》,《江淮論壇》,2014年第4期。
⑦ 匡文波:《新媒體理論與技術(shù)》,中國人民大學出版社2014年版,第226頁。
⑧ 《大數(shù)據(jù)時代,我們還有隱私嗎?》,《中國計算機報》,2012年9月17日,http://tech.163.com/12/0917/12/8BJQL234000915BD.html。
⑨ 喻長志:《大數(shù)據(jù)時代教育的可能轉(zhuǎn)向》,《江淮論壇》,2013年第4期。
⑩ 馮登國等:《大數(shù)據(jù)安全與隱私保護》,《計算機學報》,2013年第10期。
(11) Fu,K.W.,&Chau,M.(2013).Reality check for the Chinese microblog space:A random sampling approach.PLOS ONE,8(3).
(12) 《知微收回“新浪微博活躍度下滑”道歉稱數(shù)據(jù)不全面》,《新京報》,2013年7月11日,http://news.xinhuanet.com/newmedia/2013-07/11/c_116493351.htm。
(作者蘇林森系北京交通大學語言與傳播學院副教授;易偉芳系中國青年政治學院新聞傳播系2012級碩士研究生)