鄒丁玲 段峰峰
(1湖南師范大學(xué) 新聞與傳播學(xué)院,湖南 長沙 410081;2湖南省社會輿情監(jiān)測與網(wǎng)絡(luò)輿情研究中心,湖南 長沙 410081)
網(wǎng)絡(luò)輿情通常是指一定時間內(nèi)在網(wǎng)絡(luò)上傳播的關(guān)于某一特定社會問題的所有評論、觀點(diǎn)、意見的集合。這種集合體現(xiàn)了評論者的情感傾訴,其外延較傳統(tǒng)媒體中的輿情更加寬廣,具有自由性、互動性、廣泛性、隱匿性、突發(fā)性等特點(diǎn)。在公共事件發(fā)生前后,網(wǎng)民在社交媒體平臺上進(jìn)行互動、發(fā)表言論,產(chǎn)生網(wǎng)絡(luò)輿情信息,這些信息直接呈現(xiàn)了網(wǎng)民的想法、意見、態(tài)度和情緒,可被稱為顯性輿情數(shù)據(jù)。還有一些數(shù)據(jù)并沒有表現(xiàn)出與輿情直接相關(guān)的熱點(diǎn)言論、情感傾向,但從側(cè)面客觀反映了網(wǎng)民的關(guān)注焦點(diǎn)和興趣點(diǎn)、網(wǎng)絡(luò)輿情主體關(guān)系等方面的隱藏內(nèi)容可被稱為隱性輿情數(shù)據(jù)。
當(dāng)網(wǎng)絡(luò)用戶出于對某公共事件的關(guān)注和興趣,去搜索和瀏覽與之相關(guān)的信息時,會在服務(wù)器端口、搜索引擎后臺或客戶端上產(chǎn)生相應(yīng)的搜索歷史和瀏覽足跡,形成搜索日志。這些信息中記錄了用戶的IP地址、搜索詞、瀏覽時間、網(wǎng)頁URL地址等數(shù)據(jù),即隱性的輿情數(shù)據(jù)。數(shù)據(jù)量的多少能反映網(wǎng)絡(luò)用戶對該關(guān)鍵詞所代表事件的關(guān)注程度,通過從中統(tǒng)計和分析用戶的搜索詞和搜索頻率,可發(fā)現(xiàn)某地區(qū)、某時間段內(nèi)的隱藏?zé)狳c(diǎn)。[1]許多網(wǎng)站或輿情分析系統(tǒng)推出的“輿情熱點(diǎn)排行榜”即屬于該方面的應(yīng)用。
目前,一些搜索引擎公司已經(jīng)研發(fā)了借助搜索歷史和瀏覽足跡等隱性數(shù)據(jù)去發(fā)現(xiàn)和挖掘網(wǎng)絡(luò)輿情的技術(shù)和應(yīng)用。例如,谷歌公司開發(fā)的“谷歌趨勢”(Google Trends)就是一款基于搜索日志分析的應(yīng)用產(chǎn)品,它有兩個功能,一是查看關(guān)鍵詞在谷歌的搜索次數(shù)及變化趨勢,二是查看網(wǎng)站流量。[2]它能統(tǒng)計出某個關(guān)鍵詞在一定時間段內(nèi)、在某個地區(qū)被搜索的次數(shù),再將其與谷歌搜索引擎后臺隨時間推移的搜索總量及當(dāng)?shù)氐乃阉骺偭肯鄬Ρ?,得出該關(guān)鍵詞的“相對搜索指數(shù)”,然后將較長一段時間統(tǒng)計的該關(guān)鍵詞的相對搜索指數(shù)描繪出來,以此預(yù)測未來趨勢。該應(yīng)用一個較為著名且成功的例子是“流感趨勢”。實(shí)踐中設(shè)計人員提前編入一系列與“流感”相關(guān)的關(guān)鍵詞,如“流感感冒”“溫度計”“發(fā)燒”“咳嗽”“流感應(yīng)該吃什么藥”等,隨后對全球20多個國家的網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行監(jiān)測,只要用戶輸入這些關(guān)鍵詞,系統(tǒng)就認(rèn)為可能與“流感趨勢”相關(guān),繼而追蹤、分析并做出相對搜索指數(shù)圖。通過觀察較長一段時間以來指數(shù)的變化情況,來預(yù)測未來趨勢,進(jìn)而提供流感發(fā)病率的預(yù)測報告。谷歌的“流感趨勢”能比美國疾病控制中心提前7~10天公布相關(guān)的流感預(yù)報,在測試階段就表現(xiàn)出良好的預(yù)測效果,且“流感趨勢”的預(yù)測數(shù)據(jù)與官方公布的預(yù)報數(shù)據(jù)高度吻合,顯示了基于隱性數(shù)據(jù)進(jìn)行輿情預(yù)測的前瞻性和準(zhǔn)確性。
傳統(tǒng)數(shù)據(jù)時代,輿情分析的首要步驟是從最具輿情代表性的有限數(shù)據(jù)集入手。例如,百度作為國內(nèi)第一大搜索引擎運(yùn)營商,從后臺數(shù)據(jù)庫中可以提取出每一個搜索詞的對應(yīng)搜索量,在社會輿情分析層面,其所指對象通常是從海量搜索數(shù)據(jù)中截取的最具輿情代表性的有限數(shù)據(jù)集,借此反映社會關(guān)注的基本面或新聞事件的社會關(guān)注度,較為粗略地刻畫出中國的“輿情地圖”。[3]這在本質(zhì)上是通過部分抽樣輿情信息來反映社會整體輿情狀況,難免存在偏差。
大數(shù)據(jù)時代不再如傳統(tǒng)數(shù)據(jù)時代需要通過抽樣獲取輿情信息以代表整體的處理方式,網(wǎng)絡(luò)技術(shù)手段已可以支持通過普查方式來全面覆蓋處理海量的網(wǎng)絡(luò)數(shù)據(jù),這也為隱性輿情數(shù)據(jù)的挖掘和發(fā)現(xiàn)提供了可行性和技術(shù)支持。然而在實(shí)際操作中,雖然不必再擔(dān)心抽樣方式帶來的偏差,但是需要謹(jǐn)慎考慮數(shù)據(jù)源本身是否存在偏差,即全面的普查數(shù)據(jù)可能含有噪音,如不能有效排除,則容易高估算法的精確度,影響輿情分析結(jié)果的準(zhǔn)確性。同時,由于大部分?jǐn)?shù)據(jù)處于孤島狀態(tài),在整合處理時,若無法準(zhǔn)確忽略冗余數(shù)據(jù)信息和整合有效數(shù)據(jù)信息,也易導(dǎo)致結(jié)果的偏離。因此,“讓數(shù)據(jù)自己說話”的結(jié)論是不完整的,數(shù)據(jù)源需要得到篩選和清理,才能避免潛在誤差。[4]由此可見,對于隱性輿情大數(shù)據(jù)而言,數(shù)據(jù)的價值不僅體現(xiàn)在大小上,更體現(xiàn)在利用創(chuàng)新性的數(shù)據(jù)分析方法,克服和避免數(shù)據(jù)離散與結(jié)果偏差,去挖掘和分析隱性數(shù)據(jù)信息的潛在價值,這樣才能幫助我們更好地觀察網(wǎng)絡(luò)輿情的全貌。
隱性輿情數(shù)據(jù)不僅分布廣泛和隱蔽,而且數(shù)據(jù)的形式和組織方式也較為復(fù)雜,而跨媒體搜索理論和技術(shù)的不斷發(fā)展及完善或可為隱性輿情數(shù)據(jù)的檢索與獲取提供一定的創(chuàng)新思路和方法。
1.基于語義識別理論的語義文法。該方法是通過定義各種文法規(guī)則,將文法規(guī)則賦予語義,然后使用語義文法來描述網(wǎng)絡(luò)輿情文本的句子結(jié)構(gòu)及語義信息,可直接從分析結(jié)果產(chǎn)生語義解釋。因此,語義文法是對網(wǎng)絡(luò)輿情文本進(jìn)行精準(zhǔn)語義識別的依據(jù),也為跨媒體隱性輿情數(shù)據(jù)的語義相關(guān)性研究提供了理論基礎(chǔ)。例如,多文檔自動摘取技術(shù),對頁面上的內(nèi)容進(jìn)行過濾,可基本實(shí)現(xiàn)對隱性文本輿情的篩選和重組。[5]
2.網(wǎng)絡(luò)爬蟲技術(shù)。該技術(shù)是一種按照一定的規(guī)則自動地抓取萬維網(wǎng)信息的程序或腳本,是獲取輿情大數(shù)據(jù)的主要手段。按照系統(tǒng)結(jié)構(gòu)和實(shí)現(xiàn)技術(shù),網(wǎng)絡(luò)爬蟲大致可分為通用網(wǎng)絡(luò)爬蟲、聚焦網(wǎng)絡(luò)爬蟲、增量式網(wǎng)絡(luò)爬蟲、深層網(wǎng)絡(luò)爬蟲等。不同網(wǎng)絡(luò)爬蟲各有優(yōu)勢與不足,實(shí)際的網(wǎng)絡(luò)爬蟲應(yīng)用系統(tǒng)通常是幾種爬蟲技術(shù)相結(jié)合實(shí)現(xiàn)的,可實(shí)現(xiàn)自動爬取網(wǎng)頁獲得輿情信息或者直接從網(wǎng)頁中抽取目標(biāo)輿情信息,對于隱性熱點(diǎn)輿情數(shù)據(jù)的檢測和獲取具有重要意義。
3.內(nèi)容檢索技術(shù)。一個輿情事件中所涉及的輿情數(shù)據(jù),既有結(jié)構(gòu)化的文本、數(shù)字,也有非結(jié)構(gòu)化的圖像、音頻、視頻。根據(jù)其特征,需要從基于內(nèi)容的圖像檢索、音頻檢索和視頻檢索研究中著手。其一,圖像檢索按照技術(shù)發(fā)展情況看,一類是基于文本的圖像檢索,即通過對圖像的標(biāo)注和環(huán)繞文本來了解圖像的內(nèi)容,進(jìn)而進(jìn)行檢索,如谷歌、百度等主流的搜索引擎目前都是采用TBIR(Text-based Image Retrieval)提供服務(wù)的;另一類是基于內(nèi)容的圖像檢索,主要通過特征提取和相似計算來實(shí)現(xiàn)。其二,音頻檢索分為兩大類:一是基于人工產(chǎn)生信息的音頻檢索,指利用人工產(chǎn)生的信息,如標(biāo)題、藝術(shù)家信息、標(biāo)簽、關(guān)鍵詞、時間、用戶評價等查詢;二是基于內(nèi)容的音頻檢索,利用音頻信息的幅度、頻譜等物理特征,響度、音高、音色等聽覺特性以及音頻類別和語義等特征進(jìn)行檢索,能夠有效且快速獲得用戶所需的音頻資源。例如,各大音樂平臺推出的“聽歌識曲”功能即是基于內(nèi)容的音頻檢索技術(shù)的體現(xiàn)。其三,視頻檢索,需要對視頻進(jìn)行結(jié)構(gòu)化處理,將視頻按照其結(jié)構(gòu)組成進(jìn)行分割,形成基于圖像幀的可分析單元,再抽取顯著的特征,如顏色、紋理、形狀、運(yùn)動等,來描述視頻內(nèi)容的視覺信息。例如,美國哥倫比亞大學(xué)圖像和高級電視實(shí)驗(yàn)室開發(fā)的VisualAeek即提供了一套供人們在Web上搜索和檢索視頻的系統(tǒng)。
1.信息采集。輿情數(shù)據(jù)分析的首要任務(wù)是基于輿情數(shù)據(jù)檢索和獲取技術(shù)從網(wǎng)絡(luò)平臺上獲得相關(guān)的輿情數(shù)據(jù)。在此過程中,不僅要抽取輿情相關(guān)的頁面,還要過濾重復(fù)界面和噪音,同時重視隱性輿情數(shù)據(jù)信息,即用戶在服務(wù)器端口、搜索引擎后臺或客戶端上留下的搜索日志等。[6]
2.信息預(yù)處理。在進(jìn)行數(shù)據(jù)挖掘工作之前,先對原始數(shù)據(jù)做必要的數(shù)據(jù)清洗、集成、變換、歸約等一系列處理工作,以達(dá)到挖掘算法進(jìn)行知識獲取所要求的最低規(guī)范和標(biāo)準(zhǔn)。網(wǎng)絡(luò)輿情信息的預(yù)處理主要分為兩個過程:一是詞項處理,包括文本分詞、詞性標(biāo)注、停用詞過濾等步驟,剔除一些不具備分析價值的信息;二是關(guān)鍵特征提取,即對可以代表信息內(nèi)容的關(guān)鍵詞加以提取,減少系統(tǒng)負(fù)擔(dān),提高分析效率。經(jīng)過預(yù)處理后的數(shù)據(jù)信息將存入數(shù)據(jù)庫,以備調(diào)用。
3.話題識別。目前各類網(wǎng)絡(luò)平臺的信息發(fā)布和傳播非常迅速,急需在海量和急速增加的各類信息中區(qū)分和識別輿情相關(guān)信息。該步驟的目的是將輿情大數(shù)據(jù)的內(nèi)容歸入不同的話題類別,并在需要的時候建立新的話題,通常借助聚類分析算法完成。聚類分析一般先將輿情數(shù)據(jù)進(jìn)行向量化的表述,目的是將自然語言轉(zhuǎn)化為機(jī)器可以理解的形式;然后選擇聚類算法,根據(jù)不同算法在功能上的差異,可選取適用算法,加強(qiáng)對隱性輿情數(shù)據(jù)的辨別。
4.結(jié)果反饋。通過對隱性數(shù)據(jù)中的關(guān)鍵詞情感屬性判別、敏感詞分析,形成情感烈度,識別出隱性輿情熱點(diǎn)和潛在熱度,作出輿情預(yù)警,并由此總結(jié)出針對不同情況的輿情疏導(dǎo)策略。
通過借助輿情系統(tǒng)和技術(shù),來檢索、獲取、處理和分析輿情數(shù)據(jù),最終得到和掌握的一般為單變量數(shù)據(jù)。然而,在輿情研究中,多變量之間的關(guān)系和差異是社會實(shí)證研究的核心,這包括數(shù)據(jù)相關(guān)關(guān)系的建立、輿情主體關(guān)系的發(fā)現(xiàn)、公共事件的因果關(guān)系和解釋力。因此,分析和挖掘隱性輿情熱點(diǎn),還應(yīng)引入人工分析處理機(jī)制,才能為其尋找更深層次的解釋。在對隱性輿情數(shù)據(jù)的處理和應(yīng)對中,人工輿情分析和處理應(yīng)以人機(jī)結(jié)合為核心理念,注重大數(shù)據(jù)技術(shù)與人工在線實(shí)時內(nèi)容分析的互動和促進(jìn)關(guān)系。在大數(shù)據(jù)技術(shù)框架下,可進(jìn)行網(wǎng)絡(luò)輿情信息的快速挖掘和自動化分析處理,而人工在線內(nèi)容分析則能完成深度識別、辨析、挖掘和解釋輿情間差異和關(guān)系的任務(wù)。[7]人工在線實(shí)時內(nèi)容分析,以社會科學(xué)研究中的內(nèi)容分析法為理論依據(jù),結(jié)合編碼員之間的信度,建構(gòu)線上內(nèi)容分析流程和機(jī)制,流程主要包括準(zhǔn)備階段、編碼、質(zhì)量控制和結(jié)果呈現(xiàn)等,以此來有效加強(qiáng)監(jiān)測、分析和識別隱性數(shù)據(jù)和熱點(diǎn)輿情,提高精確度和嚴(yán)謹(jǐn)性。
在完成跨媒體隱性輿情數(shù)據(jù)的檢索、分析和熱點(diǎn)識別后,應(yīng)研究針對不同類型輿情信息的可視化方法,對所凝練和萃取的數(shù)據(jù)進(jìn)行呈現(xiàn)和反饋。大數(shù)據(jù)技術(shù)與可視化分析技術(shù)相結(jié)合,可為隱性輿情數(shù)據(jù)的監(jiān)測和隱性熱點(diǎn)的展示構(gòu)建起全新的框架。隱性輿情大數(shù)據(jù)的可視化研究,主要是數(shù)據(jù)圖形化。通過抽取線性關(guān)系中的關(guān)鍵詞,并按照一定的規(guī)律、標(biāo)準(zhǔn)用整齊美觀的圖形界面呈現(xiàn)出來,這種靜態(tài)表示方法可分為關(guān)鍵詞引導(dǎo)布局、地圖布局、環(huán)狀布局、時序布局等不同方式,具有可靈活擴(kuò)展、展示手段與數(shù)據(jù)分離、細(xì)節(jié)提示、疊加顯示的特征。同時,輿情層次數(shù)據(jù)的可視化,主要是信息層次化,即通過建立自下而上或自上而下的順序結(jié)構(gòu)、層次結(jié)構(gòu)、網(wǎng)狀結(jié)構(gòu)進(jìn)行可視化區(qū)域展示。[8]
輿情熱點(diǎn)的爆發(fā)往往集中在微博、朋友圈、社區(qū)和網(wǎng)站等自媒體平臺,因此目前對于網(wǎng)絡(luò)輿情信息的情感傾向分析仍然主要集中在文本載體之上。[9]文本傾向分類是對文本作者的態(tài)度、觀點(diǎn)、情感等信息分類,能為輿情治理提供依據(jù),促進(jìn)輿情信息朝著多角度、立體性方向前進(jìn)。有學(xué)者提出情感詞語加權(quán)、語義模式分析、普通文本分析等方法,思路大多是對文本內(nèi)容進(jìn)行檢索,計算情感色彩詞,與情感詞庫中的詞匯進(jìn)行比較分析,并引入相關(guān)句式規(guī)則以便確認(rèn)情感屬性,最后統(tǒng)計所有感情色彩信息。并且,通常認(rèn)為表達(dá)情感色彩的詞元越多,文本的情感色彩就越強(qiáng)烈。對于隱性輿情數(shù)據(jù)而言,不僅要分析其文本情感傾向,更應(yīng)注重間接關(guān)鍵詞、隱晦情感詞、搜索和瀏覽次數(shù)等信息。
當(dāng)出現(xiàn)某個支持度較高的話題,或當(dāng)話題呈現(xiàn)出焦灼的爭論狀態(tài),或當(dāng)網(wǎng)絡(luò)輿論對某個輿情事件表示反對或焦慮時,應(yīng)考慮綜合自動化系統(tǒng)檢索及分析與人工實(shí)時分析相結(jié)合。一是分析網(wǎng)絡(luò)輿情熱度影響因素,建立指標(biāo)體系。在海量數(shù)據(jù)中,自動發(fā)現(xiàn)隱藏?zé)狳c(diǎn),并對它們進(jìn)行提前分類。二是進(jìn)行熱點(diǎn)跟蹤定位。把網(wǎng)絡(luò)環(huán)境下的輿情事件看成一個動態(tài)的發(fā)展過程,把握其當(dāng)前狀態(tài)和未來趨勢。三是開展敏感信息監(jiān)控。評析輿情分類的結(jié)果,結(jié)合當(dāng)前的宏觀情況,自定義危機(jī)詞組,生成輿情預(yù)測報告。四是設(shè)計輿情預(yù)警規(guī)則。根據(jù)輿情信息、相關(guān)人員信息、輿情所處階段、熱度和網(wǎng)民傾向,可將預(yù)警分為若干個等級,用不同色彩表示,計算某一個輿情事件的得分情況,輸出相對應(yīng)的色彩。
在對輿情危機(jī)進(jìn)行分析、預(yù)測和處理中,顯性數(shù)據(jù)信息分析往往是主要依據(jù),也是常采用的方法。然而隨著互聯(lián)網(wǎng)和移動互聯(lián)網(wǎng)內(nèi)容復(fù)雜性的增加,以及輿情信息隱蔽性的提高,隱性數(shù)據(jù)信息的價值日趨重要。對隱性輿情數(shù)據(jù)的充分利用有利于更好地實(shí)現(xiàn)輿情精準(zhǔn)預(yù)測,為輿情危機(jī)的預(yù)警和應(yīng)對提供更加科學(xué)、有效的方案,從而實(shí)現(xiàn)輿情危機(jī)的引導(dǎo)和化解,促進(jìn)健康網(wǎng)絡(luò)環(huán)境的構(gòu)建。
[1]喻國明.大數(shù)據(jù)分析下的中國社會輿情:總體態(tài)勢與結(jié)構(gòu)性特征——基于百度熱搜詞(2009-2012)的輿情模型構(gòu)建[J].中國人民大學(xué)學(xué)報,2013(5):2-9.
[2]Google趨勢[EB/OL]. http://www.google.com/trends,2013-04-26.
[3]唐濤.基于大數(shù)據(jù)的網(wǎng)絡(luò)輿情分析方法研究[J].現(xiàn)代情報,2014(3):3-6.
[4]維克托·邁爾-舍恩伯格,肯尼斯·庫克耶.大數(shù)據(jù)時代[M].盛楊燕,周濤,譯.杭州:浙江人民出版社,2013:37-43.
[5]張耀之.網(wǎng)絡(luò)輿情語義識別的技術(shù)分析及識別流程構(gòu)建[D].吉林大學(xué),2016.
[6]張榮顯,曹文鴛.網(wǎng)絡(luò)輿情研究新路徑:大數(shù)據(jù)技術(shù)輔助網(wǎng)絡(luò)內(nèi)容挖掘與分析[J].汕頭大學(xué)學(xué)報(人文社會科學(xué)版),2016(8):111-121.
[7]陳雪剛.基于大數(shù)據(jù)技術(shù)的微博輿情快速自聚類方法研究[J].情報雜志,2017(5):113-117.
[8]喻國明,李彪.當(dāng)前社會輿情場的結(jié)構(gòu)性特點(diǎn)及演進(jìn)趨勢——基于《中國社會輿情年度報告(2015)》的分析結(jié)論[J].新聞與寫作,2015(10):37-40.
[9]丁媛媛.基于時間序列的微博熱點(diǎn)話題識別與追蹤[D].西安科技大學(xué),2017.