張瑞萌 李建波
新媒體背景下,網(wǎng)絡(luò)輿情信息數(shù)量龐大且來源復(fù)雜。習(xí)近平總書記多次強(qiáng)調(diào)要加強(qiáng)輿情應(yīng)對工作。越來越多的政府、企事業(yè)單位開始重視輿情監(jiān)測,試圖提高輿情危機(jī)應(yīng)對效能,從而實現(xiàn)新媒體時代輿情的有效應(yīng)對。
然而,結(jié)合實際和查閱文獻(xiàn)資料,目前研究雖然已經(jīng)注意到利用網(wǎng)絡(luò)輿情信息挖掘技術(shù)來提升輿情危機(jī)應(yīng)對能力,但是大都集中于對網(wǎng)絡(luò)輿情信息挖掘技術(shù)的技術(shù)手段研究,對其在實際應(yīng)用中展現(xiàn)的局限性卻少有進(jìn)行系統(tǒng)論證。而網(wǎng)絡(luò)輿情信息挖掘技術(shù)的局限性在實際危機(jī)應(yīng)對中將直接影響政府、企事業(yè)單位的輿情研判效能,影響新媒體時代社會輿情治理效果。
本文擬探討網(wǎng)絡(luò)輿情信息挖掘技術(shù)的局限性對輿情危機(jī)應(yīng)對的影響,以期優(yōu)化網(wǎng)絡(luò)輿情信息挖掘技術(shù),提高人機(jī)交互互補(bǔ)能力,提升政府、企事業(yè)單位等部門輿情危機(jī)應(yīng)對的效能,提高新媒體時代社會輿情治理效果。
網(wǎng)絡(luò)輿情信息挖掘技術(shù)主要是指從海量的網(wǎng)絡(luò)媒體信息中提取出有效且關(guān)鍵性的數(shù)據(jù),并將數(shù)據(jù)通過一系列算法建立相互聯(lián)系的可視化可檢索數(shù)據(jù)庫的技術(shù)。[1]
近年來,國內(nèi)學(xué)者都對網(wǎng)絡(luò)輿情信息挖掘技術(shù)進(jìn)行了深入研究。本文將介紹幾個重要的網(wǎng)絡(luò)輿情信息挖掘技術(shù)方法:
權(quán)重計算法是目前輿情信息挖掘最常用的方法,它根據(jù)字、詞在網(wǎng)絡(luò)文章中的權(quán)重來評估其在該篇文章中的重要性。[2]如果某些字詞在一些文章的權(quán)重占比較高,在另一些文章的權(quán)重占比較低,可以用該字詞來分類文章的情感傾向,從而達(dá)到網(wǎng)絡(luò)輿情信息挖掘的目的。權(quán)重計算法的優(yōu)勢在于計算簡單,但是在實際應(yīng)用中,有些字詞雖然頻率很高、但對分類的貢獻(xiàn)很小。
在網(wǎng)絡(luò)輿情信息挖掘中,文本聚類法是信息挖掘的一項關(guān)鍵技術(shù),文本聚類是一種無監(jiān)督的機(jī)器學(xué)習(xí)方法,采用去除停用詞、詞頻分析[3]等方法,構(gòu)建出所收集文檔的文本信息標(biāo)記,對文本數(shù)據(jù)進(jìn)行聚類,將雜亂的文本數(shù)據(jù)劃分成若干類。同類文本相似度大,而不同類文本相似度低。在輿情信息挖掘方面,具有靈活性、機(jī)動性和自動化等優(yōu)勢,可以一定程度上提升輿情信息挖掘速度,與權(quán)重計算法相比具有更高的準(zhǔn)確性。
主觀性的輿情文本中蘊(yùn)含著情感色彩,其中的情感傾向性和主觀性能夠很好地表達(dá)用戶對于事件所持態(tài)度,根據(jù)用戶情緒和態(tài)度能夠判定輿情信息的正負(fù)面。這種方法通過對網(wǎng)絡(luò)輿情信息數(shù)據(jù)中的大量標(biāo)記情感詞進(jìn)行統(tǒng)計分析,挖掘文本信息中的情感詞分布特點,剔除網(wǎng)絡(luò)輿情信息文本的干擾句和客觀句,對帶有情感色彩的主觀性文本的情感傾向進(jìn)行分析,計算文本整體的情感傾向值[4],得出網(wǎng)絡(luò)輿情信息的情感傾向,快速了解網(wǎng)絡(luò)輿情信息狀態(tài),從而完成信息挖掘。
輿情熱點事件發(fā)生后,做好輿情熱點分析工作最為關(guān)鍵。一般來說,比較常見的輿情分析方式就是對輿情熱點關(guān)鍵詞進(jìn)行提取,通過關(guān)鍵詞來搜集精準(zhǔn)有效的數(shù)據(jù)信息進(jìn)行分析。[5]它利用正則表達(dá)式對網(wǎng)絡(luò)輿情信息文本內(nèi)容進(jìn)行匹配,快速從海量的文本中檢索出關(guān)鍵詞,適應(yīng)網(wǎng)絡(luò)輿情演變速度極快的特點,滿足網(wǎng)絡(luò)輿情數(shù)據(jù)的挖掘分析對實時性的需求。
在新媒體背景下,網(wǎng)絡(luò)輿情呈現(xiàn)出復(fù)雜性、時效性[6]、海量性和高影響力四個特征。網(wǎng)絡(luò)輿情信息挖掘技術(shù)可以快速全面收集和整理危機(jī)應(yīng)對所需要的相關(guān)數(shù)據(jù),并且對這些數(shù)據(jù)做系統(tǒng)的、可視化的分析和篩選。網(wǎng)絡(luò)輿情信息挖掘技術(shù)的運(yùn)用,對政府、企事業(yè)單位的輿情監(jiān)測和輿情研判處置有著不可替代的優(yōu)勢。然而,當(dāng)下大家都集中研究輿情信息挖掘技術(shù)的技術(shù)手段本身,以及大數(shù)據(jù)輿情信息挖掘技術(shù)的優(yōu)越性,卻忽略了這個技術(shù)衍生的輿情監(jiān)測應(yīng)用,在實際應(yīng)用中也是有局限性的。
輿情信息挖掘技術(shù)的主要爬取數(shù)據(jù)技術(shù)手段之一就是關(guān)鍵詞匹配。關(guān)鍵詞匹配是指利用正則表達(dá)式對網(wǎng)絡(luò)輿情信息文本內(nèi)容進(jìn)行匹配,快速從海量的文本中檢索出關(guān)鍵詞,從而獲得和關(guān)鍵詞相關(guān)的文章數(shù)據(jù)。由此可見,關(guān)鍵詞匹配就是在設(shè)定已知關(guān)鍵詞的條件下,通過關(guān)鍵詞精確命中原則,匹配到相關(guān)的網(wǎng)絡(luò)輿情信息。也就是說,如果事先并沒有設(shè)定突發(fā)事件相關(guān)的關(guān)鍵詞,或者關(guān)鍵詞出現(xiàn)設(shè)置偏差(例如“我們今天很開心”和“我們今天很開開心心”機(jī)器就會視為偏差),那么在輿情信息的獲取上就匹配不到設(shè)置關(guān)鍵詞之外的信息和因為關(guān)鍵詞設(shè)置偏差而漏掉一些重要的信息。
當(dāng)然,也有假設(shè)說按照熱度第一排序,來彌補(bǔ)關(guān)鍵詞未知的不足,盡可能主動地獲取信息。通過熱度值比對來找出輿情熱點,將熱點信息作為參考,實現(xiàn)輿情事件預(yù)測。但由于網(wǎng)絡(luò)輿情信息復(fù)雜性、海量性及媒介多樣性等的特征,達(dá)到什么標(biāo)準(zhǔn)的熱度值視為輿情熱度爆發(fā)臨界點,是一個復(fù)雜且尚未統(tǒng)一的標(biāo)準(zhǔn),還不能很好應(yīng)用。
在輿情事件的梳理中,溯源是一個十分重要的產(chǎn)出因素。當(dāng)前的技術(shù)獲得溯源大都是對抓取到的輿情信息做一個時間排列,或者通過一些技術(shù)算法,從而判定時間排列最早或者認(rèn)定相關(guān)算法的結(jié)果為溯源。[7]顯然,實際應(yīng)用中,這些方法并不一定適用。由于信息的海量性、媒介的多樣性和反爬蟲技術(shù)的限制,會導(dǎo)致挖掘到的信息不一定是事件信息的源頭。此外,在實際操作中,會出現(xiàn)技術(shù)無法掌控的問題。以“河南省高考答題卡掉包”事件為例,該事件的第一公開發(fā)出源為微信公眾號“波動財經(jīng)”,由于微信信息爬取管理限制,監(jiān)測系統(tǒng)并不能爬到該條信息,在實際應(yīng)用上就遺失了該條重要的信息溯源。
在海量的網(wǎng)絡(luò)輿情信息文本中,經(jīng)常會有文章掛羊頭賣狗肉、篡改網(wǎng)頁、錯字等行為。這就要求技術(shù)不能是簡單的命中匹配,還需規(guī)避這些干擾問題,優(yōu)化技術(shù),做進(jìn)一步處理再呈現(xiàn)出來。就信息采集而言,信源受采集主體主觀因素及客觀條件制約,會使得采集到的信息不準(zhǔn)確、不完整、過時、失真。主觀原因可能有危機(jī)應(yīng)對人員選擇設(shè)置關(guān)鍵詞的主觀意愿、信息采集者選擇信息的不當(dāng)或者定向采集、查證信源不規(guī)范、文本核對不到位等;客觀原因包括錯別字的干擾、廣告的植入、采集信息的方法誤差等。
實際應(yīng)用中常見的情況有以下幾種:
1.網(wǎng)頁篡改或錯字。比如廣告及錯別字導(dǎo)致文本匹配準(zhǔn)確度降低。
2.關(guān)鍵詞分詞和匹配方式過于簡單。比如中原工學(xué)院,分詞為中原、中原工、工學(xué)院,很可能就會匹配其他包含中原的院校信息,需要結(jié)合更復(fù)雜更精確的匹配方式。
3.無用信息的影響導(dǎo)致命中率不高。比如文本中出現(xiàn)了這個關(guān)鍵詞,但關(guān)鍵詞在文章中只是簡單的信息列舉,就像列舉了河南高校就匹配了中原工學(xué)院,但文章其實說的是其他內(nèi)容,這在輿情危機(jī)應(yīng)對的實際應(yīng)用中就屬于無用信息。
4.事件定位和相關(guān)輿情事件無關(guān)。比如河南富士康員工逃亡事件,信息匹配中出現(xiàn)了很多為了蹭熱度定位河南富士康的但是實際發(fā)布內(nèi)容卻與輿情事件不相關(guān)信息。
上述情況,都會造成采集到的數(shù)據(jù)有效命中率不高,進(jìn)而會影響輿情危機(jī)應(yīng)對方案的分析深度和實用程度。
大數(shù)據(jù)時代,政府和企事業(yè)單位使用網(wǎng)絡(luò)輿情信息挖掘技術(shù)希望通過更簡單高效的監(jiān)測來了解輿情數(shù)據(jù)信息特征。情感分析技術(shù)的確可以幫助用戶一般性地了解信息的正負(fù)面傾向?,F(xiàn)在的情感分析技術(shù),通常是通過匹配預(yù)設(shè)情感詞特征模型來判斷該語句或者文章所反映的情緒傾向。但是正因為這個機(jī)制,使得抓取到的信息情緒判斷死板。情感詞特征模型的人為設(shè)定,死板的命中匹配機(jī)制,在實際應(yīng)用中很難精確地判斷出文章的整體情緒傾向,容易出現(xiàn)斷章取義的情況,會出現(xiàn)很多正面、中性文章誤判為負(fù)面,負(fù)面判斷不精確等問題。比如,評論類文章里雖然多次提到了腐敗等負(fù)面情感特征詞,但是文章并非負(fù)面信息。情感分析技術(shù)的死板會判斷該篇文章為負(fù)面信息,這種對信息死板的情感判斷現(xiàn)象,會導(dǎo)致危機(jī)應(yīng)對人員在實際應(yīng)對中對海量輿情信息的篩選產(chǎn)生干擾。
網(wǎng)絡(luò)輿情信息挖掘技術(shù)的局限性,對政府、企事業(yè)單位等進(jìn)行輿情研判、處理網(wǎng)絡(luò)輿情危機(jī)工作有著一定的影響。這些局限會在一定程度上限制相關(guān)部門精確化分析的能力,增加網(wǎng)絡(luò)輿情危機(jī)應(yīng)對難度,減弱網(wǎng)絡(luò)輿情社會治理效果。具體影響可以歸納為以下幾點:
在輿情應(yīng)對中,預(yù)警機(jī)制是非常重要的。爬取數(shù)據(jù)時關(guān)鍵詞設(shè)置的被動性,導(dǎo)致目前的網(wǎng)絡(luò)輿情信息挖掘技術(shù)所呈現(xiàn)的都是已知的發(fā)生的輿情信息,并不能起到預(yù)測的功能。所有輿情危機(jī)發(fā)生之前,都會有一定的征兆。[8]在實際應(yīng)用中,政府、企事業(yè)單位對網(wǎng)絡(luò)輿情的預(yù)測場景是充滿期待的。
在突發(fā)事件的初期,政府、高校及企事業(yè)單位對網(wǎng)絡(luò)輿情信息的靈敏度和信息質(zhì)量都存在滯后性。關(guān)鍵詞設(shè)定的被動性,在輿情危機(jī)應(yīng)對中會降低政府、高校及企事業(yè)單位對網(wǎng)絡(luò)輿情可能發(fā)生的行為參考值。關(guān)鍵詞匹配技術(shù)等數(shù)據(jù)挖掘方法更多適用于事后分析,對網(wǎng)絡(luò)輿情的預(yù)警并無太大參考,容易在危機(jī)應(yīng)對中錯失預(yù)警防范的最佳時機(jī)。
找到負(fù)面輿情的源點,在輿情危機(jī)應(yīng)對中起著至關(guān)重要的作用??焖?、準(zhǔn)確的找到輿情源點,對抑制負(fù)面輿情傳播、精確治理負(fù)面輿情有著不可替代的意義,且是治理輿情最有效的方法之一。輿情溯源判定的不精確,會使危機(jī)應(yīng)對人員在輿情危機(jī)應(yīng)對中難以快速準(zhǔn)確地找到源頭,失去有效切斷傳播源的手段。畢竟在海量的網(wǎng)絡(luò)輿情信息中,靠人工去完成這個溯源挖掘,是費(fèi)時費(fèi)力的行為。所以網(wǎng)絡(luò)輿情信息挖掘技術(shù)中存在的溯源判斷不精確問題,仍需有更優(yōu)化的算法與評價標(biāo)準(zhǔn)。
對網(wǎng)絡(luò)輿情危機(jī)應(yīng)對而言,網(wǎng)絡(luò)輿情信息挖掘技術(shù)的深入應(yīng)用,一是可以通過對數(shù)據(jù)進(jìn)行全面地分析和整理,提取出危機(jī)特征,這樣大大提高了政府、高校、企事業(yè)單位相關(guān)研究以及危機(jī)應(yīng)對的能力;二是還能在第一時間快速地了解突發(fā)狀況信息,制定應(yīng)對輿情事件的部署方案,確保該方案能夠在一定程度上滿足輿情危機(jī)應(yīng)對的處理要求。然而,海量的信息如果只是以簡單文本聚類的方式呈現(xiàn)出來,不能有效規(guī)避無用信息和干擾信息,會使危機(jī)應(yīng)對人員對輿情事件的判斷產(chǎn)生信息讀取干擾和偏差,不能準(zhǔn)確地了解輿情傳播范圍,也不能精確地了解媒體傾向性,影響輿情研判和危機(jī)處置方案的制定。
在輿情危機(jī)應(yīng)對中,危機(jī)應(yīng)對人員更傾向于關(guān)注負(fù)面信息的數(shù)據(jù)特征。網(wǎng)絡(luò)輿情的危機(jī)治理離不開對負(fù)面信息特征、數(shù)量的整體了解。對海量的信息進(jìn)行初步的正負(fù)面分析,對公眾的情緒傾向性有一個大致的了解,是應(yīng)對網(wǎng)絡(luò)輿情的重要環(huán)節(jié)。
網(wǎng)絡(luò)輿情信息挖掘技術(shù)情感分析死板,文章情緒判斷準(zhǔn)確度不夠,使得危機(jī)應(yīng)對人員在負(fù)面信息的判斷篩選上花費(fèi)大量時間,很容易錯失最佳處置時機(jī),同時對公眾正負(fù)面情緒的整體占比分析不夠精確,降低危機(jī)應(yīng)對效果。
輿情信息挖掘技術(shù)可以幫助危機(jī)應(yīng)對人員快速對海量的網(wǎng)絡(luò)輿情信息進(jìn)行篩選,通過數(shù)據(jù)分析比較,系統(tǒng)地制定危機(jī)應(yīng)對方案。但是網(wǎng)絡(luò)輿情信息挖掘技術(shù)的局限性所造成的影響也需要重視。這些局限包括技術(shù)上有待優(yōu)化的地方和技術(shù)上不能實現(xiàn)的功能。未來,針對網(wǎng)絡(luò)輿情信息挖掘技術(shù)信息獲取被動、溯源判斷不準(zhǔn)確、有效數(shù)據(jù)命中率不高、正負(fù)面判斷死板等的局限,需要進(jìn)一步優(yōu)化網(wǎng)絡(luò)輿情信息挖掘技術(shù),完善輿情預(yù)警技術(shù)和人力相配合機(jī)制,提高輿情預(yù)警效能;精確找到輿情溯源,快速了解輿情傳播規(guī)律;提高輿情海量信息有效命中率;精確情感分析的正負(fù)面判斷,優(yōu)化死板問題;更好地進(jìn)行輿情危機(jī)應(yīng)對,為社會網(wǎng)絡(luò)輿情危機(jī)應(yīng)對開辟新道路,從而提高網(wǎng)絡(luò)輿情社會治理效能。