杜錦繡 蔡靜
摘? ?要:在這個(gè)信息爆炸的網(wǎng)絡(luò)時(shí)代,基于網(wǎng)絡(luò)與社會(huì)輿論而誕生的網(wǎng)絡(luò)輿情,成為社會(huì)、國(guó)家關(guān)注的研究重點(diǎn)之一,構(gòu)建互聯(lián)網(wǎng)時(shí)代的輿情監(jiān)控體系成了當(dāng)前信息化時(shí)代的迫切需求。文章從網(wǎng)絡(luò)輿情分析與監(jiān)管的意義入手,介紹了國(guó)內(nèi)外關(guān)于網(wǎng)絡(luò)輿情監(jiān)測(cè)的研究,圍繞輿情采集、數(shù)據(jù)預(yù)處理、文本分類(lèi)技術(shù)大致介紹了網(wǎng)絡(luò)輿情研究的關(guān)鍵技術(shù)與步驟。
關(guān)鍵詞:網(wǎng)絡(luò)輿情;網(wǎng)絡(luò)爬蟲(chóng);多標(biāo)簽文本分類(lèi)
隨著網(wǎng)絡(luò)技術(shù)的飛速發(fā)展,互聯(lián)網(wǎng)已經(jīng)成為人們生活和工作中的一部分,尤其隨著5G技術(shù)的崛起,可以預(yù)見(jiàn),互聯(lián)網(wǎng)對(duì)我國(guó)的政治與經(jīng)濟(jì)發(fā)展都將產(chǎn)生越來(lái)越深遠(yuǎn)的影響,網(wǎng)絡(luò)輿情便是由互聯(lián)網(wǎng)衍生的一項(xiàng)重要產(chǎn)物。網(wǎng)絡(luò)輿情是針對(duì)社會(huì)熱點(diǎn)、大眾生活等問(wèn)題,由新聞媒體或者個(gè)人在互聯(lián)網(wǎng)上表達(dá)的言論、建議或情緒,是社會(huì)輿論在網(wǎng)絡(luò)上的一種特殊表現(xiàn)形式[1],近年來(lái),隨著網(wǎng)絡(luò)輿情重要性的提升而逐漸成為一項(xiàng)研究熱點(diǎn)。
1? ? 相關(guān)簡(jiǎn)介
1.1? 背景與意義
第43次《中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》中指出,中國(guó)網(wǎng)民規(guī)模已高達(dá)8.29億,普及率已達(dá)59.6%,超過(guò)全球平均水平。目前,中國(guó)的網(wǎng)絡(luò)輿論處于非常活躍的狀態(tài),一方面,互聯(lián)網(wǎng)的發(fā)展帶來(lái)極大的便利,人們輕松獲得大量信息;另一方面,也滋生了許多違法犯罪信息,這些信息容易引發(fā)一系列的社會(huì)問(wèn)題。因此,相關(guān)部門(mén)必須加強(qiáng)對(duì)網(wǎng)絡(luò)輿情的分析與監(jiān)控,在必要時(shí)對(duì)網(wǎng)絡(luò)輿情進(jìn)行正面的引導(dǎo),這對(duì)國(guó)家社會(huì)的治安管理和維護(hù)穩(wěn)定具有重要的現(xiàn)實(shí)意義。
1.2? 國(guó)內(nèi)外研究現(xiàn)狀
近年來(lái),互聯(lián)網(wǎng)技術(shù)與大數(shù)據(jù)、人工智能技術(shù)的迅速發(fā)展,帶動(dòng)了網(wǎng)絡(luò)輿情監(jiān)測(cè)分析系統(tǒng)的發(fā)展,網(wǎng)絡(luò)空間不斷擴(kuò)大,網(wǎng)民數(shù)量不斷增加,隨著數(shù)據(jù)呈爆炸式的指數(shù)級(jí)增長(zhǎng),網(wǎng)絡(luò)空間中每天將產(chǎn)生超5億TB的數(shù)據(jù)量,隨著大數(shù)據(jù)技術(shù)以及人工智能技術(shù)應(yīng)用于網(wǎng)絡(luò)輿情監(jiān)測(cè)分析系統(tǒng),輿情監(jiān)測(cè)分析系統(tǒng)從人工階段趨于智能化和自動(dòng)化。國(guó)外關(guān)于這方面的研究開(kāi)始較早,世界上最早的輿情分析軟件是由Dave等設(shè)計(jì)和實(shí)現(xiàn)的Review seer[2]。另外,還有美國(guó)國(guó)防高級(jí)研究計(jì)劃署話(huà)題檢測(cè)與跟蹤(Topic Detection and Tracking,TDT)項(xiàng)目以及Opinion Finder智能輿情監(jiān)督系統(tǒng)等。在輿情監(jiān)測(cè)分析系統(tǒng)方面,雖然國(guó)內(nèi)的研究開(kāi)始較晚,但是發(fā)展勢(shì)頭迅猛,早已日漸成熟。如泰一輿情監(jiān)測(cè)系統(tǒng)、軍犬輿情、中國(guó)輿情網(wǎng)(PALAS)等。
在文本分類(lèi)技術(shù)方面,目前各語(yǔ)料庫(kù)使用的單標(biāo)簽分類(lèi)體系有多種,例如搜狗實(shí)驗(yàn)室采集的中文新聞?wù)Z料庫(kù),將搜狐網(wǎng)站上的新聞手工整理后分類(lèi)成IT、財(cái)經(jīng)、健康和教育等10個(gè)類(lèi)別;譚松波等人收集的中文文本分類(lèi)語(yǔ)料庫(kù),將所有文本分類(lèi)為12個(gè)大類(lèi)別,60個(gè)小類(lèi)別。但這樣的單標(biāo)簽分類(lèi)體系不能適應(yīng)網(wǎng)絡(luò)輿情的特點(diǎn),也將人們感興趣的信息點(diǎn)埋沒(méi)于單一領(lǐng)域中。人群在媒體所傳達(dá)的輿情伴隨著情緒化且常常伴有多義性的特點(diǎn),使得輿情分析較為復(fù)雜,但是傳統(tǒng)輿情分析主要采用單標(biāo)簽分類(lèi)或多類(lèi)分類(lèi),使得輿情分析得出的結(jié)果只能涵蓋一個(gè)領(lǐng)域或情緒,從而導(dǎo)致輿情分析的片面化,多標(biāo)簽分類(lèi)則能夠很好地解決這一問(wèn)題。目前較為常用的經(jīng)典文本分類(lèi)方法有類(lèi)中心向量法、回歸模型、支持向量機(jī)、人工神經(jīng)網(wǎng)絡(luò)、決策樹(shù)法和關(guān)聯(lián)規(guī)則等。
2? ? 輿情采集
對(duì)網(wǎng)絡(luò)中信息的采集是進(jìn)行輿情分析研究的基礎(chǔ)和前提。通常使用元搜索技術(shù)、應(yīng)用程序編程接口(Application Programming Interface,API)調(diào)用、網(wǎng)絡(luò)爬蟲(chóng)技術(shù)實(shí)現(xiàn)對(duì)輿情信息的自動(dòng)抽取。
2.1? 數(shù)據(jù)選擇
網(wǎng)絡(luò)上的輿情數(shù)據(jù),從數(shù)據(jù)類(lèi)型看可以分為文本、圖片、音頻和視頻等,由于音頻、視頻需要處理信息計(jì)算量較大,且相比文本和圖片承載的數(shù)據(jù)量較少,而圖片相較于文本所能表達(dá)的網(wǎng)絡(luò)輿情信息較少,因此,將網(wǎng)絡(luò)輿情數(shù)據(jù)的主要來(lái)源選擇為文本信息最為合適??紤]到數(shù)據(jù)的客觀(guān)性和網(wǎng)絡(luò)用戶(hù)的覆蓋度,輿情采集應(yīng)選擇用戶(hù)體量大的社交媒體作為輿情數(shù)據(jù)來(lái)源,會(huì)使得所得的結(jié)果更具有通用性。
為保證輿情數(shù)據(jù)具有代表性,采集輿情數(shù)據(jù)的目標(biāo)網(wǎng)站需要具有日?;钴S用戶(hù)多、涵蓋話(huà)題領(lǐng)域廣泛等特點(diǎn)。一般而言,微博數(shù)據(jù)覆蓋范圍廣、信息更新快、數(shù)據(jù)產(chǎn)量大,是研究網(wǎng)絡(luò)輿情的優(yōu)質(zhì)信息源。近年來(lái),隨著社交軟件數(shù)量大范圍、大幅度地提升,也有學(xué)者對(duì)微信、知乎、貼吧、論壇等平臺(tái)使用網(wǎng)絡(luò)爬蟲(chóng)等相關(guān)技術(shù)來(lái)進(jìn)行數(shù)據(jù)采集和輿情分析。
2.2? 網(wǎng)絡(luò)爬蟲(chóng)
大數(shù)據(jù)技術(shù)的發(fā)展,使人們處在一個(gè)信息爆炸的時(shí)代,如果通過(guò)人工處理數(shù)據(jù)信息,必將跟不上信息的更迭速度,只有借助軟件、程序、代碼等自動(dòng)搜索才可以大幅提高對(duì)網(wǎng)絡(luò)數(shù)據(jù)信息的獲取與處理效率,網(wǎng)絡(luò)爬蟲(chóng)技術(shù)由此誕生。它可以對(duì)網(wǎng)絡(luò)信息進(jìn)行縱、橫雙向的數(shù)據(jù)與信息抓取,處理之后保存在數(shù)據(jù)庫(kù)中。
網(wǎng)絡(luò)爬蟲(chóng)最早誕生于1993年,是輿情信息采集的重要方法,也是數(shù)據(jù)獲取和分析最常用的方法。它的工作流程大致如下:選取初始頁(yè)面的統(tǒng)一資源定位符(Uniform Resource Locator,URL),將之放入待爬取隊(duì)列,通過(guò)解析獲得的IP地址就可以實(shí)現(xiàn)自動(dòng)爬取網(wǎng)頁(yè)的信息并進(jìn)行保存,將爬取過(guò)的URL放入已爬取隊(duì)列,從已爬取URL中獲得新的鏈接,對(duì)新鏈接再進(jìn)行解析處理,循環(huán)以上步驟直到爬取數(shù)據(jù)的數(shù)量達(dá)到規(guī)定的條件則停止。
3? ? 數(shù)據(jù)預(yù)處理
在文本分類(lèi)之前,需要對(duì)獲取的原始文本進(jìn)行數(shù)據(jù)預(yù)處理,這是因?yàn)榫W(wǎng)絡(luò)信息冗余復(fù)雜,原始文本中包含許多干擾信息和無(wú)效信息,會(huì)阻礙進(jìn)一步的輿情分析。通常情況下,對(duì)原始文本進(jìn)行信息去噪處理、分詞分句、信息內(nèi)容提取、移除停用詞等操作,這些操作繁瑣復(fù)雜,卻又是不可或缺的步驟,其中,最重要的兩個(gè)操作是網(wǎng)頁(yè)信息提取和中文分詞。
3.1? 網(wǎng)頁(yè)信息提取
對(duì)于獲取的網(wǎng)頁(yè)信息,往往只需要正文內(nèi)容,比如對(duì)購(gòu)物網(wǎng)站進(jìn)行分析時(shí),只需要保留物品的信息,即結(jié)構(gòu)化的信息。比較常用的兩種抽取方式分別是模板和網(wǎng)頁(yè)庫(kù)結(jié)構(gòu)信息抽取。前者較為簡(jiǎn)單,許多網(wǎng)頁(yè)的格式模板是不變的,只有內(nèi)容改變和更新,所以按照事先設(shè)定模板,抽取模板中的信息即可。后者不依賴(lài)于網(wǎng)頁(yè),采用網(wǎng)頁(yè)結(jié)構(gòu)分析技術(shù),可自動(dòng)抽取結(jié)構(gòu)化數(shù)據(jù)。
3.2? 中文分詞
中文分詞技術(shù)是將中文句子切分為一個(gè)一個(gè)單詞,即把整個(gè)文本劃分為一個(gè)一個(gè)具有實(shí)際語(yǔ)義的最小單元。在英文中,單詞與單詞之間有空格劃分,但是中文的詞與詞之間沒(méi)有間隔,所以要根據(jù)語(yǔ)義進(jìn)行切分,難度較之英文提高很多。對(duì)于中文分詞,我國(guó)學(xué)者已研究出較為成熟的系統(tǒng),如中科院研發(fā)的漢語(yǔ)詞法分詞系統(tǒng)ICTCLAS,清華大學(xué)研發(fā)的SEG中文分詞系統(tǒng)與SEGTAG中文分詞系統(tǒng)。
4? ? 文本分類(lèi)技術(shù)
4.1? 文本分類(lèi)算法
面對(duì)如此龐大的網(wǎng)絡(luò)信息,如果只使用人力來(lái)篩選和辨別信息是相當(dāng)困難的,因此,文本分類(lèi)技術(shù)應(yīng)運(yùn)而生。文本分類(lèi)技術(shù)可以根據(jù)當(dāng)前文本的某些特征,將其劃分到預(yù)先定義好的類(lèi)別中,從而幫助人們縮小查找的范圍,過(guò)濾冗余和無(wú)效的信息,提高查詢(xún)與檢索信息的效率。文本分類(lèi)方法的引入能夠有效提高對(duì)網(wǎng)絡(luò)輿情的判別速度,從而在網(wǎng)絡(luò)輿情事件發(fā)生之前,及時(shí)預(yù)測(cè)并處理。常用的文本分類(lèi)算法有K近鄰分類(lèi)算法、樸素貝葉斯分類(lèi)算法和邏輯回歸算法。
4.2? 多標(biāo)簽文本分類(lèi)
文本分類(lèi)是將文本進(jìn)行標(biāo)注后的訓(xùn)練樣本進(jìn)行有監(jiān)督學(xué)習(xí)的過(guò)程,可分為單標(biāo)簽文本分類(lèi)和多標(biāo)簽文本分類(lèi)兩種[3]。
單標(biāo)簽文本分類(lèi)中,類(lèi)別與類(lèi)別之間不存在交叉重疊的現(xiàn)象,一個(gè)文本只可以有一個(gè)標(biāo)簽。然而在實(shí)際生活中,事物可能帶有多義性,有的文本可以同時(shí)屬于多個(gè)類(lèi)別,例如,一個(gè)與農(nóng)民土地補(bǔ)貼有關(guān)的新聞文本可以同時(shí)屬于“民生”“改革”等多個(gè)類(lèi)別,這些類(lèi)別相互不獨(dú)立,存在交叉重疊現(xiàn)象,文本與標(biāo)簽都不是一對(duì)一的關(guān)系,這種文本分類(lèi)就叫作多標(biāo)簽文本分類(lèi)。尤其是在網(wǎng)絡(luò)輿情監(jiān)測(cè)方面,如果能夠?qū)⑽谋痉值蕉鄠€(gè)可能的類(lèi)別中,就可以更好地監(jiān)測(cè)網(wǎng)絡(luò)輿論可能的發(fā)展趨勢(shì)以及網(wǎng)絡(luò)輿論的關(guān)注面。
常見(jiàn)的多標(biāo)簽文本分類(lèi)有兩種,一種是將問(wèn)題轉(zhuǎn)化成單標(biāo)簽分類(lèi)問(wèn)題,另一種是將單標(biāo)簽分類(lèi)算法改造以適應(yīng)多標(biāo)簽分類(lèi),比如ML-KNN算法就是將傳統(tǒng)的K近鄰算法擴(kuò)展為一種懶惰學(xué)習(xí)的多標(biāo)簽K近鄰算法。在實(shí)際應(yīng)用中,相比于單標(biāo)簽文本分類(lèi),多標(biāo)簽文本分類(lèi)通常更能全面、準(zhǔn)確地反映文本的特性。
5? ? 結(jié)語(yǔ)
本文從網(wǎng)絡(luò)輿情監(jiān)測(cè)的意義和背景出發(fā),詳細(xì)介紹了國(guó)內(nèi)外關(guān)于網(wǎng)絡(luò)輿情監(jiān)測(cè)系統(tǒng)和分類(lèi)技術(shù)的研究,又從輿情采集、數(shù)據(jù)預(yù)處理和文本分類(lèi)技術(shù)3點(diǎn),概述了網(wǎng)絡(luò)輿情分析的部分內(nèi)容,除此之外,網(wǎng)絡(luò)輿情監(jiān)測(cè)還包括文本表示技術(shù)、輿情分析、輿情預(yù)警、統(tǒng)計(jì)分析、機(jī)器學(xué)習(xí)等多方面知識(shí)。可以預(yù)見(jiàn),網(wǎng)絡(luò)輿情的影響力將隨著科技的發(fā)展承擔(dān)越來(lái)越重要的責(zé)任。
[參考文獻(xiàn)]
[1]姜春起.網(wǎng)絡(luò)輿情監(jiān)測(cè)系統(tǒng)應(yīng)用問(wèn)題研究[D].長(zhǎng)春:吉林大學(xué),2017.
[2]張旺.互聯(lián)網(wǎng)輿情信息監(jiān)測(cè)管理系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D].長(zhǎng)沙:湖南大學(xué),2018.
[3]伏浩銘.一種改進(jìn)的ML-KNN多標(biāo)記分類(lèi)方法研究[D].成都:電子科技大學(xué),2017.
Abstract:In the era of information explosion, the network public opinion based on the network and social public opinion has become one of the research priorities of the society and the state, and the construction of a new concept of public opinion monitoring, research and judgment management in the Internet era has become an urgent need in the current information age. Starting with the significance of the analysis and supervision of network public opinion, this paper introduces the research on the monitoring of network public opinion at home and abroad, and generally introduces the key technologies and steps of the research on network public opinion around the technologies of public opinion collection, data preprocessing and text classification.
Key words:network public opinion; network crawler; multi-label text categorization
無(wú)線(xiàn)互聯(lián)科技2019年15期