潘大慶
(柳州市委黨校,廣西 柳州 545006)
隨著互聯(lián)網(wǎng)的大量普及,網(wǎng)絡(luò)輿情也成為一項(xiàng)社會(huì)和國(guó)家安全的一個(gè)重要因素.因此對(duì)網(wǎng)絡(luò)輿情進(jìn)行實(shí)時(shí)的跟蹤和監(jiān)測(cè),能夠讓國(guó)家及時(shí)地掌握網(wǎng)絡(luò)輿情的發(fā)展變化和發(fā)展規(guī)律[1-3].對(duì)于一些影響社會(huì)安定和穩(wěn)定的不良網(wǎng)絡(luò)輿情做到及時(shí)地發(fā)現(xiàn)和跟蹤,能為維護(hù)整個(gè)社會(huì)的安定發(fā)揮積極的作用.
近年來國(guó)內(nèi)外針對(duì)網(wǎng)絡(luò)輿情監(jiān)測(cè)技術(shù)的研究很多,并取得了一系列的研究成果,比如:董亞倩,鄧尚民等人[4-5]以社會(huì)網(wǎng)絡(luò)為分析對(duì)象,研究了網(wǎng)絡(luò)輿情主體挖掘技術(shù),也重點(diǎn)研究了高校中的輿情演變規(guī)律及安全評(píng)估指標(biāo)體系.而陳新杰、呼雨等人[6]也專門對(duì)網(wǎng)絡(luò)輿情監(jiān)測(cè)的指標(biāo)體系進(jìn)行了研究.
但是對(duì)網(wǎng)絡(luò)輿情監(jiān)測(cè)技術(shù)的研究并沒有止境,隨著網(wǎng)絡(luò)結(jié)構(gòu)的不斷變化,以及網(wǎng)絡(luò)輿情復(fù)雜性的日益發(fā)展,使得開展網(wǎng)絡(luò)輿情監(jiān)測(cè)的相關(guān)技術(shù)研究,依然還需要繼續(xù)努力[7-9].筆者通過深入的研究,設(shè)計(jì)了一種基于相對(duì)權(quán)重的網(wǎng)絡(luò)輿情監(jiān)測(cè)算法和系統(tǒng).
輿情監(jiān)測(cè)系統(tǒng)組成結(jié)構(gòu)如圖1所示.該系統(tǒng)主要包括信息采集、信息監(jiān)測(cè)和信息管理三個(gè)部分.其中信息采集又由網(wǎng)絡(luò)地址過濾、網(wǎng)絡(luò)頁(yè)面內(nèi)容分析、頁(yè)面去冗、網(wǎng)絡(luò)爬蟲和網(wǎng)絡(luò)爬蟲策略深層模塊所組成.在這些功能模塊中通過網(wǎng)絡(luò)爬蟲按照預(yù)先設(shè)定的爬蟲策略,對(duì)整個(gè)網(wǎng)絡(luò)中的頁(yè)面進(jìn)行自動(dòng)化的獲取和分析,而且在獲取過程中,為了提高數(shù)據(jù)采集的精度,設(shè)計(jì)了網(wǎng)絡(luò)地址過濾和頁(yè)面去冗的功能模塊.
在網(wǎng)絡(luò)監(jiān)測(cè)模塊中主要由文本分類、文本聚類、相對(duì)權(quán)重計(jì)算、主題監(jiān)測(cè)、虛事統(tǒng)計(jì)和關(guān)聯(lián)事件統(tǒng)計(jì)等功能模塊組成.在這些功能模塊中最核心的是相對(duì)權(quán)重的計(jì)算,其作用是通過對(duì)網(wǎng)絡(luò)爬蟲采集到的頁(yè)面進(jìn)行初步的文本分類和聚類之后,計(jì)算每一個(gè)網(wǎng)絡(luò)頁(yè)面它的關(guān)鍵詞的相對(duì)權(quán)重,為后期的主題檢測(cè)和事件統(tǒng)計(jì)奠定基礎(chǔ).
信息管理模塊主要包括熱點(diǎn)事件記錄、熱點(diǎn)事件發(fā)展趨勢(shì)顯示、輿情狀態(tài)顯示、輿情關(guān)聯(lián)事件列表、輿情信息上報(bào)接口、用戶管理接口和用戶配置接口等功能模塊.在這些功能模塊中,基本上可以分為兩大類,一類是事件信息的顯示,一類是用戶接口模塊[10-11].信息顯示主要是對(duì)輿情的分類、輿情的動(dòng)態(tài)變化情況、發(fā)展趨勢(shì)等特性進(jìn)行顯示.而接口模塊主要接收用戶的一些管理和配置的信息,使得整個(gè)輿情監(jiān)測(cè)系統(tǒng)能夠更好地運(yùn)行.
筆者所設(shè)計(jì)的輿情監(jiān)測(cè)系統(tǒng),最重要的是對(duì)輿情監(jiān)測(cè)部分的設(shè)計(jì)和實(shí)現(xiàn),在這個(gè)功能中主要通過設(shè)計(jì)專門的輿情監(jiān)測(cè)算法來實(shí)現(xiàn)對(duì)輿情的跟蹤和監(jiān)測(cè).
圖1 輿情監(jiān)測(cè)系統(tǒng)組成結(jié)構(gòu)Fig.1 Composition and structure of public opinion monitoring system
一篇文檔T_k中,經(jīng)過分詞處理后,提取出來的關(guān)鍵詞有),所有待處理的文檔共有N篇.
利用這一分詞權(quán)重描述模型,能夠?qū)λ写幚砦臋n中分詞進(jìn)行權(quán)重分析和度量,為網(wǎng)絡(luò)輿情監(jiān)測(cè)提供準(zhǔn)確的信息支持.
輿情監(jiān)測(cè)算法流程如圖2所示.在輿情監(jiān)測(cè)過程中首先通過網(wǎng)絡(luò)爬蟲對(duì)網(wǎng)絡(luò)中的頁(yè)面進(jìn)行采集,提取各個(gè)頁(yè)面中的內(nèi)容數(shù)據(jù),將所提取的內(nèi)容數(shù)據(jù)送入相應(yīng)的數(shù)據(jù)庫(kù),數(shù)據(jù)庫(kù)中的數(shù)據(jù)都將會(huì)統(tǒng)計(jì)入庫(kù)文檔集合中的相關(guān)參數(shù),比如文檔中的關(guān)鍵詞匯,文檔出自的地方,以及文本所包含的字?jǐn)?shù)等等相關(guān)參數(shù).之后對(duì)所有入庫(kù)的文檔進(jìn)行頁(yè)面分詞,通過頁(yè)面分詞將整個(gè)頁(yè)面中的各個(gè)詞匯提取出來,之后按照本文所設(shè)計(jì)的分詞權(quán)重計(jì)算算法,對(duì)每個(gè)頁(yè)面中的分詞計(jì)算其相應(yīng)的權(quán)重,最后再用該權(quán)重計(jì)算出整個(gè)頁(yè)面的主題權(quán)重.以此完成對(duì)整個(gè)頁(yè)面的權(quán)重計(jì)算,當(dāng)對(duì)整個(gè)數(shù)據(jù)庫(kù)中的頁(yè)面數(shù)據(jù)進(jìn)行依次掃描和計(jì)算之后,則可以完成對(duì)整個(gè)文庫(kù)中的統(tǒng)計(jì)權(quán)重的計(jì)算.最后根據(jù)預(yù)先設(shè)定的熱點(diǎn)事件評(píng)價(jià)閾值,對(duì)網(wǎng)絡(luò)中的熱點(diǎn)事件進(jìn)行分析和判斷,最后給出輿情監(jiān)測(cè)的結(jié)果.
圖2 基于相對(duì)權(quán)重的輿情監(jiān)測(cè)算法流程Fig.2Process of public opinion monitoring algorithm based on relative weight
選取典型輿情事件測(cè)試數(shù)據(jù)樣本庫(kù)對(duì)筆者設(shè)計(jì)的輿情監(jiān)測(cè)系統(tǒng)性能進(jìn)行測(cè)試,測(cè)試之前對(duì)主要的評(píng)價(jià)指標(biāo)進(jìn)行了分析,并選取恰當(dāng)?shù)脑u(píng)價(jià)指標(biāo)對(duì)輿情監(jiān)測(cè)系統(tǒng)進(jìn)行測(cè)試.
召回率也即查全率,是用于評(píng)價(jià)檢測(cè)系統(tǒng)所檢測(cè)到的結(jié)果在所有符合條件的事件比率,其計(jì)算公式如下所示:精度是衡量檢測(cè)系統(tǒng)所有預(yù)警事件的準(zhǔn)確性,其計(jì)算公式如下:
除此之外,還有漏報(bào)率和誤報(bào)率也可以衡量檢測(cè)系統(tǒng)的性能.漏報(bào)率是指系統(tǒng)對(duì)真實(shí)輿情事件的漏報(bào)比率,誤報(bào)率是指系統(tǒng)預(yù)警的輿情事件錯(cuò)誤概率,這兩個(gè)指標(biāo)的計(jì)算公式分別如下:
從計(jì)算公式可以看出,在實(shí)際的應(yīng)用過程,漏報(bào)率和誤報(bào)率都可以由召回率和精度兩個(gè)指標(biāo)計(jì)算得到,因此在實(shí)際測(cè)試評(píng)價(jià)檢測(cè)系統(tǒng)性能時(shí),一般只采用召回率和精度兩個(gè)指標(biāo).根據(jù)本文所選取的輿情監(jiān)測(cè)測(cè)試樣本數(shù)據(jù),測(cè)試結(jié)果如表1所示.
表1 輿情監(jiān)測(cè)系統(tǒng)測(cè)試結(jié)果Tab.1 Test results of the public opinion monitoring system
從測(cè)試結(jié)果可以看出,筆者所設(shè)計(jì)的輿情監(jiān)測(cè)系統(tǒng),在對(duì)給定的測(cè)試文檔中,能夠準(zhǔn)確地發(fā)現(xiàn)測(cè)試文檔中的熱點(diǎn)事件,其對(duì)事件的檢測(cè)精度大于92%.而在檢測(cè)過程中其召回率大于91%,這一測(cè)試結(jié)果表明,筆者所設(shè)計(jì)的輿情監(jiān)測(cè)算法,能夠有效地檢測(cè)和發(fā)現(xiàn)網(wǎng)絡(luò)中熱點(diǎn)事件.并且由于筆者所設(shè)計(jì)的輿情監(jiān)測(cè)算法計(jì)算速度快,因此能夠?qū)崿F(xiàn)對(duì)熱點(diǎn)事件的實(shí)時(shí)跟蹤的應(yīng)用.
網(wǎng)絡(luò)輿情監(jiān)測(cè)對(duì)維護(hù)網(wǎng)絡(luò)世界的和平,乃至整個(gè)現(xiàn)實(shí)世界的安定都有著重要的作用.雖然目前也有很多技術(shù)和方法用于網(wǎng)絡(luò)輿情監(jiān)測(cè),但是由于網(wǎng)絡(luò)的復(fù)雜性,導(dǎo)致目的網(wǎng)絡(luò)輿情技術(shù)往往具有一定的局限性[12-13].有的時(shí)候面對(duì)一些復(fù)雜網(wǎng)絡(luò),其得到的輿情監(jiān)測(cè)效果并不理想.筆者通過設(shè)計(jì)基于相對(duì)權(quán)重的網(wǎng)絡(luò)輿情監(jiān)測(cè)技,能夠動(dòng)態(tài)的去調(diào)整和適應(yīng)未知的網(wǎng)絡(luò)環(huán)境,以及網(wǎng)頁(yè)內(nèi)容的動(dòng)態(tài)變化,從而確保所設(shè)計(jì)的網(wǎng)絡(luò)輿情監(jiān)測(cè)系統(tǒng)能夠具有較高的輿情監(jiān)測(cè)精度.
[1]劉建軍,王威.試論大學(xué)生網(wǎng)絡(luò)輿情的預(yù)警機(jī)制[J].高校輔導(dǎo)員,2010(4):5-9.
[2]王曉蘭.2010年中國(guó)微博客研究綜述[J].國(guó)際新聞界,2011(1):24-26.
[3]謝海光,陳中潤(rùn).互聯(lián)網(wǎng)內(nèi)容及輿情深度分析模式[J].中國(guó)青年政治學(xué)院學(xué)報(bào),2006(3):95-100.
[4]董亞倩,鄧尚民.基于社會(huì)網(wǎng)絡(luò)分析的網(wǎng)絡(luò)輿情主體挖掘研究[J].情報(bào)資料工作,2011(6):45-49.
[5]董亞倩.高校網(wǎng)絡(luò)輿情演變規(guī)律及安全評(píng)估指標(biāo)體系構(gòu)建研究[D].淄博:山東理工大學(xué),2012.
[6]陳新杰,呼雨,蘭月新.網(wǎng)絡(luò)輿情監(jiān)測(cè)指標(biāo)體系構(gòu)建研究[J].現(xiàn)代情報(bào),2012,32(5):4-8.
[7]金兼斌.網(wǎng)絡(luò)輿論調(diào)查的方法和策略[J].河南社會(huì)科學(xué),2007(4):118-121.
[8]繆志波.淺析微博時(shí)代高校網(wǎng)絡(luò)輿情的監(jiān)測(cè)與引導(dǎo)[J].當(dāng)代教育論壇,2012(1):118-121.
[9]姜?jiǎng)俸?網(wǎng)絡(luò)輿情熱點(diǎn)的形成與發(fā)展、現(xiàn)狀及輿論引導(dǎo)[J].理論月刊,2008(4):34-36.
[10]劉繁榮,劉華寶.突發(fā)公共事件網(wǎng)絡(luò)輿情的政府應(yīng)對(duì)[J].中共南昌市委黨校學(xué)報(bào),2011,9(2):43-46.
[11]馬賓.高校校園網(wǎng)絡(luò)輿情及預(yù)警機(jī)制研究[J].科技視界,2012,1(3):91-93.
[12]劉巧英.信息生命周期管理隊(duì)圖書館信息服務(wù)的啟示[J].圖書館學(xué)研究,2006(8):57-59.
[13]劉志明,劉魯.微博網(wǎng)絡(luò)輿情中的意見領(lǐng)袖識(shí)別及分析[J].系統(tǒng)工程,2011(6):9-14.