李成
摘要:由于各種事件的刺激而產(chǎn)生,并且通過(guò)互聯(lián)網(wǎng)傳播的人們對(duì)于各種事件的所有認(rèn)知、態(tài)度、情感和行為傾向的合集,稱為網(wǎng)絡(luò)輿情。隨著信息和網(wǎng)絡(luò)技術(shù)的發(fā)展,人們可以自由地在網(wǎng)絡(luò)新媒體中發(fā)表關(guān)于社會(huì)中各種現(xiàn)象和問(wèn)題的態(tài)度與意見(jiàn)等,以論壇、微博、博客等為載體的網(wǎng)絡(luò)新媒體已日益成為輿論傳播和熱點(diǎn)聚集的重要源頭,輿論熱點(diǎn)的多發(fā)、突發(fā)、頻發(fā)也已成為常態(tài)。為了加強(qiáng)公共部門網(wǎng)絡(luò)的管理,開(kāi)展公共部門輿情信息的監(jiān)測(cè)與分析,已經(jīng)成為目前亟需解決的現(xiàn)實(shí)問(wèn)題。公共部門輿情監(jiān)測(cè)分析系統(tǒng)可以實(shí)現(xiàn)針對(duì)公共部門網(wǎng)絡(luò)海量輿情的實(shí)時(shí)監(jiān)測(cè)分析,有效地解決以傳統(tǒng)的人工方式進(jìn)行輿情監(jiān)測(cè)的很多難題。
關(guān)鍵詞:公共部門網(wǎng)絡(luò);輿情監(jiān)測(cè);分布式;網(wǎng)絡(luò)爬蟲(chóng)
1.引言
公共部門網(wǎng)絡(luò)上,網(wǎng)絡(luò)輿論主要是從新聞回帖、網(wǎng)絡(luò)論壇、博客、網(wǎng)民聊天室等反映來(lái)的。網(wǎng)絡(luò)論壇是這其中最主要的平臺(tái),公共部門網(wǎng)絡(luò)中也已經(jīng)形成了一批著名論壇。論壇議題涉及到政府建設(shè)建設(shè)的各個(gè)方面,其中既有一些合理化的積極建議,還有是對(duì)公共部門不正?,F(xiàn)象的披露,另有一小部分是發(fā)泄對(duì)現(xiàn)狀的不滿情緒。研發(fā)從海量公共部門網(wǎng)絡(luò)信息中及時(shí)準(zhǔn)確地發(fā)現(xiàn)和搜集到工作需要的輿情信息的監(jiān)測(cè)系統(tǒng),可為政府部門提供了解百姓訴求的便捷渠道,可有效化解公共部門“網(wǎng)絡(luò)暴力”,有利于社會(huì)穩(wěn)定。
2.網(wǎng)絡(luò)輿情采集技術(shù)研究與實(shí)現(xiàn)
利用搜索技術(shù)自動(dòng)地在網(wǎng)絡(luò)上采集信息,將節(jié)約大量的人力物力成文,大大提高輿情監(jiān)測(cè)的工作效率和時(shí)效。搜索引擎(search engine)是指根據(jù)一定策略、運(yùn)用特定計(jì)算機(jī)程序從互聯(lián)網(wǎng)搜集信息,在對(duì)信息組織、處理后,為用戶提供檢索服務(wù),將用戶檢索相關(guān)的信息展現(xiàn)給用戶的系統(tǒng)。
搜索引擎一般由索引器、檢索器、搜索器和用戶接口組成。搜索器的功能是在網(wǎng)絡(luò)中漫游,搜集和發(fā)現(xiàn)信息;檢索器的作用是根據(jù)用戶的查詢?cè)谒饕龓?kù)中快速檢索,對(duì)將要輸出的結(jié)果排序,進(jìn)行相關(guān)度評(píng)價(jià),并能按用戶的需求反饋合理信息;索引器的功能是根據(jù)搜索器搜到的信息結(jié)果,從中抽出索引項(xiàng),用于生成文檔庫(kù)的索引表以及表示文檔;用戶接口的功能是接納用戶查詢、提供所需要的查詢項(xiàng)、顯示查詢結(jié)果等。
搜索引擎工作流程可分為三部分:爬取網(wǎng)頁(yè)、處理爬取的網(wǎng)頁(yè)、提供檢索服務(wù)。
(1)爬取網(wǎng)頁(yè):每個(gè)獨(dú)立搜索引擎都有自己爬取網(wǎng)頁(yè)的程序(網(wǎng)絡(luò)爬蟲(chóng))。網(wǎng)絡(luò)爬蟲(chóng)根據(jù)網(wǎng)頁(yè)中的超鏈接地址,不斷地抓取網(wǎng)頁(yè)。被抓取的網(wǎng)頁(yè)被稱之為網(wǎng)頁(yè)快照。因?yàn)榛ヂ?lián)網(wǎng)中應(yīng)用超鏈接非常廣泛,理論上,給爬蟲(chóng)一定范圍網(wǎng)頁(yè),就能搜集到大部分的網(wǎng)頁(yè)。
(2)處理網(wǎng)頁(yè):搜索引擎抓取到網(wǎng)頁(yè)后,還要做大量預(yù)處理工作,才能去提供檢索服務(wù)。其中最重要的就是建立索引文件,提取關(guān)鍵詞。其他還包括去除重復(fù)網(wǎng)頁(yè)、判別網(wǎng)頁(yè)類型、中文分詞、計(jì)算網(wǎng)頁(yè)的重要度、分析超鏈接。
(3)提供檢索服務(wù):戶輸入關(guān)鍵字進(jìn)行檢索,搜索引擎從索引數(shù)據(jù)庫(kù)中找出匹配該關(guān)鍵字的網(wǎng)頁(yè);為了用戶便于判斷,除了網(wǎng)頁(yè)地址和網(wǎng)頁(yè)標(biāo)題外,還會(huì)提供一段來(lái)自網(wǎng)頁(yè)的摘要及其他信息。
通用搜索引擎采用的方式是語(yǔ)義上的搜索,是通過(guò)關(guān)鍵字的方式實(shí)現(xiàn)的,返回的結(jié)果傾向于知識(shí)成果,比如新聞,論文,文章等等。大家經(jīng)常使用的搜索引擎如:谷歌、百度、雅虎等都是通用搜索引擎如今的杰出代表,他們?yōu)榛ヂ?lián)網(wǎng)的發(fā)展做出了重大貢獻(xiàn)。搜索引擎所提供的網(wǎng)絡(luò)搜索服務(wù)目前是互聯(lián)網(wǎng)上最重要的網(wǎng)絡(luò)服務(wù)之一,搜索引擎也早已成為人們?cè)诰W(wǎng)絡(luò)中的“導(dǎo)游”[5]。
3.話題追蹤技術(shù)
話題追蹤的目的就是,事先給出一個(gè)或幾個(gè)關(guān)于某話題的新聞報(bào)道,找出關(guān)于該話題相關(guān)的后續(xù)報(bào)道。它是TDT(話題檢測(cè)與追蹤)技術(shù)的重要子任務(wù)。它能夠在眾多的信息資源中,幫助人們節(jié)約查閱和瀏覽新聞的時(shí)間,掌握一個(gè)話題的來(lái)龍去脈。話題追蹤的定義是:根據(jù)文本的內(nèi)容,在給定的追蹤體系下,自動(dòng)確定文本關(guān)聯(lián)的主題。用數(shù)學(xué)方法看,話題追蹤將未標(biāo)明主題的文本映射到已有主題中,是一個(gè)映射的過(guò)程,因?yàn)橐黄谋究梢酝鄠€(gè)主題相關(guān)聯(lián),該映射可以一一映射,亦可是一對(duì)多映射。
3.1 文本分類技術(shù)
話題追蹤的基本思想是,把人工給定的幾篇報(bào)道作為訓(xùn)練樣本,采用一定的追蹤公式對(duì)訓(xùn)練樣本進(jìn)行計(jì)算和學(xué)習(xí);當(dāng)有新報(bào)道時(shí),按公式計(jì)算報(bào)道的分?jǐn)?shù),根據(jù)指定的閾值,當(dāng)分?jǐn)?shù)大于閾值時(shí),判定新報(bào)道屬于主題,否則判定報(bào)道不屬于原主題。我們可以把話題追蹤技術(shù)看為,加上以下三個(gè)約束條件的文本分類技術(shù):
1、把事先給定的某一主題的相關(guān)報(bào)道當(dāng)作訓(xùn)練樣本。
2、當(dāng)有新的新聞文本產(chǎn)生,對(duì)于給定的主題,系統(tǒng)將立即給出一個(gè)值(是/否)追蹤判定。
3、在系統(tǒng)假設(shè)對(duì)其它事件主題不知道的前提下,對(duì)某個(gè)事件主題進(jìn)行訓(xùn)練學(xué)習(xí)。
文本分類包括了文本表達(dá)、選擇與訓(xùn)練分類器、分類結(jié)果的評(píng)價(jià)等過(guò)程,當(dāng)中的文本表達(dá)又可劃分為文本預(yù)處理、特征抽取、統(tǒng)計(jì)和索引等步驟。
3.2 常用文本分類算法簡(jiǎn)介
文本分類的算法多種多樣,下面我們簡(jiǎn)單介紹幾種常見(jiàn)算法:
Rocchio(中心向量)算法,是出現(xiàn)較早的一種基于統(tǒng)計(jì)的文本分類方法,是經(jīng)典的向量空間模型中反饋學(xué)習(xí)算法。中心向量算法,首先為每個(gè)類建立一個(gè)原型向量(類所有樣本的平均向量),然后通過(guò)計(jì)算每一個(gè)原型向量與待分類文本向量的距離進(jìn)行分類。距離可以通過(guò)余弦距離、歐氏距離或內(nèi)積來(lái)計(jì)算。Rocchio算法的突出優(yōu)點(diǎn)是學(xué)習(xí)速度快,計(jì)算簡(jiǎn)單,但效果比較差,因此分類系統(tǒng)采用這種算法較少,Rocchio算法更多的是作為衡量分類系統(tǒng)性能的基準(zhǔn)。
樸素貝葉斯(Naive Bayes)算法[19]是一種基于特征獨(dú)立性假設(shè)建立起來(lái)的,簡(jiǎn)單有效的分類方法;其實(shí)質(zhì)是首先利用貝葉斯條件概率公式,計(jì)算在已經(jīng)知道文本文檔特征向量的條件下,該文檔屬于不同文本類別的后驗(yàn)(條件)概率;最后,依據(jù)最大似然原理將該文檔歸結(jié)為具有最大條件概率的那一類;由于該算法假設(shè)構(gòu)成特征向量的各特征相互獨(dú)立,所以稱其為樸素的。
決策樹(shù)(DT)是一種數(shù)據(jù)分類技術(shù),它類似流程圖的樹(shù)結(jié)構(gòu)。決策樹(shù)每個(gè)內(nèi)部節(jié)點(diǎn)代表一個(gè)屬性測(cè)試,分枝代表一個(gè)測(cè)試輸出,每個(gè)樹(shù)葉存放一個(gè)類標(biāo),它的最頂層節(jié)點(diǎn)是根節(jié)點(diǎn)。在建立決策樹(shù)時(shí),選擇樣本劃分成不同的類的屬性采用屬性選擇度量方法,一些分枝還能反映訓(xùn)練數(shù)據(jù)中的離群點(diǎn)或噪聲。采用樹(shù)剪枝可剪去這類分枝,從而提高未知數(shù)據(jù)分類的準(zhǔn)確率。
4.公共部門網(wǎng)絡(luò)輿情監(jiān)測(cè)與信息處理平臺(tái)總體結(jié)構(gòu)
4.1 分布式結(jié)構(gòu)介紹
分布式技術(shù)是一種基于網(wǎng)絡(luò)的,與集中式相對(duì)應(yīng)的計(jì)算機(jī)處理技術(shù)[25]。分布式結(jié)構(gòu),就是將各種應(yīng)用部署在不同的平臺(tái)和機(jī)器上,這些機(jī)器和平臺(tái)共同工作,相互之間通過(guò)網(wǎng)絡(luò)連在一起,并運(yùn)行一系列相關(guān)功能的結(jié)構(gòu)[26]。采用分布式結(jié)構(gòu)的系統(tǒng),模糊了服務(wù)器和客戶端的概念,所有的應(yīng)用都被轉(zhuǎn)化成對(duì)象的概念,任一對(duì)象都可通過(guò)指定接口去調(diào)用其它對(duì)象所提供的服務(wù)[27];分布式結(jié)構(gòu)可以被看作是一種多層的C/S(客戶端/服務(wù)器)結(jié)構(gòu)。
在分布式系統(tǒng)中,對(duì)開(kāi)發(fā)和使用者來(lái)說(shuō),網(wǎng)絡(luò)和傳輸?shù)募?xì)節(jié)是透明的,網(wǎng)絡(luò)資源可以被看作是龐大、統(tǒng)一的平臺(tái);在這種環(huán)境下,對(duì)其它計(jì)算機(jī)資源的訪問(wèn)與訪問(wèn)本機(jī)上的資源沒(méi)有差別。由于分布式系統(tǒng)這種在位置、平臺(tái)和編程語(yǔ)言選擇等方面的獨(dú)立性,所以與集中式系統(tǒng)相比,它在可靠性、可擴(kuò)展性、經(jīng)濟(jì)型、速度等方面都有著顯著的優(yōu)點(diǎn)[28]。
4.2 分布式結(jié)構(gòu)層次劃分
分布式系統(tǒng)根據(jù)不同功能組件形成的層次,可劃分為三種模式:
C/S(客戶端/服務(wù)器)結(jié)構(gòu)。在這種模式下,客戶端是網(wǎng)絡(luò)的基礎(chǔ),服務(wù)器是網(wǎng)絡(luò)的核心。服務(wù)器為客戶機(jī)提供網(wǎng)絡(luò)必須的資源,而客戶機(jī)依靠服務(wù)器獲得所需要的網(wǎng)絡(luò)資源。隨著互聯(lián)網(wǎng)的飛速發(fā)展,C/S結(jié)構(gòu)也暴露出它的缺點(diǎn):可擴(kuò)展性差、對(duì)客戶端操作系統(tǒng)要求比較嚴(yán)格以及高昂的投資和維護(hù)成本。
2、三層結(jié)構(gòu)。這種結(jié)構(gòu)下,分布式系統(tǒng)被劃分成三個(gè)邏輯層次:用戶界面層、業(yè)務(wù)邏輯層和數(shù)據(jù)訪問(wèn)層[29]。
在這種三層結(jié)構(gòu)下:用戶界面層和業(yè)務(wù)邏輯層之間可以相互訪問(wèn),業(yè)務(wù)邏輯層和數(shù)據(jù)訪問(wèn)層也能相互訪問(wèn),但用戶界面層和數(shù)據(jù)訪問(wèn)層不能直接訪問(wèn);表明這種模式各個(gè)層次之間的隔離做得更出色。所以三層結(jié)構(gòu)模式在可擴(kuò)展性、靈活性、健壯性等方面都有很大的提高。
多層結(jié)構(gòu)分布式系統(tǒng)。就是在三層結(jié)構(gòu)基礎(chǔ)上,根據(jù)用戶需要,再設(shè)計(jì)出用于指定組件的層次。
4.3 常用分布式結(jié)構(gòu)
公共部門網(wǎng)絡(luò)輿情監(jiān)測(cè)與信息處理平臺(tái)結(jié)構(gòu)整體包括四個(gè)子系統(tǒng),即網(wǎng)絡(luò)爬蟲(chóng)子系統(tǒng)(綠色部分)、網(wǎng)頁(yè)檢索子系統(tǒng)(紅色部分)、信息處理子系統(tǒng)(藍(lán)色部分)和實(shí)時(shí)顯示子系統(tǒng)(灰色部分)。四個(gè)子系統(tǒng)相互關(guān)聯(lián),形成有機(jī)整體。
網(wǎng)絡(luò)爬蟲(chóng)根據(jù)配置信息捕獲指定網(wǎng)站網(wǎng)頁(yè)信息,將數(shù)據(jù)存儲(chǔ)于數(shù)據(jù)服務(wù)器。數(shù)據(jù)檢索程序?qū)?shù)據(jù)服務(wù)器信息進(jìn)行實(shí)時(shí)檢索,獲取當(dāng)前最新捕獲網(wǎng)頁(yè),將網(wǎng)頁(yè)URL、本地存儲(chǔ)路徑、更新時(shí)間等信息發(fā)送到數(shù)據(jù)檢索程序服務(wù)端。服務(wù)端接收數(shù)據(jù)檢索信息,對(duì)其URL等進(jìn)行判斷,如果為用戶所需網(wǎng)頁(yè),則將數(shù)據(jù)檢索信息存儲(chǔ)于指定文件。信息處理子系統(tǒng)對(duì)數(shù)據(jù)檢索信息進(jìn)行實(shí)時(shí)掃描,提取網(wǎng)頁(yè)標(biāo)題正文,進(jìn)行編碼轉(zhuǎn)換,并進(jìn)行標(biāo)題和正文進(jìn)行分詞,將處理結(jié)果寫入到數(shù)據(jù)庫(kù)。實(shí)時(shí)顯示子系統(tǒng)對(duì)數(shù)據(jù)庫(kù)信息進(jìn)行統(tǒng)計(jì),并實(shí)時(shí)顯示。
參考文獻(xiàn)
[1]殷風(fēng)景.面向網(wǎng)絡(luò)輿情監(jiān)控的熱點(diǎn)話題發(fā)現(xiàn)技術(shù)研究[D].長(zhǎng)沙:國(guó)防科學(xué)技術(shù)大學(xué).2010
[2]齊海鳳.輿情熱點(diǎn)發(fā)現(xiàn)與事件跟蹤技術(shù)研究.哈爾濱[D]:哈爾濱工程大學(xué).2008
[3]李恒訓(xùn),張華平.基于主題詞的網(wǎng)絡(luò)熱點(diǎn)話題發(fā)現(xiàn)[J].第五屆全國(guó)信息檢索學(xué)術(shù)會(huì)議(CCIR2009).上海.2009-11
(作者單位:鄭州市公安局公共信息網(wǎng)絡(luò)安全監(jiān)察支隊(duì))