摘要:隨著互聯(lián)網(wǎng)的飛速發(fā)展,網(wǎng)絡(luò)輿情的重要性毋庸置疑,目前解決網(wǎng)絡(luò)輿情的算法有很多。本文對一些業(yè)界公認(rèn)的實(shí)用算法進(jìn)行了研究,并將這些算法應(yīng)用到基于“云”平臺,采用垂直搜索引擎進(jìn)行網(wǎng)絡(luò)輿情的抓取、分析,智能聚合系統(tǒng)對抓取來的輿情進(jìn)行內(nèi)容分析,歸類的全面、高效的網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)中。
關(guān)鍵詞:正向最大匹配算法;逆向最大匹配算法;k-means聚類算法;樸素貝葉斯算法
中圖分類號:TP311 文獻(xiàn)標(biāo)識碼:A 文章編號:1007-9599 (2012) 22-0000-02
隨著互聯(lián)網(wǎng)在全球范圍內(nèi)的飛速發(fā)展以及我國信息技術(shù)和信息基礎(chǔ)設(shè)施建設(shè)的不斷完善,接觸和使用互聯(lián)網(wǎng)的公眾數(shù)目和比例也在不斷上升。不論是國內(nèi)還是國際重大事件,網(wǎng)友通過 BBS論壇、博客、新聞跟貼、轉(zhuǎn)貼等網(wǎng)絡(luò)媒體發(fā)表言論,形成網(wǎng)絡(luò)輿情。網(wǎng)絡(luò)輿情以“輿論多元”為最大特點(diǎn),信息的數(shù)據(jù)極為龐大,且類別繁多,在這種情況下,依靠人工對輿情進(jìn)行分析分類是不可能的,再加上網(wǎng)絡(luò)輿情的重要性毋庸諱言,所以任何部門、機(jī)構(gòu)都會關(guān)注相關(guān)的網(wǎng)絡(luò)輿情,建立網(wǎng)絡(luò)輿情系統(tǒng),作為今后改進(jìn)、發(fā)展的依據(jù)。本文對網(wǎng)絡(luò)輿情的算法進(jìn)行了研究,并將算法應(yīng)用到基于“云”平臺,采用垂直搜索引擎進(jìn)行網(wǎng)絡(luò)輿情的抓取、分析,智能聚合系統(tǒng)對抓取來的輿情進(jìn)行內(nèi)容分析,歸類的全面、高效的網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)中。
1 基于Hadoop的云計(jì)算平臺
云計(jì)算是有Google于2006年提出的,它是并行計(jì)算、分布式計(jì)算、網(wǎng)絡(luò)計(jì)算的綜合發(fā)展。它的基本原理是將計(jì)算、存儲及軟硬件等服務(wù)分布在非本地的大量計(jì)算機(jī)構(gòu)成的資源池上,用戶通過網(wǎng)絡(luò)獲得相應(yīng)的服務(wù),從而有效的提高資源利用率,實(shí)現(xiàn)了真正的按需獲取。Hadoop是一個在集群上運(yùn)行大型數(shù)據(jù)庫處理應(yīng)用程序的開源的云計(jì)算模型,它最常見用法之一是Web搜索,作為一個并行數(shù)據(jù)處理引擎,它的表現(xiàn)非常突出。Hadoop最有趣的方面之一是Map and Reduce流程,它將Web爬行器檢索到的文本W(wǎng)eb頁面作為輸入,并將這些頁面上的單詞的頻率報告作為結(jié)果,然后可以在整個Web搜索過程中使用這個結(jié)果從已定義的搜索參數(shù)中識別內(nèi)容。
2 垂直搜索引擎
垂直搜索引擎不同于通用搜索引擎,通用搜索引擎是大量的信息整合導(dǎo)航,極快的查詢,將所有網(wǎng)站上的信息整理在一個平臺上供網(wǎng)民使用,它的資源包羅萬象, 用戶可以通過在檢索欄中輸入詞來檢索幾乎任何類型、任何主題的資源。但是由于它收錄的資源范圍廣,導(dǎo)致死鏈接較多、相關(guān)度較低等缺點(diǎn)。如:google,百度,必應(yīng)等。搜索引擎結(jié)構(gòu)圖如圖1所示。
2.1 垂直搜索引擎的特點(diǎn)
垂直搜索引擎是針對某一特定領(lǐng)域、某一特定人群或某一特定需求提供的有一定價值的信息和相關(guān)服務(wù)。具體來說,可根據(jù)客戶需求對所抓取的內(nèi)容進(jìn)行進(jìn)一步歸類,分析,整合,按照一定格式返回給客戶。其特點(diǎn)就是“專、精、深”,且具有行業(yè)色彩。相比較通用搜索引擎的海量信息無序化,垂直搜索引擎則顯得更加專注、具體和深入。垂直搜索引擎為用戶提供的并不是上百甚至上千萬相關(guān)網(wǎng)頁,而是范圍極為縮小、極具針對性的具體信息。因此,特定行業(yè)的用戶更加青睞垂直搜索引擎,是垂直搜索引擎的長期、穩(wěn)定的群體。
2.2 垂直搜索引擎抓取流程
垂直搜索引擎抓取流程:
1)根據(jù)特定需求預(yù)先錄入特定網(wǎng)站URL。2)采用分布式爬蟲系統(tǒng),主控制器讀取URL并分發(fā)到不同爬蟲機(jī)器上。3)爬蟲從JOB隊(duì)列取出URL并抓取網(wǎng)頁,對網(wǎng)頁分析,去噪處理,提取網(wǎng)頁中URL,通過廣度遍歷或深度遍歷算法進(jìn)行進(jìn)一步抓取。(對于實(shí)時性能高的需求,級數(shù)建議可配置)。4)索引進(jìn)程通過預(yù)先設(shè)定關(guān)鍵詞,利用分詞處理技術(shù)進(jìn)行內(nèi)容分析并建立索引。(索引通常采用開源程序Lucene)
3 智能聚合系統(tǒng)
對抓取到的輿情信息進(jìn)行深度分析,通過重點(diǎn)目標(biāo)監(jiān)測和元搜索引擎輔助監(jiān)測,實(shí)現(xiàn)全網(wǎng)信息匹配,將全網(wǎng)各種輿情信息副本、衍生版本聚合在一個操作界面下,覆蓋微博、SNS社區(qū)或其他私秘網(wǎng)站,幫助輿情監(jiān)控工作者宏觀把握輿情走勢。
其分析過程主要為:根據(jù)中文分詞算法對內(nèi)容進(jìn)行解析,分類,通過聚類算法對不同網(wǎng)頁進(jìn)行歸類,通過發(fā)布時間對文章的首發(fā)和轉(zhuǎn)發(fā)進(jìn)行歸類處理,可判斷出一篇文章的轉(zhuǎn)發(fā)數(shù)量。進(jìn)一步通過分類算法對文章傾向性有初步判斷(這個步驟未實(shí)踐過,只做過簡單的匹配算法的語意識別,業(yè)界好像沒有太好的算法,都處于研究階段,效果基于詞庫量的大小,似乎都基于最基本的貪婪算法,局部擇優(yōu)。)
3.1 中文分詞算法:
中文分詞算法有基于詞典的分詞方法、基于統(tǒng)計(jì)的分詞方法、基于規(guī)則的分詞方法、基于理解的分詞方法和基于語義的分詞方法。在網(wǎng)絡(luò)輿情實(shí)際操作中主要采用基于詞典分詞方法中的正向最大匹配算法、逆向最大匹配算法。
3.1.1 正向最大匹配算法MM
基本思想為:
1)假設(shè)字典中最長的詞語字?jǐn)?shù)為m,先根據(jù)漢語標(biāo)點(diǎn)符號及特征詞把漢語句子切分為短語,2)從左到右取短語的前m個字字符進(jìn)行匹配,在字庫里面查找是否存在這個詞語,如果存在,短語就去掉這個詞;如果不存在就去掉這m個字的最后一個字,檢查是否是單字,若是輸出此字并將短語減去此字,若不是則繼續(xù)判斷看字庫是否存在這個詞,如此反復(fù)循環(huán),直到輸出一個詞。3)此后繼續(xù)取短語的前m個字反復(fù)循環(huán)。這樣就可以將一個短語分成詞語的組合了。
3.2.2 逆向最大匹配算法RMM
基本思想為:
該算法是正向最大匹配的逆向思維,從句子(或文章)末尾開始處理,每次匹配不成功,將匹配字段的最前一個字去掉,實(shí)驗(yàn)表明,逆向最大匹配算法要優(yōu)于正向最大匹配算法。
以“他是一個好人” 為例
正向算法
他是一
他是
他 ===> 得到一個詞
是一個
是一
是 ===>得到一個詞
一個好
一個===> 得到一個詞
好人===>得到一個詞
結(jié)果 他、是、一個、好人
反向算法
個好人
好人==> 好人
是一個
一個==> 一個
他是
是==> 是
他==> 他
結(jié)果 他、是、一個、好人
正向最大匹配算法復(fù)雜度比較小,技術(shù)實(shí)現(xiàn)比較容易,僅需要建立詞表即可。但是他對歧義識別比較差,分詞的準(zhǔn)確性不高。在實(shí)際中我們不僅僅簡單的使用正向最大匹配算法,還需要和逆向匹配算法一起使用,這樣可以提高歧義的識別,使他的準(zhǔn)確度更高。
3.2 聚類算法:
聚類就是按照“物以類聚”的原理,將本身沒有類別的樣本聚集成不同的組,這樣的一組數(shù)據(jù)對象叫做簇,并且對每一個這樣的簇進(jìn)行描述的過程,其劃分的原則是在同一個簇中的對象之間有高度的相似度,而不同簇中的對象差別較大。目前聚類的方法很多,根據(jù)基本思想的不同,大致可以將聚類算法劃分為:劃分方法、層次方法、基于密度的方法、基于網(wǎng)格的方法以及基于模型的方法。在網(wǎng)絡(luò)輿情聚合中主要采用劃分方法中的K-MEANS聚類算法,因?yàn)樵撍惴ǖ男矢?,?shí)現(xiàn)起來較為簡單,而且適合于大規(guī)模數(shù)據(jù)集。
k-means聚類算法
k-means算法以k為參數(shù),把n個對象分成k個簇,使簇內(nèi)具有較高的相似度,而簇間的相似度較低。
3.3 分類算法
分類的目的是根據(jù)數(shù)據(jù)集的特點(diǎn)構(gòu)造一個分類函數(shù)或分類模型(也常常稱作分類器),該模型能把未知類別的樣本映射到給定類別中的某一個。單一的分類方法主要包括:決策樹、貝葉斯、人工神經(jīng)網(wǎng)絡(luò)、K-近鄰、支持向量機(jī)和基于關(guān)聯(lián)規(guī)則的分類等;另外還有用于組合單一分類方法的集成學(xué)習(xí)算法,如Bagging和Boosting等。
貝葉斯分類是一類利用概率統(tǒng)計(jì)知識進(jìn)行分類算法,它基于一個假設(shè):屬性之間是相互獨(dú)立的,即一個屬性值對給定類的影響?yīng)毩⒂谄渌鼘傩缘闹?。但是在?shí)際中,這種假設(shè)不總是成立,甚至很難成立,這嚴(yán)重影響了分類的準(zhǔn)確率,研究者們?yōu)榇搜芯苛撕芏嘟档酮?dú)立性假設(shè)的貝葉斯分類算法,如TAN(tree augmented Bayes network)算法、SBC(selective Bayes classifiers)算法、決策樹算法、NBTree算法等。但是很多學(xué)者的研究以及實(shí)現(xiàn)表明:即使算法假定的前提不能滿足,原始的貝葉斯算法,即樸素貝葉斯算法在許多領(lǐng)域的分類性能仍然可與決策樹、K-鄰近等公認(rèn)的經(jīng)典算法相媲美。且方法簡單、分類準(zhǔn)確率高、速度快。
4 網(wǎng)絡(luò)輿情算法應(yīng)用實(shí)例
本實(shí)例針對各大汽車品牌為了掌握其投放的廣告效應(yīng),及其消費(fèi)者選擇其品牌關(guān)注何種內(nèi)容的廣告,以及在何處值得更多的投入而建立的網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng),此系統(tǒng)基于Hadoop對大量數(shù)據(jù)進(jìn)行分布式處理,采用垂直搜索引擎進(jìn)行抓取,將同一汽車品牌同一主題但來自不同信源的熱點(diǎn)信息結(jié)合在一起,通過分析、歸類等操作,找出各條廣告的效應(yīng)以及其效應(yīng)主要分布在那個網(wǎng)頁,從而做出相應(yīng)的計(jì)劃與安排。圖3為實(shí)例截圖。
5 結(jié)束語
現(xiàn)在解決網(wǎng)絡(luò)輿情的算法有很多,但在實(shí)際中很多算法并不實(shí)用,本文只對網(wǎng)絡(luò)輿情的一些實(shí)用算法進(jìn)行了研究與應(yīng)用,但隨著網(wǎng)絡(luò)輿情傳播方式以及傳播內(nèi)容的多樣化、復(fù)雜化,全面抓取網(wǎng)絡(luò)信息并有效收集到同一主題變得不太容易,具體算法的實(shí)施還需要進(jìn)一步的分析與研究。
參考文獻(xiàn):
[1]張丹.中文分詞算法綜述[J].黑龍江科技信息,2012(08).
[2]黃韜,劉勝輝,譚艷娜.基于k-means聚類算法的研究[J].計(jì)算機(jī)技術(shù)與發(fā)展,2011(07).
[3]陳媛媛,彭新光.分類算法的分析與比較[J].電子產(chǎn)品可靠性與環(huán)境試驗(yàn),2004(06).
[4]王來華.輿情研究概論[M].天津:天津社會科學(xué)院出版社,2003.
[作者簡介]
米曉萍(1976-),女,山西平遙人,講師,主要研究方向:數(shù)據(jù)庫與數(shù)據(jù)挖掘,人工智能。