曾小燕,周統(tǒng)鋼
(廣東藥學(xué)院,廣州 510006)
輿情監(jiān)控主要是監(jiān)測互聯(lián)網(wǎng)上的國內(nèi)、國際重大事件,網(wǎng)友通過BBS論壇、博客、新聞跟帖、微博等網(wǎng)絡(luò)媒體發(fā)表的網(wǎng)絡(luò)輿情言論,通過分析信息特征和發(fā)展趨勢,形成可供決策使用的數(shù)據(jù)結(jié)果的過程.輿情監(jiān)控的主要對象是互聯(lián)網(wǎng)web信息.監(jiān)控對象具有數(shù)據(jù)龐大,類別繁多,而且具有非結(jié)構(gòu)化等的自然語言特征.在數(shù)據(jù)量龐大的情況下,依靠人工對輿情信息進行分析、分類是不可能的,只能通過計算機處理.但由于自然語言的豐富性,包括多層次的歧義(詞匯、句法、詞義、語用等)[1],目前計算機也很難完美解決問題,這給輿情監(jiān)控帶來困難.輿情分析系統(tǒng)設(shè)計難點是如何正確而全面的獲取互聯(lián)網(wǎng)上相關(guān)的輿情信息報道.為確保信息的查準(zhǔn)率和查全率,對輿情信息挖掘涉及到語義搜索技術(shù)、文本挖掘技術(shù)、計算機語言學(xué)、信息學(xué)、心理學(xué)、新聞學(xué)等相關(guān)領(lǐng)域知識.
本文主要探究輿情信息挖掘的技術(shù).從內(nèi)容上看,可以把網(wǎng)絡(luò)輿情信息看成一個二值分類問題:有用信息還是無用信息;有用信息分為:正面信息還是負(fù)面信息,因此,對輿情信息的挖掘最終回歸到對信息的分類問題上.所以,各種文本分類方法都可以用于輿情信息分類.如貝葉斯[2]、決策樹[3]、K 鄰近(KNN)、神經(jīng)網(wǎng)絡(luò)法、本體分類[4]、基于規(guī)則的Ripper算法[5],基于統(tǒng)計的支持向量機(SVM)分類方法、Boosting[6]方法、Rough Set[7]方法等.其中,由于貝葉斯方法在分類問題上表現(xiàn)出了很好的性能[8],為此,本文嘗試對輿情監(jiān)控分析也類似采用貝葉斯分類方法.
由于信息量的爆炸式增長,為保持對信息的挖掘分類效果,縱觀國內(nèi)學(xué)者有對垃圾郵件分類的研究成果,曾采用了累積反饋學(xué)習(xí)的簡單貝葉斯方法進行垃圾郵件過濾[9],基于輿情分析系統(tǒng)的點,我們考慮采用二次累積反饋學(xué)習(xí)的簡單貝葉斯方法,通過不斷累積新的領(lǐng)域規(guī)則知識,強化機器對信息的自我學(xué)習(xí)能力.
我們在對輿情分析系統(tǒng)研究的過程出現(xiàn)過這種典型的案例:系統(tǒng)經(jīng)過智能查找分析后抓取的信息,居然是虛構(gòu)的網(wǎng)絡(luò)小說.其描述的場景和用詞等與新聞幾近無異,人一眼就能辨認(rèn)出這是虛構(gòu)的文學(xué),機器卻不能正確識別.因此需要加強機器對基于內(nèi)容的輿情信息分類.
輿情分析系統(tǒng)的基本工作方式是先從海量信息中獲取本領(lǐng)域需要的輿情信息,再從獲取的輿情信息中區(qū)分出是負(fù)面信息還是普通信息.我們需要的就是最終的負(fù)面信息和普通信息及數(shù)據(jù)統(tǒng)計分析結(jié)果.這里經(jīng)過了兩次分類過程.第一次分類是將海量信息分為有用信息和無用信息;第二次分類是將有用信息分為負(fù)面信息和普通信息.輿情系統(tǒng)分析處理必須經(jīng)過這兩個步驟:
第一步:通過分類函數(shù)f1進行第一步判定,判定該項信息是否為本領(lǐng)域需要的輿情信息f1:M→{V,I},其中M為網(wǎng)絡(luò)信息,V表示有用信息(Valuable),I表示無用信息(Invaluable).
判定方法:將需要處理的文檔采用向量空間模型(Vector Space Model,VSM)[10]實現(xiàn)信息向量化,獲取文檔的詞頻信息表T(Table).根據(jù)詞頻信息表T對比分類過濾器f1,判定該項信息是否為有用的輿情信息.
第二步:通過分類函數(shù)f2進行第二步判定,負(fù)面信息還是一般信息:f2:V→{N,G},N表示負(fù)面信息(Negative Information),G表示一般信息(General Information).
判定方法:在第一步中已將該文檔實現(xiàn)信息向量化,定義文檔為 n 維向量{w1,w2,…,wn}信息,其中wi(i=1,2,…,n)表示第i個特征項的權(quán)重,特征項為預(yù)定的領(lǐng)域正、負(fù)面標(biāo)志特征,通過特征項權(quán)重標(biāo)注網(wǎng)頁的“感情色彩”特征信息.
輿情分析系統(tǒng)設(shè)計的難點就在于分類函數(shù)f的獲取.
貝葉斯分類器的分類原理是通過某對象的先驗概率,利用貝葉斯公式計算出其后驗概率,即該對象屬于某一類的概率,選擇具有最大后驗概率的類作為該對象所屬的類[11].我們的目標(biāo)就是獲取分類函數(shù)f,即貝葉斯分類器.
根據(jù)貝葉斯分類器的分類原理,結(jié)合國內(nèi)學(xué)者的研究[9]和輿情分析系統(tǒng)的實際情況,設(shè)計如下模型獲取分類函數(shù)f:
信息樣本直接從大型門戶網(wǎng)站的歷年新聞報道中選?。?2],對樣本進行訓(xùn)練學(xué)習(xí),獲取樣本的詞頻信息表和特征權(quán)重信息,生成分類器f1,即具有類似詞頻信息表的文檔即可判定為有用信息V.對樣本信息進行正負(fù)面判定,此處的正面信息即非負(fù)面信息,意即普通信息.分別抽取正、負(fù)面的信息樣本的詞頻信息表和特征權(quán)重信息,生成正、負(fù)信息分類器f2.正、負(fù)信息判定即通過該分類器f2判定.圖1為分類函數(shù)f的獲取模型.
圖1 分類函數(shù)f的獲取模型
從大型門戶網(wǎng)站的歷年新聞報道中選取某一領(lǐng)域內(nèi)容的學(xué)習(xí)樣本集設(shè)為M,對M進行信息向量化處理,生成詞頻表W,具體信息包括網(wǎng)頁樣本文件總字?jǐn)?shù)total、特征詞語wi出現(xiàn)頻率數(shù);通過對mi進行遞歸統(tǒng)計,生成樣本的候選特征詞表F,包括P(S)、詞語wi的信息增益值,和wi的條件概率P(xi|S),按照頻率和增益值從大到小排列.
1)選取一定量的某一領(lǐng)域內(nèi)容的用于訓(xùn)練學(xué)習(xí)的信息樣本M;
2)通過對文本進行信息向量化,建立文本的詞頻關(guān)系表,引入領(lǐng)域?qū)<医?jīng)驗,對詞頻關(guān)系表進行一定的加權(quán)修改;
3)運用簡單貝葉斯方法分析學(xué)習(xí)樣本M的詞頻關(guān)系表;
4)生成詞頻表W,按照詞頻從大到小排列;
5)生成候選特征詞表 F,使用{f1,f2,…,fn}表示特征詞表,使用{m1,m2,…,mn}表示特征此表對應(yīng)的詞語wi的信息增益值,按照信息增益值從大到小排列;
6)將詞頻表W,候選特征詞表F,更新保存進分類器f1;
7)獲取已標(biāo)志為“負(fù)面”、“正面“的信息的詞頻表及其信息增益值wi,建立信息的“感情色彩”特征庫,生成分類器f2;
8)直接從網(wǎng)上隨機抓扒一定量網(wǎng)頁信息作為新的訓(xùn)練學(xué)習(xí)樣本Mk,用分類器f1對新的學(xué)習(xí)樣本Mi進行貝葉斯分類,分類為Vk,Ik;
9)用分類器f2對Vk進行貝葉斯分類,將Vk分為 Nk,Gk;
10)經(jīng)過以上步驟處理,最終將顯示“負(fù)面”、“正面”、“普通”這三類分類結(jié)果.查看分類結(jié)果,并提供反饋信息,可及時糾正機器學(xué)習(xí)效果;
11)反饋信息為出現(xiàn)錯誤時,判斷錯誤情況,如為無用信息,重復(fù)步驟3~10,如為“感情色彩”誤判信息,重復(fù)步驟7~10,機器對訓(xùn)練學(xué)習(xí)樣本Mk進行二次分析,重點學(xué)習(xí)分類錯誤的信息,調(diào)整更新詞頻表Wk和候選特征詞表Fk,進一步完善和更新分類器.
用分類器f1對信息進行判斷時,系統(tǒng)對信息加入一些特殊屬性,如:信息長度,信息來源網(wǎng)站,來源欄目,來源時間等進行加權(quán)判斷.
1)信息的文本長度大于2000個字符,匹配率降低,文本長度大于4000個字符,直接取消監(jiān)控.
2)大型門戶網(wǎng)站信息的受關(guān)注度和信息傳播速度遠(yuǎn)大于其他網(wǎng)站,因此增加來源為大型門戶網(wǎng)站信息的權(quán)值.
3)現(xiàn)在是web2.0社會,用戶直接在網(wǎng)上發(fā)表評論的頻率越來越高,因此需要增加對博客,論壇,微博,微信等方式發(fā)表的信息的權(quán)值,通過對諸如轉(zhuǎn)發(fā)量,瀏覽數(shù),點贊量,評論數(shù),置頂?shù)葞讉€指標(biāo)數(shù)的考量確定是否增加相應(yīng)權(quán)值.
4)來源時間越早,信息的權(quán)值越低,匹配率越低.信息經(jīng)過分類器f1判定后,還需要對V信息進行正、負(fù)面信息的預(yù)判.通過分類器f2分析V為普通信息的概率,需要設(shè)置一個臨界值判斷是否為普通信息還是負(fù)面信息.假如信息V是普通信息的概率為Pg,是負(fù)面信息的概率為Pn=1-Pg.臨界值具有兩種形式:
(1)設(shè)置臨界概率 t,若 Pg>t,則認(rèn)為是普通信息;(2)設(shè)置臨界值λ,若,則認(rèn)為是普通信息;取臨界值 λ =1,設(shè) t為 0.5,若 Pg>0.5,則認(rèn)為是普通信息.
在輿情信息監(jiān)控系統(tǒng)中,用戶需要重點監(jiān)測負(fù)面信息,及時做出正確的應(yīng)急響應(yīng).如果把負(fù)面信息誤判為正面信息或無用信息,就失去了輿情監(jiān)控的初衷,比將正面信息或無用信息錯判為負(fù)面信息更不能被用戶接受.根據(jù)實際應(yīng)用情況,需要將λ設(shè)為大于1的數(shù)值.由于用戶對負(fù)面信息的關(guān)注度較高,如果正面信息和無用信息錯判為負(fù)面信息,用戶可以通過系統(tǒng)的反饋修訂機制,手動修正分類器錯誤,增加輿情監(jiān)控的準(zhǔn)確度.
用于建立學(xué)習(xí)樣本,直接從新浪、騰訊、人民網(wǎng)等大型門戶網(wǎng)站抓扒某一領(lǐng)域(本樣本選用水利相關(guān))的2010年以前的稿件信息作為學(xué)習(xí)樣本.通過分析樣本信息的詞頻,文檔頻率等建立初始的該領(lǐng)域知識的分類器信息,根據(jù)專家經(jīng)驗對分類器結(jié)果的數(shù)據(jù)進行了加權(quán)調(diào)整,備份第一次的學(xué)習(xí)結(jié)果.之后再抓扒相同門戶網(wǎng)站的2010年到2011年的該領(lǐng)域的信息供機器進行第二次分類學(xué)習(xí),備份第二次的學(xué)習(xí)結(jié)果,同時更新第一次的學(xué)習(xí)結(jié)果.再抓扒相同門戶網(wǎng)站的2011年到2012年的該領(lǐng)域的信息供機器進行第三次分類學(xué)習(xí),備份第三次的學(xué)習(xí)結(jié)果,同時更新第二次的學(xué)習(xí)結(jié)果.經(jīng)過三次機器學(xué)習(xí)之后,再抓扒相同門戶網(wǎng)站的2012年以后的信息作為實驗的檢驗樣本.機器學(xué)習(xí)的三次樣本來源均為相同門戶網(wǎng)站的稿件,目的是強化分類器對正確信息特征的學(xué)習(xí)和掌握.通過對樣本的簡單貝葉斯累積反饋學(xué)習(xí)實驗,可直接將分類器用于網(wǎng)絡(luò)信息的分類處理.我們將機器學(xué)習(xí)產(chǎn)生的分類器直接用于分析中搜獲取的搜索信息,查看機器每次訓(xùn)練學(xué)習(xí)的效果.通過選擇不同的時間段進行對比.由于輿情監(jiān)控的主要目的是監(jiān)控負(fù)面輿情信息,因此對于監(jiān)控的信息結(jié)果預(yù)判基本采用“負(fù)面信息”,“未知正負(fù)”表示.系統(tǒng)運行的結(jié)果列表數(shù)據(jù)如圖2所示:
廣東省水利領(lǐng)域的相關(guān)數(shù)據(jù)分析結(jié)果的每日統(tǒng)計結(jié)果數(shù)據(jù)表如圖3所示:
圖2 機器分類器對實際信息的分析處理結(jié)果示例
圖3 廣東省水利領(lǐng)域的相關(guān)數(shù)據(jù)分析結(jié)果的每日統(tǒng)計結(jié)果數(shù)據(jù)表
本文提出了對輿情信息分類處理使用簡單貝葉斯進行累積反饋學(xué)習(xí)的方法和模型.分析具體的輿情實驗結(jié)果數(shù)據(jù),發(fā)現(xiàn)存在錯誤問題的信息主要集中在論壇和微博這類由普通用戶發(fā)布的信息上.后期對分類器進行調(diào)整的關(guān)鍵是選取合適的權(quán)值,在降低論壇和微博的噪音信息的同時還要能保證信息的抓取正確性和完整性.實驗結(jié)果表明,在簡單貝葉斯方法上引入領(lǐng)域?qū)<医?jīng)驗規(guī)則進行累積反饋學(xué)習(xí),對不斷保持和提高分類器的分類效果是必要的.
[1]賈焰,王永恒,楊樹強.基于本體論的文本挖掘技術(shù)綜述[J].計算機應(yīng)用,2006,26(9):2013 -2015.
[2]張銘鋒,李云春.垃圾郵件過濾的貝葉斯方法綜述[J].計算機應(yīng)用研究,2005(8):14-19.
[3]CARRERAS X,MARQUEZ L.Boosting Trees for Anti-Spam E -mail Filtering[C].Proceedings of Euro Conference Recent Advances in NLP(RANLP-2001),2001:58- 64.
[4]DRUCKER H,WU,D V N VAPNIK.Support Vector Machines for Spam Categorization[J].IEEE Transact ions on Neural Networks,1999,20(5):1048 -1054.
[5]COHEN W .Fast Effective Rule Induct ion,in Machine Learning[C].Proceedings of the 12th International Conference, LakeTaho, California, Mongan Kanfmann,1995:115- 123.
[6]ANDROUTSOPOULOS I,PALIOURAS G,MICELAKIS E.Learning to Filter Unsolicited Commercial E-mail[EB/OL].Technical Report 2004 2,NCSR Demokritos,2004,1.
[7]劉洋、杜孝平.垃圾郵件的智能分析、過濾及Rough集討論[C].武漢:第十二屆中國計算機學(xué)會網(wǎng)絡(luò)與數(shù)據(jù)通信學(xué)術(shù)會議,2002.
[8]張一文,齊佳音,方濱興,等.基于貝葉斯網(wǎng)絡(luò)建模的非常規(guī)危機事件網(wǎng)絡(luò)輿情預(yù)警研究[J].競爭情報,2012,56(2):76-81.
[9]張學(xué)農(nóng),張立成.累積反饋學(xué)習(xí)的簡單貝葉斯垃圾郵件過濾[J].計算機應(yīng)用與軟件,2008,25(10):209 -211.
[10]朱克斌,唐菁,楊炳儒.Web文本挖掘系統(tǒng)及聚類分析算法[J].計算機工程,2004,30(13):138 -139.
[11]百度百科.貝葉斯分類器[EB/OL].http://baike.baidu.com/view/1531860.htm.
[12]萬常選,鄧松,劉喜平,等.Web數(shù)據(jù)源選擇技術(shù)[J].軟件學(xué)報,2013,24(4):781 -797.