高學(xué)偉 鄭世玨 高 麗 李松麗
(華中師范大學(xué)計(jì)算機(jī)學(xué)院 武漢 430079)
?
基于SVM主動(dòng)學(xué)習(xí)的微信監(jiān)測(cè)研究*
高學(xué)偉鄭世玨高麗李松麗
(華中師范大學(xué)計(jì)算機(jī)學(xué)院武漢430079)
摘要論文通過支持向量機(jī)(SVM)主動(dòng)學(xué)習(xí)算法對(duì)微信文章進(jìn)行包含四種警度級(jí)別(紅、橙、黃、綠)的分類,利用微信信息的警度評(píng)估分析技術(shù),構(gòu)建微信信息預(yù)警系統(tǒng),預(yù)測(cè)可能影響社會(huì)安全態(tài)勢(shì)的事件和現(xiàn)象。為了評(píng)估分類器的性能,我們對(duì)隨機(jī)抓取的3036個(gè)不同警度級(jí)別的微信文章樣本進(jìn)行了分類實(shí)驗(yàn),并在學(xué)習(xí)樣本數(shù)量不等的情況下,分別用改進(jìn)的SVM主動(dòng)學(xué)習(xí)算法與傳統(tǒng)SVM和主動(dòng)學(xué)習(xí)SVM兩種分類器對(duì)測(cè)試樣本進(jìn)行分類,通過多次實(shí)驗(yàn)分析驗(yàn)證了改進(jìn)的SVM主動(dòng)學(xué)習(xí)方法在微信輿情監(jiān)測(cè)[1~3]的可行性。
關(guān)鍵詞支持向量機(jī); 主動(dòng)學(xué)習(xí); 微信; 監(jiān)測(cè)
Class NumberTP393
隨著互聯(lián)網(wǎng)的快速發(fā)展,手機(jī)使用者數(shù)量也隨著增長(zhǎng),現(xiàn)在不管走到哪都能看到智能手機(jī)的身影,而智能手機(jī)的出現(xiàn),加速了移動(dòng)終端的進(jìn)程。微信作為一款手機(jī)軟件與個(gè)人信息緊密相關(guān),而微信公眾平臺(tái)相比于其他網(wǎng)絡(luò)平臺(tái)在傳播方面也具有明顯的優(yōu)勢(shì)。首先它是熟人網(wǎng)絡(luò),小眾傳播,傳播有效性更高。另外微信公眾平臺(tái),是一對(duì)多傳播,信息高達(dá)到率。直接將消息推送到手機(jī),因此達(dá)到率和被觀看率幾乎是100%。隨著微信用戶的增加,微信信息量也呈現(xiàn)一種爆炸式增長(zhǎng),各種微信信息傳播內(nèi)容良莠莫辨,混淆視聽,微信輿情挖掘研究也變得日趨重要。相比較微博來說,微信中信息的傳播、推廣很難被發(fā)現(xiàn),建立一種微信內(nèi)容監(jiān)測(cè)的專業(yè)化、智能化和個(gè)性化監(jiān)測(cè)預(yù)警系統(tǒng)很有必要。針對(duì)這一目標(biāo),本文將研究基于對(duì)象級(jí)別的微信中文信息監(jiān)測(cè)預(yù)警關(guān)鍵技術(shù)。通過爬蟲[4~6]爬取微信公共平臺(tái)中的文章,并由支持向量機(jī)(Support Vector Machine,SVM)主動(dòng)學(xué)習(xí)方法對(duì)文章[10~15]進(jìn)行包含四種警度級(jí)別(紅、橙、黃、綠)的分類,利用微信信息的警度評(píng)估分析技術(shù),構(gòu)建微信信息預(yù)警系統(tǒng),預(yù)測(cè)可能影響社會(huì)安全態(tài)勢(shì)的事件和現(xiàn)象。為了評(píng)估分類器的性能,我們采用了3036個(gè)不同警度級(jí)別的微信文章樣本并對(duì)其進(jìn)行分類,并在學(xué)習(xí)樣本數(shù)量不等的情況下,分別用傳統(tǒng)SVM和主動(dòng)學(xué)習(xí)SVM兩種分類器對(duì)測(cè)試樣本進(jìn)行分類,通過多次實(shí)驗(yàn)分析驗(yàn)證了SVM主動(dòng)學(xué)習(xí)方法在微信輿情監(jiān)測(cè)的可行性。
2.1微信接入與監(jiān)測(cè)
微信公眾平臺(tái)發(fā)表的文章通常是很難直接抓取出來的,至少到目前為止微信還沒有公開API接口供我們使用。但是本文開發(fā)人員還是發(fā)現(xiàn)了一種可以間接爬取出微信公眾平臺(tái)的文章方法,因?yàn)轵v訊公司向搜狗公開了后臺(tái)接口,也就是說搜狗可以爬取出公眾平臺(tái)文章。然而我們爬取公眾平臺(tái)的文章的方法就是通過搜狗這個(gè)開放平臺(tái)來完成爬取任務(wù)。
通過網(wǎng)絡(luò)爬蟲從各種微信站點(diǎn)收集發(fā)布的異構(gòu)信息,從這些信息中,抽取其中的語義,輸入警情預(yù)測(cè)系統(tǒng),對(duì)將要出現(xiàn)的警情通過預(yù)警發(fā)布系統(tǒng)進(jìn)行發(fā)布,并對(duì)造成警情的警度和警源進(jìn)行分析。圖1是整個(gè)平臺(tái)的數(shù)據(jù)流程圖。
圖1 微信監(jiān)測(cè)預(yù)警平臺(tái)流程圖
2.2微信預(yù)警模型
微信熱點(diǎn)態(tài)勢(shì)分析和預(yù)報(bào)是預(yù)警系統(tǒng)中非常重要的一個(gè)環(huán)節(jié),將直接影響到問題的處理結(jié)果。如果準(zhǔn)確預(yù)警卻不能正確發(fā)布,同樣將不能起到預(yù)期的作用。譬如,如果發(fā)布的警度低于實(shí)際問題的危險(xiǎn)性,有可能導(dǎo)致問題不被重視從而延長(zhǎng)應(yīng)對(duì)時(shí)間;如果發(fā)布的警度高于實(shí)際問題的危險(xiǎn)性,同樣可能導(dǎo)致相關(guān)人員的不信任感增強(qiáng),甚至喪失對(duì)整個(gè)系統(tǒng)的信任感。因此,必須設(shè)計(jì)合理的微信文化安全分析和預(yù)報(bào)機(jī)制和系統(tǒng),以保證預(yù)警能夠得到盡可能合理、快捷的處理。
我們的預(yù)警機(jī)制采用多級(jí)聯(lián)動(dòng)的四色預(yù)警方法,其主要流程如圖2所示。當(dāng)發(fā)現(xiàn)預(yù)測(cè)警情時(shí)及時(shí)發(fā)布,上報(bào)公安監(jiān)管部門,還通報(bào)其它相關(guān)部門的網(wǎng)站和安全監(jiān)控系統(tǒng),實(shí)現(xiàn)警情統(tǒng)一數(shù)據(jù)交換。四色預(yù)警即將警情分成紅、橙、黃、綠四色,紅色是代表微信文化秩序混亂、影響微信文化安全的警情多發(fā)、系列性事件高發(fā),需采取整治或關(guān)停措施的;橙色是代表微信安全受到威脅,警情明顯上升,需密切關(guān)注加強(qiáng)防控;黃色是代表出現(xiàn)少量的警情,需要注意跟蹤和觀察;綠色是指微信文化安全能夠得到保障,安全和諧的微信環(huán)境。
目前還缺少通用的、公認(rèn)的警度劃分方法,這就要求預(yù)警系統(tǒng)能夠針對(duì)不同的預(yù)警指標(biāo)采取不同的確定方法,最好能采取多種方法,綜合多方面意見加以確定。另外,警限的確定和警度的劃分是穩(wěn)定性和動(dòng)態(tài)性的統(tǒng)一,警限一旦確定應(yīng)在一定時(shí)間尺度內(nèi)保持相對(duì)的穩(wěn)定,但決不能是一成不變的,應(yīng)能隨著時(shí)間的推移、環(huán)境的變化、勢(shì)態(tài)的發(fā)展、主次矛盾的轉(zhuǎn)化而不斷調(diào)整和修正。
圖2 微信安全態(tài)勢(shì)分析和預(yù)報(bào)系統(tǒng)
網(wǎng)絡(luò)爬蟲抓到公共號(hào)的文章后,通過設(shè)定的閾值來判斷是否為敏感文章,并通過閾值的大小來劃分紅、橙、黃、綠四色的預(yù)警級(jí)別。設(shè)定的閾值F的計(jì)算公式為
(1)
其中n為數(shù)據(jù)庫(kù)中的敏感詞個(gè)數(shù),wi是第i個(gè)敏感詞所對(duì)應(yīng)的權(quán)重,ni是第i個(gè)敏感詞在文章中出現(xiàn)的總次數(shù),N是文章的總字?jǐn)?shù)。
3.1主動(dòng)學(xué)習(xí)
主動(dòng)學(xué)習(xí)的概念是Simon于1974年首次提出[7],是構(gòu)造有效訓(xùn)練集的方法,其原理是它制定了某種選擇策略,要求分類器可以自動(dòng)地從給定的未標(biāo)注的樣本中選擇出最有價(jià)值的樣本,提供給用戶進(jìn)行標(biāo)注,然后將新標(biāo)注的樣本加入到訓(xùn)練集再次訓(xùn)練學(xué)習(xí)器,如此循環(huán)往復(fù),從而在多次迭代中不斷改善學(xué)習(xí)器性能。它的目標(biāo)在于通過迭代抽樣,尋找有利于提升分類效果的樣本,進(jìn)而減少分類訓(xùn)練集的大小,在有限的時(shí)間和資源的前提下,提高分類算法的效率[8]。
主動(dòng)學(xué)習(xí)算法[9~11]可以由以下五個(gè)組件進(jìn)行建模:
A=(C,L,S,Q,U)
其中C為一個(gè)或一組分類器;L為一組已標(biāo)注的訓(xùn)練樣本集;Q為查詢函數(shù),用于在未標(biāo)注的樣本中查詢信息量大的樣本;U為整個(gè)未標(biāo)注樣本集;S為督導(dǎo)者,可以對(duì)未標(biāo)注樣本進(jìn)行標(biāo)注。
主動(dòng)學(xué)習(xí)算法主要分為兩個(gè)階段:第一階段為初始化階段,隨機(jī)從未標(biāo)注樣本中選取小部分,由督導(dǎo)者標(biāo)注,作為訓(xùn)練集建立初始分類器模型;第二階段為循環(huán)查詢階段,S從未標(biāo)注樣本集U中,按照某種查詢標(biāo)準(zhǔn)Q,選取一定的未標(biāo)注樣本進(jìn)行標(biāo)注,并加到訓(xùn)練樣本集L中,重新訓(xùn)練分類器,直至達(dá)到訓(xùn)練停止標(biāo)準(zhǔn)為止。
3.2支持向量機(jī)
支持向量機(jī)[12]是Cortes和Vapik于1995年提出的一種基于結(jié)構(gòu)風(fēng)險(xiǎn)最小化準(zhǔn)則的學(xué)習(xí)器,它在解決小樣本、非線性以及高維模式識(shí)別中表現(xiàn)出許多特有的優(yōu)勢(shì)。其目的是找到一個(gè)最優(yōu)分類超平面以最大間隔將兩類數(shù)據(jù)分開。不管在二分類還是多分類問題上SVM都能有良好的學(xué)習(xí)效果。
假設(shè)訓(xùn)練集D={(x1,y1),(x2,y2),…,(xm,ym)},其中輸入xi∈Rm,yi∈{-1,+1}。SVM首先輸入空間x映射到特征空間z=φ(x)。通常情況下,特征空間的維數(shù)是很高的,考慮到數(shù)據(jù)在線性空間上是可分的,存在向量w和b滿足:
yi(〈w,φ(xi)〉+b)≥1
(2)
對(duì)于訓(xùn)練集〈w,φ(x)〉表示w和φ(x)的點(diǎn)積。SVM構(gòu)造了一個(gè)超平面,(〈w,φ(x)〉+b),使得正例和負(fù)例的間隔最大。因此:
f(x)=〈w,φ(x)〉+b
(3)
預(yù)測(cè)輸入x的標(biāo)記。在許多實(shí)際的應(yīng)用中,線性可分超平面是不存在的,因此引入松弛因子ξi≥0
yi(〈w,φ(xi)〉+b)≥1-ξi,i=1,…,m
(4)
為了進(jìn)一步簡(jiǎn)化,最優(yōu)分類面問題可以進(jìn)一步演化為在式(4)的約束下求解下列問題的最小值:
(5)
其中ξi≥0,Cp是懲罰參數(shù)。因?yàn)樘卣骺臻g的維度很高,準(zhǔn)確獲得w和φ(w)比較困難。因此引入核函數(shù)技術(shù)。只要非線性映射函數(shù)K(x,x)′滿足Mercer條件,都可以作為核函數(shù),并且K(x,x)′=〈φ(x),φ(x′)〉。
常見的核函數(shù)[13~15]有以下幾種:
1) 線性核函數(shù):
K(x,xi)=(xi·x)
(6)
2) 多項(xiàng)式核函數(shù):
K(x,xi)=[p(xi·x)+s]q
(7)
3) Sig Mod核函數(shù):
K(x,xi)=tanh(μ(xi·x)+c)
(8)
4) 徑向基核函數(shù):
K(x,xi)=exp(-γ|x-xi|2)
(9)
如果核函數(shù)選擇適當(dāng),可將輸入空間中的線性不可分問題轉(zhuǎn)換為特征空間中的線性可分問題,在我們的實(shí)驗(yàn)中選用的是徑向基函數(shù)K(x,xi)=exp(-γ|x-xi|2)為核函數(shù)。
為了減少評(píng)價(jià)樣本所需要代價(jià),仔細(xì)、合理地選擇訓(xùn)練樣本是必不可少的操作,我們?cè)谖谋痉衷~的時(shí)候就根據(jù)四種類別的關(guān)鍵詞庫(kù)對(duì)文章做出模糊的類別標(biāo)注,這樣在主動(dòng)學(xué)習(xí)過程中就會(huì)大大減少人為的標(biāo)注,提高了分類準(zhǔn)確性。改進(jìn)后的SVM實(shí)現(xiàn)主動(dòng)學(xué)習(xí)的算法[16]流程圖如圖3所示。
圖3 SVM主動(dòng)學(xué)習(xí)算法流程圖
輸入:不帶類別標(biāo)注的候選樣本集Tr,每次從候選樣本中采樣的個(gè)數(shù)n。
輸出:分類器f。
方法:
準(zhǔn)備:對(duì)將要訓(xùn)練的文章樣本進(jìn)行分詞處理,計(jì)算出對(duì)應(yīng)類別的相關(guān)因子υ,并依據(jù)相關(guān)因子的最大值max(υ)對(duì)文章做出模糊的類別標(biāo)注。
步驟1:通過K-means算法從候選樣本集Tr中選擇1個(gè)樣本,構(gòu)造初始訓(xùn)練樣本集I0,使I0中至少包含有一個(gè)正例樣本和一個(gè)負(fù)例樣本,執(zhí)行T0=Tr-I0操作。
步驟2:進(jìn)行第i次采樣學(xué)習(xí),在樣本集Ii-1基礎(chǔ)上尋找最優(yōu)分類超平面fi,從樣本集Ti-1中選擇距離fi最近的n個(gè)樣本,這n個(gè)樣本組成的集合記為Bi。
步驟3:正確標(biāo)注這n個(gè)樣本的樣本類別。
步驟4:執(zhí)行Ii=Ii-1∪Bi,Ti=Tr-Ii,如果Ti為空或者滿足某種指標(biāo)時(shí)終止學(xué)習(xí),否則返回到步驟2。
步驟5:返回f=fi,算法結(jié)束。
為了評(píng)估分類器的性能,我們隨機(jī)地爬取了3036個(gè)不同警度級(jí)別的微信文章樣本并對(duì)其進(jìn)行分類,并記錄下了傳統(tǒng)的SVM算法下分類準(zhǔn)確率和在主動(dòng)學(xué)習(xí)下SVM算法下分類準(zhǔn)確率。實(shí)驗(yàn)所用的分類環(huán)境是臺(tái)灣大學(xué)林智仁(Lin Chih-Jen)教授等開發(fā)設(shè)計(jì)的一個(gè)簡(jiǎn)單、易于使用和快速有效的SVM模式識(shí)別與回歸的軟件包libsvm,根據(jù)訓(xùn)練樣本的特征選取的核函數(shù)是徑向基RBF核函數(shù)。核函數(shù)中的gamma函數(shù)設(shè)置-g參數(shù)為2.8,-c參數(shù)設(shè)置為1.2。樣本集中的樣本分為教育、軍事、經(jīng)濟(jì)和生活四個(gè)分類類別,其中不同類別的訓(xùn)練樣本數(shù)與測(cè)試樣本數(shù)如表1所示。
表1 不同數(shù)據(jù)下兩種SVM分類器準(zhǔn)確率比較
為了驗(yàn)證SVM主動(dòng)學(xué)習(xí)分類器在微信監(jiān)測(cè)中的分類效果比傳統(tǒng)的支持向量分類器分類效果優(yōu)越,我們?cè)趯?shí)驗(yàn)中驗(yàn)證了在不同訓(xùn)練樣本個(gè)數(shù)的情況下,傳統(tǒng)的支持向量機(jī)分類器與主動(dòng)學(xué)習(xí)的支持向量機(jī)分類器在分類準(zhǔn)確率上的差異,正如表2所顯示的那樣,隨著學(xué)習(xí)樣本數(shù)目的逐漸遞增,兩種支持向量分類器的分類準(zhǔn)確率都在增加,但是采用了主動(dòng)學(xué)習(xí)的支持向量分類器分類的準(zhǔn)確率要明顯的優(yōu)于傳統(tǒng)的支持向量分類器。表3顯示的是SVM主動(dòng)學(xué)習(xí)算法與改進(jìn)后的性能比較。介于某些文章的類別不確定性,所以在訓(xùn)練分類器的時(shí)候,訓(xùn)練數(shù)據(jù)點(diǎn)的向量距離相差或大或小,并不理想,所以圖表上顯示的數(shù)據(jù)并不完美。但是從大體上來說,改進(jìn)后的算法在性能上要優(yōu)于原始算法。
表2 不同數(shù)據(jù)下原始SVM分類器與主動(dòng)學(xué)習(xí)分類器準(zhǔn)確率比較
為了使實(shí)驗(yàn)數(shù)據(jù)更具說服力,我們?cè)谟?xùn)練樣本確定的情況下,分別做了多次實(shí)驗(yàn),取其平均的分類準(zhǔn)確率,并用仿真圖4顯示出來,這樣,改進(jìn)后的分類器要比SVM主動(dòng)學(xué)習(xí)分類器和傳統(tǒng)的SVM分類器的分類效果清晰地顯示出來了。
(a)
(b)圖4 不同數(shù)據(jù)下兩種SVM分類器準(zhǔn)確率比較
通過圖4不難發(fā)現(xiàn),改進(jìn)后的主動(dòng)學(xué)習(xí)下SVM分類準(zhǔn)確率要比傳統(tǒng)的SVM分類準(zhǔn)確率高。因此可以確定支持向量機(jī)主動(dòng)學(xué)習(xí)分類器在微信監(jiān)測(cè)中的效果要比傳統(tǒng)支持向量機(jī)分類器監(jiān)測(cè)效果明顯。
為了能更好地凈化網(wǎng)絡(luò)環(huán)境,微信監(jiān)測(cè)是不可能忽視的一部分。因?yàn)槲⑿殴娖脚_(tái)是小眾傳播,傳播有效性高,微信信息量也隨著用戶的增加呈現(xiàn)出一種爆炸式的增長(zhǎng),各種微信信息傳播內(nèi)容良莠莫辨,混淆視聽,微信輿情挖掘研究變得日趨重要,而目前我們的研究也只是一些皮毛。在我們的實(shí)驗(yàn)中驗(yàn)證了主動(dòng)學(xué)習(xí)SVM在微信監(jiān)測(cè)中的可行性,相比傳統(tǒng)SVM,采用主動(dòng)學(xué)習(xí)SVM的監(jiān)測(cè)效果有一定的優(yōu)勢(shì),但這還不能說明主動(dòng)學(xué)習(xí)SVM在監(jiān)測(cè)分類中一定是最好的,所以在接下來的研究中,我們會(huì)不斷改進(jìn)并探索更為優(yōu)秀的算法。
參 考 文 獻(xiàn)
[1] 陳憶金,曹樹金,陳少馳,等.網(wǎng)絡(luò)輿情信息監(jiān)測(cè)研究進(jìn)展[J].圖書情報(bào)知識(shí),2011(6):41-49.
CHEN Yijin, CAO Shujin, CHEN Shaochi, et al. Research progress of network public opinion information monitoring[J]. Library and Information Knowledge,2011(6):41-49.
[2] 陸浩.網(wǎng)絡(luò)輿情監(jiān)測(cè)研究與原型實(shí)現(xiàn)[D].北京:北京郵電大學(xué),2009.
LU Hao. Research and prototype implementation of network public opinion monitoring[D]. Beijing: Beijing University of Posts and Telecommunications,2009.
[3] 楊印.網(wǎng)絡(luò)輿情監(jiān)測(cè)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D].廈門:廈門大學(xué),2014.
YANG Yin. Design and implementation of network public opinion monitoring system[D]. Xiamen: Xiamen University,2014.
[4] Rennie J, McCallum A. Using reinforcement learning to spider the web efficiently[C]//Proceedings of the Internet Conference on Machine Learning, Slovenia,1999.
[5] A. Arasu, J. Cho, H. Garcia-Molina, et al. Searching the web[J]. ACM Transaction on Internet Technology,2001.
[6] 羅一紓.微博爬蟲的相關(guān)技術(shù)研究[D].哈爾濱:哈爾濱工業(yè)大學(xué),2013.
LUO Yishu. Research on related technologies of micro blog[D]. Harbin: Harbin Institute of Technology,2013.
[7] Simon H A, Lea G. Problem solving and rule education: a unified view knowledge and organization[J]. Knowledge and Cognition,1974,15(2):63-73.
[8] Vapnik V. Statistical Learning Theory[M]. New York, Wilet,1998:11-23.
[9] 張健沛,徐華.支持向量機(jī)(SVM)主動(dòng)學(xué)習(xí)方法研究與應(yīng)用[J].計(jì)算機(jī)應(yīng)用,2004(1):1-3.
ZHANG Jianpei, XU Hua. Research and application of active learning method for support vector machine(SVM)[J]. Computer Application,2004(1):1-3.
[10] 邵曦,姚磊.基于SVM主動(dòng)學(xué)習(xí)的音樂分類[J].計(jì)算機(jī)工程與應(yīng)用,2014:1405-0097.
SHAO Xi, YAO Lei. Music classification based on SVM active learning[J]. Computer Engineering and Application,2014:1405-0097.
[11] 劉康,錢旭,王自強(qiáng).主動(dòng)學(xué)習(xí)算法綜述[J].計(jì)算機(jī)工程與應(yīng)用,2012,34:1-4,22.
LIU Kang, QIAN Xu, WANG Ziqiang. Overview of active learning algorithm[J]. Computer Engineering and Application,2012,34:1-4,22.
[12] Vlachos A. Actibe learning with support vector machines[D]. Edinburgh: Master Science, School of Informatics, University of Edinburgh,2004.
[13] Tong S, Koller D. Support vector machine active Learning with applications to text classification[J]. Journal of Machine Learning Research,2002,2:45-66.
[14] 朱紅斌,蔡郁.基于主動(dòng)學(xué)習(xí)支持向量機(jī)的文本分類[J].計(jì)算機(jī)工程與應(yīng)用,2009,2:134-136.
ZHU Hongbin, CAI Yu. Text classification based on active learning support vector machine[J]. Computer Engineering and Applications,2009,2:134-136.
[15] 劉曉亮,丁世飛,朱紅,等.SVM用于文本分類的適用性[J].計(jì)算機(jī)工程與科學(xué),2010,6:106-108.
LIU Xiaoliang, DING Shifei, ZHU Hong, et al. Applicability of SVM for text classification[J]. Computer Engineering and Science,2010,6:106-108.
[16] Tong S, Koller D. Support vector machine active learning with applications to text classification[J]. Journal of Machine Learning Research,2002,2:45-66.
收稿日期:2015年10月5日,修回日期:2015年11月20日
基金項(xiàng)目:湖北省教育廳2013年高等學(xué)校教學(xué)研究項(xiàng)目:基于移動(dòng)學(xué)習(xí)的研究生微課程教學(xué)模式研究(編號(hào):2013096)資助。
作者簡(jiǎn)介:高學(xué)偉,男,碩士研究生,研究方向:數(shù)據(jù)挖掘。鄭世玨,男,教授,博士生導(dǎo)師,研究方向:數(shù)據(jù)挖掘。高麗,女,碩士,正高級(jí)工程師,研究方向:數(shù)據(jù)挖掘。李松麗,女,碩士研究生,研究方向:數(shù)據(jù)挖掘。
中圖分類號(hào)TP393
DOI:10.3969/j.issn.1672-9722.2016.04.034
Monitoring and Early-warning on WeChat Based on SVM Active Learning
GAO XueweiZHENG ShijueGAO LiLI Songli
(Department of Computer Science, Central China Normal University, Wuhan430079)
AbstractIn this paper, by using the support vector machine(SVM) active learning algorithm, four types of alarm level(red, orange, yellow, green) classification are made on WeChat. By using the evaluation analysis technology of Wechat information, WeChat information early warning system is constructed to prediction events and phenomena that may affect social security. In order to evaluate the performance of the classifiers, 3036 different warning level sample grabed randomly are conducted classification experiment. And in the different learning samples, traditional SVM and active learning SVM are used to classify the test samples. Repeated experiments verify the feasibility of SVM active learning method in WeChat public opinion monitoring.
Key Wordssupport vector machine, active learning, WeChat, monitoring