趙旭東,亞森·艾則孜
(新疆警察學(xué)院 信息安全工程系,新疆 烏魯木齊 830011)
基于互信息和余弦相似度的維吾爾文不良文檔信息過濾方案
趙旭東,亞森·艾則孜
(新疆警察學(xué)院 信息安全工程系,新疆 烏魯木齊830011)
針對網(wǎng)頁中的維吾爾文不良文檔信息的過濾問題,提出一種基于互信息和余弦相似度的不良文檔信息過濾方案。首先,對輸入文檔進(jìn)行預(yù)處理,過濾掉無用單詞。然后,利用文檔頻率(DF)和互信息(MI)相結(jié)合,從文檔中提取出高區(qū)分度的特征向量。最后,利用TF-IDF方法對特征進(jìn)行加權(quán),并計(jì)算加權(quán)特征向量與分類模板中的各類加權(quán)特征向量之間的余弦相似度,來分類文檔并過濾掉不良文檔信息。實(shí)驗(yàn)結(jié)果表明,該方案能夠有效過濾不良維吾爾文文檔,正確過濾率達(dá)到了83.5%。
維吾爾文;不良文檔過濾;互信息;余弦相似度;TF-IDF
互聯(lián)網(wǎng)的高速發(fā)展促使著人類社會(huì)的進(jìn)步,其蘊(yùn)涵的共享資源不僅提高了人們的工作學(xué)習(xí)效率,還豐富著人們的業(yè)余生活。但由于其開放性的特點(diǎn),各種良莠不齊的垃圾信息也隨之泛濫,特別是反動(dòng)、色情、暴力或帶有明顯情緒煽動(dòng)言論的不良信息的入侵,不僅威脅著網(wǎng)絡(luò)信息的安全,更極大地危害著社會(huì)的穩(wěn)定和人們的身心健康[1]。因此,開發(fā)網(wǎng)頁文檔信息過濾技術(shù)尤為重要。
隨著國家對新疆地區(qū)的大力投入,使其信息化建設(shè)得到快速發(fā)展,維吾爾文等少數(shù)民族語種的大量文字信息開始以數(shù)字化形式呈現(xiàn)。對維吾爾文書寫的大量網(wǎng)頁文檔數(shù)據(jù)進(jìn)行信息過濾,對新疆地區(qū)的穩(wěn)定具有重要的意義[2]。目前,對于英文和中文等大語種的文檔過濾技術(shù)已經(jīng)得到大量研究,并趨于成熟。然而,對于維吾爾文表述的數(shù)字文檔的過濾,相關(guān)方面的研究還處于起步階段[3]。維吾爾文是一種黏著性語言,具有比較復(fù)雜的時(shí)態(tài)變化和豐富的形態(tài)結(jié)構(gòu)[4]。目前,學(xué)者提出了一些對維吾爾文的文檔分類技術(shù),例如文獻(xiàn)[5]提出一種基于語義詞特征提取的維吾爾文文本的分類方法,用一種組合統(tǒng)計(jì)量(DME)來度量文本中相鄰單詞之間的關(guān)聯(lián)程度,以此來提取特征詞。文獻(xiàn)[6]利用χ2統(tǒng)計(jì)量來提取詞干,并利用支持向量機(jī)(SVM)算法來構(gòu)造了維吾爾文文本分類器。
本文結(jié)合維吾爾文特點(diǎn),提出一種基于互信息和余弦相似度的維吾爾文不良文檔信息過濾方案。首先,對輸入文檔進(jìn)行預(yù)處理,過濾掉無用信息。然后,利用文檔頻率(Document Frequency,DF)和互信息(Mutual Information,MI)相結(jié)合,提取文檔中最能代表文檔屬性的特征向量。最后,計(jì)算提取的特征向量與分類模板中的各類特征向量之間的余弦相似度,來分類文檔并過濾掉不良文檔信息。實(shí)驗(yàn)結(jié)果表明,本文方案能夠有效過濾不良維吾爾文文檔。
本文提出一種維吾爾文文檔信息過濾方案,首先,需要收集一些已分類的文檔作為訓(xùn)練文檔集。本文過濾方案主要包括3個(gè)部分:1)維吾爾文文檔預(yù)處理階段:在該階段,過濾掉停留詞,并提取維吾爾文單詞的詞干,以降低文檔維度。2)特征提取階段:本文使用文檔頻率(DF)法根據(jù)特征出現(xiàn)頻率提取初始特征集,然后利用互信息(MI)法計(jì)算特征與類之間的互信息來獲得最終特征集,以一組特征向量來表示一個(gè)文檔,即用向量空間模型(VSM)表示文檔。3)文檔過濾階段:通過詞頻-逆向文件頻率 (TF-IDF)方法對提取的特征進(jìn)行加權(quán),計(jì)算輸入文檔特征向量與訓(xùn)練文檔集獲得的分類模板中各類的特征向量之間的余弦相似度,來判斷輸入文檔的屬性。另外,在文檔過濾之后,通過人為判斷文檔過濾正確性,并作為反饋來調(diào)整相似度比較的判斷閾值R,以獲得最佳過濾性能。本文文檔過濾方案框架如圖1所示。
圖1 本文文檔過濾方案框架
1.1文檔預(yù)處理
維吾爾文文檔預(yù)處理主要包括兩個(gè)部分:文檔過濾和詞干提取。其中,文檔過濾用于過濾掉文檔中非維吾爾文文字和停用詞;詞干提取是用來提取文檔中具有真正含義的詞匯。經(jīng)過文檔預(yù)處理,可將文檔原始特征維度降低約一半。
文檔去噪過程中,首先對文檔進(jìn)行過濾,獲得維吾爾文單詞集。然后,通過和事先準(zhǔn)備好的停用詞表進(jìn)行比對,過濾掉停用詞。停用詞為對文檔主題沒有貢獻(xiàn),不包含文章類別信息的詞,例如介詞、副詞、代詞等。去掉停留詞能夠?qū)崿F(xiàn)特征降維,提高分類精度[7]。
詞干提取過程中,首先,根據(jù)維吾爾文單詞與單詞之間的空格符來進(jìn)行分詞。由于維吾爾文單詞是由字母拼寫而成的,通過將不同的詞綴粘貼到單詞的頭部來實(shí)現(xiàn)語法功能,所以,提取文檔中能夠代表真實(shí)含義的詞匯是困難的。維吾爾文中,同一詞干可以演變?yōu)楹芏嗖煌x的詞語,雖然這些詞語的詞形不同,但詞義卻不會(huì)有很大區(qū)別[8]。其中一個(gè)典型例子如表1所示。為了提取單詞的詞義,并考慮特征的數(shù)量,本文以詞干(學(xué)校)作為特征項(xiàng),以此從文檔中提取出詞干集。
1.2基于DF和MI的特征提取
目前,主流的特征提取方法有文檔頻率(DF)、信息增益(IG)、χ2統(tǒng)計(jì)量(CHI)和互信息(MI)等[9]。這些特征選擇方法基本思想都是基于一種評估函數(shù),評估每個(gè)特征詞的價(jià)值,然后根據(jù)價(jià)值將特征詞從高到低進(jìn)行排序,根據(jù)設(shè)定的特征數(shù)量,從高到低提取特征詞作為特征集合,以此獲得具有高區(qū)別能力的特征集并降低特征維數(shù)。
表1 維吾爾詞語變體
DF方法只計(jì)算文檔集中具有特征項(xiàng)文檔的數(shù)量,若只利用其來提取特征較為粗糙[10]。MI方法根據(jù)特征和類別共同出現(xiàn)的概率,度量特征和類別的相關(guān)性,所提取的特征較為精確,但計(jì)算量較大[11]。為此,本文將DF方法和MI方法相結(jié)合,首先,在預(yù)處理后的文檔中利用DF方法,計(jì)算出具有每個(gè)詞條的文檔數(shù),將在設(shè)定上下限閾值之間的特征加入到初始特征集中,以此去掉一些低頻詞和高頻詞。然后,在生成的初始特征集上,根據(jù)每個(gè)詞干和每個(gè)類別之間的MI值來選擇具有較高類別區(qū)分能力的詞干作為最終特征,進(jìn)一步降低特征維數(shù)。
DF方法中的文檔頻率指文檔集中出現(xiàn)某個(gè)特征項(xiàng)的文檔個(gè)數(shù)。在文檔集中含有該特征的文檔數(shù)量為:
本文設(shè)定DF(v)的上下閾值分別為5%~70%。出現(xiàn)頻率低于5%的特征視為很少出現(xiàn)的特征,其在文檔分類中的作用較小。而出現(xiàn)頻率大于70%的特征,由于在文檔中廣泛分布,所以其區(qū)別性較低。
特征V=(v1,v2,…,vd)和類C=(c1,c2,…,ck)之間的MI可表示為:
特征v1在類c1中出現(xiàn)的概率越高,則互信息I(c1,v1)就越大,則相關(guān)性越大。若本文設(shè)定對每類提取N個(gè)特征,那么則將互信息從大到小排名前N的特征作為特征向量。
1.3基于余弦相似度的文檔過濾
在提取文檔特征之后,可通過計(jì)算輸入文檔和訓(xùn)練模板之間的相似度來判斷文檔屬性。其中,訓(xùn)練模板是通過從已知文檔類別的訓(xùn)練集中提取的特征訓(xùn)練獲得,其由每種文檔類別的特征向量組成。
目前,計(jì)算相似度的主流方法是計(jì)算兩個(gè)文檔特征向量的內(nèi)積或內(nèi)積的某種相關(guān)系數(shù)。其中,向量內(nèi)積表示的是一個(gè)向量在另一個(gè)向量上的投影,內(nèi)積越大,兩個(gè)文本相似度就越大。本文采用夾角余弦距離公式來計(jì)算其相似度,夾角余弦相似度衡量的是向量空間兩個(gè)向量的夾角,更加體現(xiàn)的是方向上的差異,而不是位置,這就是歐式距離和夾角余弦的最大不同之處。向量夾角的余弦值越大,表明兩者之間的相似度越大。
在計(jì)算余弦相似度之前,需要對特征進(jìn)行加權(quán)。本文利用經(jīng)典的TF-IDF方法[12],根據(jù)特征項(xiàng)的詞頻(TF)和逆文檔頻率(IDF)來加權(quán)特征,并進(jìn)行歸一化處理到[0,1]范圍內(nèi),表達(dá)式為:
其中,tfvi為詞頻,表示特征vi在文檔d中出現(xiàn)的次數(shù);idfvi為逆文檔頻率,表示訓(xùn)練文檔集中包含特征vi的文檔數(shù)量(即DF(vi))倒數(shù)的log值,表達(dá)式為:
令A(yù)=(a1,a2,…,an)和B=(b1,b2,…,bn)表示兩個(gè)特征向量對應(yīng)的權(quán)重向量,那么這兩個(gè)特征權(quán)重向量之間的余弦相似度如式(5)所示:
在相似度計(jì)算結(jié)束后,設(shè)定將相似度大于閾值R的文檔返回給用戶,否則屏蔽該文檔。
2.1實(shí)驗(yàn)數(shù)據(jù)
為了評估本文方案的性能,構(gòu)建一個(gè)計(jì)算平臺(tái),以Intel酷睿i5作為CPU,主頻為2.4 Ghz,應(yīng)用Windows7系統(tǒng)環(huán)境,利用Matlab2011進(jìn)行實(shí)驗(yàn)。
對于維吾爾文的文本分類應(yīng)用,目前還沒有可使用的標(biāo)準(zhǔn)文本集。由于本文方案是應(yīng)用于不良信息過濾領(lǐng)域,所以本文從新疆政府網(wǎng)、天山網(wǎng)和新疆公安犯罪數(shù)據(jù)庫中的不良文檔中收集了2 000篇文檔,通過人工方式將其分為5類文檔:1)正常文檔、2)暴恐傾向文檔、3)色情文檔、4)賭博文檔、5)反動(dòng)言論文檔,其中正常文檔800篇,其它各類不良文檔分別為300篇。在數(shù)據(jù)集中均勻選取1 200篇文本作為訓(xùn)練集,剩余800篇作為測試集。
2.2性能指標(biāo)
本文采用分類中常用的性能指標(biāo)F1值[13]來評估方案性能,其由分準(zhǔn)確率(Precision)和召回率(Recall)計(jì)算獲得。對于某一個(gè)類別i,其準(zhǔn)確率、召回率、F1值分別可以描述為:
在對過濾器性能進(jìn)行統(tǒng)計(jì)計(jì)算時(shí),用宏均值(Macro-F1)參數(shù)來反應(yīng)過濾器的性能,表達(dá)式為:
2.3分類過濾實(shí)驗(yàn)
實(shí)驗(yàn)中,首先對維吾爾文文本集進(jìn)行預(yù)處理,為了方便后續(xù)處理,把文本轉(zhuǎn)換成UTF-8二進(jìn)制編碼格式[14]。然后,過濾掉文本中的非維吾爾文字符和停用詞。預(yù)處理結(jié)束后,獲得一個(gè)具有24 420個(gè)詞的初始詞語集。然后進(jìn)行詞干提取,將同一詞根演變而來的特征進(jìn)行聚合,使詞干數(shù)降維到13 826個(gè)。
然后通過本文提出DF+MI特征提取算法,提取出和類別具有高互信息(高區(qū)分度)的詞干組成最終特征向量。設(shè)定每個(gè)類別提取500~2 000個(gè)特征詞作為特征向量,表2列出了暴恐和反動(dòng)文檔類中的前5個(gè)特征詞。
表2 2種類別的前5名高區(qū)分度的特征詞
將本文方案與文獻(xiàn)[5]和文獻(xiàn)[6]提出的方案進(jìn)行比較,在特征向量大小為500~2 000個(gè)特征詞下,以Macro-F1作為性能指標(biāo)評估正確分類過濾的性能。實(shí)驗(yàn)中,每次實(shí)驗(yàn)計(jì)算所有測試文檔被分為5個(gè)類的F1值,并取宏均值Macro-F1,相同實(shí)驗(yàn)執(zhí)行10次,最終獲得平均Macro-F1值,結(jié)果如圖2所示。
圖2 各種方案分類過濾的Macro-F1值
從圖2可以看出,隨著特征數(shù)量的增加,各種方案的過濾性能逐漸提高,但當(dāng)達(dá)到一定程度上呈現(xiàn)平穩(wěn)狀態(tài)。這是因?yàn)?,特征選取數(shù)量過少時(shí),導(dǎo)致很多對分類過濾具有較大貢獻(xiàn)的特征詞被遺漏[15];當(dāng)特征數(shù)量過多時(shí),就會(huì)造成特征冗余,增加計(jì)算復(fù)雜度,從而影響了分類過濾性能。然而,本文方案始終保持最高的分類過濾性能,當(dāng)特征向量長度為1 400左右時(shí),性能最佳,獲得的F1值達(dá)到了0.835。這是因?yàn)楸疚脑谔卣魈崛‰A段首先利用DF方法過濾掉一些特征詞,降低了特征提取的計(jì)算量。同時(shí),利用余弦距離來計(jì)算輸入文檔
為了凈化新疆地區(qū)維吾爾文網(wǎng)頁中的不良文檔,促進(jìn)地區(qū)穩(wěn)定,文中提出一種基于互信息和余弦相似度的維吾爾文網(wǎng)頁不良文檔信息過濾方案。利用文檔頻率(DF)和互信息(MI)相結(jié)合,從文檔中提取出高區(qū)分度的特征向量。利用TF-IDF方法對特征進(jìn)行加權(quán),并計(jì)算加權(quán)特征向量與分類模板中的各類加權(quán)特征向量之間的余弦相似度,來分類文檔并過濾掉不良文檔信息。實(shí)驗(yàn)結(jié)果表明,與其它方案相比,本文方案能夠有效過濾網(wǎng)頁中的不良維吾爾文文檔。
[1]丁霄云,劉功申,孟魁.基于一類SVM的不良信息過濾算法改進(jìn)[J].計(jì)算機(jī)科學(xué),2013,40(11):86-90.
[2]阿力木江·艾沙,庫爾班·吾布力,吐爾根·依布拉音.維吾爾文Bigram文本特征提?。跩].計(jì)算機(jī)工程與應(yīng)用,2015,51 (3):216-221.
[3]熱依萊木·帕爾哈提,孟祥濤,艾斯卡爾·艾木都拉.基于區(qū)分性關(guān)鍵詞模型的維吾爾文本情感分類[J].計(jì)算機(jī)工程,2014,40(10):132-136.
[4]亞力青·阿里瑪斯,哈力旦·阿布都熱依木,陳洋.基于向量空間模型的維吾爾文文本過濾方法[J].新疆大學(xué)學(xué)報(bào):自然科學(xué)版,2015(2):221-226.
[5]吐爾地·托合提,艾克白爾·帕塔爾,艾斯卡爾·艾木都拉.語義詞特征提取及其在維吾爾文文本分類中的應(yīng)用[J].中文信息學(xué)報(bào),2014,28(6):140-144.
[6]阿力木江·艾沙,吐爾根·依布拉音,庫爾班·吾布力.基于SVM的維吾爾文文本分類研究[J].計(jì)算機(jī)工程與科學(xué),2012,34(12):140-144.
[7]Uysal A K,Gunal S.The impact of preprocessing on text classification[J].Information Processing&Management,2014,50(7):104-112.
[8]田生偉,鐘軍,禹龍.維吾爾文多詞領(lǐng)域術(shù)語的自動(dòng)抽取[J].中文信息學(xué)報(bào),2015,29(2):133-141.
[9]李建林.一種基于PCA的組合特征提取文本分類方法[J].計(jì)算機(jī)應(yīng)用研究,2013,30(8):2398-2401.
[10]Bharti K K,Singh P K.Hybrid dimension reduction by integrating feature selection with feature extraction method for text clustering[J].Expert Systems with Applications,2015,42(6):3105-3114.
[11]Shadvar A.Dimension reduction by mutual information feature extraction[J].International Journal of Computer Science&Information Technology,2012,4(3):231-245.
[12]張保富,施化吉,馬素琴.基于TFIDF文本特征加權(quán)方法的改進(jìn)研究[J].計(jì)算機(jī)應(yīng)用與軟件,2011,28(2):17-20.
[13]Liu J.A Network Information filtering method based on node energy transfer[J].Advanced Materials Research,2014,25 (9):4400-4404.
[14]阿力木江·艾沙,吐爾根·依布拉音,艾山·吾買爾,等.基于機(jī)器學(xué)習(xí)的維吾爾文文本分類研究 [J].計(jì)算機(jī)工程與應(yīng)用,2012,48(5):110-112.
[15]Arasaratnam I.Sensor fusion with square-root cubature information filtering[J].Intelligent Control&Automation,2013,4(1):11-17.
A uyghur bad text information filtering scheme based on mutual information and Cosine similarity
ZHAO Xu-dong,Yasen·AIZEZI
(Department of Information Safety Engineering,Xinjiang Police College,Urumqi 830011,China)
For the issues that the Uyghur bad text information filtering in the web page,an information filtering scheme based on mutual information and cosine similarity is proposed.First,the input document is preprocessed to filter out useless words. Then,the combination of document frequency(DF)and mutual information(MI)is used to extract the feature vector which with high degree of differentiation.Finally,the feature is weighted by the TF-IDF method,and calculate the cosine similarity between the weighted feature vector and the weighted feature vectors in the classification template,so as to classify the documents and filter out the bad document information.Experimental results show that the proposed scheme can effectively filter the bad Uyghur documents,and the correct filtering rate is 83.5%.
Uyghur;bad text information;mutual information;cosine similarity;TF-IDF
TN918
A
1674-6236(2016)16-0109-04
2016-02-06稿件編號:201602020
新疆維吾爾自治區(qū)自然科學(xué)基金科研項(xiàng)目(2015211A016)
趙旭東(1977—),男,安徽蕪湖人,碩士,講師。研究方向:信息安全、軟件工程等。