韓文智
(四川職業(yè)技術(shù)學(xué)院 計(jì)算機(jī)科學(xué)系, 四川 遂寧 629000)
?
計(jì)算機(jī)文本信息挖掘技術(shù)在網(wǎng)絡(luò)安全中的應(yīng)用
韓文智
(四川職業(yè)技術(shù)學(xué)院 計(jì)算機(jī)科學(xué)系, 四川 遂寧 629000)
摘要:針對網(wǎng)絡(luò)文本信息的安全性判別問題,采取改進(jìn)的鄰近分類算法挖掘文本.該改進(jìn)鄰近分類方法在傳統(tǒng)方法定義分類特征的同時(shí),起用共線性判別矩陣,對具有共線屬性的特征合并處理.這種改進(jìn)策略,不僅可以增加分類特征的準(zhǔn)確性,也可以加快文本信息的分類進(jìn)程.對Spambase語料庫開展實(shí)驗(yàn)研究,從精度、召回率、聯(lián)判度、誤差4個(gè)維度對分類效果進(jìn)行評價(jià).結(jié)果顯示:改進(jìn)的鄰近分類方法具有明顯的優(yōu)勢,可以更加準(zhǔn)確地區(qū)分安全文本和危險(xiǎn)文本.
關(guān)鍵詞:文本信息; 文本挖掘; 文本分類; 鄰近分類
在信息量爆炸式增長的今天,人們生活方式發(fā)生了極大改變[1].人們很少通過紙質(zhì)文件進(jìn)行信息交流,代之的是電子郵件、微博、短信、微信.這種信息交流方式確實(shí)更為便利,但也出現(xiàn)了新的安全隱患.部分廣告人員和詐騙者,借助網(wǎng)絡(luò)渠道向廣大網(wǎng)絡(luò)用戶的郵箱、微信中發(fā)布廣告信息和詐騙信息,攔截這些垃圾信息已經(jīng)成為當(dāng)今網(wǎng)絡(luò)安全的重要課題之一[2].計(jì)算機(jī)文本信息挖掘技術(shù)在信息分類、信息識別方面具有重要作用.網(wǎng)絡(luò)信息的典型特征對于準(zhǔn)確判斷這些信息是否是垃圾信息、提升網(wǎng)絡(luò)安全具有重要意義[3].文獻(xiàn)[4-10]對文本挖掘進(jìn)行了研究.本文對鄰近分類文本挖掘方法進(jìn)行改進(jìn),提升其在網(wǎng)絡(luò)安全中的實(shí)用效果.
1文本挖掘和鄰近分類
文本挖掘是數(shù)據(jù)處理領(lǐng)域的一個(gè)重要分支,其操作對象主要針對文本信息.文本挖掘是從大量的文本信息中抽象、提取出具有可以理解的特征、知識,便于對文本信息進(jìn)行進(jìn)一步的分類、識別.
文本挖掘的過程涉及到多個(gè)環(huán)節(jié),具體的流程如圖1所示.文本挖掘的對象包含了各類文本信息,如期刊中的文本信息、網(wǎng)頁中的文本信息、基于文本信息構(gòu)建的數(shù)據(jù)庫.文本挖掘之前,一般需要執(zhí)行與處理文本信息,包括對文本信息的去噪處理、分詞處理、停詞處理、特征表示、特征提取.在文本挖掘這個(gè)核心階段中,挖掘結(jié)果最終體現(xiàn)為文本分類、文本聚類、關(guān)聯(lián)分析、趨勢預(yù)測等.文中研究的重點(diǎn)在于文本分類.
圖1 文本挖掘的流程Fig.1 Process of text mining
鄰近分類算法是文本分類的重要執(zhí)行方法之一,它構(gòu)建c個(gè)分類方案,并將待區(qū)分的文本分別和這c個(gè)方案進(jìn)行比較,并以最接近的方案來定義文本的屬性.在分類的過程中,首先要制定各個(gè)方案的描述特征,之后,對待分類文本進(jìn)行分詞和特征設(shè)置,再根據(jù)相似性計(jì)算判斷鄰近性,其核心計(jì)算公式為
式(1)中:ρ表示相似性;li,lj表示參照文本信息和待挖掘文本信息的特征向量;Ti,c,Tj,c表示參照文本信息和待挖掘文本信息的分詞.
通過式(1)可以在文本集中選取出和待挖掘文本信息相似的幾個(gè)文本,判斷待挖掘文本到底屬于哪一個(gè)類別的公式為
式(2)中:F(l,Lj)為待挖掘文本信息的最終分類結(jié)果;w(li,Lj)為待挖掘文本信息,屬于某一分類權(quán)重.
2鄰近分類方法的改進(jìn)
鄰近分類方法是一類原理簡單、操作方便的文本挖掘方法,但其最大的問題在于不同分類特征可能存在共線,這可能造成分類結(jié)果的不準(zhǔn)確性.為此,在傳統(tǒng)鄰近分類方法的基礎(chǔ)上,通過對文本特征的描述進(jìn)行進(jìn)一步修正.改進(jìn)策略的核心思想是,將共線屬性明顯的文本特征進(jìn)行合并,從而壓縮特征向量的維度.這樣,不僅能提升分類結(jié)果的準(zhǔn)確性,也有利于算法執(zhí)行速度的提高.在合并共線特征的過程中,統(tǒng)計(jì)變量為
式(3)中:H1為特征tA和特征tB一起出現(xiàn)的次數(shù);H2為特征tA出現(xiàn),而特征tB沒有出現(xiàn)的次數(shù);H3為特征tA沒有出現(xiàn),而特征tB出現(xiàn)的次數(shù);H4為特征tA,tB都沒有出現(xiàn)的次數(shù).其共線性判別矩陣為
由式(4)可知:R越大,特征tA和特征tB的共線特征越明顯.根據(jù)這個(gè)統(tǒng)計(jì)變量,對傳統(tǒng)的鄰近分類方法進(jìn)行改進(jìn),有如下5個(gè)操作步驟.
步驟1對于鄰近分類形成的各個(gè)特征計(jì)算其統(tǒng)計(jì)變量R,得到全部分類下全部特征的共線性判別矩陣(式(4)).
步驟4歸一化后得到的共線性判別矩陣中,差距非常小的兩個(gè)元素將被合并,從而形成更精簡的特征集合.
步驟5根據(jù)精簡后的特征集合,采用式(1),(2)所示的方法執(zhí)行鄰近分類.
3實(shí)驗(yàn)結(jié)果與分析
為了驗(yàn)證所提出的基于改進(jìn)鄰近分類算法的文本挖掘方法的有效性,以網(wǎng)絡(luò)安全檢測中的應(yīng)用為背景,展開實(shí)驗(yàn)研究.實(shí)驗(yàn)對象選擇國際上標(biāo)準(zhǔn)的文本信息預(yù)料庫Spambase語料庫.在Spambase語料庫中,共包含4 600條獨(dú)立的文本信息,其中,帶有危害用戶信息安全的文本信息1 800條,其余2 800條為正常的文本信息.根據(jù)Spambase語料庫的設(shè)定原則,上述4 600條信息可以用58個(gè)特征進(jìn)行概括性描述,每條文本信息到底是屬于安全信息還是有危害信息,需要根據(jù)這些特征進(jìn)行區(qū)分.
實(shí)驗(yàn)方法上,選擇了傳統(tǒng)鄰近分類方法和文中方法,以便進(jìn)行網(wǎng)絡(luò)安全文本挖掘效果的橫向?qū)Ρ?對于Spambase語料庫中的4 600條文本信息,將其中1 600條作為訓(xùn)練樣本,剩余3 000條作為實(shí)驗(yàn)中的檢測樣本.先通過1 600條訓(xùn)練樣本,對兩種方法進(jìn)行訓(xùn)練,確定分類參數(shù)后,再通過另外3 000條文本信息檢驗(yàn)兩種方法的分類效果.
全部文本信息的判定,只有安全信息和危險(xiǎn)信息這兩類判定結(jié)果,這是一個(gè)典型的二分類問題.為了提升判別結(jié)果的可信度,一般同時(shí)采取算法判定和專家判定兩種方式.這樣就出現(xiàn)了4種可能:
1) 算法判定結(jié)果和專家判定結(jié)果都是安全信息的文本信息,用T1表示;
2) 算法判定結(jié)果為安全,專家判定結(jié)果為危險(xiǎn)的文本信息,用T2表示;
3) 算法判定結(jié)果為危險(xiǎn),專家判定結(jié)果為安全的文本信息,用T3表示;
4) 算法判定結(jié)果和專家判定結(jié)果都是危險(xiǎn)信息的文本信息,用T4表示.
精度、召回率、聯(lián)判度都是和分類效果好壞同向的,而誤差則和分類效果好壞是反向的.
為了驗(yàn)證基于改進(jìn)鄰近分類算法的文本分類方法的有效性,設(shè)計(jì)一個(gè)網(wǎng)絡(luò)信息安全檢測分類系統(tǒng)軟件平臺.
平臺以Spambase語料庫分類的文本對象,分類方法集成了傳統(tǒng)鄰近分類方法和文中方法.軟件平臺的操作界面,如圖2所示.由圖2可知:軟件平臺上方為一級功能菜單區(qū),包含了首頁、用戶管理、預(yù)處理、分類、趨勢預(yù)測等功能,文中關(guān)注的是分類功能的設(shè)計(jì);平臺左側(cè)是對應(yīng)一級功能菜單的二級功能菜單,當(dāng)前情況是選中分類菜單后其下的3項(xiàng)子功能,包括分類方法、參數(shù)評價(jià)、分類結(jié)論;平臺中下方是主顯示區(qū),用于顯示分類結(jié)果和對應(yīng)的評價(jià)參數(shù).
圖2 網(wǎng)絡(luò)信息安全檢測分類系統(tǒng)Fig.2 Network information security detection and classification system
針對Spambase語料庫的具體情況,分別選擇10個(gè)特征進(jìn)行安全信息和危險(xiǎn)信息的區(qū)分,利用傳統(tǒng)鄰近分類方法改進(jìn)鄰近分類方法得到分類結(jié)果評價(jià)參數(shù),如表1所示.由表1可知:所構(gòu)建的基于改進(jìn)鄰近分類算法的文本分類方法,在精度、召回率、聯(lián)判度、誤差這4項(xiàng)評價(jià)指標(biāo)上,分類效果都明顯高于傳統(tǒng)鄰近分類方法;對于總數(shù)為3 000的測試文本信息,以5特征進(jìn)行區(qū)分時(shí),分類誤差低于9%.
表1 傳統(tǒng)鄰近分類方法實(shí)驗(yàn)結(jié)果
4結(jié)束語
對鄰近分類算法進(jìn)行改進(jìn),并用于文本信息的安全性判別.此方法采取了共線性判別矩陣對文本信息的共線屬性進(jìn)行合并處理,這樣可以增加屬性分類的準(zhǔn)確性,也通過合并特征屬性達(dá)到提速的效果.實(shí)驗(yàn)結(jié)果表明,改進(jìn)方法可以準(zhǔn)確地區(qū)分安全文本和危險(xiǎn)文本,適用于網(wǎng)絡(luò)安全技術(shù)
參考文獻(xiàn):
[1]DAVIES S,MOORE A.Bayesian networks for lossless dataset compression[C]∥Proceeding of International Conference Knowledge Discovery and Data Mining.San Diego:ACM Press,2013:387-391.
[2]喻小光,陳維斌,陳榮鑫.一種數(shù)據(jù)規(guī)約的近似挖掘方法的實(shí)現(xiàn)[J].華僑大學(xué)學(xué)報(bào)(自然科學(xué)版),2008,29(3):370-374.
[3]MERETAKIS D,WUTHRICH B.Extending na?ve bayes classifiers using long item sets[C]∥Proceeding of International Conference Knowledge Discovery and Data Mining.San Diego:ACM Press,2013:165-174.
[4]ESPOSITO F,MALERBA D,SEMERARO G,et al.A comparative analysis of methods for pruning decision trees[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2014,19(5):476-491.
[5]LAM S L Y,LEE D L.Feature reduction for neural network based text categorization[C]∥Digital Symposium Collection of 6th International Conference on Database System for Advanced Application.[S.l.]:IEEE Press,2015:1121-1130.
[6]CESTNIK B,BRATKO I.On estimating probabilities in tree pruning, machine learning: EWSL-91[C]∥Kodratoff Lecture Notes in Artificial Intelligence.Berlin:Springer,2015:138-150.
[7]ANDROUTSOPOULOS G,PALIOURAS V,KARKALETSIS G,et al.Learning to filter spam e-mail: A comparison of a na?ve Bayesian and a memory based approach[C]∥Proceedings of 4th European Conference on Principles and Practice of Knowledge Discovery in Databases.London:Jerry Press,2000:1-13.
[8]SUN Lihua,ZHANG Jidong,LI Jingmei.An improved knearest neighbor system and its application to text classification[J].Applied Science and Technology,2002,29(2):25-27.
[9]寸待杰,劉韶濤.采用內(nèi)容挖掘的緬甸文字相似性文檔檢索[J].華僑大學(xué)學(xué)報(bào)(自然科學(xué)版),2013,34(5):521-524.
[10]RASTOGI R,SHIM K.Public: A decision tree that integrates building and pruning[C]∥Proceeding of 24th International Conference on Very Large Data Bases.New York:[s.n.],2014:404-415.
(責(zé)任編輯: 陳志賢 英文審校: 吳逢鐵)
Application of Computer Text Information Mining
Technology in Network Security
HAN Wenzhi
(Department of Computer Science, Sichuan Vocational and Technical College, Suining 629000, China)
Abstract:In view of the security problem of network text information, we adopt an improved neighbor classification algorithm to carry out text mining. In improved nearest neighbor method, definition and classification are carried out by traditional method, and characteristics are merged by reinstating co-linear discriminant matrix of collinear attribute features. This improved strategy not only increase the accuracy of classification features, but also speed up the classification process of text information. An experimental study is carried out on the Spambase corpus, and the classification results are evaluated from 4 dimensions. Namely accuracy, recall rate, the degree of error, and the error. Results show that the improved method has obvious advantages, and that is more accurate in the area of security text and dangerous text.
Keywords:text information; text mining; text classification; neighbor classification
基金項(xiàng)目:四川省自然科學(xué)基金重點(diǎn)資助項(xiàng)目(15ZA0349).
通信作者:韓文智(1966-),男,副教授,主要從事網(wǎng)絡(luò)安全、軟件技術(shù)的研究.E-mail:1691289966@qq.com.
收稿日期:2015-11-16
中圖分類號:TP 393
文獻(xiàn)標(biāo)志碼:A
doi:10.11830/ISSN.1000-5013.2016.01.0067
文章編號:1000-5013(2016)01-0067-04