張 浩, 謝 飛
(1.合肥工業(yè)大學(xué) 計(jì)算機(jī)與信息學(xué)院,安徽 合肥 230009;2.皖南醫(yī)學(xué)院 基礎(chǔ)醫(yī)學(xué)部,安徽 蕪湖 241000;3.合肥師范學(xué)院 計(jì)算機(jī)科學(xué)與技術(shù)系,安徽 合肥 230601)
隨著信息技術(shù)和互聯(lián)網(wǎng)的飛速發(fā)展,人們可以獲得越來越多的電子信息資源,但同時(shí)也需要投入更多的時(shí)間對(duì)這些信息進(jìn)行組織和管理。為了減輕這種負(fù)擔(dān),人們開始研究采用計(jì)算機(jī)進(jìn)行文本分類。文本分類(Text Categorization)就是在給定的分類體系下,讓計(jì)算機(jī)根據(jù)文本的內(nèi)容確定與它相關(guān)聯(lián)的類別。文本分類是自然語言處理的一個(gè)重要的問題,主要應(yīng)用于信息檢索、自動(dòng)文摘、信息過濾、郵件分類等。
文本分類中一個(gè)重要的問題是特征選擇,通過特征選擇減少文本的特征向量維數(shù),提高分類的效率和精度。特征選擇的基本思想是構(gòu)造一個(gè)評(píng)價(jià)函數(shù),對(duì)特征集的每個(gè)特征進(jìn)行評(píng)估,選擇類別區(qū)分能力強(qiáng)的特征構(gòu)造特征集。已有的一些特征選擇方法(如互信息、信息增益等)在構(gòu)造特征評(píng)價(jià)函數(shù)時(shí),重點(diǎn)考慮詞語與類別的關(guān)聯(lián)性,沒有考慮詞語之間的語義關(guān)聯(lián)性。本文提出一種基于語義關(guān)聯(lián)的特征選擇方法,通過計(jì)算詞語在文檔中的語義關(guān)聯(lián)性,將那些沒有被特征選擇方法選擇的詞語,但卻與被選擇的詞語具有密切語義關(guān)聯(lián)的詞語加入特征空間中。實(shí)驗(yàn)表明,本文提出的基于語義關(guān)聯(lián)的特征選擇方法提高了文本分類的精度。
文本分類的研究開始于20世紀(jì)50年代,在60—80年代,基于知識(shí)工程的文本分類方法占據(jù)主導(dǎo)地位,這類方法由于使用人工構(gòu)造的知識(shí)庫,分類準(zhǔn)確度較高,但缺點(diǎn)是知識(shí)庫構(gòu)造困難,難以大規(guī)模地應(yīng)用。90年代以來,隨著電子文檔的大規(guī)模出現(xiàn),基于機(jī)器學(xué)習(xí)的方法得到了廣泛的應(yīng)用,具有代表性的分類模型有k近鄰(KNearest Neighbor,簡稱 KNN)、樸素貝 葉斯(Nave Bayes,簡稱 NB)、決策樹、神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)(Support Vector Machine,簡稱SVM)、Boosting、Bagging[1]等。
文獻(xiàn)[2]對(duì)常見的幾種分類算法進(jìn)行了比較,得出KNN和SVM是2種比較好的分類算法。KNN是一種懶惰的學(xué)習(xí)算法,不需要訓(xùn)練過程,當(dāng)測試文檔到來時(shí),通過計(jì)算訓(xùn)練文檔集中與待分類文檔最近的k個(gè)鄰居來確定測試文檔的類別,因此當(dāng)訓(xùn)練文本數(shù)量很大時(shí),計(jì)算開銷會(huì)比較大。SVM是一種基于統(tǒng)計(jì)學(xué)習(xí)的方法,具有很高的分類精度和良好的泛化能力,但是在大規(guī)模訓(xùn)練集上學(xué)習(xí)的時(shí)間和空間開銷比較大。
國內(nèi)很多學(xué)者對(duì)文本分類進(jìn)行了深入的研究,取得了很好的成績。如文獻(xiàn)[3]提出一種基于機(jī)器學(xué)習(xí)的、獨(dú)立于語種的文本分類模型;文獻(xiàn)[4]在論述隱含語義索引理論的基礎(chǔ)上,研究了隱含語義索引在中文文本處理中的應(yīng)用;文獻(xiàn)[5]使用最大熵模型對(duì)中文文本分類進(jìn)行了研究;文獻(xiàn)[6]提出一種以 WordNet語言本體庫為基礎(chǔ),建立文本的概念向量空間模型作為文本特征向量的特征提取方法;文獻(xiàn)[7]研究了混淆類的判別技術(shù),改善了文本分類的性能;文獻(xiàn)[8]針對(duì)Bagging算法弱分類器具有相同權(quán)重的問題,提出一種改進(jìn)的Bagging算法;文獻(xiàn)[9]提出一種基于模糊支持向量機(jī)的多主題文本分類算法;文獻(xiàn)[10]針對(duì)特征空間中的冗余信息,提出一種基于聚類的文本特征選擇方法;文獻(xiàn)[11]研究了文本分類中用于協(xié)同的特征集分割問題;文獻(xiàn)[12]利用類關(guān)聯(lián)詞實(shí)現(xiàn)對(duì)完全未標(biāo)注文檔的分類;文獻(xiàn)[13]針對(duì)文本向量的高維性,提出用張量表示文本,提高了分類的精度。
文本的特征表示是文本分類面臨的首要問題,向量空間模型(VSM)[14]是應(yīng)用最多且效果較好的方法之一。在向量空間模型中,假設(shè)項(xiàng)或特征的維數(shù)是n,每一個(gè)文檔d可以表示為一個(gè)n維的向量,即
其中,ti為詞條項(xiàng);ωi(d)為ti在文本d中的權(quán)值,一般采用TFIDF向量表示法:
其中,tfi(d)為詞條ti在文檔d中出現(xiàn)的詞頻;N為所有文檔的數(shù)目;ni為出現(xiàn)了詞條ti的文檔的數(shù)目,分母為歸一化因子。
文檔di和dj的向量表示為:di=(ωi1,ωi2,…,ωin)T,dj=(ωj1,ωj2,…,ωjn)T。di和dj的相似度可以用向量空間的夾角余弦定義,即
文本分類要解決的主要問題之一是降低特征向量的維數(shù),特征選擇和特征抽取是2種重要的降低文本向量維數(shù)的技術(shù)。
傳統(tǒng)的特征選擇方法主要有:文檔頻率(DF)、信息增益(IG)、χ2(CHI)統(tǒng)計(jì)量、互信息(MI)等。文獻(xiàn)[15]分析和比較了這4種方法,結(jié)合KNN分類器,得出IG和CHI方法效果相對(duì)較好的結(jié)論。本文選用IG方法。
其中,P(ci)為ci類文檔在語料中出現(xiàn)的概率;P(t)為語料中包含詞條t的文檔概率;P(ci|t)為文檔包含詞條t時(shí)屬于ci類的條件概率;P(ˉt)為語料中不包含詞條t的文檔概率;P(ci|ˉt)為文檔不包含詞條t時(shí)屬于ci類的條件概率;m為類別數(shù)。
詞語語義關(guān)聯(lián)可以通過計(jì)算詞語在文檔中同一窗口中的共現(xiàn)性來度量,即“詞共現(xiàn)模型”。其基于如下假設(shè):2個(gè)詞經(jīng)常共同出現(xiàn)在文檔的同一窗口(句子或段落),則認(rèn)為這2個(gè)詞在語義上關(guān)聯(lián),并且共現(xiàn)的概率越高,其相互關(guān)聯(lián)越緊密。
本文采用Dice Coefficient[16]計(jì)算2個(gè)詞語的關(guān)聯(lián)度,其計(jì)算公式為:
其中,x、y為文檔中2個(gè)詞語;p(x)、p(y)為x、y在文檔中出現(xiàn)的概率;p(x,y)為x與y在文檔句子中共同出現(xiàn)的概率。
基于詞語關(guān)聯(lián)的文本分類算法(Text Categorization based on Semantic Relatedness,簡稱TCSR)描述如下:
(1)對(duì)訓(xùn)練文本集中每個(gè)文檔d進(jìn)行分詞,去除停用詞,根據(jù)(6)式計(jì)算詞語x的平均關(guān)聯(lián)度值,即
其中,y為文檔d中詞語;n為文檔d中詞語的個(gè)數(shù)。
(2)根據(jù)詞語關(guān)聯(lián)度值從大到小選擇n個(gè)詞語作為文檔d的特征詞。
(3)構(gòu)造訓(xùn)練文檔集的詞語特征空間,將訓(xùn)練文本表示成空間向量形式。
(4)構(gòu)造文本分類器,本文采用 KNN分類法。
(5)對(duì)新的測試文本,將測試文檔表示為向量形式,根據(jù)構(gòu)造的分類器判斷測試文本的類別。
上述算法中參數(shù)單個(gè)文檔選擇的特征詞數(shù)目n和KNN算法中k的值由實(shí)驗(yàn)確定。
本文使用復(fù)旦大學(xué)建立的測試文檔庫測試的算法,表1列出了這些測試文檔類的類名及其包含的文檔數(shù)目。任意選取其中1 883篇作為訓(xùn)練集,934篇作為測試集。采取宏平均F1值來評(píng)價(jià)文檔分類的性能[17]。
KNN文本分類方法中參數(shù)k值選擇大小對(duì)文本分類性能的影響,如圖1所示。實(shí)驗(yàn)中,k的取值范圍為15~35,從圖1可以看出,當(dāng)k取值為20時(shí),分類效果最佳。
圖1 k值對(duì)文本分類性能影響
基于語義關(guān)聯(lián)的特征方法中,單文檔選擇的特征詞數(shù)目對(duì)文本分類的影響如圖2所示。單文檔選擇的特征數(shù)目依次為20、30、50、80、100、120,對(duì)應(yīng)的總特征詞數(shù)目見表2所列。從圖2可以看出,當(dāng)單文檔選擇特征詞數(shù)目為80時(shí),分類效果最好。
圖2 單文檔特征選擇數(shù)對(duì)文本分類性能影響
表2 文本特征選擇數(shù)與總特征選擇數(shù)對(duì)應(yīng)關(guān)系
基于語義關(guān)聯(lián)(TCSR)、基于信息增益(TCIG)、基于χ2統(tǒng)計(jì)(TCX2)3種特征選擇方法對(duì)文本分類性能影響的比較,如圖3所示。從中可以看出,TCSR在選擇特征數(shù)為22 851時(shí),分類效果最佳;TCIG在選擇特征數(shù)為13 762時(shí),分類效果最佳;TCX2在選擇特征數(shù)為18 214時(shí),分類效果最佳。這說明,在取得最優(yōu)分類效果時(shí),基于語義關(guān)聯(lián)的特征選擇方法比信息增益和χ2統(tǒng)計(jì)方法選擇的特征詞數(shù)目數(shù)要多。這是因?yàn)榛谡Z義的特征方法在選擇重要特征詞的同時(shí),把與這些特征詞密切相關(guān)的詞語也選擇了進(jìn)來,所以總特征數(shù)比一般的特征選擇方法要多。
圖3 TCSR、TCIG和TCX2特征選擇方法比較
從圖3中還可以看出,在取得最優(yōu)分類效果情況下,基于語義關(guān)聯(lián)的特征選擇方法比基于χ2統(tǒng)計(jì)特征選擇和基于信息增益特征選擇方法效果好,這說明本文提出的基于語義關(guān)聯(lián)的特征選擇方法能夠提高文本分類的精度。
本文介紹了文本分類技術(shù)研究現(xiàn)狀,討論了文本的向量空間模型表示和特征選擇等相關(guān)技術(shù),提出了一種基于語義關(guān)聯(lián)的特征選擇方法,利用文檔中詞語之間的語義關(guān)聯(lián)性抽取表示文檔的特征詞。實(shí)驗(yàn)表明,本文提出的基于語義關(guān)聯(lián)的特征選擇方法比傳統(tǒng)的信息增益和χ2統(tǒng)計(jì)特征選擇方法提高了文本分類的精度。
[1]蘇金樹,張博鋒,徐 昕.基于機(jī)器學(xué)習(xí)的文本分類技術(shù)研究進(jìn)展[J].軟件學(xué)報(bào),2006,17(9):1848-1859.
[2]Yang Y,Lin X.A re-examination of text categorization methods[C]//The 22nd Annual ACM SIGIR Conf on Research and Development in Information Retrieval.New York:ACM Press,1999:42-49.
[3]黃萱菁,吳立德,石崎洋之,等.獨(dú)立于語種的文本分類方法[J].中文信息學(xué)報(bào),2000,14(6):1-7.
[4]周水庚,關(guān)佶紅,胡運(yùn)發(fā).隱含語義索引及其在中文文本處理中的應(yīng)用研究[J].小型微型計(jì)算機(jī)系統(tǒng),2001,22(2):239-244.
[5]李榮陸,王建會(huì),陳曉云,等.使用最大熵模型進(jìn)行中文文本分類[J].計(jì)算機(jī)研究與發(fā)展,2005,42(1):94-101.
[6]張 劍,李春平.基于 WordNet概念空間模型的文本分類[J].計(jì)算機(jī)工程與應(yīng)用,2006(4):174-178.
[7]朱靖波,王會(huì)珍,張希娟.面向文本分類的混淆類判別技術(shù)[J].軟件學(xué)報(bào),2008,19(3):630-639.
[8]張 翔,周明全,耿國華,等.Bagging算法在中文文本分類中的應(yīng)用[J].計(jì)算機(jī)工程與應(yīng)用,2009,45(5):135-137.
[9]秦玉平,王秀坤,艾 青,等.基于模糊支持向量機(jī)的多主題文本分類算法研究[J].小型微型計(jì)算機(jī)系統(tǒng),2008,29(3):548-551.
[10]張文良,黃亞樓,倪維健.一種基于聚類的文本特征選擇方法[J].計(jì)算機(jī)應(yīng)用,2007,27(1):205-209.
[11]張博鋒,蘇金樹.文本分類中用于協(xié)同的特征集分割[J].計(jì)算機(jī)科學(xué),2009,36(2):203-210.
[12]韓紅旗,朱東華,劉 嵩,等.關(guān)聯(lián)詞約束的半監(jiān)督文本分類方法[J].計(jì)算機(jī)工程與應(yīng)用,2010,46(4):113-116.
[13]何 偉,胡學(xué)鋼,謝 飛.基于張量空間模型的中文文本分類[J].合肥工業(yè)大學(xué)學(xué)報(bào):自然科學(xué)版,2010,33(12):1806-1810.
[14]Salton G,Wong A,Yang C S.On the specification of term values in automatic indexing [J].Journal of Documentation,1973,29(4):351-372.
[15]Yang Y.A comparative study on feature selection in text categorization[C]//Proceeding of the Fourteenth International Conference on Machine Learning(ICML’97),1997:412-420.
[16]Grzegorz K,Daniel M,Kevin K.Cognates can improve statistical translation models [C]//Proceedings of HLTNAACL 2003:Human Language Technology Conference of the North American Chapter of the Association for Computational Linguistics,2003:46-48.
[17]周 茜,趙名生,扈 旻.中文文本分類中特征選擇[J].中文信息學(xué)報(bào),2004,18(3):17-23.