摘要:文本自動分類是信息檢索和數(shù)據(jù)挖掘領(lǐng)域的研究熱點和核心技術(shù),但是在實際應用中,經(jīng)常會出現(xiàn)文本實例中一些類中歐冠的文本很多,而另一些類中的文本較少的情況,而這些應用往往就是為了預測其中很少出現(xiàn)但很重要的文本,這就是所謂的文本分類不平衡問題。傳統(tǒng)方法對少數(shù)類的識別率低,如何有效的提高少數(shù)類的分類性能成為機器學習和模式識別領(lǐng)域亟待解決的問題。因此,該文針對提高不平衡數(shù)據(jù)集中的少數(shù)類文本的分類性能之一問題,從數(shù)據(jù)層面處理的角度對數(shù)據(jù)進行重抽樣。使用隨機抽樣的方法以提高分類器在非平衡數(shù)據(jù)集上的泛化性能。
關(guān)鍵詞:不平衡數(shù)據(jù)集;文本;分類
中圖分類號:TB565文獻標識碼:A文章編號:1009-3044(2009)36-10571-02
Unbalanced Data Set Based on the Text Classification Techniques
WANG Cheng-qiang
(Computer Science and Information Engineering, Guizhou University, Guiyang 550025, China)
Abstract: Automatic text categorization, information retrieval and data mining areas of research focus and core technology, but in practice, often the text will appear in a number of instances of the class a lot of text in the Champions League, while others with less text in the class of , but these applications is to predict which are often rare but very important text, which is the so-called text classification imbalance. Traditional methods of identifying a small number of low class, how to effectively improve the classification performance of a small number of classes into the field of machine learning and pattern recognition problems to be solved. Therefore, this paper improve the unbalanced data set in a small number of classes, one of the text classification performance issues, from the perspective of the data handled at the level of data re-sampling. Using random sampling method to improve the classifier in the non-equilibrium generalization performance on data sets.
Key words: unbalanced data sets; text; classification
隨著信息技術(shù)的發(fā)展,人們可以獲得越來越多的數(shù)字信息。有研究報告指出,2006年全球每年制造、復制出的數(shù)字信息量共計1610億GB;而受“富媒體、用戶創(chuàng)建內(nèi)容及十幾億網(wǎng)名這三大因素的推動,到2010年,全球的數(shù)字信息量預計為9880億GB,從2006年至2010年,全球信息量增幅為6倍。
數(shù)學信息的泛濫將為信息管理帶來巨大的壓力。目前的數(shù)字信息資源一般有文字、聲音、圖片、視頻等多媒體資源構(gòu)成,而文本信息在數(shù)字信息中占有相當大的比重,因而,對文本信息的分類處理成為信息管理中的重要的一環(huán)。
國內(nèi)外對于文本分類技術(shù)的研究已經(jīng)開展了較長的時間,總體上來說,文本分類技術(shù)已經(jīng)有了較為完善的發(fā)展。但是,值得注意的是,在實際應用中,文本分類中數(shù)據(jù)集的不平衡問題是一個普遍存在的問題。隨著機器學習、信息檢索從發(fā)展到成熟,數(shù)據(jù)集的不平衡或偏斜問題就成為了一個新的重要的問題。數(shù)據(jù)集的不平衡問題,即類別間樣本的數(shù)量可能存在書諒解的差距,這是導致分類效果不理想的一個重要因素。在數(shù)據(jù)不平衡的情況下,分類器很容易被大類淹沒而忽略小類。
針對不平衡數(shù)據(jù)集問題其自身的特點,如何在不影響整體分類性能的基礎(chǔ)上,提高少數(shù)類文本的分類效果是解決不平衡數(shù)據(jù)集問題的基本要求。
1 數(shù)據(jù)不平衡問題
在文本分類的研究中,通常都假定用于訓練的文本集合是平衡的,即不同類別間的文本數(shù)量大致相等。然而,在現(xiàn)實問題中對文本數(shù)據(jù)進行處理時通常會發(fā)現(xiàn),某一類或幾類中的文本數(shù)量相對較少,而此類文本又相對重要,這就是所謂不平衡數(shù)據(jù)集問題,而這樣的數(shù)據(jù)集就被稱之為不平衡數(shù)據(jù)集。其中,文本數(shù)量多的類成為多數(shù)類,文本數(shù)量少的成為少數(shù)類。
不平衡數(shù)據(jù)集在實際生活中是普遍存在的。例如在對非法網(wǎng)頁的檢測中,正常網(wǎng)頁樣本數(shù)量遠大于非法網(wǎng)頁,即非法網(wǎng)頁屬于少數(shù)類。將合法網(wǎng)頁誤分為非法網(wǎng)頁,要投入額外的人力和物理來對其進行驗證;但是,一旦將非法網(wǎng)頁誤分為合法網(wǎng)頁,所帶來的經(jīng)濟損失,以及不良影響比上一種情況要大的多。而若使用傳統(tǒng)的分類方法對這樣的文本集合進行分類,對少數(shù)類文本的識別效率并不理想。從上述網(wǎng)頁分類的例子我們可以看出,在這種文本數(shù)據(jù)分布不平衡的情況下,通常少數(shù)類文本的分類效率對系統(tǒng)來講恰是至關(guān)重要的。其被錯誤分類所帶來的代價往往要比多數(shù)類樣本被錯誤分類要高得多。若分類不當,當為用戶帶來難以估量的損失。因此,在某些領(lǐng)域中,如何將少數(shù)類文本高效而準確的識別出來成為了研究的重點。
常用的不平衡數(shù)據(jù)集分類方法一般可以分為兩類:基于數(shù)據(jù)層的分類和對已有分類器進行改進?;跀?shù)據(jù)層的分類方法是從給定的文本集入手,改變不平衡數(shù)據(jù)的分布,從而降低不同類別間文本數(shù)量的不平衡程度;而基于分類器算法的方法是針對數(shù)據(jù)集的特點,對傳統(tǒng)的分類器進行改進,從而達到一個比較好的分類效果。由于改進的分類器往往只針對某些特定的數(shù)據(jù)集,其適用性較小,而相對于對數(shù)據(jù)集進行的操作,對分類器改進需要花費更多的成本。
這里我們采用基于數(shù)據(jù)層的方法對不平衡數(shù)據(jù)進行分類。其主要目的就是:通過這種數(shù)據(jù)處理,來減輕數(shù)據(jù)集的不平衡程度,從而提高少數(shù)類的分類性能?;跀?shù)據(jù)層德文分類主要是對數(shù)據(jù)集進行處理,通常采用數(shù)據(jù)抽樣的方法。
2 不平衡數(shù)據(jù)集上的文本分類問題
針對不平衡數(shù)據(jù)集上文本分類技術(shù)的研究是模式識別領(lǐng)域中一個具有挑戰(zhàn)性的課題,其中少數(shù)類的分類性能的提高更令人們關(guān)注。本文提出了一種分層抽樣和過抽樣相結(jié)合的方法對訓練文本集合進行處理。為了減少少數(shù)類的分類性能,在進行分類之前,對同一層上的文檔進行改進的過抽樣,增大其學習域,更好地提高分類器對少數(shù)類的分類性能,下面對該系統(tǒng)進行簡單的介紹。
2.1 系統(tǒng)的組成
本文研究的不平衡數(shù)據(jù)集上的文本分類系統(tǒng)的步驟可以分為兩大部分,即訓練過程及測試過程。
訓練過程:首先針對訓練集進行抽樣,形成相對“平衡“的文本集合,然后對這個新生成的訓練文本進行特征選擇,并生產(chǎn)文檔向量,構(gòu)建分類模型。最后進入訓練分類器的階段。
測試過程:將測試文本集向量化之后,使用在上一個過程中生成的分類器對向量化的文本集合進行分類,最后對分類結(jié)果進行評估。
從這個系統(tǒng)來看,在文本分類的過程中,主要是包括 以下幾個關(guān)鍵部分:
1) 訓練集處理
由于訓練文本集合的不平衡性,將對分類的結(jié)果產(chǎn)生一定的影響,因此先要對訓練集合進行預處理,之后再用處理過的文本集訓練分類器。這里使用數(shù)據(jù)抽樣的方法來提高分離器在非平衡數(shù)據(jù)集上的泛化性能,產(chǎn)生新的少數(shù)類文本,使之與多數(shù)類中的文本數(shù)量達到一致,從而形成大體平衡的文本集。
2) 文本向量化
在系統(tǒng)中,分類器職能處理向量化的文本。首先應對文本進行分詞和詞性標注。根據(jù)分詞字典對初始字串進行全切分,找出最佳的切分路徑形成切分集,對最佳路徑中的詞串進行標注,之后通過詞頻和語義相似度計算,以互相關(guān)信息為基礎(chǔ),將文本向量化。
3) 特征提取
通過對大規(guī)模的語料庫的學習,對訓練文檔進行詞條切分和詞頻統(tǒng)計并根據(jù)詞頻分布提取出代表文檔類的特征項集及形影權(quán)值生成特征向量表,得到類別特征,在后面的步驟中將利用其對測試結(jié)果進行分類。其中,類別特征主要是指一些詞和短語,這些詞和短語的選擇主要是對語義重要度和詞頻來決定的;分類模型集:將類別訓練集,采用KNN和SVM算法的學習算法來進行處理,就可以獲得分類模型。
4) 文本分類
在分類模塊中,通過輸入向量化過的文本信息和分類模型集,對給定的測試文本集進行分類,得到集合中每個文本所屬的類別。需要說明的是,文本存在兼類屬于正?,F(xiàn)象,即一篇文章實際上可以屬于類別體系中的多個類別,但是,由于文本所采用的試驗語料中的每篇文本只被標識了一個類別,考慮到對分類結(jié)果進行性能評價時的合理性,本系統(tǒng)中使用的分類器設計為單分類器,即文本最終只被制定為一個類別。
5) 分類評價算法測試
分類評價部分對分類性能進行評價,同時給出反饋信息進行學習,從而對分類特征進行不斷的修正。計算分類結(jié)果準確率數(shù)據(jù)以及分類測試結(jié)果的統(tǒng)計圖,并將分類結(jié)果返回給用戶,由用戶對分類結(jié)果進行確認或者修正,從而進一步提高分類效率。
在文本分類中,由于中文文本的特殊性及分類過程,決定了特征提取和文本分類的中的分類器構(gòu)造將成為其中的關(guān)鍵步驟。
2.2 技術(shù)難點
文本分類技術(shù)隨飯發(fā)展較快,但是在實際應用中,還存在一定的技術(shù)難點,主要是以下幾個方面:
1) 與英文文本不同,對中文文本進行分析的一個前提條件是對中文文本進行分詞處理,這也是進行中文信息處理的一個難點。
2) 在文本實例中一些類中的文本很多,而另一些類中文本較少的情況,而這些應用往往就是為了預測其中很少出現(xiàn)但很重要的文本,當出現(xiàn)這個文本中數(shù)據(jù)不平衡時,小類問題的發(fā)呢類效果往往不盡如人意。
中文文本的上述特點使得對文本分類是一個復雜的技術(shù)過程,這里根據(jù)以上分類模型實現(xiàn)了一個文本自動分類系統(tǒng)。
3 影響分類系統(tǒng)性能的因素
影響分類系統(tǒng)性能高低的有以下幾個因素:
3.1 類別體系的設置
類別體系在被認為設定時,可能會出現(xiàn)交叉現(xiàn)象,即各類文檔之間具有較多的重疊特征。對于具有高級思維能力和抽象能力的人類大腦來說區(qū)分重疊特征在不同語言環(huán)境下的不同語義比較容易,但是對于計算機這種只能對語言做淺層次理解(只能區(qū)分具體詞形差別而不能區(qū)分語義差別)的機器而言,區(qū)分高級抽象的事物就表現(xiàn)出困難。例如—地理位置與北京歷史發(fā)展這篇文章,該文章介紹了在北京歷史發(fā)展進程中,人與自然界之間的關(guān)系。通過人工分類,很容易可以將其歸到歷史類中。但是由于文中多次出現(xiàn)屬于農(nóng)業(yè)類別的特征詞,如“自然環(huán)境”,“游牧”、“農(nóng)耕”、“農(nóng)產(chǎn)品”等,因此在使用系統(tǒng)進行分類后,該文檔被判定為農(nóng)業(yè)類??梢钥闯?,對于特征不夠明顯的文章,即使系統(tǒng)采用的分類算法性能再先進,計算機也是很難進行正確識別的。因此,結(jié)合計算機目前的智力水平,為了能夠得到較高的分類性能,在設置類別體系時,應盡量使用類別間的差異大,盡量避免類別交叉現(xiàn)象的出現(xiàn),從而保證較高的分類性能。
3.2 訓練集的平衡程度
從上邊的分類試驗數(shù)據(jù)可以看出,隨著訓練集平衡程度的增加,分類系統(tǒng)的性能也隨著增高。這是因為,訓練集規(guī)模越大,獲取到的文本特征就越全面,構(gòu)造的向量模型越多,越能夠很好的反映該類文本的特征,訓練集的規(guī)模過小,文本特征不能很好的對類別進行表示,則會應系那個到分類系統(tǒng)的性能。當然,訓練文本集過大,也會帶來訓練時間過長,耗費存儲空間過大的問題,因此在訓練文本的選取上盡量選擇各個文本類別中文本數(shù)量相差不大的數(shù)據(jù)進行訓練,或者對小類文本數(shù)據(jù)集進行抽樣擴充,從而達到平衡,以提高分類效率。
4 結(jié)束語
在網(wǎng)絡技術(shù)高速發(fā)展的今天,文本分類技術(shù)還將與圖像識別、語音識別融合,如基于字幕的視頻分類、視頻檢索等。這就進一步要求文本分類技術(shù)與文本處理、降噪、提高分類精度等方面的技術(shù)相結(jié)合,這些方面都需要做進一步的探討和研究。
參考文獻:
[1] 陸玉昌,普明宇,李凡.向量空間法中詞條權(quán)重函數(shù)的分析和構(gòu)造[J].計算機研究與發(fā)展,2002,39(10):1205-1210.
[2] 周茜,趙明生.中文文本分類中的特征選擇研究[J].中文信息學報,2004,18(4):18-24.
[3] 張啟蕊,張凌,董守斌等.訓練集類別分布對文本分類的影響[J].清華大學學報,2005,45(1):1803-1806.
[4] 李正欣,趙林度.基于SMOTEBoost的非均衡數(shù)據(jù)集SVM分類器[J].系統(tǒng)工程,2008,25(6):117-120.
[5] 徐燕,李錦濤.基于區(qū)分類別能力的高性能特征選取方法[J].軟件學報,2008,6(19):82-89.