邱前智 劉忠
桂林理工大學(xué) 廣西 541004
隨著信息技術(shù)的飛速發(fā)展特別是互聯(lián)網(wǎng)的廣泛普及,網(wǎng)絡(luò)文本以指數(shù)級別增長,網(wǎng)絡(luò)文本成為人們進行信息交流的重要方式。如何對浩如煙海的文檔、資料和數(shù)據(jù)進行自動分類、組織、挖掘和管理,已經(jīng)成為一個具有重要用途的研究課題。文本分類是在預(yù)定義的體系下與一個或者多個類別相關(guān)聯(lián)的過程。文本分類作為信息檢索和數(shù)據(jù)挖掘的基礎(chǔ)技術(shù)和研究熱點,從上個世紀50年代至今,已經(jīng)取得長足發(fā)展。廣泛應(yīng)用于郵件分類、自動文摘、信息過濾、電話會議等。特征選擇(Feature Selection,F(xiàn)C)作為文本分類的關(guān)鍵一步,具有降低向量空間維數(shù)、簡化計算、以及去除噪聲等作用,征提取的好壞將直接影響著文本分類的準確率和效率。特征選擇一般是通過構(gòu)造一個特征評分函數(shù),把測量空間的數(shù)據(jù)投影到特征空間,得到在特征空間的值,然后根據(jù)特征空間中的值對每個特征進行評估,特征選擇就成了選擇值最高的若干個特征。常用的特征選擇方法(如信息增益、互信息)采用統(tǒng)計方法處理詞語與類別,忽略特征詞之間的語義關(guān)系。本文提出一種基于上下文的詞匯相關(guān)度的特征選擇方法,通過計算詞語與類別關(guān)鍵詞詞匯相關(guān)度,設(shè)定相關(guān)度閥值,進行特征取舍,降低特征空間的高維性,并有效減少噪聲,得出最優(yōu)特征空間,從而提高了分類精度和算法效率。
網(wǎng)絡(luò)文本作為一種結(jié)構(gòu)化的特殊文本,除了文本信息之外,還有其他描述信息,如標題、頁面描述和超鏈接等標簽(tag)。所以文本分類具有特殊性。一般包含如下幾個重要的步驟,每個步驟都涉及各自相關(guān)技術(shù)。
預(yù)處理包括兩個具體步驟:第一步將網(wǎng)絡(luò)文本的所有標簽(tag)去除,轉(zhuǎn)化為一般文本;第二步去除停用詞,既去除高頻詞和情感詞。
預(yù)處理之后,進行中文分詞。中文文本不像英語等,中文詞與詞之間沒有顯示標志。因此中文分詞成為處理計算機處理中文時面臨的首要基礎(chǔ)性工作。常用的分詞工具有很多,比如:中科院的 ICTCLAS中文分詞工具、IK Analyzer等。
文本表示模型常用的是向量空間模型(VSM),其他常用模型還有詞組表示法、概念特征表示法。
傳統(tǒng)的特征選擇方法主要有:基于文檔頻率(document frequency, DF)法、信息增益(information gain, IG)法、互信息(mutual information, MI)法。
特征權(quán)重是衡量某個特征項在文檔表示中的重要程度。權(quán)重計算方法一般有絕對詞頻(TF)、倒排序文檔頻率(IDF)、TF-IDF等。
分類器是相當重要的一個步驟,常用的分類算法包括:樸素貝葉斯分類法、基于支持向量機、k-最近鄰法、神經(jīng)網(wǎng)絡(luò)法、決策樹法、Rocchio分類法和Boosting算法。
圖1 分類流程圖
詞匯相關(guān)性計算在很多領(lǐng)域中都有廣泛應(yīng)用,例如信息檢索、信息抽取、文本分類等等。詞匯相關(guān)性計算的兩種基本方法是基于世界知識(Ontology)或某種分類體系(Taxonomy)的方法和基于上下文統(tǒng)計的方法。這兩種方法各有優(yōu)缺點。
基于上下文統(tǒng)計的方法計算詞匯相關(guān)度假設(shè):兩個詞經(jīng)常共同出現(xiàn)在文檔的同一窗口單元(如一句話、一個自然段等),則認為這兩個詞在意義上是相互關(guān)聯(lián)的,并且,共現(xiàn)的概率越高,其相互關(guān)聯(lián)越緊密。
本文采用的 Jaccard系數(shù)計算兩個詞語的詞匯相關(guān)度是一種基于上下文統(tǒng)計的方法。
Jaccard系數(shù)計算公式如下:
P和Q是代表文檔中的兩個詞匯;H(P)代表P在窗口出現(xiàn)的次數(shù),H(Q)代表Q在窗口出現(xiàn)的次數(shù),H(P∩Q)則代表P和Q一起出現(xiàn)的次數(shù)。
詳細步驟如下:
(1) 確定領(lǐng)域,確定需要分類文本的所屬領(lǐng)域,經(jīng)濟、政治、等等。既是語料庫所包含的文本的類別;
(2) 自定義一個語義范圍,根據(jù)《知網(wǎng)》對每個領(lǐng)域確定好類別關(guān)鍵詞,建立1-10的相關(guān)度。例如:經(jīng)濟領(lǐng)域,我們選取出資人、收入、股票、貨物、商人、貿(mào)易、公司、商業(yè)、金融、經(jīng)濟;
(3) 對文本進行預(yù)處理;
(4) 分詞;
(5) 將訓(xùn)練文本中的詞匯與類別關(guān)鍵詞用 1式進行相關(guān)計算。形式如下:Jaccard(類別關(guān)鍵詞,待選詞匯);設(shè)定閥值,進行特征選擇,得出最終特征集合;
(6) 選擇文本表示模型;
(7) 選擇文本分類器;
(8) 對測試文本,用特征集,進行文本表示;
(9) 測試評估,動態(tài)調(diào)整算法。
我們在Weka平臺上,進行對比試驗(如表1)。在特征權(quán)重選用TF-IDF,分類器用KNN算法,樸素貝葉斯算法。用搜狗2008迷你版語料庫分為訓(xùn)練文本和測試文本,其包含軍事、文化等十個為本類別,每個類別分別有100篇文檔,是一個平衡語料庫。將本方法與信息增益、互信息法進行比較。我們采用了查準率(Precision,p)和算法時間(Time,T)作為評價指標。
表1 實驗結(jié)果
經(jīng)過實驗結(jié)果,我們得出基于詞匯相關(guān)性的特征選擇比傳統(tǒng)的特征選擇方法在分類精度和算法運行時間均有穩(wěn)定的提高。
文本分類是信息檢索、信息過濾和搜索引擎工作的技術(shù)基礎(chǔ)。文本特征的高維性是影響分類精度和效率的一個重要因素,如何進行有效的特征降維成為文本分類的一個研究熱點。本文采用詞匯相似度進行特征選擇改進文本分類算法,有效地提高了分類精度和算法效率。
[1]宗成慶.統(tǒng)計自然語言處理[M].北京:清華大學(xué)出版社.2008.
[2]申紅,呂寶糧,內(nèi)山將夫,井佐原均.文本分類的特征提取方法比較與改進[J].計算機仿真.2006.
[3]劉群,李素建.基于《知網(wǎng)》的詞匯語義相似度算[J].Computational Linguistics and Chinese Language Processing.2002.
[4]張燕平,史科,徐慶鵬,謝飛.基于詞共現(xiàn)模型的垃圾郵件過濾方法研究[J].中文信息學(xué)報.2009.
[5]Boll gala,D.,Matsuo,Y.,and Ishizuka,M.(20-07) Measuring.semantic similarity between words using web search engines.In Proc.2007.