李湘東 潘 練
(1.武漢大學(xué)信息管理學(xué)院,武漢,430072; 2.武漢大學(xué)信息資源研究中心,武漢,430072)
LDA模型下文本自動分類算法比較研究——基于網(wǎng)頁和圖書期刊等數(shù)字文本資源的對比
李湘東1,2潘練1
(1.武漢大學(xué)信息管理學(xué)院,武漢,430072;2.武漢大學(xué)信息資源研究中心,武漢,430072)
[摘要]本文以信息資源管理中的網(wǎng)頁、圖書期刊的書目或題錄信息等主要數(shù)字文本為對象,使用概率主題模型(LDA)建模,通過對比分析KNN、類中心向量法、SVM等三種常見的分類算法所產(chǎn)生的不同分類效果,研究數(shù)字文本資源管理中的自動分類特性。實驗表明LDA模型下三種分類算法的分類正確率基本都能達到80%左右,SVM算法分類準(zhǔn)確率相較另兩種算法大約高0.7~22%左右。本文的結(jié)論可為數(shù)字文本分類系統(tǒng)使用LDA對文本建模時選擇合適的分類算法提供一定的依據(jù)。
[關(guān)鍵詞]LDA數(shù)字資源書目信息自動分類分類算法
1前言
信息技術(shù)的迅猛發(fā)展和網(wǎng)絡(luò)的普及應(yīng)用產(chǎn)生了海量的信息數(shù)據(jù),因此,研究與開發(fā)高效準(zhǔn)確的信息資源分類系統(tǒng)和技術(shù),以實現(xiàn)對大規(guī)模信息資源進行科學(xué)的組織管理顯得尤為重要。隨著信息資源數(shù)字化的深入發(fā)展,網(wǎng)頁、圖書的書目信息、期刊論文的題錄信息甚至全文等大部分信息資源通過數(shù)字化的形式存儲和傳輸,并以文本的形式保存下來,形成數(shù)字文本資源等信息資源管理的主要對象。文本分類就是指在帶有類別標(biāo)簽的文本集合中,根據(jù)每個類別的文本子集合的共同特點,找出一個分類模型,以便在后續(xù)過程中將未標(biāo)識文本映射到已有類別的過程[1]。近年來有關(guān)文本分類的研究集中在文本表示和分類算法兩個方面。文本表示是將自然語言文本這一非結(jié)構(gòu)化的數(shù)據(jù)轉(zhuǎn)化為結(jié)構(gòu)化可處理信息的過程,即文本的形式化處理的過程。文本表示方法通常采用向量空間模型VSM( Vector Space Model);隨著研究的深入,研究者們試圖利用統(tǒng)計方法的基本思路即挖掘文本的主題信息來拓展模型的種類, 其中典型的代表是由Deerwester 和Dumais 等人提出的隱含語義索引(LSI)[2]方法及其對應(yīng)的概率化改進版PLSI[3]。LSI方法因其降維作用較為顯著,在文本分類應(yīng)用中得到了較為深入的研究,其缺點是最終的分類性能受損且模型的參數(shù)空間和訓(xùn)練數(shù)據(jù)呈正比變化,因此對大規(guī)模或動態(tài)增長的語料庫進行建模時十分不利[4]。面對這些問題,研究者借鑒近年發(fā)展起來的概率圖模型理論和方法, 提出了一系列主題模型(Topic Models) , 主要是以LDA( Latent Dirichlet Allocation)[5]為代表的系列模型。另一方面,分類算法作為構(gòu)建分類模型的基礎(chǔ),由于直接影響了分類的效率和效果,成為文本分類的主要問題之一,受到研究人員廣泛的重視和關(guān)注。
由于文本分類算法的優(yōu)劣決定了文本分類最終效果的高低,比較不同分類算法所得的分類結(jié)果就顯得十分必要。本文針對網(wǎng)頁、圖書和期刊論文等主要數(shù)字信息資源,抽取來自圖書館OPAC的圖書書目信息、來自電子期刊數(shù)據(jù)庫的期刊題錄信息,并使用公開語料庫的網(wǎng)頁實驗材料為參照對象,在統(tǒng)一的文本表示即概率主題模型(LDA)的基礎(chǔ)上,分析和比較了三種常用的分類算法(K近鄰分類、類中心向量、支持向量機)對這些信息資源開展文本分類時的特性,希望通過這些實驗研究,分辨出不同分類算法的優(yōu)劣與特點,為信息資源管理中數(shù)字文本資源的自動分類等相關(guān)研究的實際應(yīng)用以及分類算法的選擇提供參考來源和依據(jù)。
2國內(nèi)外研究現(xiàn)狀
文本分類算法一般基于引入和改進機器學(xué)習(xí)領(lǐng)域的成果,使文本分類進入基本可實用的階段,目前常用的分類算法有:類中心向量、K近鄰分類(以下簡稱KNN算法)、樸素貝葉斯算法、神經(jīng)網(wǎng)絡(luò)、支持向量機(以下簡稱SVM算法)、決策樹算法等。不同算法的特點性質(zhì)各不相同,已有許多國外學(xué)者使用外文語料庫對各種算法的特性進行研究,如Yang和Liu選用路透社發(fā)布的Reuters-21578語料庫,對五種分類算法進行了評估,得到結(jié)論是SVM的分類效果與KNN和樸素貝葉斯相比更優(yōu)[6]?;谕瑯拥恼Z料庫,文獻[1]總結(jié)了前人的結(jié)論,并在文獻中對四種分類算法進行對比,以F1值的對比結(jié)果來看,SVM僅高出KNN算法約4%左右,而類中心與樸素貝葉斯結(jié)果相近但較前兩者準(zhǔn)確率更低。Zu和Ohyama從Reuters-21578語料庫中選取五類材料,比較了五種基于歐幾里得距離的分類算法的分類正確率,結(jié)論發(fā)現(xiàn)在維數(shù)較多(450-600)的情況下,基于RBM核的SVM分類比線性SVM和其他分類法取得了更好的分類效果[7]。Chen與Bogen使用1954~2011年ACM元數(shù)據(jù)和Ensemble中一系列真實數(shù)據(jù),比較了如KNN和樸素貝葉斯等分類法的準(zhǔn)確率和分類效率,比較下發(fā)現(xiàn)KNN算法能更好幫助完成對訓(xùn)練集對分類器的訓(xùn)練,并在此基礎(chǔ)上提出了一種使用現(xiàn)有數(shù)據(jù)來構(gòu)建分類器的方法[8]。國內(nèi)研究方面,陳立孚、周寧等人使用9種不同中文語料,比較了KNN算法和SVM算法,得到SVM算法分類效果更好的結(jié)論[9]。周文霞采用了復(fù)旦大學(xué)自然語言處理實驗室提供的基準(zhǔn)語料對幾種分類算法進行了測試,這一基準(zhǔn)語料分為20個類別,得到的結(jié)果是SVM和KNN明顯優(yōu)于貝葉斯,且這三種分類法得到的F1值都比類中心向量法高[10]。陳琳等人使用搜狗公開語料,從分類效果和運算時間兩個角度綜合而全面比較了KNN、貝葉斯和SVM三種分類算法的分類效果,認(rèn)為從綜合角度考慮,SVM算法效率更好[11]。張野等人針對搜狗語料庫,分別使用六種不同特征選擇方法和不同的分類維度,比較了KNN算法和SVM算法,也得出SVM明顯要優(yōu)于KNN的結(jié)論[12]。
然而以上的研究都是基于傳統(tǒng)的向量空間模型,基于其他模型的相關(guān)研究相對較少,如2007年劉美茹利用潛在語義索引(LSI)進行特征提取和降維,并結(jié)合SVM算法進行多類分類,實驗結(jié)果顯示與向量空間模型結(jié)合SVM方法和LSI 結(jié)合KNN方法相比,取得了更好的效果[13]。目前也還沒有文章結(jié)合概率主題模型(LDA),基于圖書信息和期刊題錄信息等真實數(shù)據(jù)來對比不同分類算法的分類效果,為信息資源管理領(lǐng)域的數(shù)字文本尋找合適的分類算法提供依據(jù),本文希望能彌補這一缺失。
3相關(guān)分類工作的原理
文本分類一般包括文本預(yù)處理、特征項選擇、文本表示、分類算法的選擇、分類效果評價等過程,主要是由訓(xùn)練階段和測試階段這兩部分組成的,訓(xùn)練階段主要是通過給定的訓(xùn)練集和分類模型,通過采用文本預(yù)處理和特征選擇等一系列方法來形成適用的分類器,測試階段是通過訓(xùn)練階段生成的分類器,判斷分類文本所屬的類別,并將其歸至某一類別的過程。
3.2.1K近鄰分類法(KNN)
KNN算法也稱為K近鄰分類法(K-nearest neighbors),其基本思路是計算新文本與訓(xùn)練集其他文本的距離值(即相似度),得到距離最接近或相似度最高的K個文本,通過這K個文本所屬的分類來判斷待分類文檔的類別。K近鄰分類法操作簡單方便,當(dāng)向訓(xùn)練樣本集中加入新的文本時,不需要重新訓(xùn)練,算法效率較高[14]。
3.2.2類中心向量
類中心向量法,也稱為Rocchio分類算法或相似度計算法,其基本思想是根據(jù)算術(shù)平均為每一個類別的文檔集生成一個代表該類別的中心向量,利用待分類文檔與每個類別的中心向量的相似度大小來完成分類。
計算待分類的文本向量與各個類別向量的關(guān)系值有歐幾里得距離和余弦相似度兩種算法。Rocchio 算法對于那些類間距離比較大而類內(nèi)距離比較小的類別分布情況能達到較好的分類效果,而對于那些不滿足這種“良好分布”的分布情況,Rocchio 算法的分類效果可能會比較差[15]。
3.2.3支持向量機(SVM)
支持向量機(Support Vector Machine)建立在統(tǒng)計學(xué)習(xí)理論和結(jié)構(gòu)風(fēng)險最小原理基礎(chǔ)之上的[16],是一種將不可分的有限樣本從低維特征空間中變換到高維特征空間來提高其可分類性的算法。
支持向量機是基于線性可分情況下的最優(yōu)分類面提出的。它在特征向量空間中找到一個決策面(decision surface),這個面能“最好”地分割兩個分類中的數(shù)據(jù)點,為了定義“最好”分割,支持向量機引入兩個分類的分類間隔(margin)的定義:即兩個決策面之間的距離[17]。當(dāng)分類間隔越大時,分類效果越好的,即為好的分類模型。
3.2.4分類器性能評估
為了更好地評價文本分類器的性能,國際上廣泛采用微平均和宏平均相結(jié)合的評價準(zhǔn)則,并使用查準(zhǔn)率(Precise)、查全率(Recall)和F1值來對比算法的優(yōu)劣。本實驗采用常用的將查全率和查準(zhǔn)率結(jié)合起來的性能評價方法即微平均Micro_F1值和宏平均Macro_F1值,計算公式如下:
(8)
(9)
其中,R代表的是類別的查全率,定義為正確判別為正例的測試樣本的個數(shù)占正例樣本個數(shù)的比例,查全率僅與棄真樣本的個數(shù)相聯(lián)系,棄真樣本數(shù)越高,查全率越低;而P代表類別的查準(zhǔn)率,代表了正確判別為正例的測試樣本的個數(shù)占判別為正例樣本個數(shù)的比例,在同一簇分類器中,二者關(guān)系式相互制約[18]。 F1綜合考慮并計算查全率和查準(zhǔn)率以及它們的偏向度。另外,宏平均容易受小類的影響,微平均容易受大類的影響,其中,k是類別數(shù),Ti,Ci,Ni分別表示第i類中分類正確的文本個數(shù)、分到第i類中的文本個數(shù)和第i類中實際包含的文本個數(shù)。
LDA 模型是一種對離散數(shù)據(jù)集(如文檔集)建模的概率增長模型。它的理論基礎(chǔ)是假設(shè)文檔是由若干個隱含主題構(gòu)成,而這些主題是由文本中若干個特定詞匯構(gòu)成,文檔中的句法結(jié)構(gòu)和詞語出現(xiàn)的先后順序被忽略。如圖1所示,假設(shè)文檔集合(頂部大圓)可以分成若干隱含主題(實心圓),而隱含主題又由若干特定詞匯構(gòu)成(底部小圓)。
圖1 LDA隱含主題的拓?fù)浣Y(jié)構(gòu)示意圖
圖2所示,LDA 模型是一種典型的有向概率圖模型,它擁有三層生長式貝葉斯網(wǎng)絡(luò)結(jié)構(gòu),依次為文檔集合層、文檔層和詞層。LDA 模型由文檔集合層的參數(shù)(α,β) 確定,α代表文檔中隱含主題間的相對強弱,可理解為獲得文本集中以前主題被抽樣的次數(shù),β代表所有隱含主題自身的概率分布,可理解為見到文本集中的特征詞以前從主題抽樣獲得的特征詞頻數(shù),兩個超參數(shù)一般設(shè)置為α= 50 /T,β= 0.01[4]。隨機變量θ代表文檔層,其分量代表目標(biāo)文檔中各隱含主題的比重。詞層中Z表示文檔分布在每個詞上的隱含主題比例,W是目標(biāo)文檔的詞向量表示形式。
圖2 LDA模型圖
用于文檔集主題建模的LDA主題模型的符號定義如下:
(1)詞是文本數(shù)據(jù)的基本單元,是用{1……V}索引的詞表的分項。詞表中的第V個詞用一個V維的向量W表示,其中對于任意μ≠v,WV=1,Wμ=0;
(2)用d={w1,w2,w3……wn} 表示文檔,wn是文檔序中的第n個詞;
(3)D是M個文本的集合,對于給定的文本集D,表示為D={d1,d2,d3.....dM}。
構(gòu)建并使用LDA 模型的核心問題是隱含變量分布的推斷[19],即獲得目標(biāo)文檔內(nèi)部隱含主題的構(gòu)成信息。LDA概率主題模型生成文本的過程如下:
(1)對每個不同主題j,根據(jù)狄利克雷分布Dir(β)得到該主題上面的一個單詞多項式分布向量φ’;
(2)通過泊松分布Poisson(ξ)得到文本的單詞數(shù)N;根據(jù)狄利克雷分布Dir(α)得到文本的相應(yīng)主題分布概率向量θ;
(3)對該文本N個單詞中得每個單詞Wn。
假設(shè)文檔集中有D個文檔,隱含K個獨立的主題,則所給文本中的第i個詞匯Wi出現(xiàn)的概率為:
(10)
(11)
4基于LDA模型的文本分類
基于LDA的文本分類的具體過程如下:
(1)預(yù)處理階段,主要是進行分詞和去除停用詞。語料庫經(jīng)過中科院分詞系統(tǒng)ICTCLAS進行分詞,去除停用詞;
(2)對不同主題數(shù),采用LDA模型對訓(xùn)練集進行分析建模,確定最優(yōu)主題數(shù),使模型對于語料庫數(shù)據(jù)中的有效信息擬合最佳,參數(shù)推理采用Gibbs抽樣,迭代足夠多次數(shù),獲得訓(xùn)練文本的文本-主題矩陣和主題-特征詞矩陣;
(3)在上一步得到的文檔集的隱含主題-文本矩陣上訓(xùn)練、構(gòu)造文本分類器,從而得到分類模型(本文分別使用不同分類法);
(4)運行GibbS抽樣算法,迭代較少的次數(shù),計算分類文本d的隱含主題集的概率分布情況;
(5)根據(jù)分類模型,預(yù)測待分類文本的類別。
語言模型中標(biāo)準(zhǔn)的評判準(zhǔn)則采用困惑度(perplexity)評價各種LDA模型的性能。在訓(xùn)練集上訓(xùn)練得到最優(yōu)LDA模型,通過計算一個給定訓(xùn)練集合的困惑度可以評價該模型產(chǎn)生文本的能力,困惑度越低模型推廣性越好,困惑度的公式為:
(12)
其中,M為文本集中的文本數(shù),Nm為第m篇文本的長度,P(dm)為LDA模型產(chǎn)生第m篇文本的概率,公式為:
(13)
5實驗及結(jié)果分析
本文實驗材料首先選擇搜狗公開語料庫(http://www.sogou.com/labs/dl/t.html)作為實驗材料,選取庫中的三個主題內(nèi)容各不相同的語料,并在此基礎(chǔ)上分別增至五種、七種主題材料。實驗數(shù)據(jù)共涵蓋來自文化、科技、經(jīng)濟、環(huán)境、歷史、物理、體育共計七種不同內(nèi)容的材料,每個類隨機抽取200篇作為訓(xùn)練集,100篇作為測試集,訓(xùn)練集和測試集之間無重復(fù),訓(xùn)練集和測試集均包含文章的題名和摘要。
另外,為了增強本研究在信息資源管理領(lǐng)域的實用性,本文根據(jù)圖書書目信息和期刊論文標(biāo)題與摘要等信息資源管理領(lǐng)域真實數(shù)據(jù)自建語料庫進行試驗。圖書語料獲取自武漢大學(xué)圖書館館藏書目數(shù)據(jù)庫(http://opac.lib.whu.edu.cn/),包括計算機技術(shù)、軍事和體育三個大類2009年部分中文圖書文獻的書目信息;期刊語料數(shù)據(jù)摘自中國知網(wǎng)(http://www.cnki.net/),包括了計算機技術(shù)、體育和軍事三個類別,源自《計算機學(xué)報》、《體育科學(xué)》和《軍事歷史研究》三種期刊2007~2009年真實數(shù)據(jù)。每個類隨機抽取200篇作為訓(xùn)練集,100篇作為測試集,訓(xùn)練集和測試集之間無重復(fù),自建語料庫中訓(xùn)練集包括材料的題名和摘要,測試集則只包括題名,圖書書目信息和期刊論文對于不同分類法均進行5組實驗,每次實驗材料均不相同,最后取平均值作為實驗結(jié)果。
本文分兩步進行實驗:
(1)步驟一:用困惑度確定最優(yōu)主題數(shù)。為了評估LDA模型的優(yōu)越性和有效性,使用Gibbs抽樣獲取LDA模型參數(shù)時,令α=50/T(T為主題數(shù)),β=0.01,Gibbs抽樣算法訓(xùn)練集迭代1000次,測試集迭代100次,搜狗語料庫將LDA模型主題數(shù)設(shè)置為30-100(間隔10),自建語料庫主題數(shù)設(shè)置為5-50(間隔5),在不同主題數(shù)下分別運行Gibbs算法,三種語料庫困惑度隨主題數(shù)變化如圖3~5。
使用困惑度獲得的搜狗語料的最優(yōu)主題數(shù)為110,但由于搜狗材料種類篇數(shù)較多,數(shù)據(jù)龐大,困惑度不一定能準(zhǔn)確反映最好的分類效果,為了更全面對比系統(tǒng)的分類效果,本實驗將搜狗主題數(shù)30-100(間隔10)中每種主題數(shù)都進行實驗,發(fā)現(xiàn)最好的分類效果出現(xiàn)在主題數(shù)等于30時。自建語料庫中圖書書目和學(xué)術(shù)期刊語料庫使用困惑度獲得的最優(yōu)主題數(shù)則分別為35和30。
圖3 三、五、七種類別材料的搜狗語料困惑度值圖
圖4圖書語料困惑度值
圖5期刊語料困惑度值
(2)步驟二:語料庫使用中科院分詞系統(tǒng)ICTCLAS進行分詞并去除停用詞。使用潛在語義模型作為文本表示,在實驗過程中我們同樣發(fā)現(xiàn)通過困惑度確定的最優(yōu)主題數(shù)未必會得到最好的分類效果,因此對于不同種類數(shù)的搜狗語料分別取主題數(shù)30-110(間隔10)后的分類效果進行比較,針對搜狗三種類別材料,選擇分類效果最好和困惑度最小時兩種情況對比結(jié)果(見表1)。圖書期刊語料直接對比困惑度最小時的分類結(jié)果,抽取五組材料分別進行實驗后,得到的結(jié)果平均值如表2。
表1 搜狗語料應(yīng)用不同算法的分類結(jié)果對比(兩種不同主題數(shù))
表2 圖書期刊語料應(yīng)用不同算法的分類結(jié)果對比
根據(jù)表1,發(fā)現(xiàn)搜狗語料庫中處理三、五、七類語料在主題數(shù)為30時,分類結(jié)果的宏平均F1值的曲線如圖6,微平均F1值如圖7。觀察圖6與圖7,兩種評價指標(biāo)Macro_F1和Micro_F1的所得結(jié)果類似,因此下文僅針對Macro_F1進行數(shù)據(jù)說明。以上兩個表格中可知,當(dāng)主題數(shù)為30、搜狗材料所涉及語料內(nèi)容包括三種時,三種分類方法表現(xiàn)相當(dāng)接近,都達到90%以上,使用類中心向量法的宏平均F1值比使用KNN算法高出1.4%,比使用SVM高出0.25%,分類準(zhǔn)確率差距較小,三種分類算法在實驗材料涵蓋的范圍較小或?qū)嶒灢牧陷^少時,在特征值為30的情況下都表現(xiàn)出了較好的分類效果。同樣的,當(dāng)搜狗材料包含語料類別達到五種時,三種分類方法的表現(xiàn)都接近于91.5%左右,SVM算法略分別比另外兩種算法高0.7%和0.9%。當(dāng)搜狗材料包含語料類別達到七種時,SVM算法宏平均F1值較類中心向量算法高出4.4%,較KNN算法高出5.6%,由此可知當(dāng)實驗語料涵蓋范圍較廣或語料數(shù)量增多后,SVM算法的適應(yīng)性較高。
圖6 主題數(shù)30時搜狗語料分類效果比較
圖7 主題數(shù)30時搜狗語料分類效果比較
當(dāng)搜狗語料類處理三、五、七類語料時,主題數(shù)110時,分類結(jié)果的宏平均F1值的曲線如圖8。當(dāng)搜狗材料所涉及語料類別只有三種時,使用類中心向量法的分類宏平均F1值比使用KNN算法高出22.7%,比使用SVM高出0.21%。當(dāng)搜狗材料包含語料類別達到五種時,類中心向量和SVM分類方法的表現(xiàn)都接近于90%,KNN算法僅有83.1%,SVM算法比KNN算法高6.9%。當(dāng)搜狗材料包含語料類別達到七種時,KNN算法和類中心向量法宏平均F1值接近70%,SVM算法最高,達到87%,平均高出其他兩種約17%左右,由此可知在語料及語料涉及范圍增加的情況下,SVM算法仍舊表現(xiàn)出了較好的適應(yīng)性。
圖書書目和學(xué)術(shù)期刊語料分類效果宏平均F1值如圖9所示。學(xué)術(shù)期刊宏平均F1值均在85%左右,其中類中心向量法的分類宏平均F1值達87.24%,較SVM算法高3%,較KNN算法高7%,此時類中心向量法更能適應(yīng)學(xué)術(shù)期刊材料分類的工作,根據(jù)我們對類中心向量算法的了解,這可能是由于材料類間距離比較大而類內(nèi)距離比較小的類別分布情況導(dǎo)致的。而對圖書書目語料,SVM算法分類正確率達84%,比KNN和類中心分別高出10%和4%,分類表現(xiàn)明顯較好,說明SVM算法相較其他二種算法能更好地適應(yīng)圖書書目的分類。
圖8 主題數(shù)110時搜狗語料分類效果比較
圖9 圖書期刊語料分類效果比較
6總結(jié)及展望
本文主要以信息資源領(lǐng)域的網(wǎng)頁、圖書期刊的書目或題錄信息等主要數(shù)字文本資源為對象,使用LDA模型作為統(tǒng)一的文本表示方法,比較了常用的三種分類算法分類效果和特性,希望能分辨出不同算法在實際應(yīng)用中的優(yōu)劣,借此尋找更適用于信息資源管理的自動分類算法。從實驗結(jié)果中得知,LDA模型環(huán)境下,三種算法中的KNN 算法模型簡單,但當(dāng)語料種類增多后,其分類精確度不高,尤其在對規(guī)模較大信息資源語料庫進行分類時顯得十分不利。類中心向量法相比KNN具有較高的分類效果,在極少數(shù)情況下與KNN相近。大部分情況下SVM算法分類準(zhǔn)確率相較另兩種算法高0.7~22%左右,極少部分情況下類中心向量法高出SVM算法0.2~0.7%,以上三種分類算法的分類正確率基本能達到80%左右。實驗結(jié)果表明,在三種分類算法都能正常運行的情況下,SVM算法取得了更好的分類效果。本次實驗的結(jié)果也說明不同分類方法和分類語料都對信息資源數(shù)字文本分類的結(jié)果造成不同程度的影響。本文的后續(xù)工作是進一步研究基于LDA的文本分類技術(shù)中,特征項選擇法等其他因素對網(wǎng)頁、圖書和期刊等數(shù)字文本自動分類結(jié)果的影響。
參考文獻
[1]Sebastiani F.Machine learning in automated taxt categorization[J].ACM computing surveys,2002,34(1):1-47
[2]Deerwester S, Dumais S T, Furnas G W, etc. Indexing by latent semantic indexing[J]. Journal of the American Society for Information Science, 1990, 41(6):391-407
[3]Hofmann T. Probabilistic latent semantic indexing[C]// Proceedings of the Twenty-Second Annual International SIGIR Conference on Research and Development in Information Retrieval (SIGIR-99). Berkeley, CA, 1999: 50-57
[4]李文波,孫樂,張大鯤. 基于Labeled-LDA模型的文本分類新算法[J]. 計算機學(xué)報,2008(4):620-627
[5]Blei D M, Ng A Y, Jordan M I. Latent dirichlet allocation[J]. Journal of Machine Learning Research, 2003, 3(4-5): 993-1022
[6]Yang Y,Liu X.A re-examination of text categorization methods[C]//Proceedings of the 22nd annual international ACM SIGIR conference on Research and development in information retrieval(SIGIR’99).New York,NY:ACM,1999:42-49
[7]Zu G,Ohyama W,Wakabayashi T,et al.Accuracy improvement of automatic text classification based on feature transformation[C]//Proceedings of the 2003 ACM symposium on Document engineering.New York,NY:ACM,2003:118-120
[8]Chen Y,Bogen P L,Hsieh H,et al.Categorization of computing education resources with utilization of crowdsourcing[C]//Proceedings of the 12th ACM/IEEE-CS joint conference on Digital Libraries.New York,NY:ACM,2012:121-124
[9]陳立孚,周寧,李丹. 基于機器學(xué)習(xí)的自動文本分類模型研究[J]. 現(xiàn)代圖書情報技術(shù),2005(10):23-27
[10] 周文霞.現(xiàn)代文本分類技術(shù)研究[J]. 武警學(xué)院學(xué)報,2007,23(12): 93-96
[11] 陳琳,王健. 三種中文文本自動分類算法的比較和研究 [J]. 計算機與現(xiàn)代化, 2012(2): 1-4, 7
[12] 張野,楊建林. 基于KNN和SVM的中文文本自動分類研究[J]. 情報科學(xué),2011,29(9):1313-1317,1377
[13] 劉美茹. 基于LSI和SVM的文本分類研究[J]. 計算機工程, 2007,33(15):217-219
[14] 周頑,周才學(xué). 基于擴展概念格模型的文本分類規(guī)則提取的研究[J].計算機工程與科學(xué),2010,(08):98-100,103
[15] 李淑英,杜麗娟. 淺談文本分類技術(shù)[J],中國科技博覽,2009(12): 244
[16] 張學(xué)工. 關(guān)于統(tǒng)計學(xué)習(xí)理論與支持向量機[J]. 自動化學(xué)報, 2000, 26(1): 32-42
[17] 翟林, 劉亞軍. 支持向量機的中文文本分類研究[J]. 計算機與數(shù)字工程, 2005, 33(3): 21-23, 45
[18] 宋楓溪,高林. 文本分類器性能評估指標(biāo)[J]. 計算機工程, 2004, 30(13):107-109, 127
[19] Wainwright M J, Jordan M I.A variational principle for graphical models[A]//Haykin S, Principe J, Sejnowski T, etc. eds. New Directions in Statistical Signal Processing: From Systems to Brain. Cambridge, MA: MIT Press, 2005: 155-202
Text Classification Algorithms Using the LDA Model: On the Comparison of the Applicaitons on Webpages and eTexts Including Books and Journals
Li XiangdongPan Lian
(1.School of Information Management, Wuhan University, Wuhan 430072;2.Center for the Studies of Information Resources of Wuhan University, Wuhan 430072)
[Abstract]The object of this research is the bibliographic information and other major digital text of Webpage, books and journals in the information resource management. Based on the LDA model, this paper studies the characteristics of automatic text classification in digital resources management,and analyzes the different effect and influence of three kinds of common classification algorithm which including KNN, SVM and Rocchio algorithm. The experiment shows that the accuracy of three classification algorithms basic is about 80%, while in most cases SVM algorithm having 0.7~22% higher classification accuracy than the other two algorithms. Its conclusion may provide a certain basis for choosing the appropriate classification algorithm when LDA model is using in digital information classification system.
[Key words]LDADigital resourcesBibliographic informationClassificationClassification algorithm
(收稿日期:2014-09-11)
DOI:10.13365/j.jirm.2015.04.024
[中圖分類號]TP391;G202
[文獻標(biāo)識碼]A
[文章編號]2095-2171(2015)04-0024-08
[作者簡介]李湘東,博士,副教授,研究方向為自動分類、數(shù)據(jù)挖掘,Email:xli_xiao@hotmail.com;潘練,碩士生,研究方向為自動分類。