• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于互信息的文本分類改進(jìn)方法研究

      2017-10-21 03:47:04璇,孫偉,張
      關(guān)鍵詞:特征詞互信息詞頻

      余 璇,孫 偉,張 翔

      (上海海事大學(xué) 信息工程學(xué)院,上海 201306)

      基于互信息的文本分類改進(jìn)方法研究

      余 璇,孫 偉,張 翔

      (上海海事大學(xué) 信息工程學(xué)院,上海 201306)

      傳統(tǒng)的LDA主題模型沒有考慮詞頻對(duì)主題分類的影響,使得主題分布向高頻詞傾斜。為了綜合考慮詞頻和主題間的相關(guān)性,文中利用互信息能夠表達(dá)變量間相關(guān)性的特點(diǎn),在互信息基礎(chǔ)上改進(jìn)作為特征選擇方法,利用評(píng)價(jià)函數(shù)評(píng)價(jià)特征詞的權(quán)重值改進(jìn)LDA算法分類過程,提高對(duì)主題分類貢獻(xiàn)度高的特征詞的作用。通過在新聞?wù)Z料庫上的分類實(shí)驗(yàn)證明了該方法的有效性,同時(shí)表明分類的準(zhǔn)確率也有所提高。

      主題模型;詞頻;互信息;特征選擇

      0 引言

      文本分類是指在給定分類體系下,根據(jù)文本內(nèi)容自動(dòng)確定文本類別的過程,本質(zhì)上是一種模式識(shí)別過程,它可以對(duì)文本的特征模式進(jìn)行識(shí)別,關(guān)鍵技術(shù)有語料庫的預(yù)處理、特征選擇、分類模型構(gòu)建等。主題模型[1](topic modeling)是一種常見的機(jī)器學(xué)習(xí)方法,可以自動(dòng)提取隱含在文檔集中的主題,并且按照詞的分布形式直觀地表達(dá)主題,無監(jiān)督地分析文檔和預(yù)測(cè)新文檔,目前廣泛應(yīng)用于對(duì)文本的分類。其中LDA(Latent Dirichlet Allocation)[2]主題模型由于其參數(shù)簡(jiǎn)單,不產(chǎn)生過度擬合的現(xiàn)象,逐漸成為主題模型應(yīng)用于文本分類的研究熱點(diǎn)。根據(jù)zipf定律,文檔中的詞頻分布符合冪律分布,在LDA主題模型學(xué)習(xí)時(shí),這種冪律分布影響了詞對(duì)主題間相關(guān)性的表達(dá)能力。針對(duì)這一現(xiàn)象,利用評(píng)價(jià)函數(shù)通過特征選擇提取出文檔中特征詞,對(duì)特征集中的每一個(gè)特征詞進(jìn)行評(píng)估,選取特定數(shù)目的特征詞組成特征子集表示文本,達(dá)到文本降維的目的。傳統(tǒng)的特征選擇方法有詞頻[3](Term Frequency,TF)、文檔頻率[4](Document Frequency,DF)、信息增益[5](Information Gain,IG)、互信息[6](Mutual Information,MI)、卡方統(tǒng)計(jì)[6](Chi-square Statistic,CHI)、期望交叉熵[6](Expected Cross Entropy,ECE)、文本證據(jù)權(quán)[6](Weight of Evidence for Text,WET)、優(yōu)勢(shì)比[6](Odds Ratio,OR)等方法。文本利用詞頻與互信息結(jié)合做為評(píng)估函數(shù)提取特征詞,并在LDA模型中對(duì)特征詞進(jìn)行加權(quán)處理,提高特征詞對(duì)文本主題分類的能力。

      1 主題模型

      LDA主題模型是一種對(duì)文本數(shù)據(jù)的主題信息進(jìn)行提取的方法,通過對(duì)文本內(nèi)容進(jìn)行簡(jiǎn)短的描述,保留本質(zhì)的統(tǒng)計(jì)信息,高效地處理大規(guī)模數(shù)據(jù)集。LDA模型是一個(gè)產(chǎn)生式三層貝葉斯概率模型,分別是文檔層、主題層和詞層。

      為了表述文檔中主題類間的相關(guān)性問題,在LDA模型的基礎(chǔ)上,Blei等人在LDA模型提出之后接著提出了CTM[7](Correlated Topic Model)模型,用邏輯正態(tài)分布(Logistic-Normal)替換Dirichlet主題先驗(yàn)分布,通過引入主題間的協(xié)方差矩陣來描述主題相關(guān)性。Li等人提出PAM[8](Pachinko Allocation Model)模型,用一個(gè)有向無環(huán)圖(DAG)表示語義結(jié)構(gòu),在描述詞之間的相關(guān)性的同時(shí),還描述了主題之間的相關(guān)性,通過主題相關(guān)性提高文本分類效果。張振平、宣國(guó)榮等人[9]于2005年提出一種基于分類錯(cuò)誤率最小的改進(jìn)型LDA特征選擇算法 ,采用迭代計(jì)算使Bayes分類錯(cuò)誤率上界最小,取得比原LDA更好的分類效果。由于LDA模型應(yīng)用廣泛,盧盛祺等人[10]提出了一種基于LDA模型的電影推薦方法,提高了視頻推薦的精度。

      2 特征選擇

      針對(duì)LDA模型的主題分布中詞分布不均勻現(xiàn)象,高頻詞的比重大導(dǎo)致能夠代表主題的多數(shù)詞被少量的高頻詞淹沒,使得主題表達(dá)能力降低,張小平、周雪忠[11]利用高斯函數(shù)對(duì)特征詞加權(quán),改進(jìn)模型的主題分布。雖然在數(shù)據(jù)預(yù)處理階段大量無用詞已被剔除,但在構(gòu)造分類器時(shí),其余的特征詞數(shù)量仍然很多,并且有很多特征詞表述類別信息能力較差,甚至?xí)`導(dǎo)分類結(jié)果。因此,為提高分類器的效率,更好地表示主題間的關(guān)系,本文從這些特征詞中進(jìn)一步挑選出對(duì)類別貢獻(xiàn)大的特征詞構(gòu)成特征向量。對(duì)于幾種不同的特征選擇方法,下面著重介紹詞頻和互信息。

      2.1詞頻

      詞頻指特征詞的頻次(Term Frequency,TF),即特征詞在所有文本即整個(gè)語料中出現(xiàn)的次數(shù)。設(shè)立閾值根據(jù)詞頻的大小對(duì)所有詞項(xiàng)進(jìn)行篩選。

      2.2互信息

      作為計(jì)算語言學(xué)模型分析中的重要內(nèi)容,互信息可以衡量?jī)蓚€(gè)事件之間的相關(guān)性。兩個(gè)事件X和Y的互信息計(jì)算方法為:

      H(X,Y)=H(X)+H(Y)-H(X,Y)

      (1)

      其中H(X,Y)是事件的聯(lián)合熵,定義為:

      H(X,Y)=-∑p(x,y)log(p(x,y))

      (2)

      在文本分類中特征詞和主題類的互信息公式為:

      (3)

      其中,p(t)表示特征詞t在整個(gè)文檔集中出現(xiàn)的文檔頻,p(ci)是文檔集中第ci類文檔個(gè)數(shù)與整個(gè)文檔集中文檔個(gè)數(shù)的比值,p(t,ci)表示類別c中含有特征t的文檔個(gè)數(shù)。

      3 基于詞頻和互信息結(jié)合的改進(jìn)主題模型方法

      3.1特征詞的抽取

      特征詞在一篇文檔中的詞頻率并不絕對(duì)對(duì)應(yīng)于該特征詞在該文檔中的重要性,互信息方法可以度量特征詞對(duì)于整個(gè)文檔集分類的重要程度,它根據(jù)文檔頻和特征詞與類別之間的關(guān)系判斷詞對(duì)主題類劃分的貢獻(xiàn)度。缺點(diǎn)是有可能導(dǎo)致最終所得的特征集中,能夠代表某類的特征詞較多,而代表其他類的較少,即會(huì)導(dǎo)致特征集合“不均勻”。

      為了提高特征詞對(duì)文本分類的貢獻(xiàn)度,需要重新構(gòu)造每篇文檔的特征向量,即在構(gòu)造特征向量時(shí),使用原來的特征詞構(gòu)成特征向量,同時(shí)將在該文檔中以高詞頻出現(xiàn)的特征詞補(bǔ)充在向量列表中。本文通過詞頻與互信息結(jié)合的方式,用式(4)作為評(píng)價(jià)函數(shù)計(jì)算每個(gè)特征詞在一篇文檔中的貢獻(xiàn)度:

      (4)

      為了得到特征詞t與各個(gè)文檔的平均關(guān)聯(lián)程度,特征詞對(duì)于文檔集的平均互信息計(jì)算公式為:

      (5)

      在主題分類前由于不確定主題類,因此本文用互信息表示特征詞與文檔之間的相關(guān)程度,其中p(di)表示第i篇文檔的詞頻,p(t)表示特征詞t在整個(gè)文檔集中出現(xiàn)的詞頻,p(t,di)表示文檔i中含有特征詞t的詞個(gè)數(shù)。利用詞頻代替文檔頻表示特征詞與文檔的相關(guān)性方法,避免了僅僅考慮文檔頻不考慮詞頻導(dǎo)致的最終計(jì)算出的互信息值大量相同的現(xiàn)象,減緩最終根據(jù)閾值篩選特征詞時(shí)丟失很多有價(jià)值的特征詞的問題。

      3.2模型的推導(dǎo)與估計(jì)

      將文檔集表示為D篇文本,假設(shè)由K個(gè)主題混合產(chǎn)生表示每篇文本,主題類別個(gè)數(shù)K已知,并且主題類間相互獨(dú)立,忽略文本中的語法結(jié)構(gòu)和詞出現(xiàn)的先后順序,每個(gè)主題k由詞的多項(xiàng)式分布形成。將LDA模型使用概率圖表示(如圖1),圖中黑色標(biāo)志詞w是唯一可觀察到的變量,wdn表示第d篇文本的第n個(gè)詞,wdn∈V,V表示文檔中詞的字典集;zdn表示wdn產(chǎn)生的主題;α表示文檔集的主題先驗(yàn)分布超參數(shù);θd代表文檔d在主題上的分布比例,對(duì)于每篇文檔d,θd服從狄利克雷分布;主題φk表示字典V中的詞分布;圖中主題模型包含k個(gè)主題在詞上的分布φ1:k,文檔中詞的總個(gè)數(shù)用N表示。作為一個(gè)產(chǎn)生式概率模型,假設(shè)主題類個(gè)數(shù)確定,給定參數(shù)α和β,文檔d的物理產(chǎn)生過程描述為:(1)從p(θ|α)中隨機(jī)選擇一個(gè)K維向量θd,產(chǎn)生文檔d的主題分布;(2)通過p(wdn|θd,φ1:k)產(chǎn)生文檔d的每個(gè)詞wdn。

      圖1 LDA圖概率模型表示

      (6)

      上式的條件概率計(jì)算中涉及到兩個(gè)Dirichlet-multinational共軛結(jié)構(gòu):

      (7)

      (8)

      (9)

      (10)

      由式(9)、(10)得到LDA文本建模最終的參數(shù)采樣公式為:

      p(zi=k|z,w,α,β)∞

      p(zi=k,wi=t|z,w,α,β)∞

      (11)

      本文在詞頻與互信息結(jié)合的基礎(chǔ)上改進(jìn)模型,通過對(duì)LDA模型進(jìn)行擴(kuò)展改變模型生成特征詞的過程, 提高表意性較強(qiáng)的特征詞在生成過程中的采樣分布。對(duì)此將特征詞在文檔中的權(quán)重考慮在參數(shù)采樣公式中,權(quán)重值公式參考前文提到的平均互信息計(jì)算公式,即

      (12)

      改變生成模型生成特征詞的概率,提出一個(gè)基于Gibbs Sampling公式基礎(chǔ)上的新公式:

      p(zi=k|z,w,α,β)∞

      p(zi=k,wi=t|z,w,α,β)∞

      (13)

      本文使用的主題模型方法在Gibbs Sampling采樣過程中對(duì)詞的權(quán)重值進(jìn)行調(diào)整,并使用0均值標(biāo)準(zhǔn)化(Z-score standardization)(如式(12))方法在模型中詞概率值進(jìn)行歸一化。

      z=(p-μ)/σ

      (14)

      其中μ、σ分別為Gibbs Sampling迭代之前的特征詞頻率值的均值和方差,歸一化后Gibbs Sampling過程能夠順利收斂。

      4 實(shí)驗(yàn)及結(jié)果分析

      4.1實(shí)驗(yàn)數(shù)據(jù)和實(shí)驗(yàn)環(huán)境

      本實(shí)驗(yàn)所使用的數(shù)據(jù)是搜狗實(shí)驗(yàn)室提供的全網(wǎng)新聞數(shù)據(jù),來自若干新聞?wù)军c(diǎn)2012年6月至7月期間國(guó)內(nèi)、國(guó)際、體育、社會(huì)、娛樂等18個(gè)頻道的新聞數(shù)據(jù),選取其中的30 000篇新聞數(shù)據(jù),訓(xùn)練數(shù)據(jù)20 000篇,測(cè)試數(shù)據(jù)10 000篇。

      實(shí)驗(yàn)PC為Thinkpad A6-3400M,主頻為1.4 GHz,采用Python2.7基于本文提出的詞頻與互信息結(jié)合的方法實(shí)現(xiàn)特征詞的提取,根據(jù)具體的評(píng)估函數(shù)計(jì)算特征詞對(duì)文本分類的貢獻(xiàn)度建立數(shù)據(jù)字典,通過Python實(shí)現(xiàn)改進(jìn)后的主題模型,利用WEKA工具對(duì)分類效果進(jìn)行評(píng)價(jià)。

      4.2實(shí)驗(yàn)評(píng)價(jià)標(biāo)準(zhǔn)

      對(duì)分類器性能的全面評(píng)估需要考慮兩個(gè)方面的關(guān)鍵因素:一方面是分類器正確分類的能力;另一方面是分類器快速分類的能力。如何提高分類器正確分類的能力仍然是研究的熱點(diǎn),目前常用的性能評(píng)估指標(biāo)有召回率R(Recall)、準(zhǔn)確率P(Precision)和F1值。

      4.3特征詞選擇效果對(duì)比

      為綜合評(píng)估本文提出的詞頻與互信息結(jié)合的主題模型特征選擇方法(簡(jiǎn)稱TFMI-LDA模型)的有效性,將本文得到的特征詞與使用詞頻、互信息、信息增益分別得到的前10個(gè)特征詞及權(quán)重值變化進(jìn)行對(duì)比,以體育類為例,結(jié)果如表1所示。

      表1 不同特征選擇方法選擇出的特征詞及權(quán)重值變化比較

      從表1可以看出,僅僅根據(jù)詞頻得到的特征詞如獎(jiǎng)金、參與、視頻等特征詞對(duì)體育類主題的新聞表意性較差、對(duì)文本的理解貢獻(xiàn)度較低。根據(jù)互信息和信息增益的方法得到的關(guān)鍵詞中也有審核、收看等對(duì)主題區(qū)分度不高的詞,而通過本文的TFMI-LDA方法提取的關(guān)鍵詞,其中權(quán)重值最高的比賽、籃球、熱火、詹姆斯、高爾夫等詞都與體育類主題相關(guān)性較高,對(duì)文本分類貢獻(xiàn)度更高,更具代表性。

      4.4準(zhǔn)確率、召回率、F1值對(duì)比

      為綜合評(píng)估本文提出的基于詞頻和互信息結(jié)合的主題模型文本分類方法的有效性, 將基于詞頻、互信息、信息增益、LDA模型作為基礎(chǔ)對(duì)比方法, 與本文TFMI-LDA方法進(jìn)行對(duì)比實(shí)驗(yàn)。LDA過程中的參數(shù)設(shè)定為:K=18,α=50/K,β=0.1。針對(duì)訓(xùn)練的新聞數(shù)據(jù),各特征選擇方法在特征詞數(shù)500~2 500之間的分類效果, 如圖2。

      圖2 不同特征詞個(gè)數(shù)時(shí)幾種方法的F1值對(duì)比

      從實(shí)驗(yàn)結(jié)果可以看出,針對(duì)體育、社會(huì)、娛樂、財(cái)經(jīng)等主題的新聞分類中,基于文本提出的TFMI-LDA方法在分類結(jié)果F1值上都要優(yōu)于基于傳統(tǒng)的詞頻、互信息、信息增益特征選擇方法,隨著特征詞個(gè)數(shù)的增加,F(xiàn)1值逐漸增加,當(dāng)特征詞個(gè)數(shù)在2 500時(shí),分類結(jié)果F1值達(dá)到86%。

      將特征詞個(gè)數(shù)選取為2 100個(gè),在LDA模型的基礎(chǔ)上,分別使用本文提出的TFMI-LDA方法和前文提到的張小平、周雪忠等人通過高斯函數(shù)對(duì)特征詞加權(quán)的方法做對(duì)比實(shí)驗(yàn),選取體育、社會(huì)、娛樂、財(cái)經(jīng)、國(guó)內(nèi)、國(guó)際主題類,實(shí)驗(yàn)準(zhǔn)確率、召回率、F1值結(jié)果分別如圖3所示。

      圖3 不同主題類下三種方法的準(zhǔn)確率、召回率、F1值對(duì)比

      觀察實(shí)驗(yàn)結(jié)果,當(dāng)設(shè)定相同的參數(shù)時(shí),高斯函數(shù)加權(quán)法和本文的TFMI-LDA方法在傳統(tǒng)LDA模型基礎(chǔ)上實(shí)驗(yàn)準(zhǔn)確率、召回率、F1值都有所提高,并且TFMI-LDA方法比高斯函數(shù)加權(quán)法的F1值提高更多。

      5 結(jié)論

      傳統(tǒng)的LDA模型在主題分類時(shí)沒有考慮語料庫中高頻詞對(duì)分類結(jié)果的影響,本文提出基于詞頻與互信息結(jié)合的方法做特征提取,并用評(píng)價(jià)函數(shù)計(jì)算特征詞的貢獻(xiàn)度,改進(jìn)LDA主題模型文本分類方法。實(shí)驗(yàn)結(jié)果表示TFMI-LDA方法比傳統(tǒng)LDA模型具有更好的性能,分類準(zhǔn)確率、召回率、F1值也有所提高。

      [1] DEERWESTER S,DUMAIS S, FURNAS U,et al.Indexing by latent semantic analysis[J]. Journal of the American Society for Information Science, 1990,41(6): 391-407.

      [2] BLEI D,NG A,JORDAN M.Latent dirichlet allocation[J].Journal of Machine Learning Research, 2003(3):993-1022.

      [3] 費(fèi)曉紅,康松林,朱曉娟,等.基于詞頻統(tǒng)計(jì)的中文分詞研究[J].計(jì)算機(jī)工程與應(yīng)用,2005,41(7):67-68.

      [4] 楊凱峰,張毅坤,李燕. 基于文檔頻率的特征選擇方法[J].計(jì)算機(jī)工程,2010,36(9):33-35,38.

      [5] 劉慶和,梁正友.一種基于信息增益的特征優(yōu)化選擇方法[J].計(jì)算機(jī)工程與應(yīng)用,2011, 47(12):130-132.

      [6] 鄧彩鳳.中文文本分類中互信息特征選擇方法研究[D].重慶:西南大學(xué),2011.

      [7] BLEI D,LAFFERTY J.Correlated topic models[C].In;Proc,of International Conference on Machine Learning, 2006: 113-120.

      [8] LI W,MCCALLUM A.Pachinko allocation:DAG(rstructured mixture models of topic correlations[C].In:Proc.of International Conference on Machine Learning, 2006:577-584.

      [9] 張振平,宣國(guó)榮,鄭俊翔,等.一種基于最小分類錯(cuò)誤率的改進(jìn)型 LDA特征選擇算法[J].微型電腦應(yīng)用,2005(4):4-6.

      [10] 盧盛祺,管連,金敏,等.LDA模型在網(wǎng)絡(luò)視頻推薦中的應(yīng)用[J].微型機(jī)與應(yīng)用,2016,35(11): 74-79.

      [11] 張小平,周雪忠,黃厚寬.一種改進(jìn)的 LDA 主題模型[J].北京交通大學(xué)學(xué)報(bào),2010,34(2): 111-114.

      Research on text classification improvement method based on mutual information

      Yu Xuan, Sun Wei, Zhang Xiang

      (College of Information Engineering, Shanghai Maritime University , Shanghai 201306, China)

      The traditional Latent Dirichlet Allocation(LDA) topic model does not consider the influence of word frequency on the subject classification, so that the distribution of the subject is tilted to the high frequency word.In order to comprehensively consider the correlation between word frequency and subject, this paper uses mutual information to express the characteristics of correlation between variables, and improves it as a feature selection method on the basis of mutual information. We use the evaluation function to evaluate the weight value of the characteristic word to improve the LDA algorithm classification process, and improve the contribution of the characteristic words with high contribution to the subject classification. The validity of the method is proved by the classification experiment in the news corpus, and the result shows that the accuracy of the classification is also improved.

      topic model; word frequency; mutual information; feature selection

      TP301.6

      A

      10.19358/j.issn.1674- 7720.2017.19.006

      余璇,孫偉,張翔.基于互信息的文本分類改進(jìn)方法研究[J].微型機(jī)與應(yīng)用,2017,36(19):19-22.

      2017-04-04)

      余璇(1994-),通信作者,女,碩士研究生,主要研究方向:數(shù)據(jù)挖掘、文本分析。E-mail:15001882660@163.com。孫偉(1978-),男,博士,副教授,主要研究方向:智能信息處理(模糊認(rèn)知圖)、移動(dòng)傳感器網(wǎng)絡(luò)動(dòng)態(tài)組網(wǎng)、物聯(lián)網(wǎng)技術(shù)等。張翔(1991-),男,碩士研究生,主要研究方向:數(shù)據(jù)挖掘、文本分析。

      猜你喜歡
      特征詞互信息詞頻
      基于詞頻分析法的社區(qū)公園歸屬感營(yíng)建要素研究
      園林科技(2021年3期)2022-01-19 03:17:48
      基于改進(jìn)TFIDF算法的郵件分類技術(shù)
      產(chǎn)品評(píng)論文本中特征詞提取及其關(guān)聯(lián)模型構(gòu)建與應(yīng)用
      基于互信息的貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)
      聯(lián)合互信息水下目標(biāo)特征選擇算法
      詞頻,一部隱秘的歷史
      面向文本分類的特征詞選取方法研究與改進(jìn)
      改進(jìn)的互信息最小化非線性盲源分離算法
      基于增量式互信息的圖像快速匹配方法
      云存儲(chǔ)中支持詞頻和用戶喜好的密文模糊檢索
      汕头市| 庄河市| 任丘市| 湟中县| 丰台区| 那坡县| 静乐县| 梨树县| 松滋市| 杭锦后旗| 长顺县| 南皮县| 光泽县| 五原县| 集贤县| 襄城县| 淮南市| 都昌县| 开远市| 库车县| 甘孜| 布尔津县| 新竹市| 手游| 中阳县| 唐海县| 沙田区| 银川市| 陇川县| 镇远县| 晋宁县| 定陶县| 周宁县| 鸡西市| 南昌市| 云梦县| 绩溪县| 锡林郭勒盟| 台州市| 中超| 铜梁县|