• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于正文和標(biāo)題文本分類(lèi)的主題建模

      2017-09-23 03:03:44于秀開(kāi)徐啟南
      關(guān)鍵詞:分詞語(yǔ)料正文

      鄭 誠(chéng) 于秀開(kāi) 徐啟南

      (安徽大學(xué)計(jì)算智能與信號(hào)處理重點(diǎn)實(shí)驗(yàn)室 安徽 合肥 230039) (安徽大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院 安徽 合肥 230601)

      基于正文和標(biāo)題文本分類(lèi)的主題建模

      鄭 誠(chéng) 于秀開(kāi) 徐啟南

      (安徽大學(xué)計(jì)算智能與信號(hào)處理重點(diǎn)實(shí)驗(yàn)室 安徽 合肥 230039) (安徽大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院 安徽 合肥 230601)

      特征稀疏是對(duì)傳統(tǒng)文本分類(lèi)的一個(gè)巨大的挑戰(zhàn)。基于LDA模型,提出一種特征擴(kuò)展的短文本分類(lèi)模型。該模型在正文語(yǔ)料的基礎(chǔ)上加入標(biāo)題語(yǔ)料的主題分布,并進(jìn)行整合,得到每個(gè)文本的主題分布。使用SVM分類(lèi)器進(jìn)行分類(lèi)。實(shí)驗(yàn)結(jié)果表明,與正文語(yǔ)料進(jìn)行文本分類(lèi)相比,所提模型對(duì)文本分類(lèi)效果較好。

      文本分類(lèi) LDA 特征擴(kuò)展 主題分布 SVM

      0 引 言

      隨著Web的發(fā)展,人民群眾可以在網(wǎng)上發(fā)布言論和意見(jiàn),政府部門(mén)可以答復(fù)人民群眾反映的問(wèn)題。所以許多省、市部門(mén)單位都在積極努力做好這項(xiàng)工作。安徽省的各個(gè)地級(jí)市的政府網(wǎng)站都開(kāi)通了這一項(xiàng)功能,比如合肥市的12345政府服務(wù)直通車(chē)(http://www.hefei.gov.cn/hdjl/)。在該網(wǎng)站中,人民群眾可以向政府相關(guān)部門(mén)表達(dá)自己的意愿,反映自己在生活中遇到的困難,并向政府尋求幫助,也可以對(duì)政府不滿(mǎn)意的地方,提出意見(jiàn)、建議,甚至舉報(bào)。在網(wǎng)站中人民群眾更愿意表達(dá)自己真實(shí)的情況和情感,這樣政府就可以真正地了解人民群眾的所感所想,更有利于為人民服務(wù),例如表1是合肥市民一條反饋信息。通過(guò)觀察表1的信息,我們可以發(fā)現(xiàn)上面的文本主要包括主題(在后文稱(chēng)為標(biāo)題),信件內(nèi)容,回復(fù)內(nèi)容。而且文本較短,對(duì)于短文本通常它們的信息特征是:信息量少、特征稀疏、語(yǔ)義依賴(lài)上下文等情況[1]。而對(duì)于短文本處理的難處就是特征非常稀疏,而傳統(tǒng)的文本分類(lèi)算法有Baycs、SVM、KNN等這些直接應(yīng)用在短文本分類(lèi)上效果不佳。

      表1 市民反饋信息

      1 相關(guān)工作

      對(duì)于短文本的分類(lèi)處理,主要有兩種方法,第一種是增加外部知識(shí)域。Wang等[2]在處理短文本分類(lèi)中,利用一個(gè)大的分類(lèi)知識(shí)庫(kù),為每個(gè)類(lèi)別建立概念模型,并為每個(gè)短文本定義一組概念,通過(guò)概念相似性,對(duì)短文本進(jìn)行分類(lèi)。寧亞輝等[3]提出基于領(lǐng)域詞語(yǔ)本體的短文本分類(lèi)方法,抽取領(lǐng)域高頻詞作為特征詞,借助語(yǔ)義方面將特征詞擴(kuò)展為概念和義元,通過(guò)計(jì)算不同概念所包含相同義元的信息量來(lái)衡量詞的相似度,進(jìn)行文本分類(lèi)。但是這種借助外部知識(shí)域的方法,對(duì)于沒(méi)有在知識(shí)域出現(xiàn)的詞,效果不佳。另一種是通過(guò)為短文本加入更多相關(guān)的文本,擴(kuò)展文本特征進(jìn)行文本分類(lèi)。Sriram等[4]為微博文本增加作者的配置文件,提出一種文本分類(lèi)方法。饒高琦等[5]中通過(guò)LDA主題模型獲得短文本主題分布,把主題中的詞作為短文本的特征,擴(kuò)充到原短文本中,進(jìn)行文本分類(lèi)。Godin等[6]和Mehrotra等[7]利用LDA和微博的標(biāo)簽等特性,進(jìn)行微博文本分類(lèi)?;谝陨峡紤],為了便于本文的描述,文本將正文語(yǔ)料定義為用戶(hù)的來(lái)信內(nèi)容和回復(fù)內(nèi)容,因?yàn)榛貜?fù)內(nèi)容是政府工作人員回復(fù)信息,信息比較充分具體,標(biāo)題語(yǔ)料定義為用戶(hù)來(lái)信的標(biāo)題語(yǔ)料。本文將改進(jìn)LDA主題模型將正文語(yǔ)料和標(biāo)題語(yǔ)料進(jìn)行主題整合加權(quán),得到每個(gè)文本的主題分布。

      2 基于正文和標(biāo)題短文本分類(lèi)模型

      2.1 命名實(shí)體識(shí)別

      本文是對(duì)正文和標(biāo)題的短文本分類(lèi)進(jìn)行建模,實(shí)驗(yàn)語(yǔ)料是以合肥政府直通車(chē)文本為例,因此在語(yǔ)料中會(huì)有大量當(dāng)?shù)靥赜玫拿麑?shí)體[8],例如當(dāng)?shù)厥袇^(qū)道路名稱(chēng)、小區(qū)名稱(chēng)、公交站名稱(chēng)等。為了提高分詞階段的準(zhǔn)確性,因此本文在分詞階段引入了用戶(hù)詞典。從百度地圖中獲取當(dāng)?shù)爻鞘刑赜玫拿麑?shí)體,加入用戶(hù)詞典中,然后基于詞典匹配的方法進(jìn)行分詞,以此來(lái)提高分詞的準(zhǔn)確性。見(jiàn)表2是149路公交站的部分命名實(shí)體。

      表2 149公交部分命名實(shí)體

      2.2 LDA主題模型

      LDA主題模型[9]是由Blei等提出的,是一個(gè)“文本-主題-詞”的三層貝葉斯產(chǎn)生式模型,每篇文本表示為主題的混合分布,而每個(gè)主題則是詞上的概率分布。LDA模型產(chǎn)生一篇文檔的過(guò)程如下:

      (1) 從先驗(yàn)參數(shù)α產(chǎn)生一篇文檔的主題θ的多項(xiàng)式分布。

      (2) 從θ的多項(xiàng)式分布產(chǎn)生一個(gè)詞的主題Ζ。

      (3) 從先驗(yàn)參數(shù)β產(chǎn)生詞主題φ的多項(xiàng)式分布。

      (4) 由詞主題分布Ζ和詞多項(xiàng)式分布φ產(chǎn)生一篇文檔的一個(gè)詞w。

      下面給出LDA生成模型如圖1所示。

      圖1 LDA圖生成模型

      關(guān)于LDA的詳細(xì)介紹和參數(shù)請(qǐng)?jiān)斠?jiàn)文獻(xiàn)[9]。

      2.3 基于正文和標(biāo)題短文本分類(lèi)模型

      在各大網(wǎng)站、社團(tuán)、BBS中,用戶(hù)在提交自己想法與網(wǎng)友交互時(shí),網(wǎng)站通常要求用戶(hù)輸入問(wèn)題的標(biāo)題,為了充分利用標(biāo)題的信息,本文提出了基于正文和標(biāo)題的文本分類(lèi)主題建模。下面給出基于LDA主題擴(kuò)展的短文本分類(lèi)的流程圖如圖2所示。

      圖2 基于LDA主題擴(kuò)展的短文本分類(lèi)流程圖

      2.3.1 預(yù)處理

      在特征選擇之前,本文先要進(jìn)行文本分詞,本文使用的分詞工具為張華平博士等開(kāi)發(fā)的ICTCLAS分詞工具進(jìn)行分詞。由于本文語(yǔ)料為合肥市政府直通車(chē)平臺(tái)文本,是面向合肥本地人群的意見(jiàn)和建議,所以文本中有大量的合肥當(dāng)?shù)氐拿麑?shí)體。為了增加分詞的準(zhǔn)確性,本文加入大量的命名實(shí)體作為文本分詞的用戶(hù)詞典。在該詞典中,加入合肥當(dāng)?shù)爻鞘械?00條主要道路名稱(chēng),111條公交路線(xiàn)所有公交站名稱(chēng),150個(gè)小區(qū)名稱(chēng)等。實(shí)驗(yàn)結(jié)果如圖3所示。本文在最佳主題數(shù)35下進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)中使用命名實(shí)體進(jìn)行分詞和未使用命名實(shí)體進(jìn)行分詞進(jìn)行實(shí)驗(yàn)。結(jié)果表明,在使用命名實(shí)體中準(zhǔn)確率、召回率和F值都有所提升。

      圖3 使用命名實(shí)體進(jìn)行分詞結(jié)果

      2.3.2 正文和標(biāo)題分類(lèi)模型表示

      根據(jù)本文文本的特點(diǎn),包含正文語(yǔ)料和標(biāo)題語(yǔ)料,文本以直通車(chē)文本為例,LDA是基于詞袋進(jìn)行吉布斯采樣和訓(xùn)練模型。本文在使用正文語(yǔ)料詞袋庫(kù)進(jìn)行訓(xùn)練LDA時(shí),引入標(biāo)題標(biāo)題語(yǔ)料的詞袋庫(kù),根據(jù)調(diào)和參數(shù)的不同,即標(biāo)題信息采樣比例不同,獲得每篇文本的最佳的主題分布。本文會(huì)根據(jù)正文語(yǔ)料得到正文語(yǔ)料的主題分布θ1,通過(guò)調(diào)和參數(shù)γ,在LDA中加入標(biāo)題主題分布θ2,最終獲得每一篇文本的最終主題分布θ。解釋過(guò)程如下:

      (1) 從先驗(yàn)參數(shù)α產(chǎn)生一篇文檔正文文檔的主題θ1的多項(xiàng)式分布。

      (2) 從先驗(yàn)參數(shù)α產(chǎn)生一篇文檔標(biāo)題文檔的主題θ2的多項(xiàng)式分布。

      (3) 通過(guò)γ整合θ1、θ2為θ多項(xiàng)式分布。

      (4) 從θ多項(xiàng)式分布產(chǎn)生一個(gè)詞的主題分布Ζ。

      (5) 從先驗(yàn)參數(shù)β產(chǎn)生詞主題φ的多項(xiàng)式分布。

      (6) 由詞的主題分布Ζ和詞的多項(xiàng)式分布φ產(chǎn)生一篇文檔的一個(gè)詞w。

      下面是文本正文和標(biāo)題模型的表示和表達(dá)式,如圖4所示。

      圖4 擴(kuò)展模型表示

      在此給出本模型的參數(shù)估計(jì),如圖4的概率模型中,M為文檔總數(shù),N為一個(gè)文檔的所有詞的個(gè)數(shù),α是每個(gè)文檔主題的狄利克雷的先驗(yàn)參數(shù),β是每個(gè)主題下詞的狄利克雷的先驗(yàn)參數(shù),Z表示一篇文檔中詞的主題。θ1是隱含變量表示一篇文檔的正文的主題分布,θ2是隱含變量表示一篇文檔的標(biāo)題的主題分布,φ表示一個(gè)主題下詞的分布。利用調(diào)和參數(shù)γ,使:

      θ=γ×θ1+(1-γ)×θ2γ∈(0,1)

      (1)

      在語(yǔ)料具有正文和標(biāo)題的文本中,在對(duì)正文語(yǔ)料進(jìn)行主題建模的過(guò)程中,引入標(biāo)題語(yǔ)料的信息并進(jìn)行整合,獲得整篇文本的主題分布,通過(guò)公式推導(dǎo)可以得到新的文本主題分布的Gibbs采樣公式,通過(guò)對(duì)比LDA模型發(fā)現(xiàn),由于引入標(biāo)題語(yǔ)料的主題因子,文本的主題分布如下:

      (2)

      (3)

      根據(jù)式(2)、式(3),最終得到聯(lián)合概率分布函數(shù)如下式:

      (4)

      根據(jù)吉布斯采樣過(guò)程,反復(fù)迭代,對(duì)標(biāo)題和正文中詞的每個(gè)主題進(jìn)行抽樣,直到結(jié)果收斂,輸出文檔下的主題分布θmk和主題下詞的分布φkt。

      3 實(shí) 驗(yàn)

      3.1 實(shí)驗(yàn)語(yǔ)料

      本文基于正文和標(biāo)題的文本分類(lèi)建模,以合肥政府直通車(chē)文本為例,使用爬蟲(chóng)軟件,從合肥政府直通車(chē)網(wǎng)站爬取了包含拆遷規(guī)劃、房產(chǎn)、公積金、公交交通、社保就業(yè)、環(huán)境衛(wèi)生、教育、物業(yè)、治安、公共事業(yè)等10大類(lèi)語(yǔ)料。其中社保就業(yè)2 322條,公積金1 006條,環(huán)境衛(wèi)生2 636條,教育1 632條,拆遷規(guī)劃400條,房產(chǎn)509條,公共事業(yè)793條,治安203條,公交交通1 639條,物業(yè)3 301條。

      3.2 對(duì)比試驗(yàn)、評(píng)估方法和分類(lèi)器

      本文的對(duì)比實(shí)驗(yàn)設(shè)置是正文語(yǔ)料的LDA模型,正文語(yǔ)料的BTM模型,BTM主題模型是晏小輝教授在2013年的會(huì)議上提出的一個(gè)優(yōu)秀的主題模型[10]。為了評(píng)判與其他模型文本分類(lèi)算法的性能,本文的評(píng)估方法為傳統(tǒng)文本分類(lèi)的標(biāo)準(zhǔn):準(zhǔn)確率P、召回率R和F值。

      (5)

      本文使用的分類(lèi)器為SVM分類(lèi)器,驗(yàn)證使用十字交叉法。

      3.3 實(shí)驗(yàn)結(jié)果

      文本在確定LDA主題模型的主題數(shù)時(shí),設(shè)置主題數(shù)從10~70(間隔為5)進(jìn)行實(shí)驗(yàn)驗(yàn)證,實(shí)驗(yàn)結(jié)果如圖5所示。從圖中可以發(fā)現(xiàn)在主題數(shù)為35時(shí),LDA、BTM和本文模型的F值都達(dá)到了平穩(wěn)狀態(tài),當(dāng)主題數(shù)大于35時(shí),F(xiàn)值波動(dòng)不大,所以文本的最佳主題數(shù)為35。根據(jù)經(jīng)驗(yàn)這里把先驗(yàn)參數(shù)α設(shè)置為0.5、β設(shè)置為0.01,迭代次數(shù)為1 000次。

      圖5 主題參數(shù)的確定

      本文通過(guò)使用調(diào)和參數(shù)γ將正文語(yǔ)料的主題分布和標(biāo)題語(yǔ)料的主題分布整合為一篇文檔的最終主題分布。為了得到調(diào)和參數(shù)γ最優(yōu)解,本文在分類(lèi)數(shù)據(jù)集中,根據(jù)不同主題,調(diào)和參數(shù)的變化,得到各個(gè)主題下F值,通過(guò)F值的變化,確定γ的最優(yōu)解。實(shí)驗(yàn)結(jié)果如圖6,橫坐標(biāo)表示調(diào)和參數(shù),縱坐標(biāo)表示F值,曲線(xiàn)是每個(gè)主題下F值隨調(diào)和參數(shù)的變化曲線(xiàn),通過(guò)實(shí)驗(yàn)結(jié)果發(fā)現(xiàn),在各個(gè)主題下,當(dāng)調(diào)和參數(shù)γ=0.7時(shí),F(xiàn)值最佳,所以文本的調(diào)和參數(shù)設(shè)為0.7。

      圖6 γ參數(shù)的確定

      為了驗(yàn)證文本模型可以利用標(biāo)題文本信息的作用,本文使用政府直通車(chē)的標(biāo)題語(yǔ)料和正文語(yǔ)料應(yīng)用在基于正文和標(biāo)題文本分類(lèi)的主題模型中。正文語(yǔ)料上應(yīng)用LDA模型即只考慮正文的作用,沒(méi)有利用標(biāo)題的信息因子,BTM模型使用正文語(yǔ)料。實(shí)驗(yàn)結(jié)果如表3所示。本文方法在準(zhǔn)確率、召回率和F值都優(yōu)于LDA和BTM模型,證明本文模型可以充分利用標(biāo)題信息對(duì)文本進(jìn)行分類(lèi)。

      表3 實(shí)驗(yàn)對(duì)比結(jié)果

      4 結(jié) 語(yǔ)

      特征稀疏文本一直是短文本分類(lèi)的問(wèn)題,現(xiàn)在文本分類(lèi)大多基于內(nèi)容,往往忽略標(biāo)題信息的作用。為了提高分類(lèi)的效果,本文利用網(wǎng)站語(yǔ)料的特點(diǎn),加入了標(biāo)題語(yǔ)料的主題分布,提出了基于正文和標(biāo)題的文本分類(lèi)的主題建模,對(duì)文本特征進(jìn)行擴(kuò)展。以政府直通車(chē)語(yǔ)料為例,實(shí)驗(yàn)表明當(dāng)加入標(biāo)題語(yǔ)料的信息后,分類(lèi)效果比只基于正文內(nèi)容所提升,本文模型對(duì)于具有標(biāo)題和正文的語(yǔ)料分類(lèi)效果較為明顯。另外本文為了解決分詞作用的困難,加入了大量的命名實(shí)體,增加了分詞的正確性。最后本文僅僅是將文本進(jìn)行分類(lèi),下面的工作將引入時(shí)間序列因素進(jìn)一步提高分類(lèi)效果。

      [1] 賀濤,曹先彬,譚輝.基于免疫的中文網(wǎng)絡(luò)短文本聚類(lèi)算法[J].自動(dòng)化學(xué)報(bào),2009,35(7):896-902.

      [2] Wang F,Wang Z,Li Z,et al.Concept-based short text classification and ranking[C]//Proceedings of the 23rd ACM International Conference on Conference on Information and Knowledge Management.ACM,2014:1069-1078.

      [3] 寧亞輝,樊興華,吳渝.基于領(lǐng)域詞語(yǔ)本體的短文本分類(lèi)[J].計(jì)算機(jī)科學(xué),2009,36(3):142-145.

      [4] Sriram B,Fuhry D,Demir E,et al.Short text classification in twitter to improve information filtering[C]//Proceedings of the 33rd international ACM SIGIR conference on Research and development in information retrieval.ACM,2010:841-842.

      [5] 饒高琦,于東,荀恩東.基于自然標(biāo)注信息和隱含主題模型的無(wú)監(jiān)督文本特征抽取[J].中文信息學(xué)報(bào),2015,29(6):141-149.

      [6] Godin F,Slavkovikj V,De Neve W,et al.Using topic models for twitter hashtag recommendation[C]//Proceedings of the 22nd International Conference on World Wide Web.ACM,2013:593-596.

      [7] Mehrotra R,Sanner S,Buntine W,et al.Improving lda topic models for microblogs via tweet pooling and automatic labeling[C]//Proceedings of the 36th international ACM SIGIR conference on Research and development in information retrieval.ACM,2013:889-892.

      [8] 趙軍.命名實(shí)體識(shí)別、排歧和跨語(yǔ)言關(guān)聯(lián)[J].中文信息學(xué)報(bào),2009,23(2):3-17.

      [9] Blei D M,Ng A Y,Jordan M I.Latent dirichlet allocation[J].The Journal of Machine Learning Research,2003,3:993-1022.

      [10] Yan X,Guo J,Lan Y,et al.A biterm topic model for shorts texts[C]//Proceedings of the 22nd international conference on World Wide Web.International World Wide Web Conferences Steering Committee,2013:1445-1456.

      TOPICMODELINGFORTEXTCLASSIFICATIONBASEDONTEXTANDTITLE

      Zheng Cheng Yu Xiukai Xu Qi’nan

      (KeyLaboratoryofICSP,MinistryofEducation,AnhuiUniversity,Hefei230039,Anhui,China) (SchoolofComputerScienceandTechnology,AnhuiUniversity,Hefei230601,Anhui,China)

      The sparse feature is a huge challenge for the traditional text classification. We propose a short text classification model based on the LDA model. The model integrated the text with the title on the basis of corpus and obtained topic distribution of each text. We used SVM classifier for classification. The test results demonstrate that our model performs better than traditional text classification based on the text.

      Text classification LDA Feature extension Topic distribution SVM

      TP391.1

      A

      10.3969/j.issn.1000-386x.2017.09.016

      2016-11-17。安徽省高校自然科學(xué)基金重點(diǎn)項(xiàng)目(KJ2013A020)。鄭誠(chéng),副教授,主研領(lǐng)域:信息檢索,自然語(yǔ)言處理。于秀開(kāi),碩士。徐啟南,碩士。

      猜你喜歡
      分詞語(yǔ)料正文
      更正聲明
      傳媒論壇(2022年9期)2022-02-17 19:47:54
      更正啟事
      結(jié)巴分詞在詞云中的應(yīng)用
      基于語(yǔ)料調(diào)查的“連……都(也)……”出現(xiàn)的語(yǔ)義背景分析
      值得重視的分詞的特殊用法
      華語(yǔ)電影作為真實(shí)語(yǔ)料在翻譯教學(xué)中的應(yīng)用
      《苗防備覽》中的湘西語(yǔ)料
      國(guó)內(nèi)外語(yǔ)用學(xué)實(shí)證研究比較:語(yǔ)料類(lèi)型與收集方法
      高考分詞作狀語(yǔ)考點(diǎn)歸納與疑難解析
      大鼠腦缺血/再灌注后bFGF和GAP-43的表達(dá)與神經(jīng)再生
      镇沅| 临邑县| 伊川县| 常德市| 军事| 那坡县| 彩票| 来安县| 金昌市| 黄浦区| 丹棱县| 雷山县| 苏州市| 远安县| 竹溪县| 邮箱| 东明县| 石阡县| 博爱县| 宣恩县| 盱眙县| 布拖县| 苏尼特右旗| 江陵县| 东源县| 荣昌县| 嫩江县| 兰溪市| 肃宁县| 务川| 巨野县| 肇源县| 台中市| 新余市| 固镇县| 肃北| 宜良县| 页游| 闻喜县| 嘉荫县| 沿河|