• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于主題模型及其擴展的短文本算法評述

      2020-01-14 06:32:16韓肖赟侯再恩
      計算機應(yīng)用與軟件 2020年1期
      關(guān)鍵詞:語料庫短文文檔

      韓肖赟 侯再恩 孫 綿

      (陜西科技大學(xué)文理學(xué)院 陜西 西安 710021)

      0 引 言

      隨著互聯(lián)網(wǎng)技術(shù)的快速發(fā)展,短文本信息實現(xiàn)了爆炸式增長,如微博、新聞標(biāo)題、電商評論和網(wǎng)頁片段等。如何把握和解讀其背后的潛在信息成為當(dāng)前數(shù)據(jù)挖掘的重要任務(wù)。

      主題模型作為最早用于文本分析工具,目前已經(jīng)滲透到主題提取、文本聚類、文本分類、社交網(wǎng)絡(luò)關(guān)系分析以及情感分析等多個領(lǐng)域[1-2]。通常意義上的主題模型是指概率潛語義模型(probalistic Latent Semantic Analysis,pLSA)[3]、潛在狄利克雷分布模型(Latent Dirichlet Allocation,LDA)[4]及其各種拓展。其中,LDA是最為完善的概率主題模型,它是在pLSA的基礎(chǔ)上引入共軛先驗Dirichlet分布解決了多項式參數(shù)與變量之間的聯(lián)系。而且以LDA為主的傳統(tǒng)主題模型主要依賴于長文檔中詞項的共現(xiàn)關(guān)系建立模型。

      但是在不斷的實踐中發(fā)現(xiàn),LDA模型存在較為敏感的文本選擇性問題,使其在短文本上性能容易受到限制。通過分析發(fā)現(xiàn),短文本自身篇幅短小,且每一個詞在文檔中大多只出現(xiàn)一次的特點,造成了文本特征稀疏和詞袋容量偏大等問題[14,36]。Yin等[5]在2014年提出了DMM模型,該模型與LDA最大的不同在于假設(shè)每一篇短文本只有一個主題,而不是多個主題,且文檔內(nèi)部的所有詞項之間主題共享,從而有效地緩解了主題模型在短文本上特征稀疏的問題。所以目前短文本上主題模型的研究主要是基于LDA的改進和DMM的拓展。

      1 文本預(yù)處理研究

      1.1 文本表示方法

      Salton等在1975年基于詞匯的上下文無關(guān)文法提出了向量空間模型(Vector Space Model,VSM)[6],其最大的優(yōu)點是簡化和方便了文本特征描述和模型推導(dǎo)?;谔卣黜椩谡麄€類中的分布問題,衍生出不同的文本特征權(quán)重計算方法[7]。一般意義上的向量空間模型是指TF-IDF模型,其有效地權(quán)衡了特征項在文檔和語料庫中的比例關(guān)系,是傳統(tǒng)主題模型建模的基礎(chǔ)。

      詞向量的出現(xiàn),不僅能夠再現(xiàn)文檔中詞項的共現(xiàn)關(guān)系,還能捕捉到文本的語義和句法信息。它經(jīng)歷了從獨熱編碼(One-hot)[8]向分布式表示(Distributed Representation,DR)[9]的轉(zhuǎn)變。One-hot編碼,又稱熱編碼,其主要是通過采用N位相互獨立的狀態(tài)寄存器對N個狀態(tài)進行編碼,且在任何時候,其中只有一個有效位。用0、1表示就是只有一個1,其他位置都是0。雖然用這個方法進行文本表示比較直觀,但是容易出現(xiàn)數(shù)據(jù)“維災(zāi)”,且不能很好地刻畫詞與詞之間的關(guān)系。分布式表示將文檔中的每一個詞通過訓(xùn)練,在語義空間映射成一個長度固定的向量,并且可以通過歐氏距離刻畫詞之間的語義相似性。如“英國-倫敦=法國-巴黎”、“女王-女=國王-男”。

      深度學(xué)習(xí)算法利用詞向量將文本數(shù)據(jù)從高維稀疏矩陣變換為低維本質(zhì)特征空間[41]。經(jīng)典的詞向量訓(xùn)練工作包括N-Grams模型、Bengio的三層神經(jīng)網(wǎng)絡(luò)語言模型,以及C&W的SENNA、M&H的HLBL和Mikolov的RNNLM等模型[10]。2013年,Google開源了詞向量訓(xùn)練工具Word2Vec[11],其中包括連續(xù)詞袋模型(Continuous Bag of Words, CBOW)和Skip-gram模型。前者用來根據(jù)上下文預(yù)測當(dāng)前詞的概率,而后者是根據(jù)當(dāng)前詞預(yù)測上下文。對于目標(biāo)函數(shù)的構(gòu)建常采用Hierarchical Softmax和隨機負采樣(Negative Sampling)兩種方式。詞向量對文本表示方法的改善具有重要的意義。文獻[12]依存于句法特征,通過將文本語義作為上下文特征加入基于神經(jīng)網(wǎng)絡(luò)的短文本結(jié)構(gòu)預(yù)測中,使用反向傳播迭代得到文本語義向量表示。文獻[13]針對傳統(tǒng)文本表示中詞項語義依存關(guān)系缺失的問題,提出了基于局部上下文和全局上下文的語義向量表示方法,并針對短文本上特征稀疏問題,提出了基于池化計算和層次遞歸自動編碼器的短文本表示方法。

      1.2 短文本處理

      現(xiàn)有的短文本處理方法主要有以下兩種:

      1) 將短文本擴展成一個偽長文檔,然后利用傳統(tǒng)主題模型進行后續(xù)分析。一般可以直接對短文本進行聚類,然后同一類進行合并得到新的偽長文檔。但是具體的聚合數(shù)目確定較難。Quan等[14]在聚合的基礎(chǔ)上提出了SATM(Self-Aggregation based Topic Model)算法,可以自動確定出合適的聚合數(shù),但是這樣的負面影響會使得主題抽樣和主題推斷比較耗時。Weng等[15]將同一用戶的話題標(biāo)簽、時間戳等其他元素作為推特(tweet)文本信息的擴展。這種方法會增加文本形式的多樣性,但在有些領(lǐng)域上不適用。Zuo等[16]利用詞對共現(xiàn)關(guān)系,建立詞網(wǎng)絡(luò),然后利用鄰結(jié)詞集合實現(xiàn)了原始短文檔的特征擴充。

      2) 依靠外部大語料庫提供額外文本信息。這種方法最重要的是引入詞嵌入技術(shù)(詞向量),然后通過Wikipedia、WordNet和Hownet等外部語料信息訓(xùn)練詞向量來豐富小語料庫上的短文本語義[17]。文獻[6]中通過維基百科語料集獲得單詞的詞向量集合,然后遍歷文本,將文本中與每一個詞相似性最大的20個單詞加入原文本,實現(xiàn)了對短文本的擴展。雖然這種處理方法目前效果較好,但是其對外部數(shù)據(jù)源的質(zhì)量有著比較高的要求,且文本依賴性較強。

      1.3 傳統(tǒng)主題模型的調(diào)整

      2 LDA和DMM及其相關(guān)研究

      2.1 LDA和DMM

      2.1.1模型生成過程

      LDA和DMM都是基于三層貝葉斯網(wǎng)絡(luò)的生成式概率模型。LDA繼承了pLSA的假設(shè),并引入了先驗分布狄利克雷(Dirichlet),認為每一篇文檔是由多個主題混合而成的,且每一個主題是單詞集合上的概率分布,文檔中每一個詞都是由一個固定主題生成。而DMM則將整個語料庫看作是多個主題的混合,并假設(shè)每一篇短文檔至多有一個主題,且主題在同一篇文檔中的所有詞之間共享。下面將詳細介紹LDA和DMM模型的生成過程。表1為文中出現(xiàn)的符號匯總說明。

      表1 符號說明

      1) 圖1為LDA模型的具體生成過程。

      圖1 LDA圖模型

      (1) 對任一主題z,根據(jù)狄利克雷分布得到該主題下的單詞多項式分布φk,即φk~Dirichlet(β)。

      (2) 每一個文檔wm,其主題概率分布θm,θm~Dirichlet(α)。

      (3) 對于訓(xùn)練語料庫中的每一篇文檔wm和文檔中的所有詞匯wm,n,遍歷:

      ① 選擇主題zm,n,zm,n~Multinomial(θm);

      ② 選擇wm,n,wm,n~Multinomial(φk)。

      2) 圖2為DMM模型的詳細生成過程。

      圖2 DMM圖模型

      (1) 整個語料庫上的主題混合比πz,πz~Dirichlet(α)。

      (2) 對任一主題z,根據(jù)狄利克雷分布得到該主題下的單詞多項式分布φk,即φk~Dirichlet(β)。

      (3) 對于每一篇文檔d,每一個單詞w,遍歷:

      ① 選擇主題分布zd,zd~Multinomial(θ);

      ② 文檔中所有詞w,w~Multinomial(φzd)。

      2.1.2參數(shù)估計

      對于給定的文檔集合,α和β是根據(jù)經(jīng)驗給定的超參數(shù),wm,n、d是可以觀察到的已知變量,而其他的變量φk、θm、zm,n、z、θ、Φ都是隱含變量,需要通過觀察到的變量和先驗參數(shù)來學(xué)習(xí)估計。LDA常用的參數(shù)估計算法有吉布斯采樣(Gibbs Sampling, GS)算法、變分貝葉斯算法(Variational Bays, VB)、消息傳遞(Belief Propagation, BP)[21],平均場變分期望最大化(mean-field variational expectation maximization)和基于貝葉斯近似推斷的期望傳播(Expectation Propagation, EP)。DMM最初是利用EM算法進行參數(shù)估計的,后來Yin等[22]利用Collapsed GS(CGS)實現(xiàn)了對DMM模型的參數(shù)估計,即GSDMM算法。

      (1) LDA模型。

      (1)

      (2) DMM模型。

      (2)

      然后關(guān)于θm和φk的值是基于狄利克雷分布與多項式分布共軛,利用后驗分布的均值確定出相應(yīng)的估計。其中,LDA的兩個參數(shù)估計為:

      (3)

      類似地可以得到DMM的θm,k和φk,t,且φk,t第一個分項為整個語料庫上的主題混合比πz。

      (4)

      (5)

      (6)

      2.1.3潛在主題個數(shù)的確定

      無論是LDA還是DMM模型,在進行文本主題提取的時候都需要確定出具體的主題個數(shù),對應(yīng)于超參數(shù)α的維數(shù)K。目前針對LDA主題模型最優(yōu)主題個數(shù)的確定方法比較多,DMM可以看作是LDA的一元混合模型。所以兩種模型之間可以相互借鑒。以下主要總結(jié)基于LDA的主題數(shù)確定方法。

      (1) 基于優(yōu)化指標(biāo)參數(shù)的確定方法。Blei等采用最小困惑度(Perplexity)作為最優(yōu)模型的標(biāo)準(zhǔn)。困惑度為模型的泛化能力刻畫提供了有力的依據(jù),但是單純基于測試集的困惑度指標(biāo),確定的主題數(shù)目往往偏大。Zhao等[25]基于困惑度的變化提出了RPC(rate of perplexity change)指標(biāo),可以基于不同的數(shù)據(jù)集準(zhǔn)確地確定出主題數(shù)目。關(guān)鵬等[26]綜合了主題的結(jié)構(gòu)信息,在困惑度的基礎(chǔ)上提出了“困惑度-主題方差”指標(biāo),并在科技文獻數(shù)據(jù)集上得到了不錯的效果。但是一般網(wǎng)絡(luò)輿情數(shù)據(jù)集,文本特征比較稀疏,詞袋容量較大,造成主題詞之間的概率差異變小,使得主題結(jié)構(gòu)的影響力弱化。Mimno等[27]認為依賴于測試集上的最小困惑度得到“最好”的主題數(shù)目,未必是最優(yōu)的數(shù)目。所以提出了主題一致性(Topic Coherence, TP),且TP得分越高,主題的一致性就越好。在目前基于指標(biāo)確定主題數(shù)目的方法體系中,該方法得到的精度和準(zhǔn)確性較高。

      (2) 通過問題轉(zhuǎn)化,借助其他算法的主題數(shù)尋優(yōu)。Teh等[28]通過層次狄利克雷過程對主題數(shù)目進行了非參數(shù)化處理,得到了與Blei類似的結(jié)論。但是這種方法時間復(fù)雜度較高。Griffiths等[29]提出貝葉斯模型確定最優(yōu)主題數(shù)目的方法。除此之外,Arun等[30]基于矩陣分解過程,利用KL(Kullback-Leibler)散度的最小值可以確定出目標(biāo)主題的范圍。李菲菲等[31]發(fā)現(xiàn)文檔聚類簇與文檔集隱含的主題數(shù)相一致的特點,通過建立高頻詞網(wǎng)絡(luò)利用社區(qū)發(fā)現(xiàn)算法確定出LDA的最優(yōu)主題個數(shù)。文獻[22]提出了MGP(movies group process)算法,類似于GSDMM算法,它模擬上電影討論課上根據(jù)學(xué)生的電影興趣分組的場景,這種算法可以自動確定出分組個數(shù),即主題模型中的主題個數(shù)。

      (3) 依據(jù)專家經(jīng)驗或者其他先驗知識。Zhao等[32]通過自定義標(biāo)簽來確定潛在主題。柏志安等[33]通過定義主題區(qū)分度,結(jié)合主題之間的重疊度和表達的完整度得到了比較合適的主題數(shù)。

      2.1.4算法性能評價

      主題模型的有效性評價,對于模型的改進和提高具有重要意義。目前主要有三類評估方法:

      (1) 基于主題模型本身的評價。一般包括潛在主題個數(shù)確定和算法收斂性兩個方面。其中基于主題個數(shù)的模型評價較多,與最優(yōu)主題的確定方法比較類似,常用的有困惑度、主題一致性(TP)和文本相似性等。算法收斂性主要是指收斂速度的比較。文獻[17]在詞分布的基礎(chǔ)上引入主題判別力參數(shù),在一定程度上不僅增加了”主題-詞分布”的區(qū)分度,而且有效地加快了算法的收斂速度。

      (2) 基于文本分類和聚類體系的評價。通過將主題模型與文本分類和聚類算法結(jié)合,間接地實現(xiàn)對主題模型的評價。主要采用F-測度值(包括查全率和查準(zhǔn)率)、微平均、宏平均、類內(nèi)緊密性和類間間隔性等指標(biāo)[6,34,46]。

      (3) 面向特定任務(wù)的效果評估。針對不同的問題,主題模型表現(xiàn)出不同的差異性。如通過驗證主題模型在文本特征選擇指標(biāo)[7,35]上的有效性來實現(xiàn)對模型的評價。

      2.2 擴展研究

      在短文本上DMM的主題提取能力明顯好于LDA[36],但是LDA成熟的算法體系為之后的主題模型擴展研究奠定了堅實的基礎(chǔ)。通過匯總近幾年的拓展主題模型(如表2所示)發(fā)現(xiàn),主題模型在短文本上的種類和性能實現(xiàn)了質(zhì)的飛躍,尤其是BTM、WTM[44]和DMM的出現(xiàn)。與十年前[2,37]相比,現(xiàn)在的主題模型對文本上下文的信息引入考慮得更全面,而且詞向量和深度學(xué)習(xí)的引入對傳統(tǒng)文本表示方法起了重要的促進作用,也為短文本的擴展處理提供了新思路。當(dāng)然詞向量的引入并非絕對的完美,基于外部信息訓(xùn)練的詞向量存在訓(xùn)練時間過長的問題。雖然已經(jīng)存在訓(xùn)練好的詞向量開放接口,但如何平衡外部語料庫的特征擴展與內(nèi)部語義擴展的主題一致性是未來仍需要進一步解決的問題。鑒于深度學(xué)習(xí)算法在信息提取和利用上的高效性,未來詞向量的表示將更為全面,所以在某種程度上可以弱化短文本的影響,有利于主題模型在不同領(lǐng)域的拓展研究。

      表2 近幾年主題模型的擴展研究

      續(xù)表2

      3 主題模型的應(yīng)用研究

      網(wǎng)絡(luò)輿情是指人們通過互聯(lián)網(wǎng)對某種社會現(xiàn)象或社會問題所發(fā)表的具有一定影響力和主觀性的言論。隨著時代的快速發(fā)展,社會熱點輿情的發(fā)酵呈現(xiàn)出新的特點和趨勢。所以把握和了解網(wǎng)絡(luò)輿情的話題演化,對于輿情的分析和監(jiān)控有著重要的意義。學(xué)者單斌指出,話題演化反映在話題內(nèi)容變化和話題強度(受關(guān)注度)變化兩個方面[45]。目前話題內(nèi)容變化主要是基于輿情的主題提取,通過計算主題相似度和設(shè)定閾值確定。進一步基于當(dāng)前輿情信息產(chǎn)生頻率高、數(shù)量大等特點,一些研究開始關(guān)注主題模型的快速推理算法、在線學(xué)習(xí)算法、文本流推理算法以及分布式學(xué)習(xí)等[18]。

      文獻[49]給出了輿情主題強度的判定最簡單的方法,即通過觀察主題強度隨時間變化的趨勢判定主題演化和影響熱度。所以對輿情的時間相關(guān)性或時間標(biāo)簽的把握,是主題強度判定的核心。文獻[48]總結(jié)了主題模型與時間序列結(jié)合的三種方式,分別是將時間作為變量引入、話題的后離散分析和先離散分析,如動態(tài)主題模型(Dynamic Topic Model,DTM)[50],TOT(Topic Over Time)模型、DIM(Document Influence Model)[51]和OLDA(online LDA)[48]等。其中,OLDA模型是一個在線主題模型,不僅可以實現(xiàn)話題內(nèi)容和強度的演化,而且有利于新話題的識別與檢測。文獻[52-53]基于OLDA模型提出了具體的應(yīng)用和改進。

      4 深度學(xué)習(xí)在短文本上的應(yīng)用研究

      深度學(xué)習(xí)模型通過提取文本句法和語義特征,有效地彌補了傳統(tǒng)意義上短文本特征稀疏的問題。文獻[54]基于深度學(xué)習(xí)和詞向量,進行了同義詞擴展方向的研究,提出了基于特征空間變換的詞向量空間優(yōu)化算法。文獻[55]通過構(gòu)建Doc2Vec模型進行深度訓(xùn)練,并結(jié)合主題模型實現(xiàn)了學(xué)術(shù)期刊選題同質(zhì)化的對比分析。文獻[56]針對卷積神經(jīng)網(wǎng)絡(luò)在前向傳播過程中池化層特征選擇存在過多語義特征損失問題,將樹型的長短期記憶模型融入訓(xùn)練網(wǎng)絡(luò)的輸入層中,通過添加句子結(jié)構(gòu)加強深層語義學(xué)習(xí),從而構(gòu)造出了微博情感分析模型。文獻[57]利用深度循環(huán)學(xué)習(xí)方法,實現(xiàn)了更大范圍的用戶屬性特征泛化,改善了微博短文本特征稀疏且未考慮上下文語境的現(xiàn)狀。

      5 結(jié) 語

      近年來,信息冗余和信息負荷過載是比較常見的現(xiàn)象。主題模型在短文本上的研究雖然取得了一定的效果,但是自從進入Web 2.0時代以后,信息的快速甄別、篩選和監(jiān)控已然成為常態(tài),這將對主題模型在動態(tài)短文本上應(yīng)用能力提出了更高的要求。深度學(xué)習(xí)算法的快速發(fā)展,將為主題模型的改進和提高創(chuàng)造極大的便利。輿情作為短文本的重要集中地,由此衍生一系列基于主題模型的重要課題,如輿情熱點識別、熱點追蹤(主題演化)以及輿情熱點推薦等。主題模型作為重要的信息提取手段,單純的主題提取不是最終目的,需要加深和拓寬主題模型與深度學(xué)習(xí)以及其他機器學(xué)習(xí)算法的混合研究。

      猜你喜歡
      語料庫短文文檔
      有人一聲不吭向你扔了個文檔
      《語料庫翻譯文體學(xué)》評介
      KEYS
      Keys
      把課文的優(yōu)美表達存進語料庫
      基于RI碼計算的Word復(fù)制文檔鑒別
      Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
      基于JAVAEE的維吾爾中介語語料庫開發(fā)與實現(xiàn)
      語言與翻譯(2015年4期)2015-07-18 11:07:45
      短文改錯
      短文改錯
      浦东新区| 涡阳县| 古丈县| 慈溪市| 四会市| 宁陕县| 旬邑县| 固安县| 古交市| 金坛市| 文登市| 南澳县| 随州市| 鄢陵县| 沅江市| 古丈县| 黄骅市| 和林格尔县| 莱州市| 武夷山市| 柏乡县| 紫金县| 佛冈县| 交口县| 长子县| 洪雅县| 清远市| 武鸣县| 吉安县| 平塘县| 遵义县| 三台县| 永城市| 台东市| 抚顺市| 连江县| 北辰区| 沽源县| 游戏| 镇江市| 健康|