李正宇,陳歡歡
(中國(guó)科學(xué)技術(shù)大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,合肥 230026)
傳統(tǒng)的文本分類(lèi)方法可以總結(jié)為兩大類(lèi):第一類(lèi)是核方法,例如字符串核[1]就是一種常見(jiàn)的適用于文本分類(lèi)的核方法.這種方法通過(guò)比較不同文本的相似子序列來(lái)度量文本之間的相似性.第二種方法把文本表示成為一個(gè)特征向量,然后使用樸素貝葉斯(Naive Bayesian,NB)、支持向量機(jī)(Support Vector Machines,SVM)、K最近鄰算法(k-Nearest Neighbor,kNN)等分類(lèi)器進(jìn)行分類(lèi).通常這些方法都基于詞袋模型(Bag of Words,BoW).這兩類(lèi)方法都基于這樣一個(gè)假設(shè):兩個(gè)文本之間相同的詞越多,這兩個(gè)文本的相似度就越高.但是這一假設(shè)忽略了不同詞之間的語(yǔ)義相似性,例如下面兩句話:“Obama invites the champion team to the White House”、“The president has dinner with these best players in his home”,幾乎沒(méi)有一個(gè)相同的詞,但是它們表達(dá)了相同的主題信息.
在自然語(yǔ)言處理領(lǐng)域,研究者們提出了一些基于語(yǔ)義信息的文本分類(lèi)方法.基于分布式語(yǔ)義假設(shè),Mikolov等人提出了word2vec[2]模型.Word2vec 通過(guò)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)把詞映射為一個(gè)實(shí)值向量,稱為詞向量.把文本中所有詞的詞向量的平均值作為該文本的特征向量是一種常用的文本特征提取方法.Word2vec的優(yōu)點(diǎn)是把分類(lèi)器難以直接處理的文本數(shù)據(jù)轉(zhuǎn)化成了可以直接處理的特征向量數(shù)據(jù).但是每個(gè)詞對(duì)應(yīng)一個(gè)唯一的特征向量,無(wú)法很好地體現(xiàn)出詞的主題多義性,不同詞之間的主題相似度也無(wú)法進(jìn)行有效的度量.主題模型(Topic Model)[3]也是一種有效的文本分類(lèi)方法.主題模型的目標(biāo)是得到文本的主題分布,通過(guò)比較文本的主題分布來(lái)比較兩個(gè)文本之間的相似度.常見(jiàn)的主題模型有概率隱語(yǔ)義分析[4](probabilistic latent semantic analysis,PLSA)、Latent Dirichlet Allocation[5](LDA)、Gaussian LDA[6,15]等等.這些主題模型都假設(shè)每一個(gè)文本中的主題服從某一個(gè)概率分布,每一個(gè)主題下的詞也服從某一個(gè)概率分布.作為一個(gè)經(jīng)典的主題模型,LDA包含詞、主題和文本的三層貝葉斯結(jié)構(gòu)[17,18].其中詞到主題以及主題到文本均服從狄利克雷-多項(xiàng)式共軛分布.主題模型也有著訓(xùn)練語(yǔ)料庫(kù)依賴性的問(wèn)題.由于主題模型采用的是生成模型的迭代訓(xùn)練方法,如果測(cè)試數(shù)據(jù)和訓(xùn)練數(shù)據(jù)的主題差異很大,對(duì)于測(cè)試數(shù)據(jù)的主題估計(jì)會(huì)受到較大的干擾.而且訓(xùn)練時(shí)間受迭代次數(shù)影響較大,不利于大規(guī)模數(shù)據(jù)的訓(xùn)練.Liu等人基于word2vec模型提出了主題詞向量模型[7](Topical Word Embeddings,TWE).與word2vec模型中詞與向量一一對(duì)應(yīng)不同,TWE在不同的主題下有著不同的詞向量,這使得詞的主題多樣性得到了表達(dá).但是和word2vec相同,對(duì)于文本來(lái)說(shuō),文本的主題多樣性也不能較好的進(jìn)行度量.
本文基于概率模型以及統(tǒng)計(jì)流形學(xué)習(xí)方法,提出一種有效的文本混合主題概率模型以及該模型下文本距離度量方法,即統(tǒng)計(jì)流形文本度量(TMSM).該方法基于這一假設(shè):同一主題下的所有詞服從高斯分布,文本中包含多個(gè)權(quán)值不等的主題,那么文本中的詞的分布可以用混合高斯模型來(lái)進(jìn)行描述,每一個(gè)高斯函數(shù)代表著某一個(gè)主題.這符合文本的生成過(guò)程,即文本中的詞出現(xiàn)在該文本中是因?yàn)槲谋揪哂心承┰掝},而該詞在這些話題下出現(xiàn)的概率較大.TMSM具有以下優(yōu)點(diǎn):①基于混合主題模型的文本表示,文本和詞的主題多樣性可以進(jìn)行較好的描述;②結(jié)合了詞向量模型與主題模型,訓(xùn)練速度和數(shù)據(jù)依賴性得到了改良;③通過(guò)統(tǒng)計(jì)流形學(xué)習(xí)方法,對(duì)文本概率模型的距離進(jìn)行了度量,文本分類(lèi)實(shí)驗(yàn)中和其他文本分類(lèi)算法的對(duì)比證明了該方法的有效性.
Word2vec通過(guò)一個(gè)大的語(yǔ)料庫(kù)訓(xùn)練得到每一個(gè)詞的詞向量.本文提出的文本表示方法結(jié)合了詞向量與主題模型,具體過(guò)程描述如下.
首先,把每一個(gè)詞向量看作是詞向量空間中的一個(gè)點(diǎn),詞向量在詞向量空間中的分布是依賴于每個(gè)詞潛在的主題.例如:“北京”和“上?!钡脑~向量在詞向量空間中比較接近;“股市”和“證券”因?yàn)楣灿械纳虡I(yè)主題,其詞向量在詞向量空間中也分布在接近的位置.根據(jù)之前的假設(shè),每一個(gè)主題下的詞服從高斯分布,那么可以認(rèn)為所有的詞在所有的主題下服從混合高斯分布.給定所有的詞向量集合W={w1,w2,…,wN},詞向量w的混合概率密度是:
(1)
其中N(·)是高斯函數(shù),πi是第i個(gè)高斯函數(shù)的權(quán)值系數(shù),μi和Σi分別是是第i個(gè)高斯函數(shù)的均值向量和協(xié)方差矩陣,K是主題的數(shù)量.每一個(gè)高斯函數(shù)都代表著某一個(gè)潛在的主題.對(duì)于某一個(gè)詞來(lái)說(shuō),它屬于第i個(gè)主題的概率是:
(2)
對(duì)于文本來(lái)說(shuō),可以把文本中的詞看成是所有詞的一個(gè)子集合,而該子集合的劃分是由于文本具有的某些主題導(dǎo)致了主題的權(quán)值發(fā)生了改變,文本中的詞也進(jìn)行了重新組合.同樣地,可以用一個(gè)混合高斯函數(shù)表示文本中的詞的混合概率密度:
(3)
可以看出式(3)和式(1)中的高斯函數(shù)分量完全相同,只是權(quán)值系數(shù)由于主題的不同發(fā)生了改變.每一個(gè)權(quán)值系數(shù)反映了文本中相對(duì)應(yīng)主題的比例.根據(jù)式(2),每一個(gè)詞對(duì)第i個(gè)主題的貢獻(xiàn)是p(topici|w).那么,文本中第i個(gè)主題的權(quán)值是∑w∈textπiN(w|μi,∑i).為了確保高斯混合模型權(quán)值系數(shù)的限制條件∑iθi=1,權(quán)值系數(shù)θ可以通過(guò)式(4)進(jìn)行計(jì)算:
(4)
舉例來(lái)說(shuō),如果使用式(3)來(lái)表示一個(gè)關(guān)于機(jī)器學(xué)習(xí)主題的論文,那么和“生物學(xué)”主題相關(guān)的權(quán)值系數(shù)會(huì)非常接近于0,而和“分類(lèi)器”主題相關(guān)的權(quán)值系數(shù)可能比其他的都要大.
綜上所述,TMSM使用一個(gè)高斯混合模型來(lái)表示一個(gè)文本.使用高斯混合模型的優(yōu)點(diǎn)是即能體現(xiàn)詞的語(yǔ)義多樣性,也能很好地描述文本的話題多樣性.得到文本的概率模型表示之后,還需要對(duì)模型之間的距離或者說(shuō)相似度進(jìn)行度量,從而實(shí)現(xiàn)文本分類(lèi).接下來(lái)將詳細(xì)介紹統(tǒng)計(jì)流形學(xué)習(xí)方法的基本思想以及利用該方法對(duì)文本概率模型進(jìn)行度量的推導(dǎo)過(guò)程.
流形學(xué)習(xí)[8]通常假設(shè)低維數(shù)據(jù)嵌入在高維空間中形成觀測(cè)數(shù)據(jù),流形學(xué)習(xí)的主要目標(biāo)是還原數(shù)據(jù)的低維流形結(jié)構(gòu).因此,流形學(xué)習(xí)常被稱為非線性降維[16](Nonlinear Dimensionality Reduction,NLDR).
理論上來(lái)說(shuō),一個(gè)黎曼流形(M,g)是一個(gè)以g作為黎曼度量的微分流形M.流形空間上任取一點(diǎn)p∈M,在切空間TpM上可以定義一個(gè)內(nèi)積gp:TpM×TpM→R.那么就可以在流形空間上進(jìn)行長(zhǎng)度、面積或者體積的定義.舉例來(lái)說(shuō),對(duì)于黎曼流形M上的一條連續(xù)可微曲線C:[a,b]→M,其曲線方程是C(t).這條曲線的長(zhǎng)度可由式(5)定義:
(5)
其中g(shù)是黎曼度量矩陣,x是曲線C上的點(diǎn).更進(jìn)一步地,可以定義點(diǎn)a到點(diǎn)b之間的距離:
d(a,b)=inf{L(C)},C∈
(6)
如果把概率分布看作是流形空間上的點(diǎn),那么由一簇概率分布構(gòu)成的流行空間稱為統(tǒng)計(jì)流形.此時(shí)式(5)和式(6)不再適用于直接提供距離度量的定義.因此,在統(tǒng)計(jì)流形學(xué)習(xí)中,概率分布通常被映射成為一個(gè)參數(shù)模型[10].給定一個(gè)參數(shù)模型S={p(x|λ)|λ=[λ(1),λ(2),…,λ(n)]∈Λ}.其中Λ∈Rn稱為參數(shù)空間,p(x|λ)是以λ為參數(shù)的概率分布,不同的概率分布對(duì)應(yīng)不同的參數(shù)模型.根據(jù)信息幾何的理論[11],黎曼幾何可以用來(lái)提取統(tǒng)計(jì)模型的信息,因此可以把參數(shù)模型嵌入到一個(gè)黎曼流形當(dāng)中.通過(guò)使用式(5)和式(6),可以度量?jī)蓚€(gè)參數(shù)模型,從而度量?jī)蓚€(gè)概率分布.
在統(tǒng)計(jì)流形學(xué)習(xí)的框架下,概率分布之間的距離度量被轉(zhuǎn)化為參數(shù)模型之間的距離度量.參數(shù)模型也可以看作是統(tǒng)計(jì)流形上的一種坐標(biāo),參數(shù)決定了對(duì)應(yīng)概率分布在統(tǒng)計(jì)流形上的分布.本文使用高斯混合模型來(lái)表示文本,在式(3)中可以注意到不同的文本僅僅是權(quán)值系數(shù)不同,每一個(gè)文本對(duì)應(yīng)的高斯混合模型的高斯函數(shù)是完全相同的.把高斯混合模型看作函數(shù)空間中的一類(lèi)函數(shù),每個(gè)高斯函數(shù)可以看作是基函數(shù),那么權(quán)值系數(shù)就代表著函數(shù)空間中的一種坐標(biāo).因此,高斯混合模型的參數(shù)模型是:
S={p(x|text,θ)|θ=[θ(1),θ(2),…,θ(K)]∈Θ}
(7)
依上文所述,參數(shù)模型θ處于一個(gè)連續(xù)可微的黎曼流形空間中.考慮到高斯混合模型權(quán)值系數(shù)的一個(gè)性質(zhì),即θ(1)+θ(2)+…+θ(K)=1,因此參數(shù)模型所在的黎曼流形空間的形狀是一個(gè)K-1維的超平面.而超平面上的測(cè)地線是一條直線,所以在流形空間上連接兩個(gè)參數(shù)θ1和θ2的最短路徑曲線參數(shù)方程是:
C(t)=θ1+(θ2-θ1)t,t∈[0,1]
(8)
本文中使用克羅內(nèi)克函數(shù)(Kronecker delta function)作為黎曼度量,即:
(9)
把式(8)和式(9)帶入式(5),可以得到:
d(θ1,θ2)=L(C(t))
=‖θ1-θ2‖2
(10)
將文本表示為高斯混合模型之后,就可以使用式(10) 計(jì)算文本之間的距離.然后就可以使用分類(lèi)器算法對(duì)文本進(jìn)行分類(lèi).
在TMSM中,文本被表示為一個(gè)高斯混合函數(shù),詞向量中的語(yǔ)義信息被保存在每一個(gè)高斯函數(shù)中.此外,詞在不同的高斯函數(shù)里具有不同的概率密度,這體現(xiàn)了詞的主題多樣性.另一方面對(duì)于文本來(lái)說(shuō)不同主題的權(quán)值系數(shù)也體現(xiàn)了文本的主題多樣性.
通過(guò)高斯混合模型擬合所有詞所在詞空間的概率分布之后,不同文本的權(quán)值系數(shù)矩陣可以使用式(4)計(jì)算得到而不需要重新迭代訓(xùn)練語(yǔ)料庫(kù).其計(jì)算過(guò)程是線性的,時(shí)間復(fù)雜度為O(nt),nt是文本中詞的數(shù)量.和主題模型算法中的迭代過(guò)程相比,TMSM的訓(xùn)練速度更快且更加穩(wěn)定.
為了驗(yàn)證TMSM的有效性,本文將在不同的數(shù)據(jù)集上進(jìn)行文本分類(lèi)測(cè)試來(lái)驗(yàn)證該模型的性能,并將其與典型的文本分類(lèi)算法進(jìn)行對(duì)比.本文實(shí)驗(yàn)的數(shù)據(jù)集信息見(jiàn)表1所示,其中BBC News是一個(gè)5類(lèi)數(shù)據(jù)集,R8是8類(lèi),而20newsgroups是7類(lèi).所有數(shù)據(jù)集都是英文的文本數(shù)據(jù)集,每一個(gè)文本都有一個(gè)類(lèi)別標(biāo)簽以供分類(lèi).每一個(gè)數(shù)據(jù)集中的訓(xùn)練集和測(cè)試集的比例都接近二比一.分類(lèi)實(shí)驗(yàn)中使用分類(lèi)正確率作為檢驗(yàn)算法性能的標(biāo)準(zhǔn).
在TMSM模型的第一步,需要從一個(gè)語(yǔ)料庫(kù)中訓(xùn)練得到所有詞的詞向量.本文中使用維基百科(Wikipedia)作為語(yǔ)料庫(kù),該語(yǔ)料庫(kù)包含數(shù)百萬(wàn)個(gè)句子.訓(xùn)練可以得到七萬(wàn)多個(gè)單詞的詞向量.其他需要語(yǔ)料庫(kù)進(jìn)行訓(xùn)練的對(duì)比算法也使用此語(yǔ)料庫(kù)進(jìn)行訓(xùn)練.使用word2vec模型訓(xùn)練詞向量時(shí),有兩個(gè)最主要的參數(shù),即向量維數(shù)和滑動(dòng)窗口大小,根據(jù)文獻(xiàn)[12]的描述,為了減少計(jì)算時(shí)間的同時(shí)較好的保存詞向量的語(yǔ)義信息,實(shí)驗(yàn)中分析了這兩個(gè)參數(shù)的參數(shù)敏感性,結(jié)果見(jiàn)表2.
表1 實(shí)驗(yàn)數(shù)據(jù)集描述
Table 1 Details of datasets
數(shù)據(jù)集訓(xùn)練樣本測(cè)試樣本文本總數(shù)BBCNews14857402285R854852189767420Newsgroup11293752818821
表2中的分類(lèi)正確率是word2evc模型使用不同的向量維數(shù)和滑動(dòng)窗口大小時(shí)TMSM在R8數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果.為了保證一致性,word2vec中的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)均使用CBOW模型,即使用語(yǔ)境中的詞來(lái)預(yù)測(cè)中心詞的詞向量.此外,主題的數(shù)量統(tǒng)一設(shè)置為K=300.
表2 word2vec參數(shù)敏感度分析
Table 2 Analysis of parametric sensitivity on Word2vec
向量維數(shù)滑動(dòng)窗口大小分類(lèi)正確率(%)50284.49585.101084.49100290.29591.141091.14150292.01594.351093.31200293.77594.031094.01300291.93592.401093.09
此外,對(duì)于TMSM模型來(lái)說(shuō),主題的數(shù)量K也是一個(gè)重要的參數(shù).基于表2的實(shí)驗(yàn)結(jié)果,將詞向量維數(shù)設(shè)為150,滑動(dòng)窗口大小設(shè)為5,實(shí)驗(yàn)中同樣分析了主題數(shù)量K對(duì)于分類(lèi)結(jié)果的影響,結(jié)果見(jiàn)圖1所示.可以看出,在三個(gè)數(shù)據(jù)集上分類(lèi)結(jié)果準(zhǔn)確率受K的變化影響不大,這體現(xiàn)了TMSM算法的穩(wěn)定性.
圖1 分類(lèi)準(zhǔn)確率隨主題數(shù)量K變化Fig.1 Accuracy changes with different K
綜上所述,在文本分類(lèi)對(duì)比實(shí)驗(yàn)中.參數(shù)的設(shè)置分別是向量維數(shù)=150,滑動(dòng)窗口大小=5,主題數(shù)量K=400.
3.2 文本分類(lèi)實(shí)驗(yàn)
在進(jìn)行文本分類(lèi)實(shí)驗(yàn)之前,所有的數(shù)據(jù)集都經(jīng)過(guò)了預(yù)處理.每一個(gè)文本都去除了標(biāo)點(diǎn)符號(hào)和停用詞,如a、the、of等等以排除干擾.在通過(guò)式(10)得到文本之間距離之后,分類(lèi)器算法使用了kNN以及SVM算法,其中kNN算法中的最近鄰數(shù)k從{2,5,10,15}中選取最優(yōu).SVM算法使用了libSVM庫(kù).
本文選取了6個(gè)常用的文本度量方法作為對(duì)比算法,分別是TF-IDF[13]、TWE、word2vec直接取平均、LDA、CCG[14](Componential Counting Grid)、周期卷積神經(jīng)網(wǎng)絡(luò)(Recurrent Convolutional Neural Networks,RCNN[21]).實(shí)驗(yàn)結(jié)果如表3所示,可以看出,TMSM在非深度學(xué)習(xí)方法中取得了最好的分類(lèi)準(zhǔn)確率,而且與結(jié)果最好的深度學(xué)習(xí)方法RCNN相比也得到了相近的分類(lèi)結(jié)果.與深度學(xué)習(xí)模型不同,TMSM是一種基于統(tǒng)計(jì)距離度量的算法,對(duì)于文本的建模以及距離度量具有更好的的可解釋性.同時(shí),在通過(guò)高斯混合模型得到所有詞的詞向量分布之后,文本的表示和度量都是線性時(shí)間,時(shí)間復(fù)雜度和計(jì)算量?jī)?yōu)于目前深度學(xué)習(xí)中大規(guī)模參數(shù)訓(xùn)練方法.同時(shí)實(shí)驗(yàn)結(jié)果也表明TMSM在節(jié)約時(shí)間的同時(shí)也可以得到和深度學(xué)習(xí)方法相近的文本分類(lèi)結(jié)果.
表3 各數(shù)據(jù)集上所有算法的分類(lèi)正確率 (%)
Table 3 Performance comparison of TMSM and other models on each dataset
數(shù)據(jù)集TF-IDF+SVMTWE+kNNTWE+SVMWord2vec+kNNWord2vec+SVMLDA+kNNLDA+SVMCCG+kNNTMSM+kNNTMSM+SVMRCNN-BBC78.0691.9492.2791.4491.9493.6093.0479.4194.7095.6396.49R871.3091.4491.5993.1692.9993.0693.5790.1494.3093.4795.7920ng46.6169.6968.8972.8870.5869.8769.7963.4874.6573.2480.23
表4 在每個(gè)高斯分布上具有較高概率密度的詞
Table 4 Words which have a higher probability in each Gaussian distribution
主題animaleconomyeducationsciencesportsinternetsocial該主題對(duì)應(yīng)高斯分布下概率密度較大的詞speciesanimalsfishbirdsmammalsinsectswhaleshunterssnakesendangeredsupplyinvestmentpricesbudgetdemanddebtbenefitsfiscaltaxationoversupplyteachinguniversitiesschoolstudentsdegreeclassescollegesgraduatemajorscoursesresearchscientificinstituteengineeringstudylearningpsychologygeologylinguisticsbiomedicalfootballprofessionalteamscompetitionarenaolympicbasketballleaguescontestchampionshipsnetworkaccesslanmailserverssharingclientswapwifitimestampingfreedommoralservilelibertycollectiveindividualismmotivationmorallyarguesunequal
為了檢驗(yàn)和評(píng)估高斯混合模型對(duì)于詞向量空間主題分布的描述能力.我們選擇了具有代表性的主題或者說(shuō)是高斯函數(shù)分量來(lái)觀察同一主題下的單詞是否可以按照主題聚集在一起.結(jié)果見(jiàn)表4所示,每一列代表一個(gè)主題或者說(shuō)一個(gè)高斯函數(shù).每個(gè)高斯函數(shù)下10個(gè)具有較高概率密度的詞被挑選出來(lái).對(duì)于詞w來(lái)說(shuō),它在主題topici中的概率密度是N(w/μi,∑i),高的概率密度表示w在topici中出現(xiàn)的概率較大.可以看出,詞與主題之間的良好匹配結(jié)果說(shuō)明了高斯混合模型對(duì)于描述詞向量空間的分布具有較好的效果.
除了文本分類(lèi)之外,摘要抽取也是文本處理領(lǐng)域一個(gè)重要的應(yīng)用.本文提出的文本距離度量方法也可以應(yīng)用在摘要抽取任務(wù)上,只需要將文本中每一句話看做一個(gè)文本,然后計(jì)算它與整個(gè)文本的相似度并進(jìn)行排序,輸出相似度較高的句子就可以提取得到代表文本主題信息的摘要.
為了驗(yàn)證TMSM在摘要抽取任務(wù)上的有效性,本節(jié)實(shí)驗(yàn)中使用公開(kāi)的567個(gè)新聞文本數(shù)據(jù)集DUC2002*http://www-nlpir.nist.gov/projects/duc/作為目標(biāo)提取摘要,并且使用文獻(xiàn)[19]中的評(píng)估方法ROUGE evaluation對(duì)摘要結(jié)果進(jìn)行評(píng)估.同時(shí)使用目前文本摘要抽取領(lǐng)域最常用的TextRank算法[20]以及DUC2002任務(wù)上結(jié)果最好的5個(gè)摘要提取系統(tǒng)作為對(duì)比,結(jié)果如表5所示.
表5 摘要抽取實(shí)驗(yàn)結(jié)果
Table 5 Results of text summarization
算法文本使用全文文本去除停用詞TextRank0.47080.4229S270.48140.4405S310.47150.4160S280.47030.4346S210.46830.4222S290.45020.4019TMSM0.46970.4319
實(shí)驗(yàn)結(jié)果使用ROUGE evaluation toolkit得到的ROUGE score作為評(píng)價(jià)標(biāo)準(zhǔn),分?jǐn)?shù)越高表示結(jié)果越好.可以看出,使用TMSM算法作為句子和文本之間的距離度量來(lái)進(jìn)行摘要抽取,可以得到和當(dāng)前主流摘要抽取算法同一水平的性能.
本文提出了一種新的文本距離度量算法TMSM.該算法假設(shè)同一個(gè)主題下的詞在詞空間中服從高斯分布,然后使用高斯混合模型來(lái)描述所有詞在所有主題上的分布.文本的表示方法遵循文本的產(chǎn)生過(guò)程,即文本產(chǎn)生于若干主題,因此文本中詞的分布可以看作是所有詞的一個(gè)偏離分布,偏離的原因是因?yàn)椴煌奈谋局懈鱾€(gè)主題的權(quán)值不同.不同的文本對(duì)應(yīng)不同的高斯混合分布.在得到文本的概率模型表示之后,文本之間距離的度量方式在統(tǒng)計(jì)流形學(xué)習(xí)的框架下進(jìn)行計(jì)算.得到文本間距離后,可以使用kNN和SVM分類(lèi)器實(shí)現(xiàn)對(duì)文本的有監(jiān)督分類(lèi).
本算法具有開(kāi)放性,在未來(lái)的研究中可以基于不同的假設(shè)對(duì)文本建立不同的概率模型表示,然后使用統(tǒng)計(jì)流形學(xué)習(xí)方法對(duì)其進(jìn)行度量.對(duì)于不同的主題,可以對(duì)主題與主題之間的相似度進(jìn)行度量并在文本度量中加入主題相似度評(píng)估.此外,在基于距離度量的半監(jiān)督深度學(xué)習(xí)算法[22,23]中,使用TMSM來(lái)進(jìn)行距離度量也是一個(gè)值得研究的問(wèn)題.
[1] Lodhi H,Saunders C,Shawe-Taylor J.Text classification using string kernels [J].Journal of Machine Learning Research,2002,2(2):419-444.
[2] Mikolov T,Chen K,Corrado G,et al.Efficient estimation of word representations in vector space [Z].2013,arXiv:1301.3781.
[3] Rosen-Zvi M,Griffiths T,Steyvers M,et al.The author-topic model for authors and documents [C].Conference on Uncertainty in Artificial Intelligence,2004:487-494.
[4] Hennig L,Labor D.Topic-based multi-document summarization with probabilistic latent semantic analysis [C].Recent Advances in Natural Language Processing,2009:144-149.
[5] Blei D M,Ng A Y,Jordan M I.Latent dirichlet allocation [J].Journal of Machine Learning Research,2003,3(1):993-1022.
[6] Das R,Zaheer M,Dyer C.Gaussian lda for topic models with word embeddings [C].Association for Computational Linguistics,2015:795-804.
[7] Liu Y,Liu Z,Chua T S,et al.Topical word embeddings [C].AAAI Conference on Artificial Intelligence,2015:2418-2424.
[8] Lin T and Zha H.Riemannian manifold learning [J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2008,30(5):796-809.
[9] Belkin M,Niyogi P,Sindhwani V.Manifold regularization:a geometric framework for learning from labeled and unlabeled examples [J].Journal of Machine Learning Research,2006,7(11):2399-2434.
[10] Suzuki M.Information geometry and statistical manifold[Z].2014,arXiv:1410.3369.
[11] Sun K,Marchand-Maillet S.An information geometry of statistical manifold learning [C].International Conference on Machine Learning,2014:1-9.
[12] Levy O,Goldberg Y,Dagan I.Improving distributional similarity with lessons learned from word embeddings [J].Transactions of the Association for Computational Linguistics,2015,3(1):211-225.
[13] Salton G,Buckley C.Term-weighting approaches in automatic text retrieval [J].Information Processing and Management,1998,24(5):513-523.
[14] Perina A,Jojic N,Bicego M,et al.Documents as multiple overlapping windows into grids of counts [C].Advances in Neural Information Processing Systems,2013:10-18.
[15] Hu P,Liu W,Jiang W,et al.Latent topic model based on gaussian-lda for audio retrieval [C].Chinese Conference on Pattern Recognition,2012:556-563.
[16] Li Dong-rui,Li Mei.Adaptive manifold learning method based on data distribution properties [J].Journal of Chinese Computer Systems,2014,35(6):1387-1391.
[17] Zheng Xiang-yun,Chen Zhi-gang,Huang Rui,et al.Algorithm of commodity recommendation based on SP_LDA model [J].Journal of Chinese Computer Systems,2016,37(3):454-458.
[18] Peng Yun,Wan Chang-xuan,Jiang Teng-jiao,et al.An algorithm based on words clustering LDA for product aspects extraction [J].Journal of Chinese Computer Systems,2015,36(7):1458-1463.
[19] Lin C Y,Hovy E.Automatic evaluation of summaries using n-gram co-occurrence statistics [C].Conference of the North American Chapter of the Association for Computational Linguistics on Human Language Technology,2003:71-78.
[20] Mihalcea R,Tarau P.TextRank:bringing order into texts [C].Conference on Empirical Methods in Natural Language Processing,2004:404-411.
[21] Lai S,Xu L,Liu K,et al.Recurrent convolutional neural networks for text classification[C].AAAI Conference on Artificial Intelligence,2015:2267-2273.
[22] Hoffer E,Ailon N.Semi-supervised deep learning by metric embedding[Z].2016 arXiv:1611.01449.
[23] Weston J,Ratle F,Mobahi H,et al.Deep learning via semi-supervised embedding[M].Neural Networks:Tricks of the Trade,Springer Berlin Heidelberg,2012:639-655.
附中文參考文獻(xiàn):
[16] 李冬睿,李 梅.數(shù)據(jù)分布特性的自適應(yīng)流形學(xué)習(xí)方法[J].小型微型計(jì)算機(jī)系統(tǒng),2014,35(6):1387-1391.
[17] 鄭祥云,陳志剛,黃 瑞,等.基于SP_LDA模型的商品推薦算法[J].小型微型計(jì)算機(jī)系統(tǒng),2016,37(3):454-458.
[18] 彭 云,萬(wàn)常選,江騰蛟,等.一種詞聚類(lèi)LDA的商品特征提取算法[J].小型微型計(jì)算機(jī)系統(tǒng),2015,36(7):1458-1463.