吳旭康,楊旭光,陳園園,王營(yíng)冠,張閱川
(1.中國(guó)科學(xué)院上海微系統(tǒng)與信息技術(shù)研究所,上海 200050;2.上海科技大學(xué) 信息科學(xué)與技術(shù)學(xué)院,上海 201210; 3.上海物聯(lián)網(wǎng)有限公司,上海 200018)
詞向量[1-2]是用數(shù)學(xué)形式的向量來(lái)表達(dá)單詞,可用于自然語(yǔ)言處理任務(wù)中的很多方面,比如命名實(shí)體識(shí)別、句子成分分析[3]、單詞相似度計(jì)算等。因此,詞向量的研究得到了越來(lái)越多的關(guān)注。
當(dāng)前,大部分的詞向量模型通常使用一個(gè)向量來(lái)表示一個(gè)單詞,忽視了單詞的多義性,從而削弱了詞向量對(duì)單詞語(yǔ)義表達(dá)的唯一性。為了解決這樣的問(wèn)題,多向量模型被提出[4-5],該模型通過(guò)對(duì)同一個(gè)單詞的不同上下文語(yǔ)境(context)進(jìn)行聚類,針對(duì)每一個(gè)類簇生成一個(gè)詞向量,然而,由于該方法過(guò)于笨拙和繁瑣,于是,另一些基于神經(jīng)語(yǔ)言模型[6-8]的詞向量模型被提出,這類模型通過(guò)構(gòu)造不同的神經(jīng)網(wǎng)絡(luò),使用隨機(jī)梯度下降(Stochastic Gradient Descent,SGD)或者EM(Expectation Maximum)算法得到最終的模型參數(shù),進(jìn)而得到詞向量。
然而,即使采用多向量模型,在生成多個(gè)詞向量的過(guò)程中也存在一個(gè)較大缺陷——這些多向量模型認(rèn)為同一個(gè)單詞的不同上下文語(yǔ)境是獨(dú)立的,不具有相關(guān)性。事實(shí)上,即使是不同的上下文語(yǔ)境,仍然可以有語(yǔ)義(Semantic)上的相似或者重疊。例如,在英語(yǔ)中,單詞“l(fā)ike”在句子“I like that girl”和句子“She is my like”中,兩者表達(dá)了幾乎一致的信息,卻完全是2種上下文語(yǔ)境。因此,把不同的語(yǔ)境完全的隔離開(kāi)并不是完美可行的方案。于是,TWE模型被提出,結(jié)合單詞的主題信息,得到更具表達(dá)性的詞向量[9],但該模型簡(jiǎn)單地將單詞和主題向量連接作為最終的詞向量,在向量表達(dá)性上不夠突出。緊接著,基于主題單詞嵌入(Topical Word Embedding,TWE)模型改進(jìn)的單詞主題混合(Word-Topic Mixture,WTM)模型[10]利用潛特征狄利克雷特分布(Latent-Feature Latent Dirichlet Allocation,LFLDA)方法,計(jì)算出TWE生成的單詞-主題向量的概率分布,并通過(guò)假設(shè)該概率分布與狄利克雷特分布(Latent Dirichlet Allocation,LDA)得到的單詞-主題概率分布一致,從而得到性能更好的詞向量。然而,WTM模型需要最小化上述2個(gè)概率分布的KL散度,計(jì)算較為繁瑣。
本文提出一種更加有效和靈活的多向量模型——主體聯(lián)合詞向量模型(Topic Combined Word Vector Model,TCV Model)。該模型的主要思想與WTM模型類似,利用單詞所屬的主題信息來(lái)表達(dá)單詞的上下文語(yǔ)境。不同于WTM模型,該模型利用哈夫曼編碼為每一個(gè)單詞構(gòu)建一個(gè)初始向量作為神經(jīng)網(wǎng)絡(luò)的輸入,神經(jīng)網(wǎng)絡(luò)訓(xùn)練后得到每一個(gè)單詞及其主題對(duì)應(yīng)的向量。TCV模型對(duì)生成的單詞向量和主題向量進(jìn)行歸一化和線性組合,將其作為該主題下單詞的詞向量,并考慮將具有最大概率的一個(gè)或2個(gè)主題作為該單詞的有效上下文,避免WTM模型中最小化KL散度的復(fù)雜計(jì)算。
作為非監(jiān)督型主題模型,LDA模型可以從一系列文檔中,找到指定數(shù)目的主題[11]。該模型是一個(gè)詞袋子(Bag of Word,BOW)模型[12-13],文本中每個(gè)詞的出現(xiàn)都是獨(dú)立的,不依賴于其他詞是否出現(xiàn)。在LDA模型中,假設(shè):1)文檔蘊(yùn)含多個(gè)主題,主題數(shù)量適當(dāng);2)這是一個(gè)有生成過(guò)程的概率模型,并假設(shè)每一個(gè)文檔都是被生成的。
文檔的生成過(guò)程為:1)隨機(jī)選擇一個(gè)主題分布;2)對(duì)文檔里的每一個(gè)單詞,首先隨機(jī)從主題分布中選擇一個(gè)主題,然后從相應(yīng)的主題中隨機(jī)選擇一個(gè)單詞;3)一個(gè)主題是在一個(gè)固定詞庫(kù)上的分布,并且,所有的主題被假定為先于文檔生成。4)搜尋的主題個(gè)數(shù)需要預(yù)先指定LDA模型的框圖如圖1所示,假設(shè)語(yǔ)料庫(kù)中有M個(gè)文檔和K個(gè)主題。其中,α和β是Dirichlet分布的超參數(shù),zm,n是文檔m中的第n個(gè)單詞的主題,wm,n是第m個(gè)文檔中第n個(gè)單詞,M是文檔的總數(shù)目,Nm是第m個(gè)文檔中單詞總數(shù)目,θm和Φk均為向量,θm表示第m個(gè)文檔中主題z的概率分布Pr(z|m),向量的每一列表示每個(gè)主題在文檔中出現(xiàn)的概率,Φk表示在主題k下單詞的概率分布Pr(w|zk),向量的每一列表示在主題zk下生成每個(gè)單詞的概率。
圖1 LDA模型框圖
參數(shù)為α的Dirichlet分布如下:
(1)
(2)
其中,Γ()是Gamma分布,xi表示詞庫(kù)中被觀察到的單詞i的概率。Dirichlet分布是多項(xiàng)分布的共軛先驗(yàn)分布。
LDA模型的具體實(shí)施過(guò)程如下:通過(guò)對(duì)參數(shù)為α的Dirichlet分布取樣生成文檔m的主題分布θm,接著從主題的多項(xiàng)分布θm取樣生成文檔m的第n個(gè)單詞的主題zm,n,并從參數(shù)為β的Dirichlet分布取樣生成主題zm,n的單詞分布Φz(mì)m,n,最后從單詞的多項(xiàng)分布Φz(mì)m,n中取樣最終生成的單詞wm,n。如此循環(huán)直到所有的文檔都被生成。
通過(guò)LDA模型計(jì)算,每一個(gè)單詞將會(huì)被賦予具有一定概率的主題標(biāo)簽,同時(shí)每一個(gè)主題都能通過(guò)概率排序找到最接近該主題含義的單詞。如表1所示,在4個(gè)主題下各自最接近的5個(gè)單詞(主題的名字是在觀測(cè)完對(duì)應(yīng)的單詞分布后人為添加的)。
表1 LDA模型不同主題下的單詞
在谷歌正式推出詞向量工具Word2Vec之后,Skip-Gram模型成為一個(gè)用于生成詞向量的熱門簡(jiǎn)化版神經(jīng)語(yǔ)言模型[11]。Skip-Gram模型的目標(biāo)在于預(yù)測(cè)給定單詞的上下文單詞。其神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。
圖2 Skip-Gram模型
神經(jīng)網(wǎng)絡(luò)的輸入是一個(gè)通過(guò)哈夫曼樹(shù)構(gòu)造的初始詞向量。哈夫曼樹(shù)的節(jié)點(diǎn)權(quán)值由詞頻(Word frequency)決定。給定一個(gè)單詞序列W={w1,w2,…,wN},該模型的目標(biāo)函數(shù)是最大化平均對(duì)數(shù)概率,如下:
(3)
其中,c表示范圍為k的單詞的上下文,N表示訓(xùn)練單詞的個(gè)數(shù)。為了計(jì)算Pr(wi+c|wi),引入了Softmax函數(shù):
(4)
層次Softmax模型主要的優(yōu)勢(shì)在于將計(jì)算的節(jié)點(diǎn)數(shù)從原來(lái)的W個(gè)下降至lbW個(gè)。該模型使用二叉樹(shù)的方式呈現(xiàn)輸出層,即將W個(gè)單詞作為W顆樹(shù)的葉子節(jié)點(diǎn),每棵樹(shù)的任一節(jié)點(diǎn)的分支代表一次二分類過(guò)程。這個(gè)處理過(guò)程,實(shí)際上是通過(guò)隨機(jī)行走的方式為每一個(gè)單詞賦予一個(gè)概率。
詳細(xì)來(lái)說(shuō),每一個(gè)單詞wd都可以找到一條從根節(jié)點(diǎn)出發(fā)的路徑。令nd(wd,j)表示從根節(jié)點(diǎn)到單詞wd的路徑上的第j個(gè)節(jié)點(diǎn),令L(wd)代表該路徑的長(zhǎng)度,即nd(wd,L(wd))=wd。更進(jìn)一步,令child(nd)代表節(jié)點(diǎn)nd的任一固定子節(jié)點(diǎn),運(yùn)算符[]的含義是,如果x為真,那么[x]為1,x為否,則[x]為-1。那么,層次Softmax函數(shù)可以表達(dá)為:
(5)
chk(wd,j)=[nd(wd,j+1)=child(nd(wd,j))]
(6)
主題聯(lián)合詞向量模型依賴于每個(gè)單詞的主題信息。因此,首先通過(guò)LDA模型獲取主題并對(duì)單詞wi標(biāo)記一定數(shù)量的主題zi∈Ts。在主題標(biāo)記完成后,每個(gè)單詞將會(huì)有2個(gè)id,分別是單詞id和主題id。接著,對(duì)語(yǔ)料庫(kù)中的每一個(gè)單詞構(gòu)建哈夫曼樹(shù),并進(jìn)行編碼,作為Skip-Gram模型的初始單詞輸入,同時(shí),為其對(duì)應(yīng)的主題id隨機(jī)生成主題編碼,作為Skip-Gram模型的初始主題輸入。主題聯(lián)合詞向量模型如圖3所示。對(duì)一個(gè)單詞wi及其對(duì)應(yīng)的主題z={z1,z2,…,zj,…,zN},該模型的目標(biāo)函數(shù)是最大化平均對(duì)數(shù)概率:
(7)
圖3 TCV模型
當(dāng)該模型訓(xùn)練完成后就得到單詞向量wi和主題向量zi。為計(jì)算的簡(jiǎn)便,本模型要求單詞向量和主題向量擁有同樣的維度,比如,wi=W1×200,zi=Z1×200。
為了將主題信息應(yīng)用于單詞,從而構(gòu)建更具表達(dá)性的詞向量,該模型首先對(duì)主題向量進(jìn)行歸一化:
(8)
然后,對(duì)兩者施加一個(gè)線性變換,得到最后的詞向量Wz:
Wz=Norm(zi)(Normal(wi)⊕Normal(zi))
(9)
其中,Norm(zi)是主題向量zi的二范數(shù),⊕表示將2個(gè)長(zhǎng)度分別為x,y的向量合并成長(zhǎng)度為x+y的向量。這里對(duì)主題向量進(jìn)行歸一化的原因是相比于單詞向量,主題向量各個(gè)元素的值過(guò)小(主題向量在0.01~0.2的范圍,單詞向量在0.1~0.9的范圍)。同時(shí),對(duì)詞向量做歸一化,并將兩者連接成一個(gè)向量,然后用各個(gè)元素乘以主題向量的模,這個(gè)操作可以在一定程度上讓主題向量和單詞向量趨向統(tǒng)一,更好地結(jié)合兩者的信息。
根據(jù)最終得到的詞向量Wz,主題聯(lián)合詞向量模型即可用于單詞相似度測(cè)試,不同于傳統(tǒng)的單詞相似度檢測(cè),該測(cè)試需要基于單詞上下文。給定一個(gè)單詞wi及其上下文ci,LDA模型可以根據(jù)[8,14]進(jìn)行主題概率分布的推斷,即Pr(z|wi,ci)=Pr(z|ci)Pr(wi|z)。因此,每一個(gè)單詞將會(huì)被標(biāo)記多個(gè)主題。一個(gè)很直接的上下文詞向量如下:
(10)
其含義是在模型得到的所有可能的主題中,將每個(gè)主題的概率作為權(quán)重,進(jìn)行加權(quán)求和,得到最終的上下文詞向量。然而,對(duì)于一個(gè)給定上下文語(yǔ)境的單詞,其語(yǔ)義信息大致是明確的,不會(huì)包含太多主題。因此,主題聯(lián)合詞向量模型接受t個(gè)具有最大概率的主題作為單詞的主題候選,其余主題作為噪聲處理。那么,新的上下文詞向量表達(dá)為:
(11)
其中,σWz被定義為噪聲項(xiàng),σ為噪聲系數(shù),為了計(jì)算的簡(jiǎn)便,噪聲系數(shù)在這里被設(shè)定為0??紤]一個(gè)具有10個(gè)主題的單詞,它唯一可能出現(xiàn)的場(chǎng)景就是字典。在一個(gè)現(xiàn)實(shí)的語(yǔ)境中,人們總會(huì)將該單詞限定在某幾種語(yǔ)義之下。10種主題的情況是不可能出現(xiàn)的。因此,本文設(shè)定t的最大值為2。
那么,給定一對(duì)單詞及其對(duì)應(yīng)的上下文(wi,ci)、(wj,cj),本模型采用余弦相似度[15]計(jì)算其詞向量相似度,如下:
(12)
結(jié)合式(11)和式(12),根據(jù)AVGSimC公式[4]計(jì)算上下文詞向量的相似度S,如下:
(13)
在本節(jié)中,分別從上下文單詞相似度、文本分類2個(gè)自然語(yǔ)言處理任務(wù)進(jìn)行實(shí)驗(yàn),對(duì)比評(píng)估多種相關(guān)模型的性能。
2.1.1 單詞相似度實(shí)驗(yàn)
傳統(tǒng)的單詞相似度實(shí)驗(yàn),通常選用WordSim353、MC、RG等數(shù)據(jù)集作為實(shí)驗(yàn)對(duì)象,但是,這些數(shù)據(jù)集都忽略了單詞的上下文,不適合本文的單詞相似度實(shí)驗(yàn)。因此,在本文中采用上下文單詞相似度檢測(cè)數(shù)據(jù)集SCWS,該數(shù)據(jù)集中包含2003對(duì)單詞,每一對(duì)單詞都有各自的上下文,同時(shí),每一對(duì)單詞都有10個(gè)人為標(biāo)記的對(duì)兩個(gè)單詞相似度的打分,打分原則是依靠人對(duì)每一個(gè)單詞在該上下文下的語(yǔ)義的理解打出一個(gè)0~10之間的分?jǐn)?shù)。本文對(duì)這10個(gè)打分取截尾平均數(shù)作為最終的參考打分。由于余弦相似度可以為負(fù)值,這與人為的打分(均為正值)不一致,因此本文將使用以下公式,將模型得到的打分結(jié)果xi轉(zhuǎn)化為正值。
(14)
其中,min和max是模型輸出的所有相似度結(jié)果的最大值和最小值。并且,考慮到模型計(jì)算得到的相似度數(shù)值與人為打分?jǐn)?shù)值差異較大,本文采用斯皮爾曼相關(guān)系數(shù)作為最終模型打分與人為打分的接近程度。
本文使用維基百科在2010年4月的數(shù)據(jù)作為訓(xùn)練庫(kù)。由于訓(xùn)練庫(kù)數(shù)據(jù)巨大(訓(xùn)練數(shù)據(jù)有465萬(wàn)個(gè)文檔),需要進(jìn)行一些必要的預(yù)處理過(guò)程,例如格式化,停用詞(stop word),詞干提取(stemming)。該實(shí)驗(yàn)中將LDA模型的主題數(shù)目設(shè)置為200,迭代次數(shù)設(shè)置為100。當(dāng)開(kāi)始訓(xùn)練主題聯(lián)合詞向量模型時(shí),默認(rèn)窗口大小設(shè)置為5,單詞向量與主題向量維度均設(shè)置為200。整個(gè)實(shí)驗(yàn)過(guò)程在一臺(tái)Inteli7處理器、64 GB內(nèi)存的工作站上進(jìn)行,操作系統(tǒng)為Ubuntu 14.04,訓(xùn)練時(shí)間為15 d。
本文將TCV模型與C&W模型、TFIDF/Pruned TFIDF(S/M)模型[4]、經(jīng)典多向量模型(例如Huang模型等)[6,8]、LDA模型、Skip-Gram模型進(jìn)行比較。其中,C&W模型和詞頻逆文檔頻(Term Frequency Inverse Document Frequency,TFIDF)模型都是單向量模型,前者不考慮任何的上下文信息,后者將單詞前后的10個(gè)單詞作為上下文并以TFIDF作為權(quán)重因子。Pruned TFIDF模型也是一個(gè)單向量模型,它通過(guò)精簡(jiǎn)TFIDF的單詞數(shù)量,將上下文中具有較低TDIDF值的單詞去除從而提高了性能。經(jīng)典多向量模型通過(guò)對(duì)不同上下文的聚類或者結(jié)合一個(gè)神經(jīng)語(yǔ)言模型來(lái)得到最終的向量。
2.1.2 文本分類實(shí)驗(yàn)
本文進(jìn)行文本分類實(shí)驗(yàn)采用的數(shù)據(jù)集是20NewsGroups。該數(shù)據(jù)集中有數(shù)千個(gè)標(biāo)記了主題的文檔。本文使用其中60%的數(shù)據(jù)作為訓(xùn)練集,剩余數(shù)據(jù)作為測(cè)試集。為了能夠提取文檔的特征,本文引入文檔向量:
(15)
其中,d是一個(gè)擁有一定數(shù)量主題的文檔,w是文檔中的單詞。為簡(jiǎn)化單詞w出現(xiàn)在文檔d中的概率Pr(w|d),使用簡(jiǎn)單高效的單詞的TFIDF權(quán)重作為Pr(w|d)。文檔特征即為所有詞向量的加權(quán)求和。當(dāng)文檔特征提取之后,使用線性支持向量分類器(Support Vector Classifier,SVC)得到最終的分類結(jié)果。在這個(gè)實(shí)驗(yàn)中,將TCV模型與BOW模型、LDA模型、Skip-Gram模型和WTM模型進(jìn)行比較。在BOW模型中,依然使用TFIDF作為權(quán)重。LDA模型則使用推斷的主題分布來(lái)表示文檔。在Skip-Gram模型中,為每個(gè)單詞生成向量之后,將所有的單詞向量按元素求平均,以此作為該文檔的文檔向量。WTM模型的所有參數(shù)參照文獻(xiàn)[10]說(shuō)明進(jìn)行設(shè)置。
單詞相似度實(shí)驗(yàn)結(jié)果如表2、表3所示,其中,斯皮爾曼相關(guān)系數(shù)ρ越大,代表模型對(duì)相似度計(jì)算的結(jié)果越好。相似度比較結(jié)果被分成了2組——單向量組和多向量組。從實(shí)驗(yàn)結(jié)果中可以看到,在相似度檢測(cè)實(shí)驗(yàn)中,主題聯(lián)合的詞向量模型的結(jié)果優(yōu)于所有的單向量模型和多向量模型,特別是當(dāng)t=1的時(shí)候,達(dá)到了66.9%。
表2SCWS數(shù)據(jù)集上單模型向量斯皮爾曼相關(guān)系數(shù)%
表3SCWS數(shù)據(jù)集上多模型向量斯皮爾曼相關(guān)系數(shù)%
文本分類實(shí)驗(yàn)結(jié)果如表4所示,結(jié)果顯示TCV模型在精度、召回率、F1綜合指標(biāo)中都優(yōu)越于傳統(tǒng)模型和WTM模型。
表4 文本分類實(shí)驗(yàn)結(jié)果 %
本文所提出的主題聯(lián)合詞向量模型,在單詞向量的基礎(chǔ)上融入具有最大概率的主題信息,可以更好地表達(dá)單詞。相比于其他模型,本文模型有3個(gè)顯著的優(yōu)點(diǎn):1)傳統(tǒng)的多向量模型,對(duì)一個(gè)單詞,只能生成有限數(shù)量的詞向量,然而本模型卻可以提取數(shù)百個(gè)主題,針對(duì)不同的主題,生成數(shù)百個(gè)詞向量,在單詞的呈現(xiàn)上更加靈活。2)傳統(tǒng)的多向量模型通過(guò)對(duì)上下文聚類來(lái)生成不同的向量,卻忽視不同上下文之間的語(yǔ)義交疊,而本文所提出的模型,通過(guò)依賴主題信息來(lái)生成向量,各個(gè)主題信息之間,本身就有一定程度的語(yǔ)義交疊,因此,本模型可以彌補(bǔ)將不同的上下文完全隔離的缺陷。3)WTM模型需要最小化KL散度,計(jì)算較為繁瑣,而本模型通過(guò)選取概率最大的一個(gè)或2個(gè)主題作為單詞的主題,簡(jiǎn)化了計(jì)算。
本文提出一種新的詞向量生成模型——主題聯(lián)合詞向量模型,能夠?yàn)樘囟ㄉ舷挛恼Z(yǔ)境下的單詞表達(dá)以主題為特征的語(yǔ)義。相比傳統(tǒng)的對(duì)單詞上下文進(jìn)行聚類的多向量模型,主題聯(lián)合詞向量模型可以結(jié)合大量的主題信息來(lái)構(gòu)建基于上下文的詞向量,使得生成的詞向量蘊(yùn)含特定主題。實(shí)驗(yàn)結(jié)果表明,該模型在多語(yǔ)境場(chǎng)景中具有較好的魯棒性。由于綜合了多個(gè)其他模型,后期需要對(duì)該模型進(jìn)行精簡(jiǎn),以提升整體運(yùn)行速度。
[1] TURIAN J,RATINOV L,BENGIO Y.Word Representa-tions:A Simple and General Method for Semi-supervised Learning[C]//Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics.Uppsala,Sweden:[s.n.],2010:384-394.
[2] 馮 沖,石 戈,郭宇航,等.基于詞向量語(yǔ)義分類的微博實(shí)體鏈接方法[J].自動(dòng)化學(xué)報(bào),2016,42(6):915-922.
[3] WANG Yiou,JUN’ICHI K Y T,TSURUOKA Y,et al.Improving Chinese Word Segmentation and POS Tagging with Semi-supervised Methods Using Large Auto-analyzed Data[C]//Proceedings of IJCNLP’11.New York,USA:[s.n.],2011:309-317.
[4] 李 華,屈 丹,張文林,等.結(jié)合全局詞向量特征的循環(huán)神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型[J].信號(hào)處理,2016,32(6):715-723.
[5] REISINGER J,MOONEY R J.Multi-prototype Vector-space Models of Word Meaning[C]//Proceedings of Human Language Technologies:The 2010 Annual Conference of the North American Chapter of the Association for Computational Linguistics.New York,USA:ACM Press,2010:109-117.
[6] HUANG E H,SOCHER R,MANNING C D,et al.Improving Word Representations via Global Context and Multiple Word Prototypes[C]//Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics:Long Papers-Volume 1.New York,USA:ACM Press,2012:873-882.
[7] BENGIO Y,DUCHARME R,VINCENT P,et al.A Neural Probabilistic Language Model[J].Journal of Machine Learning Research,2003,3:1137-1155.
[8] TIAN Fei,DAI Hanjun,BIAN Jiang,et al.A Probabilistic Model for Learning Multi-prototype Word Embeddings[C]//Proceedings of COLING’14.New York,USA:[s.n.],2014:151-160.
[9] LIU Yang,LIU Zhiyuan,CHUA T S,et al.Topical Word Embeddings[C]//Proceedings of the 29th AAAI Conference on Artificial Intelligence.Austin,USA:[s.n.],2015:2418-2424.
[10] FU Xianghua,WANG Ting,LI Jing,et al.Improving Distributed Word Representation and Topic Model by Word-topic Mixture Model[C]//Proceedings of the 8th Asian Conference on Machine Learning.Hamilton,New Zealand:[s.n.],2016:190-205.
[11] MIKOLOV T,SUTSKEVER I,CHEN Kai,et al.Distributed Representations of Words and Phrases and Their Compositionality[C]//Proceedings of Advances in Neural Information Processing Systems.New York,USA:[s.n.],2013:3111-3119.
[12] GUTHRIE D,ALLISON B,LIU Wei,et al.A Closer Look at Skip-Gram Modelling[C]//Proceedings of the 5th International Conference on Language Resources and Evaluation.Genoa,Italy:[s.n.],2006:1222-1225.
[13] WALLACH H M.Topic Modeling:Beyond Bag-of-words[C]//Proceedings of the 23rd International Conference on Machine Learning,New York,USA:ACM Press,2006:977-984.
[14] BLEI D M,NG A Y,JORDAN M I.Latent Dirichlet Allocation[J].Journal of Machine Learning Research,2003,3:993-1022.
[15] TATA S,PATEL J M.Estimating the Selectivity of TF-IDF Based Cosine Similarity Predicates[J].ACM Sigmod Record,2007,36(2):7-12.