周順先,蔣 勵,,林霜巧,龔德良,王魯達
(1.湘南學(xué)院 軟件與通信工程學(xué)院,湖南 郴州 423000,2.中南大學(xué) 信息科學(xué)與工程學(xué)院,長沙 410075)
目前,針對信息檢索任務(wù)中的文本,在無法直接識別其詞語語義的情況下,多采用基于詞語統(tǒng)計的樣本特征化表示方法,例如詞頻-逆向文件頻率模型[1-2](term frequency-inverse document frequency,TF-IDF)模型與詞袋[3](bag of words,BOW)模型。現(xiàn)行的基于詞語統(tǒng)計的特征化表示方法可在無語義規(guī)則支持的情況下實現(xiàn)文本特征化表示,但將忽略詞語語義,無法有效地提取其詞語語義特征。
Word2vector最先由Mikolov在2013年提出,該方法能夠簡單、高效獲取詞義的向量化特征,引起業(yè)界的極大關(guān)注。當文本作為信息檢索的樣本時,針對在不同文本中的每個詞語,Word2vector可依據(jù)其上下文關(guān)系有效地提取其語義(即詞語語義特征),并以詞向量提供形式化表達[4]。因此,Word2vector的詞義特征提取無需語義規(guī)則庫。由于Word2vector的詞義特征提取機制的復(fù)雜性,使得不同文本中相同的詞所對應(yīng)的詞向量并不相同。難以根據(jù)Word2vector的詞向量形成文本的特征化表示,尤其難以形成向量空間模型(vector space model,VSM)[5]形式的樣本特征化表示。
Mikolov在相關(guān)論文[6]中說明了Word2vector的機制。部分技術(shù)開發(fā)人員已對word2vec中的數(shù)學(xué)原理進行了深入的剖析[7]。在此基礎(chǔ)之上,西南大學(xué)唐明等[8]提出一種文檔向量表示的方法,應(yīng)用與中文文檔的分類;華東師范大學(xué)計算機應(yīng)用研究所楊河彬等[9]提出CT-Word2Vec神經(jīng)網(wǎng)絡(luò)語言模型,利用詞匯的上下文信息將詞轉(zhuǎn)化成向量,在詞向量的學(xué)習(xí)過程當中融入了用戶的搜索點擊行為。上述方法在執(zhí)行過程中,前者是對詞語語義明細的文本進行特征化表示,存在對詞語語義規(guī)則的利用(如中文分詞的劃分粒度),后者也可用于支持文本進行特征化表示,但存在人為語義識別的因素(如用戶搜索行為的干預(yù))。
單純依靠word2vec工具,可根據(jù)上下文關(guān)系提取詞語的語義特征,并可不依賴語義規(guī)則,且針對詞語語義不明的文本同樣有效。而在近期文獻中,未有此類基于Word2vector的文本特征表示方法被提出。
文本提出的特征化表示可采用Word2vector作為基于上下文的詞義特征提取方法,并適用于現(xiàn)行基于向量空間模型(vector space model,VSM)的信息檢索算法。該文本特征化表示方法,能夠根據(jù)Word2vector詞義特征,在無語義規(guī)則支持、詞語語義不明的情況下,形成VSM形式的文本特征化表示,適用于以VSM形式為特征化表示的文本分類算法。
本文的研究動機是構(gòu)建一種基于上下文關(guān)系的文本特征化表示方法,采用Word2vector提取文本中的詞語語義(詞義)特征,并最終形成VSM形式的文本特征化表示。實現(xiàn)Word2vector詞義特征提取方法的Word2vec工具是其相關(guān)的技術(shù)基礎(chǔ)。
基于Word2vector信息檢索文本特征化可以解決2個方面的問題:①根據(jù)Word2vector詞向量難以形成文本特征化表示的問題;②在缺少語義規(guī)則庫的情況下,文本特征化過程中詞義特征提取的問題。本文研究動機的具體思路如下。
1)根據(jù)文本中的空格或統(tǒng)一粒度的分詞規(guī)則劃分每個詞語。
2)針對由分詞得到的詞語,采用Word2vector方法提取其詞義特征,并以詞向量形式表示。
3)采用適當?shù)木垲悇澐謹?shù)量,對得到的詞向量進行聚類,即實現(xiàn)對詞語詞向量的“最優(yōu)適應(yīng)度劃分”的聚類。根據(jù)最終的聚類結(jié)果將詞語替代表示為其詞向量所屬聚類劃分的質(zhì)心S,即用質(zhì)心S代表其聚類劃分內(nèi)的詞語,將詞語語義特征近似認同為所屬聚類劃分的質(zhì)心。
4)將“質(zhì)心S所代表的詞語”在該文本中出現(xiàn)頻率計為質(zhì)心S的頻率,并統(tǒng)計詞向量聚類質(zhì)心S的逆向文件頻率;參照TF-IDF模型構(gòu)成詞向量聚類質(zhì)心頻率模型,并生成VSM形式的特征化表示。
5)根據(jù)基于Word2vector的VSM特征化表示進行文本相似性分析。
根據(jù)研究動機,將利用Word2vector提取詞義特征,獲得文本中所有詞語的詞向量;而后,根據(jù)最優(yōu)聚類效果適應(yīng)度的劃分對詞語的詞向量進行聚類,并根據(jù)聚類結(jié)果將詞語替代表示為其詞向量所屬聚類劃分的質(zhì)心(S);最后,將質(zhì)心所代表的詞語在文本中的出現(xiàn)頻率計為質(zhì)心S的頻率,并構(gòu)成詞向量聚類質(zhì)心頻率模型,用于特征化表示文本。詞向量聚類質(zhì)心頻率模型蘊含詞義特征,且屬于VSM形式,可適用于現(xiàn)行的基于特征向量的信息檢索算法(如分類、回歸、聚類)。
基于Word2vector的文本特征化與傳統(tǒng)的詞語統(tǒng)計機制不同,可通過分析Example 1表明。Example 1中,2個簡單的句子可視為2個文本樣本,并且構(gòu)成一個極小的語料庫。
Example 1.
Sample A. Men love holiday.
Sample B. Human enjoys vacation.
Sample A和Sample B的含義極為相似,2個文件之間的相關(guān)性和語義相似性是相當大的。
詞語統(tǒng)計機制的文本特征化對Example 1中文本的向量化表示如表1所示。其中,在A,B2個向量中,不為零的詞頻值沒有同時出現(xiàn)在2個文本樣本中的相同詞語上。這2個詞頻的正交向量表明,用于文本特征化表示的詞語統(tǒng)計機制,不能有效表示Example 1中的語義相似性。而基于Word2vector的文本特征化表示則可依靠詞向量所屬聚類劃分質(zhì)心對詞語的替代表示,實現(xiàn)詞義特征統(tǒng)計,從而有效表示Example 1中的語義相似性。
表1 詞語統(tǒng)計機制的Example 1文本向量化表示
當文檔作為信息檢索的樣本時,針對在不同文檔中的每個詞語,Word2vector可依據(jù)其上下文關(guān)系有效地提取其語義(即詞義特征),并以詞向量的形式給出[10]。Word2vec是Word2vector方法的模型實現(xiàn)軟件工具包,能夠基于詞語的上下文關(guān)系,快速有效地訓(xùn)練并生成詞向量。Word2vec工具包含了2種訓(xùn)練模型,CBOW(continuous bag of word)與Skip_gram。Word2vec中訓(xùn)練模型的基礎(chǔ)是神經(jīng)網(wǎng)絡(luò)語言模型(neural network language model ,NNLM)[11],其基本原理如圖1所示。必須注意的是,Word2vector的詞義特征提取機制使得不同文檔中相同的詞所對應(yīng)的詞向量并不相同。所以,導(dǎo)致難以根據(jù)Word2vector的詞向量形成信息檢索樣本的特征化表示,特別是難以形成VSM形式的樣本特征化表示。
圖1 Word2vector方法原理Fig.1 Word2vector mechanism
Word2vec作為一款將詞表征為實數(shù)值向量的高效工具包[6]。其利用深度學(xué)習(xí)的思想,可通過訓(xùn)練把對文本內(nèi)容的處理簡化為多維向量空間中的向量運算,而向量空間上的相似度可以用來表示文本語義上的相似度。Word2vec輸出的詞向量可以被用于自然語言處理相關(guān)的工作,如聚類、同義詞查找、詞性分析等。若將詞語當做特征,則Word2vec就可將特征映射到多維向量空間,可為文本數(shù)據(jù)尋求更加深層次的特征表示。
Word2vec使用的是Distributed representation的詞向量表示方式[6]。Distributed representation的基本思想是通過訓(xùn)練將每個詞映射成N維實數(shù)向量,通過詞之間的距離(如余弦相似度、歐氏距離等)判斷它們之間的語義相似度[12]。Word2vec采用一個三層的神經(jīng)網(wǎng)絡(luò)(含輸入層-隱含層-輸出層),Word2vec的三層神經(jīng)網(wǎng)絡(luò)本身是對語言模型進行建模,同時獲得一種詞語在向量空間上的表示是Word2vec的真正目標(見圖1)。Word2vec三層神經(jīng)網(wǎng)絡(luò)可根據(jù)詞頻用Huffman編碼使得所有詞頻相似的詞隱藏層激活的內(nèi)容基本一致,出現(xiàn)頻率越高的詞語,所激活的隱藏層數(shù)目越少,可有效地降低計算的復(fù)雜度。因此,Word2vec具備高效性。
基于Word2vector的文本特征化表示利用Word2vector提取詞義特征,獲得文本中所有詞語的詞向量。之后,根據(jù)最優(yōu)聚類效果適應(yīng)度的劃分對詞語的詞向量進行聚類,并根據(jù)聚類結(jié)果將詞語替代表示為其詞向量所屬聚類劃分的質(zhì)心S。質(zhì)心所代表的詞語在文本中的出現(xiàn)頻率計為S的頻率,構(gòu)成用于特征化表示文本的詞向量聚類質(zhì)心頻率模型(semantic frequency-inverse document frequency,SF-IDF)。
基于Word2vector的文本特征化表示方法,主要由以下步驟構(gòu)成。
2.1.1 對樣本進行詞語分詞
將文本中的詞語視為ASCII字符串,根據(jù)空格或劃分每個詞語。將詞語記為wordi,t,表示第i個樣本中的第t種詞語的分詞,有i={1,2,…,|D|},|D|為數(shù)據(jù)集中D的樣本數(shù),t={1,2,…,n},n為詞語種類數(shù),所有文本中詞語wordi,t的數(shù)量為N,不同文本中的相同ASCII字符串識別為同一詞語。
2.1.2 采用Word2vec工具提取詞義特征
詞向量初始化賦值時,不同文本中的相同詞語具有一致的詞向量,有wi,t=wj,t。
針對由2.1.1節(jié)得到的詞語,采用Word2vector方法,基于詞語的上下文關(guān)系提取其詞義特征,并以詞向量形式表示。本步驟運用Word2vec工具包中的訓(xùn)練模型,可獲得詞語的詞向量。訓(xùn)練模型以神經(jīng)網(wǎng)絡(luò)語言模型NNLM為基礎(chǔ),其原理如圖1所示。
采用NNLM計算某一個上下文中一個詞語wordi,t的概率,即p(wordi,t=t|context),詞向量是其訓(xùn)練的副產(chǎn)物。NNLM根據(jù)數(shù)據(jù)集D生成一個對應(yīng)的詞匯表V,其中的每一個詞語都對應(yīng)著一個標記wordi,t。通過數(shù)據(jù)集來構(gòu)建訓(xùn)練樣本并作為神經(jīng)網(wǎng)絡(luò)的輸入,以確定神經(jīng)網(wǎng)絡(luò)的參數(shù)。NNLM詞語上下文樣本的構(gòu)建過程為:對于D中的任意一個詞wordi,t,獲取其上下文context(wordi,t)(例如前n-1個詞),從而得到一個元組(context(wordi,t),wordi,t)。以該元組作為神經(jīng)網(wǎng)絡(luò)的輸入進行訓(xùn)練。NNLM的輸入層和傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)模型有所不同,輸入的每一個節(jié)點單元是一個向量,向量的每一個分量為變量,在訓(xùn)練過程中對其進行變更,該向量即為詞向量。由圖1可知,對于每一個詞wordi,t,NNLM都將其映射成一個向量wi,t,即為詞向量。
Word2vec生成的詞向量wi,t具體表示第i個文本中的第t種詞語的詞義特征,有i={1,2,…,|D|},|D|為樣本數(shù),全體樣本中詞語的詞向量wi,t的數(shù)量為N。
2.1.3 詞語語義特征替代表示
首先,采用最優(yōu)聚類效果適應(yīng)度下的聚類劃分數(shù)量,對詞向量進行K-means算法聚類[13],即實現(xiàn)對詞語詞向量的“最優(yōu)適應(yīng)度劃分”的聚類。詞向量的K-means聚類中,采用兩詞向量夾角的余弦值計算二者間的距離。
根據(jù)2.1.2節(jié),所有樣本中詞語的詞向量wi,t的數(shù)量為N,詞向量wi,t具體表示第i個樣本中的第t種詞語的詞義特征。已知的樣本分類數(shù)量為C,而樣本數(shù)量為M。本步驟中,將詞向量聚類劃分的質(zhì)心稱為S(表示為詞向量空間中的向量),S的數(shù)量k即是聚類劃分個數(shù)。
為度量詞向量空間中的K-means聚類效果,本文給出聚類劃分數(shù)量適應(yīng)性的計算。為表示聚類劃分數(shù)量適應(yīng)性,令f(k)為體現(xiàn)聚類效果適應(yīng)度的函數(shù),表示為
(1)
(1)式中:α為k個S向量間的平均余弦距離;β為k個聚類劃分內(nèi)的詞向量間平均余弦距離的均值,具體地有
(2)
(3)
圖2 聚類效果適應(yīng)度函數(shù)Fig.2 Clustering effect of fitness function
設(shè)聚類劃分個數(shù)k∈[N,N×C],且為正整數(shù),當f(k)=max(f(k))時,令最優(yōu)聚類效果適應(yīng)度下的聚類劃分數(shù)量K=k,f(K)是聚類效果適應(yīng)度的最大值。經(jīng)計算可知,函數(shù)f(k)在N到K的區(qū)間是單調(diào)遞增的,在K到N×C的區(qū)間是單調(diào)遞減的,函數(shù)f(k)的分布如圖3所示。
當f(k)=max(f(k))時,K=k,f(K)是聚類效果適應(yīng)度函數(shù)的極值,即最優(yōu)聚類效果適應(yīng)度,K-means聚類質(zhì)心S的數(shù)量最終確定為K。
根據(jù)最終的聚類結(jié)果將詞語替代表示為其詞向量所屬聚類劃分的質(zhì)心S。具體地,當f(k)=max(f(k))時,最優(yōu)聚類效果適應(yīng)度下的聚類劃分數(shù)量K=k,將任意詞語wi,t替代表示為其詞向量所屬聚類劃分的質(zhì)心S,即將詞語的特征近似認同為所屬聚類劃分的質(zhì)心。在任意局部詞向量空間中,用質(zhì)心S代表其聚類劃分內(nèi)的詞語,其對應(yīng)關(guān)系如圖3所示。
圖3中的具體替代表示關(guān)系為
Sb?{wordi,t|wi,t∈Wb}
(4)
(4)式中:第b個聚類質(zhì)心Sb所代表的詞語wordi,t構(gòu)成一個詞語集合;wi,t是詞語wordi,t的詞向量;Wb是類屬于質(zhì)心Sb所在聚類劃分的詞向量所對應(yīng)的詞語的集合。
圖3 詞向量空間中根據(jù)聚類的替代表示關(guān)系Fig.3 Substitution in word vector space
詞語語義特征替代表示是采用聚類質(zhì)心代表該聚類劃分中所有詞語及其語義,有可能造成信息損失。將由結(jié)果表明其所造成的信息損失可視為在文本特征表示過程中可承受的影響。
2.1.4 基于詞義特征替代表示構(gòu)建文本特征化表示模型
首先,統(tǒng)計每個詞語在一個樣本中出現(xiàn)的頻率,根據(jù)2.1.3節(jié)給出的質(zhì)心S與詞語的替代表示關(guān)系,將第b個質(zhì)心Sb所代表的詞語在該樣本中的出現(xiàn)頻率計為質(zhì)心Sb的頻率;并統(tǒng)計詞向量聚類質(zhì)心Sb的逆向文件頻率,有b={1,2,…,K}。而后,參照TF-IDF模型構(gòu)成詞向量聚類質(zhì)心頻率模型——SF-IDF。
TF-IDF模型[1]中,樣本doci的特征化表示由特征向量di實現(xiàn),有
di=(di(1),di(2),…,di(n))
(5)
向量di中第t維元素di(t)計算方式為
di(t)=TF(wordt,doci)·IDF(wordt)
(6)
(6)式中,TF(wordt,doci)是詞語wordt在樣本doci中的頻率,其計算方式為
(7)
(7)式中的分子是該詞語在樣本中的出現(xiàn)次數(shù),而分母則是在文件中所有詞語的出現(xiàn)次數(shù)之和;IDF(wordt)為詞語wordt的逆向文件頻率,其計算方式為
(8)
(8)式中:D為樣本doci的構(gòu)成數(shù)據(jù)集;|D|為數(shù)據(jù)集D中樣本的總數(shù);|{doci|wordt∈doci}|為包含詞語wordt的樣本數(shù)量。
參照TF-IDF模型,SF-IDF模型具體構(gòu)成如下。
SF(Sb,doci)是詞向量聚類質(zhì)心Sb在文本doci中的頻率,其計算方式為
(9)
(9)式中:TF(wi,t)表示詞語wi,t在文本doci中出現(xiàn)的頻率;SF(Sb,doci)僅累計文本doci中由質(zhì)心Sb所代表的詞語的頻率。
IDF(Sb)為詞向量聚類質(zhì)心Sb的逆向文件頻率,其計算方式為
(10)
(10)式中:D為文本doci的構(gòu)成數(shù)據(jù)集;|D|為數(shù)據(jù)集D中樣本的總數(shù);|{doci|wi,twi,t∈Wb∈doci}|為包含由質(zhì)心Sb所代表的詞語的樣本的數(shù)量。
(11)
(12)
SF-IDF模型屬于VSM(向量空間模型)形式,用于特征化表示一個文本。
2.1.5 文本相似性分析
根據(jù)SF-IDF模型特征化表示,計算2個文本間的相似度;并據(jù)此進行信息檢索領(lǐng)域中樣本分類算法的執(zhí)行。
(13)
據(jù)互信息理論,可給出基于Word2vector的文本特征化表示方法的有益性分析。
假定X與Y為表示樣本X與Y詞語語義內(nèi)容的隨機變量。若樣本已知,X和Y的互信息(mutual information)表示兩者間的不確定性歸納。樣本X與Y之間的互信息I(X;Y)定義為
(14)
在詞語統(tǒng)計機制下,概率P(xi)或P(yj)由統(tǒng)計樣本X或Y中xi或yi的出現(xiàn)次數(shù)(詞頻)計算,并通過文本語料庫規(guī)模(N)進行歸一化。聯(lián)合概率P(xi,yj)由xi與yi之間的存在關(guān)系的次數(shù)(相關(guān)頻率)統(tǒng)計,并根據(jù)N進行歸一化。xi與yi之間存在的關(guān)系為“相同”或特定關(guān)系[14]。
以Example 1為例,在任意Sample A中的詞語與Sample B中的詞語之間,并沒有可統(tǒng)計的存在關(guān)系的次數(shù),它們并不“相同”,也沒有表現(xiàn)出特定關(guān)系。故詞語統(tǒng)計的特征提取顯示P(xi,yj)=0,且樣本間的互信息I(X;Y)=0。可以證明詞語統(tǒng)計機制的特征提取丟失詞語語義內(nèi)容所產(chǎn)生的互信息。
基于Word2vector的文本特征化表示的語義特征提取方式,是進行詞語語義特征替代表示。因而在不同的樣本中,詞語可由詞語語義特征替代表示產(chǎn)生關(guān)系。在Example 1的Sample A與Sample B中的詞語間,存在可統(tǒng)計的存在關(guān)系的次數(shù),盡管它們并不“相同”,卻可表現(xiàn)出特定關(guān)系。例如詞語“Men”與“Human”的語義根據(jù)上下文關(guān)系提取,并通過詞語語義特征替代表示進行近似認同。上述分析表明,基于Word2vector的文本特征化表示可提供文本詞語語義層面的信息概率加權(quán)量(probability weighting information ,PWI)[15]。
根據(jù)詞向量聚類質(zhì)心頻率模型,采用信息檢索領(lǐng)域中的經(jīng)典樣本分類算法——權(quán)重鄰居不均衡分類樣本集分類算法(neighbor-weighted k-nearest neighbor for unbalanced text corpus ,NWKNN)執(zhí)行文本分類。NWKNN是權(quán)重鄰居(k-nearest neighbor,KNN)算法,用于不均衡分類樣本集的樣本分類判別。該算法在信息檢索領(lǐng)域中被視為一種高效的分類算法,其公式為[16]
score(doc,ci)=
(15)
函數(shù)score(doc,ci)求得將文本doc歸于分類ci的評估值,用于判定文本doc歸屬于擁有最高評估值的分類;函數(shù)score(doc,doci)表示樣本doc與已知類別樣本doci的相似度,采用向量余弦距離計算;Weighti為分類權(quán)重設(shè)定值,根據(jù)NWKNN算法經(jīng)驗化賦值為3.5[16];函數(shù)δ(docj,ci)表示樣本docj是否屬于類別ci,若樣本docj屬于類別ci,則該函數(shù)取值為1,否則,該函數(shù)取值為0。
樣本分類的性能評估采用F1-measure標準。該標準結(jié)合召回率Recall和準確率Precision的評估度量F1如下
(16)
運用F1-measure標準,可觀察分類系統(tǒng)針對數(shù)據(jù)集的分類效果。為便于比較,將總結(jié)文本分類結(jié)果的宏觀F1度量值Macro-F1。同時,可以得到文本分類結(jié)果的平均準確率。
由于實驗步驟中將文本中的詞語視為ASCII字符串,根據(jù)空格或劃分每個詞語,所選用的文本數(shù)據(jù)集均可視為無語義規(guī)則支持、詞語語義不明的文本集合。
分別以路透社文本集Reuter-21578、維基百科XML數(shù)據(jù)Wikipedia XML為文本數(shù)據(jù)集,采用NWKNN算法進行文本分類實驗,并采用F1-measure標準進行樣本分類的效果評估,SF-IDF向量與現(xiàn)有技術(shù)中TF-IDF向量的分類效果對比如表2,表3所示。
表2 Reuter-21578數(shù)據(jù)集上TF-IDF向量與SF-IDF向量的分類效果比較
表3 Wikipedia XML數(shù)據(jù)集上TF-IDF向量與SF-IDF向量的分類效果比較
據(jù)表2,表3所述,可見SF-IDF向量的分類效果明顯優(yōu)于現(xiàn)有技術(shù)中TF-IDF向量。在沒有語義規(guī)則支持且詞義不明的情況下,在Reuter-21578數(shù)據(jù)集上平均準確率由原有的57.1%提高到63.3%,在Wikipedia XML數(shù)據(jù)集上平均準確率由原有的48.7%提高到59.2%。
實驗結(jié)果顯示,在沒有語義規(guī)則支持且詞義不明的情況下,針對文本相似性分類任務(wù),SF-IDF模型相較TF-IDF模型擁有更優(yōu)良的F1-measure評估結(jié)果,說明本文所提出的特征化表示方法具備文本詞義特征提取方面的優(yōu)勢。
本文所提出的詞向量聚類質(zhì)心頻率(SF-IDF)模型,采用信息檢索領(lǐng)域經(jīng)典樣本分類算法NWKNN,在公用數(shù)據(jù)集Reuter-21758與Wikipedia XML之上,與TF-IDF模型進行對比實驗,展示了明顯優(yōu)勢。SF-IDF模型提高了文本相似度計算的準確性,提升了文本分類準確度,并拓展了信息檢索領(lǐng)域中向量空間模型的構(gòu)建方法。
SF-IDF模型所實現(xiàn)的方法,解決了根據(jù)Word2vector詞向量難以形成文本特征化表示的問題,可在無語義規(guī)則支持的情況下,構(gòu)成基于上下文的文本特征化表示。因此,SF-IDF還可應(yīng)用于分析無法被自然語言直接解讀的文本或數(shù)據(jù)鏈報文(如Link-16,Link-22)。
今后基于Word2vector的文本特征化表示方法的研究工作將嘗試采用密度聚類算法執(zhí)行詞向量最優(yōu)聚類效果適應(yīng)度下的聚類,并展開多種文本數(shù)據(jù)集上的信息檢索試驗。
參考文獻:
[1] ZHANG W,YOSHIDA T,TANG X. A comparative study of TF* IDF, LSI and multi-words for text classification[J].Expert Systems with Applications, 2011,38(3):2758-2765.
[2] TU Shouzhong,HUANG Minlie.Mining microblog user interests based on TextRank with TF-IDF factor[J].The Journal of China Universities of Posts and Telecommunications, 2016, 23(5):40-46.
[3] PURDA L,SKILLICOM D. Accounting Variables, Deception, and a Bag of Words: Assessing the Tools of Fraud Detection[J].Contemporary Accounting Research, 2015,32(3): 1193-1223.
[4] LEQV,MIKOLOV T.Distributed Representations of Sentences and Documents [J].Computer Science,2014,4(32):1188-1196.
[5] JING L,NG M K, HUANG J Z.Knowledge-based vector space model for text clustering[J].Knowledge and Information Systems, 2010, 25(1):35-55.
[6] MIKOLOV T, SUTSKEVER I, CHEN K, et al. Distributed representations of words and phrases and their compositionality[J].Advances in Neural Information Processing Systems,2013,10(26): 3111-3119.
[7] Poll的筆記.文本深度表示模型——word2vec & doc2vec詞向量模型[EB/OL].(2016-04-24)[2017-02-20].http://www.cnblogs.com/maybe2030/p/5427148.html.
[8] 唐明,朱磊,鄒顯春. 基于Word2Vec的一種文檔向量表示[J].計算機科學(xué),2016,43(6):214-217.
TANG Ming, ZHU Lei, ZOU Xianchun. Document Vector Representation Based on Word2Vec[J].Computer Science,2016, 43(6):214-217.
[9] 楊河彬,賀樑,楊靜.一種融入用戶點擊模型Word2Vec查詢詞聚類[J].小型微型計算機系統(tǒng),2016,37(4):676-681.
YANG Hebin, HE Liang, YANG Jing.Query Clustering Using CT-Word2Vec Model [J].Journal of Chinese Mini-Micro Computer Systems , 2016 ,37(4):676-681.
[10] MIKOLOV T, CHEN K, CORRADO G, et al. Computing numeric representations of words in a high-dimensional space:United States,13/841,640[P].2015-05-19.
[12] MIKOLOV T, YIH W, ZWEIG G.Linguistic Regularities in Continuous Space Word Representations[C]//Ken Church.HLT-NAACL.Atlanta,Georgia:Association for Computational Linguistics,2013:746-751.
[13] KANUNGO T, MOUNT D M, NETANYAHU N S, et al. An efficient k-means clustering algorithm: Analysis and implementation[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2002,24(7):881-892.
[14] van RIJSBERGEN C J. Information retrieval [M]. London: Butterworths Press,1979:113-252.
[15] CHUM O, PHILBIN J, ZISSERMAN A. Near Duplicate Image Detection: min-Hash and tf-idf Weighting[EB/OL]//(2008-08-01)[2017-04-20]. http://www.cs.jhu.edu/~misha/ReadingSeminar/Papers/Chum08.pdf.
[16] TAN S. Neighbor-weighted k-nearest neighbor for unbalanced text corpus[J].Expert Systems with Applications,2005,28(4):667-671.