魏 超,羅森林,張 競,潘麗敏
(北京理工大學(xué) 信息與電子學(xué)院,北京100081)
近年來,微博、微信等新傳媒的快速發(fā)展使得短文本信息比例急速增長,因此對人們有效獲取信息具有積極意義的短文本分類技術(shù)正受到越來越多的關(guān)注.而短文本長度較短,包含字詞信息較少,因此基于向量空間模型的短文本表示方法存在嚴(yán)重的特征稀疏和高維的問題.這些問題不僅會增加相似性計(jì)算成本、降低分類器的效率,而且容易引起過擬合現(xiàn)象[1],所以解決短文本表示存在的特征稀疏和高維性的問題對于短文本分類具有十分重要意義.
針對短文本表示存在的高維稀疏問題,目前研究方案主要有2種.
1)在不改變短文本語義的前提下,引入外源知識擴(kuò)展短文本內(nèi)容使近似為普通長文本,進(jìn)而利用常規(guī)方法表示.基于知識庫(wordNet、wiki、open directory project、WebKB)來擴(kuò)展短文本信息是比較常見的方法[2-4].但是,在微博等實(shí)際應(yīng)用中短文本信息更新快,詞義豐富,而知識庫構(gòu)建和擴(kuò)展的成本往往較高,因此該方法并不能很好地解決實(shí)際應(yīng)用中同義,多義問題.此外,王蒙等[5]利用搜索引擎查詢短文本,將返回的相關(guān)網(wǎng)頁結(jié)果用于擴(kuò)展短文本來彌補(bǔ)特征稀疏問題;Rudi等[6]提出Google Similarity Distance的概念,根據(jù)Google關(guān)于2 篇短文本檢索結(jié)果中共現(xiàn)網(wǎng)頁進(jìn)行擴(kuò)展.上述2種方法雖然在語義消歧等方面取得了不錯效果,但實(shí)際應(yīng)用中依賴搜索引擎的效果,仍存在一定局限性.
2)通過分析短文本特征項(xiàng)間內(nèi)在關(guān)聯(lián)性,挖掘短文本的本質(zhì)特征,在避免信息損失的基礎(chǔ)上實(shí)現(xiàn)特征空間維數(shù)約減.楊杰明等[7]在研究垃圾郵件過濾系統(tǒng)中特征的統(tǒng)計(jì)特性的基礎(chǔ)上提出基于二項(xiàng)分布假設(shè)檢驗(yàn)的特征選擇方法,同時,他還研究了類內(nèi)、類間特征的聯(lián)合統(tǒng)計(jì)特性并提出了一種綜合度量類內(nèi)及類間特征重要度的特征選擇方法[8].Dumais等[9]從分析文本中詞語間潛在語義關(guān)系的角度出發(fā),提出潛在語義索引模型(latent semantic index,LSI),借助奇異值分解抽取隱藏在文本中的語義結(jié)構(gòu),并將文檔和詞語投影到低維語義空間以向量的形式進(jìn)行表示.然而該方法無法解決多義詞的問題,另外還存在維數(shù)災(zāi)難的問題.Blei等[10]提出主題概率模型(latent dirichlet allocation,LDA),通過假設(shè)詞匯屬于一定主題,將文本由高維詞匯空間映射到低維主題空間來描述,從而以主題特征詞來表示文本.在文本表示領(lǐng)域,LDA 是常用降維方法.實(shí)際上,LDA 是對詞匯的軟聚類過程,屬于無監(jiān)督降維,在文本分類等監(jiān)督學(xué)習(xí)環(huán)境下的效果并不理想[11].另外,由于忽略了現(xiàn)實(shí)文本數(shù)據(jù)存在非線性結(jié)構(gòu)的特性,這使得LDA 也存在一定局限性[12].
針對短文本表示存在的高維稀疏問題,本文假設(shè)文本數(shù)據(jù)分布于某低維流形結(jié)構(gòu)上,在自編碼網(wǎng)絡(luò)無監(jiān)督流形學(xué)習(xí)方法的基礎(chǔ)上利用外部標(biāo)簽擴(kuò)充短文本信息,通過監(jiān)督學(xué)習(xí)過程挖掘短文本與標(biāo)簽的內(nèi)在聯(lián)系并存儲在網(wǎng)絡(luò)連接權(quán)中.最后利用連接權(quán)構(gòu)造高維空間到低維流形空間的映射函數(shù),得到短文本的流形表示模型.
在拓?fù)湔撝校O(shè)M 是一個Hausdoff拓?fù)淇臻g,若任意點(diǎn)p∈M 都有一個開鄰域U?M,使U 同胚于d 維歐氏空間Rd的一個開子集V,則稱M 是d維拓?fù)淞餍危喎Q流形(Manifold).簡言之,流形是局部歐式、第2可數(shù)的Hausdoff空間.在物理世界中,一般被觀察對象都是以低維流形為其存在和演化的背景空間,如地球球面、相對論中的背景物理時空、以及人類感知[13]等.為了研究這類數(shù)據(jù)的內(nèi)蘊(yùn)特征,Silva等[14]提出流形學(xué)習(xí)的概念:通過找到嵌入在高維采樣數(shù)據(jù)中的低維流形結(jié)構(gòu),并構(gòu)造二者映射關(guān)系,實(shí)現(xiàn)對非線性數(shù)據(jù)的有效降維.整個流形學(xué)習(xí)過程可以通過如圖1表示.
圖1 流形學(xué)習(xí)示意圖Fig.1 Manifold learning processing
給定數(shù)據(jù)集X={xi,i=1,…,N}?Rm,假定X中的樣本是由低維流形空間中的數(shù)據(jù)集Y 通過某個未知的非線性變換f 所生成,即:xi=f(yi)+εi,其中εi表示噪聲,yi∈Y?Rd,d?m,f:Rd→Rm是C∞的嵌入映射.那么流形學(xué)習(xí)的任務(wù)是基于給定的觀測數(shù)據(jù)集X:
1)獲 取 低 維 流 形 表 示Y ={yi,i=1,…,N}?Rd;
2)構(gòu)造非線性映射:f-1:Rm→Rd.
因此,只要構(gòu)造出由高維空間到低維空間的非線性映射f-1,就可以獲取觀測數(shù)據(jù)X 的流形表示,即,yi=f-1(xi).
自編碼網(wǎng)絡(luò)(auto encoder,AE)是Bengio等[15]在2006年提出的一種無監(jiān)督流形學(xué)習(xí)方法.相比于等距離映射(isometric mapping,ISOMAP)、局部線性嵌入(local linear embedding,LLE)等經(jīng)典流形學(xué)習(xí)方法,AE 通過對觀測數(shù)據(jù)的重構(gòu)能夠給出高維特征空間和低維流形空間的雙向確定映射,并保持高維數(shù)據(jù)在低維空間近鄰關(guān)系,從而揭示流形真實(shí)結(jié)構(gòu).AE網(wǎng)絡(luò)結(jié)構(gòu)如圖2(a)示,它是一個3層神經(jīng)網(wǎng)絡(luò),輸入輸出層神經(jīng)元數(shù)目相同,包括編碼(Encoder)和解碼(Decoder)2個網(wǎng)絡(luò).網(wǎng)絡(luò)中神經(jīng)元根據(jù)輸入X,通過非線性函數(shù)Y=[1+exp-(WX+b)]-1得到輸出Y,輸出值域?yàn)椋?,1.0).圖2(b)描述了訓(xùn)練AE 網(wǎng)絡(luò)的過程,設(shè)輸入輸出層神經(jīng)元數(shù)目為m,中間層神經(jīng)元數(shù)目為d.首先采用前向傳播激勵的方式,對于輸入Xm×1,經(jīng)過Encoder網(wǎng)絡(luò)的非線性映射得到中間層表示C(X)d×1,再由Decoder網(wǎng)絡(luò)得到最終輸出層的表示X′m×1.然后以輸入層數(shù)據(jù)Xm×1作為目標(biāo)輸出,構(gòu)造Xm×1與X′m×1的誤差函數(shù),并利用梯度下降算法訓(xùn)練網(wǎng)絡(luò)參數(shù)Wd×m和bd×1從而使得誤差最小.一旦網(wǎng)絡(luò)參數(shù)Wd×m和bd×1確定,利用Encoder網(wǎng)絡(luò)就可以得到由高維空間到低維流形空間非線性映射:f-1:Rm→Rd,其具體形式如下:
圖2 自編碼網(wǎng)絡(luò)及訓(xùn)練過程Fig.2 AutoEncode network and training process
式中:Xm×1為Rm空間 向量,C(X)d×1為Rd空間向量,Wd×m為 編 碼 網(wǎng) 絡(luò) 的 連 接 權(quán) 值 矩 陣,bd×1為偏移量.
本方法包括學(xué)習(xí)、表示2個過程,其中學(xué)習(xí)過程得到流形表示模型,表示過程是利用模型直接生成表示向量,原理如圖3所示.在對標(biāo)簽及短文本進(jìn)行分詞處理之后,首先以詞匯作為特征項(xiàng),構(gòu)建標(biāo)簽和短文本的布爾編碼向量;然后以短文本布爾向量為輸入,對自編碼網(wǎng)絡(luò)進(jìn)行無監(jiān)督的訓(xùn)練過程,提取流形特征;再基于特征提取階段得到的Encoder網(wǎng)絡(luò)重新構(gòu)造AE網(wǎng)絡(luò),并以少部分標(biāo)簽的布爾編碼作為目標(biāo)輸出,對新建AE網(wǎng)絡(luò)進(jìn)行監(jiān)督訓(xùn)練,從而得到融合標(biāo)簽信息的Encoder網(wǎng)絡(luò),最后利用該網(wǎng)絡(luò)權(quán)值構(gòu)造非線性映射f-1得到短文本的流形表示模型,具體形式如式(1).本節(jié)主要介紹學(xué)習(xí)過程的3個步驟:預(yù)處理,特征提取,特征融合.
圖3 短文本表示原理圖Fig.3 Short text representation schematic diagram
預(yù)處理模塊主要完成2步工作,分別是分詞、構(gòu)建布爾向量.首先,對輸入數(shù)據(jù)進(jìn)行分詞,然后,去除停用詞并構(gòu)建特征詞表,并據(jù)此匹配每篇短文本及標(biāo)簽數(shù)據(jù)中詞匯出現(xiàn)情況,最終構(gòu)造出布爾編碼向量.輸入數(shù)據(jù)包括原始短文本及標(biāo)簽數(shù)據(jù),標(biāo)簽數(shù)據(jù)作用等同于分類標(biāo)簽,是對短文本內(nèi)容進(jìn)行概括描述的關(guān)鍵詞匯、短語、句子等.然后根據(jù)輸入數(shù)據(jù)中所包含詞匯構(gòu)建特征詞表,最終得到標(biāo)簽布爾向量編碼,向量維度等于詞匯表的大小.比如標(biāo)簽“電子產(chǎn)品”,分詞得到“電子”、“產(chǎn)品”,最后經(jīng)過預(yù)處理后得到如圖4所示結(jié)構(gòu)形式,其中只有2個維度為1分別對應(yīng)詞匯表中“電子”、“產(chǎn)品”.
圖4 預(yù)處理結(jié)果與輸入對應(yīng)關(guān)系Fig.4 Relationship between input and result
特征提取模塊是利用AE無監(jiān)督流形學(xué)習(xí)方法對預(yù)處理模塊生成的文本的布爾編碼向量進(jìn)行重構(gòu),并通過訓(xùn)練AE 網(wǎng)絡(luò)使重構(gòu)誤差最小來構(gòu)造低維流形映射,最終抽取流形特征的過程.流形特征是流形在局部范圍內(nèi)映射到低維歐式空間上的坐標(biāo)描述.對于AE網(wǎng)絡(luò),如果限制網(wǎng)絡(luò)的中間層神經(jīng)元數(shù)量使其少于輸入輸出層的數(shù)目,那么經(jīng)過Encoder網(wǎng)絡(luò)非線性映射過程得到的中間層表示C(X)就是嵌入在高維數(shù)據(jù)中的低維流形表示,其中每個神經(jīng)元輸出代表一維流形特征.
對于流形學(xué)習(xí)而言,最有效的流形特征應(yīng)該是能夠更好恢復(fù)高維數(shù)據(jù)中嵌入的流形結(jié)構(gòu)的坐標(biāo)描述.根據(jù)流形局部歐式的性質(zhì),為了更有效地提取流形特征,需要確定觀測數(shù)據(jù)點(diǎn)的合理鄰域范圍,使得觀測數(shù)據(jù)經(jīng)過構(gòu)造的非線性函數(shù)f 和f-1更好的重構(gòu)原始數(shù)據(jù),即找到合理的鄰域度量方法進(jìn)而構(gòu)造觀測空間到低維空間的映射函數(shù).為此,首先給出鄰域定義:
在觀測空間Rm中,如果存在以p 為中心和半徑為r 的開球,Br(p)={x∈X|d(x,p)<r},它被包含在集合U 中,稱集合U 是點(diǎn)p 的鄰域,其中r是Rm中距離.
式中:xi′為重構(gòu)數(shù)據(jù)在Rm中的第i維坐標(biāo)表示,對應(yīng)AE輸出層中第i個神經(jīng)元輸出,xi為輸入數(shù)據(jù)第i維坐標(biāo),再根據(jù)r構(gòu)造AE網(wǎng)絡(luò)的重構(gòu)誤差函數(shù),
然后通過梯度下降算法來最小化AE 網(wǎng)絡(luò)的重構(gòu)誤差,即找到最小的鄰域半徑r.這樣確定的鄰域更加精細(xì),利于描述流形的真實(shí)結(jié)構(gòu).如圖5所示,對于曲率較大的部分應(yīng)使鄰域的半徑盡量小,以保證流形在該鄰域內(nèi)可以近似表示為直線,從而在局部鄰域內(nèi)更好的擬合流形的真實(shí)結(jié)構(gòu).這樣基于數(shù)據(jù)重構(gòu)誤差最小策略訓(xùn)練的AE網(wǎng)絡(luò)就保留了觀測數(shù)據(jù)集中核心的特征信息并存儲在Encoder和Decoder網(wǎng)絡(luò)的權(quán)值中,經(jīng)過Encoder網(wǎng)絡(luò)得到的中間層表示C(X)能有效發(fā)現(xiàn)揭示數(shù)據(jù)本質(zhì)的特征.
圖5 鄰域半徑大小對描述流形結(jié)構(gòu)的差異影響Fig.5 Influence of different rfor manifold representation
最后利用SGD 算法[16]反向傳播誤差使AE 網(wǎng)絡(luò)自主學(xué)習(xí)最佳參數(shù),確保error取得最小值.選擇sigmoid函數(shù)作為神經(jīng)元的激勵函數(shù),W 是神經(jīng)元的權(quán)值矩陣,其中b=W-l,l,表示神經(jīng)元的偏移量,m 是該神經(jīng)元具有的突觸數(shù)目,公式如下所示.
在SGD 算法中,對網(wǎng)絡(luò)第l層參數(shù)W、b按照式(5)更新.
式中:ΔWl代表更新量,式(6)給出了第l層中與第j個神經(jīng)元連接的計(jì)算方法.
式中:lr為學(xué)習(xí)率,用來控制梯度下降幅度,yi(n)表示j單元輸入信號中的第i 維特征,δj(n)表示j神經(jīng)元的殘差,它是根據(jù)式(3)采用鏈?zhǔn)角髮?dǎo)法則計(jì)算得到,(a)式對應(yīng)輸出層,(b)對應(yīng)中間隱層,形式如式(7).其中,φ′是激勵函數(shù)的導(dǎo)數(shù)形式.z(n)表示神經(jīng)元輸入信號.
根據(jù)式(5~7),AE網(wǎng)絡(luò)具體訓(xùn)練過程如下:
在特征提取階段,AE 網(wǎng)絡(luò)通過收縮鄰域半徑,使得重構(gòu)數(shù)據(jù)盡可能的逼近原始觀測數(shù)據(jù),并利用Encoder權(quán)值W 構(gòu)造高維數(shù)據(jù)到低維流形的確定映射,從而精確描述觀測數(shù)據(jù)的流形結(jié)構(gòu).這樣做顯然可以很好地恢復(fù)嵌入在觀測數(shù)據(jù)中的低維流形結(jié)構(gòu),并且獲取數(shù)據(jù)集中的流形特征信息.然而由于AE 網(wǎng)絡(luò)本質(zhì)上屬于無監(jiān)督的學(xué)習(xí)方法,不考慮數(shù)據(jù)的類別內(nèi)容,因而對于數(shù)據(jù)質(zhì)量較為敏感.如果短文本數(shù)據(jù)中存在噪聲、特征稀疏或采樣過程中導(dǎo)致的數(shù)據(jù)局部性缺失等問題時,容易導(dǎo)致AE 網(wǎng)絡(luò)對這些數(shù)據(jù)點(diǎn)所處局部鄰域范圍內(nèi)的流形結(jié)構(gòu)描述出現(xiàn)偏差甚至錯誤,進(jìn)而影響全局的流形結(jié)構(gòu)重構(gòu),所以特征提取階段訓(xùn)練的AE網(wǎng)絡(luò)有時并不能給出最佳的流形映射.
特征融合過程是基于特征提取階段已經(jīng)得到的非線性映射f-1:Rm→Rd(Encoder網(wǎng)絡(luò))構(gòu)建新的AE網(wǎng)絡(luò),并利用文本數(shù)據(jù)的標(biāo)簽信息進(jìn)行監(jiān)督學(xué)習(xí)的過程.標(biāo)簽是文本內(nèi)容高度概括抽象的描述,二者之間存在著深層次的語義聯(lián)系.通過將標(biāo)簽作為短文本進(jìn)行布爾編碼,從而將他們之間的語義聯(lián)系轉(zhuǎn)化為高維觀測空間數(shù)據(jù)點(diǎn)間的關(guān)聯(lián)關(guān)系.根據(jù)這種關(guān)聯(lián)關(guān)系建立AE 網(wǎng)絡(luò)的輸入輸出映射,再利用誤差后向傳播方式促使同類型文本逼近真實(shí)標(biāo)簽,進(jìn)而挖掘他們之間存在的固有聯(lián)系.由于保留了特征提取階段的Encoder網(wǎng)絡(luò),因此新建AE 網(wǎng)絡(luò)能夠維持觀測數(shù)據(jù)的局部流形結(jié)構(gòu)信息.同時,由于標(biāo)簽的監(jiān)督指導(dǎo)作用,使網(wǎng)絡(luò)在對整體流形進(jìn)行全局性重構(gòu)的過程中更加突出文本的標(biāo)簽屬性信息,不僅能夠豐富文本內(nèi)容,增加同類數(shù)據(jù)的內(nèi)聚性,還能進(jìn)一步挖掘出數(shù)據(jù)蘊(yùn)含的本質(zhì)特征,逼近最佳低維流形結(jié)構(gòu),找到高維空間和流形空間的有效映射,最終得到短文本的最佳流形表示.
與特征提取階段的AE網(wǎng)絡(luò)不同的是,新的AE網(wǎng)絡(luò)是以特征提取階段訓(xùn)練得到Encoder網(wǎng)絡(luò)為基礎(chǔ)構(gòu)造的,即保留訓(xùn)練得到的Encoder網(wǎng)絡(luò)的權(quán)值矩陣用以初始化新網(wǎng)絡(luò)中Encoder網(wǎng)絡(luò)權(quán)值,而Decoder網(wǎng)絡(luò)權(quán)值則采用隨機(jī)初始化的方式.網(wǎng)絡(luò)輸入端是短文本的布爾編碼向量,而目標(biāo)輸出則是每條短文本對應(yīng)的標(biāo)簽數(shù)據(jù)的布爾編碼向量.為了利用誤差后向傳播算法訓(xùn)練網(wǎng)絡(luò),以Rm空間的歐氏距離作為誤差函數(shù),其形式如下:
式中:yi是重構(gòu)數(shù)據(jù)在Rm的第i 維坐標(biāo)表示,對應(yīng)AE輸出層中第i個神經(jīng)元輸出.式(8)與式(3)本質(zhì)上是一致的,表示重構(gòu)數(shù)據(jù)與期望數(shù)據(jù)間的鄰域半徑.然后通過梯度下降方法求取使得誤差最小的參數(shù),即使網(wǎng)絡(luò)能將輸入信號盡可能的逼近目標(biāo)輸出.與提取階段希望重構(gòu)數(shù)據(jù)逼近其自身不同的是,融合階段希望重構(gòu)數(shù)據(jù)逼近其標(biāo)簽數(shù)據(jù),這就使得類內(nèi)數(shù)據(jù)之間分布更加緊湊,類間數(shù)據(jù)則相對疏遠(yuǎn),因此對嵌入在數(shù)據(jù)中的流形結(jié)構(gòu)產(chǎn)生全局性的影響.
最后,利用SGD 算法對網(wǎng)絡(luò)進(jìn)行訓(xùn)練,此過程與特征提取階段相同,按照式(5)、(6)、(7)更新參數(shù)W.特征融合階段網(wǎng)絡(luò)訓(xùn)練具體過程如下:
最后通過短文本分類實(shí)驗(yàn)來驗(yàn)證本文方法的表示效果.為此設(shè)計(jì)了短文本分類實(shí)驗(yàn)系統(tǒng),系統(tǒng)包括短文本表示模塊、分類模塊以及結(jié)果評價模塊,文本表示模塊分別是VSM、LDA[10]、LSI、AE、本文方法,LDA 使用GibbsLDA++工具集.預(yù)處理模塊的分詞選用中科院的ICTCLAS2011.分類模塊選用K 最近鄰(KNN)、樸 素 貝 葉 斯(Na?ve-Bayes)、支 持 向 量 機(jī)(SVM)3種常見分類方法.選用weka提供的分類實(shí)驗(yàn)環(huán)境,其中KNN、Na?ve-Bayes均為weka提供的算法包,SVM 則使用的林智仁開發(fā)的LIBSVM 工具包[17].評價模塊選用Macro_P、Macro_R、Macro_F1作為評價指標(biāo),其計(jì)算方法如下:
式 中:C 為 類 別 總 數(shù),Pi為 某 類 別 的 準(zhǔn) 確 率,Ri為 某類別召回率.
共進(jìn)行3組實(shí)驗(yàn):實(shí)驗(yàn)一是流形表示模型的參數(shù)實(shí)驗(yàn),目的是選擇最佳的參數(shù)組合.實(shí)驗(yàn)二是流形表示特征選擇實(shí)驗(yàn),目的是選擇最佳流形表示特征.實(shí)驗(yàn)三是對比實(shí)驗(yàn),目的是與VSM、LDA、LSI表示模型對比說明本文方法有效性,同時,為了驗(yàn)證融合標(biāo)簽特征對短文本表示效果的提升作用,又與特征提取階段的AE表示模型進(jìn)行了對比.
選用的2組公開數(shù)據(jù)源作為實(shí)驗(yàn)數(shù)據(jù).實(shí)驗(yàn)數(shù)據(jù)1是譚松波中文評論情感分析語料庫,數(shù)據(jù)采集自互聯(lián)網(wǎng)真實(shí)評論.其中評論主題包括3類,每個類別4 000篇文本,預(yù)處理后得到特征詞匯總數(shù)為25 830.實(shí)驗(yàn)數(shù)據(jù)2是NLP&CC 2013中文微博觀點(diǎn)語料庫,共10個類別觀點(diǎn),類別樣本不平衡,每個類別最少的有940篇文本,最多2 470,預(yù)處理后得到特征詞匯總數(shù)為21 318.
如表1、2所示分別是2組數(shù)據(jù)的統(tǒng)計(jì)指標(biāo),其中,文本有效長度是指經(jīng)過分詞去除停用詞后,每篇文本包含詞匯數(shù),布爾向量有效長度是向量非0維數(shù),其與特征詞匯總數(shù)的比值反映了每篇文本的稀疏程度.Max,Min,Mean,SD分別表示長度的最大值,最小值,平均值和標(biāo)準(zhǔn)差.通過表中各項(xiàng)統(tǒng)計(jì)指標(biāo)比較可以看出數(shù)據(jù)2文本和布爾向量平均長度都比數(shù)據(jù)1更少,但是數(shù)據(jù)變化范圍小于數(shù)據(jù)集1,這表現(xiàn)出了2類數(shù)據(jù)的差異性.
表1 實(shí)驗(yàn)數(shù)據(jù)1Tab.1 Experimental data 1
表2 實(shí)驗(yàn)數(shù)據(jù)2Tab.2 Experimental data2
為了評價分類結(jié)果,需要將以上2組數(shù)據(jù)拆分為訓(xùn)練集和測試集.同時為了更全面客觀評價實(shí)驗(yàn)結(jié)果,避免數(shù)據(jù)拆分過程中由于數(shù)據(jù)的特殊性因素影響實(shí)驗(yàn)結(jié)果的評判,本文將2組實(shí)驗(yàn)數(shù)據(jù)按1∶1的比例隨機(jī)取樣得到5份訓(xùn)練集和測試集.最終通過在10組不同數(shù)據(jù)上重復(fù)進(jìn)行實(shí)驗(yàn),并以所有實(shí)驗(yàn)結(jié)果的平均值進(jìn)行評價.
3.3.1 參數(shù)實(shí)驗(yàn) 利用3.2節(jié)2組數(shù)據(jù)的分組1進(jìn)行參數(shù)實(shí)驗(yàn).首先對特征提取過程的參數(shù)(迭代次數(shù)epoch,學(xué)習(xí)率lr)進(jìn)行選擇實(shí)驗(yàn).網(wǎng)絡(luò)中間層神經(jīng)元數(shù)目設(shè)為500,并以測試集上的重構(gòu)誤差作為實(shí)驗(yàn)評價標(biāo)準(zhǔn),分別對參數(shù)epoch按步進(jìn)1從10調(diào)整到15,學(xué)習(xí)率lr按步進(jìn)0.1從0.1調(diào)整到1,結(jié)果如圖6所示.
從圖6(a)可以看出,對于數(shù)據(jù)集1,特征提取階段的最佳的參數(shù)組合是lr=0.6,epoch=11;從圖6(b)可以看出,對于數(shù)據(jù)集2,在特征提取階段的最佳參數(shù)組合為lr=0.5,epoch=12.
圖6 AE網(wǎng)絡(luò)參數(shù)實(shí)驗(yàn)結(jié)果Fig.6 Parameter result of AutoEncoder
在提取過程的基礎(chǔ)上構(gòu)建新AE 網(wǎng)絡(luò),再對特征融合進(jìn)行參數(shù)實(shí)驗(yàn).以測試集上標(biāo)簽與輸出的歐氏距離作為實(shí)驗(yàn)評價標(biāo)準(zhǔn),分別對參數(shù)epoch按步進(jìn)1從10調(diào)整到15,學(xué)習(xí)率lr按步進(jìn)0.1 從0.1調(diào)整到1.結(jié)果如圖7所示.
圖7 融合階段參數(shù)實(shí)驗(yàn)結(jié)果Fig.7 Parameter result of fusion stage
從圖7(a)中可以看出,對于數(shù)據(jù)集1最佳的參數(shù)組合是lr=0.7,epoch=11;對于(b)數(shù)據(jù)集2,最佳參數(shù)組合為lr=0.5,epoch=12.
3.3.2 流形表示特征實(shí)驗(yàn) 實(shí)驗(yàn)具體過程如下:在參數(shù)實(shí)驗(yàn)基礎(chǔ)上,以100為步進(jìn)對中間層神經(jīng)元數(shù)目d 由100調(diào)整到1 000,另外以20%為步進(jìn)對訓(xùn)練集上帶標(biāo)簽數(shù)據(jù)占比p 有20%調(diào)整到100%訓(xùn)練短文本流形表示模型,最后結(jié)合KNN 進(jìn)行分類,以Macro_P、Marco_R、Marco_F1評價分類結(jié)果.
如圖8所示為實(shí)驗(yàn)數(shù)據(jù)1驗(yàn)證實(shí)驗(yàn),從圖8中可以看出,當(dāng)中間層數(shù)目為300時,即流形空間特征維度為300,Macro_F1可以達(dá)到99%,而隨著特征維度的增加,Macro_F1趨于穩(wěn)定.另外,隨著標(biāo)簽數(shù)據(jù)占比的降低,Macro_F1有所下降,當(dāng)占比為20%時,分類效果最差但仍達(dá)到98.6%,而當(dāng)標(biāo)簽數(shù)據(jù)占比為40%,流形特征維度為300時,Macro_F1可以達(dá)到99.1%,繼續(xù)增加標(biāo)簽數(shù)據(jù)占比Macro_F1變化不大,這表明,使用部分標(biāo)簽數(shù)據(jù)進(jìn)行訓(xùn)練就可以獲得較好的表示向量.
如圖9所示為實(shí)驗(yàn)數(shù)據(jù)2驗(yàn)證實(shí)驗(yàn),從圖9可以得到與上面相似結(jié)論.當(dāng)標(biāo)簽數(shù)據(jù)占比大于40%時,流形特征為200 維時,Macro_F1可以達(dá)到99.1%,而后隨著特征維度的增加,Macro_F1趨于穩(wěn)定.當(dāng)標(biāo)簽數(shù)據(jù)占比等于20%,特征維度等于300時,Macro_F1達(dá)到99.1%之后趨于穩(wěn)定.
圖8 實(shí)驗(yàn)數(shù)據(jù)1驗(yàn)證實(shí)驗(yàn)Fig.8 Confirmatory experiment of experimental data1
圖9 實(shí)驗(yàn)數(shù)據(jù)2驗(yàn)證實(shí)驗(yàn)Fig.9 Confirmatory experiment of experimental data2
綜合來看,標(biāo)簽數(shù)據(jù)數(shù)量與流形表示特征維度之間呈反比關(guān)系,即如果標(biāo)簽數(shù)據(jù)數(shù)量充足可以在更低維度流形空間得到較好的表示效果,否則,需要較高維度特征才能得到較好表示效果.這說明標(biāo)簽對于流形全局性重構(gòu)具有積極作用,如果標(biāo)簽數(shù)量充分,即所有觀測數(shù)據(jù)都與其自身標(biāo)簽建立了聯(lián)系,那么通過標(biāo)簽就可以對流形整體進(jìn)行重構(gòu),獲得夠好的流形表示效果;如果只有一部分的觀測數(shù)據(jù)與標(biāo)簽建立了聯(lián)系,那么標(biāo)簽對流形全局的重構(gòu)作用就會受到限制,為了獲取更好的流形表示效果就需要通過更高維度的流形空間對局部進(jìn)行重構(gòu),這是因?yàn)楦呔S流形空間可以保留更多信息.
3.3.3 對比試驗(yàn) 首先利用表示模塊生成表示向量.最后結(jié)合KNN、Na?ve-Bayes、SVM 進(jìn)行分類實(shí)驗(yàn).對于VSM 以詞為特征項(xiàng),使用TF-IDF 為每個詞量化得到文本表示向量;對于LDA 首先使用GibbsLDA++訓(xùn)練主題模型并對主要參數(shù)ntopics(主題數(shù))和niters(迭代數(shù))進(jìn)行參數(shù)實(shí)驗(yàn)得到最優(yōu)參數(shù)為ntopics=1 000,niters=2 000,然后以每個詞所屬主題作為特征項(xiàng),利用TF-IDF 量化得到文本表示向量;對于LSI通過對訓(xùn)練集進(jìn)行SVD 分解,再根據(jù)分類結(jié)果選取最佳奇異值λ=150來創(chuàng)建潛在語義空間,進(jìn)而得到文本表示向量;對于AE 方法利用訓(xùn)練得到的Encoder網(wǎng)絡(luò)生成表示向量;對于本文方法使用300維流形特征及40%標(biāo)簽數(shù)據(jù)訓(xùn)練得到流形表示模型生成表示向量.
其中3種分類方法使用參數(shù),均是利用2組數(shù)據(jù)分組1 上進(jìn)行參數(shù)實(shí)驗(yàn)確定的,具體參數(shù)已在表3、4注明.如表3、4所示為數(shù)據(jù)1和2上的5組數(shù)據(jù)上Macro_P、Macro_R、Macro_F1的平均值.
表3 實(shí)驗(yàn)數(shù)據(jù)1分類結(jié)果平均值Tab.3 Mean classification results of experimental data 1 %
表4 實(shí)驗(yàn)數(shù)據(jù)2分類結(jié)果平均值Tab.4 Mean classification results of experimental data 2 %
從表3,4中可以看出:將本文提出的流形表示方法用于分類實(shí)驗(yàn),Macro_P、Macro_R、Macro_F1平均表現(xiàn)最佳.相比于VSM、LDA、LSI等全局線性的表示方法,在同樣實(shí)驗(yàn)條件下使用流形表示方法在KNN 和SVM 分類效果更好.這表明假設(shè)文本數(shù)據(jù)分布在流形結(jié)構(gòu)上是合理的.與AE相比,本方法通過監(jiān)督學(xué)習(xí)過程融合少部分分類標(biāo)簽信息提升了分類效果.這主要是因?yàn)橐胪獠繕?biāo)簽信息不僅豐富了數(shù)據(jù)集特征信息,有效彌補(bǔ)了特征稀疏問題,而且通過標(biāo)簽的指導(dǎo)作用對流形進(jìn)行整體重構(gòu),使得同類數(shù)據(jù)內(nèi)聚性增強(qiáng),有效降低了噪聲及稀疏數(shù)據(jù)對流形整體結(jié)構(gòu)的影響.另外,對比5種表示模型,本文方法在KNN 上的分類效果提升顯著.這是由于KNN 是把每條表示向量看作d 維特征空間中的數(shù)據(jù)點(diǎn),再根據(jù)樣本點(diǎn)在特征空間最近鄰的樣本類別進(jìn)行判定,因此,從KNN 原理上分析可以說明本文方法構(gòu)造的流形表示更好地刻畫了同類文本在特征空間上的近鄰關(guān)系,更利于表示文本的相似性.同時,從不同分類算法結(jié)果來看,VSM,LDA,LSI表現(xiàn)差異較大,而本文方法在3種分類方法上表現(xiàn)穩(wěn)定,獲得了全面的提升,這說明本文方法具有出色的泛化能力.
提出短文本流形表示方法通過學(xué)習(xí)高維數(shù)據(jù)與低維流形的確定性映射,進(jìn)而實(shí)現(xiàn)高維稀疏數(shù)據(jù)在低維流形空間的重構(gòu)表示.具體來講,首先通過AE 網(wǎng)絡(luò)自組織重構(gòu)過程從數(shù)據(jù)中發(fā)現(xiàn)知識,提取流形特征,實(shí)現(xiàn)數(shù)據(jù)的非線性降維.然后利用標(biāo)簽擴(kuò)充文本信息,通過學(xué)習(xí)標(biāo)簽與文本間的內(nèi)在聯(lián)系找到最佳低維流形映射.經(jīng)過實(shí)驗(yàn)表明,基于少部分標(biāo)簽訓(xùn)練得到的流形映射不僅能將高維數(shù)據(jù)映射到低維流形空間以非稀疏形式表示,而且相比于其他表示模型,將這種流形表示用于短文本分類能有效提升分類效果.特別的,結(jié)合KNN 的分類實(shí)驗(yàn)充分說明流形表示能準(zhǔn)確表示文本相似性.此外,將流形表示用于多種分類方法表現(xiàn)同樣有效,這也表明了本文方法作為短文本表示方法具有一定的適用性.
由于本方法在特征融合過程需要利用標(biāo)簽進(jìn)行監(jiān)督學(xué)習(xí),所以下一步研究重點(diǎn)是在保證表示效果的前提下,利用盡量少的標(biāo)簽數(shù)據(jù)進(jìn)行監(jiān)督學(xué)習(xí).
(
):
[1]楊杰明.文本分類中文本表示模型和特征選擇算法研究[D].長春:吉林大學(xué),2013.YANG Jie-ming.The research of text representation and feature selection in text categorization[D].Changchun:Jilin University,2013.
[2]王錦,王會珍,張俐.基于維基百科類別的文本特征表示[J].中文信息學(xué)報,2011,25(2):27-31.WANG Jin,WANG Hui-zhen,ZHANG Li.Text Representation by the Wikipedia Category[J].Journal of Chinese Information Processing,2011,25(2):370-383.
[3]BANERJEE S,RAMANTHAN K,GUPTA A.Clustering short text using Wikipedia[C]∥Proceedings of the 30th International ACM SIGIR Conference on Research and Development in Information Retrieval.Amsterdam:ACM,2007:787-788.
[4]HU X,SUN N,ZHANG C,et al.Exploiting internal and external semantics for the cluster of short texts using word knowledge[C]∥Proceedings of the 18th ACM Conference on Information and Knowledge Management.Hong Kong:ACM,2009:919-928.
[5]王蒙,林蘭芬,王峰.基于偽相關(guān)反饋的短文本擴(kuò)展與分類[J].浙江大學(xué)學(xué)報:工學(xué)版,2014,48(10):1835-1842.WANG Meng,LIN Lan-fen,WANG Feng.Short text expansion and classification based on pseudo-relevance feedback[J].Journal of Zhejiang University:Engineering Science,2014,48(10):1835-1842.
[6]RUDI L C,PAUL M B.The google similarity distance[J].IEEE Transactions on Knowledge and Data Engineering,2007.19(3):370-383.
[7]YANG Jie-ming,LIU Yuan-ning,LIU Zhen,et al.A new feature selection algorithm based on binomial hypothesis testing for spam filtering[J].Knowledge-Based Systems,2011,24(6):904-914.
[8]YANG Jieming,LIU Yuan-ning,ZHU Xiao-dong,et-sal.A new feature selection based on comprehensive measurement both in inter-category and intra-category for text categorization[J].Information Processing and Management,2012,48(4):741-754.
[9]DEERWESTER S,DUMAIS S T,HARSHMAN R,et al.Indexing by Latent Semantic Analysis[J].Journal of the American Society for Information Science,1990,41(6):391-407.
[10]BLEI D M,ANDREW Y N,JORDAN Y M.Latent dirichlet allocation[J].Journal of Machine Learning Research,J2003,3:993-102.
[11]KRISHNAN V,Shortcomings of latent models in supervised settings[C].∥Proceedings of the SIGIR.Salvador:ACM,2005:625-626.
[12]HUH S,F(xiàn)IENBERG S E.Discriminative topic modeling based on manifold learning[J].ACM Transactions on Knowledge Discovery from Data(TKDD),2012,5(4):653-661.
[13]SEUNG H S,LEE D D.The manifold ways of perception[J].Science.2000,290(5500):2268-2269.
[14]SILVA V D,TEBEBBAUM J B.Global versus local methods in nonlinear dimensionality reduction[C]∥Neural Information Processing Systems 15 (NIPS′2002).Vancouver:MIT,2003,705-712.
[15]BENGIO Y,LAMBLIN P,POPOVICI D,et al.Greedy layerwise training of deep networks[C]∥Advances in Neural Information Processing Systems 19(NIPS′2006).Vancouver:MIT,2007:153-160.
[16]LECUN,Y,BOTTOU L,MULLER K R.,et al.“Efficient backprop.”Neural networks:Tricks of the trade[J].Springer Berlin Heidelberg,2012,7700:9-48.
[17]CHANG C C,LIN C J.LIBSVM:a library for support vector machines[J].ACM Transactions on Intelligent Systems and Technology(TIST),2011,2(3):27.