孫 曉,高 飛,任福繼,2
(1. 合肥工業(yè)大學(xué) 計(jì)算機(jī)與信息學(xué)院,安徽 合肥 230009;2. 德島大學(xué) 工程學(xué)院,日本 7700855)
基于深度模型的社會(huì)新聞對(duì)用戶情感影響挖掘
孫 曉1,高 飛1,任福繼1,2
(1. 合肥工業(yè)大學(xué) 計(jì)算機(jī)與信息學(xué)院,安徽 合肥 230009;2. 德島大學(xué) 工程學(xué)院,日本 7700855)
該文研究了社會(huì)新聞中影響讀者情感的深層特征。使用三種文本特征選擇方法,分別從一元詞、二元詞和主題粒度下提取文本淺層特征,使用支持向量機(jī)模型選擇三種粒度下最優(yōu)淺層特征并且進(jìn)行分類,得到最優(yōu)宏平均F1值分別為60.5%、62.1%、63.3%。引入深度信念網(wǎng)絡(luò)模型,使用三種粒度下最優(yōu)淺層特征作為輸入,進(jìn)一步訓(xùn)練和抽象得到深層特征,實(shí)驗(yàn)中使用深度為3的深度信念網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練與分類,最優(yōu)宏平均F1值分別為61.4%、63.5%、66.1%。實(shí)驗(yàn)結(jié)果表明,深層特征比淺層特征具有更多的文本語義信息,可以更好地判斷社會(huì)新聞對(duì)公眾情緒影響。
深度信念網(wǎng)絡(luò);限制玻爾茲曼機(jī);情感影響;社會(huì)新聞
隨著越來越多的人將互聯(lián)網(wǎng)作為一種信息交流的手段,網(wǎng)絡(luò)已經(jīng)成為人們獲得信息的重要來源。近年來,網(wǎng)絡(luò)新聞的不斷發(fā)展,極大地滿足了人們了解外在世界的需求,豐富了人們的生活和信息獲取來源。但隨著人們對(duì)于個(gè)性情感定制新聞以及各大門戶網(wǎng)站對(duì)于推送能影響使用者情感新聞的需求與日俱增,迫切地需要針對(duì)新聞文本進(jìn)行研究,挖掘出其背后隱藏的能夠影響人們情感的特征,從而獲取新聞對(duì)公眾情緒所能造成的影響。
傳統(tǒng)的文本情感分類是指人通過主觀性文本,如電影評(píng)論、社區(qū)回帖等表達(dá)情感時(shí),文本中會(huì)包含情感關(guān)鍵詞或明顯的情緒特征,所以可以通過發(fā)現(xiàn)這些特征來判斷人的情感。本文所研究的問題是人們?cè)陂喿x客觀文本如一則新聞后,會(huì)被激發(fā)出怎樣的情感。舉例說明,大部分人們看到“城管打人”新聞會(huì)變得憤怒,看到“托舉哥”新聞的時(shí)候會(huì)被感動(dòng)。新聞?wù)谋旧聿话魏吻楦性~,如生氣、惱火、感動(dòng)等,但是閱讀這類新聞確實(shí)會(huì)讓人產(chǎn)生某種情感傾向,這種情感傾向滿足一定的分布規(guī)律,大部分的人對(duì)于某一新聞的情感反應(yīng)是一致的??陀^性文本對(duì)人的情感影響,雖然也可以視為文本分類問題,但與傳統(tǒng)的文本情感分類有本質(zhì)的不同,其更依賴于文本的深層語義和結(jié)構(gòu)。
本文針對(duì)這一問題,引入了深度信念網(wǎng)絡(luò)(DBN)模型[1]。通過DBN可以自動(dòng)學(xué)習(xí)出社會(huì)新聞文本更加抽象的語義和結(jié)構(gòu)特征。文獻(xiàn)[2]指出,如果DBN輸入向量攜帶的文本信息不多,會(huì)導(dǎo)致其分類性能下降,故本文設(shè)置三種特征選擇方法提取不同粒度下的淺層特征為文本建模,使用支持向量機(jī)模型(SVM)選擇最優(yōu)的特征向量作為DBN的輸入,經(jīng)過迭代訓(xùn)練得到深層特征,并且用深層特征對(duì)文本進(jìn)行分類。本文探討了DBN頂層隱藏節(jié)點(diǎn)數(shù)量及DBN深度對(duì)于分類性能的影響,并且在分類效果與時(shí)間開銷上同SVM進(jìn)行對(duì)比。
本文所研究的問題是針對(duì)網(wǎng)絡(luò)新聞文本即客觀文本進(jìn)行挖掘。這與傳統(tǒng)的文本情感分類是截然不同的,如上文所述主觀性文本包含大量的情緒詞或者明顯的情感特征,而客觀文本中可用的影響讀者的情緒特征不明顯,需要挖掘深層次的語義和結(jié)構(gòu)特征。雖然本文所研究的問題屬于一個(gè)全新的領(lǐng)域,但考慮到實(shí)驗(yàn)過程中DBN模型頂層使用反向傳播(BP)神經(jīng)網(wǎng)絡(luò)構(gòu)造有監(jiān)督的分類器,通過對(duì)文本進(jìn)行分類判斷抽象出來的深層特征是否能代表社會(huì)新聞中影響人們情感的隱藏特征,所以可以將其歸屬于文本分類的范疇。
文本分類研究主要圍繞特征提取方法和分類模型兩方面關(guān)鍵技術(shù)展開。傳統(tǒng)的特征提取方法是利用有監(jiān)督學(xué)習(xí)方法選擇出與類別相關(guān)的特征,不同特征提取方法提取到的特征表現(xiàn)力不同。如代六玲等[3]分析了信息增益(IG)、互信息 (MI) 和卡方統(tǒng)計(jì)量(CHI)等特征選擇方法對(duì)中文文本分類性能的影響,并且提出一種組合特征抽取方法,可以改善分類器性能。傳統(tǒng)的特征提取方法雖然簡(jiǎn)單,但是需要特征數(shù)量多,訓(xùn)練過程緩慢。近年來,無監(jiān)督學(xué)習(xí)方法逐漸應(yīng)用于文本特征提取中,將語義相似的詞聚成一類,表示成一個(gè)特征。這樣可以減少使用的特征數(shù)量,加快訓(xùn)練模型的速度。如姚全珠等[4]提出基于LDA模型的文本分類研究,使用無監(jiān)督學(xué)習(xí)方法訓(xùn)練語料,得到隱含主題特征分布,為文本建模,在保證分類準(zhǔn)確率的前提下,實(shí)現(xiàn)了對(duì)原始高維特征的降維。
在分類模型研究方面,傳統(tǒng)分類模型存在很大的限制性,目前對(duì)于分類模型的研究基本上是對(duì)傳統(tǒng)模型進(jìn)行改進(jìn),使其適用范圍更加廣泛。Tan-S[5]提出一種改進(jìn)型的K近鄰(KNN)文本分類算法DragPushing。該算法不同于傳統(tǒng)KNN算法,已假設(shè)訓(xùn)練數(shù)據(jù)在所有類別中等概率分布,在不平衡數(shù)據(jù)集中分類性能要優(yōu)于傳統(tǒng)KNN算法。Lee L-H[6]等提出增強(qiáng)型的SVM文本分類方法Euclidean-SVM。該算法使用傳統(tǒng)的SVM方法進(jìn)行訓(xùn)練,在分類過程中使用歐氏距離,可以減少核函數(shù)和懲罰因子C對(duì)于分類性能的影響。
DBN主要應(yīng)用于圖像分類和語音識(shí)別領(lǐng)域,并且效果很理想。不同于傳統(tǒng)的特征選擇方法,DBN能夠自動(dòng)學(xué)習(xí)隱含在圖像、聲音和文本中的特征,并且能夠進(jìn)行壓縮,不需要人為設(shè)置特征抽取方法,具有普適性。本文將DBN應(yīng)用于文本分類中,其特征提取過程是一種無監(jiān)督的學(xué)習(xí)方法,能夠抽象輸入特征,挖掘深層次的結(jié)構(gòu)語義信息。分類模型采用BP神經(jīng)網(wǎng)絡(luò),能夠?qū)⒄`差回傳,調(diào)整各層參數(shù),保證整體分類性能最優(yōu)。
為了構(gòu)建DBN 模型,本文首先介紹限制玻爾茲曼機(jī)[7]RBM模型和BP神經(jīng)網(wǎng)絡(luò)的相關(guān)知識(shí),它們是DBN的基礎(chǔ)。
3.1 限制玻爾茲曼機(jī)
圖1 RBM網(wǎng)絡(luò)結(jié)構(gòu)圖
RBM共有兩層,第一層為可視層(V),第二層為隱藏層(H),如圖1所示。RBM層間的節(jié)點(diǎn)兩兩相連,但是同一層的節(jié)點(diǎn)是不相連的,令hi作為隱藏層(H)的節(jié)點(diǎn)值,vj作為可視層(V)的節(jié)點(diǎn)值。RBM網(wǎng)絡(luò)的參數(shù)可以用θ={W,a,b}表示,其中W是可視層與隱藏層之間的權(quán)重矩陣,a是可視層節(jié)點(diǎn)偏移量,b是隱藏層節(jié)點(diǎn)偏移量,可以表示為a=(a1,a2…,am),b=(b1,b2……bn)。
通過式(1)可以由已知可視層的節(jié)點(diǎn)得到隱藏層的節(jié)點(diǎn)值:
通過式(2)可以由計(jì)算出來的隱藏層的節(jié)點(diǎn)值得到可視層的節(jié)點(diǎn)值:
可視層中的節(jié)點(diǎn)v和隱藏層中的節(jié)點(diǎn)h的聯(lián)合概率分布滿足式(3)。
其中,E(v,h;θ)表示能量函數(shù),z(θ)表示歸一化因子,它們的表示如公式(4)和公式(5)所示
我們的目標(biāo)是最大可能地?cái)M合輸入數(shù)據(jù),這就需要最小化能量函數(shù)值,使系統(tǒng)達(dá)到穩(wěn)定狀態(tài)。傳統(tǒng)的方法是使用馬爾科夫蒙特卡羅法(MCMC)。MCMC使可視層和隱藏層互為條件,通過不斷更新參數(shù),使能量函數(shù)最小,將學(xué)習(xí)到的θ作為RBM網(wǎng)絡(luò)最終的參數(shù),達(dá)到自訓(xùn)練的目的。但是MCMC收斂速度較慢,難以確定步長(zhǎng),Hinton提出利用對(duì)比散度算法[8](contrastivedivergence)對(duì)RBM網(wǎng)絡(luò)進(jìn)行訓(xùn)練。與一般的抽樣方法不同,Hinton指出當(dāng)使用訓(xùn)練樣本初始化可視層的節(jié)點(diǎn)時(shí),僅需要較少的抽樣次數(shù)就可以得到可視層的近似表示。這就使得計(jì)算速度提高,并且能保持精度。使用Kullback-Leibler距離衡量?jī)蓚€(gè)概率分布的差異,可以用式(6)來計(jì)算。
通過不斷地修正參數(shù)θ,CDm將趨近于0,并且精度也不會(huì)丟失。本文在訓(xùn)練RBM時(shí)使用的就是對(duì)比散度算法,設(shè)置m的值為1。
3.2 BP神經(jīng)網(wǎng)絡(luò)
BP神經(jīng)網(wǎng)絡(luò)作為一種有監(jiān)督分類器,它的作用是對(duì)多層RBM 提取到的特征進(jìn)行分類,同時(shí)能夠?qū)BN的參數(shù)進(jìn)行調(diào)優(yōu)。BP神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過程包括前向傳播和反向傳播。前向傳播是將輸入特征向量傳至輸出端,反向傳播即將數(shù)據(jù)的標(biāo)簽與輸出結(jié)果對(duì)比,將得到的誤差值傳至輸入端,從而對(duì)整個(gè)DBN 網(wǎng)絡(luò)進(jìn)行參數(shù)調(diào)優(yōu)。
3.3 深度信念網(wǎng)絡(luò)
3.3.1 DBN的結(jié)構(gòu)
深度信念網(wǎng)絡(luò)(DBN)就是由多層RBM網(wǎng)絡(luò)和一層BP神經(jīng)網(wǎng)絡(luò)層次疊加的深層神經(jīng)網(wǎng)絡(luò),其結(jié)構(gòu)如圖2所示。
圖2 深度信念網(wǎng)絡(luò)結(jié)構(gòu)
DBN的結(jié)構(gòu)是由每一層RBM網(wǎng)絡(luò)所決定的。如果不考慮輸入層,每一個(gè)RBM的可視層和隱藏層節(jié)點(diǎn)數(shù)量都是相同的,且層間RBM相連部分的節(jié)點(diǎn)數(shù)量也相同,等于最后抽取的特征數(shù)量,那么這種網(wǎng)絡(luò)結(jié)構(gòu)稱為直線型網(wǎng)絡(luò)結(jié)構(gòu)。如果每一層的RBM的可視層和隱藏層節(jié)點(diǎn)數(shù)量都會(huì)有線性尺度變化,且層間RBM相連部分節(jié)點(diǎn)數(shù)量也滿足線性尺度變化,那么這種網(wǎng)絡(luò)結(jié)構(gòu)稱為線性網(wǎng)絡(luò)結(jié)構(gòu)。DBN的深度指的是其由多少層RBM構(gòu)成,圖2中DBN的深度為2,有兩個(gè)隱藏層H0和H1。
3.3.2 DBN的訓(xùn)練過程
DBN作為一種深層的神經(jīng)網(wǎng)絡(luò),訓(xùn)練模型的過程可分為兩步驟。
第一步,無監(jiān)督單獨(dú)訓(xùn)練每一層RBM。當(dāng)原始特征向量傳到底層神經(jīng)網(wǎng)絡(luò)時(shí),在第一層RBM中將原始特征向量作為可視層(V0),經(jīng)過迭代訓(xùn)練后,得到第一層RBM的隱藏層(H0)。然后將H0作為第二層RBM的可視層(V1),同樣進(jìn)行迭代訓(xùn)練,得到第二層RBM的隱藏層(H1)。依次類推訓(xùn)練每一層,由底層的神經(jīng)網(wǎng)絡(luò)接受原始高維特征向量,在自底向上傳遞過程中,原始高維特征就逐漸被轉(zhuǎn)化為抽象的特征向量,通過增加網(wǎng)絡(luò)層數(shù)可以使特征向量更加抽象化。
第二步,利用帶標(biāo)簽數(shù)據(jù)和BP神經(jīng)網(wǎng)絡(luò),接受RBM的輸出特征向量作為BP的輸入向量,有監(jiān)督地訓(xùn)練并且實(shí)現(xiàn)參數(shù)調(diào)優(yōu),對(duì)分類性能做調(diào)整。在訓(xùn)練每一層RBM網(wǎng)絡(luò)時(shí),自身層內(nèi)的權(quán)值使得該層特征向量達(dá)到最優(yōu)映射,但對(duì)DBN網(wǎng)絡(luò)的整體特征向量映射并沒有達(dá)到最優(yōu),故需要反向傳播神經(jīng)網(wǎng)絡(luò)將不正確的信息自頂向下傳播,實(shí)現(xiàn)對(duì)整個(gè)DBN網(wǎng)絡(luò)的微調(diào)。DBN中的BP算法只需要對(duì)權(quán)值參數(shù)空間進(jìn)行局部的搜索,使其訓(xùn)練和收斂更加快速。
文獻(xiàn)[2]使用詞頻選擇特征,二值作為權(quán)重為DBN構(gòu)建輸入向量,最終分類效果不是很理想。分析原因可知,在文本建模時(shí)丟失了很多信息。如果輸入是一組不具有可分性的“較差”特征向量,每一層RBM學(xué)習(xí)到的都是較差的特征,分類結(jié)果自然不理想。故本文設(shè)置了三種特征選擇方法,分別為基于一元詞的卡方檢驗(yàn)方法、基于Skip-Bigrams二元詞[9]的卡方檢驗(yàn)方法和基于LDA的特征選擇方法,從三種粒度下提取淺層特征作為DBN的原始輸入。
4.1 基于一元詞的卡方檢驗(yàn)方法
卡方檢驗(yàn)最基本的思想是通過對(duì)理論值和實(shí)際值的比較,從而確定理論是否正確,在文本中主要是度量詞與文檔類別之間的相關(guān)程度。假設(shè)詞t與文檔類別c服從一階自由度的卡方分布,詞對(duì)應(yīng)某一類的卡方值越大,說明它越能代表該類文檔??ǚ降墓饺缡?7)所示。
其中,A表示c類中包含詞t的文檔數(shù),B表示除c類中包含詞t文檔數(shù),C表示c類中不包含詞t的文檔數(shù),D表示除c類中不包含詞t的文檔數(shù)。sum為所有文檔數(shù)。
卡方檢驗(yàn)存在低頻詞缺陷,它只考慮到文檔頻數(shù),沒有考慮詞頻的影響,會(huì)夸大某些低頻詞的類別區(qū)分能力。故本文先按一元詞在整個(gè)訓(xùn)練語料上出現(xiàn)頻率由大到小順序取前4 000個(gè)特征詞,濾除低頻詞。然后計(jì)算出特征詞t對(duì)于每一個(gè)類別的卡方值,選取其中最大值作為詞t在整個(gè)語料上的卡方值。按照卡方值由大到小的順序選擇前N個(gè)特征詞,特征權(quán)重使用TF-IDF,構(gòu)建N維特征向量。
4.2 基于Skip-Bigrams二元詞的卡方檢驗(yàn)算法
中文文檔中出現(xiàn)最多的語詞是單字詞,其次是雙字詞、三字詞。若將語詞作為漢語語義的最小單位,無法對(duì)文檔內(nèi)容準(zhǔn)確區(qū)分,需要利用多字詞來更好地表示文檔內(nèi)容。同樣的,單個(gè)詞所具有的區(qū)分能力有限,使用二元詞可能具有更好的文本表達(dá)能力。本文使用基于Skip-Bigrams二元詞的卡方檢驗(yàn)算法獲取文本描述能力強(qiáng)的二元詞。將文本內(nèi)容以一元詞為單位,進(jìn)行中間最大間隔為2的滑動(dòng)窗口操作,形成長(zhǎng)度為2的詞片段序列。每個(gè)詞片段序列就是元(gram),然后按照上文卡方特征選擇方法構(gòu)建二元詞序列特征詞典,為輸入文本建模,這樣可以產(chǎn)生一些具有明顯感情傾向的特征詞。如在“打|了|一會(huì)|醬油”這句話中,使用Skip-Bigrams模型可以產(chǎn)生“打|醬油”這樣一個(gè)二元詞作為特征。
4.3 基于LDA的特征選擇方法
LDA是一種文檔主題生成模型,實(shí)質(zhì)是一個(gè)三層貝葉斯概率模型,包含詞、主題和文檔三層結(jié)構(gòu)。它能挖掘文本表面下的語義信息,得到文檔潛在的主題分布,適用于高效地處理大規(guī)模文檔。基于LDA的特征選擇方法就是使用LDA模型對(duì)文檔集進(jìn)行隱含主題建模,參數(shù)推斷采用Gibbs抽樣方法,迭代訓(xùn)練完成后,可以得到每個(gè)文本在固定K個(gè)隱含主題集上的概率分布(其中K是自己設(shè)置的主題數(shù)),這個(gè)概率分布就可以作為我們?yōu)槊總€(gè)文本建立的隱含主題特征模型。需要注意的是,LDA是一種無監(jiān)督學(xué)習(xí)方法,適用于大規(guī)模語料處理。輸入的訓(xùn)練文本越多,主題聚類的效果越好,故實(shí)驗(yàn)中訓(xùn)練LDA模型時(shí)使用實(shí)驗(yàn)語料的全部文本。
5.1 實(shí)驗(yàn)語料
本文中所采用的實(shí)驗(yàn)語料是從Yahoo上抓取的社會(huì)新聞,共分六個(gè)類別,分別為超扯、感人、火大、開心、難過和無聊六種情緒,共計(jì)49 000個(gè)文本。因?yàn)檎Z料只經(jīng)過分詞標(biāo)注,并沒有人工標(biāo)注類別標(biāo)簽信息,所以本文根據(jù)讀者在閱讀新聞后的六類情緒投票數(shù),設(shè)計(jì)一種分類機(jī)制。
首先,設(shè)定閾值N,如果某個(gè)新聞的投票總數(shù)沒達(dá)到N時(shí),這個(gè)新聞將會(huì)被跳過,不參與分類。因?yàn)闆]達(dá)到閾值說明參與投票的人數(shù)過低,這樣不能得到一個(gè)客觀的滿足正態(tài)分布的文本類別信息。
其次,設(shè)定閾值M,如果一篇新聞中最多的投票數(shù)與次多的投票數(shù)之差小于M時(shí),不參與分類,因?yàn)槲覀冃枰氖菃螛?biāo)簽文本,如果一個(gè)文本在兩種情緒上所具有的表現(xiàn)力相似,說明這篇文本的可分性不強(qiáng),故需要舍棄。
最后,當(dāng)前兩個(gè)條件都滿足時(shí),根據(jù)文檔中最多投票數(shù)決定這篇文檔所屬的類別。
實(shí)驗(yàn)中,設(shè)定閾值N為20,這是對(duì)所有文本的投票總數(shù)進(jìn)行一個(gè)求平均的結(jié)果。設(shè)定M為待分類新聞投票總數(shù)的20%,因?yàn)椴煌男侣劦耐镀笨倲?shù)不同,所以需要設(shè)置一個(gè)動(dòng)態(tài)的閾值以便更好地分類。經(jīng)過分類機(jī)制后,我們得到各個(gè)類別對(duì)應(yīng)的文本數(shù)量如表1所示。
可以看出,經(jīng)過分類機(jī)制后文本數(shù)量要小的多,噪聲很大的文本被篩選下來。本文實(shí)驗(yàn)中從每個(gè)類中隨機(jī)選擇500篇作為訓(xùn)練集,100篇作為測(cè)試集。
表1 經(jīng)過分類機(jī)制后語料中各類文本數(shù)量
5.2 實(shí)驗(yàn)結(jié)果分析
5.2.1 選擇三種粒度下DBN最優(yōu)輸入
本文使用三種特征選擇方法提取文本淺層特征作為DBN的輸入。輸入特征向量維數(shù)N越高,引入的噪聲可能越多,不僅給DBN的訓(xùn)練過程帶來巨大的時(shí)間和空間開銷,而且分類效果也不會(huì)理想,故本文使用SVM對(duì)一元詞和二元詞粒度下不同維度的特征向量進(jìn)行訓(xùn)練,對(duì)測(cè)試集進(jìn)行預(yù)測(cè),實(shí)驗(yàn)結(jié)果分別如圖3和圖4所示,分類性能越好,說明當(dāng)前維度對(duì)應(yīng)的輸入向量包含的噪聲少,文本信息豐富,可以作為該粒度下DBN的最優(yōu)輸入向量。因?yàn)楸疚纳婕暗氖嵌喾诸悊栴}, 在評(píng)價(jià)分類性能時(shí)使用宏平均準(zhǔn)確率P_macro、宏平均召回率R_macro和宏平均F1值F1_macro作為評(píng)價(jià)指標(biāo)。為了確定主題粒度下的最優(yōu)輸入,本文采用困惑度來衡量主題數(shù)目對(duì)Gibbs采樣的影響[10],困惑度越低表示使用當(dāng)前主題數(shù)訓(xùn)練的LDA模型越好,分類效果也越理想。
圖3 基于一元詞的卡方檢驗(yàn)算法,SVM分類性能與輸入向量維數(shù)關(guān)系
圖4 基于Skip-Bigrams二元詞的卡方檢驗(yàn)算法,SVM分類性能與輸入向量維數(shù)關(guān)系
對(duì)于LDA特征選擇方法,困惑度定義如下:
其中,Nd是文檔d包含單詞的個(gè)數(shù),一共有M個(gè)文檔;p(wd)為生成文檔d的概率??梢杂?jì)算出不同主題數(shù)目下對(duì)應(yīng)的困惑度如圖5所示。
圖5 困惑度與主題數(shù)量關(guān)系
從圖3和圖4可以看出,當(dāng)一元詞粒度下輸入向量維數(shù)為2 000時(shí), P_macro不是最高,但是R_macro和F1_macro最高,可以作為DBN在該粒度特征下的最優(yōu)輸入。二元詞粒度下輸入向量維數(shù)為3 000時(shí),情況與一元詞類似,綜合性能最優(yōu);從圖5可以看出,選擇主題數(shù)為100時(shí),困惑度最低。使用訓(xùn)練好的LDA模型推斷訓(xùn)練集和預(yù)測(cè)集文本,得到其在100個(gè)潛在主題下的概率分布,為文本建模。使用SVM進(jìn)行訓(xùn)練與預(yù)測(cè),得到分類 P_macro 為67%,R_macro為60%,F(xiàn)1_macro為63.3%。
5.2.2 DBN分類性能與頂層隱藏節(jié)點(diǎn)數(shù)的關(guān)系
文獻(xiàn)[2]通過實(shí)驗(yàn)證明使用DBN進(jìn)行分類時(shí),分類性能主要取決于頂層隱藏神經(jīng)元數(shù)量。當(dāng)頂層隱藏單元數(shù)量達(dá)到一定值時(shí),分類器性能最優(yōu)。隱藏層使用的節(jié)點(diǎn)數(shù)目越多,不僅會(huì)使DBN的訓(xùn)練過程變慢,而且會(huì)造成過擬合問題,使模型的泛化性降低,分類性能下降。本文通過構(gòu)造直線型DBN2(DBNi表示有DBN的深度為i),各層RBM節(jié)點(diǎn)數(shù)量均等于頂層隱藏單元數(shù)量,尋找三種粒度下分類器性能最優(yōu)時(shí)對(duì)應(yīng)的頂層隱藏單元數(shù)量。從圖6和圖7可以看出,使用一元詞最優(yōu)輸入,頂層隱藏節(jié)點(diǎn)數(shù)為100時(shí),P_macro、R_macro 和F1_macro均為最大,分類器性能最優(yōu);使用二元詞粒度下最優(yōu)輸入, 分類器性能最優(yōu)的臨界值為150;從表2可以看出, 使用主題粒度下最優(yōu)輸入, 頂層節(jié)點(diǎn)數(shù)為75時(shí),分類效果最好。
圖6 基于一元詞的卡方檢驗(yàn)算法,DBN2分類性能與頂層隱藏單元數(shù)量關(guān)系
圖7 基于Skip-Bigrams二元詞的卡方檢驗(yàn)算法,DBN2分類性能與頂層隱藏單元數(shù)量關(guān)系
表2 基于LDA特征選擇方法,DBN2分類性能與頂層隱藏單元數(shù)量關(guān)系
5.2.3 DBN深度對(duì)于分類性能的影響
上文提到DBN的分類性能與頂層隱藏單元數(shù)量有關(guān),故本文在研究DBN深度對(duì)分類性能影響時(shí),設(shè)置DBN3在三種粒度下的頂層隱藏單元數(shù)量與5.2.2節(jié)DBN2確定的最優(yōu)頂層節(jié)點(diǎn)數(shù)量相同,分別為100、150、75。通過不斷調(diào)整網(wǎng)絡(luò)結(jié)構(gòu),在使用一元詞最優(yōu)輸入,三層隱藏節(jié)點(diǎn)數(shù)分別為1 000、400、100時(shí),DBN性能最優(yōu)。使用二元詞粒度下最優(yōu)輸入,三層隱藏節(jié)點(diǎn)數(shù)分別為1 500,600,150 時(shí),DBN分類效果最好。使用主題粒度下最優(yōu)輸入,三層節(jié)點(diǎn)數(shù)分別為90、80、75時(shí),DBN分類性能最佳。實(shí)驗(yàn)結(jié)果如表3所示:
表3 DBN3在三種最優(yōu)輸入下最佳分類性能
可以看出,增加DBN的層數(shù)不斷抽象淺層特征,得到的深層特征更能代表文本中的結(jié)構(gòu)語義信息,得以提升分類性能。因?yàn)樵黾覦BN的深度會(huì)使訓(xùn)練的復(fù)雜度呈指數(shù)倍增加,且大量實(shí)驗(yàn)已經(jīng)證明在深度大于3時(shí),分類性能提升不大,故本文沒有設(shè)置更深層次的實(shí)驗(yàn)。
5.2.4 與SVM分類器的比較
本實(shí)驗(yàn)將三種最優(yōu)輸入向量在不同深度DBN中最優(yōu)分類性能和時(shí)間開銷同SVM(加入C、G參數(shù)優(yōu)化過程)相比較,得到實(shí)驗(yàn)結(jié)果如表4所示.
可以看出當(dāng)DBN的深度為2時(shí),一元詞和二元詞粒度下最優(yōu)分類性能接近SVM,主題粒度下的分類性能超過SVM。當(dāng)DBN的深度為3時(shí),在三種粒度下的最優(yōu)分類性能均超過SVM, 但是DBN的時(shí)間開銷要大于SVM。無論是使用SVM還是DBN,LDA抽取出來的特征都是三種特征選擇方法里最好的,這是因?yàn)長(zhǎng)DA可以抽取出來詞粒度不具備的語義信息。實(shí)驗(yàn)結(jié)果說明DBN抽象出來的深層特征不僅實(shí)現(xiàn)了對(duì)原有淺層特征的降維,而且攜帶的文本信息更加豐富,更能代表社會(huì)新聞中隱藏的影響用戶情感的特征。
表4 DBN與SVM分類性能比較
對(duì)分類錯(cuò)誤的文本進(jìn)行綜合分析可得出錯(cuò)誤原因: 文本的客觀性太強(qiáng),潛在的影響用戶感情的特征還與一些社會(huì)環(huán)境等因素有關(guān)。如近九成網(wǎng)友閱讀完“美日聯(lián)合軍演”的新聞后表示出憤怒的情緒,但是文本本身只是客觀描述軍演的內(nèi)容,并沒有任何的感情色彩。此外,新聞的分布滿足一個(gè)正態(tài)分布,大多數(shù)人標(biāo)注新聞為某類情感,但也有部分人標(biāo)注新聞為另一類情感,這些因素對(duì)于DBN抽象特征都有負(fù)面的影響。
從實(shí)驗(yàn)結(jié)果中可以看出,DBN不僅能對(duì)原有高維特征降維,還能挖掘出特征之間的內(nèi)部聯(lián)系,將高維特征變成低維高度可分性特征,可以被用來挖掘客觀文本中隱藏的特征,如本文實(shí)驗(yàn)中通過DBN 抽象出來的深層特征就可以作為隱藏在社會(huì)新聞中影響用戶情感的特征。本文也存在許多不足之處,如實(shí)驗(yàn)中關(guān)于DBN學(xué)習(xí)率和迭代次數(shù)等參數(shù)是根據(jù)經(jīng)驗(yàn)設(shè)置的,沒有設(shè)置早期停止條件,可能會(huì)使DBN對(duì)于訓(xùn)練數(shù)據(jù)擬合程度變高,降低其泛化性,這些都會(huì)在以后的工作中進(jìn)行補(bǔ)充和完善。
[1] Bengio Y.Learning deep architectures for AI[J].Foundations and trends(R) in MachineLearning, 2009, 2(1): 1-127.
[2] McAfee L. Document Classification using Deep Belief Nets[J].CS224n,Sprint,2008.
[3] 代六玲,黃河燕,陳肇雄.中文文本分類中特征抽取方法的比較研究[J].中文信息學(xué)報(bào),2004,18(1): 26-32.
[4] 姚全珠,宋志理,彭程.基于LDA模型的文本分類研究 [J].計(jì)算機(jī)工程與應(yīng)用,2011,47(13).
[5]TanS.AneffectiverefinementstrategyforKNNtextclassifier[J].ExpertSystemswithApplications, 2006, 30(2): 290-298.
[6]LeeLH,WanCH,RajkumarR,etal.AnenhancedsupportvectormachineclassificationframeworkbyusingEuclideandistancefunctionfortextdocumentcategorization[J].AppliedIntelligence, 2012, 37(1): 80-99.
[7]LarochelleH,MandelM,PascanuR,etal.Learningalgorithmsfortheclassificationre-strictedboltzannmachine[J].TheJournalofMachineLearningResearch, 2012,13(1): 643-669.
[8]HintonGE.Trainingproductsofexpertsbyminimizingcontrastivedivergence[J].Neuralcomputation, 2002,14(8): 1771-1800.
[9]GuthrieD,AllisonB,LiuWetal.Acloserlookatskip-grammodelling[C]//Proceedingsofthe5thinternationalConferenceonLanguageResourcesandEvaluation(LREC-2006). 2006: 1-4.
[10]BleiDM,NgAY,JordanMI.Latentdirichletallocation[J].theJournalofmachineLearningresearch, 2003, 3: 993-1022.
MiningtheImpactofSocialNewsontheEmotionsofUsersBasedonDeepModel
SUN Xiao1, GAO Fei1,REN Fuji1,2
(1. School of Computer and Information, HeFei University of Technology ,Hefei, Anhui 230009, China; 2. Faculty of Engineering, The University of Tokushima, Tokushima 7700855, Japan)
This work investigates the deep features in social news which can influence the emotions of people.Three kinds of feature compression methods are used to extract shallow features from the granularities of unigram word,bigram word and theme.The work used Support Vector Machine to select the optimal shallow features of three granularities,and the optimal F1_macro are 60.5%、62.1% and 63.3% resepectirely. The work introduced Deep Belief Network (DBN) model to train and abstract the optimal shallow features, The optimal F1_macro of DBN3are61.4%、63.5% and 66.1% respectively.The experimental results show that the deep features abstracted by Deep Belief Network have more semantic information and better performance than shallow features in determining the influence on people’s emotions by social news.
deep belief nets; restricted boltzmann machine; impacts on emotion; social news
孫曉(1980—),副教授,主要研究領(lǐng)域?yàn)樽匀徽Z言處理,情感機(jī)器人與人機(jī)交互。
高飛(1993—),學(xué)士,主要研究領(lǐng)域?yàn)樽匀徽Z言處理與文本分類,機(jī)器學(xué)習(xí)。
任福繼(1959—),教授,主要研究領(lǐng)域?yàn)樾盘?hào)與信息處理,情感計(jì)算。
1003-0077(2017)03-0184-07
2014-09-23定稿日期: 2015-12-08
國(guó)家自然科學(xué)基金(61203315);國(guó)家高新科技發(fā)展計(jì)劃(2012AA011103);安徽省科技攻關(guān)項(xiàng)目(1206c0805039)
TP391
: A