楊 展,杜文才
(海南大學(xué) 信息科學(xué)技術(shù)學(xué)院,海南 ???570228)
?
基于多模態(tài)學(xué)習(xí)的深度玻爾茲曼機(jī)分析微博用戶的心理壓力
楊展,杜文才
(海南大學(xué) 信息科學(xué)技術(shù)學(xué)院,海南 ???570228)
摘要:提出了利用基于多模態(tài)學(xué)習(xí)的深度玻爾茲曼機(jī)模型(DBM)對(duì)微博圖片和文本數(shù)據(jù)進(jìn)行處理和分析,在模型中可以實(shí)現(xiàn)文本和圖片的低層次特征向稀疏高層次抽象特征的轉(zhuǎn)變,最后用一個(gè)聯(lián)合層表示來自2種不同模態(tài)數(shù)據(jù)的融合特征.此外,該模型發(fā)現(xiàn)2種不同模態(tài)數(shù)據(jù)的輸入特征處在低層次時(shí)是高度非線性的.實(shí)驗(yàn)結(jié)果證明了本文所提出方法的有效性.
關(guān)鍵詞:微博數(shù)據(jù); 多模態(tài)學(xué)習(xí); 玻爾茲曼機(jī); 心理壓力分析
心理健康問題一直以來受到大眾的關(guān)注,過去對(duì)心理健康問題的研究主要通過心理學(xué)家和心理咨詢師的分析和評(píng)估.如今大數(shù)據(jù)時(shí)代,社交平臺(tái)數(shù)據(jù)呈爆炸式增長(zhǎng),2014年全球每個(gè)月活躍微博用戶數(shù)增長(zhǎng)0.74億,相對(duì)于2014年,2015年同比增長(zhǎng)1.76億.微博平臺(tái)是網(wǎng)絡(luò)虛擬平臺(tái),微博用戶可以通過文本和圖片信息表達(dá)其情感、體驗(yàn)、感受和意見,因此可以利用微博數(shù)據(jù)分析用戶的心理壓力.
現(xiàn)階段針對(duì)社交平臺(tái)數(shù)據(jù)的分析方法包括文本分析和圖片分析.文本分析方法有:最大熵[1]、樸素貝葉斯、支持向量機(jī)(SVM, Support Vector Machine)和基于依存關(guān)系分析的極性分類等.白鴿[2]等利用SVM對(duì)漢語的句子級(jí)別和評(píng)論級(jí)別進(jìn)行分類;梁坤[3]等采用SVM對(duì)中文情感進(jìn)行分類研究,通過加入一些網(wǎng)絡(luò)評(píng)論判斷一篇評(píng)論為正面還是負(fù)面,采用具有語意傾向的詞并綜合其詞性作為特征項(xiàng),用TF-IDF值作為特征項(xiàng)權(quán)值,取得較好的結(jié)果;李超[4]等通過基于受限玻爾茲曼機(jī)(RBM)的分析模型對(duì)微博平臺(tái)上的短文本信息進(jìn)行建模,挖掘出潛在主題信息,并根據(jù)短文本潛在主題信息實(shí)現(xiàn)對(duì)短文本的分類以及找到用戶感興趣的信息;Dai[5]等提出用戶態(tài)度權(quán)重的概念,用情感權(quán)重計(jì)算器計(jì)算中國(guó)論壇用戶的情感指數(shù),了解公眾觀點(diǎn)以便做出相應(yīng)地決策;劉魯[6]等通過使用3種機(jī)器學(xué)習(xí)算法、3種特征選取算法和3種特征權(quán)重計(jì)算方法對(duì)微博評(píng)論進(jìn)行情感分類的實(shí)證研究,研究表明采用SVM和IG,TF-IDF作為權(quán)重的分類效果較優(yōu)秀;李培[7]等介紹一種利用句法依存關(guān)系對(duì)網(wǎng)絡(luò)評(píng)論的極性進(jìn)行自動(dòng)分類的方法,通過將評(píng)論中提出的依存關(guān)系和詞性構(gòu)成依存關(guān)系詞性對(duì),同時(shí)利用自定義的極性詞典進(jìn)行分類,其方法能有效地減少計(jì)算的復(fù)雜度和提高分類的精度,實(shí)驗(yàn)表明是一種可行且有效的對(duì)社交平臺(tái)文本數(shù)據(jù)極性分類的方法.圖片分析方法主要從圖片中識(shí)別人類情感的視覺特征,如,物體(球,生日賀卡,玩具等)、人物表情(哭,笑等)和其他特征比如色溫等分析預(yù)測(cè)人類情感[8-10].Borth[11]等在語義層面上提出一個(gè)新穎的視覺概念檢測(cè)庫(kù)SentiBank,用來檢測(cè)圖片中1 200個(gè)ANPs(Adjective Noun Pairs).
目前社交平臺(tái)文本分析方法無論是智能算法還是傳統(tǒng)優(yōu)化算法都是通過純文本數(shù)據(jù)進(jìn)行分析,從而忽略了相關(guān)的圖片信息.圖片分析方法分析人類情感存在“視覺情感間隙”的問題[12],因?yàn)橥瑯拥奈矬w或人物表情在不同的環(huán)境中可能代表完全相反的意思,比如一張帶有“哭”的人類情感視覺特征的圖片,在不同的環(huán)境代表不同的“哭”:“高興的哭”或“悲傷的哭”,因此離開文本數(shù)據(jù)對(duì)圖片數(shù)據(jù)的視覺特征進(jìn)行分析也存在不足.以玻爾茲曼機(jī)為基礎(chǔ)的深度學(xué)習(xí)是機(jī)器學(xué)習(xí)中一個(gè)新的研究領(lǐng)域,能很好的解決自然語言理解等復(fù)雜問題.在深度學(xué)習(xí)基礎(chǔ)上多模態(tài)學(xué)習(xí)模型已經(jīng)廣泛用于各種復(fù)雜層次概率模型[13-18],并且多模態(tài)學(xué)習(xí)模型還有3個(gè)優(yōu)點(diǎn):處理自然語言,減少訓(xùn)練過擬合和避免誤差積累.針對(duì)上述研究缺陷,筆者建立一個(gè)能讓圖片和文本特征相互結(jié)合,減少“視覺情感間隙”的系統(tǒng)框架,采用多模態(tài)學(xué)習(xí)的深度玻爾茲曼機(jī)對(duì)含有多模態(tài)數(shù)據(jù)結(jié)構(gòu)的微博數(shù)據(jù)進(jìn)行分析.
1原理與方法
所涉及的微博數(shù)據(jù)包括2種數(shù)據(jù)模態(tài):文本數(shù)據(jù)和圖片數(shù)據(jù),2種數(shù)據(jù)模態(tài)有著不同的表現(xiàn)形式和結(jié)構(gòu),其中文本數(shù)據(jù)是稀疏和離散的,圖片數(shù)據(jù)是實(shí)值和密集的.通過Salakhutdinov[19]等研究表明,采用多模態(tài)學(xué)習(xí)的深度玻爾茲曼機(jī)模型可以發(fā)掘2種不同模態(tài)之間高度非線性關(guān)系,并且模型能提供一個(gè)從文本和圖片的子空間特征映射到概念級(jí)特征上的學(xué)習(xí)信號(hào),模型中各單元的連接都是無向的,因此模型在處理自然語言樣本時(shí)健壯性更強(qiáng).采用的多模態(tài)學(xué)習(xí)的深度玻爾茲曼機(jī)模型含有2個(gè)訓(xùn)練路徑,每個(gè)訓(xùn)練路徑中含有一個(gè)輸入層和2個(gè)隱藏層,隨著隱藏層深度增加,輸入層數(shù)據(jù)特征逐漸被放大,不相關(guān)的變量就能被更加準(zhǔn)確地識(shí)別和抑制,訓(xùn)練的數(shù)據(jù)越多,聯(lián)合層就越能真實(shí)和準(zhǔn)確的反映出數(shù)據(jù)的內(nèi)部信息、簡(jiǎn)化分析過程,系統(tǒng)本身就能獲得更多有用的特征向量[19].此外,針對(duì)不同的數(shù)據(jù)模態(tài),不同的路徑采用不同的模型進(jìn)行建模,文本處理路徑采用重復(fù)軟最大化模型RSM(Replicated Softmax Model)結(jié)構(gòu)[20],圖片處理路徑采用高斯伯努利受限玻爾茲曼機(jī)GRBM(Gaussian-Bernoulli Restricted Boltzmann Machines)結(jié)構(gòu)[21-22].RSM和GRBM都是基于常見的RBM[23].
ERSM(v,h;θ),
(1)
其中,Wij表示連接可見單元和隱藏單元之間的權(quán)重,ai和bj分別是可見單元和隱藏單元的偏置,θ是RSM的參數(shù){W,a,b},i,j,l,分別表示可見層vi單元數(shù),隱藏層hj單元數(shù),隱藏層hl單元數(shù).根據(jù)式(1),模型能量函數(shù)的聯(lián)合分布定義為
(2)
通過式(2),條件分布為
(3)
(4)
(5)
其中,PData表示觀察數(shù)據(jù),PModel表示模型.
(6)
其中,Wij表示連接可見單元和隱藏單元之間的權(quán)重,ai和bj分別是可見單元和隱藏單元的偏置,θ是GRBM的參數(shù){W,a,b,σ}.根據(jù)式(6),v,h的聯(lián)合密度概率為
(7)
(8)
(9)
其中,i,j,l分別表示可見層vi單元數(shù),隱藏層hj單元數(shù),隱藏層hl單元數(shù),σ表示可見單元高斯分布的方差.GRBM的最終權(quán)重可以通過給定一組圖片樣本的實(shí)值向量{vn}N由式(10)獲得
(10)
其中,PData表示觀察數(shù)據(jù),PModel表示模型.
式(5)和(10)采用最大似然學(xué)習(xí)法求模型的最終權(quán)重Wij是非常復(fù)雜的,因?yàn)镻Model的期望復(fù)雜度是呈指數(shù)級(jí),當(dāng)樣本非常大時(shí),計(jì)算的效率非常低.Hinton提出采用對(duì)比散度算法通過接近最小化KL散度目標(biāo)求數(shù)據(jù)的最大似然函數(shù)達(dá)到接近目標(biāo)解[24]
(11)
其中,?0表示可見數(shù)據(jù),?1表示模型經(jīng)過多次吉布斯采樣(Gibbs sample)后的分布.
根據(jù)1.1,文本訓(xùn)練路徑中vt的概率函數(shù)為
(12)
根據(jù)1.2,圖片訓(xùn)練路徑中vm的概率函數(shù)為
(13)
在2個(gè)不同模型結(jié)構(gòu)訓(xùn)練路徑的頂端設(shè)置一個(gè)聯(lián)合層,聯(lián)合層的輸入是文本和圖片訓(xùn)練路徑上頂端隱藏層h(2t)和h(2m)的輸出.用h3代表聯(lián)合層,整個(gè)網(wǎng)絡(luò)用h={h(1m),h(2m),h(1t),h(1t),h3}定義,聯(lián)合層的密度分布由式(12)、(13)和h(2t),h(2m)得到
(14)
在含有不同模態(tài)數(shù)據(jù)輸入和多層隱藏層的模型中,直接訓(xùn)練網(wǎng)絡(luò)是非常困難的.那么訓(xùn)練過程將分為2步(如圖2b和c所示),第1步使用layer-wise進(jìn)行預(yù)訓(xùn)練,預(yù)訓(xùn)練能保證每個(gè)隱藏單元的期望輸入;第2步將已學(xué)習(xí)到的參數(shù)用于初始化深度玻爾茲曼機(jī)模型的每一層,用增強(qiáng)輸入q(h(3)|v)代理聯(lián)合層h(3),這一步保證當(dāng)預(yù)訓(xùn)練結(jié)束后模型能從相同的層進(jìn)行微調(diào)(fine-tune)[19,23].預(yù)訓(xùn)練是采用Hinton提出的CD-n(n次吉布斯采樣),大多數(shù)情況下CD-1訓(xùn)練的效果比較理想[24].
對(duì)于聯(lián)合層特征的提取,通過式(14)得到聯(lián)合層的條件分布為
(15)
針對(duì)系統(tǒng)出現(xiàn)某一模態(tài)數(shù)據(jù)輸入缺失的情況,Salakhutdinov等提出采用mean-field更新法近似所提取特征的真實(shí)后驗(yàn)分布概率,同時(shí)也能生成和得到聯(lián)合層的特征[23].各層更新的條件分布可以通過式(16)~(21)得到
(16)
(17)
(18)
(19)
(20)
(21)
2實(shí)驗(yàn)與結(jié)果
2.1數(shù)據(jù)處理與實(shí)驗(yàn)設(shè)置實(shí)驗(yàn)所采用的數(shù)據(jù)來自新浪微博平臺(tái)從2014年8月到2014年10月的1 000條含有圖片和文本的微博數(shù)據(jù),其中包括600條(無心理壓力的)數(shù)據(jù)和400條(有心理壓力的)數(shù)據(jù).
對(duì)于實(shí)驗(yàn)文本數(shù)據(jù)的預(yù)處理,首先將每條微博文本進(jìn)行分段,通過使用NLPIR/ICTCLAS進(jìn)行特征提取[25].此外,文本字典是從Hownet和NTUSD字典里選出256個(gè)頻率較高的詞匯.圖片數(shù)據(jù)預(yù)處理有許多方法,如,MPEG-7[26], PHOW[27], SSIM[28].在本文中,使用VLFeat 0.9.23對(duì)圖片特征進(jìn)行提取,圖片特征向量為3 509維度.
模型的框架結(jié)構(gòu)及處理過程如圖3所示,其中采用RSM的文本數(shù)據(jù)訓(xùn)練路徑中包括一個(gè)神經(jīng)元為256個(gè)的輸入層和2個(gè)隱藏層,其中每個(gè)隱藏層神經(jīng)元為1 024個(gè);采用GRBM的圖片數(shù)據(jù)訓(xùn)練路徑中包括3 509個(gè)線性神經(jīng)元輸入層和2個(gè)隱藏層,每個(gè)隱藏層神經(jīng)元為1 024個(gè).聯(lián)合層神經(jīng)元設(shè)置為2 048個(gè).模型的訓(xùn)練算法見算法1(見附錄),預(yù)訓(xùn)練采用CD-1,為了避免運(yùn)行分離馬克爾夫鏈時(shí)每個(gè)詞匯計(jì)數(shù)獲得模型分布的充分統(tǒng)計(jì)量,將詞匯向量的和設(shè)置為1[19].
圖3 多模態(tài)學(xué)習(xí)的深度玻爾茲曼機(jī)的框架和訓(xùn)練過程
微博用戶心理壓力的分析是使用邏輯回歸分類器(LR-classifier)對(duì)聯(lián)合層輸出的特征向量進(jìn)行分類.
2.2分類性能針對(duì)2種不同的訓(xùn)練方式對(duì)模型進(jìn)行分類性能測(cè)試.
2.2.1多模態(tài)輸入在實(shí)驗(yàn)中,用N(0,0.12)隨機(jī)化模型初始參數(shù),并將實(shí)驗(yàn)數(shù)據(jù)分為5份,隨機(jī)選出4份作為訓(xùn)練數(shù)據(jù),剩下1份作為測(cè)試數(shù)據(jù),每次向模型中輸入一組數(shù)據(jù),訓(xùn)練完4份數(shù)據(jù)稱為一個(gè)訓(xùn)練周期.首先運(yùn)行mean-field更新和微調(diào)(fine-tune)前饋網(wǎng)絡(luò),運(yùn)行mean-field更新次數(shù)為5次[19].為了確定學(xué)習(xí)速率,將學(xué)習(xí)速率設(shè)置在0.001~0.1之間進(jìn)行測(cè)試.測(cè)試結(jié)果見表1.本模型對(duì)用戶心理壓力分析的準(zhǔn)確度最高可以達(dá)到88.16%,平均準(zhǔn)確度為86.09%.實(shí)驗(yàn)結(jié)果表明學(xué)習(xí)速率選擇在0.008~0.01是最優(yōu)的,雖然小于0.008會(huì)增加模型精確度,但訓(xùn)練時(shí)間過長(zhǎng),大于0.01則精確度會(huì)下降.訓(xùn)練的周期選擇6次,超過6次分類精準(zhǔn)度幾乎保持不變(如圖4所示).分別測(cè)試了從3層網(wǎng)絡(luò)結(jié)構(gòu)和2層網(wǎng)絡(luò)結(jié)構(gòu)的模型中提取出每一層的特征向量用邏輯回歸分類器分類的性能.圖5可得出聯(lián)合層能更好地發(fā)現(xiàn)并融合2種不同模態(tài)數(shù)據(jù)中有用的特征,從而達(dá)到最高分類性能;3層網(wǎng)絡(luò)結(jié)構(gòu)的模型分類性能高于2層網(wǎng)絡(luò)結(jié)構(gòu)的模型分類性能,原因是隱藏層越多則越能表示更加復(fù)雜的函數(shù),提高特征表現(xiàn)的能力.實(shí)驗(yàn)結(jié)果證明聯(lián)合層能非常有效地平衡并融合文本和圖片特征.
表1 不同學(xué)習(xí)速率下模型的訓(xùn)練耗時(shí)和精確度
2.2.2單模態(tài)輸入對(duì)于單模態(tài)輸入的性能評(píng)估,將模型針對(duì)僅輸入文本數(shù)據(jù)的條件下進(jìn)行測(cè)試.模型訓(xùn)練的步驟是首先將處理圖片數(shù)據(jù)的GRBM訓(xùn)練路徑初始化為零,這條路徑的特征通過mean-field進(jìn)行更新,采用標(biāo)準(zhǔn)吉布斯采樣[23].文本數(shù)據(jù)vt作為輸入,其他隱藏單元都隨機(jī)初始化,用吉布斯采樣通過模型中相鄰的層更新并生成圖片的代理樣本P(vm|vt).將相同的文本數(shù)據(jù)用Xiang[29]等提出的VSM進(jìn)行分析,VSM模型算法不僅采用一系列過濾器把文本中含有情感的詞匯全部過濾掉,還結(jié)合個(gè)人輸入習(xí)慣,而且VSM模型對(duì)于文本的特征提取非常全面,采用2種規(guī)則解決分詞中標(biāo)點(diǎn)符號(hào)和一些錯(cuò)誤詞匯的分割.表2中給出了單模態(tài)輸入和目前流行的VSM算法的分析結(jié)果.
表2 多模態(tài)/單模態(tài)輸入及VSM處理的總體精度
2.3 實(shí)驗(yàn)結(jié)果從表2中得出多模態(tài)學(xué)習(xí)的深度玻爾茲曼機(jī)處理多模態(tài)數(shù)據(jù)時(shí)性能最好,其次是VSM,多模態(tài)學(xué)習(xí)的深度玻爾茲曼機(jī)處理單模態(tài)數(shù)據(jù)時(shí)性能最差.表3給出了傳統(tǒng)微博文本分析模型和多模態(tài)學(xué)習(xí)的深度玻爾茲曼機(jī)模型處理微博多模態(tài)數(shù)據(jù)分類結(jié)果的部分例子,在第3個(gè)例子中用戶心理壓力狀態(tài)被傳統(tǒng)微博文本分析模型錯(cuò)誤分類了,但多模態(tài)學(xué)習(xí)的深度玻爾茲曼機(jī)結(jié)合用戶所發(fā)的圖片信息能正確識(shí)別用戶的心理壓力狀態(tài).但在第2和第4個(gè)例子中多模態(tài)學(xué)習(xí)的深度玻爾茲曼機(jī)將用戶的心理壓力狀態(tài)錯(cuò)誤分類了,其原因是用戶使用了譏諷的表達(dá)手法,模型中沒有加入人類邏輯思考,且附帶的是中性、無感情色彩的圖片.在表3中,-1代表有心理壓力;1代表無心理壓力;真實(shí)為用戶心理壓力的真實(shí)情況.
表3 多模態(tài)學(xué)習(xí)的深度玻爾茲曼機(jī)模型和傳統(tǒng)微博文本分析模型對(duì)部分微博數(shù)據(jù)分類的結(jié)果
3結(jié)束語
提出了通過微博平臺(tái)多模態(tài)數(shù)據(jù)分析用戶的心理壓力,與現(xiàn)有分析模型不同的是,采用多模態(tài)學(xué)習(xí)的深度玻爾茲曼機(jī)模型將文本信息和圖片信息結(jié)合分析,并解決了跨模態(tài)數(shù)據(jù)特征向量融合的問題,實(shí)驗(yàn)結(jié)果得出了多模態(tài)學(xué)習(xí)的深度玻爾茲曼機(jī)處理純文本數(shù)據(jù)時(shí)性能低于VSM,但處理多模態(tài)數(shù)據(jù)時(shí)性能高于VSM.因此隨著社交平臺(tái)上傳感器和插件的增多,越來越多不同模態(tài)的數(shù)據(jù)出現(xiàn)在微博平臺(tái)上,合理結(jié)合不同模態(tài)的數(shù)據(jù)提高分類精確度是未來微博數(shù)據(jù)挖掘的一個(gè)熱點(diǎn),但仍有一些問題值得考慮:1)如何加入視頻模態(tài)的數(shù)據(jù)進(jìn)行分析;2)在實(shí)時(shí)的微博海量數(shù)據(jù)中怎樣智能地找出存在心理壓力的用戶.下一步的工作將針對(duì)以上2個(gè)問題進(jìn)行研究.
參考文獻(xiàn):
[1] Pang B, Lee L, Vaithyanathan S. Thumbs up Sentiment classification using machine learning techniques: proceedings of the Conference on Empirical Methods in Natural Language Processing, Philadelphia, July 6-7, 2002[C]. New York:[s.n.],2002.
[2] 白鴿,左萬利,趙乾坤,等.使用機(jī)器學(xué)習(xí)對(duì)漢語評(píng)論進(jìn)行情感分類[J].吉林大學(xué)學(xué)報(bào)(理學(xué)版), 2009,47(6):1 260-1 263.
[3] 梁坤,古麗拉·阿東別克.基于SVM的中文新聞評(píng)論的情感自動(dòng)分類研究[J].電腦知識(shí)與技術(shù),2009,5(13):3 496-3 498.
[4] 李超,李昂,朱耿良.基于限制性玻爾茲曼機(jī)的微博主題分類[J].電信網(wǎng)技術(shù),2014(7):26-29.
[5] Dai L, Ding L. Sentiment analysis in Chinese BBS: proceedings of the International Conference of Intelligence Computation and Evolutionary Computation ICEC 2012, Wuhan, July 7, 2012 [C]. Heidelberg: Springer-Verlag,2013.
[6] 劉魯,劉志明.基于機(jī)器學(xué)習(xí)的中文微博情感分類實(shí)證研究[J].計(jì)算機(jī)工程與應(yīng)用,2012,48(1):1-4.
[7] 李培,何中市,黃永文.基于依存關(guān)系分析的網(wǎng)絡(luò)評(píng)論極性分類研究[J].計(jì)算機(jī)工程與應(yīng)用,2010,46(11):138-141.
[8] You Q, Luo J, Jin H, et al. Robust image sentiment analysis using progressively trained and domain transferred deep networks:proceedings of the Twenty Ninth AAAI Conference on Artificial Intelligence, Austin, January 25-30, 2015[C]. [S.l.]:[s.n.],2015.
[9] Borth D, Ji R, Chen T, et al. Large-scale visual sentiment ontology and detectors using adjective noun pairs: proceedings of the 21st ACM international conference on Multimedia, Barcelona, October 21-25, 2013[C]. New York: [s.n.], 2013.
[10] Yuan J, Mcdonough S, You Q, et al. Sentribute: image sentiment analysis from a mid-level perspective: proceeding of the Second International workshop on Issues of Sentiment Discovery and Opinion Mining, Chicago, August 11, 2013[C]. New York: [s.n.],2013.
[11] Jia J, Wu S, Wang X, et al. Can we understand van gogh’s mood?: learning to infer affects from images in social networks:proceedings of the 20th ACM international conference on Multimedia, Nara, October 29-November 2, 2012[C]. New York: ACM press,2012.
[12] Machajdik J, Hanbury A. Affective image classification using features inspired by psychology and art theory: proceedings of the 18th International Conference on Multimedea 2010, Firenze, October 25-29, 2010[C]. Piscataway: [s.n.],2010.
[13] 劉建偉, 劉媛, 羅雄麟.玻爾茲曼機(jī)研究進(jìn)展[J].計(jì)算機(jī)研究與發(fā)展,2014,51(1):1-16.
[14] 胡曉林,朱軍.深度學(xué)習(xí)—機(jī)器學(xué)習(xí)領(lǐng)域的新熱點(diǎn)[J].中國(guó)計(jì)算機(jī)學(xué)會(huì)通信,2013,9(7):64-69.
[15] Ngiam J, Khosla A, Kim M, et al. Multimodal deep learning:proceedings of the 28th International Conference on Machine Learning, ICML 2011, Bellevue, June 28-July 2, 2011[C]. Massachusetts: [s.n.],2011.
[16] Ouyang W, Chu X, Wang X. Multi-source deep learning for human pose estimation:proceedings of the Computer Vision and Pattern Recognition (CVPR) 2014, Columbus, June 24-27, 2014[C]. Piscataway:[s.n.],2014.
[17] 邱立達(dá),劉天鍵,林南,等.基于深度學(xué)習(xí)模型的無線傳感器網(wǎng)絡(luò)數(shù)據(jù)融合算法[J].傳感技術(shù)學(xué)報(bào),2014(12):1 704-1 709.
[18] Kiros R, Salakhutdinov R, Zemel R. Multimodal neural language models:proceedings of the 31st International Conference on Machin Leraning, Beijing, June 21-June 26, 2014[C]. [S.l.]:[s.n.],2014.
[19] Srivastava N, Salakhutdinov R. Multimodal learning with deep boltzmann machines[J]. Journal of Machine Learning Research,2014,15(8):1 967-2 006.
[20] Salakhutdinov R, Hinton G E. Replicated softmax: an undirected topic model: proceedings of the Neural Information Processing Systems 2009, Vancouver, December 7-10, 2009[C]. Massachusetts:[s.n.],2009.
[21] Freund Y, Haussler D. Unsupervised learning of distributions on binary vectors using two layer networks:proceedings of the Advances in Neural Information Processing Systems 1992, Denver, November 30-December 3, 1992[C]. San Francisco: Morgan Kaufmann Publishers,1993.
[22] Hinton G E, Salakhutdinov R R. Reducing the dimensionality of data with neural networks[J]. Science,2006,313(5786):504-507.
[23] Salakhutdinov R, Hinton G E. Deep boltzmann machines[J]. Journal of Machine Learning Research,2009,5(2):1 967-2 006.
[24] Hinton G. Training products of experts by minimizing contrastive divergence[J]. Neural Computation,2002,14(8):1 771-1 800.
[25] Zhang H P, Yu H K, Xiong D Y, et al. HHMM-based Chinese lexical analyzer ICTCLAS:proceedings of the second SIGHAN workshop on Chinese language processing, Sapporo, July 11-12, 2003[C]. [S.l.]:Association for Computational Linguistics,2003.
[26] Manjunath B S, Ohm J R, Vasudevan V V, et al. Color and texture descriptors[J]. Circuits & Systems for Video Technology IEEE Transactions on,2001,11(6):703-715.
[27] Bosch A, Zisserman A, Munoz X. Image classification using random forests and ferns:proceedings of the IEEE International Conference on Computer Vision 2007, Rio de Janeiro, October 14-20, 2007[C]. Piscataway: IEEE Computer Society,2007.
[28] Shechtman E, Irani M. Matching local self-similarities across images and videos:proceedings of the Conference on Computer Vision and Pattern Recognition 2007, Minneapolis, June 18, 2007[C]. Piscataway: [s.n.],2007.
[29] Xiang Z Q, Zou Y X, Wang X. Sentiment analysis of Chinese micro-blog using vector space model:proceedings of the Asia-pacific Signal and Information Processing Association Annual Summit and Conference 2014, Siem Reap, December 9-12, 2014[C]. Piscataway: [s.n.],2014.
附錄:
算法1:整個(gè)模型的學(xué)習(xí)訓(xùn)練學(xué)習(xí)算法
1. 輸入:一組N個(gè)集合的向量vn={vm,vt},其中n=1,…,N,用S表示馬爾科夫鏈,Λ為對(duì)角矩陣且Λ=1/σi,h={h(1m),h(2m),h(1t),h(1t),h3}, T為迭代次數(shù).
3. For t=0 to T do
4. // 變分推理
5. For each vn,n=1toN do
6. 運(yùn)行mean-field更新直至收斂[15].
7. End for
8. // 隨機(jī)近似
9. For s=1 to S do
10. 樣本:(vt+1,S,ht+1,S)→(vt,S,ht,S) 通過式(16)~(21)進(jìn)行一次吉布斯采樣.
11. End for
12. // 參數(shù)更新:
13. // 圖片路徑參數(shù)更新
16. // 文本路徑參數(shù)更新
19. // 聯(lián)合層參數(shù)更新
22. α↓
23. End for
收稿日期:2016-02-21
基金項(xiàng)目:海南省應(yīng)用技術(shù)研發(fā)與示范推廣專項(xiàng)(ZDXM2015105)
作者簡(jiǎn)介:楊展(1990—),男,湖南衡陽人,海南大學(xué)2013級(jí)研究生,研究方向:計(jì)算機(jī)應(yīng)用,E-mail:zhanyang1122@outlook.com 通信作者: 杜文才(1953—),男,江蘇徐州人,海南大學(xué)信息科學(xué)技術(shù)學(xué)院,澳門城市大學(xué)博士,教授,E-mail:wencai@hainu.edu.cn
文章編號(hào):1004-1729(2016)02-0121-10
中圖分類號(hào):TP 391
文獻(xiàn)標(biāo)志碼:ADOl:10.15886/j.cnki.hdxbzkb.2016.0019
Mental Stress State Analysis of Microblog User Based on Multimodal Learning with Deep Boltzmann Machine
Yang Zhan, Du Wencai
(College of Information Science and Technology, Hainan University, Haikou 570228, China)
Abstract:In the study, Deep Boltzmann Machine (DBM) based on multimodal learning algorithm was used to analyze microblog image and textual data. The model can transform low-level features of images and texts to sparse high-level abstract concepts. A joint representation layer was employed to fuse common features derived from the two different input modalities. Additionally, the model can detect that the input characteristic of two different model data at low-level was non-linear relations. The experiment results suggested that the proposed method is effective.
Keywords:microblog; multimodal learning; Boltzmann Machine; mental state analysis