樊養(yǎng)余 李祖賀 王鳳琴 馬江濤
?
基于跨領(lǐng)域卷積稀疏自動(dòng)編碼器的抽象圖像情緒性分類
樊養(yǎng)余①李祖賀*①②王鳳琴②馬江濤②
①(西北工業(yè)大學(xué)電子信息學(xué)院 西安 710072);②(鄭州輕工業(yè)學(xué)院計(jì)算機(jī)與通信工程學(xué)院 鄭州 450002)
為了將無(wú)監(jiān)督特征學(xué)習(xí)應(yīng)用于小樣本量的圖像情緒語(yǔ)義分析,該文采用一種基于卷積稀疏自動(dòng)編碼器進(jìn)行自學(xué)習(xí)的領(lǐng)域適應(yīng)方法對(duì)少量有標(biāo)記抽象圖像進(jìn)行情緒性分類。并且提出了一種采用平均梯度準(zhǔn)則對(duì)自動(dòng)編碼器所學(xué)權(quán)重進(jìn)行排序的方法,用于對(duì)基于不同領(lǐng)域的特征學(xué)習(xí)結(jié)果進(jìn)行直觀比較。首先在源領(lǐng)域中的大量無(wú)標(biāo)記圖像上隨機(jī)采集圖像子塊并利用稀疏自動(dòng)編碼器學(xué)習(xí)局部特征,然后將對(duì)應(yīng)不同特征的權(quán)重矩陣按照每個(gè)矩陣在3個(gè)色彩通道上的平均梯度中的最小值進(jìn)行排序。最后采用包含池化層的卷積神經(jīng)網(wǎng)絡(luò)提取目標(biāo)領(lǐng)域有標(biāo)記圖像樣本的全局特征響應(yīng),并送入邏輯回歸模型進(jìn)行情緒性分類。實(shí)驗(yàn)結(jié)果表明基于自學(xué)習(xí)的領(lǐng)域適應(yīng)可以為無(wú)監(jiān)督特征學(xué)習(xí)在有限樣本目標(biāo)領(lǐng)域上的應(yīng)用提供訓(xùn)練數(shù)據(jù),而且采用稀疏自動(dòng)編碼器的跨領(lǐng)域特征學(xué)習(xí)能在有限數(shù)量抽象圖像情緒語(yǔ)義分析中獲得比底層視覺特征更優(yōu)秀的辨識(shí)效果。
圖像分類;圖像情緒;自學(xué)習(xí);卷積自動(dòng)編碼器;領(lǐng)域適應(yīng)
隨著社會(huì)化媒體的迅速發(fā)展,圖像成為人們自我表達(dá)和互相溝通的重要途徑。和文本一樣,圖像內(nèi)容包含著與情緒和意見相關(guān)的信息[1]。分析圖像的情緒語(yǔ)義具有重要意義:從媒體受眾角度看它可以被用于藝術(shù)和廣告等作品的輔助設(shè)計(jì);從發(fā)布者角度看它可以被用于網(wǎng)絡(luò)情緒信息挖掘和輿情監(jiān)測(cè);另外它還可以被用于基于情緒語(yǔ)義的圖像檢索[2]。而圖像情緒性分類就屬于情緒語(yǔ)義分析范疇,它根據(jù)圖像對(duì)人的情緒影響來(lái)對(duì)其進(jìn)行區(qū)分[3]。
進(jìn)行該研究的基本方法是從圖像中提取色彩和紋理等底層視覺特征并將其與情緒語(yǔ)義進(jìn)行映射,但是底層視覺特征與高層語(yǔ)義間的“語(yǔ)義鴻溝”阻礙了可靠映射關(guān)系的建立。目前在計(jì)算機(jī)視覺領(lǐng)域,深度學(xué)習(xí)技術(shù)[8]在圖像認(rèn)知層識(shí)別中取得突破性成果,所以有人將深度卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)[9]這樣的有監(jiān)督深度學(xué)習(xí)模型應(yīng)用于具象圖像情緒分析。文獻(xiàn)[10]最先基于深度CNN進(jìn)行視覺情緒研究,文獻(xiàn)[11]利用多層CNN預(yù)測(cè)圖像情緒,并提出一種漸進(jìn)微調(diào)訓(xùn)練方案。但是有監(jiān)督訓(xùn)練需要大量有標(biāo)記樣本,它無(wú)法在數(shù)據(jù)量小的樣本集合上開展。以現(xiàn)有情緒語(yǔ)義分析領(lǐng)域的抽象圖像數(shù)據(jù)庫(kù)為例,其有標(biāo)記樣本數(shù)量?jī)H有一兩百個(gè)[3,6,7],基于有監(jiān)督訓(xùn)練的深度學(xué)習(xí)模型并不適用。
而面向海量無(wú)標(biāo)記數(shù)據(jù)的無(wú)監(jiān)督特征學(xué)習(xí)正在成為新的研究熱點(diǎn)[8],像稀疏自動(dòng)編碼器(Sparse AutoEncoder, SAE)這種通過(guò)對(duì)無(wú)標(biāo)記數(shù)據(jù)進(jìn)行自我復(fù)原訓(xùn)練來(lái)提取特征的技術(shù)已經(jīng)被推廣到很多標(biāo)記數(shù)據(jù)有限的應(yīng)用場(chǎng)合[12,13]。因此本文嘗試基于SAE進(jìn)行無(wú)監(jiān)督特征學(xué)習(xí)并將其應(yīng)用于小樣本量的抽象圖像情緒語(yǔ)義分析。具象圖像的情緒語(yǔ)義受認(rèn)知層語(yǔ)義驅(qū)動(dòng),而抽象圖像沒有確定認(rèn)知含義,它對(duì)人情緒的影響依靠視覺上的直接沖擊。所以用無(wú)監(jiān)督學(xué)習(xí)特征代替底層視覺特征與抽象圖像情緒語(yǔ)義進(jìn)行映射具有可行性。本文面臨的問題是小樣本量數(shù)據(jù)庫(kù)不能提供特征學(xué)習(xí)所需的大量數(shù)據(jù),但是近年來(lái)領(lǐng)域適應(yīng)和遷移學(xué)習(xí)概念的提出使不同領(lǐng)域間的知識(shí)共享和利用成為可能[14,15]。無(wú)監(jiān)督特征學(xué)習(xí)領(lǐng)域中有一種利用大量無(wú)標(biāo)記數(shù)據(jù)提高分類任務(wù)性能的方法叫自學(xué)習(xí)(self-taught learning)[15,16],它不要求無(wú)標(biāo)記數(shù)據(jù)的分布與目標(biāo)領(lǐng)域數(shù)據(jù)分布完全相同。而目前基于自動(dòng)編碼器的領(lǐng)域適應(yīng)和遷移學(xué)習(xí)已經(jīng)在語(yǔ)音情緒分析和自然語(yǔ)言處理中得到應(yīng)用,因此本文以基于自動(dòng)編碼器的自學(xué)習(xí)方式進(jìn)行跨領(lǐng)域?qū)W習(xí)。
本文的主要?jiǎng)?chuàng)新在于:(1)針對(duì)小樣本量抽象圖像數(shù)據(jù)集,提出一種結(jié)合單層SAE和卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行跨領(lǐng)域特征學(xué)習(xí)以在情緒語(yǔ)義層對(duì)其進(jìn)行分類的方案,在進(jìn)行特征學(xué)習(xí)時(shí)借用與抽象圖像數(shù)據(jù)不相關(guān)的無(wú)標(biāo)記數(shù)據(jù)集STL-10[21];(2)提出一種基于平均梯度(Average Gradient, AG)[22]按邊緣性強(qiáng)弱對(duì)自學(xué)習(xí)特征權(quán)重進(jìn)行排列和顯示的方法,用于對(duì)在跨領(lǐng)域的大量數(shù)據(jù)上和在目標(biāo)領(lǐng)域小樣本量數(shù)據(jù)上進(jìn)行無(wú)監(jiān)督特征學(xué)習(xí)的效果進(jìn)行直觀對(duì)比。實(shí)驗(yàn)結(jié)果表明采用“知識(shí)遷移”從與驗(yàn)證數(shù)據(jù)無(wú)關(guān)的大量無(wú)標(biāo)記圖像中能學(xué)習(xí)到邊緣性更強(qiáng)的特征權(quán)重,基于SAE的跨領(lǐng)域?qū)W習(xí)能在小樣本量抽象圖像情緒性分類中獲得更好的效果。
如圖1所示,本文所采用的對(duì)抽象圖像進(jìn)行情緒性分類的系統(tǒng)框架包含3個(gè)部分:源領(lǐng)域特征學(xué)習(xí)、目標(biāo)領(lǐng)域全局特征提取和圖像分類。(1)源領(lǐng)域特征學(xué)習(xí):從源領(lǐng)域無(wú)標(biāo)記數(shù)據(jù)集中采集圖像子塊,采取白化處理加強(qiáng)圖像塊邊緣特征,并采用對(duì)隱藏層加入稀疏性約束的自動(dòng)編碼器來(lái)學(xué)習(xí)局部特征。(2)目標(biāo)領(lǐng)域全局特征提?。夯诰矸e神經(jīng)網(wǎng)絡(luò)獲取目標(biāo)領(lǐng)域抽象圖像在整幅圖像上的全局特征響應(yīng),然后采取池化操作降低特征維數(shù)。(3)圖像分類:將全局特征以向量形式送入邏輯回歸(Logistic Regression, LR)模型,進(jìn)行基于交叉驗(yàn)證的有監(jiān)督訓(xùn)練和測(cè)試,從而對(duì)基于無(wú)監(jiān)督特征學(xué)習(xí)的抽象圖像情緒性分類性能進(jìn)行評(píng)價(jià)。
圖1 基于卷積自動(dòng)編碼器的抽象圖像情緒性分類系統(tǒng)框架
3.1基于稀疏自動(dòng)編碼器的自學(xué)習(xí)
自動(dòng)編碼器通過(guò)將目標(biāo)輸出設(shè)置得和輸入一樣來(lái)進(jìn)行數(shù)據(jù)自我復(fù)原訓(xùn)練,能夠從無(wú)標(biāo)記數(shù)據(jù)中學(xué)習(xí)到代表性特征[23]。當(dāng)基于自動(dòng)編碼器在圖像數(shù)據(jù)上進(jìn)行無(wú)監(jiān)督學(xué)習(xí)時(shí)經(jīng)常加入白化預(yù)處理來(lái)強(qiáng)化圖像的邊緣信息,本文采用了一種典型的零相位成分分析(Zero-phase Component Analysis, ZCA)白化[12]。假設(shè)從源領(lǐng)域采集到的第個(gè)圖像塊尺寸為×,將包含3通道的彩色圖像塊數(shù)據(jù)按照R, G和B分量的順序排列,可以得到維的向量(i)。進(jìn)行白化處理后的輸入向量為white(i),這里white代表×大小的白化變換系數(shù)矩陣。而自動(dòng)編碼器的維隱層響應(yīng)向量為[12,24]
其中,SAE是連接SAE隱層和白化后數(shù)據(jù)的輸入權(quán)重,1代表輸入偏置,是激活函數(shù)。而=SAEwhite是包含白化處理的整體權(quán)重,它代表隱層與原始數(shù)據(jù)間的關(guān)系。經(jīng)過(guò)白化處理后,輸入數(shù)值會(huì)超出[0,1]的范圍,所以進(jìn)行數(shù)據(jù)重建時(shí)不需要采用激活函數(shù)對(duì)自動(dòng)編碼器的輸出進(jìn)行映射[12]:
(2)
自動(dòng)編碼器神經(jīng)網(wǎng)絡(luò)通過(guò)反向傳播訓(xùn)練來(lái)尋找代價(jià)函數(shù)的最小值。為了防止過(guò)擬合和保持隱層響應(yīng)的稀疏性,需要對(duì)代價(jià)函數(shù)加入權(quán)重衰減項(xiàng)和稀疏性懲罰項(xiàng),整體代價(jià)函數(shù)為[16,24]
對(duì)自動(dòng)編碼器進(jìn)行訓(xùn)練后得到的輸入權(quán)重SAE就是尋找到的數(shù)據(jù)得以自我復(fù)原的關(guān)鍵參數(shù),它是對(duì)應(yīng)圖像子塊不同位置的權(quán)重系數(shù),根據(jù)該權(quán)重系數(shù)在某圖像塊上得到的隱層響應(yīng)就是該圖像塊的特征?;谧詣?dòng)編碼器進(jìn)行跨領(lǐng)域特征學(xué)習(xí)時(shí),假設(shè)從源領(lǐng)域所學(xué)習(xí)到的包含白化處理的整體權(quán)重為S,輸入偏置為1S,目標(biāo)領(lǐng)域的某圖像塊為T,則該圖像塊對(duì)應(yīng)的特征響應(yīng)為
3.2 自學(xué)習(xí)特征權(quán)重可視化和基于平均梯度的特征權(quán)重排序
對(duì)基于自動(dòng)編碼器的無(wú)監(jiān)督特征學(xué)習(xí)效果進(jìn)行比較時(shí),除了以分類性能為依據(jù),還可以通過(guò)權(quán)重可視化從視覺上進(jìn)行觀察。當(dāng)輸入向量維數(shù)為m=,隱層單元數(shù)為s時(shí),是大小為s×m的矩陣。而的大小為m×m,所以連接隱層與原始數(shù)據(jù)的整體權(quán)重也是大小為s×m的矩陣。包含s個(gè)維的特征權(quán)重向量,對(duì)應(yīng)著維原始輸入與s個(gè)隱層響應(yīng)的映射關(guān)系:
其中,w代表第個(gè)隱層單元與某輸入圖像塊向量形式的第個(gè)元素之間的系數(shù),代表第個(gè)隱層單元的所有系數(shù)組成的向量,即第個(gè)特征對(duì)應(yīng)的權(quán)重向量。將每個(gè)維的特征權(quán)重向量拆分成R, G和B分量:R,G和B,還原為×大小矩陣并進(jìn)行歸一化處理后當(dāng)作彩色圖像顯示就可以對(duì)學(xué)習(xí)結(jié)果進(jìn)行直觀表示[16]。
SAE學(xué)習(xí)到的特征權(quán)重會(huì)呈現(xiàn)邊緣性,邊緣性的強(qiáng)弱能反映特征學(xué)習(xí)效果。但是在訓(xùn)練過(guò)程中權(quán)重系數(shù)是被隨機(jī)初始化的,在不同的實(shí)驗(yàn)中學(xué)習(xí)到的權(quán)重本身沒有順序規(guī)律,從直觀上對(duì)不同特征組進(jìn)行評(píng)價(jià)比較困難。因此本文提出了一種在無(wú)監(jiān)督特征學(xué)習(xí)后按照一組權(quán)重的邊緣性強(qiáng)弱對(duì)其進(jìn)行統(tǒng)一排序的方法。
平均梯度本身是用來(lái)衡量圖像相對(duì)清晰度的一種參數(shù),它反映了圖像在多方向邊界附近的灰度變化速率。以×大小的灰度圖像為例,其平均梯度的定義為[22]
(7)
(9)
并從R, G和B這3個(gè)通道的平均梯度中選擇最小值作為對(duì)自學(xué)習(xí)權(quán)重進(jìn)行排序顯示的指標(biāo):
排序可以將特征權(quán)重按照邊緣性強(qiáng)弱進(jìn)行大致劃分,從而便于對(duì)不同特征組進(jìn)行直觀比較。
圖2給出了后續(xù)進(jìn)行全局特征提取和抽象圖像分類的網(wǎng)絡(luò)模型,首先基于CNN將局部特征在抽象圖像上進(jìn)行逐點(diǎn)卷積來(lái)獲得整幅圖像上的全局特征響應(yīng),然后進(jìn)行池化操作并將響應(yīng)結(jié)果組合成向量,送入LR模型進(jìn)行分類訓(xùn)練和測(cè)試。為了提高運(yùn)算效率,本文在卷積過(guò)程中采用一種先在3個(gè)色彩通道進(jìn)行并行2維卷積,然后再將結(jié)果求和的方式[16]。先將通過(guò)SAE學(xué)習(xí)到的每個(gè)局部特征權(quán)重按3個(gè)色彩通道進(jìn)行拆分,分別將其與×大小圖像的R, G和B分量進(jìn)行逐點(diǎn)卷積得到3個(gè)大小的卷積后特征,并對(duì)分通道卷積后的3個(gè)特征圖案求和得到全局特征。為了降低維數(shù)和避免過(guò)擬合,卷積神經(jīng)網(wǎng)絡(luò)采用池化操作來(lái)對(duì)前一層網(wǎng)絡(luò)所得特征進(jìn)行聚合采樣,本文在進(jìn)行白化處理的前提下選擇平均池化方式。
現(xiàn)有用于情緒語(yǔ)義研究的抽象圖像數(shù)據(jù)集主要有兩個(gè):Abstract100[6,7]和Abstract280[3]。Abstract 100包含100張抽象圖像,它的情緒語(yǔ)義標(biāo)記結(jié)果是基于3維情緒模型:從喚醒度(冷靜到興奮)、愉悅度(不愉悅到愉悅)和優(yōu)勢(shì)度(被支配到支配)3個(gè)方面分析情緒,其每幅圖像都經(jīng)志愿者從愉悅度和喚醒度兩方面進(jìn)行主觀評(píng)分。而Abstract280包含280張抽象圖像,其標(biāo)記結(jié)果包含8種情緒:娛樂、敬畏、滿足和興奮4種正面情緒以及憤怒、反感、恐懼和傷心4種負(fù)面情緒。由于該數(shù)據(jù)庫(kù)樣本分布不均勻,本文在訓(xùn)練測(cè)試中基于正面和負(fù)面情緒概念進(jìn)行二元分類。
本文在STL-10數(shù)據(jù)庫(kù)上進(jìn)行無(wú)監(jiān)督局部特征學(xué)習(xí),然后在抽象圖像數(shù)據(jù)庫(kù)上進(jìn)行全局特征提取和分類。而且按同樣參數(shù)分別在小型數(shù)據(jù)庫(kù)Abstract100和Abstract280上進(jìn)行了非跨領(lǐng)域的圖像塊采樣和無(wú)監(jiān)督特征學(xué)習(xí),并在對(duì)應(yīng)數(shù)據(jù)庫(kù)上進(jìn)行分類實(shí)驗(yàn)。本文還提取了一組底層視覺特征進(jìn)行情緒分類,選用特征包括[1]:從RGB色彩通道中提取的顏色直方圖, GIST(Generalized Search Trees)描述子,適用于紋理檢測(cè)的LBP(Local Binary Pattern)描述子和使用1000個(gè)單詞字典的BOW (Bag Of Words)量化描述子。除此之外,本文還利用MatConvNet[25]工具箱基于文獻(xiàn)[11]中用于對(duì)大量具體圖像進(jìn)行情緒分析的深度CNN模型開展分類實(shí)驗(yàn)。在所有實(shí)驗(yàn)中采用5次交叉驗(yàn)證,將樣本按名稱順序分為5個(gè)子集。
圖2 基于卷積神經(jīng)網(wǎng)絡(luò)的全局特征提取和圖像分類模型示意圖
5.1無(wú)監(jiān)督特征學(xué)習(xí)
本文基于SAE進(jìn)行跨領(lǐng)域無(wú)監(jiān)督特征學(xué)習(xí)所用的STL-10數(shù)據(jù)庫(kù)包含了100000個(gè)內(nèi)容涵蓋多種交通工具和動(dòng)物的無(wú)標(biāo)記圖像[21],如圖3所示,這些樣本和后續(xù)用于情緒分類的抽象圖像沒有關(guān)聯(lián)。本文以完全隨機(jī)方式分別從Abstract100, Abstract 280和 STL-10數(shù)據(jù)庫(kù)上采集了100, 1000, 10000和100000個(gè)8×8大小的圖像塊進(jìn)行特征學(xué)習(xí),并且在最終的分類實(shí)驗(yàn)中對(duì)每種情況都進(jìn)行5次重復(fù)以測(cè)試隨機(jī)采樣時(shí)樣本數(shù)量對(duì)整體性能的影響。在白化預(yù)處理階段正則化常數(shù)設(shè)為0.1,采用的SAE包含400個(gè)隱層單元(對(duì)應(yīng)400個(gè)自學(xué)習(xí)特征),訓(xùn)練參數(shù)設(shè)置為,,。
圖4給出了在一次實(shí)驗(yàn)中通過(guò)SAE從各個(gè)數(shù)據(jù)庫(kù)上所學(xué)習(xí)到的特征權(quán)重的可視化表示(限于篇幅未給出樣本數(shù)為100的結(jié)果),所有特征權(quán)重均按照mAG值進(jìn)行升序排列??梢钥闯?,當(dāng)訓(xùn)練樣本過(guò)少時(shí)(比如1000)從3個(gè)數(shù)據(jù)庫(kù)上所學(xué)特征權(quán)重均較為模糊。隨著訓(xùn)練樣本的增加,基于STL-10數(shù)據(jù)庫(kù)的特征學(xué)習(xí)效果有顯著提高,在訓(xùn)練樣本為100000時(shí)從STL-10數(shù)據(jù)庫(kù)上能學(xué)習(xí)到更多邊緣較為清晰的特征權(quán)重。而在Abstract100和Abstract280上的學(xué)習(xí)效果雖有提升卻并不顯著,這說(shuō)明從小量樣本上采集大量數(shù)據(jù)進(jìn)行無(wú)監(jiān)督特征學(xué)習(xí)時(shí)效果較差。另外,在按照mAG值對(duì)權(quán)重進(jìn)行升序排列后(mAG值小的在上),特征權(quán)重中的下半部分邊緣性更為明顯。這從直觀上說(shuō)明,mAG值能夠反映自學(xué)習(xí)權(quán)重的邊緣性能,按其進(jìn)行排序能夠達(dá)到按邊緣性強(qiáng)弱對(duì)特征權(quán)重進(jìn)行大致劃分的目的,進(jìn)行排序后可以更直觀地觀察和對(duì)比學(xué)習(xí)效果。
圖3 Abstract100, Abstract280和 STL-10數(shù)據(jù)庫(kù)上的樣例圖像
圖4基于稀疏自動(dòng)編碼器在各數(shù)據(jù)庫(kù)上所學(xué)特征權(quán)重的可視化表示
5.2 Abstract100數(shù)據(jù)庫(kù)上的分類實(shí)驗(yàn)
本文從該數(shù)據(jù)庫(kù)公布的評(píng)價(jià)結(jié)果中選取對(duì)每幅圖像都進(jìn)行評(píng)價(jià)的21名志愿者所給出分?jǐn)?shù),對(duì)其求平均并以0為閾值進(jìn)行二值化,以此作為二元標(biāo)記值。喚醒度標(biāo)記表示圖像是否令人興奮,愉悅度標(biāo)記表示圖像是否使人愉悅。為了測(cè)試特征學(xué)習(xí)過(guò)程中的隨機(jī)采樣對(duì)算法性能的影響,首先對(duì)采集不同數(shù)量樣本時(shí)非跨領(lǐng)學(xué)習(xí)和跨領(lǐng)域?qū)W習(xí)對(duì)應(yīng)分類結(jié)果進(jìn)行測(cè)試。非跨領(lǐng)域方法采用從Abstract100數(shù)據(jù)庫(kù)上學(xué)習(xí)到的特征,而跨領(lǐng)域方法采用從STL-10數(shù)據(jù)庫(kù)上學(xué)習(xí)到的特征。實(shí)驗(yàn)時(shí)統(tǒng)一將樣本縮放為的大小,卷積網(wǎng)絡(luò)的池化區(qū)域尺寸設(shè)置為。圖5以愉悅度實(shí)驗(yàn)為例,給出了在LR模型訓(xùn)練迭代次數(shù)為40時(shí),重復(fù)5次采集各種數(shù)量樣本進(jìn)行特征學(xué)習(xí)所得交叉驗(yàn)證平均分類準(zhǔn)確率(accuracy)結(jié)果??梢园l(fā)現(xiàn):用于特征學(xué)習(xí)的訓(xùn)練樣本過(guò)少時(shí),同樣參數(shù)下分類性能受隨機(jī)采樣影響呈現(xiàn)波動(dòng),而當(dāng)訓(xùn)練樣本數(shù)量為100000時(shí),整體性能基本穩(wěn)定。所以接下來(lái)重點(diǎn)對(duì)基于底層視覺特征的方法以及采集100000樣本時(shí)非跨領(lǐng)學(xué)習(xí)和跨領(lǐng)域?qū)W習(xí)方法的分類結(jié)果進(jìn)行對(duì)比。實(shí)驗(yàn)進(jìn)行了多個(gè)迭代次數(shù)條件下的測(cè)試,最后通過(guò)5次交叉驗(yàn)證下的精確度(precision),召回率(recall)和準(zhǔn)確率(accuracy) 3個(gè)指標(biāo)的平均結(jié)果來(lái)全面評(píng)價(jià)分類性能。當(dāng)?shù)螖?shù)超過(guò)100之后各項(xiàng)性能沒有明顯提升,因此以10為間隔從10到100選取測(cè)試迭代次數(shù)。
圖6和圖7給出了在一次實(shí)驗(yàn)中,基于各種方法進(jìn)行分類時(shí)平均性能隨迭代次數(shù)變化的曲線。從圖6可以看出,在喚醒度分類實(shí)驗(yàn)中,跨領(lǐng)域?qū)W習(xí)方法除了在召回率指標(biāo)上遜色于底層視覺特征方法之外,它在其它兩項(xiàng)指標(biāo)上均取得了最好性能。而非跨領(lǐng)域?qū)W習(xí)僅在精確度指標(biāo)上明顯優(yōu)于采用底層視覺特征的方法。從圖7給出的愉悅度分類實(shí)驗(yàn)結(jié)果可以看出,不管是否采用跨領(lǐng)域?qū)W習(xí),基于無(wú)監(jiān)督特征學(xué)習(xí)的方法在各項(xiàng)指標(biāo)上均表現(xiàn)出比采用底層視覺特征的方法更好的性能,而且跨領(lǐng)域?qū)W習(xí)可以進(jìn)一步顯著提高各項(xiàng)性能。這說(shuō)明采用無(wú)監(jiān)督學(xué)習(xí)特征對(duì)圖像進(jìn)行情緒性分類是可行的,而且在樣本有限時(shí)進(jìn)行跨領(lǐng)域?qū)W習(xí)更加有效。相比于采用底層視覺特征的方法,基于卷積自動(dòng)編碼器的方法在喚醒度指標(biāo)上的性能提升不如愉悅度明顯。喚醒度描述的是情緒激活程度,而愉悅度描述的是情緒正負(fù)屬性,這說(shuō)明基于卷積自動(dòng)編碼器模擬人眼對(duì)圖像進(jìn)行掃描感知的方法對(duì)圖像所激發(fā)的情緒屬性信息比強(qiáng)弱程度更為敏感。
除此之外,本文還基于文獻(xiàn)[11]建立的深度CNN模型進(jìn)行實(shí)驗(yàn)。學(xué)習(xí)率設(shè)為0.01,最大迭代次數(shù)設(shè)為20,并取迭代次數(shù)遞增過(guò)程中進(jìn)行交叉驗(yàn)證的最佳結(jié)果。由于文獻(xiàn)[6]僅對(duì)準(zhǔn)確率指標(biāo)進(jìn)行了測(cè)試,所以表1給出了采用各種方法在準(zhǔn)確率指標(biāo)上得到的最好結(jié)果進(jìn)行對(duì)比。其中的非跨領(lǐng)域和跨領(lǐng)域?qū)W習(xí)方法對(duì)應(yīng)結(jié)果是基于100000樣本進(jìn)行特征學(xué)習(xí)并將實(shí)驗(yàn)重復(fù)5次所得的平均值??梢园l(fā)現(xiàn):(1)采用文獻(xiàn)[11]中的深度CNN模型對(duì)小樣本量數(shù)據(jù)進(jìn)行訓(xùn)練時(shí)效果并不理想,這說(shuō)明基于有監(jiān)督訓(xùn)練的深度學(xué)習(xí)模型并不適用于小樣本量的應(yīng)用場(chǎng)合;(2)基于大量訓(xùn)練樣本的跨領(lǐng)域?qū)W習(xí)方法在總體上表現(xiàn)出了更優(yōu)異的性能:與文獻(xiàn)[6]相比喚醒度分類的平均準(zhǔn)確率提高了14.9%,而且愉悅度分類的平均準(zhǔn)確率也提高了4.1%。雖然本文采用傳統(tǒng)特征的方法和非跨領(lǐng)域?qū)W習(xí)方法相比文獻(xiàn)[6]也提高了喚醒度分類性能,卻使愉悅度分類性能有所下降。
圖5 重復(fù)采集樣本進(jìn)行特征學(xué)習(xí)在Abstract100上得到的愉悅度分類準(zhǔn)確率
圖6 采用各種方法在Abstract100上進(jìn)行喚醒度分類時(shí)各種指標(biāo)平均性能隨迭代次數(shù)變化曲線
圖7 采用各種方法在Abstract100上進(jìn)行愉悅度分類時(shí)各種指標(biāo)平均性能隨迭代次數(shù)變化曲線
表1采用各種方法在Abstract100上進(jìn)行情緒分類所得到的最高準(zhǔn)確率
方法文獻(xiàn)[6]文獻(xiàn)[11]模型底層視特征非跨領(lǐng)域?qū)W習(xí)跨領(lǐng)域?qū)W習(xí) 喚醒度0.670.720.760.760.77 愉悅度0.730.600.670.700.76
5.3 Abstract280數(shù)據(jù)庫(kù)上的分類實(shí)驗(yàn)
在Abstract280數(shù)據(jù)庫(kù)上的實(shí)驗(yàn)中,本文沿用文獻(xiàn)[3]的做法只保留了228個(gè)意見明確的樣本。由于該數(shù)據(jù)庫(kù)的樣本數(shù)量有限且分布很不均勻(憤怒情緒對(duì)應(yīng)樣本只有3個(gè)),所以開展多分類訓(xùn)練并不具說(shuō)服力。因此本文沒有像文獻(xiàn)[3]一樣進(jìn)行一對(duì)多分類,而是按正面情緒和負(fù)面情緒將所有樣本分成兩類,基于5次交叉驗(yàn)證進(jìn)行二分類實(shí)驗(yàn),其它實(shí)驗(yàn)參數(shù)和測(cè)試指標(biāo)和5.2節(jié)相同。
圖8 采用各種方法在Abstract280上進(jìn)行情緒分類時(shí)各種指標(biāo)平均性能隨迭代次數(shù)變化曲線
實(shí)驗(yàn)首先對(duì)基于底層視覺特征的方法以及采集100000樣本時(shí)的非跨領(lǐng)學(xué)習(xí)和跨領(lǐng)域?qū)W習(xí)方法進(jìn)行性能對(duì)比。當(dāng)?shù)螖?shù)超過(guò)200之后各項(xiàng)性能沒有提升,因此以10為間隔從10到200選取迭代次數(shù)。圖8給出了一次實(shí)驗(yàn)中基于各種方法進(jìn)行分類時(shí)各種指標(biāo)的平均性能隨迭代次數(shù)變化的曲線。跨領(lǐng)域?qū)W習(xí)方法除了在召回率指標(biāo)上略遜色于基于底層視覺特征的方法外,它在其它兩項(xiàng)指標(biāo)上均明顯優(yōu)于其它方法,而非跨領(lǐng)域?qū)W習(xí)僅在精確度指標(biāo)上獲得比采用底層視覺特征的方法更好的性能。這進(jìn)一步說(shuō)明基于無(wú)監(jiān)督學(xué)習(xí)特征對(duì)圖像進(jìn)行情緒性分類的可行性,而且跨領(lǐng)域?qū)W習(xí)能夠解決小樣本量數(shù)據(jù)庫(kù)的樣本有限問題。
本文也基于文獻(xiàn)[11]的深度CNN模型在Abstract280數(shù)據(jù)庫(kù)上進(jìn)行了實(shí)驗(yàn),表2給出了采用各種方法在各項(xiàng)指標(biāo)上得到的最優(yōu)結(jié)果。其中的非跨領(lǐng)域和跨領(lǐng)域?qū)W習(xí)方法對(duì)應(yīng)結(jié)果也是基于100000樣本進(jìn)行特征學(xué)習(xí)并將實(shí)驗(yàn)重復(fù)5次所得的平均值??梢姡?1)采用文獻(xiàn)[11]中的深度CNN模型對(duì)Abstract280數(shù)據(jù)庫(kù)進(jìn)行分類的整體效果比采用底層視覺特征的方法差,召回率最大達(dá)到1是因?yàn)樵谀承┯?xùn)練迭代次數(shù)條件下5次交叉驗(yàn)證中的所有測(cè)試樣本均被預(yù)測(cè)為正面樣本;(2)除了召回率指標(biāo)外,基于100000訓(xùn)練樣本的跨領(lǐng)域特征學(xué)習(xí)方法在總體上表現(xiàn)出了最優(yōu)性能。圖9給出了在一次實(shí)驗(yàn)中采用跨領(lǐng)域?qū)W習(xí)方法時(shí)情緒預(yù)測(cè)值最高和最低的5幅圖像。預(yù)測(cè)錯(cuò)誤的圖像用黑框標(biāo)出,而且在每幅圖像下方給出了其原有基于8種情緒模型的標(biāo)記信息??梢钥闯觯钅芰钊水a(chǎn)生正面情緒的5幅圖像對(duì)應(yīng)的原情緒標(biāo)記主要是滿足、敬畏和娛樂,而最能令人產(chǎn)生負(fù)面情緒的5幅圖像對(duì)應(yīng)的原情緒標(biāo)記主要是恐懼和傷心。這進(jìn)一步說(shuō)明自學(xué)習(xí)特征可以和底層視覺特征一樣被用于圖像情緒語(yǔ)義辨識(shí)。
表2采用各種方法在Abstract280上進(jìn)行情緒分類時(shí)各項(xiàng)指標(biāo)上的最優(yōu)結(jié)果
指標(biāo)文獻(xiàn)[11]模型底層視覺特征非跨領(lǐng)域?qū)W習(xí)跨領(lǐng)域?qū)W習(xí) 精確度0.630.720.780.80 召回率1.000.810.730.81 準(zhǔn)確率0.610.690.710.76
本文基于稀疏自動(dòng)編碼器以“知識(shí)遷移”方式從大量無(wú)標(biāo)記圖像中獲取自學(xué)習(xí)特征,并結(jié)合卷積神經(jīng)網(wǎng)絡(luò)將其應(yīng)用于高階情緒語(yǔ)義層的抽象圖像分類。為了從直觀上對(duì)不同領(lǐng)域上的無(wú)監(jiān)督特征學(xué)習(xí)進(jìn)行比較,提出一種基于平均梯度對(duì)自學(xué)習(xí)特征權(quán)重進(jìn)行排列顯示的方法。實(shí)驗(yàn)結(jié)果表明基于稀疏自動(dòng)編碼器的無(wú)監(jiān)督學(xué)習(xí)特征不僅能被用于認(rèn)知層面的圖像識(shí)別還能夠被用于情緒語(yǔ)義層面的圖像辨識(shí)。而且當(dāng)目標(biāo)樣本數(shù)量較少時(shí),以跨領(lǐng)域的方式從與測(cè)試集合完全無(wú)關(guān)的樣本中學(xué)習(xí)到的特征能取得比傳統(tǒng)底層視覺特征更好的效果。這些結(jié)論也能給深度學(xué)習(xí)特別是無(wú)監(jiān)督特征學(xué)習(xí)技術(shù)在其它有限樣本集合中的應(yīng)用帶來(lái)啟發(fā)。
[1] BORTH D, JI R, CHEN T,. Large-scale visual sentiment ontology and detectors using adjective noun pairs[C]. 21st ACM International Conference on Multimedia, Barcelona, Spain, 2013: 223-232. doi: 10.1145/2502081.2502282.
[2] 李祖賀, 樊養(yǎng)余. 基于視覺的情感分析研究綜述[J]. 計(jì)算機(jī)應(yīng)用研究, 2015, 32(12): 3521-3526.doi: 10.3969/j.issn.1001- 3695.2015.12.001.
LI Zuhe and FAN Yangyu.Survey on visual sentiment analysis[J]., 2015, 32(12): 3521-3526.doi: 10.3969/j.issn.1001-3695.2015.12.001.
[3] MACHAJDIK J and HANBURY A. Affective image classification using features inspired by psychology and art theory[C]. 18th ACM International Conference on Multimedia, Firenze, Italy, 2010: 83-92. doi:10.1145/ 1873951.1873965.
[4] ZHANG H, G?NEN M, YANG Z,. Understanding emotional impact of images using Bayesian multiple kernel learning[J]., 2015, 165: 3-13.doi: 10.1016/ j.neucom.2014.10.093.
[5] ZHAO S, GAO Y, JIANG X,. Exploring principles-of-art features for image emotion recognition[C]. 22nd ACM International Conference on Multimedia, Orlando, FL, USA, 2014: 47-56.doi: 10.1145/2647868.2654930.
[6] ZHANG H, YANG Z, G?NEN M,. Affective abstract image classification and retrieval using multiple kernel learning[C]. 20th International Conference on Neural Information Processing, Daegu, South Korea, 2013: 166-175.doi: 10.1007/978-3-642-42051-1_22.
[7] ZHANG H, AUGILIUS E, HONKELA T,. Analyzing emotional semantics of abstract art using low-level image features[C]. 10th International Symposium on Intelligent Data Analysis, Porto, Portugal, 2011: 413-423.doi: 10.1007/ 978-3-642-24800-9_38.
[8] LECUN Y, BENGIO Y, and HINTON G. Deep learning[J]., 2015, 521(7553): 436-444.doi: 10.1038/nature14539.
[9] 李寰宇, 畢篤彥, 查宇飛, 等. 一種易于初始化的類卷積神經(jīng)網(wǎng)絡(luò)視覺跟蹤算法[J]. 電子與信息學(xué)報(bào), 2016, 38(1): 1-7.doi: 10.11999/JEIT150600.
LI Huanyu, BI Duyan, ZHA Yufei,. An easily initialized visual tracking algorithm based on similar structure for convolutional neural network[J].&, 2016, 38(1): 1-7.doi: 10.11999/ JEIT150600.
[10] CHEN T, BORTH D, DARRELL T,. Deepsentibank: Visual sentiment concept classification with deep convolutional neural networks[OL]. http://arxiv.org/abs/ 1410.8586v1, 2014.
[11] YOU Q, LUO J, JIN H,. Robust image sentiment analysis using progressively trained and domain transferred deep networks[C]. 29th AAAI Conference on Artificial Intelligence (AAAI), Austin, TX, USA, 2015: 381-388.
[12] 李祖賀, 樊養(yǎng)余, 王鳳琴. YUV空間中基于稀疏自動(dòng)編碼器的無(wú)監(jiān)督特征學(xué)習(xí)[J]. 電子與信息學(xué)報(bào), 2016, 38(1): 29-37.doi: 10.11999/JEIT150557.
LI Zuhe, FAN Yangyu, and WANG Fengqin. Unsupervised feature learning with sparse autoencoders in YUV space[J].&, 2016, 38(1): 29-37.doi: 10.11999/JEIT150557.
[13] ZHANG F, DU B, and ZHANG L. Saliency-guided unsupervised feature learning for scene classification[J]., 2015, 53(4): 2175-2184.doi: 10.1109/TGRS.2014.2357078.
[14] 楊興明, 吳克偉, 孫永宣, 等. 可遷移測(cè)度準(zhǔn)則下的協(xié)變量偏移修正多源集成方法[J]. 電子與信息學(xué)報(bào), 2015, 37(12): 2913-2920.doi: 10.11999/JEIT150323.
YANG Xingming, WU Kewei, SUN Yongxuan,. Modified covariate-shift multi-source ensemble method in transferability metric[J].&, 2015, 37(12): 2913-2920.doi: 10.11999/JEIT150323.
[15] 莊福振, 羅平, 何清, 等. 遷移學(xué)習(xí)研究進(jìn)展[J]. 軟件學(xué)報(bào), 2015, 26(1): 26-39.doi: 10.13328/j.cnki.jos.004631.
ZHUANG Fuzhen, LUO Ping, HE Qing,. Survey on transfer learning research[J]., 2015, 26(1): 26-39.doi: 10.13328/j.cnki.jos.004631.
[16] NG A Y, NGIAM J, FOO C Y,. Unsupervised feature learning and deep learning[OL]. http://deeplearning.stanford. edu/wiki/index.php, 2015.
[17] DENG J, ZHANG Z, EYBEN F,. Autoencoder-based unsupervised domain adaptation for speech emotion recognition[J]., 2014, 21(9): 1068-1072.doi: 10.1109/LSP.2014.2324759.
[18] YANG X, ZHANG T, and XU C. Cross-domain feature learning in multimedia [J]., 2015, 17(1): 64-78.doi: 10.1109/TMM.2014.2375793.
[19] ZHOU J T, PAN S J, TSANG I W,. Hybrid heterogeneous transfer learning through deep learning[C].28th AAAI Conference on Artificial Intelligence (AAAI), Quebec City, QC, Canada, 2014: 2213-2219.
[20] KOUNO K, SHINNOU H, SASAKI M,. Unsupervised domain adaptation for word sense disambiguation using stacked denoising autoencoder[C].29th Pacific Asia Conference on Language, Information and Computation (PACLIC 29),Shanghai, China, 2015: 224-231.
[21] COATES A, LEE H, and NG A Y. An analysis of single-layer networks in unsupervised feature learning[C]. 14th International Conference on Artificial Intelligence and Statistics, Ft. Lauderdale, FL, USA, 2011: 215-223.
[22] WANG R, DU L, YU Z,. Infrared and visible images fusion using compressed sensing based on average gradient[C]. 2013 IEEE International Conference on Multimedia and Expo Workshops (ICMEW), San Jose, CA , USA, 2013: 1-4.doi: 10.1109/ICMEW.2013.6618257.
[23] L?NGKVIST M and LOUTFI A. Learning feature representations with a cost-relevant sparse autoencoder[J]., 2015, 25(1): 1-11.doi: 10.1142/S0129065714500348.
[24] LI Z, FAN Y, and LIU W. The effect of whitening transformation on pooling operations in convolutional autoencoders[J]., 2015, 2015(1): 1-11.doi: 10.1186/s13634-015- 0222-1.
[25] VEDALDI A and LENC K. MatConvNet: convolutional neural networks for matlab[C]. 23rd ACM International Conference on Multimedia, Brisbane, Australia, 2015: 689-692. doi: 10.1145/2733373.2807412.
樊養(yǎng)余: 男,1960年生,教授、博士生導(dǎo)師,研究方向?yàn)閳D像處理及其應(yīng)用、虛擬現(xiàn)實(shí)及可視化技術(shù).
李祖賀: 男,1983年生,講師、博士生,研究方向?yàn)橛?jì)算機(jī)視覺、機(jī)器學(xué)習(xí).
王鳳琴: 女,1980年生,副教授,博士,研究方向?yàn)閳D像處理、視頻編碼.
馬江濤: 男,1981年生,講師,博士生,研究方向?yàn)榇髷?shù)據(jù)處理與分析.
Affective Abstract Image Classification Based on Convolutional Sparse Autoencoders across Different Domains
FAN Yangyu①LI Zuhe①②WANG Fengqin②MA Jiangtao②
①(,,’710072,);②(,,450002,)
To apply unsupervised feature learning to emotional semantic analysis for images in small sample size situations, convolutional sparse autoencoder based self-taught learning for domain adaption is adopted for affective classification of a small amount of labeled abstract images. To visually compare the results of feature learning on different domains, an average gradient criterion based method is further proposed for the sorting of weights learned by sparse autoencoders. Image patches are first randomly collected from a large number of unlabeled images in the source domain and local features are learned using a sparse autoencoder. Then the weight matrices corresponding to different features are sorted according to the minimal average gradient of each matrix in three color channels. Global feature activations of labeled images in the target domain are finally obtained by a convolutional neural network including a pooling layer and sent into a logistic regression model for affective classification. Experimental results show that self-taught learning based domain adaption can provide training data for the application of unsupervised feature learning in target domains with limited samples. Sparse autoencoder based feature learning across different domains can produce better identification effect than low-level visual features in emotional semantic analysis of a limited number of abstract images.
Image classification; Image affect; Self-taught learning; Convolutional autoencoder; Domain adaption
TP391.4
A
1009-5896(2017)01-0167-09
10.11999/JEIT160241
2016-03-17;改回日期:2016-07-22;
2016-10-09
李祖賀 zuheli@126.com
陜西省科技統(tǒng)籌創(chuàng)新工程重點(diǎn)實(shí)驗(yàn)室項(xiàng)目(2013 SZS15-K02)
The Science and Technology Innovation Engineering Program for Shaanxi Key Laboratories (2013SZS15- K02)