李博,郭琛,任慧
(1.中國(guó)傳媒大學(xué) 理工學(xué)部,北京 100024;2.視聽(tīng)技術(shù)與智能控制系統(tǒng)文化部重點(diǎn)實(shí)驗(yàn)室,北京 100024)
以往對(duì)圖像內(nèi)容分析的工作主要集中在理解圖像的認(rèn)知層,即圖像中描述的物體或者場(chǎng)景的識(shí)別。然而,隨著社交網(wǎng)絡(luò)的迅速發(fā)展以及公眾對(duì)攝影技術(shù)的廣泛使用,對(duì)視覺(jué)內(nèi)容情感表達(dá)的強(qiáng)烈需求,使得對(duì)圖像最高語(yǔ)義層——情感層的分析變得越來(lái)越迫切。例如一位攝影雜志的記者為一篇標(biāo)題含有關(guān)鍵詞“蕭條”的文章尋找配圖,沒(méi)有特定的物體去尋找,但是在圖像中需要含有“悲傷”的氛圍。
心理學(xué)領(lǐng)域主要有2種方式來(lái)描述情感:類別情感狀態(tài)(CES,categorical emotion states)和維度情感空間(DES,dimensional emotion space)[1]。對(duì)于CES,如Mikels 通過(guò)嚴(yán)格的心理學(xué)實(shí)驗(yàn),把情感分為8 類,即表示積極情感的娛樂(lè)、敬畏、滿意、激動(dòng),表示消極情感的生氣、厭惡、害怕、悲傷。對(duì)于DES,將情感描述在特定的情感空間(如愉悅度(Pleasantness)—激活度(Arousal)—優(yōu)勢(shì)度(Dominance))中,該空間的情感描述能力是無(wú)限的,能夠涵蓋所有的情感狀態(tài)。在大多數(shù)的圖像情感分類任務(wù)中,主要是在CES模型中找到圖像屬于某一種情感的確定分類。然而由于觀察者對(duì)于圖像的情感感受的主觀性和模糊性,預(yù)測(cè)圖像的情感分布相比將圖像分類于某一種特定的情感更有意義。
本文對(duì)抽象畫(huà)圖像的情感分布情況進(jìn)行研究。如圖1所示圖像情感分布預(yù)測(cè)與圖像情感分類的不同:在情感分類中(A)圖像被分類為害怕,(B)圖像被分類為滿意,(C)圖像在分類中產(chǎn)生不同情感的歧義性,無(wú)法被確定的分類,在右邊的情感分布直方圖中表示了圖像在8種情感上的分布情況。
Abstract數(shù)據(jù)集由Machajdik創(chuàng)建,其中包含了280張抽象繪畫(huà)[2],這些繪畫(huà)僅包含顏色和紋理,沒(méi)有特定識(shí)別的物體,更適用于情感分布預(yù)測(cè)任務(wù)。該數(shù)據(jù)集由230人對(duì)280張圖像表達(dá)情感感受并進(jìn)行情感標(biāo)記,平均每幅圖像由14人進(jìn)行標(biāo)記,這8種情感類別中票數(shù)最多的類別作為最終的情感類別。由于情感的模糊性,一些類別的票數(shù)接近或相同,執(zhí)行分類任務(wù)中具有歧義性。因此將圖像每種情感的票數(shù)比值作為概率分布,如圖1所示的圖像及對(duì)應(yīng)的情感概率分布。
(A)
(B)
(C)圖1 圖像情感分布示例
由于抽象畫(huà)僅包含顏色和紋理,不是通過(guò)特定物體來(lái)產(chǎn)生情感的,因此提取的特征是基于藝術(shù)學(xué)理論的情感特征。
2.2.1 顏色直方圖
藝術(shù)家通過(guò)顏色來(lái)表達(dá)或引發(fā)觀察者不同的情感,提取顏色特征中的顏色直方圖是常用的有效方法[3]。顏色直方圖空間H的定義為:
(1)
其中h(Lk)表示第k種色彩的頻數(shù)。兩幅圖像顏色直方圖的相似性采用歐式距離來(lái)度量:
D(Hs,Hd)=[(Hs-Hd)T(Hs-Hd)]1/2
(2)
2.2.2 Itten對(duì)比
Itten成功使用了色彩組合的策略,定義了7種對(duì)比屬性,Machajdik將圖像的亮暗對(duì)比、飽和度對(duì)比、擴(kuò)展度對(duì)比、互補(bǔ)對(duì)比、色調(diào)對(duì)比、冷暖對(duì)比、同時(shí)對(duì)比等7種對(duì)比屬性作為藝術(shù)學(xué)理論的情感特征[2]。在Wang-Weining相關(guān)工作基礎(chǔ)上[4],總結(jié)了對(duì)比屬性的數(shù)學(xué)表達(dá)。
(3)
(4)
(5)
(6)
(7)
于是得到一幅圖像R1,R2…RN每小塊的1*5維向量,對(duì)于整幅圖像的亮暗對(duì)比定義為:
i=1,..5,Rn為分割塊的像素個(gè)數(shù)。
這樣得到圖像對(duì)比屬性的向量表達(dá)式作為特征,通過(guò)歐氏距離計(jì)算不同圖像的相似性。
此外通過(guò)Itten模型計(jì)算判斷圖像是否和諧,也可作為圖像情感表達(dá)的特征。計(jì)算圖像的主色度,建立圖像N種顏色的直方圖,忽略5%以下比例的顏色,選取圖像中3-4種主顏色,在Itten色相輪中連接這幾種顏色,如果構(gòu)成正多邊形,則圖像為和諧的。和諧度可用所構(gòu)成的多邊形與相同頂點(diǎn)數(shù)的正多邊形的內(nèi)角差進(jìn)行判斷[5]。
2.2.3 紋理
統(tǒng)計(jì)法分析紋理的主要思想是通過(guò)圖形中灰度級(jí)分布的隨機(jī)性來(lái)描述紋理特征。定義z為一個(gè)代表灰度級(jí)的隨機(jī)變量,L為圖像的最大灰度,Zi為灰度為i的像素?cái)?shù)目,p(Zi)表示灰度直方圖,關(guān)于z的第n階矩:
(9)
距離非常遠(yuǎn)的訓(xùn)練集對(duì)y的影響很小,考慮所有訓(xùn)練集會(huì)使運(yùn)行速度變慢,并且不相關(guān)的訓(xùn)練樣本也會(huì)誤導(dǎo)算法的分類。按距離加權(quán)的k-近鄰算法是一種非常有效的歸納推理方法,距離越近的樣本權(quán)重越大[6]。它對(duì)訓(xùn)練數(shù)據(jù)中的噪聲有很好的魯棒性,而且當(dāng)給定足夠大的訓(xùn)練集合時(shí)它也非常有效。通過(guò)取k個(gè)近鄰的加權(quán)平均,可以消除孤立的噪聲樣例的影響。
加權(quán)K近鄰僅選擇K個(gè)與測(cè)試圖像最相似的訓(xùn)練圖像所對(duì)應(yīng)的基函數(shù)進(jìn)行加權(quán),對(duì)k 個(gè)最近鄰的貢獻(xiàn)加權(quán),將較大的權(quán)值賦給較近的近鄰。Pk(k=1,…K)表示與測(cè)試圖像最近的K個(gè)訓(xùn)練圖像的情感分布,將其看作基函數(shù),通過(guò)對(duì)基函數(shù)進(jìn)行距離加權(quán)求和計(jì)算測(cè)試圖像y的情感分布p,即
(10)
其中s為測(cè)試樣本與訓(xùn)練樣本的相似度
(11)
d為歐式距離,β為y與k個(gè)訓(xùn)練圖像的平均距離。
算法:加權(quán)K近鄰情感分布預(yù)測(cè)算法。
輸入:訓(xùn)練集(xn,pn),測(cè)試集y。
書(shū)須“善讀”方有益。讀書(shū)多不等于知識(shí)多,更不等于各方面能力都很強(qiáng)。一個(gè)人能力的提高,一部分得益于書(shū)籍,一部分得益于實(shí)踐,所謂“讀萬(wàn)卷書(shū),行萬(wàn)里路”,說(shuō)的也就是這個(gè)道理。如果方法不對(duì)頭,思維沒(méi)跟上,日日與書(shū)為伍又何益?以為多讀了幾本書(shū)就可以包打天下,成為“萬(wàn)能之士”,那可真是冤枉了書(shū)籍。那種以為讀了幾本書(shū)就必須達(dá)到某種效果,萬(wàn)一不如意就遷怒于書(shū)籍的人,我看還不如別去讀書(shū)——書(shū)可擔(dān)當(dāng)不起這個(gè)罪責(zé)。
輸出:測(cè)試集的情感分布p。
1)計(jì)算測(cè)試集圖像y與訓(xùn)練集中每幅圖像的距離d;
2)按照距離遞增排序,選取與y距離最近的前k幅圖像x1…xk;
Abstract是包含情感分布信息的公共數(shù)據(jù)集,含有280幅圖像,每幅圖像平均由14個(gè)人進(jìn)行標(biāo)記,可標(biāo)記為 8種情感。由于部分圖像的某些情感概率值相近或相同,在做情感分類任務(wù)時(shí)只有228張可用的有效圖像[2]。而本文是做圖像情感分布預(yù)測(cè),因此全部的280幅圖像均可用于實(shí)驗(yàn)。通過(guò)歸一化的方法來(lái)獲得數(shù)據(jù)集中圖像情感分布的真實(shí)值Pn=(Cm|x)。
采用10折交叉驗(yàn)證的方法,將數(shù)據(jù)集隨機(jī)分成10等份,每一次由其中的一個(gè)子集作為測(cè)試集,其余的子集作為訓(xùn)練集,10次后每一個(gè)子集都進(jìn)行了測(cè)試,于是得到了數(shù)據(jù)集中每幅圖像的測(cè)試值Pn(Cm|y)。
將每種情感測(cè)試值與真實(shí)值方差和的平均值σ來(lái)度量圖像情感離散概率分布的性能,定義σ為σ(Cm):
(12)
σ值越小預(yù)測(cè)的性能越好。
本文采用python3.6版本進(jìn)行實(shí)驗(yàn),測(cè)試了加權(quán)KNN中不同的K值(K=5,10,20,40,50,100,252,采用10折交叉驗(yàn)證,其中K=252 時(shí)為訓(xùn)練集全局加權(quán))對(duì)情感分布預(yù)測(cè)的影響,如圖2所示。
圖2 不同K值對(duì)情感分布預(yù)測(cè)的影響
橫坐標(biāo)表示K值,縱坐標(biāo)表示σ,從實(shí)驗(yàn)結(jié)果看出,K 值會(huì)對(duì)算法的結(jié)果產(chǎn)生比較大的影響。K值較小意味著只有與測(cè)試圖像較近的訓(xùn)練圖像才會(huì)對(duì)預(yù)測(cè)結(jié)果起作用,容易發(fā)生過(guò)擬合;如果 K 值較大,優(yōu)點(diǎn)是可以減少學(xué)習(xí)的估計(jì)誤差,缺點(diǎn)是學(xué)習(xí)的近似誤差增大,這時(shí)與測(cè)試圖像較遠(yuǎn)的訓(xùn)練圖像也會(huì)對(duì)預(yù)測(cè)起到作用,容易使得預(yù)測(cè)的結(jié)果發(fā)生錯(cuò)誤。
在本實(shí)例中最優(yōu)的K值受到情感類別的影響,考慮到平均性能,認(rèn)為K=40,50時(shí)預(yù)測(cè)效果最好,性能優(yōu)于全局加權(quán),即當(dāng)K=252時(shí)所有的訓(xùn)練圖像都用于分布預(yù)測(cè)。
本文從圖像的角度考慮情感的主觀性和模糊性的情感感知問(wèn)題,對(duì)圖像情感的離散概率分布進(jìn)行預(yù)測(cè)。采用加權(quán)K近鄰距離算法,在Abstract數(shù)據(jù)集上驗(yàn)證了其有效性。在后續(xù)工作中應(yīng)加入更豐富的圖像情感相關(guān)特征,引入最小二乘等優(yōu)化算法使求得的數(shù)據(jù)與原始數(shù)據(jù)之間的誤差平方和最小,提高預(yù)測(cè)性能。
[1]MIKELS J A,F(xiàn)REDRICKSON B L,LARKIN G R.Emotional category data on images from the International Affective Picture System[J].Behavior research methods,2005,37(4):626-630.
[2]MACHAJDIK J,HANBURY A.Affective image classification using features inspired by psychology and art theory[C].Proceedings of ACM International Conference on Multimedia.Firenze,Italy:ACM,2010,83-92.
[3]陳俊杰,李海芳、相潔、趙娟娟.圖像情感語(yǔ)義分析技術(shù)[M].北京:電子工業(yè)出版社,2011.
[4]WANG W N,YU Y L,JIANG S M.Image retrieval by emotional semantics:A study of emotional space and feature extraction[C].Proceedings of IEEE International Conference on Systems,Man and Cybernetics,Taipei,Taiwan:IEEE,2006,3534-3539.
[5]ZHAO S,GAO Y,JIANG X.Exploring Principles-of-Art Features for Image Emotion Recognition[C].Proceedings of ACM International Conference on Multimedia,Orlando,F(xiàn)L,USA:ACM,2014,47-56.
[6]周志華.機(jī)器學(xué)習(xí)[M].北京:清華大學(xué)出版社,2016.