趙婧琦,李宇蕊,杜明晶+,劉靜瑋
(1.江蘇師范大學(xué) 美術(shù)學(xué)院,江蘇 徐州 221100;2.江蘇師范大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,江蘇 徐州 221100;3.中國(guó)航天科工集團(tuán)第二研究院 七〇六所,北京 100854)
長(zhǎng)久以來(lái),針對(duì)繪畫(huà)作品情感分析的研究備受關(guān)注。隨著計(jì)算機(jī)視覺(jué)技術(shù)的日益成熟,研究人員開(kāi)始運(yùn)用計(jì)算機(jī)進(jìn)行大規(guī)模的繪畫(huà)情感分析[1]。
相對(duì)于具象畫(huà),抽象畫(huà)采用的是無(wú)邏輯的創(chuàng)作風(fēng)格和非具象的表現(xiàn)手法[2]。由于缺少具體物象的描述,因此其較難與特定的情感建立直觀聯(lián)系。這使得抽象畫(huà)的情感分析變得非常困難和復(fù)雜。該問(wèn)題引起了諸多學(xué)者的關(guān)注,涌現(xiàn)了諸多采用監(jiān)督學(xué)習(xí)方法的抽象畫(huà)情感分析的研究。監(jiān)督學(xué)習(xí)表現(xiàn)取決于數(shù)據(jù)集規(guī)模和標(biāo)注質(zhì)量,但人工標(biāo)注耗時(shí)且易受主觀影響。因此,無(wú)監(jiān)督學(xué)習(xí)在抽象畫(huà)情感分析中具有極大的應(yīng)用前景。
針對(duì)抽象畫(huà)的情感分析問(wèn)題,本文提出了一種基于三支特征表示的多核聚類方法(multiple kernel K-means using three-way features,MKKM-3WF)。首先采用本文提出的基于三支決策的顏色特征表示方法和紋理特征表示方法以及改進(jìn)的深度學(xué)習(xí)模型,分別提取抽象畫(huà)的顏色特征、紋理特征和高層語(yǔ)義特征;然后使用核函數(shù)構(gòu)建不同特征的相似度矩陣;最后采用多核聚類算法完成多特征融合與圖像的情感劃分。
本節(jié)主要探討抽象畫(huà)圖像情感分析領(lǐng)域的研究進(jìn)展。該領(lǐng)域的早期研究深受自然語(yǔ)言處理工作的啟發(fā)。例如,Yanulevskaya等[3]將文本處理中的詞袋模型引入到抽象畫(huà)圖像處理中,提出了一套視覺(jué)詞袋表征框架,并運(yùn)用支持向量機(jī)分類模型實(shí)現(xiàn)情感預(yù)測(cè)。Sartori等[4]將該算法運(yùn)用到了業(yè)余抽象畫(huà)的情感分析中,也取得了良好的預(yù)測(cè)結(jié)果。在圖像情感分析中,紋理特征也扮演著至關(guān)重要的角色。文獻(xiàn)[5]通過(guò)所設(shè)計(jì)的特征濾波器提取這些灰度圖像的紋理特征,在此基礎(chǔ)上采用支持向量機(jī)進(jìn)行情感分類。深度學(xué)習(xí)技術(shù)的出現(xiàn)給抽象畫(huà)情感分析注入新的動(dòng)力。文獻(xiàn)[6]除了利用人工特征表示方式提取抽象畫(huà)圖像底層顏色、紋理特征外,還運(yùn)用卷積神經(jīng)網(wǎng)絡(luò)提取圖像的高層語(yǔ)義特征。白茹意等[7]在卷積神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上引入遷移學(xué)習(xí)的思想,提取抽象畫(huà)圖像的高層語(yǔ)義信息。楊子文等[8]針對(duì)抽象畫(huà)圖像標(biāo)注困難、標(biāo)注較少的問(wèn)題,提出了兩層遷移學(xué)習(xí)卷積神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)方案。上述抽象畫(huà)圖像情感分析工作均采用監(jiān)督學(xué)習(xí)策略,而應(yīng)用無(wú)監(jiān)督學(xué)習(xí)方法的工作尚未得到廣泛關(guān)注。
為解決現(xiàn)實(shí)世界中的不確定信息決策問(wèn)題,Yao[9]提出了三支決策(three-way decisions,3WD)理論。近年來(lái),學(xué)者們將三支決策進(jìn)行了拓展,構(gòu)建了諸多理論模型,如三支屬性約簡(jiǎn)[10]、三支分類[11,12]、三支聚類[13,14]和三支沖突分析[15]等。針對(duì)混合型數(shù)據(jù),胡聲丹等[16]將三支決策和主動(dòng)學(xué)習(xí)思想引入標(biāo)簽傳播算法中,提出了三支標(biāo)簽傳播的半監(jiān)督屬性約簡(jiǎn)方法。Du等[17]結(jié)合序貫三支決策的思想,提出多步三支聚類方法。為解決q環(huán)正交模糊信息中的沖突問(wèn)題,Li等[18]提出基于三支決策和粗糙集理論的三支沖突分析和解決模型。三支決策理論在處理復(fù)雜動(dòng)態(tài)的不確定性問(wèn)題方面得到了廣泛應(yīng)用。該理論在信用評(píng)價(jià)[19]、文本分析[20]和推薦系統(tǒng)[21]等領(lǐng)域發(fā)揮著重要作用。但是,當(dāng)前鮮有應(yīng)用于圖像特征表示的相關(guān)工作。
本文選擇使用HSL顏色空間,該顏色空間基于人類對(duì)顏色的感知能力,更適用于圖像的情感分析工作。此外,相比于其它類似的顏色空間,如HSV顏色空間和L*a*b*顏色空間,HSL顏色空間在后續(xù)劃分操作中更具優(yōu)勢(shì)。
HSL顏色空間將顏色分為3個(gè)分量:色調(diào)(Hue)、飽和度(Saturation)和明度(Lightness)。色調(diào)通過(guò)角度來(lái)表示,范圍為0°到360°。從0°的紅色開(kāi)始,逆時(shí)針旋轉(zhuǎn),經(jīng)過(guò)120°的綠色和240°的藍(lán)色,然后回到360°的紅色。圓柱的直徑方向表示飽和度,圓柱軸心的飽和度為0,表示最低飽和度;圓柱邊緣的飽和度為1,表示最高飽和度。圓柱的垂直方向表示明度,圓柱頂部的明度為1,呈現(xiàn)白色;圓柱底部的明度為0,呈現(xiàn)黑色;圓柱中間部分的明度為0.5,表示中等明度,對(duì)應(yīng)HSV中亮度V等于1的情況。
傳統(tǒng)的顏色量化方式采用的是硬化分的方式,將某個(gè)區(qū)間指定為某種顏色,即顏色量化采用二支劃分的方式(屬于或者不屬于)。這種劃分方式將導(dǎo)致非此即彼的問(wèn)題,而人類對(duì)顏色的視覺(jué)感知具有模糊特性,因此會(huì)產(chǎn)生與人們視覺(jué)感知的偏差。本文采用三支決策理論來(lái)解決該問(wèn)題。
下文將介紹本文提出的三支決策方案。首先,從HSL顏色空間中提取出3類不包含色彩信息的顏色,它們分別是白色、黑色和灰色。白色的范圍是明度L>0.95;黑色的范圍是明度L<0.05;灰色為明度處于0.05≤L≤0.95且飽和度S<0.1。
接下來(lái),將針對(duì)剩余的顏色空間開(kāi)展三支劃分。在H通道上,我們將依據(jù)人類對(duì)顏色的感知將色調(diào)設(shè)定為10個(gè)子集,并將它們命名為紅、橙、黃、綠、青、天藍(lán)、藍(lán)、紫、洋紅、玫紅。在S通道上,我們將飽和度設(shè)定為2個(gè)子集:不飽和與飽和。在L通道上,我們將明度設(shè)定為3個(gè)子集:暗、中、明。
(1)
(2)
通過(guò)笛卡爾積,可以將3個(gè)通道上的子集組合成60個(gè)HSV顏色空間的子集,再加上3種不含色彩的顏色子集(白色、黑色和灰色),共63個(gè)顏色特征。
本文提出一種基于三支決策的紋理特征表示方法可以有效地獲取抽象畫(huà)中的紋理信息。
首先,將抽象畫(huà)圖像轉(zhuǎn)換為灰度圖像,該灰度圖像表示為矩陣G。
接著定義4種濾波矩陣形式,分別是近似(低通)矩陣、細(xì)節(jié)(高通)矩陣、伴隨近似(伴隨低通)矩陣和伴隨細(xì)節(jié)(伴隨高通)矩陣。
近似矩陣A中各元素的定義如下[22]
(3)
式中:下標(biāo) (i,j) 被用來(lái)標(biāo)識(shí)矩陣A的i行第j列的元素。
細(xì)節(jié)矩陣D中各元素的定義如下[22]
(4)
伴隨近似矩陣A?中各元素的定義如下[22]
(5)
伴隨細(xì)節(jié)矩陣D?中各元素的定義如下[22]
(6)
接下來(lái),對(duì)灰度圖像矩陣進(jìn)行二級(jí)小波變換,提取圖像水平、垂直和對(duì)角方向的信息。一級(jí)小波分解得到的低頻子圖的計(jì)算公式如下[22]
G′2n×2m=A?2n×4n·G4n×4m·A4m×2m
(7)
式中:下標(biāo)2n×2m表示矩陣G′是一個(gè)2n行2m列的矩陣。其它矩陣的下標(biāo)也采用這種表示方法標(biāo)識(shí)矩陣的大小。
在子圖G′2n×2m的基礎(chǔ)上進(jìn)行二級(jí)小波分解,所得水平、垂直和對(duì)角方向的子圖分別表示為TH、TV和TD,它們的計(jì)算公式如下[22]
(8)
類似于顏色特征的計(jì)算,紋理特征上的三支量化計(jì)算公式為
(9)
式中:[p1,p2]為紋理特征子集Ti的最小區(qū)間,[b1,b2]為其最大區(qū)間。
通過(guò)笛卡爾積,可以將3個(gè)方向的信息子集組合成8個(gè)紋理特征。
本文提出VGG16的改進(jìn)模型,用于提取抽象畫(huà)圖像中的高層語(yǔ)義特征。
為去除特征中無(wú)用信息和噪聲,在VGG16的輸出層之前增加一層包含10個(gè)神經(jīng)元的全連接層。本研究在原VGG16最后一個(gè)全連接層(包含4096個(gè)神經(jīng)元)和新增的全連接層(包含10個(gè)神經(jīng)元)之間,增加了兩個(gè)全連接層。這樣做是為了讓網(wǎng)絡(luò)結(jié)構(gòu)更穩(wěn)定,并且增強(qiáng)模型的非線性變換能力和表達(dá)能力。兩個(gè)額外添加的全連接層的神經(jīng)元個(gè)數(shù)分別為1024和256。本文最終目標(biāo)是提取最后一層全連接層(包含10個(gè)神經(jīng)元)上的權(quán)重,這樣的低維特征有助于提升后續(xù)處理步驟的效率和聚類精度。
本文采用多核k均值算法(multiple kernel K-means,MKKM)[23]實(shí)現(xiàn)圖像的聚類。
在多核學(xué)習(xí)中,X={x1,x2,…,xn} 表示一個(gè)包含n個(gè)樣本的數(shù)據(jù)集。φp(·) 表示第p個(gè)特征映射函數(shù),這類函數(shù)可以將數(shù)據(jù)從原始空間映射到新的特征空間。因此,數(shù)據(jù)x在m個(gè)特征函數(shù)的融合表達(dá)形式為φβ(x)=[β1φ1(x)T,…,βmφm(x)T]T,其中β=[β1,…,βm]T為m個(gè)特征函數(shù)的權(quán)重向量。因此,融合后的核函數(shù)形式如下所示[24]
(10)
式中:Kp(·,·) 為第p個(gè)特征映射函數(shù)φp(·) 所對(duì)應(yīng)的核函數(shù)形式。
可以用上述核函數(shù)形式,把原始數(shù)據(jù)集表征轉(zhuǎn)換成核矩陣形式Kβ[24]
(11)
式中:Kp是第p個(gè)核函數(shù)所轉(zhuǎn)換的數(shù)據(jù)核矩陣。
在上述定義的基礎(chǔ)上,MKKM的目標(biāo)函數(shù)可以定義為如下形式[25]
(12)
式中:H是一個(gè)聚類劃分矩陣,大小為n×k,其中n是樣本數(shù)目,k是聚類數(shù)目;In和Ik分別表示大小為n×n和k×k的單位矩陣;βp為權(quán)重向量β的第p個(gè)分量。
可以通過(guò)一種兩步迭代優(yōu)化算法來(lái)自適應(yīng)地更新權(quán)重β并求解式(12)的目標(biāo)函數(shù)[26]。
(1)固定β,更新H。該種情況下,式(12)與下式等價(jià)[27]
(13)
可以通過(guò)特征分解進(jìn)行求解,H的最優(yōu)解為Kβ最大的前k個(gè)特征值所對(duì)應(yīng)的特征向量。
(2)固定H,更新β。該種情況下,式(12)與下式等價(jià)[27]
(14)
可以將上述問(wèn)題看作帶有線性約束條件的二次規(guī)劃問(wèn)題,進(jìn)而求解相應(yīng)的β。
基于特征融合的聚類情感分析框架如圖1所示。
圖1 本文方法框架
首先對(duì)抽象畫(huà)圖像進(jìn)行預(yù)處理:將不同規(guī)格的圖像縮放為統(tǒng)一大小;將部分灰度圖像轉(zhuǎn)換到RGB空間中。
第一個(gè)核心階段是使用2.1節(jié)~2.3節(jié)描述的方法分別提取抽象畫(huà)圖像的顏色特征、紋理特征以及高層語(yǔ)義特征。
本文選用高斯核函數(shù)作為特征映射函數(shù)。高斯核函數(shù)是多核學(xué)習(xí)中最常用的核函數(shù)之一,其形式如下
(15)
式中:σ為高斯核函數(shù)的帶寬參數(shù),控制著高斯函數(shù)的寬度。本文將該參數(shù)設(shè)置為1。
令K1、K2、K3分別表示使用高斯核函數(shù)對(duì)抽象畫(huà)圖像的顏色特征、紋理特征和高層語(yǔ)義特征計(jì)算得到的核矩陣??梢允褂眉訖?quán)平均的方式得到初始融合核矩陣,其形式如下
(16)
第二個(gè)核心階段是使用2.4節(jié)描述的MKKM聚類算法實(shí)現(xiàn)抽象畫(huà)圖像情感劃分。
本文選用廣泛應(yīng)用于抽象畫(huà)情感分析領(lǐng)域的MART數(shù)據(jù)集和DeviantArt數(shù)據(jù)集[3,4]。MART數(shù)據(jù)集共包含500張專業(yè)的抽象畫(huà)作。DeviantArt數(shù)據(jù)集共包含500張業(yè)余愛(ài)好者繪制的抽象畫(huà)作。
為了驗(yàn)證所提方法的有效性,本文選擇了幾種性能優(yōu)異的聚類方法作為基準(zhǔn)。
PCA+k-means[28]:對(duì)原始圖像采用主成分分析(principal component analysis,PCA)進(jìn)行降維,在降維后的特征上進(jìn)行k-means聚類。本文將此種策略記作PCA+k-means。
UMAP+k-means[29]:對(duì)原始圖像采用統(tǒng)一流形逼近與投影方法(uniform manifold approximation and projection,UMAP)[30]進(jìn)行降維,在降維后的特征上進(jìn)行k-means聚類。本文將此種策略記作UMAP+k-means。
AE+k-means[31]:采用自動(dòng)編碼器(AutoEncoder,AE)[32]對(duì)圖像進(jìn)行特征提取,在提取的特征上進(jìn)行k-means聚類。本文將此種策略記作AE+k-means。
DCEC[33]:一種經(jīng)典的深度卷積嵌入聚類模型,該模型直接可以讀入圖像數(shù)據(jù)并給出聚類結(jié)果。本文將此種策略記作DCEC。
為衡量聚類結(jié)果的好壞,本文采用3種常用的聚類評(píng)價(jià)指標(biāo):準(zhǔn)確度(accuracy,ACC)、Fowlkes-Mallows指數(shù)(Fowlkes-Mallows index,F(xiàn)MI)和歸一化互信息(norma-lized mutual information,NMI)。
將本文的方法與4種基準(zhǔn)聚類方法進(jìn)行對(duì)比,表1展示了這些方法在MART和DeviantArt數(shù)據(jù)集上的聚類效果。從表1中可以看出,本文方法在ACC、FMI和NMI這3類指標(biāo)上都顯著優(yōu)于其它4種基準(zhǔn)方法。在MART數(shù)據(jù)集上,本文方法的ACC指標(biāo)達(dá)到了0.872,而4種方法的ACC值均低于0.7;本文方法的FMI值為0.807,其相較于4種基準(zhǔn)方法平均提高了20個(gè)百分點(diǎn);在NMI指標(biāo)上,本文方法得分為0.46,超過(guò)4種基準(zhǔn)方法一個(gè)數(shù)量級(jí)以上。而DeviantArt數(shù)據(jù)集上,本文方法的ACC指標(biāo)達(dá)到了0.884,而4種方法的ACC值均低于0.6;本文方法的FMI值為0.819,其相較于4種基準(zhǔn)方法提高了26個(gè)百分點(diǎn)以上;在NMI指標(biāo)上,本文方法得分為0.543,同樣超過(guò)4種基準(zhǔn)方法一個(gè)數(shù)量級(jí)以上。
表1 方法性能
綜上所述,該方法明顯優(yōu)于其它基準(zhǔn)方法,包括兩種基于深度學(xué)習(xí)的基準(zhǔn)方法(AE+k-means和DCEC)。這充分說(shuō)明在處理抽象畫(huà)圖像的情感分析問(wèn)題時(shí),采用多特征融合的聚類策略具有更為明顯的優(yōu)勢(shì)。3種不同特征(顏色特征、紋理特征和高層語(yǔ)義特征)能夠捕捉抽象畫(huà)的不同方面或視角。多核聚類算法有助于發(fā)現(xiàn)這些特征之間的一致性和差異性,通過(guò)整合3種特征,實(shí)現(xiàn)信息的互補(bǔ)和校正,從而提供更全面、更準(zhǔn)確的情感表征,最終達(dá)到更高的聚類精度。
本節(jié)通過(guò)消融實(shí)驗(yàn)驗(yàn)證本文提出的顏色特征表示方法和紋理特征表示方法的有效性。將本算法中基于三支決策的顏色特征分別替換為Itten顏色特征[34]和顏色命名特征[35],并分別記作MKKM-Itten和MKKM-Name。將本算法中基于三支決策的紋理特征分別替換為GLCM紋理統(tǒng)計(jì)特征[36]和Tamura紋理特征[37],并分別記作MKKM-GLCM和MKKM-Tamura。此外,還同時(shí)替換掉了顏色特征和紋理特征。將本算法使用顏色特征和紋理特征同時(shí)替換Itten顏色特征[34]和GLCM紋理統(tǒng)計(jì)特征[36],將此種模型記作MKKM-IG。將本算法使用顏色特征和紋理特征同時(shí)替換顏色命名特征[35]和Tamura紋理特征[37],將此種模型記作MKKM-NT。
表2展示了消融實(shí)驗(yàn)的結(jié)果。從表中的聚類結(jié)果可以看出,本方案的聚類表現(xiàn)明顯優(yōu)于改動(dòng)方案。相較于基于顏色特征的改動(dòng)方案(MKKM-Itten和MKKM-Name),本方案在ACC、FMI和NMI上的平均提升分別為31個(gè)、24個(gè)和49個(gè)百分點(diǎn)。相較于基于紋理特征的改動(dòng)方案(MKKM-GLCM和MKKM-Tamura),本方案在ACC、FMI和NMI上的平均提升分別為15個(gè)、15個(gè)和26個(gè)百分點(diǎn)。相較于顏色和紋理特征同時(shí)改動(dòng)的方案(MKKM-IG和MKKM-NT),本方案在ACC、FMI和NMI上的平均提升分別為36個(gè)、26個(gè)和50個(gè)百分點(diǎn)?;谌Q策的顏色特征相較于兩種經(jīng)典的顏色特征(Itten顏色特征和顏色命名特征),在應(yīng)對(duì)抽象畫(huà)情感聚類任務(wù)時(shí)具有明顯優(yōu)勢(shì)。同樣地,基于三支決策的紋理特征相比于兩種經(jīng)典的紋理特征(GLCM紋理統(tǒng)計(jì)特征和Tamura紋理特征),也有較大提升。同時(shí)融合三支決策的顏色特征和紋理特征的方案相較于同時(shí)融合經(jīng)典顏色特征和紋理特征的方案具有非常顯著提升,且優(yōu)于僅改動(dòng)一種特征的方案。這可能源于三支決策在不確定處理方面具有天然優(yōu)勢(shì)。
表2 消融結(jié)果
綜上所述,本文提出的兩種圖像特征表示方式顯著提高了抽象畫(huà)的情感聚類分析表現(xiàn)。
本文提出了一種抽象畫(huà)圖像自動(dòng)情感聚類方法。所提出的基于三支決策的顏色特征表示方法和紋理特征表示方法以及改進(jìn)的深度學(xué)習(xí)模型能夠有效地提取抽象畫(huà)中的顏色特征、紋理特征和高層語(yǔ)義特征。多核k均值算法能夠自適應(yīng)地融合從抽象畫(huà)圖像中提取的3種特征,并實(shí)現(xiàn)情感聚類分析。實(shí)驗(yàn)結(jié)果表明,相較于4種基準(zhǔn)方法,本文方法取得了更好的聚類表現(xiàn)。多模態(tài)環(huán)境下的情感聚類分析是未來(lái)的研究方向。