白茹意
(山西大學(xué) 軟件學(xué)院,山西 太原 030013)
抽象畫是由繪畫者通過他們的主觀思想,用點(diǎn)、線、面、顏色等組合視覺形式來表達(dá)的,通常被理解為不描述自然的藝術(shù)[1]。抽象畫通過色彩,圖像的組合來表達(dá)人內(nèi)心熱烈的情感,被稱為“熱抽象”;不表達(dá)情感,而是通過圖形和色彩的組合來表達(dá)結(jié)構(gòu),被稱為“冷抽象”。在創(chuàng)作抽象畫時,藝術(shù)家根據(jù)自己的審美觀念,決定作品懸掛的正確方向。雖然正確的方向通常在畫布的背面指定,對于普通的沒有藝術(shù)背景的觀察者來說是很不明顯的。如何在抽象繪畫中找到與方向相關(guān)的因素,大眾對抽象畫的審美價值是否因錯誤的繪畫方向而降低。這些問題成為研究抽象畫方向?qū)徝赖幕A(chǔ)。一些心理學(xué)研究已經(jīng)表明[2],繪畫方向是一個與審美評價有關(guān)系的因素,抽象繪畫的原始方向更易于獲得較高的審美評價,專業(yè)的藝術(shù)家或非專業(yè)的觀賞者對正確方向的欣賞程度遠(yuǎn)遠(yuǎn)高于平均水平(25%),但低于完美(100%)。
隨著信息數(shù)字化的趨勢,在網(wǎng)上可以很容易地找到繪畫的數(shù)字圖像。這使得計(jì)算機(jī)輔助繪畫分析成為可能,通過直接探索計(jì)算視覺特征與人的審美感知之間的關(guān)系,人們研究了各種審美評價方法。近年來,許多計(jì)算機(jī)視覺、模式識別、圖像處理等方法已經(jīng)被廣泛應(yīng)用到繪畫分析中,但很少有方法通過關(guān)注繪畫的方向來分析圖像審美評價。
Amirshahi等人[3]招募受試者對藝術(shù)家的高質(zhì)量的彩色繪畫圖像進(jìn)行審美評分,然后計(jì)算每幅繪畫圖像的平均分,最后根據(jù)評分將圖像分為兩類(高美學(xué)和低美學(xué))。Yanulevskaya等人[4]招募100個受試者給500幅抽象畫進(jìn)行7級評分,采用Lab顏色模型和SIFT(尺度不變特征轉(zhuǎn)換)提取圖像特征,將特征輸入SVM分類模型,實(shí)現(xiàn)繪畫的情感分類。Li等人[5]招募42名受試者對100幅繪畫圖像進(jìn)行1-5級美學(xué)評分,分析繪畫的視覺復(fù)雜度。Guo等人[6]要求受試者按照1-7級對繪畫圖像進(jìn)行復(fù)雜度評分,將“3”和“5”作為閾值,按照評分把圖像分為“低復(fù)雜度”、“中復(fù)雜度”和“高復(fù)雜度”。這些方法主要通過調(diào)查問卷實(shí)現(xiàn)美學(xué)評價,而文中則通過眼動實(shí)驗(yàn)對圖像美學(xué)進(jìn)行客觀評價。
目前,研究者也對如何判斷圖像的方向進(jìn)行了大量的研究。Mather[7]以調(diào)查問卷的形式設(shè)置實(shí)驗(yàn),研究受試者對抽象畫不同方向的審美偏好。Lumini和Nanni[8]自動檢測攝影照片的方向,提取了顏色和紋理特征,在6 000多個數(shù)據(jù)集上采用SVM(支持向量機(jī))、AdaBoost和子空間分類器進(jìn)行方向識別。Lyu[9]對18 040幅自然圖像進(jìn)行自動方向檢測,采用多尺度多方向小波變換提取特征,最后通過多二進(jìn)制支持向量機(jī)確定圖像方向。Ivana等[10]在5 400幅數(shù)據(jù)集上對戶外圖像方向(0o,90o,-90o)進(jìn)行自動檢測,首先根據(jù)圖像所包含的語義線索(如人臉、光線或天空),將圖像按層次分為不同的組,然后對每組進(jìn)行獨(dú)立的SVM分類器訓(xùn)練。Borawski等[11]判斷圖像法步驟如下:圖像降尺度,定位圖像子部分,計(jì)算絕對頻譜的對數(shù),計(jì)算極坐標(biāo),最后確定圖像的方向。Ciocca等[12]采用圖像的底層特征,基于人臉方向判斷圖像的正確方向。Ciocca等[13]采用LBP-LRR方法對10萬張場景圖像的方向進(jìn)行自動識別。Hollitt等[14]使用圖像的功率譜密度估計(jì)攝像系統(tǒng)的滾動方向,并利用Hough變換確定圖像中線的方向。Swami等[15]通過使用低水平視覺特征,采用卷積神經(jīng)網(wǎng)絡(luò)對大量圖像進(jìn)行方向檢測,準(zhǔn)確率達(dá)到95%。Jia[16]基于抽象藝術(shù)理論,將圖像進(jìn)行上下、左右分割,并采用顏色和紋理特征,運(yùn)用樸素貝葉斯和BP神經(jīng)網(wǎng)絡(luò)對抽象畫的方向進(jìn)行分類。
基于以往的研究,文中的優(yōu)勢在于:(1)目前有關(guān)抽象繪畫方向的審美數(shù)據(jù)獲取主要采取問卷調(diào)查等方法,致使繪畫樣本及數(shù)據(jù)偏重主觀性,缺乏客觀的準(zhǔn)確表述。文中采用眼動追蹤技術(shù),結(jié)合審美偏好數(shù)據(jù)對抽象畫的方向?qū)徝肋M(jìn)行主客觀綜合分析。(2)目前對方向檢測的研究主要針對自然和場景圖像。然而,抽象畫圖像的內(nèi)容和語義相對于自然圖像比較含蓄,不明顯,因此對抽象畫的方向檢測會比較困難,近幾年的相關(guān)工作也比較少。為了提高抽象畫的方向檢測準(zhǔn)確率,文中采用基于非旋轉(zhuǎn)不變等價LBP(nri-uniform-LBP)描述符和支持向量機(jī)(SVM)算法的自動識別方法,將抽象畫分為正確方向(向上)和不正確方向(不向上)兩類。算法框架如圖1所示。
圖1 算法框架
眼動方法[17]在視覺心理學(xué)中的應(yīng)用由來已久,國外學(xué)者將眼動引入到視覺心理學(xué)的研究來考察與視覺認(rèn)知過程中的眼動特點(diǎn),近幾年來,心理學(xué)家越來越重視各種視覺認(rèn)知過程的眼動研究。當(dāng)前主要的眼動數(shù)據(jù)可視化工具包括BeGaze,TobiiStudio,GazrTracker等。這些工具能導(dǎo)入眼動數(shù)據(jù)文件,然后生成熱點(diǎn)圖、掃描路徑圖等可視化結(jié)果,并支持視頻回放、興趣區(qū)AOI定義、數(shù)據(jù)統(tǒng)計(jì)等功能,最后還能將可視化結(jié)果以圖片的形式輸出與保存,可有效地提高數(shù)據(jù)可視化的效率和質(zhì)量。隨著這些工具的推廣,眼動數(shù)據(jù)在用戶界面可用性評估、廣告與品牌、產(chǎn)品設(shè)計(jì)評價、學(xué)習(xí)與閱讀、駕駛行為等研究領(lǐng)域也得到了廣泛應(yīng)用。
文中采用的實(shí)驗(yàn)儀器為Tobii_T60眼動儀,眼動數(shù)據(jù)采樣頻率為60 Hz,顯示器大小為17英寸,分辨率為1 280*1 024,實(shí)驗(yàn)圖片均為png格式。眼動數(shù)據(jù)分析使用Tobii_Studio分析軟件,其自帶四種強(qiáng)大的可視化工具——熱點(diǎn)圖、聚類、眼動軌跡圖和眼動過程還原,該軟件還支持眼動數(shù)據(jù)的統(tǒng)計(jì)分析。文中所有數(shù)據(jù)結(jié)果均使用SPSS 20.0軟件進(jìn)行處理。
眼動研究選用的指標(biāo)相對集中,特別是針對藝術(shù)作品的眼動研究中所選用的指標(biāo)比較統(tǒng)一,主要指標(biāo)有:注視次數(shù)、注視時間、首次注視時間、眼動軌跡、眼跳距離等等。針對文中的研究目的,最終決定采用以下兩個指標(biāo)進(jìn)行眼動規(guī)律的分析,即注視次數(shù)(FC)、注視時間(FD),并結(jié)合審美偏好進(jìn)行主客觀的綜合分析。
選取25幅來自于Wikiart(http://www.wikiart.org)的抽象畫,每一幅畫被順時針旋轉(zhuǎn)(0o,90o,180o,270o)后得到四幅方向不同的繪畫,隨機(jī)擺放到一張圖片上同時顯示,在每幅圖下標(biāo)記(A,B,C,D),如圖2所示。選取15名(9名男性,6名女性,年齡19~22)受試者參與實(shí)驗(yàn)。所有受試者視力或矯正視力正常,之前均沒有繪畫及美學(xué)方面的研究背景。實(shí)驗(yàn)操作時,受試者端坐于電腦桌面的正前方,與屏幕保持大約55 cm~60 cm的距離(該距離為實(shí)驗(yàn)的有效距離),完全固定受試者的座椅來保持這個有效距離,并且要求受試者的頭部在實(shí)驗(yàn)中不能左右移動。由于眼動是一種易受外界干擾的活動,實(shí)驗(yàn)過程中確保環(huán)境安靜,光線強(qiáng)度適中,每一位受試者的眼動實(shí)驗(yàn)相對獨(dú)立的進(jìn)行。受試者獨(dú)立進(jìn)行實(shí)驗(yàn),未做實(shí)驗(yàn)前,受試者不允許提前觀看實(shí)驗(yàn)材料,受試者進(jìn)行實(shí)驗(yàn)的先后順序可認(rèn)為是隨機(jī)的。受試者被給定一個無限制的時間觀看每張圖片上的四幅繪畫,“選擇四幅圖中你認(rèn)為最令人舒適的或有意義的一幅”,并在圖片下方用鼠標(biāo)點(diǎn)擊該幅繪畫所對應(yīng)按鈕,問卷調(diào)查結(jié)果即為受試者對抽象畫的審美偏好。與此同時,通過眼動儀記錄受試者的眼動軌跡。
圖2 實(shí)驗(yàn)界面
實(shí)驗(yàn)結(jié)束后,調(diào)查審美偏好數(shù)據(jù)由電子問卷導(dǎo)出Excel格式數(shù)據(jù),回收15份調(diào)查問卷,回收率100%,問卷數(shù)據(jù)可以說明15位被調(diào)查者對這100幅繪畫的審美偏好。將每張圖片中的四幅繪畫分為兩組(由表1所示):方向正確I(包含一幅繪畫0°)與不正確組Ⅱ(包含三幅繪畫)。實(shí)驗(yàn)結(jié)果顯示,受試者選擇結(jié)果與繪畫正確方向一致的概率達(dá)到62.4%,這一數(shù)字與文獻(xiàn)[7]中的實(shí)驗(yàn)結(jié)果相近,其余三個方向的被選擇率分別為16%,10.4%和10.9%。這一結(jié)果表明,所有其他方向被選擇的概率要低得多,大約在10%~16%,即受試者對方向正確(0°)的偏好明顯高于其他方向的偏好。
對以上數(shù)據(jù)進(jìn)行F檢驗(yàn)得出,對組Ⅱ內(nèi)部的三幅圖片進(jìn)行單因素方差分析得,F(xiàn)(2,72)=1.071,p=0.348,即組Ⅱ內(nèi)部沒有顯著性差異。對組I、組Ⅱ分析得F(3,96)=35.1,p<0.001,即組Ⅰ和組Ⅱ之間存在顯著性差異。比較表明,參與者一般不會傾向于將前后顛倒的圖像混淆,他們要么選擇了正確的方向,要么選擇了其余三個中的一個。
表1 審美偏好數(shù)據(jù)分析
每位受試者獨(dú)立完成實(shí)驗(yàn)后,將每張圖片中四個不同方向的抽象畫劃為4個興趣區(qū)(AOI),觀察每個AOI的熱點(diǎn)圖,如圖3所示。
圖3 眼動實(shí)驗(yàn)AOI熱點(diǎn)圖
從圖3中可以直觀看出,被試者對方向正確繪畫(A)的關(guān)注程度明顯高于其余三幅繪畫(B,C,D)。針對文中的研究目的,采用注視次數(shù)(FC)和注視時間(FD)兩個眼動指標(biāo)進(jìn)行分析,同樣將每張圖片中的四幅繪畫分為兩組:方向正確組Ⅰ(包含一幅繪畫)與不正確組Ⅱ(包含三幅繪畫)。如表2所示,四幅繪畫中,受試者對方向正確的繪畫注釋注視時間最長的概率為72.7%,受試者對方向正確的繪畫注釋注視次數(shù)最多的概率為68.18%;組Ⅱ內(nèi)部沒有顯著性差異,而組Ⅰ和組Ⅱ之間存在顯著性差異。這一結(jié)果與審美偏好的結(jié)果一致,說明受試者對方向正確的繪畫注視時間會比較長,次數(shù)也比較多。
表2 眼動數(shù)據(jù)分析
將調(diào)查問卷中每幅繪畫的被選擇率作為該繪畫審美偏好的量化值,結(jié)合注視次數(shù)和注視時間,進(jìn)行二元定距變量相關(guān)分析,發(fā)現(xiàn)審美偏好與兩個眼動指標(biāo)的Pearson相關(guān)系數(shù)為0.348和0.395(見表3),即在0.01的顯著水平上,相關(guān)程度為弱相關(guān)(0.3≤|r|<0.5)。結(jié)果說明受試者在審美過程中的眼動與其心理活動具有一致性,結(jié)合表2的結(jié)果可得出,一般來說受試者對方向正確的繪畫注視次數(shù)較多,時間較長,審美評價也比較高。
表3 注視時間、注視次數(shù)與問卷數(shù)據(jù)的相關(guān)性
LBP[18](local binary pattern,局部二值模式)是由Ojala的機(jī)器視覺研究小組針對紋理圖像的研究所提出的,在模式識別和計(jì)算機(jī)視覺領(lǐng)域得到了廣泛的應(yīng)用。該方法是一種用來描述圖像局部紋理特征的算子,被定義為圖像中每個像素周圍的局部模式的直方圖。LBP具有對灰度變化不敏感,計(jì)算復(fù)雜度低,高效的識別能力、無需訓(xùn)練和易于工程實(shí)現(xiàn)等優(yōu)點(diǎn),主要應(yīng)用于人臉識別、遙感圖像分析、工業(yè)檢測、醫(yī)學(xué)圖處理和動態(tài)紋理識別等。然而,提出的方向識別方法采用的是LBP的另一個特性,即旋轉(zhuǎn)可變特性。
LBP是通過某個像素的灰度與其領(lǐng)域像素的灰度進(jìn)行閾值化來計(jì)算的。給定鄰域半徑R和像素個數(shù)P(鄰域R上的采樣點(diǎn)數(shù)),每個像素的LBPP,R計(jì)算如下:
(1)
其中,gc是當(dāng)前像素的灰度級,gn是其領(lǐng)域的灰度級,s(x)是一個符號函數(shù):
(2)
設(shè)P=8,R=1時,圖像某像素的LBPP,R碼的計(jì)算過程為:將該像素點(diǎn)的值與其鄰域像素點(diǎn)的值進(jìn)行比較,若鄰域像素點(diǎn)的值大于中心點(diǎn)像素,則將該領(lǐng)域位置置1,反之置0,形成一個局部二進(jìn)制模式。將該模式以x正軸方向?yàn)槠瘘c(diǎn),按逆時針方向讀取圓形采樣點(diǎn),最終得到一個8位二進(jìn)制數(shù)序列,并將其轉(zhuǎn)換成十進(jìn)制數(shù),即為LBPP,R碼,例如(01111000)10=120。
當(dāng)一幅灰度圖像的大小為M×N時,該圖像所有像素的LBP算子出現(xiàn)的頻率直方圖記為H,H作為該圖像的LBP特征。
(3)
(4)
其中,0≤k 按照上述方法設(shè)定的LBP算子的應(yīng)用有些不足:P=8,R=1的鄰域范圍較小,對于大尺度的紋理結(jié)構(gòu)無法捕獲;該鄰域的采樣方式不宜于旋轉(zhuǎn)。之后,經(jīng)過不斷探索,研究人員對原始的LBP算法提出了多種優(yōu)化和改進(jìn)策略: (1)LBP圓形算子:把圖像中的某個像素點(diǎn)作為中心點(diǎn),取半徑為R,按照(Rcos(2πn/P),Rsin(2πn/P))方法進(jìn)行灰度插值,得到的圓形采樣點(diǎn)集作為該中心點(diǎn)的領(lǐng)域點(diǎn),P為采樣點(diǎn)個數(shù),這樣能滿足不同尺度和頻率采樣的需要。 (2)LBP旋轉(zhuǎn)不變模式(rotation invariant):不采用這個特性,因?yàn)樾D(zhuǎn)不變性顯然會丟棄關(guān)于圖像方向的重要信息。 (3)LBP等價模式(uniform):半徑為R,采樣點(diǎn)為P的圓形算子會產(chǎn)生2P種編碼。很明顯,LBP編碼的種類會隨著采樣點(diǎn)數(shù)的增多而急劇遞增,這使得LBP模式的統(tǒng)計(jì)直方圖過于稀疏。為解決這一問題,“等價模式”限制二進(jìn)制序列從0到1或從1到0的跳變次數(shù)不超過2,跳變次數(shù)計(jì)算公式如下: U(LBPP,R)=|s(gP-1-gc)-s(g0-gc)|+ (5) 跳變次數(shù)小于等于2的各自為一類,跳變次數(shù)大于2的所有情況歸為一類。經(jīng)過優(yōu)化之后,LBP編碼的種類大大減少,由2P減少為2+P(P-1),而且不會丟失任何信息。 針對圖像方向檢測的目標(biāo)以及計(jì)算成本,文中采用基于半徑為2,采樣點(diǎn)為16的“非旋轉(zhuǎn)不變等價”描述符LBP2,16作為特征,特征編碼種類為243。 (1)顏色模式轉(zhuǎn)換:一幅彩色抽象畫圖像的大小為M×N,將彩色圖像(RGB模式)轉(zhuǎn)成灰度圖像。設(shè)原始圖像為G,采用平均值法,得到灰度圖像G_GRAY。 (6) (2)LBP特征:設(shè)置半徑R為2,圓形采用點(diǎn)數(shù)P為16,對G_GRAY中的每一個像素求出對應(yīng)的“非旋轉(zhuǎn)不變等價”LBP2,16描述符。 (3)直方圖:采用(2)中的方法,統(tǒng)計(jì)灰度圖像G_GRAY中所有像素的LBP值,組成LBP頻率直方圖(橫坐標(biāo)為243種LBP編碼方式,縱坐標(biāo)為每個樣本出現(xiàn)的頻率),然后對該直方圖進(jìn)行歸一化處理,最終得到243維特征向量。該向量作為下一步分類模型的輸入特征。 此算法運(yùn)行的軟件環(huán)境為Anaconda3,編程語言為python。隨機(jī)選取500幅抽象畫作為實(shí)驗(yàn)數(shù)據(jù)集,選取400幅繪畫作為訓(xùn)練集,100幅作為測試集,按照1.1節(jié)中的方法旋轉(zhuǎn),最終得到訓(xùn)練集1 600幅,測試集400幅,采用SVM分類器進(jìn)行方向自動識別,運(yùn)用10倍交叉驗(yàn)證評估分類模型。對于大多數(shù)繪畫來說,其懸掛方向不會是斜的,因此將抽象畫分為正確(向上)和不正確(不向上)兩類。 文中采用SVM算法將抽象畫分為“正確方向”和“不正確方向”兩類。由于數(shù)據(jù)集中的正負(fù)樣本數(shù)量不等,因此很多文獻(xiàn)會采用不同手段將正負(fù)樣本平衡表示。但是,文中傾向于保持?jǐn)?shù)據(jù)集的不平衡,因?yàn)檫@樣更能代表實(shí)際應(yīng)用中所發(fā)生的情況。 在使用LBP進(jìn)行繪畫圖像特征提取時,不同的鄰域半徑和采樣點(diǎn)個數(shù)會導(dǎo)致不同的特征描述,表4中顯示了不同半徑情況下的分類精度。結(jié)果顯示,半徑為1,采樣點(diǎn)為8時的分類準(zhǔn)確率為73.5%;當(dāng)鄰域半徑為2,鄰域像素為16,分類準(zhǔn)確率最高為76.75%;半徑為3,采樣點(diǎn)為24的準(zhǔn)確率與半徑為2是基本相同的,但是考慮計(jì)算成本,文中實(shí)驗(yàn)選取LBP2,16算子進(jìn)行方向特征的提取。 表4 不同鄰域半徑和鄰域像素?cái)?shù)的分類精度 在三種不同的顏色模式(灰度圖像,RGB,HSI)下,采用LBP2,16算子的LBP特征得到的分類準(zhǔn)確率,分別為76.75%,76.5%和76.75%,如表5所示。實(shí)驗(yàn)結(jié)果表明,采用不同的顏色模式,對提出的方向識別算法影響不大。 表5 不同顏色模式的分類精度 為了驗(yàn)證文中算法的有效性,在同一數(shù)據(jù)庫下,將所提方法與文獻(xiàn)[16]中的最新抽象繪畫方向識別方法進(jìn)行比較。實(shí)驗(yàn)結(jié)果顯示,文獻(xiàn)[16]的分類精度為74%,而所提算法精度高于文獻(xiàn)[16],達(dá)到76.75%。 在實(shí)驗(yàn)結(jié)果中發(fā)現(xiàn),內(nèi)容清晰的抽象畫的方向?qū)ρ劬头诸惸P投己苊黠@的,更容易被區(qū)分(見圖4第一行)。然而,還有一些內(nèi)容抽象或含蓄的抽象畫,它們的方向無論是眼睛還是模型都很難判斷(見圖4第二行),這些也是下一步的研究重點(diǎn)。 圖4 抽象畫 設(shè)計(jì)了眼動實(shí)驗(yàn),通過審美偏好數(shù)據(jù)和眼動數(shù)據(jù)對抽象繪畫的方向?qū)徝涝u價進(jìn)行綜合分析,用客觀的數(shù)據(jù)反映了人類的主觀審美偏好。實(shí)驗(yàn)證明,客觀的眼動數(shù)據(jù)和主觀的審美偏好之間具有一致性,并且受試者對方向正確的繪畫有比較高的審美偏好,同時也為抽象畫的審美評價提供了一個新的研究視角。此外,采用了一種非旋轉(zhuǎn)不變等價LBP紋理描述算子和SVM分類器,實(shí)驗(yàn)結(jié)果表明,該方法得到了最好的分類效果。 然而從上述結(jié)果看出,由于抽象畫的內(nèi)容相對含蓄,因此分類準(zhǔn)確率不是特別高。在未來的研究中,可以從特征和分類器選取等方面進(jìn)行研究,進(jìn)一步提高抽象畫圖像方向的分類精度:僅僅提取了LBP描述符,今后可以實(shí)現(xiàn)與方向相關(guān)的多特征融合,例如顏色、布局和語義等;實(shí)驗(yàn)樣本數(shù)只有500,今后可以增加抽象畫樣本的數(shù)量,采用深度學(xué)習(xí)算法(例如,CNN等)實(shí)現(xiàn)更快速有效的方向識別。2.2 “非旋轉(zhuǎn)不變等價”LBP特征提取
2.3 實(shí)驗(yàn)數(shù)據(jù)
2.4 結(jié)果分析
3 結(jié)束語