汪珊娜, 張華熊, 康 鋒
(浙江理工大學(xué) 信息學(xué)院, 浙江 杭州 310018)
情感是服裝設(shè)計(jì)的精神本質(zhì),織物圖案是服裝設(shè)計(jì)的重要內(nèi)容,蘊(yùn)含著豐富的情感信息。領(lǐng)帶作為服飾品,不僅滿足著裝者服飾搭配需要,還傳達(dá)著裝者的身份、審美以及價(jià)值觀等信息。隨著數(shù)字化設(shè)計(jì)的發(fā)展,服裝設(shè)計(jì)中的圖案素材與日俱增,但設(shè)計(jì)人員很難充分利用已有的豐富的織物圖像,這就需要對(duì)織物圖像進(jìn)行情感語義分析。
早期研究者通過提取圖像的相關(guān)手工特征,利用機(jī)器學(xué)習(xí)方法來訓(xùn)練分類器,以實(shí)現(xiàn)圖像情感分類。Datta等[1]提取低層的顏色、紋理、形狀等圖像特征,利用支持向量機(jī)進(jìn)行圖像美學(xué)情感分類,但由于量化粗糙,分類準(zhǔn)確率不高;Marchesotti等[2]將圖像灰度化后提取SIFT特征和局部顏色描述子進(jìn)行美學(xué)情感分類,但忽略了全局信息和色彩信息;Lo等[3]從圖像顏色、布局、邊緣等特征的美學(xué)角度對(duì)圖像美感分類進(jìn)行研究,結(jié)果表明圖像美學(xué)特征可用于圖像情感分析。這些手工特征在圖像情感分類中取得了一定的效果,然而,由于圖像的構(gòu)圖規(guī)則和美學(xué)規(guī)律千變?nèi)f化,且圖像情感存在主觀性和復(fù)雜性,傳統(tǒng)的手工特征和局部特征難以全面表征和準(zhǔn)確地量化圖像的情感信息。近年來,深度學(xué)習(xí)方法的出現(xiàn)使得機(jī)器學(xué)習(xí)和特征學(xué)習(xí)研究有了突破性進(jìn)展,采用深度學(xué)習(xí)模型的基于圖像內(nèi)容的檢索方法大幅提高了圖像搜索準(zhǔn)確率[4]。卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks, 簡(jiǎn)稱CNN)是深度學(xué)習(xí)算法中的一種學(xué)習(xí)模型,具有逐層迭代、逐層抽象的特點(diǎn),以及挖掘數(shù)據(jù)局部特征、提取全局特征能力,在圖像分類的各領(lǐng)域都取得了很好的成果:LeNet-5模型[5]成功應(yīng)用于手寫字符識(shí)別,識(shí)別率達(dá)到99%以上;AlexNet網(wǎng)絡(luò)模型[6]在海量圖像分類領(lǐng)域取得了突破性的成果,在2012年大型圖像數(shù)據(jù)庫ImageNet的圖像分類競(jìng)賽中,準(zhǔn)確度超過第2名11%奪得冠軍,從而使得CNN成為了學(xué)界關(guān)注的焦點(diǎn);之后VGG(visual geometry group)、GoogLeNet、ResNet等模型刷新了AlexNet在ImageNet上創(chuàng)造的記錄[7]。學(xué)者們開始嘗試將深度學(xué)習(xí)用于圖像情感分類問題:Lu等[8]同時(shí)考慮了圖像的局部視角和全局視角,將CNN用于AVA數(shù)據(jù)庫250 000幅圖像的美感質(zhì)量評(píng)價(jià);冀中等[9]探索CNN模型在圖像紋理分類中的應(yīng)用,結(jié)果表明CNN模型在大多數(shù)紋理數(shù)據(jù)集上均能取得很好的分類結(jié)果。上述方法都只采用了大數(shù)據(jù)庫中的樣本圖像像素值作為CNN輸入,沒有融合現(xiàn)有較為成熟的手工特征,在小樣本情況下表現(xiàn)較差。
本文以領(lǐng)帶花型為研究對(duì)象,設(shè)計(jì)了基于并行CNN的情感分類算法,將其應(yīng)用于織物圖像情感分類。首先確定了領(lǐng)帶花型圖案的情感描述詞,通過統(tǒng)計(jì)方式確定了情感標(biāo)簽,由此建立了情感圖像庫;然后根據(jù)領(lǐng)帶花型的特點(diǎn),提取圖像顏色、紋理等低層手工美學(xué)特征;其次,構(gòu)建了基本CNN網(wǎng)絡(luò)模型,通過實(shí)驗(yàn)確定CNN網(wǎng)絡(luò)結(jié)構(gòu)和參數(shù),并將手工特征以及樣本圖像像素值并行輸入CNN網(wǎng)絡(luò)進(jìn)行訓(xùn)練,建立織物圖像與情感表達(dá)之間的映射;最后,通過訓(xùn)練后的分類器對(duì)檢測(cè)樣本進(jìn)行情感分類。
本文提出的算法流程如圖1所示。主要步驟有情感圖像庫建立、特征提取、網(wǎng)絡(luò)模型建立、情感分類4個(gè)過程。
圖1 算法流程Fig.1 Algorithm flow
1)情感圖像庫建立。由專業(yè)設(shè)計(jì)人員對(duì)已有的領(lǐng)帶花型圖像進(jìn)行情感標(biāo)注,建立情感圖像庫。
2)特征提取。首先對(duì)織物掃描圖像進(jìn)行紋理抑制平滑處理[10],濾除掃描過程中產(chǎn)生的紋理及過渡色;其次,對(duì)預(yù)處理后的圖像進(jìn)行特征提取,提取顏色、紋理等低層圖像特征,作為CNN輸入。
3)網(wǎng)絡(luò)模型建立。在Alexnet模型基礎(chǔ)上建立CNN網(wǎng)絡(luò)模型,通過實(shí)驗(yàn)、特征可視化調(diào)整參數(shù),確定CNN結(jié)構(gòu)。將預(yù)處理后訓(xùn)練樣本的圖像像素值與提取的低層特征并行輸入CNN模型:其前向傳播通過卷積層和下采樣層得到圖像特征;其反向傳播調(diào)整參數(shù),使用隨機(jī)梯度下降法進(jìn)行迭代,使得誤差值達(dá)到收斂狀態(tài),完成權(quán)值的更新。
特征圖公式定義為
f(x)=max(0,x)
在每層卷積層ReLU后用局部響應(yīng)歸一化(local response normalization, LRN)處理,提升網(wǎng)絡(luò)的泛化能力,該處理過程用公式可表示為
本文使用Softmax回歸函數(shù)和Log-loss誤差函數(shù)對(duì)輸出結(jié)果求誤差,第L層的損失函數(shù)可由下式計(jì)算:
式中:pi為樣本;qi為樣本標(biāo)簽值;M為樣本總數(shù);fL為激活函數(shù);wi、wd為權(quán)值;λ為正則化項(xiàng)系數(shù)。
4)情感分類。將檢測(cè)樣本的圖像像素值和手工特征輸入Softmax分類器,得到情感分類結(jié)果。分類精度計(jì)算公式為
式中:nTP為被模型預(yù)測(cè)為正的正樣本數(shù)量;nTN為被模型預(yù)測(cè)為負(fù)的負(fù)樣本數(shù)量;nFP為被模型預(yù)測(cè)為正的負(fù)樣本數(shù)量;nFN為被模型預(yù)測(cè)為負(fù)的正樣本數(shù)量。
情感模型有維度情感模型[11]、離散情感模型[12]。維度情感模型用坐標(biāo)表示情感空間,不符合人的直觀感受,較難將維度空間中的某個(gè)坐標(biāo)轉(zhuǎn)變?yōu)樘囟ㄇ楦?,在織物圖像中的使用范圍受到限制。Kobayashi等[13]建立了一系列的情感詞匯,如“考究的”“古典的”“成熟的”“浪漫的”“奢華的”等,賈京生[14]使用“正式的—休閑的”“儒雅的—粗獷的”“古典的—現(xiàn)代的”“簡(jiǎn)潔的—復(fù)雜的”“艷麗的—淡雅的”5組常用情感詞對(duì)來描述男西裝圖像的情感語義,這些離散情感形容詞符合人們?nèi)粘5闹庇X和常識(shí),適合描述織物圖像情感。
領(lǐng)帶作為服飾品,有不同的搭配需要。條紋、方格、菱形格等,通常用來表現(xiàn)公司白領(lǐng)自信優(yōu)雅、成熟大方的氣質(zhì);鮮艷的顏色配以其他圖案給人輕松隨意的感覺,通常用于日常著裝搭配休閑的襯衫西裝;亮色的經(jīng)緯交錯(cuò)發(fā)光領(lǐng)帶給人高調(diào)和閃亮的感覺,通常用來參加晚宴;夸張的色彩、怪誕的圖案則用來表現(xiàn)新潮,給人前衛(wèi)的感覺。圖案作為領(lǐng)帶構(gòu)成的重要組成部分,有豐富的表現(xiàn)內(nèi)容,既可傳統(tǒng)復(fù)古也可時(shí)尚摩登,因此,不同的色彩、紋理、圖案結(jié)合會(huì)營(yíng)造出領(lǐng)帶或精致或粗獷,或古典或現(xiàn)代等不同的藝術(shù)風(fēng)格。結(jié)合文獻(xiàn)[2-3]、[12-14]綜合選出可描述領(lǐng)帶花型情感的7組描述詞,再由浙江理工大學(xué)服裝學(xué)院從事服飾品設(shè)計(jì)的專家挑選出最能表現(xiàn)領(lǐng)帶情感的5組,分別為:“正式的—休閑的”“艷麗的—淡雅的”“復(fù)雜的—簡(jiǎn)潔的”“古典的—現(xiàn)代的”“活躍的—沉悶的”。
給人美感的領(lǐng)帶花型一般具有對(duì)稱的結(jié)構(gòu)、合理的空間分布、簡(jiǎn)潔明快的紋理、和諧的色彩分布以及較為豐富的顏色層次[15]。從圖像情感的角度,物體不同的色彩、紋理、形狀等會(huì)讓人產(chǎn)生喜好、興奮、厭惡等心理活動(dòng),設(shè)計(jì)與提取圖像中較易引起用戶情感變化的特征圖像是情感特征提取的核心內(nèi)容,即建立圖像特征到織物情感的映射關(guān)系。這本質(zhì)上就是構(gòu)建一個(gè)合理的計(jì)算模型,計(jì)算用戶的情感空間與圖像特征之間的關(guān)系。研究者們對(duì)表征圖像情感的特征做了大量研究,本文從經(jīng)驗(yàn)出發(fā),借鑒織物圖案設(shè)計(jì)的藝術(shù)形式的美感規(guī)則,使用以下特征:按色彩、深淺、明暗來描述模型的HSV顏色特征;濾波器頻率、方向與人類的視覺系統(tǒng)類似的紋理特征Gabor。
色彩是表達(dá)情感的一門藝術(shù),服飾品給人的第一感覺就是色彩,不同的色彩配置極大地影響著人們的視覺感受和情緒狀態(tài),是審美感受的特殊語言。例如紅色給人熱情的感覺,藍(lán)色給人純潔的感覺,紫色給人高貴神秘的感覺。色彩能引起人的心理聯(lián)想,從而讀懂色彩所表達(dá)的情感。HSV顏色空間是針對(duì)用戶觀感的一種顏色模型,側(cè)重于色彩表示,更適合用來表征情感特征。色相的暖色調(diào)表現(xiàn)溫暖、活躍,冷色調(diào)表現(xiàn)涼爽、冷漠;高飽和度的圖像令人興奮、愉快,有時(shí)代感,低飽和度的圖像顯示樸素。由RGB色彩模式到HSV的轉(zhuǎn)換公式如下:
V=max(R,G,B)
H=H+360,當(dāng)H<0時(shí)
式中:H為圖像的色相;S為飽和度;V為亮度。
紋理是織物的重要特征,包含了豐富的圖像構(gòu)成信息,在情感分析中占據(jù)重要地位。紋理與色調(diào)組合可表達(dá)情緒,如平滑且冷色調(diào)給人涼爽的感受,粗糙且暖色調(diào)給人溫暖的感覺。Gabor濾波器的頻率和方向與人類的視覺系統(tǒng)類似,適于圖像紋理特征描述。本文采用Gabor特征來表征紋理特征,用公式可表示為
式中:F為每個(gè)像素點(diǎn)濾波后的輸出特征;p、q為圖像像素點(diǎn)的位置;m、l分別定義為小波變換的方向和尺度;分母為標(biāo)準(zhǔn)化因子。
在織物圖像的情感分類中,本文參考Alexnet網(wǎng)絡(luò)模型[6]建立了網(wǎng)絡(luò)結(jié)構(gòu),采用并行CNN結(jié)構(gòu)進(jìn)行圖像情感分類。本文提出的并行CNN結(jié)構(gòu)由3路結(jié)構(gòu)相同的CNN構(gòu)成,如圖2所示。輸入數(shù)據(jù)分別為RGB像素值、經(jīng)HSV變換后的S通道、平滑濾波處理后經(jīng)小波變換提取的紋理特征;每個(gè)單路CNN由4個(gè)卷積層、1個(gè)全連接層構(gòu)成;最后經(jīng)Softmax分類器輸出織物圖像的情感類別。圖2中數(shù)據(jù)表示圖像像素或神經(jīng)元個(gè)數(shù)。
圖2 并行CNN結(jié)構(gòu)Fig.2 Structure of parallel CNN
本文根據(jù)CNN應(yīng)用中網(wǎng)絡(luò)層數(shù)與數(shù)據(jù)庫數(shù)量級(jí)之間的關(guān)系,設(shè)計(jì)了適應(yīng)織物圖像的CNN模型,通過實(shí)驗(yàn)不斷調(diào)整網(wǎng)絡(luò)層數(shù)與參數(shù),以得到較好的模型。每一路CNN的具體參數(shù)設(shè)置如下。
輸入層:將原始圖像按比例裁減成256像素×256像素×3像素,再進(jìn)行HSV轉(zhuǎn)換取通道S,平滑濾波后提取Gabor紋理特征。由于樣本數(shù)量較少,因此,本文對(duì)圖像庫中的圖像進(jìn)行數(shù)據(jù)增強(qiáng)[16],通過裁剪每幅圖像左上角、左下角、右上角、右下角、中間部分并鏡像得到10幅224像素×224像素×3像素的圖像。
卷積層1:使圖像經(jīng)過48個(gè)11像素×11像素的卷積核,步長(zhǎng)為4,得到55像素×55像素的特征圖;使用ReLU激勵(lì)函數(shù),用3像素×3像素的核進(jìn)行步長(zhǎng)為2的最大池化;最后進(jìn)行LRN處理。
卷積層2:使用128個(gè)5像素×5像素的過濾器對(duì)48個(gè)27像素×27像素的特征圖進(jìn)一步提取特征,過濾器是對(duì)48個(gè)特征圖中的某幾個(gè)特征圖中相應(yīng)的區(qū)域乘以相應(yīng)的權(quán)重,然后加上偏置之后所得到區(qū)域進(jìn)行卷積,寬度高度均填充2像素,最后進(jìn)行步長(zhǎng)為2的最大池化,得到128個(gè)13像素×13像素的特征圖。
卷積層3:寬度高度均填充1像素,有 192個(gè)大小為3像素×3像素的核被連接到第2個(gè)卷積層的輸出,步長(zhǎng)為1,得到192個(gè)13像素×13像素的新特征圖,再利用ReLU激勵(lì)函數(shù)。
卷積層4:寬度高度均填充1像素,結(jié)構(gòu)同卷積層3,再用3像素×3像素的核進(jìn)行步長(zhǎng)為2的最大池化,得到128個(gè)6像素×6像素的新特征圖。
全連接層:1 024個(gè)神經(jīng)元。
根據(jù)第2節(jié)中確定的領(lǐng)帶花型的情感描述詞,將圖像庫分為5個(gè)類別:類別1為“正式的—休閑的”,可描述領(lǐng)帶用途;類別2為“艷麗的—淡雅的”可描述領(lǐng)帶色彩;類別3為“復(fù)雜的—簡(jiǎn)潔的”可描述領(lǐng)帶構(gòu)造;類別4為“古典的—現(xiàn)代的”可描述領(lǐng)帶風(fēng)格;類別5為“活躍的—沉悶的”可描述領(lǐng)帶性格表現(xiàn)。
然后請(qǐng)專家對(duì)本文選出的4 234張不同風(fēng)格、顏色的領(lǐng)帶花型圖像進(jìn)行情感評(píng)價(jià)。參考PhotoQualityDataset[17]中美感評(píng)價(jià)方法,評(píng)價(jià)者在 5對(duì)情感描述詞中分別做出選擇:前一個(gè)標(biāo)簽、后一個(gè)標(biāo)簽、不確定,由此獲得4 234幅圖像的標(biāo)簽。當(dāng) 8位及以上評(píng)價(jià)者的評(píng)價(jià)標(biāo)簽相同時(shí),確定該標(biāo)簽為圖像的最后標(biāo)簽,去除不確定標(biāo)簽圖像后,得到圖像樣本庫,由此分別建立了5組織物類別,示例樣本如圖3所示。
圖3 織物情感圖像庫示例樣本Fig.3 Library of fabric emotion images. (a) Formal; (b) Casual; (c) Gorgeous; (d) Elegant; (e) Complex; (f) Concise; (g) Classic; (h) Modern; (i) Active;(j)Boring
在進(jìn)行實(shí)驗(yàn)時(shí),針對(duì)每對(duì)感情詞在樣本庫中隨機(jī)選取3 000幅圖像,其中2 000幅作為訓(xùn)練樣本, 1 000幅作為檢測(cè)樣本。將織物圖像像素值RGB、HSV通道S、紋理Gabor特征并行輸入CNN網(wǎng)絡(luò),網(wǎng)絡(luò)結(jié)構(gòu)和網(wǎng)絡(luò)參數(shù)見第4節(jié)。實(shí)驗(yàn)環(huán)境為1塊NVIDIA-GTX1080 GPU,使用Caffe框架[18]部署的CNN模型。訓(xùn)練時(shí)采用BP算法調(diào)整參數(shù),由于樣本量較小,學(xué)習(xí)率設(shè)置為0.005,批處理Batch size為64,迭代次數(shù)2萬次。實(shí)驗(yàn)結(jié)果如表1所示。
表1 并行CNN分類準(zhǔn)確率
由表1可知,用并行CNN對(duì)5類情感詞進(jìn)行分類時(shí),在類別2中分類準(zhǔn)確率最高,為94.8%,在類別3中最低,為89.7%,可基本滿足對(duì)織物圖像的情感分類需求。
選用織物圖像庫中類別2的樣本,使用不同卷積層次的網(wǎng)絡(luò)、濾波器數(shù)目、不同特征組合分別進(jìn)行對(duì)比實(shí)驗(yàn),具體參數(shù)與結(jié)果如表2~4所示。
表2 不同卷積層次的情感分類準(zhǔn)確率Tab.2 Accuracy of image emotion classification using CNN with different number of layers %
注:“√”表示結(jié)構(gòu)中含有該層。
表3 不同濾波器參數(shù)的情感分類準(zhǔn)確率Tab.3 Accuracy of image emotion classification using CNN with different parameters %
表4 不同特征組合輸入的情感分類準(zhǔn)確率Tab.4 Accuracy of image emotion classification using CNN with different input of features %
表2、3結(jié)果顯示,本文使用的4層卷積網(wǎng)絡(luò)結(jié)構(gòu)獲得的分類準(zhǔn)確率最高。相同的網(wǎng)絡(luò)層數(shù),濾波器個(gè)數(shù)越多,可學(xué)習(xí)到的特征圖層數(shù)量越多,分類表現(xiàn)越好,但濾波器個(gè)數(shù)的增多會(huì)造成網(wǎng)絡(luò)訓(xùn)練參數(shù)的大量增長(zhǎng),在小樣本數(shù)據(jù)庫中易造成過擬合等不利現(xiàn)象。從表4可知,在單路輸入特征時(shí),輸入像素值RGB的分類準(zhǔn)確率最高,HSV通道次之,Gabor紋理特征較差,由此可見,色調(diào)是影響織物情感的較為重要的因素。RGB與通道H、通道V并行的網(wǎng)絡(luò)正確率不增反降,本文使用像素值RGB+S通道+紋理Gabor特征得到的分類準(zhǔn)確率最高。
將文獻(xiàn)[1-3]、[ 19]中提到的特征提取方法與本文方法進(jìn)行了對(duì)比,采用本文的圖像庫進(jìn)行驗(yàn)證,對(duì)比結(jié)果見表5。可以看出,本文方法比傳統(tǒng)基于手工特征的分類方法情感分類準(zhǔn)確率高。這主要是因?yàn)閳D像情感是人的主觀感覺,并不能單純通過某幾種手工特征完全映射人的情感表達(dá);而CNN可自動(dòng)提取特征,通過大量樣本的訓(xùn)練可挖掘數(shù)據(jù)的局部特征、全局特征和上下文信息,在推理規(guī)則不明確的情況下從大量樣本中提取與人真實(shí)的情感相匹配的情感特征,泛化能力強(qiáng)。
表5 本文與傳統(tǒng)方法的情感分類準(zhǔn)確率Tab.5 Accuracy of image emotion classification using proposed method and traditional methods %
將本文提出的并行CNN模型與LeNet-5模型(2層卷積,1層全連接)、AlexNet模型(5層卷積,3層全連接)、VGG模型(13層卷積,3層全連接)這 3種經(jīng)典的CNN網(wǎng)絡(luò)模型在領(lǐng)帶花型圖像庫中進(jìn)行訓(xùn)練并檢測(cè),結(jié)果見表6??梢钥吹?,本文提出的方法分類準(zhǔn)確率最高,表現(xiàn)較LeNet-5模型、Vgg-16模型、Alexnet模型更好。這主要是因?yàn)長(zhǎng)eNet-5模型最初的設(shè)計(jì)是應(yīng)用于數(shù)字識(shí)別,識(shí)別目標(biāo)簡(jiǎn)單且背景單一,但在處理目標(biāo)較為復(fù)雜的圖像時(shí),分類能力受到了限制;Vgg-16模型網(wǎng)絡(luò)過深,使用大量卷積操作,對(duì)于領(lǐng)帶花型的小樣本數(shù)據(jù)訓(xùn)練較為困難,較難得到泛化效果好的模型;本文在Alexnet模型的基礎(chǔ)上提出的CNN模型,融合了手工美學(xué)特征,在一定程度上克服了小樣本情況下CNN模型識(shí)別率較低的不足。
表6 與流行網(wǎng)絡(luò)模型的情感分類準(zhǔn)確率Tab.6 Emotional classification accuracy of E-net and other popular models %
本文提出了融合手工美學(xué)特征的基于并行CNN的織物情感分類方法,實(shí)現(xiàn)了領(lǐng)帶花型的情感分類。該方法在一定程度上克服了傳統(tǒng)美學(xué)評(píng)價(jià)方法提取的手工特征難以全面表征織物情感的不足,以及在小樣本情況下CNN模型識(shí)別率較低的缺點(diǎn)。從實(shí)驗(yàn)結(jié)果來看,提出的CNN模型較傳統(tǒng)手工特征方法與流行CNN模型有更好的情感分類效果。
在連接并行的CNN時(shí),采用最簡(jiǎn)單的連接方式且在各路網(wǎng)絡(luò)中使用了相同參數(shù)。由于不同的情感特征對(duì)應(yīng)的圖像特征不同,相同的CNN結(jié)構(gòu)和參數(shù)不利于提高分類準(zhǔn)確率。在后續(xù)的研究工作中,將擴(kuò)大樣本圖像庫,通過CNN各層的特征可視化探索不同特征對(duì)應(yīng)的最優(yōu)網(wǎng)絡(luò)結(jié)構(gòu),賦予不同的權(quán)重,這有助于訓(xùn)練出更好的CNN情感模型。