王欣,穆紹碩,陳華鋒
(1.北京中盾安全技術(shù)開發(fā)公司,北京100044;2.浙江傳媒學(xué)院媒體工程學(xué)院,浙江杭州310018)
移動(dòng)互聯(lián)網(wǎng)時(shí)代,圖像與視頻數(shù)據(jù)量呈爆發(fā)式增長,迫切需要能自動(dòng)檢索并推送高美學(xué)質(zhì)量的圖像或視頻,因此,對(duì)圖像進(jìn)行美學(xué)質(zhì)量客觀評(píng)價(jià)和篩選已成為人機(jī)交互的重點(diǎn),迫切需要研究一種高效的圖像美學(xué)客觀評(píng)價(jià)方法,目前圖像美學(xué)分類已成為研究熱點(diǎn)。傳統(tǒng)方法通常用信噪比和結(jié)構(gòu)相似度評(píng)價(jià)圖像畫質(zhì),因此,只能評(píng)估噪聲、變形、清晰度等,無法評(píng)估具有情感色彩的視覺美學(xué)質(zhì)量。隨后,研究者通過手工提取的美學(xué)特征實(shí)現(xiàn)美感分類,如顏色直方圖和邊緣分布等[1-3],但其屬于手工設(shè)計(jì),無實(shí)質(zhì)性突破,與人類視覺真實(shí)美感評(píng)估相差甚遠(yuǎn)。同時(shí),圖像美感較易受主觀影響,僅靠幾種特例顯然無法做全面、可靠的評(píng)估,需另尋他法,神經(jīng)網(wǎng)絡(luò)成為有效解決此問題的方案。卷積神經(jīng)網(wǎng)絡(luò)(CNN)是各種神經(jīng)網(wǎng)絡(luò)中最強(qiáng)大的學(xué)習(xí)結(jié)構(gòu)之一,已成為計(jì)算機(jī)視覺領(lǐng)域的研究熱點(diǎn)[4-18]。AVA數(shù)據(jù)集[4]包含250 000個(gè)具有美學(xué)評(píng)級(jí)的圖像和14 000個(gè)帶有樣式標(biāo)簽的子集,使得用深度學(xué)習(xí)方法自動(dòng)學(xué)習(xí)美學(xué)特征成為可能。KARAYEV等[5]通過CNN網(wǎng)絡(luò)提取特征,對(duì)圖像風(fēng)格進(jìn)行了有效分類。王偉凝等[6]提出的并行深度卷積神經(jīng)網(wǎng)絡(luò)圖像美學(xué)分類方法,可有效提取美學(xué)特征,實(shí)現(xiàn)美學(xué)二級(jí)標(biāo)簽分類。李素梅等[7]基于卷積神經(jīng)網(wǎng)絡(luò)模型,提出一種評(píng)價(jià)立體圖像舒適度的方法。文獻(xiàn)[13]利用全局和局部2個(gè)視角設(shè)計(jì)的CNN模型,可用于美學(xué)評(píng)估分類。DONG等[14-15]用分類器對(duì)手工和神經(jīng)網(wǎng)絡(luò)提取的特征進(jìn)行分類,效果很好;LI等[16]提出了一種基于圖像內(nèi)容的嵌入微調(diào)卷積神經(jīng)網(wǎng)絡(luò)方法評(píng)價(jià)圖像美學(xué)質(zhì)量,解決了數(shù)據(jù)規(guī)模小的問題。LU等[18]提出了一種基于深度學(xué)習(xí)的圖像美學(xué)快速評(píng)價(jià)系統(tǒng),采用新的深度神經(jīng)網(wǎng)絡(luò)方法實(shí)現(xiàn)了特征的自動(dòng)學(xué)習(xí)。
雖然上述方法取得了一定成果,但仍存在不足:(1)通常采用二分類標(biāo)簽(“好”或“壞”)等單一指標(biāo)評(píng)估圖像美學(xué)質(zhì)量,無法區(qū)分同類標(biāo)簽圖像的美感優(yōu)劣,如文獻(xiàn)[10-12,19-20];(2)CNN 要求輸入的圖像尺寸固定,文獻(xiàn)[12,18,21-22]等對(duì)外部訓(xùn)練圖像預(yù)處理較簡(jiǎn)單,只是簡(jiǎn)單地將其插值到固定尺寸,影響圖像的美學(xué)特征分布。為解決以上問題,本文提出一種基于全局和局部特征的多輸入源圖像美學(xué)量化評(píng)價(jià)方法。在網(wǎng)絡(luò)輸入端,采用幾種不同表示方法獲取圖像的全局視圖和局部視圖,并將其聯(lián)合作為輸入;在網(wǎng)絡(luò)輸出端,以EMD為新的損失函數(shù),將1~10分的概率密度質(zhì)量函數(shù)作為神經(jīng)網(wǎng)絡(luò)模型的輸出,并以均值作為量化值。實(shí)驗(yàn)證明,本文方法具有可行性和有效性,圖像美學(xué)的客觀評(píng)分值與實(shí)際評(píng)分值十分接近,分類準(zhǔn)確率也較一般方法高。
基于CNN的圖像美學(xué)量化方法步驟:(1)預(yù)處理外部圖像,構(gòu)建訓(xùn)練數(shù)據(jù)集;(2)構(gòu)建高效的CNN網(wǎng)絡(luò)模型;(3)利用訓(xùn)練數(shù)據(jù)集訓(xùn)練并優(yōu)化網(wǎng)絡(luò)參數(shù);(4)利用訓(xùn)練好的模型對(duì)圖像或視頻進(jìn)行美學(xué)量化評(píng)分。
針對(duì)現(xiàn)有算法對(duì)圖像美學(xué)質(zhì)量評(píng)價(jià)單一和預(yù)處理簡(jiǎn)單等問題,提出了一種改進(jìn)的多尺度特征提取網(wǎng)絡(luò)模型,網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。首先,在輸入端提取外部訓(xùn)練圖像的全局視圖和局部視圖,并將兩視圖聯(lián)合作為輸入;其次,構(gòu)建多尺度特征提取網(wǎng)絡(luò)模型,通過組合1×1,3×3和5×5三種尺度的卷積核,使圖像特征提取更充分。最后,在softmax層以EMD為損失函數(shù),用1~10分的概率密度質(zhì)量函數(shù)作為神經(jīng)網(wǎng)絡(luò)模型的輸出,評(píng)價(jià)圖像,并以均值作為精確評(píng)價(jià)值。
圖1 算法的網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 Network structure of the algorithm
將CNN應(yīng)用于美學(xué)質(zhì)量分類并非易事。因?yàn)镃NN要求輸入固定尺寸的圖像,而每幅圖像的尺寸是不同的,圖像的長寬比、分辨率和細(xì)節(jié)等均會(huì)影響圖像的美學(xué)等級(jí),因此很難直接訓(xùn)練CNN網(wǎng)絡(luò);大多研究只是簡(jiǎn)單地將圖像插值至CNN網(wǎng)絡(luò)所需尺寸,如圖2中g(shù)1所示,易造成圖像美學(xué)特征發(fā)生變化,影響后續(xù)評(píng)估。如何對(duì)輸入圖像的全局視圖和局部視圖進(jìn)行自動(dòng)美學(xué)特征學(xué)習(xí)成為一大難題。為解決此問題,筆者提出將圖像的全局視圖和局部視圖進(jìn)行深度融合,并將融合圖作為輸入(s×s×15),如圖 2所示,實(shí)驗(yàn)中,將CNN所需的固定尺寸s設(shè)置為224。本文數(shù)據(jù)集選自專業(yè)的圖像美學(xué)數(shù)據(jù)集AVA庫,每幅圖像均由200個(gè)不同職業(yè)、不同年齡的人進(jìn)行評(píng)分,評(píng)分值為1~10(最高美學(xué)評(píng)分為10分),每幅圖像都用相應(yīng)的美學(xué)評(píng)分直方圖作為本文神經(jīng)網(wǎng)絡(luò)模型的標(biāo)簽,見圖2(標(biāo)簽)。
圖2 圖像預(yù)處理過程Fig.2 Image preprocessing process
對(duì)于全局視圖,為充分保持原始圖像的美學(xué)特征并輸入CNN固定尺寸圖像,提出3種變換組合以形成全局視圖。直接縮放(g1):將原始圖像直接插值至固定尺寸(s×s×3);短邊規(guī)格(g2):以原始圖像的短邊規(guī)格為固定長度s的倍數(shù)調(diào)整圖像尺寸,并裁剪中心區(qū)域尺寸為s×s×3的圖像;長邊規(guī)格(g3):以原始圖像的長邊規(guī)格為固定長度s的倍數(shù)調(diào)整圖像尺寸,并用零填充邊界元素,以生成s×s×3尺寸的圖像。
對(duì)于局部視圖,獲取全局視圖需調(diào)整原始圖像的尺寸,會(huì)導(dǎo)致部分高分辨率局部美學(xué)信息的丟失,因此,本文的局部視圖由原始圖像中隨機(jī)裁剪的2組固定尺寸(s×s×3)圖像塊l1,l2組成。
對(duì)圖像或視頻進(jìn)行美學(xué)評(píng)估需要通過網(wǎng)絡(luò)模型充分提取光影、亮度、構(gòu)圖、顏色等“美”學(xué)特征,因此,設(shè)計(jì)能充分提取美學(xué)特征的網(wǎng)絡(luò)結(jié)構(gòu)至關(guān)重要。網(wǎng)絡(luò)由4層多尺度特征提取單元(如圖3所示)組成。其中,網(wǎng)絡(luò)單元由特征提取層、融合層和映射層組成,Conv表示卷積操作,ReLU表示非線性激活函數(shù)。針對(duì)美學(xué)特征,提出由1×1,3×3和5×5三種尺度的卷積核(步長皆為1)并列組成特征提取層,其具有不同的感受野,能提取不同尺度的特征,同時(shí),5×5大卷積核能提取相關(guān)性不強(qiáng)的特征。融合層采用級(jí)聯(lián)的方式將這些包含多尺度信息的特征圖合并,重組為新的特征圖;為降低維度和提高網(wǎng)絡(luò)的泛化能力,增加了1×1卷積的特征映射層。
圖3 多尺度特征提取單元Fig.3 Multi-scale feature extraction unit
AVA數(shù)據(jù)集是圖像美學(xué)分類訓(xùn)練集的重要來源,包括幾十萬幅社交圖片,經(jīng)不同行業(yè)、不同年齡的200多人對(duì)每幅圖片進(jìn)行主觀美學(xué)評(píng)分,構(gòu)建1~10分的概率密度函數(shù)P,并建立“0”差和“1”美2類標(biāo)簽。P為主觀統(tǒng)計(jì)評(píng)分,具有廣泛性和真實(shí)性,
其中,s1=1,s2=2,…,s10=10,表示分?jǐn)?shù)級(jí),psi表示相應(yīng)分?jǐn)?shù)級(jí)的概率,傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)softmax分類輸出層通常用交叉熵函數(shù)執(zhí)行等級(jí)分類任務(wù),而圖像美學(xué)評(píng)分的輸出(1~10分)是有序的,交叉熵函數(shù)無法體現(xiàn)此類間關(guān)系,HOU等[16]提出可通過EMD函數(shù)實(shí)現(xiàn)基于類間有序的數(shù)據(jù)集訓(xùn)練,為此,選取圖像的統(tǒng)計(jì)概率密度函數(shù)P為標(biāo)簽,在損失層選用EMD函數(shù),訓(xùn)練后輸出與P一致的概率密度質(zhì)量函數(shù),并將概率密度質(zhì)量函數(shù)的均值μ和方差σ作為圖像或視頻的美學(xué)評(píng)價(jià)量化值,EMD函數(shù)為
EMD定義為實(shí)際的概率密度函數(shù)P與估計(jì)的概率密度質(zhì)量函數(shù)P^的最小代價(jià),累計(jì)分布函數(shù)質(zhì)量評(píng)級(jí)排序?yàn)閟1<s2<···<sN,其中,N=10。
為驗(yàn)證本文方法的性能,選用圖像美學(xué)評(píng)價(jià)領(lǐng)域通用的AVA數(shù)據(jù)集進(jìn)行測(cè)試實(shí)驗(yàn)。根據(jù)實(shí)驗(yàn)需要,選取AVA數(shù)據(jù)集中1~10分各分?jǐn)?shù)段圖像共2 000幅,用其中的10%作為測(cè)試集,在網(wǎng)絡(luò)參數(shù)初始化階段,采用ImageNet分類數(shù)據(jù)庫初始化CNN架構(gòu)網(wǎng)絡(luò)參數(shù),全連接層采用隨機(jī)初始化,動(dòng)量設(shè)置為0.9,網(wǎng)絡(luò)訓(xùn)練學(xué)習(xí)率設(shè)置為0.001,迭代后期再逐漸減小學(xué)習(xí)率。
基于AVA數(shù)據(jù)集,所有對(duì)比實(shí)驗(yàn)均用相同的訓(xùn)練集和測(cè)試集。圖4為本文方法對(duì)AVA數(shù)據(jù)集中測(cè)試集的部分處理結(jié)果,其中,每幅子圖下方括號(hào)內(nèi)的值為本文方法的結(jié)果,即概率密度質(zhì)量函數(shù)的均值;括號(hào)外的值為AVA數(shù)據(jù)集中的評(píng)分。直方圖是對(duì)應(yīng)圖像的概率密度質(zhì)量函數(shù),橫坐標(biāo)為分?jǐn)?shù),縱坐標(biāo)為對(duì)應(yīng)的概率密度,求均值便得到本文方法對(duì)圖像美學(xué)的量化評(píng)分。由圖4可知,本文方法得到的圖像美學(xué)量化評(píng)分與AVA數(shù)據(jù)集評(píng)分十分接近,因此,本文方法是可行和有效的。
圖4 圖像美學(xué)量化評(píng)分結(jié)果Fig.4 Image aesthetics quantitative scoring results
本文方法給出了圖像美學(xué)的量化評(píng)分,而LU等[15]、KONG 等[18]和 MAI等[14]經(jīng)典的圖像美學(xué)評(píng)價(jià)方法均無法給出量化評(píng)分。為方便與這些方法進(jìn)行圖像美學(xué)分類準(zhǔn)確度比較,進(jìn)行了圖像美學(xué)分類實(shí)驗(yàn),并將圖像評(píng)分的測(cè)試結(jié)果分為2級(jí),高于5分的為高美學(xué)圖像,低于5分的為低美學(xué)圖像。本文方法與3種常用的圖像美學(xué)評(píng)價(jià)方法的對(duì)比結(jié)果如表1所示,由表1可知,本文方法的分類準(zhǔn)確率高于其他3種方法。從評(píng)分誤差均值看,本文方法在預(yù)測(cè)真實(shí)評(píng)分過程中的誤差并不小,有待在以后的工作中做進(jìn)一步研究和改進(jìn)。
表1 不同方法的AVA測(cè)試集實(shí)驗(yàn)對(duì)比Table 1 Experimental comparison of different methods on AVA dataset
提出了一種基于多尺度特征提取網(wǎng)絡(luò)的圖像美學(xué)客觀量化評(píng)分方法,用于解決圖像美學(xué)質(zhì)量評(píng)價(jià)單一和訓(xùn)練集預(yù)處理簡(jiǎn)單等問題。所用網(wǎng)絡(luò)模型由多個(gè)多尺度特征提取單元級(jí)聯(lián)組成,構(gòu)造了訓(xùn)練圖像的全局視圖和局部視圖,并將兩視圖聯(lián)合作為輸入,最后以EMD為損失函數(shù),輸出分布為1~10分的概率密度質(zhì)量函數(shù),并以均值作為圖像美學(xué)的客觀量化值。實(shí)驗(yàn)表明,本文方法能較好地對(duì)圖像美學(xué)做量化評(píng)價(jià),但所得結(jié)果與真實(shí)評(píng)分值存在一定差異,算法精度有待進(jìn)一步提高。