邵 杭,王永雄,秦宇龍
(上海理工大學(xué) 光電信息與計算機(jī)工程學(xué)院,上海 200093)
隨著信息技術(shù)的發(fā)展,數(shù)字圖像對社會生活的影響日益深遠(yuǎn),并已成為社交、傳媒、商業(yè)活動的重要載體。但是受限于攝影器材、拍攝環(huán)境、拍攝者攝影水平和鑒賞者鑒賞能力等因素,許多數(shù)字圖像往往難以滿足較高的美學(xué)要求。此外,由于數(shù)字圖像的后期處理工作極為繁瑣,無論是對于專業(yè)人士還是業(yè)余愛好者,都會被其占用大量的時間和精力。因此,利用計算機(jī)圖形學(xué)、數(shù)字圖像處理技術(shù)和人工智能算法對圖像進(jìn)行符合美學(xué)的優(yōu)化,無論是在計算機(jī)輔助設(shè)計領(lǐng)域,還是圖像美學(xué)質(zhì)量評價領(lǐng)域,都具有重要的研究意義和廣泛的應(yīng)用前景。
圖像美學(xué)是一門交叉學(xué)科,縱觀數(shù)字圖像處理和人工智能在該領(lǐng)域的發(fā)展,對圖像美學(xué)的研究呈現(xiàn)出了兩個不同的發(fā)展趨勢:其一是以機(jī)器學(xué)習(xí)和深度學(xué)習(xí)為代表的圖像美學(xué)質(zhì)量評價,即利用計算機(jī)算法,從模擬人類視覺感知[1]的角度出發(fā),基于一定的評價指標(biāo)[2-3]自動評價圖像質(zhì)量的高低。然而相較于物體識別、目標(biāo)檢測等的語義特征[4],人類審美的奧秘目前尚未有可量化的科學(xué)解釋[5]。圖像美學(xué)質(zhì)量評價在具備客觀性的同時,還存在很強(qiáng)的主觀性[6-7];其二是基于已知的圖像美學(xué)原則,對圖像進(jìn)行自動優(yōu)化,例如利用生成式對抗網(wǎng)絡(luò)(Generative Adversarial Network)實(shí)現(xiàn)圖像的域間風(fēng)格轉(zhuǎn)換[8];利用雙邊濾波算法實(shí)現(xiàn)人物圖像的自動美顏[9];利用深度卷積神經(jīng)網(wǎng)絡(luò)并融合多項(xiàng)損失函數(shù)實(shí)現(xiàn)圖像的實(shí)時畫質(zhì)增強(qiáng)[10]等。研究表明,在影響圖像美學(xué)質(zhì)量的諸多因素中,例如光影、明暗、虛實(shí)、景深、色彩飽和度和色調(diào)對比度等,構(gòu)圖被認(rèn)為是最重要的評價指標(biāo)[11-12]。同時,基于傳統(tǒng)的數(shù)字圖像處理技術(shù),例如圖像去噪、銳化、均衡化、亮度和對比度增強(qiáng)等均屬于面向圖像底層像素信息的優(yōu)化,構(gòu)圖優(yōu)化則更關(guān)注圖像高層信息特征[13-14]及美學(xué)質(zhì)量的優(yōu)化方法。
近年來,研究者們針對圖像構(gòu)圖優(yōu)化問題提出了許多新穎的解決方法。Bhattacharya等人[15]提出了一種交互式的優(yōu)化算法,其將優(yōu)化系統(tǒng)分為兩個模塊,分別為訓(xùn)練美學(xué)評價的回歸器和根據(jù)美學(xué)評價重定位用戶選擇區(qū)域主體的分類器,以獲得高美學(xué)評分的重定位圖像來實(shí)現(xiàn)構(gòu)圖優(yōu)化。Jin等人[16]在此基礎(chǔ)上,結(jié)合圖像裁剪和網(wǎng)格形變,使圖像處理前后的尺寸比例關(guān)系保持一致,以盡可能多地保護(hù)圖像原有信息。Guo等人[17]利用顯著性和Content Aware Seam Carving算法,基于圖像內(nèi)容的比例縮放進(jìn)行圖像重構(gòu)。Zhang等人[18]在此基礎(chǔ)上通過提取圖像前景區(qū)域的方法消除人工裁剪痕跡。Wang等人[19]利用圖像顯著性特征及Hough直線檢測算法進(jìn)行構(gòu)圖優(yōu)化。Xiong[20]基于長直線幾何形變,利用仿射變換對圖像進(jìn)行旋轉(zhuǎn)校正。Chen等人[21]通過對圖像像素點(diǎn)數(shù)量線性相關(guān)性的復(fù)雜度進(jìn)行計算實(shí)現(xiàn)圖像重構(gòu)。Chen等人[22]通過去除圖像畫面主體之外的冗余場景裁剪圖像來實(shí)現(xiàn)優(yōu)化。Wang等人[23]基于帶語義信息的雙通道卷積網(wǎng)絡(luò),通過預(yù)測圖像邊界框和主體特征實(shí)現(xiàn)了裁剪重構(gòu)。
為了解決圖像畫面平衡感缺失和畫面主體構(gòu)圖不合理等問題,本文提出了一種基于深度學(xué)習(xí)和顯著性模型的圖像美學(xué)構(gòu)圖優(yōu)化算法。本文利用深度卷積神經(jīng)網(wǎng)絡(luò)對圖像進(jìn)行顯著性檢測,提取主體特征,結(jié)合視覺平衡原理和三分構(gòu)圖法則來進(jìn)行圖像自動裁剪重構(gòu)。本文深度網(wǎng)絡(luò)架構(gòu)以VGG-16作為主干,加權(quán)兩項(xiàng)損失函數(shù)并以圖像像素數(shù)目值進(jìn)行平均,可在訓(xùn)練后實(shí)現(xiàn)端到端的全分辨率顯著性回歸,無需進(jìn)行任何預(yù)處理和后處理,且在精度和性能上較傳統(tǒng)算法均有明顯提高。本文利用攝影圖像驗(yàn)證所提出方法的科學(xué)性和有效性。實(shí)驗(yàn)結(jié)果證明,相較于目前傳統(tǒng)的構(gòu)圖優(yōu)化方法,本文算法在改善視覺平衡方面具有明顯優(yōu)勢,處理后的圖像畫面平衡感得到顯著提升,更符合美學(xué)評價原則,且更契合美學(xué)評價原則和人的視覺感受,處理后的構(gòu)圖達(dá)到更為諧調(diào)、自然、平衡的效果。
構(gòu)圖是指根據(jù)圖像題材和畫面主體等要素,通過一定的關(guān)系將所要表現(xiàn)的對象以適當(dāng)?shù)男问浇M織起來,構(gòu)成一個協(xié)調(diào)的整體。構(gòu)圖被廣泛地應(yīng)用在攝影、繪畫、設(shè)計和圖像美學(xué)評價等領(lǐng)域。在攝影中,為追求美學(xué)效果,需要遵循一定的構(gòu)圖方法[24]。常用的經(jīng)典構(gòu)圖方法有十余種,包括對稱式、框架式、中心構(gòu)圖、三角形構(gòu)圖、引導(dǎo)線構(gòu)圖、對角線構(gòu)圖、黃金螺旋構(gòu)圖等。這些方法繁雜林立,給利用計算機(jī)算法進(jìn)行圖像美學(xué)自動優(yōu)化帶來了一定困擾。因此,本文基于奧卡姆剃刀定律,選擇三分法則和視覺平衡原理進(jìn)行構(gòu)圖優(yōu)化。
三分法則利用黃金分割比例,設(shè)一條直線段長度為h(h=h1+h2),當(dāng)滿足h1/h2=h2/(h1+h2)的比例關(guān)系時,即可獲得最佳的視覺平衡效果,從而使圖像畫面達(dá)到一種更為有序、穩(wěn)定的狀態(tài)。利用這種關(guān)系,可將圖像畫面分割為9個區(qū)域,形成3×3的網(wǎng)絡(luò)布局以及4個稱之為錨點(diǎn)的分割線交點(diǎn),如圖1所示。構(gòu)圖時,將所要突出的顯著主體置于錨點(diǎn)位置處,可很好地提升圖像美學(xué)效果?;谌址▌t構(gòu)圖的圖像如圖2所示。
圖1 三分法則視覺平衡原理
圖2 基于三分法則構(gòu)圖的圖像
圖3 算法整體架構(gòu)圖
本文優(yōu)化算法的整體架構(gòu)圖如圖3所示。為提取畫面主體并進(jìn)行構(gòu)圖優(yōu)化,本文基于深度卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)對圖像進(jìn)行顯著性檢測。本文網(wǎng)絡(luò)以VGG-16作為模型的主干架構(gòu)。網(wǎng)絡(luò)由3個模塊構(gòu)成,分別為特征提取模塊、顯著性回歸模塊和圖像尺寸恢復(fù)模塊。經(jīng)過訓(xùn)練后,網(wǎng)絡(luò)可在沒有相關(guān)場景先驗(yàn)知識的情況下,端到端地實(shí)現(xiàn)全分辨率的顯著性回歸。
特征提取模塊包含5組卷積,采用分層架構(gòu)提取圖像的語義特征信息。具體而言,這5組卷積分別包含2、2、3、3、3個卷積層,卷積核均為3×3大小。本文以ReLU(Rectified Linear Unit)整流線性激活單元代替?zhèn)鹘y(tǒng)的Sigmoid作為激活函數(shù)。與傳統(tǒng)的激活函數(shù)相比,ReLU可以使網(wǎng)絡(luò)的收斂速度更快。同時,為了保留更多的邊緣信息并擴(kuò)大網(wǎng)絡(luò)的感受野,本文將最大池化層的卷積尺寸由2×2修改為3×3。在迭代步長方面,前3組設(shè)置為2,其后設(shè)置為1。這一模塊的輸出為輸入圖像1/8大小的特征映射。
顯著性回歸模塊包含3組卷積,每組卷積的全卷積層之后是ReLU激活函數(shù)層和Dropout層。該模塊由前向輸入的特征映射回歸得到每個像素的顯著性得分。由于深度學(xué)習(xí)需要大量訓(xùn)練樣本才能獲得令人滿意的結(jié)果,而目前用于顯著性任務(wù)的數(shù)據(jù)相對較少。為了更好地訓(xùn)練網(wǎng)絡(luò),本文采用兩項(xiàng)加權(quán)并由像素數(shù)目平均的損失函數(shù),具體形式為
(1)
(2)
(3)
其中,N+是顯著對象所占像素的數(shù)目,N-是非顯著對象所占像素的數(shù)目。ψ(·)定義為
(4)
由此可知ψ(x)可導(dǎo),且其導(dǎo)數(shù)為
(5)
圖像尺寸恢復(fù)模塊由一個尺寸恢復(fù)層構(gòu)成,其將前向輸入恢復(fù)為原始輸入大小,最終輸出全分辨率顯著圖像。本文網(wǎng)絡(luò)在MSRA10K數(shù)據(jù)集[25]上進(jìn)行訓(xùn)練。MSRA10K數(shù)據(jù)集包含有10 000張帶標(biāo)注的圖像,本文將其隨機(jī)分為兩個子類,以8 000張圖像用于訓(xùn)練,2 000張圖像用于驗(yàn)證。顯著性檢測結(jié)果如圖4所示。與傳統(tǒng)的、基于底層像素信息、利用先驗(yàn)特征的顯著性檢測方法相比,本文網(wǎng)絡(luò)模型可以更好地提取圖像的高級語義信息,結(jié)果也更貼合人的視覺感受。
圖4 顯著特征圖
在獲得顯著特征圖像后,本文基于0~255的像素值對圖像像素進(jìn)行加權(quán)平均計算,進(jìn)一步得到像素重心點(diǎn),如圖5所示。隨后,算法基于視覺平衡原理,將像素重心點(diǎn)與三分法則中的錨點(diǎn)位置進(jìn)行匹配,求取與重心點(diǎn)歐式距離(Euclidean Distance)最近處的錨點(diǎn),并將圖像隨顯著圖像像素重心點(diǎn)移至該錨點(diǎn)位置處,進(jìn)而將圖像冗余部分進(jìn)行裁剪,實(shí)現(xiàn)符合圖像美學(xué)和視覺平衡的圖像重構(gòu)。
圖5 顯著像素重心圖
本文利用攝影圖片,通過對比實(shí)驗(yàn),定性地驗(yàn)證所提出算法的有效性。現(xiàn)有基于圖像美學(xué)分析的數(shù)據(jù)集,如CUHKPQ[26]、Photo Quality Dataset[27]和Google AVA[28]等,均面向圖像美學(xué)質(zhì)量評價得分的分類和回歸問題展開研究。本文算法基于圖像特征進(jìn)行優(yōu)化,且由于現(xiàn)有基于特征提取的圖像美學(xué)模型,例如Kong等人[6]和Malu等人[29]提出的深度網(wǎng)絡(luò),難以有效評估本文算法優(yōu)化前后圖像美學(xué)關(guān)系間存在的對應(yīng)差異,因此本文利用1范數(shù)損失(最小絕對值偏差)、2范數(shù)損失(最小平方偏差)、峰值信噪比(Peak Signal to Noise Ratio,PSNR)和結(jié)構(gòu)相似性(Structural Similarity Index,SSIM)來定量分析所提出方法的科學(xué)性。
首先,本文將所提出深度網(wǎng)絡(luò)與兩種顯著性檢測方法進(jìn)行對比驗(yàn)證。兩種方法分別為wCtr方法[30]和LPS方法[31]。實(shí)驗(yàn)結(jié)果如圖6所示,定量驗(yàn)證結(jié)果如表1所示。wCtr方法原理為基于邊界連通性進(jìn)行顯著性檢測,這種方法所標(biāo)注的顯著區(qū)域目標(biāo)較大;LPS方法原理為通過邊界先驗(yàn)、背景標(biāo)簽進(jìn)行顯著性檢測,這種方法對于像素信息要求較高,對于上下文語義關(guān)系的提取不夠準(zhǔn)確。而本文深度網(wǎng)絡(luò)模型可以更準(zhǔn)確地定位圖像畫面的表現(xiàn)主體,效果和性能均較為突出。且由表1可以看出,本文方法的1損失僅次于LPS;2損失較高;PSNR和SSIM較低,說明本文顯著性特征范圍選取較小,更有利于進(jìn)一步的像素重心點(diǎn)提取。
(a)原圖 (b)wCtr方法 (c)LPS方法(d)本文方法
表1 顯著性檢測方法定量驗(yàn)證
本文基于不同的顯著性檢測方法,對圖像進(jìn)行構(gòu)圖優(yōu)化。優(yōu)化結(jié)果如圖7所示,定量驗(yàn)證結(jié)果如表2所示。在圖7中,相比wCtr方法和LPS方法,由于本文方法可以更準(zhǔn)確地定位畫面表現(xiàn)主體,故構(gòu)圖優(yōu)化結(jié)果具有更高的美學(xué)質(zhì)量。同時由表2可以看出,本文方法的1損失和2損失的值均較低,而PSNR和SSIM的值均較高,說明基于本文算法進(jìn)行構(gòu)圖優(yōu)化后,有更多的圖像信息被保留。
(a) (b) (c) (d)
表2 基于不同顯著性檢測方法構(gòu)圖后的定量對比結(jié)果
本文進(jìn)一步驗(yàn)證所提出構(gòu)圖優(yōu)化算法的整體有效性,實(shí)驗(yàn)結(jié)果如圖8所示。由圖8可以看出,優(yōu)化后4幅圖像的表現(xiàn)主體均得到突出,雖然因畫面裁剪原因,圖像部分冗余信息缺失,但是其整體畫面更符合人的審美感受,視覺平衡感亦隨之增強(qiáng)。
(a)原圖 (b)顯著映射 (c)顯著圖 (d)優(yōu)化結(jié)果
最后,本文分別與文獻(xiàn)[17]、文獻(xiàn)[19]、文獻(xiàn)[22]所提出的圖像構(gòu)圖優(yōu)化方法進(jìn)行對比實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果如圖9所示,定量驗(yàn)證結(jié)果如表3所示。文獻(xiàn)[17]中的方法通過將除畫面主體之外的背景區(qū)域進(jìn)行比例關(guān)系調(diào)整,以實(shí)現(xiàn)構(gòu)圖優(yōu)化。優(yōu)化之后背景信息雖得以保留,但是主體與背景的比例關(guān)系被改變。文獻(xiàn)[19]方法將畫面主體進(jìn)行提取,繼而基于三分原則、利用背景區(qū)域中的某條直線對背景區(qū)域進(jìn)行比例關(guān)系調(diào)整,最后將先前所提取的畫面主體重置于畫面內(nèi),以實(shí)現(xiàn)圖像的優(yōu)化。但是優(yōu)化之后背景信息裁剪過多,且主體與背景之間的相對位置關(guān)系被改變。文獻(xiàn)[22]方法利用深度卷積網(wǎng)絡(luò)架構(gòu),通過訓(xùn)練來學(xué)習(xí)畫面主體,對圖像畫面主體所在區(qū)域進(jìn)行提取以實(shí)現(xiàn)畫面重構(gòu),但其結(jié)果的視覺平衡感較差。由圖9可以看出,與上述方法相比,本文方法優(yōu)化后的畫面可以達(dá)到更為平衡的效果,畫面美感亦隨之顯著提高。同時,由表3可以看出,本文1損失、2損失均較小,PSNR僅次于文獻(xiàn)[22]方法,且SSIM較大,說明本文算法可以在實(shí)現(xiàn)構(gòu)圖優(yōu)化的基礎(chǔ)上更好地保護(hù)圖像原有信息。
表3 算法整體有效性定量對比
(a) (b) (c) (d) (e)
本文提出了一種基于畫面主體特征、視覺平衡原理和三分法則的計算機(jī)構(gòu)圖優(yōu)化方法。本文利用深度網(wǎng)絡(luò)模型獲取圖像顯著性主體,以實(shí)現(xiàn)符合圖像美學(xué)的優(yōu)化重構(gòu)。經(jīng)定性和定量實(shí)驗(yàn)對比驗(yàn)證,本文優(yōu)化算法可有效地解決圖像主體位置不佳等構(gòu)圖缺陷問題,并為圖像美學(xué)構(gòu)圖優(yōu)化算法的設(shè)計提供了新的思路。然而圖像構(gòu)圖是一個比較復(fù)雜的問題,圖像美學(xué)還與諸多因素有關(guān),本文算法能依照常用的構(gòu)圖方法對圖像進(jìn)行優(yōu)化,但用于某些個性化、風(fēng)格化較強(qiáng)的圖像時效果并不理想,這也是今后研究的主要方向。