葉武劍,林振溢,劉怡俊,劉成民
(1. 廣東工業(yè)大學(xué) 集成電路學(xué)院,廣東 廣州 510006;2. 廣東工業(yè)大學(xué) 信息工程學(xué)院,廣東 廣州 510006)
背景虛化技術(shù)也稱為淺景深技術(shù)[1],是一種常用的攝影表現(xiàn)手法。在早期智能移動設(shè)備硬件條件較為落后的情況下,常常需要通過單反相機來獲得背景虛化圖像,但由于其操作性強、價格高昂,許多人難以獲得令人滿意的背景虛化圖像,因此人們依賴圖像后處理技術(shù)來滿足需求?,F(xiàn)代智能移動設(shè)備的硬件和性能得到了顯著的提升和改善,例如光場相機通過一次曝光即可獲得當(dāng)前場景的四維光場信息[2],從而實現(xiàn)圖像的重聚焦,即可對不同主體進(jìn)行背景虛化處理。盡管與傳統(tǒng)的單反相機相比,光場相機降低了用戶的操作難度,但由于在圖像的后處理過程中需要儲存具有不同光線信息的圖像,導(dǎo)致其處理效率不高。而對于諸如嵌入式小型移動設(shè)備、智能手機、平板電腦等,其前置單目攝像頭難以獲取多種圖像感知信息,導(dǎo)致這些設(shè)備無法實現(xiàn)有效的背景虛化處理?;谏鲜鰡栴},圖像背景虛化技術(shù)具有較大的研究價值。
隨著科學(xué)技術(shù)的發(fā)展,光學(xué)計量學(xué)已成為制造業(yè)、基礎(chǔ)研究和工程應(yīng)用中解決問題的有效手段之一。[3]自1981 年P(guān)otmesil 等人[4]發(fā)表第一篇有關(guān)景深效果繪制的研究論文以來,圖像背景虛化愈來愈引起了諸多研究學(xué)者的關(guān)注。在傳統(tǒng)的背景虛化方法中,Lee 等人[5]利用針孔成像的光學(xué)原理構(gòu)建適合虛擬現(xiàn)實的背景虛化效果。Xie 等人[6]利用二次光線的相干性聚類方案,實現(xiàn)不同自由度的背景虛化。由于在背景虛化的過程中存在效率低下的問題,Xin 等人[7]通過透鏡的光學(xué)中心以及分布在鏡頭上的幾個外圍視點來繪制一組稀疏視圖,從而高性能地合成具有不同自由度的高質(zhì)量背景虛化圖像。為了完成高質(zhì)量畫面的渲染,通常需要用到高端的計算設(shè)備,因此對計算資源有較高的要求,運行效率也顯得不足。Li 等人[8]基于單目深度估計的方法,提出分層虛化技術(shù),利用深度信息實現(xiàn)圖像分層,以實現(xiàn)有效的背景虛化。
近年來,隨著深度學(xué)習(xí)算法的不斷改進(jìn),利用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)實現(xiàn)的背景虛化處理技術(shù)也在不斷提升。早期Shen 等人[9]在探索基于CNN 的背景虛化處理技術(shù)中,提出一種高性能的自動人像分割圖像方法,創(chuàng)新性地引入位置和形狀兩種輸入通道,以提升全卷積網(wǎng)絡(luò)(Fully Convolutional Network,F(xiàn)CN)的性能,從而將人像區(qū)域精確地?fù)溉〕鰜?。Mok 等人[10]利用基于殘差網(wǎng)絡(luò)Resnet[11]的圖像分割技術(shù)和高斯模糊應(yīng)用于單目移動設(shè)備上,從而實現(xiàn)實時背景虛化。遺憾的是,這些工作關(guān)注于人像照片,先用卷積神經(jīng)網(wǎng)絡(luò)將人從圖像中分割出來,然后處理剩余的圖像背景,導(dǎo)致最終效果不夠豐富且缺乏場景應(yīng)用性。
為了解決上述工作存在的弊端,Wadhwa 等人[12]提出一個可在手機上計算合成的背景虛化圖像處理系統(tǒng),通過結(jié)合人像分割網(wǎng)絡(luò)和自動定焦技術(shù),實現(xiàn)對人像的背景虛化處理,并將僅限于人物的場景擴展到寵物、食物等其他的場景中。此外,在對背景的景深處理中,該系統(tǒng)結(jié)合圖像的深度信息,以豐富生成的背景虛化效果。Purohit 等人[13]提出一種用于景深效果渲染的深度引導(dǎo)密集動態(tài)濾波網(wǎng)絡(luò)方法,由具有金字塔池化模塊的高效密連編解碼骨干結(jié)構(gòu)組成,在空間感知模糊過程中,利用了聯(lián)合強度估計和動態(tài)濾波合成的特定任務(wù)效能。在2020 年的Advanced Intelligent Mechatronics 挑戰(zhàn)賽中,Ignatov等人[14]提出直接從高端單反相機的照片中學(xué)習(xí)一種真實的背景虛化方法,能夠在多目標(biāo)的情況下呈現(xiàn)出自然真實的背景虛化效果。這部分工作不再只關(guān)注人像,在擴展應(yīng)用場景多樣性的同時,也增強了深度方面的感知。在非人臉方面的相關(guān)工作也在不斷發(fā)展。Dutta 等人[15]采用堆疊深層多尺度分層網(wǎng)絡(luò),提高了背景虛化感知質(zhì)量。Liu 等人[16]利用圖片感知信息分割得到的輔助圖,實現(xiàn)不同區(qū)域的深度計算,以完成自動背景虛化。Zheng 等人[17]設(shè)計了一個用于單圖像景深渲染的多尺度預(yù)測濾波網(wǎng)絡(luò),引入了約束預(yù)測濾波器來保持顯著區(qū)域,得到了視覺效果更佳的背景虛化圖像。Jeong 等人[18]使用光柵化對強高光進(jìn)行密集采樣,而使用常規(guī)散焦模糊渲染對規(guī)則對象進(jìn)行稀疏采樣,兼顧了動態(tài)可見性和精確性。Luo 等人[19]提出了一個散焦到聚焦(D2F)框架,通過將散焦先驗和全聚焦圖像融合并在分層融合中實現(xiàn)輻射先驗,學(xué)習(xí)真實的物體渲染。
對于基于生成對抗網(wǎng)絡(luò)的背景虛化方法,其處理過程頗為簡便,在場景應(yīng)用上也不會受到任何約束。Isola 等人[20]提供了通用的框架以完成圖像到圖像間的轉(zhuǎn)換,無需特定的算法和損失函數(shù),通過U-Net 網(wǎng)絡(luò)將圖像的特征進(jìn)行細(xì)化提取,使生成的圖像質(zhì)量更高。通常情況下,在缺乏相互匹配數(shù)據(jù)集組的情況下,是無法對GAN 網(wǎng)絡(luò)進(jìn)行訓(xùn)練的,因此Zhu 等人[21]通過引入循環(huán)一致性損失,完成非匹配的圖像轉(zhuǎn)換任務(wù),包括背景虛化、季節(jié)轉(zhuǎn)換、風(fēng)格遷移、光增強調(diào)節(jié)等多個任務(wù)。Qian 等人[22]利用級聯(lián)式雙U 型網(wǎng)絡(luò)結(jié)構(gòu)并結(jié)合基于GAN 網(wǎng)絡(luò)和感知損失的方法,以逼近真實的景深渲染效果。Pizzati 等人[23]引入了一個新的功能實例歸一化層和殘差機制,采用模型引導(dǎo)的方式,將圖像轉(zhuǎn)換連續(xù)化,得到在視覺上獨特的背景虛化圖像。
一些未應(yīng)用于背景虛化但專注圖像處理的工作也值得關(guān)注。Wang 等人[24]提出了一種基于雙焦點透鏡陣列的深度增強積分成像顯示器,能夠生成兩個中心深度平面并在深度上縫合兩個重建3D 圖像,極大地提高了景深。Xie 等人[25]設(shè)計了能在整個深度范圍內(nèi)平衡顯示質(zhì)量的光學(xué)衍射元件并構(gòu)建了預(yù)濾波卷積神經(jīng)網(wǎng)絡(luò),在不嚴(yán)重降低圖像清晰度的情況下有效擴展深度范圍。Situ[26]詳細(xì)討論了全息影像技術(shù)的先進(jìn)成果及其與神經(jīng)網(wǎng)絡(luò)的有機結(jié)合。Luo 等人[27]提出了一種無需計算機、各向異性的圖像重建方法,可以以光速穿透隨機漫射器。
雖然基于生成對抗網(wǎng)絡(luò)的圖像間轉(zhuǎn)換方法已經(jīng)在端到端的網(wǎng)絡(luò)優(yōu)化上表現(xiàn)相當(dāng)出色,但仍有一定的不足:當(dāng)景深中的物體顏色與周圍背景顏色相似時,該網(wǎng)絡(luò)無法很好地工作,出現(xiàn)這種現(xiàn)象的原因可能在于模型沒有獲得足夠的感知信息,導(dǎo)致在主體的識別定焦上容易出錯。
針對上述工作存在的問題,本文提出了一種圖像感知引導(dǎo)CycleGAN 網(wǎng)絡(luò)(Cycle-Consistent Generative Adversarial Network)的背景虛化方法。本文創(chuàng)新性地將注意力信息和景深信息引入CycleGAN 網(wǎng)絡(luò),能夠更好地區(qū)分前后景并減少圖像失真。實驗結(jié)果表明,本文方法能實現(xiàn)更好的背景虛化效果,相比現(xiàn)有的SOTA 方法,本文方法更具優(yōu)越性。
為減少制作樣本數(shù)據(jù)帶來的困難,本文選用循環(huán)一致性生成對抗網(wǎng)絡(luò)(CycleGAN)作為基礎(chǔ)框架,使得在無配對數(shù)據(jù)集的情況下,也可以完成不同圖像域之間的轉(zhuǎn)換。受文獻(xiàn)[28]的啟發(fā),結(jié)合圖像感知設(shè)計了一個性能更優(yōu)的CycleGAN網(wǎng)絡(luò)。其中,圖像感知包括注意力模塊[29]與景深模塊[30],注意力模塊包括CBAM(Convolutional Block Attention Module)注意力機制和CAM(Channel Attention Module)注意力機制。前者引導(dǎo)生成器更好地關(guān)注圖像需要凸顯的區(qū)域,后者引導(dǎo)鑒別器關(guān)注兩組圖像間特征差異最大的區(qū)域,以區(qū)分前后景區(qū)域。景深模塊用于增強整體網(wǎng)絡(luò)的性能,使圖像前景目標(biāo)的感知信息得以增加,以提升生成的背景虛化效果。
圖1 是本文提出方法的系統(tǒng)框架圖。為了實現(xiàn)不同圖像景深域之間的轉(zhuǎn)換,本網(wǎng)絡(luò)基于GAN 網(wǎng)絡(luò)的原理設(shè)置兩組完全對稱的生成器和鑒別器,第一組由CBAM 注意力引導(dǎo)的生成器G將X域的圖像(深景深x)轉(zhuǎn)換成Y域的圖像(淺景深G(x)),而由CAM 注意力引導(dǎo)的鑒別器DY則將生成器生成Y域的圖像(淺景深G(x))與真實Y域的圖像(淺景深y)區(qū)分開。同樣地,第二組由CBAM 注意力引導(dǎo)的生成器F將Y域的圖像(淺景深y)轉(zhuǎn)換成X域的圖像(深景深F(y)),而由CAM 注意力引導(dǎo)的鑒別器則負(fù)責(zé)將生成X域的圖像(深景深F(y))與真實X域的圖像(深景深x)區(qū)分開。
圖1 整體網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.1 Structure diagram of overall network
為了使不同圖像景深域間的轉(zhuǎn)換變得有意義并提升生成效果質(zhì)量,本網(wǎng)絡(luò)遵循CycleGAN的原理,引入兩個循環(huán)一致性損失,分別為圖像循環(huán)一致性損失和景深循環(huán)一致性損失。前者防止網(wǎng)絡(luò)出現(xiàn)X域(Y域)中的多張圖像只與Y域(X域)的同一張圖像形成多對一的映射關(guān)系;為了凸顯前景目標(biāo),后者通過增強原有圖像前景目標(biāo)的感知信息,以加強生成圖像效果的真實感。其中,循環(huán)一致性為:原圖x(X域)經(jīng)生成器G轉(zhuǎn)換為圖像G(x)(Y域),再經(jīng)生成器F復(fù)原為圖像F(G(x))(X域),該過程中同屬于X域的原圖x和圖像F(G(x))應(yīng)保持一致。
本文設(shè)計的生成器網(wǎng)絡(luò)結(jié)構(gòu)如圖2 所示,主要分為3 個模塊:(1)特征編碼模塊,由3 個負(fù)責(zé)特征初步提取的下采樣層組成;(2)特征轉(zhuǎn)換模塊,由9 個負(fù)責(zé)提取深層次特征信息的殘差塊拼接而成;(3)特征解碼模塊,由3 個與下采樣層對應(yīng)的上采樣層組成。
圖2 生成器網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.2 Network structure diagram of generator
2.2.1 特征編碼模塊
特征編碼模塊通過融入CBAM 模塊以達(dá)到更好的特征提取效果。CBAM 是一個輕量級通用模塊,如圖3 所示,其包括通道注意力模塊及空間注意力模塊兩部分,從通道和空間兩個維度推理注意力圖,并將注意力圖乘以輸入特征圖以進(jìn)行自適應(yīng)特征細(xì)化,可提高CNN 的表征能力。
圖3 CBAM 結(jié)構(gòu)圖Fig.3 Structure diagram of CBAM
生成器的工作過程為:首先,輸入的深景深圖進(jìn)入特征編碼模塊進(jìn)行初步的特征提取。如圖4 所示,該模塊中將卷積、CBAM 模塊、實例歸一化、ReLU 激活函數(shù)依次組合,作為下采樣層的結(jié)構(gòu)。為了更好地提取圖像特征,在第一個下采樣層進(jìn)行卷積操作前,沒有選擇傳統(tǒng)的0 填充方式,而是采用鏡像對稱填充的方式對特征圖進(jìn)行處理。接著在卷積提取完特征后,利用CBAM模塊從通道和空間兩個維度對特征進(jìn)一步提取,使網(wǎng)絡(luò)從最開始就關(guān)注到圖像中較為顯著的區(qū)域;而實例歸一化僅從通道維度對特征做歸一化操作,可以加速訓(xùn)練時模型的收斂進(jìn)程。最后經(jīng)過ReLU 激活函數(shù)對數(shù)據(jù)進(jìn)行激活,從而過濾上一層輸出特征矩陣中的負(fù)值,以減少網(wǎng)絡(luò)的運算量并提高網(wǎng)絡(luò)的表達(dá)能力。
圖4 特征編碼模塊結(jié)構(gòu)圖Fig.4 Structure diagram of feature coding module
在上述特征編碼模塊中,每個下采樣層對應(yīng)的具體結(jié)構(gòu)及參數(shù)如圖4 所示,其中k表示卷積核大小,s表示步長,p表示填充尺寸,i表示輸入通道數(shù),o表示輸出通道數(shù),若結(jié)構(gòu)層的某個參數(shù)為空則不標(biāo)注(下面采取同樣的標(biāo)注方式)。
2.2.2 特征轉(zhuǎn)換模塊
經(jīng)過特征編碼模塊的初步特征提取后,為進(jìn)一步提取更深層次的特征,必須加深網(wǎng)絡(luò)的深度。但隨著網(wǎng)絡(luò)的加深,容易造成諸多不可逆的信息損失,即網(wǎng)絡(luò)擁有的恒等映射能力變差。為了在網(wǎng)絡(luò)不出現(xiàn)退化的情況下提取深層次的特征,本文在生成器的特征轉(zhuǎn)換模塊中利用He 等人[11]所提出的殘差塊進(jìn)行組合設(shè)計。該模塊由9 個結(jié)構(gòu)及參數(shù)完全一致的殘差塊拼接而成以提高生成器網(wǎng)絡(luò)的深度,同時可以保證網(wǎng)絡(luò)的恒等映射能力。其中每個殘差塊由兩個“卷積-實例歸一化-ReLU 激活函數(shù)”組合塊組成,其結(jié)構(gòu)及參數(shù)如圖5 所示。
圖5 特征轉(zhuǎn)換模塊的殘差結(jié)構(gòu)塊結(jié)構(gòu)圖Fig.5 Structure diagram of residual block in feature conversion module
2.2.3 特征解碼模塊
為了恢復(fù)特征的原有尺寸并輸出高分辨率的效果圖,在特征轉(zhuǎn)換模塊后進(jìn)行特征解碼操作。特征解碼模塊與特征編碼模塊相互對應(yīng),通過設(shè)置3 個上采樣層實現(xiàn)生成器網(wǎng)絡(luò)的對稱性。特征解碼模塊的結(jié)構(gòu)及參數(shù)如圖6 所示。
圖6 特征解碼模塊的結(jié)構(gòu)圖Fig.6 Structure diagram of feature decoding module
對于鑒別器,本文借鑒U-GAT-IT 鑒別器[28]的結(jié)構(gòu),但與U-GAT-IT 不同的是:本文沒有采用“全局+局部”的雙分支模式,而是在全局鑒別器中僅引入CAM 注意力機制進(jìn)行輔助鑒別,使網(wǎng)絡(luò)基于CAM 輔助模塊輸出的輔助判別權(quán)值矩陣對全局特征進(jìn)行判別,判別權(quán)值越大的區(qū)域越可能被判別為重點前景區(qū)域,從而實現(xiàn)前后景的區(qū)分,并解決了由于局部鑒別器導(dǎo)致模型量變大的問題。其網(wǎng)絡(luò)結(jié)構(gòu)包括參數(shù)共享模塊、CAM 輔助模塊、判別矩陣模塊3 部分,如圖7所示。
圖7 鑒別器網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.7 Network structure diagram of discriminator
2.3.1 參數(shù)共享模塊
參數(shù)共享模塊由4個下采樣層組成,每個下采樣層由卷積、實例歸一化、LeakyReLU 激活函數(shù)依次組成,通過下采樣對特征逐次提取,并將提取的特征供CAM 輔助模塊使用,可實現(xiàn)網(wǎng)絡(luò)的參數(shù)共享。由于GAN 網(wǎng)絡(luò)的原理是通過生成器與鑒別器之間的動態(tài)博弈,兩者的性能更迭提升,因此鑒別器的性能也將影響到生成器的性能。而通過將常用的ReLU 激活函數(shù)替換成LeakyReLU激活函數(shù)可解決部分“神經(jīng)元死亡”的問題,從而提升鑒別器網(wǎng)絡(luò)的性能,但同時也導(dǎo)致網(wǎng)絡(luò)運算量變大。由于本文設(shè)計的鑒別器沒有采用“全局+局部”的模式,在模型參數(shù)量上具有一定的優(yōu)勢,因此下采樣層選用LeakyReLU 激活函數(shù)對神經(jīng)元進(jìn)行激活操作也不會增加過多的計算量。參數(shù)共享模塊的結(jié)構(gòu)及參數(shù)如圖8 所示。
圖8 參數(shù)共享模塊結(jié)構(gòu)圖Fig.8 Structure diagram of shared parameter module
2.3.2 CAM 輔助模塊
CAM 輔助模塊借鑒CBAM 注意力機制中的通道注意力,該模塊有GAP 和GMP 兩個分支:GAP 分支由自適應(yīng)平均池化層、全連接層、實例歸一化組成;GMP 則將GAP 中的自適應(yīng)平均池化層替換為自適應(yīng)最大池化層。其中,GMP幫助鑒別器網(wǎng)絡(luò)找到圖像的重點區(qū)域,GAP 則更精確地將區(qū)域定位在一定范圍內(nèi)。該模塊通過將參數(shù)共享模塊提取的特征分別送入GAP 和GMP 兩個分支,從空間維度對特征圖進(jìn)行壓縮。經(jīng)過逐元素求和操作,得到兩個不同的輔助判別權(quán)值矩陣。接著將兩個矩陣進(jìn)行拼接并輸出,送入后續(xù)的下采樣層進(jìn)行特征提取,使鑒別器關(guān)注到權(quán)值更大的重點前景區(qū)域,從而有效分辨整體圖像的前后景。CAM 輔助模塊的結(jié)構(gòu)及參數(shù)如圖9 所示。
圖9 CAM 輔助模塊結(jié)構(gòu)圖Fig.9 Structure diagram of CAM auxiliary module
2.3.3 判別矩陣模塊
判別矩陣模塊由兩個下采樣層組成,其中第一個下采樣層結(jié)合了卷積和LeakyReLU 激活函數(shù),第二個下采樣層則在卷積和LeakyReLU 激活函數(shù)之間加入了實例歸一化,目的是進(jìn)一步對特征進(jìn)行提取,并擴大最終輸出特征的感受野。
所謂的感受野也就是特征圖上的每一個像素點能在輸入圖像上映射的范圍,如圖10 所示。假設(shè)原圖為7×7 的矩陣,經(jīng)過3×3 的卷積核以0填充和步長為1 的逐次卷積處理之后,其感受野逐次遞增。
圖10 感受野示意圖Fig.10 Diagram of receptive field
該模塊通過將輔助判別權(quán)值矩陣與參數(shù)共享模塊提取的特征矩陣進(jìn)行加權(quán)計算,接著進(jìn)行兩次下采樣操作得到深層特征圖,使最終鑒別器網(wǎng)絡(luò)判斷重點前景區(qū)域的能力得到加強,進(jìn)而間接令生成器生成圖像的質(zhì)量得到提升。判別矩陣模塊的結(jié)構(gòu)及參數(shù)如圖11 所示。
圖11 判別矩陣模塊結(jié)構(gòu)圖Fig.11 Structure diagram of discrimination
本文所提出的圖像轉(zhuǎn)換網(wǎng)絡(luò)的損失分為兩類:生成對抗損失及循環(huán)一致性損失。其中生成對抗損失包括X域→Y域(Y域→X域)的全局鑒別器生成對抗損失和Y域→X域(X域→Y域)的輔助鑒別器生成對抗損失,而循環(huán)一致性損失包括圖像循環(huán)一致性損失和景深循環(huán)一致性損失。通過優(yōu)化這6 個損失可使網(wǎng)絡(luò)模型得到最優(yōu)的轉(zhuǎn)換映射路徑。
2.4.1 生成對抗損失
為了使網(wǎng)絡(luò)模型從不同圖像景深域中獲取不同的樣本分布,需要生成對抗損失對該網(wǎng)絡(luò)進(jìn)行約束。由圖7 可知,由于鑒別器最終輸出的判別矩陣有全局判別矩陣和輔助判別矩陣,因此兩者構(gòu)成的生成對抗損失分別如下:
(1)全局判別矩陣構(gòu)成的全局鑒別器生成對抗損失有兩部分:X域→Y域的前向映射損失和Y域→X域的反向映射損失,計算公式見式(1)和式(2):
其中:Pdata(x)和Pdata(y)分別表示和的樣本分布,x~Pdata(x)和y~Pdata(y)表示隨機從和中取出的樣本數(shù)據(jù),E表示數(shù)學(xué)期望。
該網(wǎng)絡(luò)的性能是通過生成器和鑒別器之間的博弈得到提升的,其中鑒別器DX(DY)應(yīng)盡可能地將X域(Y域)的真實圖像與生成器F(G)生成的虛假圖像區(qū)分開,即DY(G(x))和DX(F(y))的值要趨于0,DY(y)和DX(x)的值要趨于1,也就是LGAN(G,DY,X,Y) 和LGAN(F,DX,X,Y) 越大越好;而生成器則應(yīng)盡可能地生成與X域(Y域)樣本分布相近的虛假圖像,從而使鑒別器無法辨別真假,LGAN(G,DY,X,Y)和LGAN(F,DX,X,Y)越小越好。
(2)輔助判別矩陣構(gòu)成的輔助鑒別器生成對抗損失的計算公式見式(3)和式(4),因與全局鑒別器生成對抗損失的原理相同,故不再贅述。
2.4.2 循環(huán)一致性損失
循環(huán)一致性損失的提出是為了避免網(wǎng)絡(luò)在訓(xùn)練過程中出現(xiàn)X域(Y域)中的多張圖像只與Y域(X域)的同一張圖像形成多對一映射關(guān)系的情況,導(dǎo)致不同圖像景深域間的轉(zhuǎn)換失去實質(zhì)性意義的問題,同時可提升生成效果質(zhì)量。本文借鑒CycleGAN 的思想,引入圖像循環(huán)一致性損失和景深循環(huán)一致性損失以解決上述問題。
(1)圖像循環(huán)一致性損失主要針對圖像景深轉(zhuǎn)換過程中的映射關(guān)系問題,其計算方式見
式(5)。其中‖F(xiàn)(G(x))-x‖1表示在X域中,輸入的真實圖像x經(jīng)由生成器G和生成器F兩次圖像轉(zhuǎn)換后,得到X域的虛假圖像F(G(x))與輸入的真實圖像x進(jìn)行L1 范數(shù)求解得到的值,即虛假圖像與真實圖像之間的差異性。同理,‖G(F(y))-y‖1表示Y域中虛假圖像與真實圖像的差異性。
(2)景深循環(huán)一致性損失主要用于提升生成圖像的質(zhì)量,通過增強原有圖像前景目標(biāo)的感知信息以加強生成圖像效果的真實感,其原理與圖像循環(huán)一致性損失相似,計算公式見式(6):
2.4.3 優(yōu)化目標(biāo)
將各損失進(jìn)行加權(quán)之后,可得到本文所提出網(wǎng)絡(luò)的總損失,其表達(dá)式見式(7)。其中,φ=10,ω=1。
由于在不同圖像景深域之間的轉(zhuǎn)換過程中需通過生成器與鑒別器之間的動態(tài)博弈來學(xué)習(xí)兩個域之間的樣本分布,因此本文希望全局鑒別器DX、DY和輔助鑒別器μDX、μDY對真假圖像的分辨能力得以最大化,而生成器則應(yīng)生成更加逼真的虛假圖像,使鑒別器的分辨能力得以最小化,即最小化虛假樣本分布與真實樣本分布之間的JS 散度。同時,為避免轉(zhuǎn)換過程中丟失過多的景深信息導(dǎo)致生成圖像效果質(zhì)量降低,也需將循環(huán)一致性損失最小化。因此,本文的整體目標(biāo)損失可優(yōu)化為式(8):
由于本文提出的圖像轉(zhuǎn)換網(wǎng)絡(luò)在訓(xùn)練過程中涉及大量的矩陣運算且需要對網(wǎng)絡(luò)參數(shù)進(jìn)行迭代更新,因此本文實驗使用型號為NVIDIA Tesla V100、顯存為32G 的GPU 對網(wǎng)絡(luò)進(jìn)行迭代訓(xùn)練以提高訓(xùn)練效率。為進(jìn)一步加速網(wǎng)絡(luò)計算效率,本文在CentOS 7 的操作系統(tǒng)上選擇Pytorch 1.7.1 作為網(wǎng)絡(luò)的計算框架,并結(jié)合Pytorch 內(nèi)置的自動混合精度對網(wǎng)絡(luò)的計算效率進(jìn)行提升。
與現(xiàn)有的大多數(shù)背景虛化處理研究工作一樣,本文選用2020 年的Advanced Intelligent Mechatronics 挑戰(zhàn)賽中采用的Everything is Better with Bokeh (EBB)數(shù)據(jù)集[14]對本文提出的背景虛化處理網(wǎng)絡(luò)進(jìn)行訓(xùn)練。該數(shù)據(jù)集由佳能7D 數(shù)碼單反相機在不同光線、不同場景、不同天氣條件下進(jìn)行拍攝得到,其包含4 694 組用于模型訓(xùn)練的圖像對(深景深?淺景深),深景深圖像由窄光圈(f/16)拍攝得到,淺景深圖像則用最高光圈(f/1.8)進(jìn)行拍攝。此外還包含200 張用于評估模型的圖像及200 張用于測試最終模型的圖像(深景深)。在訓(xùn)練過程中,我們將數(shù)據(jù)集中的圖像對隨機打亂,使之成為非配對的圖像集,并裁剪為256×256 的尺寸作為網(wǎng)絡(luò)的輸入,同時在訓(xùn)練過程中將學(xué)習(xí)率設(shè)置為0.000 2。
為證明本文所設(shè)計的網(wǎng)絡(luò)框架能夠有效提升背景虛化處理的質(zhì)量,本文進(jìn)行了消融實驗。其實驗對比如圖12 所示,其中:
圖12 消融實驗對比實驗圖Fig.12 Comparative experimental diagram of ablation experiment
①Cycle 表示原生CycleGAN 網(wǎng)絡(luò)得到的背景虛化圖像;
②Cycle+CAM 表示在原生CycleGAN 網(wǎng)絡(luò)的基礎(chǔ)上,將CAM 注意力機制引入到鑒別器中;
③Cycle+CAM+CBAM 表示在原生Cycle-GAN 網(wǎng)絡(luò)的基礎(chǔ)上,將CAM 注意力機制引入到鑒別器中以及將CBAM 注意力機制引入到生成器中;
④Cycle+CAM+CBAM+Depth 表示在③的基礎(chǔ)上,引入前向景深循環(huán)一致性損失。
圖12 中有4 組效果對比圖,每組對比圖中的每張圖像有2 個細(xì)節(jié)區(qū)域,區(qū)域1 用于展示前景目標(biāo)區(qū)域、區(qū)域2 用于展示背景區(qū)域的效果及狀態(tài)。對于前景目標(biāo)區(qū)域,從A 組和B 組對比圖的細(xì)節(jié)區(qū)域1 中可以清晰地看到,在前景目標(biāo)顏色較為艷麗的情況下,方法①和方法②會極大地改變前景目標(biāo)的顏色,方法③對顏色影響較小,而方法④則基本不會對顏色產(chǎn)生影響。從C 組和D 組對比圖中的細(xì)節(jié)區(qū)域1 中可以看到,4 種方法在清晰度上均不會導(dǎo)致前景目標(biāo)發(fā)生失真。對于背景區(qū)域,從A、B 組對比圖的細(xì)節(jié)區(qū)域2 可以看到,背景虛化效果的程度為:①<②<③≈④;在C、D 組對比圖的細(xì)節(jié)區(qū)域2 中可以看到,背景虛化效果的程度為:①<②<③<④,程度越高,則越能凸顯圖像的主體,即前景目標(biāo)越顯眼。
為驗證本文所提的圖像轉(zhuǎn)換網(wǎng)絡(luò)在背景虛化處理的過程中,模型能增強原有圖像前景目標(biāo)的感知信息,使生成圖像效果的真實感得到進(jìn)一步提升,本實驗從可視化圖像的注意力信息、景深信息以及邊緣信息3 個維度對生成圖像進(jìn)行測試評估。其中注意力信息、景深信息、邊緣信息分別由注意力可視化算法[31]、單目視覺景深估計算法[30]、邊緣檢測算法[32]得到,實驗對比如圖13 所示。
圖13 感知信息對比實驗圖Fig.13 Experimental diagram of perceptual information comparison
圖13 展示了2 組實驗對比,其中每組的第一行為使用不同方法得到的背景虛化圖像;第二、三、四行為背景虛化圖像的感知信息圖像,分別為表示景深信息的景深圖像、表示注意力信息的顯著圖像、表示圖像主體輪廓信息的邊緣信息圖像。從A、B 兩組實驗的第二行景深圖像可以看到,方法③和方法④能弱化背景區(qū)域的景深信息并增強前景目標(biāo)的景深信息,從而凸顯前景目標(biāo),使處理后的背景虛化效果更加顯著;同樣地,從兩組實驗中的第三行顯著圖像中可以看到,方法③和方法④能更好地注意到圖像主體,有利于在圖像轉(zhuǎn)換過程中區(qū)分前后景;而對于第四行的邊緣信息圖像,方法③和方法④仍然優(yōu)于其他方法。
由于上述的定性分析無法對比方法③、④的性能高低,為了進(jìn)一步對比方法③和方法④的性能,本實驗選用結(jié)構(gòu)相似性SSIM 指標(biāo)進(jìn)行定量比較。
結(jié)合圖13 和圖14,一方面,由于背景虛化處理過程中弱化了占比較大的背景區(qū)域的感知信息,虛化后圖像背景部分的景深信息更少,即虛化圖像呈現(xiàn)出了較好的效果,因此,虛化后的感知信息圖與原始感知信息圖差異較大,導(dǎo)致所有方法的平均SSIM 較低;另一方面,本文方法也同時強化了前景目標(biāo)區(qū)域的感知信息,虛化圖像對于前景目標(biāo)的關(guān)注更多,使前景區(qū)域在結(jié)構(gòu)上也與原圖保持了更多的相似性。所以,與其他方法相比,本文方法④的SSIM 較高,呈現(xiàn)出的虛化效果更富有層次感。
圖14 平均SSIM 對比數(shù)據(jù)Fig.14 Average SSIM comparison data
3.4.1 圖像轉(zhuǎn)換方法對比
為了展示本文所提出方法的優(yōu)勢,本實驗與當(dāng)前在圖像轉(zhuǎn)換領(lǐng)域表現(xiàn)出色的方法進(jìn)行了比較,其中包括AGGAN[33]、Dual-SAG-CycleGAN[34]、Pix2Pix[20]等生成對抗式網(wǎng)絡(luò)。各方法的效果圖如圖15 所示。
圖15 不同方法效果對比圖。(a)老婦;(b)禁止左轉(zhuǎn)標(biāo)志;(c)滑板車;(d)樹。Fig.15 Effect comparison diagram of different method. (a) Old woman;(b) No left turn sign;(c) Scooter;(d) Tree.
從圖15 中細(xì)節(jié)區(qū)域1、2 可以看到,AGGAN方法在部分圖像中難以分辨前后景,從而導(dǎo)致前景目標(biāo)也進(jìn)行了模糊處理,并在生成的背景虛化圖像中存在失真現(xiàn)象;Dual-SAG-CycleGAN 方法同樣存在難以分辨前后景和圖像失真的現(xiàn)象,并且在背景區(qū)域的虛化效果不夠明顯,難以凸顯前景目標(biāo);對于Pix2Pix 方法,雖然生成的圖像不會失真,但是與前兩者一樣存在難以分辨前后景的現(xiàn)象,如從圖15(a)、(d)圖像可以看出,前后景都進(jìn)行了背景虛化處理;而從圖15(b)、(c)圖像可以看出,在前景目標(biāo)是清晰狀態(tài)的同時,背景區(qū)域模糊程度較低。對于本文所提出的方法,其分辨前后景的能力與背景虛化處理效果的質(zhì)量都是最優(yōu)的,并且圖像不會產(chǎn)生失真的現(xiàn)象。
為了進(jìn)一步驗證前述的實驗結(jié)果分析的合理性,本實驗欲采用定量數(shù)據(jù)進(jìn)行分析。由于現(xiàn)有大部分工作主要是基于主觀評價指標(biāo)對背景虛化效果進(jìn)行評價分析[1,21],因此本實驗以調(diào)查問卷的形式,讓多名調(diào)查對象比較現(xiàn)有SOTA 方法與本文所提方法的視覺效果差異,并在1~10 分的區(qū)間內(nèi)進(jìn)行評分。此次共有49 名對象參與實驗,其中碩士研究生35 名,本科生14 名,男女比例約為2∶1,參與者以主觀的審美意識評判圖像的背景虛化效果,給的分值越高表示效果越好,然后將參與者的評分結(jié)果進(jìn)行匯總統(tǒng)計,獲得每個方法的意見平均分,其統(tǒng)計數(shù)據(jù)如圖16 所示。從圖16 可以看到,本文所提方法獲得的平均意見分是最高的,說明上述針對實驗結(jié)果的分析較為合理。
圖16 調(diào)查問卷數(shù)據(jù)Fig.16 Questionnaire data
此外,本實驗通過對比不同方法的模型大小和背景虛化圖像(分辨率為256×256)生成的時間,驗證了本文所設(shè)計的圖像轉(zhuǎn)換網(wǎng)絡(luò)在模型量和生成效率上的優(yōu)勢。其中Dual-SAG-CycleGAN、Pix2Pix 以及本文方法包括生成器模型和鑒別器模型2 部分,AGGAN 則包括注意力模型、生成器模型、鑒別器模型3 部分。各方法模型大小數(shù)據(jù)如表1 所示。從表1 可以看出,本文方法在模型量上優(yōu)于其他方法。
表1 各方法模型大小與圖像生成時間Tab.1 Model size and image generation time of each method
3.4.2 背景虛化方法對比
為了進(jìn)一步驗證本文所提方法的有效性,本文選取專注于背景虛化工作的BGGAN[22]以及Stack_DMSHN[15]作為比較對象,各方法在同一副圖片上的背景虛化效果如圖17 所示。
圖17 不同背景虛化方法效果對比圖。A:柵欄;B:池塘。Fig.17 Effect comparison diagram of different method for background defocus. A: Fence;B: Pond.
從圖17 A 組可以看出,3 種方法對于中心物體的聚焦能力比較接近,但本文方法所生成的前景色澤及紋理最接近原圖,且從細(xì)節(jié)區(qū)域1 可以看出,BGGAN、Stack_DMSHN 所生成圖像會造成部分前景失真;從細(xì)節(jié)區(qū)域2 可以看出,本文方法虛化程度也更高。從B 組細(xì)節(jié)區(qū)域2 可以看出,相比其他兩種方法,本文方法對微小前景的聚焦程度更高,即區(qū)分前后景的能力更強。
為進(jìn)一步比較3 種方法的有效虛化程度,同樣引入注意力可視化算法分別展示各方法在背景虛化方面的性能。從A 組的注意力可視化圖可以看出,本文方法最大程度地保持了對于前景目標(biāo)的聚焦,有利于實現(xiàn)更有效的背景虛化。在B 組的對比中,BGGAN、Stack_DMSHN 兩種方法無法注意到微小的前景目標(biāo),即凸顯微小前景目標(biāo)的能力不強,因此虛化效果不佳。通過注意力可視化圖的對比可知,本文方法對于前景目標(biāo)的感知更加突出,即區(qū)分前后景的能力更強。
現(xiàn)有生成對抗網(wǎng)絡(luò)在背景虛化處理過程中,往往是無差別地提取整張輸入圖像的特征,因此生成器在生成圖像時也容易丟失圖像原有的細(xì)節(jié)特征,導(dǎo)致圖像失真。為了解決這些問題并減少制作樣本數(shù)據(jù)帶來的困難,本文選用CycleGAN作為基礎(chǔ)網(wǎng)絡(luò)框架,通過引入景深循環(huán)一致性損失對網(wǎng)絡(luò)框架進(jìn)行重新設(shè)計,同時結(jié)合CBAM注意力模塊和CAM 注意力模塊分別對生成器和鑒別器的結(jié)構(gòu)進(jìn)行改進(jìn),使其在背景虛化處理過程中能著重關(guān)注于前景目標(biāo),并在增強前景目標(biāo)區(qū)域的感知信息的同時,提升網(wǎng)絡(luò)區(qū)分前后景的能力和生成圖像效果的質(zhì)量。同其他方法相比,本文方法的背景虛化效果更佳且失真度更低,模型大小為56.10 MB,圖像生成時間為47 ms,相比現(xiàn)有模型也具有更大優(yōu)勢。