張 遠(yuǎn), 黃 磊
(1 貴州民族大學(xué)數(shù)據(jù)科學(xué)與信息工程學(xué)院, 貴陽(yáng) 550025;2 貴州民族大學(xué)貴州模式識(shí)別與智能系統(tǒng)重點(diǎn)實(shí)驗(yàn)室, 貴陽(yáng) 550025)
自然圖像摳圖是指從任意一個(gè)背景中提取出感興趣的前景目標(biāo),即提取前景透明度遮罩(alpha matte)。 目前主要應(yīng)用于圖像合成[1]、目標(biāo)識(shí)別、實(shí)時(shí)會(huì)議以及影視特效等方面。 通常,將輸入圖像I中的每一個(gè)像素點(diǎn)t視為前景與背景像素點(diǎn)的線性組合[2],見式(1):
其中,0 ≤α≤1 表示前景目標(biāo)的不透明度,當(dāng)α=0 時(shí)輸入圖像I表示已知的背景、α=1 時(shí)輸入圖像I表示已知的前景、0<α <1 時(shí)輸入圖像表示混合區(qū)域。 由于輸入的圖像通常為RGB 三通道的圖像,在式(1)中,共有α,F(xiàn)R,BR,F(xiàn)G,BG,F(xiàn)B,BB七個(gè)未知數(shù),所以求解該方程是一個(gè)欠定問題。 通常,使用三分圖(Trimap)作為先驗(yàn)知識(shí)來(lái)減少摳圖公式、即式(1)中的未知變量。
三分圖通常是由已知的前景區(qū)域、已知的背景區(qū)域和未知的區(qū)域組成。 假設(shè)將圖像分為3 個(gè)不重疊的像素級(jí)ΩF,ΩB,ΩU,則有:
其中,已知前景區(qū)域和已知背景區(qū)域的α值分別為1 和0,未知區(qū)域的α值則需要利用摳圖算法求解。
根據(jù)三分圖中的標(biāo)注信息量,可將三分圖分為粗糙三分圖(Coarse trimap)和精細(xì)三分圖(Elaborate trimap),與式(2)比較,兩者在已知區(qū)域的標(biāo)記量存在差異,基于3 個(gè)像素集的數(shù)量關(guān)系的數(shù)學(xué)描述如式(3)所示:
其中,TC和TE分別表示為粗糙的三分圖和精細(xì)的三分圖,由式(3)可知,粗糙的三分圖標(biāo)注的已知區(qū)域遠(yuǎn)小于未知區(qū)域,精細(xì)的三分圖標(biāo)注的已知區(qū)域則遠(yuǎn)大于未知區(qū)域。 然而,在實(shí)際應(yīng)用中,標(biāo)注一個(gè)精細(xì)的三分圖需要耗費(fèi)大量的財(cái)力和物力獲得,對(duì)于圖像摳圖,這代表需要花費(fèi)較高的勞動(dòng)力成本去獲得摳圖透明度遮罩,反而降低了摳圖效率,由于在實(shí)際應(yīng)用中需要輸入大規(guī)模的圖像進(jìn)行工作,因此這在實(shí)際應(yīng)用的摳圖工作中是不可接受的。 相比之下,粗糙的三分圖在實(shí)際應(yīng)用中較為容易獲得,因?yàn)橹恍枰恍〔糠忠阎那熬昂捅尘皡^(qū)域,減少了用戶交互,顯著降低了勞動(dòng)力成本。 在實(shí)際應(yīng)用中,用戶通常希望輸入一個(gè)簡(jiǎn)單快捷的三分圖,得到一個(gè)表現(xiàn)良好的摳圖透明度遮罩。 因此,研究粗糙三分圖擴(kuò)展的摳圖算法代替輸入昂貴的三分圖的摳圖算法具有重要的現(xiàn)實(shí)意義。
在三分圖擴(kuò)展的摳圖研究中,目前的摳圖方法取得了較好的研究成果,但是存在無(wú)法單獨(dú)處理多種摳圖場(chǎng)景的問題。
綜上所述,本文提出了一個(gè)基于三分圖擴(kuò)展的摳圖框架,與以往三分圖擴(kuò)展的摳圖算法不同,研究考慮了輸入圖像為前景半透明圖像的摳圖問題,提出了一個(gè)透明度判別(后面統(tǒng)稱感知)方法,根據(jù)感知的結(jié)果將輸入圖像分為前景半透明圖像和前景半透明的圖像,該模型能夠很好地適應(yīng)不同類別的三分圖擴(kuò)展,統(tǒng)一處理不同前景類型圖像的三分圖擴(kuò)展,進(jìn)一步提升摳圖遮罩的質(zhì)量。
在傳統(tǒng)的摳圖算法[3-7]中,在進(jìn)行圖像透明圖遮罩計(jì)算之前,分別對(duì)其三分圖進(jìn)行預(yù)處理以得到更精細(xì)的三分圖。 在共享?yè)笀D[8]中,通過收集固定空間距離內(nèi)的像素樣本,并測(cè)量未知區(qū)域和已知區(qū)域內(nèi)的像素之間的顏色相似度來(lái)擴(kuò)展粗糙的三分圖。 除此之外,Shahrian 等學(xué)者[9]將三分圖依次細(xì)化,從未知區(qū)域的邊界開始, 向前景和背景區(qū)域發(fā)展。Varnousfaderani 等學(xué)者[10]則通過為顏色、紋理和空間距離設(shè)置適當(dāng)?shù)拈撝?,?duì)未知區(qū)域的像素進(jìn)行分類。另一方面,KL-散度摳圖[5]依賴于迭代閾值方法,比固定閾值方法允許更激進(jìn)的擴(kuò)展。 為了處理空間斷開區(qū)域,提出了一種基于補(bǔ)丁的三分圖擴(kuò)展方法,擴(kuò)展了未知區(qū)域的范圍。 然而上述所有方法都是基于圖像特征的相似性,通過與手動(dòng)設(shè)置的閾值進(jìn)行比較來(lái)擴(kuò)展三分圖。 由于粗糙的三分圖提供的已知信息量較少,擴(kuò)展的注釋是分散且不充分的,且由于圖像特征中隱含的場(chǎng)景限制,無(wú)法精確測(cè)量像素相似度,在某些場(chǎng)景中導(dǎo)致錯(cuò)誤分類。 因此,這些方法很難精確地處理粗糙的三分圖。 隨著深度學(xué)習(xí)發(fā)展,Badrinarayanan 等學(xué)者[11]采用深度卷積神經(jīng)網(wǎng)絡(luò)編-解碼器結(jié)構(gòu)來(lái)構(gòu)建摳圖網(wǎng)絡(luò)。 從特征共享的角度來(lái)看,通過拼接三分圖擴(kuò)展過程可以指導(dǎo)圖像的摳圖任務(wù)的訓(xùn)練,可以認(rèn)為三分圖擴(kuò)展為摳圖流程的輔助任務(wù),其目的是協(xié)調(diào)圖像摳圖訓(xùn)練過程,從而設(shè)計(jì)為輔助網(wǎng)絡(luò)。 因此,Cai 等學(xué)者[6]提出了三分圖自適應(yīng)的摳圖網(wǎng)絡(luò),他們將摳圖視為兩個(gè)子任務(wù),即三分圖自適應(yīng)任務(wù)和透明度遮罩提取任務(wù)。 Tang 等學(xué)者[3]使用深度卷積神經(jīng)網(wǎng)絡(luò)從三分圖的未知區(qū)域過濾出前景和背景,減少未知像素的數(shù)量,從而提高摳圖的精度。 當(dāng)輸入三分圖中標(biāo)注信息的分布特征與訓(xùn)練數(shù)據(jù)不同時(shí),擴(kuò)展工作不能靈活地?cái)M合并生成更好的擴(kuò)展三分圖。 為了解決這個(gè)問題,Liang 等學(xué)者[1]使用單分類算法對(duì)粗糙的三分圖進(jìn)行擴(kuò)展,并取得了不錯(cuò)的摳圖效果。 雖然這些方法有助于將已知的前景和背景區(qū)域擴(kuò)展到空間封閉的未知區(qū)域,但依賴于測(cè)量語(yǔ)義特征來(lái)可靠地確定像素之間的相似性,允許一種新型的分類器對(duì)整個(gè)未知區(qū)域內(nèi)的所有像素進(jìn)行完全分類,對(duì)于半透明物體其擴(kuò)展效果表現(xiàn)仍然不佳。此外,Zhang 等學(xué)者[7]將透明度分為強(qiáng)透明、中透明和小透明,但需要輸入一個(gè)初始化透明度遮罩,使得摳圖工作過于繁瑣。
2018廣州車展,全新奧迪A6L全球首秀,再次展現(xiàn)中國(guó)豪華車市場(chǎng)開拓者形象;奧迪首款純電動(dòng)SUV奧迪e-tron亮相,開創(chuàng)豪華電動(dòng)SUV市場(chǎng)全新格局;以全新奧迪A7,奧迪Q8,奧迪Formula E為代表的A、Q、R家族也同臺(tái)展示。
綜上所述,盡管目前基于三分圖擴(kuò)展的方法取得了較好的研究成果,但仍然不能統(tǒng)一處理?yè)笀D場(chǎng)景下前景不透明圖像和前景半透明圖像在粗糙三分圖下的摳圖問題和三分圖擴(kuò)展問題。
為了解決當(dāng)前摳圖算法不能統(tǒng)一處理?yè)笀D場(chǎng)景下前景不透明圖像和前景半透明圖像在粗糙三分圖下的擴(kuò)展問題,提出了基于不同場(chǎng)景下三分圖擴(kuò)展的圖像摳圖算法。 該算法主要分為2 個(gè)步驟。 一是提出了透明度感知模型來(lái)感知不同場(chǎng)景的輸入圖像,提升不同場(chǎng)景下的三分圖的質(zhì)量,二是摳圖透明度遮罩提取。 具體的工作流程如圖1 所示。
圖1 基于不同場(chǎng)景下三分圖擴(kuò)展的圖像摳圖算法工作流程Fig. 1 Workflow of image matting based on the trimap expanded in different scenarios
本文所使用的粗糙三分圖是通過簡(jiǎn)單的用戶交互,隨機(jī)地在已知的前景和已知的背景上任意畫一條線,其他沒有標(biāo)注的部分作為未知區(qū)域,由此來(lái)生成本文所需要使用的粗糙三分圖,見圖1。 在此基礎(chǔ)上,可做分析綜述如下。
(1)三分圖擴(kuò)展。 該模型嵌入了一個(gè)透明度感知模型,該模型使用圖像特征相似性將圖像背景區(qū)域分離出來(lái)后進(jìn)行擴(kuò)展,在背景擴(kuò)展的基礎(chǔ)上感知半透明圖像和不透明圖像,再分別來(lái)擴(kuò)展相應(yīng)圖像的前景。
(2)前景透明度遮罩提取。 由于目前基于學(xué)習(xí)的摳圖算法LFPNet[2]利用上下文特征來(lái)預(yù)測(cè)摳圖的前景透明度遮罩,可以在GPU 上實(shí)現(xiàn)良好的高分辨率圖像摳圖,因此本文利用目前先進(jìn)的LFPNet 網(wǎng)絡(luò)來(lái)作為本文所提算法的前景透明度遮罩提取模型。
本文所提的透明度感知模型將在2.2 節(jié)進(jìn)行闡述。
針對(duì)不同場(chǎng)景下的透明度感知以及不同場(chǎng)景下的粗糙三分圖擴(kuò)展,本文提出了一個(gè)基于不同場(chǎng)景下三分圖擴(kuò)展的圖像摳圖算法(Image matting based on the trimap expanded in different scenarios, IMTD)。 該算法提出了一個(gè)透明度感知模塊感知前景不透明的圖像和前景半透明的圖像,實(shí)現(xiàn)了2 種場(chǎng)景下的粗糙三分圖擴(kuò)展的通用模型,最終提高前景透明度遮罩提取的質(zhì)量。 具體的流程如圖2 所示。
圖2 IM-TD 三分圖擴(kuò)展算法的工作流程Fig. 2 Workflow of the IM-TD trimap expansion algorithm
因此,本文將使用半透明前景像素與不透明前景像素的圖像特征和類別特征差異來(lái)感知像素的類別,即若未知區(qū)域的像素和已知前景區(qū)域的像素的類別特征相似,但是未知區(qū)域的像素的圖像特征和已知背景的不同,將其感知為半透明前景像素,若是其他情況、則感知為不透明像素,如式(4)所示:
其中,t表示在進(jìn)行背景擴(kuò)展后的未知區(qū)域的像素;和分別是使用聚類算法下的類別特征及圖像特征來(lái)感知的像素類別,為最終劃分的像素類別;SC和IC分別表示使用類別特征和圖像特征訓(xùn)練的單分類器;O0是CTE-OC 算法[1]結(jié)合了這2個(gè)分類器進(jìn)行像素類別判斷的規(guī)則。 當(dāng)且僅當(dāng)2 個(gè)規(guī)則均滿足時(shí)將當(dāng)前的類別特征與已知前景相似、而其圖像特征與背景不同時(shí),該像素可以被感知為已知前景區(qū)域,否則保留在未知區(qū)域。
由于基于學(xué)習(xí)的摳圖方法比基于傳播和采樣的摳圖方法[12-14]具有更強(qiáng)大的深度特征提取能力。因此,本文利用GCA 摳圖網(wǎng)絡(luò)[15]在最深處的殘余編碼層(GCA 編碼器)上學(xué)習(xí)到的先進(jìn)特征作為語(yǔ)義特征來(lái)表征不同區(qū)域的信息。 對(duì)于圖像特征,本文采用步幅為2 的3 層卷積層構(gòu)建圖像特征提取網(wǎng)絡(luò),不僅避免了相似度閾值的不靈活設(shè)置,而且還從不同圖像中提取具有代表性的圖像特征,提高了相似度度量的可靠性。 除此之外,由于圖像的類別特征較為簡(jiǎn)單,使用分割網(wǎng)絡(luò)對(duì)其類別特征進(jìn)行提取。
Composition-1k 數(shù)據(jù)集[14]是自然圖像摳圖研究領(lǐng)域中得到廣泛應(yīng)用的圖像摳圖數(shù)據(jù)集,為不同摳圖方法的性能比較提供了大量的圖像數(shù)據(jù),以驅(qū)動(dòng)基于學(xué)習(xí)的摳圖方法進(jìn)行訓(xùn)練和測(cè)試。 該數(shù)據(jù)集提供了431 張前景圖像及其對(duì)應(yīng)的真實(shí)透明度遮罩,用于與來(lái)自MS COCO 數(shù)據(jù)集[16-17]的背景圖像以1 ∶100 的比例進(jìn)行合成,以獲得43 100張訓(xùn)練圖像。 相應(yīng)的三分圖是通過膨脹和腐蝕真實(shí)透明度遮罩自動(dòng)產(chǎn)生的。 此外,該數(shù)據(jù)集提供了50 幅前景圖像和有關(guān)的真實(shí)透明度遮罩作為權(quán)重,用于與PASCAL VOC 數(shù)據(jù)集[2]的背景圖像以1 ∶20 的比例進(jìn)行合成,以獲得1 000張測(cè)試圖像,以及手工標(biāo)注每個(gè)圖像精細(xì)的三分圖。 本文使用Composition-1k數(shù)據(jù)集則可歸因于其中的1 000張測(cè)試圖像包含620張不透明前景圖像和380 張半透明前景圖像。
本文提出的算法使用Python 實(shí)現(xiàn)的,對(duì)比的自然圖像摳圖算法WCT[10]、IF[18]、Pyramid[19]和KL[5]均使用 Matlab 實(shí)現(xiàn)。 且基于 Pytorch 實(shí)現(xiàn)了IndexNet[20]、Alpha[21]、GCA[15]、Ada[6]等基于學(xué)習(xí)的摳圖算法。 所有實(shí)驗(yàn)運(yùn)行在一臺(tái)Intel Xeon Gold 5218 2.30 GHz CPU 和一臺(tái)Quadro RTX 6000 GPU的服務(wù)器上。
本實(shí)驗(yàn)評(píng)價(jià)和比較了現(xiàn)有的幾種三分圖擴(kuò)展方法對(duì)粗糙三分圖進(jìn)行質(zhì)量提升。 在這些三分圖擴(kuò)展方法中,Ada[6]和Alpha[21]使用基于學(xué)習(xí)的三分圖細(xì)化網(wǎng)絡(luò)來(lái)擴(kuò)展三分圖;WCT[10]、TL[22]和KL[5]分別使用顏色和紋理相似性在單個(gè)和迭代循環(huán)中已知區(qū)域附近的有限空間中擴(kuò)展三分圖;而IF[18]使用顏色相似性來(lái)擴(kuò)展三分圖。 通過擴(kuò)展后的三分圖標(biāo)注率(Quantity) 和準(zhǔn)確率指標(biāo)(Accuracy) 來(lái)綜合評(píng)價(jià)研究擴(kuò)展后的三分圖。
由于這2 個(gè)指標(biāo)為綜合性評(píng)價(jià)指標(biāo), 且Quantity值越高代表三分圖中被正確標(biāo)注的已知區(qū)域越大。Accuracy越大則代表三分圖標(biāo)注的已知信息的錯(cuò)誤擴(kuò)展量越低,正確的分類像素就越多。 粗糙三分圖在現(xiàn)有三分圖擴(kuò)展了方法對(duì)比的三分圖質(zhì)量見表1。 由表1 可知,現(xiàn)有的三分圖擴(kuò)展算法標(biāo)注率在上升的同時(shí)其準(zhǔn)確率也在下降,這說明三分圖擴(kuò)展工作實(shí)際上就是一個(gè)激進(jìn)的工作機(jī)制,隨著標(biāo)注量升高的同時(shí)也會(huì)產(chǎn)生更多的錯(cuò)誤擴(kuò)展。 相比之下,本文所提出的基于透明度感知的三分圖擴(kuò)展方法在標(biāo)注均上升的同時(shí)其錯(cuò)誤率仍然存在,但相比于其他方法變化較為均衡,且標(biāo)注量高于目前的三分圖擴(kuò)展算法。
表1 粗糙三分圖在現(xiàn)有三分圖擴(kuò)展方法上對(duì)比的三分圖質(zhì)量Tab. 1 The quality of the coarse trimap on existing expansion methods%
為了驗(yàn)證前景圖像在不同場(chǎng)景中使用不同三分圖擴(kuò)展算法提取的前景透明度遮罩的質(zhì)量,通過計(jì)算MSE、SAD、Grad和Conn對(duì)使用不同擴(kuò)展三分圖的摳圖方法的提取結(jié)果進(jìn)行了評(píng)估。 在這里,使用統(tǒng)一的摳圖算法GCA 對(duì)同一粗糙三分圖使用不同的三分圖擴(kuò)展算法獲得的遮罩進(jìn)行對(duì)比,并將其作為基線模型。
摳圖算法GCA[15]在應(yīng)用不同的三分圖擴(kuò)展方法前后的摳圖性能對(duì)比見表2。 由表2 可知,與從粗糙三分圖獲得的摳圖透明度遮罩質(zhì)量對(duì)比,使用IM-TD 可以在4 個(gè)指標(biāo)上改善摳圖透明度遮罩的度量評(píng)價(jià),而其他方法則不能。 與其他現(xiàn)有的三分圖擴(kuò)展方法相比,在MSE和Conn指標(biāo)上達(dá)到了最佳值。
表2 摳圖算法GCA[15]在應(yīng)用不同的三分圖擴(kuò)展方法前后的摳圖性能對(duì)比Tab. 2 Comparison of matting performance of GCA [15] before and after applying different trimap expansion methods
除此之外,使用目前先進(jìn)的摳圖算法LFPNet[2]來(lái)作為本文所提算法的前景透明度遮罩提取模型,實(shí)驗(yàn)結(jié)果如圖3 所示。
圖3 粗糙的三分圖和擴(kuò)展后的三分圖的摳圖遮罩對(duì)比Fig. 3 Comparison of matting between a coarse trimap and an expanded trimap
由圖3 可知,直接使用粗糙的三分圖對(duì)圖像進(jìn)行摳圖,無(wú)論是不透明圖像、還是透明圖像其表現(xiàn)效果不佳,使用本文所提出的三分圖擴(kuò)展方法后,摳圖透明度遮罩的質(zhì)量明顯得到了提升。 然而,圖3 中最后2 行可以看出,本文所提的方法IM-TD 在對(duì)前景半透明圖像三分圖的前景進(jìn)行擴(kuò)展時(shí)存在部分的錯(cuò)誤標(biāo)注,導(dǎo)致其摳圖遮罩在前景的質(zhì)量變化不明顯,這影響了總體遮罩質(zhì)量的評(píng)估。 總地來(lái)說,雖然該方法的摳圖效果不如對(duì)透明圖像和半透明圖像分別擴(kuò)展的總體效果,但是可以適用于摳圖場(chǎng)景下的半透明圖像和不透明圖像。
針對(duì)圖像摳圖不能統(tǒng)一處理?yè)笀D場(chǎng)景下前景不透明圖像和前景半透明圖像在粗糙三分圖下的摳圖問題和三分圖擴(kuò)展問題。 提出了基于不同場(chǎng)景下三分圖擴(kuò)展的圖像摳圖算法,通過感知三分圖前景區(qū)域的透明度,選定不同的策略用于不同場(chǎng)景下的粗糙三分圖擴(kuò)展。 在此基礎(chǔ)上,將該算法用于目前摳圖效果較好的摳圖網(wǎng)絡(luò),提高了圖像摳圖的整體精度。 實(shí)驗(yàn)中,通過比較目前較為流行的三分圖擴(kuò)展方法且將擴(kuò)展前后的三分圖應(yīng)用在目前的摳圖方法上的結(jié)果,驗(yàn)證了透明度感知的三分圖擴(kuò)展方法的優(yōu)越性。 且在綜合評(píng)價(jià)指標(biāo)上優(yōu)于目前的算法。