王真言 蔣勝丞 宋奇鴻 劉 波 畢秀麗 肖 斌
(圖像認(rèn)知重慶市重點(diǎn)實(shí)驗(yàn)室(重慶郵電大學(xué)) 重慶 400065)
文物是國(guó)家的瑰寶,其蘊(yùn)含著一個(gè)民族獨(dú)有的精神價(jià)值、思維方式和想象力,具有極高的歷史、藝術(shù)與科學(xué)研究?jī)r(jià)值.由于材質(zhì)的特殊性,文物極易受到潮濕發(fā)霉、蟲蛀鼠咬、人為破壞等威脅.紙張的自然老化也會(huì)產(chǎn)生破洞、碎裂、褪色等問題.如果不及時(shí)修復(fù),文物的價(jià)值就會(huì)下降.傳統(tǒng)破損文物修復(fù)技術(shù)經(jīng)過數(shù)代人繼承和發(fā)展已經(jīng)逐漸成熟,但現(xiàn)有修復(fù)技術(shù)都會(huì)對(duì)文物本身造成一定的損害.此外,傳統(tǒng)文物修復(fù)行業(yè)還面臨供需不平衡、人才緊缺、技能門檻高等一系列問題.因此,國(guó)內(nèi)外博物館都傾向使用數(shù)字圖像修復(fù)技術(shù)對(duì)文物進(jìn)行虛擬化修復(fù),該技術(shù)已成為當(dāng)前的研究熱點(diǎn)[1-4].
目前主要的文物圖像修復(fù)技術(shù)都是基于傳統(tǒng)的圖像處理算法.例如:陳永等人[5]針對(duì)敦煌壁畫裂紋修復(fù)問題提出了一種改進(jìn)曲率驅(qū)動(dòng)擴(kuò)散的修復(fù)算法;Criminisi 等人[6]提出的基于塊匹配的方法,以及Barnes等人[7]提出的基于隨機(jī)采樣的塊匹配方法PatchMatch,在文物修復(fù)領(lǐng)域也有很廣泛的應(yīng)用[8-9].這類方法的主要思想是通過迭代地執(zhí)行待修復(fù)樣本塊相似度計(jì)算、最佳匹配樣本塊搜索、待修復(fù)樣本塊填充3 個(gè)步驟來完成修復(fù)任務(wù).但是這類方法把圖像的局部特征作為修復(fù)的主要依據(jù),忽視了上下文的特征信息.
深度學(xué)習(xí)技術(shù)通過對(duì)大規(guī)模數(shù)據(jù)進(jìn)行自監(jiān)督訓(xùn)練,并使用學(xué)習(xí)到的高維特征映射修復(fù)缺失區(qū)域,能結(jié)合語義信息來恢復(fù)圖像,具有較強(qiáng)的生成泛化能力.目前,使用深度學(xué)習(xí)技術(shù)進(jìn)行文物圖像修復(fù)成為一種趨勢(shì).例如,2022 年Yu 等人[10]使用現(xiàn)代計(jì)算機(jī)視覺和機(jī)器學(xué)習(xí)技術(shù)對(duì)敦煌文化遺產(chǎn)進(jìn)行修復(fù).但是,大多數(shù)方法都使用自然圖像修復(fù)中常見的卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network, CNN).同時(shí),網(wǎng)絡(luò)框架也大多采用編解碼器的結(jié)構(gòu).這類方法能夠結(jié)合上下文語義信息進(jìn)行修復(fù).但是,由于卷積操作的局部相關(guān)性和平移不變性,網(wǎng)絡(luò)難以利用圖像的全局結(jié)構(gòu).因此,重復(fù)的紋理和偽影經(jīng)常出現(xiàn)在被修復(fù)的區(qū)域中.近年來, Transformer[11]在計(jì)算機(jī)視覺領(lǐng)域取得了極其優(yōu)異的成績(jī).與CNN 相比,它克服了卷積的局部相關(guān)性,通過自注意力模塊來獲取圖像的全局信息,其應(yīng)用在文物圖像修復(fù)任務(wù)中可更好地恢復(fù)出圖像的完整結(jié)構(gòu).同時(shí),使用多頭注意力機(jī)制可以實(shí)現(xiàn)修復(fù)結(jié)果的多元化輸出.但是,Transformer也存在著計(jì)算量過大的問題.
值得注意的是,自然圖像修復(fù)與文物圖像修復(fù)存在一定的區(qū)別,如圖1 所示.從破損結(jié)構(gòu)而言,自然圖像的破損大多具有固定的結(jié)構(gòu),而文物圖像的破損多是不規(guī)則且連續(xù)的.雖然有針對(duì)不規(guī)則破損圖像補(bǔ)全的方法,并已實(shí)現(xiàn)了良好的補(bǔ)全效果,但并沒有運(yùn)用到圖像修復(fù)領(lǐng)域中;從破損面積而言,自然圖像破損面積更大且破損區(qū)域往往并不連續(xù),而文物圖像的破損面積都較小;從紋理復(fù)雜程度而言,文物圖像的紋理比自然圖像更加復(fù)雜.同時(shí),基于深度學(xué)習(xí)的方法大多以數(shù)據(jù)驅(qū)動(dòng),但目前國(guó)內(nèi)外并沒有高質(zhì)量的大型文物數(shù)據(jù)集,導(dǎo)致網(wǎng)絡(luò)模型無法學(xué)習(xí)到足夠的文物圖像特征.因此,從自然圖像修復(fù)領(lǐng)域直接遷移的模型并不能很好地實(shí)現(xiàn)對(duì)文物圖像的修復(fù).
圖1 破損圖像對(duì)比Fig.1 Comparison of damaged images
綜上所述,針對(duì)文物圖像修復(fù)任務(wù),本文結(jié)合文物圖像的特點(diǎn)和藝術(shù)家工作時(shí)“先結(jié)構(gòu)后細(xì)節(jié)”的工作流程提出了一種基于Transformer 的文物圖像修復(fù)方法,將文物圖像修復(fù)工作分為2 個(gè)步驟:第1 步使用Transformer 進(jìn)行多元化結(jié)構(gòu)修復(fù);第2 步使用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行上采樣并恢復(fù)缺失區(qū)域的紋理,方法流程圖如圖2 所示.實(shí)驗(yàn)結(jié)果表明,在符合現(xiàn)實(shí)場(chǎng)景的破損文物修復(fù)實(shí)驗(yàn)和文物大面積破損修復(fù)實(shí)驗(yàn)中,本文方法的修復(fù)結(jié)果視覺效果更好,客觀指標(biāo)也高于代表性方法.同時(shí),支持多元化輸出,為修復(fù)人員提供了多樣化的參考,在文物修復(fù)領(lǐng)域具有較高的價(jià)值.
圖2 基于Transformer 的文物圖像修復(fù)方法Fig.2 Transformer-based image restoration method for cultural relics
本節(jié)主要介紹圖像修復(fù)領(lǐng)域的相關(guān)工作及其在文物修復(fù)領(lǐng)域的應(yīng)用,并討論這些方法的優(yōu)缺點(diǎn).圖像修復(fù)方法可以分為傳統(tǒng)方法和基于深度學(xué)習(xí)的方法.
傳統(tǒng)的圖像修復(fù)方法主要包括基于擴(kuò)散的修復(fù)方法和基于樣本塊匹配的修復(fù)方法.目前主要的文物圖像修復(fù)都是基于這2 類修復(fù)技術(shù).
基于擴(kuò)散的修復(fù)方法通過設(shè)計(jì)的擴(kuò)散函數(shù)將相鄰區(qū)域的像素塊傳遞到缺失區(qū)域內(nèi)[12-14].陳永等人[5]針對(duì)壁畫裂紋修復(fù)問題提出了改進(jìn)曲率驅(qū)動(dòng)擴(kuò)散的敦煌壁畫修復(fù)算法,使曲率擴(kuò)散的擴(kuò)散項(xiàng)更合理.
基于樣本塊匹配的修復(fù)方法是從同一幅圖像的相似區(qū)域選擇關(guān)聯(lián)度高的樣本塊并填充到缺失區(qū)域[6,15-16].其中,2004 年提出的PatchMatch[6]通過使用快速最近鄰算法可以很好地完成圖像修復(fù)任務(wù).然而實(shí)現(xiàn)這種方法的前提是能夠在圖像的已知區(qū)域找到缺失區(qū)域的相似紋理,但并不是所有待修復(fù)圖像都能滿足這樣的條件.在文物圖像修復(fù)領(lǐng)域,2019 年Yao[9]在修復(fù)唐卡圖像的過程中,在Criminisi 算法的基礎(chǔ)上引入結(jié)構(gòu)信息對(duì)匹配策略進(jìn)行優(yōu)化,盡可能避免了錯(cuò)誤匹配的問題.2019 年Wang 等人[17]針對(duì)敦煌壁畫修復(fù)問題提出了結(jié)合多個(gè)候選區(qū)的稀疏模型來保證紋理的相似性和結(jié)構(gòu)的連續(xù)性.
基于擴(kuò)散的修復(fù)方法和基于樣本塊匹配的修復(fù)方法主要依賴單張圖像的局部特征,很難恢復(fù)出符合上下文特性的缺失區(qū)域.
深度學(xué)習(xí)技術(shù)通過對(duì)大規(guī)模數(shù)據(jù)進(jìn)行自監(jiān)督訓(xùn)練,并使用學(xué)習(xí)到的高維特征映射修復(fù)缺失區(qū)域,相較于傳統(tǒng)方法其能夠?qū)W習(xí)到更高維度的特征[18],并且能夠在缺失的區(qū)域生成連貫的結(jié)構(gòu).基于CNN 的方法占主導(dǎo)地位,可以分為基于編解碼結(jié)構(gòu)的單階段修復(fù)模型和提供先驗(yàn)信息的修復(fù)模型.
最先使用基于編解碼結(jié)構(gòu)的單階段修復(fù)模型是2016 年提出的Context Encoder[19],編碼器映射圖像缺失區(qū)域到低維特征空間,解碼器用來構(gòu)造輸出圖像.然而,輸出圖像的恢復(fù)區(qū)域通常包含視覺偽影且模糊.2018 年Liu 等人[20]為解決普通卷積特征提取不足的問題創(chuàng)造了“部分卷積”,把傳統(tǒng)卷積層替換為部分卷積層,將編碼器層的深層和淺層特征作為CNN的輸入,使得修復(fù)后的圖像紋理更加一致.2021 年,Zeng 等人[21]提出一種使用可學(xué)習(xí)的損失函數(shù)替代注意力機(jī)制的2 階段模型.基于上下文重建損失,無注意力機(jī)制的生成器也能學(xué)習(xí)到從已知區(qū)域匹配特征進(jìn)行修復(fù)的能力.在文物圖像修復(fù)領(lǐng)域,2021 年Zhang等人[22]針對(duì)古代石刻碑文保護(hù)的問題提出了一種基于多尺度特征融合的石刻圖像去噪與修復(fù)方法.
提供先驗(yàn)信息的修復(fù)方法[23-24]在單階段方法的基礎(chǔ)上加入了先驗(yàn)信息,因此效果更好.2018 年Contextual Attention[25]采用的策略為:第1 階段使用簡(jiǎn)單的膨脹卷積網(wǎng)絡(luò)粗略地恢復(fù)缺失內(nèi)容;第2 階段的細(xì)化網(wǎng)絡(luò)使用上下文注意力機(jī)制來優(yōu)化結(jié)果.2018 年Shift-Net[26]受樣本塊匹配思想的啟發(fā),在UNet 模型的基礎(chǔ)上增加了Shift 連接層,可以計(jì)算每個(gè)缺失區(qū)域樣本塊與已知區(qū)域的相似度系數(shù),并在編碼器特征上引入了引導(dǎo)損失,提升了修復(fù)的精度.2020年Zeng 等人[27]利用深度卷積神經(jīng)網(wǎng)絡(luò)對(duì)破損圖像進(jìn)行粗略修復(fù),然后利用最近鄰像素匹配進(jìn)行可控制的再次修復(fù),使得修復(fù)的圖像更具真實(shí)感.2021 年Qin 等人[28]提出了基于多尺度注意力網(wǎng)絡(luò)的修復(fù)模型,通過引入多尺度注意力組來提高修復(fù)后圖像的真實(shí)性.在文物圖像修復(fù)領(lǐng)域,2019 年曹建芳等人[29]針對(duì)古代壁畫起甲、脫落等問題提出一種基于增強(qiáng)一致性生成對(duì)抗網(wǎng)絡(luò)的圖像修復(fù)算法,提高了壁畫修補(bǔ)區(qū)域與全局的一致性.
將文獻(xiàn)[23-29]所述的方法直接應(yīng)用到文物圖像修復(fù)領(lǐng)域雖然能夠修復(fù)大面積破損的圖像,但由于文物的破損往往存在細(xì)節(jié)丟失、特征不足等問題[5,30],難以恢復(fù)連貫結(jié)構(gòu)[28-29].同時(shí)卷積的局部連接和平移不變性導(dǎo)致其對(duì)圖像的全局結(jié)構(gòu)很難把握,也容易產(chǎn)生重復(fù)的紋理.隨著深度學(xué)習(xí)理論的發(fā)展,Transformer 在計(jì)算機(jī)視覺領(lǐng)域內(nèi)的廣泛應(yīng)用,一些初步的工作[31-33]也證明了它在自然圖像合成方面有非常強(qiáng)的能力.如2021 年ICT(image completion transformer)[33]采用Transformer 的輸出作為結(jié)構(gòu)先驗(yàn)以實(shí)現(xiàn)高保真度的圖像補(bǔ)全.此外,Transformer 中的多頭注意力機(jī)制可以實(shí)現(xiàn)結(jié)果的多樣化輸出.但是,由于自注意力機(jī)制每次都要計(jì)算所有塊之間的注意力,計(jì)算復(fù)雜度為輸入長(zhǎng)度的平方,因此處理高分辨率圖像較為困難[34].
本文受到提供先驗(yàn)信息的深度學(xué)習(xí)方法的啟發(fā),為避免卷積操作難以恢復(fù)全局結(jié)構(gòu)的缺點(diǎn),先采用Transformer 模型來恢復(fù)整體的結(jié)構(gòu)信息,再通過一個(gè)具有上采樣功能的修復(fù)網(wǎng)絡(luò)進(jìn)行紋理修復(fù),使得修復(fù)后的文物圖像整體結(jié)構(gòu)連貫,同時(shí)避免出現(xiàn)偽影、模糊等現(xiàn)象,并且使修復(fù)結(jié)果更加逼近原始圖像.文物圖像修復(fù)的目的是將有缺失像素的輸入圖像ID=I⊙(1-M)通過預(yù)測(cè)轉(zhuǎn)化成完整圖像IC.因此,本文方法將文物圖像修復(fù)任務(wù)分成多元化結(jié)構(gòu)修復(fù)和上采樣紋理修復(fù)2 個(gè)階段,網(wǎng)絡(luò)結(jié)構(gòu)分別如圖3、圖4 所示.第1 階段中,Transformer 模型將輸入圖像ID變換為具有連貫結(jié)構(gòu)的中間修復(fù)結(jié)果IR,此過程可表示為p(IR|ID).第2 階段中,IR通過CNN 模型學(xué)習(xí)到IC的特征映射,將IR進(jìn)行上采樣的同時(shí)修復(fù)精細(xì)紋理,并在特征層次進(jìn)行融合得到輸出圖像IC,實(shí)現(xiàn)對(duì)文物圖像的修復(fù),此過程可表示為p(IC|IR,ID).綜上,整個(gè)修復(fù)過程可表述為
圖3 多元化結(jié)構(gòu)修復(fù)網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.3 Diversified structure repair network structure diagram
圖4 上采樣紋理修復(fù)網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.4 Upsamping texture repair network structure diagram
Transformer 摒棄了CNN 的局部相關(guān)性和平移不變性,通過多個(gè)自注意力模塊來獲取圖像的全局信息[11],其應(yīng)用在文物圖像修復(fù)任務(wù)中可更好地恢復(fù)出圖像的完整結(jié)構(gòu).
本文使用的Transformer 模塊結(jié)構(gòu)如圖3 所示,與GPT-2 模型[35]的做法相同,僅使用Transformer 的解碼器,其計(jì)算過程可表述為
其中LN,MSA,MLP分別代表層歸一化、多頭自注意力模塊、全連接層.其中,MSA可表示為
其中n代表注意力頭的個(gè)數(shù);Q,K,V代表3 個(gè)可學(xué)習(xí)的映射矩陣;dK為K的特征維度;MLPO是一個(gè)連接不同自注意力模塊的全連接層.
由于GPT 模型是通過單向注意力預(yù)測(cè)缺失區(qū)域的元素,僅能關(guān)注到前序序列的信息.為了使每個(gè)樣本塊都能關(guān)注到所有位置的信息,本文采用與BERT[36]類似的遮蔽語言模型(mask language model, MLM)來優(yōu)化Transformer 模型,確保生成像素可以捕獲所有可用的上下文信息,從而使生成內(nèi)容與已知區(qū)域相一致.具體來說,讓?duì)?=(π1,π2,...,πm)表示離散化輸入中標(biāo)記為掩膜的索引,其中m是被屏蔽的標(biāo)記數(shù)量.MLM 的目標(biāo)是使所有觀察區(qū)域條件下XΠ的負(fù)對(duì)數(shù)似然最小,用公式表示為
其中 θ代表Transformer 模型所學(xué)習(xí)到的參數(shù).MLM和雙向注意力機(jī)制相結(jié)合,確保了網(wǎng)絡(luò)可以利用所有位置的信息來預(yù)測(cè)缺失區(qū)域的內(nèi)容.
在輸入到Transformer 之前,圖像首先被編碼成為一個(gè)離散化的序列,表示為Ir=(i1,i2,…,ilen),其中l(wèi)en代表Ir的長(zhǎng)度.為了對(duì)圖像的空間信息進(jìn)行編碼,將一個(gè)可學(xué)習(xí)位置的特征選擇器添加到每個(gè)位置的標(biāo)記特征中,然后再將這個(gè)離散化序列通過預(yù)學(xué)習(xí)編碼映射到一個(gè)高維的特征向量中,最后再組成Transformer 模型的輸入.考慮到Transformer 的計(jì)算復(fù)雜度與輸入長(zhǎng)度的平方成正比,且多頭注意力機(jī)制[11]的計(jì)算復(fù)雜度與輸入長(zhǎng)度的4 次方成正比,如果采用正常的RGB 像素表達(dá)矩陣,那么計(jì)算量將過于巨大.為了降低計(jì)算成本,采用與ICT 相似的做法,使用原始文物圖像對(duì)應(yīng)的低分辨率版本來表示其連貫結(jié)構(gòu)的先驗(yàn),即使用大小為32×32 的塊來表示原始圖像的結(jié)構(gòu)信息和粗略的紋理.為了進(jìn)一步降低維度,本文還使用K-Means 聚類算法在文物圖像數(shù)據(jù)集上構(gòu)造大小為512×3 的RGB 像素詞表.可以通過搜索這個(gè)詞表來重建每個(gè)連貫結(jié)構(gòu)的先驗(yàn)信息.
由于Transformer 中多頭注意力機(jī)制的存在使IR可以很容易地輸出多種合理的結(jié)果,針對(duì)每一種結(jié)果,在重建低維結(jié)構(gòu)先驗(yàn)信息之后,本文方法還學(xué)習(xí)了一個(gè)確定的映射將低維圖像IR放大為輸入圖像的大小,并且沒有改變空洞區(qū)域和非掩碼區(qū)域的邊緣結(jié)構(gòu)信息.為了盡可能恢復(fù)圖像的紋理細(xì)節(jié)和高頻信息,本文使用了傳統(tǒng)CNN 卷積及殘差結(jié)構(gòu),并使用聯(lián)合感知損失函數(shù)對(duì)細(xì)節(jié)修復(fù)的結(jié)果進(jìn)行約束,在上采樣的過程中盡可能恢復(fù)高頻細(xì)節(jié).
在上采樣紋理修復(fù)網(wǎng)絡(luò)中,雙層殘差結(jié)構(gòu)在保證輸入先驗(yàn)結(jié)構(gòu)信息不被篡改的同時(shí),使修復(fù)結(jié)果更加符合上下文語義信息.然后利用PixelShuffle 像素重組技術(shù)對(duì)圖像進(jìn)行上采樣,在不損失清晰度與真實(shí)細(xì)節(jié)信息的前提下對(duì)圖像進(jìn)行超分辨.
為達(dá)到這個(gè)目的,本文方法的第2 階段訓(xùn)練了前饋式CNN 的生成網(wǎng)絡(luò)Gθ,網(wǎng)絡(luò)結(jié)構(gòu)如圖4 所示.其中生成器網(wǎng)絡(luò)的訓(xùn)練過程可以表示為
其中聯(lián)合損失函數(shù)lSP是若干損失函數(shù)的加權(quán)組合以模擬恢復(fù)圖像的不同特征.θG={W1:L;b1:L}代表第N層網(wǎng)絡(luò)通過聯(lián)合損失函數(shù)lSP優(yōu)化后的權(quán)重和偏置.為恢復(fù)更加逼真的紋理細(xì)節(jié),在網(wǎng)絡(luò)訓(xùn)練階段將生成器參數(shù)和辨別器參數(shù)進(jìn)行交替優(yōu)化,優(yōu)化表達(dá)式為:
其中IH為高分辨率圖像,IL為低分辨率圖像.
為了更好地完成基于結(jié)構(gòu)先驗(yàn)的修復(fù)任務(wù),本文在Ledig 等人[37]的基礎(chǔ)上設(shè)計(jì)改進(jìn)了更適用于文物圖像修復(fù)任務(wù)的聯(lián)合感知損失函數(shù),其表達(dá)式為
聯(lián)合感知損失函數(shù)由3 部分組成:內(nèi)容感知損失lcontext、生成對(duì)抗損失ladv、全變分損失lTV.無論是在像素層面還是感知層面都能很好地提升修復(fù)圖像的質(zhì)量.
2.3.1 內(nèi)容損失函數(shù)
內(nèi)容損失lcontext主要分為2 部分,即像素層面的均方差損失和特征層面上提出VGG 損失.像素層面的均方差損失的表達(dá)式為:
其中R,W,H分別表示圖像縮放系數(shù)、圖像寬度、圖像高度.這是圖像修復(fù)領(lǐng)域運(yùn)用最廣泛的損失函數(shù).然而實(shí)驗(yàn)結(jié)果表明雖然修復(fù)結(jié)果具有較高的峰值信噪比(peak signal noise rating, PSNR)指標(biāo),但使用其進(jìn)行優(yōu)化往往會(huì)導(dǎo)致修復(fù)結(jié)果缺乏高頻細(xì)節(jié),喪失圖像原本的真實(shí)性.因此前人在特征層面提出VGG損失為:
其中VGG/i,j中的i,j代表本文所選用的卷積層,φi,j為第i個(gè)池化層前的第j個(gè)卷積層,Wi,j和Hi,j表示VGG 網(wǎng)絡(luò)中特征圖的寬度與高度.這種方法得到的PSNR 較高,紋理也相對(duì)真實(shí).
2.3.2 對(duì)抗損失函數(shù)
本文方法在訓(xùn)練階段還額外添加了一個(gè)對(duì)抗損失來產(chǎn)生更加真實(shí)的紋理:
其中D是參數(shù)為 ω的辨別器.交替共同訓(xùn)練生成器網(wǎng)絡(luò)F和辨別器D來求解優(yōu)化問題:
其中l(wèi)?1為L(zhǎng)1損失函數(shù), α1=1.0, α2=0.1.
2.3.3 全變分損失函數(shù)
使用2.3.2 節(jié)的損失函數(shù)能夠產(chǎn)生較好的修復(fù)結(jié)果,但在文物圖像破損區(qū)域仍然存在部分失真與不平滑的區(qū)域.因此,本文引入了全變分損失函數(shù)lTV[38],使修復(fù)圖像和掩膜的邊緣更加平滑.其表達(dá)式為:
其中u為支持域, β=2.0.
為了討論和驗(yàn)證本文提出的修復(fù)方法,并將其與已有的修復(fù)方法進(jìn)行對(duì)比和分析,本節(jié)將從5 個(gè)角度進(jìn)行實(shí)驗(yàn).首先,對(duì)比各方法在現(xiàn)實(shí)場(chǎng)景下的破損修復(fù)效果;然后對(duì)比各方法對(duì)大面積破損的修復(fù)效果、驗(yàn)證本文方法在不同數(shù)據(jù)集上的修復(fù)效果、驗(yàn)證本文方法在自然圖像上的修復(fù)效果;最后討論多元化文物圖像修復(fù)的優(yōu)點(diǎn).
目前文物圖像修復(fù)領(lǐng)域并沒有高質(zhì)量的大型公開數(shù)據(jù)集,而大多數(shù)基于深度學(xué)習(xí)的方法均以數(shù)據(jù)為驅(qū)動(dòng),如果訓(xùn)練集過小則會(huì)導(dǎo)致網(wǎng)絡(luò)性能不佳、修復(fù)效果不理想等問題.為解決文物圖像數(shù)據(jù)庫過小的問題,本文對(duì)中國(guó)臺(tái)北故宮博物館官網(wǎng)提供的5 000張分辨率為3 000×4 000 的文物圖像進(jìn)行處理,最終得到的88 000 張分辨率為256×256 的文物圖像作為本次實(shí)驗(yàn)的基礎(chǔ)數(shù)據(jù)集.具體處理過程為:首先將5 000張分辨率為3 000×4 000 的圖像進(jìn)行人工篩選,剔除顏色過于單一、無關(guān)內(nèi)容太多的圖像;然后通過隨機(jī)剪裁分成分辨率為256×256 的圖像;再進(jìn)行一次人工篩選,最終構(gòu)成包含山水畫、人物畫像、壁畫、花鳥畫4 類共計(jì)80 000 張的大型文物圖像數(shù)據(jù)集.此外,為了降低數(shù)據(jù)集原始樣本的影響,本文在訓(xùn)練樣本中隨機(jī)抽取8 000 張圖像進(jìn)行數(shù)據(jù)增廣,詳細(xì)的數(shù)據(jù)集劃分與增廣操作如表1 所示.
Table 1 Statistics for Using Datasets表1 使用數(shù)據(jù)集的統(tǒng)計(jì)信息
在圖像修復(fù)領(lǐng)域,目前最常用的評(píng)估指標(biāo)有峰值信噪比和結(jié)構(gòu)相似性(structural similarity index measure,SSIM).近年來,為更深層次地評(píng)價(jià)修復(fù)圖像的質(zhì)量,常使用學(xué)習(xí)感知圖像塊相似性[39](learned perceptual image patch similarity, LPIPS)來作為評(píng)估指標(biāo).
本文實(shí)驗(yàn)的硬件環(huán)境為Intel?Xeon?Platinum 8255C 和2 塊Tesla V100.實(shí)驗(yàn)平臺(tái)的軟件環(huán)境為Pytorch 1.8.0,CUDA 11.1.1.訓(xùn)練過程中采用Adam 優(yōu)化器對(duì)參數(shù)進(jìn)行優(yōu)化,學(xué)習(xí)率為1×10-4,1 階動(dòng)量為0.5,2 階動(dòng)量為0.1.
本節(jié)在符合現(xiàn)實(shí)場(chǎng)景破損和大面積破損2 種情況下,與基于塊匹配的傳統(tǒng)方法代表PM[6]、結(jié)合先驗(yàn)信息的深度學(xué)習(xí)方法代表Shift-Net[26]、雙階段修復(fù)模型CRF[21]和EC[23]、使用不同類型卷積的單階段深度學(xué)習(xí)方法代表PC[20]、基于Transformer 和CNN 的雙階段修復(fù)方法代表ICT[33]和EC[33]進(jìn)行對(duì)比,以驗(yàn)證本文方法的有效性.
3.4.1 符合現(xiàn)實(shí)場(chǎng)景破損的修復(fù)實(shí)驗(yàn)
本節(jié)將對(duì)比各種方法在符合現(xiàn)實(shí)場(chǎng)景的皸裂山水畫的修復(fù)效果.結(jié)合現(xiàn)實(shí)中文物破損面積小、破損不規(guī)則、破損區(qū)域連續(xù)等特點(diǎn),本文專門設(shè)計(jì)了大小在10%~15%且破損區(qū)域連續(xù)、大小依次遞增的5 張掩膜,表示為Ms-1~5.本節(jié)實(shí)驗(yàn)均采用這5 張?zhí)囟ǖ难谀?同時(shí),由于山水畫更加強(qiáng)調(diào)結(jié)構(gòu)的連貫性與紋理的細(xì)膩性,修復(fù)難度更高,因此實(shí)驗(yàn)在本節(jié)與3.4.2節(jié)均在山水畫中進(jìn)行對(duì)比.
圖5 展示了各方法的修復(fù)結(jié)果.由圖5(c)可見,PM 整體表現(xiàn)優(yōu)異,但修復(fù)區(qū)域缺乏上下文的語義信息.在已知區(qū)域無法提供足夠多的先驗(yàn)信息時(shí)尤為明顯.由圖5(d)(e)所示,PC 和Shift-Net 的修復(fù)結(jié)果在連貫結(jié)構(gòu)的恢復(fù)上并不合理,存在重復(fù)的紋理和偽影.由圖5(f)(g)所示,EC,CRF 的修復(fù)結(jié)果較為優(yōu)秀,但在某些特定掩膜下會(huì)出現(xiàn)嚴(yán)重的偽影.相對(duì)這些方法,本文的2 階段修復(fù)模型的圖像處理效果均比較理想,階段性的修復(fù)過程更加適用于文物圖像修復(fù)任務(wù).圖5(h)的ICT 與本文方法的修復(fù)質(zhì)量相對(duì)較高,由此可見,基于Transformer 的修復(fù)方法可以給模型提供更好的先驗(yàn)信息.但I(xiàn)CT 未將上采樣和修復(fù)過程結(jié)合,導(dǎo)致其在上采樣過程中丟失的關(guān)鍵像素?zé)o法被修復(fù),部分區(qū)域仍存在顏色失調(diào)的現(xiàn)象.而本文方法先使用Transformer 進(jìn)行結(jié)構(gòu)先驗(yàn),再結(jié)合圖像超分辨的思想,把上采樣和修復(fù)的過程結(jié)合起來,增強(qiáng)了網(wǎng)絡(luò)上采樣的能力,使網(wǎng)絡(luò)在上采樣的過程中能保留更多的關(guān)鍵信息.同時(shí)在聯(lián)合損失函數(shù)的約束下,文物圖像修復(fù)的質(zhì)量得到極大提升,修復(fù)結(jié)果語義連貫、偽影和重復(fù)的紋理較少,取得了較好的指標(biāo)和視覺效果.
圖5 不同算法對(duì)現(xiàn)實(shí)破損場(chǎng)景的修復(fù)結(jié)果對(duì)比Fig.5 Comparison of repair results of different algorithms for realistic damaged scenes
各種方法的修復(fù)指標(biāo)如表2 所示,本文方法在PSNR,SSIM 上表現(xiàn)均為最優(yōu).相較于PM,PC,Shift-Net,EC,CRF,ICT 這6 種方法,SSIM 指標(biāo)分別提升了13.2 個(gè)百分點(diǎn)、11.7 個(gè)百分點(diǎn)、11.9 個(gè)百分點(diǎn)、1.3個(gè)百分點(diǎn)、2.7 個(gè)百分點(diǎn)、0.8 個(gè)百分點(diǎn);PSNR 指標(biāo)分別提升了14.4 個(gè)百分點(diǎn)、14.5 個(gè)百分點(diǎn)、22.3 個(gè)百分點(diǎn)、9.7 個(gè)百分點(diǎn)、6.0 個(gè)百分點(diǎn)、11.5 個(gè)百分點(diǎn).隨著掩膜逐漸增大,PSNR,SSIM 這2 項(xiàng)指標(biāo)均有所下降,但本文方法相較于其他方法下降趨勢(shì)更加平穩(wěn).
Table 2 Results of Our Method and Other Methods for Repairing Real-Life Damaged Scenes表2 本文方法與其他方法針對(duì)現(xiàn)實(shí)破損場(chǎng)景修復(fù)的結(jié)果
3.4.2 針對(duì)大面積破損的修復(fù)實(shí)驗(yàn)
3.4.1 節(jié)實(shí)驗(yàn)中使用的是特定的掩膜.為進(jìn)一步驗(yàn)證本文方法對(duì)大面積破損文物修復(fù)的有效性,本節(jié)使用3 張20%~25%的隨機(jī)掩膜進(jìn)行測(cè)試,表示為ML-1~3.
各種方法的修復(fù)結(jié)果如表3 所示.可以看出,PM,PC,Shift-Net 這三者的指標(biāo)相較于3.4.1 節(jié)實(shí)驗(yàn)中的值出現(xiàn)了比較明顯的下降,而基于Transformer 的2種修復(fù)方法在面對(duì)大小不同的掩膜時(shí),指標(biāo)下降的趨勢(shì)相對(duì)平穩(wěn),由此可以驗(yàn)證基于Transformer 的模型的泛化性、魯棒性更好.本文方法相較于PM,PC,Shift-Net,EC,CRF,ICT 這6 種方法,SSIM 指標(biāo)分別提升了27.8 個(gè)百分點(diǎn)、30.9 個(gè)百分點(diǎn)、30.9 個(gè)百分點(diǎn)、3.2 個(gè)百分點(diǎn)、2.0 個(gè)百分點(diǎn)、1.0 個(gè)百分點(diǎn);PSNR 指標(biāo)分別提升了21.1 個(gè)百分點(diǎn)、20.7 個(gè)百分點(diǎn)、32.6 個(gè)百分點(diǎn)、17.8 個(gè)百分點(diǎn)、15 個(gè)百分點(diǎn)、11.6 個(gè)百分點(diǎn).由表4 左側(cè)可以看出,在破損區(qū)域較為集中時(shí),得益于Transformer 模型提供的先驗(yàn)信息和上采樣修復(fù)模型的約束,本文方法可以很好地恢復(fù)文物圖像的底色和山的輪廓,局部紋理也清晰可見,偽影較少.由表4 右側(cè)中可以看出,在破損區(qū)域較為隨機(jī)時(shí),本文方法恢復(fù)的結(jié)構(gòu)很好地把握了全局的信息,局部紋理也非常逼真.
Table 3 Results of Our Method and Other Methods for Repairing Large Areas of Damage表3 本文方法與其他方法針對(duì)大面積破損修復(fù)的結(jié)果
表3 和表4 表明本文方法對(duì)大面積破損文物的結(jié)構(gòu)恢復(fù)能力突出,紋理、顏色的恢復(fù)也較為合理,具有很好的修復(fù)效果.
在實(shí)驗(yàn)過程中發(fā)現(xiàn),少部分指標(biāo)較高的圖片卻存在修復(fù)區(qū)域模糊的現(xiàn)象,而符合人類視覺感知的修復(fù)結(jié)果其指標(biāo)反而更低,如圖6 所示.
圖6 異常指標(biāo)對(duì)比圖Fig.6 Comparison chart of abnormal indicators
本文認(rèn)為利用單一損失函數(shù)約束的回歸模型在PSNR,SSIM 兩個(gè)指標(biāo)上能得到提升,但其修復(fù)結(jié)果并不是人類視覺感知上最好的結(jié)果.并且損失函數(shù)的部分約束計(jì)算和PSNR,SSIM 這2 個(gè)指標(biāo)計(jì)算類似,因此會(huì)影響網(wǎng)絡(luò)的訓(xùn)練環(huán)節(jié),導(dǎo)致部分文物圖像修復(fù)結(jié)果出現(xiàn)輕微模糊、但其圖像指標(biāo)頗高的現(xiàn)象.為進(jìn)一步驗(yàn)證本文方法的有效性,本文引入更深層次衡量修復(fù)圖像質(zhì)量的指標(biāo)LPIPS[39].初步實(shí)驗(yàn)結(jié)果證明,LPIPS 指標(biāo)更符合人類的視覺感知,其值越低表示2 張圖像越相似,結(jié)果如圖7 所示.本文方法相較于基于深度學(xué)習(xí)的Shift-Net,PC,EC,CRF,ICT 這5 種方法,LPIPS 指標(biāo)分別下降了41.1 個(gè)百分點(diǎn)、70.7 個(gè)百分點(diǎn)、27.1 個(gè)百分點(diǎn)、1.8 個(gè)百分點(diǎn)、17.2 個(gè)百分點(diǎn).
圖7 不同掩膜的LPIPS 值對(duì)比Fig.7 Comparison of LPIPS values of different masks
綜上所述,本文方法在PSNR,SSIM,LPIPS 這3種指標(biāo)上表現(xiàn)均優(yōu)于其他具有代表性的方法.
3.4.3 數(shù)據(jù)庫中其他類型圖片的修復(fù)實(shí)驗(yàn)
本節(jié)將驗(yàn)證本文方法在人物畫像、壁畫、花鳥畫中的修復(fù)效果.人物畫像、壁畫、花鳥畫繪畫技法都以線為主勾勒表現(xiàn)繪畫對(duì)象,對(duì)整體結(jié)構(gòu)的連貫性要求比較小,顏色的層次更少,紋理相較于山水畫更簡(jiǎn)單.因此本節(jié)實(shí)驗(yàn)中分別使用數(shù)據(jù)集中的人物畫像、壁畫、花鳥畫進(jìn)行訓(xùn)練,實(shí)驗(yàn)細(xì)節(jié)與3.4.1 節(jié)、3.4.2 節(jié)完全一致.表5 中,對(duì)于花卉修復(fù)結(jié)果,無論掩膜區(qū)域相對(duì)集中還是隨機(jī),本文方法都能恢復(fù)出連貫的結(jié)構(gòu)和合理的顏色;人物畫像修復(fù)結(jié)果主要結(jié)構(gòu)相對(duì)集中,在主體結(jié)構(gòu)缺失的情況下,本文方法恢復(fù)的結(jié)果語義相對(duì)連貫,輪廓、細(xì)節(jié)都能得到很好的恢復(fù);壁畫的結(jié)構(gòu)相對(duì)簡(jiǎn)單,顏色相對(duì)單一,本文方法恢復(fù)的結(jié)果偽跡較少,具有良好的視覺效果;但由于根據(jù)類別劃分的數(shù)據(jù)集樣本較少,以及Transformer 多元化輸出的特點(diǎn),本文方法在修復(fù)大面積破損圖像時(shí)會(huì)出現(xiàn)輕微失真的情況.對(duì)于此現(xiàn)象帶來的優(yōu)缺點(diǎn),本文將在3.6 節(jié)中對(duì)多元化修復(fù)作進(jìn)一步闡述.
以上結(jié)果表明在對(duì)不同類別文物圖像的修復(fù)中,本文方法在主觀和客觀指標(biāo)上都具有較好的修復(fù)效果.
由于目前大多數(shù)基于深度學(xué)習(xí)的圖像修復(fù)方法針對(duì)的都是常規(guī)圖像,因此本文也驗(yàn)證了所提方法對(duì)自然圖像的修復(fù)效果.由表6 可見,針對(duì)缺失面積較大的圖像,本文方法恢復(fù)的圖像結(jié)構(gòu)連貫,與原圖相對(duì)一致,輪廓清晰,局部紋理逼真.針對(duì)缺失面積較小的圖像,本文方法恢復(fù)的圖像結(jié)構(gòu)連貫且符合上下文語義信息.
Table 6 Conventional Image Restoration Renderings表6 常規(guī)圖像修復(fù)效果圖
文物修復(fù)往往需要將修復(fù)人員的主觀認(rèn)知和原始參照物結(jié)合起來.但在實(shí)際的文物修復(fù)任務(wù)中,存在無對(duì)照樣本的情況,導(dǎo)致修復(fù)結(jié)果無法驗(yàn)證合理性.針對(duì)此問題,本文方法通過多頭注意力機(jī)制實(shí)現(xiàn)多樣化輸出.多元化的修復(fù)結(jié)果如表7、表8 所示.值得注意的是,本文方法雖然在進(jìn)行大面積修復(fù)時(shí)偶爾會(huì)出現(xiàn)輕微失真、模糊的情況,但可以為專家提供多種修復(fù)參考,為后序修復(fù)提供決策依據(jù),在降低文物修復(fù)的主觀性、隨機(jī)性的同時(shí)加強(qiáng)修復(fù)的準(zhǔn)確性,極大地提升了文物修復(fù)效率.
本節(jié)通過討論2 階段網(wǎng)絡(luò)的修復(fù)結(jié)果,分析論證各階段子網(wǎng)在文物修復(fù)任務(wù)中的不同作用.在實(shí)際修復(fù)任務(wù)中,文物圖像常常會(huì)因老化而產(chǎn)生破洞、裂痕等問題,使圖像整體結(jié)構(gòu)受到破壞,如圖8 所示.第1 階段利用Transformer 對(duì)破損文物圖像進(jìn)行整體結(jié)構(gòu)先驗(yàn)信息修復(fù)的結(jié)果如圖8(b)所示;第2 階段利用多重殘差卷積網(wǎng)絡(luò)對(duì)第1 階段輸出圖像進(jìn)行紋理修復(fù)的結(jié)果如圖8(d)所示.
圖8 各階段文物修復(fù)效果Fig.8 Effect of the various stages of cultural relics restoration
本文方法從文物圖像的特性出發(fā),在修復(fù)過程中充分考慮了圖像的整體結(jié)構(gòu)與局部紋理.如果在文物圖像修復(fù)任務(wù)中僅僅使用第1 階段的子網(wǎng)絡(luò),雖然可以生成連貫且符合語義的整體結(jié)構(gòu),但為減少計(jì)算量的降維操作往往會(huì)導(dǎo)致修復(fù)結(jié)果較為模糊、缺乏相應(yīng)的細(xì)節(jié)語義信息,如圖8(b)所示;如果在文物圖像修復(fù)任務(wù)中僅僅使用第2 階段的子網(wǎng)絡(luò),雖然可以生成有效的局部紋理,但修復(fù)的圖像會(huì)缺乏正確的上下文語義信息,如圖8(d)所示.
綜合上述對(duì)階段性子網(wǎng)絡(luò)的分析表明,本文方法只有在2 階段網(wǎng)絡(luò)共同作用下才能實(shí)現(xiàn)最優(yōu)修復(fù)效果.
在文物圖像補(bǔ)全領(lǐng)域,長(zhǎng)期存在著既要實(shí)現(xiàn)足夠的多樣性又要求修復(fù)效果逼真的困境.本文針對(duì)文物圖像修復(fù)任務(wù)提出了一種基于Transformer 的修復(fù)方法,該方法將Transformer 和CNN 的優(yōu)點(diǎn)結(jié)合;利用Transformer 的全局結(jié)構(gòu)理解能力和多元化輸出以及CNN 較強(qiáng)的局部感知能力,本文方法實(shí)現(xiàn)了對(duì)文物圖像的高質(zhì)量修復(fù).同時(shí),本文提出了一個(gè)新的高質(zhì)量文物數(shù)據(jù)庫,解決了國(guó)內(nèi)外缺乏相關(guān)數(shù)據(jù)庫的問題.大量實(shí)驗(yàn)表明,本文方法在主客觀效果上均優(yōu)于現(xiàn)有方法,并實(shí)現(xiàn)了多元化輸出,提升了文物修復(fù)效率.本文方法仍有需要深入研究與改進(jìn)的方面,如圖8 的修復(fù)結(jié)果在原始缺損區(qū)域附近產(chǎn)生模糊等問題.此外,本文設(shè)計(jì)的2 階段網(wǎng)絡(luò)能夠生成多元化的結(jié)果,最大程度地為文物修復(fù)提供指導(dǎo)與參考,但在修復(fù)大面積破損圖像時(shí)也會(huì)產(chǎn)生與原始圖像不一致的結(jié)果.最后,由于評(píng)估指標(biāo)的缺陷,實(shí)驗(yàn)中會(huì)出現(xiàn)高指標(biāo)、低主觀感知質(zhì)量和低指標(biāo)、高主觀感知質(zhì)量的修復(fù)結(jié)果,對(duì)網(wǎng)絡(luò)訓(xùn)練的非線性回歸產(chǎn)生影響.后續(xù)工作考慮在第2 階段子網(wǎng)絡(luò)設(shè)計(jì)方面對(duì)圖像進(jìn)行多尺度特征融合與去噪[25];探索更能反映文物圖像修復(fù)質(zhì)量的評(píng)價(jià)指標(biāo),加強(qiáng)對(duì)網(wǎng)絡(luò)的約束并提升文物圖像修復(fù)質(zhì)量.也可借助門控卷積[40]網(wǎng)絡(luò)的設(shè)計(jì)思想對(duì)第2 階段進(jìn)行改進(jìn),使其更能適應(yīng)缺損面積較大的文物圖像修復(fù)任務(wù).還可以進(jìn)一步提高文物圖像數(shù)據(jù)集的數(shù)量與質(zhì)量,將各類文物圖像進(jìn)行更加細(xì)致地劃分,以適應(yīng)更加復(fù)雜的修復(fù)場(chǎng)景;更新專項(xiàng)訓(xùn)練策略,提高修復(fù)結(jié)果的分辨率和觀賞價(jià)值.
作者貢獻(xiàn)聲明:王真言負(fù)責(zé)部分實(shí)驗(yàn)開發(fā)任務(wù)、數(shù)據(jù)整理分析并提供論文修改意見;蔣勝丞完成部分實(shí)驗(yàn)開發(fā)任務(wù)、數(shù)據(jù)集的創(chuàng)建并撰寫論文;宋齊鴻提供論文修改意見;劉波、畢秀麗和肖斌提供實(shí)驗(yàn)開發(fā)思路,給予工作支持和指導(dǎo)意見.