段 熒,龍 華,2,瞿于荃,杜慶治,2,邵玉斌,2
1(昆明理工大學(xué) 信息工程與自動(dòng)化學(xué)院,昆明 650000)2(昆明理工大學(xué) 云南省計(jì)算機(jī)重點(diǎn)實(shí)驗(yàn)室,昆明 650000)
文字是人類信息最重要的載體和最集中的表象,記載了幾千年人類的文明和歷史,對(duì)中華文明的傳承和發(fā)展起著極其關(guān)鍵的作用.當(dāng)前,文檔圖像中如果僅包含文字,尤其是印刷體文字的OCR(Optical Character Recognition,光學(xué)字符識(shí)別)已在各種領(lǐng)域中得到應(yīng)用.然而,隨著歷史更迭發(fā)展,部分碑刻作品以及書畫作品在流傳過(guò)程中,由于各種不穩(wěn)定的保存因素,導(dǎo)致作品遭受不同程度的污損,比如自然的老化、發(fā)霉受潮、污跡遍布、動(dòng)物撕咬、風(fēng)雨侵蝕、人為損壞等等,這些種種因素均會(huì)使字跡變得模糊不清或者局部殘缺.針對(duì)文物字畫和碑刻作品的破損書法作品,使用傳統(tǒng)的手工修復(fù)方法不僅流程繁復(fù)[1-3]而耗時(shí)較長(zhǎng),除了考究修復(fù)人員高超的復(fù)原技術(shù)和耐心之外,還要求對(duì)歷史事實(shí)持有科學(xué)而又嚴(yán)謹(jǐn)?shù)膽B(tài)度.文本圖片的干擾修復(fù)同樣也具有現(xiàn)實(shí)意義,在識(shí)別文本圖片時(shí)大多數(shù)文檔都無(wú)法達(dá)到理想狀態(tài),并且經(jīng)常包含各種干擾信息,例如當(dāng)人們?cè)谠嘉臋n上留下橫線等來(lái)標(biāo)記文檔中的重要內(nèi)容,或者文檔本身就存在各種橫線表示需要填寫信息或者其他提醒時(shí),文檔圖像的OCR的識(shí)別率會(huì)急劇下降.雖然可以通過(guò)二值化[4]等算法進(jìn)行預(yù)處理,但是對(duì)于與文字進(jìn)行粘連的干擾部分卻依舊無(wú)法進(jìn)行處理[5],對(duì)于不能識(shí)別的拒識(shí)字也有學(xué)者利用上下文信息的相關(guān)性進(jìn)行后處理[6,7],進(jìn)一步地提高準(zhǔn)確率,當(dāng)初步識(shí)別效果較差時(shí)該方法并不能顯著地提升準(zhǔn)確率,并且它依賴一個(gè)健全的候選字庫(kù)以及上下文信息(即語(yǔ)言學(xué)知識(shí))的運(yùn)用.因此如何有效地去除干擾,對(duì)于減少文檔圖片拒識(shí)字,提升識(shí)別準(zhǔn)確率具有不容忽視的作用,同時(shí)也向修復(fù)污損的文字作品提供了新的思路.
目前,文檔圖像去除干擾的工作可以分為兩類,一是類似于表格或是下劃線與文字信息沒(méi)有粘連的干擾,如Imtiaz等人[8]利用滑動(dòng)窗口中的熵來(lái)判斷當(dāng)前區(qū)域中是否包含干擾線,以達(dá)到去除規(guī)則干擾線條的目的,對(duì)于此類干擾可利用線條的結(jié)構(gòu)性特征進(jìn)行去除.而另一類則是與文字信息產(chǎn)生粘連的干擾,如Banerjee等人[9]使用連通元檢測(cè)干擾線區(qū)域,并對(duì)與文字粘連的干擾線進(jìn)行了進(jìn)一步的處理,但此方法仍然是針對(duì)線條類的干擾.而對(duì)于不規(guī)則圖案的干擾,此類算法卻沒(méi)有很好的泛化性.近年來(lái),基于深度學(xué)習(xí)網(wǎng)絡(luò)的圖像修復(fù)(Image Inpainting)發(fā)展迅速,在2016年的CVPR會(huì)議上,Pathak D等人[10]結(jié)合CNN和GAN網(wǎng)絡(luò)首次提出圖像修復(fù)算法.在此算法的基礎(chǔ)之上許多作者也提出了改進(jìn)算法[11,12],但此類方法的修復(fù)只是集中于圖像中心的矩形區(qū)域,如:Pathak D等人[10]和Yang等人[13]假設(shè)的干擾圖案是一個(gè)大小為64×64的矩形框,且位于128×128的圖像中心,此類方法不適用于去除文檔圖片之中的不規(guī)則干擾圖案.而Iizuka等人[14]和Yu等人[15]則突破了中心矩形框的干擾假設(shè)提出對(duì)不規(guī)則圖案進(jìn)行修復(fù),但此類算法往往需要依賴復(fù)雜的后處理,例如:Iizuka等人[14]采用快速行進(jìn)算法[16](Fast Marching)和泊松融合[17](Poisson Image Blending)的方法對(duì)圖像進(jìn)行修復(fù),而Yu等人[15]則通過(guò)后處理優(yōu)化網(wǎng)絡(luò)對(duì)原始預(yù)測(cè)結(jié)果進(jìn)行進(jìn)一步的優(yōu)化.此外,還有利用非缺失部分的圖像統(tǒng)計(jì)信息來(lái)填充缺失部分的修復(fù)算法[18,19],但這樣的搜索需要耗費(fèi)大量的計(jì)算成本,雖然之后提出了更快的Patch搜索算法—PatchMatch[20],但其處理速度仍無(wú)法滿足實(shí)時(shí)應(yīng)用的需求且不能進(jìn)行語(yǔ)義感知的Patch選擇.NVIDIA公司Liu等人[21]所提出的PConv(Partial Convolution,PConv)層使用傳統(tǒng)的卷積網(wǎng)絡(luò),不依賴額外的后處理,通過(guò)不斷學(xué)習(xí)缺失區(qū)域和原始照片,對(duì)不規(guī)則的干擾部分進(jìn)行修復(fù),文章通過(guò)一系列的實(shí)驗(yàn)研究表明Pconv方法優(yōu)于PatchMatch[20],GL[14],GntIpt[15]等方法,該論文使用堆疊的部分卷積運(yùn)算和自動(dòng)掩碼更新步驟(Automatic Mask Update Step)來(lái)執(zhí)行圖像修復(fù),論證了圖片需要修補(bǔ)的部分會(huì)隨著層數(shù)的增加和更新而消失,因而該方法不受限于修復(fù)任何形狀或紋理的干擾圖像修復(fù).2019年,Yu等人[22]提出使用門控卷積(GatedConv)對(duì)圖像進(jìn)行修復(fù),該方法采用了和CA模型類似的粗細(xì)兩級(jí)網(wǎng)絡(luò),粗網(wǎng)絡(luò)先對(duì)污損圖像進(jìn)行粗略修復(fù),而細(xì)網(wǎng)絡(luò)則對(duì)細(xì)部特征進(jìn)行修復(fù).經(jīng)本文實(shí)驗(yàn)研究表明,GatedConv雖然相較于Liu等人[21]的方法修復(fù)效果有一定的提升,但卻在訓(xùn)練過(guò)程中損失了大量計(jì)算資源和時(shí)長(zhǎng).
針對(duì)文字圖片、碑刻或書法作品中污損紋理以及顏色是不唯一、不固定的特點(diǎn),將文獻(xiàn)[21]和文獻(xiàn)[22]應(yīng)用于不規(guī)則干擾文字圖片數(shù)據(jù)庫(kù),分析并對(duì)比兩者的復(fù)原效果后,提出基于U-Net框架和部分卷積的文本圖片修復(fù)算法.針對(duì)常見字體建立文字圖片修復(fù)模型,用于修復(fù)因各種不規(guī)則干擾而造成的字符污損,導(dǎo)致識(shí)別準(zhǔn)確率下降的問(wèn)題,并在嘗試在古代文字圖片上應(yīng)用此模型,為進(jìn)一步修復(fù)書法、碑刻等文字作品的污損文字進(jìn)行理論及實(shí)踐的研究.
NVIDIA在2018年ICLR會(huì)議上發(fā)表了PConv層[21]對(duì)圖像進(jìn)行修復(fù)的成果,此文章的對(duì)于圖像修復(fù)領(lǐng)域的貢獻(xiàn)如下:
1)提出了帶有自動(dòng)掩碼更新步驟的部分卷積層;
2)使用跳躍式連接的典型卷積U-Net架構(gòu)獲得了良好的修復(fù)效果,并以此得到最新的修復(fù)效果;
3)該方法首次證明了修補(bǔ)不規(guī)則干擾圖案在圖像修復(fù)領(lǐng)域是行之有效的;
4)公開了大型不規(guī)則mask數(shù)據(jù)集,可用于后續(xù)的訓(xùn)練以及評(píng)估模型.
將PConv層表示為:
(1)
自動(dòng)掩碼更新步驟如式(2)所示:
(2)
將輸入圖像包含滿足至少一個(gè)條件的像素點(diǎn),標(biāo)記為有效像素.在部分卷積層有足夠的連續(xù)應(yīng)用的情況下,不斷修復(fù)圖像直至所有mask為1,即表示圖像修復(fù)完成.
Yu等人[22]提出使用門控卷積(GatedConv)對(duì)圖像進(jìn)行修復(fù),不同于部分卷積的硬門控掩碼更新策略,門控卷積是從數(shù)據(jù)中自動(dòng)學(xué)習(xí)軟掩碼,如下式所示:
Gatingy,x=∑∑Wg·I
(3)
Gatingy,x=∑∑Wf·I
(4)
Oy,x=φ(Featurey,x)·σ(Gatingy,x)
(5)
其中σ是sigmoid函數(shù),因此輸出門值在0和1之間,φ可以是任意激活函數(shù)如ReLU、ELU和LeakyReLU.Wg和Wf是兩個(gè)不同的卷積濾波器.
2006年在Hinton提出的深度信念網(wǎng)絡(luò)(DBN)[23]中首次提出編碼器-解碼器思路,而U-Net則是基于此結(jié)構(gòu)建立的.U-Net網(wǎng)絡(luò)模型大多數(shù)情況下是應(yīng)用于醫(yī)學(xué)圖像分割領(lǐng)域,網(wǎng)絡(luò)形狀呈現(xiàn)為U型故命名為U-Net.在U-Net網(wǎng)絡(luò)結(jié)構(gòu)中編碼器作用是對(duì)輸入圖像的特征進(jìn)行提取,降采樣的理論意義是增加對(duì)輸入圖像的一些小擾動(dòng)的魯棒性,比如圖像平移、旋轉(zhuǎn)等,減少過(guò)擬合的風(fēng)險(xiǎn)并降低運(yùn)算量,同時(shí)增加感受野的大小.降采樣的特征圖與同維度大小的上采樣特征圖通過(guò)跳躍連接(Skip Connection)將高低層次的特征進(jìn)行融合,即使在樣本量較少的情況下也能達(dá)到較好的效果,且運(yùn)算速度快.而解碼器則是利用前面編碼的抽象特征來(lái)恢復(fù)到原圖尺寸的過(guò)程,最終得到去除干擾后的結(jié)果.
除語(yǔ)義分割外U-Net網(wǎng)絡(luò)結(jié)構(gòu)可用于原圖像去噪,在訓(xùn)練階段使原圖與噪聲進(jìn)行融合后放入編碼解碼器中,目標(biāo)則是對(duì)加擾圖片進(jìn)行還原后得到原圖.
目前就深度學(xué)習(xí)來(lái)說(shuō),并沒(méi)有完整公開的中文文檔識(shí)別數(shù)據(jù)集或者書法作品數(shù)據(jù)集,因此如何構(gòu)建訓(xùn)練測(cè)試數(shù)據(jù)成為主要任務(wù).在數(shù)據(jù)集的準(zhǔn)備過(guò)程中主要分為文本圖片數(shù)據(jù)集和mask數(shù)據(jù)集.
3.1.1 文本圖片數(shù)據(jù)集
目前,污損文字修復(fù)主要面臨問(wèn)題是:
1.文字的載體和字體眾多,只能依靠書畫修復(fù)保護(hù)專家或者技術(shù)工人,利用其精湛的人工技術(shù)水平來(lái)達(dá)到理想的效果,修復(fù)過(guò)程耗時(shí)費(fèi)力;
2.對(duì)于流傳作品較為稀少的名家,專業(yè)人員很難完美臨摹其風(fēng)骨,且對(duì)修復(fù)人員的要求極高;
3.對(duì)于極其珍貴或被奉為孤本的書畫作品來(lái)說(shuō),手工修復(fù)難免會(huì)造成二次傷害.在文本圖片數(shù)據(jù)集的采集過(guò)程之中,應(yīng)盡可能地貼合實(shí)際情況,滿足如下需求:
1)字體的多樣性.由于歷史因素、刊物出版和應(yīng)用場(chǎng)景等不同應(yīng)用場(chǎng)景,字體往往是不唯一的.考慮此原因本文選取基本的漢字字體進(jìn)行數(shù)據(jù)制作,如:宋體、楷體、黑體等若干常見字體;
2)文字具有關(guān)聯(lián)性.文字的出現(xiàn)是為了滿足人類交流的需求,尤其是具有歷史價(jià)值和意義的碑文拓片以及書畫作品,往往不是以單字的形式存在,而是根據(jù)當(dāng)時(shí)的語(yǔ)言規(guī)則進(jìn)行組合且攜帶有一定的信息量,以篇章的形式進(jìn)行流傳.而現(xiàn)代數(shù)字化的文本圖片,更多的也是起到信息傳遞的作用,所以在采集文本圖片時(shí)應(yīng)選取具有關(guān)聯(lián)性的文字.本文文本圖片在文字內(nèi)容上,選取4種具有關(guān)聯(lián)性的常見體裁:白話文、詩(shī)詞、散文和譯文;
3)字號(hào)大小和字體粗細(xì)的隨機(jī)性.由于掃描、排版等影響,文本圖片的字體大小以及粗細(xì)程度并不是統(tǒng)一的.本文在采集文本圖片數(shù)據(jù)時(shí),對(duì)字號(hào)以及生成圖片的大小不做限定.
3.1.2 mask數(shù)據(jù)集
本文使用的mask數(shù)據(jù)集為文獻(xiàn)[21]之中公開的mask數(shù)據(jù)集和隨機(jī)生成的干擾圖案,并在訓(xùn)練過(guò)程之中隨機(jī)對(duì)當(dāng)前mask圖片進(jìn)行拉伸,翻轉(zhuǎn)以及裁剪,以此保證訓(xùn)練修復(fù)的mask種類足夠充分.
為測(cè)試對(duì)比不同干擾程度修復(fù)效果之間的差異性,本文通過(guò)使用式(6)的指標(biāo)mrb將mask分為10個(gè)等級(jí),干擾程度隨著等級(jí)的增加而增大.
(6)
上式,將函數(shù)mrb定義為mask干擾比,G表示的是滿足干擾條件的像素點(diǎn)數(shù),而H和W分別代表當(dāng)前mask的長(zhǎng)與寬.3.2 文字圖片修復(fù)框架
本文通過(guò)將干擾圖片數(shù)據(jù)集放入文獻(xiàn)[21]和文獻(xiàn)[22]中進(jìn)行實(shí)驗(yàn)后分析實(shí)驗(yàn)結(jié)果,根據(jù)文字修復(fù)的特點(diǎn)提出文字圖片修復(fù)算法.本文網(wǎng)絡(luò)模型建立于U-Net架構(gòu)之上,分為編碼部分和解碼部分.輸入圖像Iin的大小為CIin×H×W,mask圖片M的大小與Iin相同,其大小為CM×H×W.將Iin和M轉(zhuǎn)為列向量后的個(gè)數(shù)設(shè)為n×1,如式(7)所示對(duì)Iin和M進(jìn)行融合:
vGin{xi|xi=vIin[i]+vM[i],i=1,…,n}
(7)
其中vIin是由Iin所轉(zhuǎn)化的列向量,vM是由M所轉(zhuǎn)化的列向量,且vIin∈Rn,vM∈Rn.Gin為Iin和M融合后的圖像,那么vGin則為Gin所轉(zhuǎn)化的列向量,此時(shí)Gin的特征通道數(shù)為CIin+CM.
根據(jù)設(shè)定的網(wǎng)絡(luò)層數(shù)對(duì)圖像Gin進(jìn)行部分卷積,為使生成圖像Iout與Iin的大小相等,編碼層部分負(fù)責(zé)提取Gin的特征值與信息,而解碼部分則是將當(dāng)前圖片Inow與其對(duì)應(yīng)編碼層中的特征信息量Tnow在通道維度上進(jìn)行拼接,如式(8)所示,對(duì)文字圖片的風(fēng)格進(jìn)行融合與逼近.由上文所述Inow和Tnow的大小相等,設(shè)Inow和Tnow轉(zhuǎn)為列向量后的大小為m×1,那么根據(jù)式(8)將Inow和Tnow進(jìn)行融合后得到Gnow.
vGnow=[vInow,vTnow]∈R2m
(8)
其中,vGnow,vInow,vTnow為Gnow,Inow,Tnow所轉(zhuǎn)化的列向量,且vInow∈Rm,vTnow∈Rm.
在編碼部分和解碼部分分別使用ReLU和Leaky ReLU作為激活函數(shù),除首尾兩個(gè)PConv層之外,每個(gè)PConv層和激活層之間使用批量歸一化(Batch Normalization,BN)層[24].卷積核內(nèi)核大小分別為7、5、5、3、3、3、3、3,通道大小分別為64、128、256、512、512、512、512、512,解碼器中包含8個(gè)上采樣層,解碼器中PConv層的輸出通道分別是512、512、512、512、256、128、64、3.
對(duì)于漢字來(lái)說(shuō)長(zhǎng)寬比和內(nèi)部細(xì)節(jié)是重要特性,若圖像尺寸歸一化不當(dāng),會(huì)致使?jié)h字內(nèi)部結(jié)構(gòu)粘合在一起,這樣會(huì)加大后續(xù)識(shí)別難度.將圖片寬度統(tǒng)一設(shè)為512后,經(jīng)解碼部分的8次減半后最小達(dá)到2.對(duì)文本圖片數(shù)據(jù)集的圖片計(jì)算后H:W最小達(dá)到1:3.76,依照?qǐng)D像尺寸取整原則,選取H:W為1:1、1:1.5、1:2、1:2.5、1:3和1:3.5這6種情況.經(jīng)4.2節(jié)實(shí)驗(yàn)后,依據(jù)峰值信噪比(Peak Signal to Noise Ratio,PSNR)[25]數(shù)值越大表示失真越小的原則,可知當(dāng)H:W=1:3時(shí),能夠取得最優(yōu)效果,經(jīng)計(jì)算后確定輸入圖片尺寸為512×1536.根據(jù)上文所述網(wǎng)絡(luò)結(jié)構(gòu)以及輸入圖片尺寸得出圖1,其中白色方框“I”代表文本圖片,“M”代表mask圖片.
圖1 網(wǎng)絡(luò)架構(gòu)圖Fig.1 Network architecture diagram
在計(jì)算損失值(LOSS)時(shí),定義Iin為帶有干擾的文字圖像,M為初始的二進(jìn)制mask,Iout為經(jīng)過(guò)網(wǎng)絡(luò)預(yù)測(cè)后的輸出圖片,Igt為期望得到的原始文字圖像.
首先定義逐像素LOSS(Per-pixel Loss)為:
(9)
(10)
其中NIgt表示Igt之中的C×H×W,式(9)和式(10)分別代表L1在干擾和非干擾部分的網(wǎng)絡(luò)輸出損失.
為獲取更為清晰的圖像,提升生成圖像的感知效果,映入
文獻(xiàn)[26]中的感知LOSS,將其定義為:
(11)
定義全變分損失(Total Variation,TV)為L(zhǎng)tv,如式(12)所示:
(12)
其中R是干擾區(qū)域的0像素的膨脹區(qū)域.
在對(duì)文本圖片進(jìn)行修復(fù)時(shí),處理難點(diǎn)是準(zhǔn)確預(yù)測(cè)殘缺漢字的缺失信息,復(fù)原干擾點(diǎn)與文字部件粘合的部分.對(duì)于場(chǎng)景圖片的修復(fù)來(lái)說(shuō),修復(fù)時(shí)可以依據(jù)干擾圖案邊緣多樣的彩色紋理信息,對(duì)缺失內(nèi)容進(jìn)行預(yù)測(cè),而在文本圖片中干擾圖案邊緣的紋理信息卻沒(méi)有那么豐富,因而在預(yù)測(cè)缺失的文字部件時(shí)與場(chǎng)景圖片有一定區(qū)別.在構(gòu)建損失函數(shù)時(shí),本文相較于文獻(xiàn)[21]舍棄了復(fù)雜的多超參數(shù),并結(jié)合干擾文本數(shù)據(jù)集的特點(diǎn),通過(guò)對(duì)比實(shí)驗(yàn)4.3.2將損失函數(shù)確定為:
Ltotal=Lvalid+Lhole+0.01Lperceptual+0.1Ltv
(13)
將mask數(shù)據(jù)集根據(jù)式(6)所計(jì)算出的mrb值,將mask數(shù)據(jù)集分為A-J共10類,如表1所示,表中mrbmin為當(dāng)前等級(jí)的mrb值下限,mrbmax為當(dāng)前等級(jí)的mrb值上限,train和test欄分別代表當(dāng)前訓(xùn)練集和測(cè)試集的張數(shù).其中訓(xùn)練集共為55219張,測(cè)試集共為12060張.
表1 不同等級(jí)張數(shù)統(tǒng)計(jì)表Table 1 Statistics table of different grades
根據(jù)表1進(jìn)行分類后,A-J各個(gè)等級(jí)示例圖片如圖2所示,其中白色像素點(diǎn)為干擾部分.
圖2 干擾等級(jí)劃分示例Fig.2 Example of interference level division
本文對(duì)訓(xùn)練文本數(shù)據(jù)集的長(zhǎng)寬比進(jìn)行計(jì)算之后,選取1∶1、1∶1.5、1∶2、1∶2.5、1∶3和1∶3.5這6種情況,使用相同數(shù)據(jù)集進(jìn)行測(cè)試得出表2,根據(jù)測(cè)試結(jié)果顯示當(dāng)H:W=1:3時(shí)取得較優(yōu)效果,因而確定輸入圖片大小為512×1536.
表2 不同寬高比的實(shí)驗(yàn)結(jié)果Table 2 Experimental results of different proportionsof width and height
4.3.1 實(shí)驗(yàn)設(shè)置
實(shí)驗(yàn)采用Ubuntu16.04.6系統(tǒng),Python3.6.7,GeForce RTX 2080Ti,NVIDIA Tesla V100 GPU和Tensorflow1.14對(duì)數(shù)據(jù)進(jìn)行訓(xùn)練,采用Adam優(yōu)化器對(duì)數(shù)據(jù)進(jìn)行優(yōu)化.
在mask數(shù)據(jù)集不考慮旋轉(zhuǎn)、翻轉(zhuǎn)和裁剪前提下,各個(gè)等級(jí)產(chǎn)生的數(shù)據(jù)量為:訓(xùn)練集249600張、驗(yàn)證集10160張以及測(cè)試集16500張.將10個(gè)等級(jí)mask使用GeForce RTX 2080Ti各訓(xùn)練30輪,其中經(jīng)過(guò)BN層每輪訓(xùn)練10000次共計(jì)20輪,無(wú)BN層訓(xùn)練每輪訓(xùn)練5000次共訓(xùn)練10輪,無(wú)BN層學(xué)習(xí)率為0.00005.最后將不同等級(jí)干擾mask進(jìn)行混合,訓(xùn)練集約為126.3萬(wàn),驗(yàn)證集約為9.9萬(wàn),測(cè)試集約為15.3萬(wàn).
使用NVIDIA Tesla V100訓(xùn)練55輪,其中經(jīng)過(guò)BN層每輪訓(xùn)練10000次各訓(xùn)練40輪,無(wú)BN層每輪訓(xùn)練5000次各訓(xùn)練15輪,無(wú)BN層學(xué)習(xí)率為0.00005.采用PSNR作為圖像修復(fù)質(zhì)量?jī)?yōu)劣的評(píng)價(jià)指標(biāo),衡量重建圖像與真實(shí)圖像在像素上的差異,其值越高說(shuō)明差異越小[27].
4.3.2 算法性能對(duì)比
為驗(yàn)證本文算法的有效性,在訓(xùn)練時(shí)采用相同數(shù)據(jù)集和參數(shù)的情況下,與文獻(xiàn)[21]和文獻(xiàn)[22]進(jìn)行對(duì)比研究,選取每次訓(xùn)練中訓(xùn)練集、驗(yàn)證集和測(cè)試集的最優(yōu)結(jié)果,實(shí)驗(yàn)結(jié)果如表3和表4所示.
表3 不同算法PSNR值對(duì)比Table 3 Comparison of different algorithms PSNR
表4 不同算法LOSS值對(duì)比Table 4 Comparison of different algorithms LOSS
由實(shí)驗(yàn)結(jié)果可知,本文模型在A等級(jí)時(shí)分別取得訓(xùn)練集、驗(yàn)證集和測(cè)試集的最佳效果,其中PSNR值最高達(dá)到32.58 dB,LOSS值最低達(dá)到0.015,PSNR值和LOSS 值隨著等級(jí)的增高而逐漸變差,但從總體上來(lái)看各個(gè)等級(jí)之間的差值隨著等級(jí)的升高而逐漸變小,對(duì)于E、F、G、H、I、J等級(jí)來(lái)說(shuō),使用混合mask訓(xùn)練效果更佳.雖然在實(shí)驗(yàn)之中文獻(xiàn)[22]的修復(fù)效果優(yōu)于文獻(xiàn)[21],但文獻(xiàn)[22]的時(shí)長(zhǎng)遠(yuǎn)遠(yuǎn)高于文獻(xiàn)[21]和本文算法.本文算法在干擾圖片數(shù)據(jù)的訓(xùn)練集、驗(yàn)證集和測(cè)試集上,PSNR值和LOSS值明顯優(yōu)于文獻(xiàn)[21]和文獻(xiàn)[22],表明本文算法結(jié)合文本圖片的特點(diǎn),通過(guò)深層特征提取和圖像融合對(duì)污損字符取得了更優(yōu)的復(fù)原效果.
4.3.3 損失函數(shù)的影響
為驗(yàn)證本文所提出的損失函數(shù)的效果,在相同數(shù)據(jù)集和參數(shù)設(shè)置的情況下,本文采用不同函數(shù)的組合進(jìn)行實(shí)驗(yàn)對(duì)比研究.實(shí)驗(yàn)結(jié)果如表5所示,實(shí)驗(yàn)結(jié)果表明,文獻(xiàn)[21]之中的損失函數(shù)復(fù)原效果較差,盡管Lvalid+Lhole和Lvalid+Lhole+0.01Lperceptual損失函數(shù)組合所復(fù)原的文字圖像在整體主觀視覺(jué)上與本文相差不大,但放大之后本文損失函數(shù)組合所復(fù)原的細(xì)部特征更加清晰,邊緣部分更加平滑自然.
表5 不同損失函數(shù)組合的復(fù)原效果對(duì)比Table 5 Comparison of inpainting effects of different LOSS function combinations
4.3.4 各個(gè)等級(jí)復(fù)原效果
本文算法在各個(gè)等級(jí)去干擾效果如圖3所示,其中每類從上到下的排列順序?yàn)榧訑_圖片,修復(fù)圖片和原圖.由實(shí)驗(yàn)結(jié)果可知,本模型能夠根據(jù)已有筆畫細(xì)節(jié)對(duì)缺失部分進(jìn)行預(yù)測(cè),并保持缺失漢字的字體形狀和筆畫走向,對(duì)于完全遮擋的漢字(如:J類),在人眼也無(wú)法辯明的情況下,本模型在盡可能去除干擾的前提下同樣也進(jìn)行了預(yù)測(cè).
圖3 各個(gè)等級(jí)去干擾效果示例圖Fig.3 Examples of the effect of various levels of interference removal
4.3.5 識(shí)別率對(duì)比
為研究本模型的OCR識(shí)別率的變化情況,隨機(jī)選取測(cè)試結(jié)果不同干擾等級(jí)各1000張,共計(jì)10000張圖片,將加擾圖片和對(duì)應(yīng)的修復(fù)圖片放入百度OCR接口,進(jìn)一步計(jì)算識(shí)別準(zhǔn)確率的變化情況,前200次識(shí)別結(jié)果如圖4所示,在此處識(shí)別率定義為識(shí)別正確字符數(shù)與總字符數(shù)的比值.由實(shí)驗(yàn)結(jié)果可知,百度OCR對(duì)于干擾的圖片的平均識(shí)別率約為60.05%,而本模型對(duì)圖像修復(fù)后識(shí)別率約為90.54%,相較于未修復(fù)圖片識(shí)別率提升約30.49%.實(shí)驗(yàn)結(jié)果表明文獻(xiàn)[21]、文獻(xiàn)[22]和本文算法對(duì)文字圖片修復(fù)后識(shí)別率分別提升20.34%,19.29%,30.49%,如圖5所示,本文算法對(duì)于不同等級(jí)的干擾修復(fù)展現(xiàn)了較好的魯棒性能,且對(duì)于漢字內(nèi)部細(xì)節(jié)的修復(fù)能力相較于其他算法具有顯著提升.
圖4 去干擾前后百度OCR識(shí)別率變化圖Fig.4 Baidu OCR recognition rate changes before and after interference removal
圖5 不同算法修復(fù)后識(shí)別率對(duì)比圖Fig.5 Comparison of recognition rate after repair of different algorithms
4.3.6 文字拓片修復(fù)
為解決真實(shí)場(chǎng)景下的古代字體干擾情況,本文使用云南師范大學(xué)文字拓片數(shù)據(jù)集,旨在研究現(xiàn)實(shí)情況中文字拓片進(jìn)行修復(fù)效果.該數(shù)據(jù)集包含不同種類,不同風(fēng)格的書法字體,由于年代的不同,不同拓片的磨損情況也不一,這也是考量本文算法魯棒性的一個(gè)關(guān)鍵任務(wù)之一.首先將獲取到的拓片進(jìn)行簡(jiǎn)單的預(yù)處理,如:二值化、去干擾化等,然后使用本文算法對(duì)文字拓片進(jìn)行修復(fù)后的結(jié)果如圖6所示,左側(cè)為修復(fù)前文字圖片,右側(cè)為修復(fù)后的圖片.現(xiàn)實(shí)環(huán)境下的石刻石碑,大多以裂縫,縫隙以及風(fēng)雨磨損下的情況為主,經(jīng)實(shí)驗(yàn)證明本文算法對(duì)于缺損的碑文字體以及書畫作品,在去除干擾的前提下,對(duì)當(dāng)前字體的筆畫風(fēng)格進(jìn)行了預(yù)測(cè)并達(dá)到了良好的效果.
圖6 真實(shí)數(shù)據(jù)實(shí)驗(yàn)結(jié)果Fig.6 Experimental results with real data
本文基于U-Net框架和部分卷積運(yùn)算建立文字圖片修復(fù)模型,旨在解決由于各種不規(guī)則干擾而造成字符破損,導(dǎo)致識(shí)別準(zhǔn)確率下降的問(wèn)題.本文根據(jù)測(cè)試圖片的字體,形狀以及筆畫走向?qū)ξ淖秩笔Р糠诌M(jìn)行預(yù)測(cè),PSNR最高達(dá)到32.58 dB,LOSS最佳達(dá)到0.015.本文將mask分為10個(gè)不同的等級(jí),在各項(xiàng)損失函數(shù)的約束下,進(jìn)一步地提升網(wǎng)絡(luò)的特征提取和復(fù)原能力,重建出細(xì)節(jié)豐富、文體統(tǒng)一的文字圖像.實(shí)驗(yàn)結(jié)果表明,與其他復(fù)原方法相比,本文方法在文字圖像的修復(fù)上主觀視覺(jué)效果和圖像質(zhì)量評(píng)價(jià)結(jié)果均有明顯提升,文字識(shí)別率修復(fù)前后提升30.49%.同時(shí)使用本文方法對(duì)真實(shí)的文字拓片進(jìn)行修復(fù)實(shí)驗(yàn)并達(dá)到了良好效果,為修復(fù)書法、碑刻等文字作品的殘缺筆畫提供了可行性方案.