劉國英,陳雙浩,焦清局
(1.安陽師范學院計算機與信息工程學院,河南 安陽 455000;2.鄭州大學信息工程學院,河南 鄭州 450001)
甲骨拓片,作為甲骨文字的重要載體,由于某些歷史原因,長久掩埋在地下的廢墟中,因此,在甲骨拓片表面不可避免地存在一定的退化,例如:噪聲、裂痕等,如圖1所示.這些不同程度的退化嚴重干擾了甲骨文字的可視性及可讀性,對后續(xù)甲骨文字檢測與識別等視覺任務帶來極大的阻礙.考慮到甲骨字符是甲骨學研究的第一手資料,從甲骨拓片圖像中自動提取甲骨字符將有助于甲骨學研究的開展,并對甲骨文活化與利用產(chǎn)生重大幫助.
圖1 甲骨拓片圖像局部特征展示Fig.1 Local feature display of oracle rubbing image
由于甲骨拓片圖像表面存在著嚴重的退化、污染問題,自動化提取拓片圖像中的甲骨字符是一項極具挑戰(zhàn)性的任務,其具體面對的問題有:1) 甲骨拓片表面包含大量不規(guī)則的噪聲,這些噪聲密集的分布在拓片圖像表面,不僅干擾字符特征的識別,還容易增加字符提取模型過擬合風險. 2) 甲骨拓片表面存在各種樣式的裂痕干擾,這些裂痕具有不同的尺度和形狀并且在外觀上和甲骨字符十分相似,嚴重干擾甲骨字符的識別.3) 甲骨字符在拓片圖像中的位置信息、幾何先驗等是未知的,為字符特征的判別及約束字符在空間上的完整性上,帶來了極大的阻礙.
甲骨學是一個極少數(shù)人參與的冷門學科,在圖像處理領域,少數(shù)的方法被用于解決和拓片圖像相關的計算機視覺問題.如:Liu等[1]基于甲骨字符的數(shù)據(jù)特征對描點框的大小、寬高比進行重新設計,并提出空間金字塔塊結構以穩(wěn)定特征和緩解噪聲干擾.Meng等[2]將SSD300(single shot multibox detector 300)[3]擴展到SSD1024,構建了單階段的甲骨字符檢測模型.王浩彬[4]搭建了基于區(qū)域的全卷積網(wǎng)絡(region-based fully convolutional networks,R-FCN)[5]的甲骨字符檢測框架,并提出一個甲骨字符識別輔助檢測算法,幫助檢測模型減少對容易誤檢的甲骨裂痕的誤判.Liu等[6]利用卷積神經(jīng)網(wǎng)絡(CNN)強有力的圖像特征描述能力,設計了基于CNN的甲骨字符識別算法.Li[7]通過提取甲骨字符的行特征,用于甲骨字符的識別.然而,這些方法大多數(shù)側重于預測甲骨字符在拓片圖像中的位置或對單個甲骨字符進行識別,幾乎不存在專門的方法用于提取拓片圖像中的甲骨字符.
近幾年來,隨著深度學習在諸多視覺領域的成功應用,出現(xiàn)了一些在理論上能夠直接或間接用于提取拓片圖像中甲骨字符的方法.這些方法大致分為兩大類:基于圖像生成的方法和基于圖像分割的方法.圖像生成的方法(如Pix2Pix[8])將甲骨字符的提取視為一個圖像到圖像的轉換任務,通過訓練一個端到端的神經(jīng)網(wǎng)絡,學習拓片圖像與相應字符圖像間的映射.基于圖像分割的方法(如U-Net[9]、SegNet[10])將甲骨字符提取視為像素分類任務,通過對拓片圖像進行逐像素分類,預測出字符在拓片圖像中的所在區(qū)域.然而,在實驗中,上述方法提取的甲骨字符的效果往往存在一定的問題.相比于基于生成的方法,基于分割的方法對背景和字符特征有較好的區(qū)分,但得到的字符圖像往往比較粗糙,存在字符筆畫粘連、模糊等問題,如圖2(b)和(c)實線框所示;而相較于基于分割的方法,基于生成的方法具有較強的結構信息描述能力,生成的甲骨字符在局部筆畫細節(jié)上更為清晰,但往往會受背景噪聲和裂痕的干擾,如圖2(b)和(c)虛線框所示.
圖2 基于分割和生成方法的甲骨字符提取結果Fig.2 Character extraction results based on segmentation and generation methods
為充分利用基于分割方法的背景噪聲去除能力和基于生成方法的結構信息描述能力,本文將兩種方法相結合,構建了一個甲骨字符提取的雙分支融合網(wǎng)絡(dual-branch fusion network for extracting Oracle characters,EOCNet)模型.EOCNet將甲骨字符提取任務視為圖像到圖像的轉換任務,以生成網(wǎng)絡為模型的基礎架構,將分割網(wǎng)絡嵌入編碼器網(wǎng)絡以消除拓片背景噪聲的影響,以期建立更為準確的拓片圖像與對應甲骨字符圖像間的映射關系.具體地:1) 為了緩解拓片圖像中背景噪聲和甲骨裂痕的干擾,EOCNet的生成網(wǎng)絡包含一個嵌入學習分支以實現(xiàn)特征嵌入空間中甲骨背景和甲骨字符的可判別特征的學習;2) 為適應拓片圖像中甲骨字符大小的變化并生成清晰完整的甲骨字符圖像,EOCNet將殘差模塊和多尺度特征通道連接,在生成網(wǎng)絡中構建了一個字符生成分支;3) 為了在降低甲骨噪聲和甲骨裂痕干擾的同時保證字符在空間結構上的完整性,生成網(wǎng)絡利用空間注意力模塊對兩個分支的結果進行融合;4) 為保證生成的甲骨字符圖像整體完整且細節(jié)清晰,EOCNet采用與文獻[11-12]類似的生成結果判別方法,基于全局判別器和局部判別器來評估生成的甲骨字符圖像的一致性.
本研究構建的EOCNet由生成網(wǎng)絡和判別網(wǎng)絡構成(圖3).
生成網(wǎng)絡包含兩個共享特征編碼的子分支:字符生成分支和嵌入學習分支(圖3).字符生成分支學習拓片圖像到對應字符圖像之間的映射;嵌入學習分支學習拓片背景和字符的可判別特征嵌入.在訓練過程中,兩個分支并行執(zhí)行,相互補充,相互適應.
1.1.1 嵌入學習分支
嵌入學習分支以原始的甲骨拓片圖像IO作為輸入,經(jīng)過前向傳播,最終產(chǎn)生一個嵌入特征圖IE和字符區(qū)域得分圖AC.在網(wǎng)絡結構上,嵌入分支由5個卷積塊組成的編碼器和一個多尺度特征融合模塊(2個3×3卷積+并行的2個3×3卷積)構成.訓練過程中,編碼器首先對原始拓片圖片輸入進行特征編碼,以獲取多個尺度的特征圖.緊接著對來自于卷積_1、卷積_3、卷積_5的特征圖依次經(jīng)過上采樣、通道連接等操作后送入多尺度特征融合模塊進行上下文融合,最終得到的嵌入特征圖IE和字符區(qū)域得分圖AC.
1.1.2 字符生成分支
圖3 EOCNet的整體結構Fig.3 The overall structure of the EOCNet
判別網(wǎng)絡采用兩個子判別網(wǎng)絡,分別從全局和局部角度對生成的字符圖像進行質(zhì)量評估,其中,全局判別網(wǎng)絡注重字符圖像總體狀況,檢查其是否引入了額外的噪聲、裂痕等干擾.局部判別網(wǎng)絡注重字符圖像的局部細節(jié),檢查是否存在筆畫殘缺.特別地,為了便于局部判別網(wǎng)絡注重生成圖像的局部筆畫細節(jié),生成的字符圖像輸入網(wǎng)絡之前,需要進行區(qū)域裁剪操作.默認情況下,本文算法將生成的字符圖像裁剪為若干個等大小的局部塊,并計算其與對應真實標記的差異,選擇一些誤差大的局部塊作為輸入,以便于網(wǎng)絡感知更多困難的局部樣例.其次,全局判別網(wǎng)絡和局部判別網(wǎng)絡具有相似的網(wǎng)絡設計,均采用PatchGAN(patch generative adversarial network)[13]網(wǎng)絡結構,通過預測N×N大小的置信矩陣用于評估更加細致的局部細節(jié).不同的是,全局判別網(wǎng)絡更深,卷積核視野更大,而局部判別網(wǎng)絡相對更淺,卷積視野更小,全局和局部判別器具體的結構和參數(shù)設置如表1所示.
表1 全局和局部判別網(wǎng)絡Tab.1 The global and local networks
為緩解拓片圖像中噪聲、裂痕的干擾,嵌入學習分支將甲骨背景和甲骨字符視為不同的類別實例,鼓勵相同類別的嵌入特征朝著特定的特征中心靠攏,以學習它們的可判別嵌入特征.
近來,少數(shù)其他領域(目標分類、目標檢測)的方法采用聚類的思想在嵌入空間學習可判別嵌入特征,并取得一定的效果.例如DeepCluster[14]對分類網(wǎng)絡的預測進行聚類,并利用聚類結果更新深度卷積網(wǎng)絡參數(shù),用于無監(jiān)督視覺特征學習.Tian等[15]將任意形狀的場景文本視為不同的實例,并鼓勵屬于相同實例的像素特征朝著相同的特征中心靠近,反之遠離.然而,這些方法往往針對特定的應用場景,僅僅考慮嵌入特征是否可分,忽視了目標實例的視覺特征屬性,因此不能直接應用到字符提取任務.
本文通過提高背景特征和字符特征的“類內(nèi)一致性”以實現(xiàn)可判別特征學習并兼顧實例特征的視覺屬性.首先,利用分割網(wǎng)絡對拓片圖像進行逐像素分類,分別學習甲骨背景和甲骨字符對應的視覺特征.然后,自適應學習它們對應的特征中心,并鼓勵屬于同一類的視覺特征在嵌入空間朝著相應的特征中心靠近.本文中采用CenterLoss[16]的中心特征學習策略,通過模型迭代優(yōu)化的方式自動學習對應的視覺特征的中心.具體的語義分割損失Lentropy和中心損失Lcenter表達如下:
(1)
(2)
本文將甲骨字符提取視為一種圖像到圖像的轉換任務.和大多數(shù)圖像到圖像轉換模型一樣,字符生成分支,通過訓練一個編碼和解碼網(wǎng)絡來學習拓片圖像與對應字符圖像之間的映射.在學習過程中,甲骨字符在拓片圖像中的位置信息是未知的,在生成網(wǎng)絡的末尾,字符生成分支使用嵌入學習分支中的字符區(qū)域預測,用以突出融合特征圖中的字符區(qū)域.最后,為了約束生成的甲骨字符在空間結構上的完整性,使用對抗生成網(wǎng)絡(generative adversarial network,GAN)[17]作為結構模型,用以融入字符的空間結構先驗.與一些圖像修補方法一樣,使用全局和局部判別器評估生成的字符圖像全局和局部特征的一致性.在訓練過程中,本文使用LSGAN(least squares GAN)[18](相比于CGAN(conditional GAN)[19], LSGAN在訓練過程中更加穩(wěn)定,收斂速度更快).設生成網(wǎng)絡為G,全局和局部判別網(wǎng)絡分別為DG和DL,生成網(wǎng)絡和判別網(wǎng)絡的對抗損失函數(shù)為:
Lglobal(G,DG)=EIC~Pdata(IC)[(DG(IC)-1)2]+
EIO~Pdata(IO)[(DG(G(IO)))2],
(3)
Llocal(G,DL)=EIC~Pdata(IC)[(DL(T(IC))-1)2]+
EIO~Pdata(IO)[(DL(T(G(IO))))2],
(4)
Ladv(G,DG,DL,IO,IC)=Lglobal+Llocal,
(5)
其中,E表示數(shù)學期望,Pdata表示訓練數(shù)據(jù)的經(jīng)驗分布,IO表示原始的拓片圖像輸入,T表示裁剪和連接操作.
此外,為了約束生生成的字符圖像在像素值上更接近真實值,在生成網(wǎng)絡的末尾使用了L1損失,其具體的表達如下:
(6)
訓練過程中,本字符提取模型同時接受多個損失函數(shù)的共同約束,具體表達如下:
Ltotal=λadvLadv+λenLentropy+λcenLcenter+λ1L1,
(7)
其中:λadv、λen、λcen、λ1分別表示Ladv、Lentropy、Lcenter、L1的權重系數(shù),在實驗中分別為3,1,0.003,3;Ladv和L1作用于重建的字符圖像,約束其與真實圖像的數(shù)據(jù)分布和像素特征保持一致;Lcenter作用于嵌入特征圖IE促使生成網(wǎng)絡學習甲骨背景和字符的可判別特征;Lentropy作用于AC約束學習粗糙的文字區(qū)域,用于指導空間注意模塊有向性融合.
目前為止,在甲骨學研究領域幾乎不存在公開可達的像素水平的甲骨文數(shù)據(jù)集,因此本研究使用的像素級甲骨文數(shù)據(jù)集來自于本課題組的手工構建.數(shù)據(jù)集中的甲骨拓片來源于安陽師范學院甲骨文信息處理教育部重點實驗室公開的甲骨文檢測數(shù)據(jù)集,該數(shù)據(jù)集主要由甲骨拓片和對應的字符水平位置標記組成,但不包含像素級標記信息.本研究中,人工從甲骨文檢測數(shù)據(jù)集中挑選了一定量具有代表性且退化嚴重的拓片圖像進行訓練和驗證.
具體來說,本研究采用的甲骨拓片圖像數(shù)據(jù)集包含了405對訓練樣例(甲骨拓片圖像和對應的甲骨字符圖像)、35對驗證樣例和300張測試樣例.
為了確保模型能夠學習準確的特征表示,根據(jù)上述的拓片圖像訓練樣例,對樣本進行簡單擴充.擴充主要涉及以下操作:
1) 線性變換:縮放、裁剪、平移、操作;
2) 仿射變換:隨機旋轉、翻轉、變形操作;
3) 顏色變換:模糊、對比度提升、高斯濾波等操作;
4) 拓片圖像與字符圖像重新組合.首先,利用工具軟件從拓片圖像中裁剪甲骨字符,構成甲骨字符字典; 然后,選取若干張背景復雜的拓片圖像并移除其中的甲骨字符,得到候選甲骨背景;最后根據(jù)字符字典和甲骨背景進行重新組合,具體過程如圖4所示.
最終,得到了(405 + 2 825)對訓練樣例、(35+165)對驗證樣例、(300+200)測試樣例的一個混合甲骨拓片數(shù)據(jù)集.
本文從兩個角度對提出的字符提取模型的性能進行評估:圖像生成角度和圖像分割角度.
1) 從圖像生成角度,使用峰值信噪比(PSNR,RPSN)和結構相似性(SSIM,SSIM)指標來測量預測值和真實值之間的差距.PSNR和SSIM是一種常見的評估圖像生成質(zhì)量的客觀標準.PSNR和SSIM的值越高,表明生成的字符圖像質(zhì)量越高,越接近真實值.PSNR的計算如下:
(8)
G(i,j)‖2,
(9)
其中,EMS為生成圖像與對應真實圖像的均方誤差,CMAX表示圖像RGB顏色的最大值.SSIM的計算式如下:
(10)
2) 從圖像分割的角度,由于大多數(shù)甲骨字符的像素值(歸一化后)趨向于1(字符邊緣或者一些特殊字符除外),可近似地將生成的字符圖像視為一種特殊的圖像分割(二分類).和圖像分割模型的評估相似,使用平均交并比(mIoU,RmIoU)和單個字符類別的交并比(IoU(char),RIoU)分別測量生成的字符圖像與真實值之間的相關程度以及局部字符與對應真實值的相關程度.其中,RmIoU或RIoU的值越高,說明像素被正確分類的比例就越高,生成的字符圖像接近真實值的概率就越大.此外,由于生成的甲骨字符圖像的非字符區(qū)域像素值接近于0,但不為0,對于字符圖像的RIoU計算可能存在一定的誤差.為了獲得更加準確的RIoU值,在RIoU計算之前,需要對生成的字符圖像進行閾值選擇處理.具體的閾值根據(jù)經(jīng)驗設定,本實驗中,該閾值設置為0.2,RIoU的計算式如下:
RIoU=NTP/(NTP+NFP+NFN),
(11)
其中,NTP、NFP、NFN表示分類結果為真正、假正、假負的像素個數(shù).
此外,為驗證模型抑制裂痕干擾的能力,本文實驗對生成的字符圖像上的裂痕數(shù)量進行了統(tǒng)計.對于生成的字符圖像,假設其僅僅由背景噪聲、甲骨字符和裂痕構成,其中的背景噪聲相對稀少,可通過簡單的形態(tài)學開運算進行濾除,而裂痕干擾則可以使用對應的字符真實值選取,最后求解裂痕干擾中的連通分量并統(tǒng)計其個數(shù).具體包括以下5個步驟:
(12)
2) 使用形態(tài)學開運算對粗糙的裂痕背景進行膨脹和腐蝕操作,去除其中的背景噪聲,得到純凈的裂痕.
3) 計算純凈裂痕中的連通分量,并去除關于背景的連通分量.
4) 遍歷每個連通分量,并移除小于30個像素大小的連通區(qū)域.
5) 對現(xiàn)有的連通分量進行統(tǒng)計,得到每一張字符圖像上的裂痕總數(shù).
4.3.1 與其他主流圖像生成模型的比較
本小節(jié)將EOCNet與主流的圖像到圖像的轉換模型(Pix2Pix[8],CycleGAN[20],BicycleGAN[21])進行比較.為公平起見,直接使用了這些模型的官方代碼和默認的超參數(shù)設置.相應的定量評估、定性評估以及裂痕統(tǒng)計結果如圖5、表2和3所示.
如圖5所示,主流的圖像到圖像的轉換模型一定程度上也可以提取拓片圖像中的字符信息,并能保留清晰的局部細節(jié).然而,對于一些尺度較小、不太顯著的字符有可能被忽略(如圖5第1行所示).其次,在生成的字符圖像上引入大量和字符特征比較相似的噪聲或裂痕干擾(如圖5第2和4行所示).相反,由EOCNet生成的字符圖像幾乎將拓片上的字符信息完全保留,并沒有引入過多的噪聲和裂痕干擾(如圖5(e)所示).因此主觀上看,EOCNet能夠生成更高質(zhì)量的甲骨字符圖像.
圖5 甲骨拓片圖像和主流的圖像生成模型的字符提取結果Fig.5 Oracle bone rubbing image and character extraction results of state-of-art image generation models
表2 生成圖像裂痕個數(shù)統(tǒng)計Tab.2 Statistical results of crack number in generate image
本實驗中,隨機從190條驗證集記錄中抽取50條作為統(tǒng)計樣本,統(tǒng)計不同模型得到的生成圖像中存在的裂痕數(shù)量,統(tǒng)計的結果如表2所示.其中類型a表示不同的生成模型輸出的字符圖像中裂痕連通分量的個數(shù),整體上這3個模型的輸出中都引入了較多的裂痕,其中Pix2Pix模型引入的最少,但也高達272個.類型c表示EOCNet的統(tǒng)計結果,僅僅包含18個,遠低于其他3個模型,這表明,相比于主流的圖像到圖像的轉換模型,EOCNet對裂痕干擾的抑制是有效的.
表3展示了不同的生成模型輸出的字符圖像在PSNR和SSIM指標上的測量結果.很顯然,EOCNet在這兩個指標上均是最佳的,并大幅超越次優(yōu)結果Pix2Pix(PSNR和SSIM指標分別提高了5.27 dB 和5.93個百分點).這表明,相比于主流的圖像到圖像轉換模型,EOCNet生成的字符圖像中包含更少的噪聲,且捕獲了更多的字符局部細節(jié).
表3 和主流生成模型的量化比較結果Tab.3 The quantitative results comparison to the state-of-art generation models
圖6 甲骨拓片圖像和主流的圖像分割模型的字符提取結果Fig.6 Oracle bone rubbing image and character extraction results of state-of-art image segmentation models
綜上所述,無論是在裂痕引入量上,還是PSNR和SSIM指標上,EOCNet均取得較優(yōu)的效果,因此上述的主觀結論是正確的,相比于主流的圖像到圖像轉換模型,EOCNet能夠生成更加清晰、更加完整的字符圖像.
4.3.2 與主流圖像分割模型的比較
大多數(shù)甲骨字符特征的像素值(歸一化后)趨向于1,可近似地將生成的字符圖像視為一種特殊的圖像分割(二分類).因此,本小節(jié)將EOCNet與主流的圖像分割模型(全卷積網(wǎng)絡16(fully convolution network 16,FCN16)[22]、ERFNet(efficient residual factorized ConvNet)[23]、U-Net[9]、SegNet[10])進行比較.考慮到拓片圖像中字符像素和背景像素在比例上存在嚴重的失衡,不利于分類問題訓練得到最優(yōu)參數(shù),在模型訓練期間,默認為每個分割模型使用相同的類別平衡策略,以獲得更佳的字符分割效果.類別平衡策略的具體表示如下:
(13)
其中,W(c)代表不同類別實例的權重系數(shù),Nc和N分別代表類別c的像素個數(shù)和拓片圖像中總的像素個數(shù).
圖6展示了EOCNet和分割模型的字符提取效果.從視覺上看,分割模型幾乎將所有的字符區(qū)域都預測出來,并且引入了較少的噪聲或裂痕干擾.然而,通過分割的方式得到的字符圖像,在字符的局部細節(jié)上往往比較模糊、粗糙,甚至存在部分筆畫粘連的問題(如圖6(b)~(d)列所示).其次,由于分割的方法僅僅預測出字符在拓片圖像上的區(qū)域信息,并沒有對字符特征進行重建,一些字符筆畫存在與真實字符風格不一致的問題(如圖6第二行所示).相反,EOCNet對拓片圖像進行重建,生成的字符圖像在結構上更為清晰、風格更為統(tǒng)一(如圖6(e)所示).
表2(b)展示了不同分割模型輸出的字符圖像中裂痕連通分量的個數(shù),其中SegNet、U-Net引入了相對較少的裂痕,遠低于表2類型a中的圖像生成模型.但相對于EOCNet模型,仍有一定的差距,這也表明,即使相較于主流的分割模型,本文的模型仍然具有抑制裂痕干擾的優(yōu)勢.
表4展示了不同分割模型與EOCNet mIoU、IoU(char)的比較.結果顯示,EOCNet在mIoU和IoU(char)指標上次于最優(yōu)的SegNet,但僅僅存在0.53和0.22個百分點的差距.這表明EOCNet在交并比指標上與主流的分割模型差距甚微.鑒于生成模型在計算IoU(char)過程中使用閾值字符區(qū)域掩膜時會存在一定誤差,可以認為:EOCNet在具備主流的分割性能的同時,能夠生成更加清晰、真實的甲骨字符.
表4 和主流的分割模型的量化比較結果Tab.4 The quantitative results comparison to the state-of-art segmentation models
4.4.1 可判別損失函數(shù)
EOCNet聯(lián)合交叉熵損失Lentropy和中心損失Lcenter共同約束嵌入學習分支的甲骨背景和甲骨字符的可判別嵌入特征學習.為驗證該聯(lián)合損失的有效性,將其與單獨的使用交叉熵損失Lentropy、區(qū)別損失(DiscLoss[24],LDisc,基本思想類似于聚類:在嵌入空間強迫同簇的特征朝向相同的中心靠攏,反之相反)進行對比.在實驗設置上,除了損失函數(shù)的不同之外,整個甲骨字符生成模型的結構及超參數(shù)設置均是相同的.表5展示了在不同損失函數(shù)下的評估結果.
從表5中可以看出,區(qū)別損失LDisc在各項指標上都是最差的.其原因可能是在鼓勵同簇特征向中心靠攏過程中,丟失了某些視覺屬性(例如:極端情況下,嵌入特征朝零向量方向靠近).相比于區(qū)別損失,交叉熵損失Lentropy的表現(xiàn)更優(yōu)(指標mIoU、IoU和SSIM分別提升了0.63,1.18和0.43個百分點,PSNR增加0.51 dB).最關鍵的是,在聯(lián)合損失(Lentropy+Lcenter)的監(jiān)督下,甲骨字符提取模型的表現(xiàn)最佳,在各項指標均為最優(yōu).這表明聯(lián)合交叉熵損失和中心損失能夠更有利于字符可判別嵌入特征的學習和甲骨字符圖像的生成.
表5 不同可判別損失的比較結果Tab.5 The comparison results of different discriminative losses
4.4.2 嵌入學習分支
為緩解拓片圖像中噪聲、裂痕對字符提取的影響,EOCNet引入了額外的嵌入學習分支.為了驗證嵌入學習分支的有效性,將嵌入學習分支從字符提取模型中移除.對比模型CGL和模型ECGL的各項指標(表6)可以發(fā)現(xiàn):移除嵌入學習分支后,mIoU、IoU(char)、PSNR和SSIM出現(xiàn)明顯下降,這充分表明嵌入學習分支的存在對甲骨字符提取模型的提取效果有顯著的提升.
表6 字符生成模型不同模塊組合的評估結果Tab.6 Evaluation results of different module combinations in character generation model
4.4.3 空間注意模塊
給出一張甲骨拓片圖像,甲骨字符提取模型的目標是生成對應的甲骨字符圖像.該過程中,甲骨字符在拓片圖像中的位置信息是未知的.為此,在生成網(wǎng)絡的末尾,引入了空間注意力模塊.該模塊利用來自于嵌入學習分支中的字符區(qū)域信息,指導字符生成分支注重特征圖的字符區(qū)域.為了證明使用空間注意力模塊的有效性,本實驗對甲骨字符提取模型中的空間注意力模塊進行移除得到模型ECGL,移除后的評估結果如表6所示.通過對比較可以看出,移除字符空間注意力模塊后,字符提取模型的性能出現(xiàn)小幅下降.相比于使用空間注意力模塊,模型ECGL在mIoU、IoU和SSIM指標上,分別降低了0.37,0.68和0.73個百分點,PSNR降低0.72 dB.這在一定程度上表明,在生成網(wǎng)絡的末尾使用空間注意力模塊對字符提取模型的性能是有益的.
4.4.4 局部判別器
甲骨字符形狀多樣、結構復雜且隨機的分布在拓片上的任意位置.為約束生成的字符在空間結構上的完整性,使用額外的局部判別器評估字符特征的局部一致性.為驗證局部判別器空間約束的有效性,在訓練期間,將局部判別器移除,得到模型ECGA.對比模型ECGA和模型ECGLA的結果可以看出,移除局部判別器后,字符提取模型的性能出現(xiàn)一定的下降.相比于使用局部判別器,移除后模型在mIoU、IoU和SSIM指標上分別降低了0.44,0.82和0.17個百分點,PSNR降低0.31 dB.這意味著,使用局部判別器約束字符的局部細節(jié)的完整性是有效的.
一直以來,拓片圖像中復雜的噪聲和各種各樣的裂痕干擾,是解決甲骨文相關視覺任務的重要阻礙.本文的研究結果表明:在嵌入空間學習拓片圖像的可判別特征,是一種更為簡單且有效的方式.該方式不僅可以有效避免直接對拓片圖像中復雜的噪聲、裂痕等干擾進行處理,而且更有利于端到端方法的實現(xiàn).
本文基于深度學習技術,構建了一個專門的甲骨字符提取模型EOCNet,能夠自動提取拓片圖像中的字符信息,并生成甲骨字符圖像.這對后續(xù)加速甲骨文的研究及推廣具有重大意義.像其他深度學習方法一樣,訓練字符提取網(wǎng)絡需要依賴大量的監(jiān)督訓練數(shù)據(jù).由于甲骨拓片數(shù)據(jù)自身的特殊性,獲取大量的拓片圖像以及相應的監(jiān)督數(shù)據(jù)十分困難.因此,下一步,本課題組將針對小樣本條件下的甲骨字符的提取以及識別等相關任務進行深入的探究.