宋傳鳴, 周雨晴, 張晉豪, 洪 飏
(1.遼寧師范大學(xué)計算機(jī)與人工智能學(xué)院,遼寧 大連 116029;2.遼寧師范大學(xué)文學(xué)院,遼寧 大連 116029;3.蘇州大學(xué)江蘇省計算機(jī)信息處理技術(shù)重點(diǎn)實驗室,江蘇 蘇州 215006)
作為目前我國所見最早的成熟文字系統(tǒng),甲骨文是一種鍥刻在龜甲或獸骨上的古文字,它對中國乃至世界文明溯源均有極其重要的研究價值.在我國政府的大力推動下,甲骨文研究已經(jīng)進(jìn)入一個深入發(fā)展的新階段,以人工智能、大數(shù)據(jù)技術(shù)推進(jìn)甲骨文全息性研究及數(shù)字化工程建設(shè),成為甲骨文信息處理領(lǐng)域的研究熱點(diǎn)[1].作為甲骨文數(shù)字化工程的基礎(chǔ)問題,甲骨拓片圖像分割的目的是利用數(shù)字圖像處理和計算機(jī)視覺技術(shù),在甲骨拓片圖像的復(fù)雜背景中提取出特征分明且互不交疊的獨(dú)立文字區(qū)域.它是甲骨文字修復(fù)、字形復(fù)原與建模、文字識別、拓片綴合等處理的技術(shù)基礎(chǔ)[2].
然而,甲骨拓片圖像分割往往受到點(diǎn)狀噪聲、人工紋理和固有紋理3類干擾元素的嚴(yán)重影響[3].其中,點(diǎn)狀噪聲是由甲骨表面的顆粒狀凹凸物經(jīng)墨拓后所形成的小面積連通域;人工紋理主要包括片狀斑紋、兆紋2 類,前者是在占卜前對甲骨施加鉆鑿加工使之產(chǎn)生巢槽、并經(jīng)墨拓所形成的大面積連通域,后者則是甲骨表面在占卜燒灼過程中出現(xiàn)的“卜”形裂紋經(jīng)墨拓所形成的連通域;固有紋理由龜甲外層角質(zhì)盾片接合處的“盾紋”、內(nèi)層骨板接合處的“齒縫”所組成,它們在墨拓后會在拓片圖像中形成長條狀的大面積連通區(qū)域.由于缺乏對甲骨文字及其干擾元素的形態(tài)先驗特征的特殊考量,通用的代表性圖像分割方法目前尚不能對甲骨拓片圖像中的文字目標(biāo)和高亮度的點(diǎn)狀噪聲、人工紋理、固有紋理進(jìn)行有效判別,其誤分割率較高,在處理甲骨拓片圖像時均有一定局限性.如何從干擾眾多的復(fù)雜背景中準(zhǔn)確地分割出獨(dú)立文字區(qū)域,仍然是一個亟待解決的具有挑戰(zhàn)性的問題.
鑒于此,提出一種連通區(qū)域拓?fù)浣Y(jié)構(gòu)約束的甲骨拓片圖像分割.首先,利用超像素分割方法和最大類間方差法將甲骨拓片圖像進(jìn)行初始分割;其次,采用最小凸包算法從拓片輪廓附近的開放粘連背景中提取斷裂文字;最后,利用數(shù)學(xué)形態(tài)學(xué)運(yùn)算和歐拉數(shù)、方向投影變換對連通區(qū)域的拓?fù)浣Y(jié)構(gòu)和內(nèi)部形狀特征進(jìn)行分析,進(jìn)而獲得甲骨文字的精細(xì)分割結(jié)果.其主要貢獻(xiàn)在于2個方面:
1)根據(jù)甲骨文字、人工紋理與固有紋理的連通域特征,利用超像素分割將甲骨拓片圖像中具有相似特征結(jié)構(gòu)的區(qū)域進(jìn)行聚類分組,有利于最大類間方差法自適應(yīng)地選取最佳閾值并準(zhǔn)確提取甲骨拓片的外部輪廓,并進(jìn)一步通過最小凸包算法確定甲骨斷裂處的開放邊界位置,有效解決斷裂文字與拓片背景相互粘連的問題.
2)統(tǒng)計發(fā)現(xiàn)甲骨文字與干擾元素之間存在不同的區(qū)域特征和拓?fù)浣Y(jié)構(gòu),如連通區(qū)域面積、歐拉數(shù)及內(nèi)部形狀等,進(jìn)而建立了判別文字區(qū)域與非文字區(qū)域的形態(tài)學(xué)先驗,從而增強(qiáng)分割過程對背景粘連、殘留片狀斑紋和兆紋的穩(wěn)健性,有效抑制點(diǎn)狀噪聲、人工紋理、固有紋理的干擾.
本節(jié)將從通用的圖像分割方法和面向拓片圖像的分割方法兩方面介紹相關(guān)的研究工作.
代表性的通用圖像分割方法主要包括以下7類.
1)基于全局閾值的圖像分割方法[4-5].無法對文字目標(biāo)與非文字區(qū)域進(jìn)行有效分割,由于片狀斑紋、齒縫、盾紋等紋理元素和點(diǎn)狀噪聲的亮度與甲骨文字幾乎相同,因此該類方法往往存在較為嚴(yán)重的誤分割現(xiàn)象.
2)基于區(qū)域的圖像分割方法[6-7].容易丟失對比度低的重要輪廓和邊緣,甚至破壞甲骨拓片圖像的細(xì)微筆畫特征,也不能獨(dú)立處理文字與甲骨背景的粘連.
3)基于邊緣的圖像分割方法[8-9].不能對前景物體的區(qū)域形狀進(jìn)行約束和分析,往往將片狀斑紋、兆紋、盾紋等誤判為甲骨文字,而且對于細(xì)小邊緣和點(diǎn)狀噪聲非常敏感,容易在其干擾下產(chǎn)生虛假輪廓和邊緣.
4)基于連通域的圖像分割方法[10-11].利用前景目標(biāo)和背景區(qū)域的連通性進(jìn)行分割,可是沒有考慮甲骨文字與干擾元素在連通區(qū)域上的拓?fù)浣Y(jié)構(gòu)差異,而且文字與甲骨背景的粘連還會破壞前景目標(biāo)、背景區(qū)域的連通性假設(shè),以致嚴(yán)重影響了該類方法對粘連區(qū)域的分割精度.
5)基于活動輪廓模型的分割方法[12-13].該方法仍存在對初始輪廓曲線的位置敏感、過度依賴權(quán)重參數(shù)的選擇、不能處理非閉合的物體邊界等不足,尤其是無法有效分割甲骨斷裂、殘缺處的甲骨文字.
6)基于模糊聚類的圖像分割方法[14-15],由于模糊隸屬度函數(shù)未能對甲骨拓片圖像中干擾元素的分布規(guī)律進(jìn)行有效建模,對點(diǎn)狀噪聲、背景強(qiáng)度不一致等現(xiàn)象比較敏感,不具備判別甲骨固有紋理和人工紋理的能力.
7)基于深度學(xué)習(xí)的分割方法[16-17]].該方法憑借卷積神經(jīng)網(wǎng)絡(luò)的多尺度信息表示能力,利用甲骨文字與點(diǎn)狀噪聲、盾紋、襯底背景等干擾元素在不同尺度下的特征差異完成分割,如MultiResUNet方法[16]等。然而,神經(jīng)網(wǎng)絡(luò)卻不能有效處理文字粘連現(xiàn)象,而且由于缺少對文字形態(tài)特征的量化判別,容易產(chǎn)生甲骨齒縫和兆紋的誤分割現(xiàn)象.
面向甲骨拓片圖像的分割需求,史小松等[18]提出一種基于稀疏活動輪廓模型的甲骨拓片分割算法.該方法以目標(biāo)形狀估計為約束,通過位置回歸和共同勾畫算法學(xué)習(xí)目標(biāo)輪廓,進(jìn)而利用距離約束的霍夫變換完成分割.史小松等[19]利用全局閾值法對甲骨拓片進(jìn)行粗分割,再用數(shù)學(xué)形態(tài)學(xué)方法完成精細(xì)分割.然而,上述方法僅能在圖像中分割出拓片區(qū)域和襯底區(qū)域,卻無法實現(xiàn)甲骨文字的準(zhǔn)確提取.
為了對甲骨拓片圖像中的文字進(jìn)行獨(dú)立分割,研究人員通過結(jié)合拓片圖像特點(diǎn)對典型圖像分割方法進(jìn)行了改進(jìn),大致提出了3類方法:基于閾值的甲骨拓片圖像分割方法[20-23]、基于模糊聚類的甲骨拓片圖像分割方法[24-26],以及基于深度學(xué)習(xí)的甲骨拓片圖像分割方法[17,27-28].
1.2.1 基于閾值的甲骨拓片圖像分割方法
基于閾值甲骨拓片圖像分割方法的基本思想是在傳統(tǒng)閾值分割基礎(chǔ)上,引進(jìn)數(shù)學(xué)形態(tài)學(xué)等運(yùn)算對拓片圖像中的點(diǎn)狀噪聲和非文字區(qū)域進(jìn)行處理.Huang 等[20]采用中值濾波操作削弱拓片圖像中的小面積點(diǎn)狀噪聲,進(jìn)而以無參考的圖像空間質(zhì)量評估指標(biāo)(blind/referenceless image spatial quality evaluator, BRISQUE)為引導(dǎo),在紅色通道上迭代優(yōu)化形態(tài)學(xué)頂帽運(yùn)算的結(jié)構(gòu)元素半徑以去除人工紋理,而后通過最大類間方差法完成二值分割.然而,紅色通道對于甲骨拓片圖像分割的適用性不強(qiáng),BRISQUE 指標(biāo)也未兼顧拓片圖像的噪聲分布特點(diǎn),其對大面積固有紋理的處理效果不夠理想.Shi 等[21]采用開運(yùn)算估計背景區(qū)域,利用中值濾波去除點(diǎn)狀噪聲,進(jìn)而在最大類間方差法的初始分割基礎(chǔ)上,通過對連通域面積的閾值化操作提取甲骨文字區(qū)域.不過,該方法不僅無法處理背景粘連問題,而且還會產(chǎn)生對片狀斑紋、盾紋和齒縫的誤分割.Ma 等[22]利用遺傳算法自適應(yīng)地選取最佳全局閾值,進(jìn)而結(jié)合中值濾波、均值濾波實現(xiàn)拓片圖像分割.Ma等[23]利用最大類間方差法和開運(yùn)算進(jìn)行粗分割,進(jìn)而將連通面積小于平均連通面積的連通區(qū)域填充為背景.總體來講,該類方法尚不能充分發(fā)掘文字/非文字區(qū)域的形態(tài)學(xué)和拓?fù)浣Y(jié)構(gòu)特點(diǎn),對于大面積的人工紋理和固有紋理的抑制作用仍然有限.
1.2.2 基于模糊聚類的甲骨拓片圖像分割方法
基于模糊聚類甲骨拓片圖像分割方法的基本思想是通過最大化所有像素與每個聚類中心的模糊隸屬度,進(jìn)而利用聚類中心將圖像劃分成多個子區(qū)域,實現(xiàn)甲骨拓片圖像的分割.為克服傳統(tǒng)基于模糊聚類的圖像分割方法對噪聲較為敏感的不足,何穎等[24]聯(lián)合運(yùn)用模糊C-均值(fuzzy c-means,F(xiàn)CM)聚類和基于小波變換的模極大值點(diǎn)檢測完成甲骨文字的初始分割,進(jìn)而以該結(jié)果為先驗,提出了一種加權(quán)的模糊隸屬度函數(shù)及基于模糊聚類的精細(xì)分割方法.但是,該方法的計算時間復(fù)雜度卻較高.為了減少模糊聚類過程的迭代次數(shù),潘振贛[25]兼顧考慮像素值的連續(xù)性和連通鄰域內(nèi)的像素分布一致性,在模糊隸屬度函數(shù)中增加了反映灰度距離和空間距離的子項,從而降低由背景粘連所引起的分割不確定性.Huang等[26]在高斯平滑和自適應(yīng)K-均值聚類的基礎(chǔ)上,利用Bradley 方法將那些低于平均區(qū)域積分值的像素設(shè)置為背景,最后采用連通分量分析得到圖像分割結(jié)果.盡管該類方法在隸屬度函數(shù)和聚類過程中引進(jìn)了連通域的約束,可是卻未考量甲骨文字與干擾元素的連通域差異性,其分割質(zhì)量還有較大的提升空間.
1.2.3 基于深度學(xué)習(xí)的甲骨拓片圖像分割方法
基于深度學(xué)習(xí)甲骨拓片圖像分割方法的基本思想是利用深層卷積神經(jīng)網(wǎng)絡(luò)建立所有像素到文字/非文字區(qū)域的非線性映射.Gao等[17]提出了一種以UNet++為骨干網(wǎng)的甲骨拓片圖像分割網(wǎng)絡(luò),引進(jìn)殘差連接以提高網(wǎng)絡(luò)對文字特征的表達(dá)能力,并利用雙線性插值模塊克服反卷積操作所導(dǎo)致的不均勻重疊現(xiàn)象.Liu等[27]提出了一種基于全卷積層的圖像分割網(wǎng)絡(luò),采用21個卷積層、每層64個卷積核進(jìn)行特征提取,并利用Softmax 層完成分割.Ge 等[28]將ResNet-50 和特征金字塔網(wǎng)絡(luò)(feature pyramid network, FPN)相結(jié)合,把ResNet-50網(wǎng)絡(luò)的第3~5層的輸出特征作為FPN 的輸入,再利用卷積層計算出2個更大尺度的特征圖,進(jìn)而采用共享頭和掩膜分支獲得圖像分割結(jié)果.雖然深層神經(jīng)網(wǎng)絡(luò)能夠更準(zhǔn)確地提取文字/非文字區(qū)域的特征,但是該類方法仍無法有效地分割背景粘連的文字、去除與文字形態(tài)相似的齒縫、兆紋等干擾元素.
為了克服點(diǎn)狀噪聲、人工紋理和固有紋理的干擾,并從復(fù)雜背景中準(zhǔn)確地分割出獨(dú)立文字區(qū)域,提出一種連通區(qū)域拓?fù)浣Y(jié)構(gòu)約束的甲骨拓片圖像分割方法,其基本思路是首先以超像素分割和最大類間方差法獲得具有相似紋理、亮度特征的二值化結(jié)果,再以甲骨拓片輪廓為先驗構(gòu)建最小凸包,得到消除了背景粘連現(xiàn)象的封閉拓片區(qū)域及文字粗分割結(jié)果,最后利用形態(tài)學(xué)、連通區(qū)域拓?fù)浣Y(jié)構(gòu)和內(nèi)部形狀分析實現(xiàn)文字精細(xì)分割,去除拓片圖像中的片狀斑紋、兆紋、盾紋和齒縫.
圖1(a)所示為《甲骨文合集》[29]收錄的第1 093 號甲骨拓片圖像.其中,除了卜辭文字以外,圖像中還含有點(diǎn)狀噪聲(見黃色標(biāo)識)、片狀斑紋(見綠色標(biāo)識)、固有紋理(見紅色標(biāo)識)及背景粘連(見藍(lán)色標(biāo)記).從圖1(a)中可見,拓片圖像的點(diǎn)狀噪聲、人工紋理、固有紋理、襯底背景均與甲骨文字前景具有相近的灰度值分布.在這種情況下,若忽略像素值的局部分布特性而直接采用傳統(tǒng)的全局閾值進(jìn)行分割,則既不能將甲骨文字從拓片襯底中分離,又無法將甲骨文字與干擾元素進(jìn)行區(qū)別,甚至還會增強(qiáng)點(diǎn)狀噪聲的強(qiáng)度.鑒于此,采用基于簡單線性迭代聚類的超像素方法(simple linear iterative clustering, SLIC),通過迭代地聚類分組將甲骨拓片圖像分割成具有相似灰度值和光滑連通結(jié)構(gòu)的子區(qū)域.在聚類過程中,為了兼顧考慮像素值的局部相關(guān)性和空間分布一致性,在距離度量函數(shù)中引進(jìn)了像素點(diǎn)到聚類中心的空間歐氏距離和顏色歐式距離,從而有效地保留甲骨拓片圖像的邊緣和連通域特征,并提高后續(xù)閾值分割的效率.
圖1 超像素分割前后的甲骨拓片圖像Fig.1 Oracle bone rubbing image before and after the super-pixel segmentation
SLIC超像素分割的具體過程如下.
步驟1輸入一幅大小為W×H的甲骨拓片圖像I(x,y),將其顏色空間從RGB 轉(zhuǎn)換為CIELab,并設(shè)置超像素的數(shù)量為K.
步驟2令,以S為采樣步長將甲骨拓片圖像劃分成K個均勻網(wǎng)格,并將網(wǎng)格頂點(diǎn)作為初始聚類中心.
步驟3圍繞每個初始聚類中心建立一個大小為3×3的窗口,并將窗口中具有最小梯度值的像素作為新的聚類中心.
步驟4對于第i個聚類中心Ci(1 ≤i≤K),以Ci為中心建立一個大小為2S×2S的窗口,計算該窗口中的每個像素Cj(1 ≤j≤2S×2S)到Ci的距離Di,j.計算式為
其中:(lC,aC,bC)表示聚類中心Ci在CIELab 顏色空間下的像素值;(lj,aj,bj)表示像素Cj在CIELab 顏色空間下的像素值;(xC,yC)表示聚類中心Ci的空間坐標(biāo);(xj,yj)表示像素Cj的空間坐標(biāo);M表示類內(nèi)像素之間的最大顏色歐氏距離的估計值,一般設(shè)置為經(jīng)驗常數(shù);、分別表示像素Cj與聚類中心Ci之間的顏色歐氏距離和空間歐氏距離.
步驟5計算甲骨拓片圖像中任意一個像素p的聚類標(biāo)簽Lp,表達(dá)式為
其中:Di,p表示像素p到聚類中心Ci的距離.
步驟6對于每個聚類,利用該類中所有像素的顏色和空間坐標(biāo)的平均值更新其聚類中心.
步驟7返回步驟4,循環(huán)直到收斂或達(dá)到最大迭代次數(shù).
圖1(b)給出了利用上述SLIC方法得到的超像素分割結(jié)果I′(x,y).從圖1(b)中可見,除了在拓片破裂的開放區(qū)域外,超像素分割有效地定位到了甲骨拓片的外部輪廓,為提取拓片、去除襯底背景奠定了基礎(chǔ);同時,分割結(jié)果總體上以連通區(qū)域為主,將與其具有相似灰度值的像素劃分到同一個超像素中.由于超像素分割結(jié)果具有較好的像素值分布的區(qū)域一致性,在此基礎(chǔ)上,采用傳統(tǒng)的最大類間方差法即可獲得不錯的閾值分割結(jié)果I″(x,y).圖2所示為圖1(a)的閾值分割結(jié)果,同時還給出了《甲骨文合集》的第238號、第911號甲骨拓片的分割結(jié)果.
圖2 閾值化前后的甲骨拓片圖像Fig.2 Thresholding results of oracle bone rubbing images
從圖2 不難發(fā)現(xiàn),得益于恰當(dāng)?shù)姆指铋撝?,拓片圖像中與背景灰度較為接近、較小面積的大量點(diǎn)狀噪聲已被有效抑制(見圖2(a)~(c)的圓形標(biāo)記),連通區(qū)域的邊界更加明確;然而,由于甲骨在埋藏、出土過程中普遍存在疏松、粉化、殘損現(xiàn)象,處于拓片輪廓附近的文字往往存在與襯底背景相互連通或粘連的情形,造成非閉合的連通區(qū)域.此時,現(xiàn)有方法(如文獻(xiàn)[20-28]等)會不可避免地將這些文字判定為人工紋理或者固有紋理,導(dǎo)致誤分割問題.因此,有效解決背景粘連情況下的文字分割對于提高甲骨拓片圖像的分割質(zhì)量尤為重要.
為了盡量避免背景粘連所導(dǎo)致的文字誤分割,一種可行的思路是估計和重建甲骨拓片的殘損外部輪廓,以產(chǎn)生閉合的拓片或文字區(qū)域.此時,一方面,利用閉合輪廓能夠?qū)⒓坠峭仄瑓^(qū)域和襯底背景區(qū)域相互分離,從而解決甲骨文字與襯底背景具有相近灰度值、無法通過閾值化進(jìn)行二值分割的問題;另一方面,借助閉合輪廓能使與背景相互粘連的文字形成閉合的連通區(qū)域,進(jìn)而結(jié)合區(qū)域形態(tài)分析即可實現(xiàn)粘連文字的分割.當(dāng)然,盡管殘損拓片的外部輪廓往往具有復(fù)雜的碴口曲線,可是精確重建拓片輪廓既十分困難,又非必要,其精度不會影響文字分割的質(zhì)量.鑒于此,采用最小凸包技術(shù)對甲骨拓片的外部輪廓進(jìn)行估計,并進(jìn)一步去除甲骨拓片的襯底背景.
首先,利用坎尼(Canny)算子對圖像I″(x,y)進(jìn)行邊緣檢測,得到邊緣點(diǎn)的坐標(biāo)集合Sedge.
其次,采用葛立恒掃描法(Graham’s Scan)[30]計算Sedge的最小凸包區(qū)域Ω.所謂“凸包”是指包含Sedge的最小凸集,可以簡單地理解為把Sedge的最外層的點(diǎn)連接后形成的一個凸多邊形,如圖3(a)所示.因為Ω是包含圖像I″(x,y)的所有像素的最小凸集,所以它所覆蓋的區(qū)域不僅含有盡可能少的襯底背景像素,而且不會丟失原本屬于甲骨文字的像素,從而最大程度地降低誤分割的概率.從圖3(a)可見,最小凸包區(qū)域已將拓片下部存在背景粘連的文字從其連通的背景中分離出來,形成了封閉的連通區(qū)域.
圖3 基于最小凸包的粘連背景去除結(jié)果圖Fig.3 Result of adhesive background removal based on the minimum convex hull
最后,假設(shè)ΩI表示甲骨拓片圖像I″(x,y)的區(qū)域,ΩB表示襯底背景像素的區(qū)域,則有ΩB=ΩI-Ω,其中“-”表示集合的差運(yùn)算.此時,將ΩB中包含的像素施加反色操作,進(jìn)而對所得結(jié)果與Ω 進(jìn)行集合的并運(yùn)算,即可得到去除了粘連背景的粗分割結(jié)果ICoarse(x,y).
圖3(b)給出了利用上述過程對第1 093號甲骨拓片圖像進(jìn)行處理后的結(jié)果.顯然,除了拓片上部尚有小面積的殘留背景外(見圖3(b)中的圓形標(biāo)識),其余的襯底背景區(qū)域已全部被有效地檢測和去除.不過,最小凸包卻不能去除拓片區(qū)域內(nèi)的點(diǎn)狀噪聲、固有紋理等干擾元素.為此,進(jìn)一步利用數(shù)學(xué)形態(tài)學(xué)和連通區(qū)域分析完成ICoarse(x,y)的精細(xì)分割.
雖然在粗分割結(jié)果ICoarse(x,y)中仍存在點(diǎn)狀噪聲、片狀斑紋及殘留背景等(見圖3(b)),但是一方面,點(diǎn)狀噪聲、片狀斑紋、盾紋、齒縫及殘留背景的連通面積和截口長度均有別于甲骨文字;另一方面,甲骨文字區(qū)域的拓?fù)浣Y(jié)構(gòu)和內(nèi)部形狀也與點(diǎn)狀噪聲、片狀斑紋、盾紋、齒縫、殘留背景迥異.據(jù)此發(fā)現(xiàn),本節(jié)將引進(jìn)數(shù)學(xué)形態(tài)學(xué)分析不同區(qū)域的結(jié)構(gòu)特征,采用歐拉數(shù)、方向投影變換分析各個連通區(qū)域的拓?fù)浜蛢?nèi)部形狀特征,從而在有效抑制干擾元素的前提下,更加準(zhǔn)確地實現(xiàn)甲骨拓片圖像分割.
考慮到甲骨文字在連通區(qū)域的截口長度(即連通區(qū)域橫斷面的長度)小于片狀斑紋、殘留背景及大部分的盾紋、齒縫,利用形態(tài)學(xué)頂帽運(yùn)算和半徑為r的圓盤型結(jié)構(gòu)元素對這些干擾元素進(jìn)行判別和處理,得到初步求精結(jié)果I′Fine(x,y).頂帽運(yùn)算主要分為兩個步驟:開運(yùn)算和代數(shù)減法運(yùn)算.其中,粗分割結(jié)果ICoarse(x,y)經(jīng)過形態(tài)學(xué)開運(yùn)算后,圖像中具有較大截口長度的片狀斑紋、殘留背景、盾紋等連通區(qū)域就會被提取出來,而代數(shù)減法運(yùn)算則可進(jìn)一步將這些大面積的連通域從圖像ICoarse(x,y)中減除,實現(xiàn)去除干擾元素的目的.圖4 給出了第1 093 號甲骨拓片圖像經(jīng)過開運(yùn)算、頂帽運(yùn)算后的結(jié)果,從圖4 中可見,ICoarse(x,y)的片狀斑紋、殘留背景已被全部去除,圖2(a)標(biāo)記的與文字發(fā)生粘連的襯底背景也在未影響文字質(zhì)量的前提下被去除.不過,此時的圖像中仍殘留一定數(shù)量的點(diǎn)狀噪聲,以及一部分與文字筆畫的截口長度相近的人工紋理、固有紋理等非文字噪聲(見圖4(a)).
圖4 大面積的干擾元素去除結(jié)果圖Fig.4 Result of noise elements removal with large areas
由于甲骨文字是用刀筆按照一定的規(guī)范刻寫到龜甲或獸骨上的,其筆畫表現(xiàn)為具有一致截口長度的單連通區(qū)域,不同筆畫之間形成了緊密的結(jié)構(gòu)組合關(guān)系和較好的連通性,并進(jìn)一步構(gòu)成了具備一定連通面積、特定拓?fù)浣Y(jié)構(gòu)和內(nèi)部形狀的文字;同時,甲骨文字的間架呈矩形,接近方塊字,其外接矩形的寬高比主要分布在[0.25,0.65]區(qū)間內(nèi)[3].相比之下,點(diǎn)狀噪聲的連通區(qū)域面積明顯小于甲骨文字,位置變化呈現(xiàn)松散的獨(dú)立隨機(jī)分布,并且缺乏規(guī)則的拓?fù)浣Y(jié)構(gòu)和內(nèi)部形狀;對于那些與文字筆畫的截口長度相近的兆紋、盾紋、齒縫等元素,盡管其連通區(qū)域面積的分布區(qū)間與甲骨文字存在少量交集[31],可是外接矩形的寬和高往往不成正比,拓?fù)浣Y(jié)構(gòu)和內(nèi)部形狀較之甲骨文字也更加單一.
根據(jù)上述分析,首先對圖像I′Fine(x,y)的全部8-連通區(qū)域進(jìn)行標(biāo)記,并根據(jù)文字及點(diǎn)狀噪聲的連通面積分布區(qū)間的統(tǒng)計先驗[31],將連通面積小于Aconn(將該經(jīng)驗常數(shù)設(shè)置為50)的連通區(qū)域填充為背景,從而去除I′Fine(x,y)中離散分布的大量點(diǎn)狀噪聲,得到平滑圖像I″Fine(x,y).圖5 所示為圖4(b)經(jīng)該過程處理后的結(jié)果圖.
圖5 點(diǎn)狀噪聲的去除結(jié)果圖Fig.5 Result of point-wise noise removal
從圖5中可見,由于同一個甲骨文字的不同筆畫相互連接和布局,因此形成的間架拓?fù)浣Y(jié)構(gòu)往往存在不等量的孔洞.例如,圖5 標(biāo)記的“王()”字含有1 個孔洞,“酉()”字則含有2 個孔洞;相反地,盾紋、齒縫、兆紋等非文字區(qū)域卻鮮有形成規(guī)則的拓?fù)浣Y(jié)構(gòu),一般僅有1 個連通區(qū)域且不存在孔洞.根據(jù)這一現(xiàn)象,采用輪廓層次分析法計算每個8-連通前景區(qū)域的歐拉數(shù)NEuler,將其作為判定文字/非文字區(qū)域的參考準(zhǔn)則之一.對于一幅二值圖像來講,“歐拉數(shù)”是指在圖像中會存在像素值為0的孔洞和像素值為1的連通區(qū)域,若將連通區(qū)域的數(shù)目Nregion減去孔洞的數(shù)目Nhole,則將所得結(jié)果稱為該幅圖像的歐拉數(shù)NEuler.例如,圖5中“王”字的歐拉數(shù)等于0,“酉”字的歐拉數(shù)等于-1.根據(jù)歐拉數(shù)的定義,不難理解,因為非文字區(qū)域大多不包含孔洞,所以其歐拉數(shù)一般為一個定值1,而文字區(qū)域的歐拉數(shù)則有更大的取值范圍.鑒于此,將歐拉數(shù)NEuler<TEuler的8-連通區(qū)域判定為甲骨文字區(qū)域.其中,TEuler是經(jīng)驗常數(shù),將其設(shè)置為-1.
由于部分甲骨文字的拓?fù)浣Y(jié)構(gòu)也不含孔洞(如圖5 中的“己()”字),其歐拉數(shù)與非文字區(qū)域的歐拉數(shù)均等于1,因此為了對歐拉數(shù)不小于TEuler,尤其是歐拉數(shù)等于1的8-連通區(qū)域進(jìn)行有效判別,采用基于投影的區(qū)域內(nèi)部變換分析法對拓片圖像IF″ine(x,y)分別進(jìn)行列投影和行投影變換,從而分析各個8-連通區(qū)域的內(nèi)部形狀特征.對于IF″ine(x,y)的某個8-連通區(qū)域Ωconn,假設(shè)其外接矩形的左上角坐標(biāo)為(xTL,yTL),右下角坐標(biāo)為(xRB,yRB),那么其行投影變換PH、列投影變換PV分別定義為
其中:PH(y)表示Ωconn在第y行的投影值,PV(x)表示Ωconn在第x列的投影值,Ωconn(x,y)表示Ωconn在坐標(biāo)(x,y)處的像素值.不難理解,甲骨文字的筆畫組合具有特定的間架結(jié)構(gòu),當(dāng)連通區(qū)域的某一行存在橫劃時,那么行投影變換PH就會在該行產(chǎn)生1 個峰值;而當(dāng)某一行只存在豎劃時,那么行投影變換PH就會在該行產(chǎn)生1個谷值.同理,列投影變換在鍥刻豎劃、橫劃的位置也會產(chǎn)生類似的現(xiàn)象.相比之下,由于殘留的盾紋、齒縫、兆紋等非文字區(qū)域只是缺乏間架結(jié)構(gòu)和內(nèi)部形狀的全連通域,其行(列)投影變換的數(shù)值大多接近均勻分布,方差較小,這一點(diǎn)就與甲骨文字的行(列)投影變換形成了顯著差異.直觀起見,圖6 以圖5 中的“酉()”字及其左下部圓圈標(biāo)識的固有紋理為例,給出了二者的行投影變換曲線和列投影變換曲線的對比圖.從圖6(a)可知,行投影變換的2 個峰值對應(yīng)“酉”字的2 個橫劃,其間的1 個谷值反映了橫劃之間的豎劃及孔洞;從圖6(b)可知,列投影變換的2 個峰值對應(yīng)“酉”字的2 個豎劃,而其間的1 個谷值則反映了豎劃之間的橫劃及孔洞;然而,固有紋理區(qū)域的行(列)投影變換的曲線分布卻缺乏明顯的峰值和谷值,尤其是該區(qū)域的縱向?qū)挾容^為一致,使得其列投影變換曲線的中部近乎均勻分布.為了進(jìn)一步突出文字區(qū)域與非文字區(qū)域在投影變換分布方面的差異性,圖7 給出了“酉”字及上述固有紋理的行(列)投影變換的方差曲線.顯然,間架結(jié)構(gòu)和內(nèi)部形狀的不同,使得文字區(qū)域與非文字區(qū)域的行(列)投影變換的方差產(chǎn)生了數(shù)量級上的差距.基于這個發(fā)現(xiàn),對于某給定的8-連通區(qū)域,分別計算其行投影變換的方差VarH和列投影變換的方差VarV,并令Varconn←max{VarV,VarH},若Varconn≥Tvar,則將該8-連通區(qū)域判定為甲骨文字區(qū)域,其中,Tvar是經(jīng)驗常數(shù),將其設(shè)置為150.
圖6 甲骨文字與干擾元素的投影變換曲線對比Fig.6 Comparison of projection transform curves between oracle bone inscription and interfering element
圖7 甲骨文字與干擾元素的投影變換的方差曲線對比Fig.7 Comparison of variance curves of projection transform between oracle bone inscription and interfering element
最后,考慮到極個別甲骨文字的間架結(jié)構(gòu)、內(nèi)部形態(tài)與兆紋、盾紋類似,如數(shù)字“一”“十”和天干地支“乙”“午”等字,為了保證歐拉數(shù)和投影變換的判定準(zhǔn)確率,進(jìn)一步利用外接矩形的寬高比的統(tǒng)計先驗[3]進(jìn)行判別.對于某給定的8-連通區(qū)域,若其NEuler≥TEuler且Varconn<Tvar,則計算其外接矩形的長寬比R,此時,若R滿足TRmin≤R≤TRmax,則將該8-連通區(qū)域判定為甲骨文字區(qū)域,否則將其判定為干擾元素區(qū)域,進(jìn)而獲得最終的分割結(jié)果圖像IFine(x,y).這里,TRmin和TRmax均為經(jīng)驗常數(shù).
在第2節(jié)和第3節(jié)的基礎(chǔ)上,本節(jié)給出連通區(qū)域拓?fù)浣Y(jié)構(gòu)約束的甲骨拓片圖像分割方法的具體流程,如圖8所示.
圖8 甲骨拓片圖像分割方法的具體流程Fig.8 Specific process of the proposed segmentation method for oracle bone rubbing images
為驗證方法的有效性,從《甲骨文合集》中選取了3 000張甲骨拓片并制作了甲骨拓片圖像數(shù)據(jù)集,從主觀視覺效果和客觀評價2個方面進(jìn)行實驗,并將結(jié)果與面向甲骨文字的連通域分割方法(ORSMCD)[21]、基于形態(tài)學(xué)的拓片圖像閾值分割方法(TSM)[23]、基于超像素的C-均值聚類分割方法(SF-FCM)[14]、基于果蠅優(yōu)化算法的閾值分割方法(FOA-Otsu)[5]、多粒度多層馬爾可夫隨機(jī)場的分割方法(MMLMRF)[32]和基于UNet的多模態(tài)分割方法(MultiResUNet)[16]進(jìn)行比較.
實驗的硬件環(huán)境為Intel (R) Core (TM) i7-4790 CPU@3.60 GHz,16.0 GB RAM,操作系統(tǒng)為64 位Windows 10專業(yè)版,編程平臺為Matlab R2018a.
在視覺上,點(diǎn)狀噪聲、人工紋理、固有紋理等干擾元素對甲骨拓片圖像的影響主要體現(xiàn)為混淆甲骨文字的內(nèi)在特征,降低文字的完整性和清晰度,進(jìn)而導(dǎo)致其難以被準(zhǔn)確地分割.選取了含有不同強(qiáng)度的干擾元素的5 類甲骨拓片圖像進(jìn)行實驗:1)圖像背景簡單,噪聲較少,文字清楚,如圖9(a)所示的《甲骨文合集》第367 號甲骨拓片;2)圖像背景簡單,含有大量點(diǎn)狀噪聲,如圖10(a)所示的《甲骨文合集》第1 294 號甲骨拓片;3)圖像背景復(fù)雜,拓片中含有大面積的粘連噪聲,如圖11(a)所示的《甲骨文合集》第358號甲骨拓片;4)圖像背景復(fù)雜,拓片中含有大量的點(diǎn)狀噪聲、盾紋、齒縫等干擾元素和大面積的背景粘連,如圖12(a)所示的《甲骨文合集》第891 號甲骨拓片;5)圖像背景簡單,但是拓片中含有貫穿整片甲骨的盾紋、多處背景粘連及干擾性較強(qiáng)的2 處片狀斑紋,文字邊緣還存在一定模糊現(xiàn)象,如圖13(a)所示的《甲骨文合集》第911號甲骨拓片.
圖9 不同方法對第367號甲骨拓片圖像的分割結(jié)果Fig.9 Segmentation results of different methods for the oracle bone rubbing image with No.367
圖10 不同方法對第1 294號甲骨拓片圖像的分割結(jié)果Fig.10 Segmentation results of different methods for the oracle bone rubbing image with No.1 294
圖11 不同方法對第358號甲骨拓片圖像的分割結(jié)果Fig.11 Segmentation results of different methods for the oracle bone rubbing image with No.358
圖12 不同方法對第891號甲骨拓片圖像的分割結(jié)果Fig.12 Segmentation results of different methods for the oracle bone rubbing image with No.891
圖13 不同方法對第911號甲骨拓片圖像的分割結(jié)果Fig.13 Segmentation results of different methods for the oracle bone rubbing image with No.911
從圖9~13可見:
1)在較高的灰度對比度情況下,SF-FCM 方法對點(diǎn)狀噪聲具有一定抵抗能力,能取得初步的分割結(jié)果,但是其漏分割率偏高(圖11(d));在對比度偏低時,該方法的性能卻會受到明顯影響,甚至無法給出有效的分割結(jié)果(圖10(d)).而且,基于直方圖的模糊隸屬度函數(shù)的穩(wěn)健性不足,仍然不能克服相近灰度值的干擾元素對文字分割的影響,導(dǎo)致SF-FCM 方法無法有效處理盾紋(圖13(d))、襯底背景粘連(圖12(d))等情形.
2)FOA-Otsu 方法利用果蠅優(yōu)化算法計算全局閾值,但是該方法既忽略了拓片襯底與文字具有相近的亮度,又缺少有效抑制噪聲干擾的方法,導(dǎo)致單一的閾值不可避免地產(chǎn)生大量的襯底背景(圖11(b))、點(diǎn)狀噪聲(圖10(b))、盾紋(圖12(b))、片狀斑紋(圖13(b))的誤分割現(xiàn)象.
3)ORSMCD 方法采用數(shù)學(xué)形態(tài)學(xué)估計拓片背景,利用中值濾波抑制點(diǎn)狀噪聲,并通過連通域面積的閾值化操作在一定程度上抵抗盾紋、齒縫的影響,取得了不錯的分割結(jié)果.然而,該方法對襯底背景粘連的處理能力仍有不足(圖11(e)),其閾值化操作無法有效去除大面積的盾紋區(qū)域(圖13(e)),并且片狀斑紋也存在誤分割的可能(圖13(e)).
4)TSM 方法利用形態(tài)學(xué)運(yùn)算及小面積連通區(qū)域的填充運(yùn)算,較之ORSMCD 方法更加有效地去除了點(diǎn)狀噪聲、大面積盾紋,但是由于該方法僅將連通區(qū)域的平均面積作為文字區(qū)域的判定標(biāo)準(zhǔn),卻缺乏關(guān)于甲骨文字形態(tài)特征的必要考量,容易將較小面積的筆畫誤判為噪聲(如圖9(f)左上方的“二”字是被誤分割的結(jié)果,正確結(jié)果應(yīng)該為“三”),而將稍大面積的人工紋理誤判為文字筆畫(圖10(f));同時,不能完全去除背景粘連(圖11(f))和大面積的盾紋(圖13(f)).
5)MMLMRF方法建立了像素粒度的概率圖和目標(biāo)粒度的概率圖,進(jìn)而構(gòu)建多層次的馬爾可夫隨機(jī)場模型,能夠?qū)ν仄瑘D像的點(diǎn)狀噪聲分布、連通區(qū)域分布進(jìn)行有效的表示,表現(xiàn)出較強(qiáng)的點(diǎn)狀噪聲抑制能力,能夠獲得清晰的文字分割結(jié)果.不過,該方法的概率分布是建立在像素值基礎(chǔ)上的,缺乏對目標(biāo)形態(tài)先驗的度量,因此無法處理與文字具有相近灰度的襯底背景、盾紋、片狀斑紋等干擾元素,如圖11(c)和圖12(c).此外,該方法在分割過程中會損失一部分文字邊緣,使得細(xì)化后的甲骨文字可能出現(xiàn)輕微的筆畫斷裂.
6)MultiResUNet 方法引進(jìn)不同尺寸的卷積核并增加直連邊,設(shè)計了一種多尺度殘差塊結(jié)構(gòu),進(jìn)而利用該結(jié)構(gòu)替代傳統(tǒng)UNet網(wǎng)絡(luò)的卷積層序列,增強(qiáng)了神經(jīng)網(wǎng)絡(luò)的多尺度信息表示能力,保證該方法對于點(diǎn)狀噪聲、盾紋、襯底背景均有一定的抑制能力,總體上取得了不錯的分割結(jié)果.然而,該方法會擴(kuò)大原本的文字區(qū)域,導(dǎo)致其分割結(jié)果可能損失文字的間架結(jié)構(gòu),甚至使文字內(nèi)部出現(xiàn)失去孔洞結(jié)構(gòu)的全連通域(圖10(g)).此外,MultiResUNet方法無法有效去除分布在文字周圍的點(diǎn)狀噪聲,在一定情況下,其分割后的甲骨文字仍可能被噪聲污染而難以辨認(rèn)(圖12(g)).
7)本文方法將超像素和閾值法相結(jié)合,根據(jù)局部區(qū)域的像素分布獲得了更加準(zhǔn)確的閾值化結(jié)果,進(jìn)而通過外接矩形、歐拉數(shù)和投影變換對甲骨文字及干擾元素的面積分布、形態(tài)先驗特征進(jìn)行統(tǒng)計建模,取得了有效的分割結(jié)果.如圖9(h)~圖13(h)所示,本文方法不僅能去除不同強(qiáng)度的點(diǎn)狀噪聲,而且對拓片開放區(qū)域的背景粘連、片狀斑紋及盾紋均有明顯的抑制能力,很好地保持了甲骨文字的原始筆畫和字形.
為了進(jìn)一步評價方法的分割性能,在含有3 000張甲骨拓片圖像的數(shù)據(jù)集上進(jìn)行了實驗,并采用正確分割率(ACC)、敏感度(SE)、特異度(SP)作為分割結(jié)果的客觀度量指標(biāo),其定義分別為
其中:TP表示甲骨文字區(qū)域被正確分割的像素數(shù);TN 表示非文字區(qū)域被正確分割的像素數(shù),F(xiàn)P表示非文字區(qū)域被誤分割的像素數(shù);FN表示甲骨文字區(qū)域被誤分割的像素數(shù).
表1 總結(jié)了方法與其他7種對比方法在甲骨拓片圖像數(shù)據(jù)集上的客觀性能評價結(jié)果.從表1可知,未考慮甲骨文字先驗知識的方法,如FOA-Otsu、MMLMRF 和SF-FCM,對甲骨拓片圖像的干擾元素非常敏感,其最高的正確分割率僅為80.01%;MultiResUNet方法經(jīng)過網(wǎng)絡(luò)訓(xùn)練后,對點(diǎn)狀噪聲、盾紋、襯底背景均有一定的抑制能力,正確分割率為91.72%;針對甲骨拓片圖像的特點(diǎn),ORSMCD 方法和TSM 方法采用數(shù)學(xué)形態(tài)學(xué)和連通區(qū)域面積分析進(jìn)行處理,其最高的正確分割率達(dá)到了93.84%;方法在面積分布、形態(tài)先驗的基礎(chǔ)上,利用連通區(qū)域的拓?fù)浣Y(jié)構(gòu)和內(nèi)部形狀分析對甲骨文字進(jìn)行分割,取得了更高的正確分割率,比7種對比方法中正確分割率最高的TSM 方法進(jìn)一步提高了2.03%,達(dá)到了95.87%.在敏感度方面,SF-FCM方法對圖像對比度和點(diǎn)狀噪聲的穩(wěn)健性差,甚至在一定條件下無法給出甲骨文字的有效分割,其敏感度僅為65.6%;MMLMRF 方法在分割過程中往往會損失一部分筆畫的邊緣信息,其敏感度也偏低,平均為70.23%;TSM方法對于連通區(qū)域面積的判別不夠準(zhǔn)確,容易將較小面積的筆畫誤判為拓片背景,以致在一定程度上影響了分割性能,其敏感度為90.05%;FOA-Otsu方法、ORSMCD 方法和MultiResUNet方法對甲骨文字分割的敏感度大致相當(dāng),最高達(dá)到了92.98%,而本文方法則進(jìn)一步較其提高了0.23%,達(dá)到了93.21%.在特異度方面,F(xiàn)OA-Otsu 方法、MMLMRF 方法、SF-FCM 方法均無法克服拓片襯底背景、大面積背景粘連等因素的影響,其特異度最大僅有80.56%;MultiResUNet方法會擴(kuò)大原本的文字區(qū)域,將其周圍鄰域內(nèi)的背景像素誤分割為甲骨文字,其特異度為91.66%;盡管ORSMCD方法和TSM方法能夠克服拓片襯底背景的干擾,可是無法完全抑制大面積背景粘連,仍明顯存在對背景像素的誤分割,其特異度最高為94.56%;所提出方法通過建立文字/非文字區(qū)域的形態(tài)學(xué)先驗和連通區(qū)域的拓?fù)浣Y(jié)構(gòu)約束,增強(qiáng)了分割過程對于各類干擾元素的穩(wěn)健性,其特異度達(dá)到了96.10%,較之特異度最高的TSM方法提高了1.54%.
表1 不同方法的甲骨拓片圖像分割結(jié)果的客觀評價比較Tab.1 Objective evaluation comparison of the segmentation results of oracle bone rubbing images by different methods (單位: %)
綜合主觀評價和客觀評價的比較結(jié)果可見,對于包含大量點(diǎn)狀噪聲、人工紋理和固有紋理的甲骨拓片圖像,本文方法的整體分割性能優(yōu)于其他7種代表性的對比方法,有效克服了現(xiàn)有方法無法處理大面積背景粘連、襯底背景、盾紋等干擾的問題,提高了甲骨文字的分割精度.
為了克服點(diǎn)狀噪聲、片狀斑紋、兆紋、盾紋、齒縫等元素對甲骨拓片圖像分割的影響,先以甲骨拓片的外部輪廓構(gòu)建最小凸包,再以連通區(qū)域的拓?fù)浣Y(jié)構(gòu)和內(nèi)部形狀特征建立甲骨文字區(qū)域和非文字區(qū)域的形態(tài)學(xué)先驗,進(jìn)而提出了一種連通區(qū)域拓?fù)浣Y(jié)構(gòu)約束的甲骨拓片圖像分割方法.其優(yōu)點(diǎn)在于,最小凸包解決了斷裂文字與襯底背景的粘連現(xiàn)象及其誤分割,形態(tài)學(xué)先驗則有效避免了片狀斑紋、盾紋、齒縫的影響,從而增強(qiáng)了分割過程對拓片干擾元素的穩(wěn)健性,提高了甲骨文字分割的主觀視覺質(zhì)量和客觀性能.實驗結(jié)果驗證了所提出方法的有效性以及在甲骨拓片圖像分割過程中引進(jìn)形態(tài)學(xué)先驗的必要性.
另外,所提出方法仍有可臻完善之處,例如,當(dāng)甲骨文字與盾紋、齒縫或背景存在細(xì)小連通邊時的有效分割等,將在今后的工作中進(jìn)一步深入研究相關(guān)問題的解決思路.