任方針,王秀友,朱 弋,時如夢,王勝波,劉華明
(阜陽師范大學 計算機與信息工程學院,安徽 阜陽 236037)
藏文古籍作為承載藏族文化的載體,對于藏族文化的傳承至關(guān)重要,因此對藏文古籍保護的研究較有意義,當前古籍數(shù)字化保護已經(jīng)成為了主要的古籍保護方式。古籍數(shù)字化通常包括古籍拍照或掃描、古籍圖像版面分割、古籍圖像版面描述、古籍圖像內(nèi)容識別等步驟,古籍版面分割作為古籍數(shù)字化中的重要步驟,對古籍版面分割的研究是很有必要的。
版面分割是古籍數(shù)字化中關(guān)鍵的一步,是后續(xù)操作的基礎,在版面分割方面也有不少研究。在過去的幾十年中,國內(nèi)外的研究者針對印刷或手寫的古籍文獻提出了許多不同的版面分析方法。張利等[1]利用游程平滑算法(Run length Smearing Algorithm,RLSA,RLSA)對英文文檔進行版面分割。于明等[2]改進了傳統(tǒng)基于連通域的版面分析方法,對文本圖像進行單個字體的區(qū)域擴充,使后續(xù)的連通間距統(tǒng)計更為準確和方便,再通過連通間距的統(tǒng)計對圖像進行模糊整合,進行文本圖像的連通區(qū)域分割,效果更好。Chen 等[3-5]提出了基于顏色和紋理特征的歷史手寫文檔圖像頁面分割方法、基于卷積自編碼的歷史文檔圖像頁面分割方法、基于無監(jiān)督特征學習超像素分類的歷史文檔圖像頁面分割方法,在歷史文檔頁面分割上取得了不錯的效果,降低了復雜度且提升了分析效果。逯瑜嬌等[6]針對復雜版面分割問題,將相位一致性統(tǒng)計特征和改進灰度共生矩陣的紋理特征相結(jié)合,得到一種新的組合特征向量。將該組合特征向量作為訓練樣本,最終得到基于支持向量機的復雜圖像分割算法,該方法在版面分割任務中表現(xiàn)出了較好的召回率與準確率,能有效區(qū)分復雜圖像中的各類不同區(qū)域,但對于圖形區(qū)域的分割準確度有所降低。魏傳義[7]提出一種分列投影的版面分割算法。該方法繼承了投影法本身計算速度快的特點,同時還可以避免圖像弧度對版面分割的影響。在藏文古籍版面分割方面的研究相對其他文檔的少一些,Liu 等[8]提出一種基于邊界信息的藏文歷史文獻的版面分析方法,該方法在藏文古籍版面分析方面取得了較好的結(jié)果。張西群等[9-10]介紹了一種基于卷積降噪自編碼器的藏文歷史古籍版面分析方法。該方法能夠?qū)Σ匚臍v史文獻的不同版面元素進行有效的分離,但其結(jié)果比較依賴聚類結(jié)果。
但當前的處理思路沒有充分考慮到古籍各區(qū)域的特征,也沒有從多個特征層次上考慮圖像內(nèi)容的差異。本文從灰度、紋理、顏色3 個方面對古籍圖像進行特征分析,采用基于統(tǒng)計的方法提取古籍圖像灰度、紋理、顏色18 維的特征向量作為分類特征。通過對圖像分塊后提取特征向量作為樣本訓練SVM,再對待分割圖片分塊后對圖像塊進行分類預測,得出粗略的版面分割結(jié)果,再結(jié)合投影法獲得更精確的版面分割結(jié)果,為藏文古籍版面分割提供了一種可行的思路,由于本文工作是為后續(xù)對藏文文本的切分、提取等工作做準備,因此主要關(guān)注藏文區(qū)域的分割。
從藏文古籍圖片上可以看出,其主要包含圖像區(qū)、文本區(qū)、背景區(qū)等區(qū)域,且不同區(qū)域具有不同的特征,從顏色特征上分析,圖像區(qū)的顏色信息比較豐富,文本區(qū)的顏色信息比較單調(diào),通常只有兩種顏色,而背景區(qū)的顏色則通常只有一種;從紋理特征上分析,圖像區(qū)的紋理具有多種紋理,層次比較豐富,文本區(qū)則具有文字的紋理特征,具有較多水平及垂直紋理,而背景區(qū)的紋理則較單一,不具有多種紋理;從灰度特征上分析,圖像區(qū)的灰度層次較豐富,對比度也較大,文本區(qū)和背景區(qū)灰度層次較少,對比度也較小。通過對古籍圖像特征的分析,決定使用灰度特征、紋理特征、顏色特征作為圖像的特征來表達各區(qū)域的信息特征。
對古籍圖像灰度特征分析,將灰度平均值、灰度方差、灰度熵、灰度能量、灰度對比度組成5 維向量來表達每一圖塊的灰度特征。
圖像的灰度均值是各個像素點的灰度值的平均值,可以在一定程度上反映圖像的灰度特征,將其作為灰度特征之一。
灰度方差表示圖像中各個像素的灰度值與整個圖像平均灰度值的離散程度。記iˉ為灰度均值,H(i)為灰度圖中灰度值為i的像素個數(shù),L為灰度圖的灰度級數(shù),灰度方差δ2為
圖像熵表示圖像中平均信息量的多少,灰度熵Hz為
灰度能量反映了圖像中灰度值的大小,灰度能量Hp為
灰度對比度說明圖像中最大灰度與最小灰度的差值,f(a,b)為(a,b)位置像素的灰度值,灰度對比度contrast 為
運用以上灰度均值等5 個值來表達每塊圖像的灰度特征。
基于灰度共生矩陣(gray-level co-occurrence matrix,GLCM)提取紋理特征的方法是一種典型的統(tǒng)計分析方法,GLCM 紋理提取方法具有較強的適應能力和穩(wěn)健性,近年來已越來越多地用于圖像的檢測和分類。本文提取基于GLCM 的對比度、熵、二階矩、逆方差4 維向量來表達圖像的紋理特征。
對比度反映了圖像的清晰度和紋理溝紋深淺的程度。紋理的溝紋深,其對比度大,效果清晰;反之,對比度小,則溝紋淺,效果模糊[11]。紋理對比度Con 為
式中:m,n表示灰度值,P(m,n)表示距離與角度選定后灰度值m與n同時出現(xiàn)的頻度。
二階距反映了圖像灰度分布均勻程度和紋理粗細程度。二階矩Asm 為
當Asm 大時,紋理粗,能量大;反之,Asm 小時,紋理細,能量小[12]。熵表示圖像中紋理的非均勻程度或復雜程度。若紋理復雜,熵值大;反之,若圖像中灰度均勻,共生矩陣中元素大小差異大,熵值小,熵Ent 為
逆方差反映圖像紋理的同質(zhì)性,度量圖像紋理局部變化的多少。如果灰度共生矩陣對角元素有較大值,Idm 就會取較大的值[13]。因此連續(xù)灰度的圖像會有較大Idm 值。逆方差Idm 為運用以上基于GLCM 的二階矩等4 個值組成的4 維特征向量來描述每塊圖像紋理特征。
顏色特征是一種全局特征,述了圖像或圖像區(qū)域所對應的事物的表面性質(zhì)。采用顏色矩來表達圖塊的顏色特征。顏色分布信息主要集中在低階矩中,因此僅采用顏色的一階矩、二階矩和三階矩就足以表達圖像的顏色分布[14]。
第x(x=1,2,3)通道上一階顏色矩Ex、二階顏色矩δx和三階顏色矩Sx分別反映圖像的整體明暗程度、圖像顏色的分布范圍和圖像顏色分布的對稱性。其計算公式為
式中:Pxy表示第y個像素第x通道上的顏色值。
通過3 個顏色通道上的前三階顏色矩組成的9 維特征向量來表達圖像的顏色特征。
本文提出的版面分割方法流程圖如圖1。首先對圖像濾波,濾波后將圖像分為150×150 像素的圖像塊,再提取這些圖像塊的特征并標注,70%的樣本用于訓練,剩余30%用于測試。使用SVM可以得到版面粗略分割結(jié)果,再用投影法處理后得到精確的版面分割結(jié)果。
圖1 基于SVM 版面分割流程圖
基于結(jié)構(gòu)風險最小化原則的支持向量機(support vector machine,SVM)理論能夠適用于小樣本集學習的情況,具有很強的泛化能力,不過分依賴樣本的數(shù)量和質(zhì)量?;赟VM 的粗略版面分割步驟如下:
ⅰ將所有圖像進行均值濾波并將所有圖像分成150×150 像素大小的圖像塊;
ⅱ對每個圖塊提取灰度特征、紋理特征、顏色特征共計18 維的特征構(gòu)成特征向量并進行歸一化,歸一化采用離差標準化方式;
ⅲ人工標注每個圖像塊,1 標記為文本區(qū),0標記為非文本區(qū);
ⅳ使用訓練集訓練SVM,并進行參數(shù)調(diào)整;
ⅴ將待版面分割圖像分割為與訓練集同樣大小的圖塊,提取特征向量并歸一化;
ⅵ使用訓練好的SVM 對待版面分割圖像所提取的特征向量進行分類;
ⅶ根據(jù)分類后的圖塊得到粗略的文本區(qū)坐標,得到大致版面分割結(jié)果。
本文以分類結(jié)果作為版面分割的依據(jù),將分類為文本區(qū)的第一個圖像塊左上角坐標作為起始坐標,分類為文本區(qū)的最后一個圖像塊右下角坐標作為終點坐標,從而獲得整個文本區(qū)的粗略坐標并框出來。因此非常依賴分類結(jié)果,并且若第一幅或最后一幅圖像塊分類錯誤將導致最終文本區(qū)坐標誤差較大。為解決由于個別圖像塊分類錯誤導致分割結(jié)果較差的問題,結(jié)合圖片分塊后其文本區(qū)圖像塊連續(xù)的的特點,參考圖塊分類結(jié)果附近的兩幅圖塊分類結(jié)果,只有連續(xù)3 個圖像塊分類為文本區(qū)才認定為文本區(qū)。這樣基本解決了由于個別圖像塊分類錯誤導致最終版面分割結(jié)果誤差較大的問題,從而獲得文本區(qū)的粗略坐標,版面粗略分割結(jié)果如圖2。
圖2 粗略版面分割結(jié)果圖
由于獲得粗略版面分割結(jié)果既有文本區(qū)又有非文本區(qū)的圖塊通常分類為非文本區(qū),因此粗略文本區(qū)坐標通常小于實際文本區(qū)坐標,為使版面分割結(jié)果更加精確,利用投影法結(jié)合古籍圖片特點來獲得更精確文本區(qū)坐標,該類型古籍文本區(qū)邊框較明顯,合理二值化[15]。后邊框位置一般均為黑像素,因此邊框位置投影后的投影值通常都是最大的。根據(jù)這個特點結(jié)合上文得到的粗略文本區(qū)坐標,在一定范圍內(nèi)投影便可獲得精確文本區(qū)坐標,其流程圖如圖3。具體如下:
圖3 基于投影法的精確版面分割結(jié)果獲取流程圖
ⅰ將古籍圖像灰度化,得到灰度圖;
ⅱ將灰度圖二值化,得到二值化圖;
ⅲ對粗略文本區(qū)坐標左邊框坐標到該坐標左側(cè)兩幅圖塊即300 像素的位置進行垂直投影,將投影值最大的坐標作為文本區(qū)精確左坐標;
ⅳ對粗略文本區(qū)坐標上邊框坐標到該坐標上方一幅幅圖塊即150 像素的位置進行水平投影,將投影值最大的坐標作為文本區(qū)精確上坐標;
ⅴ對粗略文本區(qū)坐標右邊框坐標到該坐標右側(cè)兩幅圖塊即300 像素的位置進行垂直投影,將投影值最大的坐標作為文本區(qū)精確右坐標;
ⅵ對粗略文本區(qū)坐標下邊框坐標到該坐標下方一幅幅圖塊即150 像素的位置進行水平投影,將投影值最大的坐標作為文本區(qū)精確下坐標;
ⅶ以上述四個坐標作為文本區(qū)精確坐標對古籍圖像進行版面分割,得到精確版面分割結(jié)果。
由于圖像區(qū)也存在邊框,若投影范圍過大,投影值最大的位置將會是圖像區(qū)邊框位置。因此左右投影范圍在兩幅圖像塊大小較好,上下范圍在一幅圖像塊大小較好。
本文采用SVM[16,17]對圖像塊分類得到粗略版面分割結(jié)果,再結(jié)合投影法得到古籍精確版面分割結(jié)果,分割效果較好,精確版面分割結(jié)果如圖4。
圖4 版面精確分割圖
本文對不同核函數(shù)在訓練集和測試集上的正確率及召回率進行測試。經(jīng)測試,高斯核函數(shù)具有最高的正確率及召回率,因此本文采用高斯核函數(shù)。
本文對34 幅古籍藏文圖片進行了測試,34 幅圖片切分后共有13 283 幅圖像塊,分類錯誤數(shù)為140 幅,圖像塊的分類正確率為99.79%。使用本文方法對這34 幅圖片進行版面分割,準確分割出文本區(qū)的共28 幅,因此分割準確率為82.35%。以上正確率均為圖塊識別正確數(shù)目與圖片切分數(shù)目比值,該結(jié)果仍然可以通過調(diào)整樣本集來改善正確率。
采用投影法[18,19]對版面分割結(jié)果進行改善后,一些圖像塊分類錯誤也不影響版面分割結(jié)果,魯棒性更強。
采用了分段投影法[20]進行版面分割的方式對同樣的34 幅做了測試,由于該方法解決中文文檔圖像的版面分割問題,而中文文檔與本文古籍圖像特點不同,因此對其作了一些改動來使其更適用于藏文古籍圖像的版面分割。該方法對圖像本身特點依賴較強,且閾值選取直接影響到整個分割結(jié)果,且不同的圖像閾值也不同。以人工框出文本區(qū)面積與算法框出文本區(qū)面積比值作為分割率,兩種方法分割率比較結(jié)果如表1 所示。可以看出本文提出的方法對該類別古籍版面分割效果比多段投影法好。
表1 不同方法實驗結(jié)果
本文提出了一種基于SVM 分類的版面分割方法,首先將圖像濾波,然后切分為圖像塊,對這些圖像塊提取特征后訓練SVM,然后用SVM 對待分割圖像中的圖像塊進行分類,根據(jù)分類結(jié)果得到粗略版面分割結(jié)果,在粗略版面分割結(jié)果的基礎上結(jié)合投影法獲得精確版面分割結(jié)果。對該類型的古籍圖像塊分類正確率較高。