陳善雄 韓旭 林小渝 劉云 王明貴
(1.西南大學計算機與信息科學學院,重慶400715;2.貴州工程應用技術學院彝學研究院,貴州畢節(jié)551700)
彝族是中國第六大少數(shù)民族,在長期的發(fā)展中逐漸形成了本民族的文化傳統(tǒng)。彝文是彝族人民相互交流思想感情的一種語言文字符號,而彝文古籍是用古彝文書寫的關于彝族歷史、宗教、醫(yī)學、哲學、農(nóng)耕、天文等各個方面的文獻資料。彝文文獻載體主要有巖書、布書、皮書、紙書、瓦書、木犢、竹簡、骨刻、木刻、金石銘刻、印章等,但由于歷史久遠都存在不同程度的損毀,整理和保護這些古籍文獻是傳承和發(fā)揚彝族文化的重要手段。但目前大量的彝文古籍研究還只停留在掃描、拷貝以及人工翻譯的階段。隨著這些古籍的不斷消失,給古彝文的數(shù)字化保護提出了迫切需求。彝文識別的研究能夠使一部分彝文古籍重新煥發(fā)生機,為彝文的研究者和感興趣的學者提供快速閱讀彝文文獻的途徑,并促進對彝文的保護和傳承,因此對彝文識別的研究十分必要。而對彝文古籍進行識別的前提是對復雜版面結構的彝文古籍中的字符進行精準的檢測,只有準確定位這些古老字符在載體中的位置,才能進一步完成識別。
目前,對于復雜場景下的中英文字符檢測已經(jīng)有了較多的研究,大多數(shù)采用基于深度學習的方法對古籍或場景文字進行檢測和識別。然而,這些方法對具有復雜噪聲的彝文古籍圖片并不完全適用。首先,基于深度學習的方法需要依賴大量的標注數(shù)據(jù)進行訓練,在中國只有極少數(shù)的人認識古彝文,針對古彝文字符的標注工作十分困難。其次,與手寫體漢字的檢測相比,從復雜噪聲背景下的彝文古籍中對古彝文文本進行檢測將面臨圖像模糊、污染嚴重、書寫格式凌亂等諸多問題,同時還存在很多字符粘連的情況。因此,需要采用一個更加有效的方法對彝文古籍字符進行檢測。
近幾年,也有很多關于少數(shù)民族語言文字檢測和識別的研究,但大多僅停留在研究規(guī)范的印刷體字符的分割與識別層面,這主要是由于手寫體相較印刷體而言,書寫風格較為隨意,而且采樣和標注工作耗時費力,再加上一些古籍圖片由于破損和嚴重的噪聲,給采樣工作帶來了很大的困難。在之前的研究中,提出了一些針對少數(shù)民族文字的檢測方法。Jia等[1]通過直接對彝文字庫中的字符進行切分來完成初期的采樣工作,這種方法較為簡單且快速,但是得到的都是較為規(guī)范的印刷體字符,后期識別的難度相比手寫體字符來說也較為容易。Su等[2]對蒙文古籍首先用OTSU算法進行二值化處理,然后用圖像的垂直投影信息對圖像進行文本列定位,最后用連通分量分析法得到單個的蒙文字符。但是該研究涉及到的蒙文古籍版面排列較為整齊,圖像的污染及噪聲也較少。哈力木拉提等[3]用投影法對維文掃描圖片進行行列切分和基線檢測后,再設定平均值閾值對粘連的維文字符進行二次分割,該方法對書面整潔且書寫規(guī)范的維文字符進行了較為準確的分割。靳簡明等[4]綜合水平投影和連通分量的方法實現(xiàn)維文文本的文字行切分和單字切分,并利用規(guī)則合并過切割字符,使維文字符切割的準確率達到99%以上。Shi等[5]用基于連通分量的方法對書寫在骨片上的甲骨文進行了檢測和分割。此外,也有一些針對漢字和拉丁文字的手寫體文檔中文本檢測的研究,Li等[6]通過基于條件隨機場的多層感知器和卷積神經(jīng)網(wǎng)絡模型,對手寫體漢字文檔中的文本區(qū)域和非文本區(qū)域進行分類,取得了較理想的分類效果。Xu等[7]采用一種多任務的全卷積神經(jīng)網(wǎng)絡對拉丁文手稿文檔進行了有效的文本行檢測和基線檢測。由此可見,以上研究都是把字符分割作為文字數(shù)字化的前提,因此,如何在復雜噪聲背景下準確地定位和提取古彝文字符是古彝文識別和彝文古籍數(shù)字化等工作的基礎。本文提出了一種在復雜噪聲背景下的彝文古籍中彝文字符的定位和分割方法。該方法首先對圖像進行預處理,將前景和背景像素進行分離。在此過程中,關鍵是對古籍圖像噪聲的處理。由于古籍的破損和污染,圖像中有大量的噪聲,因此對多張彝文古籍圖片進行處理并對比了多種預處理方法;在經(jīng)過圖像的預處理之后,就得到了噪聲較少的二值圖像,然后用基于啟發(fā)式規(guī)則的方法去除一些非文本區(qū)域;最后,用 MSER(最大極值穩(wěn)定區(qū)域)和 CNN(卷積神經(jīng)網(wǎng)絡)的方法對古彝文單個字符進行檢測。
彝文古籍大都歷史悠久,受到各種環(huán)境的影響,存在泛黃、褶皺、污跡等情況,圖像濾波可以在保留圖像特征細節(jié)的情況下對目標圖像的噪聲進行抑制,為后續(xù)的二值化處理奠定基礎,同時也是古籍文獻重新煥發(fā)活力的重要措施,有利于古籍文獻的保存、傳播。通過對大量彝文古籍圖片進行去噪測試并分析,綜合去噪能力與效率,最終采用非局部均值濾波對原始圖像進行處理,然后采用一種改進的局部自適應閾值二值化的方法對上一步處理的圖像進行二值化。
1.1.1 非局部均值濾波
非局部均值濾波[8]考慮到了圖像的自相似性,它將相似像素定義為具有相同鄰域模式的像素,利用像素周圍固定大小的窗口內的信息表示該像素的特征,比利用單個像素本身的信息得到的相似性信息更加可靠。
給定一張噪聲圖像u(u={u(i )i為圖像內任意像素點}),對于像素i,經(jīng)過非局部均值濾波以后的像素值為L(i),它的值是由圖像中每個像素值加權平均而求得:
權重集合 {w(i,j)}j中的每一個權重的值取決于像素i和像素j的相似性,并滿足條件0≤w(i,j)≤1且w(i,j)=1。
像素i和像素j的相似性由灰度向量v(Ni)和v(Nj)的相似性來衡量,這里的Nk指的是以像素k為中心的固定大小的方形鄰域,此相似性通過高斯加權的歐幾里德距離來計算,即‖v(Ni)-v(Nj)‖。其中下標 “2”表示向量的第2范式,即歐幾里德距離;a>0,是高斯核的標準差。在圖像中添加高斯白噪聲可以對鄰域之間的紋理相似性進行有效的比較,在本算法中,添加高斯白噪聲之后含噪鄰域間的歐幾里德距離滿足公式 (2):
式中:u(·)和v(·)分別指原始圖像的灰度向量和加噪圖像的灰度向量;σ2為白噪聲方差;E(·)表示數(shù)學期望。在此公式中,歐幾里德距離的期望值表示了像素之間的相似程度,因此,在加噪圖像中,和像素i相似性最大的像素也是原始圖像中和像素i相似性最大的像素。那么,權重系數(shù)可定義為
其中,Z(i)是一個標準化系數(shù),
這里的參數(shù)h控制著指數(shù)函數(shù)的衰減。在非局部均值濾波的實際應用中,可以將相似性鄰域窗口限定在一個比它更大的搜索窗口中。在所有實驗中,將搜索窗口設定為21像素×21像素,將相似性鄰域窗口設定為7像素×7像素,因為7像素×7像素的相似性窗口既可以消除一定的噪聲,也可以較好地保留圖像中的細節(jié)。經(jīng)過實驗分析發(fā)現(xiàn),將參數(shù)h取為12×σ能夠得到較好的去噪效果。圖1(a)和圖1(b)分別展示了古籍原始掃描圖像和經(jīng)過非局部均值濾波處理以后的圖像。
圖1 古籍圖像處理前后效果Fig.1 Image effect of ancient books before and after processing
為了采用最優(yōu)的去噪算法,將一些傳統(tǒng)的去噪算法如中值濾波、高斯濾波、最小值濾波、最大值濾波同非局部均值濾波的去噪性能進行了對比。本文采用峰值信噪比 (PSNR)作為衡量的標準,PSNR基于平均平方和均方誤差 (MSE)計算去噪后的圖像和真實圖像的重構偏差,對噪聲敏感。因為只要圖像中的某個像素值發(fā)生了變化,不管是朝著哪個方向變化,也不管這種改變是否能夠被主觀觀察到,都會改變PSNR。PSNR的取值范圍不固定,最大值與圖像分辨率有關,其值越高表示去除的噪聲越多。
PSNR的具體計算方式如下:
式中:l為色彩深度,表示一個像素點占用的2機制位數(shù),常取l=8;u(x,y)為原始圖像在(x,y)處所對應的灰度值;^u(x,y)為重建圖像在(x,y)處所對應灰度值;C和D分別為圖像的寬度值和高度值。
將中值濾波、高斯濾波、最小值濾波、最大值濾波以及本文所用的非局部均值濾波對多張古籍圖像進行去噪處理,最終選取了52張具有代表性的古籍圖片,測試了它們通過不同去噪算法處理后的平均PSNR值,以此來判斷去噪性能的優(yōu)劣。通過對比分析發(fā)現(xiàn),經(jīng)非局部均值濾波處理后的古籍圖片和其他傳統(tǒng)去噪方法的相比,取得了最高的PSNR值,能夠最大限度去除古籍圖像中的噪聲,為后續(xù)的二值化處理提供最有利的條件。
1.1.2 局部自適應閾值二值化
為了進一步消除圖像中的污跡,凸顯文本區(qū)域的輪廓,需要對上一步經(jīng)非局部均值濾波處理后的圖像進行二值化處理。本文提出一種改進的局部自適應二值化算法對圖像進行二值化處理。由于古籍保存時間較久,受到光照不均和嚴重污染等因素的影響,使得傳統(tǒng)的全局閾值二值化方法無法較好地對古籍圖像進行二值化分割,因此要用局部自適應閾值二值化的方法對灰度圖像進行二值化分割。本文在傳統(tǒng)的局部自適應閾值Bernsen算法[9]的基礎上加入了高斯平滑濾波。引入高斯濾波的原因是真實圖像在空間內的像素是緩慢變化的,因此臨近點的像素變化不是很明顯,但是任意兩個點之間可能會有很大的像素差值。換言之,在空間上噪點之間沒有很大的關聯(lián)。正是由于這個原因,高斯濾波可以在保留中心像素信息的條件下減少噪聲,為后續(xù)的文本分割操作濾除噪聲。
設x、y分別為圖像的水平坐標和垂直坐標,u(x,y)表示圖像在坐標(x,y)處的灰度值,N(x,y)表示以坐標(x,y)為中心,大小為(2f+1)×(2f+1)的方形鄰域,其中f是一個大于0的正整數(shù),它可以使得方形鄰域的邊長為一個奇數(shù)。ˉu(x,y)表示在(x,y)處經(jīng)高斯濾波后的像素灰度值,η為平滑尺度,ˉx和ˉy為鄰域窗口內的位置參數(shù),b(x,y)表示在(x,y)處二值化處理以后的灰度值,改進算法的具體描述如下。
輸入:圖像灰度值 u(x,y)(0≤u(x,y)≤255);
輸出:二值化處理以后的灰度值 b(x,y)(b(x,y)=0∨b(x,y)=255)。
步驟1 計算(x,y)處的閾值T1(x,y):
步驟2 計算(x,y)處在(2f+1)×(2f+1)窗口內經(jīng)高斯濾波后的像素灰度值ˉu(x,y):
步驟3 計算濾波后的閾值T2(x,y):
步驟4 設α∈(0,1),計算(x,y)處二值化處理以后的灰度值:
參數(shù)α為閾值 T1(x,y)和 T2(x,y)的權重控制系數(shù),當α的值為0時,算法為傳統(tǒng)的Bernsen二值化算法,當0<α≤1時,算法為改進以后的算法。f的取值影響著算法的運行速度與偽影的產(chǎn)生規(guī)模,f的取值越大,算法的運行時間越長,產(chǎn)生的偽影越少;反之亦然。參數(shù)ˉx和ˉy控制著運算窗口的大小,它是影響B(tài)ernsen算法運行時間的重要參數(shù),假定ˉx為水平方向的長度,ˉy為垂直方向的長度。如果ˉx,ˉy≠0,那么算法是基于網(wǎng)格式掃描;如果ˉx=0∨ˉy=0,那么算法是基于線掃描。盡管網(wǎng)格式掃描可以降低二值圖像的噪聲,但是這樣會產(chǎn)生更多的偽影,同時消耗更多的運行時間。由于線掃描僅僅需要從一個方向對圖像進行掃描,盡管會產(chǎn)生少量的噪聲,但是會消除掉大部分由于不均勻光照而產(chǎn)生的陰影,能夠更好地保留圖像中的細節(jié)以及字符的特征,二值化處理效果較網(wǎng)格式掃描更好。本文提出的改進算法就是在對灰度圖像進行線掃描的同時進行高斯平滑濾波。
在傳統(tǒng)的Bernsen線掃描二值化算法中,參數(shù)ˉx和ˉy總有一個為0,因此相當于只有一個參數(shù),這個參數(shù)正是方形鄰域大小的控制參數(shù)f。f的值一般取決于圖像中目標信息所占像素的大小,經(jīng)過對古籍圖像的實驗分析,f的取值在圖像中字符的筆畫最小寬度和最大寬度之間時二值化處理效果較好。假定圖像中的目標區(qū)域為圖像中的文本區(qū)域,將f取不同的值后,會產(chǎn)生不同的二值化效果。如圖2所示,當f=1時,圖像會產(chǎn)生大量的偽影,當f=25時,會產(chǎn)生大量的噪聲,使得丟失掉部分文本區(qū)域的信息。在本例中,圖像中的目標信息為古籍中的字符,其最小的筆畫寬度為6,最大的筆畫寬度為13,因此,f的值取10較合適,這樣既不會丟失文本區(qū)域的關鍵特征,也不會消耗更多的算法運行時間。因此,在處理其他古籍圖像時,可以先通過基于筆畫寬度變換的方法 (SWT)[10]提取古籍中文字的平均筆畫寬度來設置本算法中f的值。
圖2 傳統(tǒng)Bernsen算法中f取不同值時的二值化效果對比Fig.2 Comparison of binarization when f takes different values in traditional Bernsen algorithm
參數(shù)α的取值決定了圖像中噪聲平滑和目標信息保留之間的平衡關系,調整α的值既可以使圖像能夠較好適應光照不均的情況,同時也能去除圖像中的噪聲。α的取值越大,濾波的效果越明顯,但同時會使圖像中的目標信息也被過濾;反之亦然。圖3展示了在本例圖片中當f=10時,α取不同的值對二值化效果的影響??梢钥闯觯敠恋闹等?.3時,不僅可以較好地保留圖像中文本區(qū)域的特征,又能去除圖像中的噪聲。
圖3 改進Bernsen算法中f=10條件下α取不同值時的二值化效果對比Fig.3 Comparison of binarization when α takes different values in improved Bernsen algorithm for f=10
為了在處理其他古籍圖像時能夠自適應地調整α的值,本算法通過計算圖像中面積較小的連通區(qū)域的數(shù)量來實現(xiàn)α參數(shù)的自適應調整。由圖3可以看出,當α的值過大或過小時,圖像中都會出現(xiàn)較多黑色的小噪點,而當α的值為最佳值時,黑色小噪點的數(shù)量最少。文中把特征滿足式 (10)的連通區(qū)域認定為噪點并計算其數(shù)量。其中S表示連通區(qū)域的面積,即在該連通區(qū)域內黑色像素點的個數(shù)。
圖4展示了在本例圖片中滿足條件的噪點的數(shù)量和α取值的變化關系,可以看出,當α取值最佳時,噪點的數(shù)量最少,因此可以通過這種方式自適應調整參數(shù)α的值。
圖4 α的取值與噪點數(shù)量的變化關系Fig.4 Relationship between the value of α and the number of noise points
經(jīng)過實驗分析可以看出,傳統(tǒng)的Bernsen二值化算法對光照不均的古籍圖像的二值化效果并不理想,但是文中改進的二值化算法能夠較好地適應圖像中光照不均的情況。
由前文分析可知,經(jīng)過預處理之后,圖像中仍然有很多非文本區(qū)域 (彝文古籍中的分割線、標點符號、圖畫裝飾等),因此,要想進一步對彝文字符進行定位和分割,還需針對這些非文本區(qū)域進行過濾。在文獻 [11]中,研究者用基于啟發(fā)式規(guī)則的方法對復雜背景下的圖像 (門牌、指示牌、廣告標等)中的非文本區(qū)域進行去除,取得了較理想的檢測準確率和召回率,本文通過一些啟發(fā)式規(guī)則對復雜噪聲背景下的彝文古籍掃描圖像中的非文本區(qū)域進行了有效的提取和消除,具體如下。
為了分析文本區(qū)域和非文本區(qū)域的連通區(qū)域特征,從32張具有代表性的古籍圖像中選擇了672個單字符文本區(qū)域和258個非文本區(qū)域,對它們的連通區(qū)域特征進行分析。本文主要從連通區(qū)域最小外接矩形的高度、寬度和縱橫比的特征對非文本區(qū)域進行去除,分析結果如圖5所示。
圖5 連通區(qū)域特征Fig.5 Characteristics of connected components
對于古籍圖片當中的分割線或圖片來說,它們的長度或寬度往往占了整個圖片長度或寬度的很大比重,本文將連通區(qū)域長度或寬度大于整張圖片長度或寬度五分之一的區(qū)域規(guī)定為非文本區(qū)域,同時,由圖5可以看出,大多數(shù)非文本區(qū)域的連通區(qū)域最小外接矩形的縱橫比小于0.1,因此將滿足以下特征的連通區(qū)域也認定為非文本區(qū)域:
式中,C、D分別表示連通區(qū)域最小外接矩形的寬度和高度。
測試結果表明,用該方法可以去除大多數(shù)古籍圖片中的非文本區(qū)域,如圖6所示,可以看到用本文的方法對非文本區(qū)域的去除具有較好的效果。
經(jīng)過前幾步的處理,有效地去除了古籍圖像中的大部分噪聲,實現(xiàn)了非文本區(qū)域的去除。接下來要對候選的文本區(qū)域進行單字符檢測。本文提出一種基于MSER[12]和CNN結合的方法對古籍圖像中的單個字符進行檢測,具體的實現(xiàn)步驟如下。
圖6 非文本區(qū)域去除效果Fig.6 Effect of separating text area from non-text area
步驟1 采用基于MSER的方法對文本區(qū)域進行檢測,MSER算法的具體實現(xiàn)過程如下:
(1)灰度區(qū)間 [0,255]內的256個不同閾值對灰度圖像進行二值化;令Qt表示二值化閾值t對應的二值圖像中的某一連通區(qū)域,當二值化閾值由t變成t+Δ和t-Δ(Δ為變化值)時,連通區(qū)域 Qt相應變成了 Qt+Δ和 Qt-Δ。
(2)計算閾值為t時的面積比q(t)= Qt+ΔQt-Δ/Qt,當Qt的面積隨二值化閾值t的變化而發(fā)生較小變化,即qt為局部極小值時,Qt為最大穩(wěn)定極值區(qū)域。其中Qt表示連通區(qū)域Qt的面積。 Qt+Δ-Qt-Δ表示Qt+Δ減去Qt-Δ后的剩余區(qū)域面積。
在進行MSER檢測的過程中有些大的矩形框會包含小的矩形框,因此要對這些區(qū)域進行合并,將小的矩形框去除。設連通區(qū)域1的參數(shù)為β1、1、δ1、ε1,連通區(qū)域 2 的參數(shù)為 β2、2、δ2、ε2,其中,和β分別表示連通區(qū)域最小外接矩形在y軸方向上的最小值和最大值,δ和ε分別表示連通區(qū)域最小外接矩形在x軸方向上的最小值和最大值,那么連通區(qū)域1包含連通區(qū)域2可以根據(jù)式 (12)進行判定:
通過以上步驟,對文本區(qū)域進行了初步的篩選,但是由圖7可以看出,檢測結果中仍然包含著一部分非文本區(qū)域。這些區(qū)域和文本區(qū)域有著相似的幾何特征,因此還需要進一步將這些非文本區(qū)域排除。
圖7 單字符初步檢測結果Fig.7 Preliminary detection result of single character
步驟2 為了能夠進一步區(qū)分文本區(qū)域和非文本區(qū)域,本文參考AlexNet[13]網(wǎng)絡設計了一個CNN的二元分類器,其結構如圖8所示,一共有兩個卷積層、兩個池化層,最后的全連接層是一個針對文本和非文本的二元分類器。首先輸入一張32像素×32像素的彩色圖像,然后再用16個3像素×3像素的卷積核提取輸入圖像的特征,進而得到一個32像素×32像素×16像素的卷積層,后用2像素×2像素最大池化的方法降低卷積層的數(shù)據(jù)維度,得到一個16像素×16像素×16像素的池化層,再用32個5像素×5像素的卷積核進一步提取更高層的特征,最后通過2像素×2像素最大池化的方法得到8像素×8像素×32像素的輸出。將這些輸出特征全部連接在一個全連接層,根據(jù)特征向量進行權重計算,輸出屬于兩個類別的概率,進而判斷輸入的圖像是否為文本區(qū)域。Adam作為優(yōu)化算法,學習率設定為0.001,學習率下降乘數(shù)因子設定為0.1,損失函數(shù)選擇交叉熵損失函數(shù)[14]。訓練樣本通過從原始圖像上裁剪獲得,其中正樣本為文本區(qū)域裁剪圖像,負樣本為非文本區(qū)域裁剪圖像。本研究選取了124張彝文古籍圖像,用來構建裁剪圖像數(shù)據(jù)集,如圖9(a)和9(b)所示,正樣本為8 471個文本區(qū)域裁剪圖像,負樣本為8359個非文本區(qū)域裁剪圖像。導入數(shù)據(jù)時,首先打亂順序,以8∶2的比例進行隨機劃分,分別作為訓練集和測試集,然后對輸入圖像采用均值分別為0.471、0.452、0.412,方差分別為0.282、0.267、0.231的參數(shù)對導入圖像進行標準化變換。
圖8 CNN網(wǎng)絡結構 (單位:像素)Fig.8 Network structure of CNN(Unit:pixel)
圖9 部分訓練樣本Fig.9 Partial training sample
裁剪樣本的大小和CNN預測的平均準確率變化情況如圖10所示,實驗結果表明,在訓練第20到30輪次的時候預測的平均準確率趨于穩(wěn)定,通過比較24像素 ×16像素、24像素 ×24像素、32像素×24像素、32像素×32像素、48像素×32像素幾種不同大小的裁剪樣本,本文最終選擇將32像素×32像素大小的裁剪樣本作為訓練數(shù)據(jù),同時將本文檢測算法得到的候選區(qū)域統(tǒng)一調整為32像素×32像素大小的圖像進行分類。
圖10 裁剪圖像大小與CNN預測平均準確率變化情況Fig.10 Change of cropped image size and average accuracy of CNN prediction
圖11為通過CNN分類以后得到的文本區(qū)域,由此可見,本文方法能夠對古籍中文本區(qū)域和非文本區(qū)域進行準確的分類。
圖11 最終檢測效果Fig.11 Final detection result
本文測試的古籍掃描圖片均由貴州省畢節(jié)市貴州工程應用技術學院彝學研究院提供,實驗從3052張掃描圖片中選取了最具古彝文書寫風格的53張背景復雜、噪聲較大、最具代表性的圖片,然后采用ICDAR2005年魯棒閱讀測評[15]定義的準確率和召回率來評測文本區(qū)域檢測的性能。本文實驗環(huán)境:Windows操作系統(tǒng) (Windows10企業(yè)版)、Intel(R)Core(TM)i7-7700處理器、3.60 GHz主頻、8GB內存、NVIDA GeForce GT710顯卡。
準確率定義為準確檢索到的文本框的數(shù)量與所有檢測到文本框數(shù)量的比值;召回率定義為準確檢索到的文本框的數(shù)量與需要被準確檢索的文本框數(shù)量的比值。假定準確檢索到的文本框的數(shù)量為m,所有檢測到文本框的數(shù)量為ma,需要被準確檢索的數(shù)量為mb,那么準確率p和召回率r可用以下公式表示:
然而,現(xiàn)實中檢測出的文本框和標準的文本框并不一定完全重合,ICDAR2005魯棒測評小組用一個匹配值來評估定位的準確性,m按照如下方式定義。
如圖12所示,根據(jù)ICDAR2005規(guī)定的標準,R1表示標準的文本框,R2表示參賽者所得到的文本框,則m的表達式如式 (14)所示,其中a表示相應矩形框的面積。
圖12 當兩矩形框重合時m的計算方式Fig.12 Formula mode of m when two rectangles overlap
實驗證明,本文提出的方法能夠較好地將文本區(qū)域和復雜背景進行分離,并在單字符檢測方面取得了較高的準確率和召回率,實驗中對文本檢測的結果如圖13所示。通過檢測結果可以發(fā)現(xiàn),本文提出的方法可將污染嚴重、噪聲較大的古籍圖片中的大多數(shù)字符進行較準確的檢測。
圖13 古籍文本檢測結果Fig.13 Detection result of ancient text
本文方法的測試結果如表1所示,將本文的方法分別同6種不同的傳統(tǒng)檢測方法和3種深度學習方法在總體性能上進行了對比。傳統(tǒng)方法分別是:只采用連通分量的方法、只采用傳統(tǒng)投影法、采用連通分量結合傳統(tǒng)的投影法、只采用MSER的方法、只采用筆畫寬度變換的方法 (SWT)和采用MSER結合SWT的方法[16]。深度學習的方法分別是:基于 Region CNN(R-CNN)[17]的方法、基于Fast R-CNN[18]的方法、基于 Faster R-CNN[19]的方法。這3種方法的訓練數(shù)據(jù)都選取之前用來構建裁剪數(shù)據(jù)集的124張彝文古籍圖像,并標注單個字符區(qū)域,訓練時將所有圖片的寬度歸一化為400個像素,高度按比例進行縮放。
表1 本文方法和其他傳統(tǒng)檢測方法在總體性能上的對比Table 1 Comparison of overall performance of the proposedmethod with other traditional methods
通過對比9種不同檢測方法的檢測結果數(shù)據(jù),可以發(fā)現(xiàn),基于傳統(tǒng)投影法的準確率和召回率較低,這主要是由于彝文古籍書寫版面雜亂,且有較多字符區(qū)域重疊的現(xiàn)象;而基于連通分量的檢測方法能夠較好地處理字符區(qū)域重疊的問題,但是對于圖文混排的圖像,還是不能取得較好的檢測效果;在將兩種傳統(tǒng)的方法融合以后,準確率和召回率得到了一定的提升,基于MSER和SWT結合的方法取得了較好的效果,但是由于古籍中很多非文本區(qū)域和文本區(qū)域具有相似的筆畫寬度,因此準確率反而有所下降;3種深度學習的方法在總體性能上優(yōu)于傳統(tǒng)方法,但由于目前標注的訓練樣本仍然較少,最終的檢測效果不太理想;而本文提出的方法可以較好地處理字符區(qū)域重疊和圖文混排的情況,在有限的標注數(shù)據(jù)上檢測的準確率和召回率取得了最好的結果。
同時,本文提出的方法在檢測其他古籍圖像中也具有一定的普適性,古漢字和古彝文具有相似的字體結構,如圖14所示,采用本文的方法對漢字佛經(jīng)圖像的字符檢測也取得了一定的效果。
圖14 漢字佛經(jīng)古籍檢測結果Fig.14 Detection results of ancient Chinese characters in Buddhist scriptures
本文實現(xiàn)了一種對復雜噪聲背景下彝文古籍掃描圖片進行預處理和文本檢測的方法。首先通過非局部均值濾波和改進的局部自適應二值化方法對原始圖像進行預處理,其次用啟發(fā)式規(guī)則方法過濾掉非文本區(qū)域,最后用基于MSER和CNN的方法對彝文單字符進行檢測。實驗結果表明,本文提出的方法同其他傳統(tǒng)的檢測方法相比可以取得較高的準確率和召回率。如何從更復雜的背景下更好地提高檢測性能、對彝文單字符的識別以及通過傳統(tǒng)檢測方法對古籍字符進行預標注,然后采用深度學習的方法進行訓練將是下一步進行的主要工作。