王秀友 任方針 劉華明 時如夢 王勝波
摘 要:古籍文檔圖像版面分割是古籍數(shù)字化流程中至關重要的一步,藏文古籍文檔版面分割是后續(xù)藏文版面分析等工作的基礎。針對藏文古籍文檔版面分割問題,提出了基于分段投影法的藏文古籍文檔圖像版面分割方法,該方法采用分段投影法,利用古籍版面結(jié)構(gòu)與各分段投影值之間的聯(lián)系,通過兩次分段多次投影得出古籍文檔圖像版面分割結(jié)果。實驗結(jié)果表明,該方法取得了較好的古籍文檔版面分割結(jié)果,為藏文古籍圖像的版面分割提供了一種可以借鑒的思路。
關鍵詞:版面分割;分段投影;藏文古籍;版面分析;投影法
中圖分類號:TP391.4? 文獻標識碼:A? 文章編號:1673-260X(2021)08-0038-05
0 引言
藏族作為我國56個民族之一,其文化是我國文化的重要組成部分,而藏文古籍作為承載藏族文化的載體,對于藏族文化的傳承至關重要,因此對藏文古籍保護的研究較有意義,當前古籍數(shù)字化保護已經(jīng)成為了主要的古籍保護方式,古籍圖像示例如圖1所示。古籍數(shù)字化通常包括古籍拍照或掃描、古籍圖像版面分割、古籍圖像版面描述、古籍圖像內(nèi)容識別等步驟,古籍版面分割作為古籍數(shù)字化中的重要步驟,對古籍版面分割的研究是很有必要的。
版面分割是古籍數(shù)字化中關鍵的一步,是后續(xù)操作的基礎,在版面分割方面也有不少研究。在過去的幾十年中,國內(nèi)外的研究者針對印刷或手寫的古籍文獻提出了許多不同的版面分析方法。張利[1]等利用游程平滑算法(RLSA)對英文文檔進行版面分割,提出了基于游程平滑算法(RLSA)的方法對英文文檔進行版面分割,該方法首先使用游程平滑算法將版面分成一些小區(qū)域,然后對這些區(qū)域進行連通元素分類與合并,最終達到版面分割的目標。于明[2]等改進了傳統(tǒng)基于連通域的版面分析方法,對文本圖像進行單個字體的區(qū)域擴充,使后續(xù)的連通間距統(tǒng)計更為準確和方便,再通過連通間距的統(tǒng)計對圖像進行模糊整合,進行文本圖像的連通區(qū)域分割,效果更好。Chen Kai等[3-5]于2014至2017年間分別提出了基于顏色和紋理特征的歷史手寫文檔圖像頁面分割方法、基于卷積自編碼的歷史文檔圖像頁面分割方法、基于無監(jiān)督特征學習超像素分類的歷史文檔圖像頁面分割方法,在歷史文檔頁面分割上取得了不錯的效果,降低了復雜度且提升了分析效果。Strouthopoulos[6]提出了一種基于神經(jīng)網(wǎng)絡的文獻圖像文本區(qū)域識別與分析方法,該方法首先使用掩膜進行運算,提取各個區(qū)域的紋理信息,再使用神經(jīng)網(wǎng)絡結(jié)合這些降維后的特征對這些區(qū)域進行分類。魏傳義[7]提出一種分列投影的版面分割算法。該方法繼承了投影法本身計算速度快的特點,同時還可以避免圖像弧度對版面分割的影響。
在藏文古籍版面分割方面的研究相對其他文檔的少一些,Huaming Liu[8]等提出一種基于邊界信息的藏文歷史文獻的版面分析方法,該方法在藏文古籍版面分析方面取得了較好的結(jié)果。張西群等[9,10]介紹了一種基于卷積降噪自編碼器的藏文歷史古籍版面分析方法。該方法能夠?qū)Σ匚臍v史文獻的不同版面元素進行有效的分離,但其結(jié)果比較依賴聚類結(jié)果。
但當前的處理思路都較復雜,而投影法是一種較易實現(xiàn)且算法簡單的方法,對于本文所研究的如圖1所示的藏文古籍文檔圖像,古籍圖像的投影值與版面結(jié)構(gòu)之間的聯(lián)系非常容易提取,由此本文提出了基于分段投影法的藏文古籍文檔圖像版面分割方法。
1 基于分段投影法的藏文古籍版面分割
本文采用分段投影的方式,利用各分段投影值與圖像版面之間的聯(lián)系達到圖像版面分割的目標,本質(zhì)上還是投影的方法,因此對投影法做一個基本的介紹。
1.1 投影法
投影法是根據(jù)圖像在一些方向上的投影分布特征來進行檢測,這種方法在本質(zhì)上是一種統(tǒng)計方法,投影法的基本思想是對文本圖像水平方向和垂直方向分別進行掃描,根據(jù)投影圖的特征來找出所需信息。標準的投影法是從全局出發(fā),將整個文本圖像進行水平和豎直投影,通過投影輪廓圖來劃分區(qū)域,而本章經(jīng)過對古籍圖像及其二值化后的圖像的分析,標準的投影法所得到的投影值與版面結(jié)構(gòu)之間聯(lián)系不易提取,若直接投影,無法根據(jù)投影圖直接獲取文本區(qū)坐標,而分段后其投影值與版面結(jié)構(gòu)便容易對應起來,利用這個特點,本章提出了基于分段投影法的藏文古籍版面分割方法。
1.2 基于分段投影法的藏文古籍版面分割
基于分段投影法的版面分割方法步驟如下:將整張圖像從垂直方向和水平方向進行分段,分段后根據(jù)文本區(qū)邊框所在分段投影值結(jié)合圖像先驗知識來確定版面結(jié)構(gòu),基于分段投影法的版面分割流程圖如圖2所示。首先進行圖像預處理,得到圖像二值化圖,然后進行垂直分段,根據(jù)垂直分段內(nèi)與版面結(jié)構(gòu)對應的投影值得到文本區(qū)及圖像區(qū)左右坐標,再進行水平分段,根據(jù)水平投影值結(jié)合圖像版面特點得到文本區(qū)及圖像區(qū)下坐標,最后,根據(jù)圖像區(qū)在對應分段內(nèi)的投影值得到文本區(qū)上坐標,從而得到古籍圖像版面分割結(jié)果。
1.2.1 圖像預處理
由于本文是采用的是投影法,因此首先要對圖像進行灰度化及二值化,我們知道圖像是由很多個像素點組成的,而每個像素點的顏色都可以由RGB三個值來表達,圖像的灰度化處理就是通過計算使R=G=B,經(jīng)過灰度化處理后,圖像的顏色信息就被消除了,本文采取公式1對圖像進行灰度化,得到的灰度圖如圖3所示:
Gray=R0.3+G0.59+B0.11? (1)
得到灰度圖后便可以進行二值化,二值化的過程為:設定一個二值化閾值,將大于該閾值的像素點置為白像素并將小于該閾值的像素點置為黑像素,進而得到只有黑和白兩種顏色的二值化圖像。本文選擇
Niblack算法[11]對圖像進行二值化,二值化圖示例如圖4所示:
1.2.2 圖像垂直分段并投影
得到圖像二值化圖后,對圖像二值化圖及古籍版面結(jié)構(gòu)進行分析,從如圖4所示的二值化示例圖中可以看出,在文本區(qū)及圖像區(qū)都有較為明顯的邊框,而這些邊框均為黑像素,基于這種情況,若首先將圖像分段,再找出這些邊框位置所在分段進行投影,投影值最大的位置即為這些區(qū)域邊框位置,從而得到圖像版面結(jié)構(gòu)。
首先進行垂直分段并投影:通過對圖像的分析,圖像文本區(qū)垂直方向上有左右邊框,通過對圖像文本區(qū)邊框位置的分析,將圖像垂直方向平均分為5段,則文本區(qū)左右邊框在第二段與第四段內(nèi),因此本文在垂直方向上將圖像分為5段并分別進行垂直投影,以垂直分段第二段與第四段投影值最大的坐標作為左右坐標。
示例圖像垂直投影如圖5所示,可以看到幾個明顯的波峰,根據(jù)對古籍圖像的分析,位于中間的兩個波峰是文本區(qū)邊框的位置,這兩個波峰可以大致將圖像的文本區(qū)左右范圍表示出來。根據(jù)上面分析可知將圖像垂直平均分為5段后文本區(qū)左邊框?qū)⒃诘诙沃?,此時第二段垂直投影值最大的坐標便可以作為文本區(qū)左坐標,同樣,文本區(qū)右邊框?qū)⒃诘谒亩沃?,第四段投影值最大的坐標便可以作為文本區(qū)右坐標。
垂直投影獲取文本區(qū)左右坐標步驟為:
(1)圖像預處理;
(2)將圖像從垂直方向平均分為5段,對每一段進行垂直投影;
(3)將垂直分段第二段投影值最大的坐標記錄下來,將該坐標記為文本區(qū)左坐標;
(4)將垂直分段第四段投影值最大的坐標記錄下來,將該坐標記為文本區(qū)右坐標。
1.2.3 圖像水平分段并投影
水平投影獲取文本區(qū)上下坐標的思路與垂直投影獲取文本區(qū)左右坐標的思路類似,目標是找出文本區(qū)的上下坐標,將圖像從水平方向平均分為3段,根據(jù)圖像特點文本區(qū)上邊框位于水平方向第1段,下邊框位于水平方向第3段,示例圖像水平投影如圖6所示,將圖像從水平方向分為3段后,文本區(qū)上坐標將位于第1段,文本區(qū)下坐標將位于第3段,而此時若延續(xù)分段內(nèi)將投影值最大坐標作為文本區(qū)坐標的思路,得出的上邊框坐標將會出現(xiàn)較多錯誤的情況,從而導致版面分割結(jié)果不準確,這是因為一部分圖像的文本區(qū)上邊框并不平整,因此在該分段內(nèi)投影值最大的并不是文本區(qū)上邊框位置,因此對于文本區(qū)上下坐標的獲取需要轉(zhuǎn)變方式。通過對圖像特點的分析,在文本區(qū)上邊框與文字之間有一段空隙,圖像分段后,在水平第一段中,這個空隙的水平投影值通常是最小的,將該位置作為文本區(qū)上坐標,同理,將水平第三段投影值最小的位置作為文本區(qū)下坐標,因此將水平投影第一段最小值位置作為文本區(qū)上坐標,將水平投影第三段最小值位置作為下坐標,此時獲取的文本區(qū)坐標通常與實際文本區(qū)相近。
水平分段投影獲取文本區(qū)上下坐標步驟為:
(1)圖像預處理;
(2)將圖像從水平方向平均分為3段,對每一段進行水平投影;
(3)將水平分段第一段即圖中上三分之一段中投影值最小的坐標記錄下來,將該坐標記為文本區(qū)上坐標;
(4)將水平分段第三段即圖中下三分之一段中投影值最小的坐標記錄下來,將該坐標記為文本區(qū)下坐標。
經(jīng)過上述兩次分段多次投影根據(jù)投影值獲得文本區(qū)坐標的操作后便可以得到古籍版面分割結(jié)果。分段投影法版面分割結(jié)果如圖7所示:
2 改進的分段投影法
在使用上述分段投影法進行藏文古籍版面分割的過程中,發(fā)現(xiàn)文本區(qū)左右坐標的獲取通常比較準確,而有一部分上下坐標不準確,針對這種情況,通過對錯誤案例的分析,對上文中的分段投影法進行了兩次改進。
2.1 調(diào)整水平投影范圍的分段投影法
在使用分段投影法進行版面分割的過程中,出現(xiàn)了如圖8所示的錯誤案例,通過這種錯誤案例的二值化圖的分析,本文認為是由于古籍圖像區(qū)的投影值對最終的版面分割結(jié)果造成了影響,那么若將圖像區(qū)在投影時排除在外,便可以避免這種情況,即不再受圖像區(qū)投影值的影響。由此,本文提出了第一個改進措施——調(diào)整水平投影的范圍。
改進的措施是針對1.3節(jié)中水平分段并投影步驟中的第3步和第4步,原本方案中是將圖像水平分為3段后從左至右全部投影,因此圖像區(qū)投影值會對最終版面分割結(jié)果造成影響。由于在1.2節(jié)中已經(jīng)獲取了文本區(qū)的左右坐標,因此,現(xiàn)在將水平投影第三段的左右投影范圍調(diào)整為從文本區(qū)左坐標到文本區(qū)右坐標,這樣便排除了圖像區(qū)投影值對最終版面分割結(jié)果的影響。改變投影范圍后的投影圖如圖9所示,經(jīng)過第一次改進后如圖8所示的錯誤示例版面分割結(jié)果圖如圖10所示。
2.2 圖像區(qū)上坐標替代文本區(qū)上坐標的分段投影法
在第一次改進后仍有如圖11所示版面分割錯誤的情況,發(fā)現(xiàn)錯誤都是由于上坐標不準確導致的,對圖像二值化圖及其投影圖進行分析,發(fā)現(xiàn)出現(xiàn)這種情況的原因是本文獲取文本區(qū)上坐標的方式是將水平分段第一段內(nèi)的投影值最小的位置作為文本區(qū)上坐標,利用的是在文本區(qū)邊框與藏文文字之間通常由間隙,但從圖11中可以看出,由于藏文文字的特點,有一部分藏文文字兩部分是分離的,一個字的上下兩部分之間有間隙,而恰好這部分文字又在第一段中,此時水平第一段內(nèi)的投影值最小的位置便不是文本區(qū)上邊框的位置,便會出現(xiàn)版面分割不準確的情況,如圖11的上邊框位置的藏文文字便是這種情況。如圖11所示版面分割錯誤原因是藏文文字本身特點造成的,且通常只有上邊框坐標不準確。針對這種情況,本章對分段投影法提出了第二次改進,既然是文字本身特點造成,圖像區(qū)上坐標與文本區(qū)上坐標通常是一致的,并且圖像區(qū)上坐標的獲取更容易。因此本文針對分段投影法的第二次改進便是通過圖像區(qū)上坐標來替代文本區(qū)上坐標。
兩次調(diào)整后投影圖如圖12所示,兩次改進具體步驟如下:
(1)在1.2.2節(jié),已經(jīng)進行了垂直投影,而圖像區(qū)左坐標在垂直分段第一段內(nèi),將垂直分段第一段內(nèi)投影值最大的坐標記錄下來,作為圖像區(qū)左坐標;
(2)將垂直分段第五段內(nèi)投影值最大的坐標記錄下來,作為圖像區(qū)右坐標;
(3)將水平第一段投影范圍調(diào)整為從圖像區(qū)左坐標到文本區(qū)左坐標,將該投影范圍內(nèi)投影值最小的作為文本區(qū)上坐標,選擇投影值最小的位置作為上坐標的原因是通過對二值化圖像的分析,發(fā)現(xiàn)圖像區(qū)邊框位置通常會有一段空白區(qū)域;
(4)將水平第三段投影范圍調(diào)整為文本區(qū)左坐標到文本區(qū)右坐標,將投影范圍內(nèi)投影值最小的作為文本區(qū)下坐標。
本章改進均是針對1.2.3節(jié)的第3和第4兩個步驟所做的改進,其他的分割步驟不需做改動。
3 實驗結(jié)果與分析
本文對34幅古籍藏文圖片進行了測試,改進分段投影法后正確率結(jié)果如表1所示。
本文采用了分列投影法[12]進行版面分割的方式對同樣的34幅做了測試,由于該方法提出是解決中文文檔圖像的版面分割問題,而中文文檔與本文古籍圖像特點不同,因此對其作了一些改動來使其更適用于本文藏文古籍圖像的版面分割,使用該方法對同樣的34幅圖像進行版面分割,準確分割出文本區(qū)的共有26幅,因此分割準確率為78.82%,該方法對圖像本身特點依賴較強,且閾值選取直接影響到整個分割結(jié)果,且不同的圖像閾值也不同。兩種方法分割率比較結(jié)果如表2所示,可以看出本文對該類別古籍版面分割效果比文獻[12]有更高的分割正確率。
本文提出的分段投影法取得了較高的版面分割正確率,由于分段投影法是采用投影的方法,因此對二值化的結(jié)果比較依賴,二值化結(jié)果直接影響版面分割的結(jié)果,但仍具有算法簡單等優(yōu)點。除此之外,這種方法是利用圖像本身的特點針對性的找出文本區(qū)坐標,極度依賴先驗知識,存在局限性。應用場景較少,但該思路可以借鑒,可以根據(jù)不同圖像本身的特征去設計分段及投影方式,且分段可以自己把控,可以不平均分段,將先驗知識結(jié)合設計分段,最終達到獲取所需信息的目標,利用投影值特點得到結(jié)果。且分段投影法可以與其他方法結(jié)合。
4 結(jié)束語
本文提出了一種基于分段投影法的藏文古籍版面分割方法,首先將圖像分段,對每一個分段進行投影,根據(jù)投影值與古籍圖像版面結(jié)構(gòu)之間的聯(lián)系來得出版面分割結(jié)果。該方法利用圖像先驗知識結(jié)合投影法得出古籍版面分割結(jié)果,對其他類型古籍文檔的版面分割具有借鑒意義。實驗結(jié)果表明該方法對該類別藏文古籍圖像能夠很好的分割藏文區(qū)域,但該方法極度依賴先驗知識,通用性較弱,且對二值化結(jié)果比較依賴。
參考文獻:
〔1〕張利,朱穎,吳國威.基于游程平滑算法的英文版面分割[J].電子學報,1999,11(07):3-5.
〔2〕于明,郭僉,王棟壯,于洋.改進的基于連通域的版面分割方法[J].計算機工程與應用,2013,49(17):195-198.
〔3〕Chen Kai, Wei Hao, Hennebert Jean, et al. Page Segmentation for Historical Handwritten Document Images Using Color and Texture Features[C]//14th International Conference on Frontiers in Handwriting Recognition, 2014.
〔4〕Chen Kai, Seuret Mathias, Liwicki Marcus. Page Segmentation of Historical Document Images with Convolutional Autoencoders[C]//13th IAPR International Conference on Document Analysis and Recognition, 2015.
〔5〕Chen Kai, Liu Chenglin, Seuret Mathias, et al. Page Segmentation for Historical D ocument Images Based on Superpixel Classification with Unsupervised Feature Learning[C]//12th IAPR International Workshop on Document Analysis Systems, 2016.
〔6〕Strouthopoulos C, Papamarkos N. Text identification for document image analysis using a neural network[J]. Image & Vision Computing, 1998, 16(12–13):879-896.
〔7〕魏傳義.文本圖像版面分析關鍵技術研究[D].杭州電子科技大學,2016.
〔8〕Huaming Liu, Xuehui Bi, Weilan Wang. Layout Analysis of Historical Tibetan Documents[C]//2nd International Conference on Artificial Intelligence and Big Data, 2019.
〔9〕張西群,馬龍龍,段立娟,劉澤宇,吳健.基于卷積降噪自編碼器的藏文歷史古籍版面分析方法[J].中文信息學報,2018,32(07):67-73+81.
〔10〕張西群.面向藏文歷史古籍的版面分割方法研究[D].北京工業(yè)大學,2018.
〔11〕Sang Nong, Li Heng. Koneledge-based adaptive thresholding segmentation of digital? subtraction angiography amages[J]. Image and Vision Computing, 2007, 25: 1263-1270.
〔12〕魏傳義,陳勤,張旻.基于投影的文本圖像版面分割算法研究[J].現(xiàn)代計算機(專業(yè)版),2016,51(10):33-38.