貢去卓么,才讓加,三知加
(1. 青海師范大學(xué)計(jì)算機(jī)學(xué)院,青海 西寧 810008;2. 青海省藏文信息處理與機(jī)器翻譯重點(diǎn)實(shí)驗(yàn)室,青海 西寧 810008;3. 青海省藏文信息處理工程技術(shù)研究中心,青海 西寧 810008)
古籍文檔為解釋人類的文化遺產(chǎn)提供了重要的歷史證據(jù)。藏文古籍文檔是中華民族寶貴的文化遺產(chǎn),采用數(shù)字化處理技術(shù)對(duì)藏文古籍文檔進(jìn)行保護(hù)和傳承具有重要的歷史意義。
近年來(lái),隨著計(jì)算機(jī)存儲(chǔ)技術(shù)的不斷進(jìn)步,人們?yōu)榱朔乐构偶臋n的物理副本受到損壞,許多文獻(xiàn)檔案機(jī)構(gòu)都投入了大量的人力物力來(lái)實(shí)現(xiàn)可訪問(wèn)的古籍文檔電子副本,早期古籍文檔的電子化存儲(chǔ)主要以掃描成像的形式保存于計(jì)算機(jī)等數(shù)字設(shè)備或存儲(chǔ)器中,并且對(duì)大量古籍文檔進(jìn)行手動(dòng)轉(zhuǎn)錄又是一項(xiàng)極其耗時(shí)且易出錯(cuò)的工作,同時(shí),這種掃描成像和人工轉(zhuǎn)錄的保存形式制約了古籍文檔的可編輯性、可檢索性和可復(fù)用性,因此利用交互式工具對(duì)古籍文檔進(jìn)行編輯、檢索和復(fù)用是目前急需解決的研究課題,國(guó)內(nèi)外很多研究者們提出了各種文檔版面分析的理論與方法[1-4],例如:國(guó)際模式識(shí)別協(xié)會(huì)(The International Association for Pattern Recognition,IAPR)從1991年開始,每?jī)赡陼?huì)組織一次國(guó)際文檔分析與識(shí)別會(huì)議(International Conference on Document Analysis and Recognition,ICDAR),也會(huì)組織以解決相關(guān)子問(wèn)題為主的比賽項(xiàng)目,其已經(jīng)成為評(píng)價(jià)和檢驗(yàn)文檔圖像分析與識(shí)別領(lǐng)域最新技術(shù)研究進(jìn)展的標(biāo)準(zhǔn),同時(shí)也極大地推動(dòng)了該領(lǐng)域的研究熱潮。
Philips等人針對(duì)西方古籍文檔,將過(guò)去二十年(1998-2018年)對(duì)古籍文檔數(shù)字化處理領(lǐng)域中的技術(shù)、工具和發(fā)展趨勢(shì)的演變進(jìn)行了詳細(xì)敘述[5],由此可知目前古籍文檔圖像分析工作主要集中在西方各類印刷文檔和手寫文檔上,提出的方法大多數(shù)是基于給定語(yǔ)言的印刷文檔或手寫文檔的版面布局特征,并不完全適用于藏文古籍文檔的分析,盡管近幾年研究人員開始針對(duì)藏文古籍文檔數(shù)字化處理的相關(guān)任務(wù)進(jìn)行了研究和探索[6-9],但這些研究仍處于初期階段,很多問(wèn)題亟待解決,同時(shí)也面臨著許多挑戰(zhàn),如圖1與圖2所示,由于原始文檔遭受老化和腐蝕等原因,藏文古籍文檔掃描圖像普遍存在文本模糊、滲墨、非文本區(qū)域模糊造成的版面布局復(fù)雜和無(wú)法檢測(cè)文本區(qū)域等問(wèn)題。綜上所述,藏文古籍文檔文本區(qū)域的檢測(cè)是一個(gè)具有挑戰(zhàn)性的任務(wù),并且與后續(xù)的文本行提取、字符分割和字符識(shí)別等文本自動(dòng)轉(zhuǎn)錄任務(wù)的處理效果直接相關(guān)。
圖1 藏文現(xiàn)代印刷版古籍文檔樣圖
圖2 藏文木刻版古籍文檔樣圖
針對(duì)藏文現(xiàn)代印刷版文檔版面分析的研究較多,而對(duì)藏文古籍文檔(木刻版)文檔版面分析的研究較少。本文以拉薩版《甘珠爾》(藏文)存在的以下版面特征為例:
1)版面編排不規(guī)則,布局復(fù)雜;
2)由于木刻版藏文古籍文檔版面具有外圍雙層邊框及內(nèi)部多區(qū)域多部分的邊框(如圖2、圖3所示);
3)文本與非文本(即:插圖、邊框等)的粘連;
4)邊框斷裂。
受文獻(xiàn)[10-11]的啟發(fā),利用判別式對(duì)抗網(wǎng)絡(luò)(Discriminative Adversarial Networks,DAN)框架,提出以語(yǔ)義分割的像素分類實(shí)現(xiàn)藏文古籍文檔的文本區(qū)域檢測(cè)的方法。這種有監(jiān)督的深度學(xué)習(xí)方法依賴于大規(guī)模標(biāo)記訓(xùn)練數(shù)據(jù),對(duì)于藏文來(lái)說(shuō),雖然有大量古籍文檔的數(shù)字副本,但沒(méi)有公開的大規(guī)模標(biāo)注數(shù)據(jù)。為此,該方法在拉薩版《甘珠爾》(藏文)古籍文檔掃描頁(yè)面構(gòu)建的自定義圖像數(shù)據(jù)集上進(jìn)行了訓(xùn)練與測(cè)試,并取得了較好的實(shí)驗(yàn)結(jié)果。
文檔版面分析(Document Layout Analysis,DLA)是文檔理解系統(tǒng)的預(yù)處理步驟,其目標(biāo)是將文檔圖像中需要研究的區(qū)域進(jìn)行分割,然后對(duì)預(yù)定義的不同區(qū)域類型(如:正文、插圖、注釋和頁(yè)碼等)進(jìn)行識(shí)別分類[12-13],通常將此檢測(cè)后分類的過(guò)程分為幾何分析和邏輯分析兩個(gè)步驟,其方法一般可分為自頂向下、自底向上和混合法三類[14]。文檔的版面特征和分析目標(biāo)的變化產(chǎn)生了不同的DLA,這些階段都有各自不同的算法,本文的版面分析目標(biāo)為藏文古籍文檔的文本區(qū)域檢測(cè)。
目前,目標(biāo)檢測(cè)任務(wù)可分為分類、定位(或識(shí)別)、語(yǔ)義分割與實(shí)例分割四類[15]。其中語(yǔ)義分割是像素級(jí)別的分類,結(jié)合了圖像分類、目標(biāo)檢測(cè)和圖像分割任務(wù),也就是說(shuō)屬于同一類的像素都要被歸為一類,包括對(duì)整個(gè)輸入圖像的像素進(jìn)行預(yù)測(cè),然后對(duì)其具有一定語(yǔ)義的區(qū)域塊進(jìn)行定位或檢測(cè),不僅提供每個(gè)區(qū)域塊的語(yǔ)義類別,還需提供確切的位置信息,最后得到一幅具有像素語(yǔ)義標(biāo)注的分割圖像。圖像語(yǔ)義分割的方法主要包括基于傳統(tǒng)的方法和基于深度學(xué)習(xí)的方法。
下面將從兩個(gè)方面簡(jiǎn)單回顧用于文檔圖像版面分析的代表性方法。一是基于幾何和統(tǒng)計(jì)的傳統(tǒng)方法,主要有投影分析方法[16]、連通域分析方法[17]、領(lǐng)域分析的圖文分割方法[18]和紋理分析方法[19]等文檔圖像的版面分割方法,但因藏文古籍文檔的各種噪音,所以很難將上述方法直接應(yīng)用于藏文古籍文檔掃描頁(yè)面的分析;二是目前主流的基于人工神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)方法,神經(jīng)網(wǎng)絡(luò)從古籍文檔文掃描頁(yè)面的文檔圖像數(shù)據(jù)集中自動(dòng)學(xué)習(xí)文檔版面的重要特征,如:基于卷積神經(jīng)網(wǎng)(Convolutional Neural Networks,CNN)對(duì)歷史文檔圖像進(jìn)行頁(yè)面分割的方法[20]、基于全卷積神經(jīng)網(wǎng)絡(luò)(Full Connected Network,F(xiàn)CN)進(jìn)行古籍文檔圖像版面語(yǔ)義結(jié)構(gòu)信息提取的方法[21]和基于預(yù)訓(xùn)練模型和微調(diào)的方法實(shí)現(xiàn)歷史文檔掃描頁(yè)面的圖像分析任務(wù)[22]等,但是這些方法主要是對(duì)某些主流語(yǔ)言(比如英語(yǔ)及其它拉丁文和中文)的古籍文檔版面特征進(jìn)行的相關(guān)研究,所以并不完全適用于藏文古籍文檔的分析任務(wù)。
圖3 藏文古籍文檔掃描圖像
拉薩版《甘珠爾》(藏文)頁(yè)面類型可分為十一種不同版面結(jié)構(gòu)(如圖3所示),根據(jù)版面結(jié)構(gòu)的區(qū)域元素不同,文本行的個(gè)數(shù)和字體大小也各不相同,為實(shí)現(xiàn)藏文古籍文檔掃描頁(yè)面的文本行提取、字符分割和字符識(shí)別,首先需要對(duì)藏文古籍文檔版面的文本區(qū)域進(jìn)行檢測(cè)和分割,然后去除或分離藏文古籍文檔的非文本區(qū)域,最后得到完整的文本區(qū)域。
本文在分析拉薩版《甘珠爾》(藏文)版面結(jié)構(gòu)特征的基礎(chǔ)上,提出了一種DAN網(wǎng)絡(luò)框架下基于語(yǔ)義分割的文本區(qū)域檢測(cè)方法,將文本區(qū)域檢測(cè)問(wèn)題轉(zhuǎn)化為文獻(xiàn)圖像的語(yǔ)義分割問(wèn)題,具體如圖4所示。
圖4 本文提出方法的概述
該方法主要分為三個(gè)步驟:
1)使用DAN(Discriminative Adversarial Networks)的語(yǔ)義分割網(wǎng)絡(luò)對(duì)輸入的整個(gè)藏文古籍文檔的掃描頁(yè)面圖像進(jìn)行像素分類;
2)使用輪廓提取算法對(duì)具有一定語(yǔ)義的區(qū)域塊進(jìn)行提?。?/p>
3)使用.XML文件格式對(duì)版面布局信息保存。
使用DAN網(wǎng)絡(luò)框架下的語(yǔ)義分割網(wǎng)絡(luò),將輸入藏文古籍文檔的整個(gè)掃描圖像的像素(h*w*c)劃分為具有一定語(yǔ)義含義的文本區(qū)域塊,從而得到的不同文本區(qū)域塊的語(yǔ)義類別和位置信息。
DAN網(wǎng)絡(luò)框架如圖5所示,其中預(yù)測(cè)網(wǎng)絡(luò)(P)接受藏文古籍文檔掃面頁(yè)面的文檔圖像為數(shù)據(jù)點(diǎn)x作為輸入,并輸出其整個(gè)古籍文檔圖像不同文本區(qū)域的語(yǔ)義分割預(yù)測(cè)P(x),該預(yù)測(cè)可以是文本區(qū)域類別標(biāo)簽上的簡(jiǎn)單概率分布,鑒別網(wǎng)絡(luò)(J)接收藏文古籍文檔掃描頁(yè)面x和其文本區(qū)域的像素分類標(biāo)簽y作為輸入,并產(chǎn)生單個(gè)標(biāo)量J(x,y),它表示x,y來(lái)自真實(shí)標(biāo)簽訓(xùn)練數(shù)據(jù)而不是P預(yù)測(cè)的概率,其學(xué)習(xí)目標(biāo)如下公式所示:
Ex~Pdata(x)[log(1-J(x,P(x)))]
圖5 DAN框架
對(duì)于本文所使用的藏文古籍文檔圖像拉薩版《甘珠爾》(藏文)構(gòu)建的數(shù)據(jù)集來(lái)說(shuō),按像素級(jí)別要分類的文本區(qū)域有主文本、豎排標(biāo)題、插圖標(biāo)題和頁(yè)碼,將非文本區(qū)域都分割為背景一類,從而整個(gè)藏文古籍文檔的區(qū)域檢測(cè)數(shù)量為八個(gè)。
根據(jù)上一步藏文古籍文檔掃描圖像的像素分類結(jié)果可得到的由不同文本區(qū)域塊的語(yǔ)義類別和位置信息構(gòu)成的語(yǔ)義分割圖,如圖6所示。
圖6 藏文古籍文檔語(yǔ)義分割結(jié)果
為了提取精確的藏文古籍文檔掃描圖像的各類文本區(qū)域,通過(guò)使用Suzuky等人提出的輪廓提取算法[23]確定其各類文本區(qū)域塊語(yǔ)義分割輪廓的頂點(diǎn),并將各個(gè)語(yǔ)義塊的頂點(diǎn)合并成一組由閉合四邊形分割的文本區(qū)域,其提取結(jié)果如圖7所示:
圖7 藏文古籍文檔各類文本區(qū)域輪廓提取結(jié)果
藏文古籍文檔版面分析的目標(biāo)是獲取需要研究區(qū)域的確切位置信息和類別,為了后續(xù)的文本行提取和字符分割和識(shí)別需要保存藏文古籍文檔掃描圖像文本區(qū)域的布局信息。布局信息即是藏文古籍文檔掃描圖像文本區(qū)域語(yǔ)義塊矩形的坐標(biāo)點(diǎn)(x,y)。除藏文古籍文檔掃描圖像版面文本區(qū)域布局的位置信息和類別外,還需保存文件創(chuàng)建時(shí)間、創(chuàng)建者的信息、標(biāo)注時(shí)間、頁(yè)面名稱、頁(yè)面寬度和高度。
本文為了保存藏文古籍文檔掃描圖像各類文本區(qū)域的布局信息,采用XML格式文件來(lái)保存其布局結(jié)構(gòu)信息。后續(xù)可以從此文件中,可以獲得藏文古籍文檔的每個(gè)文本區(qū)域,并在此基礎(chǔ)下進(jìn)行后續(xù)的文檔圖像分析與識(shí)別的處理任務(wù),該藏文古籍文檔版面布局信息保存文件的組織如下:
<?xml version=”1.0” encoding=”UTF-8”>
本文以藏文古籍文檔拉薩版《甘珠爾》(藏文)原始文獻(xiàn)掃描圖像構(gòu)建的自定義數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)與測(cè)試。在本文實(shí)驗(yàn)中的數(shù)據(jù)集是由圖3所示不同版面結(jié)構(gòu)的5872張圖片(分辨率為256*1024)組成,為手動(dòng)標(biāo)注的頁(yè)面XML格式的真實(shí)標(biāo)簽。為了覆蓋拉薩版《甘珠爾》(藏文)的所有版面特征,將文本區(qū)域類型由圖8中所示的七個(gè)文本區(qū)域組成。表1總結(jié)了此數(shù)據(jù)集的分布特征。
圖8 藏文古籍文檔圖像版面元素標(biāo)注格式
表1 數(shù)據(jù)集的分布特征
本實(shí)驗(yàn)采用深度學(xué)習(xí)之語(yǔ)義分割的評(píng)價(jià)度量標(biāo)準(zhǔn)[13]對(duì)每幅藏文古籍文檔圖像的文本區(qū)域檢測(cè)結(jié)果進(jìn)行評(píng)價(jià),計(jì)算公式如下所示:
Pixel Accuracy (PA,像素精度)
(1)
Mean Pixel Accuracy (MPA,均像素精度)
(2)
Mean Intersection over Union(MIoU,均交并比)
(3)
Frequency Weighted Intersection over Union(FWIoU,頻權(quán)交并比)
(4)
上式(1)(2)(3)(4)中,Pij表示應(yīng)該屬于藏文古籍文檔文本區(qū)域的類別i但被預(yù)測(cè)為類別j的像素?cái)?shù)量,Pii表示正確預(yù)測(cè)屬于藏文古籍文檔文本區(qū)域類別i的像素?cái)?shù)量。
本實(shí)驗(yàn)在遵循文獻(xiàn)[11]約定的情況下,使用了Ubuntu19.10操作系統(tǒng)中24G的NVIDIA Quadro P6000獨(dú)立顯卡,深度學(xué)習(xí)框架PyTorch-gpu 1.5.0的系統(tǒng)配置下進(jìn)行的實(shí)驗(yàn)。
此方法在拉薩版《甘珠爾》的藏文古籍文檔掃描圖像構(gòu)建的自定義數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)取得的不同類型文本區(qū)域檢測(cè)的測(cè)試結(jié)果如表2和表3所示。
表2 文本區(qū)域提取的結(jié)果
表3 不同類型文本區(qū)域的像素分類結(jié)果
圖9 測(cè)試數(shù)據(jù)文本區(qū)域檢測(cè)結(jié)果
從表2中的可看出,使用計(jì)算機(jī)視覺(jué)的語(yǔ)義分割方法對(duì)藏文古籍文檔的各類文本區(qū)域進(jìn)行像素分類是可行的。
因本文在為進(jìn)行數(shù)據(jù)增強(qiáng)的原始拉薩版《甘珠爾》(藏文)掃描頁(yè)面的自定義圖像數(shù)據(jù)集上進(jìn)行測(cè)試,所以從表3顯示的藏文古籍文檔不同文本區(qū)域的像素分類結(jié)果可知,插圖標(biāo)題和豎排標(biāo)題的文本區(qū)域檢測(cè)結(jié)果不大理想,這部分主要原因是不同版面結(jié)構(gòu)導(dǎo)致的各文本區(qū)域的數(shù)據(jù)分布不均衡。
圖9為對(duì)藏文古籍文檔掃描圖像進(jìn)行語(yǔ)義分割的各類文本區(qū)域的檢測(cè)或提取結(jié)果圖。不同類型的文本區(qū)域用不同顏色進(jìn)行填充來(lái)區(qū)分。從上示圖中可以看出藏文古籍文檔各類文本區(qū)域都能得到其區(qū)域分類和位置標(biāo)記的結(jié)果,但存在有部分插圖標(biāo)題和豎排標(biāo)題的文本區(qū)域塊被誤分為多個(gè)區(qū)域塊的情況。主要由:①文本區(qū)域塊有滲墨的嚴(yán)重噪音;②豎排標(biāo)題類文本區(qū)域普遍存在區(qū)域塊內(nèi)文字的空白間隙多長(zhǎng);③外圍雙邊框與文本區(qū)域內(nèi)文字粘連等原因所導(dǎo)致,為了獲得更好的藏文古籍文檔文本區(qū)域的檢測(cè)結(jié)果,可以進(jìn)一步處理這些問(wèn)題以提高藏文古籍文檔不同版面結(jié)構(gòu)的像素分類準(zhǔn)確性。
本文在判別式對(duì)抗網(wǎng)絡(luò)框架下使用圖像的像素級(jí)語(yǔ)義分割方法對(duì)拉薩版《甘珠爾》(藏文)的藏文古籍文檔掃描圖像構(gòu)建的自定義數(shù)據(jù)集上進(jìn)行了其不同版面結(jié)構(gòu)的文本區(qū)域檢測(cè)任務(wù)的訓(xùn)練和測(cè)試,得到PA=98.9%、MPA=95.3%、MIoU=90.2%和FWIoU=98.0%的結(jié)果。并在同文獻(xiàn)的開放數(shù)據(jù)上進(jìn)行了測(cè)試,得到了PA=63.2%的實(shí)驗(yàn)結(jié)果。經(jīng)實(shí)驗(yàn)表明,使用該方法對(duì)藏文古籍文檔掃描頁(yè)面圖像進(jìn)行文本區(qū)域的檢測(cè)和提取是可行并有效的。在該方法上進(jìn)一步研究并實(shí)現(xiàn)不同文本區(qū)域的文本行檢測(cè)任務(wù),進(jìn)而就可以實(shí)現(xiàn)藏文古籍文檔的自動(dòng)版面分析或掃描頁(yè)面的自動(dòng)標(biāo)注。
后續(xù)將根據(jù)此方法提供的文本區(qū)域,對(duì)藏文古籍文檔掃描頁(yè)面進(jìn)行邊框去除處理和插圖區(qū)域分離的操作,針對(duì)每個(gè)純文本區(qū)域設(shè)計(jì)文本行提取算法,并將其送到光學(xué)字符識(shí)別(Optical Character Recognition,OCR)和手寫文字識(shí)別系統(tǒng)進(jìn)行識(shí)別,這就構(gòu)成了一整套藏文古籍文檔圖像識(shí)別系統(tǒng)。