樸明姬,崔榮一
(延邊大學 計算機科學與技術學院 智能信息處理研究室,吉林 延吉133002)
多語種文本圖像中的文字語種辨識方法的研究
樸明姬,崔榮一
(延邊大學 計算機科學與技術學院 智能信息處理研究室,吉林 延吉133002)
本文針對漢字、朝鮮文字和英文單詞混合的文本圖像提出了基于主成分分析技術以文字為單位進行文種辨識的方法。首先,通過主成分分析方法構造特征空間,并且把分割的文字映射到此空間得到重構圖像;其次,計算原圖像和重構圖像的水平和垂直方向直方圖的相對熵;最后,根據(jù)原圖像和重構圖像之間的歐式距離和相對熵來判別文字語種。實驗表明,本文提出的方法在沒有分割錯誤的情況下,能獲得99.78%的識別準確率,有效地解決了在漢、朝、英三種文字混合構成的文檔圖像中文種辨識問題。
文種辨識;主成分分析;相對熵;歐式距離;文字分割
人類社會中語言的本質(zhì)在于定義群體,即每一種語言界定了一個群體,而文字作為語言的視覺化表現(xiàn),是群體身份認定的重要依據(jù)之一。在多語種信息服務、文本索引等各類應用中文字語種辨識扮演著不可替代的角色,將對擴大已有OCR系統(tǒng)的價值和開發(fā)面向多語種OCR系統(tǒng)具有重要意義[1]。
不同文字的文字圖像所表現(xiàn)出的不同紋理特征,可以為文字語種辨識提供底層特征[2],而提取紋理特征的方法可分為兩大類: 一類是基于文字結構的,如以文字的統(tǒng)計特性作為特征;另一類是基于視覺輪廓的方法,如基于Gabor濾波器的特征[3]。國內(nèi)外研究對于文本圖像的特征提取采用可控金字塔變換[4]、Gabor濾波器[5]等方法,并結合SVM[5-6]、決策樹[7]、K-NN近鄰[5,8]等分類器實現(xiàn)文字語種辨識。目前提出的方法普遍存在以下兩種問題: (1)采用結合分類器的方式進行文字語種辨識,而訓練分類器的參數(shù)需要花費大量的時間,并且參數(shù)的微小變動對實驗結果帶來很大的影響; (2)辨識對象都是以頁、文本行、文本塊作為基本單位,因此限制了文字語種辨識方法的靈活性。
本文針對朝鮮文字、漢字和英文字母混合出現(xiàn)的文本圖像基于主成分分析方法提出了一種以一個文字為單位進行文字語種辨識的方法。通過分析三種文字的結構特性,首先,采用主成分分析方法分別對朝鮮文字和英文字母構造特征空間;然后對于待辨識的文本圖像進行文字分割,并把分割出的文字映射到特征空間得到重構后的文字;最后,根據(jù)原圖像與重構圖像之間的相對熵和歐氏距離辨識文字語種。
由于文本圖像在獲取并數(shù)字化過程中會發(fā)生傾斜和出現(xiàn)噪聲等現(xiàn)象,因此在辨識文字語種之前應進行傾斜校正和去除噪聲等預處理。本文以一個文字為研究對象,因此經(jīng)過傾斜校正和去除噪聲等預處理之后需要進行文字分割。最普遍的分割方法是通過直方圖的波谷判斷文字的邊緣,但對于不同的文字語種,只根據(jù)波谷位置判斷一個文字的邊緣是不可行的,還需要結合每種文字的形態(tài)結構特點。
2.1 文字語種辨識流程
首先,使用常用文字分別對英文字母、朝鮮文字和漢字構造特征空間,并對待識別的文本圖像進行預處理和分割;然后,將分割出的文字先映射到由英文字母構造的特征空間進行重構,并分別求出原圖像和重構圖像的水平和垂直方向的直方圖;最后,計算兩個圖像之間的歐式距離和直方圖的相對熵。當歐式距離和相對熵滿足限定條件時,辨識結果為英文單詞,否則把原圖像再次映射到由朝鮮文字構造的特征空間進行相同的步驟,根據(jù)歐式距離和相對熵判定是否為朝鮮文字,如果不滿足限定條件則映射到由漢字構造的特征空間,并根據(jù)相對熵判定是否為漢字。其處理流程如圖1所示。
圖1 文種辨識處理流程
2.2 文字分割
文字分割是文字語種辨識過程中最基本的預處理階段,文字分割的效果將直接影響文字語種辨識正確率[9]。在進行文字分割時,如果只根據(jù)垂直方向投影的直方圖中出現(xiàn)的波谷位置判斷一個文字的邊界,則會導致很高的誤分割率。經(jīng)過分析朝鮮語、漢語和英語三種文字的結構特點,以文字的寬度、質(zhì)心和直方圖的波谷位置作為分割依據(jù),并對進行分割后的二值圖像進行居中處理,使文字處于背景的中心,就會得到滿足文種辨識需要的分割結果。
圖2 兩種不同的分割方法
3.1 特征空間的構造
多語種文本圖像中的文字語種辨識需要解決的核心問題是用低維特征來描述某一種語言文字的結構特點。每一種語言的文字有它本身的結構特點,即同一種語言的文字之間具有相關性,利用文字之間的相關性,可以用少量的數(shù)據(jù)描述文字的結構特點。主成分分析 (Parincipal Component Analysis,PCA)是一種對數(shù)據(jù)進行相關性分析的技術,可以揭示隱藏在復雜數(shù)據(jù)背后的簡單結構,從而進行對原有數(shù)據(jù)的簡化描述[10]。本文采用主成分分析方法構造能夠描述特定文字語種的所有文字的特征空間。N×M維的文字圖像I(x,y)可以表示成向量PiRk(k=N×M),則文字的平均圖像可表示為式(1)。
(1)
而文字圖像的協(xié)方差矩陣為式(2)。
(2)
其中,Φi=Pi-avg∈Rk(k=N×M),n表示文字總數(shù)。通過協(xié)方差矩陣的前幾個最大特征值對應的特征向量可以構造出某一個文種的特征空間。
通過對朝鮮文字的統(tǒng)計分析發(fā)現(xiàn),朝鮮文字可以分為12種結構[11],根據(jù)這一分類結果與英文單詞和漢字的文字特點,本文對朝鮮文字、英文單詞和漢字分別構造5、2、1個特征空間。在圖3中,從左到右依次表示大寫/小寫英文字母、不含終聲和含終聲的朝鮮文字和漢字的一個特征向量以二維圖像表示的結果,從圖中可以看出英文字母的特征向量所占區(qū)域相對朝鮮文字以及漢字較小,并且集中在中心部分。
圖3 不同語種文字的特征向量
3.2 文字的重構及文字語種辨識
通過對朝鮮文字、漢字和英文字母進行分析發(fā)現(xiàn)英文字母所占的區(qū)域相對朝鮮文字和漢字較??;朝鮮文字的結構相對漢字規(guī)律性更強。因此分別對英文字母、朝鮮文字和漢字構造特征空間,并通過式(3)對待辨識的文字圖像PRk(k=N×M)進行重構獲得重構圖像。
(3-a)
(3-b)
其中,VRk(k=N×M)為式(2)中協(xié)方差矩陣C的特征向量。
同一種語言的文字之間在結構上具有一定的相關性,因此當文字映射到相應的特征空間時,重構后的圖像與原圖像非常相似,如果映射到其他語言的特征空間,重構后的圖像將失去原有的形狀。當朝鮮文字和漢字映射到由朝鮮文字構造的特征空間時,重構后的文字示例如圖4所示,從圖中可以發(fā)現(xiàn)重構后的朝鮮文字4(b)與原圖像4(a)非常相似,而重構后的漢字4(d)幾乎失去了原圖像4(c)的形狀。
圖4 原圖像與重構后的圖像
(4)
文字語種辨識算法描述如下:
Step 1 由式(1)分別計算出英文字母、朝鮮文字和漢字的平均圖像;
Step 2 由式(2)計算出文字圖像的協(xié)方差矩陣并求出協(xié)方差矩陣的特征向量,對英文字母、朝鮮文字和漢字分別選取前30、80、150個最大特征值所對應的特征向量作為各文字空間的基向量,從而分別構造2、5、1個特征空間;
Step 3 待辨識文字圖像通過式(3)映射到英文字母特征空間求出重構圖像;
Step 4 通過原圖像與重構圖像之間的歐式距離和由式(4)計算出的水平和垂直直方圖的相對熵進行文字語種辨識,如果不滿足限定條件則轉(zhuǎn)到Step 3 將待辨識文字圖像映射到朝鮮文字特征空間;
Step 5 如果原圖像與其在英文字母和朝鮮文字特征空間重構后的圖像都不滿足限定條件,則映射到漢字的特征空間,并根據(jù)相對熵判定是否為漢字,如果不滿足限定條件則拒絕識別。
上述算法的Step4、Step5中所指的“限定條件”為: 對于英文字母和朝鮮文字,原圖像和重構圖像之間的歐式距離小于D且水平直方圖的相對熵小于EH,垂直直方圖的相對熵小于EV;而對于漢字,水平和垂直方向的相對熵都小于E。
圖5為對朝鮮語、漢語和英語的三種文字混合的文本圖像進行文字語種辨識的結果示例,其中用圓圈、叉號和十字符號分別表示辨識結果為朝鮮文字、漢字和英文字母。
圖5 文字語種的辨識結果示例
4.1 文字數(shù)據(jù)及文本圖像中的文種辨識實驗
我們通過對不同字體和大小的朝鮮文字、漢字、英文字母測試驗證了本文方法的有效性。本文對分割后的文字進行歸一化處理,因此對文字大小沒有嚴格的要求。在字體方面選擇了具有規(guī)整風格的字體,漢字選用宋體和仿宋體,朝鮮文字選擇Batang和Gulim,英文字母則選擇了Times New Roman 和Calibri等字體作為樣本。對于文字間距方面的要求是間距大于1/4文字寬度。為了測試每種語言的所有文字,根據(jù)計算機系統(tǒng)提供的文字符號集生成了全部文字的圖像數(shù)據(jù),同時還采集了文檔掃描圖像,并采用本文提出的方法分割文字,構造了辨識對象數(shù)據(jù)集。文檔掃描需采用200dpi以上分辨率,以保證文字圖像的失真度,不影響文字的正確分割和有效構造特征空間。通過實驗發(fā)現(xiàn)英文字母、朝鮮文字和漢字的前30、80、150個最大特征值占特征值總和的75.89%、67.80%和84.45%,并且對訓練樣本的實驗結果分析后算法中的變量D、EH、EV、E確定為250、0.1、0.2、0.15。實驗結果如表1所示。
表1 文字語種辨識結果
表1中的辨識錯誤率是沒有考慮分割錯誤率時得出的百分比(辨識錯誤個數(shù)=文字個數(shù)×(辨識錯誤率+分割錯誤率))。出現(xiàn)辨識錯誤的原因主要是有些漢字在結構方面簡單(如漢字“一”),當它們映射到朝鮮文字特征空間時,重構的圖像與原圖像相似,因此辨識為朝鮮文字;而出現(xiàn)分割錯誤的主要原因是英文字母間的重疊現(xiàn)象。由于本文以一個文字作為識別對象,因此對于文章的篇幅等沒有限制,可以提高識別準確率。文獻[12]的方法對文本圖像中文字的個數(shù)和文字間的間距有較嚴格的要求。
4.2 自然圖像中的文字語種辨識實驗
我們對自然圖像中的文字語種進行了辨識實驗,結果如圖6所示。其中,用實線矩形框、虛線方框和點線方框分別表示文字語種辨識結果為朝鮮語、漢語和英語。從文字語種辨識結果中可以看出,測試圖像中對于文字種類、文字的大小、字體和文字相對背景的顏色等多方面存在多樣性,但本文方法不僅準確定位了文字所在的區(qū)域,而且正確辨識了文字語種。
圖6 文字語種辨識示例
表2是對100幅自然圖像進行文字語種辨識的結果。其中,訓練樣本個數(shù)和測試樣本個數(shù)均代表文字的個數(shù),朝鮮文字的正確辨識率為86.67%,漢字的正確辨識率為88.89%,英文的正確辨識率為85%。對朝鮮語、漢語和英語文種的整體正確辨識率達到87.37%,說明了本文方法具有較高的有效性和可行性。
表2 文字語種辨識結果
造成文字語種辨識錯誤的原因可以歸結為以下三類。
(1) 朝鮮文字和漢字在結構紋理上具有復雜性和相似性,如朝鮮文字的“丕”和漢字的“圣”具有結構相似性;
(2) 文本區(qū)域定位的精確性問題,如個別檢測的文本區(qū)域未能包含完整的文字;
(3) 文字分割和提取過程中一些噪聲的影響。
文獻[12]利用基本圖像特征辨識文本圖像的文字語種,該文中的文本圖像為通過版面分析后的純文字圖像,其方法對朝鮮文字的辨識結果為98.8%。本文的研究工作與文獻[12]的區(qū)別之處在于以下三個方面。
(1) 本文的研究內(nèi)容是辨識自然圖像中的文字語種,而文獻[12]是辨識純文字文本圖像的文字語種;
(2) 本文的自然圖像同時包含多語種文字,而文獻[12]的研究對象是單語種文本圖像;
(3) 本文是以單個文字作為文字語種辨識對象,而文獻[12]是以整個文本頁作為文字語種辨識對象。
文獻[12]所提出的文字語種辨識方法對朝鮮文字的辨識效果很高,但由于其方法對辨識對象的局限性,不能靈活地應用于自然圖像中的文字語種辨識研究,而本文所提出的方法不僅能辨識文本圖像,而且也能解決對自然圖像的文字語種辨識問題。
文字語種辨識方法的研究對于多語種文本環(huán)境下正確有效地使用OCR系統(tǒng)具有非常重要的意義,作為文字自動識別的前端處理技術的研究,本文提出了基于主成分分析并結合相對熵和歐式距離辨識文字語種的方法,并通過實驗驗證了所提出方法的有效性。
目前大多數(shù)研究集中于基于以頁為單位的單一語種文本辨識和基于文本行或單詞為單位的多語種文本識別,并且基本采用多通道的Gabor濾波器提取特征,結合SVM/K-NN/ANN等分類器辨識文字語種。這些方法對分類器參數(shù)具有很強的依賴性,參數(shù)值的變動可能產(chǎn)生完全不同的效果。因此訓練一個識別準確率較高的分類器需要花費大量的時間,并且當選擇文本行或塊作為識別對象時,由于文字間不同寬度的空隙等問題很難從文本中抽取滿足要求的文本塊。而本文方法以一個文字作為文字語種識別單位,沒有對待識別的文字提取特征,并且沒有采用分類器。因此本文方法具有簡單、有效的優(yōu)點。
引入其他特征空間構造方法,構造具有判別能力的子特征空間,同時增加更多的文字語種進行驗證以提高本文方法的泛化能力,并且引入文字識別的后處理技術是進一步研究的工作內(nèi)容。
[1] Spitz A L. Determination of the Script and Language Content of Document Image[C]//Proceedings of IEEE Transactions on Pattern Analysis and Machine Intelligence.1997, 19(3): 235-245.
[2] Hidayet Takci, Tunga Gungor. A high performance centroid-based classification approach for language identification[J]. Pattern Recognition Letters.2012, 33: 2077-2084.
[3] Ghosh D, Dube T A P. Shivaprasad: Script Recognition - A Review[J]. IEEE Transaction on Pattern Analysis and Machine Intelligence.2010, 32(16): 2142-2161.
[4] 顧立娟, 邵命山, 郝玉保. 基于可控金字塔子帶能量特征的文種識別方法[J]. 計算機應用與軟件.2011, 28(3): 91-94.
[6] Script Identification-A Han & Roman Script Perspective[C]//Proceedings of the International Conference on Pattern Recognition. Istanbul, Turkey, 2010: 2708-2711.
[7] BilalBataineh, Siti Norul Huda Sheikh Abdullah, Khairuddin Omar. A novel statistical feature extraction method for textual image: Optical font recognition[J]. Expert Systems with Applications.2012, 39(5): 5470-5477.
[5] Peeta Basa Pati, A G Ramakrishnan. Word level multi-script identification[J]. Pattern Recognition Letters.2008, 29(9): 1218-1229.
[8] P S Hiremath, S Shivashankar. Wavelet based co-occurrence histogram features for texture classification with an application to script identification in a document image[J]. Pattern Recognition Letters.2008, 29(9): 1182-1189.
[9] Amjad Rehman, Tanzila Saba. Performance analysis of character segmentation approach for cursive script recognition on benchmark database[J]. Digital Signal Processing.2011, 21(3): 486-490.
[10] Matthew Turk, Alex Pentland. Eigenfaces for Recognition[J]. Journal of Cognitive Neuroscience.1991, 3(1): 71-72.
[11] 崔榮一, 金世珍. 朝鮮文字信息結構的研究[J]. 中文信息學報.2011, 25 (5): 114-119.
[12] 郭龍, 平西建, 周林, 童莉. 基本圖像特征用于文本圖像文種識別[J]. 應用科學學報.2011, 29(1): 56-60.
An Approach to Script Identification in Image with Multi-lingual Texts
PIAO Mingji, CUI Rongyi
(Intelligent Information Processing Lab., Dept. of Computer Science &Technology, Yanbian University, Yanji,Jilin 133002, China)
A PCA based character level script identification method is proposed to identify Korean, Chinese and English scripts in a image. First, the space of eigenvectors is constructed by using PCA, and the segmented character was reconstructed by projecting into the space. Second, relative entropy of vertical and horizontal histograms between the original and the reconstructed image is calculated. Finally, according to Euclidean distance and relative entropy between the original and the reconstructed image, the script is identified. The experiment results show that the proposed method achieves 99.78% accuracy under fully correct wrong segmentation, which successfully addresses the script identification problem in Korean, Chinese and English multi-lingual document image.
script identification; principal component analysis; relative entropy; Euclidean distance; character segmentation
樸明姬(1988—),碩士,主要研究領域為自然語言處理。E?mail:piaomingji123@hotmail.com崔榮一(1962—),通信作者,博士,教授,主要研究領域為智能計算,模式識別,機器學習,自然語言處理。E?mail:cuirongyi@ybu.edu.cn
2015-01-18 定稿日期: 2015-08-10
吉林省科技發(fā)展計劃項目(20140101186JC);國家語委2015年度科研立項項目(教語信司函〔2015〕21號)
1003-0077(2017)00-0220-06
TP
A