金 鑫
(南京航空航天大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,江蘇南京 210016)
日常商務(wù)活動(dòng)中,名片的使用率較高,手工錄入名片信息耗時(shí)費(fèi)力又容易出錯(cuò),因此利用手機(jī)和PDA對名片進(jìn)行自動(dòng)識別和存儲具有一定的實(shí)際應(yīng)用價(jià)值。理想的名片識別系統(tǒng)可分為4個(gè)模塊:圖像預(yù)處理模塊、版面分析模塊、字符識別模塊、信息分類模塊,完整流程如圖1 所示[1]。
圖1 流程圖
與技術(shù)相對成熟的預(yù)處理和字符識別環(huán)節(jié)相比,版面分析和識別后信息分類還有很多可以深入挖掘的地方。從圖1可以看出,信息分類的結(jié)果不能立刻作為最終結(jié)果導(dǎo)入數(shù)據(jù)庫,因?yàn)榘婷娣治龌蜃址R別階段產(chǎn)生的錯(cuò)誤會帶到信息分類的環(huán)節(jié)。一個(gè)成熟的名片識別系統(tǒng),應(yīng)具有錯(cuò)誤反饋和自動(dòng)糾正的機(jī)制。一般情況下信息分類模塊發(fā)現(xiàn)的錯(cuò)誤會反推到上一層字符識別,然后針對某一文字塊進(jìn)行再識別和再分類處理。文中提出一種利用版面信息作為輔助決策的信息分類方面,并將信息分類后的出錯(cuò)處理進(jìn)一步反推到版面分析環(huán)節(jié)。實(shí)驗(yàn)表明,改進(jìn)后的方法能有效提高名片的識別率和信息分類正確率及系統(tǒng)的自動(dòng)糾錯(cuò)能力[2]。
名片圖像經(jīng)過預(yù)處理和版面分析后得到相對獨(dú)立的信息塊,如圖 2 所示[3]。
圖2 相對獨(dú)立的信息塊
字符識別模塊對文字塊切分出的單個(gè)字符進(jìn)行識別,但識別出的單個(gè)字符在未組織成有效信息之前是沒有意義的。名片識別的最終結(jié)果不是單個(gè)字符而是經(jīng)過正確分類后與基本信息項(xiàng)相對應(yīng)且具有語義的信息。信息分類模塊按照每條信息的屬性對其歸類和存儲。名片圖像經(jīng)過字符識別后,送入信息分類模塊的是一些文本及相關(guān)信息。它們除了包含識別出的字符信息外,一般還包括識別的置信度,文本外接矩形框的大小,每行文本在名片中的位置,這些輔助信息在信息分類的過程中可以起一定的參考作用。同時(shí),版面分析和字符識別階段產(chǎn)生的錯(cuò)誤會被帶入信息分類模塊,所以該模塊還應(yīng)該具備向上層反饋錯(cuò)誤,提供糾錯(cuò)信息的功能。提出的方法是如何在傳統(tǒng)基于語義理解的信息分類方法上利用版面分析信息作為輔助決策,并將這一步得到的分類結(jié)果反饋于版面分析和字符識別環(huán)節(jié),提高了識別率的同時(shí),增強(qiáng)系統(tǒng)的自動(dòng)糾錯(cuò)能力[4-5]。
在名片流行之初,版式單一,傳統(tǒng)的模板匹配算法配合少量關(guān)鍵詞的提取能夠滿足絕大部分名片信息分類的需求。但隨著名片版式的多樣化,模板匹配的方法不再適用。
目前比較流行的是基于語法模式識別的信息分類方法。從語法的角度來講,名片信息都是短語,短語的骨架是一個(gè)或多個(gè)關(guān)鍵詞。對于屬性相同的信息項(xiàng),其關(guān)鍵詞都具有相同或類似的語義,這些關(guān)鍵詞構(gòu)成了一種語法模式。語法分析的目的就是抽取名片各個(gè)文字域的語法模式。
關(guān)鍵詞的提取一般使用最大正向匹配的方法,根據(jù)預(yù)定義的關(guān)鍵詞詞典對各個(gè)文字域查找。對關(guān)鍵詞的查找是按照候選鏈表進(jìn)行的,如表示Email的關(guān)鍵詞列表為{電子郵箱,E - mail,eMail,E - Mail,郵箱,@},找到關(guān)鍵詞后,根據(jù)語法規(guī)則對各個(gè)關(guān)鍵詞進(jìn)行篩選,確定最匹配的關(guān)鍵詞,并用它標(biāo)注對應(yīng)的文本。
在識別效果比較好的情況下,基于語法分析和關(guān)鍵詞庫的方法可以解決大部分文本內(nèi)容的分類問題。但基于語法分析方法的顯著缺點(diǎn)是需要手工建造知識庫,且封閉的規(guī)則不適應(yīng)靈活開放的自然語言的變化。在處理內(nèi)容相對復(fù)雜的中文文本塊時(shí),分類效果不理想,而當(dāng)文本塊中出現(xiàn)識別錯(cuò)誤和版面錯(cuò)誤時(shí),其性能會嚴(yán)重下降。
通過對200張實(shí)際名片圖像的統(tǒng)計(jì),以下幾種文本塊同時(shí)出現(xiàn)的幾率較大[6-8]:
(1)姓名文本和職務(wù)文本的上下,左右相鄰關(guān)系。
(2)被錯(cuò)誤切分的先導(dǎo)詞和內(nèi)容文本之間的左右相鄰關(guān)系。
(3)公司文本和上邊界之間的上下相鄰關(guān)系。
(4)郵編和地址的上下關(guān)系。
實(shí)驗(yàn)統(tǒng)計(jì)的信息子集有:姓名、職稱、單位、地址、電話、電子郵箱。經(jīng)過統(tǒng)計(jì)可以得到不同信息子集項(xiàng)之間位置轉(zhuǎn)移概率,可以用一階馬爾可夫過程近似描述。
因?yàn)樗腿胛谋痉诸惸K的文本信息除了文本的字符識別信息還有文本的位置和外接矩形框大小信息。通過迭代計(jì)算待分類的文本塊與信息子集項(xiàng)的統(tǒng)計(jì)位置信息得到一個(gè)相合度最高的分類及置信度,這是信息分類和錯(cuò)誤反饋的重要參考信息。
對最終文本分類的判斷,使用基于啟發(fā)式規(guī)則的隸屬度迭代決策機(jī)制。所謂隸屬度是指某文本塊對于某一信息項(xiàng)子集的隸屬程度。隸屬度的值在區(qū)間[0,1]內(nèi),若一個(gè)文本塊對某一信息項(xiàng)子集的隸屬度為0,則表示該文本塊肯定不屬于該信息項(xiàng)子集,同樣,若一個(gè)文本塊對某一信息項(xiàng)子集的隸屬度為1,則表示該文本塊肯定屬于該信息項(xiàng)子集。所以要為文本塊維持一個(gè)隸屬度數(shù)組。在進(jìn)行判斷之前認(rèn)為每個(gè)文本塊對每個(gè)信息項(xiàng)子集的隸屬度都為0,即隸屬度數(shù)組的每個(gè)成員的初值都為0。接下來,采用一組啟發(fā)式規(guī)則增加或減小文本塊對于某一信息項(xiàng)子集的隸屬度。
按照規(guī)則的知識來源,可以將規(guī)則分為“自身規(guī)則”和“相鄰規(guī)則”。前者是根據(jù)文本塊自身的知識信息增加或減少對某一信息項(xiàng)的隸屬度。后者則是根據(jù)文本塊的屬性或某些知識信息增加或減少對某一信息項(xiàng)的隸屬度。文本塊中的關(guān)鍵詞屬于自身規(guī)則,在本文的的判別方法中,關(guān)鍵詞仍占有較大權(quán)重;而文本塊的相鄰規(guī)則體現(xiàn)了文本塊之間的“相互作用”,若已經(jīng)判定某一文本塊為姓名的隸屬度超過了一個(gè)較大的閾值,則處于同一列相鄰位置或同一行相鄰位置的文本塊對于“職稱”的隸屬度就會有相應(yīng)的增加。至此對于同一文本塊得到兩個(gè)隸屬度,一個(gè)由語法模式分析得到,一個(gè)由版面文本塊之間的位置關(guān)系得到,將這兩個(gè)隸屬度按權(quán)重歸一化到[0,1]區(qū)間,權(quán)值的選取要根據(jù)實(shí)驗(yàn)效果多次嘗試,文中按“自身規(guī)則”0.7,“相鄰規(guī)則”0.3的權(quán)重分配取得良好的效果。
按最大隸屬原則和閾值原則對文本塊的屬性作出判斷。假設(shè)文本塊X對于信息項(xiàng)子集的隸屬度為μi,如果μi滿足如下條件,則認(rèn)為X∈I:
(1)ui>uj,i≠j,1≤i≤n,1≤j≤n,其中n為信息項(xiàng)子集的總數(shù)。
(2)ui>uTh,uTh為預(yù)先設(shè)定的閾值。
按照上述判斷規(guī)則,如果一文本塊不能歸入任何一個(gè)信息項(xiàng)子集,則考慮在上層處理中出錯(cuò)。首考慮字符識別模塊的錯(cuò)誤,將無法正確分類的文本塊回送給字符識別模塊重新識別。新的識別結(jié)果如果還是不行,則進(jìn)一步考慮是否在版面分析模塊出錯(cuò)。因?yàn)榘婷娣治瞿K無法借助語義信息,所以可能出現(xiàn)如下錯(cuò)誤的劃分,如圖3所示。
圖3 錯(cuò)誤的劃分
此時(shí)會出現(xiàn)兩個(gè)文本塊無法被分類的情況,其中一個(gè)具有多個(gè)關(guān)鍵詞。所以在向版面劃分模塊反饋錯(cuò)誤信息時(shí),除了傳遞出錯(cuò)文本塊的標(biāo)識、大小和位置外,還要附上可能的錯(cuò)誤類型,如上例中的關(guān)鍵詞過多(TOO_MANY_KEYWORDS),版面分析模塊對這些錯(cuò)誤最可能的處理是,將該模塊和最相鄰的模塊考慮橫向切分。實(shí)驗(yàn)表明這種錯(cuò)誤反饋機(jī)制能有效提高名片識別系統(tǒng)的糾錯(cuò)能力,降低誤識別率和不能識別率。
在基于啟發(fā)式規(guī)則分類的基礎(chǔ)上,增加了版面信息輔助分類,建立如圖4所示的信息分類結(jié)構(gòu),提高了系名片識別統(tǒng)信息分類的性能。
圖4 信息分類結(jié)構(gòu)
為驗(yàn)證利用版面信息來幫助分類,并利用不能分類的信息用于糾錯(cuò)和再識別分類,選取100張實(shí)際名片,作了一個(gè)對比測試。
表1 實(shí)驗(yàn)數(shù)據(jù)及結(jié)果
測試中比較了是否有加版面信息和反饋機(jī)會對分類模塊最終性能的影響??梢钥吹剑陲@示的幾個(gè)主要類別中,各項(xiàng)指標(biāo)都有不同程度的上升。無版面信息反饋機(jī)制的情況下分類正確率為96.8%,有版面信息反饋機(jī)制的情況下正確率為98.9%。
主要介紹了利用文本在名片圖像中的版面位置信息來輔助分類,并將出錯(cuò)的情況反饋于版面分析和字符識別過程的方法。試驗(yàn)表明這個(gè)新算法明顯提高了名片文本信息分類的準(zhǔn)確性。而且經(jīng)過這個(gè)分類處理后,名片文本變成了條目清晰的信息項(xiàng),為查詢檢索奠定了基礎(chǔ)。
[1]林曉帆,丁曉青,吳佑壽.名片自動(dòng)錄入系統(tǒng)的實(shí)現(xiàn)[J].數(shù)據(jù)采集與處理,1998,13(2):163 -167.
[2]徐銳義,吳 煒,何小海,等.中文商務(wù)名片版面分割研究[J].四川大學(xué)學(xué)報(bào),2008,45(2):331 -335.
[3]LIN Lin,CHEW Lim Tan.Text extraction from name cards with complex design[C].Proceeding of the 2005 Eight International Conference on Document Analysis and Recognition,2005:977 -980.
[4]KRISHNAMOORTHY M S,NAGY G,SETH S C,et al.Syntactic segmentation and labeling of digitized pages from technical journals[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,1993,15(7):737 -747.
[5]LIN X,DING X,WU Y.Automatic input system for chinese business cards[C].Proc of 7th ICCPOL,HongKong,1997:277-280.
[6]劉昊.基于背景描述的中文版面分析方法的研究[D].哈爾濱:哈爾濱工業(yè)大學(xué),1999.
[7]田學(xué)東,郭寶蘭.基于組合特征的中文版面分析[J].中文信息學(xué)報(bào),1999,13(4):22 -28.
[8]張純,張濤,黃笑.中文商務(wù)名片識別系統(tǒng)的實(shí)現(xiàn)[J].中文信息學(xué)報(bào),2000,14(2):22 -26.