摘要:隨著信息技術(shù)的發(fā)展,信息建設(shè)在我國得到了迅猛的發(fā)展,手寫數(shù)字識(shí)別的應(yīng)用需求越來越廣泛。文章從概念、研究背景、研究意義等方面介紹了手寫數(shù)字識(shí)別的原理及實(shí)現(xiàn)方法,并介紹了手寫數(shù)字識(shí)別的幾個(gè)典型應(yīng)用。
關(guān)鍵詞:人工智能;模式識(shí)別;OCR;手寫數(shù)字識(shí)別
0引言
手寫數(shù)字識(shí)別(Handwritten Numeral Recognition)是光學(xué)字符識(shí)別技術(shù)(Optical Character Recognition,簡稱OCR)的一個(gè)分支,它研究的對象是,如何利用電子計(jì)算機(jī)自動(dòng)辨認(rèn)人手寫在紙張上的阿拉伯?dāng)?shù)字。
在整個(gè)OCR領(lǐng)域中,最為困難的就是脫機(jī)手寫字符的識(shí)別,到目前為止,盡管人們在脫機(jī)手寫英文、漢字識(shí)別的研究中已取得很多可喜成就,但距實(shí)用還有一定距離。而在手寫數(shù)字識(shí)別這個(gè)方向上,經(jīng)過多年研究,研究工作者已經(jīng)開始把它向各種實(shí)際應(yīng)用推廣。
字符識(shí)別處理的信息可分為兩大類:一類是文字信息,處理的主要是用各國家、各民族的文字(如:漢字,英文等)書寫或印刷的文本信息,目前在印刷體和聯(lián)機(jī)手寫方面技術(shù)已趨向成熟,并推出了很多應(yīng)用系統(tǒng);另一類是數(shù)據(jù)信息,主要是由阿拉伯?dāng)?shù)字及少量特殊符號組成的各種編號和統(tǒng)計(jì)數(shù)據(jù),如:郵政編碼、統(tǒng)計(jì)報(bào)表、財(cái)務(wù)報(bào)表、銀行票據(jù)等等,處理這類信息的核心技術(shù)是手寫數(shù)字識(shí)別。這幾年來我國開始大力推廣的“三金”工程在很大程度上要依賴數(shù)據(jù)信息的輸入,如果能通過手寫數(shù)字識(shí)別技術(shù)實(shí)現(xiàn)信息的自動(dòng)錄入,無疑會(huì)促進(jìn)這一事業(yè)的發(fā)展。因此,手寫數(shù)字的識(shí)別研究有著重大的現(xiàn)實(shí)意義。
1手寫數(shù)字識(shí)別的理論價(jià)值
手寫數(shù)字識(shí)別作為模式識(shí)別領(lǐng)域的一個(gè)重要問題,也有著重要的理論價(jià)值:
(1)阿拉伯?dāng)?shù)字是惟一的被世界各國通用的符號,對手寫數(shù)字識(shí)別的研究基本上與文化背景無關(guān),這樣就為各國、各地區(qū)的研究工作者提供了一個(gè)施展才智的大舞臺(tái)。在這一領(lǐng)域大家可以探討,比較各種研究方法。
(2)由于數(shù)字識(shí)別的類別數(shù)較少,有助于做深入分析及驗(yàn)證一些新的理論。最明顯的例子是人工神經(jīng)網(wǎng)絡(luò)(ANN)中相當(dāng)一部分的ANN模型和算法都以手寫數(shù)字識(shí)別作為具體的實(shí)驗(yàn)平臺(tái),驗(yàn)證理論的有效性,評價(jià)各種方法的優(yōu)缺點(diǎn)。
(3)盡管人們對手寫數(shù)字的識(shí)別已進(jìn)行了長時(shí)間的研究,也取得了很多成果,但到目前為止機(jī)器識(shí)別還無法與人的認(rèn)知能力相比,這仍是一個(gè)有難度的開放問題(Open problem)。
(4)手寫數(shù)字的識(shí)別方法很容易推廣到其它一些相關(guān)問題,一個(gè)最直接的應(yīng)用是對英文這樣的拼音文字的識(shí)別。事實(shí)上,很多學(xué)者就是把數(shù)字和英文字母的識(shí)別放在一塊兒研究的。
數(shù)字的類別只有十種,筆劃又簡單,對其識(shí)別似乎不是很困難。但事實(shí)上,一些測試結(jié)果表明,數(shù)字的識(shí)別率并不如印刷體漢字識(shí)別率高,甚至也不如聯(lián)機(jī)手寫體漢字識(shí)別率高,而僅僅優(yōu)于脫機(jī)手寫體漢字識(shí)別。這其中主要原因是:第一,數(shù)字字形相差不大,使得準(zhǔn)確區(qū)分某些數(shù)字相當(dāng)困難;第二,數(shù)字雖然只有十種,而且筆劃簡單,但同—數(shù)字寫法千差萬別,全世界各個(gè)國家各個(gè)地區(qū)的人都用,其書寫上帶有明顯的區(qū)域特性,數(shù)字識(shí)別很難完全兼顧世界各種寫法。另外,在實(shí)際應(yīng)用中,對數(shù)字識(shí)別技術(shù)中單字識(shí)別正確率的要求比文字識(shí)別技術(shù)要苛刻得多。這是因?yàn)?,?shù)字沒有上下文關(guān)系,每個(gè)單字的識(shí)別都至關(guān)重要,而且數(shù)字識(shí)別經(jīng)常涉及的財(cái)會(huì)、金融領(lǐng)域,其嚴(yán)格性更是不言而喻的。因此,用戶的要求不是單純的高正確率,更重要的是極低的、千分之—甚至萬分之一以下的誤識(shí)率。此外,大批量數(shù)據(jù)處理對系統(tǒng)速度又有相當(dāng)?shù)囊螅S多理論上很完美但速度過低的方法是行不通的。因此,研究高性能的手寫數(shù)字識(shí)別算法是一個(gè)有相當(dāng)挑戰(zhàn)性的任務(wù)。
2手寫數(shù)字識(shí)別的原理
正如前面提到的,手寫數(shù)字的寫法帶有明顯的地區(qū)性和民族性,因而選擇一個(gè)可供系統(tǒng)訓(xùn)練和測試使用的樣本庫是手寫數(shù)字識(shí)別研究的重要基礎(chǔ)之一,對識(shí)別系統(tǒng)的性能也有重要的影響。研究者對所需的樣本庫有兩種選擇:一是自己根據(jù)需要建立專門的樣本庫,二是選用其它機(jī)構(gòu)做好的現(xiàn)成的樣本庫。前者的優(yōu)點(diǎn)是貼近自己的應(yīng)用,缺點(diǎn)也是明顯的:要費(fèi)相當(dāng)?shù)木η掖硇院茈y保證,與其它人的結(jié)果不好比較。因此,現(xiàn)在的趨勢是使用有權(quán)威性的通用樣本庫。目前,比較有代表性的、樣本數(shù)量較大的手寫數(shù)字樣本庫有:(1)NIST數(shù)據(jù)庫,由美國國家標(biāo)準(zhǔn)與技術(shù)局收集;(2)CEDAR數(shù)據(jù)庫,是由紐約州立大學(xué)Buffalo分校計(jì)算機(jī)科學(xué)系建立的郵政編碼樣本庫;(3)ETL數(shù)據(jù)庫,由日本電工技術(shù)研究所收集;(4)ITPT數(shù)據(jù)庫,由日本郵電通信政策研究所收集。
作為一個(gè)識(shí)別系統(tǒng),我們最終要用某些參數(shù)來評價(jià)其性能的高低,手寫數(shù)字識(shí)別也不例外。評價(jià)的指標(biāo)除了借用一般文字識(shí)別的指標(biāo)外,還要根據(jù)數(shù)字識(shí)別的特點(diǎn)進(jìn)行修改和補(bǔ)充。
對一個(gè)手寫數(shù)字識(shí)別系統(tǒng),可以用三方面的指標(biāo)表征系統(tǒng)的性能:
正確識(shí)別率:A=正確識(shí)別樣本數(shù),全部樣本數(shù)*100%
替代率(誤識(shí)率):s=誤識(shí)樣本數(shù)/全部樣本數(shù)*100%
拒識(shí)率:R=拒識(shí)樣本數(shù)/全部樣本數(shù)*100%
三者的關(guān)系是:A+S+R=100%
數(shù)字識(shí)別的應(yīng)用中,人們往往很關(guān)心的一個(gè)指標(biāo)是“識(shí)別精度”,即:在所有識(shí)別的字符中,除去拒識(shí)字符,正確識(shí)別的比例有多大,我們定義:
識(shí)別精度:P=A/(A+S)*100%
—個(gè)理想的系統(tǒng)應(yīng)是R,S盡量小,而P,A盡可能大。而在一個(gè)實(shí)際系統(tǒng)中,s,R是相互制約的,拒識(shí)率R的提高總伴隨著誤識(shí)率s的下降,與此同時(shí)識(shí)別率A和識(shí)別精度P的提高。因此,在評價(jià)手寫數(shù)字識(shí)別系統(tǒng)時(shí),我們必須綜合考慮這幾個(gè)指標(biāo)。另外,由于手寫數(shù)字的書寫風(fēng)格、工整程度可能有相當(dāng)大的差別,因此必須弄清評價(jià)指標(biāo)值是在怎樣的樣本集合下獲得的。 手寫數(shù)字識(shí)別在學(xué)科上屬于模式識(shí)別和入工智能的范疇。在過去的四十年中,人們想出了很多辦法獲取手寫字符的關(guān)鍵特征。這些手段分兩大類:全局分析和結(jié)構(gòu)分析。對前者,我們可以使用模板匹配、像素密度、矩、特征點(diǎn)、數(shù)學(xué)變換等技術(shù),并且常常和統(tǒng)計(jì)分類方法—起使用。對后者,多半需要從字符的輪廓或骨架上提取字符形狀的基本特征,包括:圈、端點(diǎn)、節(jié)點(diǎn)、弧、突起、凹陷,與這些結(jié)構(gòu)特征配合使用的往往是句法的分類方法。
多年的研究實(shí)踐表明,對于完全沒有限制的手寫數(shù)字,幾乎可以肯定,沒有一種簡單的方案能達(dá)到很高的識(shí)別率和識(shí)別精度。因此,最近這方面的努力向著更為成熟、復(fù)雜、綜合的方向發(fā)展。研究工作者努力把新的知識(shí)運(yùn)用到預(yù)處理、特征提取與分類當(dāng)中,如:神經(jīng)網(wǎng)絡(luò)、數(shù)學(xué)形態(tài)學(xué)等。作者認(rèn)為,神經(jīng)網(wǎng)絡(luò)技術(shù)和多種方法的綜合是值得重視的方向。
3基于手寫數(shù)字識(shí)別的典型應(yīng)用
下面我們將介紹基于手寫數(shù)字識(shí)別的應(yīng)用系統(tǒng)的特殊要求,以及一些以手寫數(shù)字識(shí)別技術(shù)為基礎(chǔ)的典型應(yīng)用。3.1基于手寫數(shù)字識(shí)別的應(yīng)用系統(tǒng)的特殊要求
盡管手寫數(shù)字識(shí)別與一般的文本(如:漢字,英文等)識(shí)別同屬于光學(xué)字符識(shí)別(OCR)的大范疇,從應(yīng)用的角度出發(fā),手寫數(shù)字識(shí)別應(yīng)用系統(tǒng)有很多特殊的要求。
(1)識(shí)別精度要達(dá)到很高的水平。
在一般的文本識(shí)別中,信息的冗余較大,有充分的上下文信息,因而對識(shí)別的精度要求不是十分高,達(dá)到98-99%就足夠了。而在數(shù)字識(shí)別中,由于沒有上下文關(guān)系,數(shù)據(jù)中的每一位數(shù)字都至關(guān)重要(如財(cái)務(wù)報(bào)表)。一般來說,這類實(shí)用系統(tǒng)的精度至少應(yīng)在99.9%以上。為此,在目前的技術(shù)水平下,可采取以下措施來滿足高精度的要求:
①要求書寫者用規(guī)定的字型認(rèn)真填寫,避免使用某些容易造成混淆的變體。
這個(gè)限制對用戶可能是很不方便的,因?yàn)檫@意味著書寫速度的降低和書寫習(xí)慣的改變,但從整體上,系統(tǒng)的識(shí)別水平將有大幅度的提高,能很大程度上提高系統(tǒng)的運(yùn)行效率。
②提高拒識(shí)率。
通過提高拒識(shí)率就可以減低誤識(shí)率,直到達(dá)到指定的精度要求。當(dāng)然,拒識(shí)的增多意味著操作人員介入的增加,這對用戶是極為不利的。
③加入邏輯校驗(yàn)。
在通信系統(tǒng)中,人們常通過加校驗(yàn)碼來保證數(shù)據(jù)的高質(zhì)量傳輸,常見的校驗(yàn)碼有:奇偶校驗(yàn),漢明碼等。在基于手寫數(shù)字的應(yīng)用系統(tǒng)中,我們也可以采用類似的方法。不過,這時(shí)校驗(yàn)方式應(yīng)盡量簡單,直觀,利于填寫人快速計(jì)算。
(2)對處理速度也有很高的要求。
數(shù)字識(shí)別面對的是大量的數(shù)據(jù)報(bào)表,一般都要求達(dá)到每分鐘幾頁到幾十頁的處理能力(包括從掃描到完成識(shí)別的全過程)。既要達(dá)到前面提到的高識(shí)別精度,又要有高速度,無疑增加了系統(tǒng)的設(shè)計(jì)難度。不過近年來,硬件水平提高很快,目前市場上已有較低價(jià)格,每分鐘可掃描10-20頁的高性能掃描儀;微機(jī)的運(yùn)算速度更是飛快提高,這些都為高的處理速度奠定了堅(jiān)實(shí)的基礎(chǔ)。
(3)要能批量自動(dòng)作業(yè)。
在一般的文本識(shí)別中,都是操作者一頁頁地送入文本,手工幫助機(jī)器進(jìn)行版面分割(機(jī)器的自動(dòng)分割能力往往是十分有限的)后再開始識(shí)別,很難保證高質(zhì)量的批量自動(dòng)識(shí)別。而在數(shù)字識(shí)別系統(tǒng)中這是—個(gè)必須做到且應(yīng)能做到的基本要求。原因如下:
①如果每頁的處理都要人手工幫助完成,系統(tǒng)的綜合處理速度無法達(dá)到要求;
②掃描儀的自動(dòng)進(jìn)紙(ADF-Automatic Document Feeding)技術(shù)已十分成熟;
③處理的對象在很多情況下是版面完全相同的大批表格,很容易作到欄目的自動(dòng)提取。
(4)要有便于批量快速校對修改的手段。
3.2手寫數(shù)字識(shí)別在大規(guī)模數(shù)據(jù)統(tǒng)計(jì)中的應(yīng)用
在大規(guī)模的數(shù)據(jù)統(tǒng)計(jì)(如:行業(yè)年檢、人口普查等)中,需要輸入大量的數(shù)據(jù),以前完全要手工輸入,需要耗費(fèi)大量的人力和物力。近年來在這類工作中采用OCR技術(shù)已成為一種趨勢。
因?yàn)樵谶@種應(yīng)用中,數(shù)據(jù)的錄入是集中組織的,所以往往可以通過專門設(shè)計(jì)表格和對書寫施加限制以便于機(jī)器的自動(dòng)識(shí)別。目前國內(nèi)的大多數(shù)實(shí)用系統(tǒng)都要求用戶按指定規(guī)范在方格內(nèi)填寫。另外,這些系統(tǒng)往往采用合適的用戶界面對識(shí)別結(jié)果做全面的檢查,最終保證結(jié)果正確無誤??梢钥闯?,這是一類相對容易的應(yīng)用,對識(shí)別核心算法的要求比較低,是目前國內(nèi)很多單位應(yīng)用開發(fā)的熱點(diǎn)。
3.3手寫數(shù)字識(shí)別在財(cái)務(wù)、稅務(wù)、金融領(lǐng)域中的應(yīng)用
財(cái)務(wù)、稅務(wù)、金融是手寫數(shù)字識(shí)別大有可為的又一領(lǐng)域。隨著我國經(jīng)濟(jì)的迅速發(fā)展,每天等待處理的財(cái)務(wù)、稅務(wù)報(bào)表、支票、付款單等越來越多。如果能把它們用計(jì)算機(jī)自動(dòng)處理,無疑可以節(jié)約大量的時(shí)間、金錢和勞力。與上面提到的統(tǒng)計(jì)報(bào)表處理相比,在這個(gè)領(lǐng)域的應(yīng)用難度更大,原因有:(1)對識(shí)別的精度要求更高;(2)處理的表格往往不止一種,一個(gè)系統(tǒng)應(yīng)能智能地同時(shí)處理若干種表格;(3)由于處理貫穿于整個(gè)日常工作之中,書寫應(yīng)盡量按一般習(xí)慣(如:不對書寫者的寫法做限定,書寫時(shí)允許寫連續(xù)的字串,而不是在固定的方格內(nèi)書寫),這樣對識(shí)別及預(yù)處理的核心算法要求也提高了。
3.4手寫數(shù)字識(shí)別在郵件分揀中的應(yīng)用
在郵件的自動(dòng)分揀中,手寫數(shù)字識(shí)別(OCR)往往與光學(xué)條碼識(shí)別(OBR Optical Bar Reading)和人工輔助識(shí)別等手段相結(jié)合,來完成郵政編碼的閱讀。目前使用量最大的OVCS分揀機(jī)的性能指標(biāo)為:OCR拒分率30%,OCR分揀差錯(cuò)率1.1%。
4結(jié)束語
隨著國家信息化進(jìn)程的加速,手寫數(shù)字識(shí)別的應(yīng)用需求將越來越廣泛,因此應(yīng)當(dāng)加強(qiáng)這方面的研究工作。作者認(rèn)為,應(yīng)用系統(tǒng)性能的關(guān)鍵與瓶頸仍然在于手寫數(shù)字識(shí)別核心算法性能上,最終目標(biāo)是研究零誤識(shí)率和低拒識(shí)率的高速識(shí)別算法。此外,盡早建立反映中國人書寫習(xí)慣的、具有國家標(biāo)準(zhǔn)性質(zhì)的手寫數(shù)字樣本庫也是當(dāng)務(wù)之急。
(注:本文中所涉及到的圖表、注解、公式等內(nèi)容請以PDF格式閱讀原文。)