劉水麗 吳戀 吳文宇 嚴東發(fā) 潘承昌 郭倩
摘要:文字識別技術(shù)是利用計算機自動識別紙質(zhì)媒介文字,該技術(shù)被廣泛應用,并且在各領(lǐng)域中都扮演著非常重要的角色。本文針對基于深度學習的卷積神經(jīng)網(wǎng)絡([CNN])模型、[LeNet]卷積神經(jīng)網(wǎng)絡的理論以及文字的處理過程進行論述。
關(guān)鍵詞:文字識別;深度學習;卷積神經(jīng)網(wǎng)絡
中圖分類號:TP18? ? ? ? 文獻標識碼:A
文章編號:1009-3044(2019)18-0202-02
現(xiàn)在是一個信息時代,我們所面臨的不僅是信息數(shù)量大而雜亂,于其他信息載體而言,文字的優(yōu)點不僅易于信息保存,同樣也便于信息傳遞,正是如此,才得以讓信息在時間和空間上都得到了迅速擴散。我們的生活中需要識別的文字數(shù)量十分龐大,但是我們卻很少借用計算機。近些年來,隨著科學技術(shù)不斷發(fā)展以及持續(xù)進步,文字識別的應用領(lǐng)域也得到相應的擴展,當前主要有文字識別和數(shù)字識別。
1 文字識別意義
我們的時代隨著信息化的發(fā)展,文字識別的意義主要有:
1)文字識別是中文信息錄入的方法之一,但是漢字不同于簡單的字母或單一的拼音,漢字筆畫復雜且無確定性,僅依靠人工鍵入是非常緩慢的,其工作量也十分巨大,所謂耗時耗力。但是隨著文字識別技術(shù)的崛起,這一難題得到了解決,速度也明顯的提高。
2)現(xiàn)在大家都提倡智能化,我們一直苦惱如何提高辦公自動化水平,現(xiàn)在結(jié)合文字識別技術(shù),就可以解決我們的苦惱了。我們可以利用計算機代替我們對文檔進行分類處理,從而把人從日常煩瑣的辦公活動中解放出來,因此文字的自動識別對圖像的處理意義深遠。
隨著信息產(chǎn)業(yè)的飛速發(fā)展以及政府對信息的高度重視,可以看出,文字識別技術(shù)具有很大的市場潛力。
2 當前技術(shù)與以往技術(shù)的比較
以往文字識別的基本原理是模式匹配,即將輸入的文字和每個標準的文字相比較,然后計算匹配文字的類似度,將其中最大類似度的標準文字作為識別結(jié)果。當時的文字識別流程如下:
由表1我們發(fā)現(xiàn),印刷體[OCR]主要應用于規(guī)范紙質(zhì)媒體,識別率很高;手寫體[OCR]就適用于手寫紙稿,但是這個難度系數(shù)極大,因為如法提取漢字的筆畫筆順等信息;專用[OCR]主要應用于票據(jù)、名片等;而聯(lián)機筆輸入是在聯(lián)機的情況下,可以實時提取漢字的筆畫以及筆順,但是輸出的并不唯一,且連筆字的識別率及準確率都較低,輸入速度比較慢。
現(xiàn)在的技術(shù)有使用[Matlab]實現(xiàn),需要在得到原始圖像的基礎(chǔ)上得到灰度圖像,再得到二值圖像等一系列的步驟,調(diào)用相關(guān)代碼,就可以得到所需要識別的文字。如圖:
3 基于深度學習的文字識別技術(shù)性能優(yōu)勢
基于深度學習進行文字識別的方法有很多,例如基于[CNN+RNN+CTC]算法、基于[FCN]算法和基于卷積神經(jīng)網(wǎng)絡等等,每種算法都有一定的優(yōu)點和缺點,本文著重介紹基于卷積神經(jīng)網(wǎng)絡。當前大多數(shù)文字識別技術(shù)都是以卷積神經(jīng)網(wǎng)絡模型為基礎(chǔ),和傳統(tǒng)的技術(shù)相比,卷積神經(jīng)網(wǎng)絡的原理是將輸入的圖像里包含的特征信息通過一層一層的卷積和采樣等一系列操作進行提取以及精煉。
從21世紀起,卷積神經(jīng)網(wǎng)絡就被應用于圖像分割、檢測、識別等。從2012年的[ImageNet]比賽之后,卷積神經(jīng)網(wǎng)絡就已經(jīng)開始受到很大的關(guān)注。該比賽使用一個由1000種類別、上百萬張網(wǎng)絡圖片組成的數(shù)據(jù)集對機器學習算法進行評估。這是第一次基于卷積神經(jīng)網(wǎng)絡的神經(jīng)網(wǎng)絡模型獲得第一名的佳績,比在此之前被認為是最先進的算法幾乎降低了一半的錯誤率。
卷積神經(jīng)網(wǎng)絡主要包括卷積層和池化層,卷積層的輸出被稱為特征圖。在特征圖中,每個單元對應一組輸出,任意一個輸出結(jié)果都是上一層的一個局部塊的加權(quán)和。對于同一特征圖,過濾器共同享用每個單元的權(quán)值,目的是通過降低網(wǎng)絡參數(shù)量,從而達到降低網(wǎng)絡復雜度的目標。池化層也稱為下采樣層,池化后的特征具有一定的平移和旋轉(zhuǎn)不變性,圖4是對此進行的詳細分析:
4 基于深度學習文字識別技術(shù)的當前應用
文字識別技術(shù)應用十分廣泛,例如道路智能交通系統(tǒng),該系統(tǒng)作用是通過對車牌的監(jiān)測實施,進而對車輛違章的罰款或者是對出入的車輛進行管理收費等等,如圖5:
5 文字識別的技術(shù)發(fā)展趨勢
文字識別技術(shù)融合了多種學科,其隨著圖像和計算機等技術(shù)的發(fā)展而變化,當前最需要攻克的難題就是文字識別的速度和正確率。印刷體和自由手寫體是當前文字識別技術(shù)的兩個主要研究方向。
很早之前,國外就已經(jīng)開始了文字識別技術(shù)的研究,他們初期主要是研究識別方法。由于國外文字相對于漢語來說較為簡單,所以國外比我國有很大的研究優(yōu)勢,在理論研究和產(chǎn)品開發(fā)上更加成熟。[Omnipage]是號稱世界上最強的英文光學字符識別產(chǎn)品,它對英文字符的識別率達到了99%,而我國任何一個產(chǎn)品都達不到這么高的識別率。
我國民族多樣化,文字也是多種多樣,由于大多數(shù)人都是漢字的使用者,我國產(chǎn)品研究的中心還是漢字的研究。但是漢字數(shù)量大、變化多端、筆畫復雜,目前還沒有哪一款產(chǎn)品能夠?qū)h字進行準確的識別。同時對少數(shù)民族文字的識別也是不可或缺。
現(xiàn)如今,神經(jīng)網(wǎng)絡已經(jīng)成為研究人工智能的重要組成,還是受到廣泛關(guān)注的研究領(lǐng)域之一?,F(xiàn)在實現(xiàn)文字識別最流行的方法之一是利用神經(jīng)網(wǎng)絡模型。
未來文字識別技術(shù)的發(fā)展方向應該是在高效、準備、智能的識別同時于行業(yè)應用結(jié)合更加緊密。
6 總結(jié)與展望
文字作為獲取信息和交流信息的主要途徑,我們的生活、學習、工作都不可避免地涉及文字識別技術(shù)。隨著時代的變遷以及科學技術(shù)的發(fā)展,文字識別已經(jīng)被廣泛應用到各個方面的社會活動,例如無人駕駛,車牌識別,教育,虛擬現(xiàn)實等領(lǐng)域。由此可見,文字識別技術(shù)一定會是未來科學研究的主流。
參考文獻:
[1] 黃攀. 基于深度學習的自然場景文字識別[D].浙江大學,2016.
[2] 李月潔. 自然場景中特定文字圖像優(yōu)化識別研究與仿真[J]. 計算機仿真,2016,33(11):357-360.
[3] 樊雅琴,王炳皓,王偉,等. 深度學習國內(nèi)研究綜述[J]. 中國遠程教育,2015(6):27-33+79.
[4] 馮子勇. 基于深度學習的圖像特征學習和分類方法的研究及應用[D].華南理工大學,2016.
[5] 劉仁軍. 基于神經(jīng)網(wǎng)絡的室內(nèi)場景的文字識別研究[D].武漢工程大學,2017.
[6] 張燁,陳波. 文字識別原理概述[J]. 裝備制造,2009(12):230-231.
[7] 張華萍,黃辰. 文字識別技術(shù)研究[J]. 物聯(lián)網(wǎng)技術(shù),2018,8(8):17-19.
【通聯(lián)編輯:唐一東】