徐 力
(四川大學(xué)錦江學(xué)院,眉山 620000)
字符識別研究中最普通的手段是光學(xué)字符識別(OCR(Optical Characters Recognition)),作為模式辨認(rèn)的一個支系,字符識別具有很有效的理論指導(dǎo)和廣泛的應(yīng)用遠(yuǎn)景。特征提取,探索和計(jì)算等方面,統(tǒng)計(jì)模式識別方法著重于量化特征,然而,在這個方法中,將字符當(dāng)做一個具有隨機(jī)性的二維點(diǎn)陣而非結(jié)構(gòu)性的信息框架,所以,這種手段具有識別性,她可以根據(jù)不同種類的字體辨別,實(shí)驗(yàn)驗(yàn)證可以得知該手段對單個字符進(jìn)行辨別更加有效果。
手寫郵政編碼在字符識別方面具有特征性、適應(yīng)性以及抗干擾性,在字符識別的時(shí)候可以根據(jù)周圍的有效字符進(jìn)行抗干擾數(shù)字分割,一般而言,主要有統(tǒng)計(jì)模式識別以及結(jié)構(gòu)模式識別。在傳統(tǒng)的觀念中,郵編手寫識別它并不能夠完善解決相同數(shù)字在不同位置的識別,尤其是一些筆畫較少的數(shù)字字符,在很多在字形與筆畫這兩方面差距較小的字符,區(qū)別上具有一定困難,因此,將人工智能引進(jìn)專家系統(tǒng)方法以及人工神經(jīng)網(wǎng)絡(luò)的方法到手寫郵編的識別碼中,將神經(jīng)網(wǎng)絡(luò)與不同種類的技術(shù)相融合,意義非凡。
特征提取在手寫郵編識別系統(tǒng)中發(fā)揮著重要的角色。從二十世紀(jì)八十年代起,手寫郵編的識別系統(tǒng)一直將特征提取作為重點(diǎn)研究對象,其實(shí)現(xiàn)途徑具有簡便性。與此同時(shí),數(shù)字的本質(zhì)特征在寫作中具有隨機(jī)性以及漸變性,因此,在數(shù)字識別之前,首先將信封上的郵政編號轉(zhuǎn)換為具有灰度值f(i,j)(i=1,2,,,32 ;j=1,2,,,32)的32×32點(diǎn)陣 光學(xué)掃描儀和信封上的A/轉(zhuǎn)換。通過以下公式將兩個公式轉(zhuǎn)換為0或1的32或32點(diǎn)陣。
式中,T是門檻。32×32點(diǎn)陣直接作為神經(jīng)網(wǎng)絡(luò)的輸入,由于其具有數(shù)據(jù)量大以及網(wǎng)絡(luò)時(shí)間長的特點(diǎn),只有將粗網(wǎng)絡(luò)特征提取的手段來實(shí)現(xiàn)神經(jīng)網(wǎng)絡(luò)的輸入減少,這樣才能實(shí)現(xiàn)網(wǎng)絡(luò)速度加快并且同時(shí)不會減緩數(shù)字的識別能力。即將32×32點(diǎn)陣數(shù)據(jù)分為64×4 *從左到右,上下4個區(qū)域。該方法以每個單元的點(diǎn)陣密度為描述特征,即4 * 4點(diǎn)陣數(shù)/10與16的比值為特征數(shù)據(jù),8 * 8的特征數(shù)據(jù)矩陣可以為獲得。該數(shù)據(jù)矩陣被用作神經(jīng)網(wǎng)絡(luò)的輸入。
本文選擇經(jīng)典的三層BP神經(jīng)網(wǎng)絡(luò)。模型的輸入節(jié)點(diǎn)數(shù)為64,即從上到下8×8特征數(shù)據(jù)矩陣,從左到右從0到1為64;輸出層節(jié)點(diǎn)數(shù)為4,0000~1001表示/00~900阿拉伯?dāng)?shù)字。由于隱層節(jié)點(diǎn)數(shù)量在選擇上具有復(fù)雜性,加上數(shù)量過大,網(wǎng)絡(luò)學(xué)習(xí)時(shí)間過長,網(wǎng)絡(luò)泛華能力會漸漸減緩。然而反過來,如果數(shù)字節(jié)點(diǎn)過少,網(wǎng)絡(luò)在建立上就會存在識別性的判斷性事失誤,其網(wǎng)絡(luò)被訓(xùn)練能力也會隨之下降,或者呈現(xiàn)出網(wǎng)絡(luò)不強(qiáng)的特征。當(dāng)前,學(xué)者們還沒有研制出影響數(shù)量節(jié)點(diǎn)隱藏層的數(shù)量節(jié)點(diǎn)選擇特征的原因。
BP算法可以將樣本以非線性優(yōu)化的辦法實(shí)現(xiàn)網(wǎng)絡(luò)學(xué)習(xí),通過梯度算法,可以將網(wǎng)絡(luò)權(quán)值問題以迭代式算法進(jìn)行實(shí)現(xiàn)。針對以上問題,很多學(xué)者應(yīng)用不同算法進(jìn)行BP算法改進(jìn)。然而,由于迭代算法在計(jì)算上容易造成局部最小的現(xiàn)狀,想要實(shí)現(xiàn)整體優(yōu)化不容易實(shí)現(xiàn),這是向非線性梯度的優(yōu)化算法的缺點(diǎn),然而,在進(jìn)行網(wǎng)絡(luò)權(quán)值的計(jì)算時(shí),應(yīng)該采用LM算法,該算法是通過改進(jìn)高斯牛頓法而來,以達(dá)到提升計(jì)算精確度,提升學(xué)習(xí)效率等等目的。在本文中,我們應(yīng)用LM(Levernberg Marquardt)算法來調(diào)整網(wǎng)絡(luò)權(quán)重。以下是LM算法的簡要說明。樣本P中L(l>1)層神經(jīng)元I的輸出如下:
式中,wij為前一層神經(jīng)元j到l層神經(jīng)元i的網(wǎng)絡(luò)連接權(quán)值;是輸入向量;Hi為神經(jīng)元的閥值;f(·)為節(jié)點(diǎn)的激活函數(shù)。給定P組訓(xùn)練樣本,定義網(wǎng)絡(luò)輸出誤差函數(shù)為:
式中,ep(w)=然后根據(jù)不同的學(xué)習(xí)算法訓(xùn)練網(wǎng)絡(luò)權(quán)值,以最小化網(wǎng)絡(luò)輸出誤差,即:
令J(w)為e(w)的Jacobian矩陣,則E(w)的梯度為:
E(w)的Hesse矩陣為:
從而提出了LM(Levernberg-Marquardt)算法:
式中,Z是單位矩陣;L是一個控制向量。當(dāng)L較大時(shí),LM算法與小步長梯度算法關(guān)系更為密切。當(dāng)L很小時(shí),LM算法變成一個近似Hessian矩陣的Newton方法。在迭代過程中,如果訓(xùn)練成功,則L的值將減小。如果訓(xùn)練失敗,L值將會增加。
此研究和測試樣本是U CI,這是加利福尼亞大學(xué)的機(jī)器學(xué)習(xí)數(shù)據(jù)庫。整個數(shù)據(jù)庫由3723個訓(xùn)練樣本和1797個訓(xùn)練樣本組成,如圖1所示。從隨機(jī)選取/00到900個阿拉伯?dāng)?shù)字作為20個神經(jīng)網(wǎng)絡(luò)的訓(xùn)練樣本,我們使用改進(jìn)的粗網(wǎng)格特征提取方法,然后隨機(jī)地 選擇/00至/90×10個測試樣本作為神經(jīng)網(wǎng)絡(luò),并且獲得一組簡化的64位0,1數(shù)據(jù),例如表1,用于每個訓(xùn)練和測試樣本,其被用作神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)64位輸入。
圖1 32×32的數(shù)字6點(diǎn)正數(shù)據(jù)
網(wǎng)絡(luò)性能具有收斂性以及穩(wěn)定性,在計(jì)算方面,它可以形成最初的網(wǎng)絡(luò)權(quán)值的篩選,本事次計(jì)算總共包括五組,采用LM算法對兩百個訓(xùn)練樣本進(jìn)行穩(wěn)定性網(wǎng)絡(luò)權(quán)重,再從其中篩選出一百個樣本進(jìn)行測試識別,得出的識別率是百分之九十二。200個訓(xùn)練樣本用不同的改進(jìn)的BP算法訓(xùn)練。訓(xùn)練精度為10-5。隱層激活函數(shù)采用雙曲正切S傳遞函數(shù),輸出層激活函數(shù)采用對數(shù)S傳遞函數(shù)。通過LM算法的13次迭代計(jì)算得出訓(xùn)練的結(jié)果,可以發(fā)現(xiàn)LM算法比BP算法識別性更高,對手寫郵編的識別更加有效。
本文通過研究了手寫郵編的因域差異性。在研究中由于優(yōu)化后的粗網(wǎng)格特征提取辦法可以有效幫助手寫郵編的識別,對于神經(jīng)網(wǎng)絡(luò)的有效性也直接通過穩(wěn)定性得以解決。LM算法對于BP神經(jīng)網(wǎng)絡(luò)的權(quán)值具有篩選性,通過一組權(quán)值的計(jì)算將以數(shù)據(jù)驗(yàn)證神經(jīng)網(wǎng)絡(luò)具有自主學(xué)習(xí)型以及抗干擾性,智能性和處理高效性,證明對手寫郵政編碼識別具有實(shí)踐意義。
[1] 左云波,張懷存.一種改進(jìn)的 BP 網(wǎng)絡(luò)快速算法[J].北京機(jī)械工業(yè)學(xué)院學(xué)報(bào),2005,20(1):31-34.