楊 濤, 張云偉, 楊 瑞
(昆明理工大學 信息工程與自動化學院,云南 昆明 650504)
?
基于深度信念網(wǎng)絡的社??ㄌ柎a識別方法*
楊 濤, 張云偉, 楊 瑞
(昆明理工大學 信息工程與自動化學院,云南 昆明 650504)
提出了一種基于深度信念網(wǎng)絡(DBN)的社??ㄌ柎a識別方法,通過采集社??▓D像,采用模塊分割的方法,對社保卡號碼區(qū)域進行行分割,利用區(qū)域生長的方法對行內(nèi)號碼分割,將號碼圖像灰度化與二值化,并歸一化為32×32大小,作為深度信念網(wǎng)絡的輸入數(shù)據(jù),訓練3層受限玻爾茲曼機(RBM)來獲得更加抽象的特征表達,模型的最頂層結(jié)合Softmax回歸分類器對抽取后的特征進行分類。實驗結(jié)果表明:其準確率高達98.3 %,與BP神經(jīng)網(wǎng)絡和支持向量機(SVM)模型相比,深度信念網(wǎng)絡學習了數(shù)據(jù)的高層特征的同時降低了特征維數(shù),提高了分類器的分類精度,有效提高了社??ㄌ柎a識別率。
模塊分割; 深度信念網(wǎng)絡; 受限玻爾茲曼機; Softmax回歸分類器
社??ㄌ柎a作為社保卡唯一標識,對卡號的識別是社保卡識別的關(guān)鍵。文獻[1]提出了一種基于字符結(jié)構(gòu)特征進行識別的算法,文獻[2]采用了模板匹配算法進行圖像識別,楊建等人[3]運用基于并行特征組合與廣義K-L變換的字符識別,Yang F等人[4]采用Laplacian和BP神經(jīng)網(wǎng)絡的方法。Stuhlsatz A等人在文獻[5]中提出了特征提取在圖像簡單分類中的思想,上述方法均依靠人工提取特征,對于社??ū尘盀榫W(wǎng)紋和激光防偽標識的字符來說,其準確性和魯棒性并不高。文獻[6]提出了基于深度信念網(wǎng)絡的識別算法,訓練受限玻茲曼機(restricted Boltzmann machine,RBM)學習特征進行數(shù)據(jù)擬合,提取圖像本質(zhì)特征,具有很好的識別效果。
本文提出了一種基于深度信念網(wǎng)絡的社保卡號碼識別方法,通過訓練3層RBM來獲得更加抽象的特征表達,在模型的最頂層結(jié)合Softmax回歸分類器對抽取后的特征進行分類。
1)社??▓D像采集
使用攝像頭采集社??▓D像,采集到24位彩色圖像,將采集的彩色圖片轉(zhuǎn)換成灰度圖像,然后,分割出社??ㄌ柎a。設(shè)定一個社??ㄌ柎a圖塊分割模板,通過這個模板可以切掉圖像其他的信息,只保留號碼區(qū)域的信息。
圖1 社??ɑ叶然瘓D像(樣卡)
圖2 號碼分割圖像
2)二值化
a.找出圖像中最小和最大的灰度值,記為gmin和gmax;
b.選取灰度范圍的中間值作為初始閾值T(0),然后按下式進行迭代,當T(i+1)=T(i)時迭代停止,此時,T(i+1)為最終的閾值T為
(1)
式中K取值為0.5。
二值化結(jié)果如圖3所示。
圖3 二值化圖像
3)平滑處理
在攝像頭采集圖像的過程中,圖像不可避免地存在噪聲,采用低通濾波的方法去噪。圖4為除噪后的圖像。
圖4 去除噪聲后的圖像
4)號碼分割
號碼分割指精確分割單個數(shù)字,采取對圖4分別做水平和垂直方向的一階差分,得到單個字符區(qū)域的圖像。如圖5和圖6所示。
圖5 號碼輪廓
圖6 單個號碼分割
2.1RBM網(wǎng)絡結(jié)構(gòu)
RBM是一種二分結(jié)構(gòu)的無向圖模型,也是基于熱動力學的能量模型,能夠很好地對神經(jīng)網(wǎng)絡的權(quán)重進行初始化,其網(wǎng)絡結(jié)構(gòu)如圖7所示。
圖7 RBM網(wǎng)絡結(jié)構(gòu)
RBM網(wǎng)絡分為2層:隱含層h和可視層v。隱含層由m個隱含的隨機變量構(gòu)成:h=[h1,h2,…,hm];可視層的構(gòu)成為v=[v1,v2,…,vn],用于表示觀測的數(shù)據(jù),RBM又可視為基于能量的模型,其能量函數(shù)定義如式(2)所示
(2)
式中wi為可視單元vi與隱單元hj之間連接權(quán)重;ai為可視單元vi的偏置;bj為隱含單元hj偏置。
2.2 RBM的訓練方法
根據(jù)梯度上升算法,使得參數(shù)沿著似然函數(shù)梯度,如式(3),上升的方向不斷迭代更新,使似然函數(shù)取得最大值
(3)
迭代更新的表達式為
(4)
每一步采樣中,先通過p(h|v(t))對h采樣獲得h(t),然后再通過p(h|v(t))對v采樣獲得v(t+1),具體過程如下:
輸入:RBM(v,h),訓練集合S。
輸出:梯度Δwij,Δai,Δbj,i=1,…,n;j=1,2,…,m。
1)初始化Δwij,Δai=0,Δbj=0。
2)對所有的v∈S,做如下循環(huán):
a.v(0)=v;
b.對所有的t=0,…,k-1,執(zhí)行:
c.對于i=1,2,...,n,j=1,2,…,m,執(zhí)行:
Δbj+=P(hj=1│v(0))-P(hj=1|v(k))。
1)充分訓練第一個RBM;
2)固定第一個RBM的權(quán)重和偏移量,作為第二個RBM的輸入向量;
3)充分訓練第二個RBM后,將第二個 RBM堆疊在第一個RBM上方,然后依次將第三個RBM堆疊在第二個RBM上;
4)訓練集中的數(shù)據(jù)有標簽,那么在頂層的 RBM訓練時,這個RBM的顯層中除了顯性神經(jīng)元,還需要有代表分類標簽的神經(jīng)元,一起進行訓練;
5)將DBN的輸出層采用Softmax回歸分類器,DBN被訓練好后如圖8。
圖8 DBN網(wǎng)絡結(jié)構(gòu)
利用Matlab R2010a軟件進行實驗。將已分割出的號碼圖片歸一化為32×32大小,作為訓練樣本和測試樣本。共有11種圖片(0,1,…,9,x),每種圖片100張,合計1 100張,其中訓練樣本700張,測試樣本400張。部分訓練樣本如圖9所示。
圖9 部分訓練樣本圖片
將上述得到的字符圖片存入num.mat文件中,然后,將num.mat文件中的數(shù)據(jù)導入到DBN(本次實驗采用3層RBM組成)的第一層RBM的可視層v1中。
然后,學習得到的連接權(quán)重w1對v1進行加權(quán)重置,從而得到第一層RBM的隱含層參數(shù)h1;將h1作為第二層RBM的可視層v2的輸入,再次根據(jù)學習得到的連接權(quán)值w2對v2進行權(quán)值重置,得到第二層RBM的隱層參數(shù)h2,以此類推,直到將3層RBM訓練完成。節(jié)點數(shù)分別為[300,250,200]。最后頂層采用Softmax分類器,若Softmax分類器輸出標簽與測試樣本標簽一致時,表明分類結(jié)果正確,反之,則分類結(jié)果錯誤。
按照DBN訓練方法訓練。對400個測試樣本進行測試,得到的結(jié)果與SVM和BP神經(jīng)網(wǎng)絡方法的實驗結(jié)果作比較,得到如表1所示的結(jié)果。
表1 本文方法與SVM,BP神經(jīng)網(wǎng)絡算法的比較
由表1中可以看出:采用本文方法的識別正確率要高于使用SVM方法和BP神經(jīng)網(wǎng)絡方法。
另外,RBM的網(wǎng)絡單元數(shù)量對實驗結(jié)果也有一定的影響,本文通過選用4種不同的隱含層單元數(shù)量進行實驗,得出如表2所示的結(jié)果。
表2 不同隱含層單元數(shù)量的識別結(jié)果
DBN的深度,即網(wǎng)絡的層數(shù),也影響著網(wǎng)絡對數(shù)據(jù)的擬合精度,理論上網(wǎng)絡的層數(shù)越多,復雜的參數(shù)意味著網(wǎng)絡具有更強大的數(shù)據(jù)表達能力,但網(wǎng)絡的深度越高,也意味著網(wǎng)絡的訓練越困難,若訓練不好,得到的識別精度反而更差,目前,DBN深度的選擇沒有更好的理論支撐,所以,本實驗選擇隱含層單元層數(shù)分別為1,2,3,4這4種情況,結(jié)果如表3所示。
表3 不同DBN深度的識別結(jié)果
由表3可以看出,DBN的識別率隨著隱含層單元數(shù)的增加先增大后減小,當隱含層單元層數(shù)為3時,識別率最高,層數(shù)為4時,識別率反而降低,這是因為網(wǎng)絡深度的增加更容易陷入局部最優(yōu)點,導致最終識別率不高。
本文提出的基于深度信念網(wǎng)絡的社??ㄌ柎a識別方法,與傳統(tǒng)的號碼識別相比,避免了人工選取特征的局限性,利用無監(jiān)督學習算法DBN自動地學習號碼圖像特征,并使用Softmax回歸分類器對學習的特征進行分類。討論了不同隱含層單元數(shù)量、不同DBN深度對識別的影響,與BP神經(jīng)網(wǎng)絡以及SVM相比較,實驗表明:本文方法的魯棒性和識別的準確度都很高。
[1] 范瑋琦,金 燦.基于結(jié)構(gòu)特征的紙幣號碼識別方法[J].圖形圖像處理,2014,50(8):118-121.
[2] 田 娟,鄭郁正.模板匹配技術(shù)在圖像識別中的應用[J].傳感器與微系統(tǒng),2008,27(1):112-114,117.
[3] 楊 建,楊靜宇,高建貞.基于并行特征組合與廣義K-L變換的字符識別[J].軟件學報,2003,14(3):490-495.
[4] Yang F,Chen L J.A segmentation and recognition method of RMB series number based on Laplacian transformation and BP neural networks[C]∥Seventh International Symposium on Computational Intelligence and Design,2014:189-192.
[5] Stuhlsatz A,Lippel J,Zielke T.Feature extraction for simple classification[C]∥Pattern Recognition(ICPR),2010:1525-1528.
[6] 陽 武,李 倩,趙繼生,等.深度信念網(wǎng)絡在故障指示器檢測中的應用[J].傳感器與微系統(tǒng),2015,34(7):155-157.
Research on social security card number identification method based on the deep belief network*
YANG Tao, ZHANG Yun-wei, YANG Rui
(Faculty of Information Engineering and Automation, Kunming University of Science and Technology, Kunming 650504,China)
A method based on deep belief networks (DBN) is proposed to identify social security card number. Firstly, collect the social security card image and segment the card number area by the module segmentation. Secondly, split a single character of the card number using the regional growth method. Thirdly, the character image is grayed, binarized and normalized to the size of 32×32, which is taking as the input data of DBN.Training the 3 layers restricted Boltzmann machine (RBM) to obtain more abstract features. The top layer of the model combined the softmax regression classifier to classify the extracted features. Experimental results show that the accuracy rate is up to 98.3%. Compared with the BP neural network and support vector machine (SVM) model, the DBN not only learned the high-level characteristics but also reduced the dimension of features and improved the accuracy of classifier classification.Finally, it effectively improved the recognition rate of social security card number.
module segmentation; deep belief networks(DBN); restricted Boltzmann machine; softmax regression classifier
10.13873/J.1000—9787(2017)08—0059—03
2016—09—05
國家自然科學基金資助項目(51365019)
TP 391
A
1000—9787(2017)08—0059—03
楊 濤(1991-),男,碩士研究生,研究方向為計算機圖像處理與模式識別。
張云偉(1972-),男,通訊作者,博士,教授,主要從事精密測控技術(shù)研究工作,E—mail:zhangyunwei72@qq.com