高燕超
摘 要:針對化學信息手寫英文字體識別準確率低,缺少類別信息的問題,本研究基于深度學習,在傳統(tǒng)降噪自動編碼器的基礎上,提出一種組合降噪自動編碼和分類降噪編碼的組合自編碼網(wǎng)絡算法,實現(xiàn)了對化學信息手寫英文字體的數(shù)據(jù)特征提取和類別特征提取。通過MNIST數(shù)據(jù)集和Chars74K數(shù)據(jù)集測試了該算法與分類降噪自動編碼算法在不同迭代次數(shù)、網(wǎng)絡結構和降噪比例下對數(shù)據(jù)集的識別結果和識別性能。實驗結果表明,本研究提出的組合自編碼算法的識別錯誤率整體偏低,準確包含了化學信息手寫英文字體的類別信息,證明該算法具有良好的手寫英文字體識別效果。
關鍵詞:深度學習;手寫英文字體;自動編碼器;組合自編碼網(wǎng)絡
中圖分類號:TP391 ? ? ? ? ? ? ? ? ? ? ? ? ? 文獻標識碼:A? ? ?? ? ? ? ? ? ? ? ? 文章編號:1001-5922(2021)07-0084-04
Research on Handwritten English Font Recognition Baesd on Deep Learning
Gao Yanchao
(Baoji Vocational and Technical College, Baoji 721000, China)
Abstract:In order to solve the problem of low recognition accuracy and lack of category information of handwritten English fonts for chemical information, this study is based on deep learning, and on the basis of traditional noise reduction autoencoders, a combined self-encoding network algorithm combining noise reduction automatic coding and classification noise reduction coding is proposed, , which realizes the data feature extraction and category feature extraction of chemical information handwritten English font. MNIST data set and Chars74k data set are used to test the recognition results and recognition performance of the algorithm and classification noise reduction automatic coding algorithm under different iteration times, network structure and noise reduction ratio. The experimental results show that the recognition error rate of the combined self coding algorithm is low as a whole, and contains the chemical information of handwritten English fonts accurately, which proves that the algorithm has a good recognition effect of handwritten English fonts.
Key words:deep learning; handwritten English font; automatic encoder; combined self coding network
化學書稿中的手寫英文字體包含了書寫者個人的書寫方式和書寫習慣,為字體識別造成了一定程度的識別困難。傳統(tǒng)的圖像識別方法,如Hinton根據(jù)多層神經(jīng)網(wǎng)絡構建的深度置信網(wǎng)絡[1],以及具有表征學習能力的卷積神經(jīng)網(wǎng)絡[2]。這些算法雖然在圖像識別過程中具有良好的特征提取能力,但隨著訓練維度的增加,其處理的成本和復雜度更高,同時也無法解決手寫體字符識別正確率低的問題。因此,為解決以上問題,本研究基于自動編碼器,通過改進分類降噪自動編碼算法,提出一種組合自編碼網(wǎng)絡算法,實現(xiàn)了對化學書稿中手寫英文字體的數(shù)據(jù)特征提取和類別特征提取,提高了對手寫英文字體識別的正確率,降低了處理此類信息的成本和復雜度。
1 基本算法
1.1 分類降噪自動編碼算法
分類降噪自動編碼器主要包括輸入層、隱藏層、輸出層三層結構[3],輸入層的節(jié)點數(shù)和輸出層的節(jié)點數(shù)分別由輸入圖像維度和輸出圖像類別數(shù)決定,并與之相同。令輸入數(shù)據(jù)為x,將x的分量隨機置為0得到? ? ,輸入? ?到分類降噪自動編碼器中,可得到輸出層第k個節(jié)點的輸出值為:
式(1)中,n表示隱藏層節(jié)點數(shù),vkj表示輸出層節(jié)點k與隱藏層節(jié)點j的連接權重,aj表示隱藏層節(jié)點j的激活值。
為使分類降噪自動編碼器中的隱藏層重構的數(shù)據(jù)與實際類別標簽一一對應,即輸出層的輸出值與輸入數(shù)據(jù)的類別實際值相近,還需通過訓練網(wǎng)絡參數(shù)來使代價函數(shù)最小。代價函數(shù)J可表示為:
式(2)中,i 表示類別個數(shù)。在訓練網(wǎng)絡參數(shù)過程中,最小化代價函數(shù)的大小通過調整誤差的負梯度實現(xiàn)[4]。其中,輸入層節(jié)點i與隱藏層節(jié)點j的參數(shù)梯度更新公式如(3)(4),隱藏層節(jié)點j和輸出層節(jié)點k的參數(shù)梯度更新公式如(5)(6)。
式中,t表示迭代次數(shù),η表示學習步長,zj(t)表示輸入層的組合值,ek(t)表示實際值? ? 與預測值 yk在t次迭代后的誤差,zk(t)表示t次迭代后的隱藏層輸出組合值。
分類降噪自動編碼算法通過訓練可獲得較多的類別特征[5],但在實際應用中,該算法容易忽略原始數(shù)據(jù)的數(shù)據(jù)特征,導致識別準確率不高,故本研究對該算法進行了改進,將結合標準降噪自動編碼與分類降噪自動編碼,形成組合自編碼網(wǎng)絡算法,以提高算法識別的準確率。
1.2 算法改進
組合自編碼網(wǎng)絡算法包括降噪自動編碼器、分類降噪自動編碼器、組合特征分類器3個部分[7]。預訓練過程中,降噪自動編碼與分類降噪自動編碼各自獨立完成數(shù)據(jù)特征提取和類別特征提取,并按照特征比例進行拼接得到組合特征。然后,組合特征會進入分類器進行訓練,此時,算法會根據(jù)最小化代價函數(shù)對模型參數(shù)進行更新。最后,通過一定迭代次數(shù)的訓練,得到識別結果。組合自編碼網(wǎng)絡算法結構如圖1所示。
組合自編碼網(wǎng)絡算法流程首先是對輸入化學信息手寫英文字體進行預訓練,然后從樣本集中隨機選取一個批次樣本進行降噪處理,將降噪后得到的數(shù)據(jù)作為組合自編碼網(wǎng)絡的輸入,并通過向前傳播提取到數(shù)據(jù)特征和類別特征[8]。最后,根據(jù)類別特征比重對特征進行重新組合,并計算出代價函數(shù)。若代價函數(shù)小于設定值或網(wǎng)絡迭代次數(shù)達到最大值,則訓練結束;若代價函數(shù)大于閾值,則重復以上步驟直至訓練結束。組合自編碼算法網(wǎng)絡算法具體步驟如圖2所示。
2 圖像預處理
在利用組合自編碼網(wǎng)絡算法進行識別前,還需要對手寫英文字體圖像進行預處理,從而提高圖像處理的正確性。對此,本文采用灰度化、平滑去噪、二值化處理的方式對手寫英文字體圖像進行處理。
2.1 灰度化處理
圖像灰度化處理即使原始圖像的RGB分量全部相等[9]。由于手寫英文字體識別只需識別圖像的形態(tài)信息,RGB并不能反映其形態(tài)特征,故采用圖像灰度化可除去對原始圖像中含有的不必要信息,進而提高圖像的識別效率。目前,常用的圖像灰度化處理方法由分量法、最大值法等。
2.2 平滑去噪
平滑去噪即利用平滑濾波去除圖像中的噪聲。由于原始圖像采集過程中無法避免噪聲,這些噪聲對圖像特征提取產(chǎn)生影響,故需要進行去噪處理。平滑去噪是圖像去噪常用的方法之一,其通過將原始圖像像素至與模板進行對應,計算出輸出圖像的像素值。
2.3 二值化處理
圖像二值化處理即圖像的像素值只能為0或255[10]。二值化處理的主要方法是在原始圖像中設置適合圖像的閾值,并通過與閾值比較進行二值映射。二值映射函數(shù)可表示為:
式(7)中,g(x,y)表示二值化后像素值,f (x,y)表示原始像素值,T表示閾值。
3 仿真實驗
3.1 數(shù)據(jù)來源
本研究實驗在MATLAB R2014a上進行,并通過調用MATLAB中函數(shù)對化學書稿中的手寫英文字體圖像進行了預處理。實驗數(shù)據(jù)集選自NIST數(shù)據(jù)集中的MNIST子庫。該數(shù)據(jù)集子庫包括不同書寫風格和不同書寫習慣的手寫體字符,其中有4萬個訓練樣本和2萬個測試樣本,共6萬個樣本。樣本包括含訓練樣本圖像庫、測試樣本圖像庫、訓練樣本標簽庫、測試樣本標簽庫四個文件。為測試算法在更多類別的手寫英文體字符的識別性能,本研究還在Chars74K手寫英文字符數(shù)據(jù)集上進行實驗。該數(shù)據(jù)集含26個類別,對應英文26個大寫字母;每個類別含55個字符圖片,部分字母圖片如圖3所示。
為提高算法的訓練速度,在利用各算法進行測試前,需要將MNIST數(shù)據(jù)集和Chars74k數(shù)據(jù)集的像素大小和文字大小的數(shù)據(jù)值縮小到一定范圍內。本研究根據(jù)MNIST數(shù)據(jù)集和Chars74k數(shù)據(jù)集像素值實際大小[0,255],使用簡單縮放將圖像數(shù)據(jù)像素值縮放到[0,1],并進行仿真實驗。
3.2 仿真結果
為驗證本文提出的組合自編碼網(wǎng)絡識別手寫英文字體的有效性,本研究首先比較了該算法與單一特征提取算法分類編碼器在不同迭代次數(shù)、網(wǎng)絡結構和降噪比例下對數(shù)據(jù)集的識別結果,然后在Chars74K數(shù)據(jù)集測試了該算法在類別復雜的情況下對手寫英文文字體圖像分類識別性能。
3.2.1 不同迭代次數(shù)下各算法結果分析
令迭代次數(shù)為100,經(jīng)過編碼器預訓練后,可得到初始化參數(shù),此時不同迭代次數(shù)中的各算法的識別錯誤率就反映了它們各自的初始化效果和特征提取能力。圖4表示組合自編碼網(wǎng)絡與分類編碼器算法的識別錯誤率。
由圖4可知,組合自編碼網(wǎng)絡的在MNIST數(shù)據(jù)集上的識別錯誤率明顯低于分類降噪自動編碼器的識別錯誤率,說明組合組合自編碼網(wǎng)絡可有效提高手寫英文字體識別的準確率;組合自編碼網(wǎng)絡在迭代次數(shù)為20后逐漸趨于穩(wěn)定,而分類降噪自動編碼器在迭代次數(shù)為40后逐漸趨于穩(wěn)定,說明組合自編碼網(wǎng)絡算法的波動性更小,具有良好的穩(wěn)定性。
3.2.2 不同網(wǎng)絡結構下各算法結果分析
測試節(jié)點數(shù)決定了特征提取過程中特征的維數(shù),影響著算法的識別率,而不同的網(wǎng)絡結構具有不同數(shù)量的測試節(jié)點。本研究將不同網(wǎng)絡結構的算法在MINST數(shù)據(jù)集上進行實驗,得到如表1所示的識別錯誤率。
由表1可知,不同網(wǎng)絡結構中,組合自編碼網(wǎng)絡算法的識別錯誤率在0.012左右,分類降噪自動編碼器的識別錯誤率在0.016左右,可見組合自編碼網(wǎng)絡算法的識別錯誤率整體上低于分類降噪自動編碼器,說明不同的網(wǎng)絡結構中,組合自編碼網(wǎng)絡算法具有更好的適用性。
3.2.3 不同降噪比例下各算法結果分析
通過改變降噪比例在區(qū)間[0,0.9]內變化,得到各算法的識別結果如圖5所示。
由圖5可知,組合自編碼網(wǎng)絡算法的識別錯誤率在0.012~0.018之間,分類降噪自動編碼器的識別錯誤率在0.016~0.022之間,可見不同降噪比例下,組合自編碼網(wǎng)絡算法的性能優(yōu)于分類降噪自動編碼器,且穩(wěn)定性更強。
3.2.4 Chars74K數(shù)據(jù)集測試結果分析
通過比較組合自編碼網(wǎng)絡算法和分類降噪自動編碼器最后一個隱藏層不同節(jié)點數(shù)的分類錯誤率,得到各算法在Chars74K數(shù)據(jù)集上的識別錯誤率結果,如圖6所示。
由圖6可知,Chars74K數(shù)據(jù)集中,組合自編碼網(wǎng)絡算法在不同網(wǎng)絡結構下的識別錯誤率均低于分類降噪自動編碼器,說明組合自編碼算法在特征提取過程中可以增加特征的多樣性,從而降低了識別錯誤率,進而證明了組合自編碼算法的可行性和有效性。此外,當最后一層隱藏層節(jié)點數(shù)為80時,組合自編碼算法和分類降噪自動編碼器均取得了較好的識別效果,說明適當增加節(jié)點數(shù)可提高算法識別性能,而過度增加節(jié)點數(shù)會造成過度擬合,進而降低算法的識別性能。
4 結論
手寫英文字體識別化學書稿,是為更好促進化學信息的交流與應用。本研究基于深度學習的特征提取算法提出組合自編碼網(wǎng)絡算法,通過對化學書稿中手寫英文字體特征的組合,實現(xiàn)對化學書稿手寫英文字體識別。為檢驗本研究提出的組合自編碼算法的有效性,通過MNIST手寫英文字體數(shù)據(jù)集測試了該算法與分類降噪自動編碼算法在不同迭代次數(shù)、網(wǎng)絡結構和降噪比例下對數(shù)據(jù)集的識別結果,并在Chars74K數(shù)據(jù)集測試了該算法在類別復雜的情況下對手寫英文文字體圖像分類識別性能。實驗結果表明,本研究提出的組合自編碼算法的識別錯誤率整體偏低,證明該算法具有良好的手寫英文字體識別效果。
參考文獻
[1]董麗麗,楊丹,張翔.基于深度學習的大規(guī)模語義文本重疊區(qū)域檢索[J/OL].吉林大學學報(工學版):1-6[2020-10-04].
[2]吳睿智,朱大勇,王春雨,等.基于圖卷積神經(jīng)網(wǎng)絡的位置語義推斷[J].電子科技大學學報,2020,49(05):739-744.
[3]徐琴珍,楊綠溪.基于改進的混合學習模型的手寫阿拉伯數(shù)字識別方法[J].電子與信息學報,2010,32(02):433-438.
[4]李其娜,李廷會.基于深度學習的情境感知推薦系統(tǒng)研究進展[J].計算機系統(tǒng)應用,2020,29(02):1-8.
[5]陳廣,韓衛(wèi)占,張文志.基于深度學習的加密流量分類與入侵檢測[J].計算機測量與控制,2020,28(01):54-60.
[6]張尚田,陳光,邱天.基于融合特征的LSTM評分預測[J].計算機與現(xiàn)代化,2020(03):49-53+59.
[7]李良福,宋睿,馮建云,等.基于深度降噪自編碼器的多特征目標融合跟蹤算法[J].光電子·激光,2020,31(02):175-186.
[8]龐傳軍,余建明,馮長有,等.基于LSTM自動編碼器的電力負荷聚類建模及特性分析[J/OL].電力系統(tǒng)自動化:1-11[2020-10-03].
[9]徐其華,孫波.基于深度學習和證據(jù)理論的表情識別模型[J/OL].計算機工程與科學:1-10[2020-10-03].
[10]王生生,張航,潘彥岑.基于改進SPNs的深度自動編碼器及短文本情感分析應用[J/OL].哈爾濱工程大學學報:1-8[2020-10-03].