安麗娜 蔣銳鵬
摘? ?要:隨著科技的不斷發(fā)展,卷積神經(jīng)網(wǎng)絡被廣泛應用于各個領域之中,研究熱點之一就是手寫數(shù)字的識別。文章基于深度學習卷積神經(jīng)網(wǎng)絡,用MNIST數(shù)據(jù)集作為訓練集和測試集,同時對卷積神經(jīng)網(wǎng)絡中的卷積層、池化層和全連接層以及激活函數(shù)進行介紹,并在Python的環(huán)境下輸入手寫數(shù)字圖片,然后通過卷積神經(jīng)網(wǎng)絡經(jīng)典模型運用到所提供的數(shù)據(jù)集進行效果識別,將卷積神經(jīng)網(wǎng)絡數(shù)據(jù)集進行訓練,在訓練好的卷積神經(jīng)網(wǎng)絡中取得了較好的實驗效果,最終該手寫數(shù)字識別實驗準確精度可以達到99.1%。
關鍵詞:手寫數(shù)字識別;深度學習;卷積神經(jīng)網(wǎng)絡
1? ? MNIST數(shù)據(jù)集介紹
深度學習就像人腦學習的過程一樣非常復雜,要通過上課對新知識的理論有一定理解之后,再將所學到的理論知識運用到實踐中去,經(jīng)過不斷地思考和訓練,以及對實驗參數(shù)的優(yōu)化,才能得到一個學習模型。其中,卷積神經(jīng)網(wǎng)絡(Convolutional Neural Networks,CNN)是包含卷積計算且具有深度結構的前饋神經(jīng)網(wǎng)絡[1]。本文用MNIST數(shù)據(jù)集[2]作為訓練集和測試集,想要得到一個好的學習模型,根據(jù)圖像數(shù)據(jù)的類型選擇適用的分類器很關鍵。深度學習隨著時間的推移而更加深入,將深度學習運用到手寫數(shù)字識別中也逐步成熟。目前手寫數(shù)字識別的方法主要有模板匹配法、統(tǒng)計決策法、句法結構法、模糊判別法、邏輯推理法和神經(jīng)網(wǎng)絡法等[3-6]。國內(nèi)外的研究人員也通過自身的努力取得了一定的研究成果和突破,而且大部分研究成果在市場上隨處可見,給人們的生活帶來了極大的便利。
本文研究的主要內(nèi)容是基于卷積神經(jīng)網(wǎng)絡的圖像識別方法,將卷積神經(jīng)網(wǎng)絡和圖像識別進行結合,在海量的圖像數(shù)據(jù)中得到有效的信息。根據(jù)傳統(tǒng)圖像識別方法的缺點和不足之處,提出了自己的優(yōu)化模型,并對影響實驗結果的參數(shù)進行調整,訓練出更有效果的卷積神經(jīng)網(wǎng)絡模型,改進之后的學習模型在圖像檢測中有了較大的進步。
2? ? 理論基礎
2.1? 卷積運算
文中所提到的卷積實則是兩個變量的一種代數(shù)運算,卷積運算表示:
在此公式中,ω為有意義的概率密度函數(shù),當所提供的參數(shù)為負值時,則ω=0。卷積運算過程中的第一個參數(shù),叫作輸入值,通過運算,得到的第二個參數(shù),叫作核函數(shù)。
2.2? 池化層和激活函數(shù)
在卷積神經(jīng)網(wǎng)絡模型中通常使用的池化操作有平均值池化(mean-pooling)和最大值池化(max-pooling),均值操作最后的值為平均值,最值操作最后的值為最大值。池化操作和卷積操作不同的是不需要參數(shù)學習,使用的過程中只需確定好池化的類型以及池化核的特定大小和步長。
ReLU函數(shù)是深度學習和機器學習中運用最為廣泛的激活函數(shù)之一,能夠有效避免參數(shù)的數(shù)值過大所引起的梯度飽和現(xiàn)象,并且該函數(shù)可以加快梯度下降法的收斂速度。
ReLU函數(shù)在數(shù)學中就是一個分段函數(shù),其表達式為:
通過函數(shù)的性質,可以知道梯度在x≥0時為1,當x<0時為0。
2.3? 全連接層
Softmax分類器是logistic回歸模型在多分類情況上的推廣[7]。令輸入特征x(i)和樣本y(i),k表示向量的維數(shù),該函數(shù)表達式為:
式中,θ1, θ2, ……,θk∈是模型參數(shù),所有的概率總和為1。
3? ? 實驗分析
該學習模型采用MNIST訓練數(shù)據(jù)集進行圖像識別,該數(shù)據(jù)集中有訓練集和測試集,共70 000張不同的圖片,其中訓練集的圖片有60 000張,測試集的圖片有10 000張,并且每張圖片都是28×28的像素。在本文數(shù)字圖像識別中用到的卷積是二維卷積核與二維圖像做卷積操作[8],該實驗在Windows電腦系統(tǒng)下完成,運用深度學習結構和Python語言編碼進行仿真實驗。
本文的卷積神經(jīng)網(wǎng)絡模型的結構主要包括:輸入層、卷積層、池化層、全連接層、Soft max輸出層。MNIST數(shù)據(jù)集中的圖像是由數(shù)字0~9組成。首先,輸入的圖像通過卷積操作后得到有效信息;其次,確定卷積核的大小以及步長。全連接層在卷積神經(jīng)網(wǎng)絡中用于“分類”,以概率的形式去確定識別結果。從圖1—2中可以客觀地評價本文卷積神經(jīng)網(wǎng)絡模型的有效性,最終實驗結果表明手寫數(shù)字的識別準確精度可以達到99.1%。
[參考文獻]
[1]程國建,岳清清.卷積神經(jīng)網(wǎng)絡在巖石薄片圖像檢索中的應用初探[J].智能計算機與應用,2018(2):43-46.
[2]林大貴.TensorFlow+Keras深度學習人工智能實踐應用[M].北京:清華大學出版社,2018.
[3]馬媛媛,史加榮.卷積神經(jīng)網(wǎng)絡及其在手寫體數(shù)字識別中的應用[J].湖北工程學院學報,2017(6):68-74.
[4]張翼成,陳欣,楊紅軍,等.基于組合特征的BP神經(jīng)網(wǎng)絡數(shù)字識別方法[J].計算機系統(tǒng)應用,2013(3):113-116.
[5]劉高平,趙杜娟,黃華.基于自編碼神經(jīng)網(wǎng)絡重構的車牌數(shù)字識別[J].光電子·激光,2011(1):144-148.
[6]杜選,高明峰.人工神經(jīng)網(wǎng)絡在數(shù)字識別中的應用[J].計算機系統(tǒng)應用,2007(2):21-22.
[7]劉洋洋,嵇啟春.一種改進的模板匹配的數(shù)字識別算法[J].工業(yè)控制計算機,2010(5):76-77.
[8]李金洪.深度學習之TensorFlow入門、原理與進階實戰(zhàn)[M].北京:機械工業(yè)出版社,2018.