李航 厲丹 朱晨 姚瑤 張麗娜
摘要:卷積神經(jīng)網(wǎng)絡(luò)是人工神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)相結(jié)合,從而實現(xiàn)深度學(xué)習(xí)的方法。其具有良好的容錯性、自適應(yīng)性以及較強的自學(xué)習(xí)能力,還具有自動提取特征、權(quán)值共享以及輸入圖像與網(wǎng)絡(luò)結(jié)構(gòu)結(jié)合良好等優(yōu)勢?;诰矸e神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)的圖像識別系統(tǒng),首先對不同的圖像進(jìn)行采集,將采集的得到的結(jié)果作為訓(xùn)練集和測試集。通過卷積神經(jīng)網(wǎng)絡(luò)對采集結(jié)果的訓(xùn)練,得到用來識別的各類特征,識別的結(jié)果可以得到圖像的類別信息。
關(guān)鍵詞:卷積層神經(jīng)網(wǎng)絡(luò);深度學(xué)習(xí);圖像識別;圖像分類;Alexnet構(gòu)架
中圖分類號:TP183 文獻(xiàn)標(biāo)識碼:A
文章編號:1009-3044(2020)10-0196-02
隨著科學(xué)技術(shù)的飛速發(fā)展,圖像識別技術(shù)在社會各領(lǐng)域得以應(yīng)用。圖形識別技術(shù)可以作為一項基礎(chǔ)技術(shù)應(yīng)用于如工業(yè)零件分類、人臉識別以及手勢識別等。當(dāng)前的圖像識別也是作為一項十分熱門的技術(shù)被大眾所廣泛討論。
深度學(xué)習(xí)是機器學(xué)習(xí)的一個新的熱門研究方向,其旨在模仿人類的學(xué)習(xí)模式,通過對輸入樣本的訓(xùn)練與測試,由簡及深地提取特征來區(qū)分樣本。通過深度學(xué)習(xí)來進(jìn)行圖像識別也是如此,通過對于圖像樣本的訓(xùn)練和測試,對樣本進(jìn)行分類。本文討論深度學(xué)習(xí)應(yīng)用在圖像識別這一課題。
1卷積神經(jīng)網(wǎng)絡(luò)
1.1卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
卷積神經(jīng)網(wǎng)絡(luò)與普通神經(jīng)網(wǎng)絡(luò)非常的相似也具有可學(xué)習(xí)的權(quán)重和偏置常量的神經(jīng)元組成,每個神經(jīng)元都接收一些輸人,并做一些點積計算,輸出是每個分類的分?jǐn)?shù),普通神經(jīng)網(wǎng)絡(luò)里的一些計算技巧到這里依舊適用,卷積神經(jīng)網(wǎng)絡(luò)由輸出層、卷積層、池化層、全連接層組成。
輸入層是對于整個神經(jīng)網(wǎng)絡(luò)的一個輸入,通常為一張圖片的像素矩陣。其中,在CNN層次結(jié)構(gòu)中,對于黑白圖片的輸入為一張二維神經(jīng)元,而對于RGB格式的圖片,輸人為一張三維神經(jīng)元。
卷積層是卷積神經(jīng)網(wǎng)絡(luò)中最為重要和關(guān)鍵的一層。卷積神經(jīng)網(wǎng)絡(luò)中的卷積層由若干的卷積單元所組成。卷積層中的輸入只是上一層神經(jīng)網(wǎng)絡(luò)的一小部分,卷積層將輸入分為一個又一個小區(qū)域例如3*3、5*5進(jìn)行特征提取。第一次的卷積是對低層次的、簡單的特征如線條和邊角等進(jìn)行提取,之后逐層不斷地提取和壓縮,最后以得到較為高層次的特征。換言之,也就是說對于之前所提取出原始的特征進(jìn)行逐漸地壓縮、提煉。這樣使我們最后提取到的更加有效、可靠??梢詫⒆詈筇崛〕龅奶卣饔脕矸诸?。卷積層的正向傳播映射為:
全連接層在卷積神經(jīng)網(wǎng)絡(luò)中起到了“分類器”的作用,全連接層的每一個節(jié)點都與上一層每個節(jié)點連接,也就是把前一層的輸局部特征都綜合起來,變成全局特征,最后計算每一類的得分,進(jìn)行分類。
2基于卷積神經(jīng)網(wǎng)絡(luò)的圖像識別系統(tǒng)
本文的基于卷積神經(jīng)網(wǎng)絡(luò)的圖片識別系統(tǒng)的實驗過程總體上可分為四點:A、數(shù)據(jù)集的準(zhǔn)備:準(zhǔn)備數(shù)據(jù)集,即為對物品進(jìn)行拍攝整理或者搜集有關(guān)圖像的圖樣。B、計算機模擬訓(xùn)練:將之前所收集的數(shù)據(jù)集在分作訓(xùn)練集、測試集,對于數(shù)據(jù)集輸入進(jìn)行訓(xùn)練。C、進(jìn)行圖像識別:基于卷積層的神經(jīng)網(wǎng)絡(luò)識別系統(tǒng)對于訓(xùn)練集可生成圖像識別的模型,以此完成對于圖像的識別。D、輸出顯示:將圖像識別的輸出結(jié)果進(jìn)行顯示。
2.1實驗數(shù)據(jù)集準(zhǔn)備
本文將選取幾種常見的物體圖像進(jìn)行圖片識別實驗。本次的數(shù)據(jù)集的樣本主要通過搜集圖片的方式來完成。通過搜集不同角度的、不同光線條件下的同一零件的圖片來準(zhǔn)備數(shù)據(jù)集。對于圖片,也可以通過拍照的方式來獲取樣本進(jìn)行訓(xùn)練。我們可以通過自己拍的照片來制作圖片數(shù)據(jù)集文件來完成訓(xùn)練集和測試集的準(zhǔn)備。本文所采集的圖像部分樣本如圖所示:
2.2模型訓(xùn)練
在本系統(tǒng)中是用的是Mexnet構(gòu)架,Alexnet一共有八個權(quán)重層,分別是由5個卷積層和三個全連接層組成,每個卷積層和全連接層都會受到ReLU激活函數(shù)的作用,在第一個卷積層和第二個卷積層后面連接一個局部響應(yīng)規(guī)范化層,最大池化層作用在第一個卷積層、第二個卷積層和第五個卷積層的輸出上。AlexNet在結(jié)構(gòu)總拋棄了以往的“s”形激活函數(shù),傳統(tǒng)的“s”型激活函數(shù)有sigmoid函數(shù)和tanh函數(shù):
sigmoid函數(shù)具有飽和性,當(dāng)輸人較大或者較小的時候,輸出的曲線接近平緩,此時梯度幾乎為0,會造成消失的梯度的問題,并且它的輸出均值不為0,可能會造成偏置轉(zhuǎn)移,會使得后一層的神經(jīng)元將上一層的輸出的非0均值的信號作為輸入,并且它的輸出范圍在0~1,沒有包含負(fù)信息,可能會損失一部分有用的信息。
tanh函數(shù)的輸出值的范圍為[-1,1],其輸出均值為0,并且包含了負(fù)信息,但是由于它也具有飽和特性,所以也會造成消失的梯度問題。
ReLU的形式為:f(x)=max(0,x),當(dāng)輸入為正時,輸出值取其本身,此時關(guān)于輸入x的導(dǎo)數(shù)為1,是一個常數(shù),避免了消失的梯度問題,并且當(dāng)輸入小于0時,輸出為0,引進(jìn)了稀疏性,能夠加速訓(xùn)練,但是由于其輸出均值也大于0,所以也會出現(xiàn)偏置轉(zhuǎn)移現(xiàn)象,并且由于當(dāng)輸入小于0時,對應(yīng)的神經(jīng)元輸出為0,梯度為0,對應(yīng)的權(quán)重也就無法更新。Mexnet網(wǎng)絡(luò)結(jié)構(gòu)圖如下:
2.3進(jìn)行圖像識別
通過模擬訓(xùn)練,系統(tǒng)得到了一個圖像識別的深度學(xué)習(xí)模型。部分識別結(jié)果如下圖4所示,其中(a)橡皮鴨的識別結(jié)果,(b)為招財貓的識別結(jié)果,(c)為茶杯的識別結(jié)果。本次實驗訓(xùn)練集為1000,測試集為300,正確率可以穩(wěn)定在95%左右。
3總結(jié)與展望
本文所研討的是基于卷積層神經(jīng)網(wǎng)絡(luò)的圖像識別系統(tǒng)。通過對于圖像拍攝以及圖像搜集,準(zhǔn)備數(shù)據(jù)集來進(jìn)行模擬訓(xùn)練進(jìn)而實現(xiàn)對于圖像的識別。本系統(tǒng)所研討的方向有較大的應(yīng)用價值,其可以作為一項基礎(chǔ)的技術(shù)在社會各領(lǐng)域都有一定的應(yīng)用前景。但是有關(guān)圖像的種類我們所做的測試還不夠,還可以擴大訓(xùn)練集。其次對于比較復(fù)雜特征的圖形識別做的研討還不夠,仍值得進(jìn)一步研究、實驗。