薛先貴 黎路
【摘 要】本文對卷積神經(jīng)網(wǎng)絡(luò)的圖像特征提取技術(shù)進(jìn)行了綜述,探討了它的原理和發(fā)展方向,對于它的存在問題給出了相關(guān)的建議。
【關(guān)鍵詞】卷積神經(jīng)網(wǎng)絡(luò);圖像特征;特征提取
中圖分類號: TP183;TP391.41文獻(xiàn)標(biāo)識碼: A 文章編號: 2095-2457(2019)07-0083-002
DOI:10.19694/j.cnki.issn2095-2457.2019.07.033
【Abstract】In this paper, the image feature extraction technology based on convolutional neural network is summarized, its principle and development direction are discussed, and some suggestions for its problems are given.
【Key words】Convolutional Neural Network; Image features; Feature extraction
0 前言
目前,對于流行全球的深度學(xué)習(xí),一般來說有三種基本架構(gòu):DBN結(jié)構(gòu),SAE結(jié)構(gòu)與卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)(CNN),分別活躍于大數(shù)據(jù)挖掘,數(shù)據(jù)分類和圖像處理等領(lǐng)域。其中卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)( CNN)由于在機(jī)器視覺方面的突出表現(xiàn),使之成為圖像處理的不二人選,本文介紹了CNN技術(shù)在圖像特征提取中的應(yīng)用。
1 卷積神經(jīng)網(wǎng)絡(luò)的原理及其經(jīng)典的四種結(jié)構(gòu)
卷積神經(jīng)網(wǎng)絡(luò)(CNN)是一種局部連接網(wǎng)絡(luò),相對于典型的BP全連接神經(jīng)網(wǎng)絡(luò)來說,具有局部連接性和權(quán)值共享性的的特點。這種神經(jīng)網(wǎng)絡(luò)不僅大量的減少了訓(xùn)練參數(shù),還符合自然圖像中越近的像素對旁邊的像素影響越大的特點。卷積神經(jīng)網(wǎng)絡(luò)的權(quán)重共享構(gòu)成卷積核,并且它與給定圖像做卷積后就可以提取圖像的某種特征。在圖像處理的過程中,通過許多不同的卷積核參數(shù)的訓(xùn)練,就可以自動提取相同圖像的不同圖像特征。
目前,根據(jù)卷積神經(jīng)網(wǎng)絡(luò)的發(fā)展歷程,共有四種經(jīng)典結(jié)構(gòu)用于圖像特征提?。篖eNet網(wǎng)絡(luò),AlexNet網(wǎng)絡(luò),VggNet網(wǎng)絡(luò),ResNet網(wǎng)絡(luò)。
LeNet網(wǎng)絡(luò)是在1994年由Yan LeCun提出,也就是第一代卷積神經(jīng)網(wǎng)絡(luò)。LeNet主要用來進(jìn)行手寫字符的識別與分類,準(zhǔn)確率達(dá)到了98 ,已經(jīng)在美國的銀行中投入了使用,被用于讀取北美約10 的支票。AlexNet網(wǎng)絡(luò)由 Hinton的學(xué)生 Alex Krizhevsky于2012年提出,是 LeNet的一種更深更寬的版本,通過與其他各種圖像識別算法的比較,確定了卷積神經(jīng)網(wǎng)絡(luò)在計算機(jī)視覺中的優(yōu)勢。VGGNet網(wǎng)絡(luò)是由牛津大學(xué)計算機(jī)視覺組和Google DeepMind進(jìn)一步開發(fā)的深度卷積神經(jīng)網(wǎng)絡(luò)[2]。ResNet(殘差神經(jīng)網(wǎng)絡(luò))由何華明等人于2015年提出。通過殘差學(xué)習(xí),可以做到更深的網(wǎng)絡(luò)結(jié)構(gòu),從而存貯更多圖像特征,識別更加精準(zhǔn)。
2 卷積神經(jīng)網(wǎng)絡(luò)提取圖像特征的原理
卷積神經(jīng)網(wǎng)絡(luò)識別圖像是將一個完整的圖片經(jīng)過多次或者并行的自動特征提取,然后把每個圖像特征匯總到一起,在比較相似性之后,可以從高概率完成圖像識別的過程。從本質(zhì)上說,這是一個深度的自動學(xué)習(xí)過程,我們前面所定義的圖像特征可能并不適合卷積神經(jīng)網(wǎng)絡(luò)的特征分類,對于卷積神經(jīng)網(wǎng)絡(luò)的提取特征而言,雖然有很多的還原算法試圖理解機(jī)器所提取的特征,但是就目前而言,機(jī)器所提取的特征不太適合人腦理解,甚至可能找到了人腦所沒發(fā)現(xiàn)的圖像特征。
2.1 圖像特征提取技術(shù)構(gòu)成
2.1.1 建立卷積層提取初步特征
卷積層的作用就是提取圖片中的某個初步特征,類似一個濾波器(其細(xì)節(jié)不完全相同),經(jīng)過大量的訓(xùn)練以后,機(jī)器自動調(diào)整卷積核的值,然后與圖片矩陣做卷積,可以從圖像中提取一定的特征出來,卷積核的數(shù)量對初步特征提取有很大影響,但是時間消耗相應(yīng)地增加。
2.1.2 建立池化層提取主要特征
匯集層連接到卷積層,因此匯集層的輸入是由卷積層和相應(yīng)的卷積核輸出的原始數(shù)據(jù)的輸出矩陣。目前,有很多文章指出,不用池化層也不影響特征提取的質(zhì)量,但是,池化層的主要作用是可以減少訓(xùn)練參數(shù)的數(shù)量,降低卷積層輸出的特征向量的維數(shù)[3]和減少過度擬合現(xiàn)象,僅保留最有用的圖像信息,并減少噪聲的傳播。
2.1.3 建立一個完全連接的層來匯總每個部分的功能
卷積層和池化層的共同作用下,不僅可以提取圖像特征,同時大大減少原始圖像帶來的參數(shù)。最后,我們應(yīng)用完全連接的層來生成一個等于我們需要的類數(shù)的分類器。將權(quán)重矩陣相乘,添加偏移值,然后使用ReLU激活函數(shù)使用梯度下降方法優(yōu)化參數(shù)。
最后鑒別圖像的圖像特征都提取出來了,就可以從特征的不同和相同出發(fā),用神經(jīng)網(wǎng)絡(luò)的來識別千萬張圖片中的特定一張了。
3 圖像特征提取的發(fā)展方向
目前,對這種神經(jīng)網(wǎng)絡(luò)的改進(jìn)集中于如上所述將圖像特征提取到神經(jīng)網(wǎng)絡(luò)中的過程。首先,對于卷積層的改進(jìn)有以下幾種:卷積核小型化,1x1卷積,Network In Network,Inception機(jī)制,卷積分解(Factorization),反卷積運算等等。例如,Network In Network的主要思想是用小規(guī)模神經(jīng)網(wǎng)絡(luò)替換卷積層的線性濾波器[4]。1x1卷積可用于減少信道維數(shù)或用于完整卷積網(wǎng)絡(luò),確保卷積網(wǎng)絡(luò)可接受任何大小的輸入圖像。并能做逐像素的預(yù)測。其次,對于池化層的改進(jìn)主要有以下幾種:L-P池化,混合池化,隨機(jī)池化,Spatial pyramid pooling,ROI pooling。Spatial pyramid pooling在SPP網(wǎng)絡(luò)中提出, ROI pooling在Fast R-CNN算法中提出。然后,還有其他功能可以更改網(wǎng)絡(luò)的其他部分,例如激活功能。ReLU,ELU,PReLU等取得了良好的效果,其中ReLU及其改進(jìn)型廣泛應(yīng)用于卷積網(wǎng)絡(luò)。最后,目前發(fā)展最快的是網(wǎng)絡(luò)結(jié)構(gòu)的改進(jìn),比如殘差網(wǎng)絡(luò)和DenseNet等結(jié)構(gòu)等等。
4 總結(jié)
目前,基于卷積神經(jīng)網(wǎng)絡(luò)圖像分類的應(yīng)用很多,識別效果非常好。但是,一些迫切的問題目前都沒有解決:首先,還沒有形成一套完整的結(jié)構(gòu)理論或解釋理論?,F(xiàn)在許多識別系統(tǒng)都是根據(jù)特定的數(shù)據(jù)庫,然后設(shè)計特別的網(wǎng)絡(luò),通過不斷的訓(xùn)練,同時結(jié)合人工來發(fā)現(xiàn)最佳的參數(shù)和優(yōu)化算法,這樣應(yīng)用的局限性比較大,同時也沒有較系統(tǒng)的理論來糾正后期錯誤。第二,現(xiàn)有的算法和結(jié)構(gòu)尚存在一些缺陷。比如對海量圖像進(jìn)行分類識別時,初始狀態(tài)參數(shù)以及圖片算法的選取,會對網(wǎng)絡(luò)訓(xùn)練造成很大影響。但不可否認(rèn)的是,卷積神經(jīng)網(wǎng)絡(luò)在圖像處理領(lǐng)域的統(tǒng)治地位已經(jīng)牢不可破,更多的可能是,我們需要更好的理論來解釋和控制神經(jīng)網(wǎng)絡(luò)。
【參考文獻(xiàn)】
[1]何立民,萬躍華.數(shù)字圖書館中基于內(nèi)容的圖像檢索關(guān)鍵技術(shù)[J].中國圖書館學(xué)報,2002,28(6):39-43.
[2]佘鵬,甘健侯,文斌,et al.經(jīng)典深度卷積神經(jīng)網(wǎng)絡(luò)模型在手繪草圖識別中的應(yīng)用研究[J].云南師范大學(xué)學(xué)報:自然科學(xué)版,2018.
[3]常祥,楊明.基于改進(jìn)的卷積神經(jīng)網(wǎng)絡(luò)的圖像分類性能[J].重慶理工大學(xué)學(xué)報(自然科學(xué)版),2017(3).
[4]范青.卷積神經(jīng)網(wǎng)絡(luò)中減少訓(xùn)練樣本時間方法研究[J]. 電腦知識與技術(shù),2016(33):173-176.