高榮芳 吉春旭 程國建
(西安石油大學(xué)計算機學(xué)院 西安 710065)
?
從淺層網(wǎng)絡(luò)到深度網(wǎng)絡(luò)的圖像分類研究綜述*
高榮芳吉春旭程國建
(西安石油大學(xué)計算機學(xué)院西安710065)
目前,圖像已成為表達和存儲信息的慣用形式。如何用計算機對海量圖像進行高效分類,從而提取和組織需要的數(shù)據(jù)信息,已變成機器學(xué)習(xí)領(lǐng)域的一項高關(guān)注度課題。通過簡述從淺層網(wǎng)絡(luò)(神經(jīng)網(wǎng)絡(luò))到深度網(wǎng)絡(luò)的發(fā)展以及基于淺層網(wǎng)絡(luò)和深度網(wǎng)絡(luò)的圖像分類的發(fā)展,并將淺層網(wǎng)絡(luò)與深度網(wǎng)絡(luò)進行對比,從而指出基于深度網(wǎng)絡(luò)的圖像分類技術(shù)更具有優(yōu)勢和巨大潛力。
圖像分類; 淺層網(wǎng)絡(luò); 神經(jīng)網(wǎng)絡(luò); 深度網(wǎng)絡(luò); 深度學(xué)習(xí)
Class NumberTP391.41
伴隨著互聯(lián)網(wǎng)技術(shù)、多媒體技術(shù)和計算機的快速發(fā)展,圖像已成為表達和存儲信息的慣用形式,它的數(shù)量呈現(xiàn)快速增長趨勢,并且其內(nèi)容和形式也漸漸多樣化。但是圖像信息無序化問題也越來越突出。所以,面對海量的圖像數(shù)據(jù),如何用計算機對其進行智能化的、高效的處理并且進行分類和識別,從而提取和組織需要的數(shù)據(jù)信息,已變成目前機器學(xué)習(xí)領(lǐng)域中的一項具有高關(guān)注度的課題。眾多研究人員在圖像分類領(lǐng)域進行了大量相關(guān)研究,在一定程度上使人工智能向前邁進了一大步。然而,當(dāng)今圖像分類技術(shù)還遠遠低于我們的期望,是因為圖像本身具有復(fù)雜性和多變性以及理論和技術(shù)發(fā)展的局限性等。
圖像分類是根據(jù)圖像場景或者目標(biāo)在圖像中反映出不同特征,進而進行分類和識別圖像。它的研究目標(biāo)是在給定一副圖像時,計算機能根據(jù)該圖像所具有的某種屬性識別出其所屬類別,進而對圖像進行理解。
圖像分類似乎是神經(jīng)網(wǎng)絡(luò)應(yīng)用最多的領(lǐng)域。在實現(xiàn)過程中,可用原始圖像作為輸入,用神經(jīng)網(wǎng)絡(luò)的中間隱藏層進行特征提取,通過對不同圖像的特征進行提取,從而分類和識別圖像,達到獲取圖像關(guān)鍵信息和理解圖像的目的。大部分情況下,我們要對原始圖像采取一定的預(yù)處理操作。圖像分類的關(guān)鍵問題是如何抽取有效特征。
2.1神經(jīng)網(wǎng)絡(luò)簡介
人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Networks,ANN),也稱神經(jīng)網(wǎng)絡(luò),是以人腦的組織構(gòu)成和人腦的認識為基礎(chǔ)的一種建模技術(shù)。ANN是大量神經(jīng)元相互聯(lián)系在一起組成的,主要通過對神經(jīng)元之間的權(quán)值進行調(diào)整來對輸入數(shù)據(jù)建模,最終具有能力來解決實際問題。
ANN應(yīng)用于圖像分類的主要思路是:將原始圖像或者經(jīng)過預(yù)處理的圖像當(dāng)作網(wǎng)絡(luò)輸入信號,在網(wǎng)絡(luò)輸出端獲得處理后的圖像分類結(jié)果。
ANN模型含有節(jié)點和連接權(quán)值,可分為不同種類:
1) 依據(jù)結(jié)構(gòu)的不同,分為前向網(wǎng)絡(luò)和反饋網(wǎng)絡(luò)。
2) 依據(jù)學(xué)習(xí)方式不同,分為無監(jiān)督學(xué)習(xí)網(wǎng)絡(luò)和有監(jiān)督學(xué)習(xí)網(wǎng)絡(luò)。
2.2神經(jīng)網(wǎng)絡(luò)在圖像分類中的應(yīng)用
文獻[1]中,作者搭建了支持向量機(SVM)模型和ANN識別模型,并用這兩種模型識別花生莢果品種,從試驗結(jié)果可以看出,采集的特征經(jīng)PCANN優(yōu)化后表現(xiàn)出更為強大的識別能力。文獻[2]采用線性辨識分析神經(jīng)網(wǎng)絡(luò)(Linear Discriminant Analysis Neural Networks,LDA)進行人臉識別中的特征提取任務(wù)。文獻[3]用一種基于BPNN的水果分級方法對水果等級進行分級,達到92.5%的平均正確率效果。文獻[4]中,研究者提出了基于神經(jīng)網(wǎng)絡(luò)的巖石組構(gòu)自動分類的框架并進行測試,結(jié)果表明分類正確率高達93.3%。當(dāng)然,還有很多沒有列舉出的基于神經(jīng)網(wǎng)絡(luò)對圖像進行分類的例子??梢?神經(jīng)網(wǎng)絡(luò)技術(shù)在圖像分類應(yīng)用中已基本成熟。
上述的圖像分類研究中,盡管取得了一定效果,但都是對淺層ANN的訓(xùn)練,其中還存在一些問題,比如對多層ANN的訓(xùn)練效果不理想、特征選取是人為選取等。
近幾年研究者研究出一些可以自動從圖像中學(xué)習(xí)特征的方法,稱為深度學(xué)習(xí)(Deep Learning,DL)。2006年,Hinton和他的學(xué)生Salakhutdinov發(fā)表了一篇名為《Reducing the dimensionality of data with neural networks》的論文[5],提出深度學(xué)習(xí)的概念,開啟了DL在工業(yè)界和學(xué)術(shù)界的浪潮。
4.1深度學(xué)習(xí)簡介
DL本身是對ANN的復(fù)興。DL的特點是含有多個隱藏層,與人類的視覺系統(tǒng)分級處理視覺信息相似,從原始輸入圖像的像素的基礎(chǔ)上通過逐層學(xué)習(xí)而得到越來越接近語義和抽象的特征,也就是由低層特征組合形成了高層特征并且由低層到高層的特征表示愈來愈抽象,進而用學(xué)習(xí)到特征進行分類或者預(yù)測。如圖1所示。
圖1 深度學(xué)習(xí)處理過程[6]
4.2深度學(xué)習(xí)的常用方法
現(xiàn)如今,廣泛使用的DL算法可以分為三大類[7]:
1) 將傳統(tǒng)ANN往更深層開拓擴展的深度ANN,比如說基于自動編碼機的框架[8];
2) 概率圖模型,譬如深度受限玻茲曼機[9]以及深度信念網(wǎng)絡(luò)[10]等;
3) 卷積神經(jīng)網(wǎng)絡(luò)[11]。
除此之外,還包含廣義的DL,即將現(xiàn)有模型拓展為多層模型而得到的,例如CANet[12]和ScatNet[13]等。如圖2所示。
4.2.1自動編碼機
PDP組織和Hinton于1980s引入自動編碼機,主要目的是解決無監(jiān)督反向傳導(dǎo)問題。自動編碼機是僅含一層隱藏層的感知器,底層為輸入層,中間是隱藏層,數(shù)據(jù)的特征表達主要在隱藏層,最上層為輸出層。自動編碼機盡可能地重構(gòu)或復(fù)現(xiàn)輸入信號,強制性的使網(wǎng)絡(luò)捕捉數(shù)據(jù)變化的最重要因素,從而獲得跟PCA類似的有效低維表示。
傳統(tǒng)自動編碼機一般包含兩部分:編碼器(encoder)和解碼器(decoder),如圖3所示。
圖2 DL常用方法[7]
圖3 自動編碼機
自動編碼機目前已發(fā)展成多種變體,如Sparse Autoencoders[14](稀疏自動編碼機),Regularized Autoencoders[15](正則化自動編碼機)等。
4.2.2受限玻茲曼機
1986年,Hinton和Sejnowski提出了一種神經(jīng)網(wǎng)絡(luò)——玻茲曼機(Boltzmann Machine,BM)[16]。該網(wǎng)絡(luò)中都是隨機神經(jīng)元,神經(jīng)元的輸出只有激活和未激活兩種狀態(tài),概率決定狀態(tài)的取值[16]。結(jié)構(gòu)上,它是由隨機神經(jīng)元全連接組成的無自反饋的反饋神經(jīng)網(wǎng)絡(luò),包含一個可視層和一個隱藏層的簡單BM模型如圖4所示。
圖4 BM模型結(jié)構(gòu)
BM擁有很強的自學(xué)習(xí)能力,其結(jié)構(gòu)簡單,有清晰的概念,還有物理原理的理論支撐,所以理論上非常完美。但是,BM的訓(xùn)練時間很長,而且概率分布非常難獲得。為了解決這個難題,Smolensky提出了受限玻茲曼機(Restricted Boltzmann Machine,RBM)。如圖5所示。
圖5 受限玻茲曼機結(jié)構(gòu)
RBM含有兩層:可視層v,用于表示所輸入的數(shù)據(jù);隱藏層h,用于表示特征提取器。該網(wǎng)絡(luò)的兩層彼此相互對稱連接,層與層間神經(jīng)元全連接,同一層內(nèi)神經(jīng)元無連接,w代表可視層和隱藏層之間的連接權(quán)重。我們所得到的h就是v的另一種內(nèi)容相同的表達,故h可以認為是v輸入數(shù)據(jù)的特征。
4.2.3深度信念網(wǎng)絡(luò)
深度信念網(wǎng)絡(luò)(Deep Belief Networks,DBN)是很多RBM自底向上疊加構(gòu)成的。DBN是一種包含多個隱藏層(隱藏層數(shù)大于2)的概率生成模型,隱層單元被訓(xùn)練去捕捉在可視層表現(xiàn)出來的高階數(shù)據(jù)的相關(guān)性。DBN低層學(xué)習(xí)到的是輸入數(shù)據(jù)的低階特征,而頂層是為了能夠?qū)W習(xí)到輸入數(shù)據(jù)更抽象的表示。
對DBN采取的是分層訓(xùn)練的方法,先對第一個RBM模塊進行訓(xùn)練,完成后,將最底層RBM模塊的隱藏層作為向上一個RBM模塊的輸入,像這樣自底向上的學(xué)習(xí),逐層進行訓(xùn)練。全部模塊訓(xùn)練結(jié)束后,利用BP算法獲得每一層的誤差信號,對網(wǎng)絡(luò)參數(shù)進行調(diào)整。
如圖6所示,是疊加了三個RBM的典型DBN結(jié)構(gòu)圖。
圖6 深度信念網(wǎng)絡(luò)結(jié)構(gòu)
4.2.4卷積神經(jīng)網(wǎng)絡(luò)
卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)是一個多層的神經(jīng)網(wǎng)絡(luò),每層由多個二維平面組成,而每個平面由多個獨立神經(jīng)元組成[11]。圖7為CNN的結(jié)構(gòu)示意圖。
圖7 CNN結(jié)構(gòu)示意圖
最初,輸入圖像與三個可訓(xùn)練的濾波器實行卷積操作,C1層會顯示三個特征映射圖,接著處理特征映射圖上的像素,通過求和、加權(quán)值、加偏置等步驟,最后用Sigmoid函數(shù)獲得新的特征映射圖并顯示在S2層[11]。再對S2層的特征映射圖實行濾波處理,就得到C3層,采用相同原理和操作,得到S4層。接著將像素值光柵化以后,把它們進行組合并作為神經(jīng)網(wǎng)絡(luò)的輸入,最終得到輸出。
CNN最大的優(yōu)點在于通過感受野和權(quán)值共享減少了神經(jīng)網(wǎng)絡(luò)需要訓(xùn)練的參數(shù)的個數(shù)。且CNN結(jié)構(gòu)有位移不變性的優(yōu)點。
CNN能有效獲取圖像當(dāng)中更具顯著性和判別性的特征,易于圖像的理解和處理。
4.3深度網(wǎng)絡(luò)在圖像分類中的應(yīng)用
目前,圖像的分類、識別與理解伴隨著DL已經(jīng)取得了驚人的進展。
文獻[7]聚焦深度學(xué)習(xí)技術(shù)研究了圖像分類當(dāng)中特征提取的問題,提出了將離散余弦變換與深度網(wǎng)絡(luò)結(jié)合的快速的圖像分類系統(tǒng)以及結(jié)合散射變換與深度學(xué)習(xí)的深度網(wǎng)絡(luò),并驗證了這兩種方法的有效性。文獻[17]研究了一種基于支持向量機和稀疏自動編碼機的分類器,成功實現(xiàn)了一個從特征學(xué)習(xí)再到特征分類的圖像分類系統(tǒng)。文獻[18]研究了一種基于CNN的植物葉片分類識別方法,經(jīng)過驗證,該方法擁有99.56%的正確率,正確率明顯高于傳統(tǒng)的方法。文獻[19]將一種結(jié)合了可學(xué)習(xí)感受野的深度網(wǎng)絡(luò)算法應(yīng)用于圖像分類任務(wù),該算法中,同時學(xué)習(xí)用于池化的感受野和分類器,最終在Oxford flowers測試庫的圖像中進行測試并取得良好的分類準(zhǔn)確率。文獻[20]結(jié)合了CNN和DBN的優(yōu)點,把CNN的局部感受野引入到DBN的單層中,把DBN的單層分成多個子RBM,研究出一種改進的DBN,并在Cifar-10和MNIST數(shù)據(jù)庫中對小圖像進行分類識別驗證,效果優(yōu)于傳統(tǒng)的CNN和DBN??梢?DL越來越受到研究者們的關(guān)注。
DL和傳統(tǒng)神經(jīng)網(wǎng)絡(luò)之間有很多相同點,也有很多不同點。
兩者相同的地方在于有相似的結(jié)構(gòu),即分層結(jié)構(gòu)。系統(tǒng)由包括輸入層、隱藏層(多層)和輸出層組成的多層網(wǎng)絡(luò)。這種分層結(jié)比較接近人類大腦結(jié)構(gòu)。
深度學(xué)習(xí)與淺層學(xué)習(xí)相比較,其不同在于:
1) DL方法可學(xué)習(xí)到更有效的特征表示。
2) DL強調(diào)了特征學(xué)習(xí)的重要性。
3) 深度網(wǎng)絡(luò)在復(fù)雜函數(shù)表示的問題上比淺層網(wǎng)絡(luò)有更高的效果和效率。
4) 傳統(tǒng)ANN采用的是誤差反向傳播(Error Back Propagation,BP)的方式進行訓(xùn)練;DL采用的訓(xùn)練過程是先進行自下而上的非監(jiān)督學(xué)習(xí),再進行自頂向下的監(jiān)督學(xué)習(xí)。
今年3月份,AlphaGo以4:1戰(zhàn)勝韓國圍棋棋手李世石,取得了人機大戰(zhàn)的勝利。AlphaGo通過圍棋證明了DL的巨大潛力。實質(zhì)上用CNN為圖像進行識別和分類與圍棋有很大相似性,圍棋是一個19x19的方陣,它具備了很高的需要透過直覺才能判斷落子的特性,而DL使得AlphaGo可以透過海量棋譜從而找出相對應(yīng)的邏輯與抽象概念。
用DL來學(xué)習(xí)特征,能更有效的表達圖像豐富的內(nèi)在信息,而且還克服了人工抽取特征的時間消耗問題,從而實現(xiàn)了更高的在線計算效率。DL應(yīng)用于圖像分類時,準(zhǔn)確性大大提升。DL將成為圖像分類的主流方法,我們在未來將會看到越來越多DNN應(yīng)用于圖像分類的例子,而非淺層網(wǎng)絡(luò)。
[1] 韓仲志,鄧立苗,于仁師.基于圖像處理的花生莢果品種識別方法研究[J].中國糧油學(xué)報,2012,27(2):100-103.
HAN Zhongzhi,DENG Limiao,YU Renshi. Peanut Pod Varieties Recognition Method based on Image Processing[J].Journal of the Chinese Cereals and Oils Association,2012,27(2):100-103.
[2] Lyons M J,Budynek J,Plante A,et al.Classifying facial attributes using a 2-D Gabor wavelet representation and discriminant analysis[C]//Fourth IEEE International Conference on Automatic Face and Gesture Recognition,2000:202-207.
[3] 姚立健,邊起,雷良育,等.基于BP神經(jīng)網(wǎng)絡(luò)的水果分級研究[J].浙江農(nóng)業(yè)學(xué)報,2012,24(5):926-930.
YAO Lijian,BIAN Qi,LEI Liangyu,et al. Classification of fruit based on the BP neural network[J]. Acta Agriculturae Zhejiangensis,2012,24(5):926-930.
[4] 程國建,馬微,魏新善,等.基于圖像處理與神經(jīng)網(wǎng)絡(luò)的巖石組構(gòu)識別[J].西安石油大學(xué)學(xué)報(自然科學(xué)版),2013,28(5):105-110.
CHENG Guojian,MA Wei,WEI Xinshan,et al. Rock Fabric Identification based on Image Processing and Neural Network[J]. Journal of Xi’an Shiyou University Natural Science Edition,2013,28(5):105-110.
[5] Hinton G,Salakhutdinov R.Reducing the dimensionality of data with neural networks[J].Science,2006,313(504).Dio:10.1126/science.1127647.
[6] zouxy09,Deep Learning.http://blog.csdn.net/zouxy09/article/details/8775360
[7] 鄒曉藝.基于變換域特征與深度學(xué)習(xí)的圖像分類研究[D].廣州:華南理工大學(xué),2015.
ZOU Xiaoyi.A Study of Image Classification based on Transform Domain Feature and Deep Learning[D]. Guangzhou:South China University of Technology,2015.
[8] Vincent P,Larochelle H,Bengio Y,et al.Extracting and composing robust features with denoising autoencoders[C]//Proceedings of the 25th international conference on Machine learning.ACM,2008:1096-1103.
[9] Salakhutdinov R,Hinton G E.Deep Boltzmann machines[C]//International Conference on Artificial Intelligence and Statistics.2009:448-455.
[10] Hinton G E,Salakhutdinov R R.Reducing the dimensionality of data with neural networks[J].Science,2006,313(5786):504-507.
[11] Szegedy C,Liu W,Jia Y,et al.Going deeper with convolutions[J].arXiv preprint arXiv,2015:1-9.
[12] Chan T H,Jia K,Gao S,et al.PCANet:A Simple Deep Learning Baseline for Image Classification[J]. IEEE Transactions on Image Processing A Publication of the IEEE Signal Processing Society,2014,24(12):5017-5032.
[13] Bruna J,Mallat S.Invariant scattering convolution networks[J].Pattern Analysis and Machine Intelligence,IEEE Transactions on,2013,35(8):1872-1886.
[14] Zou W Y,Ng A Y,Yu K.Unsupervised learning of visual invariance with temporal coherence[C]//NIPS 2011 Workshop on Deep Learning and Unsupervised Feature Learning,2011.
[15] Boureau Y,Cun Y L.Sparse feature learning for deep belief networks[C]//Advances in neural information processing systems,2008:1185-1192.
[16] Hinton G.E.Sejnowski T.J.Learning and relearning in Boltzmann machines[A].In:Rumelhart D.E.McClelland J.L.(eds.).Parallel distributed processing:Exploration in the microstructure of cognition.Vol.l:Foundations.Cambridge,MA:MIT Press,1986.
[17] 劉樹春.基于支持向量機和深度學(xué)習(xí)的分類算法研究[D].上海:華東師范大學(xué),2015.
LIU Shuchun. The Study in Support Vector Machines and Deep Learning Algorithm[D].Shanghai:East China Normal University,2015.
[18] 龔丁禧,曹長榮.基于卷積神經(jīng)網(wǎng)絡(luò)的植物葉片分類[J].計算機與現(xiàn)代化,2014(4):12-15.
GONG Dingxi,CAO Changrong. Plant Leaf Classification Based on CNN[J].Computer and Modernization,2014(4):12-15.
[19] 王博,郭繼昌,張艷.基于深度網(wǎng)絡(luò)的可學(xué)習(xí)感受野算法在圖像分類中的應(yīng)用[J].控制理論與應(yīng)用,2015,32(8):1114-1119.
WANG Bo,GUO Jichang,ZHANG Yan. Learnable receptive fields scheme in deep networks for image categorization[J].Control Theory & Applications,2015,32(8):1114-1119.
[20] 呂剛,郝平,盛建榮.一種改進的深度神經(jīng)網(wǎng)絡(luò)在小圖像分類中的應(yīng)用研究[J].計算機應(yīng)用與軟件,2014,31(4):182-185.
LV Gang,HAO Ping,SHENG Jianrong. On Applying an Improved Deep Neural Networks in Tiny Image Classification[J].Computer Applications and Software,2014,31(4):182-185.
Review of Image Classification from Shallow Network to Deep Network
GAO RongfnagJI ChunxuCHENG Guojian
(School of Computer Science, Xi’an Shiyou University, Xi’an710065)
At present, the image has become a customary form of expression and store information. How to use a computer to classify massive images efficiently, and organize data to extract the information we need, it has become a subject of high concern in the field of machine learning.By briefly described development from shallow network (neural network) to deep network and image classification development of shallow network and deep network,and compared by shallow network and deep network, thus indicating the image classification technology based on deep network has more advantages and great potential.
image classification, shallow layer network, artificial neural networks, deep neural networks, deep learning
2016年4月3日,
2016年5月21日
陜西省工業(yè)科技攻關(guān)項目“鄂爾多斯盆地致密砂巖儲層微觀尺度智能化表征”(編號:2015GY104)資助。
高榮芳,女,碩士,副教授,碩士生導(dǎo)師,研究方向:數(shù)據(jù)庫應(yīng)用技術(shù)、管理信息系統(tǒng)與計算機網(wǎng)絡(luò)、神經(jīng)網(wǎng)絡(luò)與智能計算。吉春旭,女,碩士研究生,研究方向:智能計算與可視化技術(shù)。程國建,男,博士,研究生導(dǎo)師,研究方向:機器學(xué)習(xí)、模式識別、圖像處理、地質(zhì)建模、油藏表征。
TP391.41
10.3969/j.issn.1672-9722.2016.10.033