• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于卷積神經(jīng)網(wǎng)絡(luò)的紋理分類方法研究*

      2016-06-13 00:17:11聶林紅龐彥偉
      計算機(jī)與生活 2016年3期
      關(guān)鍵詞:計算機(jī)視覺卷積神經(jīng)網(wǎng)絡(luò)

      冀 中,劉 青,聶林紅,龐彥偉

      天津大學(xué)電子信息工程學(xué)院,天津300072

      ISSN 1673-9418 CODEN JKYTA8

      Journal of Frontiers of Computer Science and Technology 1673-9418/2016/10(03)-0389-09

      ?

      基于卷積神經(jīng)網(wǎng)絡(luò)的紋理分類方法研究*

      冀中+,劉青,聶林紅,龐彥偉

      天津大學(xué)電子信息工程學(xué)院,天津300072

      ISSN 1673-9418 CODEN JKYTA8

      Journal of Frontiers of Computer Science and Technology 1673-9418/2016/10(03)-0389-09

      E-mail: fcst@vip.163.com

      http://www.ceaj.org

      Tel: +86-10-89056056

      * The National Natural Science Foundation of China under Grant Nos. 61271325, 61472273 (國家自然科學(xué)基金); the Elite Scholar Program of Tianjin University under Grant No. 2015XRG-0014 (天津大學(xué)“北洋學(xué)者-青年骨干教師”項目).

      Received 2015-05,Accepted 2015-07.

      CNKI網(wǎng)絡(luò)優(yōu)先出版: 2015-07-14, http://www.cnki.net/kcms/detail/11.5602.TP.20150714.1558.001.html

      摘要:深度卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)在許多計算機(jī)視覺應(yīng)用中都取得了突破性進(jìn)展,但其在紋理分類應(yīng)用中的性能還未得到深入研究。為此,就CNN模型在圖像紋理分類中的應(yīng)用進(jìn)行了較book=390,ebook=94為系統(tǒng)的研究。具體而言,將CNN用于提取圖像的初步特征,此特征經(jīng)過PCA(principal component analysis)降維后可得到最終的紋理特征,將其輸入到SVM(support vector machine)分類器中便可獲得分類標(biāo)簽。在4個常用的紋理數(shù)據(jù)集上進(jìn)行了性能測試與分析,結(jié)果表明CNN模型在大多紋理數(shù)據(jù)集上均能取得很好的性能,是一種優(yōu)秀的紋理特征表示模型,但其對包含旋轉(zhuǎn)和噪聲的紋理圖像數(shù)據(jù)集仍不能取得理想結(jié)果,需要進(jìn)一步提升CNN的抗旋轉(zhuǎn)能力和抗噪聲能力。另外,有必要構(gòu)建具有足夠多樣性的大規(guī)模紋理數(shù)據(jù)集來保證CNN性能的發(fā)揮。

      關(guān)鍵詞:紋理分類;卷積神經(jīng)網(wǎng)絡(luò)(CNN);計算機(jī)視覺

      1 引言

      紋理在自然界中廣泛存在,幾乎所有自然界事物的表面都是一種紋理,它包含了圖像的表面信息與其周圍環(huán)境的關(guān)系,兼顧了圖像的宏觀信息和微觀結(jié)構(gòu),因此紋理分析在計算機(jī)視覺和多媒體分析領(lǐng)域占據(jù)重要地位。傳統(tǒng)的紋理分類算法以局部二值模式(local binary pattern,LBP)[1]為代表,并以它為基礎(chǔ)提出了一系列的改進(jìn)算法,例如ELBP(extended LBP)[2]、CLBP(completed LBP)[3]、LFD(local frequency descriptors)[4]、BRINT(binary rotation invariant and noise tolerant)[5]等。

      近年來,深度卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)在圖像分類任務(wù)中取得了突破性的進(jìn)展[6-8],并吸引了許多學(xué)者和研究人員投身其中。CNN成功的原因之一是大數(shù)據(jù)為深度模型的訓(xùn)練提供了基礎(chǔ)。其中,ILSVRC(ImageNet large-scale visual recognition challenge)[9]作為視覺識別系統(tǒng)性能的測試平臺,在深度架構(gòu)的發(fā)展中起到了至關(guān)重要的作用。一些優(yōu)秀的CNN模型,例如ConvNet[6]、CaffeNet[10]、OverFeat[11]、GoogLeNet[12]等均以此為基礎(chǔ)構(gòu)建。近期,在研究CNN算法和結(jié)構(gòu)的同時,一些學(xué)者還嘗試將ImageNet上訓(xùn)練的CNN直接應(yīng)用于場景分類[13]、目標(biāo)檢測[14]和圖像檢索[15]等其他視覺識別任務(wù)中,實驗結(jié)果表明預(yù)訓(xùn)練的CNN可以作為通用的特征描述符使用。此外,文獻(xiàn)[16]進(jìn)一步提出應(yīng)該將CNN作為計算機(jī)視覺領(lǐng)域中的首選模型。

      雖然預(yù)訓(xùn)練的CNN在許多計算機(jī)視覺任務(wù)中都取得了良好的效果,但是其在紋理分類任務(wù)中的性能還未得到深入研究。為此,本文較為系統(tǒng)地研究了CNN模型在紋理分類中的性能,通過在4個常用的紋理數(shù)據(jù)集上的測試與分析,并與傳統(tǒng)的紋理分類算法相比較,表明了其在紋理分類任務(wù)中的有效性。由于自然界中采集的紋理圖像大都包含不同程度的旋轉(zhuǎn)、噪聲等變化,本文還針對CNN在紋理分類中的抗旋轉(zhuǎn)和噪聲的性能進(jìn)行討論,指出有必要提升CNN在紋理分類中的抗旋轉(zhuǎn)能力和抗噪聲能力,以及構(gòu)建具有足夠多樣性的大規(guī)模紋理數(shù)據(jù)集。此外,本文還將預(yù)訓(xùn)練的CNN與直接訓(xùn)練的CNN模型進(jìn)行對比,表明了預(yù)訓(xùn)練CNN模型的有效性。

      2 算法描述

      Fig.1  Process of texture classification with CNN圖1  CNN用于紋理分類的具體流程

      本文將在ImageNet數(shù)據(jù)集上訓(xùn)練得到的CNN模型應(yīng)用于紋理分類任務(wù),其具體過程如圖1所示。在訓(xùn)練階段,首先使用CNN提取預(yù)處理后的訓(xùn)練圖像的特征;其次利用PCA(principal component analysis)技術(shù)對所提CNN特征進(jìn)行維數(shù)約簡得到最終的訓(xùn)練圖像特征;最后結(jié)合訓(xùn)練圖像的特征和標(biāo)簽,訓(xùn)練一個SVM(support vector machine)分類器。在測試階段,測試圖像經(jīng)過與訓(xùn)練階段相同的預(yù)處理、CNN特征提取以及PCA降維等過程得到測試圖像的特征,并將所得特征作為已訓(xùn)練完成的SVM的輸入,其輸出即為測試圖像的預(yù)測標(biāo)簽。下面介紹所提方法的具體細(xì)節(jié)。

      2.1預(yù)處理

      CNN作為一種神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),其超參數(shù)(hyperparameter)在訓(xùn)練時就已經(jīng)確定。這些超參數(shù)包括神經(jīng)網(wǎng)絡(luò)的層數(shù)、每一層網(wǎng)絡(luò)中的神經(jīng)元個數(shù)等。因此,為了能夠使用預(yù)訓(xùn)練的CNN提取紋理圖像的特征,需要對紋理圖像進(jìn)行預(yù)處理。

      預(yù)處理過程主要包括兩個步驟:

      (1)將紋理圖像的尺寸統(tǒng)一調(diào)整為CNN在預(yù)訓(xùn)練時所設(shè)計的輸入大小。針對本文所使用的CNN,紋理圖像在輸入網(wǎng)絡(luò)之前均被調(diào)整為以下尺寸,即(227×227像素)×3通道。

      (2)對調(diào)整后的紋理圖像進(jìn)行均值歸一化操作。本文所使用的CNN是在ImageNet數(shù)據(jù)集上訓(xùn)練所得,因此在使用CNN提取特征前,需要將紋理圖像減去ImageNet數(shù)據(jù)集的平均圖像。

      2.2 CNN特征提取

      本文所使用的預(yù)訓(xùn)練模型為BVLC Reference CaffeNet(簡稱為CaffeNet),該模型是ConvNet模型的一個變體。CaffeNet包含5個卷積層(convolutional layer),3個最大池化層(max pooling layer)和3個全連接層(fully-connected layer),具體結(jié)構(gòu)描述如表1所示。下面介紹CaffeNet中重要的組成部分。

      Table 1  Structure and parameters of CaffeNet表1  CaffeNet網(wǎng)絡(luò)結(jié)構(gòu)與參數(shù)

      2.2.1卷積層

      卷積層是CNN的核心結(jié)構(gòu)。卷積層中每個神經(jīng)元的權(quán)值矩陣被稱為卷積核(kernel)或者濾波器(filter),卷積核與輸入之間是局部連接的,因而其網(wǎng)絡(luò)參數(shù)與全連接方式相比減少很多。每個卷積核通過“滑動窗口”的方式提取出輸入數(shù)據(jù)不同位置的特征,所得結(jié)果為一個二維特征集合,即特征圖(feature map)。本層的特征圖將作為下一層的輸入繼續(xù)傳播。

      通過訓(xùn)練,卷積核可以提取出某些有意義的特征,例如第一個卷積層的卷積核類似于Gabor濾波器[17],可以提取邊緣、角等信息。CaffeNet包含5個卷積層(conv1~conv5),其卷積核大?。╧ernel size)分別為112、52、32、32、32像素,輸出的特征圖數(shù)目分別為96、256、384、384、256個,卷積的步長(Stride)分別為4、1、1、1、1像素。多層的結(jié)構(gòu)可以對輸入的圖像進(jìn)行逐層抽象,獲得更高層次的分布式特征表達(dá)。

      2.2.2池化層

      池化(pooling)是計算機(jī)視覺與機(jī)器學(xué)習(xí)領(lǐng)域中的常見操作。所謂池化,就是將不同位置的特征進(jìn)行聚合。常見的池化方式有平均池化(mean pooling)、最大池化(max pooling)和隨機(jī)池化(stochastic pooling)等。CaffNet模型采用最大池化的方式,該模型中的conv1、conv2和conv5層后均連接了一個最大池化層,其池化尺寸均為32像素,池化步長均為2像素。通過池化,不僅可以降低特征的維數(shù),還可以提高特征的魯棒性。

      2.2.3全連接層

      相比于卷積層的局部連接方式,全連接層的全連接方式將會帶來更多的網(wǎng)絡(luò)參數(shù)。CaffeNet模型的最后3層為全連接層(full6~full8)。由于之前的卷積層及池化層已經(jīng)將特征的維數(shù)降低至可接受的大小,因而使用全連接層并不會導(dǎo)致特別嚴(yán)重的計算負(fù)擔(dān)。

      在CaffeNet的3個全連接層中,full6和full7層均為包含4 096個神經(jīng)元的隱藏層,而full8層為1 000路的softmax輸出層。雖然這3個全連接層的輸出都可作為通用的特征使用,但文獻(xiàn)[18]中指出,將預(yù)訓(xùn)練的CNN應(yīng)用于物體識別、圖像檢索等計算機(jī)視覺任務(wù)時,full6層輸出的特征可以獲得最好的效果,因此本文使用full6層的輸出作為紋理圖像的特征。

      2.2.4 Rectified Linear Units

      常見的激活函數(shù)主要包括sigmoid函數(shù)f(x)= (1+e-x)-1和雙曲正切函數(shù)f(x)=tanh(x)。然而,就訓(xùn)練速度而言,使用這些飽和非線性激活函數(shù)要慢于使用非飽和非線性激活函數(shù)f(x)=max(0,x)[6],該函數(shù)被稱為Rectified Linear Units(ReLU)[19]。

      文獻(xiàn)[20]指出,除了速度優(yōu)勢之外,ReLU還具有以下兩個特點:

      (1)相比于傳統(tǒng)激活函數(shù),ReLU的單邊抑制更符合生物學(xué)觀點;

      (2)ReLU可以獲得稀疏表達(dá),其性能比傳統(tǒng)激活函數(shù)的性能更好。

      因此,CaffeNet模型使用ReLU作為激活函數(shù)。具體而言,CaffeNet的conv1~conv5以及full6~full7層后均使用ReLU獲取激活值以繼續(xù)前向傳播。

      2.2.5 Local Response Normalization

      CaffeNet模型在conv1和conv2層后使用Local Response Normalization(LRN)方法來提升網(wǎng)絡(luò)的泛化能力,如文獻(xiàn)[6]所述,LRN具體實現(xiàn)如下:

      其中,aix,y表示把第i個卷積核作用于位置(x,y)并經(jīng)過ReLU函數(shù)后的激活值;k、n、α和β為LRN的超參數(shù),通常情況下取值為k=2,n=5,α=10-4,β=0.75。

      2.3 PCA維數(shù)約簡

      本文使用CaffeNet中full6層的輸出作為紋理圖像的特征,該層包含4 096個神經(jīng)元,相應(yīng)的輸出向量有4 096維,維數(shù)相對較高。因此,為降低特征維度,以減小計算負(fù)擔(dān),本文使用經(jīng)典的PCA降維算法對所得特征進(jìn)行維數(shù)約簡,獲得最終的紋理圖像特征,其中所采用的降維原則是保留95%的能量。

      2.4 SVM訓(xùn)練

      訓(xùn)練圖像特征提取完成后,結(jié)合訓(xùn)練圖像的特征和標(biāo)簽可以訓(xùn)練得到一個SVM分類器。本文使用LIBLINEAR[21]工具包進(jìn)行SVM的訓(xùn)練。LIBLINEAR是一個用于大規(guī)模線性分類的開源工具包,其中onevs-the-rest策略被用于多分類SVM的實現(xiàn)。

      3 實驗

      目前主流的紋理數(shù)據(jù)集有CUReT[22]、KTH-TIPS[23]、KTH-TIPS_2b[23]和Outex_TC10[24]。本文分別對前3個數(shù)據(jù)集進(jìn)行測試,驗證CNN特征的有效性,并在下文討論中,基于Outex_TC10數(shù)據(jù)集對CNN的抗旋轉(zhuǎn)性能進(jìn)行探討。

      實驗選取的對比算法主要有:ELBP[2](IVC 2012)、CLBP[3](TIP2010)、VZ_MR8[22](IJCV 2005)、VZ_Joint[25](PAMI 2009)、LFD[4](PR 2013)和BRINT[5](TIP2014),這些對比算法既包括一些經(jīng)典的算法,也包括目前在各個數(shù)據(jù)集上取得最好性能的算法,對比算法的實驗性能均為相應(yīng)文章所提供的數(shù)值。由于這些對比算法大多沒有同時對這4個數(shù)據(jù)集進(jìn)行實驗驗證,在接下來的實驗對比分析中,這些對比算法并不是在每個數(shù)據(jù)集都有體現(xiàn)。如未加說明,實驗中CNN即指利用ImageNet預(yù)訓(xùn)練好的CNN模型CaffeNet。下面分別介紹在這4個數(shù)據(jù)集上的實驗結(jié)果及分析。

      3.1 CUReT數(shù)據(jù)集

      CUReT數(shù)據(jù)集包含61類在不同視角、光照和旋轉(zhuǎn)角度條件下采集的紋理圖像。在每一類圖像中,92張采集角度小于60°的紋理圖被選擇出來用于實驗,每張圖像尺寸為200×200像素。在實驗過程中,本文使用與文獻(xiàn)[22]中相同的劃分方式,即在每類紋理中,隨機(jī)抽取N張圖像作為訓(xùn)練樣本,剩余的92-N張圖像作為測試樣本,數(shù)目N依次選取46、23、12和6。在固定數(shù)目N的情況下,隨機(jī)實驗重復(fù)進(jìn)行10次,使用10次實驗結(jié)果的均值作為算法的最終分類結(jié)果。

      表2給出了CUReT數(shù)據(jù)集上不同算法性能的比較。由表中數(shù)據(jù)可以看出,與其他算法相比,在選取訓(xùn)練樣本不同的情況下,CNN算法均達(dá)到了較好的分類性能,例如在N=46的情況下,CNN相比于ELBP、CLBP_S/M/C、VZ_MR8、VZ_Joint和LFD24,3等算法,其分類準(zhǔn)確率分別提升了0.87%、1.79%、1.28%、1.46%和0.10%,性能僅次于BRINT。此外,還可以看出,隨著訓(xùn)練樣本個數(shù)的減小,CNN的性能提升明顯增多,這些結(jié)果表明了CNN具有較強(qiáng)的表示能力。

      Table 2  Performance comparison on CUReT dataset表2  CUReT數(shù)據(jù)集上性能比較

      3.2 KTH-TIPS數(shù)據(jù)集

      KTH-TIPS數(shù)據(jù)集共包含10類在不同視角、光照和尺度條件下采集的紋理圖像。在每一類圖像中,前5種尺度的45張紋理圖被選擇出來用于實驗,每張圖像尺寸為200×200像素。在實驗過程中,本文使用與文獻(xiàn)[4]中相同的劃分方式,即在每類紋理中,隨機(jī)抽取23張圖像作為訓(xùn)練樣本,剩余的22張圖像作為測試樣本,隨機(jī)實驗重復(fù)進(jìn)行50次,使用50次實驗結(jié)果的均值作為算法的最終分類結(jié)果。各算法在KTH-TIPS數(shù)據(jù)集上的分類準(zhǔn)確率如表3所示。

      Table 3  Performance comparison on KTH-TIPS dataset表3  KTH-TIPS數(shù)據(jù)集上性能比較

      C、VZ_MR8、VZ_Joint和LFD24,3等算法,分類準(zhǔn)確率有了較大的提高,分別提升了4.77%、3.98%、12.78% 和1.65%。根據(jù)公開文獻(xiàn)的調(diào)研結(jié)果,使用CNN模型的方法在KTH-TIPS數(shù)據(jù)集上取得了目前最好的性能,進(jìn)一步表明了CNN在紋理分類任務(wù)中的有效性。

      3.3 KTH-TIPS_2b數(shù)據(jù)集

      KTH-TIPS_2b數(shù)據(jù)集是在KTH-TIPS數(shù)據(jù)集基礎(chǔ)上經(jīng)過擴(kuò)展得到的更富挑戰(zhàn)性的彩色紋理圖像數(shù)據(jù)集。該數(shù)據(jù)集共包含11類在不同視角、光照和尺度條件下采集的紋理圖像。每類圖像包含4種不同的樣本,分別為a、b、c、d,每種樣本包含108張圖像,每張圖像尺寸為(200×200像素)×3通道。在實驗過程中,隨機(jī)選取3種不同樣本進(jìn)行訓(xùn)練,剩余的1種樣本用于測試,實驗重復(fù)進(jìn)行4次,使用4次實驗結(jié)果的均值作為算法的最終分類結(jié)果。

      由于KTH-TIPS_2b是彩色數(shù)據(jù)集,為了檢驗顏色對性能的影響,本文在輸入圖像不同的情況下對CNN的性能進(jìn)行測試,具體如下:(1)使用彩色原圖作為CNN的輸入;(2)先將彩色圖像轉(zhuǎn)為灰度圖像,再使用灰度圖像作為CNN的輸入。分類結(jié)果如表4所示。

      Table 4  Performance comparison between color and gray inputs on KTH-TIPS_2b dataset表4  KTH-TIPS_2b數(shù)據(jù)集上使用彩色圖像和灰度圖像作為輸入的性能比較

      由表4中數(shù)據(jù)可以看出,盡管在不同的訓(xùn)練集/測試集樣本劃分情況下,使用彩色圖像和灰度圖像的結(jié)果有所差異,但是整體而言,使用灰度圖像的效果要更好。

      表5給出了不同算法在KTH-TIPS_2b數(shù)據(jù)集上的分類性能比較。由于現(xiàn)有算法大多都不考慮顏色的影響,表中只列出了在使用灰度圖像作為輸入的情況下的分類性能比較。由于KTH-TIPS_2b中的圖像相比于上述兩個紋理集(CUReT以及KTHTIPS)中的圖像更加復(fù)雜,因而更具挑戰(zhàn)性。從表5中的數(shù)據(jù)可以看出,所有的算法在KTH-TIP_2b上的分類準(zhǔn)確率均低于在CUReT和KTH-TIPS上的準(zhǔn)確率。在這種情況下,相比于ELBP、CLBP、VZ_MR8、VZ_Joint和BRINT,CNN的分類準(zhǔn)確率分別高出14.64%、15.34%、23.94%、19.94%和10.34%。由此可以說明,CNN具有強(qiáng)大的表示能力和魯棒性,在復(fù)雜的紋理分類任務(wù)中也能獲得很好的效果。

      Table 5  Performance comparison on KTH-TIPS_2b dataset表5  KTH-TIPS_2b數(shù)據(jù)集上性能比較

      4 討論

      下面圍繞預(yù)訓(xùn)練的CNN在紋理分類任務(wù)中的應(yīng)用展開討論,具體包括:

      (1)預(yù)訓(xùn)練的CNN與直接使用紋理圖像訓(xùn)練的CNN的對比;

      (2)預(yù)訓(xùn)練的CNN的抗旋轉(zhuǎn)性能測試;

      (3)預(yù)訓(xùn)練的CNN的抗噪聲性能測試。

      4.1預(yù)訓(xùn)練的CNN與直接訓(xùn)練的CNN的對比

      為了論述方便,本節(jié)使用Direct-CNN表示直接使用紋理圖像訓(xùn)練的CNN。

      本文在CUReT數(shù)據(jù)集上進(jìn)行Direct-CNN模型的訓(xùn)練,具體過程如下:首先,在每類紋理中,隨機(jī)選取46張圖像作為訓(xùn)練樣本,并將剩余46張圖像作為測試樣本。其次,統(tǒng)一將訓(xùn)練樣本的大小由200×200像素調(diào)整為128×128像素。最后,采用Data Augmentation方法增加訓(xùn)練樣本個數(shù),即選取每張訓(xùn)練圖像中左上角、左下角、右上角、右下角以及中間的100×100像素圖像塊形成5個新圖像,共14 030(61×46×5)張圖像作為新的訓(xùn)練樣本。測試時,需將測試圖像的大小調(diào)整至與訓(xùn)練圖像相同,即100×100像素,此時共有2 806(61×46)張測試圖像。

      由于數(shù)據(jù)集訓(xùn)練數(shù)據(jù)的限制,較難訓(xùn)練比較深度的模型,本文僅使用上述訓(xùn)練數(shù)據(jù)訓(xùn)練兩個淺層的Direct-CNN用于測試對比,分別稱為D1-CNN和D2-CNN,其中數(shù)字“1”和“2”分別表示CNN模型中卷積層的個數(shù)。D1-CNN與D2-CNN的參數(shù)如表6所示。

      Table 6  Structures and parameters of D1-CNNand D2-CNN表6  D1-CNN與D2-CNN網(wǎng)絡(luò)結(jié)構(gòu)與參數(shù)

      經(jīng)過50次迭代訓(xùn)練后,D1-CNN和D2-CNN在測試集上的準(zhǔn)確率分別為91.20%和89.27%,低于CNN 的97.64%。原因在于CUReT訓(xùn)練集中的圖像較少,Direct-CNN難以得到充分的訓(xùn)練,所以其分類準(zhǔn)確率較低;而CaffeNet是在大型數(shù)據(jù)集ImageNet上進(jìn)行訓(xùn)練的,訓(xùn)練圖像高達(dá)上百萬張,可以學(xué)習(xí)到有效的特征,因此其分類準(zhǔn)確率較高。在其他數(shù)據(jù)集上也取得了類似的結(jié)果。這些結(jié)果表明了預(yù)訓(xùn)練的CNN的有效性,同時也可知構(gòu)建大型紋理數(shù)據(jù)集的必要性。

      4.2抗旋轉(zhuǎn)性能測試

      CNN在CUReT、KTH-TIPS、KTH-TIPS_2b等數(shù)據(jù)集上能夠取得良好的效果,一方面是由于CNN強(qiáng)大的學(xué)習(xí)能力和表示能力,另一方面也歸功于訓(xùn)練樣本的多樣性。

      為了測試CNN的抗旋轉(zhuǎn)性能,使用Outex_TC10數(shù)據(jù)集進(jìn)行實驗。Outex_TC10數(shù)據(jù)集共包含24類在“inca”光照下采集的9種不同旋轉(zhuǎn)角度(0°,5°,10°,15°,30°,45°,60°,75°,90°)的紋理圖像,其中每張圖像尺寸為128×128像素。在實驗過程中,采用標(biāo)準(zhǔn)的訓(xùn)練方式,即選取旋轉(zhuǎn)角度為0°的圖像作為訓(xùn)練樣本,其他旋轉(zhuǎn)角度的圖像作為測試樣本。在訓(xùn)練時并未提供其他旋轉(zhuǎn)角度的圖像,因此可以很好地測試CNN特征自身的抗旋轉(zhuǎn)能力。實驗結(jié)果如表7所示。

      Table 7  Performance comparison on Outex_TC10 dataset表7  Outex_TC10數(shù)據(jù)集上性能比較

      表7給出了不同算法在Outex_TC10數(shù)據(jù)集上的分類準(zhǔn)確率的比較。由于傳統(tǒng)的紋理分類方法在設(shè)計特征時均針對旋轉(zhuǎn)變化進(jìn)行了相應(yīng)的改進(jìn),從而分類準(zhǔn)確率較好;而在ImageNet上進(jìn)行訓(xùn)練的CNN只具有一定的抗旋轉(zhuǎn)能力,同時在提取特征時并未提供其他旋轉(zhuǎn)角度的樣本,因次分類準(zhǔn)確率較差。

      為了進(jìn)一步證實上述分析,本文進(jìn)行了以下補(bǔ)充實驗:與標(biāo)準(zhǔn)方式僅選取旋轉(zhuǎn)角度為0°的20張圖像作為訓(xùn)練樣本不同,補(bǔ)充實驗在每類紋理中隨機(jī)選取20張作為訓(xùn)練樣本,剩余的160張作為測試樣本,隨機(jī)實驗重復(fù)進(jìn)行50次,使用50次實驗結(jié)果的均值作為算法的最終分類結(jié)果。表8給出了Outex_ TC10數(shù)據(jù)集上使用標(biāo)準(zhǔn)和非標(biāo)準(zhǔn)訓(xùn)練方式的性能比較。由表中數(shù)據(jù)可以看出,使用隨機(jī)方式選取訓(xùn)練圖像的結(jié)果要遠(yuǎn)好于使用標(biāo)準(zhǔn)方式選取訓(xùn)練圖像的結(jié)果。這說明雖然CNN自身的抗旋轉(zhuǎn)能力有限,但是當(dāng)訓(xùn)練數(shù)據(jù)包含足夠的多樣性時,CNN能夠取得良好效果。該結(jié)果表明了有必要提升CNN在紋理分類中的抗旋轉(zhuǎn)能力,以及構(gòu)建具有足夠多樣性的紋理數(shù)據(jù)集。

      Table 8  Performance comparison between standard and non-standard training on Outex_TC10 dataset表8  Outex_TC10數(shù)據(jù)集上使用標(biāo)準(zhǔn)和非標(biāo)準(zhǔn)訓(xùn)練式的性能比較

      4.3抗噪聲性能測試

      在自然條件下采集的紋理圖像可能包含噪聲,因此特征的抗噪聲能力在紋理分類任務(wù)中比較重要。本節(jié)在CUReT數(shù)據(jù)集上添加高斯噪聲以模擬自然條件下采集的帶噪聲的紋理圖像。

      在實驗過程中,從每類紋理中隨機(jī)抽取46張圖像作為訓(xùn)練樣本,剩余的46張圖像作為測試樣本,每張圖像上添加高斯噪聲后作為新的訓(xùn)練/測試樣本。本文使用SNR(signal noise ratio)作為噪聲強(qiáng)度的指標(biāo),依次選取SNR=30,15,10,5進(jìn)行實驗,并與現(xiàn)有文獻(xiàn)中抗噪聲性能最好的算法BRINT進(jìn)行對比,實驗結(jié)果如表9所示??梢钥闯觯诓煌腟NR情況下,CNN相比于目前最好的抗噪聲算法BRINT性能降低15%以上,這說明CNN的抗噪聲性能有待提高。

      Table 9  Performance comparison with different SNR表9 不同SNR情況下的分類性能比較

      5 結(jié)束語

      本文將ImageNet數(shù)據(jù)集上預(yù)訓(xùn)練得到的CNN模型應(yīng)用于紋理分類任務(wù)中。實驗表明,預(yù)訓(xùn)練的CNN模型能夠提取出有效的紋理特征,在常用的紋理數(shù)據(jù)集上均取得良好的效果。尤其在KTH-TIPS 和KTH-TIPS_2b數(shù)據(jù)集上,本文方法取得了目前為止最高的分類準(zhǔn)確率。為了進(jìn)一步探究預(yù)訓(xùn)練的CNN的性能,本文將預(yù)訓(xùn)練的CNN與直接訓(xùn)練的CNN進(jìn)行對比,說明了構(gòu)建大型紋理數(shù)據(jù)集的必要性。此外,本文還對CNN的抗旋轉(zhuǎn)性能與抗噪聲性能進(jìn)行了測試,說明了提升CNN自身魯棒性和構(gòu)建多樣性數(shù)據(jù)集的必要性。

      References:

      [1] Ojala T, Pietikainen M, Maenpaa T. Multiresolution gray-scaleand rotation invariant texture classification with local binary patterns[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2002, 24(7): 971-987.

      [2] Liu Li, Zhao Lingjun, Long Yunli, et al. Extended local binary patterns for texture classification[J]. Image and Vision Computing, 2012, 30(2): 86-99.

      [3] Guo Zhenhua, Zhang Lei, Zhang D. A completed modeling of local binary pattern operator for texture classification[J]. IEEETransactionson Image Processing,2010,19(6):1657-1663.

      [4] Maani R, Kalra S, Yang Y H. Noise robust rotation invariant features for texture classification[J]. Pattern Recognition, 2013, 46(8): 2103-2116.

      [5] Liu Li, Long Yunli, Fieguth P W, et al. BRINT: binary rotation invariant and noise tolerant texture classification[J]. IEEETransactionson Image Processing,2014,23(7):3071-3084.

      [6] Krizhevsky A, Sutskever I, Hinton G E. ImageNet classification with deep convolutional neural networks[C]//Advances in Neural Information Processing Systems 25: Proceedings of the 26th Annual Conference on Neural Information Processing Systems, Lake Tahoe, USA, Dec 3-6, 2012: 1097-1105.

      [7] Zeiler M D, Fergus R. Visualizing and understanding convolutional networks[C]//LNCS 8689: Proceedings of the 13th European Conference on Computer Vision, Zurich, Switzerland, Sep 6-12, 2014. Berlin, Heidelberg: Springer, 2014: 818-833.

      [8] Simonyan K, Zisserman A. Very deep convolutional networks for large-scale image recognition[J/OL]. arXiv:1409.1556 (2014)[2015-03-30]. http://arxiv.org/pdf/1409.1556.pdf.

      [9] Russakovsky O, Deng Jia, Su Hao, et al. ImageNet large scale visual recognition challenge[J/OL]. arXiv:1409.0575 (2014)[2015-03-30]. http://arxiv.org/pdf/1409.0575.pdf.

      [10] Jia Yangqing, Shelhamer E, Donahue J, et al. Caffe: convolutional architecture for fast feature embedding[C]//Proceedings of the 2014 ACM Conference on Multimedia, Orlando, USA, Nov 3-7, 2014. New York, USA:ACM, 2014: 675-678.

      [11] Sermanet P, Eigen D, Zhang Xiang, et al. OverFeat: integrated recognition, localization and detection using convolutional networks[J/OL]. arXiv:1312.6229 (2013)[2015-03-30]. http:// arxiv.org/abs/1312.6229.

      [12] Szegedy C, Liu Wei, Jia Yangqing, et al. Going deeper with convolutions[J/OL].arXiv:1409.4842(2014)[2015-03-30].http:// arxiv.org/pdf/1409.4842v1.pdf.

      [13] Yoo D, Park S, Lee J Y, et al. Fisher kernel for deep neural activations[J]. arXiv:1412.1628 (2014)[2015-03-30]. http://arxiv. org/pdf/1412.1628.pdf.

      [14] He Kaiming, Zhang Xiangyu, Ren Shaoqing, et al. Spatial pyramid pooling in deep convolutional networks for visual recognition[J/OL]. arXiv:1406.4729 (2014)[2015-03-30]. http:// arxiv.org/pdf/1406.4729.pdf.

      [15] Babenko A, Slesarev A, Chigorin A, et al. Neural codes for image retrieval[C]//LNCS 8689: Proceedings of the 13th European Conference on Computer Vision, Zurich, Switzerland, Sep 6-12, 2014. Berlin, Heidelberg: Springer, 2014: 584-599.

      [16] Razavian A S, Azizpour H, Sullivan J, et al. CNN features off-the-shelf: an astounding baseline for recognition[J/OL]. arXiv:1403.6382 (2014)[2015-03-30]. http://arxiv.org/pdf/ 1403.6382.pdf.

      [17] Yosinski J, Clune J, Bengio Y, et al. How transferable are features in deep neural networks?[C]//Advances in Neural Information Processing Systems 27: Proceedings of the 28th Annual Conference on Neural Information Processing Systems, Montreal, Canada, Dec 8-13, 2014: 3320-3328.

      [18] Donahue J, Jia Yangqing, Vinyals O, et al. DeCAF: a deep convolutional activation feature for generic visual recognition[J/OL]. arXiv:1310.1531 (2014)[2015-03-30]. http://arxiv. org/abs/1310.1531.

      [19] Nair V, Hinton G E. Rectified linear units improve restricted Boltzmann machines[C]//Proceedings of the 27th International Conference on Machine Learning, Haifa, Israel, Jun 21-25, 2010: 807-814.

      [20] Glorot X, Bordes A, Bengio Y. Deep sparse rectifier neural networks[C]//Proceedings of the 14th International Conference on Artificial Intelligence and Statistics, Fort Lauderdale, USA, Apr 11-13, 2011. Brookline, USA: Microtome Publishing, 2011: 315-323.

      [21] Fan Rongen, Chang Kaiwei, Hsieh C J, et al. LIBLINEAR: a library for large linear classification[J]. The Journal of Machine Learning Research, 2008, 9: 1871-1874.

      [22] Varma M, Zisserman A. A statistical approach to texture classification from single images[J]. International Journal of Computer Vision, 2005, 62(1/2): 61-81.

      [23] Mallikarjuna P, Fritz M, Targhi A T, et al. The kth-tips and kth-tips2 databases[DB/OL]. (2006)[2015-03-30]. http://www.nada.kth.se/cvap/databases/kth-tips/.

      [24] Ojala T, Pietikainen M, Viertola J, et al. Outex-new framework for empirical evaluation of texture analysis algorithms[C]// Proceedings of the 16th International Conference on Pattern Recognition,Aug 11-15, 2002. Piscataway, USA: IEEE, 2002: 701-706.

      [25] Varma M, Zisserman A. A statistical approach to material classification using image patches[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2009, 31(11): 2032-2047.

      JI Zhong was born in 1979. He received the Ph.D. degree in signal and information processing from Tianjin University in 2008. Now he is an associate professor and M.S. supervisor at Tianjin University. His research interests include multimedia content analysis and ranking, computer vision, feature learning and video summarization, etc. He has published more than 40 scientific papers.冀中(1979—),男,2008年于天津大學(xué)獲得博士學(xué)位,現(xiàn)為天津大學(xué)副教授、碩士生導(dǎo)師,主要研究領(lǐng)域為多媒體內(nèi)容分析和檢索,計算機(jī)視覺,特征學(xué)習(xí),視頻摘要等。發(fā)表學(xué)術(shù)論文40多篇。

      LIU Qing was born in 1990. He is an M.S. candidate at Tianjin University. His research interests include computer vision and deep learning, etc.劉青(1990—),男,天津大學(xué)碩士研究生,主要研究領(lǐng)域為計算機(jī)視覺,深度學(xué)習(xí)等。

      NIE Linhong was born in 1991. She is an M.S. candidate at Tianjin University. Her research interests include computer vision and pattern recognition, etc.聶林紅(1991—),女,天津大學(xué)碩士研究生,主要研究領(lǐng)域為計算機(jī)視覺,模式識別等。

      Texture Classification with Convolutional Neural Network?

      JI Zhong+, LIU Qing, NIE Linhong, PANG Yanwei
      School of Electronic Information Engineering, Tianjin University, Tianjin 300072, China
      + Corresponding author: E-mail: jizhong@tju.edu.cn

      JI Zhong, LIU Qing, NIE Linhong, et al. Texture classification with convolutional neural network. Journal of Frontiers of Computer Science and Technology, 2016, 10(3):389-397.

      Abstract:Deep convolutional neural network (CNN) has recently achieved great breakthroughs in many computer vision tasks. However, its application in texture classification has not been thoroughly researched. To this end, this paper carries out a systemic research on its application in image texture classification. Specifically, CNN is used to extract preliminary image feature, and subsequent PCA (principal component analysis) operation can reduce its dimensionality to obtain final texture feature which is fed into an SVM (support vector machine) classifier for prediction. This paper does comprehensive experiments and analysis on four benchmark datasets. The results show that CNN is a better texture feature representation and achieves quite good performance in most image texture datasets. However, CNN performs worse in datasets with image noise and rotation. Thus, this paper indicates the necessity to enhance the abilities of noise tolerance and rotation invariance of CNN, and it is necessary to construct a large diverse texture dataset to guarantee its best performance in image texture classification.

      Key words:texture classification; convolutional neural network (CNN); computer vision

      doi:10.3778/j.issn.1673-9418.1505073

      文獻(xiàn)標(biāo)志碼:A

      中圖分類號:TP183

      猜你喜歡
      計算機(jī)視覺卷積神經(jīng)網(wǎng)絡(luò)
      基于深度卷積神經(jīng)網(wǎng)絡(luò)的物體識別算法
      機(jī)器視覺技術(shù)發(fā)展及其工業(yè)應(yīng)用
      危險氣體罐車液位計算機(jī)視覺監(jiān)控識別報警系統(tǒng)設(shè)計
      計算機(jī)視覺在交通領(lǐng)域的應(yīng)用
      基于計算機(jī)視覺的細(xì)小顆粒團(tuán)重量測量的研究
      深度學(xué)習(xí)算法應(yīng)用于巖石圖像處理的可行性研究
      基于深度卷積網(wǎng)絡(luò)的人臉年齡分析算法與實現(xiàn)
      軟件工程(2016年8期)2016-10-25 15:47:34
      基于卷積神經(jīng)網(wǎng)絡(luò)的樹葉識別的算法的研究
      遂溪县| 祁门县| 平塘县| 泸定县| 祁门县| 衡东县| 合水县| 安庆市| 从化市| 林芝县| 绥德县| 永定县| 布拖县| 涟水县| 西盟| 英吉沙县| 吉水县| 铁力市| 阿荣旗| 班玛县| 松潘县| 怀宁县| 道孚县| 雅江县| 托里县| 色达县| 志丹县| 永年县| 武定县| 延吉市| 若尔盖县| 伊通| 大同市| 额尔古纳市| 平阴县| 博湖县| 高淳县| 八宿县| 荣昌县| 林西县| 大理市|