• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于Haar-CNN模型的自然場(chǎng)景圖像分類(lèi)的研究

      2017-05-15 11:10:49張慧娜李裕梅傅鶯鶯
      關(guān)鍵詞:彩色圖像小波神經(jīng)元

      張慧娜, 李裕梅, 傅鶯鶯

      (北京工商大學(xué) 理學(xué)院, 北京 100048)

      基于Haar-CNN模型的自然場(chǎng)景圖像分類(lèi)的研究

      張慧娜, 李裕梅*, 傅鶯鶯

      (北京工商大學(xué) 理學(xué)院, 北京 100048)

      研究基于Haar-CNN模型的圖像特征提取用于自然場(chǎng)景圖像分類(lèi)的問(wèn)題.Haar小波變換是圖像處理中常見(jiàn)的一種變換,可以提取圖像的局部和空間信息,并把彩色圖像的顏色、輪廓和紋理信息進(jìn)行分層次的表達(dá).卷積神經(jīng)網(wǎng)絡(luò)(CNN)是一種得到廣泛研究與應(yīng)用的深度學(xué)習(xí)模型,對(duì)圖像特征具有很好的表達(dá)能力.基于Haar小波變換和CNN模型的優(yōu)勢(shì),提出一種新的圖像特征提取方法,即Haar-CNN模型;利用該模型提取得到圖像更豐富的特征信息;然后比較基于Haar-CNN和CNN模型提取的自然場(chǎng)景圖像特征在分類(lèi)中的效果,探究Haar-CNN模型對(duì)于自然場(chǎng)景圖像特征提取的優(yōu)勢(shì).再對(duì)比在不同顏色空間上Haar-CNN模型對(duì)自然場(chǎng)景圖像的分類(lèi)效果,實(shí)驗(yàn)結(jié)果表明YCbCr顏色空間上的分類(lèi)精度最高,為96.2%,比灰度圖像的分類(lèi)精度提高了7.8%.同時(shí),進(jìn)一步分析Haar-CNN模型中圖像塊大小、隱藏層神經(jīng)元個(gè)數(shù)、池化區(qū)域大小、模型深度等參數(shù)對(duì)圖像分類(lèi)精度的影響,實(shí)驗(yàn)結(jié)果表明參數(shù)選擇對(duì)圖像分類(lèi)很重要,合適的參數(shù)選擇可以提高分類(lèi)精度.

      圖像分類(lèi); 深度學(xué)習(xí); Haar-CNN模型; 顏色空間

      隨著高新技術(shù)的創(chuàng)新和發(fā)展,人工智能和機(jī)器學(xué)習(xí)越來(lái)越受到研究者們的關(guān)注.如何利用計(jì)算機(jī)自動(dòng)提取特征和自動(dòng)進(jìn)行圖像分類(lèi),已經(jīng)發(fā)展成人工智能和計(jì)算機(jī)視覺(jué)領(lǐng)域的重要研究課題之一.自然場(chǎng)景圖像分類(lèi)是基于圖像分析[1]開(kāi)展起來(lái)的,在模式識(shí)別和人工智能中有著重要的作用.圖像分類(lèi)一般需要人為構(gòu)造有效底層特征(如顏色特征:顏色直方圖[2]、顏色矩[3]、顏色相關(guān)圖[4]等;形狀特征:HOG[5]、BOVW[6]、SIFT[7]等;紋理特征:LBP[8]、灰度共生矩陣[9]等),然后將提取得到的特征送入分類(lèi)器進(jìn)行分類(lèi).隨著研究的不斷深入,發(fā)現(xiàn)人為構(gòu)造的底層特征已不能夠很好地表達(dá)圖像的內(nèi)容,特征嚴(yán)重冗余且維數(shù)高,泛化能力差,于是如何從原始圖像中自主學(xué)習(xí)出高層特征已成為研究熱點(diǎn).

      CNN模型[10]是深度學(xué)習(xí)中一種有效的自主學(xué)習(xí)特征的方法,可以從原始圖像中重構(gòu)圖像的高層語(yǔ)義特征,利用權(quán)值共享提高訓(xùn)練性能.目前該模型已成功應(yīng)用于手寫(xiě)字符識(shí)別[11]、人臉識(shí)別[12]、MNIST識(shí)別[13]等領(lǐng)域,在圖像分類(lèi)[14]中表現(xiàn)出很好的效果,受到了許多研究者的關(guān)注.

      Haar小波變換是常用的一種變換分析方法,通過(guò)低通和高通濾波器把圖像分解為:低通低通(LL)、低通高通(LH)、高通低通(HL)和高通高通(HH)的表示.LL分量圖像是在原圖像上進(jìn)行降采樣得到,在不顯著降低質(zhì)量的前提下對(duì)信號(hào)進(jìn)行壓縮和消噪等處理,同時(shí)也對(duì)原圖的顏色特征進(jìn)行了更集中的表達(dá),LH、HL和HH分量將提取圖像水平、垂直和對(duì)角的輪廓和紋理信息,在信號(hào)分析、圖像處理和計(jì)算機(jī)視覺(jué)領(lǐng)域應(yīng)用十分廣泛[15].

      彩色圖像在圖像中包含豐富的顏色信息.相比于灰度圖像,彩色圖像在模式識(shí)別中具有更加豐富的特征信息,尤其是在圖像分類(lèi)的應(yīng)用中[16].目前已有研究者探究Haar小波變換和顏色空間對(duì)圖像分類(lèi)效果的影響.將Haar小波變換用到各個(gè)顏色空間上對(duì)圖像進(jìn)行變換,然后提取出的特征對(duì)圖像分類(lèi)效果更佳[17].

      針對(duì)人工構(gòu)造提取特征算法繁瑣,特征信息嚴(yán)重冗余,泛化能力差的問(wèn)題,本文結(jié)合了Haar小波變換和CNN的優(yōu)勢(shì),提出一種新的圖像特征提取方法:Haar-CNN模型,對(duì)比傳統(tǒng)CNN模型與Haar-CNN模型在自然場(chǎng)景圖像特征提取和分類(lèi)中的性能,通過(guò)在自然場(chǎng)景圖像庫(kù)中實(shí)驗(yàn),探究了Haar-CNN模型在不同顏色空間中對(duì)自然場(chǎng)景圖像分類(lèi)的效果,分析了Haar-CNN模型中圖像塊大小、隱藏層神經(jīng)元個(gè)數(shù)、池化塊大小、神經(jīng)網(wǎng)絡(luò)的深度等參數(shù)對(duì)分類(lèi)結(jié)果的影響.

      合適的參數(shù)選擇可以提高Haar-CNN模型對(duì)自然場(chǎng)景圖像分類(lèi)的精度.實(shí)驗(yàn)結(jié)果還表明Haar-CNN模型提取了更豐富的局部和空間信息,后續(xù)分類(lèi)效果優(yōu)于傳統(tǒng)CNN模型提取出來(lái)的特征,在YCbCr顏色空間上的分類(lèi)效果最高,為96.2%,比灰度圖像的分類(lèi)精度提高了7.8%.

      1 深度學(xué)習(xí)模型介紹

      1.1 稀疏自編碼器 自編碼神經(jīng)網(wǎng)絡(luò)[18]是一種無(wú)監(jiān)督學(xué)習(xí)算法,讓輸出值等于輸入值,嘗試學(xué)習(xí)一個(gè)恒等函數(shù)hw,b(x)≈x,其中

      w1和b1為第一層的權(quán)值和偏置項(xiàng),w2和b2為第二層的權(quán)值和偏置項(xiàng),f和g為激活函數(shù).圖1是最典型的自編碼神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),該結(jié)構(gòu)包含了一個(gè)輸入層、一個(gè)隱藏層和一個(gè)輸出層.

      如果輸入數(shù)據(jù)之間存在特定關(guān)系,自編碼神經(jīng)網(wǎng)絡(luò)就能通過(guò)編碼和解碼過(guò)程發(fā)現(xiàn)數(shù)據(jù)間的相關(guān)性.當(dāng)隱藏層神經(jīng)元個(gè)數(shù)小于輸入層和輸出層神經(jīng)元個(gè)數(shù)時(shí),則從輸入層到隱藏層將迫使該網(wǎng)絡(luò)對(duì)輸入數(shù)據(jù)進(jìn)行壓縮表示,這是編碼過(guò)程.然后,從隱藏層到輸出層重構(gòu)原來(lái)的數(shù)據(jù),這是解碼過(guò)程.相反,如果隱藏層神經(jīng)元個(gè)數(shù)大于或等于輸入層和輸出層時(shí),對(duì)該網(wǎng)絡(luò)結(jié)構(gòu)引入稀疏性限制仍能挖掘出原始數(shù)據(jù)之間的關(guān)聯(lián)性.加入稀疏性限制后,稀疏自編碼網(wǎng)絡(luò)的整體代價(jià)函數(shù)為

      式中,第一項(xiàng)是均方誤差項(xiàng),用來(lái)衡量輸入數(shù)據(jù)和重構(gòu)數(shù)據(jù)之間的誤差;第二項(xiàng)是權(quán)重衰減項(xiàng),用來(lái)減小權(quán)重的幅度,防止過(guò)度擬合;第三項(xiàng)是稀疏項(xiàng)

      其中

      表示隱藏層神經(jīng)元的平均激活度,稀疏性由ρ值來(lái)調(diào)節(jié),β控制稀疏性懲罰因子的權(quán)重.將輸入數(shù)據(jù)經(jīng)過(guò)自編碼神經(jīng)網(wǎng)絡(luò)模型的訓(xùn)練,通過(guò)控制該網(wǎng)絡(luò)的整體代價(jià)函數(shù),待迭代算法收斂或達(dá)到最大收斂次數(shù),就訓(xùn)練好了該神經(jīng)網(wǎng)絡(luò)的權(quán)值w和偏置值b.

      1.2CNN模型CNN最早出現(xiàn)于20世紀(jì)80年代,文獻(xiàn)[19-20]開(kāi)啟了深度學(xué)習(xí)的大門(mén),使得CNN受到了廣泛的關(guān)注和應(yīng)用.CNN模型是建立在傳統(tǒng)人工神經(jīng)網(wǎng)絡(luò)上的一種深度學(xué)習(xí)算法,也是第一個(gè)成功訓(xùn)練多層網(wǎng)絡(luò)的學(xué)習(xí)算法.

      傳統(tǒng)的CNN模型由卷積層和降采樣層交替構(gòu)成,通過(guò)局部感受野、權(quán)值共享和降采樣來(lái)獲得縮放和旋轉(zhuǎn)不變性[10].通過(guò)局部感受野,神經(jīng)元可以提取低層的特征;權(quán)值共享大大減少了卷積神經(jīng)網(wǎng)絡(luò)的參數(shù),提高計(jì)算效率;降采樣降低了噪聲和旋轉(zhuǎn)對(duì)圖像特征的影響,增強(qiáng)了特征的泛化能力.圖2展示了灰度圖像基于CNN模型的圖像特征提取過(guò)程.該模型包括一個(gè)卷積層、一個(gè)池化層和一個(gè)全連接層,是基本的CNN網(wǎng)絡(luò)結(jié)構(gòu).如果對(duì)于彩色圖像,將其R、G、B通道分別送入CNN模型提取特征,然后將特征融合到一起得到彩色圖像的CNN特征.

      卷積操作是CNN的核心,其作用類(lèi)似圖像的邊緣檢測(cè),其中,卷積層中每個(gè)神經(jīng)元的權(quán)值矩陣稱(chēng)為卷積核.該模型中,每一個(gè)特征圖與前一層的部分特征圖建立聯(lián)系,輸入圖像和卷積核進(jìn)行卷積,通過(guò)激活函數(shù)形成S1特征圖.一般地,當(dāng)前層的輸入可以表示為

      其中,l表示層數(shù),W和b表示由稀疏自編碼已訓(xùn)練好的當(dāng)前層的權(quán)值和偏置項(xiàng),g代表激活函數(shù),通常為sigmoid或tanh函數(shù),在卷積層后對(duì)輸出結(jié)果進(jìn)行調(diào)整.

      池化層是為了防止特征過(guò)擬合,減小計(jì)算量,對(duì)卷積后特征的不同位置進(jìn)行降采樣的操作.本文實(shí)驗(yàn)采用最大池化的方式,將池化后的特征通過(guò)一個(gè)全連接網(wǎng)絡(luò)(特征融合),得到最終特征.

      1.3Haar-CNN模型 小波分析是一種信息窗口大小固定但其形狀、時(shí)間窗和頻率窗都可以改變的時(shí)頻局部化分析方法.Haar小波變換[21]是其中的一種,通過(guò)加強(qiáng)局部對(duì)比提取局部特征,由尺度和小波基函數(shù)形成.Haar尺度函數(shù)可以定義為

      一族函數(shù)通過(guò)尺度和變換從尺度基函數(shù)中產(chǎn)生

      Harr小波函數(shù)可以定義為

      Haar小波通過(guò)尺度和變換從母波基函數(shù)中產(chǎn)生

      圖3展示了灰度圖像Haar小波變換的過(guò)程,通過(guò)低通和高通濾波器將灰度圖像分解成低通低通(LL)、低通高通(LH)、高通低通(HL)和高通高通(HH)4個(gè)部分.圖4展示了彩色圖像Haar小波變換的過(guò)程,對(duì)圖像進(jìn)行了分層次的表達(dá),對(duì)彩色圖像R、G、B通道分別進(jìn)行類(lèi)似灰度圖像Haar小波變換的過(guò)程,最后對(duì)3個(gè)通道得到的變換圖像進(jìn)行抓取得到彩色圖像Haar小波變換的圖像.顯然,LH、HL和HH展現(xiàn)了彩色圖像水平、垂直和對(duì)角方向的輪廓和紋理信息,且圖像最主要的信息都集中在低頻子圖LL中,去掉圖像的高頻部分并不影響對(duì)圖像的理解,LL分量很好地表達(dá)了彩色圖像的主要信息,故實(shí)驗(yàn)只選取LL分量提取圖像特征.

      Haar-CNN是先對(duì)圖像進(jìn)行不同水平Haar小波變換,對(duì)原始圖像做一次Haar小波變換,得到LL分量,記為L(zhǎng)L1圖像,再對(duì)LL1做一次Haar小波變換,得到相應(yīng)的LL分量,記為L(zhǎng)L2圖像.然后對(duì)原圖像、LL1和LL2提取圖像塊(對(duì)彩色圖像R、G、B通道提取同一位置的圖像塊),并對(duì)圖像塊進(jìn)行歸一化、ZCA白化的預(yù)處理過(guò)程,將其輸入到稀疏自編碼器訓(xùn)練參數(shù)W和b,這是CNN參數(shù)訓(xùn)練的過(guò)程.這里訓(xùn)練好的參數(shù)W和b將作為CNN模型中的參數(shù).將原圖、LL1和LL2分別輸入CNN訓(xùn)練,就可以得到相應(yīng)的原圖像CNN特征、Haar1-CNN特征和Haar2-CNN特征,最后將3個(gè)特征融合,得到彩色圖像的Haar-CNN特征.圖5展示了Haar-CNN特征的提取過(guò)程.

      2 不同顏色空間的Haar-CNN的圖像分類(lèi)

      下面主要介紹5個(gè)彩色空間,分別為RGB、rgb、HSV、YCbCr和°RGB顏色空間[17].彩色圖像包含了3個(gè)顏色通道,每個(gè)像素點(diǎn)都可以用3個(gè)值來(lái)表示.

      °RGB顏色空間是彩色圖像最常見(jiàn)的三基色空間,由紅色、綠色和藍(lán)色3種基色構(gòu)成.其他顏色空間均是由RGB顏色空間通過(guò)線性或非線性變換而得到.

      為了減小RGB圖像對(duì)光照和角度變化的影響,rgb顏色空間通過(guò)歸一化RGB顏色空間的3個(gè)通道得到.

      HSV顏色空間由人類(lèi)視覺(jué)系統(tǒng)而來(lái),是RGB顏色空間的非線性變換

      V=MAX.

      YCbCr顏色空間是RGB顏色空間的線性變換

      RGB顏色空間有3個(gè)通道:L、C1和C2.顏色信息包含在C1和C2中,且C1取值范圍為[-1,1],C2的取值范圍為[-0.866 0,0.866 0],L通道包含了亮度信息且其范圍為[0,1],

      圖6展示了不同顏色空間中基于Haar-CNN特征的圖像分類(lèi)過(guò)程.首先,將圖像轉(zhuǎn)換到5種不同的顏色空間,然后分別對(duì)每個(gè)空間中的圖像提取Haar-CNN特征,用PCA得到各個(gè)顏色空間中最具圖像表達(dá)力的特征,最后利用SVM對(duì)圖像進(jìn)行分類(lèi).

      3 實(shí)驗(yàn)數(shù)據(jù)和實(shí)驗(yàn)效果

      3.1 實(shí)驗(yàn)數(shù)據(jù) 本文實(shí)驗(yàn)的1 000張圖像來(lái)自Corel圖像庫(kù)的圖像,且均為常見(jiàn)的自然圖像.Corel圖像庫(kù)[22]一共由1 000張彩色圖像構(gòu)成,分10個(gè)類(lèi)別:非洲人、沙灘、古建筑、公共汽車(chē)、恐龍、大象、花朵、馬、雪山和西餐.圖像大小為256×384或者384×256像素,均為彩色圖像,每類(lèi)有100張圖像.圖7為Corel圖像庫(kù)中的示例圖像.

      實(shí)驗(yàn)中,訓(xùn)練圖像和測(cè)試圖像均來(lái)自Corel圖像庫(kù),從圖像庫(kù)的每類(lèi)中隨機(jī)選取50張圖像作為訓(xùn)練樣本,其余的50張圖像作為測(cè)試樣本,并記錄相應(yīng)的類(lèi)別標(biāo)號(hào).最終,訓(xùn)練樣本共500張圖像,測(cè)試樣本共500張圖像.由于圖像大小不一致,且受到電腦內(nèi)存的限制(8 G內(nèi)存),這里將圖像統(tǒng)一縮放到100×100像素大小.

      3.2 實(shí)驗(yàn)結(jié)果與探討 主要比較了Haar-CNN模型和傳統(tǒng)CNN模型對(duì)自然場(chǎng)景圖像分類(lèi)的效果,對(duì)比了Haar-CNN模型在不同顏色空間中對(duì)自然場(chǎng)景圖像的分類(lèi)精度,討論了Haar-CNN模型中參數(shù)對(duì)圖像分類(lèi)的影響,分析了如何選取Haar-CNN模型中的最佳參數(shù).為保證實(shí)驗(yàn)數(shù)據(jù)和結(jié)果的穩(wěn)定性,訓(xùn)練集和測(cè)試集將隨機(jī)選取5次,并重復(fù)實(shí)驗(yàn)5次,取分類(lèi)結(jié)果的均值作為最終的分類(lèi)精度.

      一般地,彩色圖像由RGB的3個(gè)通道組成,這里同時(shí)提取RGB 3個(gè)通道同一位置的圖像塊,將各個(gè)圖像塊按照R、G、B順序排列成一個(gè)長(zhǎng)向量.當(dāng)圖像塊的大小為8×8,且圖像塊的數(shù)量為100 000時(shí),對(duì)圖像中RGB的每一個(gè)通道來(lái)說(shuō),將得到64×100 000大小的圖像塊特征向量,從而對(duì)彩色圖像就得到192×100 000的圖像塊特征向量,然后進(jìn)行預(yù)處理并送入稀疏自編碼器去訓(xùn)練,得到參數(shù)W和b,對(duì)其他顏色空間類(lèi)似進(jìn)行特征提取.以下實(shí)驗(yàn)將采用固定其他參數(shù),而只變化一種參數(shù)的方法來(lái)探究各個(gè)參數(shù)對(duì)圖像分類(lèi)效果的影響.

      3.2.1 Haar-CNN與CNN的比較 探究了Haar-CNN與傳統(tǒng)CNN模型對(duì)自然場(chǎng)景圖像的分類(lèi)效果,得到Haar-CNN和CNN模型的分類(lèi)精度分別為94.4%和92.8%.

      由此可以看到Haar-CNN比CNN模型的分類(lèi)精度提高了2.4%,Haar-CNN可以提取到更豐富的紋理信息和空間信息.

      3.2.2 Haar-CNN模型在不同顏色空間上的分類(lèi)效果 探究了Harr-CNN模型在5個(gè)不同顏色空間(RGB、rgb、HSV、YCbCr、°RGB)中對(duì)自然場(chǎng)景圖像分類(lèi)的效果,如圖8所示.

      從圖8中可以看出,Haar-CNN模型在YCbCr顏色空間中的分類(lèi)效果最好,達(dá)96.2%,其次是°RGB、RGB、HSV、rgb顏色空間,對(duì)應(yīng)的分類(lèi)精度分別為95.6%、94.4%、93.8%、92.6%,而灰度圖像的分類(lèi)精度為88.6%.YCbCr顏色空間上的分類(lèi)精度比灰度圖像的分類(lèi)精度提高了7.6%.顯然,顏色信息對(duì)圖像分類(lèi)并不是冗余的,在一定程度上可以提高圖像分類(lèi)的精度;因此,以下實(shí)驗(yàn)將選擇YCbCr顏色空間,探究Haar-CNN模型中的參數(shù)的變化對(duì)圖像分類(lèi)效果的影響.

      3.2.3 圖像塊大小的影響 實(shí)驗(yàn)中,圖像塊大小影響著Haar-CNN模型對(duì)圖像分類(lèi)的效果.本文固定其他參數(shù),選取8×8、16×16和32×32等3種大小圖像塊,從所有圖像中提取40 000個(gè)圖像塊對(duì)圖像進(jìn)行分類(lèi),探究了當(dāng)隱藏層神經(jīng)元個(gè)數(shù)為50、60、70、80、90和100的條件下,3種圖像塊大小對(duì)圖像分類(lèi)精度的影響,如圖9所示.

      從本實(shí)驗(yàn)分類(lèi)效果來(lái)看,當(dāng)固定其他參數(shù)時(shí),圖像塊為16×16的分類(lèi)效果最好,且對(duì)于不同的隱藏層神經(jīng)元個(gè)數(shù),16×16圖像塊的整體分類(lèi)精度要普遍高于8×8和32×32圖像塊的分類(lèi)精度.實(shí)驗(yàn)表明,不同大小的圖像塊包含不同的特征信息,圖像塊太小不足以表達(dá)圖像的特征,圖像塊太大容易引入噪聲干擾.因此,選取合適的圖像塊大小,對(duì)圖像特征表示和圖像分類(lèi)具有重要意義.

      3.2.4 隱藏層神經(jīng)元個(gè)數(shù)的影響 固定其他參數(shù),探究當(dāng)圖像塊選取16×16時(shí),隱藏層神經(jīng)元個(gè)數(shù)對(duì)自然場(chǎng)景圖像分類(lèi)效果的影響,實(shí)驗(yàn)結(jié)果如圖10所示.

      從圖10不難發(fā)現(xiàn),當(dāng)固定其他參數(shù)和圖像塊大小為16×16時(shí),圖像的分類(lèi)精度隨著隱藏層神經(jīng)元個(gè)數(shù)的增加而呈現(xiàn)出先增再減的趨勢(shì).

      當(dāng)隱藏層神經(jīng)元個(gè)數(shù)為50時(shí),圖像的分類(lèi)精度較低,為80%左右.當(dāng)增加隱藏層神經(jīng)元個(gè)數(shù)至90時(shí),圖像分類(lèi)精度迅速增加至96.5%.繼續(xù)增加隱藏層神經(jīng)元個(gè)數(shù),此時(shí)分類(lèi)精度不增加,反而呈下降趨勢(shì);因此,本文選取隱藏層神經(jīng)元個(gè)數(shù)為90時(shí)就足以表達(dá)圖像特征了,其分類(lèi)精度達(dá)到了96.5%.

      同時(shí),圖11進(jìn)一步實(shí)驗(yàn)了當(dāng)圖像塊大小為8×8或32×32時(shí),隱藏層神經(jīng)元個(gè)數(shù)對(duì)圖像分類(lèi)效果的影響.實(shí)驗(yàn)結(jié)果與圖10一致,顯示分類(lèi)精度隨著神經(jīng)元個(gè)數(shù)的增加而表現(xiàn)出先增再減的變化趨勢(shì).

      3.2.5 池化區(qū)域大小的影響 探究當(dāng)圖像塊為16×16,隱藏層神經(jīng)元個(gè)數(shù)為90的情況下,池化塊區(qū)域的大小對(duì)Corel圖像庫(kù)分類(lèi)精度的影響,實(shí)驗(yàn)結(jié)果如圖12所示.

      由圖12可知,圖像分類(lèi)精度受池化區(qū)域大小的影響,并隨著池化區(qū)域大小的增加而呈現(xiàn)先遞增再遞減的變化趨勢(shì).池化區(qū)域太小,不能達(dá)到減少計(jì)算量的優(yōu)勢(shì);池化區(qū)域較大,容易將不同特征聚合,干擾圖像分類(lèi)的準(zhǔn)確率.當(dāng)池化區(qū)域大小為10×10時(shí),Corel圖像庫(kù)分類(lèi)精度最優(yōu),達(dá)到96.8%,因此,合適的池化區(qū)域的選取,對(duì)圖像特征的表達(dá)和圖像分類(lèi)有著重要的影響.

      3.2.6 網(wǎng)絡(luò)深度的影響 進(jìn)一步研究了增加一層網(wǎng)絡(luò)深度對(duì)圖像分類(lèi)效果的影響.Haar-CNN模型層數(shù)分別為1和2時(shí),分類(lèi)精度分別為96.2%和97.8%.由此可見(jiàn),當(dāng)增加Haar-CNN模型的深度時(shí),對(duì)Corel圖像庫(kù)分類(lèi)精度進(jìn)一步提高.由于僅含有一層深度的Haar-CNN模型對(duì)圖像分類(lèi)效果已達(dá)到較高的準(zhǔn)確率,故再增加一層深度對(duì)圖像分類(lèi)精度的提高并不是很明顯.文獻(xiàn)[23]說(shuō)明了過(guò)多的層數(shù)也會(huì)導(dǎo)致過(guò)擬合,影響深度學(xué)習(xí)的泛化能力,因此,合適的模型深度對(duì)Haar-CNN模型的分類(lèi)精度也有重要的影響.

      4 結(jié)束語(yǔ)

      本文結(jié)合Haar小波變換和CNN模型的優(yōu)點(diǎn)提出Haar-CNN模型,提取了圖像時(shí)空上豐富的特征信息,提高了對(duì)圖像分類(lèi)的精度.以Corel自然場(chǎng)景圖像庫(kù)為數(shù)據(jù),對(duì)比了Haar-CNN模型與傳統(tǒng)CNN模型對(duì)自然場(chǎng)景圖像分類(lèi)的效果,實(shí)驗(yàn)結(jié)果表明:Haar-CNN可以提取更豐富的空間信息和紋理信息,明顯提高了分類(lèi)精度.然后,研究Haar-CNN模型在不同顏色空間上對(duì)自然場(chǎng)景圖像的分類(lèi)效果,更進(jìn)一步表達(dá)了各個(gè)顏色空間對(duì)于顏色表達(dá)的不同程度上的重要性.同時(shí),探究Haar-CNN模型中各類(lèi)參數(shù)對(duì)圖像分類(lèi)效果的影響,實(shí)驗(yàn)依次研究了Haar-CNN中圖像塊大小,隱藏層神經(jīng)元個(gè)數(shù),池化區(qū)域大小,模型深度對(duì)圖像分類(lèi)精度的影響,表明合適參數(shù)的選取對(duì)圖像分類(lèi)效果的重要性,且可以提高分類(lèi)精度.

      [1] 彭輝. 基于紋理特征的圖像分類(lèi)識(shí)別[J]. 計(jì)算機(jī)與信息技術(shù),2007(10):16-20.

      [2] 王向陽(yáng),楊紅穎,鄭宏亮,等. 基于視覺(jué)權(quán)重的分塊顏色直方圖檢索算法[J]. 自動(dòng)化學(xué)報(bào),2010,36(10):1489-1492.

      [3] 楊紅菊,張艷,曹付元. 一種基于顏色矩和多尺度紋理特征的彩色圖像檢索方法[J]. 計(jì)算機(jī)科學(xué),2009,36(9):274-277.

      [4] 李永芳. 基于顏色相關(guān)圖和紋理矩的圖像檢索[J]. 計(jì)算機(jī)應(yīng)用與軟件,2011,28(10):38-42.

      [5] DALAL N, TRIGGS B. Histograms of oriented gradients for human detection[C]//IEEE Conference on Computer Vision and Pattern Recognition,2005,1(12):886-893.

      [6] BOLOVINOU A, PRATIKAKIS I, PERANTONIS S. Bog of spatio-visual words for context inference in scene classification[J]. Pattern Recognition,2013,46(3):1039-1053.

      [7] LOWE D G. Distinctive image features from scale-invariant keypoints[J]. Inter J Comput Vision,2004,60(60):91-110.

      [8] OJALA T, PIETIKAINEN M, MAENPAA T. Multiresolution gray-scale and rotation invariant texture classification with local binary patterns[C]//IEEE Transactions on Pattern Analysis and Machine Intelligence,2002,24(7):971-987.

      [9] 薄華,馬縛龍,焦李成. 圖像紋理的灰度共生矩陣計(jì)算問(wèn)題的分析[J]. 電子學(xué)報(bào),2006,34(1):155-158.

      [10] ZEILER M D, FERGUS R. Visualizing and Understanding Convolutional Networks[M]. New York:Springer International Publishing,2013:818-833.

      [11] 高學(xué),王有旺. 基于CNN和隨機(jī)彈性形變的相似手寫(xiě)漢字識(shí)別[J]. 華南理工大學(xué)學(xué)報(bào)(自然科學(xué)版),2014,44(1):72-76.

      [12] 汪濟(jì)民,陸建鋒. 基于卷積神經(jīng)網(wǎng)絡(luò)的人臉性別識(shí)別[J]. 現(xiàn)代電子技術(shù),2015,38(7):81-84.

      [13] 余萍,趙繼生. 基于線性疊加特征和CNNs的圖像分類(lèi)方法[J]. 微電子學(xué)與計(jì)算機(jī),2015(10):36-40.

      [14] SZEGEDY C, LIU W, JIA Y, et al. Going deeper with convolutions[C]//IEEE Conference on Computer Vision and Pattern Recognition,2014:1-9.

      [15] PATIDAR D, JAIN N, PARIKH A. Performance analysis of artificial neural network andKnearest neighbors image classification techniques with wavelet features[C]//International Conference on Computer Communication and Systems IEEE,2015:191-194.

      [16] VERMA A, BANERJI S, LIU C. A new color SIFT descriptor and methods for image category classification[C]//Proceedings of 6th International Conference on Computer Vision,2010:1-8.

      [17] BANERJI S, SINHA A, LIU C. Scene image classification:some novel descriptors[C]//IEEE International Conference on Systems, Man, and Cybernetics,2012:2294-2299.

      [18] BENGIO Y. Learning deep architectures for AI[J]. Foundations and Trends in Machine Learning,2009,2(1):1-127.

      [19] LECUN Y, BOSER B, DENKER J S, et al. Backpropagation applied to handwritten zip code recognition[J]. Neural Computation,2008,1(4):541-551.

      [20] HINTON G E, SALAKHUTDINOV R R. Reducing the dimensionality of data with neural networks[J]. Science,2006,313(5786):504-7.

      [21] BANERJI S, SINHA A, LIU C. New image descriptors based on color, texture, shape, and wavelets for object and scene image classification[J]. Neurocomputing,2013,117(14):173-185.

      [22] CHAPELLE O, HAFFNER P, VAPNIK V N. Support vector machines for histogram-based image classification[J]. IEEE Transactions on Neural Networks,1999,10(5):1055-64.

      [23] LAROCHELLE H, BENGIO Y, LOURADOUR J, et al. Exploring strategies for training deep neural networks[J]. J Machine Learning Research,2009,10(10):1-40.

      (編輯 李德華)

      Research on Natural Scene Image Classification Based on Haar-CNN Model

      ZHANG Huina, LI Yumei, FU Yingying

      (SchoolofScience,BeijingTechnologyandBusinessUniversity,Beijing100048)

      In this paper, we Investigate natural scene image classification based on features’ extraction of Haar-CNN model. Haar wavelet transform is one of the common transforms, which extracts local information and space information by means of enhancing local contrast. The color, contour and texture information can be expressed hierarchically by Haar wavelet transform. Convolution neural network(CNN), one kind of deep learning models which has good expression ability for image features, is widely used in image classification research and applications. Based on the advantages of Haar wavelet transform and CNN model, this paper proposes a new method to extract features, which is called Haar-CNN model and it can extract rich information from images. The image classification performance can be compared based on the feature extraction by using Haar-CNN and CNN model, and the advantages of feature extraction on natural scene image classification by using Haar-CNN model are also explored. Moreover, in different color spaces, the classification performance by using Haar-CNN model on natural scene images is compared. Here, Haar-CNN model in YCbCr color space achieves the best average classification performance of 95.6%, which rises by 7.8% compared to that in gray space. In addition, we analyze the influence of model parameters on the classification performance, such as patch size, the number of hidden layer neurons, pooling size, and the depth of Haar-CNN. Results show that selecting parameters appropriately parameter selection plays a crucial role in image classification and the classification performances can be improved greatly.

      image classification; deep learning; Haar-CNN model; color spaces

      2016-07-01

      國(guó)家自然科學(xué)基金(11101012)和北京市優(yōu)秀人才培養(yǎng)資助青年骨干個(gè)人項(xiàng)目(2015000020124G032)

      TP391.9

      A

      1001-8395(2017)01-0119-08

      10.3969/j.issn.1001-8395.2017.01.020

      *通信作者簡(jiǎn)介:李裕梅(1976—),女,副教授,主要從事機(jī)器學(xué)習(xí)、人工智能與模式識(shí)別、圖像處理等的研究,E-mail:liwjyumei@163.com

      猜你喜歡
      彩色圖像小波神經(jīng)元
      《從光子到神經(jīng)元》書(shū)評(píng)
      自然雜志(2021年6期)2021-12-23 08:24:46
      構(gòu)造Daubechies小波的一些注記
      基于MATLAB的小波降噪研究
      電子制作(2019年13期)2020-01-14 03:15:32
      基于FPGA的實(shí)時(shí)彩色圖像邊緣檢測(cè)
      電子制作(2019年16期)2019-09-27 09:34:46
      躍動(dòng)的神經(jīng)元——波蘭Brain Embassy聯(lián)合辦公
      基于改進(jìn)的G-SVS LMS 與冗余提升小波的滾動(dòng)軸承故障診斷
      基于最大加權(quán)投影求解的彩色圖像灰度化對(duì)比度保留算法
      基于顏色恒常性的彩色圖像分割方法
      基于二次型單神經(jīng)元PID的MPPT控制
      毫米波導(dǎo)引頭預(yù)定回路改進(jìn)單神經(jīng)元控制
      保靖县| 疏勒县| 古田县| 三河市| 太保市| 信宜市| 屏边| 沙坪坝区| 旅游| 靖安县| 海原县| 定西市| 沈丘县| 梁山县| 安仁县| 车险| 兴安县| 全州县| 辽中县| 舟山市| 旌德县| 永泰县| 崇左市| 徐州市| 抚顺市| 仁化县| 莫力| 定安县| 兴文县| 宜兴市| 宣恩县| 洞口县| 天门市| 阳谷县| 洪泽县| 大方县| 鞍山市| 枣庄市| 和田县| 阿坝| 沂水县|