許慶勇,江順亮,黃 偉,李 菁,徐少平,葉發(fā)茂
(南昌大學(xué)a.經(jīng)濟(jì)管理學(xué)院,南昌330031;b.信息工程學(xué)院,南昌330031)
基于多特征融合的深度置信網(wǎng)絡(luò)圖像分類算法
許慶勇a,b,江順亮b,黃 偉b,李 菁b,徐少平b,葉發(fā)茂b
(南昌大學(xué)a.經(jīng)濟(jì)管理學(xué)院,南昌330031;b.信息工程學(xué)院,南昌330031)
針對(duì)現(xiàn)有單一特征描述符及淺層結(jié)構(gòu)分類算法分類正確率較低的問(wèn)題,基于底層圖像特征提出一種針對(duì)自然界圖像特點(diǎn)的深度置信網(wǎng)絡(luò)(DBN)圖像分類算法。提取樣本圖像中的顏色、紋理和形狀特征,構(gòu)成多特征融合的權(quán)重矩陣,并對(duì)特征矩陣進(jìn)行歸一化處理,利用構(gòu)建的4層DBN分類器進(jìn)行訓(xùn)練和分類。采用Corel圖庫(kù),通過(guò)訓(xùn)練權(quán)重進(jìn)行測(cè)試,結(jié)果表明,該算法的平均分類正確率達(dá)到85.1%,高于使用單一特征的分類算法和其他主流分類算法。
深度置信網(wǎng)絡(luò);圖像分類;特征提取;多特征融合;圖像檢索
隨著數(shù)字技術(shù)、信息技術(shù)和多媒體技術(shù)的快速發(fā)展,數(shù)字圖像已成為人們?nèi)粘I钪胁豢扇鄙俚囊徊糠?,而且圖像的數(shù)量正以驚人的速度增長(zhǎng),面對(duì)越來(lái)越多的圖像信息,圖像分類與檢索已成為研究的重點(diǎn)。一些學(xué)者發(fā)現(xiàn)傳統(tǒng)的基于文本和標(biāo)注的分類與檢索方法存在一些缺點(diǎn)[1-2](費(fèi)時(shí)、費(fèi)力;數(shù)字圖像的快速增加使得對(duì)全部圖像做標(biāo)注幾乎變得不可能;標(biāo)注者主觀影響很大),這使得基于文本和標(biāo)注的圖像分類和檢索的發(fā)展受到限制[3]。隨后有大量的學(xué)者開(kāi)始研究基于內(nèi)容的圖像分類與檢索[4](Content based Image Retrieval,CBIR),該技術(shù)克服了人工標(biāo)注的缺點(diǎn),可以實(shí)現(xiàn)自動(dòng)、智能化的分類、檢索與管理[5]。圖像分類問(wèn)題目前的難點(diǎn)主要體現(xiàn)在兩方面:(1)特征的選擇和提取問(wèn)題;(2)分類器的選擇和學(xué)習(xí)問(wèn)題。特征選擇和提取是圖像分類的基礎(chǔ)。圖像特征有2類,一類是底層視覺(jué)特征,包括顏色、形狀和紋理特征、SIFT[6-7]特征等;另一類是中層語(yǔ)義特征,主要有語(yǔ)義特征、區(qū)域語(yǔ)義概念特征、BOW特征等。
深度置信網(wǎng)絡(luò)(Deep Belief Network,DBN)具有較好的從像素級(jí)逐層抽取的圖像特征,比較適合較小的圖像,但對(duì)于較大的圖像處理速度較慢。本文提出一種新的DBN圖像分類算法,從原始圖像中先提取一般的顏色、紋理和形狀等特征,然后以這些特征作為原始數(shù)據(jù)進(jìn)行深度置信網(wǎng)絡(luò)訓(xùn)練。通過(guò)對(duì)顏色、紋理和形狀多特征融合,解決單一特征及現(xiàn)有算法分類正確率不高的問(wèn)題,采用4層DBN網(wǎng)絡(luò)進(jìn)行訓(xùn)練,以克服單一特征及支持向量機(jī)(Support Vector M achine,SVM)、Boosting[8]等淺層結(jié)構(gòu)算法分類效果不佳的缺點(diǎn),同時(shí)也避免出現(xiàn)從像素級(jí)進(jìn)行直接訓(xùn)練速度較慢的現(xiàn)象。
在分類器方法,當(dāng)前的多數(shù)分類學(xué)習(xí)算法多為淺層結(jié)構(gòu)算法,包括常見(jiàn)的支持向量機(jī)(SVM)、Boosting和Logistic Regre-ssion[9]等。SVM應(yīng)用的典型流程是首先提取出圖像局部特征,并形成特征碼,然后將每幅圖像的局部特征所形成特征單詞的直方圖作為特征,最后通過(guò)SVM進(jìn)行訓(xùn)練得到模型[10],其局限性在于有限樣本和計(jì)算單元情況下對(duì)復(fù)雜函數(shù)的表示能力有限,針對(duì)復(fù)雜分類問(wèn)題其泛化能力受到一定制約[11]。BP算法是傳統(tǒng)訓(xùn)練多層網(wǎng)絡(luò)的典型算法,而實(shí)際上對(duì)于僅包含幾層的網(wǎng)絡(luò),該訓(xùn)練方法就已很不理想[12]。深度學(xué)習(xí)通過(guò)組合底層特征形成更加抽象的高層表示(屬性類別或特征),以發(fā)現(xiàn)數(shù)據(jù)的分布式特征表示[13]。使用高維的圖像描述符和線性分類器相結(jié)合的方法是目前較常用的圖像分類方法。
文獻(xiàn)[13]提出了基于貪心逐層非監(jiān)督學(xué)習(xí)過(guò)程的深度置信網(wǎng)絡(luò)(DBN)的概念。DBN是由多層受限波爾茲曼機(jī)(Restricted Boltzann M echines,RBM)組成的深層神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),解決了傳統(tǒng)BP算法訓(xùn)練多層神經(jīng)網(wǎng)絡(luò)的難題。DBN作為一種深度學(xué)習(xí)網(wǎng)絡(luò),其本質(zhì)上把學(xué)習(xí)結(jié)構(gòu)看作一個(gè)網(wǎng)絡(luò),則深度學(xué)習(xí)的核心思路如下:(1)無(wú)監(jiān)督學(xué)習(xí)用于每一層網(wǎng)絡(luò)的預(yù)訓(xùn)練;(2)每次用無(wú)監(jiān)督學(xué)習(xí)只訓(xùn)練一層,將其訓(xùn)練結(jié)果作為其高一層的輸入;(3)用監(jiān)督學(xué)習(xí)去調(diào)整所有層,也就是堆疊多個(gè)層,上一層的輸出作為下一層的輸入。通過(guò)這種方式,即可實(shí)現(xiàn)對(duì)輸入信息的分級(jí)表達(dá)。深度置信網(wǎng)絡(luò)訓(xùn)練可分成兩階段,第1階段是無(wú)監(jiān)督特征學(xué)習(xí),第2階段是有監(jiān)督網(wǎng)絡(luò)參數(shù)微調(diào)和分類。目前深度置信網(wǎng)絡(luò)已成功應(yīng)用于手寫(xiě)字體識(shí)別、語(yǔ)音識(shí)別等領(lǐng)域,取得了較好的效果。隨后大量學(xué)者進(jìn)行了相關(guān)研究,并對(duì)DBN算法進(jìn)行了改進(jìn),如文獻(xiàn)[11]提出數(shù)值屬性的DBN,并在UCI的多個(gè)數(shù)據(jù)集上進(jìn)行對(duì)比驗(yàn)證,證明其有效性[11]。文獻(xiàn)[14]認(rèn)為現(xiàn)有圖像分類方法不能充分利用圖像各單一特征之間的優(yōu)勢(shì)互補(bǔ)特性面,導(dǎo)致分類不精確,其采用主成分分析對(duì)所提取的特征進(jìn)行變換,使用支持向量機(jī)的集成分類器進(jìn)行分類,通過(guò)仿真實(shí)驗(yàn)表明多特征比單一特征具有更好的圖像分類精度和更快的分類速度。
圖像特征的提取和表達(dá)是圖像分類技術(shù)的基礎(chǔ)。一般來(lái)講,基于內(nèi)容圖像檢索的特征以視覺(jué)特征為主,主要包括顏色、紋理、形狀特征3類。
3.1 顏色特征
顏色特征是基于內(nèi)容圖像檢索中最重要、應(yīng)用最廣泛的視覺(jué)特征,主要是因?yàn)樗崛『?jiǎn)單,具有旋轉(zhuǎn)不變性、尺度不變性、平移不變性等優(yōu)點(diǎn),而且對(duì)觀測(cè)視角的變化也不太敏感。目前應(yīng)用較多的顏色特征主要有顏色直方圖、顏色矩(一階矩、二階矩及三階矩)、顏色相關(guān)圖、顏色信息熵等。這些特征可以在不同的顏色空間中進(jìn)行提取(如RGB,HSV空間等)。
3.2 紋理特征
紋理特征是一種不依賴于顏色或亮度的反映圖像中同質(zhì)現(xiàn)象的視覺(jué)特征[15],紋理特征包含了物體表面結(jié)構(gòu)組織排列的重要信息以及它們與周圍環(huán)境的聯(lián)系[16]。紋理特征在基于內(nèi)容的圖像分類中得到了廣泛的應(yīng)用,用戶可以通過(guò)紋理特征相似性對(duì)圖像進(jìn)行分類。
圖像分類中所常用的那些紋理特征,主要有Tamura紋理特征[17]、自回歸紋理模型、方向性特征、小波變換和共生矩陣等形式。
3.3 形狀特征
物體和區(qū)域的形狀是圖像分類和檢索中的另一重要特征。它不同于顏色或紋理等底層特征,形狀特征的表達(dá)以對(duì)圖像中物體或區(qū)域的劃分為基礎(chǔ)。由于當(dāng)前的技術(shù)無(wú)法做到準(zhǔn)確而魯棒的自動(dòng)圖像分割,圖像分類中的形狀特征只能同其他特征一起應(yīng)用。另一方面,由于人們對(duì)物體形狀的變換、旋轉(zhuǎn)和縮放主觀上不太敏感,合適的形狀特征必須滿足對(duì)變換、旋轉(zhuǎn)和縮放無(wú)關(guān),這對(duì)形狀相似度的計(jì)算也帶來(lái)了難度。
圖像分類中所用的形狀特征主要有Hu不變矩、邊緣方向直方圖、傅里葉描述符、Z矩、方向梯度直方圖等。
深度學(xué)習(xí)通過(guò)組合底層特征形成更加抽象的高層表示或特征,以發(fā)現(xiàn)數(shù)據(jù)的分布的特征表示[18]。DBN是在深度架構(gòu)上的推廣,由RBM模型擴(kuò)展而來(lái)。DBN是包含多個(gè)隱層(隱層數(shù)大于2)的概率生成模型,并且可以有效地表示、訓(xùn)練非線性數(shù)據(jù)。當(dāng)前層從前一層的隱含單元捕獲高度相關(guān)的關(guān)聯(lián),建立一個(gè)觀察數(shù)據(jù)和標(biāo)簽之間的聯(lián)合分布。DBN的核心思想是自底向上每一層受限波爾茲慢機(jī)對(duì)輸入數(shù)據(jù)進(jìn)行提取、抽象,盡可能保留重要信息[11]。
4.1 受限波爾茲曼機(jī)模型
RBM是一個(gè)無(wú)監(jiān)督學(xué)習(xí)的能量模型,它包括顯層(輸入層)和隱層(輸出層)2層結(jié)構(gòu),對(duì)稱連接且無(wú)自反饋的隨機(jī)神經(jīng)網(wǎng)絡(luò)模型,層間全連接,層內(nèi)無(wú)連接。如果顯示單元分成2類(只有0或1),RBM可用聯(lián)合概率分布來(lái)表示。
RBM網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示,其中v為顯層,用于表示觀測(cè)數(shù)據(jù),h為隱層,可看作一些特征提取器,W為2層間的連接權(quán)重。RBM的隱層單元和顯層單元可以為任意的指數(shù)族單元(即給定隱層單元/顯層單元,顯層單元/隱層單元的分布可以為任意的指數(shù)族分布),如softmax單元、高斯單元、泊松單元等[19]。
圖1 RBM網(wǎng)絡(luò)結(jié)構(gòu)
圖1 中RBM網(wǎng)絡(luò)結(jié)構(gòu)有m個(gè)顯層節(jié)點(diǎn)和n個(gè)隱層節(jié)點(diǎn),其中每個(gè)顯層節(jié)點(diǎn)只和n個(gè)隱層節(jié)點(diǎn)相關(guān),和其他顯層節(jié)點(diǎn)是獨(dú)立的,就是這個(gè)顯層節(jié)點(diǎn)的狀態(tài)只受n個(gè)隱層節(jié)點(diǎn)的影響,同樣對(duì)于每個(gè)隱層節(jié)點(diǎn)也只受n個(gè)顯層節(jié)點(diǎn)的影響,這個(gè)特點(diǎn)使得RBM的訓(xùn)練變得容易了。2002年,Hinton提出了對(duì)比散度(Constrastive Divergence,CD)算法[20],之后對(duì)其又作了改進(jìn)[21],并于2006年把CD算法引入了RBM模型中,解決了RBM模型中聯(lián)合分布的期望很難獲得精確值的問(wèn)題,提高了訓(xùn)練的效果和效率。由于其方便、易用、靈活度高,RBM被廣泛應(yīng)用于特征提取、分類、降噪、降維等方面。
RBM模型由一個(gè)顯層v和一個(gè)隱層組成。用戶提交的檢索信息經(jīng)過(guò)轉(zhuǎn)換后成為顯層v,顯層與隱層之間通過(guò)對(duì)稱的權(quán)重層W相聯(lián)系。RBM定義的能量函數(shù)為:
其中,θ={wmn,bm,cn}是RBM的參數(shù),均為實(shí)數(shù);wmn表示顯層單元m與隱層單元之間n的連接權(quán)重;bm表示顯層單元m的偏置;cn表示隱層單元n的偏置。當(dāng)參數(shù)確定時(shí),基于式(1)能量函數(shù),可以得到v,h的聯(lián)合概率分布:
其中,Z(θ)為歸一化因子(也稱配分函數(shù)):
對(duì)于觀測(cè)數(shù)據(jù)v的概率分布P(v;θ)對(duì)應(yīng)P(v,h;θ)的邊緣分布,也稱為似然函數(shù)。對(duì)應(yīng)數(shù)據(jù)的邊緣分布(聯(lián)合分布)可定義為:
類似的,有:
4.2 深度置信網(wǎng)絡(luò)模型
DBN在訓(xùn)練過(guò)程中所要學(xué)習(xí)的就是聯(lián)合概率分布,而在機(jī)器學(xué)習(xí)領(lǐng)域中,聯(lián)合概率所表示的意義就是對(duì)象的生成模型。2006年Hinton提出了DBN的模型,它是由多個(gè)RBM模型重疊在一起的結(jié)構(gòu)和一個(gè)BP神經(jīng)網(wǎng)絡(luò)構(gòu)成的深度結(jié)構(gòu),其訓(xùn)練過(guò)程主要包括2個(gè)方面:(1)利用RBM結(jié)構(gòu)訓(xùn)練,篩選數(shù)據(jù)特征信息;(2)將各層RBM連接,在最后一層經(jīng)網(wǎng)絡(luò),將RBM輸出作為BP神經(jīng)網(wǎng)絡(luò)的輸入,并利用數(shù)據(jù)進(jìn)行監(jiān)督訓(xùn)練,構(gòu)成整個(gè)深度結(jié)構(gòu)。DBN將原始輸入進(jìn)行逐層的特征提取,從具體到抽象,使得神經(jīng)網(wǎng)絡(luò)得到的輸入成為一個(gè)更加易于分類的特征向量,同時(shí),多層RBM組成的深度結(jié)構(gòu)使得在特征提取過(guò)程中的錯(cuò)誤或者冗余信息被逐層弱化,并最終在BP神經(jīng)網(wǎng)絡(luò)的反向調(diào)整過(guò)程中使模型達(dá)到整體最優(yōu)。與傳統(tǒng)神經(jīng)網(wǎng)絡(luò)相比,DBN深度結(jié)構(gòu)的優(yōu)勢(shì)在于克服了傳統(tǒng)神經(jīng)網(wǎng)絡(luò)在深度結(jié)構(gòu)增加時(shí)訓(xùn)練時(shí)間長(zhǎng)、易陷入局部最優(yōu)、大數(shù)據(jù)處理慢的缺點(diǎn)。DBN可以認(rèn)為是帶有已訓(xùn)練初始權(quán)值的神經(jīng)網(wǎng)絡(luò)。已有工作證明了下面的3個(gè)規(guī)則:(1)頂層單元個(gè)數(shù)超過(guò)閾值,準(zhǔn)確性在一定水平保持穩(wěn)定;(2)層數(shù)增多,計(jì)算性能趨于下降;(3)RBM訓(xùn)練隨著迭代次數(shù)增長(zhǎng),性能也相應(yīng)提高[11]。
在一個(gè)由m個(gè)RBM組成的深度信任網(wǎng)絡(luò)當(dāng)中,第n(n<m)個(gè)RBM模型在第n-1個(gè)RBM模型訓(xùn)練后開(kāi)始,P(hn;hn-1,w)的輸入是來(lái)自于第n-1個(gè)RBM模型的輸出P(hn-1;hn-2,wn-1)。同時(shí),它的輸出P(hn+1;hn,wn+1)就構(gòu)成了第n+1個(gè)RBM模型的輸入。文獻(xiàn)[22]認(rèn)為,有1個(gè)隱含層的典型的DBN,可視數(shù)據(jù)v和隱含向量h的關(guān)系可以用概率表示成如下形式:
5.1 多特征融合
對(duì)于復(fù)雜圖像,一般來(lái)說(shuō)一個(gè)特征是很難具有足夠辨識(shí)度的。顯然,多種特征可以提供較高的辨識(shí)度,辨識(shí)度越高,分類也就越容易。
一類圖像的顯著特征有些表現(xiàn)在局部特征點(diǎn)上,有些表現(xiàn)在顏色特征上,還有一些則表現(xiàn)在紋理特征上或是形狀特征上。采用單一的特征對(duì)所有圖像進(jìn)行分類很容易造成一類場(chǎng)景圖像的顯著特征丟失從而降低分類精度。不僅如此,同一類場(chǎng)景的不同圖像的顯著特征也存在差異,如果只采用一種特征來(lái)對(duì)圖像進(jìn)行分類,也很容易丟失單幅圖像的顯著特征,造成分類精度降低。而多特征融合能夠改善這種情況,進(jìn)一步提高分類精度[23]。
針對(duì)彩色圖像中復(fù)雜目標(biāo)的特點(diǎn),本文為每一幅圖像提取顏色、紋理和形狀3種類型的特征,包括9個(gè)顏色矩、6個(gè)tam ura特征、20個(gè)灰度共生矩陣、7個(gè)Hu不變矩、16個(gè)邊向直方圖,共48個(gè)特征。然后采用多特征融合的算法,在圖像分類中進(jìn)行特征組合,避免單一特征存在的問(wèn)題,提高分類精度。
5.2 DBN分類器構(gòu)建
DBN采用的是4個(gè)RBM組成的深層結(jié)構(gòu),其結(jié)構(gòu)為48-90-90-90-10。第1層RBM將輸入視為顯層,共有48個(gè)結(jié)點(diǎn),對(duì)應(yīng)圖像的48個(gè)特征,RBM的隱層(輸出層)作為第2層RBM的顯層(共90個(gè)節(jié)點(diǎn));第2層RBM的隱層(輸出層)作為第3層RBM的顯層(共90個(gè)節(jié)點(diǎn));第3層RBM的隱層(輸出層)作為第4層的顯層(共90個(gè)節(jié)點(diǎn));第4層RBM的隱層(輸出層)將是DBN的輸出,它包括10個(gè)單元,即對(duì)圖像分成10類。第4層加入sigma函數(shù),作為最終結(jié)果輸出層。
sigma函數(shù)的公式為:
DBN分類器結(jié)構(gòu)如圖2所示。
圖2 DBN逐層預(yù)訓(xùn)練示意圖
5.3 算法流程
本文采用Corel 1K數(shù)據(jù)庫(kù),隨機(jī)選取其中90%作為訓(xùn)練集,剩余的10%作為測(cè)試集。算法流程如圖3所示。
圖3 圖像分類流程
具體步驟如下:
(1)特征表達(dá)與融合:對(duì)每一幅圖像提取顏色、紋理和形狀3類特征信息,共48個(gè)特征,形成48維的特征向量,對(duì)1 000幅圖像形成1 000×48的特征集。
(2)歸一化處理:為了使之后的實(shí)驗(yàn)更加準(zhǔn)確,保證各數(shù)據(jù)的尺度一致性,必須將特征向量進(jìn)行歸一化處理,歸一化后的所有數(shù)據(jù)都在[0,1]之間,其歸一化公式為:
(3)數(shù)據(jù)分類:從特征集中隨機(jī)選擇900個(gè)(90%)作為訓(xùn)練集,其余100個(gè)(10%)的作為測(cè)試集。
(4)訓(xùn)練過(guò)程:采用4層DBN結(jié)構(gòu)進(jìn)行訓(xùn)練。利用文獻(xiàn)[24]對(duì)比散度的快速學(xué)習(xí)算法進(jìn)行學(xué)習(xí)。
(5)測(cè)試過(guò)程:采用DBN訓(xùn)練過(guò)程得到的權(quán)重和偏置對(duì)測(cè)試集進(jìn)行測(cè)試,根據(jù)RBM的分布進(jìn)行一次Gibbs采樣后所獲取的樣本與原數(shù)據(jù)的差異進(jìn)行誤差評(píng)估,得出分類結(jié)果。
為了驗(yàn)證以上算法,本文實(shí)驗(yàn)的軟件仿真環(huán)境為在W in8.1下安裝的M atlab2013a,電腦硬件配置為Intel(R)Core(TM)2 Duo E8400,3.0 GHz CPU,4 GB內(nèi)存,320 GB硬盤(pán)。
6.1 實(shí)驗(yàn)數(shù)據(jù)
Corel圖像庫(kù)是常用的圖像分類和圖像檢索的圖庫(kù)之一。它有2類,分別Corel 10K和Corel 1K。圖像均是256×384像素或384×256像素的jpg圖像。Corel 10K包括10 000張圖像,共有100類圖,每類圖像有100張。Corel 1K共有10類圖,每類圖100張。
為了同文獻(xiàn)[24-27]的結(jié)果進(jìn)行比較,本文采用與其相同的圖像庫(kù),即Corel 1K圖庫(kù)。這10類分別為花、馬、恐龍、大象、建筑、海灘、公共汽車、人、食物、山。類別分別為1到10,每類圖像100張,共1 000張圖像,圖4顯示了這10類圖,每類顯示了一張。
圖4 Corel圖
6.2 數(shù)據(jù)分組
將整個(gè)圖像庫(kù)分成兩部分,其中一部分作為訓(xùn)練集,另一部分作為測(cè)試集;訓(xùn)練集為樣本總數(shù)的90%;測(cè)試集為樣本的10%。分類的過(guò)程采用隨機(jī)分類。隨機(jī)分類結(jié)果如表1所示。
表1 隨機(jī)分類結(jié)果
6.3 實(shí)驗(yàn)結(jié)果
每次選其中9組作為訓(xùn)練集,另外一組作為測(cè)試集,得到一組結(jié)果。進(jìn)行10次,從而保證每一個(gè)樣本都可以作為測(cè)試集進(jìn)行實(shí)驗(yàn)。通過(guò)10次實(shí)驗(yàn),得出10組實(shí)驗(yàn)正確率。
圖5顯示了10組實(shí)驗(yàn)中各組的分類正確率。
圖5 各組分類正確率
從每組的分類正確率來(lái)看,第10組的正確率最后,為92%。第7組的正確率最低為79%,平均正確率為85.1%。
根據(jù)10次實(shí)驗(yàn)統(tǒng)計(jì)結(jié)果,計(jì)算出每一類圖像的錯(cuò)誤分類情況,具體如表2所示。表2中每一行代表一類圖像(共100張)的分類情況,aij(i=1,2,…,10;j= 1,2,…,10)表明第i類圖像分類時(shí)分成第j類的數(shù)量。第j列的總計(jì)表明1 000張圖像中分類成第j類的數(shù)量(每類應(yīng)該為100張)。最后一列表明對(duì)應(yīng)此類圖像的分類正確率。從表2可以看出,在10類圖像中,每一類的分類正確率各不相同,其中恐龍一組分類正確率最高,為100%,全部分類正確。正確率低于80%的有“人”、“海灘”、“建筑”和“大象”4類。
表2 實(shí)驗(yàn)分類結(jié)果
圖6顯示了10類圖像的誤分率。誤分率為錯(cuò)誤分成本類的圖像數(shù)量除以分成成本類圖像的總數(shù),例如,每一個(gè)“人”,錯(cuò)誤分成本類的數(shù)量為17幅,分成本類的總數(shù)量為89幅,其誤分率為17/ 89×100%=19.1%。10類圖像的誤分率如圖6所示。從圖6可以看出,“建筑”、“大象”和“山”3類圖像的誤分率比較高,均超過(guò)20%?!捌嚒?、“恐龍”和“花”3類的誤分率較低。
圖6 10類圖像的誤分率
6.4 方法比較
6.4.1 單一特征與本文算法結(jié)果
表3列舉了常見(jiàn)特征的分類結(jié)果,主要包括灰度直方圖、顏色直方圖、灰度共生矩陣、顏色共生矩陣和本文算法的結(jié)果。其中,前5個(gè)方法的分類大小均為16。
表3 單一特征與本文算法的分類正確率比較%
從表3可以看出,單一特征的平均分類正確率均不超過(guò)70%,而本文多特征融合算法的結(jié)果達(dá)到85.1%,分類效果較好。
6.4.2 本文算法與其他算法結(jié)果
表4列舉了常用的圖像分類算法在COREL 1K圖庫(kù)進(jìn)行的分類結(jié)果[24-27]。
表4 各算法正確率%
從表4可以看出,無(wú)論是在平均正確率,還是各類中最大/最小的分類正確率,本文多特征融合的DBN算法均獲得了較好的結(jié)果。
6.5 結(jié)果分析
由于圖像本身的特點(diǎn),比如場(chǎng)景的不同、圖像中物體的大小、前景色與背景色的差異大小及不同類圖像之間的差異不同,不同類別的圖像分類正確率會(huì)有一定的差別。
從實(shí)驗(yàn)結(jié)果來(lái)看,10類圖像中,每一類的分類正確率各不相同,其中“恐龍”一組分類正確率最高,為100%,全部分類正確;其次是“花”和“汽車”,分類正確率為99%和98%;正確率低于80%的有“建筑”、“人”、“大象”和“海灘”4類,正確率分別為64%,72%,74%,78%?!敖ㄖ边@一類有8張錯(cuò)分為“大象”;“人”這一類有7張錯(cuò)分為建筑、7張錯(cuò)分為大象;“大象”這一組有8張錯(cuò)分為人;“海灘”這一組有8張錯(cuò)分為“山”,“山”這一組有8張錯(cuò)分為“海灘”。這說(shuō)明“人”、“建筑”和“大象”3類之間的特征有一定的相似;“海灘”和“山”的特征有一定的相似之處,難以進(jìn)行互相區(qū)分。
從表3和表4可以看出,基于多特征融合的DBN圖像分類方法比單一特征和其他多特征方法的分類正確率均要高。表4顯示多特征融合的深度置信網(wǎng)絡(luò)算法在單類最大/最小正確率、平均正確率方面均高于其他算法。
在真實(shí)圖像上,同屬一個(gè)類別的圖像有時(shí)有明顯的差異,而分屬不同類別的圖像有時(shí)又有很大的相似性,這主要是由于圖像底層特征和高層語(yǔ)義之間的溝問(wèn)題。語(yǔ)義上為同一類,俱在形式上卻存在很大的不同,語(yǔ)義上屬于不同類別的圖像,可能形式上卻很相似,這必然會(huì)對(duì)圖像分類造成很大的困難。
例如,“海灘”這一組有8張錯(cuò)分為“山”,“山”這一組有8張錯(cuò)分為“海灘”,這16幅圖像如圖7所示。其中,第1行和第2行的圖像是“海灘”類誤分成“山”類的8幅;第3行和第4行的圖像是“山”類誤分為“海灘”類的8幅圖像。從這16幅圖像來(lái)看,圖像本身并沒(méi)有太多的區(qū)別,像第1行的第2幅和第3幅圖像本身就包含山體的信息,從這個(gè)角度來(lái)看,這種誤分是由于各類圖像之間的特征極為相似導(dǎo)致的。
圖7 部分誤分圖像示例
誤分率可以衡量其他9類圖像與本類圖像的整體相似性。從誤分率來(lái)看,誤分率較高的有“大象”、“建筑”、“山”3類,分別為24.5%,23.8%和22.4%;誤分率較低的為“恐龍”、“花”和“汽車”,分別為1.0%,6.6%和9.3%。
從分類正確率和誤分率來(lái)看,“恐龍”、“花”和“汽車”的分類效果較好,“建筑”、“大象”的分類效果較差。
隨著圖像處理技術(shù)的發(fā)展和數(shù)字圖像的數(shù)量飛速增長(zhǎng),如何有效地對(duì)圖像進(jìn)行分類是目前的主要研究目標(biāo)。深度置信網(wǎng)絡(luò)具有合適的從像素級(jí)逐層抽取的圖像特征,比較適合較小的圖像,但對(duì)較大的圖像處理速度較慢。本文提出了一種基于多特征融合的深度DBN算法,能克服單一特征及現(xiàn)有方法分類正確率不高及直接從像素級(jí)利用DBN進(jìn)行訓(xùn)練速度較慢的問(wèn)題。通過(guò)與主流圖像分類算法進(jìn)行實(shí)驗(yàn)比較,結(jié)果顯示出本文算法的優(yōu)越性。下一步工作將通過(guò)圖像分割、物體識(shí)別、圖像去噪等方法進(jìn)行圖像預(yù)處理,然后提取圖像的中層特征或高層特征,通過(guò)有效的DBN架構(gòu)進(jìn)行實(shí)驗(yàn),研究更高效的圖像分類算法。
[1] 許元飛.基于紋理的檢索算法研究[J].西安科技大學(xué)學(xué)報(bào),2013,33(4):470-474.
[2] Bengio Y,Delalleau O.On the Expressive Power of Deep Architectures[C]//Proceedings of the 14th International Conference on Discovery Science.Berlin,Germ any:Springer-Verlag,2011:18-36.
[3] Wei Huang,Yan Gao,Chan K L.A Review of Regionbased Image Retrieval[J].Journal of Signal Processing System s,2010,59(2):143-161.
[4] Datta R,Joshi D,Li J,et al.Image Retrieval:Ideas,Influences,and Trends of the New Age[J].ACM Computing Surveys,2008,40(2):1-5.
[5] 鄧金杰,肖詩(shī)斌,呂學(xué)強(qiáng),等.基于多特征融合的圖像檢索研究[C]//第四屆圖像圖形技術(shù)與應(yīng)用學(xué)術(shù)會(huì)議論文集.北京:中國(guó)傳媒大學(xué)出版社,2009:189-193.
[6] Zheng Liang,W ang Shengjin,Tian Qi.Coupled Binary Em bedding for Large-scale Image Retrieval[J].IEEE Transactions on Image Processing,2014,23(8):3368-3380.
[7] Zheng Liang,Wang Shengjin,Liu Ziqiong,et al.Packing and Padding:Coupled Multi-index for Accurate Image Retrieval[C]//Proceedings of CVPR'14.Washington D.C.,USA:IEEE Press,2014:1947-1954.
[8] Freund Y,Schapire R E.Experiments with a New Boosting Algorithm[C]//Proceedings of ICM L'96. Washington D.C.,USA:IEEE Press,1996:148-156.
[9] Jordan A.On Discriminative vs.Generative Classifiers:A Comparison of Logistic Regression and Naive Bayes[C]//Proceedings of NIPS'01.[S.l.]:NIPS Foundation,Inc.,2001:605-610.
[10] Zhang J,Marszalek M,Lazebnik S,et al.Local Features and Kernels for Classification of Texture and Object Categories:A Comprehensive Study[J].International Journal of Computing Vision,2007,73(2):213-238.
[11] 孫勁光,蔣金葉,孟祥福,等.一種數(shù)值屬性的深度置信網(wǎng)絡(luò)分類方法[J].計(jì)算機(jī)工程與應(yīng)用,2014,50(2):112-115.
[12] Bengio Y.Learning Deep Architectures for AI[J]. Foundations and Trends in Machine Learning,2009,1(1):321-360
[13] Hinton G E,Osindero S,Teh Y W.A Fast Learning Algorithm for Deep Belief Nets[J].Neural Computation,2006,18(7):1527-1554.
[14] 付 燕,鮮艷明.基于多特征和改進(jìn)SVM集成的圖像分類[J].計(jì)算機(jī)工程,2011,37(21):196-198.
[15] Smith JR,Chang S.Automated Binary Texture Feature Sets for Image Retrieval[C]//Proceedings of IEEE International Conference on Acoustic,Speech,and Signal.Washington D.C.,USA:IEEE Press,1996:2239-2242.
[16] Haralick R M,Shanmugam K,Dinstein I.Texture Features for Image Classification[J].IEEE Transactions on Systems,1973,3(6):610-621
[17] Tamura H.Textural Features Corresponding to Visual Perception[J].IEEE Transactions on System s,1978,8(6):460-473.
[18] 孫志軍,薛 磊,許陽(yáng)明,等.深度學(xué)習(xí)研究綜述[J].計(jì)算機(jī)應(yīng)用研究,2012,29(8):2806-2810.
[19] Welling M,Rosen-Zvi M,Hinton G.Exponential Family Harmoniums with an Application to Information Retrieval[C]//Proceedings of NIPS'05.[S.l.]:NIPS Foundation,Inc.,2005:1481-1488.
[20] William s C,Agakov F.An Analysis of Contrastive Divergence Learning in Gaussian Boltzmann Machines,EDI-INFRR-0120[R].Edinburgh,UK:Institute for Adaptive and Neural Computation,University of Edinburgh,2002.
[21] Carreira-Perpinan M,Hinton G.On Contrastive Divergence Learning[C]//Proceedings of the 10th International Workshop on Artificial Intelligence and Statistics.[S.l.]:Society for Artificial Intelligence and Statistics,2005:33-40.
[22] Hinton G E.Distributed Representations,CS-84-157[R]. Toronto,Canada:Computer Science Department,University of Toronto,1984.
[23] 羅曉清,吳小俊,王土同,等.基于二次融合多特征的多聚焦圖像融合[J].數(shù)據(jù)采集與處理,2010,25(4):430-436.
[24] Hinton G E.Training Products of Experts by Minimizing Contrastive Divergence[J].Neural Computation,2002,14(8):1771-1800.
[25] Rao M B,Kavitha C H.A New Feature Set for Content Based Image Retrieval[J].Information Communication and Embedded System s,2013,1(1):84-89.
[26] Murala S,Maheshwari R P,Balasubramanian R.Directional Local Extrema Patterns:A New Descriptor for Content Based Image Retrieval[J].International Journal of Multimedia Information Retrieval,2012,1(3):191-203.
[27] Hirem ath S,Pujari J.Content Based Image Retrieval Using Color,Texture and Shape Features[C]//Proceedings of the 15th International Conference on Advanced Computing and Communications.Washington D.C.,USA:IEEE Press,2007:780-784.
編輯金胡考
Image Classification Algorithm for Deep Belief Network Based on Multi-feature Fusion
XU Qingyonga,b,JIANG Shunliangb,HUANG Weib,LI Jingb,XU Shaopingb,YE Famaob
(a.School of Economics and Management;b.School of Information Engineering,Nanchang University,Nanchang 330031,China)
Taking the single feature and the major classification algorithm s into consideration,an image classification algorithm based on fusion of multi-feature for Deep Belief Network(DBN)is proposed to classify the nature images. The features about color,texture,shape are extracted and the characteristic w eight matrix is form ed.Then the characteristic matrix is normalized.The samples are trained and classified using the DBN with four levels which is constructed.The proposed method has been evaluated on the Corel dataset by train w eight,and the result show s that the average classification accuracy is 85.1%by the proposed algorithm,which is higher then single feature algorithm and other mainstream algorithm s.
Deep Belief Network(DBN);image classification;feature extraction;multi-feature fusion;image retrival
10.3969/j.issn.1000-3428.2015.11.042
許慶勇,江順亮,黃 偉,等.基于多特征融合的深度置信網(wǎng)絡(luò)圖像分類算法[J].計(jì)算機(jī)工程,2015,41(11):245-252.
英文引用格式:Xu Qingyong,Jiang Shunliang,Huang Wei,et al.Image Classification Algorithm for Deep Belief Network Based on Multi-feature Fusion[J].Computer Engineering,2015,41(11):245-252.
1000-3428(2015)11-0245-08
A
TP391
國(guó)家自然科學(xué)基金資助項(xiàng)目(61463032,61363046,41261091)。
許慶勇(1982-),男,講師、博士研究生,主研方向:圖像處理,機(jī)器學(xué)習(xí),機(jī)器視覺(jué);江順亮,教授、博士后、博士生導(dǎo)師;黃 偉,副教授、博士;李 菁,博士;徐少平、葉發(fā)茂,副教授、博士。
2014-10-08
2014-11-12 E-m ail:xyongle@163.com