郭繼昌, 王 楠, 張 帆
(天津大學(xué) 電子信息工程學(xué)院, 天津 300072)
?
基于多描述子分層特征學(xué)習(xí)的圖像分類(lèi)
郭繼昌, 王 楠, 張 帆
(天津大學(xué) 電子信息工程學(xué)院, 天津 300072)
為解決圖像分類(lèi)任務(wù)中詞袋(Bag-of-Words)模型分類(lèi)算法單一局部描述子信息缺失、特征量化誤差較大、圖像特征表現(xiàn)力不足等問(wèn)題,提出一種基于多描述子分層特征學(xué)習(xí)的圖像分類(lèi)方法. 結(jié)合尺度不變特征變換(SIFT)與形狀核描述子(KDES-S)進(jìn)行局部特征提取,并構(gòu)建分層特征學(xué)習(xí)結(jié)構(gòu)來(lái)減少編碼過(guò)程中的量化誤差,最后將圖像特征分層歸一化后進(jìn)行線性組合并利用線性支持向量機(jī)(SVM)進(jìn)行訓(xùn)練和分類(lèi). 在Caltech-101、Caltech-256、Scene-15數(shù)據(jù)庫(kù)上進(jìn)行實(shí)驗(yàn),結(jié)果表明:相比其他圖像分類(lèi)方法,本文方法在分類(lèi)準(zhǔn)確率上具有顯著提升.
圖像分類(lèi); 分層特征學(xué)習(xí); 分層歸一化
圖像分類(lèi)作為圖像理解的基礎(chǔ),在計(jì)算機(jī)視覺(jué)領(lǐng)域扮演著重要的角色. 在圖像分類(lèi)中,詞袋模型[1]經(jīng)不斷發(fā)展已被廣泛應(yīng)用于目標(biāo)識(shí)別、場(chǎng)景分類(lèi)等領(lǐng)域[2-3],在應(yīng)用中,其不足主要表現(xiàn)為:?jiǎn)我幻枋鲎釉斐尚畔⑷笔В卣骶幋a過(guò)程中產(chǎn)生較大的誤差進(jìn)而影響圖像特征表現(xiàn)力等. 為了解決這些問(wèn)題,國(guó)內(nèi)外學(xué)者一直在對(duì)模型進(jìn)行優(yōu)化和改進(jìn).
詞袋模型一般包括特征提取、視覺(jué)字典構(gòu)建、特征編碼、特征匯聚等四部分[4]. 在特征提取中,單一SIFT描述子等由于信息不足,常遇到視覺(jué)詞語(yǔ)的歧義性和同義性問(wèn)題[5]. 為解決這一問(wèn)題,可以將各種優(yōu)秀的局部描述子取長(zhǎng)補(bǔ)短,適當(dāng)結(jié)合來(lái)豐富局部特征[6]. 文獻(xiàn)[4]提出結(jié)合SIFT與Edge-SIFT特征來(lái)豐富圖像特征的方法,文獻(xiàn)[7]則結(jié)合SIFT與HOG描述子來(lái)全面描述圖像. 兩種方法都提高了分類(lèi)精度,但是仍存在不足,文獻(xiàn)[4]的方法對(duì)于形變較大的目標(biāo)分類(lèi)效果欠佳,文獻(xiàn)[7]中SIFT與HOG都屬于基于梯度方向的描述子,且該方法對(duì)分類(lèi)準(zhǔn)確率的提升效果有限.
特征編碼作為字典構(gòu)建和特征匯聚中間的重要環(huán)節(jié),編碼結(jié)果直接影響圖像特征的表現(xiàn)力. 文獻(xiàn)[8]用矢量量化(Vector Quantization)進(jìn)行特征編碼后容易產(chǎn)生較大的量化誤差,為減小誤差,文獻(xiàn)[9]提出稀疏編碼(Sparse Coding)法,但其編碼穩(wěn)定性較差. 作為改進(jìn),文獻(xiàn)[10]提出局部約束線性稀疏編碼LLC(locality-constrained linear coding),強(qiáng)調(diào)了編碼過(guò)程的局部性,并提高了編碼穩(wěn)定性. 文獻(xiàn)[11]則利用圖像文本和視覺(jué)信息對(duì)圖像進(jìn)行建模,通過(guò)模型訓(xùn)練對(duì)圖像進(jìn)行識(shí)別. 近年來(lái)較多的研究集中于基于字典學(xué)習(xí)[12-13](dictionary learning)的方法和訓(xùn)練多層的深度網(wǎng)絡(luò)進(jìn)行圖像分類(lèi). 其中基于字典學(xué)習(xí)的方法主要通過(guò)迭代更新字典來(lái)減小量化誤差,而基于深度網(wǎng)絡(luò)的方法通過(guò)多層的反復(fù)學(xué)習(xí)來(lái)獲得高質(zhì)量特征. 文獻(xiàn)[14]提出可學(xué)習(xí)感受野的深度網(wǎng)絡(luò),通過(guò)學(xué)習(xí)分類(lèi)器和感受野來(lái)提高分類(lèi)準(zhǔn)確率. 文獻(xiàn)[15]構(gòu)造多路徑的深度特征學(xué)習(xí)方法,通過(guò)多路徑特征的結(jié)合提高圖像分類(lèi)精度. 特征編碼階段大多方法均是基于單一描述子,容易丟失圖像中的顯著特征. 基于深度網(wǎng)絡(luò)的方法直接從圖像像素中學(xué)習(xí)特征,其復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu)對(duì)運(yùn)算要求相對(duì)較高. 尤為重要的是,學(xué)者們注意力主要集中在編碼方法的研究,往往忽略了對(duì)編碼特征的后續(xù)處理,但該過(guò)程是分類(lèi)中是不可或缺的.
針對(duì)以上問(wèn)題,本文提出了一種基于多描述子分層特征學(xué)習(xí)的圖像分類(lèi)方法,通過(guò)多描述子結(jié)合來(lái)解決特征提取階段單一描述子信息缺失造成的問(wèn)題,并構(gòu)建一個(gè)兩層的特征學(xué)習(xí)結(jié)構(gòu),學(xué)習(xí)過(guò)程中利用批正交匹配追蹤法[16]BOMP(batch orthogonal matching pursuit)得到稀疏特征后結(jié)合空間金字塔結(jié)構(gòu)[8]對(duì)特征進(jìn)行空間匯聚(Pooling)和歸一化處理,然后作為新的特征進(jìn)行第二層的特征學(xué)習(xí),最后將各層特征結(jié)合并利用線性SVM分類(lèi)器分類(lèi). 本文結(jié)合KDES-S[17]與SIFT描述子,利用KDES-S提取圖像形狀特征補(bǔ)充SIFT特征的信息,提出的分層特征學(xué)習(xí)方法利用了圖像視覺(jué)結(jié)構(gòu)的多面性[18]并在各層中進(jìn)行特征歸一化,根據(jù)圖像結(jié)構(gòu)合理分配歸一化系數(shù)優(yōu)化特征向量. 三種方法相結(jié)合,在沒(méi)有明顯增加耗時(shí)的前提下提高了圖像分類(lèi)的準(zhǔn)確率.
圖1為提出的多描述子分層特征學(xué)習(xí)方法的基本結(jié)構(gòu),主要包括多描述子提取和分層特征學(xué)習(xí)兩部分.
1.1 多描述子提取
相比文獻(xiàn)[4]需從原圖的邊界圖中提取Edge-SIFT特征,KDES-S直接從原圖像中提取即可,大大減少了計(jì)算量;而且KDES-S引入核函數(shù)獲取目標(biāo)的形狀特征,在完善特征的同時(shí)可保證特征較高的魯棒性. 在特征結(jié)合方式選擇上,考慮到分層特征學(xué)習(xí)法可以充分利用結(jié)合后特征的多樣性,在提取特征后先對(duì)特征進(jìn)行結(jié)合然后再進(jìn)行特征學(xué)習(xí).
圖1 多描述子分層特征學(xué)習(xí)結(jié)構(gòu)
Fig.1 Structure of multi-descriptor hierarchical feature learning
1.2 分層特征學(xué)習(xí)
選用MI-KSVD[15](mutual incoherence KSVD)進(jìn)行字典學(xué)習(xí),并結(jié)合高效的BOMP方法在獲取稀疏編碼的同時(shí)提高編碼效率. 得到編碼向量后對(duì)其進(jìn)行空間結(jié)構(gòu)劃分并進(jìn)行特征匯聚,根據(jù)不同的空間結(jié)構(gòu)分配特征歸一化系數(shù)進(jìn)行空間特征歸一化,充分利用圖像的空間信息. 借鑒深度學(xué)習(xí)的思想,對(duì)第一層學(xué)習(xí)后的特征再次進(jìn)行學(xué)習(xí)得到豐富有效的圖像特征. 由于第二層學(xué)習(xí)建立在第一層基礎(chǔ)上,其特征從深層上利用了圖像的空間信息,對(duì)局部形變更具魯棒性,且兩層學(xué)習(xí)后特征冗余也得到降低. 照此結(jié)構(gòu),可以構(gòu)建多層的特征學(xué)習(xí)結(jié)構(gòu),學(xué)習(xí)圖像的深層特征,為了減少計(jì)算量,綜合分析各層分類(lèi)效果后最終選用兩層的結(jié)構(gòu).
第一層的目的是學(xué)習(xí)多描述子特征,得到稀疏的編碼向量. 重點(diǎn)是對(duì)編碼特征的后續(xù)處理,為充分利用圖像的空間信息,增加特征的穩(wěn)定性和局部不變性,對(duì)學(xué)習(xí)到的特征先以16×16的塊為單位進(jìn)行空間劃分,如圖2所示. 并分別對(duì)各單元特征進(jìn)行最大值匯聚(Max Pooling)得到匯聚特征:
(1)
式中:B為視覺(jué)單詞的個(gè)數(shù),cjm表示單元中第j個(gè)稀疏編碼向量cj的第m個(gè)元素.
圖2 3層空間金字塔結(jié)構(gòu)
則一個(gè)圖像塊P的特征表示為
(2)
(3)
式中:zj為第二層得到的稀疏編碼,F(xiàn)j為第一層產(chǎn)生的塊特征. U,V分別為兩種特征的維度. 由式(3)可以看出,第二層特征匯聚結(jié)合了本層的稀疏編碼zj和第一層的塊特征編碼Fj,結(jié)合的特征包含了第一層的細(xì)密紋理和第二層的粗糙紋理,比單層特征更豐富. 各單元的特征結(jié)合后得到全圖的特征:
利用式(2)對(duì)各單元的特征分別歸一化后進(jìn)行結(jié)合,構(gòu)成最終的圖像特征:
圖3 全圖空間金字塔結(jié)構(gòu)
在兩層的特征學(xué)習(xí)過(guò)程中,每一層分別學(xué)習(xí)本層的字典并根據(jù)字典進(jìn)行稀疏編碼. 圖4為在Caltech-101數(shù)據(jù)集上利用訓(xùn)練圖像學(xué)習(xí)到字典的部分圖示. 左右兩圖分別對(duì)應(yīng)第一層和第二層的字典,對(duì)比兩層的字典可以發(fā)現(xiàn),第二層的字典相比第一層的字典更加細(xì)致. 這是因?yàn)樵撟值涫窃诘谝粚犹卣鞯幕A(chǔ)上學(xué)習(xí)得到的,利用該字典得到的稀疏特征也將更具辨別力.
圖4 特征學(xué)習(xí)階段的字典
SIFT與KDES-S描述子相結(jié)合的方法,結(jié)合后特征的維度由128維增加到了328維,相比單一特征的方法,本文方法在計(jì)算復(fù)雜度上增加了近1.5倍,但是相比于其他基于多描述子結(jié)合的方法,如文獻(xiàn)[4]和文獻(xiàn)[7]的方法,本文方法在計(jì)算復(fù)雜度上沒(méi)有明顯增加. 兩層結(jié)構(gòu)中的分層空間特征歸一化利用圖像空間分層結(jié)構(gòu),合理分配權(quán)重系數(shù),對(duì)各層特征歸一化處理,不僅可以降低大區(qū)域特征對(duì)小區(qū)域特征的影響還突出了具有辨別力的特征,而大多數(shù)研究者往往忽視了這一工作. 該方法直接利用分層結(jié)構(gòu),在幾乎沒(méi)有增加計(jì)算量消耗的同時(shí)增加了圖像特征的表現(xiàn)力,提高了分類(lèi)準(zhǔn)確率. 與設(shè)計(jì)復(fù)雜的特征編碼算法相比,該方法更加簡(jiǎn)單可行.
為了驗(yàn)證方法的有效性,首先在Caltech-101數(shù)據(jù)庫(kù)上分別進(jìn)行多描述子提取和分層特征學(xué)習(xí)實(shí)驗(yàn),然后在Caltech-256和Scene-15數(shù)據(jù)庫(kù)上進(jìn)行整體實(shí)驗(yàn)分析. 多描述子提取時(shí),SIFT與KDES-S均采用16×16的圖像塊,采樣間隔均設(shè)置為8像素. 分層特征學(xué)習(xí)階段,字典大小設(shè)置為1024,層數(shù)設(shè)置為2,空間金子塔劃分采用圖2和圖3結(jié)構(gòu). 分類(lèi)階段直接使用臺(tái)灣大學(xué)開(kāi)發(fā)的LIBLINEAR-SVM[20]軟件包對(duì)圖像進(jìn)行訓(xùn)練和測(cè)試. 一次實(shí)驗(yàn)中,分類(lèi)準(zhǔn)確率計(jì)算方法為Acc=n/N,其中n為預(yù)測(cè)正確的圖片張數(shù),N為參與測(cè)試的總圖片的張數(shù). 分別在每類(lèi)中統(tǒng)計(jì),分類(lèi)結(jié)果取10次實(shí)驗(yàn)的平均值.
2.1 多描述子提取
考慮到文獻(xiàn)[4]中多描述子方法在Caltech-101數(shù)據(jù)庫(kù)上的分類(lèi)效果優(yōu)于文獻(xiàn)[7],本實(shí)驗(yàn)直接選擇與前者進(jìn)行比較. 為了比較,特征編碼均采用LLC,每類(lèi)圖像的訓(xùn)練樣本數(shù)設(shè)為30,剩余為測(cè)試樣本. 表1為采樣間隔設(shè)置為6~10像素時(shí),不同描述子的分類(lèi)準(zhǔn)確率.
表1 不同采樣間隔下各描述子分類(lèi)準(zhǔn)確率Tab.1 Classification accuracy on different sampling interval %
由表1的數(shù)據(jù)可以看出,基于多描述子的分類(lèi)準(zhǔn)確率都高于單一描述子,且本文的多描述子分類(lèi)效果優(yōu)于文獻(xiàn)[4]. 在采樣間隔為8時(shí),多描述子分類(lèi)準(zhǔn)確率最高,因此后面實(shí)驗(yàn)采樣間隔均取8像素. 這一組實(shí)驗(yàn)中,相比文獻(xiàn)[4],本文方法并沒(méi)有明顯優(yōu)勢(shì),但是從描述子提取上考慮,不必單獨(dú)生成原圖像的邊界圖再進(jìn)行提取,減少計(jì)算消耗.
女?huà)z是中華民族共同的人文始祖,是一位充滿傳奇神秘色彩的始母形象。神話中的女?huà)z先人類(lèi)而生,功業(yè)一是造人,二是補(bǔ)天。
為了進(jìn)一步比較分析,取數(shù)據(jù)庫(kù)中分類(lèi)結(jié)果差異較大的5個(gè)子類(lèi)分別用SIFT、Edge-SIFT、KDES-S分類(lèi),結(jié)果如圖5所示.
圖5 不同描述子在各子類(lèi)的分類(lèi)準(zhǔn)確率Fig.5 Classification accuracy of different descriptors on subcategories 從圖5可以看出,5個(gè)子類(lèi)中,SIFT與Edge-SIFT的分類(lèi)準(zhǔn)確率相差均較大,相比之下KDES-S則較為穩(wěn)定. Edge-SIFT在子類(lèi)中分類(lèi)準(zhǔn)確率的過(guò)低會(huì)影響多描述子的分類(lèi)效果,而KDES-S描述子則改善了這一問(wèn)題,尤其在面對(duì)邊界形變較大的圖像,本文方法分類(lèi)效果更好.
為進(jìn)一步分析SIFT與KDES-S描述子結(jié)合對(duì)分類(lèi)效果的影響,對(duì)上面5個(gè)子類(lèi)圖像,分別進(jìn)行實(shí)驗(yàn)分析,得到表2所示的統(tǒng)計(jì)結(jié)果.
每類(lèi)圖像的數(shù)量在類(lèi)名后的括號(hào)中給出,表中每一行分別表示滿足條件的圖像數(shù)量(如第一個(gè)數(shù)據(jù)2表示W(wǎng)ater lily中,單獨(dú)用SIFT分類(lèi)出錯(cuò),單獨(dú)用KDES-S出錯(cuò)且SIFT與KDES-S結(jié)合分類(lèi)正確的圖片數(shù)量. 第二行第二列數(shù)據(jù)6表示W(wǎng)ild cat中,單獨(dú)用SIFT分類(lèi)正確,用KDES-S分類(lèi)錯(cuò)誤,但用SIFT與KDES-S結(jié)合分類(lèi)正確的圖片數(shù)量. 實(shí)驗(yàn)中沒(méi)有SIFT或KDES-S單獨(dú)分類(lèi)正確但二者結(jié)合分類(lèi)錯(cuò)誤的圖片,所以在表中沒(méi)有列出這一情況). 5個(gè)子類(lèi)中SIFT與KDES-S分別分類(lèi)正確的圖像說(shuō)明本文采用的兩種特征各具優(yōu)勢(shì),具備互補(bǔ)性. 而兩種特征均分類(lèi)錯(cuò)誤但用二者結(jié)合后可以正確分類(lèi),這充分說(shuō)明采用的結(jié)合方法可以利用兩種特征進(jìn)行互補(bǔ),增強(qiáng)局部特征的表現(xiàn)力.
表2 不同方法下的分類(lèi)結(jié)果
為比較兩種描述子結(jié)合方式,分別利用LLC和分層特征學(xué)習(xí)結(jié)合兩種特征結(jié)合方式在Caltech-101數(shù)據(jù)庫(kù)上進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果見(jiàn)表3.
從分類(lèi)結(jié)果可以發(fā)現(xiàn),先結(jié)合的特征聯(lián)合分層特征學(xué)習(xí)獲得了最佳的分類(lèi)效果. 這是因?yàn)榉謱犹卣鲗W(xué)習(xí)結(jié)構(gòu)在編碼過(guò)程中充分利用了結(jié)合后的特征,得到更加豐富的圖像特征,這也表明采用的多描述子方法和分層特征學(xué)習(xí)方法能很好地相結(jié)合,共同提高分類(lèi)準(zhǔn)確率.
表3 不同多特征結(jié)構(gòu)下Caltech-101的分類(lèi)準(zhǔn)確率
2.2 分層特征學(xué)習(xí)
該實(shí)驗(yàn)主要驗(yàn)證分層特征學(xué)習(xí)結(jié)構(gòu)中層數(shù)和空間特征歸一化對(duì)分類(lèi)結(jié)果的影響. 實(shí)驗(yàn)分別在Caltech-101和Scene-15數(shù)據(jù)庫(kù)上測(cè)試,結(jié)果如圖6所示. 實(shí)驗(yàn)構(gòu)建的最大層數(shù)為4,其中第一、二層特征塊大小設(shè)為16×16,第三、四層特征塊大小分別為32×32、64 ×64,其他設(shè)置不變. Caltech-101和 Scene-15數(shù)據(jù)庫(kù)中每一類(lèi)訓(xùn)練圖像分別設(shè)置為30和100.
圖6 不同層特征學(xué)習(xí)分類(lèi)結(jié)果
比較以上兩組實(shí)驗(yàn),同為Caltech-101數(shù)據(jù)庫(kù)上兩層的特征學(xué)習(xí),表2中分類(lèi)結(jié)果78.82%和圖6結(jié)果81.86%相差較大,這是因?yàn)榍罢呤怯梦捶謱拥臍w一化方法得到的,而后者是本文分配歸一化系數(shù)的方法得到的. 由此可得,提出的方法在Caltech-101數(shù)據(jù)庫(kù)上獲得了3.04%的提升,需要注意的是,該方法結(jié)合分層結(jié)構(gòu),只需對(duì)各層圖像特征歸一化處理,對(duì)計(jì)算復(fù)雜度的增加基本可以忽略.
為進(jìn)一步驗(yàn)證分層歸一化系數(shù)ks對(duì)分類(lèi)結(jié)果的影響,分別在兩個(gè)數(shù)據(jù)庫(kù)上對(duì)未分配歸一化系數(shù)和分配系數(shù)的兩種分層歸一化結(jié)構(gòu)比較,結(jié)果見(jiàn)表4.
表4 不同歸一化方法的分類(lèi)準(zhǔn)確率Tab.4 Classification accuracy of different normalization methods %
觀察實(shí)驗(yàn)結(jié)果可以發(fā)現(xiàn),分層歸一化系數(shù)的引入在兩個(gè)數(shù)據(jù)庫(kù)上均有約2%的準(zhǔn)確率提升,這也驗(yàn)證了前面提到的分配系數(shù)可以進(jìn)一步提高特征表現(xiàn)力,同樣表明了特征處理這一過(guò)程的必要性.
2.3 整體實(shí)驗(yàn)分析
前兩部分實(shí)驗(yàn)已充分驗(yàn)證了本文方法在Caltech-101數(shù)據(jù)庫(kù)上的有效性,因此,目標(biāo)分類(lèi)數(shù)據(jù)庫(kù)改用更具挑戰(zhàn)的Caltech-256,場(chǎng)景分類(lèi)則選用應(yīng)用較多的Scene-15數(shù)據(jù)庫(kù).
2.3.1 Caltech-256
Caltech-256數(shù)據(jù)庫(kù)相當(dāng)于Caltech-101數(shù)據(jù)庫(kù)的擴(kuò)展,它包含256個(gè)目標(biāo)類(lèi)別和一個(gè)背景類(lèi)別共計(jì)30607張圖像. 由于圖像類(lèi)別和數(shù)目的增加,實(shí)驗(yàn)中字典大小增加為2048. 每一類(lèi)訓(xùn)練圖像分別隨機(jī)取15、30、45、60,其他設(shè)置與上面實(shí)驗(yàn)一致,結(jié)果見(jiàn)表5.
表5 Caltech-256數(shù)據(jù)庫(kù)中不同方法的分類(lèi)準(zhǔn)確率
由表5的數(shù)據(jù)可以看出,采用的方法在圖像類(lèi)別和數(shù)量增加、目標(biāo)更為復(fù)雜的情況下,仍能得到理想的分類(lèi)結(jié)果. 對(duì)比最新的文獻(xiàn)[4,7]基于多描述子的方法,本文方法分類(lèi)效果更佳,這不僅與所選特征有關(guān),更多的是分層學(xué)習(xí)結(jié)構(gòu)和對(duì)特征進(jìn)行空間歸一化的影響. 相比文獻(xiàn)[21]基于深度學(xué)習(xí)方法,本文算法具有較大提升,這表明提出的多描述子與分層特征學(xué)習(xí)能很好地結(jié)合共同提高特征表現(xiàn)力. 由表5數(shù)據(jù)還可以發(fā)現(xiàn),隨著訓(xùn)練圖像的增加,本算法優(yōu)勢(shì)更加明顯,這表明提取的特征更為豐富有效,隨著訓(xùn)練樣本增加更能體現(xiàn)出優(yōu)勢(shì).
2.3.2 Scene-15
Scene-15數(shù)據(jù)庫(kù)包含15個(gè)室外場(chǎng)景類(lèi)別共4485張圖像,是一個(gè)被廣泛使用的場(chǎng)景識(shí)別數(shù)據(jù)庫(kù),圖7是該數(shù)據(jù)集部分示例圖片. 實(shí)驗(yàn)中訓(xùn)練圖像設(shè)為100,分類(lèi)結(jié)果見(jiàn)表6.
圖7 Scene-15部分圖片
方法分類(lèi)準(zhǔn)確率方法分類(lèi)準(zhǔn)確率GPP[4]85.13KDES-A[17]86.70LLC[10]82.34LCKSVD[13]90.40SPM[8]81.40本文方法91.88IMFSC[7]83.12
由表6數(shù)據(jù)可以看出,算法在場(chǎng)景分類(lèi)任務(wù)中也具有較好的分類(lèi)效果. 相比最近的文獻(xiàn)[4,7]中的方法,本文方法分類(lèi)準(zhǔn)確率要高6%~8%,相比文獻(xiàn)[8,10,17]方法提升更為明顯. 結(jié)合Caltech-256數(shù)據(jù)庫(kù)的實(shí)驗(yàn)分析,一個(gè)原因是訓(xùn)練樣本的增多,本算法提取的特征更能體現(xiàn)其有效性,另一個(gè)原因本文是分層特征學(xué)習(xí)與空間特征歸一化相結(jié)合得到的圖像特征更加豐富穩(wěn)定. 與文獻(xiàn)[13]方法相比提升不是特別明顯,但是本文帶系數(shù)的分層特征歸一化與分層特征學(xué)習(xí)結(jié)構(gòu)相結(jié)合的方法更為簡(jiǎn)單,且所用歸一化方法計(jì)算量小,耗時(shí)較少.
結(jié)合深度學(xué)習(xí)思想和多特征提取方法,提出一種基于多描述子分層特征學(xué)習(xí)的圖像分類(lèi)方法. 在分別提取圖像的局部特征并將特征結(jié)合后采用基于字典學(xué)習(xí)和批正交匹配追蹤的方法對(duì)特征進(jìn)行編碼. 這一過(guò)程中,構(gòu)建一個(gè)兩層的結(jié)構(gòu),分別對(duì)各層特征進(jìn)行學(xué)習(xí)和歸一化處理,最后將兩層的特征連接起來(lái)作為圖像的最終表示并用線性SVM分類(lèi)器進(jìn)行分類(lèi). 通過(guò)實(shí)驗(yàn)驗(yàn)證,該方法在目標(biāo)分類(lèi)和場(chǎng)景分類(lèi)任務(wù)中均具有較好的性能,且對(duì)于多類(lèi)別多數(shù)量的數(shù)據(jù)集,仍具有較好的魯棒性. 當(dāng)訓(xùn)練樣本較少時(shí)該方法的分類(lèi)結(jié)果不夠理想,這是需要進(jìn)一步研究和改進(jìn)的地方.
[1] CSURKA G, DANCE C, FAN Lixin, et al. Visual categorization with bags of keypoints[C]// Workshop on Statistical Learning in Computer Vision in ECCV. Berlin: Springer, 2004: 1-22.
[2] ZHANG Shiliang, QI Tian, HUA Gang, et al. Generating descriptive visual words and visual phrases for large-scale image applications[J]. IEEE Transactions on Image Processing, 2011, 20(9): 2664-2677.
[3] LIU Lingqiao, WANG Lei, LIU Xinwang. In defense of soft-assignment coding[C]// 2011 International Conference on Computer Vision. Barcelona: IEEE, 2011: 2468-2493.
[4] XIE Lingxi, QI Tian, WANG Meng, et al. Spatial pooling of heterogeneous features for image classification[J]. IEEE Transaction on Image Processing, 2014, 23(5): 1994-2008.
[5] YUAN Junsong, WU Ying, YANG Ming. Discovery of collocation patterns: From visual words to visual phrases[C]// IEEE Conference on Computer Vision and Pattern Recognition. Minneapolis, MN: IEEE, 2007: 1-8.
[6]許允喜, 陳方. 局部圖像描述符最新研究進(jìn)展[J]. 中國(guó)圖象圖形學(xué)報(bào), 2015, 20(9): 1133-1150.DOI:10.11834/jig.20150901.
XU Yunxi, CHEN Fang. Recent advances in local image descriptor[J]. Journal of Image and Graphics, 2015, 20(9): 1133-1150.DOI:10.11834/jig.20150901.
[7]羅會(huì)蘭, 郭敏杰, 孔繁勝. 集成多特征與稀疏編碼的圖像分類(lèi)方法[J]. 模式識(shí)別與人工智能, 2014,27(4): 345-355.
LUO Huilan, GUO Minjie, KONG Fansheng. Image Classification Method by Combining Multi-features and Sparse Coding[J]. Pattern Recognition & Artificial Intelligence, 2014,27(4): 345-355.
[8] LAZEBNIK S, SCHMID C, PONCE J. Beyond bags of features: spatial pyramid matching for recognizing natural scene categories[C]// IEEE Computer Society Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2006: 2169-2178.
[9] YANG Jianchao, YU Kai, GONG Yihong, et al. Linear spatial pyramid matching using sparse coding for image classification[C]// IEEE Conference on Computer Vision and Pattern Recognition. Miami, FL: IEEE, 2009: 1794-1801.
[10]WANG Jinjun, YANG Jianchao, YU Kai, et al. Locality-constrained linear coding for image classification[C]// IEEE Conference on Computer Vision and Pattern Recognition. San Francisco, CA: IEEE, 2010: 3360-3367.
[11]段喜萍, 劉家鋒, 王建華, 等. 一種語(yǔ)義級(jí)文本協(xié)同圖像識(shí)別方法[J]. 哈爾濱工業(yè)大學(xué)學(xué)報(bào), 2014, 46(3):49-53.
DUAN Xiping, LIU Jiafeng, WANG Jianhua, et al. A collaborative image recognition method based on semantic level of text[J]. Journal of Harbin Institute of Technology, 2014, 46(3):49-53.
[12]AHARON M, ELAD M, BRUCKSTEIN A. K-SVD: An algorithm for designing overcomplete dictionaries for sparse representation[J]. IEEE Transactions on Signal Processing, 2006, 54(11): 4311-4322.
[13]JIANG Zhuolin, LIN Zhe, DAVIS L S. Label Consistent K-SVD: Learning a discriminative dictionary for recognition[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2013, 35(11): 2651-2664.
[14]王博, 郭繼昌, 張艷. 基于深度網(wǎng)絡(luò)的可學(xué)習(xí)感受野算法在圖像分類(lèi)中的應(yīng)用[J]. 控制理論與應(yīng)用, 2015, 32(8): 1114-1119.
WANG Bo, GUO Jichang, ZHANG Yan.Learnable receptive fields scheme in deep networks for image categorization[J]. Control Theory & Application, 2015, 32(8): 1114-1119.
[15]BO Liefeng, REN Xiaofeng, FOX D. Multipath sparse coding using hierarchical matching pursuit[C]// IEEE Conference on Computer Vision and Pattern Recognition. Portland, OR: IEEE, 2013: 660-667.
[16]RUBINSTEIN R, ZIBULEVSKY M, ELAN M. Efficient implementation of the K-SVD algorithm using batch orthogonal matching pursuit[J]. Cs Technion, 2008, 40(8):1-15.
[17]BO Liefeng, REN Xiaofeng, FOX D. Kernel descriptors for visual recognition[J]. Advances in Neural Information Processing Systems, 2010:244-252.
[18]XIE Lingxi, QI Tian, ZHANG Bo. Simple techniques make sense: feature pooling and normalization for image classification[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2016,26(7): 1251-1264.
[19]FENG Jiashi, NI Bingbing, QI Tian, et al. Geometricp-norm feature pooling for image classification[C]// IEEE Conference on Computer Vision and Pattern Recognition. Providence, RI: IEEE, 2011: 2697-2704.
[20]FAN Rongen, CHANG Kaiwen, HSIEH C J, et al. LIBLINEAR: a library for large linear classification[J]. Journal of Machine Learning Research, 2008, 9(12): 1871-1874.
[21]SOHN K, JUNG D Y, LEE H, et al. Efficient learning of sparse, distributed, convolutional feature representations for object recognition[C]// IEEE International Conference on Computer Vision. Barcelona: IEEE, 2011: 2643-2650.
(編輯 王小唯 苗秀芝)
Image classification based on multi-descriptor hierarchical feature learning
GUO Jichang, WANG Nan, ZHANG Fan
(School of Electronic Information Engineering,Tianjin University,Tianjin 300072,China)
To address the problem that Bag-of-Words model still has several drawbacks such as the scarcity of information in single local descriptor, large quantization error and lack of representation upon image features in image classification tasks, an image classification method based on multi-descriptor hierarchical feature learning is proposed. Combing scale invariant feature transform (SIFT) and kernel descriptors-shape (KDES-S) features, a hierarchical structure is used to reduce quantization error in encoding process, which extracts local features. After that, image features in each layer are normalized respectively, the liner combination of which is the final feature representation for linear support vector machine (SVM) classifier. Experiments are conducted on datasets Caltech-101, Caltech-256 and Scene-15, and experimental results show that the proposed method improves the classification accuracy significantly in comparison with other algorithms.
image classification;hierarchical feature learning;hierarchical normalization
10.11918/j.issn.0367-6234.2016.11.013
2016-04-28
國(guó)家重點(diǎn)基礎(chǔ)研究計(jì)劃(2014CB340400); 天津市自然科學(xué)基金(15JCYBJC15500)作者簡(jiǎn)介: 郭繼昌(1966—),男,博士,教授
郭繼昌, jcguo@tju.edu.cn
TP391.4
A
0367-6234(2016)11-0083-07