萬 源,張景會,吳克風(fēng),孟曉靜
(1.武漢理工大學(xué) 理學(xué)院,武漢 430070; 2.北京機(jī)電工程研究所,北京 100074)
近年來,圖像分類成為機(jī)器學(xué)習(xí)領(lǐng)域的研究熱點(diǎn),而圖像表示是圖像分類的核心問題,其中應(yīng)用最廣泛的是稀疏編碼。Yang等[1]提出一種基于尺度不變特征變換(Scale-Invariant Feature Transform, SIFT )描述子并結(jié)合空間金字塔匹配(Spatial Pyramid Matching, SPM)的稀疏編碼(Sparse Coding)算法(ScSPM);為了防止編碼過程中圖像塊之間的相似性信息丟失,Gao等[2]在ScSPM的基礎(chǔ)上引入圖形Laplacian算子,提出基于Laplacian的ScSPM(Lsc-SPM)圖像分類算法,提高了稀疏編碼的穩(wěn)定性,增強(qiáng)了稀疏編碼的魯棒性。雖然兩者能在一定程度上提高分類精度,但沒有考慮到局部性,在某些假設(shè)下,局部性比稀疏性更重要,因此Wang等[3]提出一種基于局部約束的線性編碼(Locality-constrained Linear Coding, LLC);近鄰數(shù)K的大小影響著LLC編碼的分類性能,編碼中的某些正值元素與負(fù)值元素的差值絕對值隨K值的變化而變化,導(dǎo)致LLC編碼的不穩(wěn)定,因此劉培娜等[4]在LLC優(yōu)化模型的目標(biāo)函數(shù)中加入非負(fù)性約束,提出了一種稱為非負(fù)局部約束的線性編碼算法(Non-Negative Locality-constrained Linear Coding, NNLLC);Han等[5]利用非負(fù)矩陣分解(Non-negative Matrix Factorization, NMF)和Laplacian算子,提出基于非負(fù)性和依賴性約束的稀疏編碼方法(Lap-NMF-SPM)。
以上稀疏編碼方法都是在單層結(jié)構(gòu)的基礎(chǔ)上進(jìn)行的,而近年來,在視覺識別領(lǐng)域通過深度學(xué)習(xí)方法直接從數(shù)據(jù)中學(xué)習(xí)有效特征變得越來越流行,已有很多學(xué)者驗(yàn)證了多層架構(gòu)模型比單層結(jié)構(gòu)具有更強(qiáng)的特征學(xué)習(xí)能力,例如自動編碼器[6]、限制玻爾茲曼機(jī)[7]、卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)[8]等深層架構(gòu)。Guo等[9]提出一種基于兩層局部約束稀疏編碼體系結(jié)構(gòu)的新特征學(xué)習(xí)方法,利用雙層結(jié)構(gòu)來學(xué)習(xí)中間層特征,并采用局部約束項(xiàng)來保證編碼的局部平滑性,取得了較好的效果;He等[10]將稀疏編碼擴(kuò)展到多層體系結(jié)構(gòu),提出一種新的稱為深度稀疏編碼(Deep Sparse Coding, DeepSC)的無監(jiān)督特征學(xué)習(xí)框架,該方法通過從稀疏到密集模塊連接不同層次的稀疏編碼器,得到了良好的分類性能;Gwon等[11]提出一個(gè)基于多層稀疏編碼的深度稀疏編碼網(wǎng)絡(luò)(Deep Sparse-coded Network, DSN),采用最大值融合后的稀疏編碼作為下層的密集輸入,將融合當(dāng)作神經(jīng)網(wǎng)絡(luò)里的非線性激活函數(shù),克服了簡單堆疊稀疏編碼器的缺點(diǎn)。Zhang等[12]引入深度稀疏編碼網(wǎng)絡(luò)(Deep Sparse Coding Net, DeepSCNet)的深層模型,結(jié)合CNN和稀疏編碼技術(shù)的優(yōu)勢進(jìn)行圖像特征表示。Papyan等[13]提出一個(gè)新的多層卷積稀疏模型(Multi-Layer Convolutional Sparse Coding, ML-CSC),并使用分層閾值算法來解決該問題。Zhou等[14]提出一個(gè)深度稀疏編碼網(wǎng)絡(luò)的圖像分類算法,可以直接從圖像像素自動發(fā)現(xiàn)高判別性特征。雖然上述多層稀疏編碼方法能在一定程度上減少重構(gòu)誤差,提高分類性能,但是都忽視了圖像的局部信息,導(dǎo)致編碼不穩(wěn)定。為了達(dá)到全局稀疏,避免局部特征之間可能相互抵消,更多地提取特征之間的空間幾何信息,萬源等[15]提出融合局部性和非負(fù)性的Laplacian稀疏編碼的圖像分類算法,有效解決了局部性信息缺失和特征相互抵消的問題,改善編碼的不穩(wěn)定并保持特征之間的相互依賴性。
很多研究表明,與單層稀疏編碼相比,深層架構(gòu)模型通過一層層的非線性網(wǎng)絡(luò)結(jié)構(gòu)來表征數(shù)據(jù)的內(nèi)在分布,提取圖像更深層次的抽象特征,有效刻畫圖像的內(nèi)在信息,具有高效的特征表達(dá)能力,克服了單層模型的局限性。因此本文將稀疏編碼模型擴(kuò)展到多層架構(gòu)模型中,提出一個(gè)多層融合局部性和非負(fù)性的Laplacian稀疏編碼算法。另外,在稀疏編碼階段,本文利用非負(fù)局部Laplacian稀疏編碼,不僅考慮了特征之間的局部關(guān)系與空間關(guān)系,而且解決了特征之間可能會相互抵消的問題,達(dá)到了全局稀疏的目的。本文的方法可以學(xué)習(xí)不同的特征層次結(jié)構(gòu),同層的稀疏編碼可以保持圖像塊之間的空間平滑度,下層在上層的基礎(chǔ)上可以捕獲圖像的更多空間信息,使得圖像表示具有更強(qiáng)的魯棒性。
對于圖像分類來說,局部特征編碼不僅可以精確地模擬圖像,還可以提高圖像分類性能。簡要介紹兩種編碼方法:稀疏編碼和Laplacian稀疏編碼。稀疏編碼使用少量的基向量來學(xué)習(xí)圖像的有效表示,目的是學(xué)習(xí)M空間中的超完備(基向量的個(gè)數(shù)遠(yuǎn)大于維數(shù))字典U,并選取盡可能少的基向量,將輸入特征向量簡潔、有效地表示為這些基向量的線性組合。
詞袋模型(Bag of Words,BoW)和空間金字塔匹配模型(Spatial Pyramid Matching,SPM)是圖像分類中兩種經(jīng)典的編碼方法,能夠很好地進(jìn)行圖像表示,但在生成視覺字典的過程中,BoW和SPM使用的K-means方法極易造成重構(gòu)誤差,從而導(dǎo)致語義信息的丟失。因此,Yang等[1]引入稀疏編碼(Sparse Coding, SC)概念對傳統(tǒng)的向量量化方法進(jìn)行改進(jìn),提出ScSPM方法,具體優(yōu)化問題如下:
(1)
其中,X∈RD×N為特征矩陣,U∈RD×M為非負(fù)字典,S∈RM×N為相應(yīng)的稀疏編碼,第一項(xiàng)為重構(gòu)誤差項(xiàng),第二項(xiàng)為稀疏性懲罰項(xiàng),λ為正則化參數(shù),l1范數(shù)用來保持編碼的稀疏性,其中‖·‖F(xiàn)表示矩陣的Frobenius范數(shù)。
考慮到傳統(tǒng)稀疏編碼方法對特征的敏感性,導(dǎo)致相似的特征編碼成不同的碼字,Gao等[2]在稀疏編碼的基礎(chǔ)上引入Laplacian矩陣以保留相似局部特征編碼的一致性,提出Laplacian稀疏編碼方法,有效改善了編碼的不穩(wěn)定性,保留了圖像塊之間的相似性信息。具體優(yōu)化問題如下:
(2)
由于同時(shí)優(yōu)化目標(biāo)函數(shù)中的U和S,該問題是非凸的,這樣很難找到一個(gè)全局最小值,但是優(yōu)化函數(shù)分別關(guān)于U或者S是凸的,那么交替優(yōu)化U和S就會存在全局最優(yōu)解,因此交替固定U(或者S)來優(yōu)化S(或者U)。
單層稀疏編碼雖然能夠有效地表示圖像,但多層稀疏編碼可以學(xué)習(xí)不同的特征層次結(jié)構(gòu),同層的稀疏編碼可以保持圖像塊之間的空間平滑度,下層可以在上層的基礎(chǔ)上捕獲圖像的更多空間信息?;诖?,本文提出一個(gè)兩層的具有非負(fù)性和局部性約束的Laplacian稀疏編碼(Laplacian Sparse Coding by incorporating Locality and Non-negativity, LN-LSC)方法,用于學(xué)習(xí)可辨別性的層次特征。圖1為本文提出的MLLSC圖像分類模型的結(jié)構(gòu)示意圖。
在圖1中,本文提出了一個(gè)2層的稀疏編碼架構(gòu),主要包括輸入層、兩個(gè)稀疏編碼隱藏層、輸出層,每個(gè)稀疏編碼層都可以學(xué)習(xí)相應(yīng)級別的特征表示,并訓(xùn)練相應(yīng)的字典和稀疏編碼。在稀疏編碼階段,迭代地使用近似解析解來更新字典以最小化優(yōu)化誤差;在池化階段,利用平均區(qū)域劃分對稀疏編碼進(jìn)行最大值融合;此外,將局部非負(fù)性約束項(xiàng)引入到優(yōu)化函數(shù)中,以強(qiáng)調(diào)特征量化期間的平滑限制。本文方法旨在通過連續(xù)編碼過程盡可能多地提取具有可判別性的特征,最終實(shí)驗(yàn)結(jié)果證明,兩層結(jié)構(gòu)比單層稀疏編碼結(jié)構(gòu)更有效。MLLSC算法模型主要包括以下幾個(gè)步驟:
圖1 MLLSC算法的整體框架
盡管Laplacian稀疏編碼(Laplacian Sparse Coding, LSC)能在一定程度上減小重構(gòu)誤差,但是LSC具有不穩(wěn)定性,忽略了特征之間的局部信息;并且在LSC的優(yōu)化問題中減法的使用導(dǎo)致特征之間相互抵消,造成圖像特征信息的丟失。因此本文采用融合局部性和非負(fù)性的Laplacian稀疏編碼方法,即將局部性加入到Laplacian稀疏編碼的優(yōu)化函數(shù)中,保證了相似的特征具有相似的編碼,且在優(yōu)化問題的約束條件中引入非負(fù)性,克服了圖像局部性特征信息丟失的缺陷,達(dá)到了全局稀疏的目的。首先從局部特征中隨機(jī)選取部分特征作為模板特征來訓(xùn)練非負(fù)字典U和稀疏編碼V,具體的優(yōu)化問題如下所示:
(3)
其中:X=[x1,x2,…,xN]為圖像的SIFT特征矩陣;U=[u1,u2,…,uM]為非負(fù)字典,S=[s1,s2,…,sN]為相應(yīng)的稀疏編碼,ui為字典U的第i個(gè)基向量;di表示局部適應(yīng)器[3],它為每個(gè)基向量賦予不同的自由度,其與輸入描述子xi的相似性成比例;⊙代表兩個(gè)列向量逐元素相乘;tr(·)表示矩陣的跡。具體表達(dá)式為:
di=exp(dist(xi,U)/θ)
dist(xi,U)=[dist(xi,u1),dist(xi,u2),…,dist(xi,uM)]T
其中:θ為調(diào)整權(quán)重衰減的參數(shù);dist(xi,bj)表示xi和bj之間的歐氏距離。
本節(jié)將對引入局部性和非負(fù)性的Laplacian稀疏編碼的優(yōu)化問題進(jìn)行求解,主要訓(xùn)練局部性約束的非負(fù)字典,學(xué)習(xí)相應(yīng)的稀疏編碼。
對于式(3),同時(shí)優(yōu)化U和S雖然是非凸的,但交替優(yōu)化U和S卻是凸的,從而求得全局最優(yōu)解。首先固定X和U,目標(biāo)函數(shù)轉(zhuǎn)化為如下優(yōu)化問題:
s.t.S≥0
(4)
將目標(biāo)函數(shù)轉(zhuǎn)化為矩陣跡的形式,并引入Lagrange乘子φij≥0,且φ=[φij]。構(gòu)造拉格朗日函數(shù)[15]如下:
L(S,φ)=tr(XTX-2STUTX+STUTUS)+
tr(α(d⊙S)T(d⊙S)+βSHST)-tr(βSWST+φST)
(5)
(6)
現(xiàn)固定特征矩陣X和系數(shù)矩陣S來學(xué)習(xí)字典U,式(3)變成了具有二次約束的最小二乘問題:
(7)
本文采用拉格朗日對偶的方法來求解該問題。設(shè)λ=[λ1,λ2,…,λM],其中λi表示第i個(gè)不等式約束‖uj‖2-1≤0的拉格朗日乘子,最終得到拉格朗日對偶問題如下:
s.t.λi≥0,i=1,2,…,M
(8)
其中,Λii=λi,該問題可通過共軛梯度方法來解決,Λ*為最優(yōu)解,則可得最優(yōu)字典:
U*=(XST)(SST+Λ*)-1
(9)
多層稀疏編碼采用空間連續(xù)的圖像塊作為輸入,使得學(xué)習(xí)到的圖像表示更有效。其中,一幅圖像的兩層非負(fù)局部Laplacian稀疏編碼過程如圖2所示。
圖2 一幅圖像的編碼流程
其中輸入層是圖像的SIFT特征描述子:{x1,x2,…,xN},{xN+1,xN+2,…,x2N},…,{xiN-N+1,xiN-N+2,…,xiN}。
然后對提取的SIFT特征描述子進(jìn)行融合局部性和非負(fù)性的LSC(LN-LSC),在編碼過程中進(jìn)行字典學(xué)習(xí),利用梯度下降法更新字典U,根據(jù)式(4)求出字典;然后根據(jù)稀疏編碼S的更新規(guī)則對稀疏編碼進(jìn)行迭代更新,最后得到第一層的稀疏編碼:
?
利用LN-LSC算法得到每個(gè)特征描述子的稀疏向量S∈RM×N之后,將每一個(gè)圖像塊得到的稀疏編碼進(jìn)行最大值融合,可得圖像塊的稀疏表示:
zl=max{|sl1|,|sl2|,…,|slN|};l=1,2,…,M
其中:sli表示稀疏向量sl的第i個(gè)元素;而zl是融合之后每個(gè)圖像塊稀疏表示的第l個(gè)元素。每一個(gè)圖像塊的稀疏向量用z=[z1,z2,…,zM]來表示,即:
?
為了防止過擬合現(xiàn)象的出現(xiàn),在進(jìn)行第二層LN-LSC之前,對第一層最大值融合后的稀疏編碼進(jìn)行主成分分析(Principal Components Analysis, PCA)降維,去掉冗余特征,降低特征的維數(shù),保留圖像主要信息,利用特征向量張成的子空間Γ=(μ1,μ2,…,μr)及特征變換Y=ΓX,得到降維后的特征矩陣,其中μ1,μ2,…,μr(r≤n)為特征值對應(yīng)的特征向量:
?
一方面,將第一層融合后的稀疏編碼與第二層融合后的稀疏編碼結(jié)合作為輸出;另一方面,將PCA降維后的密集編碼作為第二層的輸入。第一層的最大值融合是針對每個(gè)圖像塊的SIFT特征描述子的稀疏編碼進(jìn)行的,得到的是每個(gè)圖像塊的稀疏表示;而第二層的最大值融合是針對每個(gè)圖像塊的稀疏向量進(jìn)行的,得到的是每個(gè)圖像的稀疏表示。第二層進(jìn)行與第一層同樣的操作,進(jìn)行最大值融合:
zl=max{|s1l|,|s2l|,…,|spl|};l=1,2,…,M
其中,spl表示第p個(gè)圖像塊稀疏表示的第l個(gè)元素,則整個(gè)圖像的稀疏表示為:ZⅡ=[z1,z2,…,zM],zi表示整個(gè)圖像稀疏表示ZⅡ的第i個(gè)元素。圖3為了第一層和第二層稀疏編碼和最大值融合的過程:
圖3 第一、二隱層的稀疏編碼及最大值融合過程
本文使用Corel-10、Scene-15、Caltech-101和Caltech-256四個(gè)數(shù)據(jù)集驗(yàn)證MLLSC圖像分類算法的有效性。首先采用實(shí)驗(yàn)驗(yàn)證的方法,從準(zhǔn)確率方面驗(yàn)證本文模型的合理性,將本文方法與3種單層稀疏編碼方法和1種多層稀疏編碼模型進(jìn)行對比,再次證明本文方法在整體分類性能上的優(yōu)勢。為了準(zhǔn)確評估分類模型的性能,本文采用10-折交叉驗(yàn)證方法。
本節(jié)主要介紹4個(gè)標(biāo)準(zhǔn)的數(shù)據(jù)集,4個(gè)數(shù)據(jù)集如下:
Corel-10:該數(shù)據(jù)集包含10種類別圖像,每個(gè)類別有100張圖像,該數(shù)據(jù)集共有1 000張圖像。
Scene-15:該數(shù)據(jù)集包含15種場景圖像,每個(gè)類別有200~400張圖像,該數(shù)據(jù)集共有4 485張圖像。
Caltech-101:該數(shù)據(jù)集包含101種對象類別的圖像,每個(gè)類別約有31~800張圖像,該數(shù)據(jù)集共有9 144張圖像。
Caltech-256: 該數(shù)據(jù)集包含256類對象,每一類圖片的數(shù)量都大于等于80張。本文從每一類中分別隨機(jī)選擇15、30和60作為訓(xùn)練樣本,其余的作為測試樣本。
其中,Corel-10數(shù)據(jù)集的部分樣本圖像如圖4所示。
圖4 Corel-10數(shù)據(jù)集部分圖像
為了驗(yàn)證本文方法的有效性,將本文方法和以下幾種方法進(jìn)行對比分析。
1) ScSPM:利用稀疏編碼的空間金字塔匹配的圖像分類算法,在圖像的不同尺度上進(jìn)行稀疏編碼,并結(jié)合空間金字塔匹配方法表示圖像。
2) LScSPM:Laplacian稀疏編碼方法,利用局部特征之間的依賴關(guān)系構(gòu)建Laplacian矩陣,并將Laplacian矩陣引入到稀疏編碼的目標(biāo)函數(shù)中來保持局部特征的一致性。
3) LN-LSC:融合局部性和非負(fù)性的Laplacian稀疏編碼方法,將局部性和非負(fù)性加入到拉普拉斯稀疏編碼的目標(biāo)函數(shù)中,使得編碼過程更穩(wěn)定,保留更多的特征。
4) DeepSC:深度稀疏編碼算法(Deep Sparse Coding)將稀疏編碼擴(kuò)展到多層體系結(jié)構(gòu),通過稀疏到密集模塊連接不同層次的稀疏編碼器,從稀疏到密集模塊是局部空間融合和低維嵌入的步驟,能夠?qū)W習(xí)圖像的多層稀疏表示。
本文采用10-折交叉驗(yàn)證來測試MLLSC算法的有效性。將Corel-10、Scene-15和Caltech-101三個(gè)標(biāo)準(zhǔn)數(shù)據(jù)集隨機(jī)分成10份,依次將其中9份作為訓(xùn)練樣本,剩余1份作為測試樣本進(jìn)行測試。每次實(shí)驗(yàn)都會得出相應(yīng)的準(zhǔn)確率,每次準(zhǔn)確率的平均值作為對算法精度的估計(jì);最后,將MLLSC算法與其他方法進(jìn)行比較并分析結(jié)果的有效性。
本文選取4×4的粒度對圖像進(jìn)行平均區(qū)域劃分,將每個(gè)圖像平均分成p=16(4×4)個(gè)圖像塊。在特征提取階段,利用16×16的滑動窗口、步長為8進(jìn)行SIFT特征提取,每個(gè)局部特征描述子均為128維,即D=128;在訓(xùn)練字典階段,固定兩個(gè)隱稀疏編碼層字典的大小為M=1 024;利用K近鄰構(gòu)建相似矩陣時(shí),取K=5。
在本文優(yōu)化問題中,目標(biāo)函數(shù)和約束條件所涉及的參數(shù)主要包括α,β和θ,針對不同的數(shù)據(jù)集,設(shè)置參數(shù)的值也不同。比如:對于數(shù)據(jù)集Corel-10和Scene-15設(shè)置α=0.4,β=0.2,而對于Caltech-101數(shù)據(jù)集,設(shè)置α=0.3,β=0.1。構(gòu)造總的優(yōu)化函數(shù)時(shí),在3個(gè)數(shù)據(jù)集上,α和β的不同取值對分類效果的影響如圖5所示。
圖5 α和β對分類準(zhǔn)確率的影響
這一節(jié)對本文所做實(shí)驗(yàn)進(jìn)行性能分析,基于四個(gè)標(biāo)準(zhǔn)數(shù)據(jù)集的分類效果,將本文所提出的方法與三種單層稀疏編方法包括ScSPM、LScSPM、LN-LSC,一種多層稀疏編碼方法DeepSC進(jìn)行比較。其中,表1為MLLSC算法與三種單層稀疏編碼方法在Corel-10、Scene-15兩個(gè)數(shù)據(jù)集上的分類準(zhǔn)確率,表2為Caltech-101數(shù)據(jù)集上不同訓(xùn)練樣本下的分類準(zhǔn)確率,分別與三種單層稀疏編碼模型和一種多層稀疏編碼模型對比驗(yàn)證的結(jié)果,表3為Caltech-256數(shù)據(jù)集不同訓(xùn)練圖像數(shù)目下的分類準(zhǔn)確率,同樣對比三種單層稀疏編碼模型和一種多層稀疏編碼模型。
表1 4種方法在Corel-10和Scene-15上的分類結(jié)果
表2 5種方法在Caltech-101數(shù)據(jù)集上的分類結(jié)果 %
從表1的實(shí)驗(yàn)結(jié)果可以看出,本文算法在2個(gè)數(shù)據(jù)集上的測試結(jié)果整體優(yōu)于其他算法。除了MLLSC算法之外,LN-LSC算法的準(zhǔn)確率最高,與LN-LSC相比,MLLSC的準(zhǔn)確率提高了約3%。對于前三種算法,均是在單層結(jié)構(gòu)上進(jìn)行的,而本文方法結(jié)合深度學(xué)習(xí)模型強(qiáng)大的學(xué)習(xí)能力,提出一個(gè)多層架構(gòu),將圖像的層次稀疏特征集合到一起,捕捉了圖像信息的多個(gè)方面,學(xué)習(xí)到圖像的更多特征信息,因而有效提高了圖像的分類性能。另一方面,LScSPM算法僅在優(yōu)化函數(shù)中加入了Laplacian正則項(xiàng),忽略了特征的局部性和非負(fù)性,而本文算法結(jié)合了局部性和非負(fù)性,使相似的特征盡可能地編碼成相似的碼字,在一定程度上改善了編碼的不穩(wěn)定性,并克服了局部信息丟失和特征相互抵消的缺陷,有效提高了分類準(zhǔn)確率。
表3 5種方法在Caltech-256數(shù)據(jù)集上的分類結(jié)果 %
由表2的實(shí)驗(yàn)結(jié)果可以看出:本文方法的分類性能均優(yōu)于其他方法,在融合局部性和非負(fù)性的Laplacian稀疏編碼的基礎(chǔ)上構(gòu)建多層稀疏編碼架構(gòu),有效提高分了類性能;與ScSPM算法相比較,DeepSC算法的平均分類準(zhǔn)確率提高約6%,說明多層稀疏編碼能在不同的層次和不同的空間范圍上學(xué)習(xí)圖像的稀疏表示,能夠有效學(xué)習(xí)圖像的特征信息,提高了圖像的分類性能。與DeepSC算法相比,MLLSC算法在優(yōu)化函數(shù)中不僅引入了Laplacian正則項(xiàng),而且在優(yōu)化函數(shù)中添加了局部性,在約束條件中添加了非負(fù)性約束,減小了量化誤差,使得編碼更加穩(wěn)定,準(zhǔn)確率提高1%~6%。與LN-LSC算法相比,MLLSC將稀疏編碼方法擴(kuò)展到了多層架構(gòu),可以學(xué)到圖像的層級特征,獲得圖像的更多特征信息,而且本文利用平均區(qū)域劃分(Average Region Division,ARD)來代替了空間金字塔劃分,使得融合后的特征向量更稀疏。
為了充分證明MLLSC算法的有效性,將MLLSC算法與已有的四種算法在Caltech-256數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)驗(yàn)證,結(jié)果如表3所示,當(dāng)訓(xùn)練圖像數(shù)目為15,30,60時(shí),與三種單層稀疏編碼算法相比,MLLSC算法在分類準(zhǔn)確率上取得了較好的結(jié)果;特別地,與深層稀疏編碼算法DeepSC相比,訓(xùn)練圖像數(shù)目分別為15、30和60時(shí), MLLSC算法的準(zhǔn)確率分別提高了約2.1%、1%和1.3%。由此可見,本文方法將單層稀疏編碼擴(kuò)展到多層架構(gòu),并且每層稀疏編碼均在Laplacian稀疏編碼的基礎(chǔ)上引入了局部性和非負(fù)性,有效提高了圖像的分類性能。
影響分類準(zhǔn)確率的因素很多,圖6給出了在數(shù)據(jù)集Caltech-101上,ScSPM、LScSPM、LN-LSC和MLLSC方法選擇不同訓(xùn)練樣本數(shù)和不同尺寸大小的字典的分類準(zhǔn)確率。在該數(shù)據(jù)集上訓(xùn)練樣本數(shù)分別設(shè)置為:15,20,25,30,35,40,45,50,55和60。由圖6(a)可知,隨著訓(xùn)練樣本數(shù)的增加,MLLSC的分類準(zhǔn)確率呈現(xiàn)平穩(wěn)上升趨勢;分別設(shè)置字典大小分別為:256,512,1 024,2 048和4 096。由圖6(b)可知,隨著字典尺寸的增加,所有方法的分類效果逐漸變優(yōu)直至呈現(xiàn)平穩(wěn)趨勢。當(dāng)訓(xùn)練樣本數(shù)或字典大小一定時(shí),本文方法都優(yōu)于其他單層結(jié)構(gòu)的稀疏編碼方法,說明了本文方法在多層的基礎(chǔ)上提取了圖像的更多重要信息,進(jìn)而提高了分類準(zhǔn)確率。因此,本文MLLSC框架能夠?qū)W習(xí)到圖像的層次特征,捕獲圖像的重要信息,從而使得圖像的特征表達(dá)更有效。
圖6 不同參數(shù)下的分類準(zhǔn)確率比較
假定模板特征數(shù)量為N,字典大小為M,一幅圖像的區(qū)域劃分?jǐn)?shù)量為p,構(gòu)造Laplacian算子的計(jì)算復(fù)雜度為o(N*N),局部性約束的計(jì)算復(fù)雜度為o(N*M),假設(shè)第一層循環(huán)迭代t1次,第一層總的計(jì)算復(fù)雜度為o(t1*N*(N+M)),同理第二層總的計(jì)算復(fù)雜度為o(t2*M*M),針對編碼融合階段,空間金字塔劃分過程中涉及到金字塔的層數(shù)pLevels和直方圖的個(gè)數(shù)nBins,因此復(fù)雜度為o(N*+pLevels*nBins),而本文方法在融合階段利用的是平均區(qū)域劃分,計(jì)算復(fù)雜度為o(p*M),遠(yuǎn)小于利用空間金字塔劃分的復(fù)雜度。綜上所述:MLLSC算法總的計(jì)算復(fù)雜度為o(t1*N*(N+M)+t2*M*M)。
特征學(xué)習(xí)一直是機(jī)器學(xué)習(xí)的核心問題,受單層稀疏編碼優(yōu)異特征學(xué)習(xí)能力的推動,本文提出了多層-融合局部性和非負(fù)性的Laplacian稀疏編碼算法(MLLSC),將稀疏編碼擴(kuò)展到深層特征學(xué)習(xí)框架。多層框架通過池化步驟連接來自不同層次的稀疏編碼器,其由局部空間融合步驟和降維步驟組成。這種新方法能夠在不同的抽象層次和不同的空間范圍上學(xué)習(xí)圖像的稀疏表示。本文在多個(gè)視覺對象識別數(shù)據(jù)集上測試MLLSC,均取得較高的分類準(zhǔn)確率,且優(yōu)于所對比的稀疏編碼方法。下一步目標(biāo)是將本文提出的MLLSC方法擴(kuò)展到其他的分類,如音頻識別問題等。
[13] PAPYAN V, ROMANO Y, ELAD M. Convolutional neural networks analyzed via convolutional sparse coding [J]. Journal of Machine Learning Research, 2017,18:1-52.
[14] ZHOU S, ZHANG S, WANG J. Deep sparse coding network for image classification [C]// ICIMCS ’15: Proceedings of the 7th International Conference on Internet Multimedia Computing and Service. New York: ACM, 2015: Article No. 24.
[15] 萬源,史瑩,吳克風(fēng),等.融合局部性和非負(fù)性的Laplacian稀疏編碼的圖像分類[J].模式識別與人工智能,2017,30(6):481-488.(WAN Y, SHI Y, WU K F, et al. Laplacian sparse coding by incorporating locality and non-negativity for image classification [J]. Pattern Recognition and Artificial Intellgence, 2017, 30(6): 481-488.