摘 要:近年來,深度學(xué)習(xí)對(duì)大規(guī)模訓(xùn)練樣本的依賴性成為一個(gè)突出問題。在面對(duì)小樣本數(shù)據(jù)集時(shí),字典學(xué)習(xí)算法被提出作為一種解決方案。為了進(jìn)一步提升字典學(xué)習(xí)在圖像分類領(lǐng)域的競(jìng)爭(zhēng)優(yōu)勢(shì),本文提出了一種基于支持向量機(jī)的類特別字典學(xué)習(xí)算法。該算法創(chuàng)新性地引入了類特別系數(shù)相異性約束項(xiàng)。該約束項(xiàng)將原本獨(dú)立的重建項(xiàng)、稀疏項(xiàng)和判別項(xiàng)融合為一個(gè)統(tǒng)一的學(xué)習(xí)框架,以顯著提升字典的判別能力。實(shí)驗(yàn)證明,該模型的分類性能優(yōu)于其他先進(jìn)的字典學(xué)習(xí)模型。此外,本文提出將深度學(xué)習(xí)預(yù)訓(xùn)練與字典學(xué)習(xí)算法相結(jié)合的方式,通過實(shí)驗(yàn)證明該方式可以顯著提升字典學(xué)習(xí)算法在大規(guī)模訓(xùn)練樣本中的分類性能。
關(guān)鍵詞:字典學(xué)習(xí);稀疏表示;支持向量機(jī);系數(shù)相異性約束項(xiàng)
中圖分類號(hào): TP391. 41 文獻(xiàn)標(biāo)識(shí)碼:A DOI:10. 3969/ j. issn. 1007-791X. 2024. 05. 006
0 引言
字典學(xué)習(xí)是一種廣泛應(yīng)用于計(jì)算機(jī)視覺、信號(hào)處理、模式識(shí)別等領(lǐng)域的機(jī)器學(xué)習(xí)算法。其核心思想是將輸入數(shù)據(jù)表示為基本元素(或稱為“字典”)的線性組合,并選擇適當(dāng)?shù)淖值湟詫?shí)現(xiàn)準(zhǔn)確和緊湊的表示。
通常,字典學(xué)習(xí)算法可以分為兩類。一類是通過構(gòu)建每個(gè)類別的特定字典,同時(shí)促進(jìn)字典中每個(gè)原子的重構(gòu)殘差的區(qū)別來進(jìn)行學(xué)習(xí)。例如,
Aharon等[1]提出K-SVD(K-means Singular Valu eDecomposition)算法,該算法每次迭代僅更新一個(gè)字典原子和對(duì)應(yīng)的稀疏編碼向量。然而,其缺點(diǎn)在于這類算法無(wú)法有效應(yīng)用于多類別的圖像分類任務(wù)。
另一類常見的字典學(xué)習(xí)算法是通過尋找適用于所有類別的最佳字典來提高編碼向量的判別能力。如張強(qiáng)等[2]提出 DKSVD ( DiscriminationK-means Singular Value Decomposition)算法,蔣卓林等[3]提出LC-KSVD ( Label Consistent K-mean s
Singular Value Decomposition)算法,該算法將標(biāo)簽信息與每個(gè)字典項(xiàng)相關(guān)聯(lián),增強(qiáng)了稀疏編碼的可分辨性,但其對(duì)數(shù)據(jù)中的噪聲和異常值較為敏感,這可能會(huì)影響到字典學(xué)習(xí)的效果。楊蒙等[4]在
FDDL(Fisher Discrimination Dictionary Learning)中提出Fisher項(xiàng),以減小類內(nèi)樣本的編碼離散度并增大類間樣本的編碼離散度,從而提高編碼向量的判別能力,但其較高的計(jì)算復(fù)雜度會(huì)導(dǎo)致訓(xùn)練
時(shí)間過長(zhǎng)。文獻(xiàn)[ 5 ]通過 PCA ( PrincipalComponent Analysis)方法訓(xùn)練字典得到稀疏字典集,使用奇異值分解求解低秩問題以提高圖像的去噪效果。文獻(xiàn)[6]將基于稀疏表示的字典學(xué)習(xí)算法運(yùn)用于行人檢測(cè)中,通過改進(jìn)的HOG+LBP特征來減少誤檢窗口數(shù)目。楊寶慶等[7]在
SMLFDL ( SVMs Multi-class Loss Feedback basedDictionary Learning)中通過訓(xùn)練支持向量機(jī)(Support Vector Machines,SVM)和學(xué)習(xí)判別字典,
以實(shí)現(xiàn)更好的特征匹配。
盡管許多學(xué)者提出將SVM與字典學(xué)習(xí)相結(jié)合,例如前文提到的SMLFDL模型、蔡思佳等[8]提出的 SVGDL ( Support Vector Guided DictionaryLearning)模型等。但僅僅依靠SVM來引導(dǎo)字典學(xué)習(xí)模型,對(duì)分類性能的提升有限。針對(duì)這一 問題本文提出 SVMCDL ( Support Vector MachinesClass-specific Dictionary Learning)模型,該模型創(chuàng)新性地引入系數(shù)相異性約束項(xiàng)‖zjTZi‖F(xiàn)2。該約束項(xiàng)充分利用了稀疏表示的優(yōu)勢(shì),將SVM與稀疏項(xiàng)融合并互相作用,進(jìn)一步增強(qiáng)字典的判別能力,從而最終提高了模型的分類性能。
1 SVMCDL模型的構(gòu)造
x∈Rm表示數(shù)據(jù)向量,y∈{1,2,…,c},其中c表示數(shù)據(jù)集的類別數(shù)量,并將該有序集合C稱為類別向量 。把數(shù)據(jù)集表示為 X =[d,d,…,1 2 dK]∈Rm×K(Kgt;m)為字典,d表示i 原子,Z= [Z1,Z2,…,Zc]= [z1,z2,…,zn]表示X除式中:λ,λ為超參數(shù);R(D,X,Z)為重建項(xiàng);p1 2 表示?范數(shù)的參數(shù),用于控制正則化項(xiàng)的強(qiáng)度和p 稀疏性質(zhì)。通常情況下,p的取值為1或2,當(dāng)p= 1時(shí),有利于促進(jìn)字典的稀疏性,進(jìn)而提高字典模型的識(shí)別準(zhǔn)確率。
文獻(xiàn)[8]中SVGDL模型引用自適應(yīng)權(quán)重分配的參數(shù)化算法,利用SVM來引導(dǎo)字典學(xué)習(xí),即其中SV表示滿足1-yc(wcTzi+bc)的支持向量,盡管SVGDL模型引入了平方鉸鏈損失項(xiàng),但僅依靠SVM來引導(dǎo)字典學(xué)習(xí)模型,對(duì)分類性能的提升有限。在SVMCDL模型中引入了系數(shù)相異性約束項(xiàng)‖ZTZ‖2該約束項(xiàng)將SVM和字典學(xué)習(xí)集成在同一學(xué)習(xí)框架中,實(shí)現(xiàn)相互反饋和相互作用,從而進(jìn)一步提升字典的判別能力。
系數(shù)相異性約束項(xiàng)的原理如下:對(duì)于不同的數(shù)據(jù)樣本,其系數(shù)向量對(duì)應(yīng)于所屬類別的特征值會(huì)明顯偏大。這會(huì)導(dǎo)致同一類別的系數(shù)向量具有相似性,而不同類別的系數(shù)向量差異性較大。因此,當(dāng)兩個(gè)系數(shù)向量Xi和Xj來自同一類別時(shí),‖zTz‖2的值將會(huì)變得很大,而當(dāng)X和X來自i j 不j i F同類別時(shí),‖zTz‖2的值將會(huì)變得很小。因此,F(xiàn) 只j i需保證不同類別約束項(xiàng)的值盡可能小,就有利于將屬于同一類別的子字典關(guān)聯(lián)起來,從而進(jìn)一步增強(qiáng)字典D的判別性。
綜上所述,本算法的判別系數(shù)函數(shù)L(Z)可以設(shè)計(jì)為
自此,整個(gè)SVMCDL模型可以表示為lt;D,Zgt; =argmin‖X - DZ‖2
通過式學(xué)習(xí)所獲得的字典D,其子字典Di可以使屬于同一類別的樣本獲得較小的重構(gòu)誤差,而屬于不同類別的樣本則具有顯著較大的重構(gòu)誤差。同樣地,對(duì)于稀疏項(xiàng)而言,同類樣本的系數(shù)向量相似度較高,而不同類別的系數(shù)向量則完全不同。對(duì)于判別系數(shù)函數(shù)而言,根據(jù)訓(xùn)練所得到的同類樣本的函數(shù)值明顯較小,而對(duì)于不同類的樣本而言,其函數(shù)值會(huì)明顯偏大。由此得出,通過將重建項(xiàng)、約束項(xiàng)和判別項(xiàng)集成到統(tǒng)一的學(xué)習(xí)框架中,可以將模型的分類性能最大化。
2 SVMCDL模型的更新
由于式(4)中的SVMCDL模型無(wú)法直接通過聯(lián)合凸優(yōu)化來收斂到全局最小值,因此將該算法轉(zhuǎn)化為每個(gè)變量的凸優(yōu)化問題。為此,本文將原始問題分解為更新lt;wc,bcgt;、D、Z的三個(gè)優(yōu)化子問題,這三個(gè)子問題通過循環(huán)交替更新的方式進(jìn)行迭代,直至達(dá)到最終條件。具體步驟見算法1。
算法1 基于SVMCDL的更新步驟
Input:Dinit,zinit,winit,binit,λ1,λ2,γ
Output:D,wc,bc
1. do until the terminal condition
2. 1 更新lt;w,bc cgt;
當(dāng)Z,D都固定時(shí),尋找lt;wc,bcgt;最優(yōu)解演變成了一對(duì)多的SVM求解問題。由于二次鉸鏈損失函數(shù) [max(0,1- yc(wTz +b)] 2可以使損失c i c函數(shù)變得更加平滑,并且處處可微,因此引入楊建超等[9]提出的多類線性SVM求解器,該求解器采用one-against-all的優(yōu)化算法對(duì)每個(gè)類別進(jìn)行逐一訓(xùn)練,以獲得lt;wc,bcgt;最優(yōu)解。
2. 2 更新系數(shù)矩陣Z
當(dāng)lt;w,bgt;和D固定時(shí),對(duì)系數(shù)矩陣Z的更c(diǎn) c 新問題可以按列分為對(duì)每個(gè)系數(shù)向量zi的更新。去除掉無(wú)關(guān)項(xiàng)后,式(4)可以簡(jiǎn)寫 2 為
i表示從1到n的數(shù)據(jù)次序,C(i)表示第 i個(gè)數(shù)據(jù)所屬的類別,λ1、λ2、γ為超參數(shù),zi表示單個(gè)系數(shù)向量,z表示由多個(gè)系數(shù)向量所構(gòu)成的系數(shù)矩陣j 。為了避免zj在?2范數(shù)中過大從而造成zi出現(xiàn)平凡解,本算法對(duì)Z進(jìn)行歸一化處理j ,
由于式(7)中函數(shù)Q(z)均滿足凸函數(shù)條i 件以及利普希茨連續(xù)條件,因此直接使用Beck提出
的快速迭代軟閾值算法(Fast Iterative Shrinkage-Thresholding Algorithm,F(xiàn)ISTA)[10],F(xiàn)ISTA算法通過使用二次插值的步長(zhǎng)規(guī)則,加快了收斂速度,并且在迭代過程中使用軟閾值soft(β,τ/σ)對(duì)估計(jì)結(jié)果進(jìn)行稀疏化處理。使用FISTA算法更新zi的具體步驟見算法2所示。
算法2 基于FISTA更新z的步i 驟
Input:σ,τgt;0,z (1)= 0,h=1i
Output:Z
1. for i = 1 ton do
2. do until the terminal condition
3. h=h+1;
4. β(h-1) = zi - (1/2σ)▽Q(zi ) ;
5. z (h) = soft(β(h-1),τ /σ) ;i
6. end do
(h)
7. returnzi=zi ;
8. end for
算法2中▽Q(z (h-1))為Q(z (h-1))對(duì)z (h-1)i i i
的導(dǎo)數(shù),soft(β,τ/σ)表示逐分量軟閾值,
2. 3 更新字典D
當(dāng)lt;w,bgt;和Z固定時(shí),去除掉式(4)中的c c 無(wú)關(guān)項(xiàng)后,關(guān)于字典D的更新可以被簡(jiǎn)寫為此處可以使用拉格朗日對(duì)偶算法[11]來解決這一問題。
2. 4 SVMCDL模型的分類方案
執(zhí)行完算法1后,可以獲得最終的字典D、系數(shù)矩陣Z以及l(fā)t;w,bgt;。由于重建誤差與稀疏c c 項(xiàng)均具有判別性,在給定測(cè)試樣本x后,其測(cè)試樣本系數(shù)向量的求解模型如下:
根據(jù)前文所述,當(dāng)樣本來自不同類別時(shí),相異性約束項(xiàng)的值將會(huì)變得較小。這意味著在SVMCDL模型中的SVM項(xiàng)和稀疏相異性約束項(xiàng)具有判別性。本文在此基礎(chǔ)上提出分類方案如下:
其中,k = w/ nj。
3 實(shí)驗(yàn)結(jié)果和分析
為了驗(yàn)證本文算法的優(yōu)越性,分別在人臉識(shí)別、場(chǎng)景識(shí)別、物體識(shí)別、花卉識(shí)別圖像分類中進(jìn)行實(shí)驗(yàn)。將SVMCDL模型與FDDL[4]、SVGDL[8]、
SDRDL[12]、ADDL[13]等字典學(xué)習(xí)模型進(jìn)行比較,同時(shí)也與 Swi n Transformer[14]、 MLP-mixer[15]、DenseNet[16]、ConvNet[17]、MobileVit[18]等深度學(xué)習(xí)模型進(jìn)行比較。對(duì)于每個(gè)數(shù)據(jù)集,本文均使用表格展示了各個(gè)模型對(duì)圖像分類識(shí)別的準(zhǔn)確率。
3. 1 參數(shù)分析與設(shè)計(jì)
為了展示SVMCDL模型的優(yōu)化過程,采用Extended Yale B數(shù)據(jù)集作為示例。根據(jù)經(jīng)驗(yàn),將參數(shù)λ、λ、γ分別設(shè)置為2×10-5、0. 002、2×10-4,1 2并使用PCA算法來初始化每個(gè)類別的字典,將每張圖像的維度降低到300維。為了充分展示了模型的收斂過程,迭代次數(shù)設(shè)置為50,實(shí)驗(yàn)結(jié)果見圖1所示。該結(jié)果表明,式(4)中的目標(biāo)函數(shù)可以達(dá)到最終收斂。在20次迭代后,目標(biāo)函數(shù)變化較小且趨于穩(wěn)定。圖2、圖3分別展示了SVM項(xiàng)以及系數(shù)相異性約束項(xiàng)的收斂過程。為了平衡分類性能和算法復(fù)雜度,本文將最大迭代次數(shù)設(shè)置為20,通過實(shí)驗(yàn)結(jié)果可以確認(rèn)在該迭代次數(shù)下的實(shí)驗(yàn)結(jié)果都表現(xiàn)良好。
為了最大化模型的分類性能,本文還研究了原子數(shù)及各個(gè)超參數(shù)對(duì)分類性能的影響。為了研究不同原子數(shù)對(duì)分類性能的影響,本文將SVMCDL與 SRC ( Sparse Representation-basedClassification)、FDDL、SDRDL等模型在不同原子數(shù)上進(jìn)行了對(duì)比實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果如圖4所示,從圖中可以看出SVMCDL識(shí)別準(zhǔn)確率高于FDDL及SRC模型,當(dāng)原子數(shù)大于16時(shí)SVMCDL識(shí)別準(zhǔn)確率會(huì)略低于SDRDL模型。然而,值得注意的是當(dāng)原子數(shù)設(shè)為10時(shí),SVMCDL模型在這些競(jìng)爭(zhēng)方法中獲得了最高的識(shí)別準(zhǔn)確率。這表明,只要原子數(shù)設(shè)計(jì)合理,SVMCDL模型能夠獲得最佳的分類性能。
為了研究λ1、λ2、γ三個(gè)參數(shù)值對(duì)分類性能的影響,本文采用固定其中兩個(gè)參數(shù)值,改變另一個(gè)參數(shù)值的實(shí)驗(yàn)方法。如圖5(a)為固定λ =22 ×10-4、γ =2×10-4,從10-8到10-1來改變?chǔ)?的值。
當(dāng)λ1較小時(shí),會(huì)削弱λ1‖Z‖1稀疏項(xiàng)的作用,當(dāng)λ1較大時(shí),會(huì)增強(qiáng)λ1‖Z‖1稀疏項(xiàng)的作用,并削弱其他項(xiàng)的作用。從圖5(a)中可以看出λ1過大或過小時(shí)都會(huì)降低分類性能,當(dāng)λ =2× 10-5時(shí)準(zhǔn)1確率最高。圖5 (b)為固定λ1 =2× 10-5、γ =2× 10-4,改變?chǔ)?的值,當(dāng)λ2=2× 10-4時(shí)準(zhǔn)確率最高。圖5(c)為固定λ =2× 10-5、λ =2× 10-4,改變?chǔ)玫闹?,?dāng)γ =2× 10-4時(shí)準(zhǔn)確率最高。綜上,將參數(shù)λ、λ、γ分別設(shè)置為2× 10-5、 2× 10-4、1 22× 10-4時(shí)SVMCDL可在Extended Yale B中獲得最佳的分類性能。
綜上,根據(jù)經(jīng)驗(yàn)以及多次重復(fù)實(shí)驗(yàn)得到SVMCDL模型在其他各個(gè)數(shù)據(jù)集中的參數(shù)設(shè)計(jì)見表1所示。
3. 2 比較方法的設(shè)計(jì)
為了驗(yàn)證本文模型的優(yōu)越性,將SVMCDL與其他字典學(xué)習(xí)模型以及深度模型進(jìn)行了實(shí)驗(yàn)對(duì)比。由于各模型在小樣本和大樣本數(shù)據(jù)集所表現(xiàn)出來的性能差異較大,在數(shù)據(jù)集的選取上也兼顧了兩者。由于深度學(xué)習(xí)對(duì)于處理大規(guī)模樣本具有優(yōu)勢(shì),當(dāng)字典學(xué)習(xí)模型的準(zhǔn)確率遠(yuǎn)低于深度學(xué)習(xí)模型時(shí),本文提出了一種新的比較方法:首先使用深度學(xué)習(xí)模型對(duì)數(shù)據(jù)集進(jìn)行預(yù)處理,并凍結(jié)深度模型的全連接層,提取預(yù)處理后的數(shù)據(jù)特征,然后將這些特征制作成一個(gè)新的數(shù)據(jù)集,供字典學(xué)習(xí)模型進(jìn)行訓(xùn)練和分類。在下述實(shí)驗(yàn)結(jié)果中,采用“字典學(xué)習(xí)模型+預(yù)處理模型”來表示這種處理方式。例如,“SVMCDL+Swin Transformer”表示首先使用Swin Transformer深度模型對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,然后使用SVMCDL字典學(xué)習(xí)模型對(duì)預(yù)處理后的數(shù)據(jù)進(jìn)行訓(xùn)練和分類。
除此之外,為了進(jìn)一步驗(yàn)證系數(shù)相異性約束項(xiàng)的效果,將參數(shù)γ設(shè)置為0。在以下實(shí)驗(yàn)結(jié)果中使用SVMCDL?來表示無(wú)系數(shù)相異性約束項(xiàng)時(shí)SVMCDL模型的圖像分類結(jié)果。
3. 3 人臉識(shí)別中的實(shí)驗(yàn)結(jié)果
3. 3. 1 Extended Yale B數(shù)據(jù)集
Extended Yale B是一個(gè)用于人臉識(shí)別的數(shù)據(jù)集,它是原始Yale B數(shù)據(jù)集的擴(kuò)展版本,規(guī)模更大、更具挑戰(zhàn)性。 Extended Yale B數(shù)據(jù)集包含了更多的個(gè)體和圖像,總共由23個(gè)個(gè)體和2 414張灰度圖像組成,每個(gè)個(gè)體有64個(gè)不同的姿勢(shì)和表情。在實(shí)驗(yàn)中,對(duì)每個(gè)個(gè)體隨機(jī)選擇20張圖像作為訓(xùn)練集,其余圖像作為測(cè)試集。為了便于計(jì)算,將圖像的維度從1 024維降低為300維。實(shí)驗(yàn)結(jié)果詳見表2。
從表2中可以明顯看出,與FDDL、ADDL、DKSVD、SVGDL等字典學(xué)習(xí)模型相比,SVMCDL展現(xiàn)出最高的準(zhǔn)確率,達(dá)到了97. 2%。特別需要注意的是 SVGDL模型準(zhǔn)確率為 96. 1%,比SVMCDL低1. 1%,在均使用SVM算法情況下,SVMCDL模型的稀疏性以及系數(shù)相異性約束項(xiàng)發(fā)揮了重要作用。 SVMCDL?的準(zhǔn)確率為94. 6%,比SVMCDL低了2. 6%,再次說明本文引入的系數(shù)相異性約束項(xiàng)可以將SVM與稀疏項(xiàng)融合并互相作用,從而進(jìn)一步提高圖像的分類性能,并且SVMCDL與深度模型相比,仍然可以獲得最高的圖像分類準(zhǔn)確率。其中MobileVit、 MLP-mixer、Convnet準(zhǔn)確率分別為92. 7%、85. 4%、93. 0%,均低于SVMCDL模型97. 2%的準(zhǔn)確率,甚至SwinTransformer模型只獲得76. 5%的準(zhǔn)確率。這是因?yàn)樯疃葘W(xué)習(xí)算法具有大量需要更新的參數(shù),而Extended Yale B屬于小樣本數(shù)據(jù)集,當(dāng)這些深度學(xué)習(xí)算法缺乏足夠的訓(xùn)練樣本時(shí),很容易出現(xiàn)過擬合。這表明在小樣本數(shù)據(jù)集的分類任務(wù)中SVMCDL模型的分類性能比這些深度模型具有更顯著的優(yōu)勢(shì)。
3. 3. 2 AR數(shù)據(jù)集
AR數(shù)據(jù)集選擇50名男性和50名女性作為樣本。對(duì)于每個(gè)個(gè)體收集26張面部圖像。圖像大小為60×43。將圖像維度降為300維。實(shí)驗(yàn)結(jié)果詳見表3。
從表3可以看出,在AR數(shù)據(jù)集上SVMCDL依然獲得了最高的準(zhǔn)確率94. 9%。在小樣本數(shù)據(jù)集測(cè)試中也遠(yuǎn)高于深度學(xué)習(xí)的準(zhǔn)確率。
SVMCDL?比SVMCDL準(zhǔn)確率低了1. 5%,再次證明本文系數(shù)相異性約束項(xiàng)可以提升圖像的分類性能。
3. 4 場(chǎng)景識(shí)別中的實(shí)驗(yàn)結(jié)果
在場(chǎng)景識(shí)別的實(shí)驗(yàn)中采用Scene-15作為數(shù)據(jù)集。該數(shù)據(jù)集是一個(gè)由4 485張圖像組成的小型風(fēng)景數(shù)據(jù)集,涵蓋了15個(gè)類別,包括5個(gè)室內(nèi)場(chǎng)景(如臥室、廚房、客廳等)和10個(gè)室外場(chǎng)景(如郊區(qū)、海岸、森林高速公路等)。每個(gè)類別包含200到400張圖像,并且將圖像維度設(shè)置為3 000維。
從表4可以看出,SVMCDL在Scene-15數(shù)據(jù)集中依然獲得了最高的準(zhǔn)確率98. 1%。在深度學(xué)習(xí)方面, MobileVit模型的準(zhǔn)確率僅為84. 8%,MLP-mixer模型準(zhǔn)確率為82. 6%。這再次證明,在小樣本數(shù)據(jù)集的學(xué)習(xí)中,SVMCDL模型的分類性能要遠(yuǎn)優(yōu)于深度學(xué)習(xí)。
3. 5 物體識(shí)別中的實(shí)驗(yàn)結(jié)果
在物體識(shí)別的實(shí)驗(yàn)中采用了Caltech-101數(shù)據(jù)集。該數(shù)據(jù)集包含來自102個(gè)類別的9 114張圖像,類別包括木桶、椅子、杯子、螃蟹、吊燈、電風(fēng)扇、照相機(jī)等。由于Caltech-101數(shù)據(jù)集種類繁多,每個(gè)類別的圖像在對(duì)象大小、位置和姿態(tài)等方面都具有較大的差異性,因此對(duì)于分類任務(wù)來說具有較大的挑戰(zhàn)性。從每個(gè)類別中隨機(jī)抽取30張圖像作為訓(xùn)練集,并且將維度從原來的21 504維降至3 000維。
從表5可以看出,在Caltech-101數(shù)據(jù)集中,SVMCDL模型的準(zhǔn)確率明顯低于深度學(xué)習(xí)模型,特別是比DenseNet121模型低了13. 9%。值得注意的是DenseNet121是經(jīng)過預(yù)訓(xùn)練的深度模型,對(duì)于沒有經(jīng)過預(yù)訓(xùn)練的DenseNet-No-Pretrain模型,僅獲得51. 2%的準(zhǔn)確率。 SVMCDL模型的準(zhǔn)確率仍略高于其他字典學(xué)習(xí)模型以及SVMCDL???紤]到深度學(xué)習(xí)在大規(guī)模樣本數(shù)據(jù)集上的優(yōu)勢(shì),本文改變實(shí)驗(yàn)思路,采用3. 2中提及的“字典學(xué)習(xí)模型+預(yù)處理模型”方法。實(shí)驗(yàn)結(jié)果表明,通過這種方法,F(xiàn)DDL、SVGDL、SVMCDL的準(zhǔn)確率顯著提升,甚至“SVMCDL+DenseNet121”的準(zhǔn)確率超過了DenseNet121深度模型,達(dá)到了最高的94. 9%。這表明通過這種方法可以顯著提升SVMCDL模型的分類性能,甚至可以優(yōu)于深度學(xué)習(xí)模型。
3. 6 花卉識(shí)別中的實(shí)驗(yàn)結(jié)果
在花卉識(shí)別的實(shí)驗(yàn)中采用了Oxford 102Flowers數(shù)據(jù)集,該數(shù)據(jù)集包含向日葵、玫瑰花、百合花等102種花卉,共8 189張圖像。該數(shù)據(jù)集中每張圖像的拍攝角度、背景和尺寸各不相同,這對(duì)于圖像分類算法的魯棒性提出了挑戰(zhàn)。在實(shí)驗(yàn)中將圖像維度降為3 000維。
從表6可以看出,在Oxford 102 Flowers數(shù)據(jù)集中的實(shí)驗(yàn)結(jié)果與Caltech-101數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果基本吻合。這再次證明本文實(shí)驗(yàn)思路的可行性。
在該實(shí)驗(yàn)中DenseNet-No-Pretrain表示沒有經(jīng)過預(yù)訓(xùn)練的DenseNet模型,其準(zhǔn)確率最低,只有47. 8%。相比而言經(jīng)過預(yù)訓(xùn)練的Densenet121模型獲得94. 7%準(zhǔn)確率,這再一次證明深度學(xué)習(xí)依賴具有大量訓(xùn)練樣本的預(yù)訓(xùn)練過程。在Oxford102 Flowers數(shù)據(jù)集中字典學(xué)習(xí)的準(zhǔn)確率依舊低于深度模型,但在字典學(xué)習(xí)模型的比較中SVMCDL表現(xiàn)出了最高的準(zhǔn)確率。在提取深度學(xué)習(xí)特征后,將特征放入字典學(xué)習(xí)模型中訓(xùn)練并分類,發(fā)現(xiàn)在SVMCDL模型中的性能提升尤為明顯。
3. 7 時(shí)間性能的比較
FDDL與SVMCDL模型均為基于稀疏表示的字典學(xué)習(xí)模型。但不同于FDDL模型采用的Fisher準(zhǔn)則,SVMCDL采用了在時(shí)間復(fù)雜度上更為高效的SVM及系數(shù)相異性約束項(xiàng),其復(fù)雜度均為O(cmn)。為了驗(yàn)證這一思想,本實(shí)驗(yàn)在同一臺(tái)計(jì)算機(jī)中分別測(cè)試了兩個(gè)模型每次迭代的訓(xùn)練時(shí)間。該計(jì)算機(jī)硬件環(huán)境為:Intel Core i5-7300 CPU@ 2. 50GHz,16G內(nèi)存,軟件環(huán)境為:Windows 10,64位操作系統(tǒng),MATLAB R2021b。實(shí)驗(yàn)結(jié)果見表7所示。
從表7可以看出SVMCDL每輪的迭代時(shí)間要明顯低于FDDL模型,這一結(jié)果也驗(yàn)證了相較于同為稀疏表示的FDDL模型,SVMCDL在時(shí)間性能中具有更明顯的優(yōu)勢(shì)。
4 結(jié)論
本文中SVMCDL模型通過引入類特別系數(shù)相異性約束項(xiàng),將獨(dú)立的重建項(xiàng)、稀疏項(xiàng)和判別項(xiàng)融合為一個(gè)統(tǒng)一的學(xué)習(xí)框架,以提升字典的判別能力。通過人臉識(shí)別、場(chǎng)景識(shí)別、物體識(shí)別、花卉識(shí)別的圖像分類實(shí)驗(yàn),可以證明SVMCDL在分類性能上優(yōu)于許多其他先進(jìn)的字典學(xué)習(xí)模型,并且在類似于Scene-15這樣的小樣本數(shù)據(jù)集的實(shí)驗(yàn)中,SVMCDL的分類性能要明顯高于很多深度學(xué)習(xí)算法。在類似于Caltech-101這樣的大樣本數(shù)據(jù)集的實(shí)驗(yàn)中,SVMCDL的分類性能雖然低于一些深度學(xué)習(xí)算法,但使用SVMCDL與深度學(xué)習(xí)提取特征相結(jié)合的方法時(shí),SVMCDL模型也可以在大型樣本的數(shù)據(jù)集中展現(xiàn)出優(yōu)異的分類性能,甚至還會(huì)高于一些深度學(xué)習(xí)算法。
參考文獻(xiàn)
1 AHARON M ELAD M BRUCKSTEIN A. K-SVD an algorithmfor designing overcomplete dictionaries for sparse representation J . IEEE Transactions on Signal Processing 2006 54 11 4311-4322.
2 ZHANG Q LI B. Discriminative K-SVD for dictionary learning inface recognition C / / IEEE Conference on Computer Vision andPattern Recognition San Francisco USA 2010 2691-2698.
3 JIANG Z LIN Z DAVIS L. Label consistent K-SVD learning adiscriminative dictionary for recognition J . IEEE Transactions onPattern Analysis and Machine Intelligence 2013 35 11 2651-2664.
4 YANG M ZHANG L FENG X et al. Sparse representationbased Fisher discrimination dictionary learning for imageclassification J . International Journal of Computer Vision 2014 109 3 209-232.
5 王宏宇 陳冬梅 王慧.基于低秩非局部稀疏表示的圖像去噪模型 J .燕山大學(xué)學(xué)報(bào) 2017 41 3 272-277.WANG H Y CHEN D M WANG H. Image denoising model basedon low rank and nonlocal sparse representation J . Journal ofYanshan University 2017 41 3 272-277.
6 胡春海 張凱翔 范長(zhǎng)德.基于稀疏表示分類行人檢測(cè)的二級(jí)檢測(cè)算法 J .燕山大學(xué)學(xué)報(bào) 2016 40 1 66-73.HU C H ZHANG K X FAN C D. Secondary detection algorithm ofpedestrian detection based on sparse representation classificationJ . Journal of Yanshan University 2016 40 1 66-73.
7 YANG B Q GUAN X P ZHU J W et al. SVMs multi-class lossfeedback based discriminative dictionary learning for imageclassification J . Pattern Recognition 2021 112 107690.
8 CAI S ZUO W ZHANG L et al. Support vector guideddictionary learning C / / European Conference on ComputerVision Zurich Switzerland 2014 624-639.
9 YANG J YU K GONG Y et al. Linear spatial pyramid matchingusing sparse coding for image classification C / / IEEE Conferenceon Computer Vision and Pattern Recognition Miami USA 2009 1794-1801.
10 BECK A TEBOULLE M. A fast iterative shrinkage-thresholdin galgorithm for linear inverse problems J . SIAM Journal o nImaging Sciences 2009 2 1 183-202.
11 LEE H BATTLE A RAINA R et al. Efficient sparse codin galgorithms J . Advances in Neural Information Processin gSystems 2006 19 801-808.
12 YANG B Q GU C C WU K J et al. Simultaneou sdimensionality reduction and dictionary learning for sparserepresentation based classification J . Multimedia Tools an dApplications 2017 76 8969-8990.
13 ZHANG Z JIANG W QIN J et al. Jointly learning structure danalysis discriminative dictionary and analysis multiclass classifier J . IEEE Transactions on Neural Networks and Learnin gSystems 2017 29 8 3798-3814.
14 LIU Z LIN Y CAO Y et al. Swin transformer hierarchica lvision transformer using shifted windows C / / 2021 IEEE/ CVFInternational Conference on Computer Vision Montreal Canada2021 10012-10022.
15 TOLSTIKHIN I HOULSBY N KOLESNIKOV A et al. MLP-Mixer an all-MLP architecture for vision J . Advances in NeuralInformation Processing Systems 2021 34 24261-24272.
16 HUANG G LIU Z KILIAN Q et al. Densely connectedconvolutional networks C / / IEEE Conference on ComputerVision and Pattern Recognition Honolulu USA 2017 4700-4708.
17 LIU Z MAO H WU C Y et al. A convnet for the 2020s C / /IEEE Conference on Computer Vision and Pattern Recognition New Orleans USA 2022 11976-11986.
18 SHAKER A MAAZ M RASHEED H et al. Swiftformer"efficient additive attention for transformer-based real-time mobilevision applications C / / IEEE Conference on Computer Vision Paris France 2023 17425-17436.
Class-specific dictionary learning algorithm based onSVM sparse representation
SONG Yintao1 YANG Baoqing1 LIU Ji1 ZHAO Yu1 YAN Jing2
1. School of Information Engineering Yangzhou University Yangzhou Jiangsu 225009 China 2. School of Electrical Engineering Yanshan University Qinhuangdao Hebei 066004 China
Abstract In recent years the dependence on large-scale training samples in deep learning has become a prominent issue.Dictionary learning algorithms have been proposed as a solution for small sample datasets. To further enhance the competitiveadvantage of dictionary learning in image classification a class-specific dictionary learning algorithm based on support vectormachine is proposed in this paper. The coefficient disparity constraint is introduced innovatively. The constraint term fuses theoriginally independent reconstruction sparse and discriminative terms into a unified learning framework significantly improvingthe discriminative ability of the dictionary. It has been demonstrated through experiments that the classification performance of thismodel outperforms other state-of-the-art dictionary learning models. Additionally a method to combine deep learning pre-trainingwith dictionary learning algorithms is proposed which has been experimentally demonstrated to significantly improve theclassification performance of dictionary learning algorithms in large-scale training samples.
Keywords dictionary learning sparse representation support vector machine coefficient disparity constraint