劉纓杰,蘭 海,魏 憲
(中國科學(xué)院福建物質(zhì)結(jié)構(gòu)研究所泉州裝備制造研究中心,福建 泉州 362200)
得益于網(wǎng)絡(luò)時代數(shù)據(jù)量的爆炸式增長,深度神經(jīng)網(wǎng)絡(luò)模型獲得了大量的訓(xùn)練樣本,在計算機視覺(CV)領(lǐng)域取得了巨大的進步。但是對海量數(shù)據(jù)的人工處理必不可少,如訓(xùn)練圖像識別和分類網(wǎng)絡(luò)時需為圖像添加對應(yīng)類別的標(biāo)簽、訓(xùn)練分割任務(wù)網(wǎng)絡(luò)需要為圖片中多個物體進行框選標(biāo)注等。這些基于有標(biāo)記樣本進行訓(xùn)練的模型被稱為有監(jiān)督學(xué)習(xí)模型,其主要特點在于學(xué)習(xí)過程依賴于標(biāo)記信息;同時,無監(jiān)督學(xué)習(xí)方法被提出,它們僅使用無標(biāo)記樣本,可以解決標(biāo)記樣本耗費大量人力及時間的問題,但難以應(yīng)對復(fù)雜的CV任務(wù);還有一類模型在訓(xùn)練過程中既利用有標(biāo)記樣本,也利用無標(biāo)記樣本,它們被稱為半監(jiān)督學(xué)習(xí)[1]。半監(jiān)督學(xué)習(xí)一方面利用少量數(shù)據(jù)所提供的標(biāo)記信息,另一方面需要充分挖掘全體數(shù)據(jù)樣本的結(jié)構(gòu)、分布信息,使得模型可以更好地完成任務(wù)。利用半監(jiān)督學(xué)習(xí)算法解決實際的計算機視覺問題極具意義,它也得到了廣泛的關(guān)注和研究。
半監(jiān)督深度學(xué)習(xí)方法已經(jīng)有了優(yōu)異的表現(xiàn),如:MeanTeacher[2]、MixMatch[3]、ReMix[4]、FixMatch[5]和CoMatch[6],這些模型精度的提高依賴于其訓(xùn)練時對未標(biāo)記樣本添加標(biāo)簽的準確性[3]。MixMatch、ReMix、FixMatch等工作基于一致性準則,通過改進和利用不同的數(shù)據(jù)增廣方式,進一步提高了模型性能;CoMatch對分類概率施加平滑約束而生成更好的偽標(biāo)簽,并結(jié)合了圖方法以計算增廣樣本和原始樣本的嵌入表示。深度學(xué)習(xí)模型通過提取圖像的深層語義特征提高對未標(biāo)記樣本的分類準確度,但它們往往需要進行大量的訓(xùn)練。
研究如何使模型更好地學(xué)習(xí)到強判別性特征具有重要意義?;诖耍疚幕仡櫫税氡O(jiān)督學(xué)習(xí)的一種重要范式——半監(jiān)督字典學(xué)習(xí)。字典學(xué)習(xí)方法在學(xué)習(xí)圖像樣本鑒別信息的突出表現(xiàn)使其受到了廣泛的關(guān)注。圖像雖然為高維信息,但其判別信息由少數(shù)的特征決定,具有稀疏的潛在特性。因此,通過字典學(xué)習(xí)構(gòu)造過完備字典,可將圖像信息描述為少量字典原子的線性組合,即獲得圖像的稀疏表示。稀疏表示擁有更強大的表達能力,包含了可供識別和約束的信息,若將其嵌入更低維特征空間,處理速度更快,在完成半監(jiān)督任務(wù)時也有出色的表現(xiàn)。例如SSR-D[7]將無標(biāo)記樣本歸為一類,引入l2,0+范數(shù)字典約束項,增強字典學(xué)習(xí)的魯棒性,且從輸入數(shù)據(jù)中自適應(yīng)字典尺寸;由于前者的無標(biāo)記樣本總是對應(yīng)共享字典的一部分原子,而未考慮其實際所屬的類別,SSP-DL[8]為無標(biāo)記樣本構(gòu)建字典,并預(yù)測類別,進一步發(fā)掘有標(biāo)記和無標(biāo)記樣本之間的結(jié)構(gòu)關(guān)系;SSD-LP[9]分別學(xué)習(xí)有標(biāo)記樣本和無標(biāo)記樣本的字典,其中無標(biāo)記樣本的標(biāo)簽通過標(biāo)簽傳播的方式獲得;DSSDL[10]引入熵正則化避免過度重視無標(biāo)簽數(shù)據(jù)中不確定的預(yù)測的類別。顯然,稀疏字典學(xué)習(xí)方法可以從未標(biāo)記數(shù)據(jù)中學(xué)習(xí)良好的可鑒別的稀疏編碼表示。本文希望通過聯(lián)合卷積神經(jīng)網(wǎng)絡(luò)和稀疏編碼的優(yōu)勢,高效挖掘圖片數(shù)據(jù)中的潛在判別性特征。文獻[11]將全連接層和激活函數(shù)替換為字典學(xué)習(xí)層;文獻[12]提出了一種多層的字典學(xué)習(xí)模型DDL,旨在學(xué)習(xí)到數(shù)據(jù)固有的深層結(jié)構(gòu);文獻[13]中所提DDLCN則將卷積層全部替換為字典學(xué)習(xí),并在字典學(xué)習(xí)層前采用額外的特征提取器提取原始圖像的特征,組成一個深度字典學(xué)習(xí)的模型;文獻[14]將卷積神經(jīng)網(wǎng)絡(luò)和稀疏字典學(xué)習(xí)相結(jié)合應(yīng)用在高光譜圖像分類上,但卻仍為簡單的兩階段學(xué)習(xí),沒有形成一個端對端的學(xué)習(xí)框架??梢园l(fā)現(xiàn),目前將稀疏編碼和深度學(xué)習(xí)相結(jié)合的相關(guān)工作中鮮有研究將此思想拓展應(yīng)用至半監(jiān)督學(xué)習(xí),以提高模型在半監(jiān)督分類任務(wù)中的性能表現(xiàn);同時,這些框架在更新參數(shù)時,大多僅在歐氏空間求導(dǎo)獲得相應(yīng)的梯度,并未將參數(shù)約束項帶來的幾何上的影響考慮在內(nèi);或是加入稀疏編碼學(xué)習(xí)部分后,網(wǎng)絡(luò)梯度自動傳播機制被破壞,使得無法端對端訓(xùn)練深度神經(jīng)網(wǎng)絡(luò),增大了訓(xùn)練的難度。
本文基于文獻[15]工作中稀疏表示可微性的研究,實現(xiàn)自稀疏編碼至卷積神經(jīng)網(wǎng)絡(luò)的梯度傳遞,進一步探索字典學(xué)習(xí)和卷積神經(jīng)網(wǎng)絡(luò)的潛力。字典學(xué)習(xí)的輸入為深度神經(jīng)網(wǎng)絡(luò)提取到的樣本特征;字典學(xué)習(xí)同卷積神經(jīng)網(wǎng)絡(luò)聯(lián)合更新,兩者結(jié)合為一個端對端框架,并稱為Semi-supervised Learning based on Sparse Coding and Convolution(SSSConv)框架。本文聯(lián)合卷積神經(jīng)網(wǎng)絡(luò)和稀疏編碼充分提取和學(xué)習(xí)到圖像樣本中的鑒別性特征,盡可能保留樣本中全局和局部的結(jié)構(gòu)信息,進一步提高模型在下游任務(wù)如半監(jiān)督分類任務(wù)中的表現(xiàn)。
卷積神經(jīng)網(wǎng)絡(luò)是當(dāng)今最為流行的機器學(xué)習(xí)模型之一,其核心為卷積運算操作,這也是與其他神經(jīng)網(wǎng)絡(luò)和機器學(xué)習(xí)方法的主要區(qū)別。深度卷積網(wǎng)絡(luò)一般指卷積層較多、深度較深且結(jié)構(gòu)較為復(fù)雜的卷積網(wǎng)絡(luò)模型。自AlexNet[16]被提出后,許多優(yōu)秀的深度卷積網(wǎng)絡(luò)隨之而生,或改進網(wǎng)絡(luò)結(jié)構(gòu),或加深網(wǎng)絡(luò)深度。目前,諸如VGGNet[17]、深度殘差網(wǎng)絡(luò)ResNet[18]依然是被廣泛應(yīng)用且表現(xiàn)優(yōu)異的卷積神經(jīng)網(wǎng)絡(luò)模型,同時也衍生了大量變種模型,如更寬的殘差網(wǎng)絡(luò)WideResNet[19]、更深的殘差網(wǎng)絡(luò)[20]及ResNeXt[21]等。其中有大量基于卷積神經(jīng)網(wǎng)絡(luò)[2-6,22-25]的半監(jiān)督深度學(xué)習(xí)方法,如MeanTeacher[2]、MixMatch[3]、ReMix[4]、FixMatch[5]和CoMatch[6]中所提出的半監(jiān)督模型以WideResNet或ResNet為骨干網(wǎng)絡(luò)。
研究認為,圖像作為自然信號,可以在一個過完備字典上稀疏線性表出,相應(yīng)的線形組合表達形式被稱為圖像的稀疏編碼或稀疏表示。字典學(xué)習(xí)算法通過不斷交替更新稀疏編碼和字典,直至滿足迭代要求如迭代次數(shù)或重構(gòu)誤差閾值。其中,將求取數(shù)據(jù)稀疏編碼的過程稱為“稀疏表示學(xué)習(xí)”,強調(diào)樣本可以擁有更為稀疏的表示形式,探索樣本在已有字典下的最近似稀疏解(即重構(gòu)誤差最小);“字典學(xué)習(xí)”則側(cè)重于學(xué)習(xí)得到能將普通稠密數(shù)據(jù)表征為稀疏編碼形式的字典。因此有稀疏表示學(xué)習(xí)的目標(biāo)方程如下所示:
(1)
其中,X=[x1,x2,…,xn]∈m×n為原始數(shù)據(jù)(即給定的樣本),m和n分別表示樣本維數(shù)和樣本數(shù)量;Φ=[φ1,φ2,…,φn]∈Q×n為稀疏編碼,g(φi)為對稀疏編碼的約束條件;D=[d1,d2,…,dn]∈m×Q為字典,Ω為對字典的約束;為避免所得字典的原子(D的列)中元素為無窮大,本文又將字典D的原子di的范數(shù)進一步約束至1,即可以認為字典位于Q乘m-1維度的斜流形(Oblique Manifold)之上,因此有:
(2)
本文對稀疏編碼Φ的約束為彈性網(wǎng)絡(luò)(Elastic Net)約束[25],即:
(3)
此時,稀疏編碼的優(yōu)化問題為:
(4)
當(dāng)稀疏正則項如式(3)所示時,可保證式(1)為嚴格凸,這使得稀疏編碼優(yōu)化問題成為顯式的最小化問題,有助于學(xué)習(xí)到合適的稀疏表示解,且該解具有唯一性。
(5)
其中,Λ為φ中非零元素所在位置坐標(biāo)。綜上,稀疏編碼模型為:
(6)
字典學(xué)習(xí)(稀疏表示學(xué)習(xí))算法具有很強的信息提取能力,能夠在分類任務(wù)中為模型提取得到數(shù)據(jù)的判別性特征表示。
本文基于卷積神經(jīng)網(wǎng)絡(luò)和稀疏編碼,提出一種將兩者相結(jié)合,應(yīng)用于半監(jiān)督學(xué)習(xí)和分類任務(wù)的端對端訓(xùn)練框架。所提算法一方面可以利用卷積神經(jīng)網(wǎng)絡(luò)提取圖像特征高層語義信息的能力;另一方面,稀疏編碼在良好表示網(wǎng)絡(luò)所提取特征的同時,具備了更強的可判別性,半監(jiān)督學(xué)習(xí)模型能夠更好地利用無標(biāo)記樣本,輸出的分類結(jié)果也更為準確。
基于卷積與稀疏編碼的半監(jiān)督分類框架的基本結(jié)構(gòu)如圖1所示。
圖1 SSSConv結(jié)構(gòu)圖
由圖1可知,所提框架的圖像分類流程:首先輸入圖像數(shù)據(jù),由卷積神經(jīng)網(wǎng)絡(luò)最后一層卷積層輸出特征信息;對該卷積特征進行正交映射以降低維度,同時將每個樣本的特征進一步展開為列向量,組合得到一個特征矩陣;求解字典,獲得特征矩陣的稀疏編碼,并再次利用正交映射進行降維;最后輸入分類器中,得到分類結(jié)果。該框架的更新流程將在下文中詳細介紹。
1.3.1 損失函數(shù)
通過卷積神經(jīng)網(wǎng)絡(luò)獲得圖像的CNN特征矩陣,假設(shè)對其正交映射后得到X=[x1,x2,…,xn]∈m×n,根據(jù)Φ求取其稀疏編碼Φ。則可以利用跡商準則進一步完成如圖像分類等任務(wù)。跡商最大化問題如下:
其中,tr(·)表示求跡操作。跡商模型被構(gòu)造為廣義的奇異值問題,通過尋找最優(yōu)映射矩陣V,使得稀疏編碼在分布上盡量能夠類內(nèi)相聚、類間分開,這與構(gòu)建類內(nèi)散度矩陣和類間散度矩陣本質(zhì)是一致的。令U位于斯蒂弗爾流形,即S(K,Q):={U∈Q×K|UTU=IK}(Stiefel Manifold),V=UUT最優(yōu)解非唯一[26],位于m維實數(shù)空間的低維線性子空間集之中,即格拉斯曼流形G(K,Q):={UUT|U∈U(K,Q)}(Grassmann Manifold)。
A、B是關(guān)于稀疏表示的函數(shù),當(dāng)它們關(guān)于字典D以及樣本X可導(dǎo)時,該損失函數(shù)可導(dǎo)。A、B一般為上三角半正定矩陣,其構(gòu)造方法需要根據(jù)投影算法不同進行變化,本文以線性判別分析(Linear Discriminant Analysis, LDA)算法為例,有:
B=Φdiag(Πn1,0,,…,Πnc,0)ΦT
(7)
(8)
獲得稀疏編碼后,可再次對其降維,借此進一步到達更低維度的分類空間以降低計算量,隨后利用如LDA、SVM等方法進行分類,即通過有標(biāo)記樣本特征的稀疏編碼的低維嵌入表示和標(biāo)簽進行聚類擬合后,進一步預(yù)測無標(biāo)記樣本的標(biāo)簽,并將其作為當(dāng)前迭代無標(biāo)記樣本的真實標(biāo)簽。此時可以計算無標(biāo)記樣本的損失值Lossu2,并傳入網(wǎng)絡(luò)模型更新參數(shù)。Lossu2可寫為:
(9)
Lossunlabeled=aLossu1+bLossu2
(10)
其中,a、b分別為兩者的權(quán)重系數(shù)。最終模型傳入的損失值為:
Loss=w1Losslabeled+w2Lossunlabeled
(11)
其中,w1、w2為有標(biāo)記樣本損失值和無標(biāo)記樣本損失值的權(quán)重系數(shù)。這部分的損失值直接傳入骨干模型即卷積神經(jīng)網(wǎng)絡(luò)中。
1.3.2 字典、映射矩陣的幾何優(yōu)化
1.3.1節(jié)介紹了本文提出框架所涉及的損失函數(shù)。對于神經(jīng)網(wǎng)絡(luò),在設(shè)定損失函數(shù)或傳入損失值后,即可通過梯度回傳機制更新其所含參數(shù)。對于字典D、映射矩陣V,它們被約束在黎曼流形上,本文采用幾何共軛梯度優(yōu)化方法進行更新。首先計算相應(yīng)的歐氏梯度,對映射矩陣V的歐氏梯度為:
(12)
(13)
此時,可得?f(D)。
設(shè)乘積流形M:=O(m,Q)×G(K,Q),且C:=(D,V),則點C處切空間可表示為TCM:=TDO(m,Q)×TVG(Q,K);C處黎曼梯度滿足〈gradf(D,V),H〉=(Df(D),Df(V))[H],?H∈TCM。本文將損失函數(shù)定義在黎曼流形上全局可微,而黎曼流形可視作歐氏空間的嵌入子流形,因此通過將標(biāo)準歐氏梯度(?f(D),?f(V))正交投影至相應(yīng)的黎曼流形的切空間[28],解得黎曼梯度。已知斜流形上Y點所在切空間TYO:={X∈m×q|ddiag(YTX)=0}及格拉斯曼流形上Y點所在切空間TYG:={YX-XY|X=-XT}中均有內(nèi)積運算〈X,Y〉=tr(XTY),結(jié)合黎曼梯度性質(zhì),可得正交投影操作projDY(·):TYO及projVY(·):TYG以及黎曼梯度如下所示:
(14)
式中ddiag(·)表示取矩陣的對角元素為一個對角陣;projDY(·):TYO和projVY(·):TYG可分別將歐氏梯度正交投影至斜流形上Y點所在切空間TYO和格拉斯曼流形上Y點所在切空間TYG。
利用黎曼梯度和向量傳輸(Vector Transport)操作TC0,HM:TC0M→TC1M構(gòu)成新的方向向量H,參數(shù)依此方向在切平面上進行移動;回縮(Retraction)操作ΓCM:TCM→M將位于切空間的C點平滑映射回到流形,得到更新之后的參數(shù)。
(15)
在乘積流形M上有:
(16)
其中,t為步長,需大于零;(·)Q及(·)R表示QR分解所得矩陣。
圖2為流形上回縮操作和向量傳輸操作示意圖。
圖2流形上回縮操作和向量傳輸操作示意圖
在流形上的共軛梯度更新流程如下:
2)已知?f(Dj)和?f(Vj),根據(jù)式(14)計算對應(yīng)黎曼梯度gradf(Dj,Vj);當(dāng)j=0時,H0=-gradf(C0)。
3)根據(jù)式(16)所求回縮操作ΓCM變換得到新Dj+1,Vj+1,即Cj+1=(Dj+1,Vj+1),已知新字典,同時求取對應(yīng)的稀疏編碼;此外,通過向量傳輸操作TCj,HjM,得到Hj+1=-gradf(Cj+1)+βTCj,HjM;為使TCj,HjM與
HessianCjf共軛,令:
1.3.3 算法實現(xiàn)
本文所提方法可實現(xiàn)端對端的半監(jiān)督分類學(xué)習(xí)模型訓(xùn)練,在訓(xùn)練過程中,所加載數(shù)據(jù)包含了有標(biāo)記樣本和無標(biāo)記樣本。模型結(jié)構(gòu)如圖1所示,訓(xùn)練步驟如下:
1)在進行圖像預(yù)處理后,將樣本送入半監(jiān)督卷積神經(jīng)網(wǎng)絡(luò)中,除了得到predictModel,還從最后一個卷積層輸出網(wǎng)絡(luò)所提取的特征。
2)對卷積特征進行正交降維映射后,進行字典學(xué)習(xí)并獲得相應(yīng)的稀疏編碼,求取稀疏編碼的正交映射低維稠密表示,并進一步通過分類器得到分類結(jié)果predictOurs。
3)根據(jù)式(6)、式(8)和式(11),計算梯度和損失值,分別更新字典、稀疏編碼、映射矩陣、以及半監(jiān)督神經(jīng)網(wǎng)絡(luò)的參數(shù),其中字典的更新和映射矩陣的更新詳見1.3.2節(jié)介紹的流形參數(shù)共軛梯度更新流程。
4)重復(fù)以上步驟,直至達到最大更新迭代次數(shù)或損失值收斂。
為驗證本文所提框架的有效性,本文在公開圖像數(shù)據(jù)集CIFAR-10、SVHN及CIFAR-100上進行實驗。由于FixMatch為目前表現(xiàn)最為優(yōu)異的半監(jiān)督學(xué)習(xí)方法之一,同時作為半監(jiān)督深度學(xué)習(xí)方法,相較于半監(jiān)督字典學(xué)習(xí)如OSSDL、SSP-DL、SSD-LP等已經(jīng)有了極大的提升,因此,本文實驗主要同MixMatch、ReMixMatch及FixMatch進行比較。同時,本文所提方法將主要以MixMatch和FixMatch為骨干模型進行,在下文分別簡寫為Ours(-MixMatch)和Ours(-FixMatch),或SSSConv(-MixMatch)和SSSConv(-FixMatch)。表1為實驗所用數(shù)據(jù)集。
表1 實驗所用數(shù)據(jù)集
本節(jié)將介紹框架骨干神經(jīng)網(wǎng)絡(luò)和字典學(xué)習(xí)(稀疏表示)的相關(guān)參數(shù),并進一步確定關(guān)鍵參數(shù)的取值。用于半監(jiān)督學(xué)習(xí)的卷積神經(jīng)網(wǎng)絡(luò)的超參數(shù)依然有學(xué)習(xí)率和訓(xùn)練樣本的batch大小;在訓(xùn)練過程中,學(xué)習(xí)率設(shè)置從0.01開始,均結(jié)合動量項0.9;訓(xùn)練樣本的batch大小均設(shè)置為64。學(xué)習(xí)字典和稀疏編碼的過程中主要有4個參數(shù),分別為稀疏約束項參數(shù)λ、字典的第二維度大小Q、初始化字典所用樣本數(shù)量N,以及字典初始化時更新迭代次數(shù)t。其中,字典更新迭代次數(shù)由重構(gòu)誤差進行判斷,如圖3所示,當(dāng)t大于10時,誤差變化幅度極小,如當(dāng)字典第二維度大小設(shè)置為2048時,平均重構(gòu)誤差最小。
圖3 迭代次數(shù)t與字典大小對稀疏編碼重構(gòu)誤差的影響
同時,以CIFAR-10為例,設(shè)置λ從0~1取值,N和Q從1000~50000中取值,通過網(wǎng)格搜索確定3個超參數(shù)的最佳配對(N,Q,λ),以獲得最佳的分類精度??梢园l(fā)現(xiàn),當(dāng)稀疏約束項參數(shù)取值0.1~0.2,字典第二維度與初始化字典所用樣本數(shù)量相等且每類樣本盡量多時,精度較高。但由于字典維度越大,需要的計算量越大,綜合考慮性能和效率,本文將減少一定的字典維度和訓(xùn)練字典所用樣本的數(shù)量。
本文在CIFAR-10、SVHN及CIFAR-100數(shù)據(jù)集上進行實驗,同MixMatch、MixMatch的改進版本ReMixMatch,以及如今性能最為優(yōu)異的FixMatch方法進行比較。實驗中所有模型的最大訓(xùn)練迭代次數(shù)均為1024;模型精度指其在測試集中進行5次實驗后所得的平均分類準確度。
(a) 測試損失值
(b) 訓(xùn)練損失值圖4 本文所提Ours(-FixMatch)在CIFAR-10數(shù)據(jù)集上的的收斂曲線
1)CIFAR-10包含10個類別的60000張圖像,每類6000張,圖像尺寸均為32×32。訓(xùn)練集和測試集分別為50000張和10000張,每類所含圖像數(shù)目一致。實驗結(jié)果如表2所示,每次實驗隨機選取CIFAR-10中的80、250、500及1000個訓(xùn)練樣本作為有標(biāo)記樣本,其余訓(xùn)練樣本為無標(biāo)記樣本,剩余的全部作為測試樣本。在CIFAR-10數(shù)據(jù)集中,SSSConv的半監(jiān)督分類精度平均提高了0.50個百分點;當(dāng)有標(biāo)記樣本數(shù)量為80時,本文所提模型相較于此前SOTA模型提升最大,為1.35個百分點;當(dāng)有標(biāo)記樣本為250時,Ours(-FixMatch)的分類精度已經(jīng)比有標(biāo)記樣本為500時的原SOTA精度95.42%更高;且經(jīng)測試,有監(jiān)督學(xué)習(xí)ResNet-34精度為95.69%,可見當(dāng)有標(biāo)記樣本數(shù)量為1000時,Ours(-FixMatch)(即SSSConv(-FixMatch))為95.64%,相差不到0.1個百分點。
2)圖4可視化了數(shù)據(jù)集為CIFAR-10時本文所提框架Ours(-FixMatch)優(yōu)化過程的收斂曲線,其中圖4(a)為測試的損失值,圖4(b)為訓(xùn)練的損失值。同時,可以發(fā)現(xiàn),模型訓(xùn)練剛開始時,訓(xùn)練損失值和測試損失值均迅速下降,隨著訓(xùn)練進行,訓(xùn)練損失值下降放緩,測試損失值始終保持下降趨勢。當(dāng)訓(xùn)練迭代次數(shù)接近設(shè)定閾值1024次時,模型的測試損失值同訓(xùn)練損失值接近,且變化幅度較小,說明模型達到了良好擬合的狀態(tài)。卷積神經(jīng)網(wǎng)絡(luò)在聯(lián)合稀疏編碼的過程中,目標(biāo)一致,有效地提高了學(xué)習(xí)模型的分類性能。
3)從圖5和圖6可以發(fā)現(xiàn),MixMatch和FixMatch結(jié)合本文所提方法(即Ours(-MixMatch)和Ours(-FixMatch)后,訓(xùn)練過程中的分類精度和最終的分類結(jié)果均優(yōu)于骨干模型(MixMatch和FixMatch)。在有標(biāo)記樣本數(shù)量較少時,本文所提框架表現(xiàn)優(yōu)異,尤其在訓(xùn)練初期,模型的測試精度提升速度有顯著的提升,如CIFAR-10中有標(biāo)記樣本數(shù)量為80時,本文所提方法Ours(-FixMatch)比其骨干網(wǎng)絡(luò)FixMatch方法提升精度達到5個百分點。結(jié)果表明本文所提算法框架有效,其獲得的圖像表示具有更強的可鑒別能力,提高了分類器的分類性能,賦予未標(biāo)記樣本的標(biāo)簽也更為準確,有效地提高了骨干模型的性能表現(xiàn)。
圖5 MixMatch及本文方法的測試精度變化曲線(CIFAR-10)
圖6 FixMatch及本文方法的測試精度變化曲線(CIFAR-10)
4)表3展示了本文所提框架SSSConv(-FixMatch)在SVHN數(shù)據(jù)集和CIFAR-100數(shù)據(jù)集中的精度表現(xiàn)。SVHN和CIFAR-10均含有10個類別;其圖片是來源于谷歌街景門牌號碼,為32×32彩色圖片,有73257張用于訓(xùn)練,26032張用于測試,還包含有531131個數(shù)字額外數(shù)據(jù)集,額外數(shù)據(jù)集在本文中未使用;CIFAR-100則包含100個類別,訓(xùn)練集和測試集分別有50000張和10000張。本文在實驗中隨機從SVHN的訓(xùn)練集中選取40張、250張、1000張圖片作為有標(biāo)記的訓(xùn)練樣本,其余的為無標(biāo)記訓(xùn)練樣本,測試集不變,仍為10000個測試樣本;在CIFAR-100的實驗中,隨機選取400、2500、10000個樣本進行半監(jiān)督實驗。本文所提算法首先對卷積特征進行稀疏編碼,并利用正交映射降低編碼維度,充分利用了無標(biāo)記樣本和有標(biāo)記樣本的結(jié)構(gòu)信息;在SVHN中平均提升了0.54個百分點的準確度,CIFAR-100中平均提升了0.49個百分點,其中當(dāng)有標(biāo)記樣本數(shù)為2500時,提升了0.69個百分點。實驗結(jié)果再次表明本文算法對現(xiàn)有的半監(jiān)督方法有顯著的提升效果。
表2 CIFAR-10訓(xùn)練集中分別有80、250、500、1000個樣本為有標(biāo)記樣本時的分類精度 單位:%
表3 SVHN訓(xùn)練集中有40、250、1000個有標(biāo)記樣本時的分類精度與CIFAR-100訓(xùn)練集中有400、2500、10000個有標(biāo)記樣本時的分類精度 單位:%
本文提出了一種基于卷積神經(jīng)網(wǎng)絡(luò)和稀疏編碼的端對端半監(jiān)督學(xué)習(xí)方法,首先通過研究稀疏回歸解的可微性,并進一步設(shè)計統(tǒng)一損失函數(shù)、推導(dǎo)參數(shù)梯度以解決稀疏編碼字典學(xué)習(xí)部分與半監(jiān)督卷積神經(jīng)網(wǎng)絡(luò)部分間的梯度傳遞問題,實現(xiàn)端對端訓(xùn)練,最后結(jié)合兩者的優(yōu)勢提高了模型框架在半監(jiān)督分類問題的表現(xiàn)。實驗結(jié)果表明,該結(jié)構(gòu)可以很好地適應(yīng)現(xiàn)有的先進的半監(jiān)督深度學(xué)習(xí)方法,在分類任務(wù)中表現(xiàn)優(yōu)秀,具有競爭力。