楊章靜,王文博,黃 璞,張凡龍
南京審計大學 信息工程學院,南京 211815
圖像分類是計算機視覺領(lǐng)域的一個研究熱點[1-3],子空間學習(subspace learning,SL)是機器學習領(lǐng)域的一項重要技術(shù),它在數(shù)據(jù)分析、數(shù)據(jù)降維、圖像分類等方面取得了顯著的成果[4-7]。由于其求解方便、時間復雜度低等優(yōu)點,廣泛應用于圖像分類領(lǐng)域。
圖像分類領(lǐng)域有許多經(jīng)典的算法,如最近鄰分類器(nearest neighbor classifier,NNC)[8]、稀疏表示分類器(sparse representation classification,SRC)[9]、線性回歸分類器(linear regression classification,LRC)[10]、協(xié)同表示分類器(collaborative representation classification,CRC)[11]等,它們都基于惰性學習,當數(shù)據(jù)量較大時,分類速度會變慢?;赟L 的方法在訓練完成后即可得到投影矩陣,當面對新的測試樣本時,只需執(zhí)行簡單的矩陣乘法即可得到樣本在標簽空間中的投影,因此在時間復雜度上具有較大優(yōu)勢。例如,最小二乘回歸(least squares regression,LSR)[12]以一個onehot矩陣為回歸目標,學習樣本到標簽的投影,LSR 存在解析解,因此求解速度很快。為了緩解one-hot 矩陣約束過于嚴格的問題,判別最小二乘回歸(discriminative least squares regression,DLSR)[13]和重定目標最小二乘回歸(retargeted least squares regression,ReLSR)[14]通過在標簽空間中擴大不同類別間樣本的距離,從而提高了模型的判別能力。
以上方法僅針對模型判別能力做出研究,然而數(shù)據(jù)中的噪聲才是影響算法分類性能的最關(guān)鍵因素。噪聲是數(shù)據(jù)中對分類任務產(chǎn)生負面影響的部分,它廣泛存在于各種圖像數(shù)據(jù)中,其分布與表現(xiàn)形式各不相同,例如光線的明暗變化會產(chǎn)生均值噪聲,遮擋會產(chǎn)生稀疏噪聲。因此,提高圖像分類算法對噪聲的處理能力是提高圖像分類算法性能的關(guān)鍵。為使圖像分類算法抵抗稀疏噪聲干擾,魯棒潛子空間學習(robust latent subspace learning,RLSL)[15]借助魯棒主成分分析(robust principal component analysis,RPCA)[16]思想,將圖像數(shù)據(jù)分解為一個低秩的數(shù)據(jù)矩陣和一個稀疏的噪聲矩陣,然后使用不含稀疏噪聲的數(shù)據(jù)矩陣進行分類,進而提高了分類性能。低秩判別最小二乘回歸(low-rank discriminative least squares regression,LRDLSR)[17]在標簽空間中引入低秩約束,抑制了標簽空間中的部分噪聲,使參與回歸分類的數(shù)據(jù)更加“干凈”。然而這些算法仍有很多不足,例如,RLSL 事先假設噪聲屬于稀疏分布,但是實際數(shù)據(jù)中噪聲的類型和分布是未知的,因此假設噪聲是稀疏的或稠密的并不合理,這種不合理的假設可能使模型錯誤地去除了有用的細節(jié)信息,但實際噪聲卻并未消除,從而影響分類性能;LRDLSR 在標簽空間中引入低秩約束雖可在一定程度上抑制噪聲影響,但是標簽空間的數(shù)據(jù)已經(jīng)過投影矩陣的處理,維數(shù)通常較低且極為稀疏,因此降噪效果不理想。
為提高算法對噪聲魯棒性,本文提出了一種基于潛子空間去噪的子空間學習(denoising latent subspace based subspace learning,DLSSL)模型,該模型放寬噪聲類型和分布的假設,先對數(shù)據(jù)中的噪聲進行處理,再將數(shù)據(jù)回歸到標簽空間中,最后對回歸后的數(shù)據(jù)進行分類。將降噪與回歸兩個步驟設計到同一框架中,進行統(tǒng)一訓練,使兩個部分相互制約以進一步提高圖像分類性能。該模型以標準DLSR 框架為基礎,在原始視覺空間與標簽空間中引入一個新的潛在子空間,使用欠完備自編碼將數(shù)據(jù)壓縮至潛在子空間中并盡可能地恢復,從而在潛在子空間中獲取原始數(shù)據(jù)的高階結(jié)構(gòu),然后使用潛在空間中的“干凈”數(shù)據(jù)進行回歸分類。此外根據(jù)文獻[17],在潛在子空間中引入組核范數(shù)約束,以抑制DLSR 框架中由于?-拖動技術(shù)造成的類內(nèi)樣本距離增大的問題。最后,為兩個投影矩陣分別引入不同的正則化參數(shù),防止模型發(fā)生過擬合問題,模型架構(gòu)圖如圖1 所示。
Fig.1 Framework of denoising latent subspace based subspace learning圖1 基于潛子空間去噪子空間學習模型架構(gòu)圖
X=[X1,X2,…,Xc]=[x1,x2,…,xn]∈Rd×n為來自c個類別的n個訓練樣本,其中d表示訓練樣本的維數(shù);H=[h1,h2,…,hn]∈Rc×n表示one-hot 標簽矩陣,其中向量hi=[0,…,0,1,0,…,0]T∈Rc為樣本xi的標簽向量,若xi屬于第j類,則hi的第j個元素值為1,其余元素值均為0,測試樣本用y表示。
自編碼是一種經(jīng)典的無監(jiān)督機器學習方法,它的模型結(jié)構(gòu)具有很大的靈活性,不同的模型結(jié)構(gòu)有著完全不同的用途,例如稀疏自編碼、變分自編碼、棧式自編碼等。本文的目標是通過自編碼對數(shù)據(jù)進行降維并去除噪聲,因此設置隱藏層的維數(shù)小于輸出層的維數(shù),即構(gòu)建一個欠完備自編碼。它嘗試將數(shù)據(jù)壓縮,并通過解壓將輸入盡可能地恢復到輸出,從而學習到數(shù)據(jù)中最本質(zhì)的高階結(jié)構(gòu),實現(xiàn)類似主成分分析(principal component analysis,PCA)降維的效果。與PCA 不同的是,PCA 僅能處理符合高斯分布的數(shù)據(jù),對尖銳噪聲沒有處理能力,欠完備自編碼對任何分布的噪聲都具有魯棒性,其可以學習到一個比PCA 更為優(yōu)秀的投影,從而更好地刻畫數(shù)據(jù)的高階結(jié)構(gòu)。欠完備自編碼可由如下目標函數(shù)來描述:
其中,W為投影矩陣,L∈Rr×n為訓練集數(shù)據(jù)X在子空間中的投影,r表示子空間中的維數(shù),||·||F表示矩陣的Frobenius范數(shù)。
通過對式(1)求導并令導數(shù)為0,可以得到一個標準的西爾維斯特方程[18],通過求解此方程即可得到投影矩陣W。
DLSR 的主要思想是利用?-拖動技術(shù)對LSR 中嚴格的one-hot 回歸目標進行松弛化,從而擴大不同類別樣本間的距離,使學習到的投影矩陣更具有鑒別性。DLSR 的優(yōu)化目標可由如下優(yōu)化函數(shù)來描述:
其中,M為?-拖動矩陣,⊙為哈達瑪積,定義為兩矩陣對應元素相乘,λ為正則化參數(shù),B為約束矩陣定義如下:
其中,矩陣下標i、j表示矩陣的第i行第j列的元素。
通過對式(2)使用交替方向乘子法(alternating direction method of multipliers,ADMM)[19]即可得到投影矩陣W。
圖像數(shù)據(jù)通常包含各種冗余信息和噪聲,這對圖像分類產(chǎn)生了不利影響。對于數(shù)據(jù)中的冗余信息,可用主成分分析法進行消除。對于數(shù)據(jù)中的噪聲,通??梢圆捎玫椭确纸夥椒?,如RPCA 基于假設:噪聲符合稀疏分布,因此利用矩陣分解即可將數(shù)據(jù)分解為一個噪聲矩陣和一個低秩矩陣,然后利用不含稀疏噪聲的低秩矩陣進行后續(xù)的圖像分類。然而,數(shù)據(jù)中的關(guān)鍵信息通常也是稀疏的,如人臉胎記、汽車標志等,這就導致基于稀疏噪聲假設的算法在降噪同時會損失數(shù)據(jù)中重要的關(guān)鍵信息,這對分類任務極為不利。
為說明這種情況,在COIL-20 數(shù)據(jù)集上進行了實驗,利用RPCA 對COIL-20 數(shù)據(jù)庫的數(shù)據(jù)進行處理,結(jié)果如圖2 所示,其中第一行為原始數(shù)據(jù),第二行為去除稀疏噪聲后的數(shù)據(jù),第三行是對應的稀疏噪聲。顯然由于不合理的噪聲假設,致使許多關(guān)鍵細節(jié)信息丟失,如第8 列樣本上的漢字“都”,這是所有類別所獨有,但去除稀疏噪聲后細節(jié)信息丟失。因此,可假設放寬噪聲類型和分布以消除真正噪聲,從而使回歸分類環(huán)節(jié)使用的數(shù)據(jù)更“干凈”。為此可以通過欠完備自編碼將數(shù)據(jù)壓縮至低維,再將其盡可能恢復,從而獲取數(shù)據(jù)在低維空間的高階特征。這種無監(jiān)督的特征提取方法無需對數(shù)據(jù)分布或類型作出任何事先假設,因此對數(shù)據(jù)中包含的任意類型或分布的噪聲都有很強的容忍能力。然而欠完備自編碼對數(shù)據(jù)的壓縮是有損的,如果直接將視覺空間中的數(shù)據(jù)壓縮至標簽空間,由于兩個空間維度間的巨大差異和標簽空間數(shù)據(jù)的稀疏性,將導致有效信息大量丟失,此時再將數(shù)據(jù)恢復至視覺空間將會產(chǎn)生嚴重的失真。因此引入一個潛在子空間作為視覺空間與標簽空間的橋梁,其數(shù)據(jù)分布與視覺空間類似,維數(shù)介于二者之間,可以很好地保留數(shù)據(jù)中的信息,并通過壓縮再恢復的方式降低數(shù)據(jù)中的噪聲?;诖耍疚慕Y(jié)合DLSR 框架將欠完備自編碼器與回歸分類兩個步驟合二為一,構(gòu)建了一種聯(lián)合優(yōu)化模型,其目標函數(shù)如下:
其中,W1為原始數(shù)據(jù)空間到潛在子空間的投影矩陣,W2為潛在子空間到標簽空間的投影矩陣。
由于測試樣本與訓練樣本并不屬于完全相同的樣本空間,難免發(fā)生過擬合現(xiàn)象,需要為用于降噪的投影矩陣W2添加額外的正則化參數(shù)用于防止過擬合,此時的模型定義如下最優(yōu)化函數(shù)表示:
由于DLSR 中?-拖動技術(shù)的使用難免會增大樣本空間同類樣本間的距離[17],采用與LRDLSR 中相同的處理手段,為模型引入組核范數(shù)約束,用于抑制類間樣本距離增大問題,提出一種基于潛子空間去噪的子空間學習(denoising latent space based subspace learning,DLSSL)圖像分類算法,將降噪與分類兩個步驟合二為一,構(gòu)建了一種全新的聯(lián)合優(yōu)化模型,模型的定義如下:
Fig.2 Part of samples processed by RPCA on COIL-20 dataset圖2 COIL-20 數(shù)據(jù)集經(jīng)過RPCA 處理過后的部分樣本
為便于求解該模型,在模型中添加Q和T兩個輔助變量,接著使用ADMM 算法進行求解,求解的目標函數(shù)為:
其中,R1、R2為拉格朗日乘子,μ>0 是懲罰參數(shù),接下來將按順序迭代求解每一個參數(shù)。
固定其余參數(shù),更新P:
其中,Tij、Bij、Mij表示T、B、M矩陣的第i行第j列,考慮到M矩陣具有一個非負約束,因此可以獲得如下等式:
求解式(6)可獲得兩個投影矩陣W1、W2,對于任何測試樣本y,其在標簽空間中可表示為W1W2y,隨后使用最近鄰分類器[8]對標簽空間中的數(shù)據(jù)進行分類。
算法的整個流程如算法1 所示。
算法1潛子空間去噪的子空間學習算法流程
輸入:標準化過后的訓練集X,one-hot 矩陣H,最大迭代次數(shù)T,超參數(shù)λ1、λ2、λ3、λ4、λ5、r。
初始化:M=Q=P=L=T=0,W1=W2=1,μmax=107,R1=R2=0,μ=10-5,ρ=1.1,?=10-4。
循環(huán)變量從1 →T開始循環(huán):
根據(jù)式(12)更新P;
根據(jù)式(13)更新T;
根據(jù)式(17)更新Q;
根據(jù)式(21)更新M;
根據(jù)式(25)更新L;
根據(jù)式(29)更新W1;
根據(jù)式(33)更新W2;
根據(jù)式(34)更新拉格朗日乘子R1、R2;
根據(jù)式(35)更新懲罰參數(shù)μ;
如果||Pk-Qk||∞<?且||Pk-Tk||∞<?
跳出循環(huán);
結(jié)束如果;
結(jié)束循環(huán);
輸出:投影矩陣W1、W2。
DLSSL 模型的主要耗時步驟是:(1)式(13)中的奇異值分解,其時間復雜度為O(n3);(2)式(33)中求解西爾維斯特方程,其時間復雜度為O(d3)。其他步驟是簡單的矩陣加、減、乘,耗時可以忽略不計。因此采用文獻[17]類似的處理方法,使用以上兩個步驟的時間復雜度來近似表示DLSSL 模型的時間復雜度,為O(t(n3+d3)),其中t表示迭代次數(shù)。
ADMM 算法在求解2-block 問題時,可保證解一定收斂,然而本文算法包含多個變量,是一個n-block問題,ADMM 算法不能保證其一定收斂[21]。雖然尚沒有理論嚴格證明在何種情況下ADMM 算法求解的n-block 問題收斂,但多數(shù)相關(guān)類似算法在實際使用時可以很好地收斂[15,17,22-23]。
為了進一步驗證本文算法實際的收斂情況,在AR、CMU PIE、COIL-20 和Finger Knuckle Print(FKP)數(shù)據(jù)集上進行收斂性實驗,實驗結(jié)果如圖3 所示。不同數(shù)據(jù)集下的收斂速度有所不同,但經(jīng)過20 次迭代,所有的數(shù)據(jù)集均能很好地收斂,目標函數(shù)值與準確率都趨于穩(wěn)定,這驗證了本文算法具有很好的收斂性。
本文所有算法在以Windows10 系統(tǒng)環(huán)境下的Matlab(2020b)為軟件平臺,采用AMD Ryzen 7 2700 3.20 GHz CPU、NVIDIA RTX3080 GPU 和32 GB 內(nèi)存,其中算法中求逆矩陣、奇異值分解等耗時運算采用GPU 計算。本文算法將與NNC、SRC、LRC、CRC、ProCRC、DLSR、ReLSR、RLRLR、RLSL、LRDLSR、VGG16(Visual Geometry Group16)[24]、ResNet50(Residual Network50)[25]、MobileNet[26]、Xception[27]進行比較。實驗數(shù)據(jù)均采用PCA 進行預處理以降低維數(shù)(深度方法除外),實驗重復8 次記錄平均準確率與標準差。
Fig.3 Convergence curves and accuracy of proposed method圖3 本文算法目標函數(shù)的收斂曲線與準確率
人臉樣本容易受到不同光線、角度、面部表情、遮擋等干擾因素的影響,導致類內(nèi)差異性較大,而不同類別通常具有較大的相似性,因此圖像分類中的人臉分類對算法魯棒性提出較高要求,需要算法盡可能縮小類內(nèi)距離,并使不同類別樣本間的距離盡可能大。算法將在如下人臉數(shù)據(jù)集上進行實驗:
AR 數(shù)據(jù)集[28]:包含120 位志愿者,每人26 幅,包含不同表情、光照、角度、遮擋等情況,26 幅圖像分兩部分,前后各13 幅,間隔14 天采集,共計3 120 幅,部分樣本數(shù)據(jù)如圖4 所示。為平衡男女比例,從AR 數(shù)據(jù)集中抽取包含50 名男性與50 名女性的一個子集,并將樣本下采樣至165×120 像素。隨機選取每一類樣本中的3、4、5、6 個樣本作為訓練集樣本,其余樣本為測試集樣本,結(jié)果如表1 所示。
Extended Yale B 數(shù)據(jù)集[29]:包含38 人,每人有64幅,包括不同的表情和姿勢,總共有2 432 幅圖片。所有圖片都經(jīng)過灰度化預處理,并且采樣為96×84 像素,部分樣本數(shù)據(jù)如圖5 所示。實驗隨機選取每一類樣本中的10、15、20、25 個樣本作為訓練集樣本,其余樣本為測試集樣本,結(jié)果如表2 所示。
Fig.4 Some images from AR dataset圖4 AR 數(shù)據(jù)集中的部分樣本
Table 1 Recognition accuracy(mean±std)of different methods on AR dataset表1 AR 數(shù)據(jù)集上不同方法的識別率(平均值±標準差)%
CMU PIE 數(shù)據(jù)集[30]:包含68人,共41 368幅圖像,包含不同角度、光線、表情的樣本,其中含有5 個不同光照、表情的接近正臉角度的子數(shù)據(jù)集(C05、C07、C09、C27 和C29),部分樣本數(shù)據(jù)如圖6 所示。實驗選取明暗變化較明顯的C27 進行實驗,C27 包含68 人,每人24 幅,共1 632 幅圖像。實驗時將樣本下采樣至64×64 像素,并隨機選取每一類樣本中的5、10、15、20 個樣本作為訓練樣本,其余作為測試樣本,結(jié)果如表3 所示。
Table 2 Recognition accuracy(mean±std)of different methods on Extended Yale B dataset表2 Extended Yale B 數(shù)據(jù)集上不同方法的識別率(平均值±標準差)%
Fig.5 Some images from Extended Yale B dataset圖5 Extended Yale B 數(shù)據(jù)集中的部分樣本
Fig.6 Some images from CMU PIE dataset圖6 CMU PIE 數(shù)據(jù)集中的部分樣本
Table 3 Recognition accuracy(mean±std)of different methods on CMU PIE dataset表3 CMU PIE 數(shù)據(jù)集上不同方法的識別率(平均值±標準差)%
人臉識別實驗中樣本包含大量噪聲,經(jīng)典的NNC算法沒有噪聲抵抗能力,因此精度不理想;SRC、LRC算法基于稀疏表示理論,對樣本中的明暗噪聲具有一定的魯棒性,因此識別率高于NNC 算法,尤其在Extended Yale B 數(shù)據(jù)集(多為不同光照條件下的人臉樣本)的結(jié)果取得了大幅領(lǐng)先;CRC 與ProCRC 利用樣本間的協(xié)同性,進一步提高算法對于明暗噪聲的魯棒性;DLSR、ReLSR、RLRLR、RLSL 和LRDLSR 基于線性回歸算法,這些算法在訓練階段將學習到的投影矩陣用于新樣本識別,對樣本噪聲具有較強的抵抗能力,因此結(jié)果明顯優(yōu)于NNC、SRC、LRC、CRC和ProCRC 算法,其中RLSL 和LRDLSR 算法在識別率上小幅領(lǐng)先DLSR、ReLSR 和RLRLR 算法,這是由于RLSL考慮了樣本的稀疏噪聲,LRDLSR利用核范數(shù)約束抑制了標簽空間中的噪聲。VGG16、ResNet50、MobileNet 和Xception 是基于深度卷積網(wǎng)絡的方法,這些方法具有海量的參數(shù),能較好地擬合各種非線性數(shù)據(jù),然而在人臉識別實驗中,由于樣本數(shù)量較少,致使學習到的權(quán)重參數(shù)發(fā)生了嚴重的過擬合現(xiàn)象,分類精度嚴重下降。本文算法在各種實驗設置情況下均大幅領(lǐng)先其他算法,這是由于本文算法更加合理地考慮了噪聲的類型與分布,不再對噪聲施加不合理的先驗假設,潛在空間中的數(shù)據(jù)更加準確,且包含的有效信息更多,對噪聲具有更強的魯棒性。
不同于圖像分類中的人臉圖像,生物指紋特征圖像的獲取難度相對較高,大多數(shù)情況下每類樣本數(shù)量較少,這是一個典型的小樣本學習任務,在處理這種任務時,算法可利用的信息體量較小,因此少量噪聲就會對算法性能造成嚴重影響。算法將在以下生物指紋圖像數(shù)據(jù)集上進行實驗:
PolyU Palmprint數(shù)據(jù)集[31]:包含400 個不同手掌,每類20 個樣本,共8 000 個樣本。所有圖像都經(jīng)過灰度化預處理,并調(diào)整為64×64 像素,部分數(shù)據(jù)樣本如圖7 所示。實驗選取100 類,每類6 個,共計600 個樣本構(gòu)成一個子數(shù)據(jù)集。隨機選取每類樣本中的2、3個樣本作為訓練集,其余樣本作為測試集(每種訓練集下僅隨機抽取一次樣本),使用PCA 對原始數(shù)據(jù)降維,繪制不同維度下平均識別率的曲線,如圖8 所示,多次實驗中各算法的最高識別率如表4 所示。
Fig.7 Some images from PolyU Palmprint dataset圖7 PolyU Palmprint數(shù)據(jù)集中的部分樣本
Fig.8 Accuracy curves of different methods with varied dimensions on PolyU Palmprint dataset圖8 PolyU Palmprint數(shù)據(jù)集上不同維度與準確率曲線
Finger-Knuckle Print 指關(guān)節(jié)紋數(shù)據(jù)集[32]:包含660 個不同手指,每類12 個樣本,共7 920 個樣本。所有圖像都經(jīng)過灰度化預處理,并調(diào)整為55×110 像素,F(xiàn)inger-Knuckle Print 數(shù)據(jù)集的部分樣本如圖9 所示。選取100 類,每類12 個,共計1 200 個樣本構(gòu)成一個子數(shù)據(jù)集。隨機選取每類樣本中的2、3 個樣本作為訓練集,其余樣本作為測試集(每種訓練集下僅隨機抽取一次樣本),使用PCA 對原始數(shù)據(jù)降維,繪制不同維度下平均識別率的曲線,如圖10 所示,多次實驗中最高準確率如表5 所示。
Table 4 Accuracy on PolyU Palmprint dataset表4 PolyU Palmprint數(shù)據(jù)集上的識別率 %
Fig.9 Some images from FKP dataset圖9 FKP 數(shù)據(jù)集中的部分樣本
生物特征樣本中由于樣本采集環(huán)境相對統(tǒng)一樣本中的噪聲較小,各算法識別率差距小于人臉識別實驗。識別率方面,基于線性回歸算法與基于協(xié)同表示算法各有優(yōu)劣,基于稀疏表示算法相對較差,基于深度學習的方法仍然受限于數(shù)據(jù)量,性能表現(xiàn)不佳,總體呈現(xiàn)與人臉識別實驗相似規(guī)律。其中RLRLR 算法在Finger-Knuckle Print 數(shù)據(jù)集上,在訓練集為2 時性能不理想,這是因為RLRLR 利用了樣本的近鄰關(guān)系優(yōu)化數(shù)據(jù)分布,然而本部分實驗設置中的訓練樣本規(guī)模較小,因此嚴重影響了其性能。從圖8 和圖10可以發(fā)現(xiàn),隨著樣本維數(shù)增加,各算法識別率逐漸提高,當樣本維數(shù)超過40 時,各算法識別率基本穩(wěn)定,本文算法在低維度時性能優(yōu)勢不大,這是因為欠完備自編碼作為一種無監(jiān)督的特征提取方式在數(shù)據(jù)維度較小時不能很好地刻畫數(shù)據(jù)特征,使得提取的特征失真從而影響識別率。從表4 和表5 可以發(fā)現(xiàn),隨著樣本維數(shù)逐漸變大時這種缺點將不復存在,因此本文算法取得的最高識別率領(lǐng)先于其他各算法。
Fig.10 Accuracy curves of different methods with varied dimensions on FKP dataset圖10 FKP 數(shù)據(jù)集上不同維度與準確率曲線
物體識別和人臉識別、生物特征識別具有很大的差異,這是由于數(shù)據(jù)集中不同類別的樣本差異性很大,從而導致某些基于樣本重建算法無法利用其他類別數(shù)據(jù)的信息幫助提高樣本的重建質(zhì)量。此外由于物體形狀不同,樣本角度和光照變化很大,使得類內(nèi)差異急劇增大,給分類帶來了更大的困難。算法將在如下數(shù)據(jù)集上進行物體識別實驗:
COIL-20 數(shù)據(jù)集[33]:包含20 個不同物體,每類72個樣本,共1 440 個樣本。所有圖像都經(jīng)過灰度化預處理,并調(diào)整為32×32 像素,COIL-20 數(shù)據(jù)集上的部分樣本如圖11 所示。實驗前隨機選取每類樣本中的5 個樣本構(gòu)建訓練集,使用同一個訓練集對比各算法的性能情況,結(jié)果如表6 所示。圖12 展示了標簽其混淆矩陣。圖13 展示了標簽空間中數(shù)據(jù)的t 分布隨機鄰域嵌入(t-distributed stochastic neighbor embedding,t-SNE)可視化結(jié)果。
Table 5 Accuracy on FKP dataset表5 FKP 數(shù)據(jù)集上的識別率 %
Fig.11 Some images from COIL-20 dataset圖11 COIL-20 數(shù)據(jù)集中的部分樣本
Table 6 Accuracy on COIL-20 dataset表6 COIL-20 數(shù)據(jù)集上的識別率 %
Fig.13 t-SNE visualization results on COIL-20 dataset圖13 COIL-20 數(shù)據(jù)集上t-SNE 的可視化結(jié)果
從圖13 各種基于線性回歸算法的t-SNE 可視化結(jié)果可以發(fā)現(xiàn),多數(shù)同類樣本聚合成一點,但仍然存在許多離散點,這些離散點是由于樣本噪聲造成的較難分類的樣本。由于沒有考慮噪聲處理,DLSR、ReLSR 和RLRLR 的可視化結(jié)果中離散點相對較多,RLSL 和LRDLSR 算法考慮了樣本噪聲,因此離散點相對較少,本文DLSSL 算法的可視化結(jié)果中類內(nèi)樣本聚集更為緊密,類間距離相對較大,且雜亂分布的點較少,這表明DLSSL 模型對噪聲具有較強的魯棒性,能夠較好地保留數(shù)據(jù)的基本結(jié)構(gòu)。圖12 中的混淆矩陣極為稀疏,說明DLSSL 算法也具有很強的判別能力。從表6 可以更加直觀地發(fā)現(xiàn)DLSSL 在多種算法中取得了最高的識別率。
不同于上述3 類數(shù)據(jù)集,深度特征來源于深度神經(jīng)網(wǎng)絡的處理,具有高度的抽象性,這種抽象的數(shù)據(jù)形式更加精煉,所含的噪聲更少;同時由于數(shù)據(jù)的高度抽象,可能會使數(shù)據(jù)丟失原有的流形結(jié)構(gòu),使一些基于距離度量的算法性能下降,從而使某些基于幾何、紋理等特征識別的算法徹底失效。為驗證各算法在面對深度特征時的有效性,使用了兩種不同的深度神經(jīng)網(wǎng)絡用于特征提?。╒GG16 和ResNet50),分別提取如下兩個圖像數(shù)據(jù)集的特征:
FERET 數(shù)據(jù)集[34]:包含10 000 多個不同姿態(tài)和照明條件下的圖像樣本。本部分實驗選擇一個200 人的子集,每人7 幅,共計1 400 幅圖片,所有圖像都經(jīng)過灰度化預處理,并調(diào)整為80×80 像素。此部分隨機選取每一類樣本中的5 個樣本作為訓練樣本,其余為測試樣本,F(xiàn)ERET 數(shù)據(jù)集上的部分樣本如圖14 所示。
Fig.14 Some images from FERET dataset圖14 FERET 數(shù)據(jù)集中的部分樣本
COIL-20 數(shù)據(jù)集:隨機選取每一類樣本中的5 個樣本作為訓練樣本,其余為測試樣本。比較各算法在處理非深度特征、VGG16 和ResNet50 深度特征數(shù)據(jù)時的性能,實驗結(jié)果如表7 所示。
Table 7 Deep features accuracy(mean±std)表7 深度特征識別率(平均值±標準差)%
經(jīng)過深度神經(jīng)網(wǎng)絡提取的特征數(shù)據(jù)中所含的噪聲大幅降低,各算法性能得到顯著提高。面對如此高度抽象數(shù)據(jù),DLSSL 模型仍然領(lǐng)先于其他基于線性回歸算法并取得最好效果,這說明DLSSL模型不僅在處理噪聲數(shù)據(jù)方面具有優(yōu)勢,而且在面對幾乎沒有噪聲數(shù)據(jù)時,也能更好地利用樣本信息,可以學習一個類內(nèi)差異更小、類間判別能力更強的子空間投影。
DLSSL 模型有6 個重要的超參數(shù)λ1、λ2、λ3、λ4、λ5、r,其中λ1、λ2是平衡參數(shù),用于平衡從原始空間到潛在空間到標簽空間的變換權(quán)重,λ3、λ4是防止過擬合的正則化參數(shù),λ5是類的低秩目標學習項,文獻[17]中已證明此參數(shù)對實驗結(jié)果影響較小,后續(xù)實驗中將其設置為10,參數(shù)r是潛在空間的維數(shù)。
首先設置超參數(shù)λ1=λ2=1E+0,λ3=λ4=5E-5,λ5=1E+1,然后驗證在不同潛在子空間維度r下的識別率,結(jié)果如圖15 所示。隨著潛在子空間維數(shù)的增加,算法的性能逐漸提升,在r>2c后趨于穩(wěn)定。由于r的大小決定潛在子空間維數(shù)的大小,維數(shù)越大,算法的時間與空間復雜度越高,因此選擇r=2c;其次固定超參數(shù)r=2c,λ3=5E-5,λ4=5E-5,然后驗證不同參數(shù)λ1,λ2∈{1E+0,5E-1,1E-1,5E-2,1E-2,5E-3,1E-3,5E-4,1E-4,5E-5} 對模型性能的影響,不同λ1和λ2在AR 與CMU PIE 數(shù)據(jù)集的識別率如圖16 所示。從圖中可以發(fā)現(xiàn),當λ1=λ2=1E+0 時模型的性能較好,這是由于這兩個空間中的轉(zhuǎn)換同等重要;最后固定超參數(shù)r=2c,λ3=5E-5,λ4=5E-5,然后驗證不同參數(shù)λ1,λ2∈{1E+0,5E-1,1E-1,5E-2,1E-2,5E-3,1E-3,5E-4,1E-4,5E-5}對模型性能的影響,不同λ3和λ4在AR 與CMU PIE數(shù)據(jù)集的識別率如圖17 所示。可以發(fā)現(xiàn)λ3的選取對實驗結(jié)果影響較大,λ4對識別率影響較小。綜上所述,本文算法雖包含眾多參數(shù),但除λ3外其余參數(shù)對結(jié)果影響較小,不同數(shù)據(jù)集上參數(shù)選取基本相似,因此通常情況下默認λ1=λ2=1E+0,λ4=5E-5,λ5=1E+1,r=2c,僅需要選取λ3∈[1E-1,1E-5]。
Fig.15 Accuracy of DLSSL for different parameters r on each dataset圖15 各數(shù)據(jù)集上不同參數(shù)r 時DLSSL 的識別率曲線
Fig.16 Accuracy of different λ1 and λ2 on AR and CMU PIE datasets圖16 不同λ1 和λ2 在AR 與CMU PIE 數(shù)據(jù)集上的識別率
Fig.17 Accuracy of different λ3 and λ4 on AR and CMU PIE datasets圖17 不同λ3 和λ4 在AR 與CMU PIE 數(shù)據(jù)集上的識別率
本文分析了現(xiàn)有幾種基于子空間學習的圖像識別算法,找出了其在噪聲類型與分布假設上的不合理之處,提出了一種基于潛子空間去噪的子空間學習(DLSSL)圖像分類算法。該方法以DLSR 框架為基礎,在原有的視覺空間與標簽空間中引入了潛在子空間,結(jié)合欠完備自編碼器提取數(shù)據(jù)中的高階特征,再利用數(shù)據(jù)的高階特征進行回歸分類,輔助以組核范數(shù)約束,優(yōu)化類內(nèi)樣本間距離。在人臉識別、生物特征識別、物體識別、深度特征識別四種不同領(lǐng)域的圖像數(shù)據(jù)集上設計了實驗,實驗結(jié)果表明所提算法對數(shù)據(jù)中存在的各種類型與分布的噪聲都具有較強的魯棒性,所構(gòu)造的子空間判別性更好,分類性能優(yōu)于現(xiàn)有相關(guān)算法。本文算法對傳統(tǒng)線性回歸框架進行了較大幅度的修改,使其具有較好的靈活性與擴展性,未來的工作將利用這種優(yōu)勢,從多角度發(fā)掘數(shù)據(jù)的潛在價值,優(yōu)化數(shù)據(jù)的表現(xiàn)形式,開發(fā)出一種更為普適的圖像分類工具。