田甲略,朱玉蓮,陳飛玥,劉佳慧
(1. 南京航空航天大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院/人工智能學(xué)院,南京 211106;2. 南京航空航天大學(xué)公共實(shí)驗(yàn)教學(xué)部,南京 211106)
白化作為一種數(shù)據(jù)預(yù)處理方法,由于可以在標(biāo)準(zhǔn)化數(shù)據(jù)的同時(shí)去除輸入數(shù)據(jù)各屬性間的相關(guān)性[1],從而從計(jì)算和統(tǒng)計(jì)的角度簡(jiǎn)化多元數(shù)據(jù)分析的復(fù)雜度[2],因此在圖像處理[3]、語(yǔ)音處理[4]、三維物體識(shí)別[5]等方面得到廣泛應(yīng)用。
白化,就是一種將d維隨機(jī)向量x經(jīng)過(guò)白化矩陣W變換到新向量y的線性轉(zhuǎn)換過(guò)程[2](即y=Wx),其核心是尋找白化矩陣W,使得經(jīng)過(guò)W變換后各屬性間不相關(guān)且各屬性的方差都相等。在各種白化方法中,PCA 白化(Principle component analysis)[6]和ZCA 白化(Zero-phase component analysis)[7]是兩種最常見(jiàn)的方法。PCA 白化是在PCA[8]的基礎(chǔ)上做了尺度上縮放,使得白化后各屬性的方差為1。設(shè)協(xié)方差矩陣為Σ,且其奇異值分解為Σ=UΛUT,則PCA 的白化矩陣可表示為WPCA=Λ-1/2UT。PCA 白化可以使y能夠盡可能多地表示原始x中的信息;而ZCA 白化則是將PCA 白化的結(jié)果經(jīng)過(guò)U旋轉(zhuǎn)回到原始空間的操作,其白化矩陣為WZCA=UΛ-1/2UT,因此ZCA 白化后的結(jié)果更接近原始數(shù)據(jù)。值得說(shuō)明的是,由于PCA 白化和ZCA 白化均是在PCA 基礎(chǔ)上進(jìn)行的轉(zhuǎn)換,因此在求解白化矩陣時(shí)通常需要使用整個(gè)已知數(shù)據(jù)集,并且該數(shù)據(jù)集中的所有樣本均共享一個(gè)白化矩陣W。
白化在圖像處理方面有著廣泛的應(yīng)用,例如,文獻(xiàn)[3]使用ZCA 白化去除車(chē)牌圖像鄰域像素間的冗余信息;文獻(xiàn)[9]使用ZCA 白化作為深度神經(jīng)網(wǎng)絡(luò)輸入前的預(yù)處理步驟;文獻(xiàn)[10]則說(shuō)明了白化操作有助于提高傳統(tǒng)機(jī)器學(xué)習(xí)算法對(duì)光照、噪聲等魯棒性。Shi 等[11]提出了一種二維白化重構(gòu)(Two-dimensional whitening reconstruction,TWR)算法。作為一種圖像預(yù)處理方法,不同于PCA 白化和ZCA 白化方法,TWR 白化矩陣的求解只依賴于要進(jìn)行白化的單張圖像而不需要使用其他圖像。也就是說(shuō),每個(gè)圖像在進(jìn)行TWR 白化變換時(shí)都對(duì)應(yīng)各自專屬的白化矩陣。文獻(xiàn)[11]在人臉識(shí)別上的實(shí)驗(yàn)結(jié)果驗(yàn)證了經(jīng)過(guò)TWR 處理后的圖像能夠有效提高PCA 及其變體算法的分類和聚類效果。
本文將闡述TWR 等價(jià)于基于列的ZCA 白化。亦即,對(duì)單張圖像進(jìn)行TWR 操作等價(jià)于以圖像列向量作為樣本所進(jìn)行的ZCA 白化操作。由于ZCA 白化能有效去除隨機(jī)變量各屬性間的相關(guān)性,因此當(dāng)把圖像的每一列作為隨機(jī)變量時(shí),ZCA 白化就相當(dāng)于去除圖像列內(nèi)各屬性的相關(guān)性??紤]到圖像局部塊內(nèi)的冗余信息要遠(yuǎn)大于列內(nèi)的冗余信息,基于上述等價(jià)性的發(fā)現(xiàn),提出了重組的TWR(Reshaped TWR,RTWR)算法。RTWR 首先將圖像進(jìn)行重新組合,使得重組后矩陣的每一列對(duì)應(yīng)著原始圖像的一個(gè)局部分塊。隨后基于這個(gè)重組后的矩陣做TWR 操作以期去除圖像局部塊內(nèi)的相關(guān)性。
另一方面,由于在圖像處理中局部信息相對(duì)于全局信息而言對(duì)光照變換、目標(biāo)遮擋等具有更好的魯棒性[12-13],因此有效獲取局部特征成為必要。子圖像方法[14-15]是一種非常有效的獲取圖像局部特征的方法。該方法通過(guò)對(duì)原始圖像進(jìn)行劃分,然后分別在每個(gè)子圖像中提取特征來(lái)獲取局部特征。鑒于子圖像方法的成功,從局部的角度出發(fā),提出了基于塊的TWR(Patch TWR,PTWR)算法。不同于RTWR 對(duì)圖像重組后做TWR,PTWR 對(duì)每個(gè)分塊分別進(jìn)行TWR,然后把每塊的TWR 結(jié)果按位置拼接成新的矩陣,最后再對(duì)新的矩陣進(jìn)行降維或分類。為了驗(yàn)證RTWR 和PTWR 算法的有效性,在ORL、CMU PIE 和AR 人臉數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明RTWR 和PTWR 均優(yōu)于TWR,尤其是PTWR 算法,對(duì)人臉尺度變換、角度變換、光照及遮擋變換均具有非常好的魯棒性,并且在訓(xùn)練樣本較少的情況下這種優(yōu)勢(shì)更為突出。此外,對(duì)PTWR 算法中的參數(shù)選擇進(jìn)行了分析。
TWR[11]是針對(duì)單張圖像進(jìn)行的白化方法。它對(duì)圖像進(jìn)行白化的同時(shí)還可以使圖像的像素分布接近高斯分布[11]。文獻(xiàn)[11]的實(shí)驗(yàn)結(jié)果表明,圖片經(jīng)過(guò)TWR 預(yù)處理后再進(jìn)行PCA 及其變體算法的降維操作能夠顯著提升后續(xù)的分類和聚類效果,并且對(duì)光照變換具有較強(qiáng)的魯棒性。
給定一張p行n列的圖像X=[x1,x2,…,xn]∈Rp×n,其中,xi(i=1,2,…,n)是圖像X的列向量。TWR 首先將圖像的每一列看作一個(gè)處理單元進(jìn)行列內(nèi)的去均值化操作[16],得到列內(nèi)中心化后的圖像X~=[x~1,x~2,…,x~n],然后對(duì)X~進(jìn)行奇異值分解[17],即X~=UDVT,則圖像X~經(jīng)過(guò)TWR 后的結(jié)果可表示為
式中m表示要保留的主分量的個(gè)數(shù)。
本節(jié)將說(shuō)明對(duì)圖像的TWR 操作等價(jià)于基于圖像列向量的ZCA 白化。
同1.1 節(jié),給定圖像X,經(jīng)過(guò)列中心化處理后得到的圖像表示為X~=[x~1,x~2,…,x~n]∈Rp×n,其奇異值分解為
由式(1)和式(5)可得:YZCA=YTWR。因此,TWR 等價(jià)于將圖像的每一列作為一個(gè)樣本進(jìn)行ZCA白化。
根據(jù)1.2 節(jié)的結(jié)論可知,對(duì)圖像X整體進(jìn)行TWR 預(yù)處理等價(jià)于將圖像X的每一列作為一個(gè)樣本進(jìn)行ZCA 白化的操作,這就是說(shuō)TWR 能有效去除圖像列內(nèi)的相關(guān)性。因?yàn)閳D像結(jié)構(gòu)信息的存在,局部塊內(nèi)的冗余信息要遠(yuǎn)多于列內(nèi)的冗余信息,因此從去除冗余信息的角度出發(fā),提出了RTWR 方法。RTWR 首先對(duì)人臉圖像進(jìn)行重新組合,使得重組后的矩陣的每一列對(duì)應(yīng)著原始圖像的一個(gè)局部塊,然后針對(duì)新的重組矩陣進(jìn)行TWR 操作,最后將每一列還原成局部塊,并對(duì)所有塊進(jìn)行重組。具體的實(shí)現(xiàn)步驟如下:
(5)分別將Y中每一列yk(k∈{1,2,…,n~})重組為a×b大小的塊,并將它們按原始?jí)K位置重新組成p×n大小的矩陣,得到RTWR 的結(jié)果(圖1(d))。
圖1 RTWR 具體操作流程(圖像來(lái)自CMU PIE)Fig.1 Operation process of RTWR (images from CMU PIE)
值得說(shuō)明的是:①當(dāng)分塊大小和原始圖像大小一致時(shí),經(jīng)過(guò)步驟1 和2,整個(gè)圖像會(huì)重組成一個(gè)列向量,即Xnew為列向量;由于步驟3 中所獲得的X~new只是對(duì)Xnew列內(nèi)元素進(jìn)行了去均值的處理,仍為列向量,因此步驟4 對(duì)Xnew白化處理后結(jié)果是不變的,即Y=Xnew,所以當(dāng)Y還原為原始圖像大小的圖像后該重構(gòu)圖像和原圖像只是差了一個(gè)均值。也就是說(shuō),當(dāng)分塊大小和原始圖像大小一致時(shí),RTWR 只是對(duì)圖像元素做了一個(gè)去均值的處理。②當(dāng)每個(gè)分塊對(duì)應(yīng)原圖像的每一列時(shí),步驟2 的重組操作并不會(huì)改變?cè)紙D像的結(jié)構(gòu),即Xnew=X。因此當(dāng)對(duì)Xnew做TWR 時(shí)就等同于對(duì)X做TWR,所以,當(dāng)圖像的每個(gè)分塊對(duì)應(yīng)于原圖像的每一列時(shí),RTWR 退化為T(mén)WR,也就是說(shuō)TWR 是RTWR 的一個(gè)特例。
RTWR 方法通過(guò)將圖像的每個(gè)子塊拉成列向量實(shí)現(xiàn)對(duì)原始圖像的重組,然而這樣的操作在一定程度上會(huì)破壞圖像的局部信息。為了充分利用圖像的局部信息,同時(shí)鑒于子圖像方法在圖像去噪、小目標(biāo)檢測(cè)[18]等研究領(lǐng)域的成功應(yīng)用,提出了PTWR 算法。不同于RTWR 將圖像分塊拉成列向量拼接后整體進(jìn)行TWR 操作,PTWR 是在每個(gè)子塊內(nèi)分別做TWR,以期保留更多的局部信息。
PTWR 的具體流程如下:給定一張圖像X∈Rp×n,首先不重疊地將圖像分成若干個(gè)大小a×b的矩形塊Xij(i∈{1,2,…,p/a},j∈{1,2,…,n/b});然后在每個(gè)分塊上分別進(jìn)行TWR 操作,最后將每塊的處理結(jié)果復(fù)位重新構(gòu)成大小為p×n的矩陣,該矩陣即為X經(jīng)過(guò)PTWR 后的結(jié)果。圖2 展示了圖像經(jīng)過(guò)PTWR 的處理過(guò)程。在圖2(a)中,16×16 大小的人臉圖像被劃分成16 個(gè)4×4 的矩形塊,然后每個(gè)4×4 的塊分別做TWR 操作(圖2(c)),最后所有TWR 處理后的塊按位重組成16×16 的矩陣(圖2(d))。值得說(shuō)明的是,當(dāng)把整張圖像看作一個(gè)分塊時(shí),此時(shí)PTWR 就退化為T(mén)WR。也就是說(shuō),TWR 也是PTWR 的一個(gè)特例。
圖2 PTWR 具體操作流程Fig.2 Operation process of PTWR
圖3 分別給出了原始圖像和經(jīng)過(guò)RTWR 與PTWR 處理后像素點(diǎn)的分布情況。從圖中可以看出,嚴(yán)重受光線影響的圖像其像素點(diǎn)的分布主要集中在低值區(qū)域(圖3(a));但圖像經(jīng)過(guò)RTWR 處理后(圖3(b)),像素分布接近高斯分布;而圖像經(jīng)過(guò)PTWR 處理后(圖3(c)),像素分布更趨于平均化。因此,經(jīng)過(guò)RTWR 和PTWR 預(yù)處理的圖像,其像素分布更接近高斯分布或均勻分布。
圖3 像素分布對(duì)比Fig.3 Comparison of pixel distribution
圖4 給出了一組圖像分別經(jīng)過(guò)3 種預(yù)處理后結(jié)果。從圖4 可以很明顯地看出,RTWR(a×b=8×4,m=28)和PTWR(a×b=8×4,m=2)預(yù)處理后的圖像輪廓比TWR 更清晰,同時(shí)結(jié)構(gòu)化特征也更突出。
圖4 TWR、RTWR 和PTWR 處理效果對(duì)比(圖片來(lái)自O(shè)RL)Fig.4 Processing results of TWR, RTWR and PTWR (images from ORL)
為了驗(yàn)證RTWR 和PTWR 方法的有效性,本文在ORL、CMU PIE 和AR 人臉數(shù)據(jù)集上對(duì)RTWR、PTWR 和TWR 進(jìn)行對(duì)比實(shí)驗(yàn)。其中,ORL 數(shù)據(jù)集主要用于測(cè)試算法對(duì)人臉輕微角度旋轉(zhuǎn)、圖像尺度縮放的魯棒性;CMU PIE 數(shù)據(jù)集主要用于測(cè)試算法對(duì)光照變換的魯棒性;而AR 數(shù)據(jù)集則是用于測(cè)試算法對(duì)各種面部遮擋的魯棒性。另外,還分析了算法中圖像分塊大小a×b及主分量的個(gè)數(shù)(m)對(duì)算法性能的影響。
(1)ORL 人臉數(shù)據(jù)集[19]
ORL 人臉數(shù)據(jù)集包括40 個(gè)人的共400 張圖像(每人10 張圖像),這些圖像包含人臉轉(zhuǎn)動(dòng)角度的變換(不超過(guò)20°)、面部表情和配飾(眼鏡等)的變換以及圖像尺度的變換(放縮比例約為1.2)。原始圖像大小為112×92,本文在使用時(shí)將其縮放為32×32 大小。
(2)CMU PIE 人臉數(shù)據(jù)集
CMU PIE 人臉數(shù)據(jù)集包括68 個(gè)人在13 種姿勢(shì)變換、43 種光照變換以及4 種表情變換下的41 368張圖像。本文中所使用的圖像為文獻(xiàn)[20]處理后的子集(C27)。該子集共包括3 329 張正面圖像,每類人臉有49 張圖像(除第38 類是46 張圖像),每張圖像大小為64×64。
(3)AR 人臉數(shù)據(jù)集[21]
AR 數(shù)據(jù)集包含126 個(gè)人(70 個(gè)男性和56 個(gè)女性)的4 000 余張包括不同的表情、光照和遮擋變換的彩色人臉正面照。本文中,選用其中的一個(gè)黑白圖像子集,該子集包括100 個(gè)人(50 個(gè)男性和50 個(gè)女性,每人26 張)的2 600 張圖像,每張圖像大小為64×48。每人的26 張圖像分別在兩個(gè)場(chǎng)景拍攝得到,且每個(gè)場(chǎng)景有13 張圖像。對(duì)于每個(gè)場(chǎng)景的13 張圖像而言,1st 為中立圖像、2nd~4th 為表情變換圖像、5th~7th 張為光照變換圖像、8th~10th 張為眼部遮擋圖像(眼鏡),而11th~13th 張為嘴部遮擋圖像(圍巾),如圖5 所示。
圖5 AR 數(shù)據(jù)庫(kù)樣例Fig.5 AR database samples
在實(shí)驗(yàn)中,首先分別使用RTWR、PTWR 和TWR 三種方法對(duì)每張圖像進(jìn)行預(yù)處理,然后使用PCA或2DPCA[22]對(duì)處理后的結(jié)果進(jìn)行降維,最后使用最近鄰分類器進(jìn)行分類(歐式距離),并將分類結(jié)果作為分析的依據(jù)。現(xiàn)對(duì)實(shí)驗(yàn)設(shè)置進(jìn)行說(shuō)明。對(duì)于ORL 數(shù)據(jù)集,從每類圖像中隨機(jī)選取q(q=2,4,6,8)個(gè)樣本組成訓(xùn)練集,其余樣本用于測(cè)試。在實(shí)驗(yàn)中,TWR 采用與文獻(xiàn)[11]相同的參數(shù)設(shè)置,即m取28;RTWR 和PTWR 的圖像分塊大小均為8×4,m分別取28 和2。實(shí)驗(yàn)重復(fù)20 次,最后給出平均識(shí)別率。對(duì)于CMU PIE 數(shù)據(jù)庫(kù),從每類圖像中隨機(jī)選取q(q=2,4,6,8)個(gè)樣本組成訓(xùn)練集,其余樣本用于測(cè)試。TWR 的m取40;RTWR 和PTWR 圖像分塊大小為分別為32×2 和16×4,m分別取40 和2。實(shí)驗(yàn)重復(fù)20 次,最后給出平均識(shí)別率和標(biāo)準(zhǔn)差。而對(duì)于AR 數(shù)據(jù)庫(kù),每類圖像第一個(gè)場(chǎng)景的前7 張(表情和光照變換)圖像組成訓(xùn)練集,兩個(gè)不同場(chǎng)景下的眼部遮擋和嘴部遮擋分成4 個(gè)測(cè)試集分別用于測(cè)試。在TWR 中,m=44;RTWR 和PTWR 的圖像分塊大小取12×6,m分別取44 和5。
圖6 和表1、2 分別給出了ORL、CMU PIE 和AR 數(shù)據(jù)集經(jīng)過(guò)TWR、RTWR 和PTWR 預(yù)處理后進(jìn)行PCA 和2DPCA 降維后的分類結(jié)果。從整體的結(jié)果上可以看出,RTWR 和PTWR 均優(yōu)于TWR。具體而言:(1)對(duì)于有輕微角度變換和尺度變換的ORL 數(shù)據(jù)集,RTWR 比TWR 表現(xiàn)稍差,而PTWR 則明顯優(yōu)于TWR,尤其是當(dāng)訓(xùn)練樣本較少時(shí)(如q=2 或4 時(shí)),這種優(yōu)勢(shì)更為明顯。(2)對(duì)于包含各種光線變換的CMU PIE 數(shù)據(jù)集,RTWR 并沒(méi)有獲得比TWR 更好的性能。在使用PCA 進(jìn)行降維時(shí)RTWR 略優(yōu)于TWR,而使用2DPCA 時(shí)RTWR 表現(xiàn)略差于TWR,整體上兩者性能相當(dāng);而PTWR 卻給出相當(dāng)令人滿意的結(jié)果。當(dāng)訓(xùn)練樣本數(shù)為2,使用2DPCA 降維時(shí),PTWR 比TWR 能高出5.7%;同時(shí),PTWR 有比TWR 更低的方差,這也說(shuō)明PTWR 比TWR 更具有穩(wěn)定性。(3)對(duì)于有眼部遮擋和嘴部遮擋的AR 數(shù)據(jù)集,RTWR 和PTWR 均明顯比TWR 具有更好的性能。相對(duì)于TWR 而言,RTWR 和PTWR 最小的提升幅度分別為3.0%和0.7%;而最大的提升幅度則為6.0%和12.4%;(4)比較表2 中RTWR 與PTWR的實(shí)驗(yàn)結(jié)果發(fā)現(xiàn),RTWR 在處理眼部遮擋時(shí)比PTWR 更具有優(yōu)勢(shì),而PTWR 則對(duì)嘴部遮擋等影響因素表現(xiàn)出很好的適應(yīng)性。
表1 CMU PIE 數(shù)據(jù)集實(shí)驗(yàn)結(jié)果Table 1 Experimental results on CMU PIE%
表2 AR 數(shù)據(jù)集實(shí)驗(yàn)結(jié)果Table 2 Experimental results on AR%
圖6 ORL 數(shù)據(jù)集實(shí)驗(yàn)結(jié)果Fig.6 Experimental results on ORL dataset
3.3.1 塊大小對(duì)性能的影響
在RTWR 和PTWR 方法中,塊大?。╝×b)是一個(gè)非常重要參數(shù)。圖7 給出了采用不同塊大?。╝=b)時(shí)RTWR 和PTWR 預(yù)處理后的結(jié)果。從圖7 可以看出:(1)對(duì)于RTWR,無(wú)論采用怎樣的分塊大小都能清晰看出圖像的輪廓。隨著分塊的增大,RTWR 重組后的輪廓不僅越來(lái)越清晰而且也越來(lái)越接近于原始圖像。2.1 節(jié)的分析表明,當(dāng)a=32 時(shí)(此時(shí)分塊大小與原圖像相同),RTWR 重組的圖像和原圖像只相差一個(gè)灰度差;(2)對(duì)于PTWR,當(dāng)分塊大小較小時(shí)(如a=2),很難看出圖像的輪廓;而隨著a的增加,圖像輪廓逐漸清晰。當(dāng)a=32 時(shí)(此時(shí)分塊大小于原圖像相同),PTWR 退化為T(mén)WR,此時(shí)輪廓最為清晰。關(guān)于RTWR 重構(gòu)結(jié)果和PTWR 的差別,可以做如下分析:RTWR 是以去除局部塊內(nèi)相關(guān)性的角度出發(fā),首先將圖像進(jìn)行了重組(使得重組后的每一列對(duì)應(yīng)著原始圖像的一個(gè)局部塊)然后TWR 直接執(zhí)行在重組的圖像上。雖然RTWR 將圖像進(jìn)行了劃分,但由于TWR 是作用在整體重組圖像上的,因此RTWR 相對(duì)更側(cè)重于獲取圖像整體信息,因此,圖7(a)中人臉輪廓清晰可見(jiàn);而PTWR 則是從保持原始圖像局部特征的角度出發(fā),分別對(duì)每個(gè)分塊做TWR 操作,然后通過(guò)TWR 獲取每個(gè)分塊的信息。因此PTWR 更側(cè)重獲取圖像的局部信息。所以圖7(b)中所呈現(xiàn)的PTWR 重構(gòu)后圖像相鄰區(qū)域間變換較大(分塊為2×2 時(shí)尤為突出)。鑒于RTWR 與PTWR 的上述差別,進(jìn)一步分析了分塊大小對(duì)兩種方法性能的影響。
圖7 不同分塊的白化效果圖Fig.7 Renderings of different blocks
(1)分塊大小對(duì)RTWR 的影響
在RTWR 方法中,TWR 保留主分量的個(gè)數(shù)(m值)的選取與分塊大小密切相關(guān)。對(duì)一張p×n大小的圖像以a×b大小進(jìn)行分塊重組將得到大小為p~×n~(n~=p*n/p~,p~=a*b)的圖像,那么m取值一定需要滿足1 ≤m≤min(n~,p~)。而太大或太小的分塊都會(huì)導(dǎo)致n~或p~很小,從而使得m最大取值很小,進(jìn)而影響RTWR 最后的性能。本文盡量保證選取的主成分的個(gè)數(shù)能與TWR 方法一致,因此遵循分塊重組后圖像尺寸盡可能接近原始圖像尺寸的原則對(duì)圖像進(jìn)行分塊。如對(duì)于64×64 的原始圖像,采用32×2 的分塊,以使得重構(gòu)后的圖像仍然是64×64。然而重組成64×64 的圖像會(huì)存在多種分塊情況(如4×16,16×4 等),仍然無(wú)法選擇采用哪種分塊形式。鑒于集成學(xué)習(xí)方法往往能夠弱化各個(gè)分類器的不足,對(duì)提高最終分類器的性能有著較好的適用性[23-24],因此考慮采用集成的方法設(shè)計(jì)多分類器系統(tǒng)。即每種分塊情況分別設(shè)計(jì)一個(gè)子分類器,最終將所有子分類器的結(jié)果進(jìn)行簡(jiǎn)單的投票。在CMU PIE數(shù)據(jù)集上進(jìn)行相關(guān)實(shí)驗(yàn)。實(shí)驗(yàn)中,從每類圖像中隨機(jī)選取q(q=2,4,6,8)個(gè)樣本用于訓(xùn)練,剩余的樣本組成測(cè)試集。針對(duì)每組訓(xùn)練樣本和測(cè)試樣本,首先將圖像按塊a×b進(jìn)行分塊重組處理(如2.1 節(jié)步驟1,2),然后對(duì)重組的圖像進(jìn)行RTWR 操作(同TWR 取相同的m,即m=40),最后使用PCA 降維并用最近鄰分類器進(jìn)行分類。針對(duì)于每一種分塊(a×b=1×64,2×32,4×16,8×8,16×4,32×2,64×1)均做上述處理,因此對(duì)于每個(gè)測(cè)試樣本均能獲得多個(gè)分類結(jié)果,最后將所有分類結(jié)果進(jìn)行投票,并將此投票結(jié)果作為該測(cè)試樣本的類別。重復(fù)實(shí)驗(yàn)20 次取平均識(shí)別率。
實(shí)驗(yàn)結(jié)果如表3 所示。從表3 可以看出,①分塊大小對(duì)RTWR 的影響的確很大:當(dāng)分塊為1×64時(shí)識(shí)別效果最差,而在32×2 時(shí)效果最好,兩者最大相差6%;②集成分類器所得結(jié)果與單一分塊相比在識(shí)別率和穩(wěn)定性方面均表現(xiàn)良好,集成后的結(jié)果僅次于所有分塊中的最優(yōu)性能且總體上相差并不大(最大差距不到1%,最小差距只有0.1%)。因此在確定重構(gòu)圖像大小的前提下,采用這種集成方式來(lái)弱化具體分塊選擇是可行的。
(2)分塊大小對(duì)PTWR 的影響
PTWR 方法首先將圖像進(jìn)行分塊,然后分別對(duì)每塊做TWR 處理,因此PTWR 屬于子圖像方法[15]。對(duì)于子圖像方法,分塊大小是一個(gè)非常重要的參數(shù),它嚴(yán)重影響著最后的性能。本文將討論分塊大小對(duì)PTWR 的影響。分塊大小不宜過(guò)小或過(guò)大,過(guò)小的分塊會(huì)導(dǎo)致過(guò)多的考慮局部信息而忽略全局信息的重要性,從而可能會(huì)造成全局信息的丟失;而過(guò)大的分塊則會(huì)忽略局部信息的重要性。為簡(jiǎn)單起見(jiàn),僅考慮正方形分塊的情形,即a=b。在CMU PIE 數(shù)據(jù)集上進(jìn)行相關(guān)實(shí)驗(yàn)。實(shí)驗(yàn)中,從每類圖像中隨機(jī)選取q(q=2,4,6,8)個(gè)樣本用于訓(xùn)練,剩余的樣本組成測(cè)試集。針對(duì)每組訓(xùn)練樣本和測(cè)試樣本,首先將圖像按塊a×a(a=2,4,8,16,32,64)進(jìn)行分塊處理,然后對(duì)分塊后的圖像進(jìn)行PTWR 操作(對(duì)應(yīng)分塊情況下的m分別為1,2,4,12,28,40),最后使用PCA 降維并分類。重復(fù)實(shí)驗(yàn)20 次取平均識(shí)別率作為最后的結(jié)果。
圖8 展示了在CMU PIE 數(shù)據(jù)集上分塊大小對(duì)PTWR 識(shí)別效果的影響。從實(shí)驗(yàn)結(jié)果中可以看出:①當(dāng)分塊大小為8×8(最接近原圖像大小的1/100)時(shí)PTWR 取得了最好的識(shí)別效果,這也驗(yàn)證了文獻(xiàn)[25-26]的經(jīng)驗(yàn)結(jié)論,即子圖像大小在原圖像大小的1/100 附近時(shí),子圖像方法往往能夠獲取較好效果。②整體上說(shuō),當(dāng)分塊大小為2×2 時(shí)識(shí)別率較低,隨著分塊大小的增加,識(shí)別性能逐漸增加;當(dāng)分塊為8×8 時(shí)達(dá)到最好的效果;而后隨著分塊的增加識(shí)別率又逐漸減低。值得說(shuō)明的是,雖然PTWR 的分塊對(duì)性能有較大影響,但從整體上來(lái)看,PTWR 在大多數(shù)分塊情況下,性能都優(yōu)于TWR。③在每類訓(xùn)練樣本較小時(shí)(q=2),PTWR 算法對(duì)應(yīng)的實(shí)線和TWR 算法對(duì)應(yīng)的虛線所夾面積相差較大;而隨著訓(xùn)練樣本數(shù)的增加,所夾面積逐漸變小,這也說(shuō)明了訓(xùn)練樣本較少的情況下PTWR 算法相對(duì)于TWR更具有優(yōu)勢(shì)。值得說(shuō)明的是,當(dāng)分塊大小和原始圖像大小一致時(shí),PTWR 就轉(zhuǎn)換為T(mén)WR,即TWR 為PTWR 的一個(gè)特例。
圖8 分塊大小對(duì)PTWR 的影響(CMU PIE)Fig.8 Effect of patch size on PTWR (CMU PIE)
3.3.2 主分量個(gè)數(shù)(m)對(duì)性能的影響
(1)主分量個(gè)數(shù)對(duì)RTWR 的影響
從表3 的數(shù)據(jù)可以看出,集成學(xué)習(xí)能夠有效弱化分塊大小對(duì)RTWR 識(shí)別率的影響,進(jìn)而解決分塊大小難以選擇的問(wèn)題。本節(jié)將在集成分塊的基礎(chǔ)上,討論m值對(duì)RTWR 的影響。以CMU PIE 數(shù)據(jù)集為例,以RTWR 重組后的圖像大小和原圖像相同為分塊原則,考察了m值從4 開(kāi)始以4 為步長(zhǎng)變化至64 對(duì)集成RTWR(所有可能分塊的集成)的影響。圖9(a)給出了m對(duì)集成RTWR 和TWR 兩種方法的性能影響,其中q表示每類有q個(gè)樣本做訓(xùn)練,其他樣本做測(cè)試。從圖9 可以看出:①隨著m的增加,兩種方法的識(shí)別率都是先上升然后逐漸趨于平穩(wěn)再下降的走勢(shì)。這主要是因?yàn)楫?dāng)m較小時(shí)只有很少的有用信息被使用,而大量的有用信息丟失,所以性能較低;反之,當(dāng)m較大時(shí),一些噪聲信息將會(huì)被利用,從而導(dǎo)致識(shí)別性能降低。②隨著訓(xùn)練樣本數(shù)目q的增加,m對(duì)集成的RTWR 和TWR 的影響逐漸減小,尤其是對(duì)集成的RTWR 影響更小。圖9(a)顯示,除q=2 外,兩種方法的m在塊尺寸的50%~80%之間時(shí)均取得較好的識(shí)別率。
表3 CMU PIE 數(shù)據(jù)集RTWR 分塊大小實(shí)驗(yàn)結(jié)果Table 3 Experimental results of patch size analysis of RTWR on CMU PIE%
圖9 參數(shù)m 對(duì)識(shí)別率的影響(CMU PIE)Fig.9 Effect of parameter m on recognition rate (CMU PIE)
(2)主分量個(gè)數(shù)對(duì)PTWR 的影響
圖8 的實(shí)驗(yàn)結(jié)果顯示,在CMU PIE 數(shù)據(jù)集上,當(dāng)分塊大小為8×8 時(shí)PTWR 獲得了最好的識(shí)別性能,因此,將在8×8 的分塊情況下考察m對(duì)PTWR 識(shí)別效果的影響。實(shí)驗(yàn)仍然以CMU PIE 為例,主分量個(gè)數(shù)m從1 開(kāi)始變化至8(對(duì)于8×8 的分塊,最大的m為8),得到不同m值對(duì)應(yīng)的PTWR 的識(shí)別結(jié)果。為了進(jìn)行性能比較,在圖9(b)中也給出了TWR 在m=40 時(shí)的性能。從實(shí)驗(yàn)結(jié)果可以看出,當(dāng)每塊保留主成分信息過(guò)少時(shí)(m=1),因?yàn)榇罅康男畔⒈粊G棄,所以對(duì)應(yīng)的識(shí)別效果并不理想;而當(dāng)保留所有主成分信息時(shí)(m=8),由于可能使用了包含隨機(jī)噪聲在內(nèi)的信息,從而影響了后續(xù)的分類操作。在8×8 的分塊情況下,m=2 時(shí)達(dá)到最優(yōu)的識(shí)別效果,并且在幾乎所有取值下(除m=8)PTWR 均獲得了比TWR 更好的性能。
本文首先證明了基于單張圖像的TWR 預(yù)處理與對(duì)單張圖像按列做ZCA 白化操作的等價(jià)性關(guān)系;然后在兩者等價(jià)性的基礎(chǔ)上,從去除圖像局部塊內(nèi)相關(guān)性的角度提出了基于重組的RTWR 算法;從盡可能提取原始圖像結(jié)構(gòu)信息和局部特征的角度,提出了基于塊的PTWR 算法。在ORL、CMU PIE 和AR 數(shù)據(jù)集上做了對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明,本文提出的RTWR 和PTWR 相對(duì)于TWR 對(duì)表情、光照、遮擋等影響因素具有更好的魯棒性。另外,還討論了子塊大小以及主成分個(gè)數(shù)對(duì)算法性能的影響。