張雪純,廖 亮,魏平俊
(中原工學(xué)院 電子信息學(xué)院,河南 鄭州 450007)
基于數(shù)據(jù)降維的特征提取和數(shù)據(jù)分析長期以來在機(jī)器學(xué)習(xí)和計(jì)算機(jī)視覺任務(wù)中扮演著十分重要的角色[1]。主成分分析(principal component analysis,PCA)是常用的特征提取方法之一。主成分分析算法在提取數(shù)據(jù)特征時(shí)需要對(duì)原始數(shù)據(jù)進(jìn)行向量化處理,然而簡單的圖像數(shù)據(jù)向量化往往會(huì)導(dǎo)致圖像像素鄰域約束的丟失。楊健等[2]提出了針對(duì)圖像的二維主成分分析(two-dimensional PCA,2DPCA)算法,并將其運(yùn)用于人臉數(shù)據(jù)集的識(shí)別中,較經(jīng)典PCA算法、2DPCA算法有更好的性能。在2DPCA算法的基礎(chǔ)上,張道強(qiáng)等[3]提出了雙向二維主成分分析(two-directional two-dimensional PCA,2D2PCA)算法,該算法可同時(shí)提取來自圖像行和列方向上的特征用于人臉數(shù)據(jù)集的識(shí)別,也取得了較好的效果。Chen等[4]提出了矩陣模式主分量分析(MatPCA)算法,這是一種針對(duì)圖像的直接對(duì)矩陣進(jìn)行特征提取的方法。此外,Wang等[5]提出了一種從給定數(shù)據(jù)中估計(jì)結(jié)構(gòu)子空間的張量列主成分分析(tensor train PCA,TT-PCA)算法,該算法保留了數(shù)據(jù)的低秩張量結(jié)構(gòu),對(duì)噪聲具有魯棒性,在公有圖像數(shù)據(jù)集上也驗(yàn)證了有效性。上述基于主成分的算法雖在一定程度上提高了經(jīng)典PCA算法的性能,但均未涉及像素空間約束信息。為了進(jìn)一步優(yōu)化PCA算法,提高圖像特征提取及圖像重建的質(zhì)量,本研究將PCA算法推廣為廣義主成分分析(tensorial principal component analysis,TPCA)算法[6-7],并使用TPCA算法對(duì)MNIST圖像集進(jìn)行特征提取和圖像重建,以給出廣義算法和經(jīng)典算法的定量比較。
對(duì)傳統(tǒng)PCA算法、廣義矩陣代數(shù)中的部分符號(hào)約定與基于廣義矩陣代數(shù)的TPCA算法的相關(guān)數(shù)學(xué)描述進(jìn)行介紹。
PCA是一種經(jīng)典的數(shù)據(jù)分析算法,常用于圖像特征提取及重建。由于圖像數(shù)據(jù)的冗余性,原始圖像信息通常可以通過正交變換映射到一個(gè)低維子空間上,從而達(dá)到提取原始圖像主要特征和壓縮信息的目的。經(jīng)典PCA算法可以借助矩陣的奇異值分解(singular value decomposition,SVD)來完成,具體步驟可以歸納如下:
設(shè)訓(xùn)練集由K個(gè)向量x1,x2,…,xK∈D構(gòu)成,并記訓(xùn)練向量的平均值為
(1)
則訓(xùn)練向量x1,x2,…,xK的協(xié)方差矩陣可由下式得出:
(2)
式中:G為對(duì)稱矩陣,即G=GT。矩陣G的奇異值分解由下式給出:
G=U·S·UT,
(3)
式中:U∈D×D為正交矩陣,滿足UT·U=U·UT=I(I為單位陣);S=diag(λ1,…,λD)∈D×D為對(duì)角矩陣,λ1,…,λD為奇異值。
(4)
如果要將向量yfeature∈D由D維降至d維,僅需要將向量yfeature的最后D-d個(gè)元素舍棄即可。
用特征向量yfeature和正交矩陣U重建向量yfeature∈D,可以由以下公式得到:
(5)
式中:(U):,1:d∈D×d為保留矩陣U的前d列子矩陣;(yfeature)1:d∈d為保留向量yfeature前d個(gè)元素的子向量。
廣義矩陣代數(shù)將由標(biāo)量作為元素的向量,矩陣擴(kuò)展為由廣義標(biāo)量作為元素的廣義向量、廣義矩陣,而廣義標(biāo)量的集合在循環(huán)卷積下形成代數(shù)環(huán)C,TPCA在廣義矩陣代數(shù)的基礎(chǔ)上擴(kuò)展了基于矩陣代數(shù)的PCA。文獻(xiàn)[7]將廣義標(biāo)量命名為“t-scalar”,本研究后續(xù)描述將沿用文獻(xiàn)[7]中的符號(hào)約定。表1為廣義矩陣代數(shù)的一些基本符號(hào)及其解釋。
表1 廣義矩陣代數(shù)的部分符號(hào)及其解釋Tab.1 Some symbols and explanations of T-algebra
表1(續(xù))
假設(shè)一組來自訓(xùn)練集的廣義向量XTV,1,XTV,2,XTV,3,…,XTV,K∈CD(K為訓(xùn)練集中廣義列向量的個(gè)數(shù),D為廣義向量中廣義標(biāo)量的個(gè)數(shù))。它們的廣義協(xié)方差矩陣可依照式(6)計(jì)算得出,式(6)如下:
(6)
(7)
式中:UTM,VTM∈CD×D≡I1×…×IN×D×D為廣義正交矩陣且滿足為廣義單位矩陣;STM=diag(λT,1,…,λT,D)∈CD×D為廣義對(duì)角陣,λT,1,…,λT,D為廣義特征值。
(8)
(9)
值得注意的是,若廣義標(biāo)量為0階數(shù)組,即I1=…=IN=1,廣義標(biāo)量退化為標(biāo)量,廣義矩陣退化為經(jīng)典矩陣,TPCA退化為經(jīng)典PCA算法。
傳統(tǒng)的PCA算法忽略了圖像中各像素之間的聯(lián)系,丟失了空間約束信息,針對(duì)傳統(tǒng)方法對(duì)像素空間約束信息描述的先天不足,本研究使用文獻(xiàn)[6-7]所描述的像素鄰域方法將各個(gè)像素?cái)U(kuò)展為復(fù)合像素形式的廣義標(biāo)量。具體地,可以將圖像中各像素周圍的鄰域像素作為一個(gè)尺寸為3×3的2階數(shù)組,即廣義標(biāo)量,而以廣義標(biāo)量作為復(fù)合像素的原灰度圖像隨之?dāng)U展為廣義矩陣。事實(shí)上,廣義標(biāo)量可以為任意尺寸和階數(shù)的數(shù)組,若進(jìn)一步擴(kuò)展廣義標(biāo)量的階數(shù),可以在現(xiàn)有范圍內(nèi)鄰域像素的基礎(chǔ)上,取每個(gè)鄰域像素周圍的鄰域像素,從而得到一個(gè)大小為3×3×3×3的4階廣義標(biāo)量。同理,廣義標(biāo)量可以繼續(xù)被擴(kuò)展為大小為3×3×3×3×3×3的6階數(shù)組。對(duì)圖像像素具體鄰域的擴(kuò)展如圖1所示。在圖1中,原始像素由一個(gè)標(biāo)量構(gòu)成,該原始像素周圍的方框區(qū)域所包含的鄰域像素構(gòu)成2階數(shù)組形式的廣義標(biāo)量,而方框2區(qū)域的像素是由方框1區(qū)域的第一個(gè)像素再次鄰域擴(kuò)展得到的,若對(duì)方框1區(qū)域內(nèi)的每個(gè)像素鄰域擴(kuò)展,即可得到4階數(shù)組形式的廣義標(biāo)量。按照這種方法,原始像素的鄰域可以擴(kuò)展為任意階數(shù)的廣義標(biāo)量。特別地,若所選取的像素鄰域范圍超出原始圖像,則由0填充。
圖1 手寫數(shù)字圖像“8”的像素鄰域擴(kuò)展方法Fig.1 The pixel neighborhood extension method of handwritten digital image "8"
通過對(duì)像素的鄰域擴(kuò)展,使得圖像可以保留一定范圍內(nèi)的空間約束信息,此時(shí)運(yùn)用TPCA完成對(duì)該廣義圖像的重建。具體步驟如下:
(1)圖像預(yù)處理
①假設(shè)訓(xùn)練集與測試集中的每幅圖像分辨率為D1×D2=D,其中訓(xùn)練集包含K個(gè)圖像Xk∈D1×D2,1≤k≤K,測試集圖像為Y∈D1×D2。將圖像中像素?cái)U(kuò)展為I1×I2大小的2階廣義標(biāo)量,使得圖像轉(zhuǎn)化為廣義矩陣XTM,k∈CD1×D2≡I1×I2×D1×D2,1≤k≤K,YTM∈CD1×D2≡I1×I2×D1×D2。
②將廣義矩陣XTM,k∈CD1×D2≡I1×I2×D1×D2,1≤k≤K,YTM∈CD1×D2≡I1×I2×D1×D2向量化,得到廣義向量XTV,k∈CD≡I1×I2×D,1≤k≤K,YTV∈CD≡I1×I2×D。
(2) 在空間域中廣義向量或廣義矩陣的循環(huán)卷積和共軛轉(zhuǎn)置等運(yùn)算可以轉(zhuǎn)換為傅里葉域中若干個(gè)向量或矩陣彼此獨(dú)立的線性運(yùn)算[6-8]。借助傅里葉變換對(duì)TPCA進(jìn)行快速運(yùn)算:
①將XTV,k∈CD,1≤k≤K,YTV∈CD傅里葉變換為廣義向量XFTV,k∈CD,1≤k≤K,YFTV∈CD,則XFTV,k∈CD,1≤k≤K,YFTV∈CD可以各自分解為I1×I2個(gè)切片:傳統(tǒng)向量XFTV,k(i1,i2,:)∈D,1≤k≤K,YFTV(i1,i2,:)∈D。
②利用切片XFTV,k(i1,i2,:)∈D,1≤k≤K,對(duì)切片YFTV(i1,i2,:)∈D進(jìn)行PCA重建,得到對(duì)應(yīng)的重建切片D。
(10)
式中:y∈D為重建前的測試集原始向量,y對(duì)應(yīng)的廣義重建向量的中心切片為表示向量的Frobenius范數(shù);D為向量y中的標(biāo)量個(gè)數(shù)(即原始圖像像素?cái)?shù)量);MAX為y中所有像素的最大可能值,MAX=255。
基于TPCA的向量重建算法如下:
輸入:廣義向量XTV,1,XTV,2,XTV,3,…,XTV,K,YTV∈CD≡I1×I2×D,其中廣義標(biāo)量尺寸為I1×I2。
①計(jì)算傅里葉變換XFTV,k←F(XTV,k),1≤k≤K,YFTV←F(YTV)。
② for 1≤i1≤I1do
③ for 1≤i2≤I2do
④計(jì)算協(xié)方差矩陣G:
⑤計(jì)算協(xié)方差矩陣G的奇異值分解:G=U·S·VH。其中,復(fù)數(shù)矩陣U∈D×D,S∈D×D,V∈D×D,VH表示復(fù)數(shù)矩陣V的共軛轉(zhuǎn)置。
⑦ end for
⑧ end for
本實(shí)驗(yàn)涉及的圖像來源于公開的手寫數(shù)字?jǐn)?shù)據(jù)庫MNIST。MNIST數(shù)據(jù)庫在各種圖像處理系統(tǒng)及機(jī)器學(xué)習(xí)領(lǐng)域的訓(xùn)練和測試中被大量使用[9-10]。MNIST數(shù)據(jù)庫中每張圖像都是分辨率為28×28的灰度圖,本研究的訓(xùn)練集采用類別為0~9的圖像各60張,共600張,測試集中包含類別為0~9的圖像各10張,共100張。
圖2 基于PCA和TPCA拼接矩陣的PSNRFig.2 Splicing matrix PSNR based on PCA and TPCA
表2 基于PCA和TPCA拼接矩陣的部分PSNR數(shù)據(jù)Tab.2 Splicing matrix PSNR based on PCA and TPCA dB
隨后又對(duì)比了在特征維數(shù)為250和500的條件下,測試集使用PCA和TPCA得到的100幅重建圖像的PSNR,見圖3和圖4。按照PCA的PSNR由小到大的順序,100幅圖像的序號(hào)被標(biāo)記為1~100,廣義標(biāo)量被擴(kuò)展為2階數(shù)組的TPCA用TPCA(2階廣義標(biāo)量)表示,TPCA(4階廣義標(biāo)量)表示廣義標(biāo)量為4階數(shù)組時(shí)的TPCA,廣義標(biāo)量為6階數(shù)組時(shí)用TPCA(6階廣義標(biāo)量)表示。圖3和圖4中廣義標(biāo)量取不同階數(shù)時(shí)部分重建圖像的PSNR如表3、表4所示。在特征維數(shù)為250的情況下,手寫數(shù)字“3”使用不同方法得到的重建圖像如圖5所示。由圖3至圖5及表3、表4可以觀察到,當(dāng)特征維數(shù)保持不變時(shí),基于TPCA的重建效果明顯好于PCA,且隨著廣義標(biāo)量階數(shù)的升高,TPCA的重建結(jié)果得到進(jìn)一步優(yōu)化。具體地,當(dāng)特征維數(shù)為250時(shí),TPCA(6階廣義標(biāo)量)的PSNR較PCA(0階廣義標(biāo)量)提高近20 dB;當(dāng)特征維數(shù)為500時(shí),TPCA(6階廣義標(biāo)量)的PSNR較PCA(0階廣義標(biāo)量)提高近30 dB。
圖3 特征維數(shù)為250時(shí)基于PCA和TPCA重建圖像的PSNRFig.3 PSNR of reconstructed image based on PCA and TPCA when the feature dimension is 250
圖4 特征維數(shù)為500時(shí)基于PCA和TPCA重建圖像的PSNRFig.4 PSNR of reconstructed image based on PCA and TPCA when the feature dimension is 500
表4 特征維數(shù)為500時(shí)基于PCA和TPCA重建圖像的部分PSNR數(shù)據(jù)Tab.4 PSNR of reconstructed image based on PCA and TPCA when the feature dimension is 500 dB
圖5 特征維數(shù)為250時(shí)手寫數(shù)字“3”在不同方法下的重建效果Fig.5 The reconstruction results of the handwritten digit "3" with feature dimension of 250 under different methods
為驗(yàn)證TPCA較PCA在特征提取和降維重建方面的性能優(yōu)勢,本研究進(jìn)行了灰度圖像的重建實(shí)驗(yàn)。結(jié)果表明:在相同條件下,TPCA算法與經(jīng)典PCA算法相比對(duì)圖像的重建效果更好,并且當(dāng)廣義標(biāo)量為6階數(shù)組時(shí),圖像重建結(jié)果又繼續(xù)得到優(yōu)化。此外,受圖像尺寸的限制,當(dāng)選取超出原始圖像范圍的像素鄰域時(shí),像素鄰域需由0填充;若所選取的鄰域像素都已為0,繼續(xù)增大廣義標(biāo)量的階數(shù)或尺寸就會(huì)增加冗余的圖像信息。