陳柯鑫,范麗亞
(聊城大學 數(shù)學科學學院,山東 聊城 252059)
對高維噪聲(光暗、有遮擋)圖像的識別任務,清洗圖像以及抽取圖像的有效特征是高質量完成任務的關鍵。圖像特征抽取的本質是找到高維圖像有意義的低維表示。近年來,有關圖像特征抽取方法的研究成果頗豐,如:主成分分析(Principal Component Analysis,PCA)[1]、線性判別分析(Linear Discriminant Analysis,LDA)[2]、典型相關分析(Canonical Correlation Analysis,CCA)[3,4]等。PCA和LDA主要是針對圖像的一組特征進行抽取的,而CCA考慮了圖像兩組特征間的線性相關性。 但利用CCA進行圖像特征抽取時首先需要將圖像重塑為向量數(shù)據(jù),這種重塑可能會破壞圖像的空間結構,丟失圖像的判別信息以及造成“維數(shù)災難”。 為了解決這一問題,孫權森[5]于2006年提出了單向二維CCA(One-directional Two-dimensional CCA,2D-CCA),它直接利用圖像(矩陣數(shù)據(jù))作為輸入,而不需要將其重塑為向量數(shù)據(jù)。與CCA相比,2D-CCA中所構造的協(xié)方差矩陣的維數(shù)明顯下降,這大大降低了2D-CCA的計算成本[6]。 近年來2D-CCA也得到了廣泛的應用,如多分辨率SAR圖像目標識別[7]、fMRI數(shù)據(jù)分析[8]等。 CCA和2D-CCA是模型矩陣CCA(Model Matrix CCA,M-CCA)的兩種不同解決方案,2D-CCA是M-CCA中權矩陣Wx與Wy的秩為1的情況[9]。類似于經典CCA,2D-CCA也存在累計貢獻率(Cumulative Contribution Rate,CCR)如何選取的問題。CCR決定著降維子空間的維度,貢獻率越高,維度越大,計算成本也越高,但識別精度并不一定越好。
目前,針對高維噪聲(光暗、有遮擋)圖像的識別任務,為了達到高識別度,常用兩類特征抽取方法,一類主要用于降低圖像中的噪聲(降噪),但起不到降維作用; 另一類主要用于降維,減少計算成本,但降噪作用不明顯。Fang等人[10]于2017年首次提出了基于偏微分方程組(Partial Differential Equations,PDEs)的圖像特征提取方法(簡稱Fang方法),該方法主要用于降低圖像中的噪聲,沒有降維作用。 江等人[11]研究了Fang方法中PDEs的進化次數(shù)以及壓縮函數(shù)的壓縮速度對圖像特征提取的影響。雷等人[12]研究了Fang方法中PDEs的進化次數(shù)對經典CCA中CCR的影響,王等人[13]研究了Fang方法中PDEs對PCA,LDA,CCA以及監(jiān)督CCA四種經典數(shù)據(jù)降維方法的影響。此外,江[14]等人還研究了Fang方法中PDEs的進化對正則化支持向量機(Regularized Support Vector Machine,RSVM)中模型參數(shù)的影響。上述研究均為PDEs的應用以及PDEs與一維典型相關分析的結合,并沒有規(guī)避掉CCA的缺點。
為解決基于PDEs的CCA算法仍會破壞圖像的空間結構,造成“維數(shù)災難”這一問題,本文提出了將PDEs與單向二維典型相關分析結合的一體化學習算法,著重研究PDEs(作為降噪工具)對單向2D-CCA(作為降維工具)中CCR的影響,其中以SVM[15](針對二類圖像集)和一對余多類SVM[16](One-versus-Rest Multi-class SVM,OVR-MSVM,針對多類圖像集)作為識別器,以識別精度作為衡量標準。通過在AR人臉數(shù)據(jù)集和FRGCv數(shù)據(jù)集上的大量實驗以及與雷等人所提出算法的對比實驗表明:(1) PDEs的進化不僅可以弱化CCR的選擇,甚至可以不用考慮其選取,基本上通過不超過5次的PDEs進化即可達到同等條件下的最佳識別精度;(2) 與雷等人所提算法相比,達到最佳識別精度所需PDEs的進化次數(shù)明顯減少,且最佳識別精度明顯提高。
本節(jié)簡要回顧2D-CCA,詳細內容見文獻[5,6]。2D-CCA面向行數(shù)相同或列數(shù)相同的兩組矩陣數(shù)據(jù)集,本文只考慮行數(shù)相同列數(shù)不同的情況,用類似的方法可以討論列數(shù)相同行數(shù)不同的情況。
(1)
記
顯然Cxx,Cyy是對稱非負定陣且
于是,模型(1)可轉化為
(2)
由于模型(2)不受范數(shù)‖wx‖,‖wy‖的影響,所以可等價表示為
(3)
(4)
為了避免矩陣Cxx和Cyy的奇異性,將其正則化,即用Cxx+tIp×p替代Cxx,用Cyy+tIq×q替代Cyy,其中t≥0是正則化參數(shù)。若Cxx或Cyy是非奇異陣,則對應的t=0。于是由(4)式可得廣義特征方程
Cxy(Cyy+tIq×q)-1Cyxwx=λ2(Cxx+tIp×p)wx。
(5)
為了求解方程(5),對矩陣Cxx+tIp×p進行特征值分解(Eigen Value Decomposition,EVD):Cxx+tIp×p=U∑xUT,其中U∈Rp×p是正交陣,∑x=diag(σ1,…,σp)且σ1≥…≥σp>0是Cxx+tIp×p的全部非零特征值。
記
可得
(6)
設rank(B)=r≤min{p,q}。并對B進行奇異值分解(Singular Value Decomposition,SVD)
其中P=[P1,P2]∈Rp×p,Q∈Rq×q是正交陣,∑B=diag(ξ1,…,ξr),ξ1≥…≥ξr>0是B的所有非零奇異值且P1=[p1,…,pr]∈RP×r, 于是
(7)
下面給出具體算法。
算法1 (2D-CCA)
步2對矩陣Cxx+tIp×p進行EVD:Cxx+tIp×p=U∑xUT,其中U,∑x,σ1≥…≥σp>0如上所述。
步4對矩陣B進行SVD:B=[P1∑B,0]QT,其中P1,∑B,ξ1≥…≥ξr>0如上所述。
從算法1中可以看出,CCR影響著降維特征集的維度,CCR越大,降維特征集的維度也越高,反之亦然。 降維特征集的維度又影響著算法的計算成本和圖像的識別精度。因此,如何選擇合理的CCR是一個急需解決的問題。
本節(jié)簡要回顧作為二類數(shù)據(jù)分類器的線性SVM和作為多類數(shù)據(jù)分類器的線性OVR-MSVM,詳細內容見文獻[15,16]。
(8)
(9)
算法2 (線性SVM)
B H Jia acknowledges the support from Australian Research Council and Defence Institute Australia.
步5構造分類決策函數(shù)f(x)=
分別表示總體樣本矩陣、第i類樣本矩陣和去掉第i類的剩余樣本矩陣,顯然X可表示為X=[X1,…,XK]。
和
(10)
算法3 (線性OVR-MSVM)
本節(jié)首先簡要回顧如何利用PDEs進行圖像特征提取(詳細內容見文獻[10]),然后討論PDEs的進化對2D-CCA中CCR的影響。
(11)
目前大多數(shù)的降噪技術和降維技術大都是獨立進行學習的,很少進行一體化學習。 雷等人提出的基于PDEs的CCA方法雖然可以對圖像進行降噪降維處理,但需將圖像拉長為向量,這種拉長不僅會破壞圖像的幾何結構,而且可能導致“維度災難”,增加算法的計算復雜度。本節(jié)以PDEs為降噪工具,以單向2D-CCA為降維工具,以SVM或OVR-MSVM為識別器,以識別精度為標準,對2D-CCA和PDEs進行一體化學習,并研究PDEs的進化對單向2D-CCA中CCR的影響。具體思路見圖1所示。
圖1 2D-CCA和PDEs的一體化學習路徑
下面給出具體算法。
算法4 (2D-CCA和PDEs的一體化學習)
步6利用識別器進行識別,得識別精度。若識別精度不理想,置N←N+1,轉步2; 否則,輸出結果。
本節(jié)通過實驗驗證了算法4的有效性。采用六折交叉驗證法,即將全部樣本隨機分為六份,取五份作為訓練集,剩余一份作為測試集,循環(huán)六次,取平均精度。CCR分別取為不小于0.8,0.85,0.9,0.95和1五種情況(具體計算結果見表1-6中括號部分)。PDEs的進化次數(shù)N≤8且不考慮壓縮函數(shù)的影響,即取g(x)=x。所有實驗都在AR人臉數(shù)據(jù)集[17]和FRGCv數(shù)據(jù)集[18]上完成。
4.1.1 數(shù)據(jù)集的構成。AR人臉數(shù)據(jù)集包括100個人(男50人,女50人)的2600張面部圖像,每人26張,每張圖像的尺寸為50×40。每人的圖像包括正面視圖、具有不同的面部表情的圖像和不同照明和遮擋(太陽眼鏡和圍巾)條件下的圖像。 隨機選取8人(見圖2)構成4個二類圖像集,隨機選取9人(見圖3)構成3個三類圖像集。
圖2 基于AR人臉數(shù)據(jù)集的4個二類圖像集
圖3 基于AR人臉數(shù)據(jù)集的3個三類圖像集
4.1.2 實驗與結果分析。下面的表1和表2分別是二類圖像集和三類圖像集的實驗結果,其中N=0表示沒有經過PDEs的進化,只是利用單向2D-CCA進行了降維。
表1 二類圖像集的實驗結果(線性SVM作為識別器,C=0.5)
表2 三類圖像集的實驗結果(線性OVR-MSVM作為識別器,C=0.5)
從表1和表2中可以看出,無論CCR的取值如何,最多經過3次PDEs進化,識別精度就能達到最優(yōu),甚至達到1,最低也能提高20%以上。
4.2.1 數(shù)據(jù)集的構成。FRGCv數(shù)據(jù)集包括466個人的4007張面部圖像,每張圖像的尺寸為64×64。隨機抽取8人的面部圖像構成4組二類圖像集(見圖4),隨機抽取9人的面部圖像構成3組三類圖像集(見圖5)。為了便于比較,識別器的模型參數(shù)均取為102。
圖4 FRGCv數(shù)據(jù)集中的4組二類圖像集
圖5 FRGCv數(shù)據(jù)集中的3組三類圖像集
4.2.2 實驗與結果分析。下面的表3和表4分別是二類圖像集和三類圖像集的實驗結果,其中N=0表示沒有經過PDEs的進化,只是利用單向2D-CCA進行了降維。
表3 二類圖像集的實驗結果(線性SVM作為識別器,C=102)
從表3和表4中可以看出,無論CCR的取值如何,最多經過5次PDEs進化,識別精度就能達到最優(yōu)。 對二類圖像集來說,精度最低提高了24.6%,最高提高了63.81%。對三類圖像集來說,精度最低提高了56.4%,最高提高了64.58%。
從上述一系列實驗可以看出,PDEs的進化不僅可以提高圖像的識別精度,而且可以弱化CCR的選擇對識別精度的影響,甚至不用考慮CCR的選擇問題,通過不超過5次的PDEs進化即可達到最優(yōu)識別精度。
表4 三類圖像集的實驗結果(線性OVR-MSVM作為識別器,C=102)
為進一步證實該算法的優(yōu)越性,本節(jié)將本文提出的算法與CCA算法、2D-CCA算法和雷等人提出的基于PDEs的CCA算法進行對比實驗.結合前兩節(jié)與文獻[10]中的結論,本實驗僅進行5次的PEDs進化。
4.3.1 數(shù)據(jù)集的構成。本實驗仍在AR數(shù)據(jù)集上進行,隨機選取8人(見圖6)構成4個二類圖像集,隨機選取9人(見圖7)構成3個三類圖像集。
圖6 基于AR人臉數(shù)據(jù)集的4個二類圖像集
圖7 基于AR人臉數(shù)據(jù)集的3個三類圖像集
4.3.2 實驗與結果分析。下面的表5和表6分別是二類圖像集和三類圖像集的實驗結果,其中N=0表示沒有經過PDEs的進化,只是利用一維CCA或單向2D-CCA進行了降維。
表5 二類圖像集的實驗結果(線性SVM作為識別器,C=0.5)
從表5和表6中可以看出,基于PDEs的CCA算法和單向2D-CCA算法均可提高圖像的識別精度,而且可以弱化CCR的選擇對識別精度的影響,甚至不用考慮CCR的選擇問題。但相比之下本文提出的算法可以在PDEs進化次數(shù)更少的情況下獲得更好的識別精度,甚至可達100%的識別精度。
表6 三類圖像集的實驗結果(線性OVR-MSVM作為識別器,C=0.5)
對于噪聲圖像的識別問題,降噪和降維是兩個極其重要的環(huán)節(jié)。目前大多數(shù)的降噪技術和降維技術都是獨立進行學習的,很少進行一體化學習。雷等人提出的基于PDEs的CCA方法雖然可以同時對圖像進行降噪降維處理,但需將圖像拉長為向量,這種拉長不僅破壞了圖像的幾何結構,而且可能導致“維度災難”,增加算法的計算復雜度。本文提出的2D-CCA和PDEs一體化學習算法是雷方法的改進和擴展,彌補了雷方法中的缺陷。同時研究了PDEs的進化對選擇2D-CCA中CCR的影響。實驗結果表明PDEs的進化可以弱化CCR的選擇問題,甚至不用考慮這一問題,且識別精度明顯優(yōu)于雷等人提出的算法,同時所需的PDEs的進化次數(shù)也明顯少于雷等人所提算法。在本文的基礎上可以考慮PDEs對雙向2D-CCA中CCR的影響,這將是我們的下一步工作。