高紀東,王正群,夏 進
(揚州大學 信息工程學院,江蘇 揚州 225127)
隨著科學技術的不斷發(fā)展,圖像識別技術在計算機視覺和模式識別以及人工智能等領域受到了廣泛的關注,在生物識別、人臉檢測以及身份驗證等方面擁有廣闊的應用前景。然而,采集的圖像會受到多種不穩(wěn)定因素的影響,導致系統(tǒng)識別性能受到干擾[1]。近年來,隨著壓縮感知理論[2]的發(fā)展,使得稀疏表示受到了廣泛的關注。Wright等人[3]首先提出基于稀疏表示分類(sparse representation classification,SRC)的識別算法,該算法利用測試樣本和訓練樣本之間的重構殘差進行樣本的識別分類,在一定程度上,該算法提高了人臉識別的性能。隨后,Wagner等人[4]提出一種新的稀疏表示算法。該算法在不同光照下采集訓練樣本,提高了人臉識別效果,但算法復雜性高。雖然稀疏表示理論提供了一種新的特征提取模式,但傳統(tǒng)的稀疏表示算法容易忽視樣本間的距離相似性。對此,F(xiàn)an等人[5]提出一種加權稀疏表示(weighted sparse representation classification,WSRC)的識別算法,將訓練樣本和測試樣本的距離作為訓練樣本的權重,利用加權訓練樣本對測試樣本進行表示并分類。該方法在解的稀疏性上優(yōu)于上述稀疏表示算法,但算法耗時且不符合實時性要求。Wang等人[6]提出基于自步學習的加權稀疏表示算法,一方面剔除與測試樣本相差較大的訓練樣本,另一方面考慮了樣本的局部信息,提高了穩(wěn)定性,但在模型學習過程中較依賴數(shù)據(jù)標簽。
Dalal等人[7]提出一種基于HOG特征的行人檢測算法,指出HOG算子可以有效提取行人圖像的局部梯度和方向信息,描述行人圖像的局部特征和外部輪廓,提高行人檢測識別效率。而Zhao等人[8]將稀疏表示和HOG特征提取相融合,提出基于稀疏表示和HOG特征的掌紋識別方法,該方法降低了算法的復雜度,一定程度上提高了識別性能。近年來,HOG算子被廣泛應用于特征提取方面并取得了很好的效果。但在對HOG特征的相關研究中,往往是簡單的將HOG特征應用到人臉的全局特征和局部特征中,并沒有考慮到光照等不同噪聲因素以及對人臉識別效果造成的影響。
為了提高系統(tǒng)的識別效果,該文提出一種基于隨機投影[9]和HOG特征提取的加權稀疏表示算法(weighted sparse representation algorithm based on random projection and hog feature extraction,RPH-WSRC)。該算法首先利用HOG算子對圖像進行特征提取,清晰地描述出圖像的局部信息;其次,引入隨機投影矩陣對得到的樣本進行多次投影,充分挖掘數(shù)據(jù)樣本潛在的信息,保持樣本的結構信息[10];最后,RPH-WSRC算法將訓練樣本和測試樣本之間的相似性作為權重,設計加權稀疏表示方法。在多次隨機投影的過程中,會產(chǎn)生多個樣本殘差,將同類別的樣本殘差融合得到穩(wěn)定性更高的殘差和,從而實現(xiàn)更加穩(wěn)定和魯棒的人臉識別效果。
方向梯度直方圖(histogram of oriented gradient,HOG)根據(jù)圖像輪廓處的梯度方向的直方圖提取圖像的特征,通過提取圖像中的關鍵信息進而簡化圖像。因此HOG特征是描述圖像特征局部信息的一種非常有效的方法[11]。Dalal等人首次將HOG算子用于行人圖像中,提出基于HOG特征的行人檢測算法,并將其與分類器配合,用于行人檢測。近年來,很多學者將HOG算子用于人臉檢測識別[12],并且提高了人臉圖像的識別性能。
方向梯度直方圖是一種非常有效的圖像特征描述子,其主要目的就是將圖像進行灰度化、歸一化以及梯度計算,從而統(tǒng)計圖像的梯度信息[13]。由于方向梯度對部分噪聲相當敏感,而高斯平滑濾波器可以平滑帶有噪聲的圖像,并且可以去除圖像中的噪聲[14],故在該算法中引入高斯函數(shù),利用高斯函數(shù)對圖像進行卷積,獲得水平和垂直兩個方向的梯度。以下為HOG特征提取的步驟:
(1)將原始圖像進行灰度化、歸一化處理。
(2)分別計算處理后的圖像中的每個像素梯度方向和幅值大小。
(1)
其中,Ix,Iy和H(x,y)分別為像素點的水平梯度、垂直梯度和像素值。
(2)
其中,M(x,y)為梯度的幅值大小,θ(x,y)為像素的梯度方向。加入高斯函數(shù)后獲得新的水平和垂直梯度為:
(3)
其中,G為高斯函數(shù),I為圖像的灰度圖。Gx,Gy為高斯函數(shù)在水平和垂直方向上的一階導數(shù),F(xiàn)x(x,y)和Fy(x,y)為經(jīng)過高斯函數(shù)平滑后的圖像水平和垂直方向的梯度。
(4)
(3)將圖像劃分為同等大小的細胞單元(cell)。
(4)將360度分為9個區(qū)域,即圖像的直方圖分為9個bin,將每一個cell的幅值按梯度方向對應的區(qū)域進行累加,然后統(tǒng)計每一個cell的bin,最后統(tǒng)計出該cell的直方圖,形成每一個cell的HOG特征。
(5)將幾個cell合成一個block,把一個block內(nèi)的所有cell的HOG特征串聯(lián)起來歸一化便得到該block的HOG特征。
(6)將所有block的HOG特征串接起來作為整幅圖像的HOG特征。
傳統(tǒng)的稀疏表示是利用訓練樣本和測試樣本間的重構殘差來判斷測試樣本的類別,雖然在一定程度上識別效果有所提升,但是在不同影響因素下,同一類人臉圖像差異很大,使得僅靠單一的殘差判斷測試樣本的所屬類別的方法變得不可靠。因此,該文在加權稀疏表示的基礎上引入隨機投影矩陣,獲得多個殘差,利用殘差和識別分類。
隨機投影(random projection,RP)是一種有效的降維方法,在降低維數(shù)的同時,能夠保持數(shù)據(jù)的結構特性,并且能夠在一定程度上降低樣本的噪音,而且不依賴數(shù)據(jù)樣本,投影矩陣能夠隨機產(chǎn)生。因此將隨機投影引入稀疏表示中,更能夠提高其識別效率。
隨機投影用來降維和數(shù)據(jù)投影的理論依據(jù)來源于 Johnson-Lindenstrauss定理[15]。該定理指出:對任意常數(shù)0<ε<1和任意正整數(shù)n,設k是一個正整數(shù),有:
k≥4(ε2/2-ε3/3)-1lnn
(5)
那么對于任意Rd空間中的n個點構成的集合V,始終存在一個映射f:Rd→Rk使得對所有的u,v∈V,有:
(6)
其中,ε為隨機投影誤差,是一個正常數(shù),即 0<ε<1。該定理表示任意n維樣本可以通過隨機矩陣R∈Rd×q映射至d維空間。
將測試樣本和訓練樣本進行多次隨機投影,進而得出投影后的訓練樣本和測試樣本,利用高斯核函數(shù)計算測試樣本和訓練樣本間的相似度作為稀疏系數(shù)的權重,進而進行稀疏表示識別分類,在很大程度上降低了系統(tǒng)的計算量。RPH-WSRC算法的具體步驟如下:
(2)引入隨機投影矩陣Q。利用隨機投影矩陣將訓練樣本和測試樣本迭代T次,T≥2。假設第t次樣本的投影的隨機矩陣為Qt∈Rd×q,其中d (7) (3)計算權重。在進行第t次迭代時利用高斯核函數(shù)計算測試樣本和每一個訓練樣本的相似性,即權重為: (8) yt=Xta (9) 其中,a=(0,0,…,ai1,ai2,…,ain,…,0,0),表示與第i類樣本同類的稀疏系數(shù)不為0,不同類樣本的系數(shù)為0,此時根據(jù)稀疏系數(shù)a中的分布就可以判別出測試樣本屬于訓練樣本中的哪一類。 (5)引入權重,構造新的稀疏系數(shù),即: (10) (6)求解L0最小化問題: (11) (12) (13) 此時第t次隨機投影及稀疏表示結束。 (8)計算迭代t次以內(nèi)的同類樣本的重構殘差和。當樣本迭代T次,產(chǎn)生T個隨機投影矩陣時,會進行多次稀疏表示,并且每個樣本經(jīng)過迭代后得到該樣本對應的重構誤差,并且經(jīng)過t次迭代后的誤差之和為: (14) (15) 其中,identity(y)為測試樣本y所屬的類別。當?shù)趖-1次和第t次的識別結果相同或者t=T時,迭代結束。 算法:基于隨機投影和HOG特征提取的加權稀疏表示算法。 (1)提取特征圖像。提取每一個訓練樣本和測試樣本的HOG特征圖像。經(jīng)過處理后的訓練樣本為X={x1,x2,…,xc}∈Rq×n,測試樣本為y。 (2)將訓練樣本中的每一列進行歸一化。 (4)計算權重。利用等式(8)計算第t次迭代時測試樣本和每一個訓練樣本間的相似性,即權重。 (5)利用式(10)計算加權后的稀疏系數(shù)。 (6)利用式(13)計算第i次迭代時測試樣本和每一個訓練樣本的殘差。 (7)通過式(14)計算t次迭代過程的重構殘差之和。 (8)當?shù)趖-1次和迭代t次的結果相同,即identity(y)t-1=identity(y)t時,停止迭代或當t=T時,停止迭代。此時通過式(15)來判斷測試樣本的類別。 該實驗在兩個常用的數(shù)據(jù)集上進行,即ORL以及GT人臉數(shù)據(jù)庫。為驗證該算法的有效性,將RPH-WSRC與PCA-SRC[16]、WSRC以及HOG-SRC[8]算法進行對比。在人臉數(shù)據(jù)集中分別加入均值為0、方差為0.1的高斯噪聲以及密度為0.1的椒鹽噪聲,進行仿真實驗,檢驗該算法的可行性。 ORL人臉數(shù)據(jù)庫:該數(shù)據(jù)集共有400張圖像,其中包含40組人臉圖像,每組圖像由10張圖像組成,在不同角度不同環(huán)境不同面部表情方面各不相同,并且每張圖像尺寸大小為112×92。圖1展示了ORL數(shù)據(jù)集部分人臉圖像和添加高斯噪聲后的人臉圖像,以及添加椒鹽噪聲后的人臉圖像。在每組圖像中選取T(T=4)幅人臉圖像作為訓練樣本,剩下的作為測試樣本。對每組實驗分別重復進行10次,取10次實驗的平均識別率,比較在不同維度下幾種算法的識別率,結果如表1所示。 圖1 ORL數(shù)據(jù)集下添加噪聲的人臉圖像 表1 ORL庫上各算法在不同噪聲下的平均識別率 % 表1展示了PCA-SRC、WSRC、HOG-SRC以及RPH-WSRC的實驗結果??梢钥闯觯闹蟹椒≧PH-WSRC在是否存在噪聲的情況下均有很好的識別效果。當訓練樣本相同時,在無噪聲的情況下,RPH-WSRC分別高了16.10%、13.26%和11.16%。當樣本加入不同類型的噪聲后,各算法的識別率均受到不同程度的影響,但RPH-WSRC算法的平均識別率仍能達到最高,說明RPH-WSRC算法具有較強的抗干擾能力。另外在本次實驗中,文中算法與WSRC算法的識別率總是高于PCA-SRC的,說明對PCA-SRC給予合適的權值確實能提高人臉識別率;而WSRC算法識別率略低于HOG-SRC方法,說明提取局部特征在一定程度上更有利于識別分類。從表1的結果進一步表明,RPH-WSRC算法在局部特征的提取以及識別方面都有很大的提高。 圖2為在ORL數(shù)據(jù)集下各算法的識別率曲線。從圖中可以看出,在總體上,幾種算法的識別率隨著特征維數(shù)的增加呈上升趨勢,最后逐漸走上穩(wěn)定趨勢,雖有一些波動,說明并不是所有的特征都有利于分類識別。在對人臉圖像添加噪聲后,圖像受到污染遮擋,但RPH-WSRC算法識別率高于其他算法,說明文中算法對噪聲具有一定程度的魯棒性。 圖2 ORL數(shù)據(jù)集下的各算法實驗識別率曲線 GT人臉數(shù)據(jù)庫[17]:Georgia Tech database(GT)數(shù)據(jù)庫包含50組人臉圖像,每組包含不同表情不同姿勢的15組圖像,共750幅圖像,并且將圖像尺寸大小調(diào)整為120×80。圖3展示了GT數(shù)據(jù)集部分人臉圖像和添加高斯噪聲后的人臉圖像,以及添加椒鹽噪聲后的人臉圖像。對每組實驗分別進行10次,取10次實驗的平均識別率,比較在不同維度下幾種算法的識別率,結果如表2所示。 圖3 GT數(shù)據(jù)集下添加噪聲的人臉圖像 表2 GT庫上各算法在不同噪聲下的平均識別率 % 表2展示了各算法在GT人臉數(shù)據(jù)庫上的平均識別率,由于GT人臉數(shù)據(jù)庫中的同類樣本間在笑的程度、是否扭頭以及扭頭的程度和光照強度上有很大的差異,導致各算法在GT人臉數(shù)據(jù)庫上的平均識別率要遠遠小于在ORL數(shù)據(jù)庫上的識別率。該實驗是選取T(T=6)幅圖像作為訓練樣本,其余的為測試樣本。在表2中可以看出,文中算法要優(yōu)于其他幾種算法;雖然稀疏表示對噪聲具有一定的魯棒性,但當圖像遭受的損壞程度較大時,則識別效果會下降很多,而HOG-SRC算法對光照具有很好的魯棒性,其識別效果會優(yōu)于單獨的稀疏表示。而文中算法的識別率比其他幾種算法高,說明了RPH-WSRC算法對一些被損壞程度較大的圖像有著更好的識別效果。圖4為各算法在不同噪聲下的識別率曲線,可以看出RPH-WSRC的識別率保持最高,其抗噪聲能力均優(yōu)于其他幾種算法。 圖4 GT數(shù)據(jù)集下各算法的識別率曲線 為了提高人臉圖像對光照等外界因素的魯棒性,該文提出一種基于隨機投影和HOG特征提取的加權稀疏表示算法RPH-WSRC。該算法首先對圖像進行預處理并利用HOG算子對原始圖像進行特征提取,之后,利用隨機矩陣對得到的樣本圖像進行多次投影,用來挖掘數(shù)據(jù)信息,保持樣本結構信息;最后考慮樣本之間的相似性,將這種相似性作為稀疏系數(shù)權重,利用同類別樣本的殘差和最小值判斷測試樣本類別。在ORL人臉數(shù)據(jù)庫和GT人臉數(shù)據(jù)庫上的實驗證明,該方法不僅有較好的局部特征提取能力,而且在噪聲的干擾下也有很好的魯棒性。3 實 驗
3.1 ORL人臉數(shù)據(jù)庫實驗
3.2 GT人臉數(shù)據(jù)庫實驗
4 結束語