夏百戰(zhàn),駱 昊
(電子科技大學(xué)中山學(xué)院,廣東 中山 710119)
隨著人工智能技術(shù)的不斷進(jìn)步,計(jì)算機(jī)視覺已經(jīng)廣泛涉及到人臉識別、手勢識別等智能應(yīng)用中,其中人體目標(biāo)檢測[1]受到廣大學(xué)者的關(guān)注。人類希望計(jì)算機(jī)視覺可以自主識別人體日常動作,使計(jì)算機(jī)與人類的交流更加自然,當(dāng)下人體目標(biāo)檢測主要應(yīng)用在人機(jī)交互、智能安防等領(lǐng)域。
為了對人體目標(biāo)進(jìn)行準(zhǔn)確的檢測與識別,國內(nèi)外的研究人員提出了多種目標(biāo)檢測方法。文獻(xiàn)[2] 采用改進(jìn)的光流算法通過時間與空間的變化對運(yùn)動目標(biāo)環(huán)境做出快速標(biāo)記,通過對目標(biāo)區(qū)域滑動窗口的檢測完成人體各部位的匹配,并利用樹形結(jié)構(gòu)對人體目標(biāo)進(jìn)行建模,實(shí)現(xiàn)對運(yùn)動目標(biāo)的識別,結(jié)果表明該方法識別的準(zhǔn)確率較高,但對運(yùn)動目標(biāo)的特征提取效果不好。文獻(xiàn)[3]通過使用特征保留層來提高人體目標(biāo)識別的穩(wěn)定性,并增加了人體目標(biāo)特征約束項(xiàng)和正規(guī)化對目標(biāo)函數(shù)進(jìn)行優(yōu)化,為了使樣本在模糊前與特征映射一致,采用減小特征目標(biāo)函數(shù)值的方法,結(jié)果表明該方法大大提高了目標(biāo)的識別率,但泛化能力較差。文獻(xiàn)[4]為了降低模型參數(shù)與卷積神經(jīng)網(wǎng)絡(luò)的運(yùn)算量,重新構(gòu)建了目標(biāo)識別網(wǎng)絡(luò)模型,通過在識別模型中加入多空間金字塔模塊的方法提高目標(biāo)識別精度,并利用通道極限壓縮方法降低冗余參數(shù),提高計(jì)算速度,結(jié)果表明該方法明顯提高了目標(biāo)的預(yù)測速度,但精度損失較大。
基于以上研究,針對移動人體目標(biāo)的檢測問題,本文提出一種基于B2DPCA與神經(jīng)網(wǎng)絡(luò)相結(jié)合的算法。通過增加特征函數(shù)的特征保留項(xiàng),使清晰圖像與模糊圖像具有相似特征,完成特征保留層的學(xué)習(xí),并對特征學(xué)習(xí)重構(gòu)誤差優(yōu)化處理,得出適合分類的左右投影矩陣,驗(yàn)證人體目標(biāo)檢測識別的正確性。
神經(jīng)網(wǎng)絡(luò)是一種典型的深度學(xué)習(xí)模型,其具有較高的識別率,能在不影響視野的情況下對映射函數(shù)非線性進(jìn)行修改,并可通過多層結(jié)構(gòu)自主學(xué)習(xí)圖像中的特征[5]。本文以神經(jīng)網(wǎng)絡(luò)模型為核心,在剩余網(wǎng)絡(luò)層中建立較大的學(xué)習(xí)率進(jìn)行訓(xùn)練,通過小學(xué)習(xí)率調(diào)整神經(jīng)網(wǎng)絡(luò),并將圖像訓(xùn)練的結(jié)果作為參數(shù),訓(xùn)練網(wǎng)絡(luò)模型。通過圖像特征保留項(xiàng)減小模糊圖像與清晰圖像間的特征差距,實(shí)現(xiàn)網(wǎng)絡(luò)模型圖像的特征保留。當(dāng)識別的模糊圖像通過神經(jīng)網(wǎng)絡(luò)模型特征表達(dá)后與清晰圖像特征相近時,通過softmax進(jìn)行辨別,使模糊圖像具有較高的辨別率,從而獲得人體目標(biāo)的識別結(jié)果。
神經(jīng)網(wǎng)絡(luò)由網(wǎng)絡(luò)結(jié)構(gòu)、卷積池化層、全連接層、特征保留層以及softmax判別層組成。為了避免圖像識別的過度擬合,將網(wǎng)絡(luò)權(quán)重加載到前幾層的網(wǎng)絡(luò)結(jié)構(gòu)中,并通過小學(xué)習(xí)速率對全連接層與特征保留層做出微調(diào)整。由于目標(biāo)函數(shù)是神經(jīng)網(wǎng)絡(luò)擬合數(shù)據(jù)過程中的重要指標(biāo)[6],因此本文對目標(biāo)函數(shù)的多項(xiàng)式回歸方程進(jìn)行優(yōu)化,使其滿足模糊圖像分布。優(yōu)化目標(biāo)函數(shù)過程中,使特征保留方向呈降低趨勢,可以使最終解滿足圖像識別數(shù)據(jù)的真實(shí)分布。
假定訓(xùn)練樣本及其對應(yīng)的標(biāo)簽分別為X={xi}和Y={yi},yi表示樣本的真實(shí)標(biāo)簽向量,除了一個為1的元素外,其余都為0元素。通過輸入目標(biāo)可對{X,Y}進(jìn)行訓(xùn)練,得出神經(jīng)網(wǎng)絡(luò)模型,那么特征保留層和softmax判別層的輸出結(jié)果可表示為
(1)
其中,Bret_i和Bdis_i分別表示特征保留層和softmax判別層的網(wǎng)絡(luò)權(quán)重;A2(xi)表示softmax判別2層的輸出;Cret和Cdis分別表示特征保留層和softmax判別層的網(wǎng)絡(luò)偏置。
在訓(xùn)練樣本和對應(yīng)標(biāo)簽已知的情況下,神經(jīng)網(wǎng)絡(luò)模型不僅要減少訓(xùn)練數(shù)據(jù)集上的誤差率,還要具備任意樣本的特征保留能力。本文將模糊圖像xi與清晰圖像yi的距離作為特征保留的約束條件,于是新的學(xué)習(xí)目標(biāo)函數(shù)可表示為
(2)
其中,S(X,Y)表示softmax損失函數(shù);αE(xi,yi)表示特征保留約束項(xiàng);α和β表示權(quán)衡參數(shù)。為了使損失函數(shù)最小,softmax損失函數(shù)表示為
(3)
其中,N表示樣本個數(shù)。特征保留約束項(xiàng)可使原來的圖像樣本與處理后的樣本具有相似的特性。通過對特征保留約束項(xiàng)的定義,減小模糊圖像與清晰圖像樣本的特征誤差,特征保留約束項(xiàng)展開后的公式可表示為
(4)
為了對圖像數(shù)據(jù)進(jìn)行優(yōu)化,采用隨機(jī)梯度下降方法表示為
(5)
為了增強(qiáng)神經(jīng)網(wǎng)絡(luò)得出的深度特征,并對深度特征矩陣進(jìn)行性能分類,本文使用B2DPC模型進(jìn)行分類處理,并通過迭代優(yōu)化的方法對模型進(jìn)行求解。
B2DPC模型可通過2個投射矩陣對原始人體目標(biāo)圖像矩陣進(jìn)行特征描述。假設(shè)一個維數(shù)m×n的目標(biāo)圖像矩陣為Ii,其左投影矩陣和右投影矩陣分別為W∈Rm×s和V∈Rn×t,那么目標(biāo)圖形可被壓縮成維度為s×t的矩陣,用公式可表示為
Ji=WTIiV
(6)
最優(yōu)的投影矩陣可通過極小化訓(xùn)練樣本,重新構(gòu)建誤差求解出,公式表示為
(7)
(8)
其中,d1和d2表示分類懲罰系數(shù)。通過整體模型可以優(yōu)化特征學(xué)習(xí)的重構(gòu)誤差與錯誤分類的誤差,提高圖像的分類性能。對于任意圖像通過優(yōu)化后都可求出最優(yōu)解,進(jìn)而圖形的預(yù)測標(biāo)簽用公式可表示為
(9)
模型優(yōu)化可分解為對W、V和K交替迭代優(yōu)化,分別對其中的一個進(jìn)行優(yōu)化求解。
1)對V變量優(yōu)化
對V變量優(yōu)化時,由于V變量處于Stiefel流行上,且Stiefel流行的梯度計(jì)算較復(fù)雜,因此需要對凸松弛加以考慮,公式表示為
(10)
其中,γ表示Stiefel流行懲罰系數(shù),且γ>0。通過松弛計(jì)算,可對變量無約束優(yōu)化,優(yōu)化的目標(biāo)函數(shù)是不可微的,因此采用次梯度下降方法進(jìn)一步優(yōu)化處理,公式表示為
Vs+1=Vs-ts?V(Vs)
(11)
其中,ts表示迭代步長;?V(Vs)表示目標(biāo)函數(shù)在Vs處的次梯度,計(jì)算表達(dá)式可表示為:
(12)
其中
(13)
2)對W變量優(yōu)化
W變量優(yōu)化的思路與V變量優(yōu)化的過程除了次梯度表達(dá)式不同外,其它優(yōu)化過程相似,W變量優(yōu)化的次梯度用公式可表示為
?W(Ws)=-2PVsWs+
(14)
其中
(15)
2)對K變量優(yōu)化
W變量優(yōu)化是一種典型的SVM問題,可通過工具箱[8]進(jìn)行求解優(yōu)化。
由于B2DPC模型通常在2步內(nèi)完成收斂,因此B2DPC優(yōu)化迭代的W和V初始值可通過收斂結(jié)果得出。整個迭代求解過程可視為一個具有隱藏層的淺層網(wǎng)絡(luò),W和V的求解過程可視為無監(jiān)督特征學(xué)習(xí)訓(xùn)練過程,通過訓(xùn)練最終得出最佳的網(wǎng)絡(luò)參數(shù)。
為了調(diào)整基于B2DPC與神經(jīng)網(wǎng)絡(luò)對人體目標(biāo)的檢測性能,主要進(jìn)行2步對目標(biāo)檢測識別。檢測的目標(biāo)共分為5類,分別為人、車、機(jī)器人、貓、狗。選取每類目標(biāo)500張圖片,根據(jù)距離設(shè)置檢測目標(biāo)與物體表面的反光程度,獲得清晰的成像效果。對清晰圖像集xi做10個不同模糊度的模糊處理,使用清晰圖像與模糊處理后的圖像y1~y8作為訓(xùn)練樣本,用于訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型。訓(xùn)練集共有3萬張圖片,較差驗(yàn)證集與測試集均為6千張圖片,且對每張圖片都作歸一化處理。
將預(yù)訓(xùn)練參數(shù)遷移到神經(jīng)網(wǎng)絡(luò)中對應(yīng)的網(wǎng)絡(luò)層,且將全連接層的學(xué)習(xí)率設(shè)置為0.001,其它網(wǎng)絡(luò)層的學(xué)習(xí)率均設(shè)置為0.0001,經(jīng)過2萬次迭代。對遷移到神經(jīng)網(wǎng)絡(luò)的訓(xùn)練樣本進(jìn)行求和運(yùn)算,通過激活函數(shù)增加映射函數(shù)的非線性。經(jīng)過最大池化處理后,圖像的數(shù)據(jù)特征在均為有用信息的情況下數(shù)量會減少一半,得出圖像的分布式特征。經(jīng)過特征保留層與特征保留約束處理后,模糊圖像接近清晰圖像的特征向量樣本,那么網(wǎng)絡(luò)輸出值與樣本標(biāo)簽的誤差用公式可表示為
(16)
其中,e表示樣本標(biāo)簽,且e=[r1,r2,r3…];僅當(dāng)樣本屬于對應(yīng)類別i時ri為1,其余情況為0。依據(jù)誤差權(quán)值計(jì)算與偏置調(diào)整,輸入層到隱藏層的權(quán)重調(diào)整量及隱藏層到輸出層的權(quán)重調(diào)整量用公式分別表示為
(17)
其中,Qij表示輸入層到隱藏層的權(quán)重;Sij表示隱藏層到輸出層的權(quán)重。根據(jù)權(quán)重調(diào)整量,調(diào)整的網(wǎng)絡(luò)權(quán)值用公式可表示為
(18)
其中Xin表示輸入向量;Yout表示輸出向量。將調(diào)整量通過反向傳播反饋給神經(jīng)網(wǎng)絡(luò)的權(quán)重,這便完成了一次網(wǎng)絡(luò)訓(xùn)練,直到迭代次數(shù)為網(wǎng)絡(luò)訓(xùn)練結(jié)束為止。
為了驗(yàn)證基于B2DPC與神經(jīng)網(wǎng)絡(luò)算法對人體目標(biāo)檢測的性能,采用模糊尺度為10的樣本測試集1000張,對傳統(tǒng)算法與本文算法進(jìn)行測試,計(jì)算出目標(biāo)檢測的平均識別率,移動人體識別率用公式可表示為
(19)
其中,n表示各類別識別正確的樣本數(shù);Ocat表示樣本種類;M表示樣本總數(shù)。分別對傳統(tǒng)算法與本文算法在不同模糊度的人體圖像的平均識別率進(jìn)行對比,結(jié)果如圖1所示。
從圖中可以看出隨著模糊度的增加,兩種方法網(wǎng)絡(luò)平均識別率均有下降的趨勢,通過平均識別率可驗(yàn)證兩種系統(tǒng)的有效性,但傳統(tǒng)算法隨著模糊度的增加波動程度較明顯,且平均識別率較低。而采用本文算法的人體目標(biāo)具有特征保留性,平均識別率較高,泛化性能較強(qiáng)。
圖1 網(wǎng)絡(luò)平均識別率
為了進(jìn)一步驗(yàn)證本文算法的穩(wěn)定性,在不同樣本個數(shù)情況下對傳統(tǒng)算法與本文算法進(jìn)行比較。實(shí)驗(yàn)中訓(xùn)練樣本個數(shù)選擇為每類樣本的前n個樣本,測試樣本為剩余的其它樣本。仿真比較兩種方法的分類準(zhǔn)確率,對比結(jié)果如圖2所示。
圖2 不同訓(xùn)練樣本的辨識準(zhǔn)確率
從圖中可以看出,兩種方法均能達(dá)到最好的分類準(zhǔn)確率,但在訓(xùn)練集種類較少的情況下,傳統(tǒng)方法的正確識別率較低,而采用本文方法無論訓(xùn)練集樣本個數(shù)為多少,人體目標(biāo)識別的準(zhǔn)確率均較高,相對傳統(tǒng)方法具有明顯的優(yōu)勢。
通過仿真分析不同主成分個數(shù)對傳統(tǒng)方法和本文方法分類準(zhǔn)確率的影響,為了方便比較,投影后的矩陣選擇行列數(shù)相同的情況,辨識準(zhǔn)確率對比結(jié)果如圖3所示。從圖中可以看出,隨著主成分個數(shù)的不斷增加,兩種方法的辨識準(zhǔn)確率也不斷提高,采用傳統(tǒng)方法的準(zhǔn)確率較為不穩(wěn)定,而本文方法非常穩(wěn)定,且辨識準(zhǔn)確率更高。
圖3 主成分個數(shù)不同的辨識準(zhǔn)確率
對于移動人體目標(biāo)檢測問題,本文提出一種基于B2DPCA與神經(jīng)網(wǎng)絡(luò)相結(jié)合的算法。通過優(yōu)化目標(biāo)函數(shù),使圖像模糊前后的樣本集特征向量保持一致,并采用隨機(jī)梯度下降方法對圖像數(shù)據(jù)優(yōu)化處理。為了增強(qiáng)神經(jīng)網(wǎng)絡(luò)的深度特征,使用B2DPC模型進(jìn)行分類處理,并通過迭代優(yōu)化的方法對模型進(jìn)行求解。并選擇5類檢測目標(biāo),對清晰圖像集做10個不同模糊度的模糊處理,預(yù)先對訓(xùn)練權(quán)重進(jìn)行加載,通過人體清晰圖像與不同模糊度圖像進(jìn)行訓(xùn)練。由傳統(tǒng)算法與本文算法的對比實(shí)驗(yàn)可知,采用本文算法可以很大程度地改善移動人體目標(biāo)在模糊情況下的檢測識別率,且人體目標(biāo)具有特征保留性,平均識別率和泛化性能均有所提高。