羅予東 李振坤
1(嘉應(yīng)學(xué)院計(jì)算機(jī)學(xué)院 廣東 梅州 514015) 2(廣東工業(yè)大學(xué)計(jì)算機(jī)學(xué)院 廣東 廣州 510006)
近紅外光(Near Infrared,NIR)[1]是介于可見(jiàn)光和中紅外光的電磁波,近紅外成像技術(shù)能夠在光照條件差的環(huán)境下拍攝目標(biāo)的圖像,在安防監(jiān)控、無(wú)人機(jī)以及虛擬現(xiàn)實(shí)等領(lǐng)域[2-3]具有廣闊的應(yīng)用前景。在安防監(jiān)控以及協(xié)助公安部門執(zhí)法的過(guò)程中,可見(jiàn)光視頻數(shù)據(jù)目前依然處于主要的地位,而利用近紅外光能夠彌補(bǔ)弱光或黑暗環(huán)境下有效監(jiān)控?cái)?shù)據(jù)缺失的問(wèn)題,因而跨模態(tài)的識(shí)別技術(shù)在安防監(jiān)控領(lǐng)域具有極大的應(yīng)用價(jià)值[4]。但由于可見(jiàn)光模態(tài)和近紅外模態(tài)之間的數(shù)據(jù)分布存在巨大的差異,近紅外模態(tài)的數(shù)據(jù)量也遠(yuǎn)少于可見(jiàn)光模態(tài),導(dǎo)致跨模態(tài)訓(xùn)練過(guò)程極易發(fā)生過(guò)擬合[5]的問(wèn)題。
許多研究人員對(duì)不同模態(tài)間數(shù)據(jù)分布差異大的問(wèn)題進(jìn)行了深入的研究,通常先利用SIFT或LBP等技術(shù)提取特征,再將不同模態(tài)的特征投影到一個(gè)公共空間內(nèi),由此縮小模態(tài)間的分布差異。文獻(xiàn)[6]通過(guò)Harris算法對(duì)SIFT特征點(diǎn)進(jìn)行過(guò)濾,獲得圖像的興趣點(diǎn),把選取的區(qū)域作為L(zhǎng)BP特征提取的輸入圖像,通過(guò)兩種特征的混合處理提高系統(tǒng)的總體性能。文獻(xiàn)[7]使用紋理特征融合表示圖像的底層語(yǔ)義特征,使用感興趣區(qū)域的形態(tài)學(xué)描述表示圖像的高層語(yǔ)義信息,設(shè)計(jì)了新的相似性度量方法計(jì)算圖像兩個(gè)模態(tài)間的相似度,最后利用多核學(xué)習(xí)方法學(xué)習(xí)特征融合的權(quán)值。文獻(xiàn)[6-7]從不同方面融合了多個(gè)模態(tài)的特征,雖然性能比單模態(tài)特征有所提高,但是受限于特征描述子的表示能力[8],這類方法的性能[9]目前已經(jīng)陷入了瓶頸。
隨著人工智能技術(shù)的發(fā)展,研究人員利用神經(jīng)網(wǎng)絡(luò)強(qiáng)大的非線性學(xué)習(xí)能力提取更加豐富的特征集,再次促進(jìn)了跨模態(tài)融合技術(shù)的發(fā)展[10-11]。其中運(yùn)用神經(jīng)網(wǎng)絡(luò)與多模態(tài)融合技術(shù)處理表情識(shí)別問(wèn)題,獲得了顯著的提升效果。文獻(xiàn)[12]利用多模態(tài)深度神經(jīng)網(wǎng)絡(luò)解決建筑固廢對(duì)象識(shí)別問(wèn)題,把RGB圖像和深度圖送入神經(jīng)網(wǎng)絡(luò)進(jìn)行高維特征學(xué)習(xí),再通過(guò)最小化能量函數(shù)來(lái)尋找目標(biāo)識(shí)別的全局最優(yōu)解。文獻(xiàn)[13]深入分析了多模態(tài)面部表情識(shí)別問(wèn)題,通過(guò)多模態(tài)融合方法將手工定制特征和深度學(xué)習(xí)特征結(jié)合起來(lái),結(jié)果顯示多模態(tài)特征融合的情感識(shí)別性能明顯好于單模態(tài)特征。雖然結(jié)合深度學(xué)習(xí)和多模態(tài)融合技術(shù)能夠明顯提升表情識(shí)別的準(zhǔn)確率,但現(xiàn)有技術(shù)[14-15]大多將深度特征、直方圖特征及紋理特征等投影到同一個(gè)公共空間中,再實(shí)現(xiàn)特征的跨模態(tài)融合,這類方法擴(kuò)大了特征空間,計(jì)算復(fù)雜度較高。
安防監(jiān)控應(yīng)用場(chǎng)景中存在兩個(gè)難題:① 可見(jiàn)光視頻數(shù)據(jù)占據(jù)主要部分,而近紅外光視頻數(shù)據(jù)占據(jù)較小的部分,屬于不平衡數(shù)據(jù)處理問(wèn)題。采用上文的公共特征空間技術(shù)不僅增加了空間維度,而且會(huì)提高可見(jiàn)光目標(biāo)識(shí)別的誤檢率[16]。② 基于直方圖的動(dòng)態(tài)表情識(shí)別算法對(duì)環(huán)境變化和空間變形等因素具有較好的魯棒性,但特征的判別性較弱。為了解決第①個(gè)難題,設(shè)計(jì)了跨模態(tài)監(jiān)督的深度神經(jīng)網(wǎng)絡(luò)特征融合方法,將可見(jiàn)光視頻數(shù)據(jù)送入深度神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,利用近紅外光數(shù)據(jù)對(duì)訓(xùn)練程序進(jìn)行監(jiān)督,達(dá)到遷移學(xué)習(xí)的目的。為了解決第②個(gè)難題,將判別能力強(qiáng)的卷積神經(jīng)網(wǎng)絡(luò)特征與魯棒的直方圖特征結(jié)合,利用CNN提取目標(biāo)空間特征,再將CNN特征表示為直方圖,同時(shí)利用直方圖和卷積神經(jīng)網(wǎng)絡(luò)兩者的優(yōu)勢(shì),設(shè)計(jì)了新的表情識(shí)別算法。
一個(gè)智慧城市系統(tǒng)[16]的組成部分通常包括智能家居、智能交通、智能購(gòu)物、智能醫(yī)療、無(wú)線網(wǎng)絡(luò)、云服務(wù)器等,圖1所示是一個(gè)簡(jiǎn)化的智慧城市系統(tǒng)框架。物聯(lián)網(wǎng)及智能設(shè)備將采集的數(shù)據(jù)傳到邊緣計(jì)算模塊進(jìn)行處理,然后邊緣計(jì)算模塊把結(jié)果發(fā)送至云服務(wù)器進(jìn)行處理和決策,云服務(wù)器將決策結(jié)果發(fā)送至公安機(jī)關(guān)、企事業(yè)單位等機(jī)構(gòu),這些機(jī)構(gòu)采取相應(yīng)的措施。假設(shè)一個(gè)可疑人員進(jìn)入視頻監(jiān)控區(qū)域,攝像頭經(jīng)過(guò)5G網(wǎng)絡(luò)將視頻發(fā)送至邊緣計(jì)算模塊進(jìn)行預(yù)處理,邊緣計(jì)算模塊將數(shù)據(jù)發(fā)送至云服務(wù)器端,云服務(wù)器的虛擬機(jī)提取人臉的生物學(xué)特征,檢測(cè)該人員的危險(xiǎn)程度,最終把結(jié)果告知公安機(jī)關(guān)。
圖1 智慧城市的簡(jiǎn)單框架
圖2所示是監(jiān)控系統(tǒng)微表情自動(dòng)識(shí)別的流程框圖。首先,提取視頻幀的卷積特征,通過(guò)卷積特征對(duì)人體進(jìn)行追蹤;然后,通過(guò)跨模態(tài)融合技術(shù)學(xué)習(xí)人臉特征;最終,通過(guò)CNN分類器識(shí)別人臉的表情。
圖2 監(jiān)控系統(tǒng)微表情自動(dòng)識(shí)別的流程框圖
設(shè)F為目標(biāo)的特征向量,設(shè)H與W分別為向量高度與寬度,C為通道數(shù)量?;贑BoF(Bag of Features)模型[17]建立特征的視覺(jué)直方圖,CBoF把圖像特征描述符量化成視覺(jué)詞,最終生成視覺(jué)詞的直方圖。首先提取M個(gè)碼字的集合B,然后把特征集F的特征向量fij與B中的每個(gè)碼字bm比較,通過(guò)相似性度量生成H×W的隸屬向量G。采用歐氏距離計(jì)算相似性:
將所有計(jì)算的隸屬度向量聚集成一個(gè)直方圖表示q∈RM。直方圖q的數(shù)學(xué)式定義為:
圖3所示是提取CNN特征直方圖的流程。將原特征集的每個(gè)特征向量與碼字的每個(gè)特征向量比較,再計(jì)算新的隸屬度值,所有的隸屬度經(jīng)過(guò)加權(quán)調(diào)和計(jì)算產(chǎn)生最終的直方圖表示。
圖3 提取CNN特征直方圖的流程
CBoF技術(shù)提取特征的性能較好,但其中歐氏距離的計(jì)算速度較慢,LBoF[18]模塊采用內(nèi)積運(yùn)算能夠提高計(jì)算效率,因此本文將CBoF和LBoF兩個(gè)模塊結(jié)合,提高神經(jīng)網(wǎng)絡(luò)的訓(xùn)練速度。LBoF的隸屬度計(jì)算式為:
式中:“·”表示內(nèi)積運(yùn)算,“|·|”表示取絕對(duì)值運(yùn)算。通過(guò)式(2)將所有的隸屬度聚合成直方圖表示,再增加一個(gè)卷積層實(shí)現(xiàn)式(3)的運(yùn)算,卷積層的激活函數(shù)為取絕對(duì)值函數(shù),通過(guò)神經(jīng)連接計(jì)算所有節(jié)點(diǎn)的加權(quán)調(diào)和值,該網(wǎng)絡(luò)結(jié)構(gòu)能夠加快BoF的訓(xùn)練速度。
在目標(biāo)識(shí)別與跟蹤問(wèn)題中,空間信息包含了重要的價(jià)值,但式(2)所產(chǎn)生的直方圖忽略了空間信息。為此設(shè)計(jì)了滑動(dòng)窗口機(jī)制來(lái)提取多個(gè)直方圖表示,通過(guò)聚合多個(gè)隸屬度值來(lái)增加空間信息。設(shè)滑動(dòng)窗口的大小為p×p,一個(gè)滑動(dòng)步長(zhǎng)為1,設(shè)多維直方圖的表示為Q,Q的每個(gè)元素為:
式中:k=1,2,…,Hq,l=1,2,…,Wq。在CNN中加入一個(gè)平均池化層實(shí)現(xiàn)多維直方圖的計(jì)算。
假設(shè)目標(biāo)前景區(qū)域?yàn)門,采用式(4)計(jì)算出目標(biāo)模型Q,Q的空間維度依賴于目標(biāo)區(qū)域大小及CNN的下采樣率。圖4所示是本文多維直方圖提取的簡(jiǎn)單示意圖,首先設(shè)置一個(gè)大面積的搜索區(qū)域S,然后將搜索區(qū)域S的每個(gè)直方圖與目標(biāo)區(qū)域的直方圖比較。
(a) 目標(biāo)直方圖
采用巴氏距離[19]比較直方圖:
式中:p和q為兩個(gè)直方圖。通過(guò)式(5)計(jì)算出目標(biāo)區(qū)域的相似性圖S,對(duì)多維直方圖取平均值,將結(jié)果作為搜索區(qū)域的統(tǒng)一直方圖值,選擇其中相似性最高的空間位置作為目標(biāo)在搜索區(qū)域內(nèi)的定位。
利用近紅外光模態(tài)[4]提升可見(jiàn)光模態(tài)的微表情識(shí)別性能,通過(guò)遷移學(xué)習(xí)技術(shù)學(xué)習(xí)可見(jiàn)光域V和近紅外光域T的特征,再把V和T組合成統(tǒng)一的表示。假設(shè)學(xué)習(xí)映射函數(shù)G(V)=Rdv和H(T)=Rdt分別最大化特征集fv和ft的判別力,其中fv和dv分別為可見(jiàn)光域的特征向量和特征維度,ft和dt分別為近紅外光域的特征向量和特征維度。然后學(xué)習(xí)一個(gè)映射函數(shù)生成統(tǒng)一的表示fk=K(fv,ft),其中K(·)為映射函數(shù)。
上述多模態(tài)特征融合模型需要多個(gè)模態(tài)的數(shù)據(jù),但在安防監(jiān)控問(wèn)題中,有時(shí)僅能獲得一個(gè)模態(tài)的數(shù)據(jù),例如:夜晚僅能拍攝近紅外光的數(shù)據(jù),無(wú)法拍攝可見(jiàn)光的數(shù)據(jù)。因此對(duì)多模態(tài)融合進(jìn)行了修改,跨模態(tài)學(xué)習(xí)的目標(biāo)是學(xué)習(xí)一個(gè)新的映射函數(shù)K(·),且K(·)依賴于T,函數(shù)K(·)的輸入為V,在訓(xùn)練過(guò)程中學(xué)習(xí)T對(duì)K(·)的影響關(guān)系。
設(shè)計(jì)了編碼器-解碼器結(jié)構(gòu)的深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)變換函數(shù)K,網(wǎng)絡(luò)的輸入是可見(jiàn)光圖像,在可見(jiàn)光域特征fk之后級(jí)聯(lián)一個(gè)解碼器來(lái)加入近紅外光域的監(jiān)督數(shù)據(jù)T。跨模態(tài)監(jiān)督學(xué)習(xí)能夠?qū)W習(xí)兩個(gè)模態(tài)間的相關(guān)性,增加一個(gè)神經(jīng)網(wǎng)絡(luò)來(lái)識(shí)別面部的微表情。
每個(gè)微表情分別訓(xùn)練一個(gè)網(wǎng)絡(luò)結(jié)構(gòu),假設(shè)第i個(gè)面部表情的判別網(wǎng)絡(luò)為AUi,那么可得pi=AUi(fk),pi表示第i個(gè)面部行為的出現(xiàn)概率。設(shè)Dec表示解碼網(wǎng)絡(luò),經(jīng)過(guò)跨模態(tài)監(jiān)督學(xué)習(xí)獲得重建的近紅外光圖像T′=Dec(fk)。因?yàn)閒k=K(V),所以面部行為識(shí)別的概率為pi=AUi(K(V)),分類損失和近紅外光圖像重建損失兩者在監(jiān)督學(xué)習(xí)過(guò)程中存在沖突性,且分類損失的監(jiān)督強(qiáng)度明顯大于跨模態(tài)的相關(guān)性。為了解決該問(wèn)題,直接將判別網(wǎng)絡(luò)連接到解碼器的輸出,判別網(wǎng)絡(luò)預(yù)測(cè)的概率變?yōu)?
pi=AUi(T′)=AUi(D(K(V)))
(6)
式中:D()表示解碼函數(shù)。
將第i種微表情的二元交叉熵?fù)p失函數(shù)記為L(zhǎng)i(AUi(
T′)),通過(guò)求偏導(dǎo)計(jì)算編碼器的梯度:
隨之可獲得以下的編碼器公式:
AUi(T′)=wi·z(T′)
(8)
式中:z(T′)表示T′的正則化特征表示,wi為類向量。直接通過(guò)梯度下降法計(jì)算類向量wi和特征z(T′)間距離的極值,如果T屬于第i個(gè)類,那么T與wi的距離必大于0,z(T′)與wi的距離也必大于0。假設(shè)T與T′存在以下關(guān)系:
T′=T+δ
(9)
式中:參數(shù)θK的更新梯度與近紅外光圖T成比例關(guān)系。如果重建的熱圖T′與T的差異較大,那么式(10)不成立,從而導(dǎo)致梯度快速消失。
根據(jù)式(10)的結(jié)論,網(wǎng)絡(luò)的訓(xùn)練目標(biāo)是最小化δ,即最小化近紅外光圖像的重建誤差,再結(jié)合近紅外光圖分類器對(duì)編碼器-解碼器網(wǎng)絡(luò)進(jìn)行微調(diào)。模型僅訓(xùn)練一次熱圖分類器,然后利用該分類器對(duì)編碼器-解碼器網(wǎng)絡(luò)進(jìn)行監(jiān)督訓(xùn)練。訓(xùn)練后的編碼器網(wǎng)絡(luò)K學(xué)習(xí)了可見(jiàn)光圖像和近紅外光圖之間的相關(guān)性,同時(shí)也學(xué)習(xí)了近紅外光圖的判別特征。
通常通過(guò)最小化重建圖T′和原圖T間像素的均方誤差MSE來(lái)優(yōu)化近紅外光圖的重建,MSE的計(jì)算式為:
式(11)對(duì)所有的像素的重建誤差進(jìn)行了平均化處理,每個(gè)像素對(duì)網(wǎng)絡(luò)模型參數(shù)的貢獻(xiàn)相等。如果重建誤差大的像素?cái)?shù)量較少,網(wǎng)絡(luò)模型則可能過(guò)早發(fā)生收斂。因此,如下選出一部分誤差大的像素來(lái)引導(dǎo)訓(xùn)練:
式中:N是用于計(jì)算重建損失的像素?cái)?shù)量,函數(shù)rank(lp,L)計(jì)算了元素lp在向量L中的排名。γ()為指示函數(shù),如果條件滿足,那么γ()=1,否則γ()=0。通過(guò)指定N個(gè)差異最大的像素來(lái)引導(dǎo)網(wǎng)絡(luò)模型的訓(xùn)練,從而避免發(fā)生過(guò)早收斂,提高網(wǎng)絡(luò)模型的準(zhǔn)確性。
訓(xùn)練后的編碼器K提取可見(jiàn)光圖像的潛在表示fk,然后采用遷移學(xué)習(xí)的思想對(duì)編碼器的參數(shù)進(jìn)行微調(diào)。假設(shè)目標(biāo)數(shù)據(jù)集N不包含近紅外光圖,增加編碼器K和解碼器Dv,通過(guò)反向映射從近紅外光圖重建可見(jiàn)光圖像。圖5所示是編碼器、解碼器微調(diào)訓(xùn)練的流程,根據(jù)可見(jiàn)光圖像的重建損失學(xué)習(xí)目標(biāo)數(shù)據(jù)集N的潛在表示。
圖5 基于遷移學(xué)習(xí)的微調(diào)訓(xùn)練流程
圖6所示是微表情識(shí)別的網(wǎng)絡(luò)結(jié)構(gòu),主要分為特征提取和特征增強(qiáng)兩個(gè)階段。首先訓(xùn)練一個(gè)CNN分類器,同時(shí)采用近紅外光圖的人臉圖像訓(xùn)練另一個(gè)CNN分類器。然后將近紅外光模態(tài)的信息遷移到可見(jiàn)光模態(tài),在保持搜索空間的前提下提升可見(jiàn)光模態(tài)的特征性能。
圖6 跨模態(tài)監(jiān)督表示學(xué)習(xí)的訓(xùn)練流程
圖7所示是多模態(tài)特征融合系統(tǒng)的總體結(jié)構(gòu)。
圖7 多模態(tài)特征融合系統(tǒng)的總體結(jié)構(gòu)
設(shè)每個(gè)輸入模態(tài)為xi,對(duì)應(yīng)的特征為:
vi=f(xi;θi)
(13)
式中:vi∈Rdi,f表示特征提取,θi為模態(tài)xi的相關(guān)參數(shù)。定義一個(gè)函數(shù)g(.;ε)將所有模態(tài)的特征轉(zhuǎn)化成公共表示l,l的數(shù)學(xué)式定義為:
l=g(v1,v2,…,vk;ε)
(14)
式中:j=1,2,…,M,σ表示sigmoid非線性變換。
然后為每個(gè)特征向量vi建立變換向量:
在MATLAB R2018b平臺(tái)上編程實(shí)現(xiàn)本文算法,實(shí)驗(yàn)環(huán)境為一臺(tái)PC機(jī),硬件配置為Intel(R) Core(TM) i5-8400處理器,2.80 GHz主頻,16 GB內(nèi)存。操作系統(tǒng)為Windows 10。
實(shí)驗(yàn)包括兩個(gè)部分,第1部分測(cè)試人臉追蹤的性能,第2部分測(cè)試微表情識(shí)別的性能。采用公開(kāi)的目標(biāo)追蹤數(shù)據(jù)集TempleColor128完成人臉追蹤的實(shí)驗(yàn)。該數(shù)據(jù)集包含不同場(chǎng)景下共128組視頻序列,選出9組人臉追蹤數(shù)據(jù)集完成人臉追蹤實(shí)驗(yàn),即Trellis、FaceOcc1、David、Face_ce2、Girl、Iceskater、Micheal_ce、Skating_ce2、Sunshade,如圖8所示。該數(shù)據(jù)集共有光照變化(IV)、平面外旋轉(zhuǎn)(OPR)、尺度變化(SV)、目標(biāo)遮擋(OCC)、變形(DEF)、運(yùn)動(dòng)模糊(MB)、低分辨率(LR)、離開(kāi)視野(OOV)八個(gè)屬性,能夠全面地測(cè)試算法的魯棒性。
(a) Trellis (b) FaceOcc1 (c) David
然后采用公開(kāi)的多模態(tài)微表情數(shù)據(jù)集(Multi-modal Spontaneous Emotion,MMSE)[20]完成微表情識(shí)別的實(shí)驗(yàn)。該數(shù)據(jù)集由可見(jiàn)光視頻數(shù)據(jù)和近紅外光視頻數(shù)據(jù)組成,由140個(gè)人物對(duì)象在鏡頭前完成10個(gè)指定任務(wù),每個(gè)視頻幀標(biāo)注了49個(gè)面部標(biāo)志點(diǎn)。篩選出100 000個(gè)可見(jiàn)光視頻和50 000個(gè)對(duì)應(yīng)的近紅外光視頻,將可見(jiàn)光數(shù)據(jù)與近紅外光數(shù)據(jù)設(shè)為2∶1,測(cè)試算法在不平衡數(shù)據(jù)下的性能。數(shù)據(jù)集選出12個(gè)出現(xiàn)頻率最高的面部微表情,即輕松(relaxed)、驚訝(surprised)、悲傷(sad)、高興(happy)、痛苦(pain)、惡心(disgusted)、尷尬(embarrassed)、緊張(nervous)、害怕(scared)、生氣(angry)、沮喪(frustrated)、驚嚇(startled)。圖9(a)、(b)、(c)分別為可見(jiàn)光圖像的尷尬、高興、輕松三個(gè)表情的實(shí)例,圖9(d)、(e)、(f)分別為近紅外圖像的高興、驚訝、輕松三個(gè)表情的實(shí)例。
(a) 尷尬表情 (b) 高興表情(c) 輕松表情
4.2.1特征提取網(wǎng)絡(luò)的訓(xùn)練
采用DenseNet-121[21]提取卷積網(wǎng)絡(luò)的特征,采用二值交叉熵計(jì)算網(wǎng)絡(luò)損失:
BCE(s,t)=-log(st)
(20)
式中:如果標(biāo)記t為正(前景區(qū)域),那么st=s;如果標(biāo)記t為負(fù)(背景區(qū)域),那么st=1-s。
圖10(a)、(b)和(c)分別是RGB圖、近紅外熱圖以及重建的近紅外熱圖實(shí)例。經(jīng)過(guò)跨模態(tài)監(jiān)督學(xué)習(xí)獲得重建的近紅外光圖像T′=Dec(fk),可看出重建過(guò)程存在明顯的損失,但是損失較小。
(a) RGB圖 (b) 近紅外熱圖 (c) 重建的熱圖圖10 近紅外熱圖重建實(shí)例
4.2.2跨模態(tài)監(jiān)督網(wǎng)絡(luò)的訓(xùn)練
如圖11所示,微表情識(shí)別也采用DenseNet-121的網(wǎng)絡(luò)結(jié)構(gòu),網(wǎng)絡(luò)深度為100,隨機(jī)初始化權(quán)重,DenseNet輸出層為12個(gè)神經(jīng)元,每個(gè)單元對(duì)應(yīng)一個(gè)微表情。輸入圖像大小統(tǒng)一縮放成150×150個(gè)像素,采用mini-batch隨機(jī)梯度下降法訓(xùn)練網(wǎng)絡(luò),學(xué)習(xí)率為0.01,計(jì)算每個(gè)微表情的二值交叉熵?fù)p失作為代價(jià)函數(shù)。考慮數(shù)據(jù)集不平衡的特點(diǎn),為每個(gè)分類的損失值分配一個(gè)相應(yīng)的權(quán)值。圖11所示是提取圖像特征的網(wǎng)絡(luò)結(jié)構(gòu),隨之采用2.3節(jié)、2.4節(jié)的方法微調(diào)神經(jīng)網(wǎng)絡(luò),然后基于2.5節(jié)的方法利用近紅外數(shù)據(jù)對(duì)神經(jīng)網(wǎng)絡(luò)進(jìn)行監(jiān)督訓(xùn)練。
圖11 DenseNet-121的網(wǎng)絡(luò)結(jié)構(gòu)
4.3.1人臉追蹤實(shí)驗(yàn)
為了綜合評(píng)價(jià)本文人臉追蹤算法ConHis的性能,選擇基于卷積神經(jīng)網(wǎng)絡(luò)的目標(biāo)追蹤算法MODCNN[22]、基于直方圖的人臉識(shí)別算法HDHOG[23]及基于卷積神經(jīng)網(wǎng)絡(luò)和親和力度量的人臉識(shí)別算法CNNMTT[24]。MODCNN是一種采用CNN卷積特征的人臉識(shí)別算法,通過(guò)該算法觀察ConHis將卷積特征與直方圖特征相結(jié)合的思想是否有效。HDHOG是一種基于HOG(Histograms of Oriented Gradients)直方圖的目標(biāo)追蹤算法,該算法采用有向梯度直方圖提取興趣點(diǎn)的特征,具有較好的魯棒性。CNNMTT是一種結(jié)合CNN網(wǎng)絡(luò)和分類器的目標(biāo)追蹤算法,該算法通過(guò)二值分類器提取前景區(qū)域,再通過(guò)CNN提取前景區(qū)域的特征,由此提高卷積特征的魯棒性。
采用精度曲線和成功率曲線兩個(gè)指標(biāo)評(píng)價(jià)目標(biāo)追蹤的綜合性能,兩個(gè)指標(biāo)需要計(jì)算中心位置誤差和總覆蓋率:中心位置誤差定義為目標(biāo)位置與真實(shí)位置間的平均歐氏距離,覆蓋率定義為目標(biāo)區(qū)域和真實(shí)區(qū)域的交集除以兩者的并集。精度曲線的閾值設(shè)為20個(gè)像素,成功率曲線的閾值設(shè)為0.4。
圖12所示分別為4個(gè)目標(biāo)追蹤算法的精度曲線與成功率曲線,圖12(a)中ConHis的AUC(Area Under roc Curve)得分分別為0.684、0.633、0.542和0.557,圖12(b)中ConHis的AUC得分分別為0.488、0.417、0.387和0.393。本文的ConHis算法的精度和成功率均獲得了最佳的結(jié)果,優(yōu)于另一個(gè)基于CNN的追蹤算法CNNMTT,由此證明將卷積神經(jīng)網(wǎng)絡(luò)特征和直方圖特征結(jié)合,能夠增強(qiáng)目標(biāo)追蹤的性能。
(a) 精度曲線
表1所示為4個(gè)目標(biāo)追蹤算法對(duì)于8個(gè)屬性的平均精度值。ConHis算法在IV、OPR、SV、OCC、DEF、MB六個(gè)屬性上均獲得了最佳的精度值,但在低分辨率(LR)屬性上略低于MODCNN和HDHOG兩個(gè)方法,在低分辨率情況下卷積特征的判別效果下降,后期經(jīng)過(guò)直方圖處理后導(dǎo)致判別性進(jìn)一步下降,因此在低分辨率情況下,HonHis和CNNMTT的性能均差于基于單一特征的算法。此外ConHis在離開(kāi)視野(OOV)屬性上也低于CNNMTT方法,CNNMTT在第一步利用二值分類器識(shí)別前景區(qū)域,因此能夠有效處理目標(biāo)離開(kāi)視野的情況。
表1 目標(biāo)追蹤算法對(duì)于8個(gè)屬性的平均精度值
4.3.2微表情識(shí)別實(shí)驗(yàn)
為了綜合評(píng)價(jià)本文微表情識(shí)別的性能,選擇基于深度神經(jīng)網(wǎng)絡(luò)的微表情識(shí)別模型EAC-Net[25]、基于CNN和雙向長(zhǎng)短期記憶網(wǎng)絡(luò)的微表情識(shí)別模型CNN&BLSTM-RNN[26],另外也采用可見(jiàn)光數(shù)據(jù)和近紅外光數(shù)據(jù)單獨(dú)訓(xùn)練DenseNet-121模型,由此觀察本文多模態(tài)特征融合算法的效果。EAC-Net[25]通過(guò)E-net和C-net分別訓(xùn)練不同模態(tài)的特征,最終將兩個(gè)模型的結(jié)果通過(guò)加權(quán)調(diào)和的方法進(jìn)行融合。CNN&BLSTM-RNN[26]采用CNN提取視頻數(shù)據(jù)的特征,利用表情的連續(xù)性特點(diǎn),通過(guò)BLISTM對(duì)下一幀的人臉位置進(jìn)行預(yù)測(cè),從而提升人臉識(shí)別的準(zhǔn)確率。采用F1-score指數(shù)評(píng)價(jià)微表情識(shí)別的綜合性能,實(shí)驗(yàn)采用5折交叉檢驗(yàn)完成實(shí)驗(yàn)并統(tǒng)計(jì)實(shí)驗(yàn)結(jié)果。
圖13所示是微表情識(shí)別算法對(duì)12個(gè)微表情識(shí)別的F1-score值,表2是所有模型識(shí)別12種微表情的平均F1-score值。CNN&BLSTM-RNN是一種基于可見(jiàn)光視頻的微表情識(shí)別算法,其性能優(yōu)于可見(jiàn)光DenseNet-121模型,可看出該模型通過(guò)BLISTM預(yù)測(cè)下一幀的人臉位置,有效地提升了微表情的識(shí)別性能。但CNN&BLSTM-RNN的性能差于EAC-Net模型,可看出通過(guò)融合多模態(tài)的特征能夠有效提升微表情的識(shí)別性能。本文算法則取得了最佳的識(shí)別結(jié)果,可看出本文跨模態(tài)監(jiān)督訓(xùn)練的方法優(yōu)于多模態(tài)直接融合的方法,由此也佐證了本文的思想。
表2 微表情識(shí)別算法的F1-score平均值
(a) 第1組
為了滿足智慧城市建設(shè)過(guò)程中智能安防監(jiān)控系統(tǒng)的需要,結(jié)合深度神經(jīng)網(wǎng)絡(luò)技術(shù)提出了新的智能監(jiān)控系統(tǒng)微表情識(shí)別算法。設(shè)計(jì)了跨模態(tài)監(jiān)督的深度神經(jīng)網(wǎng)絡(luò)特征融合方法,將可見(jiàn)光視頻數(shù)據(jù)送入深度神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,利用近紅外光數(shù)據(jù)對(duì)訓(xùn)練程序進(jìn)行監(jiān)督,提高了對(duì)人臉微表情識(shí)別的性能。安防監(jiān)控系統(tǒng)每時(shí)每刻拍攝新的視頻數(shù)據(jù),因此需要不斷地重新訓(xùn)練深度神經(jīng)網(wǎng)絡(luò),而訓(xùn)練神經(jīng)網(wǎng)絡(luò)需要極大的開(kāi)銷。未來(lái)將關(guān)注于神經(jīng)網(wǎng)絡(luò)增量訓(xùn)練的研究,提高算法的實(shí)際應(yīng)用價(jià)值。