溫長吉,張笑然,吳建雙,楊 策,李卓識,4,石 磊,于合龍※
(1. 吉林農(nóng)業(yè)大學(xué)信息技術(shù)學(xué)院,長春 130118;2. 明尼蘇達(dá)大學(xué)食品、農(nóng)業(yè)與自然資源科學(xué)學(xué)院,圣保羅 55108;3. 吉林農(nóng)業(yè)大學(xué)智慧農(nóng)業(yè)研究院,長春 130118;4. 吉林大學(xué)工程仿生教育部重點(diǎn)實(shí)驗(yàn)室,長春 130022)
家畜情感研究是動物科學(xué)的重要研究目標(biāo)之一,近幾年得到廣泛關(guān)注[1-2]。面部表情是傳達(dá)情感的一種有效信息,是生理、心理和行為的綜合反映[3],達(dá)爾文的著名論斷:非人類動物也能夠通過面部表情表達(dá)情感,并且這種面部表情是與生俱來的[4]。較早研究動物面部表情的相關(guān)工作主要從動物生理解剖學(xué)的角度開展,2006年Burrows等[5]借助解剖學(xué)證明黑猩猩僅利用23組肌群支持較為精細(xì)的面部表情交流。2010年Langford等[6]通過對小鼠面部肌群進(jìn)行編碼,提出用于度量小鼠自發(fā)性疼痛感觀體驗(yàn)的面部表情指數(shù)(Mouse Grimace Scale,MGS)。此后眾多學(xué)者以小型哺乳動物(狗和貓等)為研究對象,通過面部肌群的分布和功能區(qū)域劃分研究面部表情變化與情感之間的聯(lián)系[7-8]。綜上,動物生理解剖學(xué)的方法盡管科學(xué)性高,為動物面部表情識別奠定了生理學(xué)基礎(chǔ),但是付出成本較高且效率較低。
近些年由于社會和法律對于動物福利的廣泛關(guān)注,機(jī)器視覺技術(shù)在眾多領(lǐng)域?qū)崿F(xiàn)推廣應(yīng)用,其中通過機(jī)器視覺監(jiān)測家畜個體體征,可以實(shí)現(xiàn)規(guī)模化養(yǎng)殖水平提升,降低人力成本[9-11]。因此利用機(jī)器視覺技術(shù)實(shí)現(xiàn)動物面部表情識別具有廣泛的研究和商業(yè)推廣應(yīng)用價值。最近Neethirajan等[12]提出利用多傳感器數(shù)據(jù)融合監(jiān)測體征數(shù)據(jù)用于實(shí)現(xiàn)表情及情緒變化。機(jī)器視覺技術(shù)在人臉面部表情識別率先開展研究和應(yīng)用,其中較為經(jīng)典的工作包括2007年Zhao等[13]提出基于體積的局部二值模式(Volume Local Binary Patterns,VLBP)和基于三維正交面的局部二值模式作為動態(tài)紋理特征(Local Binary Patterns on Three Orthogonal Planes,LBP-TOP)用于面部表情識別。2008年,Bashyal等[14]提出基于Gabor濾波器的特征提取與學(xué)習(xí)矢量量化(Learning Vector Quantization,LVQ)相結(jié)合的方法。2015年Dapogny等[15]提出利用臉部特征關(guān)鍵點(diǎn)、角度和方向梯度直方圖(Histogram of Oriented Gradient,HOG)特征金字塔等訓(xùn)練多時隙分類器用于面部表情識別。近幾年,也有學(xué)者嘗試將傳統(tǒng)機(jī)器視覺方法在動物面部表情識別方面開展研究應(yīng)用,比較有代表性的工作包括,2013年Wada等[16]較早借鑒特征空間方法應(yīng)用于靜態(tài)豬臉影像識別,證實(shí)了豬的面部有近似于人臉面部的特征點(diǎn),這為后續(xù)對豬臉表情識別提供理論基礎(chǔ)。2016年Camerlink等[17]利用定性行為評估方法結(jié)合主成分分析對影像中豬的情緒進(jìn)行研究。相關(guān)研究結(jié)果揭示了動物情感上感知攻擊和身體傷害的復(fù)雜方式。2017年劍橋大學(xué)計算機(jī)實(shí)驗(yàn)室Lu等[18]通過標(biāo)注綿羊面部標(biāo)志定位和歸一化,提取面部特征輸入支持向量機(jī)判斷綿羊疼痛時面部表情的變化,平均識別準(zhǔn)確率達(dá)到67%。2018年蘇格蘭農(nóng)業(yè)學(xué)院家豬研究中心與布里斯托機(jī)器視覺中心合作,通過提取572幅豬只面部圖像的耳角、口鼻比(長/高)和眼比的幾何量化特征,用于描述負(fù)面情緒狀態(tài)下的面部指標(biāo)差異,實(shí)現(xiàn)對豬只在攻擊和恐懼情境下情緒變化研究[19]。
對比傳統(tǒng)機(jī)器視覺方法,深度學(xué)習(xí)在面部識別任務(wù)明顯優(yōu)于傳統(tǒng)機(jī)器視覺方法。2015年Ng等[20]在面部表情數(shù)據(jù)集上采用級聯(lián)微調(diào)網(wǎng)絡(luò)參數(shù)的方法,取得了較好的試驗(yàn)效果。2016年Zhang等[21]提出了一個深度多任務(wù)級聯(lián)框架,從粗到精的方式預(yù)測人臉邊界位置并實(shí)現(xiàn)靜態(tài)影像中面部表情識別。2018年Zhang等[22]基于生成對抗網(wǎng)絡(luò)提出一種端到端的深度學(xué)習(xí)模型,利用不同的姿態(tài)和表情聯(lián)合進(jìn)行人臉表情識別,并取得了較好的效果。Yang等[23]提出一種表情殘差學(xué)習(xí)框架通過挖掘與表情相關(guān)的信息對靜態(tài)表情做識別分類,在7個公開庫上取得良好的性能。上述工作均是對靜態(tài)影像中的面部表情進(jìn)行識別,基于深度學(xué)習(xí)方法的表情識別,其優(yōu)點(diǎn)已初步顯現(xiàn)。
1997年Hochreiter等[24]提出一種基于梯度的長時序記憶單元網(wǎng)絡(luò)方法—長短時記憶網(wǎng)絡(luò)(Long Short-Term Memory,LSTM),該網(wǎng)絡(luò)用于解決長時依賴的識別和預(yù)測問題,因此后來也被用于長時上下文建模的表情識別任務(wù)中。2017年Ouyang等[25]提出VGG/Resnet-LSTM等時空融合模型,結(jié)合半自動強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)外部反饋以優(yōu)化融合策略,該方法對挑戰(zhàn)測試數(shù)據(jù)集的總體準(zhǔn)確率為57.2%,優(yōu)于挑戰(zhàn)基線的40.47%。2018年Yu等[26]提出嵌套LSTM時空卷積網(wǎng)絡(luò),以級聯(lián)方式端到端學(xué)習(xí)多級外觀特征和面部表情的時間動態(tài)上下文特征。當(dāng)前由于現(xiàn)有表情識別技術(shù)多依賴于全臉卷積特征,忽略了感興趣區(qū)域的特征提取和表示,因此識別過程中引入基于心理學(xué)認(rèn)知的指向搜索模型,即注意力機(jī)制模型,相關(guān)工作也被引入到表情識別上[27]。Wang等[28]將注意力機(jī)制與殘差網(wǎng)絡(luò)結(jié)合,使網(wǎng)絡(luò)能夠?qū)W習(xí)專注于不同面部單元的感興趣區(qū)域。微軟亞洲研究院于2017年提出一個新的弱監(jiān)督區(qū)域?qū)W習(xí)方法[29-30],引入多通道注意力機(jī)制,該結(jié)構(gòu)不依賴于邊界框標(biāo)注和關(guān)注區(qū)域注釋,僅依賴于特征通道聚類提取注意力區(qū)域,從而獲取局部細(xì)節(jié)特征實(shí)現(xiàn)細(xì)粒度識別。
盡管深度學(xué)習(xí)技術(shù)在人臉表情識別中得到較為成功應(yīng)用和推廣,但是在包括豬等動物個體的面部表情識別相關(guān)的研究和報道極少,2020年Noor等[31]通過VGG-16模型預(yù)訓(xùn)練羊臉表情數(shù)據(jù)集,并成功識別分類綿羊痛苦/非痛苦表情。分析其原因在于,首先動物面部肌群結(jié)構(gòu)與人臉不同,人面部肌群較為發(fā)達(dá),情感表達(dá)變化明顯且豐富,然而動物面部表情變化主要依賴面頰兩側(cè)顴大肌,肌群結(jié)構(gòu)簡單變化幅度較低,而且面部表情持續(xù)時間較短,因此變化較難察覺識別[32-33]。其次動物行為情感的不可控性,動物生理體征采集較為困難,可用于監(jiān)督半監(jiān)督學(xué)習(xí)的規(guī)?;瘶?biāo)準(zhǔn)化數(shù)據(jù)集極少。最后已有的動物面部表情識別相關(guān)工作都是基于靜態(tài)影像,時序性特征缺失。表情是一個動態(tài)發(fā)生的過程,用于理解情緒變化,需要結(jié)合像素級、區(qū)域級和時間信息綜合考慮[13,34-35],然而靜態(tài)表情影像數(shù)據(jù)集缺少時間信息,因此研究采用視頻影像數(shù)據(jù)集對家豬表情做識別分類處理尤為必要。
綜上分析,本文以家豬面部表情識別為研究對象,提出一種基于多注意力機(jī)制級聯(lián)LSTM框架模型(Multi-attention Cascaded Long Short Term Memory,MA-LSTM),用于實(shí)現(xiàn)視頻影像中家豬包括憤怒、恐懼、歡快和平和的面部表情分類識別。首先將豬臉表情視頻影像選擇性逐幀輸入到簡化多任務(wù)級聯(lián)卷積神經(jīng)網(wǎng)絡(luò)(Simplified Multi-task Cascaded Convolutional Networks,SMTCNN)中,實(shí)現(xiàn)豬臉檢測與定位。然后將檢測定位的豬臉面部序列圖像提取卷積特征圖送入多注意力卷積機(jī)制模塊,通過特征通道分組,并結(jié)合弱監(jiān)督聚類獲取注意力區(qū)域,通過注意力關(guān)注各類表情變化引起的顯著性區(qū)域。最后將提取到的卷積特征和注意力特征圖通過合并數(shù)組操作融合為精細(xì)化特征以序列形式送入長短時記憶網(wǎng)絡(luò)(LSTM)中,最終實(shí)現(xiàn)表情識別。
表情標(biāo)定以相關(guān)研究成果[4,16-17,19]為理論依據(jù),結(jié)合家豬養(yǎng)殖專家和豬場技術(shù)人員對被試對象在視頻中的情景環(huán)境進(jìn)行觀察,對采集視頻中的家豬面部表情進(jìn)行劃分和標(biāo)定,構(gòu)建表情數(shù)據(jù)集。具體表情標(biāo)定描述為:歡快,此時豬眼睛略微閉合,上唇翻起、犬牙漏出、耳朵向后拉,一般進(jìn)食或者嬉戲前后表現(xiàn)上述歡快狀態(tài);憤怒,豬會拉起上唇,縮緊犬齒肌肉,鼻子皺紋加深,眼部瞪圓,一般發(fā)生在爭食爭取地盤行為前后;恐懼,當(dāng)豬眼睛微閉、耳朵下垂、鼻子處繃緊皺紋減少時,一般發(fā)生在受驚嚇的狀態(tài)下,比如斗爭后撤退的戰(zhàn)敗方;平和,豬處于較為平和的狀態(tài)下,面部無明顯的五官特征變化。因此家豬表情變化引起的面部區(qū)域變化主要體現(xiàn)在耳朵、眼部和鼻吻部3個主要區(qū)域。豬臉面部表情類別及描述如表1所示。
表1 豬臉表情描述Table1 Pig facial expression description
試驗(yàn)視頻采集來自吉林省農(nóng)安縣某家豬養(yǎng)殖企業(yè),視頻采集對象為隨機(jī)選擇半圈養(yǎng)的20頭長白豬。考慮到面部角度和拍攝時光照變化的影響,將攝像機(jī)固定在圍欄四角,其中3個圍角攝像機(jī)高約60 cm,另外一個設(shè)置在豬只食槽架上,高約30 cm,使得每次豬在喝水時攝像機(jī)可直接拍攝其面部,采集平臺示意圖如圖1所示。
數(shù)據(jù)采集時間為2018年4—6月,采集時間集中在7:00—15:30,經(jīng)過人工初步篩選,共選擇截取30段長時視頻段,每段視頻持續(xù)時間5~8 h不等,幀速是25幀/s。通過觀察并依據(jù)視頻情景環(huán)境人工截取和類別標(biāo)注,比如豬在進(jìn)食過后導(dǎo)致情緒歡快的視頻,在打架過后的憤怒及恐懼視頻,將30個長時視頻段按照表情類別,每類表情截取80個短視頻段,持續(xù)時間在3~6 s不等,4類表情共得到320個短視頻,視頻截取使用軟件Avidemux(開源,版本2.7.5,Windows 64位),每個短視頻僅包含一頭豬的單一表情信息,具體類別示意圖如圖2所示。
視頻數(shù)據(jù)預(yù)處理分為兩部分,首先為滿足本文所提出深度學(xué)習(xí)框架第一階段實(shí)現(xiàn)豬面部區(qū)域有效檢測,利用labelImg軟件對視頻幀圖像中的豬面部區(qū)域進(jìn)行打標(biāo),標(biāo)記后視頻幀圖像得到對應(yīng)的.xml文件。
數(shù)據(jù)增廣,為有效增加數(shù)據(jù)集規(guī)模和多樣性,即增加視角變化和光照條件變化,依次對同一視頻段中視頻幀圖像采用亮度變換、左右翻轉(zhuǎn)、小角度旋轉(zhuǎn)等操作。數(shù)據(jù)增廣具體操作為:隨機(jī)亮度變化為原圖亮度的?50%~50%;視頻幀圖像旋轉(zhuǎn)角度固定在10°左右,以避免旋轉(zhuǎn)角度過大會導(dǎo)致面部信息部分損失。數(shù)據(jù)增廣后短視頻段擴(kuò)充到2240個,其中每個類別視頻段有560個。
本文以家豬面部表情為研究對象,提出一種基于多注意力機(jī)制級聯(lián)LSTM深度模型框架,通過引入視覺注意力模塊對家豬面部表情變化顯著性區(qū)域進(jìn)行特征提取和表示,結(jié)合LSTM時序模型實(shí)現(xiàn)視頻影像中家豬包括憤怒、恐懼、歡快和平和的面部表情分類識別。網(wǎng)絡(luò)模型由3個級聯(lián)結(jié)構(gòu)構(gòu)成,首先將豬臉表情視頻影像等間隔選取幀圖像輸入到簡化多任務(wù)級聯(lián)卷積神經(jīng)網(wǎng)絡(luò)中,用于檢測定位豬臉。然后將提取到的豬臉面部序列幀圖像輸入到多注意力機(jī)制模塊中,用于提取和表示豬臉面部表情變化的顯著性區(qū)域。并將視頻影像逐幀提取到的卷積特征和注意力特征圖通過合并數(shù)組操作融合為精細(xì)化特征輸入到長短時記憶網(wǎng)絡(luò)(LSTM)中,實(shí)現(xiàn)表情分類識別。網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示。
為有效識別豬臉面部表情,豬臉檢測與校正是首先要解決的問題。在借鑒Zhang等[22]的經(jīng)典多任務(wù)級聯(lián)卷積網(wǎng)絡(luò)(Multi-task Cascaded Convolutional Networks,MTCNN)基礎(chǔ)上,提出簡化多任務(wù)級聯(lián)卷積神經(jīng)網(wǎng)絡(luò)(Simplified Multi-task Cascaded Convolutional Networks,SMTCNN),該網(wǎng)絡(luò)由P-Net(Proposal network)和R-Net )(Refine network)組成,僅用于檢測和定位豬臉。簡化后的SMTCNN網(wǎng)絡(luò)結(jié)構(gòu)如下:首先構(gòu)建特征金字塔,對輸入樣本圖片進(jìn)行縮放,以解決輸入視頻幀圖像尺度不一致的問題。SMTCNN模型的第一階段P-Net用于提取初步候選區(qū)域,對候選窗口進(jìn)行校準(zhǔn),并采用非極大值抑制對候選框進(jìn)行排序,最終得到初步篩選后的豬臉候選框。第二階段R-Net用于對P-Net網(wǎng)絡(luò)選取的候選區(qū)域進(jìn)行精細(xì)篩選,去除絕大部分的非豬臉候選區(qū)域,實(shí)現(xiàn)豬臉檢測和邊界框回歸。
損失函數(shù)設(shè)計,提出的SMTCNN與經(jīng)典MTCNN的另外一個區(qū)別在于其損失函數(shù)僅由豬臉分類損失函數(shù)和面部區(qū)域邊界框回歸的歐氏距離回歸損失函數(shù)組成。豬臉分類損失函數(shù),采用交叉熵?fù)p失函數(shù)用于視頻幀圖片中豬臉判定,具體表達(dá)式為
其中i表示樣本集中第i個樣本,表示樣本的真實(shí)標(biāo)簽,ip表示網(wǎng)絡(luò)輸出是豬臉的概率,det用于表示SMTCNN任務(wù)類別為豬臉判別,表示損失函數(shù)值。邊界框回歸損失函數(shù)采用歐氏距離度量方式,具體函數(shù)表達(dá)式如下:
SMTCNN優(yōu)化與訓(xùn)練,SMTCNN訓(xùn)練優(yōu)化目標(biāo)函數(shù)如下:
式中Lcd表示豬臉檢測任務(wù)的聯(lián)合損失函數(shù),N為訓(xùn)練集樣本總數(shù),表示損失函數(shù),jα表示第j個任務(wù)對應(yīng)損失函數(shù)所擁有的權(quán)重,為第i個樣本在第j個任務(wù)中的標(biāo)簽,取值為0或1,P-Net和R-Net任務(wù)對應(yīng)權(quán)值分配比例分別為αdet=1和
視覺注意力組件已經(jīng)成為眾多網(wǎng)絡(luò)模型的重要組成部分[26-27,36]。多注意力機(jī)制基本思想為,卷積特征通道往往與某種類型的視覺模式對應(yīng),因此通過對特征通道進(jìn)行分組,利用特征圖不同通道關(guān)注的視覺模式不同,峰值響應(yīng)區(qū)域也不同這一特點(diǎn),將空間相近的模式進(jìn)行聚類,并加權(quán)到鄰近位置出現(xiàn)峰值響應(yīng)的卷積特征通道形成注意力區(qū)域。多注意力機(jī)制模塊結(jié)構(gòu)如圖4所示。
2.3.1 特征通道分組預(yù)訓(xùn)練
輸入樣本X提取卷積特征,定義為W*X,其維度是w×h×c,W表示特征提取單元的參數(shù)集合,其中w、h、c表示輸入樣本的寬、高和特征通道的數(shù)量,*表示特征提取單元的卷積、池化和激活操作。每個特征通道均用向量進(jìn)行表示,其元素為所有訓(xùn)練樣本在該特征通道上對應(yīng)峰值響應(yīng)的坐標(biāo)值,表示為其中分別表示第i個輸入樣本在該特征通道上對應(yīng)峰值響應(yīng)的坐標(biāo)值,Ω表示訓(xùn)練樣本數(shù)量。
2.3.2 特征通道分組
通道分組是多注意力機(jī)制的核心結(jié)構(gòu)單元,用于生成注意力區(qū)域的權(quán)重特征圖。具體實(shí)現(xiàn)思想如下:首先將位置向量作為特征,通過全連接層實(shí)現(xiàn)聚類。具體執(zhí)行步驟如下:擬聚類生成n個注意力區(qū)域,定義一組全連接函數(shù)對應(yīng)第υ個注意力區(qū)域,接收c維特征通道的輸入,并且生成c維權(quán)重向量du,用于指代每個特征通道對于注意力區(qū)域υ的貢獻(xiàn)度,具體計算表達(dá)式如下
其次,生成注意力區(qū)域特征圖。基于學(xué)習(xí)到的權(quán)重向量,獲取每個關(guān)注區(qū)域的注意力掩模矩陣M u(X),υ∈ {1 ,2,…,n}表示不同注意力區(qū)域索引值,公式如下:
其中[·]k表示卷積特征W*X的第k個特征通道,權(quán)重向量dk與對應(yīng)特征通道對應(yīng)元素相乘。生成注意力區(qū)域特征圖,具體計算表達(dá)式如下:其中Pu(X)表示第υ個注意力區(qū)域的特征圖,通過每個通道上的池化計算得出。
最后,構(gòu)建通道分組聚類約束函數(shù),用Lcg(·)表示,目的是判斷高關(guān)注區(qū)域特征點(diǎn)與弱關(guān)注區(qū)域特征點(diǎn)之間的相關(guān)性,即同一個注意力區(qū)域內(nèi)通道峰值響應(yīng)區(qū)域相近的坐標(biāo)更聚集,用函數(shù)Dis(·)表示,不同注意力區(qū)域內(nèi)通道峰值響應(yīng)區(qū)域的坐標(biāo)盡量遠(yuǎn),用函數(shù) Div(·)表示,λ表示目標(biāo)約束分配權(quán)重,具體約束表達(dá)式如下:
其中(x,y)取自注意力區(qū)域坐標(biāo),mυ(x,y)對應(yīng)關(guān)注區(qū)域的注意力掩模矩陣M u(X)在(x,y)坐標(biāo)處的響應(yīng)值,tx和ty表示訓(xùn)練集對第υ個注意力區(qū)域的峰值響應(yīng)的坐標(biāo)值,υ∈ {1 ,2,…,n}表 示 不 同 注 意 力 區(qū) 域 索 引 值,maxmυ(x,y)用于表示(x,y)坐標(biāo)位置能夠最佳代表該區(qū)域的響應(yīng)值,Tmrg為常量代表預(yù)設(shè)定邊界閾值。
針對家豬面部表情識別問題,一方面需要準(zhǔn)確檢測和定位視頻影像中的家豬面部區(qū)域,以去除背景冗余特征對于面部表情精細(xì)化識別的影響。另一方面,對特征通道響應(yīng)模式進(jìn)行聚類分組,構(gòu)建家豬面部表情顯著性變化區(qū)域,生成注意力特征圖,從而為表情識別提供細(xì)粒度差異化特征。構(gòu)建加權(quán)線性最小化網(wǎng)絡(luò)模型目標(biāo)函數(shù),具體表達(dá)式如下:
其中γ為平衡階段目標(biāo)函數(shù)的權(quán)值,L cd和Lcg表達(dá)式詳見式(3)及式(7)。Lcd表示用于豬臉檢測的簡化多任務(wù)級聯(lián)網(wǎng)絡(luò)的優(yōu)化目標(biāo)函數(shù),αj表示SMTCNN中第j個任務(wù)對應(yīng)損失函數(shù)所擁有的權(quán)重,j∈ {d et,box},det用于表示任務(wù)類別為豬臉判別,box用于表示任務(wù)類別為豬臉回歸框檢測,Lij表示第i個樣本在任務(wù)j中的損失值。L cg表示用于約束通道分組聚類的優(yōu)化目標(biāo)函數(shù),λ表示注意力區(qū)域中目標(biāo)約束分配權(quán)重,Mυ表示第υ個區(qū)域的注意力掩模矩陣。
本研究提出一種基于多注意力機(jī)制級聯(lián)LSTM深度模型框架,輸入待識別視頻樣本后,在卷積神經(jīng)網(wǎng)絡(luò)中引入視覺注意力模塊對家豬面部表情提取包含全局特征與顯著性區(qū)域特征的精細(xì)化特征,結(jié)合LSTM時序模型實(shí)現(xiàn)視頻影像中家豬包括憤怒、恐懼、歡快和平和的面部表情分類識別,最終輸出表示待識別視頻類別的向量值。主要步驟如下:
1)數(shù)據(jù)集樣本維度縮放,構(gòu)建圖像金字塔以適應(yīng)不同維度樣本輸入。然后將得到的圖像金字塔輸入至簡化級聯(lián)網(wǎng)絡(luò)結(jié)構(gòu),即P-Net和R-Net中進(jìn)行訓(xùn)練。P-Net是一個全卷積網(wǎng)絡(luò),大小為w×h的樣本輸入其中經(jīng)過尺度重置變?yōu)?2×12×3,經(jīng)過3×3最大池化和三次3×3卷積,輸出大小為(wnew,hnew, 16)的特征塊。其次將P-Net得到的所有候選對象傳遞到下一個級聯(lián)網(wǎng)絡(luò)結(jié)構(gòu)R-Net中,重新歸一化序列圖大小至24×24×3,經(jīng)過兩個3×3卷積和最大池化,1個2×2卷積,最后通過通道數(shù)為128的全連接層輸出校準(zhǔn)后的豬臉邊界框坐標(biāo)值。
2)豬臉卷積特征提取,將步驟1得到的豬臉邊界框單獨(dú)提取出并構(gòu)建為新的只包含豬臉信息,大小為224×224×3的視頻段,將其輸入到深度為24的殘差網(wǎng)絡(luò)中,該網(wǎng)絡(luò)結(jié)構(gòu)包含8組殘差單元,每組殘差單元前兩層 結(jié) 構(gòu) 為BN-ReLu-Conv(3×3),最 后 結(jié) 構(gòu) 為BN-Conv(3×3),步長為1,該網(wǎng)絡(luò)每一階段的實(shí)現(xiàn)還需要加入一個下采樣結(jié)構(gòu),此時將步長設(shè)定為2得到大小為28×28×512豬臉卷積特征圖。
3)多注意力卷積網(wǎng)絡(luò)提取豬臉精細(xì)化注意力特征圖,利用步驟2得到的28×28×512大小的卷積特征圖,展開其特征通道通過堆疊的全連接層產(chǎn)生一個權(quán)重向量du,通過學(xué)習(xí)到的權(quán)重向量聚類響應(yīng)區(qū)域相近的通道,同類的通道相加,得到相應(yīng)的通道分組,通過函數(shù)M u(X)歸一化,由此得到網(wǎng)絡(luò)所需注意力區(qū)域掩模,其中輸入圖像序列維度為28×28×512,注意力區(qū)域掩模矩陣維度為28×28×1。最后將注意力區(qū)域特征分別和豬臉卷積特征圖做空間池化運(yùn)算,得到維度為28×28×512的豬臉注意力精細(xì)化特征圖,依據(jù)公式(6)做空間池化運(yùn)算。
4)LSTM網(wǎng)絡(luò)實(shí)現(xiàn)豬臉表情識別分類。將步驟2)和3)分別提取的卷積特征圖和豬臉注意力精細(xì)化特征圖串聯(lián),得到28×28×1024維度的樣本,為簡化輸入樣本大小,利用1×1×512卷積核做降維融合,得到28×28×512維度的特征序列逐幀輸入到LSTM網(wǎng)絡(luò)中,輸入門it的輸入是上一層隱層的輸出ht-1和這一時刻的輸入xt,再經(jīng)過網(wǎng)絡(luò)內(nèi)部遺忘門、由記憶單元不斷更新特征信息的候選向量,最終由輸出門輸出結(jié)果,經(jīng)過一個全連接層,連接softmax得到代表四個表情類別的概率值。LSTM的隱層單元設(shè)為單層128,輸入序列大小為16幀。
視頻采集設(shè)備為TCL-D857FHD攝像機(jī),分辨率為640×480 pixel/幀,存儲設(shè)備為希捷STDR1000移動硬盤,硬件環(huán)境配置為CPU為Intel Xeon(R) Gold 5218R CPU @2.10 GHz×40,GPU為GeForce RTX 2080 Ti/PCIe/SSE2,磁盤容量為2 TB,系統(tǒng)為Ubuntu18.04。軟件配置環(huán)境:Anaconda3-4.8.2版本編輯環(huán)境,使用語言為python 3.7.0,工具包用到Pytorch、OpenCV和sklearn等。
試驗(yàn)過程中,對比試驗(yàn)LBP-TOP[37]、HOG-TOP[38]、ELRCN[39]、STC-NLSTM[26]均參照論文中原型框架和超參數(shù)設(shè)置方式,本文提出模型采用隨機(jī)梯度下降方法,樣本訓(xùn)練批次為32,并通過驗(yàn)證集調(diào)整參數(shù)對網(wǎng)絡(luò)模型的訓(xùn)練情況做初步評價,為適應(yīng)網(wǎng)絡(luò)的輸入要求以及保留序列幀的特征信息,在網(wǎng)絡(luò)初始將數(shù)據(jù)集歸一化大小為224×224像素大小,迭代輪數(shù)設(shè)定為200。網(wǎng)絡(luò)優(yōu)化采用隨機(jī)梯度下降優(yōu)化算法,動量設(shè)置為0.9,學(xué)習(xí)率設(shè)為0.01,權(quán)重衰減參數(shù)設(shè)置為0.0001。
本節(jié)在建立的豬臉表情數(shù)據(jù)集上從如下兩方面設(shè)計試驗(yàn),驗(yàn)證提出MA-LSTM框架模型的有效性。首先采用自驗(yàn)證方式,通過關(guān)閉注意力機(jī)制模塊前后,統(tǒng)一試驗(yàn)方式對比試驗(yàn)結(jié)果,驗(yàn)證融入的多注意力機(jī)制模塊的有效性。將本文提出的基于多注意力機(jī)制級聯(lián)LSTM模型與表情識別方法LBP-TOP[37]、HOG-TOP[38]、ELRCN[39]、STC-NLSTM[26]進(jìn)行對比驗(yàn)證。
試驗(yàn)結(jié)果采用準(zhǔn)確率(Accuracy)、精確率(Precision)、召回率(Recall)和F1分?jǐn)?shù)(F1 Score)等進(jìn)行評價。
多注意力機(jī)制模塊的實(shí)施原理依據(jù)特征圖不同通道峰值響應(yīng)區(qū)域存在顯著差異,通過弱監(jiān)督聚類對特征通道進(jìn)行分組,獲取注意力區(qū)域來關(guān)注由于各類表情變化引起的面部顯著性差異,從而實(shí)現(xiàn)家豬面部表情的精細(xì)化識別。為驗(yàn)證多注意力機(jī)制模塊的有效性,設(shè)計通過關(guān)閉多注意力機(jī)制模塊,觀察本文工作MA-LSTM模型的試驗(yàn)結(jié)果來驗(yàn)證融入注意力機(jī)制對于精細(xì)化識別的有效性。試驗(yàn)在增廣后的每類560個短視頻,共計2 240個短視頻段上采用5折交叉驗(yàn)證取均值的方式,具體識別結(jié)果如表2所示。
表2 MA-LSTM自驗(yàn)證結(jié)果Table 2 Self-validatiing results of MA –LSTM %
從表2試驗(yàn)結(jié)果可以看出,引入多注意力機(jī)制后的MA-LSTM模型對于四類表情的識別準(zhǔn)確率皆有明顯提升,對比關(guān)閉多注意力機(jī)制模塊平均識別準(zhǔn)確率平均提升6.3個百分點(diǎn),其中憤怒表情識別結(jié)果提升約5.6個百分點(diǎn),恐懼提升約5.1個百分點(diǎn),歡快提升約8.3個百分點(diǎn),平和提升約6.2個百分點(diǎn)。上述數(shù)值結(jié)論驗(yàn)證了加入多注意力機(jī)制模塊對于提升模型的精細(xì)識別性能的有效性。從試驗(yàn)結(jié)果進(jìn)一步看出,其中憤怒與歡快兩類表情識別準(zhǔn)確率較其他表情識別準(zhǔn)確率略高,該結(jié)論也與表1中依據(jù)相關(guān)研究結(jié)論和實(shí)踐經(jīng)驗(yàn)總結(jié)相一致,即在4類表情中,憤怒和歡快引起的家豬面部區(qū)域變化較為明顯,因此識別精度較高。
分析圖5呈現(xiàn)的混淆矩陣中的誤判結(jié)果可以發(fā)現(xiàn),憤怒和歡快彼此誤分率較高,即應(yīng)用MA-LSTM模型憤怒誤分為歡快為5.1個百分點(diǎn),歡快誤分為憤怒為3.0個百分點(diǎn),恐懼誤分為平和為8.1個百分點(diǎn),平和誤分為恐懼9.5個百分點(diǎn),對比關(guān)閉多注意力機(jī)制模塊,兩類相互誤分率較高的表情誤分率分別平均降低了4.1和0.7個百分點(diǎn)。上述結(jié)論進(jìn)一步驗(yàn)證多注意力機(jī)制對于提升框架識別性能的有效性。進(jìn)一步分析結(jié)果發(fā)現(xiàn),誤分表情之間具有極高的相似性,同時正確識別視頻和誤分表情視頻面部均有泥巴,因此依據(jù)常識泥巴對于表情的準(zhǔn)確識別產(chǎn)生一定的影響。
另外,從可視化角度進(jìn)一步對多注意機(jī)制模塊進(jìn)行驗(yàn)證。從憤怒、恐懼、歡快和平和表情類別中選取單幀示例圖像,分別提取卷積特征圖和多注意力特征圖進(jìn)行可視化。其中多注意力機(jī)制模塊提取的特征圖采用熱圖方式表示,可視化結(jié)果如圖6所示。
通過可視化特征圖結(jié)果可以觀察到當(dāng)家豬產(chǎn)生表情時,注意力熱圖高亮區(qū)域也主要集中在眼睛、鼻吻和耳朵等位置,可視化呈現(xiàn)結(jié)果也與表1中依據(jù)相關(guān)研究結(jié)論和實(shí)踐經(jīng)驗(yàn)總結(jié)相一致,因此也驗(yàn)證融入多注意力機(jī)制模塊的有效性。
圖7 為MA-LSTM網(wǎng)絡(luò)模型在訓(xùn)練集和驗(yàn)證集上的平均識別準(zhǔn)確率和損失值曲線圖,從圖中可以看出識別模型隨著迭代次數(shù)的增加,網(wǎng)絡(luò)迭代次數(shù)至70時逐漸趨于穩(wěn)定,最終訓(xùn)練集上的損失值為0.103,驗(yàn)證集上的損失值為0.154。模型的識別準(zhǔn)確率在迭代次數(shù)至200后準(zhǔn)確率趨于穩(wěn)定,在訓(xùn)練集上達(dá)到0.967,在驗(yàn)證集上的準(zhǔn)確率也穩(wěn)定在0.918左右。從折線圖中可以看出訓(xùn)練集與驗(yàn)證集的準(zhǔn)確率相差不大,MA-LSTM具有較好的穩(wěn)定性。
為驗(yàn)證MA-LSTM有效性,選取4種常用算法LBP-TOP[37]、HOG-TOP[38]、ELRCN[39]、STC-NLSTM[26]進(jìn)行對比驗(yàn)證,上述方法均使用論文中原型框架和參數(shù)設(shè)置方式,相關(guān)代碼從Git-hub上下載論文源代碼。試驗(yàn)仍然采用5折交叉驗(yàn)證取識別準(zhǔn)確率均值的方式。試驗(yàn)結(jié)果如表3所示。
表3 豬臉表情數(shù)據(jù)集試驗(yàn)結(jié)果對比Table 3 Comparison results of pig face expression dataset %
在對比試驗(yàn)中,由表3試驗(yàn)結(jié)果可以看出本文所提MA-LSTM在4類表情的平均識別準(zhǔn)確率為91.826%,MA-LSTM模型的平均識別準(zhǔn)確率較傳統(tǒng)的LBP-TOP[37]和HOG-TOP[38]模型高出約32.6和18.0個百分點(diǎn),其中憤怒表情識別結(jié)果分別提升約28.8和15.6個百分點(diǎn),恐懼提升約36.0和16.8個百分點(diǎn),歡快提升約35.4和16.9個百分點(diǎn),平和提升約30.0和22.5個百分點(diǎn)。對比表情識別模型ELRCN[39]和STC-NLSTM[26]平均識別準(zhǔn)確率高出約5.9和4.4個百分點(diǎn),其中憤怒表情識別結(jié)果分別提升約5.6和3.7個百分點(diǎn),恐懼提升約4.7和4.1個百分點(diǎn),歡快提升約6.5和4.1個百分點(diǎn),平和提升約7.0和5.6個百分點(diǎn)。該結(jié)果與試驗(yàn)4.1的結(jié)果分布規(guī)律一致,憤怒與歡快兩類表情的識別準(zhǔn)確率略高于其他表情,即家豬表情引起面部區(qū)域變化較為顯著,則該種表情識別準(zhǔn)確率較高。
面部表情作為傳達(dá)情感的一種有效信息,可以更好評估家畜個體情緒和心理狀況。但是動物面部表情展現(xiàn)主要依賴面頰兩側(cè)顴大肌,肌群結(jié)構(gòu)較為簡單,因此表情變化較難識別。因此,本文提出一種基于視覺多注意力機(jī)制級聯(lián)LSTM框架模型用于對家豬面部表情進(jìn)行分類識別,通過引入多注意力機(jī)制提升對家豬面部表情變化顯著性區(qū)域的關(guān)注,從而在一定程度解決家豬面部肌群結(jié)構(gòu)較為簡單,變化較難識別的問題。在自標(biāo)注家豬表情影像數(shù)據(jù)集上試驗(yàn)結(jié)果表明,本文提出的MA-LSTM模型在4類表情的平均識別準(zhǔn)確率為91.826%,對比關(guān)閉多注意力機(jī)制模塊,平均識別準(zhǔn)確率提升6.3個百分點(diǎn),其中憤怒表情識別結(jié)果提升約5.6個百分點(diǎn),恐懼提升約5.1個百分點(diǎn),歡快提升約8.3個百分點(diǎn),平和提升約6.2個百分點(diǎn)。MA-LSTM模型對比LBP-TOP、HOG-TOP、ELRCN、STC-NLSTM,平均識別準(zhǔn)確率分別提升約32.6、18.0、5.9和4.4個百分點(diǎn)。上述試驗(yàn)結(jié)果驗(yàn)證本文提出模型框架的有效性。