張 鵬,董宇軒
(1. 煙臺(tái)科技學(xué)院數(shù)據(jù)智能學(xué)院,煙臺(tái) 265600;2.煙臺(tái)科技學(xué)院藝術(shù)設(shè)計(jì)學(xué)院,煙臺(tái) 265600)
博物館數(shù)字化[1]展示是近年來伴隨著數(shù)字技術(shù)的發(fā)展及其在博物館文物展覽與研究領(lǐng)域的拓展應(yīng)用而產(chǎn)生的新的展示形式。它利用交互藝術(shù)[2]對(duì)觀眾的感官(視覺、聽覺、觸覺)進(jìn)行信息采集,并識(shí)別用戶情感信息,做出相應(yīng)的反饋,使得觀眾可以達(dá)到身臨其境的感受,通過互動(dòng)等方式,在達(dá)到博物館展品展示的教育功能的同時(shí),還可以增強(qiáng)展品的趣味性。
人臉表情是在人際交往中判斷對(duì)方真實(shí)情感狀態(tài)的一個(gè)重要信息。隨著人工智能技術(shù)的發(fā)展,人臉表情識(shí)別技術(shù)正融入到人機(jī)交互中,促進(jìn)人機(jī)交互技術(shù)的發(fā)展,使機(jī)器更加能夠讀懂人的真實(shí)情感狀態(tài)。智慧醫(yī)療、聊天機(jī)器人、學(xué)生專注度測(cè)量等一系列的應(yīng)用場(chǎng)景應(yīng)運(yùn)而生。
人臉表情的相關(guān)研究由來已久,Ekman等[3]定義了六種基本表情,包括高興、恐懼、悲傷、生氣、驚訝和厭惡。人臉表情識(shí)別分為圖片采集和預(yù)處理、表情特征提取、表情分類三個(gè)步驟。其中特征提取是決定人臉表情識(shí)別的關(guān)鍵。特征提取一般分為傳統(tǒng)特征提取方法和基于深度學(xué)習(xí)的特征提取方法。傳統(tǒng)的面部表情識(shí)別方法采用人工設(shè)計(jì)的特征提取器,然后使用分類器來實(shí)現(xiàn)整個(gè)識(shí)別過程,其性能主要取決于特征表達(dá)的有效性。例如,局部二進(jìn)制模型LBP、HOG、SIFT、SURF、Haar 等。研究人員可以通過Gabor 濾波器[4]等傳統(tǒng)的特征提取方法獲取人臉的紋理信息,將這些信息作為SVM(支持向量機(jī))模型的輸入,實(shí)現(xiàn)對(duì)表情的識(shí)別。但是傳統(tǒng)的特征提取方法存在魯棒性較弱和準(zhǔn)確率較低等問題,無法很好地適應(yīng)復(fù)雜的人臉表情識(shí)別任務(wù)。
隨著深度學(xué)習(xí)技術(shù)的發(fā)展,提出了一系列可用于提取人臉表情特征的深度神經(jīng)網(wǎng)絡(luò),基于深度學(xué)習(xí)的人臉表情識(shí)別方法逐漸成為主流。代表性的有卷積神經(jīng)網(wǎng)絡(luò)(CNN)[5]和長短時(shí)記憶網(wǎng)絡(luò)(LSTM)[6],CNN 用于提取每幀圖像的空間特征,LSTM 用于學(xué)習(xí)視頻圖像幀之間的時(shí)間維度信息表示。
為了進(jìn)一步提高網(wǎng)絡(luò)模型對(duì)表情特征的提取能力,研究人員在卷積神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上引入了注意力機(jī)制,包括通道注意力機(jī)制[7]、混合注意力機(jī)制[8]等。這些注意力機(jī)制能夠?qū)NN 提取出的多通道特征向量在空間和通道維度上賦予不同的權(quán)重,進(jìn)而提高卷積網(wǎng)絡(luò)模型對(duì)人臉表情重要特征的提取能力。倪錦園等[9]通過構(gòu)建深度殘差模型,并在網(wǎng)絡(luò)中引入通道注意力機(jī)制,讓網(wǎng)絡(luò)模型能夠正確分類被擦除部分人臉的表情圖片,提高了網(wǎng)絡(luò)的魯棒性與識(shí)別準(zhǔn)確率。周江等[10]提出CNN-LSTM 網(wǎng)絡(luò)集成結(jié)構(gòu)的視頻表情識(shí)別方法。雖然該方法在時(shí)間和空間維度都有良好的表達(dá)。但是,對(duì)于人臉表情重要特征提取上能力欠缺。
本文算法應(yīng)用場(chǎng)景為博物館中,整體光線比較暗,所以對(duì)于人臉表情識(shí)別難度增加,需要對(duì)人臉特征進(jìn)行增強(qiáng),提高識(shí)別成功率。本文提出使用CNN 和LSTM 作為框架基礎(chǔ),CNN用于提取每幀圖像的空間特征;LSTM 用于學(xué)習(xí)視頻圖像幀之間的時(shí)間維度信息表示。同時(shí),對(duì)表情特征施加空間注意力,增強(qiáng)人臉表情重要特征在空間上的提取能力和表達(dá)能力。利用增加了空間注意力機(jī)制的特征,與LSTM 模型中的時(shí)間信息相運(yùn)算,使得導(dǎo)入LSTM 模型中的特征既具備空間注意力,又具備時(shí)間特征增強(qiáng)。
本文提出了適用于博物館場(chǎng)景,基于注意力機(jī)制的人臉表情識(shí)別算法。整體流程如圖1所示,需要識(shí)別的人臉特征首先通過CNN 提取面部外觀特征,即面部的空間特征。如果僅僅依靠空間特征進(jìn)行表情識(shí)別,特征分辨性和表達(dá)能力不足以獲得準(zhǔn)確的結(jié)果。所以,將空間特征導(dǎo)入到LSTM 中,利用LSTM 網(wǎng)絡(luò)對(duì)時(shí)序特征的處理能力,使得人臉特征結(jié)合空間和時(shí)間雙特征。為了能夠讓導(dǎo)入的空間特征效果更好,在導(dǎo)入前,通過注意力機(jī)制為空間特征施加一個(gè)空間注意力機(jī)制,加強(qiáng)空間特征的權(quán)重。同時(shí),利用增加了空間注意力機(jī)制的特征,與LSTM 模型中的時(shí)間信息相運(yùn)算,使得導(dǎo)入LSTM 模型中的特征既具備空間注意力,又具備時(shí)間特征增強(qiáng)。
圖1 基于空間注意力機(jī)制的時(shí)空雙特征人臉表情識(shí)別方法算法流程
本文通過使用3個(gè)卷積層學(xué)習(xí)重要性掩膜的方式生成空間注意力。為了實(shí)現(xiàn)空間注意力的施加,對(duì)每一次輸入的人臉特征,通過點(diǎn)積運(yùn)算進(jìn)行融合,其目的是根據(jù)特征的重要性,加強(qiáng)所需區(qū)域的特征表達(dá)能力。計(jì)算公式如式(1)所示:
式中,Xi為第i個(gè)獲取的人臉特征,Mi為該人臉的注意力,Zi是施加空間注意力后的人臉特征。
CNN 提取的人臉特征經(jīng)過空間注意力模塊后,進(jìn)入本文所提出的增強(qiáng)型LSTM 網(wǎng)絡(luò)模塊,對(duì)時(shí)間特征進(jìn)行提取、處理。
LSTM 網(wǎng)絡(luò)是利用各種門實(shí)現(xiàn)對(duì)特征的時(shí)序處理。主要有遺忘門、輸入門和輸出門。增強(qiáng)型LSTM 網(wǎng)絡(luò)模塊比起傳統(tǒng)的LSTM 網(wǎng)絡(luò)來說,對(duì)于輸入的目標(biāo)特征施加了空間注意力,使得特征在時(shí)空表達(dá)能力上有了進(jìn)一步提高。以下為本算法設(shè)計(jì)的LSTM處理公式。
為了讓施加空間注意力的人臉特征Zi在輸入LSTM 網(wǎng)絡(luò)時(shí)具備時(shí)間特征,使用前饋網(wǎng)絡(luò),將其與ht-1進(jìn)行計(jì)算,計(jì)算公式如式(2)所示:
其中,ft,it,Ot分別表示遺忘門、輸入門、輸出門。
圖2 增強(qiáng)型LSTM結(jié)構(gòu)
LSTM 網(wǎng)絡(luò)主要包括遺忘門、輸入門、輸出門,本算法結(jié)合空間注意力機(jī)制,分別對(duì)遺忘門、輸入門、輸出門進(jìn)行了重新設(shè)計(jì)。
在遺忘門的設(shè)計(jì)中,Yit表示在t 時(shí)間第i 個(gè)經(jīng)過空間注意力輸入的人臉特征,ht-1表示上個(gè)時(shí)刻的隱藏狀態(tài)。σ表示Sigmoid 激活函數(shù),bf和Wf表示可學(xué)習(xí)的權(quán)重參數(shù)。遺忘門的作用是根據(jù)權(quán)值分配,將對(duì)于當(dāng)前時(shí)刻不重要的信息遺忘,只保留當(dāng)前重要的信息。計(jì)算公式如式(3)所示:
在輸出門設(shè)計(jì)中,Ct表示當(dāng)前時(shí)刻的輸出,其中包含了通過遺忘門與上一時(shí)刻輸入相乘,保留與當(dāng)前時(shí)刻相關(guān)的信息;輸入門與當(dāng)前時(shí)刻所學(xué)習(xí)到的重要信息相乘,提純當(dāng)前時(shí)刻的信息。計(jì)算公式如式(6)、式(7)、式(8)所示:
輸入門和遺忘門的信息相加之后,直接輸出到下一層。輸出門還有個(gè)分支,Yit通過激活之后和tanh 的輸出相乘,然后作為隱藏狀態(tài)傳給下一層。該分支的作用是將當(dāng)前時(shí)刻提純后的有用信息傳遞給下一時(shí)刻繼續(xù)使用,由此循環(huán)往復(fù),直到結(jié)束。
本次實(shí)驗(yàn)使用RML(ryerson multimedia lab)人臉表情數(shù)據(jù)庫,該庫采集了來自六個(gè)不同國家、不同文化背景的人在自然狀態(tài)下的愉悅、困惑(害怕)、驚訝、疲倦(悲傷)和中性等人臉基本表情樣本,共計(jì)450 張人臉表情圖片和500句左右的語音信息。
在消融實(shí)驗(yàn)中,本文對(duì)比了三種不同的模型:①CNN;②CNN 加上本文所提的空間注意力機(jī)制;③CNN、LSTM 加上本文所提出的空間注意力機(jī)制。
消融實(shí)驗(yàn)結(jié)果見表1,實(shí)驗(yàn)數(shù)據(jù)表明,單純使用CNN 模型的準(zhǔn)確率為60.20%,而如果將本文所提出的空間注意力機(jī)制加入CNN 模型中,準(zhǔn)確率可提升到63.58%。因?yàn)樽⒁饬C(jī)制中,CNN 提取的人臉特征又重新通過多層卷積網(wǎng)絡(luò)學(xué)習(xí)其重要特征,該重要特征與人臉特征進(jìn)行卷積運(yùn)算得到帶有空間注意力的人臉特征,使得特征更加具有分辨性。但是該特征只考慮了空間特征,缺少時(shí)間維度的特征支持。本文所提算法是將CNN 與LSTM 融合,并加上本文所提出的空間注意力機(jī)制,LSTM 模型主要是在時(shí)間維度上提供支持,與以往導(dǎo)入LSTM 的特征不同,本文導(dǎo)入LSTM 模型的特征是帶有空間注意力的人臉特征,其特征在時(shí)間維度、空間維度都具有一定的識(shí)別能力,準(zhǔn)確率可以達(dá)到64.63%。
表1 消融實(shí)驗(yàn)對(duì)比結(jié)果
圖3是本文所提出的表情識(shí)別算法的混淆矩陣圖。圖中將愉悅、困惑、驚訝、中性、疲倦這五種表情的真實(shí)標(biāo)簽與預(yù)測(cè)標(biāo)簽做了對(duì)比,測(cè)試實(shí)際表情的準(zhǔn)確率。
圖3 表情識(shí)別結(jié)果的混淆矩陣圖
從圖3可以看出,愉悅和疲倦這兩種表情的準(zhǔn)確率最高,正確識(shí)別率分別是78%和75%,而困惑的正確識(shí)別率最低,只有43%。因?yàn)槔Щ蠛苋菀妆慌袛酁槠>?,困惑與疲倦在表情識(shí)別上具有很大的相似性,容易使得網(wǎng)絡(luò)模型產(chǎn)生誤判。驚訝與中性兩種表情表現(xiàn)較好,正確識(shí)別率分別為68%和66%。
本文提出了一種在博物館場(chǎng)景下,基于空間注意力機(jī)制的時(shí)空雙特征人臉表情識(shí)別方法??臻g特征采用CNN 處理、時(shí)間特征采用LSTM處理。同時(shí),通過3個(gè)卷積層神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)人臉特征的重要性掩膜,并與人臉特征做點(diǎn)積運(yùn)算獲得空間注意力機(jī)制。在RML 情感數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),結(jié)果表明本文所提算法整體表現(xiàn)良好,對(duì)于愉悅和疲倦兩種表情處理結(jié)果最好。