李丹錦
(北京工業(yè)大學(xué)信息學(xué)部,北京100000)
在圖像識(shí)別領(lǐng)域中,人臉識(shí)別是主流的研究方向,從傳統(tǒng)圖像處理的人臉檢測(cè)和人臉邊緣特征提取,VGG-Face實(shí)現(xiàn)人臉識(shí)別的高維特征提取,以及近年國內(nèi)seetaFace算法的提出,都標(biāo)志著人臉識(shí)別領(lǐng)域算法的突飛猛進(jìn),廣義的人臉識(shí)別主要包括四大人臉技術(shù),分別為人臉檢測(cè)、人臉對(duì)齊、人臉驗(yàn)證和狹義的人臉識(shí)別,分別實(shí)現(xiàn)了在自然場(chǎng)景中對(duì)人臉處理的各個(gè)流程,其中人臉識(shí)別的延伸領(lǐng)域也有了很大發(fā)展,如人的性別、年齡、表情等特征的識(shí)別,本文主要實(shí)現(xiàn)了人臉檢測(cè)、人臉對(duì)齊、人臉多模態(tài)識(shí)別的算法和相關(guān)的改進(jìn),并將其與視頻分類的算法相結(jié)合,實(shí)現(xiàn)在視頻領(lǐng)域的智能化應(yīng)用,為未來做視頻分類提供思路、鋪墊基礎(chǔ)。
本文主要具體針對(duì)人臉的表情識(shí)別進(jìn)行研究,對(duì)基于視頻片段的表情識(shí)別做出改進(jìn),以期提高基準(zhǔn)算法的識(shí)別準(zhǔn)確率和實(shí)時(shí)性。得出人臉多模態(tài)的分類標(biāo)簽后,繼續(xù)研究視頻關(guān)鍵片段的選取,確定一段短視頻的數(shù)個(gè)關(guān)鍵序列,針對(duì)這些序列做多模態(tài)識(shí)別,對(duì)每個(gè)序列保留分類相似度前二的兩個(gè)標(biāo)簽,隨后利用這些關(guān)鍵序列的情感標(biāo)簽做數(shù)據(jù)分析,得到視頻的情感分類標(biāo)簽。算法的整體流程圖如圖1所示:
圖1 算法基本流程
人臉多模態(tài)識(shí)別文中主要指人臉面部多表情識(shí)別,本文定義的表情種類有7種,分別為Angry、Disgust、Fear、Happy、Neutral、Sad、Surprise,本課題基于視頻片段做研究,在表情識(shí)別的流程中主要包括人臉檢測(cè)、人臉矯正(對(duì)齊)、人臉多模態(tài)識(shí)別三部分工作。本文在數(shù)據(jù)集AFEW上做最終訓(xùn)練,該數(shù)據(jù)集主要截取于電影中的經(jīng)典場(chǎng)景,需要處理的原始數(shù)據(jù)是自然場(chǎng)景下的圖像數(shù)據(jù),而非規(guī)格化之后的標(biāo)準(zhǔn)數(shù)據(jù),在算法處理上會(huì)有一些不同。
首先對(duì)于人臉檢測(cè)算法,并非本文重點(diǎn)研究內(nèi)容,而且目前人臉檢測(cè)算法趨于成熟,故而直接采用seetaFace實(shí)現(xiàn)人臉檢測(cè)功能。
實(shí)現(xiàn)人臉檢測(cè)后由于數(shù)據(jù)集是自然場(chǎng)景人臉數(shù)據(jù),故而需要得到人臉矯正后的正臉圖像才能用于人臉的表情識(shí)別的算法訓(xùn)練,矯正人臉首先到得到人臉的特征點(diǎn)或三維偏轉(zhuǎn)角度,本文做人臉對(duì)齊的數(shù)據(jù)集同時(shí)標(biāo)注了人臉68個(gè)特征點(diǎn)和基于正方位的三維偏轉(zhuǎn)角,故設(shè)計(jì)卷積網(wǎng)絡(luò)直接回歸得到人臉的三維偏轉(zhuǎn)角。模型上借鑒VGG-Face淺層網(wǎng)絡(luò)的特點(diǎn),設(shè)計(jì)5層卷積的簡單模型。
模型首先接收124×124大小的灰度圖像并標(biāo)記人臉的偏轉(zhuǎn)角度為網(wǎng)絡(luò)的輸入,隨后通過卷積核較大(size分別為7和5)的兩層網(wǎng)絡(luò)將圖像快速收縮,并提取低維邊緣特征,同時(shí)在第一層網(wǎng)路后將其結(jié)果歸一化,隨后連接三層小卷積核(size為3)網(wǎng)絡(luò)進(jìn)一步細(xì)化人臉邊緣特征,最后連接兩層全連接層,做回歸函數(shù)得到結(jié)果序列。模型結(jié)構(gòu)如圖2所示。
基于視頻的人臉多模態(tài)識(shí)別的baseline算法為VGG+LSTM算法,基本思想為通過VGG模型提取特征,繼而采用LSTM對(duì)視頻片段做加強(qiáng)訓(xùn)練。
C3D模型主要改變了傳統(tǒng)2D卷積的特點(diǎn),創(chuàng)新性的引入了3D卷積的方式,2D卷積在映射特征的時(shí)候只能在單層featuremap上提取,而3D卷積網(wǎng)絡(luò)可以在相鄰的featuremap上映射特征。
圖2 人臉對(duì)齊卷積模型
圖3 多模態(tài)baseline模型
HoloNet模型算法則是采用另外一種改進(jìn)方式進(jìn)行算法的改進(jìn),即引入殘差的思想。整個(gè)模型體現(xiàn)了殘差設(shè)計(jì)的思想,在將提取的特征圖和上層樣本同時(shí)作為下一層的輸入,以減少模型提取過程中特征的損失提高識(shí)別的準(zhǔn)確率。
在研究經(jīng)典多模態(tài)算法的基礎(chǔ),借鑒其中經(jīng)典思想,本文提出了一種基于VGG模型改進(jìn)的新的模型結(jié)構(gòu),用于本文人臉多模態(tài)識(shí)別的應(yīng)用。
首先在預(yù)處理階段采用灰度圖、meanLBP圖、basicLBP圖組合而成的三通道圖像數(shù)據(jù)代替?zhèn)鹘y(tǒng)的RGB 3色圖像,而適當(dāng)減少VGG網(wǎng)絡(luò)淺層網(wǎng)絡(luò),保留其淺層網(wǎng)絡(luò)收斂圖像的作用,并適當(dāng)弱化淺層網(wǎng)絡(luò)邊緣特征提取的作用。LBP算法是一種傳統(tǒng)的人臉邊緣特征提取的算法,以此方式可以在預(yù)處理階段先對(duì)人臉邊緣特征做針對(duì)化的簡單處理,以提高卷積網(wǎng)路運(yùn)算的速度和特征提取的這針對(duì)性,有效提高模型準(zhǔn)確率。
其次,對(duì)于VGGFace算法而言,高層網(wǎng)絡(luò)卷積核主要實(shí)現(xiàn)的是高維特征的提取,在此提出的模型上的改進(jìn)思路為,將VGG模型高層網(wǎng)絡(luò)卷積單元適當(dāng)替換為殘差網(wǎng)絡(luò)單元。其中殘差網(wǎng)絡(luò)的模型特點(diǎn)是將原始數(shù)據(jù)和經(jīng)過卷積映射處理后的數(shù)據(jù)一同作為下一層卷積的輸入。模型圖為圖5和6。
以此適當(dāng)保留卷積映射之前特征,有效提高的模型的準(zhǔn)確率。圖4為處理結(jié)果:
圖4 LBP處理后的樣本
在對(duì)場(chǎng)景進(jìn)行多模態(tài)識(shí)別之前,我們需要對(duì)短視頻截取關(guān)鍵場(chǎng)景,本文定義的關(guān)鍵場(chǎng)景是有人物,且?guī)逦瑫r(shí)可以代表一個(gè)長場(chǎng)景的一段序列,這段序列一般由十幾到數(shù)十幀組成,需要設(shè)計(jì)算法用于實(shí)現(xiàn)對(duì)一個(gè)視頻進(jìn)行關(guān)鍵場(chǎng)景的選取。
圖5 殘差網(wǎng)絡(luò)單元
圖6 表情識(shí)別卷積模型
首先本文采用關(guān)鍵幀定位算法,即對(duì)一個(gè)轉(zhuǎn)場(chǎng)鏡頭的視頻序列確定關(guān)鍵幀,選取關(guān)鍵幀前后X幀(不超過該場(chǎng)景的始、終位置)組成關(guān)鍵場(chǎng)景,在此規(guī)定一個(gè)轉(zhuǎn)場(chǎng)鏡頭有且僅有一個(gè)關(guān)鍵幀。具體算法描述為:
第一步,對(duì)視頻進(jìn)行場(chǎng)景切割。將待分類視頻分割為數(shù)個(gè)場(chǎng)景片段,即根據(jù)檢測(cè)到的轉(zhuǎn)場(chǎng)處切割視頻,得到數(shù)個(gè)場(chǎng)景視頻,此處場(chǎng)景轉(zhuǎn)換檢測(cè)算法采用dHash算法。
第二步,確定場(chǎng)景關(guān)鍵幀。關(guān)鍵幀確定算法采用圖像熵最大化。
第三步,選取關(guān)鍵幀前X幀(臨界值為場(chǎng)景起始)和后X幀(臨界值為場(chǎng)景結(jié)束)組合為截取的該場(chǎng)景的關(guān)鍵場(chǎng)景。
第四步,對(duì)于每個(gè)場(chǎng)景都采用上述算法,得到一個(gè)視頻的若開關(guān)鍵場(chǎng)景。
其中圖像熵的定義為:對(duì)一副圖像來說,直方圖可被認(rèn)為是一種概率密度函數(shù),設(shè)hk表示整幅圖像中像素值為k的像素所占的比例,考慮到當(dāng)hk=0的實(shí)際情況,加上約束條件:當(dāng)hk=0,則loghk=0。因此,圖像熵表示為:
其中將圖像由rgb格式轉(zhuǎn)化為hsv:格式,h、s、v 3個(gè)分量加權(quán)系數(shù)為0.9、0.3、0.1,得圖像綜合熵為:
圖像熵最大化關(guān)鍵幀定位即為計(jì)算一段幀序列中每幀圖像的熵,選取最大值作為這段序列的關(guān)鍵幀。
本文首先構(gòu)建一個(gè)情感與視頻類別的簡單三分類映射,以驗(yàn)證上述算法的可行性。其中為各個(gè)情感設(shè)置標(biāo)志位,其中相鄰情感有一定的相似度和漸變性,將 sad、fear、angry歸類為消極情感,將 disgust、surprise歸類為介于消極情感和積極情感之間的過渡情感,將neutral、happy歸類為積極情感。
在上述表情識(shí)別結(jié)果中,每個(gè)標(biāo)簽保留可能性前兩位的標(biāo)簽數(shù)據(jù)。
1)如果t1與t2同屬一個(gè)大分類,則直接選取t1作為其最終標(biāo)簽。
2)如果t1與t2分屬兩個(gè)不同的分類時(shí),該標(biāo)簽為
一段視頻分為了n個(gè)場(chǎng)景,每個(gè)場(chǎng)景都有一個(gè)關(guān)鍵序列,上述實(shí)現(xiàn)了每個(gè)場(chǎng)景的標(biāo)簽選取,每個(gè)場(chǎng)景的權(quán)重為Wn,Wn由該場(chǎng)景占總視頻的比重確定。最終視頻標(biāo)簽:
人臉表情識(shí)別整個(gè)算法最終在AFEW公開數(shù)據(jù)集上得出53.8%的準(zhǔn)確率,高于baseline的準(zhǔn)確率(49.3%),仍有待繼續(xù)優(yōu)化卷積模型。
對(duì)于整個(gè)視頻分類的算法效果而言,整體可以實(shí)現(xiàn)對(duì)視頻大致歸類的效果,部分實(shí)驗(yàn)結(jié)果如表1所示。
表1 實(shí)驗(yàn)結(jié)果表
結(jié)果可見對(duì)于消極情感的準(zhǔn)確率最高,而待測(cè)視頻最易被誤識(shí)別為過渡情感。
通過上述人臉多模態(tài)和視頻解析分類算法,將人臉識(shí)別與視頻處理和分類綜合應(yīng)用相結(jié)合,得到了理想的實(shí)驗(yàn)效果。通過實(shí)驗(yàn)也得出人臉多模態(tài)技術(shù)能夠用于對(duì)視頻進(jìn)行情感層面的分類。