藍(lán)崢杰,王 烈,黃 瑩
(廣西大學(xué) 計(jì)算機(jī)與電子信息學(xué)院,南寧 530004)
人臉表情包含了豐富的情感信息,真實(shí)而自然地展現(xiàn)了人們心理活動(dòng)和思想狀態(tài),深刻地影響著人們的日常交流。心理學(xué)研究者 Mehrabian 的成果顯示,在人類溝通的過程中,人臉表情、聲音、語言各占總信息量的 55%、38%和 7%[1]。由此可見,人臉表情傳遞的信息量非常豐富,超過了聲音和語言攜帶信息量的總合。
人臉表情識(shí)別屬于細(xì)粒度圖像分類范疇,具有類內(nèi)差異性大、類間差異性小的特征。表情識(shí)別是一項(xiàng)具有挑戰(zhàn)性的工作,在多個(gè)數(shù)據(jù)集中表情識(shí)別的準(zhǔn)確率并不高。當(dāng)前人臉表情識(shí)別方法通??煞譃榛趥鹘y(tǒng)手工特征分類方法和基于深度學(xué)習(xí)方法兩類。隨著卷積神經(jīng)網(wǎng)絡(luò)在計(jì)算機(jī)視覺領(lǐng)域取得的巨大成功,該技術(shù)逐漸被用于人臉表情識(shí)別任務(wù)[2]。
在基于深度學(xué)習(xí)的方法中,較多的研究均聚焦于數(shù)據(jù)處理[3-4]、特征提取[5-7]、損失函數(shù)優(yōu)化[8-9]這三大主體,對(duì)其進(jìn)行改進(jìn),不足之處在于:一是忽略了表情在不同分辨率特征圖中存在的細(xì)微差異,同時(shí)表情特征在不同層級(jí)的特征圖中缺乏傳遞與融合,降低了特征圖中的信息含量;二是多支路網(wǎng)絡(luò)Softmax輸出進(jìn)行分類時(shí)多采用硬投票方式判定輸出類別,容易造成決策階段的不穩(wěn)定性。
針對(duì)以上問題,本文對(duì)現(xiàn)有方法進(jìn)行了改進(jìn)與優(yōu)化,主要工作和貢獻(xiàn)如下:一是改進(jìn)HRNet網(wǎng)絡(luò)結(jié)構(gòu)。引入HRNet高分辨率網(wǎng)絡(luò)對(duì)人臉表情進(jìn)行多分辨率特征提取,加入 Dense連接機(jī)制改進(jìn)HRNet中的基礎(chǔ)stage,在獲得更清晰特征圖的同時(shí)保留了更為豐富的細(xì)微表情細(xì)節(jié)特征。二是提出一種動(dòng)態(tài)加權(quán)融合決策方法。在使用HRNet高中低三種分辨率支路分別進(jìn)行Softmax分類后,根據(jù)輸出概率矩陣的基尼指數(shù)高低動(dòng)態(tài)地分配輸出權(quán)重,自動(dòng)提高分類確定性高、性能好的卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)支路的融合權(quán)重值,降低分類性能差、確定性低的CNN支路的權(quán)重值,提高網(wǎng)絡(luò)分類準(zhǔn)確率和魯棒性。
高分辨率網(wǎng)絡(luò)[10](High-Resoultion Net,HRNet)由微軟亞洲研究院和中科大共同提出,其通過在高分辨率特征圖主網(wǎng)絡(luò)逐漸并行加入低分辨率特征圖子網(wǎng)絡(luò),讓不同分辨率特征進(jìn)行多尺度融合,使得特征圖具有在整個(gè)過程中始終保持高分辨率的特點(diǎn)。該模型在圖像分類、語義分割和人體姿態(tài)估計(jì)等領(lǐng)域均取得了領(lǐng)先的性能。HRNet將傳統(tǒng)的特征提取網(wǎng)絡(luò)中高分辨率到低分辨率的輸出由串行連接改為并行連接,不同分辨率特征圖之間的融合采用上采樣和下采樣操作,通過此操作聚合了不同分辨率特征信息,過程如圖1所示。
圖1 HRNet中不同分辨率特征的融合方式
DenseBlock是DenseNet[11]的核心,其在網(wǎng)絡(luò)各層之間建立了前層與后面所有層的密集連接,使得每一層都會(huì)收到在它之前所有層的特征輸入。Dense連接方式如圖2所示,圖中虛線連接表示特征的傳遞,前后層之間的連接以Concat方式進(jìn)行,此種連接方式通過特征的重復(fù)復(fù)用使得深層網(wǎng)絡(luò)中依然保留淺層網(wǎng)絡(luò)中的細(xì)微表情信息。
圖2 Denses連接方式示意圖
由于表情分類類間的差異微小,需要更加關(guān)注圖像中微小但不可忽視的細(xì)微特征,以便獲取更加高清的局部細(xì)節(jié)信息,從而有助于網(wǎng)絡(luò)進(jìn)行細(xì)粒度分類。本文選取 HRNet高分辨率網(wǎng)絡(luò)作為特征提取的基礎(chǔ)結(jié)構(gòu),實(shí)現(xiàn)對(duì)特征圖的高分辨率提取。
在HRNet高分辨基礎(chǔ)上,引入了Dense連接對(duì)HRNet中的stage模塊進(jìn)行改進(jìn)。這是由于淺層特征圖包含豐富的細(xì)節(jié)信息,但缺乏語義信息,而深層特征圖則相反。Dense連接方式有助于將淺層、深層特征間的優(yōu)勢(shì)互補(bǔ)。稠密連接機(jī)制重復(fù)加強(qiáng)提取了各層特征,將多個(gè)層次的信息融合傳遞,使得網(wǎng)絡(luò)具有更加豐富的特征圖表示。
1.3.1 單一分辨率的Dense-HRNet實(shí)現(xiàn)方式
改進(jìn)的單一分辨率支路的Dense-HRNet連接如圖3所示。
圖3 改進(jìn)的單分辨率Dense-HRNet連接方式
若某分辨率支路的深度為l層,DenseBlock共建立l(l+1)/2 個(gè)連接,若第l層的非線性變換為Hl(x),輸出為xl,可以表示為
xl=Hl([x0,x1,x2,…,xl-1]) 。
(1)
式中:[x0,x1,x2,…,xl-1]為通過通道拼接方式進(jìn)行,使得網(wǎng)絡(luò)l層輸入中包含了(1,2,3,…,l-1) 層的所有輸出;Hl(x)代表的是非線性變換函數(shù)集合操作,包換批標(biāo)準(zhǔn)化、非線性激活函數(shù)PReLU、池化和卷積操作。
1.3.2 多分辨率的Dense-HRNet實(shí)現(xiàn)方式
依照Dense-HRNet單一分辨率分支實(shí)現(xiàn)方法,本文對(duì)高分辨率支路進(jìn)行一次下采樣得到中分辨率支路;再對(duì)中分辨率支路進(jìn)行一次下采樣,產(chǎn)生低分辨率支路;最后以并行連接的方式,構(gòu)建3個(gè)不同分辨率的CNN支路,提取3種不同分辨率的表情特征。網(wǎng)絡(luò)如圖4所示。
圖4 多分辨率的Dense-HRNet實(shí)現(xiàn)方式
圖4網(wǎng)絡(luò)中,DenseBlock增長率(Grouth_rate)為12,壓縮率(reduction)取0.5。DenseBlock間以過渡層(Transition Layer)相連,在過渡層中首先進(jìn)行批歸一化操作,而后進(jìn)行ReLU激活,再使用1×1卷積調(diào)整輸入輸出維度。
以上為特征提取網(wǎng)絡(luò)的改進(jìn)方法,結(jié)合了HRNet和DenseNet的主要思想。總體而言,改進(jìn)的Dense-HRNet方式能帶來更清晰的表情特征表示,并且能保留足夠多的局部細(xì)節(jié)信息。
圖4所述的Dense-HRNet多分辨率的網(wǎng)絡(luò)主要參數(shù)配置可通過掃描本文OSID碼查看。
在多路信息決策分類中,通常綜合考慮各支路輸出的最大概率來判定所屬類別。若各支路計(jì)算得到的最大輸出概率指向同一類別且概率分值遠(yuǎn)高于其他類別,此時(shí)融合決策置確定性高。然而,隨著識(shí)別難度變化,若某支路輸出概率值中多個(gè)類別的分值接近,則此支路分類區(qū)分度模糊,其分類結(jié)果確定性低,在融合決策時(shí)對(duì)其賦予過高的權(quán)重系數(shù)將影響分類結(jié)果。圖5為同一樣本輸入時(shí),各CNN支路的輸出概率以及其確定性分析。
圖5 某樣本CNN預(yù)測(cè)值與確定性示意圖
圖5中,輸入圖片為FER2013數(shù)據(jù)集中類別為“中性”的表情圖,經(jīng)過3個(gè)不同的CNN支路Softmax輸出后得到的概率值標(biāo)注在表情卡通圖上方。將以上CNN支路預(yù)測(cè)值表示為柱形圖,如圖6所示。
圖6 當(dāng)輸入某圖片時(shí)各支路輸出概率值對(duì)比
由圖6可見,CNN1(綠色柱形圖)將樣本判定為“中性”的概率很高并且遠(yuǎn)大于判定為其他類別的概率,此時(shí)CNN1判定結(jié)果與樣本標(biāo)簽匹配,該CNN支路分類準(zhǔn)確且確定性高;而CNN3(黃色柱形圖)中,“中性”“驚訝”“厭惡”三種類別的概率值都較低并且概率分值接近,導(dǎo)致CNN3對(duì)這些類別分類模糊且確定性不高,此時(shí)CNN3對(duì)樣本的分類性能較差。在圖5中各CNN支路的確定性排序?yàn)镃NN1 > CNN2 > CNN3。
在多路融合決策中,較常用的是以多數(shù)投票(Majority Vote) 為代表的硬融合決策和以對(duì)數(shù)意見池(Logarithmic Opinion Pool) 為代表的軟決策融合策略。
傳統(tǒng)的融合決策策略中,在計(jì)算投票策略時(shí),采用平均分配多路分類器權(quán)重系數(shù)的原則,使得不同子分類器的輸出在最終決策中都具有相同的影響力,這種做法未能根據(jù)各分類支路的確定性進(jìn)行區(qū)分,導(dǎo)致分類效果好的子分類器權(quán)重不足或分類效果差的分類器融合權(quán)重過高。融合權(quán)重,指在輸出概率矩陣中讓參與融合決策的各支路分配不同的重要性加權(quán)系數(shù)值,能使得網(wǎng)絡(luò)更加關(guān)注于某些分支的輸出結(jié)果。
針對(duì)以上問題,Ren等人[12]通過在多路分類器融合決策中計(jì)算多尺度網(wǎng)絡(luò)的交叉熵,使用自適應(yīng)熵決定加權(quán)值,再進(jìn)行融合決策,獲得了更優(yōu)的分類性能。本文在此基礎(chǔ)上,提出一種基于基尼指數(shù)的動(dòng)態(tài)權(quán)重分配算法,能對(duì)不同確定性程度的CNN支路中施加不同的側(cè)重程度,自動(dòng)提高分類性能好、確定性高的CNN支路的融合權(quán)重值,降低分類性能差、確定性低的CNN支路的權(quán)重值。
本文的特征提取網(wǎng)絡(luò)由HRNet的3路不同分辨率的CNN 組成,對(duì)于每張表情圖像由3路特征提取網(wǎng)絡(luò)和Softmax函數(shù)后得到輸出概率值,將其整合到一個(gè)矩陣中,可以得到輸出概率矩陣
(2)
在式(2)中,Pij(x)表示第i個(gè)子網(wǎng)絡(luò)的Softmax函數(shù)將輸入樣本判為屬于j類的概率。P(x)矩陣的p11(x)表示第一個(gè)支路的Softmax函數(shù)在所有分類類別中判定為第一類的概率,概率最大的列標(biāo)即為某一支路的Softmax函數(shù)對(duì)該樣本的預(yù)測(cè)類別。在式(2)的矩陣每一行中,
p11(x)+p12(x)+p13(x)…+p17(x)=1 。
(3)
若判定的最大類別i的概率p1i(x)遠(yuǎn)大于其他任意類別的概率,此時(shí)網(wǎng)絡(luò)的確定性高;若與其他類別差距不大,則網(wǎng)絡(luò)確定性低,分類模糊。
在信息論中,隨機(jī)變量不確定性度量可以用基尼指數(shù)來表示。在分類問題中,假設(shè)有K個(gè)類別,樣本點(diǎn)屬于第K類的概率為PK,則概率分布的基尼指數(shù)定義為
(4)
在人臉表情識(shí)別中,表情類別為7個(gè),故公式(4)中取k=7。上式中,若某一子支路Softmax輸出的基尼指數(shù)值越大,其分類的不確定性就越高,則該CNN支路對(duì)輸入樣本的分類可信度較差,若其融合權(quán)重過高將會(huì)影響多路決策結(jié)果。
本步驟根據(jù)網(wǎng)絡(luò)輸出的基尼指數(shù),自動(dòng)為各支路分配權(quán)重。在分類任務(wù)中,使用Softmax分類可以將實(shí)數(shù)輸出映射到(0,1)區(qū)間內(nèi),并使得所有概率之和為1,其函數(shù)表達(dá)式為
(5)
Softmax函數(shù)加入了自然對(duì)數(shù)底數(shù)e的冪函數(shù),使其函數(shù)曲線呈指數(shù)函數(shù)特點(diǎn)。經(jīng)過Softmax處理后輸出的數(shù)值拉開距離,正樣本的結(jié)果將趨近于1,而負(fù)樣本的結(jié)果趨近于0,這有利于拉開樣本的分類差距。
根據(jù)上述特性,本步驟借鑒Softmax的表達(dá)形式進(jìn)行權(quán)重分配,根據(jù)式(4)的基尼指數(shù)輸出結(jié)果,將各支路的輸出兩極化:使得確定程度高的支路結(jié)果趨近于1,而確定性程度低的支路權(quán)重更趨近于0方向。權(quán)重計(jì)算方法具體如下:
(6)
式(6)實(shí)現(xiàn)了根據(jù)基尼指數(shù)的變化計(jì)算融合決策時(shí)的動(dòng)態(tài)權(quán)重值。把該權(quán)重值乘以式(2)中的概率輸出,得到融合加權(quán)后的概率矩陣
(7)
式(7)為最終的概率輸出矩陣。最后借助argmax函數(shù)可求出輸出各個(gè)支路中Softmax得分最高的所屬分類。argmax函數(shù)的作用在于,在函數(shù)y=argmaxf(x)中,當(dāng)函數(shù)值y取得最大值時(shí),求出對(duì)應(yīng)的自變量參數(shù)x。由此函數(shù)可得最終融合決策所判定的輸出類別,函數(shù)表示為
(8)
式中:i為參與融合決策的單個(gè)CNN分類器支路;j為7種具體的表情類別;out輸出為融合決策判定的輸出表情類別。
以上即為基尼指數(shù)動(dòng)態(tài)加權(quán)融合算法的計(jì)算過程,本文根據(jù)輸出分類概率的基尼指數(shù)的不同,為各CNN支路分配更為合理的融合權(quán)重,緩解了由于概率值接近而造成的分類模糊問題。
本文提出的基于基尼指數(shù)動(dòng)態(tài)加權(quán)(Gini-index Dynamic Weighted,GDW)決策的改進(jìn)型Dense-HRNet網(wǎng)絡(luò)(簡寫為GDW Dense-HRNet)總體架構(gòu)如圖7所示,將圖像輸入大小設(shè)定為48×48,以減小HRNet網(wǎng)絡(luò)的計(jì)算代價(jià)。在特征提取部分,網(wǎng)絡(luò)主要用DenseBlock稠密連接的思想改進(jìn)了HRNet中stage的連接方式;在輸出部分,將網(wǎng)絡(luò)的輸出方式改進(jìn)為基尼指數(shù)動(dòng)態(tài)加權(quán),三個(gè)不同分辨率的子網(wǎng)絡(luò)經(jīng)基尼指數(shù)動(dòng)態(tài)加權(quán)融合決策后輸出最終分類結(jié)果。
圖7 基尼指數(shù)動(dòng)態(tài)加權(quán)決策的Dense-HRNet(GDW Dense-HRNet)總體架構(gòu)
實(shí)驗(yàn)配置:處理器Intel Xeon Gold 6230,顯卡為NVIDIA Tesla P100,內(nèi)存為16 GB,操作系統(tǒng)為Ubuntu 16.04;深度學(xué)習(xí)框架為Pytorch,編程實(shí)驗(yàn)均在Python 3.7環(huán)境下進(jìn)行。
訓(xùn)練設(shè)置:batch_size為32,初始學(xué)習(xí)效率為0.01,30個(gè)epoch后每10個(gè)epoch衰減0.9倍。使用SGD模型優(yōu)化器,動(dòng)量為0.9,權(quán)重衰減設(shè)置為0.001。
4.2.1 數(shù)據(jù)集
CK+數(shù)據(jù)集[13]是人臉表情識(shí)別研究中較為常用的數(shù)據(jù)集,包含了來自123 名參與者的圖像序列593個(gè),其中帶有標(biāo)簽的表情序列327個(gè),從每個(gè)序列中提取最后三個(gè)幀,共981 張。CK+實(shí)驗(yàn)中除去了中性表情,最終的實(shí)驗(yàn)數(shù)據(jù)包含高興、厭惡、害怕、生氣、傷心、驚訝、蔑視7種類別,數(shù)據(jù)分布如圖8所示。
圖8 CK+數(shù)據(jù)集中各類別數(shù)據(jù)分布
FER2013[14]數(shù)據(jù)集共包含35 888張人臉表情圖像。該數(shù)據(jù)集在互聯(lián)網(wǎng)上收集獲得,是Kaggle面部表情識(shí)別比賽提供的一個(gè)數(shù)據(jù)集。數(shù)據(jù)集中訓(xùn)練樣本28 708張,公開測(cè)試樣本和隱私測(cè)試樣本各3 589張,圖像大小為48×48。共7種表情,分別與數(shù)字標(biāo)簽0~6相對(duì)應(yīng):0代表生氣;1代表厭惡;2代表恐懼;3代表高興;4代表傷心;5代表驚訝;6代表中性。Fer2013數(shù)據(jù)集中存在較多的側(cè)臉人像、漫畫人像和復(fù)雜噪聲背景,是一個(gè)具有挑戰(zhàn)性的表情識(shí)別數(shù)據(jù)集。
4.2.2 數(shù)據(jù)增強(qiáng)方式
數(shù)據(jù)增強(qiáng)對(duì)于深度卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練過程意義重大。為了提高模型在復(fù)雜背景下的泛化能力,本文在傳統(tǒng)的數(shù)據(jù)增強(qiáng)方法基礎(chǔ)上引入Gamma變換。Gamma變換是圖像灰度變化領(lǐng)域的一種非線性變化方法,能有效調(diào)整圖像灰度對(duì)比度,適用于調(diào)整CK+和FER2013數(shù)據(jù)集中表情的灰度值分布,其變換數(shù)學(xué)表達(dá)式為
s=crγ。
(9)
式中:r為原始灰度圖像的輸入值,其取值范圍為[0,1];s為Gamma變換后的灰度輸出值;c為灰度系數(shù),通常為1;γ為調(diào)節(jié)因子。Gamma變換增強(qiáng)圖像中較暗區(qū)域的灰度,降低圖像中灰度值過大區(qū)域的灰度,經(jīng)過變換之后,表情圖像的細(xì)節(jié)特征將會(huì)增強(qiáng)。
為了提高模型泛化能力,在訓(xùn)練開始前,對(duì)CK+和FER2013數(shù)據(jù)集進(jìn)行數(shù)據(jù)增強(qiáng),先進(jìn)行圖像水平翻轉(zhuǎn)、Gamma變換和隨機(jī)遮擋,使得數(shù)據(jù)量擴(kuò)充至原始數(shù)據(jù)集的8倍。數(shù)據(jù)集的擴(kuò)充有效地支持了模型的訓(xùn)練。如圖9為對(duì)FER2013數(shù)據(jù)集的數(shù)據(jù)增強(qiáng),在CK+數(shù)據(jù)集中的操作類似。
圖9 在FER2013數(shù)據(jù)集進(jìn)行數(shù)據(jù)增強(qiáng)
4.3.1 實(shí)驗(yàn)1:改進(jìn)的Dense連接方式有效性實(shí)驗(yàn)
實(shí)驗(yàn)1對(duì)比3種特征提取網(wǎng)絡(luò)的分類效果:一是HRNet中不同分辨率的CNN支路輸出效果;二是用HRNet V2進(jìn)行分類輸出;三是用稠密連接方式改進(jìn)的Dense-HRNet融合輸出。實(shí)驗(yàn)結(jié)果如表1所示。
表1 改進(jìn)的Dense連接方式有效性實(shí)驗(yàn)結(jié)果
表1中,“CNN1高分辨率”“CNN2中分辨率”為使用單一分辨率的支路直接進(jìn)行Softmax輸出的結(jié)果,此時(shí)網(wǎng)絡(luò)分類性能較差,這是由于單支路網(wǎng)絡(luò)沒有融合其他分辨率支路的特征。在使用HRNet V2網(wǎng)絡(luò)進(jìn)行分類時(shí),由于輸出端融合了3種分辨率的輸出,網(wǎng)絡(luò)分類性能得到優(yōu)化,在FER2013中較單一分辨率支路有1.32%~2.25%的提升。表中最后一欄為引入DenseBlock稠密連接后的結(jié)果,可見Dense-HRNet較未經(jīng)改進(jìn)的HRNet V2網(wǎng)絡(luò)有顯著而穩(wěn)定的提升,在CK+和FER2013中分別提升了2.04%和2.88%。這表明引入的密集連接方式有助于加強(qiáng)特征提取過程,使得分類效果更好。
4.3.2 實(shí)驗(yàn)2:基于基尼指數(shù)的動(dòng)態(tài)加權(quán)決策有效性實(shí)驗(yàn)
在本組實(shí)驗(yàn)中,對(duì)比傳統(tǒng)固定比例系數(shù)加權(quán)融合和本文動(dòng)態(tài)加權(quán)決策(GDW)的實(shí)驗(yàn)結(jié)果。在FER2013和CK+上分別設(shè)置5組對(duì)比實(shí)驗(yàn),Weight_CNN表示某一路CNN的權(quán)重系數(shù),按照權(quán)重系數(shù)的不同比例設(shè)置對(duì)照組,如Weight_CNN1∶Weight_CNN2∶Weight_CNN3=1∶1∶1表示平均權(quán)重系數(shù)分配,各支路權(quán)重各占1/3,其他對(duì)比組別按7∶2∶1等固定比例融合。實(shí)驗(yàn)結(jié)果如表2所示。
表2 基于基尼指數(shù)的動(dòng)態(tài)加權(quán)決策有效性實(shí)驗(yàn)結(jié)果
從表2中可見,在固定比例的融合權(quán)重中,Weight_CNN1∶Weight_CNN2∶Weight_CNN3=1∶2∶7得到的結(jié)果最好,融合比例為7∶2∶1的實(shí)驗(yàn)組融合結(jié)果最差;在FER2013數(shù)據(jù)集中,兩組準(zhǔn)確率相差0.17%,而1∶1∶1的權(quán)重分組得到的結(jié)果較為均衡,這體現(xiàn)了對(duì)不同CNN分類器施加不同的權(quán)重值,將對(duì)結(jié)果產(chǎn)生直接影響。在使用GDW算法組中,輸出結(jié)果相對(duì)于固定比例融合中的最優(yōu)比例(1∶2∶7)上升了0.11%,比平均權(quán)重分配(1∶1∶1)實(shí)驗(yàn)組上升了0.16%。由此可分析出,GDW算法有助于找到適合網(wǎng)絡(luò)權(quán)重分配的比例,將分類效果好的分類器施以某一具體的大權(quán)重,將分類性能不佳的網(wǎng)絡(luò)施以某個(gè)小的權(quán)重值,使得融合決策更加合理和穩(wěn)定。
4.3.3 實(shí)驗(yàn)3:本文各模塊的有效性實(shí)驗(yàn)
表3為本文各模塊在CK+和FER2013數(shù)據(jù)集中的表現(xiàn)。在總體的識(shí)別率上,使用稠密連接的Dense-HRNet比HRNet V2在CK+數(shù)據(jù)集上提升了1.02%,在FER2013上提升了2.88%;加入基尼指數(shù)動(dòng)態(tài)加權(quán)后的 GDW-Dense-HRNet識(shí)別準(zhǔn)確率比另外兩種方法有一定的提高,相對(duì)于Dense-HRNet,分別提升了1.68%(CK+)和1.25%(FER2013)。
表3 在CK+數(shù)據(jù)集上本文各模塊的有效性實(shí)驗(yàn)
4.3.4 實(shí)驗(yàn)4:本文方法與當(dāng)前較新算法的對(duì)比
為便于觀察本文方法的有效性,選取了最近發(fā)表的較新的算法,在上述兩個(gè)數(shù)據(jù)集進(jìn)行最終結(jié)果對(duì)比,如表4所示。
表4 本文方法與當(dāng)前較新的算法對(duì)比
如表4所示,本文算法識(shí)別率與當(dāng)前較新的算法相比具有較好的競(jìng)爭(zhēng)力。本文與Liu等人[19]提出的算法結(jié)果較為類似,取該算法進(jìn)行對(duì)比分析可以發(fā)現(xiàn),在CK+數(shù)據(jù)集上本文算法準(zhǔn)確率略低,但在FER2013數(shù)據(jù)集上本文取得了更好的識(shí)別準(zhǔn)確率。出現(xiàn)這種情況的原因在于,F(xiàn)ER2013數(shù)據(jù)集相對(duì)于CK+含有較多嘈雜樣本,容易在類間產(chǎn)生分類模糊現(xiàn)象。本文所使用的高分辨率特征圖和多路融合決策能綜合3個(gè)支路的決策信息,在出現(xiàn)分類模糊的問題時(shí)能通過動(dòng)態(tài)融合決策找到確定性高、分類效果好的支路做出網(wǎng)絡(luò)的重點(diǎn)輸出,降低了單一CNN網(wǎng)絡(luò)分類結(jié)果的不穩(wěn)定性,從而能在樣本嘈雜、噪聲干擾大的環(huán)境中,展現(xiàn)出比文獻(xiàn)[19]算法更好的識(shí)別效果。
本文提出的DGW-Dense-HRNet在FER2013上的混淆矩陣如圖10(a)所示,在CK+數(shù)據(jù)集的混淆矩陣如圖10(b)所示。
(a)本文方法在FER2013上的混淆矩陣
(b)本文方法在CK+上的混淆矩陣圖10 混淆矩陣
由圖10(a)可見,“害怕”“生氣”“厭惡”識(shí)別準(zhǔn)確率僅60%左右,分類較為困難。這是由于數(shù)據(jù)集含有較多嘈雜樣本,存在側(cè)臉表情及模糊卡通表情,且上述3個(gè)類別間有較高的相似度,導(dǎo)致網(wǎng)絡(luò)出現(xiàn)分類混淆的現(xiàn)象。
由圖10(b)可見,本文算法對(duì)于CK+中的“高興”“厭惡”“驚訝”3類表情的識(shí)別準(zhǔn)確率高,均達(dá)到了100%。觀察數(shù)據(jù)集圖像可以發(fā)現(xiàn)此3種表情類間差異較大,且從數(shù)據(jù)分布圖可發(fā)現(xiàn)此3類樣本占比大,識(shí)別效果較為理想。由此可見在數(shù)據(jù)驅(qū)動(dòng)的深度學(xué)習(xí)技術(shù)中,高質(zhì)量、數(shù)量大、標(biāo)記準(zhǔn)確的訓(xùn)練樣本對(duì)于提高模型的訓(xùn)練效果尤為重要。
本文針對(duì)人臉表情識(shí)別任務(wù)提出了一種改進(jìn)型的特征提取網(wǎng)絡(luò)和加權(quán)融合決策算法。在特征提取階段,使用Dense連接機(jī)制加強(qiáng)HRNet高分辨率網(wǎng)絡(luò)的特征復(fù)用和傳遞過程,獲取了更高分辨率和更豐富的表情特征。在決策階段,根據(jù)各輸出支路的確定性,動(dòng)態(tài)地賦予融合權(quán)重,解決了傳統(tǒng)的固定權(quán)重系數(shù)決策融合策略中分類效果好的子分類器權(quán)重不足而分類效果差的分類器權(quán)重過高的問題。通過增強(qiáng)高確定性支路的決策權(quán)重,抑制了不確定性,增強(qiáng)了多路決策的穩(wěn)定性。
下一步將考慮對(duì)網(wǎng)絡(luò)進(jìn)行輕量化設(shè)計(jì),使用新型注意力機(jī)制加強(qiáng)對(duì)表情關(guān)鍵區(qū)域的識(shí)別,力求減少運(yùn)算量的同時(shí),在識(shí)別精度速率和識(shí)別速度上均有更大提升。