于婉瑩,梁美玉,王笑笑,陳徵,曹曉雯
(北京郵電大學(xué)計(jì)算機(jī)學(xué)院,北京 100876)
表情是人類表達(dá)情感信息的主要途徑,表情識(shí)別算法通??梢宰R(shí)別出常見的幾種人臉面部情感,例如高興、悲傷、憤怒、恐懼等。目前許多優(yōu)秀的表情識(shí)別算法已經(jīng)實(shí)現(xiàn)了該目標(biāo)[1-3]。目前主流的表情識(shí)別算法結(jié)構(gòu)主要依托于AlexNet[4]、ZF Net[5]、VGGNet[6]、GoogleNet[7]、ResNet[8],但表情信息總是跟其他很多因素交織在一起,比如頭部姿態(tài)、光照和個(gè)體身份信息,多種外部因素的交織會(huì)對(duì)表情信息產(chǎn)生一定的影響。為了解決這一問題,Zhang 等[9]引入了多任務(wù)學(xué)習(xí),將這些信息從其他相關(guān)任務(wù)中轉(zhuǎn)移出來,并克服了干擾因素對(duì)表情識(shí)別任務(wù)的影響;Acharya 等[10]提出了基于流形網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行協(xié)方差合并的表情識(shí)別算法,利用二階統(tǒng)計(jì)量捕捉面部扭曲,利用協(xié)方差池更好地捕獲了區(qū)域面部特征的畸變以及每幀特征的時(shí)間演化;Minaee 等[11]提出了一種基于注意力卷積網(wǎng)絡(luò)的深度學(xué)習(xí)方法,能夠?qū)W⒂诿娌康闹匾课?,并且使用可視化技術(shù)根據(jù)分類器的輸出找到重要的面部區(qū)域以檢測(cè)不同的情緒。但是目前將人臉表情識(shí)別應(yīng)用于真實(shí)復(fù)雜場(chǎng)景下的智慧教育領(lǐng)域,識(shí)別課堂中學(xué)生的面部表情進(jìn)而分析學(xué)生對(duì)課堂的參與度、興趣度等內(nèi)容的研究并不深入。目前基于深度學(xué)習(xí)的表情識(shí)別算法,普遍使用深度卷積神經(jīng)網(wǎng)絡(luò)對(duì)圖像或視頻進(jìn)行特征學(xué)習(xí),但課堂場(chǎng)景下學(xué)生表情常常處于被遮擋狀態(tài),遮擋部分丟失的學(xué)生表情信息不可避免地會(huì)對(duì)表情特征的學(xué)習(xí)產(chǎn)生影響,無法獲取有效學(xué)生表情特征。
針對(duì)以上問題,本文提出了一種基于深度注意力網(wǎng)絡(luò)的課堂教學(xué)視頻中學(xué)生表情識(shí)別模型,該模型致力于實(shí)現(xiàn)復(fù)雜課堂場(chǎng)景下的表情識(shí)別任務(wù),能充分學(xué)習(xí)學(xué)生面部表情的局部特征和整體特征,進(jìn)而獲取學(xué)生表情細(xì)節(jié)特征,學(xué)習(xí)到的學(xué)生表情識(shí)別模型在遮擋情況下的識(shí)別能力和優(yōu)勢(shì)更加突出。本文在構(gòu)建學(xué)生課堂表情識(shí)別模型時(shí),首先構(gòu)建了基于自注意力機(jī)制的深度注意力網(wǎng)絡(luò),網(wǎng)絡(luò)結(jié)構(gòu)由五路相同卷積神經(jīng)網(wǎng)絡(luò)組成,五條支路網(wǎng)絡(luò)用來學(xué)習(xí)人臉表情局部細(xì)節(jié)區(qū)域和整體特征。為了使模型充分關(guān)注到對(duì)表情分類有重要影響的局部區(qū)域,引入自注意力機(jī)制和約束性損失函數(shù)對(duì)權(quán)重進(jìn)行調(diào)節(jié),使模型關(guān)注對(duì)表情分類有更大影響的人臉表情區(qū)域,以解決由于遮擋導(dǎo)致的學(xué)生表情信息丟失及無法獲取有效特征等問題,相較于普通卷積神經(jīng)網(wǎng)絡(luò),該方法有效分類復(fù)雜課堂場(chǎng)景下的學(xué)生表情,使整個(gè)學(xué)生課堂表情識(shí)別模型的性能有所提升。
在學(xué)生學(xué)習(xí)過程中,情感會(huì)影響學(xué)生的認(rèn)知行為,所以把握學(xué)生在課堂中的情感狀態(tài),對(duì)提升課堂效率以及促進(jìn)學(xué)生個(gè)性化教育發(fā)展都顯得尤為重要,而學(xué)生的面部表情則是評(píng)價(jià)課堂狀態(tài)的一項(xiàng)重要表征。目前有許多根據(jù)學(xué)生表情來評(píng)估學(xué)生聽課狀態(tài)的相關(guān)研究[12-14],但是目前來講仍然存在一些潛在問題,例如對(duì)于在不知道學(xué)生處于某種行為狀態(tài)下所表現(xiàn)出的面部表情,僅單純地根據(jù)識(shí)別到的表情,對(duì)學(xué)生的聽課狀態(tài)做出評(píng)估是不嚴(yán)謹(jǐn)且不全面的。同樣,單純地根據(jù)學(xué)生課堂行為去進(jìn)行學(xué)生聽課狀態(tài)的評(píng)估也存在一定的局限性,原因在于學(xué)生的課堂行為可以是由老師要求引導(dǎo)下被動(dòng)發(fā)生,也可以是由學(xué)生根據(jù)自身聽課狀態(tài)主動(dòng)發(fā)生,所以在沒有得知行為發(fā)生動(dòng)機(jī)的情況下,僅憑學(xué)生行為去評(píng)估聽課狀態(tài)是不全面的。
針對(duì)以上問題,本文提出了一種融合教學(xué)課堂視頻中學(xué)生表情和行為識(shí)別[15]的智能教學(xué)評(píng)估算法(Weight_ClassAssess,WCA)。其主要思想是:首先,不再單一地僅根據(jù)學(xué)生表情或者行為狀態(tài)對(duì)學(xué)生聽課狀態(tài)進(jìn)行評(píng)估,以避免由此帶來的評(píng)估結(jié)果不夠全面充分的問題;其次,為了更加客觀、全面地對(duì)學(xué)生聽課狀態(tài)進(jìn)行評(píng)估,將每一位學(xué)生的表情和行為進(jìn)行融合,從兩個(gè)不同的特征維度綜合評(píng)估學(xué)生的聽課狀態(tài),其動(dòng)機(jī)是根據(jù)識(shí)別到的學(xué)生在課堂中某種行為狀態(tài)下的表情狀態(tài)進(jìn)行課堂教學(xué)評(píng)估更具參考意義。該算法分別計(jì)算積極類別的表情和行為概率,然后對(duì)兩個(gè)概率值賦予不同權(quán)重計(jì)算得到最終的綜合課堂狀態(tài)評(píng)估值,最后針對(duì)該值進(jìn)行分析,設(shè)計(jì)相應(yīng)的課堂教學(xué)評(píng)估規(guī)則,得出相應(yīng)的課堂教學(xué)評(píng)估等級(jí)。
本文的主要貢獻(xiàn)和創(chuàng)新點(diǎn)如下:
1)提出了一種新穎的基于深度注意力網(wǎng)絡(luò)的課堂教學(xué)視頻中學(xué)生表情識(shí)別模型。該模型通過五路深度卷積神經(jīng)網(wǎng)絡(luò)分別學(xué)習(xí)原始人臉圖像、裁剪圖像和遮擋圖像有效特征,進(jìn)而學(xué)習(xí)到人臉圖像的局部特征和整體特征,同時(shí)引入自注意力機(jī)制對(duì)五路網(wǎng)絡(luò)進(jìn)行權(quán)重分配,通過融合局部特征與全局特征,有效學(xué)習(xí)學(xué)生表情特征。
2)構(gòu)建了課堂教學(xué)視頻庫(kù)、表情庫(kù)和行為庫(kù)。其中課堂教學(xué)視頻庫(kù)共包括90 個(gè)清晰的課堂教學(xué)視頻??紤]到場(chǎng)景一致性,本文還建立了表情庫(kù)和行為庫(kù),其中包括學(xué)生表情狀態(tài)圖像725 幅,學(xué)生行為狀態(tài)圖像2 300 幅。
3)提出了一種融合教學(xué)課堂視頻中學(xué)生表情和行為識(shí)別的智能教學(xué)評(píng)估算法(WCA),通過融合教學(xué)課堂視頻中的學(xué)生表情和行為對(duì)學(xué)生課堂狀態(tài)進(jìn)行綜合評(píng)估,實(shí)現(xiàn)了課堂整體教學(xué)評(píng)估以及針對(duì)每個(gè)學(xué)生的聽課狀態(tài)評(píng)估。
考慮到課堂場(chǎng)景下學(xué)生表情常常處于被遮擋狀態(tài),遮擋部分丟失的學(xué)生表情信息不可避免地會(huì)對(duì)表情特征的學(xué)習(xí)產(chǎn)生影響,且僅使用一路卷積神經(jīng)網(wǎng)絡(luò)對(duì)學(xué)生表情特征的學(xué)習(xí)無法自動(dòng)關(guān)注學(xué)生表情有效區(qū)域,無法獲取有效表情信息,為此本文提出了基于深度注意力網(wǎng)絡(luò)的學(xué)生表情識(shí)別模型,如圖1 所示。該表情識(shí)別模型主要分為:表情特征學(xué)習(xí)、注意力特征權(quán)重分配、表情特征融合和表情分類四部分。
圖1 基于深度注意力網(wǎng)絡(luò)的課堂教學(xué)視頻中學(xué)生表情識(shí)別模型Fig.1 Expression recognition model of students in classroom teaching video based on deep attention network
首先,對(duì)課堂教學(xué)視頻幀中的原人臉圖像進(jìn)行裁剪和遮擋,將裁剪和遮擋后的人臉圖像與原人臉圖像分成五路,通過基于深度注意力卷積神經(jīng)網(wǎng)絡(luò)的學(xué)生表情特征學(xué)習(xí)模塊的各支路網(wǎng)絡(luò)分別提取人臉表情特征;然后,通過注意力特征權(quán)重分配模塊,基于自注意力機(jī)制為不同支路網(wǎng)絡(luò)學(xué)習(xí)到的特征分配不同權(quán)重,得到每個(gè)支路特征集的新的注意力權(quán)重,同時(shí)為新的注意力權(quán)重添加約束性損失函數(shù),使被遮擋路徑不能成為權(quán)重最大支路;最后,將所有的支路表情特征通過表情特征融合模塊,將各支路特征及各支路權(quán)重歸納成人臉表情的全局特征表示,全局特征表示為各個(gè)支路加權(quán)注意力特征之和,即最終的人臉表情全局表示特征,在網(wǎng)絡(luò)的末端使用softmax 分類器對(duì)學(xué)生人臉表情進(jìn)行分類,從而完成整個(gè)模型的構(gòu)建。
由于課堂場(chǎng)景下學(xué)生人臉大概率存在遮擋,導(dǎo)致表情信息丟失,因此本文構(gòu)建了基于自注意力機(jī)制的深度卷積神經(jīng)網(wǎng)絡(luò)用于學(xué)生表情特征學(xué)習(xí)。為了進(jìn)一步融合局部表情特征、遮擋后的表情特征和整體表情特征,本文構(gòu)建了五條支路分別提取局部特征、遮擋后的特征和整體特征,各支路網(wǎng)絡(luò)由五路相同卷積神經(jīng)網(wǎng)絡(luò)組成,在支路網(wǎng)絡(luò)的末端接入全連接層和激活函數(shù),用于捕獲各支路網(wǎng)絡(luò)所占權(quán)重,同時(shí)在優(yōu)化各支路所占權(quán)重時(shí)還引入了約束性損失函數(shù),進(jìn)一步調(diào)整各支路所占權(quán)重,實(shí)現(xiàn)局部與整體特征的融合,獲得有效表情特征圖。
首先在該網(wǎng)絡(luò)前輸入一張人臉圖像,先將其復(fù)制,得到X0,再將X0進(jìn)行裁剪和遮擋,得到X1~X4,再把每幅圖像輸入到相同的各支路卷積神經(jīng)網(wǎng)絡(luò)中提取各支路表情特征,其中X=[F0,F(xiàn)1,…,F(xiàn)4]為各支路得到的人臉表情特征集。將人臉表情特征集輸入到特征權(quán)重分配層,每張圖像特征Fi編碼為一個(gè)全局特征zi,通過兩個(gè)全連接層學(xué)習(xí)不同學(xué)生表情特征的注意力權(quán)重,學(xué)生表情特征注意力權(quán)重計(jì)算公式如下:
其中:qi為每個(gè)支路表情特征權(quán)重,W1和W2為全連接層權(quán)重,R為ReLU 激活函數(shù),S為Sigmoid 激活函數(shù)。計(jì)算得到的注意力權(quán)重與通過各支路卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)到的特征相乘得到優(yōu)化后的全局表情特征,通過自注意力機(jī)制層輸出的全局表情特征計(jì)算公式如下:
其中:Fm為經(jīng)自注意力機(jī)制調(diào)整后的全局表情特征,F(xiàn)i為各支路卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)到的學(xué)生表情特征,c為支路數(shù)。
得到的Fm為局部與整體相結(jié)合的全局表情特征,表情特征通過深度注意力網(wǎng)絡(luò)的優(yōu)化為人臉表情不同區(qū)域分配不同權(quán)重,過濾了冗余信息,克服了人臉遮擋問題對(duì)表情識(shí)別造成的影響。
為了進(jìn)一步約束遮擋圖像在各支路中的占比,本文對(duì)max-margin 函數(shù)進(jìn)行改進(jìn),使遮擋支路的權(quán)重一定小于各支路中最大權(quán)重,改進(jìn)后的約束性損失函數(shù)公式如下:
其中:qmax為各支路權(quán)重最大值,ql為遮擋支路權(quán)重,margin為閾值。
在訓(xùn)練過程中,各支路的自注意力的權(quán)重分配機(jī)制可以初步學(xué)習(xí)各支路在全局特征中的重要性,但人為的人臉圖像遮擋必定使圖像失去一定量信息,因此,對(duì)遮擋支路的約束顯得尤為重要,通過限制遮擋支路所占權(quán)重最小進(jìn)一步彌補(bǔ)人為遮擋所帶來的表情信息丟失;同時(shí)將分類損失與約束性損失結(jié)合對(duì)學(xué)習(xí)到的表情特征進(jìn)行優(yōu)化。分類損失函數(shù)如下:
其中:y代表真實(shí)表情標(biāo)簽期望,y′代表預(yù)測(cè)表情標(biāo)簽期望。最終約束性損失函數(shù)與分類損失函數(shù)相結(jié)合對(duì)表情分類模型進(jìn)行優(yōu)化,優(yōu)化總損失函數(shù)如下:
改進(jìn)后的約束性損失函數(shù)增強(qiáng)了自注意力機(jī)制的效果,通過該約束性函數(shù)進(jìn)一步優(yōu)化各支路權(quán)重,從而進(jìn)一步優(yōu)化全局表情特征表示。
本文基于深度注意力網(wǎng)絡(luò)構(gòu)建課堂視頻中的學(xué)生表情識(shí)別模型,網(wǎng)絡(luò)結(jié)構(gòu)由深度卷積神經(jīng)網(wǎng)絡(luò)和注意力機(jī)制結(jié)合而成,目的是克服真實(shí)場(chǎng)景中遮擋對(duì)表情信息丟失的影響,進(jìn)而用來提取每個(gè)學(xué)生的面部表情特征,相比常規(guī)深度卷積神經(jīng)網(wǎng)絡(luò),整個(gè)學(xué)生課堂表情識(shí)別模型的性能有所提升。
在進(jìn)行網(wǎng)絡(luò)構(gòu)建時(shí),首先通過深度注意力網(wǎng)絡(luò)學(xué)習(xí)學(xué)生表情特征;然后通過合理分配學(xué)生表情各區(qū)域權(quán)重學(xué)習(xí)到更豐富的有效表情特征表示;最后在網(wǎng)絡(luò)的末端使用softmax分類器[16]對(duì)表情進(jìn)行分類,從而完成整個(gè)模型的構(gòu)建。
在進(jìn)行學(xué)生課堂表情識(shí)別時(shí),首先對(duì)載入的課堂視頻數(shù)據(jù)進(jìn)行關(guān)鍵幀的獲取,并對(duì)獲取到的關(guān)鍵幀進(jìn)行灰度化、圖像增強(qiáng)等操作;然后進(jìn)行學(xué)生人臉檢測(cè)并選擇感興趣區(qū)域最大的人臉;最后提取學(xué)生人臉面部的表情特征進(jìn)行預(yù)測(cè),得出各類表情概率并選擇最大概率的表情類別作為輸出。課堂教學(xué)視頻中學(xué)生表情識(shí)別算法偽代碼如下:
在課堂教學(xué)視頻中學(xué)生表情識(shí)別的基礎(chǔ)上,本文將其應(yīng)用于智能教學(xué)評(píng)估,以實(shí)現(xiàn)智慧教育。為了更加精確地基于課堂教學(xué)視頻實(shí)現(xiàn)智能教學(xué)評(píng)估,本文提出了融合學(xué)生表情和行為識(shí)別的智能教學(xué)評(píng)估算法。首先對(duì)學(xué)生課堂視頻進(jìn)行學(xué)生目標(biāo)檢測(cè)和跟蹤,定位視頻中的每個(gè)學(xué)生目標(biāo),對(duì)檢測(cè)到的學(xué)生目標(biāo)進(jìn)行表情識(shí)別和行為識(shí)別;然后通過融合表情和行為的識(shí)別結(jié)果綜合進(jìn)行課堂教學(xué)狀態(tài)評(píng)估值的計(jì)算;最后根據(jù)綜合評(píng)估值判定學(xué)生課堂聽課狀態(tài)。提出的融合學(xué)生表情和行為識(shí)別的智能教學(xué)評(píng)估算法結(jié)構(gòu)如圖2 所示。
圖2 融合學(xué)生表情和行為識(shí)別的智能教學(xué)評(píng)估算法框架Fig.2 Framework of intelligent teaching evaluation algorithm based on students expression and behavior recognition
首先進(jìn)行學(xué)生目標(biāo)檢測(cè)標(biāo)注出視頻當(dāng)中的學(xué)生目標(biāo),然后對(duì)每一個(gè)標(biāo)注出的學(xué)生目標(biāo)采用提出的基于深度注意力網(wǎng)絡(luò)的表情識(shí)別模型進(jìn)行表情識(shí)別,并利用基于深度卷積神經(jīng)網(wǎng)絡(luò)的行為識(shí)別算法對(duì)學(xué)生行為進(jìn)行識(shí)別[17]。由于行為識(shí)別和表情識(shí)別同時(shí)進(jìn)行,所以當(dāng)識(shí)別到學(xué)生的行為狀態(tài)是低頭或者轉(zhuǎn)頭時(shí)會(huì)不進(jìn)行表情識(shí)別以降低對(duì)最終綜合評(píng)估的影響。根據(jù)記錄的學(xué)生表情識(shí)別結(jié)果和行為識(shí)別結(jié)果,統(tǒng)計(jì)積極表情(開心、專注、理解)、消極表情(沮喪、抵抗、不屑)、中性表情(困惑)三種表情類別對(duì)應(yīng)的人數(shù)及概率值,統(tǒng)計(jì)積極行為(聽講)、消極行為(低頭、轉(zhuǎn)頭)、中性行為(站立)三種行為類別對(duì)應(yīng)的人數(shù)以及概率值,然后對(duì)表情和行為分配權(quán)重計(jì)算得到最終的綜合評(píng)估值,最后根據(jù)綜合評(píng)估值分析判定學(xué)生的聽課狀態(tài)。
在融合課堂學(xué)生表情和行為的智能教學(xué)評(píng)估算法中,用α表示分配給表情識(shí)別結(jié)果的權(quán)重值,β表示分配給行為識(shí)別結(jié)果的權(quán)重值。
首先,用count表示各類表情或行為的人數(shù),通過式(6)計(jì)算統(tǒng)計(jì)從課堂視頻中識(shí)別到的學(xué)生總?cè)藬?shù):
然后,分別計(jì)算積極表情和積極行為的概率值:
接著,對(duì)表情識(shí)別結(jié)果和行為識(shí)別結(jié)果分配權(quán)重,計(jì)算最終的綜合評(píng)估值:
最后,針對(duì)綜合評(píng)估值來分析學(xué)生的整體課堂狀態(tài)評(píng)估等級(jí)。
不同條件下的課堂狀態(tài)評(píng)估等級(jí)一共分成了7 個(gè)等級(jí),分別是A+等級(jí)、A 等級(jí)、B+等級(jí)、B 等級(jí)、B-等級(jí)、C 等級(jí)和C-等,各個(gè)等級(jí)含義如下。
A+等級(jí) 認(rèn)真聽講、積極參與課堂學(xué)習(xí)的學(xué)生人數(shù)比例大約占到了整個(gè)課堂人數(shù)的75%以上。
A 等級(jí) 整體課堂狀態(tài)與A+等級(jí)較接近,積極人數(shù)比例占整個(gè)課堂的(70%,75%],表征整個(gè)課堂還不錯(cuò)。
B+等級(jí) 整體課堂狀態(tài)與A 等級(jí)比較接近,大部分(67%,70%]學(xué)生處于認(rèn)真聽課的狀態(tài),只存在部分極少數(shù)學(xué)生聽課不認(rèn)真,可在課后與學(xué)生進(jìn)行溝通交流。
B 等級(jí) 課堂中有一少部分學(xué)生聽講不認(rèn)真,不能夠積極主動(dòng)地參與課堂學(xué)習(xí),但整體來說,認(rèn)真的學(xué)生人數(shù)(65%,67%]還是要大于不認(rèn)真的學(xué)生人數(shù)。
B-等級(jí) 課堂當(dāng)中不認(rèn)真聽講、積極參與課堂的學(xué)生人數(shù)超過整體課堂總?cè)藬?shù)的近一半(45%,65%],說明整個(gè)課堂效果并不理想。
C 等級(jí) 課堂當(dāng)中不認(rèn)真聽講,沒有積極參與課堂的學(xué)生人數(shù)過多,即積極學(xué)生人數(shù)僅占(30%,45%]。
C-等級(jí) 課堂存在諸多問題,應(yīng)該及時(shí)找出根源問題,做出相應(yīng)調(diào)整。
為了進(jìn)一步驗(yàn)證提出的表情識(shí)別方法和智能教學(xué)評(píng)估方法的準(zhǔn)確性,本文使用公開人臉表情數(shù)據(jù)集FERPlus 和自建課堂教學(xué)視頻數(shù)據(jù)集進(jìn)行驗(yàn)證。
FERPlus 是在ICML 2013 表征學(xué)習(xí)挑戰(zhàn)中引入的FER2013 的延伸,它是谷歌搜索引擎收集的大規(guī)模真實(shí)人臉表情數(shù)據(jù)集,包括28 709 幅訓(xùn)練圖像、3 589 幅驗(yàn)證圖像和3 589 幅測(cè)試圖像。數(shù)據(jù)集中的所有人臉圖像將對(duì)齊并調(diào)整為48×48。FERPlus 主要標(biāo)注為8 個(gè)表情標(biāo)簽(中性、快樂、驚訝、悲傷、憤怒、厭惡、恐懼、輕蔑),作者評(píng)估了幾種訓(xùn)練方案,如單熱點(diǎn)標(biāo)簽(多數(shù)投票)和交叉熵?fù)p失的標(biāo)簽分布。本文主要通過多數(shù)投票的方法測(cè)試總體準(zhǔn)確性。
自建課堂教學(xué)視頻數(shù)據(jù)集是包涵學(xué)生表情和學(xué)生行為動(dòng)向的視頻,共90 個(gè)課堂教學(xué)視頻片段,采集于互聯(lián)網(wǎng)真實(shí)課堂下的場(chǎng)景,該數(shù)據(jù)集主要用于智能教學(xué)評(píng)估方法的驗(yàn)證。
將所有視頻幀調(diào)整大小為224×224。實(shí)驗(yàn)環(huán)境為Pytorch1.6。對(duì)于五條支路卷積神經(jīng)網(wǎng)絡(luò)的主干,本文主要使用ResNet-18。在所有數(shù)據(jù)集上,學(xué)習(xí)速率初始化為0.01,在30 個(gè)epoch 后除以10。
3.3.1 實(shí)驗(yàn)1
本文在公開數(shù)據(jù)集FERPlus[18]上比較提出的模型與對(duì)比模型的性能,各對(duì)比模型如下:
Probabilistic Label Drawing(PLD)[18]是一種基于深度卷積神經(jīng)網(wǎng)絡(luò)從噪聲中提取表情特征的模型。
Deep-emotion[11]是一種基于注意力機(jī)制專注于提取對(duì)表情識(shí)別有重要影響面部區(qū)域的模型。
Efficient-Net[19]是一種基于共享表示集成的表情識(shí)別模型。
它們?cè)跍y(cè)試集上的準(zhǔn)確率如表1 所示。
表1 各模型準(zhǔn)確率對(duì)比 單位:%Tab.1 Accuracy comparison of different models unit:%
觀察表1 的實(shí)驗(yàn)結(jié)果可以發(fā)現(xiàn),相較于其他三種模型,本文模型在公開數(shù)據(jù)集FERPlus 上獲得了最高的準(zhǔn)確率,因?yàn)樗崮P腿诤狭司植颗c整體表情特征,且對(duì)表情有效區(qū)域給予更高權(quán)重,解決了遮擋情況下表情信息丟失造成的無法學(xué)習(xí)有效表情特征的問題。為了進(jìn)一步驗(yàn)證提出的基于深度注意力網(wǎng)絡(luò)的表情識(shí)別模型的有效性,將所提模型和基于注意力機(jī)制的Deep-emotion 模型進(jìn)行了對(duì)比,實(shí)驗(yàn)結(jié)果如圖3 所示。
圖3 兩種模型在測(cè)試集上的準(zhǔn)確率對(duì)比Fig.3 Accuracy comparison of two models on test set
觀察圖3 發(fā)現(xiàn),所提模型相較于Deep-emotion 模型,在第1 輪時(shí)準(zhǔn)確率就已經(jīng)達(dá)到80.9%,高出Deep-emotion 近30 個(gè)百分點(diǎn),說明本文模型在第1 輪就已經(jīng)達(dá)到較好表情識(shí)別效果,并且在第3 輪準(zhǔn)確率曲線就已經(jīng)逐漸趨于平緩,而同樣基于注意力機(jī)制的Deep-emotion 在第8 輪時(shí)才趨于平緩,由此可見相較于常規(guī)基于注意力機(jī)制的表情識(shí)別模型,本文模型可以快速學(xué)習(xí)到有效的人臉表情特征。
為了驗(yàn)證約束性損失函數(shù)的margin值對(duì)模型準(zhǔn)確率的影響,本文還進(jìn)一步設(shè)置了不同margin值以驗(yàn)證所提模型對(duì)參數(shù)的敏感性,準(zhǔn)確率結(jié)果如圖4 所示。
圖4 參數(shù)敏感性實(shí)驗(yàn)結(jié)果Fig.4 Parameter sensitivity experiment results
本文設(shè)置margin值分別為0.02、0.05 和0.1。由圖4 可觀察到:在margin值為0.05 時(shí)可達(dá)到最好效果,并且可以在第1 輪訓(xùn)練就達(dá)到較高準(zhǔn)確率,且在后續(xù)輪數(shù)中表現(xiàn)始終平穩(wěn),一直處于準(zhǔn)確率較高水平;而margin值為0.02 時(shí)準(zhǔn)確率一直較低,由此可見過低的margin值會(huì)使閾值得設(shè)定無法產(chǎn)生應(yīng)有的作用,無法有效優(yōu)化并加大各個(gè)支路的權(quán)重分配;而過高的margin值的設(shè)定會(huì)使各支路權(quán)重相差過多,失去多路網(wǎng)絡(luò)設(shè)定的意義,因此本文margin值設(shè)置為0.05。
3.3.2 實(shí)驗(yàn)2
為了進(jìn)一步驗(yàn)證約束性損失函數(shù)對(duì)模型準(zhǔn)確率提升的有效性,本文還設(shè)計(jì)了消融實(shí)驗(yàn)來驗(yàn)證加入約束性損失函數(shù)對(duì)分類效果的影響。
本文將模型中約束性損失函數(shù)去掉對(duì)比原模型在FERPlus 數(shù)據(jù)集上進(jìn)行了驗(yàn)證,通過圖5 可以看出,約束損失性函數(shù)的加入使得模型對(duì)于表情分類的準(zhǔn)確性有所提升,驗(yàn)證了約束損失函數(shù)可以對(duì)支路權(quán)重進(jìn)行進(jìn)一步優(yōu)化,自適應(yīng)地調(diào)節(jié)各支路權(quán)重占比,從而模型的性能有所提升。
圖5 消融實(shí)驗(yàn)結(jié)果Fig.5 Ablation experiment results
3.3.3 實(shí)驗(yàn)3
為了進(jìn)一步測(cè)試所提出的課堂教學(xué)評(píng)估算法在真實(shí)課堂場(chǎng)景下的性能及有效性,針對(duì)提出的融合課堂表情和行為的智能教學(xué)評(píng)估算法(WCA),對(duì)采集到的90 個(gè)學(xué)生課堂視頻數(shù)據(jù)上進(jìn)行了性能評(píng)估,對(duì)每位學(xué)生的狀態(tài)進(jìn)行準(zhǔn)確率預(yù)測(cè),通過對(duì)學(xué)生表情與學(xué)生行為的識(shí)別,判斷課堂學(xué)生所處狀態(tài),測(cè)試部分視頻準(zhǔn)確率結(jié)果如表2 所示。
表2 WCA準(zhǔn)確率測(cè)試 單位:%Tab.2 Accuracy test of WCA unit:%
從表中可以看出所提算法在各個(gè)視頻上已經(jīng)取得了較好的準(zhǔn)確率,最高達(dá)到73.6%。但由于行為識(shí)別算法的加入也會(huì)產(chǎn)生一定誤差,因此課堂教學(xué)視頻中存在識(shí)別準(zhǔn)確率過低的情況。此外,為了更好地驗(yàn)證提出的融合課堂表情和行為的智能教學(xué)評(píng)估算法,將所提算法與基于表情的課堂教學(xué)評(píng)估算法、基于行為的課堂教學(xué)評(píng)估算法和基于概率融合的課堂教學(xué)評(píng)估算法進(jìn)行了對(duì)比,部分預(yù)測(cè)與標(biāo)注結(jié)果如表3和表4 所示。
表3 各課堂教學(xué)評(píng)估算法結(jié)果對(duì)比Tab.3 Comparison of classroom teaching evaluation results among different algorithms
表4 各課堂教學(xué)評(píng)估算法平均準(zhǔn)確率比較 單位:%Tab.4 Average accuracy comparison among different classroom teaching evaluation algorithms unit:%
通過表4 和表5 中實(shí)驗(yàn)結(jié)果可以發(fā)現(xiàn),本文提出的融合課堂表情和行為的智能教學(xué)評(píng)估算法的平均準(zhǔn)確率為56.7%,介于表情識(shí)別和行為識(shí)別的準(zhǔn)確率之間,高于基于概率融合的課堂評(píng)估準(zhǔn)確率。由于提出的融合課堂表情和行為的智能教學(xué)評(píng)估算法對(duì)表情和行為兩者的結(jié)果進(jìn)行了相應(yīng)的權(quán)重分配,然后對(duì)綜合得出的數(shù)值進(jìn)行了評(píng)定等級(jí)的劃分,更加充分地綜合了表情和行為的識(shí)別結(jié)果,并且通過實(shí)驗(yàn),選取合適的權(quán)重值會(huì)使最終的結(jié)果更加準(zhǔn)確。本文提出的課堂教學(xué)評(píng)估方法同時(shí)融合了表情和行為,表情和行為識(shí)別的誤差都會(huì)對(duì)算法的評(píng)估帶來一定影響,因此雖然本文提出算法的平均準(zhǔn)確率低于基于行為識(shí)別的智能教學(xué)評(píng)估,但基于行為識(shí)別的方法未加入表情識(shí)別的誤差,本算法考慮因素更加全面,準(zhǔn)確率結(jié)果更加客觀。
本文以課堂教學(xué)視頻中的學(xué)生表情識(shí)別問題為研究對(duì)象,提出一種端到端的、基于深度注意力網(wǎng)絡(luò)的課堂教學(xué)視頻中學(xué)生表情識(shí)別模型。它通過多支路的學(xué)生表情特征學(xué)習(xí)和基于自注意力機(jī)制的權(quán)重調(diào)整,融合表情局部與全局特征,更合理地學(xué)習(xí)學(xué)生表情特征,提高對(duì)課堂學(xué)生表情識(shí)別的準(zhǔn)確性,最后提出了融合課堂學(xué)生表情和行為的智能教學(xué)評(píng)估算法,實(shí)現(xiàn)了課堂狀態(tài)的整體評(píng)估以及面向每個(gè)學(xué)生的聽課狀態(tài)評(píng)估。在課堂教學(xué)視頻數(shù)據(jù)集和公開數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,本文提出的學(xué)生表情識(shí)別模型以及智能教學(xué)評(píng)估方法優(yōu)于現(xiàn)有的現(xiàn)有模型。在未來工作中,本模型還將進(jìn)一步考慮時(shí)序關(guān)系對(duì)表情識(shí)別的影響,將本模型應(yīng)用于視頻序列中。