戴海云 張 明
(江蘇科技大學計算機科學與工程學院 鎮(zhèn)江 212003)
目前將人臉表情識別作為課堂質(zhì)量分析的研究還不夠廣泛。而且在現(xiàn)實中,課堂中往往缺乏老師與學生的溝通交流,只重視老師對課堂所教學的內(nèi)容的同時,會忽視對課堂能給出直觀感受的學生的反饋信息。雖然也有傳統(tǒng)的課堂質(zhì)量分析,比如專業(yè)人員進行人工記錄或者學生課后問卷打分[1],這些都帶有主觀因素和滯后性。全國都在推行素質(zhì)教育,而課堂作為教學最關(guān)鍵且最主要的方式,所以老師對學生的臉部表情的反饋更能夠知道該學生對自己的教學是否適用。比如,老師在課堂上看見學生是眼睛張開,嘴角上揚,愉悅地望向自己,他應(yīng)該就會知道這個學生對自己的教學內(nèi)容有了理解,那么此刻老師就可以適時地進入下一個講解,但若是看見學生眉毛緊皺,嘴角下拉,甚至是疲憊的狀態(tài),那么老師可以結(jié)合自己的多年教學經(jīng)驗得出此刻學生有疑惑或未理解,那么老師即可作調(diào)整。但是老師不會一直將注意力放在學生的表情和對其的分析上,也不能全面兼顧到全班所有同學的表情變化,用計算機技術(shù)來作為輔助老師對自己的學生的表情識別和記錄,對課堂質(zhì)量做出分析,從而調(diào)整教學進度和改善教學方法,那么是非常實時、客觀且有意義的事情。
在基于深度學習方法的靜態(tài)表情識別[2]學習研究中,雖然取得了良好的識別效果,但是在課堂中學生的表情的發(fā)生是一個持續(xù)的過程,所以基于靜態(tài)圖像的表情識別忽略了表情的動態(tài)信息。為解決這一問題,本文提出了一種特征融合-BiLSTM模型用于視頻序列人臉表情識別。該網(wǎng)絡(luò)模型是融合了提取的空間信息和時序信息,再結(jié)合使用BiLSTM。
循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)和長短期記憶網(wǎng)絡(luò)(LSTM)[3]兩種模型對結(jié)果的預(yù)測僅僅是依賴當前狀態(tài)的若干個前序狀態(tài),是沒有辦法做到對后序信息的編碼操作。但是,由前序若干狀態(tài)和后序若干狀態(tài)共同作為輸入對結(jié)果的預(yù)測會更好。雙向循環(huán)神經(jīng)網(wǎng)絡(luò)(Bi-directional Short-Term Memory,BiLSTM)[4]可滿足以上敘述的要求。
前序LSTM 和后序LSTM 共同組合成BiLSTM,其神經(jīng)元狀態(tài)不僅和上一刻的本身狀態(tài)有關(guān),而且和下一刻的自身狀態(tài)也相關(guān)。能夠從前序LSTM提取到過去的特征,從后序LSTM 提取到未來的特征。結(jié)構(gòu)如圖1 所示。圖中圓圈為逐點運作;藍線為后向傳播;綠線為前向傳播。從雙向?qū)涌?,它從垂直向和水平向獲得信息,最終再將上層的處理信息輸出出來。
圖1 BiLSTM結(jié)構(gòu)
人臉表情的特征是由表情圖像的空間特征提供的。為了能提取出更多的更有效的表情特征,本文使用的空間特征提取網(wǎng)絡(luò)是靜態(tài)表情識別網(wǎng)絡(luò),如圖2 所示。此網(wǎng)絡(luò)提供了卷積神經(jīng)網(wǎng)絡(luò)設(shè)計的一個關(guān)鍵點——深度。同時將此網(wǎng)絡(luò)結(jié)合Inception 結(jié)構(gòu),再進行分解卷積和維度,能較大程度地減少計算成本。實驗證明此模型在提取靜態(tài)表情特征中提供了良好的效果。
圖2 靜態(tài)表情識別網(wǎng)絡(luò)
提取表情動態(tài)的特征是由時序信息提取網(wǎng)絡(luò)完成的,如圖3所示。圖3的說明如下:輸入兩張表情序列圖片,這種方式的輸入可以使用網(wǎng)絡(luò)提取到短期記憶的帶臺信息,與上一節(jié)所說的空間信息提取不同的是,空間特征提取是給出詳細的空間表情特征,此節(jié)所說的網(wǎng)絡(luò)是將表情的時序性放于重心處。所以在時序信息網(wǎng)絡(luò)的挑選中本文優(yōu)先使用有最好識別效果的較淺的卷積神經(jīng)網(wǎng)絡(luò)。這個結(jié)構(gòu)包含兩層Conv,兩層最大Pooling,而且在每個卷積層后都使用了批量正則化層(Batch Normalization,BN)[5],批量正則化的優(yōu)點在于能更快收斂到局部最優(yōu)。模型的最后是一個全連接層,即FC。
圖3 提取表情動態(tài)特征
前兩節(jié)提取到的表情空間特征和短期時序信息有相同的維度,就可以將兩種特征進行融合。融合方法有三種,最大融合、連接融合和相加融合。經(jīng)過在CK+數(shù)據(jù)集上進行十字交叉驗證法,并重復(fù)3次,不同融合方法的識別效果如表1所示,根據(jù)結(jié)果最終采用連接融合特征。設(shè)PA和PB表示提取的空間特征的特征向量和提取的時序信息的特征向量,用L,W和D代表特征向量長、寬和通道數(shù),Q則代表融合后的特征。在式(1)中,pA,PB∈RL×W×D,qcat∈RL×W×2D且1 ≤i≤W,1 ≤j≤W。
表1 不同融合方式的準確率
上述融合特征之后,兩個網(wǎng)絡(luò)的特征向量就被轉(zhuǎn)換成時間序列。然而。這個是短期的時序信息,我們需要的是整個表情緒里的疊加時序信息,需要采用BiLSTM循環(huán)神經(jīng)網(wǎng)絡(luò)。整個過程表示如下:
在以上三個公式中,xt表示經(jīng)過融合特征之后的向量,yt表示輸出向量,代表前向傳播隱含層和后向傳播隱含層,?表示sigmoid 激活函數(shù),e是偏置向量,A、B、C表示權(quán)重向量。
本文模型與其他模型分別在CK+數(shù)據(jù)集上進行對比試驗,結(jié)果如表2 所示,從表中可看出本文提出的模型比最新的模型的精確度提高了,說明特征融合-BiLSTM使得識別效果得到了提升。
表2 不同模型在CK+數(shù)據(jù)集上的識別效果
表3 表示本文的特征融合-BiLSTM 模型在數(shù)據(jù)集CK+上的混淆矩陣??梢钥闯?,可能由于happy 和angry 兩個表情特征比較明顯,這兩種的識別表現(xiàn)良好,而其他的就會較容易出現(xiàn)FN 類型的錯誤。
表3 特征融合-BiLSTM模型-數(shù)據(jù)集CK+混淆矩陣
課堂質(zhì)量分析直接反映學生課堂聽講狀態(tài)和教師教學的適用性程度。實現(xiàn)課堂質(zhì)量分析劃分為兩個部分,首先通過學生的課堂表情識別結(jié)果設(shè)計出學生表情分數(shù),此表情分數(shù)決定聽課狀態(tài)分類,其次能給出一節(jié)課中全部學生的聽課狀態(tài),最終通過與教師評分對比作驗證。
經(jīng)查閱大量表情識別與教學相關(guān)的研究[11~15],得知表情體現(xiàn)的表情特征能反映處該表情的情緒,再結(jié)合真實的課堂環(huán)境,所以得出以下的學生表情-學習情緒的分類,見表4。
表4 學生表情-學習情緒
對照學生表情及表情特征,本文將學習情緒分為7 類,表情識別模型可以為每類學習情緒輸出一個置信度,作為這個表情的的可能性,這一可能性作為學生聽課狀態(tài)評分的標準。結(jié)合上面表格,去除與課堂無關(guān)的表情,將害怕權(quán)值設(shè)為零;將蔑視作為對聽課狀態(tài)很不好的判斷,權(quán)值設(shè)置為-3;厭惡作為對聽課狀態(tài)不好的判斷,權(quán)值設(shè)為-2;悲傷作為對聽課狀態(tài)較不好的判斷,權(quán)值設(shè)為-1;聽課狀態(tài)較好、好、非常好依次對應(yīng)生氣、驚訝、開心,權(quán)值分別為1,2,3。最后得分取值在-3~3 之間,再進行歸一化,就可以得到學生a 在時刻t 時的表情分數(shù),見式(5)。
為得到全班所有學生一幀圖片的表情分數(shù),進行下一操作:累加所有學生的表情權(quán)重并求其平均值,見式(8),snt表示學生一幀畫面識別到的學生數(shù)量。
根據(jù)一節(jié)課的總時間,將所有時刻的分數(shù)累計取平均值,就可以得到一整節(jié)課的學生表情分數(shù),因分布在-1~1之間,為了保證分數(shù)在0~10之間,將權(quán)值乘上5再加上基礎(chǔ)分5分,見式(9)。
本文通過計算出一整節(jié)課中識別到的學生表情分數(shù)進而對課堂質(zhì)量作劃分,課堂質(zhì)量分為四個層次,Very Good、Good、Not bad、Bad,見表5。
表5 課堂質(zhì)量劃分
為了驗證本文提出的基于人臉表情識別的課堂質(zhì)量分析是否合理,作者選擇了高中學校的一節(jié)課進行分析,取其中20min 的時長,一幀為間隔將視視頻分為14400張圖片,獲取10000有效圖片,并選擇其中五名學生進行跟蹤,將本文設(shè)計評分與教師評分作對比并分析,結(jié)果見表6。
表6 教師評分-本文設(shè)計評分
使用皮爾遜積矩相關(guān)系數(shù)來驗證教師評分與本文設(shè)計評分的相關(guān)性。式(14)是皮爾遜積矩相關(guān)系數(shù)公式,式(10)和式(11)是教師評分和本文設(shè)計評分的平均值,式(12)和式(13)是教師評分和本文設(shè)計評分的標準差,sn為學生總數(shù),ti是教師評分集合,si是本文設(shè)計評分的集合。
據(jù)計算,兩者相關(guān)系數(shù)大于零,說明本文設(shè)計評分和教師評分是存在相關(guān)性的,即本文針對基于人臉表情識別的課堂質(zhì)量設(shè)計評分是合理的。
針對目前的課堂質(zhì)量分析不多的情況,本文將智能視頻技術(shù)以及人臉表情識別技術(shù)應(yīng)用到課堂質(zhì)量分析中,為現(xiàn)在的不足提供一個相對可靠的分析依據(jù)。第一部分的工作落于對人臉表情識別算法的研究,提出了特征融合-BiLSTM 模型,提高了識別準確率,也為課堂注量分析打下夯實基礎(chǔ);第二部分工作體現(xiàn)在本文提出的課堂質(zhì)量評分,依據(jù)皮爾遜積矩相關(guān)系數(shù),驗證了其合理性。文中把較好的表情識別作為課堂質(zhì)量分析的因素是相對可靠的,但是在課堂質(zhì)量分析中,但還有一些問題需要深挖,比如人體姿態(tài)因素、評分應(yīng)該分學科等。