陳良波, 許維勝
(1.同濟(jì)大學(xué) 電子與信息工程學(xué)院,上海 201804; 2.同濟(jì)大學(xué) 信息化辦公室,上海 200092)
2015年“互聯(lián)網(wǎng)+教育”被寫進(jìn)政府工作報(bào)告[1],隨后智慧教育、智慧校園、智慧教室等研究熱潮持續(xù)上升。目前,對(duì)智慧教室的研究多關(guān)注智慧教室的概念界定、技術(shù)空間設(shè)計(jì)、配備標(biāo)準(zhǔn)、互動(dòng)方式、教學(xué)模式等層面[2],而對(duì)于如何利用人工智能技術(shù)對(duì)教學(xué)情境進(jìn)行理解以促進(jìn)教學(xué)向智能化邁進(jìn)的研究至今鮮見(jiàn)報(bào)道。
國(guó)內(nèi)高校對(duì)教師的教學(xué)評(píng)價(jià)主要有以下3種方式:教學(xué)督導(dǎo)定期聽課抽查、學(xué)生網(wǎng)上評(píng)教、通過(guò)學(xué)生期末成績(jī)進(jìn)行考核。前兩種方式容易受到主觀因素的影響,使結(jié)果真實(shí)性降低;后一種方式只注重過(guò)程,是一種結(jié)果性評(píng)價(jià),但忽略了教學(xué)過(guò)程的重要性。
在人工智能高速發(fā)展的今天,研究如何使用人工智能技術(shù)來(lái)促進(jìn)教育智能化發(fā)展顯得意義非凡。
本文將深度學(xué)習(xí)算法應(yīng)用到智慧教室中,數(shù)據(jù)化呈現(xiàn)教師表情狀況,為教學(xué)考核提供數(shù)據(jù)支持,而且可以用于分析學(xué)生對(duì)教學(xué)內(nèi)容的感興趣程度,是深度學(xué)習(xí)的應(yīng)用擴(kuò)展和創(chuàng)新。
全國(guó)許多高校都在致力于建設(shè)智慧教室,同濟(jì)大學(xué)部分教室已配備具有跟隨錄播功能的高清攝像頭,對(duì)教室教學(xué)過(guò)程進(jìn)行跟隨拍攝,獲得1 920×1 080分辨率的教學(xué)視頻,為本文研究提供數(shù)據(jù)支持。心理學(xué)研究表明:人的情感有55%通過(guò)面部表情展現(xiàn),38%通過(guò)語(yǔ)言表達(dá)方式呈現(xiàn),而言語(yǔ)本身僅傳達(dá)8%的信息量[3]。該研究成果為本文研究提供了理論依據(jù)。
對(duì)視頻中教師表情進(jìn)行分析,根據(jù)表情結(jié)果推斷教師在上課過(guò)程中的情緒狀況、課堂氛圍、教學(xué)情緒積極程度等數(shù)據(jù)化指標(biāo),并結(jié)合教學(xué)視頻人為評(píng)價(jià)和學(xué)生課堂情況滿意度調(diào)查,可以檢驗(yàn)教學(xué)情境理解的結(jié)論與實(shí)際情況的相符合程度。
人臉檢測(cè)算法大致分為以下2類:一類是通過(guò)模式設(shè)計(jì)進(jìn)行特征提取,并采用AdaBoost算法將弱分類器訓(xùn)練為強(qiáng)分類器以實(shí)現(xiàn)人臉檢測(cè);另一類是使用端到端的深度學(xué)習(xí)模型。綜合考量了當(dāng)前主流算法在人臉檢測(cè)精確度、召回率和速度方面的性能,本文選擇MTCNN[4](multi-task convolutional neural network)作為人臉檢測(cè)算法。
表情識(shí)別是一個(gè)圖像分類任務(wù),對(duì)該任務(wù)的研究也可以分為以下2類:一類是設(shè)計(jì)模式、提取特征、選擇特征、確定分類器來(lái)完成分類的傳統(tǒng)方式;另一類是使用深度學(xué)習(xí)模型。考慮到深度學(xué)習(xí)模型在圖像分類任務(wù)上的優(yōu)良表現(xiàn),比較了各大主流圖像分類深度神經(jīng)網(wǎng)絡(luò)模型的性能、結(jié)構(gòu)和參數(shù)量,本文選擇Xception[5]模型完成表情識(shí)別。人臉檢測(cè)技術(shù)和表情識(shí)別構(gòu)成了本文研究的技術(shù)基礎(chǔ)。
人臉檢測(cè)使用多任務(wù)級(jí)聯(lián)神經(jīng)網(wǎng)絡(luò)MTCNN,其結(jié)構(gòu)如圖1所示。首先,通過(guò)P-Net模型生成初步人臉候選框和邊界回歸向量,并使用非極大值抑制去除重復(fù)的候選框;然后,使用R-Net模型改善候選框;最后,采用O-Net模型輸出人臉、人臉位置和5個(gè)特征點(diǎn)的位置坐標(biāo)。使用FDDB標(biāo)準(zhǔn)數(shù)據(jù)集和WIDER FACE數(shù)據(jù)集進(jìn)行測(cè)試,MTCNN性能和速度都具有優(yōu)越性。在實(shí)際教室中,采用教室監(jiān)控獲得的教室圖片進(jìn)行測(cè)試,測(cè)試所得ROC曲線(受試者工作特征曲線)如圖2所示。由圖2可知,平均真陽(yáng)性率為93.6%,性能滿足本文研究的需求。
通過(guò)測(cè)試得到以下檢測(cè)結(jié)果:①M(fèi)TCNN對(duì)人臉檢測(cè)效果非??煽?檢測(cè)到的人臉圖片直接預(yù)處理后輸入后續(xù)表情識(shí)別模型;②由于MTCNN的召回率和精確度都很高,因此部分人臉圖片存在角度偏轉(zhuǎn)較大、遮擋等情況,在表情識(shí)別之前需要對(duì)這些情況進(jìn)行判斷清理后,方可將檢測(cè)到的人臉圖片輸入表情識(shí)別模型。
圖1 MTCNN結(jié)構(gòu)Fig.1 Structure of MTCNN
圖2 人臉檢測(cè)ROC曲線Fig.2 ROC curve of face detection
采用常用的7類表情劃分方法,將表情分為生氣、厭惡、恐懼、高興、憂傷、驚奇、中性。本文采用FER2013數(shù)據(jù)集訓(xùn)練模型,數(shù)據(jù)集采集自非限制條件,相對(duì)于標(biāo)準(zhǔn)姿態(tài)數(shù)據(jù)集有更好的魯棒性和通用性。使用Xception模型實(shí)現(xiàn)表情分類,Xception模型的結(jié)構(gòu)如圖3所示。
參考Zhang等[4]的工作,使用42×42的灰度圖作為輸入。Conv2D(32,(3,3))指用32個(gè)3×3的卷積核進(jìn)行普通卷積操作,ReLU則表示對(duì)卷積結(jié)果使用ReLU激活函數(shù)進(jìn)行非線性處理;MaxPool表示最大值采樣,采樣核為3×3;SeparableConv2D表示深度可分離卷積操作;在Conv2D和SeparableConv2D之后進(jìn)行批規(guī)范化處理;Add Layer表示融合層,采用相加融合;GlobalAveragePooling表示全局均值池化;Softmax表示采用Softmax作為激活函數(shù)。
圖3 Xception模型結(jié)構(gòu)Fig.3 Structure of Xception model
(1)訓(xùn)練數(shù)據(jù)準(zhǔn)備
FER2013數(shù)據(jù)集分為訓(xùn)練集、驗(yàn)證集和測(cè)試集3個(gè)部分,各部分的數(shù)據(jù)量是28 709、3 584、3 584,將訓(xùn)練集和驗(yàn)證集2個(gè)部分合并為訓(xùn)練集。對(duì)訓(xùn)練集進(jìn)行擴(kuò)展,分別做20°內(nèi)小角度隨機(jī)旋轉(zhuǎn)3次,水平鏡像變換、亮度隨機(jī)調(diào)整、對(duì)比度隨機(jī)調(diào)整、剪切變換各1次,再將原始48像素表情圖片隨機(jī)縮放為42到56像素并隨機(jī)裁剪其中42×42部分作為訓(xùn)練數(shù)據(jù)重復(fù)2次,最后擴(kuò)展得到訓(xùn)練集圖片共計(jì)355 278張,大小為42×42,拆分其中的10%作為模型訓(xùn)練過(guò)程中的驗(yàn)證集。
(2)模型訓(xùn)練
使用小批量數(shù)據(jù)集訓(xùn)練,batch size設(shè)置為64。
使用Adam優(yōu)化算法和交叉熵?fù)p失函數(shù),學(xué)習(xí)率為0.001。
采用Early Stop機(jī)制。驗(yàn)證集上的準(zhǔn)確率10個(gè)epoch后沒(méi)提升,學(xué)習(xí)率變?yōu)?.1倍,50個(gè)epoch后驗(yàn)證集上的準(zhǔn)確率不再提升或者損失函數(shù)值不再降低,訓(xùn)練結(jié)束。訓(xùn)練到258個(gè)epoch后模型收斂,獨(dú)立訓(xùn)練4個(gè)模型以建立投票機(jī)制,得到最后的表情識(shí)別結(jié)果,如表1所示。
表1 FER2013測(cè)試集混淆矩陣Tab.1 Obfuscation matrix of FER2013 test set
表1中數(shù)值表示真實(shí)表情被識(shí)別為各類的概率,對(duì)角線上黑體數(shù)值表示各類表情被正確識(shí)別的概率。從表1可以得到:平均正確率為74.31%,比當(dāng)前最好的研究成果Sang等[6]的71.19%提升了3.12%;“高興”表情識(shí)別效果最好為91.00%,教學(xué)情境理解由“高興”表情得出的結(jié)果可靠性高;“驚奇”、“中性”、“厭惡”等3類表情識(shí)別效果非常好地滿足研究需求;“生氣”和“憂傷”表情表達(dá)的情緒都是消極情緒,對(duì)表情分析的結(jié)果沒(méi)有影響。Xception單獨(dú)模型參數(shù)量只有20.6×103個(gè),4個(gè)模型的投票機(jī)制參數(shù)量也僅有82.4×103個(gè),Sang等[6]的最優(yōu)模型參數(shù)量4.19×106個(gè),為本文模型參數(shù)量的50.8倍,因此本文所使用模型在計(jì)算上更具優(yōu)勢(shì)。
本文中:“高興”、“中性”和“驚奇”表情的識(shí)別正確率滿足研究需求;“生氣”和“憂傷”為相近表情,傳遞的情緒特征都為消極情緒,對(duì)表情分析的結(jié)果沒(méi)有影響;“厭惡”和“恐懼”在教室中出現(xiàn)的概率非常小,對(duì)表情分析的影響可以忽略。
在實(shí)際教室環(huán)境中對(duì)師生表情識(shí)別情況測(cè)試的結(jié)果表明:“生氣”和“憂傷”表情更接近“中性”表情。
智慧教室中的教學(xué)情境理解通過(guò)表情分析實(shí)現(xiàn),表情分析的對(duì)象是教師。對(duì)教學(xué)視頻以一定采樣間隔進(jìn)行分析,計(jì)算教師每一類表情總數(shù)在所有表情總數(shù)中的比例。圖4展示了一個(gè)教師各類表情情況,圖5展示了3個(gè)教師“高興”表情對(duì)比情況。
圖4 一個(gè)教師各類表情情況Fig.4 Emotion expression of one teacher
圖5 3個(gè)教師的“高興”表情情況Fig.5 Happy expression of three teachers
從圖4可以看出:①不同表情所占的比例不同,而且各類表情比例存在明顯差別,“恐懼”、“厭惡”和“驚奇”等3類表情所占比例非常少,與實(shí)際情況相符;②受算法對(duì)“生氣”和“憂傷”2類表情識(shí)別效果的影響,“生氣”和“憂傷”表情比例偏高,實(shí)際情況更接近“中性”;③“高興”表情檢測(cè)正確率、可靠性都非常高,可以反映教師在上課過(guò)程中上課情緒的積極程度、情感投入度、課堂氣氛活躍情況。
從圖5可以看出:①不同教師在授課過(guò)程中“高興”表情的比例不同;②部分教師進(jìn)入課堂后“高興”表情比例會(huì)發(fā)生顯著變化。
由教師的表情分析結(jié)果理解以下教學(xué)情境:
(1)各類表情的比例分布情況展現(xiàn)的是教師的上課風(fēng)格。“高興”表情比例高,課堂氛圍活躍度高?!爸行浴北砬楸壤且环N基準(zhǔn),用來(lái)衡量一個(gè)教師的情感基調(diào),是一個(gè)參考指標(biāo)。
(2)“高興”表情的識(shí)別效果最好,結(jié)果最可靠。同一個(gè)教師“高興”表情的變化情況反映的是課堂上情緒活躍度的變化情況。“高興”表情比例降低,教師情感向著呆板、深沉方向轉(zhuǎn)變,相應(yīng)地引導(dǎo)課堂氛圍活躍度降低;“高興”表情比例變高,教師情緒向著激昂方向轉(zhuǎn)變,相應(yīng)地引導(dǎo)課堂氛圍活躍度提升。
(3)上課后“高興”表情的變化趨勢(shì)反映的是從課堂開始到逐步進(jìn)入上課教學(xué)過(guò)程中教師情感積極程度的變化?!案吲d”表情比例變化平緩或者趨于穩(wěn)定則教師上課情緒平穩(wěn),波動(dòng)不大;“高興”表情比例顯著升高則教師上課積極情緒提升,活躍度提高,由平穩(wěn)變得更有激情。
為了驗(yàn)證模型對(duì)教學(xué)過(guò)程中表情分析得出的教學(xué)情境與實(shí)際情況是否相符,采取人為觀察教學(xué)過(guò)程中教師的表情狀況,對(duì)教學(xué)視頻進(jìn)行主觀評(píng)價(jià),以驗(yàn)證模型可靠性。
邀請(qǐng)了同濟(jì)大學(xué)大數(shù)據(jù)與網(wǎng)絡(luò)安全實(shí)驗(yàn)室的1名教師、4名同學(xué)(2男2女)觀看教學(xué)視頻,給教學(xué)過(guò)程獨(dú)立評(píng)分,分為以下3種情況:①教師情感積極程度,0~5;②教師積極情感變化情況,-1、0、1;③課堂氛圍活躍狀況,0~5。圖5中3名教師相應(yīng)的平均得分情況如表2所示。
表2 教師主觀評(píng)價(jià)得分情況Tab.2 Teacher’s subjective evaluation score
從表2可以看出,在情感積極程度上由高到低是教師1 > 教師3 > 教師2,3個(gè)指標(biāo)得出的結(jié)論與圖5所展示的結(jié)果相一致。通過(guò)主觀驗(yàn)證,主觀結(jié)果與表情分析得出的教學(xué)情境相符合,證明了通過(guò)表情分析對(duì)教學(xué)情境理解的可靠性和科學(xué)性。
從智慧教室現(xiàn)有的教學(xué)條件出發(fā),以同濟(jì)大學(xué)教室內(nèi)安裝的跟隨錄播攝像頭拍攝的視頻為數(shù)據(jù)源,以現(xiàn)階段深度學(xué)習(xí)算法為手段,以教師表情為研究對(duì)象,通過(guò)課堂上教師的表情分析實(shí)現(xiàn)了對(duì)教學(xué)情境中教師情感積極程度、課堂氛圍等教學(xué)情境的理解,不僅可以為教學(xué)考核提供參考,還能夠用于分析學(xué)生對(duì)教學(xué)內(nèi)容的感興趣程度。
本文研究是對(duì)深度學(xué)習(xí)算法應(yīng)用領(lǐng)域的擴(kuò)展,更是當(dāng)下為智慧教室研究提供的一種新視角,有助于推動(dòng)深度學(xué)習(xí)算法在智慧教育中的應(yīng)用,促進(jìn)教育智慧化。然而,教室內(nèi)得到的視頻存在模糊、太遠(yuǎn)等情況,表情識(shí)別模型在實(shí)際應(yīng)用中還需要改進(jìn)和優(yōu)化。在以后的工作中可以從改善教學(xué)中數(shù)據(jù)采集條件、提升表情識(shí)別算法和增加教室內(nèi)其他特征如教師的肢體語(yǔ)言等方面進(jìn)行完善,以更高性能的算法提升情境理解與實(shí)際狀況的符合程度,以多維視角對(duì)教學(xué)情境進(jìn)行全面理解。