重慶第二師范學院 曾文韜 張曉琴 王小亞 曾 瑞 李宗劍
隨著人工智能技術(shù)在教育領(lǐng)域的迅速發(fā)展,傳統(tǒng)的課堂教學評價已無法滿足如今豐富多彩的課堂教學。通過對學生五類課堂表情(傾聽、理解、疑惑、抗拒、不屑)的檢索結(jié)果,可及時掌握學生在課堂中的情緒變化和參與情況,為改善教學質(zhì)量提供幫助。
在“一對多”的教學模式下,老師和學生的互動大多是提問、討論、作業(yè)的方式,這些方式不可避免帶來傳遞的滯后性。多媒體相關(guān)技術(shù)的引入,使課堂變得豐富多彩,從一定程度上改善了課堂氛圍,但教師獲得學生反饋的滯后性依舊未能得到有效改善。人臉表情圖像檢索是通過圖像傳感器采集人的面部表情,通過表情分析進行分類的一項技術(shù)。本文將卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)與課堂教學相結(jié)合,研究基于CNN的課堂表情圖像檢索技術(shù)。
心理學家Mehrabian指出,情感信息表達=7%語言+38%聲音+55%面部表情。由此可見表情所表達的情感基本就反應(yīng)了一個人的心理狀態(tài)。在課堂教學中,學生的表情反應(yīng)出自身的學習狀態(tài)和課堂教學質(zhì)量。目前針對課堂學生表情并沒有統(tǒng)一的分類,經(jīng)過多方面的資料查閱和信息收集,以及深入到課堂環(huán)境進行實地觀測,本文采用五類課堂表情分類,分別為:傾聽,理解,疑惑,厭倦和不屑。
傾聽。當學生并不反感教師當前所講內(nèi)容,并且愿意繼續(xù)聽教師講述。
理解。當學生理解并消化了教師當前的教學內(nèi)容,產(chǎn)生了學習興趣,并且對后續(xù)教學內(nèi)容好奇,或是對教師當前的教學內(nèi)容非常滿意。
疑惑。當學生對教師所講內(nèi)容產(chǎn)生了不同意見,或是完全不能理解時,他們的心情會有幾分奇怪和驚訝。
厭倦。當學生精神狀態(tài)不佳,或?qū)處煯斍暗慕虒W內(nèi)容沒有興趣,注意力已經(jīng)完全沒有集中在課堂,內(nèi)心只是期待趕快下課。
不屑。由于未知的原因,學生對教師的教學內(nèi)容和教學方式產(chǎn)生了反感,或是對教師當前的教學內(nèi)容不屑一顧,此時學生還沒有完全失去對于教學內(nèi)容的興趣,他們只是希望教師及時地做出針對性的改變。
CNN是多層感知機(Multilayer Perceptron,MLP)的變種,由生物學家休博爾和維瑟爾在早期關(guān)于貓視覺皮層的研究發(fā)展而來。CNN可以自動從(通常是大規(guī)模)數(shù)據(jù)中學習特征,并把結(jié)果向同類型未知數(shù)據(jù)泛化。CNN的結(jié)構(gòu)包含卷積層,池化層,全連接層等。
CNN中對圖像的特征提取主要由卷積層和池化層完成。
一張輸入圖像,首先需經(jīng)過卷積層卷積。所謂“卷積”就是在輸入圖像中對一個小區(qū)域的像素加權(quán)平均后讓其成為輸出圖像中每個對應(yīng)像素的過程。權(quán)值由一個函數(shù)定義,這個函數(shù)被稱為卷積核。一個卷積核,可提取到一張圖像中相同的特征,但每張圖的特征多種多樣,一個卷積核不可能提取到全部的特征。因此通常的做法是采用多重卷積核,即采用多個卷積核對同一張圖像進行卷積,確保提取到盡可能多的特征。
通過卷積后的特征圖不僅能在一定程度上保留盡可能多的特征,還能去掉圖像中許多不必要的細節(jié)。但卷積后參數(shù)數(shù)量依然龐大,還需進一步去掉更多細節(jié),同時最大程度保留特征,這一過程被稱為池化。一般情況下,特征圖中存在特征的區(qū)域相比于其它區(qū)域的計算值會相對較高,因此采用最大池化可保留更多的特征。
通過卷積和池化,在減少參數(shù)數(shù)量的同時保留了特征,但上述過程為線性過程,無法解決非線性問題,因此引入激活函數(shù)來為CNN添加非線性因素。
圖片分類由CNN的全連接層完成,全連接層根據(jù)提取的特征來確定圖片所屬類別。因為卷積操作所提取到的特征只是圖片的局部特征,因此在進行分類之前,全連接層還需將提取到的特征進行重組,特征重組本質(zhì)上是將一個特征空間線性變換到另一個特征空間。對于輸入特征為二維的特征圖,全連接層采用一個和特征圖大小一致的卷積核對該特征圖進行全局卷積,將局部特征整合到一起,輸出結(jié)果。這種做法一定程度上減少了特征位置對于分類的影響,忽略了圖片中特征本身的空間結(jié)構(gòu)特性,極大的增強了神經(jīng)網(wǎng)絡(luò)的魯棒性。
CNN將特征重組后的結(jié)果交給softmax分類器輸出分類的結(jié)果。Softmax分類器在CNN的最后一層,本質(zhì)上是一個函數(shù),常用于多分類模型,返回每個類別的概率,概率最大項對應(yīng)的結(jié)果就是最終結(jié)果。不管輸出結(jié)果正確與否,都代表CNN完成圖片的檢索,也表示CNN完成前向傳播,接下來就需要根據(jù)CNN對圖片的檢索結(jié)果和真實結(jié)果的差值,進行反向傳播修改卷積核權(quán)重等相關(guān)超參數(shù),使下一次的檢索結(jié)果更加接近真實結(jié)果,這個差值即為損失函數(shù)。
首先,經(jīng)人工數(shù)據(jù)比對后的圖片作為輸入圖片進入神經(jīng)網(wǎng)絡(luò),特征提取由卷積層和池化層完成,經(jīng)過兩層卷積池化保留主要特征。接著采用全連接層將卷積層和池化層提取到的局部特征進行特征重組,并交給softmax分類器進行圖片檢索,然后根據(jù)損失函數(shù)值,反向傳播對相關(guān)超參數(shù)進行修改,使預測結(jié)果更加接近真實結(jié)果。
課堂表情圖像的檢索是建立在良好的CNN模型基礎(chǔ)上。表情檢索流程的設(shè)計如圖1所示。
圖1 表情檢索流程
每個神經(jīng)網(wǎng)絡(luò)的訓練都需要大量數(shù)據(jù),考慮到目前并沒有關(guān)于課堂表情的數(shù)據(jù)集,因此實驗采用的數(shù)據(jù)以fer2013數(shù)據(jù)集為基礎(chǔ),按照五類課堂表情對該數(shù)據(jù)集進行篩選,篩選后的結(jié)果為訓練集5364張圖片,驗證集662張圖片,測試集1354張圖片,每張圖片均屬于五類表情之一。
實驗所采取的數(shù)據(jù)集所含的數(shù)據(jù)樣本較少,針對該情況,我們在訓練CNN之前對數(shù)據(jù)集的數(shù)據(jù)樣本進行擴充,擴充方式包括但不限于旋轉(zhuǎn),翻轉(zhuǎn),顛倒,這些方式也是訓練神經(jīng)網(wǎng)絡(luò)常規(guī)的數(shù)據(jù)樣本擴充方式。
在CNN網(wǎng)絡(luò)結(jié)構(gòu)的設(shè)計上,用于訓練的圖片尺寸為48×48,相比于大尺寸圖片所蘊含的信息相對較少,如果結(jié)構(gòu)設(shè)計過于復雜可能丟失圖片的顯著特征從而影響訓練結(jié)果,最終導致實驗結(jié)果不理想。因此我們設(shè)計了9層神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu),其中3層卷積,2層池化,4層全連接的結(jié)構(gòu),如圖2所示。
圖2 CNN實驗結(jié)構(gòu)
在CNN的訓練過程中,梯度下降方法是隨機梯度下降方法,損失函數(shù)為交叉熵函數(shù),初始學習率為0.01,每次學習率衰減為10-6,初始動量為0.9,應(yīng)用內(nèi)斯特羅夫動力。將所有的訓練數(shù)據(jù)分為若干組,每組有128個圖片樣本,總共訓練50個周期。
在定位人臉的過程中,我們采用的是OpenCV的臉部追蹤器。定位到臉部后,將臉部圖像截取下來進行預處理,然后將預處理后的圖片提交給訓練好的CNN模型,通過模型檢索后輸出結(jié)果,并實時反饋結(jié)果。
為了探究不同數(shù)量的樣本集及其它超參數(shù)對CNN訓練結(jié)果的影響,我們在數(shù)據(jù)集上進行了多次實驗,相關(guān)結(jié)果如表1所示。
表1 CNN訓練結(jié)果
卷積的次數(shù)和數(shù)量在很大程度上影響局部特征的提取效率與準確度,多次卷積確實對提取特征比較有利,但也會使神經(jīng)網(wǎng)絡(luò)變得復雜,需要訓練的參數(shù)也會增加,進而導致模型訓練的效率下降。經(jīng)過多次的對比試驗,我們選取其中表現(xiàn)最好的模型進行應(yīng)用效果的測試,最終模型的實際應(yīng)用效果如圖3所示。
圖3 CNN應(yīng)用效果示例
結(jié)語:針對課堂教學的應(yīng)用需求,結(jié)合神經(jīng)網(wǎng)絡(luò)技術(shù),本文研究了基于CNN的課堂表情圖像檢索技術(shù)。本文采用的數(shù)據(jù)集原型來自fer2013數(shù)據(jù)集,而該數(shù)據(jù)集某種程度上并不是非常適合課堂表情檢索。雖采用了數(shù)據(jù)樣本擴充的方式,但相較于神經(jīng)網(wǎng)絡(luò)需要的大數(shù)據(jù)量依然不夠,因此,解決課堂表情數(shù)據(jù)樣本不足問題和進一步改進CNN網(wǎng)絡(luò)結(jié)構(gòu)以提高應(yīng)用效果是接下來的研究方向。