柯斌 楊思林 曾?!〈w 強(qiáng)振平
摘要:隨著人工智能和深度學(xué)習(xí)在教育領(lǐng)域的交叉融合,行為識(shí)別技術(shù)為學(xué)生課堂行為觀察提供了一種有別于傳統(tǒng)的新方法。以云南省X高校課堂視頻為基礎(chǔ),經(jīng)過(guò)預(yù)處理,獲得六大類(lèi)行為(聽(tīng)課、看書(shū)、書(shū)寫(xiě)、拍照、低頭玩手機(jī)、桌面玩手機(jī))30000張圖像樣本,運(yùn)用Inception V3算法模型進(jìn)行了研究,實(shí)驗(yàn)結(jié)果:六大類(lèi)行為總識(shí)別率達(dá)到88.10%,但各個(gè)行為識(shí)別率有所不同,其中“拍照”和“聽(tīng)課”識(shí)別率較高。通過(guò)進(jìn)一步的混淆矩陣分析,得到結(jié)論:模型對(duì)動(dòng)作姿態(tài)單一的行為特征提取效果較好,但模型對(duì)手機(jī)、筆、課本等重要用具不夠重視,不能識(shí)別書(shū)寫(xiě)動(dòng)作和眼神角度,導(dǎo)致“看書(shū)”“書(shū)寫(xiě)”“低頭玩手機(jī)”和“桌面玩手機(jī)”行為因人體動(dòng)作姿態(tài)相似容易混淆。
關(guān)鍵詞:Inception V3;深度學(xué)習(xí);學(xué)生課堂行為;行為識(shí)別
中圖分類(lèi)號(hào):TP391.41? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2021)06-0013-03
Abstract: With the cross-integration of AI and deep learning in the field of education, action recognition provides a new method for student classroom behavior observation, which is different from traditional method.Based on classroom video in X university of Yunnan province, this paper collects the original data by shooting students' class video.After preprocessing, the dataset of 30000 samples of six categories of behavior (watch, read, note, picture, eye-down, phone-desk) are obtained. And finally, action recognition of classroom behavior is preliminarily studied by using Inception V3 CNN model. Result: the total recognition rate of six categories of behavior is 88.10%, but the recognition rate of each behavior is different, "picture" and "watch" behavior are higher, other behavior are lower. Through further analysis of confusion matrix and error recognition samples, conclusion is drawn: The model has a higher recognition rate of simple action posture, behavior features extracted from deep learning are better. However, the model does not attach enough importance to the important props like phone, pen and book, it also can not recognize the "writing action" and "eye angle" very well, which leads to the confusion of "read", "note","eye-down", and "phone-desk" because of the similarity of action posture.
Key words:Inception V3;Deep Learning; Student Classroom Behavior; Action Recognition
課堂觀察最早是由Flanders提出的對(duì)課堂教學(xué)進(jìn)行觀察和研究的基礎(chǔ)方法,通過(guò)它可以評(píng)價(jià)教師的教育理念和教學(xué)效果,同時(shí)結(jié)合學(xué)生的課堂學(xué)習(xí)表現(xiàn)情況進(jìn)行有針對(duì)性的反饋和改進(jìn)[1],因此課堂觀察不僅可以提高教師的教學(xué)能力,也可以提高學(xué)生的學(xué)習(xí)效果。而傳統(tǒng)的學(xué)生課堂行為是通過(guò)教師對(duì)學(xué)生進(jìn)行人工課堂觀察來(lái)實(shí)現(xiàn),由于種種原因,效果并不理想,在實(shí)際中并沒(méi)有發(fā)揮它應(yīng)有的作用。隨著人工智能和深度學(xué)習(xí)的快速發(fā)展,行為識(shí)別技術(shù)為學(xué)生課堂行為觀察提供了一種新的可能性。深度學(xué)習(xí)通過(guò)大量的樣本訓(xùn)練,學(xué)習(xí)并提取學(xué)生課堂行為的視覺(jué)特征,最終形成特征模型,后期通過(guò)軟件平臺(tái)實(shí)現(xiàn)學(xué)生課堂行為這一教學(xué)過(guò)程數(shù)據(jù)的挖掘利用[2-3]:教學(xué)過(guò)程監(jiān)測(cè);教學(xué)策略調(diào)整;學(xué)生成績(jī)預(yù)測(cè)[4-6],問(wèn)題學(xué)生診斷及預(yù)警干涉[7];教師教學(xué)評(píng)估等等。可見(jiàn)學(xué)生課堂行為在智慧教育、個(gè)性化教育等方面都具有重要的現(xiàn)實(shí)意義。研究以云南省X高校的學(xué)生上課視頻為原始數(shù)據(jù),運(yùn)用Inception V3卷積神經(jīng)網(wǎng)絡(luò)模型對(duì)學(xué)生課堂行為識(shí)別進(jìn)行了研究,并根據(jù)實(shí)驗(yàn)結(jié)果結(jié)論提出了幾個(gè)后繼研究方向。
1數(shù)據(jù)采集、預(yù)處理和標(biāo)注
1.1視頻采集
學(xué)生課堂行為數(shù)據(jù)來(lái)源于高校學(xué)生上課視頻,在階梯教室共拍攝26課時(shí),統(tǒng)一使用SONY NEX-FS700CK高清攝像機(jī)1920×1080分辨率拍攝。拍攝時(shí),采用三腳架高角度固定構(gòu)圖拍攝以便采集到更好的方便預(yù)處理的視頻。
1.2 數(shù)據(jù)預(yù)處理
數(shù)據(jù)預(yù)處理包括視頻編輯、圖像序列抽幀、樣本摳圖三個(gè)步驟:(1)視頻編輯,對(duì)原始視頻進(jìn)行后期剪輯,剪去課前課后和課中休息的與正常教學(xué)無(wú)關(guān)的廢鏡頭,最終導(dǎo)出25幀/秒的MPEG視頻文件;(2)圖像序列抽幀,實(shí)驗(yàn)使用2秒1幀的頻率對(duì)視頻進(jìn)行采樣抽幀;(3)樣本摳圖,實(shí)驗(yàn)使用PHOTOSHOP對(duì)圖像序列進(jìn)行自動(dòng)批處理裁剪得到單個(gè)學(xué)生樣本,摳圖基本原則是學(xué)生個(gè)體不能有前景遮擋且背景盡量不要出現(xiàn)其他學(xué)生的臉部。
1.3學(xué)生課堂行為分類(lèi)與標(biāo)注
在進(jìn)行樣本訓(xùn)練前,應(yīng)把所有樣本進(jìn)行初步分類(lèi),找出典型的值得研究的學(xué)生課堂行為。與中小學(xué)生不同,大學(xué)生的課堂行為較隨意也更加多樣化,在分類(lèi)過(guò)程中,發(fā)現(xiàn)當(dāng)代大學(xué)生喜歡用手機(jī)拍課件,這種課堂行為雖然發(fā)生次數(shù)不多且持續(xù)時(shí)間不長(zhǎng)但是很普遍,嚴(yán)格來(lái)講它屬于學(xué)習(xí)行為,是記筆記的一種形式,和往常“手機(jī)在課堂中起負(fù)面作用”的印象是相反的,可見(jiàn)手機(jī)作為一種出現(xiàn)在課堂中的“道具”具有兩面性,研究也把這個(gè)典型的課堂行為納入其中。然后對(duì)非典型的課堂行為(如喝水、打哈欠等)和樣本數(shù)量較少的課堂行為(如睡覺(jué)、舉手等)進(jìn)行二次清理,最終根據(jù)學(xué)生課堂行為姿態(tài)特征分為6大類(lèi)(聽(tīng)課、看書(shū)、書(shū)寫(xiě)、拍照、低頭玩手機(jī)、桌面玩手機(jī)),具體行為姿態(tài)畫(huà)面特征如表1所示。
分類(lèi)完成后經(jīng)過(guò)人工標(biāo)注,最終得到六大類(lèi)學(xué)生課堂行為樣本總共30000張,其中“聽(tīng)課”10870張,“看書(shū)”2480張,“書(shū)寫(xiě)”8310張,“拍照”580張,“低頭玩手機(jī)”4220張,“桌面玩手機(jī)”3540張,各種行為比列基本符合高校課堂實(shí)際情況,其中學(xué)生A的課堂行為樣本如圖1所示。
2算法模型與實(shí)驗(yàn)結(jié)果
2.1 Inception V3算法模型
深度學(xué)習(xí)Deep Learning,源于人工神經(jīng)網(wǎng)絡(luò),通過(guò)模仿人類(lèi)大腦的思維方式以及神經(jīng)網(wǎng)絡(luò)的接收反饋方式進(jìn)行計(jì)算機(jī)模擬學(xué)習(xí),是人工智能領(lǐng)域最具有發(fā)展前景的一個(gè)分支。卷積神經(jīng)網(wǎng)絡(luò)Convolutional Neural Networks,簡(jiǎn)稱CNN,是深度學(xué)習(xí)領(lǐng)域的代表算法和引領(lǐng)者,CNN模型由輸入層、核心部分、輸出層組成,而核心部分由卷積層、池化層和全連接層組成。如圖2所示,在樣本訓(xùn)練時(shí),CNN一般通過(guò)3x3卷積核對(duì)224x224x3圖像進(jìn)行卷積操作生成特征圖,通常在比較淺的卷積層中,卷積操作可以提取到比較細(xì)節(jié)的特征,在比較深的卷積層中,卷積操作把之前提取到的細(xì)節(jié)特征進(jìn)行組合和二次提取,得到更高級(jí)、抽象的特征,最終在多神經(jīng)元組成的全連接層中得到特征矩陣;在樣本測(cè)試時(shí),經(jīng)過(guò)卷積操作和特征矩陣計(jì)算最終在SOFTMAX多分類(lèi)器中輸出結(jié)果,數(shù)值最大的即是識(shí)別結(jié)果。實(shí)驗(yàn)使用GoogLeNet的Inception V3模型,其網(wǎng)絡(luò)結(jié)構(gòu)共有22層,模型對(duì)圖像進(jìn)行1x3和3x1非對(duì)稱多尺度并行卷積處理,將多個(gè)不同尺度的卷積核,池化層進(jìn)行整合,形成一個(gè)Inception module模塊,這種機(jī)制帶來(lái)的一個(gè)好處是大幅度減少了參數(shù)數(shù)量,并且使得網(wǎng)絡(luò)深度進(jìn)一步提升的同時(shí)還增加了非線性表達(dá)能力。
2.2實(shí)驗(yàn)結(jié)果
實(shí)驗(yàn)使用Anaconda運(yùn)行環(huán)境平臺(tái),Tensorflow深度學(xué)習(xí)框架,系統(tǒng)運(yùn)行環(huán)境如下:WIN7 64位操作系統(tǒng);CPU Intel(R) Core(TM) i7-6800K,3.40GHz;DDR4內(nèi)存16G;250G固態(tài)硬盤(pán);2T機(jī)械硬盤(pán);顯卡AMD Radeon(TM) RX 460 Graphics,4G顯存。
實(shí)驗(yàn)把標(biāo)注好的數(shù)據(jù)集按照9:1比例劃分,90%樣本數(shù)據(jù)作為訓(xùn)練數(shù)據(jù)(27000張),10%樣本數(shù)據(jù)作為測(cè)試集(3000張)。另外,為了分析訓(xùn)練集樣本數(shù)量對(duì)各種行為測(cè)試識(shí)別率的影響規(guī)律,實(shí)驗(yàn)測(cè)試集Testset(3000張)始終不變,把27000張訓(xùn)練樣本再劃分為5個(gè)訓(xùn)練集依次進(jìn)行訓(xùn)練和測(cè)試,如表2所示,是數(shù)據(jù)集劃分和最終訓(xùn)練測(cè)試數(shù)據(jù),結(jié)果表明:訓(xùn)練集的樣本數(shù)量對(duì)測(cè)試結(jié)果是有影響的,在Trainset1和Trainset3區(qū)間,隨著訓(xùn)練樣本數(shù)量的增加,總識(shí)別率得到大幅提升,由78.80%上升到87.70%,說(shuō)明此區(qū)間深度學(xué)習(xí)效果較好;在Trainset3和Trainset5區(qū)間,雖然訓(xùn)練樣本數(shù)量的成比例增加,但是總識(shí)別率只有微幅提升和波動(dòng),最終達(dá)到88.10%,說(shuō)明此區(qū)間訓(xùn)練樣本數(shù)量對(duì)深度學(xué)習(xí)效果影響不大,接近于收斂狀態(tài)。
如圖3所示,是各類(lèi)行為識(shí)別率趨勢(shì)圖,六類(lèi)行為總結(jié)分析如下:(1)watch,識(shí)別率整體高于92%,比較穩(wěn)定,隨著訓(xùn)練樣本數(shù)量的增加,識(shí)別率小幅提升后微幅波動(dòng),最終達(dá)到95.73%,說(shuō)明深度學(xué)習(xí)特征提取比較理想;(2)read,識(shí)別率整體較低,隨著訓(xùn)練樣本數(shù)量的增加,識(shí)別率大幅提升,由18.24%最終上升到75.88%,說(shuō)明深度學(xué)習(xí)特征提取還不夠好;(3)note,識(shí)別率整體較低,比較穩(wěn)定,隨著訓(xùn)練樣本數(shù)量的增加,識(shí)別率在波動(dòng)中小幅提升,最終達(dá)到71.29%,說(shuō)明深度學(xué)習(xí)特征提取不夠好;(4)picture,識(shí)別率整體高于96%,也比較穩(wěn)定,隨著訓(xùn)練樣本數(shù)量的增加,識(shí)別率微幅波動(dòng)后最終達(dá)到97.37%,說(shuō)明深度學(xué)習(xí)特征提取比較理想;(5)eye-down,識(shí)別率整體不穩(wěn)定,隨著訓(xùn)練樣本數(shù)量的增加,識(shí)別率在波動(dòng)中提升后反而大幅下降,最終達(dá)到76.36%,說(shuō)明深度學(xué)習(xí)特征提取不穩(wěn)定,可能是因?yàn)閑ye-down與其他行為的人體動(dòng)作姿態(tài)相似容易造成混淆;(6)phone-desk,識(shí)別率整體一般,隨著訓(xùn)練樣本數(shù)量的增加,識(shí)別率在大幅提升后小幅下降,最終達(dá)到80.93%,說(shuō)明深度學(xué)習(xí)特征提取不夠理想。
3實(shí)驗(yàn)評(píng)估與分析
如表3所示,是Test5測(cè)試結(jié)果數(shù)據(jù)的混淆矩陣,針對(duì)6類(lèi)行為對(duì)Trainset5訓(xùn)練模型評(píng)估如下:(1)模型對(duì)watch的識(shí)別率高達(dá)95.73%,效果較好,容易誤判為read占比2.99%;(2)模型對(duì)read的識(shí)別率75.88%較低,容易誤判為phone-desk占比11.76%,read和phone-desk行為人體姿態(tài)的確有很大相似之處容易造成混淆,都是小角度低頭看桌面,僅僅從人體姿態(tài)來(lái)識(shí)別確實(shí)困難,兩者不同的地方在于,read是看書(shū),而phone-desk是看桌面上的手機(jī),說(shuō)明模型并沒(méi)有完全提取到read和phone-desk的關(guān)鍵物品特征;(3)模型對(duì)note的識(shí)別率71.29%也較低,容易誤判為watch占比13.23%和phone-desk占比11.61%,note和phone-desk行為人體姿態(tài)也有很大相似之處,都是小角度低頭看桌面,兩者不同的地方在于手勢(shì),note是拿筆進(jìn)行書(shū)寫(xiě)動(dòng)作,而phone-desk是操作桌面上的手機(jī);(4)模型對(duì)picture的識(shí)別率高達(dá)97.37%,其余全部誤判為watch;(5)模型對(duì)eye-down的識(shí)別率76.36%較低,容易誤判為read占比23.18%,eye-down和read行為人體姿態(tài)有相似之處,都是低頭看下面,關(guān)鍵區(qū)別在于低頭角度,eye-down更低一些,幾乎垂直地面大角度低頭看桌面下的手機(jī),而read是小角度低頭看桌面上的書(shū)本,說(shuō)明模型沒(méi)有提取到兩者的關(guān)鍵細(xì)微特征,行為識(shí)別不夠細(xì)膩;(6)模型對(duì)phone-desk的識(shí)別率80.93%,容易誤判為note占比15.37%,phone-desk和note的關(guān)鍵區(qū)別在于操作手機(jī)和書(shū)寫(xiě)動(dòng)作,而且兩者的手勢(shì)有相似之處,并且phone-desk畫(huà)面中手機(jī)具有一定的隱蔽性,增加了識(shí)別難度。
總體來(lái)說(shuō),訓(xùn)練模型可以較好地識(shí)別picture和watch兩種人體姿態(tài)畫(huà)面特征簡(jiǎn)單明顯的行為,而對(duì)于姿態(tài)畫(huà)面特征較相似較復(fù)雜的read、note、eye-down、phone-desk行為,存在普遍的混淆現(xiàn)象,模型的識(shí)別能力不夠理想。
4 總結(jié)和展望
由于實(shí)驗(yàn)條件和樣本數(shù)量有限,六大類(lèi)學(xué)生課堂行為最終識(shí)別率只達(dá)到88.10%,仍然需要提升才能進(jìn)入最終的應(yīng)用軟件研發(fā)階段,而后繼研究工作可以在以下幾個(gè)方面進(jìn)行突破和深入:(1)目標(biāo)檢測(cè),從實(shí)驗(yàn)結(jié)果結(jié)論可以看出,“手機(jī)”“筆”和“課本”等重要課堂用具對(duì)學(xué)生課堂行為的識(shí)別具有重要的作用,甚至可以說(shuō)這些課堂用具是某些行為的關(guān)鍵特征,是區(qū)別于其他行為的重要標(biāo)志,picture和phone-desk必須有“手機(jī)”,note必須有“筆”,read必須有“課本”,因此關(guān)鍵物體的目標(biāo)檢測(cè)[8]具有很好的輔助作用;(2)運(yùn)動(dòng)檢測(cè),幀差法[9]通過(guò)計(jì)算代表“手”和“筆”這部分像素在圖像序列或前后圖像幀中是否有位移變化來(lái)識(shí)別是否有“書(shū)寫(xiě)動(dòng)作”,適合于運(yùn)動(dòng)檢測(cè),可以通過(guò)它識(shí)別出“手”和“筆”是否真的在進(jìn)行“書(shū)寫(xiě)動(dòng)作”,只有存在“書(shū)寫(xiě)動(dòng)作”才能判斷是note行為,否則有可能是學(xué)生手上拿著筆(沒(méi)有書(shū)寫(xiě)動(dòng)作)卻在“看黑板”或“看書(shū)”甚至“桌面上玩手機(jī)”;(3)眼神識(shí)別,眼神通常代表了學(xué)生的心理活動(dòng)和注意力,是判斷課堂行為的重要依據(jù),眼神識(shí)別或頭部姿態(tài)識(shí)別是六類(lèi)行為的重要區(qū)分之一,read和eye-down行為姿態(tài)特征幾乎相同,兩者非常容易混淆,一個(gè)目視桌面書(shū)本,一個(gè)目視桌子下面,唯一的區(qū)別就在于眼神角度不同;(4)手勢(shì)識(shí)別,手勢(shì)在一定程度上也代表學(xué)生的注意力,note和phone-desk的重要區(qū)別就在于手勢(shì)動(dòng)作,因此手勢(shì)識(shí)別的輔助可以提升模型區(qū)分note和phone-desk的能力。
總之,學(xué)生課堂行為識(shí)別不同于一般的圖像識(shí)別,傳統(tǒng)的圖像識(shí)別只需要識(shí)別出某種物體即可,只要求學(xué)習(xí)到這個(gè)物體的關(guān)鍵共性特征,而行為識(shí)別要提取到人物或物體的行為姿態(tài)特征,難度大大提高。如果在關(guān)鍵物體目標(biāo)檢測(cè)、運(yùn)動(dòng)檢測(cè)、眼神識(shí)別、手勢(shì)識(shí)別等技術(shù)上實(shí)現(xiàn)突破,肯定會(huì)更容易識(shí)別學(xué)生課堂行為的關(guān)鍵動(dòng)作姿態(tài)特征,最終提升整體識(shí)別率,加強(qiáng)算法模型的泛化能力,最終進(jìn)入應(yīng)用階段。
參考文獻(xiàn):
[1] 方海光,高辰柱,陳佳.改進(jìn)型弗蘭德斯互動(dòng)分析系統(tǒng)及其應(yīng)用[J].中國(guó)電化教育,2012(10):109-113.
[2] 陳德鑫,占袁圓,楊兵.深度學(xué)習(xí)技術(shù)在教育大數(shù)據(jù)挖掘領(lǐng)域的應(yīng)用分析[J].電化教育研究,2019,40(2):68-76.
[3] 柯斌,蘆俊佳.智慧教育背景下高校學(xué)生課堂行為數(shù)據(jù)挖掘與利用[J].電腦知識(shí)與技術(shù),2020,16(26):148-150.
[4] 王亮.學(xué)習(xí)分析技術(shù) 建立學(xué)習(xí)預(yù)測(cè)模型[J].實(shí)驗(yàn)室研究與探索,2015,34(1):215-218,246.
[5] 牟智佳,武法提.教育大數(shù)據(jù)背景下學(xué)習(xí)結(jié)果預(yù)測(cè)研究的內(nèi)容解析與設(shè)計(jì)取向[J].中國(guó)電化教育,2017(7):26-32.
[6] 丁夢(mèng)美,吳敏華,尤佳鑫,等.基于學(xué)業(yè)成績(jī)預(yù)測(cè)的教學(xué)干預(yù)研究[J].中國(guó)遠(yuǎn)程教育,2017(4):50-56.
[7] 范逸洲,汪瓊.學(xué)業(yè)成就與學(xué)業(yè)風(fēng)險(xiǎn)的預(yù)測(cè)——基于學(xué)習(xí)分析領(lǐng)域中預(yù)測(cè)指標(biāo)的文獻(xiàn)綜述[J].中國(guó)遠(yuǎn)程教育,2018(1):5-15,44,79.
[8] 尹宏鵬,陳波,柴毅,等.基于視覺(jué)的目標(biāo)檢測(cè)與跟蹤綜述[J].自動(dòng)化學(xué)報(bào),2016,42(10):1466-1489.
[9] 高凱亮,覃團(tuán)發(fā),王逸之,等.一種基于幀差法與背景減法的運(yùn)動(dòng)目標(biāo)檢測(cè)新方法[J].電訊技術(shù),2011,51(10):86-91.
【通聯(lián)編輯:王力】