• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于深度時(shí)空殘差卷積神經(jīng)網(wǎng)絡(luò)的課堂教學(xué)視頻中多人課堂行為識(shí)別

    2022-04-12 09:24:20黃勇康梁美玉王笑笑陳徵曹曉雯
    計(jì)算機(jī)應(yīng)用 2022年3期
    關(guān)鍵詞:準(zhǔn)確率卷積目標(biāo)

    黃勇康,梁美玉,王笑笑,陳徵,曹曉雯

    (北京郵電大學(xué)計(jì)算機(jī)學(xué)院,北京 100876)

    0 引言

    隨著人工智能不斷發(fā)展,智慧化逐漸走進(jìn)生產(chǎn)生活中的各個(gè)方面,智慧城市、智慧辦公、智慧醫(yī)療等概念不斷涌現(xiàn)并得到迅速發(fā)展,智慧教育也逐步從理論走進(jìn)校園,成為科教之路的必然發(fā)展趨勢之一。傳統(tǒng)教育中,一個(gè)教師需要教授幾十上百個(gè)學(xué)生,傳統(tǒng)的教學(xué)經(jīng)驗(yàn)因材施教、寓教于樂很難在如此大的基數(shù)下實(shí)現(xiàn),教師的精力有限,也很難同時(shí)顧及如此多的學(xué)生,只能觀察到少部分學(xué)生對(duì)自己教學(xué)方法的反饋:如學(xué)生的表情和行為狀態(tài)等聽課狀態(tài);因?yàn)榻處煹慕虒W(xué)往往是由易到難,學(xué)生對(duì)于教師所教內(nèi)容的接受度逐漸降低,很可能在某個(gè)時(shí)刻就跟不上教師的教學(xué)進(jìn)度,教師需要經(jīng)常觀察學(xué)生的聽課狀態(tài),才能有效調(diào)整自己的教學(xué)進(jìn)度和方法,取得更好的教學(xué)效果。

    學(xué)生的聽課狀態(tài)包括表情和行為,積極的表情和行為代表學(xué)生積極參與課堂教學(xué),能跟上教師的教學(xué)進(jìn)度并思考教學(xué)內(nèi)容,但主要的聽課狀態(tài)還是需要通過分析學(xué)生的行為進(jìn)行獲取,如果一個(gè)學(xué)生體現(xiàn)出了睡覺、轉(zhuǎn)頭等消極行為時(shí),一般是對(duì)教學(xué)內(nèi)容產(chǎn)生了困惑甚至厭倦;并且,學(xué)生的課堂行為會(huì)隨著時(shí)間改變,需要實(shí)時(shí)觀察學(xué)生的聽課行為變化,才能及時(shí)獲得良好的教學(xué)效果反饋。在課后對(duì)錄制好的教學(xué)課堂視頻中的學(xué)生課堂行為進(jìn)行相應(yīng)的分析,也能幫助調(diào)整教學(xué)方法,以達(dá)到更好的教學(xué)效果。如何更高效地識(shí)別和分析學(xué)生課堂行為已經(jīng)成為了智慧教育的研究熱點(diǎn)。

    課堂教學(xué)視頻中往往存在學(xué)生目標(biāo)眾多、遮擋嚴(yán)重等問題,這給課堂場景中的學(xué)生行為識(shí)別帶來了極大的研究挑戰(zhàn),因此需要研究更加魯棒性的多人行為識(shí)別模型來自動(dòng)識(shí)別所有學(xué)生的課堂行為。目前的多人行為識(shí)別算法中,主要包括兩大類:一類是基于目標(biāo)檢測和圖像分類的算法,另一類是基于關(guān)節(jié)點(diǎn)識(shí)別和關(guān)節(jié)點(diǎn)移動(dòng)規(guī)律分析的算法。前者雖然往往可以取得實(shí)時(shí)的效果,但是沒有考慮行為的時(shí)序特征,只是對(duì)目標(biāo)狀態(tài)的分類;后者雖然能夠?qū)W習(xí)到人在運(yùn)動(dòng)過程中關(guān)節(jié)點(diǎn)位置變化的時(shí)序特征,但是關(guān)節(jié)點(diǎn)的識(shí)別過程是一個(gè)計(jì)算量非常大的過程,并且準(zhǔn)確率無法得到保證。為了解決上述問題,本文采取了目前速度最快且準(zhǔn)確率也很高的目標(biāo)檢測模型加目標(biāo)跟蹤算法,再結(jié)合能夠獲取深層次行為時(shí)空特征的深度殘差3D 卷積行為識(shí)別算法來解決課堂場景中的學(xué)生課堂行為識(shí)別問題。實(shí)驗(yàn)結(jié)果表明,提出的多人課堂行為識(shí)別模型能夠取得性能更優(yōu)的實(shí)時(shí)學(xué)生課堂行為識(shí)別效果。為了充分驗(yàn)證提出的課堂行為識(shí)別算法,本文構(gòu)建了學(xué)生課堂行為視頻數(shù)據(jù)集,用于模型的訓(xùn)練和測試;并且,基于提出的學(xué)生課堂行為識(shí)別模型,設(shè)計(jì)了基于課堂教學(xué)視頻的智能教學(xué)評(píng)估系統(tǒng),助力教學(xué)質(zhì)量的提升。本文的主要貢獻(xiàn)和創(chuàng)新點(diǎn)如下:

    1)構(gòu)建了課堂教學(xué)視頻庫以及學(xué)生課堂行為庫,為后續(xù)課堂教學(xué)視頻中的學(xué)生行為識(shí)別以及智能教學(xué)評(píng)估提供數(shù)據(jù)基礎(chǔ)。

    2)提出了基于深度時(shí)空殘差卷積神經(jīng)網(wǎng)絡(luò)的課堂教學(xué)視頻中實(shí)時(shí)多人學(xué)生課堂行為識(shí)別模型,結(jié)合學(xué)生目標(biāo)檢測和跟蹤,并通過對(duì)每個(gè)學(xué)生目標(biāo)的時(shí)空行為特征學(xué)習(xí),實(shí)現(xiàn)了課堂教學(xué)場景中面向多學(xué)生目標(biāo)的課堂行為的實(shí)時(shí)識(shí)別。

    3)基于課堂教學(xué)視頻中的學(xué)生課堂行為識(shí)別構(gòu)建了智能教學(xué)評(píng)估模型,并設(shè)計(jì)實(shí)現(xiàn)了基于學(xué)生課堂行為識(shí)別的智能教學(xué)評(píng)估系統(tǒng),助力教學(xué)質(zhì)量的提升,以實(shí)現(xiàn)智慧教育。

    1 相關(guān)工作

    現(xiàn)階段多人行為識(shí)別算法主要分為2D 的姿態(tài)識(shí)別和關(guān)節(jié)點(diǎn)識(shí)別+長短期記憶循環(huán)神經(jīng)網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)[1],且目前沒有較好的解決方案。2D 的姿態(tài)識(shí)別和關(guān)節(jié)點(diǎn)+LSTM 方法都依賴于關(guān)節(jié)點(diǎn)識(shí)別,但在復(fù)雜的課堂場景下,準(zhǔn)確識(shí)別學(xué)生的關(guān)節(jié)點(diǎn)比較困難,而目前單人行為識(shí)別方法的研究已取得了較好的成果,如何將這些方法用到多人行為識(shí)別上也是一個(gè)很重要的研究方向,本文就采用目標(biāo)檢測與跟蹤加單人行為識(shí)別的方法來實(shí)現(xiàn)教學(xué)課堂視頻中的學(xué)生課堂行為識(shí)別。

    1.1 目標(biāo)檢測與跟蹤

    課堂教學(xué)視頻中的學(xué)生目標(biāo)檢測和跟蹤是實(shí)現(xiàn)課堂行為識(shí)別的首要步驟。近年來基于深度學(xué)習(xí)的目標(biāo)檢測技術(shù)在計(jì)算機(jī)視覺領(lǐng)域取得了性能更優(yōu)的效果?;谏疃葘W(xué)習(xí)的目標(biāo)檢測算法分為單階段算法和兩階段算法[2-3]:單階段目標(biāo)檢測算法是端到端的方法,速度較高,但精度略低;兩階段的目標(biāo)檢測算法需要首先計(jì)算目標(biāo)候選區(qū)域,再在候選區(qū)域上進(jìn)行目標(biāo)預(yù)測,精度較高,但速度較低。近年來單階段目標(biāo)檢測算法是研究的熱點(diǎn)[4],比較出名的單階段目標(biāo)檢測包括:Redmon 等[5]提出的YOLO(You Only Look Once)算法,目前最新版本是YOLOv5[2,6],在速度和精度上均有所提升;Liu 等[7]提出了SSD(Single Shot multibox Detector)算法,引入了多分辨率檢測技術(shù),極大地改進(jìn)了檢測單級(jí)探測器的精度;谷歌大腦團(tuán)隊(duì)提出的EfficientDet(scalable and Efficient object Detection)算法[8],結(jié)合了EfficientNet 和雙向特征金字塔網(wǎng)絡(luò)(Bidirectional Feature Pyramid Network,BiFPN)[9],取得了優(yōu)秀的目標(biāo)檢測速度和準(zhǔn)確率。

    在學(xué)生目標(biāo)檢測完成后,需要通過目標(biāo)跟蹤持續(xù)跟蹤每個(gè)學(xué)生的聽課狀態(tài)。在課堂場景中,如果需要分析某個(gè)學(xué)生的課堂行為,實(shí)時(shí)目標(biāo)跟蹤算法就正好能提供助力。目前兼具實(shí)時(shí)性和準(zhǔn)確率的目標(biāo)跟蹤算法有:Bewley 等[10]結(jié)合卡爾曼濾波算法和匈牙利算法,提出了簡單在線實(shí)時(shí)目標(biāo)跟蹤(Simple Online and Realtime Tracking,SORT)算法;Wojke等[11-12]結(jié)合SORT 算法和深度外觀模型,提出了深度簡單在線實(shí)時(shí)跟蹤(DeepSORT)算法;Wang 等[13]將外觀模型嵌入目標(biāo)檢測模型中,使目標(biāo)跟蹤只需要一個(gè)深度模型,提出了JDE(Jointly learns the Detector and Embedding model);Zhang等[14]提出了一種將目標(biāo)檢測任務(wù)與行人重識(shí)別(person Re-IDentification,Re-ID)任務(wù)共同進(jìn)行的公平多目標(biāo)跟蹤(Fair Multi-Object Tracking,F(xiàn)airMOT),從而實(shí)現(xiàn)目標(biāo)跟蹤。

    1.2 行為識(shí)別

    行為識(shí)別是目前人工智能領(lǐng)域的一個(gè)研究熱點(diǎn),包括3個(gè)基本步驟:對(duì)圖像進(jìn)行歸一化處理、行為特征提取和行為分類。在進(jìn)行行為識(shí)別時(shí)的主要難點(diǎn)在于行為識(shí)別處理的是視頻,相對(duì)于圖像分類來說,增加了一個(gè)需要處理的維度,即時(shí)序,而且開放環(huán)境下視頻中存在多尺度、多目標(biāo)、攝像機(jī)移動(dòng)等眾多的問題,傳統(tǒng)的行為識(shí)別算法早期著重捕捉人體輪廓或形體信息來進(jìn)行行為識(shí)別。

    隨著深度學(xué)習(xí)方法在多目標(biāo)行為識(shí)別中的成功應(yīng)用,開始陸續(xù)提出了一些基于深度學(xué)習(xí)的視頻行為識(shí)別方法。Tran 等[15]利用三維卷積網(wǎng)絡(luò)來提取行為的時(shí)空特征,提出了用于行為識(shí)別的3D 卷積網(wǎng)絡(luò)(3D Convolutional Network,C3D),能夠更準(zhǔn)確地識(shí)別行為;Carreira 等[16]結(jié)合了三維卷積和雙流法[17]來識(shí)別行為,提出了用于行為識(shí)別的膨脹卷積網(wǎng)絡(luò)(Inflated 3D convolutional network,I3D);Tran 等[18]將三維卷積轉(zhuǎn)化成二維卷積和一維時(shí)序卷積來提取行為的時(shí)空特征,提出了偽3D 殘差網(wǎng)絡(luò)(Residual 2+1D Convolutional Network,R(2+1)D),能更高效地識(shí)別行為;Devlin 等[19]將R(2+1)D 中的全局平均池化層替換成轉(zhuǎn)換器的雙向編碼器表示(Bidirectional Encoder Representations from Transformer,BERT)[20],能更好地學(xué)習(xí)行為的顯著性特征,提出了R(2+1)D-BERT 模型;Karen 等[21]提出了一種融合時(shí)空網(wǎng)絡(luò)的雙流卷積網(wǎng)絡(luò)(Two-Stream Convolutional Network,Two-Stream),在小樣本數(shù)據(jù)集上也取得很好的性能,但計(jì)算量太大;Christoph 等[22]提出了慢快網(wǎng)絡(luò)(SlowFast network,SlowFast),也采取兩條支路的方式來獲取行為特征,一條慢支路和一條快支路分別負(fù)責(zé)空間和時(shí)間信息的獲取,取得很好的效果,但計(jì)算量比較大;Christoph[23]舍棄了雙支路的方法,通過擴(kuò)展模型深度和寬度,調(diào)整圖像分辨率以及模型的其他參數(shù),提出了擴(kuò)展3D 卷積網(wǎng)絡(luò)(eXpand 3D Convolutional network,X3D),在計(jì)算量非常小的情況下也獲得優(yōu)異的性能。

    而在視頻領(lǐng)域的多人行為識(shí)別算法很多都是基于實(shí)時(shí)多人2D 姿態(tài)估計(jì)(Realtime Multi-Person 2D Pose estimation,OpenPose)算法[24-25]實(shí)現(xiàn)的,OpenPose 可以檢測人的關(guān)節(jié)點(diǎn)位置,從而估計(jì)人的姿態(tài)。

    目前在線多人行為識(shí)別并沒有很好的解決方案,但單人行為識(shí)別的研究成果已經(jīng)很優(yōu)秀了,且殘差網(wǎng)絡(luò)和卷積網(wǎng)絡(luò)在計(jì)算機(jī)視覺任務(wù)上展現(xiàn)了其強(qiáng)大能力,所以本文主要采取的方法是將基于深度時(shí)空殘差卷積神經(jīng)網(wǎng)絡(luò)的單人行為識(shí)別算法應(yīng)用于多目標(biāo)的課堂教學(xué)場景,即采取目標(biāo)檢測與跟蹤加單人行為識(shí)別算法來完成課堂教學(xué)場景中的學(xué)生課堂行為識(shí)別任務(wù)。

    2 課堂教學(xué)視頻中實(shí)時(shí)學(xué)生課堂行為識(shí)別模型

    本文提出了基于深度時(shí)空殘差卷積神經(jīng)網(wǎng)絡(luò)的課堂教學(xué)視頻中實(shí)時(shí)學(xué)生課堂行為識(shí)別模型,該模型利用深度時(shí)空殘差卷積神經(jīng)網(wǎng)絡(luò)提取課堂教學(xué)視頻中學(xué)生課堂行為的空間和時(shí)間特征,所構(gòu)建的深度時(shí)空殘差卷積神經(jīng)網(wǎng)絡(luò)能自動(dòng)從視頻數(shù)據(jù)中學(xué)習(xí)到學(xué)生的時(shí)空行為特征,通過這種方式獲得的深度特征蘊(yùn)含高層的行為信息,更適合學(xué)生課堂行為理解。在此基礎(chǔ)上,基于分類學(xué)習(xí)對(duì)學(xué)生行為進(jìn)行分類,從而實(shí)現(xiàn)學(xué)生課堂行為的實(shí)時(shí)識(shí)別,所構(gòu)建的基于深度時(shí)空殘差卷積神經(jīng)網(wǎng)絡(luò)的學(xué)生課堂行為識(shí)別模型結(jié)構(gòu)如圖1 所示。

    圖1 基于深度時(shí)空殘差卷積神經(jīng)網(wǎng)絡(luò)的學(xué)生課堂行為識(shí)別模型Fig.1 Model of student classroom action recognition based on deep spatio temporal residual convolution neural network

    2.1 學(xué)生目標(biāo)檢測

    對(duì)課堂教學(xué)視頻中的學(xué)生目標(biāo)進(jìn)行檢測和定位是實(shí)現(xiàn)學(xué)生行為識(shí)別的關(guān)鍵。本文利用基于深度學(xué)習(xí)的視頻目標(biāo)檢測算法實(shí)現(xiàn)課堂教學(xué)視頻中的學(xué)生目標(biāo)的實(shí)時(shí)檢測,目標(biāo)特征學(xué)習(xí)和檢測的深度學(xué)習(xí)網(wǎng)絡(luò)結(jié)構(gòu)包含1 個(gè)提取課堂教學(xué)視頻幀中目標(biāo)特征的深度卷積神經(jīng)網(wǎng)絡(luò)、1 個(gè)融合多層特征的特征融合網(wǎng)絡(luò)和1 個(gè)用于目標(biāo)檢測的卷積網(wǎng)絡(luò)。基于深度學(xué)習(xí)的課堂學(xué)生目標(biāo)實(shí)時(shí)檢測網(wǎng)絡(luò)結(jié)構(gòu)如圖2 所示。其中課堂教學(xué)視頻幀中目標(biāo)特征學(xué)習(xí)的深度卷積神經(jīng)網(wǎng)絡(luò)的各層卷積過程如式(1)所示:

    圖2 課堂學(xué)生目標(biāo)檢測算法結(jié)構(gòu)Fig.2 Structure of classroom student object detection network

    其中:X∈RN×m是每層的輸入,W∈Rk×m×n代表每層的權(quán)值,b∈Rn代表每層的偏置值,σ()代表卷積操作,V∈Rk×m×n代表卷積核的權(quán)值,c∈Rn代表卷積層的偏置,N代表卷積層的總數(shù),k代表當(dāng)前卷積層的編號(hào),m代表圖片的維度,n代表卷積層中神經(jīng)元的數(shù)量。

    在獲取到課堂教學(xué)視頻幀的目標(biāo)特征后,利用特征融合網(wǎng)絡(luò)融合卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)得到的高層特征,再將融合后的特征輸入一個(gè)用于目標(biāo)檢測的卷積網(wǎng)絡(luò),計(jì)算得到相應(yīng)類別的置信度,計(jì)算方法如式(2)所示:

    其中:代表第i個(gè)方格的第j個(gè)預(yù)測框的置信度,Pr(Object)代表當(dāng)前預(yù)測框是否有對(duì)象的概率,IoUtruthpred代表預(yù)測的邊框與真實(shí)的邊框的交集和并集的比值。

    同時(shí)計(jì)算得到目標(biāo)框的坐標(biāo)位置,損失函數(shù)如式(3)所示:

    其中:b和bgt分別代表預(yù)測框和真實(shí)框的中心點(diǎn);ρ2()代表的是歐氏距離;c代表包含這兩個(gè)框的最小矩形的對(duì)角線長度;DIoU 為加入懲罰項(xiàng)的IoU,用來最小化兩個(gè)檢測框中心點(diǎn)之間的標(biāo)準(zhǔn)化距離。

    2.2 學(xué)生目標(biāo)跟蹤

    首先利用目標(biāo)檢測算法提取所有學(xué)生目標(biāo)圖像;再將各學(xué)生目標(biāo)圖像輸入一個(gè)簡單的外觀嵌入模型,得到每個(gè)學(xué)生的外觀特征;接著利用卡爾曼濾波算法,預(yù)測每個(gè)學(xué)生在下一幀中的外觀特征;在檢測到下一幀圖像中學(xué)生目標(biāo)的大小和位置后,利用匈牙利算法進(jìn)行匹配,從而將各學(xué)生目標(biāo)關(guān)聯(lián)起來,以實(shí)現(xiàn)課堂學(xué)生目標(biāo)跟蹤。課堂學(xué)生目標(biāo)跟蹤算法的流程如圖3 所示。

    圖3 課堂學(xué)生目標(biāo)跟蹤算法流程Fig.3 Flowchart of classroom student object tracking algorithm

    2.3 實(shí)時(shí)學(xué)生課堂行為識(shí)別

    基于深度時(shí)空殘差卷積神經(jīng)網(wǎng)絡(luò)的學(xué)生課堂行為識(shí)別算法整體框架如圖4 所示,主要包括學(xué)生課堂行為識(shí)別模型構(gòu)建過程和學(xué)生課堂行為識(shí)別過程。

    圖4 基于深度時(shí)空殘差卷積神經(jīng)網(wǎng)絡(luò)的學(xué)生課堂行為實(shí)時(shí)識(shí)別算法結(jié)構(gòu)Fig.4 Structure of student classroom action real-time recognition algorithm based on deep spatio temporal residual convolution neural network

    在學(xué)生課堂行為模型構(gòu)建過程中,首先將教學(xué)課堂視頻流數(shù)據(jù)通過縮放和正則化處理,并利用卷積神經(jīng)網(wǎng)絡(luò)提取特征;然后用特征金字塔網(wǎng)絡(luò)融合高層特征,目標(biāo)分類網(wǎng)絡(luò)計(jì)算學(xué)生目標(biāo)和邊框回歸網(wǎng)絡(luò)計(jì)算學(xué)生目標(biāo)位置;接著用非極大值抑制算法篩選置信度最高的學(xué)生目標(biāo)框,并將所有學(xué)生目標(biāo)框輸入學(xué)生目標(biāo)跟蹤模型,得到學(xué)生目標(biāo)的外觀特征,給學(xué)生目標(biāo)分配ID;再對(duì)收集到的學(xué)生目標(biāo)圖像進(jìn)行預(yù)處理、歸一化,利用深度時(shí)空殘差卷積神經(jīng)網(wǎng)絡(luò)提取學(xué)生課堂行為時(shí)空特征;最后通過分類學(xué)習(xí)實(shí)現(xiàn)學(xué)生行為識(shí)別。

    在學(xué)生課堂行為識(shí)別過程中,首先將測試課堂視頻流基于課堂學(xué)生目標(biāo)實(shí)時(shí)檢測模型得到學(xué)生目標(biāo)框,再將連續(xù)幀內(nèi)的學(xué)生目標(biāo)框輸入到目標(biāo)跟蹤模型,得到學(xué)生目標(biāo)的行為狀態(tài)圖片流,最后將所有學(xué)生目標(biāo)圖片流輸入到學(xué)生課堂行為識(shí)別模型,最終得到學(xué)生的課堂行為類別。具體算法描述如算法1。

    算法1 基于深度時(shí)空殘差卷積神經(jīng)網(wǎng)絡(luò)的學(xué)生課堂行為識(shí)別算法。

    輸入 課堂教學(xué)視頻video。

    輸出 所有學(xué)生的課堂行為類別。

    基于深度時(shí)空殘差卷積神經(jīng)網(wǎng)絡(luò)的學(xué)生課堂行為實(shí)時(shí)識(shí)別網(wǎng)絡(luò)結(jié)構(gòu)如表1 所示。

    表1 本文所提模型結(jié)構(gòu)Tab.1 Structure of the proposed model

    由于殘差結(jié)構(gòu)的特性,能在有效地提取學(xué)生課堂行為時(shí)空特征的同時(shí),減少計(jì)算量,滿足實(shí)時(shí)性需求,殘差結(jié)構(gòu)的計(jì)算式如式(4)所示:

    其中:x代表輸入特征,f(x)代表線性變換,H(x)代表輸出特征。在模型中,使用交叉熵作為損失函數(shù),如式(5)所示:

    其中:M代表學(xué)生行為類別的數(shù)量;yic是指示變量,如果該類別和樣本i的類別相同就是1,否則是0;pic代表觀測樣本i屬于類別c的預(yù)測概率。

    3 實(shí)驗(yàn)結(jié)果與分析

    3.1 數(shù)據(jù)集及數(shù)據(jù)處理

    為驗(yàn)證提出的學(xué)生課堂行為識(shí)別模型,本文收集了90個(gè)課堂教學(xué)視頻,并構(gòu)建了課堂行為庫。由于人工標(biāo)注視頻難以確定動(dòng)作的開始和結(jié)束,本文采用目標(biāo)跟蹤算法獲取單個(gè)學(xué)生目標(biāo)的行為狀態(tài)變化圖片流,然后再人工從單人的圖片流中挑選一些連續(xù)的幀作為單人的一個(gè)動(dòng)作樣本,總共挑選出了行為(樣本數(shù)):傾聽(360)、站立(200)、低頭(260)、轉(zhuǎn)頭(220)。各行為樣本樣例如圖5 所示。

    圖5 各種行為樣本樣例Fig.5 Sample of various action samples

    3.2 實(shí)驗(yàn)結(jié)果與分析

    3.2.1 學(xué)生目標(biāo)檢測實(shí)驗(yàn)結(jié)果與分析

    為了驗(yàn)證課堂教學(xué)視頻中的學(xué)生目標(biāo)檢測效果,本文通過實(shí)驗(yàn)對(duì)比了目前幾種實(shí)時(shí)性和準(zhǔn)確率都比較優(yōu)秀的目標(biāo)檢測算法,包括EfficientDet[8]、YOLOv4[2]和YOLOv5 模型[2,6],其中YOLOv5 依據(jù)模型架構(gòu)分為YOLOv5s、YOLOv5m、YOLOv5l 和YOLOv5x。實(shí)驗(yàn)中采用多個(gè)不同輸入尺寸的訓(xùn)練模型,采用相同的目標(biāo)概率閾值0.3,實(shí)驗(yàn)結(jié)果如表2 所示,視頻場景中學(xué)生目標(biāo)人數(shù)真值為42。

    表2 課堂學(xué)生目標(biāo)檢測實(shí)驗(yàn)結(jié)果對(duì)比Tab.2 Comparison of experimental results of classroom student object detection

    通過分析表2 中實(shí)驗(yàn)結(jié)果可以發(fā)現(xiàn),在學(xué)生目標(biāo)檢測準(zhǔn)確率方面,YOLOv5x 模型能夠識(shí)別到最多為26 人;而YOLOv4 模型[2]以416 px×416 px 的視頻幀為輸入的情況下,識(shí)別的人數(shù)最少為14人,其次是EfficientDet模型[8]以512 px×512 px 的視頻幀為輸入的情況下,僅識(shí)別16 人,其余模型識(shí)別到的人數(shù)大致在20 人左右,效果差距不明顯。在檢測時(shí)間方面,YOLOv5 處理單個(gè)視頻幀的時(shí)間僅為24 ms,可以實(shí)時(shí)處理,且YOLOv5 的其他模型也耗時(shí)較少;最慢的是EfficientDet[8]以1 024×1 024 的視頻幀為輸入的情況下,處理單個(gè)視頻幀的時(shí)間為795 ms,完全不符合實(shí)時(shí)性的需求。所以目前實(shí)驗(yàn)中主要基于YOLOv5 實(shí)現(xiàn)課堂學(xué)生目標(biāo)的實(shí)時(shí)檢測,由于閾值對(duì)于目標(biāo)檢測的效果也有一定影響,所以將YOLOv5 的所有模型采用不同的閾值在同一個(gè)視頻幀上再次進(jìn)行了實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表3 所示。

    表3 不同閾值下課堂學(xué)生目標(biāo)檢測實(shí)驗(yàn)結(jié)果對(duì)比Tab.3 Experimental results comparison of classroom student object detection under different thresholds

    觀察表3 中實(shí)驗(yàn)結(jié)果可知,隨著閾值的縮小,各模型檢測到的人數(shù)也相應(yīng)地增加,但從實(shí)際觀察效果圖可以發(fā)現(xiàn),檢測人數(shù)增多的原因是有些目標(biāo)被重復(fù)檢測了,檢測準(zhǔn)確率降低了,所以不能通過減小目標(biāo)閾值來提升檢測效果;同時(shí),為了驗(yàn)證YOLOv5 各模型在不同教學(xué)場景下的效果,將YOLOv5 各模型分別在5 個(gè)不同教學(xué)場景的視頻幀上進(jìn)行了實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果對(duì)比結(jié)果如表4 所示。

    表4 不同課堂場景下學(xué)生目標(biāo)檢測實(shí)驗(yàn)結(jié)果對(duì)比Tab.4 Experimental results comparison of classroom student object detection in different classroom scenes

    觀察如表4 所示的實(shí)驗(yàn)結(jié)果可以發(fā)現(xiàn),YOLOv5s 模型在視頻幀1、4 和5 上與其他模型的效果差不多,且都接近最好的目標(biāo)檢測準(zhǔn)確率,但是在視頻幀2 和3 上到的檢測效果較差;YOLOv5m 模型在視頻幀1 和3 上取得了最好的檢測準(zhǔn)確率,但是也與其他模型相差不多,而在其他視頻幀上,它的檢測準(zhǔn)確率卻接近最差;YOLOv5l 模型在視頻幀2 和5 上取得了最好的檢測準(zhǔn)確率,在其他視頻幀上效果也不錯(cuò);YOLOv5x 模型在視頻幀2、4 和5 上的學(xué)生目標(biāo)檢測準(zhǔn)確率最好,在其他視頻幀上效果也不錯(cuò)。綜合目標(biāo)識(shí)別效果和識(shí)別時(shí)間來說,YOLOv5m 模型的課堂教學(xué)場景下的學(xué)生目標(biāo)檢測效果最差,YOLOv5l 和YOLOv5x 模型雖然檢測準(zhǔn)確率很高,但是所用的時(shí)間太長,而YOLOv5s 則可以達(dá)到學(xué)生目標(biāo)檢測準(zhǔn)確率和檢測時(shí)間的均衡,所以后續(xù)實(shí)驗(yàn)采用YOLOv5s模型作為課堂學(xué)生目標(biāo)實(shí)時(shí)檢測模型。

    3.2.2 學(xué)生目標(biāo)跟蹤實(shí)驗(yàn)結(jié)果與分析

    為了驗(yàn)證課堂教學(xué)視頻場景中的學(xué)生目標(biāo)跟蹤性能,對(duì)比了當(dāng)前目標(biāo)跟蹤領(lǐng)域?qū)崟r(shí)性和準(zhǔn)確率都較好的算法,包括JDE[13]、FairMOT[14]和YOLOv5s[2,6]+DeepSORT[11-12]算法。在課堂教學(xué)視頻和多行人的視頻上進(jìn)行實(shí)驗(yàn),對(duì)比結(jié)果如表5所示。觀察表5 中實(shí)驗(yàn)結(jié)果,可以發(fā)現(xiàn)YOLOv5s+DeepSORT目標(biāo)跟蹤算法在速度和準(zhǔn)確率方面,都取得了較好的效果,而FairMOT[14]和JDE[13]模型只在多行人場景下能夠取得一定的效果,但速度也較慢。綜上,采用YOLOv5s+DeepSORT算法實(shí)現(xiàn)課堂教學(xué)視頻中的學(xué)生目標(biāo)跟蹤。

    表5 不同目標(biāo)跟蹤算法在不同場景下的實(shí)驗(yàn)結(jié)果對(duì)比Tab.5 Experimental results comparison of different object tracking algorithms in different scenes

    3.2.3 學(xué)生課堂行為識(shí)別實(shí)驗(yàn)結(jié)果與分析

    為了驗(yàn)證不同的行為識(shí)別算法在課堂場景下的效果,將提出的模型與I3D[16]、R(2+1)D[18]、R(2+1)D-BERT[20]、3D 殘差卷積網(wǎng)絡(luò)(ResNet3D101)[26]、ResNeXt3D101[27]和持久外觀網(wǎng)絡(luò)(Persistence Appearance Network,PAN)模型[28]進(jìn)行對(duì)比。實(shí)驗(yàn)參數(shù):epochs=50、batch-size=8、clip-len=16、input-size=112×112,學(xué)習(xí)率為0.01、0.001、0.0001 和0.000 01。預(yù)訓(xùn)練數(shù)據(jù)集有3 個(gè):ImageNet、Kinetics400 和Sports-1M。不同學(xué)生行為識(shí)別模型的實(shí)驗(yàn)結(jié)果如表6 所示,其中平均準(zhǔn)確率為多次訓(xùn)練中驗(yàn)證集上最高的值。

    表6 不同行為識(shí)別算法在學(xué)生課堂數(shù)據(jù)集上的結(jié)果對(duì)比Tab.6 Results comparison of different action recognition algorithm on student classroom action dataset

    觀察表6 中實(shí)驗(yàn)結(jié)果可以發(fā)現(xiàn),R(2+1)D-BERT 算法在收集的學(xué)生課堂教學(xué)視頻集上的平均準(zhǔn)確率最高,I3D 算法的平均準(zhǔn)確率最低;ResNet3D101、ResNeXt3D101 和R(2+1)D 的平均準(zhǔn)確率一樣,這可能是因?yàn)閿?shù)據(jù)集或者隨機(jī)性導(dǎo)致的,但是R(2+1)D 算法的訓(xùn)練時(shí)間最長,提出的模型的訓(xùn)練時(shí)間最短;R(2+1)D-BERT 算法的模型最大,I3D 的模型最??;R(2+1)D-BERT 算法的平均推理時(shí)間最長,提出的模型的平均推理時(shí)間最短。綜上所述,本文所提模型能夠取得最短的推理時(shí)間的同時(shí)只損失很小的精度,所以本文模型綜合性能更優(yōu),能夠在學(xué)生目標(biāo)行為識(shí)別準(zhǔn)確率和時(shí)效性方面取得較好的折中,且能達(dá)到實(shí)時(shí)性能。

    圖6 提出的模型在課堂教學(xué)場景中的行為識(shí)別效果Fig.6 Action recognition effects in classroom teaching scenes by the proposed model

    3.3 基于學(xué)生課堂行為識(shí)別的智能教學(xué)評(píng)估系統(tǒng)實(shí)現(xiàn)

    本文基于課堂教學(xué)視頻中的學(xué)生課堂行為識(shí)別構(gòu)建了智能教學(xué)評(píng)估模型,并設(shè)計(jì)實(shí)現(xiàn)了基于學(xué)生課堂行為識(shí)別的智能教學(xué)評(píng)估系統(tǒng),依靠視頻理解技術(shù)實(shí)現(xiàn)對(duì)學(xué)生課堂行為的識(shí)別,從而可以對(duì)學(xué)生的上課狀態(tài)進(jìn)行全面的評(píng)估,助力課堂智慧教育。系統(tǒng)結(jié)構(gòu)如圖7 所示。將行為分為積極行為(如站立、傾聽)、中性行為(如低頭)和消極行為(如轉(zhuǎn)頭)三類,通過統(tǒng)計(jì)學(xué)生課堂行為識(shí)別的結(jié)果,計(jì)算積極、中性和消極行為所占的比例,若消極的行為所占的比例超過一定數(shù)值,將反饋給教師,發(fā)出警示。

    圖7 基于學(xué)生課堂行為識(shí)別的智能教學(xué)評(píng)估系統(tǒng)結(jié)構(gòu)Fig.7 Structure of intelligent teaching evaluation system based on students’classroom action recognition

    所構(gòu)建的基于學(xué)生課堂行為識(shí)別的智能教學(xué)評(píng)估系統(tǒng)主要包含4 個(gè)功能模塊:課堂學(xué)生目標(biāo)實(shí)時(shí)檢測模塊、課堂學(xué)生目標(biāo)跟蹤模塊、學(xué)生課堂行為識(shí)別模塊和課堂教學(xué)評(píng)估模塊。課堂學(xué)生目標(biāo)實(shí)時(shí)檢測模塊利用深度卷積神經(jīng)網(wǎng)絡(luò)提取課堂教學(xué)視頻的特征,再利用特征金字塔網(wǎng)絡(luò)融合卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)到的高層特征,接著分別使用一個(gè)目標(biāo)分類網(wǎng)絡(luò)和一個(gè)邊框回歸網(wǎng)絡(luò)計(jì)算學(xué)生目標(biāo)的置信度和位置;課堂學(xué)生目標(biāo)跟蹤模塊利用目標(biāo)檢測算法得到的所有學(xué)生目標(biāo)圖像,計(jì)算各學(xué)生的外觀特征,再和已有的特征進(jìn)行匹配,分配ID;學(xué)生課堂行為識(shí)別功能模塊,利用深度時(shí)空殘差卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)學(xué)生課堂行為的時(shí)空特征,再利用邏輯回歸算法計(jì)算學(xué)生的行為概率,取最大值為學(xué)生的當(dāng)前行為;課堂教學(xué)評(píng)估模塊,統(tǒng)計(jì)學(xué)生課堂行為實(shí)時(shí)識(shí)別的結(jié)果,計(jì)算積極、中性和消極行為的比例,若消極的行為所占的比例超過一定數(shù)值,則將實(shí)時(shí)反饋給教師。系統(tǒng)除了能夠?qū)φn堂整體聽課狀態(tài)進(jìn)行智能評(píng)估,還能生成面向每個(gè)學(xué)生的課堂聽課狀態(tài)報(bào)告,以實(shí)現(xiàn)個(gè)性化教學(xué)。

    4 結(jié)語

    本文針對(duì)課堂視頻場景中學(xué)生課堂行為識(shí)別任務(wù),提出了一種基于深度時(shí)空殘差卷積神經(jīng)網(wǎng)絡(luò)的多人課堂行為識(shí)別模型,該模型結(jié)合課堂教學(xué)視頻中學(xué)生目標(biāo)檢測和跟蹤,并通過對(duì)每個(gè)學(xué)生目標(biāo)的時(shí)空行為特征學(xué)習(xí),實(shí)現(xiàn)了課堂教學(xué)場景中面向多學(xué)生目標(biāo)的課堂行為的實(shí)時(shí)識(shí)別,其中采用的單人行為識(shí)別模型對(duì)比I3D、ResNet3D101、ResNeXt3D10 1、R(2+1)D 和R(2+1)D-BERT 模型,在最短的推理時(shí)間內(nèi)取得了較高的準(zhǔn)確率。此外,本文基于提出的課堂教學(xué)視頻中的學(xué)生課堂行為識(shí)別模型構(gòu)建了面向智慧教育的智能教學(xué)評(píng)估模型,設(shè)計(jì)并實(shí)現(xiàn)了基于學(xué)生課堂行為識(shí)別的智能教學(xué)評(píng)估系統(tǒng),助力個(gè)性化教學(xué)以及教學(xué)質(zhì)量的提升,實(shí)現(xiàn)智慧教育。由于采用的3D 行為識(shí)別算法推理速度較慢,本研究正在尋找更高效的行為識(shí)別算法來代替當(dāng)前的算法,并且尋求創(chuàng)新,并在大規(guī)模數(shù)據(jù)上驗(yàn)證,在學(xué)生課堂行為圖片流數(shù)據(jù)集上構(gòu)造準(zhǔn)確率更高、推理速度更快的行為識(shí)別算法是下一步工作的重要內(nèi)容。另一方面,課堂評(píng)估效果驗(yàn)證及優(yōu)化也是下一步工作的重要內(nèi)容。

    猜你喜歡
    準(zhǔn)確率卷積目標(biāo)
    基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
    乳腺超聲檢查診斷乳腺腫瘤的特異度及準(zhǔn)確率分析
    健康之家(2021年19期)2021-05-23 11:17:39
    不同序列磁共振成像診斷脊柱損傷的臨床準(zhǔn)確率比較探討
    2015—2017 年寧夏各天氣預(yù)報(bào)參考產(chǎn)品質(zhì)量檢驗(yàn)分析
    從濾波器理解卷積
    電子制作(2019年11期)2019-07-04 00:34:38
    高速公路車牌識(shí)別標(biāo)識(shí)站準(zhǔn)確率驗(yàn)證法
    基于傅里葉域卷積表示的目標(biāo)跟蹤算法
    我們的目標(biāo)
    一種基于卷積神經(jīng)網(wǎng)絡(luò)的性別識(shí)別方法
    新目標(biāo)七年級(jí)(下)Unit?。尘毩?xí)(一)
    正阳县| 牡丹江市| 卢湾区| 武乡县| 凤山市| 安图县| 盐津县| 彰化市| 梁平县| 社会| 济宁市| 长白| 农安县| 兴宁市| 游戏| 通州市| 武胜县| 石柱| 盱眙县| 监利县| 彰化市| 新化县| 从江县| 临夏县| 顺平县| 三河市| 杭州市| 江北区| 东源县| 剑阁县| 卫辉市| 怀宁县| 寿宁县| 当阳市| 高安市| 莆田市| 河北区| 和静县| 通江县| 许昌县| 周宁县|