基金項目:2021年度內蒙古自治區(qū)高等學??茖W研究項目;項目名稱:基于深度學習的高校學生課堂行為分析系統(tǒng)設計與實現(xiàn);項目編號:NJZY21303。
作者簡介:高榮貴(1985— ),男,講師,碩士;研究方向:人工智能,數(shù)據(jù)挖掘。
摘要:文章針對傳統(tǒng)課堂行為分析方法的弊端,設計基于深度學習的學生課堂行為分析系統(tǒng)。利用姿態(tài)估計方法和目標檢測算法,對視頻數(shù)據(jù)進行處理,實現(xiàn)對人體關鍵點的精準識別和行為分類。同時,結合人體關鍵點信息,能夠判斷學生的上課狀態(tài),便于教師能實時監(jiān)測學生的行為,從而調整教學策略,提高教學質量。對該系統(tǒng)進行性能測試,經(jīng)過多組實驗對比驗證,結果表明系統(tǒng)在分析學生課堂行為上有較高的準確性。
關鍵詞:深度學習;人體關鍵點;系統(tǒng)設計
中圖分類號:TP315" 文獻標志碼:A
0" 引言
隨著科技的不斷發(fā)展,深度學習技術被廣泛應用于教育領域中。其中,學生課堂行為是評估教學質量的一個較為重要的權重指標。通過系統(tǒng)采集學生課堂上的行為(舉手、端坐、站立等),將人體關鍵點進行數(shù)據(jù)可視化,充分利用深度學習算法對學生的學習行為與過程進行判斷,為教師調整教學策略提供數(shù)據(jù)支撐和參考。基于此,本文通過設計基于深度學習的學生課堂行為分析系統(tǒng),旨在優(yōu)化系統(tǒng)的性能,以期為教師的教學提供便利。
1" 基于深度學習的學生課堂行為分析系統(tǒng)應用現(xiàn)狀分析
在實際應用中,基于深度學習的學生課堂行為分析系統(tǒng)主要存在人體關鍵點錯連、判斷速度較慢和動作識別準確率不高等問題。
1.1" 人體關鍵點錯連
系統(tǒng)在對人體姿態(tài)進行估計時,算法錯誤地將不同人體關鍵點之間的連接關系建立起來,導致分析結果失真。這種問題可能會導致系統(tǒng)無法準確識別學生的動作和姿態(tài),從而影響課堂行為分析的準確性,不利于提高教學質量。
1.2" 判斷速度較慢
課堂場景通常涉及大量的學生和教師,他們之間的互動和行為模式復雜多樣。這就需要系統(tǒng)具備很高的處理能力和計算速度,以便在短時間內準確地識別和判斷每個學生的行為。同時,深度學習模型在處理復雜場景時,容易受到噪聲和干擾的影響,從而導致判斷的不準確。然而,深度學習模型在處理大量數(shù)據(jù)時,需要消耗大量的計算資源和時間,導致判斷速度變慢。
1.3" 動作識別準確率不高
盡管現(xiàn)有的系統(tǒng)利用了先進的深度卷積神經(jīng)網(wǎng)絡和YOLOv5算法,但是在實際應用中,對于學生的行為識別仍然存在一定的挑戰(zhàn)。由于學生的行為種類多樣且動作形態(tài)復雜,目前的系統(tǒng)很難準確識別所有類型的動作。如學生在課堂上的動作可能包括聽講、記筆記、交頭接耳、玩手機等多種行為,這些行為在動作形態(tài)上具有很大的差異性。同時,由于課堂環(huán)境的復雜性,系統(tǒng)可能會將一些與課堂行為不相關的動作誤識別為課堂行為。如學生在課堂上的動作可能受到周圍環(huán)境的影響,如窗外的車輛、其他學生的動作等都可能對算法的識別結果產生干擾。此外,系統(tǒng)的動作識別準確率還受到數(shù)據(jù)集的影響。目前,大部分的學生課堂行為數(shù)據(jù)集規(guī)模較小且標注質量參差不齊,這導致算法在訓練過程中難以學習到足夠的特征,從而影響動作識別的準確率。
針對上述問題,應從系統(tǒng)架構、深度學習模型等方面進行系統(tǒng)優(yōu)化,以為教師提供準確的信息和數(shù)據(jù)支撐,為調整教學策略提供強有力的支持。
2" 系統(tǒng)架構
2.1" 硬件設施
由于深度學習算法對計算資源有較高的要求,優(yōu)質的硬件設施是必不可少的。即CPU需要擁有足夠的計算能力去支撐服務器,以便更好地承載模型訓練和推理任務。同時,攝像機作為采集學生課堂行為的主要硬件設施,它的視角應能覆蓋教室的每個角落,能全面捕捉學生的課堂行為。系統(tǒng)部分硬件設施參數(shù)如表1所示。
2.2" 軟件架構
為了系統(tǒng)的后續(xù)發(fā)展,系統(tǒng)架構在設計時應遵循模塊化、高內聚、低耦合的原則,以滿足系統(tǒng)的可擴展性、穩(wěn)定性和易維護性的需求。系統(tǒng)的整體架構從下到上可分為4個層次:數(shù)據(jù)存儲層、數(shù)據(jù)處理層、業(yè)務邏輯層和用戶界面層,如圖1所示。
(1)數(shù)據(jù)存儲層:根據(jù)數(shù)據(jù)的結構和訪問模式選擇數(shù)據(jù)庫(關系型、非關系型和分布式存儲系統(tǒng)),同時也需要保證數(shù)據(jù)的安全性、完整性和高效訪問。
(2)數(shù)據(jù)處理層:深度學習模型在這一層進行計算,對視頻幀進行分析和處理,從而精確識別出學生的不同行為。
(3)業(yè)務邏輯層:用戶管理模塊負責用戶的注冊、登錄、權限分配等功能;數(shù)據(jù)采集模塊負責從攝像頭、學習管理系統(tǒng)等方面采集學生課堂行為數(shù)據(jù),對原始數(shù)據(jù)進行數(shù)據(jù)預處理;行為識別算法管理模塊負責調用和管理深度學習模型,對采集到的數(shù)據(jù)進行行為識別和分析;分析報告模塊根據(jù)識別結果并響應用戶需求,生成相應的分析報告,為教師、學生、管理員提供參考。
(4)用戶界面層:人機互動界面。
3" 深度學習模型選擇
3.1" 目標檢測模型
目前,目標檢測模型發(fā)展迅速,其中具有代表性的有YOLO、SSD、Faster R - CNN等[1]。其中,YOLOv5與YOLOv4相比,不僅繼承了v4的高性能,它的推理速度遠超v4,在TeslaP100上能達到140FPS的速度,而v4僅為50FPS。不僅如此,YOLOv5在保持了較高檢測準確率的同時,還具有較快的運行速度,能夠滿足課堂行為分析的實時性要求[2]。考慮到目標檢測模型的實時性和準確性的平衡,本文選擇YOLOv5作為目標檢測模型。
3.2" 人體關鍵點檢測模型
在實際應用中,由于課堂場景的學生人數(shù)較多,因此只選擇多人關鍵點檢測的算法,如Open Pose、Alpha Pose等。其中,Open Pose具有運行速度快、不受環(huán)境人數(shù)影響的優(yōu)點,但它在實際應用中易出現(xiàn)關鍵點錯連的情況,尤其是在2個目標對象距離較近時,錯連情況更容易發(fā)生,不適用于課堂環(huán)境;而Alpha Pose是先進行目標檢測操作,再對檢測到的目標進行關鍵點檢測,使得Alpha Pose算法在高密度的環(huán)境中可以更好地區(qū)分目標行為。但Alpha Pose算法也有缺點,如果課堂中人數(shù)過多,其關鍵點檢測速度會變得較慢,不利于實時分析實時生成??傮w來說,優(yōu)勢大于劣勢。因此,本文選擇以Alpha Pose算法作為人體關鍵點檢測模型。
4" 模型訓練與分析
4.1" 數(shù)據(jù)預處理
在采集的學生課堂行為數(shù)據(jù)集中,由于存在拍攝角度不正確、畫面模糊、光線不足等問題,導致數(shù)據(jù)質量不高或有與目標無關的樣本,這些樣本會對模型的訓練過程產生負面影響,因而需要對這些樣本進行篩選和去除,以提高樣本數(shù)據(jù)質量。因此,需要對數(shù)據(jù)集進行數(shù)據(jù)預處理操作,它主要包括數(shù)據(jù)清洗、數(shù)據(jù)增強和數(shù)據(jù)標注等,如圖2所示。其目的是提高模型的泛化能力,確保模型在訓練過程中能夠學習到符合設計要求的特征;通過旋轉、縮放、翻轉、顏色變換等操作,模擬不同的拍攝環(huán)境和場景,以增強數(shù)據(jù)模型的泛化能力。除此之外,還可使用交叉驗證、混淆矩陣等方法來提高數(shù)據(jù)集的質量和模型的泛化能力,以確保數(shù)據(jù)預處理的質量和效果。在學生課堂行為數(shù)據(jù)集中,將樣本對應的行為類別進行標注,如一般端坐狀態(tài)、站立、舉手等。在這個過程中,應保證數(shù)據(jù)標注的質量達到模型訓練的要求,確保標注的準確性和一致性。
4.2" 模型選擇與訓練
在深度學習中,卷積神經(jīng)網(wǎng)絡(Convolutional Neural Network,CNN)與循環(huán)神經(jīng)網(wǎng)絡(Recurrent Neural Network,RNN)各有優(yōu)勢。CNN可以有效提取圖像特征,在圖像處理領域具有優(yōu)異的性能;RNN能夠捕捉時間序列信息,在處理序列數(shù)據(jù)方面具有較為突出的優(yōu)勢。本設計將2種模型相結合,可以滿足學生課堂行為分析的需求。具體步驟如下。
步驟一:在對輸入的課堂視頻幀進行處理中,可以使用CNN模型提取圖像特征。
步驟二:將提取的圖像特征輸入RNN模型,結合時間序列信息對學生的課堂行為進行識別。如教師在某個時間段持續(xù)講解,那時間序列信息將如同“2-2-2-2-4-4”的具有重復性、持續(xù)性的編碼[3]。
步驟三:根據(jù)識別出的學生行為,計算學生聽課的有效時長,參考山東高考賦分原則如表2所示,建立學生課堂注意力量化評估準則,從而對課堂教學質量進行評估。
步驟四:針對模型在訓練過程中出現(xiàn)過擬合、收斂速度慢等問題,應采用正則化、學習率調整等優(yōu)化方法,提高模型的泛化能力和訓練效率。
步驟五:模型訓練與調參在系統(tǒng)中是至關重要的一個環(huán)節(jié),它涉及模型的學習、優(yōu)化和調整,使模型能夠更快、更好地適應數(shù)據(jù)集,提高學生課堂行為的識別準確率和魯棒性。步驟如圖3所示。
4.3" 實驗結果分析
訓練好基于目標檢測與人體關鍵點的行為識別模型后,需要將驗證集輸入模型,以驗證模型的精度(P)、召回率(R),實驗結果如表3所示。分別計算二者的平均數(shù),從而得出系統(tǒng)的平均精度,進而為教師、學生、管理者提供改進依據(jù)。其中,精度、召回率和平均數(shù)的計算公式如下所示:
P=TPTP+FP
R=TPTP+FN
x=x1+x2+x3+…+xnn
由表3可知,訓練模型的平均精度為0.9050,可以精確識別學生的4類行為。其中,端坐的精度最高,達到0.9857;其次為“趴下”的0.9755。需注意的是,站立和舉手通常在教師提問或學生主動回答問題時才出現(xiàn),發(fā)生頻率較低。因此,當算法不能更好地判斷當前的行為時,會將其歸入“端坐”中。
5" 結語
本文通過引入輕量級的MobileNetV3模型和Alpha Pose姿態(tài)估計方法以及改進的YOLOv5算法,實現(xiàn)了人體關鍵點的識別和行為分類。在仿真實驗中,系統(tǒng)的平均精度達到90.5%,能適應課堂場景的復雜性。通過對學生課堂行為的判定,可以幫助教師分析教學效果,為調整教學策略提供技術支撐。因此,學生課堂行為分析系統(tǒng)的重要性是不言而喻的。未來,隨著AI的不斷發(fā)展,學生課堂行為分析系統(tǒng)將朝著智能化、個性化的方向發(fā)展,以為教師提供多樣化的教學支持。
參考文獻
[1]趙明權,虎海松,劉杭.基于目標檢測的課堂行為監(jiān)控系統(tǒng)設計[J].科技創(chuàng)新與應用,2023(22):35-38.
[2]賀子琴,黃文輝,肖嘉彥,等.基于YOLOv5的學生課堂行為分析系統(tǒng)設計[J].電腦知識與技術,2023(26):19-22.
[3]劉超,董翠香,季瀏.中國健康體育課程模式下體育課堂教學行為分析系統(tǒng)的設計與應用研究[J].首都體育學院學報,2022(2):188-197.
(編輯" 王永超)
Design of a student classroom behavior analysis system based on deep learning
GAO" Ronggui
(Inner Mongolia Electronic Information Vocational and Technical College, Hohhot 010070, China)
Abstract: Aiming at the disadvantages of the traditional classroom behavior analysis method, this paper designs a student classroom behavior analysis system based on deep learning. The pose estimation method and the object detection algorithm are used to process the video data to realize the accurate identification and behavior classification of the key points of the human body. At the same time, combined with the key point information of human body, it can judge the state of students in class, so that teachers can monitor students’ behavior in real time, so as to adjust the teaching strategy and improve the teaching quality. Finally, the performance of the system is tested and verified by multiple groups of experiments, and the results show that the system has a high accuracy in analyzing students’ classroom behavior.
Key words: deep learning; key points of human body; system design