摘" 要:學(xué)生課堂行為識別能夠有效提升課堂教學(xué)效果,是智慧教育不可或缺的一環(huán)。鑒于缺乏相關(guān)研究數(shù)據(jù),文章首先構(gòu)建了學(xué)生課堂行為數(shù)據(jù)集。在特殊的課堂環(huán)境中,學(xué)生數(shù)量眾多且常相互遮擋,后排學(xué)生目標(biāo)體積較小,所以在復(fù)雜多變的環(huán)境下,難以將學(xué)生行為與周圍背景區(qū)分開來。因此,文章提出一種基于改進YOLOv7目標(biāo)檢測算法的學(xué)生行為識別方法(YL7CA),將CA注意力機制嵌入到Y(jié)OLOv7中,以便更準(zhǔn)確地檢測學(xué)生行為。該方法在自建數(shù)據(jù)集上獲得了92.6%的檢測精度,能有效檢測出抬頭、低頭、轉(zhuǎn)頭、玩手機、讀寫、睡覺這六類常見的學(xué)生課堂行為。
關(guān)鍵詞:YOLOv7;行為識別;注意力機制;目標(biāo)檢測
中圖分類號:TP183;TP391.4" 文獻標(biāo)識碼:A" 文章編號:2096-4706(2025)04-0069-05
Research on Student Classroom Behavior Recognition Based on the Improved YOLOv7 Algorithm
ZHANG Xiaoni, YANG Mengmeng, ZHANG Junfeng, SU Liping
(Henan Vocational College of Water Conservancy and Environment, Zhengzhou" 450008, China)
Abstract: Student classroom behavior recognition can effectively improve the effect of classroom teaching, which is an indispensable part of smart education. In view of the lack of relevant research data, this paper first constructs a dataset of student classroom behavior. In the special classroom environment, there are a large number of students and they often block each other, and the volume of the rear student target is small. Therefore, in the complex and changeable environment, it is difficult to distinguish the student behavior from the surrounding background. Therefore, this paper proposes a student behavior recognition method based on the improved YOLOv7 object detection algorithm (YL7CA), which embeds CA Attention Mechanism into YOLOv7 to detect student behavior more accurately. This method obtains a detection accuracy of 92.6% on the self-built dataset, and can effectively detect six common types of student classroom behaviors, including looking up, looking down, turning around, playing on mobile phones, reading and writing, and sleeping.
Keywords: YOLOv7; behavior recognition; Attention Mechanism; object detection
0" 引" 言
隨著信息技術(shù)和人工智能的快速發(fā)展,學(xué)生課堂行為識別已成為智慧教育[1]的熱點之一。課堂行為識別旨在通過計算機視覺技術(shù),對學(xué)生在課堂上的各種行為進行自動檢測和分類,從而為教師提供實時、客觀的反饋,幫助教師更好地了解學(xué)生的學(xué)習(xí)狀態(tài)和行為習(xí)慣,優(yōu)化教學(xué)策略,提升教學(xué)質(zhì)量。然而,傳統(tǒng)的課堂行為識別方法往往存在精度不高、響應(yīng)遲緩等問題,限制了其在現(xiàn)實教育場景中的應(yīng)用和普及。因此,結(jié)合計算機技術(shù)研究一種高效、準(zhǔn)確的學(xué)生課堂行為識別算法,具有重要的理論意義和實踐價值[2]。
目前,學(xué)生行為識別方法大多基于深度學(xué)習(xí)技術(shù)。黃勇康等人[3]設(shè)計了一種基于學(xué)生課堂行為的智能教學(xué)評估系統(tǒng),從空間和時間的維度提出了深度時空殘差卷積神經(jīng)網(wǎng)絡(luò),并使用該網(wǎng)絡(luò)學(xué)習(xí)學(xué)生行為的時空特征,最終對學(xué)生行為的識別取得了較高的準(zhǔn)確率。張小妮等人[4]提出了一種基于YOLOv5目標(biāo)檢測算法的多尺度特征融合的學(xué)生行為識別方法,提高了各類行為的識別率。沈西挺等人[5]采用稠密光流的方法處理數(shù)據(jù),結(jié)合2DCNN、3DCNN和LSTM提取人體動作特征,采用Softmax分類器對捕捉到的人體行為進行分類,其識別率顯著提升。姜權(quán)晏等人[6]基于骨架行為識別提出多維特征嵌合注意力機制的方法,利用時空建模和通道之間的相對性捕獲動作信息,通過嵌合全局特征和局部特征獲取多尺度動態(tài)信息,得到較好的識別效果。
本文聚焦于學(xué)生課堂行為,構(gòu)建學(xué)生課堂行為數(shù)據(jù)集,克服數(shù)據(jù)稀缺難題。隨后,致力于優(yōu)化模型設(shè)計,強化其捕捉學(xué)生行為特征的能力,結(jié)合注意力機制,關(guān)注更重要的學(xué)生行為特征信息,從而構(gòu)建出一種高效的學(xué)生課堂行為識別模型。此模型旨在顯著提升行為識別的準(zhǔn)確性,為教育評估與個性化教學(xué)提供有力支持。
1" 相關(guān)技術(shù)
1.1" YOLOv7目標(biāo)檢測
YOLOv7[7]于2022年被提出,是YOLO系列較新的目標(biāo)檢測算法。其在速度、精度以及多尺度檢測等方面的優(yōu)勢,使其在各種實際應(yīng)用場景中都能發(fā)揮出色的作用。YOLOv7的結(jié)構(gòu)主要分為輸入端、主干網(wǎng)絡(luò)(Backbone)和頭部(Head)三個部分,其模型結(jié)構(gòu)如圖1所示。這種結(jié)構(gòu)使YOLOv7能夠高效地進行目標(biāo)檢測。YOLOv7還采用了一些創(chuàng)新的策略和技術(shù)來提升其性能。例如,它引入了模型重參數(shù)化思想,將重參數(shù)化引入到網(wǎng)絡(luò)架構(gòu)中,以優(yōu)化模型的性能和訓(xùn)練速度。同時,YOLOv7融合跨網(wǎng)格搜索與YOLOX匹配策略,創(chuàng)新標(biāo)簽分配,優(yōu)化識別效果。
1.2" 注意力機制
注意力機制模擬人類視覺系統(tǒng)的工作方式,使模型智能篩選信息,重視關(guān)鍵內(nèi)容而忽略冗余。通過分配注意力權(quán)重,引導(dǎo)模型深度挖掘重要細節(jié),從而顯著提升處理精度與效率,優(yōu)化整體性能。
CA(Coordinate Attention)注意力機制[8]是一種深度學(xué)習(xí)中的創(chuàng)新技術(shù),旨在提升模型對輸入數(shù)據(jù)的空間結(jié)構(gòu)理解。它通過將精確的位置信息編碼到神經(jīng)網(wǎng)絡(luò)中,使模型能夠更好地捕捉輸入特征圖的空間關(guān)系,并強化對通道依賴性的建模。CA注意力機制的關(guān)鍵理念是把通道的注意力分解為兩個1D特征編碼過程,按照兩個不同的空間方向聚合特征,從而有效整合空間坐標(biāo)信息到生成的注意力圖中。通過這種方式,模型可以更加關(guān)注關(guān)鍵區(qū)域,提高特征表示能力,進而提升目標(biāo)檢測、圖像分類等任務(wù)的性能。CA注意力模塊如圖2所示。
教室環(huán)境具有較強的復(fù)雜性,背景復(fù)雜、遮擋嚴重、小目標(biāo)占比高,不同行為之間存在相似性和差異性,使得YOLOv7檢測識別學(xué)生課堂行為的能力有限。由于YOLOv7的網(wǎng)格劃分策略,小目標(biāo)的特征信息容易被背景噪聲淹沒,導(dǎo)致檢測不穩(wěn)定甚至漏檢。CA注意力機制可以幫助模型更好地理解輸入數(shù)據(jù)的關(guān)聯(lián)性和重要性,從而提高模型的性能。通過加權(quán)處理輸入數(shù)據(jù),模型能夠更精準(zhǔn)地關(guān)注與當(dāng)前任務(wù)相關(guān)的信息。將CA注意力機制引入YOLOv7可以彌補其在復(fù)雜背景下對小目標(biāo)檢測的不足,進一步提升模型的整體性能和適用性。
2" 基于注意力機制的學(xué)生課堂行為識別
2.1" 學(xué)生課堂行為數(shù)據(jù)集
目前并無可用的學(xué)生課堂行為公開數(shù)據(jù)集。本文通過參考經(jīng)典行為數(shù)據(jù)集及他人對學(xué)生課堂行為的研究[9-10],構(gòu)建了一個適用于教學(xué)場景目標(biāo)和學(xué)生課堂行為研究的數(shù)據(jù)集。
1)數(shù)據(jù)采集。數(shù)據(jù)源自真實課堂環(huán)境,全面覆蓋了不同學(xué)生在各類課程中的行為狀態(tài)變遷。通過考慮人數(shù)、學(xué)科及教室布局的差異,實施多次拍攝,旨在廣泛捕捉學(xué)生行為的多樣性。同時,針對人數(shù)密度、遮擋程度及拍攝時段的變化,進行重復(fù)數(shù)據(jù)采集,確保樣本的豐富性與代表性,從而更加精準(zhǔn)地反映學(xué)生課堂行為的全貌。
2)數(shù)據(jù)處理。處理學(xué)生行為數(shù)據(jù)時,精選高質(zhì)量圖像以表征典型行為。鑒于行為連續(xù)性,相鄰幀差異細微,故采取每5秒一幀的采樣策略,減少冗余,確保圖像樣本的多樣性和代表性。然后清洗數(shù)據(jù),去除已損壞圖像、模糊圖像以及相似圖像。
3)數(shù)據(jù)標(biāo)注。將學(xué)生行為劃分為raise_head(抬頭)、bow_head(低頭)、turn_head(轉(zhuǎn)頭)、play_phone(玩手機)、read_write(讀寫)、sleep(睡覺)。按照各類行為的標(biāo)準(zhǔn),使用圖像標(biāo)注工具LabelImg對課堂圖像進行標(biāo)注。
該數(shù)據(jù)集共包含1 903張課堂圖像,并按照3:1:1 的比例劃分訓(xùn)練集、驗證集和測試集,分別包含1 146張、379張、378張圖像。其中,訓(xùn)練集用于訓(xùn)練模型,以擬合數(shù)據(jù)特征;驗證集用于優(yōu)化模型配置,包括調(diào)整超參數(shù),并快速反饋訓(xùn)練過程中的潛在問題;而測試集獨立存在,專門用于評估訓(xùn)練完成的模型在未見數(shù)據(jù)上的泛化效果。
2.2" 實驗環(huán)境
實驗過程中,嚴格控制實驗條件,確保所有對比實驗均在相同參數(shù)設(shè)置下進行,以消除外部變量對結(jié)果的干擾。所有實驗依托Windows 10操作系統(tǒng),以Python 3.9作為編程語言,框架技術(shù)為PyTorch,加速環(huán)境為CUDA 11.3,GPU為NVIDIA GeForce RTX 3060,顯存大小為6 GB。模型參數(shù)如表1所示。
2.3" 評價指標(biāo)
目標(biāo)檢測任務(wù)中,常用準(zhǔn)確率(Accuracy)、精確率(Precision)、查全率(Recall)、F1分數(shù)(F1-score)、AP(Average Precision)、mAP(mean Average Precision)等作為評價指標(biāo)。其中,AP是不同Recall下Precision的均值,能夠有效評價模型對數(shù)據(jù)集中每一類的檢測效果;mAP則是AP的平均值,用于評估模型在圖像中識別和定位特定類別對象的能力。AP是針對單一類別計算得出,而mAP是所有類別AP的平均值。mAP值越高,表明模型在所有類別上的平均性能越好,本文采用mAP作為主要評價指標(biāo)。
2.4" 實驗結(jié)果和分析
本文將CA注意力模塊與目標(biāo)檢測模型YOLOv7相結(jié)合,構(gòu)建了新的學(xué)生行為識別模型——YL7CA。該模型充分利用YOLOv7快速檢測的特點與優(yōu)勢,在保證對學(xué)生行為進行實時檢測的同時,進一步提升了模型對學(xué)生行為重要特征的關(guān)注度,增強了模型在復(fù)雜環(huán)境下提取目標(biāo)特征的能力。此外,CA注意力模塊通過捕獲長距離依賴性和有效整合空間坐標(biāo)信息,增強了特征表示能力,提高了模型對關(guān)鍵信息的敏感度,能夠捕捉到學(xué)生行為中的細微差異和變化,從而提升了學(xué)生課堂行為識別的準(zhǔn)確性和效率。YL7CA模型結(jié)構(gòu)如圖3所示。
為使模型充分學(xué)習(xí)學(xué)生課堂的各類行為特征,以適應(yīng)復(fù)雜多變的課堂環(huán)境,在模型訓(xùn)練階段,將訓(xùn)練迭代次數(shù)設(shè)置為500次。圖4直觀展示了引入CA注意力模塊后,模型訓(xùn)練過程中幾個關(guān)鍵性能指標(biāo)的變化趨勢。
隨著訓(xùn)練迭代的不斷推進,邊框回歸損失(Bounding Box Regression Loss)顯著下降,這意味著模型在逐步優(yōu)化其預(yù)測邊界框與目標(biāo)真實邊界框之間的匹配程度,使預(yù)測結(jié)果更加精準(zhǔn)。同時,定位損失(Objectness Loss)也呈穩(wěn)步減少趨勢,反映出模型區(qū)分和定位不同課堂行為區(qū)域的能力在不斷增強。分類損失(Classification Loss)同樣顯著下降,標(biāo)志著模型識別不同類別課堂行為的性能在持續(xù)改善。
綜上所述,圖4所示的模型損失變化趨勢,不僅驗證了CA注意力模塊在提升學(xué)生課堂行為識別模型性能方面的有效性,還表明通過增加訓(xùn)練迭代次數(shù)、優(yōu)化模型結(jié)構(gòu)等方式,可以顯著提升模型的學(xué)習(xí)能力和泛化能力。
本文深入探究了模型優(yōu)化后對學(xué)生課堂行為識別精度的提升效果,尤其是在多樣化教室環(huán)境背景下,優(yōu)化后的模型對學(xué)生課堂行為識別的影響。系統(tǒng)評估了YOLOv7和YL7CA兩種模型在不同課堂場景下的行為識別性能,模型改進前后的實驗結(jié)果如表2所示。
由表2可知,原模型YOLOv7對raise_head、bow_head、turn_head、play_phone、read_write、sleep的檢測精度分別為95.4%、96.7%、87.8%、86.9%、87.5%和90.5%;YL7CA對這六類學(xué)生課堂行為的檢測精度分別為96.7%、98.2%、89.2%、89.1%、90.8%和91.8%,YL7CA對每類學(xué)生課堂行為的檢測效果均優(yōu)于YOLOv7。
從實驗結(jié)果來看,添加CA注意力模塊的YL7CA模型檢測效果更佳。YOLOv7的檢測精度為90.8%,YL7CA的檢測精度達到92.6%,其平均精度比原模型高出1.8%,且對各類學(xué)生課堂行為的檢測效果均有提升,其中,bow_head、play_phone、read_write的精度分別提升1.5%、2.2%、3.3%。由此可見,YL7CA模型能夠有效檢測學(xué)生在課堂上的各類行為,驗證了CA注意力機制在處理復(fù)雜背景噪聲、增強特征表達能力方面的有效性,在提升學(xué)生課堂行為識別任務(wù)中具有顯著成效。
3" 結(jié)" 論
本文首先構(gòu)建了相關(guān)數(shù)據(jù)集,解決了數(shù)據(jù)難題;其次,在YOLOv7的基礎(chǔ)上提出了新的學(xué)生課堂行為識別模型——YL7CA。該模型融合了CA注意力模塊,探究了注意力機制在復(fù)雜環(huán)境下提升學(xué)生課堂行為識別精度的有效性。實驗結(jié)果表明,YL7CA對學(xué)生課堂行為的識別效果最優(yōu),與YOLOv7相比,mAP提升1.8%,且對各類學(xué)生課堂行為的檢測效果均有提升。
參考文獻:
[1] 中共中央國務(wù)院印發(fā)《中國教育現(xiàn)代化2035》 [N].人民日報,2019-02-24(001).
[2] 舒杭,顧小清.數(shù)智時代的教育數(shù)字化轉(zhuǎn)型:基于社會變遷和組織變革的視角 [J].遠程教育雜志,2023,41(2):25-35.
[3] 黃勇康,梁美玉,王笑笑,等.基于深度時空殘差卷積神經(jīng)網(wǎng)絡(luò)的課堂教學(xué)視頻中多人課堂行為識別 [J].計算機應(yīng)用,2022,42(3):736-742.
[4] 張小妮,張真真.基于YOLOv5和多尺度特征融合的學(xué)生行為研究 [J].現(xiàn)代信息科技,2023,7(8):96-98+102.
[5] 沈西挺,于晟,董瑤,等.基于深度學(xué)習(xí)的人體動作識別方法 [J].計算機工程與設(shè)計,2020,41(4):1153-1157.
[6] 姜權(quán)晏,吳小俊,徐天陽.用于骨架行為識別的多維特征嵌合注意力機制 [J].中國圖象圖形學(xué)報,2022,27(8):2391-2403.
[7] WANG C Y,BOCHKOVSKIY A,LIAO H Y M. YOLOv7: Trainable Bag-of-Freebies Sets New State-of-the-Art for Real-Time Object Detectors [J/OL].arXiv:2207.02696 [cs.CV].[2024-07-25].https://arxiv.org/abs/2207.02696.
[8] HOU Q B,ZHOU D Q,F(xiàn)ENG J S. Coordinate Attention for Efficient Mobile Network Design [C]//2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).Nashville:IEEE,2021:13708-13717.
[9] 白捷,高海力,王永眾,等.基于多路特征融合的Faster R-CNN與遷移學(xué)習(xí)的學(xué)生課堂行為檢測 [J].廣西師范大學(xué)學(xué)報:自然科學(xué)版,2020,38(5):1-11.
[10] 張小妮.基于深度學(xué)習(xí)的課堂環(huán)境下學(xué)生行為檢測與分析 [D].鄭州:華北水利水電大學(xué),2023.
作者簡介:張小妮(1996-),女,漢族,河南周口人,碩士研究生,研究方向:大數(shù)據(jù)與云計算。
收稿日期:2024-08-16
基金項目:河南省科技攻關(guān)(242102211054)