摘要: 針對(duì)學(xué)生行為檢測(cè)算法準(zhǔn)確率不高、易出現(xiàn)漏檢誤檢問(wèn)題,文章提出了一種改進(jìn)的RI-YOLO學(xué)生行為檢測(cè)算法。該算法通過(guò)引入感受野注意力卷積(Receptive-Field Attention Convolution, RFAConv)對(duì)C3模塊進(jìn)行優(yōu)化,提出新型的RFAC3模塊,可以更精確地捕捉細(xì)微的局部特征,提升網(wǎng)絡(luò)特征提取能力。此外,采用基于輔助邊框的交并比(Intersection over Union,IoU)損失函數(shù)Inner-IoU替代傳統(tǒng)損失函數(shù),加速模型的收斂速度。在學(xué)生課堂行為數(shù)據(jù)集SCB-Dataset3上驗(yàn)證表明,RI-YOLO平均精度mAP50較YOLOv5提升了1.5%,mAP50:95提升了1.2%,與其他主流檢測(cè)模型對(duì)比,展示出了優(yōu)異檢測(cè)效果。
關(guān)鍵詞:目標(biāo)檢測(cè);學(xué)生行為;RFAC3;輔助邊框;平均精度
中圖分類號(hào):TP391.4" 文獻(xiàn)標(biāo)志碼:A
0 引言
近年來(lái),隨著大數(shù)據(jù)、深度學(xué)習(xí)等技術(shù)的快速發(fā)展,人工智能技術(shù)在多個(gè)領(lǐng)域取得了突破性進(jìn)展,尤其是教育領(lǐng)域,人工智能技術(shù)得到了廣泛應(yīng)用[1]。通過(guò)利用基于深度學(xué)習(xí)的目標(biāo)檢測(cè)技術(shù)對(duì)學(xué)生在課堂上的行為進(jìn)行檢測(cè),可以獲取學(xué)生課堂狀態(tài)和學(xué)習(xí)表現(xiàn)的信息,進(jìn)而為教育者提供有價(jià)值的數(shù)據(jù)支持,幫助他們更好地調(diào)整教學(xué)策略,從而提升教學(xué)效率和課堂管理效果。對(duì)于學(xué)生而言,了解每個(gè)學(xué)生的具體行為模式有助于提供個(gè)性化的學(xué)習(xí)支持,確保每個(gè)學(xué)生都能獲得適合自己的教學(xué)方案??偟膩?lái)說(shuō),利用目標(biāo)檢測(cè)技術(shù)對(duì)學(xué)生課堂行為進(jìn)行檢測(cè),將有助于智慧課堂的建設(shè),對(duì)于教師教學(xué)和學(xué)生個(gè)性化學(xué)習(xí)都有積極影響。
對(duì)于學(xué)生行為檢測(cè),國(guó)內(nèi)外許多學(xué)者已經(jīng)做出了大量研究。劉新運(yùn)等[2]設(shè)計(jì)多尺寸輸出神經(jīng)網(wǎng)絡(luò)并使用聚類方法生成預(yù)選框,采用兩段式訓(xùn)練策略對(duì)學(xué)生課堂行為進(jìn)行了有效檢測(cè)。賀子琴等[3]基于YOLOv5(You Only Look Once version 5)設(shè)計(jì)了基于學(xué)生課堂行為分析系統(tǒng),利用自訓(xùn)練的權(quán)重模型對(duì)圖像分類識(shí)別,實(shí)現(xiàn)了學(xué)生課堂行為的智能檢測(cè)。夏道勛等[4]通過(guò)引入全局視覺(jué)顯著性機(jī)制和基于二值范數(shù)化梯度(Binarized Normed Gradients,BING)特征,采用Faster-RCNN(Faster Region-based Convolutional Neural Network)模型和時(shí)空網(wǎng)絡(luò)算法實(shí)現(xiàn)了對(duì)多種典型學(xué)生課堂行為進(jìn)行檢測(cè)和識(shí)別。曾鈺琦等[5]創(chuàng)建了一個(gè)學(xué)生課堂行為數(shù)據(jù)集,提出了一種基于改進(jìn) YOLOv8的學(xué)生課堂行為檢測(cè)算法,進(jìn)一步通過(guò)實(shí)驗(yàn)證明了改進(jìn)方法的有效性。
然而,現(xiàn)有目標(biāo)檢測(cè)算法在復(fù)雜背景下密集的學(xué)生檢測(cè)中準(zhǔn)確率較低,容易出現(xiàn)漏檢和誤檢。學(xué)生目標(biāo)密集、學(xué)生姿態(tài)多樣、檢測(cè)背景復(fù)雜等問(wèn)題都對(duì)學(xué)生行為檢測(cè)的準(zhǔn)確度帶來(lái)了影響。為了解決上述問(wèn)題,本研究提出了一種改進(jìn)的RI-YOLO檢測(cè)算法,以提高對(duì)課堂學(xué)生行為的檢測(cè)精度,有效減少誤檢和漏檢。
1 原理與方法
1.1 RI-YOLO網(wǎng)絡(luò)結(jié)構(gòu)
YOLOv5是一種單階段目標(biāo)檢測(cè)算法,它汲取了許多優(yōu)秀網(wǎng)絡(luò)結(jié)構(gòu)的優(yōu)點(diǎn),確保高檢測(cè)精度的同時(shí)還能維持較高的檢測(cè)速度,能夠?qū)崿F(xiàn)實(shí)時(shí)檢測(cè)目標(biāo)[6]。YOLOv5根據(jù)不同的網(wǎng)絡(luò)深度分為s、m、l和x 4種,考慮到參數(shù)量和檢測(cè)精度上的平衡,本文選擇在YOLOv5s基礎(chǔ)上進(jìn)行研究。
原始 YOLOv5s算法在對(duì)學(xué)生檢測(cè)中有精度不高、易發(fā)生漏檢或誤檢等問(wèn)題。針對(duì)這些問(wèn)題,本研究在YOLOv5s基礎(chǔ)上進(jìn)行了改進(jìn),在特征融合階段,利用感受野注意力卷積[7]結(jié)合C3(CSP Bottleneck with 3 Convolutions)模塊生成全新的RFAC3模塊,網(wǎng)絡(luò)能更有效地理解和處理圖像中的局部區(qū)域,從而提高特征提取的精確性,得到更全面的特征信息。其次采用Inner-IoU輔助邊界框損失,使用不同尺寸的輔助邊框,進(jìn)一步加快收斂過(guò)程,改善目標(biāo)的檢測(cè)效果。通過(guò)上述改進(jìn),RI-YOLO相比于原始YOLOv5s網(wǎng)絡(luò)的整體檢測(cè)效果得到大幅提升。RI-YOLO結(jié)構(gòu)如圖 1所示。
1.2 融合感受野注意力的RFAC3
在原始的YOLOv5特征融合網(wǎng)絡(luò)中,C3模塊對(duì)有遮擋情況的目標(biāo)檢測(cè)效果較差,因此本研究引入感受野注意力卷積改進(jìn)原有C3模塊,提出全新的RFAC3模塊,提高網(wǎng)絡(luò)性能,感受野注意力卷積的結(jié)構(gòu)如圖 2 所示。
相較于傳統(tǒng)卷積,RFAConv使用了交互感受野特征信息的方法,網(wǎng)絡(luò)能更有效地理解和處理圖像不同區(qū)域的信息,從而提升網(wǎng)絡(luò)在復(fù)雜場(chǎng)景下的表現(xiàn)。在傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)中,卷積核在處理不同區(qū)域的圖像時(shí)共享同樣的參數(shù),這可能限制了模型對(duì)于復(fù)雜模式的學(xué)習(xí)能力,而RFAConv通過(guò)引入感受野注意力機(jī)制,動(dòng)態(tài)地為不同的感受野分配不同的卷積核參數(shù),從而更好地捕捉不同區(qū)域的信息特征,解決了卷積核參數(shù)共享導(dǎo)致的局限性。利用RFAConv得到改進(jìn)后的RFAC3,不僅解決了卷積核參數(shù)共享的問(wèn)題,還充分考慮了感受野中每個(gè)特征在全局中的重要性,使改進(jìn)后的網(wǎng)絡(luò)在識(shí)別和定位目標(biāo)時(shí)更加精準(zhǔn)[7]。
1.3 基于輔助邊框的IoU損失
現(xiàn)有的基于IoU的邊框回歸方法通常通過(guò)引入新的損失項(xiàng)來(lái)加速收斂,但忽略了IoU損失本身的局限性。為此,本研究引入了輔助邊框損失函數(shù)Inner-IoU Loss[8],利用輔助邊框來(lái)計(jì)算IoU損失,針對(duì)不同的回歸樣本使用不同尺度的輔助邊界框,從而有效加速邊界框回歸過(guò)程。Inner-IoU描述如圖3所示。
如圖3所示,Inner-IoU定義如下:
blgt=xcgt-wgt×ratio2,brgt=xcgt-wgt×ratio2(1)
btgt=ycgt-hgt×ratio2,bbgt=ycgt-hgt×ratio2(2)
br=xc-w×ratio2,bl=xc-w×ratio2(3)
bt=yc-h×ratio2,bb=yc-h×ratio2(4)
inter=(min(brgt,br)-max(blgt,bl)×(min(bbgt,bb)-max(btgt,bt))(5)
union=(wgthgt)×(ratio)2+(wh)×(ratio)2-inter(6)
IoUinner=interunion(7)
其中,bgt和b分別為真實(shí)框和預(yù)測(cè)框;xgtc和ygtc為真實(shí)框的中心坐標(biāo)點(diǎn);xc和yc為預(yù)測(cè)框的中心坐標(biāo)點(diǎn);bgtt、bgtr、bgtt和bgtb分別為真實(shí)框的左、右、上、下邊界;bl、br、bt和bb分別為預(yù)測(cè)框的左、右、上、下邊界;w、h、wgt、hgt分別為預(yù)測(cè)框和真實(shí)框的寬和高;inter為預(yù)測(cè)框與真實(shí)框的重疊區(qū)域;union為兩者的總覆蓋區(qū)域。
Inner-IoU應(yīng)用至現(xiàn)有基于IoU的邊框回歸損失函數(shù)中,則Linner-CIoU被定義為:
Linner-IoU=1-IoUinner(8)
Linner-CIoU=LCIoU+IoU-IoUinner(9)
相比于其他損失函數(shù),Inner-IoU Loss更加關(guān)注邊界框的核心部分,能夠?qū)χ丿B區(qū)域提供更精確的評(píng)估。當(dāng)尺度因子ratio小于1時(shí),輔助邊框小于實(shí)際邊框,此時(shí)回歸范圍小于標(biāo)準(zhǔn)IoU損失,但由于梯度較大,可以加速高IoU損失情況下的收斂。相反,當(dāng)ratio大于1時(shí),輔助邊框的尺度較大,擴(kuò)展了回歸范圍,有助于低IoU情況下的回歸優(yōu)化。
2 實(shí)驗(yàn)結(jié)果與分析
2.1 數(shù)據(jù)集與評(píng)價(jià)指標(biāo)
實(shí)驗(yàn)采用的數(shù)據(jù)集為Yang等[9]制作的學(xué)生課堂行為(Student Classroom Behavior Datasets, SCB-Dataset)數(shù)據(jù)集。該數(shù)據(jù)集從不同角度(包括正面、側(cè)面和背面)收集了真實(shí)的學(xué)生課堂行為圖像。其中,SCB-Dataset3數(shù)據(jù)集包含5686張圖像和45578個(gè)標(biāo)簽,涵蓋了6種學(xué)生行為:舉手、閱讀、寫(xiě)作、使用電話、低頭以及俯身在桌上,這些行為數(shù)據(jù)涵蓋了從幼兒園到大學(xué)的學(xué)生群體。SCB-Dataset3數(shù)據(jù)集相比于前2個(gè)版本(SCB-Dataset1和SCB-Dataset2),在學(xué)生行為種類和場(chǎng)景豐富性上有顯著提升。
本研究采用的評(píng)價(jià)指標(biāo)有準(zhǔn)確率(Precision, P)、召回率(Recall, R)、平均準(zhǔn)確率均值(Mean Average Precision, mAP)。P 表示精度,衡量預(yù)測(cè)為正樣本的準(zhǔn)確性;R 表示召回率,衡量識(shí)別出的正樣本比例;mAP 代表所有類別的平均精度。
2.2 消融實(shí)驗(yàn)分析
為更好地評(píng)估改進(jìn)結(jié)構(gòu)對(duì)模型整體性能的貢獻(xiàn),本研究進(jìn)行了消融實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表1所示。從改進(jìn)點(diǎn)的消融實(shí)驗(yàn)可以看出,編號(hào)2的實(shí)驗(yàn)中采用了RFAC3模塊,與原始YOLOv5(編號(hào)1)相比,加入RFAC3后的網(wǎng)絡(luò)模型mAP@0.5提升了0.9%,這表明RFAC3模塊的引入增強(qiáng)了網(wǎng)絡(luò)對(duì)復(fù)雜背景特征信息的提取能力,使得模型在處理圖像時(shí)更加高效。編號(hào)3表示將 CIoU損失函數(shù)替換為 Inner-IoU,其引入尺度因子 ratio 控制輔助邊界框的尺寸,加速模型的收斂速度,mAP 相較原模型提高了 0.7%。編號(hào)4為改進(jìn)后的RI-YOLO模型,通過(guò)結(jié)合2個(gè)模塊的共同作用,相較于原始YOLOv5s平均精度mAP50提升了1.5%,mAP50:95提升了1.2%。
2.3 不同模型對(duì)比試驗(yàn)
為了進(jìn)一步證明 RI-YOLO 在學(xué)生行為檢測(cè)中的優(yōu)勢(shì),本研究在SCB-Dataset3數(shù)據(jù)集上與現(xiàn)有綜合性能較高的目標(biāo)檢測(cè)模型進(jìn)行了對(duì)比實(shí)驗(yàn),包括 Faster R-CNN、SSD、YOLOv3-tiny、YOLOv5s、YOLOv7-tiny和 YOLOv8n檢測(cè)算法,實(shí)驗(yàn)結(jié)果如表2 所示。通過(guò)表2中數(shù)據(jù)可以看出,RI-YOLO與幾種主流模型對(duì)比,平均精度mAP50分別提升了3.2%、1.6%、2.1%、1.5%、1.2%、2.3%,進(jìn)一步驗(yàn)證了RI-YOLO模型在學(xué)生行為檢測(cè)問(wèn)題上的優(yōu)越性和可行性。
RI-YOLO 在 SCB-Dataset3 數(shù)據(jù)集上的檢測(cè)效果如圖 4所示。由圖4可以看出,本研究中學(xué)生場(chǎng)景非常豐富,涵蓋了從小學(xué)到中學(xué)的各類課堂場(chǎng)景,人員密度很大,傳統(tǒng)YOLOv5s 容易出現(xiàn)誤檢或漏檢問(wèn)題,而通過(guò)RI-YOLO則增強(qiáng)了對(duì)學(xué)生行為的檢測(cè)能力。
3 結(jié)語(yǔ)
針對(duì)現(xiàn)有目標(biāo)檢測(cè)算法在對(duì)學(xué)生行為檢測(cè)中準(zhǔn)確率不高、易出現(xiàn)漏檢誤檢等問(wèn)題,本研究提出了一種基于YOLOv5s的改進(jìn)RI-YOLO學(xué)生行為檢測(cè)算法。首先,結(jié)合感受野注意力卷積RFAConv與C3模塊,提出了全新的RFAC3模塊,使網(wǎng)絡(luò)能夠更加有效地理解和處理圖像中的局部區(qū)域。然后利用Inner-IoU 的輔助邊框計(jì)算IoU損失,對(duì)于不同的回歸樣本使用不同尺度的輔助邊界框來(lái)計(jì)算損失,有效加速了邊界框回歸過(guò)程。通過(guò)在SCB-Datase3數(shù)據(jù)集上進(jìn)行試驗(yàn),RI-YOLO平均精度 mAP50值達(dá)到 85.7%,達(dá)到預(yù)期要求,有效緩解了傳統(tǒng)檢測(cè)算法對(duì)目標(biāo)密集、姿態(tài)多樣、遮擋率較高的學(xué)生行為檢測(cè)效果較差的難題,證明了改進(jìn)方法的有效性。
參考文獻(xiàn)
[1]陶施帆.人工智能技術(shù)在計(jì)算機(jī)網(wǎng)絡(luò)教育中的應(yīng)用探討[J].通訊世界,2024(9):55-57.
[2]劉新運(yùn),葉時(shí)平,張登輝.改進(jìn)的多目標(biāo)回歸學(xué)生課堂行為檢測(cè)方法[J].計(jì)算機(jī)工程與設(shè)計(jì),2020(9):2684-2689.
[3]賀子琴,黃文輝,肖嘉彥,等.基于YOLOv5的學(xué)生課堂行為分析系統(tǒng)設(shè)計(jì)[J].電腦知識(shí)與技術(shù),2023(26):19-22.
[4]夏道勛,田星瑜,唐勝男.基于視覺(jué)注意力的學(xué)生課堂行為分析[J].貴州師范大學(xué)學(xué)報(bào)(自然科學(xué)版),2021(4):83-89.
[5]曾鈺琦,劉博,鐘柏昌,等.智慧教育下基于改進(jìn)YOLOv8的學(xué)生課堂行為檢測(cè)算法[J].計(jì)算機(jī)工程,2024(9):344-355.
[6]井方科,任紅格,李松.基于多尺度特征融合的小目標(biāo)交通標(biāo)志檢測(cè)[J].激光與光電子學(xué)進(jìn)展,2024(12):372-380.
[7]ZHANG X, LIU C, YANG D, et al. RFAConv: innovating spatital attention and standard convolutional operation [EB/OL]. (2023-04-03) [2024-10-02]. http://arxiv.org/abs/2304.03198.
[8]ZHANG H, XU C, ZHANG S J. Inner-IoU: more effective intersection over union loss with auxiliary bounding box [EB/OL]. (2023-11-14) [2024-10-02]. http://arxiv.org/abs/2311.02877.
[9]YANG F, WANG T. SCB-Dataset3: a benchmark for detecting student classroom behavior [EB/OL]. (2023-08-04) [2024-10-03]. http://arxiv.org/abs/2310.02522.
(編輯 王永超編輯)
Student behavior detection algorithm based on RI-YOLO
NIU" Zegang1, ZHAO" Yulan1,2*
(1.Jilin Institute of Chemical Technology, Jilin 132022, China; 2.Jilin Agricultural Science and
Technology University, Jilin 132101, China)
Abstract:" To address the issues of low accuracy in student behavior detection algorithms, which often lead to missed detections and 1 positives, the article proposes an improved student behavior detection algorithm based on YOLOv5s called RI-YOLO. The algorithm optimizes the C3 module by introducing Receptive-Field Attention Convolution (RFAConv), proposing a new RFAC3 module that can more accurately capture subtle local features, thereby enhancing the network’s feature extraction capabilities. Additionally, it adopts an Inner-IoU loss function based on auxiliary bounding boxes to replace traditional loss functions, accelerating the convergence speed of the model. Testing on the student classroom behavior dataset SCB-Dataset3 shows that RI-YOLO improves mean average precision (mAP50) by 1.5% compared to YOLOv5, and mAP50:95 by 1.2%, demonstrating superior detection performance when compared with other mainstream detection models.
Key words: object detection; student behavior; RFAC3; auxiliary bounding box; mean average precision