王澤杰 沈超敏 趙春 劉新妹 陳杰
摘要: 在課堂教學(xué)中 , 人工智能技術(shù)可以幫助實(shí)現(xiàn)學(xué)生行為分析自動化 , 讓教師能夠高效且直觀地掌握學(xué)生學(xué)習(xí)行為投入的情況 , 為后續(xù)優(yōu)化教學(xué)設(shè)計與實(shí)施教學(xué)干預(yù)提供數(shù)據(jù)支持.構(gòu)建了學(xué)生課堂行為數(shù)據(jù)集 , 為后續(xù)研究工作提供了數(shù)據(jù)基礎(chǔ);提出了一種行為檢測方法及一套可行的高精度的行為識別模型 , 利用 OpenPose 算法提取的人體姿態(tài)全局特征 , 融合 YOLO v3算法提取的交互物體局部特征 , 對學(xué)生行為進(jìn)行了識別分析 , 提高了識別精度;改進(jìn)了模型結(jié)構(gòu) , 壓縮并優(yōu)化了模型 , 降低了空間與時間的消耗. 選取與學(xué)習(xí)投入狀態(tài)緊密相關(guān)的4 種行為:正坐、側(cè)身、低頭和舉手進(jìn)行識別 , 該檢測與識別方法在驗(yàn)證集上的精度達(dá)到了95.45%, 在課堂上玩手機(jī)和書寫等常見行為的識別精度較原模型有很大的提高.
關(guān)鍵詞:學(xué)習(xí)行為識別;? 人體姿態(tài)估計;目標(biāo)檢測;? 計算機(jī)視覺;? 深度學(xué)習(xí)
中圖分類號: TP391.1??? 文獻(xiàn)標(biāo)志碼: ADOI:10.3969/j.issn.1000-5641.2022.02.007
Recognition of classroom learning behaviors based on the fusion of human pose estimation and object detection
WANG Zejie1,2 ,? SHEN Chaomin1,2 ,? ZHAO Chun3,4 ,? LIU Xinmei1,2 ,? CHEN Jie1,2
(1. School of Computer Science and Technology, East China Normal University, Shanghai? 200062, China;2. Shanghai Key Laboratory of Multidimensional Information Processing, East China Normal University,Shanghai? 200241, China;3. Information Technology Service, East China NormalUniversity, Shanghai? 200062, China;4. Department of Education InformationTechnology, East China Normal University, Shanghai? 200062, China)
Abstract: As a result of ongoing advances in artificial intelligence technology, the potential for learning analysis in teaching evaluation and educational data mining is gradually being recognized. In classrooms, artificial intelligence technology can help to enable automated student behavior analysis, so that teachers can effectively and intuitively grasp students’ learning behavior engagement; the technology, moreover, can provide data to support subsequent improvements in learning design and implementation of teaching interventions. The main scope of the research is as follows: Construct a classroom student behavior dataset that provides a basis for subsequent research; Propose a behavior detection method and a set of feasible, high-precision behavior recognition models. Based on the global features of the human posture extractedfrom the Openpose algorithm and the local features of the interactive objects extracted by the YOLO v3 algorithm, student behavior can be identified and analyzed to help improve recognition accuracy; Improve the model structure, compress and optimize the model, and reduce the consumption of computing power and time. Four behaviors closely related to the state of learning engagement: listening, turning sideways, bowing, and raising hands are recognized. The accuracy of the detection and recognition method on the verification set achieves 95.45%. The recognition speed and accuracy of common behaviors, such as playing with mobile phones and writing, are greatly improved compared to the original model.
Keywords: learning behavior recognition; pose estimation; object detection; computer vision; deep learning
0? 引言
隨著政府、教育部門與學(xué)術(shù)認(rèn)證機(jī)構(gòu)開始鼓勵學(xué)校塑造以證據(jù)為本的決策與革新制度 , 學(xué)習(xí)分析技術(shù)在決策輔助與教學(xué)評估等層面都展現(xiàn)出了很大的優(yōu)勢. 在融入了人工智能、機(jī)器學(xué)習(xí)中的相關(guān)算法與技術(shù)后 , 學(xué)習(xí)分析達(dá)到了更高的分析精度.
學(xué)生的學(xué)習(xí)投入度能夠幫助學(xué)校更好地認(rèn)識學(xué)生學(xué)習(xí)的質(zhì)量. 評價一所大學(xué)教育質(zhì)量的核心要素就是學(xué)生的學(xué)習(xí)投入程度[1]. 學(xué)生課堂行為作為學(xué)習(xí)投入的重要組成部分 , 一直以來備受研究者的關(guān)注.傳統(tǒng)的學(xué)生課堂行為評價是以人工觀察記錄實(shí)現(xiàn)的 , 效率低下.在人工智能蓬勃發(fā)展的今天 , 嘗試著借助人工智能技術(shù)來改善這一現(xiàn)狀. 了解學(xué)生在課堂學(xué)習(xí)過程中的學(xué)習(xí)行為、學(xué)習(xí)狀態(tài)已成為目前教育發(fā)展的重要課題 , 將推動教育分析系統(tǒng)智能、高效、全面發(fā)展.
為了推動學(xué)生課堂行為數(shù)據(jù)采集方法的創(chuàng)新 , 本研究選取安裝了攝像設(shè)備的6 間教室 , 在計算機(jī)視覺技術(shù)的支撐下分析課堂教學(xué)視頻 , 為教師掌握學(xué)生的學(xué)習(xí)投入狀態(tài)、優(yōu)化教學(xué)設(shè)計、實(shí)施教學(xué)干預(yù)提供數(shù)據(jù)支撐.
鑒于目前尚無公開的學(xué)生課堂行為數(shù)據(jù)集 , 本文采集了6 間教室的視頻數(shù)據(jù) , 并對該數(shù)據(jù)進(jìn)行處理 , 制作數(shù)據(jù)集.基于計算機(jī)視覺技術(shù) , 提出了一套多階段的學(xué)生課堂行為識別方法.因?yàn)閷W(xué)生的課堂行為動作幅度變化不大 , 且在視頻圖像中 , 學(xué)生與學(xué)生之間會產(chǎn)生重疊遮擋現(xiàn)象 , 這都給行為識別造成了不小的困難. 利用 OpenPose[1]人體關(guān)鍵點(diǎn)檢測算法 , 獲取學(xué)生關(guān)鍵點(diǎn)數(shù)據(jù) , 輸入卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行學(xué)習(xí) , 得到姿態(tài)分類器 , 能夠?qū)崿F(xiàn)對學(xué)生低頭、正坐、側(cè)身和舉手行為的識別分類. 另外 , 學(xué)生課堂行為常常與交互物體緊密相關(guān) , 例如玩手機(jī)、書寫行為. 這2 種行為提取的人體關(guān)節(jié)圖相似, 無法直接使用骨骼關(guān)鍵點(diǎn)來判斷 , 所以在進(jìn)行這2種行為識別時 , 將手部區(qū)域作為行為識別最關(guān)鍵的語義信息.現(xiàn)有模型加載和處理速度較慢 , 難以實(shí)現(xiàn)對學(xué)生課堂行為的實(shí)時檢測 , 本文利用模型剪枝的 YOLO v3[2]算法進(jìn)行手部檢測 , 融合人體姿態(tài)信息后進(jìn)行級聯(lián)分類網(wǎng)絡(luò) , 實(shí)現(xiàn)對玩手機(jī)和書寫行為的實(shí)時檢測 .本文實(shí)驗(yàn)基于學(xué)生在課堂教學(xué)中表現(xiàn)的真實(shí)視頻數(shù)據(jù) , 對算法模型的準(zhǔn)確性和處理速度進(jìn)行了評估, 得到了較好的結(jié)果.
1? 文獻(xiàn)綜述
人體行為按照復(fù)雜程度可分為4 類 , 分別是姿態(tài)、個體動作、交互動作和團(tuán)體活動[3]. 姿態(tài)是人體基礎(chǔ)部分的移動 , 如舉手、站立.此類行為復(fù)雜程度最低.個體動作是多個姿態(tài)的組合, 如跑步、跳高等行為[1]. 交互動作包括人和人之間以及人和物體之間 , 如玩手機(jī)、握手等.團(tuán)體活動是指在一個場景中包含多個人和多個物體的活動 , 如會議室開會、馬拉松比賽等.課堂場景下學(xué)生的行為不僅包括與姿態(tài)有關(guān)的基礎(chǔ)動作 , 例如舉手、側(cè)身、低頭等;而且涵蓋了人與物體之間的交互動作 , 例如寫字、玩手機(jī)等. 對視覺的行為識別通常包括對行為的表征和對目標(biāo)的檢測. 人體關(guān)節(jié)行為表征方法是通過姿態(tài)估計獲取人體各個關(guān)節(jié)點(diǎn)的位置信息和運(yùn)動信息 , 然后對人體行為進(jìn)行表征.多人二維關(guān)鍵點(diǎn)檢測算法按照檢測人體和檢測人體關(guān)鍵點(diǎn)的先后順序 , 分為自上而下和自下而上2 種. 自下而上最經(jīng)典的方法 OpenPose 首先根據(jù)熱力最大值檢測身體部位的關(guān)節(jié)點(diǎn) , 連接后得到人體姿態(tài)骨架 , 并且提出了人體親和力場 , 實(shí)現(xiàn)對關(guān)節(jié)點(diǎn)的快速連接.在圖像中人數(shù)增加的情況下 , OpenPose 算法依然能夠保持高效率、高質(zhì)量產(chǎn)生人體姿態(tài)檢測的結(jié)果 , 具有很強(qiáng)的魯棒性.
目標(biāo)檢測算法能夠定位圖像物體的位置 , 并給出分類結(jié)果 , 如圖 1所示. R-CNN (Region with CNN features)[4]系列算法將候選區(qū)域與卷積神經(jīng)網(wǎng)絡(luò)相結(jié)合 , 由此衍生出處理速度更快、精度更高的算法 Fast R-CNN[5]和 Faster R-CNN[6]. 這類算法優(yōu)勢在于精度較高 , 但是檢測速度較慢 , 滿足不了實(shí)時性. Redmon 等[7]將生成候選框與回歸合為1 個步驟, 提出一系列代表性的算法如 YOLO v2、YOLO v3算法.本文對 YOLO v3模型進(jìn)行剪枝處理 , 在保證精確度的情況下 , 進(jìn)一步減少模型參數(shù) , 提升處理速度, 減少計算資源和時間消耗 , 方便模型的部署.
Saneiro 等[8]利用深度卷積神經(jīng)網(wǎng)絡(luò)分析學(xué)生課堂表情 , 將學(xué)生的情緒分為悲傷、快樂、中性、憤怒、厭惡、驚訝、恐懼. Saneiro 等[8]利用 Cohn-Kanade (CK+)[9]面部圖像數(shù)據(jù)庫進(jìn)行深度網(wǎng)絡(luò)模型預(yù)訓(xùn)練 , 然后針對自己的應(yīng)用場景遷移網(wǎng)絡(luò). Lei 等[10]提出了一種多特征的學(xué)生動作識別方法 , 該方法由局部對數(shù)歐氏多元高斯(L2EMG)[11]和尺度不變特征變換(SIFT)[12]組成.林燦然等[13]利用人體關(guān)鍵點(diǎn)信息和 RGB (Red-Green-Blue)圖像對學(xué)生舉手、起立和端坐這3 種行為進(jìn)行識別. Li 等[14]收集真實(shí)的智能課堂環(huán)境視頻數(shù)據(jù) , 制作學(xué)生課堂動作識別數(shù)據(jù)庫 , 利用傳統(tǒng)機(jī)器學(xué)習(xí)方法和卷積神經(jīng)網(wǎng)絡(luò)對數(shù)據(jù)庫進(jìn)行了基準(zhǔn)實(shí)驗(yàn). Sun 等[15]針對自建的課堂學(xué)習(xí)數(shù)據(jù)庫 , 利用 C3D (Convolution 3D)[16]網(wǎng)絡(luò)實(shí)現(xiàn)了對學(xué)生的動作識別. 這類方法沒有利用姿態(tài)信息和交互物體信息 , 行為識別的種類并不多 , 精度普遍較低 , 處理速度較慢 , 深度網(wǎng)絡(luò)模型隨著網(wǎng)絡(luò)層數(shù)的增加還容易造成過擬合現(xiàn)象 , 計算資源的消耗較大.
2? 本文方法
本文利用 H 大學(xué)所采集的視頻數(shù)據(jù) , 建立了學(xué)生課堂行為數(shù)據(jù)集 E-action.該數(shù)據(jù)集包含了在6 間標(biāo)準(zhǔn)教室的高清攝像頭所采集的課堂視頻數(shù)據(jù) , 視頻分辨率為(4096× 2160)像素.基于此數(shù)據(jù)庫 , 本研究將行為分析分為2 個階段. 第1 階段 , 利用 OpenPose 人體姿態(tài)估計算法提取人體關(guān)鍵點(diǎn) , 對舉手、正坐、側(cè)身和低頭4 種主要行為進(jìn)行識別. 第2 階段, 考慮到學(xué)生玩手機(jī)時手與手機(jī)有交互行為 , 書寫時手與筆有交互行為 , 基于“人-物交互”的方法, 使用 YOLO v3算法訓(xùn)練手部檢測模型, 并進(jìn)行剪枝操作 , 對學(xué)生手部區(qū)域進(jìn)行目標(biāo)檢測. 所提取的手部區(qū)域信息融合第1 階段的姿態(tài)信息后 , 輸入卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練 , 從而識別學(xué)生玩手機(jī)和書寫行為. 該方法同時具備速度快和準(zhǔn)確率高 , 具有較好的適應(yīng)性. 整體流程如圖 2所示.
2.1? E-action 行為數(shù)據(jù)集
對 H 大學(xué)的6 間標(biāo)準(zhǔn)化教室所收集的視頻總計容量超過200 GB.對在校大學(xué)生的課堂行為進(jìn)行抽樣調(diào)查 , 課堂行為所出現(xiàn)的頻次如圖 3所示 , 發(fā)現(xiàn)舉手、正坐、側(cè)身、低頭、玩手機(jī)、書寫是較高頻率出現(xiàn)的學(xué)生課堂行為.
首先 , 定位視頻中每個學(xué)生的位置 , 記錄矩形框中最左上角和最左下角的位置坐標(biāo) x 和y .然后 , 把單個學(xué)生從整個場景中切割出來 , 得到單人視頻. 對于每一個學(xué)生的單人視頻 , 都需要標(biāo)注出分類動作的開始時間和結(jié)束時間. 整個數(shù)據(jù)集包含6 個文件夾 , 分別代表每一類行為的視頻集合.最后 , 對視頻進(jìn)行抽幀處理 , 把視頻轉(zhuǎn)化為圖片 , 由圖片集合和圖片標(biāo)注組成數(shù)據(jù)集供后續(xù)實(shí)驗(yàn)使用.
2.2? 學(xué)生課堂關(guān)鍵點(diǎn)檢測
由于骨骼構(gòu)造的特點(diǎn) , 人體姿態(tài)豐富多樣. 一般地 , 關(guān)節(jié)的改變會帶來姿態(tài)動作的變化 , 這對姿態(tài)估計和動作檢測有很大的幫助.但是在現(xiàn)實(shí)應(yīng)用場景中 , 從視頻圖像中獲取信息還受到各種環(huán)境因素的影響 , 例如光照、物體遮擋、背景干擾、識別角度等.通常學(xué)生坐在自己的位置上 , 腿部和腳部的關(guān)鍵點(diǎn)對于本文所需要識別的常見課堂行為不產(chǎn)生直接影響 , 學(xué)生在課堂教學(xué)中的人體關(guān)鍵點(diǎn)的示意圖如圖4所示.
OpenPose 作為自下而上的人體姿態(tài)估計算法 , 在處理速度和精度上都有明顯的優(yōu)勢. 它利用人體親和力場 , 實(shí)現(xiàn)同場景下多人人體姿態(tài)估計. 由于在課堂場景下 , 學(xué)生座位相鄰會出現(xiàn)肢體遮擋的現(xiàn)象 , 這對動作檢測有一定的干擾 , 相比自上而下的檢測算法 , OpenPose 算法還具有更高的魯棒性和準(zhǔn)確率 , 適用于真實(shí)教室場景下的視頻處理.本文選擇 OpenPose 算法對課堂視頻中的學(xué)生進(jìn)行人體姿態(tài)估計.
將訓(xùn)練集輸入 OpenPose 網(wǎng)絡(luò) , 得到人體關(guān)鍵點(diǎn)圖( 圖5). 圖5是學(xué)生課堂姿態(tài)信息的反映 , 姿態(tài)主要可以分為正坐、側(cè)身、低頭和舉手. 正坐和舉手姿態(tài)可認(rèn)為是認(rèn)真聽課的表現(xiàn) , 低頭和側(cè)身通常同不專心的行為產(chǎn)生聯(lián)系, 例如低頭玩手機(jī)、交頭接耳等行為. 給這4 種姿態(tài)的圖片加上標(biāo)簽 , 形成骨架關(guān)鍵點(diǎn)的學(xué)生動作數(shù)據(jù)集.
在完成分類任務(wù)上 , VGGNet[17]網(wǎng)絡(luò)和 ResNet[18]網(wǎng)絡(luò)均有明顯的優(yōu)勢 , 但是此類網(wǎng)絡(luò)在設(shè)計的過程中朝著深度和復(fù)雜度提高的方向發(fā)展, 使得網(wǎng)絡(luò)規(guī)模復(fù)雜且參數(shù)量龐大, 嚴(yán)重影響算法的處理效率.本文在人體姿態(tài)估計的基礎(chǔ)上增加了一個小型的6 層網(wǎng)絡(luò) , 對正坐、側(cè)身、低頭和舉手這4 類動作進(jìn)行分類. 它有3 個卷積網(wǎng)絡(luò)和3 個完全連接層 , 無需預(yù)訓(xùn)練 , 在不影響實(shí)時性的基礎(chǔ)上有效提高了動作分類的精度 , 卷積層表示為(卷積核個數(shù) , 行數(shù) , 列數(shù) , 通道數(shù)), 網(wǎng)絡(luò)結(jié)構(gòu)如圖 6所示.
2.3? 學(xué)生手部動作檢測
利用骨架關(guān)鍵點(diǎn)的信息識別學(xué)生課堂行為 , 雖然排除了背景冗余信息對識別效果的影響 , 但同時也可能誤刪關(guān)鍵的語義信息. 例如 , 玩手機(jī)和書寫等行為的交互對象(手機(jī)和筆等)對學(xué)生課堂行為識別具有決定性的作用.通過 YOLO v3算法提取手部區(qū)域 , 將行為識別的注意力集中在手部區(qū)域 , 對手部區(qū)域進(jìn)行檢測 , 結(jié)合人體姿態(tài)估計的分類標(biāo)簽和手部區(qū)域目標(biāo)檢測圖的特征進(jìn)行識別. 這不但能夠減少相似行為的錯誤分類 , 也能夠排除身體其他部位或者學(xué)生之間互相遮擋的影響. YOLO v3算法作為目標(biāo)檢測器 , 實(shí)現(xiàn)對手部區(qū)域的快速檢測 , 如圖 7所示.
YOLO v3對中小目標(biāo)的檢測效果突出, 它在特征提取上選擇圖片的全局區(qū)域進(jìn)行訓(xùn)練 , 加快速度的同時能夠更好地區(qū)分目標(biāo)和背景.不同卷積核的功能不同 , 多個卷積核交錯進(jìn)行 , 實(shí)現(xiàn)降維和對特征的提取.
2.4? 手部區(qū)域檢測模型壓縮
手部檢測要求較好的檢測效果和較快的檢測速度 , 本文方法針對學(xué)生課堂行為進(jìn)行檢測 , 反饋學(xué)生學(xué)習(xí)的投入度 , 對檢測手部區(qū)域進(jìn)行分類的算法要求網(wǎng)絡(luò)具有有較高的實(shí)時性 , 因此采用模型剪枝的方法對手部區(qū)域檢測模型進(jìn)行壓縮 , 能提高算法運(yùn)行速度.
在使用深度學(xué)習(xí)算法時 , 預(yù)測結(jié)果通過參數(shù)計算和推理得出. 由于許多參數(shù)是冗余的 , 所以可以實(shí)現(xiàn)在保持最優(yōu)參數(shù)的同時 , 壓縮參數(shù)空間 , 達(dá)到和原始參數(shù)空間相同的效果.這有助于在沒有影響精度的前提下 , 通過壓縮模型來縮短處理時間和減小所占體積. 首先 , 對 YOLO v3模型進(jìn)行稀疏訓(xùn)練 .稀疏訓(xùn)練的想法是為每個通道引入縮放因子g, 并將其與通道輸出相乘.然后 , 聯(lián)合訓(xùn)練網(wǎng)絡(luò)權(quán)重和縮放因子g.最后, 將縮放因子較小的通道直接移除, 微調(diào)剪枝后的網(wǎng)絡(luò). 整個框架的目標(biāo)函數(shù)定義為
式(1)中:(x; y )代表訓(xùn)練數(shù)據(jù)和標(biāo)簽; W 是網(wǎng)絡(luò)的可訓(xùn)練參數(shù); l 是 CNN 的訓(xùn)練損失函數(shù); f 為預(yù)測標(biāo)簽;? 是平衡因子; g () 是縮放因子的懲罰項;? 是函數(shù)空間域.
在 YOLO v3稀疏訓(xùn)練的過程中需要利用 Batch Normalization (BN)[19]層加速模型收斂 , BN 層批量標(biāo)準(zhǔn)化公式為
式(2)中: 和分別是輸入特征和方差;2?? 是可訓(xùn)練的縮放因子和偏差;" 是為避免0 除而設(shè)置的較小數(shù) , 能夠讓整個網(wǎng)絡(luò)模型計算的額外開銷盡可能小;? 參數(shù)是 BN 層的縮放因子. BN 層的剪枝示意圖如圖 8所示.
剪枝結(jié)束后的輕量級網(wǎng)絡(luò)模型需要通過微調(diào)來提升網(wǎng)絡(luò)的精度.在不影響精度的情況下 , YOLO v3算法能夠?qū)υ谡n堂教學(xué)中學(xué)生的手部區(qū)域?qū)崿F(xiàn)更快速的檢測 , 通過訓(xùn)練所得到的模型體積更小 , 方便模型的部署.
2.5? 姿態(tài)融合的手部動作分類
將目標(biāo)檢測模塊定位到手部坐標(biāo)位置后 , 截取原圖中手部局部圖片 , 輸入上文所提到的小型分類網(wǎng)絡(luò) , 提取手部局部圖片的特征, 將模型的注意力集中在手部位置, 再結(jié)合OpenPose 人體姿態(tài)估計算法的處理結(jié)果, 添加學(xué)生的姿態(tài)信息, 對檢測的行為進(jìn)行約束, 提高了對學(xué)生在課堂教學(xué)中玩手機(jī)、書寫等行為的識別精度.本文人體姿態(tài)估計模塊和手部區(qū)域檢測模塊是并行處理的 , 在融合2 者特征后分類的時間是線性相加的 , 分類模塊的處理速度也同樣影響到總體框架的速度. YOLO 系列作為經(jīng)典的目標(biāo)檢測算法 , 其本身就擁有目標(biāo)分類算法部分.在本實(shí)驗(yàn)中 , 因?yàn)槿謭D片的信息對于行為分類會產(chǎn)生冗余作用, 所以只針對手部區(qū)域信息對學(xué)生課堂行為進(jìn)行分析, 同時對關(guān)鍵點(diǎn)信息做姿態(tài)檢測. 因而仍然采用2.2節(jié)中所提到的小型網(wǎng)絡(luò)進(jìn)行分類 , 在保證實(shí)時性的前提下, 最大限度地提高分類效率.
3? 實(shí)驗(yàn)結(jié)果與分析
3.1? 實(shí)驗(yàn)準(zhǔn)備
采集6 間教室每天的課堂視頻作為數(shù)據(jù)源.后臺對超過200 G 的數(shù)據(jù)進(jìn)行篩選統(tǒng)計 , 總共采集數(shù)據(jù) 300人次(男生173人次 , 女生127人次 , 含大學(xué)生) , 對視頻中具有識別分類的動作進(jìn)行人工篩選和數(shù)據(jù)標(biāo)注.以 10 s 為單位, 對原始視頻進(jìn)行剪輯 , 生成原始視頻數(shù)據(jù)集.考慮到課堂場景下學(xué)生的常見姿態(tài)可以分為低頭、側(cè)身、正坐和舉手 , 從原始視頻數(shù)據(jù)庫里挑選出這4類視頻并按幀進(jìn)行切分 , 每張圖片的分辨率為(4096× 2160)像素. 考慮到訓(xùn)練數(shù)據(jù)的平衡性 , 對視頻庫進(jìn)行篩選 , 最終得到的圖片共5 500張 , 其中正坐1 600張、側(cè)身1 400張、低頭1 400張、舉手1 100張 .姿態(tài)數(shù)據(jù)集的樣例如圖9所示.
手部動作數(shù)據(jù)集所采集的圖片合計4 000張 , 其中訓(xùn)練集3 200張、測試集800張 .為實(shí)現(xiàn)手部動作分類 , 手部動作數(shù)據(jù)集分成3 個子類 , 其中常規(guī)行為圖片2 400張、玩手機(jī)動作800張、書寫動作800張 .手部動作數(shù)據(jù)集如圖 10所示.
為了擴(kuò)充課堂場景下學(xué)生手部區(qū)域數(shù)據(jù)集、提高對不同姿態(tài)的手部識別的魯棒性 , 將數(shù)據(jù)集進(jìn)行了幾何增強(qiáng).所采用的方式是平移、翻轉(zhuǎn)、旋轉(zhuǎn)、鏡像等 , 效果如圖 11所示.
人工智能技術(shù)可以幫助研究者拓展學(xué)生行為數(shù)據(jù)收集的渠道并提升數(shù)據(jù)收集及處理的效率. 用 FFmpeg 將實(shí)際所采集的學(xué)生課堂視頻截取成視頻幀圖像 , 然后采用 OpenPose 人體姿態(tài)估計算法得到每個學(xué)生的人體骨骼關(guān)鍵點(diǎn)(x; y )并記錄. 針對其中一個學(xué)生的所有人體關(guān)鍵點(diǎn)進(jìn)行分析 , 將關(guān)鍵點(diǎn)的橫坐標(biāo)和縱坐標(biāo)進(jìn)行排序 , 得到橫坐標(biāo)的最大值xmax 和最小值xmin 以及縱坐標(biāo)的最大值ymax 和最小值ymin , 再按單個學(xué)生的人體區(qū)域大小占總場景圖像的比例進(jìn)行擴(kuò)充 , 從而能夠在整個課堂場景的視頻幀中截取得到單個學(xué)生區(qū)域的圖像 , 以便對單個學(xué)生檢測定位和行為識別分析 , 如圖12所示.通過這種方式能從整個教室場景的視頻數(shù)據(jù)中獲取大量的單個學(xué)生的圖片數(shù)據(jù).
本實(shí)驗(yàn)的操作系統(tǒng)為 Ubantu 16, GPU 為 titian V, 顯存為36 G, 深度網(wǎng)絡(luò)模型框架基于 Pytorch 框架實(shí)現(xiàn).
3.2? 在課堂教學(xué)中動作姿態(tài)檢測與分類
利用 OpenPose 算法處理人體動作數(shù)據(jù)集 , 獲取低頭、側(cè)身、正坐和舉手4類動作的人體骨架圖 , 具體示意圖如表1所示.
將該數(shù)據(jù)集輸入上述的小型 CNN (Convolutional Neural Network)分類網(wǎng)絡(luò)進(jìn)行訓(xùn)練 , 模型在測試集(骨架圖)上的準(zhǔn)確率與本文所采集的圖像直接訓(xùn)練(原圖)的準(zhǔn)確率、利用 IDT (Improved Dense Trajectories)[20]算法處理后的圖像準(zhǔn)確率和利用 C3D 算法處理后的圖像準(zhǔn)確率作對比 , 結(jié)果如表2所示.
IDT 基于人工選取特征的方法 , 取密集軌跡點(diǎn)的 HOG (Histogram of Oriented Gradient)特征、 HOE? (Histogram? of? spatiotemporal? Orientation? Energy)特征、 MBH? (Motion? Boundary? Histograms)等局部特征進(jìn)行分類 , 效率較低. C3D 首先關(guān)注前幾幀的外觀 , 并跟蹤后續(xù)幀中的顯著運(yùn)動 , 但是學(xué)生課堂行為幅度較小 , 很難捕捉到運(yùn)動信息 , 并且只關(guān)注了顏色特征 , 并沒有關(guān)注骨骼特征 , 所以精度偏低.利用所提取的骨架圖判別原圖動作的方法 , 消除了背景和人物重疊信息的干擾 , 提高了分類精度. 在測試數(shù)據(jù)集上動作分類網(wǎng)絡(luò)的最高測試精度達(dá)到95.45%.
3.3? 手部檢測實(shí)驗(yàn)
利用 YOLO v3算法對手部區(qū)域進(jìn)行提取 , 考慮到運(yùn)行速度和模型的部署 , 在此模型基礎(chǔ)上做剪枝 .首先對手部數(shù)據(jù)集做正常訓(xùn)練 , 得到平均準(zhǔn)確精度 mAP (mean Average Precision)為 0.8195.然后采用全局稀疏訓(xùn)練 , 在總的周期的0.7和 0.9階段進(jìn)行學(xué)習(xí)率為0.1的衰減 , scale 參數(shù)默認(rèn)為0.001.
根據(jù)稀疏的 BN 層的 g 權(quán)重對網(wǎng)絡(luò)進(jìn)行剪枝 , 直連層和相關(guān)的前2 層的 CBL (Conv + BN + Leaky Relu)層會被剪枝 , 因此總共剪掉48層 , 相應(yīng)層的 ID 為 [66, 67, 68, 69, 70, 71, 72, 73, 74, 63, 64, 65, 38, 39, 40, 50, 51, 52, 47, 48, 49, 44, 45, 46, 13, 14, 15, 53, 54, 55, 41, 42, 43, 16, 17, 18, 6, 7, 8,19, 20, 21, 56, 57, 58, 22, 23, 24].
稀疏訓(xùn)練后進(jìn)行通道剪枝 , 通道剪枝的閾值設(shè)置為0.85, 每層最低保持通道數(shù)比例為0.01, 再對剪枝后的模型進(jìn)行微調(diào) , 提高精度.
表 3表明 , 在該數(shù)據(jù)集上對 YOLO v3網(wǎng)絡(luò)進(jìn)行剪枝操作后 , 各項性能大幅提升.模型的參數(shù)量為原先的17.72%, 模型壓縮率為82.2%, 在titian V 上處理時間縮短了49.40%, 同時各類別的 mAP 基本保持不變. 因此剪枝后的模型可作為本文算法框架中動作分類模塊的基準(zhǔn)網(wǎng)絡(luò).
3.4? 手部動作分類實(shí)驗(yàn)
篩選目標(biāo)檢測處理后的手部區(qū)域, 得到玩手機(jī)、書寫的圖片, 構(gòu)建訓(xùn)練數(shù)據(jù)集.將手部行為分為玩手機(jī)、空手和書寫3 個分類 , 輸入上文所提到的 CNN 卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練得到手部動作分類器.訓(xùn)練的參數(shù)學(xué)習(xí)率設(shè)置為10–4 , 時期設(shè)置為200, 批大小設(shè)置為128, 整個網(wǎng)絡(luò)使用隨機(jī)梯度下降進(jìn)行訓(xùn)練而得到.最終在測試集上 , 對玩手機(jī)和書寫這2種行為的檢測準(zhǔn)確率分別為92.9%和 87.9%, 如表 4所示.
得到手部區(qū)域的動作分類后 , 用學(xué)生的姿態(tài)信息進(jìn)行約束 , 從而將全局特征和局部特征相結(jié)合 , 排除拿筆和拿手機(jī)聽課這些行為的干擾 , 從而提高識別學(xué)生低頭玩手機(jī)和低頭書寫行為的精度, 如表 5所示.
為了驗(yàn)證結(jié)合手部區(qū)域特征和全局動作特征后的學(xué)生課堂行為識別的準(zhǔn)確率和運(yùn)算效率 , 證明本文所提出方法的有效性 , 選取新錄制普通教學(xué)班的課堂視頻數(shù)據(jù)集 , 進(jìn)行200組實(shí)驗(yàn) , 其最終識別的實(shí)驗(yàn)結(jié)果如表6所示, FPS (Frames Per Second)表示模型平均每秒能處理的圖像幀數(shù).
實(shí)驗(yàn)表明 , 融合姿態(tài)信息后的行為識別的精度相比手部區(qū)域圖片分類有所提升 , 所采用的學(xué)生課堂行為識別算法完全達(dá)到準(zhǔn)確率和運(yùn)算效率的要求.
課堂行為識別的數(shù)據(jù)標(biāo)簽有可能會出現(xiàn)歧義性 , 給模型訓(xùn)練過程中的收斂帶來很大的問題. 損失函數(shù)表示模型對某個樣本的預(yù)測標(biāo)簽和真實(shí)標(biāo)簽的差異 , 可以衡量模型對該樣本的學(xué)習(xí)情況. 對損失函數(shù) loss 的排序情況進(jìn)行檢查 , 如果 loss 值較大 , 則該樣本標(biāo)簽有可能出現(xiàn)錯標(biāo)或者本身圖片的行為帶有歧義性, 對于這種數(shù)據(jù)最好的處理方式是手工剔除.從而排除相似行為的干擾 , 提高識別的準(zhǔn)確率.
4? 結(jié)論
本文利用深度學(xué)習(xí)與計算機(jī)視覺技術(shù) , 研究了學(xué)生課堂行為識別的方法.創(chuàng)建了在真實(shí)場景下的學(xué)生課堂行為數(shù)據(jù)集 , 通過全局姿態(tài)識別和局部姿態(tài)識別 , 獲得學(xué)生行為分類的模型 , 并且對模型進(jìn)行了壓縮 , 得到一個高效且高精度的行為識別系統(tǒng). 經(jīng)測試 , 系統(tǒng)得到了較好的結(jié)果 , 可以實(shí)現(xiàn)課堂行為的自動化檢測. 這對于衡量學(xué)生學(xué)習(xí)投入、教師優(yōu)化教學(xué)設(shè)計與實(shí)施教學(xué)干預(yù) , 以及學(xué)生開展自適應(yīng)學(xué)習(xí)都具有重要意義. 未來將利用圖卷積神經(jīng)網(wǎng)絡(luò)在視頻的時間和每一幀的圖片空間維度上進(jìn)行處理 , 進(jìn)一步提高學(xué)生課堂行為分類的準(zhǔn)確率.
[參考文獻(xiàn)]
[1]KUH GEORGE D. Assessing what really matters to student learning inside the national survey of student engagement [J]. Change, 2001, 33(3):10-17.
[2]CAO Z, SIMON T, WEI S E, et al. Realtime multi-person 2D pose estimation using part affinity fields [C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. IEEE, 2017:1302-1310.
[3]REDMON J, FARHADI A. YOLO v3: An incremental improvement [EB/OL].(2018-04-08)[2021-10-26].https://arxiv.org/pdf/1804.02767.pdf.
[4] GIRSHICK R, DONAHUE J, DARRELL T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation [C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. IEEE, 2014:580-587.
[5] GIRSHICK R. Fast R-CNN [EB/OL].(2015-9-27)[2021-10-26].https://arxiv.org/pdf/1504.08083.pdf.
[6] REN S, HE K, GIRSHICK R, et al. Faster R-CNN: Towards real-time object detection with region proposal networks [J]. IEEETransactions on Pattern Analysis & Machine Intelligence, 2017, 39(6):1137-1149.
[7] REDMON J, FARHADI A. YOLO 9000: Better, faster, stronger [C]//IEEE Conference on Computer Vision & Pattern Recognition.2017:6517-6525.
[8] SANEIRO M, SANTOS O C, SALMERON-MAJADAS S, et al. Towards emotion detection in educational scenarios from facialexpressions and body movements through multimodal approaches [J]. The Scientific World Journal, 2014:484873.
[9] LUCEY P, COHN J F, KANADE T, et al. The extended cohn-kanade dataset (CK+): A complete dataset for action unit and emotion-specified expression [C]//IEEE Computer Society Conference on Computer Vision and Pattern Recognition-Workshops.2010:94-101.
[10] LEI F, WEI Y, HU J, et al. Student action recognition based on multiple features [C]//2019 International Conference on Internet ofThings (iThings) and IEEE Green Computing and Communications (GreenCom) and IEEE Cyber, Physical and Social Computing (CPSCom) and IEEE Smart Data (SmartData).2019:428-432.
[11] LI P, WANG Q, ZENG H, et al. Local log-euclidean multivariate gaussian descriptor and its application to image classification [J].IEEE Transactions on Pattern Analysis & Machine Intelligence, 2017, 39(4):803-817.
[12] LOWE D G. Distinctive image features from scale-invariant keypoints [J]. International Journal of Computer Vision, 2004, 60(2):91-110.
[13] 林燦然, 許偉亮, 李逸.基于多模態(tài)數(shù)據(jù)的課堂學(xué)生行為識別技術(shù)的探究[J].現(xiàn)代計算機(jī), 2020(6):70-76.
[14] LI X, WANG M, ZENG W, et al. A students’ action recognition database in smart classroom [C]//201914th International Conferenceon Computer Science & Education (ICCSE).2019:523-527.
[15] SUN B, ZHAO K, XIAO Y, et al. BNU-LCSAD: A video database for classroom student action recognition [C]//OptoelectronicImaging and Multimedia Technology VI.2019:111871V.
[16] TRAN D, BOURDEV L, FERGUS R, et al. Learning spatiotemporal features with 3D convolutional networks [C]//Proceedings of theIEEE International Conference on Computer Vision.2015:4489-4497.
[17] SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition [EB/OL].(2014-04-10)[2021-10-26]. https://arxiv.org/pdf/1409.1556.pdf.
[18] HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition [C]//Proceedings of the IEEE Conference on ComputerVision and Pattern Recognition.2016:770-778.
[19] IOFFE S, SZEGEDY C. Batch normalization: Accelerating deep network training by reducing internal covariate shift [C]//InternationalConference on Machine Learning.2015:448-456.
[20] WANG H, SCHMID C. Action recognition with improved trajectories [C]//Proceedings of the IEEE International Conference onComputer Vision.2013:3551-3558.
(責(zé)任編輯:陳麗貞)