趙衍 魯力立
摘要:到課率作為宏觀教學管理數(shù)據(jù),對高校教學管理具有重要作用。雖然近年來出現(xiàn)了一些課率統(tǒng)計的數(shù)字化方法,解決了傳統(tǒng)到課率統(tǒng)計費時、費力、滯后等問題,但由于成本高、使用不方便、準確率不高等原因,導致其無法推廣。隨著技術的發(fā)展,深度學習在多目標檢測中的準確率越來越高,有助于解決此類問題。為此,文章利用深度學習技術,設計了一種基于教室攝像頭RTSP視頻流的到課學生頭部識別的模型1MB-Plus,并將其應用于某高校的一百余間教室的到課率統(tǒng)計中,取得了97.3%的準確率。研究表明,該模型有助于解決到課率統(tǒng)計存在的問題。文章通過研究,旨在以最小的成本為高校教務管理部門提供較為準確的宏觀到課率數(shù)據(jù),輔助學校的教學管理工作。
關鍵詞:到課率統(tǒng)計;機器學習;模式識別;擁擠人群計數(shù);頭部檢測
【中圖分類號】G40-057 【文獻標識碼】A 【論文編號】1009—8097(2024)02—0108—10 【DOI】10.3969/j.issn.1009-8097.2024.02.012
在高校教學管理中,到課率是一個能綜合反映教學管理水平、學風和教學質量的重要指標,根據(jù)到課率數(shù)據(jù),院系和學校教務管理部門可以整體把握教學情況,以進行更好的教學管理。傳統(tǒng)的到課率統(tǒng)計方法主要包括課堂點名和課后統(tǒng)計,然而這兩種方法的效率都非常低下,雖然近年來業(yè)內先后出現(xiàn)了通過紅外、藍牙、無線射頻標簽、二維碼、WiFi、指紋識別、人臉識別等多種到課率統(tǒng)計的方法,但都存在各種各樣的問題,導致其無法得到大規(guī)模推廣。因此,在大學教學管理中,迫切需要一種能夠基于現(xiàn)有條件,便捷、高效、低成本、準確地統(tǒng)計到課率的方法。當前,深度學習在多目標檢測中的準確率越來越高,而隨著我國各高校標準化考場和智慧教室建設進程的加快,很多大學教室中都安裝了能夠覆蓋整個教室場景的攝像頭,如果能夠利用這些攝像頭,結合深度學習技術構建到課人數(shù)統(tǒng)計模型,或許有助于提升到課率的統(tǒng)計效率和精確度。為此,本研究嘗試基于深度學習框架試構建到課人數(shù)統(tǒng)計模型,并用標注過的教室照片對模型進行深度學習,將訓練好的模型部署在生產環(huán)境中,通過對接課表、教師基本信息等數(shù)據(jù),生成不同維度的到課率統(tǒng)計數(shù)據(jù)。
一 研究現(xiàn)狀
到課人數(shù)統(tǒng)計模型主要是利用教室中的攝像頭所采集到的視頻幀進行人頭部檢測,從而識別教室中的人數(shù)。而教室內的人頭部檢測是一個典型的擁擠場景下的人群計數(shù)(Crowd Counting)問題。擁擠場景下的人群計數(shù)是計算機視覺研究領域的一個經典問題,主要實現(xiàn)手段有基于熱力圖的人群密度檢測(DenseCrowd Counting)和基于頭部檢測(Head Counting)的人數(shù)統(tǒng)計兩種,其中基于頭部檢測的人數(shù)統(tǒng)計方法具有更好的參考價值和應用場景[1]。早期的人群計數(shù)研究主要基于檢測的方法和回歸的方法來實現(xiàn),而從2015年開始,卷積神經網(wǎng)絡(CNN)被引入人群計數(shù)研究。鑒于CNN在機器學習領域的良好表現(xiàn)[2],現(xiàn)有的人頭部檢測方面的研究大部分基于CNN開展,如陳久紅等[3]對基于區(qū)域的全卷積神經網(wǎng)絡(R-FCN)目標檢測算法進行改進,提高了R-FCN算法對小目標的識別能力,使其在自制的數(shù)據(jù)集上達到89.4%的準確率;張曉強等[4]利用教室現(xiàn)有的視頻監(jiān)控系統(tǒng)獲取教室實時圖像,結合教室內人員分布特點及教室建筑風格,通過檢測學生頭部特征,并使用AdaBoost級聯(lián)分類器對提取的視頻幀HOG樣本特征進行訓練,構建頭部檢測模型用于檢測人數(shù),取得了80%的準確率。
然而,很多人群計數(shù)算法雖然在實驗條件下具有很好的表現(xiàn),但到了生產環(huán)境下,由于受到光照、遮蓋、相似物體等噪聲干擾,識別準確性會大大降低。因此,生產環(huán)境中的人頭檢測模型除保證較高的檢全率和檢準率外,還需要有較強的魯棒性。在教室環(huán)境下,由于存在學生之間相互遮擋、低頭、轉頭、佩戴帽子、有相似物體、弱光線及光線分布不均、噪聲干擾等問題,導致目標檢測的準確性難以得到保證。針對這種情況,Yudin等[5]利用標注的1000張教室照片,訓練了FCN、Faster R-CNN和Mask R-CNN三種卷積神經網(wǎng)絡,結果表明:Mask R-CNN的速度雖不及FCN的十分之一,但準確率卻很高;Faster R-CNN的精度雖不如Mask R-CNN,但比FCN更穩(wěn)定。Monti等[6]提出了一種基于攝像頭和Raspberry Pi平臺的人數(shù)統(tǒng)計方法,得益于邊緣計算的遷移學習框架,該系統(tǒng)在教室人數(shù)統(tǒng)計中的最大平均絕對誤差小于1.23。Yi等[7]標注了3070張課堂照片,并通過改進YOLO V4算法構建了教室人數(shù)統(tǒng)計系統(tǒng),結果表明其準確率在測試集上獲得明顯提升。劉媛等[8]構建了真實教室場景的圖像數(shù)據(jù)集,并基于RetinaFace人臉檢測網(wǎng)絡設計RetinaStudent人頭檢測網(wǎng)絡模型,提升了學生臉部被遮擋情況下的模型性能,在自制數(shù)據(jù)集上達到99.1%的識別率。何強等[9]通過改進YOLO V3模型,增強了模型對模糊或者較小目標的檢測能力。Niu等[10]則提出一種基于YOLO V5的增強型骨骼識別系統(tǒng),用于檢測課堂行為。這些方法對提高人頭檢測模型的檢全率、檢準率和魯棒性都起到了一定的作用。
為了提高準確率,還有研究者嘗試采用兩種或兩種以上的方法分別對教室內的人頭數(shù)進行統(tǒng)計,通過比較和綜合,以獲得更準確的結果。例如,F(xiàn)u等[11]將多任務卷積神經網(wǎng)絡(MTCNN)人臉檢測和中心人臉識別兩種深度學習算法進行結合,開發(fā)了一套大學課堂自動考勤系統(tǒng),該系統(tǒng)在實驗環(huán)境下能達到98.87%的準確率;單華標等[12]綜合使用藍牙傳輸和人臉識別技術設計了一套點名系統(tǒng),可有效防止出勤作弊問題;胡青松等[13]開發(fā)了一種融合WiFi數(shù)據(jù)與人臉識別的課堂點名方法,利用教室WiFi接入數(shù)據(jù)和人臉識別數(shù)據(jù)進行交叉比對,實現(xiàn)精準點名。
總的來看,現(xiàn)有教室場景下的人群計數(shù)研究雖然在一定程度上提高了人頭部識別的準確率,但都缺乏生產環(huán)境下大規(guī)模部署的實驗數(shù)據(jù)。而當前已投入實際使用的模型精度都不超過90%,在學校課堂到課人數(shù)統(tǒng)計應用場景下,這樣的準確率明顯滿足不了學校管理的實際需求。因此,本研究旨在構建一套在生產環(huán)境下能快速、準確統(tǒng)計到課率的系統(tǒng),以滿足學校教學管理需求。
二 基于深度學習的到課人數(shù)統(tǒng)計系統(tǒng)設計
近年來,很多高校建設了大量的智慧教室、標準化考場和直錄播教室,這些教室都安裝了標清或高清攝像頭;還有些學校從安全角度考慮,在教室內安裝了安防攝像頭。利用這些攝像頭的視頻幀,結合深度學習技術進行到課人數(shù)統(tǒng)計,既可以最大限度地利用現(xiàn)有資源,又能給學校教學管理部門提供亟須的到課率統(tǒng)計數(shù)據(jù)。為此,本研究在通過可行性驗證的基礎上設計了一套完整的基于深度學習的到課率統(tǒng)計系統(tǒng),具體設計思想如下:
1 可行性分析
首先,教室中的攝像頭從像素上分為標清和高清兩類,其中標清攝像頭的像素在30萬左右,高清攝像頭的像素在100萬左右。標清攝像頭雖然無法用于教室環(huán)境下的人臉識別,但對于“頭部識別”卻沒有太大的影響。其次,這些攝像頭都支持標準的實時流傳輸協(xié)議(RTSP),可以較為方便地獲得不同廠商的攝像頭視頻流。最后,近年來基于多層神經的深度學習技術日趨成熟,特別是在模式識別領域表現(xiàn)優(yōu)異,業(yè)界也開發(fā)出Caffe、PyTorch等成熟的深度學習框架。因此,從技術角度來看,本研究方法是可行的。
2 系統(tǒng)實現(xiàn)流程
到課人數(shù)統(tǒng)計是典型的模式識別問題,主要思想是通過識別人的頭部特征,來判斷在課堂環(huán)境下,哪些是“人”,哪些不是。因此,本研究基于深度學習框架設計的到課率統(tǒng)計系統(tǒng)的實現(xiàn)流程是:①采集教室上課照片,對人的頭部進行標注;②基于PyTorch深度學習框架,搭建到課人數(shù)統(tǒng)計模型;③利用標注好的照片,對到課人數(shù)統(tǒng)計模型進行訓練(監(jiān)督學習),經過多輪調整、優(yōu)化、迭代,得到成熟的到課人數(shù)統(tǒng)計模型;④在服務器上部署模型;⑤通過對教室攝像頭RTSP視頻流進行抽幀,將視頻幀輸入模型,計算每幀中的到課人數(shù);⑥通過與課表數(shù)據(jù)對接,在上課時間準點、上課開始后若干分鐘、課程結束前若干分鐘分別抽幀并統(tǒng)計人頭數(shù),生成到課率、遲到率、早退率等數(shù)據(jù);⑦通過對接課表、院系、教師等數(shù)據(jù),生成不同維度的到課率統(tǒng)計報告,供院系管理者和學校教學管理部門參考。具體的實現(xiàn)流程如圖1所示。
3 機器學習框架的選擇
目前已有多種成熟的深度學習框架,其中由Facebook人工智能研究院基于Torch開發(fā)的PyTorch開源深度學習框架廣受科研人員的青睞。PyTorch底層由C++實現(xiàn),簡潔、高效、快速、功能強大,并且可以部署于CPU服務器,在科研和工程領域都很適用。因此,本研究選擇基于PyTorch機器學習框架搭建課堂學生頭部識別模型。
4 模型訓練
剛搭建好的到課人數(shù)統(tǒng)計模型未經過深度學習訓練,準確率不高,因此還需要標注一定數(shù)量的課堂照片用于模型訓練、調優(yōu)和迭代。為了提高模型識別的準確度,在系統(tǒng)運行后,還需要將識別錯誤的照片進行重新標注,再對模型進行新一輪的訓練,如此反復迭代多次,不斷調整和優(yōu)化模型參數(shù),最終得到令人滿意的結果。
5 模型的部署
與所有深度學習模型部署過程類似,在公開數(shù)據(jù)集上預訓練好的頭部檢測模型需要在教室場景下進行定制化微調,這就需要采集教室場景下的數(shù)據(jù)對模型進行定制化訓練。該系統(tǒng)的場景是課堂教學環(huán)境,移動干擾較少,場景固定,定制化訓練后的到課人數(shù)統(tǒng)計模型會有比較高的性能。同時,各個攝像頭采集到的課堂場景比較類似,因此定制化訓練后的模型在課堂場景下會有比較好的泛化能力,可以較為容易地推廣到其他教室。
三 系統(tǒng)的實現(xiàn)與實踐
研究團隊基于上述的設計思想,在上海市A大學的數(shù)據(jù)中心部署了一臺業(yè)務處理服務器和一臺到課人數(shù)統(tǒng)計服務器。其中,業(yè)務處理服務器通過同步教務系統(tǒng)數(shù)據(jù),按照事先設定的業(yè)務邏輯,發(fā)送采集指令給到課人數(shù)統(tǒng)計服務器,采集指令包括采集時間和攝像頭的IP地址。到課人數(shù)統(tǒng)計服務器按照指定的時間和IP地址從攝像頭上采集視頻幀并計算人數(shù),將結果以Json格式發(fā)回給業(yè)務處理服務器。業(yè)務處理服務器再結合教務系統(tǒng)、人事系統(tǒng)和學工系統(tǒng)數(shù)據(jù),從各個維度統(tǒng)計到課率。
1 到課人數(shù)統(tǒng)計模型的構建
在課堂人數(shù)統(tǒng)計的應用場景下,需要識別的目標實例較多,實例密度較大,且各實例在圖像上的占比較小,對算力的要求也較高,但考慮到系統(tǒng)的可推廣性,到課人數(shù)統(tǒng)計模塊又不能占用太大的算力資源。這些場景特點和約束條件要求算法模型的參數(shù)量不宜過大,但推理速度又必須足夠快。針對這樣密集的人頭部檢測任務,研究團隊在輕量級的小目標檢測模型網(wǎng)絡結構1MB-RFB的基礎上,設計了一個1MB的輕量級到課人數(shù)統(tǒng)計模型,并對模型結構進行了改進,使其在保持現(xiàn)有推理性能的前提下進一步提升識別性能。
1MB小目標檢測項目是業(yè)界影響力較高的開源項目,其模型結構1MB-RFB(如圖2所示)主要針對邊端低算力設備進行設計,在檢測任務上以較低算力獲取較好的識別性能。原始的1MB-RFB采用單步多框目標檢測(Single Shot MultiBox Detector,SSD)的基礎結構,改進了初始特征學習部分和中間層不同尺度特征學習部分的網(wǎng)絡(改進后的結構分別對應如圖2左側和中間部分),初始特征學習部分采用DepthwiseConv在端側提升模型的運行速度,中間層采用Inception結構加強多尺度特征的融合。同時,網(wǎng)絡根據(jù)檢測任務減少了各個特征圖的特征維度,進一步提升了模型的推理性能。
在實驗過程中,研究團隊發(fā)現(xiàn),1MB-RFB初始特征學習部分特征圖的尺度下降速度過快會影響模型底層特征的表達,進而影響模型的推理性能,需要找到一種在快速降低特征尺度的同時又能保持底層特征表達能力的結構。為此,研究團隊嘗試不同的網(wǎng)絡結構及其參數(shù)的排列組合,結合人頭檢測任務平衡特征檢測性能和推理速度,最終選取Depthwise+CReLU的組合。
在網(wǎng)絡中間層不同尺度特征學習部分,原始的1MB模型采用Inception結構,此結構會計算多種維度特征并在最后進行融合,因而會消耗較多的算力。同時,多層特征的存儲和訪問也會帶來更多的I/O操作,降低網(wǎng)絡的推理速度。如果能找到一個統(tǒng)一的Block結構來進行中間層部分的特征學習,將會明顯改善模型性能,加快模型的推理速度。為此,研究團隊先后嘗試了ShuffleBlock、CGBlock、MBBlock等多種結構,并根據(jù)參數(shù)量和計算量定義這些模塊的維度參數(shù)。通過比較,最終選取MBBlock作為中間部分特征學習的基礎模塊。綜合上述兩部分的改進,本研究團隊構建了如圖3所示的輕量模型結構,將其命名為1MB-Plus。
2 模型對比結果
為了測試1MB-Plus到課人數(shù)統(tǒng)計模型的性能,本研究團隊使用了開放數(shù)據(jù)集WIDER FACE進行驗證。該數(shù)據(jù)集包含393703張標注人臉,這些人臉在尺度、姿勢、標準、表達、裝扮和光照方面都有不同的體現(xiàn),是業(yè)界較為常用的人臉檢測數(shù)據(jù)集。
研究團隊使用數(shù)據(jù)集提供的切分方式進行模型訓練測試,為了更貼近真實使用場景,在測試時對圖像進行統(tǒng)一的尺度操作——將測試圖像進行等比例縮放,分別保持圖像不超過320×240和640×480。本研究將1MB-Plus與1MB的另外兩個版本1MB-slim、1MB-RFB進行了對照,得到Wider-face檢測性能測試的對照結果如表1所示。可以看出,1MB-Plus模型各方面的性能均優(yōu)于1MB模型所提供的slim模型和RFB模型。
在推理速度方面,研究團隊使用聯(lián)想Thinkpad T450筆記本電腦、邊端設備RK3399以及云上設備P40分別進行推理速度測試,得到的數(shù)據(jù)如表2所示??梢钥闯?,1MB-Plus模型比1MB-RFB模型推理速度更快。
3 訓練數(shù)據(jù)采集與標注
整個模型采用“預標注-人工修正-模型訓練-系統(tǒng)部署”的方式進行多次迭代,以不斷提高性能。為了獲得真實場景照片以對模型進行持續(xù)訓練,研究團隊將系統(tǒng)部署在上海市A大學的數(shù)據(jù)中心。該校有120間教室安裝了攝像頭,系統(tǒng)對部分教室隨機采集500張左右的上課照片,每張照片均為30~60萬像素,共獲得5000張課堂照片。
對采集到的照片進行人工分析,可以發(fā)現(xiàn)由于每間教室攝像頭安裝的位置、角度和高度都不盡不同,學生上課時坐座位也有相當?shù)碾S意性,因此教室照片中的學生頭部會出現(xiàn)多種情況,影響識別效果。圖4展示的就是其中一節(jié)課的課堂場景。
在圖4中,位置1的學生頭部被手遮擋;位置2的學生低下頭,看不見面部;位置3的學生也低下頭,只能看見黑色頭發(fā),且被前面的同學遮擋了一部分頭部;位置4的學生戴了白色的帽子,且面部被帽檐遮擋。
為了在降低標注成本的同時提高標注效率,研究團隊先使用基于開源數(shù)據(jù)集訓練好的1MB-Plus模型對采集的圖片進行預標注,然后利用Labelme工具對預標注的結果進行人工校正。通過對預標注結果進行抽樣檢查,發(fā)現(xiàn)預標注錯誤主要有三種類型:漏標、錯標、重復標注。圖5為預標注結果示例,圖中位置1~7為漏標,位置8和9為誤標,位置10為重復標注。
在預標注結果中隨機抽取500張照片進行人工統(tǒng)計,發(fā)現(xiàn)預標注準確率在70%~80%之間,并不理想;采用人工手段修正錯誤標注,并進行新一輪機器學習后,再隨機抽樣500張照片進行人工統(tǒng)計,發(fā)現(xiàn)預標注準確率已接近90%,有明顯提升;采用人工手段對錯誤的標注繼續(xù)進行修正,再重新進行第三輪機器學習,隨機抽取500張照片進行人工統(tǒng)計,發(fā)現(xiàn)預標注準確率為97.3%,說明模型已經收斂,準確度能滿足學校教學管理部門對到課率統(tǒng)計數(shù)據(jù)的要求。
4 系統(tǒng)架構
整個系統(tǒng)除自身的數(shù)據(jù)處理和業(yè)務邏輯外,還涉及與多個外部系統(tǒng)進行通信和信息交換。系統(tǒng)的復雜性和對處理能力的要求決定了該系統(tǒng)架構是一個分布式的異步系統(tǒng),不同的任務和功能需要分別運行在不同的計算節(jié)點上。同時,考慮到系統(tǒng)的迭代升級,系統(tǒng)的架構設計需要滿足可擴展性要求。按照功能劃分,系統(tǒng)整體架構包括四個模塊,分別為視頻幀采集模塊、到課人數(shù)統(tǒng)計模塊、業(yè)務系統(tǒng)對接及數(shù)據(jù)交換模塊、數(shù)據(jù)存儲模塊。
(1)各模塊功能
①視頻幀采集模塊。本系統(tǒng)采用攝像頭生產廠商提供的SDK與視頻監(jiān)控服務器通訊來獲得視頻幀。視頻幀獲取是一個異步的過程,需要編寫和配置正確的回調函數(shù)。而每獲取一個視頻幀,系統(tǒng)需要與監(jiān)控服務器進行三次異步通訊。該模塊的主要難點在于管理120余個視頻源的異步通訊,并正確處理通訊過程中可能出現(xiàn)的各種異常,如超時、抖動等。
②到課人數(shù)統(tǒng)計模塊。該模塊是純計算模塊,對算力要求比較高,同時在功能上獨立性比較強,因此在進行架構設計時,需要將其作為獨立的模塊運行在一個單獨的計算節(jié)點上。為了增強系統(tǒng)的可擴展性,整個模塊被打包成一個Docker鏡像,并通過容器的方式進行部署。同時,模塊會對外提供一個RESTful服務接口,視頻幀采集模塊將采集到的視頻圖片通過HTTP請求發(fā)送給該服務接口,檢測模塊完成頭部檢測后,將結果以HTTP Response形式返回。
③業(yè)務系統(tǒng)對接及數(shù)據(jù)交換模塊。該模塊需要對接兩個外部業(yè)務系統(tǒng)和一個數(shù)據(jù)存儲模塊。其中,對接的外部業(yè)務系統(tǒng)包括教務處的課表系統(tǒng)和到課率統(tǒng)計系統(tǒng)的上層應用。課表信息存儲在Oracle數(shù)據(jù)庫中,業(yè)務系統(tǒng)對接模塊需要定時從該數(shù)據(jù)庫中讀取課表信息,并且根據(jù)當日的課表信息,自動創(chuàng)建視頻抓拍任務。到課人數(shù)統(tǒng)計模塊會在每日凌晨2點觸發(fā)一個定時任務,該定時任務從課表系統(tǒng)拉取當日的課表信息進行解析,然后生成一系列的定時抓拍任務。每個抓拍任務對應一個定時器,當定時器到期的時候,系統(tǒng)自動觸發(fā)抓拍任務,調用視頻幀采集模塊向抓拍任務指定的攝像頭發(fā)送抓拍指令,并將抓拍的圖片發(fā)送給到課人數(shù)統(tǒng)計模塊進行處理,返回的結果則發(fā)送給上層應用進行統(tǒng)計和展示,同時發(fā)送給數(shù)據(jù)存貯模塊進行持久化。為了充分解耦前端業(yè)務系統(tǒng)(業(yè)務處理服務器)和后端計算系統(tǒng)(到課人數(shù)統(tǒng)計服務器)之間的關聯(lián),人數(shù)統(tǒng)計模塊中生成的到課人數(shù)結果通過RESTful接口向外部發(fā)布。上層的應用處理模塊和數(shù)據(jù)存儲模塊均打開一個監(jiān)聽接口,接收到課人數(shù)統(tǒng)計系統(tǒng)發(fā)來的數(shù)據(jù)。
④數(shù)據(jù)存儲模塊。本模塊存儲課程唯一記錄號、抓拍到的圖片和圖片中的到課人數(shù)統(tǒng)計結果。數(shù)據(jù)存儲模塊不僅存數(shù)據(jù),還需要滿足簡單、輕量級的查詢任務??紤]到需要存儲的數(shù)據(jù)較為簡單,查詢要求不高,本系統(tǒng)采用了基于文件的MySQL存儲方案,以簡化系統(tǒng)復雜度。為了留有擴展余地,數(shù)據(jù)存儲模塊作為獨立的服務可部署在不同的節(jié)點上,其對外的數(shù)據(jù)通信通過RESTful接口實現(xiàn)。因此,如果將來由于業(yè)務發(fā)展需要升級數(shù)據(jù)存儲模塊,可在不影響系統(tǒng)中其他模塊正常運行的前提下單獨進行。
(2)數(shù)據(jù)生成與使用
到課人數(shù)統(tǒng)計模塊通過同步課表數(shù)據(jù),從每節(jié)課的上課時間點開始,在課程開始后的前5分鐘、中間5分鐘和最后5分鐘,每分鐘從攝像頭視頻流采集一幀圖像用于計算到課人數(shù),然后將人數(shù)、課程號、課堂照片等數(shù)據(jù)以Json格式編碼作為HTTP的Body發(fā)送給前端業(yè)務模塊。
對于每一節(jié)課,前端業(yè)務模塊會收到多個推送過來的到課人數(shù)統(tǒng)計結果。受抓拍條件、人員流動及算法自身的影響,對于同一節(jié)課,后端每次推送過來的到課人數(shù)是存在差異的,因此前端應用通過計算平均值從多次到課人數(shù)統(tǒng)計結果中得到一個更為可靠的最終結果。具體算法是:課程開始后的前5分鐘計算到課人數(shù)平均值,作為按時到課人數(shù),用于計算準時出勤率和遲到率;課程中間5分鐘計算到課人數(shù)平均值,作為課堂到課人數(shù),用于統(tǒng)計到課率;課程最后5分鐘計算到課人數(shù)平均值,用于計算早退率。
將到課人數(shù)數(shù)據(jù)與課程信息表、選課信息表、學生基本信息表等數(shù)據(jù)表進行關聯(lián)計算,在院長和系主任端顯示各學院和各專業(yè)的到課率情況,并可按教師、班級、教學周、學期等不同維度進行查詢;在教務處及分管教學校領導端可按專業(yè)、學院、年級、教學周、學期等不同維度進行查詢,為學校各級教學管理者提供參考數(shù)據(jù)。圖6所示為到課率數(shù)據(jù)在用戶端的展示。
本系統(tǒng)的前端基于HTML5設計,具有自適應性,可以方便地在PC端和移動端使用?;趯W校的統(tǒng)一組織架構圖和統(tǒng)一身份認證,可以為不同角色的用戶提供相應的授權,以保障數(shù)據(jù)安全。為穩(wěn)妥推進系統(tǒng)應用,教務管理部門選擇兩個學院進行試點,每個月給學院分管教學副院長發(fā)送本月到課率統(tǒng)計報告,報告內容不僅包括本學院到課率情況,也提供橫向對比數(shù)據(jù)(全校平均到課率、各學院平均到課率等),分管教學副院長也可以自行登錄平臺查詢具體到課率情況和現(xiàn)場照片。每月發(fā)送的到課率統(tǒng)計數(shù)據(jù)提高了試點學院對到課率的重視,也給學院教學管理工作提供了數(shù)據(jù)支持,經2023年3月~7月一個學期的試用,兩個學院的平均到課率均有8%以上的提升,說明本系統(tǒng)對于學校的教學管理和督導具有一定的作用。
四 結論與展望
本研究設計的基于深度學習的到課率統(tǒng)計系統(tǒng)在生產環(huán)境下獲得了97.3%的準確率,且具有較好的魯棒性,已經可以滿足學校宏觀教學管理對到課率統(tǒng)計的要求,充分說明本系統(tǒng)設計的科學性和有效性。同時,本系統(tǒng)最大程度地利用了高?,F(xiàn)有的IT硬件資源,且基于開源框架和開源系統(tǒng)進行開發(fā)與部署,具有良好的經濟性和可復制性。但是,由于深度學習原理和機制的限制,當有新教室接入本系統(tǒng)的時候,需要拍攝一定量的課堂照片進行新一輪的機器學習才能保證識別的準確率;而且攝像頭的安裝位置、角度對本系統(tǒng)的識別準確率都有一定的影響。在后續(xù)的系統(tǒng)迭代和升級中,可以考慮對深度學習模型做進一步優(yōu)化,以提升性能。優(yōu)化的方向主要有兩條:一是獲取更多的線上數(shù)據(jù),并通過人工標注后反哺給模型,以提升模型性能。這種方法可以最大程度地挖掘現(xiàn)有模型的潛力,將其性能充分發(fā)揮出來。二是采用新的深度學習模型,通過檢測整個人體(考慮到教室場景,主要是坐姿下的人體檢測)來達到識別到課人數(shù)的目的。這種方法可以突破現(xiàn)有模型的性能瓶頸,有望帶來更好的識別效果,但需要更大的投入,且結果有一定的不確定性。
參考文獻
[1]Sam D B, Surya S, Babu R V. Switching convolutional neural network for crowd counting[A]. 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR)[C]. Honolulu: IEEE Computer Society, 2017:4031-4039.
[2]Damale R C, Pathak B V. Face recognition based attendance system using machine learning algorithms[A]. 2018 Second International Conference on Intelligent Computing and Control Systems (ICICCS)[C]. Madurai: IEEE, 2018:414-419.
[3]陳久紅,張海玉.基于深度學習的教室人數(shù)統(tǒng)計系統(tǒng)設計[J].軟件導刊,2019,(10):27-29、35.
[4]張曉強,王迅,楊航,等.基于智能視覺物聯(lián)網(wǎng)的教室人數(shù)跟蹤系統(tǒng)[J].圖像與信號處理,2019,(2):8.
[5]Yudin D, Ivanov A, Shchendrygin M. Detection of a human head on a low-quality image and its software implementation[J]. The International Archives of the Photogrammetry, Remote Sensing and Spatial Information Sciences, 2019,42:237-241.
[6]Monti L, Tse R, Tang S K, et al. Edge-based transfer learning for classroom occupancy detection in a smart campus context[J]. Sensors, 2022,(10):3692.
[7]Yi K, Yan S, Liu L, et al. CCSS: An effective object detection system for classroom crowd statistics[A]. 2022 IEEE 46th Annual Computers, Software, and Applications Conference(COMPSAC)[C]. Los Alamitos: IEEE, 2022:111-116.
[8]劉媛,陳小麗,屠增輝,等.基于改進RetinaFace算法的教室人數(shù)統(tǒng)計方法[J].計算機與數(shù)字工程,2022,(9):1887-1890、1916.
[9]何強,李靜,陳琳琳.基于改進YOLO V3算法的室內人數(shù)統(tǒng)計模型[J]. Hans Journal of Data Mining, 2023,(1):10-22.
[10]Niu W, Sun X, Yi K. Improved YOLOv5 for skeleton-based classroom behavior recognition[A]. Third International Conference on Intelligent Computing and Human-Computer Interaction(ICHCI 2022)[C]. Guangzhou: SPIE, 2023:107-112.
[11]Fu R, Wang D, Li D, et al. University classroom attendance based on deep learning[A]. 2017 10th International Conference on Intelligent Computation Technology and Automation(ICICTA)[C]. Changsha: IEEE, 2017:128-131.
[12]單華標,龍華偉.高校點名方法和系統(tǒng)[P].中國專利:CN113256834A,2021-8-13.
[13]胡青松,張淳一,陳艷.一種融合WiFi數(shù)據(jù)與人臉識別的課堂點名方法[P].中國專利: CN112734966A,2021-04-30.
Design and Implementation of a Class Attendance Statistics System Based on Deep Learning
Abstract: As a macro teaching management data, class attendance rate plays an important role in the teaching management of colleges and universities. Although some digital methods of class attendance rate statistics methods have emerged in recent years to solve the problems of time, effort and lag in traditional class attendance statistics, they cannot be popularized due to high cost, inconvenient use and low accuracy. With the development of technology, the accuracy of deep learning in multi-target detection is increasingly higher, helping to solve such problems. Therefore, this paper used deep learning technology to design a 1MB-Plus model based on classroom camera RTSP video stream to recognize arriving students heads, and applied it to the class attendance statistics in more than 100 classrooms of a university, and obtained the accuracy of 97.3%. The experiment also showed that the model was helpful to solve the problems of class attendance statistics. Through research, this paper was aimed to provide more accurate macroscopic attendance data for the educational administration departments of colleges and universities at the lowest cost, so as to assist the school teaching management.
KeyWords: class attendance statistics; machine learning; pattern recognition; crowd counting; head detection