(西安培華學(xué)院,陜西西安市,710000)萬 卷
中國互聯(lián)網(wǎng)絡(luò)信息中心2020年4月28日在最新的中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告中說:截至今年3月,在線教育呈爆發(fā)性增長,用戶規(guī)模達(dá)4.23億,比2018年底增長110.2%,占網(wǎng)民整體的46.8%。2020年,突如其來的新冠肺炎疫情影響了全球大部分人的生活及行業(yè)發(fā)展,在停課不停學(xué)的號召下,在線教育用戶激增。截至2020年6月,我國在線教育用戶規(guī)模達(dá)3.81億,占網(wǎng)民整體的40.5%;手機(jī)在線教育用戶規(guī)模達(dá)3.77億占手機(jī)網(wǎng)民的40.4%。由此可見,在線學(xué)習(xí)數(shù)量非常驚人,那么讓學(xué)生學(xué)會高效率的學(xué)習(xí)相當(dāng)重要,同時(shí)這也是教育界以及家長們最為關(guān)注的問題。
在本篇文章中,主要針對如何使用卷積神經(jīng)網(wǎng)絡(luò)模型提高學(xué)習(xí)效率展開了深入的探討和研究,不僅探究了學(xué)生的眼部,還探究了學(xué)生的嘴部,除此之外,當(dāng)然還有其他部位,通過判斷這些部位,可以得知人們關(guān)于學(xué)生的疲勞以及學(xué)習(xí)情緒的判斷是否準(zhǔn)確和一致。在線學(xué)習(xí)狀態(tài)的識別功能的設(shè)計(jì)從整體而言,可分為兩個(gè)方面:①檢測學(xué)生是否在移動設(shè)備前上課。②對學(xué)生進(jìn)行疲勞度和學(xué)習(xí)情緒檢測評估。流程如圖1所示。
圖1 目標(biāo)檢測與學(xué)情分析流程圖
首先對學(xué)生進(jìn)行目標(biāo)檢測與面部識別即對課堂上拍攝到的視頻流進(jìn)行人體目標(biāo)檢測。這里我們使用單階段的基于改進(jìn)的YOLOV4網(wǎng)絡(luò)模型。YOLOV4優(yōu)化了計(jì)算效率,使檢測器在單個(gè)GPU上也能很好地完成訓(xùn)練。
YOLOV4分 為 Input,BackBone,Neck,Prediction。訓(xùn)練時(shí)對輸入端的改進(jìn),主要包括Mosaic數(shù)據(jù)增強(qiáng)、cmBN、SAT自對抗訓(xùn)練。
骨干結(jié)構(gòu)(BackBone)CSPDarknet53為了檢測器MAP指標(biāo)的提升,考慮選擇一個(gè)圖像特征提取能力較強(qiáng)的backbone,及兼顧了準(zhǔn)確率又沒有影響檢測的速度。所以選擇了具有CSP(Cross-stage partial connections)的darknet53。每個(gè)CSP模塊前面的卷積核的大小都是3*3,stride=2,因此可以起到下采樣的作用。因?yàn)锽ackbone有5個(gè)CSP模塊,輸入圖像是608*608。經(jīng)過5次CSP模塊后得到19*19大小的特征圖。同時(shí)使用的激活函數(shù)是Mish激活函數(shù)。
Neck:為了讓輸入頭部的信息更豐富,在輸入頭部前,會將來自自底向上和自上而下的數(shù)據(jù)流按逐元素的方式相加或相連。所以說,頭部的輸入包含的信息還是蠻大的,該系統(tǒng)的這一部分即為頸部(Neck)。目標(biāo)檢測網(wǎng)絡(luò)在BackBone和最后的輸出層之間往往會插入一些層,主要用來融合不同尺寸特征圖的特征信息,用SPP模塊、FPN+PAN結(jié)構(gòu)。在DC塊之后引入3個(gè)最大池化層的SPP塊,對多尺度池化提取和收斂的局部區(qū)域特征進(jìn)行協(xié)整。池化前采用1×1卷積,將輸入特征圖的數(shù)量從1024個(gè)減少到512個(gè)。
將匯集的特征圖和SPP塊的輸入特征圖進(jìn)行連接,得到sizefmap×sizefmap×2048個(gè)特征圖作為SPP塊的輸出端。
網(wǎng)絡(luò)的最后一部分是對象檢測塊,在這一部分中,將分辨率較高的DC塊的輸出特征圖與分辨率較低的SPP塊的輸出特征圖進(jìn)行重建和并聯(lián)。然后將上述特征圖通過1×1×[K×(5+C)]卷積得到S×S×[K×(5+C)]特征圖,用于對象檢測。
訓(xùn)練時(shí)采用的損失函數(shù)是CIOU_Loss,預(yù)測框篩選為DIOU_nms。原因是提出一個(gè)好的檢測邊界回歸的損失函數(shù)應(yīng)該考慮三個(gè)重要的幾何因素:重疊面積、中心點(diǎn)距離和長寬比。通過統(tǒng)一坐標(biāo),IoU損失考慮了檢測框重疊面積,GIoU損失嚴(yán)重依賴IoU損失。DIoU loss旨在同時(shí)考慮檢測邊界框的重疊面積和中心點(diǎn)距離。然而,邊界框的長寬比的一致性也是一個(gè)重要的幾何因素。因此,在DIoU損耗的基礎(chǔ)上,通過施加長寬比的一致性提出CIoU損耗。
通過該方法,重疊區(qū)域因素在回歸中被賦予了更高的優(yōu)先權(quán),特別是對于非重疊的情況。
身份驗(yàn)證成功后對學(xué)生進(jìn)行專注度及疲勞和情緒及態(tài)度檢測評估。
通過使用ERT人臉特征點(diǎn)檢測算法對人體的臉部各個(gè)部位進(jìn)行檢測,從而得出各個(gè)部位的坐標(biāo),然后找出坐標(biāo)的中心點(diǎn),從而更好的觀察面部的狀態(tài),便于后期評估工作的進(jìn)行,根據(jù)YawDD提供的數(shù)據(jù),以此來作為依據(jù),從而將數(shù)據(jù)集制作出來,目的就是為了更加徹底的判別人臉疲勞。
再判別面部專注度的時(shí)候,會使用到類似PERCLOS參數(shù)來進(jìn)行判斷,我們可以確定眼睛的開閉狀態(tài)。首先,DHb庫中的ERT算法檢測到68個(gè)面部特征點(diǎn),如圖2所示。
圖2 Dlib—68個(gè)人臉特征點(diǎn)
我們定義37->p1,38->p2,39->p3,40->p4,41->p5,42->p6,上圖中的特征點(diǎn)p1,p2,p3,p4,p5和p6是面部特征點(diǎn)中相對應(yīng)的表示眼睛的六個(gè)特征點(diǎn)。如圖3所示。
圖3 Dlib—68個(gè)人臉特征點(diǎn)
無論是睜開眼睛還是緊閉眼睛,如上圖所示,就顯示了眼睛再睜開和閉合的時(shí)候,眼睛部位各個(gè)點(diǎn)之間的關(guān)系,其呈一條直線的狀態(tài)。由此可見,當(dāng)睜開眼睛或者是閉上眼睛的時(shí)候,這些點(diǎn)的長寬比都是不一樣的。在計(jì)算眼睛閉合程度的時(shí)候,可以采用EAR方程來進(jìn)行計(jì)算。
在使用分子計(jì)算的時(shí)候,可以依據(jù)眼睛的特征部位進(jìn)行計(jì)算,也就是說在眼部周圍有一些特征點(diǎn),根據(jù)這些特征點(diǎn)進(jìn)行計(jì)算,這會更加容易計(jì)算出垂直方向上距離的大小,不同的是,在分式的分母中,主要用于眼睛周圍部位水平距離的計(jì)算,當(dāng)一組水平點(diǎn)與兩組垂直點(diǎn)同時(shí)出現(xiàn)的時(shí)候,為了使得兩組特征點(diǎn)有著一樣的權(quán)重,那么此時(shí)分母應(yīng)該再乘以2,從而達(dá)到這個(gè)目的。
利用眨眼狀態(tài)進(jìn)行疲勞檢測,當(dāng)EAR小于閾值時(shí),接連多少幀發(fā)生眨眼動作,才認(rèn)為當(dāng)前眼睛是因?yàn)槠陂]合的。現(xiàn)階段主要的研究表明人出現(xiàn)疲勞時(shí),每次眨眼時(shí)間占用1~2秒,假設(shè)視頻30幀每秒,相當(dāng)于占用連續(xù)的30~60幀。可以將眼睛持續(xù)閉合時(shí)間超過2.2s(連續(xù)幀數(shù)超過66幀)作為疲勞閉合判定的閾值。哈欠檢測采用類似EAR的方法判斷。嘴巴張開程度在打哈欠時(shí)比正常說話時(shí)大很多。
對于表情來說,可以展現(xiàn)出一個(gè)人情緒如何,是一個(gè)人情緒的外在體現(xiàn),研究人員在研究人類情緒的時(shí)候,也會以此來做依據(jù)。對于面部表情來說,通常情況下,測量起來并不是件困難的事。通過調(diào)查研究大學(xué)課堂中學(xué)生的實(shí)際心理狀態(tài),并參考相關(guān)文獻(xiàn)進(jìn)行歸納和總結(jié),我們重新定義了“傾聽”、“疑惑”、“理解”、“抗拒”、“不屑”五種表情,如圖4所示。
圖4 根據(jù)學(xué)生心理重新定義的五種表情
在上面的結(jié)構(gòu)圖中,可以看出,“傾聽”可以代表著學(xué)生在聽課的時(shí)候很專心致志?!耙苫蟆贝碇鴮W(xué)生在聽課的時(shí)候,會跟著老師的步伐,然后遇到不懂的地方就會產(chǎn)生疑問?!袄斫狻贝碇鴮W(xué)生在上課的時(shí)候,經(jīng)過認(rèn)真聽講以后,能夠領(lǐng)會課堂上所學(xué)習(xí)的內(nèi)容。“抗拒”代表著學(xué)生對課堂上所學(xué)習(xí)的東西產(chǎn)生了厭惡心理。“不屑”代表著學(xué)生對課堂上學(xué)習(xí)的內(nèi)容失去了興趣。在上面的幾種表情中,能夠表現(xiàn)出學(xué)生在課堂上愿意學(xué)習(xí)的表情包括傾聽,疑惑和理解。剩余的表情反映出了學(xué)生對課堂的厭惡。
在當(dāng)前主流檢測方法中,檢測率仍然處于較低的狀態(tài),并且對學(xué)生在線學(xué)習(xí)狀態(tài)的判斷還不夠全面,本文使用深度學(xué)習(xí)中較為先進(jìn)的YOLOV4作為目標(biāo)檢測算法,面部特征的檢測越來越準(zhǔn)確,通過在課堂上對學(xué)生的眼部、嘴部等區(qū)域進(jìn)行采樣與分析,使學(xué)生在線學(xué)習(xí)狀態(tài)的測量和評價(jià)更具現(xiàn)實(shí)意義。