董 瑤,徐 敏,周麗娟,陳文龍,周修莊,張曉宇
1(首都師范大學(xué) 信息工程學(xué)院,北京 100048)2(北京郵電大學(xué) 人工智能學(xué)院,北京 100876)3(中國電子科技集團(tuán)公司第四十七研究所,沈陽 110000) E-mail:xumin@cnu.edu.cn
近年來,新時(shí)代“互聯(lián)網(wǎng)+”背景下的在線學(xué)習(xí)模式以其數(shù)字化、網(wǎng)絡(luò)化、智能化等特點(diǎn)快速發(fā)展.在線教育中,師生間的教與學(xué)可以不受時(shí)間和空間的限制,知識獲取方式更加靈活化與多樣化.尤其是疫情期間,各大院校通過慕課網(wǎng)(Massive Open Online Course,MOOC)等網(wǎng)絡(luò)教育平臺,組織師生開展在線教學(xué)工作,啟動(dòng)實(shí)施直播教學(xué)、在線輔導(dǎo)、作業(yè)批改等教育活動(dòng),有效解決學(xué)習(xí)者居家學(xué)習(xí)問題.
然而,在線教育也存在著一些嚴(yán)重的問題.例如,由于師生缺乏有效的實(shí)時(shí)互動(dòng),學(xué)習(xí)者普遍存在輟課率高和完成率低的情況[1].在傳統(tǒng)課堂環(huán)境中,教師通過觀察學(xué)習(xí)者的行為和面部表情,能夠判斷學(xué)習(xí)者的投入程度[2].然而對于線上學(xué)習(xí)場景,教師對所有學(xué)生實(shí)施實(shí)時(shí)監(jiān)管存在困難,學(xué)習(xí)者的學(xué)習(xí)效果只能通過在線平臺的課后反饋數(shù)據(jù)來判斷.因此,對攝像機(jī)采集的學(xué)生行為視覺特征進(jìn)行建模,自動(dòng)實(shí)時(shí)評估學(xué)生參與度,對教師教學(xué)策略的實(shí)時(shí)調(diào)整和個(gè)性化教學(xué)策略的實(shí)施,具有非常重要的指導(dǎo)作用.
學(xué)習(xí)參與度通常被定義為特定學(xué)習(xí)活動(dòng)中,學(xué)生伴隨參與而產(chǎn)生的情緒反應(yīng)的程度[3].對學(xué)生和教師來說,學(xué)習(xí)總是通過互動(dòng)完成的,同時(shí)與教師的聯(lián)系是否緊密也影響著學(xué)生的自學(xué)效率.學(xué)習(xí)參與度反映了學(xué)生持續(xù)學(xué)習(xí)的效果,是衡量教育質(zhì)量和評估學(xué)生學(xué)習(xí)參與情況的重要指標(biāo)[4].識別在線環(huán)境中學(xué)生的學(xué)習(xí)參與度,能夠幫助教師及時(shí)了解學(xué)生的參與情況,推進(jìn)設(shè)計(jì)更加有效的教育教學(xué)方式,提升學(xué)生的學(xué)習(xí)效率和教師的教學(xué)效率[5].
目前參與度自動(dòng)識別的研究主要分為兩個(gè)方面:個(gè)體的內(nèi)部參與和外部參與.內(nèi)部參與包括認(rèn)知參與和情感參與,外部參與指可觀察到的,如面部表情,身體姿態(tài)等信息描述的行為參與[6].在線學(xué)習(xí)環(huán)境中,需要采用電子設(shè)備捕捉學(xué)習(xí)者與系統(tǒng)互動(dòng)過程中的行為表示,再通過分析記錄的數(shù)據(jù)對參與程度進(jìn)行識別.某些行為,例如學(xué)習(xí)者眼睛沒有注視屏幕,或者在觀看視頻時(shí)打哈欠等,被認(rèn)為是參與程度較低的表現(xiàn),相反的,被認(rèn)為是參與程度較高的表現(xiàn).DAiSEE數(shù)據(jù)集[7]收集了112名受試者在無約束環(huán)境下的在線學(xué)習(xí)視頻,并根據(jù)心理專家創(chuàng)建的黃金標(biāo)準(zhǔn),將參與度分為極低參與、低參與、一般參與和高參與4個(gè)等級.圖1給出了4種不同參與程度的示例樣本,極低參與表現(xiàn)為面部皺眉或疲倦,眼睛經(jīng)常看向屏幕外和打哈欠,或者眼睛完全閉合,經(jīng)常變換姿勢等;低參與表現(xiàn)為面部輕微皺眉或疲倦,眼睛有時(shí)看向屏幕外,有時(shí)后仰或者前傾,采取不必要的行動(dòng),例如觸摸他們的身體等動(dòng)作;一般參與表現(xiàn)為面無表情,眼睛主要集中在屏幕上,大部分時(shí)間身體呈直立姿勢,沒有不必要的行動(dòng);高參與表現(xiàn)為臉部表情愉快而嚴(yán)肅,眼睛聚焦在屏幕上,身體姿勢直立,沒有不必要的行動(dòng).
圖1 4種不同參與程度的樣本示例Fig.1 Four samples with different engagement levels
在距離度量空間中,相似的樣本比不相似的樣本距離更近[8].然而,由于學(xué)習(xí)參與度標(biāo)簽的敏感性,存在一些相鄰參與度的學(xué)習(xí)者的視覺特征差異并不明顯,例如圖1中極低參與和低參與的皺眉和疲倦程度沒有明確的分類界線.使用傳統(tǒng)距離度量方法進(jìn)行參與度識別,很可能出現(xiàn)同一類別的參與度樣本對與不同類別的參與度樣本對相比,反而具有更大的視覺特征差異.因此,如何結(jié)合參與度數(shù)據(jù)自身特點(diǎn),學(xué)習(xí)一個(gè)有效的距離度量空間約束深度網(wǎng)絡(luò)提取的嵌入特征的類內(nèi)聚集性和類間分隔性,仍是一項(xiàng)極具挑戰(zhàn)性的研究.為此,本文提出了一種基于有序度量空間的參與度識別方法.
本文的主要貢獻(xiàn)包含以下3點(diǎn):
1)參與度標(biāo)簽的類別具有按照程度從低到高有序的結(jié)構(gòu)屬性,本文利用參與度樣本標(biāo)簽的這一結(jié)構(gòu)特性,提出一種標(biāo)簽敏感的深度度量學(xué)習(xí)方法,將深度網(wǎng)絡(luò)提取的嵌入特征映射到有序度量空間,使得在學(xué)習(xí)獲得的度量空間中,樣本間的視覺特征相似性與其參與程度之間保持有序的一致性,進(jìn)一步提高分類精度.
2)提出了一種困難四元組(hard quadruplet)構(gòu)造策略,挖掘參與度樣本中特征相似度較小的正樣本對,以及特征相似度較大的負(fù)樣本對,有效提升了網(wǎng)絡(luò)對難分類樣本的鑒別能力.
3)在課堂參與度基準(zhǔn)數(shù)據(jù)集DAiSEE上進(jìn)行了充分的實(shí)驗(yàn)評估和驗(yàn)證,實(shí)驗(yàn)結(jié)果表明提出的方法相較基線算法具有較好的性能改進(jìn).
在線學(xué)習(xí)環(huán)境中,參與度識別可以基于多種數(shù)據(jù)模式實(shí)現(xiàn),例如學(xué)習(xí)者上課的行為表現(xiàn)、面部表情或身體動(dòng)作、先進(jìn)的生理和神經(jīng)測量、課后作業(yè)反饋等[9].現(xiàn)有的參與度自動(dòng)識別方法主要分為基于視覺特征、基于時(shí)空特征和基于多模態(tài)特征3種:
1)基于視覺特征的方法主要是使用傳統(tǒng)的機(jī)器學(xué)習(xí)方法或深度學(xué)習(xí)方法從視頻每一幀圖像的二維空間上提取特征,常用的特征包括眼睛注視特征、面部活動(dòng)單元(Action Unit,AU)、LBP-TOP(Local Binary Pattern from Three Orthogonal Planes)特征等.Mcdaniel B等[10]較早利用面部表情,也就是提取面部特征來檢測學(xué)習(xí)情境中的情緒.Jacob Whitehill等[11]利用視頻分析的方法識別行為參與度,并定義了4個(gè)層次的參與度,該分析是基于面部視覺特征進(jìn)行的,他們分別提取Box Filter(BF)和 Gabor Energy Filters這些低級特征,然后用GentleBoost和支持向量機(jī)(Support Vector Machine,SVM)分類器對提取的特征進(jìn)行分類,同時(shí)使用CERT工具[12]提取3D頭部姿態(tài)和20個(gè)面部活動(dòng)單元等高級特征,然后建立多項(xiàng)邏輯回歸(Multinomial Logistic Regression,MLR)模型進(jìn)行預(yù)測.Woo-Han Yun等[13]提出了一種基于卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)的兒童參與度自動(dòng)識別方法,利用深度學(xué)習(xí)對圖像數(shù)據(jù)進(jìn)行特征提取和分類.
2)基于時(shí)空特征的方法目前在行為檢測、手勢識別等領(lǐng)域具有廣泛應(yīng)用,通過捕捉動(dòng)作的時(shí)序動(dòng)態(tài)信息,提高模型的識別性能.Huang Tao等[14]提出了一個(gè)結(jié)合時(shí)間卷積(temporal convolution)、雙向長短期記憶網(wǎng)絡(luò)(Bi-directional Long-Short Term Memory,Bi-LSTM)和注意力機(jī)制(Attention Mechanism)的DERN(Deep Engagement Recognition Network)模型,利用時(shí)間卷積來捕捉局部特征,并將淺層特征和深層特征進(jìn)行串聯(lián),使模型更容易從視頻中學(xué)習(xí)知識.根據(jù)當(dāng)前的學(xué)習(xí)內(nèi)容和之前的學(xué)習(xí)內(nèi)容,用戶的參與程度隨著時(shí)間的推移而變化.為了捕獲這些變化,學(xué)習(xí)并獲得連續(xù)段之間的關(guān)系,Van Thong等[15]提出了一個(gè)包含長短期記憶網(wǎng)絡(luò)LSTM和全連接層的兩種不同組合的集成模型,并對最后一個(gè)全連接層的輸出進(jìn)行預(yù)測.在EmotiW2020挑戰(zhàn)賽中,Zhu Bin等[16]應(yīng)用多特征工程方法,提取面部特征、身體姿勢特征和CNN特征,建立了一個(gè)基于注意力的門控循環(huán)單元(Gated Recurrent Unit,GRU)深度網(wǎng)絡(luò),以捕捉長期視頻序列的時(shí)間特征.
3)基于多模態(tài)特征的方法是指從多個(gè)角度對用戶參與度進(jìn)行分析,通常包括視頻信息、音頻信息、學(xué)習(xí)日志、生理信號等.Monkaresi H等[17]在模擬教育環(huán)境中收集學(xué)習(xí)者在進(jìn)行學(xué)習(xí)活動(dòng)時(shí)的面部視頻和心率數(shù)據(jù),提取視頻片段的面部活動(dòng)單元特征、LBP-TOP特征,將這兩組特征和心率數(shù)據(jù)共同用于建立機(jī)器學(xué)習(xí)模型預(yù)測參與度.Leite I等[18]收集了受試者的上身姿勢信息、面部信息和日志文件,對兒童與兩個(gè)社交機(jī)器人互動(dòng)時(shí)的參與度進(jìn)行研究,研究結(jié)果表明,使用群體數(shù)據(jù)訓(xùn)練的模型比個(gè)體數(shù)據(jù)訓(xùn)練的模型具有更強(qiáng)的泛化能力.Niu等[19]采用OpenFace2.0[20]進(jìn)行眼睛注視特征(Eye Gaze)、面部活動(dòng)單元(AU)、頭部姿態(tài)特征(Head Pose)提取,設(shè)計(jì)提出Gaze-AU-Pose特征用于參與度識別任務(wù).
目前關(guān)于參與度自動(dòng)識別的研究大多是將參與度識別任務(wù)作為標(biāo)準(zhǔn)分類任務(wù),結(jié)合softmax輸出特征向量屬于每一類的概率,得到最佳分類結(jié)果.近年來,深度度量學(xué)習(xí)在動(dòng)作識別、圖像檢索、行人重識別等一些分類任務(wù)上取得了顯著成效.基于樣本間的相似性原則[21],深度度量學(xué)習(xí)將深度網(wǎng)絡(luò)與度量學(xué)習(xí)結(jié)合,通過特定的損失函數(shù),學(xué)習(xí)一個(gè)從原始特征到低維稠密的特征空間的非線性映射,使圖像之間的相似性保留在特征空間中.在該映射下,同類樣本對應(yīng)的特征距離更近,不同類樣本對應(yīng)的特征距離更遠(yuǎn),從而達(dá)到細(xì)分類的目的.與傳統(tǒng)的距離度量方法相比,深度度量學(xué)習(xí)不依賴原始輸入空間,而且能夠很好的映射未知類別的新樣本與訓(xùn)練樣本之間的關(guān)系.
損失函數(shù)在深度度量學(xué)習(xí)中扮演著非常重要的角色,其中比較經(jīng)典的是對比損失(contrastive loss)[22]和三元組損失(triplet loss)[23].對比損失遵循的基本準(zhǔn)則是在嵌入空間中,類內(nèi)距離越小越好,類間距離如果小于一個(gè)固定值m,則通過互斥使其距離接近m.三元組損失最早在人臉識別任務(wù)中提出,其通過隨機(jī)選擇一個(gè)樣本作為錨點(diǎn),然后各選擇一個(gè)與錨點(diǎn)相同類別和不同類別的正負(fù)樣本,并約束使得負(fù)樣本對之間的距離大于正樣本對之間的距離.相較于對比損失,三元組損失的優(yōu)勢在于考慮到了類內(nèi)距離和類間距離之間的關(guān)系,能夠更好的對細(xì)節(jié)進(jìn)行區(qū)分.然而,這兩種損失函數(shù)在訓(xùn)練時(shí)每次只挖掘一個(gè)負(fù)樣本,忽略了其他負(fù)樣本,因此常會出現(xiàn)收斂速度慢、效果差的問題.針對以上問題,多類N元組損失(multi-class N-pair loss)[24]作出了改進(jìn),使用N元組而不是原來的二元組或三元組,要求同類樣本間的距離必須同時(shí)小于N-1組類間距離,這樣在訓(xùn)練時(shí)每次會挖掘更多負(fù)樣本,使查詢樣本(query)與其他所有不同類之間都保持一定距離,從而加快模型的收斂速度.還有一些基于聚類思想的損失函數(shù),如簇聚類損失(coupled clusters loss)[25]為同類樣本估計(jì)一個(gè)類中心,使得所有正樣本到該類中心的距離加上一個(gè)間隔值,能夠小于其他不同類樣本到該類中心的距離;代理損失(proxy loss)[26]將原始樣本用小規(guī)模的代理點(diǎn)(proxy point)來近似表示,將計(jì)算錨點(diǎn)與同類樣本間的距離轉(zhuǎn)換成計(jì)算錨點(diǎn)和代理點(diǎn)間的距離,減少計(jì)算量進(jìn)而加快迭代速度,同時(shí)在一定程度上克服了樣本對采樣困難的問題.
在解決類別標(biāo)簽有序的多分類問題時(shí),深度度量學(xué)習(xí)方法一般通過設(shè)置閾值,將連續(xù)標(biāo)簽量化為二分類標(biāo)簽[27],并沒有考慮到相似的程度及其順序,忽略了具有連續(xù)標(biāo)簽的圖像之間豐富的語義相似性.為了解決這一問題,Kim S等[28]提出了一種新的基于連續(xù)標(biāo)簽的深度度量學(xué)習(xí)的損失函數(shù)log-ratio loss,且在3個(gè)不同的圖像檢索任務(wù)上驗(yàn)證了該方法的性能.與此相似,Liu Hao等[29]提出了一種有序距離度量學(xué)習(xí)方法,用于人臉年齡估計(jì).受此啟發(fā),本文結(jié)合參與度樣本庫中連續(xù)視頻數(shù)據(jù)的標(biāo)簽敏感性和有序性等特點(diǎn),設(shè)計(jì)了一個(gè)有序度量損失函數(shù)(ordinal metric loss),期望在學(xué)習(xí)到的度量空間中,保持嵌入特征距離與參與度標(biāo)簽距離一致性有序,提升模型分類能力.其次,本文還提出了困難四元組構(gòu)造策略,通過最小化特征相似度較小的正樣本對和最大化特征相似度較大的負(fù)樣本對,充分挖掘困難樣本以提高模型訓(xùn)練的穩(wěn)定性和訓(xùn)練效率.
本文方法流程如圖2所示,低層為3D卷積網(wǎng)絡(luò)(3D Convolutional Networks,C3D)[30],它面向?qū)W習(xí)者進(jìn)行參與視覺特征表示學(xué)習(xí),頂層設(shè)計(jì)面向兩個(gè)不同但相關(guān)的學(xué)習(xí)任務(wù):參與度標(biāo)簽有序的深度度量學(xué)習(xí)和參與度分類學(xué)習(xí).本文提出的參與度識別方法包含3個(gè)階段.第1階段,利用C3D網(wǎng)絡(luò)提取最小批樣本的視覺特征,通過softmax層輸出分類結(jié)果.第2階段,通過度量視覺特征向量的相似性,進(jìn)行困難四元組挖掘.第3階段,聯(lián)合優(yōu)化有序度量損失函數(shù)和分類損失函數(shù),使得在學(xué)習(xí)到的參與度有序的度量空間中,類內(nèi)對距離更近,類間對距離更遠(yuǎn).通過相關(guān)調(diào)參,以及實(shí)驗(yàn)對比得到最佳結(jié)果.
圖2 方法框架Fig.2 Framework of our method
對于輸入EngageNet框架的最小批樣本,首先構(gòu)造一系列四元組(i,j,k,l),其中(i,j)∈Λ+,(i,k)∈Λ-,(j,l)∈Λ-,Λ+和Λ-分別代表正、負(fù)樣本對的序號集合.樣本對(xi,xj)的視覺特征相似性一般表示為兩者的歐氏距離:
df(xi,xj)=‖f(xi)-f(xj)‖2
(1)
在度量空間中,同類樣本對距離df(xi,xj)應(yīng)該盡可能小,不同類別樣本對距離df(xi,xk)和df(xj,xl)應(yīng)該盡可能大.然而,由于參與度樣本標(biāo)簽的敏感性和分布有序性,不同標(biāo)簽的視覺特征無法得到明確區(qū)分,很可能出現(xiàn)同類參與度樣本對與不同類別參與度樣本對相比,具有更大的視覺特征差異.因此,本文將樣本間的特征相似性度量標(biāo)準(zhǔn)重新定義,精確建模視覺特征相似性與參與度標(biāo)簽距離的潛在關(guān)聯(lián),具體表示為:
df(xi,xj)=‖f(xi)-f(xj)‖2s(yi,yj)
(2)
式中,s(yi,yj)為參與度樣本的標(biāo)簽相似度,定義為:
s(yi,yj)=e-(yi-yj)2/σy
(3)
式中,σy為參與度差異閾值,它反映了樣本標(biāo)簽分布的方差.在參與度有序度量空間中,將有序標(biāo)簽結(jié)構(gòu)與歐氏距離結(jié)合,使得視覺特征相似性與其參與度標(biāo)簽相似度保持一致性,增強(qiáng)模型的分類能力.
圖3 C3D網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.3 Schematic diagram of C3D network structure
困難樣本(Hard Example)指訓(xùn)練過程中損失較高的,易被錯(cuò)誤分類的樣本.對困難樣本進(jìn)行挖掘再訓(xùn)練,更能指導(dǎo)模型優(yōu)化的方向,提升模型的判別能力.困難樣本挖掘一般分為離線挖掘和在線挖掘.離線挖掘方法通常是事先設(shè)定一個(gè)閾值,若預(yù)測結(jié)果與真實(shí)值之間的相關(guān)度超過該閾值,則認(rèn)為是正樣本,相關(guān)度小于閾值的被認(rèn)為是負(fù)樣本,需要重新放到網(wǎng)絡(luò)中訓(xùn)練.然而,這一做法在訓(xùn)練后期會導(dǎo)致訓(xùn)練數(shù)據(jù)分布不平衡,正樣本數(shù)量遠(yuǎn)小于負(fù)樣本數(shù)量,影響模型分類效果.Shrivastava A等[31]提出的OHEM(Online Hard Example Mining)算法,根據(jù)輸入樣本的損失值自動(dòng)篩選出困難樣本進(jìn)行迭代,然后使用隨機(jī)梯度下降法(Stochastic Gradient Descent,SGD)進(jìn)行訓(xùn)練.S-OHEM(Stratified Online Hard Example Mining)算法[32]考慮到不同損失函數(shù)分布的影響,將訓(xùn)練分為4個(gè)階段,每個(gè)訓(xùn)練階段根據(jù)不同損失函數(shù)的重要程度調(diào)整系數(shù).與OHEM算法相比,S-OHEM算法在關(guān)注損失值較高的困難樣本的同時(shí),并未忽略簡單樣本的作用.
(4)
(5)
(6)
(7)
式中,λ為正樣本對損失項(xiàng)和負(fù)樣本對損失項(xiàng)的平衡參數(shù),Γ為負(fù)樣本對的相似度閾值.
聯(lián)合進(jìn)行有序度量學(xué)習(xí)和分類學(xué)習(xí)任務(wù),使用多任務(wù)目標(biāo)函數(shù)對網(wǎng)絡(luò)進(jìn)一步優(yōu)化:
L=LOM+βLCE
(8)
式中,β為權(quán)衡超參數(shù),用以平衡兩個(gè)不同的損失函數(shù),LCE是多分類交叉熵?fù)p失,定義為:
(9)
為了評估基于有序度量學(xué)習(xí)的課堂參與度識別算法的有效性,本文在公開數(shù)據(jù)集DAiSEE上進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)中的模型均使用Pytorch框架實(shí)現(xiàn).
DAiSEE是第1個(gè)多標(biāo)簽視頻分類數(shù)據(jù)集,包含來自112個(gè)亞洲學(xué)習(xí)者的9068個(gè)視頻片段,每個(gè)視頻時(shí)長約10秒,用于識別用戶在無約束環(huán)境下的無聊、困惑、參與和沮喪4種情感狀態(tài).受試者包括80名男性,32名女性,年齡分布在18~30歲.為模擬在線學(xué)習(xí)的真實(shí)場景,捕捉受試者情感狀態(tài)的自然變化,DAiSEE采集了3種不同光照設(shè)置下,6種不同場景中錄制的在線學(xué)習(xí)視頻(1920x1080,30fps),并且按60:20:20的比例分成訓(xùn)練集、驗(yàn)證集和測試集.DAiSEE數(shù)據(jù)集定義了4個(gè)級別的標(biāo)簽,首先通過眾包標(biāo)注法對數(shù)據(jù)進(jìn)行標(biāo)注,再用心理專家創(chuàng)建的黃金標(biāo)準(zhǔn)進(jìn)行關(guān)聯(lián)標(biāo)注,每種情感狀態(tài)等級由低到高分別用{0,1,2,3}表示.本文針對受試者的參與情感狀態(tài)進(jìn)行研究.
DAiSEE收集學(xué)習(xí)者在無約束環(huán)境下的在線學(xué)習(xí)視頻,視頻拍攝過程中存在一些可能會影響參與度識別結(jié)果的因素,例如學(xué)習(xí)環(huán)境光線不足,視頻存在多個(gè)主體等情況.因此,為減少背景信息的干擾,并盡可能地保證受試者身體特征信息完整,本研究采用開源動(dòng)作理解工具箱MMAction2進(jìn)行主體裁剪重新形成數(shù)據(jù)集,圖像尺寸為128×171.為避免局部時(shí)空信息特征的丟失,本文采取視頻分段法對數(shù)據(jù)集進(jìn)行處理,即將每個(gè)10秒的視頻,劃分為4個(gè)時(shí)長為4秒的包含重疊部分的子視頻片段.從每個(gè)子視頻中隨機(jī)抽取16幀連續(xù)圖像,訓(xùn)練時(shí)采用隨機(jī)旋轉(zhuǎn)、翻轉(zhuǎn)、添加隨機(jī)噪聲、隨機(jī)調(diào)整對比度、調(diào)整亮度等方式進(jìn)行數(shù)據(jù)增強(qiáng),使得在擴(kuò)大數(shù)據(jù)容量的同時(shí),模型在擾動(dòng)下仍能保持較好的學(xué)習(xí)能力.將圖像裁剪后歸一化到112×112像素輸入C3D網(wǎng)絡(luò)中,提取的嵌入特征維度為128.
為了分析比較不同算法的性能隨迭代次數(shù)變化的趨勢,使實(shí)驗(yàn)結(jié)果更為直觀,實(shí)驗(yàn)采用準(zhǔn)確率(accuracy)作為參與度分類任務(wù)的評價(jià)指標(biāo),準(zhǔn)確率公式定義如下:
(10)
從準(zhǔn)確率公式可以看出,準(zhǔn)確率可以有效考察分類正確的測試樣本數(shù)量在所有分類結(jié)果中的占比情況,取值范圍為[0,1],其值越大,表示識別效果越好.
網(wǎng)絡(luò)訓(xùn)練時(shí)使用標(biāo)簽平滑(Label Smoothing)方式進(jìn)行正則化[33],使得在計(jì)算損失值時(shí)能夠有效抑制過擬合現(xiàn)象,更好地校準(zhǔn)網(wǎng)絡(luò),提高泛化能力.批量大小設(shè)為32,網(wǎng)絡(luò)共訓(xùn)練200個(gè)epoch,使用隨機(jī)梯度下降算法作為優(yōu)化器,動(dòng)量參數(shù)設(shè)為0.9,權(quán)重衰減項(xiàng)設(shè)為0.0005.初始學(xué)習(xí)率設(shè)為0.001,每隔10個(gè)epoch降低學(xué)習(xí)率至當(dāng)前的1/10,標(biāo)簽平滑參數(shù)設(shè)為0.15.基線的訓(xùn)練超參數(shù)與之相同.
本文將提出的算法與5種算法進(jìn)行了對比,以下是對比算法的簡單介紹:
C3D[7]:算法使用視頻幀作為輸入,網(wǎng)絡(luò)包括8個(gè)卷積層,5個(gè)池化層,2個(gè)全連接層,使用softmax層分類.
I3D[34]:考慮到在線學(xué)習(xí)視頻中,主體運(yùn)動(dòng)幅度遠(yuǎn)小于動(dòng)作分類時(shí)的運(yùn)動(dòng)幅度,且動(dòng)作持續(xù)時(shí)間較短,算法直接使用連續(xù)RGB幀輸入到雙流膨脹3D卷積網(wǎng)絡(luò)(I3D)[35]進(jìn)行端到端訓(xùn)練,使用softmax層分類.
Focal Loss[36]:算法將C3D網(wǎng)絡(luò)第1個(gè)全連接層的輸出單元設(shè)為2048,第2個(gè)全連接層的輸出單元設(shè)為512,結(jié)合Focal損失函數(shù),通過調(diào)整各個(gè)類別的權(quán)重有效解決參與度數(shù)據(jù)集樣本分布不均衡問題.
LRCN[37]:算法使用端到端的訓(xùn)練方法,輸入為16幀連續(xù)的RGB圖像,采用CNN網(wǎng)絡(luò)提取圖像特征,并將其作為LSTM的輸入,損失為所有時(shí)刻的損失和,將所有時(shí)刻預(yù)測結(jié)果的平均值作為最終預(yù)測結(jié)果.
DFSTN[38]:算法首先使用MTCNN裁剪面部區(qū)域,采用預(yù)訓(xùn)練的SE-ResNet-50(SENet)提取面部空間特征,基于全局注意力機(jī)制的長短期記憶網(wǎng)絡(luò)(Long Short Term Memory Network with Global Attention,GALN)根據(jù)面部空間特征生成一個(gè)注意力的隱藏狀態(tài).經(jīng)過訓(xùn)練,實(shí)現(xiàn)了從時(shí)空特征到參與程度的映射.
將提出的方法在DAiSEE訓(xùn)練集上進(jìn)行訓(xùn)練,然后在驗(yàn)證集和測試集上對模型的分類精度進(jìn)行評估,結(jié)果如表1所示.從表1中可以看出,數(shù)據(jù)清洗和標(biāo)簽平滑方法能夠有效提升分類效果,微調(diào)模型的測試精度達(dá)到57.06%.聯(lián)合優(yōu)化有序度量損失和交叉熵分類損失的模型測試精度為58.92%,相較于當(dāng)前先進(jìn)算法58.84%的結(jié)果[37],本文提出的參與度識別方法具有優(yōu)勢,達(dá)到了更高的準(zhǔn)確率.
為確定有序度量損失中超參數(shù)的不同取值對分類結(jié)果的影響,本文進(jìn)行了大量對比實(shí)驗(yàn),部分實(shí)驗(yàn)結(jié)果如表2所示,除有序度量損失中各個(gè)超參數(shù)的取值不同外,對比實(shí)驗(yàn)的其他參數(shù)設(shè)置均一致.表2表明,通過調(diào)整有序度量損失中的參數(shù)可以得到較高的準(zhǔn)確率,最后發(fā)現(xiàn)當(dāng)σy取2,Γ取0.8,λ取0.15時(shí)效果最佳,此時(shí)聯(lián)合優(yōu)化的多任務(wù)目標(biāo)函數(shù)的β設(shè)為0.5.通過多組對比實(shí)驗(yàn),可以得出結(jié)論,聯(lián)合建模有序度量學(xué)習(xí)和視覺特征學(xué)習(xí),進(jìn)行困難四元組挖掘可以有效提高參與度識別任務(wù)的分類準(zhǔn)確度.
表1 不同算法在DAiSEE數(shù)據(jù)集上的分類精度Table 1 Classification accuracy of different algorithms on DAiSEE
表2 有序度量損失中不同超參數(shù)取值的分類精度Table 2 Classification accuracy of different values of hyper-parameters in the ordinal metric loss function
本文將有序深度度量學(xué)習(xí)的方法引入?yún)⑴c度視覺特征表示,通過實(shí)驗(yàn)驗(yàn)證了方法的可行性和有效性,得到以下結(jié)論:1)通過聯(lián)合建模有序度量學(xué)習(xí)和參與度分類學(xué)習(xí)兩項(xiàng)任務(wù),挖掘出更多的共享信息,同時(shí)考慮到兩者的差異性,使模型具有較好的泛化能力;2)提出的困難四元組構(gòu)造策略,有效地減小了類內(nèi)困難樣本對的距離,同時(shí)增大了類間困難負(fù)樣本對的距離;3)提出的有序度量損失函數(shù)充分利用了參與度樣本的標(biāo)簽分布結(jié)構(gòu),在學(xué)習(xí)到的度量空間中約束嵌入向量距離與標(biāo)簽距離保持相同的比率,進(jìn)一步提升了模型的判別能力.未來期望能夠?qū)⑺龅墓ぷ餮由斓浇逃I(lǐng)域,輔助教師更好的開展線上教學(xué)工作,同時(shí)可為學(xué)習(xí)者提供個(gè)性化支持,具有深遠(yuǎn)的意義.
但本文方法仍存在不足,如設(shè)置了較多的超參數(shù),需要根據(jù)自身經(jīng)驗(yàn)通過實(shí)驗(yàn)進(jìn)行不斷調(diào)整,降低了實(shí)驗(yàn)效率.另外數(shù)據(jù)集樣本分布不均衡,對模型分類效果也有一定影響,今后將考慮引入生成對抗學(xué)習(xí)或者小樣本學(xué)習(xí)的方法,生成小樣本數(shù)據(jù)和訓(xùn)練困難的樣本數(shù)據(jù),通過擴(kuò)充數(shù)據(jù)量的方法解決參與度樣本不平衡問題.