摘" "要:在線學(xué)習(xí)由于其智能化和個(gè)性化愈發(fā)成為人們青睞的主流學(xué)習(xí)方式,然“情知分離”現(xiàn)象的存在嚴(yán)重阻礙了在線教學(xué)深層發(fā)展,如何即時(shí)、精確感知學(xué)習(xí)情感進(jìn)而為改善學(xué)習(xí)績(jī)效提供參考便亟待研究。文章構(gòu)建多模態(tài)數(shù)據(jù)融合的在線學(xué)習(xí)情感計(jì)算模型,采集被試面部表情、語音和文本數(shù)據(jù),借助情感識(shí)別模型獲取各模態(tài)情感識(shí)別結(jié)果。在此基礎(chǔ)之上,通過基于決策級(jí)融合的方式實(shí)現(xiàn)多模態(tài)在線學(xué)習(xí)情感計(jì)算,并確定最優(yōu)情感計(jì)算模型。研究發(fā)現(xiàn),最優(yōu)情感計(jì)算模型的平均識(shí)別精度較單模態(tài)情感識(shí)別提高了14.51%,證實(shí)該模型在在線學(xué)習(xí)場(chǎng)景下進(jìn)行情感計(jì)算具有可行性和有效性。
關(guān)鍵詞:在線學(xué)習(xí);情感計(jì)算;多模態(tài)數(shù)據(jù);學(xué)習(xí)情感;在線教育
中圖分類號(hào):G434" "文獻(xiàn)標(biāo)識(shí)碼:A" "DOI:10.11968/tsyqb.1003-6938.2024034
Affective Computing for E-Learning Based on Multimodal Data Fusion
Abstract Due to its intelligent and personalization, online learning has increasingly become a favored mainstream learning method. However, the existence of the 'affective gap' severely hampers the development of online teaching activities. It is imperative to research how to instantaneously and accurately perceive emotional cues in learning to provide guidance for improving learning performance. This paper constructs a multimodal data fusion model for emotional computation in online learning. Facial expressions, voice, and text data of subjects are collected, and emotional recognition models are employed to obtain emotional recognition results for each modality. Based on decision-level fusion, multimodal emotional computation in online learning is achieved, determining the optimal emotional computation model. The study reveals that the average recognition accuracy based on the optimal emotional computation model has increased by 14.51% compared to single-modal emotional recognition. This confirms the feasibility and effectiveness of the model in emotional computation within online learning scenarios.
Key words E-learning; affective computing; multimodal data; learning emotion; online education
習(xí)近平在黨的二十大報(bào)告中強(qiáng)調(diào),要“推進(jìn)教育數(shù)字化,建設(shè)全民終身學(xué)習(xí)的學(xué)習(xí)型社會(huì)、學(xué)習(xí)型大國(guó)?!睂W(xué)習(xí)型社會(huì)、學(xué)習(xí)型大國(guó)的構(gòu)建需要多元化的學(xué)習(xí)模式,在線學(xué)習(xí)已成主要方式。同時(shí),在新冠肺炎疫情的影響下,各類在線學(xué)習(xí)平臺(tái)紛紛涌現(xiàn),為在線學(xué)習(xí)提供了豐富的學(xué)習(xí)資源。豐富的學(xué)習(xí)資源又反哺在線學(xué)習(xí)為其提供知識(shí)來源多樣性、學(xué)習(xí)方式靈活性、學(xué)習(xí)資源普及性和學(xué)習(xí)過程互動(dòng)性等支持,從而使在線學(xué)習(xí)能夠滿足學(xué)習(xí)者廣泛知識(shí)探知和跨時(shí)空便捷學(xué)習(xí)的現(xiàn)實(shí)需求。在線學(xué)習(xí)過程中,學(xué)習(xí)者的學(xué)習(xí)情感能夠?qū)ψ陨韺W(xué)習(xí)認(rèn)知、學(xué)習(xí)效果和心理健康產(chǎn)生重要影響[1]。然而,不同于傳統(tǒng)線下教育學(xué)習(xí),由于缺少教師實(shí)時(shí)判斷學(xué)習(xí)者學(xué)習(xí)情感進(jìn)而調(diào)節(jié)授課節(jié)奏,在線學(xué)習(xí)難以在知識(shí)輸出的同時(shí)根據(jù)學(xué)習(xí)者學(xué)習(xí)情感變化及時(shí)進(jìn)行調(diào)整,從而忽略“知情合一”和“知情共進(jìn)”式教育教學(xué),導(dǎo)致學(xué)習(xí)者學(xué)習(xí)效率降低從而引發(fā)學(xué)習(xí)倦怠感。因此,精準(zhǔn)捕獲在線學(xué)習(xí)過程中學(xué)習(xí)者學(xué)習(xí)情感狀態(tài)并進(jìn)行及時(shí)反饋調(diào)節(jié)是有效改善學(xué)習(xí)成效的重要環(huán)節(jié),這便需要借助情感計(jì)算來實(shí)現(xiàn)。
情感計(jì)算的概念由皮卡德教授于1997年首次提出,他認(rèn)為情感計(jì)算是與情感有關(guān),來源于情感或能夠?qū)η楦惺┘佑绊懙挠?jì)算[2]。多模態(tài)數(shù)據(jù)融合的情感計(jì)算是通過采集兩種及以上數(shù)據(jù)類型對(duì)學(xué)習(xí)者情感狀態(tài)進(jìn)行分析,以此實(shí)現(xiàn)不同數(shù)據(jù)的交叉印證和相互補(bǔ)償,確保學(xué)習(xí)情感識(shí)別準(zhǔn)確率。目前,情感計(jì)算可參考數(shù)據(jù)來源主要包括生理數(shù)據(jù)(脈搏、心率等)、行為數(shù)據(jù)(表情、姿態(tài)、語音等)、文本數(shù)據(jù)(評(píng)論文本、在線學(xué)習(xí)交互文本)和自我報(bào)告等。相較于單模態(tài)數(shù)據(jù)而言,多模態(tài)數(shù)據(jù)能夠消減基于單模態(tài)數(shù)據(jù)的情感分析誤差從而提高情感識(shí)別精準(zhǔn)度,實(shí)現(xiàn)多場(chǎng)景下學(xué)習(xí)情感數(shù)據(jù)的全方位采集[3]。因此,對(duì)在線學(xué)習(xí)場(chǎng)景中多模態(tài)數(shù)據(jù)融合進(jìn)行情感計(jì)算,能夠更加精準(zhǔn)分析學(xué)習(xí)者情感狀態(tài),以此更好地探索學(xué)習(xí)者情感狀態(tài)變化規(guī)律。
1" "研究現(xiàn)狀與困境
1.1" " 研究現(xiàn)狀
1.1.1" "在線學(xué)習(xí)中學(xué)習(xí)情感計(jì)算研究
學(xué)習(xí)情感與學(xué)習(xí)認(rèn)知過程緊密相關(guān),是影響在線教育教學(xué)活動(dòng)的重要因素[4]。一般而言,學(xué)習(xí)者的情感狀態(tài)都會(huì)伴隨著行為、生理和心理上的反應(yīng)變化,因此情感計(jì)算主要依托于人體面部表情、語音和生理等數(shù)據(jù)進(jìn)行。
首先,面部表情是表達(dá)情感的主要通道,同時(shí)也是情感識(shí)別的重要數(shù)據(jù)源[5]。江波等通過捕捉學(xué)習(xí)者面部表情提取面部特征點(diǎn),并利用機(jī)器學(xué)習(xí)算法實(shí)現(xiàn)學(xué)習(xí)者困惑情緒識(shí)別[6];翟雪松等將面部表情和人臉姿態(tài)特征作為數(shù)據(jù)源進(jìn)行融合,以此實(shí)現(xiàn)學(xué)習(xí)者學(xué)習(xí)情感計(jì)算[7];Hammoumi等圍繞基于卷積神經(jīng)網(wǎng)絡(luò)的人臉表情識(shí)別及其在在線學(xué)習(xí)系統(tǒng)中的應(yīng)用,提出了能夠有效識(shí)別在線學(xué)習(xí)情感的新系統(tǒng)[8]。
其次,語音在人類交流中發(fā)揮著重要作用,它展示了個(gè)體的認(rèn)知狀態(tài)、意圖和情緒[9]。早在2007年,已有學(xué)者以語音特征為輸入數(shù)據(jù),利用語音情感開發(fā)了在線學(xué)習(xí)情感計(jì)算模型[10];Bahreini等開發(fā)的FILT WAM能夠根據(jù)參與者的語音實(shí)時(shí)識(shí)別情緒狀態(tài),準(zhǔn)確率達(dá)到67%[11]。Lara等通過采集和分析在線學(xué)習(xí)者的語音數(shù)據(jù),以此識(shí)別情感狀態(tài)并進(jìn)行學(xué)習(xí)干預(yù)[12]。
第三,生理數(shù)據(jù)的真實(shí)性能夠更加準(zhǔn)確地反映個(gè)體真實(shí)情感狀態(tài),同樣也是情感計(jì)算中的重要輸入信號(hào)[13]。張琪和武法提梳理和總結(jié)了眼動(dòng)(EM)結(jié)合腦電圖(EEG)、皮膚電反應(yīng)(GSR)等生理數(shù)據(jù)在學(xué)習(xí)情感分析中的應(yīng)用,從而獲知學(xué)習(xí)者學(xué)習(xí)情感和認(rèn)知狀態(tài)的變化[14];Elatlassi提出采集腦電信號(hào)和眼動(dòng)特征來評(píng)測(cè)學(xué)習(xí)者在在線學(xué)習(xí)環(huán)境中的參與度[15]。然而,受在線學(xué)習(xí)環(huán)境和生理信號(hào)監(jiān)測(cè)設(shè)備的局限影響,現(xiàn)階段生理數(shù)據(jù)的獲取無法適應(yīng)大范圍在線學(xué)習(xí)應(yīng)用。
也有多位學(xué)者從其他數(shù)據(jù)角度出發(fā)對(duì)在線學(xué)習(xí)進(jìn)行情感計(jì)算。如Hew等借助機(jī)器學(xué)習(xí)識(shí)別海量評(píng)論文本數(shù)據(jù),以期計(jì)算學(xué)習(xí)者參與MOOC課程中的情感狀態(tài)[16];李慧構(gòu)建的基于自注意力機(jī)制的BiLSTM文本情感分類模型能夠?qū)崿F(xiàn)在線學(xué)習(xí)成績(jī)預(yù)測(cè)[17]。
多模態(tài)數(shù)據(jù)融合已然成為情感計(jì)算的切實(shí)可行方法。在傳統(tǒng)教學(xué)場(chǎng)景下,教師通過觀察學(xué)習(xí)者面部表情、肢體動(dòng)作、聲音等判斷其學(xué)習(xí)情感繼而改變教學(xué)方式。因此,在線學(xué)習(xí)情感的獲取也需要使用多種模態(tài)數(shù)據(jù)。如王麗英等構(gòu)建了融合操作事件、面部表情及生理特征的多模態(tài)數(shù)據(jù)融合模型以此實(shí)現(xiàn)學(xué)習(xí)情感的識(shí)別與監(jiān)測(cè)[18];晉欣泉等構(gòu)建的在線學(xué)習(xí)情緒測(cè)量模型能夠基于語音、姿態(tài)、生理、文本等大數(shù)據(jù)描述學(xué)習(xí)者的學(xué)習(xí)狀態(tài)[19];Santi開發(fā)了融合行為、生理等多種數(shù)據(jù)的工具(METOO),用于檢測(cè)和表達(dá)學(xué)習(xí)者情緒以及基于情緒的學(xué)習(xí)適應(yīng)和情感反饋,并以此優(yōu)化在線學(xué)習(xí)平臺(tái)[20]。
1.1.2" "在線學(xué)習(xí)中學(xué)習(xí)情感特征研究
學(xué)習(xí)情感特征能夠表征學(xué)生在學(xué)習(xí)過程中所體驗(yàn)到的、與學(xué)習(xí)相關(guān)的情感狀態(tài),這些情感狀態(tài)在很大程度上影響著學(xué)生的學(xué)習(xí)體驗(yàn)、學(xué)習(xí)動(dòng)機(jī)以及學(xué)習(xí)成果。
相比于基本情感,在線學(xué)習(xí)情感具有一些獨(dú)特的特點(diǎn)。由Ortony等提出的OCC情感理論涵括了22類情緒的層次結(jié)構(gòu)[21];Boucher和Ekman提出害怕、生氣、厭棄、幸福、悲傷和驚訝六種基本情感信息[22];Plutchik提出高興、憤怒、恐懼、悲傷、厭惡、驚訝、期望、信任八種基本情感[23],由此可見人類基本情感豐富多彩。然而,基本情感僅能代表人們生活中較為高頻的情感,但在學(xué)習(xí)場(chǎng)景下,學(xué)習(xí)情感并非能夠涉及全部人類個(gè)體基本情感,困惑、厭倦等情感才是發(fā)生頻率較高的類別[24-25]。同時(shí),在線學(xué)習(xí)場(chǎng)景中學(xué)習(xí)者單向知識(shí)輸入情感狀態(tài)較為穩(wěn)定,較少出現(xiàn)大幅度情感變化[26]。趙宏和張馨邈的研究也證實(shí)了這點(diǎn),并發(fā)現(xiàn)在線學(xué)習(xí)不同階段均以積極情緒為主,隨著學(xué)習(xí)的進(jìn)行,學(xué)習(xí)者的學(xué)習(xí)情感呈現(xiàn)消極情緒占據(jù)上風(fēng)的趨勢(shì)[27]。但Kort等認(rèn)為,學(xué)習(xí)者的學(xué)習(xí)情感呈現(xiàn)消極情緒逐漸減少、積極情緒逐漸增多的趨勢(shì)[28]。
學(xué)習(xí)情感是學(xué)習(xí)者處于學(xué)習(xí)情境下的情感集合,明確在線學(xué)習(xí)中的細(xì)分學(xué)習(xí)情感應(yīng)是實(shí)現(xiàn)在線學(xué)習(xí)情感計(jì)算研究的首要環(huán)節(jié)。在線學(xué)習(xí)情感計(jì)算研究中,由于其目的在于識(shí)別頻率最高、影響學(xué)習(xí)成效的情感類別,因此,離散型學(xué)習(xí)情感特征更適用于在線學(xué)習(xí)情感計(jì)算[5]。孫波等構(gòu)建的智慧教學(xué)環(huán)境下基于面部表情的情感識(shí)別分析框架將學(xué)習(xí)者情感類型提取為高興、專注、困惑、疲勞[29];沈映珊和湯庸在分析社交學(xué)習(xí)網(wǎng)絡(luò)的基礎(chǔ)上從愉悅、覺醒、優(yōu)勢(shì)三個(gè)維度出發(fā)提出了快樂、痛苦、緊張、平靜、驚奇、厭惡六類情感狀態(tài)[30];薛耀鋒等開發(fā)了面向在線學(xué)習(xí)的多模態(tài)情感計(jì)算原型系統(tǒng),以此實(shí)現(xiàn)學(xué)習(xí)者高興、驚奇、中性、生氣、疲勞、困惑情感的研究分析[31]。
1.1.3" "在線學(xué)習(xí)中學(xué)習(xí)情感計(jì)算意義
“情知分離”在在線學(xué)習(xí)中存在普遍性,這將會(huì)對(duì)學(xué)習(xí)效果造成負(fù)面影響,進(jìn)而導(dǎo)致在線教學(xué)活動(dòng)漸傾向于重知輕情的學(xué)習(xí)方式,嚴(yán)重阻礙在線學(xué)習(xí)的深層發(fā)展[32]。因此,情感計(jì)算技術(shù)應(yīng)用于在線學(xué)習(xí)活動(dòng)中能夠有效識(shí)別學(xué)習(xí)者情感,進(jìn)而解決上述問題。
首先,獲知學(xué)習(xí)情感能夠改善在線學(xué)習(xí)者的學(xué)習(xí)效果。情感動(dòng)力模型(Model of Affect Dynamics)[33]認(rèn)為,當(dāng)學(xué)習(xí)者面臨學(xué)習(xí)障礙時(shí),其個(gè)人認(rèn)知將從平衡轉(zhuǎn)至失衡,從而引發(fā)學(xué)習(xí)情感的變化,如困惑情緒。因此,通過情感計(jì)算獲知學(xué)習(xí)情感并進(jìn)行學(xué)習(xí)干預(yù),使得認(rèn)知失衡的學(xué)習(xí)者恢復(fù)至平衡狀態(tài)便是學(xué)習(xí)效果達(dá)到最優(yōu)的過程。同時(shí),在線學(xué)習(xí)過程中,消極情緒將會(huì)極大地影響學(xué)習(xí)者的學(xué)習(xí)效果,為此開發(fā)的情感調(diào)節(jié)系統(tǒng)[34]能夠根據(jù)學(xué)習(xí)者情感狀態(tài)推送合適的學(xué)習(xí)調(diào)節(jié)策略,從而改善學(xué)習(xí)效果。
其次,捕獲學(xué)習(xí)情感能夠促進(jìn)在線學(xué)習(xí)的深層發(fā)展。長(zhǎng)期以來,“情感缺位”是在線學(xué)習(xí)平臺(tái)發(fā)展的瓶頸。趙宏和張馨邈認(rèn)為深入了解學(xué)習(xí)者的情感狀態(tài)及其變化軌跡,學(xué)習(xí)平臺(tái)能夠更系統(tǒng)地分析學(xué)習(xí)者的學(xué)習(xí)狀態(tài)并為其提供差異化的教學(xué)服務(wù),進(jìn)而擴(kuò)大在線學(xué)習(xí)教育的積極影響[27]。此外,隨著深度學(xué)習(xí)技術(shù)的發(fā)展和精密傳感設(shè)備的普及,為在線學(xué)習(xí)平臺(tái)嵌入情感計(jì)算技術(shù)提供了多種可能,彌補(bǔ)了在線學(xué)習(xí)平臺(tái)重知輕情和情知分離的缺陷,突破在線學(xué)習(xí)限制,助力教育創(chuàng)新變革[35]。
綜上所述,通過情感計(jì)算獲取學(xué)習(xí)者學(xué)習(xí)情感能夠有效彌補(bǔ)在線學(xué)習(xí)中“情感缺失”和“情知分離”的缺陷,提高在線學(xué)習(xí)者的學(xué)習(xí)效果,進(jìn)而促進(jìn)在線學(xué)習(xí)的發(fā)展??紤]到目前基于多模態(tài)數(shù)據(jù)融合的學(xué)習(xí)情感識(shí)別效果較優(yōu),且有研究發(fā)現(xiàn),在情感表達(dá)中,言語、語音和面部表情的重要性分別為7%、38%和55%[21]。因此,本研究擬采用在線學(xué)習(xí)者面部表情、語音和文本數(shù)據(jù)融合后實(shí)現(xiàn)情感計(jì)算。同時(shí),為規(guī)避非學(xué)習(xí)情感或低引發(fā)學(xué)習(xí)情感造成計(jì)算誤差,如恐懼、憤怒等情感,本研究將在線學(xué)習(xí)情感標(biāo)簽分為高興、投入、中性、困惑和疲勞五類。
1.2" " 現(xiàn)存困境
1.2.1" "認(rèn)知負(fù)荷制約教師在線學(xué)習(xí)關(guān)注度
在線學(xué)習(xí)情境下,間接信息和任務(wù)疊加帶來的認(rèn)知負(fù)荷挑戰(zhàn)限制了教師對(duì)學(xué)生學(xué)習(xí)狀態(tài)的即時(shí)關(guān)注和全面觀察。在傳統(tǒng)課堂教學(xué)情境下,教師在授課過程中能夠直觀地接收到來自學(xué)生的面部表情、肢體姿態(tài)和反應(yīng)時(shí)間等非言語反饋,幫助其更加迅速、準(zhǔn)確地知悉學(xué)生學(xué)習(xí)狀態(tài)和情感狀態(tài),從而及時(shí)調(diào)整教學(xué)策略,確保每位學(xué)生都能得到必要的指導(dǎo)和支持。然而,在在線學(xué)習(xí)情境下,教師失去這些直觀線索,轉(zhuǎn)而需要依賴于文字、音頻或視頻等間接信息,這無疑增加了教師信息認(rèn)知的復(fù)雜性。根據(jù)認(rèn)知負(fù)荷理論(Cognitive Load Theory,CLT)[36],人們?cè)谔幚韽?fù)雜信息時(shí)的認(rèn)知資源是有限的,間接信息的接收處理需要消耗認(rèn)知資源。且由于在線學(xué)習(xí)平臺(tái)的多任務(wù)特性,教師在進(jìn)行教學(xué)的同時(shí),還需管理技術(shù)界面、回答學(xué)生問題、監(jiān)控討論區(qū)等,任務(wù)的疊加導(dǎo)致教師的認(rèn)知負(fù)荷急劇上升,致使教師即時(shí)、全面地關(guān)注和觀察變得困難。
1.2.2" "情知分離限制學(xué)生在線學(xué)習(xí)達(dá)成率
在線學(xué)習(xí)中的情知分離忽視了師生情感交流的重要性及其對(duì)學(xué)習(xí)效果的影響,致使其學(xué)習(xí)成效普遍不如傳統(tǒng)課堂教學(xué)[32]。情感交互是課堂學(xué)習(xí)過程中的潤(rùn)滑劑,對(duì)學(xué)習(xí)效果的提升有著不可忽視的重要性[37]。然而,在線學(xué)習(xí)過程中過分重視對(duì)信息技術(shù)的應(yīng)用和學(xué)生認(rèn)知技能的培養(yǎng),師生間的情感聯(lián)系及學(xué)生情感的內(nèi)在價(jià)值卻被相對(duì)邊緣化。情感對(duì)學(xué)生的認(rèn)知發(fā)展和學(xué)習(xí)動(dòng)機(jī)有著深遠(yuǎn)的影響,當(dāng)學(xué)生的情感需求得到滿足,他們更有可能積極參與學(xué)習(xí)活動(dòng),展現(xiàn)出更高的學(xué)習(xí)興趣和學(xué)習(xí)熱情[38];相反,他們可能會(huì)失去學(xué)習(xí)的動(dòng)力。在線學(xué)習(xí)中由于缺乏面對(duì)面的直接互動(dòng),學(xué)生可能會(huì)感到孤立,難以與教師和同伴建立起緊密的情感聯(lián)系,這種情感上的隔閡不僅削弱了學(xué)生的學(xué)習(xí)體驗(yàn),也影響了他們的認(rèn)知吸收和學(xué)習(xí)成果。加之所述教師所面臨的在線教學(xué)認(rèn)知負(fù)荷挑戰(zhàn),致使形成“在線學(xué)習(xí)關(guān)注度缺失—在線學(xué)習(xí)達(dá)成率下滑”的非良性循環(huán)。
1.2.3" "群情忽視阻礙班級(jí)在線學(xué)習(xí)進(jìn)展度
在線學(xué)習(xí)中教師因互動(dòng)欠缺、認(rèn)知負(fù)荷、技術(shù)限制易忽視對(duì)班級(jí)群體情感特征及其態(tài)勢(shì)的即時(shí)掌控,進(jìn)而阻礙班級(jí)整體教學(xué)活動(dòng)的如期開展。群體情感是指多個(gè)個(gè)體在特定的環(huán)境中對(duì)某個(gè)事件或觀念的共同體驗(yàn)和情感傾向,其在在線學(xué)習(xí)情境中不僅能夠表征當(dāng)下教學(xué)活動(dòng)整體狀態(tài),而且對(duì)學(xué)生個(gè)體的學(xué)習(xí)參與度也有著直接的影響。當(dāng)教師進(jìn)行在線教學(xué)時(shí)因人際互動(dòng)缺乏、信息認(rèn)知負(fù)荷、平臺(tái)技術(shù)限制等,無法即時(shí)地識(shí)別和適當(dāng)?shù)仨憫?yīng)班級(jí)內(nèi)可能出現(xiàn)的消極群體情感,如學(xué)生普遍的困惑、疲勞,這些問題可能會(huì)在在線學(xué)習(xí)中持續(xù)存在并逐漸累積。同時(shí),由于個(gè)體情感和群體情感存在相互影響和塑造的羈絆,消極群體情感可能蔓延至其他在線學(xué)習(xí)者,最終對(duì)班級(jí)整體在線教學(xué)活動(dòng)的正常開展產(chǎn)生負(fù)面影響。
由此可見,盡管在線學(xué)習(xí)能夠提供傳統(tǒng)課堂無法比擬的便利性和靈活性,但仍面臨亟待解決的問題。借助情感計(jì)算技術(shù)克服在線學(xué)習(xí)過程中的障礙與挑戰(zhàn),對(duì)于幫助教師更有效地實(shí)施知情共進(jìn)式教學(xué)至關(guān)重要,同時(shí)也是有效推動(dòng)在線學(xué)習(xí)深層發(fā)展,實(shí)現(xiàn)更高效教學(xué)目標(biāo)的重要途徑。
2" "多模態(tài)數(shù)據(jù)融合的在線學(xué)習(xí)情感計(jì)算模型
情感計(jì)算技術(shù)應(yīng)用于在線學(xué)習(xí)場(chǎng)景中,能夠?qū)崿F(xiàn)對(duì)學(xué)習(xí)者情感狀態(tài)變化的監(jiān)測(cè),從而干預(yù)學(xué)習(xí)過程以期提高學(xué)習(xí)效果和學(xué)習(xí)體驗(yàn)。本研究通過調(diào)研在線學(xué)習(xí)情境,構(gòu)建了基于多模態(tài)數(shù)據(jù)融合的在線學(xué)習(xí)情感計(jì)算模型(見圖1)。該模型聚焦于在線學(xué)習(xí)場(chǎng)景,通過采集學(xué)習(xí)者情感數(shù)據(jù)來實(shí)現(xiàn)學(xué)習(xí)者實(shí)時(shí)情感狀態(tài)的識(shí)別,以此能夠?yàn)楹罄m(xù)學(xué)習(xí)過程提供情感反饋和學(xué)習(xí)干預(yù)參考。多模態(tài)數(shù)據(jù)融合的在線學(xué)習(xí)情感計(jì)算模型包括數(shù)據(jù)采集、數(shù)據(jù)識(shí)別、數(shù)據(jù)融合和可視化輸出四個(gè)模塊。
2.1" " 數(shù)據(jù)采集模塊
在線學(xué)習(xí)場(chǎng)景中,學(xué)習(xí)者情感數(shù)據(jù)收集方式由學(xué)習(xí)方式、技術(shù)介導(dǎo)和終端硬件等所決定。傳統(tǒng)課堂教學(xué)情境下,教師能夠借助學(xué)習(xí)者的面部表情、眼神互動(dòng)、音量音色、肢體姿勢(shì)以及言語內(nèi)容等主觀判斷學(xué)習(xí)者情感狀態(tài),進(jìn)而即時(shí)調(diào)整教學(xué)策略和授課節(jié)奏,當(dāng)然這也是為何在線學(xué)習(xí)要采用多模態(tài)數(shù)據(jù)進(jìn)行在線學(xué)習(xí)者情感識(shí)別的原因之一。雖然當(dāng)前的在線學(xué)習(xí)因受限于學(xué)習(xí)方式、技術(shù)介導(dǎo)和終端硬件等客觀條件,并非能夠?qū)崿F(xiàn)與上述多模態(tài)數(shù)據(jù)完全一致的采集條件。不過,學(xué)習(xí)者在參與在線學(xué)習(xí)過程中所使用的現(xiàn)代智能終端普遍內(nèi)置高清攝像頭、錄音話筒,能夠在不對(duì)學(xué)習(xí)過程產(chǎn)生干擾的前提下采集學(xué)習(xí)者的面部表情和語音情感數(shù)據(jù)。且在線學(xué)習(xí)平臺(tái)能夠?qū)崟r(shí)采集在線學(xué)習(xí)者所輸出的文本信息,抽取和分析文本信息中的情感字詞判斷學(xué)習(xí)者的學(xué)習(xí)情感。盡管包括心率、脈搏、腦電信號(hào)等在內(nèi)的生理數(shù)據(jù)作為人類所表現(xiàn)出來的潛在反應(yīng)是最為真實(shí)的數(shù)據(jù),且能夠提供更為豐富的信息。然而,本研究旨在面向大規(guī)模在線學(xué)習(xí)的常態(tài)化應(yīng)用場(chǎng)景中,由于生理數(shù)據(jù)的采集需要借助不同的監(jiān)測(cè)設(shè)備,局限性和侵入性較大,故不再考慮此類數(shù)據(jù)進(jìn)行情感計(jì)算。因此,本研究從侵入性、干擾性、設(shè)備要求、可實(shí)現(xiàn)性等方面對(duì)在線學(xué)習(xí)情感數(shù)據(jù)收集方法進(jìn)行綜合考慮后,將學(xué)習(xí)者面部表情、語音、文本作為多模態(tài)數(shù)據(jù)融合的在線學(xué)習(xí)情感計(jì)算數(shù)據(jù)源。
2.2" " 數(shù)據(jù)識(shí)別模塊
根據(jù)在線學(xué)習(xí)情感數(shù)據(jù)的來源、類型和涉及對(duì)象,綜合多種方法對(duì)情感數(shù)據(jù)進(jìn)行分析與識(shí)別。不同于傳統(tǒng)課堂教學(xué)情境的群體情感特征態(tài)勢(shì)識(shí)別,在線學(xué)習(xí)主要面向獨(dú)立終端的個(gè)體學(xué)習(xí)者的情感狀態(tài)進(jìn)行分析和識(shí)別,這使得在情感識(shí)別過程中規(guī)避了實(shí)例分割、分割掩碼、聲源分離和端點(diǎn)檢測(cè)等復(fù)雜性需求,進(jìn)而能夠更精確且更高效地捕捉和響應(yīng)單個(gè)學(xué)習(xí)者的情感變化。首先,在在線學(xué)習(xí)過程中,面部表情作為學(xué)習(xí)者外顯行為中情感表達(dá)的最直觀方式,能夠客觀地反映學(xué)習(xí)者真實(shí)的情感狀態(tài)。借助OpenCV對(duì)采集到的視頻圖像進(jìn)行人臉檢測(cè),經(jīng)過圖像增強(qiáng)、灰度化、幾何歸一化等圖像預(yù)處理操作后,由VGG16_Light確定和抽取不同面部表情對(duì)應(yīng)不同情感狀態(tài)時(shí)的特征,獲取反映學(xué)習(xí)者情感狀態(tài)的共性信息,以此實(shí)現(xiàn)面部表情情感識(shí)別。其次,一體式攝錄設(shè)備采集在線學(xué)習(xí)者的語音,對(duì)相關(guān)情感音頻進(jìn)行降噪、音頻強(qiáng)度歸一化等預(yù)處理操作,在獲取情感特征并在多次訓(xùn)練后得到情感識(shí)別結(jié)果。最后,采用預(yù)訓(xùn)練語言模型實(shí)現(xiàn)在線學(xué)習(xí)中學(xué)習(xí)者輸出文本信息的情感識(shí)別。
2.3" " 數(shù)據(jù)融合模塊
在線學(xué)習(xí)情感數(shù)據(jù)融合的方式將對(duì)在線學(xué)習(xí)者情感計(jì)算結(jié)果具有不同的影響。由于不同情感識(shí)別模型的識(shí)別精準(zhǔn)度差異會(huì)導(dǎo)致不同的融合識(shí)別結(jié)果,以及不同情感識(shí)別模型對(duì)不同情感狀態(tài)識(shí)別效果也有所差異,因此,本研究將多模態(tài)數(shù)據(jù)融合的情感計(jì)算分為賦予各模態(tài)情感識(shí)別模型權(quán)重和賦予各模態(tài)情感識(shí)別模型中不同情感權(quán)重兩種方式。通過賦予各類情感識(shí)別模型不同的權(quán)重來進(jìn)行情感計(jì)算以期獲得不同的融合結(jié)果,最終獲取基于面部表情、語音、文本情感數(shù)據(jù)的多模態(tài)數(shù)據(jù)融合的在線學(xué)習(xí)者最優(yōu)情感計(jì)算模型。
2.4" " 可視化輸出模塊
在線學(xué)習(xí)情感的可視化輸出能夠幫助學(xué)習(xí)者、授課教師、在線學(xué)習(xí)平臺(tái)管理人員更加直觀、及時(shí)地了解在線學(xué)習(xí)者的實(shí)時(shí)情感狀態(tài)。一方面,基于個(gè)體學(xué)習(xí)者的在線學(xué)習(xí)情感可視化圖像,能夠準(zhǔn)確地了解該學(xué)習(xí)者在某一課程或某一學(xué)習(xí)時(shí)間段的具體情感變化及不同情感持續(xù)時(shí)間,由此判斷在線學(xué)習(xí)者的學(xué)習(xí)狀態(tài)與學(xué)習(xí)效果,從而為相關(guān)教育人員做出教育決策提供參考。另一方面,基于多個(gè)學(xué)習(xí)者的在線學(xué)習(xí)情感可視化圖像,既可以準(zhǔn)確地了解該學(xué)習(xí)團(tuán)體的整體學(xué)習(xí)情感狀態(tài)變化,也可以憑此結(jié)果評(píng)價(jià)參與在線課程資源的教學(xué)質(zhì)量和教學(xué)效果,呈現(xiàn)該在線課程資源教學(xué)實(shí)用性的綜合性評(píng)價(jià)。
3" "研究過程和方法
3.1" " 實(shí)驗(yàn)?zāi)P?/p>
為了采集在線學(xué)習(xí)情境下的真實(shí)學(xué)習(xí)情感,本研究將綜合考慮被試、空間、設(shè)備等影響因素,以更加貼合真實(shí)在線學(xué)習(xí)環(huán)境的前提下進(jìn)行實(shí)驗(yàn)。被試個(gè)體因素:選取30名在校研究生為研究對(duì)象,15名男生,15名女生,年齡范圍為22歲-27歲,實(shí)驗(yàn)前征得被試本人許可并提前告知此次研究所需收集的數(shù)據(jù)信息;空間因素:考慮到在線學(xué)習(xí)場(chǎng)景一般為學(xué)習(xí)者個(gè)人進(jìn)行學(xué)習(xí),因此本研究為被試提供干擾少、噪音小的獨(dú)立實(shí)驗(yàn)空間,實(shí)驗(yàn)環(huán)境模擬學(xué)生在線學(xué)習(xí)場(chǎng)景;誘導(dǎo)材料:針對(duì)高興、投入、中性、困惑和疲勞五類情感設(shè)計(jì)情感誘導(dǎo)材料,選取在線學(xué)習(xí)視頻,包括《幽默讓你備受歡迎》《AI繪畫》《中國(guó)歷代服飾賞析》《心理的進(jìn)化》《Python數(shù)據(jù)分析》,每個(gè)視頻時(shí)長(zhǎng)節(jié)選10分鐘-15分鐘內(nèi);設(shè)備因素:采用非侵入式的、具備錄音和攝像功能的一體式高清攝像頭接入在線學(xué)習(xí)終端,實(shí)現(xiàn)面部表情和語音數(shù)據(jù)的采集;標(biāo)注工具:使用圖像標(biāo)注工具labelImg標(biāo)注學(xué)習(xí)者個(gè)人學(xué)習(xí)情感狀態(tài)。
3.2" " 數(shù)據(jù)采集
被試學(xué)習(xí)情感數(shù)據(jù)——面部表情、語音和文本數(shù)據(jù)分別來自一體式攝錄設(shè)備及在線學(xué)習(xí)平臺(tái)。其中,面部表情和語音數(shù)據(jù)是學(xué)習(xí)情感的實(shí)時(shí)體現(xiàn),文本數(shù)據(jù)包括了課后作業(yè)、過程文本等,作為實(shí)時(shí)情感的有效補(bǔ)充、跟蹤和延續(xù)。在數(shù)據(jù)采集工作開始之前,分組對(duì)被試進(jìn)行培訓(xùn),確保其能夠以更加自然的狀態(tài)準(zhǔn)確表達(dá)各類情感。此外,被試在學(xué)習(xí)過程中的面部表情數(shù)據(jù)采集時(shí)常會(huì)出現(xiàn)肢體遮擋和因頭部運(yùn)動(dòng)造成圖像模糊,語音數(shù)據(jù)采集時(shí)環(huán)境噪音過大或被試聲量較小等阻礙,因此,需要對(duì)所采集的數(shù)據(jù)進(jìn)行篩選,通過機(jī)器篩選、人工復(fù)查等手段刪除這部分?jǐn)?shù)據(jù)。
為確保數(shù)據(jù)標(biāo)注的可信度,采取被試自評(píng)標(biāo)注和研究人員評(píng)價(jià)標(biāo)注并行的方法開展。情感標(biāo)簽包括高興、投入、中性、困惑和疲勞。首先,對(duì)被試人員進(jìn)行包括LabelImg標(biāo)注工具、數(shù)據(jù)標(biāo)注規(guī)則、學(xué)習(xí)情感定義、面部活動(dòng)單元(FACS)以及表情運(yùn)動(dòng)特征等內(nèi)容的培訓(xùn)。隨后,進(jìn)行被試自評(píng)標(biāo)注,將被試個(gè)人完整音視頻數(shù)據(jù)及文本數(shù)據(jù)提供給被試,由被試本人使用LabelImg標(biāo)注工具對(duì)在線學(xué)習(xí)中不同時(shí)段的情感狀態(tài)按本文學(xué)習(xí)情感劃分類別進(jìn)行評(píng)價(jià)標(biāo)注。這樣做的目的是:(1)為幫助學(xué)習(xí)者回憶當(dāng)時(shí)的學(xué)習(xí)情感做出精確標(biāo)注;(2)為研究人員進(jìn)行情感標(biāo)注提供參考依據(jù)。最后,研究人員借助LabelImg標(biāo)注工具對(duì)已完成一次標(biāo)注的數(shù)據(jù)進(jìn)行二次評(píng)價(jià)標(biāo)注,以此保證每個(gè)數(shù)據(jù)均含有兩個(gè)情感標(biāo)簽,當(dāng)兩次標(biāo)記出現(xiàn)沖突時(shí)表示樣本無效,從數(shù)據(jù)庫中刪除樣本。
最終,經(jīng)過人工篩選、調(diào)整得到有效模態(tài)數(shù)據(jù)各5862條,三種模態(tài)數(shù)據(jù)集的訓(xùn)練集、測(cè)試集、驗(yàn)證集占比約為6:2:2。其中,訓(xùn)練集為3518條、測(cè)試集為1172條、驗(yàn)證集為1172條。
3.3" " 數(shù)據(jù)識(shí)別
3.3.1" "表情情感識(shí)別模型
本研究采用常用于圖像數(shù)據(jù)識(shí)別處理的卷積神經(jīng)網(wǎng)絡(luò)提取被試面部表情特征。卷積神經(jīng)網(wǎng)絡(luò)基本結(jié)構(gòu)由輸入層、卷積層(用于特征提取)、池化層(用于縮減參數(shù)并留存關(guān)鍵信息)、全連接層(將特征轉(zhuǎn)換為目標(biāo)輸出形式)和輸出層構(gòu)成。為提高在線學(xué)習(xí)情感計(jì)算的效率并減少在線學(xué)習(xí)終端計(jì)算資源的消耗,本研究選取VGG16和ResNet50作為面部表情圖像數(shù)據(jù)識(shí)別處理的主干網(wǎng)絡(luò)來進(jìn)行優(yōu)化,提出輕量級(jí)的VGG16和ResNet50版本——VGG16_Light和ResNet50_Light來進(jìn)行訓(xùn)練,后續(xù)統(tǒng)稱為VGG16_L和ResNet50_L。在VGG16_L中,通過移除最后一個(gè)全連接層顯著減少網(wǎng)絡(luò)模型的參數(shù)量。同時(shí),將輸出層的節(jié)點(diǎn)數(shù)調(diào)整為與情感類型數(shù)目相匹配的5個(gè)節(jié)點(diǎn),旨在保留情感特征信息的同時(shí),減少模型復(fù)雜度。在ResNet50_L中,引入Ghost模塊來增強(qiáng)模型的效率,其是一種創(chuàng)新的網(wǎng)絡(luò)結(jié)構(gòu)組件,能夠通過并行分支和逐層聚合的方式有效降低模型計(jì)算復(fù)雜度和參數(shù)量,同時(shí)保持模型性能。此外,ResNet50_L保留了原始ResNet50的殘差連接設(shè)計(jì),有助于解決深層網(wǎng)絡(luò)訓(xùn)練中的梯度消失問題。隨后,對(duì)各網(wǎng)絡(luò)結(jié)構(gòu)識(shí)別效果進(jìn)行比對(duì)實(shí)驗(yàn),以此確定最佳卷積神經(jīng)網(wǎng)絡(luò)(VGG16_L和ResNet50_L網(wǎng)絡(luò)結(jié)構(gòu)見圖2、圖3)。
3.3.2" "語音情感識(shí)別模型
本研究采用分層粒度和特征模型(Hierarchical Grained and Feature Model,HGFM)進(jìn)行語音數(shù)據(jù)情感識(shí)別。首先,對(duì)訓(xùn)練集中相關(guān)情感音頻進(jìn)行降噪、音頻強(qiáng)度歸一化等預(yù)處理操作,逐幀分割并提取手工特征。其次,使用門控循環(huán)單元(Gated Recurrent Unit,GRU)對(duì)包含過零率(Zero Crossing Rate,ZCR)、梅爾倒譜頻率(Mel-frequency Cepstral Coefficients,MFCC)、常數(shù)Q變換(Constant-Q Transform,CQT)的低維手工特征進(jìn)行編碼,將其映射到高維情感特征空間,并通過自注意力機(jī)制進(jìn)行加權(quán),隨后再借助門控循環(huán)單元實(shí)現(xiàn)高維情感特征預(yù)測(cè),從而在多次訓(xùn)練后獲取音頻數(shù)據(jù)情感識(shí)別結(jié)果(細(xì)過程見圖4)。
在該模型訓(xùn)練過程中,設(shè)定進(jìn)程數(shù)(Workers)為4,輸入維度為33,門控循環(huán)單元第一、二層隱藏單元維度(Encoder Hidden Size)均為300,全連接層維度為100,批處理量(Batch Size)為32,初始學(xué)習(xí)率(Learning Rate)為0.001(指數(shù)衰減,衰減系數(shù)為0.8),Dropout為0.5,損失函數(shù)為交叉熵?fù)p失函數(shù)(Cross Entropy Loss, CEL)、優(yōu)化器為Adam。
3.3.3" "文本情感識(shí)別模型
現(xiàn)階段較為主流的文本情感識(shí)別多采用預(yù)訓(xùn)練語言模型,包括自回歸語言模型(Auto Regressive Language Model,ARLM)和自編碼語言模型(Auto Encoder Language Model,AELM)。自回歸語言模型在考慮單詞依賴關(guān)系方面表現(xiàn)出色,但其局限性在于僅能考慮單詞之間的依賴關(guān)系,無法同時(shí)捕獲上下文信息。相對(duì)而言,自編碼語言模型能夠?qū)W習(xí)并理解上下文信息,但卻忽略了單詞間的依賴關(guān)系。而XLNet的問世結(jié)合了自回歸語言模型和自編碼語言模型的優(yōu)點(diǎn),提出了排列語言模型(Permutation Language Model,PLM),該模型能夠通過對(duì)句子中Token的全排列,并采樣不同順序進(jìn)行預(yù)測(cè),成功地綜合了單詞依賴和上下文信息的學(xué)習(xí)。本研究在谷歌發(fā)布的XLNet模型基礎(chǔ)之上提出一種基于XLNet-BiGRU的文本情感識(shí)別模型(見圖5),并梳理其整體思路:
首先,輸入文本數(shù)據(jù)Xn(n=1,2,…,N)至XLNet層,表示第n個(gè)文本數(shù)據(jù)中的第i個(gè)詞語。使用XLNet模型對(duì)文本數(shù)據(jù)進(jìn)行編碼,生成動(dòng)態(tài)特征向量Tn,以考慮上下文的位置關(guān)系,從而有效地表達(dá)詞語在不同語句中的意義。隨后,將特征向量Tn作為輸入矩陣輸入至BiGRU層,在分別經(jīng)過正向和反向的BiGRU層后,獲得hli和hri,將這些隱藏狀態(tài)向量以加權(quán)的方式連接,生成深層語義特征hi。其次,通過一個(gè)全連接層對(duì)hi進(jìn)行操作,輸出維度匹配情感種類數(shù)量。最后,在Softmax層對(duì)全連接層的輸出結(jié)果歸一化處理,從而確定文本的情感類別。
3.3.4" "數(shù)據(jù)融合
在多模態(tài)數(shù)據(jù)融合過程中,情感計(jì)算的結(jié)果受所采用的融合方法所決定。本研究采取將三類情感識(shí)別模型的識(shí)別結(jié)果進(jìn)行決策級(jí)融合來實(shí)現(xiàn)情感計(jì)算,賦予面部表情、語音、文本情感識(shí)別模型不同的權(quán)重,以此通過加權(quán)求和的方法獲得不同的結(jié)果對(duì)比選優(yōu)?;诖?,本研究將多模態(tài)數(shù)據(jù)融合的情感計(jì)算分為賦予各模態(tài)情感識(shí)別模型權(quán)重和賦予各模態(tài)情感識(shí)別模型中不同情感權(quán)重兩種方式。
假設(shè)面部表情、語音和文本三類情感識(shí)別模型的輸出結(jié)果為:pface、pvoice、ptext;各情感識(shí)別模型的輸出結(jié)果均含有五類情感信息:高興、投入、中性、困惑和疲勞,且這五類情感在面部表情、語音和文本模態(tài)中分別表示為i、j、k。那么,輸出結(jié)果的概率分布矩陣則可表示為:
P= ?圯 P=" "" " "" "" " " " " "" "" "" "" "(1)
根據(jù)式(1),則賦予各模態(tài)情感識(shí)別模型權(quán)重的計(jì)算結(jié)果為:
R=?姿1×pface+?姿2×pvoice+?姿3×ptext" " " " " " " " " " " " "(2)
其中,?姿1、?姿2、?姿3分別表示面部表情、語音、文本三模態(tài)情感識(shí)別模型的權(quán)重參數(shù),且?姿1+?姿2+?姿3=1;R則表示融合模型的最終計(jì)算結(jié)果。
同根據(jù)式(1),賦予各模態(tài)情感識(shí)別模型中不同情感權(quán)重的計(jì)算結(jié)果為:
R=?姿1 + ?姿2 + ?姿3" " " " " " " " "(3)
其中,表示面部表情情感識(shí)別模型中各維情感信息的輸出結(jié)果,表示肢體姿態(tài)情感識(shí)別模型中各維情感信息的輸出結(jié)果,表示語音情感識(shí)別模型中各維情感信息的輸出結(jié)果。
4" "結(jié)果及分析
4.1" " 單模態(tài)情感識(shí)別結(jié)果
在面部表情情感識(shí)別模型訓(xùn)練過程中,設(shè)定以下主要參數(shù)來構(gòu)建和訓(xùn)練網(wǎng)絡(luò):激活函數(shù)、損失函數(shù)、優(yōu)化器、批處理大小、迭代次數(shù)等。基于VGG16_L和ResNet50_L的面部表情情感識(shí)別模型歷經(jīng)多次迭代優(yōu)化,兩個(gè)模型的損失函數(shù)都逐漸趨向于一個(gè)穩(wěn)定的值,表明它們?cè)谟?xùn)練數(shù)據(jù)上已經(jīng)取得了較好的擬合效果。其中,基于VGG16_L的面部表情情感識(shí)別精度為76.12%,基于ResNet50_L的識(shí)別精度為65.31%。
由此可看出,在訓(xùn)練數(shù)據(jù)和訓(xùn)練參數(shù)一定的情況下,基于VGG16_L卷積神經(jīng)網(wǎng)絡(luò)的面部表情情感識(shí)別模型識(shí)別精度顯著高于ResNet50_L模型。同時(shí),VGG16_L網(wǎng)絡(luò)結(jié)構(gòu)相對(duì)簡(jiǎn)潔實(shí)用,能夠通過加深網(wǎng)絡(luò)結(jié)構(gòu)提高特征提取能力,且超參數(shù)較少。因此,本研究采用VGG16_L卷積神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)面部表情的情感識(shí)別,得出表情、語音和文本三個(gè)情感識(shí)別模型在驗(yàn)證集上對(duì)應(yīng)五類情感的不同識(shí)別結(jié)果(見表1)。
對(duì)比三個(gè)情感識(shí)別模型識(shí)別結(jié)果,在平均識(shí)別精度上,表情75.78%,高于文本73.87%,高于語音68.32%。其中,表情情感識(shí)別模型對(duì)高興情感的識(shí)別效果最佳,識(shí)別精度為80.21%,猜測(cè)是由于該情感面部運(yùn)動(dòng)單元較為明顯,如臉頰抬起、嘴角后拉并抬高、牙齒露出等活動(dòng)特征容易被捕獲。投入情感識(shí)別效果最差,僅為71.05%,猜測(cè)是由于該情感所關(guān)聯(lián)的面部活動(dòng)單元無顯著變化。其次,語音情感識(shí)別模型中識(shí)別效果最優(yōu)和最差的是中性和困惑情感,其識(shí)別精度分別是70.92%和63.84%。最后,文本情感識(shí)別模型中識(shí)別效果最優(yōu)和最差的是困惑和疲勞情感,其識(shí)別精度分別是76.88%和69.94%。
4.2" " 多模態(tài)情感識(shí)別結(jié)果
4.2.1" "賦予各模態(tài)情感識(shí)別模型權(quán)重
通過賦予表情情感識(shí)別模型、語音情感識(shí)別模型、文本情感識(shí)別模型不同權(quán)重進(jìn)行情感計(jì)算能夠得到多模態(tài)數(shù)據(jù)融合后的學(xué)習(xí)情感狀態(tài)。然在數(shù)據(jù)融合中面臨一個(gè)挑戰(zhàn),即如何合理地分配不同模態(tài)情感識(shí)別模型的權(quán)重。由于目前尚無明確的理論或先驗(yàn)數(shù)據(jù)指導(dǎo)我們?cè)诒砬椤⒄Z音和文本多模態(tài)數(shù)據(jù)融合中做出特定的權(quán)重分配選擇,但考慮到已有相關(guān)研究[7]在面部表情和人臉姿態(tài)的數(shù)據(jù)融合中通過實(shí)驗(yàn)逐一測(cè)試權(quán)重分配。因此,為探索最佳的權(quán)重分配方案,本研究采取通過實(shí)驗(yàn)測(cè)試的方法確定權(quán)重分配方案。同時(shí),為避免太多的結(jié)果會(huì)使得比較和分析變得復(fù)雜,而結(jié)果數(shù)量如果太少則無法充分探索不同權(quán)重配置所帶來的影響。最終,經(jīng)過實(shí)驗(yàn)測(cè)試選擇0.1作為權(quán)重分配的步長(zhǎng),旨在確保能夠覆蓋廣泛的權(quán)重分配范圍,并識(shí)別出可能的最佳權(quán)重配置。該方法雖然簡(jiǎn)單,但它允許通過比較不同權(quán)重配置下的性能來洞察模型的行為。其次,為保證三個(gè)識(shí)別模型權(quán)重參數(shù)之和為1,且每種模態(tài)情感識(shí)別模型權(quán)重至少為0.1,我們?cè)?.1-0.8之間以0.1為固定步長(zhǎng)人為分配權(quán)重,共得到36種權(quán)重分配結(jié)果。隨后與研究人員評(píng)價(jià)標(biāo)注的情感標(biāo)簽進(jìn)行比對(duì)來判斷該模型情感識(shí)別精度,得出賦予各模態(tài)情感識(shí)別模型權(quán)重的部分權(quán)重參數(shù)情況和識(shí)別精度(見表1),并將識(shí)別結(jié)果中最高的七類進(jìn)行篩選得出相應(yīng)結(jié)果(見表2)。
對(duì)上述識(shí)別結(jié)果TOP7(見表3)觀察可以看出,當(dāng)pface權(quán)值為0.7、pvoice權(quán)值為0.2、ptext權(quán)值為0.1時(shí),該情感計(jì)算模型的識(shí)別精度為最高,達(dá)到了84.12%。除此之外,還可以觀察出兩種情況:(1)當(dāng)pface所賦權(quán)重占比越大時(shí),該情感識(shí)別模型的精度則越高,推測(cè)是由于該模型應(yīng)用于在線學(xué)習(xí)場(chǎng)景,學(xué)習(xí)者語音和文本情感特征相比于面部表情活動(dòng)特征較為淺顯而產(chǎn)生該結(jié)果;(2)當(dāng)pface、pvoice、ptext賦值權(quán)重相接近時(shí)識(shí)別精度也較高。
4.2.2" "賦予各模態(tài)情感識(shí)別模型中不同情感權(quán)重
由賦予情感識(shí)別模型權(quán)重的識(shí)別結(jié)果可知,當(dāng)pface所賦權(quán)重占比越大以及pface、pvoice、ptext賦值權(quán)重相接近時(shí)識(shí)別精度較高。因此,以此為條件賦予各模態(tài)情感識(shí)別模型五類情感權(quán)重并進(jìn)行逐一計(jì)算。最終,得出賦予各模態(tài)情感識(shí)別模型中五類情感權(quán)重的最優(yōu)識(shí)別精度(見表4)。
通過觀察得出:當(dāng)面部表情情感識(shí)別模型中不同情感賦值權(quán)重為0.4、0.5、0.3、0.6、0.5,語音情感識(shí)別模型中不同情感賦值權(quán)重為0.3、0.2、0.5、0.2、0.2,文本情感識(shí)別模型中不同情感賦值權(quán)重為0.3、0.3、0.2、0.2、0.3時(shí),該模型可達(dá)到87.17%的識(shí)別精度。其次,該融合方法中面部表情情感識(shí)別模型更適用于識(shí)別投入、困惑、疲勞情感,推測(cè)是這三種情感通常伴隨著較為顯著的臉部特征變化從而更易識(shí)別;語音情感識(shí)別模型在識(shí)別中性情感時(shí)表現(xiàn)較優(yōu);而三種情感識(shí)別模型對(duì)于高興情感的識(shí)別效果相趨近,可能是因?yàn)楦吲d情感在面部表情、語音、文本數(shù)據(jù)中均具有明顯的變化特征。
4.2.3" "多模態(tài)情感識(shí)別模型效用性實(shí)驗(yàn)
為驗(yàn)證本研究所提出的多模態(tài)情感識(shí)別模型的效用性,將本研究模型與相關(guān)文獻(xiàn)中的多模態(tài)學(xué)習(xí)情感識(shí)別模型進(jìn)行對(duì)比,得出相應(yīng)結(jié)果(見表5)。
可以看出:本研究提出的賦予各模態(tài)情感識(shí)別模型中不同情感權(quán)重的多模態(tài)情感識(shí)別方法具有較佳的識(shí)別效果,均高于表5中相關(guān)文獻(xiàn)的識(shí)別精度,平均識(shí)別精度提高6.43%。同時(shí)可以發(fā)現(xiàn),模態(tài)數(shù)量與識(shí)別精度并不成正比,只有當(dāng)前模態(tài)提取的特征與識(shí)別模型實(shí)現(xiàn)有效的匹配才能獲得最佳的精度。
4.3" " 實(shí)證分析
本研究結(jié)果發(fā)現(xiàn),賦予各模態(tài)情感識(shí)別模型中五類情感權(quán)重的平均識(shí)別精度為87.17%,高于賦予各模態(tài)情感識(shí)別模型權(quán)重84.12%,是本研究的最優(yōu)情感計(jì)算模型。同時(shí),使用該模型對(duì)五類學(xué)習(xí)情感進(jìn)行識(shí)別:困惑情感識(shí)別精度最高為89.88%,其次是高興、投入、疲勞,分別為89.69%、86.25%、85.10%,對(duì)于中性情感識(shí)別表現(xiàn)較差,僅為82.39%(其混淆矩陣見圖6)。
梳理本研究全部結(jié)果,可得出:(1)基于在線學(xué)習(xí)者面部表情數(shù)據(jù)所進(jìn)行的情感識(shí)別效果最好,可判斷面部表情應(yīng)作為在線學(xué)習(xí)場(chǎng)景下情感計(jì)算的主要數(shù)據(jù)參考源;(2)在多模態(tài)數(shù)據(jù)融合的在線學(xué)習(xí)情感計(jì)算模型中,賦予各模態(tài)情感識(shí)別模型中五類情感權(quán)重的識(shí)別精度高于賦予各模態(tài)情感識(shí)別模型權(quán)重,是本研究中最優(yōu)情感計(jì)算模型;(3)賦予各模態(tài)情感識(shí)別模型中五類情感權(quán)重對(duì)困惑情感識(shí)別精度最高,其次是高興、投入、疲勞,最后是中性情感。
5" "結(jié)語
在線學(xué)習(xí)場(chǎng)景下的學(xué)習(xí)情感計(jì)算是相關(guān)教育工作人員構(gòu)思教學(xué)策略和實(shí)施干預(yù)措施的重要依據(jù)。本研究在前人研究的基礎(chǔ)上,構(gòu)建了面向在線學(xué)習(xí)的多模態(tài)數(shù)據(jù)融合情感計(jì)算模型,將學(xué)習(xí)情感劃分為高興、投入、中性、困惑、疲勞五類,通過基于決策級(jí)融合的方式對(duì)采集到的面部表情、語音和文本數(shù)據(jù)進(jìn)行融合計(jì)算,以此輸出可視化情感為相關(guān)教育人員對(duì)在線學(xué)習(xí)者進(jìn)行良性干預(yù)提供參考。研究結(jié)果發(fā)現(xiàn),該模型在實(shí)驗(yàn)過程中對(duì)被試的情感識(shí)別精度表現(xiàn)良好。然而,本研究為確保被試情感數(shù)據(jù)采集過程不受侵?jǐn)_,并未借助侵入型設(shè)備采集學(xué)習(xí)者生理數(shù)據(jù)進(jìn)行情感識(shí)別。相比于面部表情、語音等外顯型數(shù)據(jù)而言,學(xué)習(xí)者的生理數(shù)據(jù)更能夠體現(xiàn)個(gè)人的真實(shí)情感狀態(tài)。作為人類所表現(xiàn)出來的潛在反應(yīng),生理數(shù)據(jù)是機(jī)體在活動(dòng)中伴隨產(chǎn)生的,難以偽造和作假,從而能夠幫助研究取得更為精確的學(xué)習(xí)情感。盡管如此,本研究提出的面向在線學(xué)習(xí)的學(xué)習(xí)情感計(jì)算模型,為教育領(lǐng)域中在線學(xué)習(xí)情感分析提供了有效參考,也為解決在線學(xué)習(xí)中存在教師關(guān)注缺失、學(xué)習(xí)成效低下、群體情感忽視等問題提供了技術(shù)支持。后續(xù)將考慮結(jié)合非侵入式生理數(shù)據(jù)進(jìn)一步展開學(xué)習(xí)情感計(jì)算研究,實(shí)現(xiàn)對(duì)學(xué)習(xí)者在線學(xué)習(xí)情感精度更高、效果更好地識(shí)別分析。
參考文獻(xiàn):
[1]" Artino Jr A R,Jones II K D.Exploring the complex relations between achievement emotions and self-regulated learning behaviors in online learning[J].The Internet and Higher Education,2012,15(3):170-175.
[2]" Picard R W.Affective computing[M].MIT press,1997.
[3]" 王一巖,劉士玉,鄭永和.智能時(shí)代的學(xué)習(xí)者情緒感知:內(nèi)涵、現(xiàn)狀與趨勢(shì)[J].遠(yuǎn)程教育雜志,2021,39(2):34-43.
[4]" Robinson K.The interrelationship of emotion and cognition when students undertake collaborative group work online:An interdisciplinary approach[J].Computers amp; Education,2013,62:298-307.
[5]" 陳子健,朱曉亮.基于面部表情的學(xué)習(xí)者情緒自動(dòng)識(shí)別研究——適切性、現(xiàn)狀、現(xiàn)存問題和提升路徑[J].遠(yuǎn)程教育雜志,2019,37(4):64-72.
[6]" 江波,李萬健,李芷璇,等.基于面部表情的學(xué)習(xí)困惑自動(dòng)識(shí)別法[J].開放教育研究,2018,24(4):101-108.
[7]" 翟雪松,許家奇,王永固.在線教育中的學(xué)習(xí)情感計(jì)算研究——基于多源數(shù)據(jù)融合視角[J].華東師范大學(xué)學(xué)報(bào)(教育科學(xué)版),2022,40(9):32-44.
[8]" El Hammoumi O,Benmarrakchi F,Ouherrou N,et al.Emotion recognition in e-learning systems[A].2018 6th international conference on multimedia computing and systems(ICMCS)[C].IEEE,2018:1-6.
[9]" 權(quán)學(xué)良,曾志剛,蔣建華,等.基于生理信號(hào)的情感計(jì)算研究綜述[C].自動(dòng)化學(xué)報(bào),2021,47(8):1769-1784.
[10]" Sadoughi N,Busso C.Speech-driven animation with meaningful behaviors[J].Speech Communication,2019,110:90-100.
[11]" Li W,Zhang Y,F(xiàn)u Y.Speech emotion recognition in e-learning system based on affective computing[A].Third international conference on natural computation(ICNC 2007)[C].IEEE,2007,5:809-813.
[12]" Bahreini K,Nadolski R,Westera W.Towards real-time speech emotion recognition for affective e-learning[J].Education and information technologies,2016,21:1367-1386.
[13]" Lara-Alvarez C,Mitre-Hernandez H,F(xiàn)lores J J,et al.Induction of emotional states in educational video games through a fuzzy control system[J].IEEE Transactions on Affective Computing,2018,12(1):66-77.
[14]" 張琪,武法提.學(xué)習(xí)分析中的生物數(shù)據(jù)表征——眼動(dòng)與多模態(tài)技術(shù)應(yīng)用前瞻[J].電化教育研究,2016,37(9):76-81,109.
[15]" Elatlassi R.Modeling student engagement in online learning environments using real-time biometric measures:electroencephalography (EEG) and eye-tracking[D].Eugene:oregon State University,2018.
[16]" Hew K F,Hu X,Qiao C,et al.What predicts student satisfaction with MOOCs:A gradient boosting trees supervised machine learning and sentiment analysis approach[J].Computers amp; Education,2020,145:103724.
[17]" 李慧.融合情感特征的在線學(xué)習(xí)成績(jī)預(yù)測(cè)研究[J].小型微型計(jì)算機(jī)系統(tǒng),2023,44(7):1360-1366.
[18]" 王麗英,何云帆,田俊華.在線學(xué)習(xí)行為多模態(tài)數(shù)據(jù)融合模型構(gòu)建及實(shí)證[J].中國(guó)遠(yuǎn)程教育,2020(6):22-30,51,76.
[19]" 晉欣泉,王林麗,楊現(xiàn)民.基于大數(shù)據(jù)的在線學(xué)習(xí)情緒測(cè)量模型構(gòu)建[J].現(xiàn)代教育技術(shù),2016,26(12):5-11.
[20]" Caballé Santi.Towards a multi-modal emotion-awareness e-Learning system[A].2015 International Conference on Intelligent Networking and Collaborative Systems[C].IEEE,2015:280-287.
[21]" Ortony A,Clore G L,Collins A.The Cognitive structure of emotions cambridge[M].Cambridge University Press,2022.
[22]" Boucher J D,Ekman P.Facial areas and emotional information[J].Journal of communication,1975,25(2):21-29.
[23]" Plutchik R.A general psychoevolutionary theory of emotion[M].Theories of emotion.Academic press,1980:3-33.
[24]" McDaniel B,D'Mello S,King B,et al.Facial features for affective state detection in learning environments[C].Proceedings of the annual meeting of the cognitive science society,2007.
[25]" D'Mello S K,Craig S D,Sullins J,et al.Predicting affective states expressed through an emote-aloud procedure from AutoTutor's mixed-initiative dialogue[J].International Journal of Artificial Intelligence in Education,2006,16(1):3-28.
[26]" 王云,李志霞,白清玉,等.在線討論中動(dòng)態(tài)學(xué)習(xí)情緒和認(rèn)知行為序列的關(guān)系研究[J].電化教育研究,2020,41(6):60-67.
[27]" 趙宏,張馨邈.遠(yuǎn)程學(xué)習(xí)者在線學(xué)習(xí)情緒狀態(tài)及特征差異[J].現(xiàn)代遠(yuǎn)程教育研究,2019(2):85-94.
[28]" Kort B,Reilly R,Picard R W.An affective model of interplay between emotions and learning:Reengineering educational pedagogy-building a learning companion[A].Proceedings IEEE international conference on advanced learning technologies[C].IEEE,2001:43-46.
[29]" 孫波,劉永娜,陳玖冰,等.智慧學(xué)習(xí)環(huán)境中基于面部表情的情感分析[J].現(xiàn)代遠(yuǎn)程教育研究,2015(2):96-103.
[30]" 沈映珊,湯庸.社交學(xué)習(xí)網(wǎng)絡(luò)中基于學(xué)習(xí)認(rèn)知的情感交互研究[J].現(xiàn)代教育技術(shù),2015,25(9):90-96.
[31]" 薛耀鋒,楊金朋,郭威,等.面向在線學(xué)習(xí)的多模態(tài)情感計(jì)算研究[J].中國(guó)電化教育,2018(2):46-50,83.
[32]" 趙鑫,呂寒雪,吳濤.從“情知分離”到“情知共生”:在線學(xué)習(xí)變革的情感哲學(xué)審思[J].中國(guó)電化教育,2022(12):53-60.
[33]" D’Mello S,Graesser A.Dynamics of affective states during complex learning[J].Learning and Instruction,2012,22(2): 145-157.
[34]" Qin J,Zheng Q,Li H.A study of learner-oriented negative emotion compensation in e-learning[J].Journal of Educational Technology amp; Society,2014,17(4):420-431.
[35]" 葉俊民,周進(jìn),李超.情感計(jì)算教育應(yīng)用的多維透視[J].開放教育研究,2020,26(6):77-88.
[36]" SWELLER J.Cognitive load during problem solving:effects on learningly[J].Cognitive science,1988,12(2):257-285.
[37]" 王天平,李珍.智能時(shí)代在線課程的應(yīng)然樣態(tài)、實(shí)然困境與實(shí)踐路向[J].教育與教學(xué)研究,2024,38(4):20-31.
[38]" 1:1數(shù)字學(xué)習(xí):學(xué)習(xí)革命的新浪潮[J].中國(guó)電化教育,2007(6):1-6.
[39]" 周炫余,劉林,陳圓圓,等.基于多模態(tài)數(shù)據(jù)融合的大學(xué)生心理健康自動(dòng)評(píng)估模型設(shè)計(jì)與應(yīng)用研究[J].電化教育研究,2021,42 (8):72-78.
作者簡(jiǎn)介:司俊勇(1999-),男,鄭州航空工業(yè)管理學(xué)院碩士研究生;付永華(1979-),男,鄭州航空工業(yè)管理學(xué)院教授,研究方向:人機(jī)情感和智能教育信息處理。