付煜,鄧鈺巧
(四川大學計算機學院,成都 610065)
比起傳統(tǒng)教育,在線教育有許多優(yōu)點,例如可以隨時隨地接收教育,解決了教育資源分配不均勻的問題等。過去的幾十年間,在線教育發(fā)展迅速,在線教育系統(tǒng)和軟件如雨后春筍般涌現(xiàn)出來,如國內(nèi)的慕課網(wǎng)、網(wǎng)易云課堂、實驗樓等,國外也出現(xiàn)了許多在線教育系統(tǒng),如 Auto Tutor、Crystal Island、Wayang Outpost、Cognitive Tutor Algebra等[1-4],這些系統(tǒng)已經(jīng)證明在高等教育背景下獲得了成功,提高了學習者的學習表現(xiàn)。但在線教育也存在一些弊端,與傳統(tǒng)教育相比,導師與受教的學生之間隔著屏幕進行交互,而不是像傳統(tǒng)教育那樣面對面交流,所以在線系統(tǒng)無法偵測到學生在學習過程中情感狀態(tài)的轉(zhuǎn)變,缺少了必要的社會交互和情感交流,長此以往,容易導致學生的學習動機減弱,進而使得在線學習過程難以長久維系。
我們期望在學習過程中,能夠自動識別學生的情感狀態(tài),并自動調(diào)整學習策略[5],為學生提供必要的情感支持和情感干預。(例如,當偵測到學生的困惑感時,系統(tǒng)給出一定的提示;當系統(tǒng)檢測到學生的挫折感時,系統(tǒng)給予學生鼓勵等),有可能提高學生對課程的積極性,增加學生的參與度,提高學習者的學習能力[6]。
現(xiàn)有的方法大多使用Sensor-Based的情感檢測器來檢測情感,近些年來,研究人員使用物理傳感器(主要包括生理傳感器(如溫度、濕度、心率、肌電信號等)、情感行為檢測器(面部表情檢測設備、自動語音識別設備、姿勢識別設備等))進行情感檢測取得了重要的進展[7-8]。但這種方法在教育環(huán)境中可能會受到挑戰(zhàn),因為①Sensor-Based檢測器成本高昂,且;②會在進行情感檢測時,對學生的情感造成干擾;③政治原因;④學生并不期望在學習過程中被檢測情感等原因,傳感器難以部署在教育環(huán)境中。
所以,在教育領域,大家開始研究基于學生與在線學習系統(tǒng)之間交互事件的情感檢測技術。期望通過基本的鍵盤、鼠標、日志文件和文本等交互信息[2,9-10]來識別學生學習過程中的情感狀態(tài)[11],這些數(shù)據(jù)是交互過程中產(chǎn)生的低層數(shù)據(jù),易于在線課程中進行采集。這些模型大多基于機器學習算法開發(fā),機器學習檢測器可以識別出一定程度的情感狀態(tài),但這些檢測器往往不能達到足夠高的預測準確率來證明它們適合用于在線學習系統(tǒng)中的實時干預。于是Botelho和Baker等人[12]考慮將深度學習方法用于構(gòu)建情感檢測器,通過比較之前使用的機器學習算法和傳統(tǒng)RNN(Recurrent Neural Networks,循環(huán)神經(jīng)網(wǎng)絡),構(gòu)建的情感檢測器,來證明深度學習方法適用于教育領域中的情感檢測。
本文討論當物理傳感器不能實現(xiàn)時,僅根據(jù)學生和在線學習系統(tǒng)之間的交互數(shù)據(jù)來檢測學生的情感狀態(tài)。本文概括了這一領域近些年的研究成果,對基于交互的情感檢測模型,情感檢測方法,編程環(huán)境中的行為進行了論述,并對情感檢測中的情感標簽進行了討論。
由于物理傳感器大多價格高昂,而且有的傳感器體積較大,所以想在教育環(huán)境大規(guī)模部署傳感器是不現(xiàn)實的,因此基于傳感器的情感檢測方法在實際實施的時候具有較大的阻力?;诮换?shù)據(jù)的情感檢測模型[9]可以只通過用戶與在線學習系統(tǒng)的鼠標、鍵盤等交互數(shù)據(jù)識別用戶的情感狀態(tài)。
第一個基于交互的Sensor-Free(無傳感器)情感檢測器是Kurt開發(fā)的Why-2Atlas[13]。該系統(tǒng)主要通過來學生為簡單機械現(xiàn)象(如慣性運動)進行解釋來教導定性物理學。Why-2Atlas中的所有學生交流都是通過自然語言文本實現(xiàn)的,研究通過比較幾種不同的NL(Natural Language,自然語言)處理技術,希望開發(fā)能促進導師系統(tǒng)發(fā)展的工具。
D'Mello團隊通過對話線索來預測學生學習過程中的三種情感狀態(tài)(靈感、困惑和挫折感),這項實驗僅僅包含了7名學生的數(shù)據(jù),并取得了成功。隨后,他們發(fā)表了第二篇文章[15],該文章模擬了28名學生的困惑、flow(專注、參與)、挫折和中立情感狀態(tài)。除了在第一篇文章使用過的emote-aloud方法[14]外,本研究還使用了來自學習者同伴的標簽和兩名在面部動作編碼系統(tǒng)[15]中接受過訓練的評判者的標簽。然后,他們從交互日志中提取了一系列的交互特征和上下文特征,并使用六種機器學習算法構(gòu)建模型,通過交互特征來預測每個學生的情感狀態(tài)。其中最好的檢測器是基于邏輯回歸模型的(挫折或flow)檢測器。
在2009年,情感檢測被用于BlueJ交互式開發(fā)環(huán)境[16],它教本科生用Java進行編程。由Rodrigo和Baker為這個環(huán)境開發(fā)了一種僅根據(jù)學生交互行為推斷出學生挫折情感的模型。在這項工作中,數(shù)據(jù)是從本科計算機科學課的實驗任務中使用BlueJ獲得的。BlueJ中學生編譯行為的特征是從日志文件中提取出來的,包括在連續(xù)兩次編譯之間的時間等特征。線性回歸模型被構(gòu)建用來檢測學生的挫折感。在這篇文章中,挫折感是在一個粗粒度的層次上被檢測出來的,研究檢測的是學生在整個實驗階段而不是在特定的時間感受到的挫折程度。除了提供一個檢測挫折感的平臺[4],BlueJ還提供了一個檢測困惑感的平臺[17]。在這項工作中,同一個計算機程序的8個學生的編譯序列通過文本回放顯示給專家程序員[18],專家從學生是否出現(xiàn)困惑的角度進行了評估,學生編譯行為的特征被提取,并且使用J48決策樹算法構(gòu)建了情感檢測器。合成的檢測器在學生層面使用原始數(shù)據(jù)分布,發(fā)現(xiàn)根據(jù)文本回放對學生的困惑感評估的k值為0.86——這項工作的一個局限在于原始的困惑訓練標簽是由程序員識別學生們是否陷入困境(那些似乎不了解如何創(chuàng)建一個正確的程序的情況)。
基于交互數(shù)據(jù)對學生進行情感檢測的第六個程序是Crystal Island,出現(xiàn)在2011年,在一個敘事為中心的學習環(huán)境開發(fā)中學生的科學探索能力。Sabourin、Mott和Lester[19]通過要求學生在每7分鐘快速出現(xiàn)的一個彈窗項目中識別他們焦慮、無聊、困惑、好奇、興奮、專注和沮喪感來收集學生的情感數(shù)據(jù)。就像Rodrigo和Baker[4]的研究一樣,這項研究是在一個教室中進行的,而交互特征是從收集到的學生數(shù)據(jù)中提取出來的。Sabourin等人使用動態(tài)貝葉斯網(wǎng)絡對情感進行建模。最后在學生水平,在原始數(shù)據(jù)分布上進行了交叉驗證,將每個情感狀態(tài)與所有其他情感狀態(tài)進行比較。結(jié)果表明,這種方法能夠成功地識別好奇的學生(比隨機情況好24%)和專注的學生(比隨機情況好38%),但他們的模型在識別學生困惑感(比隨機情況好19%),沮喪感(比隨機情況好14%),無聊感(比隨機情況好10%),興奮感(比隨機情況好6%),或焦慮感(比基線差3%)上不太成功。由于交叉驗證是在學生水平和原始數(shù)據(jù)分布中進行的,消除了先前研究中提出的一些潛在的問題。
第7個研究項目在Cognitive Tutor Algebra[20]中檢測學生的情感,這是一個為學生第一年的代數(shù)課程提供輔導的項目。在Baker等人(2012)[2]的研究中,當他們使用Cognitive Tutor Algebra作為他們常規(guī)課堂活動的一部分時,89名學生們被使用BROMP方法進行觀測,經(jīng)過培訓的現(xiàn)場觀察員為每個學生是否無聊、挫折、困惑、專注或“其他”情感進行編碼。學生與Cognitive Tutors的交互特征,包括學生的當前動作相關的特征(如學生是否在當前的動作請求幫助和學生請求幫助后暫停了多久)和學生過去的行為相關的特征(如學生在當前技能上犯的歷史錯誤)被提取出來。接下來,研究了一組算法,包括K*(在專注度維度表現(xiàn)最佳)、JRip(在困惑維度表現(xiàn)最佳)、REPTree(在挫折感維度表現(xiàn)最佳),和樸素貝葉斯(在無聊程度上表現(xiàn)最佳)。最后,研究者在學生水平和原始數(shù)據(jù)分布對這些僅使用交互數(shù)的檢測器進行了交叉驗證——他們的檢測器能夠檢測到專注度(K=0.31)、困惑感(K=0.40)、沮喪感(K=0.23)和無聊感(K=0.30)。
Luc Paquette和Ryan Baker[21]在他們2014年的研究中提出了在仿真的科學探究學習環(huán)境中進行無傳感器的情感檢測方法。這些檢測器根據(jù)學生與學習環(huán)境的交互日志來推測學生的情感。論文使用的Inq-ITS學習環(huán)境是一個基于Web的在線學習環(huán)境,允許學生對中學物理進行模擬的探究學習。研究人員在2011年收集了326個學生使用Inq-ITS進行科學探究的數(shù)據(jù),這些學生來自馬薩諸塞州3所學校8年級11個不同的班級。四個專業(yè)的現(xiàn)場觀察員根據(jù)學生使用軟件的行為(動作、詞語、面部表情、身體語言、與老師和學習同伴的交互等)對學生的情感進行編碼,根據(jù)觀測,觀察員把情感編碼為五類:無聊、困惑、挫折、專注和“?”(不能編碼的情感狀態(tài)),總共觀察到了326個學生4155個觀察輪次的數(shù)據(jù),每次觀察都超過了20秒。使用J48決策樹和JRip算法構(gòu)建情感檢測器,這種檢測器允許對學習結(jié)果對應的不同情感狀態(tài)進行細粒度的分析。論文中提出的檢測器可以被用來研究Inq-ITS系統(tǒng)中的特定特征對于情感狀態(tài)的出現(xiàn)是否有影響,例如,60.53%(38個觀測中的23個)的挫折情緒出自一個文本框打開并且很快又被關閉的時候。結(jié)果表明,檢測器在四個情感維度上的表現(xiàn)都比隨機和以往的無傳感器情感檢測器更好(A'=0.50,kappa=0.0),在學生級進行交叉驗證的平均Kappa值為0.354,平均A'值為0.720。
2017年,Anthony F.Botelho 和 Baker等人[12]使用深度學習來改進無傳感器的情感檢測,通過使用傳統(tǒng)循環(huán)神經(jīng)網(wǎng)絡(RNNs)[22]來增強無傳感器的情感檢測。他們希望研究深度學習方法是否能比先前的算法產(chǎn)生更高的預測精度。研究者從ASSISTments學習平臺[23-24]中提取了用于評價作者所提出的用于檢測情感狀態(tài)的深度學習方法的數(shù)據(jù)集。ASSISTments是一個免費的基于網(wǎng)絡的平臺,提供即時反饋給許多在教室和家庭作業(yè)中使用它的學生。在2015-2016年間,該系統(tǒng)有近40000名學生和將近1400名老師使用了該系統(tǒng)。該數(shù)據(jù)集中使用的基礎情感真值標簽來自于使用Baker-Rodrigo Ocumpaugh監(jiān)測協(xié)議[25]進行的內(nèi)部人員觀察。由訓練過的現(xiàn)場觀察員觀察在教室環(huán)境中使用ASSISTments學習平臺的學生,并將他們的情感標記為無聊、沮喪、困惑、專注或其他(不能被編碼)。他們循環(huán)收集超過20s的情感觀察數(shù)據(jù),遍歷教室中的每一個特定學生。在城市、郊區(qū)和農(nóng)村地區(qū)的六所學校的646名學生中,總共獲得了7664個實地觀察數(shù)據(jù)。研究人員根據(jù)這些數(shù)據(jù)開發(fā)了51個動作級特征;這些特征包括響應行為、系統(tǒng)內(nèi)的時間、提示等。最后,作者將這些標簽和特征輸入到三個深度學習模型中,分別是遞歸神經(jīng)網(wǎng)絡(RNN)、門控循環(huán)單元(GRU)神經(jīng)網(wǎng)絡和一個長短時記憶網(wǎng)絡(LSTM)。結(jié)果表明,所有這三種深度學習模型都比使用傳統(tǒng)的機器學習算法(例如文獻[25])所產(chǎn)生出的最佳模型獲得了更好的AUC。然而,Cohen's Kappa要比之前的研究結(jié)果稍差一些。
計算機編程是一項困難甚至艱巨的任務,但確是計算機科學與技術這門課程中必不可少的一項技能,在信息化的時代,編程能力將會成為未來的主要競爭力。培養(yǎng)學生的編程興趣是一個主要的研究目標。
在編程環(huán)境或介紹性編程課程中通過識別學生的情感來為學生提供情感支持的研究存在許多的問題和局限性。首先,我們?nèi)绾问占瘜W生的數(shù)據(jù)?現(xiàn)如今主要有觀察法(包括現(xiàn)場觀察和視頻觀察)、自我報告法(包括Emote-Aloud方法和調(diào)查問卷法)以及日志文本注釋法。這些方法各有優(yōu)缺點,如何選擇或者如何組合都成為了未來研究的挑戰(zhàn)。其次,可否使用基于傳感器的方法來輔助我們模型的建立,只通過交互數(shù)據(jù)和攝像頭采集到的面部表情數(shù)據(jù)來提高模型的預測準確性。先前的研究中使用的數(shù)據(jù)樣本集都太小,導致模型訓練出來的結(jié)果比起基線都沒有較大的該進。而且選用哪些特征也變成了研究中的一個工程問題,從在線教育領域中選取的特征是否同樣適用于在線編程環(huán)境?在線編程環(huán)境選取進行研究的頻繁的情感狀態(tài),如好奇,是否在教育模型中同樣適用。
未來的研究主要考慮情感和交互事件之間的關系,使用無傳感器的情感檢測器,根據(jù)學生與編程環(huán)境產(chǎn)生的交互數(shù)據(jù)來識別學生的情感狀態(tài)??紤]多種機器學習算法和深度學習方法構(gòu)造的檢測器之間的性能優(yōu)劣,實現(xiàn)能準確識別學生的情感狀態(tài)(積極的、消極的)的情感檢測器,并考慮模型的可用性、有效性、高效性、魯棒性、易用性和可擴展性。提高檢測器的檢測性能,并為編程學生提供必要的情感支持,提高學生的編程興趣,維持可持續(xù)性編程。