歐陽元新,王樂天,李 想,蒲菊華,熊 璋
(北京航空航天大學 計算機學院,北京 100191)
2019 年2 月,中共中央、國務(wù)院印發(fā)了《中國教育現(xiàn)代化2035》,強調(diào)“因材施教”“知行合一”,其十大戰(zhàn)略任務(wù)之一“加快信息化教育時代變革”提出利用現(xiàn)代技術(shù)加快推動人才培養(yǎng)模式改革,實現(xiàn)規(guī)?;逃c個性化培養(yǎng)的有機結(jié)合。教學的最終目的始終是為了促進學習者的學習。不同學習者的學習需求千差萬別,如何應(yīng)對學生的個體差異,真正做到“因材施教”的個性化教學(學習),一直是擺在每個教育工作者面前的課題。在面對范圍更大、層次更復雜的學習者時,如何獲得其對課程的直觀反饋,進而動態(tài)調(diào)整課程教學組織顯得尤為重要。
自然語言是人類表達信息的主要途徑之一,以自然語言表述的文本信息存在于教學活動的各個環(huán)節(jié)之中。觀點挖掘和情感分析是分析用戶觀點、反饋、評估、態(tài)度和個人情感的研究領(lǐng)域。過去的15 年里,作為情感計算和自然語言處理的子任務(wù),關(guān)于主觀性和情感分析的研究已經(jīng)取得了蓬勃的發(fā)展[1]。情感分析在通常情況下不會單獨使用,其結(jié)果會作為更高層次應(yīng)用的一項特征輸入。情感分析技術(shù)的作用是檢測文本表達出的情感狀態(tài)。這些狀態(tài)序列可以通過模式識別的方式提取出情感變化特征,作為預測用戶情感狀態(tài)的依據(jù)。通過對課程反饋文本信息進行情感分析,可得到學生對當前課程有效的情感反饋,并以此為依據(jù),實時調(diào)整教學方案、優(yōu)化教學方法,實現(xiàn)更為精準化和個性化的教學。
情感指的是一種態(tài)度、想法或感性的判斷,用來描述觀點中蘊含的褒義或貶義的情感傾向。情感和觀點都是人主觀意愿的一種表達,但二者之間存在明顯的區(qū)別,觀點偏重于人對于某一個事物形成的具體看法,情感更側(cè)重于人內(nèi)在的某種情感[2]。
教育數(shù)據(jù)挖掘(Educational Data Mining)是一個重要的研究領(lǐng)域,通過觀察學生的表現(xiàn),了解學生的學習情況來改善教育環(huán)境。但是僅僅通過學期末獲得的學生成績等反饋數(shù)據(jù),不能給已經(jīng)參加完該課程學習任務(wù)的學生帶來幫助。為了使正在學習中的學生同樣受益,需要實時進行數(shù)據(jù)處理與分析,并快速給出反饋,幫助教師理解學生的學習行為和所遇到的不同問題。
教育領(lǐng)域反饋文本情感分析是一個致力于從反饋文本中提取情緒和觀點的任務(wù)。情感可以是消極的或者積極的,不同的情感對應(yīng)于不同的意見和建議。無論是在線下還是線上課堂,教師都可以通過對反饋文本的情感分析對課堂中的情緒狀態(tài)獲得快速的宏觀了解。這些情緒信息可以輔助教師定位到課程安排、知識體系、教學方法等方面上的問題,進而改善教學質(zhì)量、提高學生學習效率。將情感分析技術(shù)應(yīng)用于學生課程反饋自動化分析,在緩解教師工作壓力的同時,還可有效提高教學質(zhì)量。
近年來,機器學習(尤其是深度學習)方法逐漸成熟。此類方法通過對文檔進行監(jiān)督訓練可以得到能夠有效預測文檔情感極性的神經(jīng)網(wǎng)絡(luò);使用端到端訓練方式可以快速利用大量的文本數(shù)據(jù)而不依賴人工分析;預訓練深度語言模型的興起使得所有自然語言處理任務(wù)都有了強大的語言表示模型基礎(chǔ),便于構(gòu)建具體的應(yīng)用模型并快速投入到實際應(yīng)用中。
Piryani 等人對情感分析技術(shù)的綜述文獻中有統(tǒng)計表明,機器學習方法在當前情感分析研究中占主導地位,約67.2%的文獻采用了機器學習方法進行研究,其余的才是基于規(guī)則與情感詞典的方法。然而教育領(lǐng)域的情況正相反,后者仍然廣泛地應(yīng)用于教育領(lǐng)域研究中,并且占據(jù)了主導地位[3]。考慮到深度學習方法有數(shù)據(jù)依賴強、模型規(guī)模大、可解釋性差等先天缺點,結(jié)合傳統(tǒng)方法與深度學習方法可以使兩者更好地互補、發(fā)揮優(yōu)勢。
大規(guī)模開放式在線課程(MOOC)是線上教育的產(chǎn)物,是教育領(lǐng)域中的一個相對較新的發(fā)展模式。雖然與傳統(tǒng)教室相比,在線課程具有各種獨特的優(yōu)勢和改變教育系統(tǒng)未來的潛力。但是,MOOC 教育模式仍然存在明顯短板[4],從教學的角度來看,大多數(shù)MOOC 使用視頻實現(xiàn)從教師到學生的內(nèi)容傳遞,缺少教師與學生之間的直接互動,導致教師缺少視覺或聽覺上的提示來區(qū)分沮喪與熱情的學生。
大多數(shù)MOOC 提供課程論壇作為交流和學習的工具,發(fā)表與回復課程評論是學生與授課教師或其他學生互動的主要途徑。其中,課程評論是最典型的反饋文本形式。MOOC 的產(chǎn)生帶動了大量課程和課程評論的產(chǎn)生,這些評論都是學生抒發(fā)自身情感和表達觀點的載體。Tucker 等人發(fā)現(xiàn),學生在論壇發(fā)言表現(xiàn)的情感傾向與其在MOOC 平臺的學習表現(xiàn)有一定程度的正相關(guān)性[5]。由于可以獲得大量的課程評論數(shù)據(jù),針對MOOC 的數(shù)據(jù)挖掘及情感分析技術(shù)應(yīng)用相對更為成熟,傳統(tǒng)的樸素貝葉斯、最大熵和支持向量機等技術(shù)都已被證明可以很好地與在線情感數(shù)據(jù)配合使用,也獲得了不錯的效果。MOOC 平臺使用情感分析技術(shù),能夠基于學生用戶對課程的情感傾向判別,快速且準確地從海量評論文本中篩選出價值較高的反饋信息,進而實現(xiàn)用戶退課預警、個性化課程推薦等。教師則可以根據(jù)學生的反饋動態(tài)調(diào)整教學安排,以滿足學生的個性化學習需求。
從中國大學MOOC 收集11 個課程大類、1 768 門課程的評論數(shù)據(jù)并進行一定的人工標注,構(gòu)建了一個量化的中文教育領(lǐng)域情感極性數(shù)據(jù)集,在此基礎(chǔ)上展開學生反饋文本情感分析研究。被評論課程所屬的具體領(lǐng)域見表1。由于語料所處的大領(lǐng)域與細分領(lǐng)域均會對情感分類中運用的自然語言處理工具產(chǎn)生影響,本文在數(shù)據(jù)集中融合了多種領(lǐng)域的文本,嘗試在跨細分領(lǐng)域的數(shù)據(jù)集上驗證模型的情感分類效果。
數(shù)據(jù)集中的每一個評論會有一個用戶給出的1~5 分的打分,其中5 分樣本占據(jù)了總評論數(shù)據(jù)的84%,3 分及以下評分樣本的數(shù)量僅占據(jù)總評論數(shù)據(jù)的3.8%。為了避免這種不平衡數(shù)據(jù)導致的模型偏見,從完整數(shù)據(jù)集構(gòu)建相對平衡的子集用于模型的構(gòu)建與訓練,具體方法如下:從用戶打分為5 分的樣本中提取了15 000 條評論作為正樣本(積極情感)數(shù)據(jù),并對用戶打分為1~3分的6 731 條評論進行人工標注,最終篩選出負樣本(消極情感)評論4 148 條,與正樣本中的15 000 條數(shù)據(jù)共同構(gòu)成實驗數(shù)據(jù)集(見表2)。
表1 MOOC 實驗數(shù)據(jù)集評論領(lǐng)域及評分分布
表2 MOOC 評論文本統(tǒng)計信息
從表2 中可以看出,評論負樣本的平均句長、中位數(shù)樣本句長與99%分位樣本句長都相比正樣本長一些,說明負樣本中潛在的語義信息更豐富,也更有可能包含對于課程改進有價值的評價與觀點。由于MOOC 平臺的限制,評論的最大長度均為500 個字符,因此樣本最大長度均為500。圖 1 所示為數(shù)據(jù)集中不同分位的文本平均長度折線圖。
圖1 數(shù)據(jù)集中不同分位的文本平均長度
B E RT(Bidirectional Encoder Representation from Transformers)是由Google Brain提出的一種預訓練深層語言模型,訓練自BooksCorpus 與Wikipedia 語料,共計約320 億詞的文本。其架構(gòu)為多層編碼器堆疊而成的棧式結(jié)構(gòu),每一個編碼器都由自注意力層、全連接層與殘差連接組成。BERT 模型性能提高的代價是愈發(fā)復雜的模型結(jié)構(gòu)和陡增的參數(shù)數(shù)量,由此進一步導致了訓練、預測時間成本的增長。此外,深層語言模型生成的詞向量可能無法進一步和下游網(wǎng)絡(luò)進行良好的協(xié)同工作。
與其他領(lǐng)域公開數(shù)據(jù)集不同,MOOC 評論文本以短文本為主。此類短文本分類是一種典型的分類特征抽取任務(wù),更適合使用簡單模型進行特征抽取。因此本文提出并訓練得到一種基于注意力池化機制的裁切BERT 與卷積神經(jīng)網(wǎng)絡(luò)情感分析模型[6],嘗試將淺層BERT 詞向量與卷積神經(jīng)網(wǎng)絡(luò)相結(jié)合,并在卷積操作后、池化操作前引入自注意力模塊,使得該模型結(jié)構(gòu)在MOOC 評論的情感分類任務(wù)上可以達到基礎(chǔ)BERT 模型的效果,但模型大小與性能消耗可以大大降低,整體模型工作原理如圖2 所示。實驗結(jié)果表明,本方法在中國大學MOOC 評論文本數(shù)據(jù)集上,情感二分類(積極、消極)準確率可達92.8%。
圖2 基于注意力池化機制的裁切BERT 與卷積神經(jīng)網(wǎng)絡(luò)情感分析模型
在線下課程教學中,同樣可以通過情感分析技術(shù)實現(xiàn)學生情感自動化分析,及時發(fā)現(xiàn)學生情感波動,適時調(diào)整課程的教學模式與方法,以進一步提高教學質(zhì)量。計算機導論與倫理學是北京航空航天大學開設(shè)的面向計算機專業(yè)的新生專業(yè)先導課程,于2008 年獲評國家級精品課。本文通過調(diào)查問卷的方式收集了2 078 條來自選課學生的課堂反饋數(shù)據(jù),并對正負樣本(積極/消極情感)進行了人工標注作為線下測試數(shù)據(jù)集(統(tǒng)計信息見表3),嘗試將本文提出的MOOC 評論文本情感分析方法應(yīng)用到計算機導論與倫理學線下教育應(yīng)用中。
表3 線下課程課堂反饋文本統(tǒng)計信息
從文本長度上看,課堂反饋文本同MOOC評論同屬于短文本。與MOOC 評論相比,由于課堂反饋問卷更為正式,因此課堂反饋中的文本長度相對較長。不同于MOOC 數(shù)據(jù)集中負樣本平均長度較長,本課程評論數(shù)據(jù)集文本平均長度為31,中位數(shù)文本長度均為24,99%分位長度為129,正負樣本間的文本長度沒有體現(xiàn)出明顯的差異,這表明正負樣本沒有過大的信息量差異,但正樣本中的一個極長的反饋文本,使得正樣本最大長度遠大于負樣本最大長度。此外,線上數(shù)據(jù)存在大量的無意義單字,而課堂反饋數(shù)據(jù)不存在該情況。
將通過中國大學MOOC 評論數(shù)據(jù)集訓練得到的情感分析模型應(yīng)用于對線下課堂反饋文本的情感分析中,具體實驗結(jié)果見表4。
表4 裁切復合模型在課堂反饋數(shù)據(jù)集上實驗結(jié)果
由實驗結(jié)果可以看出,該模型在課堂反饋數(shù)據(jù)集上精確率達到84.8%,表明通過MOOC 評論數(shù)據(jù)訓練得到的情感分析模型對于課堂反饋文本也具有較好的情感分類能力,但由于該數(shù)據(jù)集中同樣存在正負樣本不平衡的現(xiàn)象,導致模型存在偏見,使模型對正負樣本的區(qū)分體現(xiàn)出一定的差別。因此,模型在對正負樣本的區(qū)分上仍然體現(xiàn)出了與在MOOC 評論數(shù)據(jù)集上相似的現(xiàn)象,即對正樣本分類性能(90.5%)較對負樣本(72.7%)分類性能更優(yōu)。不同于MOOC 數(shù)據(jù)負樣本含有較正樣本更多的信息量,線下數(shù)據(jù)中的正負樣本間沒有明顯的信息量差異,這也會對分類預測產(chǎn)生一定的影響。
在線下課堂教學中,受制于一對多的教授方式,教師無法及時了解每名同學的情緒狀態(tài)。以開展教學改革研究的計算機導論與倫理學課程為例,每年的選課學生在300~400 人之間,讓教師僅僅通過課堂上的互動,很難照顧到所有的選課學生。應(yīng)用自動化分析手段后,教師可以通過對學生反饋文本的情感分析,快速獲得學生的情緒狀態(tài),實現(xiàn)對課程安排、知識體系、教學方法等方面的針對性調(diào)整,進而改善教學質(zhì)量、提高學生學習效率。另一方面,將相關(guān)方法集成到課程互動平臺中,亦可根據(jù)分類預測的結(jié)果,實現(xiàn)對學生評論的個性化反饋和學習內(nèi)容推薦。
使用MOOC 評論文本作為訓練集,對線下課程課堂反饋文本情感分析進行嘗試,雖然存在模型偏見現(xiàn)象,模型仍能將線上MOOC 環(huán)境學習到的分類特征很好地應(yīng)用至線下課堂反饋文本上,這表明線上MOOC 環(huán)境和線下課堂環(huán)境的語義信息、語言情感特征是相似的,語言模型及其連接的神經(jīng)網(wǎng)絡(luò)均可以有效地在線上、線下環(huán)境應(yīng)用之間遷移。本文的主要工作目前集中于對反饋文本的語句級情感分析,下一步將繼續(xù)開展屬性級情感分析(即觀點挖掘)方面的研究和應(yīng)用工作。