張大為, 王琦菲
(遼寧師范大學,計算機與信息技術學院,遼寧,大連 116000)
提高教學質(zhì)量是高等教育發(fā)展的核心任務,也是建設教育強國的基本要求[1]。為了提高教學質(zhì)量,必須在教學環(huán)節(jié)中正確認識課程作業(yè)的重要性。課程作業(yè)的布置和批改是教學過程中的基本環(huán)節(jié):一方面有助于學生鞏固所學知識、了解階段性學習效果、提高學業(yè)成績、修正日后的學習規(guī)劃;另一方面還可以幫助教師了解教學成果、調(diào)整教學進度,是改進教學和開展教學活動的重要依據(jù)[2]。由此可見,客觀合理的作業(yè)評價是提高教學質(zhì)量的必要條件。
主觀類型作業(yè)在教育測量方面具有以下兩個優(yōu)點:一是有利于考察學生更深層次的能力;二是方便檢驗學生對課堂知識的綜合掌握程度。但主觀類型作業(yè)具有文檔特征:一方面該類型作業(yè)開放性更強,寫作排版風格統(tǒng)一困難,完成質(zhì)量差距更大;另一方面易受評閱人知識水平、心理活動等主觀因素影響,難以保證評分的客觀準確性[3]。教師長時間高強度地評閱作業(yè),很容易產(chǎn)生視覺和精神疲勞,進一步影響評價結果的準確性。教師為作業(yè)的評閱付出大量的時間和精力,勢必會對教學和科研產(chǎn)生影響,故將評閱工作智能化、自動化、便捷化是當前的趨勢,也是亟待解決的問題之一[4]。
隨著人工智能的發(fā)展,自動評閱技術逐漸成為研究熱點。文本挖掘技術是從諸多復雜的非結構化文本數(shù)據(jù)中獲取隱形、有用的數(shù)據(jù)信息,進而實現(xiàn)文本數(shù)據(jù)自動化處理的技術[5]。利用文本挖掘技術處理文本數(shù)據(jù)的能力,設計實現(xiàn)自動化文本作業(yè)評價方法,輔助教師給出客觀合理的評價結果是充分利用主觀作業(yè)幫助提高教學質(zhì)量的關鍵,具有重大研究意義。
國外對主觀題的自動評分研究早于國內(nèi),包括使用淺層文本分析方法的PEG作文評分系統(tǒng)[6];通過解析候選答案,設計并匹配對應評分模板,實現(xiàn)開放型自動批改系統(tǒng)Auto Mark[7]等。受中文的復雜性和獨特性等因素影響,現(xiàn)有的國外研究成果不能直接應用,且對于答案開放的主觀題自動評分的研究較少。陳賢武等[8]以語義為核心,建立多特征語句的相似度模型,設計一個面向主觀題的自動評閱系統(tǒng)。吳芳穎[9]采用雙向Bi-LSTM和CNN-LSTM對文本進行建模得到兩個向量,并對其進行相似度計算預測文本質(zhì)量。
上述評分方法效果較好,但大多為有標準答案的簡答題或無參考答案的作文,且應用成本較高,無法運用于開放型主觀作業(yè)的在線評閱。本文提出的ASM評分模型及其軟件實現(xiàn)不需要提前預設答案或評分模板即可實現(xiàn)自動評閱,提高評閱效率和客觀性。通過近10年的實踐表明,自動作業(yè)評價結果在教師和學生兩個維度的滿意程度均達到98%以上。
作業(yè)文本需要進行預處理,將其標準化和格式化,即數(shù)據(jù)清洗[10]后,才能對各項評價指標評分。首先要對每份作業(yè)(以下簡稱樣本)進行讀取并分詞處理,然后建立學科領域停用詞庫,過濾停用詞,最后統(tǒng)計詞頻,生成“文檔-詞頻”矩陣,記作D:
(1)
其中,D的每一行表示一個樣本,即第i行表示第i個樣本,記作doci。D的每一列為特定詞語的詞頻,例如docij表示第i行的第j列,也就是指第i個樣本的第j個詞語的詞頻。m為樣本的總數(shù),n為所有樣本詞語集合的大小。
余弦相似度指的是在向量空間中通過計算兩個向量之間夾角的余弦值來度量其相似程度[11]。本文使用余弦相似度計算兩個樣本之間的相似性,計算公式為
(2)
其中,docik和docjk分別為樣本doci和樣本docj在“文檔-詞頻”矩陣D中第k列對應的詞頻。當余弦相似度值越接近1時,兩個向量之間的夾角越接近0°,其相似度越大。
TextRank本質(zhì)是一種基于詞圖模型的排序算法,具有較好的關鍵詞提取效果,在一定程度下接近有監(jiān)督方法的效率。TextRank算法將文本抽象為詞圖模型記作G=(E,V),其中V為節(jié)點集,即由候選關鍵詞矩陣組成,E是利用共現(xiàn)窗口構建圖中兩節(jié)點之間的邊,迭代計算每個頂點的權值,收斂時權值排名在前的點即為文本關鍵詞[12]。每個頂點權值的計算公式為
(3)
其中,d為阻尼系數(shù),vi和vj均為詞語節(jié)點,ln(vi)是指向詞語節(jié)點vi的詞語節(jié)點集合,Out(vj)是詞語節(jié)點vj指向的詞語節(jié)點集合。
主觀文本類型作業(yè)智能輔助評分模型Automatic Scoring Model(ASM)的基本內(nèi)容是構建核心評價指標,并給出不同作業(yè)的合理的評價方法,流程如圖1所示。首先對所有作業(yè)進行預處理,得到詞頻矩陣。然后根據(jù)作業(yè)類型組織適用的評價指標,最后生成評分公式并計算成績。
該模型的合理性前提是每份作業(yè)所具有的獨立性。所謂作業(yè)獨立性,就是我們在布置作業(yè)時要求的每份作業(yè)必須由作業(yè)完成人獨立完成。如果某份作業(yè)不具備獨立性,可以通過相似度指標和主題貼合度指標進行識別和排除。當所有作業(yè)具有獨立性時,幾乎不可能出現(xiàn)所有作業(yè)工作量相同的情況。作業(yè)獨立性是工作量指標和篇幅結構指標能對作業(yè)進行合理評價的前提和基礎。工作量和篇幅結構指標(量化指標)與主題貼合度和相似度指標(決定性指標)形成互相制約的評價體系。也就是說,某作業(yè)完成人(個人或團隊)希望通過突出某項評價指標而獲得高分的行為在現(xiàn)實中很難實現(xiàn)。
通過相似度評價指標Similarity Index(SI)可以有效地檢測出一次提交的所有作業(yè)中是否存在過度雷同的作業(yè)。首先采用式(2)計算doci與其他作業(yè)的余弦相似度S(doci,docj),取最大值作為doci的相似度值,計算公式為
JSi=max{S(doci,docj)},1≤i,j≤n,i≠j
(4)
其中,doci為第i份作業(yè),docj指與doci同組的不同作業(yè)。JSi表示第i份作業(yè)的相似度值。相似度指標值的計算公式如下:
(5)
其中,SIi為第i份作業(yè)的相似度指標值,0或1的取值使該指標具有決定性,k為判定SI取值為1或0的閾值,k值的大小根據(jù)作業(yè)的特點和對作業(yè)的要求不同而不同,需要根據(jù)經(jīng)驗做適當?shù)膰L試和調(diào)整。如主題發(fā)散型作業(yè)的k值取0.98左右,主題聚焦型作業(yè)的k值取0.95左右。
通過主題貼合度評價指標Theme Index(TI)判斷一份作業(yè)是否存在“張冠李戴”或“濫竽充數(shù)”的情況。首先采用式(3)計算所有作業(yè)的核心關鍵詞,取一定比例的詞頻排名靠前的詞作為本次作業(yè)的核心詞AC。然后根據(jù)式(3)計算每份作業(yè)doci的核心詞DCi,同時根據(jù)式(2)計算DCi與AC之間的余弦距離作為作業(yè)doci的主題相似度值TSi。相似度指標值TIi的計算公式如下:
(6)
其中,TIi為第i份作業(yè)的主題貼合度指標值,0或1的取值使該指標具有決定性,t是判定TIi取值為1或0的閾值,t值的大小根據(jù)作業(yè)的特點和對作業(yè)的要求不同而不同,需要根據(jù)經(jīng)驗做適當?shù)膰L試和調(diào)整。如主題發(fā)散型作業(yè)的t值取0.2左右,主題聚焦型作業(yè)的t值取0.5左右。
通過工作量指標Workload Index(WI)來判斷作業(yè)完成工作量的多少,是最終成績的重要組成部分。首先利用正則表達式統(tǒng)計作業(yè)doci的中文、英文和其他字符數(shù)量,將過濾停用詞后的中英文詞數(shù)之和作為有效字符數(shù)Wi。然后去掉集合{Wi}中一定比例的最大值和最小值,計算剩余部分的平均值Wa作為所有作業(yè)的工作量修正平均值。最后按下面公式計算工作量指標值:
(7)
其中,WIi為第i份作業(yè)的工作量指標值。當Wi小于Wa時,WIi成績隨著Wi減少而減少,即WIi值取Wi和Wa的比例。當Wi大于或等于Wa時,WIi的值為1,表示該作業(yè)達到平均工作量的基本要求。
篇章結構評價指標包括圖片指標Figure Indicator(FI)和中英文比例指標Ratio Index(RI),其目標是評價作業(yè)中圖表、程序代碼等內(nèi)容組織的合理性。首先利用正則表達式統(tǒng)計作業(yè)doci中的圖片數(shù)量Fi、中文詞數(shù)Ci和英文詞數(shù)Ei,并計算中英文比例Ri=Ci/Ei。然后計算Fi和Ri的修正平均值Fa和Ra(具體計算方法參考Wa)作為評價基準值。篇章結構評價指標FI和RI的計算公式如下:
(8)
(9)
其中,FIi為第i份作業(yè)的圖片指標值。當Fi大于Fa或Fi小于Fa時表示該作業(yè)的圖片數(shù)量過多或者過少,FIi值變小。只有Fi接近Fa時,表示該作業(yè)的圖片數(shù)量符合平均數(shù)量,FIi值接近1。
中英文比例指標RI作為可選指標,主要用于評價以中文為主的作業(yè)。RIi為第i份作業(yè)的中英文比例指標值。當Ri小于Ra時表示該作業(yè)的英文過多,此時RIi=Ri,即RIi成績隨著Ri減小而減少。當Ri大于或等于Ra時表示該作業(yè)主要以中文描述為主,取值為1,表示作業(yè)內(nèi)容符合文字比例要求。
上述評價指標依據(jù)其評價方式和性質(zhì),分為決定性指標和量化指標兩個類別。其中,決定性指標采用乘法原則,量化指標采用加法原則。第i份樣本的成績SC(Score)計算公式如下:
SCi=Total×SIi×TIi×(a×WIi+b×FIi+
c×RIi),0≤a,b,c≤1,1≤i≤n
(10)
其中,Total為評分分值,n為樣本數(shù)量,a、b、c均為指標所占總分值的比例,根據(jù)作業(yè)要求不同,可以做適當?shù)慕M合調(diào)整,符合a+b+c=1即可。
本研究工作已經(jīng)在我校計算機科學與技術專業(yè)的軟件工程、軟件工程課程設計、JavaWeb高級編程等3門課程的作業(yè)評價中嘗試應用和改進多年。實驗選取我校2015級至2018級上述課程的作業(yè)作為實驗數(shù)據(jù),作業(yè)詳細信息以及實驗所采用的評價參數(shù)如表1所示,每組作業(yè)在40~60份之間,一共20組,合計1049份。
表1 作業(yè)類型及其評分參數(shù)表
為了驗證ASM模型的評分有效性,每份作業(yè)由5人評價,取平均值作為人工評價結果,并從指標得分相關性、個人成績標準差、人機評分結果分布圖、人機評分相對誤差等4個方面進行分析論證。評價系統(tǒng)及實驗分析可以參考網(wǎng)站:https://willow.net.cn/score。
最終成績由指標SI、TI、WI、FI和RI共同參與計算完成,使得最終評分結果的合理性與上述指標的綜合貢獻有著直接關系,這意味著各項指標與最終成績的相關性越強,評價結果越合理。對SI和TI的識別正確率進行統(tǒng)計,所得結果見表2。
政府作為國家組織的具體形式,對一個專業(yè)社會地位的確立發(fā)揮了極為重要的法權作用,離開了政府賦權以及與此相關的外部保障條件,專業(yè)工作者及其專業(yè)組織就很難爭取到自身合理的利益,正是由于政府行動的滲透,使得某些不具有專業(yè)地位的職業(yè)不斷提升自主權,取得合法性專業(yè)資格[18]。政府作為專業(yè)化框架的實施主體,最重要的作用體現(xiàn)在政府的頂層設計上,將指導和規(guī)范體育教師教育專業(yè)化體系建設。只有當國家規(guī)定了所有主體的角色時,建立在社會合作關系的原則基礎上的體系才能運轉(zhuǎn)起來[19]。因此,需要政府來進行整體的規(guī)劃,完善有關法規(guī)制度,建立合理的配套機制并提供一定的財政支持來促進專業(yè)化框架的構建。
表2 識別正確率情況統(tǒng)計報表 單位:%
由表2可知,隨筆、需求、實驗報告1、實驗報告2的SI正確率均為100%,課程設計SI的正確識別率為99.53%。即針對同組作業(yè)大篇幅抄襲現(xiàn)象能夠有效地識別,存在少量的誤判是由于課程設計的文本內(nèi)容相對集中造成的。全部作業(yè)的TI正確率為99%以上,即總體表現(xiàn)良好。存在少量誤判現(xiàn)象是由于部分樣本主題較為分散造成的。例如需求的作業(yè)中,可能包含“訂餐管理系統(tǒng)”,也可能有“圖書管理系統(tǒng)”。隨筆作業(yè)看似要求發(fā)散,但學生提交的作業(yè)內(nèi)容非常相近,通過其TI正確率100%也可得到體現(xiàn)。嚴格設定SI和TI的閾值k和t可以有效防止漏判,對于誤判作業(yè)可以通過人工復查加以糾正。
針對指標WI、FI和RI檢驗是評價指標值與最終成績之間的相關性是否合理,結果見圖2。
圖2 WI、FI和RI指標值與其對應成績關系圖
由圖2可知,WI和RI的機器評分與對應的指標值并不完全呈線性增長關系,其成績分布受到樣本內(nèi)部修正平均值的影響,反映樣本內(nèi)相對成績,即當指標值超過修正平均值時,縱坐標趨于水平不再增長,表示該指標成績?yōu)闈M分。這種非完全線性的指標成績相關性與理想的評價預期更為接近。
對個人所有作業(yè)成績標準差進行分析。例如,A同學學習成績穩(wěn)定,每次提交作業(yè)的評分趨于平穩(wěn),則A同學所有作業(yè)成績的標準差趨于合理。如果B同學提交作業(yè)自動評分的標準差過大,表明每次作業(yè)的得分偏差較大。標準差過大的原因可能有兩種:一是該同學學習成績不夠穩(wěn)定;二是自動評分存在誤差。個人成績標準差RMSE計算方法如下:
(11)
其中,Pi和P分別為該學生第i份作業(yè)成績和全部作業(yè)平均成績。統(tǒng)計所有學生RMSE的分布情況見圖3。
圖3 所有學生個人成績標準差分布圖
由圖3可知,RMSE在20以下的學生占82.18%。對于RMSE在20以上的學生,經(jīng)過人工復查均存在描述型作業(yè)分數(shù)較高,實驗類型作業(yè)分數(shù)偏低這一現(xiàn)象,即反映出學生綜合實驗能力的不足,教師需要在教學過程中著重培養(yǎng)學生的實驗分析能力。綜上所述采用ASM模型的評分結果合理有效,可以很好地反映出學生的綜合水平和學習效果。
主觀類型作業(yè)即使人工評分也會存在一定誤差。統(tǒng)計人機評分在不同分數(shù)段上的樣本數(shù)量見圖4。分析二者的趨同性,如果二者的趨勢有很大不同,說明各個分數(shù)段上的人數(shù)差距過大,表明人機評分結果的分歧較大,反之同理。
圖4 人機評分在不同分數(shù)段上的作業(yè)數(shù)量對比圖
由圖4可知,描述型作業(yè)如隨筆、需求,僅考察SI、TI和WI三項指標,故大部分學生可以拿到較高的分數(shù),且人機評分結果分歧較小。而針對實驗報告類型作業(yè),對比機器評分增加的篇章結構指標FI和RI,人工評分對這兩個指標的判別更加模糊,易受到各種因素的干擾,無法做到像機器評分一樣的精準性。因此采用ASM模型得到的評分結果在主要分數(shù)段基本呈線性分布,在全部分數(shù)段趨于正態(tài)分布,即兩邊分數(shù)段的作業(yè)數(shù)量較少,中間分數(shù)段的作業(yè)數(shù)量較多。因此,本文提出的ASM模型自動評分結果更具客觀性。
(12)
其中,Ai和Pi分別為第i份作業(yè)的人機評分結果,n為樣本大小,s為作業(yè)分值。計算20組樣本的MAE見表3。
表3 20組樣本人機評分的平均相對誤差表
由表3可知,部分人機評分的結果具有一定的差距。分析MAE較大的原因有下幾點。
(1) 文本主觀類型作業(yè)比其他短文本主觀作業(yè)具有開放性更強、篇幅更長、寫作元素更多等特點,人工評閱過程中難以統(tǒng)一評分標準,導致評分結果主觀性過強。
(2) 針對抄襲或偏離主題的作業(yè),教師可能會根據(jù)具體寫作情況給予一定分數(shù),而ASM模型的評分結果直接為零。
(3) 人工評閱時容易受到字體、格式、排版風格等因素影響,評分結果存在一定主觀性,ASM模型通過對篇章結構的評分結果更加客觀合理。
本文針對人工方式評閱文本主觀作業(yè)時存在的問題,提出了一種基于文本挖掘的智能輔助評分模型,可針對不同類型作業(yè)組織適用的評價指標。通過實驗分析表明,ASM模型評分更加客觀公正、準確高效,彌補了以往人工評分存在的局限性。作為主觀類型電子作業(yè)的輔助評價方法,本系統(tǒng)具有推廣應用價值,對提高教學質(zhì)量有著重大意義。