胡欽太 伍文燕 馮 廣 潘庭鋒 陳 卓 邱凱星
(1.廣東工業(yè)大學 計算機學院,廣東廣州 510006;2.廣東工業(yè)大學 自動化學院,廣東廣州 510006)
教學評價是對教學的價值判斷,對教學具有診斷、鑒定、反饋、導向等功能(高巍,2019)。 人工智能教學評價是利用人工智能的智能感知、大數(shù)據(jù)分析、自動決策等特點,運用人工智能算法對全過程教學行為數(shù)據(jù)進行智能分析,得出實時的個性化評價結(jié)果,并提出干預策略,促進教學積極改變。
目前人工智能教學評價研究主要集中在三方面:一是人工智能教學評價系統(tǒng)研究。孫婧(2021)提出學校可以運用區(qū)塊鏈技術(shù)構(gòu)建動態(tài)的學生綜合評價系統(tǒng),利用人工智能動態(tài)追蹤和檢測學生的學習過程和成效,對學生個性化診斷;孫等(Sun et al.,2020)開發(fā)了在線英語教學輔助系統(tǒng),利用決策樹算法和神經(jīng)網(wǎng)絡(luò),生成基于決策樹技術(shù)的英語教學評估模型,研究評估結(jié)果與各因素之間的潛在聯(lián)系;陶益等(2019)借助智能平臺建立全過程教學評價體系,推動“中藥炮制學”課程教學模式改革。二是人工智能教學評價技術(shù)研究。如菲恩等(Fawns et al.,2021)認為評價必須考慮教師、學生、機構(gòu)及其背景,主張數(shù)據(jù)和非數(shù)據(jù)交叉,讓教師和學生更多地參與;金布魯?shù)?Kinnebrew et al.,2013)采用分段線性分割算法和差分序列挖掘技術(shù),識別和比較學生的生產(chǎn)性和非生產(chǎn)性學習行為片段,提出探索性的數(shù)據(jù)挖掘方法,評估和比較學生的學習行為。三是人工智能教學評價應(yīng)用研究,主要表現(xiàn)為對學生認知和情感狀態(tài)的監(jiān)測。帕夫利克(Pavlik,2009)分析學生學習表現(xiàn),預測學生知識掌握的程度和概率;還有研究者采用貝葉斯知識追蹤模型、卷積神經(jīng)網(wǎng)絡(luò)(Convolational Neural Network,CNN)和長短期記憶網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)監(jiān)測學生的認知狀態(tài)(Chaplot,2018)。如蘭(Lan,2020)建立的基于貝葉斯網(wǎng)絡(luò)的智能教學系統(tǒng)學生模型,不僅可以客觀地評價學生的認知能力,還能推斷學生的下一個學習行為,以及馬克(Mark,2021)用智能教學系統(tǒng)自動檢測學生情感狀態(tài),引導學生進入積極的學習狀態(tài);萊麥丹(Ramadan,2017)采集腦部淺層活動信號,根據(jù)特定頻率提取特定的腦電波,評測學生的注意力、情緒情感和認知負荷等。
反觀我國高等教育教學評價現(xiàn)實卻發(fā)現(xiàn):評價模式上,高校對“教師教”的評價甚于對“學生學”的評價,學生沒有成為評價的主角;評價指標上,對學生“知識”的考查多于對“能力”的考查,通常借助專家經(jīng)驗設(shè)定指標與權(quán)重進行評判;評價依據(jù)上,由于學生學習過程數(shù)據(jù)的記錄和保存有限,無法對教學質(zhì)量常態(tài)化監(jiān)測;評價算法上,同一標準評價難以滿足所有師生的個性發(fā)展需求;評價結(jié)果與教學干預上,監(jiān)測的主要目的是獲得“分數(shù)”,評價難以真正改善教學,提升質(zhì)量。這些問題一方面反映出現(xiàn)階段高等教育教學評價的改革理論與實踐存在脫節(jié),另一方面說明人工智能技術(shù)融入高等教育教學評價還需方法和技術(shù)層面的實踐指引。
構(gòu)建基于人工智能技術(shù)的高等教育教學評價系統(tǒng)涉及頂層評價模式構(gòu)建、評價指標與權(quán)重制定、學習全過程數(shù)據(jù)采集、個性化算法應(yīng)用、評價與干預系統(tǒng)設(shè)計等五大關(guān)鍵技術(shù)。
構(gòu)建人工智能評價模式,就是利用人工智能技術(shù)對學習過程的大數(shù)據(jù)進行分析,實時反饋學生學習情況。具體來說,就是借助人工智能的智能性和自適應(yīng)性完成學習檢測、診斷、提示和幫助等,實現(xiàn)對學生學習行為的動態(tài)跟蹤、采集、分析和評價。該模式至少涉及四個環(huán)節(jié),即構(gòu)建多元化的評價指標,考查學生能力;收集學習過程數(shù)據(jù),建立數(shù)據(jù)庫及學生個人的行為特征庫;通過教育算法對數(shù)據(jù)進行分析,獲得學生深度學習行為特征,得出學生個性化評價結(jié)果并據(jù)此對學生學習進行決策干預。
構(gòu)建高等教育教學綜合評價指標體系,不僅要關(guān)注教學結(jié)果,更要重視教學過程;不僅要保證評價指標的系統(tǒng)性,更要確保評價指標的可操作性;不僅要考慮指標的普適性,也要考慮指標的個性化。本研究依據(jù)評價指標的知識水平、學習情緒、課堂參與、綜合評價等維度將評價指標分為學習成績指標、學習情感指標、學習注意力指標、學習參與度指標、綜合素質(zhì)指標等。多維評價指標能提升評價的科學性、公正性和合理性,數(shù)據(jù)獲取途徑如下:學習成績指標從學生的考試測驗中獲得;學習情感指標從學生對課程或老師的評價數(shù)據(jù)、攝像頭采集的學生表情數(shù)據(jù)以及錄音設(shè)備采集的學生聲音數(shù)據(jù)中分析獲得;學習注意力與參與度指標從攝像頭采集的學生課堂行為姿態(tài)數(shù)據(jù)中分析獲得;綜合素質(zhì)指標通過考察成績、情感、專注度等獲得。區(qū)別于以往的評價體系,基于人工智能算法實現(xiàn)的學生評價指標的識別與分析使評價更客觀公正。
利用智能感知技術(shù)開展常態(tài)化監(jiān)測,就是通過智能教學系統(tǒng)收集教學全過程數(shù)據(jù),包括學生的語音、姿態(tài)、面部表情、生理信號、教學成績、教學環(huán)境物理狀態(tài)信息、教師教學狀態(tài)信息等多模態(tài)數(shù)據(jù)。教學全過程數(shù)據(jù)可分為數(shù)值型數(shù)據(jù)、文本型數(shù)據(jù)、人體形態(tài)圖片數(shù)據(jù)、面部表情數(shù)據(jù)、生理信號數(shù)據(jù)以及聲音數(shù)據(jù)等,不同數(shù)據(jù)需采取不同的處理方法。其中,數(shù)值型數(shù)據(jù)主要為學習行為數(shù)據(jù),如云課堂的點擊流數(shù)據(jù)、單元測驗或考試成績等;文本型數(shù)據(jù)主要為學生對課堂與老師的評價;人體形態(tài)圖片數(shù)據(jù)可以反映人體的狀態(tài)和意圖,系統(tǒng)可通過行為姿態(tài)識別技術(shù)對人體姿勢,如起立發(fā)言、注視前方、閱讀、書寫、交談、轉(zhuǎn)身、使用手機、趴在桌面等進行行為識別(劉新運,2020);面部表情數(shù)據(jù)能反映學生課堂的情緒變化,系統(tǒng)定時采集學生面部數(shù)據(jù),實時跟蹤學生的情緒變化,并借助卷積神經(jīng)網(wǎng)絡(luò)對面部特征提取并識別生理信號數(shù)據(jù),如腦電、心電、皮膚溫度等,并通過采集與分析生理信號捕捉情緒變化及身體健康狀況;聲音數(shù)據(jù)是傳遞信息、情感的媒介,系統(tǒng)對聲音數(shù)據(jù)進行分幀,然后提取聲學特征,再利用語音識別技術(shù)將其識別為相應(yīng)的文本,進而開展文本處理;眼動數(shù)據(jù)包含眼睛盯視方向、時間、眼跳頻率、瞳孔參數(shù)、注視點軌跡等,可反映受試者的專注程度及背后蘊含的信息。眼動數(shù)據(jù)可通過單攝像機進行追蹤,研究者可提取其視線特征后對其視線軌跡進行分析。
以上多種數(shù)據(jù)組合而成的多模態(tài)數(shù)據(jù)可全面表現(xiàn)學生的學習狀態(tài),比單一模態(tài)的數(shù)據(jù)更全面。以往使用單一模態(tài)數(shù)據(jù)的教學評價使分析結(jié)果不夠全面,而多模態(tài)數(shù)據(jù)可有效解決這一難題。
智能評價算法是教學評價系統(tǒng)的核心,主要對智能感知過程采集的數(shù)據(jù)進行分析,對學生進行評價。系統(tǒng)用于教學評價的算法包括卷積神經(jīng)網(wǎng)絡(luò)、長短期記憶網(wǎng)絡(luò)、BERT(Bidirectional Encoder Representations for Transformers)模型等。如孫霞等(2019)使用卷積神經(jīng)網(wǎng)絡(luò)和長短期記憶網(wǎng)絡(luò)組合成混合神經(jīng)網(wǎng)絡(luò)預測在線教育輟學問題;馮夢菲等(2020)將BERT應(yīng)用于學生習題推薦系統(tǒng),提高習題推薦質(zhì)量及在線教學效率。其中,數(shù)值型數(shù)據(jù)可采用聚類算法等無監(jiān)督機器學習算法或決策樹等有監(jiān)督機器學習算法進行分析。聚類算法,如k-均值聚類(k-means)、均值-漂移算法(mean shift)和基于密度的聚類方法(Density-Based Spatial Clustering of Applications with Noise,DBSCAN)等,被廣泛應(yīng)用于數(shù)據(jù)挖掘領(lǐng)域的數(shù)據(jù)分類。如牟智佳(2020)使用k-均值聚類算法分析學生群體特征的結(jié)果顯示,學生群體可分為能夠完成絕大多數(shù)學習內(nèi)容的積極學習者、能夠完成部分內(nèi)容的活動參與者及完成較少學習內(nèi)容的活動圍觀者,據(jù)此了解學生學習活動的表現(xiàn)及學習效果。了解學生行為的淺層特征后,系統(tǒng)通過深度學習算法等,將學生學習行為數(shù)據(jù)根據(jù)評價指標分為若干類行為不同的學習者,從而形成不同的評價內(nèi)容。有監(jiān)督的機器學習算法,如決策樹等可根據(jù)學生課堂學習行為特征預測其期末成績能否及格,進而啟動預警系統(tǒng)對學生學習進行干預。如甘甜(2021)提出的基于決策樹分類算法的高校遠程教學質(zhì)量評估方法,同時滿足了教學質(zhì)量評估的效率及精度,具有較高的應(yīng)用價值。
以上各類算法均是對學生學習過程數(shù)據(jù)的分析,研究者可根據(jù)數(shù)據(jù)類型而選擇不同的算法(見圖1),實現(xiàn)學生評價的合理、科學。其次,阻礙智能教學評價發(fā)展的技術(shù)難點在于對多模態(tài)數(shù)據(jù)的分析,即目前教學評價只停留在單一數(shù)據(jù)的分析上,難以實現(xiàn)評價的全面性。針對該難點,不同評價需采用不同的算法來處理相關(guān)數(shù)據(jù)。
圖1 智能評價算法架構(gòu)
智能評價算法可以得出學生的學習行為、學習狀態(tài)、學習情感等行為特征數(shù)據(jù),數(shù)據(jù)決策系統(tǒng)可據(jù)此自動決策。強化深度學習算法可計算學生后續(xù)行為的最優(yōu)決策序列,及時調(diào)整學生學習行為,確保學習進度。當學生評價指標達到預警線,系統(tǒng)可及時進行個性化干預。學生學習情緒變得厭煩時,系統(tǒng)提醒學生休息以調(diào)整情緒;而當學生表現(xiàn)積極時,系統(tǒng)可及時加以鼓勵,提高學生學習的積極性。
本研究基于智能系統(tǒng)的自決策,采集線上、線下學生的多模態(tài)行為數(shù)據(jù)進行智能分析,并根據(jù)評價結(jié)果自動進行學習干預,包括推薦學習資源、學習同伴、學習方法,以及開展情感輔導等,構(gòu)建基于智能系統(tǒng)的自決策流程,其工作流程見圖2。
圖2 基于智能系統(tǒng)的自決策流程
依據(jù)以上核心技術(shù)和設(shè)計,本研究在廣東工業(yè)大學教學云平臺蘊瑜課堂與智慧課室的基礎(chǔ)上,利用人工智能算法建立融智能感知、智能算法、數(shù)據(jù)決策等模塊的教育診斷評價與干預功能系統(tǒng),展現(xiàn)人工智能評價在規(guī)?;?、個性化、公平性、實時性、精準干預的優(yōu)勢和特色。診斷評價系統(tǒng)架構(gòu)見圖3。
圖3 基于智能的診斷評價與干預系統(tǒng)架構(gòu)
1.數(shù)據(jù)感知
數(shù)據(jù)是智能分析的基礎(chǔ)。本研究數(shù)據(jù)包括兩部分:一是學生線上學習全過程數(shù)據(jù),包括圖片、文字、網(wǎng)頁點擊、觀看視頻流等;二是通過智能感知技術(shù)獲取的線下(智慧課室)多模態(tài)學習行為數(shù)據(jù),包括圖像數(shù)據(jù)、聲音數(shù)據(jù)及眼動數(shù)據(jù)等。多模態(tài)數(shù)據(jù)用于感知學生的課堂表現(xiàn),如出勤情況、學習情感狀態(tài)、抬頭率、討論交流次數(shù)等。受硬件設(shè)備及環(huán)境噪聲等的影響,學習行為監(jiān)測不可避免地存在漏讀、多讀、錯讀和實時性低等問題,導致學習行為數(shù)據(jù)質(zhì)量下降,數(shù)據(jù)分析的準確性降低。為解決這一問題,本研究定義了數(shù)據(jù)質(zhì)量的四個標準:準確性、完整性、一致性和實時性,以此對數(shù)據(jù)質(zhì)量建模,提出評價異構(gòu)多源多模態(tài)學生實時行為數(shù)據(jù)質(zhì)量的方法:基于數(shù)據(jù)質(zhì)量的學習行為數(shù)據(jù)獲取算法—根據(jù)用戶給定精度,選擇不同數(shù)據(jù)的傳輸網(wǎng)絡(luò),在保證數(shù)據(jù)質(zhì)量的前提下減少網(wǎng)絡(luò)資源的消耗;將數(shù)據(jù)根據(jù)時間對齊,再依照數(shù)據(jù)類型根據(jù)時間序列存儲在數(shù)據(jù)庫中,最后對數(shù)據(jù)進行智能分析。
本研究以廣東工業(yè)大學“馬克思主義基本原理”實驗課程的269名學生為實驗對象,獲取反映學生課堂專注度、主動學習能力、期末考核情況、交流討論程度等的多模態(tài)數(shù)據(jù)。
數(shù)據(jù)統(tǒng)計分析發(fā)現(xiàn),量化處理后的數(shù)據(jù)類型最小值和最大值呈兩極化分布,且平均值位于兩極點內(nèi),符合統(tǒng)計學規(guī)律,證明量化處理后的數(shù)據(jù)具有合理性。數(shù)據(jù)感知技術(shù)收集的學生全過程數(shù)據(jù),可彌補傳統(tǒng)教學中老師對學生關(guān)注不夠的不足。
2.智能評價算法模塊
為實現(xiàn)面向?qū)W生的個性化數(shù)據(jù)決策,智能感知采集的數(shù)據(jù)通過智能評價算法,可以獲知學生全過程的真實學習質(zhì)量。評價算法如下:
1)課堂專注度分析
為分析學生課堂專注程度,本研究使用基于卷積神經(jīng)網(wǎng)絡(luò)的目標檢測算法提取圖像數(shù)據(jù),獲得學生的圖像特征(見圖4),并根據(jù)專注度權(quán)重獲得專注度特征,最后通過全連接層進行圖像特征表示。應(yīng)用機器學習分類方法判定目標對象的面部位置,分析學生的出勤率和抬頭率。
圖4 基于卷積神經(jīng)網(wǎng)絡(luò)的目標檢測算法
2)學習行為淺層特征分析
學生教育數(shù)據(jù)包括語言文本和交互數(shù)據(jù),診斷評價系統(tǒng)使用長短期記憶網(wǎng)絡(luò)算法,對學習平臺學習者交互行為數(shù)據(jù)進行人機交互處理,分析其淺層特征(見圖5)。系統(tǒng)從收集的視頻中提取文本數(shù)據(jù)、語音數(shù)據(jù)、圖像數(shù)據(jù),再通過不同方法提取數(shù)據(jù)特征,從而得到文本特征、語音特征、圖像特征,然后組合傳入到組合LSTM模型進行分類。
圖5 基于LSTM的淺層特征分析算法
3)學習行為深層特征分析
多個深度學習網(wǎng)絡(luò)獲得同一映射后,為根據(jù)這一映射提取高維特征,本研究采取兩種方法:判別受限波茲曼機(DRBM)和生成受限波茲曼機(GRBM),組成深度混合判別受限波茲曼機(HDRBM)。得益于深度學習模型強大的學習能力和預測性,基于深度混合判別受限波茲曼機的學習行為分析能保證分析精度,并依此設(shè)計神經(jīng)網(wǎng)絡(luò)目標函數(shù)和優(yōu)化途徑,得出學生的深層學習行為特征。基于波茲曼機的學生深層特征分析見圖6。
圖6 深度混合判別受限波茲曼機分析
生成受限波茲曼機、判別受限波茲曼機、混合判別受限波茲曼機的多模態(tài)神經(jīng)網(wǎng)絡(luò)目標函數(shù)如下所示:
其中,Dtrain為訓練集,p(xi,yi)為一個樣本x和一個標簽y的聯(lián)合分布,可調(diào)參數(shù)α表示生成模型對于整個模型的影響比重。若α較大,則偏重生成波茲曼機,即少量數(shù)據(jù)集的情況;反之,則偏重于判別波茲曼機。
4)學習行為特征的歸因分析
系統(tǒng)利用歸因分析算法,追蹤學習者行為特征的關(guān)聯(lián)行為?;镜呢惾~斯網(wǎng)絡(luò)結(jié)構(gòu)可以發(fā)現(xiàn)學習者行為與主動學習能力等特征的因果關(guān)系,從而可基于多元回歸分析獲取各變量的因果關(guān)系影響程度,找出最重要的影響因素,如在線時長、訪問課件資源頻率等(見圖7)。其中,向量V=(v1,v2,…v5)表示變量集,vi依次表示混合數(shù)據(jù)特征、生理數(shù)據(jù)特征、心理數(shù)據(jù)特征、行為數(shù)據(jù)特征以及學習情境元素,選取n組可觀察的數(shù)據(jù)集X={x1,x1,…,xn}進行訓練來發(fā)現(xiàn)變量V和學習評價間的依賴關(guān)系。采用基于約束的方法進行貝葉斯模型訓練后,即可構(gòu)建出高維變量的貝葉斯網(wǎng)絡(luò)。貝葉斯結(jié)構(gòu)CH評分函數(shù)的形式如下:
圖7 基于貝葉斯網(wǎng)絡(luò)的可解釋性流程
3.數(shù)據(jù)決策模塊
數(shù)據(jù)決策是利用信息技術(shù)的診斷評價結(jié)果,融合基于深度學習的神經(jīng)網(wǎng)絡(luò)預測模型,為學習者提供優(yōu)化的精準推薦服務(wù),比如知識點推薦、學習方法推薦以及資訊推薦。
學習者診斷評價結(jié)果反映某個時間地點下特定的學習者對學習資源的偏好。依據(jù)評價結(jié)果,學習者若在某一評價指標下表現(xiàn)出的深層行為特征有欠缺,學習管理中心會自動決策改變推薦內(nèi)容,重點向?qū)W習者推薦利于提升該方面能力的服務(wù),如評價模塊顯示學習者溝通能力下降,推薦模塊就會推薦增加溝通能力的相關(guān)讀物及加強需要溝通技能的作業(yè)比重。
相比于統(tǒng)教學過程,基于人工智能的干預系統(tǒng)能實現(xiàn)實時的精準推薦,學習者能準確及時了解自己學習過程的不足,并加以改進。
為檢驗本研究的有效性,廣東工業(yè)大學“蘊瑜課堂”建立了教育診斷評價與干預功能系統(tǒng),隨機選取本校十個實驗班共538名學生進行對照測試,其中五個對照組與五個實驗組,對照組使用傳統(tǒng)教學評價模式,實驗組使用人工智能教學評價模式,開展一個學期的對比實驗及跟蹤調(diào)查。
該系統(tǒng)通過人工智能評價算法,對智慧感知的多模態(tài)學習行為數(shù)據(jù)進行分析,實時得出學生個性化診斷評價結(jié)果,系統(tǒng)界面見圖8。
得益于人工智能評價的普惠性與實時性,每名實驗組學生都能夠訪問自己的實時學習評價結(jié)果,該結(jié)果有多項學習評價指標。實時的學習評價模塊通過呈現(xiàn)智慧學習評價雷達圖表現(xiàn)自身能力差距,能力越接近多邊形外圍,該能力越強。智能評價算法可從多維度對學生進行個性化評價,彌補了傳統(tǒng)系統(tǒng)只對學生單一指標描述的局限性。學生了解自身差距后,系統(tǒng)再根據(jù)個性化的評價結(jié)果干預學生學習行為。
圖8 實時教育診斷評價功能界面
為進一步分析人工智能評價的特性,研究首先進行學生成績歸因分析,選取交流討論次數(shù)、抬頭率和小測成績,分析其對學習成績的影響。表一展示了實驗組學生學習行為對學生成績的影響,每一列表示不同學習行為指標取值對應(yīng)學生成績的概率。以交流討論次數(shù)為例,當交流討論次數(shù)小于3時,成績超過80分的概率僅為6.63%,遠低于交流討論次數(shù)大于10所對應(yīng)的概率(20.42%)。由此可見,交流討論次數(shù)對學生成績有正面影響,學生交流討論次數(shù)的增加可提高其考試成績。歸因分析結(jié)果能指導老師改進教學方法。
表一 學習行為對學習成績歸因分析
表二 應(yīng)用效果問卷調(diào)查結(jié)果
其次,研究采用李克特量表設(shè)計問卷,分析教育診斷評價與干預效果。研究圍繞普惠化、個性化、公平性、實時性與精準干預五方面對實驗對象開展問卷調(diào)查與訪談,共發(fā)放問卷538份,回收問卷531份,有效問卷524份,問卷有效率97.4%,調(diào)查結(jié)果見表二。
從問卷調(diào)查結(jié)果可以看出,實驗組學生與對照組學生相比,對教學評價、干預模型的滿意程度更高,達60%以上(非常同意與同意之和),而對照組的滿意度較低。顯然,人工智能教學評價模式優(yōu)于傳統(tǒng)的教學評價模式。
綜上所述,人工智能教學評價與傳統(tǒng)的教師評價相比,優(yōu)勢體現(xiàn)在五個方面,分別是普惠化、個性化、公平性、實時性與精準干預(見表三)。
表三 人工智能教學評價的優(yōu)勢
隨著人工智能技術(shù)的發(fā)展,基于人工智能的教學評價帶來了評價主體、評價體系、評價結(jié)果、教學決策等的積極改變。
1)評價主體發(fā)生轉(zhuǎn)變。美國《2019年國家人工智能研究戰(zhàn)略計劃》指出,人工智能系統(tǒng)可以增強或補充人類的工作能力,人工智能將成為人類工作的專業(yè)合作伙伴。人工智能系統(tǒng)的成熟將使勞動力從以人類為主轉(zhuǎn)向人機協(xié)同。在教育評價中,它可以有效地增強教育評價系統(tǒng)中教師的工作能力,彌補評價出現(xiàn)的效率低下、主觀性強、千篇一律、評價延時等問題。人工智能系統(tǒng)使勞動力從以人類為主轉(zhuǎn)向人機協(xié)同,特別是數(shù)據(jù)獲取與分析技術(shù)的進步,以及基于學生學習全過程數(shù)據(jù)的評價,使評價更具針對性,實現(xiàn)了評價的規(guī)?;⒐交?、個性化、實時化,彌補了傳統(tǒng)教學評價的不足。
2)教學評價體系發(fā)生重構(gòu)。在人工智能+教育的發(fā)展趨勢下,美國國際教育技術(shù)協(xié)會、聯(lián)合國科教文組織、全球監(jiān)測聯(lián)盟等先后設(shè)計了數(shù)字能力素養(yǎng)評估框架,這一新素養(yǎng)在人工智能賦能社會的背景下,顯得尤其重要。該評估框架包括七個方面的能力板塊:軟硬件基礎(chǔ)知識、信息和數(shù)據(jù)素養(yǎng)、溝通與協(xié)作、數(shù)字內(nèi)容創(chuàng)建、安全、問題解決和與職業(yè)相關(guān)的能力??梢?,素質(zhì)教育是人工智能+教育的重要培養(yǎng)目標,將更加強調(diào)學生的批判意識、知識與能力等綜合素質(zhì)的培養(yǎng),人的全面發(fā)展、滿足社會需要將成為衡量教育質(zhì)量的根本標準。
3)評價結(jié)果更公平。人工智能評價充分依賴物聯(lián)網(wǎng)技術(shù)、大數(shù)據(jù)技術(shù)、高性能計算技術(shù)以及相應(yīng)軟硬件的支持,評價貫穿于學生學習全過程,有別于傳統(tǒng)評價中的唯分數(shù)論。智能算法對學生學習全過程數(shù)據(jù)進行分析,可以實現(xiàn)自學習、自適應(yīng)、自我優(yōu)化以及最優(yōu)的輸出結(jié)果,能有效地避免因教師主觀喜好而造成的評價不公平。
4)教育決策更加以人為本。人工智能算法有著自學習、自適應(yīng)和自我優(yōu)化的特性,算法可以根據(jù)不同的輸入,通過學習訓練來調(diào)整各參數(shù)的權(quán)重,得出最優(yōu)的輸出結(jié)果。人工智能教學評價要將基于數(shù)據(jù)和智能系統(tǒng)的自決策,與基于教師的他決策相結(jié)合,使教育決策更具人文關(guān)懷。自決策應(yīng)用于教學全過程,智能算法可以實現(xiàn)精準干預、過程優(yōu)化及個性化學習,但由于自決策基于智能系統(tǒng)數(shù)據(jù),分析結(jié)果太過客觀死板,可能缺乏人文關(guān)懷。而基于教師的他決策,可以根據(jù)經(jīng)驗判斷、情感因素等給出更具人文關(guān)懷的學習決策。
綜上所述,人工智能技術(shù)能改善高等教育教學評價在評價模式、指標、依據(jù)、算法、結(jié)果以及教學干預等方面存在的不足,使教育教學評價具有普惠化、個性化、公平性、實時性與精準干預等優(yōu)點,對教育教學方法的重構(gòu)具有重要價值。因此,探索人工智能支持的教育評價創(chuàng)新,是推動我國智慧教育的必然舉措。
本研究從人工智能教學評價的關(guān)鍵技術(shù)出發(fā),提出了構(gòu)建基于人工智能的高等教育教學評價體系的五大關(guān)鍵技術(shù),在此基礎(chǔ)上以廣東工業(yè)大學“蘊瑜在線課堂”的教育診斷評價與干預系統(tǒng)為例,分別從數(shù)據(jù)感知、智能評價、數(shù)據(jù)決策三方面進行實踐。本研究最后以問卷調(diào)查的形式,圍繞普惠化、個性化、公平性、實時性與精準干預五方面分析的結(jié)果表明,本研究所設(shè)計的人工智能教育評價與干預系統(tǒng)各維度均優(yōu)于傳統(tǒng)的教學評價,能為人工智能技術(shù)在高等教育教學評價中的應(yīng)用提供借鑒。
本研究還存在不足: 1)深度學習模型一般為黑盒模型,基于智能算法得出的評價結(jié)果可能有異于平常的經(jīng)驗預測,如何增強評價算法的可解釋性,使評價結(jié)果得到廣大師生的認可是需要重點考慮的問題;2)在智慧感知的數(shù)據(jù)獲取方面,學生行為數(shù)據(jù)獲取與分析私隱保護工作有待提高,后續(xù)研究應(yīng)注意在獲取學生的行為數(shù)據(jù)過程中加入隱私保護算法,確保數(shù)據(jù)安全。