駱方 田雪濤 屠焯然 姜力銘
摘要:教育評價改革在我國受到了前所未有的重視,然而受限于傳統(tǒng)測評手段,個性化評價和過程性評價難以得到有效實現(xiàn),教育評價改革需要新型的測評技術(shù)作為支撐。計算機(jī)技術(shù)與人工智能的發(fā)展為測評領(lǐng)域注入了新的活力,推動了智能化測評的產(chǎn)生,為我國教育評價改革提供了新的解決方案。目前,智能化測評已經(jīng)在學(xué)生能力和知識水平評估、人格與心理健康評估以及教學(xué)過程評估等方面取得進(jìn)展:(1)學(xué)生能力和知識水平評估突破紙筆測驗的局限,轉(zhuǎn)向過程性評價、綜合能力評價和動態(tài)性評價;(2)人格與心理健康評估擺脫了對自陳量表法的依賴,依據(jù)多模態(tài)數(shù)據(jù)有望實現(xiàn)無痕式和伴隨式評估;(3)智能分析技術(shù)助力教學(xué)反饋,使教學(xué)過程評估更加直接、便捷和精準(zhǔn)。智能化測評對教育評價改革起到了重要促進(jìn)作用,但在多模態(tài)數(shù)據(jù)應(yīng)用、模型的針對性、精細(xì)化、準(zhǔn)確性與可解釋性以及信效度檢驗等多個方面仍然存在問題。后續(xù)需探索多模態(tài)數(shù)據(jù)的協(xié)同分析,在權(quán)衡模型的準(zhǔn)確性和可解釋性基礎(chǔ)上,提高模型的針對性和精細(xì)化,打通信息科學(xué)與測評領(lǐng)域的學(xué)科壁壘,確保模型可實用、可泛化和可擴(kuò)展。
關(guān)鍵詞:教育評價;人工智能;智能化測評;研究進(jìn)展;問題剖析
中圖分類號:G434 ? 文獻(xiàn)標(biāo)識碼:A ? ?文章編號:1009-5195(2021)05-0042-11 ? doi10.3969/j.issn.1009-5195.2021.05.005
基金項目:國家自然科學(xué)基金聯(lián)合基金重點(diǎn)支持項目“基于‘天河二號超級計算機(jī)的教育系統(tǒng)化監(jiān)控評估、智能決策仿真與應(yīng)用研究”(U1911201);軍隊裝備課題(HJ20191A020135)。
作者簡介:駱方,博士,教授,博士生導(dǎo)師,北京師范大學(xué)心理學(xué)部,中國基礎(chǔ)教育質(zhì)量監(jiān)測協(xié)同創(chuàng)新中心(北京 100085);田雪濤(通訊作者),博士研究生,北京交通大學(xué)計算機(jī)與信息技術(shù)學(xué)院(北京 100044);屠焯然,碩士研究生,北京師范大學(xué)心理學(xué)部(北京 100085);姜力銘,博士研究生,北京師范大學(xué)心理學(xué)部(北京 100085)。
一、引言
教育評價是教育活動中至關(guān)重要的一部分,是教育活動的“指揮棒”,直接影響著教育活動的開展。當(dāng)前教育評價改革在我國受到了前所未有的重視,中共中央、國務(wù)院印發(fā)的《深化新時代教育評價改革總體方案》從學(xué)校、教師、學(xué)生多個方面對我國教育評價改革提出了新的要求。然而傳統(tǒng)教育評價方法已無法滿足我國教育評價的需求,也無法為我國教育評價改革提供有效的支持。人們期望采用更可靠、更高效、更智能的手段整合多維度、多層次的信息,制定更具準(zhǔn)確性和解釋性的測評方案,來推動教育評價改革順利開展。
隨著計算機(jī)、互聯(lián)網(wǎng)的普及和人工智能技術(shù)的發(fā)展,智能化技術(shù)在教育評價領(lǐng)域的應(yīng)用及研究已初步展開,人工智能和教育測量研究的相互滲透催生了智能化測評這一新興領(lǐng)域。智能化測評將人工智能領(lǐng)域新興技術(shù)應(yīng)用于能力評估、人格評估、課程風(fēng)險評估、學(xué)習(xí)過程評估等評價任務(wù)中,不僅提高了評估的效率和準(zhǔn)確性,有助于實現(xiàn)過程性評價和個性化評價,而且能夠整合多維度信息對學(xué)生個體進(jìn)行全面評估,這對于解決教育評價難題和推進(jìn)我國智能化教育發(fā)展具有重要意義。本文將對智能化測評領(lǐng)域的應(yīng)用場景與研究進(jìn)展進(jìn)行系統(tǒng)梳理,并對其存在的問題及未來的發(fā)展方向進(jìn)行述評。
二、智能化測評的應(yīng)用場景與研究進(jìn)展
計算機(jī)技術(shù)與人工智能的發(fā)展為測評領(lǐng)域注入了新的活力,推動了智能化測評的產(chǎn)生,為我國教育評價改革提供了新的解決方案。通過對近年來智能化測評技術(shù)的研究進(jìn)展進(jìn)行系統(tǒng)的回顧、總結(jié)與深入剖析,可以看出智能化測評技術(shù)已應(yīng)用于學(xué)生能力和知識水平評估、人格與心理健康評估以及教學(xué)過程評估三個方面,逐步實現(xiàn)了對傳統(tǒng)測評手段的突破,對教育評價改革起到了重要促進(jìn)作用。
1.學(xué)生能力和知識水平評估:突破紙筆測驗的局限
傳統(tǒng)測評關(guān)注對學(xué)生能力的終結(jié)式評價,將單一的考試成績作為學(xué)生能力評價的標(biāo)準(zhǔn),而忽視了對學(xué)生學(xué)習(xí)過程的評估。紙筆測驗是傳統(tǒng)測評中最常用的評估形式,施測成本低廉、評分易標(biāo)準(zhǔn)化,在知識類測驗中具有較好的效果(Gobert et al.,2013),但在問題解決能力、批判性思維、創(chuàng)造性思維、科學(xué)探究技能等綜合能力的測評中,往往具有較大的局限性(Gobert et al.,2013;Quellmalz et al.,2013)。同時,紙筆測驗的題目脫離真實情境,難以考查學(xué)生在真實問題情境中的表現(xiàn);且主觀題評分依賴評分專家,評分周期長、成本高。不同于傳統(tǒng)測評方法,智能化測評在過程性評價、綜合能力評價、動態(tài)性評價上實現(xiàn)了突破。
(1)過程性評價
智能化測評更加關(guān)注測評的形成性功能,能夠基于長期的學(xué)習(xí)過程性數(shù)據(jù),對學(xué)生的特定學(xué)科知識與學(xué)科能力進(jìn)行診斷與分析。例如,貝葉斯知識追蹤技術(shù)的發(fā)展逐步形成了動態(tài)知識水平分析的解決方案(Piech et al.,2015),可以實現(xiàn)對學(xué)生學(xué)習(xí)過程的建模,動態(tài)分析學(xué)生在學(xué)習(xí)過程中能力的變化,為教學(xué)提供更有價值的信息。Zhao等(2017)在數(shù)學(xué)在線學(xué)習(xí)的場景中將認(rèn)知診斷中Q矩陣先驗知識引入到知識追蹤技術(shù)中,建立了基于貝葉斯理論的可解釋知識追蹤模型,實時評估學(xué)生知識掌握狀況,并對學(xué)生隨后的作答情況進(jìn)行預(yù)測。此外,也有研究者利用作答過程中的生理指標(biāo)數(shù)據(jù)對學(xué)生的能力水平進(jìn)行分析。例如,Rodrigo(2020)在編程教學(xué)過程中,使用學(xué)習(xí)者的眼動數(shù)據(jù)對學(xué)生的編程能力進(jìn)行實時的診斷,并通過分析教師與學(xué)生在教學(xué)互動中學(xué)生編程能力的變化,對教師教學(xué)有效性與學(xué)生掌握情況進(jìn)行系統(tǒng)評估。
(2)綜合能力評價
在大規(guī)模的綜合能力(問題解決能力、批判性思維、創(chuàng)造性思維、科學(xué)探究能力等)測評中,研究者們開始設(shè)計模擬式測評(Simulation-Based Assessment,SBA)與游戲式測評(Game-Based Assessment,GBA)等智能化測評。這些測評為學(xué)生提供了一個完整、真實且開放的問題情境,允許學(xué)生在任務(wù)情境中自由探索和表達(dá)(Gobert et al.,2013;Baker et al.,2016;Cui et al.,2019)。目前,許多國際大型教育監(jiān)測項目已經(jīng)廣泛使用了這種測評方式,例如PISA ?2015年開始大規(guī)模施行問題解決與科學(xué)探究能力的人機(jī)交互式測評。這些基于技術(shù)增強(qiáng)的新型測評不但更加貼合真實的問題情境(Quellmalz et al.,2013),同時也使作答過程更容易被記錄和留存(Akp?nar et al.,2014)。此外,盡管人機(jī)交互式測評的測試時間一般較短,但卻能夠從作答過程中獲得豐富的與學(xué)生能力和人格特質(zhì)相關(guān)的診斷信息(Gobert et al.,2013;Vista et al.,2016)。這些豐富的診斷信息往往以“Log File”的形式保存在計算機(jī)的根目錄中,已經(jīng)有許多研究者利用這些作答過程數(shù)據(jù)對學(xué)生知識與能力水平進(jìn)行分析與診斷。例如,He等(2016)通過分析PIAAC信息素養(yǎng)測驗(ICT)中被試的作答時間、題目跳轉(zhuǎn)作答情況,采用聚類分析的方法將被試劃分為不同的類別,探索了不同類型被試能力表現(xiàn)存在差異的原因;Baker等(2016)從哈佛大學(xué)教育學(xué)院開發(fā)的虛擬表現(xiàn)性測驗(VPA)產(chǎn)生的過程性數(shù)據(jù)中提取了29個特征,采用決策樹、分步回歸的方法對學(xué)生作答過程數(shù)據(jù)進(jìn)行建模,實時評價了學(xué)生的實驗設(shè)計能力。
(3)動態(tài)性評價
采用人工智能的分析方法對測驗結(jié)果進(jìn)行自動評分,并將測評結(jié)果進(jìn)行即時反饋,實現(xiàn)動態(tài)性評價,也是智能化測評的主要研究方向之一。針對作文的自動化評分就是一種動態(tài)性評價方式,不但能夠減輕評分員的負(fù)擔(dān),增強(qiáng)分?jǐn)?shù)報告的及時性,同時也可以增加評分的客觀性并獲得更細(xì)粒度的評閱信息。例如,辛濤等(2020)基于概念圖的方法對作文文本進(jìn)行處理,構(gòu)建了作文文本主旨觀點(diǎn)自動評價模型;付瑞吉(2020)使用自然語言處理技術(shù)構(gòu)建了語法錯誤檢測模型、論辯結(jié)構(gòu)識別模型等,通過這些模型自動提取指定維度的作文特征,進(jìn)而獲取細(xì)分維度的作文評分。除作文之外,短文本作答的自動化評分也是教育評價近年來比較關(guān)注的研究問題(Burrows et al.,2015)。研究者采用不同的方法構(gòu)建了短文本的自動化評分模型。例如,Madnani等(2017)對科學(xué)、數(shù)學(xué)、英語、藝術(shù)四門學(xué)科中的130道問題,共計230000個作答文本使用8種不同的監(jiān)督學(xué)習(xí)方法構(gòu)建了自動化評分模型;Cinar等(2020)針對土耳其學(xué)生在科學(xué)測驗上的作答信息進(jìn)行分詞、賦權(quán)、特征提取,然后將篩選的特征作為輸入,人工評分作為輸出,構(gòu)建了包括袋裝法、自適應(yīng)提升法、基尼系數(shù)算法、支持向量機(jī)、K-近鄰算法等多個機(jī)器學(xué)習(xí)模型,并計算了其預(yù)測準(zhǔn)確率(Cinar et al.,2020);Zhang等(2016)使用基于深度置信網(wǎng)絡(luò)(Deep Belief Networks,DBN)的深度學(xué)習(xí)方法對大學(xué)物理知識作答文本進(jìn)行自動化評分,并證明該方法具有比傳統(tǒng)模型更高的準(zhǔn)確率。
綜合來看,智能化測評可以突破紙筆測驗的局限性,可以實現(xiàn)對學(xué)習(xí)過程或作答過程數(shù)據(jù)的建模。高保真的測驗場景與交互式的新型測評方法可以實現(xiàn)對學(xué)生綜合素質(zhì)更準(zhǔn)確地評估。此外,智能化測評的自動化、高效性,能為師生提供實時的反饋,實現(xiàn)動態(tài)性評價。值得注意的是,從目前教育評價實踐來看,紙筆測驗仍然是最主要的學(xué)生能力測評方式,終結(jié)性的評估仍然在教育評價中占據(jù)主流地位。智能化測評在綜合能力的測量中,無論是施測形式還是施測內(nèi)容均與傳統(tǒng)測量方法存在較大差異,測量結(jié)果往往與傳統(tǒng)的知識類測驗結(jié)果并不匹配,因而在實際的應(yīng)用中還需要進(jìn)行充分的對比研究,探索造成差異的原因并提出相對穩(wěn)妥的改進(jìn)方案。另外,新型測評產(chǎn)生的過程性數(shù)據(jù)具有豐富的診斷信息,當(dāng)前雖然已經(jīng)有了一些對過程性數(shù)據(jù)進(jìn)行挖掘的探索性研究,但真正將過程性數(shù)據(jù)作為評估證據(jù)進(jìn)行教學(xué)評價的研究仍然較少。智能化測評中針對主觀題構(gòu)建的自動評分模型提高了測評的效率,但這些模型的構(gòu)建過程往往還屬于一個“黑匣子”,人們對模型評分過程的信任度不高,其評分結(jié)果往往作為人工評分的校驗手段。總體而言,智能化測評在學(xué)習(xí)與能力評估方面仍然處于發(fā)展探索階段,需要進(jìn)行更充分和系統(tǒng)的研究。
2.人格與心理健康評估:無痕式和伴隨式評估
教育評價改革不僅要求對學(xué)生的能力素養(yǎng)進(jìn)行全面評估,同時也關(guān)注學(xué)生的個性品質(zhì)和心理健康。目前對學(xué)生個性品質(zhì)(如人格、興趣、動機(jī)等)和心理健康(如焦慮、抑郁、主觀幸福感等)的評估主要采用自陳量表法。自陳量表向?qū)W生提供一系列客觀問題,由學(xué)生本人根據(jù)實際情況報告自己是否具有某些典型的行為表現(xiàn),最后根據(jù)量表得分評估學(xué)生的狀況。自陳量表作答的有效性依賴于被試對題目的理解和作答態(tài)度。同時,自陳量表法難以短期內(nèi)多次測量,無法及時有效地反映學(xué)生個性品質(zhì)和心理健康的發(fā)展與變化。智能化測評突破了傳統(tǒng)心理健康測評對自陳量表法的依賴?;谏缃幻襟w與在線文本信息、可穿戴式傳感器數(shù)據(jù)以及音視頻數(shù)據(jù)等多模態(tài)數(shù)據(jù),智能化測評通過人工智能分析方法,可以實現(xiàn)對學(xué)生人格與心理健康的無痕、伴隨式評估。
(1)基于社交媒體與在線文本數(shù)據(jù)的智能化測評
社交媒體與在線文本數(shù)據(jù)中包含了大量的被試情緒情感信息,對人格與心理健康測評具有重要的價值。目前已有大量利用社交媒體與在線文本數(shù)據(jù)對人格與心理健康進(jìn)行測評的研究,例如,利用小學(xué)生在教客網(wǎng)上的在線寫作數(shù)據(jù)對小學(xué)生的羞怯特質(zhì)進(jìn)行預(yù)測(駱方等,2020;景麗萍,2020);利用推特中的社交媒體信息對個體的大五人格進(jìn)行預(yù)測(Quercia et al.,2012);基于在線網(wǎng)絡(luò)數(shù)據(jù)對個體與群體的成長軌跡、人格、態(tài)度、興趣進(jìn)行探索性的分析(孔儀,2019);基于微博分析比較不同生活滿意度的用戶在社交媒體中文本表達(dá)的差異(汪靜瑩等,2016)。這些研究證明了將社交媒體和在線文本數(shù)據(jù)用于人格與心理健康評估的潛力與可行性。
(2)基于生理數(shù)據(jù)的智能化測評
來自可穿戴智能設(shè)備、腦電設(shè)備收集的生理數(shù)據(jù)同樣也被用于人格與心理健康測評中。例如,Muramatsu等(2016)基于學(xué)生學(xué)習(xí)過程中的眼動數(shù)據(jù)對學(xué)生的無聊與好奇情緒進(jìn)行了評估;Faust等(2014)對腦電信號進(jìn)行分解,采用t檢驗篩選抑郁癥患者與正常人群之間具有顯著差異的特征,并根據(jù)篩選出的特征構(gòu)建機(jī)器學(xué)習(xí)分類器,發(fā)現(xiàn)利用左右半球大腦活動情況的最優(yōu)預(yù)測準(zhǔn)確率分別為0.982與0.995;Deng等(2019)采集高情緒障礙者和低情緒障礙者在觀看不同情感類型影片過程中的腦電數(shù)據(jù),采用支持向量機(jī)構(gòu)建預(yù)測模型,達(dá)到0.952的準(zhǔn)確度。也有研究者利用深度模型對腦電與智能設(shè)備采集的數(shù)據(jù)進(jìn)行建模,實現(xiàn)人格與心理健康問題更精確的測量。比如,Ay等(2019)在腦電數(shù)據(jù)中運(yùn)用循環(huán)神經(jīng)網(wǎng)絡(luò)識別抑郁癥,模型在左右腦半球的準(zhǔn)確率分別為0.935和0.960;隨后,其采用長短時記憶網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)進(jìn)行建模,將左右腦半球的準(zhǔn)確率提升至0.977和0.971。
(3)基于音視頻數(shù)據(jù)的智能化測評
音視頻數(shù)據(jù)同樣包含著豐富的能夠反映個體內(nèi)在心理特質(zhì)的表現(xiàn)數(shù)據(jù)。例如,Whitehill等(2015)從視頻中提取面部特征,并采用支持向量機(jī)對學(xué)生的學(xué)習(xí)投入程度進(jìn)行分析,獲得了較高的預(yù)測準(zhǔn)確率;Zhao等(2019)對視頻中個體在自然狀態(tài)下的步態(tài)進(jìn)行研究發(fā)現(xiàn),3~5分鐘的步態(tài)數(shù)據(jù)可以精準(zhǔn)預(yù)測個體的情緒狀態(tài),模型準(zhǔn)確率達(dá)到0.80以上;在焦慮與抑郁的心理問題預(yù)測任務(wù)中,模型預(yù)測結(jié)果與效標(biāo)之間的相關(guān)分別為0.74與0.64。
綜合來看,人格與心理健康的智能化測評中,不再以自陳量表作為評價的唯一依據(jù),數(shù)據(jù)來源更加豐富,對社交媒體、音視頻和生理數(shù)據(jù)的利用也促進(jìn)了人格與心理健康水平的伴隨式與無痕式評估,有助于解決人格與心理健康傳統(tǒng)測量誤差較大、容易受個體作答態(tài)度影響等問題。但目前對于這些多模態(tài)數(shù)據(jù)的分析往往是從單一模態(tài)的數(shù)據(jù)出發(fā),研究目的是為了驗證使用某一模態(tài)數(shù)據(jù)進(jìn)行心理健康問題診斷或人格測評的可行性,還缺乏對多模態(tài)數(shù)據(jù)進(jìn)行協(xié)同建模的研究。此外,這些研究只是關(guān)注了智能化心理健康測評的可行性,缺乏對模型的精細(xì)化以及針對性程度的細(xì)致探討,模型的精度和效率都較低,很難用于實際的心理健康篩查與人格測評中,也沒有出現(xiàn)影響力比較大、應(yīng)用廣泛的心理健康預(yù)測模型。
3.教學(xué)過程評估:更加直接、便捷和精準(zhǔn)
對教學(xué)過程的評價通常有兩種途徑:第一,基于學(xué)生的評教結(jié)果,即通過學(xué)生對教師教學(xué)行為的主觀感受來對教學(xué)過程進(jìn)行評估。目前,結(jié)構(gòu)化的教學(xué)評價問卷是最主要的評教方法,成本低、分析簡便,然而受限于固定的問題形式,學(xué)生真實的想法往往無法表達(dá)。大多數(shù)學(xué)校通過在結(jié)構(gòu)化問卷的基礎(chǔ)上設(shè)置若干開放式評價題目,允許學(xué)生自由填寫對教師的看法來彌補(bǔ)這一缺陷,但由于評教文本量化分析成本高、難度大,所以評教文本一般僅作為輔助性信息提供給教師參考。第二,對教師的育人表現(xiàn)進(jìn)行直接評估,通常由專家對課堂教學(xué)、班級管理等進(jìn)行觀察和打分。這種依靠人工打分的方式費(fèi)時費(fèi)力,難以在日常教學(xué)中大規(guī)模和高頻率開展。
隨著人工智能技術(shù),尤其是自然語言技術(shù)的不斷發(fā)展,越來越多的研究者開始將評教文本的自動化評估用于實際的教學(xué)評價中。例如,Esparza 等(2017)將評教文本的分析轉(zhuǎn)化為情感分析問題,采用隨機(jī)森林與支持向量機(jī)對墨西哥某大學(xué)的學(xué)生評教文本進(jìn)行情感分類(正向、負(fù)向與中性三個類別),模型達(dá)到0.85的評價準(zhǔn)確率。景麗萍(2020)首先使用BERT語言模型構(gòu)建多標(biāo)簽分類模型,預(yù)測評教文本是從哪個方面對教師進(jìn)行評價;之后再針對每一個方面構(gòu)建情感傾向多分類模型;最后通過整合多個學(xué)生對同一位教師的評價結(jié)果,形成情感摘要,進(jìn)而對教師的教學(xué)效果進(jìn)行綜合評價。
基于課堂音視頻數(shù)據(jù)對教師進(jìn)行評價、對教學(xué)類型進(jìn)行分類,也是智能化測評的一個重要方向。研究者通過新技術(shù)提取課堂音視頻的關(guān)鍵信息特征,挖掘?qū)W習(xí)活動中潛在的師生互動方式、問答模式、師生關(guān)系、活動策略等。例如 Kashyap等(2018)從課堂教學(xué)視頻中提取教師的演講、行為線索以及視頻本身屬性作為特征,使用機(jī)器學(xué)習(xí)方法構(gòu)建課堂氛圍的自動評分系統(tǒng),對課堂氣氛進(jìn)行實時評價。有研究證明,針對課堂錄像的機(jī)器評分比專家評價更具優(yōu)勢,機(jī)器評分結(jié)果更加嚴(yán)格,評價結(jié)果也更加穩(wěn)定、客觀(Haudek et al.,2020)。隨著課堂視頻分析技術(shù)與分析方法的不斷發(fā)展,課堂教學(xué)評估逐漸從課程結(jié)束后評估轉(zhuǎn)向課堂教學(xué)過程中的評估,比如卡內(nèi)基梅隆大學(xué)開發(fā)的智能導(dǎo)學(xué)系統(tǒng)Lynnette、FACT系統(tǒng)、清華大學(xué)雨課堂等智能導(dǎo)學(xué)系統(tǒng)能夠?qū)崟r對教學(xué)情況進(jìn)行診斷,即時反饋教學(xué)信息,助力教師教學(xué)。
將人工智能應(yīng)用于教學(xué)過程分析中,能夠?qū)處熃虒W(xué)進(jìn)行精確畫像,幫助學(xué)校和教師了解學(xué)生的需求,及時精準(zhǔn)地調(diào)整教學(xué)育人的方式方法。然而,教學(xué)文本的自動化評價研究非常少,還沒有引起人們足夠的重視。此外,所采用的建模方法也較為簡單,僅將其作為簡單的情感分類問題來處理,能夠給教師提供的教學(xué)參考意見比較有限。其實,評價文本作為反映和收集學(xué)生心聲的重要渠道,如果能夠?qū)崿F(xiàn)機(jī)器建模,對教學(xué)意見精細(xì)提取和匯總,將能夠搭建起學(xué)生和教師充分和及時溝通的橋梁。而且,對課程教學(xué)的自動化評估受限于弱人工智能的不足,還很難實現(xiàn)對教學(xué)語言層面的深入分析,也很難對個性化、復(fù)合型的教學(xué)手段進(jìn)行甄別和評估。此外,如何有效保護(hù)課堂中師生的隱私也是一個不容忽視的問題。
三、智能化測評的關(guān)鍵問題與發(fā)展方向
智能化測評能夠充分利用人工智能的優(yōu)勢,減少測評過程中的人力消耗,實現(xiàn)更具準(zhǔn)確性和解釋性的測評方案,增強(qiáng)過程性評價和個性化評價。然而目前,智能化測評依然處于初步發(fā)展的階段,存在一些共性和亟待解決的關(guān)鍵問題。
1.多模態(tài)數(shù)據(jù)的利用問題
智能化測評采用數(shù)據(jù)驅(qū)動的人工智能分析方法,能夠最大程度上利用多模態(tài)數(shù)據(jù),實現(xiàn)對個體能力、認(rèn)知水平、人格特質(zhì)、心理健康等更全面和精準(zhǔn)的評估。然而,目前智能化測評中對多模態(tài)數(shù)據(jù)的利用仍然處于起步階段,基于多模態(tài)數(shù)據(jù)的測評主要以探索性研究為主,對多模態(tài)數(shù)據(jù)的協(xié)同分析還不夠深入。從以往的研究來看,對多模態(tài)數(shù)據(jù)的研究主要存在以下問題和局限:
第一,數(shù)據(jù)采集的限制。目前用于測評任務(wù)的數(shù)據(jù)主要包括文本模態(tài)、視覺模態(tài)、語音模態(tài)和生理信號模態(tài)等,雖然計算機(jī)技術(shù)的發(fā)展提供了諸多高效的數(shù)據(jù)收集手段,例如網(wǎng)絡(luò)數(shù)據(jù)爬蟲、在線學(xué)習(xí)平臺、可穿戴設(shè)備等,但針對指定被試人群同時采集多來源多模態(tài)數(shù)據(jù)以及支持有監(jiān)督學(xué)習(xí)建模的標(biāo)簽數(shù)據(jù)依然是困難的。同時,對人的測評不同于其他,需考慮隱私、倫理等問題,所收集的數(shù)據(jù)往往難以被公開使用。數(shù)據(jù)采集的困難讓許多研究局限在特定的場景中,限制了多模態(tài)數(shù)據(jù)在模型構(gòu)建中的應(yīng)用。
第二,研究內(nèi)容的局限。由于數(shù)據(jù)的可采集性和流通性差,目前使用人工智能技術(shù)將多模態(tài)數(shù)據(jù)應(yīng)用于測評的研究大多數(shù)仍然屬于探索性研究,研究的目的一般是為了證明某一來源或某種模態(tài)數(shù)據(jù)在進(jìn)行能力或人格測量與診斷中的可行性,包括針對社交網(wǎng)絡(luò)數(shù)據(jù)(Quercia et al.,2012;孔儀,2019)、生理指標(biāo)數(shù)據(jù)(Whitehill et al.,2015;Muramatsu et al.,2016;Cui,2020)以及對學(xué)生作答的過程數(shù)據(jù)(Vista et al.,2016)的探索,而將多模態(tài)數(shù)據(jù)應(yīng)用于測評任務(wù)的實踐工作仍然較為缺乏。雖然已有研究者開始將多模態(tài)數(shù)據(jù)應(yīng)用于教育中,包括教學(xué)策略的制定(王慧君等,2015)與學(xué)習(xí)分析領(lǐng)域(張琪等,2020),但將多模態(tài)數(shù)據(jù)應(yīng)用于人格與心理健康測評中的研究仍然較少。
第三,當(dāng)前測評任務(wù)中多模態(tài)數(shù)據(jù)的使用方法較粗糙?;诙嗄B(tài)數(shù)據(jù)的建模過程需要充分關(guān)注跨模態(tài)間的一致性和互補(bǔ)性,同時關(guān)注測量任務(wù)中的可解釋需求,而目前測量中對多模態(tài)數(shù)據(jù)進(jìn)行分析時采用的方法更多是在特征層面進(jìn)行融合,然后利用傳統(tǒng)的機(jī)器學(xué)習(xí)模型對多模態(tài)數(shù)據(jù)與相對應(yīng)的數(shù)據(jù)標(biāo)簽進(jìn)行建模,通過模型準(zhǔn)確率對模型進(jìn)行評價(Whitehill et al.,2015;Muramatsu et al.,2016)。現(xiàn)有的方法在準(zhǔn)確性提升上具有較好的表現(xiàn),但沒有對跨模態(tài)數(shù)據(jù)關(guān)系進(jìn)行充分地挖掘,特別是不同模態(tài)數(shù)據(jù)的特征在支持決策時是一致的還是互補(bǔ)的,在測評中還需要探索更加嚴(yán)謹(jǐn)、可解釋的分析方法。
第四,人工智能中的多模態(tài)學(xué)習(xí)方法并不是領(lǐng)域自適應(yīng)的。多模態(tài)學(xué)習(xí)在人工智能領(lǐng)域受到了很大關(guān)注,相關(guān)的研究成果也很多,但主要關(guān)注的是如何建立能夠整合多模態(tài)信息的表示學(xué)習(xí)方法(Xu et al.,2020)。這些方法在應(yīng)用于指定的數(shù)據(jù)和任務(wù)時,并不能保證一定有效,需要根據(jù)特定的任務(wù)需求進(jìn)行模型設(shè)計上的調(diào)整。
第五,研究人員的缺乏。目前應(yīng)用多模態(tài)數(shù)據(jù)進(jìn)行評估與測評的研究人員大都來源于計算機(jī)與人工智能領(lǐng)域,他們利用多模態(tài)數(shù)據(jù)實現(xiàn)用戶畫像,進(jìn)而解決市場上一些容錯率高的應(yīng)用問題,如商品推薦。但從研究角度來看,基于多模態(tài)數(shù)據(jù)的測評中結(jié)果精度往往達(dá)不到要求,在利用多模態(tài)數(shù)據(jù)進(jìn)行智能化測評的研究中,仍然需要大量具有心理測量學(xué)背景的專業(yè)人才。
結(jié)合智能化測評對多場景、多模態(tài)數(shù)據(jù)研究存在的問題,本文提出以下解決方法:
一是針對特定領(lǐng)域或研究任務(wù),逐步建立統(tǒng)一的數(shù)據(jù)標(biāo)準(zhǔn)和聯(lián)合研究平臺。引入人工智能技術(shù)開展基于多模態(tài)數(shù)據(jù)的測評研究,首先需要構(gòu)建一定規(guī)模的數(shù)據(jù)集。為此,在一些測評任務(wù)上,不可避免需要研究者建立統(tǒng)一的數(shù)據(jù)標(biāo)準(zhǔn)來整合多個數(shù)據(jù)源,例如綜合分析上百所學(xué)校的考試數(shù)據(jù)、多個網(wǎng)絡(luò)平臺的博客數(shù)據(jù)進(jìn)行協(xié)同分析等。為了在打破數(shù)據(jù)孤島的同時保護(hù)用戶隱私,未來需要逐漸建立統(tǒng)一的聯(lián)合研究平臺,特別是針對教育、求職等過多涉及個人信息的場景,有學(xué)者建議應(yīng)用聯(lián)邦學(xué)習(xí)策略(李默妍,2020)來構(gòu)建和應(yīng)用機(jī)器學(xué)習(xí)模型。
二是從測量研究角度出發(fā),融合多場景中產(chǎn)生的多模態(tài)數(shù)據(jù)作為智能化測評的評估證據(jù),建立多模態(tài)數(shù)據(jù)與評估目的之間的鏈接。在證據(jù)鏈接建立過程中可以同時采用自上而下與自下而上的方法進(jìn)行確定。自上而下即依靠專家通過領(lǐng)域先驗知識從多模態(tài)數(shù)據(jù)中提取與評估目的相關(guān)的數(shù)據(jù),建立聯(lián)系;自下而上的方式是通過數(shù)據(jù)挖掘方法,從數(shù)據(jù)出發(fā),提取特征。自上而下的方法往往解釋性較好,但在數(shù)據(jù)規(guī)模大且內(nèi)容非常繁瑣與復(fù)雜時,會產(chǎn)生重要特征遺漏的問題;而自下而上的方法雖然最大程度上保留了數(shù)據(jù)特征,但可能產(chǎn)生預(yù)測變量的解釋問題。
三是將測評分析方法與機(jī)器學(xué)習(xí)方法相結(jié)合,對多模態(tài)數(shù)據(jù)進(jìn)行建模與分析?;诤A慷嗄B(tài)數(shù)據(jù)進(jìn)行的測評分析結(jié)果一般更加準(zhǔn)確。目前使用多模態(tài)數(shù)據(jù)進(jìn)行的智能化測評研究中,主要還是采用特征融合策略,結(jié)合傳統(tǒng)的機(jī)器學(xué)習(xí)模型(如隨機(jī)森林、支持向量機(jī)等)進(jìn)行分析。為了充分發(fā)揮多模態(tài)數(shù)據(jù)的優(yōu)勢,基于深度學(xué)習(xí)模型構(gòu)建統(tǒng)一的跨模態(tài)表示學(xué)習(xí)方法會有更好的性能表現(xiàn)(Xu et al.,2020),相關(guān)的研究成果應(yīng)該進(jìn)一步應(yīng)用于測評實踐中。
四是加強(qiáng)人工智能和測量領(lǐng)域合作,關(guān)注具有解釋性的表示學(xué)習(xí)方法研究。可解釋性的深度學(xué)習(xí)策略已經(jīng)受到人工智能領(lǐng)域的廣泛關(guān)注,信息理論、因果學(xué)習(xí)等為表示深度特征與可解釋特征間的對應(yīng)關(guān)系提供了探索性的解決方案(Besserve et al.,2020;Cheng et al.,2020)。基于測量領(lǐng)域既有經(jīng)驗,這些方法能夠逐步應(yīng)用于一些特定的測量任務(wù)。
五是構(gòu)建多模態(tài)知識圖譜,將先驗的領(lǐng)域知識引入到多模態(tài)數(shù)據(jù)建模過程中來。一些數(shù)據(jù)豐富的場景早已具備多模態(tài)知識圖譜的研究基礎(chǔ),相關(guān)研究已經(jīng)擴(kuò)展到推薦系統(tǒng)等下游任務(wù)中(Sun et al.,2020),在MOOC這樣的教育場景也有所涉獵(王亮,2018)。多模態(tài)知識圖譜結(jié)構(gòu)化地表征了多模態(tài)數(shù)據(jù)中的已知關(guān)系,能夠更有效地整合既有研究結(jié)果并用來提升測量性能和效率。然而,針對人的能力或心理特質(zhì)的測量還缺乏多模態(tài)知識圖譜相關(guān)的研究,但隨著一些聯(lián)合研究平臺的建立和相關(guān)研究人才的累積,這將成為未來一個重要的發(fā)展方向。
2.測評結(jié)果的準(zhǔn)確性與可解釋性問題
智能化測評結(jié)果的準(zhǔn)確性與可解釋性是測評研究中最為重要的評價指標(biāo)。準(zhǔn)確性要求盡可能降低測評的誤差;可解釋性是測評結(jié)果可以被理解的程度。智能化測評不僅對測評精度要求高,而且還要能夠清楚解釋測評分?jǐn)?shù)是如何得到的。因為如果測評分?jǐn)?shù)的計算過程是一個黑匣子,往往會招來考生對測評過程公平公正的質(zhì)疑,尤其是在高利害測試的場景下。因此,如何結(jié)合人工智能技術(shù)來提高測評的準(zhǔn)確性并保證可解釋性,是面向教育評價改革的智能化測評技術(shù)需要解決的主要問題之一。
(1)準(zhǔn)確性問題
對于如何提高測評的準(zhǔn)確性,傳統(tǒng)的測評方法強(qiáng)調(diào)的是對測驗誤差的精準(zhǔn)控制,而智能化測評關(guān)注的是測驗的評分結(jié)果與真實的能力水平或?qū)<覙?biāo)簽之間的匹配程度。研究者主要從特征提取與模型構(gòu)建兩方面來試圖提高智能化測評的準(zhǔn)確性。
在特征提取方面,智能化測評所面對的數(shù)據(jù)往往是海量的、多模態(tài)化的。這些數(shù)據(jù)中蘊(yùn)含豐富的信息,如何對這些數(shù)據(jù)進(jìn)行表征直接影響了智能化測評的準(zhǔn)確性。不同的研究者使用不同的方法進(jìn)行特征提取。例如,吳君勝等(2020)利用Dlib提取人臉68個點(diǎn)位特征,Huang等 (2012)和Gao等(2013)等利用LIWC和Text Mind等語言詞典針對文檔提取100維左右的詞性特征。隨著人工智能技術(shù)的不斷發(fā)展,特征提取工作也越來越精細(xì)。以文本數(shù)據(jù)為例,詞袋模型、基于TF-IDF或TextRank的關(guān)鍵詞提取等基于詞頻的特征提取方法,在早期的研究中被大量應(yīng)用。自2014年起,依賴詞嵌入(Word Embeddings)技術(shù)(Mikolov et al.,2013)與神經(jīng)語言模型(Devlin et al.,2019)等文本特征提取方法逐漸成為主流的特征提取方法。這種特征提取方式可以關(guān)注到文本之間的上下文關(guān)系,與基于詞頻的方法相比具有更高的準(zhǔn)確率(Devlin et al.,2019)。
在模型訓(xùn)練方法上,深度置信網(wǎng)絡(luò)(DBN)、循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)、卷積神經(jīng)網(wǎng)絡(luò)(CNN)等深度學(xué)習(xí)算法被用于智能化測評中。Zhang等(2020)的研究證明了深度模型比傳統(tǒng)方法具有更高的預(yù)測準(zhǔn)確率。但在深度模型提高準(zhǔn)確率的同時,模型的可解釋性往往較差,因而如何在可解釋的前提下進(jìn)行準(zhǔn)確預(yù)測是智能化測評中更加需要關(guān)注的問題。
(2)解釋性問題
可解釋性是智能化測評中需要重點(diǎn)考量的因素。測驗工具在保證準(zhǔn)確性的同時,需要達(dá)到可接受的解釋性。目前,機(jī)器學(xué)習(xí)模型具有一定的可解釋性,例如,邏輯回歸中的參數(shù)可以直接反映單個變量與預(yù)測結(jié)果的正負(fù)相關(guān),決策樹中的節(jié)點(diǎn)直接對應(yīng)預(yù)測中的規(guī)則選擇過程。深度學(xué)習(xí)具備強(qiáng)大的非線性擬合能力,往往具有更高的準(zhǔn)確率,但同時也使行為指標(biāo)和能力特質(zhì)之間的關(guān)系變得難以解釋。為此,研究者嘗試通過各種手段來提高模型的可解釋性。解決方案之一是采用Attention機(jī)制(Vaswani et al.,2017)或者探索解耦的向量表示(Cheng et al.,2020),即通過捕捉對于預(yù)測特定能力或特質(zhì)最重要的特征,幫助研究者及教育工作者理解測評結(jié)果的意義。以作文自動化評分為例,近年來深度學(xué)習(xí)模型已被用于作文分?jǐn)?shù)預(yù)測(Zhao et al.,2017;Jin et al.,2018),深度學(xué)習(xí)模型將大量特征或原始文本輸入模型,經(jīng)過復(fù)雜的深度學(xué)習(xí)過程直接輸出作文的分類結(jié)果,通常能在特定情境的任務(wù)中得到較高的準(zhǔn)確率。為了進(jìn)一步明確特征體系與評價標(biāo)準(zhǔn)的關(guān)系,檢驗?zāi)P驮u估對構(gòu)念的覆蓋情況,研究者采用Attention機(jī)制來解決可解釋性的問題,得到了較為理想的結(jié)果(Ive et al.,2018)。
此外,研究者還嘗試構(gòu)建并納入知識圖譜來提升模型的可解釋性。知識圖譜是將人類知識或經(jīng)驗表示成圖結(jié)構(gòu)以供計算機(jī)分析的一種技術(shù),目前在智能教育中的應(yīng)用僅限于“基于知識圖譜的課程推薦任務(wù)”,尚未在測評任務(wù)中得到應(yīng)用。知識圖譜的優(yōu)勢在于強(qiáng)解釋性,圖中的節(jié)點(diǎn)和邊都具有明確的實際意義。在智能化測評場景中,教育工作者可以將多年的工作經(jīng)驗進(jìn)行總結(jié),進(jìn)而構(gòu)建成知識圖譜。知識圖譜既可以根據(jù)圖結(jié)構(gòu)和文本語義直接用于推斷決策,也可以將其進(jìn)行向量表示,進(jìn)而與具體的深度學(xué)習(xí)任務(wù)進(jìn)行統(tǒng)一建模,從而形成兼顧準(zhǔn)確性和解釋性的重要解決方案。最后,針對某些難以獲得大規(guī)模測試數(shù)據(jù)的測評任務(wù),研究者需要應(yīng)用到小樣本學(xué)習(xí)技術(shù)(Zang et al.,2020)。機(jī)器學(xué)習(xí)模型普遍依賴于大規(guī)模數(shù)據(jù)訓(xùn)練,而小樣本學(xué)習(xí)技術(shù)的本質(zhì)是遷移學(xué)習(xí),依靠既有的知識、模型、學(xué)習(xí)能力的建模技術(shù),這與人類的智能非常相像。很多小樣本學(xué)習(xí)技術(shù)是基于度量特征向量間距離的思想展開的,具有非常好的解釋性。
準(zhǔn)確性與可解釋性是智能化評估中最重要的兩個評價指標(biāo),然而在實際研究中經(jīng)常會過多強(qiáng)調(diào)準(zhǔn)確性,而忽視了可解釋性,直接影響了智能化測評在實踐中的廣泛應(yīng)用。這具體體現(xiàn)在以下三個方面:
一是缺乏對智能化測評模型的可解釋性研究。幾乎所有的自動化評分模型在效度驗證的過程中都會呈現(xiàn)模型的預(yù)測準(zhǔn)確率,但很少有研究會對模型的可解釋性進(jìn)行驗證。雖然深度模型相較于傳統(tǒng)模型具有更高的預(yù)測準(zhǔn)確率,但直到最近才開始有研究者關(guān)注預(yù)測方法的可解釋性。智能化測評中的可解釋性仍然需要科學(xué)的評估,并置于與準(zhǔn)確性同等重要的位置。二是由于深度模型存在難以解釋的問題,因而深度模型在智能化測評中的應(yīng)用仍然較少。目前人工智能領(lǐng)域的研究者已經(jīng)開始探索利用多種方法提高模型的解釋性問題。但是這些具有良好解釋能力的深度模型仍然較少被用于智能化測評研究中,尤其是知識圖譜和遷移學(xué)習(xí)還沒有在任何測評任務(wù)中加以應(yīng)用。智能化測評必須要強(qiáng)調(diào)準(zhǔn)確性和可解釋性的平衡問題,不能顧此失彼。構(gòu)建智能化測評模型,不僅需要依賴人工智能方法,同時也要增加更多的專家先驗知識,促進(jìn)模型的可解釋性。在保證可解釋的前提下,逐步將深度學(xué)習(xí)算法應(yīng)用到智能化測評中,將人工智能領(lǐng)域中的研究成果與測評相結(jié)合,助力智能化測評的發(fā)展。三是目前缺少對模型可解釋性的評估方法,如何對模型的可解釋性進(jìn)行系統(tǒng)的評估同樣也是智能化測評需要解決的問題。
3.測評模型的針對性和精細(xì)化問題
目前智能化測評的主要研究人群來自人工智能領(lǐng)域,他們一般從海量的文本數(shù)據(jù)以及智能設(shè)備采集的日志文件等大規(guī)模數(shù)據(jù)集中,以數(shù)據(jù)驅(qū)動的方法對心理特質(zhì)(如學(xué)習(xí)者的能力、人格特質(zhì)、心理健康等)進(jìn)行預(yù)測與測評。這些研究往往缺乏對心理特質(zhì)的準(zhǔn)確界定,忽略測評過程中可能產(chǎn)生的誤差,忽視從理論上來闡釋所測特質(zhì)和特征抽取之間的關(guān)系,雖然構(gòu)建的預(yù)測模型表現(xiàn)出了良好的準(zhǔn)確率,但是卻較難用于實際的教學(xué)實踐活動中,并提供有效的教學(xué)建議。
為了實現(xiàn)真正高效、精準(zhǔn)的智能化測評,促進(jìn)智能化測評在多個教育場景下的廣泛應(yīng)用,需要提高預(yù)測模型的針對性和精細(xì)化。在模型構(gòu)建時應(yīng)當(dāng)不過分依賴于數(shù)據(jù),適當(dāng)引入專家知識,更合理地建構(gòu)測量數(shù)據(jù)與測量結(jié)果之間的關(guān)系。同時在數(shù)據(jù)的收集過程中,也應(yīng)當(dāng)摒棄無規(guī)則的大范圍數(shù)據(jù)收集,而是依據(jù)測量目的,注意與傳統(tǒng)測量技術(shù)的有機(jī)結(jié)合,針對性地設(shè)計數(shù)據(jù)收集方法。具體的操作建議如下:
首先,從測量目的出發(fā),基于教育和心理學(xué)長期以來的研究經(jīng)驗對所測特質(zhì)進(jìn)行構(gòu)念化與操作性定義,建立精細(xì)的測評維度,并明確測評維度與外部行為特征的鏈接關(guān)系。這樣有助于搜集和清理與所測特質(zhì)更相關(guān)的有效數(shù)據(jù),并建立更全面、更精細(xì)、更科學(xué)的數(shù)據(jù)標(biāo)簽。這樣構(gòu)建的預(yù)測模型能夠?qū)λ鶞y特質(zhì)進(jìn)行多維度的精準(zhǔn)測評,而不是一個簡單的分類模型。比如,精細(xì)化的測評要求心理健康的智能化測評不再以是否具有某種心理疾病為預(yù)測標(biāo)簽,而是以癥狀作為預(yù)測目的,通過對癥狀表現(xiàn)的自動化評分,更準(zhǔn)確地診斷患者是否患有某種心理疾病,幫助治療師依據(jù)患者的癥狀表現(xiàn)制定針對性的治療方案。再比如,基于教育和心理專家的經(jīng)驗對知識體系和能力水平進(jìn)行精細(xì)界定,明確知識和能力進(jìn)階的途徑后再建構(gòu)認(rèn)知診斷模型,可以給學(xué)生提供更精準(zhǔn)的測評結(jié)果和學(xué)習(xí)建議。
其次,將近些年來教育和心理測評專家提出的證據(jù)中心設(shè)計(Evidence Centered Design,ECD)(Mislevy et al.,2003)應(yīng)用至智能化測評中,針對性地收集數(shù)據(jù)并進(jìn)行模型建構(gòu)。證據(jù)中心設(shè)計以“評估是收集能論證被評估者知識或能力的證據(jù)”作為評分理念,圍繞證據(jù)的評估設(shè)計和評估實施方法,設(shè)計學(xué)生模型、證據(jù)模型與任務(wù)模型。學(xué)生模型回答“測什么”的問題,是對所測特質(zhì)的精細(xì)化處理。最簡單的學(xué)生模型是單維的,較復(fù)雜的學(xué)生模型往往是多維的,具有層次關(guān)系。證據(jù)模型回答“如何測”的問題,包括證據(jù)規(guī)則和測量模型兩部分。證據(jù)規(guī)則確定任務(wù)表現(xiàn)中哪些行為將被計分,以及相應(yīng)的評分規(guī)則;測量模型定義了學(xué)生模型的能力和證據(jù)規(guī)則之間的鏈接關(guān)系。任務(wù)模型解決“用什么測”的問題,在學(xué)生模型與證據(jù)模型的基礎(chǔ)上設(shè)計呈現(xiàn)給被試的測試材料和規(guī)定被試如何反應(yīng)。將證據(jù)中心設(shè)計思想應(yīng)用于智能化測評中,將學(xué)生模型、證據(jù)模型與機(jī)器學(xué)習(xí)中的特征集合與標(biāo)簽相對應(yīng),通過系統(tǒng)、科學(xué)地設(shè)計數(shù)據(jù)收集方法與收集手段,在提高評分效率的同時增加模型的精細(xì)化程度與評分有效性,進(jìn)而推動智能化測評在教學(xué)實踐中的應(yīng)用。
4.智能化測評中的信效度檢驗問題
教育測量界不斷更新的信度與效度概念深深地影響著能力評價工具的開發(fā)與應(yīng)用。隨著人工智能技術(shù)的快速更新與迭代,各種自動化測評工具的信效度也被賦予了融合時代特色的新涵義。信度與效度論證的本質(zhì)是對教育和心理測驗的穩(wěn)定性進(jìn)行評估,并對測評結(jié)果的有效性提供證據(jù)。目前,對智能化測評工具的信效度檢驗幾乎都集中在機(jī)器評分與人工評分或傳統(tǒng)測驗分?jǐn)?shù)的一致性上,且主要利用交叉驗證方法對智能化評分模型的精確度、召回率以及F1值進(jìn)行驗證,而這只能說明智能化測評具有一定的預(yù)測效度,但是對區(qū)分效度(能把所測特質(zhì)與其他特質(zhì)區(qū)分開來)、重測信度(隨時間的穩(wěn)定性)、一致性信度(跨樣本的評分一致性)以及公平性(對不同的施測群體不存在測量偏差)等方面缺乏檢驗和評估。雖然智能化測評往往具有較高的準(zhǔn)確率,但這并不意味著就滿足了測評的要求,需要依據(jù)傳統(tǒng)測評框架對測評的信效度進(jìn)行系統(tǒng)評價。
目前,一些教育和心理測量專家在嘗試開發(fā)智能化測評任務(wù)時,有意識地對測評質(zhì)量進(jìn)行信效度檢驗。Scalise等(2018)在多維IRT的模型框架下對虛擬表現(xiàn)測驗(Virtual Performance Assessment,VPA)中產(chǎn)生的過程性數(shù)據(jù)進(jìn)行建模分析,檢驗不同的過程性指標(biāo)在IRT框架下的信度,并證明具有良好的信度指標(biāo);Quellmalz 等(2013)采用出聲思維法收集學(xué)生在交互式測評中的作答過程數(shù)據(jù),并將出聲思維與學(xué)生的實際作答情況進(jìn)行比對,從過程性數(shù)據(jù)角度對新型交互式測評的內(nèi)容效度進(jìn)行驗證。然而,目前還沒有對智能化測評在不同群體中應(yīng)用的等價性、測驗結(jié)果的穩(wěn)定性等信度指標(biāo)進(jìn)行檢驗的研究。智能化測評往往是針對一個特定任務(wù)構(gòu)建評分模型,研究者很少去探討該模型在其他問題情境、不同測試群體、不同時間階段下的預(yù)測準(zhǔn)確度。在人工智能領(lǐng)域這個問題已經(jīng)被提出,被稱為“模型的泛化性”檢驗,雖然沒有采用“信度”的概念體系,但是含義是相同的。模型的泛化力不足,則只能在特定的、有限的場景中使用,會阻礙智能化測評的廣泛應(yīng)用。隨著人工智能領(lǐng)域的研究范式逐漸成熟,模型的泛化性檢驗勢必會影響智能化測評模型的評估體系。
從另一角度來看,人工智能技術(shù)的發(fā)展同樣為信效度的評價帶來了新的思路。教育與心理測量標(biāo)準(zhǔn)制定了效度證據(jù)的5個來源,包括測驗內(nèi)容、作答過程、內(nèi)部結(jié)構(gòu)、與其他變量的關(guān)系以及測驗的結(jié)果,在2014年修訂之后的標(biāo)準(zhǔn)中仍然將作答過程作為效度證據(jù)的重要依據(jù)(AERA et al.,1999)。雖然作答過程是效度證據(jù)的重要來源,但在實際的測驗分析中,由于無法對過程性數(shù)據(jù)進(jìn)行充分的采集和分析,研究者很少會從作答過程的角度對測驗的效度進(jìn)行驗證(Hubley et al.,2017)。而智能化測評對過程性指標(biāo)的收集更加便利,動態(tài)化建模也已成為可能,因而從過程性角度對測驗進(jìn)行信效度評價有望成為測評信效度檢驗的重要組成部分。比如,田偉等(2020)采用口語報告法獲取了學(xué)生作答測驗的思維過程并解析出了不同的思維水平,然后在作答時間軸上標(biāo)記了各種思維能力與計算機(jī)記錄的學(xué)生作答過程性數(shù)據(jù)的對應(yīng)關(guān)系,明確了學(xué)生的操作與能力測評的關(guān)系。
對于一個智能化測評系統(tǒng),除了要盡可能準(zhǔn)確地擬合人工評分,同時也要考察模型是否真正測量了想要測評的特質(zhì),是否具有跨群體、跨情景、跨時間的一致性,是否對某些群體存在測評偏差等。智能化測評的信度與效度的論證應(yīng)該包含一套完整的檢驗邏輯和范式。然而智能化測評是一個新興交叉領(lǐng)域,不同學(xué)科體系的研究人員遵循的研究范式有較大的差異,短期內(nèi)很難形成達(dá)成共識的研究規(guī)范。我們可以通過促進(jìn)學(xué)科間的融合、取長補(bǔ)短,完善和提高智能化測評的信效度檢驗。具體做法是:(1)采用傳統(tǒng)測評框架對智能化測評的信效度檢驗部分進(jìn)行系統(tǒng)分析,將經(jīng)典測量理論、項目反應(yīng)理論以及認(rèn)知診斷等經(jīng)典的心理測量學(xué)理論與智能化測評進(jìn)行深度結(jié)合,使智能化測評更準(zhǔn)確、更有效;(2)結(jié)合過程性數(shù)據(jù),從過程性角度出發(fā),設(shè)計新的測驗效度檢驗方法,對傳統(tǒng)的測量學(xué)效度檢驗方法進(jìn)行補(bǔ)充。要加強(qiáng)對測驗作答過程性數(shù)據(jù)的研究,提高過程性數(shù)據(jù)建模的可解釋性,有意識地建立特征提取與效標(biāo)的鏈接,并找尋量化這種鏈接緊密性的數(shù)據(jù)指標(biāo)作為新的效度指標(biāo)。(3)關(guān)注智能化測評結(jié)果在不同群體、不同測驗場景、不同時間段的穩(wěn)定性和適用性,在特征提取階段加強(qiáng)對相同特征的使用和對比分析。建模階段也不能一味追求單一任務(wù)的準(zhǔn)確性,而是要強(qiáng)調(diào)多任務(wù)、多群體的泛化性以及協(xié)同建模的重要性,維護(hù)測驗的公平性與穩(wěn)定性。
四、總結(jié)
教育評價改革需要新型的測評技術(shù)作為支撐,智能化測評通過引入人工智能新技術(shù),以更可靠、更高效、更智能的手段整合多維度、多層次的信息,形成更具準(zhǔn)確性和解釋性的測評方案。智能化測評技術(shù)依托教育場景大數(shù)據(jù),應(yīng)用人工智能技術(shù)手段,在多個教育場景中均已產(chǎn)生豐富的研究成果。整體來看,隨著教育評價改革任務(wù)的推進(jìn),各項測評場景趨于聯(lián)動發(fā)展,數(shù)據(jù)趨于多元化,模型算法趨于復(fù)雜化,測評的準(zhǔn)確性與實時性有所提高,更多的產(chǎn)品化應(yīng)用將逐步涌現(xiàn)。隨著人工智能和教育心理測量的深度融合,智能化測評要吸取傳統(tǒng)測評的優(yōu)勢,努力提升模型的可解釋性,將傳統(tǒng)測評手段應(yīng)用在建模過程中來提高評估的精細(xì)化和針對性,并加強(qiáng)系統(tǒng)的信效度檢驗,提高測評的實用性和有效性。
參考文獻(xiàn):
[1]付瑞吉(2020).智能評閱技術(shù)及其應(yīng)用[Z].全球人工智能與教育大數(shù)據(jù)大會(北京).
[2]景麗萍(2020).文本數(shù)據(jù)驅(qū)動的教育和心理測量探索與實踐[Z].全球人工智能與教育大數(shù)據(jù)大會(北京).
[3]孔儀(2019).基于文本信息的人物性格分析算法的研究與實現(xiàn)[J].計算機(jī)科學(xué)與應(yīng)用,9(12):2191-2207.
[4]李默妍(2020).基于聯(lián)邦學(xué)習(xí)的教育數(shù)據(jù)挖掘隱私保護(hù)技術(shù)探索[J].電化教育研究, 41(11):96-102.
[5]駱方,姜力銘,田雪濤等(2020).小學(xué)生羞怯特質(zhì)預(yù)測及語言風(fēng)格模型構(gòu)建[J].心理學(xué)報,53(2):155-169.
[6]田偉,駱方,倪雨晰(2020).交互式科學(xué)探究能力評估:過程導(dǎo)向的評價規(guī)則構(gòu)建[Z].全球人工智能與教育大數(shù)據(jù)大會(北京).
[7]汪靜瑩,甘碩秋,趙楠等(2016).基于微博用戶的情緒變化分析[J].中國科學(xué)院大學(xué)學(xué)報,33(6):815-824.
[8]王慧君,王海麗(2015).多模態(tài)視域下翻轉(zhuǎn)課堂教學(xué)模式研究[J].電化教育研究,36(12):70-76.
[9]王亮(2018).深度學(xué)習(xí)視角下基于多模態(tài)知識圖譜的MOOC課程重構(gòu)[J].現(xiàn)代教育技術(shù),28(10):101-107.
[10]吳君勝,許穎頻(2020).Dlib人臉識別庫的課程簽到系統(tǒng)設(shè)計[J].單片機(jī)與嵌入式系統(tǒng)應(yīng)用,20(9):51-54.
[11]辛濤,楊麗萍(2020).基于概念圖的作文自動化評分探索[Z].全球人工智能與教育大數(shù)據(jù)大會(北京).
[12]張琪,武法提,許文靜(2020).多模態(tài)數(shù)據(jù)支持的學(xué)習(xí)投入評測:現(xiàn)狀、啟示與研究趨向[J].遠(yuǎn)程教育雜志,38(1):76-86.
[13]AERA, APA, & NCME (1999). Standards for Educational and Psychological[M]. Washington, DC: American Educational Research Association.
[14]Akp?nar, Y., Arda?, D., & Er-Amuce, N. (2014). Development and Validation of an Argumentation Based Multimedia Science Learning Environment: Preliminary Findings[J]. Procedia - Social and Behavioral Sciences, 116:3848-3853.
[15]Ay, B., Yldrm, Z., & Talo, M. et al. (2019). Automated Depression Detection Using Deep Representation and Sequence Learning with EEG Signals[J]. Journal of Medical Systems, 43(7):1-12.
[16]Baker, R. S., Clarke-Midura, J., & Ocumpaugh, J. (2016). Towards General Models of Effective Science Inquiry in Virtual Performance Assessments[J]. Journal of Computer Assisted Learning, 32(3):267-280.
[17]Besserve, M., Mehrjou, A., & Sun, R. et al. (2020). Counterfactuals Uncover the Modular Structure of Deep Generative Models[C]// Proceedings of the 8th International Conference on Learning Representations. IL: Addis Ababa, Ethiopia.
[18]Burrows, S., Gurevych, I., & Stein, B. (2015). The Eras and Trends of Automatic Short Answer Grading[J]. International Journal of Artificial Intelligence in Education, 25:60-117.
[19]Cheng, P. Y., Min, M. R., & Shen, D. H. et al. (2020). Improving Disentangled Text Representation Learning with Information-Theoretic Guidance[C]// Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics. IL: Stroudsburg, PA.
[20]Cinar, A., Ince, E., & Gezer, M. et al. (2020). Machine Learning Algorithm for Grading Open-Ended Physics Questions in Turkish[J]. Education and Information Technologies, 25(12):3821-3844.
[21]Cui, Y. (2020). A Survey of Predictive Learning Analytics of Student Success in Higher Education[Z]. 全球人工智能與教育大數(shù)據(jù)大會(北京).
[22]Cui, Y., Chu, M. W., & Chen, F. (2019). Analyzing Student Process Data in Game-Based Assessments with Bayesian Knowledge Tracing and Dynamic Bayesian Network[J]. Journal of Educational Data Mining, 11(1):80-100.
[23]Deng, Y., Wu, F., & Du, L. et al. (2019). EEG-Based Identification of Latent Emotional Disorder Using the Machine Learning Approach[C]// IEEE 3rd Information Technology, Networking, Electronic and Automation Control Conference. IL: Piscataway, NJ.
[24]Devlin, J., Chang, M., & Lee, K. et al. (2019). BERT: Pre-Training of Deep Bidirectional Transformers for Language Understanding[C]// Proceedings of the 17th Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. IL: Stroudsburg, PA.
[25]Esparza, G. G., De-Luna, A., & Zezzatti, A. O. et al. (2017). A Sentiment Analysis Model to Analyze Students Reviews of Teacher Performance Using Support Vector Machines[C]// International Symposium on Distributed Computing and Artificial Intelligence. IL: Springer, Cham.
[26]Faust, O., Acharya, U. R., & Ng, E. et al. (2014). Application of Infrared Thermography in Computer Aided Diagnosis[J]. Infrared Physics & Technology, 66:160-175.
[27]Gao, R., Hao, B., & Li, H. et al. (2013). Developing Simplified Chinese Psychological Linguistic Analysis Dictionary for Microblog[J]. Lecture Notes in Computer Science, 8211:359-368.
[28]Gobert, J. D., Sao Pedro, M., & Raziuddin, J. et al. (2013). From Log Files to Assessment Metrics: Measuring StudentsScience Inquiry Skills Using Educational Data Mining[J]. Journal of the Learning Sciences, 22(4):521-563.
[29]Haudek, K. C., Stuhlsatz, M. A. M., & Wilson, C. et al. (2020). Evaluation of Construct-Irrelevant Variance Yielded by Machine and Human Scoring of a Science Teacher PCK Constructed Response Assessment[J]. Studies in Educational Evaluation: Studies in Educational Evaluation, 67:100916.
[30]He, K., Zhang, X., & Ren, S. et al. (2016). Deep Residual Learning for Image Recognition[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. IL: Piscataway, NJ.
[31]Huang, C. L., Chuang, C., & Hui, N. et al. (2012). Development of the Chinese Linguistic Inquiry and Word Count Dictionary[J]. Chinese Journal of Psychology, 54(2):185-201.
[32]Hubley, A. M., & Zumbo, B. D. (2017) Response Processes in the Context of Validity: Setting the Stage[M]// Zumbo, B., & Hubley, A. (Eds). Understanding and Investigating Response Processes in Validation Research. Social Indicators Research Series, Vol 69. Springer, Cham.
[33]Ive, J., Gkotsis, G., & Dutta, R. et al. (2018). Hierarchical Neural Model with Attention Mechanisms for the Classification of Social Media Text Related to Mental Health[Z]. Presented at the Fifth Workshop on Computational Linguistics and Clinical Psychology: From Keyboard to Clinic. New Orleans, Louisiana.
[34]Jin, C., He, B., & Hui, K. et al. (2018). TDNN: A Two-Stage Deep Neural Network for Prompt-Independent Automated Essay Scoring[C]// Proceedings of the 56th Annual Meeting of the Association for Computational Linguistic. IL: Stroudsburg, PA.
[35]Kashyap, M. C., Yi, H., & Victoria, M. T. et al. (2018). Inferring the Climate in Classrooms from Audio and Video Recordings: A Machine Learning Approach[C]// Proceedings of 2018 IEEE International Conference on Teaching, Assessment, and Learning for Engineering. IL: Piscataway, NJ.
[36]Madnani, N., Loukina, A., & Cahill, A. (2017). A Large Scale Quantitative Exploration of Modeling Strategies for Content Scoring[Z]. Presented at the 12th Workshop on Innovative Use of NLP for Building Educational Applications. Copenhagen, Denmark.
[37]Mikolov, K., Sutskever, I., & Chen, K. et al. (2013). Distributed Representations of Words and Phrases and Their Compositionality[C]// Proceedings of the 27th Annual Conference on Neural Information Processing Systems. IL: Nevada, US.
[38]Mislevy, R. J., Almond, R. G., & Lukas, J. F. (2003). A Brief Introduction to Evidence-Centered Design[R]. ETS Research Report Series.
[39]Muramatsu, K., Tanaka, E., & Watanuki, K. et al. (2016). Framework to Describe Constructs of Academic Emotions Using Ontological Descriptions of Statistical Models[J]. Research and Practice in Technology Enhanced Learning, 11(1):1-18.
[40]Piech, C., Bassen, J., & Huang, J. et al. (2015). Deep Knowledge Tracing[C]// Proceedings of the 28th International Conference on Neural Information Processing Systems. IL: Montreal, Canada.
[41]Quellmalz, E. S., Davenport, J. L., & Timms, M. J. et al. (2013). Next-Generation Environments for Assessing and Promoting Complex Science Learning[J]. Journal of Educational Psychology, 105(4):1100-1114.
[42]Quercia, D., Kosinski, M., & Stillwell, D. et al. (2012). Our Twitter Profiles, Our Selves: Predicting Personality with Twitter[C]// IEEE Third International Conference on Privacy. IL: Piscataway, NJ.
[43]Rodrigo, M. M. (2020). Eye Tracking for Novice Programmer Research[Z]. 全球人工智能與教育大數(shù)據(jù)大會(北京).
[44]Scalise, K., & Clarke-Midura, J. (2018). The Many Faces of Scientific Inquiry: Effectively Measuring What Students Do and Not Only What They Say[J]. Journal of Research in Science Teaching, 55(10):1469-1496.
[45]Sun, R., Cao, X., & Zhao, Y. et al. (2020). Multi-Modal Knowledge Graphs for Recommender Systems[C]// Proceedings of the 29th ACM International Conference on Information and Knowledge Management. IL: New York.
[46]Vaswani, A., Shazeer, N., & Parmar, N. et al. (2017). Attention Is All You Need[C]// Proceedings of the 31st Annual Conference on Neural Information Processing Systems. IL: Long Beach.
[47]Vista, A., Awwal, N., & Care, E. (2016). Sequential Actions as Markers of Behavioural and Cognitive Processes: Extracting Empirical Pathways from Data Streams of Complex Tasks[J]. Computers & Education, 92:15-36.
[48]Whitehill, J., Williams, J., & Lopez, G. et al. (2015). Beyond Prediction: First Steps Toward Automatic Intervention in MOOC Student Stopout[C]// Proceedings of the 8th International Conference of Educational Data Mining. IL: Madrid, Spain.
[49]Xu, J., Li, W., & Liu, D. et al. (2020). Deep Embedded Complementary and Interactive Information for Multi-View Classification[C]// Proceedings of 34th AAAI Conference on Artificial Intelligence. IL: Menlo Park, CA.
[50]Zang, C., Pei, M., & Kong, Y. (2020). Few-Shot Human Motion Prediction via Learning Novel Motion Dynamics[C]// Proceedings of the 29th International Joint Conference on Artificial Intelligence. IL: Menlo Park, CA.
[51]Zhang, Y., Lin, C., & Chi, M. (2020). Going Deeper: Automatic Short-Answer Grading by Combining Student and Question Models[J]. User Modeling and User-Adapted Interaction, 30(1):51-80.
[52]Zhang, Y., Shah, R., & Chi, M. (2016). Deep Learning+Student Modeling+Clustering: A Recipe for Effective Automatic Short Answer Grading[C]// Proceedings of the 9th International Conference on Educational Data Mining. IL: North Carolina.
[53]Zhao, G., Ge, Y., & Shen, B. et al. (2017). Emotion Analysis for Personality Inference from EEG Signals[J]. IEEE Transactions on Affective Computing, 9(3):362-371.
[54]Zhao, N., Zhang, Z., & Wang, Y. et al. (2019). See Your Mental State from Your Walk: Recognizing Anxiety and Depression through Kinect-Recorded Gait Data[J]. PLoS One, 14(5):e0216591.
收稿日期 2021-04-12責(zé)任編輯 汪燕
New Trend of Educational Assessment: A Research Overview of Intelligent Assessment
LUO Fang, TIAN Xuetao, TU Zhuoran, JIANG Liming
Abstract: The reform of educational assessment has received unprecedented attention in China. However, limited by traditional assessment tools, both personalized and process assessments are difficult to achieve effectively. Therefore, new assessment technologies are required by the reform. The development of computer and artificial intelligence technologies has injected new vitality into the field of assessment, and it promotes the emergence of intelligent assessment and provides new solutions for the reform of educational assessment. At present, intelligent assessment has made progress in the assessment of students knowledge level or capacity, personality and mental health, and teaching process. First, Intelligent assessment has broken through the limitations of paper-pencil test, leading to the emergence of process assessment, comprehensive assessment, and dynamic assessment of students knowledge level or capacity. Second, self-report scale is no longer the only way, but traceless and adjoint assessments based on multi-modal data will be realized to evaluate personality and mental health. Third, intelligent analysis technology with teaching feedback makes the assessment of teaching process more direct, convenient and accurate. Intelligent assessment has played an important role in promoting the reform of educational evaluation, but there are still some problems in the aspects of multi-modal data application, the pertinence, refinement, accuracy and interpretability of the model. In the future, the collaborative analysis of multi-modal data needs to be explored, the accuracy and interpretability must be balanced, and the pertinence and refinement of the intelligent model need to be improved. Meanwhile, the discipline barriers in the field of information science and psychological measurement must be broken through, to ensure that the intelligent models can be practical, generalized and extensible.
Keywords: Educational Assessment; Artificial Intelligence; Intelligent Assessment; Research Advances; Problem Analysis