孫婷婷 楊 濤
項目質(zhì)量是測評分數(shù)效度解釋的有力證據(jù),任何考試評價的實現(xiàn)都需要研發(fā)高質(zhì)量的測評項目,以求能對考生某一領(lǐng)域知識能力的真實情況有較為精準的測量和解釋[1]。傳統(tǒng)的項目開發(fā)一直由人工編寫,耗時耗力成本高,且容易受到項目編寫者的主觀影響[2-3]。高效、客觀地開發(fā)和維護高質(zhì)量的項目或題庫,一直是教育與心理測評研究的重要領(lǐng)域[4]。
自動化項目生成(Automatic Item Generation,AIG)是隨著計算機技術(shù)發(fā)展而逐漸興起的,指計算機根據(jù)項目開發(fā)者或者自適應(yīng)施測程序的要求,在項目生成算法的指導(dǎo)下,即時自動地生成符合指定項目參數(shù)的項目[5-7]。計算機技術(shù)在AIG 的算法實現(xiàn)上十分重要,它能夠幫助測驗開發(fā)者省時省力地開發(fā)出大量高質(zhì)量項目,并在組卷階段實現(xiàn)智能化組卷[8]。
AIG能有效提升項目編寫的客觀性,并在應(yīng)對項目曝光問題上非常具有前景[9],符合計算機化自適應(yīng)測評以及大規(guī)模測評對題庫建設(shè)和優(yōu)化的需求[10]。近年來人工智能技術(shù)的廣泛應(yīng)用,使AIG 在項目生成的技術(shù)算法上有了新進展。本文將梳理AIG 的主要方法及其在教育與心理測評中的相關(guān)應(yīng)用,并在此基礎(chǔ)上總結(jié)AIG的發(fā)展現(xiàn)狀和未來研究挑戰(zhàn)。
AIG 的發(fā)展已有六十多年,傳統(tǒng)的測評項目開發(fā)理論為AIG 的快速發(fā)展奠定了基礎(chǔ)。2006 年,Haladyna 和Downing[11]在《測試開發(fā)手冊》(Handbook of Test Development)中總結(jié)了測試開發(fā)(Test Development)的12 步驟流程,依次是:總體計劃、內(nèi)容定義、測試形式、項目開發(fā)、測試設(shè)計和組織、組卷、測試實施、作答評分、標準劃定、測試結(jié)果報告、題庫建設(shè)、技術(shù)報告。Irvine 和Kyllonen 也提出項目生成主要包括測評設(shè)計、項目設(shè)計及編寫、試題的測量學(xué)參數(shù)估計、測評分數(shù)的評價標準設(shè)定、試題組裝五個主要方面[12]。在AIG 過程中,測驗開發(fā)者和學(xué)科專家需要在確定測評內(nèi)容和形式、項目設(shè)計和項目開發(fā)上兼顧構(gòu)念效度和認知需求,即內(nèi)容方面的知識、技能、策略和認知能力方面的認知任務(wù)等。
項目編寫首先根據(jù)測評的測量構(gòu)念(construct)確定考查的知識能力,進而根據(jù)考查的特定內(nèi)容生成具體的項目描述。最早的項目設(shè)計與編寫被認為是部分科學(xué)部分藝術(shù)的主觀行為,而AIG基于計算機技術(shù)自動化地生成項目,為項目編寫的客觀性提供了一定支持[13],在項目設(shè)計和生成方法上體現(xiàn)出其跨學(xué)科的特性。AIG 主要方法包括:(1)內(nèi)容優(yōu)先的AIG,以項目內(nèi)容和測量構(gòu)念驅(qū)動項目設(shè)計和生成,如項目模型法(Item Model)和認知設(shè)計系統(tǒng)法(Cognitive Design System Approach,CDS);(2)技術(shù)優(yōu)先的AIG,以技術(shù)的算法化和自動化程度驅(qū)動項目設(shè)計和生成,如語義分析法和深度學(xué)習(xí)法(Deep Learning,DL)。
1.項目模型法
1968 年Osburn 首次提出了項目形式法(Item Forms)[14],用來生成有固定句法結(jié)構(gòu)的項目。項目形式法認為一個句子中有很多可變化的元素,通過對這些元素進行分類,并且限定與之相對應(yīng)的替代元素,便可生成很多類似的項目[15]。
在項目形式法基礎(chǔ)上,項目模型法逐漸發(fā)展起來,又稱項目模板法(Template),是指將經(jīng)過心理測量學(xué)檢驗且指標良好的項目作為項目模板(也稱項目原型或框架,Item Model,Template,Item Shell),通過改變和替換與問題解決難度無關(guān)的描述,組合形成多個新項目的過程[16-18]。項目模型法實際上也可看作是生成多個同構(gòu)異形項目的過程,生成的所有項目稱為項目集(Item Family),項目集中的項目在實質(zhì)內(nèi)容和心理測量學(xué)屬性上趨于一致[2,19-20]。
圖1 是一個用于自動化生成選擇題的項目模型示例:在項目模型中,選擇題可分為題干、選項和輔助信息,對題干中可替換的元素進行編碼,并對元素的取值范圍做出限定,與之相對應(yīng)的選項也可替換成編碼。Gierl、Lai 和Turner[16]進一步提出項目模型的分類(Item Model Taxonomy),對題干和選項進行分類,使選擇題的自動化生成更加豐富多樣,如表1所示。根據(jù)題干與選項之間的關(guān)聯(lián)程度,題干可分為:(1)獨立元素——編碼的元素是任意獨立的,可變化的;(2)相關(guān)元素——受到其他元素的約束和影響;(3)混合元素——獨立元素與相關(guān)元素同時存在;(4)固定元素——元素內(nèi)容是固定不變的。選項可分為:(1)隨機選擇的選項——任意的選項;(2)受約束的選項——受到題干內(nèi)容影響的選項;(3)固定選項——固定不變的選項。
表1 項目模型分類法②轉(zhuǎn)譯自Gierl M J,Lai H,Turner S R.Using Automatic Item Generation to Create Multiple-choice Test Items [J].Medical Education,2012,46(8):757-765.
圖1 項目模型示例①轉(zhuǎn)譯自Gierl M J,Zhou J,Alves C.Developing a Taxonomy of Item Model Types to Promote Assessment Engineering[J].Journal of Technology,Learning,and Assessment,2008,7(2):51.該項目模型示例無圖、表等輔助信息說明。
根據(jù)項目設(shè)計生成具體項目的過程叫做項目克?。↖tem Cloning)[20-21],實現(xiàn)項目克隆的軟件或程序載體稱為項目生成器(Item Generator)。IGOR 是項目模型法AIG 中較為系統(tǒng)的項目生成器[22],其他多為自編算法程序[23]。由于項目模型法的適用性更強,一直在AIG 研究和應(yīng)用中占據(jù)主導(dǎo)地位,大多數(shù)的項目生成方法都可以被納入項目模型法的范疇。
2.認知設(shè)計系統(tǒng)法
早期的項目模型法主要考慮項目的形式結(jié)構(gòu)特征,缺乏對項目的測量內(nèi)容建構(gòu)。1994年,Embretson提出認知設(shè)計系統(tǒng)法[24-25],較好地彌補了這一缺陷,提升了AIG的系統(tǒng)性。
CDS 是理論驅(qū)動的項目生成,基本思想是通過認知實驗研究,確定某一認知領(lǐng)域的核心能力和任務(wù)解決的關(guān)鍵特征,建立認知模型并且檢驗?zāi)P偷男睦頊y量學(xué)特征,區(qū)別影響任務(wù)解決的基本成分和隨機成分?;境煞质侵笇θ蝿?wù)解決有顯著影響的項目刺激特征,隨機成分則是指可以替換的、對任務(wù)解決沒有顯著影響的項目刺激特征[2,6,18,25]。
表2 呈現(xiàn)了CDS 項目生成的基本流程[25]??梢钥闯觯珽mbretson在20世紀末對CDS的理論建構(gòu)十分體系化,在項目生成器的開發(fā)方面,提出未來或許能夠與人工智能方向相結(jié)合,借助人工智能技術(shù)大規(guī)模生成符合測評設(shè)計的項目。
表2 認知設(shè)計系統(tǒng)的項目生成流程③摘譯自Embretson S E.A Cognitive Design System Approach to Generating Valid Tests:Application to Abstract Reasoning[J].Psychological methods,1998,3(3):380.
項目生成的算法化和自動化程度是AIG 客觀性和效率性體現(xiàn)的關(guān)鍵,而人類自然語言又是通過字、詞、短語和句的銜接關(guān)系表達完整的意義,是具有序列關(guān)系的數(shù)據(jù)。實現(xiàn)自動化的項目生成,即是理解自然語言、構(gòu)造語言模型和生成自然語言的過程[26]。
當前AIG 有兩種自然語言處理(Natural Language Processing,NLP)方式:一是基于語言規(guī)則的語義分析,即邏輯規(guī)則的語言建模,考慮字或詞的形態(tài)、語法和語義;二是基于大量語料的統(tǒng)計建模,目標是在給定的文本數(shù)據(jù)上下文中預(yù)測下一個出現(xiàn)的字或詞,即深度學(xué)習(xí),現(xiàn)實世界中語音識別或機器翻譯系統(tǒng)的語言建模都是建立在大數(shù)據(jù)的基礎(chǔ)上[26]。
1.語義分析法
語義分析法在理解和分析原有項目的語法、詞匯、句子結(jié)構(gòu)和功能的基礎(chǔ)上,提煉和設(shè)計規(guī)則來生成項目。已有研究包括采用框架語義學(xué)、詞匯功能語法和關(guān)鍵概念提取等技術(shù)自動化生成項目。
2003 年Deane 和Sheehan[27]首次提出將自然語言生成(Natural Language Generation,NLG)技術(shù)應(yīng)用到AIG 中,以框架語義學(xué)(Frame Semantics)為指導(dǎo),自動化生成數(shù)學(xué)代數(shù)應(yīng)用題,探討了結(jié)合NLG 的自動化項目生成過程。如圖2所示,將空格缺失部分按照固定的語義功能定義為“交通工具”和“整數(shù)”,便可在“交通工具”處使用各種各樣的交通工具作為替換內(nèi)容,在“整數(shù)”處填入不同的整數(shù)作為替換。如此,便可自動化生成大量同類型的項目。
圖2 框架語義分析示例①轉(zhuǎn)譯自Deane P,Sheehan K.Automatic Item Generation Via Frame Semantics:Natural Language Generation of Math Word Problems[J].2003.
2016年Huang和He[28]采用詞匯功能語法,實現(xiàn)了中國大學(xué)英語四級測試(CET-4)閱讀理解填空題的自動生成。其實證研究結(jié)果表明,自然語言處理技術(shù)能夠有效提高AIG生成項目的信效度和多樣化,并建議后續(xù)研究可采用更好的項目生成框架設(shè)計。
Wesiak等人[29]開發(fā)的EAQC項目生成器(Enhanced Automatic Question Creator,EAQC)則是基于文本篇章的關(guān)鍵概念提?。–oncept Extraction)。即設(shè)計算法從文本材料中提取最重要的概念以及概念之間的關(guān)系,根據(jù)關(guān)鍵概念生成項目的題干和參考答案,如單選題、判斷正誤題、填空題和開放性回答題,測驗開發(fā)者可選擇使用哪個概念來生成項目,并且選擇生成什么類型的項目。2016 年Smadi、Hoefler 和Guetl[30]進一步對EAQC 概念提取的精確度和生成項目的真實性進行研究,并與人工提取的概念和生成的項目進行對比,實證研究結(jié)果表明,EAQC提取的概念和生成的項目與人工提取和生成相差無異,在概念提取層面,EAQC的結(jié)果要好于人工提?。辉陧椖可蓪用?,EAQC的項目沒有人工編寫的項目變化多樣。
2.深度學(xué)習(xí)法
深度學(xué)習(xí)是多種深度神經(jīng)網(wǎng)絡(luò)模型的總稱,起源于大數(shù)據(jù)和人工神經(jīng)網(wǎng)絡(luò)的研究[26],人工神經(jīng)網(wǎng)絡(luò)的提出是基于機器對大數(shù)據(jù)的篩選過濾和分類。深度學(xué)習(xí)基于分布式表征學(xué)習(xí)的假設(shè),即允許機器從原始數(shù)據(jù)中自動化地學(xué)習(xí)和表征數(shù)據(jù)的特征,這種學(xué)習(xí)和表征是由低到高多層次的、逐漸抽象的和非線性的[31]。這些特征不是由人類的思維方式和工程設(shè)計的,而是從數(shù)據(jù)中學(xué)習(xí),尤其是對多維數(shù)據(jù)的復(fù)雜結(jié)構(gòu)學(xué)習(xí),這一優(yōu)勢特點使得深度學(xué)習(xí)在計算機視覺和自然語言處理等諸多領(lǐng)域取得很好成果[26]。
遞歸神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)是深度學(xué)習(xí)語言建模應(yīng)用最廣泛的模型[26,32]。RNN通過一步一步地處理真實的(時間)序列數(shù)據(jù)并預(yù)測接下來會發(fā)生什么來訓(xùn)練序列生成,體現(xiàn)了序列中接近的數(shù)據(jù)點之間的相關(guān)性[26]。預(yù)測的假設(shè)是概率性的,通過從神經(jīng)網(wǎng)絡(luò)的輸出分布中迭代采樣,然后將樣本作為下一步的輸入,從訓(xùn)練好的網(wǎng)絡(luò)中生成新的序列,即讓神經(jīng)網(wǎng)絡(luò)把它的訓(xùn)練發(fā)現(xiàn)當作是真實的,根據(jù)訓(xùn)練的模式生成新的文本[33]。RNN 本身是確定性的,抽樣注入的隨機性使輸出結(jié)果產(chǎn)生了序列上的分布,這種分布又因神經(jīng)網(wǎng)絡(luò)的內(nèi)部狀態(tài)依賴于以前的輸入,因而是有條件的分布。
圖3 給出了一個基本的帶有延遲線的RNN 結(jié)構(gòu),并在時間上展開了兩個時間點的步長[26]。在這種結(jié)構(gòu)中,輸入向量被一次一個地輸入到RNN 中,且RNN 利用當前時間點的訓(xùn)練結(jié)構(gòu)預(yù)測。一個特定的RNN 能捕獲多少信息取決于它的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)和訓(xùn)練算法[33]。
圖3 RNN展開圖①轉(zhuǎn)譯自LeCun Y,Bengio Y,Hinton G.Deep Learning[J].Nature,2015,521(7553):436-444.
RNN 多用于文本生成[33]、機器翻譯[34-35]、語音識別[36-37]、時序預(yù)測[38-39]等領(lǐng)域的研究和應(yīng)用。中文自然語言處理相關(guān)研究有陳謙[40]基于神經(jīng)網(wǎng)絡(luò)對自然語言的語義表征方法進行研究;王哲[41]提出了基于規(guī)劃的詩歌生成模型PPG(Planning-based Poetry Generation Approach,PPG),從詩歌規(guī)劃和詩歌生成兩部分來生成中國傳統(tǒng)詩歌,并取得良好的效果。
2018 年von Davier[42]首次提出基于深度學(xué)習(xí)的AIG 方法,并以國際人格測試題庫(International Personality Item Pool,IPIP[43])為例,采用RNN-LSTM自動化地生成人格測試新項目,并使用主成分分析法驗證新生成的項目具有與原有項目相一致的信效度。與此同時,von Davier指出,盡管基于深度學(xué)習(xí)的全自動AIG相較于以往半自動化的AIG更有效率,后續(xù)研究還需要進一步驗證深度學(xué)習(xí)AIG 方法的可靠性。除此之外,2018年陳志剛[44]也從英語考試自動答題的技術(shù)研究入手,圍繞多維度語義分析、深度語義建模、基于句法的深度語義建模以及深度語義信息融合等多方面開展英語考試自動答題技術(shù)研究。
不同的AIG 方法直接影響新生成的項目質(zhì)量。此外,與傳統(tǒng)的項目開發(fā)一致,項目的參數(shù)估計方法、人工編寫偏好等也會影響AIG 的項目質(zhì)量。相關(guān)研究從AIG 方法的優(yōu)化和其他影響因素兩方面研究進一步改進和提升AIG的項目質(zhì)量。
1.項目模板法與認知設(shè)計系統(tǒng)的結(jié)合
隨著項目模型法的成熟應(yīng)用,只注重項目生成數(shù)量的功能性逐漸減弱,項目生成的理論性逐漸增強。Gierl 和Lai 等人[45-46]將項目模型法與測評的知識內(nèi)容結(jié)構(gòu)和認知模型相結(jié)合,應(yīng)用于形成性測評項目生成和作答反饋生成中,重視建構(gòu)項目自動化生成的測量構(gòu)念,用于AIG 的測量構(gòu)念明確了特定學(xué)科領(lǐng)域的問題解決所包含的內(nèi)容知識、技能和能力水平等。
Arendasy和Sommer[47]為確保新生成的項目的效度,結(jié)合項目模型法和認知設(shè)計系統(tǒng)法的優(yōu)勢,提出自動化最小-最大法(Automatic Min-Max Approach)。以認知模型藍圖為項目內(nèi)容生成的基體(Radicals),項目材料的表面特征作為約束條件來控制生成項目的質(zhì)量,減少低效度項目的生成。自動化最小-最大法可看作是CDS 的延伸,它在認知設(shè)計系統(tǒng)方法的框架基礎(chǔ)上,認為項目刺激材料的特征只是項目的主成分,是每個項目中都需要生成和測量的內(nèi)容;其他特征則是用來控制項目生成質(zhì)量使項目功能差異最小化的約束條件。
2.深度學(xué)習(xí)模型的優(yōu)化
原則上,網(wǎng)絡(luò)結(jié)構(gòu)足夠大的RNN 可以生成任意復(fù)雜程度的序列[33]。而在實踐中,標準RNN 無法長時間存儲有關(guān)過去輸入的信息[38]。1997 年,Hochreiter 和Schmidhuber[48]提出長短時記憶網(wǎng)絡(luò)(Long Short-Term Memory,LSTM),解決了RNN 訓(xùn)練不穩(wěn)定的問題。LSTM 是基于標準RNN 的改進結(jié)構(gòu),比標準的RNN 更適合于存儲和訪問信息,可以更輕松地獲得良好的訓(xùn)練效果,在工業(yè)界和學(xué)術(shù)界一系列序列處理任務(wù)中獲得了廣泛而成功的應(yīng)用[26],如語音和手寫識別[49-50]。
Graves 和Schmidhuber[49]比較了RNN、雙向RNN(BRNN)、LSTM、雙向LSTM(BLSTM)和多層感知器(Multi-Layer Perceptron,MLP)等幾種常用的語言模型,發(fā)現(xiàn)在具有上下文聯(lián)系的語音識別數(shù)據(jù)中,LSTM 表現(xiàn)出更好的訓(xùn)練速度和精度,并且雙向結(jié)構(gòu)比單向結(jié)構(gòu)更有效。Greff 等人[51]在語音、手寫識別和復(fù)調(diào)音樂數(shù)據(jù)集上的大量重復(fù)實驗發(fā)現(xiàn),標準的LSTM(vanilla LSTM)在大規(guī)模數(shù)據(jù)中的適用性更強。黃賢英等人[52]的研究進一步表明,LSTM 由于加入時間序列的建模,能夠更加準確地表征上下文語義信息并提升分類準確性。
1.參數(shù)估計精度
已有AIG 研究中,大多采用項目反應(yīng)理論(Item Response Theory,IRT)對項目參數(shù)進行估計,評估模型的擬合度和新生成項目的質(zhì)量。應(yīng)用最廣泛的IRT 模型有線性邏輯斯蒂模型(Linear Logistic Test Model,LLTM)、約束兩參數(shù)邏輯斯蒂克模型(2PLConstrained Model)、層級IRT 模型(Hierarchical IRT Model)等。
Holling等人[53]使用LLTM和RE-LLTM(Random-Effects LLTM)對項目進行參數(shù)估計。Glas和van der Linden[20]在CAT 中運用3-PLM(三參數(shù)邏輯斯蒂克模型),采用邊際極大似然估計(Maximum Marginal Likelihood Estimation,MMLE)和 貝 葉 斯(Bayesian)方法估計AIG 新生成的項目參數(shù)。之后Glas[54-55]又比較了兩種提高項目參數(shù)標定精度的方法:ICM(Item Clone Model,項目克隆模型)和近似模型(Approximate Model),其研究結(jié)果表明,ICM 方法的參數(shù)估計精度略有提高。Embretson和Yang[1]以及Geerlings、Glas 和van der Linden[56]先后都采用了層級IRT模型進行參數(shù)估計。
Ferreyra 和Backhoff Escudero[57]從經(jīng)典測量理論(Classical Item Theory,CTT)、IRT、驗證性因素分析和內(nèi)容覆蓋率等方面對AIG 的新生成項目進行質(zhì)量檢驗。2017年,Harrison 等人[58]將IRT、CAT 和AIG 融合在音樂能力測驗中,采用4-PLM(四參數(shù)邏輯斯蒂克模型)模型,開展了4 個子研究檢驗AIG 在音樂主旋律區(qū)分(Melodic Discrimination Test)CAT測評中的項目質(zhì)量,其實證研究結(jié)果表明,采用項目模型法自動化生成的CAT測評項目具有良好的信效度。這些研究為AIG的項目質(zhì)量優(yōu)化和在不同學(xué)科的廣泛應(yīng)用打開了大門,十分利于AIG的信效度和效率的提升。
2.原始項目編寫偏好
Lai、Alves 和Gierl[5]采用項目模型法自動化生成數(shù)學(xué)、科學(xué)、社會和語文四個學(xué)科的選擇題,檢驗項目編寫者在編寫原始模型項目時是否存在偏好。結(jié)果表明,項目編寫者更喜歡編寫題干內(nèi)容獨立、選項受約束的項目作為項目模型;并且更傾向于將AIG方法應(yīng)用于數(shù)學(xué)、科學(xué)等偏計算語言的學(xué)科,而非語文、社會等偏語言學(xué)科。
3.潛特質(zhì)對項目難度的影響
李中權(quán)等人[59]研究了在圖形推理測驗中不同認知成分對項目難度的預(yù)測作用。他們總結(jié)出影響圖形推理測驗項目難度的四個因素:構(gòu)圖元素熟悉性、屬性的抽象性、知覺組織的和諧性、規(guī)則類型與數(shù)目。其回歸分析結(jié)果發(fā)現(xiàn),這四個不同認知成分均對項目難度有顯著預(yù)測作用??梢?,項目質(zhì)量也受到項目本身所考查潛特質(zhì)的類型、結(jié)構(gòu)和水平的影響。
項目模型法在學(xué)業(yè)成就測評開發(fā)中的應(yīng)用,主要有語文、社會、科學(xué)、數(shù)學(xué)、生物、音樂、計算機、英語語言學(xué)習(xí)等項目生成[5,16,22,45,60,61]。涂冬波[62]將項目模型法應(yīng)用于認知診斷計算機測評系統(tǒng)的開發(fā),經(jīng)檢驗,新生成項目的測量信效度較好。Gierl 和Lai[46]在數(shù)學(xué)測評中采用項目模型分類法,替換模型項目中的題干和選項元素,自動化生成大量項目及其對應(yīng)選項,為其形成性反饋提供支持。
認知設(shè)計系統(tǒng)法在學(xué)業(yè)成就測評方面的應(yīng)用尚在起步階段,楊向東[63]總結(jié)了基于認知設(shè)計系統(tǒng)法的代數(shù)應(yīng)用題生成的四種結(jié)構(gòu)分析法:命題分析、網(wǎng)絡(luò)語言分析、關(guān)系-函數(shù)分析和任務(wù)分析地圖,實現(xiàn)對代數(shù)應(yīng)用題的項目認知特征進行表征。
認知設(shè)計系統(tǒng)法在心理測評項目開發(fā)中的應(yīng)用最多,如矩陣推理項目[64]、抽象推理測驗項目[25,65]、空間折疊以及空間物品排列[66]、圖形推理[59]、定量推理[67]、視覺短時記憶[68]和心理旋轉(zhuǎn)[69]等。周駿等人[70]根據(jù)認知設(shè)計系統(tǒng)法,編制了矩陣完成問題的項目生成系統(tǒng),自動化生成矩陣完成問題的測驗項目,其研究結(jié)果表明,認知模型的設(shè)計對新生成項目的參數(shù)估計產(chǎn)生影響,測量相同任務(wù)技能的項目其參數(shù)較為一致。楊向東[65]的實證研究結(jié)果也表明,在計算機適應(yīng)性測驗條件下,采用認知設(shè)計系統(tǒng)法生成抽象推理測驗項目的預(yù)測參數(shù)比相應(yīng)標定參數(shù)分布更為趨中。
深度學(xué)習(xí)法在心理測評中的應(yīng)用,主要是von Davier[42]采用RNN-LSTM 對IPIP 人格測試項目的自動化生成。
在職業(yè)證書資格考試項目的自動化生成方面,主要采用項目模型法,應(yīng)用于醫(yī)師執(zhí)照考試[16]、醫(yī)學(xué)項目考試[71,72]等。如Lai 等人[73]以牙科測評項目為例,在結(jié)合認知模型的基礎(chǔ)上,采用項目模型法自動化生成牙科測評項目。
此外,語義分析法也應(yīng)用在資格考試中,如前文提及的在英語自動答題[44]和大學(xué)英語四級考試閱讀理解項目生成[28]中的應(yīng)用。
AIG 是人工智能技術(shù)在教育中的深度融合的體現(xiàn),是結(jié)合計算機測評(Computer-Based Testing,CBT)、測評設(shè)計(Test Design)和認知能力測評(Cognitive Assessment)的跨學(xué)科研究方向[13,74-75],在教育與心理測評實踐中的應(yīng)用和發(fā)展前景廣闊。而與此同時,AIG 在真實測評項目應(yīng)用中的準確性、有效性和穩(wěn)定性需要在實踐應(yīng)用中進一步檢驗和提高。深度學(xué)習(xí)AIG 隨著人工智能技術(shù)的發(fā)展逐漸而產(chǎn)生,即使沒有理論模型仍可以保持較準確的分類、訓(xùn)練和即時生成,更節(jié)省項目開發(fā)成本。但項目質(zhì)量同樣不可忽視,項目的質(zhì)量關(guān)乎測評的可解釋性,如何從深度學(xué)習(xí)AIG 的非線性關(guān)系中找到特定的解釋依據(jù),是未來相關(guān)研究面臨的挑戰(zhàn)。
當前的測評項目開發(fā)仍以人工編寫為主,如何將人工編寫與AIG 相結(jié)合,兼顧測試開發(fā)的成本效益和公平客觀性,是未來AIG 研究應(yīng)考慮的方向。在已有AIG 方法中,項目模型法、認知設(shè)計系統(tǒng)法、語義分析法是基于邏輯規(guī)則、由少到多的半自動化項目生成(Semi-Automatic Item Generation),認知設(shè)計系統(tǒng)與語義分析法對語言結(jié)構(gòu)和問題解決的任務(wù)過程定義復(fù)雜,項目模型法和認知設(shè)計系統(tǒng)法互相融合借鑒,目前仍是項目模型法適用性更強、應(yīng)用更廣泛,但項目模型法生成的項目同質(zhì)化相對明顯。深度學(xué)習(xí)AIG實現(xiàn)了基于大數(shù)據(jù)深度建模、由多到多的全自動化項目生成(Total-Automatic Item Generation),顛覆了基于邏輯規(guī)則的AIG,減少了前期的人工標注和投入,算法化更強,但深度學(xué)習(xí)AIG 的應(yīng)用廣泛性和項目質(zhì)量還需要獲得進一步的評價與驗證。
隨著人工智能技術(shù)賦能教育的教育變革新形勢逐步深入,AIG 與計算機自適應(yīng)測評、大規(guī)模在線測評和題庫建設(shè)等相結(jié)合更適應(yīng)智能化教育測評的發(fā)展方向,因而,AIG 的自動化和智能化程度有望在后續(xù)的研究中獲得進一步探索與實踐,AIG的相關(guān)研究也需要更多的實證研究和教育與心理真實測評場景的實踐提供支持。在人工智能環(huán)境下,基于教育與心理測評特點,獲取真實教育和學(xué)習(xí)場景中的大數(shù)據(jù),結(jié)合測量所考查的知識內(nèi)容和認知能力等目標,綜合不同AIG 方法的優(yōu)勢,以求最大程度地自動化生成符合真實教育與心理測評情境的高質(zhì)量項目。