[摘 要] 數(shù)字化測(cè)評(píng)中的過(guò)程性數(shù)據(jù)為教育及心理評(píng)估帶來(lái)不可或缺的隱性價(jià)值。目前針對(duì)過(guò)程性指標(biāo)的定義與研究仍處于探索階段,在分類體系和指標(biāo)內(nèi)涵上缺乏規(guī)范性。梳理國(guó)內(nèi)外數(shù)字化測(cè)評(píng)中的過(guò)程性數(shù)據(jù)研究,將現(xiàn)有過(guò)程性指標(biāo)劃分為時(shí)間、一般動(dòng)作和復(fù)雜策略三大類別,剖析每一類別內(nèi)的指標(biāo)內(nèi)涵及其研究進(jìn)展。對(duì)于過(guò)程性指標(biāo)的特征提取方法,從自下而上和自上而下兩個(gè)角度加以綜述與歸納,并針對(duì)指標(biāo)與潛在能力之間的模型評(píng)估及模型適用性進(jìn)行對(duì)比分析。過(guò)程性指標(biāo)研究在數(shù)據(jù)采集、分析解釋、理論創(chuàng)新、方法技術(shù)及倫理法規(guī)等方面均面臨諸多挑戰(zhàn),仍需不斷探究及驗(yàn)證。
[關(guān)鍵詞] 過(guò)程性數(shù)據(jù);日志文件;數(shù)字化測(cè)評(píng);過(guò)程性指標(biāo)
[中圖分類號(hào)] G424.74 [文獻(xiàn)標(biāo)識(shí)碼] A
[文章編號(hào)] 1673—1654(2024)04—040—012
在教育及心理評(píng)估領(lǐng)域(以下“評(píng)估”均限指此領(lǐng)域),數(shù)字化測(cè)評(píng)產(chǎn)生的過(guò)程數(shù)據(jù)(process data)已經(jīng)被高效運(yùn)用于評(píng)價(jià)解析數(shù)據(jù)質(zhì)量、提高測(cè)量精細(xì)程度、定義面向過(guò)程的潛在特質(zhì)[1]、解決實(shí)質(zhì)性研究問(wèn)題[2]等方面?;谶^(guò)程數(shù)據(jù)所提取的測(cè)量指標(biāo),不僅可以為隱匿的思維過(guò)程提供測(cè)量證據(jù),還能通過(guò)豐富的行為軌跡提煉有意義的行為模式,為評(píng)價(jià)提供更加細(xì)化的評(píng)價(jià)顆粒及更加多元的證據(jù)來(lái)源。過(guò)程性數(shù)據(jù)的分析方法也從傳統(tǒng)的統(tǒng)計(jì)學(xué)和心理測(cè)量學(xué)范疇,擴(kuò)展到了適用于大規(guī)模數(shù)據(jù)分析的數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)等領(lǐng)域中[3-4],并且體現(xiàn)了二者的有效結(jié)合[5-6],為評(píng)估帶來(lái)了前所未有的機(jī)遇與挑戰(zhàn)。
國(guó)內(nèi)外大型評(píng)估驗(yàn)證了過(guò)程性數(shù)據(jù)為教育測(cè)評(píng)帶來(lái)的優(yōu)勢(shì)和潛力。由經(jīng)濟(jì)合作與發(fā)展組織(Organization for Economic Co-operation and Development,OECD)開展的國(guó)際學(xué)生評(píng)估項(xiàng)目(Programme for International Student Assessment,PISA)自2009年起逐漸引入計(jì)算機(jī)測(cè)評(píng)形式,從中提取的過(guò)程性指標(biāo)為數(shù)學(xué)素養(yǎng)、問(wèn)題解決、閱讀素養(yǎng)等學(xué)生綜合能力評(píng)估提供了豐富多元的客觀證據(jù)。此外,由國(guó)際教育成就評(píng)價(jià)協(xié)會(huì)(The International Association for the Evaluation of Educational Achievement,IEA)組織的國(guó)際閱讀素養(yǎng)進(jìn)展研究(Progress in International Reading Literacy Study,PIRLS)及國(guó)際數(shù)學(xué)與科學(xué)趨勢(shì)研究(Trends in International Mathematics and Science Study,TIMSS)也分別于2016年和2019年啟動(dòng)在線測(cè)評(píng)模式ePIRLS和eTIMSS,納入過(guò)程性數(shù)據(jù)的運(yùn)用,優(yōu)化評(píng)估的科學(xué)性與精準(zhǔn)性。同樣,被稱為美國(guó)“國(guó)家成績(jī)報(bào)告單”(The Nation’s Report Card)的“國(guó)家教育進(jìn)展評(píng)估”(National Assessment of Educational Progress,NAEP),通過(guò)對(duì)原始過(guò)程性數(shù)據(jù)的不斷檢驗(yàn)與剖析,結(jié)合所提取的過(guò)程性指標(biāo)和統(tǒng)計(jì)模型,探究隱藏在學(xué)生作答動(dòng)作序列中的認(rèn)知信息。這些作答證據(jù),可以更加精準(zhǔn)地識(shí)別學(xué)生在問(wèn)題解決過(guò)程中的隱性認(rèn)知表現(xiàn),進(jìn)而深入表征和分析學(xué)生的作答思路及作答策略[7]??梢?jiàn),數(shù)字化測(cè)評(píng)中過(guò)程性數(shù)據(jù)所帶來(lái)的測(cè)評(píng)優(yōu)勢(shì)是傳統(tǒng)評(píng)估中的作答結(jié)果所不能比擬的。
相比于傳統(tǒng)評(píng)估,數(shù)字化測(cè)評(píng)下的過(guò)程性數(shù)據(jù)可以詳盡包含作答結(jié)果以及作答過(guò)程的行為記錄,在系統(tǒng)后臺(tái)中以日志文件(Log file)的形式存在。例如,開始與停止操作的時(shí)間、空閑時(shí)間、儀器操作及時(shí)長(zhǎng)、鼠標(biāo)鍵盤的操作、頁(yè)面工具的使用、終結(jié)動(dòng)作的當(dāng)前頁(yè)面操作、關(guān)鍵作答動(dòng)作及其頻率、連續(xù)動(dòng)作序列、嘗試動(dòng)作、幫助行為等[8]。在教育及心理評(píng)估領(lǐng)域中,這些數(shù)據(jù)可以反映作答者的思維過(guò)程及認(rèn)知行為,也提供了體現(xiàn)解決方案的思路與策略信息[9]。已有證據(jù)表明,即便在總分完全一致的情況下,過(guò)程性作答證據(jù)仍可作為衡量個(gè)體能力差異的顯著性指標(biāo)[10]。
然而,盡管過(guò)程性數(shù)據(jù)的巨大價(jià)值已經(jīng)日益凸顯,但其指標(biāo)內(nèi)涵的界定與分類體系仍處于發(fā)展的初期階段,缺乏規(guī)范性、系統(tǒng)性。由于教育及心理所涉及的評(píng)估方向和關(guān)注點(diǎn)復(fù)雜多樣,加之日志文件繁雜冗余,導(dǎo)致現(xiàn)有評(píng)估性質(zhì)的過(guò)程性指標(biāo)呈現(xiàn)出零散龐雜的特點(diǎn),相同或類似的指標(biāo)以不同名稱分散于多類研究中,其指標(biāo)內(nèi)涵與屬性也指向各異,這為過(guò)程性指標(biāo)研究的推廣和發(fā)展帶來(lái)了困擾與阻礙。為使過(guò)程性指標(biāo)發(fā)揮更大價(jià)值,為教育及心理領(lǐng)域后續(xù)的研究與實(shí)踐提供更加系統(tǒng)規(guī)范的理論參照,本文通過(guò)對(duì)1980年起至今的國(guó)內(nèi)外近百篇過(guò)程性數(shù)據(jù)在教育及心理評(píng)估相關(guān)研究1的梳理及剖析,將眾多指標(biāo)及其內(nèi)涵和運(yùn)用加以詳細(xì)解析并規(guī)整分類,以期為該領(lǐng)域的后續(xù)研究提供階段性的理論與實(shí)踐參照。
一、常見(jiàn)過(guò)程性指標(biāo)歸類
過(guò)程性日志數(shù)據(jù)主要圍繞受測(cè)者行為的視角展開,目的是通過(guò)人機(jī)交互動(dòng)作了解受測(cè)者的行為模式和內(nèi)部認(rèn)知過(guò)程。盡管日志文件包含“事件記錄”的多角度信息,具有類型、格式、來(lái)源、屬性等諸多分類角度,但適用于評(píng)估領(lǐng)域過(guò)程性指標(biāo)的劃分角度從時(shí)間[11]和用戶[12]兩大方向切入更為合理,依據(jù)如下:
第一,時(shí)間和用戶屬性是日志文件最為基礎(chǔ)、典型且必備的兩個(gè)屬性信息,在其他領(lǐng)域的日志文件分類研究中已有類似驗(yàn)證[13];
第二,教育評(píng)估領(lǐng)域?qū)φJ(rèn)知過(guò)程進(jìn)行研究時(shí),所關(guān)注的個(gè)體行為及動(dòng)作序列與日志文件的用戶行為與時(shí)間信息緊密相關(guān);
第三,在教育評(píng)估領(lǐng)域中,以往基于日志文件過(guò)程性指標(biāo)的研究需求與這兩類劃分標(biāo)準(zhǔn)相互匹配[14]。
挖掘時(shí)間和用戶這兩類日志信息的基本需求,均體現(xiàn)在對(duì)個(gè)體行為模式的動(dòng)作特點(diǎn)及認(rèn)知過(guò)程的證據(jù)提取之上。在時(shí)間類日志數(shù)據(jù)中,時(shí)間屬性通常作為反映不同行為特點(diǎn)的側(cè)面驗(yàn)證元素或時(shí)間節(jié)點(diǎn)證據(jù),即通過(guò)比較關(guān)鍵的時(shí)間點(diǎn)、時(shí)長(zhǎng)、周期[15]、一定時(shí)間范圍內(nèi)的行為頻率、峰值或規(guī)律[16],依據(jù)日志數(shù)據(jù)的時(shí)間因素提取個(gè)體行為的內(nèi)在邏輯證據(jù)?;谟脩籼卣鞯娜罩緮?shù)據(jù),是針對(duì)個(gè)體內(nèi)或個(gè)體間行為操作的角度去辨別個(gè)體的行為特點(diǎn),進(jìn)而提取關(guān)鍵認(rèn)知過(guò)程和行為證據(jù)。這種針對(duì)個(gè)體角度的行為證據(jù)提取情況更為復(fù)雜,還可繼續(xù)細(xì)分。He等人將問(wèn)題解決過(guò)程中除時(shí)間類的日志信息再劃分為動(dòng)作信息和行為指標(biāo)[14],前者指作答動(dòng)作和迷你動(dòng)作序列,用于提取較為簡(jiǎn)單的行為信息,如重復(fù)操作的分析[17];后者側(cè)重于作答者的人機(jī)交互操作和作答策略,可以反映測(cè)評(píng)過(guò)程中的不同應(yīng)答策略及行為模式[18-19],或用于專家與新手的能力水平對(duì)比[20]等。
基于上述對(duì)日志文件及用戶角度的過(guò)程性數(shù)據(jù)歸類依據(jù),綜合經(jīng)典案例與研究需求,可以將國(guó)內(nèi)外教育及心理評(píng)估研究中的過(guò)程性指標(biāo)劃分為時(shí)間、一般動(dòng)作和行為策略三大類別。前者對(duì)應(yīng)時(shí)間角度,后兩者分別對(duì)應(yīng)用戶個(gè)體角度的基礎(chǔ)性動(dòng)作和復(fù)雜動(dòng)作策略。具體如表1所示:
二、過(guò)程性指標(biāo)表征內(nèi)涵及應(yīng)用
(一)時(shí)間類指標(biāo)
時(shí)間類過(guò)程性指標(biāo)基于一定的定義范圍,截取不同動(dòng)作之間的時(shí)間點(diǎn)或區(qū)間,通常以秒數(shù)/毫秒數(shù)、0/1水平、等級(jí)水平、比例等數(shù)值形式記錄,以其直觀性且量化標(biāo)準(zhǔn)高的特點(diǎn)被視為反映內(nèi)部過(guò)程的特征指標(biāo)[21]。相比于早期時(shí)間類指標(biāo)的認(rèn)知屬性(如獲得更準(zhǔn)確的熟練程度估計(jì)[22]、時(shí)間限制[23]、速度[24]、更準(zhǔn)確地估計(jì)參數(shù)[25]等),數(shù)字化測(cè)評(píng)中的時(shí)間指標(biāo)更為精準(zhǔn),記錄區(qū)間更加細(xì)化,可在時(shí)間維度上為內(nèi)部認(rèn)知過(guò)程、行為表現(xiàn)及影響因素提供更為豐富且精細(xì)化的外顯指標(biāo)。時(shí)間類過(guò)程指標(biāo)常用包括作答時(shí)長(zhǎng)(time on task)、時(shí)間間隔(interval)、響應(yīng)時(shí)長(zhǎng)(response time)或第一反應(yīng)時(shí)間(initial reaction time)(注:也有學(xué)者用“response time”表示作答時(shí)長(zhǎng)[26],但大多數(shù)均作為響應(yīng)時(shí)長(zhǎng)指標(biāo))等。
作答時(shí)長(zhǎng)是指受測(cè)者作答全過(guò)程的時(shí)長(zhǎng),最能直接反映受測(cè)者的作答速度,常與作答結(jié)果結(jié)合考察。通常被作為衡量作答準(zhǔn)確性[27]、任務(wù)解決能力水平[28]、作答熟練水平[29]、堅(jiān)持性[30-31]、非常規(guī)操作[28]、快速猜測(cè)行為[32]等的鑒別指標(biāo)。有證據(jù)表明,作答時(shí)長(zhǎng)與能力水平之間存在影響,具體表現(xiàn)為:正向關(guān)系,在問(wèn)題上花費(fèi)較多時(shí)間和采取較多行動(dòng)的學(xué)生更有可能正確回答問(wèn)題[33];負(fù)向關(guān)系,過(guò)長(zhǎng)的作答時(shí)間并未與高能力水平有確定關(guān)聯(lián)[34];二次關(guān)系,在一個(gè)項(xiàng)目上花費(fèi)時(shí)間過(guò)多或過(guò)少的作答者,其所測(cè)認(rèn)知能力得分大多不高[27]??梢?jiàn)作答時(shí)長(zhǎng)與能力表現(xiàn)之間的影響關(guān)系較為復(fù)雜,還需要更多的驗(yàn)證與探究。
響應(yīng)時(shí)長(zhǎng)又稱作第一反應(yīng)時(shí)間(initial reaction time),作為第一次主動(dòng)干預(yù)前的時(shí)間量。經(jīng)常被用作計(jì)劃[35]、速度[36]、測(cè)試動(dòng)機(jī)[37]、作答努力性[28]、抑制控制[35]以及對(duì)于能力的預(yù)測(cè)性[35]等衡量指標(biāo)。與作答時(shí)長(zhǎng)類似,響應(yīng)時(shí)間長(zhǎng)短與受測(cè)者能力并無(wú)確定的線性關(guān)系。響應(yīng)時(shí)長(zhǎng)會(huì)與作答時(shí)長(zhǎng)結(jié)合考慮,如將響應(yīng)時(shí)長(zhǎng)作為計(jì)劃指標(biāo)時(shí),二者可互為補(bǔ)償。即,如果計(jì)劃時(shí)間夠長(zhǎng),作答時(shí)間并不一定很長(zhǎng)也可以獲得高分,如果計(jì)劃時(shí)間不充分,作答時(shí)間較長(zhǎng)可加以彌補(bǔ)[31]。另外,響應(yīng)時(shí)長(zhǎng)也被看作閱讀能力的衡量指標(biāo),時(shí)間過(guò)長(zhǎng)會(huì)被認(rèn)為受測(cè)者可能缺少基本閱讀技能[38];如果時(shí)間過(guò)短,會(huì)被作為隨意猜測(cè)、缺少動(dòng)機(jī)[39-40]。
時(shí)間間隔與響應(yīng)時(shí)長(zhǎng)類似,對(duì)應(yīng)的是操作之間而非操作始末的時(shí)間空隙,也被稱為“停頓”。該指標(biāo)被驗(yàn)證與問(wèn)題解決能力相關(guān)聯(lián),體現(xiàn)為執(zhí)行心理計(jì)算和下一步操作決策的內(nèi)部認(rèn)知過(guò)程所花費(fèi)的時(shí)間,具備心理時(shí)間量的屬性[15],可作為堅(jiān)持性[41]、計(jì)劃、快速猜測(cè)的判別指標(biāo)[33]。尤其在評(píng)測(cè)作答努力與動(dòng)機(jī)時(shí)具有隱蔽性好、偏見(jiàn)性低、數(shù)據(jù)來(lái)源豐富易取等重要特質(zhì)[40]。研究發(fā)現(xiàn),在具備控制條件的實(shí)驗(yàn)心理研究中,通過(guò)分析微觀層面的反應(yīng)停頓,即便在總分或任務(wù)完成時(shí)間不變的情況下,也能通過(guò)分析關(guān)鍵動(dòng)作的時(shí)間間隔為解決問(wèn)題能力的評(píng)估提供有效信息[42]。
時(shí)間類指標(biāo)與所測(cè)特質(zhì)水平之間的影響關(guān)系受到多方因素影響。第一,任務(wù)難度?;诓煌蝿?wù)難度的時(shí)間類指標(biāo)對(duì)不同能力水平個(gè)體所產(chǎn)生的影響方向各異。過(guò)往研究顯示,高水平個(gè)體對(duì)待容易任務(wù)與低水平個(gè)體對(duì)待困難任務(wù)的時(shí)間效應(yīng)影響方向是相似的,都傾向花費(fèi)較短時(shí)長(zhǎng)。而且,對(duì)于簡(jiǎn)單的自動(dòng)化任務(wù),時(shí)長(zhǎng)可以作為能力負(fù)向相關(guān)性指標(biāo)[43-44]。而當(dāng)任務(wù)難度加大時(shí),作答時(shí)間越長(zhǎng)則更容易答對(duì)[29]。第二,任務(wù)性質(zhì)。不同類型和領(lǐng)域的任務(wù)對(duì)時(shí)間指標(biāo)有不同的影響。例如,創(chuàng)造性任務(wù)可能比機(jī)械性任務(wù)所需時(shí)間更長(zhǎng)[45],描述文字量大的任務(wù)更依賴于閱讀水平,閱讀能力強(qiáng)的個(gè)體所用時(shí)間越短[46]。第三,個(gè)體因素。個(gè)體的先驗(yàn)知識(shí)[18]、焦慮水平、學(xué)習(xí)風(fēng)格[34]、內(nèi)容熟練度[45]等也會(huì)成為時(shí)間類指標(biāo)與任務(wù)作答關(guān)系的影響因素。第四,設(shè)備與環(huán)境。在計(jì)算機(jī)交互任務(wù)中,設(shè)備性能、硬件響應(yīng)速度等技術(shù)因素可能對(duì)響應(yīng)時(shí)長(zhǎng)產(chǎn)生影響[47]。第五,文化因素。受測(cè)者的作答時(shí)間量也會(huì)受到文化認(rèn)知風(fēng)格(如時(shí)間感知、時(shí)間管理及任務(wù)處理方式)、社會(huì)期望、實(shí)踐觀念、社會(huì)文化以及學(xué)習(xí)和教育文化等方面的影響[48]等。可見(jiàn),時(shí)間類指標(biāo)對(duì)能力水平的解釋對(duì)應(yīng)關(guān)系十分復(fù)雜,可作為輔助證據(jù)加以多角度驗(yàn)證。
(二)一般動(dòng)作類指標(biāo)
一般動(dòng)作類指標(biāo)是指從作答過(guò)程的操作動(dòng)作中直接提取出的基礎(chǔ)類動(dòng)作指標(biāo)。這種動(dòng)作指標(biāo)無(wú)需指標(biāo)定義,可基于計(jì)算機(jī)操作的單擊、按鍵、移動(dòng)和拖放等動(dòng)作直接產(chǎn)生。通常以計(jì)數(shù)、頻率、比例、等級(jí)水平或0/1水平等形式賦值。常見(jiàn)指標(biāo)包括動(dòng)作數(shù)(總動(dòng)作數(shù)、子題動(dòng)作數(shù))、行動(dòng)速度(平均操作時(shí)間、平均動(dòng)作數(shù))、監(jiān)測(cè)行為(作答回看、修改前停頓)、修改行為、有效動(dòng)作行為(正確操作行為、反饋后正確操作行為、有效動(dòng)作數(shù)、關(guān)鍵行為等)、被提示行為、作答停頓行為、信息探究行為等。
動(dòng)作指標(biāo)所傳遞的信息量在某種程度上超過(guò)時(shí)間參數(shù)[46],這源于動(dòng)作參數(shù)與作答過(guò)程直接相關(guān)的指標(biāo)屬性。時(shí)間本身并不能對(duì)應(yīng)正確或錯(cuò)誤的操作結(jié)果,但表現(xiàn)在鍵盤或鼠標(biāo)操作中的操作行為(即心理行為)卻可以更好地體現(xiàn)問(wèn)題解決者的作答活動(dòng)。雖然一般性動(dòng)作指標(biāo)可以從基礎(chǔ)動(dòng)作信息中直接獲得,但其來(lái)自問(wèn)題解決過(guò)程中的具體操作,直接反映作答行為和思維過(guò)程,能提供與問(wèn)題解決過(guò)程更直觀的作答信息。在不同任務(wù)情景下,可以作為能力水平[49]、信息技術(shù)素養(yǎng)(Information and Communications Technology,ICT)[26]、閱讀素養(yǎng)[26]、自查修錯(cuò)行為[50]、竭力堅(jiān)持行為[30]等方面的判別或影響指數(shù)。
研究表明,一般動(dòng)作類指標(biāo)也可被看作是一種“干預(yù)”。動(dòng)作的出現(xiàn)意味著操作者對(duì)任務(wù)信息獲取及結(jié)果嘗試時(shí)的一種干預(yù),干預(yù)次數(shù)或頻率會(huì)作為任務(wù)知識(shí)的獲取及應(yīng)用的衍生指標(biāo)[27]。動(dòng)作干預(yù)與評(píng)估結(jié)果性指標(biāo)之間的影響關(guān)系并不確定,根據(jù)任務(wù)要求和研究需求會(huì)有所不同。一方面,部分研究顯示動(dòng)作指標(biāo)與能力指標(biāo)呈負(fù)向影響關(guān)系。例如,動(dòng)作數(shù)量與學(xué)生GPA(Grade Point Average)成績(jī)的關(guān)系是消極相關(guān)[10],對(duì)信息獲取或能力呈一次線性負(fù)向[27]及二次回歸負(fù)性關(guān)系[27],重復(fù)步數(shù)占比對(duì)失敗作答情況的貢獻(xiàn)較大[28]等。但另一方面,一些研究得出動(dòng)作數(shù)量與能力表現(xiàn)之間存在積極影響的結(jié)果[29]。Yavuz發(fā)現(xiàn)作答中采取更多行動(dòng)的學(xué)生更有可能正確完成作答[26],類似的結(jié)果也在其他研究中被驗(yàn)證[51]。
這種影響差異引發(fā)了更多的研究進(jìn)行深入探討。后續(xù)研究發(fā)現(xiàn),在較為常用的一般性動(dòng)作指標(biāo)中,在作答失敗的情況下有較強(qiáng)預(yù)測(cè)效果的是“與最優(yōu)步數(shù)差” “執(zhí)行間波動(dòng)”“重復(fù)步數(shù)占比”“與最優(yōu)路徑重合比例”等指標(biāo);而在作答成功的情況下有較強(qiáng)預(yù)測(cè)效果的是“思考步數(shù)占比”“與最優(yōu)步數(shù)差”“Ln(第一步時(shí)間/總時(shí)間)”等。與時(shí)間參數(shù)類似的是,一般動(dòng)作指標(biāo)對(duì)個(gè)體能力水平的評(píng)估情況也受技能水平或相對(duì)任務(wù)難度等與任務(wù)和個(gè)體相關(guān)的因素的影響。有研究表明,在相對(duì)容易的任務(wù)中,動(dòng)作數(shù)調(diào)節(jié)了時(shí)間與表現(xiàn)之間的關(guān)系;在相對(duì)困難的任務(wù)中,時(shí)間指標(biāo)在動(dòng)作數(shù)對(duì)作答表現(xiàn)的影響關(guān)系中起中介作用,表現(xiàn)為作答者必須精心設(shè)計(jì)一個(gè)任務(wù)和材料陳述,并通過(guò)大量緩慢執(zhí)行的動(dòng)作來(lái)解決問(wèn)題[29]。
(三)行為策略類指標(biāo)
行為策略類指標(biāo)是基于行為序列提煉而出的策略類動(dòng)作指標(biāo),從動(dòng)作發(fā)生的順序和時(shí)序關(guān)系中提取有意義信息,對(duì)應(yīng)受測(cè)者內(nèi)部認(rèn)知過(guò)程,是思維能力與認(rèn)知水平的直接體現(xiàn)。不同于一般性動(dòng)作指標(biāo)是記錄與統(tǒng)計(jì)基礎(chǔ)操作,策略類指標(biāo)需要采用更加復(fù)雜的提取手段從一系列的動(dòng)作序列中提煉與整合,整合后的指標(biāo)通常以出現(xiàn)頻次、有無(wú)出現(xiàn)(1/0)、等級(jí)水平或比率(目標(biāo)動(dòng)作數(shù)/所有動(dòng)作數(shù))等形式賦值。在略復(fù)雜的任務(wù)情境中,作答者會(huì)通過(guò)有意向地干預(yù)策略來(lái)捕獲更加準(zhǔn)確的任務(wù)信息,進(jìn)行更加高效精準(zhǔn)的作答操作。研究者對(duì)這些具有目的性、規(guī)律性的干預(yù)操作賦予其特定的策略性內(nèi)涵意義,并根據(jù)任務(wù)需求和作答特點(diǎn)將其歸納為不同的策略指標(biāo),制定操作定義,以反映在傳統(tǒng)評(píng)估下難以顯性化的內(nèi)部認(rèn)知過(guò)程。行為策略類指標(biāo)可根據(jù)其應(yīng)用于任務(wù)作答過(guò)程的兩個(gè)關(guān)鍵階段,即信息獲取和問(wèn)題解決進(jìn)行分類[52]。
1. 信息獲取階段
信息獲取過(guò)程中的行為策略指標(biāo)是指在任務(wù)作答過(guò)程中,為了獲取問(wèn)題解決所需的任務(wù)信息和已知條件所采取的行為策略。復(fù)雜任務(wù)情景下,受測(cè)者在獲取任務(wù)信息時(shí),需要通過(guò)任務(wù)作答時(shí)的干預(yù)操作,來(lái)獲取某個(gè)變量及該變量與其他變量之間的影響變化關(guān)系,進(jìn)而掌握復(fù)雜任務(wù)關(guān)鍵環(huán)節(jié)的有效信息。依據(jù)受測(cè)者干預(yù)輸入變量的強(qiáng)度,常見(jiàn)的信息獲取策略包括觀察策略、有目的試誤、強(qiáng)干預(yù)、探究完全性、VOTAT及其系列策略等,可通過(guò)比較同類干預(yù)操作的成功率來(lái)作為過(guò)程學(xué)習(xí)效果的衡量指標(biāo)。具體指標(biāo)解析如下:
觀察策略,又稱非干預(yù)觀察(non-interfering observation)或首次干預(yù)前的無(wú)操作[50],在有些復(fù)雜問(wèn)題解決研究中又被稱為無(wú)干預(yù)策略(NOTAT,vary-no-thing-at-a-time)。非干預(yù)觀察不同于無(wú)操作策略(指首次干預(yù)前的無(wú)任何操作策略),它并不是指完全無(wú)操作,而是在問(wèn)題解決過(guò)程中,至少出現(xiàn)一次的將所有變量都設(shè)置在零位置上,以嘗試探究任務(wù)信息及結(jié)果關(guān)系[53]。一般表現(xiàn)為將所有輸入變量的值重新調(diào)整至初始位置后,不操作任何輸入變量,觀察輸出變量的變化趨勢(shì)。該策略的使用頻率與是否具備規(guī)劃意識(shí)有關(guān),沒(méi)有規(guī)劃意識(shí)時(shí)一般會(huì)伴隨隨機(jī)探索問(wèn)題模式,盡管表現(xiàn)出高頻率的互動(dòng),也較少出現(xiàn)觀察策略。研究表明,觀察策略的次數(shù)能顯著正向預(yù)測(cè)學(xué)生的作答結(jié)果[27]。在用這種策略出現(xiàn)的次數(shù)或頻率作為參數(shù)去衡量潛在的計(jì)劃性及能力表現(xiàn)時(shí),發(fā)現(xiàn)對(duì)比那些盲目進(jìn)行高頻率干預(yù)的學(xué)生,偶爾以非干預(yù)方式觀察問(wèn)題環(huán)境的學(xué)生具有更好的復(fù)雜問(wèn)題解決表現(xiàn)[27]。當(dāng)然,也有研究發(fā)現(xiàn),使用觀察策略行為的次數(shù)與作答結(jié)果沒(méi)有顯著相關(guān)[54],其影響機(jī)制尚需進(jìn)一步驗(yàn)證。此外,與觀察策略相似的第一次主動(dòng)干預(yù)前的無(wú)操作策略[35]也被作為計(jì)劃性的衡量參數(shù),通常結(jié)合響應(yīng)時(shí)長(zhǎng)加以辨識(shí)。
除了歸零設(shè)置的觀察策略外,有目的性試誤(purposeful trial and error)也是探索任務(wù)變量因果、獲得任務(wù)知識(shí)的一種有效策略。該策略不僅能縮減解題時(shí)間、提高效率,還能大大增加復(fù)雜問(wèn)題解決正確作答的可能性,對(duì)學(xué)生的問(wèn)題解決水平具有預(yù)測(cè)作用[55]。在試誤的過(guò)程中,作答者需要根據(jù)任務(wù)情境在探索和規(guī)劃階段進(jìn)行預(yù)測(cè),來(lái)決定是否需要增強(qiáng)干預(yù)操作以保證更好的干預(yù)效果,這種策略被稱為強(qiáng)干預(yù)[52]。在有些試誤操作中,作答者會(huì)采用冒險(xiǎn)策略(risky strategy),即有意識(shí)地選擇極端或更大的設(shè)置及數(shù)值,使作答系統(tǒng)發(fā)生戲劇化的反應(yīng),以此推斷邏輯規(guī)則及邊界條件[56]。此外,如果需要分析作答者在整個(gè)信息獲取過(guò)程中對(duì)探究和內(nèi)容獲取的程度,還可采用探究完全性指標(biāo)[52]。
在諸多信息獲取策略中,VOTAT策略(vary-one-thing-at-a-time)受關(guān)注度最高,也是衡量作答思路最有效的策略指標(biāo)之一[14]。VOTAT是指通過(guò)每次僅改變一個(gè)事件(變量值)同時(shí)保持其他變量值或設(shè)置不變,進(jìn)而判斷不同的變量對(duì)結(jié)果影響關(guān)系的一種作答策略[53],亦指科學(xué)探究中的變量控制策略[57],是衡量復(fù)雜問(wèn)題充分探索及信息獲取的重要策略[58]。其指標(biāo)合成目前主要體現(xiàn)在:運(yùn)用次數(shù)及環(huán)節(jié)數(shù)上的統(tǒng)計(jì);運(yùn)用頻次占總次數(shù)的比例;能夠系統(tǒng)運(yùn)用VOTAT策略的人數(shù)比[59];針對(duì)此策略編碼的合成指標(biāo)[27]等。VOTAT策略的構(gòu)建基于探索問(wèn)題環(huán)境時(shí)所應(yīng)用的孤立變異原理,目的是找出每個(gè)問(wèn)題元素的特指影響,被分為有意識(shí)的和無(wú)意識(shí)的兩種。它是一種用于探索和檢驗(yàn)因果關(guān)系的多步驟探索策略方法,已被證明是問(wèn)題解決過(guò)程中的正向影響因子[60],類似結(jié)論也得到了反復(fù)驗(yàn)證[31,61–63]。
與VOTAT對(duì)應(yīng)的還有HOTAT策略(hold-one-thing-at-a-time)和CA策略(change-all),前者指的是一次保持一個(gè)事件(變量)不變而其他變量發(fā)生變化的策略,后者是指同時(shí)變化所有變量或條件的操作策略[53]。對(duì)應(yīng)的還有控制變量策略(control-variable,CV),指作答者需要從兩個(gè)或三個(gè)輸入變量的共變中找出因果關(guān)系。與VOTAT策略相比,CV策略需要更多的腦力計(jì)算或操作來(lái)判斷任務(wù)系統(tǒng)的規(guī)律性,在采用該策略獲取輸入變量和輸入關(guān)系時(shí),其效率不如VOTAT高[64]。與上述變量控制策略相似的還有“保持特定事件的一致性策略”(hold particular things constant,HPTC)以及“適應(yīng)性前進(jìn)策略”(adaptive growth,AG)(如果成功則繼續(xù)向前,否則就保持不變或后退)[58],這些探索變量間因果關(guān)系的策略雖然并未像VOTAT策略那樣被廣泛驗(yàn)證,但在問(wèn)題解決的過(guò)程中也發(fā)揮著重要作用。
2. 問(wèn)題解決階段
基于信息獲取階段對(duì)變量間因果關(guān)系的探索,作答者會(huì)采取最恰當(dāng)?shù)淖鞔鸩呗越鉀Q問(wèn)題,目前提及的問(wèn)題解決策略有最優(yōu)性(optimality)、次優(yōu)性、目標(biāo)評(píng)估、計(jì)劃性等策略指標(biāo)[15]。其中,最優(yōu)性策略指在作答時(shí)使用從最初狀態(tài)到目標(biāo)狀態(tài)的最優(yōu)路徑,通常與任務(wù)情境緊密結(jié)合。在問(wèn)題解決任務(wù)中則指解決問(wèn)題的效率(有多接近最優(yōu)解決路徑)或通過(guò)幾步來(lái)實(shí)現(xiàn)目標(biāo)[52],多采取最優(yōu)操作數(shù)、比例[65]、差異步數(shù)[28]等形式,被視為認(rèn)知效率的有效衡量指標(biāo)。次優(yōu)策略(sub-optimal strategies)對(duì)應(yīng)最優(yōu)策略產(chǎn)生,其對(duì)作答結(jié)果的積極影響弱于最優(yōu)作答策略[4]。與之類似的還有目標(biāo)評(píng)估策略和計(jì)劃性策略,前者指在任務(wù)作答時(shí),評(píng)估當(dāng)前狀態(tài)與目標(biāo)狀態(tài)的距離并設(shè)計(jì)如何達(dá)到目標(biāo)狀態(tài),以及評(píng)估如果達(dá)到了目標(biāo)狀態(tài)后保持在目標(biāo)狀態(tài)的一種策略[15];后者具體指向計(jì)劃性,是指根據(jù)目標(biāo)制定計(jì)劃以便在限定的操作次數(shù)內(nèi)達(dá)到目標(biāo),該指標(biāo)能分析作答者有沒(méi)有計(jì)劃性,以及對(duì)任務(wù)變化方向、大小和操作步驟能否有效控制[52]。研究發(fā)現(xiàn),頻繁進(jìn)行無(wú)目的干預(yù)的學(xué)生成功可能性較小,明確的目標(biāo)導(dǎo)向和計(jì)劃行為與解決復(fù)雜問(wèn)題具有相關(guān)性[66]。問(wèn)題解決階段的策略類指標(biāo)同樣會(huì)受到任務(wù)性質(zhì)、個(gè)體情況、技術(shù)設(shè)備及其他因素的影響,在具體的研究中需要加以調(diào)控處理[67]。
三、指標(biāo)提取與模型評(píng)估
(一)指標(biāo)提取
過(guò)程性指標(biāo)隱匿在作答行為的動(dòng)作序列之中,其特征提取方式相對(duì)于傳統(tǒng)評(píng)估數(shù)據(jù)而言更加復(fù)雜多樣?,F(xiàn)有的特征提取方法可歸納為以下兩大類[68]:
1.自上而下的特征抽取方法。是指基于理論驅(qū)動(dòng)的角度,圍繞所測(cè)特質(zhì)的測(cè)評(píng)框架,采用文獻(xiàn)資料和專家評(píng)定相結(jié)合的方式,結(jié)合相應(yīng)測(cè)量任務(wù),從作答過(guò)程中尋找有意義的行為模式,制定指標(biāo)的含義和操作定義,確定其提取和賦值規(guī)則,并經(jīng)過(guò)統(tǒng)計(jì)方法(如kappa系數(shù))來(lái)衡量有效性。目前國(guó)際大型測(cè)驗(yàn)系統(tǒng)多采用這種方式,如PISA 2012 問(wèn)題解決測(cè)驗(yàn)、“21世紀(jì)技能評(píng)估與教育計(jì)劃”(Assessment and Teaching of 21st Century Skills Project,ATC21S)的合作問(wèn)題解決測(cè)驗(yàn)[69]和NAEP-TEL(Technology and Engineering Literacy,技術(shù)與工程素養(yǎng))測(cè)驗(yàn)[70]等。
2.自下而上的特征抽取方法。該方法以數(shù)據(jù)驅(qū)動(dòng)的角度,從作答動(dòng)作序列中提取信息。目前具體抽取方法可以總結(jié)為三類[68]:借用自然語(yǔ)言處理(Natural Language Processing,NLP)技術(shù)由反應(yīng)序列建構(gòu)指標(biāo)的方法[71],降維算法構(gòu)造反應(yīng)序列的低維數(shù)字特征向量的方法[72-73],以及使用網(wǎng)絡(luò)指標(biāo)表征反應(yīng)特征的方法[74]。這些自下而上的特征提取方法尚處于初步探索階段,未形成成熟統(tǒng)一的研究范式[68]。
對(duì)比而言,自上而下的特征抽取方法與概念指標(biāo)緊密對(duì)應(yīng),統(tǒng)計(jì)測(cè)量模型分析邏輯成熟,但也存在對(duì)專家依賴性強(qiáng)、任務(wù)特異性強(qiáng)和構(gòu)建成本高等弊端;自下而上的特征提取方法雖然在某種程度上可以解決專家依賴和任務(wù)特異性的問(wèn)題,但也存在理論架構(gòu)不明晰、信息易遺漏、解釋性差等局限。建議二者有機(jī)結(jié)合、協(xié)同驗(yàn)證。
(二)模型評(píng)估
通過(guò)上述方法提取出的過(guò)程性指標(biāo),需要經(jīng)過(guò)進(jìn)一步的模型評(píng)估來(lái)構(gòu)建過(guò)程性指標(biāo)與潛在能力之間的關(guān)系模型,以實(shí)現(xiàn)對(duì)特定能力的估計(jì)。目前針對(duì)過(guò)程性數(shù)據(jù)研究所涉及的模型評(píng)估體現(xiàn)在以下三類[68]。
1.傳統(tǒng)心理測(cè)量模型及其拓展。構(gòu)建出的指標(biāo)數(shù)據(jù)與傳統(tǒng)數(shù)據(jù)一樣,采用測(cè)量模型進(jìn)行估計(jì)。如多維IRT模型[5]、診斷分析模型[75]、多水平模型[76]及其拓展模型[77]等。
2.隨機(jī)過(guò)程模型。將任務(wù)完成的動(dòng)作步驟看作沿離散時(shí)間點(diǎn)的有序且相互依賴的反應(yīng)系列[78],采用具備描述隨機(jī)過(guò)程功能的概率模型對(duì)前后依賴的過(guò)程性指標(biāo)進(jìn)行擬合,獲取重要時(shí)刻上的潛在狀態(tài)水平,這些可作為隨時(shí)間變化的知識(shí)掌握狀態(tài)或能力表現(xiàn)水平相關(guān)的證據(jù)。常用的隨機(jī)過(guò)程分析方法有隱馬爾可夫模型(Hidden Markov Model,HMM)和動(dòng)態(tài)貝葉斯網(wǎng)絡(luò)(Dynamic Bayesian Network,DBN)[79]。
3.結(jié)合隨機(jī)過(guò)程思想的測(cè)量模型。該模型的參考邏輯是受測(cè)者采取的問(wèn)題解決步驟是其特定反應(yīng)狀態(tài)的表象,為了獲取攜帶動(dòng)作順序關(guān)系的潛在能力估計(jì)值,采用結(jié)合隨機(jī)過(guò)程思想的測(cè)量模型進(jìn)行分析。如馬爾可夫IRT模型(Item Response Theory)[70]、連續(xù)時(shí)間動(dòng)態(tài)選擇模型(Continuous-time Dynamic Choice,CTDC)[80]、馬爾可夫決策過(guò)程(Markov Decision Process,MDP)[81]以及序列反應(yīng)模型(Sequential Response Model,SRM)[68]等。
綜上對(duì)比,在基于過(guò)程性指標(biāo)選用模型去評(píng)估能力水平時(shí),過(guò)程性指標(biāo)的有效構(gòu)建及其與潛在能力之間的合理對(duì)應(yīng)十分關(guān)鍵。傳統(tǒng)心理測(cè)量及拓展模型重點(diǎn)關(guān)注能力估計(jì),指標(biāo)與潛在能力之間對(duì)應(yīng)關(guān)系強(qiáng),可解釋性好,但也存在局部獨(dú)立假設(shè)限制和動(dòng)作順序信息損失的局限性;隨機(jī)過(guò)程模型關(guān)注行為序列及順序信息,但指標(biāo)與潛在能力之間的對(duì)應(yīng)關(guān)聯(lián)較弱,可解釋性不強(qiáng),較難滿足教育及心理測(cè)評(píng)中對(duì)能力特質(zhì)連續(xù)穩(wěn)定的評(píng)估需求,建議作為數(shù)據(jù)驅(qū)動(dòng)或輔助證據(jù)加以選擇;結(jié)合隨機(jī)過(guò)程思想的心理測(cè)量模型,兼具了前兩者優(yōu)勢(shì),既可以考慮過(guò)程行為中的動(dòng)作序列信息,又結(jié)合了理論及專家經(jīng)驗(yàn)將指標(biāo)與潛在能力建立對(duì)應(yīng)關(guān)系,增強(qiáng)了可解釋性,但由于其模型參數(shù)繁多,目前僅適用于相對(duì)簡(jiǎn)單或結(jié)構(gòu)良好的測(cè)驗(yàn)任務(wù)類型,在測(cè)驗(yàn)任務(wù)類型的適用性上仍有較大的探索提升空間。在實(shí)際的測(cè)評(píng)研究中,需根據(jù)研究目的構(gòu)建和選擇合理的過(guò)程性指標(biāo),結(jié)合測(cè)評(píng)要求及任務(wù)類型選擇恰當(dāng)?shù)臏y(cè)量模型。
四、總結(jié)與展望
過(guò)程性數(shù)據(jù)的發(fā)展與運(yùn)用為新一代測(cè)量帶來(lái)了寶貴的資源和契機(jī)。本文基于教育心理評(píng)估領(lǐng)域中過(guò)程性指標(biāo)的內(nèi)涵特點(diǎn)及研究應(yīng)用情境,將過(guò)程性指標(biāo)劃分為時(shí)間、一般動(dòng)作、行為策略三大類別,并詳細(xì)闡述了各類過(guò)程指標(biāo)的內(nèi)涵定義,及其與被測(cè)潛在能力之間的預(yù)測(cè)和影響關(guān)系,為后續(xù)研究系統(tǒng)地了解、運(yùn)用、解釋及驗(yàn)證過(guò)程性指標(biāo)提供參考,也為相關(guān)實(shí)證研究提供借鑒。
目前教育評(píng)估領(lǐng)域中關(guān)于過(guò)程性數(shù)據(jù)的探究與驗(yàn)證尚處于初始階段,在此類數(shù)據(jù)的收集、分析、解釋、應(yīng)用、理論創(chuàng)新、方法技術(shù)、倫理法規(guī)等方面均面臨一定挑戰(zhàn)。
具體體現(xiàn)在:第一,數(shù)據(jù)采集復(fù)雜度高,過(guò)程性數(shù)據(jù)的采集對(duì)方法技術(shù)和設(shè)施設(shè)備均有一定要求,對(duì)測(cè)試群體、測(cè)試硬件條件、測(cè)試環(huán)境、測(cè)前準(zhǔn)備等方面均提出了更苛刻的條件需求[13];第二,數(shù)據(jù)分析技術(shù)要求高,過(guò)程性數(shù)據(jù)具有非結(jié)構(gòu)性的冗雜特點(diǎn),對(duì)研究人員在理論和技術(shù)層面的交叉融合、技術(shù)掌握與更新迭代上的要求更加嚴(yán)苛;第三,結(jié)果解釋的難度高,原始過(guò)程性數(shù)據(jù)隱匿冗余,以事件發(fā)生時(shí)序關(guān)系的日志文件形式記錄呈現(xiàn),并不直接提供關(guān)于特質(zhì)能力、測(cè)試動(dòng)機(jī)等方面的信息。研究時(shí)需要先對(duì)原始日志數(shù)據(jù)進(jìn)行預(yù)處理和提取分析,經(jīng)過(guò)指標(biāo)界定和解釋后才能獲取有價(jià)值的信息,這一過(guò)程不同于傳統(tǒng)測(cè)量模型的應(yīng)用邏輯。在確定過(guò)程性數(shù)據(jù)分析結(jié)果與受測(cè)者潛在能力之間的因果關(guān)系時(shí),需謹(jǐn)慎結(jié)合數(shù)據(jù)與理論邏輯進(jìn)行反復(fù)驗(yàn)證與思考,避免出現(xiàn)對(duì)因果關(guān)系的過(guò)度解釋[82];第四,與傳統(tǒng)測(cè)量模型有效結(jié)合難度大,過(guò)程性數(shù)據(jù)如何與成熟的傳統(tǒng)測(cè)量理論與技術(shù)進(jìn)行科學(xué)結(jié)合[83],是提升過(guò)程性數(shù)據(jù)應(yīng)用科學(xué)性與適切性的重要方向,在方法結(jié)合及研究運(yùn)用上均具有諸多挑戰(zhàn);第五,理論基礎(chǔ)的創(chuàng)新與驗(yàn)證尤為亟需,為確保過(guò)程性指標(biāo)與測(cè)評(píng)目標(biāo)的嚴(yán)密結(jié)合,更需關(guān)注研究理論基礎(chǔ)的創(chuàng)新與驗(yàn)證,為過(guò)程性數(shù)據(jù)的應(yīng)用提供基礎(chǔ)性支撐,這也是解決過(guò)程性數(shù)據(jù)有效應(yīng)用的根本所在;第六,倫理要求更加嚴(yán)苛,在使用過(guò)程性數(shù)據(jù)時(shí),尤其需要增強(qiáng)道德倫理及法律法規(guī)等相關(guān)意識(shí),確保受測(cè)者的個(gè)人隱私安全,保證過(guò)程性數(shù)據(jù)的使用具備合法性與安全性。
綜上,數(shù)字化測(cè)評(píng)下過(guò)程性數(shù)據(jù)的探究發(fā)展之路任重道遠(yuǎn),仍需在新思路、新方法、新渠道的適用性及有效性方面加以不斷嘗試與驗(yàn)證。在指標(biāo)的提取上,可以嘗試自上而下理論驅(qū)動(dòng)與自下而上數(shù)據(jù)驅(qū)動(dòng)的結(jié)合思路[49];在方法與模型上,可以探索將傳統(tǒng)測(cè)量理念與新的分析挖掘技術(shù)有效融合,結(jié)合多模態(tài)數(shù)據(jù)來(lái)源,豐富多元化交互形式,以獲取更加豐富多樣的過(guò)程數(shù)據(jù),為未來(lái)教育及心理評(píng)估領(lǐng)域帶來(lái)更立體多元的探索視角、更精細(xì)科學(xué)的評(píng)價(jià)顆粒以及更寬闊多樣的評(píng)估廣度。
參考文獻(xiàn):
[1] De Boeck P,Scalise K. Collaborative Problem Solving:Processing Actions,Time,and Performance [J/OL]. Frontiers in Psychology,2019,10.
[2] Naumann J. The Skilled,the Knowledgeable,and the Motivated:Investigating the Strategic Allocation of Time on Task in a Computer-Based Assessment [J/OL]. Frontiers in Psychology,2019,10.
[3] Goldhammer F,Scherer R,Greiff S. Editorial:Advancements in Technology-Based Assessment:Emerging Item Formats,Test Designs,and Data Sources [J/OL]. Frontiers in Psychology,2020,10.
[4] He Q,Borgonovi F,Paccagnella M. Leveraging Process Data to Assess Adults’ Problem-Solving Skills:Using Sequence Mining to Identify Behavioral Patterns across Digital Tasks [J/OL]. Computers amp; Education,2021,166:104-170.
[5] 韓雨婷,肖悅,劉紅云.問(wèn)題解決測(cè)驗(yàn)中過(guò)程數(shù)據(jù)的特征抽取與能力評(píng)估[J].心理科學(xué)進(jìn)展,2022,30(6):1393-1409.
[6] 首新,田偉,李健,等.基于過(guò)程數(shù)據(jù)的人機(jī)“虛擬代理”協(xié)作問(wèn)題解決測(cè)評(píng)研究——以PISA中國(guó)四地區(qū)為例[J].現(xiàn)代教育技術(shù),2023,33:86-97.
[7] Bergner Y,von Davier A A. Process Data in NAEP:Past,Present,and Future [J/OL]. Journal of Educational and Behavioral Statistics,2019,44(6):706-732.
[8] Salles F,Dos Santos R,Keskpaik S. When Didactics Meet Data Science:Process Data Analysis in Large-Scale Mathematics Assessment in France [J/OL]. Large-scale Assessments in Education,2020,8(1):7.
[9] He Q,Von Davier M. Analyzing Process Data from Problem-Solving Items with N-Grams:Insights from a Computer-Based Large-Scale Assessment [M/OL]. 2016:749-776.
[10] Stadler M,Hofer S,Greiff S. First among Equals:Log Data Indicates Ability Differences Despite Equal Scores [J/OL]. Computers in Human Behavior,2020,111:106442.
[11] Beitzel S M,Jensen E C,Chowdhury A,et al. Temporal Analysis of a Very Large Topically Categorized Web Query Log [J/OL]. Journal of the American Society for Information Science and Technology,2007,58(2):166-178.
[12] Kotov A,Bennett P N,White R W,et al. Modeling and Analysis of Cross-Session Search Tasks [C/OL] // Proceedings of the 34th International ACM SIGIR Conference on Research and Development in Information Retrieval. New York,NY,USA:Association for Computing Machinery,2011:5-14.
[13] Dumais S,Jeffries R,Russell D M,et al. Understanding User Behavior Through Log Data and Analysis [M/OL]//OLSON J S,KELLOGG W A. Ways of Knowing in HCI. New York,NY:Springer,2014:349-372.
[14] He Q,Borgonovi F,Paccagnella M. Using Process Data to Understand Adults’ Problem-Solving Behaviour in the Programme for the International Assessment of Adult Competencies(PIAAC):Identifying Generalised Patterns across Multiple Tasks with Sequence Mining [R/OL]. Paris:OECD,2019.
[15] Arslan B,Jiang Y,Keehner M,et al. The Effect of Drag-and-Drop Item Features on Test-Taker Performance and Response Strategies [J/OL]. Educational Measurement:Issues and Practice,2020,39(2):96-106.
[16] Eichmann B,Goldhammer F,Greiff S,et al. The Role of Planning in Complex Problem Solving [J/OL]. Computers amp; Education,2019,128:1-12.
[17] Tyler S K,Teevan J. Large Scale Query Log Analysis of Re-Finding [C/OL] // Proceedings of the Third ACM International Conference on Web Search and Data Mining. New York,NY,USA:Association for Computing Machinery,2010:191-200.
[18] Liu H,Liu Y,Li M. Analysis of Process Data of PISA 2012 Computer-Based Problem Solving:Application of the Modified Multilevel Mixture IRT Model [J/OL]. Frontiers in Psychology,2018,9.
[19] Ren Y,Luo F,Ren P,et al. Exploring Multiple Goals Balancing in Complex Problem Solving Based on Log Data [J/OL]. Frontiers in Psychology,2019,10.
[20] White R W,Morris D. Investigating the Querying and Browsing Behavior of Advanced Search Engine Users [C/OL] // Proceedings of the 30th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. New York,NY,USA:Association for Computing Machinery,2007:255-262.
[21] 詹沛達(dá).計(jì)算機(jī)化多維測(cè)驗(yàn)中作答時(shí)間和作答精度數(shù)據(jù)的聯(lián)合分析 [J/OL].心理科學(xué),2019,42(1):170-178.
[22] Rasch G. Studies in Mathematical Psychology:I. Probabilistic Models for Some Intelligence and Attainment Tests [M]. Oxford,England:Nielsen amp; Lydiche,1960:xiii,184.
[23] Halkitis P N. Estimating Testing Time:The Effects of Item Characteristics on Response Latency [C/OL] // American Educational Research Association Annual Meeting,1996.
[24] Van Der Linden W J,Scrams D J,Schnipke D L. Using Response-Time Constraints to Control for Differential Speededness in Computerized Adaptive Testing [J/OL]. Applied Psychological Measurement,1999,23(3):195-210.
[25] Schnipke D. Assessing Speededness in Computer-Based Tests Using Item Response Times [C/OL]. 1995.
[26] Yavuz H C. The Effects of Log Data on Students’ Performance [J/OL]. Journal of Measurement and Evaluation in Education and Psychology,2019,10(4):378-390.
[27] Greiff S,Niepel C,Scherer R,et al. Understanding Students’ Performance in a Computer-Based Assessment of Complex Problem Solving:An Analysis of Behavioral Data from Computer-Generated Log Files [J/OL]. Computers in Human Behavior,2016,61:36-46.
[28] 孫鑫,黎堅(jiān),符植煜.利用游戲log-file預(yù)測(cè)學(xué)生推理能力和數(shù)學(xué)成績(jī)——機(jī)器學(xué)習(xí)的應(yīng)用[J/OL].心理學(xué)報(bào),2018,50(7):761-770.
[29] V?r?s Z,Rouet J F. Laypersons’ Digital Problem Solving:Relationships between Strategy and Performance in a Large-Scale International Survey [J/OL]. Computers in Human Behavior,2016,64:108-116.
[30] 李美娟,劉玥,劉紅云.計(jì)算機(jī)動(dòng)態(tài)測(cè)驗(yàn)中問(wèn)題解決過(guò)程策略的分析:多水平混合IRT模型的拓展與應(yīng)用[J/OL].心理學(xué)報(bào),2020,52(4):528-540.
[31] 陸璟.基于log數(shù)據(jù)的國(guó)際學(xué)生評(píng)估項(xiàng)目(PISA)問(wèn)題解決能力研究[D/OL].華東師范大學(xué),2018.
[32] Goldhammer F,Hahnel C,Kroehne U. Analysing Log File Data from PIAAC [M/OL] // MAEHLER D B,RAMMSTEDT B. Large-Scale Cognitive Assessment:Analyzing PIAAC Data. Cham:Springer International Publishing,2020:239-269.
[33] Scherer R,Greiff S,Hautam?ki J. Exploring the Relation between Time on Task and Ability in Complex Problem Solving [J/OL]. Intelligence,2015,48:37-50.
[34] Zeidner M. Anxiety in Education [M] // International Handbook of Emotions in Education. Routledge,2014.
[35] Albert D,Steinberg L. Age Differences in Strategic Planning as Indexed by the Tower of London [J/OL]. Child Development,2011,82(5):1501-1517.
[36] Van Der Linden W J. Conceptual Issues in Response-Time Modeling [J/OL]. Journal of Educational Measurement,2009,46(3):247-272.
[37] Meijer R R. Diagnosing Item Score Patterns on a Test Using Item Response Theory-Based Person-Fit Statistics [J/OL]. Psychological Methods,2003,8(1):72-87.
[38] OECD. PISA 2015 Collaborative Problem?Solving Framework [R/OL]. Paris:OECD,2017:131-188.
[39] Lee Y H,Hao J,Man K,et al. How Do Test Takers Interact with Simulation-Based Tasks? A Response-Time Perspective [J/OL]. Frontiers in Psychology,2019,10(APR):undefined-undefined.
[40] Wise S L,Kong X. Response Time Effort:A New Measure of Examinee Motivation in Computer-Based Tests [J/OL]. Applied Measurement in Education,2005,18(2):163-183.
[41] Ventura M,Shute V. The Validity of a Game-Based Assessment of Persistence [J/OL]. Computers in Human Behavior,2013,29(6):2568-2572.
[42] Paquette L,Baker R S. Comparing Machine Learning to Knowledge Engineering for Student Behavior Modeling:A Case Study in Gaming the System [J/OL]. Interactive Learning Environments,2019,27(5-6):585-597.
[43] Dodonova Y A,Dodonov Y S. Processing Speed and Intelligence as Predictors of School Achievement:Mediation or Unique Contribution? [J/OL]. Intelligence,2012,40(2):163-171.
[44] Kupiainen S,Vainikainen M P,Marjanen J,et al. The Role of Time on Task in Computer-Based Low-Stakes Assessment of Cross-Curricular Skills [J/OL]. Journal of Educational Psychology,2014,106:627-638.
[45] Eichmann B,Goldhammer F,Greiff S,et al. Using Process Data to Explain Group Differences in Complex Problem Solving [J/OL]. Journal of Educational Psychology,2020,112(8):1546-1562.
[46] Goldhammer F,Naumann J,Stelter A,et al. The Time on Task Effect in Reading and Problem Solving is Moderated by Task Difficulty and Skill:Insights from a Computer-Based Large-Scale Assessment [J/OL]. Journal of Educational Psychology,2014,106(3):608-626.
[47] Heathcote A,Popiel S J,Mewhort D J. Analysis of Response Time Distributions:An Example Using the Stroop Task [J/OL]. Psychological Bulletin,1991,109(2):340-347.
[48] Li M,Liu Y,Liu H. 計(jì)算機(jī)動(dòng)態(tài)測(cè)驗(yàn)中問(wèn)題解決過(guò)程策略的分析:多水平混合IRT模型的拓展與應(yīng)用[J/OL]. Acta Psychologica Sinica,2020,52(4):528-540.
[49] 李美娟.基于過(guò)程數(shù)據(jù)的合作問(wèn)題解決能力評(píng)分和測(cè)量模型構(gòu)建[D].北京師范大學(xué),2020.
[50] 首新,何鵬,陳明艷,等.基于教育數(shù)據(jù)挖掘的“探索和理解”問(wèn)題解決過(guò)程研究——以PISA(2012)新加坡、日本、中國(guó)上海Log數(shù)據(jù)為例[J].現(xiàn)代教育技術(shù),2018,28(12):41-47.
[51] Rosas R,Nussbaum M,Cumsille P,et al. Beyond Nintendo:Design and Assessment of Educational Video Games for First and Second Grade Students [J/OL]. Computers amp; Education,2003,40(1):71-94.
[52] Funke J. Dynamic Systems as Tools for Analysing Human Judgement [J/OL]. Thinking amp; Reasoning,2001,7(1):69-89.
[53] Tschirgi J E. Sensible Reasoning:A Hypothesis about Hypotheses [J/OL]. Child Development,1980,51(1):1-10.
[54] Grover S,Pea R. Computational Thinking:A Competency Whose Time Has Come [M/OL]. 2017.
[55] 首新,葉萌,胡衛(wèi)平,等.教育大數(shù)據(jù)背景下log數(shù)據(jù)挖掘與應(yīng)用——以PISA(2012)中國(guó)區(qū)問(wèn)題解決測(cè)驗(yàn)為例 [J/OL]. 電化教育研究,2017,38(12):58-64.
[56] Wittmann W W,Hattrup K. The Relationship between Performance in Dynamic Systems and Intelligence [J/OL]. Systems Research and Behavioral Science,2004,21(4):393-409.
[57] Croker S,Buchanan H. Scientific Reasoning in a Real-World Context:The Effect of Prior Belief and Outcome on Children’s Hypothesis-Testing Strategies [J/OL]. British Journal of Developmental Psychology,2011,29(3):409-424.
[58] Apedoe X S,Schunn C D. Strategies for Success:Uncovering What Makes Students Successful in Design and Learning [J/OL]. Instructional Science,2013,41(4):773-791.
[59] Greiff S,Wüstenberg S,Avvisati F. Computer-Generated Log-File Analyses as a Window into Students’ Minds? A Showcase Study Based on the PISA 2012 Assessment of Problem Solving [J/OL]. Computers amp; Education,2015,91:92-105.
[60] Zimmerman C. The Development of Scientific Thinking Skills in Elementary and Middle School [J/OL]. Developmental Review,2007,27(2):172-223.
[61] Kr?ner S,Plass J L,Leutner D. Intelligence Assessment with Computer Simulations [J/OL]. Intelligence,2005,33(4):347-368.
[62] Wüstenberg S,Greiff S,F(xiàn)unke J. Complex Problem Solving — More than Reasoning?[J/OL]. Intelligence,2012,40(1):1-14.
[63] Wüstenberg S,Greiff S,Molnár G,et al. Cross-National Gender Differences in Complex Problem Solving and Their Determinants [J/OL]. Learning and Individual Differences,2014,29:18-29.
[64] Yang Z. Evidence Model:Evaluate Complex Problem-Solving Competency from Process Data [D/OL] // Dissertation Abstracts International Section A:Humanities and Social Sciences:Vol. 81. ProQuest Information amp; Learning(US),2020.
[65] Csapó B,Ainley J,Bennett R E,et al. Technological Issues for Computer-Based Assessment [M/OL] // GRIFFIN P,MCGAW B,CARE E. Assessment and Teaching of 21st Century Skills. Dordrecht:Springer Netherlands,2012:143-230.
[66] Goldhammer F,Naumann J,Greiff S. More is not Always Better:The Relation between Item Response and Item Response Time in Raven’s Matrices [J/OL]. Journal of Intelligence,2015,3(1):21-40.
[67] Sireci S G,Zenisky A L. Innovative Item Formats in Computer-Based Testing:In Pursuit of Improved Construct Representation [M] // Handbook of Test Development. Mahwah,NJ,US:Lawrence Erlbaum Associates Publishers,2006:329-347.
[68] Han Y,Xiao Y,Liu H. Feature Extraction and Ability Estimation of Process Data in the Problem-Solving Test [J/OL]. Advances in Psychological Science,2022,30(6):1393-1409.
[69] Adams R,Vista A,Scoular C,et al. Automatic Coding Procedures for Collaborative Problem Solving [M/OL] // GRIFFIN P,CARE E. Assessment and Teaching of 21st Century Skills:Methods and Approach. Dordrecht:Springer Netherlands,2015:115-132.
[70] Shu Z,Bergner Y,Zhu M,et al. An Item Response Theory Analysis of Problem-Solving Processes in Scenario-Based Tasks [J/OL]. Psychological Test and Assessment Modeling,2017.
[71] He Q,von Davier M. Identifying Feature Sequences from Process Data in Problem-Solving Items with N-Grams [C/OL] // VAN DER ARK L A,BOLT D M,WANG W C,et al. Quantitative Psychology Research. Cham:Springer International Publishing,2015:173-190.
[72] Tang X,Wang Z,He Q,et al. Latent Feature Extraction for Process Data via Multidimensional Scaling [J/OL]. Psychometrika,2020,85(2):378-397.
[73] Tang X,Wang Z,Liu J,et al. An Exploratory Analysis of the Latent Structure of Process Data via Action Sequence Autoencoders [J/OL]. British Journal of Mathematical and Statistical Psychology,2021,74(1):1-33.
[74] Zhu M,Shu Z,von Davier A A. Using Networks to Visualize and Analyze Process Data for Educational Assessment [J/OL]. Journal of Educational Measurement,2016,53(2):190-211.
[75] Zhan P,Qiao X. A Diagnostic Classification Analysis of Problem-Solving Competence Using Process Data:An Item Expansion Method [M/OL]. PsyArXiv,2020.
[76] Wilson M,Gochyyev P,Scalise K. Modeling Data From Collaborative Assessments:Learning in Digital Interactive Social Networks [J/OL]. Journal of Educational Measurement,2017,54(1):85-102.
[77] Zhang S,Wang Z,Qi J,et al. Accurate Assessment via Process Data [J/OL]. Psychometrika,2023,88(1):76-97.
[78] Bellman R. A Markovian Decision Process [J]. Journal of Mathematics and Mechanics,1957,6(5):679-684.
[79] Biswas G,Jeong H,Kinnebrew J S,et al. Measuring Self-Regulated Learning Skills through Social Interactions in a Teachable Agent Environment [J/OL]. Research and Practice in Technology Enhanced Learning,2010,05(02):123-152.
[80] Chen Y. A Continuous-Time Dynamic Choice Measurement Model for Problem-Solving Process Data [J/OL]. Psychometrika,2020,85(4):1052-1075.
[81] LaMar M M. Markov Decision Process Measurement Model [J/OL]. Psychometrika,2018,83(1):67-88.
[82] Quellmalz E S,Pellegrino J W. Technology and Testing [J/OL]. Science,2009,323(5910):75-79.
[83] Mislevy J L,Rupp A A,Harring J R. Detecting Local Item Dependence in Polytomous Adaptive Data [J/OL]. Journal of Educational Measurement,2012,49(2):127-147.
Connotation and Classification of Process Indicators in Digital Assessment
Zhou Jing1 "Zhang Xiaoxia2 "Ren Xiaoqiong1 "Yao Xuezhong3 "Yang Tao1
1 Beijing Normal University,Beijing,100875
2 School of Psychology,Capital Normal University,Beijing,100048
3 Linxi County No. 1 High School,Chifeng,Inner Mongolia,025250
Abstract:Process data in digital assessment bring indispensable implicit value to education and psychological evaluation. Currently,the definition and research of process indicators remain exploratory,lacking normative guidance in terms of connotation and classification,thus impeding the promotion and development of digital assessment research. This paper systematically reviewed the research on process data in digital assessment at home and abroad,thoroughly analyzed the connotation and research progress of process indicators,categorizing them into three major types:time,general actions,and complex strategies. Additionally,it summarized and refined methods for extracting process indicators and evaluating models. Finally,it provided prospects for future research and applications of process indicators in the field of digital assessment in education and psychology.
Key words:Process Data,Log File,Digital Assessment,Process Indicators
(責(zé)任編輯:陳暢)