• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      利用游戲log-file預(yù)測(cè)學(xué)生推理能力和數(shù)學(xué)成績(jī)
      ——機(jī)器學(xué)習(xí)的應(yīng)用*

      2018-07-07 07:24:12符植煜
      心理學(xué)報(bào) 2018年7期
      關(guān)鍵詞:受測(cè)者步數(shù)測(cè)驗(yàn)

      孫 鑫 黎 堅(jiān),2 符植煜

      (1北京師范大學(xué)心理學(xué)部; 2應(yīng)用實(shí)驗(yàn)心理北京市重點(diǎn)實(shí)驗(yàn)室, 北京 100875)

      1 引言

      心理測(cè)驗(yàn)(Psychological Testing)發(fā)展百余年來(lái),已經(jīng)被廣泛應(yīng)用于教育(Di Giunta et al., 2013)、企業(yè)管理(Schmidt, 2002)、臨床醫(yī)療(Judd, Schettler, &Rush, 2016)等各個(gè)領(lǐng)域, 并發(fā)揮重要作用。但傳統(tǒng)心理測(cè)驗(yàn)具有的一些不足之處使其在應(yīng)用上面臨挑戰(zhàn)。首先, 傳統(tǒng)心理測(cè)驗(yàn)由于采取明顯的測(cè)驗(yàn)形式, 容易令個(gè)體產(chǎn)生測(cè)驗(yàn)焦慮, 而焦慮會(huì)顯著降低受測(cè)者的外在表現(xiàn), 使個(gè)體真實(shí)的能力水平被低估(Cassady & Johnson, 2002)。已有研究表明, 對(duì)測(cè)驗(yàn)成績(jī)的焦慮會(huì)影響個(gè)體的注意(Keogh & French,2001)、降低工作記憶表現(xiàn)(Ikeda, Iwanaga, & Seiwa,1996)、降低智力測(cè)驗(yàn)表現(xiàn)并使得問(wèn)題解決更加艱難(Cassady & Johnson, 2002)。更為嚴(yán)重的是, 這種由焦慮引起的不良測(cè)驗(yàn)成績(jī)會(huì)反過(guò)來(lái)作用于個(gè)體自尊, 并直接導(dǎo)致恐懼、防御性與逃避性行為(Hembree, 1988), 對(duì)個(gè)體的長(zhǎng)期發(fā)展十分不利。其次, 某些經(jīng)典的心理測(cè)驗(yàn)已經(jīng)被使用了很多年, 可能會(huì)導(dǎo)致測(cè)驗(yàn)的曝光效應(yīng), 從而無(wú)法評(píng)估個(gè)體的真實(shí)水平(Bors & Vigneau, 2003)。研究表明, 測(cè)驗(yàn)的頻繁使用容易被人們破解所謂的“解題秘訣”, 個(gè)體可能事先獲得題目和答案信息而使分?jǐn)?shù)提高(Neisser,1997), 或通過(guò)不斷的備考和練習(xí)來(lái)提高測(cè)評(píng)結(jié)果(Bors & Vigneau, 2003), 但這并不能反映出受測(cè)者的真實(shí)水平, 反而會(huì)干擾真實(shí)的測(cè)量結(jié)果, 對(duì)測(cè)評(píng)的信效度造成污染(Neisser, 1997; Hausknecht, Halpert,Di Paolo, & Moriarty Gerrard, 2007)。

      鑒于傳統(tǒng)心理測(cè)驗(yàn)存在的問(wèn)題, 研究者開(kāi)始考慮采用其他形式和工具對(duì)個(gè)體能力和人格特質(zhì)進(jìn)行評(píng)估。近年來(lái), 隨著計(jì)算機(jī)網(wǎng)絡(luò)的發(fā)展和電子游戲的普及, 基于游戲的評(píng)估方式漸漸流行起來(lái)。

      基于游戲的評(píng)估(game-based assessment, GBA)是指:通過(guò)游戲(game)或者游戲化的活動(dòng)(game-like activities), 來(lái)對(duì)某一對(duì)象進(jìn)行評(píng)估(Heinzen, Landrum,Gurung, & Dunn, 2015)。從心理學(xué)的角度來(lái)說(shuō), 即采用游戲的方式, 對(duì)一個(gè)人的能力、人格等心理特性和行為進(jìn)行量化評(píng)估。這里所說(shuō)的游戲是指所有一般意義上的游戲, 既包括生活中諸如下棋、捉迷藏等真實(shí)游戲, 也包括模擬經(jīng)營(yíng)、倫敦塔、連連看等各類平臺(tái)上的電子游戲(video game)?;谟螒虻脑u(píng)估方法與傳統(tǒng)的心理測(cè)驗(yàn)相比具有諸多優(yōu)點(diǎn)。首先, 將心理評(píng)估游戲化意味著我們可以跳出傳統(tǒng)紙筆測(cè)驗(yàn)及其變式, 創(chuàng)造出豐富而多樣化的測(cè)驗(yàn)形式和內(nèi)容, 例如:視覺(jué)運(yùn)動(dòng)技能(visuomotor skill)的測(cè)量已經(jīng)可以通過(guò)手指與觸屏的游戲式互動(dòng)來(lái)實(shí)現(xiàn)(Tenorio Delgado, Arango Uribe, Aparicio Alonso,& Rosas Díaz, 2016)。其次, 游戲的可玩性、隱蔽性和仿真性等特點(diǎn)使得基于游戲的評(píng)估更易被人們接受, 其測(cè)驗(yàn)情境更接近于真實(shí)生活, 具有挑戰(zhàn)性和交互式的特點(diǎn), 能夠極大程度地提高受測(cè)者的動(dòng)機(jī)和投入程度, 并且還能通過(guò)降低社會(huì)稱許性的影響(Heinzen et al., 2015), 在一定程度上避免傳統(tǒng)心理測(cè)驗(yàn)中的測(cè)驗(yàn)焦慮和測(cè)驗(yàn)曝光問(wèn)題。此外, 全新的測(cè)驗(yàn)形式意味著可以用不同以往的方式來(lái)收集數(shù)據(jù)。例如以電子游戲作為心理測(cè)評(píng)的載體, 可以通過(guò)計(jì)算機(jī)后臺(tái)記錄玩家的游戲任務(wù)操作過(guò)程(DiCerbo & Behrens, 2012)。對(duì)這些過(guò)程信息加以正確利用, 能夠讓研究者對(duì)個(gè)體的能力和特質(zhì)有一個(gè)更為全面的了解, 也更有利于測(cè)驗(yàn)效度的提升, 使得心理學(xué)研究的重點(diǎn)從“結(jié)果是什么”轉(zhuǎn)變?yōu)榉治觥霸鯓赢a(chǎn)生結(jié)果” (Greiff, Wüstenberg, & Avvisati,2015)。目前, 基于游戲的評(píng)估得到了研究者的重視,如Sonnleitner和K?stering等人分別利用基因?qū)嶒?yàn)室和倫敦塔游戲任務(wù)對(duì)個(gè)體的復(fù)雜問(wèn)題解決和計(jì)劃性等認(rèn)知能力進(jìn)行了評(píng)估(Sonnleitner et al., 2012;K?stering et al., 2015); Ventura和Baumert等人分別利用沙盒游戲和獨(dú)裁者博弈游戲任務(wù)來(lái)評(píng)估個(gè)體的堅(jiān)持性、公平性和利他性等人格特質(zhì)(Ventura &Shute, 2013; Baumert, Schl?sser, & Schmitt, 2014)。

      然而, 目前基于游戲的評(píng)估在應(yīng)用中也存在一些問(wèn)題, 還沒(méi)有在數(shù)據(jù)分析和計(jì)分邏輯中充分利用游戲的過(guò)程信息, 僅使用少數(shù)指標(biāo)對(duì)某變量進(jìn)行評(píng)估。例如Li, Zhang, Du, Zhu和Li (2015)通過(guò)推箱子游戲測(cè)量被試的元認(rèn)知計(jì)劃, 但僅記錄并使用了第一步時(shí)間與總時(shí)間的比值, 以此作為評(píng)估指標(biāo);Berg和 Byrd (2002)在使用倫敦塔游戲測(cè)量計(jì)劃性時(shí), 僅使用第一步移動(dòng)前的時(shí)間作為評(píng)估指標(biāo)。在上述研究中, 大量過(guò)程性信息被浪費(fèi), 而這些信息很可能隱藏著可以衡量個(gè)體特質(zhì)或能力的指標(biāo), 如每一步思考的時(shí)間、動(dòng)作的回溯等(Greiff et al.,2015), 因而無(wú)法對(duì)個(gè)體特質(zhì)或能力進(jìn)行全面完備的評(píng)估。

      鑒于基于游戲的評(píng)估在應(yīng)用中所存在的問(wèn)題,心理測(cè)評(píng)領(lǐng)域亟需一種有效的數(shù)據(jù)分析方法來(lái)處理這些問(wèn)題, 以實(shí)現(xiàn)對(duì)個(gè)體能力和特質(zhì)更為準(zhǔn)確的評(píng)估。隨著人工智能研究的興起和發(fā)展, 機(jī)器學(xué)習(xí)已經(jīng)成為一門集挑戰(zhàn)性、實(shí)用性、價(jià)值性于一體的熱門學(xué)科, 尤其是谷歌AlphaGo在人機(jī)大戰(zhàn)中獲勝的奇跡使得機(jī)器學(xué)習(xí)成為備受矚目和極富發(fā)展前景的領(lǐng)域。目前, 已經(jīng)有研究者將機(jī)器學(xué)習(xí)引入心理學(xué)領(lǐng)域, 并應(yīng)用于人格預(yù)測(cè)(Wu, Kosinski, &Stillwell, 2015)。此外, Zhang, Song, Cui, Liu和Zhu(2016)根據(jù)人類步態(tài)可作為情緒識(shí)別的依據(jù)這一原理, 設(shè)計(jì)了內(nèi)置加速度傳感器的智能手環(huán), 用于測(cè)量被試的情緒狀態(tài)。研究首先對(duì)123名被試進(jìn)行了情緒操縱和原始數(shù)據(jù)收集, 之后進(jìn)行數(shù)據(jù)預(yù)處理和特征提取, 然后通過(guò)機(jī)器學(xué)習(xí)的方法對(duì)數(shù)據(jù)進(jìn)行處理和建模, 結(jié)果發(fā)現(xiàn)機(jī)器學(xué)習(xí)的不同算法均能夠較為準(zhǔn)確地識(shí)別情緒(快樂(lè)、中性、憤怒), 尤其是LibSVM算法在區(qū)分中性和憤怒情緒上的準(zhǔn)確率高達(dá) 91.3%; 在進(jìn)行三種情緒狀態(tài)的區(qū)分上, 也達(dá)到了81.2%的準(zhǔn)確率。

      需要指出的是, 機(jī)器學(xué)習(xí)算法通常需要使用到大體量的數(shù)據(jù), 計(jì)算機(jī)過(guò)程數(shù)據(jù)追蹤技術(shù)——log-file為此提供了實(shí)現(xiàn)可能。所謂log-file是指包含受測(cè)者所有活動(dòng)足跡的日志文件, 其優(yōu)點(diǎn)是能夠全面、實(shí)時(shí)地記錄全部數(shù)據(jù), 信息量豐富, 有利于后期的數(shù)據(jù)挖掘和分析(Moharil et al., 2014)。這一技術(shù)不僅實(shí)現(xiàn)了對(duì)研究變量的在線測(cè)量, 而且避免了傳統(tǒng)方法中數(shù)據(jù)收集工作耗時(shí)費(fèi)力的缺陷, 可在大規(guī)模施測(cè)的同時(shí)無(wú)干擾地記錄被試的真實(shí)行為。近年來(lái), 采用基于計(jì)算機(jī)網(wǎng)絡(luò)平臺(tái)的游戲 log-file方式對(duì)變量進(jìn)行研究已經(jīng)成為心理學(xué)領(lǐng)域的新趨勢(shì), 如 Sonnleitner等人(2012)開(kāi)發(fā)的游戲任務(wù), 會(huì)在計(jì)算機(jī)后臺(tái)生成 log-file文件, 但遺憾的是他們并沒(méi)有充分利用 log-file信息, 只是選取了少數(shù)幾個(gè)指標(biāo)用于評(píng)估受測(cè)者的復(fù)雜問(wèn)題解決能力。這其中的主要原因在于數(shù)據(jù)挖掘本身的困難。log-file數(shù)據(jù)通常變量眾多、數(shù)量巨大, 從這些數(shù)據(jù)中找出有意義的信息和關(guān)系是比較困難的(Csapó, Ainley,Bennett, Latour, & Law, 2012)。也正因?yàn)槿绱? 機(jī)器學(xué)習(xí)技術(shù)可以在這類研究中體現(xiàn)出獨(dú)特的優(yōu)勢(shì), 能夠通過(guò)充分利用 log-file的信息, 建立較為復(fù)雜的模型, 實(shí)現(xiàn)更為準(zhǔn)確的預(yù)測(cè)。

      基于上述分析, 本研究擬采用游戲任務(wù), 并結(jié)合 log-file技術(shù)和機(jī)器學(xué)習(xí)技術(shù), 嘗試對(duì)個(gè)體的能力傾向(aptitude)和學(xué)業(yè)成就(achievement)兩類能力進(jìn)行預(yù)測(cè), 在操作層面將以抽象推理能力和數(shù)學(xué)學(xué)習(xí)成績(jī)作為研究變量。之所以選擇這兩類能力, 是因?yàn)槟芰A向和學(xué)業(yè)成績(jī)均是學(xué)生求學(xué)生涯中的重要變量, 前者能夠反映出個(gè)體在廣泛的信息加工任務(wù)中的潛能, 后者則是學(xué)習(xí)結(jié)果的主要表現(xiàn), 對(duì)學(xué)生自我概念的建構(gòu)、思維能力的發(fā)展以及社會(huì)適應(yīng)的培養(yǎng)等方面都具有顯著的影響(Duncan et al.,2007)。研究擬選取“推箱子”作為游戲任務(wù)。在該游戲中, 受測(cè)者需要調(diào)用其認(rèn)知和元認(rèn)知加工, 持續(xù)對(duì)箱子的位置和小人的移動(dòng)路線進(jìn)行思考, 涉及到大量的抽象推理、空間想象與操作, 以及數(shù)字運(yùn)算工作, 因此, 受測(cè)者在游戲過(guò)程中的表現(xiàn)很有可能能夠反映其推理能力和數(shù)學(xué)學(xué)業(yè)成就的水平。由于從游戲 log-file中收集到的原始數(shù)據(jù)并不規(guī)范, 不能直接作為特征加入模型中, 因此需要研究者進(jìn)行特征提取, 從而生成有可能反映受測(cè)者能力的特征。以往關(guān)于推箱子的研究涉及到認(rèn)知能力、元認(rèn)知能力、認(rèn)知效率三種指標(biāo)(張博, 黎堅(jiān), 徐楚, 李一茗, 2014)。本研究在選取特征時(shí)雖然也將從這三個(gè)方面進(jìn)行考慮, 但會(huì)選取更多特征, 通過(guò)增加特征數(shù)量使模型的預(yù)測(cè)率更高。例如在認(rèn)知能力方面,擬選取完成箱子比例、關(guān)卡是否成功等特征; 在元認(rèn)知能力方面, 擬選取第一步計(jì)劃時(shí)間與總時(shí)間的比值、第一步計(jì)劃時(shí)間與平均執(zhí)行時(shí)間的比值, 以及二者的對(duì)數(shù)等特征; 在認(rèn)知效率方面, 擬選取思考步數(shù)、與最優(yōu)步數(shù)之差等特征。此外, 考慮到受測(cè)者在“成功”的關(guān)卡與“失敗”的關(guān)卡中可能存在不同的表現(xiàn), 因此在特征選取時(shí)對(duì)兩種通關(guān)情況也進(jìn)行了區(qū)分。

      2 方法

      研究包含4個(gè)步驟:數(shù)據(jù)采集、特征提取、數(shù)據(jù)預(yù)處理和模型訓(xùn)練。

      2.1 數(shù)據(jù)采集

      2.1.1 被試

      首都師范大學(xué)第一附屬中學(xué)的395名初一和初二學(xué)生參加了研究, 有效被試為 360名, 其中女生172名, 男生188名。初一學(xué)生平均年齡為13.2歲,最小為11.9歲, 最大為15.1歲; 初二學(xué)生平均年齡為14.6歲, 最小為14.1歲, 最大為16.3歲。

      2.1.2 推箱子游戲

      推箱子(Sokoban)是一款經(jīng)典益智游戲, 由一個(gè)小人和至少1個(gè)箱子組成, 玩家需要操縱小人上下左右移動(dòng), 將箱子推入目標(biāo)位置。經(jīng)過(guò)研究者對(duì)程序的改編, 計(jì)算機(jī)后臺(tái)可以自動(dòng)生成 log-file文件, 記錄受測(cè)者每一步的潛伏期與按鍵動(dòng)作, 例如時(shí)間節(jié)點(diǎn)、小人移動(dòng)的方向、推動(dòng)的箱子、完成步數(shù)等。游戲一共23題, 所有題目都不允許悔棋。前3題為練習(xí)題, 用于幫助受測(cè)者熟悉鍵盤操作及游戲規(guī)則。在練習(xí)題階段, 答錯(cuò)可重來(lái), 直到全部通過(guò)方可進(jìn)入正式游戲。第 4~23題為正式題目, 每題限時(shí) 2 min。與練習(xí)階段不同, 正式題目只有一次機(jī)會(huì), 若一次未通過(guò), 則只能放棄該題。正式題目中的箱子個(gè)數(shù)在 1~3之間, 每題均有唯一最優(yōu)解。游戲界面如圖1所示。

      圖1 推箱子游戲界面截圖

      2.1.3 測(cè)量工具

      瑞文標(biāo)準(zhǔn)推理測(cè)驗(yàn)(Standard Progressive Matrices,SPM; Raven, 1989):用于測(cè)量一般智力中的抽象推理能力, 共計(jì)60個(gè)條目, 每答對(duì)一題計(jì)一分, 滿分60分, 總分即為推理能力得分。在本研究的受測(cè)者中, 平均分為46.2, 標(biāo)準(zhǔn)差為8.5。

      數(shù)學(xué)成績(jī):研究者獲得了學(xué)生的三次數(shù)學(xué)測(cè)驗(yàn)的成績(jī)(期中、月考、期末), 每次數(shù)學(xué)測(cè)驗(yàn)均為年級(jí)內(nèi)統(tǒng)一施測(cè), 因此在年級(jí)內(nèi)具有可比性。將三次數(shù)學(xué)成績(jī)?nèi)∑骄狄垣@得對(duì)學(xué)生數(shù)學(xué)能力較為準(zhǔn)確的估計(jì)。本研究中, 數(shù)學(xué)成績(jī)的平均分為64.9分,標(biāo)準(zhǔn)差為19.9。

      本研究屬于機(jī)器學(xué)習(xí)中的監(jiān)督學(xué)習(xí)(supervised learning)類別, 而監(jiān)督學(xué)習(xí)分為兩種, 一是利用分類算法預(yù)測(cè)標(biāo)稱型數(shù)據(jù), 二是利用回歸算法預(yù)測(cè)連續(xù)型數(shù)據(jù)。對(duì)于本研究而言, 推理能力和數(shù)學(xué)成績(jī)是連續(xù)型數(shù)據(jù), 理論上應(yīng)使用回歸算法進(jìn)行預(yù)測(cè),但是回歸算法對(duì)特征數(shù)量和樣本量的要求較高, 其創(chuàng)建的模型需要擬合所有的樣本點(diǎn), 當(dāng)數(shù)據(jù)擁有眾多特征且特征之間的關(guān)系十分復(fù)雜時(shí), 構(gòu)建全局模型難以實(shí)現(xiàn)(Harrington, 2013)。囿于現(xiàn)實(shí)因素, 研究無(wú)法獲取更多受測(cè)者, 且眾多特征間的關(guān)系較為復(fù)雜, 堅(jiān)持使用回歸算法將無(wú)法達(dá)到良好的預(yù)測(cè)效果。因此, 作為一項(xiàng)嘗試性研究, 本研究在數(shù)據(jù)分析中將兩個(gè)結(jié)果變量轉(zhuǎn)化為標(biāo)稱型數(shù)據(jù), 具體做法是:將瑞文推理測(cè)驗(yàn)得分在前 25%的學(xué)生記為 1,后 25%得分的學(xué)生記為 0, 構(gòu)造瑞文得分的二分變量作為最終結(jié)果變量(即機(jī)器學(xué)習(xí)算法的標(biāo)簽), 其他學(xué)生的數(shù)據(jù)不予使用, 最終有效的受測(cè)者是 180名; 將數(shù)學(xué)成績(jī)按照年級(jí)分層, 將每個(gè)年級(jí)數(shù)學(xué)成績(jī)排名前25%的學(xué)生標(biāo)記為1, 后25%的學(xué)生標(biāo)記為0, 構(gòu)造數(shù)學(xué)成績(jī)的二分變量作為最終結(jié)果變量,其余學(xué)生的數(shù)據(jù)不予使用, 最終有效受測(cè)者也為180名。

      2.1.4 測(cè)試流程

      所有學(xué)生均以班級(jí)為單位在計(jì)算機(jī)教室參加測(cè)試。受測(cè)者首先在計(jì)算機(jī)上完成推箱子游戲任務(wù),然后填寫紙質(zhì)版的瑞文推理測(cè)驗(yàn)。施測(cè)過(guò)程都由任課教師、班主任和主試一同監(jiān)督, 保證安靜、獨(dú)立作答。

      2.2 特征提取

      程序記錄的受測(cè)者順利通過(guò)某一關(guān)的典型數(shù)據(jù)形式如圖2所示。通常, 在第一步之前會(huì)有較長(zhǎng)時(shí)間的思考, 在思考完成后則有較快的按鍵反應(yīng),在操作過(guò)程中, 偶爾會(huì)出現(xiàn)潛伏期。除了過(guò)程數(shù)據(jù)外, 程序同樣記錄了受測(cè)者在本關(guān)是否通過(guò)、有幾個(gè)箱子被移到了指定位置、受測(cè)者是否主動(dòng)放棄本關(guān)、任務(wù)超時(shí)等信息。下面將對(duì)特征提取的具體方法進(jìn)行說(shuō)明。

      2.2.1 第一步所用時(shí)間

      由圖2可知, 受測(cè)者通常會(huì)分配較長(zhǎng)時(shí)間在第一步之前的思考中。參照文獻(xiàn), 我們計(jì)算出受測(cè)者在每一關(guān)中第一步所用時(shí)間占總時(shí)間的比重。此外,用第一步時(shí)間除以平均執(zhí)行時(shí)間(定義方法見(jiàn) 2.2.3)以及對(duì)上述變量取其對(duì)數(shù)形式, 構(gòu)造出多個(gè)特征以進(jìn)行較為全面的衡量。

      2.2.2 執(zhí)行間思考

      受測(cè)者在執(zhí)行過(guò)程中可能會(huì)停下來(lái)思考, 反映在數(shù)據(jù)中即是:在執(zhí)行過(guò)程中某一步用時(shí)較其他時(shí)間異常變高。為了反映這種波動(dòng)性, 計(jì)算受測(cè)者除了第一步之后各步用時(shí)的標(biāo)準(zhǔn)差, 即執(zhí)行間波動(dòng),同時(shí), 記錄時(shí)間超過(guò)平均值一個(gè)標(biāo)準(zhǔn)差以上的步數(shù)占總步數(shù)的比例作為受測(cè)者在執(zhí)行過(guò)程中的思考次數(shù)的指標(biāo)。

      2.2.3 平均執(zhí)行時(shí)間

      剔除掉包含思考的行動(dòng)后(包括第一步), 將余下的行動(dòng)時(shí)間求平均。這部分時(shí)間反映了受測(cè)者在無(wú)需思考的情況下執(zhí)行操作的時(shí)間。

      2.2.4 冗余步數(shù)

      根據(jù)受測(cè)者的行動(dòng)路線可以求出受測(cè)者每一步行動(dòng)后的整體狀態(tài)。計(jì)算出其路徑中重復(fù)的狀態(tài)(即在兩個(gè)狀態(tài)中, 小人和所有箱子的位置完全相同)占最優(yōu)路徑中總狀態(tài)數(shù)的比例。其中, 對(duì)于一個(gè)狀態(tài)重復(fù)多次的情況只記為 1, 以避免玩家在兩個(gè)狀態(tài)間“來(lái)回踱步”產(chǎn)生誤差。

      2.2.5 與最優(yōu)路徑重合比例

      通過(guò)廣度優(yōu)先搜索算法, 可以求出每一關(guān)的最優(yōu)路徑, 并計(jì)算受測(cè)者的路徑與最優(yōu)路徑重合的比例。具體而言, 計(jì)算受測(cè)者路徑的狀態(tài)集合與最優(yōu)路徑狀態(tài)集合的交集, 計(jì)算交集占最優(yōu)路徑狀態(tài)集的比例, 同樣排除掉“來(lái)回踱步”的情況。

      2.2.6 與最優(yōu)路徑相差步數(shù)

      受測(cè)者步數(shù)與最優(yōu)步數(shù)的差異, 也作為一個(gè)指標(biāo)加入模型中。

      圖2 一個(gè)典型的行動(dòng)過(guò)程

      2.2.7 完成箱子的比例

      所有關(guān)卡中, 程序都會(huì)報(bào)告受測(cè)者完成的箱子數(shù)量占總箱子數(shù)量的比例, 把它作為一個(gè)特征加入到模型中。

      2.2.8 每題是否成功、放棄

      每道題有三種狀態(tài), 成功通過(guò)、放棄、超時(shí), 用兩個(gè)二分變量來(lái)刻畫這三種情況, 并作為特征加入模型中, 即對(duì)于“是否成功”這一特征來(lái)說(shuō), 成功記為 1, 放棄記為 0, 超時(shí)記為 0; 對(duì)于“是否放棄”這一特征來(lái)說(shuō), 成功記為0, 放棄記為1, 超時(shí)記為0。

      2.3 數(shù)據(jù)預(yù)處理

      原始數(shù)據(jù)以每一關(guān)為一個(gè)觀測(cè)值, 但在訓(xùn)練模型時(shí)需要以受測(cè)者為單位的觀測(cè)值。直接將長(zhǎng)型數(shù)據(jù)轉(zhuǎn)換為寬型數(shù)據(jù), 即對(duì)于每個(gè)受測(cè)者每一關(guān)都提取出上述特征, 總共特征數(shù)是單關(guān)特征數(shù)的 20倍,這會(huì)存在以下問(wèn)題:一, 由于樣本規(guī)模不大, 特征過(guò)多不利于模型訓(xùn)練, 容易過(guò)擬合; 二, 同一個(gè)指標(biāo)在成功和失敗兩種狀態(tài)下可能有不同的意義, 以“與最優(yōu)路徑相差步數(shù)”這一特征為例, 失敗的狀態(tài)下, 受測(cè)者的步數(shù)通常會(huì)低于最優(yōu)路徑步數(shù), 數(shù)字越大表明受測(cè)者越堅(jiān)持, 而在成功的狀態(tài)下, 數(shù)字越大則反應(yīng)受測(cè)者的步數(shù)偏離最優(yōu)路徑越遠(yuǎn)。為了克服以上問(wèn)題, 將上述特征均以成功與否劃分為兩組, 即對(duì)于以上每個(gè)特征, 都構(gòu)造出兩類:一類用于描述該特征在成功的關(guān)卡中對(duì)推理能力和數(shù)學(xué)成績(jī)的預(yù)測(cè)能力, 另一類描述在失敗的關(guān)卡中對(duì)二者的預(yù)測(cè)能力。對(duì)于是否成功、是否放棄兩個(gè)二分變量, 直接在各組間求平均容易忽略掉每道題的難度信息, 故使用因子分析從其中提取出兩個(gè)因子作為特征用以訓(xùn)練模型。因此, 模型中共放入23個(gè)特征用于訓(xùn)練, 特征的描述統(tǒng)計(jì)結(jié)果見(jiàn)表1。

      研究者計(jì)算了上述特征與瑞文測(cè)驗(yàn)成績(jī)和數(shù)學(xué)成績(jī)的相關(guān), 結(jié)果發(fā)現(xiàn)成功組和失敗組的第一步用時(shí)/總時(shí)間、ln (第一步用時(shí)/總時(shí)間)、第一步用時(shí)/平均執(zhí)行時(shí)間、ln (第一步用時(shí)/平均執(zhí)行時(shí)間)等特征均與瑞文測(cè)驗(yàn)成績(jī)和數(shù)學(xué)成績(jī)有顯著相關(guān), 相關(guān)系數(shù)在 0.19~0.46之間。此外, 數(shù)學(xué)成績(jī)還與失敗組思考步數(shù)占比、失敗組完成箱子的比例顯著相關(guān),相關(guān)系數(shù)分別是0.16和0.17。這些結(jié)果初步表明了本研究特征選取的有效性。

      2.4 模型訓(xùn)練

      推理能力與數(shù)學(xué)成績(jī)的模型訓(xùn)練策略一致, 使用基于Python 3的scikit-learning包(Pedregosa et al.,2011)提供的隨機(jī)森林模型進(jìn)行訓(xùn)練, 該算法是分類學(xué)習(xí)的常用算法。隨機(jī)森林(Random Forests, RF)是決策樹(shù)的集合, 利用多棵樹(shù)對(duì)樣本進(jìn)行訓(xùn)練和評(píng)估。該算法會(huì)重復(fù)選擇隨機(jī)樣本, 在訓(xùn)練集中生成多個(gè)樣本集, 每個(gè)樣本集都會(huì)形成一棵樹(shù), 最后根據(jù)生成的這些樹(shù)在測(cè)試集中進(jìn)行評(píng)估, 投票最多的作為最終類標(biāo)簽(Breiman, 2001)。

      表1 特征的描述統(tǒng)計(jì)結(jié)果

      研究中, 首先隨機(jī)劃出30%的樣本作為評(píng)估集,70%的樣本用于交叉驗(yàn)證以及超參數(shù)搜索。在70%的樣本中, 使用4折交叉驗(yàn)證策略將樣本再次隨機(jī)分成 4組, 依次選擇其中一組作為驗(yàn)證集, 其他三組作為訓(xùn)練集。在訓(xùn)練集上訓(xùn)練特定參數(shù)的模型,將獲得的模型在驗(yàn)證集中測(cè)試, 計(jì)算模型得分。4個(gè)輪次后, 每組樣本均有3次作為訓(xùn)練集, 1次作為驗(yàn)證集, 將 4組中獲得的得分求平均, 為對(duì)應(yīng)超參數(shù)的模型在交叉驗(yàn)證組中的得分。

      隨機(jī)森林模型具有多個(gè)參數(shù)可供調(diào)整, 不同的參數(shù)設(shè)置會(huì)影響模型的擬合效果。本研究關(guān)注的主要參數(shù)為:最大特征數(shù)、最大深度、最小分裂樣本量、擬合器數(shù)量。最大特征數(shù)表示在尋找一個(gè)最優(yōu)的分裂過(guò)程中需要考慮的特征數(shù); 最大深度表示一個(gè)決策樹(shù)最大的深度, 達(dá)到該深度后即停止分裂;當(dāng)一個(gè)節(jié)點(diǎn)上的樣本量低于最小分裂樣本量時(shí)該節(jié)點(diǎn)即停止分裂; 擬合器數(shù)量是指在隨機(jī)森林中的樹(shù)的數(shù)量。采用網(wǎng)格搜索的策略尋找出最優(yōu)的參數(shù),對(duì)每一種超參數(shù)組合都進(jìn)行一次交叉驗(yàn)證, 選擇出交叉驗(yàn)證中平均得分最高的超參數(shù)組合。搜索的范圍為:最大特征數(shù)由5至16, 最小分裂樣本量由2至10, 最大深度由2至8, 擬合器數(shù)量包括5、10、50、160四種, 因此總共需要進(jìn)行3024次交叉驗(yàn)證。經(jīng)過(guò) 3024次交叉驗(yàn)證后, 在驗(yàn)證集上得分最高的超參數(shù)組合即為最優(yōu)參數(shù)組合。但是通過(guò)交叉驗(yàn)證獲得的得分并不能準(zhǔn)確評(píng)估該模型的有效性, 這是因?yàn)槌瑓?shù)搜索本身也相當(dāng)于擬合的過(guò)程, 容易出現(xiàn)過(guò)擬合。因此對(duì)于該模型的評(píng)估需要在評(píng)估集上測(cè)試。首先, 使用獲得的最優(yōu)參數(shù), 用交叉驗(yàn)證中涉及的所有 70%的樣本對(duì)隨機(jī)森林模型進(jìn)行擬合,再用擬合后的模型以及評(píng)估集中的特征對(duì)推理能力分類和數(shù)學(xué)成績(jī)分類進(jìn)行預(yù)測(cè), 用預(yù)測(cè)得到的分類與真實(shí)分類作比較, 計(jì)算得分。由此得到的得分是對(duì)模型預(yù)測(cè)能力比較準(zhǔn)確的評(píng)估。

      分類模型建立后, 可以用多種評(píng)估方式考察模型的預(yù)測(cè)效果, 主要可以分為4類:真實(shí)陽(yáng)性(True Positive), 即預(yù)測(cè)為陽(yáng)性且實(shí)際上也為陽(yáng)性; 虛假陽(yáng)性(Fake Positive), 即預(yù)測(cè)為陽(yáng)性但實(shí)際上為陰性; 真實(shí)陰性(True Negative), 即預(yù)測(cè)為陰性實(shí)際上也為陰性; 虛假陰性(Fake Negative), 即預(yù)測(cè)為陰性但實(shí)際上是陽(yáng)性。每種類別的表示方式如表2所示。

      表2 分類表現(xiàn)評(píng)估表

      根據(jù)上述分類可以得到最常用的指標(biāo):

      (1) 精確率(Accuracy):精確率是最為簡(jiǎn)單、直接的一個(gè)指標(biāo), 為正確預(yù)測(cè)的觀測(cè)值數(shù)量除以總觀測(cè)值數(shù)量, 即(TP+TN)/(TP+TN+FP+FN);

      (2) 查準(zhǔn)率(Precision, P):查準(zhǔn)率描述在預(yù)測(cè)為陽(yáng)性的樣本中, 真實(shí)陽(yáng)性的比例, 即TP/(FP+TP);

      (3) 查全率(Recall, R): 查全率描述在所有實(shí)際陽(yáng)性樣本中, 預(yù)測(cè)為陽(yáng)性的比例, 即TP/(TP+FN);

      (4) F1:查準(zhǔn)率與查全率兩者顯然是存在一些矛盾:追求查準(zhǔn)率則會(huì)犧牲一些查全率, 反之亦然。F1則是查準(zhǔn)率與查全率兩者之間較為平衡的一個(gè)指標(biāo), 公式為F1 = 2RP/(R+P)。

      在超參數(shù)搜索中, 分別以4種計(jì)分方式為目標(biāo),即對(duì)應(yīng)每個(gè)計(jì)分方式均找到一個(gè)能使其最大化的超參數(shù)組合, 以滿足不同的預(yù)測(cè)需要。

      3 結(jié)果

      通過(guò)對(duì)模型的調(diào)整可以發(fā)現(xiàn)一個(gè)模型中所有特征的平均重要性, 特征重要性定義為:標(biāo)準(zhǔn)化后的特征減少的基尼不純度(Tan, Steinbach, & Kumar,2006)。圖 3顯示的是數(shù)學(xué)成績(jī)預(yù)測(cè)模型中排列前十的特征(推理能力預(yù)測(cè)模型與此類似), 可見(jiàn), 第一步時(shí)間與平均執(zhí)行時(shí)間的比值取對(duì)數(shù)(成功組)在數(shù)學(xué)成績(jī)預(yù)測(cè)模型中的平均重要性最高; 第二重要的特征是從成功與否指標(biāo)中通過(guò)因子分析提取出來(lái)的第一個(gè)因素; 與最優(yōu)解相差的步數(shù)、思考時(shí)間占比、執(zhí)行間波動(dòng)、重復(fù)步數(shù)占比等因素均對(duì)模型有一定貢獻(xiàn), 證實(shí)了研究所提取的特征的有效性。

      通過(guò)對(duì)上文所述的特征進(jìn)行訓(xùn)練, 所得模型在評(píng)估集上的表現(xiàn)如表3所示。第一列表示在超參數(shù)搜索時(shí)評(píng)估模型使用的標(biāo)準(zhǔn), 即最優(yōu)化目標(biāo), 其他四列表示相應(yīng)的模型在評(píng)估集上相應(yīng)指標(biāo)的得分。結(jié)果表明, 在超參數(shù)搜索階段采用不同的最優(yōu)化目標(biāo)對(duì)結(jié)果的影響不大。用該模型預(yù)測(cè)數(shù)學(xué)成績(jī), 能夠達(dá)到80%左右的查準(zhǔn)率, 而F1、查全率、精確率都在70%左右; 對(duì)于推理能力的預(yù)測(cè)結(jié)果稍弱于對(duì)數(shù)學(xué)成績(jī)的預(yù)測(cè), 平均能達(dá)到65%左右的F1, 75%左右的查準(zhǔn)率, 60%左右的查全率, 以及 65%左右的精確率。該結(jié)果表明機(jī)器學(xué)習(xí)建立的區(qū)分模型結(jié)果尚可接受。

      4 討論

      本研究嘗試從推箱子的 log-file數(shù)據(jù)中挖掘信息, 并使用隨機(jī)森林模型預(yù)測(cè)學(xué)生的推理能力分類以及數(shù)學(xué)成績(jī)分類, 模型預(yù)測(cè)的推理能力達(dá)到了約75%的查準(zhǔn)率以及 65%左右的精確率; 預(yù)測(cè)數(shù)學(xué)成績(jī)達(dá)到了約 80%的查準(zhǔn)率以及 70%左右的精確率,結(jié)果說(shuō)明模型預(yù)測(cè)效果尚可, 表明游戲 log-file結(jié)合機(jī)器學(xué)習(xí)能夠訓(xùn)練出較好的區(qū)分模型用以預(yù)測(cè)個(gè)體的抽象推理能力和學(xué)業(yè)成就。

      4.1 過(guò)程性數(shù)據(jù)的利用

      圖3 數(shù)學(xué)成績(jī)預(yù)測(cè)模型中平均重要性排列前十位的特征

      表3 模型預(yù)測(cè)結(jié)果

      研究通過(guò)從 log-file的過(guò)程性數(shù)據(jù)中提取多個(gè)特征, 一方面部分支持了以往研究的結(jié)果, 另一方面也完善了前人研究中特征利用不充分的不足。

      首先, 本研究發(fā)現(xiàn), 計(jì)劃性指標(biāo)(即第一步所用時(shí)間占全部時(shí)間的比值)在推理能力和數(shù)學(xué)成績(jī)的區(qū)分模型中均占有重要地位, 且成功組的比值大于失敗組, 說(shuō)明事先計(jì)劃對(duì)于開(kāi)展邏輯推理類任務(wù)至關(guān)重要。無(wú)論是在完成圖形推理題目, 還是在回答數(shù)學(xué)試題方面, 對(duì)題目或任務(wù)的計(jì)劃會(huì)在一定程度上決定最終的結(jié)果, 這與以往研究相一致(Li et al., 2015)。

      其次, 以往使用推箱子的研究沒(méi)有區(qū)分受測(cè)者在題目上成功和失敗兩種情況, 而同一特征在兩種情況下可能代表不同的含義, 這樣做會(huì)浪費(fèi)特征本身具有的價(jià)值。本研究在獲取大量過(guò)程性數(shù)據(jù)的基礎(chǔ)上, 對(duì)特征在成功或失敗情況下進(jìn)行了分解, 以便充分利用每個(gè)特征。結(jié)果發(fā)現(xiàn), 同一特征在不同情況下的貢獻(xiàn)確實(shí)存在差異。例如, 在數(shù)學(xué)成績(jī)預(yù)測(cè)模型中, ln (第一步用時(shí)/平均執(zhí)行時(shí)間)這個(gè)特征在成功和失敗情況下均對(duì)模型有貢獻(xiàn), 但前者的貢獻(xiàn)要大于后者; 在模型貢獻(xiàn)排名前十的特征中, 失敗情況下有較強(qiáng)預(yù)測(cè)效果的是“與最優(yōu)步數(shù)差”、“執(zhí)行間波動(dòng)”、“重復(fù)步數(shù)占比”、“與最優(yōu)路徑重合比例”等特征; 而成功情況下有較強(qiáng)預(yù)測(cè)效果的是“思考步數(shù)占比”、“與最優(yōu)步數(shù)差”、“l(fā)n (第一步時(shí)間/總時(shí)間)”等特征。

      4.2 機(jī)器學(xué)習(xí)算法的預(yù)測(cè)效果

      對(duì)于推理能力和數(shù)學(xué)成績(jī)這兩個(gè)結(jié)果變量來(lái)說(shuō), 使用隨機(jī)森林所建立的區(qū)分模型在預(yù)測(cè)效果上存在一定差異。具體而言, 數(shù)學(xué)成績(jī)的區(qū)分模型能夠達(dá)到 83.07%的查準(zhǔn)率, 而對(duì)于推理能力的區(qū)分模型, 最高能達(dá)到76.11%的查準(zhǔn)率。該結(jié)果一方面說(shuō)明本研究中的隨機(jī)森林模型在查準(zhǔn)率指標(biāo)上達(dá)到了較為一致的最優(yōu)預(yù)測(cè)效果, 另一方面說(shuō)明從推箱子任務(wù)中提取的現(xiàn)有特征更適用于預(yù)測(cè)數(shù)學(xué)成績(jī)。這可能是因?yàn)? 瑞文推理測(cè)驗(yàn)以測(cè)量抽象推理能力為主, 相對(duì)來(lái)說(shuō)對(duì)能力的要求比較單一; 但數(shù)學(xué)考題涉及的認(rèn)知和元認(rèn)知能力更加廣泛, 包括對(duì)數(shù)量關(guān)系的梳理、空間圖形的表征、使用策略的選擇等, 這與推箱子游戲的問(wèn)題解決過(guò)程更為相似。

      在模型訓(xùn)練中, 使用不同的最優(yōu)化目標(biāo)會(huì)對(duì)模型預(yù)測(cè)結(jié)果產(chǎn)生一定影響。對(duì)于推理能力, 采用精確率優(yōu)先條件時(shí)會(huì)得到最高的預(yù)測(cè)查準(zhǔn)率; 對(duì)于數(shù)學(xué)成績(jī), 采用查準(zhǔn)率優(yōu)先條件時(shí)會(huì)得到最高的預(yù)測(cè)查準(zhǔn)率。說(shuō)明對(duì)于不同的結(jié)果變量, 不同的最優(yōu)化指標(biāo)會(huì)產(chǎn)生不同的結(jié)果, 基本不存在可以同時(shí)適用于多個(gè)變量的模型。在不同的模型中, 參數(shù)、最優(yōu)化指標(biāo)會(huì)有所不同, 最后的結(jié)果也會(huì)呈現(xiàn)一定的差異。機(jī)器學(xué)習(xí)的好處就是可以通過(guò)不斷的調(diào)配參數(shù)來(lái)獲取對(duì)結(jié)果變量最為有效的預(yù)測(cè)性, 選擇具有最優(yōu)預(yù)測(cè)效果的模型。

      4.3 游戲log-file和計(jì)算機(jī)技術(shù)在心理測(cè)量中的應(yīng)用

      隨著信息技術(shù)的發(fā)展, 計(jì)算機(jī)過(guò)程數(shù)據(jù)分析技術(shù)(computer logfiles analysis)在心理測(cè)量領(lǐng)域的地位不斷提升。計(jì)算機(jī)過(guò)程數(shù)據(jù)分析技術(shù)是指通過(guò)追蹤、分析受測(cè)者在計(jì)算機(jī)上完成任務(wù)過(guò)程中的操作行為、操作時(shí)間等信息來(lái)提取測(cè)量指標(biāo)(Veenman,Bavelaar, De Wolf, & van Haaren, 2014)。該技術(shù)相較于傳統(tǒng)的技術(shù)有諸多顯而易見(jiàn)的優(yōu)點(diǎn)。首先, 傳統(tǒng)的測(cè)量方法基于被試的自我報(bào)告, 或者基于主試對(duì)于被試行為的編碼, 而過(guò)程數(shù)據(jù)的分析依賴于客觀指標(biāo), 能夠更好地實(shí)現(xiàn)標(biāo)準(zhǔn)化(Veenman, Wilhelm, &Beishuizen, 2004); 其次, 傳統(tǒng)的測(cè)量方法, 尤其是在測(cè)量認(rèn)知能力時(shí), 會(huì)有較強(qiáng)的侵入性, 如觀察、出聲思考技術(shù)(Pressley & Afflerbach, 1995)等, 在這些條件下受測(cè)者完成任務(wù)的能力一定程度上會(huì)受到影響; 而過(guò)程數(shù)據(jù)分析則不具有侵入性, 受測(cè)者完成任務(wù)的過(guò)程中不會(huì)受到打擾, 能夠在最自然地狀態(tài)下表現(xiàn)(Veenman et al., 2014); 最后, 過(guò)程分析技術(shù)成本較低, 可以對(duì)多個(gè)受測(cè)者同時(shí)施測(cè), 數(shù)據(jù)分析通過(guò)計(jì)算機(jī)自動(dòng)化完成, 因此相較于傳統(tǒng)的測(cè)量技術(shù)如出聲思考法以及眼動(dòng)追蹤技術(shù)(Kinnunen& Vauras, 1995)等更加省時(shí)。由于大量的過(guò)程數(shù)據(jù)無(wú)法用傳統(tǒng)統(tǒng)計(jì)方法進(jìn)行分析, 因而需要機(jī)器學(xué)習(xí)算法的引入和使用。這些優(yōu)點(diǎn)使得游戲log-file、計(jì)算機(jī)過(guò)程數(shù)據(jù)分析技術(shù)、機(jī)器學(xué)習(xí)將在未來(lái)得到更多的發(fā)揮空間。

      4.4 研究意義與局限性

      研究利用推箱子游戲獲取的 log-file信息, 并使用機(jī)器學(xué)習(xí)算法, 建立了較為有效的區(qū)分模型, 初步實(shí)現(xiàn)了對(duì)學(xué)生的能力傾向和學(xué)業(yè)成就的預(yù)測(cè), 結(jié)果可以為其他心理學(xué)和教育學(xué)的測(cè)評(píng)工作提供借鑒。

      同時(shí), 本研究也存在一定局限性。首先, 特征提取和模型建立過(guò)程的樣本僅包含測(cè)驗(yàn)得分排在前25%與后25%的受測(cè)者, 兩個(gè)群體間能力差異較大, 在這種情況下, 80%的查準(zhǔn)度并不完美, 并且如果未來(lái)的研究目標(biāo)轉(zhuǎn)化為對(duì)連續(xù)變量進(jìn)行預(yù)測(cè)時(shí), 預(yù)測(cè)的難度會(huì)進(jìn)一步提高; 其次, 雖然目前基于推箱子游戲的過(guò)程數(shù)據(jù)建立的模型可以較好地預(yù)測(cè)個(gè)體在瑞文推理測(cè)驗(yàn)和數(shù)學(xué)測(cè)驗(yàn)上是否成功,但實(shí)際上我們對(duì)推箱子這一游戲任務(wù)本身到底涉及到哪些認(rèn)知加工過(guò)程并不完全清楚, 因此并不能直接用模型預(yù)測(cè)的分?jǐn)?shù)代替瑞文推理測(cè)驗(yàn)成績(jī)或數(shù)學(xué)測(cè)驗(yàn)成績(jī)。在之后的研究中, 可以考慮從以下幾個(gè)方面進(jìn)行改進(jìn)。第一, 增大樣本量。由于本研究在模型訓(xùn)練中使用的樣本量低于 200, 為了避免過(guò)擬合, 必須減少特征數(shù)量, 因而限制了模型的擬合能力。未來(lái)研究如果能夠收集到足夠大的樣本量,則可以使用更多的特征, 從而提高模型的預(yù)測(cè)能力。第二, 增大受測(cè)者在所預(yù)測(cè)能力上的異質(zhì)性。本研究采用的樣本均來(lái)自于同一所中學(xué), 受測(cè)者的抽象推理能力相對(duì)來(lái)說(shuō)具有較強(qiáng)的同質(zhì)性, 這將增大模型預(yù)測(cè)的難度。未來(lái)研究如果能在不同的地區(qū)(城市、農(nóng)村)、不同水平的學(xué)校(重點(diǎn)、普通)取樣, 也可能會(huì)提高模型的預(yù)測(cè)能力。第三, 提取更多的特征并嘗試其他算法。相對(duì)于以往研究, 本研究從推箱子游戲的過(guò)程數(shù)據(jù)中提取了更多樣化的指標(biāo), 包括重復(fù)狀態(tài)比例、思考次數(shù)等, 但log-file中仍有很多信息可以被挖掘。未來(lái)的研究可以嘗試提取和檢驗(yàn)更多的特征, 并可考慮采用機(jī)器學(xué)習(xí)中的回歸算法對(duì)能力傾向和學(xué)業(yè)成就進(jìn)行預(yù)測(cè)。第四, 相對(duì)于瑞文推理測(cè)驗(yàn)任務(wù), 推箱子游戲任務(wù)所包含的認(rèn)知加工過(guò)程更加多樣化, 更具動(dòng)態(tài)性, 未來(lái)研究可以考慮結(jié)合眼動(dòng)或者fMRI技術(shù)對(duì)這一游戲任務(wù)所涉及的心理加工過(guò)程進(jìn)行更深入的考察, 從而指導(dǎo)研究者構(gòu)造出更多有實(shí)質(zhì)意義的特征, 為能力的個(gè)體差異的預(yù)測(cè)提供更有價(jià)值的預(yù)測(cè)源, 甚至通過(guò)機(jī)器學(xué)習(xí)建模來(lái)替代某些傳統(tǒng)能力測(cè)量工具。

      5 結(jié)論

      (1) 可以利用游戲 log-file收集受測(cè)者在任務(wù)中的過(guò)程性數(shù)據(jù), 并利用機(jī)器學(xué)習(xí)算法進(jìn)行分析。

      (2) 機(jī)器學(xué)習(xí)建立的區(qū)分模型對(duì)數(shù)學(xué)成績(jī)和推理能力具有較好的預(yù)測(cè)效果, 利用電腦所記錄的游戲過(guò)程數(shù)據(jù)可以對(duì)個(gè)體的能力進(jìn)行較為有效的預(yù)測(cè)。

      參 考 文 獻(xiàn)

      Baumert, A., Schl?sser, T., & Schmitt, M. (2014). Economic games: A performance-based assessment of fairness and altruism.European Journal of Psychological Assessment,30(3), 178–192.

      Berg, W. K., & Byrd, D. L. (2002). The Tower of London spatial problem-solving task: Enhancing clinical and research implementation.Journal of Clinical and Experimental Neuropsychology, 24(5), 586–604.

      Bors, D. A., & Vigneau, F. (2003). The effect of practice on Raven's Advanced Progressive Matrices.Learning and Individual Differences, 13(4), 291–312.

      Breiman, L. (2001). Random forests.Machine Learning, 45(1),5–32.

      Cassady, J. C., & Johnson, R. E. (2002). Cognitive test anxiety and academic performance.Contemporary Educational Psychology, 27(2), 270–295.

      Csapó, B., Ainley, J., Bennett, R. E., Latour, T., & Law, N.(2012). Technological issues for computer-based assessment.In P. Griffin, B. McGaw, & E. Care (Eds.),Assessment and teaching of 21st century skills(pp. 143–230). Dordrecht:Springer.

      DiCerbo, K. E., & Behrens, J. T. (2012). Implications of the digital ocean on current and future assessment. In R. W.Lissitz & H. Jiao (Eds.),Computers and their impact on state assessments: Recent history and predictions for the future(pp. 273–306). Charlotte, NC: Information Age Publishing.

      Di Giunta, L., Alessandri, G., Gerbino, M., Kanacri, P. L.,Zuffiano, A., & Caprara, G. V. (2013). The determinants of scholastic achievement: The contribution of personality traits, self-esteem, and academic self-efficacy.Learning and Individual Differences, 27, 102–108.

      Duncan, G. J., Dowsett, C. J., Claessens, A., Magnuson, K.,Huston, A. C., Klebanov, P., ... Japel, C. (2007). School readiness and later achievement.Developmental Psychology,43(6), 1428–1446.

      Greiff, S., Wüstenberg, S., & Avvisati, F. (2015).Computer-generated log-file analyses as a window into students' minds? A showcase study based on the PISA 2012 assessment of problem solving.Computers & Education,91, 92–105.

      Harrington, P. (2013).Machine learning in action(R. Li, P. Li,Y. D. Qu, & B. Wang, Trans.). Beijing, China: Posts &Telecom Press.

      [Harrington, P. (2013). 機(jī)器學(xué)習(xí)實(shí)戰(zhàn) (李銳, 李鵬, 曲亞?wèn)|,王斌 譯). 北京: 人民郵電出版社.]

      Hausknecht, J. P., Halpert, J. A., Di Paolo, N. T., & Moriarty Gerrard, M. O. (2007). Retesting in selection: A metaanalysis of coaching and practice effects for tests of cognitive ability.Journal of Applied Psychology, 92(2), 373–385.

      Heinzen, T. E., Landrum, R. E., Gurung, R. A. R., & Dunn, D.S. (2015). Game-based assessment: The mash-up we've been waiting for. In T. Reiners & L. C. Wood (Eds.),Gamification in education and business(pp. 201–217).Switzerland: Springer International Publishing.

      Hembree, R. (1988). Correlates, causes, effects, and treatment of test anxiety.Review of Educational Research, 58(1),47–77.

      Ikeda, M., Iwanaga, M., & Seiwa, H. (1996). Test anxiety and working memory system.Perceptual and Motor Skills,82(3), 1223–1231.

      Judd, L. L., Schettler, P. J., & Rush, A. J. (2016). A brief clinical tool to estimate individual patients’ risk of depressive relapse following remission: Proof of concept.American Journal of Psychiatry, 173(11), 1140–1146.

      Keogh, E., & French, C. C. (2001). Test anxiety, evaluative stress, and susceptibility to distraction from threat.European Journal of Personality, 15(2), 123–141.

      Kinnunen, R., & Vauras, M. (1995). Comprehension monitoring and the level of comprehension in high-and low-achieving primary school children's reading.Learning and Instruction,5(2), 143–165.

      K?stering, L., Schmidt, C. S. M., Egger, K., Amtage, F., Peter,J., Kl?ppel, S., ... Kaller, C. P. (2015). Assessment of planning performance in clinical samples: Reliability and validity of the Tower of London task (TOL-F).Neuropsychologia, 75,646–655.

      Li, J., Zhang, B., Du, H., Zhu, Z., & Li, Y. M. (2015).Metacognitive planning: Development and validation of an online measure.Psychological Assessment, 27(1), 260–271.

      Moharil, B., Gokhale, C., Ghadge, V., Tambvekar, P., Pundlik, S.,& Rai, G. (2014). Real time generalized log file management and analysis using pattern matching and dynamic clustering.International Journal of Computer Applications, 91(16),1–6.

      Neisser, U. (1997). Rising scores on intelligence tests: Test scores are certainly going up all over the world, but whether intelligence itself has risen remains controversial.American Scientist, 85(5), 440–447.

      Pedregosa, F., Varoquaux, G., Gramfort, A., Michel, V.,Thirion, B., Grisel, O., ... Duchesnay, é. (2011).Scikit-learn: Machine learning in python.Journal of Machine Learning Research, 12, 2825–2830.

      Pressley, M., & Afflerbach, P. (1995).Verbal protocols of reading: The nature of constructively responsive reading.Hillsdale, N.J.: Erlbaum.

      Raven, J. (1989). The raven progressive matrices: A review of national norming studies and ethnic and socioeconomic variation within the united-states.Journal of Educational Measurement, 26(1), 1–16.

      Schmidt, F. L. (2002). The role of general cognitive ability and job performance: Why there cannot be a debate.Human Performance, 15(1–2), 187–210.

      Sonnleitner, P., Brunner, M., Greiff, S., Funke, J., Keller, U.,Martin, R., ... Latour, T. (2012). TheGenetics Lab:Acceptance and psychometric characteristics of a computerbased microworld assessing complex problem solving.Psychological Test and Assessment Modeling, 54(1), 54–72.

      Tan, P. N., Steinbach, M., & Kumar, V. (2006).Introduction to data mining. India: Pearson Education.

      Tenorio Delgado, M., Arango Uribe, P., Aparicio Alonso, A.,& Rosas Díaz, R. (2016). TENI: A comprehensive battery for cognitive assessment based on games and technology.Child Neuropsychology, 22(3), 276–291.

      Veenman, M. V. J., Wilhelm, P., & Beishuizen, J. J. (2004).The relation between intellectual and metacognitive skills from a developmental perspective.Learning and Instruction,14(1), 89–109.

      Veenman, M. V. J., Bavelaar, L., De Wolf, L., & van Haaren,M. G. P. (2014). The on-line assessment of metacognitive skills in a computerized learning environment.Learning and Individual Differences, 29, 123–130.

      Ventura, M., & Shute, V. (2013). The validity of a game-based assessment of persistence.Computers in Human Behavior,29(6), 2568–2572.

      Wu, Y. Y., Kosinski, M., & Stillwell, D. (2015). Computerbased personality judgments are more accurate than those made by humans.Proceedings of the National Academy of Sciences of the United States of America, 112(4), 1036–1040.

      Zhang, B., Li, J., Xu, C., & Li, Y. M. (2014). The developmental differences of problem solving ability between intellectuallygifted and intellectually-average children aged from 11-14 years old.Acta Psychologica Sinica, 46, 1823–1834.

      [張博, 黎堅(jiān), 徐楚, 李一茗. (2014). 11~14歲超常兒童與普通兒童問(wèn)題解決能力的發(fā)展比較.心理學(xué)報(bào), 46, 1823–1834.]

      Zhang, Z., Song, Y. F., Cui, L. Q., Liu, X. Q., & Zhu, T. S.(2016). Emotion recognition based on customized smart bracelet with built-in accelerometer.PeerJ, 4, e2258.

      猜你喜歡
      受測(cè)者步數(shù)測(cè)驗(yàn)
      速度和步數(shù),哪個(gè)更重要
      怒氣沖沖 或因睡不好
      楚國(guó)的探索之旅
      奇妙博物館(2021年4期)2021-05-04 08:59:48
      新媒體科研環(huán)境下自發(fā)式科研協(xié)同行為機(jī)制研究
      微信運(yùn)動(dòng)步數(shù)識(shí)人指南
      小演奏家(2018年9期)2018-12-06 08:42:02
      《新年大測(cè)驗(yàn)》大揭榜
      兩個(gè)處理t測(cè)驗(yàn)與F測(cè)驗(yàn)的數(shù)學(xué)關(guān)系
      考試周刊(2016年88期)2016-11-24 13:30:50
      你知道嗎?
      淘寶排行榜
      你知道嗎
      新田县| 静乐县| 电白县| 区。| 甘孜县| 舞阳县| 宝鸡市| 洪洞县| 宁晋县| 西贡区| 介休市| 丹阳市| 津南区| 花莲县| 读书| 定日县| 婺源县| 金坛市| 保德县| 鹤山市| 郎溪县| 陵川县| 布尔津县| 清流县| 扎鲁特旗| 汶川县| 栾川县| 都昌县| 南皮县| 平度市| 甘孜| 定远县| 隆子县| 留坝县| 绥德县| 大同市| 长治市| 鸡西市| 柳州市| 广元市| 泰顺县|