• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    利用游戲log-file預(yù)測(cè)學(xué)生推理能力和數(shù)學(xué)成績(jī)
    ——機(jī)器學(xué)習(xí)的應(yīng)用*

    2018-07-07 07:24:12符植煜
    心理學(xué)報(bào) 2018年7期
    關(guān)鍵詞:受測(cè)者步數(shù)測(cè)驗(yàn)

    孫 鑫 黎 堅(jiān),2 符植煜

    (1北京師范大學(xué)心理學(xué)部; 2應(yīng)用實(shí)驗(yàn)心理北京市重點(diǎn)實(shí)驗(yàn)室, 北京 100875)

    1 引言

    心理測(cè)驗(yàn)(Psychological Testing)發(fā)展百余年來(lái),已經(jīng)被廣泛應(yīng)用于教育(Di Giunta et al., 2013)、企業(yè)管理(Schmidt, 2002)、臨床醫(yī)療(Judd, Schettler, &Rush, 2016)等各個(gè)領(lǐng)域, 并發(fā)揮重要作用。但傳統(tǒng)心理測(cè)驗(yàn)具有的一些不足之處使其在應(yīng)用上面臨挑戰(zhàn)。首先, 傳統(tǒng)心理測(cè)驗(yàn)由于采取明顯的測(cè)驗(yàn)形式, 容易令個(gè)體產(chǎn)生測(cè)驗(yàn)焦慮, 而焦慮會(huì)顯著降低受測(cè)者的外在表現(xiàn), 使個(gè)體真實(shí)的能力水平被低估(Cassady & Johnson, 2002)。已有研究表明, 對(duì)測(cè)驗(yàn)成績(jī)的焦慮會(huì)影響個(gè)體的注意(Keogh & French,2001)、降低工作記憶表現(xiàn)(Ikeda, Iwanaga, & Seiwa,1996)、降低智力測(cè)驗(yàn)表現(xiàn)并使得問(wèn)題解決更加艱難(Cassady & Johnson, 2002)。更為嚴(yán)重的是, 這種由焦慮引起的不良測(cè)驗(yàn)成績(jī)會(huì)反過(guò)來(lái)作用于個(gè)體自尊, 并直接導(dǎo)致恐懼、防御性與逃避性行為(Hembree, 1988), 對(duì)個(gè)體的長(zhǎng)期發(fā)展十分不利。其次, 某些經(jīng)典的心理測(cè)驗(yàn)已經(jīng)被使用了很多年, 可能會(huì)導(dǎo)致測(cè)驗(yàn)的曝光效應(yīng), 從而無(wú)法評(píng)估個(gè)體的真實(shí)水平(Bors & Vigneau, 2003)。研究表明, 測(cè)驗(yàn)的頻繁使用容易被人們破解所謂的“解題秘訣”, 個(gè)體可能事先獲得題目和答案信息而使分?jǐn)?shù)提高(Neisser,1997), 或通過(guò)不斷的備考和練習(xí)來(lái)提高測(cè)評(píng)結(jié)果(Bors & Vigneau, 2003), 但這并不能反映出受測(cè)者的真實(shí)水平, 反而會(huì)干擾真實(shí)的測(cè)量結(jié)果, 對(duì)測(cè)評(píng)的信效度造成污染(Neisser, 1997; Hausknecht, Halpert,Di Paolo, & Moriarty Gerrard, 2007)。

    鑒于傳統(tǒng)心理測(cè)驗(yàn)存在的問(wèn)題, 研究者開(kāi)始考慮采用其他形式和工具對(duì)個(gè)體能力和人格特質(zhì)進(jìn)行評(píng)估。近年來(lái), 隨著計(jì)算機(jī)網(wǎng)絡(luò)的發(fā)展和電子游戲的普及, 基于游戲的評(píng)估方式漸漸流行起來(lái)。

    基于游戲的評(píng)估(game-based assessment, GBA)是指:通過(guò)游戲(game)或者游戲化的活動(dòng)(game-like activities), 來(lái)對(duì)某一對(duì)象進(jìn)行評(píng)估(Heinzen, Landrum,Gurung, & Dunn, 2015)。從心理學(xué)的角度來(lái)說(shuō), 即采用游戲的方式, 對(duì)一個(gè)人的能力、人格等心理特性和行為進(jìn)行量化評(píng)估。這里所說(shuō)的游戲是指所有一般意義上的游戲, 既包括生活中諸如下棋、捉迷藏等真實(shí)游戲, 也包括模擬經(jīng)營(yíng)、倫敦塔、連連看等各類平臺(tái)上的電子游戲(video game)?;谟螒虻脑u(píng)估方法與傳統(tǒng)的心理測(cè)驗(yàn)相比具有諸多優(yōu)點(diǎn)。首先, 將心理評(píng)估游戲化意味著我們可以跳出傳統(tǒng)紙筆測(cè)驗(yàn)及其變式, 創(chuàng)造出豐富而多樣化的測(cè)驗(yàn)形式和內(nèi)容, 例如:視覺(jué)運(yùn)動(dòng)技能(visuomotor skill)的測(cè)量已經(jīng)可以通過(guò)手指與觸屏的游戲式互動(dòng)來(lái)實(shí)現(xiàn)(Tenorio Delgado, Arango Uribe, Aparicio Alonso,& Rosas Díaz, 2016)。其次, 游戲的可玩性、隱蔽性和仿真性等特點(diǎn)使得基于游戲的評(píng)估更易被人們接受, 其測(cè)驗(yàn)情境更接近于真實(shí)生活, 具有挑戰(zhàn)性和交互式的特點(diǎn), 能夠極大程度地提高受測(cè)者的動(dòng)機(jī)和投入程度, 并且還能通過(guò)降低社會(huì)稱許性的影響(Heinzen et al., 2015), 在一定程度上避免傳統(tǒng)心理測(cè)驗(yàn)中的測(cè)驗(yàn)焦慮和測(cè)驗(yàn)曝光問(wèn)題。此外, 全新的測(cè)驗(yàn)形式意味著可以用不同以往的方式來(lái)收集數(shù)據(jù)。例如以電子游戲作為心理測(cè)評(píng)的載體, 可以通過(guò)計(jì)算機(jī)后臺(tái)記錄玩家的游戲任務(wù)操作過(guò)程(DiCerbo & Behrens, 2012)。對(duì)這些過(guò)程信息加以正確利用, 能夠讓研究者對(duì)個(gè)體的能力和特質(zhì)有一個(gè)更為全面的了解, 也更有利于測(cè)驗(yàn)效度的提升, 使得心理學(xué)研究的重點(diǎn)從“結(jié)果是什么”轉(zhuǎn)變?yōu)榉治觥霸鯓赢a(chǎn)生結(jié)果” (Greiff, Wüstenberg, & Avvisati,2015)。目前, 基于游戲的評(píng)估得到了研究者的重視,如Sonnleitner和K?stering等人分別利用基因?qū)嶒?yàn)室和倫敦塔游戲任務(wù)對(duì)個(gè)體的復(fù)雜問(wèn)題解決和計(jì)劃性等認(rèn)知能力進(jìn)行了評(píng)估(Sonnleitner et al., 2012;K?stering et al., 2015); Ventura和Baumert等人分別利用沙盒游戲和獨(dú)裁者博弈游戲任務(wù)來(lái)評(píng)估個(gè)體的堅(jiān)持性、公平性和利他性等人格特質(zhì)(Ventura &Shute, 2013; Baumert, Schl?sser, & Schmitt, 2014)。

    然而, 目前基于游戲的評(píng)估在應(yīng)用中也存在一些問(wèn)題, 還沒(méi)有在數(shù)據(jù)分析和計(jì)分邏輯中充分利用游戲的過(guò)程信息, 僅使用少數(shù)指標(biāo)對(duì)某變量進(jìn)行評(píng)估。例如Li, Zhang, Du, Zhu和Li (2015)通過(guò)推箱子游戲測(cè)量被試的元認(rèn)知計(jì)劃, 但僅記錄并使用了第一步時(shí)間與總時(shí)間的比值, 以此作為評(píng)估指標(biāo);Berg和 Byrd (2002)在使用倫敦塔游戲測(cè)量計(jì)劃性時(shí), 僅使用第一步移動(dòng)前的時(shí)間作為評(píng)估指標(biāo)。在上述研究中, 大量過(guò)程性信息被浪費(fèi), 而這些信息很可能隱藏著可以衡量個(gè)體特質(zhì)或能力的指標(biāo), 如每一步思考的時(shí)間、動(dòng)作的回溯等(Greiff et al.,2015), 因而無(wú)法對(duì)個(gè)體特質(zhì)或能力進(jìn)行全面完備的評(píng)估。

    鑒于基于游戲的評(píng)估在應(yīng)用中所存在的問(wèn)題,心理測(cè)評(píng)領(lǐng)域亟需一種有效的數(shù)據(jù)分析方法來(lái)處理這些問(wèn)題, 以實(shí)現(xiàn)對(duì)個(gè)體能力和特質(zhì)更為準(zhǔn)確的評(píng)估。隨著人工智能研究的興起和發(fā)展, 機(jī)器學(xué)習(xí)已經(jīng)成為一門集挑戰(zhàn)性、實(shí)用性、價(jià)值性于一體的熱門學(xué)科, 尤其是谷歌AlphaGo在人機(jī)大戰(zhàn)中獲勝的奇跡使得機(jī)器學(xué)習(xí)成為備受矚目和極富發(fā)展前景的領(lǐng)域。目前, 已經(jīng)有研究者將機(jī)器學(xué)習(xí)引入心理學(xué)領(lǐng)域, 并應(yīng)用于人格預(yù)測(cè)(Wu, Kosinski, &Stillwell, 2015)。此外, Zhang, Song, Cui, Liu和Zhu(2016)根據(jù)人類步態(tài)可作為情緒識(shí)別的依據(jù)這一原理, 設(shè)計(jì)了內(nèi)置加速度傳感器的智能手環(huán), 用于測(cè)量被試的情緒狀態(tài)。研究首先對(duì)123名被試進(jìn)行了情緒操縱和原始數(shù)據(jù)收集, 之后進(jìn)行數(shù)據(jù)預(yù)處理和特征提取, 然后通過(guò)機(jī)器學(xué)習(xí)的方法對(duì)數(shù)據(jù)進(jìn)行處理和建模, 結(jié)果發(fā)現(xiàn)機(jī)器學(xué)習(xí)的不同算法均能夠較為準(zhǔn)確地識(shí)別情緒(快樂(lè)、中性、憤怒), 尤其是LibSVM算法在區(qū)分中性和憤怒情緒上的準(zhǔn)確率高達(dá) 91.3%; 在進(jìn)行三種情緒狀態(tài)的區(qū)分上, 也達(dá)到了81.2%的準(zhǔn)確率。

    需要指出的是, 機(jī)器學(xué)習(xí)算法通常需要使用到大體量的數(shù)據(jù), 計(jì)算機(jī)過(guò)程數(shù)據(jù)追蹤技術(shù)——log-file為此提供了實(shí)現(xiàn)可能。所謂log-file是指包含受測(cè)者所有活動(dòng)足跡的日志文件, 其優(yōu)點(diǎn)是能夠全面、實(shí)時(shí)地記錄全部數(shù)據(jù), 信息量豐富, 有利于后期的數(shù)據(jù)挖掘和分析(Moharil et al., 2014)。這一技術(shù)不僅實(shí)現(xiàn)了對(duì)研究變量的在線測(cè)量, 而且避免了傳統(tǒng)方法中數(shù)據(jù)收集工作耗時(shí)費(fèi)力的缺陷, 可在大規(guī)模施測(cè)的同時(shí)無(wú)干擾地記錄被試的真實(shí)行為。近年來(lái), 采用基于計(jì)算機(jī)網(wǎng)絡(luò)平臺(tái)的游戲 log-file方式對(duì)變量進(jìn)行研究已經(jīng)成為心理學(xué)領(lǐng)域的新趨勢(shì), 如 Sonnleitner等人(2012)開(kāi)發(fā)的游戲任務(wù), 會(huì)在計(jì)算機(jī)后臺(tái)生成 log-file文件, 但遺憾的是他們并沒(méi)有充分利用 log-file信息, 只是選取了少數(shù)幾個(gè)指標(biāo)用于評(píng)估受測(cè)者的復(fù)雜問(wèn)題解決能力。這其中的主要原因在于數(shù)據(jù)挖掘本身的困難。log-file數(shù)據(jù)通常變量眾多、數(shù)量巨大, 從這些數(shù)據(jù)中找出有意義的信息和關(guān)系是比較困難的(Csapó, Ainley,Bennett, Latour, & Law, 2012)。也正因?yàn)槿绱? 機(jī)器學(xué)習(xí)技術(shù)可以在這類研究中體現(xiàn)出獨(dú)特的優(yōu)勢(shì), 能夠通過(guò)充分利用 log-file的信息, 建立較為復(fù)雜的模型, 實(shí)現(xiàn)更為準(zhǔn)確的預(yù)測(cè)。

    基于上述分析, 本研究擬采用游戲任務(wù), 并結(jié)合 log-file技術(shù)和機(jī)器學(xué)習(xí)技術(shù), 嘗試對(duì)個(gè)體的能力傾向(aptitude)和學(xué)業(yè)成就(achievement)兩類能力進(jìn)行預(yù)測(cè), 在操作層面將以抽象推理能力和數(shù)學(xué)學(xué)習(xí)成績(jī)作為研究變量。之所以選擇這兩類能力, 是因?yàn)槟芰A向和學(xué)業(yè)成績(jī)均是學(xué)生求學(xué)生涯中的重要變量, 前者能夠反映出個(gè)體在廣泛的信息加工任務(wù)中的潛能, 后者則是學(xué)習(xí)結(jié)果的主要表現(xiàn), 對(duì)學(xué)生自我概念的建構(gòu)、思維能力的發(fā)展以及社會(huì)適應(yīng)的培養(yǎng)等方面都具有顯著的影響(Duncan et al.,2007)。研究擬選取“推箱子”作為游戲任務(wù)。在該游戲中, 受測(cè)者需要調(diào)用其認(rèn)知和元認(rèn)知加工, 持續(xù)對(duì)箱子的位置和小人的移動(dòng)路線進(jìn)行思考, 涉及到大量的抽象推理、空間想象與操作, 以及數(shù)字運(yùn)算工作, 因此, 受測(cè)者在游戲過(guò)程中的表現(xiàn)很有可能能夠反映其推理能力和數(shù)學(xué)學(xué)業(yè)成就的水平。由于從游戲 log-file中收集到的原始數(shù)據(jù)并不規(guī)范, 不能直接作為特征加入模型中, 因此需要研究者進(jìn)行特征提取, 從而生成有可能反映受測(cè)者能力的特征。以往關(guān)于推箱子的研究涉及到認(rèn)知能力、元認(rèn)知能力、認(rèn)知效率三種指標(biāo)(張博, 黎堅(jiān), 徐楚, 李一茗, 2014)。本研究在選取特征時(shí)雖然也將從這三個(gè)方面進(jìn)行考慮, 但會(huì)選取更多特征, 通過(guò)增加特征數(shù)量使模型的預(yù)測(cè)率更高。例如在認(rèn)知能力方面,擬選取完成箱子比例、關(guān)卡是否成功等特征; 在元認(rèn)知能力方面, 擬選取第一步計(jì)劃時(shí)間與總時(shí)間的比值、第一步計(jì)劃時(shí)間與平均執(zhí)行時(shí)間的比值, 以及二者的對(duì)數(shù)等特征; 在認(rèn)知效率方面, 擬選取思考步數(shù)、與最優(yōu)步數(shù)之差等特征。此外, 考慮到受測(cè)者在“成功”的關(guān)卡與“失敗”的關(guān)卡中可能存在不同的表現(xiàn), 因此在特征選取時(shí)對(duì)兩種通關(guān)情況也進(jìn)行了區(qū)分。

    2 方法

    研究包含4個(gè)步驟:數(shù)據(jù)采集、特征提取、數(shù)據(jù)預(yù)處理和模型訓(xùn)練。

    2.1 數(shù)據(jù)采集

    2.1.1 被試

    首都師范大學(xué)第一附屬中學(xué)的395名初一和初二學(xué)生參加了研究, 有效被試為 360名, 其中女生172名, 男生188名。初一學(xué)生平均年齡為13.2歲,最小為11.9歲, 最大為15.1歲; 初二學(xué)生平均年齡為14.6歲, 最小為14.1歲, 最大為16.3歲。

    2.1.2 推箱子游戲

    推箱子(Sokoban)是一款經(jīng)典益智游戲, 由一個(gè)小人和至少1個(gè)箱子組成, 玩家需要操縱小人上下左右移動(dòng), 將箱子推入目標(biāo)位置。經(jīng)過(guò)研究者對(duì)程序的改編, 計(jì)算機(jī)后臺(tái)可以自動(dòng)生成 log-file文件, 記錄受測(cè)者每一步的潛伏期與按鍵動(dòng)作, 例如時(shí)間節(jié)點(diǎn)、小人移動(dòng)的方向、推動(dòng)的箱子、完成步數(shù)等。游戲一共23題, 所有題目都不允許悔棋。前3題為練習(xí)題, 用于幫助受測(cè)者熟悉鍵盤操作及游戲規(guī)則。在練習(xí)題階段, 答錯(cuò)可重來(lái), 直到全部通過(guò)方可進(jìn)入正式游戲。第 4~23題為正式題目, 每題限時(shí) 2 min。與練習(xí)階段不同, 正式題目只有一次機(jī)會(huì), 若一次未通過(guò), 則只能放棄該題。正式題目中的箱子個(gè)數(shù)在 1~3之間, 每題均有唯一最優(yōu)解。游戲界面如圖1所示。

    圖1 推箱子游戲界面截圖

    2.1.3 測(cè)量工具

    瑞文標(biāo)準(zhǔn)推理測(cè)驗(yàn)(Standard Progressive Matrices,SPM; Raven, 1989):用于測(cè)量一般智力中的抽象推理能力, 共計(jì)60個(gè)條目, 每答對(duì)一題計(jì)一分, 滿分60分, 總分即為推理能力得分。在本研究的受測(cè)者中, 平均分為46.2, 標(biāo)準(zhǔn)差為8.5。

    數(shù)學(xué)成績(jī):研究者獲得了學(xué)生的三次數(shù)學(xué)測(cè)驗(yàn)的成績(jī)(期中、月考、期末), 每次數(shù)學(xué)測(cè)驗(yàn)均為年級(jí)內(nèi)統(tǒng)一施測(cè), 因此在年級(jí)內(nèi)具有可比性。將三次數(shù)學(xué)成績(jī)?nèi)∑骄狄垣@得對(duì)學(xué)生數(shù)學(xué)能力較為準(zhǔn)確的估計(jì)。本研究中, 數(shù)學(xué)成績(jī)的平均分為64.9分,標(biāo)準(zhǔn)差為19.9。

    本研究屬于機(jī)器學(xué)習(xí)中的監(jiān)督學(xué)習(xí)(supervised learning)類別, 而監(jiān)督學(xué)習(xí)分為兩種, 一是利用分類算法預(yù)測(cè)標(biāo)稱型數(shù)據(jù), 二是利用回歸算法預(yù)測(cè)連續(xù)型數(shù)據(jù)。對(duì)于本研究而言, 推理能力和數(shù)學(xué)成績(jī)是連續(xù)型數(shù)據(jù), 理論上應(yīng)使用回歸算法進(jìn)行預(yù)測(cè),但是回歸算法對(duì)特征數(shù)量和樣本量的要求較高, 其創(chuàng)建的模型需要擬合所有的樣本點(diǎn), 當(dāng)數(shù)據(jù)擁有眾多特征且特征之間的關(guān)系十分復(fù)雜時(shí), 構(gòu)建全局模型難以實(shí)現(xiàn)(Harrington, 2013)。囿于現(xiàn)實(shí)因素, 研究無(wú)法獲取更多受測(cè)者, 且眾多特征間的關(guān)系較為復(fù)雜, 堅(jiān)持使用回歸算法將無(wú)法達(dá)到良好的預(yù)測(cè)效果。因此, 作為一項(xiàng)嘗試性研究, 本研究在數(shù)據(jù)分析中將兩個(gè)結(jié)果變量轉(zhuǎn)化為標(biāo)稱型數(shù)據(jù), 具體做法是:將瑞文推理測(cè)驗(yàn)得分在前 25%的學(xué)生記為 1,后 25%得分的學(xué)生記為 0, 構(gòu)造瑞文得分的二分變量作為最終結(jié)果變量(即機(jī)器學(xué)習(xí)算法的標(biāo)簽), 其他學(xué)生的數(shù)據(jù)不予使用, 最終有效的受測(cè)者是 180名; 將數(shù)學(xué)成績(jī)按照年級(jí)分層, 將每個(gè)年級(jí)數(shù)學(xué)成績(jī)排名前25%的學(xué)生標(biāo)記為1, 后25%的學(xué)生標(biāo)記為0, 構(gòu)造數(shù)學(xué)成績(jī)的二分變量作為最終結(jié)果變量,其余學(xué)生的數(shù)據(jù)不予使用, 最終有效受測(cè)者也為180名。

    2.1.4 測(cè)試流程

    所有學(xué)生均以班級(jí)為單位在計(jì)算機(jī)教室參加測(cè)試。受測(cè)者首先在計(jì)算機(jī)上完成推箱子游戲任務(wù),然后填寫紙質(zhì)版的瑞文推理測(cè)驗(yàn)。施測(cè)過(guò)程都由任課教師、班主任和主試一同監(jiān)督, 保證安靜、獨(dú)立作答。

    2.2 特征提取

    程序記錄的受測(cè)者順利通過(guò)某一關(guān)的典型數(shù)據(jù)形式如圖2所示。通常, 在第一步之前會(huì)有較長(zhǎng)時(shí)間的思考, 在思考完成后則有較快的按鍵反應(yīng),在操作過(guò)程中, 偶爾會(huì)出現(xiàn)潛伏期。除了過(guò)程數(shù)據(jù)外, 程序同樣記錄了受測(cè)者在本關(guān)是否通過(guò)、有幾個(gè)箱子被移到了指定位置、受測(cè)者是否主動(dòng)放棄本關(guān)、任務(wù)超時(shí)等信息。下面將對(duì)特征提取的具體方法進(jìn)行說(shuō)明。

    2.2.1 第一步所用時(shí)間

    由圖2可知, 受測(cè)者通常會(huì)分配較長(zhǎng)時(shí)間在第一步之前的思考中。參照文獻(xiàn), 我們計(jì)算出受測(cè)者在每一關(guān)中第一步所用時(shí)間占總時(shí)間的比重。此外,用第一步時(shí)間除以平均執(zhí)行時(shí)間(定義方法見(jiàn) 2.2.3)以及對(duì)上述變量取其對(duì)數(shù)形式, 構(gòu)造出多個(gè)特征以進(jìn)行較為全面的衡量。

    2.2.2 執(zhí)行間思考

    受測(cè)者在執(zhí)行過(guò)程中可能會(huì)停下來(lái)思考, 反映在數(shù)據(jù)中即是:在執(zhí)行過(guò)程中某一步用時(shí)較其他時(shí)間異常變高。為了反映這種波動(dòng)性, 計(jì)算受測(cè)者除了第一步之后各步用時(shí)的標(biāo)準(zhǔn)差, 即執(zhí)行間波動(dòng),同時(shí), 記錄時(shí)間超過(guò)平均值一個(gè)標(biāo)準(zhǔn)差以上的步數(shù)占總步數(shù)的比例作為受測(cè)者在執(zhí)行過(guò)程中的思考次數(shù)的指標(biāo)。

    2.2.3 平均執(zhí)行時(shí)間

    剔除掉包含思考的行動(dòng)后(包括第一步), 將余下的行動(dòng)時(shí)間求平均。這部分時(shí)間反映了受測(cè)者在無(wú)需思考的情況下執(zhí)行操作的時(shí)間。

    2.2.4 冗余步數(shù)

    根據(jù)受測(cè)者的行動(dòng)路線可以求出受測(cè)者每一步行動(dòng)后的整體狀態(tài)。計(jì)算出其路徑中重復(fù)的狀態(tài)(即在兩個(gè)狀態(tài)中, 小人和所有箱子的位置完全相同)占最優(yōu)路徑中總狀態(tài)數(shù)的比例。其中, 對(duì)于一個(gè)狀態(tài)重復(fù)多次的情況只記為 1, 以避免玩家在兩個(gè)狀態(tài)間“來(lái)回踱步”產(chǎn)生誤差。

    2.2.5 與最優(yōu)路徑重合比例

    通過(guò)廣度優(yōu)先搜索算法, 可以求出每一關(guān)的最優(yōu)路徑, 并計(jì)算受測(cè)者的路徑與最優(yōu)路徑重合的比例。具體而言, 計(jì)算受測(cè)者路徑的狀態(tài)集合與最優(yōu)路徑狀態(tài)集合的交集, 計(jì)算交集占最優(yōu)路徑狀態(tài)集的比例, 同樣排除掉“來(lái)回踱步”的情況。

    2.2.6 與最優(yōu)路徑相差步數(shù)

    受測(cè)者步數(shù)與最優(yōu)步數(shù)的差異, 也作為一個(gè)指標(biāo)加入模型中。

    圖2 一個(gè)典型的行動(dòng)過(guò)程

    2.2.7 完成箱子的比例

    所有關(guān)卡中, 程序都會(huì)報(bào)告受測(cè)者完成的箱子數(shù)量占總箱子數(shù)量的比例, 把它作為一個(gè)特征加入到模型中。

    2.2.8 每題是否成功、放棄

    每道題有三種狀態(tài), 成功通過(guò)、放棄、超時(shí), 用兩個(gè)二分變量來(lái)刻畫這三種情況, 并作為特征加入模型中, 即對(duì)于“是否成功”這一特征來(lái)說(shuō), 成功記為 1, 放棄記為 0, 超時(shí)記為 0; 對(duì)于“是否放棄”這一特征來(lái)說(shuō), 成功記為0, 放棄記為1, 超時(shí)記為0。

    2.3 數(shù)據(jù)預(yù)處理

    原始數(shù)據(jù)以每一關(guān)為一個(gè)觀測(cè)值, 但在訓(xùn)練模型時(shí)需要以受測(cè)者為單位的觀測(cè)值。直接將長(zhǎng)型數(shù)據(jù)轉(zhuǎn)換為寬型數(shù)據(jù), 即對(duì)于每個(gè)受測(cè)者每一關(guān)都提取出上述特征, 總共特征數(shù)是單關(guān)特征數(shù)的 20倍,這會(huì)存在以下問(wèn)題:一, 由于樣本規(guī)模不大, 特征過(guò)多不利于模型訓(xùn)練, 容易過(guò)擬合; 二, 同一個(gè)指標(biāo)在成功和失敗兩種狀態(tài)下可能有不同的意義, 以“與最優(yōu)路徑相差步數(shù)”這一特征為例, 失敗的狀態(tài)下, 受測(cè)者的步數(shù)通常會(huì)低于最優(yōu)路徑步數(shù), 數(shù)字越大表明受測(cè)者越堅(jiān)持, 而在成功的狀態(tài)下, 數(shù)字越大則反應(yīng)受測(cè)者的步數(shù)偏離最優(yōu)路徑越遠(yuǎn)。為了克服以上問(wèn)題, 將上述特征均以成功與否劃分為兩組, 即對(duì)于以上每個(gè)特征, 都構(gòu)造出兩類:一類用于描述該特征在成功的關(guān)卡中對(duì)推理能力和數(shù)學(xué)成績(jī)的預(yù)測(cè)能力, 另一類描述在失敗的關(guān)卡中對(duì)二者的預(yù)測(cè)能力。對(duì)于是否成功、是否放棄兩個(gè)二分變量, 直接在各組間求平均容易忽略掉每道題的難度信息, 故使用因子分析從其中提取出兩個(gè)因子作為特征用以訓(xùn)練模型。因此, 模型中共放入23個(gè)特征用于訓(xùn)練, 特征的描述統(tǒng)計(jì)結(jié)果見(jiàn)表1。

    研究者計(jì)算了上述特征與瑞文測(cè)驗(yàn)成績(jī)和數(shù)學(xué)成績(jī)的相關(guān), 結(jié)果發(fā)現(xiàn)成功組和失敗組的第一步用時(shí)/總時(shí)間、ln (第一步用時(shí)/總時(shí)間)、第一步用時(shí)/平均執(zhí)行時(shí)間、ln (第一步用時(shí)/平均執(zhí)行時(shí)間)等特征均與瑞文測(cè)驗(yàn)成績(jī)和數(shù)學(xué)成績(jī)有顯著相關(guān), 相關(guān)系數(shù)在 0.19~0.46之間。此外, 數(shù)學(xué)成績(jī)還與失敗組思考步數(shù)占比、失敗組完成箱子的比例顯著相關(guān),相關(guān)系數(shù)分別是0.16和0.17。這些結(jié)果初步表明了本研究特征選取的有效性。

    2.4 模型訓(xùn)練

    推理能力與數(shù)學(xué)成績(jī)的模型訓(xùn)練策略一致, 使用基于Python 3的scikit-learning包(Pedregosa et al.,2011)提供的隨機(jī)森林模型進(jìn)行訓(xùn)練, 該算法是分類學(xué)習(xí)的常用算法。隨機(jī)森林(Random Forests, RF)是決策樹(shù)的集合, 利用多棵樹(shù)對(duì)樣本進(jìn)行訓(xùn)練和評(píng)估。該算法會(huì)重復(fù)選擇隨機(jī)樣本, 在訓(xùn)練集中生成多個(gè)樣本集, 每個(gè)樣本集都會(huì)形成一棵樹(shù), 最后根據(jù)生成的這些樹(shù)在測(cè)試集中進(jìn)行評(píng)估, 投票最多的作為最終類標(biāo)簽(Breiman, 2001)。

    表1 特征的描述統(tǒng)計(jì)結(jié)果

    研究中, 首先隨機(jī)劃出30%的樣本作為評(píng)估集,70%的樣本用于交叉驗(yàn)證以及超參數(shù)搜索。在70%的樣本中, 使用4折交叉驗(yàn)證策略將樣本再次隨機(jī)分成 4組, 依次選擇其中一組作為驗(yàn)證集, 其他三組作為訓(xùn)練集。在訓(xùn)練集上訓(xùn)練特定參數(shù)的模型,將獲得的模型在驗(yàn)證集中測(cè)試, 計(jì)算模型得分。4個(gè)輪次后, 每組樣本均有3次作為訓(xùn)練集, 1次作為驗(yàn)證集, 將 4組中獲得的得分求平均, 為對(duì)應(yīng)超參數(shù)的模型在交叉驗(yàn)證組中的得分。

    隨機(jī)森林模型具有多個(gè)參數(shù)可供調(diào)整, 不同的參數(shù)設(shè)置會(huì)影響模型的擬合效果。本研究關(guān)注的主要參數(shù)為:最大特征數(shù)、最大深度、最小分裂樣本量、擬合器數(shù)量。最大特征數(shù)表示在尋找一個(gè)最優(yōu)的分裂過(guò)程中需要考慮的特征數(shù); 最大深度表示一個(gè)決策樹(shù)最大的深度, 達(dá)到該深度后即停止分裂;當(dāng)一個(gè)節(jié)點(diǎn)上的樣本量低于最小分裂樣本量時(shí)該節(jié)點(diǎn)即停止分裂; 擬合器數(shù)量是指在隨機(jī)森林中的樹(shù)的數(shù)量。采用網(wǎng)格搜索的策略尋找出最優(yōu)的參數(shù),對(duì)每一種超參數(shù)組合都進(jìn)行一次交叉驗(yàn)證, 選擇出交叉驗(yàn)證中平均得分最高的超參數(shù)組合。搜索的范圍為:最大特征數(shù)由5至16, 最小分裂樣本量由2至10, 最大深度由2至8, 擬合器數(shù)量包括5、10、50、160四種, 因此總共需要進(jìn)行3024次交叉驗(yàn)證。經(jīng)過(guò) 3024次交叉驗(yàn)證后, 在驗(yàn)證集上得分最高的超參數(shù)組合即為最優(yōu)參數(shù)組合。但是通過(guò)交叉驗(yàn)證獲得的得分并不能準(zhǔn)確評(píng)估該模型的有效性, 這是因?yàn)槌瑓?shù)搜索本身也相當(dāng)于擬合的過(guò)程, 容易出現(xiàn)過(guò)擬合。因此對(duì)于該模型的評(píng)估需要在評(píng)估集上測(cè)試。首先, 使用獲得的最優(yōu)參數(shù), 用交叉驗(yàn)證中涉及的所有 70%的樣本對(duì)隨機(jī)森林模型進(jìn)行擬合,再用擬合后的模型以及評(píng)估集中的特征對(duì)推理能力分類和數(shù)學(xué)成績(jī)分類進(jìn)行預(yù)測(cè), 用預(yù)測(cè)得到的分類與真實(shí)分類作比較, 計(jì)算得分。由此得到的得分是對(duì)模型預(yù)測(cè)能力比較準(zhǔn)確的評(píng)估。

    分類模型建立后, 可以用多種評(píng)估方式考察模型的預(yù)測(cè)效果, 主要可以分為4類:真實(shí)陽(yáng)性(True Positive), 即預(yù)測(cè)為陽(yáng)性且實(shí)際上也為陽(yáng)性; 虛假陽(yáng)性(Fake Positive), 即預(yù)測(cè)為陽(yáng)性但實(shí)際上為陰性; 真實(shí)陰性(True Negative), 即預(yù)測(cè)為陰性實(shí)際上也為陰性; 虛假陰性(Fake Negative), 即預(yù)測(cè)為陰性但實(shí)際上是陽(yáng)性。每種類別的表示方式如表2所示。

    表2 分類表現(xiàn)評(píng)估表

    根據(jù)上述分類可以得到最常用的指標(biāo):

    (1) 精確率(Accuracy):精確率是最為簡(jiǎn)單、直接的一個(gè)指標(biāo), 為正確預(yù)測(cè)的觀測(cè)值數(shù)量除以總觀測(cè)值數(shù)量, 即(TP+TN)/(TP+TN+FP+FN);

    (2) 查準(zhǔn)率(Precision, P):查準(zhǔn)率描述在預(yù)測(cè)為陽(yáng)性的樣本中, 真實(shí)陽(yáng)性的比例, 即TP/(FP+TP);

    (3) 查全率(Recall, R): 查全率描述在所有實(shí)際陽(yáng)性樣本中, 預(yù)測(cè)為陽(yáng)性的比例, 即TP/(TP+FN);

    (4) F1:查準(zhǔn)率與查全率兩者顯然是存在一些矛盾:追求查準(zhǔn)率則會(huì)犧牲一些查全率, 反之亦然。F1則是查準(zhǔn)率與查全率兩者之間較為平衡的一個(gè)指標(biāo), 公式為F1 = 2RP/(R+P)。

    在超參數(shù)搜索中, 分別以4種計(jì)分方式為目標(biāo),即對(duì)應(yīng)每個(gè)計(jì)分方式均找到一個(gè)能使其最大化的超參數(shù)組合, 以滿足不同的預(yù)測(cè)需要。

    3 結(jié)果

    通過(guò)對(duì)模型的調(diào)整可以發(fā)現(xiàn)一個(gè)模型中所有特征的平均重要性, 特征重要性定義為:標(biāo)準(zhǔn)化后的特征減少的基尼不純度(Tan, Steinbach, & Kumar,2006)。圖 3顯示的是數(shù)學(xué)成績(jī)預(yù)測(cè)模型中排列前十的特征(推理能力預(yù)測(cè)模型與此類似), 可見(jiàn), 第一步時(shí)間與平均執(zhí)行時(shí)間的比值取對(duì)數(shù)(成功組)在數(shù)學(xué)成績(jī)預(yù)測(cè)模型中的平均重要性最高; 第二重要的特征是從成功與否指標(biāo)中通過(guò)因子分析提取出來(lái)的第一個(gè)因素; 與最優(yōu)解相差的步數(shù)、思考時(shí)間占比、執(zhí)行間波動(dòng)、重復(fù)步數(shù)占比等因素均對(duì)模型有一定貢獻(xiàn), 證實(shí)了研究所提取的特征的有效性。

    通過(guò)對(duì)上文所述的特征進(jìn)行訓(xùn)練, 所得模型在評(píng)估集上的表現(xiàn)如表3所示。第一列表示在超參數(shù)搜索時(shí)評(píng)估模型使用的標(biāo)準(zhǔn), 即最優(yōu)化目標(biāo), 其他四列表示相應(yīng)的模型在評(píng)估集上相應(yīng)指標(biāo)的得分。結(jié)果表明, 在超參數(shù)搜索階段采用不同的最優(yōu)化目標(biāo)對(duì)結(jié)果的影響不大。用該模型預(yù)測(cè)數(shù)學(xué)成績(jī), 能夠達(dá)到80%左右的查準(zhǔn)率, 而F1、查全率、精確率都在70%左右; 對(duì)于推理能力的預(yù)測(cè)結(jié)果稍弱于對(duì)數(shù)學(xué)成績(jī)的預(yù)測(cè), 平均能達(dá)到65%左右的F1, 75%左右的查準(zhǔn)率, 60%左右的查全率, 以及 65%左右的精確率。該結(jié)果表明機(jī)器學(xué)習(xí)建立的區(qū)分模型結(jié)果尚可接受。

    4 討論

    本研究嘗試從推箱子的 log-file數(shù)據(jù)中挖掘信息, 并使用隨機(jī)森林模型預(yù)測(cè)學(xué)生的推理能力分類以及數(shù)學(xué)成績(jī)分類, 模型預(yù)測(cè)的推理能力達(dá)到了約75%的查準(zhǔn)率以及 65%左右的精確率; 預(yù)測(cè)數(shù)學(xué)成績(jī)達(dá)到了約 80%的查準(zhǔn)率以及 70%左右的精確率,結(jié)果說(shuō)明模型預(yù)測(cè)效果尚可, 表明游戲 log-file結(jié)合機(jī)器學(xué)習(xí)能夠訓(xùn)練出較好的區(qū)分模型用以預(yù)測(cè)個(gè)體的抽象推理能力和學(xué)業(yè)成就。

    4.1 過(guò)程性數(shù)據(jù)的利用

    圖3 數(shù)學(xué)成績(jī)預(yù)測(cè)模型中平均重要性排列前十位的特征

    表3 模型預(yù)測(cè)結(jié)果

    研究通過(guò)從 log-file的過(guò)程性數(shù)據(jù)中提取多個(gè)特征, 一方面部分支持了以往研究的結(jié)果, 另一方面也完善了前人研究中特征利用不充分的不足。

    首先, 本研究發(fā)現(xiàn), 計(jì)劃性指標(biāo)(即第一步所用時(shí)間占全部時(shí)間的比值)在推理能力和數(shù)學(xué)成績(jī)的區(qū)分模型中均占有重要地位, 且成功組的比值大于失敗組, 說(shuō)明事先計(jì)劃對(duì)于開(kāi)展邏輯推理類任務(wù)至關(guān)重要。無(wú)論是在完成圖形推理題目, 還是在回答數(shù)學(xué)試題方面, 對(duì)題目或任務(wù)的計(jì)劃會(huì)在一定程度上決定最終的結(jié)果, 這與以往研究相一致(Li et al., 2015)。

    其次, 以往使用推箱子的研究沒(méi)有區(qū)分受測(cè)者在題目上成功和失敗兩種情況, 而同一特征在兩種情況下可能代表不同的含義, 這樣做會(huì)浪費(fèi)特征本身具有的價(jià)值。本研究在獲取大量過(guò)程性數(shù)據(jù)的基礎(chǔ)上, 對(duì)特征在成功或失敗情況下進(jìn)行了分解, 以便充分利用每個(gè)特征。結(jié)果發(fā)現(xiàn), 同一特征在不同情況下的貢獻(xiàn)確實(shí)存在差異。例如, 在數(shù)學(xué)成績(jī)預(yù)測(cè)模型中, ln (第一步用時(shí)/平均執(zhí)行時(shí)間)這個(gè)特征在成功和失敗情況下均對(duì)模型有貢獻(xiàn), 但前者的貢獻(xiàn)要大于后者; 在模型貢獻(xiàn)排名前十的特征中, 失敗情況下有較強(qiáng)預(yù)測(cè)效果的是“與最優(yōu)步數(shù)差”、“執(zhí)行間波動(dòng)”、“重復(fù)步數(shù)占比”、“與最優(yōu)路徑重合比例”等特征; 而成功情況下有較強(qiáng)預(yù)測(cè)效果的是“思考步數(shù)占比”、“與最優(yōu)步數(shù)差”、“l(fā)n (第一步時(shí)間/總時(shí)間)”等特征。

    4.2 機(jī)器學(xué)習(xí)算法的預(yù)測(cè)效果

    對(duì)于推理能力和數(shù)學(xué)成績(jī)這兩個(gè)結(jié)果變量來(lái)說(shuō), 使用隨機(jī)森林所建立的區(qū)分模型在預(yù)測(cè)效果上存在一定差異。具體而言, 數(shù)學(xué)成績(jī)的區(qū)分模型能夠達(dá)到 83.07%的查準(zhǔn)率, 而對(duì)于推理能力的區(qū)分模型, 最高能達(dá)到76.11%的查準(zhǔn)率。該結(jié)果一方面說(shuō)明本研究中的隨機(jī)森林模型在查準(zhǔn)率指標(biāo)上達(dá)到了較為一致的最優(yōu)預(yù)測(cè)效果, 另一方面說(shuō)明從推箱子任務(wù)中提取的現(xiàn)有特征更適用于預(yù)測(cè)數(shù)學(xué)成績(jī)。這可能是因?yàn)? 瑞文推理測(cè)驗(yàn)以測(cè)量抽象推理能力為主, 相對(duì)來(lái)說(shuō)對(duì)能力的要求比較單一; 但數(shù)學(xué)考題涉及的認(rèn)知和元認(rèn)知能力更加廣泛, 包括對(duì)數(shù)量關(guān)系的梳理、空間圖形的表征、使用策略的選擇等, 這與推箱子游戲的問(wèn)題解決過(guò)程更為相似。

    在模型訓(xùn)練中, 使用不同的最優(yōu)化目標(biāo)會(huì)對(duì)模型預(yù)測(cè)結(jié)果產(chǎn)生一定影響。對(duì)于推理能力, 采用精確率優(yōu)先條件時(shí)會(huì)得到最高的預(yù)測(cè)查準(zhǔn)率; 對(duì)于數(shù)學(xué)成績(jī), 采用查準(zhǔn)率優(yōu)先條件時(shí)會(huì)得到最高的預(yù)測(cè)查準(zhǔn)率。說(shuō)明對(duì)于不同的結(jié)果變量, 不同的最優(yōu)化指標(biāo)會(huì)產(chǎn)生不同的結(jié)果, 基本不存在可以同時(shí)適用于多個(gè)變量的模型。在不同的模型中, 參數(shù)、最優(yōu)化指標(biāo)會(huì)有所不同, 最后的結(jié)果也會(huì)呈現(xiàn)一定的差異。機(jī)器學(xué)習(xí)的好處就是可以通過(guò)不斷的調(diào)配參數(shù)來(lái)獲取對(duì)結(jié)果變量最為有效的預(yù)測(cè)性, 選擇具有最優(yōu)預(yù)測(cè)效果的模型。

    4.3 游戲log-file和計(jì)算機(jī)技術(shù)在心理測(cè)量中的應(yīng)用

    隨著信息技術(shù)的發(fā)展, 計(jì)算機(jī)過(guò)程數(shù)據(jù)分析技術(shù)(computer logfiles analysis)在心理測(cè)量領(lǐng)域的地位不斷提升。計(jì)算機(jī)過(guò)程數(shù)據(jù)分析技術(shù)是指通過(guò)追蹤、分析受測(cè)者在計(jì)算機(jī)上完成任務(wù)過(guò)程中的操作行為、操作時(shí)間等信息來(lái)提取測(cè)量指標(biāo)(Veenman,Bavelaar, De Wolf, & van Haaren, 2014)。該技術(shù)相較于傳統(tǒng)的技術(shù)有諸多顯而易見(jiàn)的優(yōu)點(diǎn)。首先, 傳統(tǒng)的測(cè)量方法基于被試的自我報(bào)告, 或者基于主試對(duì)于被試行為的編碼, 而過(guò)程數(shù)據(jù)的分析依賴于客觀指標(biāo), 能夠更好地實(shí)現(xiàn)標(biāo)準(zhǔn)化(Veenman, Wilhelm, &Beishuizen, 2004); 其次, 傳統(tǒng)的測(cè)量方法, 尤其是在測(cè)量認(rèn)知能力時(shí), 會(huì)有較強(qiáng)的侵入性, 如觀察、出聲思考技術(shù)(Pressley & Afflerbach, 1995)等, 在這些條件下受測(cè)者完成任務(wù)的能力一定程度上會(huì)受到影響; 而過(guò)程數(shù)據(jù)分析則不具有侵入性, 受測(cè)者完成任務(wù)的過(guò)程中不會(huì)受到打擾, 能夠在最自然地狀態(tài)下表現(xiàn)(Veenman et al., 2014); 最后, 過(guò)程分析技術(shù)成本較低, 可以對(duì)多個(gè)受測(cè)者同時(shí)施測(cè), 數(shù)據(jù)分析通過(guò)計(jì)算機(jī)自動(dòng)化完成, 因此相較于傳統(tǒng)的測(cè)量技術(shù)如出聲思考法以及眼動(dòng)追蹤技術(shù)(Kinnunen& Vauras, 1995)等更加省時(shí)。由于大量的過(guò)程數(shù)據(jù)無(wú)法用傳統(tǒng)統(tǒng)計(jì)方法進(jìn)行分析, 因而需要機(jī)器學(xué)習(xí)算法的引入和使用。這些優(yōu)點(diǎn)使得游戲log-file、計(jì)算機(jī)過(guò)程數(shù)據(jù)分析技術(shù)、機(jī)器學(xué)習(xí)將在未來(lái)得到更多的發(fā)揮空間。

    4.4 研究意義與局限性

    研究利用推箱子游戲獲取的 log-file信息, 并使用機(jī)器學(xué)習(xí)算法, 建立了較為有效的區(qū)分模型, 初步實(shí)現(xiàn)了對(duì)學(xué)生的能力傾向和學(xué)業(yè)成就的預(yù)測(cè), 結(jié)果可以為其他心理學(xué)和教育學(xué)的測(cè)評(píng)工作提供借鑒。

    同時(shí), 本研究也存在一定局限性。首先, 特征提取和模型建立過(guò)程的樣本僅包含測(cè)驗(yàn)得分排在前25%與后25%的受測(cè)者, 兩個(gè)群體間能力差異較大, 在這種情況下, 80%的查準(zhǔn)度并不完美, 并且如果未來(lái)的研究目標(biāo)轉(zhuǎn)化為對(duì)連續(xù)變量進(jìn)行預(yù)測(cè)時(shí), 預(yù)測(cè)的難度會(huì)進(jìn)一步提高; 其次, 雖然目前基于推箱子游戲的過(guò)程數(shù)據(jù)建立的模型可以較好地預(yù)測(cè)個(gè)體在瑞文推理測(cè)驗(yàn)和數(shù)學(xué)測(cè)驗(yàn)上是否成功,但實(shí)際上我們對(duì)推箱子這一游戲任務(wù)本身到底涉及到哪些認(rèn)知加工過(guò)程并不完全清楚, 因此并不能直接用模型預(yù)測(cè)的分?jǐn)?shù)代替瑞文推理測(cè)驗(yàn)成績(jī)或數(shù)學(xué)測(cè)驗(yàn)成績(jī)。在之后的研究中, 可以考慮從以下幾個(gè)方面進(jìn)行改進(jìn)。第一, 增大樣本量。由于本研究在模型訓(xùn)練中使用的樣本量低于 200, 為了避免過(guò)擬合, 必須減少特征數(shù)量, 因而限制了模型的擬合能力。未來(lái)研究如果能夠收集到足夠大的樣本量,則可以使用更多的特征, 從而提高模型的預(yù)測(cè)能力。第二, 增大受測(cè)者在所預(yù)測(cè)能力上的異質(zhì)性。本研究采用的樣本均來(lái)自于同一所中學(xué), 受測(cè)者的抽象推理能力相對(duì)來(lái)說(shuō)具有較強(qiáng)的同質(zhì)性, 這將增大模型預(yù)測(cè)的難度。未來(lái)研究如果能在不同的地區(qū)(城市、農(nóng)村)、不同水平的學(xué)校(重點(diǎn)、普通)取樣, 也可能會(huì)提高模型的預(yù)測(cè)能力。第三, 提取更多的特征并嘗試其他算法。相對(duì)于以往研究, 本研究從推箱子游戲的過(guò)程數(shù)據(jù)中提取了更多樣化的指標(biāo), 包括重復(fù)狀態(tài)比例、思考次數(shù)等, 但log-file中仍有很多信息可以被挖掘。未來(lái)的研究可以嘗試提取和檢驗(yàn)更多的特征, 并可考慮采用機(jī)器學(xué)習(xí)中的回歸算法對(duì)能力傾向和學(xué)業(yè)成就進(jìn)行預(yù)測(cè)。第四, 相對(duì)于瑞文推理測(cè)驗(yàn)任務(wù), 推箱子游戲任務(wù)所包含的認(rèn)知加工過(guò)程更加多樣化, 更具動(dòng)態(tài)性, 未來(lái)研究可以考慮結(jié)合眼動(dòng)或者fMRI技術(shù)對(duì)這一游戲任務(wù)所涉及的心理加工過(guò)程進(jìn)行更深入的考察, 從而指導(dǎo)研究者構(gòu)造出更多有實(shí)質(zhì)意義的特征, 為能力的個(gè)體差異的預(yù)測(cè)提供更有價(jià)值的預(yù)測(cè)源, 甚至通過(guò)機(jī)器學(xué)習(xí)建模來(lái)替代某些傳統(tǒng)能力測(cè)量工具。

    5 結(jié)論

    (1) 可以利用游戲 log-file收集受測(cè)者在任務(wù)中的過(guò)程性數(shù)據(jù), 并利用機(jī)器學(xué)習(xí)算法進(jìn)行分析。

    (2) 機(jī)器學(xué)習(xí)建立的區(qū)分模型對(duì)數(shù)學(xué)成績(jī)和推理能力具有較好的預(yù)測(cè)效果, 利用電腦所記錄的游戲過(guò)程數(shù)據(jù)可以對(duì)個(gè)體的能力進(jìn)行較為有效的預(yù)測(cè)。

    參 考 文 獻(xiàn)

    Baumert, A., Schl?sser, T., & Schmitt, M. (2014). Economic games: A performance-based assessment of fairness and altruism.European Journal of Psychological Assessment,30(3), 178–192.

    Berg, W. K., & Byrd, D. L. (2002). The Tower of London spatial problem-solving task: Enhancing clinical and research implementation.Journal of Clinical and Experimental Neuropsychology, 24(5), 586–604.

    Bors, D. A., & Vigneau, F. (2003). The effect of practice on Raven's Advanced Progressive Matrices.Learning and Individual Differences, 13(4), 291–312.

    Breiman, L. (2001). Random forests.Machine Learning, 45(1),5–32.

    Cassady, J. C., & Johnson, R. E. (2002). Cognitive test anxiety and academic performance.Contemporary Educational Psychology, 27(2), 270–295.

    Csapó, B., Ainley, J., Bennett, R. E., Latour, T., & Law, N.(2012). Technological issues for computer-based assessment.In P. Griffin, B. McGaw, & E. Care (Eds.),Assessment and teaching of 21st century skills(pp. 143–230). Dordrecht:Springer.

    DiCerbo, K. E., & Behrens, J. T. (2012). Implications of the digital ocean on current and future assessment. In R. W.Lissitz & H. Jiao (Eds.),Computers and their impact on state assessments: Recent history and predictions for the future(pp. 273–306). Charlotte, NC: Information Age Publishing.

    Di Giunta, L., Alessandri, G., Gerbino, M., Kanacri, P. L.,Zuffiano, A., & Caprara, G. V. (2013). The determinants of scholastic achievement: The contribution of personality traits, self-esteem, and academic self-efficacy.Learning and Individual Differences, 27, 102–108.

    Duncan, G. J., Dowsett, C. J., Claessens, A., Magnuson, K.,Huston, A. C., Klebanov, P., ... Japel, C. (2007). School readiness and later achievement.Developmental Psychology,43(6), 1428–1446.

    Greiff, S., Wüstenberg, S., & Avvisati, F. (2015).Computer-generated log-file analyses as a window into students' minds? A showcase study based on the PISA 2012 assessment of problem solving.Computers & Education,91, 92–105.

    Harrington, P. (2013).Machine learning in action(R. Li, P. Li,Y. D. Qu, & B. Wang, Trans.). Beijing, China: Posts &Telecom Press.

    [Harrington, P. (2013). 機(jī)器學(xué)習(xí)實(shí)戰(zhàn) (李銳, 李鵬, 曲亞?wèn)|,王斌 譯). 北京: 人民郵電出版社.]

    Hausknecht, J. P., Halpert, J. A., Di Paolo, N. T., & Moriarty Gerrard, M. O. (2007). Retesting in selection: A metaanalysis of coaching and practice effects for tests of cognitive ability.Journal of Applied Psychology, 92(2), 373–385.

    Heinzen, T. E., Landrum, R. E., Gurung, R. A. R., & Dunn, D.S. (2015). Game-based assessment: The mash-up we've been waiting for. In T. Reiners & L. C. Wood (Eds.),Gamification in education and business(pp. 201–217).Switzerland: Springer International Publishing.

    Hembree, R. (1988). Correlates, causes, effects, and treatment of test anxiety.Review of Educational Research, 58(1),47–77.

    Ikeda, M., Iwanaga, M., & Seiwa, H. (1996). Test anxiety and working memory system.Perceptual and Motor Skills,82(3), 1223–1231.

    Judd, L. L., Schettler, P. J., & Rush, A. J. (2016). A brief clinical tool to estimate individual patients’ risk of depressive relapse following remission: Proof of concept.American Journal of Psychiatry, 173(11), 1140–1146.

    Keogh, E., & French, C. C. (2001). Test anxiety, evaluative stress, and susceptibility to distraction from threat.European Journal of Personality, 15(2), 123–141.

    Kinnunen, R., & Vauras, M. (1995). Comprehension monitoring and the level of comprehension in high-and low-achieving primary school children's reading.Learning and Instruction,5(2), 143–165.

    K?stering, L., Schmidt, C. S. M., Egger, K., Amtage, F., Peter,J., Kl?ppel, S., ... Kaller, C. P. (2015). Assessment of planning performance in clinical samples: Reliability and validity of the Tower of London task (TOL-F).Neuropsychologia, 75,646–655.

    Li, J., Zhang, B., Du, H., Zhu, Z., & Li, Y. M. (2015).Metacognitive planning: Development and validation of an online measure.Psychological Assessment, 27(1), 260–271.

    Moharil, B., Gokhale, C., Ghadge, V., Tambvekar, P., Pundlik, S.,& Rai, G. (2014). Real time generalized log file management and analysis using pattern matching and dynamic clustering.International Journal of Computer Applications, 91(16),1–6.

    Neisser, U. (1997). Rising scores on intelligence tests: Test scores are certainly going up all over the world, but whether intelligence itself has risen remains controversial.American Scientist, 85(5), 440–447.

    Pedregosa, F., Varoquaux, G., Gramfort, A., Michel, V.,Thirion, B., Grisel, O., ... Duchesnay, é. (2011).Scikit-learn: Machine learning in python.Journal of Machine Learning Research, 12, 2825–2830.

    Pressley, M., & Afflerbach, P. (1995).Verbal protocols of reading: The nature of constructively responsive reading.Hillsdale, N.J.: Erlbaum.

    Raven, J. (1989). The raven progressive matrices: A review of national norming studies and ethnic and socioeconomic variation within the united-states.Journal of Educational Measurement, 26(1), 1–16.

    Schmidt, F. L. (2002). The role of general cognitive ability and job performance: Why there cannot be a debate.Human Performance, 15(1–2), 187–210.

    Sonnleitner, P., Brunner, M., Greiff, S., Funke, J., Keller, U.,Martin, R., ... Latour, T. (2012). TheGenetics Lab:Acceptance and psychometric characteristics of a computerbased microworld assessing complex problem solving.Psychological Test and Assessment Modeling, 54(1), 54–72.

    Tan, P. N., Steinbach, M., & Kumar, V. (2006).Introduction to data mining. India: Pearson Education.

    Tenorio Delgado, M., Arango Uribe, P., Aparicio Alonso, A.,& Rosas Díaz, R. (2016). TENI: A comprehensive battery for cognitive assessment based on games and technology.Child Neuropsychology, 22(3), 276–291.

    Veenman, M. V. J., Wilhelm, P., & Beishuizen, J. J. (2004).The relation between intellectual and metacognitive skills from a developmental perspective.Learning and Instruction,14(1), 89–109.

    Veenman, M. V. J., Bavelaar, L., De Wolf, L., & van Haaren,M. G. P. (2014). The on-line assessment of metacognitive skills in a computerized learning environment.Learning and Individual Differences, 29, 123–130.

    Ventura, M., & Shute, V. (2013). The validity of a game-based assessment of persistence.Computers in Human Behavior,29(6), 2568–2572.

    Wu, Y. Y., Kosinski, M., & Stillwell, D. (2015). Computerbased personality judgments are more accurate than those made by humans.Proceedings of the National Academy of Sciences of the United States of America, 112(4), 1036–1040.

    Zhang, B., Li, J., Xu, C., & Li, Y. M. (2014). The developmental differences of problem solving ability between intellectuallygifted and intellectually-average children aged from 11-14 years old.Acta Psychologica Sinica, 46, 1823–1834.

    [張博, 黎堅(jiān), 徐楚, 李一茗. (2014). 11~14歲超常兒童與普通兒童問(wèn)題解決能力的發(fā)展比較.心理學(xué)報(bào), 46, 1823–1834.]

    Zhang, Z., Song, Y. F., Cui, L. Q., Liu, X. Q., & Zhu, T. S.(2016). Emotion recognition based on customized smart bracelet with built-in accelerometer.PeerJ, 4, e2258.

    猜你喜歡
    受測(cè)者步數(shù)測(cè)驗(yàn)
    速度和步數(shù),哪個(gè)更重要
    怒氣沖沖 或因睡不好
    楚國(guó)的探索之旅
    奇妙博物館(2021年4期)2021-05-04 08:59:48
    新媒體科研環(huán)境下自發(fā)式科研協(xié)同行為機(jī)制研究
    微信運(yùn)動(dòng)步數(shù)識(shí)人指南
    小演奏家(2018年9期)2018-12-06 08:42:02
    《新年大測(cè)驗(yàn)》大揭榜
    兩個(gè)處理t測(cè)驗(yàn)與F測(cè)驗(yàn)的數(shù)學(xué)關(guān)系
    考試周刊(2016年88期)2016-11-24 13:30:50
    你知道嗎?
    淘寶排行榜
    你知道嗎
    欧美精品亚洲一区二区| 欧美激情极品国产一区二区三区| 男的添女的下面高潮视频| 国产精品秋霞免费鲁丝片| www.精华液| 国产在视频线精品| 男女午夜视频在线观看| 伦理电影大哥的女人| 国产精品国产三级专区第一集| 亚洲内射少妇av| 99久久综合免费| 亚洲国产欧美日韩在线播放| 大香蕉久久网| 亚洲国产av新网站| 日韩中字成人| 美女国产视频在线观看| 精品少妇久久久久久888优播| 咕卡用的链子| 国产无遮挡羞羞视频在线观看| 久久狼人影院| 亚洲一区二区三区欧美精品| 久久影院123| 九色亚洲精品在线播放| 18禁国产床啪视频网站| 久久99蜜桃精品久久| av一本久久久久| 国产精品久久久久久精品电影小说| 老女人水多毛片| 色94色欧美一区二区| 国产欧美日韩综合在线一区二区| 国产免费视频播放在线视频| 熟妇人妻不卡中文字幕| 99精国产麻豆久久婷婷| 精品午夜福利在线看| 一本大道久久a久久精品| 国产野战对白在线观看| 在线看a的网站| 亚洲成国产人片在线观看| 丰满少妇做爰视频| 亚洲第一av免费看| 久久免费观看电影| 欧美另类一区| 亚洲精品在线美女| 免费大片黄手机在线观看| 麻豆av在线久日| 国产精品欧美亚洲77777| 成年人午夜在线观看视频| 亚洲欧美色中文字幕在线| 99精国产麻豆久久婷婷| 熟女少妇亚洲综合色aaa.| 国产免费视频播放在线视频| 久久精品国产a三级三级三级| videosex国产| av又黄又爽大尺度在线免费看| 久久青草综合色| 精品少妇一区二区三区视频日本电影 | 久久国产精品男人的天堂亚洲| 国产成人精品在线电影| 久久久久视频综合| 老司机影院成人| 国产精品蜜桃在线观看| av在线老鸭窝| 精品一区二区三卡| 亚洲第一av免费看| 亚洲成av片中文字幕在线观看 | 色婷婷av一区二区三区视频| √禁漫天堂资源中文www| 亚洲精品av麻豆狂野| 亚洲精品日本国产第一区| 韩国av在线不卡| 国产野战对白在线观看| 欧美激情 高清一区二区三区| 国产免费福利视频在线观看| 国产一区亚洲一区在线观看| 久久久久精品性色| 亚洲男人天堂网一区| 午夜av观看不卡| 日本爱情动作片www.在线观看| 999精品在线视频| 看免费成人av毛片| 女人精品久久久久毛片| 亚洲国产精品成人久久小说| 宅男免费午夜| 免费在线观看黄色视频的| av卡一久久| 久久精品国产a三级三级三级| 国产av精品麻豆| 女人精品久久久久毛片| 一级a爱视频在线免费观看| 亚洲精品一二三| 成人手机av| 人人妻人人添人人爽欧美一区卜| 久久精品国产a三级三级三级| 国产熟女欧美一区二区| 熟女少妇亚洲综合色aaa.| 一二三四在线观看免费中文在| 久久毛片免费看一区二区三区| 18在线观看网站| 黑人欧美特级aaaaaa片| 男人舔女人的私密视频| 国产成人精品久久二区二区91 | 日日摸夜夜添夜夜爱| 老熟女久久久| 黑丝袜美女国产一区| 中国三级夫妇交换| 亚洲欧美一区二区三区国产| 老汉色av国产亚洲站长工具| 中国三级夫妇交换| 三级国产精品片| 国产精品二区激情视频| 亚洲国产av影院在线观看| av电影中文网址| 欧美97在线视频| 精品人妻偷拍中文字幕| 啦啦啦中文免费视频观看日本| 自线自在国产av| 精品国产露脸久久av麻豆| av又黄又爽大尺度在线免费看| 水蜜桃什么品种好| 国产在线免费精品| 亚洲综合色网址| 国产精品免费视频内射| 久久久久精品人妻al黑| 一本色道久久久久久精品综合| 国产片特级美女逼逼视频| 另类亚洲欧美激情| 国产精品秋霞免费鲁丝片| 欧美人与性动交α欧美软件| av视频免费观看在线观看| 国产黄频视频在线观看| 人妻人人澡人人爽人人| 亚洲欧美成人精品一区二区| 日韩制服骚丝袜av| 国产精品免费视频内射| 欧美激情极品国产一区二区三区| 十分钟在线观看高清视频www| 五月天丁香电影| 国产av一区二区精品久久| 国产精品成人在线| 久久国内精品自在自线图片| 亚洲视频免费观看视频| 亚洲综合色惰| 少妇熟女欧美另类| 老司机影院毛片| 日韩av免费高清视频| 少妇人妻久久综合中文| 水蜜桃什么品种好| 五月开心婷婷网| 免费不卡的大黄色大毛片视频在线观看| 99久国产av精品国产电影| 赤兔流量卡办理| 婷婷色综合大香蕉| 国产老妇伦熟女老妇高清| 18+在线观看网站| 青草久久国产| 毛片一级片免费看久久久久| 久热这里只有精品99| 两性夫妻黄色片| 黄色怎么调成土黄色| 99久久人妻综合| 国产成人精品久久久久久| 亚洲欧洲精品一区二区精品久久久 | 久久精品国产综合久久久| 亚洲第一av免费看| 26uuu在线亚洲综合色| 婷婷色综合www| av视频免费观看在线观看| 99香蕉大伊视频| 亚洲精品国产av成人精品| 午夜免费观看性视频| 亚洲熟女精品中文字幕| 国产精品久久久久久精品电影小说| 国产成人一区二区在线| 又粗又硬又长又爽又黄的视频| 建设人人有责人人尽责人人享有的| 看十八女毛片水多多多| 亚洲欧洲精品一区二区精品久久久 | 日韩一区二区三区影片| 黄频高清免费视频| 亚洲精品乱久久久久久| 狂野欧美激情性bbbbbb| 精品国产露脸久久av麻豆| 国产人伦9x9x在线观看 | 一级片'在线观看视频| 另类精品久久| 午夜福利网站1000一区二区三区| 毛片一级片免费看久久久久| 午夜福利乱码中文字幕| 欧美人与性动交α欧美精品济南到 | 亚洲图色成人| 欧美日韩成人在线一区二区| 99久久精品国产国产毛片| 国产精品不卡视频一区二区| 中文精品一卡2卡3卡4更新| 韩国av在线不卡| videosex国产| 青青草视频在线视频观看| 丝袜在线中文字幕| 乱人伦中国视频| 18在线观看网站| 久久久久久久久久久久大奶| 国产成人免费观看mmmm| 美女福利国产在线| 天天躁夜夜躁狠狠躁躁| 欧美激情极品国产一区二区三区| 成人黄色视频免费在线看| 我的亚洲天堂| 亚洲av综合色区一区| 亚洲精品美女久久久久99蜜臀 | 午夜福利乱码中文字幕| 久久久久久久久久久久大奶| 亚洲欧洲日产国产| 亚洲欧美一区二区三区国产| 久久久久精品人妻al黑| 一级毛片电影观看| 国产成人精品一,二区| 国产一区二区三区av在线| 夜夜骑夜夜射夜夜干| 欧美人与善性xxx| 国产一区亚洲一区在线观看| 久久精品国产a三级三级三级| 视频在线观看一区二区三区| 99九九在线精品视频| 宅男免费午夜| 18禁裸乳无遮挡动漫免费视频| 国产精品一二三区在线看| 香蕉丝袜av| 色视频在线一区二区三区| 少妇精品久久久久久久| 免费在线观看黄色视频的| 国产黄色视频一区二区在线观看| 女性生殖器流出的白浆| 国产人伦9x9x在线观看 | 欧美精品av麻豆av| 免费少妇av软件| 国产极品粉嫩免费观看在线| 激情视频va一区二区三区| 日本-黄色视频高清免费观看| 久久综合国产亚洲精品| 午夜福利乱码中文字幕| 精品久久蜜臀av无| 乱人伦中国视频| 免费人妻精品一区二区三区视频| 97人妻天天添夜夜摸| 成人亚洲精品一区在线观看| 丰满迷人的少妇在线观看| 波多野结衣av一区二区av| 午夜av观看不卡| 国产片特级美女逼逼视频| 国产白丝娇喘喷水9色精品| 精品一区在线观看国产| 青春草视频在线免费观看| 99热国产这里只有精品6| 国产黄色视频一区二区在线观看| 满18在线观看网站| 一本久久精品| 女人久久www免费人成看片| 免费av中文字幕在线| 老熟女久久久| 精品国产乱码久久久久久小说| 国产成人aa在线观看| 国产有黄有色有爽视频| av国产久精品久网站免费入址| 一本一本久久a久久精品综合妖精 国产伦在线观看视频一区 | 黄网站色视频无遮挡免费观看| 久久人妻熟女aⅴ| 免费观看无遮挡的男女| 十八禁网站网址无遮挡| 日韩av免费高清视频| 亚洲少妇的诱惑av| 亚洲国产av新网站| 免费黄网站久久成人精品| 汤姆久久久久久久影院中文字幕| 欧美精品亚洲一区二区| 日本免费在线观看一区| 亚洲欧美一区二区三区久久| 国产一区二区激情短视频 | 久久久国产精品麻豆| 在线观看国产h片| 国产成人精品一,二区| 免费播放大片免费观看视频在线观看| 欧美成人精品欧美一级黄| a级毛片在线看网站| 99久久精品国产国产毛片| 日韩熟女老妇一区二区性免费视频| 国产视频首页在线观看| 赤兔流量卡办理| 成年女人毛片免费观看观看9 | 大话2 男鬼变身卡| 夜夜骑夜夜射夜夜干| 性高湖久久久久久久久免费观看| xxxhd国产人妻xxx| 人人妻人人爽人人添夜夜欢视频| 亚洲av电影在线观看一区二区三区| 亚洲少妇的诱惑av| 性少妇av在线| 女人被躁到高潮嗷嗷叫费观| 香蕉国产在线看| 久久久久国产精品人妻一区二区| a级毛片在线看网站| 不卡av一区二区三区| 人人妻人人澡人人爽人人夜夜| 国产综合精华液| 国产精品久久久av美女十八| 日日撸夜夜添| av在线app专区| 国产极品粉嫩免费观看在线| 精品99又大又爽又粗少妇毛片| 欧美日韩成人在线一区二区| 建设人人有责人人尽责人人享有的| 欧美精品人与动牲交sv欧美| 777久久人妻少妇嫩草av网站| 精品国产乱码久久久久久男人| 免费观看无遮挡的男女| 美女高潮到喷水免费观看| 亚洲情色 制服丝袜| 日韩一区二区视频免费看| 久久久久视频综合| 国产成人精品一,二区| 美女国产视频在线观看| 91成人精品电影| 少妇人妻 视频| 女的被弄到高潮叫床怎么办| 少妇被粗大猛烈的视频| 999精品在线视频| 在线观看免费日韩欧美大片| 麻豆乱淫一区二区| 日韩一本色道免费dvd| 国产片特级美女逼逼视频| 黄频高清免费视频| 老司机亚洲免费影院| 精品国产一区二区三区久久久樱花| 久久韩国三级中文字幕| 人人妻人人澡人人爽人人夜夜| 亚洲精品av麻豆狂野| 精品少妇黑人巨大在线播放| 成人漫画全彩无遮挡| 欧美变态另类bdsm刘玥| www.熟女人妻精品国产| 国产成人午夜福利电影在线观看| 国产片内射在线| 精品人妻在线不人妻| 777米奇影视久久| 日本91视频免费播放| 国产熟女午夜一区二区三区| 妹子高潮喷水视频| 国产一区二区三区av在线| 建设人人有责人人尽责人人享有的| 男女边摸边吃奶| 国产精品99久久99久久久不卡 | 色哟哟·www| 美女中出高潮动态图| 啦啦啦在线观看免费高清www| 丁香六月天网| 日韩中文字幕视频在线看片| 亚洲国产毛片av蜜桃av| av又黄又爽大尺度在线免费看| 最近的中文字幕免费完整| 美女中出高潮动态图| 久久99精品国语久久久| www.精华液| 亚洲少妇的诱惑av| av在线观看视频网站免费| 丰满少妇做爰视频| 18禁国产床啪视频网站| 中国三级夫妇交换| 欧美亚洲日本最大视频资源| 国产成人精品久久久久久| 精品少妇久久久久久888优播| 亚洲第一av免费看| 美女主播在线视频| a级毛片黄视频| 久久久久久久久久久免费av| 久久久久久久精品精品| 久久久久国产网址| 精品卡一卡二卡四卡免费| 人人妻人人澡人人爽人人夜夜| 大片免费播放器 马上看| 老司机影院毛片| 亚洲欧美一区二区三区久久| 成年美女黄网站色视频大全免费| 丝袜脚勾引网站| a级毛片在线看网站| 侵犯人妻中文字幕一二三四区| a级毛片在线看网站| 久久久久国产精品人妻一区二区| 久久精品亚洲av国产电影网| 国产精品一二三区在线看| 黄片无遮挡物在线观看| 女的被弄到高潮叫床怎么办| 精品一区二区免费观看| 久久久a久久爽久久v久久| 久久久久视频综合| 日韩欧美一区视频在线观看| 制服人妻中文乱码| 久久久久精品人妻al黑| 久久午夜福利片| 国产av码专区亚洲av| 不卡av一区二区三区| 纵有疾风起免费观看全集完整版| 久久人人爽人人片av| 91国产中文字幕| 黄色 视频免费看| 国产欧美日韩综合在线一区二区| 极品少妇高潮喷水抽搐| 可以免费在线观看a视频的电影网站 | 免费少妇av软件| www.精华液| 国产又爽黄色视频| 26uuu在线亚洲综合色| 99热全是精品| 日韩一本色道免费dvd| 韩国av在线不卡| 亚洲美女黄色视频免费看| 欧美日韩亚洲高清精品| 日日撸夜夜添| 在线观看免费视频网站a站| 男女高潮啪啪啪动态图| 精品人妻熟女毛片av久久网站| 久久精品久久精品一区二区三区| 国产精品一区二区在线观看99| 午夜福利影视在线免费观看| 老鸭窝网址在线观看| 久久精品夜色国产| 超色免费av| 丝袜在线中文字幕| 久久久久久伊人网av| 免费少妇av软件| 国产精品 欧美亚洲| 免费看不卡的av| 天美传媒精品一区二区| 亚洲成人av在线免费| 免费日韩欧美在线观看| 视频在线观看一区二区三区| 成人二区视频| 久久久久久伊人网av| 国产色婷婷99| 两个人看的免费小视频| av有码第一页| 在现免费观看毛片| freevideosex欧美| 亚洲国产成人一精品久久久| 日韩大片免费观看网站| 另类亚洲欧美激情| 中文字幕av电影在线播放| 99国产综合亚洲精品| 成年人午夜在线观看视频| 这个男人来自地球电影免费观看 | 久久久久精品人妻al黑| 一级毛片我不卡| 国产福利在线免费观看视频| 国产男女内射视频| 久热这里只有精品99| 久久综合国产亚洲精品| 波野结衣二区三区在线| 又黄又粗又硬又大视频| 1024视频免费在线观看| 国产精品久久久久久久久免| 久久久久久伊人网av| 青春草视频在线免费观看| av天堂久久9| www.av在线官网国产| 一区二区三区乱码不卡18| 日韩,欧美,国产一区二区三区| 91精品国产国语对白视频| 国产熟女欧美一区二区| 免费黄色在线免费观看| 日韩精品有码人妻一区| 男人添女人高潮全过程视频| 9色porny在线观看| 成人亚洲欧美一区二区av| 亚洲精品日本国产第一区| 欧美亚洲 丝袜 人妻 在线| 午夜精品国产一区二区电影| 少妇的丰满在线观看| 少妇的逼水好多| 久久97久久精品| 狠狠婷婷综合久久久久久88av| 九色亚洲精品在线播放| 26uuu在线亚洲综合色| 国产一区有黄有色的免费视频| 国产亚洲最大av| 国产成人精品福利久久| 老司机影院成人| 亚洲精品,欧美精品| 国产爽快片一区二区三区| 亚洲综合色惰| 亚洲人成网站在线观看播放| 卡戴珊不雅视频在线播放| 免费观看av网站的网址| 亚洲精品成人av观看孕妇| 久久精品久久久久久噜噜老黄| 国产日韩欧美在线精品| 久久久久久久久免费视频了| 国产熟女欧美一区二区| 麻豆精品久久久久久蜜桃| 精品国产一区二区久久| 久热这里只有精品99| 国产av国产精品国产| 亚洲第一区二区三区不卡| 国产乱来视频区| 亚洲欧美成人综合另类久久久| 美女中出高潮动态图| 欧美日韩视频高清一区二区三区二| 99精国产麻豆久久婷婷| 亚洲精品成人av观看孕妇| 亚洲欧洲国产日韩| 秋霞伦理黄片| 91精品国产国语对白视频| 亚洲精品aⅴ在线观看| 999精品在线视频| 免费不卡的大黄色大毛片视频在线观看| 亚洲精华国产精华液的使用体验| 亚洲国产欧美网| 天天躁夜夜躁狠狠久久av| 如何舔出高潮| 国产成人精品婷婷| 久久久久国产网址| 亚洲国产色片| 美女主播在线视频| 男女无遮挡免费网站观看| 久久精品久久精品一区二区三区| 在线看a的网站| 国产成人欧美| av网站在线播放免费| 日本黄色日本黄色录像| 老司机亚洲免费影院| 一区在线观看完整版| 一级爰片在线观看| 国产成人av激情在线播放| 免费观看av网站的网址| 亚洲精品中文字幕在线视频| 久久久久视频综合| 亚洲精品美女久久久久99蜜臀 | 色播在线永久视频| 亚洲一区二区三区欧美精品| 十八禁高潮呻吟视频| 久久久久人妻精品一区果冻| 精品国产露脸久久av麻豆| 黄网站色视频无遮挡免费观看| 亚洲av男天堂| 高清视频免费观看一区二区| 热99国产精品久久久久久7| 男人操女人黄网站| 亚洲国产看品久久| 中文字幕av电影在线播放| 中文天堂在线官网| 丝瓜视频免费看黄片| 91久久精品国产一区二区三区| 色94色欧美一区二区| 精品少妇一区二区三区视频日本电影 | 免费高清在线观看视频在线观看| 国产亚洲精品第一综合不卡| 天堂8中文在线网| 精品国产乱码久久久久久男人| 激情视频va一区二区三区| 国产精品人妻久久久影院| 日韩,欧美,国产一区二区三区| 曰老女人黄片| 日本wwww免费看| 国产精品不卡视频一区二区| 免费在线观看视频国产中文字幕亚洲 | 下体分泌物呈黄色| 美女主播在线视频| 一区二区日韩欧美中文字幕| 丝袜美足系列| 亚洲精品,欧美精品| 国产精品麻豆人妻色哟哟久久| 中文字幕最新亚洲高清| 黄频高清免费视频| 中文字幕亚洲精品专区| 免费av中文字幕在线| 最近中文字幕2019免费版| 国产无遮挡羞羞视频在线观看| 欧美精品国产亚洲| 色94色欧美一区二区| 国产乱来视频区| av又黄又爽大尺度在线免费看| 免费大片黄手机在线观看| 一级a爱视频在线免费观看| 七月丁香在线播放| 久久精品国产亚洲av涩爱| 国产精品久久久久久精品电影小说| 亚洲av成人精品一二三区| 亚洲精华国产精华液的使用体验| 99久久精品国产国产毛片| 少妇被粗大猛烈的视频| 午夜免费男女啪啪视频观看| 中文字幕精品免费在线观看视频| 一区在线观看完整版| 国产av一区二区精品久久| av电影中文网址| 日本午夜av视频| 80岁老熟妇乱子伦牲交| 最近手机中文字幕大全| 欧美日韩精品成人综合77777| 亚洲精品久久成人aⅴ小说| 国产成人a∨麻豆精品| 亚洲人成电影观看| 国产色婷婷99| 久久午夜福利片| 男人操女人黄网站| 欧美变态另类bdsm刘玥| 欧美人与性动交α欧美软件| 免费在线观看黄色视频的| 久久亚洲国产成人精品v| 亚洲精品日本国产第一区| 国产一区二区在线观看av| 在线精品无人区一区二区三| 亚洲四区av| 久久久精品国产亚洲av高清涩受| 人人妻人人爽人人添夜夜欢视频| 久久久久精品性色| 99久久中文字幕三级久久日本| 国产在线免费精品|