• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于過程數據的問題解決能力測量及數據分析方法*

    2022-03-15 03:31:54劉耀輝徐慧穎陳琦鵬詹沛達
    心理科學進展 2022年3期
    關鍵詞:測量能力

    劉耀輝 徐慧穎 陳琦鵬 詹沛達,2

    ·研究方法(Research Method)·

    基于過程數據的問題解決能力測量及數據分析方法*

    劉耀輝1徐慧穎1陳琦鵬1詹沛達1,2

    (1浙江師范大學教師教育學院心理學系;2浙江省智能教育技術與應用重點實驗室, 金華 321004)

    問題解決能力是指在沒有明顯解決方法的情況下個體從事認知加工以理解和解決問題情境的能力。對問題解決能力的測量需要借助相對更復雜、更真實、具有可交互性的問題情境來誘導問題解決行為的呈現。使用虛擬測評抓取問題解決的過程數據并分析其中所蘊含的潛在信息是當前心理計量學中測量問題解決能力的新趨勢。首先, 回顧問題解決能力測量方式的發(fā)展:從紙筆測驗到虛擬測評。然后, 總結對比兩類過程數據的分析方法:統計建模法和數據挖掘法。最后, 從非認知因素的影響、多模態(tài)數據的利用、問題解決能力發(fā)展的測量、其他高階思維能力的測量和問題解決能力概念及結構的界定五個方面展望未來可能的研究方向。

    問題解決能力, 過程數據, 虛擬測評, 計算機化測驗, 高階思維能力

    1 引言

    “在現代社會里, 所有生活都是問題解決(In modern societies, all of life is problem solving)” (p.13, OECD, 2014)。Mayer (1990)將問題解決(problem solving)定義為在沒有明顯解決方法的情況下, 將一個給定情境轉換為目標情境的認知加工過程?;诖? OECD (2013)將問題解決能力(problem- solving competence)1不同研究對“competence”一詞的翻譯存在差異, 其譯文包括但不限于“能力”、“素養(yǎng)”和“勝任力”; 針對問題解決這一特定主題, 作者認為將“competence”譯為“能力”更合適也更通俗易懂。但同時也請讀者留意其與“ability”和“capacity”等詞的差異性。定義為在沒有明顯解決方法的情況下個體從事認知加工以理解和解決問題情境的能力; 同時包括個體參與問題解決的意愿。其中, 認知加工可進一步細分為(1)探索和理解(exploring and understanding)、(2)表征和構想(representing and formulating)、(3)計劃和執(zhí)行(planning and executing)和(4)監(jiān)測和反思(monitoring and reflecting)。我國也于2016年發(fā)布的《中國學生發(fā)展核心素養(yǎng)》明確將問題解決作為實踐創(chuàng)新的基本點之一, 強調學生要“善于發(fā)現和提出問題, 有解決問題的興趣和熱情; 能依據特定情境和具體條件, 選擇制訂合理的解決方案; 具有在復雜環(huán)境中行動的能力等”。

    區(qū)別于利用特定領域或問題情境的專業(yè)知識或技能的能力, 問題解決能力聚焦于能處理真實生活中所遇問題的認知技能, 其包括在環(huán)境中獲取和使用新知識的能力或采用新方式結合個體已有的知識去解決新問題的能力。作為一種不局限于特定問題(任務)情境的一般化能力, 問題解決能力所涉及的內容遠不止對個體所積累的知識的再現, 它還涉及到對認知和實踐技能、創(chuàng)造力和其他社會心理資源(比如態(tài)度、動機和價值觀)的調動(OECD, 2013)。另外, OECD (2013)對問題解決能力的定義強調個體在解決問題時的認知加工過程, 并明確指出“學生對評估題目的作答——他們的探索策略, 在建模問題時使用的表征, 數字和非數字答案, 或對問題如何解決的擴展解釋——將用于推斷他們所采用的認知加工過程” (OECD, 2013, p.122)。

    問題解決能力作為一種重要的高階思維能力2高階思維是指發(fā)生在較高層次水平上的認知活動, 包括批判性思維、創(chuàng)造性思維、問題解決和決策等, 其不僅影響著個體在學業(yè)或事業(yè)上的表現, 也是當代社會發(fā)展對人才的基本要求(鐘志賢, 2004; Brookhart, 2010; Carroll & Harris, 2020)。(Autor & Dorn, 2009), 是個體適應社會與生活的必備特質, 也是個體勝任未來工作的核心能力之一。換句話說, 具有高水平問題解決能力的人才是促進新時代社會進步的主要動力。然而, 對問題解決能力的測量需要依托于真實的、復雜的、具有可交互性的問題情境(任務), 以充分展現問題解決的過程并保證測量的效度; 因此, 如何實現對個體問題解決能力的客觀測量不僅對傳統的心理測量方式(例如, 采用諸如李克特式題目的紙筆測驗)提出了挑戰(zhàn), 也對傳統的心理測量數據分析方法和理論(例如, 經典測量理論(classical test theory, CTT)和題目作答理論(item response theory, IRT))提出了挑戰(zhàn)。

    面對信息智能時代的全新挑戰(zhàn), 提升高階思維能力、落實核心素養(yǎng), 并建構與之相應的新測評體系顯得尤為迫切。近些年, 隨著心理與教育測量理論與應用研究的發(fā)展, 尤其是近兩年受新冠肺炎(COVID-19)疫情的影響, 計算機(網絡)化測評形式逐漸成為人們的關注焦點和現實需求。虛擬測評(virtual assessment)是指在計算機化虛擬環(huán)境中進行的, 可利用虛擬環(huán)境特性的測評方式(Agard & von Davier, 2018), 常見的有情景化(scenario-based)、模擬化(simulation-based)和游戲化(game-based)測評。虛擬測評是對傳統測評的革新, 它更具真實性、情景性和趣味性, 能夠增加學生的代入感、公平感并緩解測驗焦慮, 進而促使學生展現出“真實的自己” (Banfield & Wilkerson, 2014; Li et al., 2015)。使用虛擬測評探究學生高階思維能力或學科核心素養(yǎng)已成為心理與教育測量的新趨勢(Liu et al., 2018; Shute & Moore, 2018; 孫鑫等, 2018; 袁建林, 劉紅云, 2017)。比如, 徐俊怡和李中權(2021)對游戲化測評的概念、范式和實踐應用做了詳細的闡述; 孫鑫等人(2018)和Shute和Rahimi (2020)采用游戲化測評分別測量了學生的推理能力和創(chuàng)造力。除帶有實驗設計色彩的小規(guī)模測評外, 諸如國際學生評估項目(Programme for International Student Assessment, PISA)和美國教育進步測評(National Assessment of Educational Progress, NEAP)等大規(guī)模測評項目也已經開始使用虛擬測評工具來測量學生的高階思維能力(OECD, 2016; NCES, 2014)。比如, PISA 2012和NEAP 2014探究了學生的個體問題解決能力; PISA 2015探究了學生的合作問題解決能力; 我國國家基礎教育質量監(jiān)測也于2020年開始使用虛擬測評工具測量學生的科學探究能力。

    與傳統測評方式相比, 虛擬測評可基于日志文件(log-file)同時抓取個體作答的結果數據(outcome data)和過程數據(process data)。結果數據是指諸如題目作答精度等傳統數據; 而過程數據是指帶有時間戳(time stamp)的能夠反映個體解決問題過程的人機或人人交互數據(Bergner & von Davier, 2018; Hao et al., 2015), 包括題目層面過程數據(例如, 題目作答時間、題目操作(鼠標點擊)次數和答案修改(試錯)次數)和相對更為精細的操作層面過程數據(例如, 操作歷程、操作時間)。分析過程數據有助于了解個體的問題解決過程、探究個體的問題解決策略, 對精準診斷學習現狀、促進學習發(fā)展具有重要作用(Bergner & von Davier, 2018; Jiao et al., 2019; 袁建林, 劉紅云, 2020)。對過程數據的分析使得研究重點從探究“結果是什么”轉變?yōu)樘骄俊敖Y果是如何產生” (Greiff et al., 2015)。與關注結果數據的傳統測評相比, 額外關注過程數據的虛擬測評對傳統的測評數據分析方法提出了挑戰(zhàn)。如何合理地分析與利用過程數據, 已成為當前心理與教育測量學、教育數據挖掘和學習分析等交叉學科領域的研究新熱點與難點。

    綜上所述, 作為一種高階思維能力, 問題解決能力的測量與傳統心理特質的測量存在較大差異:前者需要借助相對更復雜、更真實、具有可交互性的問題情境來誘導問題解決行為(過程)的呈現。換句話說, 反映問題解決能力的行為樣本相比于反映傳統心理特質的更為復雜。這對問題解決能力的測量方式和相應的數據分析方法都帶來了挑戰(zhàn)。為回答如何客觀、準確地測量個體的問題解決能力, 以及如何科學、合理地分析虛擬測評中的過程數據這兩個問題, 如圖1所示, 本文將圍繞問題解決能力的測量及數據分析方法這一主題, 從(1)問題解決能力測量方式的發(fā)展以及(2)過程性數據分析方法兩個方面展開闡述, 并從非認知因素的影響、多模態(tài)數據的利用、問題解決能力的發(fā)展、其他高階思維能力的測量和問題能力解決概念及結構的界定五個方面展望未來可能的研究方向, 以期為國內學者更全面地了解問題解決能力的測量及為過程性數據的分析方法提供理論參考。

    圖1 基于虛擬測評中過程數據的問題解決能力測量

    2 問題解決能力測量方式的發(fā)展

    2.1 早期問題解決能力測量方式

    由于技術條件的限制, 早期問題解決能力測量主要采用傳統紙筆測驗方式, 其特點是基于文字表述給個體營造一定的問題情境, 常見于各學科領域內的學業(yè)成就測驗。Novak (1961)認為問題解決能力的測試應該允許被試在多個選項中選擇其認為最正確的答案, 同時對于被試的每一步選擇, 都應當給予反饋?;诖? Novak將作答環(huán)節(jié)分成三部分(如圖2), 每一部分提供給被試兩個選擇, 被試的選擇范圍被箭頭所限制, 但允許被試返回上一部分選擇其他選項。該測驗過程相當于被試需要在相互關聯的三個部分中分別做出選擇,且允許被試在不同的作答階段反思和修改之前的選擇(例題見附錄圖A1)。最后的得分由專家依據被試提交的最終答案序列給出(例如, 1→2→2為滿分)。

    圖2 Novak (1961)提出的分部作答模式(紅色為正確答案)

    紙筆測驗的優(yōu)點是易于大規(guī)模施測、測驗工具開發(fā)成本較低且對計算機編程技術的依賴程度較低; 同時, 其缺點也較為明顯:一方面是難以記錄被試解決問題的詳細過程(袁建林, 劉紅云, 2020), 另一方面是難以構建真實的、復雜的問題情境。在真實的、復雜的問題情境中往往需要問題解決者與問題情境產生實時交互, 這有助問題解決者找出問題產生的原因并做進一步的探索(Greiff et al., 2013)。

    另外, 值得注意的是, 即便是在計算機尚未普及的年代也已出現了小部分虛擬測評。如:模擬經營服裝公司的“裁縫店(tailor shop)”和充當消防隊長并負責森林消防的“消防隊長(fire chief)”系統等(Funke, 1983; Omodei & Wearing, 1995)。對于這些早期的虛擬測評, 由于其背后缺乏統一的理論指導框架, 導致它們對問題解決能力的測量結果缺乏可比較性(張生等, 2019)。對此, 一些心理學家認為在不同領域中有待解決的問題的內容和過程不盡相同, 難以提取出有關問題解決能力的全局性理論, 應專注于測量不同領域下的問題解決能力(Frensch & Funke, 2002), 如在醫(yī)療領域評估被試的病人管理能力和醫(yī)療問題解決能力的測評系統(Marshall, 1977; Diserens et al., 1986)。與之不同, 另一些持相反觀點的心理學家認為通過對問題情境的設置可以構建類似于現實生活中的問題, 進而去評估被試的綜合問題解決能力。如開發(fā)了基于計算機的情景模擬評估系統“洛豪森市(Lohhausen)3洛豪森市(Lohhausen)是用計算機模擬現實的一個問題解決評估系統, 受試者被要求擔任該市“市長”, 可以通過調整稅率、建立住房等措施來促進城市發(fā)展?!? 用于分析被試在復雜環(huán)境下的高階思維能力(Doerner, 1980)。

    21世紀初, OECD (2003)在前人研究的基礎上, 勾畫了相對全面的問題解決框架(如圖3)。該框架可分為題目設置和問題解決方案生成兩部分。在題目設置上, 問題情境應貼近個人生活或工作, 問題類型需側重不同的認知過程, 同時問題內容也要涉及到不同學科領域的知識。在問題解決方案生成上, 注重學生的內在問題解決過程和推理技能。施測形式上, 依然采用了傳統的紙筆測驗形式, 用文字和圖片來描述問題情境, 并基于每段問題表述設置不同類型的問題, 如選擇題, 簡答題等。該框架結合現有理論研究, 通過對問題類型的設置, 加大了對內在認知過程和推理技能的考量。

    圖3 OECD (2003)問題解決框架.

    整體來看, 早期問題解決能力的測量主要采用傳統紙筆測驗。但由于技術條件的限制, 紙筆測驗中以文字或圖片構建的問題情境相對缺乏真實性和情景性, 不具備實時交互功能, 難以誘發(fā)個體真正的問題解決能力??梢哉f, 面對問題解決能力的測量需求, 傳統紙筆測驗方式已心有余而力不足。對問題解決能力等其他高階思維能力的測量需求促使測量方式的發(fā)展, 對個體內在認知過程的重視和對現實問題情境模擬的追求也將提高測量的生態(tài)效度。這導致研究者對問題解決能力測量新方式的渴望, 而計算機(網絡)的高速發(fā)展為實現對問題解決能力等其他高階思維能力的測量帶來了希望。

    2.2 利用虛擬測評測量問題解決能力

    以個體為中心的測評應做到在真實情景中對個體的過程性表現進行測評, 并給予適當的反饋。比如, Diehl等人(2005)基于修訂的可觀察日常生活任務測驗(revised observed tasks of daily living)考察老年人的問題解決能力。該測驗要求被試在日常生活環(huán)境中完成藥物使用、電話使用和財務管理等任務, 由主試對觀察并記錄下的任務完成情況進行打分。雖然這種基于真實情景的施測方式提高了測驗的生態(tài)效度, 但其施測成本和對主試的高要求阻礙了該測驗的大規(guī)模的使用。鑒于在真實情景中進行大規(guī)模施測缺乏可操作性(例如, 成本過高、數據記錄不全等), 可在大規(guī)模測評中實時并完整抓取個體作答過程數據的虛擬測評逐漸受到人們的關注(Jiao & Lissitz, 2018)。美國心理學會也曾把利用虛擬工具(例如, 游戲)促進學習列入到2019年需要關注的10個心理學研究趨勢之中(Weir, 2018)。

    虛擬測評工具的開發(fā)是一個相對復雜的過程。相比于傳統測評工具(例如, 李克特量表), 虛擬測評工具的開發(fā)成本更高、周期更長。因此, 程序開發(fā)和測驗設計等人員在較為統一的工具開發(fā)框架下進行及時溝通是必要的。同時, 這也有助于保證測量結果之間的可比性。目前, 大多數虛擬測評工具是基于證據中心設計(evidence-centered design, ECD; Mislevy et al., 2003)框架開發(fā)的(Shute et al., 2017)。該框架認為測量是“基于證據進行推理”的過程, 其核心內容是對能力模型、證據模型和任務模型的界定。其中, 能力模型界定“測什么”, 證據模型界定“怎么測”, 任務模型界定“用什么工具測” (如圖4所示)。另外, 還有界定“如何組裝測驗”的組裝模型和“如何呈現任務”的呈現模型, 用于測驗整體的構建。該框架系統地闡明了復雜測驗設計的基本結構、各部分的內涵與功能及相互之間的關系, 適用于高階思維能力或學科核心素養(yǎng)的測評工具開發(fā)(袁建林, 劉紅云, 2017)。

    圖4 證據中心設計框架中的能力模型、證據模型和任務模型 (Zhao et al., 2015; Mislevy et al., 2003)

    比如, Zhao等人(2015)基于ECD構建了游戲化測評, 用于測量被試的問題解決能力。在能力模型中, 從“理解問題給定的條件和約束”、“規(guī)劃解決方案路徑”、“是否有效或高效率地使用工具”和“監(jiān)測和評估問題解決過程”四個方面去評估被試的問題解決能力。在任務模型中, 選用了植物大戰(zhàn)僵尸4植物大戰(zhàn)僵尸是一款策略塔防類游戲, 玩家需要收集陽光,安置不同的植物, 使用其功能以阻擋僵尸的入侵。這款游戲作為被試要完成的目標, 并設定了相應的任務難度及游戲時長(附錄圖A2)。在證據模型的界定中, 從可觀測的變量中提取了一些行為指標與能力模型建立了聯系(附錄圖A3), 并用貝葉斯網去搭建各變量之間的數學關系。該游戲測評結果與MircoDYN5MircoDYN是一個基于計算機交互式的動態(tài)問題解決評估系統, 該系統將多個任務嵌入線性結構方程框架用來評估被試的動態(tài)問題解決能力。詳細內容可見Greiff et al. (2012)。測試結果相關顯著(= 0.48,< 0.01), 基于聚合效度, 表明了該游戲化虛擬測評的有效性。

    此外, 如上文所述, 目前諸如PISA和NEAP等大規(guī)模測評項目也已經開始使用虛擬測評工具來測量學生的問題解決能力, 比如, PISA 2012和NEAP 2014探究了學生的個體問題解決能力, PISA 2015探究了學生的合作問題解決能力。以PISA 2012的一道題為例(如附錄圖A4所示), 題目呈現了一個MP3播放器, 學生需通過點擊播放器的按鈕來了解其工作原理。在此基礎上, 學生需回答題目對應的4個問題。每個問題則側重考察學生問題解決中不同的認知過程, 例如, 第一問主要考察學生對題目的探索和理解、第二問主要考察學生問題解決中的計劃和執(zhí)行能力等。該測驗通過向學生呈現生活中可能遇到的問題來實現對其問題解決能力的評估, 測評結果由系統判定和專家評分兩部分組成。同時, 大規(guī)模的國際化虛擬測評也為各國、各地區(qū)之間在人才培養(yǎng)方面提供了參考借鑒的機會。

    3 過程性數據分析方法

    鑒于虛擬測評的新穎性及過程數據的復雜性, 國內外關于過程數據的分析方法的研究均處于起步階段。經過梳理, 大體可將現有的過程數據分析方法分為兩類:數據挖掘法(data mining)和統計建模法(statistical modeling)。其中, 前者屬于探索性研究方法或歸納法, 是基于數據驅動的自下而上的研究方法, 強調從已有數據入手, 對數據進行描述、分析、總結和歸納理論, 遵循著“發(fā)現的邏輯”; 而后者屬于驗證性方法或演繹法, 是基于理論驅動的自上而下的研究方法, 強調從理論出發(fā), 生成假設, 再用數據檢驗, 接受或者拒絕假設, 遵循著“證明的邏輯”。如圖5所示, 兩種方法的使用形成了一個循環(huán)的研究過程(Johnson & Christensen, 2014), 推動著科學研究的發(fā)展。

    圖5 循環(huán)研究過程 (Johnson & Christensen, 2014)

    3.1 數據挖掘法

    基于虛擬測評產生的過程數據, 因其數據結構的不規(guī)則性和來源的復雜性, 大幅度增加了分析難度。過程數據背后蘊藏著與問題解決有關的認知加工過程, 需要采用特定的方法來挖掘和分析。數據挖掘是指從大量數據中通過算法來揭示有意義的新的關系、趨勢和模式的過程(王光宏, 蔣平, 2004), 是“從數據中發(fā)現知識規(guī)律(knowledge discovery in databases)” (Fayyad et al., 1996)的過程。通過數據挖掘來探索過程數據所蘊含的潛在信息是教育數據挖掘領域的主要研究邏輯, 目前主要涉及有監(jiān)督學習(supervised learning)算法和無監(jiān)督學習(unsupervised learning)算法這兩類。

    有監(jiān)督學習算法是通過已有的訓練樣本(即已知數據及其對應的類別)來訓練分類器(classifier), 再利用訓練后的最優(yōu)分類器將新的研究樣本映射到相應的類別中, 其中類別總數是已知且固定的。目前, 使用有監(jiān)督學習算法分析過程數據的研究還較少, 而決策樹(decision tree)是被使用相對較多的一類算法, 主要包括分類和回歸樹(CART; DiCerbo & Kidwai, 2013)及隨機森林(random forest; Hao et al., 2016; 孫鑫等, 2018)這兩種方法。比如, 為了探索可以有效預測被試反映的特征, Han等人(2019)從被試的行為序列、有策略意義的行為指標和時間維度三個方面初步提取了77個特征變量, 通過隨機森林和遞歸特征消除法篩選出13個最有高預測表現的特征變量。例如, 是否應用“一次只改變一個變量(vary one thing at a time)”策略和應用該策略的次數這兩個特征變量都能有效預測被試是否有較大概率成功解決問題。

    無監(jiān)督學習算法是在事先沒有任何訓練樣本的情況下, 直接根據研究樣本之間的相似性對樣本進行分類, 并試圖使類內差距最小化且類間差距最大化, 其中類別總數是未知且不固定的。目前, 在對個體問題解決策略進行分類時, 主要采用聚類分析(cluster analysis; Bergner et al., 2014)和自組織映射神經網絡(SOM; Soller & Stevens, 2007)。鑒于不同的無監(jiān)督學習算法可能會給出有差異的分類結果, 有研究建議同時使用多種無監(jiān)督學習算法, 比如Fossey (2017)對比了三種無監(jiān)督的學習算法, 包括-means、SOM和使用鏈接的魯棒聚類算法(ROCK); Qiao和Jiao (2018)針對同一批數據同時研究了4種有監(jiān)督學習算法(CART、隨機森林、梯度提升決策樹和支持向量機)和兩種無監(jiān)督學習算法(-means和SOM)的表現。

    該方法的優(yōu)勢在于基于訓練好的分類器或者不同的聚類規(guī)則便可快速實現對個體問題解決能力的分類, 同時應用數據挖掘算法也能快速幫助研究者從高維復雜的數據中挖掘出有統計意義的信息, 但該方法在心理學領域中的應用和推廣還需要理論基礎的支撐。一方面就數據挖掘算法而言, 其任務是從數據中挖掘隱藏在數據中的模式, 刻畫當前數據特征或構建高預測率模型(王光宏, 蔣平, 2004)。但其構建的模型或得出的結論有時并不能給我們帶來任何啟示, 甚至是無用的。對大數據的處理, 要注重對其背后含義的理解(吳忭等, 2019)。另一方面, 就數據挖掘在心理學中的應用而言, 心理學領域注重數據結果的可解釋性或其折射出的基于個體或群體的心理過程和潛在特質等。過程數據的價值在于其背后對應的心理過程, 單純的數據驅動無法在跨任務的操作中提取或者構造出可反映個體自身潛在水平的變量(He et al., 2021), 很難得出有效可靠的結論, 往往需要專家的進一步介入。比如, 在特定情景中, 需要專家界定出最優(yōu)行為序列、判斷異常行為或解讀數據分析結果(Hao et al., 2015; He et al., 2021; He & von Davier, 2016; Qiao & Jiao, 2018 )。另外, 對于特定任務下結論的有效性也應持有懷疑的態(tài)度。比如, Qiao和Jiao (2018)的研究發(fā)現所有方法均表現出滿意的分類一致性, 但在此研究中并未發(fā)現時間信息作為分類依據的重要性, 這與其他已有研究觀點不同(Chen, 2020; Molenaar et al., 2016; Ulitzsch et al., 2021)。再有, 在數據的預處理方面, 如數據的篩選、排序、編碼等, 處理方法也常常因數據類型、分析目的和選用算法的不同而不同; 對缺失數據、極端值和重復行為序列的處理也且尚無內在統一標準。

    3.2 統計建模法

    統計建模法主要是指利用人工建模的思路來分析數據的方法。在統計建模中, 一般基于理論假設構建函數模型, 同時假設觀測變量是由該模型所表達的概率法則隨機生成的(洪永淼, 汪壽陽, 2021)。通過統計模型來解釋過程數據所蘊含的潛在信息是心理計量學的主要研究邏輯(Bergner & von Davier, 2018)。符合心理計量學的基本假設:個體的內隱(潛在)特質決定其外顯行為。目前, 針對記錄下的過程數據和結果數據, 統計建模法主要包括心理計量聯合建模(psychometric joint modeling)、隱馬爾可夫建模(hidden Markov modeling)和多水平建模(multilevel modeling)等。

    心理計量聯合建模是目前最常見的題目層面過程數據分析方法。該方法的邏輯是基于IRT視角下的聯合?層級建模框架(joint-hierarchical modeling framework; van der Linden, 2007), 建構針對不同數據源(例如, 題目作答結果和題目作答時間)的心理計量模型, 然后使用多元正態(tài)分布描述多種潛在特質之間的關系。目前, 該方法分析的過程數據主要是題目作答時間?;诖? 研究者們提出了一系列的聯合模型用于探究個體潛在能力、加工速度及兩者之間的關系(Fox & Marianti, 2016; Man et al., 2019; Molenaar et al., 2018; Zhan & He, 2021; 詹沛達, 2019)。此外, 為滿足當前實踐對診斷性測評的需求, Zhan等人(2018)從認知診斷視角對聯合建模框架進行拓廣, 所提出的聯合認知診斷建??蚣茉试S研究者使用不同的高階認知診斷模型(e.g., de la Torre & Douglas, 2004)和作答時間模型(van der Linden, 2006)分別作為作答結果和作答時間的測量模型, 進而可以同時探究個體的一般學習能力、屬性、加工速度及它們之間的關系。

    隱馬爾可夫建模假設個體的解題歷程符合馬爾可夫過程并受個體潛在能力的影響, 側重對問題解決過程的建模。其中, 個體的解題歷程包括外顯的操作步驟和內在認知狀態(tài)的變化(如, 問題表征、策略使用); 馬爾可夫過程是研究離散事件動態(tài)系統狀態(tài)空間的一種方法, 是指在一個隨機過程中事物的未來狀態(tài)僅依賴于當前狀態(tài)而與過去狀態(tài)無關。Baker等人(2011)在其研究中驗證了馬爾可夫過程作為認知模型的可行性, 且馬爾科夫過程已被廣泛應用于過程數據的建模中(Shu et al., 2017)。Molenaar等人(2016)把隱馬爾可夫模型引入到聯合建??蚣苤?把個體按特定順序的作答視為馬爾可夫過程, 通過分析個體在不同題目上作答時間的變化探究他們個體內(within-subject)加工速度的變化情況。鑒于作答時間可以在一定程度上反映個體對知識的精熟程度, Wang等人(2018)在認知診斷視角下提出了高階隱馬爾可夫模型, 通過分析個體在縱向測驗上作答時間的變化測量他們的學習進步情況。實際上, 上述兩個研究所分析的仍是題目作答時間。與之不同, Shu等人(2017)針對個體的問題解決過程(操作歷程)提出了馬爾可夫IRT模型, 認為個體的當前操作與其上一步操作和其潛在能力有關。該模型把所有可能的相鄰操作行為視為操作層面“題目”, 進而根據個體在“題目”上的“作答” (例如, 是否呈現該操作)去估計其潛在能力。該模型巧妙地將個體的問題解決過程轉換為操作層面觀察分數, 實現了在單題內估計個體潛在能力, 為后續(xù)研究提供了借鑒和參考。

    在傳統心理統計中, 多水平建模(multilevel modeling)常用于分析因分層抽樣導致含有嵌套關系的數據6通常, 多水平數據的分布在個體之間不具備獨立性, 存在地理距離內、某行政區(qū)域內或者特定空間范圍內的聚集性(clustering)或相似性。。通過多水平建??蓪€體水平上個體數據之間的變異分解為班級、學?;虻貐^(qū)等不同水平上的變異, 有助剝離出造成個體之間差異的真實原因(劉紅云, 駱方, 2008)。Liu等人(2018)將該邏輯遷移至過程數據分析中, 假設由人工賦分得到的操作層面分數嵌套于個體個體水平, 并基于該邏輯提出了適用于分析操作歷程數據的多水平混合IRT模型。該研究與Shu等人(2017)類似的是需要先對個體的問題解決歷程進行人工賦分; 所不同的是該研究把所有可操作項(例如, 可選路線)視為操作層面“題目”, 把個體的特定操作行為視為操作層面“人”, 然后根據“人”在“題目”上的“作答”去估計其潛在能力。鑒于該模型同時包含了IRT模型、潛在類別模型和多水平模型的特點, 它可在單題內估計個體的問題解決能力并判斷其所采用的問題解決策略。

    除此之外, 近些年也有研究嘗試利用題目擴張技術(即將一道虛擬測評題目中正確解答所需的操作流程拆解為多個子流程(或步驟), 并將這些子流程視為相互條件獨立的虛假題目(pseudo item); 然后根據個體在解決問題過程中是否呈現出這些子流程, 對其進行賦分), 直接使用傳統的心理計量模型對過程數據進行分析(Zhan & Qiao, 2020)。這種做法雖然增加了數據預處理的難度, 但大幅度降低了數據分析的難度, 為分析過程數據提供了新思路。

    3.3 兩種方法的對比

    近些年, 在智能時代背景下, 研究者們愈發(fā)傾向于在技術增強環(huán)境(technology-enhanced environment)中探索心理與教育測量的新范式。虛擬測評和數據挖掘技術因其“智能”屬性更容易引起研究者和實踐者的關注。比如, 利用游戲化測評來測量個體的高級認知技能, 并采用數據挖掘技術分析數據以實現對個體分類(Qiao & Jiao, 2018)。實際上, 數據挖掘技術與潛變量建模在底層邏輯上存在差異:后者主要關注的是隱藏在外顯行為數據背后的潛在變量, 即假設潛在變量決定外顯行為, 并通過潛變量模型實現對兩者的聯接; 而前者僅關注外顯行為數據的分析, 通過計算數據之間的相似性或距離對數據進行分類或聚類。對數據挖掘技術而言, 因為不存在理論假設的因果關系, 所以我們難以利用其結果來反推導致該結果的原因。因此, 數據挖掘技術的結果可解釋性通常低于潛變量模型的, 而結果的可解釋性恰恰是心理與教育測量的重點。

    整體而言, 采用統計建模法分析過程數據的主要優(yōu)勢是結果的易解釋性且符合心理與教育研究的一般過程(如圖6所示); 其局限性是需要針對不同類型的過程數據分別建模, 這也導致目前針對不同類型過程數據的建模邏輯尚未統一。而數據挖掘法的主要優(yōu)勢是可以同時考慮多種過程數據, 其局限性是結果的可解釋性較差, 即無法直接報告?zhèn)€體的具體不足, 仍需采用專家判斷法做推斷。然而, 在心理與教育測量中, 尤其是在診斷性測量中, 結果的易解釋性顯得尤為重要。另外, 現有的數據挖掘方法主要是基于觀察變量進行分類, 而非基于個體的潛在特質(例如, 認知過程或知識技能)進行分類, 在數據源和數據量有限的情況下兩種分類結果并不完全等同(Liu & Cheng, 2018)。反觀, 基于潛在特質進行分類, 明確指出個體在特定的認知過程或知識技能上的不足, 有助于教師或干預者有針對性地制定補救教學或干預方案。

    圖6 心理與教育研究的一般過程

    實際上, 數據挖掘法和統計建模法各具優(yōu)勢, 在心理與教育測量中, 它們適用于解決不同的問題。前者更適用于在具有多變量且不滿足特定概率密度函數的復雜數據情境下挖掘隱藏的規(guī)律, 并依據這些規(guī)律對個體進行分類, 但同時又不需要解釋分類的具體原因的場景。比如, 在自適應學習系統中根據學生的學習時長、練習結果、內容偏好等多變量的數據進行分類, 進而推薦適合的學習內容, 或依據特定評分(級)規(guī)則對文字內容(例如, 作文)進行自動評分(級)。由于數據挖掘法解決的是分類問題, 所以采用該方法的研究常以分類結果來報告?zhèn)€體問題解決能力之間的差異(如, “正確組”、“冗余行為組”、“離群組”等; Qiao & Jiao, 2018)。相比之下, 后者更適用于在滿足特定概率密度函數的數據情境下, 基于概率密度函數構建可聯接外顯行為與潛在特質的統計模型, 并依據這些統計模型實現對個體潛在特質水平或類別的估計。比如, 針對題目作答精度數據, 基于Logistic函數構建的IRT模型, 并依據IRT模型實現對潛在能力水平的估計; 或針對題目作答時間, 基于對數正態(tài)分布函數構建題目作答時間模型, 并依據題目作答時間模型實現對潛在加工速度水平的估計。由于統計建模法以被試參數的形式來反映個體的問題解決能力, 所以采用該方法的研究對問題解決能力的報告形式是由被試參數的類型決定的。比如, Shu等人(2017)用連續(xù)潛變量表示個體的問題解決能力, Zhan和Qiao (2020)用連續(xù)變量表示個體的一般問題解決能力并用類別變量表示個體的問題解決策略。

    以基于特定問題擬將個體的問題解決能力分為“高”、“中”和“低”三個類別為例。若采用數據挖掘法, 比如有監(jiān)督學習算法, 就需要先采用專家判斷法對已知的典型行為數據打標簽(如, 包含哪些行為表現的數據可以被標記為“高”), 然后將訓練數據和對應標簽放入分類器進行訓練, 再用訓練好的分類器去分析個體解決該問題時的行為數據, 進而實現對個體問題解決能力的分類; 而若采用統計建模法, 就需要先對觀測到的行為數據進行描述性統計, 判斷其分布形態(tài)是否符合某種概率密度函數, 然后基于該概率密度函數構建同時包含反映問題解決能力的被試參數和題目參數的統計模型(其中被試參數應為類別變量), 再用所構建的模型去分析個體解決該問題時的行為數據, 進而實現對個體問題解決能力的參數估計。

    目前, 虛擬測評中過程數據的主要作用還是為測量個體的問題解決能力提供信息, 仍遵循不可觀測的問題解決能力決定可觀測的過程數據這一基本假設。鑒于統計建模法可以基于模型預先構建導致外顯行為的(理論)原因, 更適用于以結果解釋為目的應用情境, 所以針對問題解決能力測量這一議題, 統計建模法仍將發(fā)揮主要作用。波普爾指出“不是經驗的重復產生心理的信念, 而是心理的信念產生經驗的重復” (成素梅, 榮小雪, 2003, p. 15), 雖然從已有經驗、觀測數據中可以歸納出一些有用的結論和概括, 但其也僅是提供了一些可能的說法。科學發(fā)展的邏輯還須是從理論假設出發(fā), 用數據驗證理論或者推翻理論, 即遵循著“假設檢驗”的過程和“可證偽原則7可證偽原則是由波普爾提出, 其認為科學的理論應具有可證偽性。一個理論的可證偽性就是指該理論推導出的結論在邏輯上或在原則上有可能與一個或一組觀察陳述發(fā)生抵觸?!?。

    最后, 值得注意的是, 盡管我們強調基于過程數據的問題解決能力測量及數據分析方法, 但國內外相關研究似乎并沒有否定根據傳統結果數據推斷個體問題解決能力的方式, 只不過利用過程數據可以更好地呈現出被試解決問題的過程, 有助于了解個體呈現不同作答結果的歷程, 有助于更準確地推斷個體的問題解決能力。比如, 一氣呵成地解決特定問題和經過反復退改地解決同一問題的兩位學生, 盡管他們的結果是一樣的, 但他們問題解決能力很可能是不一樣的(即似乎前者更高); 而“一氣呵成”和“反復退改”正是過程數據所呈現的, 單憑結果數據無法區(qū)分兩位學生的問題解決能力。實際上, 無論是統計建模法還是數據挖掘法, 都可以聯合分析或同時利用結果數據和過程數據。比如, 在統計建模法中, 心理計量聯合建模可以聯合分析題目作答精度這一結果數據和題目作答時間這一過程數據; 在數據挖掘法中, 基于有監(jiān)督學習算法, 可以利用結果數據作為典型行為數據的標簽(如, 滿分作答結果包含哪些必要的行為過程?相比于滿分作答結果, 得到部分作答結果又缺少了哪幾個關鍵行為過程?)去訓練分類器; 而基于無監(jiān)督學習算法, 可以利用結果數據來檢驗分類的有效性(如, 探索出的類別是否較好地分離出某個測驗中的完成者和未完成者)。

    4 討論與展望

    本文對問題解決能力測量方式的發(fā)展以及虛擬測評中過程數據的分析方法進行了梳理。測評方式的轉變和過程數據的分析對問題解決能力的研究有重要意義, 一方面為研究問題解決過程及其影響因素提供了技術的支持, 另一方面也有助于實現應用過程數據對其他高階思維的測量。但目前在概念界定、數據采集和分析上仍有較大的發(fā)展空間, 未來研究者可以從非認知因素帶來的影響、多模態(tài)數據的利用、問題解決能力的發(fā)展、其他高階思維能力的測量和問題解決能力概念及結構的界定五個角度入手, 進一步豐富有關問題解決能力的測評研究。

    4.1 非認知因素對問題解決能力的影響

    李一茗和黎堅(2020)探討了復雜情境中的問題解決能力的影響因素, 認為問題解決能力不僅涉及到推理能力、工作記憶容量和加工速度等認知加工能力, 還受到個體的元認知調節(jié)、知識背景、動機和情緒等非認知因素的影響。而現有的過程數據分析方法仍主要停留在對特定認知加工過程的建模與分析上。將問題解決能力視為一個籠統的單維潛在特質或僅關注對特定認知加工過程的測量, 在測量中忽略了其他非認知因素對問題解決能力的影響。像態(tài)度、情感、信念和一些能反應人格特質的非認知因素, 被稱為非認知能力(祖霽云, Kyllonen, 2019; 徐俊怡, 李中權, 2021)。非認知能力不僅影響著問題解決的過程, 也對個體學業(yè)和勞動力市場表現有著重要作用(何珺子, 王小軍, 2017)。如何擴展現有數據分析方法, 納入對非認知能力的測量與分析, 是全面了解個體, 提高個體問題解決能力的有效途徑。

    4.2 利用多模態(tài)數據測量問題解決能力

    當前對過程數據的挖掘和分析主要集中在題目作答精度、作答時間和行為序列上。這些數據還不足以全面反映個體問題解決中的認知及非認知過程。實際上, 虛擬測評等其他計算機化測驗的自動化特性使其能夠在個體解決問題過程中實時記錄不限于過程數據的多種類型數據(即多模態(tài)數據)。比如, 除題目作答精度和題目作答時間外, 通過嵌入式傳感器(例如, 眼動儀)還可以同步記錄諸如眼動和神經活動等生物計量數據(biometric data)。Jeon等人(2021)通過分析題目作答精度和大腦激活數據, 測量了個體的潛在能力和大腦激活水平; Man和Harring (2020)通過分析題目作答精度、作答時間和眼動數據, 測量了個體的潛在能力、潛在加工速度和潛在專注力水平; Bezirhan等人(2021)融合分析了題目作答精度、作答時間和重訪題目次數(revisit counts, 考生在首次答完某題后再次訪問該題的次數), 測量了個體的潛在能力、潛在加工速度和重訪題目傾向。另外, Zoanetti (2010)的研究中不僅記錄了被試解決問題時的操作信息, 同時也搜集了被試的口頭表述信息(例如, 被試在某一時刻說:“我不明白”)和外在行為數據(例如, 皺眉、嘆氣), 進而區(qū)分了相似過程數據下的不同認知過程。比如, 當不同被試在問題表征階段花費相似時間時, 可結合口頭表述信息去判斷他們是在理解題目還是在構思解決方案。

    在虛擬測評中, 由于多模態(tài)數據的采集幾乎是同時進行的, 且它們提供的是有關被試在問題解決時的平行信息, 因此, 也有研究者將它們稱為平行數據(parallel data; Jeon et al., 2021), 比如, 被試正確作答某題目耗時30秒并投入20個視覺注視點。對多模態(tài)數據的融合分析, 為從更全面的視角理解個體的問題解決能力提供了可能性。未來, 隨著傳感器的可便攜性增加及成本下降, 多模態(tài)數據的采集與分析勢必會常態(tài)化, 非常值得心理與教育測量領域研究者的關注。

    4.3 對問題解決能力發(fā)展的測量

    測量和促進個體能力的發(fā)展是心理學與教育學中需要解決的重要問題(Zhan & He, 2021), 對問題解決能力發(fā)展變化的研究事關教學設計和教學策略的制定與實施。然而, 當前對問題解決能力的測量主要依賴于對橫斷過程數據的分析, 較少依賴于對縱向過程數據的分析。一方面是因為對橫斷過程數據分析尚未有較為統一的認識和分析范式, 探討可分析縱向過程數據的方法可能還為時尚早; 另一方面是因為縱向虛擬測評工具的開發(fā)難度更高。

    目前, 已有一些研究嘗試使用虛擬測評中的一些外顯指標來評估個體問題解決能力的發(fā)展。比如, 張博等人(2014)基于游戲化測評使用由成功完成推箱子題目的數量來表示的認知能力、由每題計劃時間與作答總時間的比值來表示的元認知能力和由每題所用總步數來表示的認知效率三個指標對比研究了普通兒童和超常兒童的問題解決能力的發(fā)展。研究結果表明, 11~14歲之間, 超常兒童問題解決能力的發(fā)展遵循著高起點, 先快后慢的規(guī)律; 普通兒童則起點較低, 發(fā)展先慢后快。隨著年齡的增長, 二者之間差異逐漸縮小。同時, 該發(fā)展模式也體現在兩組兒童的認知能力和元認知能力兩個維度上, 但在認知效率上, 二者之間的差異并沒有隨施測時間不同而發(fā)生顯著變化。但值得注意的是這類研究并沒有直接對問題解決能力進行估計, 進而實現對不同時間點上估計值的發(fā)展的測量; 因此, 對問題解決能力發(fā)展的測量仍值得后續(xù)研究的關注。

    4.4 其他高階思維能力的測量

    如上文所述, 除問題解決能力外, 高階思維能力還包括批判性思維能力和創(chuàng)造性思維能力等, 其不僅影響著個體在學業(yè)或事業(yè)上的表現, 也是當代社會發(fā)展對人才的基本要求(鐘志賢, 2004; Brookhart, 2010; Carroll & Harris, 2020)。除問題解決能力外, 目前已有很多研究嘗試使用虛擬測評去測量諸如創(chuàng)造力、領導力等其他高階思維能力(Shute & Rahimi, 2020; Stanek & Sabat, 2019)。另外, 2022年OECD也計劃采用情景化測評方式來測量個體的創(chuàng)造力(OECD, 2019)。未來, 隨著測量方式及數據分析技術的不斷發(fā)展, 充分利用計算機(網絡)技術, 尤其是人工智能, 并結合便攜式和低成本的心理學實驗儀器, 我們有理由相信可以在大規(guī)模測驗中實現對高階思維能力的測量。

    4.5 問題解決能力概念及結構的界定

    當前國內外對問題解決能力的主要研究基本都是圍繞OECD (2013)對問題解決能力的定義實施的。首先, 該定義并沒有局限于特定的任務情境; 因此, 該定義所述的問題解決能力是一種一般化能力或特質。其次, 該定義將其所強調的認識加工又進一步細分為(1)探索和理解、(2)表征和構想、(3)計劃和執(zhí)行和(4)監(jiān)測和反思; 同時, 值得注意的是, 除認知加工外, 該定義中還特別強調了個體參與問題解決的意愿。因此, 該定義所述的問題解決能力至少具有多維結構, 而至于是否滿足高階結構, 可能需要后續(xù)研究做實證驗證或理論闡述。另外, 該定義所述的是個體問題解決能力, 目前已有研究開始探討協作問題解決(collaborative problem solving) (如, Unal & Cakir, 2021); 而協作問題解決能力與個體問題解決能力的概念及結構有何區(qū)別仍值得后續(xù)研究做進一步探討。最后, OECD (2013)對問題解決能力的定義是否具有跨時代穩(wěn)健性(即該定義是否會隨時代的發(fā)展產生變化)也值得后續(xù)研究者們的關注。

    成素梅, 榮小雪. (2003). 波普爾的證偽方法與非充分決定性論題.(1), 15–19+29.

    何珺子, 王小軍. (2017). 認知能力和非認知能力的教育回報率——基于國際成人能力測評項目的實證研究.(5), 66–74.

    洪永淼, 汪壽陽. (2021). 大數據、機器學習與統計學: 挑戰(zhàn)與機遇.(1), 17–35.

    李一茗, 黎堅. (2020). 復雜問題解決能力的概念、影響因素及培養(yǎng)策略., (5), 36–48.

    劉紅云, 駱方. (2008). 多水平項目反應理論模型在測驗發(fā)展中的應用.(1), 92–100.

    孫鑫, 黎堅, 符植煜. (2018). 利用游戲log-file預測學生推理能力和數學成績——機器學習的應用.(7), 761–770.

    王光宏, 蔣平. (2004). 數據挖掘綜述.(2), 246–252.

    吳忭, 胡藝齡, 趙玥穎. (2019). 如何使用數據: 回歸基于理解的深度學習和測評——訪國際知名學習科學專家戴維·謝弗.(1), 4–12.

    徐俊怡, 李中權. (2021). 基于游戲的心理測評.(3), 394–403.

    袁建林, 劉紅云. (2017). 核心素養(yǎng)測量: 理論依據與實踐指向.(7), 21–36.

    袁建林, 劉紅云. (2020). 過程性測量:教育測量的新范式.(12), 1–9.

    詹沛達. (2019). 計算機化多維測驗中作答時間和作答精度數據的聯合分析.(1), 170–178.

    張博, 黎堅, 徐楚, 李一茗. (2014). 11~14歲超常兒童與普通兒童問題解決能力的發(fā)展比較.(12), 1823–1834.

    張生, 任巖, 駱方. (2019). 學生高階思維能力的評價: 復雜問題解決的測量述評., 90–96.

    鐘志賢. (2004). 促進學習者高階思維發(fā)展的教學設計假設., (12), 21–28.

    祖霽云, Patrick Kyllonen. (2019). 非認知能力的重要性及其測量., (9), 22–31.

    Agard, C., & von Davier, A. (2018). The virtual world and reality of testing: Building virtual assessments. In H. Jiao & R. Lissitz (Eds.),(pp. 1–30). Charlotte, NC: Information Age Publishing.

    Autor, D., & Dorn, D. (2009). This job is "getting old": Measuring changes in job opportunities using occupational age structure.(2), 45–51.

    Baker, C., Saxe, R., & Tenenbaum, J. (2011).. Proceedings of the annual meeting of the cognitive science society, 33.

    Banfield, J., & Wilkerson, B. (2014). Increasing student intrinsic motivation and self-efficacy through gamification pedagogy.,(4), 291–298.

    Bergner, Y., Shu, Z., & von Davier, A. A. (2014). Visualization and confirmatory clustering of sequence data from a simulation- based assessment task.(pp. 177–184), London, UK.

    Bergner, Y., & von Davier, A. (2018). Process data in NAEP: Past, present, and future.(6), 706–732doi:10.3102/1076998618784700

    Bezirhan, U., Davier, M. V., & Grabovsky, I. (2021). Modeling item revisit behavior: The hierarchical speed–accuracy– revisits model.(2), 363–387doi:10.1177/0013164420950556

    Brookhart, S. M. (2010).. Alexandria, VA: ASCD.

    Carroll, K. A. & Harris, C. M. (2020). Using a repetitive instructional intervention to improve students' higher-order thinking skills.(2), 82–90.

    Chen, Y. (2020). A continuous-time dynamic choice measurement model for problem-solving process data.,(4), 1052–1075.

    de la Torre, J., & Douglas, J. A. (2004). Higher-order latent trait models for cognitive diagnosis.,(3), 333–353.

    Dicerbo, K. E. & Kidwai, K. (2013). Detecting player goals from game log files.,(3), 350–376.

    Diehl, M., Marsiske, M., Horgas, A., Rosenberg, A., Saczynski, J., & Willi, S. (2005). The revised observed tasks of daily living: A performance-based assessment of everyday problem solving in older adults.(3), 211–230.

    Diserens, D., Schwartz, M. W., Guenin, M., & Taylor, L. A. (1986). Measuring the problem-solving ability of students and residents by microcomputer.,(6), 461–466.

    Doerner, D. (1980). On the difficulties people have in dealing with complexity.,(1), 87–106.

    Fayyad, U., Piatetsky-shapiro, G., & Smyth, P. (1996). Knowledge discovery and data mining: Towards a unifying framework.,, 82–88.

    Fossey, W. A. (2017).. Unpublished doctoral dissertation, University of Maryland, College Park. URL https://drum.lib.umd.edu/bitstream/handle/ 1903/20363/Fossey_umd_0117E_18587.pdf?sequence=1

    Fox, J. P., & Marianti, S. (2016). Joint modeling of ability and differential speed using responses and response times.,(4), 540–553.

    Frensch, P. A., & Funke, J. (2002). Thinking and problem solving. In N. Cowan (Ed.).Oxford, UK: Eolss Publishers.

    Funke, J. (1983). Einige bemerkungen zu problemen der probleml?seforschung oder: Ist testintelligenz doch ein pr?diktor? [Some comments to problems of problem solving research, or: An intelligence test is a predictor, isn’t it?].,, 283–302.

    Greiff, S., Wüstenberg, S., & Avvisati, F. (2015). Computer- generated log-file analyses as a window into students' minds? A showcase study based on the PISA 2012 assessment of problem solving.,, 92–105.

    Greiff, S., Wüstenberg, S., & Funke, J. (2012). Dynamic problem solving: A new assessment perspective.,(3), 189–213.

    Greiff, S., Wüstenberg, S., Holt, D. V., Goldhammer, F., & Funke, J. (2013). Computer-based assessment of complex problem solving: Concept, implementation, and application.,(3), 407–421.

    Han, Z., He, Q., & von Davier, M. (2019). Predictive feature generation and selection using process data from PISA interactive problem-solving items: An application of random forests.,, 2461.

    Hao, J., Shu, Z., & von Davier, A. (2015). Analyzing process data from game/scenario-based tasks: An edit distance approach.(1), 33–50.

    Hao, J., Smith, L., Mislevy, R., von Davier, A., & Bauer, M. (2016).(Research Report No. RR-16-10). Princeton, NJ: Educational Testing Service.

    He, Q., Borgonovi, F., & Paccagnella, M. (2021). Leveraging process data to assess adults’ problem-solving skills: Using sequence mining to identify behavioral patterns across digital tasks.(17),104170.

    He, Q., & von Davier, M. (2016). Analyzing process data from problem-solving items with N-Grams: Insights from a computer-based large-scale assessment. In Y. Rosen, S. Ferrara, & M. Mosharraf (Eds.),(pp. 750?777). IGI Global. http://doi:10.4018/978-1-4666- 9441-5.ch029

    Jeon, M., Boeck, P. D., Luo, J., Li, X., & Lu, Z. L. (2021). Modeling within-item dependencies in parallel data on test responses and brain activation.,(1), 239–271.

    Jiao, H., Liao, D., & Zhan, P. (2019). Utilizing process data for cognitive diagnosis. In M. von Davier & Y. S. Lee (Eds.),(pp. 421–436). Cham: Springer International Publishing.

    Jiao, H., & Lissitz, R. (2018).. Charlotte, NC: Information Age Publishing.

    Johnson, R. B., & Christensen, L. (2014).(5thedition,pp.59–65). Thousand Oaks, CA: SAGE Publications.

    Li, J., Zhang, B., Du, H., Zhu, Z., & Li, Y. (2015). Metacognitive planning: Development and validation of an online measure.(1), 260–271.

    Liu, C., & Cheng, Y. (2018). An application of the support vector machine for attribute-by-attribute classification in cognitive diagnosis.(1), 58–72.

    Liu, H. Y., Liu, Y., & Li, M. (2018). Analysis of process data of PISA 2012 computer-based problem solving: Application of the modified multilevel mixture IRT model., 1372.

    Man, K. W., & Harring, J. R. (2020). Assessing preknowledgecheating via innovative measures: A multiple-group analysis of jointly modeling item responses, response times, and visual fixation counts.(3), 441–465.

    Man, K. W., Harring, J. R., Jiao, H., & Zhan, P. (2019). Joint modeling of compensatory multidimensional item responses and response times.(8), 639–654.

    Marshall, J. (1977). Assessment of problem-solving ability.(5), 329–334.

    Mayer, R.E. (1990). Problem solving. In M. W. Eysenck (Ed.),(pp. 284–288). Basil Blackwell, Oxford.

    Mislevy, R. J., Steinberg, L. S., & Almond, R. G. (2003). Focus article: On the structure of educational assessments.(1), 3–62.

    Molenaar, D., Bolsinova, M., & Vermunt, J. (2018). A semi‐parametric within‐subject mixture approach to the analyses of responses and response times.(2), 205–228.

    Molenaar, D., Oberski, D., Vermunt, J., & de Boeck, P. (2016). Hidden Markov item response theory models for responses and response times.(5), 606–626.

    NCES. (2014).. National Center for Education Statistics. Retrieved February 24, 2019, from http://nces.ed.gov/nationsreportcard/tel/wells_ item.aspx

    Novak, J. D. (1961). An approach to the interpretation and measurement of problem solving ability.(2), 122–131.

    OECD (2003).Paris: OECD Publishing.

    OECD (2013).. Paris: OECD Publishing.

    OECD (2014).. Paris: OECD Publishing.

    OECD (2016).Paris: PISA, OECD Publishing.

    OECD (2019).Paris: OECD Publishing.

    Omodei, M. M., & Wearing, A. J. (1995). The fire chief microworld generating program: An illustration of computer-simulated microworlds as an experimental paradigm for studying complex decision-making behavior.(3), 303–316.

    Qiao, X., & Jiao, H. (2018). Data mining techniques in analyzing process data: A didactic., 2231.

    Shu, Z., Bergner, Y., Zhu, M., Hao, J., von Davier, A. (2017). An item response theory analysis of problem-solving processes in scenario-based tasks.(1), 109–131.

    Shute, V., Ke, F., & Wang, L. (2017). Assessment and adaptation in games. In P. Wouters & H. van Oostendorp (Eds.),(pp. 59–78). New York, NY: Springer.

    Shute, V., & Moore, G. (2018). Consistency and validity in game-based stealth assessment. In H. Jiao & R. Lissitz (Eds.),(pp. 31–51). Charlotte, NC: Information Age Publishing.

    Shute, V. J., & Rahimi, S. (2020). Stealth assessment of creativity in a physics video game., 1–13.

    Soller, A., & Stevens, R. (2007). Applications of stochastic analyses for collaborative learning and cognitive assessment. In G. R. Hancock & K. M. Samuelsen (Eds.)(pp. 217–253). Information Age Publishing.

    Stanek, S. & Sabat, A. (2019). The use of IT tools in the assessment and development of leadership abilities.(85), 89–110.

    Ulitzsch, E., He, Q., Ulitzsch, V., Molter, H., Nichterlein, A., Niedermeier, R., & Pohl, S. (2021). Combining clickstream analyses and graph-modeled data clustering for identifying common response processes.(1), 190–214.

    Unal, E., & Cakir, H. (2021). The effect of technology- supported collaborative problem solving method on students’ achievement and engagement., 4127–4150.

    van der Linden, W. J. (2006). A lognormal model for response times on test items.(2), 181–204.

    van der Linden, W. J. (2007). A hierarchical framework for modeling speed and accuracy on test items.(3), 287–308.

    Wang, S. Y., Zhang, S. S., Douglas, J., & Culpepper, S. (2018). Using response times to assess learning progress: A joint model for responses and response times.(1), 45–58.

    Weir, K. (2018).URL https://www.apa.org/monitor/2018/11/cover-tech-tools.aspx

    Zhan, P., & He, K. (2021). A longitudinal diagnostic model withhierarchical learning trajectories.(3), 18–30https://doi.org/10.1111/ emip.12422

    Zhan, P., Jiao, H., & Liao, D. (2018). Cognitive diagnosis modelling incorporating item response times.(2), 262–286.

    Zhan, P., & Qiao, X. (2020, July 13).. https://doi.org/10.31234/ osf.io/wtyae

    Zhao, W., Shute, V., & Wang, L. (2015). Stealth assessment of problem-solving skills from gameplay., (15212), 1–11.

    Zoanetti, N. (2010). Interactive computer based assessment tasks: How problem-solving process data can inform instruction.(5), 585–606.

    圖A1 問題解決能力測試例題(Novak, 1961)

    圖A2 植物大戰(zhàn)僵尸游戲截屏(Zhao et al., 2015)

    圖A3 能力模型和一些行為指標之間的聯系(Zhao et al., 2015)

    圖A4 PISA 2012問題解決測試例題

    The measurement of problem-solving competence using process data

    LIU Yaohui1, XU Huiying1, CHEN Qipeng1, ZHAN Peida1,2

    (1Department of Psychology, College of Teacher Education, Zhejiang Normal University, Jinhua 321004, China) (2Key Laboratory of Intelligent Education Technology and Application of Zhejiang Province, Zhejiang Normal University, Jinhua 321004, China)

    Problem-solving competence is an individual’s capacity to engage in cognitive processing to understand and resolve problem situations where a method of solution is not immediately obvious. The measurement of problem-solving competence requires the use of relatively more complex and real problem situations to induce the presentation of problem-solving behaviors. This brings challenges to both the measurement methods of problem-solving competence and the corresponding data analysis methods. Using virtual assessments to capture the process data in problem-solving and mining the potential information contained therein is a new trend in measuring problem-solving competence in psychometrics. To begin with, we reviewed the development of the measurement methods of problem-solving competence: from paper-and-pencil tests to virtual assessments. In addition, we summarized two types of process data analysis methods: data mining and statistical modeling. Finally, we look forward to possible future research directions from five perspectives: the influence of non-cognitive factors on problem-solving competence, the use of multimodal data to measure problem-solving competence, the measurement of the development of problem-solving competence, the measurement of other higher-order thinking competencies, and the definition of concept and structure of problem-solving competence.

    problem-solving competence, processing data, virtual assessment, computer-based assessment, higher-order thinking competence

    B841

    2021-07-08

    * 國家自然科學基金青年科學基金項目(31900795)和浙江省哲學社會科學規(guī)劃“之江青年理論與調研專項課題” (22ZJQN38YB)資助。

    詹沛達, E-mail: pdzhan@gmail.com

    猜你喜歡
    測量能力
    消防安全四個能力
    幽默是一種能力
    把握四個“三” 測量變簡單
    滑動摩擦力的測量和計算
    大興學習之風 提升履職能力
    人大建設(2018年6期)2018-08-16 07:23:10
    滑動摩擦力的測量與計算
    你的換位思考能力如何
    測量的樂趣
    努力拓展無人機飛行能力
    無人機(2017年10期)2017-07-06 03:04:36
    測量
    国产色视频综合| 日韩免费高清中文字幕av| 日本一区二区免费在线视频| 19禁男女啪啪无遮挡网站| 欧美 日韩 精品 国产| 国产激情久久老熟女| 天天操日日干夜夜撸| 精品国产一区二区三区四区第35| 高清欧美精品videossex| 婷婷丁香在线五月| 国产精品偷伦视频观看了| 黄色视频不卡| 免费看a级黄色片| 老司机在亚洲福利影院| 人人澡人人妻人| 国产熟女午夜一区二区三区| 国产精品.久久久| 久久精品国产a三级三级三级| 欧美乱码精品一区二区三区| 黄色丝袜av网址大全| 欧美日韩成人在线一区二区| 亚洲久久久国产精品| 国产男靠女视频免费网站| 欧美性长视频在线观看| 国产男女内射视频| 最新的欧美精品一区二区| 另类亚洲欧美激情| 9热在线视频观看99| 国产亚洲午夜精品一区二区久久| 男女之事视频高清在线观看| 久久av网站| 99国产极品粉嫩在线观看| 亚洲自偷自拍图片 自拍| 中文字幕色久视频| 桃红色精品国产亚洲av| 成人免费观看视频高清| 天天躁狠狠躁夜夜躁狠狠躁| 欧美成人午夜精品| 精品第一国产精品| 亚洲一卡2卡3卡4卡5卡精品中文| 捣出白浆h1v1| 亚洲av成人不卡在线观看播放网| 精品卡一卡二卡四卡免费| 欧美黄色淫秽网站| 亚洲av欧美aⅴ国产| 宅男免费午夜| 日韩成人在线观看一区二区三区| 国产精品亚洲一级av第二区| 脱女人内裤的视频| 欧美一级毛片孕妇| 成年人黄色毛片网站| 大陆偷拍与自拍| 日韩 欧美 亚洲 中文字幕| 精品少妇一区二区三区视频日本电影| 中文字幕最新亚洲高清| 欧美日韩视频精品一区| 黑丝袜美女国产一区| 亚洲欧美色中文字幕在线| 美女福利国产在线| 欧美亚洲 丝袜 人妻 在线| 少妇粗大呻吟视频| 中文字幕精品免费在线观看视频| 高清在线国产一区| 免费在线观看黄色视频的| 电影成人av| 丝袜美腿诱惑在线| 国产精品二区激情视频| 99re在线观看精品视频| 少妇粗大呻吟视频| 97人妻天天添夜夜摸| 精品卡一卡二卡四卡免费| www.熟女人妻精品国产| 热99re8久久精品国产| 亚洲一区二区三区欧美精品| 国产男女超爽视频在线观看| 国产免费av片在线观看野外av| 久久久久久久国产电影| 亚洲午夜精品一区,二区,三区| 国产成人精品久久二区二区免费| 丰满迷人的少妇在线观看| 可以免费在线观看a视频的电影网站| 如日韩欧美国产精品一区二区三区| 免费观看人在逋| 亚洲成av片中文字幕在线观看| 日本欧美视频一区| 妹子高潮喷水视频| 一本综合久久免费| 正在播放国产对白刺激| 美女主播在线视频| 久久国产精品大桥未久av| 人妻 亚洲 视频| 中文字幕制服av| 亚洲色图av天堂| 午夜日韩欧美国产| 欧美精品av麻豆av| 午夜激情久久久久久久| 亚洲伊人久久精品综合| 成年人黄色毛片网站| 亚洲精华国产精华精| 黄频高清免费视频| av有码第一页| 美女高潮喷水抽搐中文字幕| 国产高清激情床上av| 天天躁狠狠躁夜夜躁狠狠躁| 亚洲国产成人一精品久久久| 欧美成人午夜精品| 欧美精品啪啪一区二区三区| 男男h啪啪无遮挡| 最新美女视频免费是黄的| 夜夜夜夜夜久久久久| 99riav亚洲国产免费| 极品教师在线免费播放| kizo精华| 久久久国产一区二区| 欧美精品一区二区免费开放| 免费观看av网站的网址| 亚洲精品美女久久av网站| 国产xxxxx性猛交| 十八禁高潮呻吟视频| 欧美日韩黄片免| 亚洲一区中文字幕在线| 日日摸夜夜添夜夜添小说| 夫妻午夜视频| 亚洲国产av新网站| 色精品久久人妻99蜜桃| 亚洲人成77777在线视频| 亚洲第一青青草原| 日本欧美视频一区| 18禁观看日本| 精品国产超薄肉色丝袜足j| 超碰成人久久| 国产成人精品久久二区二区免费| 丰满迷人的少妇在线观看| 亚洲欧洲精品一区二区精品久久久| 色婷婷av一区二区三区视频| 日本wwww免费看| 国产成人av教育| 日韩有码中文字幕| 69精品国产乱码久久久| 国产欧美日韩一区二区精品| 后天国语完整版免费观看| 成年人黄色毛片网站| 久久九九热精品免费| 麻豆av在线久日| 久久久久久久久久久久大奶| 69av精品久久久久久 | 法律面前人人平等表现在哪些方面| 国产成人欧美在线观看 | 男女下面插进去视频免费观看| 叶爱在线成人免费视频播放| 国产成人精品在线电影| 91精品三级在线观看| 久久中文看片网| 欧美黑人精品巨大| 国产精品久久久av美女十八| 天天影视国产精品| 亚洲国产看品久久| 精品国产一区二区三区四区第35| 国产精品麻豆人妻色哟哟久久| 色在线成人网| 波多野结衣av一区二区av| 丁香六月天网| 日韩制服丝袜自拍偷拍| 精品国产超薄肉色丝袜足j| 精品福利观看| 国产老妇伦熟女老妇高清| 无限看片的www在线观看| 国产1区2区3区精品| 正在播放国产对白刺激| 熟女少妇亚洲综合色aaa.| 久久精品国产99精品国产亚洲性色 | 交换朋友夫妻互换小说| 性色av乱码一区二区三区2| 国产成人精品在线电影| 99在线人妻在线中文字幕 | 免费看a级黄色片| 国产在线一区二区三区精| 18禁观看日本| 91字幕亚洲| 丝瓜视频免费看黄片| 亚洲av成人不卡在线观看播放网| 亚洲精品在线观看二区| 免费看a级黄色片| 国产日韩欧美在线精品| 日韩欧美一区视频在线观看| 91麻豆精品激情在线观看国产 | 一本色道久久久久久精品综合| 久久精品国产99精品国产亚洲性色 | 岛国在线观看网站| a级毛片黄视频| 国产视频一区二区在线看| 国产视频一区二区在线看| 精品国产超薄肉色丝袜足j| 999久久久精品免费观看国产| 中文亚洲av片在线观看爽 | 精品少妇内射三级| 欧美日韩国产mv在线观看视频| 一本综合久久免费| 亚洲午夜精品一区,二区,三区| 在线观看免费视频日本深夜| 激情视频va一区二区三区| 久久精品国产亚洲av高清一级| 亚洲av日韩在线播放| 大型av网站在线播放| 电影成人av| 亚洲精华国产精华精| 最近最新免费中文字幕在线| av网站免费在线观看视频| 国产免费福利视频在线观看| 纵有疾风起免费观看全集完整版| 欧美在线一区亚洲| 一边摸一边抽搐一进一小说 | 狠狠狠狠99中文字幕| 母亲3免费完整高清在线观看| 免费看十八禁软件| 久久精品亚洲av国产电影网| 日韩大码丰满熟妇| 91国产中文字幕| 亚洲色图 男人天堂 中文字幕| 如日韩欧美国产精品一区二区三区| 美女主播在线视频| 日韩一卡2卡3卡4卡2021年| 久久久久视频综合| 一级毛片电影观看| xxxhd国产人妻xxx| 又黄又粗又硬又大视频| 久热爱精品视频在线9| 蜜桃国产av成人99| 国产在线一区二区三区精| 免费黄频网站在线观看国产| 国产精品香港三级国产av潘金莲| 国产主播在线观看一区二区| 久久天堂一区二区三区四区| 国产91精品成人一区二区三区 | 大片电影免费在线观看免费| 夫妻午夜视频| 久久国产精品人妻蜜桃| 最近最新中文字幕大全电影3 | 成人永久免费在线观看视频 | 日韩欧美免费精品| 久久亚洲真实| 精品熟女少妇八av免费久了| 狂野欧美激情性xxxx| 国产高清国产精品国产三级| 99国产精品99久久久久| 岛国在线观看网站| 另类精品久久| 女人高潮潮喷娇喘18禁视频| 美女午夜性视频免费| 午夜福利乱码中文字幕| 欧美激情 高清一区二区三区| 99精国产麻豆久久婷婷| 亚洲一区二区三区欧美精品| 亚洲国产av新网站| 免费av中文字幕在线| 啦啦啦视频在线资源免费观看| 欧美性长视频在线观看| 成人特级黄色片久久久久久久 | 人妻 亚洲 视频| 欧美黑人欧美精品刺激| 19禁男女啪啪无遮挡网站| 久久中文字幕人妻熟女| 色精品久久人妻99蜜桃| 国产欧美日韩综合在线一区二区| 777米奇影视久久| 国产在线精品亚洲第一网站| 在线观看舔阴道视频| 国产日韩欧美视频二区| 极品少妇高潮喷水抽搐| 国产不卡av网站在线观看| 国产av精品麻豆| 国产精品偷伦视频观看了| 久久这里只有精品19| 国产精品 欧美亚洲| 精品高清国产在线一区| 在线观看66精品国产| 黑人巨大精品欧美一区二区蜜桃| 国产淫语在线视频| 亚洲成人国产一区在线观看| 五月开心婷婷网| 久久99一区二区三区| 欧美日韩成人在线一区二区| av又黄又爽大尺度在线免费看| 日日爽夜夜爽网站| 国产精品1区2区在线观看. | 日本一区二区免费在线视频| 日韩中文字幕视频在线看片| 在线播放国产精品三级| 日日摸夜夜添夜夜添小说| 国产在视频线精品| 侵犯人妻中文字幕一二三四区| 嫩草影视91久久| 国产不卡av网站在线观看| 午夜福利在线免费观看网站| 汤姆久久久久久久影院中文字幕| 免费不卡黄色视频| 黑人欧美特级aaaaaa片| 免费日韩欧美在线观看| 少妇粗大呻吟视频| 十八禁高潮呻吟视频| 国产精品久久久人人做人人爽| 亚洲中文av在线| 又黄又粗又硬又大视频| 午夜91福利影院| 亚洲精品在线美女| 午夜福利乱码中文字幕| 成人亚洲精品一区在线观看| 亚洲黑人精品在线| 别揉我奶头~嗯~啊~动态视频| 777米奇影视久久| 窝窝影院91人妻| 国产精品1区2区在线观看. | 最新在线观看一区二区三区| 黑人猛操日本美女一级片| 丰满少妇做爰视频| 妹子高潮喷水视频| h视频一区二区三区| 国产精品自产拍在线观看55亚洲 | 日韩熟女老妇一区二区性免费视频| 久久久久久久久久久久大奶| 国产区一区二久久| 脱女人内裤的视频| 午夜两性在线视频| 日韩精品免费视频一区二区三区| 精品国产一区二区三区久久久樱花| 亚洲色图 男人天堂 中文字幕| 国产亚洲欧美精品永久| 免费一级毛片在线播放高清视频 | 精品少妇久久久久久888优播| 欧美日韩精品网址| videos熟女内射| 国产在线免费精品| 成人手机av| 高清在线国产一区| 国产精品熟女久久久久浪| 亚洲专区中文字幕在线| 国产一卡二卡三卡精品| 亚洲九九香蕉| 免费在线观看黄色视频的| 久久国产精品人妻蜜桃| 水蜜桃什么品种好| 啦啦啦免费观看视频1| 成人免费观看视频高清| 欧美日韩视频精品一区| 色尼玛亚洲综合影院| 成人永久免费在线观看视频 | 亚洲一码二码三码区别大吗| 黄色片一级片一级黄色片| 黑人欧美特级aaaaaa片| 侵犯人妻中文字幕一二三四区| 国产真人三级小视频在线观看| 精品国产一区二区三区久久久樱花| 操出白浆在线播放| 淫妇啪啪啪对白视频| 97人妻天天添夜夜摸| 亚洲国产毛片av蜜桃av| 国产成人精品在线电影| 午夜精品久久久久久毛片777| 两个人看的免费小视频| 欧美亚洲日本最大视频资源| 国产欧美亚洲国产| 久9热在线精品视频| 人人澡人人妻人| 亚洲va日本ⅴa欧美va伊人久久| 日韩中文字幕欧美一区二区| 成年动漫av网址| 黄色视频,在线免费观看| 国产成人一区二区三区免费视频网站| 人人妻人人添人人爽欧美一区卜| 日本黄色视频三级网站网址 | 午夜两性在线视频| 国产av一区二区精品久久| 夜夜爽天天搞| 午夜久久久在线观看| 手机成人av网站| av欧美777| 日韩人妻精品一区2区三区| 国产激情久久老熟女| 一边摸一边抽搐一进一出视频| 欧美精品高潮呻吟av久久| 俄罗斯特黄特色一大片| 久久久久久亚洲精品国产蜜桃av| 无限看片的www在线观看| 日本五十路高清| 国产精品一区二区在线观看99| 99香蕉大伊视频| 窝窝影院91人妻| 欧美精品高潮呻吟av久久| 亚洲黑人精品在线| 看免费av毛片| 国产av一区二区精品久久| 美女主播在线视频| 在线十欧美十亚洲十日本专区| 五月开心婷婷网| 国产成人欧美在线观看 | 亚洲中文日韩欧美视频| 97在线人人人人妻| 日本a在线网址| 亚洲精品国产色婷婷电影| 欧美 日韩 精品 国产| 欧美在线一区亚洲| 久久午夜综合久久蜜桃| 久久婷婷成人综合色麻豆| 国产欧美日韩精品亚洲av| 国产av又大| 天堂8中文在线网| 精品一区二区三区视频在线观看免费 | 欧美日韩亚洲高清精品| 成人免费观看视频高清| 精品久久久久久电影网| 日韩免费高清中文字幕av| 欧美精品高潮呻吟av久久| 亚洲七黄色美女视频| 亚洲免费av在线视频| 午夜福利影视在线免费观看| 国产成人系列免费观看| 免费观看av网站的网址| 美女扒开内裤让男人捅视频| 国产精品久久久久久精品古装| 免费在线观看完整版高清| 亚洲熟女精品中文字幕| 亚洲 欧美一区二区三区| 99久久人妻综合| 在线看a的网站| 精品第一国产精品| 每晚都被弄得嗷嗷叫到高潮| 久久久国产精品麻豆| 性少妇av在线| 精品久久久精品久久久| 免费黄频网站在线观看国产| 久久精品国产亚洲av高清一级| 法律面前人人平等表现在哪些方面| 亚洲欧美激情在线| 亚洲中文av在线| 首页视频小说图片口味搜索| 97人妻天天添夜夜摸| 高清视频免费观看一区二区| 一区在线观看完整版| 精品高清国产在线一区| 97在线人人人人妻| 亚洲九九香蕉| 亚洲国产中文字幕在线视频| 成人特级黄色片久久久久久久 | 国产精品自产拍在线观看55亚洲 | 麻豆国产av国片精品| 国精品久久久久久国模美| 天堂俺去俺来也www色官网| 欧美黑人精品巨大| 中国美女看黄片| av国产精品久久久久影院| 久久精品国产a三级三级三级| 黄色视频,在线免费观看| 大码成人一级视频| 一级黄色大片毛片| 岛国毛片在线播放| 一本色道久久久久久精品综合| 国产精品免费视频内射| 人人妻人人爽人人添夜夜欢视频| 久久香蕉激情| 国产亚洲精品一区二区www | 亚洲全国av大片| 亚洲av第一区精品v没综合| 国产精品一区二区在线不卡| 三上悠亚av全集在线观看| 国内毛片毛片毛片毛片毛片| 亚洲欧洲日产国产| 蜜桃国产av成人99| 黑丝袜美女国产一区| 国产精品久久电影中文字幕 | 在线播放国产精品三级| 美女视频免费永久观看网站| 亚洲性夜色夜夜综合| svipshipincom国产片| 国产欧美日韩一区二区三区在线| 久久精品国产亚洲av高清一级| 在线观看舔阴道视频| 精品亚洲乱码少妇综合久久| cao死你这个sao货| 黄片播放在线免费| 国产亚洲精品第一综合不卡| 丝袜人妻中文字幕| 99久久99久久久精品蜜桃| av欧美777| 免费观看a级毛片全部| 香蕉久久夜色| a级片在线免费高清观看视频| 老司机午夜十八禁免费视频| 一级a爱视频在线免费观看| 日韩熟女老妇一区二区性免费视频| 成年女人毛片免费观看观看9 | 两人在一起打扑克的视频| 午夜激情av网站| 90打野战视频偷拍视频| 人人妻人人添人人爽欧美一区卜| 精品国产一区二区三区四区第35| 在线观看免费日韩欧美大片| 亚洲国产欧美网| 久久天堂一区二区三区四区| 操美女的视频在线观看| av在线播放免费不卡| 老鸭窝网址在线观看| 人人妻人人添人人爽欧美一区卜| 美女视频免费永久观看网站| 99精国产麻豆久久婷婷| 国产一区二区 视频在线| 涩涩av久久男人的天堂| 欧美亚洲 丝袜 人妻 在线| 香蕉久久夜色| 亚洲成av片中文字幕在线观看| 日本黄色日本黄色录像| 一进一出抽搐动态| 黄色成人免费大全| 国产av精品麻豆| 欧美久久黑人一区二区| 少妇精品久久久久久久| 麻豆国产av国片精品| a级毛片黄视频| 亚洲中文av在线| svipshipincom国产片| 国产在线一区二区三区精| 在线观看免费日韩欧美大片| 黄色成人免费大全| 午夜福利在线观看吧| 丰满少妇做爰视频| 亚洲精品美女久久久久99蜜臀| 亚洲avbb在线观看| 女人高潮潮喷娇喘18禁视频| 香蕉国产在线看| 国产精品98久久久久久宅男小说| 大陆偷拍与自拍| 免费在线观看日本一区| 日韩欧美一区二区三区在线观看 | 深夜精品福利| 法律面前人人平等表现在哪些方面| 十八禁高潮呻吟视频| 久久香蕉激情| 亚洲熟女毛片儿| 精品福利永久在线观看| 搡老熟女国产l中国老女人| 日本黄色日本黄色录像| 久久婷婷成人综合色麻豆| 最近最新免费中文字幕在线| 一本大道久久a久久精品| 国产在线免费精品| 久久午夜综合久久蜜桃| 久久狼人影院| 女人精品久久久久毛片| 亚洲专区中文字幕在线| 成人手机av| 黄色成人免费大全| 久久精品国产亚洲av高清一级| 精品卡一卡二卡四卡免费| 国产欧美日韩精品亚洲av| 国产高清videossex| 亚洲国产看品久久| 欧美黄色淫秽网站| www.自偷自拍.com| 99香蕉大伊视频| 在线观看www视频免费| 中亚洲国语对白在线视频| 免费日韩欧美在线观看| 黄色视频,在线免费观看| 在线观看免费高清a一片| 久久久久精品人妻al黑| 久久人妻av系列| 蜜桃在线观看..| 黑人猛操日本美女一级片| 99re在线观看精品视频| 一本色道久久久久久精品综合| 乱人伦中国视频| 18禁黄网站禁片午夜丰满| 成人av一区二区三区在线看| 久久九九热精品免费| 午夜两性在线视频| 一边摸一边抽搐一进一小说 | 久久精品亚洲精品国产色婷小说| 国产成人精品在线电影| 国产免费视频播放在线视频| 99在线人妻在线中文字幕 | av一本久久久久| 一区二区日韩欧美中文字幕| 欧美日韩亚洲国产一区二区在线观看 | 欧美日韩视频精品一区| 久久久久久免费高清国产稀缺| a在线观看视频网站| 黑人巨大精品欧美一区二区mp4| 亚洲精华国产精华精| 午夜激情av网站| 一级片免费观看大全| 九色亚洲精品在线播放| 老鸭窝网址在线观看| 国产精品一区二区精品视频观看| 亚洲av欧美aⅴ国产| 欧美日韩av久久| 久久久久久久久久久久大奶| 成年版毛片免费区| 电影成人av| 又紧又爽又黄一区二区| 这个男人来自地球电影免费观看| 亚洲五月色婷婷综合| 高清毛片免费观看视频网站 | 欧美变态另类bdsm刘玥| 多毛熟女@视频| 他把我摸到了高潮在线观看 | 欧美在线黄色| 国产精品久久电影中文字幕 | 岛国在线观看网站| 人成视频在线观看免费观看| 欧美精品亚洲一区二区| 中国美女看黄片| 中文亚洲av片在线观看爽 | 视频在线观看一区二区三区| 女同久久另类99精品国产91| 国产精品偷伦视频观看了| 欧美亚洲日本最大视频资源|