• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      計算心理測量視域下的學(xué)生數(shù)字素養(yǎng)測評

      2023-12-25 03:06:46朱莎郭慶吳砥

      朱莎 郭慶 吳砥

      摘要:定期開展數(shù)字素養(yǎng)發(fā)展監(jiān)測與評估是提升全民數(shù)字素養(yǎng)的基礎(chǔ)和前提。當(dāng)前,學(xué)生數(shù)字素養(yǎng)評價主要沿用“依據(jù)規(guī)則給潛在特質(zhì)賦值”的經(jīng)典測量觀,以標(biāo)準(zhǔn)化測試及自陳式量表為主要測評工具,存在評價內(nèi)容有限、評價方法片面等問題。計算心理測量理論為破解學(xué)生數(shù)字素養(yǎng)評價難題提供了新的理論和方法支持。它主張綜合運(yùn)用心理測量學(xué)、計算機(jī)科學(xué)等多學(xué)科的研究方法,將評價嵌入真實(shí)情境任務(wù)中,激發(fā)并追蹤主體與情境之間的交互,通過多源異構(gòu)數(shù)據(jù)采集與分析,實(shí)現(xiàn)過程性評價。計算心理測量視域下的學(xué)生數(shù)字素養(yǎng)測評框架基于自上而下理論驅(qū)動和自下而上技術(shù)驅(qū)動相結(jié)合的推理鏈,在以證據(jù)為中心的設(shè)計思想指導(dǎo)下,構(gòu)建復(fù)雜的任務(wù)情境獲取細(xì)粒度數(shù)據(jù),并利用數(shù)據(jù)挖掘技術(shù)從海量細(xì)粒度數(shù)據(jù)中提取證據(jù),進(jìn)而實(shí)現(xiàn)精準(zhǔn)評價。以此框架開展的面向小學(xué)高年級學(xué)段的數(shù)字素養(yǎng)測評實(shí)踐表明,該測評范式有助于形成從數(shù)字素養(yǎng)“能力模型”到“測量模型”的閉環(huán)推理鏈,在經(jīng)過多輪次迭代優(yōu)化后,可形成高質(zhì)量的學(xué)生數(shù)字素養(yǎng)測評任務(wù)、可靠的學(xué)生數(shù)字素養(yǎng)證據(jù)和穩(wěn)定的學(xué)生數(shù)字素養(yǎng)測量模型。

      關(guān)鍵詞:計算心理測量;以證據(jù)為中心的設(shè)計;數(shù)字素養(yǎng)評價;游戲化測評任務(wù)

      中圖分類號:G434 ? 文獻(xiàn)標(biāo)識碼:A ? ?文章編號:1009-5195(2023)06-0019-11 ?doi10.3969/j.issn.1009-5195.2023.06.003

      基金項(xiàng)目:國家自然科學(xué)基金青年科學(xué)基金項(xiàng)目“融合證據(jù)推理和認(rèn)知網(wǎng)絡(luò)分析的學(xué)生信息素養(yǎng)高階思維能力精準(zhǔn)評價研究”(62107019);國家社會科學(xué)基金“十三五”規(guī)劃2020年度教育學(xué)重點(diǎn)課題“學(xué)生信息素養(yǎng)的內(nèi)涵、標(biāo)準(zhǔn)與評價體系研究”(ACA200008)。

      作者簡介:朱莎,博士,副教授,碩士生導(dǎo)師,華中師范大學(xué)國家數(shù)字化學(xué)習(xí)工程技術(shù)研究中心(湖北武漢 430079);郭慶,博士研究生,華中師范大學(xué)人工智能教育學(xué)部(湖北武漢 430079);吳砥(通訊作者),博士,教授,博士生導(dǎo)師,華中師范大學(xué)教育部教育信息化戰(zhàn)略研究基地(華中)(湖北武漢 430079)。

      一、引言

      數(shù)字素養(yǎng)與技能是數(shù)字社會公民學(xué)習(xí)工作生活應(yīng)具備的數(shù)字獲取、制作、使用、評價、交互、分享、創(chuàng)新、安全保障、倫理道德等一系列素質(zhì)與能力的集合(中央網(wǎng)絡(luò)安全和信息化委員會辦公室,2021),是實(shí)現(xiàn)數(shù)字化轉(zhuǎn)型的關(guān)鍵支撐(吳砥等,2022a)。2021年11月,中央網(wǎng)信辦發(fā)布《提升全民數(shù)字素養(yǎng)與技能行動綱要》,指出“提升全民數(shù)字素養(yǎng)與技能,是順應(yīng)數(shù)字時代要求、提升國民素質(zhì)、促進(jìn)人的全面發(fā)展的戰(zhàn)略任務(wù)”,要“建立符合我國國情的全民數(shù)字素養(yǎng)與技能發(fā)展評價指標(biāo)體系”,“定期開展全民數(shù)字素養(yǎng)與技能發(fā)展監(jiān)測調(diào)查和評估評價”(中央網(wǎng)絡(luò)安全和信息化委員會辦公室,2021)。

      然而,當(dāng)前學(xué)生數(shù)字素養(yǎng)評價主要沿用“依據(jù)規(guī)則給潛在特質(zhì)賦值”的經(jīng)典測量觀,在評價內(nèi)容、評價方法等方面存在諸多局限性。一方面,傳統(tǒng)的“試題—答案”測驗(yàn)設(shè)計范式側(cè)重考查學(xué)生數(shù)字知識、數(shù)字應(yīng)用技能等低階認(rèn)知能力,難以評價學(xué)生利用數(shù)字技術(shù)分析解決問題、進(jìn)行創(chuàng)新創(chuàng)造等高階思維能力。另一方面,當(dāng)前學(xué)生數(shù)字素養(yǎng)評價以標(biāo)準(zhǔn)化測驗(yàn)和自陳式量表為主要工具,評價結(jié)果效度低、解釋力度不強(qiáng)。盡管近年來部分學(xué)者采用情境任務(wù)測評、檔案袋評價等方法來衡量學(xué)生數(shù)字素養(yǎng)水平,但這些數(shù)據(jù)難以為學(xué)生數(shù)字素養(yǎng)表現(xiàn)提供全面的證據(jù)(吳砥等,2022b)。

      計算心理測量理論主張綜合運(yùn)用心理測量學(xué)、計算機(jī)科學(xué)等多學(xué)科的研究方法,將評價嵌入真實(shí)情境任務(wù)中,激發(fā)并追蹤主體與情境之間的交互,通過多源異構(gòu)數(shù)據(jù)采集與分析,實(shí)現(xiàn)過程性評價(Mislevy,2021)。計算心理測量理論為破解學(xué)生數(shù)字素養(yǎng)評價困難提供了創(chuàng)新的方法支持。本研究將自上而下的基于證據(jù)推理的理論模型和自下而上的基于技術(shù)驅(qū)動的測量模型相結(jié)合,構(gòu)建計算心理測量理論視域下的學(xué)生數(shù)字素養(yǎng)測評框架,并在此基礎(chǔ)上開展實(shí)測分析,驗(yàn)證所提出評價框架的實(shí)踐效度。

      二、計算心理測量的理論根基與應(yīng)用現(xiàn)狀

      2015年,馮·戴維(Von Davier)首次提出了計算心理測量理論,隨后將其定義為一種綜合運(yùn)用隨機(jī)過程理論、心理測量理論以及數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)等計算機(jī)科學(xué)領(lǐng)域的思想和方法,基于表現(xiàn)性測試收集復(fù)雜細(xì)粒度數(shù)據(jù),對被試潛在特質(zhì)進(jìn)行精準(zhǔn)測量的方法論(Von Davier,2017)。效度驗(yàn)證理論以及社會認(rèn)知理論是計算心理測量理論的兩大理論根基。

      1.效度驗(yàn)證理論

      傳統(tǒng)心理測量范式強(qiáng)調(diào)“測驗(yàn)是否衡量了測量目標(biāo)”的效度觀,強(qiáng)調(diào)工具的內(nèi)容效度、效標(biāo)效度等,其衡量方式依賴于專家內(nèi)容審查和計算測驗(yàn)得分與效標(biāo)成績之間的相關(guān)系數(shù)(戴一飛,2016)。這種效度觀操作簡單便捷,卻存在著專家內(nèi)容審查的主觀性以及效標(biāo)選擇的科學(xué)性等問題,難以反映一些高階能力測評工具的效度。美國教育研究者協(xié)會(American Educational Research Association,AERA)等出版的《教育與心理測驗(yàn)標(biāo)準(zhǔn)》(Standards for Educational and Psychological Testing)中將效度重新定義為“依據(jù)分?jǐn)?shù)所作出的推理是否適恰、是否富有意義、是否具備實(shí)用性,測驗(yàn)的效度驗(yàn)證就是搜集證據(jù)來支持上述推理的過程”(AERA et al.,1999)。彼時,效度理論已經(jīng)開始從相關(guān)系數(shù)計算向基于證據(jù)的驗(yàn)證轉(zhuǎn)變。邁克爾·T.凱恩(Michael T. Kane)進(jìn)一步提出效度理論應(yīng)落腳到效度驗(yàn)證,強(qiáng)調(diào)從考生作答過程的數(shù)據(jù)中挖掘證據(jù),以支持和證實(shí)測驗(yàn)結(jié)論的可靠性(Kane,2001)。由此,效度驗(yàn)證理論的核心思想從傳統(tǒng)的計算某項(xiàng)測驗(yàn)的效度指標(biāo)轉(zhuǎn)變?yōu)楹饬繙y驗(yàn)分?jǐn)?shù)的可解釋力度,在操作上強(qiáng)調(diào)利用經(jīng)驗(yàn)或理論證據(jù)來評判測驗(yàn)分?jǐn)?shù)及其推斷的充分和適當(dāng)性,即使用證據(jù)去支持對測驗(yàn)結(jié)果的解釋。

      效度驗(yàn)證理論奠定了計算心理測量理論的思想基礎(chǔ),即強(qiáng)調(diào)測評要構(gòu)建相對復(fù)雜的任務(wù),誘發(fā)被試的知識、技能和能力(Knowledge,Skill and Abilities,KSAs)表現(xiàn),基于表現(xiàn)挖掘并提取證據(jù),建立證據(jù)與KSAs之間的統(tǒng)計關(guān)系,強(qiáng)化測評結(jié)果的可解釋力度。

      2.社會認(rèn)知理論

      傳統(tǒng)心理測量范式起源于以伯爾赫斯·弗雷德里克·斯金納(Burrhus Frederic Skinner)為代表的特質(zhì)和行為心理學(xué),強(qiáng)調(diào)心理測量即是試題與被試之間的“刺激—反應(yīng)”,并根據(jù)反應(yīng)結(jié)果為被試的潛在特質(zhì)賦值(Mislevy,2021)。此種測評范式操作簡便,有利于開展大范圍的測評,但僅將測評看作是“刺激—反應(yīng)”會忽略學(xué)生復(fù)雜的認(rèn)知心理過程,導(dǎo)致測評過程及結(jié)果解釋的簡單化。

      社會認(rèn)知理論反對將環(huán)境看作簡單的行為刺激源,強(qiáng)調(diào)認(rèn)知是主體內(nèi)部心理過程與外部環(huán)境相互作用的結(jié)果。社會認(rèn)知中的“社會”反映了人與環(huán)境之間交互的規(guī)律性(Mislevy,2021),個人需要從環(huán)境中抽象出關(guān)鍵認(rèn)知事件以開展后續(xù)的認(rèn)知活動,不同人會提取出不同的認(rèn)知事件。人與環(huán)境之間交互的規(guī)律性即是指這些因人而異的認(rèn)知事件具有共同的本質(zhì),可以聚集成一些性質(zhì)、規(guī)律相似的事件集群(Hansen et al.,1997)。羅伯特·J.麥斯雷弗(Robert J. Mislery)將這些事件集群的本質(zhì)和規(guī)律稱為語言(Linguistic)、文化(Cultural)和實(shí)質(zhì)性(Substantive)模式(簡稱LCS模式)(Mislevy,2021)。個人的認(rèn)知活動就是在與環(huán)境交互的過程中提取關(guān)鍵認(rèn)知事件并識別事件隱藏的LCS模式,在此基礎(chǔ)上展開后續(xù)的認(rèn)知行為。社會認(rèn)知中的“認(rèn)知”強(qiáng)調(diào)個人利用自身的認(rèn)知資源與環(huán)境進(jìn)行復(fù)雜交互(Holland,2006),具有以下特點(diǎn):首先,個人將自己過去的經(jīng)驗(yàn)以及知覺、思想和信念等組織成有意義的思維模式(即認(rèn)知資源),用于各種認(rèn)知事件的解決;其次,個人在與情境交互的過程中,其對某一事件的認(rèn)知行為會隨著時間推移而不斷變化;最后,個人會根據(jù)情境中認(rèn)知事件的解決過程,總結(jié)經(jīng)驗(yàn),不斷調(diào)整和完善自己的認(rèn)知資源。

      社會認(rèn)知理論完善了計算心理測量理論的實(shí)踐框架,強(qiáng)調(diào)測評為學(xué)生提供的任務(wù)應(yīng)當(dāng)具有豐富且真實(shí)的情境,激發(fā)學(xué)生利用自身的認(rèn)知資源與環(huán)境進(jìn)行交互;測評證據(jù)的提取就是識別學(xué)生不同粒度的認(rèn)知資源的過程。社會認(rèn)知理論還指出了證據(jù)的兩種來源,一是來自個人既有的認(rèn)知資源,這類證據(jù)主要由領(lǐng)域?qū)<腋鶕?jù)經(jīng)驗(yàn)預(yù)先確定;二是來自隨時間而變化的認(rèn)知行為,這類證據(jù)通常是從學(xué)生的行為序列中采用數(shù)據(jù)挖掘技術(shù)而得到。

      3.計算心理測量的主要思想與應(yīng)用現(xiàn)狀

      計算心理測量理論在評價理念方面堅持效度驗(yàn)證思想,在以證據(jù)為中心的設(shè)計(Evidence-Centered Design,ECD)理念指導(dǎo)下,強(qiáng)調(diào)構(gòu)建任務(wù)誘發(fā)KSAs表現(xiàn),依據(jù)表現(xiàn)提取證據(jù),依據(jù)證據(jù)進(jìn)行推理,提高評價效度(Mislevy et al.,2003)。在評價內(nèi)容方面,計算心理測量理論適用于高度抽象、結(jié)構(gòu)復(fù)雜的綜合能力和素養(yǎng)的評價。在評價技術(shù)方面,受社會認(rèn)知理論的啟發(fā),計算心理測量理論強(qiáng)調(diào)利用多元化數(shù)據(jù)挖掘技術(shù)提取行為序列中的隱性證據(jù),利用機(jī)器學(xué)習(xí)等技術(shù)建立證據(jù)與KSAs之間的測量模型??傮w來說,計算心理測量理論形成了自上而下理論驅(qū)動和自下而上技術(shù)驅(qū)動相結(jié)合的測評邏輯(Mislevy,2021)。自上而下的理論驅(qū)動以ECD框架為基本指導(dǎo),包含了能力模型、任務(wù)模型、證據(jù)模型的設(shè)計(Mislevy et al.,2003)。能力模型是指待測量的KSAs及其概念框架,回答了“測量什么”的問題。任務(wù)模型是指為了誘發(fā)學(xué)生的KSAs而開發(fā)的情境任務(wù),回答了“用什么測量”的問題。證據(jù)模型是指由專家預(yù)先確定的衡量學(xué)生KSAs的變量及其計分方式,回答了“如何測量”的問題。麥斯雷弗指出了三種證據(jù):與任務(wù)績效相關(guān)的結(jié)果,在情境中產(chǎn)生的行為,個人的背景信息(Mislevy,2021)。測量模型表征了從證據(jù)到KSAs的推理過程,即利用數(shù)學(xué)與統(tǒng)計模型建立證據(jù)與能力模型之間的關(guān)聯(lián)(朱莎等,2020)。自下而上的技術(shù)驅(qū)動包含過程數(shù)據(jù)采集、證據(jù)挖掘與篩選、測量模型構(gòu)建等環(huán)節(jié)。首先,需要全面記錄被試完成任務(wù)過程中的細(xì)粒度的行為序列數(shù)據(jù);其次,通過數(shù)據(jù)挖掘技術(shù)從這些低層級、細(xì)粒度的行為序列數(shù)據(jù)中逐步提取新的變量,并篩選出能有效評價能力模型的關(guān)鍵證據(jù);最后,整合證據(jù)并通過數(shù)學(xué)和統(tǒng)計模型構(gòu)建KSAs的測量模型,實(shí)現(xiàn)精準(zhǔn)有效的評價(Cipresso et al.,2019)。

      目前,國外計算心理測量理論的相關(guān)研究主要關(guān)注理論發(fā)展、算法設(shè)計等內(nèi)容,也開展了一些基于計算心理測量理論的測評實(shí)踐。例如,斯蒂芬·T.波利亞克(Stephen T. Polyak)等人設(shè)計了第一人稱的迷宮游戲,同時結(jié)合數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)等技術(shù),衡量了中學(xué)生的協(xié)作問題解決能力(Polyak et al.,2017)。亞歷山大·瓦圖京(Alexander Vatutin)等人則專注于數(shù)學(xué)問題解決能力,基于學(xué)生與數(shù)字教科書的交互進(jìn)行證據(jù)推理(Vatutin et al.,2021)。埃里克·斯諾(Eric Snow)等人基于證據(jù)推理和數(shù)據(jù)挖掘?yàn)橹袊愀坌W(xué)生和美國中學(xué)生開發(fā)了一個計算思維評估工具,實(shí)現(xiàn)了學(xué)生計算思維能力的有效評估(Snow et al.,2019)。戴維·德加多-戈麥斯(David Delgado-Gómez)等人開發(fā)了一款無限奔跑類型的數(shù)字游戲,并根據(jù)學(xué)生在游戲中的行為實(shí)現(xiàn)了注意力的精準(zhǔn)測評(Delgado-Gómez et al.,2020)。國內(nèi)學(xué)者也開始關(guān)注計算心理測量理論。例如,李美娟等人系統(tǒng)介紹了計算心理測量理論的發(fā)展與內(nèi)涵,并嘗試構(gòu)建了針對協(xié)作問題解決能力的測評框架(李美娟等,2022);鄭勤華等人構(gòu)建了理論與技術(shù)雙向驅(qū)動的學(xué)生綜合素養(yǎng)測評新范式(鄭勤華等,2022)。

      綜上所述,國外已經(jīng)開展了計算心理測量理論的實(shí)證應(yīng)用研究,其科學(xué)性和有效性在一定程度上得到了證實(shí)。而國內(nèi)對計算心理測量理論的研究還處于引介階段,缺乏相關(guān)的應(yīng)用研究以及實(shí)證分析。從評價內(nèi)容來看,相關(guān)研究主要聚焦于對問題解決能力的評價,對于數(shù)字素養(yǎng)這種復(fù)雜能力體系的關(guān)注還較為匱乏。

      三、計算心理測量視域下學(xué)生數(shù)字素養(yǎng)測評 框架

      基于計算心理測量理論的思想,本研究構(gòu)建了計算心理測量視域下自上而下理論驅(qū)動和自下而上技術(shù)驅(qū)動相結(jié)合的數(shù)字素養(yǎng)測評框架,如圖1所示。

      1.理論驅(qū)動的以證據(jù)為中心的設(shè)計

      “以證據(jù)為中心的設(shè)計”理論是計算心理測量視域下數(shù)字素養(yǎng)測評的出發(fā)點(diǎn),突出了自上而下理論驅(qū)動的推理鏈,主要包括構(gòu)建學(xué)生數(shù)字素養(yǎng)能力模型、構(gòu)建數(shù)字素養(yǎng)評價任務(wù)模型、根據(jù)專家經(jīng)驗(yàn)初步確定證據(jù)規(guī)則,以及開發(fā)情境任務(wù)測評系統(tǒng)四個環(huán)節(jié)。

      第一,構(gòu)建學(xué)生數(shù)字素養(yǎng)能力模型。學(xué)生數(shù)字素養(yǎng)評價標(biāo)準(zhǔn)是構(gòu)建評價能力模型的基礎(chǔ)。首先,檢索國內(nèi)外學(xué)生數(shù)字素養(yǎng)評價標(biāo)準(zhǔn)/框架,在考慮我國學(xué)生數(shù)字素養(yǎng)培育現(xiàn)狀與發(fā)展需求的基礎(chǔ)上,進(jìn)行關(guān)鍵詞提取、整理與合并,形成學(xué)生數(shù)字素養(yǎng)評價標(biāo)準(zhǔn)初稿。其次,選取一定數(shù)量的領(lǐng)域?qū)<遥_展多輪次專家咨詢,逐步修訂、完善評價標(biāo)準(zhǔn)。最后,深入分析并厘清學(xué)生數(shù)字素養(yǎng)評價指標(biāo)的外部行為表現(xiàn),由此確定每個評價指標(biāo)對應(yīng)的可觀測變量,界定這些可觀測變量的操作性定義,建立數(shù)字素養(yǎng)能力模型。

      第二,構(gòu)建數(shù)字素養(yǎng)評價任務(wù)模型。對于知識和情感態(tài)度層面的測量,適合開發(fā)應(yīng)答性任務(wù)以快速、準(zhǔn)確地進(jìn)行評分和比較,如判斷題、多項(xiàng)選擇題等;對于信息檢索、獲取等基本技能的測量,適合開發(fā)操作性任務(wù)以引發(fā)學(xué)生的真實(shí)操作,如連線題、拖拽題等;對于計算思維等高階能力的測量,適合開發(fā)益智類任務(wù)以捕捉學(xué)生的思維,如迷宮題等。在情境設(shè)計方面,可以設(shè)計分裂式情境,即不同任務(wù)的情境相互獨(dú)立;也可以設(shè)計連續(xù)性情境,將所有任務(wù)嵌入其中,營造沉浸式的測評體驗(yàn)。

      第三,根據(jù)專家經(jīng)驗(yàn)初步確定證據(jù)規(guī)則。專家需要確定每個評價指標(biāo)對應(yīng)的特征變量及其計分方式。從先前的研究中發(fā)現(xiàn),這些特征變量包括但不限于:學(xué)生的人口學(xué)特征,如性別、年齡、父母受教育程度等能夠預(yù)測學(xué)生數(shù)字素養(yǎng)水平的因素(Hatlevik et al.,2018);學(xué)生的作答情況,即學(xué)生是否完成任務(wù)或任務(wù)結(jié)果是否正確,這是心理測量學(xué)已證實(shí)的有效證據(jù);測評日志文件中的時間變量,如學(xué)生作答任務(wù)花費(fèi)的時間等能預(yù)測能力表現(xiàn)的變量(Michaelides et al.,2020)。

      第四,開發(fā)情境任務(wù)測評系統(tǒng)。首先,需厘清測評系統(tǒng)在內(nèi)容呈現(xiàn)、數(shù)據(jù)采集、人機(jī)交互等方面的需求,然后進(jìn)行系統(tǒng)的框架設(shè)計,包括處理流程、組織結(jié)構(gòu)、模塊劃分、功能分配、接口設(shè)計、數(shù)據(jù)結(jié)構(gòu)設(shè)計等。一方面要有效呈現(xiàn)任務(wù)模型,另一方面要具備過程性數(shù)據(jù)分布式采集與存儲功能,以便提取證據(jù)。其次,在框架設(shè)計的基礎(chǔ)上進(jìn)行編碼開發(fā),并對開發(fā)完成的系統(tǒng)進(jìn)行測試,逐漸完善系統(tǒng)的界面、配置、性能、數(shù)據(jù)庫等,確保系統(tǒng)的安全性、穩(wěn)定性以及滿足需求的并發(fā)數(shù)量。

      2.技術(shù)驅(qū)動的數(shù)據(jù)挖掘推理

      計算心理測量視域下的數(shù)字素養(yǎng)測評在以證據(jù)為中心設(shè)計的理論驅(qū)動基礎(chǔ)上,采取自下而上的技術(shù)驅(qū)動的方式進(jìn)行數(shù)據(jù)挖掘,從低層級、細(xì)粒度的行為序列數(shù)據(jù)中逐步提取新的證據(jù),來驗(yàn)證測評的效度。具體過程包括采集情境任務(wù)點(diǎn)擊流數(shù)據(jù)、從點(diǎn)擊流數(shù)據(jù)中提取特征變量、篩選關(guān)鍵特征變量、構(gòu)建測量模型實(shí)現(xiàn)精準(zhǔn)評價四個環(huán)節(jié)。

      第一,采集情境任務(wù)點(diǎn)擊流數(shù)據(jù)。點(diǎn)擊流數(shù)據(jù)是指學(xué)生在與系統(tǒng)交互的過程中,經(jīng)由鼠標(biāo)點(diǎn)擊形成的細(xì)粒度行為數(shù)據(jù),能夠反映學(xué)生的操作經(jīng)歷,蘊(yùn)含豐富的評價信息(李爽等,2021)。xAPI技術(shù)規(guī)范是采集點(diǎn)擊流數(shù)據(jù)的常用手段,它以(任務(wù))為核心,記錄學(xué)生在某一情境中的行為動作、行為操作的對象、使用的工具以及行為發(fā)生的時間戳(顧小清等,2014)。計算心理測量視域下的學(xué)生數(shù)字素養(yǎng)評價可以采用xAPI技術(shù)規(guī)范,通過編寫xAPI數(shù)據(jù)采集框架,以一定的格式語句描述學(xué)生完成任務(wù)的點(diǎn)擊行為,實(shí)現(xiàn)學(xué)生點(diǎn)擊流行為數(shù)據(jù)的實(shí)時追蹤、采集和存儲。

      第二,從點(diǎn)擊流數(shù)據(jù)中提取特征變量?;趚API技術(shù)規(guī)范的點(diǎn)擊流數(shù)據(jù)具有時序特征,從這些去情境化的細(xì)粒度行為數(shù)據(jù)中提取的特征變量有兩種常見類型:一是關(guān)注某一時刻的行為狀態(tài),直接提取或通過簡單的數(shù)學(xué)運(yùn)算提取其狀態(tài)特征,如某項(xiàng)任務(wù)的作答得分情況、某項(xiàng)任務(wù)的花費(fèi)時間等;二是基于時序性的行為序列數(shù)據(jù),如拖拽、連線等行為序列,計算學(xué)生行為序列與最優(yōu)行為序列之間的差距,可以反映學(xué)生思維的復(fù)雜性、完成任務(wù)的效率等。

      第三,篩選關(guān)鍵特征變量。提取出的特征變量可能存在與評價指標(biāo)間相關(guān)性較低、解釋性較差等問題,因此需要篩選關(guān)鍵特征變量。首先,整合特征變量,進(jìn)行缺失值處理、無效數(shù)據(jù)剔除、數(shù)據(jù)降噪、數(shù)據(jù)標(biāo)準(zhǔn)化等工作。其次,進(jìn)行效度驗(yàn)證,剔除與評價指標(biāo)相關(guān)性較低或可解釋性較差的特征變量。可以利用機(jī)器學(xué)習(xí)方法(如遞歸特征消除、方差過濾、卡方過濾、F檢驗(yàn)、互信息等)自動篩選出與數(shù)字素養(yǎng)相關(guān)性較高且不存在高度共線性的關(guān)鍵特征。最后,將篩選出的關(guān)鍵特征與學(xué)生數(shù)字素養(yǎng)能力模型的各個指標(biāo)建立映射關(guān)系。

      第四,構(gòu)建測量模型實(shí)現(xiàn)精準(zhǔn)評價。首先,選擇多種機(jī)器學(xué)習(xí)模型作為候選測量模型,經(jīng)訓(xùn)練和驗(yàn)證后得到最優(yōu)模型。其次,計算心理測量視域下的數(shù)字素養(yǎng)測評范式遵循“理論模型—數(shù)據(jù)采集—變量挖掘—指標(biāo)映射—測量模型”的閉環(huán)推理邏輯,根據(jù)每一輪測量模型的預(yù)測結(jié)果可以精準(zhǔn)定位到難度過高、過低等設(shè)計不良的情境任務(wù),促進(jìn)測評任務(wù)的修訂;可以優(yōu)化數(shù)據(jù)采集框架,豐富數(shù)據(jù)采集點(diǎn);還可以發(fā)現(xiàn)新的變量挖掘方法。最后,經(jīng)過循環(huán)迭代,將形成精準(zhǔn)的、穩(wěn)定且成熟的學(xué)生數(shù)字素養(yǎng)測量模型,進(jìn)而應(yīng)用到不同場景的學(xué)生數(shù)字素養(yǎng)測評實(shí)踐中。

      四、計算心理測量視域下的學(xué)生數(shù)字素養(yǎng)測 評設(shè)計

      1.學(xué)生數(shù)字素養(yǎng)測評能力模型設(shè)計

      《義務(wù)教育信息科技課程標(biāo)準(zhǔn)(2022年版)》指出了數(shù)字素養(yǎng)的4個一級維度:信息意識、計算思維、數(shù)字化學(xué)習(xí)與創(chuàng)新、信息社會責(zé)任,同時對每個一級維度進(jìn)行了內(nèi)涵闡釋(中華人民共和國教育部,2022)?;谶@4個維度,研究團(tuán)隊(duì)首先整合了國際權(quán)威數(shù)字素養(yǎng)標(biāo)準(zhǔn)/框架,如歐洲共同體DigEuLit數(shù)字素養(yǎng)框架(Martin et al.,2006)、歐盟數(shù)字素養(yǎng)框架1.0/2.0(Ovcharuk,2020)、聯(lián)合國全球數(shù)字素養(yǎng)框架(Law et al.,2018)、數(shù)字智能聯(lián)盟數(shù)字智商(DQ)全球標(biāo)準(zhǔn)(Park,2019)等,對這些標(biāo)準(zhǔn)/框架的指標(biāo)進(jìn)行關(guān)鍵詞提取、整理與合并,并結(jié)合我國義務(wù)教育階段學(xué)生的發(fā)展現(xiàn)狀和需求,細(xì)化了數(shù)字素養(yǎng)各維度的二級指標(biāo)。在此基礎(chǔ)上,為了構(gòu)建可觀察、可操作的數(shù)字素養(yǎng)能力模型,需要進(jìn)一步細(xì)化指標(biāo)對應(yīng)的可觀測行為表現(xiàn)。其次,研究分析了學(xué)生數(shù)字素養(yǎng)評價指標(biāo)的內(nèi)涵及其相互關(guān)系,厘清了各評價指標(biāo)與其能力表現(xiàn)的實(shí)質(zhì)性聯(lián)系,確定了每個評價指標(biāo)對應(yīng)的行為表現(xiàn)特征,界定了每個評價指標(biāo)的可觀察行為及其操作性定義,形成了學(xué)生數(shù)字素養(yǎng)評價能力模型初稿。再次,研究采取德爾菲法向10余名領(lǐng)域內(nèi)的專家進(jìn)行了意見咨詢,根據(jù)專家每一輪意見修訂能力模型并再次征詢意見,直到所有專家對于維度、指標(biāo)、可觀測行為的操作性定義達(dá)成一致。最終,形成的學(xué)生數(shù)字素養(yǎng)能力模型如表1所示。

      2.學(xué)生數(shù)字素養(yǎng)游戲化測評任務(wù)設(shè)計

      研究基于數(shù)字素養(yǎng)能力模型設(shè)計了面向小學(xué)高年級學(xué)段的敘事性數(shù)字素養(yǎng)測評游戲“果敢的奇幻星球之旅”(Zhu et al.,2022)。學(xué)生將扮演小學(xué)生果敢,在“蔚藍(lán)星”的探險之旅中完成一系列數(shù)字素養(yǎng)相關(guān)任務(wù),以解救被黑客抓起來的人魚公主并幫助她尋找丟失的夜明珠。游戲設(shè)置了14項(xiàng)任務(wù),包含5種題型,表2呈現(xiàn)了所有任務(wù)的題型、簡介和對應(yīng)的數(shù)字素養(yǎng)二級評價指標(biāo)。游戲以解題闖關(guān)為主,每項(xiàng)任務(wù)均設(shè)置了幫助機(jī)制、金幣獎勵和Pass卡機(jī)制。根據(jù)每項(xiàng)任務(wù)的完成情況(一次作答正確;首次作答錯誤,查看幫助后作答正確;兩次均作答錯誤),系統(tǒng)將為學(xué)生累計不同數(shù)量的金幣獎勵;學(xué)生第一次作答錯誤,系統(tǒng)將自動給出任務(wù)幫助,此后學(xué)生可以主動點(diǎn)擊幫助按鈕(點(diǎn)擊幫助會消耗金幣);當(dāng)學(xué)生連續(xù)作答錯誤兩次,系統(tǒng)將贈送學(xué)生一張Pass卡,并強(qiáng)制結(jié)束該關(guān)卡。

      為了驗(yàn)證游戲的內(nèi)容效度,研究通過專家咨詢法,選取了10余名領(lǐng)域內(nèi)的專家,采取五點(diǎn)計分方式收集其對測評任務(wù)所考查的指標(biāo)的認(rèn)可程度(即指標(biāo)匹配度)。同時由于研究選擇四年級學(xué)生參與測評,因此還向?qū)<易稍兞擞螒蛉蝿?wù)是否符合四年級學(xué)生的認(rèn)知水平(即認(rèn)知匹配度)。咨詢結(jié)果見表3。整體來看,本研究設(shè)計的游戲化任務(wù)與數(shù)字素養(yǎng)各評價指標(biāo)之間的匹配程度較高,也符合四年級學(xué)生的認(rèn)知水平。

      3.學(xué)生數(shù)字素養(yǎng)游戲化測評特征變量設(shè)計

      (1)基于專家經(jīng)驗(yàn)的預(yù)定義證據(jù)規(guī)則

      已有研究將特征變量劃分為顯性和隱性兩類(孫建文等,2022)。本研究采用了此種劃分方式,其中顯性變量包括兩類:一是人口學(xué)特征變量。先前研究表明,性別、年齡、父母受教育程度是影響學(xué)生數(shù)字素養(yǎng)表現(xiàn)的關(guān)鍵人口因素(Hatlevik et al.,2018),由于本研究以四年級學(xué)生為樣本,學(xué)生年齡差距較小,因此不考慮該因素。納入本研究的人口學(xué)特征變量為性別、父母受教育程度。二是學(xué)生在每一項(xiàng)游戲化任務(wù)上的作答情況,例如作答正確與否、作答狀態(tài)。

      隱性變量也包括兩類:一是被研究者廣泛關(guān)注的時間變量,例如學(xué)生完成任務(wù)花費(fèi)的總時間、實(shí)際作答時間、反應(yīng)時間、思考時間等。二是與游戲配置相關(guān)的數(shù)據(jù),例如當(dāng)前任務(wù)獲得金幣數(shù)量、累積到當(dāng)前任務(wù)獲得的總金幣數(shù)量、點(diǎn)擊幫助的次數(shù)、當(dāng)前任務(wù)是否獲得Pass卡等。

      (2)基于行為序列的特征變量挖掘

      除了上述由專家確定的特征變量,對于迷宮題、連線題和拖拽題等操作較為復(fù)雜的游戲任務(wù),研究還采集了學(xué)生作答的操作行為序列。針對這些行為序列可以自下而上地挖掘出一些新的隱性變量,包括學(xué)生行為序列與最優(yōu)行為序列之間的編輯距離、相似度、效率等。編輯距離是指將學(xué)生作答的行為序列轉(zhuǎn)換為最優(yōu)行為序列所需的最小插入、刪除和替換的操作總數(shù);相似度表示學(xué)生的行為序列偏離最優(yōu)行為序列的程度;效率衡量了學(xué)生能否以盡可能少的行為數(shù)量完成任務(wù)。這些基于行為序列提取的特征變量可以更準(zhǔn)確地區(qū)分作答結(jié)果相同的學(xué)生,體現(xiàn)其在數(shù)字素養(yǎng)水平上的差異。綜合自上而下由專家確定的證據(jù)以及自下而上從過程性數(shù)據(jù)中挖掘的證據(jù),表4呈現(xiàn)了數(shù)字素養(yǎng)測評所有的特征變量。

      五、計算心理測量視域下學(xué)生數(shù)字素養(yǎng)測評 實(shí)踐

      1.測評實(shí)證研究設(shè)計

      參與本次測評的學(xué)生來自武漢市某小學(xué)四年級隨機(jī)選取的三個班級,共計125名,其中男生46人,女生79人。測評工具包括兩部分:一是研究團(tuán)隊(duì)開發(fā)的“果敢的奇幻星球之旅”數(shù)字素養(yǎng)測評游戲,二是研究團(tuán)隊(duì)面向小學(xué)中高學(xué)段開發(fā)的數(shù)字素養(yǎng)標(biāo)準(zhǔn)化測試題。該套測試題多次用于全國大規(guī)模學(xué)生數(shù)字素養(yǎng)測評項(xiàng)目,已經(jīng)被證明具有良好的信效度、難度、區(qū)分度等指標(biāo),具有較高的效標(biāo)價值(余麗芹等,2021)。本次測評結(jié)果也將作為本研究測量模型的標(biāo)簽。

      測評在該小學(xué)的計算機(jī)實(shí)驗(yàn)室進(jìn)行,由各班信息技術(shù)教師組織。在測評開始前,信息技術(shù)教師向?qū)W生告知測評目的并強(qiáng)調(diào)操作規(guī)則、瀏覽器設(shè)置以及其他注意事項(xiàng),并通過教師端計算機(jī)向?qū)W生統(tǒng)一發(fā)送測評鏈接。接著,學(xué)生打開測評鏈接,填寫個人信息并完成數(shù)字素養(yǎng)標(biāo)準(zhǔn)化測試題。最后,學(xué)生提交標(biāo)準(zhǔn)化測驗(yàn)答卷,按照情境順序完成游戲化任務(wù)。測試需在40分鐘內(nèi)完成。

      2.指標(biāo)映射關(guān)系建立

      對于采集的所有特征變量,使用Python3.8的Pandas包和Scikit-Learn包進(jìn)行預(yù)處理,包括將具有連續(xù)性意義的特征變量標(biāo)準(zhǔn)化,以加快后續(xù)模型訓(xùn)練速度,提高準(zhǔn)確率,并對特征變量進(jìn)行缺失值填補(bǔ)。對于標(biāo)準(zhǔn)化測驗(yàn)的結(jié)果,研究參考國內(nèi)外關(guān)于學(xué)生KSAs預(yù)測的做法將學(xué)生的測驗(yàn)成績進(jìn)行二值化等寬分箱,作為標(biāo)簽變量(Hautala et al.,2020)。根據(jù)研究團(tuán)隊(duì)多次開展的大規(guī)模學(xué)生數(shù)字素養(yǎng)測評經(jīng)驗(yàn),小學(xué)生數(shù)字素養(yǎng)得分主要集中在中等和較高水平,處于較低水平的學(xué)生比例極少,采用二值化等寬分箱處理符合小學(xué)生數(shù)字素養(yǎng)特征。

      完成數(shù)據(jù)預(yù)處理之后,借助Scikit-Learn包進(jìn)行特征變量的效度驗(yàn)證和關(guān)鍵特征的自動篩選。研究采用遞歸特征消除和互信息兩種方法進(jìn)行特征變量篩選。對于決策樹、隨機(jī)森林、邏輯回歸、XGBoost等能夠返回特征重要性的模型,使用5折交叉驗(yàn)證的遞歸特征消除法識別最優(yōu)特征變量組合;對于支持向量機(jī)、樸素貝葉斯等不返回特征重要性的模型,采用互信息法衡量每個特征變量與標(biāo)簽之間的相關(guān)性,篩選互信息值較高的特征變量。經(jīng)過特征篩選得到每個二級維度與特征變量之間的映射關(guān)系如表5所示。

      3.測量模型構(gòu)建

      研究選取6種機(jī)器學(xué)習(xí)模型建立數(shù)字素養(yǎng)及各一級維度的測量模型。首先,采取5折交叉驗(yàn)證的網(wǎng)格搜索(GridSearchCV,cv=5)進(jìn)行模式參數(shù)調(diào)節(jié),以自動識別最優(yōu)參數(shù)組合。由各模型的預(yù)測準(zhǔn)確率(如表6所示)可知:對于數(shù)字素養(yǎng),預(yù)測效果最好的模型是邏輯回歸,準(zhǔn)確率達(dá)到了89.6%;其對信息意識的預(yù)測準(zhǔn)確率達(dá)到81.6%,對計算思維的預(yù)測準(zhǔn)確率達(dá)到78.4%。XGBoost預(yù)測數(shù)字化學(xué)習(xí)與創(chuàng)新的準(zhǔn)確率最高,達(dá)到72.0%。隨機(jī)森林和XGBoost預(yù)測信息社會責(zé)任的準(zhǔn)確率最高,均達(dá)到90.4%。整體來看,本研究的游戲化測評任務(wù)得到了相對精準(zhǔn)的測評結(jié)果。

      4.測評應(yīng)用結(jié)果分析

      (1)游戲化測評整體結(jié)果分析

      使用上述最佳測量模型的預(yù)測結(jié)果,本研究繪制了學(xué)生數(shù)字素養(yǎng)總體水平以及各一級指標(biāo)表現(xiàn)水平的分布情況,如圖2所示。可見,參與游戲化測評的學(xué)生數(shù)字素養(yǎng)整體表現(xiàn)良好,73.6%的學(xué)生達(dá)到了較高的數(shù)字素養(yǎng)水平。然而,學(xué)生在數(shù)字素養(yǎng)各維度的表現(xiàn)并不均衡,學(xué)生在信息社會責(zé)任方面表現(xiàn)最好(高水平學(xué)生占比達(dá)88.0%),在信息意識方面表現(xiàn)較好(高水平學(xué)生占比達(dá)76.0%),在計算思維方面表現(xiàn)一般(高水平學(xué)生占比達(dá)61.6%),而在數(shù)字化學(xué)習(xí)與創(chuàng)新方面表現(xiàn)較差(高水平學(xué)生占比低于50%)。

      研究基于預(yù)測結(jié)果進(jìn)一步計算了高、低水平數(shù)字素養(yǎng)群體中,各一級維度水平的分布情況,如圖3所示。分析發(fā)現(xiàn),在高水平數(shù)字素養(yǎng)的群體中,學(xué)生通常具備較高的信息意識(高水平占比達(dá)83.7%)、計算思維(高水平占比達(dá)73.9%)以及信息社會責(zé)任(高水平占比達(dá)100%);然而高水平數(shù)字素養(yǎng)的學(xué)生不一定具備較高水平的數(shù)字化學(xué)習(xí)與創(chuàng)新(高水平占比僅56.5%)。在低水平數(shù)字素養(yǎng)群體中,學(xué)生通常具備較低水平的數(shù)字化學(xué)習(xí)與創(chuàng)新(低水平占比達(dá)84.8%)和計算思維(低水平占比達(dá)72.7%);而低水平數(shù)字素養(yǎng)的學(xué)生也可能具備較高水平的信息意識(高水平占比達(dá)54.5%)和信息社會責(zé)任(高水平占比達(dá)54.5%)。

      (2)游戲中過程性行為特征分析

      研究還分析了學(xué)生在游戲中的過程性行為,具體結(jié)果如表7所示。分析發(fā)現(xiàn),關(guān)于游戲時間,不論是反應(yīng)時間、思考時間還是總時間,學(xué)生都是在計算思維題目上耗時最多。在玩法配置方面,學(xué)生在計算思維題目上平均獲得金幣數(shù)量最少,點(diǎn)擊幫助次數(shù)和使用Pass卡數(shù)量最多。在行為序列方面,僅計算思維、數(shù)字化學(xué)習(xí)與創(chuàng)新兩個維度設(shè)計了可以采集行為序列的拖拽題、迷宮題和連線題。其中作答計算思維題目的行為序列編輯距離比數(shù)字化學(xué)習(xí)與創(chuàng)新題目更大,行為序列的相似度和效率差異則較小。這意味著學(xué)生在回答計算思維題目時,其行為序列與最優(yōu)行為序列之間的偏離程度更大。然而,測評的整體結(jié)果顯示,學(xué)生在計算思維上總體表現(xiàn)優(yōu)于數(shù)字化學(xué)習(xí)與創(chuàng)新,這是因?yàn)榻鉀Q計算思維問題對學(xué)生而言更具挑戰(zhàn)性,他們傾向于花費(fèi)更多時間、做出更多嘗試以解決問題,因此造成行為序列編輯距離較大,得分表現(xiàn)卻較好的結(jié)果。

      表7 學(xué)生游戲化測評結(jié)果

      [指標(biāo) 信息

      意識 計算

      思維 數(shù)字化學(xué)習(xí)與創(chuàng)新 信息社會責(zé)任 反應(yīng)時間(秒/題) 8.315 21.537 9.015 7.324 思考時間(秒/題) 1.643 10.620 2.498 1.701 總時間(秒/題) 10.136 67.460 17.241 9.032 當(dāng)前金幣數(shù)量(數(shù)量/題) 37.749 29.808 35.667 40.200 點(diǎn)擊幫助次數(shù)(次數(shù)/題) 0.083 0.653 0.307 0.000 使用Pass卡(數(shù)量/題) 0.017 0.235 0.075 0.000 編輯距離(距離/題) - 3.757 1.336 - 相似度(相似度/題) - 0.695 0.623 - 效率(效率/題) - 0.662 0.644 - ]

      綜合整體測評結(jié)果和游戲中的行為表現(xiàn),本研究發(fā)現(xiàn)大部分小學(xué)高段學(xué)生已經(jīng)初步具備了信息意識,對信息具有比較敏銳的判斷力,能遵守網(wǎng)絡(luò)道德行為規(guī)范與法律法規(guī)。然而在基本信息科學(xué)的相關(guān)概念、原理及創(chuàng)新能力方面還略顯不足,且在面對具有復(fù)雜操作的情境任務(wù)時,學(xué)生的思維過程更加復(fù)雜,花費(fèi)更長時間,更傾向于獲取幫助,且作答準(zhǔn)確率更低,說明學(xué)生還較為缺乏解決問題的高階思維能力。整體而言,上述研究結(jié)果與研究團(tuán)隊(duì)前期開展的大規(guī)模標(biāo)準(zhǔn)化測評結(jié)果相似(余麗芹等,2021)。

      六、結(jié)語

      本研究基于計算心理測量理論,構(gòu)建了雙向驅(qū)動的學(xué)生數(shù)字素養(yǎng)測評框架,并基于此框架開展了實(shí)踐探索,是計算心理測量理論從理論走向?qū)嵺`的嘗試,為后續(xù)開展過程性評價提供了借鑒和參考。本研究的主要貢獻(xiàn)有以下三方面:一是突破傳統(tǒng)心理測量范式下學(xué)生數(shù)字素養(yǎng)評價內(nèi)容單一、評價結(jié)果信效度低的桎梏,構(gòu)建了計算心理測量視域下學(xué)生數(shù)字素養(yǎng)測評框架,并首次嘗試將點(diǎn)擊流數(shù)據(jù)引入學(xué)生數(shù)字素養(yǎng)評價。二是設(shè)計并開發(fā)了學(xué)生數(shù)字素養(yǎng)游戲化測評任務(wù)及系統(tǒng),能有效捕捉學(xué)生的思維過程,為評價學(xué)生數(shù)字素養(yǎng)水平提供了更加豐富可靠的證據(jù)。三是開展了計算心理測量視域下的學(xué)生數(shù)字素養(yǎng)測評實(shí)踐,總體上取得了良好的評價效果。與傳統(tǒng)評價僅關(guān)注作答結(jié)果相比,本研究將基于技術(shù)驅(qū)動的方法從點(diǎn)擊流數(shù)據(jù)中挖掘出的諸多特征變量作為關(guān)鍵預(yù)測特征,如金幣數(shù)量、點(diǎn)擊幫助次數(shù)、行為序列相似度等,結(jié)合理論驅(qū)動所定義的人口學(xué)特征、作答情況、作答時間等特征變量,有效提高了測量模型的準(zhǔn)確率,證實(shí)了計算心理測量視域下數(shù)字素養(yǎng)測評的實(shí)踐效度。

      本研究依然存在一些局限。一是樣本量較小、數(shù)據(jù)模態(tài)有限,未來的研究可在本研究基礎(chǔ)上開展更大范圍的實(shí)踐,同時考慮采集眼動、腦電、音視頻、語言文本等多模態(tài)數(shù)據(jù),使學(xué)生數(shù)字素養(yǎng)評價的證據(jù)更加豐富。二是本研究的任務(wù)分布略不均衡,部分指標(biāo)的游戲任務(wù)較少,導(dǎo)致這些指標(biāo)的映射特征較少。未來可進(jìn)一步設(shè)計更加豐富的游戲任務(wù),確保各指標(biāo)具有相對均衡的任務(wù)數(shù)量,并開展更多輪次的測評,驗(yàn)證并不斷優(yōu)化游戲任務(wù),提高測評結(jié)果的可靠性。三是本研究將標(biāo)準(zhǔn)化測驗(yàn)結(jié)果作為機(jī)器學(xué)習(xí)建模的標(biāo)簽,可能在測試時存在一些隨機(jī)誤差。盡管大規(guī)模的測評已證實(shí)本研究所采用的標(biāo)準(zhǔn)化測驗(yàn)可作為可靠的效標(biāo),但為了減小誤差,未來的研究還可以考慮整合多模態(tài)數(shù)據(jù),探索學(xué)生數(shù)字素養(yǎng)水平的智能化評價技術(shù)。

      參考文獻(xiàn):

      [1]戴一飛(2016).效度論證范式下的ECD測試設(shè)計框架——我國教育考試國家題庫的升級路徑之一[J].中國考試,(11):28-37.

      [2]顧小清,鄭隆威,簡菁(2014).獲取教育大數(shù)據(jù):基于xAPI規(guī)范對學(xué)習(xí)經(jīng)歷數(shù)據(jù)的獲取與共享[J].現(xiàn)代遠(yuǎn)程教育研究,(5):13-23.

      [3]李美娟,劉紅云,張詠梅(2022).計算心理測量理論在核心素養(yǎng)測評中的應(yīng)用——以合作問題解決測評為例[J].教育研究,43(3):127-137.

      [4]李爽,鄭勤華,杜君磊等(2021).在線學(xué)習(xí)注意力投入特征與學(xué)習(xí)完成度的關(guān)系——基于點(diǎn)擊流數(shù)據(jù)的分析[J].中國電化教育,(2):105-112.

      [5]孫建文,胡夢薇,劉三女牙等(2022).多維異步在線討論行為特征分析與學(xué)習(xí)績效預(yù)測[J].中國遠(yuǎn)程教育,(5):56-63.

      [6]吳砥,朱莎,王美倩(2022a).學(xué)生數(shù)字素養(yǎng)培育體系的一體化建構(gòu):挑戰(zhàn)、原則與路徑[J].中國電化教育,(7):43-49,63.

      [7]吳砥,余麗芹,朱莎(2022b).智能時代中小學(xué)生信息素養(yǎng)評價的主要挑戰(zhàn)與實(shí)施路徑[J].人民教育,(5):44-48.

      [8]余麗芹,索峰,朱莎等(2021).小學(xué)中高段學(xué)生信息素養(yǎng)測評模型構(gòu)建與應(yīng)用研究——以四、五年級學(xué)生為例[J].中國電化教育,(5):63-69,101.

      [9]鄭勤華,陳麗,郭利明等(2022).理論與技術(shù)雙向驅(qū)動的學(xué)生綜合素養(yǎng)評價新范式[J].中國電化教育,(4):56-63.

      [10]中華人民共和國教育部(2022).教育部關(guān)于印發(fā)義務(wù)教育課程方案和課程標(biāo)準(zhǔn)(2022年版)的通知[EB/OL].[2022-10-07].http://www.moe.gov.cn/srcsite/A26/s8001/202204/

      W020220420582361024968.pdf.

      [11]中央網(wǎng)絡(luò)安全和信息化委員會辦公室(2021).提升全民數(shù)字素養(yǎng)與技能行動綱要[EB/OL].[2022-10-07].http://www.cac.gov.cn/2021-11/05/c_1637708867754305.htm.

      [12]朱莎,吳砥,楊浩等(2020).基于ECD的學(xué)生信息素養(yǎng)評價研究框架[J].中國電化教育,(10):88-96.

      [13]AERA, APA & NCME (1999). Standards for Educational and Psychological Testing[M]. New York: American Educational Research Association:9-25.

      [14]Cipresso, P., Colombo, D., & Riva, G. (2019). Computational Psychometrics Using Psychophysiological Measures for the Assessment of Acute Mental Stress[J]. Sensors, 19(4):781.

      [15]Delgado-Gómez, D., Sújar, A., & Ardoy-Cuadros, J. et al. (2020). Objective Assessment of Attention-Deficit Hyperactivity Disorder (ADHD) Using an Infinite Runner-Based Computer Game: A Pilot Study[J]. Brain Sciences, 10(10):716.

      [16]Hansen, J. G., & Liu, J. (1997). Social Identity and Language: Theoretical and Methodological Issues[J]. Tesol Quarterly, 31(3):567-576.

      [17]Hatlevik, O. E., Throndsen, I., & Loi, M. et al. (2018). Students’ICT Self-Efficacy and Computer and Information Literacy: Determinants and Relationships[J]. Computers & Education, 118:107-119.

      [18]Hautala, J., Heikkil?, R., & Nieminen, L. et al. (2020) Identification of Reading Difficulties by a Digital Game-Based Assessment Technology[J]. Journal of Educational Computing Research, 58(5):1003-1028.

      [19]Holland, J. H. (2006). Studying Complex Adaptive Systems[J]. Journal of Systems Science and Complexity, 19(1):1-8.

      [20]Kane, M. T. (2001). Current Concerns in Validity Theory[J]. Journal of Educational Measurement, 38(4):319-342.

      [21]Law, N., Woo, D., & Wong, G. (2018). A Global Framework of Reference on Digital Literacy Skills for Indicator 4.4.2[EB/OL]. [2022-10-07]. https://unesdoc.unesco.org/ark:/48223/pf0000265403.

      [22]Martin, A., & Grudziecki, J. (2006). DigEuLit: Concepts and Tools for Digital Literacy Development[J]. Innovation in Teaching and Learning in Information and Computer Sciences, 5(4):249-267.

      [23]Michaelides, M. P., Ivanova, M., & Nicolaou, C. (2020). The Relationship Between Response-Time Effort and Accuracy in Pisa Science Multiple Choice Items[J]. International Journal of Testing, 20(3):187-205.

      [24]Mislevy, R. J. (2021). Next Generation Learning and Assessment: What, Why and How[M]// Von Davier, A. A., Mislevy, R. J., & Hao, J. (Eds). Computational Psychometrics: New Methodologies for a New Generation of Digital Learning and Assessment. Switzerland: Springer, Cham:9-24.

      [25]Mislevy, R. J., Almond, R. G., & Lukas, J. F. (2003). A Brief Introduction to Evidence-Centered Design[R]. Princeton, NJ: ETS Research & Development Division.

      [26]Ovcharuk, O. (2020). European Strategy for Determining the Level of Competence in the Field of Digital Technologies: A Framework for Digital Competence for Citizens[J]. Educational Dimension, 3:25-36.

      [27]Park, Y. (2019). Common Framework for Digital Literacy, Skills and Readiness[R]. DQ Global Standards Report.

      [28]Polyak, S. T., Von Davier, A. A., & Peterschmidt, K. (2017). Computational Psychometrics for the Measurement of Collaborative Problem Solving Skills[J]. Frontiers in Psychology, 8:2029.

      [29]Snow, E., Rutstein, D., & Basu, S. et al. (2019). Leveraging Evidence-Centered Design to Develop Assessments of Computational Thinking Practices[J]. International Journal of Testing, 19(2):103-127.

      [30]Vatutin, A., Moskalenko, M., & Skryabin, M. et al. (2021). Computational Psychometric Approach for Assessing Mathematical Problem-Solving Skills[J]. Procedia Computer Science, 193:250-255.

      [31]Von Davier, A. A. (2017). Computational Psychometrics in Support of Collaborative Educational Assessments[J]. Journal of Educational Measurement, 54(1):3-11.

      [32]Zhu, S., Bai, J., & Zhang, M. et al. (2022). Developing a Digital Game for Assessing Primary and Secondary Students’Information Literacy Based on Evidence-Centered Game Design[C]// Lee, L K., Hui, Y K., & Mark, K P. et al. (2022). 2022 International Symposium on Educational Technology (ISET). Hong Kong: IEEE:173-177.

      收稿日期 2023-03-13 責(zé)任編輯 汪燕

      Evaluation of Students’Digital Literacy from a Computational Psychometric Perspective

      ZHU Sha, GUO Qing, WU Di

      Abstract: Regular monitoring and assessment of digital literacy development is the foundation and premise for enhancing the digital literacy of the entire population. Currently, the evaluation of students’ digital literacy primarily adheres to the classical measurement view of “assigning values to potential traits based on rules”, mainly utilizing standardized tests and self-reported scales as assessment tools. This approach faces limitations such as restricted evaluation content and one-sided evaluation methods. Computational psychometrics offers new theoretical and methodological support to solve the challenges in evaluating students’ digital literacy. It advocates for the combined use of research methods from multiple disciplines, including psychometrics and computer science, embedding assessment in real-world tasks to stimulate and track interaction between subjects and contexts. Through the collection and analysis of multi-source heterogeneous data, a process-oriented evaluation is realized. The evaluation framework for students’ digital literacy from the computational psychometrics perspective, guided by an evidence-centered design philosophy, constructs a reasoning chain combining top-down theoretical drive and bottom-up technology drive. It builds complex task scenarios to gather fine-grained data and uses data mining techniques to extract evidence from vast amounts of detailed data, thereby achieving precise evaluation. The practice of digital literacy assessment for upper elementary grades, conducted with this framework, demonstrates that this assessment paradigm helps form a closed-loop reasoning chain from the “capability model” of digital literacy to the “measurement model”. After multiple iterations of optimization, it can produce high-quality digital literacy assessment tasks, reliable evidence of students’ digital literacy and a stable measurement model.

      Keywords: Computational Psychometrics; Evidence-Centered Design; Digital Literacy Evaluation; Gamified Assessment

      塘沽区| 肥西县| 望谟县| 南充市| 怀柔区| 沛县| 东乡县| 榆中县| 玉田县| 翼城县| 自贡市| 万盛区| 开江县| 从江县| 云龙县| 水富县| 六盘水市| 刚察县| 寿光市| 铅山县| 招远市| 江西省| 洞头县| 深州市| 博乐市| 冕宁县| 葫芦岛市| 临猗县| 比如县| 满洲里市| 泾阳县| 蒙城县| 沁源县| 六枝特区| 泽库县| 安乡县| 聂拉木县| 关岭| 竹山县| 玉门市| 广灵县|