彭亞風(fēng) 羅照盛 李喻駿 高椿雷
(1江西師范大學(xué)心理學(xué)院,南昌 330022) (2華南師范大學(xué)心理應(yīng)用研究中心/心理學(xué)院,廣州 510631)
認(rèn)知診斷評價(Cognitive Diagnose Assessment,CDA,Leighton & Gierl,2007)以認(rèn)知診斷模型(Cognitive Diagnosis Model,CDM)為基礎(chǔ),是對被試認(rèn)知結(jié)構(gòu)或認(rèn)知過程的診斷評估。同其他評價方法相比,CDA能實現(xiàn)對個體認(rèn)知優(yōu)勢與劣勢的診斷,從而為教師對學(xué)生進(jìn)行補(bǔ)救教學(xué)、開展因材施教提供指導(dǎo)。與此同時,提供診斷信息,已經(jīng)成為現(xiàn)代教育發(fā)展的重要需求。近年來興起的“互聯(lián)網(wǎng)+”智慧測評,強(qiáng)調(diào)測驗需要向?qū)W生、家長以及教師提供診斷信息。在這個趨勢下,CDA已經(jīng)成為心理與教育測量學(xué)界最重要的研究熱點之一(Chiu,Douglas,& Li,2009; de la Torre,2008; De la Torre & Douglas,2004; DeCarlo,2010; Liu,Xu,& Ying,2012; 郭磊,苑春永,邊玉芳,2013; 羅照盛,李喻駿,喻曉鋒,高椿雷,彭亞風(fēng),2015; 羅照盛,喻曉鋒等,2015;涂冬波,蔡艷,戴海琦,2013; 喻曉鋒等,2015)。
正像醫(yī)生需要用一些特定的醫(yī)療技術(shù)方法來診斷患者病癥一樣,CDA也需要相應(yīng)的工具才能探查被試不可直接觀察的認(rèn)知結(jié)構(gòu),以實現(xiàn)其診斷功能。這個工具就是認(rèn)知診斷測驗(如無特別說明,本文中的測驗均指認(rèn)知診斷測驗)。那么如何設(shè)計一個合理的診斷測驗?一般來說,診斷測驗編制的大致流程為:首先定義屬性及其層級關(guān)系; 然后設(shè)計Q矩陣(表征了項目和屬性間關(guān)系); 最后命題專家依據(jù)所設(shè)計的Q矩陣編制項目組成測驗進(jìn)行測試。要精確診斷不同種類的認(rèn)知結(jié)構(gòu)就需要使用為其“量身定制”的測驗。目前,關(guān)于診斷測驗設(shè)計的研究可以分為以下兩大類:傳統(tǒng)測驗形式的設(shè)計模式研究和計算機(jī)化自適應(yīng)測驗(computerized adaptive test,CAT)的設(shè)計模式研究。
傳統(tǒng)測驗形式是用一套結(jié)構(gòu)固定的試題去診斷具有不同認(rèn)知結(jié)構(gòu)的被試群體。為了實現(xiàn)對被試的高效診斷,研究者就如何設(shè)計這套試題的結(jié)構(gòu)進(jìn)行了很多有益的探討(Liu,Huggins-Manley,&Bradshaw,2017; Madison & Bradshaw,2015; 丁樹良,汪文義,楊淑群,2011; 丁樹良,楊淑群,汪文義,2010; 彭亞風(fēng),羅照盛,喻曉鋒,高椿雷,李喻駿,2016)。研究結(jié)果均指出,在測驗結(jié)構(gòu) Q矩陣?yán)锇?R*(由于可達(dá)矩陣是特定概念,為不引起混淆,本文將 Q矩陣中包含與可達(dá)矩陣元素結(jié)構(gòu)相同的矩陣子集稱為類R陣,記為R*)可以提高對被試的分類準(zhǔn)確性。進(jìn)一步,彭亞風(fēng)等人(2016)針對不同屬性個數(shù)及其層級關(guān)系,提出了進(jìn)行診斷評價時Q矩陣優(yōu)化設(shè)計的一些建議。這類研究從被試群體的角度提出了傳統(tǒng)測驗形式的結(jié)構(gòu)優(yōu)化設(shè)計,但是未考慮不同認(rèn)知結(jié)構(gòu)的針對性診斷需求,存在“千人一卷”的相對單一性,無法做到“因人施測”,因而不可避免地在測驗效率上有所不足。
相比之下,認(rèn)知診斷計算機(jī)化自適應(yīng)測驗(cognitive diagnosis computerized adaptive test,CDCAT)有著傳統(tǒng)測驗形式所不具備的優(yōu)勢,即能夠根據(jù)被試認(rèn)知結(jié)構(gòu)的不同測試不同的項目。這種測驗形式雖然能保證被試所做的項目是當(dāng)前題庫中最優(yōu)的,但是用來支持自適應(yīng)測試過程的題庫在設(shè)計時并沒有考慮針對不同認(rèn)知結(jié)構(gòu)命制針對性的項目,這就從根本上限制了被試與項目之間的契合程度。更進(jìn)一步,這就可能導(dǎo)致題庫利用率出現(xiàn)問題,例如,項目的過度曝光、曝光不足以及曝光不均勻等問題。這些問題會影響測驗安全,導(dǎo)致項目開發(fā)與維護(hù)的成本增加(Wang,Chang,& Huebner,2011; 毛秀珍,辛濤,2013; 唐小娟,丁樹良,俞宗火,2012)。
探索如何針對不同認(rèn)知結(jié)構(gòu)設(shè)計相對應(yīng)的測驗?zāi)J?這是嘗試解決題庫建設(shè)過程中一個重要的先導(dǎo)問題。在解決了這一問題,明確認(rèn)知結(jié)構(gòu)和項目之間關(guān)系的前提下,才能從根本上保證“因人施測”以及優(yōu)化題庫設(shè)計。
綜上所述,本研究擬考察不同認(rèn)知結(jié)構(gòu)的測驗設(shè)計模式,以期構(gòu)建出不同認(rèn)知結(jié)構(gòu)的最佳測驗設(shè)計模式,為題庫建設(shè)提供切實可行的建議,進(jìn)而幫助提高診斷效率的同時降低題庫建設(shè)成本。本文包含兩個模擬實驗:實驗1探討了不同認(rèn)知結(jié)構(gòu)的最佳測驗設(shè)計模式; 實驗 2考察了基于不同認(rèn)知結(jié)構(gòu)的最佳測驗設(shè)計模式在 CD-CAT題庫構(gòu)建中的應(yīng)用。
正如前文所述,為不同認(rèn)知結(jié)構(gòu)被試設(shè)計對應(yīng)的測驗?zāi)J绞菫榱烁咝Ь珳?zhǔn)地診斷被試,這與CAT的測驗?zāi)康南辔呛?。而要實現(xiàn)這一目的需構(gòu)建優(yōu)質(zhì)題庫。為此,Reckase (2003,2007,2010)借助CAT的測驗方式“反過來”探索優(yōu)質(zhì)題庫的形態(tài),并提出了 CAT中題庫的優(yōu)化設(shè)計方法——p-優(yōu)化方法。Reckase提出了最佳題庫的概念,即對每一種選題策略,都能在題庫中找到符合該策略特定范圍p內(nèi)的項目,并且將這種設(shè)計稱之為“p-優(yōu)化” (p-optimal)。在p-優(yōu)化的思路下,若采用最大Fisher信息量選題,則題庫中只要有能夠提供達(dá)到最大信息量p%的項目便可接受。據(jù)此,Reckase提出了基于Rash模型的題庫優(yōu)化設(shè)計方法。其大致步驟為:首先,依據(jù)Rash模型 Fisher信息量的計算公式可以算出最大Fisher信息量p%所對應(yīng)的難度區(qū)間(bin),并以此區(qū)間長度為單位將難度量表劃分成多個區(qū)間; 其次,隨機(jī)抽取被試施測CAT,記錄每個被試在每個區(qū)間上所需的項目數(shù)量; 再次,依據(jù)最大題量原則,對被試施測后在各個區(qū)間上的項目數(shù)量進(jìn)行融合,隨著被試數(shù)量的增多,各個區(qū)間內(nèi)項目數(shù)量趨于穩(wěn)定;最后,匯總所有區(qū)間上的項目數(shù)量及其測量學(xué)信息,形成題庫優(yōu)化設(shè)計藍(lán)圖。
受p-優(yōu)化方法的啟發(fā),在其基礎(chǔ)上,根據(jù)CDA的特點,提出針對不同認(rèn)知結(jié)構(gòu)的最佳測驗設(shè)計模式構(gòu)建方法。IRT和CDA存在著兩點不同:第一,項目的測量學(xué)信息不同。IRT下表現(xiàn)為項目參數(shù)(如難度,區(qū)分度),而 CDA的項目測量學(xué)信息不僅包括項目參數(shù),還包括項目所考察的屬性組合。第二,被試的測量學(xué)信息不同。IRT中被試能力水平是連續(xù)數(shù)值,取值范圍為[?∞,+∞],通常假定服從正態(tài)分布,而 CDA中被試的認(rèn)知結(jié)構(gòu)是離散的,且當(dāng)屬性層級關(guān)系及其個數(shù)確定時,所有可能的認(rèn)知結(jié)構(gòu)就是固定的,同時典型項目考核模式也就確定了?;?CDA的以上特點考慮,當(dāng)測驗所考察屬性已確定的情況下,將構(gòu)建不同認(rèn)知結(jié)構(gòu)的最佳測驗設(shè)計模式的具體步驟設(shè)定如下:
(1)劃分區(qū)間。根據(jù)給定的屬性及其層級關(guān)系,計算典型項目考核模式,將每種模式記為一個區(qū)間。
(2)模擬 CD-CAT并記錄各個區(qū)間內(nèi)的項目數(shù)量。針對某一種認(rèn)知結(jié)構(gòu)的被試群體,從中隨機(jī)抽取被試進(jìn)入 CD-CAT,并記錄被試所做項目。當(dāng)施測完一名被試后,根據(jù)項目所屬的區(qū)間,計算該被試在每個區(qū)間里所做項目的數(shù)量。(CD-CAT的題庫中包含所有典型項目考核模式,且每種模式的項目數(shù)量足夠大,項目參數(shù)的分布區(qū)間足夠廣。)
(3)融合。依據(jù)最大題量原則,對被試施測后在各個區(qū)間上的項目數(shù)量進(jìn)行融合。例如,在區(qū)間A上,被試1測了5個項目,被試2為3個項目,融合后以5個項目作為區(qū)間A的期望項目數(shù)量。
(4)重復(fù)第2步和第3步,直到該認(rèn)知結(jié)構(gòu)中所有被試施測完畢,匯總各個區(qū)間內(nèi)的項目數(shù)量,即可得到該種認(rèn)知結(jié)構(gòu)下的最佳測驗設(shè)計模式。
下面通過一個例子進(jìn)行簡單的說明。
假定屬性個數(shù)為 5,屬性層級關(guān)系為獨立型(Independent) (Tatsuoka,1995)。被試i和被試n的認(rèn)知結(jié)構(gòu)真值均為[1 1 0 0 0]。采用后驗加權(quán)K-L信息(posterior-weighted Kullback-Leibler,PWKL)(Cheng,2009)選題,直到被試i和被試n在某種認(rèn)知結(jié)構(gòu)的最大后驗概率不低于0.95,則終止測驗。記錄兩名被試在整個測驗過程中的選題、作答及參數(shù)估計情況,結(jié)果如表1和表2所示。
表1 被試i基于PWKL所選出的項目、作答、認(rèn)知結(jié)構(gòu)估計值及其后驗概率
表2 被試n基于PWKL所選出的項目、作答、認(rèn)知結(jié)構(gòu)估計值及其后驗概率
表1和表2分別為被試i和被試n在CD-CAT過程中所選擇項目的屬性向量、作答情況、做完每個項目后認(rèn)知結(jié)構(gòu)的估計值及其后驗概率。按照最大題量的原則對每個區(qū)間內(nèi)的項目個數(shù)進(jìn)行融合,得到表3。
表3 各個區(qū)間內(nèi)抽取的項目個數(shù)(融合后)
同時,通過表1和表2可以發(fā)現(xiàn)單個被試的整個測驗過程可以分為兩個階段:試驗性探查階段(記為0階段)和精確估計階段(記為1階段)。其中,1階段指的是被試認(rèn)知結(jié)構(gòu)的估計值與真值一致之后的階段,在此階段所做項目不會改變認(rèn)知結(jié)構(gòu)的估計值,只會一直增加該估計值的后驗概率直至達(dá)到終止規(guī)則,例如表1中的5~9題; 0階段就是1階段之前的階段,例如表 1中的 1~4題,表 2中的1~11題。需要注意的是,受隨機(jī)因素的影響,0階段時被試認(rèn)知結(jié)構(gòu)的估計會存在波動,例如表2中被試n在完成9~10題后,其認(rèn)知結(jié)構(gòu)均估計正確,但第11題之后又估計錯誤。
那么,不同認(rèn)知結(jié)構(gòu)的被試在0階段和1階段抽取的項目類型是否存在某種規(guī)律?探討此問題可為不同認(rèn)知結(jié)構(gòu)的最佳測驗設(shè)計模式提供更加明確的設(shè)計方向,進(jìn)一步節(jié)省測驗編制的成本。
本研究考察在不同屬性個數(shù)、不同屬性層級關(guān)系的情況下,不同認(rèn)知結(jié)構(gòu)的最佳測驗設(shè)計模式。
本研究考察的屬性個數(shù)有兩種水平:K=5個、K=6。屬性層級關(guān)系:6種類型,分別為:直線型(Linear)、收斂型(Convergent)、發(fā)散型(Divergent)、無結(jié)構(gòu)型(Unstructured)、獨立型(Independent)、混合型(Mixture)。其中,混合型是一種多種屬性層級關(guān)系并存的關(guān)系類型,是為了仿真實際測驗情境中可能存在較為復(fù)雜的屬性層級關(guān)系模式。(所有屬性層級關(guān)系示意圖見網(wǎng)絡(luò)版附錄1,附錄2)。
(1)被試設(shè)計
由于當(dāng)屬性的個數(shù)及其層級關(guān)系確定以后,所有認(rèn)知結(jié)構(gòu)的類型便以確定。因此,為了探索出每種認(rèn)知結(jié)構(gòu)的最佳測驗設(shè)計模式,固定每種認(rèn)知結(jié)構(gòu)的被試人數(shù)均為 100人。即被試認(rèn)知結(jié)構(gòu)分布,服從均勻分布。
(2)題庫設(shè)計
屬性的個數(shù)及其層級關(guān)系決定了典型項目考核模式的種類。因此,設(shè)定每種典型項目考核模式均重復(fù)出現(xiàn)40次。項目參數(shù):s和g服從均分分布U(0.05,0.25)。
本研究采用的認(rèn)知診斷模型為 DINA模型。DINA模型在擁有簡潔項目參數(shù)的同時,分類準(zhǔn)確性較高(De la Torre & Douglas,2004)。DINA模型的公式如下:
其中,
ijh表示的是被試i是否掌握了項目j所考核的所有屬性;qij表示的是項目j是否考察了屬性k;被試掌握了項目j所考核的所有屬性,但答錯的概率;gj:被試未全部掌握項目j所考核的所有屬性,但是答對的概率。
PWKL為判準(zhǔn)率較高且使用較為廣泛的一種選題策略,其公式如下:
采用變長終止規(guī)則,設(shè)定的標(biāo)準(zhǔn)為當(dāng)被試屬于某種認(rèn)知結(jié)構(gòu)的最大后驗概率不低于0.95。使用變長的終止規(guī)則來探索每種認(rèn)知結(jié)構(gòu)的最佳測驗設(shè)計模式的原因在于,一方面可以設(shè)定每個被試的測量精度相同,可以有更高的估計精度(Babcock &Weiss,2009); 另一方面更能體現(xiàn)出自適應(yīng)的特點和優(yōu)勢(郭磊,鄭蟬金,邊玉芳,2015)。
用Monte Carlo方法進(jìn)行模擬。第2部分已經(jīng)詳細(xì)地介紹了實驗的具體過程,這里主要介紹第 2部分步驟2中被試CD-CAT過程的模擬方法,具體步驟如下:
(1)選題。使用PWKL選題,隨機(jī)產(chǎn)生被試的認(rèn)知結(jié)構(gòu)初值,然后基于認(rèn)知結(jié)構(gòu)初值通過 PWKL選擇第一個項目。
(2)模擬作答。運用DINA模型的項目反應(yīng)函數(shù)計算被試在所選項目上的正確作答概率p。然后生成一個隨機(jī)數(shù)r,若p>r,則被試在該項目上的作答記為1,否則為0分。
(3)估計認(rèn)知結(jié)構(gòu)。根據(jù)被試在已作答項目上的反應(yīng)通過最大后驗概率方法(Maximum A Posterior,MAP)估計被試的認(rèn)知結(jié)構(gòu)及其后驗概率。
(4)再選題。再根據(jù)選題策略從剩余題庫中選出與被試當(dāng)前認(rèn)知結(jié)構(gòu)估計值最匹配的項目給被試作答。
(5)重復(fù)步驟2至步驟4直至被試屬于某種認(rèn)知結(jié)構(gòu)的最大后驗概率不低于0.95。
在每個被試CD-CAT模擬過程中,記錄其所抽取的項目、每做完一個項目后認(rèn)知結(jié)構(gòu)的估計值及其后驗概率。
實驗重復(fù)次數(shù)為30次。
模式判準(zhǔn)率(Pattern Match Ration,PMR)用于考察被試認(rèn)知結(jié)構(gòu)的仿真性,它指被試認(rèn)知結(jié)構(gòu)判對的人數(shù)占總?cè)藬?shù)的百分比,PMR越大,表明分類準(zhǔn)確性越高。計算公式如下:
圖1 六種屬性層級關(guān)系下不同認(rèn)知結(jié)構(gòu)類型的平均測驗總長度以及0、1階段測驗長度占總長度百分比(K=5,30次平均結(jié)果)
其中,N為被試總?cè)藬?shù)。若被試i的認(rèn)知結(jié)構(gòu)真值與其參加測驗后估計得到的認(rèn)知結(jié)構(gòu)估計值相等,則反之則
六種屬性層級關(guān)系下使用PWKL選題的PMR均在0.96之上,具有較高判準(zhǔn)率。圖1為K=5時,六種屬性層級關(guān)系下每種認(rèn)知結(jié)構(gòu)的平均測驗長度(記為以及 0、1階段測驗長度占總長度的百分比(分別記為(K=6時的結(jié)果呈現(xiàn)相同趨勢,請見網(wǎng)絡(luò)版附錄 3),橫坐標(biāo)為認(rèn)知結(jié)構(gòu)的種類,縱坐標(biāo)為平均測驗長度。因為屬性層級關(guān)系越松散,其對應(yīng)的認(rèn)知結(jié)構(gòu)的種類就越多,故為了便于結(jié)果的清晰呈現(xiàn),依據(jù)認(rèn)知結(jié)構(gòu)中掌握的屬性個數(shù)將每種屬性層級關(guān)系下所有的認(rèn)知結(jié)構(gòu)分為6類:掌握了 0、1、2、3、4、5個屬性的認(rèn)知結(jié)構(gòu)類型,分別記為0A,1A,2A,3A,4A,5A (下同)。
以直線型為例,對1階段時認(rèn)知結(jié)構(gòu)為[0 0 0 0 0]的所有被試在區(qū)間[1 0 0 0 0]上抽取的項目數(shù)量進(jìn)行頻次分析,結(jié)果見表4。通過表4發(fā)現(xiàn),在區(qū)間[1 0 0 0 0]上抽取了2個項目的有86人次,抽取了3個項目的有6人次,項目的有9人次,抽取了6個項目的僅有1人次,此時最大題量為6。由此可見,第2部分步驟3并不適合使用最大題量的原則進(jìn)行融合。因為若按照最大題量的融合原則,則[0 0 0 0 0]的認(rèn)知結(jié)構(gòu)在區(qū)間[1 0 0 0 0]上需要6個項目,而實際上,絕大多數(shù)被試都是抽取了3個以下的項目,這會造成這個區(qū)間內(nèi)的項目數(shù)量虛高,增加命題成本。因此,本研究采用了另外兩種方法來進(jìn)行融合。方法1:區(qū)間內(nèi)項目數(shù)量分布的平均數(shù)加1個標(biāo)準(zhǔn)差(記為M+SD); 方法2:區(qū)間內(nèi)項目數(shù)量分布的第90百分位數(shù)(記為p90)。
表4 認(rèn)知結(jié)構(gòu)為[0 0 0 0 0]的所有被試在區(qū)間[1 0 0 0 0]上抽取項目數(shù)量的頻次分布
圖2為K=5時,使用p90得到的六種屬性層級關(guān)系下,所有認(rèn)知結(jié)構(gòu)類型在0、1階段選出來的項目類型及其個數(shù)(M+SD的結(jié)果與p90基本一致,見網(wǎng)絡(luò)版附錄4;K=6時呈現(xiàn)相同趨勢,對應(yīng)結(jié)果請見網(wǎng)絡(luò)版附錄5和附錄6)。為了結(jié)果的清晰呈現(xiàn),對實驗結(jié)果進(jìn)行如下處理:首先,對每個區(qū)間按照其考察的屬性個數(shù)進(jìn)行分類,分為:考察1、2、3、4、5個屬性的項目類型,分別記為1IA,2IA,3IA,4IA,5IA (下同); 然后,針對每種認(rèn)知結(jié)構(gòu),將各個項目類型所包含區(qū)間里的項目數(shù)量分別累加; 最后,求取各認(rèn)知結(jié)構(gòu)類型下,上一步所得累加值的平均數(shù)。結(jié)果如圖2所示。
從圖2中的每一行可以看出,同一屬性層級關(guān)系內(nèi)不同認(rèn)知結(jié)構(gòu)類型抽取的項目類型及其個數(shù)均不同,即不同認(rèn)知結(jié)構(gòu)有不同的最佳測驗設(shè)計模式。認(rèn)知結(jié)構(gòu)類型中掌握的屬性個數(shù)與抽取的項目類型中考察的屬性個數(shù)呈正比。0階段和1階段最佳測驗設(shè)計模式的相同之處在于,項目的抽取圍繞目標(biāo)屬性(當(dāng)前認(rèn)知結(jié)構(gòu)中掌握的屬性)展開,且隨著認(rèn)知結(jié)構(gòu)類型中掌握屬性個數(shù)的增加,抽取的項目類型種類增多; 不同之處在于,0階段時,不同認(rèn)知結(jié)構(gòu)類型抽取的項目類型大部分比較一致,1階段更多抽取的是考察屬性個數(shù)與認(rèn)知結(jié)構(gòu)類型中掌握屬性個數(shù)較為接近的項目類型(圖中表現(xiàn)為明顯的對角線集中趨勢)。
圖2 六種屬性層級關(guān)系下所有認(rèn)知結(jié)構(gòu)類型在0、1階段下選出的項目類型及其個數(shù)(K=5,p90, 30次平均結(jié)果)。圖中圓圈面積的大小與項目個數(shù)成正比:項目被抽取的個數(shù)越多,圖中圓圈對應(yīng)的面積就越大。最小面積代表被抽取的項目平均個數(shù)為0.2,最大面積代表被抽取的項目平均個數(shù)為12.9。
具體來說,0階段時,隨著認(rèn)知結(jié)構(gòu)類型中掌握屬性個數(shù)的增加,3IA、4IA中的項目個數(shù)逐漸增加:0A時抽取1IA中每種項目考核模式1~2個,2IA中每種項目考核模式1~2個; 1A時抽取1IA、2IA中考察了目標(biāo)屬性的項目2個,1IA中考察非目標(biāo)屬性的項目各1個; 2A在1A基礎(chǔ)上增加2IA、3IA中考察目標(biāo)屬性的項目各1個; 3A在1A基礎(chǔ)上增加2IA中未考察目標(biāo)屬性的項目2個以及3IA中考察目標(biāo)屬性的項目各2個; 4A、5A抽取的項目類型與3A大致相同。1階段時,0A時抽取1IA中每種項目考核模式2~3個; 1A~5A的最佳測驗?zāi)J綖樵?階段對應(yīng)模式基礎(chǔ)上,逐漸減少了1IA、2IA的項目個數(shù),逐漸增加了3IA、4IA、5IA中考察目標(biāo)屬性的項目個數(shù)1~2個。
Flaugher (2000)指出要實現(xiàn)CAT的優(yōu)勢,題庫中必須包含針對不同能力水平的高質(zhì)量題目。同理,CD-CAT可以為每種認(rèn)知結(jié)構(gòu)提供最匹配測驗的前提是,題庫中應(yīng)該包含針對每種認(rèn)知結(jié)構(gòu)類型所需的所有項目類型及其個數(shù)。因此,使用最大題量原則將所有認(rèn)知結(jié)構(gòu)的最佳測驗設(shè)計模式在每個區(qū)間內(nèi)的項目數(shù)量進(jìn)行融合,得到了該種屬性個數(shù)及其層級關(guān)系下的題庫建設(shè)藍(lán)圖,結(jié)果見表5。
表5為六種屬性層級關(guān)系下題庫中需要的項目類型及其個數(shù)。從表5可以看出六種屬性層級關(guān)系下,題庫容量與層級關(guān)系的緊密程度成反比。因為屬性層級關(guān)系越緊密,其對應(yīng)的典型項目考核模式的種類就越少,從而導(dǎo)致每種項目類型里的項目數(shù)量也越小。
表 5 不同屬性個數(shù)時六種屬性層級關(guān)系下題庫中各個項目類型的數(shù)量分布
具體來說(以K=5為例),從題庫容量和屬性層級關(guān)系的對應(yīng)關(guān)系上來看,每種屬性層級關(guān)系下的典型項目考核模式種類是決定題庫容量的重要指標(biāo)。直線型、收斂型和發(fā)散型下所需的題庫容量是對應(yīng)的典型項目考核模式種類的4~5倍,無結(jié)構(gòu)和混合型時為3~4倍,獨立型為2~3倍。例如,獨立型情況下典型項目考核模式有 31種,則此時的題庫容量為62~93之間較為合適。
進(jìn)一步地,從題庫和項目類型的關(guān)系上看,不同的項目類型有著不同的項目數(shù)量,影響著題庫的大小。每種項目類型的項目數(shù)量與該項目類型所包含典型項目考核模式的種類有關(guān),且因?qū)傩詫蛹夑P(guān)系的不同而不同:直線型和收斂型情況下,1IA~5IA中所包含的每種典型項目考核模式均5個左右,例如,直線型情況下1IA中僅包含1種典型項目考核模式([1 0 0 0 0]),則題庫中應(yīng)該包含5個該種考核模式的項目,最終 1IA的項目數(shù)量為 5,其余情況以此類推; 發(fā)散型下,1IA至5IA中所包含的每種典型項目考核模式的項目個數(shù)分別為5個,5個,4個,4個,2個; 當(dāng)屬性層級關(guān)系為無結(jié)構(gòu)時,分別為:5個,5個,3個,3個,2個; 獨立型情況下,對應(yīng)的項目個數(shù)分別為:5個,3個,2個,2個,1個?;旌闲蜁r1IA至5IA中所包含的每種典型項目考核模式的項目個數(shù)驗證了上述結(jié)果,例如1IA中每種典型項目考核模式為5個; 2IA中屬于獨立型關(guān)系的屬性(A1和A4)組成的典型項目考核模式([1 0 0 1 0])的項目個數(shù)和屬于直線型關(guān)系的屬性(A1和 A2)組合([1 1 0 0 0])的項目個數(shù)分別為3個和5個; 3IA中屬于獨立型關(guān)系的屬性(A1、A4和A5)組合([1 0 0 1 1])的項目個數(shù)為 2個,屬于收斂型關(guān)系的屬性(A1、A3和A4)組合([1 0 1 1 0])的項目個數(shù)為4個。
實驗1還在CD-CAT中使用了香農(nóng)熵(Shannon Entropy,SHE) (Tatsuoka,2002; Xu,Chang,& Douglas,2003)選題策略,實驗結(jié)果呈現(xiàn)出相同的規(guī)律(限于篇幅未在本文中列出,感興趣的讀者,可與作者聯(lián)系)。
目前研究者常用的兩個題庫模擬方法:陳平提出的模擬題庫的方法(Chen,Xin,Wang,& Chang,2012; 陳平,2011; 陳平,辛濤,2011a,2011b)以及Cheng的方法(Cheng,2009,2010; Zheng & Chang,2016; 毛秀珍,辛濤,2013)。實驗2的主要目的是比較這兩種題庫與實驗1中基于不同認(rèn)知結(jié)構(gòu)的最佳測驗設(shè)計模式構(gòu)建的題庫在 CD-CAT中的使用效率。
屬性個數(shù):K=6。屬性層級關(guān)系為獨立型。采用的認(rèn)知診斷模型為 DINA模型,選題策略為PWKL。CD-CAT模擬及認(rèn)知結(jié)構(gòu)估計與實驗1一致。實驗重復(fù)次數(shù)為30次。
被試總?cè)藬?shù)為 1000,并且假設(shè)每個被試掌握每個屬性的概率是50%。題庫的生成:包含3個題庫,分別是:題庫1按照實驗1中得到的獨立型K=6時題庫建設(shè)規(guī)律生成,題庫容量為 152,其中1IA-6IA里每種項目考核模式的項目個數(shù)為:5個、3個、2個、2個、1個、1個; 題庫2按照Cheng的方法:每個項目至少考查一個屬性,并且考查每個屬性的概率為0.2,題庫大小與題庫1一致; 題庫3按照陳平的方法生成一個360×6的Q矩陣,其中包含三種類型的基本Q矩陣。題庫中的項目參數(shù)s和g服從均分分布U(0.05,0.25)。
分別采用定長與變長的終止規(guī)則:定長下設(shè)定測驗長度TL為20; 變長下設(shè)定被試屬于某種認(rèn)知結(jié)構(gòu)的最大后驗概率不低于0.95。
(1)被試診斷效果評價指標(biāo):采用重復(fù)實驗下的PMR來評價診斷效果;
(2)題庫使用均勻性指標(biāo)(χ2):χ2用于評價項目觀察曝光率和期望曝光率之間的差異,其計算公式如下:
其中,erj是第j個項目的曝光率,等于作答項目j的被試人數(shù)除以參加測驗的總被試人數(shù)為項目j的期望曝光率,等于測驗長度TL除以題庫容量。χ2指標(biāo)越小,說明整個題庫的使用越均勻。
其中,Tj是第j個項目的被調(diào)用次數(shù),其余符號的定義與χ2相同。
此外,還記錄了最大曝光率(記為Max.er)、最小曝光率(記為Min.er)、曝光率大于20%的項目數(shù)量(記為er≥ 20%)以及題庫中未使用的項目數(shù)量百分比(記為never used%)。
研究結(jié)果如圖3、表6和表7所示。圖3呈現(xiàn)的是 CD-CAT中不同終止規(guī)則下不同題庫對被試的診斷效果,表6和表7分別呈現(xiàn)的是CD-CAT中不同終止規(guī)則下3種題庫的題庫使用情況指標(biāo)。
圖3 不同終止規(guī)則下3種題庫的PMR
表6 定長情況下3種題庫的使用情況
表7 變長情況下3種題庫的使用情況以及平均測驗長度
從圖3可以看出,在定長與變長兩種終止規(guī)則下,3種題庫的PMR差異不大,基本均在0.95之上。
由表6可知,題庫1的χ2指標(biāo)最小為45.96,題庫3的χ2指標(biāo)最大; 就重疊率而言,題庫1的重疊率最低,題庫 2的最高; 另外,三種題庫的最大項目曝光率都接近1,最小項目曝光率均為0,曝光率大于20%的項目均在30個左右。值得注意的是,題庫1的未使用項目比例最低,僅為7.19%。
由表7可知,題庫1的平均測驗長度為15.33,略高于題庫2的14.32和題庫3的12.99; 三種題庫的最大項目曝光率都接近 1,最小項目曝光率均為0,曝光率大于20%的項目均在20個左右。同樣的,題庫1的未使用項目比例最低,為15.11%,題庫3最高,為58.61%。
從整體上看,題庫 1的使用效率最高,在題庫使用方面的表現(xiàn)較其他兩種題庫要好。
從實驗結(jié)果可以看出,不同認(rèn)知結(jié)構(gòu)的最佳測驗設(shè)計模式不相同。具體表現(xiàn)在不同認(rèn)知結(jié)構(gòu)的最佳測驗長度,試驗性探查階段(0階段)和精確估計階段(1階段)的設(shè)計模式均不相同。其中,最佳測驗長度由 0、1階段的最佳測驗設(shè)計模式所決定。0階段是對被試認(rèn)知結(jié)構(gòu)的試驗性探查階段,需要逐個排查被試在每個屬性上是否掌握。因此,不同認(rèn)知結(jié)構(gòu)類型測驗設(shè)計模式中的大部分項目類型比較一致; 而1階段是對被試認(rèn)知結(jié)構(gòu)的精確估計階段,對不同認(rèn)知結(jié)構(gòu)有著更加精確的定位需求,與之對應(yīng)的最佳測驗設(shè)計模式也呈現(xiàn)出更加明顯的特點:不同認(rèn)知結(jié)構(gòu)類型的最佳測驗設(shè)計模式中的項目,其考察的屬性個數(shù)與當(dāng)前認(rèn)知結(jié)構(gòu)類型中掌握的屬性個數(shù)較為接近。與此同時,0階段和1階段的最佳測驗設(shè)計模式也有共同之處,即均圍繞目標(biāo)屬性展開。具體規(guī)律如下:
0階段時,掌握了 0個屬性的認(rèn)知結(jié)構(gòu)(記為0A,以此類推,隨著認(rèn)知結(jié)構(gòu)中掌握的屬性個數(shù)的增加,分別記為 1A,2A,……,KA)的最佳測驗設(shè)計模式為:考察1個屬性的每種項目考核模式和考察2個屬性的項目考核模式各1~2個,例如直線型情況下,認(rèn)知結(jié)構(gòu)[0 0 0 0 0]需要考核模式為[1 0 0 0 0]和[1 1 0 0 0]的項目各1~2個; 1A:考察1個和2個屬性的項目類型中考察了認(rèn)知結(jié)構(gòu)已掌握屬性(目標(biāo)屬性)的項目各 2個,考察 1個屬性的項目類型中考察了認(rèn)知結(jié)構(gòu)未掌握屬性(非目標(biāo)屬性)的項目各 1個,例如獨立型情況下,認(rèn)知結(jié)構(gòu)[1 0 0 0 0](第一個屬性為目標(biāo)屬性,其余為非目標(biāo)屬性)需要考核模式為[1 0 0 0 0]的項目2個,[1 1 0 0 0]、[1 0 1 0 0]、[1 0 0 1 0]、[1 0 0 0 1]這四種考核模式中的任意1種2個或任意2種各1個,以及[0 1 0 0 0]、[0 0 1 0 0]、[0 0 0 1 0]、[0 0 0 0 1]這四種考核模式各1個; 2A:在1A基礎(chǔ)上增加考察2、3個屬性的項目類型中考察了目標(biāo)屬性的項目各 1個; 3A在1A基礎(chǔ)上增加考察2個屬性的項目類型中考察了非目標(biāo)屬性的項目2個,考察3個屬性的項目類型中考察目標(biāo)屬性的項目各2個; 4A~KA:在(K-1)A基礎(chǔ)上,增加考察K個屬性的項目1個左右。
1階段時,隨著認(rèn)知結(jié)構(gòu)中掌握屬性個數(shù)的增加,考察1個和2個屬性的項目個數(shù)逐漸減少,考察屬性向量與認(rèn)知結(jié)構(gòu)屬性向量相同以及與其相差1~2個屬性的項目類型逐漸增多,0A除外。0A時抽取考察1個屬性的項目類型中每種項目考核模式2~3個; 1A~KA的最佳測驗設(shè)計模式為在0階段對應(yīng)模式基礎(chǔ)上,減少了考察1、2個屬性的項目個數(shù),相應(yīng)增加考察 3、4至K個屬性中考察目標(biāo)屬性的項目個數(shù)1~2個。
通過將測驗過程劃分為0階段和1階段可以看出,在不同的測驗情景下,0階段的最佳測驗設(shè)計模式都具有一定的共性,結(jié)合1階段最佳測驗設(shè)計模式所體現(xiàn)出的特異性,能夠為題庫藍(lán)圖設(shè)計提供更加明確的指導(dǎo)意見,進(jìn)一步的節(jié)約命題成本。
實驗2的結(jié)果可以看出,基于不同認(rèn)知結(jié)構(gòu)的最佳測驗設(shè)計模式構(gòu)建出的題庫,其使用效率比研究者常用的題庫更高。這表明采用實驗1得到的題庫藍(lán)圖可以指導(dǎo)題庫的建設(shè),緩解了題庫中項目浪費的情況。通過分析實驗1中的題庫藍(lán)圖,推論得到了不同屬性層級關(guān)系下題庫建設(shè)的一般規(guī)律:
在題庫容量方面,目標(biāo)領(lǐng)域內(nèi)屬性個數(shù)及其層級關(guān)系下的典型項目考核模式種類是決定題庫容量的重要指標(biāo)。直線型、收斂型和發(fā)散型下所需的題庫容量是對應(yīng)的典型項目考核模式種類的4~5倍,無結(jié)構(gòu)時為3~4倍,獨立型為2~3倍。
在題庫所包含的項目類型方面,每種項目類型的項目數(shù)量與該項目類型所包含典型項目考核模式的種類有關(guān),且因?qū)傩詫蛹夑P(guān)系的不同而不同:直線型和收斂型情況下,每種項目類型中所包含的每種典型項目考核模式均5個左右; 剩下三種屬性層級關(guān)系下,隨著項目類型中考察的屬性個數(shù)的增加,對應(yīng)所包含的每種典型項目考核模式的項目個數(shù)依次減少:考察1~3個屬性的項目類型中每種典型項目考核模式的項目個數(shù)分別為5、4、3個左右,考察4個至K–1個屬性的項目類型中每種典型項目考核模式的項目個數(shù)均為2個左右,以及1個左右考察K個屬性的典型項目考核模式。
綜上所述,本研究通過探討每種認(rèn)知結(jié)構(gòu)的最佳測驗設(shè)計模式,明確了認(rèn)知結(jié)構(gòu)與項目類型之間的關(guān)系,找到不同認(rèn)知結(jié)構(gòu)所需的針對性項目,并在此基礎(chǔ)上推論得到題庫藍(lán)圖建設(shè)的一般規(guī)律。
建設(shè)題庫是一項系統(tǒng)工程,需要多學(xué)科專業(yè)人員(學(xué)科專家、心理與教育測量人員、計算機(jī)技術(shù)人員等)協(xié)同攻關(guān),在科學(xué)的題庫建設(shè)理論指導(dǎo)下有步驟地進(jìn)行(漆書青,戴海琦,丁樹良,2002)。本文從理論上探討了題庫建設(shè)的一般框架,提供一種科學(xué)建設(shè)題庫的新方法。實踐者可以依據(jù)該新方法,通過模擬事先確定題庫的大致結(jié)構(gòu),再根據(jù)實際需要結(jié)合考察學(xué)科內(nèi)容、測驗時間等因素,進(jìn)一步細(xì)化題庫建設(shè)方案,這樣構(gòu)建出的題庫既適用于診斷包含有不同認(rèn)知結(jié)構(gòu)類型的被試群體,又同時避免了命制實則無法助益于提升測驗效率的項目,節(jié)約題庫建設(shè)成本。但該題庫容量相對較小,在一定程度上會增大項目過度曝光的可能性,這也是之后研究所需改進(jìn)的方向。
Babcock,B.,& Weiss,D. J. (2009).Termination criteria in computerized adaptive tests: Variable-length cats are not biased. Paper presented at the Proceedings of the 2009 GMAC Conference on Computerized Adaptive Testing.
Chen,P. (2011).Item replenishing in cognitive diagnostic computerized adaptive testing- based on DNA model(Unpublished doctorial dissertation). Beijing Normal University.
[陳平. (2011).認(rèn)知診斷計算機(jī)自適應(yīng)測驗的項目增補(bǔ)——以DINA模型為例(博士學(xué)位論文). 北京師范大學(xué).]
Chen,P.,& Xin,T. (2011a). Developing on-line calibration methods for cognitive diagnostic computerized adaptive testing.Acta Psychologica Sinica,43(6),710–724.
[陳平,辛濤. (2011a). 認(rèn)知診斷計算機(jī)化自適應(yīng)測驗中在線標(biāo)定方法的開發(fā).心理學(xué)報,43(6),710–724.]
Chen,P.,& Xin,T. (2011b). Item replenishing in cognitive diagnostic computerized adaptive testing.Acta Psychologica Sinica,43(7),836–850.
[陳平,辛濤. (2011b). 認(rèn)知診斷計算機(jī)化自適應(yīng)測驗中的項目增補(bǔ).心理學(xué)報,43(7),836–850.]
Chen,P.,Xin,T.,Wang,C.,& Chang,H.-H. (2012). Online calibration methods for the DINA model with independent attributes in CD-CAT.Psychometrika,77(2),201–222.
Cheng,Y. (2009). When cognitive diagnosis meets computerized adaptive testing: CD-CAT.Psychometrika,74(4),619–632.
Cheng,Y. (2010). Improving cognitive diagnostic computerized adaptive testing by balancing attribute coverage: The modified maximum global discrimination index method.Educational and Psychological Measurement,70,902–913.
Chiu,C.-Y.,Douglas,J. A.,& Li,X. D. (2009). Cluster analysis for cognitive diagnosis: Theory and applications.Psychometrika,74(4),633–665.
De la Torre,J. (2008). An empirically based method of Q-matrix validation for the DINA model: Development and applications.Journal of Educational Measurement,45(4),343–362.
De la Torre,J.,& Douglas,J. A. (2004). Higher-order latent trait models for cognitive diagnosis.Psychometrika,69(3),333–353.
DeCarlo,L. T. (2011). On the analysis of fraction subtraction data: The DINA Model,classification,latent class sizes,and the Q-matrix.Applied Psychological Measurement,35(1),8–26.
Ding,S. L.,Wang,W. Y.,& Yang,S. Q. (2011). The design of cognitive diagnostic test blueprints.Journal of Psychological Science,34(2),258?265.
[丁樹良,汪文義,楊淑群. (2011). 認(rèn)知診斷測驗藍(lán)圖的設(shè)計.心理科學(xué),34(2),258?265.]
Ding,S. L.,Yang,S. Q.,& Wang,W. Y. (2010). The importance of reachability matrix in constructing cognitively diagnostic testing.Journal of Jiangxi Normal University (Natural Science),34(5),490?494.
[丁樹良,楊淑群,汪文義. (2010). 可達(dá)矩陣在認(rèn)知診斷測驗編制中的重要作用.江西師范大學(xué)學(xué)報(自然科學(xué)版),34(5),490?494.]
Flaugher,R. (2000). Item pools. In H. Wainer,N. J. Dorans,D.Eignor,R. Flaugher,B. F. Green,R. J. Mislevy,…D.Thissen (Eds.),Computerized adaptive testing: A primer(pp. 37–59). Mahwah,NJ: Lawrence Erlbaum Associates.
Guo,L.,Yuan,C. Y.,& Bian,Y. F. (2013). Discussing the development tendency of cognitive diagnosis from the perspective of new models.Advances in Psychological Science,21(12),2256–2264.
[郭磊,苑春永,邊玉芳. (2013). 從新模型視角探討認(rèn)知診斷的發(fā)展趨勢.心理科學(xué)進(jìn)展,21(12),2256–2264.]
Guo,L.,Zheng,C. J.,& Bian,Y. F. (2015). Exposure control methods and termination rules in variable-length cognitive diagnostic computerized adaptive testing.Acta Psychologica Sinica,47(1),129–140.
[郭磊,鄭蟬金,邊玉芳. (2015). 變長 CD-CAT中的曝光控制與終止規(guī)則.心理學(xué)報,47(1),129–140.]
Leighton,J. P.,& Gierl,M. J. (2007).Cognitive diagnostic assessment for education: Theory and applications.Cambridge UK: Cambridge University Press.
Liu,J. C.,Xu,G. J.,& Ying,Z. L. (2012). Data-driven learning of Q-matrix.Applied Psychological Measurement,36(7),548–564.
Liu,R.,Huggins-Manley,A. C.,& Bradshaw,L. (2017). The impact of Q-matrix designs on diagnostic classification accuracy in the presence of attribute hierarchies.Educational and Psychological Measurement,77(2),220–240.
Luo,Z. S.,Li,Y. J.,Yu,X. F.,Gao,C. L.,& Peng,Y. F. (2015).A simple cognitive diagnosis method based on Q-matrix theory.Acta Psychologica Sinica,47(2),264–272.
[羅照盛,李喻駿,喻曉鋒,高椿雷,彭亞風(fēng). (2015). 一種基于 Q矩陣?yán)碚摌闼氐恼J(rèn)知診斷方法.心理學(xué)報,47(2),264–272.]
Luo,Z. S.,Yu,X. F.,Gao,C. L.,Li,Y. J.,Peng,Y. F.,Wang,R.,& Wang,Y. T. (2015). Item selection strategies based on attribute mastery probabilities in CD-CAT.Acta Psychologica Sinica,47(5),679–688.
[羅照盛,喻曉鋒,高椿雷,李喻駿,彭亞風(fēng),王睿,王鈺彤.(2015). 基于屬性掌握概率的認(rèn)知診斷計算機(jī)化自適應(yīng)測驗選題策略.心理學(xué)報,47(5),679–688.]
Madison,M. J.,& Bradshaw,L. P. (2015). The effects of Q-matrix design on classification accuracy in the log-linear cognitive diagnosis model.Educational and Psychological Measurement,75(3),491–511.
Mao,X. Z.,& Xin,T. (2013). A comparison of item selection methods for controlling exposure rate in cognitive diagnostic computerized adaptive testing.Acta Psychologica Sinica,45(6),694–703.
[毛秀珍,辛濤. (2013). 認(rèn)知診斷CAT中項目曝光控制方法的比較.心理學(xué)報,45(6),694–703.]
Peng,Y. F.,Luo,Z. S.,Yu,X. F.,Gao,C. L.,& Li,Y. J. (2016).The optimization of test design in cognitive diagnostic assessment.Acta Psychologica Sinica,48(12),1600–1611.
[彭亞風(fēng),羅照盛,喻曉鋒,高椿雷,李喻駿. (2016). 認(rèn)知診斷評價中測驗結(jié)構(gòu)的優(yōu)化設(shè)計.心理學(xué)報,48(12),1600–1611.]
Qi,S. Q.,Dai,H. Q.,& Ding,S. L. (2002).Principles of modern educational and psychological measurement.Beijing:Higher Education Press.
[漆書青,戴海琦,丁樹良. (2002).現(xiàn)代教育與心理測量學(xué)原理. 北京: 高等教育出版社.]
Reckase,M. D. (2003).Item pool design for computerized adaptive tests. Paper presented at the National Council on Measurement in Education,Chicago,IL.
Reckase,M. D. (2007).The design of p-optimal item pools for computerized adaptive tests. Paper presented at the 2007 GMAC Conference on Computerized Adaptive Testing.
Reckase,M. D. (2010). Designing item pools to optimize the functioning of a computerized adaptive test.Psychological Test and Assessment Modeling,52(2),127–141.
Tang,X. J.,Ding,S. L.,& Yu,Z. H. (2013). Application of computerized adaptive testing in cognitive diagnosis.Advances in Psychological Science,20(4),616–626.
[唐小娟,丁樹良,俞宗火. (2012). 計算機(jī)化自適應(yīng)測驗在認(rèn)知診斷中的應(yīng)用.心理科學(xué)進(jìn)展,20(4),616–626.]
Tatsuoka,K. K. (1995). Architecture of knowledge structures and cognitive diagnosis: A statistical pattern recognition and classification approach. In P. D. Nichols,S. F. Chipman,& R. L. Brennan (Eds.),Cognitively diagnostic assessment(pp. 327–361). Hillsdale: Lawrence Erlbaum Associates.
Tatsuoka,C. (2002). Data analytic methods for latent partially ordered classification models.Journal of the Royal Statistical Society: Series C (Applied Statistics),51(3),337–350.
Tu,D. B.,Cai,Y.,& Dai,H. Q. (2013). A new method of Q-matrix validation based on DINA model.Acta Psychologica Sinica,44(4),558–568.
[涂冬波,蔡艷,戴海琦. (2013). 基于DINA模型的Q矩陣修正方法.心理學(xué)報,44(4),558–568.]
Wang,C.,Chang,H.-H.,& Huebner,A. (2011). Restrictive stochastic item selection methods in cognitive diagnostic computerized adaptive testing.Journal of Educational Measurement,48(3),255–273.
Xu,X. L.,Chang,H. H.,& Douglas,J. (2003).A simulation study to compare CAT strategies for cognitive diagnosis.Paper presented at the the Annual Meeting of American Educational Research Association,Chicago,IL.
Yu,X. F.,Luo,Z. S.,Gao,C. L.,Li,Y. J.,Wang,R.,& Wang,Y. T. (2015). An item attribute specification method based on the likelihood D2statistic.Acta Psychologica Sinica,47(3),417–426.
[喻曉鋒,羅照盛,高椿雷,李喻駿,王睿,王鈺彤. (2015).使用似然比 D2統(tǒng)計量的題目屬性定義方法.心理學(xué)報,47(3),417–426.]
Zheng,C. J.,& Chang,H. H. (2016). High-efficiency response distribution-based item selection algorithms for shortlength cognitive diagnostic computerized adaptive testing.Applied Psychological Measurement,40(8),608–624.