郭小軍 柏小云 羅照盛
作答時間與反應依賴關系建模:基于雙因子模型視角*
郭小軍1柏小云1羅照盛2
(1贛南師范大學教育科學學院/教育經濟研究中心, 江西 贛州 341000) (2江西師范大學心理學院, 南昌 330022)
在心理與教育測驗中, 測驗的計算機化越來越普遍, 使得被試作答的過程性數據的搜集也越來越便利。分層模型的提出為作答時間與反應的聯(lián)合分析提供了一個基本的建??蚣? 且逐漸成為當前最流行的方法。雖然分層模型被廣泛使用, 但僅僅通過參數間的關系還不能很好地解釋作答時間和反應之間的關系。因此, 一些研究者提出了一系列改進模型, 但仍然存在一些不足?;陔p因子模型的新視角, 文中將測驗的作答時間與反應分別視為測量被試速度和能力的兩個局部因子, 而作答時間與反應又視為綜合測量了被試的速度與準確率權衡的一般能力或全局因子?;诖? 文中提出雙因子分層模型, 以探討作答時間與反應的依賴關系。模擬研究發(fā)現(xiàn)Mplus程序能有效估計雙因子分層模型的各參數, 而忽視作答時間與反應依賴關系的分層模型的參數估計結果存在明顯的偏差。在實例數據分析中, 相較于分層模型, 雙因子分層模型的各模型擬合指數表現(xiàn)更好。此外, 不同被試在不同項目上的作答時間與反應存在不同的依賴關系, 從而對被試的作答準確率與時間產生不同的影響。
作答時間, 反應, 依賴關系, 分層模型, 雙因子模型
隨著計算機在測驗實施中的普及, 心理與教育測驗也通常以計算機化的形式進行。計算機化的測驗不僅能非常便捷地采集被試的作答反應數據, 還能獲得被試的作答時間數據。在被試的作答數據中, 不僅作答反應能反映被試的重要作答信息, 作答時間也是被試的重要信息來源(Luce, 1986; van der Linden, 2009)。為了聯(lián)合分析被試的作答時間與反應, van der Linden (2007)提出了分層模型(Hierarchical Model, HM), 它是目前最流行的建模方法之一。HM被廣泛地應用于傳統(tǒng)測驗中(Klein Entink, Kuhn, et al., 2009; Lu et al., 2021; Scherer et al., 2015), 并逐漸擴展到認知診斷測驗(Liang et al., 2023; Zhan et al., 2018)、人格測驗(Ranger, 2013)以及認知實驗(Loeys et al., 2011)的數據分析領域。
在HM建??蚣苤? 作答時間與反應模型構成第一層, 被試參數間的相關與項目參數間的相關構成第二層(van der Linden, 2007)。一些研究者發(fā)現(xiàn)作答時間與反應間存在依賴關系(Bolsinova & Tijmstra, 2016; van der Linden & Glas, 2010)。分層建模通過第二層參數間的相關來解釋作答時間和反應之間的相關性, 但是僅僅通過參數間的相關只能解釋作答時間與反應的部分相關。因此, 傳統(tǒng)的HM無法有效地解釋作答時間和反應之間的相關性影響。為了更好地反映作答時間與反應之間的依賴關系, 而不僅僅通過參數之間的相關性來獲得, 一些研究者將作答時間與反應的依賴關系融入到分層模型中, 以進一步擴展模型。在作答時間與反應的殘差相關上, Ranger和Ortner (2012)通過項目水平參數進一步解釋兩者的殘差相關, 但并未考慮被試水平的依賴性; Meng等(2015)則基于被試與項目參數乘積來解釋殘差相關, 但是他們將項目參數固定為非負數, 導致在作答時間和反應之間的殘差相關性上具有相同的符號。另外, 一些研究者將殘差時間納入作答反應模型中。Bolsinova, De Boeck和Tijmstra (2017)在反應模型中引入了殘差時間, 并允許項目的殘差相關性在符號上不同, 但并未考慮被試水平的差異。為了彌補這一不足, Bolsinova, Tijmstra和Molenaar (2017)進一步擴展至被試水平。Bolsinova和Molenaar (2018)則考慮了殘差時間對作答反應的非線性影響。然而, 將殘差時間直接添加到作答反應模型中會導致被試在所有項目上的作答準確率可以始終趨近于1, 違背了項目反應理論的基本假設。因此, 一些研究者單獨構建線性(Guo et al., 2020)和非線性模型(郭小軍, 羅照盛, 2019), 以探究殘差時間對作答反應的影響, 但未考慮被試水平的差異。從上述模型可以看出, 不同研究者提出了一系列的模型, 然而總是存在不同方面的弊端, 模型也變得越來越復雜, 估計方法也更加困難, 這并不利于HM的應用。
在分析測驗項目的依賴關系時, 最常用的項目反應理論模型包括雙因子模型(bifactor model)和題組模型(testlet model)。雙因子模型通過一般或全局因子(general factor)解釋所有項目的共同變異, 同時使用局部因子或特定因子(specific factor)解釋額外部分項目的共同變異(毛秀珍等, 2018)。比如在瑞文標準推理測驗中, 不同維度的項目作答時間分別測了被試的知覺辨別速度、類同比較速度和比較推理速度等等, 同時整個測驗的作答時間也測量了被試的一般速度特質(郭小軍等, 2022)。在題組模型中, 多個項目共用相同刺激的情況構成題組(testlet), 此時被試對這些項目的作答依賴于對該內容整體的理解(詹沛達等, 2013)。例如, 在篇章閱讀測驗中, 屬于同一篇章的多個項目就構成一個典型的題組(鄭蟬金等, 2011)。關于雙因子模型與題組模型的關系, 雙因子模型通過特定因子與全局因子的載荷之比來反映題組效應的大小, 而題組模型是雙因子模型的一個特例, 雙因子模型更為復雜(魏丹等, 2017), 因此雙因子模型更具有一般性。在心理與教育測驗中, 不僅可以采集被試在測驗項目上的作答時間, 還可以采集被試的作答反應。從雙因子模型的視角看, 測驗項目的作答時間與反應可以視為測量了不同的局部因子。具體而言, 測驗的作答時間測量了被試的速度特質, 而測驗的作答反應測量了被試的能力特質。同時, 被試在作答測驗過程中還會受到時間與準確率的綜合影響(Bolsinova, Tijmstra, & Molenaar, 2017; Davison et al., 2012), 即一般潛在特質或全局因子, 或速度與準確率權衡能力(Chen et al., 2018)。因此, 這樣的測驗結構非常符合雙因子模型的特點, 為解決測驗作答時間與反應依賴關系的聯(lián)合分析提供了全新視角。
綜合上述研究可以發(fā)現(xiàn), 已考慮作答時間與反應依賴關系的HM存在不同方面的弊端。此外, 由于貝葉斯估計方法對數學基礎要求較高以及適合該模型的統(tǒng)計軟件的限制, 阻礙了HM的廣泛應用。然而, 基于雙因子模型視角提出的雙因子分層模型(Bifactor hierarchical model, Bi-HM)為作答時間與反應的依賴關系提供了新的思路。而且Bi-HM可以使用標準的潛變量建模軟件進行擬合分析, 例如Mplus、LISREL和Amos等, 這將極大地促進Bi-HM的應用與推廣。本文內容結構安排如下:首先回顧van der Linden (2007)的HM; 其次介紹Bi-HM的提出; 然后通過模擬研究評估Bi-HM參數估計效果; 接下來利用實例數據評估模型的擬合效果; 最后進行總結與展望。
在介紹Bi-HM模型前, 先介紹van der Linden (2007)提出的HM。在HM中, 第一層是作答反應與作答時間模型。作答反應模型為兩參數logistic模型, 可以表示為
在HM的第二層為被試參數間的相關與項目參數間的相關, 通常假設被試能力特質與速度特質服從二元正態(tài)分布, 項目難度相關參數與作答時間強度參數服從二元正態(tài)分布, 如式(3)和式(4)所示。
在對測驗的作答反應與時間進行分析時, HM僅僅通過被試參數間的關系(式3)和項目參數間的關系(式4)來量化作答時間與反應的關系是不夠的(如圖1a所示)。Bi-HM將測驗的作答時間與反應視為測量被試能力和速度的兩個局部因子, 同時測驗的作答時間與反應又綜合測量了被試的一般潛在特質或全局因子, 以及速度與準確率權衡能力(如圖1b所示)。因此, 在借鑒雙因子模型思路基礎上提出Bi-HM。
圖1 分層模型與雙因子分層模型示意圖
在Bi-HM的第一層模型中, 作答反應模型與作答時間模型分別可以表示為
對模擬研究, 主要基于兩個目的展開探究, 其一是不同條件對Bi-HM參數估計的返真性的影響; 其二是忽視作答時間與反應關系對傳統(tǒng)分層模型HM所帶來的影響。
表1 作答時間與反應的不同關系類型
對于模擬結果采用MSE (Mean squared error)和平均Bias進行評價, MSE和Bias值越小意味參數的估計值與模擬值越接近, 結果越佳。
圖2 不同條件HM和Bi-HM項目參數估計效果
注:HM = van der Linden的分層模型; Bi-HM = 雙因子分層模型。
圖3 不同條件HM和Bi-HM被試參數估計效果
表3 HM與Bi-HM被試參數返真性
注:HM = van der Linden的分層模型; Bi-HM = 雙因子分層模型。
通過E-prime 2.0搜集《瑞文標準推理測驗》作答數據, 每個項目作答結束后會進入下一個項目, 不能返回修改, 共60個項目, 要求被試在45分鐘內完成。該測驗共施測427名大學生, 原始作答時間數據均事先進行對數轉換。
《瑞文標準推理測驗》數據的模型擬合結果如表4所示。從表中可以看出, HM的各模型擬合指數AIC、BIC和SABIC要小于Fix-Bi-HM的各擬合指數, 但是明顯大于Bi-HM的擬合指數, 同時Bi-HM的LL值最大。這表明固定作答時間與反應的項目水平依賴關系后, Bi-HM擬合急劇變差。同時, Bi-HM更能符合實際數據的特征, 具有更好的擬合效果。
表4 瑞文標準推理測驗數據分析中模型-數據擬合指標
注:NP = 自由參數量; LL = Loglikelihood; AIC = Akaike’s information criterion; BIC = Bayesian information criterion; SABIC = Sample-Size Adjusted BIC。
圖4 HM和Bi-HM殘差比較
圖5 Bi-HM項目參數的相關矩陣
圖6 不同類型的作答時間與準確率關系趨勢
作答時間與反應都反映了被試重要的作答信息, 分層模型(Hierarchical Model, HM)(van der Linden, 2007)的提出為聯(lián)合分析作答時間與反應提供了基本框架, 并逐漸成為當前最流行的建模方法。然而, HM只通過項目參數間的關系與被試參數間的關系來解釋作答時間與反應之間的依賴關系, 這在某種程度上是不夠的。雖然不同研究者提出了一系列改進模型, 但仍存在一些局限性(郭小軍等, 2019; Bolsinova et al., 2017, 2018; Range et al., 2012)。為了更好地反映作答時間與反應間的依賴關系, 文中從雙因子模型視角出發(fā), 將測驗的作答時間與反應分別視為測量了被試速度和能力兩個局部因子, 而作答時間與反應又綜合測量了被試的速度與準確率權衡的一般能力或全局因子, 基于此構建了雙因子分層模型(Bifactor hierarchical model, Bi-HM)。Bi-HM能靈活地反映作答時間與反應間的不同關系, 并且可以通過常用的結構方程模型軟件對模型參數進行估計, 這對Bi-HM的應用非常有利。模擬研究發(fā)現(xiàn), 基于MLR的Mplus程序能有效估計Bi-HM的各參數, 并且參數估計結果不受項目參數間的相關水平的影響。然而, HM因忽視作答時間與反應間的依賴關系進而導致參數估計結果存在明顯偏差。在實例數據中, Bi-HM的模型擬合指數明顯優(yōu)于HM, 并且項目的時間殘差和殘差方差也明顯要小于HM, 這表明考慮作答時間與反應依賴關系的Bi-HM更符合實例數據。同時, 被試在大部分項目上的作答心理主要分為增加時間以提高準確率或犧牲準確率以降低作答時間, 然而部分簡單項目也存在增加作答時間后準確率反而下降的現(xiàn)象(郭小軍等, 2019; Bolsinova, Tijmstra, & Molenaar, 2017), 這可能是由于被試在測試期間效率發(fā)生變化的結果(Chen et al., 2018)。
值得肯定的是研究取得了較好的結果, 但是仍然存在一些局限性需要進一步研究來完善。首先, Bi-HM只對單維測驗的作答時間與反應進行了模擬與實證研究, 基于雙因子模型的視角探究作答時間與反應的依賴關系可以從多個方面進行拓展。從測驗維度上, 可以將Bi-HM從單維測驗向多維測驗拓展(郭小軍等, 2022; 魏丹等, 2017), 構建多維的雙因子分層模型, 甚至高階雙因子分層模型; 從過程數據的類型上, 除了作答時間與反應數據外, 還可以向注視點數據(詹沛達, 2022)和鼠標單擊/拖動軌跡數據(Liang et al., 2023)等擴展, 此時不同過程數據類型視為測量多個局部或特定因子進行雙因子分層模型的構建, 探討不同過程數據間的相互影響; 從作答時間與反應的依賴關系的形式上, 文中只探討了線性的關系, 但是也有研究發(fā)現(xiàn)有的項目的作答時間與反應之間存在非線性關系(郭小軍等, 2019; Bolsinova et al., 2018; Chen et al., 2018), 例如將速度與準確率權衡能力定義為二項式形式。其次, 雖然模擬研究發(fā)現(xiàn)未考慮項目參數間關系的Bi-HM的參數可以通過Mplus程序進行有效估計, 但是未來的研究可以比較貝葉斯估計和Mplus的MLR估計結果, 以進一步探究忽視項目參數間相關的影響(Molenaar et al., 2015)。最后, 在作答時間模型的適用性上, 對數正態(tài)時間模型可能并不適用所有的時間數據, 因此可以考慮對模型進行不同形式的變換或者選擇其他模型來更好地適應作答時間的分布(孟祥斌, 2016; Klein Entink, van der Linden, & Fox, 2009; Wang et al., 2013)。
Bolsinova, M., De Boeck, P., & Tijmstra, J. (2017). Modelling conditional dependence between response time and accuracy.,(4), 1126?1148.
Bolsinova, M., & Molenaar, D. (2018). Modeling nonlinear conditional dependence between response time and accuracy.,, 1525.
Bolsinova, M., & Tijmstra, J. (2016). Posterior predictive checks for conditional independence between response time and accuracy.,(2), 123?145.
Bolsinova, M., Tijmstra, J., & Molenaar, D. (2017). Response moderation models for conditional dependence between response time and response accuracy.,(2), 257?279.
Cai, L., Yang, J. S., & Hansen, M. (2011). Generalized full-information item bifactor analysis.,(3), 221?248.
Chen, H., De Boeck, P., Grady, M., Yang, C.-L., & Waldschmidt, D. (2018). Curvilinear dependency of response accuracy on response time in cognitive tests.,, 16?23.
Davison, M. L., Semmes, R., Huang, L., & Close, C. N. (2012). On the reliability and validity of a numerical reasoning speed dimension derived from response times collected in computerized testing.,(2), 245?263.
Guo, X., & Luo, Z. (2019). The trade-off between speed and accuracy: Evaluation and modeling for participants in the response states.,(5), 589?595.
[郭小軍, 羅照盛. (2019). 速度與準確率權衡: 被試反應狀態(tài)評價與建模.,(5), 589?595.]
Guo, X., Luo, Z., & Yan., J. (2022). Modeling of the effect on multidimensional latent speeds in the between-item multidimensional response time.,(5), 1222?1229.
[郭小軍, 羅照盛, 嚴娟. (2022). 項目間多維測驗作答時間數據分析: 潛在特質速度間效應建模.,(5), 1222?1229.]
Guo, X., Luo, Z., & Yu, X. (2020). A speed-accuracy tradeoff hierarchical model based on cognitive experiment.,, 2910.
Klein Entink, R. H., Kuhn, J.-T., Hornke, L. F., & Fox, J.-P. (2009). Evaluating cognitive theory: A joint modeling approach using responses and response times.,(1), 54?75.
Klein Entink, R. H., van der Linden, W. J., & Fox, J.-P. (2009). A box-cox normal model for response times.,(3), 621?640.
Liang, K., Tu, D., & Cai, Y. (2023). Using process data to improve classification accuracy of cognitive diagnosis model.,(5), 969?987.
Loeys, T., Rosseel, Y., & Baten, K. (2011). A joint modeling approach for reaction time and accuracy in psycholinguistic experiments.,(3), 487?503.
Lu, J., Wang, C., & Shi, N. (2021). A mixture response time process model for aberrant behaviors and item nonresponses.,(1), 71?89.
Luce, R. D. (1986).. New York: Oxford University Press.
Mao, X., Xia, M., & Xin, T. (2018). Full-information item bifactor analysis: Model parameter estimation and application.,(2), 358?367.
[毛秀珍, 夏夢連, 辛濤. (2018). 全信息項目雙因子分析: 模型、參數估計及其應用.,(2), 358?367.]
Meng, X.-B. (2016). A log-skew-normal model for item response times.,(3), 727?734.
[孟祥斌. (2016). 項目反應時間的對數偏正態(tài)模型.,(3), 727?734.]
Meng, X.-B., Tao, J., & Chang, H.-H. (2015). A conditional joint modeling approach for locally dependent item responses and response times.,(1), 1?27.
Molenaar, D., Tuerlinckx, F., & van der Maas, H. L. J. (2015). A generalized linear factor model approach to the hierarchical framework for responses and response times.,(2), 197?219.
Muthén, L. K., & Muthén, B. O. (2019).. Muthén & Muthén.
Scherer, R., Greiff, S., & Hautam?ki, J. (2015). Exploring the relation between time on task and ability in complex problem solving.,, 37?50.
van der Linden, W. J. (2007). A hierarchical framework for modeling speed and accuracy on test items.,(3), 287?308.
van der Linden, W. J. (2009). Conceptual issues in response- time modeling.,(3), 247?272.
van der Linden, W. J., & Glas, C. A. W. (2010). Statistical tests for conditional independence in a hierarchical model for speed and accuracy on test items.,(1), 120?139.
Wang, C., Chang, H.-H., & Douglas, J. A. (2013). The linear transformation model with frailties for the analysis of item response times.,(1), 144?168.
Wei, D., Liu, H., & Zhang, D. (2017). Multidimentional rasch testlet model: An extension and generalization of MRCMLM.,(12), 1604?1614.
[魏丹, 劉紅云, 張丹慧. (2017). 多維題組反應模型:多維隨機系數多項Logistic模型的應用拓展.,(12), 1604?1614.]
Ranger, J. (2013). Modeling responses and response times in personality tests with rating scales.,(4), 361?382.
Ranger, J., & Ortner, T. (2012). The case of dependency of responses and response times: A modeling approach based on standard latent trait models.,(2), 128?148.
Zhan, P. (2022). Joint-cross-loading multimodal cognitive diagnostic modeling incorporating visual fixation counts.,(11), 1416?1423.
[詹沛達. (2022). 引入眼動注視點的聯(lián)合-交叉負載多模態(tài)認知診斷建模.,(11), 1416?1423.]
Zhan, P., Jiao, H., & Liao, D. (2018). Cognitive diagnosis modelling incorporating item response times.,(2), 262?286.
Zhan, P., Wang, W.-C., & Wang, L. (2013). Testlet response theory: An introduction and new developments.,(12), 2265?2280.
[詹沛達, 王文中, 王立君. (2013). 項目反應理論新進展之題組反應理論.,(12), 2265?2280.]
Zheng, C.-J., Guo, C.-Y., & Bian, Y.-F. (2011). Using testlet DIF procedures to detect testlet DIF in chinese passage-based reading testing.,(7), 830?835.
[鄭蟬金, 郭聰穎, 邊玉芳. (2011). 變通的題組項目功能差異檢驗方法在篇章閱讀測驗中的應用.,(7), 830?835.]
Modeling the dependence between response and response time: A bifactor model approach
GUO Xiaojun1, BAI Xiaoyun1, LUO Zhaosheng2
(1School of Education Science / Center for Education and Economic Research, Gannan Normal University, Ganzhou 341000, China)(2School of psychology, Jiangxi Normal University, Nanchang 330022, China)
In the realms of psychological and educational testing, the computerization of tests is becoming more prevalent, facilitating the acquisition of process data from test-takers. In the domain of process data, response time and response represent the two most commonly utilized variables. Responses provide critical insights into the answers provided by test-takers, while response time, as an essential source of information, is increasingly garnering attention from researchers. The proposal of hierarchical model (HM) has provided a fundamental modeling framework for the joint analysis of response time and response, and it is becoming increasingly popular in current research practices. However, relying solely on the association between item and subject parameters is insufficient to adequately explain the correlation between response time and response. Consequently, researchers have proposed various enhanced models to address these limitations, although some challenges persist.
The bifactor model explains common variance through a general or global factor, while a local or specific factor explains the common variance of additional partial items. In psychological and educational testing, it is possible to capture not only the test-takers’ response times on test items but also their responses. From the perspective of the bifactor model, response times and responses to test items measure different local factors. Specifically, a test's response time measures the test-taker's speed trait, while the response to the test measures their ability trait. Test-takers are also influenced by a combination of time and accuracy when responding to the test, known as general latent traits or global factors, or speed-accuracy trade-off ability. This test structure aligns well with the bifactor model and provides a new perspective on analyzing the relationship between test-taking response time and response dependence. Based on this, this study proposes a bifactor hierarchical model (Bi-HM) to explore the dependency between response time and response.
In the simulation study, it was found that the MPLUS program utilizing MLR (Maximum Likelihood Robust), could accurately estimate the parameters of the Bi-HM and was not influenced by the level of item parameter correlation. Conversely, when disregarding the relationship between response time and response in the HM, notable bias in the parameter estimates occured. In the empirical data analysis, the Bi-HM demonstrated significantly superior model fit indices compared to the HM. Moreover, the Bi-HM effectively captured the dependency between response and response time at both the participant and item levels. This dependency is closely associated with item difficulty and time intensity factors.
Based on the findings mentioned above, it is evident that the Bi-HM, which adopts a bifactor model perspective, excels in parameter estimation and data fitting, demonstrating excellent scalability.
response time, response, dependency relationship, hierarchical model, bifactor model
2023-06-27
* 江西省社會科學“十四五”基金項目(21JY49)、江西省教育廳科學技術研究項目(GJJ2201241)資助。
羅照盛, E-mail: luozs@126.com
B841