曹 尚 曹榮祥 孫昕鍴 郭海建 李小寧 徐 勤△
項目反應理論在居民健康素養(yǎng)標準參照測驗中的應用研究*
曹 尚1曹榮祥1孫昕鍴2郭海建3李小寧3徐 勤1△
目的 運用項目反應理論(IRT)對居民健康素養(yǎng)調(diào)查問卷的條目進行測評,探討基于信息函數(shù)建立居民健康素養(yǎng)標準參照測驗并評價項目性能。方法 以1000例健康素養(yǎng)調(diào)查樣本為例,利用單維三參數(shù)logistic模型(3PLM)擬合樣本,估計項目參數(shù)與信息函數(shù),以掌握水平比例的能力水平作為決策點(測驗劃界分數(shù))。結(jié)果 問卷73個項目的三參數(shù)logistic模型擬合優(yōu)度98.6%,難度在-4.27~4.23,區(qū)分度在0.32~1.58,猜測度在0.009~0.5,測驗在能力水平為-0.13時獲得最大信息量與最小測量誤差,對應的掌握比例為0.62(劃界分數(shù))。結(jié)論 IRT在問卷的測評編制中能深刻而合邏輯地分析每個測驗項目與整個測驗間的定量關(guān)系,2013版《江蘇省居民健康素養(yǎng)調(diào)查問卷》在中低能力水平的被試中具有較高測量精度。
項目反應理論 健康素養(yǎng) 信息函數(shù) 標準參照測驗
項目反應理論(IRT)是在克服經(jīng)典測量理論的局限上發(fā)展起來的一種現(xiàn)代心理與教育測量理論,IRT以被試在項目上的作答概率為依據(jù),應用概率模型分析被試潛在特質(zhì)(能力水平)與其測驗項目反應之間的關(guān)系,優(yōu)勢在于將被試的能力參數(shù)與項目難度參數(shù)定義在同一等距量尺上,估算出不依賴于項目樣本與被試樣本的能力值和項目參數(shù)[1-2],使得在測驗編制中可以有針對性地選擇適合被試能力水平的項目,同時用信息量代替了信度的概念,實現(xiàn)了對被試特質(zhì)水平估計誤差的主動控制。IRT在指導測驗編制中的優(yōu)異性使得其已成為發(fā)達國家的主流測量理論。
健康素養(yǎng)是公共衛(wèi)生的重要組成部分,如何建立合理全面的居民健康素養(yǎng)評估體系是全球共同關(guān)注的熱點課題[3-4]。我國的健康素養(yǎng)實踐正處于起步階段,本研究運用IRT對2013版《江蘇省居民健康素養(yǎng)調(diào)查問卷》[5-6]進行測評,為今后中國居民健康素養(yǎng)評價量表的構(gòu)建提供實踐依據(jù)。
1.項目反應理論的基本假設(shè)
IRT有3個基本假設(shè):潛在特質(zhì)的單維性,指測驗僅測試被試的一項特質(zhì)(知識、技能、人格等)。事實上該假設(shè)不可能完全實現(xiàn),因為總有一些認知的、人格的影響測驗表現(xiàn),只要有一個主導因素即可;局部獨立性假設(shè),指同一被試(或同一水平被試)在任一項目上的作答反應不會受到同一測試上其他項目的影響,同一項目上的不同被試(或不同水平被試)的作答反應不會相互影響;項目特征曲線假設(shè),被試對項目的正確反應概率與其項目所對應的特質(zhì)或能力水平之間的關(guān)系可以用一個關(guān)于能力單調(diào)上升的函數(shù)來表示。
2.項目反應理論模型
現(xiàn)假定為第j個個體(j=1,2,…,n)的作答情況,答題結(jié)果在兩分類(正確與錯誤)的情形下,根據(jù)參數(shù)個數(shù)設(shè)定的不同,分為單參數(shù)模型、雙參數(shù)模型、三參數(shù)模型三種IRT概率模型[7-9]。
式中bi為項目的難度參數(shù),θj是被試潛在特質(zhì)(能力)參數(shù),代表個體能力,范圍[-∞,+∞]。P(yij=1|θj)表示能力θj的個體對項目正確作答的條件概率,取值在[0,1]。
(2)(3)式中D=1.702,ai與bi分別為項目的區(qū)分度參數(shù)與難度參數(shù),ci為猜測概率參數(shù)。區(qū)分度參數(shù)ai越大,表示項目對不同潛在特質(zhì)水平θ的被試有越高的區(qū)分能力;難度參數(shù)bi越大,表示被試選擇這個選項需要的能力就越大;猜測參數(shù)越大,表明被試通過猜測答對的概率越大,反之亦然。
3.項目反應理論參數(shù)估計
在假定局部獨立性的條件下,對于第j個個體,項目聯(lián)合密度函數(shù)為:
似然比函數(shù)為:
現(xiàn)在常用的參數(shù)估計方法包括條件極大似然估計、聯(lián)合極大似然估計、邊際極大似然估計與EM算法等[10]。
4.信息函數(shù):IRT把項目在評價被試能力水平時貢獻的信息量定義為信息函數(shù),對于第i條項目,能力為θ的被試,其信息函數(shù)為:
三參數(shù)模型的信息函數(shù)公式即為:
信息函數(shù)將項目的難度、區(qū)分度、猜測度合而為一,反映出各個項目對不同能力水平被試者所能提供的信息量。由于每個項目可以單獨對問卷的信息作貢獻,貢獻量大小不受問卷其他項目的影響,所以測驗信同時,由θ取值分布的漸近正態(tài)性決定,測量信息函數(shù)與測量標準誤存在如下關(guān)系:SE(θ)信息量越大,測量標準誤越小,其測量精度也越高[7-9]。
5.項目反應理論下的決策點(劃界分數(shù))
IRT證明當一個測驗(試卷)能恰當代表某一特質(zhì)領(lǐng)域時,被試在該領(lǐng)域掌握百分比π就是他在該題庫全部項目上期望分數(shù)的平均數(shù)[7-9],即:
3PLM下的決策點(劃界分數(shù))表達式即為:
因為所有項目的參數(shù)都是確定值,所以π與θ存在一一對應關(guān)系。當確定各項目的參數(shù),按需要確定某一掌握百分比π0作為劃界分數(shù),就可以推算出對應的θ0值,即確定其在特質(zhì)連續(xù)體上的具體位置[7-9,11-12]。
資料來源于2013年江蘇省開展的健康素養(yǎng)專項調(diào)查研究。調(diào)查對象為境內(nèi)15~69歲的常住居民,包括在監(jiān)測范圍內(nèi)居住或寄宿達6個月以上的外來人口。長期在外工作、學習的家庭成員,如果在外時間超過6個月,則不納入調(diào)查范圍。共調(diào)查13000余人。調(diào)查使用問卷為2013版《江蘇省居民健康素養(yǎng)調(diào)查問卷》,包含判斷題15題、單項選擇題40題、多項選擇題18題以及情景閱讀題7題(以0-1形式計分),合計80題。隨機抽取男女各500份有效問卷作為本次實驗樣本,平均年齡(49.9±12.5)歲,99%以上的受試者是漢族。
本次研究資料屬0-1評分,測試包含判斷題,無法排除猜測行為的發(fā)生,故選用IRT模型中的單維三參數(shù)logistic模型(3PLM),情景閱讀題7題答題結(jié)果之間存在相關(guān)(p<0.05),不滿足局部獨立性假設(shè),故不在本次研究范圍內(nèi),其余73題進行的因子分析顯示第一特征根與第二特征根比值為3.78(10.124/2.678),單維性假設(shè)成立[1-2]。
利用BILOG-MG3.0軟件進行參數(shù)估計與模型擬合(采用邊際極大似然估計算法),采用MATLAB自編程序進行劃界分數(shù)的計算(采用牛頓迭代算法),并根據(jù)參數(shù)結(jié)果編寫了excel宏指令進行作圖。
1.IRT項目參數(shù)估計結(jié)果
從χ2估計擬合情況來看,有 15個項目(A03、A08、A10、B14、B16、B17、B20、B27、B29、B34、B38、B40、C06、C07、C12)的 P值小于 0.05,χ2檢驗拒絕了該模型,說明這15個項目的擬合度較差,考慮到樣本量較大,從校正卡方值(Chi/df)觀察,只有1個項目(B40)仍大于5,說明該項目與模型擬合度確實較差,其余11個項目尚可,3PLM模型擬合優(yōu)度98.6%(72/73)。73個項目的區(qū)分度范圍為[0.32,1.58],難度范圍為[-4.27,4.23],猜測度范圍為[0.009,0.5]。項目的區(qū)分度、難度、猜測度的取值尚無固定標準,但有一些普遍采用的原則,一般認為如果ai<0.3,則認為項目的區(qū)分度過小,應在0.4以上為宜;bi>3.0或bi<-3.0,則認為項目過難或過易;ci>0.4,則認為項目的猜測度過大[13]。難度不在區(qū)間[-3.00,3.00]的條目有7個,猜測度大于0.4的條目有3個,詳見表1。
表1 項目參數(shù)及信息函數(shù)結(jié)果
2.信息函數(shù)
整個測驗信息函數(shù)的峰值為15.75,在潛在能力參數(shù)值為-0.13時實現(xiàn),各項目在能力參數(shù)值為-0.13時提供的信息量范圍為0~0.93。73個項目的最大信息量范圍在0.04~0.98,對應的能力值范圍-3.90~4.23。通常,測量標準誤在能力分布集中的區(qū)域應當控制在0.4以內(nèi),即測量在這段能力值范圍內(nèi)的信息量應至少達到 6.25(1/(0.4)2)[1]。本次研究測試者的能力值基本分布在-1.5~1.5,集中了90%(899/1000)的受試者,整個測驗在能力值區(qū)間-1.5~1.5的信息量均超過6.25,同時超過70%(53/73)的測驗項目在這段能力區(qū)間產(chǎn)生了最大信息量,詳見表1、圖1??梢?,現(xiàn)有測驗的測量誤差基本滿足精度要求,但信息函數(shù)結(jié)果表明各項目普遍在中偏低的能力水平區(qū)間貢獻出較高的信息量,說明該測驗在面對中等偏低健康素養(yǎng)能力水平的被試時具有較高的測量精度。
3.標準參照測驗
標準參照測驗編制不同于常模參照測驗,其核心是要在劃界分數(shù)(cut-off score)做出決斷,從而對被試有最強鑒別力[1-2],即要求測驗在決策點有最大信息量和最小測量標準誤。信息函數(shù)表明問卷在測試能力水平θ=-0.3處取得最大信息量,帶入公式(9),通過迭代計算得掌握比例π=0.62,說明以此作為合格標準測驗將最為高效。實際應用中通常以掌握比例60%,即π0=0.6作為劃界分數(shù),若以此為標準,本次測驗掌握比例60%對應的被試能力值為θ0=-0.26,測驗信息量為 15.64,測驗估計標準誤 SE(θ0)=0.25,提示命題者應降低整體測驗難度,提高測量精度[1-2],使測驗在劃界分數(shù)π0=0.6處達到最大信息量,從本測驗信息函數(shù)曲線圖(圖1)來看,應使曲線高峰向左移,并增大高度。
圖1 測驗信息函數(shù)圖
通常認為整體測驗標準誤小于0.20時,測驗信息量在劃界點處大于25,這樣測驗才能精確地區(qū)分合格與不合格被試,可認為質(zhì)量良好;測驗信息量在16~25的項目可認為質(zhì)量一般,需要修改,測驗信息量低于16的項目則可能需要重擬[11-12]。以掌握比例60%作為劃界分數(shù)為例,按上述要求就可建立項目優(yōu)劣分類標準,見表2。對于需修改的項目,可調(diào)整難度與增強區(qū)分力,以提高項目信息量。如圖3,從項目B17的信息曲線可知,該項目在測驗掌握比例0.6(即能力水平是-0.26)時的信息量較?。?.25),但在能力水平為0.57時項目信息量達到最大(IM=0.37),因此,若能把項目難度降低到-0.26左右時,該項目的質(zhì)量將會得到改善,圖4項目B24與B17的情形則相反;圖5項目C14的信息量較小且難度跟劃界點的差距大(IM=0.23在能力水平-0.74時產(chǎn)生),說明如要改進此項目的質(zhì)量需要提高難度,同時加大項目的區(qū)分度。
表2 測驗項目質(zhì)量分析
表3 測驗需修改項目的建議
由表2可知,16個良好項目雖然只占測驗項目總數(shù)的24.92%,卻提供了58.50%的測驗信息量,良好項目ICC的普遍特征為難度適中,猜測度較小,區(qū)分度較大,見圖2;與此相對的是48道需重擬項目,占測驗項目的65.75%,只提供了25.54%的測驗信息量。因此,測驗只要多選用良好項目,完全可以在較少項目數(shù)的條件下獲得滿意的信息量,在提高測驗效率的同時更加精確地區(qū)分合格與不合格被試。
圖2 質(zhì)量良好的項目特征曲線圖
圖3 B17項目信息函數(shù)曲線圖
圖4 B24項目信息函數(shù)曲線圖
圖5 C14項目信息函數(shù)曲線圖
本次研究運用IRT分析2013版《江蘇省居民健康素養(yǎng)調(diào)查問卷》,以信息函數(shù)代替了信度概念,通過建立被試潛在特質(zhì)與對項目的反應之間的數(shù)量關(guān)系,在獲得穩(wěn)健項目性能參數(shù)的同時,實現(xiàn)了對測量誤差的主動控制。
IRT克服了經(jīng)典測量理論(CTT)難度與劃界分數(shù)定義在兩個不同全域上的理論缺陷[12](CTT真分數(shù)理論框架中難度定義在某一測試組上的通過率,建立在被試的全域上;劃界分數(shù)定義在某一項目組上的通過率,建立在測驗項目的全域上,二者其實是兩個互無關(guān)聯(lián)的度量域[2,7-9]),通過將被試的能力水平參數(shù)與項目難度參數(shù)定義在同一等距量尺上[1,7-8],真正體現(xiàn)了難度就是對被試能力水平而言所顯現(xiàn)的困難程度,清晰而準確地反映出項目統(tǒng)計量跟劃界分數(shù)間的邏輯聯(lián)系。在已掌握比例為劃界分數(shù)的標準化測驗中,將可以直接考察測驗是否準確把握住了合格標準,并可以根據(jù)結(jié)果對項目性能進行直觀的偏離評估,優(yōu)劣判斷,進而從項目參數(shù)的角度出發(fā)進行高效明確地調(diào)整[2,14-15]。本次研究說明IRT理論在健康素養(yǎng)的量化研究中是可行的,為今后中國健康素養(yǎng)評估體系的建立提供了實踐依據(jù)。
[1]余嘉元.項目反應理論及其應用.南京:江蘇教育出版社,1992.
[2]漆書青.現(xiàn)代教育與心理測量學原理.北京:高等教育出版社,2002.
[3]World Health Organization.Track 2:Health literacy and health behaviour.7th Global Conference on Health Promotion:track themes.http://www.who.int/healthpromotion/conferences/7gchp/track2/en/index.html.
[4]Weiss BD,Palmer R.Relationship Between Health Care Costs and Very Low Literacy Skill in A Medically Needy and Indigent Medicaid Population.Journal of the American Board of Family Practice,2004,17(1):44-47.
[5]李小寧,郭海健,黃明豪,等.江蘇省城鄉(xiāng)居民健康素養(yǎng)水平分析.中國公共衛(wèi)生,2011,27(5):666-667.
[6]郭海健,李小寧,張鳳云.江蘇省城鄉(xiāng)居民健康素養(yǎng)水平變化情況分析.江蘇預防醫(yī)學,2012,23(2):23-25.
[7]Lord FM.Applications of item response theory to practical testing problems.Hillsdale,NJ:Lawrence Erlbaum Associates.1980.
[8]Hambleton RK,Swaminathan H.Item response theory:principles and applications.Boston,MA:Kluwer-Nijhoff Publishing,1985.
[9]Wim J van der Linden,Hambleton RK.Handbook of Modern Item Response Theory.New York:Springer-Verlag,1997.
[10]陳斌為,許碧云,陳啟光,等.兩分類項目反應理論在中醫(yī)證候中的應用.中國衛(wèi)生統(tǒng)計,2011,28(1):16-18.
[11]漆書青,周駿,張青華.用信息函數(shù)法對標準參照測驗作質(zhì)量分析.心理與行為研究,2003,1(1):34-39.
[12]涂冬波,蔡艷.信息函數(shù)在標準參照測驗中的應用研究.江西師范大學學報(自然科學版),2005,29(2):167-172.
[13]何克抗,李文光.教育技術(shù)學.北京:北京師范大學出版社,2005.
[14]Wright B,dMaster GN.Best test design.Chicago:Mesa Press,1982.
[15]Suen HK.Principles of Test Theories.Hillsdale,NJ:Lawrence Erlbaum Associates,1990.
Item Response Theory in the Application of‘Residents Health Literacy Criterion-Referenced Test’
Cao Shang,Cao Rongxiang,Sun Xinying,et al.
(Yangzhou Center for Disease Control and Prevention(225000),Yangzhou)
Objective To analyze items of the‘Residents′health literacy questionnaire’using item response theory(IRT).Using the information function of IRT to establish‘Residents Health Literacy Criterion-Referenced Test’and evaluate its item performance.Methods Unidimensional three parameters logistic model(3PLM)was used to fit the sample including 1000 cases and to calculate item parameters and information function.The grasp proportion of ability parameter was as a decision point(The cut-off score).Results The goodness of fit of the questionnaire of 73 items is 98.6%.Among the 73 items,the difficulty parameters of all items were between-4.27~4.23,the discrimination parameters of all items were between 0.32~1.58 and the guessing parameters of all items were between 0.009~0.5.The test maximized the information and minimize the measurement error at ability parameter of-0.13 with the corresponding grasp proportion of 0.62.The test should decrease the difficulty when using grasp proportion 0.6 as the cut-off score while increase the difficulty and discrimination when using grasp proportion 0.8 as the cut-off score.Conclusion IRT analysis questionnaire'could deeply and logically comprehend the quantitative relation between each item and the whole test.Residents'health literacy questionnaire of Jiangsu province applied to middle or low level ability subjects.
Item Response Theory;Health literacy;Information function;Criterion-referenced test
*國家醫(yī)療衛(wèi)生-重大公共衛(wèi)生專項資金(編號:2100409);江蘇省預防醫(yī)學科研基金(編號:Y2015040)
1.揚州市疾病預防控制中心(225000)
2.北京大學公共衛(wèi)生學院社會醫(yī)學與健康教育系
3.江蘇省疾病預防控制中心
△通信作者:徐勤,E-mail:jsyzgps@sina.com
郭海強)