白文靜,何麗云**,張艷宏,劉為民,劉保延
(1.中國(guó)中醫(yī)科學(xué)院中醫(yī)臨床基礎(chǔ)醫(yī)學(xué)研究所 北京 100700;2.中國(guó)中醫(yī)科學(xué)院 北京 100700)
基于單維項(xiàng)目反應(yīng)模型的量表評(píng)價(jià)研究*
白文靜1,何麗云1**,張艷宏1,劉為民1,劉保延2
(1.中國(guó)中醫(yī)科學(xué)院中醫(yī)臨床基礎(chǔ)醫(yī)學(xué)研究所 北京 100700;2.中國(guó)中醫(yī)科學(xué)院 北京 100700)
目的:探索應(yīng)用單維項(xiàng)目反應(yīng)模型與經(jīng)典測(cè)驗(yàn)理論相結(jié)合的方法,解決量表評(píng)價(jià)問(wèn)題。方法:對(duì)841例亞健康二手?jǐn)?shù)據(jù)實(shí)證分析,進(jìn)行信度、效度以及項(xiàng)目角度的測(cè)量學(xué)評(píng)價(jià)。結(jié)果:5個(gè)領(lǐng)域的克朗巴赫a系數(shù)均高于0.6,內(nèi)部一致性較高;5個(gè)領(lǐng)域的量表結(jié)構(gòu)效度較好,CFI為0.96;項(xiàng)目區(qū)分度>0.3,項(xiàng)目對(duì)所屬領(lǐng)域診斷的靈敏度較高;量表信息量為33.8,對(duì)亞健康狀態(tài)估計(jì)精度較高;但仍有部分條目需要進(jìn)一步修訂。結(jié)論:?jiǎn)尉S項(xiàng)目反應(yīng)模型通過(guò)單維性、局部獨(dú)立性檢驗(yàn),可以用來(lái)評(píng)價(jià)項(xiàng)目的心理學(xué)測(cè)量性能,對(duì)經(jīng)典測(cè)驗(yàn)理論評(píng)價(jià)結(jié)果進(jìn)行補(bǔ)充。亞健康量表信、效度較高,經(jīng)IRT校正后的項(xiàng)目可以用于開展計(jì)算機(jī)自適應(yīng)測(cè)試,進(jìn)行人機(jī)交互“治未病”動(dòng)態(tài)監(jiān)測(cè)。
項(xiàng)目反應(yīng)理論 亞健康 治未病 區(qū)分度 信息量
隨著疾病譜和“生物-心理-社會(huì)”醫(yī)學(xué)模式的轉(zhuǎn)變,以及“個(gè)體化醫(yī)療”與“敘事醫(yī)學(xué)”等理念的提出,健康管理與疾病治療成為同等重要,患者主觀感受及其測(cè)評(píng)方法也成為臨床療效評(píng)價(jià)研究的熱點(diǎn)。生存質(zhì)量相關(guān)量表作為測(cè)量和評(píng)價(jià)這類主觀指標(biāo)的重要工具,已廣泛應(yīng)用于國(guó)內(nèi)外臨床科研實(shí)踐。早在80年代初,F(xiàn)DA就將患者生存質(zhì)量(Quality Of Life,QOL)作為與臨床獲益金標(biāo)準(zhǔn)“生存期”并列的主要終點(diǎn)指標(biāo),用于衡量腫瘤新藥的有效性和安全性;《測(cè)量患者報(bào)告臨床結(jié)局的行業(yè)指南(草案)》(2006年)明確規(guī)定,將患者報(bào)告結(jié)局(Patient Reported Outcome,PRO)納入反映疾病相關(guān)癥狀或功能狀態(tài)改善的結(jié)局指標(biāo)體系。國(guó)內(nèi)學(xué)者在國(guó)外成熟量表的引進(jìn)及本土化方面開展了深入研究,考慮到生存質(zhì)量的文化依賴性,更多量表研究者致力于獨(dú)立開發(fā)適合國(guó)人的生存質(zhì)量量表。在中醫(yī)基礎(chǔ)理論指導(dǎo)下,中醫(yī)藥領(lǐng)域量表研究者融入中國(guó)傳統(tǒng)文化背景知識(shí),編制了大量體現(xiàn)中醫(yī)特色的健康相關(guān)生存質(zhì)量評(píng)定量表。這些量表的研制既符合標(biāo)準(zhǔn)的量表編制流程又蘊(yùn)含了豐富的中醫(yī)思想,涉及“形神一體”、“天人合一”、臟腑辨證、陰平陽(yáng)秘和五態(tài)人格體質(zhì)辨識(shí)等,對(duì)中醫(yī)辨證分型和臨床療效判定有一定的指導(dǎo)作用。
盡管不同量表的目的、測(cè)量對(duì)象、排列方式、應(yīng)用場(chǎng)合等迥然不同,但其編制與評(píng)價(jià)的基本原理均源自心理和教育領(lǐng)域的測(cè)驗(yàn)理論。隨著測(cè)驗(yàn)理論的發(fā)展,基于平行測(cè)驗(yàn)與線性模型弱假設(shè)(①測(cè)驗(yàn)分?jǐn)?shù)=真分?jǐn)?shù)+誤差;②真分?jǐn)?shù)=測(cè)驗(yàn)分?jǐn)?shù)的期望;③測(cè)驗(yàn)分?jǐn)?shù)的方差=真分?jǐn)?shù)方差與誤差方差之和)的經(jīng)典測(cè)驗(yàn)理論(classical test theory,CTT)逐漸被采用條件概率函數(shù)刻畫潛在特質(zhì)與項(xiàng)目應(yīng)答間非線性關(guān)系的項(xiàng)目反應(yīng)理論(Item response theory,IRT)補(bǔ)充替代:后者從項(xiàng)目分析入手,提出了項(xiàng)目參數(shù)和信息函數(shù)等指標(biāo),考評(píng)量表的測(cè)量學(xué)特性,從而克服了前者的籠統(tǒng)誤差、項(xiàng)目性能指標(biāo)的樣本依賴性等缺陷[1],提高了測(cè)量精度。然而,現(xiàn)有醫(yī)學(xué)量表的編制與評(píng)價(jià)多以經(jīng)典測(cè)驗(yàn)理論為基礎(chǔ),運(yùn)用項(xiàng)目反應(yīng)理論評(píng)價(jià)或改進(jìn)量表的文獻(xiàn)報(bào)道尚不多見;且應(yīng)用IRT分析評(píng)價(jià)量表?xiàng)l目時(shí),常常忽略模型應(yīng)用條件的強(qiáng)假設(shè)檢驗(yàn),未交代模型-數(shù)據(jù)的擬合效果,根據(jù)條目的應(yīng)答選項(xiàng)簡(jiǎn)單套用項(xiàng)目反應(yīng)模型,導(dǎo)致參數(shù)估計(jì)結(jié)果有偏,對(duì)樣本的潛特質(zhì)水平估計(jì)不準(zhǔn)確。
圖1 二分類項(xiàng)目的項(xiàng)目特征曲線(a=1,b=0)
表1 常見的項(xiàng)目反應(yīng)模型
亞健康,是一種介于健康與疾病之間動(dòng)態(tài)的臨界狀態(tài)[2-3],屬于中醫(yī)“未病”“欲病”階段[4-5];通過(guò)準(zhǔn)確辨識(shí)與早期干預(yù)[6],可以起到“未病養(yǎng)生,防病于先”,“欲病救萌、防微杜漸”作用。由于亞健康內(nèi)容涵蓋范圍較廣,不僅包括機(jī)體自適應(yīng)能力減退引發(fā)的功能性改變,還涉及心理、社會(huì)等因素,具有鮮明的主觀評(píng)價(jià)特點(diǎn),因此,測(cè)量性能優(yōu)良的量表成為評(píng)價(jià)亞健康的主要工具?;诖耍疚囊浴秮喗】禒顟B(tài)量表》為例,探索將單維項(xiàng)目反應(yīng)模型與傳統(tǒng)的信、效度分析相結(jié)合,對(duì)量表性能、項(xiàng)目性質(zhì)及適用情況進(jìn)行評(píng)價(jià),為科學(xué)有效測(cè)評(píng)亞健康提供參考。
項(xiàng)目反應(yīng)理論,從項(xiàng)目角度而非量表整體出發(fā),用“潛在特質(zhì)”代替經(jīng)典測(cè)驗(yàn)理論“真分?jǐn)?shù)”,用信息函數(shù)反映測(cè)量誤差,構(gòu)建非線性模型,建立被試對(duì)項(xiàng)目的應(yīng)答與其潛在特質(zhì)之間的概率函數(shù)關(guān)系,刻畫具有參數(shù)不變性的項(xiàng)目/類別特征曲線(如圖1),只要模型對(duì)數(shù)據(jù)資料擬合效果好,就可以得到項(xiàng)目參數(shù)和被試能力的精確估計(jì)。項(xiàng)目反應(yīng)模型是一套用于擬合項(xiàng)目/類別特征曲線的光滑函數(shù),計(jì)算不同水平被試在該項(xiàng)目上不同得分的概率。這些光滑函數(shù)也被稱為鏈接函數(shù),目前常用的有2類:累積正態(tài)分布函數(shù)[7]和logistic函數(shù)[8];從曲線特征來(lái)看,涉及到4個(gè)參數(shù),即:①曲線中心的位置——拐點(diǎn)或峰值對(duì)應(yīng)的能力值,②曲線中心的斜率,③曲線的上界,④曲線的下界限;結(jié)合教育測(cè)量學(xué)領(lǐng)域知識(shí),分別賦予該條目的難度、區(qū)分度、能力為-∞時(shí)正確作答概率及能力為+∞時(shí)正確作答概率等涵義,通常后兩者取值0和1。根據(jù)應(yīng)答選項(xiàng)形式和曲線特征的不同組合,早期項(xiàng)目反應(yīng)理論研究者開發(fā)了一系列單維參數(shù)項(xiàng)目反應(yīng)模型(見表1)。
本文建立等級(jí)應(yīng)答模型(Graded response model,GRM),評(píng)價(jià)條目的測(cè)量特性以及應(yīng)答等級(jí)設(shè)置的合理性。模型表達(dá)式為(1)式。
其中,α為區(qū)分度參數(shù),反映該項(xiàng)目對(duì)亞健康狀態(tài)區(qū)分能力的高低;b為閾值參數(shù),反映項(xiàng)目/選項(xiàng)的亞健康狀態(tài)嚴(yán)重程度,相鄰選項(xiàng)間界值,bk取值應(yīng)單調(diào)增加;θ代表潛在特質(zhì),即能力參數(shù),反映亞健康各領(lǐng)域潛變量(如,軀體亞健康、情緒亞健康等)水平的高低。k為項(xiàng)目應(yīng)答等級(jí),共m級(jí)。Pijk*為被試 j在項(xiàng)目i選“k等級(jí)及以上”的概率;Pijk為被試 j在項(xiàng)目i恰好選k等級(jí)的概率。
上述單維參數(shù)項(xiàng)目反應(yīng)模型必須滿足以下基本假設(shè):(1)單維性假設(shè)。量表/領(lǐng)域僅測(cè)量一種潛在特質(zhì),即潛在特質(zhì)空間為單維;(2)局部獨(dú)立性假設(shè)。被試對(duì)某一項(xiàng)目的正答概率不依賴于該被試在其他項(xiàng)目作答情況,嚴(yán)格來(lái)說(shuō),給定潛在特質(zhì)水平的條件下,不同項(xiàng)目間彼此獨(dú)立。給定能力θ,被試在J個(gè)項(xiàng)目上觀測(cè)到的應(yīng)答 X=(x1,x2…,xJ)′,j=1,2,…J??梢杂霉剑?)表示:
對(duì)模型假設(shè)和數(shù)據(jù)-模型擬合效果的統(tǒng)計(jì)檢驗(yàn)包括:1)項(xiàng)目間殘差相關(guān):Q3統(tǒng)計(jì)量[9],項(xiàng)目間存在顯著相關(guān)時(shí),“局部獨(dú)立性假設(shè)”違背;2)項(xiàng)目角度擬合:Zh統(tǒng)計(jì)量和S-χ2統(tǒng)計(jì)量[10],擬合效果不好、差異顯著,說(shuō)明項(xiàng)目與領(lǐng)域所測(cè)特質(zhì)不一致。此外,RMSEA、CFI和TLI等在CFA中用于驗(yàn)證模型擬合效果的檢驗(yàn)統(tǒng)計(jì)量也可用來(lái)識(shí)別LD。
項(xiàng)目反應(yīng)模型的待估參數(shù)有2類:一是反映項(xiàng)目特征的項(xiàng)目參數(shù),如區(qū)分度(斜率)或位置(截距)等參數(shù);一是界定潛在特質(zhì)分布的能力參數(shù),如能力的均值和協(xié)方差矩陣等。
項(xiàng)目參數(shù)已知估計(jì)能力參數(shù)或能力參數(shù)已知估計(jì)項(xiàng)目參數(shù)時(shí),采用的估計(jì)方法為最大似然估計(jì)。它是項(xiàng)目反應(yīng)理論參數(shù)估計(jì)的基礎(chǔ),隨后提出的許多參數(shù)估計(jì)方法都是基于該方法在不同條件下發(fā)展得到的,如聯(lián)合最大似然估計(jì)(JMLE)、邊際最大似然估計(jì)、邊際貝葉斯、EM算法、MCMC算法等。最大似然估計(jì)的基本思想是,對(duì)全體被試的項(xiàng)目應(yīng)答模式建立似然函數(shù),通過(guò)取對(duì)數(shù)后求導(dǎo)和迭代計(jì)算,找到使應(yīng)答模式出現(xiàn)可能性最大情況下所對(duì)應(yīng)的參數(shù),這些參數(shù)的取值即為項(xiàng)目反應(yīng)模型的最大似然估計(jì)。
信息函數(shù)在項(xiàng)目反應(yīng)理論中地位十分重要,是篩選適宜項(xiàng)目構(gòu)建項(xiàng)目庫(kù)的主要依據(jù)。通過(guò)項(xiàng)目提供的關(guān)于被試潛在特質(zhì)的(總)信息量,了解該項(xiàng)目在整個(gè)潛在特質(zhì)空間上的測(cè)量準(zhǔn)確性。項(xiàng)目信息量越大,測(cè)量結(jié)果越準(zhǔn)確可靠。項(xiàng)目信息函數(shù)I(θ),定義為測(cè)量誤差方差的倒數(shù),即:
當(dāng)項(xiàng)目反應(yīng)模型的鏈接函數(shù)為logistic函數(shù)形式時(shí),(3)可以推導(dǎo)為:
由(4)可知,信息函數(shù)是能力水平的函數(shù),信息量與 θ大小有關(guān)。同時(shí),信息函數(shù)還受項(xiàng)目特征參數(shù)影響,項(xiàng)目特征曲線越陡峭,區(qū)分度參數(shù)越大,項(xiàng)目特征曲線下限越低,項(xiàng)目方差越小,信息量越大。各項(xiàng)目所提供的信息量不受其他項(xiàng)目影響,各項(xiàng)目信息量獨(dú)立;這與CTT的測(cè)量標(biāo)準(zhǔn)誤(信度)不同,后者的信度依賴于測(cè)驗(yàn)整體,任一項(xiàng)目的增刪都需要重新計(jì)算測(cè)驗(yàn)整體信度。在指導(dǎo)量表編制或施測(cè)時(shí),運(yùn)用測(cè)驗(yàn)信息函數(shù)能提高測(cè)量有效性,動(dòng)態(tài)開展計(jì)算機(jī)適應(yīng)性測(cè)評(píng),提高測(cè)量效率。
本文是對(duì)2008年我中心開展的“亞健康量表及評(píng)價(jià)體系研究”調(diào)查資料進(jìn)行的二次數(shù)據(jù)分析。研究對(duì)象為典型亞健康人,采用方便抽樣,在空軍航空醫(yī)學(xué)研究所亞健康評(píng)估中心、中國(guó)中醫(yī)科學(xué)院廣安門醫(yī)院、西苑醫(yī)院的體檢中心、北京世紀(jì)壇醫(yī)院體檢中心等4家單位同時(shí)開展。納入標(biāo)準(zhǔn):年齡30~55歲,自愿接受調(diào)查,符合亞健康標(biāo)準(zhǔn)[11]。疾病排除標(biāo)準(zhǔn):患有重大疾病如心腦血管、糖尿病、腫瘤等;患非重大疾病但需藥物維持者;不合作者。健康人排除方法:采用專家共識(shí)法共同判定,專家來(lái)自中醫(yī)學(xué)、預(yù)防醫(yī)學(xué)、臨床流行病學(xué)等領(lǐng)域。最終,發(fā)放問(wèn)卷3 000份,回收問(wèn)卷2 486份,回收率為82.87%;經(jīng)專家判定841例受訪者為典型亞健康。
調(diào)查方式為自填式。研究小組配備了經(jīng)過(guò)嚴(yán)格培訓(xùn)的現(xiàn)場(chǎng)督導(dǎo)員,進(jìn)行協(xié)調(diào)及質(zhì)量控制。初步量表以亞健康的共性表現(xiàn)和臟腑相關(guān)的特異性癥狀為基礎(chǔ),體現(xiàn)中醫(yī)癥狀信息;具體內(nèi)容涉及軀體、能力減退、情緒、睡眠、二便等5領(lǐng)域,共計(jì)40個(gè)項(xiàng)目組成;題目的應(yīng)答選項(xiàng)均為L(zhǎng)ikert 5級(jí)評(píng)分,從1到5表示亞健康程度逐漸加重。
CTT分析,以克朗巴赫α系數(shù)評(píng)價(jià)量表信度,采用結(jié)構(gòu)方程模型考評(píng)量表結(jié)構(gòu)效度。
IRT分析,建立等級(jí)應(yīng)答模型(Graded response model,GRM),評(píng)價(jià)條目的測(cè)量特性以及應(yīng)答等級(jí)設(shè)置的合理性。
統(tǒng)計(jì)分析軟件:經(jīng)典測(cè)驗(yàn)理論的信度分析采用SPSS16.0,效度分析采用AMOS22.0;項(xiàng)目反應(yīng)理論分析采用Multilog7.0和Rltmpackage。
841例典型亞健康人的人口學(xué)分布情況詳見表2。
效度分析。效度是反映量表能否有效測(cè)量所要測(cè)量的潛在特質(zhì)的程度,主要包括內(nèi)容效度、結(jié)構(gòu)效度等。條目-領(lǐng)域相關(guān)系數(shù)在0.389~0.801范圍內(nèi),說(shuō)明量表的內(nèi)容效度較高(見表3)。驗(yàn)證性因子分析得到5因子的量表結(jié)構(gòu)效度合理(RMSEA=0.054,CFI=0.96)。
信度分析。信度是評(píng)價(jià)量表可靠性的重要指標(biāo)。根據(jù)研究設(shè)計(jì)及評(píng)價(jià)側(cè)重點(diǎn)不同,CTT的信度分析主要包括重測(cè)信度、復(fù)本信度、內(nèi)部信度、評(píng)分者信度等[12]。本研究采用內(nèi)部一致性信度和IRT信度分析,對(duì)各領(lǐng)域內(nèi)條目測(cè)量?jī)?nèi)容是否相同進(jìn)行評(píng)價(jià)。信度分析(見表4)發(fā)現(xiàn):各領(lǐng)域內(nèi)部一致性均較高(Cronbach α>0.6);其中,“二便”領(lǐng)域最低(0.663)。
表2 人口學(xué)資料分析結(jié)果(N=841)
表3 量表整體及各領(lǐng)域的內(nèi)容效度
表4 CTT與IRT的信度分析結(jié)果
2.5.1 單維性檢驗(yàn)
采用平行分析(Parallel Analysis,PA)與Hambleton的標(biāo)準(zhǔn)[13]“第一特根與第二特征根之比大于3”,兩種方法相結(jié)合檢驗(yàn)量表各領(lǐng)域是否符合單維性假設(shè)。結(jié)果顯示(圖2),除“軀體”和“二便”領(lǐng)域(實(shí)際主成分特征根大于模擬數(shù)據(jù)特征根的個(gè)數(shù)超過(guò)1個(gè))外,其他3個(gè)領(lǐng)域均通過(guò)了PA關(guān)于單維性檢驗(yàn);“軀體”和“二便”領(lǐng)域的第一特征根與第二特征根之比分別為4.77和1.84。因此,可以認(rèn)為“能力”、“軀體”、“睡眠”、“情緒”4個(gè)領(lǐng)域滿足單維性條件,“二便”領(lǐng)域尚不符合單維假設(shè)。
為開展IRT條目分析,對(duì)不滿足“單維性”假設(shè)的“二便”領(lǐng)域進(jìn)一步細(xì)分。經(jīng)探索性因子分析,將“二便”領(lǐng)域進(jìn)一步劃分為便秘(“便干”、“排便困難”)、泄瀉(“便不成形”、“腹瀉”)、淋證(“尿不盡”、“尿頻”、“易汗”)3個(gè)方面,故后續(xù)對(duì)IRT分析的量表域體系見圖3。
2.5.2 局部獨(dú)立性檢驗(yàn)
經(jīng)Yens Q3統(tǒng)計(jì)量檢驗(yàn),在能力領(lǐng)域2對(duì)項(xiàng)目存在LD(C36熬夜精力和E66日常精力、C40工作能力滿意和E70日常生活滿意);軀體領(lǐng)域4對(duì)項(xiàng)目存在LD(B01疲乏和B24氣短,B07眼睛不適與B09視力下降、B25胸悶,B24氣短和B25胸悶);睡眠領(lǐng)域C33夜間醒來(lái)與其他3個(gè)條目間存在LD;情緒領(lǐng)域2對(duì)項(xiàng)目存在LD(D59無(wú)法使高興和D61害怕不幸,D60煩躁易怒和D65信心不足)。上述項(xiàng)目,其所對(duì)應(yīng)的項(xiàng)目參數(shù)估計(jì)有誤,需要進(jìn)一步修訂。
2.5.3 GRM模型參數(shù)估計(jì)
GRM項(xiàng)目參數(shù)估計(jì)和信息函數(shù)結(jié)果如表5所示。區(qū)分度系數(shù)α在0.53~3.83范圍內(nèi),取值大于0.3,說(shuō)明量表區(qū)分度高,即各條目都能靈敏地檢測(cè)所在領(lǐng)域潛變量的變化。閾值參數(shù)bi,相鄰選項(xiàng)間的閾值?!鞍疽购缶Τ渑妗逼骄y度<0,大部分樣本在該條目作答為“很少有精力”和“根本沒精力”,說(shuō)明該條目適用于對(duì)“能力”極好的被試進(jìn)行測(cè)量。各領(lǐng)域條目的難度參數(shù)均為升序,說(shuō)明應(yīng)答選項(xiàng)順序可以體現(xiàn)亞健康各領(lǐng)域潛特質(zhì)程度的加重;但從難度參數(shù)估計(jì)值的分布范圍來(lái)看,不是均衡分布在(-3,3)范圍,取值極端,說(shuō)明個(gè)別項(xiàng)目即使亞健康狀態(tài)比總體均值高的人也會(huì)選擇“很少有”(如B15、C51等)。上述現(xiàn)象與Steven P.Reise等關(guān)于IRT在臨床測(cè)量的綜述研究結(jié)果相一致。
圖2 亞健康5個(gè)領(lǐng)域Parallel analysis結(jié)果
2.5.4 信息函數(shù)估計(jì)
亞健康量表總信息量為33.8(大于25[14]),說(shuō)明量表整體測(cè)量準(zhǔn)確度較高。各項(xiàng)目信息量最大值見表5,精度過(guò)低的項(xiàng)目有8個(gè)。這些項(xiàng)目的測(cè)量?jī)?nèi)容或者與所在領(lǐng)域其他條目有差異,或者由于語(yǔ)言表達(dá)不合適,對(duì)應(yīng)答者來(lái)說(shuō)過(guò)于復(fù)雜;需要進(jìn)一步修訂。以領(lǐng)域?yàn)閱挝?,考量?duì)亞健康狀態(tài)連續(xù)體的估計(jì)精度,除了二便領(lǐng)域方面2的測(cè)驗(yàn)信息量較低(平均為2.390)外,其他領(lǐng)域/方面的測(cè)驗(yàn)信息量(見圖4)的均值都超過(guò)3,軀體領(lǐng)域的信息量最高,平均為9.984。
2.5.5 基于IRT的信度
軀體、能力減退、情緒、睡眠等領(lǐng)域IRT邊際信度較好(>0.75),二便領(lǐng)域3個(gè)方面的IRT邊際信度可接受,方面2最低(詳見表4)。
2.5.6 項(xiàng)目的模型擬合檢驗(yàn)
經(jīng)Zh統(tǒng)計(jì)量檢驗(yàn),未發(fā)現(xiàn)不擬合項(xiàng)目;同時(shí),采用S-χ2檢驗(yàn),識(shí)別出項(xiàng)目模型擬合效果較差的有:能力領(lǐng)域,B15、B19、E66和 E70;軀體領(lǐng)域,B02,B07,B09,B23,B24,B25;睡眠領(lǐng)域,C34,C37;情緒領(lǐng)域,無(wú);二便由于項(xiàng)目數(shù)過(guò)少,無(wú)法計(jì)算。考慮有些項(xiàng)目存在LD,下一步擬擴(kuò)大樣本量構(gòu)建多維項(xiàng)目反應(yīng)模型以期更貼合該項(xiàng)目特征實(shí)際。
本研究探索在CTT基礎(chǔ)上進(jìn)行IRT分析的方法,對(duì)辨識(shí)“未病”的《亞健康狀態(tài)量表》進(jìn)行綜合評(píng)價(jià)。
圖3 量表域體系(用于IRT)
經(jīng)結(jié)構(gòu)方程模型與探索性因子分析,最終判定的量表結(jié)構(gòu)與預(yù)期域體系基本一致。在初始設(shè)定的“能力-軀體-睡眠-情緒-二便”5個(gè)領(lǐng)域的基礎(chǔ)上,進(jìn)一步將“二便”領(lǐng)域劃分為3個(gè)方面:便秘、泄瀉、淋證。量表整體結(jié)構(gòu)符合中醫(yī)辨證診斷的整體思維,涵蓋了能力下降、軀體不適、睡眠障礙、情志和二便等方面,同時(shí),也符合亞健康在“未病”范疇的定義。內(nèi)容效度較好,說(shuō)明項(xiàng)目對(duì)所屬領(lǐng)域/方面具有較高代表性。由信度結(jié)果可知,量表整體信度較好,測(cè)量亞健康狀態(tài)及各領(lǐng)域亞健康的可靠性較高,但“二便”方面2所含條目需要進(jìn)一步修訂和增補(bǔ)。IRT邊際信度分析,發(fā)現(xiàn)除“二便”領(lǐng)域方面1外,各領(lǐng)域/方面IRT邊際信度結(jié)果均高于CTT的內(nèi)部一致性信度,這是因?yàn)榭死拾秃誥系數(shù)是信度系數(shù)估計(jì)值的下限,故二者結(jié)合考慮可以對(duì)量表信度進(jìn)行更為準(zhǔn)確地估計(jì)。
表5 亞健康量表各項(xiàng)目的區(qū)分度、難度和信息量
從IRT項(xiàng)目參數(shù)和信息量角度評(píng)價(jià)《亞健康狀態(tài)量表》指標(biāo),分析更為完善、精確,有助于多角度、分層次開展研究。首先,5領(lǐng)域3方面均符合單維性,但有14個(gè)條目違背局部獨(dú)立性假設(shè),故在GRM模型參數(shù)估計(jì)有誤,需要對(duì)條目進(jìn)一步修訂或者構(gòu)建多維項(xiàng)目反應(yīng)模型重新估計(jì)參數(shù)。其次,通過(guò)GRM建模分析,可知:條目對(duì)所在領(lǐng)域的不同水平被試具有良好的區(qū)分能力;最后,從信息量來(lái)看,量表整體的估計(jì)精度較高;從條目的最大信息量來(lái)看,能力減退、情緒、睡眠、二便等領(lǐng)域(方面)的信息量平均大于1,說(shuō)明測(cè)量精度較高;“軀體”領(lǐng)域條目信息量較低;項(xiàng)目信息量過(guò)低的條目8個(gè)。因此,考慮LD、區(qū)分度、信息量等判斷有20個(gè)項(xiàng)目需要進(jìn)一步調(diào)整,其余20個(gè)項(xiàng)目均為測(cè)量性質(zhì)較高的條目,可以用于構(gòu)建亞健康項(xiàng)目庫(kù)。此外,由于樣本量有限,待估參數(shù)較多,故本文未給出模型-資料的全局?jǐn)M合效果檢驗(yàn)(M2)。
圖4 亞健康狀態(tài)量表個(gè)領(lǐng)域/方面測(cè)驗(yàn)信息函數(shù)
綜上,單維項(xiàng)目反應(yīng)模型與經(jīng)典信度、效度測(cè)評(píng)相結(jié)合,可以更系統(tǒng)、科學(xué)考評(píng)量表的一致性和有效性;但其應(yīng)用條件嚴(yán)苛,須滿足強(qiáng)假設(shè)方可正確估計(jì)項(xiàng)目和能力參數(shù)。本研究,亞健康量表具有較好的信度和效度;經(jīng)過(guò)校正的優(yōu)質(zhì)條目初步形成亞健康條目庫(kù),為“治未病”理論的指導(dǎo)下開展亞健康狀態(tài)的計(jì)算機(jī)自適應(yīng)動(dòng)態(tài)測(cè)量、實(shí)現(xiàn)移動(dòng)醫(yī)療奠定基礎(chǔ)。
1 Santor DA,Ramsay JO.Progress in the technology of measurement:ap?plications of item response models.Psychological Assessment,1998,10(4):345-359.
2 劉保延,何麗云,謝雁鳴,等,亞健康狀態(tài)的概念研究.中國(guó)中醫(yī)基礎(chǔ)醫(yī)學(xué)雜志,2006,12(11):801-803.
3 王利敏,趙歆,陳家旭,等.亞健康狀態(tài)綜合評(píng)價(jià)指標(biāo)體系研究思路探析.中華中醫(yī)藥雜志,2010,25(2):180-183.
4 吳鴻,高水波.淺析中醫(yī)“治未病”理論及其現(xiàn)實(shí)意義.中國(guó)中醫(yī)基礎(chǔ)醫(yī)學(xué)雜志,2011,11(9):372.
5 王天芳,孫濤.亞健康與“治未病”的概念、范疇及其相互關(guān)系的探討.中國(guó)中西醫(yī)結(jié)合雜志,2009,29(10):929-933.
6 薛曉琳,王天芳,林殷,亞健康中醫(yī)干預(yù)研究中的幾個(gè)關(guān)鍵環(huán)節(jié),北京中醫(yī)藥大學(xué)學(xué)報(bào)(中醫(yī)臨床版),2013(6):1-4.
7 Richardson,M.W.(1936).The relationship between difficulty and the differential validity of atest.Psychometrika,1(2),33-49.
8 Maxwell,A.E.(1959).Maximum likelihood estimates of item parame?tersusingthelogistic function.Psychometrika,24,221-227.
9 Wen-Hung Chen,David Thissen.Local dependence indexes for item pairs using item response theory.Journal of Educational and behavioral statistics,1997,22(3):265-289.
10 Taehoon Kang,Troy T.Chen.Performance of the generalized S-χ2 item fit index for polytomous IRTmodels.Journal of Education Measurement.2008,45(4):391-406.
11張艷宏,何麗云,劉保延,亞健康狀態(tài)的界定思路,遼寧中醫(yī)雜志,2008,35(6):852-853.
12劉保延.患者報(bào)告結(jié)局的測(cè)量—原理、方法與應(yīng)用[M].北京:人民衛(wèi)生出版社,2011年,163-166。
13楊錚,戚艷波,萬(wàn)崇華,等,慢性病患者生命質(zhì)量測(cè)定量表體系共性模塊項(xiàng)目反應(yīng)理論的進(jìn)一步分析,中國(guó)全科醫(yī)學(xué),2012(8A):2544-2547.
14楊建原,臧運(yùn)洪,趙守盈,用項(xiàng)目反應(yīng)理論修訂教學(xué)效能感量表,教育科學(xué),2012,28(2):46-51.
Evaluation on Scales Based on Unidimensional Item Response Models
Bai Wenjing1,He Liyun1,Zhang Yanhong1,Liu Weimin1,Liu Baoyan2
(1.Instituteof Basic Research in Clinical Medicine,China Academy of Chinese Medical Sciences,Beijing 100700,China;2.China Academy of Chinese Medical Sciences,Beijing 100700,China)
This study was aimed to assess scales with the unidimensional item response models(UIRM)and classical test theory.The reliability and validity of 841 sub-health status samples were analyzed by CTT.Surveying evaluation from the project perspective was also conducted.The results showed that Cronbach’sα coefficients in five areas were all larger than 0.6 with relatively high consistency.The scale structures of five areas were relatively good and the CFI was 0.96.When discriminations of all items were larger than 0.3,the sensitivity of item for its area was high.When the scale test information was 33.8,the accuracy of sub-health status was relatively high.However,there were still some items should be further revised.It was concluded that UIRM can be used to evaluate the psychological measurement performance in the project.It is a supplement to the evaluation result of classical test theory.The reliability and validity of sub-health status scale are relatively high.After IRT correction,it can be used for human-computer interaction techniques“preventive treatment”dynamic monitoring.
Itemresponsetheory,sub-health,preventive treatment,discrimination,information quantity
10.11842/wst.2017.09.010
R203
A
2017-05-12
修回日期:2017-08-23
* 中國(guó)中醫(yī)科學(xué)院第九批自助選題(Z0409):基于多維IRT的健康狀態(tài)評(píng)估系統(tǒng)構(gòu)建研究,負(fù)責(zé)人:白文靜。
** 通訊作者:何麗云,研究員,主要研究方向:臨床評(píng)價(jià)方法學(xué)。
(責(zé)任編輯:張娜娜,責(zé)任譯審:王 晶)