付 蓉 蘇少飛 包 含 劉 丹 張慧敏 劉美娜
哈爾濱醫(yī)科大學(xué)公共衛(wèi)生學(xué)院 (150081)
基于項(xiàng)目反應(yīng)理論的治療質(zhì)量綜合評(píng)價(jià)最適樣本量的模擬研究*
付 蓉 蘇少飛 包 含 劉 丹 張慧敏 劉美娜△
哈爾濱醫(yī)科大學(xué)公共衛(wèi)生學(xué)院 (150081)
目的 驗(yàn)證基于項(xiàng)目反應(yīng)理論模型的醫(yī)院疾病治療質(zhì)量評(píng)價(jià)有效性,探討保證模型有效性和測(cè)量精度的最適樣本量。方法 根據(jù)項(xiàng)目反應(yīng)理論中的雙參數(shù)logistic模型建立疾病治療質(zhì)量評(píng)價(jià)的潛變量模型,通過(guò)SAS模擬產(chǎn)生每家醫(yī)院對(duì)每個(gè)指標(biāo)的反應(yīng)矩陣,模型中的參數(shù)估計(jì)采用貝葉斯估計(jì)的MCMC算法,利用秩相關(guān)系數(shù)及RMSE評(píng)價(jià)模型的有效性和測(cè)量精度。結(jié)果 在不同模擬試驗(yàn)中,能力參數(shù)真值和估計(jì)值的秩相關(guān)系數(shù)均高于0.990。隨著指標(biāo)數(shù)、醫(yī)院數(shù)和指標(biāo)分母上限的增加,秩相關(guān)系數(shù)逐漸增大。隨著醫(yī)院數(shù)的增加,項(xiàng)目參數(shù)和能力參數(shù)的RMSE逐漸減小。當(dāng)醫(yī)院數(shù)增至100時(shí),無(wú)論指標(biāo)數(shù)多少,RMSE均小于0.20,且趨于穩(wěn)定。結(jié)論 基于項(xiàng)目反應(yīng)理論模型的醫(yī)院疾病治療質(zhì)量評(píng)價(jià)合理有效。在保證模型測(cè)量精度前提下,疾病治療質(zhì)量綜合評(píng)價(jià)的最適樣本量為至少調(diào)查50家醫(yī)院,每家醫(yī)院每個(gè)指標(biāo)的分母數(shù)在30~100范圍。當(dāng)指標(biāo)數(shù)不足8個(gè)時(shí),可適當(dāng)增加每個(gè)指標(biāo)的分母數(shù)。
治療質(zhì)量 綜合評(píng)價(jià) 項(xiàng)目反應(yīng)理論 貝葉斯估計(jì)
隨著項(xiàng)目反應(yīng)理論(item response theory,IRT)的完善和計(jì)算機(jī)技術(shù)的發(fā)展,IRT的應(yīng)用由教育和心理測(cè)量拓展至其他許多領(lǐng)域,如人格測(cè)試、青少年違法行為、生存質(zhì)量研究等[1-3]。國(guó)外學(xué)者也將IRT引入醫(yī)院疾病的治療質(zhì)量評(píng)價(jià)[4-5],但其與教育測(cè)量不同:教育測(cè)量的對(duì)象是個(gè)體,治療質(zhì)量評(píng)價(jià)的對(duì)象是醫(yī)院。當(dāng)只有一個(gè)評(píng)價(jià)對(duì)象時(shí),教育測(cè)量只需收集一個(gè)被試者的信息,治療質(zhì)量評(píng)價(jià)需要收集一家醫(yī)院的多個(gè)患者信息;教育測(cè)量在二分制評(píng)分中,被試者對(duì)每個(gè)項(xiàng)目的反應(yīng)是1或0(正確或錯(cuò)誤)。在治療質(zhì)量評(píng)價(jià)中,由于每個(gè)指標(biāo)有其自身的適應(yīng)證和禁忌證,同一家醫(yī)院被調(diào)查的患者不一定適合使用所有指標(biāo)。每個(gè)指標(biāo)的定義包括分母和分子,分母是適合某個(gè)指標(biāo)且沒(méi)有相應(yīng)禁忌證的患者數(shù),分子是適合該指標(biāo)的患者中真正使用該指標(biāo)的患者數(shù)。數(shù)據(jù)格式見(jiàn)表1,表中Nh表示第h家醫(yī)院調(diào)查的患者數(shù),nkh表示第h家醫(yī)院Nh個(gè)患者中適合使用第k個(gè)指標(biāo)的患者數(shù)。ykh表示第h家醫(yī)院nkh個(gè)患者中實(shí)際使用第k個(gè)指標(biāo)的患者數(shù),服從參數(shù)為nkh、pkh的二項(xiàng)分布,pkh為第h家醫(yī)院第k個(gè)指標(biāo)使用的概率;教育測(cè)量中項(xiàng)目數(shù)少則數(shù)十個(gè),多則上百個(gè)。治療質(zhì)量評(píng)價(jià)中指標(biāo)是根據(jù)專(zhuān)家的知識(shí)和臨床實(shí)踐經(jīng)驗(yàn)確定,為醫(yī)院治療質(zhì)量評(píng)價(jià)的標(biāo)準(zhǔn)。指標(biāo)數(shù)因疾病而異且每個(gè)疾病的指標(biāo)數(shù)一般不超過(guò)15個(gè),如我國(guó)衛(wèi)生部醫(yī)政司建立心力衰竭和急性心肌梗死的指標(biāo)各10個(gè)[6]。
目前為止,基于IRT的疾病治療質(zhì)量評(píng)價(jià)有效性的數(shù)據(jù)支持很少??紤]到治療質(zhì)量評(píng)價(jià)數(shù)據(jù)收集的難度,需要探討能保證模型有效性和測(cè)量精度的最適樣本量,即評(píng)價(jià)的醫(yī)院數(shù)和指標(biāo)的分母數(shù)。本文將根據(jù)項(xiàng)目反應(yīng)理論中的雙參數(shù)logistic模型建立治療質(zhì)量評(píng)價(jià)的潛變量模型[7],通過(guò)模擬研究驗(yàn)證IRT應(yīng)用于治療質(zhì)量評(píng)價(jià)的有效性,同時(shí)確定最適樣本量。
1.模型構(gòu)建
假設(shè)利用k個(gè)指標(biāo)評(píng)價(jià)H家醫(yī)院某一疾病的治療質(zhì)量,第h家醫(yī)院每個(gè)指標(biāo)的使用率由該家醫(yī)院一個(gè)不可觀測(cè)的潛變量(治療質(zhì)量)決定。第h家醫(yī)院第k個(gè)指標(biāo)實(shí)際使用的患者數(shù)服從參數(shù)為nkh、pkh的二項(xiàng)分布:
ykh~B(nkh,pkh),k=1,2,…,K,h=1,2,…,H
(1)
pkh為第h家醫(yī)院第k個(gè)指標(biāo)使用的概率,nkh為第h家醫(yī)院適合使用第k個(gè)指標(biāo)的患者數(shù)。構(gòu)建第h家醫(yī)院第k個(gè)指標(biāo)使用的概率pkh與該家醫(yī)院不可觀測(cè)的治療質(zhì)量θh的函數(shù)關(guān)系為:
logit(pkh)=β0k+β1kθh
(2)
該模型建立在雙參數(shù)logistic模型的基礎(chǔ)上,β0k和β1k分別為第k個(gè)指標(biāo)的難度參數(shù)和區(qū)分度參數(shù),稱(chēng)為項(xiàng)目參數(shù);潛變量θh為第h家醫(yī)院的治療質(zhì)量,稱(chēng)為能力參數(shù)。
2.參數(shù)估計(jì)
公式(2)中有2k+h個(gè)待估參數(shù),本文利用貝葉斯估計(jì)的MCMC(markov chain monte carlo)算法進(jìn)行參數(shù)估計(jì)。
1.模擬設(shè)計(jì)
醫(yī)院數(shù)H分別設(shè)為20,50,100,200和300;指標(biāo)數(shù)K分別設(shè)為5,8,10和15;每家醫(yī)院每個(gè)指標(biāo)的分母上限分別設(shè)為100,200和300,共60(5×4×3)種試驗(yàn)。為減小隨機(jī)誤差,每種試驗(yàn)重復(fù)10次。應(yīng)用SAS9.2模擬產(chǎn)生模型參數(shù)的真值,各參數(shù)設(shè)置如下:
能力參數(shù)θh~N(0,1),h=1,2,…,H,H=20,50,100,200,300
難度參數(shù)β0k~U(-1,1),k=1,2,…,K,K=5,8,10,15
區(qū)分度參數(shù)β1k~U(0,1),k=1,2,…,K,K=5,8,10,15
指標(biāo)的分母nkh~U(a,b),k=1,2,…,K,h=1,2,…,H,H=20,50,100,200,300,a=30,b=100,200,300
為保證計(jì)算的指標(biāo)使用率的穩(wěn)定性,文獻(xiàn)指出每家醫(yī)院每個(gè)指標(biāo)的分母至少為30,因此將指標(biāo)分母的下限設(shè)為30[8-9]。
根據(jù)公式(2),將產(chǎn)生的參數(shù)真值θh、β0k和β1k代入式中,得到每家醫(yī)院每個(gè)指標(biāo)使用的概率pkh,再根據(jù)公式(1)和每家醫(yī)院每個(gè)指標(biāo)的分母nkh,得到每家醫(yī)院每個(gè)指標(biāo)的分子ykh。nkh和ykh構(gòu)成了治療質(zhì)量評(píng)價(jià)中每家醫(yī)院對(duì)每個(gè)指標(biāo)的反應(yīng)矩陣。
2.軟件實(shí)現(xiàn)
3.評(píng)價(jià)標(biāo)準(zhǔn)
(1)秩相關(guān)系數(shù):治療質(zhì)量綜合評(píng)價(jià)的目的是將多個(gè)指標(biāo)整合獲得醫(yī)院的綜合質(zhì)量得分,根據(jù)綜合質(zhì)量得分對(duì)醫(yī)院進(jìn)行排序,因此綜合評(píng)價(jià)方法的選擇是區(qū)分醫(yī)院治療質(zhì)量?jī)?yōu)劣的關(guān)鍵。利用秩相關(guān)系數(shù)評(píng)價(jià)能力參數(shù)θh真值和估計(jì)值的一致性,秩相關(guān)系數(shù)越接近1,真值和估計(jì)值的一致性越高。秩相關(guān)系數(shù)大于0.990可認(rèn)為基于IRT的治療質(zhì)量綜合評(píng)價(jià)合理有效。
4.模擬結(jié)果
圖1A,當(dāng)5個(gè)指標(biāo)評(píng)價(jià)20家醫(yī)院的治療質(zhì)量,每家醫(yī)院每個(gè)指標(biāo)的分母上限為100時(shí),能力參數(shù)估計(jì)值和真值的秩相關(guān)系數(shù)最小,為0.9964。隨著醫(yī)院數(shù)和每家醫(yī)院每個(gè)指標(biāo)分母上限的增加,秩相關(guān)系數(shù)逐漸增大。圖1B、C和D,當(dāng)指標(biāo)數(shù)分別為8、10和15個(gè)時(shí),秩相關(guān)系數(shù)的變化趨勢(shì)與圖1A相似,且隨著指標(biāo)數(shù)的增加,秩相關(guān)系數(shù)逐漸增大。秩相關(guān)系數(shù)在不同指標(biāo)數(shù)間、不同醫(yī)院數(shù)間和不同指標(biāo)分母上限間的差別均有統(tǒng)計(jì)學(xué)意義,P<0.0001。經(jīng)組間兩兩比較,當(dāng)醫(yī)院數(shù)增至100家、每家醫(yī)院每個(gè)指標(biāo)的分母上限增至200及指標(biāo)數(shù)增至8個(gè)時(shí),隨著醫(yī)院數(shù)、每家醫(yī)院每個(gè)指標(biāo)的分母上限和指標(biāo)數(shù)的繼續(xù)增加,秩相關(guān)系數(shù)的變化均無(wú)統(tǒng)計(jì)學(xué)意義。
不同試驗(yàn)中項(xiàng)目參數(shù)和能力參數(shù)的RMSE見(jiàn)表2。無(wú)論指標(biāo)數(shù)和每家醫(yī)院每個(gè)指標(biāo)的分母上限多少,當(dāng)醫(yī)院數(shù)為20時(shí),區(qū)分度參數(shù)和能力參數(shù)的RMSE幾乎全部大于0.20;醫(yī)院數(shù)為50時(shí),少數(shù)RMSE大于0.20。除指標(biāo)數(shù)不影響難度參數(shù)β0的RMSE大小外,不同指標(biāo)數(shù)間β1和θ的RMSE及不同醫(yī)院數(shù)間β0、β1和θ的RMSE差別均有統(tǒng)計(jì)學(xué)意義,P<0.0001。每家醫(yī)院每個(gè)指標(biāo)的分母上限對(duì)β0、β1和θ的RMSE的大小沒(méi)有影響,P值分別為0.2373、0.9773和0.5977。不同醫(yī)院數(shù)間兩兩比較,當(dāng)醫(yī)院數(shù)增至100時(shí),隨著醫(yī)院數(shù)的繼續(xù)增加,β0和β1的RMSE改變均無(wú)統(tǒng)計(jì)學(xué)意義;醫(yī)院數(shù)增至200家時(shí),隨著醫(yī)院數(shù)的繼續(xù)增加,θ的RMSE改變無(wú)統(tǒng)計(jì)學(xué)意義。
每家醫(yī)院每個(gè)指標(biāo)的分母上限不影響項(xiàng)目參數(shù)和能力參數(shù)的估計(jì),因此將不同指標(biāo)分母的上限信息進(jìn)行整合。不同醫(yī)院數(shù)和不同指標(biāo)數(shù)的項(xiàng)目參數(shù)和能力參數(shù)RMSE見(jiàn)圖2。圖2A,只有5個(gè)指標(biāo)時(shí),隨著醫(yī)院數(shù)的增加,β0、β1和θ的RMSE逐漸減小。圖2B、C和D,當(dāng)評(píng)價(jià)指標(biāo)分別為8、10和15個(gè)時(shí),β0、β1和θ的RMSE變化趨勢(shì)與圖2A相似,且隨著指標(biāo)數(shù)的增加,醫(yī)院數(shù)越少RMSE越大。當(dāng)醫(yī)院數(shù)增至100時(shí),無(wú)論指標(biāo)數(shù)多少,β0、β1和θ的RMSE均小于0.20,且趨于穩(wěn)定。
項(xiàng)目反應(yīng)理論認(rèn)為被試者的某種相對(duì)穩(wěn)定的潛在特質(zhì)或能力水平支配其對(duì)項(xiàng)目作出正確反應(yīng)的概率,兩者之間的關(guān)系可以用一個(gè)單調(diào)遞增的函數(shù)表達(dá)[7,11]。在治療質(zhì)量評(píng)價(jià)中,被試者為醫(yī)院,每家醫(yī)院的治療質(zhì)量決定該家醫(yī)院指標(biāo)的使用情況。本研究通過(guò)模擬試驗(yàn)發(fā)現(xiàn),在不同指標(biāo)數(shù)和不同指標(biāo)分母上限的情況下,醫(yī)院數(shù)為20時(shí),能力參數(shù)估計(jì)值和真值的秩相關(guān)系數(shù)均大于0.996;醫(yī)院數(shù)增至50時(shí),秩相關(guān)系數(shù)均大于0.999。研究表明基于項(xiàng)目反應(yīng)理論的治療質(zhì)量綜合評(píng)價(jià)合理有效,該綜合評(píng)價(jià)方法能準(zhǔn)確地區(qū)分醫(yī)院治療質(zhì)量的優(yōu)劣。在不同指標(biāo)數(shù)和不同指標(biāo)分母上限的情況下,醫(yī)院數(shù)增至50時(shí),項(xiàng)目參數(shù)和能力參數(shù)的RMSE基本減小至0.20以下,達(dá)到項(xiàng)目反應(yīng)理論對(duì)測(cè)量精確性的要求。結(jié)合兩個(gè)評(píng)價(jià)標(biāo)準(zhǔn)的結(jié)果推斷,利用項(xiàng)目反應(yīng)理論模型評(píng)價(jià)醫(yī)院的治療質(zhì)量的最適樣本量為至少調(diào)查50家醫(yī)院,每家醫(yī)院每個(gè)指標(biāo)的分母在30~100范圍。為保證模型更加有效,當(dāng)評(píng)價(jià)的疾病指標(biāo)數(shù)不足8個(gè)時(shí),可適當(dāng)增加每個(gè)指標(biāo)的分母數(shù)。
每家醫(yī)院每個(gè)指標(biāo)的分母數(shù)包含于每家醫(yī)院調(diào)查的患者數(shù),nkh≤Nh。在K個(gè)指標(biāo)中,若一個(gè)指標(biāo)僅適用于P%的患者,其余指標(biāo)適用的患者比例高于P%,為保證每個(gè)指標(biāo)的分母在30~100范圍,應(yīng)選擇研究期間內(nèi)患者數(shù)在(30~100)/P%范圍的醫(yī)院。例如4個(gè)指標(biāo)分別適合于70%、50%、80%和60%的患者,則每家醫(yī)院調(diào)查的患者數(shù)應(yīng)為100/50%=200個(gè),不足200個(gè)患者的醫(yī)院則調(diào)查該家醫(yī)院研究期間內(nèi)的所有患者,但也應(yīng)保證至少30/50%=60個(gè)患者。
本研究利用貝葉斯對(duì)模型參數(shù)估計(jì)時(shí),各參數(shù)的先驗(yàn)分布均設(shè)為正態(tài)分布。然而先驗(yàn)分布的選擇在貝葉斯統(tǒng)計(jì)中至關(guān)重要,不同的先驗(yàn)分布可能獲得不同的結(jié)論,下一步我們將研究先驗(yàn)分布的設(shè)置對(duì)模型有效性以及測(cè)量精度的影響。
[1]Reise SP,Waller NG.Fitting the two-parameter model to personality data.Applied Psychological Measurement,1990,14: 45-58.
[2]Osgood DW,McMorris BJ,Potenza MT.Analyzing multiple-item measures of crime and deviance I: Item Response Theory Scaling.Journal of Quantitative Criminology,2002,18: 267-296.
[3]韓耀風(fēng),郝元濤,方積乾.項(xiàng)目反應(yīng)理論及其在生存質(zhì)量研究中的應(yīng)用.中國(guó)衛(wèi)生統(tǒng)計(jì),2006,23(6):562-565.
[4]Landrum MB,Bronskill SE,Normand SL.Analytic methods for constructing cross-sectional profiles of health care providers.Health Services Research and Outcomes Methodology,2000,1: 23-47.
[5]Shwartz M,Ren J,Pekoz EA,et al.Estimating a composite measure of hospital quality from the Hospital Compare database: differences when using a Bayesian hierarchical latent variable model versus denominator-based weights.Med Care,2008,46: 778-785.
[6]中國(guó)醫(yī)院協(xié)會(huì).單病種質(zhì)量管理手冊(cè).北京:科學(xué)文獻(xiàn)技術(shù)出版社,2008.
[7]李曉銘.項(xiàng)目反應(yīng)理論的模型.心理發(fā)展與教育,1989,2:27-32.
[8]Rollow W,Lied TR,McGann P,et al.Assessment of the Medicare quality improvement organization program.Ann Intern Med,2006,145: 342-353.
[9]Williams SC,Koss RG,Morton DJ,Loeb JM.Performance of top-ranked heart care hospitals on evidence-based process measures.Circulation,2006,114: 558-564.
[10]崔勝鵬.正態(tài)雙卵模型的Gibbs抽樣算法.哈爾濱工業(yè)大學(xué)理學(xué)碩士學(xué)位論文,2013,31.
[11]李曉銘.項(xiàng)目反應(yīng)理論的形成與基本理論假設(shè).心理發(fā)展與教育,1989,1:25-31.
(責(zé)任編輯:鄧 妍)
A Simulation Study on the Optimum Sample Size of Quality Assessment Based on Item Response Theory
Fu Rong,Su Shaofei,Bao Han,et al
(Department of Biostatistics,Harbin Medical University (150081),Harbin)
Objective To verify the validity of the assessment of quality of care based on item response theory model and to discuss the optimum sample size which ensured the validity and accuracy.Methods A latent model was developed according to the two-parameter logistic model and SAS was used to simulate the response matrix of compliance with each quality indicator at each hospital.Bayesian estimation was applied to estimate the parameters in the latent model withMCMCalgorithm.Spearman correlation coefficient andRMSEwere used to assess the validity and accuracy of model.Results In the different simulation trials,the spearman correlation coefficient between real and estimated value of ability parameter was all higher than 0.990.The spearman correlation coefficient increased gradually as the number of quality indicator,hospital and upper limit of denominator increased.TheRMSEof item parameter and ability parameter decreased gradually as the number of hospital increased and when the number of hospital increased to 100,all theRMSEwas smaller than 0.20 regardless of the number of quality indicator.Conclusion The assessment of quality of care based on item response theory model is valid.On the premise of ensuring the accuracy of model,the optimum sample size of quality assessment is at least 50 hospitals and the range of the denominator of each quality indicator at each hospital is from 30 to 100.When the number of quality indicator is less than 8,it should appropriately add the denominator of each quality indicator.
Quality of care;Synthetical evaluation;Item response theory;Bayesian estimation
國(guó)家自然科學(xué)基金項(xiàng)目(81273183);教育部博士點(diǎn)基金(20132307110028)
△通信作者:劉美娜;E-mail:liumeina369@163.com
中國(guó)衛(wèi)生統(tǒng)計(jì)2015年5期