山西醫(yī)科大學衛(wèi)生統(tǒng)計教研室(030001) 魏曉媛 楊 潔 羅艷虹 李 治 張巖波
腦卒中PRO量表的信度效度分析*
山西醫(yī)科大學衛(wèi)生統(tǒng)計教研室(030001) 魏曉媛 楊 潔 羅艷虹 李 治 張巖波△
目的考察自行研制的用于臨床療效評價和新藥臨床試驗的腦卒中患者報告的臨床結局(PRO)評價量表的科學性。方法采用腦卒中PRO量表對595例樣本(485例腦卒中患者、110例“健康人”)進行自評量表式調查,對量表進行信度、效度和可行性的考核,并針對性別可能產(chǎn)生的量表選填差異進行項目功能差異分析。結果總量表的克朗巴赫系數(shù)為0.905。結構效度結果顯示量表多維度的測量滿足專業(yè)上的預期構想。項目功能差異(DIF)結果提示,僅PHD9和PSD3兩個條目存在跨性別DIF。抽樣調查腦卒中患者,量表回收率為99.2%,有效率為98.8%,平均作答時間為8.9分鐘。結論本課題研制的腦卒中PRO量表具有較好的信度、效度、公平性和可行性。
腦卒中 PRO量表 信度 效度 項目功能差異
隨著醫(yī)學模式的轉變和醫(yī)療技術的發(fā)展,人們對健康的要求逐漸提高,更加注重疾病后的生活質量?,F(xiàn)代臨床療效評價體系主要依靠醫(yī)療器械檢測患者的生理或生化指標,但是憑借醫(yī)療器械所提供的信息不能完全支持醫(yī)師所采用的治療方法和醫(yī)療措施,也不能完全反映患者疾病癥狀發(fā)生的轉變以及治療的效果。國際藥物經(jīng)濟與療效研究協(xié)會、歐洲生存質量評估協(xié)調處、美國食品及藥物管理局(FDA)與健康相關生存質量工作組(HRQOL)以及國際生存質量研究協(xié)會共同組成的統(tǒng)籌委員會提出:臨床療效評價應包括臨床醫(yī)護人員報告資料、生理報告資料、照顧者報告資料和患者報告資料[1]。患者報告結局(patient-reported outcomes,PRO)是一個直接來自于病人(沒有醫(yī)生或其他任何人對于病人反應的解釋)對自己健康狀況的報告,這個結局能以絕對值來測量(例如癥狀的嚴重程度,征兆或疾病狀態(tài))或看作以前測量的變化[2]。它常以自評量表的形式出現(xiàn),往往比臨床醫(yī)生訪談或打分等方法更可取,獲得的PRO數(shù)據(jù)比醫(yī)生報告的臨床測量更可靠,對臨床治療實踐具有十分重要的意義。本研究按照國際PRO量表的研制規(guī)范編制腦卒中PRO量表,主要對自編PRO量表的信度、效度、項目功能差異和可行性進行檢驗。
1.對象
現(xiàn)場調查在不同等級的醫(yī)院、社區(qū)以及農(nóng)村地區(qū)完成,調查地點包括山西醫(yī)科大學附屬第一醫(yī)院、山西醫(yī)科大學附屬第二醫(yī)院、山西省人民醫(yī)院、太化醫(yī)院、太原萬柏林區(qū)下元社區(qū)衛(wèi)生服務中心、臨汾市人民醫(yī)院、呂梁柳林、興縣和交口鎮(zhèn)。調查對象選取了485例患者、110例“健康人”。其中,腦卒中患者的納入標準為:符合腦血管病診斷標準;頭顱CT或MRI證實為腦梗死、腦出血或蛛網(wǎng)膜下腔出血;或者病情不允許或無條件做特殊檢查,但根據(jù)臨床表現(xiàn)可以確定為腦卒中者;2012年9月初至2013年1月底到醫(yī)院就診或農(nóng)村地區(qū)現(xiàn)患病的患者;愿意接受調查者。排除標準為:病情不符合上述條件者;由于語言、智力障礙等多種原因導致不能理解或不能完成問卷的患者;不愿參加調查研究的患者?!敖】等恕敝傅氖俏椿寄X血管疾病、惡性腫瘤以及精神疾病,年齡與腦卒中患者相仿,志愿加入本課題調查研究的患者。
2.方法
(1)腦卒中PRO理論框架
采用腦卒中患者PRO量表進行調查,量表包含46個條目、10個維度、4個領域,條目均采用Likert五級評分法。腦卒中PRO理論框架見表1。
表1 Stroke-PRO量表框架結構
(2)量表評價
①信度分析
對于多級計分的腦卒中患者PRO量表,適宜采用克朗巴赫α系數(shù)評價,它是目前最常用的信度系數(shù),一般認為克朗巴赫α系數(shù)應該達到0.7以上。
②效度分析
內容效度 采用內容效度指數(shù)評價腦卒中患者PRO量表的內容效度。專家和患者對量表條目與框架結構設定的維度范圍的吻合程度進行打分,設置四個等級評分:不相關,弱相關,較強相關,非常相關,分別計為1~4分,當?shù)梅譃?或4時,認為條目與所屬維度相關。內容效度指數(shù)(scale-level,S-CVI)指所有專家均評為3或4分的條目數(shù)占全部條目的百分比。
結構效度 采用驗證性因子分析(CFA)的方法構建指示條目與所屬維度之間的測量模型,即觀測變量和潛變量之間的測量模型。CFA采用統(tǒng)計軟件LISREL8.70分析。模型擬合效果采用多種指標進行綜合評價。
區(qū)分度分析 區(qū)分度可以考察量表是否能區(qū)分同一群體某指標隨時間變化的能力,以及區(qū)分不同人群某測定指標間是否有差別。本文采用t檢驗分析量表對患者和對照組的區(qū)分能力。
③項目功能差異分析
項目功能差異(differential item functioning,DIF)指將群體能力控制之后,一個項目(條目)在不同群體中表現(xiàn)出不同的統(tǒng)計特性[3]。本研究采用均數(shù)與協(xié)方差結構(mean and covariance structure,MACS)模型從性別的角度進行DIF分析,檢測量表各條目是否存在男性和女性間的差異。
④可行性分析
可行性主要反映調查表的可接受程度。常用的指標包括:①回收率,指調查表實際發(fā)放數(shù)中回收的百分數(shù),一般要求達到85%以上。②有效率,指回收調查表中合格的百分數(shù),通常也要求在85%以上。③每份量表完成時間,一般控制在半小時以內,過長不利于調查實施。
3.統(tǒng)計學處理
采用SPSS13.0和LISREL8.70進行統(tǒng)計分析。
1.信度分析
量表的4個領域PHD、PSD、SOD和THA的克朗巴赫系數(shù)分別為:0.888、0.908、0.879、0.861和0.905,提示量表的信度高。
2.效度分析
(1)內容效度
在前期量表編制過程中找專家和患者對量表條目與相應內容維度的關聯(lián)性做出判斷,將評為不相關和弱相關的條目全部剔除,經(jīng)計算腦卒中PRO量表的SCVI為1,滿足Davis[4]對于S-CVI不應低于0.8的建議,結果提示量表的內容效度良好。
(2)結構效度
模型分析結果見表2和3。擬合指數(shù)基本滿足判斷標準的要求,可以認為模型較好地擬合了數(shù)據(jù),量表維度滿足專業(yè)上的預想結構。
表2 腦卒中患者PRO量表擬合優(yōu)度統(tǒng)計量
(3)區(qū)分度分析
大部分對照組的受試對象現(xiàn)階段未接受醫(yī)院治療,故不作治療領域的比較。除治療領域外的其他各個維度結果顯示,病例組和對照組在各維度的平均得分差別均有統(tǒng)計學意義(表4),腦卒中患者PRO量表可以區(qū)分不同生存質量的人群。
3.項目功能差異分析
由于MACS模型只能對單維多級記分項目的一致性和非一致性DIF進行分析,因此本文對量表的10個維度逐個進行了DIF檢測。
考察修正指數(shù)發(fā)現(xiàn),認知能力維度(COG)與項目截距相關聯(lián)的最大修正指數(shù)MI=7.250(PHD9),P<0.05/4,去除項目PHD9截距等同限制,與截距相關的最大MI=0.355,P>0.05/3;與因素負荷相關聯(lián)的最大MI=3.222,P>0.05/3。焦慮維度(ANX)與項目截距相關聯(lián)的最大MI=9.372(PSD3),P<0.05/5,去除PSD3截距等同限制,與項目截距關聯(lián)的最大MI=1.335,P>0.05/4,與因素負荷關聯(lián)的最大MI=2.361,P>0.05/4;與因素負荷相關聯(lián)的最大MI=2.603,P>0.05/4。認知能力維度(COG)和焦慮維度(ANX)完全限制模型和部分限制模型嵌套所對應的P<0.05(表5),差異有統(tǒng)計學意義,證實條目PHD9和PSD3存在性別DIF。其余各維度的條目均不存在性別DIF。
表3 腦卒中患者PRO量表驗證性因子結果摘要表
表4 病例組與對照組比較的t檢驗
4.可行性分析
(1)回收率
該課題臨床調查共發(fā)放問卷595份(患者485份,“健康人”110份),回收問卷588份(患者481份,“健康人”107份),回收率為98.8%(患者99.2%,“健康人”97.3%)。
(2)有效率
在回收的量表中,患者完成的有效問卷為475份,“健康人”為104份,有效率分別為98.8%和97.2%。
(3)作答時間
本研究調查475名患者中,記錄了50名患者的作答時間,平均時間為8.9min,76%的患者可以在10min內作答完畢。
考察量表的科學性、標準化及應用性程度,除了通過檢測量表的研制過程是否遵循科學嚴謹?shù)臏y量學方法,還需考察其信度和效度是否滿足了必要的標準。量表評價的結果顯示,信度、效度和可行性指標都滿足要求,腦卒中PRO量表可為臨床結局的解釋和治療決策的制定提供依據(jù)。
量表條目甄選的方法層出不窮,以往的研究多沿用經(jīng)典測量理論,項目反應理論在國內鮮有用于量表的編制過程。此研究在量表編制過程中采用了現(xiàn)代測量理論IRT(Item Response Theory)來篩選條目。IRT具有廣泛的應用,此課題注重其可以用信息函數(shù)描述一個條目測量的有效性[5],從而對量表條目的編制和修改提出意見。
對于量表考核,許多研究者過多地重視和強調量表的結構效度,而忽視了條目內容在量表中扮演的重要角色[6]。本研究在量表的編制和評價過程中,內容效度指數(shù)發(fā)揮了不容忽視的作用,將“以患者為中心”的理念落到實處,考核結構效度的同時引入可直接測量的內容效度,確保量表實施前的質量。
DIF的存在并不能說明整個量表的檢測都有偏差,但可能量表總分會對潛在的內部結構做出偏向的估計。為了提高量表的效度,實際調查應用時建議將存在DIF的條目PHD9與PSD3刪除。
表5 腦卒中患者PRO量表跨性別DIF分析嵌套模型結果(只顯示有差異的項目)
項目功能差異是心理和教育測量領域的研究熱點[7],在之前的研究中,DIF大多用于檢測全國考試的公平性和有效性,本課題將其引入到醫(yī)學臨床量表的制作過程中,擴寬了DIF的應用范圍。同時DIF對量表的效度有重要的影響,此舉也提高了自制量表的質量,為量表條目的甄選和內容的考核提供了新方法。
本課題的不足之處在于量表的信度考核并未采用常用的重測信度。在實際流調過程中,受試者僅在短暫的急性發(fā)病期住院,流動性大,社區(qū)和農(nóng)村的患者不易跟蹤隨訪,再加上調查的部分地點路程較遠,也不宜長期遠道隨訪,故重測信度值缺漏。在量表的制定過程中,重測信度是量表信度考核的關鍵指標,如果條件允許,采用它可以增強量表信度的說服力。
效度考核時亦沒有使用效標效度進行衡量。沒有將公認有效的量表作為校標,檢測新量表與效標量表測定結果的一致性。考慮到本次調查樣本含量大,患者多屬病重或年老患者,目前公認大范圍使用的量表有腦卒中生活質量專用量表(SS-QOL)和腦卒中影響量表(SIS)等,加上本課題研制的量表,同一患者填寫任務繁重,很可能會產(chǎn)生不依從的現(xiàn)象,并降低研究量表的質量,因此并未使用,造成本課題缺憾。
1.劉鳳斌.中醫(yī)臨床療效評價量表實施設想.中國中醫(yī)藥報,2003,3:17.
2.US Department of Health and Human Services,F(xiàn)DA,Center for Drug Evaluation and Research,Center for Biologics Evaluation and Research,Center for Devices and Radiological Health.Guidance for Industry Patient-Reported Outcome Measures:Use in Medical Product Development to Support Labeling Claims.Health and Quality of Life Outcomes,2006,4(1):1-20.
3.Angoff WH.Perspectives on Differential Item Functioning methodology.Lawrence Erlbaum Associates,1993:3-23.
4.Davis LL.Instrument review:Getting the most from your panel of experts.Appl Nurs Res,1992,5(4):194-197.
5.韓耀風,郝元濤,方積乾.項目反應理論及其在生存質量研究中的應用.中國衛(wèi)生統(tǒng)計,2006,12(23):564.
6.史靜琤,莫顯昆,孫振球.量表編制中內容效度指數(shù)的應用.中南大學學報,2012,27(2):152-155.
7.朱乙藝,韋小滿.DIF值和樣本量對SIBTEST檢測方法的影響研究.中國考試,2012,9:9-14.
(責任編輯:丁海龍)
Evaluation of Patient-reported Outcomes Scale for Stroke
Wei Xiaoyuan,Yang Jie,Luo Yanhong,et al.(Department of Health Statistics,Shanxi Medical University(030001),Taiyuan)
ObjectiveTo investigate the performance and function of patient-reported outcomes instrument for stroke(Stroke-PRO),which maybe used to evaluate the efficacy of anti-asthma drugs in clinical trials and clinical practice.Methods485 stroke patients and 110 healthy subjects were face-to-face interviewed by well-trained investigators.Check the reliability,validity,and feasibility of the scale,and analyze the possible differential item functioning caused by gender.ResultsReliability is verified by Cronbach’s α coefficient with 0.905 of total scale.Structural validity result shows that the multi dimensional measurement of the scale fulfilled the expectation.DIF showed that only PHD9 and PSD3 have cross gender DIF.Among the sample survey of the stroke patients,the scale copy acceptance rate is 99.2%,completion rate is 98.8%,and the average filling time is 8.9 minutes.ConclusionThe stroke patient PRO scale has good reliability,validity,fairness,and feasibility,thus can be considered as the clinical treatment evaluation instrument for stroke patients.
Stroke;Patient-reported outcome(PRO);Reliability;Validity;Differential item functioning(DIF)
*國家自然科學基金資助項目(81273180)
△通信作者:張巖波,E-mail:sxmuzyb@126.com