王以文 陳功勛 朱登納 史 惟
粗大運動功能量表(GMFM)是由加拿大運動醫(yī)學(xué)專家Russell于1989年使用經(jīng)典理論制定的形成性量表,用于測量腦性癱瘓(簡稱腦癱)患兒粗大運動功能及隨時間或干預(yù)而出現(xiàn)的運動功能改變,是目前腦癱患兒粗大運動評估中使用最廣泛的量表[1]。GMFM由5個能區(qū)組成:A能區(qū):臥位與翻身,B能區(qū):坐,C能區(qū):跪與爬,D能區(qū):站立,E能區(qū):行走和跑跳,每個能區(qū)包括不同項目內(nèi)容。GMFM于1989年發(fā)表時包括85項內(nèi)容,后來增加至88項,稱為GMFM-88,2000年使用項目反應(yīng)理論基于Rasch分析法對GMFM-88進(jìn)行了信度和效度分析,確立了GMFM-66新版本[2]。
患者報告結(jié)局測量工具(PROM)允許患者通過認(rèn)知與判斷直接報告自己的健康結(jié)果,在醫(yī)學(xué)研究中具有重要意義。PROM在開發(fā)及測量學(xué)屬性研究中偏倚不可避免,這影響了其臨床應(yīng)用推廣。2010年[3]由荷蘭、美國、西班牙等研究機構(gòu)的心理測量學(xué)專家提出了基于共識選擇健康測量工具的標(biāo)準(zhǔn)(COSMIN),詳細(xì)介紹了規(guī)范制定PROM系統(tǒng)評價的COSMIN方法,并在2018年實施更新[4],制定了 COSMIN偏倚風(fēng)險清單[5],以指導(dǎo)研究者與臨床實踐者選擇最合適的PROM。國內(nèi)外使用COSMIN對PROM進(jìn)行評價的文獻(xiàn)逐年增加[6,7],但目前國內(nèi)尚無對GMFM-88的系統(tǒng)評價,現(xiàn)有的GMFM-66的系統(tǒng)評價對評價過程未進(jìn)行詳細(xì)描述。本文使用COSMIN方法對GMFM-88和GMFM-66進(jìn)行系統(tǒng)評價,探討COSMIN方法對現(xiàn)場觀察性量表評估時的相關(guān)事項,同時比較GMFM-88和GMFM-66測量學(xué)屬性。
1.1 研究設(shè)計 系統(tǒng)評價。系統(tǒng)檢索和篩選GMFM-88和GMFM-66的文獻(xiàn),以COSMIN偏倚風(fēng)險清單評價GMFM-88和GMFM-66的內(nèi)容效度和其他測量學(xué)屬性,本文按系統(tǒng)綜述/Meta分析寫作規(guī)范(PRISMA)[8]撰寫。
1.2 檢索策略
1.2.1 檢索數(shù)據(jù)庫和時間 英文數(shù)據(jù)庫:MEDLINE、Embase,中文數(shù)據(jù)庫:SinoMed;建庫至2022年4月21日。
1.2.2 檢索詞 腦癱兒童,GMFM,COSMIN,量表的心理測量學(xué)屬性。采用主題詞與自由詞相結(jié)合的方式行文獻(xiàn)檢索,其中測量學(xué)屬性檢索詞參考Terwee等[9]開發(fā)的經(jīng)過驗證的高靈敏度搜索過濾器。
1.2.3 不同數(shù)據(jù)庫檢索式 檢索語言為簡體中文和英語。人工檢索納入文獻(xiàn)的參考文獻(xiàn)(包括系統(tǒng)評價/Meta分析)。中英文檢索式和檢索截屏見本文附件1(http://www.cjebp.net/CN/10.3969/j.issn.1673-5501.2022.05.003)。
1.3 文獻(xiàn)篩選方法 使用EndNote刪除了重復(fù)文獻(xiàn);由評估者王以文和陳功勛分別閱讀文獻(xiàn)題目、摘要和全文,排除:①書籍、會議論文、動物實驗和無法獲得全文的文獻(xiàn);②以GMFM-88或GMFM-66作為結(jié)局測量工具的文獻(xiàn);③GMFM-88或GMFM-66作為對照性量表驗證其他測量工具測量屬性的文獻(xiàn);④全文非中文和英文文獻(xiàn)。遇有分歧先2名評估者討論解決,不能確定與史惟討論協(xié)商解決。
1.4 數(shù)據(jù)提取 ①選擇GMFM評估工具推薦的評估類數(shù)據(jù)提取量表;②王以文提取GMFM-88數(shù)據(jù),陳功勛提取GMFM-66數(shù)據(jù),如遇困惑與史惟討論協(xié)商解決;③數(shù)據(jù)提取內(nèi)容包括:第一作者、發(fā)表年份、量表名稱、研究對象及其來源、地區(qū)、樣本量、研究對象年齡、男女比例、量表維度數(shù)與條目數(shù)、量表維度、各條目采用的評分方法、重測時間、9種量表測量學(xué)屬性、疾病特征數(shù)據(jù)(疾病人群、疾病嚴(yán)重程度或腦癱粗大運動功能分級系統(tǒng)的分級范圍)。
1.5 評價過程及GRADE證據(jù)質(zhì)量評級
1.5.1 偏倚風(fēng)險評價 使用COSMIN偏倚風(fēng)險檢查表[4]評估所納入的測量學(xué)屬性研究的方法學(xué)偏倚風(fēng)險。COSMIN偏倚風(fēng)險檢查表包括3個部分共10個框目,①量表內(nèi)容效度(框目1和2):量表開發(fā)和內(nèi)容效度;②量表內(nèi)部結(jié)構(gòu)(框目3~5):結(jié)構(gòu)效度、內(nèi)部一致性和跨文化效度;③量表其他測量學(xué)屬性(框目6~10):信度、測量誤差、校標(biāo)效度、假設(shè)檢驗和反應(yīng)度。每個框目評估1項測量學(xué)屬性,每項測量學(xué)屬性研究的偏倚風(fēng)險可以評估為非常好(V),足夠(A),模糊的(D),不適用(N),不足(I);依據(jù)每個框目中條目的最低評級確定該研究的方法學(xué)質(zhì)量[10]。如果1篇文獻(xiàn)同時評估了多個測量學(xué)屬性,將每個測量學(xué)屬性作為獨立項目單獨評估。最終評價結(jié)果由2名評估者討論決定,存在分歧時與史惟協(xié)商解決。
1.5.2 測量學(xué)屬性的質(zhì)量評價 由評估者陳功勛和王以文參照Terwee等開發(fā)的在COSMIN測量學(xué)屬性質(zhì)量標(biāo)準(zhǔn),單獨評價量表的9種測量學(xué)屬性。內(nèi)容效度的質(zhì)量評價使用“良好內(nèi)容效度的10條評價準(zhǔn)則”和“單個研究內(nèi)容效度評定指南”,評價為充分(+)、不足(-)、不一致(±)或不確定(?);其余8個測量學(xué)屬性質(zhì)量評價根據(jù)“更新的測量學(xué)屬性優(yōu)劣評價標(biāo)準(zhǔn)”,評價為充分(+)、不足(-)或不確定(?)[10]。
內(nèi)容效度質(zhì)量是PROM最重要部分,COSMIN將量表開發(fā)過程納入內(nèi)容效度總體評價,內(nèi)容效度總體評分需要綜合量表開發(fā)過程、內(nèi)容效度研究和評估者評分3方面的結(jié)果,從評估量表的相關(guān)性、全面性和可理解性開展評價[5]。
1.5.3 證據(jù)匯總和證據(jù)質(zhì)量分級 若某一測量特性在各項研究中均為充分(+)或不充分(-)或不確定(?),則此測量特性的總體評級亦為充分(+)或不充分(-)或不確定(?)。若某一測量特性在各項研究中得到的評價不一致,且造成評價不一致的原因無法解釋,則此測量特性的總體評級為不一致(±)。最終評價結(jié)果由2名評估者討論決定,或與史惟協(xié)商解決。
根據(jù)“改良的GRADE證據(jù)質(zhì)量評級”標(biāo)準(zhǔn),證據(jù)起始為高質(zhì)量,考慮偏倚風(fēng)險(研究的方法學(xué)質(zhì)量)、不一致性、不精確性及間接性進(jìn)行降級,最終證據(jù)質(zhì)量分為高、中、低和極低4 個級別。依據(jù)證據(jù)客觀評價結(jié)果形成推薦意見,并對推薦意見進(jìn)行強度標(biāo)注[10]。
2.1 文獻(xiàn)檢索和篩選結(jié)果 圖1為文獻(xiàn)納入和排除流程。初檢獲得文獻(xiàn)285篇,剔除167篇重復(fù)文獻(xiàn),通過閱讀題目和摘要排除85篇文獻(xiàn),33篇文獻(xiàn)閱讀全文篩選,刪除15篇文獻(xiàn),手工檢索納入文獻(xiàn)的參考文獻(xiàn)中2篇文獻(xiàn)符合納入標(biāo)準(zhǔn),共納入20篇文獻(xiàn),GMFM-88和GMFM-66分別有11篇和6篇文獻(xiàn),GMFM-88和GMFM-66共同納入的有2篇文獻(xiàn),1篇GMFM內(nèi)容效度文獻(xiàn)[11]。
圖1 文獻(xiàn)篩選流程及結(jié)果
2.2 GMFM-88和GMFM-66測量學(xué)屬性相關(guān)研究的基本特征 表1顯示,內(nèi)容效度以外的19篇文獻(xiàn)中,2000年前2篇,~2010年9篇,~2020年6篇,~2022年2篇;GMFM語言版本:英語6篇,漢語5篇,西班牙語3篇,韓語2篇,荷蘭語、波斯語和泰語各1篇;研究來自國家:中國5篇(其中臺灣省2篇),加拿大3篇,美國和韓國各2篇,荷蘭、西班牙、伊朗、比利時、泰國、巴西和哥倫比亞各1篇;GMFM-88應(yīng)用年齡0~20歲,樣本量39~173例,女性23.1%~54.0%,覆蓋了腦癱嚴(yán)重程度的所有級別;GMFM-66應(yīng)用年齡0~17歲,女性26.3%~70.0%,覆蓋了腦癱嚴(yán)重程度的所有級別。
2.3 內(nèi)容效度 GMFM-66開發(fā)過程評價依據(jù)GMFM-88的開發(fā)過程[1]。本文涉及GMFM開發(fā)過程的文獻(xiàn)有2項研究[1,2],檢測到關(guān)于GMFM內(nèi)容效度1項研究[11],由于GMFM-66刪減22個條目,GMFM-88已不能作為GMFM-66的內(nèi)容效度研究證據(jù),沒有文獻(xiàn)支持GMFM-66的內(nèi)容效度,只能基于量表開發(fā)過程和評估者評分開展內(nèi)容效度總體評分。
表2顯示,GMFM-88內(nèi)容效度總體評價,有中等級別,證實相關(guān)性為足夠(+)、全面性為足夠(+),低級別證據(jù),可理解性為足夠(+)。GMFM-66內(nèi)容效度總體評價,低級別證據(jù),相關(guān)性為不一致(±),可理解性為不確定(?);中等級別證據(jù),全面性為足夠(+)。
表2 內(nèi)容效度研究方法學(xué)質(zhì)量和測量學(xué)屬性評分
2.4 GMFM-88和GMFM-66除內(nèi)容效度外的測量學(xué)屬性 納入GMFM-88的13篇文獻(xiàn)中涉及了測量學(xué)屬性21項,GMFM-66的8篇文獻(xiàn)中涉及了測量學(xué)屬性20項。具體評價見本文附件2(http://www.cjebp.net/CN/10.3969/j.issn.1673-5501.2022.05.003)。
2.4.1 內(nèi)部一致性 表3顯示,GMFM-88內(nèi)部一致性3項[13,18,22]研究,樣本量分別為50、115、65例,均使用Cronbach'sα系數(shù)作為評估內(nèi)部一致性指標(biāo),方法學(xué)質(zhì)量評價非常好(V),Cronbach's α系數(shù)為0.78~0.99,測量學(xué)屬性評分為充分(+),GRADE證據(jù)級別為高。GMFM-66西班牙語版本內(nèi)部一致性1項[28],使用McDonald's ω系數(shù)研究內(nèi)部一致性。方法學(xué)質(zhì)量為非常好(V),測量學(xué)屬性評分為充分(+),GRADE證據(jù)級別為高。
2.4.2 信度 表3顯示,GMFM-88組間信度5項[1,17-19,22],組內(nèi)信度7項[1,15-17,20-22]。使用組內(nèi)相關(guān)系數(shù)(ICC),或進(jìn)一步細(xì)化為ICC2,1、ICC3,1作為評估指標(biāo)。結(jié)果顯示GMFM-88具有足夠的組間信度和組內(nèi)信度,組內(nèi)相關(guān)系數(shù)均>0.70,測量學(xué)屬性評分為充分(+),GRADE證據(jù)級別為高。
表3 其他測量學(xué)屬性的偏倚風(fēng)險、質(zhì)量評價和證據(jù)級別
GMFM-66組內(nèi)信度7項[1,20,22,24,26-28],組間信度5項[20,22,24,26,27],采用ICC,結(jié)果顯示具有足夠的組間信度和組內(nèi)信度,組內(nèi)相關(guān)系數(shù)均>0.70,測量學(xué)屬性評分為充分(+),GRADE證據(jù)級別為高。
2.4.3 結(jié)構(gòu)效度 表3顯示,1項[23]重新構(gòu)建GMFM-66的Rash分析結(jié)果顯示,<5%的剩余項目內(nèi)聚擬合度值>3.0,表明具有良好單維性,驗證了結(jié)構(gòu)效度,研究方法學(xué)質(zhì)量評估為非常好(V),測量學(xué)屬性評分為充分(+),GRADE證據(jù)級別為高。
2.4.4 測量誤差 表3顯示,GMFM-88測量誤差2項[15,17],文獻(xiàn)[15](n=60)方法學(xué)質(zhì)量為足夠(A),測量誤差結(jié)果顯示標(biāo)準(zhǔn)測量誤差 (SEM)=1.60,最小的實際差別(SRD)=3.14。文獻(xiàn)[17](n=51)方法學(xué)質(zhì)量非常好(V),SEM=1.60,SRD=3.14,由于2項結(jié)果均無最小可測重要變化(MIC)數(shù)據(jù),無法與MIC比較,因此測量學(xué)屬性評估為不確定(?),GRADE證據(jù)級別為高。
2.4.5 效標(biāo)效度 表3顯示,1項[19]將GMFM-88評分和神經(jīng)肌肉系統(tǒng)缺陷程度分類和美國腦癱學(xué)會障礙分級與治療性分級進(jìn)行相關(guān)性研究,本文視其為效標(biāo)效度研究,因其不是與公認(rèn)的金標(biāo)準(zhǔn)進(jìn)行比較,方法學(xué)質(zhì)量為模糊(D)。相關(guān)性范圍0.67~0.75,測量學(xué)屬性評分為不確定(?)。偏倚風(fēng)險降2級,樣本量<50,精確性降2級,GRADE證據(jù)級別為極低。
2.4.6 假設(shè)檢驗 表3顯示,假設(shè)檢驗屬性包括平行效度和區(qū)分效度假設(shè)檢驗,1項[13]GMFM-88平行效度假設(shè)檢驗的研究,在115例腦癱人群中分析了GMFM-88與兒童殘疾評定表(PEDI)、兒科結(jié)局?jǐn)?shù)據(jù)收集工具(PODCI)、兒童健康問卷(CHQ)3種評估量表中的運動能區(qū)分值的Spearman’s相關(guān)性,結(jié)果顯示GMFM-88與PEDI(r=0.91)、PODCI(r=0.88)、CHQ/ITHQ(r=0.74)的運動能區(qū)分值高度相關(guān),以此評價GMFM-88的平行效度屬性研究,方法學(xué)質(zhì)量非常好(V),評分為充分(+),GRADE證據(jù)級別為高。
GMFM-88的區(qū)分效度2項[13,19],文獻(xiàn)[13]比較了GMFM-88在偏癱型腦癱、痙攣型雙癱和痙攣型四肢癱分?jǐn)?shù)差異有統(tǒng)計學(xué)意義,文獻(xiàn)[19]比較了腦癱人群和正常兒童GMFM-88分?jǐn)?shù)差異有統(tǒng)計學(xué)意義。2項區(qū)分效度研究方法學(xué)質(zhì)量評價均為不足(I),評分為充分(+),GRADE證據(jù)級別為極低。
GMFM-66平行效度假設(shè)檢驗1項[25],在115例腦癱患兒中驗證GMFM-66和PEDI的運動能區(qū)的 Pearson's相關(guān)性系數(shù)(0.83~0.90)。方法學(xué)質(zhì)量評估為非常好(V),測量學(xué)屬性評分為充分(+),GRADE證據(jù)級別為高。
GMFM-66區(qū)分效度檢驗1項[2],比較了GMFM-66在偏癱型、痙攣型雙癱和痙攣型四肢癱分?jǐn)?shù)差異有統(tǒng)計學(xué)意義。區(qū)分效度研究方法學(xué)質(zhì)量為不足(I),評分為充分(+),GRADE證據(jù)級別為低。
2.4.7 反應(yīng)度 9項GMFM-88反應(yīng)度相關(guān)研究。表3顯示,3項研究進(jìn)行了有關(guān)效標(biāo)的反應(yīng)度評價。其中1項[1]研究將治療師及家屬對患兒變化評分作為效標(biāo)與GMFM-88分?jǐn)?shù)變化進(jìn)行相關(guān)性研究,相關(guān)性為0.50~0.82,與假設(shè)檢驗相符,評分為充分(+),偏倚風(fēng)險評為模糊(D);1項研究[14]顯示家屬對患兒變化評分與GMFM-88改變分?jǐn)?shù)間的Spearman’s相關(guān)系數(shù)為0.50,偏倚風(fēng)險評為模糊(D),評分為充分(+);1項研究[22]使用治療師評估患兒變化程度作為效標(biāo),受試者工作曲線(ROC)下面積方法評估效標(biāo)反應(yīng)度,AUC=0.784,評分為充分(+),偏倚風(fēng)險評為模糊(D)。故效標(biāo)反應(yīng)度評分為充分(+),證據(jù)級別為中等。
表3顯示,平行效度的反應(yīng)度2項。1項[16]為韓國版GMFM-88和粗大運動治療評估(GMPM)數(shù)值變化有較高相關(guān)性(r=0.762~0.884 ),方法學(xué)質(zhì)量均非常好(V),評分為充分(+)。1項[20]通過效應(yīng)尺度(ES)的方法,發(fā)現(xiàn)GMFM-88和GMFM-66有相近的反應(yīng)度評分為充分(+),但方法學(xué)質(zhì)量評為模糊(D)。故GMFM-88平行效度的反應(yīng)度,評分為充分(+),偏倚風(fēng)險不降級,GRADE證據(jù)級別為高。
表3顯示,區(qū)分效度反應(yīng)度4項[1,12,14,15],分別進(jìn)行了不同年齡、不同嚴(yán)重程度和不同分型、腦癱與正常人群、腦癱及腦損傷急性期人群GMFM-88變化值的比較,結(jié)果顯示方法學(xué)質(zhì)量為模糊(D)或不足(I),評分為充分(+),GRADE證據(jù)級別為低。
GMFM-66的反應(yīng)度4項[2,20,22,24],其中對不同嚴(yán)重程度和年齡亞組的GMFM-66分?jǐn)?shù)變化值1項[2],其方法學(xué)質(zhì)量評估為不足(I),評分為充分(+)。通過 ES的方法GMFM-66平行反應(yīng)度2項[20,24],其方法學(xué)質(zhì)量評為模糊(D),評分為充分(+)。使用治療師評估患兒變化程度作為效標(biāo)1項[22],ROC下面積方法評估效標(biāo)反應(yīng)度,方法學(xué)質(zhì)量評為模糊(D),評分為充分(+)。改良GRADE證據(jù)級別為低。
內(nèi)容效度是量表最重要的測量學(xué)屬性[5],內(nèi)容效度總體評價包括量表開發(fā)階段、內(nèi)容效度研究和評價者評分。本系統(tǒng)綜述只檢索到史惟基于ICF-CY的腦癱GMFM-88的內(nèi)容效度分析[11],沒有檢索到GMFM-66內(nèi)容效度的研究,GMFM-88的內(nèi)容效度闡述了GMFM-88評估內(nèi)容與ICF-CY量表的對應(yīng)關(guān)系。而GMFM-88和GMFM-66擁有共同的量表開發(fā)階段,雖然量表開發(fā)者在GMFM開發(fā)階段[1]表述了其主要評估臥位與翻身、坐、跪與爬、站立、行走和跑跳等5個領(lǐng)域,本研究認(rèn)為對粗大運動構(gòu)念描述還是不夠清晰,故偏倚風(fēng)險評估為不足(I),GMFM-88的內(nèi)容效度相關(guān)性證據(jù)為中等,GMFM-66內(nèi)容效度相關(guān)性證據(jù)級別為低。觀察性量表與PROM在評價可理解性上有所不同,因為PROM可理解性評估的對象多為受試者本人,而觀察性量表可理解性對象為測試者。GMFM-88和GMFM-66使用者手冊描述顯示有多名治療師參加過多次小組會議[31],對項目和格式問題提供了反饋性意見,效度研究后對13名治療師進(jìn)行了問卷調(diào)查,治療師對GMFM的內(nèi)容和4分的評分制均感到滿意。但因GMFM開發(fā)年代久遠(yuǎn),對量表開發(fā)過程描述不清,尤其是可理解性方面,由此本研究把偏倚風(fēng)險評為模糊(D),而且沒有有關(guān)可理解性的內(nèi)容效度研究,故GMFM-88和GMFM-66可理解性證據(jù)等級為低。
2003年Russell等[23]重新構(gòu)建GMFM-66的Rash分析已經(jīng)驗證其為單維性量表,這與Marina[30]進(jìn)行的系統(tǒng)評價結(jié)果一致,而未檢索到GMFM-88結(jié)構(gòu)效度相關(guān)文獻(xiàn)。文獻(xiàn)[28](2022年)的內(nèi)部一致性研究對量表的5個部分分別評價,卻未對整個量表進(jìn)行評價,存在一定不合理性。相比之下,GMFM-88做了多個內(nèi)部一致性評估,結(jié)果提示有較高的內(nèi)部一致性。GMFM-88 GMFM-66均有較高證據(jù)級別的組間信度和組內(nèi)信度,這也與既往系統(tǒng)評價結(jié)果一致[29,30]。
效標(biāo)效度和效標(biāo)反應(yīng)度都需要與金標(biāo)準(zhǔn)對比,但粗大運動功能評估沒有真正意義的金標(biāo)準(zhǔn),而且GMFM-66并不屬于GMFM-88的短縮版,也不屬于嚴(yán)格意義上的金標(biāo)準(zhǔn)。Russell等將父母或治療師評估患兒的變化作為金標(biāo)準(zhǔn)[1],GMFM-88有1項類似的效標(biāo)效度研究[19],3項效標(biāo)反應(yīng)度研究[1,14,22]雖然評估為充分(+),仍由于方法學(xué)質(zhì)量的缺憾被降為模糊(D)。Wang等[22]在2006年的反應(yīng)度研究中,使用治療師評估作為評價功能改善的結(jié)局標(biāo)準(zhǔn),應(yīng)用ROC曲線下面積研究反應(yīng)度,顯示GMFM-66較GMFM-88有更好的校標(biāo)反應(yīng)度,這與史惟使用效應(yīng)尺度為指標(biāo)比較2個反應(yīng)度結(jié)果類似[20],因為未使用COSMIN推薦的更佳方法,方法學(xué)質(zhì)量評估為模糊(D),評分為充分(+),證據(jù)質(zhì)量等級為中等,這與既往系統(tǒng)評價結(jié)果一致[31]。
根據(jù)各種測量學(xué)屬性的定義,反應(yīng)度與假設(shè)檢驗的屬性區(qū)別在于反應(yīng)度是多次測量分?jǐn)?shù)變化值之間的比較,但如果作者既比較了首次測量數(shù)值間的區(qū)別又進(jìn)行了改變分值間的比較,就等同于同時完成了假設(shè)檢驗和反應(yīng)度的評價[19]。根據(jù)COSMIN 偏倚風(fēng)險清單使用者手冊,假設(shè)檢驗的平行效度研究旨在驗證兩種評估工具的相關(guān)性方向和幅度是否與預(yù)測一致,兩個量表的相關(guān)性可以作為平行效度檢驗的良好方法,但不應(yīng)當(dāng)使用P值來表達(dá)相關(guān)程度,比如t檢驗的P值和單因素方法分析的P值作為平行效度檢驗的方法[3],因為通過P值無法判定相關(guān)性系數(shù)與0相差多少,為此本研究將使用P值來表達(dá)平行效度結(jié)果的文獻(xiàn)的方法學(xué)質(zhì)量評為不足(I)。本系統(tǒng)評價納入GMFM-88和GMFM-66文獻(xiàn)中平行效度多采用相關(guān)性為判斷指標(biāo),所以平行效度和平行效度反應(yīng)度研究質(zhì)量較好,證據(jù)級別較高。假設(shè)檢驗的區(qū)分效度也存在同樣問題,建議使用結(jié)果相關(guān)性是否和預(yù)期一致作為評估結(jié)果,不建議使用不同組結(jié)果差異是否有統(tǒng)計學(xué)意義(其中取決于樣本量),所以Melissa等[13]使用單因素方差分析、重復(fù)方差分析等以P值是否存在顯著差異的偏倚風(fēng)險評為不足(I)。ES和SRM(Standardised Response Mean)并沒有被COSMIN推薦為評價反應(yīng)度的合理指標(biāo),但由于ES和SRM長期以來一直作為反應(yīng)度的傳統(tǒng)評價指標(biāo),既往發(fā)表了眾多文章將ES作為反應(yīng)度指標(biāo),因此不建議立即將其拋棄[31],本系統(tǒng)評價將以ES為反應(yīng)度指標(biāo)的文獻(xiàn)[14,20]質(zhì)量評價為模糊(D)。因此GMFM-88和GMFM-66區(qū)分效度及區(qū)分效度反應(yīng)度證據(jù)級別為低或極低證據(jù)等級。
本文不足與局限:本文使用中英文作為檢索語言,會遺漏其他語種測量學(xué)屬性研究,如Ferre-Fernández等在2021年用以西班牙語發(fā)表了一篇關(guān)于GMFM的跨文化效度研究[31],因語言原因未納入本研究,導(dǎo)致針對跨文化效度測量學(xué)屬性的COSMIN評價缺失。由于能力評估類量表使用者是評估者本人,不需要患者或照看者理解量表條目,使用COSMIN對此類量表進(jìn)行系統(tǒng)評價可能低估量表可理解性證據(jù)質(zhì)量等級。
本研究嘗試使用COSMIN方法對GMFM-88和GMFM-66的測量學(xué)屬性進(jìn)行系統(tǒng)評價,顯示GMFM-88比GMFM-66內(nèi)容效度證據(jù)等級高,二者均有較高證據(jù)的信度研究。GMFM-88在內(nèi)部一致性、測量誤差方面比GMFM-66有更多證據(jù)支持,GMFM-88缺乏結(jié)構(gòu)效度研究。GMFM-88和GMFM-66均有高證據(jù)的平行效度和平行效度反應(yīng)度,低質(zhì)量證據(jù)級別或極低質(zhì)量證據(jù)級別的區(qū)分效度和區(qū)分效度反應(yīng)度,GMFM-66比GMFM-88有更高的效標(biāo)反應(yīng)度。本研究為使用COSMIN方法評價現(xiàn)場評估類量表積累經(jīng)驗,研究顯示雖然COSMIN方法并非針對現(xiàn)場評估類量表而開發(fā),但仍可作為一種現(xiàn)場評估類量表測量學(xué)屬性評價方法。