劉雨今,華雨婷,黃維肖,沈建通*
1.金華市第二醫(yī)院,浙江321200;2.湖州師范學(xué)院醫(yī)學(xué)院
近年來,國內(nèi)出現(xiàn)了大量測量工具,但對于這些工具的使用缺乏規(guī)范,導(dǎo)致工具的信效度難以得到準(zhǔn)確評估。針對這一問題,澳大利亞學(xué)者Kat Leung于2012年制定并發(fā)表了心理測驗(yàn)分級框架(the psychometric grading framework,PGF)[1],該框架基于信度和效度對各種測量工具進(jìn)行定量分級,幫助臨床決策人員選擇有效的測量工具,用于指導(dǎo)臨床實(shí)踐。與以往的工具評估方法相比,PGF直接對證據(jù)強(qiáng)度進(jìn)行分級,使得評估過程更加簡便、便利、客觀和透明,減少了評估結(jié)果的主觀性。現(xiàn)將詳細(xì)介紹PGF的結(jié)構(gòu)與分級方法,并以循證實(shí)踐問卷(the Evidence-Based Practice Questionnaire,EBPQ)[2]為例對其使用進(jìn)行分步解讀,以期促進(jìn)臨床實(shí)踐者的理解與正確使用。
目前,國內(nèi)測量工具種類繁多,但對于測量工具的使用缺乏規(guī)范,最初的工具管理中也沒有明確的定義對各項(xiàng)指標(biāo)進(jìn)行量化,缺少大樣本數(shù)據(jù)驗(yàn)證其信效度[2]。因此,急需開發(fā)或引進(jìn)更加科學(xué)、靈敏的評估工具,用于驗(yàn)證測量工具的信效度強(qiáng)度,滿足研究者的決策需要。2012年,澳大利亞學(xué)者Kat Leung制定并發(fā)表的PGF[1],基于信度和效度可對各種問卷、量表、清單、循證實(shí)踐自我報(bào)告等測量工具的測量證據(jù)強(qiáng)度進(jìn)行定量分級,針對有效性證據(jù)的強(qiáng)度進(jìn)行排序,給出整體證據(jù)使用戶可以定量地得出工具的有效性,幫助臨床決策人員選擇有效的測量工具,用于指導(dǎo)臨床實(shí)踐[4]。
以往測量工具大多數(shù)包含關(guān)于測量和使用方法的“是-否”清單,不能用于評估測量屬性的強(qiáng)度,評估結(jié)果也不直接使用分?jǐn)?shù)或信效度的等級作結(jié)論,使得評估結(jié)果無法被直接比較。PGF借鑒了GRADE和AGREE Ⅱ等分級系統(tǒng)的相關(guān)經(jīng)驗(yàn),將現(xiàn)有的最佳證據(jù)與工具強(qiáng)度的整體分級相結(jié)合,使用評分系統(tǒng)來評估證據(jù)的強(qiáng)度,將評估結(jié)果分為4個(gè)等級,直接比較和反映各種測量工具的有效性,以確定某一測量工具是否值得推薦或應(yīng)用[5],有助于臨床護(hù)理人員更科學(xué)合理地進(jìn)行決策。此外,PGF直接對證據(jù)強(qiáng)度進(jìn)行分級,在快節(jié)奏的臨床工作環(huán)境中,使得評估過程更加簡便,便利性更高,評價(jià)結(jié)果更加客觀、透明,減少了研究人員對評估結(jié)果的主觀性,更易使用。
本研究將詳細(xì)介紹PGF的結(jié)構(gòu)與分級方法,并以EBPQ[2]為例,對PGF的使用進(jìn)行分步解讀,旨在促進(jìn)臨床實(shí)踐者的理解與正確使用。
PGF包括測量水平量表(Measurement Level Scale)和證據(jù)強(qiáng)度分級量表(Evidence Strength Grading Scale)。
1)測量水平量表是一個(gè)分級矩陣[6],包含6個(gè)心理測量特性(內(nèi)部一致性、重測信度、評分者間信度、內(nèi)容效度、結(jié)構(gòu)效度、效標(biāo)效度)。心理測量特性是指用于評價(jià)研究工具信效度、最大允許誤差、測量不確定度、穩(wěn)定性、重復(fù)性、再現(xiàn)性等的評價(jià)指標(biāo)。每個(gè)測量特性都是一個(gè)獨(dú)立的模塊,包含不同的子特性,將被分配一個(gè)等級,從高到低依次分為A級、B級、C級、D級4個(gè)等級,A級代表等級的頂端,D級代表等級的底部,更高的等級代表這一測量特性更可靠。各等級層次強(qiáng)度根據(jù)國際通用的統(tǒng)計(jì)檢驗(yàn)閾值指南建議,納入相對客觀、量化的統(tǒng)計(jì)學(xué)檢驗(yàn)方法和效應(yīng)值范圍,作為評判依據(jù)[7]。2)證據(jù)強(qiáng)度分級量表采用李克特4點(diǎn)評分法將證據(jù)強(qiáng)度分為 “好”“適當(dāng)”“弱”“非常弱”4個(gè)等級[8],“好”提示證據(jù)強(qiáng)度等級為高級,是值得推薦或應(yīng)用于臨床實(shí)踐的測量工具,表明該工具有效性很好;“適當(dāng)”表示測量工具的有效性較好,可以推薦或應(yīng)用;“弱”表示測量工具的有效性一般,推薦優(yōu)先使用其他有效性更高的測量工具;“非常弱”則表示測量工具的有效性很差,不值得推薦或應(yīng)用。任何與心理測量特性相匹配的變量證據(jù)都包含在心理測量特性分級中,根據(jù)每個(gè)測量特性的質(zhì)量不僅能夠確定測量工具的信度和效度[9];將最后的等級數(shù)量及高低水平,通過組合還可以幫助研究人員確定該測量工具的總體證據(jù)強(qiáng)度,實(shí)現(xiàn)任何測量工具證據(jù)強(qiáng)度等級的可視化[10]。測量水平量表見表1,證據(jù)強(qiáng)度分級量表見表2。
表1 測量水平量表
表2 證據(jù)強(qiáng)度分級量表
PGF基于效度和信度2個(gè)維度對測量工具進(jìn)行評測,其中效度反映測量工具或手段的有效性和準(zhǔn)確性,包括內(nèi)容效度、結(jié)構(gòu)效度和效標(biāo)效度3個(gè)指標(biāo);信度反映在不同情況下進(jìn)行反復(fù)測量后結(jié)果的一致性與穩(wěn)定性,包括內(nèi)部一致性、重測信度和評分者信度3個(gè)指標(biāo)。
3.1.1 內(nèi)容效度
內(nèi)容效度反映量表中的條目是否能夠準(zhǔn)確表達(dá)希望調(diào)查的內(nèi)容,體現(xiàn)測量工具內(nèi)容的全面性與恰當(dāng)性,作為最重要的測量特征,通常作優(yōu)先評估。通過文獻(xiàn)綜述、專家委員會評議(專家小組成員要求具有心理測量學(xué)、評估和測量方面的專業(yè)知識)[20]與病人觀點(diǎn)和內(nèi)容驗(yàn)證調(diào)查確定。
3.1.2 結(jié)構(gòu)效度
結(jié)構(gòu)效度包含聚合效度和區(qū)別效度2個(gè)子特性,反映了量表的內(nèi)在結(jié)構(gòu)與預(yù)期領(lǐng)域結(jié)構(gòu)間的一致性,用來衡量研究工具與理論模型的預(yù)測值之間的相符合程度。一般需要先建立模型與理論結(jié)構(gòu)假設(shè),然后將實(shí)際測量結(jié)果進(jìn)行探索性因子分析,比較實(shí)際與理論結(jié)果的吻合程度。用于假設(shè)檢驗(yàn)的最常見統(tǒng)計(jì)檢驗(yàn)及其對應(yīng)的相關(guān)系數(shù):為方差分析(f)、t檢驗(yàn)(d)、皮爾遜相關(guān)(r)、斯皮爾曼等級順序相關(guān)(ρ)。除此之外,因子分析常用相關(guān)系數(shù)為KMO,范圍一般在0~1。KMO>0.9,提示變量間的相關(guān)性強(qiáng),非常適合作因子分析;KMO越趨近于0則提示相關(guān)性越弱,不適合作因子分析。在確定因素結(jié)構(gòu)后,還可以采用Cronbach′s α進(jìn)一步檢驗(yàn)各因素結(jié)構(gòu)效度,計(jì)算各因素間的相關(guān)性。
3.1.3 效標(biāo)效度
效標(biāo)效度包含預(yù)測效度和同時(shí)效度子特性,反映研究工具與“金標(biāo)準(zhǔn)”或現(xiàn)有的真實(shí)指標(biāo)之間的相關(guān)關(guān)系。相關(guān)系數(shù)的值越高,提示效標(biāo)效度越好。除常用的系數(shù)外,還采用AUC和似然比,用于診斷試驗(yàn)或篩查測量工具。AUC根據(jù)靈敏度與特異度繪制,在0.5~1.0范圍內(nèi),比較不同測量工具的有效性。一般AUC的值越大提示診斷價(jià)值越高,反之,AUC<0.5,提示診斷價(jià)值低或不具有判別能力。另外,似然比反映了診斷試驗(yàn)的敏感度和特異度,從而全面反映是否存在診斷價(jià)值。
3.1.4 內(nèi)部一致性
內(nèi)部一致性反映研究工具各項(xiàng)目之間的內(nèi)在相關(guān)性與一致性程度,常用指標(biāo)有折半信度、Cronbach′s α系數(shù)、KR-20。其中Cronbach′s α為最常用系數(shù),范圍一般在0~1。Cronbach′s α系數(shù)≥0.9則提示信度很好;若Cronbach′s α系數(shù)<0.7,則提示信度較差。
3.1.5 重測信度
即使用同一測量方法,對同一組被試者先后2次進(jìn)行測量,2次所得結(jié)果的相關(guān)系數(shù)稱為重測信度,反映測量工具結(jié)構(gòu)的穩(wěn)定性和一致性,不會隨著時(shí)間的推移而改變。相關(guān)性系數(shù)介于0~1,相關(guān)系數(shù)越趨近于1,提示測量標(biāo)準(zhǔn)誤差愈小,說明一致性程度越高。通常使用Kappa系數(shù)、加權(quán)Kappa系數(shù)、皮爾遜相關(guān)系數(shù)或組內(nèi)相關(guān)系數(shù)等。一般Kappa相關(guān)系數(shù)或組內(nèi)相關(guān)系數(shù)>0.7都提示重測信度好。
3.1.6 評分者間信度
指針對相同測量對象、相同測量工具,不同評估者所得評估結(jié)果之間的一致程度。常用是Kappa系數(shù),Cohen′s к適用于僅有2個(gè)評分者的情況,而Fleiss′s к和Landis′s к用于衡量2個(gè)以上評估者間的一致性,其他統(tǒng)計(jì)指標(biāo)大致與重測信度相同。
證據(jù)強(qiáng)度分級量表的評測結(jié)果中,A級和B級代表強(qiáng)測量指標(biāo),C級和D級代表弱測量指標(biāo)。A級和B級的數(shù)量對于確定測量工具證據(jù)的強(qiáng)度具有決定性作用,同時(shí)也允許最終結(jié)果指標(biāo)中沒有A級和(或)B級的情況存在,此時(shí)C級和D級的數(shù)量對強(qiáng)度分級同樣存在影響,但影響相對較小。此外,如果某一心理測量特性因包含多個(gè)子特性而獲得多個(gè)等級,那么最終等級結(jié)果將不是通過相加獲得,而是由研究人員通過四舍五入或被取平均值的方法確定。
表2中展示了多種組合形式,具體如下:若各測量特性根據(jù)表1獲得的等級指標(biāo)結(jié)果為3個(gè)或以上的強(qiáng)測量指標(biāo),而其余指標(biāo)均為弱測量指標(biāo),則該測量工具的評測等級即為“好”;若某一測量工具包含2個(gè)強(qiáng)測量指標(biāo),其余指標(biāo)均為弱,則該測量工具的評測等級即為“適當(dāng)”;若某一測量工具僅有1個(gè)強(qiáng)測量指標(biāo)(A級或B級),其余指標(biāo)均為弱測量指標(biāo)(C級或D級),說明證據(jù)強(qiáng)度等級為“弱”,提示該測量工具有效性一般,是否值得推薦則有待考量,優(yōu)先推薦其他有效性較好的測量工具;若某一測量工具的評測結(jié)果僅包含1個(gè)或多個(gè)弱性指標(biāo),說明證據(jù)強(qiáng)度“非常弱”,則提示該測量工具的有效性很差,不推薦使用或需要從其他途徑獲得更多相關(guān)證據(jù)進(jìn)行補(bǔ)充以進(jìn)一步確定該測量工具的強(qiáng)度等級。但是需要注意的是,等級結(jié)果反映測量工具的有效性程度,可用于決定某一測量工具是否值得推薦或采用,不能用于判斷一個(gè)測量工具的好壞。
開發(fā)PGF的目的是形成一個(gè)系統(tǒng)的框架,通過描述測量工具的心理測量特性,根據(jù)其綜合證據(jù)強(qiáng)度推薦最佳工具用于不同場景、不同人群的互動(dòng)過程中,或在測量工具選擇困難或不協(xié)調(diào)的情況下,為研究決策人員提供一個(gè)一致性相對較高的用于提高選擇結(jié)果效率的分級框架[23],并提供科學(xué)的決策依據(jù)。PGF的具體使用方法為提取測量工具所體現(xiàn)的所有分級證據(jù)以及質(zhì)量評估數(shù)據(jù),對工具包含的測量特性進(jìn)行定量評估[24],為每一測量特性賦予1個(gè)等級,通過組合,依據(jù)等級的高低以確定所評估對象的最終有效性。
以EBPQ[1]為例,對PGF的使用方法進(jìn)行分步解讀,使用過程將分為以下3個(gè)步驟。
第1步:閱讀相關(guān)文獻(xiàn)或清單簡便,了解評估工具的內(nèi)部結(jié)構(gòu)與統(tǒng)計(jì)學(xué)檢驗(yàn)方法,從中提取出針對該工具或影響結(jié)果的所有測量證據(jù)指標(biāo)與統(tǒng)計(jì)學(xué)依據(jù)。EBPQ共24個(gè)條目,分為3個(gè)分量表,旨在對護(hù)士的循證實(shí)踐技能、態(tài)度和知識能力進(jìn)行衡量。該工具包含的所有測量特性為內(nèi)容效度、內(nèi)部一致性、結(jié)構(gòu)效度、區(qū)別效度,因此,將從以上4個(gè)特性提取相關(guān)證據(jù)進(jìn)行證據(jù)強(qiáng)度分級,得到的所有測量特性與其對應(yīng)的測量證據(jù)指標(biāo)。內(nèi)容效度通過1個(gè)由衛(wèi)生保健專業(yè)人員組成的指導(dǎo)小組進(jìn)行審核。內(nèi)部一致性為Cronbach′s α系數(shù)為0.87,結(jié)構(gòu)效度:r或ρ值為0.3~0.4(P<0.001),區(qū)別效度:η2=0.02(P≤0.01)。
第2步:由研究人員使用表1將所得的測量指標(biāo)和統(tǒng)計(jì)學(xué)依據(jù)匹配到最接近的等級范圍(A級~D級)[6],每個(gè)證據(jù)指標(biāo)對應(yīng)1個(gè)等級。EBPQ根據(jù)測量水平量表所得的等級情況。EBPQ的內(nèi)容效度通過專家小組進(jìn)行審核,并由經(jīng)驗(yàn)豐富的與醫(yī)療相關(guān)的專業(yè)人員進(jìn)行完善,與表1對應(yīng)等級為C級。整個(gè)調(diào)查問卷的內(nèi)部一致性采用總相關(guān)性與Cronbach′s α進(jìn)行評估,Cronbach′s α范圍通常為0~1,Cronbach′s α的值越大,則提示信度越高。各分量表的內(nèi)部一致性均較好,最終得出為Cronbach′s α系數(shù)為0.87,說明量表的內(nèi)部一致性非常好,即量表的信度非常好,與表1對應(yīng)等級為B級。結(jié)構(gòu)效度使用皮爾遜相關(guān)系數(shù)(r或ρ值)進(jìn)行評估,評估確定r或ρ值為0.3~0.4(P<0.001),說明存在適度的相關(guān)性,與表1對應(yīng)等級為B級。區(qū)別效度采用獨(dú)立樣本t檢驗(yàn)來評估,得出η2=0.02,說明該問卷具有較好的區(qū)別效度。與表1對應(yīng)等級為C級。
第3步:通過以上步驟,EBPQ的測量指標(biāo)結(jié)果為C級+B級+B級+C級。區(qū)別效度獲得C級等級,但是作為結(jié)構(gòu)效度的一個(gè)子特性,通過四舍五入,與結(jié)構(gòu)效度綜合后獲得等級結(jié)果為1個(gè)B級,如表2所示,EBPQ最終獲得2個(gè)B級,通過PGF定量評價(jià)后,獲得“適當(dāng)”整體證據(jù)強(qiáng)度,說明該自我報(bào)告工具具有足夠的信度和效度。
PGF框架使用簡單的分級矩陣,將測量特性結(jié)果與證據(jù)強(qiáng)度分級相結(jié)合,根據(jù)測量特性等級的高低和數(shù)量來定義工具的強(qiáng)度,旨在識別和客觀性評價(jià)測量工具的有效性程度,以確定測量工具的易用性和潛在的可行性。以等級代替文字描述,定量的方法減少了評估者主觀判斷對結(jié)果產(chǎn)生的偏倚。就框架的適應(yīng)性而言,每一測量工具證據(jù)強(qiáng)度或方法學(xué)質(zhì)量都可用PGF進(jìn)行評價(jià),適合臨床醫(yī)學(xué)、護(hù)理學(xué)或其他衛(wèi)生學(xué)科的實(shí)踐中,也可以用來評估其他類型工具的證據(jù)強(qiáng)度,滿足研究人員篩選符合研究目的的高有效性評估工具[25]的目的。此外,PGF還適用于橫斷面研究的相關(guān)設(shè)計(jì),可以通過相關(guān)因子分析,探討某些因素之間的相關(guān)關(guān)系。但PGF不適用于評價(jià)研究方法和評估工具的研發(fā)策略。
PGF減少了對測量證據(jù)質(zhì)量和結(jié)果的主觀判斷,對測量特性的數(shù)量和強(qiáng)度沒有限制,只需同時(shí)包含兩個(gè)維度的測量特性即可,使用時(shí)考慮的因素較少。因此,無論測量特性數(shù)量多少,只需依次為每一測量特性分配A級、B級、C級、D級等級,再將評測結(jié)果進(jìn)行組合即可確定證據(jù)強(qiáng)度分級。此外,PGF還允許最終評測結(jié)果中僅包含強(qiáng)測量指標(biāo)或弱測量指標(biāo)的情況存在,此時(shí)仍能反映測量工具證據(jù)強(qiáng)度的整體分級。但是也存在測量工具僅包含信度或效度單一維度的指標(biāo)的情況,若評測等級能達(dá)到“好”,此時(shí)卻不能將該工具的等級評定為“好”,相反該工具的有效性等級可能會下降,除非研究人員繼續(xù)獲取其他維度證據(jù)進(jìn)行補(bǔ)充后再次評定以確定最終等級。在評估過程中,還需注意,應(yīng)當(dāng)優(yōu)先評估測量工具的內(nèi)容效度,若內(nèi)容效度不滿足,則不作繼續(xù)評估。
PGF系統(tǒng)全面地包含了各類工具可能存在的測量特性[26],且每一特性都由最常用的統(tǒng)計(jì)測量指標(biāo)和指南推薦的閾值準(zhǔn)則所構(gòu)成,為評估測量工具的有效性提供了更廣泛的統(tǒng)計(jì)檢驗(yàn)測量方法。PGF旨在使用定量方法對研究證據(jù)進(jìn)行測量,確定有效性證據(jù)強(qiáng)度等級,從而使研究決策人員更直觀地了解測量工具的有效性??蚣芩拿恳惶匦噪m基于國際共識,但仍可采取更嚴(yán)格的方法對各項(xiàng)指標(biāo)進(jìn)行改進(jìn)。如內(nèi)容效度的測量欠規(guī)范[25],除了定量方法少有報(bào)道,不能對方法學(xué)質(zhì)量進(jìn)行評價(jià)之外,還存在評估結(jié)果受經(jīng)驗(yàn)性與主觀性的影響較大的問題,可使用德爾菲法獲得心理測量學(xué)家和專家的集體共識與確認(rèn);或增加內(nèi)容效度指數(shù)作為評估依據(jù)[27],直觀地對內(nèi)容效度進(jìn)行檢驗(yàn),以提高評估內(nèi)容的相關(guān)性、代表性、特異度[28]。再比如,評估重測信度時(shí),2次評估的間隔時(shí)間應(yīng)控制在合理范圍,一般在2周左右,以減少回憶偏倚。再比如,進(jìn)行內(nèi)部一致性檢驗(yàn)前應(yīng)先明確量表的結(jié)構(gòu)效度,以更好的測量方法學(xué)質(zhì)量。
隨著循證理念的普及和循證實(shí)踐大環(huán)境的改變[29],研究與決策人員越來越傾向于使用真實(shí)、客觀的臨床證據(jù)做出科學(xué)合理的決策。在臨床工作中,問卷、量表、調(diào)查清單等的使用越來越普遍,使得對這類測量工具的質(zhì)量要求也越來越高,然而在面對不同的臨床實(shí)踐問題時(shí),研究決策者尚且缺乏相關(guān)質(zhì)量的評估工具以幫助判斷并選擇合適的工具用于臨床實(shí)踐。加之,面對種類繁多、功能復(fù)雜的測量工具,很難找到一個(gè)系統(tǒng)的模式對各種測量證據(jù)的質(zhì)量和強(qiáng)度進(jìn)行評估?,F(xiàn)有的證據(jù)評估工具多為隨機(jī)對照試驗(yàn)等干預(yù)性研究證據(jù)開發(fā),并不適用于量表等測量工具的質(zhì)量評估。因此,制定一個(gè)用于確定各種測量工具有效性的定量框架將非常受用。
PGF作為一個(gè)基于證據(jù)強(qiáng)度的測量工具分級框架,以等級作為結(jié)論將測量水平的結(jié)果整合成測量工具的整體評分,不僅定量確定了證據(jù)的強(qiáng)度和分級[30],還能測量研究特征與方法學(xué)質(zhì)量,減少了對證據(jù)質(zhì)量和建議強(qiáng)度的主觀判斷[31],解決了以往評定結(jié)果不統(tǒng)一、無法直接反映或比較評估結(jié)果的問題。目前,這一框架已被應(yīng)用于護(hù)理學(xué)、心理學(xué)等領(lǐng)域的測量工具分級,但仍處于探索階段,需進(jìn)一步研究與實(shí)踐。同時(shí)評估者在使用過程中可能面臨研究報(bào)告規(guī)范化問題,許多研究的測量統(tǒng)計(jì)數(shù)據(jù)不完整導(dǎo)致框架信息不足,此時(shí)可能需要從開發(fā)人員那里獲得更多關(guān)于測試統(tǒng)計(jì)數(shù)據(jù)的信息作為補(bǔ)充證據(jù),才能最終確定該測量工具的等級。
綜上所述,針對臨床測量工具缺乏統(tǒng)一評價(jià)工具的現(xiàn)狀,PGF作為一個(gè)能對各類測量工具進(jìn)行定量分級的系統(tǒng)框架,改進(jìn)評價(jià)體系的同時(shí),為研究決策人員提供了一種創(chuàng)新的思路和較為靈活易用的工具,將有潛力為未來的臨床實(shí)踐工作提供信息和證據(jù)。本研究選取一個(gè)自我報(bào)告式量表作為案例也顯示了該框架具有較為可靠的信度、效度和實(shí)用價(jià)值。