商 雪 鄧欣欣 郭康樂 周麗營 楊克虎 李秀霞
1.蘭州大學公共衛(wèi)生學院 甘肅蘭州 730000 2.甘肅省循證醫(yī)學與臨床轉化重點實驗室 甘肅蘭州 730000 3.蘭州大學基礎醫(yī)學院 甘肅蘭州 730000 4.甘肅省人民醫(yī)院 甘肅蘭州 730000
制定公共衛(wèi)生建議或政策依賴于對一系列復雜因素的判斷,包括衛(wèi)生問題的嚴重程度、特定干預的益處和危害、人力和財政資源的使用、可轉移性以及干預的可接受性和可行性。[1]公共衛(wèi)生的干預措施通常影響到廣泛的人群,可以在個人和人群層面產生重大的健康效益。[2-3]關于如何收集、綜合公共衛(wèi)生證據(jù)并將其用于決策還存在很多討論,使決策過程明確和透明,仔細審查所依據(jù)的證據(jù)類型至關重要。不同國家的公共衛(wèi)生組織制定了不同的方法來評估證據(jù)的質量[4-6],同時使用許多不同的方案可能會導致對證據(jù)質量的不同評級和相互沖突的建議,這可能會阻礙指南制定者和決策者以透明的方式做出明智決策的目標[7]。
現(xiàn)階段,大部分證據(jù)分級系統(tǒng)中均關注到了研究設計、研究的偏倚風險、研究質量和研究局限性、精確性、直接性和一致性等方面,但在具體的評定和標準設置上仍存在諸多的不適用。[8]以往系統(tǒng)中忽視了公共衛(wèi)生的背景特征,如健康分布(社會不平等指標)、健康決定因素(因果網絡)、健康對個人和社會的影響和改變健康決定因素的方法[9]、證據(jù)使用中的一系列促進和阻礙因素等??赡茈y以反映證據(jù)的真實質量,從而影響證據(jù)的轉化,缺乏對公共衛(wèi)生決策進行證據(jù)質量分級的特色理論。即使是廣泛使用的GRADE工具在公共衛(wèi)生領域應用中也存在諸多挑戰(zhàn)。例如,不同類型的觀察性研究起始證據(jù)等級低且相同,難以反映該領域真實證據(jù)質量;主觀性較大,缺乏具有明確閾值的定量評價方法等。[10]
鑒于目前我國尚缺乏適用于公共衛(wèi)生復雜環(huán)境的分級體系,且現(xiàn)有的分級體系構建較早,尚不完善,缺乏針對性,故本研究充分考慮公共衛(wèi)生領域的需求,邀請國內外專家開展德爾菲調查,基于專家共識,構建適用性、科學性、可操作強的公共衛(wèi)生決策證據(jù)質量評價體系(Evidence quality grading system for public health decison-making, PHE-Grading),以提升公共衛(wèi)生證據(jù)質量,促進政府及衛(wèi)生人員合理決策。
在方法學專家指導下,課題組通過檢索中國知網、萬方、中文科技期刊數(shù)據(jù)庫(VIP)、中國生物醫(yī)學文獻數(shù)據(jù)庫(CBM)、PubMed、WOS、Cochrane Library、 EmBase等數(shù)據(jù)庫,并參考教材、專著、指南、標準、共識、規(guī)范等,收集公共衛(wèi)生證據(jù)質量分級相關的評價條目,基于主題綜合法整理、編碼、羅列所有條目,構建備選條目池。
2.2.1 專家遴選
本研究通過網絡查詢、電話咨詢、文獻報告及行業(yè)專家推薦獲得專家信息,考慮多學科交叉和公共衛(wèi)生領域的特點,在國內外遴選出24名專家進行德爾菲函詢調查。
2.2.2 問卷指標的評價方法
按照初步構建的條目框架編制專家函詢問卷,采用Likert 5級評分法對兩輪專家選取的公共衛(wèi)生決策證據(jù)質量分級方法條目進行評價,每個條目按照重要性設置5個等級,選項為1~5分,未作答條目視為不確定。
2.2.3 專家函詢
通過電子郵件(E-mail)和短信方式向專家發(fā)放函詢問卷(問卷星)。邀請5名專家進行預函詢,結果顯示,專家函詢問卷內容效度指數(shù)(CVI)為0.848,表明該問卷具有良好的整體效度。根據(jù)專家意見調整函詢內容,最終制訂出包括17項一級條目、59項二級條目的第一輪專家函詢問卷。第二輪專家咨詢問卷在第一輪專家咨詢的基礎上根據(jù)專家意見進行修改、整理,邀請專家進行第二輪評價。專家函詢擬開展2~3輪調查,直至專家意見形成一致。[11]
2.2.4 條目篩選標準
根據(jù)指標集中程度和變異程度進行篩選。專家函詢條目中,條目篩選標準為:(1) 條目滿分率>40%;(2) 重要性均值≥4分;(3)等級和>70%;(4) 變異系數(shù)<0.25。[12]基于統(tǒng)計分析結果,若滿足以上4項標準中的3項及以上,則條目予以保留,滿足2項則在第二輪咨詢中進一步討論,若滿足1項或均不滿足則刪除。
如表1所示,本研究共遴選國內外專家24名。年齡集中在31~40歲;文化程度均為碩士和博士;專家大部分從事于多個研究領域,其中循證醫(yī)學領域專家最多(66.67%);主要來自高校/科研機構(70.83%);正高級職稱占比58.33%;工作年限在5~10年占比最高(45.83%)。大約有29.16%的專家非常熟悉證據(jù)分級系統(tǒng),其中最為熟知的為GRADE證據(jù)分級系統(tǒng);主要將證據(jù)工具應用于臨床實踐指南(表2)。
表1 專家基本信息
表2 專家對分級系統(tǒng)的熟悉程度
對24名專家發(fā)放兩輪函詢問卷,第一輪應答率為100.00%,第二輪應答率83.33%。兩輪函詢專家的意見提出率分別為75.00%和35.00%,專家的積極系數(shù)較好。兩輪函詢專家權威系數(shù)分別為0.86和0.87,專家對條目有較高的把握,咨詢結果可靠性好。
如表3所示,在第一輪函詢中,有12個條目平均分大于等于4分;滿分比大于40%的有10條;等級和 S大于70的條目有 17條,這些條目在下一輪咨詢中十分重要。第二輪函詢結果顯示(表4),每項條目賦值的算術均數(shù)為2.55~4.50,滿分率為10.00%~75.00%,等級和為51~90,各專家評價意見比較一致。
表3 第一輪關鍵條目遴選的專家咨詢結果
第一輪函詢問卷包括17項一級條目、59項二級條目分級體系,經函詢后,18名專家共提出48條意見,根據(jù)專家意見,作如下修改:(1)專家意見集中保留11項一級條目,建議刪除穩(wěn)健性、資源依賴度、利弊平衡、健康公平性及證據(jù)的阻礙和促進因素5個條目,但課題組認為這幾個條目在公共衛(wèi)生證據(jù)評價中具有意義,暫時予以保留,納入第二輪函詢中重點討論。(2)建議刪除兩項二級條目:“5.2 與PICO標準大致相符(即研究的人群、干預、比較和結局,3項一致);6.1.4 納入研究數(shù)<5篇”。(3)建議新增三項二級條目:“1.11間斷時間序列分析、回歸不連續(xù)性設計;3.3 無法合成的定性研究;4.3 單個研究、定性研究”。(4)根據(jù)專家意見,修改18項二級條目:專家提出高和低偏倚風險的評定可能會混淆“幾乎所有低,至少一個高”,故將低偏倚風險的評定調整為 “2.1 若所有的納入研究均被判定為低偏倚風險”;在效能一致性的評估中將PICO定義的異質性補充在內;專家指出精確性的衡量無法統(tǒng)一,具體數(shù)值的界定應謹慎,故對精確性的閾值設定作了相應調整;將直接性的分級合并為三類;在大中小效應中列舉了實例;在資助偏倚中融入利益聲明,在“私人機構、基金會、非政府組織贊助”部分區(qū)分了盈利與否的組織特性,及“無基金資助”的正向和負向性;在劑量—反應中補充了“不需要考慮劑量反應關系”的情況。(5) 證據(jù)的總體等級評定顯示協(xié)調程度較差(表5),專家建議需要考慮明確2/4和3/4所包括的區(qū)間,根據(jù)意見將2/4劃分在低質量等級,3/4劃分在中等質量等級。
表5 證據(jù)總體等級評定的專家咨詢結果
課題組對第一輪函詢結果進行討論,經調整后開展第二輪函詢,函詢結束后,經課題組協(xié)商,對條目體系做以下調整:(1)刪除兩項一級條目:“資源依賴度”和“利弊平衡”。(2)修改部分條目的語言表述:調整表達順序 “3.1 一致性較好(如,PICO一致,效應量的大小和方向一致,可信區(qū)間重疊度高,I2≤ 50%;3.2 一致性較差(如,PICO不一致,效應量的大小和方向不一致,置信區(qū)間無重疊;I2>50)”;將“權重最小(即精確性最低)”修改為“具有嚴重偏倚”。(3)增加兩個條目注釋:其一,“精確性的評定需要根據(jù)具體的研究問題進行評價,不同的研究界值是否相同,需結合實際情況,明確目標人群在現(xiàn)實世界中占有怎樣的比例,然后根據(jù)此類人群的占比情況設定相應的樣本量閾值,進行靈活應對和解釋?!逼涠?“評估效應量大小時應結合問題的嚴重程度,并與樣本量對照分析”。(4)證據(jù)的總體等級評定一致性較好,劃分為高、中、低和極低四個等級(表5)。
經兩輪函詢和課題組討論補充修改后,最終構建公共衛(wèi)生決策證據(jù)質量分級方法條目評價體系由15個一級條目、55個二級條目構成(表6)。綜合各部分條目的評估結果(總體評分最高計15分),最終轉化為高(>11)、中((8-11])、低((4-8])、極低(≤4)4個級別的證據(jù)強度(表7)。
表6 公共衛(wèi)生決策證據(jù)質量分級系統(tǒng)
表7 證據(jù)等級評定
隨著我國公共衛(wèi)生政策的不斷推進,證據(jù)評價體系需要不斷更新完善。目前國外已研發(fā)了一些系統(tǒng)應用于公共衛(wèi)生項目,如美國預防服務工作隊、加拿大預防保健工作隊和英國國家健康與臨床卓越研究所等,應用最為廣泛的為GRADE分級系統(tǒng)。鑒于衛(wèi)生政策、衛(wèi)生系統(tǒng)或環(huán)境衛(wèi)生干預往往比臨床、篩查干預更復雜多樣,尚沒有統(tǒng)一的標準,完全照搬GRADE應用于公共衛(wèi)生領域,往往無法很好地凸顯公共衛(wèi)生的研究特點及證據(jù)優(yōu)勢。因此,基于公共衛(wèi)生背景研制適用、可行、可及的公共衛(wèi)生證據(jù)質量評價系統(tǒng)對研究者及衛(wèi)生決策者具有理論指導和實踐雙重意義。
本研究針對公共衛(wèi)生領域證據(jù)分級工具應用存在的問題,在對公共衛(wèi)生證據(jù)質量評價體系進行系統(tǒng)評價的基礎上,從專家角度對納入的分級條目進行遴選,最終形成共識構建證據(jù)質量分級系統(tǒng)?;跈嗤<夜沧R的公共衛(wèi)生證據(jù)分級系統(tǒng)構建更為可靠、科學,有助于決策者恰當使用證據(jù),推動公共衛(wèi)生領域健康發(fā)展,擴展和豐富證據(jù)體系的應用,對未來研究的開展亦具有參考意義。
本研究主要綜合了系統(tǒng)評價和德爾菲函詢方法,進行條目篩選及體系構建。通過對公共衛(wèi)生專家進行德爾菲調查,以相關性、可靠性、適用性、有效性作為主要篩選標準,形成了公共衛(wèi)生決策證據(jù)質量分級工具,具有較好的實用性和可行性。數(shù)據(jù)分析顯示專家的積極系數(shù)較好、權威程度高、協(xié)調程度較好,條目評價意見集中、具有較好的一致性,條目體系和水平層級具有高可信度。
經過德爾菲調查后,最終構建了由15個一級條目、55個二級條目組成的公共衛(wèi)生決策證據(jù)質量分級工具。采用評分制而非升降級制,條目總分共15分,彌補了GRADE工具缺乏量化系統(tǒng)的不足。在本體系中,有9個條目與GRADE一致,但具體評分細則有所不同。
①研究設計,不作初始評級評定,而是根據(jù)不同研究類型賦予分值,可應對公共衛(wèi)生領域證據(jù)水平分布不均,RCT研究證據(jù)稀缺,不同類型的觀察性研究起始證據(jù)等級均低的問題;②研究的執(zhí)行質量,旨在評估構成證據(jù)體系的不同研究設計的研究執(zhí)行情況,以盡量減少對內部和外部有效性的威脅,根據(jù)偏倚風險的高低進行判定;③一致性,指效應估計的大小和/或方向的相似程度,主要根據(jù)效應量的大小和方向,可信區(qū)間重疊度,I2值大小協(xié)助評分;④精確性,指對研究結果效應量估計值的把握度,評定方法與GRADE標準一致,其具體閾值的界定較復雜,需根據(jù)問題的成熟度,結合實際情況,進行靈活應對和解釋。另外,本系統(tǒng)在一致性和精確性評定中考慮了單個和定性研究無法合并及量化的情況。⑤直接性,旨在評估目標問題和納入研究之間的相似性,結合PICO標準進行判斷;⑥發(fā)表偏倚,旨在評估研究結果的性質和方向導致研究成果的發(fā)表與未發(fā)表引起的偏倚,結合漏斗圖和統(tǒng)計檢驗進行評分;⑦大效應量,即當方法學嚴謹?shù)挠^察性研究顯示療效顯著或非常顯著且結果高度一致時,該條目的評估需結合問題的背景與樣本量對照分析;⑨負偏倚,指當影響觀察性研究的偏倚不是夸大,而可能是低估效果時,可提高其證據(jù)質量,基于負偏倚數(shù)量進行評分。
新增穩(wěn)健性、因果推斷重要性、資助偏倚、可推廣性、健康公平性及證據(jù)的阻礙和促進因素6個分級條目。新增條目中,證據(jù)的穩(wěn)健性十分重要,主要以敏感性分析進行判定。因果推斷重要性條目的加入為評估不同類型證據(jù)與復雜干預措施之間的關系提供了重要框架。同時,引入了資助偏倚條目,所有資金,無論來自公共或私人,政府或行業(yè)資助都有可能對研究結果產生潛在的重要影響,尤其行業(yè)資助,會進一步降低證據(jù)的可信度。另外,證據(jù)的可推廣性也被作為評估條目,用以檢驗研究結果是否普遍適用于特定研究范圍之外的其它時間、情境和人群。GRADE方法沒有考慮公共衛(wèi)生的背景特征,本系統(tǒng)將健康公平性作為評估條目考慮在內,確保公眾都能公平享有健康服務。最后,證據(jù)使用中存在的促進和阻礙因素也被作為公共衛(wèi)生決策研究領域評估的重要條目。最后,本工具以GRADE證據(jù)水平評價原則為主體,通過各條目評分的高低,分為高、中、低和極低4個等級。
本分級體系是基于GRADE衍生的一種更適用于公共衛(wèi)生決策研究領域的證據(jù)質量分級系統(tǒng),該系統(tǒng)既兼具GRADE方法的特色,又充分考慮了公共衛(wèi)生決策領域研究的特定要求,基于不同研究設計類型,引入量化系統(tǒng),重點考慮了公共衛(wèi)生領域證據(jù)評價存在的局限性,整體評價過程客觀透明、科學嚴謹,實用性和可行性強,大致需要 15分鐘(時間范圍:10~30分鐘)。因此,在公共衛(wèi)生決策領域,推薦使用該分級系統(tǒng)。
Orton的研究綜合了關于公共衛(wèi)生決策者在全民衛(wèi)生保健系統(tǒng)環(huán)境中使用研究證據(jù)的經驗證據(jù),充分描述了研究證據(jù)使用的障礙,研究發(fā)現(xiàn)不同環(huán)境下的決策過程差異很大,關鍵參與者的看法也不同。[18]Schwingshackl研發(fā)的Nutri-grade證據(jù)質量評分系統(tǒng),其只適用于營養(yǎng)領域,范圍較小。[19]Movsisyan的研究系統(tǒng)審查了衛(wèi)生和社會政策干預有效性證據(jù)質量評級系統(tǒng),確定了包括研究設計、研究執(zhí)行、一致性、精確性等在內的13個證據(jù)域,研究發(fā)現(xiàn)這些證據(jù)域的評級標準存在重大差異。[20]相比于上述研究,本研究充分考慮了上述影響因素,制定了更加全面的評價標準和分級系統(tǒng)。
作為新衍生的分級系統(tǒng),存在一定局限性,如:由于公共衛(wèi)生證據(jù)分級系統(tǒng)條目構成及方法評估的多樣性及復雜性,不同條目可能有相對重要性,且難以證明條目權重分配的科學性,目前尚未對各分級條目的評分值賦予權重,后續(xù)研究中將作進一步探索;盡管本研究引入公共衛(wèi)生領域的Meta分析進行應用評價,但其系統(tǒng)性能仍待挖掘,未來仍需繼續(xù)關注該分級系統(tǒng)在實際應用中性能的報告結果,以達到更好的推廣應用。
基于德爾菲函詢構建的公共衛(wèi)生決策證據(jù)質量分級系統(tǒng),具有一定的合理性和適用性。鑒于該系統(tǒng)初步構建,尚需進一步開展實證研究予以驗證其可執(zhí)行性和可操作性。建議更多的方法學家、學術專家、研究人員和使用者結合其它評價體系使用,以作更多的探討、優(yōu)化和評價,制定更全面的評價標準,構建更加科學可行、適用性、可操作性強的公共衛(wèi)生證據(jù)分級工具,推進公共衛(wèi)生事業(yè)不斷發(fā)展。
作者聲明本文無實際或潛在的利益沖突。