王棟梅,朱玲,靳英輝,黃橋,李緒輝,張蓉,4,李龍倜
隨著醫(yī)療的規(guī)范化和決策的科學化,臨床實踐指南(以下簡稱“指南”)和專家共識在醫(yī)學實踐中的作用和意義日益重要。高質(zhì)量的指南和專家共識作為臨床實踐的指導性文件,能夠有效規(guī)范醫(yī)務人員的診療行為、提高醫(yī)療服務質(zhì)量和降低醫(yī)療成本[1,2]。專家共識在當前醫(yī)療規(guī)范性文件的制訂中仍占較大比重。與指南相比,專家共識則缺乏統(tǒng)一的定義[3],不同的國際指南制訂組織對專家共識的定義不同。大多數(shù)國際組織更傾向于將其定義為一種達成決策或建議的過程或方法,如世界衛(wèi)生組織(WHO)把專家共識定義為理想情況下達成決策的一種方法[4],歐洲健康委員會(EHC)將專家共識定義為在缺乏直接證據(jù)的情況下,專家組制訂醫(yī)療和衛(wèi)生決策時的一種方法[5],蘇格蘭校際指南協(xié)作網(wǎng)(SIGN)將專家共識定義為指南制訂小組形成推薦意見的正式方法[6]。僅美國耳鼻咽喉頭頸外科基金會(AAOHNSF)在制訂臨床共識聲明手冊時給出了明確定義,將其定義為反映了由專家起草的意見,通過明確的方法尋求共識,以便于在產(chǎn)生分歧的領域達成一致意見[7],與此同時,其制訂手冊還詳細羅列了臨床實踐指南與專家共識的異同點。
目前,普遍認為專家共識是由行業(yè)學會和協(xié)會牽頭制訂,也可由某個領域具有一定影響力的專家構(gòu)成專家組,基于證據(jù)和最新知識通過規(guī)范的共識方法(如德爾菲法)達成的在某一特定醫(yī)學領域的推薦意見,一般不進行推薦分級,僅給出指導性建議[8]。其過程為:首先成立制訂小組,小組成員由指南關(guān)注疾病的行業(yè)內(nèi)專家組成,專家的選擇兼顧地域性。召開由全體專家參與的討論會,由與會專家對于所關(guān)注疾病的各方面臨床問題展開充分討論,在討論的基礎上,一定程度考慮當前的臨床研究和現(xiàn)有證據(jù)。再通過規(guī)范的共識達成方法(如德爾菲法)形成推薦意見。在中國,普遍流行的觀點是醫(yī)學領域的專家共識是一種質(zhì)量和影響力低于指南的行業(yè)指導文件,指南要比專家共識具有更好的科學性、透明性和可靠性[3,8]。近年來,國內(nèi)專家共識的發(fā)表數(shù)量快速增加,為探究國內(nèi)專家共識的一般特征及方法學質(zhì)量,本研究通過系統(tǒng)檢索及分類總結(jié)了2010~2020年的專家共識,以了解其在國內(nèi)的發(fā)展現(xiàn)狀,為其制訂者及使用者提供參考。
1.1 納入專家共識的獲取途徑
1.1.1 檢索策略由2名研究者系統(tǒng)檢索中國期刊全文數(shù)據(jù)庫(CNKI)和萬方數(shù)據(jù)庫(WanFang Database),以“共識”、“專家共識”、“專業(yè)共識”、“臨床共識”為題名檢索詞,檢索時限為2010年1月1日~2020年12月31日。
1.1.2 納入及排除標準納入標準:國內(nèi)公開發(fā)表的、可獲取全文的中文版原創(chuàng)專家共識。排除標準:解讀類、匯編、改編版專家共識;國外專家共識的翻譯版本;信息省略的非完整性專家共識,如僅包含簡介、目錄、摘要、推薦意見的簡要版本。
1.2 資料提取本研究組成員根據(jù)專家共識的一般特征結(jié)合指南質(zhì)量評價工具AGREE-Ⅱ的內(nèi)容進行充分討論提取本研究關(guān)注的條目,形成資料提取表。一般特征信息包括:名稱、發(fā)表期刊、發(fā)表時間、同一版本發(fā)表次數(shù)、再版或更新情況、制訂單位及其分類、主題及用戶分類、疾病分類、頁數(shù)、參考文獻數(shù)量、針對的目標人群。其中,專家共識的制訂單位結(jié)果提取包括:國家衛(wèi)生健康委員會(前國家衛(wèi)生部和計劃生育委員會)、學會/協(xié)會、機構(gòu)、個人(工作組或委員會);主題分類結(jié)果提取包括:預防、診斷、治療、預防與治療、診斷與治療、護理、康復、技術(shù)操作、衛(wèi)生政策、傳染病防控;納入的專家共識涉及的疾病分類參考國際疾病分類(ICD-11)。方法學質(zhì)量信息包括:多學科合作制訂專家共識、行充分的文獻檢索、對納入文獻進行質(zhì)量評價、推薦意見基于系統(tǒng)評價、有明確的證據(jù)及推薦強度分級標準、形成推薦意見時考慮了相關(guān)因素(可行性、經(jīng)濟性、安全性、公平性及患者意愿等)、明確描述了推薦意見、標注了證據(jù)等級、推薦意見強度、報道了利益沖突的調(diào)查結(jié)果。由兩名評價者分別對納入的每部專家共識進行信息提取。使用Kappa值評估兩名評價者之間的一致性,Kappa>0.75表明評定者間一致性較好。若存在條目一致性不滿足,則由第三名評價者檢查更新評估結(jié)果。
1.3 統(tǒng)計學分析將納入的專家共識根據(jù)年份進行總結(jié)和分層,以頻率和百分比進行描述,使用“色階圖”和折線圖反映近11年國內(nèi)制訂并發(fā)布的專家共識的質(zhì)量趨勢,調(diào)整圖像基本色調(diào)以便于為讀者提供直觀的參考。使用Microsoft Excel軟件錄入和整理數(shù)據(jù),運用R語言"trend"包進行Mann Kendall趨勢檢驗(M-K檢驗)的非參數(shù)方法檢驗專家共識的方法學質(zhì)量隨時間變化的趨勢,P<0.05為差異有統(tǒng)計學意義。
2.1 納入專家共識的一般特征信息初檢共獲得相關(guān)文獻9396部,經(jīng)逐層篩選去重,符合要求的專家共識共1527部。具體篩選流程結(jié)果見圖1。
圖1 文獻篩選流程
2.1.1 發(fā)表數(shù)量及類別2010~2020年國內(nèi)專家共識發(fā)布的數(shù)量整體呈上升趨勢,近年的發(fā)表數(shù)量迅速增加。專家共識年度發(fā)表總數(shù)量在2013年最低為35部,2020年最多為313部,占發(fā)表總數(shù)量的20.5%(313/1527),圖2。
圖2 2010~2020年國內(nèi)專家共識發(fā)表數(shù)量及占比
專家共識發(fā)表數(shù)量以治療居多,占42.76%(653/1527),其余分別為診斷與治療(30.52%)、診斷(9.3%)、傳染病防控(5.5%)、技術(shù)操作(2.82%)、管理與政策(2.62%)、康復(1.83%)、預防與治療(1.77%)、預防(1.77%)、護理(1.11%);按專家共識所涉及的領域分類,西醫(yī)類1358部、中醫(yī)類77部和中西醫(yī)結(jié)合類92部,各占88.93%(1358/1527)、5.04%(77/1527)、6.02%(92/1527);按其所涉及的用戶分類,僅2部明確提出為患者使用,其余均為醫(yī)護人員參考使用。
2.1.2 發(fā)表次數(shù)及期刊分布同一版本專家共識被多本雜志發(fā)表的次數(shù)有1~9次不等,其中,以發(fā)表1次居多,占發(fā)表總數(shù)量的82.51%(1260/1527)。專家共識所發(fā)表的期刊(包含電子版)多達399本,發(fā)表最多的前六位雜志是《中國實用外科雜志》、《中華醫(yī)學雜志》、《臨床肝膽病雜志》、《中華內(nèi)科雜志》、《中國循環(huán)雜志》、《現(xiàn)代泌尿外科雜志》。
2.1.3 制訂單位和疾病覆蓋范圍專家共識大部分由學會/協(xié)會制訂70%(1069/1527),1.18%(18/1527)由國家衛(wèi)健委單獨或聯(lián)合制訂,26.46%(404/1527)為個人(包括工作組或委員會)制訂,其他由不同機構(gòu)、慈善或公益組織等制訂或聯(lián)合制訂。不同學科中,專家共識的制訂所覆蓋的疾病種類從高到低依次為腫瘤(16.96%)、循環(huán)系統(tǒng)疾?。?2.31%)、消化系統(tǒng)疾?。?0.67%)、某些傳染病和寄生蟲?。?.66%)、泌尿生殖系統(tǒng)疾病(5.76%)、內(nèi)分泌及營養(yǎng)和代謝疾病(5.70%)、神經(jīng)系統(tǒng)疾?。?.58%)。
2.1.4 目標人群專家共識的目標人群有37部(2.42%)為孕產(chǎn)婦,123部(8.06%)針對兒童及以下年齡(≤12歲)患者。
2.1.5 更新本研究中,共有128部(8.38%)專家共識被更新,這些更新了的專家共識分1~3版不等,更新了1版的有108部(7.07%),更新了2版的有14部(0.92%),更新了3版的有6部(0.39%);專家共識所更新的間隔年限為1~10年,其中,2~5年更新一次的專家共識占總發(fā)表量的4.78%(73/1527)。
2.2 納入專家共識的方法學質(zhì)量信息采用色階圖展示在近11年期間滿足方法學評價各條目要求的數(shù)量變化(圖3)。專家共識中推薦意見基于系統(tǒng)評價和明確描述推薦意見的比例較高,對納入文獻進行質(zhì)量評價和形成推薦意見時考慮了可行性、經(jīng)濟性及公平性等因素的比例最低。
圖3 2010~2020年專家共識的方法學質(zhì)量相關(guān)內(nèi)容結(jié)果
2.2.1 多學科合作50部(3.27%)專家共識在制訂過程中成立了多學科的工作組(工作組中至少包括了1名方法學專家如系統(tǒng)評價專家,流行病學家,統(tǒng)計人員等)。專家共識滿足這一評價條目的數(shù)量在近11年期間沒有增多,其質(zhì)量無明顯提升的趨勢(P>0.05)。
2.2.2 證據(jù)的檢索與評價所納入的專家共識中有65部(4.26%)進行了充分的文獻檢索(至少檢索4個中英文數(shù)據(jù)庫),有16部(1.05%)對納入的文獻進行了質(zhì)量評價。行充分文獻檢索的專家共識的數(shù)量在近些年逐漸增多,其質(zhì)量呈明顯提升的趨勢(P<0.05),而對納入文獻進行了質(zhì)量評價的專家共識的數(shù)量極少,其質(zhì)量無明顯提升的趨勢(P>0.05)。1527部專家共識中,參考文獻數(shù)量在100條以上的63部,占發(fā)表總數(shù)量的4.13%(63/1527)。參考文獻數(shù)量最多的專家共識是《中國老年患者圍術(shù)期腦健康多學科專家共識》,為483條,被分成三個部分發(fā)表在《中華醫(yī)學雜志》(疾病分類及癥狀治療、功能障礙干預、睡眠監(jiān)測)。
2.2.3 系統(tǒng)評價支持推薦意見產(chǎn)生2010~2020年,基于系統(tǒng)評價支持的專家共識有196部,占發(fā)表總數(shù)量的32.55%(497/1527)。專家共識滿足這一評價條目的數(shù)量隨著時間的推移逐漸增多,其質(zhì)量呈現(xiàn)出逐漸改善的趨勢(P<0.05)。
2.2.4 證據(jù)等級、推薦強度分級和推薦意見的形成專家共識所使用的證據(jù)/推薦意見的分級標準、證據(jù)等級及呈現(xiàn)形式不統(tǒng)一,分級標準多達14種,表達形式也多種多樣,包括字母、數(shù)字、語言描述及其相互組合,這些標準常來自于北美、歐洲學會/協(xié)會所發(fā)布。在文內(nèi)明確指出所使用分級標準的專家共識有188部,占其發(fā)表總數(shù)量的12.31%(188/1527),其中有72部(4.72%)專家共識使用的是GRADE證據(jù)質(zhì)量分級和推薦強度系統(tǒng),詳見表1。部分證據(jù)質(zhì)量及分級系統(tǒng)未標注來源或參考文獻,我們歸納為自定義的標準名,使用這類分級標準的專家共識占發(fā)表總數(shù)量的6.09%(93/1527)。
表1 2010~2020年共識使用的證據(jù)質(zhì)量與推薦強度分級標準
納入本研究的專家共識中,明確描述了推薦意見的專家共識有366部(23.97%),其推薦意見在形成過程中考慮了可行性、經(jīng)濟性、安全性、公平性及患者意愿等因素的僅有7部,占其發(fā)表數(shù)量的0.46%(7/1527)。近兩年才出現(xiàn)滿足這一評價條目的專家共識,其質(zhì)量的提升剛剛起步(P<0.05)。
明確描述推薦意見的專家共識中,有194部(12.70%)標注了證據(jù)等級,203部(13.29%)標注了推薦強度,161部(10.54%)同時標注了證據(jù)分級和推薦強度。專家共識滿足這些評價條目的數(shù)量在近11年期間變化不明顯,其質(zhì)量未呈現(xiàn)出明顯改善的趨勢(P>0.05)。
2.2.5 基金資助和利益沖突2010~2020年所發(fā)布的專家共識報告了在制訂過程中受到基金或項目資助的比例為17.75%(271/1527),其中3.86%(5/1527)的專家共識受國家自然科學基金資助,3.27%(50/1527)的專家共識受國家重點研發(fā)計劃資助。
共有234部(15.32%)專家共識對制訂者的利益沖突進行了調(diào)查與報道,其滿足這一評價條目的數(shù)量在近年明顯增多,這一方法學質(zhì)量隨著時間的推移呈現(xiàn)明顯改善的趨勢(P<0.01)。
在專家共識的基金支持中,共有5部明確描述接受了企業(yè)的支持,但僅2部聲明了這些企業(yè)不參與或影響其學術(shù)內(nèi)容(如指南的證據(jù)評估、共識過程)。
本研究以大量的描述性數(shù)據(jù)對近11年的專家共識進行了一般特征和方法學信息相關(guān)內(nèi)容的分析,結(jié)果表明近年來我國自主制訂發(fā)布的專家共識發(fā)表量整體呈上升趨勢,其部分方法學質(zhì)量隨著時間的推移呈逐年改善的趨勢(行充分的文獻檢索、推薦意見基于系統(tǒng)評價、形成推薦意見考慮必要因素、利益沖突的調(diào)查與報道),其余方面(多學科合作制訂指南、對納入文獻進行質(zhì)量評價、有明確的證據(jù)及推薦強度分級標準、明確描述了推薦意見、標注了證據(jù)等級、標注了推薦意見強度)雖沒有統(tǒng)計學意義,但從年度數(shù)據(jù)來看,仍呈穩(wěn)步提升的趨勢。
一般認為,區(qū)分指南和專家共識這兩種類型的關(guān)鍵之處在于是否有充足的研究證據(jù)基礎,如果證據(jù)質(zhì)量低就不做指南而選擇制作專家共識。在此次面對突發(fā)的新型冠狀病毒肺炎時,由于對疾病的認知還不全面,也無法在短時間內(nèi)開展足夠的研究并積累有說服力的循證醫(yī)學證據(jù),部分專家選擇制訂專家共識如《新型冠狀病毒肺炎疫情防控期間心血管急危重癥患者臨床處理原則的專家共識》[8,9]。也有觀點認為專家共識是基于共識的指南,是達成指南中的推薦意見而采納的方法或途徑。Gordon Guyatt指出這是對循證醫(yī)學和從證據(jù)到推薦意見過程的誤解。他強調(diào)所有指南都應該以證據(jù)為基礎,而無論證據(jù)等級高低,指南的制訂過程中應包括對文獻的系統(tǒng)回顧和對證據(jù)質(zhì)量的嚴格評估,證據(jù)無法自動轉(zhuǎn)化為推薦意見,對于證據(jù)的解釋需基于共識的過程來確定。證據(jù)永遠不能直接決定決策方案,應始終在患者的價值觀和偏好的基礎上加以考慮。他建議可將指南分為兩類即基于證據(jù)的指南和不基于證據(jù)的指南,而避免使用基于共識的指南這個術(shù)語[10]。
專家共識所形成的意見和建議大多來源于專家經(jīng)驗,但是我們應該準確識別大多時候?qū)<医?jīng)驗仍然是來源于專家證據(jù),專家證據(jù)[11]被定義為從對特定領域有知識或技能的人那里獲得的觀察或經(jīng)驗,可以用于支持結(jié)論的事實,如臨床專家說“我對100例前列腺癌患者進行了手術(shù),但沒有1例死于前列腺癌?!倍R床專家說“前列腺切除術(shù)是有效的?!眲t為專家給出的結(jié)論意見。顯然,在這兩種情況下,意見可能都基于該證據(jù),但專家證據(jù)顯然與專家給出的結(jié)論意見不同。專家給出的結(jié)論意見更傾向于是對某事形成的看法或判斷,不一定基于事實。因此,本研究團隊認為沒有臨床問題是絕對缺乏證據(jù)的,即使是專家共識在很大程度上也來源于證據(jù),不能受限于證據(jù)質(zhì)量的高低而在指南和專家共識中做出選擇,專家共識并不具有其存在的絕對意義。但目前在國內(nèi),專家共識仍被制訂者所青睞,被臨床用來幫助指導醫(yī)療決策,且缺乏統(tǒng)一的制訂標準,因此,對其進行有效的規(guī)范和引導,提高其質(zhì)量須以嚴格的方法學要求來約束,不能將其與指南絕對區(qū)分。一般而言,專家共識的制訂應該基于指南的制訂方法。本研究數(shù)據(jù)表明,目前專家共識的制訂仍存在以下問題:同一版本的專家共識發(fā)表的次數(shù)多為1次,不利于其傳播與實施;目標人群在方法學部分不夠明確;制訂過程中方法學家的參與率極低;專家共識缺乏對文獻充分檢索并進行質(zhì)量評價;進行證據(jù)質(zhì)量和推薦強度分級的專家共識數(shù)量有限;專家共識推薦意見的形成中未能充分考慮患者的價值觀和偏好;對制訂者利益沖突調(diào)查與報道的專家共識不多;已發(fā)表的專家共識未能及時更新。
雖然符合方法學質(zhì)量要求和報告學規(guī)范的專家共識較少,致使很多專家共識的質(zhì)量良莠不齊。但令人欣慰的是,基于系統(tǒng)評價支持的專家共識隨著時間的推移呈現(xiàn)出逐漸增多的趨勢。共識的制訂過程中也應該科學合理使用方法學工具如AGREE-Ⅱ,提高證據(jù)質(zhì)量,加強證據(jù)的評價,透明嚴謹?shù)匦纬赏扑]意見[12],使用EtD框架幫助專家共識制訂小組將證據(jù)轉(zhuǎn)為決策或推薦意見[13],設計面向用戶的開放式評分系統(tǒng)[14]。鑒于此,本研究提出以下幾條提高專家共識質(zhì)量的建議:①即使在證據(jù)等級質(zhì)量不高的情況下優(yōu)選考慮制訂基于證據(jù)的指南,對制訂者進行方法學培訓,消除對專家共識的誤解;②即便是選擇制訂專家共識也應嚴格按照一定方法學要求進行規(guī)范;③重視尤其是循證方法學家在多學科參與制訂專家共識中的作用;④清晰表達推薦意見的證據(jù)等級及推薦意見的強度以便于臨床醫(yī)生的快速查找;⑤專家意見的收集應有系統(tǒng)全面的方法,以盡可能客觀全面的反應專家證據(jù);⑥專家共識制訂組應對小組成員制訂自己的利益沖突披露政策,做好利益沖突的管理;⑦制訂者應對已發(fā)表的專家共識行定期監(jiān)測和及時;⑧重視對專家共識質(zhì)量的評價,納入指南評價體系,幫助其使用者選擇高質(zhì)量的專家共識,用以指導臨床決策。
本研究的局限性在于:2010~2020年的專家共識數(shù)量龐大,考慮到工作量及其時效性,資料提取的內(nèi)容未能按照指南研究與評價工具AGREE-Ⅱ的6個領域23個條目逐一提取,僅提取了我們所關(guān)注的相關(guān)內(nèi)容。部分研究結(jié)果基于專家共識報告的數(shù)據(jù)進行統(tǒng)計分析,對沒有充分報告的信息,未聯(lián)系其制訂者進一步獲取與分析,故本研究的結(jié)果可能存在一定的信息偏倚。本研究主要關(guān)注發(fā)表于中國中文期刊的專家共識,而未納入中國團隊制訂并發(fā)表在非中文期刊或其他學術(shù)平臺的專家共識,且資料的提取局限于在數(shù)據(jù)庫查到專家共識的內(nèi)容,而影響專家共識質(zhì)量的關(guān)鍵信息,如計劃書等有可能受篇幅所限,未隨專家共識全文同時發(fā)表,導致評價時對部分數(shù)據(jù)的遺漏,因此,可能會低估專家共識的質(zhì)量。
總體而言,專家共識數(shù)量及部分方法學質(zhì)量正逐年提升,其數(shù)量的迅速增加更應該引起其制訂者對方法學質(zhì)量的重視。沒有臨床問題是絕對缺乏證據(jù)的,制訂者應首先考慮制訂指南,即使專家共識在當前國內(nèi)的環(huán)境中具有其存在的意義,其制訂也均需要當前可得證據(jù)的支撐,無論其質(zhì)量高低,不能因為專家共識的證據(jù)來源及質(zhì)量較低,就放松對其制訂的方法學要求。本研究團隊相信未來專家共識與指南的方法學界限會越來越模糊,終將被指南所取代。