韓 梅 余澤宇 張佳坤 魏佳俐 梁士兵, 劉建平△
1.北京中醫(yī)藥大學(xué)循證醫(yī)學(xué)中心 (北京, 100029) 2.北京中醫(yī)藥大學(xué)中醫(yī)學(xué)院 3.北京中醫(yī)藥大學(xué)針灸推拿學(xué)院
臨床試驗指以人體(患者或健康受試者)為對象的試驗,旨在確定干預(yù)措施在人群中療效與安全性的系統(tǒng)性試驗[1]。任何一個臨床試驗的結(jié)果都可能被應(yīng)用于未來的人群,因此,每項臨床試驗都是公眾事件,而非研究者或申辦方的個人行為。公眾應(yīng)有對臨床試驗設(shè)計、實施、結(jié)果所有細節(jié)的知曉權(quán)。臨床試驗報告就是臨床試驗完成后將試驗的整個過程和結(jié)果呈現(xiàn)給公眾的信息文件。
1946年,英國醫(yī)學(xué)研究委員會(MRC)對鏈霉素治療肺結(jié)核開展的臨床試驗,是醫(yī)學(xué)史上第一次嚴格的隨機對照試驗[2]。此后的半個世紀,臨床試驗在世界范圍內(nèi)得到了廣泛地應(yīng)用,但是研究者們對于試驗過程和結(jié)果的報告不一致且不完整,這使得讀者不能從各個試驗報告中完全獲取同類內(nèi)容的信息。1995年,一個由臨床研究者、統(tǒng)計學(xué)家、流行病學(xué)家和生物醫(yī)學(xué)編輯組成的國際小組制定了臨床試驗報告統(tǒng)一標準,即“CONSORT(Consolidated Standards of Reporting Trials)聲明”,并于1996年在JAMA等期刊上發(fā)表,此后在2001年和2010年分別進行了修訂和更新,最終形成了包括1份25項條目的清單和1個流程圖[3,4]。CONSORT聲明是基于標準的兩組平行隨機臨床試驗設(shè)計而制定,應(yīng)用于其他類型的試驗(比如非隨機對照試驗)時有一定的局限性,因此,CONSORT工作組陸續(xù)制訂針對不同試驗類型和不同干預(yù)措施的擴展版,擴展版本在EQUATOR網(wǎng)站(https://www.equator-network.org/)上有呈現(xiàn)。
EQUATOR Network 是一個“傘狀”組織,匯集了研究人員、醫(yī)學(xué)期刊編輯、同行審稿專家、報告指南的制定者、研究資助機構(gòu)和其他合作者,共同致力于提高研究出版物和研究本身的質(zhì)量。截至2021年12月,EQUATOR網(wǎng)站已經(jīng)發(fā)布和正在研制的醫(yī)學(xué)研究報告規(guī)范有480個,其中與隨機對照試驗相關(guān)的報告規(guī)范有180個,除了CONSORT聲明外還涉及具體某一疾病、干預(yù)措施、結(jié)局指標、研究設(shè)計、試驗方案、試驗過程管理、統(tǒng)計分析、實施科學(xué)等方面的報告規(guī)范。
CONSORT聲明2010版包含25個條目的對照檢查清單、1個臨床試驗各個階段(招募、分配、隨訪和分析)的受試者流程圖以及對清單中每一個條目的釋義[4]。清單從文題和摘要、背景和目的、研究方法、結(jié)果、討論和其他信息6個方面詳細地推薦了應(yīng)報告的條目,其中研究方法部分從試驗設(shè)計、受試者、干預(yù)(對照)措施、結(jié)局指標、樣本量估算方法、隨機方法(隨機序列的產(chǎn)生、分配方案的隱藏以及隨機的實施)、是否對受試者、醫(yī)護提供者、結(jié)局評估者實施盲法以及具體的統(tǒng)計學(xué)方法8個條目提出報告要求,研究結(jié)果部分從受試者流程、招募、基線資料、納入分析例數(shù)、每個結(jié)局的效應(yīng)值、輔助分析方法以及研究出現(xiàn)的危害7個條目提出報告要求。研究者在進行平行隨機對照試驗的報告時應(yīng)逐條對照檢查清單是否報告全面。
20多年來,已經(jīng)有 40個與CONSORT聲明相關(guān)的擴展聲明公開發(fā)表,其中與研究對象相關(guān)的擴展聲明有7個,包括針對牙齒矯正人群、疼痛患者、不孕癥患者、腫瘤患者、兒童、藥物流產(chǎn)婦女以及健康公平性的擴展聲明;與干預(yù)措施相關(guān)的擴展聲明有17個,涉及到人工智能、社會和心理干預(yù)、基于網(wǎng)絡(luò)和移動設(shè)備健康干預(yù)、電子醫(yī)療保健、非藥物療法、處方精簡、醫(yī)療保健模擬、順勢療法、作業(yè)療法、過敏原特異性治療以及干預(yù)措施描述和復(fù)制11個領(lǐng)域,以及6個與中醫(yī)藥相關(guān)的擴展聲明(表1);還包括2個與研究方案相關(guān)的擴展聲明,涉及新冠肺炎疫情和人工智能;1個針對摘要的擴展;2個與結(jié)局指標相關(guān)的擴展和11個與研究設(shè)計相關(guān)的擴展?,F(xiàn)將涉及研究設(shè)計、結(jié)局指標以及中醫(yī)藥研究共性問題的19個CONSORT擴展聲明進行匯總(表1),臨床研究者可以根據(jù)特定的研究設(shè)計及內(nèi)容,選擇恰當?shù)闹?英文報告規(guī)范進行參考。
表1 涉及研究設(shè)計、結(jié)局指標以及中醫(yī)藥領(lǐng)域共性問題的19項CONSORT擴展聲明
以“CONSORT聲明”作為檢索詞,限定在標題/關(guān)鍵詞中,在中國知網(wǎng)、重慶維普、萬方三個數(shù)據(jù)庫進行檢索,共檢索到在正式期刊發(fā)表的基于CONSORT聲明評價隨機對照試驗報告質(zhì)量的中文研究18篇(分別為18項不同研究領(lǐng)域報告質(zhì)量的評價研究)。其中最早1項發(fā)表于2009年,最新3項發(fā)表于2022年。18項研究中,有3項參照了CONSORT聲明2001版本,15項參照了CONSORT聲明2010版本,每項研究納入試驗數(shù)量為8至178項不等,共計1 033項(發(fā)表于數(shù)據(jù)庫建庫至2021年)。18項研究中,有4項針對《中國小兒急救醫(yī)學(xué)》、《中華醫(yī)學(xué)科研管理雜志》、《中國心血管雜志》、《中國新藥與臨床雜志》上發(fā)表的臨床試驗進行報告質(zhì)量評價,1項針對腫瘤護理領(lǐng)域的試驗進行報告質(zhì)量評價,其余13項均是基于不同疾病對中醫(yī)藥領(lǐng)域的臨床試驗進行了評價,包括中藥4項、針刺7項、灸法1項和推拿1項。
納入的18項針對臨床試驗報告質(zhì)量評價的結(jié)果表明,在過去20多年間,臨床試驗的報告質(zhì)量并未得到明顯改善。早期臨床試驗存在的報告問題在當前試驗報告中仍普遍存在,主要體現(xiàn)在研究設(shè)計和統(tǒng)計分析上。因此,盡管發(fā)表的臨床試驗數(shù)量不斷增多,但卻難以為臨床實踐提供高質(zhì)量證據(jù)。究其原因可能與臨床研究人員缺乏方法學(xué)知識有關(guān)。大部分臨床研究設(shè)計之初并沒有方法學(xué)和統(tǒng)計學(xué)人員參加,或者臨床研究者與方法學(xué)專家缺乏充分的溝通交流,臨床問題凝練不清,研究目的不明,最終形成了不夠嚴謹、質(zhì)量差的臨床研究。結(jié)合文獻研究結(jié)果、筆者20多年開展文獻評價研究的經(jīng)驗以及對2位中文核心期刊編輯的訪談,分析總結(jié)了目前國內(nèi)臨床試驗報告中存在的共性問題,并提出可操作的建議。
3.1 研究假說不明確 研究假說是研究目的體現(xiàn),也是擬回答的臨床問題的依據(jù)。大多數(shù)研究缺乏假說,或者闡述的研究假設(shè)比較模糊,如“某干預(yù)措施與某對照措施比較用于治療某疾病的療效如何”,并沒有明確說明想要檢驗的干預(yù)措施的“療效”是優(yōu)效、等效或非劣效。
建議:研究假設(shè)要基于臨床問題和前期研究工作基礎(chǔ)提出。比如,如果研究采用空白對照或安慰劑對照,通常會采用優(yōu)效性設(shè)計,此時應(yīng)當考慮臨床有意義的界值,即干預(yù)組的總體療效比對照組好多少才認為是優(yōu)效;如果采用目前公認的陽性藥物做對照,可以考慮等效性設(shè)計或者非劣效設(shè)計;在兩種干預(yù)措施互相對照的研究中,比如針刺和中藥的療效比較,還可以考慮采用差異性設(shè)計的方法。不同的研究假設(shè)采用的樣本量計算公式不同,應(yīng)以最能體現(xiàn)研究目的的主要結(jié)局指標作為樣本量估算的參數(shù)。與研究假設(shè)對應(yīng)的假設(shè)檢驗也應(yīng)當分為差異性檢驗、優(yōu)效性檢驗、等效性檢驗和非劣效性檢驗。差異性檢驗是和0做比較,即兩總體均數(shù)/有效率是否完全不等,而不考慮這種差別是否具有專業(yè)意義;優(yōu)效性檢驗、非劣效性檢驗和等效性檢驗是和臨床有意義的界值做比較,即檢驗在一定允許范圍內(nèi)是否相等或不等,不僅要檢驗差異是否存在,而且應(yīng)當關(guān)注這種差別是否具有臨床意義[25]。因此,研究假設(shè)明確,與之對應(yīng)的主要結(jié)局指標選取、樣本量估算、統(tǒng)計學(xué)分析的問題就能夠相應(yīng)解決。
3.2 試驗注冊與方案獲取應(yīng)引起足夠的重視 國內(nèi)的大多數(shù)期刊并未對臨床試驗方案的注冊做強制要求,因此試驗開始前注冊方案在國內(nèi)的臨床研究中并不理想。而且,研究者發(fā)起的研究通常也不具備健全的三級質(zhì)控體系來監(jiān)控研究進展和方案的違背情況,這就會導(dǎo)致讀者無法判斷研究結(jié)果的報告是否按照預(yù)設(shè)的研究方案執(zhí)行,是否存在不完整報告偏倚和選擇性報告偏倚。
建議:《赫爾辛基宣言》(2008版)要求任何臨床試驗必須在招募第一例受試者之前在公共注冊機構(gòu)注冊。目前國內(nèi)開展臨床試驗的方案注冊以中國臨床試驗注冊中心(http://www.chictr.org.cn/)為主。近年來美國臨床注冊中心(https://www.ClinicalTrials.gov)不再接受國內(nèi)的研究者注冊新的賬號,但是原有賬號可以繼續(xù)注冊新的臨床研究(免費)。另外,英國國際標準隨機對照臨床試驗編號注冊庫(https://www.isrctn.com/)也可以提供國際范圍內(nèi)臨床試驗的注冊(收費,約230英鎊)。
3.3 隨機和盲法描述不清 多數(shù)臨床研究僅提及“隨機”二字,或者僅提及“隨機數(shù)字表、計算機程序”產(chǎn)生隨機序列,對于隨機隱藏的方式、盲法的實施對象或者未施盲是否會對研究結(jié)果造成影響很少提及。不論是“隨機”還是“盲法”都需要不直接參與試驗的第三方來實施,臨床研究者并沒有直接參與這兩部分工作,因此,在描述這兩部分時通常無法明確表達。
建議:應(yīng)明確描述使用何種工具產(chǎn)生隨機序列,是否采用了區(qū)組隨機或者分層隨機。對于區(qū)組隨機,還應(yīng)描述區(qū)組大小以及區(qū)組大小是否固定還是隨機改變。應(yīng)用分層隨機還應(yīng)說明分層因素(如分中心 、性別 、疾病的階段)、 分層的分類截斷值、層內(nèi)隨機采用簡單隨機還是區(qū)組隨機。對于受試者的例數(shù)分配,需要描述不同組間的比例是1∶1還是1∶n(多臂研究)。隨機隱藏最簡單的方法是由產(chǎn)生隨機序列的第三方將分配方案放在密封的、不透光的、順序編碼的容器中;也可以采取中心電話/中心網(wǎng)絡(luò)的方式實施,即每一位患者在知情同意后給第三方致電/登錄網(wǎng)頁獲取分組信息。
“雙盲法”通常以安慰劑對照來實現(xiàn),應(yīng)當說明施盲對象,而不要讓讀者自己判斷是不是實現(xiàn)了單盲(患者)、雙盲(患者和醫(yī)生)或者三盲(患者、醫(yī)生及結(jié)局評價者)。對于盲法研究,還應(yīng)當報告是否有破盲的風(fēng)險,如評估干預(yù)措施與安慰劑的一致性。在安慰劑對照研究中,隨機隱藏的實現(xiàn)與非安慰劑研究不同,通常通過藥物編碼的方式(根據(jù)隨機分配方案將試驗藥品和安慰劑進行順序編碼,患者編號與藥物編號一一對應(yīng))達到隱藏分配方案的目的。值得注意的是,并不是所有的研究都必須設(shè)盲,如果未設(shè)盲,也應(yīng)當闡明不設(shè)盲是否會對試驗結(jié)果產(chǎn)生影響以及可能的影響大小。
3.4 隨機化后退組和剔除的人數(shù)及原因未報告 臨床試驗中受試對象退出與失訪是很常見的現(xiàn)象,也可能存在被誤納入的情況。因此,臨床試驗應(yīng)當準確報告退組和剔除的人數(shù)以便于采用恰當?shù)姆椒ㄟM行統(tǒng)計分析。目前文獻報告大多顯示隨機分組的人數(shù)與進入統(tǒng)計分析的人數(shù)相等,這在大型、長時間的臨床試驗中幾乎不可能實現(xiàn),加之大部分研究并未提前注冊試驗方案,因此無法排除研究者挑選完整病例進行分析和報告的可能,從而給讀者提供了有偏倚的、不可靠的研究結(jié)果和結(jié)論。
建議:采用臨床研究受試者流程圖是追蹤受試者流向的最佳方式,如果受到發(fā)表文章版面的限制,也可以采用文字描述或添加附件的方式進行報告。受試者流向(流程圖)包括招募、隨機分配、接受治療、隨訪、分析5個階段,并分別給出各個階段的人數(shù),以及未納入或者排除的人數(shù)和理由。
3.5 意向性分析、亞組分析和校正分析缺如 不論是否報告隨機化后退組和剔除的人數(shù),大部分研究均僅呈現(xiàn)符合方案集的統(tǒng)計分析結(jié)果。符合方案集是一種非隨機的比較方法,任何在分析時排除患者的做法都有悖于隨機分配的本意,而且可能導(dǎo)致結(jié)果偏倚。部分研究的亞組分析和校正分析也沒有說明哪些是事先設(shè)計的,哪些是根據(jù)基線數(shù)據(jù)比較的結(jié)果臨時增加的。而事后決定的亞組分析會因把握度不足得出假陽性的結(jié)果,即使根據(jù)基線比較結(jié)果進行的校正分析也可能導(dǎo)致出現(xiàn)結(jié)果偏倚。
建議:研究結(jié)果的比較應(yīng)采用意向性治療分析,包括全部參與隨機分配的病例,不論其是否實際接受了已知分配或者是否完成規(guī)定治療,均應(yīng)進入到待分析的數(shù)據(jù)集中。對于缺失數(shù)據(jù)應(yīng)當采用恰當?shù)姆椒ㄟM行填補。如果進行了亞組分析,研究者應(yīng)當報告哪些亞組分析是預(yù)先設(shè)定用于確證的,哪些亞組分析是事后增加用于探索的,對于預(yù)先設(shè)定的亞組分析需要報告為什么這樣做,選擇性地報告亞組分析可能導(dǎo)致偏倚。亞組分析的建議也適用于對基線變量作過校正后的分析。即使是隨機分組,也會存在部分指標基線不均衡的情況,主流做法是只要是真正的隨機分組就不需要做校正,除非是事先設(shè)定好的協(xié)變量,比如不同的分中心。若有校正,作者應(yīng)該說明選擇校正哪些變量是否是預(yù)先計劃的,校正前和校正后的分析均應(yīng)報告結(jié)果。
3.6 結(jié)局指標未報告組間差異的效應(yīng)值及其精確性 大多數(shù)研究僅報告假設(shè)檢驗的結(jié)果,即檢驗統(tǒng)計量和P值,讀者只能從中判斷出組間統(tǒng)計學(xué)差異的顯著程度,但難以判斷研究結(jié)果的臨床意義。
建議:對于每組的各個結(jié)局指標,都應(yīng)報告描述性統(tǒng)計的結(jié)果(例如,發(fā)生某事件的受試者人數(shù)及其分母,或測量指標的均數(shù)和標準差),同時給出組間差異,即效應(yīng)值。對二分類變量結(jié)局指標,效應(yīng)值可以是相對危險度、比值比或者危險差;對于連續(xù)變量數(shù)據(jù),通常是均值之差,同時給出差異的可信區(qū)間。在差異無統(tǒng)計學(xué)意義時可信區(qū)間尤其有價值,因為在這種情況下常可從可信區(qū)間看出,統(tǒng)計結(jié)果并不能排除重要臨床差異存在的可能[4]。例如,RR值及其可信區(qū)間為3.5[0.99, 9.5],雖然組間比較無統(tǒng)計學(xué)差異,但效應(yīng)值較大,可信區(qū)間的上限值較大,有進一步研究探索臨床差異的價值。
3.7 不良事件和嚴重不良事件的報告不充分 大多數(shù)的研究僅報告有效性結(jié)局,未報告安全性結(jié)局。事實上,有關(guān)干預(yù)措施益處和危害的信息同等重要,以便于讀者權(quán)衡后作出決定。
建議:臨床試驗難免發(fā)生非預(yù)期的不良事件,不論是否構(gòu)成不良反應(yīng),均應(yīng)如實報告,如果整個研究未發(fā)生任何不良事件,也應(yīng)當予以說明。
3.8 鮮少提及中期分析和中止試驗的原則 臨床試驗均應(yīng)提前根據(jù)參數(shù)估算所需要的樣本量,任何中期分析或者提前中止的研究結(jié)果均可能會對研究結(jié)論造成影響。因此,研究者應(yīng)當如實報告是否完成了預(yù)期樣本量的受試者觀察。事實上,很多臨床試驗需要長時間招募受試者,如果干預(yù)措施效果極好或極差,均應(yīng)出于倫理原因提前終止研究。
建議:可通過積累數(shù)據(jù)的同時,同步進行結(jié)果檢驗的方法來解決,最好由獨立的數(shù)據(jù)監(jiān)察委員會執(zhí)行。不過,對積累的數(shù)據(jù)進行多次統(tǒng)計學(xué)檢驗而不經(jīng)恰當?shù)男U齽t可能得出錯誤結(jié)果并導(dǎo)致解釋錯誤。如果需要進行多次中期分析,可采用成組序貫統(tǒng)計方法來校正,并且需要在臨床試驗方案中預(yù)先設(shè)定。一些臨床試驗研究者使用成組序貫方法來輔助決策,也有人把它們當作一種正規(guī)的終止試驗的標準。
綜上所述,國內(nèi)臨床試驗報告存在諸多研究設(shè)計與統(tǒng)計分析上的缺陷,為了避免大量低質(zhì)量的重復(fù),對于兩組平行隨機對照試驗的結(jié)果報告,研究者們不僅需要熟悉CONSORT聲明的各個條目,更重要的是需要認真理解各個條目的解釋和說明。對于不同的設(shè)計類型以及中醫(yī)藥領(lǐng)域的研究,還應(yīng)當同時參考CONSORT聲明目前已發(fā)表的40個擴展版本。