吳振強 李 衛(wèi) 孫業(yè)桓 王 楊
存在共同終點的優(yōu)效性臨床試驗樣本量問題探討
吳振強1,2李 衛(wèi)1Δ孫業(yè)桓2Δ王 楊1
目的 探討當優(yōu)效性臨床試驗存在多個共同終點時,各終點分別計算樣本量取最大值的樣本量計算方法的合理性。方法 運用蒙特卡洛模擬的方法,驗證實踐中常用的多個主要終點分別計算取最大值的樣本量計算方法的合理性;并進一步探討主要終點間相關(guān)性與檢驗效能之間的關(guān)系。結(jié)果 當多個終點分別計算的樣本量相等時,分別計算取最大值的方法不能達到預期的檢驗效能(80%);當相關(guān)系數(shù)小于0時,檢驗效能在60%左右波動;大于0時,隨著相關(guān)系數(shù)的增加,檢驗效能逐漸增大。結(jié)論 當多個主要終點算得樣本量相當時,取最大值的樣本量計算方法并不適用于優(yōu)效性臨床試驗;當多個主要終點算得的樣本量差距較大時,可以達到試驗所需的檢驗效能。因此,運用時需要考慮其適用條件。
臨床試驗 樣本量計算 檢驗效能 相關(guān)性 蒙特卡洛模擬
1.中國醫(yī)學科學院,北京協(xié)和醫(yī)學院,國家心血管疾病中心,阜外心血管病醫(yī)院,心血管疾病國家重點實驗室,醫(yī)學研究統(tǒng)計中心(100037)
2.安徽醫(yī)科大學公共衛(wèi)生學院
△通信作者:李衛(wèi),E-mail:liwei@mrbc-nccd.com;孫業(yè)桓,E-mail:sun611007@163.com
臨床試驗中,病人的反應(yīng)可能是多種多樣的,很多疾病機理并不清楚,因此某些臨床研究并不能找出唯一的主要終點指標來證明藥物或器械的有效性,此時通常需要設(shè)置多個主要終點〔1,2〕。根據(jù)試驗設(shè)計的不同,多終點臨床試驗大致可分為兩類〔3,4〕:(1)多個主要終點中一個有統(tǒng)計學意義,整個臨床試驗就是成功的;(2)多個主要終點必須同時有統(tǒng)計學意義,整個臨床試驗才是成功的,此時稱為多個共同終點的臨床試驗。臨床實踐中,類型(1)主要存在Ⅰ類錯誤膨脹的問題〔4-6〕。審評機構(gòu)〔7〕和科學期刊〔8〕通常建議用多重調(diào)整的方法解決這類問題(如:Bonferroni法、Holm法、Hochberg法和James等方法)。其中Leon和 Heo在2007年運用隨機模擬對這些方法的Ⅰ類錯誤的膨脹情況進行了比較,得出終點指標間的相關(guān)性r≤0.5時Hochberg調(diào)整具有更高的檢驗效能,當r>0.5時James的方法更為合理〔5〕。類型(2)成功解決了Ⅰ類錯誤膨脹的問題,但是隨之而來的是Ⅱ類錯誤的膨脹〔2〕,通常解決這類問題的方法是增加樣本量〔3,9〕。存在共同終點的臨床試驗中,對每個主要終點分別計算樣本量,然后取最大值作為臨床試驗所需的樣本量是一種實踐中常用的方法;但是有些外文文獻對這種樣本量計算方法的合理性提出質(zhì)疑,認為這種方法不僅沒有考慮指標間的相關(guān)性,而且可能會出現(xiàn)檢驗效能不足的問題。目前國內(nèi)并無相關(guān)研究報道。因此本研究將結(jié)合臨床實踐中的實際數(shù)據(jù),運用隨機模擬的方法對此樣本量計算方法的合理性進行探討。
在共同終點的臨床試驗中,為了更加清晰直觀地探討分別計算取最大值樣本量計算方法的合理性,本研究僅對實踐中常用的兩個共同終點的優(yōu)效性臨床試驗進行模擬分析。
其中假設(shè)臨床試驗要驗證試驗藥物T優(yōu)效于對照藥物C,需要兩個共同主要終點指標P1和P2(高優(yōu)指標),其中P1和P2均是來自正態(tài)總體的連續(xù)性指標,為了使得模擬的結(jié)果更加貼近實際,因此本模擬研究假定指標間存在一定相關(guān)性。
基于以上假設(shè),本研究將根據(jù)兩個終點指標計算的樣本量相同和不相同分別進行蒙特卡洛模擬。具體步驟如下:
(1)假定兩個共同終點間存在相關(guān)性,根據(jù)終點指標的均值和標準差,產(chǎn)生具有一定相關(guān)性的正態(tài)分布隨機數(shù)作為研究樣本,并對其進行統(tǒng)計分析;
(2)將組間差異95%的可信區(qū)間下限與0比較,并將所得情況記錄下來;
(3)若兩個指標的下限同時小于0,即拒絕零假設(shè),則將結(jié)論記為“正確”;若下限至少有一個大于等于0,即不拒絕零假設(shè),則將結(jié)論記為“錯誤”;
(4)重復步驟(1)至(3)1000次,并記錄下得到“正確”結(jié)論的次數(shù),其中正確比例即為在此總體特征和參數(shù)設(shè)置下的檢驗效能。其中進行多次模擬試驗的主要目的是保證結(jié)果的穩(wěn)定性;
(5)根據(jù)共同終點間相關(guān)程度的不同重復步驟(1)至(4),并作相應(yīng)的記錄。
(1)基本指標
試驗組和對照組的基本數(shù)據(jù)均來自某臨床試驗報告,基本指標如下:
基于以上指標,根據(jù)樣本量的計算公式:
可以得到兩個主要指標所需的樣本量n1和n2相等,其中n1=n2=51×2,即臨床試驗所需的樣本量為51對。
(2)隨機模擬的結(jié)果
①研究的實際檢驗效能
基于隨機模擬步驟,我們將在不同相關(guān)系數(shù)r(-1.0,-0.9,…,0,…,0.9,1.0)下,研究臨床試驗檢驗效能(1-β)的變化情況。結(jié)果見表1。
表1 檢驗效能變化情況
圖1 檢驗效能變化情況
根據(jù)模擬的結(jié)果,得出:a)當臨床試驗有兩個共同終點,且主要終點指標的相關(guān)性小于1時,整體的檢驗效能均不能達到80%;b)隨著相關(guān)系數(shù)的變化,檢驗效能也會發(fā)生相應(yīng)的變化;c)相關(guān)系數(shù)在-1到0之間時,整體檢驗效能在60%左右波動;d)相關(guān)系數(shù)從0增加到1時,整體的檢驗效能從0.645增加到0.799;e)Ⅱ類錯誤和檢驗效能是互補的概念,當檢驗效能達不到預先設(shè)定值時,相應(yīng)的Ⅱ類錯誤也會高于預先設(shè)定的值,出現(xiàn)Ⅱ類錯誤膨脹的問題。
②達到方案規(guī)定檢驗效能時所需樣本量?;陔S機模擬步驟,模擬在共同終點間的相關(guān)性一定時,隨著樣本量增大,臨床研究檢驗效能(1-β)的變化情況,匯總結(jié)果見表2。
表2 檢驗效能變化情況(相關(guān)系數(shù))
圖2 檢驗效能的變化情況
根據(jù)模擬的結(jié)果,得出:a)共同終點間的相關(guān)系數(shù)設(shè)定為0.7,每組的樣本量達到61時,整體檢驗效能才能達到預先設(shè)定的80%;b)當整體檢驗效能達到80%時,對于單個終點計算樣本量時,檢驗效能至少需要達到85%以上,因此在用這種方法時一定要與隨機模擬方法聯(lián)合應(yīng)用,從而保證整體的檢驗效能;c)隨著樣本量逐漸增大,單個主要終點的檢驗效能和整體的檢驗效能都是逐漸增大的,進一步證明通過樣本量的增大可以彌補檢驗效能不足的問題;d)圖2中第一條豎線顯示,在單個終點達到80%的檢驗效能時,整個臨床試驗的檢驗效能是達不到預先設(shè)定值的,同上部分模擬結(jié)果類似。
隨機模擬的基本指標:
模擬擬次數(shù):1000;
Ⅰ類錯誤:α1=α2=0.05;
檢驗效能:1-β=80%。
基于以上信息,進行隨機模擬,結(jié)果見表3:
表3 隨著Δ差距的變化,檢驗效能的變化情況
根據(jù)模擬的結(jié)果,得出:a)兩個指標的平均效應(yīng)差異很小時,選取最大樣本作為試驗所需樣本量并不能達到方案預先設(shè)定的檢驗效能(圖3兩條豎線間的區(qū)域);b)兩個指標的平均效應(yīng)差異較大時(圖3兩條豎線外的區(qū)域),選取最大樣本作為試驗所需樣本是可以達到方案預先設(shè)定的檢驗效能。
圖3 隨Δ變化的檢驗效能的變化情況
本研究通過蒙特卡洛模擬的方法,對實際臨床研究中常用的多個共同終點分別計算取最大值的樣本量計算方法的合理性進行了探討,驗證了此方法的適用條件;當運用不當時,并不能達到試驗方案規(guī)定的檢驗效能,即出現(xiàn)Ⅱ類錯誤膨脹的問題。另外,隨機模擬的結(jié)果也充分體現(xiàn)了指標相關(guān)性在樣本量計算時發(fā)揮的作用;考慮終點間的相關(guān)性可以在保證試驗效能的情況下節(jié)省樣本量,降低病人暴露風險的可能性;因此分別計算樣本量取最大值的方法,并結(jié)合隨機模擬的方法進行驗證不失為一種切實可行的樣本量計算方法,但兩種方法結(jié)合的細節(jié)和具體的操作方式仍需探討。
每次隨機模擬都相當于進行了一次臨床試驗,又因模擬過程是隨機的,可能出現(xiàn)很多不滿足方差齊性等假設(shè)的情況,這樣的數(shù)據(jù)可能更貼近于實際應(yīng)用臨床試驗數(shù)據(jù)〔10〕;因此可用于探討樣本量確定方法的合理性。
綜上所述,對于存在兩個共同終點臨床試驗的樣本量設(shè)計,每個終點分別計算取最大值的樣本量計算方法不適用于兩個終點間平均效應(yīng)差距較小的情況,運用時要慎重。
1.Chuang-Stein C,Stryszak P,Dmitrienko A,et al.Challenge of multiple co-primary endpoints:a new approach.Stat Med,2007,26(6):1181-1192.
2.Sankoh AJ,Sr DRB,Huque MF.Efficacy endpoint selection and multiplicity adjustment methods in clinical trials with inherent multiple endpoint issues.Stat Med,2003,22(20):3133-3150.
3.Eaton ML,Muirhead RJ.On a multiple endpoints testing problem.Journal of Statistical Planning and Inference,2007,137(11):3416-3429.
4.Offen W,Chuang-Stein C,Dmitrienko A,et al.Multiple co-primary endpoints:medical and statistical solutions a report from the multiple endpoints expert team of the pharmaceutical research and manufacturers of america.Drug Information Journal,2007,41:31-46.
5.Leon AC,Heo M,Teres JJ,et al.Statistical power of multiplicity adjustment strategies for correlated binary endpoints.Stat Med,2007,26(8):1712-1723.
6.Leon AC,Heo M.A comparison of multiplicity adjustment strategies for correlated binary endpoints.J Biopharm Stat,2005,15(5):839-855.
7.U.S.Department of Health and Human Services,F(xiàn)ood and Drug Administration,Center for Drug Evaluation and Research,Center for Biologics Evaluation and Research.Guidance for Industry:E9 Statistical Principles,1998.
8.Altman DG,Schulz KF,Moher D,et al.The revised CONSORT statement for reporting randomized trials:explanation and elaboration.Ann Intern Med,2001,134(8):663-694.
9.Koch GG,Gansky SA.Statistical considerations for multiplicity in confirmatory protocols.Drug Information Journal,1996,33:523-533.
10.王楊,李衛(wèi),成小如,等.隨機模擬法驗證非劣效臨床試驗樣本量計算公式.中國衛(wèi)生統(tǒng)計,2008(1):26-28.
Sample Size Considerations in Superiority Clinical Trials With Co - primary Endpoints
Wu Zhenqiang,Li Wei,Sun Yehuan,et al.Medical Research &Biometrics Center,State Key Laboratory of Cardiovascular Disease,F(xiàn)uwai Hospital,National Center for Cardionascular Disease,Chinese Academy of Medical Sciences and Peking Union Medical College(100037),Beijing
ObjectiveTo evaluate the method of selecting a maximum sample size of those obtained from testing individual primary endpoint.MethodsMonte Carlo simulation was used to verify the power of this sample size calculated method.Furthermore,we assessed the effect of correlation coefficient among the co-primary endpoints.ResultsWhen the mean effect sizes are equal in individual primary endpoints,the study power cannot reach 80%.Study power fluctuates around 60%if the correlation coefficient is negative.However,the power increases with the incretion of correlation coefficient when the correlation coefficient is greater than 0.ConclusionThe method of selecting a maximum sample size is under-power when the mean effect sizes are equal in individual primary endpoint.When effect sizes largely varied,the study power is enough.
Clinical trials,Simple size calculation,Power,Correlation,Monte Carlo comsimulation
(責任編輯:丁海龍)