哈爾濱醫(yī)科大學衛(wèi)生統(tǒng)計學教研室(150086) 侯 艷 李 康
兩組計量資料非劣效檢驗的P-P曲線評價方法*
哈爾濱醫(yī)科大學衛(wèi)生統(tǒng)計學教研室(150086) 侯 艷 李 康△
目的針對兩組計量資料的非劣效性評價問題,給出一種新的統(tǒng)計檢驗方法。方法根據(jù)計量資料的不同評價分界值,給出相應的試驗組和對照組的“有效率”,分別以兩組的“有效率”為橫軸和縱軸,連成P-P曲線并計算曲線下面積,然后根據(jù)這一統(tǒng)計量進行統(tǒng)計檢驗,并通過模擬實驗對檢驗效能進行研究。結果給出了P-P曲線方法的檢驗公式,使用這種方法更易于選擇非劣效界值,而且對數(shù)據(jù)的分布沒有任何限制,在偏態(tài)情況下比傳統(tǒng)方法有更高的檢驗效能。結論該方法適合用于Ⅱ期探索性臨床試驗研究,具有應用和研究價值。
臨床試驗非劣性試驗非劣效界值P-P曲線
在新藥臨床試驗中,經(jīng)常需要比較試驗藥物是否非劣于陽性對照藥物的療效,例如新的治療方法與標準治療相比安全性方面可能更有優(yōu)勢,其療效只要在允許的非劣效界值范圍內(nèi)即可。兩組計量資料的非劣效性評價,一般采用兩組均數(shù)的差值進行衡量和檢驗。非劣效界值的確定是設計的關鍵,通常需要根據(jù)陽性對照的效應、具體疾病特征、臨床意義等進行確定[1-2]。傳統(tǒng)的檢驗方法需要假定數(shù)據(jù)服從正態(tài)分布,如果數(shù)據(jù)明顯呈偏態(tài),分析的結果則可能不正確,而且選擇的非劣效界值也可能失去意義。本文提出P-P曲線這一新的概念和方法,闡述了它與傳統(tǒng)臨床試驗非劣效評價方法的關系,在此基礎上推薦了新的非劣效檢驗的界值標準,這種方法對數(shù)據(jù)的分布沒有任何限制,而且在偏態(tài)分布時同樣能夠保證其檢驗效能。
1.P-P曲線及曲線下面積
假定標準組和試驗組的療效變量Y服從任意分布,G表示分組變量,G=0表示標準組,G=1表示試驗組,各自服從方差為σ2(G)的分布,同時假定測量值越大療效越好(高優(yōu)指標)。對于定量終點評價指標,試驗組和標準組的分布通常有較大的重疊,如果將其分為“有效”和“無效”兩類,選擇不同的閾值會得到不同的結果(圖1)。現(xiàn)用橫坐標πT(c)和πS(c)分別表示試驗組和標準組的“有效率”,不斷改變“有效率”的閾值c,獲得一條連續(xù)的曲線,對此稱之為P-P曲線,并用參數(shù)θ表示曲線下面積(0≤θ≤1)。從圖2可以看到,如果試驗組與標準組的療效完全相同,P-P曲線是由(0,0)到(1,1)的45°角的直線,直線下面積為θ=1/2;當試驗組的療效不如標準組時,曲線下面積θ<1/2;當試驗組療效優(yōu)于對照組時,曲線下面積θ>1/2。記Δθ=1/2-θ表示兩組療效的平均差別,Δθ愈大說明試驗組的療效與對照組相差愈大,當Δθ<0時,說明試驗組的療效優(yōu)于標準組。
圖1 試驗組與標準組療效測量結果的概率分布與確定有效率的閾值
圖2 試驗組和標準組的P-P曲線示意圖
FT(c)和FS(c)分別是試驗組和標準組的分布函數(shù),PP曲線方程可以表示為
特殊地,當標準組和試驗組的療效分別服從N的正態(tài)分布時,容易推出P-P曲線方程:
Φ(·)為標準正態(tài)的分布函數(shù)。P-P曲線下的面積為
2.Δθ值的意義
下面我們證明兩組有效率差值與P-P曲線下面積θ之間的關系[3]。
兩總體率的最大差值max{Δπ(c)}的截斷點c*可以通過解下面方程得到,即
其中fS(c)和fT(c)分別為標準組和試驗組測量結果的密度函數(shù)。容易證明,c*恰為兩密度曲線的相交點,同時是P-P曲線上45°切線上的點。在正態(tài)分布假定下,有
c*的解由下式?jīng)Q定:
兩總體率的最大差值:
特殊地,在σT=σS時,c*=(μS+μT)/2,于是P-P曲線下面積的參數(shù)θ與max{Δπ(c)}之間的數(shù)量關系為
max{Δπ(c)}與Δθ的具體數(shù)量關系見表1。例如Δθ=0.05,max{Δπ}=0.0708,表示在雙正態(tài)同方差假定下,無論怎樣選擇“有效率”的閾值c,標準組與試驗組的有效率之差最大不超過7.08%。RR表示對應c值的兩組有效率的比值。實際上,在非正態(tài)情況下(如Weibull分布),只要方差相同,max{Δπ(c)}與Δθ的關系與正態(tài)分布的情況相差不大(如max{Δπ(c)}<0.08)。為便于應用,表1和表2給出了標準組在各百分位點時不同指標的對應值。例如,標準組的有效率為0.80,在選擇Δθ=0.05作為非劣效界值時,相當于取兩組有效率的最大差值max{Δπ(c)}=0.0534為界值。為便于比較,同時也給出了相應的兩組有效率的比值RR??梢钥闯觯x擇Δθ=0.05是一個較為適當?shù)倪x擇,此時max{Δπ(c)}=0.0534,在πS>0.40的情況下,能夠保證max{RR(c)}≤1.20,作為非劣效的界值基本上能夠滿足目前臨床試驗的要求。
表1 雙正態(tài)分布P-P曲線下面積θ與Δπ之間的數(shù)量關系
表1 雙正態(tài)分布P-P曲線下面積θ與Δπ之間的數(shù)量關系(續(xù))
3.P-P曲線下面積的計算
P-P曲線計算有多種方法,這里給出最基本的方法??梢宰C明,P-P曲線下面積是對照組檢測值大于試驗組檢測值的概率,即
θ的估計值可以利用下式計算,即
其中
nS和nS為標準組和試驗組的檢測例數(shù)。樣本估計方差可以用Delong給出的非參數(shù)方法計算得到[4]。
4.統(tǒng)計檢驗方法
對于給定的P-P曲線下面積的非劣效界值δP-P,非劣效檢驗的方法為[5]
統(tǒng)計量z近似服從正態(tài)分布,如果z>z1-α,則可以拒絕H0,認為試驗組非劣效性成立。同樣可以使用可信區(qū)間的方法,即按照100(1-α)%的置信度,計算出單側可信區(qū)間的上限CU,若CU<δP-P則可下非劣效的結論??尚艆^(qū)間檢驗方法與公式(11)檢驗方法等價。
1.雙正態(tài)分布情況
在兩組方差相同的情況下,兩組均數(shù)非劣效檢驗的樣本含量計算公式為[6]
其中,δ0和Δμ分別為給定的兩組均數(shù)差值的允許界值和實際差值,p為標準組在總樣本中所占的比例。
對于給定的P-P曲線檢驗方法的非劣效界值δP-P,與兩組均數(shù)差值的非劣效檢驗的界值δ0有如下關系:
μT.0是在原假設H0:Δθ=δP-P成立時試驗組的均數(shù)。容易推出:
為便于比較,選擇P-P曲線方法檢驗,取δP-P=0.05和δP-P=0.07兩種不同的非劣效界值,兩組的樣本含量比值k=1,即p=1/2,樣本量nS=nT=200,對于不同實際差別Δθ,其檢驗效能的變化見圖3??梢钥闯觯趦山M服從正態(tài)分布且方差相同假定下,P-P曲線方法與傳統(tǒng)的均數(shù)差值方法的檢驗效能曲線重合。
2.偏態(tài)分布情況
假設測量結果Y取對數(shù)lnY服從正態(tài)分布,即lnY~N(μ,σ2)。如果標準組和試驗組的測量結果分別服從則Y的數(shù)學期望為
根據(jù)設定的P-P曲線下面積非劣效界值δP-P,將其換算成用原始變量Y表示的非劣效界值δ0,具體方法為
其中E(YT.0)和μT.0分別表示在原假設成立條件下,試驗組測量值和取對數(shù)的期望值。
圖3 正態(tài)分布下采用兩種不同檢驗方法計算出的檢驗效能(傳統(tǒng)方法的檢驗界值δ0按照P-P曲線檢驗給出的界值δP-P換算得到)
用模擬實驗考核檢驗效能,模擬中設lnYS~N(2,1)和lnYT~N(μT.a(chǎn)lt,1),μT.a(chǎn)lt是備擇假設下試驗組測量值對數(shù)的期望值。模擬試驗采用傳統(tǒng)的均數(shù)差值法和P-P曲線兩種方法進行檢驗(α=0.05),結果見圖4。結果表明,隨著Δθ的增大,非劣效檢驗的把握度逐漸減小,在實際差別與非劣效界值相同時,檢驗效能接近檢驗水準0.05,說明能夠較好地控制檢驗的Ⅰ類誤差。同時也看出,在偏態(tài)分布情況下,P-P曲線法的結果與正態(tài)分布時的檢驗效能比較十分相近,而傳統(tǒng)的均數(shù)差值法的檢驗效能則降低很多,P-P曲線檢驗方法的檢驗效能明顯高于傳統(tǒng)檢驗方法。
圖4 在對數(shù)正態(tài)分布下采用兩種不同檢驗方法計算出的檢驗效能(傳統(tǒng)方法的檢驗界值按照P-P曲線檢驗給出的界值換算得到)
1.本文針對兩組計量資料的非劣效性評價問題,給出了一種新的統(tǒng)計檢驗方法。P-P曲線的思想源于診斷試驗評價的ROC(receiver operating characteristic)分析,這種方法的最大特點是對數(shù)據(jù)的分布沒有任何限制,而且對于不同檢測的數(shù)據(jù)使用相同的統(tǒng)計準則去確定非劣效性界值δP-P,并且可以將試驗組和標準組的分析結果用圖形直觀的顯示。
2.實際中,非劣效性界值的選擇需要根據(jù)統(tǒng)計學和臨床判斷綜合考慮,本文推薦使用δP-P=0.05,如果放寬檢驗標準,可以選擇δP-P=0.07,給出的這些標準不僅適合正態(tài)分布,同樣適合偏態(tài)分布數(shù)據(jù)。在雙正態(tài)分布時,由式(4)可以導出;δP-P=Φ(δ0/由此可見,δP-P=0.05時,σS和σT的值愈大,δ0也愈大,即這種方法能夠自動地調整δ0與數(shù)據(jù)變異之間的關系,使非劣效性評價更為簡單和具有實效。這種方法的不足:Δθ的實際意義不如Δμ直觀,因此建議在Ⅱ期探索性臨床試驗中使用。
3.模擬試驗的結果表明,無論總體是否服從正態(tài)分布,只要方差相同,檢驗效能基本不改變,而傳統(tǒng)方法只有在正態(tài)和方差相同條件下才能夠準確地檢驗和保證最大的檢驗效能。事實上,在方差不相同時,P-P曲線方法同樣是有效的,但在這種情況下需要考慮其專業(yè)意義。
4.關于協(xié)變量調整的問題。對計量數(shù)據(jù)的非劣效性試驗,如果有協(xié)變量影響療效,可以采用協(xié)方差分析的方法,然而如果數(shù)據(jù)呈明顯的偏態(tài)分布或是兩組方差不相等,則傳統(tǒng)的協(xié)方差分析的檢驗結果可能出現(xiàn)問題。本文給出的P-P曲線方法同樣可以對協(xié)變量進行調整分析[3,6],并且沒有線性模型對這些條件的限制,同時可以很容易地推廣到重復測量等研究設計的非劣效性分析,具有一定的研究價值和應用前景。
1.CCTS工作組,夏結來.非劣效臨床試驗的統(tǒng)計學考慮.中國衛(wèi)生統(tǒng)計,2012,9(2):270-273.
2.侯艷,武振宇,李康.臨床新藥試驗中非劣效性檢驗界值的確定方法.中國衛(wèi)生統(tǒng)計,2008,25(6):648-651.
3.Hou Y,Ding V,Li K,Zhou XH.Two new covariate adjustmentmethods for non-inferiority assessment of binary clinical trials data.Journal of Biopharmaceutical Statistics,2010,21(1):77-93.
4.DeLong ER,DeLong DM,Clarke-Pearson DL.Comparing the areas under two or more correlated receiver operating characteristic curves:A nonparametric approach.Biometrics,1988,44:837-845.
5.劉玉秀,姚晨,陳峰,等.非劣性/等效性試驗的樣本含量估計及統(tǒng)計推斷.中國新藥雜志,2003,12(5):371-376.
6.侯艷,李康.非劣效性臨床試驗中兩組率差值的協(xié)變量調整方法.中國衛(wèi)生統(tǒng)計,2012,29(2):196-198,201.
(責任編輯:郭海強)
P-P Curve Evaluation M ethod for the Non-inferiority of Clinical Trials in the Quantitative Data
Hou Yan,Li Kang(Department of Medical Statistics,Harbin Medical University(150086),Harbin)
ObjectiveIn this study,we presented a new statistical method to assess the non-inferiority for two-arm quantitative outcome.MethodsEfficacy rates from the test drug and positive control group were obtained according to the thresholds formed a probability and probability(P-P)curve,where the horizontal axis is the efficacy rate from the positive control drug and the vertical axis is one from the test drug.We calculated the area under the P-P curve and performed the statistical testw ith this new-devised statistics.In addition,a series of simulation studieswere performed to test the statistical power for this method.ResultsWe presented a test formula for P-P curvemethod,which is easier to choose the non-inferiority margin.Furthermore,thismethod has no lim itation for the data distribution,especially in the case of skewed distribution,it could provide high statistical power for thismethod.ConclusionThismethod could be effective in the explorative study and it deserves practical application and further studies.
Clinical Trials;Non-inferiority Test;Non-inferiority Margin;P-P curve
*:國家自然科學基金項目(81102201),哈爾濱醫(yī)科大學伍連德青年基金(WLD-QN1105)
Δ通信作者:E-mail:likang@ems.hrbmu.edu.cn