郭正梅閻小妍姚 晨,△
兩個有序分類變量構建一個分類復合終點指標方法的模擬評價*
郭正梅1閻小妍2姚 晨1,2△
目的對于臨床試驗有效性評價中兩個或可以轉變?yōu)閮蓚€均為有序分類變量的主要終點指標,提出一種最樂觀或最悲觀的構建分類復合終點的方法,分析這種方法的合理性及應用性。方法采用MonteCarlo模擬的方法,考慮調整樣本量和相關系數(shù),分析分類復合終點指標進行療效評價的Ⅰ型錯誤和檢驗效能,并與多重檢驗和連續(xù)復合終點指標的結果進行比較。結果Ⅰ型錯誤方面,隨著樣本量和相關系數(shù)的增大,兩個主要終點指標均有統(tǒng)計學意義的多重檢驗的Ⅰ型錯誤遠低于檢驗水準0.05,至少一個主要終點指標有統(tǒng)計學意義的多重檢驗的Ⅰ型錯誤在0.04至0.05之間,分類復合終點指標和連續(xù)復合終點指標的Ⅰ型錯誤均保持在0.05左右。檢驗效能方面,整體上,分類復合終點指標的檢驗效能、連續(xù)復合終點的檢驗效能和至少一個主要終點指標有統(tǒng)計學意義的多重檢驗的檢驗效能接近,三者均大于兩個主要終點指標均要有統(tǒng)計學意義的多重檢驗的檢驗效能,后者最保守。各方法的檢驗效能與兩個主要終點指標間相關系數(shù)的關系因賦值不同而有不一樣的變化趨勢。結論對于臨床試驗兩個或可以轉變?yōu)閮蓚€均為有序分類變量的主要終點指標的資料,可根據(jù)臨床實際意義構建最樂觀或最悲觀分類復合終點指標,其能得出可解釋的綜合水平,能控制Ⅰ型錯誤且具有較高的檢驗效能。而且無論相關系數(shù)大小,都可以構建分類的復合終點指標,因為樂觀與悲觀之間沒有固定的優(yōu)劣關系,使得研究者在實際研究過程中根據(jù)實際情況來構建評價指標,而不是傾向于選擇樂觀的方法來構建,避免這一傾向帶來的偏倚。
多個主要終點指標有序分類變量Ⅰ型錯誤檢驗效能
臨床有效性指標根據(jù)研究目的通常被分為主要指標(primary endpoint)和次要指標(secondary endpoint),主要指標的選擇通常是能反映臨床試驗的主要目的,同時易于量化、客觀性強、可重復性高并在相關研究領域已有公認的準則或標準的臨床有效性評價指標。但是,這一情形在一些疾病或者臨床試驗中并不適用,例如,病因未明的疾病,由于缺乏一個最重要的臨床公認評價指標以多角度呈現(xiàn)自身的疾病,以及治療領域現(xiàn)行的評價療效的方法決定從多方面來選擇療效指標并對療效指標進行評價的疾病。這樣,就會出現(xiàn)多個終點指標(multiple endpoints),當采用多個主要終點指標進行多重檢驗時就會存在檢驗的多重性問題,就需要在方案設計時制定出有效的策略和方法來事先控制I類錯誤率(family-w ise error rate,F(xiàn)WER),常用的控制I類錯誤的方法有Bonferoni方法、Holm方法、Shaffer方法等[1],為了達到預期的檢驗效能,所需要的樣本量就會增大;當進行兩個干預方案比較時,由于多個主要終點指標對病人健康的重要性不同,而且每個指標比較時不同方案之間的優(yōu)劣差異也是不一致的,此時就很難判斷孰優(yōu)孰劣;若多個主要終點指標均為中間終點(intermediate endpoint),與病人最終療效評價之間的關系存在不確定性[2]。
解決以上問題的方法之一是構建一個能夠綜合反映多個主要終點的復合終點(composite endpoints)。目前,有關疾病治療方面應用復合終點的研究仍然是臨床試驗設計與分析關注的領域,存在的爭議也很多[3]。盡管使用復合終點具有諸多優(yōu)勢:首先,它可以提高終點事件的發(fā)生率,從而減少所需的樣本量,這應是研究者選擇復合終點最主要的原因。其次,使用復合終點可以有效的避免競爭風險。再次,當選擇幾個重要性相似的終點指標存在爭議時,應用復合終點既可以避免這一選擇上的困惑,還能更全面的評價干預措施的療效,提高統(tǒng)計學檢驗效能,因為一個終點指標往往只能反映干預措施有效性和安全性的某一方面。但Neaton等認為對同等重要的終點指標選擇有困難時不能作為使用復合終點的理由[4]。使用復合終點也存在諸多局限性:第一,使用復合終點最常見的缺陷是當治療措施對各個終點指標的影響不一致時,復合終點會削弱統(tǒng)計學檢驗效能,可能對結果解釋產(chǎn)生誤導,最極端的情況是干預措施對構成指標的療效截然相反。第二,當各終點事件對患者重要性不一致時,對結果的解釋可能存在困難,而且制定復合終點也比較復雜,需要計算各指標的權重。第三,使用復合終點需要準確的確定其組成事件,而且即使復合終點療效評價指標被認為具有統(tǒng)計學意義和臨床相關性,也應同時報告干預措施對各組成事件的影響,才能據(jù)此得出可靠的結論,此時需要根據(jù)實際情況調整I類錯誤率[5-7]。
為了準確和可靠地評估研究藥物的有效性和安全性,理想情況下,主要終點指標應該盡量是數(shù)值型連續(xù)變量。然而,在實踐中,有時患者對治療的反應根據(jù)一些有意義且定義明確的事件發(fā)生情況去記錄,如死亡、感染、某種疾病治愈和任何嚴重不良事件,且這些事件的強度能被一些事先定義好的類別進行分級,所以分類數(shù)據(jù)在一些未觀察到潛在的連續(xù)變量的臨床試驗中是有用的替代終點。有時候,為了便于分析或更好地呈現(xiàn)有臨床意義的結果,甚至將連續(xù)數(shù)據(jù)根據(jù)一些預先定義的標準轉化為分類數(shù)據(jù)。因此,在臨床試驗中,許多療效和安全性終點是以名義分類或有序分類數(shù)據(jù)的形式記錄的[8]。繼而出現(xiàn)了使用多個均為有序分類變量的主要終點指標來構建復合終點評價指標的臨床試驗,所構建的復合終點評價指標包括基于變量權重構建的連續(xù)復合終點和基于臨床實際意義構建的分類復合終點,筆者對這部分內容已經(jīng)發(fā)表了一篇文章[9],本文旨在對構建分類復合終點方法的合理性和應用性進行模擬評價。
就如何構建分類復合終點,在此我們只考慮最樂觀綜合評價和最悲觀綜合評價兩種方法,本文以兩個有序五分類的主要療效指標為例來說明主要方法的定義,假設分類1到分類5表示療效從好到差,表1表示兩個主要療效指標復合時,綜合平價按照療效更好的評價,即最樂觀綜合評價;表2則表示主要療效指標復合時,綜合平價按照療效更差的評價,即最悲觀綜合評價。
表1 最樂觀綜合評價
表2 最悲觀綜合評價
就如何構建連續(xù)復合終點,下面就以SF-36量表中“軀體疼痛”這一個維度為例進行說明,其由兩個項目組成,其中疼痛強度分6類、疼痛干擾工作分5類,傳統(tǒng)的SF-36評價方法如下表3,其實質是首先對兩個項目各分類賦分,根據(jù)實際情況給每個項目一個權重(此處權重為1),然后將各項目得分乘以其權重相加得出的和為連續(xù)復合終點的值[10]。
由于本文是針對臨床試驗兩個或可以轉為兩個均為有序分類變量的主要終點指標,所以本研究的多重檢驗和分類復合終點的組間比較均采用秩和檢驗,連續(xù)復合終點的組間比較,當數(shù)據(jù)滿足正態(tài)性時采用t檢驗,當不滿足時采用秩和檢驗。數(shù)據(jù)模擬由計算機完成,模擬數(shù)據(jù)的軟件采用SASversion 9.2(SAS Institute Inc.),進行t檢驗的SAS過程為PROC TTEST過程,進行秩和檢驗的SAS過程為PROC NPAR1WAY過程。
表3 傳統(tǒng)的SF-36評價方法
本研究設定的模擬次數(shù)為10000次,模擬比較了終點間相關系數(shù)為0.1、0.2、0.3、0.4、0.5、0.6、0.7、0.8、0.9、0.95(不考慮相關系數(shù)為1的情況是因為:如果兩個主要終點指標完全相關,就沒有必要兩個都作為主要終點指標),以及兩組樣本量均為50,100,150,200,250這50種模擬情形下幾種方法的Ⅰ型錯誤和檢驗效能。構建連續(xù)復合終點時,兩主要療效指標的各類別賦分均假設為3、2、1、0、-1,并計算各種模擬情形下權重比為0.4·0.6、0.5·0.5、0.6·0.4(因為當兩指標重要程度相當時,才會都作為主要終點指標)時連續(xù)復合終點的Ⅰ型錯誤和檢驗效能。共模擬比較以下幾種分析方法:
①最樂觀綜合評價,檢驗水準均為0.05;
②最悲觀綜合評價,檢驗水準均為0.05;
③多重檢驗,兩個主要終點指標均要有統(tǒng)計學意義,單個主要終點指標的檢驗水準為0.05;
④多重檢驗,至少一個主要終點指標要有統(tǒng)計學意義,單個主要終點指標的檢驗水準為0.025;
⑤連續(xù)復合終點評價指標,權重比為0.4:0.6、0.5:0.5、0.6:0.4,檢驗水準均為0.05。
為了驗證上面所提出的方法的合理性,以兩個組別、兩個有序分類的療效指標為例進行比較說明,這里給出了Monte Carlo模擬的思路、過程及結果,以供讀者參考。
1.分類復合終點、多重檢驗和連續(xù)復合終點Ⅰ型錯誤的模擬比較
(1)模擬數(shù)據(jù)集的產(chǎn)生和參數(shù)設置
Ⅰ型錯誤又叫假陽性,即拒絕了實際上成立的H0。因此,比較Ⅰ型錯誤時,模擬比較的兩個樣本應來自同一個總體。如上所述,以兩個治療組別、兩個有序五分類的主要療效指標為例來進行模擬比較,其中相應組別的各主要療效指標的各分類的背景率假設如下:
A組主要療效指標1的各分類背景率假設為0.001、0.015、0.231、0.708和0.045,五個率之和為1;
A組主要療效指標2的各分類背景率假設為0.030、0.106、0.197、0.606和0.061,五個率之和為1;
B組主要療效指標1的各分類背景率假設為0.001、0.015、0.231、0.708和0.045,五個率之和為1;
對模擬產(chǎn)生的數(shù)據(jù)集進行模擬研究方法所述各種情形的幾種方法檢驗分析,計算所有模擬檢驗中出現(xiàn)陽性結果(P≤α)的比率即該檢驗方法的Ⅰ型錯誤水平。
(2)模擬結果
模擬結果表明隨著樣本量的增大,各種方法的Ⅰ型錯誤無明顯變化,所以只給出樣本量為50時的Ⅰ型錯誤圖形,從圖1可以看出,隨著相關系數(shù)的增大(此處橫坐標的相關系數(shù)為模擬產(chǎn)生的A、B組數(shù)據(jù)的兩組兩主要終點指標間相關系數(shù)的平均值),兩個主要終點指標均要有統(tǒng)計學意義的多重檢驗的Ⅰ型錯誤越來越大,但是遠低于0.05;至少一個主要終點指標要有統(tǒng)計學意義的多重檢驗的Ⅰ型錯誤有下降趨勢,但是都在0.04至0.05之間;分類復合終點評價指標和連續(xù)復合終點評價指標的Ⅰ型錯誤均保持在0.05左右。
圖1 不同相關系數(shù)時各種方法的Ⅰ型錯誤(n=50)
2.分類復合終點、多重檢驗和連續(xù)復合終點檢驗效能的模擬比較
(1)模擬數(shù)據(jù)集的產(chǎn)生和參數(shù)設置
檢驗效能(1-β)又叫把握度,即當兩總體確有差異時,按規(guī)定檢驗水準(α)所能發(fā)現(xiàn)該差異的能力。在檢驗效能的模擬比較中,分析用數(shù)據(jù)集應來自兩個確有差別的總體。如上所述,以兩個治療組別、兩個有序五分類的主要療效指標為例來分別進行比較說明,根據(jù)某一實際的臨床試驗結果,各組各分類的背景率假設如下:
1.3.1 對照組 對照組給予乳腺外科常規(guī)圍手術期干預,包括完善術前相關檢查,進行相關知識及手術流程宣教,術后預防感染等。
A組主要療效指標1的各分類背景率假設為0.001、0.015、0.231、0.708和0.045,五個率之和為1;
A組主要療效指標2的各分類背景率假設為0.030、0.106、0.197、0.606和0.061,五個率之和為1;
B組主要療效指標1的各分類背景率假設為0.033、0.083、0.283、0.600和0.001,五個率之和為1;
B組主要療效指標2的各分類背景率假設為0.033、0.217、0.333、0.400和0.017,五個率之和為1。
模擬情形參見模擬研究方法部分,對模擬數(shù)據(jù)集進行各種情形的幾種方法檢驗分析,計算所有模擬檢驗中出現(xiàn)陽性結果(P≤α)的比率即為該方法的檢驗效能。
(2)模擬結果
由圖2-4可以看出,隨著樣本量的增大,檢驗效能越來越大,當樣本量為200時,各方法的檢驗效能已經(jīng)幾乎重疊且接近100%了,當樣本量為250時,重疊的趨勢更加明顯,所以樣本量為200和250的圖形省略。整體上,分類復合終點評價指標的檢驗效能接近連續(xù)復合終點和至少一個主要終點指標均要有統(tǒng)計學意義的多重檢驗的檢驗效能;兩個主要終點指標均要有統(tǒng)計學意義的多重檢驗最保守,除了兩個主要終點指標均要有統(tǒng)計學意義的多重檢驗的檢驗效能隨著相關系數(shù)的增大有增大趨勢外,其他方法的檢驗效能均有隨著相關系數(shù)的增大有減小的趨勢。
圖2 不同相關系數(shù)時各種方法的檢驗效能(n=50)
圖3 不同相關系數(shù)時各種方法的檢驗效能(n=100)
圖4 不同相關系數(shù)時各種方法的檢驗效能(n=150)
但是,當假設的背景率不同時,不能得出樂觀與悲觀方法誰大誰小,也不能得出隨相關系數(shù)有增高或減小的固定趨勢,但是根據(jù)所有模擬結果能得出,整體上,分類復合終點評價指標的檢驗效能、連續(xù)復合終點的檢驗效能和至少一個主要終點指標要有統(tǒng)計學意義的多重檢驗的檢驗效能接近,三者均大于兩個主要終點指標均要有統(tǒng)計學意義的多重檢驗的檢驗效能,后者最保守。
Ⅰ型錯誤和檢驗效能是反映一種檢驗方法合理與否的兩個重要指標,筆者考察了對于臨床試驗兩個或可以轉變?yōu)閮蓚€均為有序分類變量的主要終點指標,模擬比較了分類復合終點指標、多重檢驗和連續(xù)復合終點指標的Ⅰ型錯誤和檢驗效能。模擬結果說明,隨著樣本量和終點間相關系數(shù)的增大,無論是連續(xù)復合終點還是分類復合終點,其Ⅰ型錯誤均在檢驗水準0.05左右,這糾正了一些研究者認為構建復合變量會增大Ⅰ型錯誤的認識,說明了這種方法不會增加將無效的藥物推向市場而給病人的健康和生命帶來威脅;至少一個主要終點指標要有統(tǒng)計學意義的多重檢驗的Ⅰ型錯誤有下降趨勢,但是都在0.04至0.05之間,兩個主要終點指標均要有統(tǒng)計學意義的多重檢驗的Ⅰ型錯誤越來越大,但是遠低于0.05。檢驗功效方面,隨著樣本量的增大,檢驗效能越來越大,在樣本量為50時,分類復合終點指標的檢驗效能和連續(xù)復合終點的檢驗效能已有70%左右,而兩個主要終點指標均要有統(tǒng)計學意義的多重檢驗的檢驗效能只有50%左右,本模擬結果進一步驗證,為了達到預期的檢驗效能,使用復合終點可以減少所需的樣本量;當假設的背景率不同時,雖然檢驗功效雖然沒有固定的變化趨勢,但是整體上,分類復合終點指標的檢驗效能、連續(xù)復合終點的檢驗效能和至少一個主要終點指標要有統(tǒng)計學意義的多重檢驗的檢驗效能接近,三者均大于兩個主要終點指標均要有統(tǒng)計學意義的多重檢驗的檢驗效能,后者最保守,結合Ⅰ型錯誤和檢驗效能的模擬結果,可見前三種方法更可取。
但是,目前國內關于多個主要終點問題的討論和方法雖多,但多停留于學術上的研究,真正應用到實際中的并不多見,尤其是考慮到終點間相關性的文獻甚少,尚無較成熟的方法。而實際情況是多終點問題常常被忽視,從而直接影響了試驗結果的可信度。研究表明,在使用多重檢驗的臨床試驗中校正多終點檢驗時,終點間的相關性不容忽視[11]。既往關于多個主要終點的研究有的沒有明確提出對總I類錯誤率控制的問題,有的研究即使控制了總I類錯誤率,往往也沒有考慮到多個主要療效評價指標之間的相關性;近年來出現(xiàn)了一些考慮到終點間相關性的控制總I類錯誤率的方法,如James'P值校正法[12],屬不多的考慮到終點間相關性的校正方法之一,其原理是基于標準多元正態(tài)分布對各個終點檢驗的Pi值進行校正,檢驗水準不變,該方法優(yōu)點是將終點間相關系數(shù)引入校正公式,充分考慮到了終點間的相關性,在多終點間高度相關時能較好地控制試驗總的Ⅰ類錯誤[13]。缺點是要求終點間等相關,不等相關時近似估計等相關系數(shù),且公式復雜實際應用中難以推廣。
再者,構建連續(xù)復合終點時,將多個主要終點各類別賦分再加權得總分的研究的科學性有待商榷,因為,其一,如何給各終點的各類別賦分?有一個共同的觀點認為有序分類變量的測量性能是有序的,而不是一個具體的數(shù)值,不論標簽的類型,有序數(shù)據(jù)只包含順序信息,而不是大小或距離信息。有序變量是可按序排列的多分類變量,紐約心臟病協(xié)會的心功能分級就是一個例子,將心功能分為四個等級,盡管這四級是有序排列的,但是1級(體力活動不受限制)和2級(體力活動輕度受限)之間不存在數(shù)量上的差別,而1級和2級之間的差別也不等同于3級(體力活動明顯受限)和4級(不能從事任何體力活動,休息時亦有癥狀)之間的差別。再如,沒有任何理由認為個人反應表示的替代方式,如“一點也不”(1),“輕微”(2),“中等”(3),“相當”(4)和“極度”(5)服從相等的間隔。統(tǒng)計方法必須不受任何形式標簽的影響,這意味著代數(shù)的基本操作沒有可能被應用到有序數(shù)據(jù),并且從數(shù)據(jù)的數(shù)學計算得出的結論可能是無效的。不幸的是,盡管有這方面的知識,在實踐中,研究者常常將間隔測量水平視為定量數(shù)據(jù)。其二,各個終點的權重如何確定?尤其是當各個終點間存在相關性時,各個終點的權重就更難確定。目前,雖然存在一些確定變量權重的方法,但是由于這些方法自身尚存在的一些缺陷,因此在該問題上業(yè)界意見還不一致。其三,我們通過構建連續(xù)復合變量的方法得出的數(shù)值,只有大小信息,沒有實際的臨床意義,而構建分類復合終點的方法考慮到數(shù)據(jù)的非計量性質,較容易理解和使用,所以該方法可以提供一個可解釋的綜合水平,如表3中陰影部分表示分類復合后的一個分類(如為⑤),如果一組病人的軀體疼痛的中位數(shù)恰好為⑤,它意味著這組病人的軀體疼痛平均水平為"(無)很輕微疼痛,不干擾工作",而這組病人相應的SF得分的平均數(shù),卻只能提供數(shù)值大小的信息,沒有實際的臨床意義。
因為不同設定數(shù)值時,不能得出樂觀與悲觀方法誰大誰小,也不能得出隨相關系數(shù)有增高或減小的固定趨勢,但是根據(jù)模擬結果能得出,在控制Ⅰ型錯誤的前提下,分類復合終點指標的檢驗效能、連續(xù)復合終點的檢驗效能和至少一個主要終點指標要有統(tǒng)計學意義的多重檢驗的檢驗效能接近,三者均大于兩個主要終點指標均要有統(tǒng)計學意義的多重檢驗的檢驗效能,其最保守。這個結果說明無論相關系數(shù)大小,都可以構建分類的復合終點評價指標,而且樂觀與悲觀之間沒有固定的優(yōu)劣關系,使得研究者在實際研究過程中根據(jù)實際情況來構建評價指標,而不是傾向于選擇樂觀的方法來構建,避免這一傾向帶來的偏倚。此外,進一步驗證多個主要終點指標比較時,合理控制Ⅰ型錯誤的重要性,理論上,檢驗水準一致時,至少一個主要終點指標有統(tǒng)計學意義的多重檢驗,其檢驗效能必然在一定程度上大于兩個主要終點指標均要有統(tǒng)計學意義的多重檢驗;而減小至少一個主要終點指標有統(tǒng)計學意義的多重檢驗的檢驗水準,會降低其檢驗效能,如本文至少一個主要終點指標要有統(tǒng)計學意義的多重檢驗,此時單個主要終點指標的檢驗水準減小為0.025,結果這種多重檢驗的檢驗效能仍遠大于兩個主要終點指標均要有統(tǒng)計學意義的多重檢驗的檢驗效能,說明檢驗水準降低后至少一個主要終點指標有統(tǒng)計學意義的多重檢驗的檢驗效能依然高于兩個主要終點指標均要有統(tǒng)計學意義的多重檢驗。
在此值得一提的是,關于多個主要終點指標均要有統(tǒng)計學意義的多重檢驗的檢驗水準問題,如果研究允許的總Ⅰ類錯誤率是雙側0.05,則每個主要指標的檢驗水準都定為雙側0.05。本文兩個主要終點指標均要有統(tǒng)計學意義的多重檢驗最保守的結論與Offen W和Chuang-Stein C等[14-15]的觀點一致,他們也認為這種方法降低了研究的檢驗效能,并提出了平均I類錯誤方法,基于合理的假設,該方法提高了單個終點的檢驗水準,關于平均I類錯誤方法不是本文重點,所以不做過多討論,讀者可以參考相關文獻。
所以,雖然臨床試驗分類復合終點的使用應在沒有其它更好的辦法時才使用,但是當臨床試驗的主要終點指標不止一個、指標間存在相關性且各主要終點指標的重要性程度不同時,卻不失為一個好的選擇。對于臨床試驗兩個或可以轉變?yōu)閮蓚€均為有序分類變量的主要終點指標的資料,可采用根據(jù)臨床實際意義構建分類復合終點評價指標分析方法,該方法可以提供一個可解釋的綜合水平,能控制Ⅰ型錯誤且具有較高的檢驗效能。我們希望通過本研究能夠幫助促進大家對復合終點的理解,將復合終點相關問題明朗化,期望同行的后續(xù)深入研究和探討。
1.王彤,易東.臨床試驗中多重性問題的統(tǒng)計學考慮.中國衛(wèi)生統(tǒng)計,2012,29(03):445-450.
2.李洪超,張銀花,劉國恩,等.糖尿病治療終點指標綜述與復合終點的權重構建.中國藥物經(jīng)濟學,2010,(2):42-53.
3.Ferreira-González I,Permanyer-M iralda G,Busse JW,et al.Methodologic discussions for using and interpreting composite endpoints are lim ited,but still identify major concerns.Journal of Clinical Epidem iology,2007,60(7):65l-657.
4.Neaton JD,Gray G,Zuckerman BD,et al.Key issues in endpoint selection for heart failure trials:composite endpoints.JCard Fail,2005,11(8):567-575.
5.彭菊聰,孫甜甜,李倫,等.復合終點.中國循證兒科雜志,2012,07(4):305-307.
6.Rauch G,Kieser M.An expected power approach for the assessment of composite endpoints and their components.Computational Statistics and Data Analysis,2013,60:111-122.
7.Rauch G,Kieser M.Multiplicity adjustment for composite binary endpoints.Methods Inf Med,2012,51(4):309-317.
8.Chow SC,Liu JP.Design and analysis of clinical trials:concepts and methodologies.New York:W iley-Interscience,2003:339-340.
9.郭正梅,姚晨,閻小妍.臨床試驗復合終點評價指標的構建方法概述.中國新藥雜志,2013,22(23):62-69.
10.Svensson E.Construction of a single global scale formulti-item assessments of the same variable.StatMed,2001,20(24):3831-3846.
11.王陵,蔣志偉,李嬋娟,等.多終點變量對藥物療效評價的影響.中國新藥雜志,2011,20(24):2396-2408.
12.James S.Approximate multinormal probabilities applied to correlated multiple endpoints in clinical trials.Stat Med,1991,10(7):1123-1135.
13.Leon AC,Heo M.A comparison ofmultiplicity adjustment strategies for correlated binary endpoints.JBiopharmStatis,2005,15(5):839-855.
14.Offen W,Chuang-Stein C,Dm itrienkoA,etal.Multiple co-primary endpoints:medical and statistical solutions.Drug Inf J,2007,41(1):31-46.
15.Chuang-Stein C,Stryszak P,Dm itrienko A,et al.Challenge ofmultiple co-primary endpoints:new approach.StatMed,2007,26(6):1181-1192.
(責任編輯:劉 壯)
Simulation Evaluation of Constructing a Categorical Com posite Endpoint from Two Ordered Categorical Variables
Guo Zhengmei,Yan Xiaoyan,Yao Chen(Peking University First Hospital,Peking University(100034),Beijing)
ObjectiveFor two or can be converted to two ordered categorical primary endpoints of clinical trials,proposethemostoptim istic or pessim isticmethod to construct categorical composite endpointand evaluate reasonableness and applicability of thismethod.MethodsThrough Monte Carlo simulation,consider adjusting the sample size and correlation coefficient,compare typeⅠerror and power of efficacy evaluation among threemethods(categorical composite endpoint index,multiple testing and continuous composite endpoint index).ResultsIn terms of typeⅠerror,w ith the increase of sample size and correlation coefficient,typeⅠerror of multiple testing that two primary endpoints are statistically significant is far below 0.05,and multiple testing that at leastone primary endpoint is statistically significant is between 0.04 and 0.05,while typeⅠerror of categorical composite endpointand continuous composite endpoint indexes aremaintained around 0.05.In terms of power,power of categorical composite endpoint,power of continuous composite endpoint and power of multiple testing that atleast one primary endpoint is statistically significantare close.The former thre epowers aremuch larger than power ofmultiple testing that two primary endpoints are statistically significant,which is themost conservative.But there is different trend of power change for different correlation coefficients between the two primary endpoints.ConclusionFor two or can be converted to two ordered categorical primary endpoints of clinical trials,we can constructthemostoptimistic or pessimistic categorical composite endpointaccording to actual clinicalmeaning,which can provide useful interpretable comprehensive level and increase power under the control of typeⅠerror.And whatever the size of the correlation coefficient,we can build categorical composite endpoint,because there is no fixed relationship about the pros and cons between optim istic and pessim istic methods.So in real clinical trials,researchers w ill construct categorical composite endpoint index according to the actual situation,rather than tending to choose optim istic approach and avoiding the tendency to bring bias.
Multiple primary endpoints;Ordered categorical variables;TypeⅠerror;Power
*:建設國際標準數(shù)據(jù)管理和統(tǒng)計分析平臺(2012ZX09303019-001)
1.北京大學第一醫(yī)院(100034)
2.北京大學臨床研究所
△通訊作者:姚晨,E-mail:13801378685@139.com