王淑影, 李 洋, 程云飛, 羅琳燕
(長春工業(yè)大學 數(shù)學與統(tǒng)計學院, 吉林 長春 130012)
隨著社會的發(fā)展,刪失數(shù)據(jù)逐漸出現(xiàn)在各個領域且成為研究熱點,其中右刪失數(shù)據(jù)的模型估計問題備受關注。OLLMON分布與傳統(tǒng)的分布函數(shù)相比,具有適用范圍更為廣泛、靈活度更強等優(yōu)點。
有關壽命數(shù)據(jù)的統(tǒng)計分析已經(jīng)發(fā)展成為生物醫(yī)學界的一個重要分支,壽命數(shù)據(jù)是指各種與時間有關的數(shù)據(jù),譬如個體的存活時間、失效時間等。壽命數(shù)據(jù)一般包括兩部分:一是完全數(shù)據(jù),即實驗個體的生存時間能全部準確觀測到的數(shù)據(jù);二是刪失數(shù)據(jù),由于經(jīng)費和時間等客觀條件的限制,獲得的不完全數(shù)據(jù)。
在生存數(shù)據(jù)分析中,為壽命數(shù)據(jù)找到合適的生存分布,使得數(shù)據(jù)與分布函數(shù)較好擬合是十分重要的。由于基礎理論的不斷發(fā)展和實踐的需求,出現(xiàn)了指數(shù)分布、威布爾分布、伽馬分布等多種參數(shù)壽命模型,然而在用這些經(jīng)典分布對真實生存數(shù)據(jù)進行建模時,其效果并不令人滿意。為了使模型可以更好地擬合實際數(shù)據(jù),學者們嘗試在原有的模型中添加新的參數(shù)或加入拓展項得到新的模型。Marshall A W等[1]、顏榮芳等[2]、 Gui W H[3]、Braga A S等[4]、Cruz J N D等[5]、李群等[6]、Alizadeh M等[7]、Vasconcelos J C S等[8]將提出的新模型運用到一般數(shù)據(jù)下,并進行參數(shù)推斷。隨著這些新模型在完全數(shù)據(jù)下的研究逐漸成熟,Ghitany M E等[9]、Ghitany M E等[10]、Kumar S S等[11]、Calabrese R等[12]、Ke W等[13]開始考慮將這些模型引入到刪失數(shù)據(jù)中。
根據(jù)國內(nèi)外文獻綜述可以看出,近年來,有大量學者都投入到刪失數(shù)據(jù)下擴展分布的研究中,所以文中探究右刪失數(shù)據(jù)下OLLMON (Odd Log-logistic Marshall-Olkin Normal)分布的相關統(tǒng)計特性是有價值的。OLLMON分布是Vasconcelos J C S[14]在Marshall-Olkin分布與Odd Log-logistic分布基礎上拓展出來的新模型,其具有雙峰性和非對稱性,相較于正態(tài)分布、Odd Log-logistic分布與 Marshall-Olkin Normal分布,OLLMON分布更為靈活。OLLMON分布在完整數(shù)據(jù)下的相關研究已較為成熟,但是刪失數(shù)據(jù)下OLLMON分布的相關研究較少,故文中的探究具有一定的研究意義。
文中針對右刪失數(shù)據(jù)構(gòu)建了基于OLLMON分布的參數(shù)模型,使用極大似然方法給出感興趣參數(shù)θ的估計。并進行了大量數(shù)值模擬研究,最后對NCCTG肺癌數(shù)據(jù)集進行了實例數(shù)據(jù)分析。
對于某感興趣事件,其生存時間記為Xi(i=1,2,…,n),刪失時間為Ci,當Xi≤Ci時,得到精確觀測值Xi,當Xi>Ci時,得不到精確觀測,則認為變量在Ci處發(fā)生了右刪失。故在右刪失情況下得到實際的觀測樣本為(Ti,δi),其中
Ti=min(Xi,Ci),
δi=I,Xi≤Ci。
設總體Xi服從參數(shù)為μ,σ,ν,τ的OLLMON分布,則其概率密度函數(shù)為
{Φ(z)τ+ν[1-Φ(z)]τ}-2,
μ,σ----N(μ,σ2)分布參數(shù);
ν,τ----形狀參數(shù),ν>0,τ>0;
Φ(·)----標準正態(tài)分布函數(shù)。
其分布函數(shù)與生存函數(shù)為:
當ν>0且τ=1時,即得Marshall-Olkin Normal分布;當τ>0且ν=1時,即得Odd Log-logistic Normal分布;當ν=τ=1時,得到N(μ,σ2)分布。
得到右刪失數(shù)據(jù)下的似然函數(shù)為
其對數(shù)似然函數(shù)為
(τ-1)lnΦ(zi)+(τ-1)ln[1-Φ(zi)]-
對上述對數(shù)似然函數(shù)關于參數(shù)μ,σ,ν,τ求一階偏導數(shù),并令其等于0,得到似然方程,似然方程的解可作為μ,σ,ν,τ的極大似然估計。文中借助R語言stats包中的optim函數(shù)得出參數(shù)的極大似然估計值。在進行理論標準差求解時,需求出協(xié)方差矩陣的估計,文中采用Bootstrap方法,令θ=(μ,σ,ν,τ),首先生成服從OLLMON分布的右刪失數(shù)據(jù)集O,設B是提前設定好的正整數(shù),對于每一個b=1,2,…,B,從刪失數(shù)據(jù)中重復抽樣得到B個獨立的Bootstrap樣本
記
為驗證分布模型的參數(shù)估計效果,采用蒙特卡洛方法進行數(shù)值模擬。具體步驟為:
首先,生成n個服從于均勻分布U(0,1)的簡單隨機樣本{Y1,Y2,…,Yn},那么Xi=F-1(Yi),i=1,2,…,n便是服從于OLLMON分布的獨立同分布樣本;對生存數(shù)據(jù)進行排序得到X(1),…,X(i),…,X(n),基于刪失比Cr確定刪失時間點X(m),繼而生成n個服從于均勻分布U(X(m)+ε1,X(m)+ε2)的簡單隨機樣本Ci,其中,ε1、ε2均表示任意大于零的極小數(shù),且ε1>ε2,根據(jù)Ti=min(Xi,Ci)得到觀測變量Ti;定義當Xi≤Ci時,δi=1,當Xi>Ci時,δi=0,這樣就產(chǎn)生了n個服從OLLMON分布的右刪失數(shù)據(jù)(Ti,δi)。
將上面步驟重復1 000次,可得到1 000個右刪失機制下服從OLLMON分布的樣本。將其代入極大似然估計的算法公式,可得到參數(shù)的估計值,繼而得到偏差(Bias)、理論標準差(ESE)與均方根誤差(RMSE)。基于樣本量為200和400,μ,σ,ν,τ取不同真值組合所得,模擬結(jié)果分別見表1和表2。
表1 參數(shù)估計的Bias、ESE及RMSE (Cr=30%)
表2 參數(shù)估計的Bias、ESE及RMSE (Cr=50%)
表1和表2分別給出刪失比例Cr為30%和50%時,不同參數(shù)組合的模擬結(jié)果。從結(jié)果可以看出,模擬的參數(shù)估計值相較于真值偏差較小,參數(shù)的均方根誤差趨近于理論標準差,且隨著樣本數(shù)量從200增加到400,估計的偏差和標準差等都一致地顯著減小,在一定程度上表明了參數(shù)估計量具有相合性。
對比表1和表2可以看出,隨著刪失比的改變,表2所展示的估計結(jié)果相較于表1有些許的波動,出現(xiàn)這種情況的原因是刪失數(shù)據(jù)包含的信息量發(fā)生了變化。
文中將所提方法運用到R語言survival包中的NCCTG肺癌數(shù)據(jù)集中,此數(shù)據(jù)集是美國癌癥治療團隊NCCTG發(fā)布的一則肺癌統(tǒng)計數(shù)據(jù)報告,其中記錄了228例晚期肺癌患者的各項數(shù)據(jù),其中包括性別、年齡和各項身體狀況表現(xiàn)得分等。
基于OLLMON模型的極大似然估計擬合得到模型的參數(shù)估計,同時也展示了MON分布與OLLN分布兩種特殊情況的參數(shù)估計值,具體見表3。
表3 OLLMON、MON與OLLN分布的參數(shù)估計結(jié)果和相應的標準差與95%置信區(qū)間
由上述結(jié)果可以看出,OLLMON分布的參數(shù)估計值分別為
對于MON分布,參數(shù)ν存在不顯著現(xiàn)象,對于OLLN分布,參數(shù)τ存在不顯著現(xiàn)象。而且相較于MON分布、OLLN分布與更加特殊的正態(tài)分布,OLLMON分布的適用范圍更為廣泛,靈活度更強,具有更好的建模能力。此外,表3還展示了估計值的標準差與95%置信區(qū)間,根據(jù)展示結(jié)果可以看出,參數(shù)估計結(jié)果較為理想。
基于估計結(jié)果得到的分布函數(shù)和生存函數(shù)圖如圖1所示。
(a) OLLMON分布
圖1分別展示了基于估計結(jié)果得到的OLLMON分布、MON分布與OLLN分布的分布函數(shù)與生存函數(shù)圖,生存函數(shù)均呈單調(diào)遞減趨勢,與理論相符。對于OLLMON分布,當x=2.5左右時,風險變小,下降速度減慢,因此,臨床試驗中可以考慮在此處實施某些治療方案,從而延長患者壽命,而對于MON分布和OLLN分布,可以分別在x=3.0和x=3.5左右時實施某些治療方案。
OLLMON分布是一個新的擴展生存分布,與正態(tài)分布、OLLN分布、MON分布相比更為靈活。文中針對右刪失數(shù)據(jù),構(gòu)建了基于OLLMON分布的參數(shù)模型,并使用極大似然方法給出感興趣參數(shù)的估計。為驗證所提模型及方法的有效性,進行了大量數(shù)值模擬研究,結(jié)果表明,參數(shù)估計效果較好。最后對NCCTG肺癌數(shù)據(jù)集進行實例數(shù)據(jù)分析,給出估計值及相應的標準差和95%置信區(qū)間,結(jié)果表明,OLLMON分布具有良好的應用性和有效性。
文中還存在很多方面的擴展研究,首先,僅討論了右刪失數(shù)據(jù)下OLLMON分布的參數(shù)估計,在之后的研究中,可將此分布拓展到其他刪失機制下;其次,在文中分布的基礎上,還可以進行更多拓展,如引入?yún)f(xié)變量或轉(zhuǎn)化為半?yún)?shù)分布模型等;最后,對于參數(shù)估計方法的選擇也可以進一步研究。