王佩佩 ,雙衛(wèi)兵
(1.山西醫(yī)科大學(xué)公共衛(wèi)生學(xué)院,山西 太原 030001;2.山西醫(yī)科大學(xué)第一醫(yī)院 泌尿外科,山西 太原 030001 )
事件-時(shí)間結(jié)局?jǐn)?shù)據(jù)在醫(yī)學(xué)研究中非常常見(jiàn)。與單純結(jié)局的事件數(shù)據(jù)相比,事件-時(shí)間數(shù)據(jù)能夠提供的數(shù)據(jù)信息更為豐富,它既包含結(jié)局事件又包含時(shí)間,也被稱(chēng)為生存數(shù)據(jù)。在分析生存數(shù)據(jù)時(shí),若選擇多重線性回歸或Logistic 回歸,不但不符合這些方法的使用條件,還會(huì)忽略生存數(shù)據(jù)中時(shí)間這一屬性所蘊(yùn)藏的信息。此時(shí),應(yīng)使用具有獨(dú)特統(tǒng)計(jì)方法的生存分析。生存分析常用作疾病的預(yù)后因素分析或評(píng)價(jià)治療方法的優(yōu)劣,它同時(shí)關(guān)注結(jié)局事件及其發(fā)生的時(shí)間,即使在生存時(shí)間有刪失的情況下,也可以得到不同時(shí)點(diǎn)的存活百分比。近來(lái),隨著計(jì)算機(jī)技術(shù)的飛速發(fā)展,統(tǒng)計(jì)分析技術(shù)也日益得到創(chuàng)新,不同類(lèi)型的生存模型應(yīng)運(yùn)而生,為醫(yī)學(xué)臨床研究提供了更有利的統(tǒng)計(jì)分析方法。
生存分析是指根據(jù)試驗(yàn)或調(diào)查得到的數(shù)據(jù)對(duì)事件的生存時(shí)間進(jìn)行分析和推斷,研究生存時(shí)間和結(jié)局與眾多影響因素間關(guān)系及其程度大小的方法,也稱(chēng)生存率分析或存活率分析。觀察起點(diǎn)、終點(diǎn)事件和時(shí)間間隔的度量是生存時(shí)間重要的相關(guān)因素。
醫(yī)學(xué)研究中通常采用縱向隨訪觀察來(lái)獲取生存資料。
1.1.1 關(guān)注出現(xiàn)終點(diǎn)事件的時(shí)間長(zhǎng)短 生存數(shù)據(jù)既包含一般資料中常見(jiàn)的終點(diǎn)事件,又包含出現(xiàn)終點(diǎn)事件所經(jīng)歷的時(shí)間。例如,比較和評(píng)價(jià)腎細(xì)胞癌患者不同治療方法的臨床療效,在進(jìn)行隨訪觀察時(shí),常常需要記錄患者在各時(shí)點(diǎn)上終點(diǎn)事件的發(fā)生情況,包括記錄終點(diǎn)事件是否出現(xiàn),以及患者出現(xiàn)終點(diǎn)事件所經(jīng)歷的時(shí)間。
1.1.2 生存時(shí)間可能存在刪失 由于某種原因,如失訪等,無(wú)法準(zhǔn)確觀測(cè)到研究對(duì)象的生存時(shí)間,便會(huì)產(chǎn)生刪失。刪失這一特點(diǎn)是生存數(shù)據(jù)不能簡(jiǎn)單地進(jìn)行多重線性回歸的主要原因[1]。圖1 顯示了不同類(lèi)型的刪失,在目前的醫(yī)學(xué)研究中,主要的刪失類(lèi)型是右刪失[2]。
圖1 不同類(lèi)型的刪失
1.1.3 生存時(shí)間的分布通常不呈正態(tài)分布 在醫(yī)學(xué)研究中,事件的持續(xù)時(shí)間往往受到多個(gè)因素的影響,如病情、并發(fā)癥程度以及手術(shù)治療方式的不同等,因此在某些情況下會(huì)較長(zhǎng)或非常長(zhǎng)。所以大多數(shù)生存時(shí)間的統(tǒng)計(jì)分布都是高度向右傾斜的,不服從正態(tài)分布,甚至分布類(lèi)型不清。
1.2.1 生存率 生存率又稱(chēng)生存函數(shù),是指觀察對(duì)象經(jīng)歷某幾個(gè)單位時(shí)段后仍存活的可能性,及多個(gè)時(shí)段的累積生存概率。若生存數(shù)據(jù)無(wú)刪失,生存率的估計(jì)為某時(shí)刻仍存活的患者數(shù)與觀察總患者數(shù)之比;若數(shù)據(jù)有刪失,則需假定觀察對(duì)象在各個(gè)時(shí)段的生存時(shí)間獨(dú)立,分時(shí)段計(jì)算生存概率,并用概率乘積法定理將各時(shí)段的生存概率相乘得到生存率。
1.2.2 風(fēng)險(xiǎn)率 風(fēng)險(xiǎn)率或風(fēng)險(xiǎn)函數(shù)是指某時(shí)刻存活的個(gè)體在此時(shí)刻的瞬時(shí)事件結(jié)局(如死亡)風(fēng)險(xiǎn),描述了某個(gè)體的瞬時(shí)事件結(jié)局風(fēng)險(xiǎn)隨時(shí)間變化的情況。風(fēng)險(xiǎn)率的值不是概率,而是關(guān)注事件風(fēng)險(xiǎn)的指標(biāo),風(fēng)險(xiǎn)率的值越高,事件的風(fēng)險(xiǎn)越高[3]。相較于生存函數(shù)從1 到0 遞減的性質(zhì),風(fēng)險(xiǎn)函數(shù)沒(méi)有固定的單調(diào)性。從數(shù)學(xué)角度來(lái)看,風(fēng)險(xiǎn)函數(shù)與生存函數(shù)隨時(shí)間降低的速度有關(guān),生存函數(shù)隨時(shí)間下降得越快,風(fēng)險(xiǎn)越高。
在進(jìn)行生存分析的統(tǒng)計(jì)描述時(shí),可通過(guò)生存時(shí)間和生存結(jié)局估計(jì)中位生存時(shí)間、生存率及其置信區(qū)間和生存曲線,以描述生存時(shí)間的分布特點(diǎn)。生存率的估計(jì)常用的方法有Kaplan-Meier 法和壽命表法[4]。Kaplan-Meier 法估計(jì)不同生存時(shí)間點(diǎn)的生存率,一般適用于觀察對(duì)象數(shù)目較少的未分組資料。而對(duì)于樣本含量較大的分組資料,應(yīng)使用壽命表法進(jìn)行分析。壽命表法可看作是Kaplan-Meier 法的一種近似(頻數(shù)表法),由于每個(gè)時(shí)間區(qū)間內(nèi)生存率的變化規(guī)律未知,相較于Kaplan-Meier 法繪制的階梯型生存曲線,運(yùn)用壽命表法繪制的生存曲線是連續(xù)的折線型。
由于生存數(shù)據(jù)可能存在刪失,且參數(shù)和半?yún)?shù)檢驗(yàn)方法對(duì)資料的要求較高,而非參數(shù)檢驗(yàn)方法僅要求每個(gè)觀察對(duì)象的資料是獨(dú)立的,因此常采用非參數(shù)檢驗(yàn)即Log-rank 檢驗(yàn)來(lái)比較不同組的生存曲線[5]。然而,Log-rank 檢驗(yàn)只能比較不同組生存狀況間的差異是否有統(tǒng)計(jì)學(xué)意義,若需比較不同組生存的優(yōu)劣,則需通過(guò)目測(cè)判斷生存曲線、比較半數(shù)生存期等方法來(lái)進(jìn)行比較。此外,相對(duì)危險(xiǎn)度能夠反映某因素作用的相對(duì)大小以及某時(shí)點(diǎn)兩樣本的生存率是否相同,可使用正態(tài)近似法進(jìn)行兩個(gè)率的比較來(lái)判斷兩組間的生存狀況。
2.3.1 Cox 比例風(fēng)險(xiǎn)模型 多因素分析方法主要有參數(shù)法和半?yún)?shù)法,由于生存時(shí)間可能存在刪失,所以在分析生存數(shù)據(jù)時(shí)更適合采用Cox 比例風(fēng)險(xiǎn)回歸模型(簡(jiǎn)稱(chēng)Cox 回歸模型)這一半?yún)?shù)法[6-7]。Cox 回歸模型不僅可以確定結(jié)局事件的累積概率,還考慮了協(xié)變量對(duì)概率的影響,其偏回歸系數(shù)就反映了在校正其他變量影響的情形下該因素單獨(dú)的效應(yīng)[8]。此外,模型的線性部分反映了一個(gè)個(gè)體的預(yù)后,即個(gè)體預(yù)后指數(shù)(prognostic index,PI)。PI 越大,患者風(fēng)險(xiǎn)越大,預(yù)后越差;PI 越小,患者風(fēng)險(xiǎn)越小,預(yù)后越好。
2.3.2 影響因素篩選 對(duì)于自變量的篩選,常用的篩選方法有前進(jìn)法、后退法和逐步回歸法[9]。大多數(shù)研究者常采用Log-rank 檢驗(yàn)進(jìn)行單因素分析,篩選出有統(tǒng)計(jì)學(xué)意義的變量,然后再將這些變量納入多因素Cox 回歸模型中進(jìn)行分析。但由于混雜因素的影響,有作用的變量在單因素分析中也可能會(huì)沒(méi)有顯著性差異。因此,篩選自變量時(shí)不能只局限于單因素分析有意義的變量,要結(jié)合各變量的臨床實(shí)際意義等進(jìn)行判斷。此外,還需注意自變量之間的共線性問(wèn)題,可在模型建立之前進(jìn)行共線性檢驗(yàn),剔除掉存在共線性的因素。
2.3.3 比例風(fēng)險(xiǎn)假設(shè) 由于存在相互作用、亞組和不可觀察(測(cè)量)的隨機(jī)效應(yīng),在模型建立之前需進(jìn)行比例風(fēng)險(xiǎn)假定的檢驗(yàn)和對(duì)數(shù)線性假定,只有滿足條件,即風(fēng)險(xiǎn)函數(shù)與基線風(fēng)險(xiǎn)函數(shù)的比值為固定值,Cox 回歸模型才有效[10]。但在數(shù)據(jù)集很大,且只有一小部分?jǐn)?shù)據(jù)違反了比例假設(shè)的情況下,仍可繼續(xù)使用Cox 回歸模型;若大部分?jǐn)?shù)據(jù)中存在非比例性,則可以對(duì)數(shù)據(jù)集進(jìn)行分層,以繼續(xù)使用Cox 回歸模型,比例風(fēng)險(xiǎn)假設(shè)在每個(gè)分層中仍然有效[11]。
隨著計(jì)算機(jī)科學(xué)和醫(yī)療技術(shù)手段的不斷發(fā)展,生存分析方法領(lǐng)域受到了研究者的極大關(guān)注,如何保證生存模型的準(zhǔn)確性和實(shí)用性成為了國(guó)內(nèi)外研究者重點(diǎn)關(guān)注的課題。
3.1.1 競(jìng)爭(zhēng)風(fēng)險(xiǎn)模型 傳統(tǒng)的生存分析一般只關(guān)心一個(gè)終點(diǎn)事件,即研究者感興趣的結(jié)局。而醫(yī)學(xué)研究中結(jié)局事件往往并不唯一,會(huì)出現(xiàn)研究者不感興趣的結(jié)局。在觀察隊(duì)列中,若存在的某種已知事件可能會(huì)影響另一事件發(fā)生的概率,則可認(rèn)為前者與后者存在競(jìng)爭(zhēng)風(fēng)險(xiǎn)。如發(fā)生在結(jié)局事件前的意外死亡,是結(jié)局事件的競(jìng)爭(zhēng)事件。傳統(tǒng)的生存分析方法將發(fā)生結(jié)局事件前死亡的個(gè)體、失訪個(gè)體和未發(fā)生結(jié)局事件的個(gè)體均按刪失數(shù)據(jù)處理,要求個(gè)體刪失情況與個(gè)體終點(diǎn)事件相互獨(dú)立,結(jié)局不存在競(jìng)爭(zhēng)風(fēng)險(xiǎn),這事實(shí)上高估了結(jié)局事件的發(fā)生率,導(dǎo)致估計(jì)偏差。
競(jìng)爭(zhēng)風(fēng)險(xiǎn)模型(competing risk model)適用于多個(gè)終點(diǎn)的生存數(shù)據(jù),是一種處理多種潛在結(jié)局生存數(shù)據(jù)的分析方法,通過(guò)計(jì)算每個(gè)結(jié)局的累積發(fā)生率函數(shù)(cumulative incidences function,CIF)進(jìn)行分析[12]。常用的競(jìng)爭(zhēng)風(fēng)險(xiǎn)模型有原因別風(fēng)險(xiǎn)函數(shù)(cause-specific hazard function,CS)和部分分布風(fēng)險(xiǎn)函數(shù)(subdistribution hazard function,SD),又稱(chēng)CIF 回歸模型、Fine-Gray 模式[13]。CS 適合回答病因?qū)W問(wèn)題,其回歸系數(shù)反映了協(xié)變量對(duì)無(wú)事件風(fēng)險(xiǎn)集對(duì)象中主要終點(diǎn)事件發(fā)生率增加的相對(duì)作用。SD 適合建立臨床預(yù)測(cè)模型及風(fēng)險(xiǎn)評(píng)分,僅對(duì)終點(diǎn)事件的絕對(duì)發(fā)生率感興趣。
競(jìng)爭(zhēng)風(fēng)險(xiǎn)模型目前也廣泛應(yīng)用于醫(yī)學(xué)研究中。學(xué)者王廉源等[14]運(yùn)用此模型探究存在競(jìng)爭(zhēng)風(fēng)險(xiǎn)時(shí)早發(fā)性結(jié)直腸癌患者的預(yù)后影響因素,廖志曉等[15]進(jìn)一步探究了發(fā)生腫瘤特異性死亡的危險(xiǎn)因素。學(xué)者王莉等[16]通過(guò)建立競(jìng)爭(zhēng)風(fēng)險(xiǎn)模型來(lái)預(yù)測(cè)非肌層浸潤(rùn)性膀胱癌患者1 年、2 年和3 年復(fù)發(fā)的風(fēng)險(xiǎn)。國(guó)外有學(xué)者利用競(jìng)爭(zhēng)風(fēng)險(xiǎn)模型估計(jì)癌癥相關(guān)血栓形成患者的出血風(fēng)險(xiǎn)評(píng)分[17];還有學(xué)者將早期乳腺癌的聯(lián)合輔助基線協(xié)變量納入競(jìng)爭(zhēng)風(fēng)險(xiǎn)模型中,探究其與Palbociclib 減少和停藥時(shí)間的關(guān)聯(lián)[18]。
3.1.2 脆弱模型 在實(shí)際的臨床研究中,常存在著觀察對(duì)象在觀察期內(nèi)會(huì)發(fā)生不止一次結(jié)局事件的情況,且通常是有先后順序,稱(chēng)為復(fù)發(fā)事件數(shù)據(jù)(recurrent event data)。對(duì)于這類(lèi)數(shù)據(jù)的分析,目前較為常用的方法是僅利用首次發(fā)生結(jié)局事件的時(shí)間信息做Cox 回歸模型。但不同個(gè)體發(fā)生復(fù)發(fā)事件的風(fēng)險(xiǎn)不同,即個(gè)體之間存在異質(zhì)性,僅使用Cox 回歸模型會(huì)忽略結(jié)局事件相關(guān)性,導(dǎo)致估計(jì)值的置信區(qū)間不準(zhǔn)確[19]。有研究發(fā)現(xiàn),在進(jìn)行生存分析時(shí)忽略個(gè)體的異質(zhì)性,會(huì)導(dǎo)致相對(duì)危險(xiǎn)度的估計(jì)值偏高[20-21]。
脆弱模型是分析非獨(dú)立、有異質(zhì)性存在的復(fù)發(fā)事件數(shù)據(jù)的有效方法,它通過(guò)納入隨機(jī)效應(yīng)(即無(wú)法用協(xié)變量描述的因素),解釋了復(fù)發(fā)事件數(shù)據(jù)中觀察結(jié)果的非獨(dú)立性[22]。該模型既考慮了同一個(gè)體多次復(fù)發(fā)之間的相關(guān)性,又考慮了患者多次復(fù)發(fā)和死亡之間的相關(guān)性,探討多次復(fù)發(fā)和死亡的影響因素,充分挖掘數(shù)據(jù)蘊(yùn)含的信息,使得生存分析得結(jié)果解釋更具合理性[23-24]。
國(guó)外學(xué)者KAIDA 等[25]和JUNG 等[26]將脆弱模型應(yīng)用于體內(nèi)植入物存活率的研究,評(píng)估和比較兩種不同材料在植入固定時(shí)間后的性能,所得出的結(jié)論也證實(shí)了這一模型的合理性。學(xué)者JUNG等[27]基于聯(lián)合脆弱模型研究艾滋病的復(fù)發(fā)與晚期多耐藥艾滋病患者半競(jìng)爭(zhēng)性死亡風(fēng)險(xiǎn)之間的關(guān)系,并利用該模型確定復(fù)發(fā)和死亡事件風(fēng)險(xiǎn)增加的個(gè)體,相較于Cox 回歸模型,這些異質(zhì)性可以根據(jù)觀察到的協(xié)變量進(jìn)行識(shí)別,說(shuō)明了在該數(shù)據(jù)集中使用脆弱模型分析更具優(yōu)勢(shì)。
傳統(tǒng)的統(tǒng)計(jì)方法為數(shù)據(jù)分析提供了最優(yōu)解,而機(jī)器學(xué)習(xí)則是嘗試不同模型,最終收斂到最終假設(shè),強(qiáng)調(diào)大規(guī)模的應(yīng)用和準(zhǔn)確的預(yù)測(cè)。在過(guò)去的數(shù)十年里,計(jì)算機(jī)技術(shù)和數(shù)字化快速發(fā)展,數(shù)據(jù)采集和數(shù)據(jù)存儲(chǔ)能力不斷提升,伴隨著大數(shù)據(jù)時(shí)代的到來(lái),許多機(jī)器學(xué)習(xí)算法被相繼提出并滲入到了各個(gè)領(lǐng)域。在進(jìn)行預(yù)測(cè)分析時(shí)需要大量數(shù)據(jù)來(lái)擬合模型,因此人工智能在處理精準(zhǔn)醫(yī)學(xué)大數(shù)據(jù)方面存在著巨大的潛能[28]。許多研究者將傳統(tǒng)的生存分析方法與機(jī)器學(xué)習(xí)相結(jié)合,利用二者的優(yōu)勢(shì)來(lái)分析生存預(yù)后問(wèn)題。
3.2.1 隨機(jī)生存森林 隨機(jī)生存森林(random survival fores,RSF)是一種基于隨機(jī)森林算法的生存分析方法,該方法正廣泛應(yīng)用于醫(yī)學(xué)研究領(lǐng)域進(jìn)行生存數(shù)據(jù)的分析。RSF 可列出變量的重要性排序?qū)崿F(xiàn)變量篩選,使最終進(jìn)入分析的自變量保持最小共線性及最大準(zhǔn)確度,克服了傳統(tǒng)生存分析模型中自變量之間可能存在共線性這一弱點(diǎn)[29]。此外,RSF 在多項(xiàng)研究中也展示了其效能的優(yōu)異性。如學(xué)者李淼等[30]應(yīng)用RSF 模型來(lái)探討肺癌患者預(yù)后影響因素的重要性以及預(yù)測(cè)評(píng)價(jià),通過(guò)與傳統(tǒng)的Cox 回歸模型進(jìn)行比較發(fā)現(xiàn),RSF 模型的預(yù)測(cè)錯(cuò)誤率以及預(yù)測(cè)誤差均低于Cox 回歸模型,可證實(shí)RSF 模型的擬合效果較好,即RSF 能夠在提高模型效能的同時(shí)降低模型的復(fù)雜性,為臨床研究提供更準(zhǔn)確的模型和更可靠的依據(jù)。
3.2.2 梯度提升樹(shù) 梯度提升樹(shù)(gradient boosting decision tree,GBDT)是與RSF 處于同一類(lèi)型決策樹(shù)中的一種機(jī)器學(xué)習(xí)方法,在實(shí)際應(yīng)用中的性能更為突出[31]。相較于傳統(tǒng)的Cox 回歸模型,現(xiàn)有的基于梯度提升樹(shù)的生存分析方法仍遵循風(fēng)險(xiǎn)比例這一假設(shè),但它已經(jīng)可以表征對(duì)數(shù)風(fēng)險(xiǎn)比例與協(xié)變量之間復(fù)雜的非線性關(guān)系[32-33]。在學(xué)者CHEN等[34]和LI 等[35]的研究中,研究者們以識(shí)別胃癌相關(guān)基因和預(yù)測(cè)ICU 患者院內(nèi)死亡率為目的,均使用GBDT 法構(gòu)建模型,并選擇基于邏輯回歸(LR)、k-最近鄰(KNN)、隨機(jī)森林(RF)和支持向量機(jī)(SVM)這四種方法與GBDT 進(jìn)行比較,兩項(xiàng)研究的結(jié)果均證實(shí)了GBDT 在預(yù)測(cè)死亡率方面的表現(xiàn)優(yōu)于其他機(jī)器學(xué)習(xí)模型。這也說(shuō)明了,雖然GBDT 的解釋性不如Cox 回歸模型,但在實(shí)際應(yīng)用中個(gè)體風(fēng)險(xiǎn)函數(shù)或生存函數(shù)的預(yù)測(cè)上有著明顯的優(yōu)勢(shì)[36]。
3.2.3 支持向量機(jī) 以支持向量機(jī)(support vector machine,SVR)等算法為代表的的機(jī)器學(xué)習(xí),以其完善的理論基礎(chǔ),正廣泛應(yīng)用于醫(yī)學(xué)特別是腫瘤學(xué)領(lǐng)域中[37]。例如,學(xué)者梁陳悅[38]利用非線性支持向量機(jī)作為分類(lèi)器建立判別胃癌腫瘤一期的模型,以選取最優(yōu)的一組基因集作為最終的胃癌特征基因;學(xué)者CHEN 等[39]結(jié)合綜合特征選擇和模型訓(xùn)練的方法,采用支持向量機(jī)和遺傳算法預(yù)測(cè)局部晚期非小細(xì)胞肺癌患者的3 年總生存期,以預(yù)測(cè)接受確定性同步放化療患者的長(zhǎng)期生存率。基于SVR 的生存分析模型可以解決高維度問(wèn)題,適合小數(shù)量樣本的數(shù)據(jù)。VAPNIK[40]提出的基于支持向量機(jī)(SVR)的生存分析模型,忽略了所有刪失的數(shù)據(jù),不能夠?qū)ι鏀?shù)據(jù)的特性進(jìn)行解釋。學(xué)者KHAN 等[41]對(duì)前者的模型進(jìn)行了改進(jìn)并提出了一個(gè)新的模型(SSVR),考慮了生存數(shù)據(jù)的特性。但當(dāng)數(shù)據(jù)特征維度大于樣本量時(shí),支持向量機(jī)的表現(xiàn)很差,學(xué)者KHEMCHANDANI 等[42]對(duì)傳統(tǒng)SVR 方法的改進(jìn),提出了一種新的雙支持向量回歸算法(TWSVR),提高了模型的靈活性,降低了求解的復(fù)雜性。
3.2.4 貝葉斯生存分析 貝葉斯是機(jī)器學(xué)習(xí)的經(jīng)典算法之一。近年來(lái),基于貝葉斯理論和生存分析相結(jié)合的貝葉斯生存分析越來(lái)越多地被應(yīng)用到醫(yī)學(xué)研究中[43-44]。例如,學(xué)者邵莉等[45]通過(guò)構(gòu)建貝葉斯Cox 風(fēng)險(xiǎn)比例回歸模型分析艾滋病相關(guān)死亡的影響因素,ATTACC 等[46]利用貝葉斯生存統(tǒng)計(jì)模型對(duì)患者的D-二聚體水平進(jìn)行評(píng)估,以探究肝素對(duì)非重癥Covid-19 患者抗凝治療的療效。貝葉斯Cox 回歸模型是在傳統(tǒng)Cox 回歸模型的基礎(chǔ)上,利用貝葉斯統(tǒng)計(jì)思想為待估計(jì)的參數(shù)指定先驗(yàn)分布,結(jié)合樣本數(shù)據(jù)得到它們的后驗(yàn)分布,從而達(dá)到參數(shù)估計(jì)的目的[47]。貝葉斯統(tǒng)計(jì)分析方法可以有效利用先驗(yàn)信息,在小樣本數(shù)據(jù)推斷中具有明顯優(yōu)勢(shì),在一定層面彌補(bǔ)了頻率學(xué)派經(jīng)典估計(jì)方法的局限性[48]。此外,有學(xué)者提出針對(duì)右刪失數(shù)據(jù)構(gòu)建的基于貝葉斯累加回歸樹(shù)的生存分析簡(jiǎn)約模型,可以提高貝葉斯理論在生存分析中的適用性[49]。
3.2.5 深度學(xué)習(xí):神經(jīng)網(wǎng)絡(luò) 近年來(lái)深度學(xué)習(xí)在醫(yī)學(xué)領(lǐng)域受到很大的關(guān)注,神經(jīng)網(wǎng)絡(luò)在醫(yī)學(xué)領(lǐng)域如生物醫(yī)藥、醫(yī)學(xué)統(tǒng)計(jì)及醫(yī)學(xué)診斷等領(lǐng)域的應(yīng)用也相當(dāng)廣泛。神經(jīng)網(wǎng)絡(luò)在生存分析中具有很大的靈活性,可以處理一些復(fù)雜的、不確定的、非線性的問(wèn)題,具有一定的容錯(cuò)性。且協(xié)變量的效應(yīng)可以隨時(shí)間而變化,不要求滿足風(fēng)險(xiǎn)比例假定,其預(yù)測(cè)性遠(yuǎn)遠(yuǎn)優(yōu)于傳統(tǒng)的回歸模型,有較廣泛的應(yīng)用前景[50]。如學(xué)者TU 等[51]利用BP 神經(jīng)網(wǎng)絡(luò)模型揭示異常B 細(xì)胞浸潤(rùn)對(duì)肺癌患者的影響以及預(yù)測(cè)肺癌患者的生存;馬亞楠等[52]基于3D 卷積神經(jīng)網(wǎng)絡(luò)對(duì)局部晚期NSCLC 患者進(jìn)行生存預(yù)測(cè),這些研究都取得了令人滿意的結(jié)果。DeepHit 和DRSA 這兩種方法,分別使用了深度神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò),可以直接學(xué)習(xí)首次發(fā)生事件時(shí)間的概率分布,不再需要對(duì)個(gè)體風(fēng)險(xiǎn)函數(shù)形式做出假設(shè)[53-54]。然而,神經(jīng)網(wǎng)絡(luò)算法在短期預(yù)測(cè)上存在著明顯的短板,且缺乏對(duì)模型特征的解釋性,預(yù)測(cè)結(jié)果不如傳統(tǒng)模型準(zhǔn)確[55]。例如,在學(xué)者SPARANO 等[56]的基因表達(dá)影響乳腺癌復(fù)發(fā)的研究中,無(wú)法判斷某個(gè)與乳腺癌相關(guān)基因?qū)儆谖kU(xiǎn)因子還是保護(hù)因子。因此,在運(yùn)用神經(jīng)網(wǎng)絡(luò)算法時(shí)需要考慮實(shí)際情況,才能正確的選擇統(tǒng)計(jì)方法并取得更好地預(yù)測(cè)結(jié)果。
此外,還有許多其他的機(jī)器學(xué)習(xí)方法應(yīng)用于生存分析當(dāng)中,如bagging 生存樹(shù)和boosting等[57-59]。這些方法以不同的方式學(xué)習(xí)協(xié)變量與生存時(shí)間之間的關(guān)系,提供擬合更優(yōu)、更有效的算法,從而提升生存分析模型的準(zhǔn)確性。
生存數(shù)據(jù)是臨床研究中常見(jiàn)的一種數(shù)據(jù)類(lèi)型,因其存在刪失這一特點(diǎn),需使用生存分析這一統(tǒng)計(jì)學(xué)方法。生存分析是循證醫(yī)學(xué)的一個(gè)重要組成部分,常用作疾病的預(yù)后分析、評(píng)價(jià)治療方法的優(yōu)劣以及風(fēng)險(xiǎn)預(yù)測(cè),具有推動(dòng)和影響決策的巨大潛力。隨著生物醫(yī)學(xué)技術(shù)的不斷發(fā)展,生存分析也應(yīng)用到了基因組學(xué)、腫瘤標(biāo)志物等領(lǐng)域,通過(guò)結(jié)合泛癌分析、生信分析及聚類(lèi)分析等多維度、多組學(xué)的驗(yàn)證,為醫(yī)學(xué)研究提供更有說(shuō)服力的證據(jù)。
在臨床研究中,常用的生存分析方法仍然是K-M 曲線、Log-rank 檢驗(yàn)以及Cox 回歸分析。對(duì)于影響因素的分析,建議研究者仔細(xì)考慮單因素估計(jì)的有效性,不能只局限于單因素分析中有統(tǒng)計(jì)學(xué)意義的變量,而應(yīng)結(jié)合專(zhuān)業(yè)知識(shí)與臨床實(shí)際意義決定是否納入到多因素模型。此外,在構(gòu)建Cox回歸模型時(shí),建議研究者闡明構(gòu)建策略,檢驗(yàn)并表明最終的生存模型在模型擬合以及驗(yàn)證相關(guān)假設(shè)方面的適用性,若相關(guān)假設(shè)不成立,應(yīng)說(shuō)明情況并提出解決方案。
計(jì)算機(jī)統(tǒng)計(jì)技術(shù)和機(jī)器學(xué)習(xí)算法的快速發(fā)展為處理、統(tǒng)計(jì)和分析醫(yī)學(xué)數(shù)據(jù)帶來(lái)了巨大的潛能。面對(duì)種類(lèi)如此之多的統(tǒng)計(jì)模型,生存分析模型的最終選擇應(yīng)考慮模型與給定數(shù)據(jù)集的擬合優(yōu)度以及驗(yàn)證研究相關(guān)假設(shè)的適用性,不適當(dāng)?shù)慕y(tǒng)計(jì)模型可能會(huì)得出誤導(dǎo)性結(jié)論。競(jìng)爭(zhēng)風(fēng)險(xiǎn)模型、脆弱模型等等為不同特殊事件數(shù)據(jù)的生存分析提供了可靠、更優(yōu)的統(tǒng)計(jì)方法。此外,許多學(xué)者將傳統(tǒng)的生存分析方法與機(jī)器學(xué)習(xí)相結(jié)合,利用二者的優(yōu)勢(shì)來(lái)分析生存問(wèn)題,但其在醫(yī)學(xué)統(tǒng)計(jì)的實(shí)際應(yīng)用方面上還稍有欠缺,值得更加深入地探索與研究。