徐 習(xí) 趙鈺琳
(重慶工商大學(xué)數(shù)學(xué)與統(tǒng)計(jì)學(xué)院,重慶 400067)
Cox模型,也稱為Cox比例風(fēng)險(xiǎn)回歸模型,是一種用于分析生存數(shù)據(jù)的統(tǒng)計(jì)模型。它基于半?yún)?shù)模型,不需要對(duì)生存時(shí)間的概率分布做出假設(shè),只需要假設(shè)風(fēng)險(xiǎn)函數(shù)的形式,從而可以對(duì)各種不同類型的生存數(shù)據(jù)進(jìn)行建模和分析。在實(shí)際應(yīng)用中,通常需要從大量的可能影響生存時(shí)間的變量中選擇出對(duì)生存時(shí)間具有顯著影響的變量,以便更準(zhǔn)確地評(píng)估其對(duì)生存時(shí)間的影響。這就涉及Cox模型中的變量選擇問題。對(duì)于變量選擇,常常采用的方法是引入一些懲罰項(xiàng)來約束回歸系數(shù),從而達(dá)到減少變量數(shù)量、提高模型預(yù)測(cè)能力的目的。Cox模型中,常用的懲罰項(xiàng)有LASSO、Ridge、Elastic Net、SCAD等[1-3]。
變量選擇在Cox模型的應(yīng)用中具有重要意義,因?yàn)檫x取正確的變量可以更好地理解和預(yù)測(cè)生存時(shí)間,避免不必要的分析和浪費(fèi)。然而,在實(shí)際應(yīng)用中,由于變量間的相關(guān)性、數(shù)據(jù)質(zhì)量等問題,變量選擇也存在一些挑戰(zhàn)。因此,選擇適合的變量選擇方法對(duì)于構(gòu)建準(zhǔn)確、穩(wěn)定的Cox模型至關(guān)重要[4]。
本文分別使用SCAD、Adaptive Elastic Net、Adaptive Lasso和ADS懲罰方法對(duì)Cox模型進(jìn)行變量選擇,并使用交叉驗(yàn)證法進(jìn)行參數(shù)調(diào)節(jié),得到了四個(gè)模型;比較其變量選擇結(jié)果和預(yù)測(cè)準(zhǔn)確性;評(píng)估這些懲罰方法在平衡稀疏性、預(yù)測(cè)準(zhǔn)確性、對(duì)共線性和異常值的魯棒性、計(jì)算復(fù)雜度等方面的優(yōu)劣。
在醫(yī)學(xué)領(lǐng)域的生存分析中,Cox模型是一種常用的模型,用于研究不同因素對(duì)患者生存時(shí)間的影響。為了提高模型的性能和預(yù)測(cè)準(zhǔn)確性,除了傳統(tǒng)的前向逐步回歸和后向逐步回歸,還應(yīng)用了一些新的變量選擇方法,如SCAD、ADS、Adaptive Lasso和Adaptive Elastic Net等。這些方法可以有效地降低模型的方差和偏差,提升模型的預(yù)測(cè)精度。
SCAD是一種基于L1范數(shù)懲罰的變量選擇方法,它通過對(duì)L1范數(shù)進(jìn)行平滑截?cái)鄟斫鉀QLasso方法在變量選擇中存在的一些缺陷。SCAD方法的基本原理是在L1懲罰項(xiàng)的基礎(chǔ)上增加一個(gè)二次懲罰項(xiàng),以此在保持模型的稀疏性的同時(shí),也能保持模型的預(yù)測(cè)準(zhǔn)確性。在Cox模型中,SCAD方法可以用于對(duì)回歸系數(shù)進(jìn)行懲罰,達(dá)到變量選擇的目的。相比于其他變量選擇方法,SCAD方法能夠有效地解決變量選擇中的估計(jì)偏差和估計(jì)精度問題,因此在實(shí)際應(yīng)用中廣受歡迎[5-6]。
ADS(Adaptive Direction Shrinkage)是一種基于L1懲罰的變量選擇方法。ADS方法的基本原理是通過對(duì)不同變量的調(diào)整方向和強(qiáng)度進(jìn)行自適應(yīng)調(diào)整,實(shí)現(xiàn)最優(yōu)的變量選擇和調(diào)整。在Cox模型中,ADS方法同樣適用,可以用于對(duì)回歸系數(shù)進(jìn)行懲罰,以實(shí)現(xiàn)變量選擇。相較于其他變量選擇方法,ADS方法具有處理大規(guī)模數(shù)據(jù)集、高效、穩(wěn)定和靈活的優(yōu)點(diǎn)。在實(shí)際應(yīng)用中,ADS方法被廣泛應(yīng)用于醫(yī)學(xué)、金融、社會(huì)科學(xué)等領(lǐng)域,具有重要的理論和實(shí)踐價(jià)值[5-7]。
Adaptive Elastic Net(AEN)是一種基于L1和L2范數(shù)懲罰的變量選擇方法,它結(jié)合了L1和L2懲罰項(xiàng),能夠在保持模型的稀疏性的同時(shí),也能保持模型的預(yù)測(cè)準(zhǔn)確性。AEN方法的基本原理是通過自適應(yīng)調(diào)整L1和L2懲罰項(xiàng)的權(quán)重,在不同的數(shù)據(jù)情況下實(shí)現(xiàn)最優(yōu)的變量選擇和調(diào)整,在Cox模型中同樣適用。相較于其他變量選擇方法,Adaptive Elastic Net方法可以同時(shí)考慮稀疏性和可解釋性,能夠處理變量間的相關(guān)性和噪聲。該方法的特點(diǎn)是可以平衡不同懲罰因子的影響,具有較好的魯棒性和預(yù)測(cè)精度,在實(shí)際中具有廣泛的應(yīng)用前景。
Adaptive Lasso是一種基于L1懲罰的變量選擇方法,其可以自適應(yīng)地調(diào)整不同變量的懲罰系數(shù),從而實(shí)現(xiàn)最優(yōu)的變量選擇和調(diào)整。Adaptive Lasso方法的基本原理是對(duì)不同變量的懲罰系數(shù)進(jìn)行自適應(yīng)調(diào)整,使得影響較小的變量更容易被選擇,而影響較大的變量更容易被保留。在Cox模型中,Adaptive Lasso方法同樣適用,可以用于對(duì)回歸系數(shù)進(jìn)行懲罰,以達(dá)到變量選擇的目的。相比于其他變量選擇方法,Adaptive Lasso方法具有處理變量間相關(guān)性的能力,并且具有自適應(yīng)性和穩(wěn)健性。在實(shí)際應(yīng)用中,Adaptive Lasso方法被廣泛應(yīng)用于生物醫(yī)學(xué)、經(jīng)濟(jì)學(xué)和社會(huì)科學(xué)等領(lǐng)域,具有重要的理論和實(shí)踐價(jià)值[8]。
1.2.1 Cox比例風(fēng)險(xiǎn)模型
Cox比例風(fēng)險(xiǎn)模型的基本形式為
式(1)中,β1,β2,…,βp為自變量的偏回歸系數(shù),或者說是第j個(gè)預(yù)測(cè)因子的回歸系數(shù),它是需從樣本數(shù)據(jù)作出估計(jì)的參數(shù);X=(X1,X2,…,Xp) 是p維協(xié)變量向量;h 0(t)是當(dāng)X向量為0時(shí),h(t,X) 的基準(zhǔn)危險(xiǎn)率,它是有待于從樣本數(shù)據(jù)作出估計(jì)的量。
式(1)可以轉(zhuǎn)化為可以看出,比例風(fēng)險(xiǎn)假定各危險(xiǎn)因素的作用不隨時(shí)間的變化而變化,即不隨時(shí)間的變化而變化。因此,式(1)又稱為比例風(fēng)險(xiǎn)率模型(PH Model)。這一假定是建立Cox回歸模型的前提條件,而且對(duì)數(shù)線性假定模型中的協(xié)變量應(yīng)與對(duì)數(shù)風(fēng)險(xiǎn)比呈線性關(guān)系。其中,若Xj是非暴露組觀察對(duì)象的各因素取值,Xi是暴露組觀察對(duì)象的各因素取值,RR是相對(duì)危險(xiǎn)度,即
似然比函數(shù)的值越大,說明模型的擬合程度和預(yù)測(cè)能力越好。在進(jìn)行變量選擇時(shí),可以根據(jù)似然比函數(shù)的大小來評(píng)估預(yù)測(cè)因素的重要性,選擇對(duì)模型性能有較大貢獻(xiàn)的預(yù)測(cè)因素。
1.2.2 Cox-SCAD模型
Cox-SCAD模型是一種用于生存分析的統(tǒng)計(jì)模型,它是基于Cox比例風(fēng)險(xiǎn)模型和SCAD正則化方法的結(jié)合。Cox-SCAD模型可以用于處理高維數(shù)據(jù)集,同時(shí)能夠選擇重要的預(yù)測(cè)因子,減少模型的過擬合,其模型如下:
其中,pλ是SCAD懲罰函數(shù),λ是懲罰強(qiáng)度,則有
1.2.3 Cox-ADS模型
Cox-ADS模型是一種用于生存分析的統(tǒng)計(jì)模型,它是基于加速失效時(shí)間模型(Accelerated Failure Time Model,AFT)與自適應(yīng)組稀疏正則化(Adaptive Group Sparse Regularization,AGSR)的結(jié)合。ADS-Cox模型可以處理高維數(shù)據(jù)集,同時(shí)能夠選擇重要的預(yù)測(cè)因子,減少模型的過擬合,其模型如下:
其中,p為預(yù)測(cè)因子的數(shù)量,r為組數(shù),λ是懲罰強(qiáng)度,Q是一個(gè)矩陣,mle表示最大似然估計(jì),λωj是 Cox-ADS模型中的權(quán)重。
1.2.4 Cox-AEN模型
Cox-AEN模型是一種用于生存分析的統(tǒng)計(jì)模型,它是基于Cox比例風(fēng)險(xiǎn)模型和自適應(yīng)彈性網(wǎng)絡(luò)(Adaptive Elastic Net)正則化的結(jié)合。自適應(yīng)彈性網(wǎng)絡(luò)可以同時(shí)控制Lasso和Ridge懲罰的強(qiáng)度,因此可以更好地平衡模型的穩(wěn)定性和準(zhǔn)確性,其模型如下:
1.2.5 Cox-ALasso模型
Cox-ALasso模型是一種用于生存分析的統(tǒng)計(jì)模型,它是基于Cox比例風(fēng)險(xiǎn)模型與ALasso(Adaptive Lasso)正則化的結(jié)合。與傳統(tǒng)的Lasso模型不同,自適應(yīng)Lasso對(duì)于不同的預(yù)測(cè)因子可以賦予不同的懲罰系數(shù),因此可以更好地處理高維數(shù)據(jù)集,其模型如下:
參數(shù)調(diào)節(jié)是變量選擇中的關(guān)鍵步驟,可幫助找到最優(yōu)模型參數(shù)以提高準(zhǔn)確性和性能。交叉驗(yàn)證是一種常用的評(píng)估模型性能的方法,將數(shù)據(jù)集分成多個(gè)子集進(jìn)行訓(xùn)練和測(cè)試。本文采用5折和10折交叉驗(yàn)證法進(jìn)行參數(shù)調(diào)節(jié),結(jié)果表明使用5折交叉驗(yàn)證法效果更好,能更準(zhǔn)確評(píng)估模型性能,提高泛化能力。
本文使用了基于懲罰項(xiàng)的變量選擇方法,包括Cox-SCAD、Cox-ADS、Cox-AEN和Cox-ALasso 模型,對(duì)乳腺癌數(shù)據(jù)集進(jìn)行生存分析。這些模型能夠自動(dòng)選擇與生存時(shí)間相關(guān)的變量,降低維度并提高預(yù)測(cè)性能。此外,它們還具有Oracle性質(zhì),能夠準(zhǔn)確地識(shí)別真實(shí)的相關(guān)變量并將不相關(guān)的變量系數(shù)壓縮為零,從而保證了模型的可解釋性和穩(wěn)定性。
該數(shù)據(jù)集包含569個(gè)樣本和30個(gè)特征,是一個(gè)二分類問題。為了提高模型的訓(xùn)練效果,本文首先對(duì)數(shù)據(jù)進(jìn)行了預(yù)處理。具體來說,使用了StandardScaler方法對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化,將每個(gè)特征的值縮放到均值為0,標(biāo)準(zhǔn)差為1的范圍內(nèi)。隨后將數(shù)據(jù)集劃分為訓(xùn)練集和測(cè)試集,其中測(cè)試集占總數(shù)據(jù)集的30%,并設(shè)置隨機(jī)種子為42,以保證每次運(yùn)行結(jié)果的一致性。最終,得到了訓(xùn)練集和測(cè)試集的特征矩陣和目標(biāo)向量。
在訓(xùn)練好的COX模型中,每個(gè)變量都會(huì)有一個(gè)對(duì)應(yīng)的系數(shù)。這些系數(shù)可以用來解釋變量對(duì)風(fēng)險(xiǎn)的影響。如果變量的系數(shù)為正數(shù),表示該變量的增加與風(fēng)險(xiǎn)的增加有正相關(guān)關(guān)系;如果系數(shù)為負(fù)數(shù),表示該變量的增加與風(fēng)險(xiǎn)的減少有負(fù)相關(guān)關(guān)系;如果系數(shù)接近于零,則說明該變量對(duì)風(fēng)險(xiǎn)的影響較小或不顯著。訓(xùn)練結(jié)果如表1所示,這些系數(shù)可以用來進(jìn)行特征選取和模型優(yōu)化。
表1 系數(shù)估計(jì)值
根據(jù)表1的結(jié)果得出以下結(jié)論:
(1)在本模型中,假設(shè)變量X3和X4與其他變量存在共線性。通過使用四種基于懲罰項(xiàng)的變量選擇方法,發(fā)現(xiàn)這些方法都沒有將X3和X4選入模型。這說明以上四種方法都能夠有效地處理共線性問題,并且能夠自動(dòng)選擇與生存時(shí)間相關(guān)的變量,降低維度并提高預(yù)測(cè)性能。
(2)在COX模型的乳腺癌數(shù)據(jù)集中,使用不同的特征選擇方法得到了不同的特征集合。具體來說,SCAD方法選擇了18個(gè)特征,ADS方法選擇了15個(gè)特征,Adaptive Elastic Net方法選擇了25個(gè)特征,Adaptive Lasso方法選擇了21個(gè)特征。這些結(jié)果說明,不同的特征選擇方法會(huì)導(dǎo)致不同的特征集合,這可能是由于不同方法對(duì)特征的懲罰力度、結(jié)構(gòu)偏好和相關(guān)性處理方式不同所導(dǎo)致的。
(3)在數(shù)據(jù)集中,使用Adaptive Elastic Net方法選擇的特征最多,而ADS方法選擇的特征最少,這可能是因?yàn)锳daptive Elastic Net方法可以保持稀疏性的同時(shí),克服了Lasso方法在高相關(guān)性特征選擇方面的一些問題,而ADS方法則沒有考慮相關(guān)性。
根據(jù)表2和圖1,對(duì)這四種模型進(jìn)行比較,得出以下結(jié)果:
圖1 四種模型的ROC Curve對(duì)比
表2 四種方法不同指標(biāo)的比較
(1)分類準(zhǔn)確度(Acc)是一種常用的評(píng)估分類模型性能的指標(biāo),它的值介于0和1之間,越接近1表示模型的分類性能越好,而接近0則表示模型的分類性能較差。它提供了一個(gè)整體的性能評(píng)估指標(biāo),可以直觀地了解模型對(duì)于所有類別的分類效果。這四種模型的Acc均較高,都在0.95以上。其中,AEnet方法的分類準(zhǔn)確度最高,為0.97;其次是ALasso方法,為0.972;SCAD方法的分類準(zhǔn)確度為0.964 9,稍低于前兩者;ADS方法的分類準(zhǔn)確度最低,為0.953 2。
(2)F1值是精確率(Precision)和召回率(Recall)的調(diào)和平均數(shù),它綜合衡量了分類器的準(zhǔn)確性和覆蓋能力。F1值在0到1之間,越接近1則表示分類器性能越好。它在處理類別不平衡問題時(shí)尤為重要,因?yàn)榇藭r(shí)單一指標(biāo)(如準(zhǔn)確率)可能無法全面反映模型性能。F1值提供了一個(gè)綜合指標(biāo),幫助評(píng)估分類器在精確率和召回率之間的權(quán)衡。表2中,四種模型的F1值均較高,其中ALasso方法的F1值最高,為0.978;其次是SCAD方法,為0.973;AEnet方法的F1值為0.968,略低于前兩者;ADS方法的F1值最低,為0.964。
(3)ROC曲線是以真正例率(True Positive Rate,TPR)為縱軸,假正例率(False Positive Rate,F(xiàn)PR)為橫軸,繪制的一條曲線。它可以幫助我們理解模型在不同閾值下的分類結(jié)果,以及靈敏度和特異度之間的權(quán)衡。這四種模型的ROC曲線下的面積(AUC)也都較高,均在0.94以上。其中,SCAD方法的AUC最高,為0.956;其次是ALasso方法,為0.953;AEnet方法的AUC為0.948,略低于前兩者;ADS方法的AUC最低,為0.940。
(4)懲罰系數(shù)(C)值,用于控制模型對(duì)錯(cuò)誤分類的懲罰程度和權(quán)衡損失函數(shù)與正則項(xiàng)的關(guān)系。合適的C值可以平衡模型的復(fù)雜度與容錯(cuò)能力,降低過擬合和欠擬合風(fēng)險(xiǎn)。選擇最優(yōu)C值是一個(gè)重要的調(diào)參過程,通常通過交叉驗(yàn)證等方法來實(shí)現(xiàn)。其中,AEN方法的懲罰系數(shù)最小,為0.172 4;其次是ALasso方法,為0.333 3;SCAD方法的懲罰系數(shù)為0.448 3,略高于前兩者;ADS方法的懲罰系數(shù)最大,為0.433 3。
綜合來看,這四種模型在分類準(zhǔn)確度、F1值和AUC指標(biāo)上表現(xiàn)都較好,但各有優(yōu)劣。ALasso方法在分類準(zhǔn)確度、F1值和AUC指標(biāo)上表現(xiàn)良好,且懲罰系數(shù)較??;SCAD方法在AUC指標(biāo)和F1值上表現(xiàn)較好,但懲罰系數(shù)較大;AEN方法在分類準(zhǔn)確度、F1值和懲罰系數(shù)指標(biāo)上表現(xiàn)最好;ADS方法在分類準(zhǔn)確度和AUC指標(biāo)上表現(xiàn)略低,但懲罰系數(shù)最大。
本文通過對(duì)Cox比例風(fēng)險(xiǎn)模型中的多種變量選擇方法的比較與應(yīng)用研究,得出了以下結(jié)論:這四種方法都能夠有效地處理共線性問題,并且能夠自動(dòng)選擇與生存時(shí)間相關(guān)的變量,降低維度并提高預(yù)測(cè)性能。不同的特征選擇方法會(huì)導(dǎo)致不同的特征集合,這可能是由于不同方法對(duì)特征的懲罰力度、結(jié)構(gòu)偏好和相關(guān)性處理方式不同所導(dǎo)致的。其中,Adaptive Elastic Net方法選擇的特征最多,而ADS方法選擇的特征最少,這可能是因?yàn)锳daptive Elastic Net方法可以保持稀疏性的同時(shí),克服了Lasso方法在高相關(guān)性特征選擇方面的一些問題,而ADS方法則沒有考慮相關(guān)性。在分類性能方面,這四種模型在分類準(zhǔn)確度、F1值和AUC指標(biāo)上表現(xiàn)相似,但是在預(yù)測(cè)陽性患者的召回率上,Adaptive Elastic Net方法表現(xiàn)最好,這說明在生存分析中,Adaptive Elastic Net方法可能更適合于對(duì)陽性患者進(jìn)行篩查和預(yù)測(cè)。
綜上所述,這四種基于懲罰項(xiàng)的變量選擇方法可以有效地處理生存分析中的高維數(shù)據(jù)和共線性問題,提高預(yù)測(cè)性能和可解釋性,但它們?cè)谶x擇特征和分類性能方面存在一定的差異,需要根據(jù)具體問題選擇合適的方法。