陳 睿,蔡 念,羅智浩,劉 璇,黎 劍
(1.廣東工業(yè)大學 信息工程學院, 廣東 廣州 510006;2.中山大學腫瘤防治中心 華南腫瘤學國家重點實驗室, 廣東 廣州510060;3.中山大學腫瘤防治中心 廣東省惡性腫瘤臨床醫(yī)學研究中心, 廣東 廣州 510060)
乳腺癌已成為全球最常見的女性癌病,是最致命的女性癌癥之一[1], 2020年約有68.5萬女性死于患乳腺癌[2]。研究發(fā)現(xiàn)部分乳腺癌患者在確診后十年期間仍存活于復(fù)發(fā)可能性的陰影之下[3],因此針對乳腺癌患者的預(yù)后管理顯得尤為重要,但其適用性和有效性又受限于臨床醫(yī)生頗具主觀性的專業(yè)經(jīng)驗。近年來,生存分析[4]技術(shù)被用以輔助像乳腺癌這種發(fā)病不明顯、病程較長的疾病制定預(yù)后措施,研究人員將預(yù)后和預(yù)測特征即患者病理協(xié)變量獨立或整合以指導(dǎo)患者的治療[5]。鑒于個體化醫(yī)學的重要性,研究人員結(jié)合當下個體化醫(yī)學研究中流行的用于發(fā)現(xiàn)并識別復(fù)雜數(shù)據(jù)之間模式和關(guān)系的機器學習技術(shù),對乳腺癌等長病程數(shù)據(jù)集進行個體生存分析。此類方法基于患者間的病理協(xié)變量表達差異實現(xiàn)個性化的生存風險估計,進而繪制患者個體生存曲線,以輔助實現(xiàn)精準醫(yī)療。
近年來,個體生存分析研究主要分為基于Cox比例風險假設(shè)的生存分析和無參數(shù)型離散生存分析。Cox比例風險模型假設(shè)獨立協(xié)變量對生存時間的影響不隨時間而變化,以評估多個協(xié)變量對生存的影響[6]。Katzman等[7]基于Cox對數(shù)比例風險假設(shè)搭建一個深度前饋神經(jīng)網(wǎng)絡(luò)DeepSurv,用于預(yù)測患者協(xié)變量對風險率的影響。Lee等[8]使用一個共享子網(wǎng)絡(luò)以處理并預(yù)測時變協(xié)變量,同時設(shè)計多個特定原因子網(wǎng)絡(luò)捕獲特定原因風險同協(xié)變量之間的關(guān)系,構(gòu)成Dynamic-DeepHit模型用于動態(tài)風險預(yù)測。Tang等[9]對刪失數(shù)據(jù)進行最大似然估計并結(jié)合常微分方程進行生存分析建模。上述單任務(wù)回歸模型遵循對數(shù)風險假設(shè),導(dǎo)致乳腺癌患者間的風險函數(shù)永不相交,雖然可描繪出患者病情在總生存期中一個大致的走勢,但難以實現(xiàn)階段性且個性化的生存風險描述。Yu等[10]提出多任務(wù)線性回歸模型(Multi-task Logistic Regression, MTLR),其采用響應(yīng)轉(zhuǎn)換的方式繞過比例風險假設(shè)以實現(xiàn)生存函數(shù)預(yù)測,但回歸器核心為線性變換,難以捕捉患者生存數(shù)據(jù)中的非線性關(guān)系。Fotso等[11]通過往MTLR中引入多層感知器,實現(xiàn)靈活的建模,并命名為N-MTLR(Neural Multi-task Logistic Regression)。Hu等[12]基于時下流行的Transformer網(wǎng)絡(luò)架構(gòu),使用有序回歸實現(xiàn)對時變生存概率的優(yōu)化,但受限于多頭注意力機制在病理協(xié)變量對風險概率貢獻較均衡時難以分配權(quán)重。Wang等[13]提出了多任務(wù)帶狀回歸模型(Multi-task Banded Regression, MTBR),帶狀校驗矩陣的引入為響應(yīng)轉(zhuǎn)換提供約束,解決風險概率下降緩慢導(dǎo)致的生存概率分配不均的情況。以上的多任務(wù)回歸模型采用線性變換或多層感知器進行響應(yīng)轉(zhuǎn)換,使得協(xié)變量獨立于多個序列之間,難以提取出病理協(xié)變量對不同患者生存時間之間影響的異同關(guān)系,導(dǎo)致模型一致性指數(shù)下降。
為此,本文提出了一種新的多任務(wù)回歸模型RNN-MTBR(Multi-task Banded Regression via Recurrent Neural Network) 用于乳腺癌個體生存分析。首先,針對以往的多任務(wù)模型的回歸器無法使序列之間產(chǎn)生前后聯(lián)系的狀況,使用循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network, RNN)[14]作為多任務(wù)回歸模型的核心,RNN可通過維護網(wǎng)絡(luò)過去的記憶,讓模型在提取病理協(xié)變量同生存時間的關(guān)系時能利用到序列的上下文信息。其次,將帶狀校驗矩陣改進并探究其對風險分布的作用效果。最后,在乳腺癌真實數(shù)據(jù)集上實現(xiàn)了對個體生存分析區(qū)分度的優(yōu)化,成功驗證了模型的有效性。
給定一個含有M名患者的乳腺癌生存數(shù)據(jù)集,設(shè)?i∈[1,M],(Xi,δi,ti)為一個數(shù)據(jù)點,其中包含生存時間、與生存時間有關(guān)聯(lián)的p維獨立變量Xi=和事件類型標簽 δi(0或1)。生存數(shù)據(jù)分為完全數(shù)據(jù)、刪失數(shù)據(jù)。完全數(shù)據(jù)指從觀察起點到發(fā)生死亡事件所經(jīng)歷的時間均被觀察到的生存數(shù)據(jù)。刪失數(shù)據(jù)則分為左刪失數(shù)據(jù)、區(qū)間刪失數(shù)據(jù)和右刪失數(shù)據(jù)[15]。左刪失表示事件發(fā)生在觀察時間開始之前。區(qū)間刪失表示只能得知患者在不連續(xù)的2次隨訪區(qū)間中發(fā)生終點事件與否,而無法得知終點事件發(fā)生的具體時間。右刪失表示在隨訪觀察中,已知患者被觀察的起始時間,而無法得知患者發(fā)生終點事件的時間,其生存時間大于觀察時間。本文實驗中“刪失”數(shù)據(jù)只包含“右刪失”數(shù)據(jù)。
圖1 患者生存數(shù)據(jù)形式Fig.1 Forms of patient survival data
乳腺癌個體生存分析利用患者病理獨立協(xié)變量Xi與 生存時間ti建立一個乳腺癌風險隨時間變化的函數(shù),常見為風險函數(shù)h(t) 、風險概率分布函數(shù)f(t)或概率累計函數(shù)F(t) 。
多任務(wù)方法通過在不同時間間隔上建立回歸模型,來計算乳腺癌患者死亡在每個時間間隔中發(fā)生的概率,使不同患者間的結(jié)果具有更為明顯的差異性。多任務(wù)回歸模型以響應(yīng)變量的形式來分別代表患者在每一時間間隔的狀態(tài)(生存或死亡)。假設(shè)總生存期分為N個生存子區(qū)間,則在第j個生存子區(qū)間τj(左開右閉)內(nèi)患者的響應(yīng)變量為
且患者發(fā)生死亡事件后的所有時間間隔響應(yīng)變量值將恒為1。因而患者的生存向量為
多任務(wù)循環(huán)神經(jīng)網(wǎng)絡(luò)帶狀回歸模型的處理流程如圖2所示。將患者的病理協(xié)變量X輸入循環(huán)神經(jīng)網(wǎng)絡(luò)回歸器中并以生存向量Y作為監(jiān)督向量,多個回歸器輸出的生存響應(yīng) ψ (X)再經(jīng)過帶狀響應(yīng)轉(zhuǎn)換,則得到患者在每個生存子區(qū)間的風險概率,即可擬合出患者的生存曲線。
圖2 多任務(wù)循環(huán)神經(jīng)網(wǎng)絡(luò)帶狀回歸模型的操作流程Fig.2 Operation process of RNN-MTBR
圖3 不同帶狀校驗矩陣轉(zhuǎn)換生成的患者生存曲線Fig.3 Survival curves generated by different banded verification matrices
當乳腺癌患者的生存時間分為N個生存子區(qū)間,則多任務(wù)回歸模型的可信度矩陣[16]為
且必須保持矩陣主對角線占優(yōu),故矩陣需滿足各行和(對稱矩陣中同各列和)為1,且b0>b-1+b1。后續(xù)實驗將研究b-1、b1變化對患者生存概率分布的影響。
本文中乳腺癌患者的風險分布函數(shù)為
模型的損失函數(shù)由兩部分組成,第1部分為累計損失函數(shù),公式為
本文采用METABRIC[18]和GBSG[19]2種常用的乳腺癌真實數(shù)據(jù)集來評估模型的性能。METABRIC數(shù)據(jù)集包含1 980例乳腺癌患者的9項特征記錄,其中約58%的患者死于患乳腺癌,中位生存時間為116個月。GBSG數(shù)據(jù)集包含2 232例乳腺癌患者的記錄,其中1 546例為淋巴結(jié)陽性乳腺癌患者,以及686例隨機臨床試驗的患者完整數(shù)據(jù),刪失數(shù)據(jù)約占57%。
本文采用生存分析研究中常用的一致性指數(shù)(Concordance index, C-index)[20]作為評估指標,Cindex常被用于評價預(yù)后模型的預(yù)測精度,判斷出模型的區(qū)分能力,公式為
式中: φ(·)為 患者對的比較,η 為生存子區(qū)間的風險值。為了驗證模型的可靠性,將數(shù)據(jù)集以6:2:2的比例分為訓(xùn)練集、驗證集和測試集,并采用更換隨機種子的方式進行10次實驗,基于正態(tài)分布法計算C-index的95%置信區(qū)間。RNN-MTBR的模型采用循環(huán)神經(jīng)網(wǎng)絡(luò)作為核心,隱藏層維度為32,選用Adam優(yōu)化器,Dropout概率設(shè)為0.1,學習率設(shè)為0.01。
3.2.1 帶狀校驗矩陣系數(shù)對患者生存概率分布的影響
3.2.2 帶狀校驗矩陣優(yōu)化對性能的影響
圖4為各組分為正二對角塊非奇矩陣的帶狀校驗矩陣與優(yōu)化為只含有主對角線元素和次對角線元素的Toeplitz矩陣生存模型C-index的對比。經(jīng)比較,優(yōu)化后帶狀校驗矩陣對模型性能的提升更大。
圖4 帶狀校驗矩陣優(yōu)化前后模型C-index對比圖Fig.4 Comparison of C-index in survival models before and after banded check matrix optimization
3.2.3 生存分析模型性能對比
CoxCC[21]、DeepSurv[7]、DeepHit[8]、SODEN[9]、NMTLR[11]、Transformer-Based DSA[12]和MTBR[13]共7種生存分析模型作為RNN-MTBR的實驗對比模型。表1為各生存分析模型在乳腺癌數(shù)據(jù)集測試集上的Cindex值及95%置信區(qū)間。從表1可以看出,本文提出的RNN-MTBR模型效果在變更回歸器核心為循環(huán)神經(jīng)網(wǎng)絡(luò)和優(yōu)化了帶狀校驗矩陣后,模型在2個數(shù)據(jù)集上的預(yù)測性能相比原先的MTBR模型均有所提升,且同其他主流的生存分析模型相比具有最好的預(yù)測性能。
表1 各生存分析模型所獲取的C-index(95%置信區(qū)間)1)Table 1 C-index in 95% confidence interval achieved by each survival analysis model
圖5給出了幾種模型分別在GBSG數(shù)據(jù)集中擬合相同的5例乳腺癌患者的生存曲線的效果。CoxCC和DeepSurv屬于比例風險模型,該種模型默認所有個體擁有相同的基線風險,且實際風險與基線風險成正比,使得計算得到的患者間風險不會出現(xiàn)交叉,這與現(xiàn)實相悖。DeepHit沒有考慮對連續(xù)時間的尺度離散化,導(dǎo)致患者間生存曲線差異化不明顯。NMTLR將多層感知器引入多任務(wù)回歸中,能提取患者生存數(shù)據(jù)中的非線性關(guān)系,但存在響應(yīng)轉(zhuǎn)換在閾值附近波動的現(xiàn)象,導(dǎo)致生存曲線中較多出現(xiàn)生存率下降幅度減小的情況。MTBR通過引入帶狀校驗矩陣有效抑制了響應(yīng)轉(zhuǎn)換波動在閾值附近出現(xiàn)的現(xiàn)象,使得患者生存曲線能呈現(xiàn)較明顯的下降趨勢,但患者之間差異性的體現(xiàn)仍不明顯。RNN-MTBR將MTBR核心替換為RNN,輸入數(shù)據(jù)則得以在各時間步之間實現(xiàn)上下文關(guān)聯(lián),并能在不同時間步之間共享權(quán)重,并合理調(diào)整帶狀校驗矩陣,使得患者生存概率下降幅度隨時間變化顯得更為合理且患者之間的生存曲線能有較為明顯的差異性,從而方便個性化預(yù)后管理的施行。
圖5 各生存分析模型擬合GBSG數(shù)據(jù)集中五名患者的生存曲線Fig.5 Survival curves of five patients in GBSG dataset fitted from each survival analysis model
本文采用循環(huán)神經(jīng)網(wǎng)絡(luò)作為多任務(wù)回歸器,優(yōu)化設(shè)計了帶狀校驗矩陣,提出了一種多任務(wù)循環(huán)神經(jīng)網(wǎng)絡(luò)帶狀回歸模型,并應(yīng)用于乳腺癌個體生存分析。在2個乳腺癌真實數(shù)據(jù)集的生存分析中,多任務(wù)循環(huán)神經(jīng)網(wǎng)絡(luò)帶狀回歸模型的C-index較醫(yī)學界常用的Cox比例風險模型提升了0.02,且有效縮小了95%置信區(qū)間。研究還通過可視化的生存曲線驗證了新模型對患者間區(qū)分效果的增益性。