曹廣碩,黃瑞章,陳艷平,秦永彬
(貴州大學計算機科學與技術學院公共大數(shù)據(jù)國家重點實驗室,貴州 貴陽 550025)
乳腺癌是女性最常見的惡性腫瘤,據(jù)文獻[1-2]統(tǒng)計,在2020 年全球估計有606 520 人死于乳腺癌,2021 年新發(fā)癌癥19 292 789 例,新發(fā)女性乳腺癌2 261 419 例,占總體癌癥發(fā)病數(shù)的11.7%,占全世界女性新發(fā)癌癥病例的30%。文獻[3-4]介紹盡管早期篩查和診斷治療技術有了很大的進步,但是癌癥的遺傳異質性和高度復雜性使得患者人群的總體生存率降低。因此,遺傳預后指標的識別在了解乳腺癌患者間的個體差異、制定診療方案和優(yōu)化精準治療方面發(fā)揮著至關重要的作用。5 年的閾值最常用于評估癌癥的進程,而且研究表明5 年生存率大于85%的乳腺癌預后優(yōu)于其他癌癥,因此可以預測乳腺癌的預后5 年生存率來指導臨床干預。
隨著高通量技術的快速發(fā)展,能夠更快、更準確地收集基因組學數(shù)據(jù),包括全基因組基因表達、單核苷酸多態(tài)性、microRNA 和體細胞拷貝數(shù)改變數(shù)等,同一樣本的多類型分子信息可以為多組學的癌癥研究提供更多的機會。文獻[5-6]表明隨著機器學習和深度學習技術的發(fā)展,利用大數(shù)據(jù)分析設計生存預測模型成為研究熱點,在疾病診斷、疾病預測、復發(fā)預測和癥狀預測等方面上都通過較多的機器學習模型進行研究,而相關深度學習模型的研究工作還較為稀少。分析原因主要有2 點:1)癌癥腫瘤生存預測研究往往集中在生物學研究領域,而深度學習方法的開發(fā)和研究需要一定的計算機科學基礎,相較于深度學習模型構建的復雜性,機器學習算法和數(shù)學統(tǒng)計模型可以直接調用成熟的軟件庫,使用更加方便,因此后兩者在生物信息學領域得到了廣泛應用;2)真實癌癥患者基因組學數(shù)據(jù)集不僅數(shù)據(jù)本身具有序列長且嘈雜性等特點,而且數(shù)據(jù)集總體是樣本不平衡的,這對深度學習算法的構建和訓練過程都有較高的要求,在樣本量有限的情況下難以提升預測準確性,并且多模態(tài)基因組數(shù)據(jù)的異質性可能會疊加噪聲,進一步導致預測結果的準確度降低。
為解決上述問題,提高乳腺癌患者5 年預后生存預測的準確性,改善多模態(tài)深度學習在癌癥腫瘤生存預測研究中的效果,本文提出一種基于多模態(tài)學習的乳腺癌生存預測模型。借助深度可分離卷積更好的泛化能力和更快的收斂速度以及多頭自注意力機制更高的模型容量,解決過長的基因組序列數(shù)據(jù)在模型訓練時極易過擬合的問題,將2 種基礎網絡有效結合,提升模型的泛化能力和容量。根據(jù)患者的多模態(tài)基因組學數(shù)據(jù),利用多模態(tài)學習捕獲患者基因組學數(shù)據(jù)的上下文特征,提高患者預后生存的預測準確性。使用Focal Loss 損失函數(shù)進行訓練,以解決真實患者數(shù)據(jù)集樣本不平衡問題。
當前公共多組學數(shù)據(jù)集癌癥基因組圖譜(TCGA)極大地加速了癌癥的研究速度,包括準確的癌癥分級、分期和生存預測。癌癥生存分析可分為二分類和風險回歸。在二分類任務中,患者通常根據(jù)預定義的閾值(如5 年)分為短期生存者和長期生存者。文獻[7]介紹在風險回歸研究中通常使用Cox 比例風險模型計算每個患者的風險評分。在大型癌癥數(shù)據(jù)集中,已開發(fā)出各種模型來預測生存率。例如,文獻[8]將基因表達數(shù)據(jù)與臨床和病理特征相結合,測試各種分類算法來預測5 年乳腺癌患者生存率。各種分類方法如隨機森林(RF)、支持向量機(SVM)等都具有相似的精度和曲線下面積(AUC),分別為0.72 和0.67。文獻[9]利用支持向量回歸和臨床病理數(shù)據(jù)建立乳腺癌生存預測模型,也得出了類似的結論。
目前能夠有效進行癌癥患者預后生存狀態(tài)預測的研究工作主要依賴于機器學習技術。深度學習在癌癥患者生存預測研究的應用上仍有較廣泛的探索前景。文獻[10]研究癌癥患病分類,使用深度神經網絡、線性回歸、支持向量分類器、隨機森林將乳腺癌患者分為風險組,獲得顯著的預測結果,該研究驗證基于機器學習技術在預測乳腺癌生存率方面的優(yōu)勢。文獻[11]使用樸素貝葉斯將微陣列基因表達數(shù)據(jù)與臨床數(shù)據(jù)集成,結合這2 種數(shù)據(jù)模式可以提高預測準確性,而不僅僅是臨床數(shù)據(jù)或基因表達。文獻[12-13]采用支持向量機分類器和人工神經網絡(DNN)對從SEER 收集的癌癥患者數(shù)據(jù)進行分類,這些研究驗證了神經網絡在生存預測方面的優(yōu)越性能。類似地,文獻[14]使用深度神經網絡、邏輯回歸(LR)研究乳腺癌的生存預測,初步探索深度神經網絡在乳腺癌生存預測方面的可應用性。
盡管上述癌癥的生存預測研究取得不錯的進展,但是依然存在一定的局限性。由于當前的生存預測研究主要使用機器學習方法或者數(shù)學統(tǒng)計模型,因此無法充分利用多模態(tài)基因組數(shù)據(jù),不能有效捕捉多模態(tài)基因組數(shù)據(jù)中的全局信息,以及各模態(tài)之間潛在的復雜關系。但是,相比常規(guī)數(shù)據(jù)集,癌癥腫瘤研究使用的患者數(shù)據(jù)集正負樣本不平衡,正常人數(shù)據(jù)顯著多于患者數(shù)據(jù),使得構建和訓練深度學習模型面臨一定的挑戰(zhàn)。
近年來,從多個模態(tài)中獲得上下文表征已成為1 個重要問題。文獻[15-19]介紹了多模態(tài)深度學習具有優(yōu)于淺層數(shù)據(jù)融合方法的優(yōu)勢,能夠模擬非線性模態(tài)內和模態(tài)間的關系,在深度學習架構中集成和融合多模式表示的機制,廣泛應用于自然語言處理和計算機視覺研究領域,例如視頻合成和描述、面部表情識別。在研究中使用多模態(tài)數(shù)據(jù)的主要原因是可以從多個傳感器中提取互補和更豐富的信息,學習到輸入數(shù)據(jù)的高級表示。
文獻[20-21]介紹了在多模態(tài)醫(yī)學數(shù)據(jù)分析中也有多模態(tài)深度學習的應用,但它們主要集中在病理影像數(shù)據(jù)和臨床數(shù)據(jù)的研究,比如CT、SPECT、PET 等模態(tài)影像。文獻[22]提出一種基于深度學習的多模態(tài)醫(yī)學圖像分割通用流程,該流程由數(shù)據(jù)準備、網絡架構、融合策略和數(shù)據(jù)后處理組成。文獻[23]介紹多模態(tài)深度學習在醫(yī)學圖像分析中的應用系列研究,強調融合技術和特征提取。文獻[24]解釋了放射組學和放射基因組學相關的數(shù)據(jù)以及它們之間的差異。文獻[25]指出多模態(tài)學習的缺陷在于不同特征級別數(shù)據(jù)的通用性差異、不同數(shù)據(jù)源的噪聲和概念缺失可能會進一步導致研究結果準確性降低。在不同模態(tài)的生物基因組學數(shù)據(jù)之間有生物學上的本質差異,比如DNA 序列轉錄成RNA 序列,RNA 序列翻譯成蛋白質氨基酸序列。因此,多模態(tài)基因組學數(shù)據(jù)的挖掘研究面臨一定的挑戰(zhàn)。
另外,文獻[26]介紹了多模態(tài)學習相比機器學習方法、數(shù)學統(tǒng)計模型結構更加復雜,需要比單模態(tài)架構更多的參數(shù)進行擬合,導致模型訓練容易過度擬合?;蚪M學數(shù)據(jù)挖掘需要同時具備一定的基因組學和計算機科學基礎。因此,多模態(tài)學習在基因組學數(shù)據(jù)挖掘中的相關研究仍處于起步階段。
基于此,本文提出基于多模態(tài)學習的乳腺癌患者預后5 年生存預測模型,充分利用4 種模態(tài)基因組學數(shù)據(jù),以深度可分離卷積和多頭自注意力機制為主要架構,捕捉患者多模態(tài)基因組數(shù)據(jù)更高質量的特征融合信息,提升乳腺癌患者預后5 年生存預測的準確性。
本文提出一種新型的融合多模態(tài)基因組數(shù)據(jù)的乳腺癌生存預測深度學習模型MLBSP。該模型能夠對乳腺癌患者進行預后5年生存預測,具體架構如圖1所示。首先,基因表達數(shù)據(jù)(EXPR)、基因突變累積數(shù)(CNGM)、單核苷酸變異(SNV)數(shù)據(jù)以及基因拷貝數(shù)變異數(shù)據(jù)(CNA)4 種模態(tài)基因組數(shù)據(jù)經過特征選擇,分別輸入至由深度可分離卷積、長短期記憶網絡(LSTM)、多頭注意力機制組成的單模態(tài)模塊,然后將特征堆疊后輸入至由深度可分離卷積(MBConv)和多頭注意力機制組成的共享模塊和多模態(tài)模塊。根據(jù)數(shù)據(jù)特點設計的單模態(tài)模塊能夠有效提取對應模態(tài)的基因組信息。在共享模塊中,神經網絡參數(shù)共享,能夠減少模型的參數(shù)量,提高計算效率。多模態(tài)模塊通過特征融合捕獲多模態(tài)基因組學的上下文特征和全局信息,可以有效提高患者預后5 年生存預測的準確性。為解決真實數(shù)據(jù)集樣本不平衡的問題,本文在模型訓練時引入Focal Loss損失函數(shù)。
圖1 基于多模態(tài)深度學習的乳腺癌生存預測模型架構Fig.1 Architecture of breast cancer survival prediction model based on multi-modal deep learning
逐深度卷積和逐點卷積的組合稱為深度可分離卷積。該架構在計算機視覺領域中有著較廣泛的應用,是許多高效神經網絡體系結構的關鍵組成部分。本文的卷積神經網絡也采用這種深度可分離架構MBConv[27],其基本思想是采用分步操作取代完全卷積神經網絡運算,將標準卷積拆分為2 個單獨的層。第1 層稱為深度卷積層,利用1 個卷積濾波器對每個輸入通道執(zhí)行輕量級濾波。第2 層是1×1 卷積,稱為逐點卷積,通過計算輸入通道的線性組合來構建新特征。這種分解方式可以顯著減少計算量和模型大小。
標準卷積神經網絡采用hi×wi×di的輸入張量Li,并使用大小為k×k的卷積核K?生成hi×wi×dj的輸出張量Lj,hi、wi是輸入的寬度和高度,di、dj是輸入、輸出的通道數(shù)。此時,標準卷積的參數(shù)總量計算式如下:
深度可分離卷積由深度卷積層和逐點卷積層構成。深度卷積的濾波器數(shù)量與通道數(shù)一致,即每個輸入通道對應1 個濾波器,它的參數(shù)量如下:
深度卷積只過濾了輸入通道,因此需要1 個額外的層來生成新特征,逐點卷積層通過1×1 的卷積核計算深度卷積輸出的線性組合,其參數(shù)量如下:
將式(2)與式(3)相加即為深度可分離卷積的參數(shù)總量:
由式(4)可以看出,相比傳統(tǒng)的標準卷積神經網絡,深度可分離卷積的計算量減少了1/k2。本文在構建模型時使用卷積核為3 的一維卷積,因此計算成本相比標準卷積降低了1/3 左右。
自注意力機制是將單個序列不同位置的特征聯(lián)系起來以計算序列表示的注意力機制。自注意力機制首先通過輸入向量與隨機初始化的權重矩陣計算得到Q、K、V3 個矩陣。然后Q、KT點積歸一化計算相似度,通過Softmax 運算獲取特征權重,最后點乘V得到自注意力機制的值,如式(5)所示:
通過不同的線性投影可以將Q、K、V投影到不同的表示子空間,在每個投影上執(zhí)行注意力機制,將不同子空間的結果連接起來再進行投影計算,得到多頭自注意力結果。多頭自注意力機制是由h個不同表示子空間的自注意力機制組成,如式(6)所示:
Transformer 架構中使用位置編碼解決輸入向量詞順序問題。本文使用的多模態(tài)基因組數(shù)據(jù)是由illumina 平臺單分子陣列測序芯片得到的數(shù)據(jù),序列較長。在數(shù)據(jù)經過特征選擇之后,已經丟失了基因組序列的原始位置信息,因此本文提出的模型架構只使用多頭自注意力機制,沒有使用位置編碼。本文模型使用殘差連接、全連接神經網絡和多頭自注意力共同組成1 個Attention Block 模塊,如圖1 所示。
本文以深度可分離卷積和多頭自注意力機制為核心設計MLBSP 模型。MLBSP 模型的整體架構主要包括單模態(tài)模塊、共享模塊和多模態(tài)模塊3 部分。單模態(tài)模塊由基因拷貝數(shù)變異數(shù)據(jù)模塊、基因突變累積數(shù)模塊、基因表達數(shù)據(jù)模塊、單核苷酸變異數(shù)據(jù)模塊構成。共享模塊和多模態(tài)模塊由深度可分離卷積和多頭自注意力機制組成。
CNA 是基因組部分重復且基因組中的重復次數(shù)因個體而異的現(xiàn)象,是4 種模態(tài)數(shù)據(jù)中最長的序列。為了從過長的序列中提取有效信息,MLBSP 在CNA 模塊中使用一維深度可分離卷積和最大池化層對CNA 序列進行初步特征提取,使序列長度減半,然后通過線性變換層映射到指定維度。深度可分離卷積和最大池化層可以提取特定有效的局部特征,能夠充分捕獲CNA 信息,如式(7)所示:
CNGM 是統(tǒng)計基因組序列中各基因位點突變的數(shù)量,SNV 是最常見的遺傳變異。CNGM 和SNV 模塊使用了相同的設計,通過LSTM 和Tanh 激活函數(shù)處理2 種序列信息,最后通過線性變換映射到指定維度。CNGM 和SNV 這2 種序列可能存在未知的少量致癌信息,為了避免傳統(tǒng)循環(huán)神經網絡或隱馬爾可夫模型帶來的梯度爆炸或消失,采用對間隙長度相對不敏感的LSTM,如式(8)和式(9)所示:
EXPR 可以分析不斷變化的細胞轉錄情況以及細胞類型,能夠在基因組水平上尋找突變的癌癥相關基因。卷積神經網絡的感受野與此概念契合,可以感受相鄰細胞的有效信息,因此使用2 個相鄰的一維深度可分離卷積網絡模擬生物神經元感受相鄰區(qū)域的基因表達量,具體過程如式(10)所示:
感受野大小的不同是區(qū)別注意力機制和卷積神經網絡的關鍵因素之一,更大的感受野能夠提供更多的上下文信息,導致模型的參數(shù)總量增加。因此,本文設計深度可分離卷積與多頭自注意力機制組合的共享模塊,該模塊能夠有效減少模型的參數(shù)總量。
不同的單模態(tài)數(shù)據(jù)有不同的序列長度,為融合多模態(tài)信息,在各單模態(tài)模塊中都加入了MLP 層,以得到相同維度的輸出。MLBSP 在共享模塊中將單模態(tài)模塊的輸出數(shù)據(jù)輸入至由4 個深度可分離卷積構成的卷積塔中,然后通過多頭自注意力機制計算單模態(tài)序列權重,最后將4 種模態(tài)數(shù)據(jù)疊加在一起輸出到多模態(tài)模塊。各單模態(tài)數(shù)據(jù)在共享模塊中得到初步的特征融合,如式(11)和式(12)所示:
多模態(tài)模塊將融合的4 種模態(tài)基因組數(shù)據(jù)視作4 個通道輸入,使用深度可分離卷積和多頭自注意力機制對多模態(tài)數(shù)據(jù)進行深度融合,首先利用深度可分離卷積網絡提取多模態(tài)融合特征中特定有效的局部信息,然后使用自注意力機制捕捉多模態(tài)數(shù)據(jù)之間的內部相關性,通過計算特征間的互相影響,捕獲長距離的全局信息,以獲取高效的上下文特征,最后通過前饋神經網絡對患者預后5 年生存狀態(tài)進行預測,具體過程如式(13)所示:
本文所提的MLBSP 模型將深度可分離卷積和多頭自注意力機制相結合作為主干網絡,不僅能對多模態(tài)數(shù)據(jù)進行深度融合,捕獲有效的全局基因組信息,而且能夠獲得更好的泛化能力和模型容量,提高模型的魯棒性和易訓練性。
為防止MLBSP 模型在訓練過程中過度擬合,增強網絡的學習能力和泛化能力,本文在各個模塊的MLP 層中引入Dropout[28],Dropout 服從二項分布,其原理是在模型訓練過程中將一些神經元按照一定概率將其暫時從網絡中隱藏。由于是隨機隱藏,因此每個mini-batch 都在訓練不同的網絡,使得迭代的前向和后向傳播只有部分權重參數(shù)學習,有效防止模型過擬合。本文設置隱含節(jié)點的Dropout 率為0.3。
乳腺癌患者的預后5 年生存預測問題是短期生存與長期生存的二分類問題。在二分類問題中常用的損失函數(shù)是交叉熵。在本文的研究中,真實乳腺癌患者數(shù)據(jù)集存在正負樣本比例不平衡的問題,負樣本數(shù)量與正樣本數(shù)量比約為1∶3。如果使用交叉熵作為模型訓練的損失函數(shù),那么在訓練過程中數(shù)量更多的正樣本會占總損失的主導地位,導致模型訓練過程不穩(wěn)定。因此,為避免這種問題的出現(xiàn),本文采用改進的損失函數(shù)Focal Loss[29]。
Focal Loss 旨在解決難易樣本數(shù)量不平衡的問題,其在交叉熵的基礎上做了一定的改進。此時,交叉熵的計算式如式(14)所示:
其中:y代表患者的生存結果,y?{0,1},0 為長期存活者,1 為短期存活者;p代表預測結果y=1 的概率,p?[0,1]。
Focal Loss 在交叉熵基礎上定義新的調節(jié)系數(shù)γ,以減少損失中易分類樣本的權重,從而使得模型在訓練時更專注于難分類的樣本,并且Focal Loss 定義了用于控制正負樣本的權重系數(shù)α,以處理樣本不平衡問題。Focal Loss 的計算式如式(15)所示:
其中:γ取2;α取0.25。
本文使用METABRIC[30]、BRCA Cell[31]、PanCancer Altas[32]3 個乳腺癌患者真實數(shù)據(jù)集。每個乳腺癌患者的基因組信息都含有4 種不同模態(tài)的數(shù)據(jù):基因表達數(shù)據(jù),基因突變累積數(shù),單核苷酸變異數(shù)據(jù)以及基因拷貝數(shù)變異數(shù)據(jù)。使用5 年生存閾值將乳腺癌患者分為2 個生存期等級:對于1 個患者樣本,生存時長不少于5 年,則此樣本標簽為“0”,為長期存活者;若生存時長小于5 年,且生存狀態(tài)為死亡,則其標簽為“1”,為短期存活者。各數(shù)據(jù)集經過初步數(shù)據(jù)清洗之后的信息如表1 所示。
表1 數(shù)據(jù)集信息Table 1 Datasets information
為保證實驗的可靠性,數(shù)據(jù)樣本按照8∶2 的比例分為訓練集和測試集。從表1可以看出,4種模態(tài)的基因組數(shù)據(jù)都是超長序列數(shù)據(jù),對其直接進行建模有較大的難度,因此,需要對數(shù)據(jù)進一步處理。多模態(tài)數(shù)據(jù)處理流程如圖2所示。將訓練集中每個模態(tài)的數(shù)據(jù)進行標準化,然后獲取均值和標準差以對測試集進行標準化,標準化操作使用Standard Scaler 方法。為了盡可能地去除超長序列數(shù)據(jù)中的噪聲,并從中提取有效信息,本文使用互信息篩選[33]、Boruta算法[34]和RFE算法[35]對各個模態(tài)的特征進行篩選。3 種特征選擇方法有各自的優(yōu)缺點,將它們聯(lián)合使用能夠最大程度地提取有效特征,篩選之后的數(shù)據(jù)集信息如表2所示。
表2 在特征選擇后數(shù)據(jù)集信息Table 2 Datasets information after feature selection
圖2 多模態(tài)基因組學數(shù)據(jù)處理流程Fig.2 Process procedure of multi-modal genomics data
本文使用深度學習框架PyTorch 1.10和集成開發(fā)環(huán)境PyCharm 2021.3 作為建模工具,在Linux 3.1.0 64 位操作系統(tǒng),內存187 GB,CPU 為Intel?Xeon?Gold 5118@2.30 GHz,GPU 為16 GB NVIDIA Tesla P100,Python 3.7 的環(huán)境下進行對比實驗分析。
在MLBSP 模型中,卷積神經網絡卷積核大小為3,各單模態(tài)模塊的MLP 層的輸出維度均為128,在共享模塊的自注意力機制中參數(shù)Depth 為8、heads為7,在多模態(tài)模塊的自注意力機制中參數(shù)Depth為8、Head 為6,在全連接網絡中的Dropout 率均為0.3。模型采用Adam 神經網絡優(yōu)化器。
本文采用二分類問題中常用的3 種指標對MLBSP 模型進行評估:ROC 曲線下面積AUC,準確度(ACC),F(xiàn)1 值。ACC 無法評估模型質量的好壞,特別是在不平衡數(shù)據(jù)集的問題上。不平衡數(shù)據(jù)集是指某些類的樣本比其他類多,大多數(shù)的算法都偏向于主要類,而忽略了次要類,因此次要類的預測準確度較低,但是數(shù)據(jù)集總體的預測準確度卻很高。在實際應用中,少數(shù)樣本的次要類可能更重要,比如在本文中乳腺癌患者預后5 年死亡者為主要類,而存活者為次要類。
對于不平衡數(shù)據(jù)集,AUC 和F1 值的評估效果更加準確。AUC 對正負樣本均衡不敏感,在樣本不平衡的數(shù)據(jù)下,也能做出合理評估。F1 值兼顧了分類模型的精確率(P)和召回率(R),值越大說明模型質量越好。
因此,本文采用ACC、AUC、F1 值 3 種評價指標。ACC、P、R與F1 值(F1)計算式如下:
其中:TTP表示正確預測患者預后5 年生存狀態(tài)為短期存活;TTN表示正確預測患者預后5 年生存狀態(tài)為長期存活;FFP表示錯誤預測患者預后5 年生存狀態(tài)為短期存活;FFN表示錯誤預測患者預后5 年生存狀態(tài)為長期存活。
3.4.1 與其他方法的對比
為驗證MLBSP 模型在多模態(tài)基因組數(shù)據(jù)上對乳腺癌患者進行預后5 年生存預測的有效性,本文在BRCA Cell、METABRIC、PanCancer Altas 數(shù)據(jù)集上設計多模態(tài)數(shù)據(jù)的對比實驗,實驗結果如表3 所示,加粗表示最優(yōu)結果。對比方法包括Random Forest[8]、SVM[8]、Na?ve Bayes[11]、Logistic Regression[14]、XGBoost[36]、CatBoost[37]以及深度神經網絡(DNN)[13]。
表3 不同方法的乳腺癌患者預后5 年生存預測性能對比Table 3 Comparison of prognostic five-year survival prediction performance among different methods for breast cancer patients %
從表3 可以看出,MLBSP 模型相比機器學習算法、集成算法、深度神經網絡的性能有較大的提升,從所有的數(shù)據(jù)集和指標來看,MLBSP 模型的性能均優(yōu)于其他方法,說明MLBSP 模型通過各個深度學習模塊學習到了較顯著的差異性表示,不僅提高乳腺癌預后5 年生存預測的準確性,而且提升長期生存與短期生存2 個類別之間的區(qū)分能力。
從表3 可以看出,MLBSP 模型在BRCA Cell、METABRIC、PanCancer Altas 數(shù)據(jù)集上的AUC 分別為91.18%、71.49%、77.37%,與4 種機器學習算法(SVM、Naíve Bayes、Random Forest、Logistic Regression)相比,MLBSP 的性能平均提升了23.52、8.49、16.79 個百分點,相對于2 種集成算法(XGBoost、CatBoost),MLBSP 的性能平均提升了13.2、3.59、8.02 個百分點。而相對于DNN,MLBSP 的性能提升16.67、7.44、5.92 個百分點。在BRCA Cell、METABRIC、PanCancer Altas 數(shù)據(jù)集上,MLBSP 相較于4 種傳統(tǒng)機器學習算法的平均準確率提高14.19、5.43、8.46 個百分點,相較于2 種集成算法的平均準確率提高了10.81、0.41、4.15 個百分點。從F1 值來看,本文方法的性能也全面優(yōu)于其他方法。同時,使用基因表達數(shù)據(jù)、基因突變累積數(shù)、單核苷酸變異數(shù)據(jù)以及基因拷貝數(shù)變異數(shù)據(jù)4 種模態(tài)的基因組數(shù)據(jù)對乳腺癌患者進行生存預測時,本文模型的單模態(tài)模塊、共享模塊、多模態(tài)模塊利用深度可分離卷積與自注意力機制相結合的方式,能極大提高抽取長距離多模態(tài)基因組數(shù)據(jù)的能力,傳遞更完整的特征信息,并指導患者預后5 年的生存預測,提高預測的準確性。
3.4.2 單模態(tài)數(shù)據(jù)對比實驗
當前癌癥腫瘤患者的預后生存研究仍以單模態(tài)基因組數(shù)據(jù)為主,因此為進一步驗證該模型的效果,本文使用單模態(tài)基因組數(shù)據(jù)對乳腺癌患者進行預后5 年生存預測的對比實驗。
CatBoost、XGBoost 算法相比目前廣泛應用于生物信息分析的機器學習算法有更好的魯棒性和預測結果,因此本文采用CatBoost、XGBoost 在3 個數(shù)據(jù)集上分別使用CNA、SNV、CNGM、EXPR 這4 種模態(tài)基因組數(shù)據(jù)進行乳腺癌患者5 年預后生存預測,實驗結果如表4 所示。
表4 不同單模態(tài)數(shù)據(jù)的預后5 年生存預測性能對比Table 4 Comparison of prognostic five-year survival prediction performance among different single-modal data %
從表4 可以看出,本文模型使用4 種模態(tài)基因組數(shù)據(jù)要優(yōu)于CatBoost、XGBoost 在各個單模態(tài)數(shù)據(jù)上的預測結果。從AUC 方面分析,MLBSP 在數(shù)據(jù)集BRCA Cell 上相較于各單模態(tài)數(shù)據(jù)CNA、CNGM、SNV、EXPR 在CatBoost、XGBoost 算法的平均結果分別提升了25.49、28.18、39.09、8.34 個百分點,在數(shù)據(jù)集METABRIC 上分別提升了11.46、6.24、18.11、4.44 個百分點,在PanCancer Altas 上分別提升15.75、6.03、18.12、9.47 個百分點。從F1 值結果來看,MLBSP 模型在不同數(shù)據(jù)集上都表現(xiàn)出色,在BRCA Cell、METABRIC 數(shù)據(jù)集上的預測結果優(yōu)于各單模態(tài)數(shù)據(jù),在PanCancer Altas 數(shù)據(jù)集上的F1 值也與最優(yōu)結果相當,說明MLBSP 模型能有效平衡精確率和召回率。同時,在單模態(tài)基因組數(shù)據(jù)集上,基因表達數(shù)據(jù)的預測效果是最好的,因為基因表達數(shù)據(jù)蘊含著基因活動的信息,能夠反映細胞當前的生理狀態(tài),通過分析基因表達數(shù)據(jù)可以獲取基因功能和基因表達調控信息。因此,MLBSP 模型利用多模態(tài)學習將4 種多模態(tài)基因組數(shù)據(jù)進行特征級融合的方式,相比僅使用單模態(tài)數(shù)據(jù)的預測能夠顯著提升乳腺癌患者預后5 年生存預測的結果。
3.4.3 卷積核敏感性研究
通過以上實驗可以看出,本文使用4 種多模態(tài)基因組數(shù)據(jù)的多模態(tài)學習以深度可分離卷積和自注意力機制為主要架構,能夠有效提升乳腺癌患者預后5 年生存的預測結果。
由第2 節(jié)可以得知,1 個卷積核大小為k的一維深度可分離卷積相比傳統(tǒng)卷積的計算量能夠減少1/k2,因此模型中卷積核大小的設置對計算量的影響不可忽視。本文又研究了不同卷積核大小對MLBSP 模型的影響,將卷積核大小按照3、5、7、9、11依次進行對比實驗,實驗結果如圖3 所示。
圖3 卷積核敏感性測試AUC 結果Fig.3 AUC results of convolution kernels sensitivity test
從圖3 可以看出,在不同數(shù)據(jù)集上采用不同的卷積核大小,預測結果差異尤為明顯,比如在BRCA Cell 數(shù)據(jù)集中卷積核大小為3 相比7 的預測,AUC 提高26.5 個百分點。當卷積核大小為3 時,MLBSP 模型在3 個數(shù)據(jù)集上都取得最優(yōu)結果。因此,為了模型的穩(wěn)定性,MLBSP 的最佳策略是采用卷積核大小為3,在計算性能與計算速率之間取得最佳的平衡。
3.4.4 時空復雜度分析
深度學習算法是大型復雜的神經網絡,是計算密集型算法,對計算量非常敏感。MLBSP 模型利用單模態(tài)模塊實現(xiàn)了參數(shù)自適應。因為本文研究輸入數(shù)據(jù)的特殊性,所以常規(guī)深度學習模型無法直接用于乳腺癌預后生存預測。為進一步研究算法的時間復雜度和空間復雜度,本文將4 種模態(tài)數(shù)據(jù)序列拼接,然后轉成三通道數(shù)據(jù),將MLBSP 算法與VGG、ResNet、DenseNet、MobileNet 進行時空復雜度對比研究。深度學習模型通常用乘加計算數(shù)(MACs)評價時間復雜度,參數(shù)量評價空間復雜度,實驗結果如表5 所示。
表5 不同模型的評價指標對比Table 5 Evaluation index comparison among different models
從表5 可以看出,采用深度可分離卷積為主架構的MobileNetV2 算法[27]、MLBSP 算法的參數(shù)總量和MACs 遠小于以標準卷積神經網絡為主架構的深度學習模型。在3 個不同數(shù)據(jù)集上,普通深度學習模型的參數(shù)總量結果完全一致,其原因為這些模型參數(shù)是固定的,而MLBSP 模型利用單模態(tài)模塊實現(xiàn)了參數(shù)自適應,參數(shù)總量隨數(shù)據(jù)集規(guī)模的變化而變化,具有更好的泛化能力。實驗結果表明,與傳統(tǒng)深度學習模型相比,MLBSP 的時間復雜度和空間復雜度明顯降低并有較優(yōu)的泛化能力。
3.4.5 多模態(tài)生物學分析
本文對4 種模態(tài)數(shù)據(jù)進行對照研究發(fā)現(xiàn),基因拷貝數(shù)變異數(shù)據(jù)和基因表達數(shù)據(jù)特征數(shù)顯著多于基因突變和單核苷酸變異特征數(shù),反映前兩者對乳腺癌生存預測的高度貢獻。同時,對于基因突變累積數(shù)和基因表達數(shù)據(jù)特征數(shù)的關聯(lián)研究發(fā)現(xiàn),高效的體細胞突變不會在轉錄表達中做出更多的貢獻,可能是因RNA 高度的時空特異性,導致受調節(jié)的基因表達量更能反映患者的身體狀態(tài),因此該模態(tài)數(shù)據(jù)在生存預測中起著更重要的作用。
本文對單模態(tài)基因表達數(shù)據(jù)進行KEGG 通路分析,發(fā)現(xiàn)高重要性與生存率相關的SLC8A3 基因、FGF6 基因、EZH2 基因分別與黑色素瘤、賴氨酸的降解以及礦物質吸收有關。基因富集分析結果揭示了關鍵的基因表達與活性氧代謝過程的調節(jié)、線粒體組織的調節(jié)、組蛋白賴氨酸甲基化、防御反應的調節(jié)、MAPK 信號傳導途徑等生物學過程有一定關聯(lián)。同時,通過對基因突變累計數(shù)的統(tǒng)計發(fā)現(xiàn),TP53、PIK3CA 和MAP3L1 是乳腺癌的主要體細胞突變特征。
根據(jù)乳腺癌患者基因組學數(shù)據(jù)的特點,本文提出一種融合多模態(tài)基因組數(shù)據(jù)的預后5 年生存預測模型。采用單模態(tài)模塊和共享模塊處理基因表達、基因突變累積數(shù)、單核苷酸變異以及基因拷貝變異數(shù)4 種模態(tài)數(shù)據(jù),以有效提取特征表示,并減少模型參數(shù)總量?;谏疃瓤煞蛛x卷積和多頭自注意力機制設計多模態(tài)模塊,捕獲多模態(tài)數(shù)據(jù)的上下文特征和全局信息。通過引入Focal Loss 進行模型迭代優(yōu)化,在正負樣本不平衡下提高預測能力。在真實臨床數(shù)據(jù)集上的實驗結果表明,本文模型相較于主流生存預測算法,能夠實現(xiàn)乳腺癌患者預后5 年生存預測的最優(yōu)效果,證明了本文研究的新穎性和有效性。下一步將對多模態(tài)學習在其他復雜疾病上的應用進行研究,以幫助患者制定個性化診療方案,為癌癥的醫(yī)學研究提供便利。