柴 華,辜曉純,蘇詠純,鄧偉振,林俊淇
(佛山科學(xué)技術(shù)學(xué)院 數(shù)學(xué)與大數(shù)據(jù)學(xué)院,廣東 佛山 528000)
癌癥是一種復(fù)雜的疾病,涉及基因和環(huán)境之間的一系列相互作用。大量的臨床試驗和科學(xué)研究發(fā)現(xiàn),對于不同的癌癥患者,相同藥物導(dǎo)致的治療結(jié)果不盡相同。因此,根據(jù)患者的差異性,判斷癌癥治療藥物的有效性,對實現(xiàn)癌癥的精準(zhǔn)治療至關(guān)重要。隨著計算機(jī)科學(xué)和生物醫(yī)學(xué)研究的迅速發(fā)展,利用人工智能算法預(yù)測藥物有效性因為其成本低、效率高等優(yōu)勢,對于篩選具有良好藥效和安全性的藥物候選物,縮短藥物研發(fā)周期,降低藥物研發(fā)成本等方面具有重要意義。
目前,大量的傳統(tǒng)機(jī)器學(xué)習(xí)方法已經(jīng)被用于這一領(lǐng)域。例如,Huang 等[1]使用基于正則化的邏輯回歸模型預(yù)測抗癌藥物的有效性,Dong 等[2]結(jié)合患者的基因表達(dá),使用支持向量機(jī)預(yù)測藥物敏感性,Riddick等[3]使用隨機(jī)森林尋找對乳腺癌有效的潛在治療藥物。盡管這些方法在很多方面已經(jīng)取得了一定的成果,但是高維的患者數(shù)據(jù)特征限制了此類方法的預(yù)測性能。深度學(xué)習(xí)在處理高維非線性數(shù)據(jù)方面展現(xiàn)了巨大優(yōu)勢。Theodore 使用深度神經(jīng)網(wǎng)絡(luò)評估不同藥物的有效性和以及不同藥物和患者生存之間的關(guān)系[4]。在此基礎(chǔ)上,為了更好地學(xué)習(xí)不同數(shù)據(jù)之間的分布信息,Ladislav 使用變分自編碼器構(gòu)造癌癥患者基因的低維表示,并將其輸入傳統(tǒng)機(jī)器學(xué)習(xí)分類器,用于預(yù)測藥物的敏感性[5]。在Wang 等[6]的工作中,基于患者基因通路構(gòu)建的圖卷積神經(jīng)網(wǎng)絡(luò)被用來更好地提取患者基因數(shù)據(jù)中的隱藏信息。而在最近的研究中,JIA 等[7]提出使用生成式自編碼器的藥物有效性預(yù)測框架,通過對抗生成式策略自主學(xué)習(xí)其特定的數(shù)據(jù)空間分布特性,從而更好地區(qū)分患者間的差異性。盡管這些方法和傳統(tǒng)的機(jī)器學(xué)習(xí)方法相比,取得了更加準(zhǔn)確的藥物敏感性預(yù)測表現(xiàn),然而,有限的癌細(xì)胞小樣本數(shù)據(jù)限制了此類方法性能的進(jìn)一步提升。為了解決深度學(xué)習(xí)中的小樣本學(xué)習(xí)困境,算法設(shè)計者提出了遷移學(xué)習(xí)[8],在模型訓(xùn)練中通過利用其他相似數(shù)據(jù)引入更多的信息。然而,遷移學(xué)習(xí)對數(shù)據(jù)的同質(zhì)性有很強(qiáng)的假設(shè),不同數(shù)據(jù)集的批次效應(yīng)限制了模型的性能。
針對以上問題,本文設(shè)計了一種基于深度學(xué)習(xí)的抗癌藥物敏感性預(yù)測框架(SSLGP),通過結(jié)合自監(jiān)督學(xué)習(xí)減少高維基因數(shù)據(jù)中的冗余信息和噪聲,從而獲得低維數(shù)據(jù)的穩(wěn)健表示,并將所獲得的低維數(shù)據(jù)用于訓(xùn)練XGBoost 預(yù)測模型。與遷移學(xué)習(xí)不同的是,在最近的研究中,基于自監(jiān)督學(xué)習(xí)的方法被設(shè)計用于應(yīng)對小樣本學(xué)習(xí)的挑戰(zhàn),而無需考慮不同數(shù)據(jù)集的同質(zhì)性[9]。在我們的預(yù)測框架中,自監(jiān)督學(xué)習(xí)策略通過讓模型學(xué)習(xí)樣本之間的相似性以及差異性來提取患者的基因特征。該框架在8 種藥物數(shù)據(jù)集中進(jìn)行了測試,結(jié)果證明獲得的結(jié)果比以往常用的基線方法的AUC 平均高出>6.5%,實驗證明了方法的先進(jìn)性。
本研究使用了8 個收集自癌癥藥物敏感性基因組學(xué)數(shù)據(jù)庫(genomics of drug sensitivity in cancer,GDSC,https://www.cancerrxgene.org)的藥物數(shù)據(jù),包括藥物敏感性數(shù)據(jù)以及癌細(xì)胞的mRNA 表達(dá)數(shù)據(jù)(Erlotinib 429 例,Irinotecan 453 例,Lapatinib 434 例,Nilotinib 434 例,Paclitaxel 434 例,PLX4720 452 例,Sorafenib 434 例,Topotecan 411 例)。對于mRNA 特征數(shù)據(jù),首先刪除缺失超過20%的特征及樣本,之后使用中位數(shù)填補(bǔ)其缺失值。經(jīng)log2 變換后的細(xì)胞系特征數(shù)據(jù),其所有mRNA 表達(dá)數(shù)據(jù)均標(biāo)準(zhǔn)化為均值為零,標(biāo)準(zhǔn)差為1。
方法流程如圖1 所示。
圖1 方法流程圖
本研究設(shè)計了一種基于對比學(xué)習(xí)的癌癥藥物預(yù)測框架,以基因表達(dá)數(shù)據(jù)作為輸入變量,半最大抑制濃度IC50 作為輸出響應(yīng)。本框架包含3 個步驟:1)采用SSLGP 自監(jiān)督學(xué)習(xí)框架實現(xiàn)基因表達(dá)數(shù)據(jù)的低維特征提取;2)將學(xué)習(xí)到的低維特征表示與對應(yīng)的代表藥物敏感性的IC50 值合并為用于模型訓(xùn)練的數(shù)據(jù)集;3)構(gòu)建XGBoost 分類預(yù)測模型。
深度學(xué)習(xí)框架的關(guān)鍵思想是利用自監(jiān)督學(xué)習(xí)有效的細(xì)胞表示,假設(shè) x=(x1,xg)表示一個多組學(xué)特征列表,其中,g 表示特征數(shù)量。在自監(jiān)督學(xué)習(xí)的數(shù)據(jù)增強(qiáng)階段,樣本數(shù)量n 將增加到2n。在每個批次中,將同一樣本產(chǎn)生的兩個相似點設(shè)置為正對,而將其他點視為負(fù)對。在自監(jiān)督學(xué)習(xí)模塊中,為了學(xué)習(xí)正負(fù)對的區(qū)別,給出的損失函數(shù)為
在隊列中,xk代表第k 個變形的樣本嵌入,xi和xj指的是來自同一個原始樣本的一對正樣本,溫度系數(shù)τ 用于調(diào)節(jié)模型對負(fù)樣本的區(qū)分能力。
SSLGP 自監(jiān)督學(xué)習(xí)框架學(xué)習(xí)了一個局部平滑的非線性映射函數(shù)fθ,并使用了兩個編碼器:鍵編碼器(fk)和查詢編碼器(fq)。鍵編碼器的進(jìn)化速度較慢,而查詢編碼器的進(jìn)化速度較快。鍵編碼器的參數(shù)由θk表示,查詢編碼器的參數(shù)由θq表示。使用常規(guī)的反向傳播算法來更新查詢編碼器的參數(shù)。對于鍵編碼器,使用動量方法來更新參數(shù),以確保更新的方向保持一致。每次更新鍵編碼器時,使用較小的步長,并通過線性組合之前的鍵編碼器參數(shù)和新計算得到的查詢編碼器參數(shù)來保留先前步驟中的信息,這樣做有助于保持模型更新的穩(wěn)定性和一致性。θk和θq的關(guān)系式為
這里m∈[0,1)是動量系數(shù)。較大的m 使鍵編碼器更新緩慢,而較小的m 則迫使鍵編碼器變得非常像查詢編碼器,動量更新使得編碼器網(wǎng)絡(luò)進(jìn)化順利。模型訓(xùn)練完成后,查詢編碼器網(wǎng)絡(luò)fq作為最終的生產(chǎn)網(wǎng)絡(luò),輸出降維后的基因表達(dá)特征。
編碼器神經(jīng)網(wǎng)絡(luò)采用兩個全連接層構(gòu)成,其中包括查詢編碼器和鍵編碼器,兩者共享相同的架構(gòu)。第1 層包含1 024 個節(jié)點,而第2 層則包含128 個節(jié)點。線性變換后的非線性激活函數(shù)采用了ReLU 函數(shù),定義為ReLU(x)=max(0,x)。在訓(xùn)練過程中,我們采用了Adam 優(yōu)化器,并設(shè)置學(xué)習(xí)率為1,同時應(yīng)用了余弦學(xué)習(xí)時間表。對配對神經(jīng)網(wǎng)絡(luò)進(jìn)行了200 個epoch 的訓(xùn)練。在目標(biāo)函數(shù)中,我們將溫度τ 設(shè)為0.2,并設(shè)置動量系數(shù)m 為0.999。超參數(shù)的確定通過網(wǎng)格搜索和交叉驗證的方式進(jìn)行。
通過深度學(xué)習(xí)框架重構(gòu)細(xì)胞系的低維特征后,將其用于XGBoost 模型訓(xùn)練敏感性預(yù)測模型。XGBoost 算法是一種可擴(kuò)展的用于樹提升集成學(xué)習(xí)算法,它將多棵決策樹的預(yù)測相結(jié)合,最后得出最終分?jǐn)?shù),即
其中,k 是樹的數(shù)量,fk是函數(shù)空間F 的一個函數(shù),F(xiàn) 是所有可能的分類回歸樹的集合。目標(biāo)函數(shù)為
對每步訓(xùn)練目標(biāo)函數(shù)二階泰勒展開,即
記
可得
則目標(biāo)函數(shù)最優(yōu)解為
這是衡量樹結(jié)構(gòu)好壞的標(biāo)準(zhǔn),值越小代表樹結(jié)構(gòu)越好。通常不可能枚舉所有可能的樹結(jié)構(gòu),而是使用從單葉開始并迭代地向樹添加分支的貪婪算法。假設(shè)一個葉子分裂為兩個葉子,則它的得分增加為
如果增益小于γ,則不再將此葉子分裂。在本研究中,從[2,8]中選取深度,從9 個值(0.01 和0.05*[1,8])中選取學(xué)習(xí)率。通過10 倍交叉驗證(CV)最小化均方誤差來優(yōu)化這些參數(shù)。所有其他參數(shù)設(shè)置為“XGboost”包中的默認(rèn)值。
為了綜合評估本框架的預(yù)測性能,基于相同的數(shù)據(jù)集,將本研究中的框架與其他常用的基于機(jī)器學(xué)習(xí)的癌癥藥物敏感性預(yù)測算法,包括邏輯回歸(Logisitc)、隨機(jī)森林(RF)、支持向量機(jī)(SVM)、DNN、Dr.VAE、GADRP 進(jìn)行比較。通過比較不同方法在5 折交叉驗證中的藥物敏感性預(yù)測指標(biāo),包括曲線下劑量-反應(yīng)面積(AUC)、準(zhǔn)確率(ACC)、F1-score 等,來比較各模型的性能,以此評估本方法是否先進(jìn)和穩(wěn)健。
AUC 用于衡量二分類模型的性能,指正樣品的預(yù)測值大于負(fù)樣品的概率,也表示ROC 曲線下方的面積。ROC 曲線是以真陽性率(TPR)為縱軸、假陽性率(FPR)為橫軸所繪制的曲線,因此AUC 的取值范圍在0 到1 之間,越接近1 表示模型的性能越好,計算公式為
ACC 指分類模型的預(yù)測準(zhǔn)確率,通過計算在總體樣本中被正確預(yù)測的樣本比例來衡量模型預(yù)測的準(zhǔn)確程度。ACC 值越高,說明分類模型的性能越好,計算公式為
其中,TP 指模型預(yù)測為正例且實際也是正例,TN 指模型預(yù)測為負(fù)例且實際也是負(fù)例,F(xiàn)P 指模型預(yù)測為正例而實際是負(fù)例,F(xiàn)N 指模型預(yù)測為負(fù)例而實際是正例。
F1-score 是模型精確率(precision)和召回率(recall)的調(diào)和平均值,反映了分類模型對于正負(fù)樣本的分類能力。F1-score 值越大,說明模型的精確率和召回率越趨于平衡,計算公式為
圖2~4 分別給出了SSLGP 在5 倍交叉驗證獲得的預(yù)測準(zhǔn)確度評估指數(shù)ACC、AUC 以及F1 得分,其在預(yù)測8 類藥物數(shù)據(jù)庫平均值分別為0.635、0.670 和0.647。圖2 展示了8 種抗癌藥物敏感性的ACC指數(shù),其值范圍為0.500~0.700,其中在Sorafenib 中最高,Paclitaxel 最低。
圖2 SSLGP 在不同數(shù)據(jù)集上的ACC 得分
圖3 展示了8 種抗癌藥物敏感性的AUC 指數(shù),這8 種藥物的AUC 得分集中在0.600~0.700,在AUC 指標(biāo)評估上表現(xiàn)相似,并且Erlotinib,Nilotinib 和Sorafenib 中的AUC 得分普遍高于0.650,在Erlotinib 中AUC 得分最高達(dá)到0.731。
圖3 SSLGP 在不同數(shù)據(jù)集上的AUC 得分
圖4 展示了8 種抗癌藥物敏感性的F1 得分,這些藥物的F1 得分的中位數(shù)基本上分布在0.600 左右,其中在Sorafenib 中最高,在Paclitaxel 中最低,并且在Irinotecan、Paclitaxel 等數(shù)據(jù)集中有超出一半的F1 值高于中位數(shù)。結(jié)果表明,SSLGP 具有較好的準(zhǔn)確性和穩(wěn)健性。
圖4 SSLGP 在不同數(shù)據(jù)集上的F1 得分
表1 給出了不同算法在8 個抗癌藥物數(shù)據(jù)集中5 折交叉驗證得到的平均AUC 值,AUC 是ROC 曲線下的面積,AUC 值越大,說明該模型分類能力越好。如表1 所示,SSLGP 取得AUC 在0.597(Irinotecan)和0.731(Nilotinib)之間,平均值為0.670。與其他方法相比,SSLGP 平均提高了5.18%的AUC 指數(shù)值。在其他方法中,Logistic 的AUC 指數(shù)值最低,平均為0.606,其他兩種傳統(tǒng)方法RF 和SVM的AUC 指數(shù)值平均為0.616 和0.624,均低于現(xiàn)有的深度學(xué)習(xí)方法。在三種用于比較的深度學(xué)習(xí)方法中,Dr.VAE 優(yōu)于DNN,但低于GADRP。這三種深度學(xué)習(xí)方法均低于我們提出的SSLGP。實驗證明了本文方法的準(zhǔn)確性以及穩(wěn)健性。
表1 在8 個數(shù)據(jù)集上應(yīng)用不同方法下的AUC 得分
在以往的研究中,用于預(yù)測抗癌藥物敏感性方法的性能受到了樣本量的限制。為了解決這一問題,本文設(shè)計了一個基于自監(jiān)督學(xué)習(xí)策略的深度學(xué)習(xí)的框架,通過構(gòu)建正負(fù)樣本對擴(kuò)增數(shù)據(jù),從而更好地提取高維小樣本生物數(shù)據(jù)中的有效信息。與以往方法相比,SSLGP 方法在預(yù)后預(yù)測中表現(xiàn)出更好的性能,平均AUC 指數(shù)優(yōu)于基線方法5.18%。
盡管該方法已經(jīng)在預(yù)測藥物敏感性方面取得了一定的成果,但仍然存在許多問題需要進(jìn)一步探討和解決。首先,現(xiàn)有研究已經(jīng)發(fā)現(xiàn)藥物的有效性和藥物結(jié)構(gòu)密切相關(guān),而本研究沒有用到其相關(guān)的信息。如果能引入此類的信息,可以幫助模型實現(xiàn)跨藥物的敏感性預(yù)測。其次,本研究僅僅利用了相關(guān)細(xì)胞系的mRNA 表達(dá)數(shù)據(jù),提供的有效信息優(yōu)先。據(jù)過往研究,利用不同類型的多組學(xué)數(shù)據(jù)(如DNA 甲基化,拷貝數(shù)變異等)可以構(gòu)建多元化的預(yù)測模型,較好地彌補(bǔ)其他高通量數(shù)據(jù)的不足,對于提升模型的預(yù)測精度具有一定的潛在作用。在未來的工作中,將考慮結(jié)合細(xì)胞系的不同組學(xué)特征,并引入藥物相關(guān)的化合物結(jié)構(gòu)信息,并對深度神經(jīng)網(wǎng)絡(luò)進(jìn)行改良,從而進(jìn)一步優(yōu)化方法模型。