• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于多任務(wù)學(xué)習(xí)模型的藥物敏感性預(yù)測(cè)

      2020-07-14 00:47:38唐益翔
      軟件導(dǎo)刊 2020年1期
      關(guān)鍵詞:癌癥預(yù)測(cè)

      摘要:目前基于建模的抗癌藥物敏感性預(yù)測(cè)研究較多,但這些模型大多使用傳統(tǒng)單任務(wù)學(xué)習(xí)模型。這種模型在解決復(fù)雜問題時(shí)需將問題拆分成單個(gè)子問題,忽略了各個(gè)子問題之間存在的關(guān)聯(lián),因而模型精度會(huì)受到影響。大多數(shù)藥物敏感性預(yù)測(cè)模型僅使用了基因表達(dá)數(shù)據(jù),忽略了基因突變、甲基化以及拷貝數(shù)等數(shù)據(jù)對(duì)藥物敏感性預(yù)測(cè)的影響。結(jié)合上述數(shù)據(jù),并考慮到不同藥物之間可能存在的相似性,利用多任務(wù)學(xué)習(xí)方法共享任務(wù)之間的信息,對(duì)抗癌藥物敏感性進(jìn)行預(yù)測(cè),預(yù)測(cè)的平均精度達(dá)到56%以上,較普通的Lasso模型提高了35%左右。同時(shí),針對(duì)每種藥物找出一些敏感的生物標(biāo)志物,這些生物標(biāo)志物可為癌癥治療提供指導(dǎo)。

      關(guān)鍵詞:癌癥;藥物敏感性;個(gè)性化醫(yī)療;多任務(wù)學(xué)習(xí);預(yù)測(cè)

      DOI: 10. 11907/rjdk.191337

      開放科學(xué)(資源服務(wù))標(biāo)識(shí)碼(OSID):

      中圖分類號(hào):TP319

      文獻(xiàn)標(biāo)識(shí)碼:A

      文章編號(hào):1672-7800(2020)001-0207-04

      0 引言

      在對(duì)癌癥患者治療方法上,傳統(tǒng)的治療方式大多采取一刀切的治療策略。但大量臨床實(shí)踐表明,這種方法存在缺陷。因?yàn)榧幢闶腔加型话┌Y類型的不同病人,由于病入本身原因,對(duì)于同一種藥物或治療方法所達(dá)到的效果都會(huì)有所不同[1]。因此,如何提高藥物療效成為廣大醫(yī)療工作者亟需解決的問題。而針對(duì)某個(gè)具體病人的個(gè)性化醫(yī)療受到專家學(xué)者的廣泛關(guān)注[2-4]。個(gè)性化醫(yī)療的關(guān)鍵是針對(duì)病人患病的某個(gè)重要基因進(jìn)行醫(yī)治[5-6]。在臨床治療中,為了研究出適合特定癌癥病人的靶向療法需要大量臨床試驗(yàn),但這種試驗(yàn)成本昂貴,局限性太高,因而很難滿足醫(yī)療需求。隨著生物信息學(xué)的快速發(fā)展,產(chǎn)生了大量的基因數(shù)據(jù),因而越來越多的專家學(xué)者開始利用基因數(shù)據(jù)信息建立模型進(jìn)行藥物敏感性預(yù)測(cè)[7-12]。

      基于基因組學(xué)數(shù)據(jù)在藥物敏感性預(yù)測(cè)方面取得了不菲的成果。基于NCI-60數(shù)據(jù),Riddick等[13]提出利用隨機(jī)森林算法的回歸模型預(yù)測(cè)藥物敏感性;基于CCP數(shù)據(jù)集,Menden等[14]建立了以神經(jīng)網(wǎng)絡(luò)為基礎(chǔ)的預(yù)測(cè)模型;基于GDSC數(shù)據(jù)集,Nanne Aben等[15]運(yùn)用兩階段法將基因表達(dá)、基因突變、甲基化、拷貝數(shù)等數(shù)據(jù)結(jié)合起來預(yù)測(cè)藥物的敏感性。

      除了根據(jù)基因組信息預(yù)測(cè)藥物敏感性外,Shivakumar等[16]提出了利用藥物之間的結(jié)構(gòu)相似性預(yù)測(cè)未知藥物敏感性的方法。James T Webber、Swati Kaushik等[17]提出利用多維網(wǎng)絡(luò)模型集成腫瘤基因數(shù)據(jù)和細(xì)胞系數(shù)據(jù),在基因?qū)用嫔涎芯坎煌膊?duì)于不同藥物的反應(yīng)。這些方法不僅促進(jìn)了癌癥藥物基因組學(xué)的發(fā)展,也為預(yù)測(cè)藥物敏感性提供了新的思路。

      藥物敏感性預(yù)測(cè)研究常用方法是機(jī)器學(xué)習(xí),但這些研究大多使用單任務(wù)學(xué)習(xí)模型,對(duì)復(fù)雜問題分析只能先將大問題分解成獨(dú)立的子問題,然后對(duì)每個(gè)子問題分別進(jìn)行學(xué)習(xí),最后對(duì)子問題學(xué)習(xí)結(jié)果進(jìn)行組合得出復(fù)雜問題的結(jié)果,這種分析方式忽略了各個(gè)子問題之間可能存在的關(guān)聯(lián),因而對(duì)預(yù)測(cè)精度有所影響。Han Yuan等[18]提出利用多任務(wù)學(xué)習(xí)模型方法預(yù)測(cè)藥物敏感性。這種方法將每一種藥物的敏感性預(yù)測(cè)都視為一個(gè)任務(wù),相比于傳統(tǒng)的單任務(wù)學(xué)習(xí)能取得更好的效果,但這個(gè)方法沒有考慮到各藥物之間可能存在的相似性。本文在運(yùn)用多任務(wù)學(xué)習(xí)模型基礎(chǔ)上,結(jié)合基因表達(dá)、基因突變、甲基化、拷貝數(shù)等4種數(shù)據(jù),同時(shí)考慮不同藥物之間由于分子結(jié)構(gòu)、蛋白質(zhì)序列等排列方式可能存在一定的相似性,綜合這些因素進(jìn)行藥物敏感性預(yù)測(cè),提高了預(yù)測(cè)精度。希望根據(jù)得到的結(jié)果篩選出每個(gè)細(xì)胞系中對(duì)藥物敏感性最高的幾種生物標(biāo)志物,為病人的臨床診斷用藥提供指導(dǎo)。

      1 數(shù)據(jù)來源

      本文所用到的數(shù)據(jù)均來自CDSC( Genomics of DrugSensitivity in Cancer)數(shù)據(jù)庫的最新數(shù)據(jù),其中包括1001個(gè)人類癌癥細(xì)胞系樣本所對(duì)應(yīng)的基因表達(dá)、基因突變、甲基化和拷貝數(shù)信息,以及265種藥物在991個(gè)細(xì)胞系上的反應(yīng)值數(shù)據(jù)。本文所用的敏感性衡量指標(biāo)為AUC(藥物劑量曲線下方的面積),由定義可以看出,AUC越小,藥物敏感性就越高,反之則越低。本研究所需要的數(shù)據(jù)可在https://www.cancerrxgene.org/downloads中下載得到。

      2 多任務(wù)學(xué)習(xí)算法

      2.1 模型選擇

      研究中所選取的藥物敏感性數(shù)據(jù)描述的是265種藥物在991個(gè)細(xì)胞系上的敏感性表達(dá)值。其中對(duì)每一種藥物敏感性預(yù)測(cè)都可看作是一個(gè)預(yù)測(cè)任務(wù),如果使用傳統(tǒng)意義上的單任務(wù)學(xué)習(xí)模型,可能會(huì)忽略各種藥物之間存在的關(guān)系,但直接將所有藥物的數(shù)據(jù)放到一起,學(xué)習(xí)一個(gè)回歸函數(shù)進(jìn)行預(yù)測(cè),模型的精度會(huì)受到影響。而多任務(wù)學(xué)習(xí)則更看重任務(wù)之間的聯(lián)系,通過聯(lián)合學(xué)習(xí),同時(shí)對(duì)265個(gè)任務(wù)學(xué)習(xí)不同的回歸函數(shù),既考慮到任務(wù)之間的差別,又考慮到任務(wù)之間的聯(lián)系,可有效提高預(yù)測(cè)精度。

      2.2 模型簡(jiǎn)介

      多任務(wù)學(xué)習(xí)定義:給定m個(gè)學(xué)習(xí)任務(wù),其中所有或一部分任務(wù)是相關(guān)但并不完全一樣的,多任務(wù)學(xué)習(xí)目標(biāo)是通過使用這m個(gè)任務(wù)中包含的知識(shí)幫助提升各個(gè)任務(wù)的性能[19]。

      單任務(wù)學(xué)習(xí)在解決一些復(fù)雜問題時(shí),需要將整個(gè)問題拆分成一個(gè)個(gè)獨(dú)立的子問題,這樣會(huì)影響結(jié)果精度。而多任務(wù)學(xué)習(xí)可以在學(xué)習(xí)過程中共享所學(xué)習(xí)到的信息,相關(guān)聯(lián)的多任務(wù)學(xué)習(xí)比單任務(wù)學(xué)習(xí)能取得更好的泛化效果。

      2.3 基于圖結(jié)構(gòu)編碼的多任務(wù)學(xué)習(xí)模型

      多任務(wù)學(xué)習(xí)模型很多,在參考Jiayu zhou[20]等編著的MLASAR后,使用其中基于圖結(jié)構(gòu)編碼的多任務(wù)學(xué)習(xí)模型,其核心公式如下:

      2.4 模型建立

      2.4.1 數(shù)據(jù)處理

      (1)不同藥物之間因?yàn)槠浞肿咏Y(jié)構(gòu)、蛋白質(zhì)序列等的排列方式可能存在一定的相似性,因而使用RDKit計(jì)算各個(gè)藥物之間的相似性。

      RDKit是一款開源的化學(xué)信息學(xué)與機(jī)器學(xué)習(xí)工具包,可在:https: //github.com/rdkit/rdkit/blob/m aster/D ocs/B ook/ln-stall.md中下載。它可通過計(jì)算各藥物之間的分子指紋(Canonical Smile)生成各藥物之間的相似性數(shù)據(jù)。在Pub-chem數(shù)據(jù)庫查找,最終找到223種藥物的分子指紋,根據(jù)這些分子指紋通過RDkit生成一個(gè)223x223的相似性矩陣(對(duì)角線數(shù)值均為1)。

      (2)給這個(gè)相似性矩陣設(shè)定一個(gè)閾值0.85,當(dāng)兩藥物之間的相似性高于0.85時(shí)(對(duì)角線上數(shù)值減1),就代表兩個(gè)藥物之間存在相似性,用l表示,否則用0表示。對(duì)1的數(shù)量進(jìn)行計(jì)數(shù),有多少個(gè)1就有多少條邊。假設(shè)共有b條邊,則R為223xb的矩陣,若對(duì)于某條邊i,e(i)和ev(i)分別代表1和-1,則證明第x個(gè)和第y個(gè)藥物之間存在相似性。

      (3)本研究考慮到基因表達(dá)、基因突變、甲基化以及拷貝數(shù)等數(shù)據(jù)的互補(bǔ)性,把它們當(dāng)作特征矩陣x一同輸入模型中。先篩選找到它們共有的癌癥細(xì)胞系樣本,再對(duì)這幾項(xiàng)數(shù)據(jù)進(jìn)行合并。合并完的數(shù)據(jù)共有928個(gè)細(xì)胞系樣本,包含了18 330個(gè)基因數(shù)據(jù),合并完的數(shù)據(jù)就是多任務(wù)學(xué)習(xí)模型里的特征矩陣X。在GDSC數(shù)據(jù)庫中下載的藥物敏感性數(shù)據(jù)中,先篩選出具有分子指紋的223種藥物,每種藥物在某些細(xì)胞系樣本上或多或少都存在缺失值。將上述4項(xiàng)數(shù)據(jù)與藥物敏感性數(shù)據(jù)合并之后,針對(duì)每一種藥物分別刪掉有缺失值所在的一行數(shù)據(jù)(對(duì)每一種藥物的預(yù)測(cè)都看成是一個(gè)任務(wù)),因而得到223個(gè)不同矩陣。

      (4)將整理好的數(shù)據(jù)輸入模型中。該模型共有223個(gè)預(yù)測(cè)藥物敏感性任務(wù)。對(duì)每個(gè)任務(wù)其特征矩陣X的維度都是不一樣的,而響應(yīng)變量Y則是對(duì)應(yīng)的223種不同藥物的反應(yīng)值,經(jīng)過模型計(jì)算會(huì)得到這223種藥物的敏感性預(yù)測(cè)值y,將y與Y利用斯皮爾曼等級(jí)相關(guān)系數(shù)進(jìn)行精度檢驗(yàn)。

      2.4.2 模型精度檢驗(yàn)

      本文以基因表達(dá)、基因突變、甲基化、拷貝數(shù)和藥物反應(yīng)值等數(shù)據(jù)結(jié)合藥物之間的相似性建立多任務(wù)學(xué)習(xí)模型,預(yù)測(cè)藥物的敏感性,使用斯皮爾曼等級(jí)相關(guān)系數(shù)衡量最后的預(yù)測(cè)精度。

      在統(tǒng)計(jì)學(xué)中,斯皮爾曼等級(jí)相關(guān)系數(shù)用來估計(jì)兩個(gè)變量X、Y之間的相關(guān)性。假設(shè)兩個(gè)隨機(jī)變量分別為X、Y(也可看作兩個(gè)集合),它們的元素個(gè)數(shù)均為N,兩隨機(jī)變量X、Y之間的斯皮爾曼等級(jí)相關(guān)系數(shù)可由x、y或d計(jì)算得到,計(jì)算方式如下:

      由排行差分集合d計(jì)算:

      p的取值范圍在-1-1之間,當(dāng)O

      3 模型結(jié)果

      3.1 多任務(wù)學(xué)習(xí)模型預(yù)測(cè)結(jié)果

      考慮到上游基因數(shù)據(jù)和下游基因數(shù)據(jù)之間存在的互補(bǔ)性以及待測(cè)藥物之間可能存在的相似性,運(yùn)用多任務(wù)學(xué)習(xí)方法擬合數(shù)據(jù),最終可得到每種藥物反應(yīng)的預(yù)測(cè)值。在模型中運(yùn)用corr函數(shù)中的spearman相關(guān)系數(shù)計(jì)算預(yù)測(cè)值與真實(shí)值之間的相關(guān)系數(shù)作為該模型的預(yù)測(cè)準(zhǔn)確率,最終得到223種藥物敏感性預(yù)測(cè)的平均精度為0.56。所有藥物中有71%的藥物預(yù)測(cè)值與真實(shí)值的相關(guān)系數(shù)都超過了0.5,其中有7種藥物的預(yù)測(cè)精度超過了0.8,而對(duì)Trametinib藥物敏感性的預(yù)測(cè)精度達(dá)到了0.85。部分藥物模型預(yù)測(cè)結(jié)果如圖1所示,全部藥物的預(yù)測(cè)精度分布如圖2所示。另外,針對(duì)每種藥物按照重要性對(duì)前10種生物標(biāo)志物進(jìn)行排序,部分結(jié)果見表1。

      3.2 與Lasso模型比較

      Lasso是一種用來估計(jì)稀疏線性模型的方法,廣泛應(yīng)用于回歸模型中,尤其是針對(duì)一些高維數(shù)據(jù),它可以有效降維。其原理是基于懲罰方法對(duì)高維數(shù)據(jù)進(jìn)行變量選擇,通過對(duì)原本系數(shù)進(jìn)行壓縮,將原本很小的系數(shù)直接壓縮至0,從而將這部分系數(shù)所對(duì)應(yīng)的變量視為非顯著性變量,將不顯著的變量直接舍棄,因而對(duì)高維數(shù)據(jù)的回歸預(yù)測(cè)效果較好。

      考慮到基因特征過多(18 330個(gè)),故采用普通的Lasso模型對(duì)數(shù)據(jù)進(jìn)行擬合。為防止過擬合,采用樣本內(nèi)部的10折交叉驗(yàn)證,從而得到對(duì)應(yīng)的預(yù)測(cè)值。對(duì)部分藥物的最終預(yù)測(cè)結(jié)果如圖3所示。

      從圖4可以看出,用Lasso模型對(duì)藥物的敏感性進(jìn)行預(yù)測(cè)時(shí),有7種藥物的精度都超過了0.6,其中對(duì)RDEA119的預(yù)測(cè)精度達(dá)到了0.686。但是,同樣從0.0到0.6之間每個(gè)區(qū)間的精度分布都比較均勻,甚至還有不少藥物的預(yù)測(cè)精度為0,這導(dǎo)致lasso模型的平均預(yù)測(cè)精度只有0.21左右。

      如圖5所示,不論是平均預(yù)測(cè)精度還是對(duì)單個(gè)藥物的預(yù)測(cè)精度,多任務(wù)學(xué)習(xí)模型都明顯優(yōu)于普通lasso模型。

      4 結(jié)語

      從預(yù)測(cè)結(jié)果看,多任務(wù)學(xué)習(xí)模型的效果明顯優(yōu)于普通Lasso模型,原因有二:①在對(duì)藥物敏感性預(yù)測(cè)過程中,本文結(jié)合了基因表達(dá)、甲基化、基因突變、拷貝數(shù)這4項(xiàng)數(shù)據(jù),利用了這些數(shù)據(jù)之間的互補(bǔ)性,提升了預(yù)測(cè)精度;②本研究在對(duì)藥物敏感性進(jìn)行預(yù)測(cè)過程中,考慮了不同藥物之間的相似性對(duì)精度的影響,并運(yùn)用多任務(wù)學(xué)習(xí)方法充分利用了這一點(diǎn),使得模型精度有所提升。但本文還存在一定的局限性,如只是簡(jiǎn)單地將這幾項(xiàng)數(shù)據(jù)合并在一起,沒有考慮到它們本身存在的層次性。如何將這點(diǎn)整合到模型建立過程中,提高模型預(yù)測(cè)能力,是今后的研究方向。

      參考文獻(xiàn):

      [1] 喬蘇莉.基于隨機(jī)森林算法的抗癌藥物敏感性預(yù)測(cè)研究[D].上海:上海師范大學(xué),2017.

      [2]CUI J, CHEN Y,CHOU W C,et al.An integrated transcriptomic andcomputational analysis for biomarker identification in gastric cancer[J]. Nucleic Acids Res, 2011, 39(4): 1197-2070.

      [3]XIE Y,XIAO G,COOMBES K R,et al.Robust gene expression sig-nature from formalin-fixed paraffin-embedded samples predicts prog- nosis of non-small-cell lung cancer patients [J]. Clin Cancer Res,2011, 17( 17) : 5705-5714.

      [4]XIAO C, MA S. MINNA J. et al. Adaptive prediction model in pro-spective molecular signature-based clinical studies [J]. Clin CancerRes , 2014, 20(3) : 531-539.

      [5] 樊晶晶 .識(shí)別基因相互作用并將其應(yīng)用于藥物的敏感性預(yù)測(cè) [ D ] .石家莊:河北科技大學(xué) , 2018.

      [6] 王艷.藥物敏感性試驗(yàn)中的亞組統(tǒng)計(jì)分析 [D].上海 :上海師范大學(xué) . 2018.

      [7] SHOEMAKER RH. The NC160 human tumour cell line anticancerdrug screen[J]. Nat Rev Cancer, 2006 , 6( 10) : 813-823.

      [8]KUTALIK Z. BECKMANN JS, BERGMANN S. A modular approachfor integrative analysis of Iarge-scale gene-expression and drug-re-sponse data[J]. Nat Biotechnol, 2008 , 26( 5) : 531-539.

      [9]HEISER LM, JWANG N. TALCOTT CL, et al. Integrated analysis ofbreast cancer cell lines reveals unique signaling pathways [J]. Ce-nome Biol. 2009. 10( 3) : 1501-1521.

      [10]SIROTA M. DUDLEY JT. KIM J, et al.Discovery and preclinical val-idation of drug indications using compendia of public gene expres-sion data[J]. Sci Transl Med, 2011 , 3( 102) : 561-569.

      [11]BARRETINA J, CAPONIGRO G. STRANSKY N , et al. The cancercell line encyclopedia enables predictive modelling of anticancerdrug sensitivity[J]. Nature , 2012, 492( 7428) : 290-297.

      [12] CARNETT MJ. EDELMAN EJ. HEIDORN SJ, et al. Systematicidentification of genomic markers of drug sensitivity in cancer cells[J]. Nature , 2012, 483( 7391) : 570-587.

      [13]RIDDICK G. SONG H, AHN S, et al. Predicting in vitro drug sensi-tivity using random forests [Jl. Bioinformatics, 2011, 27 (2)220-224.

      [14] MENDEN M P, IORIO F. GARNETT M, et al. Machine learningprediction of cancer cell sensitivity to drugs based on genomic andchemical propenies[J]. PLoS One , 2013 , 8(4) : 613-638.

      [15]NANNE ABEN, DAINEL J VIS. Tandem: a two-stage approach t。maximize interpretability of drug response models based on multiplemolecular data types[J] . Bioinformatics , 2016( 32) : 413-420.

      [16] SHIVAKUMAR P, KRAUTHAMMER M. Structural similarity as-sessment for drug sensitivity prediction in cancer[ J] . BMC Bioinfor-matics. 2009. 10(9) : 17-26.

      [17]WEBBER. Integration of tumor genomic data with cell lines usingmulti-dimensional network modules improves cancer pharmacoge-nomics[J]. Cell Systems, 2018 , 7( 5) : 526-536.

      [18]YUAN H , PASKOV I. PASKOV H, et al. Multitask learning improvesprediction of cancer drug sensitivity [Jl. Scientific Reports, 2016( 6) : 316-319.

      [19]ZHANG Y, YANG Q. An overview of multi-task learning[J]. Na-tional Science Revie,v . 2018. 5( 1) : 34-47.

      [20]ZHOU J. CHEN J. YE J. MALSAR : multi-task learning via structur-al regularization[ M ] . Arizona State University , 2012.

      [21]MYERS J L. WELL A D. Research design & statistical analysis [J].Japanese Journal of National Medical Services, 2013 (55)1410-1421.

      [22]SKILLINCS J H. Distribution-free statistical methods [J]. Techno-metrics, 1983, 25(2) :208-209.

      作者簡(jiǎn)介:唐益翔(1995-),男,上海理工大學(xué)管理學(xué)院碩士研究生,研究方向?yàn)橄到y(tǒng)生物學(xué)。

      猜你喜歡
      癌癥預(yù)測(cè)
      無可預(yù)測(cè)
      黃河之聲(2022年10期)2022-09-27 13:59:46
      選修2-2期中考試預(yù)測(cè)卷(A卷)
      選修2-2期中考試預(yù)測(cè)卷(B卷)
      選修2—2期中考試預(yù)測(cè)卷(A卷)
      留意10種癌癥的蛛絲馬跡
      不可預(yù)測(cè)
      癌癥“偏愛”那些人?
      海峽姐妹(2018年7期)2018-07-27 02:30:36
      對(duì)癌癥要恩威并施
      特別健康(2018年4期)2018-07-03 00:38:08
      不如擁抱癌癥
      特別健康(2018年2期)2018-06-29 06:13:42
      不必預(yù)測(cè)未來,只需把握現(xiàn)在
      曲麻莱县| 巩留县| 余干县| 平罗县| 郁南县| 乌鲁木齐县| 阳城县| 盈江县| 寿光市| 襄城县| 岢岚县| 九龙坡区| 三台县| 长宁县| 元阳县| 肥东县| 宁国市| 托克逊县| 乌拉特中旗| 泗阳县| 丰台区| 长寿区| 高要市| 元氏县| 枞阳县| 汉沽区| 南陵县| 景德镇市| 天峨县| 谢通门县| 准格尔旗| 大连市| 遵化市| 新巴尔虎左旗| 小金县| 青海省| 神农架林区| 响水县| 三穗县| 榕江县| 启东市|