• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于單樣本特異性的疾病亞型識別方法研究

      2021-12-29 03:55:26田顯陽季松雨張堃杜映璇張媛媛
      現(xiàn)代計(jì)算機(jī) 2021年31期
      關(guān)鍵詞:亞型特異性癌癥

      田顯陽,季松雨,張堃,杜映璇,張媛媛

      (青島理工大學(xué)信息與控制工程學(xué)院,青島 266520)

      0 引言

      癌癥指的是細(xì)胞不正常增生,且這些增生的細(xì)胞可能侵犯身體的其他部分,是控制細(xì)胞分裂增殖機(jī)制失常而引起的疾病。癌細(xì)胞除了分裂失控外,還會(huì)局部侵入周遭正常組織甚至經(jīng)由體內(nèi)循環(huán)系統(tǒng)或淋巴系統(tǒng)轉(zhuǎn)移到身體其他部分。正是癌癥的復(fù)雜致病機(jī)理導(dǎo)致了癌癥具有高度異質(zhì)性,這種異質(zhì)性使得同一種癌癥在臨床上常常被分為不同的類型,即癌癥亞型,每個(gè)亞型往往具有不同的生物標(biāo)記物。由于癌癥亞型在基因上存在差異,因此相同的藥物與方法用于治療的效果不同?;诎┌Y亞型的分類,臨床醫(yī)生可以指定精準(zhǔn)的治療方案,評估患者的預(yù)后。因此,利用組學(xué)數(shù)據(jù)實(shí)現(xiàn)對癌癥的精準(zhǔn)識別,在臨床上有極其重要的作用。另一方面,由于癌癥異質(zhì)性的顯著存在,不同患者之間在疾病進(jìn)展、臨床療效、放化療敏感性及預(yù)后等方面差異巨大,深入探討癌癥分子生物學(xué)特征及其與臨床表現(xiàn)、放化療敏感性的相關(guān)性,從傳統(tǒng)形態(tài)學(xué)分型轉(zhuǎn)變到分子分型,實(shí)現(xiàn)從“異病同治”到“同病異治”的轉(zhuǎn)變,有利于對癌癥的精準(zhǔn)診斷、預(yù)后分層、腫瘤分期、指導(dǎo)治療、復(fù)發(fā)監(jiān)控及藥物研發(fā)[1]。癌癥亞型是指在癌癥起源處具有相似分子機(jī)制的樣本群,分子機(jī)制通過亞型特異性的突變和表達(dá)特征得到反映[1-2]。通過基因組學(xué)、轉(zhuǎn)錄組學(xué)、表觀基因組、蛋白質(zhì)組學(xué)、代謝組學(xué)等技術(shù)對癌癥進(jìn)行不同層次的研究,以數(shù)據(jù)驅(qū)動(dòng)的方式挖掘生物信息進(jìn)而進(jìn)行癌癥亞型識別具有重要意義[3-4]。

      本文基于P-SSN方法[11],利用基因表達(dá)數(shù)據(jù),考慮樣本特異性信息,以正常樣本作為參考矩陣構(gòu)建參考網(wǎng)絡(luò),并將每個(gè)癌癥樣本分別添加到參考矩陣中構(gòu)建擾動(dòng)網(wǎng)絡(luò),進(jìn)而構(gòu)建單樣本下的差異基因網(wǎng)絡(luò);其次,基于單樣本網(wǎng)絡(luò),構(gòu)建信息邊緣矩陣,并利用信息熵提取樣本網(wǎng)絡(luò)的邊特征,最后構(gòu)建樣本-樣本相似性矩陣(圖1);最后,利用層次聚類對樣本進(jìn)行聚類,進(jìn)而確定癌癥的亞型。通過與原始特征進(jìn)行聚類的結(jié)果比較,我們發(fā)現(xiàn)從網(wǎng)絡(luò)角度衡量樣本的相似性具有明顯優(yōu)勢。

      圖1 基于單樣本網(wǎng)絡(luò)識別癌癥亞型框圖

      1 材料與方法

      1.1 數(shù)據(jù)來源及預(yù)處理

      為了系統(tǒng)地分析方法在癌癥亞型識別方面的優(yōu)勢,本文從美國生物信息技術(shù)中心NCBI(www.ncbi.nlm.nih.gov)中的GEO數(shù)據(jù)庫中下載骨髓增生異常綜合征(MDS)轉(zhuǎn)化為急性髓細(xì)胞性白血?。ˋML)的基因表達(dá)數(shù)據(jù)(GSE15061)。該數(shù)據(jù)包含MDS、AML和正常樣本三類。該數(shù)據(jù)中大多數(shù)基因在樣本中都存在相似性或是無關(guān)性,僅有極少數(shù)的基因具有表達(dá)值的特征即為顯著差異基因,因此原始數(shù)據(jù)不具備直接用于后續(xù)研究與分析的價(jià)值與意義,而且將此類基因保留定會(huì)增加后續(xù)的工作量,加大建立患者基因網(wǎng)絡(luò)建立的難度,因此需要基因差異表達(dá)分析[12],選擇具有顯著意義的基因構(gòu)建網(wǎng)絡(luò)。

      本文使用了NetworkAnalyst對基因樣本數(shù)據(jù)進(jìn)行了基因差異表達(dá)分析。NetworkAnalyst是一個(gè)基因表達(dá)譜和薈萃分析的可視化在線分析平臺,集成了先進(jìn)的統(tǒng)計(jì)方法和創(chuàng)新的數(shù)據(jù)可視化系統(tǒng),可以進(jìn)行差異分析和對差異分析結(jié)果進(jìn)行功能分析和網(wǎng)絡(luò)分析。本文使用了篩選后包含250例樣本,其中包括了實(shí)驗(yàn)組:100例表現(xiàn)型為AML的癌癥患病樣本,100例表現(xiàn)型為M DS得到癌癥患病樣本;對照組:50例不患此癌癥的樣本。本文使用的差異分析平臺是R語言,篩選標(biāo)準(zhǔn)為adjpvalue<0.05和 |log-f old ch ange|>2。從原始數(shù)據(jù)中總共篩選得到6527個(gè)顯著差異基因,用于單樣本網(wǎng)絡(luò)的構(gòu)建。根據(jù)Networ kAnalyst對基因數(shù)據(jù)進(jìn)行分析與排序獲得的差異表達(dá)基因結(jié)果,從中選取前5000個(gè)顯著差異基因作為后續(xù)的實(shí)驗(yàn)數(shù)據(jù)。

      2 方法

      本文對癌癥基因的亞型識別使用構(gòu)建基因樣本網(wǎng)絡(luò)的方法,根據(jù)對樣本網(wǎng)絡(luò)結(jié)構(gòu)的相似性進(jìn)行聚類。使用聚類得到的類型與樣本原始的亞型標(biāo)簽進(jìn)行比較,最終依據(jù)聚類指標(biāo)評判構(gòu)建基因樣本網(wǎng)絡(luò)的方法。具體步驟分為三步,樣本特異性基因網(wǎng)絡(luò)的構(gòu)建;邊緣信息矩陣的構(gòu)建;聚類分析。

      2.1 樣本特異性基因網(wǎng)絡(luò)的構(gòu)建

      樣本特異性網(wǎng)絡(luò),即單樣本網(wǎng)絡(luò),是一種基于參考數(shù)據(jù)集的利用單樣本數(shù)據(jù)構(gòu)建的生物分子網(wǎng)絡(luò),它是一種將復(fù)雜網(wǎng)絡(luò)的理論和方法應(yīng)用于疾病的研究和藥物的開發(fā)的方法,可以從系統(tǒng)的角度識別個(gè)體疾病所涉及的相互作用或功能失調(diào)[11]。

      在基因相關(guān)性比較中,基因?qū)χg的直接相關(guān)系數(shù)并不一定可以不受影響地表示基因?qū)﹂g的相關(guān)性,因?yàn)榛蛑g的關(guān)系很復(fù)雜,其往往受到大量其他基因的影響。而偏相關(guān)系數(shù)可以看做不考慮其他基因影響,單獨(dú)研究兩個(gè)基因之間相互關(guān)系的密切程度。因此,本文參考P-SSN模型,使用偏相關(guān)系數(shù)計(jì)算基因間的相關(guān)性。簡單舉例,若三個(gè)基因相互作用,設(shè)為G1,G2,G3。如要分別計(jì)算基因?qū)χg的相關(guān)性,就不得不考慮第三個(gè)基因帶來的影響,此時(shí)可以運(yùn)用偏相關(guān)系數(shù)。G1與G2的偏相關(guān)系數(shù)可以通過G1與G3線性回歸得到的殘差R G1,G2與G3線性回歸得到的殘差RG2來求出G1與G2,的相關(guān)系數(shù)[13]。

      對任意基因X,Y和Z,在正常樣本對應(yīng)的基因表達(dá)矩陣,即參考矩陣,中的表達(dá)向量記為XT=(x1,x2,…,x m),YT=(y1,y2,…,y m)和ZT=(z1,z2,…,z m),其中m表示正常樣本的數(shù)量。我們利用偏相關(guān)系數(shù),計(jì)算在變量Z的影響下,X和Y之間的相關(guān)性,計(jì)算如下:

      GHM分析表明,以乳企為核心的縱向一體化不符合資源配置的規(guī)律,導(dǎo)致利益分配向更加不利于奶農(nóng)的方向發(fā)展,養(yǎng)殖者的投資激勵(lì)不足,退出速度加快。如果我們認(rèn)為中國的乳制品供給不能完全依靠國際市場、乳業(yè)發(fā)展帶來的就業(yè)崗位彌足珍貴,就要扭轉(zhuǎn)以乳企為核心的縱向一體化政策,確立奶農(nóng)在乳業(yè)政策中的核心地位,以保障中國乳業(yè)的長遠(yuǎn)健康發(fā)展。改進(jìn)的思路是將談判力賦予專用性投資更多的一方,拓展養(yǎng)殖者的外部選擇權(quán);同時(shí),要完善競爭機(jī)制,在推動(dòng)“以乳企為核心的縱向一體化”的同時(shí),也給養(yǎng)殖者及其合作社為核心的縱向一體化留出政策空間。

      對于每一個(gè)癌癥樣本,將其加入?yún)⒖季仃囍小n愃频?,我們可以?jì)算出:

      表示該癌癥樣本對應(yīng)的特異性基因網(wǎng)絡(luò)中基因X和Y之間的關(guān)系。根據(jù)上述步驟,可計(jì)算出所有癌癥樣本對應(yīng)的單樣本顯著基因網(wǎng)絡(luò),記為:

      其中n表示癌癥樣本的數(shù)目。

      2.2 邊緣信息矩陣的構(gòu)建

      以SS N j(j=1,2,…,n)為基礎(chǔ),將所有單樣本特異性網(wǎng)絡(luò)中的基因?qū)幪?,?gòu)建邊緣信息矩陣,記為M=(m sj)N×n,其中N表示所有網(wǎng)絡(luò)中的基因?qū)?shù)目,m sj={ }0,1。若S SN j中存在基因?qū),則msj=1,否則m s j=0。

      為了更好地確定邊信息對于癌癥亞型的貢獻(xiàn)度,我們通過計(jì)算每個(gè)基因?qū)Φ男畔㈧胤治隽似渌峁┑男畔⒘?,?jì)算公式如下:

      通過上述信息熵公式可知,以-logp(msj)作為信息量,表示事件出現(xiàn)的概率所包含的信息,由于p(m sj)<1,因此以-logp(msj)作為信息量的值必為大于0的值,選擇信息熵較小的基因?qū)ψ鳛闃颖咎卣?。同時(shí)為了比較不同特征對于癌癥亞型識別的有效性,我們計(jì)算n個(gè)單樣本網(wǎng)絡(luò)S SN j(j=1,2,…,n)中所有基因的度,并將其作為樣本的特征。

      3 聚類分析

      對于不同方法得到的特征,均利用歐式距離計(jì)算樣本間的距離,進(jìn)而得到樣本相似性矩陣。利用相似性矩陣對樣本進(jìn)行聚類。本文使用層次凝聚聚類法,該聚類法聚類比較快速,能夠辨別出干擾信息,并且能夠識別出信息,對需要聚類的數(shù)據(jù)做出相關(guān)的劃分與處理。為了評估使用不同特征對樣本聚類結(jié)果的性能,我們使用三個(gè)指標(biāo)進(jìn)行評價(jià),分別是RI(rand index),ARI(ad?justed rand index)和NMI(normalized mutual infor?mation)。

      用C表示實(shí)際的類別劃分,K表示聚類結(jié)果。定義a為在C中被劃分為同一類,在K中被劃分為同一簇的實(shí)例對數(shù)量。定義b為在C中被劃分為不同類別,在K中被劃分為不同簇的實(shí)例對數(shù)量。則其中,n表示實(shí)例總數(shù),顯然,RI的取值范圍為[0,1],值越大說明聚類效果越好。但是,RI無法保證隨機(jī)劃分的聚類結(jié)果的R I值接近0。

      ARI是RI的一個(gè)改進(jìn)版本,總的來說RI是通過計(jì)算兩個(gè)簇之間的相似度來對聚類結(jié)果進(jìn)行評估。而A RI是對R I基于概率正則化的一種改進(jìn),其取值范圍為[-1,1],A RI取值范圍為[-1,1],越高的值表示聚類性能更好。。

      NMI通過計(jì)算聚類結(jié)果和真實(shí)結(jié)果的互信息,衡量分布的差異性。NMI取值范圍為[0,1],值越大說明互相之間的信息量越小,聚類結(jié)果越接近于真實(shí)結(jié)果。它可以通過公式:

      計(jì)算,其中H(·)代表某一個(gè)類的熵值,I(X;Y)代表X和Y的互信息。

      4 基于不同特征的聚類結(jié)果比較

      對于疾病的亞型識別,關(guān)鍵在于基于樣本的特征對樣本進(jìn)行聚類,因此,特征的選擇直接影響亞型識別的準(zhǔn)確性。為了評價(jià)構(gòu)建單樣本基因網(wǎng)絡(luò)后聚類的優(yōu)點(diǎn),本文直接使用樣本的全部基因表達(dá)數(shù)據(jù)作為對照組的特征(OF,original fea?ture),然后使用歐式距離法計(jì)算樣本相似性,比較兩者的聚類指標(biāo)。其中單樣本網(wǎng)絡(luò)構(gòu)建后的特征選擇又包括三種不同的特征選擇方法:單樣本網(wǎng)絡(luò)邊緣矩陣(SNE,single sample network edge matrix)、基于信息熵篩選邊緣矩陣(EEM,entropy-based edge matrix)和基于單樣本網(wǎng)絡(luò)中基因的度(DSN,degree of genes in single sample net?work)作為樣本特征。我們對基于信息熵篩選的邊緣矩陣作為特征,構(gòu)建的樣本相似性網(wǎng)絡(luò),繪制聚類熱圖(圖2),我們發(fā)現(xiàn)樣本具有明顯的聚類特性,從大類上可以分為兩大類,與真實(shí)的亞型結(jié)果相似。

      圖2 樣本的聚類熱圖

      比較四種不同的特征下的聚類結(jié)果,如圖3所示。通過比較原始特征和基于單樣本特異性網(wǎng)絡(luò)構(gòu)建的特征,我們發(fā)下,無論是基于邊緣矩陣,信息熵篩選的邊緣矩陣,還是基于網(wǎng)絡(luò)中節(jié)點(diǎn)的度,均比原始特征具有較好的亞型識別性能。原始特征聚類結(jié)果較差,主要原因是真正對亞型識別起作用的基因數(shù)目往往比較少,是一個(gè)全部基因進(jìn)行計(jì)算,引入了太多噪聲,稀釋了真正的信號。而通過考慮樣本的特異性信息,構(gòu)建單樣本網(wǎng)絡(luò),從基因間相互作用的系統(tǒng)性角度,可以有效地捕捉到樣本的關(guān)鍵信息,對樣本的亞型識別具有積極的作用。

      圖3 不同特征下聚類結(jié)果比較

      5 結(jié)語

      本文考慮樣本特異性信息,通過構(gòu)建單樣本特異性網(wǎng)絡(luò),分析樣本網(wǎng)絡(luò)的特性,從網(wǎng)絡(luò)角度發(fā)現(xiàn)樣本間的相似性,提取特異性信息用于樣本聚類,進(jìn)一步識別疾病亞型。通過與使用原始特征進(jìn)行聚類的結(jié)果比較,我們發(fā)現(xiàn),基于單樣本特異性網(wǎng)絡(luò)提取的特征進(jìn)行聚類的結(jié)果與真實(shí)亞型的結(jié)果更接近。因此,在疾病亞型識別方面,考慮疾病樣本的特異性信息將有助于亞型精準(zhǔn)識別。

      猜你喜歡
      亞型特異性癌癥
      留意10種癌癥的蛛絲馬跡
      癌癥“偏愛”那些人?
      海峽姐妹(2018年7期)2018-07-27 02:30:36
      對癌癥要恩威并施
      特別健康(2018年4期)2018-07-03 00:38:08
      不如擁抱癌癥
      特別健康(2018年2期)2018-06-29 06:13:42
      精確制導(dǎo) 特異性溶栓
      BOPIM-dma作為BSA Site Ⅰ特異性探針的研究及其應(yīng)用
      重復(fù)周圍磁刺激治療慢性非特異性下腰痛的臨床效果
      Ikaros的3種亞型對人卵巢癌SKOV3細(xì)胞增殖的影響
      兒童非特異性ST-T改變
      ABO亞型Bel06的分子生物學(xué)鑒定
      宝应县| 肃北| 堆龙德庆县| 南丹县| 丽江市| 应用必备| 沂水县| 晴隆县| 馆陶县| 柳林县| 勃利县| 普陀区| 林口县| 齐齐哈尔市| 高唐县| 樟树市| 浙江省| 抚远县| 葵青区| 青河县| 克拉玛依市| 竹北市| 墨脱县| 平武县| 南城县| 葫芦岛市| 玛纳斯县| 金沙县| 福安市| 股票| 桂阳县| 溧水县| 禄丰县| 宿松县| 绥德县| 滕州市| 洛浦县| 新宁县| 清原| 高邑县| 合肥市|