• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      KIRC組學數(shù)據(jù)分類的自注意亞型識別神經(jīng)網(wǎng)絡

      2023-12-11 07:11:16陳錫程伍亞舟
      計算機工程與應用 2023年23期
      關鍵詞:亞型注意力癌癥

      李 陽,陳錫程,伍亞舟

      陸軍軍醫(yī)大學 軍事預防醫(yī)學系 軍隊衛(wèi)生統(tǒng)計學教研室,重慶 400038

      癌癥是一種高度異質(zhì)性的疾病,其不同類型的癌細胞具有不同的生物學特征和表型[1]。這意味著即使是同一種癌癥,在不同患者中也可能會表現(xiàn)出不同的亞型[2]。這種異質(zhì)性對于癌癥的治療和預后都有很大的影響[3]。以腎細胞癌為例,腎透明細胞癌(kidney renal clear cell carcinoma,KIRC)是腎細胞癌中最常見的病理類型[4]。雖然手術或消融等治療方法可以治療KIRC,但仍有約30%的患者可能發(fā)生轉(zhuǎn)移,這會大大影響治療效果和預后[5]。更深入地理解癌癥亞型可以幫助醫(yī)生制定更加個性化的治療方案,提高治療效果和患者的生存率[6]。因此,對于癌癥亞型的認識對于癌癥患者的治療選擇和預后具有重要意義。

      近年來,隨著高通量測序技術的發(fā)展,產(chǎn)生了大量的癌癥基因組數(shù)據(jù)。這些數(shù)據(jù)可通過一些以癌癥基因組圖譜(the cancer genome atlas,TCGA)為代表的公開項目中獲取[7]。隨著精準醫(yī)療概念的興起,對患者進行個性化的診斷和治療,利用這些數(shù)據(jù)確定KIRC 的亞組分型將會對其早發(fā)現(xiàn)早治療發(fā)揮積極的作用[8]。組學數(shù)據(jù)分析有利于預測癌癥亞型,并提高對癌癥進展的理解。因此,迫切需要對癌癥亞型識別中的組學數(shù)據(jù)進行有效分析。然而,既往研究中利用基因組學數(shù)據(jù)對亞型確定的研究較多集中在乳腺癌[9]、肺癌[10]和肝癌[11]等癌癥,對于腎細胞癌的亞型確定研究較少。

      隨著人工智能技術的不斷發(fā)展,機器學習和深度學習已經(jīng)廣泛應用于生物醫(yī)學領域。自注意力機制是一種用于處理序列數(shù)據(jù)的機制,其最早在Transformer 模型中被提出[12]。通過自注意力機制,模型能夠更好地獲取序列數(shù)據(jù)之間的關系,從而提高模型的性能[13]。自注意力機制已經(jīng)廣泛應用于自然語言處理和計算機視覺等領域?;谧⒁饬Φ淖跃幋a器更適合學習高級功能[14]。盡管注意力機制主要在醫(yī)學圖像中有所應用[15],但在癌癥測序數(shù)據(jù)中仍有待進一步研究。

      因此,本文提出了一種新的深度學習模型自注意力亞型識別神經(jīng)網(wǎng)絡(self-attention subtype recognition neural network,SSRNN),并在KIRC組學數(shù)據(jù)分類中取得了優(yōu)異性能。主要貢獻和創(chuàng)新點可總結(jié)如下:(1)本文提出了一種新穎的深度學習方法SSRNN,它將編碼器、自注意力機制、解碼器和分類器結(jié)合到一個統(tǒng)一的框架中。這種方法可以有效提升模型的表現(xiàn)。(2)在基于深度學習的癌癥亞型識別任務中首次引入了自注意力機制。通過這種方法,模型能夠自動地學習樣本之間的相似性,從而更好地表示數(shù)據(jù)特征。(3)在KIRC 的轉(zhuǎn)錄組學數(shù)據(jù)集上進行了實驗,并采用非負矩陣分解的方法確定了KIRC的亞型分組。

      1 數(shù)據(jù)收集和分析

      全文數(shù)據(jù)和方法的技術路線如圖1所示。

      圖1 全文技術路線圖Fig.1 Full-text technology roadmap

      1.1 數(shù)據(jù)收集

      TCGA 是由美國國家癌癥研究所和美國國家人類基因組研究所共同構建的項目,其中收入了各種癌癥的臨床數(shù)據(jù)、基因組數(shù)據(jù)等,是重要的癌研究的數(shù)據(jù)來源[7]。從TCGA的KIRC數(shù)據(jù)庫(TGCA-KIRC database)中下載轉(zhuǎn)錄組學數(shù)據(jù)、臨床數(shù)據(jù)和樣本質(zhì)量注釋文件。

      通過查看注釋文件并排除低質(zhì)量樣本后,獲得了594 例轉(zhuǎn)錄組學數(shù)據(jù)樣本,其中523 例為KIRC 樣本,71例為正常樣本。從中提取了蛋白編碼基因的Counts 數(shù)據(jù)(read Counts)和TPM 數(shù)據(jù)(transcripts per million)。其中Counts 數(shù)據(jù)是指在高通量測序每個基因在樣本中被檢測到的次數(shù),TPM 數(shù)據(jù)是按每百萬總讀數(shù)為單位對每個基因在樣本中的表達量進行歸一化處理。

      此外,還獲取了537例臨床數(shù)據(jù)。臨床數(shù)據(jù)中提取了對應樣本的年齡、性別、腫瘤分級、腫瘤分期、TNM分期、生存時間和生存狀態(tài)的臨床信息

      依據(jù)樣本ID 將轉(zhuǎn)錄組數(shù)據(jù)和臨床數(shù)據(jù)取交集,最終獲取514例癌癥樣本,這些樣本將會被用于癌癥亞型的確定和模型構建。

      樣本質(zhì)量注釋文件中將用于評估樣本的質(zhì)量,有助于篩選出高質(zhì)量的樣本進行分析。鑒于數(shù)據(jù)可能存在批次效應,從UCSC Xena 網(wǎng)站(https://xenabrowser.net/datapages/)下載了TCGA-KIRC的批次效應文件以去除批次效應,并提高數(shù)據(jù)的準確性。

      1.2 生信分析

      本文的生物信息學分析主要包括差異分析和富集分析。

      為更深入地了解KIRC 的基因表達特征,對蛋白編碼基因進行了差異分析,篩選出差異表達的基因。在差異分析前,對樣本進行了過濾篩選,利用注釋文件去除低質(zhì)量的樣本。同時,針對蛋白編碼基因表達數(shù)據(jù)中存在的重復基因,選取較大的值作為該基因的表達值,以確保數(shù)據(jù)的準確性。其次,將數(shù)據(jù)分為KIRC 組和正常樣本組,并結(jié)合批次效應文件,去除批次效應的影響。最后,利用R 語言中的DESeq2 包對蛋白編碼基因數(shù)據(jù)進行差異分析,其中參數(shù)以差異倍數(shù)(lbFC)為1,校正p值(padj)為0.05 進行設置。通過差異分析獲取了差異表達的基因,并根據(jù)差異分析結(jié)果繪制了火山圖,以直觀地展示基因的表達差異情況。

      在獲得了差異基因后,進一步對差異基因進行了富集分析,以更深入地了解這些基因在生物過程中的功能和作用。采用了GO(gene ontology)富集分析和KEGG(kyoto encyclopedia of genes and genomes)富集分析兩種方法[16]。GO 富集分析可了解基因在分子功能、細胞組分和生物過程等方面的作用,而KEGG則是一個包含生物系統(tǒng)功能和化學信息的數(shù)據(jù)庫,可幫助了解基因在哪些通路上具有富集[17-18]。在進行富集分析時,使用了R語言中的clusterProfiler包,以便有效地處理和分析數(shù)據(jù)。

      1.3 聚類分析

      將差異基因與臨床的生存數(shù)據(jù)結(jié)合篩選出與KIRC患者生存相關的蛋白編碼基因。共有514 例癌癥樣本納入。利用R語言進行Cox單因素分析,設置p<0.001,由此篩選出與生存相關有意義的基因,最終得到生存相關的蛋白編碼基因及其表達數(shù)據(jù)。

      在獲取與KIRC 生存相關的蛋白編碼基因數(shù)據(jù)后,本文采用了一種數(shù)據(jù)降維的方法——非負矩陣分解(non-negative matrix factorization,NMF)以確定KIRC的亞型分類數(shù)量[19]。使用NMF算法執(zhí)行聚類分析和降維的主要優(yōu)勢在于:(1)NMF算法是一種非負矩陣分解方法,可以將原始數(shù)據(jù)進行降維,同時得到一組非負的基向量和系數(shù)矩陣,這些基向量和系數(shù)矩陣可以用于描述原始數(shù)據(jù)的特征和結(jié)構。(2)相較于其他聚類技術,NMF 具有更大的性能優(yōu)勢,在癌癥類別發(fā)現(xiàn)中提高了聚類結(jié)果[20]。(3)NMF 算法可以保留原始數(shù)據(jù)的非負性和稀疏性,能夠更好地反映生物學系統(tǒng)的特征。(4)NMF可從基因表達數(shù)據(jù)中提取數(shù)據(jù)內(nèi)部的特征,從而實現(xiàn)對樣本進行分組的目的[21-22]。

      具體而言,基于R語言中的NMF包對KIRC蛋白編碼基因的非負矩陣進行分解。在參數(shù)設置方面,使用了上述獲得的與生存相關的蛋白編碼基因表達數(shù)據(jù),采用默認的brunet 方法,聚類數(shù)k設置為2~10。NMF 包處理會輸出Cophenetic 指數(shù)和一致性矩陣(consensus matrix)。Cophenetic 指數(shù)是一種常用的聚類質(zhì)量評估指標,用于評價聚類結(jié)果的好壞[23]。Cophenetic 指數(shù)越接近于1,表示聚類效果越好,反之則聚類效果越差。一致性矩陣則用于評價非負矩陣分解結(jié)果的穩(wěn)定性和可靠性,從中選擇最優(yōu)的分解結(jié)果[24]。

      1.4 生存分析

      根據(jù)NMF 包的處理結(jié)果,本文確定了最優(yōu)的亞型分類數(shù)量,并將分類結(jié)果與生存數(shù)據(jù)結(jié)合,繪制生存曲線圖以比較不同分型之間的生存情況是否存在差異。

      2 模型建立和訓練

      本文提出了一種自注意力亞型識別神經(jīng)網(wǎng)絡(selfattention subtype recognition neural network,SSRNN),現(xiàn)將模型構建、訓練和評價過程闡述如下。

      2.1 特征選擇

      基因表達數(shù)據(jù)的維度問題是一個普遍存在的問題,即數(shù)據(jù)樣本較少而數(shù)據(jù)特征過多。過多的數(shù)據(jù)特征容易包含更多的冗余信息,而這些冗余信息可能會導致模型的過擬合[25]。因此,需對數(shù)據(jù)特征進行篩選以提高模型的準確性和穩(wěn)定性。

      具體而言,對于KIRC的蛋白編碼基因表達數(shù)據(jù),需首先對其進行了Z-score歸一化處理以消除數(shù)據(jù)特征之間的量綱差異。接著,對于歸一化處理后的數(shù)據(jù),使用方差過濾法對特征進行篩選,以去除方差為0或較小的特征,從而減少冗余信息的影響[26]。最后,本文采用了卡方過濾的方法,選取卡方值排序前100 個特征,并將其作為最終輸入模型的特征[27]。這可進一步減少特征數(shù)量,去除冗余信息,并提高模型的預測準確性。下面簡述100 個特征的設置原因。結(jié)合研究的樣本數(shù)量和參考既往研究[28],當選擇特征較少時可能引發(fā)效果較差,當選擇特征過多時可能使效果提升不明顯,因此最終選擇100個特征,這有利于規(guī)避基因數(shù)據(jù)普遍存在梯度爆炸問題。

      在上述處理過程中,均利用Python 進行數(shù)據(jù)的處理,分別使用了sklearn.preprocessing.MinMaxScaler 和sklearn.feature_selection 中的VarianceThreshold、chi2、SelectKBest。

      2.2 模型建立

      針對預處理后的KIRC 數(shù)據(jù),本文構建了基于自注意力機制的KIRC亞型分類模型。構建的模型整體上分為兩部分,即編碼器部分和分類器部分,模型結(jié)構如圖2所示。構建模型的過程中,需要考慮到癌癥分型樣本存在不均衡的問題。為了解決這個問題,采用了Pytorch中的WeightedRandomSampler 對樣本進行加權處理。WeightedRandomSampler是一種能夠?qū)颖具M行加權的隨機采樣器,它給每個樣本分配不同的權重,以保證每個類別的樣本均可得到訓練以規(guī)避過擬合風險。

      圖2 SSRNN框架結(jié)構Fig.2 SSRNN framework structure

      在編碼器部分,采用了自編碼器模塊和自注意力模塊兩個模塊來對數(shù)據(jù)進行特征提取和降維處理。自編碼器模塊是一種無監(jiān)督學習的方法,它可以將輸入數(shù)據(jù)壓縮成低維表示,從而去除數(shù)據(jù)中的冗余信息。通過訓練自編碼器,可以得到一個壓縮后的特征空間,從而實現(xiàn)對數(shù)據(jù)的降維處理。

      為了更好地構建自注意力模塊的數(shù)據(jù)矩陣,采用了數(shù)據(jù)降維的方法,將原始數(shù)據(jù)從100個維度降維到30個維度。這樣可以減少數(shù)據(jù)的復雜性,并更好地利用數(shù)據(jù)信息。經(jīng)過自編碼器的處理后,每個樣本都被表示為一個具有30個維度的向量。自注意力機制是一種能夠計算相似度、考慮各元素之間關系的機制,可以更好地獲得全局信息。通過計算每個元素與其他元素的相似度,自注意力機制可以計算出序列中各元素的權重矩陣,并利用該權重矩陣得到原數(shù)據(jù)的新表示。

      在本研究構建的自注意力機制模塊中,將每個樣本降維后的30 個維度數(shù)據(jù)構建為一個3×10 的數(shù)據(jù)矩陣X。將該數(shù)據(jù)矩陣線性映射出三個數(shù)據(jù)矩陣,分別為GeneQ、GeneK、GeneV,如公式(1)~(3)所示。這三個數(shù)據(jù)矩陣可以通過自注意力機制的計算公式進行處理,得到一個處理后的數(shù)據(jù)矩陣表示,如公式(4)所示。最后,將處理后的數(shù)據(jù)矩陣與原數(shù)據(jù)矩陣殘差連接,形成一個新的數(shù)據(jù)矩陣,以進一步提高模型的性能。在本研究中,將3×10的數(shù)據(jù)矩陣拉平為原始的30個維度,并將其輸入分類器部分,以進行分類任務。

      分類器部分由三層神經(jīng)網(wǎng)絡組成,包括輸入層、隱藏層和輸出層。其中,輸入層的維度與自注意力模塊的輸出維度一致,即30 個維度。隱藏層的維度設置為15個,通過降低維度數(shù)量,可以減小模型復雜度,提高模型的訓練速度和泛化能力。輸出層的維度根據(jù)癌癥分型數(shù)量進行設置,以滿足多分類的需求。

      2.3 模型訓練和評價

      為了對自注意力機制分類與常見的機器學習分類方法和深度學習方法進行對比,本文選擇了決策樹、隨機森林、支持向量機和邏輯回歸等四種機器學習模型,并基于Python 的sklearn 庫實現(xiàn);還選擇了循環(huán)神經(jīng)網(wǎng)絡并基于Pytorch 實現(xiàn)。此外,本文還分析了去除自注意力模塊的SSRNN 的性能以執(zhí)行消融研究,此方法可稱作人工神經(jīng)網(wǎng)絡(artificial neural network,ANN)。

      具體地,將樣本數(shù)據(jù)分為訓練集和測試集,采用默認參數(shù)的方式對上述四種模型進行訓練和測試,以比較它們與自注意力機制分類的分類效果和性能表現(xiàn)。

      Logistic 回歸(logistic regression,LR)是一種基于概率的分類模型,它通過擬合樣本的特征和標簽之間的關系,預測新樣本的類別[29]。決策樹(decision tree,DT)是一種常見的分類模型,它通過構建樹形結(jié)構,根據(jù)特征值之間的關系進行分類預測[30]。隨機森林(random forest,RF)是一種基于決策樹的集成學習方法,它通過組合多個決策樹的預測結(jié)果,提高分類的準確性和泛化能力[31]。支持向量機(support vector machine,SVM)是一種二分類模型,它通過構建一個最優(yōu)超平面,將不同類別的樣本分開[32]。循環(huán)神經(jīng)網(wǎng)絡(recurrent neural network,RNN)是一種用于處理序列數(shù)據(jù)的神經(jīng)網(wǎng)絡模型。相較于前饋神經(jīng)網(wǎng)絡,RNN 在處理序列數(shù)據(jù)時具有持續(xù)性的特點。

      模型的構建是基于Python 的Pytorch 框架實現(xiàn)的。為評估模型的效果,對模型進行了五折交叉驗證,隨機選擇80%的數(shù)據(jù)作為訓練集訓練模型,20%的數(shù)據(jù)作為測試集評估模型效果。選擇準確率(accuracy,ACC)、靈敏度(sensitivity,SEN)、精確率(precision,PRE)、F1 得分(F1-score,F(xiàn)1)和受試者工作特征(receiver operating characteristic,ROC)的曲線下面積(area under curve,AUC)等指標對模型效果進行評價。

      3 研究結(jié)果和討論

      本文研究結(jié)果主要包括聚類分析、生存分析、預測性能和生信分析,其中生信分析包括基因表達熱圖、差異分析和功能富集分析等。

      3.1 聚類分析

      使用了具有臨床信息的514 例腫瘤組轉(zhuǎn)錄組數(shù)據(jù)與生存數(shù)據(jù)相結(jié)合,進行單因素Cox回歸分析。本文將過濾條件P值設置為0.001,最終篩選得到了358 個與生存相關的蛋白編碼基因。

      為了進一步探究KIRC 的亞型分組,使用R 語言的NMF包對這358個蛋白編碼基因進行了非負矩陣分解。通過這種方法,可將樣本分為不同的亞型,以更好地了解KIRC的異質(zhì)性。Cophenetic系數(shù)圖和一致性矩陣如圖3 所示,其提示了在不同聚類數(shù)條件下Cophenetic 指數(shù)的變化情況。Cophenetic 指數(shù)越接近于1,聚類效果越好。從圖中可以看出,當聚類數(shù)k=3 或k=4 時,聚類效果較好。為了確定最終的分型組數(shù),本文結(jié)合一致性矩陣圖顯示的聚類效果進行綜合考慮,最終確定分型組數(shù)為3。

      圖3 Cophenetic系數(shù)圖和一致性矩陣Fig.3 Graph of Cophenetic coefficients and consistency matrix

      在確定聚類數(shù)后,本文利用t-SNE 降維可視化,旨在展示并驗證聚類數(shù)的合理性,如圖4所示,結(jié)果表明:當聚類數(shù)為3時,樣本分類較為合理。

      圖4 t-SNE降維可視化Fig.4 t-SNE dimensionality reduction visualization

      3.2 生存分析

      在確定聚類數(shù)后,本文進行了各組的臨床信息比較和生存分析比較。

      一方面,根據(jù)樣本ID 將轉(zhuǎn)錄組數(shù)據(jù)和臨床數(shù)據(jù)取交集后可獲取514 例腫瘤樣本,依據(jù)亞型分組,將臨床信息描述如表1所示。

      表1 腫瘤樣本臨床信息Table 1 Clinical information of tumor samples

      另一方面,結(jié)合對應的生存信息繪制了生存曲線以對比不同分組之間的生存情況。從生存曲線可以看出,C1、C2和C3組之間存在生存差異(p<0.001),如圖5所示。

      圖5 亞型生存分析Fig.5 Subtype survival analysis

      3.3 預測性能

      對篩選的358 個生存相關的蛋白編碼基因進行了特征篩選。為了選擇最優(yōu)的特征,利用Python的sklearn庫選擇卡方值前100 個基因作為最終輸入模型的特征。接著,使用測試集對模型效果進行了評價,并將SSRNN、去除自注意力模塊的SSRNN(簡稱為ANN)、循環(huán)神經(jīng)網(wǎng)絡(recurrent neural network,RNN)和隨機森林、決策樹、支持向量機、邏輯回歸等機器學習分類模型的結(jié)果進行了比較。使用五折交叉驗證的方法以評估模型的性能,并將5 次結(jié)果的均值和標準差展示于表2中。

      表2 模型效果評估Table 2 Evaluation of model effect 單位:%

      在五折交叉驗證中,并選擇其中表現(xiàn)最佳的一次實驗結(jié)果來繪制ROC 曲線,各模型的ROC 曲線比較如圖6 所示,展示了7 種方法五折交叉驗證中最佳一次的結(jié)果。綜合分析結(jié)果,發(fā)現(xiàn)自注意力分類模型相對于其他分類方法取得了更好的分類效果。

      圖6 ROC曲線圖Fig.6 ROC curve

      3.4 生信分析

      基于聚類獲取的三種亞型執(zhí)行生信分析,包括基因表達熱圖、差異分析和功能富集分析等步驟。

      首先,對三種亞型繪制腫瘤差異基因的表達熱圖,如圖7 所示。結(jié)果表明:三種亞型的基因表達存在差異。C3的基因大多數(shù)處于低表達狀態(tài),而C1和C2的基因不僅存在高表達而且存在低表達,且在高表達部分的基因存在差異。結(jié)合三種亞型的生存曲線,C3 的預后生存最佳,推測基因的低表達指示較好的生存預后。

      圖7 腫瘤差異基因的表達熱圖Fig.7 Heat map of differential gene expression in tumor

      其次,對三種亞型執(zhí)行差異分析,如圖8 所示。將差異倍數(shù)設置為1,校正P值設置為0.05。結(jié)果表明:對三種亞型兩兩間進行差異分析并繪制火山圖,差異基因取交集,共可獲取266個差異基因。這些基因的差異表達可能與腫瘤的發(fā)生、發(fā)展等方面有關。

      圖8 差異分析火山圖Fig.8 Difference analysis volcano map

      最后,使用Metascape 分析工具[33]對從組學數(shù)據(jù)中篩出的差異基因進行功能富集分析,基于gene ontology(GO)和kyoto encyclopedia of genes and genomes(KEGG)兩大基因功能注釋數(shù)據(jù)庫選擇路徑,旨在聚集相似功能的基因并關聯(lián)生物學表型。兩種路徑富集的結(jié)果如圖9所示,均展示前20個富集結(jié)果。各氣泡表示一個通路或功能項,氣泡的大小表示富集分析的顯著性程度,顏色表示富集分析結(jié)果的不同分類。從整個集群中選擇了一個具有代表性功能的子集,并將其呈現(xiàn)為節(jié)點圖,如圖10 所示。節(jié)點代表富集的功能。節(jié)點大小取決于具有此功能的基因數(shù)量,數(shù)量越多則節(jié)點越大。相似度得分>0.3的功能通過邊緣連接,相似度得分越高則邊緣越粗。以節(jié)點顏色代表集群ID,即相同顏色節(jié)點屬于同一集群,具有相同網(wǎng)絡集群ID 的節(jié)點通常彼此靠近。

      圖10 富集分析節(jié)點圖Fig.10 Enrichment analysis node diagram

      3.5 討論

      在確定并篩選出了與癌癥發(fā)生相關的差異基因后,本文進行了兩類富集分析。GO分析提示基因功能主要集中于被動跨膜轉(zhuǎn)運蛋白活性、通道活性、受體配體活性、信號受體激活劑活性和離子通道活性等,而KEGG分析提示通路主要集中于神經(jīng)活性配體-受體相互作用、細胞因子間受體的相互作用、鈣信號通路和細胞粘附分子等。這些生信分析結(jié)果揭示了KIRC細胞在跨膜轉(zhuǎn)運等細胞活動中的異常性,并提示了與癌癥進展相關的通路。

      在聚類分析中,本文結(jié)合生存信息篩選出了與生存相關的358 個基因,并對這些基因進行了非負矩陣分解,確定了KIRC 的三種亞型。由篩選出的基因確定的KIRC的三種亞型在生存時間上存在差異,其中亞型C3的生存預后最佳,亞型C1 的生存預后次之,亞型C2 的生存預后最差。因此,本文有效地區(qū)分了三種亞型,填補了相關領域的空白,可將三種亞型各自命名為高危型、中危型和低危型。這種亞型劃分體現(xiàn)了本文方法和結(jié)果的創(chuàng)新,有利于進一步深入探究癌癥亞型分類具有重要的理論和實踐意義,為癌癥的精準治療提供了有力的支持。

      在既往研究中,隨著組學數(shù)據(jù)收集技術和人工智能分析技術的進展,以自編碼器(autoencoder,AE)架構為代表的深度學習組學分析方法被廣泛用于癌癥亞型的識別[34-35]。Tong等[36]提出了ConcatAE方法,該方法連接了從組學數(shù)據(jù)中學到的特征。Yang 等[37]提出了Subtype-GAN方法,該方法使用單獨的多輸入多輸出神經(jīng)網(wǎng)絡來建模多組學數(shù)據(jù)。雖然這些方法在癌癥亞型識別方面表現(xiàn)出了良好的性能,但它們忽略了數(shù)據(jù)間的內(nèi)在關系,可能會丟失部分有意義的信息。

      本文預測性能結(jié)果揭示,SSRNN 可有效地區(qū)分癌癥亞型,在各個評價標準上都取得了最佳的效果這進一步證實了SSRNN在癌癥研究中的重要性和實用性。在去除自注意力機制模塊后,模型效果大幅度降低,這證實了自注意力機制的重要性。自注意力機制的優(yōu)勢[38-40]可總結(jié)如下:(1)有利于獲取數(shù)據(jù)間的相關性,提高對重要信息的利用,進而提高模型效果。(2)可更好地提取特征,避免特征之間的冗余和噪聲,從而提高模型的準確性和泛化能力。(3)可根據(jù)輸入數(shù)據(jù)的不同特征和重要性自動地進行權重分配和特征提取,能夠更好地捕捉數(shù)據(jù)之間的關系,從而有效地提高模型的分類能力。(4)采用了多層神經(jīng)網(wǎng)絡的組合,可以更好地處理非線性分類問題,適用于更復雜的數(shù)據(jù)集和分類任務。(5)具有較強的準確性和穩(wěn)健性,可對數(shù)據(jù)進行更深入的分析和理解,從而更好地指導實際應用。

      此外,SSRNN的應用將有助于更好地理解KIRC的發(fā)病機制,并為其治療提供新的思路和方向。本文對基于聚類獲取的三種亞型執(zhí)行生信分析,包括基因表達熱圖、差異分析和功能富集分析等步驟。這些生信分析結(jié)果為深入研究差異基因的功能和通路提供了重要的參考,有助于從生物學角度解釋腫瘤發(fā)生和發(fā)展的機制。一方面,生信分析有利于驗證聚類分析的合理性。另一方面,研究人員可根據(jù)SSRNN 獲得的生物標志物對癌癥進行更多的亞型分析研究,為臨床研究提供寶貴參考。

      基于自注意力機制構建的分類模型已經(jīng)取得了較好的分類結(jié)果,但仍存在一些局限性。首先,本研究僅針對KIRC進行探究,需要擴展到其他癌癥分型。其次,模型構建基于TCGA數(shù)據(jù)劃分的訓練集和測試集,缺少外部數(shù)據(jù)驗證模型可靠性和泛化性。第三,數(shù)據(jù)僅考慮KIRC 蛋白編碼基因的單一組學數(shù)據(jù),需探究多組學數(shù)據(jù)結(jié)合以提高分類效果和精度。未來,將探究其他癌癥分型,將基因分型與臨床結(jié)局進行對應分析,結(jié)合多組學數(shù)據(jù),并優(yōu)化模型結(jié)構和參數(shù)以提高效果和泛化性。

      4 總結(jié)

      本文納入了KIRC 的轉(zhuǎn)錄組學數(shù)據(jù),結(jié)合非負矩陣分解的方法確定了亞型分組,并利用自注意力機制構建亞型分類模型,提出了自注意力亞型識別神經(jīng)網(wǎng)絡(SSRNN)。研究結(jié)果證實了SSRNN 具有優(yōu)異的性能表現(xiàn)和分類效果。在實際應用中,可以根據(jù)具體的數(shù)據(jù)集和任務,選擇合適的分類模型,以實現(xiàn)更加精確和可靠的分類預測。因此,SSRNN 具有較高的預測精度和穩(wěn)健性,可有效地利用組學數(shù)據(jù)進行KIRC的生存預測,可較好地指導臨床診治工作,具有較高的方法學意義和應用價值。

      猜你喜歡
      亞型注意力癌癥
      讓注意力“飛”回來
      留意10種癌癥的蛛絲馬跡
      癌癥“偏愛”那些人?
      海峽姐妹(2018年7期)2018-07-27 02:30:36
      對癌癥要恩威并施
      特別健康(2018年4期)2018-07-03 00:38:08
      不如擁抱癌癥
      特別健康(2018年2期)2018-06-29 06:13:42
      “揚眼”APP:讓注意力“變現(xiàn)”
      傳媒評論(2017年3期)2017-06-13 09:18:10
      A Beautiful Way Of Looking At Things
      Ikaros的3種亞型對人卵巢癌SKOV3細胞增殖的影響
      ABO亞型Bel06的分子生物學鑒定
      HeLa細胞中Zwint-1選擇剪接亞型v7的表達鑒定
      萝北县| 博爱县| 道真| 东阿县| 满城县| 营口市| 玛纳斯县| 黄山市| 合江县| 遵义市| 浪卡子县| 凤城市| 武安市| 新民市| 商城县| 河津市| 建阳市| 石渠县| 平乐县| 兴国县| 新兴县| 大港区| 汉阴县| 青田县| 大兴区| 昌平区| 黎川县| 天台县| 祁阳县| 恩施市| 丹棱县| 东城区| 乐业县| 克拉玛依市| 北宁市| 锦州市| 巫溪县| 喀什市| 武宁县| 宁明县| 松潘县|