摘" 要: 在癌癥檢測(cè)領(lǐng)域,細(xì)胞游離DNA的高通量測(cè)序技術(shù)已引發(fā)一場(chǎng)重大變革,為非侵入性癌癥檢測(cè)提供了新的可能性。利用測(cè)序數(shù)據(jù)做出可靠且精確的預(yù)測(cè)至關(guān)重要,但是測(cè)序成本高昂。針對(duì)這一需求,提出一種基于流動(dòng)注意力機(jī)制的深度學(xué)習(xí)模型。通過(guò)定義差異甲基化區(qū)域?qū)?shù)據(jù)進(jìn)行預(yù)處理,使得滿足深度學(xué)習(xí)數(shù)據(jù)量的要求,并整合全基因組雙硫酸鹽測(cè)序數(shù)據(jù)中的DNA序列和甲基化信息,以實(shí)現(xiàn)對(duì)髓母細(xì)胞瘤患者進(jìn)行預(yù)測(cè)。實(shí)驗(yàn)結(jié)果表明,該方法提高了診斷過(guò)程的準(zhǔn)確性,且受試者工作特征曲線面積達(dá)到99.73%,展示了深度學(xué)習(xí)技術(shù)在癌癥早期診斷中的潛在應(yīng)用前景。
關(guān)鍵詞: 非侵入性癌癥檢測(cè); 流動(dòng)注意力機(jī)制; 細(xì)胞游離DNA; 高通量測(cè)序技術(shù); 深度學(xué)習(xí); 差異甲基化區(qū)域
中圖分類號(hào): TN911.23?34; TP391" " " " " " " " " "文獻(xiàn)標(biāo)識(shí)碼: A" " " " " " " " " 文章編號(hào): 1004?373X(2024)22?0139?07
Non?invasive cancer detection based on flow attention mechanism
Abstract: In the field of cancer detection, the high?throughput sequencing technology of cell?free DNA has triggered a significant revolution, providing new possibilities for non?invasive cancer detection methods. Using sequencing data to make reliable and accurate predictions is critical, but sequencing is expensive. To address this demand, a deep learning model based on dynamic attention mechanism is proposed. Data were preprocessed by defining differential methylation regions to meet deep learning data volume requirements, and DNA sequence and methylation information from whole?genome disulfate sequencing data were integrated to achieve prediction of medulloblastoma patients. The experimental results show that the method can improve the accuracy of the diagnosis process, and the area under the subject working characteristic curve can reach 99.73%, demonstrating the potential application prospect of deep learning technology in the early diagnosis of cancer.
Keywords: non?invasive cancer detection; dynamic attention mechanism; cell?free DNA; high?throughput sequencing technology; deep learning; differential methylation region
0" 引" 言
兒童腦腫瘤是兒童中最常見(jiàn)的惡性腫瘤,約占所有兒科腫瘤[1?2]的25%。被認(rèn)為是15歲以下兒童死亡的第二主要原因[3]。在兒童腦腫瘤中,髓母細(xì)胞瘤(Medulloblastoma, MB)被認(rèn)為是兒童中最常見(jiàn)的惡性腦腫瘤[4]。MB約占全球影響兒科的中樞神經(jīng)系統(tǒng)腫瘤[5?6]的15%~20%。它起源于小腦的后部,并迅速向其他腦部區(qū)域發(fā)展[7]。精確的早期診斷髓母細(xì)胞瘤對(duì)于決定適當(dāng)?shù)闹委煼桨负碗S訪程序至關(guān)重要,這一程序相應(yīng)地會(huì)提高髓母細(xì)胞瘤患者的生存率,并避免了在早期階段未經(jīng)診斷和治療可能發(fā)生的急性副作用[8?9]。這些副作用會(huì)影響兒童的運(yùn)動(dòng)和協(xié)調(diào)能力,并降低他們的生活質(zhì)量。循環(huán)DNA(circulating free DNA, cfDNA)是釋放到血漿和尿液等體液中的降解的DNA片段,主要由凋亡或壞死細(xì)胞產(chǎn)生[10]。據(jù)報(bào)道,在癌癥早期,即使患者沒(méi)有明顯的臨床癥狀,癌細(xì)胞中的DNA狀態(tài)也已發(fā)生變化,并且可以在癌癥患者的血漿中檢測(cè)到作為循環(huán)腫瘤DNA(circulating tumor DNA, ctDNA)[11?12]。隨著高通量測(cè)序技術(shù)的發(fā)展,通過(guò)在cfDNA測(cè)序數(shù)據(jù)中識(shí)別癌癥信號(hào)的非侵入性方法正在成為癌癥診斷的新型液體活檢方法[13]。
大多數(shù)cfDNA研究集中在癌基因突變上,通過(guò)檢測(cè)致癌基因中的特定突變來(lái)計(jì)算ctDNA在總cfDNA中的存在和比例[14?15]。然而,在早期癌癥階段,ctDNA的比例太低,無(wú)法通過(guò)常規(guī)測(cè)序方法檢測(cè)到[16?17]。此外,驅(qū)動(dòng)癌癥發(fā)生的突變通常是多樣化的,導(dǎo)致不同患者或腫瘤組織中不同位置的異質(zhì)性,這限制了通過(guò)ctDNA突變檢測(cè)癌癥的潛力[18]。一些其他研究試圖通過(guò)cfDNA檢測(cè)染色體在癌癥發(fā)生過(guò)程中的重排,例如拷貝數(shù)變化和片段模式,并發(fā)現(xiàn)這些特征與癌癥之間存在的關(guān)聯(lián)[19?22]。然而,由于cfDNA測(cè)序數(shù)據(jù)是混合數(shù)據(jù),并且信噪比低,導(dǎo)致這些低分辨率特征在檢測(cè)早期癌癥時(shí)幾乎無(wú)法與噪聲區(qū)分開(kāi)來(lái),因此無(wú)法單獨(dú)作為早期癌癥檢測(cè)的準(zhǔn)確生物標(biāo)志物。
DNA的甲基化狀態(tài)在早期癌癥中廣泛發(fā)生變化,涉及整個(gè)基因組,這使得甲基化成為早期癌癥檢測(cè)中一個(gè)重要的信息特征[23?24]。因此,整合不同CpG位點(diǎn)的甲基化狀態(tài)或不同亞基因組區(qū)域的甲基化狀態(tài)成為提高癌癥檢測(cè)精度的有前景的方法[25?26]。此外,由于總cfDNA中ctDNA的比例與腫瘤負(fù)擔(dān)呈一致關(guān)系,對(duì)cfDNA進(jìn)行解卷積以推斷其來(lái)源,成為估計(jì)癌癥存在和嚴(yán)重程度的有希望的方法[27?28]。然而,這些方法的性能仍受到信噪比低的限制。文獻(xiàn)[29]引入了基于概率方法的CancerLocator來(lái)預(yù)測(cè)癌癥的位置和腫瘤負(fù)擔(dān),在患者血漿樣本上取得了令人滿意的結(jié)果。CancerLocator利用相鄰CpG位點(diǎn)之間甲基化狀態(tài)的局部相關(guān)性,以單個(gè)測(cè)序讀數(shù)的分辨率預(yù)測(cè)cfDNA的來(lái)源,為研究cfDNA測(cè)序數(shù)據(jù)提供了一種新穎的讀數(shù)視角。然而,不同深度的測(cè)序數(shù)據(jù)可能會(huì)將系統(tǒng)偏差引入到癌癥檢測(cè)器的預(yù)測(cè)結(jié)果中,從而可能進(jìn)一步降低癌癥診斷的準(zhǔn)確性。隨后,文獻(xiàn)[30]提出了一種基于概率方法的升級(jí)版方法,稱為CancerDetector,并且表現(xiàn)優(yōu)于CancerLocator。
近期研究發(fā)現(xiàn),從腦脊液(CSF)中可以提取大量cfDNA,并在多種腦腫瘤患者中檢測(cè)到高含量的ctDNA。同時(shí)研究表明,甲基化狀態(tài)在一定程度上受周圍DNA序列的順式調(diào)節(jié)[31]。因此,周圍的DNA序列可能為分析甲基化狀態(tài)和預(yù)測(cè)單個(gè)讀數(shù)的來(lái)源提供有價(jià)值的信息。鑒于此,本文提出一種基于分析腦脊髓液中的髓母細(xì)胞瘤全基因組雙硫酸鹽測(cè)序(WGBS)數(shù)據(jù)的DeepCancer的深度學(xué)習(xí)模型。DeepCancer可以整合選定的全基因組差異甲基化區(qū)域(DMRs)的DNA序列和甲基化信息,從而使得即使在非常低的測(cè)序深度下也能實(shí)現(xiàn)準(zhǔn)確的預(yù)測(cè)。DeepCancer成功地在低測(cè)序深度的cfDNA全基因組雙硫酸鹽測(cè)序(WGBS)數(shù)據(jù)(覆蓋范圍從1×~10×)中實(shí)現(xiàn)了0.997 3(均值 )的髓母細(xì)胞瘤診斷的受試者工作特征曲線下面積(AUROC)。結(jié)果表明,通過(guò)將DNA序列和甲基化信息結(jié)合起來(lái),DeepCancer可以在癌癥的早期階段對(duì)不同測(cè)序深度的數(shù)據(jù)進(jìn)行診斷,這對(duì)于進(jìn)一步的臨床應(yīng)用有很大幫助。
1" 數(shù)據(jù)收集與預(yù)處理
在本研究中使用的數(shù)據(jù)源自美國(guó)國(guó)家生物信息中心(NCBI),編號(hào)為GSE142241的數(shù)據(jù)集[32]。該數(shù)據(jù)集提供了一組豐富的髓母細(xì)胞瘤樣本數(shù)據(jù),其中包括22例不同患者的樣本,如表1所示。為了實(shí)現(xiàn)本研究的目標(biāo),從中挑選了7例經(jīng)過(guò)全基因組雙硫酸鹽測(cè)序(WGBS)的癌癥患者樣本,以及6例同樣經(jīng)過(guò)WGBS測(cè)序的正常樣本,其中包括4例被診斷為腦積水的患者樣本。
首先,本文利用fastp工具進(jìn)行原始序列讀取的質(zhì)量控制。fastp是一個(gè)高效的序列分析工具,專為快速而全面地進(jìn)行質(zhì)量控制和預(yù)處理所設(shè)計(jì)。它能夠自動(dòng)識(shí)別并剔除低質(zhì)量的讀取和污染的序列,如接頭序列和低復(fù)雜度序列。fastp的使用大大提高了數(shù)據(jù)處理的效率,同時(shí)保留了數(shù)據(jù)分析所需的高質(zhì)量讀取。
經(jīng)過(guò)fastp處理后,本文使用BS?Seeker2軟件對(duì)所有WGBS數(shù)據(jù)進(jìn)行比對(duì)。BS?Seeker2是一種針對(duì)雙硫酸鹽測(cè)序數(shù)據(jù)設(shè)計(jì)的比對(duì)工具,能夠高效準(zhǔn)確地將讀取映射到參考基因組[33]上。在本研究中,所有的WGBS數(shù)據(jù)都與人類基因組參考序列hg19進(jìn)行了精確比對(duì)。BS?Seeker2通過(guò)其優(yōu)化的算法,確保了比對(duì)的準(zhǔn)確性,為甲基化分析提供了可靠的基礎(chǔ)。
比對(duì)完成后,本文運(yùn)用samtools工具進(jìn)行了序列數(shù)據(jù)的排序和優(yōu)化處理。samtools是一款用于處理SAM/BAM文件格式的工具,支持序列數(shù)據(jù)的排序、索引和查看等功能。此外,samtools還能有效地識(shí)別并刪除可能存在的PCR重復(fù)項(xiàng),進(jìn)一步提高數(shù)據(jù)質(zhì)量。
完成上述預(yù)處理步驟后,本文對(duì)所有CpG位點(diǎn)的甲基化狀態(tài)進(jìn)行了調(diào)用,為深入分析和對(duì)骨髓母細(xì)胞瘤的精準(zhǔn)診斷提供了必要的數(shù)據(jù)支持。這一步驟是通過(guò)專門的生物信息學(xué)工具完成的,旨在準(zhǔn)確識(shí)別每個(gè)CpG位點(diǎn)的甲基化水平,為后續(xù)的表觀遺傳學(xué)分析和疾病相關(guān)研究提供了重要的數(shù)據(jù)基礎(chǔ)。
2" 基于流動(dòng)注意力機(jī)制的腫瘤預(yù)測(cè)模型實(shí)現(xiàn)
2.1" 定義髓母細(xì)胞瘤特有的差異甲基化區(qū)域
在當(dāng)前的癌癥研究中,關(guān)于差異甲基化區(qū)域(DMR)的定義已成為研究重點(diǎn),這些研究方法主要聚焦于對(duì)特定基因組區(qū)域內(nèi)的總讀數(shù)進(jìn)行統(tǒng)計(jì)分析[34?38]。然而,在血漿中的游離DNA(cfDNA),尤其是源自癌細(xì)胞的讀數(shù),在癌癥早期階段常常極其稀少。這種情況在傳統(tǒng)的統(tǒng)計(jì)分析中會(huì)受到來(lái)自健康組織的異常數(shù)據(jù)的影響,導(dǎo)致癌細(xì)胞來(lái)源的讀數(shù)難以準(zhǔn)確識(shí)別。為了解決這個(gè)問(wèn)題,在本研究中采用了一種新的方法,將DMR定義為那些在甲基化模式上可以明顯區(qū)分腫瘤來(lái)源讀數(shù)和健康血漿讀數(shù)的基因組區(qū)域。這種定義方式顯著提高了利用cfDNA測(cè)序數(shù)據(jù)進(jìn)行癌癥檢測(cè)的分辨率。
本文提出了“差異區(qū)域”這一概念,并通過(guò)以下步驟進(jìn)行定義。首先,將整個(gè)基因組劃分為不重疊的300 bp區(qū)域,并篩選出那些在所有訓(xùn)練樣本中讀數(shù)不低于15的區(qū)域。對(duì)于這些區(qū)域,進(jìn)一步計(jì)算了每個(gè)區(qū)域內(nèi)所有DNA片段的甲基化比率,并分析它們?cè)诎┙M織和健康血漿中的cfDNA的分布特征。此外,本研究特別關(guān)注那些含有3個(gè)或更多CpG位點(diǎn)的讀取。然后,通過(guò)比較健康血漿和癌組織樣本在這些區(qū)域的甲基化率最大值和最小值,定義了低甲基化和高甲基化的轉(zhuǎn)換區(qū)域。例如,如果健康血漿的最小甲基化率(Hmin)與癌組織的最小甲基化率(Tmin)之差超過(guò)特定閾值,則該區(qū)域被標(biāo)記為低甲基化轉(zhuǎn)換區(qū)域。相應(yīng)地,甲基化率低于Hmin的所有讀取被視為低甲基化轉(zhuǎn)換讀取。高甲基化轉(zhuǎn)換區(qū)域也是以類似的方法定義??紤]到髓母細(xì)胞瘤(MB)通常表現(xiàn)出顯著的全基因組低甲基化模式,本研究特別關(guān)注于MB中的低甲基化轉(zhuǎn)換區(qū)域,以期對(duì)這一疾病的早期診斷提供更準(zhǔn)確的分子標(biāo)志。差異區(qū)域定義整體流程如圖1所示。
2.2" 預(yù)測(cè)cfDNA讀取數(shù)據(jù)的起源
在本研究中,為了精確捕捉并描述血漿中的游離DNA(cfDNA)全基因組雙硫酸鹽測(cè)序(WGBS)數(shù)據(jù),特別是腫瘤來(lái)源讀數(shù)的DNA序列和甲基化特征,開(kāi)發(fā)了名為DeepCancer的深度學(xué)習(xí)模型。該模型旨在預(yù)測(cè)癌癥組織來(lái)源的讀數(shù)強(qiáng)度。為了訓(xùn)練這一模型,專注于分析切換區(qū)域中的讀取,這些讀取具備至少3個(gè)CpG位點(diǎn),因此含有豐富的甲基化信息。
為了有效地處理這些復(fù)雜的數(shù)據(jù)集,采用二元分類方法來(lái)區(qū)分每個(gè)讀取的來(lái)源。在此方法中,為每個(gè)讀取分配了標(biāo)簽,其中來(lái)自健康血漿的讀取標(biāo)記為0,而來(lái)自癌癥組織的讀取標(biāo)記為1。將每個(gè)讀取修剪至相同長(zhǎng)度,即66個(gè)堿基對(duì)(在本研究中標(biāo)記為L(zhǎng)=66)。最后,為了保持?jǐn)?shù)據(jù)平衡并減少偏差,對(duì)這些讀取進(jìn)行了隨機(jī)二次采樣,確保健康血漿和癌癥組織來(lái)源的讀取數(shù)量在模型訓(xùn)練中保持均衡。
在本文模型中,將每個(gè)讀取的核堿基通過(guò)one?hot矩陣進(jìn)行編碼,同時(shí)將堿基的甲基化狀態(tài)整合到編碼過(guò)程中。在這種編碼機(jī)制下,1表示堿基處于甲基化狀態(tài),而0表示未甲基化。這樣,每個(gè)讀取被有效地轉(zhuǎn)換成一個(gè)L×5的矩陣,捕捉了每個(gè)堿基的遺傳信息及其甲基化狀態(tài)。
為了從這些編碼數(shù)據(jù)中提取有用的模式和特征,DeepCancer模型包括多個(gè)層次的深度學(xué)習(xí)架構(gòu)。首先,輸入層后接兩個(gè)一維卷積層和最大池化層,這有助于提取讀取數(shù)據(jù)中的局部模式。緊接著,引入一個(gè)創(chuàng)新的流動(dòng)注意力機(jī)制層,它通過(guò)動(dòng)態(tài)調(diào)整模型的關(guān)注點(diǎn)來(lái)提高特征提取的靈敏度和準(zhǔn)確性。此外,一個(gè)扁平層被用來(lái)將多維數(shù)據(jù)轉(zhuǎn)換為一維,以便輸入到后續(xù)的兩個(gè)密集層中。最終,模型輸出一個(gè)連續(xù)的值,范圍為0~1,這個(gè)分?jǐn)?shù)代表每個(gè)讀取屬于癌癥組織的概率,值越接近1,表明該讀取來(lái)自癌癥組織的可能性越高。整個(gè)深度學(xué)習(xí)模型的結(jié)構(gòu)圖在圖2中有詳細(xì)展示,其中每一層的功能和對(duì)數(shù)據(jù)的處理方式都有清晰的標(biāo)注。
2.3" 流動(dòng)注意力機(jī)制
自注意力機(jī)制通過(guò)對(duì)查詢(Query)、鍵(Key)和值(Value)的建模,能夠?qū)崿F(xiàn)對(duì)長(zhǎng)距離特征間依賴性的提取,進(jìn)而有助于捕獲全局特征信息。然而,自注意力機(jī)制在輸入序列長(zhǎng)度為n時(shí)的時(shí)間復(fù)雜度為[On2]。為此,本研究旨在采用流動(dòng)注意力(flow?attention)方法來(lái)降低復(fù)雜度,并解決傳統(tǒng)注意力機(jī)制的問(wèn)題。該方法從網(wǎng)絡(luò)流的角度出發(fā)(一端稱為信息流的源,另一端稱為信息流的匯,源和匯是相對(duì)的),并利用信息流的守恒性質(zhì)(輸入信息流等于輸出信息流),引入競(jìng)爭(zhēng)機(jī)制到注意力機(jī)制中,從而將時(shí)間復(fù)雜度降低到線性[On]。流動(dòng)注意力不引入特殊的歸納偏見(jiàn),依然具有良好的通用性。文獻(xiàn)[29]展示了流動(dòng)注意力在計(jì)算機(jī)視覺(jué)、自然語(yǔ)言處理和長(zhǎng)序列處理領(lǐng)域的優(yōu)勢(shì)。
流動(dòng)注意力層重新整合信息流以捕獲序列中的關(guān)鍵特征。該層中每個(gè)節(jié)點(diǎn)的輸入和輸出流可以捕獲全局交互特征。該模塊的輸入為CNN層輸出的矩陣[X'],大小為200×66。首先,通過(guò)使用式(1)~式(3)對(duì)輸入序列[X']進(jìn)行線性投影,得到Qurey(Q)、Key(K)和Value(V)向量。WQ、WK和WV分別表示向量Q、K和V的權(quán)重矩陣。
[Q=WQX']" " " " " " " " "(1)
[K=WKX'] (2)
[V=WVX'] (3)
然后,使用式(4)和式(5)對(duì)向量Q和K進(jìn)行非負(fù)投影,同時(shí)確保注意力圖為非負(fù)。由于輸入信息流等于輸出信息流,因此在信息流側(cè)保持受限時(shí)引入競(jìng)爭(zhēng)或分配機(jī)制。
當(dāng)匯聚側(cè)的輸出信息流保持恒定時(shí),匯聚的輸入信息流向量I=(I1,I2,…,In-1,In)如式(6)所示。其中I表示注意力權(quán)重矩陣的行和。為了在信息流的源內(nèi)引入競(jìng)爭(zhēng)機(jī)制,將注意力機(jī)制與外部網(wǎng)絡(luò)的交互信息量設(shè)為1,稱之為匯聚的流入守恒。因此,源的流出信息向量[O'=O′1,O′2,…,O′n-1,O′n]如式(7)所示,表示源的重要性。
當(dāng)源的流入保持恒定時(shí),源的流出信息向量O=(O1,O2,[…],Om-1,Om)如公式(8)所示。其中O表示注意力權(quán)重矩陣的列和。為了在匯內(nèi)引入分配機(jī)制,將注意力機(jī)制與外部網(wǎng)絡(luò)的交互信息量設(shè)為1,稱之為源的流出守恒。因此,匯的流入信息向量 [I'=I′1,I′2,…,I′m-1,I′m]如公式(9)所示,表示匯需要獲取的信息量。
基于上述守恒的信息流可以獲得包含源競(jìng)爭(zhēng)機(jī)制和匯分配機(jī)制的流動(dòng)注意力,如公式(10)所示。
式中[Θ]表示逐元素乘法。最后,執(zhí)行最終的投影操作并獲得輸出特征R′,即200維度的66個(gè)CNN向量。
3" 實(shí)驗(yàn)過(guò)程
3.1" 評(píng)估措施
為了評(píng)估所提出的DeepCancer的性能,采用了多種評(píng)估措施。這些指標(biāo)包含準(zhǔn)確率、F1分?jǐn)?shù)、受試者工作特征(ROC)曲線和區(qū)域下的精確率?召回率(AUPR)等。[Accuracy]和[F1]公式如下:
3.2" 實(shí)驗(yàn)設(shè)置
在本研究中,DeepCancer模型采用TensorFlow框架和Adam優(yōu)化器。具體的實(shí)驗(yàn)環(huán)境與配置如表2所示。
3.3" DeepCancer在髓母細(xì)胞瘤中的表現(xiàn)
在本研究中,一旦切換區(qū)域被準(zhǔn)確確定后,從數(shù)據(jù)集中留出兩個(gè)完整樣本的讀?。╮eads)數(shù)據(jù)作為測(cè)試集,以便在后續(xù)對(duì)模型的效能進(jìn)行評(píng)估。接下來(lái),為了構(gòu)建一個(gè)有效的訓(xùn)練和驗(yàn)證體系,從剩余的80%樣本中隨機(jī)抽取了75%用于構(gòu)建訓(xùn)練集,而剩下的25%則被用作驗(yàn)證集。為了確保模型訓(xùn)練的可靠性并減少深度學(xué)習(xí)方法固有的隨機(jī)性,對(duì)訓(xùn)練過(guò)程進(jìn)行了10次的隨機(jī)重復(fù)。
為了全面評(píng)估DeepCancer模型的性能,采用受試者工作特征(ROC)曲線和區(qū)域下的精確率?召回率(AUPR)等關(guān)鍵指標(biāo)。這些評(píng)估方法主要用于衡量DeepCancer模型在區(qū)分髓母細(xì)胞瘤患者和正常人群中cfDNA讀取數(shù)據(jù)的能力。10次隨機(jī)實(shí)驗(yàn)結(jié)果如圖3所示。圖中展示了模型預(yù)測(cè)的準(zhǔn)確性和可靠性,以及其在實(shí)際應(yīng)用中的潛在價(jià)值。
3.4" 消融實(shí)驗(yàn)
為了具體量化流動(dòng)注意力機(jī)制對(duì)模型性能的影響,設(shè)計(jì)并進(jìn)行了消融實(shí)驗(yàn)。在這些實(shí)驗(yàn)中,移除了模型中的流動(dòng)注意力層,以便觀察并比較模型性能在有無(wú)此機(jī)制時(shí)的差異。具體來(lái)說(shuō),本文關(guān)注模型在包含流動(dòng)注意力機(jī)制和不包含該機(jī)制情況下的受試者工作特征曲線(AUROC)和區(qū)域下的精確率?召回率曲線(AUPR)表現(xiàn)。實(shí)驗(yàn)結(jié)果顯示,去除流動(dòng)注意力層后,模型在癌癥檢測(cè)的AUROC下降了約2.7%,AUPR下降了2.8%,結(jié)果如圖4所示。
這一性能的下降清楚地證明了流動(dòng)注意力機(jī)制在提升模型處理和理解復(fù)雜癌癥數(shù)據(jù)集方面的關(guān)鍵作用,尤其是在挖掘和利用DNA序列與甲基化數(shù)據(jù)的深層相關(guān)性方面。
將消融實(shí)驗(yàn)前后的模型進(jìn)行了對(duì)比,結(jié)果如表3所示。
4" 結(jié)" 論
本文提出并實(shí)現(xiàn)了一種名為DeepCancer的深度學(xué)習(xí)模型,通過(guò)綜合分析cfDNA WGBS數(shù)據(jù)來(lái)提高髓母細(xì)胞瘤的檢測(cè)準(zhǔn)確性,AUROC及AUPR值分別達(dá)到了99.73%和99.72%。整個(gè)研究包含多個(gè)關(guān)鍵階段,包括數(shù)據(jù)預(yù)處理、深度學(xué)習(xí)特征提取、特征融合及降維、融合特征集的選擇和分類。這一過(guò)程不僅展示了深度學(xué)習(xí)技術(shù)在復(fù)雜生物數(shù)據(jù)解讀中的潛力,而且還突出了甲基化信息在提高癌癥檢測(cè)準(zhǔn)確性方面的重要性。
通過(guò)對(duì)比實(shí)驗(yàn),證實(shí)了結(jié)合DNA序列和甲基化信息的DeepCancer模型在多個(gè)性能指標(biāo)上,相較于僅使用DNA序列信息的模型,AUROC及AUPR值分別提升了2.7%及2.8%。此外,實(shí)驗(yàn)結(jié)果還揭示了流動(dòng)注意力機(jī)制在提升模型性能方面的關(guān)鍵作用。流動(dòng)注意力機(jī)制的核心特點(diǎn)在于其能夠動(dòng)態(tài)地分配處理資源,尤其是在處理復(fù)雜的癌癥數(shù)據(jù)集時(shí)。最后還通過(guò)消融實(shí)驗(yàn)進(jìn)一步驗(yàn)證了流動(dòng)注意力層對(duì)于模型性能的貢獻(xiàn)。
綜合來(lái)看,DeepCancer模型的表現(xiàn)優(yōu)異,提供了一種有效的工具,能夠協(xié)助病理學(xué)家更準(zhǔn)確地識(shí)別髓母細(xì)胞瘤。此外,該模型還有助于減輕病理學(xué)家在手動(dòng)診斷過(guò)程中的負(fù)擔(dān),加快分類過(guò)程,實(shí)現(xiàn)高精度同時(shí)降低診斷成本,并為患者的后續(xù)治療和管理提供支持。未來(lái)的研究將集中于結(jié)合更多特征與深度學(xué)習(xí)技術(shù),以及探索其他深度學(xué)習(xí)技術(shù)在腫瘤分析中的應(yīng)用。
參考文獻(xiàn)
[1] POLLACK I F, JAKACKI R I. Childhood brain tumors: epidemiology, current management and future directions [J]. Nature reviews neurology, 2011, 7(9): 495?506.
[2] PONNUSAMY R, SATHIAMOORTHY S. Bleeding and z?line classification by DWT based SIFT using KNN and SVM [J]. Advances in intelligent systems and computing, 2020, 1108: 679?688.
[3] AILION A S, HORTMAN K, KING T Z. Childhood brain tumors: a systematic review of the structural neuroimaging literature [J]. Neuropsychology review, 2017, 27(1/2): 220?244.
[4] Lü M, ZHOU M, SHPANSKAYA K, et al. MR imaging?based radiomic signatures of distinct molecular subgroups of medulloblastoma [J]. American journal of neuroradiology, 2018, 40(1): 154?161.
[5] ARSENI C, CIUREA A V. Statistical survey of 276 cases of medulloblastoma (1935–1978) [J]. Acta neurochirurgica, 1981, 57(3/4): 159?162.
[6] POLEDNAK A P, FLANNERY J T. Brain, other central nervous system, and eye cancer [J]. Cancer, 1995, 75(S1): 330?337.
[7] HOVESTADT V, AYRAULT O, SWARTLING F J, et al. Medulloblastomics revisited: biological and clinical insights from thousands of patients [J]. Nature reviews cancer, 2024, 20: 42?56.
[8] DAVIS F G, FREELS S, GRUTSCH J, et al. Survival rates in patients with primary malignant brain tumors stratified by patient age and tumor histological type: an analysis based on surveillance, epidemiology, and end results (SEER) data, 1973?1991 [J]. Journal of neurosurgery, 1998, 88(1): 1?10.
[9] TOMOHISA F, AKIRA T, YOSHIAKI A, et al. Primary brain tumors in children under age 3 years [J]. Brain tumor pathology, 1998, 15(1): 7.
[10] CROWLEY E, DI NICOLANTONIO F, LOUPAKIS F, et al. Liquid biopsy: monitoring cancer?genetics in the blood [J]. Nature reviews clinical oncology, 2013, 10(8): 472.
[11] BAYLIN S B, ESTELLER M, ROUNTREE M R, et al. Aberrant patterns of DNA methylation, chromatin formation and gene expression in cancer [J]. Human molecular genetics, 2001, 10(7): 687?692.
[12] SCHWARZENBACH H, HOON D S B, PANTEL K. Cell?free nucleic acids as biomarkers in cancer patients [J]. Nature reviews cancer clinical oncology, 2011, 1(6): 426.
[13] WAN J C M, MASSIE C, GARCIA?CORBACHO J, et al. Liquid biopsies come of age: towards implementation of circulating tumour DNA [J]. Nature reviews cancer, 2017, 17(4): 223.
[14] BETTEGOWDA C, SAUSEN M, LEARY R J, et al. Detection of circulating tumor DNA in early? and late?stage human malignancies [J]. Science translational medicine, 2014, 6: 224.
[15] ABBOSH C, BIRKBAK N J, WILSON G A, et al. Phylo?genetic ctDNA analysis depicts early?stage lungcancer evolution [J]. Nature, 2017, 545: 446?451.
[16] NEWMAN A M, BRATMAN S V, TO J, et al. An ultrasen?sitive method for quantitating circulating tumor DNA with broad patient coverage [J]. Nature medicine, 2014, 20(5): 548.
[17] HEITZER E, HAQUE I S, ROBERTS C E S, et al. Current and future perspectives of liquid biopsies in genomics?driven oncology [J]. Nature reviews neuroscience, 2019(2): 71?88.
[18] BURRELL R A, MCGRANAHAN N, BARTEK J, et al. The causes and consequences of genetic heterogeneity in cancer evolution [J]. Nature, 2013, 501: 338?345.
[19] CHICARD M, BOYAULT S, COLMET DAAGE L, et al. Genomic copy number profiling using circulating free tumor DNA highlights heterogeneity in neuroblastoma [J]. Clinical cancer research an official journal of the American association for cancer research, 2016, 22: 5564?5573.
[20] WEISS G J, BECK J, BRAUN D P, et al. Tumor cell?free DNA copy number instability predicts therapeutic response to immunotherapy [J]. Clinical cancer research, 2017, 23(17): 5074?5081.
[21] SNYDER M, KIRCHER M, HILL A, et al. Cell?free DNA comprises an invivo nucleosome footprint that informs its tissues?of?origin [J]. Cell, 2016, 164(1/2): 57?68.
[22] CRISTIANO S, LEAL A, PHALLEN J, et al. Genome?wide cell free DNA fragmentation in patients with cancer [J]. Nature, 2019, 570: 385?389.
[23] FEINBERG A P, OHLSSON R, HENIKOFF S. The epigenetic progenitor origin of human cancer [J]. Nature reviews genetics, 2006, 7(1): 21?33.
[24] ALVAREZ H, OPALINSKA J, ZHOU L, et al. Widespread hypomethylation occurs early and synergizes with gene amplification during esophageal carcinogenesis [J]. PLoS genetics, 2011, 7: e1001356.
[25] WARTON K, SAMIMI G. Methylation of cell?free circulating DNA in the diagnosis of cancer [J]. Frontiers in molecular biosciences, 2015, 2: 13.
[26] CHAN K C A, JIANG P, CHAN C W M, et al. Noninvasive detection of cancer?associated genome?wide hypomethylation and copy number aberrations by plasma DNA bisulfite sequencing [J]. Pnas, 2013, 110(47): 18761?18768.
[27] ADALSTEINSSON V A, HA G, FREEMAN S S, et al. Scalable whole?exome sequencing of cell?free DNA reveals high concordance with metastatic tumors [J].Nature communications, 2017, 8(1): 1324.
[28] FENG H, JIN P, WU H. Disease prediction by cell?free DNA methylation [J]. Briefings in bioinformatics, 2019, 20: 585?597.
[29] KANG S, LI Q, CHEN Q, et al. Cancer locator: non?invasive cancer diagnosis and tissue?of?origin prediction using methylation profiles of cell?free DNA [J]. Genome biology, 2017, 18(1): 53.
[30] LI W, LI Q, KANG S, et al. Cancer detector: ultrasensitive and non?invasive cancer detection at the resolution of individual reads using cell?free DNA methylation sequencing data [J]. Plos one, 2018, 13(5): 1?10.
[31] LIENERT F, WIRBELAUER C, SOM I, et al. Identification of genetic elements that autonomously determine DNA methylation states [J]. Nature genetics, 2011, 43: 1091?1097.
[32] CEDAR H, BERGMAN Y. Programming of DNA methylation patterns [J]. Annual review of biochemistry, 2012, 81(1): 97?117.
[33] LI J, ZHAO S, LEE M, et al. Reliable tumor detection by whole?genome methylation sequencing of cell?free DNA in cerebrospinal fluid of pediatric medulloblastoma [J]. Science advances, 2020, 6(42): 102.
[34] GUO W, FIZIEV P, YAN W, et al. BS?Seeker2: a versatile aligning pipeline for bisulfite sequencing data [J]. BMC genomics, 2013, 14: 774.
[35] LIGGETT T, MELNIKOV A, YI Q L, et al. Differential methylation of cell?free circulating DNA among patients with pancreatic cancer versus chronic pancreatitis [J]. Cancer, 2010, 116: 1674?1680.
[36] JüHLING F, KRETZMER H, BERNHART S H, et al. Metilene: fast and sensitive calling of differentially methylated regions from bisulfite sequencing data [J]. Genome research, 2016, 26: 256?262.
[37] LI S, GARRETT?BAKELMAN F E, AKALIN A, et al. An optimized algorithm for detecting and annotating regional differential methylation [J]. BMC bioinformatics, 2013, 14: S10.
[38] HEBESTREIT K, DUGAS M, KLEIN H U. Detection of significantly differentially methylated regions in targeted bisulfite sequencing data [J]. Bioinformatics, 2013, 29: 1647?1653.
[39] WU H, XU T, FENG H, et al. Detection of differentially methylated regions from whole?genome bisulfite sequencing data without replicates [J]. Nucleic acids research, 2015, 43: e141.