張舒瑩,韓鑫胤,何小雨,袁丹陽(yáng),欒海晶,李瑞琳,何佳茵,牛北方*
1.中國(guó)科學(xué)院計(jì)算機(jī)網(wǎng)絡(luò)信息中心,北京 100190
2.中國(guó)科學(xué)院大學(xué),北京 100049
《2020全球癌癥報(bào)告》顯示,全球癌癥病例數(shù)呈增長(zhǎng)趨勢(shì),癌癥已對(duì)人類(lèi)健康產(chǎn)生了重大威脅。探究癌癥的產(chǎn)生原因,可以對(duì)癌癥進(jìn)行預(yù)防并且有助于癌癥患者的診斷和治療。研究證實(shí),癌癥源于基因突變的不斷積累,基因突變表現(xiàn)為基因序列上發(fā)生改變,包括堿基的點(diǎn)突變、堿基序列的插入和刪除變異等[1]。
人類(lèi)基因組中有一些特殊的短串聯(lián)重復(fù)序列,被稱(chēng)為微衛(wèi)星(microsatellites,MS)。當(dāng)MS序列發(fā)生插入或刪除突變且無(wú)法被修復(fù)時(shí),則會(huì)產(chǎn)生微衛(wèi)星不穩(wěn)定性(microsatellite instability,MSI)現(xiàn)象。1993年,MSI現(xiàn)象在遺傳性結(jié)直腸癌中被發(fā)現(xiàn)[2]。后續(xù)的研究表明,除了結(jié)直腸癌外,子宮內(nèi)膜癌、胃癌、肺癌和食管癌等多種癌癥中均有不同比例的MSI現(xiàn)象發(fā)生[3-6]。MSI檢測(cè)可以對(duì)癌癥患者進(jìn)行遺傳篩查、預(yù)后判斷以及免疫治療等。
目前,已經(jīng)有多種MSI檢測(cè)的方法,包括傳統(tǒng)的生物學(xué)實(shí)驗(yàn)方法以及基于高通量測(cè)序的方法[7]。隨著人工智能的發(fā)展,機(jī)器學(xué)習(xí)逐漸滲入生物信息學(xué)領(lǐng)域并發(fā)揮巨大作用[8-10]。基于機(jī)器學(xué)習(xí)的MSI檢測(cè)方法,借助機(jī)器學(xué)習(xí)的強(qiáng)大學(xué)習(xí)能力,可以對(duì)數(shù)據(jù)進(jìn)行多維度的分析,找出影響MSI的主要因素。
MS是一種以1-6個(gè)堿基為單位,重復(fù)次數(shù)為10-60次的短核苷酸序列[11]。MSI是指在DNA復(fù)制過(guò)程中由于滑移引起的MS序列長(zhǎng)度改變的現(xiàn)象[12]。在正常情況下,細(xì)胞中的錯(cuò)配修復(fù)(mismatch repair,MMR)系統(tǒng)可以修復(fù)由于滑移導(dǎo)致的堿基錯(cuò)配,當(dāng)MMR通路基因發(fā)生突變或甲基化則會(huì)導(dǎo)致MMR系統(tǒng)出現(xiàn)錯(cuò)配修復(fù)缺陷(deficient mismatch repair,dMMR),此時(shí)堿基錯(cuò)配無(wú)法被修復(fù),從而產(chǎn)生MSI[13]。根據(jù)不穩(wěn)定程度,MSI可以劃分為:微衛(wèi)星穩(wěn)定性(microsatellite stability,MSS),低頻微衛(wèi)星不穩(wěn)定性(MSI-low,MSI-L)和高頻微衛(wèi)星不穩(wěn)定性(MSI-high,MSI-H)。在研究中通常將MSI-L作為MSS處理[14-15]。MSI現(xiàn)象在多種癌癥中均有出現(xiàn),其狀態(tài)檢測(cè)在臨床上有重要意義。
MSI的檢測(cè)在林奇綜合征遺傳篩查中發(fā)揮重要作用。林奇綜合征又稱(chēng)為遺傳性非息肉病性結(jié)直腸癌,源于MMR基因發(fā)生胚系突變[16]。林奇綜合征具有家族遺傳傾向,該群體患有結(jié)直腸癌的概率可達(dá)80%[17-18]。除此之外,該群體也易患其它癌癥[19-20]。因此,建議對(duì)所有癌癥患者進(jìn)行MSI檢測(cè),以便篩查林奇綜合征[21],如果確診林奇綜合征可及早采取治療,并對(duì)其直系親屬進(jìn)行篩查和早期干預(yù)。
MSI狀態(tài)的檢測(cè)還有助于Ⅱ期結(jié)直腸癌患者的預(yù)后判斷。相對(duì)于MSS結(jié)直腸癌群體,MSI-H群體的總生存期及無(wú)進(jìn)展生存期有較為顯著的延長(zhǎng)[14,22-23]。另有研究表明,對(duì)Ⅱ/Ⅲ期結(jié)直腸癌患者使用5-氟尿嘧啶藥物會(huì)影響其預(yù)后,縮短其總生存期[24]。因此,鑒于MSI-H的Ⅱ期結(jié)直腸癌患者具有較好預(yù)后,不建議對(duì)其使用氟尿嘧啶類(lèi)的藥物進(jìn)行輔助化療[25]。
MSI是重要的免疫治療生物標(biāo)志物。MSI-H/dMMR癌癥患者體內(nèi)攜帶大量的可被免疫系統(tǒng)識(shí)別的新生抗原,這使得患者對(duì)免疫檢查點(diǎn)阻斷療法敏感[26-27]。大量研究證實(shí),對(duì)于MSI-H癌癥患者,使用免疫檢查點(diǎn)抑制劑(PD-1/PD-L1抗體)治療可取得較好的療效[28-30]。MSI已成為重要的免疫治療生物標(biāo)志物,對(duì)患者進(jìn)行MSI檢測(cè)有助于指導(dǎo)患者后續(xù)治療。
常見(jiàn)的MSI檢測(cè)方法主要分為兩大類(lèi),第一類(lèi)是傳統(tǒng)的生物學(xué)實(shí)驗(yàn)的方法,第二類(lèi)是基于高通量測(cè)序的方法。傳統(tǒng)的生物學(xué)實(shí)驗(yàn)方法包括多重?zé)晒釶CR法(MSI-PCR)和蛋白免疫組織化學(xué)法(MMRIHC)[31-32]。MSI-PCR使用多重?zé)晒釶CR結(jié)合毛細(xì)管電泳的方法,對(duì)腫瘤組織和正常組織中分離出的DNA序列進(jìn)行擴(kuò)增,比較擴(kuò)增后的MS位點(diǎn)突變情況,進(jìn)而判定樣本的MSI狀態(tài)。通常檢測(cè)的位點(diǎn)是Bethesda panel中的5個(gè)MS位點(diǎn),以及Promega分析系統(tǒng)提出的7個(gè)MS位點(diǎn)。MMR-IHC通常檢測(cè)腫瘤組織中的4個(gè)MMR蛋白表達(dá)情況來(lái)查看MMR系統(tǒng)是否發(fā)生故障,從而判斷樣本MSI狀態(tài)。相比于MSI-PCR,MMR-IHC操作較簡(jiǎn)單,成本較低,可廣泛應(yīng)用于臨床檢測(cè)中,但其需要人眼閱片計(jì)數(shù),受個(gè)人主觀因素影響較大。
隨著高通量測(cè)序技術(shù)的快速發(fā)展,以全基因組測(cè)序(WGS)、全外顯子組測(cè)序(WES)以及靶向測(cè)序(TS)為主的高通量數(shù)據(jù)已納入常規(guī)的生物信息學(xué)研究中。基于高通量測(cè)序的檢測(cè)方法比生物學(xué)實(shí)驗(yàn)方法具有明顯的優(yōu)勢(shì):(1)不需要額外的臨床測(cè)試和樣本處理,對(duì)于不具備生物學(xué)實(shí)驗(yàn)條件的團(tuán)隊(duì)也可進(jìn)行MSI檢測(cè);(2)可同時(shí)捕獲多段基因序列,有助于從多個(gè)維度評(píng)估樣本MSI狀態(tài),極大提高診斷效率和檢測(cè)的靈敏性;(3)不同于MSI-PCR只檢測(cè)個(gè)位數(shù)的MS位點(diǎn),基于高通量測(cè)序的檢測(cè)方法覆蓋的MS位點(diǎn)數(shù)以千計(jì),可以進(jìn)行更加深入和全面的評(píng)估,并且可提供單個(gè)MS位點(diǎn)的定量信息。
目前,已發(fā)布了多種使用測(cè)序數(shù)據(jù)進(jìn)行MSI檢測(cè)的方法,比如MSIsensor[33]、mSINGS[34]和MANTIS[35]等。其中,MSIsensor已經(jīng)被成功應(yīng)用于FDA批準(zhǔn)的基于高通量測(cè)序的腫瘤檢測(cè)方法MSK-IMPACT中[36]。這些方法分別采用卡方檢驗(yàn)、Z-score和平均距離等傳統(tǒng)的統(tǒng)計(jì)學(xué)方法評(píng)估MS位點(diǎn)穩(wěn)定性,它們雖然可以判定MSI狀態(tài),但是缺乏多維度的考量。測(cè)序數(shù)據(jù)本身蘊(yùn)含豐富的生物學(xué)信息[37],傳統(tǒng)的統(tǒng)計(jì)學(xué)方法無(wú)法高效處理復(fù)雜的海量數(shù)據(jù),可能會(huì)忽略某些影響MSI判定的關(guān)鍵要素。機(jī)器學(xué)習(xí)作為傳統(tǒng)統(tǒng)計(jì)學(xué)的延伸,可以從大量的數(shù)據(jù)中抽取關(guān)鍵特征進(jìn)行迭代學(xué)習(xí),并且在此過(guò)程中屏蔽復(fù)雜的細(xì)節(jié)。機(jī)器學(xué)習(xí)在MSI的探索中發(fā)揮了巨大的作用,同時(shí)也為MSI檢測(cè)提供了新角度和新思路。
MSI檢測(cè)在機(jī)器學(xué)習(xí)領(lǐng)域是一個(gè)二分類(lèi)任務(wù),使用決策樹(shù)、支持向量機(jī)、邏輯回歸等常用的機(jī)器學(xué)習(xí)算法可以高效的解決此類(lèi)問(wèn)題。本文對(duì)目前基于機(jī)器學(xué)習(xí)的MSI檢測(cè)方法進(jìn)行了充分的調(diào)研,涵蓋了主流的檢測(cè)方法,比較了各個(gè)方法使用數(shù)據(jù)集的測(cè)序方法和最終采用的機(jī)器學(xué)習(xí)算法,以及該數(shù)據(jù)集在對(duì)應(yīng)機(jī)器學(xué)習(xí)模型中的檢測(cè)效果(表1)。下面將分別介紹這些方法結(jié)合機(jī)器學(xué)習(xí)算法進(jìn)行MSI狀態(tài)檢測(cè)的流程。
表1 基于機(jī)器學(xué)習(xí)的MSI檢測(cè)方法Table 1 MSI detection methods based on machine learning
(1)MSIseq
遠(yuǎn)程監(jiān)測(cè)設(shè)備,即水庫(kù)監(jiān)測(cè)終端(太陽(yáng)能供電型)。負(fù)責(zé)采集現(xiàn)場(chǎng)檢測(cè)設(shè)備檢測(cè)到的數(shù)據(jù)和圖片信息,并通過(guò)GPRS網(wǎng)絡(luò)將現(xiàn)場(chǎng)信息傳送給監(jiān)測(cè)中心。
MSIseq算法考慮到dMMR會(huì)影響單核苷酸替代(single nucleotide substitution,SNS)比率和小片段插入刪除(indel)比率,因此從SNS和indel這兩個(gè)突變信息入手,構(gòu)建了9個(gè)待選特征,具體含義如表2中(1-9行)所示,其中括號(hào)內(nèi)表示的是該特征在MSIpred中的標(biāo)記。
表2 MSIseq和MSIpred的特征Table 2 Features of MSIseq and MSIpred
序號(hào)特征含義10Frame_Shift_Del導(dǎo)致ORF偏移的刪除比率11Frame_Shift_Ins導(dǎo)致ORF偏移的插入比率12In_Frame_DelORF沒(méi)有偏移的刪除比率13In_Frame_InsORF沒(méi)有偏移的插入比率14Missense_Mutation錯(cuò)義突變比率15Nonsense_Mutation無(wú)義突變比率16Silent沉默突變比率17Splice_Site剪接位點(diǎn)的突變比率183’UTR3’UTR區(qū)域突變比率193’Flank3’Flank區(qū)域突變比率205’UTR5’UTR區(qū)域突變比率215’Flank5’Flank區(qū)域突變比率22Intron內(nèi)含子區(qū)域突變比率
該研究共收集了526例多癌種的WES突變數(shù)據(jù),這些樣本也使用MSI-PCR進(jìn)行了狀態(tài)測(cè)定。在實(shí)驗(yàn)中,分別使用決策樹(shù)、邏輯回歸、隨機(jī)森林和貝葉斯算法,采用k折交叉驗(yàn)證法(k=5)進(jìn)行訓(xùn)練,將驗(yàn)證結(jié)果與MSI-PCR測(cè)定的結(jié)果進(jìn)行對(duì)照,其一致性分別為98.6%、96.5%、98.1%和96.7%。從結(jié)果上看,決策樹(shù)模型的準(zhǔn)確率最高。
進(jìn)一步研究發(fā)現(xiàn),在決策樹(shù)模型中,特征S.ind對(duì)結(jié)果的判定取決定性作用,即只需這一個(gè)特征就可以將MSI-H和MSS樣本區(qū)分開(kāi),當(dāng)S.ind>0.395時(shí),樣本被標(biāo)記為MSI-H,否則為MSS。出于準(zhǔn)確率考慮,該研究最終選取只具有一個(gè)特征(S.ind)的決策樹(shù)算法進(jìn)行MSI狀態(tài)的檢測(cè),該模型在測(cè)試集中的準(zhǔn)確性高達(dá)98.8%。
該方法選取解釋性較強(qiáng)的決策樹(shù)算法構(gòu)建檢測(cè)流程,其輸入的是MAF格式的突變數(shù)據(jù),相較于mSINGS等需要BAM格式數(shù)據(jù)的方法節(jié)省了大量的計(jì)算資源。從測(cè)試結(jié)果上看,該方法判定樣本MSI狀態(tài)的準(zhǔn)確率很高,但是其只使用一個(gè)特征參與模型訓(xùn)練和預(yù)測(cè),會(huì)產(chǎn)生過(guò)擬合現(xiàn)象。
(2)MSIpred
與MSIseq類(lèi)似,MSIpred也是基于突變信息構(gòu)建特征。不同的是,為了防止過(guò)擬合,MSIpred在MSIseq的9個(gè)待選特征基礎(chǔ)上,又新增了13個(gè)特征,如表2中所示。其中第1-9行特征與MSIseq的待選特征一致,描述的是SNS和indel信息,10-22行是新增的特征,描述了突變有害程度的關(guān)鍵信息。
該方法的輸入同樣是MAF格式的突變數(shù)據(jù),可以節(jié)省計(jì)算資源,提高檢測(cè)效率。除此之外,在MSIseq研究的基礎(chǔ)上,選取具有22個(gè)特征的支持向量機(jī)算法構(gòu)建檢測(cè)流程,彌補(bǔ)了MSIseq的不足之處,減少了過(guò)擬合風(fēng)險(xiǎn)。
(3)MOSAIC
MOSAIC從MS位點(diǎn)穩(wěn)定性出發(fā),根據(jù)MS位點(diǎn)的不穩(wěn)定情況判定樣本的MSI狀態(tài)。該方法需要使用腫瘤樣本(Tumor,T)配對(duì)的正常樣本(Normal,N)作為參照。首先獲得單個(gè)MS位點(diǎn)在T和N中的等位基因分布數(shù)據(jù),由于MS位點(diǎn)不穩(wěn)定會(huì)伴隨著MS序列長(zhǎng)度發(fā)生波動(dòng),因此對(duì)比T和N中的等位基因支持的reads數(shù)即可評(píng)估此MS位點(diǎn)的穩(wěn)定性。
該研究共收集了617例多癌種T-N配對(duì)的WES測(cè)序數(shù)據(jù),根據(jù)MSI-PCR的結(jié)果將其劃分為兩組,一組為MSI-H的T-N樣本,一組為MSS的T-N樣本,分別對(duì)這兩組樣本中的MS位點(diǎn)進(jìn)行穩(wěn)定性分析。該研究設(shè)定以N中的等位基因分布為基準(zhǔn),如果T中出現(xiàn)在N中沒(méi)有的等位基因,則該MS位點(diǎn)為不穩(wěn)定的位點(diǎn)。該研究使用Fisher精確檢驗(yàn)評(píng)估了每個(gè)MS位點(diǎn)在MSI-H和MSS樣本中的區(qū)分能力,對(duì)在MSI-H樣本中最顯著不穩(wěn)定的MS位點(diǎn)進(jìn)行了排名,其中位于DEFB105A/B基因上的chr.8:7679723-7679741位點(diǎn)排在第一位,在該研究中被記作defbsite。
基于以上分析,該研究結(jié)合前100個(gè)在MSI-H樣本中顯著不穩(wěn)定的MS位點(diǎn)(包括defbsite)和另外4個(gè)待選特征進(jìn)行分析(表3)。采用決策樹(shù)算法進(jìn)行訓(xùn)練,并使用留一法進(jìn)行驗(yàn)證,篩選可以預(yù)測(cè)MSI狀態(tài)的最佳特征,結(jié)果顯示peak_avg和defbsite是最顯著的兩個(gè)特征,當(dāng)只使用這兩個(gè)特征進(jìn)行訓(xùn)練時(shí),結(jié)果準(zhǔn)確率達(dá)96.6%。
表3 MOSAIC的待選特征Table 3 Features of MOSAIC
該研究對(duì)單個(gè)MS位點(diǎn)進(jìn)行穩(wěn)定性分析,可以提供位點(diǎn)的定量信息,獲得影響樣本MSI狀態(tài)的顯著MS位點(diǎn)集合,有助于MSI檢測(cè)的后續(xù)探索。該方法只適用于具有配對(duì)正常樣本(T-N)的情況,如果沒(méi)有可參照的正常樣本,則無(wú)法使用該方法進(jìn)行MSI檢測(cè)。
(4)MIRMMR
不同于以上三種方法,MIRMMR不再局限于根據(jù)MS序列的插入刪除情況來(lái)評(píng)估樣本MSI狀態(tài),而是從MSI發(fā)生的根本原因出發(fā),分析35個(gè)MMR通路基因的甲基化水平和突變數(shù)據(jù),構(gòu)建邏輯回歸模型預(yù)測(cè)樣本狀態(tài)。該方法提供5個(gè)模塊,其中三個(gè)模塊(univariate、stepwise和penalized)代表三種構(gòu)建模型的策略,另有一個(gè)預(yù)測(cè)模塊(predict)和一個(gè)比較模塊(compare)。
Univariate模塊將對(duì)每個(gè)單變量建立邏輯回歸模型,最終匯集每個(gè)單變量的模型供后續(xù)使用。Stepwise模塊對(duì)特征進(jìn)行篩選,選擇最佳的特征組合參與訓(xùn)練。Penalized模塊采用了彈性網(wǎng)絡(luò)回歸模型,使用k折交叉驗(yàn)證的方法尋找最優(yōu)的參數(shù)(k=10),該模塊是MIRMMR默認(rèn)使用的策略。Predict模塊使用前期訓(xùn)練好的模型進(jìn)行預(yù)測(cè),給出MSI-H的概率值,由用戶(hù)權(quán)衡靈敏性和特異性劃分判定MSI狀態(tài)的基準(zhǔn)線。Compare模塊用來(lái)比較不同策略下的結(jié)果,繪制出對(duì)應(yīng)的ROC曲線以及計(jì)算AUC值。
MIRMMR提供了三種構(gòu)建模型的策略,用戶(hù)可使用多種策略構(gòu)建檢測(cè)模型,驗(yàn)證檢測(cè)結(jié)果。MIRMMR的研究對(duì)象是35個(gè)MMR通路基因,提供了一個(gè)不依賴(lài)于MS位點(diǎn)檢測(cè)MSI的新方法。
(5)MIAmS
MIAmS的檢測(cè)流程主要分兩步,第一步是MIAmS_learn,在這一步驟中會(huì)對(duì)MS位點(diǎn)進(jìn)行篩選和標(biāo)注標(biāo)簽,當(dāng)MS位點(diǎn)的測(cè)序深度不能滿(mǎn)足最小測(cè)序深度限制時(shí),該位點(diǎn)會(huì)被過(guò)濾掉,默認(rèn)的最小測(cè)序深度是300X。第二步是MIAmS_tag,對(duì)樣本MSI狀態(tài)進(jìn)行檢測(cè),在這一步中,MIAmS工具提供了兩種檢測(cè)模式,第一種借助mSINGS進(jìn)行評(píng)估,第二種使用機(jī)器學(xué)習(xí)的方式進(jìn)行評(píng)估。
mSINGS模式是采用的傳統(tǒng)統(tǒng)計(jì)方法,首先借助MSS樣本計(jì)算MS位點(diǎn)的等位基因個(gè)數(shù)的平均數(shù)mean和方差SD,以[mean+3×SD]作為當(dāng)前MS位點(diǎn)的基線,在測(cè)試過(guò)程中,如果MS位點(diǎn)的等位基因個(gè)數(shù)超過(guò)對(duì)應(yīng)的基線,那么這個(gè)位點(diǎn)被判別為不穩(wěn)定,最終根據(jù)樣本中不穩(wěn)定的MS位點(diǎn)個(gè)數(shù)在所有MS位點(diǎn)中的占比情況判斷樣本MSI狀態(tài)。
機(jī)器學(xué)習(xí)模式默認(rèn)使用支持向量機(jī)模型,可使用classifier參數(shù)更改為決策樹(shù)、邏輯回歸和隨機(jī)森林等模型。該方法是結(jié)合MS位點(diǎn)的等位基因穩(wěn)定和不穩(wěn)定分布模型對(duì)該位點(diǎn)進(jìn)行評(píng)估,每個(gè)MS位點(diǎn)會(huì)得到一個(gè)分?jǐn)?shù),以樣本中所有MS位點(diǎn)得分的平均值判斷樣本MSI狀態(tài)。
MIAmS包含基于傳統(tǒng)統(tǒng)計(jì)學(xué)以及基于機(jī)器學(xué)習(xí)的兩種檢測(cè)方式,并提供友好的圖形化界面對(duì)結(jié)果進(jìn)行展示,有助于從多個(gè)角度評(píng)估樣本MSI狀態(tài)。
以上方法使用機(jī)器學(xué)習(xí)算法對(duì)MSI狀態(tài)檢測(cè)進(jìn)行了多方面的探索。MSIseq和MSIpred使用突變數(shù)據(jù)構(gòu)建訓(xùn)練特征,MSIseq最終只使用MS序列小片段插入刪除情況判定樣本狀態(tài)。為了更全面的探究突變對(duì)MSI狀態(tài)的影響,MSIpred對(duì)突變數(shù)據(jù)進(jìn)行了更詳細(xì)的分類(lèi),最終構(gòu)建了22個(gè)特征進(jìn)行檢測(cè)。MOSAIC和MIAmS從單個(gè)MS位點(diǎn)出發(fā),檢測(cè)MS序列的波動(dòng)情況評(píng)估該位點(diǎn)的穩(wěn)定性,進(jìn)而判定樣本狀態(tài)。MIRMMR從MSI產(chǎn)生的原因入手,根據(jù)MMR通路基因的甲基化水平和突變情況構(gòu)建機(jī)器學(xué)習(xí)模型預(yù)測(cè)樣本狀態(tài)??傮w而言,基于機(jī)器學(xué)習(xí)的MSI檢測(cè)方法一般從MSI發(fā)生的原因或者M(jìn)SI伴隨的現(xiàn)象入手,根據(jù)MMR通路基因的突變信息或者M(jìn)S序列區(qū)域的插入刪除情況來(lái)預(yù)測(cè)樣本的MSI狀態(tài)。
本文首先介紹了MSI產(chǎn)生的原因以及其狀態(tài)檢測(cè)在臨床上的重要性,并對(duì)目前常用的檢測(cè)方法進(jìn)行了介紹,歸納了基于高通量測(cè)序的MSI檢測(cè)方法的優(yōu)勢(shì)。相對(duì)于高通量測(cè)序方法,傳統(tǒng)的統(tǒng)計(jì)學(xué)方法無(wú)法聚焦MSI發(fā)生的分子機(jī)制,而人工智能領(lǐng)域的發(fā)展為此提供了新的思路。作為人工智能領(lǐng)域重要的分支之一,機(jī)器學(xué)習(xí)可以高效的從海量數(shù)據(jù)中學(xué)習(xí)知識(shí),挖掘出影響MSI的要素并對(duì)數(shù)據(jù)進(jìn)行多維度的分析。本文對(duì)目前主流的基于機(jī)器學(xué)習(xí)的檢測(cè)方法進(jìn)行了介紹,各項(xiàng)結(jié)果顯示該類(lèi)方法可以對(duì)樣本的MSI狀態(tài)進(jìn)行較為準(zhǔn)確的判別。
目前機(jī)器學(xué)習(xí)算法已經(jīng)廣泛的應(yīng)用到MSI檢測(cè)中,并且取得了很好的檢測(cè)效果,但是在臨床應(yīng)用中仍有探索空間及挑戰(zhàn):
(1)如何提高檢測(cè)方法的適用性。目前多數(shù)檢測(cè)方法基于WES數(shù)據(jù)展開(kāi),覆蓋的MS位點(diǎn)數(shù)量龐大,但當(dāng)檢測(cè)數(shù)據(jù)是基于小panel的靶向測(cè)序數(shù)據(jù)時(shí),使用該方法進(jìn)行MSI狀態(tài)檢測(cè),檢測(cè)結(jié)果會(huì)產(chǎn)生較大偏差。
(2)如何從外周血中檢測(cè)MSI狀態(tài)。當(dāng)前的檢測(cè)方法多數(shù)采用腫瘤組織測(cè)序數(shù)據(jù),但是組織活檢具有侵入性,部分患者無(wú)法完成檢測(cè)??蒲腥藛T繼而開(kāi)展從外周血中檢測(cè)MSI狀態(tài),該項(xiàng)研究的主要難點(diǎn)在于外周血中的腫瘤DNA在癌癥早期含量較低[43],無(wú)法精確捕獲MSI信號(hào)。
應(yīng)對(duì)以上挑戰(zhàn)是MSI檢測(cè)未來(lái)發(fā)展的方向,也是如何靈活應(yīng)用機(jī)器學(xué)習(xí)算法助力的新方向。
利益沖突聲明
所有作者聲明不存在利益沖突關(guān)系。