周龍妹,王艷玲,尹春英,孫瑋螺,何培元
承德醫(yī)學(xué)院附屬醫(yī)院消化內(nèi)科,河北承德 067000
根據(jù)國際癌癥研究中心(IARC)的報(bào)告《GLOBOCAN》顯示,結(jié)直腸癌(CRC)成為了全球第三大常見惡性腫瘤,也是惡性腫瘤死亡的第二大原因[1]。因此,對CRC 進(jìn)行早期診斷及早期治療十分重要。人工智能(AI)作為計(jì)算機(jī)科學(xué)中的一個(gè)子領(lǐng)域,其目的就是高效地完成人類布置的任務(wù)。AI 是各種機(jī)器學(xué)習(xí)算法(ML)的總稱,ML 作為一種可以從計(jì)算機(jī)的數(shù)據(jù)中進(jìn)行學(xué)習(xí)、并創(chuàng)建模型對任務(wù)進(jìn)行預(yù)測和識別的方法,大大提高了臨床工作效率,臨床AI 可以從復(fù)雜繁多的數(shù)據(jù)中找到可以協(xié)助診斷與治療的相關(guān)信息,輔助醫(yī)生進(jìn)行疾病診斷、疾病分層[2]、風(fēng)險(xiǎn)預(yù)測[3]、治療方案及[4]預(yù)后結(jié)果[5-6]的提出,通過應(yīng)用計(jì)算機(jī)及數(shù)學(xué)建模對影像學(xué)、病理學(xué)及其他相關(guān)數(shù)據(jù)進(jìn)行臨床上的相關(guān)研究,已成為當(dāng)今醫(yī)學(xué)進(jìn)步的有效階梯[7]。ML 大致可以分為三類,監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)及強(qiáng)化學(xué)習(xí)。監(jiān)督學(xué)習(xí)是根據(jù)給出的標(biāo)簽來訓(xùn)練模型,其回歸模型包括K-近鄰(KNN)、線性回歸(LR)、邏輯回歸(LR)、支持向量機(jī)(SVM)、決策樹(DT)和隨機(jī)森林(RF)、人工神經(jīng)網(wǎng)絡(luò)(ANN)。無監(jiān)督學(xué)習(xí)沒有特定的標(biāo)簽,而是讓計(jì)算機(jī)本身去分類,包括k-means 聚類、層次聚類和主成分分析(PCA)。而強(qiáng)化學(xué)習(xí)普適性強(qiáng),主要基于決策進(jìn)行訓(xùn)練,算法根據(jù)輸出結(jié)果的成功或錯(cuò)誤來訓(xùn)練自己,通過大量經(jīng)驗(yàn)訓(xùn)練優(yōu)化后的算法能夠給出較好的預(yù)測。類似有機(jī)體在環(huán)境給予的獎(jiǎng)勵(lì)或懲罰的刺激下,逐步形成對刺激的預(yù)期,產(chǎn)生能獲得最大利益的習(xí)慣性行為。在運(yùn)籌學(xué)和控制論的語境下,強(qiáng)化學(xué)習(xí)被稱作近似動態(tài)規(guī)劃(ADP)。ML預(yù)測模型可以與醫(yī)學(xué)圖像(放射組學(xué))和臨床數(shù)據(jù)中挖掘的大量定性和定量信息相結(jié)合,以幫助臨床醫(yī)生進(jìn)行基于證據(jù)的決策過程[8]。本文對基于結(jié)腸鏡檢查、腫瘤標(biāo)志物、影像學(xué)檢查、微環(huán)境、病理學(xué)檢查的ML 預(yù)測模型在CRC 篩查中的應(yīng)用進(jìn)展作一綜述,旨在為使用AI 提高CRC 的篩查效果提供一定的理論依據(jù)。
確診CRC 的金標(biāo)準(zhǔn)為結(jié)腸鏡檢查[9],自結(jié)腸鏡檢查廣泛應(yīng)用于臨床,CRC發(fā)病率明顯下降,2014—2018 年50 歲及以上人群CRC 發(fā)病率每年下降約2%[10]。然而最近一項(xiàng)研究表明,約25%的結(jié)直腸腫瘤在結(jié)腸鏡檢查中被遺漏,是因?yàn)橛行┎∽兺庥^小且為扁平狀,甚至位于腸道彎曲處或褶皺處的盲區(qū),腸道黏膜未充分暴露[11]。也有研究表明,在進(jìn)行內(nèi)鏡檢查時(shí),如有第二個(gè)觀察者協(xié)助操作者,則CRC 檢出率也會增加,從而暴露了人工檢查的劣勢[12]。目前在內(nèi)窺鏡方面主要應(yīng)用的AI 為深度學(xué)習(xí)法,經(jīng)過大量樣本進(jìn)行訓(xùn)練,計(jì)算機(jī)自動提取特定的特征,進(jìn)行“思考”與“學(xué)習(xí)”,從而構(gòu)建模型;當(dāng)下一次遇見此特征時(shí),該模型可以做出準(zhǔn)確判斷。該方法既可以減少在結(jié)腸鏡檢查過程中的人為錯(cuò)誤,也可以降低病變漏檢率。研究顯示,AI 輔助結(jié)腸鏡的檢測性能高于單獨(dú)結(jié)腸鏡檢查,且有助于降低腺瘤的漏檢率[13-14]。眾所周知,增生性小息肉幾乎不會演變?yōu)閻盒阅[瘤,因此增生性小息肉的觀察、切除甚至病理檢查會造成不必要的時(shí)間、金錢及勞動浪費(fèi)。據(jù)報(bào)道,受過專業(yè)訓(xùn)練的內(nèi)鏡醫(yī)師能識別病變特征的準(zhǔn)確性<80%[15]。然后AI 則彌補(bǔ)了這一缺點(diǎn),AI 可以準(zhǔn)確識別病變的特征,從而做出準(zhǔn)確判斷,減少不必要的浪費(fèi)。
近年來,腫瘤標(biāo)志物在腫瘤診斷方面得到了廣泛的應(yīng)用。理想的腫瘤標(biāo)志物應(yīng)具有較高的特異度,可用于腫瘤篩查、診斷、療效及預(yù)后評估、復(fù)發(fā)預(yù)測等。目前,用于篩查CRC 的標(biāo)志物很多,如血液中的癌胚抗原(CEA)、糖類抗原199(CA199)、糞便中的黏結(jié)蛋白聚糖2(SDC2)、ADHFE1 基因及潛血、尿液中的有機(jī)化合物、唾液中的氨基酸等,但是其敏感度、特異度的結(jié)論不一,并且有些標(biāo)志物與生物信息上的表達(dá)并不一致[16-17]。研究發(fā)現(xiàn),將ML 與生物信息學(xué)技術(shù)相結(jié)合,可以提高CRC 生物標(biāo)志物的診斷準(zhǔn)確性[18]。支持向量機(jī)(SVM)作為ML 的一種,在生物信息學(xué)中發(fā)揮了重要作用。SVM 能夠識別兩個(gè)數(shù)據(jù)集中的特征,從而進(jìn)行歸納總結(jié)。有研究使用SVM 模型預(yù)測幾種生物標(biāo)志物,結(jié)果顯示該模型可以有效區(qū)分CRC 與正常人群。HAMMAD 等[19]應(yīng)用ML鑒定了10個(gè)對CRC具有診斷及預(yù)后預(yù)測價(jià)值的關(guān)鍵基因,結(jié)果顯示其診斷CRC 的曲線下面積(AUC)均超過0.92,表明其預(yù)測效能較好。KUWABARA 等[20]對CRC 組及健康組基因進(jìn)行差異性分析,利用加權(quán)基因共表達(dá)網(wǎng)絡(luò)(WGCNA)獲得腫瘤相關(guān)基因模塊,并結(jié)合LASSO 機(jī)算法提取的特征診斷CRC,構(gòu)建相關(guān)模型,結(jié)果顯示最終模型的準(zhǔn)確率為99.81%。KUWABARA 等[21]通過ML 中的決策樹來評估定量代謝物對CRC 的辨別能力,并分析了CRC 相關(guān)的異常唾液代謝產(chǎn)物,從而建立一組新的生物標(biāo)志物,并證實(shí)其診斷效能高于以往的傳統(tǒng)標(biāo)志物。
當(dāng)患者因身體情況無法進(jìn)行結(jié)腸鏡檢查,并懷疑有腸道病變時(shí),CT 結(jié)腸鏡(即虛擬結(jié)腸鏡,CTC)也可以作為首選檢查,該檢查定位腸道病變依賴于3D 或4D 重建。研究表明,CTC 診斷直徑≥10 mm 腺瘤的敏感度為92%、特異度為96%,診斷直徑≥6 mm腺瘤的敏感度為86%、特異度為80%[22]。但是,CTC對直徑<6 mm 的病變檢出率不容樂觀,并且對扁平息肉(通常為廣基鋸齒狀腺瘤)的診斷敏感度較低[23]。雖然通過造影技術(shù)可以提高扁平息肉的檢出率[24],但是由于缺乏專業(yè)的影像學(xué)醫(yī)生及專門的成像中心,所以也無法提高對微小病變的檢出率。為了解決這個(gè)問題,提高CTC 的診斷性能及圖像質(zhì)量,基于AI 的算法走進(jìn)了我們的視野。SONG 等[25]提出了一種包括梯度和曲率的虛擬病理模型,結(jié)果顯示在區(qū)分CTC 與非腫瘤病變的過程中,作者僅通過使用圖像強(qiáng)度擴(kuò)展到同時(shí)使用高階分化,該模型的AUC 即可從0.74 提高到0.85。ZIEMLEWICZ等[26]應(yīng)用新的基于CTC 檢查的ML 模型來對腸道息肉進(jìn)行篩查,結(jié)果顯示其敏感度為91.3,大大提高了診斷效能。
腸道微生物群是指各種在腸腔中定居的細(xì)菌構(gòu)成的生態(tài)系統(tǒng),包括益生菌和致病菌,這兩種菌群存在相互制約的關(guān)系,當(dāng)腸道生物群的平衡遭到破壞,致病菌將增加、益生菌減少,從而造成腸道菌群紊亂甚至是炎癥的發(fā)生[27]。核梭桿菌、產(chǎn)腸毒素脆弱擬桿菌、大腸桿菌及厭氧消化鏈球菌等微生物菌群均參與了CRC 的發(fā)生發(fā)展,某些微生物代謝產(chǎn)物與致癌物質(zhì)發(fā)揮作用的過程是一致的[28]。因此,目前有很多研究將這些致病菌作為篩查CRC 的標(biāo)志物。但是由于各種原因,并不是所有CRC 患者都能檢測到這些致病菌,而且有些細(xì)菌在非CRC 患者中也可以檢測到。因此,如果僅使用這些細(xì)菌作為CRC 標(biāo)志物,其敏感度和特異度均是不盡人意的。為了彌補(bǔ)這一不足,研究人員通過ML 對腸道菌群進(jìn)行分析,檢測CRC 患者與健康人群之間的腸道菌群豐度差異。ZELLER 等[29]的研究通過ML 獲得了基于腸道菌群診斷CRC 的相關(guān)模型,其AUC 達(dá)到0.85,已經(jīng)遠(yuǎn)遠(yuǎn)超過了單獨(dú)應(yīng)用腸道菌群作為CRC 標(biāo)志物的診斷性能。KONISHI 等[30]通過ML 對CRC 進(jìn)行診斷,其真陽性率大幅升高,并且在不同城市或不同結(jié)直腸部位收集的樣本間真陽性率差異沒有統(tǒng)計(jì)學(xué)意義,證明基于腸道微生物群的ML 預(yù)測模型可用于CRC的篩查。
組織病理學(xué)切片圖像作為診斷CRC 的金標(biāo)準(zhǔn),發(fā)揮著不可替代的作用[31-32]。但是一張病理切片上存在數(shù)萬個(gè)細(xì)胞,可能會存在一些人眼難以識別的細(xì)微特征,這些特征可能包含有關(guān)診斷和臨床結(jié)果的重要信息。由于全幻燈片掃描技術(shù)的進(jìn)步,我們可以訪問到高分辨率的數(shù)字全幻燈片圖像,甚至可以達(dá)到20~40 倍。隨著高分辨率全幻燈片數(shù)據(jù)量的增加,計(jì)算機(jī)輔助全幻燈片分析越來越受到重視,該技術(shù)不僅加快了分析過程,而且結(jié)果也更精確。計(jì)算機(jī)視覺處理算法與基于深度學(xué)習(xí)的卷積神經(jīng)網(wǎng)絡(luò)結(jié)合,從圖像分類[33]、腫瘤區(qū)域分割[34]、腫瘤微環(huán)境分析[35]、端到端預(yù)后預(yù)測[36]等多個(gè)方面大大加快了計(jì)算機(jī)對整個(gè)幻燈片圖像的輔助分析。XIAO等[37]利用HE 染色后病理圖像的形態(tài)學(xué)特征,證實(shí)在腫瘤區(qū)域分割深度學(xué)習(xí)模型的幫助下,從腫瘤區(qū)域細(xì)胞中提取的特征比從整個(gè)幻燈片中隨機(jī)選擇的區(qū)域預(yù)測結(jié)果更好;并且腫瘤分割模型具有良好的生存分析和交叉驗(yàn)證性能,可以對預(yù)后進(jìn)行準(zhǔn)確預(yù)測。HAMIDA 等[38]基于ML 建立了一個(gè)CRC 預(yù)測模型,該模型不但可以分析新型全載玻像(WSI)的特點(diǎn),而且可以提取WSI 上的全部信息。因此,ML 與病理學(xué)的結(jié)合不但提高了診斷的速度與精度,而且在預(yù)后預(yù)測方面也具有一定的價(jià)值。
綜上所述,基于結(jié)腸鏡檢查、腫瘤標(biāo)志物、影像學(xué)檢查、腸道微環(huán)境、病理學(xué)檢查的ML 預(yù)測模型可以提高CRC 篩查的準(zhǔn)確性,減少不必要的人為錯(cuò)誤,在提高效率的同時(shí)也減少了不必要的勞動浪費(fèi)。ML有很多種預(yù)測模型,每個(gè)模型都有其自身的優(yōu)勢,我們要根據(jù)目標(biāo)的不同特點(diǎn)進(jìn)行合理選擇。盡管目前AI預(yù)測模型是臨床診斷的一項(xiàng)熱門課題,但是仍處在驗(yàn)證階段。雖然目前的研究顯示AI 為我們帶來極大的便利,但是要記住計(jì)算機(jī)的一切行為都需要人類控制,對于疾病的診斷與治療,計(jì)算機(jī)得出的結(jié)果還需要專業(yè)醫(yī)生去評估、優(yōu)化。因此,AI存在的目的是協(xié)助醫(yī)生而不是取代醫(yī)生。在數(shù)字化時(shí)代,對隱私及敏感數(shù)據(jù)的保密是及其重要的,所以監(jiān)管機(jī)構(gòu)需要在AI 輔助醫(yī)療過程中提供指導(dǎo)與監(jiān)督,確保信任、安全和透明度。由于技術(shù)的發(fā)展,未來AI有望結(jié)合臨床信息、放射組學(xué)和遺傳數(shù)據(jù)來改善診斷和管理,個(gè)性化針對患者進(jìn)行診斷、病情評估及治療,最大程度協(xié)助醫(yī)生診治患者。