朱星宇 陳楠 劉倫旭 綜述 蒲強(qiáng) 審校
世界衛(wèi)生組織國際癌癥研究署(International Agency for Research on Cancer, IARC)發(fā)布的GLOBOCAN2018癌癥報告顯示[1]肺癌是全球發(fā)病率最高及死亡人數(shù)最多的惡性腫瘤,雖然在所有癌癥中肺癌診斷率最高,但大多數(shù)患者已處于終末期。隨著精準(zhǔn)醫(yī)學(xué)的興起,提高肺癌早期診斷率及實現(xiàn)個體化的診療有了新的可能。精準(zhǔn)醫(yī)學(xué)通過整合患者的各項資料,經(jīng)過大數(shù)據(jù)分析,進(jìn)行精準(zhǔn)診斷,找到最適合患者的治療靶點(diǎn)及方案,并有效評估預(yù)后,最終實現(xiàn)提高肺癌療效、改善患者生活質(zhì)量的目標(biāo)[2]。但精準(zhǔn)醫(yī)學(xué)需要收集患者各種生物組學(xué)、臨床檢測指標(biāo)以及其他不同的環(huán)境背景資料,存在數(shù)據(jù)量過于龐大且彼此獨(dú)立難以建立合適的數(shù)學(xué)模型進(jìn)行有效的統(tǒng)計分析等問題,如何將大數(shù)據(jù)應(yīng)用于臨床和科研是目前的一大難題,也是研究的重點(diǎn)方向之一。人工神經(jīng)網(wǎng)絡(luò)(artificial neural networks,ANNs)是現(xiàn)代計算機(jī)人工智能(artificial intelligence, AI)最重要的分支,其最大的能力在于整合已有的海量信息,提高人們分析、處理信息的效率。通過機(jī)器學(xué)習(xí)對相關(guān)資料進(jìn)行大數(shù)據(jù)的整合與分析,將有助于解決目前肺癌精準(zhǔn)醫(yī)學(xué)發(fā)展所遇到問題。為此,本文對肺癌領(lǐng)域ANNs應(yīng)用的現(xiàn)狀進(jìn)行綜述。
1.1 人工神經(jīng)網(wǎng)絡(luò)興起發(fā)展歷程 1943年,美國心理學(xué)家McCulloch與數(shù)學(xué)家Pitts合作[3],用邏輯數(shù)學(xué)工具研究神經(jīng)網(wǎng)絡(luò)的過程中,首次提出了神經(jīng)元的數(shù)學(xué)模型,簡稱為MP模型,從此開啟了對神經(jīng)網(wǎng)絡(luò)的理論研究。經(jīng)過以感知器(Perceptrons)為代表的第一代ANNs[4,5],和以Hopfield網(wǎng)絡(luò)和BP網(wǎng)絡(luò)為代表的第二代ANNs[6,7]的發(fā)展,目前的第三代ANNs以機(jī)器深度學(xué)習(xí)(deep machine learning, DML)為特點(diǎn)[8]。DML的研究關(guān)注的是與大腦皮層信息表達(dá)相似的計算模型,有卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks, CNNs)和深度置信網(wǎng)(deep belief nets, DBNs)兩種主流的方法,這兩種方法區(qū)別在于CNNs是一種有監(jiān)督學(xué)習(xí)的機(jī)器學(xué)習(xí)模型,而DBNs是一種無監(jiān)督學(xué)習(xí)的機(jī)器學(xué)習(xí)模型[9]。
1.2 人工神經(jīng)網(wǎng)絡(luò)概念、特點(diǎn) ANNs是一種模擬大腦神經(jīng)元細(xì)胞傳遞信息構(gòu)建的模型,在對人腦結(jié)構(gòu)及其對外界刺激的響應(yīng)機(jī)制進(jìn)行理解和抽象后,以網(wǎng)絡(luò)拓?fù)錇槔碚摶A(chǔ)將數(shù)據(jù)進(jìn)行非線性建模,從而模擬人腦對復(fù)雜信息的處理模式,具有高容錯性、智能性、能夠自我學(xué)習(xí)等特征[10]。與數(shù)字計算機(jī)相比,ANNs在構(gòu)成原理和功能特點(diǎn)等方面更加接近人腦,它并不按既定的程序逐步執(zhí)行運(yùn)算,而是能夠通過自我學(xué)習(xí),總結(jié)規(guī)律,從而去完成運(yùn)算、識別或過程控制等任務(wù)。DML是目前ANNs最大的特點(diǎn),是一種特征學(xué)習(xí)方法,能夠把原始數(shù)據(jù)通過一些簡單的但是非線性的模型轉(zhuǎn)變成為更高層次的、更加抽象的表達(dá),通過足夠多轉(zhuǎn)換的組合,非常復(fù)雜的函數(shù)也可以被機(jī)器學(xué)習(xí)。
1.3 人工神經(jīng)網(wǎng)絡(luò)在醫(yī)學(xué)領(lǐng)域的運(yùn)用 ANNs在醫(yī)學(xué)領(lǐng)域的應(yīng)用十分廣泛,20世紀(jì)90年代開始ANNs在診斷、影像分析、心電圖分析、預(yù)后評估、對藥物療效的反應(yīng)等方面均有相應(yīng)的研究和運(yùn)用[11]。近年來也有ANNs運(yùn)用于計算機(jī)臨床決策支持系統(tǒng)(Clinical Decision Support System,CDSS)的報道[12]。在皮膚癌診斷、內(nèi)鏡圖像診斷、精神病學(xué)研究、視網(wǎng)膜OCT圖像診斷中,ANNs的應(yīng)用取得了不錯的進(jìn)展[13-16],診斷方面在部分領(lǐng)域甚至能達(dá)到有經(jīng)驗的臨床專家的水平。此外ANNs在虛擬助理、藥物發(fā)掘、營養(yǎng)學(xué)、生物技術(shù)、急救室/醫(yī)院管理、健康管理、精神健康、衛(wèi)生經(jīng)濟(jì)學(xué)、可穿戴設(shè)備開發(fā)、風(fēng)險管理和病理學(xué)等領(lǐng)域有著不同程度的運(yùn)用。
2.1 肺癌診斷與分期 由于肺癌早期沒有特異的臨床癥狀且腫瘤常位于深部被正常組織包裹,使得肺癌的早期診斷是肺癌診療中最具有挑戰(zhàn)性的工作?;贏NNs模式識別有非常高的肺癌輔助診斷價值[17]。目前研究大多將影像學(xué)圖像、基因表達(dá)譜、臨床資料或組織病理學(xué)測定等資料納入作為ANNs的輸入變量,通過對變量進(jìn)行選擇和組合,或構(gòu)建不同的神經(jīng)網(wǎng)絡(luò)及算法,使診斷的準(zhǔn)確度得到提升[18]。
2.1.1 影像學(xué) 影像學(xué)是目前應(yīng)用最廣泛的肺癌篩查與早期診斷技術(shù)。隨著影像技術(shù)的發(fā)展圖像的清晰度及分辨率逐步提升,圖像中蘊(yùn)涵的信息變得越來越豐富,需要有經(jīng)驗的影像醫(yī)生花費(fèi)大量的時間與精力去詳細(xì)解讀,但基于人眼的識別存在遺漏關(guān)鍵的信息的風(fēng)險,導(dǎo)致誤診及漏診[19]。ANNs有強(qiáng)大的圖像分析能力,可以快速識別關(guān)鍵信息進(jìn)行分析,并減少信息遺漏。Shen等[20]運(yùn)用多尺度卷積神經(jīng)網(wǎng)絡(luò)(multiple convolutional neural network,MCNN)分析胸部CT圖像上的結(jié)節(jié),經(jīng)過704份良性結(jié)節(jié)和396份惡性結(jié)節(jié)圖像的訓(xùn)練后,用另外275份圖像進(jìn)行測試,對結(jié)節(jié)的良惡性的判斷準(zhǔn)確率達(dá)86.84%。Liu等[21]構(gòu)建的CT圖像計算機(jī)輔助診斷系統(tǒng),能識別圖像中89.4%的孤立結(jié)節(jié)、胸膜旁結(jié)節(jié)、血管旁結(jié)節(jié)、磨玻璃樣結(jié)節(jié)(ground glass opacity, GGO),檢出其他結(jié)節(jié)(如炎性結(jié)節(jié))帶來的假陽性在每例病案中能控制在2個結(jié)節(jié)以下。Toney等[22]利用133例非小細(xì)胞肺癌患者的PET-CT圖像,通過ANNs和影像專家分別對淋巴結(jié)轉(zhuǎn)移進(jìn)行分期(N0、N1、N2、N3),再與術(shù)后病理分期作為金標(biāo)準(zhǔn)進(jìn)行比較,結(jié)果顯示淋巴結(jié)分期ANNs的準(zhǔn)確率高達(dá)99.2%,而影像專家為72.4%。目前對于ANNs的分析結(jié)果仍需影像醫(yī)師的審閱,隨著ANNs算法的優(yōu)化和利用大數(shù)據(jù)進(jìn)行訓(xùn)練,ANNs利用影像進(jìn)行診斷的準(zhǔn)確度將逐步提高,甚至做到在臨床環(huán)境中達(dá)到乃至超過有經(jīng)驗的影像醫(yī)師的正確率,使影像結(jié)果判讀做到高水準(zhǔn)的標(biāo)準(zhǔn)化、同質(zhì)化。在提高診斷正確率的同時還能使不同醫(yī)院間檢查結(jié)果達(dá)到互信,避免患者重復(fù)接受檢查,具有衛(wèi)生經(jīng)濟(jì)學(xué)的現(xiàn)實意義。
2.1.2 生物標(biāo)志物 Duan等[23]納入200例不同病理類型的各期別原發(fā)性肺癌患者和200名正常對照,分別收集患者性別、年齡、吸煙史等臨床資料以及p16、RASSF1A、FHIT啟動子三種基因的甲基化水平和相對端粒長度,將其中148例患者和152名正常對照的資料用于ANNs學(xué)習(xí)訓(xùn)練,將其余受試者資料進(jìn)行測試,結(jié)果顯示診斷準(zhǔn)確率相較于采用線性分析模型有所提高(76%vs67%)。該研究提示運(yùn)用ANNs能通過分析多種基因提高輔助診斷的準(zhǔn)確率。Butcher等[24]運(yùn)用ANNs構(gòu)建的多層感知機(jī)(multi-layer perceptron, MLP),對使用選擇離子流動管質(zhì)譜儀(SIFTMS)測得的20例肺癌患者和20名健康受試者呼出氣體揮發(fā)性有機(jī)化合物(volatile organic compounds, VOCs)濃度進(jìn)行分析,將15種VOCs用于肺癌診斷準(zhǔn)確率可達(dá)74%。Tomasz等[25]運(yùn)用ANNs分析固相微萃取-氣相色譜-質(zhì)譜聯(lián)用(solid phase microextraction-gas chromatography-mass spectrometry, SPME-GC/MS)技術(shù)檢測到的VOCs,選出8種VOCs用于肺癌診斷的敏感度為63.5%,特異度為72.4%。但這兩項關(guān)于VOCs的研究樣本量有限且并未對長期吸煙等高危因素進(jìn)行亞組分析,可將臨床資料納入作為ANNs的變量或許準(zhǔn)確度能得到進(jìn)一步的提升。此外也有運(yùn)用ANNs分析痰液中非小細(xì)胞肺癌生物標(biāo)志物用于輔助診斷的報告[26]。隨著檢驗技術(shù)的提升,特別是生物芯片等技術(shù)的出現(xiàn),將有大量例如DNA片段、抗原抗體、microRNA等生物標(biāo)志物被檢出,而ANNs能對分析這些標(biāo)志物與疾病之間的關(guān)系起到非常大的幫助。
2.1.3 病理及危險因素分析 Alzubaidi等[27]總結(jié)了7項基于ANNs的數(shù)字病理學(xué)在肺癌領(lǐng)域中的研究情況,多項研究利用組織學(xué)或細(xì)胞學(xué)特征對肺癌進(jìn)行診斷,準(zhǔn)確率可達(dá)50%-98%。當(dāng)術(shù)中根據(jù)手術(shù)視頻進(jìn)行快速分析時,大流量的數(shù)據(jù)會超過部分研究所用ANNs的分析限度,存在一定的局限性。對于切片,高的診斷準(zhǔn)確率依賴于高質(zhì)量的切片圖像,且對于連續(xù)多張切片需要盡量減少非期望部位的采樣,以提高診斷準(zhǔn)確率。因此,建立可靠的分析模型,提高顯微鏡下取得的圖像質(zhì)量增加以及開發(fā)可滿足巨大樣本量存儲和計算分析的設(shè)備是提升ANNs診斷準(zhǔn)確率的有效途徑。在肺癌易感性和相關(guān)危險因素分析方面,Xie等[28]應(yīng)用ANNs分析不同危險因素與肺癌發(fā)生的具體關(guān)系,對41項危險因素進(jìn)行分析后發(fā)現(xiàn),在納入其中15項危險因素作為預(yù)測指標(biāo)時,預(yù)測肺癌發(fā)生的準(zhǔn)確率可達(dá)83.816%。通過ANNs分析整合與肺癌確切相關(guān)的危險因素,可篩選出發(fā)病的高危人群,并對這部分人群的危險因素進(jìn)行早期干預(yù)是降低肺癌發(fā)病率的有效且具有應(yīng)用前景的一種方法。
2.2 肺癌預(yù)后和治療判斷 過去20年有多種不同的ANNs模型應(yīng)用于肺癌患者的療效預(yù)測和預(yù)后判斷,目標(biāo)是能夠了解不同的干預(yù)措施能對患者帶來的獲益,對癌癥復(fù)發(fā)率及生存率進(jìn)行預(yù)判[18],為患者選擇最優(yōu)的個體化治療方案。
2.2.1 預(yù)后預(yù)測 Hsia等[29]將臨床檢測指標(biāo)與基因多態(tài)性檢測結(jié)果聯(lián)合納入,通過ANNs構(gòu)建模型預(yù)測75例無手術(shù)治療指征的肺癌患者預(yù)后并依此制定治療方案?;颊邔嶋H平均生存期為(12.44±7.95)個月,而ANNs預(yù)測結(jié)果為(13.16±1.77)個月,準(zhǔn)確率可達(dá)86.2%。Paul等[30]應(yīng)用ANNs分析肺癌患者CT圖像的特征后對患者預(yù)后進(jìn)行預(yù)測,選取十種不同的形態(tài)特征時,準(zhǔn)確率為77.5%,進(jìn)一步選取特異性最高的五種形態(tài)特征與數(shù)量特征結(jié)合,預(yù)測準(zhǔn)確率提高到82.5%。Chatzimichail等[31]應(yīng)用ANNs對經(jīng)過手術(shù)治療后的非小細(xì)胞肺癌患者進(jìn)行預(yù)后預(yù)測時發(fā)現(xiàn),當(dāng)把γ-H2AX表達(dá)情況加入后能提高預(yù)測的準(zhǔn)確率,提示γ-H2AX可作為評估早期非小細(xì)胞肺癌預(yù)后的生物標(biāo)志物。該研究表明可通過驗證ANNs預(yù)測預(yù)后準(zhǔn)確度的不同判斷預(yù)后預(yù)測指標(biāo)的有效性。通過ANNs分析預(yù)測個體的生存時間,可指導(dǎo)醫(yī)生和患者共同選擇和制定合理的治療方案,從而減少過度治療和不必要的侵入性醫(yī)療操作,并可提高患者生存質(zhì)量以及指導(dǎo)衛(wèi)生經(jīng)濟(jì)學(xué)決策。
2.2.2 并發(fā)癥預(yù)測 肺癌患者術(shù)后出現(xiàn)并發(fā)癥的幾率并不一致,如果能早期判斷并發(fā)癥的可能性,并據(jù)此對患者進(jìn)行危險性分層,可對高危患者進(jìn)行有針對性的干預(yù),并減少對低危患者的過度治療。Santos-García等[32]應(yīng)用設(shè)計的ANNs模型預(yù)測489例非小細(xì)胞肺癌患者肺葉或肺切除術(shù)后呼吸循環(huán)系統(tǒng)并發(fā)癥的發(fā)生情況,準(zhǔn)確率達(dá)98%。Chen等[33]應(yīng)用ANNs分析肺癌患者年齡、抗生素使用情況、血清白蛋白濃度、是否接受化療或手術(shù)、血紅蛋白濃度以及住院時間等因素,預(yù)測患者是否會發(fā)生深部真菌感染,準(zhǔn)確率達(dá)82.9%。
2.2.3 治療方案確定 輔助化療對于預(yù)防非小細(xì)胞肺癌患者術(shù)后復(fù)發(fā)或轉(zhuǎn)移的效果仍存在爭議,Chen等[34]利用ANNs結(jié)合T分期和相關(guān)基因表達(dá)情況進(jìn)行分析,預(yù)測輔助化療是否對預(yù)后的有改善,發(fā)現(xiàn)DUSP6和LCK的表達(dá)對預(yù)后預(yù)測的準(zhǔn)確率為65.71%。該研究表明利用ANNs分析某些基因的表達(dá)情況可指導(dǎo)輔助化療的使用,避免無效的干預(yù)和減少醫(yī)療資源的浪費(fèi),避免增加患者藥物帶來的副反應(yīng),未來可利用ANNs選擇更好的基因位點(diǎn)進(jìn)行分析,以提高預(yù)測的準(zhǔn)確率。目前智能決策中比較成熟的沃森腫瘤系統(tǒng)(Watson for oncology, WFO),是由IBM基于ANNs開發(fā)的認(rèn)知計算系統(tǒng),有國內(nèi)的研究表明該系統(tǒng)對于肺癌的臨床決策與中國專家團(tuán)隊有較高的一致性[35]。WFO只是輔助醫(yī)療工具,在一些實際應(yīng)用中卻被用于對病人做出臨床的直接診斷,而未經(jīng)醫(yī)生詳細(xì)的評估審核,在智能還沒有完全可以取代醫(yī)生之前,這樣的嘗試會增加患者的疑慮,且WFO提供的診療方案僅是方向性的框架,仍然需要醫(yī)生去細(xì)化執(zhí)行。此外,目前WFO缺乏中國本土化的真實病例、文獻(xiàn)等進(jìn)行訓(xùn)練,是否適用于中國的醫(yī)療流程與環(huán)境還待進(jìn)一步的檢驗。
通過收集整合患者的各種生物組學(xué)、臨床檢測指標(biāo)以及非生物的環(huán)境背景資料建立大數(shù)據(jù)資料庫是信息時代醫(yī)學(xué)研究的重點(diǎn)方向之一。對這些數(shù)據(jù)進(jìn)行有效的分析和解讀將是重中之重,而對已有的海量信息的整合、分析恰恰是ANNs最大的優(yōu)勢。目前國內(nèi)外對ANNs在肺癌及整個醫(yī)學(xué)領(lǐng)域的投入巨大,但離真正的臨床應(yīng)用還有一定的距離。缺少高質(zhì)量的標(biāo)準(zhǔn)化肺癌臨床數(shù)據(jù)庫是制約ANNs用于肺癌領(lǐng)域的研究的重要因素,不僅影響準(zhǔn)確性,而且是不同系統(tǒng)能夠相比較的關(guān)鍵點(diǎn)。目前的研究樣本量普遍有限,絕大多數(shù)預(yù)測或診斷研究只在兩種或少數(shù)幾種疾病中評估的準(zhǔn)確度,脫離臨床實際環(huán)境,限制了臨床應(yīng)用的價值。有研究指出目前醫(yī)學(xué)領(lǐng)域運(yùn)用ANNs缺乏正確的方法和評判標(biāo)準(zhǔn),結(jié)果的可信度存疑[36]。在社會、法規(guī)方面,診療結(jié)果醫(yī)療責(zé)任問題、信息安全問題等還缺乏通行的技術(shù)規(guī)范。未來可由各大中心牽頭建立多中心的標(biāo)準(zhǔn)化肺癌臨床數(shù)據(jù)庫,作為符合中國流行病學(xué)的國家級信息庫,并以此開發(fā)符合中國臨床環(huán)境的ANNs系統(tǒng),這對提高基層醫(yī)院及體檢中心肺癌檢出率,完善三級診療以及優(yōu)化醫(yī)療資源都有積極意義。另一方面,積極推行針對ANNs的制度法規(guī)、完善技術(shù)規(guī)范及審核制度,為ANNs的發(fā)展提供制度的支持和相應(yīng)的制約。未來ANNs用于肺癌研究具有美好前景,但仍充滿挑戰(zhàn)。