陶謙,袁哲
中山大學(xué)光華口腔醫(yī)學(xué)院·附屬口腔醫(yī)院口腔頜面外科,廣東省口腔醫(yī)學(xué)重點(diǎn)實(shí)驗(yàn)室,廣東 廣州(510055)
診療技術(shù)日新月異,隨之而來的是數(shù)量巨大的醫(yī)療信息,以往常用的資料分析模型已不能滿足數(shù)據(jù)處理分析要求。人工智能(artificial intelligence,AI)提供了一種高效處理大量數(shù)據(jù)的方法,隨后演化出的機(jī)器學(xué)習(xí)(machine learning,ML)從中進(jìn)一步優(yōu)化運(yùn)算模式,提高了結(jié)果的可靠度,深度學(xué)習(xí)則脫胎于機(jī)器學(xué)習(xí),能夠?qū)崿F(xiàn)對(duì)更復(fù)雜、抽象信息的準(zhǔn)確提取與利用[1]。深度學(xué)習(xí)擁有模仿人類大腦生物神經(jīng)的數(shù)據(jù)處理架構(gòu),具備高效分析多類型、多批次數(shù)據(jù)的能力,提供了一種更具智慧的計(jì)算思路。其最大優(yōu)勢(shì)在于可以通過自我運(yùn)算,調(diào)整各組數(shù)據(jù)的權(quán)重,以獲得更優(yōu)的輸出結(jié)果,這種結(jié)果的不斷優(yōu)化就是算法的“學(xué)習(xí)”過程,常用深度學(xué)習(xí)模型有誤差反向傳播(error back propagation,EBP)算法、卷積神經(jīng)網(wǎng)絡(luò)(convolution neural network,CNN)等[2-3]。深度學(xué)習(xí)在自動(dòng)化駕駛[4]、極端天氣的預(yù)警[5-6]和地震預(yù)測(cè)[7-8]等日常生活相關(guān)領(lǐng)域中取得了令人鼓舞的成果,激勵(lì)著醫(yī)療研究者將深度學(xué)習(xí)融合應(yīng)用到專業(yè)性更強(qiáng)、情況更復(fù)雜的醫(yī)學(xué)領(lǐng)域。在世界范圍內(nèi),口腔癌是具有高發(fā)病率和高死亡率的惡性疾病之一,僅在2018年,185個(gè)國(guó)家口腔癌的新發(fā)病例超過35萬,超過17萬人因此死亡[9-10]。然而診治技術(shù)的進(jìn)步并未給患者的預(yù)后情況帶來改觀,根據(jù)美國(guó)國(guó)立衛(wèi)生研究院(National Institutes of Health,NIH)的最新統(tǒng)計(jì),口腔癌患者的5年生存率為66.9%,死亡率在過去10年間以每年0.5%的速度上升[11],迫切需要進(jìn)一步深化預(yù)后研究。在口腔癌預(yù)后評(píng)估中,以臨床病理資料為基礎(chǔ)的分析方式受到廣泛認(rèn)可,卻存在數(shù)據(jù)來源單一、算法分析能力不足等局限,深度學(xué)習(xí)有望破解當(dāng)前預(yù)測(cè)患者生存信息過程中面臨的困境。
醫(yī)療數(shù)據(jù)的快速增長(zhǎng)與形式多樣化給臨床診療工作帶來了挑戰(zhàn),在日常診斷中,影像醫(yī)師常常需要在日均8 h的工作中每3~4秒閱讀一張影像,方有可能滿足工作需求,由于審閱過程主要依靠人工識(shí)別與判斷,在高強(qiáng)度和長(zhǎng)時(shí)間的工作狀態(tài)下,遺漏和錯(cuò)誤將難以避免[12]。深度學(xué)習(xí)具備高效處理海量數(shù)據(jù)的能力,對(duì)輸出結(jié)果可自動(dòng)糾錯(cuò)和優(yōu)化,這種更高效“人腦化”的人工智能具有廣闊的應(yīng)用前景,已在臨床診療工作中產(chǎn)生了積極作用。
Diller等[13]進(jìn)行了一項(xiàng)由10 019名受試者參加的研究,應(yīng)用卷積神經(jīng)網(wǎng)絡(luò)來評(píng)估先天性心臟病患者預(yù)后狀況,結(jié)果顯示超過90%的患者得到了準(zhǔn)確的疾病分類,為后續(xù)治療提供了可靠保障。在眼科疾病診療中,深度學(xué)習(xí)能做到快速、準(zhǔn)確地識(shí)別并分類檢查圖像[14],Kermany等[15]基于深度學(xué)習(xí)模型Inception V3,對(duì)4 686例患者的光學(xué)相干斷層掃描(optical coherence tomography,OCT)圖像進(jìn)行診斷與預(yù)測(cè)訓(xùn)練,診斷準(zhǔn)確率達(dá)到96.6%;此外,針對(duì)識(shí)別出的可能致盲性疾病的圖像,如脈絡(luò)膜新生血管和糖尿病黃斑水腫,模型會(huì)對(duì)接診醫(yī)生發(fā)出警報(bào),并輔助制定治療方案。針對(duì)消化系統(tǒng)疾病,卷積神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)了胃部幽門螺桿菌攜帶者的100%正確識(shí)別,模型能糾正人工病理審閱造成的誤診,有望輔助臨床醫(yī)師完成胃內(nèi)幽門螺桿菌攜帶者的篩查、診斷工作[16-17]。
對(duì)癌癥的早期明確診斷和準(zhǔn)確判斷預(yù)后,是醫(yī)務(wù)工作者亟需解決的難題。深度學(xué)習(xí)可以為臨床醫(yī)師在癌癥篩查、診治與轉(zhuǎn)歸等方面提供可靠且高效的方法學(xué)幫助。
深度學(xué)習(xí)通過對(duì)癌癥患者的現(xiàn)有影像學(xué)資料進(jìn)行智能化分析,挖掘并解讀蘊(yùn)藏在影像圖片中的高價(jià)值信息,可以有效避免漏診甚至誤診,彌補(bǔ)了人工的局限性[2-3,18]。肺部CT是肺癌篩查和早期診斷的重要手段,然而CT提示的不確定肺結(jié)節(jié)(indeterminate pulmonary nodules,IPNs)存在圖像信息集成度高、結(jié)節(jié)影的多樣化表現(xiàn)等特點(diǎn),人工審閱難以做到準(zhǔn)確分辨良、惡性。而利用卷積神經(jīng)網(wǎng)絡(luò)回顧性分析IPNs患者CT影像資料,可以構(gòu)建出肺癌預(yù)測(cè)-卷積神經(jīng)網(wǎng)絡(luò)(lung cancer prediction convolutional neural network,LCP-CNN)模型,對(duì)CT數(shù)據(jù)進(jìn)行自動(dòng)分析,判斷肺結(jié)節(jié)良、惡性以及做出惡性肺結(jié)節(jié)的分級(jí),后續(xù)的前瞻性研究證明LCPCNN模型診斷的精確度和可靠度均高于對(duì)照組的logistic回歸模型[19]。
在癌癥患者的預(yù)后評(píng)估中,目前常用方法大多是基于TNM分期信息與比例風(fēng)險(xiǎn)回歸模型(proportional hazards model)(又稱COX回歸模型)、隨機(jī)森林(random forest)等算法模型構(gòu)成。TNM分期側(cè)重的病理指標(biāo)有限且不夠細(xì)化,傳統(tǒng)預(yù)測(cè)模型無法有效納入分子生物學(xué)等學(xué)科產(chǎn)生的大容量、高度集成化信息,深度學(xué)習(xí)可實(shí)現(xiàn)不同類型(病理、影像和基因)、不同形式(圖像和文本)的資料綜合運(yùn)用分析。
She等[20]比較了DeepSurv與TNM 2種模型對(duì)非小細(xì)胞肺癌患者的預(yù)后預(yù)測(cè)效能,DeepSurv發(fā)揮數(shù)據(jù)融合能力,納入了人口學(xué)、病理學(xué)和所用治療方式等127項(xiàng)疾病信息,在患者病情分級(jí)及預(yù)后評(píng)估中顯示出強(qiáng)大的優(yōu)勢(shì)。
Skrede等[21]運(yùn)用DoMore v1神經(jīng)網(wǎng)絡(luò)模型,對(duì)1 200萬張存在預(yù)后差異的結(jié)直腸癌患者病理圖像進(jìn)行分析,結(jié)果提示結(jié)直腸癌患者的淋巴結(jié)轉(zhuǎn)移、淋巴管和血管浸潤(rùn)情況與患者的預(yù)后存在顯著關(guān)聯(lián),并在驗(yàn)證階段取得了良好效果。
Chaudhary等[22]運(yùn)用支持向量機(jī)(support vector machine,SVM)分析肝癌患者的3類組學(xué)特征,結(jié)果提示頻繁的TP53(tumor protein p53)突變以及角蛋白19(keratin 19,KRT19)、上皮細(xì)胞黏附分子(epithelial cell adhesion molecule,EPCAM)、桿狀病毒凋亡抑制蛋白重復(fù)序列蛋白5(baculoviral inhibitor of apoptosis protein repeat-containing protein 5,BIRC5)等標(biāo)志物的高表達(dá)反映出較差的預(yù)后情況。
大多數(shù)口腔癌的發(fā)生部位較表淺,易于發(fā)現(xiàn),通過患者臨床癥狀結(jié)合影像學(xué)與組織病理學(xué)等檢查方法使得確診過程并不復(fù)雜。腫瘤范圍與大小、侵襲深度、淋巴結(jié)受累和腫瘤切除邊緣干凈與否等臨床病理因素被認(rèn)為和預(yù)后密切相關(guān)。在口腔癌治療方面,盡管以綜合序列為基礎(chǔ)的個(gè)性化治療手段日益多樣,但是口腔癌患者的總體療效仍不容樂觀[9-11]。口腔癌患者的預(yù)后情況與患者自身疾病狀態(tài)和臨床醫(yī)師施行的治療措施密不可分,從中分析、篩選影響患者生存的各種因素,對(duì)提高患者的生存質(zhì)量十分重要。
組織病理學(xué)檢測(cè)不僅是診斷口腔癌的金標(biāo)準(zhǔn),也是預(yù)測(cè)患者生存的重要指標(biāo),TNM分期是目前最常用的預(yù)后評(píng)估依據(jù),它在很大程度上需要依賴病理學(xué)資料支持。Zanoni等[23]在1985—2015年間跟蹤了2 082例口腔癌患者的生存情況,基于COX回歸模型研究預(yù)后影響因素,除T分期、N分期和M分期以外,神經(jīng)侵犯、血管侵犯及腫瘤切緣癌細(xì)胞情況等病理指標(biāo)是影響患者生存的獨(dú)立影響因素;此外,Heikkinen團(tuán)隊(duì)[24]與Spector團(tuán)隊(duì)[25]分別分析了308例和464例口腔癌患者,一致認(rèn)為腫瘤浸潤(rùn)淋巴細(xì)胞(tumour infiltrating lymphocytes,TIL)程度是另一影響預(yù)后的病理因素。
近年來隨著生物信息學(xué)等新興學(xué)科的發(fā)展,反映口腔癌患者的預(yù)后指標(biāo)日益豐富[26],迫切需要以深度學(xué)習(xí)為代表的智能化分析方法實(shí)現(xiàn)對(duì)預(yù)后信息的全面納入、深度探索與合理利用。深度學(xué)習(xí)在對(duì)口腔癌患者病理數(shù)據(jù)的分析與利用方面已初露成效。
深度學(xué)習(xí)與光學(xué)顯微鏡相結(jié)合推出的深度學(xué)習(xí)擴(kuò)展景深(deep learning extended depth-of-field,DeepDOF)顯微鏡,優(yōu)化了普通光學(xué)顯微鏡的分辨能力,能夠觀察到更加精細(xì)的口腔癌病理學(xué)改變,如細(xì)胞核形態(tài)的細(xì)微變化、血管腔的改變等,可有效預(yù)測(cè)患者治療后的復(fù)發(fā)風(fēng)險(xiǎn)[27]。
Kim等[28]運(yùn)用DeepSurv模型回顧性分析255例口腔鱗癌患者的預(yù)后情況,將T分期、N分期、癌細(xì)胞分化程度等8項(xiàng)病理學(xué)指標(biāo)和復(fù)發(fā)情況作為預(yù)測(cè)變量引入DeepSurv,引用c指數(shù)來反映模型的預(yù)測(cè)準(zhǔn)確性,結(jié)果顯示DeepSurv的準(zhǔn)確性得分最高,為0.810,而對(duì)照組中隨機(jī)森林圖的c指數(shù)為0.770,COX比例風(fēng)險(xiǎn)模型得分為0.756。
TIL程度較高被認(rèn)為是提示口腔癌患者良好預(yù)后的一個(gè)指標(biāo)[24-25,29],通過MobileNet模型識(shí)別口腔癌患者的病理圖像,判定腫瘤細(xì)胞、淋巴細(xì)胞、基質(zhì)與偽影四類區(qū)域,MobileNet的準(zhǔn)確分辨率為96.31%,據(jù)此建立的TILAb(TIL Abundance)評(píng)分為預(yù)后評(píng)估提供了可靠保證[30]。
口腔癌患者的影像學(xué)資料對(duì)評(píng)估病灶范圍、頸部淋巴結(jié)情況等關(guān)鍵預(yù)后指標(biāo)具有重要參考價(jià)值。將舌癌患者放射治療前的CT特征信息輸入基于BP算法構(gòu)建的預(yù)測(cè)模型(probabilistic genetic algorithm-back propagation,PGA-BP),得到患者的生存時(shí)間為(31.6±15.8)個(gè)月,接近(30.5±21.3)個(gè)月的實(shí)際值,進(jìn)一步分析生存期長(zhǎng)組、生存期短組患者間圖像,模型識(shí)別出F5-灰度協(xié)調(diào)矩陣(gray level coocrrencr matrix,GLCM)3(7-1相關(guān))、F5-GLCM3(12-1相關(guān))、F5-GLCM3(6-1相關(guān))等12個(gè)差異信號(hào)[31]。Fujima等[32]利用口腔癌患者的正電子發(fā)射斷層掃描(positron emission tomography/computed tomography,PET/CT)圖像,基于深度學(xué)習(xí)模型ResNet-101評(píng)估口腔癌患者的無病生存期(diseasefree survival,DFS),在驗(yàn)證隊(duì)列中的評(píng)估準(zhǔn)確率達(dá)到80%??谇话┗颊哳i部淋巴結(jié)轉(zhuǎn)移與淋巴結(jié)外侵犯(external nodal extension,ENE)對(duì)患者評(píng)估預(yù)后具有參考價(jià)值,深度學(xué)習(xí)模型DetectNet研究了56例口腔癌患者的CT圖像,8 s完成1次分析,對(duì)頸淋巴結(jié)轉(zhuǎn)移的識(shí)別準(zhǔn)確率達(dá)到90%[33];利用卷積神經(jīng)網(wǎng)絡(luò)分析51例口腔癌患者的CT圖像以評(píng)估淋巴結(jié)外侵犯情況,模型實(shí)現(xiàn)了84%的準(zhǔn)確識(shí)別率,高于人工組62.6%的最優(yōu)結(jié)果[34]。
新近發(fā)展的分子圖像在口腔癌診療工作中的作用也愈加重要,信號(hào)表達(dá)、基因調(diào)控等情況可反映患者的預(yù)后信息。2011年,Hanahan等[35]從微環(huán)境層面總結(jié)出癌癥的特征,包括能量代謝重組、避免免疫破壞、抵抗細(xì)胞死亡等8個(gè)方面,Sasahira等[26]據(jù)此歸納出維持增殖、逃避生長(zhǎng)抑制、促進(jìn)炎性反應(yīng)等10類反映口腔癌預(yù)后的傳統(tǒng)信號(hào),并進(jìn)一步整理出轉(zhuǎn)運(yùn)和高爾基組織蛋白1(transport and Golgi organization protein 1,TANGO1)、蘋果酸酶1(malic enzyme 1,ME1)、叉頭框蛋白C2(forkhead box protein C2,F(xiàn)OXC2)等11個(gè)新預(yù)測(cè)指標(biāo)的升高與miR-126的下降均提示不良預(yù)后,但這些數(shù)據(jù)多以抽象的圖像形式表達(dá),不利于解讀與使用。Kim等[36]從癌癥基因組圖譜(the cancer genome atlas,TCGA)與國(guó)際癌癥基因組聯(lián)盟(International Cancer Genome Consortium,ICGC)中獲取了173例口腔癌患者RNA測(cè)序數(shù)據(jù)和免疫細(xì)胞信息,通過估計(jì)RNA轉(zhuǎn)錄本的相對(duì)亞群來鑒定細(xì)胞類型(cell-type identification by estimating relative subsets of RNA transcripts,CIBERSORT)與聚類分析將患者分為高風(fēng)險(xiǎn)組與低風(fēng)險(xiǎn)組,之后利用Mann-WhitneyU檢驗(yàn)確定了幼稚B細(xì)胞、記憶B細(xì)胞、T細(xì)胞CD8等16種存在組間豐度差異的免疫細(xì)胞,并進(jìn)一步區(qū)別出小脯氨酸蛋白3(small proline-rich protein 3,SPRR3)、Ⅺ-α-1型膠原鏈(collagen typeⅪalpha 1 chain,COL11A1)、X-α-1型膠原鏈(collagen type X alpha 1 chain,COL10A1)等7類標(biāo)記基因。通過TensorFlow中的深度學(xué)習(xí)模塊分析患者的上述預(yù)后指標(biāo)以評(píng)估生存情況,模型的評(píng)估準(zhǔn)確率為97.2%。
盡管以放療、化療為主的綜合序列方式日漸豐富,但不少患者的預(yù)后情況并未因此改善,提示醫(yī)師要根據(jù)患者病情合理地選擇治療方法。Howard等[37]運(yùn)用DeepSurv、隨機(jī)生存模型(random survival forest,RSF)和神經(jīng)多任務(wù)logistic回歸(neural multitask logistic regression,N-MTLR)等3種深度學(xué)習(xí)模型,回顧33 527例口腔癌術(shù)后患者后續(xù)放療或放化療的獲益情況。模型篩選出患者預(yù)期壽命、淋巴結(jié)轉(zhuǎn)移數(shù)目、腫瘤T4階段與人乳頭狀瘤病毒(human papillomavirus,HPV)陽(yáng)性等因素,這些因素對(duì)放療和(或)化療的選擇具有參考意義,DeepSurv與N-MTLR據(jù)此擬定的治療方案能夠有效延長(zhǎng)患者的生存時(shí)間;此外,對(duì)于被建議僅接受放療的患者,3個(gè)模型均顯示增加化療并不能顯著改善患者的預(yù)后。Li等[38]基于PyraNet與DenseNet模型開發(fā)出條件生成對(duì)抗網(wǎng)絡(luò)(conditional generative adversarial network,cGAN),分析231例口腔癌患者的CT圖像,評(píng)估不同風(fēng)險(xiǎn)器官(organs at risk,OAR)所需接受的放射劑量,相比于對(duì)照組-商業(yè)計(jì)劃治療系統(tǒng)(treatment planning system,TPS),cGAN實(shí)現(xiàn)了快速、精準(zhǔn)量化每一區(qū)域或器官應(yīng)接受的放射劑量,有望輔助臨床醫(yī)師為患者提供個(gè)性化的放療方案。
深度學(xué)習(xí)在評(píng)估口腔癌患者預(yù)后過程中展現(xiàn)出卓越效能,不僅能夠開發(fā)臨床醫(yī)師肉眼直視下難以發(fā)現(xiàn)的病理學(xué)與放射影像學(xué)信息,提升資料的應(yīng)用價(jià)值;又能有效融入分子醫(yī)學(xué)領(lǐng)域,充分發(fā)揮出數(shù)據(jù)的預(yù)測(cè)作用。與此同時(shí),深度學(xué)習(xí)模型輔助下制定的治療方案對(duì)口腔癌患生存時(shí)間的提高顯示出積極效果。但深度學(xué)習(xí)在許多方面都不同于人類智能,臨床上存在缺乏前瞻性研究、單中心數(shù)據(jù)規(guī)模小等系統(tǒng)性局限,目前應(yīng)適度參考其運(yùn)算結(jié)果,期待今后深度學(xué)習(xí)能夠逐步運(yùn)用到現(xiàn)實(shí)的臨床工作中,輔助醫(yī)師對(duì)口腔癌患者病情作出精準(zhǔn)判斷與治療,造福于患者。
【Author contributions】 Tao Qperformed the concept design and revised the article,Yuan Z performed article drafting.All authors read and approved the final manuscript as submitted.