楊凱涵 王旭亞 綜述 馮曉彬 黎成權(quán) 苗啟廣 審校
據(jù)國家癌癥中心統(tǒng)計,中國2016 年新增癌癥病例406.4 萬例,新增癌癥死亡病例241.4 萬例[1]。根據(jù)世界衛(wèi)生組織(WHO)國際癌癥研究機構(gòu)數(shù)據(jù),2020年中國新發(fā)癌癥病例457 萬例,死亡病例300 萬例[2]。中國惡性腫瘤新發(fā)病例和死亡例數(shù)均居全球第一,且持續(xù)上升。在過去的10 余年里,中國惡性腫瘤生存率呈現(xiàn)逐漸上升趨勢。目前中國惡性腫瘤的5 年相對生存率約40.5%,與10 年前相比,總體提高約10%,但與發(fā)達(dá)國家相比仍存在差距。其中,在中國預(yù)后較好的腫瘤,如乳腺癌(82.0%)、甲狀腺癌(84.3%)和前列腺癌(66.4%)的5 年生存率仍遠(yuǎn)低于美國等發(fā)達(dá)國家(90.9%、98%和99.5%)[1]。腫瘤的早期發(fā)現(xiàn)與精準(zhǔn)診療對改善患者總體生存至關(guān)重要,擴大相關(guān)腫瘤的篩查及早診早治覆蓋面、腫瘤臨床診治規(guī)范化和同質(zhì)化推廣應(yīng)用有助于降低腫瘤發(fā)病率與死亡率。
腫瘤患者因其高度的瘤間以及瘤內(nèi)時空異質(zhì)性,診治十分復(fù)雜[3]。中國醫(yī)療衛(wèi)生行業(yè)面臨巨大的服務(wù)需求壓力,對腫瘤等特殊病種的醫(yī)療資源更是局限在少數(shù)醫(yī)療機構(gòu)。2017 年7 月,國務(wù)院印發(fā)的《新一代人工智能發(fā)展規(guī)劃》中提到,推動人工智能在醫(yī)療健康領(lǐng)域的應(yīng)用研究,建立快速精準(zhǔn)的智能醫(yī)療體系,加快“數(shù)字健康”向“數(shù)智健康”轉(zhuǎn)型。腫瘤數(shù)智診療即結(jié)合數(shù)字與智能技術(shù)輔助開展腫瘤診療,對腫瘤患者的基本信息、影像、病理、基因檢測等數(shù)據(jù)進行整合,通過分析數(shù)據(jù)中的隱含關(guān)系,在疾病預(yù)防、輔助診斷、藥物研發(fā)、治療反應(yīng)和預(yù)后評估等方面展開研究,提升總體腫瘤精準(zhǔn)診治能力,解決醫(yī)療資源緊缺[4]。本文將對數(shù)智技術(shù)在腫瘤輔助診療的發(fā)展方向和研究現(xiàn)狀進行綜述,并討論在數(shù)智技術(shù)快速發(fā)展的背景下,腫瘤數(shù)智診療研究中存在的問題和建議。
數(shù)智診療模型的建立基于兩個元素:數(shù)據(jù)和算法。一些醫(yī)學(xué)數(shù)據(jù)本身即為數(shù)據(jù)格式,如患者基本信息(年齡、性別、身高、體質(zhì)量等)、臨床檢驗數(shù)據(jù);而另一些數(shù)據(jù)則需要進行二次統(tǒng)計表征,如患者主觀感受或某些癥狀表現(xiàn),病理數(shù)據(jù)、影像學(xué)數(shù)據(jù)以及多組學(xué)基因測序數(shù)據(jù)。構(gòu)建數(shù)智診療模型的第一步便是處理數(shù)據(jù)信息,適當(dāng)?shù)厍逑磾?shù)據(jù)(異常值處理、數(shù)據(jù)標(biāo)準(zhǔn)化、特征選擇等),再通過算法將特征與患者的臨床表現(xiàn)、表型、預(yù)后、治療反應(yīng)等進行大樣本訓(xùn)練[5-7]。
在算法選擇方面,傳統(tǒng)機器學(xué)習(xí)算法如隨機森林[8]和支持向量機[9]仍被廣泛應(yīng)用,隨機森林通過分別使用不同的特征訓(xùn)練多棵決策樹模型,最后再結(jié)合所有的模型綜合給出預(yù)測結(jié)果;支持向量機通過給定的特征通過數(shù)學(xué)方法嘗試找到一個能夠以最大間隔把兩個類別分開的決策邊界從而給出預(yù)測。深度學(xué)習(xí)算法如U-Net[10]、快速的基于區(qū)域的卷積神經(jīng)網(wǎng)[11]、目標(biāo)檢測算法(YOLO)[12]等則廣泛應(yīng)用于醫(yī)學(xué)圖像的分割和病灶檢測等任務(wù)。然而這些深度網(wǎng)絡(luò)的訓(xùn)練通常需要大量的標(biāo)注數(shù)據(jù)。為了減少對這些標(biāo)注數(shù)據(jù)的依賴,研究者們開始嘗試將這些網(wǎng)絡(luò)與自監(jiān)督學(xué)習(xí)方法結(jié)合,如自監(jiān)督算法(BYOL)[13]和SimSiam[14],典型的自監(jiān)督學(xué)習(xí)方法首先會對同一份數(shù)據(jù)進行不同的數(shù)據(jù)增強操作,如旋轉(zhuǎn)、拉伸、遮擋或調(diào)節(jié)對比度,而這些增強數(shù)據(jù)會被輸入到同一個網(wǎng)絡(luò)結(jié)構(gòu)的編碼器中(如UNet 的編碼器)。目標(biāo)是讓網(wǎng)絡(luò)對經(jīng)過不同增強的數(shù)據(jù)產(chǎn)生相似的表示或向量,確保網(wǎng)絡(luò)的編碼器能夠提取數(shù)據(jù)的內(nèi)在特征,進而根據(jù)不同的任務(wù)進一步進行微調(diào)。在微調(diào)中,將采用先前通過自監(jiān)督方法預(yù)訓(xùn)練的編碼器,并在其后附加特定的解碼器(如U-Net 或YOLO 的解碼器或者多層感知器等等)。這樣組成的完整網(wǎng)絡(luò)結(jié)構(gòu)隨后使用標(biāo)注數(shù)據(jù)進行進一步的訓(xùn)練,以適應(yīng)特定任務(wù),如腫瘤分割或病灶檢測,常見的神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)有全連接神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)(常用于文本/時間系列任務(wù))、卷積神經(jīng)網(wǎng)絡(luò)(常用于圖像任務(wù))等。這種結(jié)合自監(jiān)督學(xué)習(xí)的策略,使得在標(biāo)注數(shù)據(jù)受限的情境下,仍然能夠訓(xùn)練出性能卓越的模型(圖1)。
腫瘤數(shù)智診療模型的應(yīng)用主要分為以下幾個方面:1)利用患者的基本信息、臨床檢驗、影像檢查等數(shù)據(jù)輔助進行臨床診斷。2)通過患者的精準(zhǔn)診斷信息,對患者的治療方案提出建議,治療反應(yīng)進行預(yù)測。3)通過診斷、治療以及個人基本信息等對患者的預(yù)后進行預(yù)測,以提示臨床的預(yù)見反應(yīng)。
腫瘤的精準(zhǔn)診斷是精準(zhǔn)治療的基礎(chǔ)。惡性腫瘤常呈高侵襲性,或伴有微衛(wèi)星灶,在影像學(xué)上難以精準(zhǔn)鑒別,更有部分惡性腫瘤早期在影像學(xué)或組織學(xué)上呈“良性表現(xiàn)”,卻在短期內(nèi)快速惡化。國內(nèi)腫瘤的診療現(xiàn)已步入多學(xué)科協(xié)作診療(multidisciplinary team,MDT)時代,即由外科醫(yī)生、影像、病理、藥學(xué)、護理等多領(lǐng)域人員組成的MDT 團隊協(xié)助診療,在多方專業(yè)意見下,腫瘤的診療水平得以提高[15]。然而組建高水平的MDT 團隊,提高MDT 開展率并不容易,特別是在基層醫(yī)院[16]。
圖1 腫瘤數(shù)智診療模型建立的簡要過程及常用的人工智能算法
數(shù)智輔助診斷可基于多學(xué)科數(shù)據(jù)進行大樣本訓(xùn)練,并綜合多重信息給予客觀的診斷結(jié)果。腫瘤數(shù)智診療在輔助診斷方面的研究可分為主要的兩個方向:1)利用人工智能技術(shù)對病理圖像進行分割、識別與分析。如在乳腺癌中,利用深度學(xué)習(xí)算法從全視野數(shù)字切片中識別并分割出腫瘤區(qū)域,結(jié)果表明在限制時間的診斷模擬中,人工智能算法能媲美病理專家(AUC:0.994vs.0.810,P<0.001)[17]。2)通過對臨床影像學(xué)數(shù)據(jù)進行特征分析,對患者分子病理特征進行預(yù)測。如Park 等[18]通過提取彌散和擴張MRI 成像的特征,對異檸檬酸脫氫酶(isocitrate dehydrogenase,IDH)野生型膠質(zhì)瘤的受體酪氨酸激酶(receptor tyrosine kinases,RTKs)、P53、視網(wǎng)膜母細(xì)胞瘤腫瘤抑制通路(retinoblastoma,RB)表達(dá)情況進行訓(xùn)練,構(gòu)建模型用于表征核心信號通路,對于RTK 通路預(yù)測的AUC 值為0.88,P53 通路為0.76,RB 通路為0.81,可指導(dǎo)IDH 野生型膠質(zhì)母細(xì)胞瘤的靶向治療。
腫瘤的治療包括手術(shù)治療、靶向治療、免疫治療等[19]。人工智能輔助識別實體腫瘤邊界,可以幫助外科醫(yī)生在術(shù)中實現(xiàn)腫瘤全切,降低術(shù)后復(fù)發(fā)風(fēng)險,如Cao 等[20]使用深度學(xué)習(xí)模型對早期肝細(xì)胞癌(腫瘤大小≤5 cm)患者進行微血管侵犯狀態(tài)的術(shù)前預(yù)測,在訓(xùn)練集和驗證集中的準(zhǔn)確率達(dá)99.1%和97.2%,可為手術(shù)切除方案提供參考。腫瘤靶向治療通過靶向關(guān)鍵惡性基因以清除腫瘤[21],而免疫治療則通過逆轉(zhuǎn)腫瘤微環(huán)境的免疫抑制狀態(tài),增加抗原提呈,激活殺傷性T細(xì)胞,靶向腫瘤抗原,而對腫瘤細(xì)胞進行自體清除[22]。患者的靶向或免疫治療方案應(yīng)基于患者腫瘤的分子病理信息,建立定制化的治療方案。結(jié)合數(shù)智技術(shù)研究病理形態(tài)學(xué)與分子表型間的關(guān)系,在開發(fā)靶向治療、免疫治療標(biāo)志物上具有明顯優(yōu)勢。Denkert 等[23]通過量化乳腺癌活檢病理中腫瘤浸潤淋巴細(xì)胞與乳腺癌不同亞型對化療敏感性的關(guān)系證實,不同亞型的免疫微環(huán)境中存在不同免疫學(xué)滲透,未來或有助于采取免疫調(diào)節(jié)治療方法治療乳腺癌。Shamai 等[24]通過深度學(xué)習(xí)算法,從3 376 例乳腺癌患者隊列的蘇木精-伊紅染色圖像中,準(zhǔn)確預(yù)測了程序性死亡受體配體 1 表達(dá),AUC 值為0.91~0.93,有望輔助應(yīng)用于臨床。另外,Jiang 等[25]綜合了腫瘤內(nèi)的多種免疫逃逸機制,設(shè)計了一個計算架構(gòu):腫瘤免疫功能障礙和排斥評分,該架構(gòu)可很好地預(yù)測腫瘤患者對免疫治療的反應(yīng),從而指導(dǎo)患者的臨床治療方案。由此可見,數(shù)智技術(shù)可更好地結(jié)合患者病理、分子分型的特點,對患者的治療反應(yīng)和治療方案提供更精準(zhǔn)指導(dǎo)。
作為診療評估的重要一環(huán),精準(zhǔn)預(yù)測預(yù)后可實現(xiàn)治療方案的動態(tài)調(diào)整,也可評估療效。Jiang 等[26]利用術(shù)前計算機斷層掃描影像訓(xùn)練多任務(wù)深度學(xué)習(xí)模型,可以準(zhǔn)確預(yù)測胃癌患者的腹膜復(fù)發(fā)和生存,在訓(xùn)練集、內(nèi)部驗證隊列和外部驗證隊列均具有較高準(zhǔn)確率,AUC 值分別為0.857、0.856、0.843(圖2)。Wang 等[27]通過從計算機斷層掃描影像中挖掘全肺信息構(gòu)建全肺人工智能模型,實現(xiàn)無創(chuàng)性預(yù)測EGFR 基因型和EGFR-TKI 治療的預(yù)后,在6 個獨立隊列中實現(xiàn)了AUC 為0.748~0.813。術(shù)后并發(fā)癥是影響腫瘤患者術(shù)后康復(fù)和預(yù)后的重要因素,不僅增加醫(yī)療費用,并且增加患者圍手術(shù)期的死亡率,因此早期識別術(shù)后并發(fā)癥高?;颊卟⑻崆安扇「深A(yù)顯得格外重要。Mazo 等[28]通過外部驗證的術(shù)后肺部并發(fā)癥風(fēng)險預(yù)測模型,提出7 項與術(shù)后肺部并發(fā)癥相關(guān)的獨立危險因素。Bilimoria 等[29]利用來自393 家美國外科學(xué)院國家手術(shù)質(zhì)量改進計劃(ACS NSQIP)醫(yī)院的標(biāo)準(zhǔn)化臨床數(shù)據(jù),開發(fā)了基于21 個術(shù)前因素的回歸模型,以預(yù)測術(shù)后30 天內(nèi)發(fā)生各種圍手術(shù)期并發(fā)癥的風(fēng)險,該模型在死亡率和發(fā)病率方面具有出色的性能,c 指數(shù)為0.944和0.816,已被認(rèn)可用于為患者提供相關(guān)并發(fā)癥的咨詢。但值得注意的是,Donadon 等[30]評估了該模型預(yù)測肝切除術(shù)后結(jié)果的能力,發(fā)現(xiàn)該模型計算器低估了肝切除術(shù)后并發(fā)癥、死亡率和術(shù)后住院時間的風(fēng)險。今后在腫瘤數(shù)智診療模型開發(fā)和優(yōu)化中,需要基于腫瘤特異性的臨床信息和數(shù)據(jù),對腫瘤患者圍手術(shù)期并發(fā)癥、治療反應(yīng)等進行更精準(zhǔn)地預(yù)測。
目前,腫瘤數(shù)智診療模型在多領(lǐng)域研究人員的參與下發(fā)展迅速,但腫瘤實際診療水平的進步遠(yuǎn)落后于腫瘤智能診療模型的更新速度。這種情況不利于明確數(shù)智診療模型的發(fā)展方向,甚至?xí)速M大量醫(yī)療和科研資源,也影響數(shù)智診療模型與診療水平的整體進步。
人工智能技術(shù)以數(shù)據(jù)為基本元素,不同醫(yī)療機構(gòu)之間缺乏統(tǒng)一的信息化病例結(jié)構(gòu)或信息交換接口:1)直接影響數(shù)據(jù)的收集,樣本的數(shù)量與質(zhì)量均難以保障,以此為基礎(chǔ)構(gòu)建的模型質(zhì)量也更加參差不齊。2)影響模型的應(yīng)用與推廣,研究者之間使用的數(shù)據(jù)來源未經(jīng)統(tǒng)一質(zhì)控、批次校準(zhǔn)、標(biāo)準(zhǔn)化等,基于某一數(shù)據(jù)平臺獲取的高性能模型在不同平臺的數(shù)據(jù)集中表現(xiàn)不一,造成現(xiàn)在的大量模型仍停留在研究階段,成為“無用模型”。允許現(xiàn)有平臺差異存在,建立統(tǒng)一的數(shù)智服務(wù)的大數(shù)據(jù)平臺或是目前有效的解決方式。
無論是構(gòu)建針對特定疾病的輔助診療系統(tǒng),還是診療模型的實際臨床應(yīng)用,都需要醫(yī)務(wù)工作者參與指導(dǎo)并具體實施:1)醫(yī)學(xué)專家可以提供權(quán)威的醫(yī)學(xué)知識和豐富的臨床經(jīng)驗,對構(gòu)建規(guī)范統(tǒng)一的醫(yī)學(xué)信息系統(tǒng)和內(nèi)容準(zhǔn)確完備的知識圖譜具有指導(dǎo)作用,但中國人均優(yōu)質(zhì)醫(yī)療資源極度緊缺,經(jīng)驗豐富的醫(yī)學(xué)專家往往忙于臨床診療,難以投入大量精力參與到相關(guān)研究工作當(dāng)中。2)醫(yī)務(wù)工作者作為數(shù)智診療模型的實際應(yīng)用者,從對研究模型的理解到合理應(yīng)用也需要大量的時間成本,一些醫(yī)生與專家雖期待人工智能能夠為診療方式帶來變革,但卻仍難以提高參與度。因此,應(yīng)當(dāng)增強跨領(lǐng)域人才培養(yǎng)培訓(xùn),加強醫(yī)務(wù)工作者利用人工智能輔助醫(yī)療流程的思維方式與能力,改變傳統(tǒng)的工作流程與習(xí)慣[31],提高醫(yī)療工作人員在數(shù)智領(lǐng)域的參與質(zhì)量,既可產(chǎn)出更加規(guī)范統(tǒng)一的數(shù)智模型,也能增加數(shù)智模型的實際臨床應(yīng)用率,提高腫瘤的數(shù)智診療水平,推動該領(lǐng)域快速健康發(fā)展。
圖2 數(shù)據(jù)驅(qū)動和知識引導(dǎo)相結(jié)合的腫瘤數(shù)智診療研究范式
1)患者的數(shù)據(jù)共享涉及到患者的隱私和數(shù)據(jù)保護問題,在數(shù)智模型構(gòu)建及應(yīng)用過程中具有隱私泄露風(fēng)險:2)人工智能在醫(yī)療領(lǐng)域應(yīng)用的相關(guān)政策法規(guī)還不完善,即使是具有相關(guān)研究背景的醫(yī)療人員,也不敢輕易在醫(yī)療場景中引入人工智能技術(shù)。因此,應(yīng)明確數(shù)智診療技術(shù)在腫瘤領(lǐng)域應(yīng)用的定位,數(shù)智診療并非旨在替代醫(yī)療工作,而是充當(dāng)輔助工具,而如何防控和規(guī)避人工智能技術(shù)帶來的風(fēng)險仍值得深思。
如前所述,目前普遍的數(shù)智診療模型,在其實現(xiàn)過程中主要為對醫(yī)療數(shù)據(jù)進行采集,通過數(shù)據(jù)產(chǎn)生模型來進行醫(yī)療決策,而在此過程中,用于構(gòu)建模型的特征的作用往往僅具有數(shù)據(jù)上的可解釋性,而難以得到生物學(xué)解釋上的認(rèn)可,因此難以直接用于指導(dǎo)臨床決策,這是限制其發(fā)揮臨床作用的重要原因。知識圖譜作為一種應(yīng)對互聯(lián)網(wǎng)當(dāng)中海量而零散信息的高效檢索需求所設(shè)計的語義網(wǎng)絡(luò)結(jié)構(gòu),對大規(guī)模數(shù)據(jù)及數(shù)據(jù)實體之間的關(guān)系具有較強的表達(dá)和管理能力[32]。利用知識引導(dǎo)建立的智能診療模型將具有更佳的可解釋性。
知識引導(dǎo)的智能診療模型,即從數(shù)據(jù)中獲取知識,對知識進行整合,再用知識引導(dǎo)數(shù)據(jù)分析。從基因組學(xué)時代對于成人彌漫性膠質(zhì)瘤分類的研究顯示,2007年WHO 對于膠質(zhì)瘤的病理分類主要依賴于臨床病理組織學(xué)、影像學(xué)表現(xiàn)[33],隨著大量測序數(shù)據(jù)逐漸揭示IDH 基因突變與患者預(yù)后的關(guān)系[34-35],并對IDH 基因突變的功能進行了“可解釋性”研究[36]。WHO 在2016 年的分類中將IDH 突變狀態(tài)這一知識進行整合[37],之后無論是預(yù)后風(fēng)險模型還是影像組學(xué)特征模型的構(gòu)建中,均將IDH 突變狀態(tài)作為重要特征之一。此后逐漸發(fā)現(xiàn),基于2016 年的分類,在臨床工作中也出現(xiàn)了許多難以預(yù)測的情況發(fā)生,如某些IDH 野生型患者,雖然組織學(xué)為WHO 分類2~3 級表現(xiàn),但其進展卻極為迅速,整體生存預(yù)后甚至相似于惡性程度最高的WHO 分類4 級的膠質(zhì)母細(xì)胞瘤[38]。因此,中樞神經(jīng)系統(tǒng)腫瘤分類分子信息及實踐方法聯(lián)盟-非WHO 官方組織(cIMPACT-NOW)針對這些臨床中出現(xiàn)的問題進行了研究[39],通過對其基因數(shù)據(jù)分析發(fā)現(xiàn)新的膠質(zhì)瘤患者預(yù)后影響特征,即EGFR 突變、7 號染色體擴增/10 號染色體的缺失等[40]。2021 年WHO發(fā)布了新的分類,除了進一步強調(diào)了IDH 突變狀態(tài)在膠質(zhì)瘤分類中的作用,更是整合了cIMPACT-NOW的研究成果,將新的特征也納入了膠質(zhì)瘤的診療體系[41]。
目前,國內(nèi)外都在不斷對各類腫瘤的診療指南進行整合更新,指南的不斷推出既是腫瘤診療模型的推陳出新,也是腫瘤知識圖譜的不斷擴充。腫瘤數(shù)智診療模型的建立應(yīng)當(dāng)以這種不斷整合知識,更新知識圖譜的形式進行構(gòu)建。
在腫瘤診斷、治療預(yù)測和選擇、預(yù)后評估等方面,數(shù)智診療模型均展現(xiàn)出良好應(yīng)用前景,但模型構(gòu)建仍以數(shù)據(jù)驅(qū)動為主,在來源廣泛、質(zhì)量不一的數(shù)據(jù)背景下難以得到廣泛應(yīng)用。醫(yī)療信息化程度不統(tǒng)一、測序平臺不同、檢查檢測設(shè)備不統(tǒng)一等問題,使得電子病歷數(shù)據(jù)格式不一、檢驗數(shù)據(jù)難以標(biāo)準(zhǔn)化、影像數(shù)據(jù)不完善等,從而產(chǎn)生了大量的“數(shù)據(jù)孤島”。知識引導(dǎo)的數(shù)智模型構(gòu)建可以將“孤島”的有效信息連接起來。通過對數(shù)據(jù)模型進行理解和總結(jié)歸納,從數(shù)據(jù)中獲取新的知識,通過貫通知識構(gòu)建知識圖譜,引導(dǎo)新的數(shù)據(jù)模型生成,從而可以有效地解決“數(shù)據(jù)孤島”的問題,更好地應(yīng)用于醫(yī)療決策。在今后的研究中需要注意的方面:1)應(yīng)更加注重研究平臺的統(tǒng)一,產(chǎn)生可用的高質(zhì)量醫(yī)療數(shù)據(jù)。2)在研究過程中,應(yīng)積極構(gòu)建腫瘤的知識體系,通過腫瘤的危險因素、影像學(xué)、病理學(xué)特征等知識圖譜的構(gòu)建,不斷地從豐富的臨床數(shù)據(jù)中獲取可解釋的“新知識”,并用于引導(dǎo)新的模型構(gòu)建。通過數(shù)據(jù)驅(qū)動與知識引導(dǎo)相結(jié)合的腫瘤數(shù)智診療研究范式,相信在不久的將來,臨床腫瘤的MDT 團隊中將出現(xiàn)AI 的身影,在基層醫(yī)院中則也將出現(xiàn)人機結(jié)合,實現(xiàn)多病種的覆蓋,降低誤診、漏診率,提升腫瘤的整體診療水平。
本文無影響其科學(xué)性與可信度的經(jīng)濟利益沖突。