陳明揚,蔡紫庭,薛 鵬,江 宇,喬友林
(北京協(xié)和醫(yī)學(xué)院 群醫(yī)學(xué)及公共衛(wèi)生學(xué)院,北京 100005)
人工智能(artificial intelligence, AI)是計算機科學(xué)領(lǐng)域的一個分支,包括任何利用機器模擬人類智能解決問題或進(jìn)行決策的技術(shù)。AI的歷史可追溯到20世紀(jì)50年代, 計算機科學(xué)家Alan Turing于1950年發(fā)表了一篇劃時代的論文,預(yù)言了計算機模擬人腦執(zhí)行任務(wù)的可能性[1]。在1956年美國達(dá)特茅斯學(xué)院的一次研討會上,John McCarthy首次提出“人工智能”這一概念,標(biāo)志著AI學(xué)科的誕生[2]。1956年之后的十幾年是AI發(fā)展的黃金年代,直至70年代初,AI缺乏有效研究進(jìn)展,使其遭遇了第一次低谷。此后幾十年,隨著數(shù)據(jù)的爆發(fā)性增長、算法的不斷創(chuàng)新以及計算機性能的穩(wěn)步提升,AI已在許多領(lǐng)域取得突破性進(jìn)展,包括腫瘤領(lǐng)域。
AI有3大基本要素: 數(shù)據(jù)、 算法和算力。數(shù)據(jù)是AI的基礎(chǔ)、AI的“糧食”,基于大數(shù)據(jù)進(jìn)行大量訓(xùn)練,總結(jié)規(guī)律,再應(yīng)用于新的樣本,是AI的基本思路。腫瘤防控中,AI的數(shù)據(jù)類型包括影像學(xué)、病理學(xué)、電子健康數(shù)據(jù)和組學(xué)數(shù)據(jù),從結(jié)構(gòu)化的一維數(shù)據(jù)到非結(jié)構(gòu)化的高維數(shù)據(jù)均有所覆蓋[3]。算法是AI的“大腦”,爆發(fā)增長的數(shù)據(jù)對算法提出了更高要求。主流的AI算法主要分為傳統(tǒng)機器學(xué)習(xí)(machine learning,ML)算法和神經(jīng)網(wǎng)絡(luò)算法,目前神經(jīng)網(wǎng)絡(luò)算法因深度學(xué)習(xí)(deep learning,DL)的快速發(fā)展逐漸成為研究熱點。DL是包含大量隱層的神經(jīng)網(wǎng)絡(luò),當(dāng)傳統(tǒng)ML學(xué)習(xí)能力有限時,DL可通過增加數(shù)據(jù)量提升學(xué)習(xí)性能。主要的DL算法有卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)、全卷積網(wǎng)絡(luò)(fully convolutional network,F(xiàn)CN)、循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)和生成對抗網(wǎng)絡(luò)(generative adversarial network,GAN)[4]。算力即計算能力,是AI的“身體”,支撐著算法和數(shù)據(jù)。算力依附于設(shè)備之上,常見的算力設(shè)備有CPU、GPU、TPU、NPU等。在腫瘤領(lǐng)域,一位患者就可以產(chǎn)生上百張醫(yī)學(xué)影像圖片,需要處理的數(shù)據(jù)集龐大,對AI系統(tǒng)算力的需求加速膨脹。主流CPU在計算能力上距支撐快速迭代要求的算力水準(zhǔn)還有較大差距,而GPU的靈活性、效率性、與人工智能算法的適應(yīng)性更高,成為AI計算需求量最大的芯片。
從國家藥品監(jiān)督管理局(NMPA)公布的人工智能醫(yī)療器械獲批情況可以看出,自2020年以來,已有超過20款產(chǎn)品獲得NMPA認(rèn)證,10余款基于深度學(xué)習(xí)技術(shù)并可應(yīng)用于腫瘤領(lǐng)域,主要集中在顱內(nèi)腫瘤、肺結(jié)節(jié)等領(lǐng)域。表1列出了較有代表性的獲批產(chǎn)品,其應(yīng)用場景多集中于病灶分割,輔助診斷的產(chǎn)品較少。其中,肺結(jié)節(jié)CT影像輔助檢測軟件居多,主要用于胸部CT影像處理、肺結(jié)節(jié)自動識別與測量、自動生成報告,以作為肺癌早期篩查和診斷的參考。與之相比,美國FDA認(rèn)證的基于深度學(xué)習(xí)的人工智能醫(yī)療產(chǎn)品(表2)覆蓋的癌癥種類更多,以肺癌和乳腺癌為主,還包括前列腺癌、腦癌、肝癌等。
表1 經(jīng)中國NMPA認(rèn)證的基于深度學(xué)習(xí)的腫瘤相關(guān)人工智能醫(yī)療產(chǎn)品
續(xù)表1
表2 經(jīng)美國FDA認(rèn)證的基于深度學(xué)習(xí)的腫瘤相關(guān)人工智能醫(yī)療產(chǎn)品
2016至2022年期間認(rèn)證的23款產(chǎn)品中,各有7項與乳腺癌、 肺癌有關(guān), 其應(yīng)用場景包括風(fēng)險預(yù)測、輔助篩查、輔助診斷和治療等多個方面。
Kann等人回顧了AI在腫瘤風(fēng)險預(yù)測、篩查、診斷、風(fēng)險分層和預(yù)后、初始治療策略、反應(yīng)評估、后續(xù)治療和隨訪中的重要研究[5];Bi等人結(jié)合肺癌、腦癌、乳腺癌和膀胱癌的應(yīng)用實例,梳理基于影像學(xué)的AI在腫瘤的檢測、表征和監(jiān)測方面的研究進(jìn)展[6]。但目前AI最成熟的應(yīng)用仍是利用圖像資料進(jìn)行腫瘤的篩查和診斷[7]。腫瘤的預(yù)后很大程度上取決于腫瘤的類型和診斷時的分期,若其在發(fā)展早期被檢測出來,則預(yù)后相對良好。AI可以檢測出人眼容易忽視的微小病變,降低漏診率, 使醫(yī)生從重復(fù)閱片工作中解脫, 投入更多精力到與患者的互動中,從而提升醫(yī)療質(zhì)量。然而,AI也可能會產(chǎn)生相反的效果,這取決于AI系統(tǒng)的準(zhǔn)確性以及醫(yī)生與AI的互動機制。
2021年的一篇系統(tǒng)綜述評估了AI在乳房X線篩查實踐中檢測乳腺癌的準(zhǔn)確性[8]。在被評估的36個AI系統(tǒng)中,有34個(94%)的準(zhǔn)確度低于單個放射科醫(yī)師的診斷準(zhǔn)確度。雖有5項研究報告AI系統(tǒng)比單個放射科醫(yī)師的診斷結(jié)果更準(zhǔn)確,但存在樣本量小、偏倚風(fēng)險高和外推性差等缺陷。此外,該綜述發(fā)現(xiàn)目前缺乏在真實篩查情景下評估AI診斷準(zhǔn)確性的前瞻性研究。英國國家篩查委員會審查AI在乳腺癌篩查中的證據(jù)的方法中總結(jié)了多閱片者多病例(multiple-reader, multiple-case, MRMC)試驗、回顧性比較研究、前瞻性比較研究、隨機對照試驗4類研究設(shè)計的價值和局限,強調(diào)未來需要更多前瞻性研究來評估將AI系統(tǒng)納入常規(guī)乳腺癌篩查的效果[9]。Ardila等人利用CT圖像構(gòu)建深度學(xué)習(xí)算法來預(yù)測肺癌發(fā)生風(fēng)險,該算法在內(nèi)部和外部驗證集中都達(dá)到良好的預(yù)測性能,且優(yōu)于6名放射科醫(yī)生,使肺癌假陽性和假陰性結(jié)果分別減少了11%和5%[10]。Hassan等人在一篇有關(guān)AI輔助腸鏡用于腺瘤和息肉檢測性能的系統(tǒng)綜述中納入了5篇隨機對照試驗,發(fā)現(xiàn)AI顯著提升了結(jié)直腸腺瘤檢出率[11]。Jones等人開展了一項關(guān)于AI早期檢測皮膚癌的系統(tǒng)綜述,綜合了272篇相關(guān)研究的數(shù)據(jù),得到AI對黑色素瘤、鱗狀細(xì)胞癌和基底細(xì)胞癌的平均診斷準(zhǔn)確性分別為89.5%、85.3%和87.6%[12],但只有兩項研究使用的數(shù)據(jù)來自社區(qū)或初級醫(yī)療機構(gòu)的低皮膚癌患病率人群,故作者不建議在初級醫(yī)療機構(gòu)廣泛采用皮膚癌AI診斷系統(tǒng)。Xue等人通過系統(tǒng)綜述發(fā)現(xiàn),基于陰道鏡圖像和基于細(xì)胞學(xué)圖像的深度學(xué)習(xí)算法均在宮頸癌診斷中表現(xiàn)出良好性能[13],但作者強調(diào)這一發(fā)現(xiàn)基于的原始研究質(zhì)量普遍較差,可能高估了深度學(xué)習(xí)算法的診斷表現(xiàn)。
陰道鏡診斷和定向活檢是宮頸癌篩查程序的關(guān)鍵組成部分,但高年資陰道鏡醫(yī)生的短缺、對主觀經(jīng)驗的依賴、操作者之間的差異,都限制了陰道鏡在宮頸癌篩查中的表現(xiàn),尤其對于中低收入國家。而AI具有一致性好、效率高等優(yōu)勢,為解決這一問題帶來機遇。中國的一項多中心回顧性研究用6家醫(yī)院的19 435例患者的陰道鏡圖像開發(fā)并驗證了人工智能陰道鏡輔助診斷系統(tǒng),該系統(tǒng)診斷結(jié)果與病理金標(biāo)準(zhǔn)之間的一致率為82.3%,顯著高于陰道鏡醫(yī)生與金標(biāo)準(zhǔn)之間的一致率(65.9%),且在預(yù)測活檢位點中展現(xiàn)出良好性能[14]。未來建立基于人工智能陰道鏡的自動化篩查流程,有望提高中低收入國家的宮頸癌篩查能力,緩解醫(yī)療資源短缺,助力加速全球消除宮頸癌。
AI是數(shù)據(jù)驅(qū)動的研究方法,大量高質(zhì)量的數(shù)據(jù)是建立可靠AI算法的基礎(chǔ)。腫瘤輔助診斷AI的訓(xùn)練往往需要大量圖像,而Wen等人通過系統(tǒng)梳理現(xiàn)有的21個皮膚圖像公開數(shù)據(jù)庫[15],發(fā)現(xiàn)數(shù)據(jù)庫中報告的關(guān)鍵特征和元數(shù)據(jù)有限且多變、地理分布受限、對深色皮膚類型的代表性明顯不足,限制了其在真實臨床場景中的應(yīng)用。而此類問題不僅限于皮膚圖像,在放射科、眼科、病理學(xué)、胃腸病學(xué)中也有報道[16-17]。健康數(shù)據(jù)貧乏,即由于缺乏具有充分代表性的數(shù)據(jù)使部分個人或群體無法從中受益,是導(dǎo)致數(shù)字健康鴻溝不斷擴大的一個根本原因[18]。而造成健康數(shù)據(jù)貧乏的原因包括對傳輸患者健康信息的擔(dān)憂、機構(gòu)間數(shù)據(jù)共享基礎(chǔ)設(shè)施的缺乏、數(shù)據(jù)收集的異質(zhì)性和不完整性。目前學(xué)界越來越重視簡化數(shù)據(jù)采集,強調(diào)建立各類圖像數(shù)據(jù)庫的最低特征和元數(shù)據(jù)報告的質(zhì)量標(biāo)準(zhǔn),提高數(shù)據(jù)透明度,并使用已定義的標(biāo)準(zhǔn)進(jìn)行前瞻性圖像收集,以確保良好的人群代表性。此外,多機構(gòu)數(shù)據(jù)共享協(xié)議也被提出以支持可發(fā)現(xiàn)、可訪問、可互操作、可重用的數(shù)據(jù)使用[19]。
算法可解釋性較差是AI發(fā)展的一大瓶頸,然而良好的算法性能和較高的可解釋性在現(xiàn)階段往往無法兼具。因此,如何將黑盒決策轉(zhuǎn)化為透明過程并建立醫(yī)生對機器的信任是近年的研究熱點。有學(xué)者將黑盒決策的解釋方式分為視覺解釋方法、基于擾動的解釋方法、基于知識的解釋方法和因果解釋方法,并提出針對AI可解釋方法的主觀和客觀評價指標(biāo)[20]。在腫瘤的診療過程中,錯誤預(yù)測可能會造成漏診、誤診,甚至危及患者生命安全,這使醫(yī)生在使用AI進(jìn)行決策時更為謹(jǐn)慎,醫(yī)生需要如AI系統(tǒng)訓(xùn)練所用數(shù)據(jù)、模型構(gòu)建過程和參數(shù)等更詳細(xì)的信息,以幫助其判斷AI的結(jié)果是否可靠。然而,目前許多臨床研究存在方法學(xué)報告模糊、標(biāo)準(zhǔn)化命名缺乏和結(jié)局指標(biāo)的異質(zhì)性等問題,限制了AI技術(shù)的下游評估和其在真實世界中發(fā)揮作用[21]。因此,許多知名的研究報告指南已頒布或正在開發(fā)AI版本[22]。2020年9月發(fā)布了涉及AI干預(yù)措施的臨床試驗報告指南SPIRIT-AI[23]和CONSORT-AI[24]。目前正在開發(fā)的還有診斷準(zhǔn)確性研究報告標(biāo)準(zhǔn)STARD-AI[21]和個人預(yù)后或診斷的多變量預(yù)測模型的透明報告TRIPOD-AI等[25]。日后的AI研究應(yīng)嚴(yán)格遵循上述標(biāo)準(zhǔn),使研究透明化和標(biāo)準(zhǔn)化,為腫瘤防治策略的優(yōu)化提供高質(zhì)量證據(jù)。
從應(yīng)用層面來看,許多在研發(fā)階段表現(xiàn)良好的AI系統(tǒng)在真實世界中卻表現(xiàn)不佳,這是由于AI系統(tǒng)在開發(fā)階段所使用的人群、對照、終點結(jié)局均與真實世界相差甚遠(yuǎn),且鮮有前瞻性的、利用外部驗證集的研究設(shè)計,與人類專家進(jìn)行比較的研究則更少。Walter等人于2019年開發(fā)了CanTest框架,形成了新診斷試驗從開發(fā)到實施和評估的清晰轉(zhuǎn)化路徑[26]。該框架包括5個迭代研究階段,研究場景從高度選擇性的人群到真實世界人群,干預(yù)設(shè)計從單一的診斷試驗到臨床上多種診斷方式相結(jié)合的策略,對照從金標(biāo)準(zhǔn)到醫(yī)生常規(guī)診療,結(jié)果評估從診斷試驗的準(zhǔn)確性到人群整體收益和成本。Kleppe等人也提出深度學(xué)習(xí)系統(tǒng)在醫(yī)學(xué)應(yīng)用中的4個開發(fā)等級和2個臨床試驗評估階段[27],他強調(diào)要通過前瞻性的隨機對照試驗來對比常規(guī)醫(yī)療表現(xiàn)和整合AI后的醫(yī)療表現(xiàn),從而評估AI系統(tǒng)在特定臨床情景中的效用。同時也需監(jiān)測獲批后的AI系統(tǒng)應(yīng)用于醫(yī)療實踐中的長期利益、危害和成本,并根據(jù)真實世界中獲得的數(shù)據(jù)及時調(diào)整更新AI系統(tǒng)。
AI的飛速發(fā)展同樣凸顯出該領(lǐng)域的法規(guī)和監(jiān)管機制不夠完善及許多倫理問題。對此,世界衛(wèi)生組織于2021年發(fā)布的《醫(yī)療衛(wèi)生中人工智能的倫理治理》指南中提出保護(hù)人類自主權(quán)、促進(jìn)人類福祉和安全以及公共利益,確保透明性和可解釋性、發(fā)展責(zé)任和問責(zé)制、確保包容性和公平性、促進(jìn)響應(yīng)性和可持續(xù)性的6大原則,旨在對醫(yī)療實踐中部署AI提供理論指導(dǎo)框架[28]。醫(yī)生是醫(yī)學(xué)AI的直接使用者,其對AI的接受度影響著AI能否順利整合至臨床實踐。但目前大部分醫(yī)生幾乎沒有接受過數(shù)據(jù)科學(xué)和機器學(xué)習(xí)方面的培訓(xùn),這限制了他們理解深度學(xué)習(xí)機制、適當(dāng)采用算法和進(jìn)行研究的能力。同樣,大多數(shù)數(shù)據(jù)科學(xué)家在腫瘤的篩查和管理方面幾乎沒有經(jīng)驗,這限制了其識別重要且適宜的臨床用例的能力。因此,腫瘤科與生物信息學(xué)和數(shù)據(jù)科學(xué)部門之間應(yīng)進(jìn)一步合作,建立戰(zhàn)略伙伴關(guān)系,共同開發(fā)切合臨床需求的AI產(chǎn)品。
由于電子數(shù)據(jù)的爆炸式增長、深度學(xué)習(xí)算法的開創(chuàng)性研究和基礎(chǔ)設(shè)施的進(jìn)步,AI為腫瘤防控帶來新的希望。目前,AI在腫瘤的風(fēng)險預(yù)測、篩查、診斷、治療反應(yīng)評估等關(guān)鍵環(huán)節(jié)均有重要進(jìn)展,其中利用圖像實現(xiàn)腫瘤的早期檢測和診斷是研究最多、發(fā)展最快的領(lǐng)域。然而AI從研發(fā)到臨床應(yīng)用的路上還存在諸多挑戰(zhàn),如健康數(shù)據(jù)貧乏、算法可解釋性差、研究報告不規(guī)范、真實世界研究欠缺、監(jiān)管機制不夠完善、長效評估體系缺失等。未來應(yīng)建立多學(xué)科合作網(wǎng)絡(luò)、搭建數(shù)據(jù)共享平臺、完善法律法規(guī)和監(jiān)管機制,AI相關(guān)研究要從臨床需求出發(fā)、嚴(yán)格遵循已建立的研究報告規(guī)范、開展前瞻性真實世界研究、重視對AI在人群整體層面應(yīng)用的長期效益和成本評估,為腫瘤防控策略的建立和優(yōu)化提供高質(zhì)量證據(jù)。