張蕊,牛麗娟
國家癌癥中心/國家腫瘤臨床醫(yī)學(xué)研究中心/中國醫(yī)學(xué)科學(xué)院北京協(xié)和醫(yī)學(xué)院腫瘤醫(yī)院超聲科,北京 100021
甲狀腺結(jié)節(jié)是一種非常常見的臨床疾病,19%~68%的健康人群存在甲狀腺結(jié)節(jié)[1]。2020年全球腫瘤統(tǒng)計中,甲狀腺癌新發(fā)病例達到了58.6萬例,在所有惡性腫瘤中居第9位[2]。甲狀腺癌在女性中的發(fā)病率是男性的3倍,是中國30歲以下女性中最常見的腫瘤類型。超聲檢查(ultrasound,US)作為一種便捷靈活、安全無輻射的影像診斷工具,是評估甲狀腺結(jié)節(jié)惡性風(fēng)險的首選,并可為細針穿刺細胞學(xué)(fine-needle aspiration,F(xiàn)NA)提供決策信息。但超聲診斷主觀依賴性強,致使不同醫(yī)療水平地區(qū)的超聲醫(yī)師之間,以及同一地區(qū)不同年資超聲醫(yī)師間的診斷水平存在較大偏差。盡管甲狀腺超聲診斷已有較成熟的報告指南,如2015年美國甲狀腺協(xié)會(American Thyroid Association,ATA)頒布的成人甲狀腺結(jié)節(jié)與分化型甲狀腺癌診療指南和美國放射學(xué)會(American College of Radiology,ACR)頒布的甲狀腺影像報告與數(shù)據(jù)系統(tǒng)(thyroid imaging-reporting and data system,TIRADS)分級指南。但對于經(jīng)驗較少的低年資超聲醫(yī)師來說,對聲像圖特征的準確識別和一致解釋仍是具有挑戰(zhàn)性的,通常會導(dǎo)致不必要的FNA和診斷性手術(shù),這不僅給醫(yī)療保健系統(tǒng)帶來了較重的經(jīng)濟負擔(dān),也給患者帶來了相當(dāng)大的心理壓力。
近年來,隨著被稱為“第四次工業(yè)革命”的人工智能(artificial intelligence,AI)的飛速發(fā)展,越來越多的研究致力于將AI應(yīng)用于醫(yī)學(xué)圖像相關(guān)分析以解決相應(yīng)的臨床問題,并取得了大量不俗的成就。AI在自動識別復(fù)雜圖像模式和為成像數(shù)據(jù)提供定量評估方面表現(xiàn)出色,在輔助醫(yī)師獲得更準確和可重復(fù)性結(jié)果中顯示出巨大潛力。US不同于常規(guī)X線、CT、MRI、正電子發(fā)射計算機斷層顯像(position emission tomography,PET)-CT等影像手段,是一種對于操作者依賴性很強的成像方式,因此開發(fā)用以評估圖像并向操作者提供反饋的AI模型對于臨床是大有裨益的,在數(shù)據(jù)采集和測量期間提供指導(dǎo)能使US更智能、更客觀、更準確。本文回顧了近年來AI、機器學(xué)習(xí)(machine learning,ML)和深度學(xué)習(xí)(deep learning,DL)技術(shù)在甲狀腺結(jié)節(jié)US圖像中的研究進展,并從結(jié)節(jié)的分割、分類和診斷、組織病理學(xué)預(yù)測等幾個方面對AI在甲狀腺癌US中的應(yīng)用進行了綜述,最后對其面臨的挑戰(zhàn)和機遇進行了展望。
AI的概念最早是于1955年由McCarthy等提出的,他們將AI描述為一種試圖模擬人類認知功能的計算機程序[3]。它具體包括模擬人類學(xué)習(xí)的過程,以及應(yīng)用和解決復(fù)雜問題的過程。AI在醫(yī)學(xué)中的應(yīng)用有兩個主要分支:虛擬和物理[4]。虛擬部分的代表是ML,它是通過經(jīng)驗改進學(xué)習(xí)的數(shù)學(xué)算法來實現(xiàn)的,是AI的核心,涉及各種技術(shù),包括人工神經(jīng)網(wǎng)絡(luò)(artificial neural network,ANN)、支持向量機(support vector machine,SVM)和隨機森林(random forest,RF)。DL是最先進的ML算法,是1986年提出的基于ANN發(fā)展起來的一類新的計算方法[5-6]。DL算法的典型代表是卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN),在醫(yī)學(xué)圖像分析中應(yīng)用最為廣泛。CNN已經(jīng)擴展出多種網(wǎng)絡(luò)結(jié)構(gòu),包括 AlexNet、VGGNet、GoogLeNet、ResNet和 DenseNet[7]。(圖1)
圖1 人工智能、機器學(xué)習(xí)與深度學(xué)習(xí)之間的關(guān)系
ML算法需要用專業(yè)醫(yī)師定義的人工特征標簽對圖像進行標記,可以看作是將觀察到的輸入數(shù)據(jù)特征映射到輸出結(jié)果中的過程。該算法的目標是最小化已知標簽和預(yù)測標簽之間的差距[8]。與傳統(tǒng)的基于人工輸入特征的ML算法不同,DL能夠?qū)崿F(xiàn)診斷自動化,避免人工干預(yù)。DL算法主要依賴于排列在層中計算單元的多層網(wǎng)絡(luò)結(jié)構(gòu),類似人腦中的神經(jīng)元,它可以逐漸從輸入數(shù)據(jù)中自動提取更高級別的特征。隨著圖形處理能力的快速提高,DL算法越來越先進,這些算法可以用數(shù)百萬張圖像進行訓(xùn)練,并且對圖像的變化具有一定的魯棒性[9]。在醫(yī)學(xué)圖像領(lǐng)域中,DL算法主要應(yīng)用于組織、病灶的探測和分類,疾病進展的預(yù)測分析,以及藥物、治療的療效評估。在甲狀腺結(jié)節(jié)超聲圖像分析方面,DL也越來越受歡迎,常見應(yīng)用包括結(jié)節(jié)的分割、結(jié)節(jié)良惡性的分類和診斷、組織病理學(xué)分型的預(yù)測分析。
分割是AI醫(yī)學(xué)圖像分析的第一步,所有特征的提取都依賴于感興趣區(qū)(region of interest,ROI)的分割,它對于各種醫(yī)學(xué)圖像的分析都是至關(guān)重要的。分割的任務(wù)是識別ROI輪廓的體素集及區(qū)域內(nèi)部的體素集[10],是后續(xù)進行ROI體積與形狀相關(guān)臨床參數(shù)定量分析的基礎(chǔ)。甲狀腺結(jié)節(jié)分割方法分為4類,包括基于輪廓和形狀的分割法、基于區(qū)域的分割法、基于ML和DL的分割法以及聯(lián)合分割法。大多數(shù)甲狀腺結(jié)節(jié)分割方法都是基于輪廓和形狀的分割法。基于輪廓和形狀的ROI分割的常用算法主要是區(qū)域生長算法和灰度閾值算法。在一些研究中,ROI由專業(yè)醫(yī)師手動描繪[11-12]。由醫(yī)師進行手動分割是金標準,半手動分割次之,但是手動和半手動分割都是非常耗時、耗力的,并且易受觀察者之間可變性的影響,導(dǎo)致結(jié)果出現(xiàn)偏差。相比之下,基于AI算法的自動分割更具可重復(fù)性和高效性,但精準性不如專業(yè)醫(yī)師。也有研究指出,為了保證分割的精準性,也盡量避免可能出現(xiàn)的偏差,可以考慮由多名專業(yè)醫(yī)師與多種算法組合的方法進行分割[13]。
基于超聲圖像的DL模型可以提高甲狀腺良惡性結(jié)節(jié)診斷的準確度。由于DL擁有多層網(wǎng)絡(luò)結(jié)構(gòu),可以識別超聲圖像固有的特點,捕捉到人眼不能識別的高級鑒別特征,這可以幫助經(jīng)驗不足的初級超聲醫(yī)師做出更精確的診斷。甲狀腺結(jié)節(jié)良惡性分類器的工作流程一般包括5個階段:圖像采集、分割、特征提取、探索性分析和建模。目前大量的甲狀腺結(jié)節(jié)良惡性分類性研究都是基于二維灰階超聲聲像圖,如Liu等[14]基于中國醫(yī)學(xué)科學(xué)院腫瘤醫(yī)院4279例患者共7690個甲狀腺結(jié)節(jié)的超聲圖像,提出了一種基于多尺度CNN的甲狀腺結(jié)節(jié)檢測和分類方法,其靈敏度(0.964vs0.928)、特異度(0.780vs0.366)和準確度(0.928vs0.816)均明顯高于超聲醫(yī)師。Chi等[15]開發(fā)了一個甲狀腺結(jié)節(jié)的US分類系統(tǒng),該系統(tǒng)使用RF分類器對預(yù)先訓(xùn)練好的GoogLeNet深度學(xué)習(xí)模型進行微調(diào),其輸入和輸出形式均為TI-RADS分級,模型的分類準確度為96.34%,靈敏度為86.0%,特異度為99.0%。Kwon等[16]建立的甲狀腺良惡性結(jié)節(jié)分類模型是一種基于術(shù)后病理結(jié)果的新的VGG16學(xué)習(xí)模型,該模型特異度和靈敏度分別為0.70和0.92,陽性預(yù)測值為0.90,陰性預(yù)測值為0.75。Wang等[17]將DL和ML算法相結(jié)合,提出了一種新的基于US的甲狀腺計算機輔助診斷(computer-assisted diagnostic,CAD)模型,該模型可以提高聲像圖可疑惡性結(jié)節(jié)的診斷準確度,并可以輸出具體US特征,該模型的準確度為76.77%,高于超聲醫(yī)師的平均準確度(68.38%)。
甲狀腺癌有4種病理類型:甲狀腺乳頭狀癌(papillary thyroid carcinoma,PTC)、甲狀腺濾泡癌(follicular thyroid carcinoma,F(xiàn)TC)、甲狀腺髓樣癌(medullary thyroid carcinoma,MTC)和甲狀腺未分化癌(anaplastic thyroid carcinoma,ATC)。甲狀腺癌患者的5年相對生存率為99.7%,但對于不同分期和不同病理類型的患者生存率存在很大的差別:Ⅰ期和Ⅱ期PTC、FTC和MTC的5年生存率接近100%;Ⅲ期FTC為71%,Ⅲ期MTC為81%,Ⅲ期PTC為93%;Ⅳ期FTC為50%,Ⅳ期MTC為28%,Ⅳ期PTC為51%。所有ATC都屬于Ⅳ期,5年生存率僅為7%[18]。所以盡早明確甲狀腺結(jié)節(jié)的病理類型,對于甲狀腺癌患者的精準治療至關(guān)重要。
基于DL的甲狀腺結(jié)節(jié)組織病理學(xué)預(yù)測是良惡性分類器基礎(chǔ)上進一步發(fā)展的更精確的產(chǎn)物。Seo等[19]從230例甲狀腺濾泡性腺瘤(follicular thyroid adenoma,F(xiàn)TA)和77例FTC的術(shù)前US圖像中收集了結(jié)節(jié)的邊緣特征,建立一個CNN分類模型,該模型測試數(shù)據(jù)的總體準確度為89.51%,其中FTA和FTC的準確度分別為93.19%和71.05%。Shin等[20]收集了來自兩家三級醫(yī)院的252例FTA和96例FTC術(shù)前US圖像,建立了ANN和SVM的分類器模型,結(jié)果顯示ANN和SVM模型的靈敏度、特異度和準確度分別為32.3%vs41.7%、90.1%vs79.4%和74.1%vs69.0%,高于兩位經(jīng)驗豐富的超聲醫(yī)師診斷的平均靈敏度、特異度和準確度(24.0%、84.0%和64.8%)。Li等[21]的研究在CNN中增加了一個可以提取結(jié)節(jié)周圍區(qū)域特征的空間約束層,建立了一種PTC的探測模型,該模型在無任何人工干預(yù)的情況下,成功檢出了93.5%的PTC,排除了81.5%的良性結(jié)節(jié)和正常組織。此外,甲狀腺癌雖然生物學(xué)行為較惰性且預(yù)后良好,但是淋巴結(jié)轉(zhuǎn)移卻很常見。Lee等[22]研究了804例患者的812個淋巴結(jié)的US圖像,在VGG-Class模型的基礎(chǔ)上,開發(fā)了一個用于定位和鑒別轉(zhuǎn)移淋巴結(jié)的CAD系統(tǒng),該模型預(yù)測轉(zhuǎn)移淋巴結(jié)的準確度為83.0%,靈敏度為79.5%,特異度為87.5%。
目前DL模型都能夠產(chǎn)生極其可靠的結(jié)果,但它們往往非常不透明,因此被稱為“黑盒子”,即使是技術(shù)高超的專家也很難完全解釋出這些“黑盒子”模型的具體過程[23]。在沒有解釋出基本原理或特定決定因素的情況下,一些學(xué)者認為將醫(yī)療決策權(quán)交給“黑盒子”系統(tǒng)是違背了醫(yī)學(xué)倫理的[24],這使得預(yù)測模型在臨床的應(yīng)用受到了很大的限制。隨著DL技術(shù)越來越多地應(yīng)用于解決各種復(fù)雜的決策領(lǐng)域,一種將倫理標準整合到AI技術(shù)的設(shè)計和實施中的可解釋的人工智能(explainable AI,XAI)應(yīng)運而生[25]。XAI指的是一類能夠洞察AI系統(tǒng)如何做出決策和預(yù)測的系統(tǒng)。XAI可以探究決策系統(tǒng)的具體過程,識別該系統(tǒng)的優(yōu)點和缺點,并對該系統(tǒng)在未來如何運作做出預(yù)測。XAI通過將額外的可解釋代理模塊添加到DL模型中,可同時考慮到泛化誤差和人類經(jīng)驗,實現(xiàn)經(jīng)過驗證的預(yù)測。相比之下,沒有可解釋代理模塊的“黑盒子”模型將引起用戶的擔(dān)憂,盡管其性能可能很高。XAI有望解決有關(guān)決策過程基本原理的透明化問題,是一個充滿活力的新興領(lǐng)域,許多研究正在浮出水面,這些研究將在各個方面對AI的發(fā)展產(chǎn)生巨大的影響。
基于常規(guī)超聲的DL預(yù)測或分類模型存在一定的局限性,例如來自不同超聲成像設(shè)備的圖像存在一定的差異,是造成模型適用性和泛化性較差的一個重要因素。其次,DL算法的訓(xùn)練和運行都需要專業(yè)的GPU環(huán)境和軟件包,亦會一定程度上造成醫(yī)療成本的增加。此外,DL工作流程較為復(fù)雜多樣,也進一步限制了其實際應(yīng)用。雖然DL已被證實在甲狀腺結(jié)節(jié)的探測、診斷中是有應(yīng)用價值的,但其潛在的機制還沒有被完全闡明,例如其與病理和基因之間的相關(guān)性,仍需要更多的研究來探索影像學(xué)、病理生理學(xué)和預(yù)后之間的關(guān)系。
基于超聲圖像的DL技術(shù)在甲狀腺結(jié)節(jié)診斷和預(yù)測方面無疑擁有巨大的潛力和廣闊的前景。因其擁有更優(yōu)越的準確性、更高效的性能和更客觀的評價標準,定會成為未來超聲醫(yī)師的一個強有力的輔助工具。然而,考慮到DL的局限性和復(fù)雜性,在廣泛應(yīng)用于臨床之前,需要解決一些具體問題,比如超聲圖像數(shù)據(jù)不足和異質(zhì)性導(dǎo)致難以保證臨床有效性和實用性,以及“黑盒子”的難以解釋性。關(guān)于DL診斷的準確性和假陽性也存在長期爭議。但是,即使當(dāng)前AI沒有達到專家的水平,但其仍然可以通過為普通超聲醫(yī)師提供輔助診斷意見,減少繁重的臨床工作導(dǎo)致的不可避免的漏診和誤診,有助于提高超聲醫(yī)師的整體診斷水平。未來仍需要進一步的研究來提高DL診斷和預(yù)測模型的魯棒性和泛化性,使其能夠?qū)嶋H應(yīng)用于甲狀腺結(jié)節(jié)患者的實時超聲診斷中。