莫梓華,高紅霞,黃飚
1.華南理工大學(xué)自動(dòng)化科學(xué)與工程學(xué)院,廣東廣州510641;2.華南理工大學(xué)附屬?gòu)V東省人民醫(yī)院放射科,廣東廣州510080
隨著互聯(lián)網(wǎng)技術(shù)的迅速發(fā)展,各個(gè)領(lǐng)域中需要處理的數(shù)據(jù)量愈加龐大,人工智能(Artificial Intelligence,AI)應(yīng)運(yùn)而生。其中,在醫(yī)療數(shù)據(jù)日益電子化和數(shù)字化以及大數(shù)據(jù)分析方法發(fā)展推動(dòng)下,AI在醫(yī)療領(lǐng)域的應(yīng)用日新月異。利用AI技術(shù)能快速地從電子計(jì)算機(jī)斷層掃描(CT)、核磁共振成像(MRI)或正電子發(fā)射計(jì)算機(jī)斷層顯像(PET)圖像分割出來(lái)的病灶中提取大量的醫(yī)學(xué)影像定量特征,挖掘蘊(yùn)含在海量數(shù)據(jù)中肉眼無(wú)法識(shí)別的深層信息,通過(guò)建立疾病預(yù)測(cè)模型,對(duì)影像特征與臨床數(shù)據(jù)間的關(guān)聯(lián)性進(jìn)行分析,自動(dòng)地對(duì)疾病進(jìn)行術(shù)前分期、分型和術(shù)后預(yù)后,進(jìn)而指導(dǎo)臨床實(shí)踐。鑒于精準(zhǔn)醫(yī)療的重要性和AI 技術(shù)的日益發(fā)展趨勢(shì),本研究主要綜述了AI 在中樞神經(jīng)影像診斷中的應(yīng)用情況。
AI 是指將通常由人類完成的智力任務(wù)自動(dòng)化。機(jī)器學(xué)習(xí)是AI的核心之一(圖1),機(jī)器學(xué)習(xí)使用的算法讓計(jì)算機(jī)無(wú)需顯式編程就能從現(xiàn)有數(shù)據(jù)中學(xué)習(xí)。每個(gè)學(xué)習(xí)過(guò)程都包括兩個(gè)階段:(1)根據(jù)給定的數(shù)據(jù)集估計(jì)系統(tǒng)中未知的依賴關(guān)系;(2)使用估計(jì)的依賴關(guān)系來(lái)預(yù)測(cè)系統(tǒng)的新輸出。機(jī)器學(xué)習(xí)進(jìn)一步根據(jù)是否擁有標(biāo)記信息,把學(xué)習(xí)任務(wù)分為有監(jiān)督學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí)。有監(jiān)督學(xué)習(xí)中,每一個(gè)樣例都擁有一個(gè)或者多個(gè)標(biāo)記,其代表是分類和回歸;無(wú)監(jiān)督學(xué)習(xí)中,訓(xùn)練數(shù)據(jù)沒有標(biāo)記信息,其代表是聚類,即樣例基于相似性度量被放置在多個(gè)類別中。深度學(xué)習(xí)是一種特殊的機(jī)器學(xué)習(xí),與機(jī)器學(xué)習(xí)方法一樣,深度學(xué)習(xí)方法也可分為有監(jiān)督學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí)。機(jī)器學(xué)習(xí)需要依據(jù)特定的學(xué)科知識(shí)人工提取并量化特征,但深度學(xué)習(xí)通過(guò)分層網(wǎng)絡(luò)自動(dòng)組合低層特征形成更加抽象的高層特征,以發(fā)現(xiàn)數(shù)據(jù)的分布式特征表示,從而替代人工選擇特征。
圖1 人工智能各種算法關(guān)系的示意圖Fig.1 Schematic diagram of the relationships of various algorithms of artificial intelligence
AI 在中樞神經(jīng)影像診斷中常用的學(xué)習(xí)算法包括:人工神經(jīng)網(wǎng)絡(luò)、決策樹、支持向量機(jī)以及貝葉斯網(wǎng)絡(luò)。其中,人工神經(jīng)網(wǎng)絡(luò)是一種層級(jí)結(jié)構(gòu),由輸入層、隱藏層和輸出層構(gòu)成,每一層包含若干神經(jīng)元[1]。人工神經(jīng)網(wǎng)絡(luò)依據(jù)訓(xùn)練數(shù)據(jù)對(duì)層間的“連接權(quán)重”和層中神經(jīng)元的“閾值”進(jìn)行調(diào)整。理論上講,能夠完成復(fù)雜度高的分類任務(wù),其模型也就越復(fù)雜。云計(jì)算和大數(shù)據(jù)時(shí)代的到來(lái)提高了訓(xùn)練的效率,同時(shí)降低了過(guò)擬合風(fēng)險(xiǎn),深度學(xué)習(xí)等復(fù)雜模型日益引人矚目。由多個(gè)隱藏層構(gòu)成的人工神經(jīng)網(wǎng)絡(luò)是一種深度學(xué)習(xí)結(jié)構(gòu)。深度學(xué)習(xí)包含多個(gè)重要算法,如卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)、多層反饋循環(huán)神經(jīng)網(wǎng)絡(luò)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)以及自動(dòng)編碼器(AutoEncoder)等。
決策樹采用樹形結(jié)構(gòu)進(jìn)行分類,一棵決策樹包含一個(gè)根節(jié)點(diǎn)、若干內(nèi)部節(jié)點(diǎn)和若干葉節(jié)點(diǎn),其中葉節(jié)點(diǎn)表示決策結(jié)果,根節(jié)點(diǎn)和內(nèi)部節(jié)點(diǎn)表示測(cè)試的輸入屬性。決策樹代表樣本屬性與樣本類別之間的一種映射關(guān)系,它是最早、最突出的機(jī)器學(xué)習(xí)方法之一,已廣泛應(yīng)用于解決分類問(wèn)題[2]。決策樹易于實(shí)現(xiàn)和解釋,在訓(xùn)練過(guò)程中使用者無(wú)需了解很多背景知識(shí)。
支持向量機(jī)是近年來(lái)在腫瘤術(shù)前評(píng)估腫瘤病理類型和術(shù)后評(píng)估預(yù)后中應(yīng)用較廣泛的一種機(jī)器學(xué)習(xí)方法[3]。支持向量機(jī)的目的是基于間隔最大化原則,在訓(xùn)練樣本空間中找到一個(gè)將不同類別的樣本分開的超平面[4]。在現(xiàn)實(shí)任務(wù)中,數(shù)據(jù)集在原始樣本空間并不是線性可分,即在原始樣本空間中不存在一個(gè)能正確劃分兩類樣本的超平面。在這種情況下,支持向量機(jī)通過(guò)核函數(shù)將輸入向量映射到高維特征空間中,使得樣本在這個(gè)特征空間中線性可分。支持向量機(jī)所得的分類器具有較好的通用性,且支持向量機(jī)對(duì)小集群的分類性能優(yōu)越。
貝葉斯網(wǎng)絡(luò)借助有向無(wú)環(huán)圖(Directed Acyclic Graph,DAG)來(lái)描述屬性之間的依賴關(guān)系,使用條件概率表來(lái)描述屬性的聯(lián)合概率分布。貝葉斯網(wǎng)絡(luò)由變量節(jié)點(diǎn)和連接這些節(jié)點(diǎn)的有向邊組成。貝葉斯網(wǎng)絡(luò)中的各個(gè)節(jié)點(diǎn)表示隨機(jī)變量,連接各個(gè)隨機(jī)變量間的有向邊表示節(jié)點(diǎn)間的相互關(guān)系,相互關(guān)系強(qiáng)度用條件概率來(lái)表達(dá)。貝葉斯網(wǎng)絡(luò)已廣泛應(yīng)用于多種分類任務(wù)以及知識(shí)表示和推理等方面[5]。
影像組學(xué)是利用AI的各種學(xué)習(xí)算法分析海量影像學(xué)數(shù)據(jù),將數(shù)據(jù)量化為各種特征,如通過(guò)計(jì)算病灶內(nèi)局部紋理(粗糙度、圖像均勻度、規(guī)整度和邊界等)模式上的大尺度或小尺度上的形態(tài)學(xué)變化,捕捉影像上的細(xì)節(jié)定量,獲取體素和相似(或相異)對(duì)照值間統(tǒng)計(jì)學(xué)的內(nèi)在聯(lián)系,這些特點(diǎn)能反映深層次的疾病的病理生理學(xué)信息,從而為臨床提供輔助決策支持。因患者的細(xì)胞、生理、遺傳變異等多因素共同決定著綜合影像信息,通過(guò)影像組學(xué)研究,能解碼隱含在醫(yī)學(xué)影像中極其龐大的數(shù)字化信息,并客觀且定量化將其內(nèi)涵呈現(xiàn)在臨床診治和預(yù)后分析的整個(gè)過(guò)程中,這無(wú)疑會(huì)成為臨床醫(yī)學(xué)具有重大意義的革命。影像組學(xué)具體流程包括以下4個(gè)步驟:圖像采集和重建、圖像分割、特征提取與篩選以及建立模型,將原始圖像根據(jù)研究?jī)?nèi)容進(jìn)行分割,提取影像上的細(xì)節(jié)定量特征,并根據(jù)研究?jī)?nèi)容和目的選擇特定的模型(圖2)。
圖像分割是各種醫(yī)學(xué)圖像分析的基礎(chǔ),醫(yī)學(xué)圖像分割分為手動(dòng)分割、半自動(dòng)分割和自動(dòng)分割,利用AI算法實(shí)現(xiàn)的自動(dòng)分割技術(shù)相比手動(dòng)分割具有可重復(fù)性和高效性。常用的腦腫瘤分割算法包括經(jīng)典的圖像分割技術(shù)、模式識(shí)別技術(shù)以及近來(lái)興起的深度CNN 技術(shù)[6]。在一項(xiàng)基于AutoEncoder 的深度CNN技術(shù)研究中,根據(jù)FLAIR 圖像高信號(hào)區(qū)域,分割共享腦腫瘤數(shù)據(jù)集中186名膠質(zhì)瘤病人,并將模型應(yīng)用于測(cè)試組的135名膠質(zhì)瘤患者以驗(yàn)證該模型的準(zhǔn)確性,結(jié)果表明該自動(dòng)分割模型膠質(zhì)瘤的準(zhǔn)確度與專家基本相同且能有效減少專家之間對(duì)膠質(zhì)瘤分割存在的差異性[7]。
圖2 影像組學(xué)的步驟Fig.2 Steps of radiomics
在計(jì)算機(jī)視覺技術(shù)中,有兩種主要的圖像特征提取策略,即局部水平特征提取和全局水平特征提取。局部水平特征提取強(qiáng)調(diào)在一個(gè)均勻的、較大的腫瘤區(qū)域內(nèi)提取局部腫瘤區(qū)域的邊緣、角、點(diǎn)和線等特征[8]。相比之下,全局水平特征提取強(qiáng)調(diào)對(duì)整個(gè)感興趣區(qū)域的總體組成進(jìn)行量化。在中樞神經(jīng)影像診斷中的特征提取與篩選步驟中,對(duì)分割出來(lái)的腦部病灶或結(jié)構(gòu)進(jìn)行量化操作,用于描述病灶或結(jié)構(gòu)區(qū)域的異質(zhì)性。提取的特征包括基本特征,如形狀、大小和強(qiáng)度等,還包括應(yīng)用各種統(tǒng)計(jì)學(xué)方法得到的各階矩特征,如基于直方圖的特征和基于紋理的特征等。應(yīng)用各種不同的機(jī)器學(xué)習(xí)模型提取與治療決策顯著相關(guān)的定量特征,針對(duì)不同的MRI 模態(tài)提取的特征有所不同。傳統(tǒng)的MRI,如T1WI、T2WI 以及質(zhì)子密度成像,提取的特征主要包括被標(biāo)記區(qū)域的容積和表面積、局部灰質(zhì)厚度、凸性和平均曲率等。對(duì)于彌散張量成像,對(duì)每一個(gè)標(biāo)志區(qū)域提取它的各向異性分?jǐn)?shù)、平均擴(kuò)散系數(shù)、軸向擴(kuò)散系數(shù)以及徑向擴(kuò)散系數(shù)[9]。
中樞神經(jīng)系統(tǒng)腫瘤中常有大量的基因突變而且腫瘤的分子和微環(huán)境具有明顯的異質(zhì)性,這使其診斷和治療方法都很復(fù)雜。比如彌漫性膠質(zhì)瘤的幾種主要的細(xì)胞通道周圍常有60 多種基因突變[10],了解這些細(xì)胞通道,才能改進(jìn)診斷方法和進(jìn)行靶向治療。將成像特征與腫瘤遺傳、基因突變和表達(dá)模式關(guān)聯(lián)起來(lái)是AI 在神經(jīng)影像診斷的新興領(lǐng)域。Chang 等[11]使用深度學(xué)習(xí)CNN 對(duì)膠質(zhì)瘤中的基因突變進(jìn)行分類,目的是通過(guò)訓(xùn)練CNN,預(yù)測(cè)膠質(zhì)瘤的分子遺傳突變狀態(tài),并識(shí)別出對(duì)基因突變預(yù)測(cè)價(jià)值最大的影像學(xué)特征。基于259例低、高級(jí)別膠質(zhì)瘤患者中獲取T2WI、FLAIR 和T1WI 增強(qiáng)圖像,用自定義殘差網(wǎng)絡(luò)對(duì)膠質(zhì)瘤的染色體1p/19q 共缺失、異檸檬酸脫氫酶1(IDH1)突變狀態(tài)和6-甲基鳥嘌呤甲基轉(zhuǎn)移酶(MGMT)啟動(dòng)子甲基化狀態(tài)進(jìn)行分類訓(xùn)練,使用5折交叉檢驗(yàn)計(jì)算獲得的預(yù)測(cè)準(zhǔn)確率分別為:IDH1 突變狀態(tài)94%、1p/19q 共缺失92%、MGMT 啟動(dòng)子甲基化83%;最后利用CNN 全連接層中隱藏層的64 個(gè)特征進(jìn)行主成分分析,發(fā)現(xiàn)與成功分類相關(guān)的關(guān)鍵成像特征包括腫瘤邊緣、水腫程度、壞死程度、紋理特征等。
除預(yù)測(cè)基因表達(dá)外,預(yù)測(cè)膠質(zhì)瘤分級(jí)也是研究熱點(diǎn)。腦膠質(zhì)瘤的準(zhǔn)確分級(jí)對(duì)治療決策、放化療的監(jiān)管和管理以及預(yù)后評(píng)估具有重大意義。Qin 等[12]從66例膠質(zhì)瘤術(shù)前T1WI、T2WI 和擴(kuò)散加權(quán)成像(DWI)圖像中提取114 個(gè)影像學(xué)特征,篩選出8 個(gè)準(zhǔn)確區(qū)分高、低級(jí)別膠質(zhì)瘤特征,其中最具區(qū)分能力的3 個(gè)特征分別為T2WI 灰度共生矩陣的集群陰影特征、T1WI 灰度共生矩陣的熵特征以及DWI 灰度共生矩陣的同質(zhì)性特征。該方法為臨床應(yīng)用提供了一種無(wú)創(chuàng)、方便、可重復(fù)的膠質(zhì)瘤分級(jí)方法,有助于促進(jìn)腦膠質(zhì)瘤治療的個(gè)體化。
最近,許多研究基于多參數(shù)MRI 圖像對(duì)膠質(zhì)母細(xì)胞瘤患者的生存期進(jìn)行預(yù)測(cè)。Macyszyn等[13]在回顧性隊(duì)列中通過(guò)提取腫瘤體積、瘤周浸潤(rùn)和細(xì)胞密度等特征作為支持向量機(jī)模型的輸入,對(duì)生存期長(zhǎng)短(長(zhǎng)期、中期、短期)進(jìn)行預(yù)測(cè),結(jié)果表明得到的這些影像特征對(duì)患者的生存有很高的預(yù)測(cè)能力。同樣是預(yù)測(cè)膠質(zhì)母細(xì)胞瘤患者的生存期,Kickingereder等[14]基于影像組學(xué)方法對(duì)119 名膠質(zhì)母細(xì)胞瘤患者(訓(xùn)練組79例、測(cè)試組40例)提取12 190 個(gè)影像特征(包括一階矩、體積和形狀等特征),從腫瘤強(qiáng)化區(qū)的FLAIR 參數(shù)中為最終模型選擇的11 個(gè)影像組學(xué)特征,其中,能量標(biāo)準(zhǔn)差是來(lái)自于小波變換的灰度共生矩陣的參數(shù),對(duì)預(yù)測(cè)生存期模型影響最大。使用基于監(jiān)督主成分分析方法(SPC)的比例風(fēng)險(xiǎn)回歸模型進(jìn)行分類后,所得結(jié)果比此前基于臨床或影像的模型能更準(zhǔn)確地預(yù)測(cè)膠質(zhì)母細(xì)胞瘤的無(wú)進(jìn)展生存期和總體生存期。
膠質(zhì)瘤術(shù)后復(fù)發(fā)和治療后改變的鑒別仍然是一個(gè)診斷難題,但AI非常適合用于鑒別兩者。Hu 等[15]從31例(腫瘤復(fù)發(fā)15例、放射性壞死16例)經(jīng)手術(shù)切除后接受放化療的多形性膠質(zhì)母細(xì)胞瘤患者的T1WI、T2WI、灌注成像(PWI)和表觀彌散系數(shù)中提取并篩選出8個(gè)特征,使用支持向量機(jī)模型在復(fù)發(fā)腫瘤中鑒別放射性壞死組織,優(yōu)化后的模型對(duì)假性進(jìn)展的敏感性為89.91%,特異性為93.72%,受試者工作特性曲線下面積(AUC)為0.943 9,這表明利用多參數(shù)MRI 圖像特征的機(jī)器學(xué)習(xí)算法是一種鑒別放射性壞死組織分布很有前景的方法。對(duì)象同樣是經(jīng)手術(shù)完全切除后接受放化療的膠質(zhì)母細(xì)胞瘤患者,Jang等[16]首次將深度學(xué)習(xí)方法應(yīng)用在膠質(zhì)母細(xì)胞瘤患者假性進(jìn)展的識(shí)別中。該研究組合CNN和長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(Long Short Term Memory,LSTM)對(duì)59例患者的增強(qiáng)T1WI 圖像進(jìn)行建模,模型1 將增強(qiáng)T1WI 圖像以及臨床變量作為CNN-LSTM模型輸入變量,模型2將增強(qiáng)T1WI圖像作為CNN-LSTM 模型輸入變量,模型3 將臨床變量作為隨機(jī)森林模型的輸入變量。結(jié)果表明,結(jié)合T1WI 增強(qiáng)圖像和臨床變量的CNNLSTM 模型能夠更準(zhǔn)確地在膠質(zhì)母細(xì)胞瘤患者中識(shí)別出假性進(jìn)展和腫瘤復(fù)發(fā)。
盡管已有很多科學(xué)研究證實(shí),AI 技術(shù)能解碼隱藏在醫(yī)學(xué)影像中反映病理機(jī)制的深層次的信息,但是AI 計(jì)算算法過(guò)于復(fù)雜,限制了其在臨床實(shí)踐中的應(yīng)用,因此,迫切需要簡(jiǎn)單易用的軟件工具,使AI 真正應(yīng)用于臨床工作。很多AI研究使用的是內(nèi)部開發(fā)的軟件進(jìn)行圖像分割與特征提取,無(wú)法與公眾共享。
PyRadiomics 是一個(gè)開源的python 包,使用工程硬編碼特征算法,從醫(yī)學(xué)圖像數(shù)據(jù)中(如CT、MRI、PET)處理和提取影像特征,標(biāo)準(zhǔn)化了圖像處理步驟和特征定義,使相關(guān)AI研究能夠重復(fù)和相互比較[17]。
腦腫瘤影像表型組學(xué)工具包(Cancer Imaging Phenomics Toolkit,Brain-CaPTk,www.med.upenn.edu/sbia/captk.html)是一個(gè)模塊化的平臺(tái)[18],由圖像處理、圖像分割、特征提取和機(jī)器學(xué)習(xí)組件構(gòu)成,無(wú)需大量的計(jì)算知識(shí)背景即可對(duì)腦腫瘤圖像進(jìn)行定量分析。Brain-CaPTk旨在通過(guò)獲得廣泛全面的定量的影像組學(xué)特征集,并利用多變量機(jī)器學(xué)習(xí)方法將其整合,從而為臨床的多方面精確診斷和預(yù)后判斷提供相關(guān)的神經(jīng)影像學(xué)的生物標(biāo)志物,同時(shí)將這些生物標(biāo)志物集成到放射科醫(yī)生日常工作的測(cè)量、分析和報(bào)告的流程中。Brain-CaPTk是一個(gè)日益完善的軟件平臺(tái),雖然可用于任何解剖位置和圖像類型,但目前主要用于多模態(tài)MRI成像,如平掃T1WI、對(duì)比劑增強(qiáng)T1WI、T2WI、FLAIR、擴(kuò)散張量成像、動(dòng)態(tài)磁敏感對(duì)比PWI 以及動(dòng)態(tài)對(duì)比增強(qiáng)PWI。Brain-CaPTk 還支持?jǐn)U散張量成像各種量值的可視化,如表觀擴(kuò)散系數(shù)、軸向擴(kuò)散系數(shù)、徑向擴(kuò)散系數(shù)以及各向異性分?jǐn)?shù)等,也能支持MRI-PWI各種量值的可視化,如腦血容量等。
CaPTk 是一個(gè)新興的、日益完善的用于定量分析腫瘤圖像的軟件平臺(tái),目前主要用于研究腦腫瘤、乳腺癌和肺癌[19]。CaPTk 首先從影像數(shù)據(jù)中提取和篩選最具代表性的影像特征,然后將這些量化特征作為多變量機(jī)器學(xué)習(xí)模型的輸入,以產(chǎn)生預(yù)測(cè)結(jié)果,如乳腺癌的精確診斷和風(fēng)險(xiǎn)評(píng)估、預(yù)測(cè)膠質(zhì)母細(xì)胞瘤患者的生存率以及預(yù)測(cè)早期非小細(xì)胞肺癌的治療反應(yīng)和生存率等。
綜上所述,應(yīng)用各種AI 技術(shù)識(shí)別并分割神經(jīng)中樞圖像中的感興趣區(qū)域,挖掘大量蘊(yùn)含在區(qū)域中反映深層次的病理生理學(xué)信息,AI 在神經(jīng)中樞疾病的預(yù)測(cè)、智能決策、個(gè)體化精準(zhǔn)醫(yī)療中的發(fā)展引人矚目。但由于AI 的復(fù)雜性,在實(shí)際應(yīng)用中仍面臨諸多困難。只有開發(fā)出更多簡(jiǎn)單易用的軟件工具,才能使AI 真正應(yīng)用于臨床工作,這些軟件包最好能整合腦腫瘤的各種診斷特性分析,如判斷腫瘤分子亞型、預(yù)測(cè)腫瘤生存期以及預(yù)測(cè)腫瘤復(fù)發(fā),而且這些軟件包能夠進(jìn)一步拓展臨床應(yīng)用范圍,如應(yīng)用于多發(fā)硬化等疾病。