劉銳,何先波
(1.西華師范大學計算機學院;2.川北醫(yī)學院基礎醫(yī)學院,四川 南充 637000)
據(jù)2018年《CA》雜志發(fā)表的全球癌癥報告顯示,全球發(fā)病率和致死率第一的癌癥依然是肺癌,每年有18.4%的癌癥患者死于肺癌,遠高于其后的結腸直腸癌(9.2%)、胃癌(8.2%)和肝癌(8.2%)等[1]。早期肺癌癥狀很容易被患者忽視,通常很不明顯甚至沒有癥狀,一旦患者出現(xiàn)咳嗽長期不愈并且伴隨咳血等癥狀時,表明肺癌大多已經(jīng)出現(xiàn)轉移并進入中晚期,此時病理特征復雜,惡化速度快,已經(jīng)錯過了最佳治療時機[2]。
肺癌篩查和檢測的方式主要可分為兩類:一種是通過穿刺獲取組織進行篩查,雖然組織學檢測對肺癌的檢測率非常的高,然而這種方式需要進行皮肺穿刺,對患者會造成不確定的創(chuàng)傷甚至于肺部感染,所以往往作為最后的檢查手段;另一種是利用醫(yī)學影像技術檢測,醫(yī)學圖像作為智慧醫(yī)療的重要媒介,在醫(yī)學領域中的作用越來越明顯。在醫(yī)學上,早期肺癌主要的表現(xiàn)形式為肺結節(jié),對于肺結節(jié)的檢測,臨床上大多依賴醫(yī)學影像技術對患者進行初步診斷,諸如X線成像、計算機斷層掃描成像(computed tomography,CT)、錐形束CT、磁共振成像(magnetic resonance imaging,MRI)、正電子發(fā)射斷層成像(positron emission tomography,PET)等。其中,CT成像技術是當前普遍采用的最高效、最直接的肺結節(jié)檢測醫(yī)學影像學方式,因其檢查方便且可以清晰地顯示體內(nèi)任何器官組織的結構,成為醫(yī)生診斷肺部病灶的重要工具。
目前,臨床上的肺部腫瘤醫(yī)學影像診斷方式主要還是人工閱片,然而由于肺部腫瘤的多模態(tài)影像和各階段診斷報告等圖像數(shù)據(jù)呈爆炸式增長[3],海量數(shù)據(jù)加重了醫(yī)生的工作量,縱使閱片經(jīng)驗豐富的熟練醫(yī)生也很難保證完全準確的判斷,容易因為人眼疲勞導致漏診和誤診。隨著人工智能的快速發(fā)展,深度學習在計算機視覺領域的巨大成功,對于解決醫(yī)學領域的諸多應用性困難提供了可能性。深度學習是一種通過使用神經(jīng)網(wǎng)絡的表征學習能力來尋找最佳特征表示及其組合的方法,較之淺層學習具有更強的特征學習能力,結合醫(yī)學影像學可以輔助醫(yī)生進行準確、高效地診斷,對于肺癌的診斷有著重要的研究意義和應用價值[4]。本文介紹了深度學習及其在醫(yī)學圖像處理領域的研究進展,尤其對肺部腫瘤圖像方面的應用研究現(xiàn)狀做了重點介紹,最后總結了深度學習在醫(yī)學圖像分析中面臨的主要問題并對應用前景進行了展望。
深度學習作為機器學習領域的一個重要分支,其概念的提出最初是由Hinton等人通過對人工神經(jīng)網(wǎng)絡的研究發(fā)表于2006年的《Science》雜志中[5]。目的是通過多層網(wǎng)絡結構來模擬人腦神經(jīng)元的數(shù)據(jù)處理特性。較之于傳統(tǒng)的機器學習方法,深度學習是更加優(yōu)異的圖像特征表示方法,可以同時在一個模型結構里進行學習和分類,因此我們可以直接輸入原始圖像進行訓練和預測學習并且可以取得一個不錯的結果。如今,深度學習作為機器學習中的佼佼者,在序列預測、語音識別、計算機視覺和圖像處理等多個領域取得優(yōu)異的成績,其主要原因是:計算機運算能力大幅度的增長;以NVIDIA公司為代表的廠家推出更高性能的陣列GPU集群,正是高性能GPU的廣泛使用為深度學習提供了硬件支持;隨著人工智能理論知識體系的不斷完善以及數(shù)據(jù)采集方法的提高,使深度學習可以采用分層式的方式通過更加高效的計算單元完成快速有效的特征學習和預測回歸。深度學習采用訓練大規(guī)模數(shù)據(jù)集的方式搭建擁有多個隱含層的自動學習網(wǎng)絡模型,通過自動學習讓每層得到有用的特征,繼而提取得到逐層數(shù)據(jù)特征,獲取低維、稀疏和更高層的特征,在醫(yī)學圖像處理方面具有明顯的優(yōu)勢。深度學習模型結構主要分為三類,即生成性深度結構,區(qū)分性深度結構以及混合型結構[6]。常用的模型結構主要有自動編碼器(auto encoder,AE)、深度玻爾茲曼機(deep boltzmann machine,DBM)、限制玻爾茲曼機(restricted boltzmann machine,RBM)、深度信念網(wǎng)絡(deep belief networks,DBN)、循環(huán)神經(jīng)網(wǎng)絡(recurrent neural network,RNN)、卷積神經(jīng)網(wǎng)絡(convolutional neural networks,CNN)等[7]。
深度學習技術的不斷突破,除了眾多學術界的專家在理論方面的貢獻之外,工業(yè)界也作出了巨大貢獻,出現(xiàn)了許多開源的深度學習框架可用于快速搭建神經(jīng)網(wǎng)絡模型并可直接運用到實際系統(tǒng)中。接下來介紹幾個目前流行的開源框架的設計思路和優(yōu)點。
(1)Caffe框架
Caffe(convolution architecture for feature extraction)是由加州大學伯克利分校視覺和學習中心(berkeley vision and learning center,BVLC)開發(fā)的基于C++/CUDA/Python架構實現(xiàn)的卷積神經(jīng)網(wǎng)絡框架,其創(chuàng)建者是賈揚清博士。Caffe以前饋卷積神經(jīng)網(wǎng)絡架構(如CNN)為基礎,提供了面向命令行、Matlab和Python等眾多接口。最大的特點是適合做特征提取,并且能夠在CPU和GPU之間快速切換,支持GPU加速以更快的實現(xiàn)CNN的學習過程。2017年4月18日,F(xiàn)acebook根據(jù)BSD許可協(xié)議開源出Caffe的升級版Caffe2,鑒于其更加全面的特性,預期未來可能超越Caffe成為更受追捧的深度學習框架。
(2)MxNet框架
MxNet的開發(fā)者來自分布式機器學習社區(qū)(distributed machine learning community,DMLC),是一個面向效率和靈活性設計的深度學習框架,被亞馬遜云計算服務平臺(AWS)官方所推薦。MxNet是各個框架中最先能夠支持多GPU和分布式訓練的框架。MxNet基本支持所有的主流腳本語言的綁定,比如C++、Python、R、Julia、MATLAB和JavaScript等。
(3)TensorFlow框架
TensorFlow是相對高階的基于Python開發(fā)的開源深度學習庫,由Google Brain基于第一代深度學習架構DistBelief開發(fā),用戶可以簡便快捷的使用它設計神經(jīng)網(wǎng)絡模型。TensorFlow支持自動求導,核心代碼是用C++編寫并且降低了線上配置的復雜度,能夠支持異構設備的分布式計算,可以部署在包括智能手機、PDA、電腦、服務器等多種設備上自動運行算法,具有極佳的靈活性、輕便性和高效性。TensorFlow使用數(shù)據(jù)流圖集成了目前深度學習中最流行的單元,除了支持圖像識別、語音識別、自然語言處理等領域諸如CNN、RNN和LSTM算法的常用神經(jīng)網(wǎng)絡模型結構外,還支持深度強化學習,比如求解高維偏微分方程,并且依然在不斷的快速更新。
(4)Keras框架
Keras是采用純Python語言開發(fā)的極簡和高度模塊化開源神經(jīng)網(wǎng)絡庫。旨在支持深度神經(jīng)網(wǎng)絡的快速實驗而生,能夠在TensorFlow、Theano、CNTK和MxNet上運行。Keras提供了目前最方便的API接口,用戶組合多種高級模塊就能夠快速簡便的進行神經(jīng)網(wǎng)絡模型的設計,非常容易入門。Keras同時支持CNN和RNN,支持多輸入和多輸出結構,具有高靈活性、高簡潔性、易理解性等特點。Keras可以從CPU計算到GPU加速之間無縫地切換,常以TensorFlow和Theano作為后端,因此可以直接通過此兩種框架持續(xù)開發(fā)所帶來的性能提升,將性能損失降低到最小,而且往往只需要極少數(shù)的代碼就能實現(xiàn)其他任何框架大量代碼才能實現(xiàn)的任務,對于新模塊的添加非常便捷,非常適合前沿研究。
2015年,研究提出了一種利用少量的醫(yī)學圖像直接進行端到端訓練的全卷積神經(jīng)網(wǎng)絡模型,用于軸向切片上的候選選擇,大幅度刷新了之前機器學習模型保持的記錄,在當年的醫(yī)學圖像分割的比賽中取得了優(yōu)異的成績,此模型即為醫(yī)學圖像分割中最著名的模型U-net[8]。元昌安等[9]基于K均值和新的核函數(shù)的方法改進RSF模型,通過此模型對進行圖像分割處理,與原算法相比,實驗結果顯示改進后的算法在具有更快執(zhí)行速度的情況下對分割精度提高了40%。Carneiro等[10]將深度學習技術和基于導數(shù)的檢索方法相結合,分割心臟超聲圖像的左心室,結合動態(tài)模型與深度神經(jīng)網(wǎng)絡對左心室心內(nèi)膜超聲數(shù)據(jù)進行跟蹤,使結果更加的精確。Zhao等[11]提出了一種結合CT圖像的灰度信息的肺實質的分割算法,基于傳統(tǒng)的區(qū)域生長法采用四角旋轉的方法分割了圖像。Jia等[12]提出了一種利用主動輪廓模型來分割肺結節(jié)的方法,將肺部醫(yī)學圖像的局部灰度平均值和邊緣能量結合了起來。Zhang等[13]基于三維深度卷積神經(jīng)網(wǎng)絡對醫(yī)學圖像進行特征提取,明顯提升了對MRI腦腫瘤(嬰兒)、膝關節(jié)軟骨和前列腺組織的分割結果。
Wu等[14]利用超聲造影的良惡性結果基于深度學習對肝臟局灶性病變進行分類。Jia等[15]通過稀疏自編碼器對肺結節(jié)的良性和惡性進行識別。Song等[16]提出了基于二維卷積神經(jīng)網(wǎng)絡(2D CNN)直接訓練橫切面圖像的結節(jié)檢測方法。Shin等[17]采用稀疏自編碼器將動態(tài)對比增強磁共振成像(DCE-MRI)的組織類型進行了全自動分類。Donahue等[18]采用ImageNet訓練100多萬張自然圖像得到的卷積神經(jīng)網(wǎng)絡模型DeCAF中提取出中高維特征進行目標識別、情景分析和圖像分類都取得了優(yōu)異的結果。
Suk等[19]利用深度玻爾茲曼機在多模態(tài)醫(yī)學圖像中挖掘高維特征,對阿爾茨海默病和輕度認知功能障礙的診斷準確率高達95.35%與85.67%。Burlina等[20]基于深度卷積神經(jīng)網(wǎng)絡結合超聲檢查圖像對80例受試者的肌肉全自動分類,以此診斷肌炎。Dou等[21]提出了一種直接對三維的原始數(shù)據(jù)進行訓練的卷積神經(jīng)網(wǎng)絡模型檢測人體大腦微出血狀況,獲取到大量有用的高維特征,敏感度達到了93.16%。金林鵬等[22]提出了一種導聯(lián)卷積神經(jīng)網(wǎng)絡,以多導聯(lián)心電圖獨特的二維結構進行識別,準確率達到了83.66%。
肺癌的早期篩查對于患者的及早治療意義重大,肺癌的主要早期表征是肺結節(jié),由于其體積或半徑極小,一般為不規(guī)則的類圓白亮結構(圖1),在CT影像中很難被分辨出來,大大增加了漏診的幾率[23];通常按照肺部病變形態(tài)學和患者的實際感受來區(qū)分良性和惡性結節(jié),惡性肺結節(jié)邊緣具有毛刺且多為不光滑形態(tài)[24],放射科醫(yī)生往往是根據(jù)自己的經(jīng)驗界定肺結節(jié)的良惡性,這種情況下會導致診斷結果的客觀性不足,由此產(chǎn)生的假陰性結果會使患者錯過治療的最好時機,與此同時,通常假陽性疑似患者要利用組織學等臨床手段排除,這會給患者增添痛苦甚至增加病情惡化的風險,且費用較昂貴。為了幫助醫(yī)生和患者解決這些問題,基于深度學習結合醫(yī)學影像學進行肺結節(jié)檢測識別變得尤為重要。Sun等[25]基于癌癥圖像數(shù)據(jù)庫集合(lung image database consortium,LIDC)結合深度學習算法進行了肺結節(jié)計算機輔助診斷研究,使用到的深度學習算法有三種,即為堆疊去噪自編碼(SDAE)、深度信念網(wǎng)絡(DBN)和卷積神經(jīng)網(wǎng)絡(CNN),與傳統(tǒng)的計算機輔助診斷系統(tǒng)的準確率(0.794 0)對比發(fā)現(xiàn),SADE的準確率為0.792 9,CNN的準確率為0.797 6,DBN的準確率為0.811 9,CNN與DBN的準確率略高。目前,肺部病變利用計算機輔助診斷檢測主要有兩個步驟:第一個是通過肺部感興趣區(qū)域的分割提取大量疑似病變組織,在盡量不考慮假陽性的前提下篩查出真結節(jié),降低漏診率;第二個是通過良惡性判斷,提取有效特征,對感興趣區(qū)域進行良惡性分類從而去除假陽性,提高準確率。
常見的疑似結節(jié)提取方法主要有模板法、形態(tài)學法、遺傳算法、閾值法、聚類法、以及其他神經(jīng)網(wǎng)絡算法等,關鍵技術主要包括:圖像增強、圖像ROI分割、提取多維度特征。在對肺部病變組織進行檢測識別時,為了初步定位病灶區(qū)域,先要對肺實質進行分割,接著對比分析提取出的灰度、形狀、紋理、對比度等不同特征,確定疑似病灶,達到檢測肺部腫瘤的目的。
基于肺部醫(yī)學圖像的計算機輔助診斷系統(tǒng)進行良惡性判斷涉及到的關鍵技術在于模型設計和疾病分類,候選結節(jié)的分類作為肺結節(jié)檢測的熱點,常用分類器通常分為基于規(guī)則的分類器和基于模式識別的分類器,如決策樹、隨機森林、神經(jīng)網(wǎng)絡、支持向量機等。近些年來,隨著深度學習技術的不斷進步,神經(jīng)網(wǎng)絡算法越來越多的被用于肺部病變計算機輔助診斷系統(tǒng)中。王克全等[26]將模糊神經(jīng)網(wǎng)絡輔助診斷介入到肺部腫瘤CT圖像的診斷中,實驗結果顯示與病理結果相比該方法對于肺部腫瘤的診斷結果相差不大;Yoshida[27]利用肺區(qū)左右對稱的原理用以降低肋骨結構對肺結節(jié)檢測的影響,達到降低假陽性的目的。Suzuki等[28]提出了一種大規(guī)模人工神經(jīng)網(wǎng)絡圖像處理技術,直接輸入胸片的感興趣區(qū)域,該技術可有效解決胸片上肋骨和鎖骨遮擋肺結節(jié)而影響檢測的問題,降低假陽性,提升了準確率。Weng等[29]首先預訓練深度神經(jīng)網(wǎng)絡,輸入相干反斯托克斯拉曼散射圖像再次訓練模型,對于肺部圖像正常、小細胞癌、腺癌和鱗狀細胞癌的分類,準確率達到89.2%。
隨著大數(shù)據(jù)時代的來臨,深度學習應運而生,憑借著優(yōu)異的圖像處理能力,已經(jīng)出現(xiàn)了可用于臨床上的肺部腫瘤計算機輔助診斷系統(tǒng),并且具有一定的輔助診斷意義,可是最大的問題依然是如何降低假陽性,減少人工干預實現(xiàn)真正的智能化檢測。同時由于肺結節(jié)計算機輔助診斷研究需要大規(guī)模的帶醫(yī)生標注信息的數(shù)據(jù)集作為基礎,反而使之成為了制約系統(tǒng)功能進一步增強的因素。因為大規(guī)模帶有醫(yī)生標注信息的醫(yī)學圖像數(shù)據(jù)集很難獲取,這需要耗費大量的人力、物力才能實現(xiàn)普及標準化的醫(yī)學圖像數(shù)據(jù)集。所以如何使深度學習可以通過小樣本的學習準確預測病變組織,取得不弱于使用大規(guī)模數(shù)據(jù)集訓練后的結果,是未來可以研究的方向。同時對抗學習方式的出現(xiàn)也為我們提供了一個解決思路,如果可以通過對抗網(wǎng)絡(GAN)生成具有實際意義的病變組織數(shù)據(jù)集,以此擴大原有的醫(yī)學影像數(shù)據(jù)集,就可以產(chǎn)生大量帶有金標準的醫(yī)學影像數(shù)據(jù)。此外,在國家進一步的醫(yī)療改革的大背景下,醫(yī)療大數(shù)據(jù)中心的建立使得含有大量自然語言描述的電子病歷和診斷報告都可作為醫(yī)學圖像數(shù)據(jù)的補充,基于計算機視覺領域中的先進方法對于醫(yī)學圖像處理、計算機輔助診斷等領域可以預見到會有巨大的幫助。隨著深度學習技術的改進和完善,計算能力和硬件性能的不斷提高,在這個有標記醫(yī)學圖像大數(shù)據(jù)時代中,深度學習在醫(yī)學圖像分析中具有廣闊的應用前景。