王德才
摘要:肺癌作為全球發(fā)病率最高和死亡率最高的惡性腫瘤,提高肺癌患者存活率最有效的方法就是及早發(fā)現(xiàn)、及早診斷、及早治療。通過人為的觀察CT掃描圖像,極易出現(xiàn)漏判、誤判的情形,計算機輔助診斷(CAD)具有高準確率、高效率的特點,這里本文提出了一種基于機器學(xué)習(xí)的肺癌檢測方法,以肺部圖像數(shù)據(jù)庫聯(lián)盟(LIDC)作為計算機視覺分析圖像模型,通過比較各類有效的圖像特征,以圖像的LBP直方圖的方法來表示訓(xùn)練集以及待檢測圖像的特征,提取肺癌ROI區(qū)域及相應(yīng)病變的特征,引入CART分類器作為弱分類器,然后通過AdaBoost算法對肺結(jié)節(jié)進行分類學(xué)習(xí),構(gòu)建分類可疑肺癌的AdaBoost分類器,再采用遷移學(xué)習(xí)的方法將構(gòu)建好的分類器模型遷移到實際臨床CT肺部影像來幫助模型進行訓(xùn)練學(xué)習(xí)。通過實驗數(shù)據(jù)發(fā)現(xiàn),以上方法對肺癌的識別率能夠93.2%,無論對醫(yī)生還是患者來說都具有很大的現(xiàn)實意義。
關(guān)鍵詞:計算機輔助診斷(CAD);肺部圖像數(shù)據(jù)庫聯(lián)盟(LIDC);CART分類器;AdaBoost分類器;遷移學(xué)習(xí)
中圖分類號:TP391 文獻標識碼:A 文章編號:1007-9416(2020)01-0085-05
0 引言
近些年來,環(huán)境污染問題和食品安全問題已經(jīng)嚴重威脅到人們的健康,多數(shù)城市PM2.5居高不下,引發(fā)了大量的肺炎和肺癌等多種肺部疾病。據(jù)不完全統(tǒng)計,空氣重的細小顆粒物是誘發(fā)肺癌的主要原因。除了改善生活環(huán)境以外,對于肺癌來說,早發(fā)現(xiàn)、早診斷、早治療也是提高患者存活率的一種重要手段。肺癌在臨床醫(yī)學(xué)上表現(xiàn)極其復(fù)雜的特征,患者發(fā)病時間較短,呈現(xiàn)惡性的概率也更高,一旦發(fā)現(xiàn),患者多處于病變晚期,治愈率極低。
肺癌在醫(yī)學(xué)和臨床上的組織解剖診斷方法依據(jù)主要的特點就是根據(jù)組織學(xué)和肺癌的影像解剖學(xué)來對肺癌進行臨床診斷。肺癌的組織解剖學(xué)的診斷方法主要的特點包括了肺癌的支氣管鏡解剖學(xué)檢查、活檢組織解剖學(xué)檢查和痰液癌細胞解剖學(xué)檢查等,盡管這類的診斷方法都可以在痰液中作為診斷和檢測早期肺癌的依據(jù)和標準,但是對于那些處于不同早期患病的階段和不同生活類型的肺癌患者來說,癌細胞并不一定都可以出現(xiàn)在自己的痰液中。而肺癌的影像解剖學(xué)的診斷方法主要的特點就是通過利用計算機的斷層掃描和肺癌的x射線解剖學(xué)檢查診斷方法來直觀的了解和觀察癌細胞和人體的肺部病變活檢組織的大小、形態(tài)和其位置,此診斷方法有效的避免了癌細胞活檢的組織給肺癌病人身體帶來的干擾和傷害。現(xiàn)如今,影像解剖學(xué)進行肺癌診斷的方法已經(jīng)是目前肺癌的診斷方法中應(yīng)用最廣泛的一種診斷方法。
近些年來,隨著斷層掃描技術(shù)的不斷發(fā)展,該技術(shù)已經(jīng)成為了最有效的肺癌檢驗方法。肺部CT圖像是一種單通道高位圖像,醫(yī)生通過觀察胸腔掃描的CT圖像,然后結(jié)合病人的臨床癥狀可以發(fā)現(xiàn)癌癥的發(fā)病區(qū)域以及其良/惡性。正是由于胸腔CT掃描變得越來越普遍,給醫(yī)生也帶來十分巨大的閱片壓力,醫(yī)生在憑借個人工作經(jīng)驗以及相關(guān)知識閱片的過程中,難免會出現(xiàn)漏判和誤判的情形,這對于患者的診斷和治療都是極為不利的。所以利用計算機技術(shù)來對肺部CT圖像模型來進行處理,這可以大大的提高閱片的速度和精確性,這也是近年來肺癌檢測診斷的一個熱門研究方向[1]。
深度學(xué)習(xí)是一個快速發(fā)展的領(lǐng)域,對醫(yī)學(xué)成像領(lǐng)域有很多影響。當前,醫(yī)學(xué)圖像由放射科醫(yī)生,醫(yī)師等進行診斷。但是這種診斷變得非常主觀。放射科醫(yī)生通常必須仔細檢查大量的這些圖像,長期檢查這些圖像可能會導(dǎo)致疲勞并導(dǎo)致錯誤。因此,需要對此進行自動化。諸如支持向量機之類的機器學(xué)習(xí)算法通常用于檢測和分類腫瘤。但是它們通常受到定義要素時所做假設(shè)的限制。這導(dǎo)致靈敏度降低。但是,深度學(xué)習(xí)可能是理想的解決方案,因為這些算法能夠從原始圖像數(shù)據(jù)中學(xué)習(xí)特征。實現(xiàn)這些算法的挑戰(zhàn)之一是缺乏標記醫(yī)學(xué)圖像數(shù)據(jù)。盡管這是對深度學(xué)習(xí)的所有應(yīng)用程序的限制,但由于患者的機密性,對醫(yī)學(xué)圖像數(shù)據(jù)的限制更大。在本文中,將通過以CART為弱分類器,Adaboost為強分類器,對其進行訓(xùn)練分類,并使其檢測肺結(jié)節(jié)。本文所使用的數(shù)據(jù)來自肺影像數(shù)據(jù)庫協(xié)會和傳染病研究所的數(shù)據(jù)(LIDC/IDRI)數(shù)據(jù)庫[2]。
基于這種深度機器學(xué)習(xí)的肺癌早期檢測分析方法主要的特點是通過對肺部CT的圖像通過計算機系統(tǒng)及其輔助的診斷系統(tǒng)進行分析得到的圖像分析提取其包含的圖像中肺結(jié)節(jié)特征,然后對獲得的圖像中可能包含的早期肺部結(jié)節(jié)特征進行了檢測、分割、分類等技術(shù)研究,最終可以確診并判斷出患者的肺結(jié)節(jié)是否可能患有了肺癌。其中,系統(tǒng)的性能主要是體現(xiàn)在對檢測早期的肺結(jié)節(jié)以及其危險嚴重程度正確進行分類的能力上。本文中的肺癌實驗早期檢測數(shù)據(jù)主要來自于LIDC-IDRI一個開源用于肺部檢測的CT圖像數(shù)據(jù)庫,該圖像數(shù)據(jù)庫中已經(jīng)包含了大量的早期肺結(jié)節(jié)樣本以及其對應(yīng)的肺結(jié)節(jié)標簽。因此,LIDC-IDRI這個數(shù)據(jù)庫經(jīng)常被研究者用來作為驗證對肺結(jié)節(jié)良/惡性情況正確分類的模型,包括肺結(jié)節(jié)分類器主要優(yōu)化的模型和分類器的圖像特征提取。對于肺結(jié)節(jié)良/惡性的圖像進行分類主要目的是為了給肺結(jié)節(jié)的醫(yī)生和患者提供一個更加科學(xué)的、可靠的輔助分類的結(jié)果,使他的診斷和治療過程更加的精準,并且這樣能夠有效的幫助患者減少肺結(jié)節(jié)醫(yī)生的臨床檢查閱片和工作量。在運用肺結(jié)節(jié)分類優(yōu)化算法的圖像優(yōu)化過程中,分類算法的過程我們需要首先分析和計算這些圖像的類型和圖像特征,然后對分析得到的不同類型圖像的特征分別打上不同的分類標簽,接下來我們結(jié)合分類器對樣本集的特征進行了訓(xùn)練和測試。常見的肺結(jié)節(jié)分類器主要優(yōu)化模型包括KNN、ANN、SVM、Random Forest、CART、Adaboost、模糊C均值等。常用于數(shù)據(jù)的肺結(jié)節(jié)良/惡性圖像分類的肺結(jié)節(jié)圖像灰度特征模型主要包括肺結(jié)節(jié)圖像的灰度幾何的特征、紋理的特征和肺結(jié)節(jié)灰度密度分布的特征等。本文就是通過從圖像中提取500組的肺結(jié)節(jié)良惡性圖像來分析數(shù)據(jù)的LBP特征,然后以分類器CART為弱惡性分類器,Adaboost為強分類器。本文進行了實驗來對數(shù)據(jù)的肺結(jié)節(jié)良惡性圖像進行了分類將數(shù)據(jù)LIDC-IDRI數(shù)據(jù)庫圖像中的肺結(jié)節(jié)數(shù)據(jù)和樣本準確地分為良性和惡性兩類,其最優(yōu)的AUC值分別達到了0.9615。經(jīng)過長期的對比結(jié)果分析該方法相較單獨的分類器CART為弱分類器和傳統(tǒng)的Adaboost分類器魯棒性更高,分類處理效果也相對更好。
1 基于LBP的特征提取方法
LBP(Local Binary Patterns)特征即中心像素局部二值成像模式的特征,獲取的特征是中心圖像的局部旋轉(zhuǎn)和紋理狀態(tài)特征,具有局部旋轉(zhuǎn)不變性和局部灰度不變性等一系列顯著的紋理特征,最早是由T.Ojala,M.Pietikaiunen和D.Harwood在1994年提出,由于LBP特征提取方法簡單、描述效果良好,因此在機器學(xué)習(xí)和視覺的諸多應(yīng)用領(lǐng)域中心像素得到了廣泛地研究和應(yīng)用,其中最為著名的兩種應(yīng)用方式是中心像素人臉識別和目標像素檢測。原始的中心像素LBP特征算子定義在像素3×3的鄰域以內(nèi),以鄰域中心像素為閾值,相鄰的8個像素的灰度值與鄰域周圍中心的二進制像素灰度值進行了比較,若周圍的鄰域中心像素灰度值大于鄰域中心像素的閾值,則其在該像素點的位置被標記為1,否則為0。這樣,3×3鄰域內(nèi)的8個二進制焦點像素經(jīng)過比較可以直接產(chǎn)生8位的二進制像素數(shù),將這8位的二進制像素數(shù)依次排列形成一個8位二進制的數(shù)字,這個二進制數(shù)字就是中心像素的LBP值,LBP值特征共有28種的可能,因此局部LBP值特征有256種。中心像素的局部LBP值特征反映了該中心像素周圍各個區(qū)域的局部紋理狀態(tài)信息[3]。
上面描述的過程用數(shù)學(xué)函數(shù)可以表示為:
(公式1)
式中,中心像素坐標(xc,yc)的灰度值為;表示為3×3 鄰域內(nèi)除中心像素外的其它像素點處的灰度值;S 所滿足的函數(shù)關(guān)系如下公式2所示:
(公式2)
如圖1所示是LBP特征描述的示意圖。
基本的圓形LBP算子最大的優(yōu)點和缺陷之處在于它僅能直接覆蓋一個固定的半徑和角度范圍內(nèi)的小尺度紋理區(qū)域,這顯然不代表它能夠更好地滿足不同的尺寸和頻率圓形紋理的應(yīng)用需要。為了更好地適應(yīng)多尺度的圓形紋理區(qū)域特征以及對實現(xiàn)紋理灰度不變性的基本要求,T.Ojala等對圓形LBP算子模型進行了改進,將其中的算子稱為“圓形LBP算子”。該種改進后的算子將3×3鄰域的擴展縮小到了任意鄰域,并用圓形鄰域的像素點替代了算子原有的正方形鄰域,使得該種改進后的圓形LBP算子更好地實現(xiàn)了在采樣點的半徑和角度為r的任意多個圓形鄰域范圍內(nèi)有任意多個圓形像素點,從而實現(xiàn)了一種以圖2為例的一個含有任意p個采樣點的圓形LBP算子,圖2中字母上標可以表示采樣點的半徑,下標可以表示任意多個采樣點。本文中所采用的即是一個圓形的LBP算子[4]。
通過上述LBP特征提取方法對(LIDC/IDRI)數(shù)據(jù)庫中的影像數(shù)據(jù)提取特征結(jié)果如圖3如下。
通過圖3可以看出,肺部影像數(shù)據(jù)經(jīng)過LBP特征提取后具有鮮明的輪廓和紋理特征,這為肺癌的診斷分類提供了較大的幫助。
2 基于AdaBoost的肺結(jié)節(jié)良惡性分類方法
本文中使用了來自肺影像數(shù)據(jù)庫協(xié)會和傳染病研究所的數(shù)據(jù)[(LIDC/IDRI)數(shù)據(jù)庫],由于這些映像很大(124GB),因此本文最終使用了可用于LUNA16的重新格式化版本。該數(shù)據(jù)集由888個CT掃描組成,并帶有描述坐標和地面真相標簽的注釋。第一步是創(chuàng)建一個圖像數(shù)據(jù)庫進行培訓(xùn)。圖像被格式化為.mhd和.raw文件。標頭數(shù)據(jù)包含在.mhd文件和多維圖像中數(shù)據(jù)存儲在.raw文件中。本文中使用SimpleITK庫讀取.mhd文件。每個CT掃描的尺寸為512x512xn,其中n是軸向掃描的數(shù)量。每次CT掃描大約有200張圖像。共有551065個注釋。在提供的所有注釋中,有1351被標記為結(jié)節(jié),其余被標記為陰性。這樣就出現(xiàn)了階級大失衡。處理它的簡單方法是通過旋轉(zhuǎn)圖像對多數(shù)階層進行采樣并增加少數(shù)階層。因此,本文中圍繞注釋中提供的坐標裁剪圖像。注釋以笛卡爾坐標提供。因此必須將其轉(zhuǎn)換為體素坐標。圖像強度也以Hounsfield比例定義。因此,出于圖像處理目的,必須對其進行縮放。下面的腳本將生成50x50灰度圖像,用于訓(xùn)練,測試和驗證數(shù)據(jù)集在訓(xùn)練上仍然非常不平衡[5]。所以本文通過旋轉(zhuǎn)圖像來增強訓(xùn)練集。如圖4所示為對影像數(shù)據(jù)進行不同角度旋轉(zhuǎn)所得到的特征圖譜。
3 弱分類器的構(gòu)成
3.1 強弱分類器概述
Adaboost(Adaptive Boosting)算法是一種通過將多個簡單的、弱的分類器線性組合的一種方式將訓(xùn)練集構(gòu)建起來組成一個強的訓(xùn)練分類器的線性化算法。其基本的思想其實就是針對不同的訓(xùn)練集分別訓(xùn)練同一個強的分類器(弱的分類器),然后把這些不同分類在訓(xùn)練集上的樣本所得到的分類器和訓(xùn)練集聯(lián)合了起來,構(gòu)成一個最終的強分類器。Adaboost這種算法中不同的分類和訓(xùn)練集權(quán)重是通過設(shè)計和調(diào)整每個分類器的樣本訓(xùn)練集對應(yīng)的分類器權(quán)重來設(shè)計和實現(xiàn)的。算法開始時,初始的樣本對于u1的每個分類器和樣本訓(xùn)練集對應(yīng)的分類器權(quán)重都是相同的,對于弱的分類器對于h1分類錯誤的每個樣本,加大其訓(xùn)練集對應(yīng)的分類器權(quán)重,而對于一個分類正確的樣本,降低其分類權(quán)重,這樣易于分錯的樣本就被弱分類器突出了出來,從而可以得到一個新的樣本分布u2。在新的樣本分布下,再次對弱分類器的權(quán)重進行了訓(xùn)練,得到弱的強分類器h2。依次以此類推,經(jīng)過t次的循環(huán),得到了t個弱的強分類器,把這t個弱的強分類器按一定的分類權(quán)重比例疊加了起來,得到最終的強分類器。采用線性集成的強分類器的主要錯誤率優(yōu)于單個集成分類器,假設(shè)一個線性集成的強分類器中至少包含了n個集成分類器,每個集成分類器進行分類的錯誤率均為0,如果只是采用單個集成分類進行線性的分類,錯誤的概率大約為0;而如果只是采用多個集成分類器進行線性的集成可以構(gòu)建一個強大的分類器,并且線性選擇多半分類器的預(yù)測結(jié)果作為最終的結(jié)果,即線性選出不小于n/2的分類作為預(yù)測結(jié)果,則這個強分類器的錯誤率如式[6]。
(公式3)
3.2 Adaboost算法實現(xiàn)過程
Adaboost算法實現(xiàn)的具體流程如下[7-8]:
(1)對于給定的N個訓(xùn)練樣本數(shù)據(jù)(xi,yi),其中樣本的特征向量為xi,yi是其對應(yīng)樣本的標簽。
(2)首先對訓(xùn)練樣本設(shè)置一個初始的權(quán)重。每個樣本的初始權(quán)重必須相同,即wi=1/N,i=1,2…N。
(3)然后將各個單個的弱分類器器對加權(quán)樣本進行訓(xùn)練。這里假設(shè)有M個弱分類器,接下來將對當前的M個弱分類器進行如下的分類訓(xùn)練。
1)首先,對使用當前第m(m=1,2,3,…,M)個弱分類器對初始化權(quán)值的樣本數(shù)據(jù)進行訓(xùn)練。假設(shè)弱分類器fm(x)∈{-1,1}。
2)然后對相應(yīng)分類器分類后得到的錯誤率和比例因子進行計算。錯誤率errm和比例因子cm的計算公式如(公式4)和(公式5)所示。其中錯誤率代表的是對正樣本檢測的錯誤率,比例因子代表的是當前弱分類器在最后的分類器中的重要程度。
errm=P[(fm(xi)≠yi]? ? ? ? ? ? ? ? ? ? ? ? ? ? ? (公式4)
cm=log()? ? ? ? ? ? ? ? ? ? ? ? ? ? (公式5)
3)重新更新訓(xùn)練樣本的樣本權(quán)值,并根據(jù)(公式6)重新設(shè)定樣本權(quán)值,然后根據(jù)(公式7)對權(quán)值做歸一化操作。
wi′=wiexpcm? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?(公式6)
∑iwi′=1? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? (公式7)
4)最后,利用現(xiàn)有訓(xùn)練好的弱分類器進行線性組合得到相應(yīng)的強分類器。得到的強分類器即是最終的分類器。強分類器的線性組合公式如(公式8)所示,得到的強分類器的表達式如(公式9)所示。
g(x)=cmfm(x)? ? ? ? ? ? ? ? ? ? ? ? ? ? ? (公式8)
f(x)=sign(g(x))=sign(cmfm(x))? ? ? ? ? ? ? ?(公式9)
在使用Adaboost分類算法的過程中需要注意一下幾點[9-10]:①在步驟3)中,如果某個樣本已經(jīng)分類準確,那么在構(gòu)造下一個訓(xùn)練集的過程中,我們需要將該樣本被選中的概率降低;反之,如果某一樣本分類效果較差,那么我們需要相應(yīng)的提高該樣本的權(quán)重,以此通過訓(xùn)練來提高該樣本的識別率。②通過計算可得,比例因子的值會隨著錯誤率的減小而不斷增大,這就表示此弱分類器在最終的分類器中會起到較大的作用。③每一次分類后重新對樣本權(quán)值進行更新使得分類誤差大的弱分類器的樣本權(quán)值變大,而分類效果較好的弱分類器的樣本權(quán)值減小。通過這種方式,可以使得Adaboost分類器把分類重點著重關(guān)注在那些不易區(qū)分的樣本上面。
在本文中,我們是以CART決策樹作為弱分類器來使用的,最后通過Adaboost算法將各個弱分類器進行線性組合即可得到最終的強分類器。如圖5所示為單一的CART弱分類器訓(xùn)練后得到的預(yù)測結(jié)果與測試集對比的效果圖。
如圖6所示為以CART弱分類器為基礎(chǔ)構(gòu)造的Adaboost強分類器的預(yù)測結(jié)果效果圖??擅黠@看出最終構(gòu)造出的Adaboost強分類器的分類效果明顯優(yōu)于單一的CART弱分類器的分類效果。
如圖7所示為Adaboost分類器對應(yīng)的AUC曲線。
4 遷移學(xué)習(xí)與結(jié)論
以上實驗過程以(LIDC/IDRI)數(shù)據(jù)庫為基礎(chǔ)并通過Adaboost算法訓(xùn)練得到現(xiàn)有的Adaboost分類器,為檢測分類器的分類效果,下面將以臨床肺部影像對現(xiàn)有的分類器進行測試。如圖8所示是對臨床肺部影像提取的LBP特征圖譜,通過特征提取可清晰的對肺部輪廓和特征進行提取。
在提取出LBP特征圖譜以后,將特征值數(shù)據(jù)輸入到Adaboost分類器中進行分類,如圖9所示為Adaboost分類器對臨床肺部影像的預(yù)測結(jié)果。
通過以上實驗我們可以得出如下結(jié)論:通過LBP特征提取方法,我們可以對肺部結(jié)節(jié)的輪廓和紋理特征進行準確的提取,然后通過深度學(xué)習(xí)的方法可以肺癌檢測工作提供可靠的參考性,可減少醫(yī)生閱片的工作量。通過實驗可看出,本文所提出的以CART決策樹為弱分類器構(gòu)造出Adaboost強分類器的肺癌檢測方法對肺部良/惡性腫瘤檢測分類是有效可行的,同時也為肺部良/惡性腫瘤檢測分類提供了一種新的思路。
參考文獻
[1] 2012年中國腫瘤登記年報[M].上海醫(yī)藥,2013.
[2] 趙強.X線計算機斷層成像設(shè)備[J/OL].醫(yī)學(xué)影像設(shè)備,2011年3月4日.
[3] 張永強,夏順仁,陳興燦,等.基于CT圖像的肺結(jié)節(jié)分割算法研究[J].醫(yī)療衛(wèi)生裝備,2012,33(11):19-22.
[4] 田苗,林嵐,張柏雯,等.深度學(xué)習(xí)在神經(jīng)影像中的應(yīng)用研究[J].中國醫(yī)療設(shè)備,2016,31(12):4-9.
[5] 張柏雯,林嵐,吳水才,等.深度學(xué)習(xí)在輕度認知障礙轉(zhuǎn)化與分類中的應(yīng)用分析[J].醫(yī)療衛(wèi)生裝備,2017,38(9):105-111.
[6] 姜婷,襲肖明,岳厚光.基于分布先驗的半監(jiān)督FCM的肺結(jié)節(jié)分類[J].智能系統(tǒng)學(xué)報,2017,12(5):729-734.
[7] 郭薇.基于多維圖像信息的肺結(jié)節(jié)良惡性鑒別方法[J].沈陽航空航天大學(xué)學(xué)報,2016,33(3):67-72.
[8] REVEL,MARIE P.Subsolid lung nodule classification:a CT criteri·on for improving interobserver agreement[J].Radiology,2017,286(1):316-325.
[9] SUI X,MEINEL F G,SONG W,et al. Detection and size measure·ments of pulmonary nodules in ultra-low-dose CT with iterative recon·struction compared to low dose CT[J].European Journal of Radiolo·gy,2016,85(3):564-570.
[10] LIAW,ANDY,MATTHEW W. Classification and regression by Ran-dom Forest[J].R News,2002,2(3):18-22.