陳樹越,黃 萍,朱 軍,劉佳鑌
(常州大學 信息科學與工程學院, 江蘇 常州 213164)
肺癌[1,2]的早期表現(xiàn)形式[3-5]是直徑小于3 cm的肺內類圓形肺結節(jié)。如何準確識別肺結節(jié)是肺部疾病診斷的難點,對于預防早期肺癌具有重要醫(yī)學意義。
針對孤立性肺結節(jié)的識別方法,Khobragade等[6]使用基于ANN的圖像分類算法來檢測肺部疾病,但存在過擬合的問題;Zhou等[7]提出基于SVM和CT圖像特征水平融合的肺結節(jié)檢測算法,但使用SVM時對參數(shù)和核函數(shù)的選取比較困難。相對上述傳統(tǒng)的分類算法,極限學習機(ELM-extreme learning machine)的泛化性能更好,能夠避免局部最小值和過擬合等問題。Chen等[8]利用基于小波的ELM在癲癇發(fā)作方面做了預測研究,實驗研究表明該方法不僅提高了檢測精度,而且提高了學習效率;孫俊等[9]在生菜葉片的研究中,利用ELM分類算法對氮素水平做了分類;Lu等[10]將改進的ELM算法應用到腦部檢測系統(tǒng)中,結果表明改進的ELM對于病理性腦部檢測的結果更加準確可靠。因此將ELM算法引入肺結節(jié)的識別,但在分類過程中,不相關特征會使分類器的性能下降。為了解決上述問題,將Relief特征加權框架運用于ELM分類中。首先根據(jù)候選結節(jié)的特征利用k-means聚類算法去除大量干擾結節(jié)檢測的血管,然后利用Relief特征加權ELM分類算法對候選結節(jié)分類。實驗結果表明,基于Relief特征加權ELM能較好地適用于肺結節(jié)識別。
肺結節(jié)CT圖像檢測與識別的研究對象主要是肺部CT圖像中的孤立性肺結節(jié)。圖1為肺結節(jié)檢測與識別的流程。
圖1 肺結節(jié)檢測與識別
為了減小肺結節(jié)的檢測范圍,提高結節(jié)檢測的準確率,肺實質分割在肺結節(jié)檢測與分類過程中必不可少。因此,利用一種自動分割肺實質區(qū)域的方法[11],該方法結合了閾值處理、區(qū)域生長以及形態(tài)濾波等技術。
如圖2(a)所示肺部CT圖像,肺實質與其周圍區(qū)域的灰度值相差較大,可首先采用最大類間方差閾值法對肺部CT圖像進行初始分割,如圖2(b)所示。利用區(qū)域生長、填充等方法來去除干擾組織,如背景、血管等,得到的肺實質模板如圖2(c)所示。最后將此肺實質模板乘以原始圖像即為要得到的完整的肺實質,如圖2(d)所示。
圖2 肺實質分割
采用最優(yōu)閾值法對肺實質進行初始分割,去除肺實質中的干擾部分,得到肺實質感興趣區(qū)域。由于一些面積非常小的高亮噪聲點的存在,因此利用連通成分的方法來去除這些高亮噪聲點,最終得到的感興趣區(qū)域如圖3所示。
圖3 感興趣區(qū)域
通常情況下肺結節(jié)表現(xiàn)為圓形,而血管根據(jù)切片的方向不同表現(xiàn)為圓形血管、條狀血管、交叉型血管。由圖3所示的初步分割后的感興趣區(qū)域可以看出,感興趣區(qū)域含有大量的假陽性結節(jié),大量的候選結節(jié)會增加后續(xù)特征提取與分類的工作量。因此為了進一步提取候選結節(jié),減少假陽結節(jié)的數(shù)量,對初步分割后得到的感興趣區(qū)域進行篩選。
由于類圓形血管和初期的肺結節(jié)的形狀特征相同,所以僅僅通過形狀特征不能排除干擾候選結節(jié)篩選的假陽性。由于血管的灰度分布均勻,像素灰度值相差不大,而肺結節(jié)的灰度呈正態(tài)分布,中間亮,兩邊比較暗,像素灰度值相差較大,所以肺結節(jié)的灰度直方圖熵值比血管的灰度直方圖熵值大。利用k-means聚類與類圓度和灰度直方圖熵這兩個特征對感興趣區(qū)域進一步提取候選結節(jié),減少假陽性結節(jié),得到最終要提取的候選結節(jié)如圖4所示。
圖4 候選結節(jié)
圖4中黑色邊框部分表示聚類后得到的候選結節(jié),由于每張孤立性肺結節(jié)的CT圖像中最多含有一個肺結節(jié),所以圖中得到的候選結節(jié)中仍然存在假陽性。
1.3.1 特征提取
候選肺結節(jié)特征選擇的優(yōu)劣將直接影響肺結節(jié)的分類結果。通過孤立性肺結節(jié)在CT圖像中的表現(xiàn)形態(tài),提取類圓度M1和灰度直方圖熵M2對感興趣區(qū)域聚類,降低候選結節(jié)的假陽性,提高檢測效率。針對候選結節(jié)中仍然存在假陽性,繼續(xù)對候選結節(jié)進行識別分類,提取候選結節(jié)的特征,如灰度均值Ave、緊湊度M3和紋理特征,其中候選結節(jié)區(qū)域的紋理特征是通過灰度共生矩陣來分析肺結節(jié)的空間分布特征,選擇對比度Con,相關性Cor,能量Ery和熵Ent這4個參數(shù)作為描述反應候選結節(jié)區(qū)域變化的因子,反應不同灰色尺度在相對空間的分布特征。
(1)類圓度用來表示目標區(qū)域與圓形的相似度。其值越接近于1,說明與圓越相似。其表達式為
(1)
式中:A為肺結節(jié)區(qū)域內像素的總和。
(2)灰度直方圖熵表示圖像灰度區(qū)域的信息量,其表達式為
(2)
式中:c(k)為各個元素歸一化后得到的相應的灰度級的分布概率。
(3)灰度均值
(3)
式中:圖像I大小為M×N,I(x,y)為像素的(x,y)的灰度值。
(4)緊湊度表示邊緣光滑的程度。邊界越復雜越粗糙,緊湊度越小[12]。其表達式為
(4)
式中:P是區(qū)域輪廓的周長。
(5)對比度Con反映圖像紋理溝紋的深淺程度和清晰度。紋理溝紋越淺,對比度越小,圖像越模糊;反之,對比度變大,視覺效果也變得清晰。其表達式為
(5)
(6)相關性Cor用來衡量局部領域的線性依賴性。其表達式為
(6)
(7)能量Ery反映圖像灰度分布均勻性。圖像的紋理越粗,能量越大,反之越小。其表達式為
(7)
(8)熵Ent用來度量圖像具有的信息量。圖像中紋理越少,則該圖像的熵值越小,反之越大。其表達式為
Ent=-∑i,jp(i,j)logp(i,j)
(8)
1.3.2 特征歸一化
由于每個特征的提取都是單獨進行的,因此各個特征的數(shù)量級不同。所以不能直接將提取的特征數(shù)據(jù)直接進行分類處理,需要對特征進行歸一化處理。采用零均值標準化的方法將原始數(shù)據(jù)集歸一化為均值為0、方差為1的數(shù)據(jù)集,歸一化公式如下
(9)
式中:μ和σ分別為原始數(shù)據(jù)的均值和方差。
ELM[13]是在神經(jīng)網(wǎng)絡基礎上發(fā)展而來的,用來求解單隱層神經(jīng)網(wǎng)絡的算法。ELM通過隨機初始化輸入權重和偏置來產(chǎn)生唯一的解。
對于有L個隱層節(jié)點的單隱層神經(jīng)網(wǎng)絡可以用數(shù)學模型描述如下
(10)
Hβ=T
(11)
式中:H是隱藏層節(jié)點的輸出,β為輸出權重,T為期望輸出
(12)
一旦輸入權重Wi和隱藏層的偏置bi被確定,隱藏層的輸出矩陣H就可以被唯一確定。通過求解Hβ=T線性系統(tǒng)代替訓練單隱層神經(jīng)網(wǎng)絡。因此輸出權重β可以被確定為
(13)
式中:H+是矩陣H的Moore-Penrose廣義逆。
Relief算法是由Kira等[14]提出的,目前已經(jīng)廣泛的應用于數(shù)據(jù)特征選擇、分類等方面。特征屬性的重要程度主要根據(jù)樣本類內和類間的距離來評判。
(14)
由于一些弱相關的特征會影響分類結果的準確性,因此給出了基于Relief特征加權的ELM分類算法(Relief-ELM算法)。
2.3.1 特征權重的計算
當一個屬性類別比較容易判斷時,意味著與同類樣本間的距離較近,此時特征屬性的權重就較小。反之,與非同類樣本間的距離較遠,特征屬性的權重就較大。在此規(guī)則基礎上,將Relief算法用于候選結節(jié)特征權重的計算,算法如下。
Algorithm 1:求解訓練集特征權重
Input:帶有標簽的候選結節(jié)特征數(shù)據(jù)X
Output:每組數(shù)據(jù)的權重向量
(2)fori=1 ton;
(3)隨機選擇一個樣本xi
(4)尋找xi類內最近鄰樣本L和類間最近鄰樣本M
利用式(14)對候選結節(jié)的特征權值進行訓練,特征分類能力越強的賦予的權重越大,反之,特征分類能力越弱的賦予的權重越小。
2.3.2 Relief-ELM分類模型思想
根據(jù)求出的候選結節(jié)各個特征的權值,對歸一化后的候選結節(jié)的特征數(shù)據(jù)進行縮放,將各個特征屬性向量乘以相應權重,作為輸入樣本輸入到ELM網(wǎng)絡模型進行訓練,最后利用訓練好的ELM網(wǎng)絡模型對肺結節(jié)測試數(shù)據(jù)集中的圖像進行自動分類。具體算法如下:
肺結節(jié)檢測訓練算法:
Algorithm 2:肺結節(jié)訓練算法
Input:L:隱藏層層數(shù),T:醫(yī)生對肺結節(jié)訓練樣本的診斷結果,W:各個候選結節(jié)特征對應的特征權重;
Output:ELM的參數(shù)β;
(1)fori=1 toL
(2)隨機生成隱藏層偏置參數(shù)bi
(3)根據(jù)式(12)計算隱藏層輸出矩陣H;
(5)返回β
肺結節(jié)分類算法描述如下:
Algorithm 3:肺結節(jié)分類算法
Input:F為測試樣本,L,W,b,β;
Output:T對測試樣本的分類結果;
(1)利用F,W,b計算隱藏層輸出矩陣H;
(2)根據(jù)式(11)計算候選結節(jié)的分類結果T;
(3)返回T。
根據(jù)返回的結果T與醫(yī)生對肺結節(jié)的診斷結果進行對比來判斷分類器的分類效果。
交叉驗證能夠在有限的學習數(shù)據(jù)中從多個方向學習樣本來獲取盡可能多的有效信息,能夠有效地避免過擬合的問題,保證分類器的分化性能。采用四折交叉驗證,將肺部CT圖像被隨機分成4組,使得每組數(shù)量幾乎相等;用第一組作為測試集,其余的3組作為訓練集,獲得第一組分類的準確率A1;其余各組依照上面的方法對所有的數(shù)據(jù)進行分類得到其余兩組的準確率A2,A3,A4。計算分類的準確率如下式所示
ACCfinal=avg(A1,A2,A3,A4)
(15)
根據(jù)肺結節(jié)醫(yī)學影像表現(xiàn),聚類后的候選結節(jié)要么是結節(jié),要么是非結節(jié)即血管兩種情況。采用臨床醫(yī)學界的一種診斷疾病的方法-金標準來判斷目標區(qū)域是否為結節(jié)。肺結節(jié)診斷評價標準見表1。
表1 肺結節(jié)診斷評價標準
其中,TP表示結節(jié)被正確劃分的個數(shù);FN表示結節(jié)被錯誤劃分的個數(shù);TN表示非結節(jié)被正確劃分的個數(shù);FP表示非結節(jié)被錯誤劃分的個數(shù)。肺結節(jié)分類識別檢測的結果采用敏感度、特異性、誤診率、漏診率、準確率作為實驗分類性能的評價指標。計算公式如式(16)所示
(16)
實驗數(shù)據(jù)采用肺部影像數(shù)據(jù)庫聯(lián)盟(lung image database consortium,LIDC)數(shù)據(jù)集[15]。從LIDC數(shù)據(jù)集中選擇128幅肺部CT圖像作為實驗數(shù)據(jù),根據(jù)放射科醫(yī)生的注釋得知每幅圖像中只有一個結節(jié)。聚類后得到248個候選結節(jié),其中包含128個真陽結節(jié)和120個假陽結節(jié)。
實驗將248個樣本的8個特征屬性數(shù)據(jù)運用Relief特征加權算法進行實驗,求出不同的特征屬性在分類中不同的貢獻。類圓度、灰度直方圖熵、灰度均值、緊湊度、對比度、相關性、能量和熵等8個屬性按照順序在Relief算法中通過四折交叉運算計算出的權重均值變化趨勢如圖5所示。其中,類圓度為8.14,灰度直方圖熵為6.81,灰度均值為7.80,緊湊度為1.15,對比度為0.16,相關性為0.11,能量為1.07,熵為0.17。
圖5 8個特征屬性的權重
按照從大到小順序排列,可知各個屬性的權重關系如下:屬性1>屬性3>屬性2>屬性4>屬性7>屬性8>屬性5>屬性6,可以看出屬性1類圓度是最主要的影響因素。其次是屬性3灰度均值和屬性2灰度直方圖熵,后面幾個屬性的權重大小相近,但是還是對分類有著不同的重要程度。
本文在特征選擇為了獲得最優(yōu)特征組合,根據(jù)各個特征屬性權重的大小,從大到小不斷組合特征屬性,得到的準確率見表2。
表2 不同特征組合后的準確率
由表2可以看出特征屬性1、3、2、4、7即類圓度、灰度均值、灰度直方圖熵、緊湊度、能量這5個特征組合所得的分類準確率最高,所以將這5個特征選為最優(yōu)特征組合。
對比實驗中檢測肺結節(jié)的步驟是:首先根據(jù)肺結節(jié)的形狀和灰度特征對感興趣區(qū)域聚類得到候選結節(jié);然后提取候選結節(jié)的幾何特征和紋理特征,最后利用支持向量機(SVM)和極限學習(ELM)進行分類,將結節(jié)和非結節(jié)分離開來。基于交叉驗證的3種分類算法的肺結節(jié)檢測錯誤率的對比見表3。其中Y表示被檢測為非結節(jié)的樣本數(shù)量/該組結節(jié)樣本數(shù),N表示被檢測為結節(jié)的樣本數(shù)量/該組非結節(jié)樣本數(shù),T表示被錯檢的數(shù)量/該組測試的總的樣本數(shù)。從表中SVM算法、ELM算法以及本文算法相比較可以看出,SVM算法的錯檢率為13.31%,ELM算法的錯檢率為6.45%,可以看出相對于傳統(tǒng)的分類算法,ELM算法的錯檢率減少了一半,具有更好的分類性能。而本文算法的錯檢率只有4.03%,較傳統(tǒng)的ELM分類算法錯檢率有所降低,說明經(jīng)過特征加權優(yōu)化后的ELM相對于傳統(tǒng)的ELM更適用于肺結節(jié)的檢測。
表3 錯檢率對比
本文算法與SVM分類算法和ELM算法對比見表4。從表格實驗數(shù)據(jù)分析可知:本文方法對于肺結節(jié)檢測的精確度達到95.97%,而對比實驗SVM和ELM方法得到的準確率分別為是86.69%、93.55%,準確率分別提高了9.28%,2.42%。由于漏診對于患者是致命的,所以對于肺結節(jié)的檢測應該盡量減少漏診。本文方法在漏診率方面,相比較于SVM算法和ELM算法分別降低了12.15%、4.66%,這對于患者能夠提高肺癌的診斷質量和效率。本文方法的誤診率相對于對比實驗的方法分別降低了5.96%、0.18%。
根據(jù)式(16)計算出對比實驗SVM算法的敏感度和特異性分別為83.69%,90.65%,ELM算法的敏感度和特異性分別為91.18%,96.43%,而本文算法的敏感度和特異性分別為95.38%,96.61%。本文算法相對于SVM算法有11.69%敏感度的提高和5.96%特異性的提高。而相對于傳統(tǒng)的ELM算法有4.2%敏感度的提高和0.18%特異性的提高,這表明在權重分配時,Relief-ELM算法分配的權重科學,適用于肺結節(jié)的分類,具有較高的靈敏度和特異性。
表4 對比實驗
不同算法的分類性能評價如圖6所示,從圖中可以直觀地看出對比實驗SVM算法和ELM算法的準確率、敏感度和特異性都低于本文方法,而漏診率和誤診率均高于本文方法,表明Relief-ELM的各項評價指標都優(yōu)于SVM算法和ELM算法。
圖6 不同算法的分類性能比較
所提出的基于聚類和特征加權ELM的兩級分類肺結節(jié)識別方法,首先利用肺結節(jié)的灰度和形狀特征提取候選結節(jié),剔除假陽性結節(jié),降低后續(xù)的工作量;再提取候選結節(jié)的特征,利用Relief特征加權算法對候選結節(jié)的每個特征賦予不同的權重,提高了診斷的準確率。權重較高的特征對于類別的區(qū)分能力就較強,權重低的對類別的區(qū)分能力就較弱。實驗結果表明:相對于SVM算法和傳統(tǒng)的ELM算法,Relief-ELM對肺結節(jié)的分類具有較好的分類性能,在提高準確率的同時,能夠降低誤診率和漏診率。今后的研究工作是在當前工作的基礎上對已經(jīng)檢測出的肺結節(jié)進行良惡性分類。