韓磊,王軍成,王凱
(聯(lián)勤保障部隊(duì)第985醫(yī)院,山西 太原 030001)
肺癌是目前常見(jiàn)的惡性腫瘤之一,其發(fā)病率和死亡率均居惡性腫瘤的首位[1]。腺癌是肺癌的主要病理類型之一,近年來(lái)發(fā)病率呈上升趨勢(shì)[2]。有資料顯示,如果能在早期發(fā)現(xiàn)肺腫瘤,其治愈率可達(dá)65%。若能在早期準(zhǔn)確地檢測(cè)腫瘤,并知曉肺腫瘤的種類、分型以及是否有淋巴結(jié)轉(zhuǎn)移等情況,將對(duì)腫瘤的治療計(jì)劃起到至關(guān)重要的作用。本文采用機(jī)器學(xué)習(xí)的方法對(duì)腫瘤進(jìn)行分類和分期,有著明顯的優(yōu)勢(shì),它不僅可以減少活檢帶來(lái)的痛苦,也在一定程度上提高了工作效率,減少了人為因素的影響。本文采用支持向量機(jī),對(duì)肺腫瘤淋巴結(jié)轉(zhuǎn)移情況進(jìn)行預(yù)測(cè),取得很好的預(yù)測(cè)效果。
本文采用基于圖論的圖像分割方法對(duì)CT圖像進(jìn)行分割。
圖2 原始圖像
圖3 分割后的圖像
對(duì)上述分割的肺腫瘤進(jìn)行觀察,發(fā)現(xiàn)分割的結(jié)果中,部分圖像存在空洞,對(duì)于后續(xù)的特征提取有影響,所以采用圖像形態(tài)學(xué)變化的方法對(duì)分割后的圖片進(jìn)行處理[3]。
圖4 分割后的圖像
圖5 閉運(yùn)算后的圖像
由于肺腫瘤實(shí)際是三維的,主要從三維特征的全局特征出發(fā),對(duì)肺腫瘤的體積、表面積、球形度、以及空間位置等進(jìn)行特征提取,理論上應(yīng)該具有更高的準(zhǔn)確度和敏感度[4]。
(1)體積特征
肺腫瘤體積的計(jì)算方法為統(tǒng)計(jì)肺腫瘤分割后的圖像中所有灰度值不為零的像素點(diǎn)的個(gè)數(shù),然后將得到的像素點(diǎn)個(gè)數(shù)轉(zhuǎn)化為相應(yīng)的面積值,最后將面積乘以CT圖像的層厚。計(jì)算公式如下:
圖1 圖像分割流程
式中,V表示肺結(jié)節(jié)的體積大小,Z表示CT圖像的張數(shù),I(x,y)表示圖像上肺腫瘤的像素點(diǎn),h為單張圖像的層厚。
(2)表面積特征
肺腫瘤表面積計(jì)算的方法為用邊緣算子提取肺腫瘤的邊緣,然后統(tǒng)計(jì)該邊緣中所有灰度值不為零的像素點(diǎn)的個(gè)數(shù),將其轉(zhuǎn)化為相應(yīng)的長(zhǎng)度,最后乘以CT圖像的層厚。計(jì)算公式如下:
式中,S表示肺結(jié)節(jié)的表面積大小,Z表示CT圖像的張數(shù),u(x,y)表示圖像上肺腫瘤的邊緣像素點(diǎn),h為單張圖像的層厚。
(3)球形度
球形度表示為肺腫瘤接近于球體的概率,計(jì)算公式如下:
(4)空間位置
本文空間位置的判斷方法為統(tǒng)計(jì)獲取的CT圖像中含有肺部圖像信息的數(shù)量以及起始張數(shù),最終通過(guò)兩者的比例來(lái)確定軸向位置。而肺腫瘤在某一平面上的位置可以算它與邊界的距離。
紋理是一種反映圖像中同質(zhì)現(xiàn)象的視覺(jué)特征,它體現(xiàn)了物體表面的具有緩慢變化或者周期性變化的表面結(jié)構(gòu)組織排列屬性。
本文利用灰度共生矩陣和頻域轉(zhuǎn)換計(jì)算其特征值。
圖6 灰度共生矩陣特征提取程序框圖
圖7 頻域紋理特征提取程序框圖
最后將提取的特征值保存成35×283的表格,前282列為特征,第283列為每種分類的標(biāo)簽。
支持向量機(jī)(support vector machine,SVM)在解決小樣本、非線性及高維模式識(shí)別中表現(xiàn)出許多特有的優(yōu)勢(shì),并能夠推廣應(yīng)用到函數(shù)擬合等其他機(jī)器學(xué)習(xí)問(wèn)題中。
本文核函數(shù)參數(shù)選擇為1,懲罰因子為0.6,交叉驗(yàn)證折數(shù)為5次,隨機(jī)次數(shù)為10次。
第一輪特征篩選:總計(jì)282種特征,為了節(jié)省訓(xùn)練和預(yù)測(cè)時(shí)間,以13個(gè)特征分為一組,分為22個(gè)組,每個(gè)組進(jìn)行預(yù)測(cè)(最優(yōu)特征中的數(shù)字代表特征的序號(hào),eg:1代表282種的特征的第1個(gè),是三維體積,2代表第2個(gè)特征,是三維表面積)。以下為第一輪篩選結(jié)果:
表2 淋巴結(jié)特征第二輪篩選
經(jīng)過(guò)第一輪的預(yù)測(cè),我們將AUC大于0.8的特征提取出來(lái),作為下一輪篩選的初始樣本。篩選出的特征有第八組(95 96 97 98 99 104),第十組(119 121 122 124 129 130),第十一組(137 138 142),第十二組(147 148 149),第十三組(159 161 162 164 169),第十五組(185 186 187 191 193),第十八組(222 224 226 227 233),第十九組(239 243 245 246),第二十組(253 254 255 258 259),第二十一組(265 271 272 273),第二十二組(274 278 279),共計(jì)49個(gè),將其分為4組。以下為第二輪篩選結(jié)果:
表1 淋巴結(jié)特征第一輪篩選
經(jīng)過(guò)第二輪的預(yù)測(cè),我們將AUC大于0.9的特征提取出來(lái),作為下一輪篩選的初始樣本,篩選出的特征有第一組(96 98 99 104 119 122 124),第二組(137 138 147 148 169),第三組(185 186 191 193 239 243),第四組(253 255 258 259 272 273 278),共計(jì)25個(gè),將其分為2組。以下為第三輪篩選結(jié)果:
表3 淋巴結(jié)特征第三輪篩選
將上述最優(yōu)的特征合并,提取出最終的特征13個(gè)特征(96 99 104 137 138 147 148 185 193 258 259 272 278)。
涉及到疾病的分類,首先要了解靈敏度和特異度。
(1)靈敏度(Sensitivity)
靈敏度又稱為敏感度或者真陽(yáng)性率,是指篩選方法能將實(shí)際有病的人正確地判定為患者的比例。計(jì)算公式如下:
式中,TP為真陽(yáng)性的人數(shù),F(xiàn)N為假陰性的人數(shù),真陽(yáng)性為實(shí)際有病,診斷為有病,假陰性為實(shí)際有病,診斷為無(wú)病。
表4 淋巴結(jié)轉(zhuǎn)移預(yù)測(cè)情況
圖8 默認(rèn)參數(shù)淋巴結(jié)轉(zhuǎn)移預(yù)測(cè)的ROC曲線
(2)特異度(Specificity)
特異度又稱真陰性率,是指篩選方法能將實(shí)際無(wú)病的人正確地判定為非患者的比例。計(jì)算公式如下:
式中,TN為真陰性的人數(shù),F(xiàn)P為假陽(yáng)性的人數(shù),真陰性為實(shí)際無(wú)病,診斷為無(wú)病,假陽(yáng)性為實(shí)際無(wú)病,診斷有為有病。
(3)準(zhǔn)確性(Accuracy)
敏感性和特異性是一個(gè)事物的兩個(gè)方面,存在本質(zhì)的聯(lián)系,為了全面把握診斷的真實(shí)性,本文引出了準(zhǔn)確性,計(jì)算公式如下:
(1)ROC曲線
接收者操作特征曲線(receiver operating characteristic curve),是反映敏感性和特異性連續(xù)變量的綜合指標(biāo),roc曲線上每個(gè)點(diǎn)反映著對(duì)同一信號(hào)刺激的感受性,是分類器的評(píng)價(jià)指標(biāo)之一[5]。
(2)AUC (Area Under Curve)
AUC 被定義為ROC曲線下的面積,顯然這個(gè)面積的數(shù)值不會(huì)大于1。又由于ROC曲線一般都處于y=x這條直線的上方,所以AUC的取值范圍一般在0.5和1之間。
從AUC判斷分類器(預(yù)測(cè)模型)優(yōu)劣的標(biāo)準(zhǔn):當(dāng)0.5 支持向量機(jī)預(yù)測(cè)模型的結(jié)果如下: 靈敏度為0.8462,特異度為1。 分析:可以發(fā)現(xiàn),ROC曲線最左上角的點(diǎn)依上述方法被判斷為具有最佳診斷效果的界限點(diǎn)也就是在假陽(yáng)性率大約為0-0.1的時(shí)候,此時(shí)的真陽(yáng)性率即敏感度在0.85-0.95之間,與上述實(shí)驗(yàn)的結(jié)果是一致的,證明本實(shí)驗(yàn)篩選出的特征以及建立的預(yù)測(cè)模型具有較高的準(zhǔn)確性。 隨著肺腫瘤對(duì)人類的危害越來(lái)越大,適用計(jì)算機(jī)對(duì)腫瘤進(jìn)行輔助診斷和治療變得越來(lái)越重要。本文針對(duì)CT圖像中肺腫瘤的情況,提出了基于支持向量機(jī)的預(yù)測(cè)模型,同時(shí)結(jié)合基于圖論的圖像分割算法和機(jī)器學(xué)習(xí)的方法,在保證預(yù)測(cè)性能的同時(shí),有效降低了預(yù)測(cè)復(fù)雜度,提高了預(yù)測(cè)的準(zhǔn)確率。5.3 預(yù)測(cè)結(jié)果
6 結(jié)論