孔喜梅,木拉提·哈米提△,嚴(yán)傳波,姚娟,孫靜
(1.新疆醫(yī)科大學(xué)醫(yī)學(xué)工程技術(shù)學(xué)院,烏魯木齊830011;2.新疆醫(yī)科大學(xué)第一附屬醫(yī)院影像中心,烏魯木齊830011)
肝包蟲病又稱為肝棘蚴球病,可分為細(xì)粒棘球蚴病和泡狀棘球蚴病,是我國西北畜牧業(yè)發(fā)達(dá)地區(qū)常見的在人體肝臟內(nèi)而引起的人畜共患寄生蟲病,其膨脹性生長過程中對肝組織產(chǎn)生壓迫癥狀,及其并發(fā)癥都可對人體造成嚴(yán)重的危害[1-2]。臨床上,CT診斷肝包蟲的效果優(yōu)于B超與MRI,由于CT掃描的層次較薄,且有著較高的橫斷面圖像分辨率,可觀察到細(xì)微的病灶結(jié)構(gòu);同時(shí)能夠顯示肝包蟲病的結(jié)構(gòu)、位置、形態(tài)及大小等,且不同疾病階段時(shí)期的病理形態(tài)不相同,能夠?yàn)榕R床治療提供參考依據(jù)[3]。
紋理分析能夠鑒定物質(zhì)特有的屬性和特征,用于分類、分割和識(shí)別。在過去的各種特征提取和分類技術(shù)的應(yīng)用過程中都只是為了進(jìn)行紋理分析。近年來,國內(nèi)外學(xué)者提出了大量的紋理特征提取算法,較著名的有灰度共生矩陣(GLCM)、分形維數(shù)、灰度梯度共生矩陣及小波變換等。例如,周晶晶等[4]提出利用灰度共生矩陣法分析肝包蟲CT圖像的紋理特征,主要描述了肝包蟲CT圖像的紋理和灰度分布的差異,結(jié)合肝包蟲病癥的特點(diǎn),將灰度共生矩陣和最大類間距結(jié)合,使用Bayes判別分析,一定程度上有助于對肝包蟲CT圖像進(jìn)行分類和檢索;員偉康等人[5]選取了新疆地方性肝包蟲病中的單囊型肝包蟲和正常肝臟CT圖像為研究對象,提取灰度直方圖、灰度共生矩陣和kc復(fù)雜性三種特征組成綜合特征進(jìn)行分類,最后使用Fisher判別分析法對特征的分類能量進(jìn)行評價(jià),得到了較高的分類準(zhǔn)確率。
目前,以小波分析為代表可實(shí)現(xiàn)多分辨率,并在時(shí)域和頻域都能表征信號的局部特征的信號處理方法已經(jīng)越來越多的應(yīng)用到醫(yī)學(xué)圖像的研究中[6-7],在肝臟 CT圖像[8]、腦 CT圖像[9]、乳腺 X線圖像[10]等領(lǐng)域已經(jīng)取得了較為出色的成效。而針對小波變換進(jìn)行肝包蟲CT圖像特征提取這一方面幾乎為零,因此,本研究擬采用一種基于小波變換的紋理分析方法,利用2種小波變換將圖像分解成不同的子帶,提取正常肝臟和多子囊型肝包蟲CT圖像的紋理特征組成特征集。由于所提取的特征之間存在一定的冗余性,因此,使用單因素方差分析法篩選出優(yōu)化的特征子集,并利用決策樹C4.5分類器進(jìn)行訓(xùn)練和測試,為新疆地方性肝包蟲計(jì)算機(jī)輔助診斷系統(tǒng)奠定基礎(chǔ)。
實(shí)驗(yàn)中選用的正常肝臟CT圖像和多子囊肝包蟲CT圖像,來自于新疆醫(yī)科大學(xué)第一附屬醫(yī)院及南北疆各地州市醫(yī)院,經(jīng)影像科醫(yī)師進(jìn)行指導(dǎo)分類,有效樣本共計(jì)200例,其中正常人100例,多子囊肝包蟲患者100例,樣本采集均在40歲以上,男性多于女性。
由于實(shí)驗(yàn)需求在多個(gè)地方進(jìn)行圖像的采集過程中,不同的機(jī)器所得到的圖像分辨率會(huì)有所不同,而實(shí)際應(yīng)用中,我們也只是對整幅圖像中的感興趣病灶區(qū)進(jìn)行分析。但是不同圖像的感興趣區(qū)域的分辨率差異可能成數(shù)量級變換,這些差異很容易在分類過程中造成準(zhǔn)確率的下降。因此,在選擇感興趣病灶區(qū)前,先對圖像進(jìn)行預(yù)處理,降低分辨率的差異以免得到的分類性能較差。
本研究對圖像進(jìn)行預(yù)處理的步驟:(1)灰度尺寸歸一化由于病灶位置、尺寸大小各不相同,因此,采用均勻量化的方法對圖像進(jìn)行尺寸歸一化,進(jìn)一步對圖像進(jìn)行灰度轉(zhuǎn)換以減少計(jì)算機(jī)運(yùn)行速度及運(yùn)算量;(2)圖像去噪 CT圖像在攝片過程中會(huì)受到各種噪聲的干擾,影響成像的質(zhì)量,存在的噪聲也會(huì)干擾圖像特征提取的結(jié)果,采用中值濾波對正常和多子囊肝包蟲CT圖像進(jìn)行濾波,抑制噪聲,同時(shí)不會(huì)丟失圖像細(xì)節(jié);(3)圖像增強(qiáng) 使用自適應(yīng)直方圖均衡化使CT圖像的灰度分布更均勻,細(xì)節(jié)描述更清晰。
感興趣病灶區(qū)的選擇步驟:首先,如圖1所示,在每幅圖像中,根據(jù)病變區(qū)域的面積大小,用矩形框分割出不同大小的目標(biāo)區(qū)域,分割時(shí)盡可能將肝包蟲病變區(qū)域全部包含在內(nèi)。其次,對感興趣病灶區(qū)域內(nèi)的分辨率進(jìn)行手工調(diào)整,使相同面積的感興趣病灶區(qū)域像素?cái)?shù)處于同一數(shù)量級。
圖1 感興趣病灶區(qū)域(a)正常肝臟;(b)多子囊肝包蟲Fig 1 Region of Interest Lesion
小波變換作為一種信號分析的數(shù)學(xué)工具,在科學(xué)技術(shù)界已經(jīng)成為一個(gè)熱門話題。經(jīng)過幾十年的發(fā)展,它不僅在理論和方法上取得了突破性的進(jìn)展,而且在信號與圖像處理、計(jì)算機(jī)視覺與編碼、模式識(shí)別等領(lǐng)域中也得到越來越多的關(guān)注和重視[11]。因此,被譽(yù)為“數(shù)學(xué)顯微鏡”,是調(diào)和分析發(fā)展史上的里程碑[12]。
2.2.1 小波變換基本原理 連續(xù)小波變換主要用于理論分析,實(shí)際應(yīng)用中離散小波變換更適于計(jì)算機(jī)處理。把連續(xù)小波變換中的尺度參數(shù)a和平移參數(shù)b的離散化公式分別取作,其中j,k∈Z,擴(kuò)展步長是固定值[13]。所以對應(yīng)的離散小波函數(shù) Ψj,k(t)可寫成:
相應(yīng)的離散小波變換定義為:
其重構(gòu)公式為:
c是一個(gè)與信號無關(guān)的常數(shù)。
只有當(dāng)對尺度參數(shù)a和平移參數(shù)b離散化,并且能從這些離散點(diǎn)上的值完全重構(gòu)f(t)時(shí),小波變換才能成為實(shí)際可行的分析工具。
取 a0=2,b0=1,每個(gè)網(wǎng)格點(diǎn)對應(yīng)的尺度為 2j,而平移為2jk。由此得到的小波:
稱為二進(jìn)小波。相應(yīng)的小波變換可表示為:
由于圖像是二維信號,因此,在應(yīng)用小波變換對圖像進(jìn)行處理的過程中,需要把原來的基于一維的小波變換推廣到二維。其中二維的尺度函數(shù)為:
上式中的Ψ(x)和Ψ(y)為一維小波變換的尺度函數(shù)。
2.2.2 二維小波分解 小波變換將一維時(shí)域函數(shù)映射到二維“時(shí)間-尺度”域上,即小波變換的多分辨率分析[8]。
對每一幅CT圖像進(jìn)行3層小波分解,分解步驟如下[14]:(1)圖像經(jīng)過第一層小波分解,進(jìn)行隔行隔列采樣后,即二維圖像經(jīng)一次小波變換,分解為原圖像1/4大小的四個(gè)子圖像:低頻近似分量LL、水平細(xì)節(jié)分量HL、垂直細(xì)節(jié)分量LH和對角細(xì)節(jié)分量HH,其中L和H分別表示低通和高通濾波輸出。得到的這些子圖像分別從不同角度描述了原圖像。(2)第二次小波變換時(shí)又可以進(jìn)一步的將該近似分量LL子帶分解成1個(gè)低頻部分和3個(gè)高頻部分,以此類推逐級進(jìn)行分解。各級的分解系數(shù)反映了信號在不同分辨率下,即不同尺度下的低頻信息和高頻信息。對圖像進(jìn)行3層小波分解,見圖2。
圖2 三層小波分解示意圖Fig 2 Schematic diagram of three layer wavelet decomposition
紋理特征提取的效果主要取決于小波基的選擇和小波分解層數(shù)。國內(nèi)外的研究者已經(jīng)對不同的小波基從不同的角度出發(fā),進(jìn)行大量的實(shí)驗(yàn)驗(yàn)證,并應(yīng)用于圖像紋理特征提取的領(lǐng)域,得到了較好的實(shí)驗(yàn)效果[15-16]。在實(shí)際應(yīng)用中,對小波基的選擇,一般考慮對稱性,本研究主要考慮2種正交小波sym4和db4,sym4具有近似對稱性,db4具有不對稱性。將這兩種小波用于新疆地方性肝包蟲CT圖像的紋理特征提取中。圖3是一幅多子囊肝包蟲CT圖像利用sym4小波進(jìn)行的3層小波分解圖。
圖3 多子囊肝包蟲CT圖像3層分解圖(a)原始圖像;(b)3層小波分解圖Fig 3 Three layer decomposition of multiple daughter hydatid cyst CT images
圖像經(jīng)過小波變換可以得到很多描述紋理信息的特征,其中能量作為特征的方法被廣泛應(yīng)用。實(shí)驗(yàn)過程中,小波分解層并不是越多越好,經(jīng)過多次試驗(yàn)比較,并考慮到計(jì)算的復(fù)雜度及計(jì)算機(jī)運(yùn)行速度,將原圖像進(jìn)行3層小波分解,提取每層子通道的高頻系數(shù)。由于第三層的低頻子圖反映的是紋理圖像的整體概貌,其特征提取無紋理上的意義,所以將其舍去。因此,本研究利用兩種小波基對原圖像分別進(jìn)行3層小波分解,得到高頻子圖數(shù)目分別為9個(gè),然后對每幅高頻子圖應(yīng)用式(7)計(jì)算其能量值[17]。計(jì)算能量值公式如下:
其中M,N為圖像的行和列數(shù),P為第i行j列的值。
基于小波變換的新疆地方性肝包蟲CT圖像特征提取的算法如下:
(1)對每一幅經(jīng)過預(yù)處理后的CT圖像選擇其感興趣病灶區(qū);
(2)選用sym4和db4兩種小波基分別對提取的感興趣病灶區(qū)CT圖像進(jìn)行3層小波分解,最終各獲得了一個(gè)低頻子圖和9個(gè)不同方向的高頻子圖;
(3)提取1~3層各方向高頻子圖的系數(shù),計(jì)算小波系數(shù)能量值,分別得到9個(gè)能量特征:Es=[Esd1,Esh1,Esv1;Esd2,Esh2,Esv2;Esd3,Esh3,Esv3]
Ed=[Edd1,Edh1,Edv1;Edd2,Edh2,Edv2;Edd3,Edh3,Edv3]
(4)分別對得到的特征向量進(jìn)行統(tǒng)計(jì)學(xué)方法,篩選出最優(yōu)的特征,構(gòu)造用于分類的特征向量,結(jié)果分別記作 Eso和 Edo,則 Eso=[Esv1,Esh2,Esv2,Esd3,Esh3,Esv3];Edo=[Edd1,Edv1,Edd2,Edh2,Edv2,Edd3,Edh3,Edv3]
(5)用決策樹C4.5分類器對正常肝臟和多子囊型肝包蟲進(jìn)行分類,通過試驗(yàn)比較,選擇出適合于進(jìn)行特征提取的小波基。圖4給出了基于小波變換的特征提取與決策樹C4.5進(jìn)行分類的算法框圖。
圖4 CT圖像經(jīng)小波變換后進(jìn)行特征提取和決策樹C4.5分類的處理框圖Fig 4 After wavelet transform for process diagram of feature extraction and C4.5 decision tree
Quinlan JR于1993年提出了C4.5算法,它是以ID3算法為核心的完整的決策樹生成系統(tǒng)[18]。它通過兩個(gè)步驟來建立決策樹:樹的生成階段和樹的剪枝階段。C4.5算法在ID3的基礎(chǔ)上增加了對連續(xù)型屬性和屬性值空缺情況的處理,對樹剪枝也有了較成熟的方法[19-20]。
與ID3不同,C4.5采用基于信息增益率的方法選擇測試屬性。信息增益率等于信息增益對分割信息量比值。
比較ID3算法,C4.5算法在效率上有了很大的提高。不僅可以直接處理連續(xù)型屬性,還可以允許訓(xùn)練樣本集中出現(xiàn)屬性空缺的樣本。生成的決策樹的分枝也較少。信息增益函數(shù)對于那些可能產(chǎn)生多分支輸出的測試傾向于產(chǎn)生大的函數(shù)值,但是輸出分支多,不表示該測試對未知的對象具有更好的預(yù)測效果,信息增益率函數(shù)可以彌補(bǔ)該缺陷[21]。以往的經(jīng)驗(yàn)說明信息增益率函數(shù)比信息增益函數(shù)更優(yōu)越,能穩(wěn)定的選擇好的測試。
為了客觀地評價(jià)分類算法的性能,本研究采用正確率、敏感性和特異性來定性評價(jià),常用的各項(xiàng)指標(biāo)計(jì)算方法如下[22-24]:
其中,tp(true positive,tp.)為真陽性例數(shù),即被正確分類的正常肝臟圖像例數(shù);tn(true negative,tn)為真陰性的例數(shù),即被正確分類的多子囊肝包蟲圖像例數(shù);fp(false positive,fp)為假陽性的例數(shù),即多子囊肝包蟲圖像被錯(cuò)分為正常肝臟圖像例數(shù);fn(false negative,fn)為假陰性的例數(shù),即正常肝臟圖像被錯(cuò)分為多子囊肝包蟲圖像例數(shù)。另外,在分類過程中可以獲得每一個(gè)測試樣本到?jīng)Q策面的距離,將每一個(gè)距離作為一個(gè)閾值,可以得到相應(yīng)的受試者工作特征(receiver operating characteristic,ROC),ROC曲線下面積(area under the curve,AUC)也可以作為一個(gè)量化分類器好壞的指標(biāo)。
本研究使用單因素方差分析進(jìn)行特征的篩選,將得到的最優(yōu)能量特征組成一個(gè)新的特征組。兩種小波基提取的正常肝臟圖像及多子囊肝包蟲圖像各項(xiàng)特征參數(shù)間差異有統(tǒng)計(jì)學(xué)意義(P<0.05),結(jié)果見表1、表2。
表1 sym4小波提取正常肝臟和多子囊型肝包蟲CT圖像的紋理特征指標(biāo)Table 1 sym4 wavelet extract texture feature indicators of normal liver and multiple daughter hydatid cyst CT images
表2 db4提取正常肝臟和多子囊型肝包蟲CT圖像的紋理特征指標(biāo)Table 2 db4 wavelet extract texture feature indicators of normal liver and multiple daughter hydatid cyst CT images
本實(shí)驗(yàn)選擇的均是經(jīng)臨床醫(yī)師診斷的肝包蟲CT圖像進(jìn)行分類研究,在MATALB R2010a環(huán)境下對正常肝臟和多子囊肝包蟲各100幅CT圖像進(jìn)行分類仿真,分別使用兩種小波基提取新疆的地方性肝包蟲CT圖像,將經(jīng)篩選的特征輸入C4.5決策樹分類器進(jìn)行分類。在數(shù)據(jù)集中,取出特定的百分比的數(shù)據(jù)用于訓(xùn)練,其余的數(shù)據(jù)用于測試,以此來評價(jià)分類器預(yù)測分類的性能。本研究依次選取10%-90%的樣本作為訓(xùn)練樣本,其余的作為測試樣本。見圖5。
從圖5可得,db4小波提取的紋理特征所得的分類準(zhǔn)確率趨勢明顯高于sym4小波提取的紋理特征所得的分類準(zhǔn)確率。
由表3可知,依次選取10%~90%的樣本作為訓(xùn)練樣本,其余的作為測試樣本,可以分別得到db4小波算法及sym4小波算法的平均分類準(zhǔn)確率、平均靈敏度、平均特異性和平均 ROC曲線下的面積。
表3 db4和sym4兩種小波算法的平均分類結(jié)果Table 3 db4 and sym4 wavelet algorithm of average classification result
其中db4小波算法結(jié)合C4.5決策樹進(jìn)行分類所獲得的ROC曲線下的面積明顯大于sym4小波算法結(jié)合C4.5決策樹分類所獲得的ROC曲線下的面積,見圖6。
此外,文獻(xiàn)[4]中,分別選取正常肝臟和多子囊型肝包蟲CT圖像50幅進(jìn)行試驗(yàn),并使用灰度共生矩陣、最大類間距及Bayes算法得到正常肝臟與多子囊型肝包蟲CT圖像,平均分類準(zhǔn)確率為75%。而本研究也分別隨機(jī)選取50幅正常肝臟和多子囊型肝包蟲CT圖像為研究對象,分別求兩種小波的平均準(zhǔn)確率,并將本文的方法與文獻(xiàn)[4]方法進(jìn)行比較。結(jié)果表明,本研究使用的方法得到的分類準(zhǔn)確率高于文獻(xiàn)[4]方法得到的分類準(zhǔn)確率,見圖7。
圖6 db4和sym4兩種小波算法的ROC曲線圖Fig 6 db4 and sym4 wavelet algorithm of ROC curves
圖7 三種算法結(jié)果對比圖Fig 7 Three algorithm results contrast figure
因此,db4小波算法提取的新疆地方性肝包蟲CT圖像的紋理特征更適合于對肝包蟲CT圖像進(jìn)行分類,對于建立肝包蟲的數(shù)字化診斷標(biāo)準(zhǔn)具有較好的效果。
本研究選取正常肝臟和多子囊型新疆地方性肝包蟲醫(yī)學(xué)CT圖像為研究對象,提出了基于db4和sym4兩種小波基的小波變換算法分析技術(shù),分別提取正常肝臟和多子囊型肝包蟲CT圖像的高頻信息,計(jì)算其能量值。采用統(tǒng)計(jì)學(xué)方法進(jìn)行特征選擇,證明了正常肝臟和多子囊型肝包蟲CT圖像在紋理特征上存在顯著差異。并在此基礎(chǔ)上,使用C4.5決策樹分類器構(gòu)建分類模型。實(shí)驗(yàn)結(jié)果表明,采用db4小波進(jìn)行3層分解,并通過統(tǒng)計(jì)學(xué)分析方法進(jìn)行特征選擇后,利用C4.5決策樹分類效果最佳。總之,研究肝包蟲CT影像數(shù)字特征的提取和分析有助于發(fā)現(xiàn)和利用更多潛在的、有用的信息,為計(jì)算機(jī)輔助診斷新疆地方性肝包蟲CT圖像疾病提供有力的臨床依據(jù)。