趙 杰,萬丹丹,門國尊
(河北大學(xué)a.電子信息工程學(xué)院;b.河北大學(xué)經(jīng)濟(jì)學(xué)院,河北保定071000)
甲狀腺結(jié)節(jié)[1]在臨床中具有很高的發(fā)病率,且隨著年齡的增長不斷增加,甲狀腺癌[2]只有通過盡早發(fā)現(xiàn)確診,才能提高治愈率。當(dāng)前,甲狀腺的臨床分析主要通過醫(yī)生對圖像的主觀判別來完成。由于甲狀腺癌生物學(xué)特性多變,與良性病變難以區(qū)分,而醫(yī)生的臨床經(jīng)驗(yàn)差別很大,造成許多病人被誤診,因此計(jì)算機(jī)輔助判別甲狀腺圖像良惡性的方法研究具有廣泛的應(yīng)用前景。許多學(xué)者進(jìn)行了相關(guān)研究[3],如基于粗糙集的方法[4]、基于馬爾可夫模型的方法[5-6]等。對這些方法分析發(fā)現(xiàn),它們總體上還處于理論探討階段,離實(shí)際應(yīng)用還有一定距離。還有一些文獻(xiàn)以神經(jīng)網(wǎng)絡(luò)、貝葉斯分類器[7-8]對這些圖像進(jìn)行分類[9-10]。神經(jīng)網(wǎng)絡(luò)建立在經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化基礎(chǔ)上,只有存在足夠多的訓(xùn)練樣本才能保證分類效果,而訓(xùn)練樣本往往很有限。貝葉斯分類器也同樣面臨無限樣本集問題。支持向量機(jī)(SVM)[11-12]建立在統(tǒng)計(jì)學(xué)習(xí)理論的基礎(chǔ)上,其目標(biāo)是在有限的樣本下得到現(xiàn)有信息的最優(yōu)解。與神經(jīng)網(wǎng)絡(luò)相比,支持向量機(jī)結(jié)構(gòu)簡單且泛化能力強(qiáng)。模糊支持向量機(jī)(FSVM)不僅具有SVM的優(yōu)點(diǎn),同時可以克服孤立點(diǎn)和噪聲,從而使形成的分類面更優(yōu)。關(guān)鍵在構(gòu)造目標(biāo)函數(shù)時,根據(jù)樣本的重要程度,分配相應(yīng)的隸屬度。本文同時考慮樣本到類中心的距離和數(shù)據(jù)樣本緊致度的關(guān)系,結(jié)合歐氏距離方法,提出了一種新的模糊隸屬度函數(shù)。
由于甲狀腺圖像良惡性特征不同尺度下的相似性,本文根據(jù)有經(jīng)驗(yàn)的醫(yī)師用確診的甲狀腺圖像訓(xùn)練分類器,通過圖像底層特征提取語義特征[13-14],利用FSVM的模糊隸屬度對較大可能性的語義特征進(jìn)行標(biāo)簽標(biāo)注,最后通過分類器集成,使用多數(shù)投票方式產(chǎn)生正確結(jié)果。
考慮給定訓(xùn)練樣本集
式中:si為訓(xùn)練點(diǎn) (xn,yn,sn)的輸出yi=+1(正類)或yi=-1(負(fù)類)模糊隸屬度;σ≤si≤1;Rn為n維歐氏空間。
最優(yōu)分類面問題轉(zhuǎn)化為求式(2)目標(biāo)函數(shù)的最優(yōu)解
約束條件為
式中:C>0是懲罰參數(shù)。近似線性可分時,w是分類超平面間距離的倒數(shù);ξi用來度量樣本的錯分程度;si是模糊隸屬度,表示xi對分類貢獻(xiàn)的程度;siξi是帶不同權(quán)重的樣本錯分性的度量,從而使樣本點(diǎn)在分類中的作用不同。
為了求解二次優(yōu)化最優(yōu)解,采用拉格朗日方法,構(gòu)造拉格朗日函數(shù)
式中:σ ≤si≤1 ,αi≥0,βi≥0,j=1,…,l。σ 為一個任意小的正數(shù)αi和βj是支持向量對應(yīng)的拉格朗日乘子。
化為二次規(guī)劃的對偶形式為
約束條件為
式中:0≤αi≤si C,i=1,2,…,l;K(xi,xj)是核函數(shù)。求解式(5)可得最優(yōu)解α*,最終的決策函數(shù)為
模糊支持向量機(jī)的隸屬度方法與傳統(tǒng)的支持向量機(jī)方法相比,在約束條件(1)中增加了隸屬度si。
在FSVM理論中,隸屬度函數(shù)的設(shè)計(jì)是一個關(guān)鍵問題,本文同時考慮樣本到類中心的距離和數(shù)據(jù)樣本緊致度的關(guān)系,結(jié)合歐氏距離方法,提出了一種新的模糊隸屬度函數(shù)。
1)基于樣本到類中心的距離的隸屬度。
距離模糊隸屬度定義為
式中:x0為類中心;r為到類中心最遠(yuǎn)的樣本點(diǎn)的距離;δ為很小的一個正數(shù),為了避免s1為0,‖xi-x0‖大于r,則判斷肯定不屬于該類。
圖1中,左右兩圖中xi點(diǎn)到類中心的距離相等。但左圖樣本點(diǎn)相對松散,xi點(diǎn)很可能是支持向量,而右圖中樣本點(diǎn)則相對緊密,xi點(diǎn)就更可能為野點(diǎn)。因此,僅用式(8)定模糊隸屬度有不足之處。
圖1 不同緊致度的樣本點(diǎn)
2)本文在此基礎(chǔ)上,考慮到數(shù)據(jù)樣本緊致度的關(guān)系,結(jié)合歐氏距離,提出了一種新的模糊隸屬度函數(shù)。
定義樣本點(diǎn)與點(diǎn)間的歐氏距離為
則緊致度的模糊隸屬度定義為
式中:dij是兩個樣本點(diǎn)xi與xj的距離;k為離樣本點(diǎn)最近的k個點(diǎn)。如果樣本點(diǎn)越密集,s2值越大,反之則越小。
則最終的隸屬度為
概率潛在語義分析(PLSA)是刻畫文檔與詞匯間隱含語義關(guān)系的混合生成模型,為了將文本分析中的PLSA模型用于甲狀腺圖像分析,將圖像轉(zhuǎn)換成視覺詞匯組合的文檔。表1為圖像與文本分析的對應(yīng)關(guān)系。
表1 甲狀腺圖像與文本分析的對應(yīng)關(guān)系
本文將傳統(tǒng)文本分析思想引用到圖像中,將圖像中的區(qū)域比作文檔,而區(qū)域特征作為視覺詞匯,即文本中的單詞。根據(jù)單詞出現(xiàn)次數(shù)潛在反映圖像主題。
為了構(gòu)造視覺詞匯,將甲狀腺結(jié)節(jié)圖像劃分成D個區(qū)域,記為D=(d1,d2,…,dN)。這些區(qū)域被量化為包含M個視覺詞匯的詞匯表w,W=(w1,w2,…,wm)。量化過程是采用改進(jìn)的LBP提取甲狀腺圖像區(qū)域紋理特征,然后利用k均值聚類算法對提取的特征進(jìn)行聚類。每個聚類中心作為PLSA中的一個單詞。如果聚成R類,則視覺詞匯表中就有R個視覺單詞。之后建立共生矩陣,甲狀腺圖像包含D個區(qū)域,統(tǒng)計(jì)每個區(qū)域中各個視覺單詞的頻率,形成視覺詞匯直方圖,根據(jù)每個區(qū)域的視覺詞匯直方圖拼接成一個大小為D×R的區(qū)域—視覺詞匯矩陣,對應(yīng)文本分析中文檔詞匯共生矩陣
式中:xij=x(di,wj)表示詞匯wj在區(qū)域di中出現(xiàn)的次數(shù)。
則視覺詞匯和區(qū)域的聯(lián)合概率分布為
PLSA引入k個量Z=(z1,z2,…,zk)來解除文檔與詞匯間關(guān)系,隱變量Z的引入使di與wj條件獨(dú)立。這個額外的隱變量Z未增加模型的復(fù)雜性,反而使di和wj的依賴性降低。本文中zk表示區(qū)域潛在類別,假設(shè)其在區(qū)域和詞上分布是條件獨(dú)立的。在PLSA中,di與wj之間的依賴關(guān)系描述為
將式(16)代入式(15)得
PLSA模型的目標(biāo)函數(shù)就是根據(jù)已知訓(xùn)練數(shù)據(jù)尋求最優(yōu)參數(shù)估計(jì)p(wj|zk)(隱主題zk中詞匯wj出現(xiàn)的概率)和p(zk|di)(區(qū)域di的類別是zk的概率)。隱變量Z是具有某種語義屬性的“隱主題”,式(16)可直觀解釋為一個先根據(jù)文檔di決定隱主題zk,再根據(jù)隱主題zk生成詞wj。
根據(jù)散射參數(shù)曲線的物理意義和特征,散射參數(shù)的均值代表液體在測試頻段內(nèi)對微波吸收的整體情況.散射曲線平滑程度反映了液體受外界影響產(chǎn)生的不穩(wěn)定性,主要和液體的粘稠度等物理性質(zhì)有關(guān).因此將散射參數(shù)的均值和散射參數(shù)曲線平滑程度作為感知機(jī)的輸入?yún)?shù),即可以達(dá)到降維的目的,也便于觀察超平面的物理意義.
EM(Expectation Maximization)算法估計(jì)參數(shù)的最大值。經(jīng)過兩個步驟交替計(jì)算,第一步(E)是計(jì)算隱藏變量的后驗(yàn)概率的期望值;另外一步(M)是最大化在E步上找到的最大似然的期望值,從而計(jì)算參數(shù)的最大似然估計(jì)。
似然函數(shù)為
M步上找到的參數(shù)然后用于另外一個E步計(jì)算,如此交替實(shí)施E步和M步迭代計(jì)算,進(jìn)而計(jì)算出PLSA模型的參數(shù)。
在E步中,用當(dāng)前估計(jì)的參數(shù)值計(jì)算隱含變量zk的后驗(yàn)概率
在M步中,利用E步中得到的期望來最大化當(dāng)前的參數(shù)估計(jì),即更新參數(shù)值
圖像分類的目標(biāo)是根據(jù)其包含的主題類別分類。在訓(xùn)練過程中,由于選擇的都是已經(jīng)由專家確診的病例圖像,因此把這些圖像加上類標(biāo)簽,其特征就擁有一定的屬性,用這些特征訓(xùn)練分類器,并且采用分類器集成,以求達(dá)到更好的分類訓(xùn)練效果。
為了更好地理解分類器集成,假設(shè)給出一幅測試圖像分別輸入3個獨(dú)立的分類器中,當(dāng)?shù)?個分類器給出錯誤答案時,第2個和第3個也許是正確的,如圖2所示,因此采用多數(shù)投票集成的方法就容易產(chǎn)生正確結(jié)果。
圖2 集成分類得到的正確結(jié)果
為正確評價(jià)B超的檢查結(jié)果,提高判斷甲狀腺結(jié)節(jié)良惡性的準(zhǔn)確率,本文分析了秦皇島第一醫(yī)院、河北大學(xué)附屬醫(yī)院和體檢中心在2009年至2012年間因甲狀腺結(jié)節(jié)進(jìn)行手術(shù)治療患者的B超資料,數(shù)據(jù)集中包含210幅甲狀腺結(jié)節(jié)圖像,其中良性130幅,惡性80幅。所用的超聲診斷儀為Philips iU22及HDI5000 Sono彩色超聲診斷儀,探頭頻率為7~12 MHz,圖像尺寸為768×576,壓縮成為112×92。
本節(jié)考察算法中視覺詞匯表的大小對圖像分類精度的影響。圖3是平均分類精度的變化曲線。從總體上看,取20~40變化不明顯,取更大的詞匯數(shù)目不能提高分類精度,只會增加聚類時間。
圖3 分類精度在不同視覺詞匯數(shù)目的變化曲線
為了確定使用何種核函數(shù),將樣本集分為兩組,分別用3種核函數(shù)對訓(xùn)練樣本進(jìn)行學(xué)習(xí)分類。3種不同的核函數(shù)的分類識別結(jié)果見表2。
表2 使用不同核函數(shù)的分類結(jié)果
從表2可以看出,多項(xiàng)式核函數(shù)或徑向基函數(shù)核函數(shù)具有較高的準(zhǔn)確率,線性的分類器結(jié)果稍差。其中徑向基函數(shù)的識別準(zhǔn)確率最高。本文中,選擇徑向基函數(shù)作為核函數(shù)進(jìn)行分類。
為了證明本文算法的有效性,通過與傳統(tǒng)的算法進(jìn)行比較,結(jié)果見表3。
表3 本文算法與傳統(tǒng)分類算法分類精度對照表
從表中可以看出,由于甲狀腺圖像中許多特征為良惡性所共有,因此難以分辨,傳統(tǒng)的算法已經(jīng)不具有很好的分類性能,本文算法充分考慮到甲狀腺圖像的特點(diǎn),通過改良圖像特征,并且進(jìn)行多分類器集成方法使分類精度有了一定的提高。但是由于添加了更多的步驟,導(dǎo)致耗時更多。
本文采用改進(jìn)FSVM結(jié)合語義特征的甲狀腺圖像分類方法,通過提取圖像語義特征訓(xùn)練分類器,并采用多分類器集成的方法,對甲狀腺圖像進(jìn)行智能分類來判別甲狀腺結(jié)節(jié)良、惡性,幫助臨床醫(yī)生更好地做出甲狀腺癌的術(shù)前診斷。由于設(shè)備的原因,要對采集的圖像進(jìn)行壓縮,造成圖像信息的部分流失。對此今后要進(jìn)一步研究,以求達(dá)到更好的分類性能,并希望本分類方法可以用于其他醫(yī)學(xué)圖像的分類。
[1] CHANG C,TSAIM,CHEN S.Classification of the thyroid nodules using support vector machines[C]//Proc.IJCNN 2008.Hong Kong,China:IEEE Press,2008:3093-3098.
[2]滕衛(wèi)平.甲狀腺癌規(guī)范化診治及醫(yī)源性甲減研討會紀(jì)要[J].中華內(nèi)分泌代謝雜志,2007(23):571.
[3]李莉,木拉提·哈米提.醫(yī)學(xué)影像數(shù)據(jù)分類方法研究綜述[J].中國醫(yī)學(xué)物理學(xué)雜志,2011,28(6):35-38.
[4] BRAZOKOVICD.NESKOVICM.Mammogram screening usingmultiresolution based image segmentation[J].International Journal of Pattern Recognition and Artificial Intelligence,2001,7(6):1437-1460.
[5] LIH.Markov random field for tumor detection in digital mammography[J].IEEE Trans.Medical Imaging,2000,14(3):565-576.
[6] BOTTIGLIU.GOLOSIO B.Feature extraction from mammographic images using fastmatching methods[J].Nuclear Instruments and Methods in Physics Research,2002(487):209-215.
[7]王凱蕓.孟麗莉.基于影像數(shù)據(jù)系統(tǒng)的人工神經(jīng)網(wǎng)絡(luò)模型研究——乳腺癌的早期診斷模型[J].中國數(shù)字醫(yī)學(xué),2010,5(4):45-49.
[8]陳健美,宋順林,朱玉全,等.一種基于貝葉斯和神經(jīng)網(wǎng)絡(luò)的醫(yī)學(xué)圖像組合分類方法[J].計(jì)算機(jī)科學(xué),2008,35(3):244-246.
[9]宋余慶,謝從華,朱玉全.基于近似密度函數(shù)的醫(yī)學(xué)圖像聚類分析研究[J].計(jì)算機(jī)研究與發(fā)展,2006(11):1947-1953.
[10]張壯暑,蔡曉東,張學(xué)敏.監(jiān)控視頻中運(yùn)動目標(biāo)識別分類系統(tǒng)研究[J].電視技術(shù),2012,36(23):165-167.
[11]張學(xué)工.關(guān)于統(tǒng)計(jì)學(xué)習(xí)理論與支持向量機(jī)[J].自動化學(xué)報(bào),2000,26(1):32-41.
[12]張建飛,陳樹越,劉會明,等.基于支持向量機(jī)的交通視頻人車識別研究[J].電視技術(shù),2011,35(15):1-3.
[13] ZHUANG L,SHE L,JIANG Y,et al.Image classification via semi-superuisen PlSA[C]//Proc.Fifth International Conference on Image and Graphics,ICIG 2009.Xi’an:[s.n.],2009:205-208.
[14] CHEN B.Exploring the use of latent topical information for statistical Chinese spoken document retrieval[J].Pattern Recognition Letters,2006,27(1):9-18.