劉應(yīng)欽,李紅梅,白尚旺
(太原科技大學(xué)計算機(jī)學(xué)院軟件工程教研室,太原 030024)
在癌癥檢查中,通常需要對病人的痰液或尿液中細(xì)胞進(jìn)行涂片,使用顯微技術(shù)進(jìn)行識別與分析。這項工作較為繁復(fù),并且誤判概率較大,因而需要計算機(jī)輔助醫(yī)療技術(shù),代替人工來對細(xì)胞是否病變進(jìn)行判定,從而將醫(yī)生從繁復(fù)的勞動中解脫出來。
目前使用計算機(jī)輔助診斷技術(shù)對細(xì)胞識別時準(zhǔn)確率總是不高。究其原因,是由于在識別細(xì)胞圖像時,通常首先要將細(xì)胞與其他細(xì)胞進(jìn)行分割,而后對該細(xì)胞的一組特征,如細(xì)胞總體積,細(xì)胞形狀,細(xì)胞核形狀,細(xì)胞核漿比,細(xì)胞內(nèi)紋理結(jié)構(gòu)等,最后運(yùn)用這些特征對其是否發(fā)生癌變進(jìn)行判定[1-3]。但是細(xì)胞的種類繁多,不同的細(xì)胞體積與形狀都不同。即使是相同種類的細(xì)胞,如果處在不同的時期,其外觀通常也不盡相同。這種情況下,就使得對于不同種類,不同生長階段的細(xì)胞,需要使用不同的,帶有針對性的細(xì)胞特征來分辨與判斷其是否病變。這就給識別工作帶來了很大的困難。
由于這些問題,Snake[4]算法便是通過使用能量函數(shù)作為度量值,將圖像的分割線與圖像相聯(lián)系,使用最小化能量泛函來約束分割線,以得到最佳的分割效果。本文采用圓諧傅里葉矩作為圖像的特征,然后利用支持向量機(jī)將提取的圖像矩進(jìn)行優(yōu)化,便可以得到一套準(zhǔn)確、快捷的細(xì)胞識別算法。
圖像矩是一種高度濃縮的圖像特征,它具有平移、旋轉(zhuǎn)、灰度、縮放不變性,這使得圖像矩對由于光照、色彩、角度不同而造成的圖像畸變不敏感,因而適合被用來描述圖像,作為圖像的特征值[5-7]。
圓諧-傅里葉矩的結(jié)構(gòu)是由三角函數(shù)作為其徑向函數(shù)Tn(r),與圓諧波函數(shù)exp(jmθ)相乘,構(gòu)成函數(shù)系 Pnm(r,θ):Pnm(r,θ)=Tn(r)exp(jmθ)
其中,徑向函數(shù)Tn(r)定義為:
很顯然,函數(shù)系Pnm(r,θ)在區(qū)間0≤r≤1之內(nèi)是正交的:
定義圓諧-傅里葉矩的計算公式為:
由于該矩為正交矩,則可由無數(shù)個圓諧-傅里葉矩重構(gòu)圖形,其公式為:
對圖像矩中的徑向函數(shù)而言,零點(diǎn)的數(shù)目與位置通常與其描述的圖像空間頻率成分有關(guān)。也就是說,一個n階的徑向函數(shù)的零點(diǎn)位置與數(shù)目,代表了該徑向函數(shù)對圖像的采樣位置與頻率[9]。如果零點(diǎn)數(shù)目過少,則采樣次數(shù)較少;如果零點(diǎn)位置分布很不均衡,則會造成圖像部分采樣較多,另一些部分采樣較少,都不能很好的描述圖像。
對于圖像矩而言,零點(diǎn)的數(shù)量與分布決定了對圖像描述能力的強(qiáng)弱[6]。對圓諧-傅里葉矩的徑向函數(shù)Tn(r)求零點(diǎn),得到結(jié)果如圖1所示。
圖1 Tn(r)零點(diǎn)分布圖Fig.1 Tn(r)zero maps
由圖1可看出,n階圓諧-傅里葉矩的零點(diǎn)數(shù)目多于n個,且分布均勻,這就使得圓諧-傅里葉矩對圖像的中心與邊緣的描述是平均的,不會由于零點(diǎn)位置的不均等造成部分圖像特征提取的失真。而第一個零點(diǎn)非常接近坐標(biāo)原點(diǎn),這就使利用該矩進(jìn)行小圖像描述的效果較好。
支持向量機(jī)是一種新的機(jī)器學(xué)習(xí)方法,它是由Vapnik[8,10]等人提出的利用統(tǒng)計學(xué)習(xí)理論中 VC 維理論及結(jié)構(gòu)風(fēng)險最小化理論,通過恰當(dāng)?shù)倪x擇函數(shù)子集與該子集的判別函數(shù),利用有限樣本,兼顧模型復(fù)雜度與模型學(xué)習(xí)能力,使模型的結(jié)構(gòu)風(fēng)險達(dá)到最小,以此使模型得到優(yōu)良的泛化性能。同時,它具有全局優(yōu)化,適應(yīng)性較強(qiáng),訓(xùn)練時間較短,泛化能力較好的特點(diǎn)。由于其引入了核函數(shù),支持向量機(jī)很好的解決了非線性分類的“維度災(zāi)難”的問題,使得其運(yùn)算效率進(jìn)一步提高。
支持向量機(jī)是由對樣本線性可分的情況下,尋找廣義最優(yōu)分類面的問題發(fā)展而來的。假設(shè)一個兩類訓(xùn)練樣本集中有1個n維樣本,則需要找到一個分類面,將這兩類訓(xùn)練樣本盡可能的分開。設(shè)該分類面為一超平面,則該超平面可以表示為:(ωx)+b=0,其中,ω為超平面的法線方向,為單位法向量,‖ω‖為ω的歐氏模函數(shù)。于是,將所有樣本正確分類的公式為:
在實(shí)際中,能夠?qū)颖綝成功劃分的超平面很多。而我們需要尋找這樣一個超平面:不僅可以將樣本集正確分開,而且使距離超平面最近的兩類樣本點(diǎn)的間隔最大。能夠正確劃分超平面,是使支持向量機(jī)的經(jīng)驗風(fēng)險最小;使分類間隔最大,則是使VC維最小,減小了置信范圍,使支持向量機(jī)具有最優(yōu)的泛化能力。這個超平面在眾多分類面中是唯一的,通常被稱為最優(yōu)超平面,如圖2所示。
其中,H為能夠?qū)深悩颖菊_劃分的超平面,H1,H2為經(jīng)過距離最優(yōu)超平面最近的樣本點(diǎn),且與最優(yōu)超平面平行的平面。而在H1與H2上的點(diǎn)被稱為支持向量。H1與H2之間的間隔被稱為分類間隔。
由圖 2可看出,H1與 H2與 H的間隔為1/‖ω‖,這使得分類間隔為2/‖ω‖.而尋找最優(yōu)超平面的問題,可以由此轉(zhuǎn)化為尋找分類間隔最大,即是使‖ω‖2最小的問題。這個問題的轉(zhuǎn)化,體現(xiàn)了對支持向量機(jī)推廣能力的提升。尋找最大間隔,就是使之具有最優(yōu)的泛化能力。
圖2 最優(yōu)分類面示意圖Fig.2 The surface diagram of optimal classification
當(dāng)遇到線性不可分的情況下,如果將其強(qiáng)行分開,則很容易產(chǎn)生過度擬合現(xiàn)象。針對這一問題,Cortes和Vapnik引入了軟間隔最優(yōu)超平面的概念。
在線性可分狀態(tài)基礎(chǔ)上,在計算中引入松弛變量 εi≥0(i=1,2,3…l),則可以使模型允許一定的噪聲或錯誤樣本出現(xiàn)。之后對目標(biāo)函數(shù)加入懲罰因子C,于是原始問題變?yōu)?
懲罰因子C>0是對目標(biāo)函數(shù)中錯分樣本程度的控制。若C增大,則在最有分類面周圍區(qū)域中,可錯分的面積越小。若C為無窮大,則該算法退化為在線性可分情況下的分類算法。
則最優(yōu)分類面也由下式得出:
其中,0≤ai≤C說明了懲罰因子C控制了ai的大小,即約束了可以接受的離群點(diǎn)的范圍。而離群點(diǎn)的拉格朗日乘子通常較大,使得約束確保了可行區(qū)域的界,從而使問題總是有非空的可行區(qū)域。
此時,最優(yōu)解a*可以有三種情況:
若是a*=C,則表示a*所對應(yīng)的樣本未在隔離帶的邊界上,但被錯誤分類,屬于支持向量,參與構(gòu)建最優(yōu)分類面;
若是0<a*<C,則表示a*所對應(yīng)的樣本在隔離帶的邊界上,屬于支持向量,參與構(gòu)建最優(yōu)分類面;
若是a*=0,則表示a*所對應(yīng)的樣本不在邊界上,屬于非支持向量,不參與構(gòu)建最優(yōu)分類面。
針對非線性的分類,支持向量機(jī)算法引入了核函數(shù)的概念。即有非線性映射Φ∶Rd→H,使空間Rd中的低維非線性樣本映射入高維空間H中成為線性可分樣本??梢钥闯觯С窒蛄繖C(jī)尋找最優(yōu)分類面時,僅僅需要計算樣本的點(diǎn)積Φ(xi)·Φ(xj)即可,無需單獨(dú)計算單個映射Φ(xi).于是,如果能夠找到一個合適的函數(shù)K,使得K(xi,xj)=Φ(xi)·Φ(xj).因此只需要在高維空間中進(jìn)行內(nèi)積運(yùn)算,而不用將函數(shù)空間進(jìn)行提升,甚至不需要了解變換Φ(xi)的具體形式。這個函數(shù)K便被稱為核函數(shù)。
根據(jù)泛函分析的相關(guān)理論,核函數(shù)只需滿足Mercer條件,就可以計算低維樣本對應(yīng)于某高維空間的高維內(nèi)積。于是,支持向量機(jī)的對偶問題變?yōu)?
這樣,非線性可分樣本計算內(nèi)積的工作將在低維空間中完成,映射入高維線性空間所增加的計算量很少,支持向量機(jī)整體的計算復(fù)雜度并沒有多少增加。其對應(yīng)的最優(yōu)分類面決策函數(shù)也變形為:
常見的核函數(shù)包括:線性核函數(shù)、徑向基核函數(shù)、多項式核函數(shù)、sigmoid核等核函數(shù),具體表達(dá)形式如表1所示。
表1 核函數(shù)公式Tab.1 The nuclear function formula
癌細(xì)胞是一種變異的細(xì)胞,是產(chǎn)生癌癥的根源。癌細(xì)胞來源于正常細(xì)胞,卻又與正常細(xì)胞不同:
(1)癌細(xì)胞核可比正常細(xì)胞大數(shù)倍,并且細(xì)胞核的大小不等。
(2)細(xì)胞核畸形,核膜變形,并且癌細(xì)胞核染色質(zhì)增多,使得細(xì)胞核顏色變深。
(3)核質(zhì)比例失常,并且癌細(xì)胞分化愈差,核質(zhì)比例失常愈明顯,此外,細(xì)胞核染色質(zhì)邊移,出現(xiàn)巨大核仁,異常核分裂并出現(xiàn)梭形、蝌蚪形、星形等異常形態(tài)。
這些是癌細(xì)胞的一般特征,同時也是涂片辨識癌細(xì)胞的重要標(biāo)準(zhǔn)。
圖3 正常細(xì)胞與癌變細(xì)胞Fig.3 The normal cells and cancerous cells
對于給定的細(xì)胞涂片顯微圖像,如果要計算機(jī)進(jìn)行自動識別圖像,一般需要如下幾個步驟,即預(yù)處理,圖像分割,特征提取,細(xì)胞識別。
首先,要對圖像進(jìn)行預(yù)處理。這樣做的目的,一方面是去掉不必要的信息,另一方面是使圖像的有用特征更加突出。
其次,對圖像進(jìn)行分割,提取需要識別的部分,為之后的識別做準(zhǔn)備。由于提取出的細(xì)胞圖像往往是成團(tuán)成組出現(xiàn)的,其中的單個細(xì)胞往往會出現(xiàn)相互重疊的現(xiàn)象,因而將其分離開有較大的難度。現(xiàn)今的單個細(xì)胞分割分離方法中,主要是利用各種算法將細(xì)胞的邊界大致的分離開,而后根據(jù)重疊部分的灰度數(shù)據(jù),對細(xì)胞的邊緣和灰度值進(jìn)行估計與重建。
再次,需要對細(xì)胞進(jìn)行分析,選取某些特征進(jìn)行提取。在迄今的各種識別方法中,往往采取對正常細(xì)胞與癌細(xì)胞作比較,分析其中的不同點(diǎn),例如癌細(xì)胞核較正常細(xì)胞核較大;各個癌細(xì)胞核大小不一,出現(xiàn)畸形;細(xì)胞外形不規(guī)則,出現(xiàn)凹陷、皺褶、鋸齒狀,或細(xì)胞膜邊緣模糊不清,出現(xiàn)浸潤現(xiàn)象等。針對這些外觀上的明顯不同點(diǎn),提取不同的特征來為進(jìn)一步的分類與識別做準(zhǔn)備。
根據(jù)特征提取中提取出的細(xì)胞特征,使用各種分類方法,對分類器進(jìn)行訓(xùn)練,以達(dá)到對未知樣本的識別。
對于給定的灰度圖像f(x,y),由于圓諧傅里葉矩的計算公式為:
其中具有旋轉(zhuǎn)因子exp(jmθ),使得在圖像旋轉(zhuǎn)任意角度φ后,得到的所有的矩都增加了相同的相位因子exp(jmθ),而其幅度大小,即模值||是不變的。于是對于圓諧-傅里葉矩來說,其本身公式結(jié)構(gòu)便具有旋轉(zhuǎn)不變性的性質(zhì)。
而對于平移、灰度與尺度的不變性,圓諧-傅里葉矩并不是畸變不變量。因此,必須對其進(jìn)行歸一化,才能滿足特征提取的要求。
在特征提取與圖像識別過程中,由于矩階數(shù)升高會使運(yùn)算量呈指數(shù)增長,造成時間消耗也呈指數(shù)增長,因而考慮運(yùn)算量的幾何級增長,我們權(quán)衡運(yùn)算量與圖像描述能力,選定n=7為識別過程中的圓諧矩階數(shù)。
本算法選用C-SVM來進(jìn)行分類與識別,選用線性核進(jìn)行分類識別,懲罰因子C的取值為1.
在識別過程中,將訓(xùn)練樣本集的樣本數(shù)減少對識別效果影響并不大;而如果將訓(xùn)練樣本集中加入或去掉某些特定圖像,對識別效果具有很大的影響,往往可以使得識別準(zhǔn)確率增減10%.
究其原因,是由于在細(xì)胞識別中,癌細(xì)胞較正常細(xì)胞具有細(xì)胞核較正常細(xì)胞核較大,細(xì)胞外形不規(guī)則,細(xì)胞膜邊緣模糊不清,出現(xiàn)浸潤現(xiàn)象等圖像特點(diǎn)。如果樣本集中圖像具有這些特征,則盡管樣本數(shù)量不多,卻仍可以保證識別正確率。因此,對本算法的改進(jìn),便是如何尋找一種自動算法,使其能夠自動將標(biāo)準(zhǔn)的細(xì)胞圖像包含其中,將變形的細(xì)胞圖像剔除。
本文采取的方法大致為:對訓(xùn)練集進(jìn)行若干次再分割,將其隨機(jī)分為訓(xùn)練集與測試集。用訓(xùn)練集樣本對支持向量機(jī)進(jìn)行訓(xùn)練,得到最優(yōu)分類面,而后對測試集樣本進(jìn)行分類,得到對樣本集中訓(xùn)練集的分類準(zhǔn)確率。保留準(zhǔn)確率高的最優(yōu)分類面,去掉準(zhǔn)確率低的。最后,用得到的幾個最優(yōu)分類面對測試集的樣本進(jìn)行分類,投票得出最后結(jié)果。
本文采用隨機(jī)挑選劃分的方法確定訓(xùn)練集中樣本數(shù)量。隨機(jī)從樣本集中取數(shù)量為n的樣本進(jìn)行優(yōu)化,得到最優(yōu)分類面,對剩余的樣本進(jìn)行判別,得到準(zhǔn)確率結(jié)果如表2所示。
表2 不同樣本集規(guī)模的識別準(zhǔn)確率Tab.2 The recognition accuracy of the sample set size
由表2結(jié)果可看出,在n≥8的時候,由于樣本規(guī)模足以包含足夠數(shù)量的支持向量,因而樣本數(shù)量的提升對結(jié)果影響并不大。而在n≥14的時候,往往會包含個別變異圖像,使得模型的識別準(zhǔn)確率下降。
考慮訓(xùn)練集增加對識別率與時間消耗的影響,我們選擇n=10為樣本數(shù),使訓(xùn)練集規(guī)模稍高于最低所需樣本規(guī)模。
對不同閾值與不同最優(yōu)分類面下的投票正確率進(jìn)行理論分析,發(fā)現(xiàn)0.8為閾值可以兼顧準(zhǔn)確率與最優(yōu)分類面篩選個數(shù),因此較為合適。
對以上結(jié)果進(jìn)行實(shí)驗,實(shí)驗所用樣本集正常圖像為50幅,癌細(xì)胞圖像50幅,測試集細(xì)胞圖像50幅。
基于如上參數(shù),本算法實(shí)現(xiàn)步驟如下:
(1)將樣本集隨機(jī)分為訓(xùn)練樣本集與測試樣本集,訓(xùn)練樣本集中正常細(xì)胞與癌細(xì)胞各10個,其余為測試樣本集。
(2)對訓(xùn)練樣本集中圖片進(jìn)行7階圓諧-傅里葉矩的計算,提取出一個64維的圖像特征值,組成訓(xùn)練集:
(3)對得到的特征向量使用C-SVM進(jìn)行優(yōu)化:
得到最優(yōu)解a*=(,…)
(4)由最優(yōu)解,得到:
繼而得到最優(yōu)分類面:
(5)同樣對測試樣本集中圖片提取圓諧-傅里葉矩,使用得到的最優(yōu)分類面對其進(jìn)行分類,得到分類準(zhǔn)確率,保留準(zhǔn)確率高于80%的分類面。
(6)重復(fù)以上步驟,以得到多個最優(yōu)分類面。
(7)使用得到的最優(yōu)分類面對待識別圖像進(jìn)行識別,而后用識別結(jié)果進(jìn)行投票,由投票結(jié)果得出最終識別結(jié)果。
為了證明選擇圓諧-傅里葉矩的正確性,分別用圓諧-傅里葉矩與正交傅里葉-梅林矩相結(jié)合,對相同細(xì)胞圖像進(jìn)行識別。識別過程中都在支持向量機(jī)中選用線性核,且使C=1,得到結(jié)果如圖4所示。
圖4 正交傅里葉-梅林矩與圓諧-傅里葉矩識別時間對比圖Fig.4 The recognition time comparison chart of orthogonal Fourier-Mellin moments and circular harmonic-Fourier moment
由此可看出,圓諧-傅里葉矩在識別速度上,優(yōu)于正交傅里葉-梅林矩。
對圓諧-傅里葉矩與支持向量機(jī)算法結(jié)合,與對其改進(jìn)后的算法比較,得到結(jié)果如表3所示。
由表3可看出,采用該改進(jìn)算法后,可以使其使用低階矩,取得未改進(jìn)算法使用高階矩所得到的識別率。而在階數(shù)升高后,采用本改進(jìn)算法可將識別效率提高8%左右。
表3 改進(jìn)前后準(zhǔn)確率對比Tab.3 The improved accuracy before and after contrast
由上述實(shí)驗可看出,對于使用圖像矩作為圖像特征的識別算法中,圓諧-傅里葉矩具有運(yùn)算效率高,描述效果好的優(yōu)點(diǎn)。將圓諧-傅里葉矩與支持向量機(jī)相結(jié)合,能夠使其運(yùn)算速度方面的優(yōu)勢更為明顯。而將該算法中的支持向量機(jī)進(jìn)行一些改進(jìn),則可以在不提高階數(shù)的情況下,提高識別的準(zhǔn)確率,使識別時間沒有太大變化。
[1]Al-HAJJ M,WICHA M S,Clarke MF.Prospective identification of tumorigenic breast cancer cells[J].Proc Natl Acad Sci USA,2003,100:3983-3988.
[2]SINGH S K,BONN V E,HAWKINS C.Identification of a cancer stem cell in human brain tumors[J].Cancer Res,2003,63:5821-5828.
[3]LI C,HEIDT D G,DALERBA P.Identification of pancreatic cancer stem cells[J].Cancer Res,2007,67:1030-1037.
[4]LAM K M.Fast algorithm for locating head boundaries[J].Electron Imag,1994,4(3):352-359.
[5]WU R,SHENG Y.Image description with Chebyshev-Fourier moments[J].Opt Soc Am A,2002,19(9):1748-1754.
[6]HU M K.Visual pattern recognition by moment invariants[J].IEEE Trans Inform Theory,1992,8(2):179-187.
[7]PING Z L.Computation of orthogonal Fourier-Mellin moments in two coordinate systems[J].Journal of Optical Society of America A,2009,26(5):1080-1084.
[8]VAPNIK V.Statistical Learning Theory[M].USA:John Wiley & Sons,Inc,1998.
[9]KHOTANZAD A,HONG Y H.Invariant image recognition by Zernike moments[J].IEEE Trans Pattern Anal Machine Intell,1990,12(4):489-497.
[10]VAPNIK V.The support vector method of function estimation[J].Advanced Black-Box Techniques,1998(5):55-85.