劉艷紅,羅曉曙,陳 錦,郭 磊
(廣西師范大學(xué)電子工程學(xué)院,廣西桂林541004)
?
宮頸細(xì)胞圖像的特征提取與識(shí)別研究
劉艷紅,羅曉曙,陳錦,郭磊
(廣西師范大學(xué)電子工程學(xué)院,廣西桂林541004)
摘要:宮頸涂片的檢查是診斷宮頸癌的最有效手段之一,而傳統(tǒng)的宮頸細(xì)胞識(shí)別系統(tǒng)存在很大的局限,例如假陰性率和假陽(yáng)性率過(guò)高。本文為了提高宮頸細(xì)胞涂片診斷的效率和準(zhǔn)確率,首先提取宮頸細(xì)胞的形態(tài)特征和極徑灰度中值,然后采用AdaBoost-SVM多特征融合分類(lèi)器進(jìn)行分類(lèi)。實(shí)驗(yàn)研究結(jié)果表明:通過(guò)特征提取方法與AdaBoost-SVM多特征融合分類(lèi)器結(jié)合,明顯提高了宮頸細(xì)胞涂片篩查的效率和準(zhǔn)確率,降低了宮頸癌的誤診率。
關(guān)鍵詞:極徑;灰度中值;支持向量機(jī);AdaBoost;AdaBoost-SVM分類(lèi)器
0引言
根據(jù)全球的流行病報(bào)道,宮頸癌是現(xiàn)代女性的殺手之一,全世界每年新增的宮頸癌患者50多萬(wàn)。宮頸癌的癌變是一個(gè)連續(xù)發(fā)展的過(guò)程,有相當(dāng)長(zhǎng)的癌病變節(jié)時(shí)段,宮頸細(xì)胞癌變前期到宮頸浸潤(rùn)癌一般需要8~10年時(shí)間,所以早期篩查成為宮頸癌的預(yù)防和治療的關(guān)鍵之一。一些發(fā)達(dá)國(guó)家定期讓婦女參加宮頸篩查,現(xiàn)在他們的宮頸癌發(fā)病率相當(dāng)?shù)蚚1]。根據(jù)WHO調(diào)研報(bào)告,如果發(fā)展中國(guó)家每5年對(duì)婦女做一次宮頸癌早期篩查,全球?qū)m頸癌的死亡率可能下降60%。目前傳統(tǒng)方法是通過(guò)人工閱片來(lái)篩查宮頸癌的癌變,這種方法會(huì)使判讀結(jié)果出現(xiàn)較高的假陰性率和假陽(yáng)性率,識(shí)別效率也低。為了提高宮頸細(xì)胞涂片診斷的效率和準(zhǔn)確率,本文利用計(jì)算機(jī)技術(shù)并結(jié)合有關(guān)算法,首先提取宮頸細(xì)胞的形態(tài)特征(幾何與紋理特征)和極徑灰度中值,然后將支持向量機(jī)SVM與AdaBoost迭代算法結(jié)合起來(lái),形成AdaBoost-SVM多特征融合分類(lèi)器[2],實(shí)現(xiàn)對(duì)宮頸細(xì)胞的幾何、紋理特征和極徑灰度中值的多特征融合識(shí)別。
1宮頸細(xì)胞圖像的特征提取
本文的實(shí)驗(yàn)數(shù)據(jù)來(lái)源于Herlev宮頸細(xì)胞圖像數(shù)據(jù)集(http://labs.fme.aegean.gr/decision/downloads),Herlev宮頸細(xì)胞圖像數(shù)據(jù)集是由丹麥技術(shù)大學(xué)(TechnicalUniversityofDenmark)和Herlev大學(xué)醫(yī)院(HerlevUniversityHospital)聯(lián)合開(kāi)發(fā)的。宮頸單細(xì)胞圖像包括七類(lèi)(如圖1所示):正常上皮宮頸細(xì)胞、正常中層宮頸細(xì)胞、正常柱狀宮頸細(xì)胞、輕度異常宮頸細(xì)胞、中度異常宮頸細(xì)胞、重度異常宮頸細(xì)胞、宮頸癌細(xì)胞。JensenB.[2]提出使用模糊神經(jīng)網(wǎng)絡(luò)分類(lèi)器識(shí)別500張,但是識(shí)別率較低。NikolaosAmpazis等[3]提出使用神經(jīng)網(wǎng)絡(luò)識(shí)別宮頸細(xì)胞圖像,提取20種形態(tài),用神經(jīng)網(wǎng)絡(luò)訓(xùn)練,實(shí)現(xiàn)七分類(lèi)平均識(shí)別率80.70%,最高識(shí)別率為88.90%。YannisMarinakis等[4]使用鄰近分類(lèi)器(Nearestneighborbasedclassifiers)對(duì)宮頸細(xì)胞圖像二分類(lèi)識(shí)別率雖然能達(dá)到96%,但是七分類(lèi)的識(shí)別率不到80%。
圖1 7種宮頸單細(xì)胞圖像示例圖Fig.1 The example of figure is seven kinds of cervical single cell image
本文參考文獻(xiàn)[5]的方法,把宮頸細(xì)胞圖像的20種幾何特征精簡(jiǎn)到9種,這9種特征分別為:細(xì)胞質(zhì)的周長(zhǎng)、細(xì)胞核的周長(zhǎng)、豎直方向長(zhǎng)軸的最長(zhǎng)度(Maximumlength,L)、水平方向?qū)捿S的最長(zhǎng)度(Maximumwidth,W)、細(xì)胞核與細(xì)胞質(zhì)的比率(N/Cratio)、 從軸的中心到周長(zhǎng)的最長(zhǎng)度(MAP)、從軸中心到周長(zhǎng)的平均長(zhǎng)度(AAP)、從重心到周長(zhǎng)的最長(zhǎng)長(zhǎng)度(MGP)、從重心到周長(zhǎng)的平均長(zhǎng)度(AGP),這些特征可以完整描述宮頸細(xì)胞不規(guī)則形狀的幾何特征。紋理特征使用Haralick兩特征和Tamura的2種特征,共4種紋理特征,包括:共生矩陣的熵(entropyofco-occurrencematrix,ECM)、共生矩陣的對(duì)比度(CCM);2種Tamura特征為對(duì)比度和粗糙度應(yīng)用到宮頸細(xì)胞核的紋理特征。
宮頸單細(xì)胞圖像是由細(xì)胞核、細(xì)胞質(zhì)和背景3個(gè)區(qū)域組成,每一幅圖像的3個(gè)區(qū)域都可以轉(zhuǎn)化到極坐標(biāo)系,這樣可以提取極坐標(biāo)下的極徑灰度值,360條極徑的灰度值組成一個(gè)特征矩陣。本文將極坐標(biāo)下的特征向量與前面的形態(tài)特征進(jìn)行融合,來(lái)研究宮頸細(xì)胞的識(shí)別。圖2所示的就是將直角坐標(biāo)的宮頸細(xì)胞圖像轉(zhuǎn)化為極坐標(biāo)圖像的結(jié)果。
圖2 宮頸細(xì)胞轉(zhuǎn)換到極坐標(biāo)下的示例圖Fig.2 The example of figure is cervical cells converting to polar coordinates
設(shè)極坐標(biāo)空間中的宮頸單細(xì)胞圖像為P,則P矩陣可表示為:
(1)
式中:maxr為極坐標(biāo)的最大半徑,mincta為極坐標(biāo)中的極角間隔,取值為1°。再將極坐標(biāo)空間中每條極徑上的宮頸細(xì)胞圖像灰度中值作為宮頸細(xì)胞圖像的一種特征值,構(gòu)成宮頸細(xì)胞圖像的特征向量:
(2)
2AdaBoost-SVM多特征融合分類(lèi)器
張曉龍等[6]選擇支持向量機(jī)SVM與AdaBoost結(jié)合的算法,以breast-cancer數(shù)據(jù)集為對(duì)象提高了SVM的學(xué)習(xí)性能;RuihuWang[7]提出了一種基于AdaBoost與SVM算法結(jié)合的向量機(jī),應(yīng)用于人臉和表情識(shí)別,改善了分類(lèi)器的穩(wěn)定性和差異性。本文采用的AdaBoost-SVM分類(lèi)器用于宮頸細(xì)胞的識(shí)別,具體算法如下:
1)提取宮頸細(xì)胞圖像幾何特征A(i,j)、紋理特征B(i,j)和極徑灰度值特征c(i,j),i是從1到7的整數(shù),分別表示相對(duì)應(yīng)宮頸細(xì)胞的類(lèi);j表示從1到n維的特征向量;
2)二維主成分分析(2DPCA)多特征向量降維[8]:設(shè)X為宮頸細(xì)胞的特征矩陣,X是A(i,j),B(i,j)和C(i,j)的融合,并進(jìn)行歸一化處理得:
(3)
其中X1是X的列向量,將X的每行、列進(jìn)行零均值化,得行協(xié)方差矩陣和列協(xié)方差矩陣為:
(4)
(5)
(6)
Mi就是二維主成分分析(2DPCA)提取降維后的多特征矩陣。由降維后的矩陣Mi、宮頸細(xì)胞數(shù)據(jù)集{(x1,y1),(x2,y2),…,(xn,yn)}(yi表示訓(xùn)練點(diǎn)的類(lèi)型,xi表示樣本特征向量,n表示訓(xùn)練點(diǎn)數(shù))加入AdaBoost-SVM多特征融合分類(lèi)器進(jìn)行分類(lèi)實(shí)驗(yàn)。
3)AdaBoost-SVM多特征融合分類(lèi)器具體實(shí)施步驟如下:
②支持向量是由訓(xùn)練子集χ中的每一個(gè)樣本點(diǎn)來(lái)求出:
(7)
(8)
(9)
‖x-x′‖=k(x,x)-2k(x,x′)+k(x′,x′),
(10)
對(duì)宮頸細(xì)胞數(shù)據(jù)訓(xùn)練集上的所有樣本進(jìn)行分類(lèi)。
⑤按照當(dāng)前權(quán)值的分布。隨機(jī)從宮頸細(xì)胞數(shù)據(jù)集中選擇一個(gè)樣本,若該樣本不在訓(xùn)練子集χ中,或者被分類(lèi)器分錯(cuò),將這個(gè)樣本重新加入正在訓(xùn)練的子集中,同時(shí)將χ中具有最小權(quán)值的樣本刪除,回到步驟②;否則跳轉(zhuǎn)步驟④。
⑥最后分類(lèi)器函數(shù):
(11)
3AdaBoost-SVM分類(lèi)器統(tǒng)計(jì)的結(jié)果
根據(jù)前面所述,用AdaBoost-SVM分類(lèi)器對(duì)宮頸細(xì)胞進(jìn)行二分類(lèi)、七分類(lèi)的識(shí)別研究,二分類(lèi)實(shí)驗(yàn)結(jié)果見(jiàn)表1,七分類(lèi)實(shí)驗(yàn)結(jié)果見(jiàn)表2。
表1 本文方法對(duì)宮頸細(xì)胞圖像進(jìn)行二分類(lèi)
二分類(lèi)識(shí)別平均百分率為98.83%,其中正常細(xì)胞識(shí)別率最高為99.12%。表2所示的七分類(lèi)的平均識(shí)別率為95.18%,其中正常柱狀宮頸細(xì)胞識(shí)別率最高達(dá)97.19%。
表2 本文方法對(duì)宮頸細(xì)胞圖像進(jìn)行七分類(lèi)的結(jié)果
文獻(xiàn)[9]使用機(jī)器學(xué)習(xí)的方法對(duì)新的宮頸細(xì)胞數(shù)據(jù)庫(kù)(917張圖片)進(jìn)行識(shí)別,假陽(yáng)性率和假陰性率較低,二分類(lèi)平均識(shí)別率96.83%,七分類(lèi)平均識(shí)別率78.00%。本文與文獻(xiàn)[9]相比,二分類(lèi)識(shí)別率提高2個(gè)百分點(diǎn),七分類(lèi)識(shí)別率提高17.18個(gè)百分點(diǎn)。
將患者的真實(shí)情況與計(jì)算機(jī)系統(tǒng)診斷的結(jié)果進(jìn)行對(duì)比是用來(lái)檢驗(yàn)計(jì)算機(jī)判讀能力的方法,通常使用的指標(biāo)有:假陰性率(falsenegative:FN)、假陽(yáng)性率(falsepositive:FP)、準(zhǔn)確率(accuracy)、靈敏度(sensitivity)和特異度(specificity);其中準(zhǔn)確率(accuracy)、靈敏度(sensitivity)和特異度(specificity)[10]是最常用的。下面將使用這3個(gè)指標(biāo)來(lái)評(píng)價(jià)本文的特征提取與AdaBoost-SVM分類(lèi)器相結(jié)合后的識(shí)別率,再與貝葉斯分類(lèi)器(Bayes)、線性判別(LDA)分類(lèi)器、人工神經(jīng)網(wǎng)絡(luò)(ANN)和支持向量機(jī)(SVM)[11]作比較。二分類(lèi)評(píng)價(jià)指標(biāo)對(duì)比數(shù)據(jù)如表3所示,七分類(lèi)評(píng)價(jià)指標(biāo)對(duì)比數(shù)據(jù)如表4所示。
表3 宮頸細(xì)胞圖像二分類(lèi)的評(píng)價(jià)指標(biāo)
表4 宮頸細(xì)胞圖像七分類(lèi)評(píng)價(jià)指標(biāo)
4小結(jié)
本文基于AdaBoost-SVM多特征融合的方法研究了宮頸單細(xì)胞圖像識(shí)別問(wèn)題?;贛ATLAB平臺(tái)工具箱和VC++輔助,驗(yàn)證了本文的特征提取與特征選擇的有效性。由表3、表4的識(shí)別結(jié)果可知,與貝葉斯分類(lèi)器、線性判別分類(lèi)器、人工神經(jīng)網(wǎng)絡(luò)和支持向量機(jī)相比較,本文的宮頸細(xì)胞識(shí)別方法明顯提高了二分類(lèi)和七分類(lèi)宮頸細(xì)胞的識(shí)別率,其識(shí)別靈敏度與所比較的方法基本相同。研究結(jié)果對(duì)于降低宮頸癌的誤診率有較好的應(yīng)用價(jià)值。
參考文獻(xiàn):
[1]FERLAYJ,SOERJOMATARAMI,DIKSHITR,etal.Cancerincidenceandmortalityworldwide:sources,methodsandmajorpatternsinGLOBOCAN2012 [J/OL].InternationalJournalofCancer, 2015, 136(5):E359-E386.http://onlinelibary.wiley.com/doi/10.1002/ijc.29210/abstract.
[2]JENSENB.Neuro-FuzzyClassificationofCellsinCervicalSmears[D].Denmark:TechnicalUniversityofDenmark, 1999.
[3]NIKOLAOSA,GEORGED,JANJ.Pap-Smearclassificationusingefficientsecondorderneuralnetworktrainingalgorithms[M]//GEORGEAV,THEMISTOKLISP.MethodsandApplicationsofAritificialIntelligence:BerlinHeidelberg:SpringerVerlag2004:230-245.
[4]YANNISM,GEORGIOSD,JANJ.Papsmeardiagnosisusingahybridintelligentschemefocusingongeneticalgorithmbasedfeatureselectionandnearestneighborclassification[J].ComputersinBiologyandMedicine,2009, 39(1):69-78.
[5]CHENYungfu,HUANGPochi,LinKercheng,etal.Semi-Automaticsegmentationandclassificationofpapsmearcells[J].IEEJournalofBiomedicalandhealthinformatics, 2014, 18(1):94-108.
[6]張曉龍,任芳. 支持向量機(jī)與AdaBoost的結(jié)合算法研究[J]. 計(jì)算機(jī)應(yīng)用研究,2009(1):77-78.
[7]WANGRuihu.AdaBoostforfeatureselection,classificationanditsrelationwithSVM,AReview[J].PhysicsProcedia,2012,25:800-807.
[8]YANGJian,ZHANGD,F(xiàn)RANGIAF,etal.TwodimensionalPCA:anewapproachtoappearance-basedfaceRepresentationandrecognition[J].IEEETransPatternAnalMachIntell, 2004, 26(1):131-137.
[9]ABIDS,VINODS,RAJEEVG,HybridensemblelearningtechniqueforscreeningofcervicalcancerusingPapanicolaousmearimageanalysis[J].PersonalizedMedicineUniverse, 2015, 4:54-62.
[10]NORUPJ.Classificationofpap-smeardatabytransductiveneuro-fuzzymethods[D].Denmark:TechnicalUniversityofDenmark, 2005.
[11]CHANKONGT,THEERA-UMPONN,AUEPHANWIRIYAKULS.AutomaticcervicalcellsegmentationandclassificationinPapsmears[J].ComputerMethodsandProgramsinBiomedicine,2014, 113(2):539-556.
(責(zé)任編輯馬殷華)
doi:10.16088/j.issn.1001-6600.2016.02.009
收稿日期:2015-12-15
基金項(xiàng)目:國(guó)家自然科學(xué)基金資助項(xiàng)目(21327007);廣西研究生教育創(chuàng)新計(jì)劃項(xiàng)目(YCSZ2015101)
中圖分類(lèi)號(hào):TP391
文獻(xiàn)標(biāo)志碼:A
文章編號(hào):1001-6600(2016)02-0061-06
ResearchonCervicalCellImageFeatureExtractionandRecognition
LIUYanhong,LUOXiaoshu,CHENJin,GUOLei
(CollegeofElectronicEngineering,GuangxiNormalUniversity,GuilinGuangxi541004,China)
Abstract:Cervical smear examination is one of the most effective means of diagnosis of cervical cancer, while the traditional cervical cell recognition system has significant limitations, with low false-negative and false-positive rates. Firstly, morphological characteristics and the gray values of pole in cervical cells are extracted. Then AdaBoost-SVM feature fusion classifier is used to classify the cervical cells in order to improve the efficiency and accuracy of diagnosis of cervical smears. The research results show that the combination of extraction method and multi-feature fusion AdaBoost-SVM classifier can significantly improve the efficiency and accuracy of cervical smear screening, and can reducethe misdiagnosis rate of cervical cancer.
Keywords:polar radius; gray median in value; support vector machine; AdaBoost; AdaBoost-SVM classifier
通信聯(lián)系人:羅曉曙(1961—),男,湖北應(yīng)城人,廣西師范大學(xué)教授,博士。E-mail:lxs@mailbox.gxnu.edu.cn