鄭楊 梁光明 劉任任
摘? 要: 宮頸細胞圖像中目標分割的精度直接影響對疾病的判別和診斷,宮頸細胞圖像中有不同種類的多個目標,所以有必要對宮頸細胞圖像進行實例分割。為了獲得更好的宮頸細胞圖像實例分割效果,文章在Mask R-CNN的基礎(chǔ)上提出了一種宮頸細胞圖像實例分割方法,在網(wǎng)絡(luò)中的特征金字塔網(wǎng)絡(luò)(FPN)中加入空洞卷積將其改造為DFPN,減少圖像信息的損失來提升分割的準確度。在TCTCOCO數(shù)據(jù)集的測試結(jié)果表明,該方法提高了宮頸細胞圖像分割的精度。
關(guān)鍵詞: 卷積神經(jīng)網(wǎng)絡(luò); 宮頸細胞顯微圖像; 實例分割; 空洞卷積
中圖分類號:TP391? ? ? ? ? 文獻標識碼:A? ? ?文章編號:1006-8228(2020)10-68-05
Abstract: The accuracy of object segmentation in cervical cell image directly affects the identification and diagnosis of the disease. There are many different kinds of objects in cervical cell image, so it is necessary to segment cervical cell image by instance. In order to obtain a better instance segmentation effect of cervical cell image, this paper proposes an instance segmentation method of cervical cell image based on Mask R-CNN. The feature pyramid network (FPN) in the network is added with dilated convolution to transform it into DFPN to reduce the loss of image information and improve the accuracy of segmentation. The results of test on TCTCOCO data set show that the method improves the accuracy of cervical cell image segmentation.
Key words: convolutional neural network (CNN); cervical cell microscopy image; instance segmentation; dilated convolution
0 引言
許多疾病的確診是依靠醫(yī)生分析醫(yī)學影像,但是醫(yī)生的經(jīng)驗和勞累程度會影響診斷結(jié)果,因此,需要利用計算機視覺相關(guān)技術(shù)來輔助醫(yī)生得出診斷結(jié)果,這樣可以提高效率和降低誤診率。
隨著智能醫(yī)療的發(fā)展和相關(guān)政策出臺,已有越來越多的人關(guān)注和研究智能醫(yī)療。如今醫(yī)學圖像分割的方法分為兩類,一類是傳統(tǒng)方法,其主要包括基于邊緣的方法[1]、基于閾值的方法[2]、基于聚類的方法[3]、基于區(qū)域的方法[4];另一類是基于卷積神經(jīng)網(wǎng)絡(luò)的方法[5],其通過卷積進行特征提取,然后再進行分割。以上方法僅對圖像進行語義分割,而實例分割是目標檢測和語義分割的結(jié)合,既能分割得到物體邊緣,又能標出圖像中相同種類物體中不同的個體。目標檢測的方法現(xiàn)今主要分為一步法和二步法兩類: Yolo[6]和SSD[7]都是一步法;二步法有Fast R-CNN[8]、Faster R-CNN[9]和Mask R-CNN[10]。二步法對于一步法而言,雖然速度慢,但是精確度較高。
宮頸細胞圖像的處理結(jié)果直接影響診斷,所以本文選取二步法中目標檢測精度最高且能進行分割的Mask R-CNN。宮頸細胞圖像中的極小目標在特征提取時,可能產(chǎn)生信息損失,且損失無法避免也不可逆,減少圖像信息的損失是提高分割準確度來說很關(guān)鍵。為了得到更好的結(jié)果,本文也通過這一思路來對Mask R-CNN進行改進。
1 方法
1.1 Mask R-CNN簡介
Mask R-CNN是在Faster R-CNN上添加了分割的分支,對目標候選框區(qū)域(ROI)中的目標使用全卷積網(wǎng)絡(luò)(FCN)[11]進行分割。其結(jié)構(gòu)圖如圖1所示。
Mask R-CNN的損失函數(shù)分為三個部分:
⑴ RPN[9]: RPN對ROI做前景和背景分類損失和回歸損失,損失函數(shù)為:
其中,[Ncls](每個batch中錨框的數(shù)量)和[Nreg](錨框位置的數(shù)量)是對兩項進行歸一化,平衡參數(shù)[l]是對其進行加權(quán)。在一個batch中的錨框的編號為i,錨框i對象的預測概率為[pi]。如果錨框預測正確,則真實標簽(Ground Truth label)[ p*i]為1,反之則為0。[ti]代表預測邊界框的4個參數(shù)化坐標的向量,[t*i]則對應(yīng)的是錨框?qū)嶋H邊界框的參數(shù)化坐標。分類損失[Lcls]是兩個類別的對數(shù)損失(前景和背景)。對于回歸損失采用[smoothL1]損失如公式⑵:
⑵ Fast R-CNN分支:跟RPN部分類似也是分類和回歸損失,不同的是Fast R-CNN中的分類是對ROI中的目標進行分類的損失。Fast R-CNN部分的損失函數(shù)為:
⑶ Mask分支: Fast R-CNN的結(jié)果輸入Mask分支,進行ROIAligin操作,再對每個ROI用FCN對逐個像素點進行softmax分類輸出mask,這一分支的損失即訓練生成mask的損失即為[Lmask]。總的損失函數(shù)為:
Mask R-CNN進行實例分割的具體流程如圖2。
1.2 FPN的改進DFPN
FPN[12]的結(jié)構(gòu)如圖3所示,Image通過ResNet[13]得到P1到P3不同尺度的feature map,右側(cè)P4到P6的過程中每個階段都一樣。以P5到P6為例,P1經(jīng)過1×1的卷積得到的結(jié)果與P5上采樣得到的featur map做相加,最終得到P6,然后將P6進行3×3的卷積后送入RPN,其他不同尺度層數(shù)的操作都是如此。
圖3中P4到P5和P5到P6階段,進行上采樣會造成圖像信息的損失,而且是不可逆的,雖然FPN中各層特征圖均進行了特征融合來減少圖像信息損失,但是一些小特征容易被忽視,而空洞卷積[14]可以通過控制卷積核rate的數(shù)值得到對應(yīng)不同大小的感受域,圖4中均為卷積核是[3×3]的空洞卷積,rate=1時感受域為[3×3],rate=2時的感受域變?yōu)閇7×7](紅色部分為卷積核)。通過不同rate的空洞卷積能獲得不同感受域的圖像信息,因此本文選擇在FPN中加入空洞卷積,讓高級層特征與低層特征也進行融合來減少圖像信息的損失。
空洞卷積在增大了感受野的同時不會減小圖像大小,可以捕獲更多信息,解決了卷積神經(jīng)網(wǎng)絡(luò)(CNN)對保持特征圖尺寸的同時增加感受域的問題[15]。把空洞卷積應(yīng)用進FPN中,使其在特征融合中可以融合更多的圖像信息,從而提高分割的準確度。本文稱加入空洞卷積后的FPN為DFPN,結(jié)構(gòu)圖如圖5所示,以P5到P6為例,P1分別經(jīng)過rate=2,rate=3,rate=4的卷積核均為[3×3]的三種空洞卷積得到的三種feature map相加得到D1(D1相當于另一種意義上的不同尺度的特征圖的融合,但是擁有高級層特征的同時,并沒有改變尺寸大?。珼1和P1分別都再通過[1×1]卷積的結(jié)果與P5上采樣的結(jié)果進行特征融合得到P6,后續(xù)步驟保持不變。
本文方法即使用DFPN代替Mask R-CNN中的FPN對宮頸顯微圖像進行實例分割。
2 實驗
2.1 TCTCOCO數(shù)據(jù)集的制作
本文方法訓練所需的數(shù)據(jù)集為COCO數(shù)據(jù)集[16],本文基于長沙市第二人民醫(yī)院提供的宮頸TCT細胞涂片制作了TCTCOCO數(shù)據(jù)集。具體流程如圖6所示。
第二步和第三步是為了方便訓練,數(shù)據(jù)標注在醫(yī)生和檢驗人員指導下使用labelme進行,標注圖片的數(shù)量為2000張,圖像中標注的目標為三類,其中上皮細胞標簽為“shangpi”;白細胞標簽為“bai”;真菌標簽為“zhenjun”。制作完成的數(shù)據(jù)集相關(guān)信息存儲于后綴名為json的文件中。
為了避免因數(shù)據(jù)集小產(chǎn)生過擬合,通過人工方法擴充數(shù)據(jù)集到20000張,訓練集、測試集和驗證集的分配見表1。
2.2 實驗環(huán)境
本文所有實驗的環(huán)境都如下:
CPU:Intel(R) Core(TM) i7-8700? ?內(nèi)存:16GB
顯卡:GeForce RTX 2070? ? ? ? ?SSD:256GB
硬盤:4TB? ? ? ? ? ? ? ? ?系統(tǒng):Windows 10
軟件環(huán)境和庫:Anaconda 3-python3.7,cuda9.0,mxnet,Numpy,Opencv-python等。
2.3 實驗結(jié)果分析
為了保證實驗的一致性,本文所有實驗均將整個數(shù)據(jù)集迭代1000次,學習率為0.01,使用GPU進行訓練。評價指標為IoU(intersection over union)和mIoU(Mean intersection over union),其中,IoU和mIoU定義如下:
其中,[aii]為正確分割的像素點的數(shù)目(即類別為i的像素點數(shù)目被預測為i的數(shù)目);[aij]為被預測為j的i類像素點數(shù)目;[aji]為j被預測為i的j類像素點數(shù)目;N表示總的類別數(shù)。圖像部分原圖如圖7中(a)(b)(c)所示,對應(yīng)的MaskR-CNN效果圖如(d)(e)(f)所示,(g)(h)(i)是本文方法生成的效果圖。
Mask R-CNN與本文方法都生成了預測的目標框和分類結(jié)果,每個目標都生成了各色的掩膜,但是圖7(d)(e)(f)中不管細胞、白細胞還是真菌,其生成的掩膜邊緣都沒很好的貼合實際邊緣,相比之下本文方法的圖7(g)(h)(i)掩膜邊緣更貼合目標的實際邊緣。但是兩種方法在細胞重疊處的分割效果都不好。
IoU閾值超過0.5時的指標定義為[AP50],閾值超過0.75時為[AP75],結(jié)果見表2。
由表2知,使用DFPN代替Mask R-CNN中的FPN后mIOU提高3.9%。從效果圖和數(shù)據(jù)來看,本文方法確實對分割效果有所提高。
3 結(jié)束語
本文制作了TCTCOCO數(shù)據(jù)集;實現(xiàn)了Mask R-CNN對宮頸細胞圖像的實例分割;提出DFPN并且完成了對Mask R-CNN的改進,從實驗結(jié)果看,改進后分割精度得到了提高。未來計劃對細胞重疊部分進行分割和檢測研究,讓細胞重疊部分分割效果更好,讓重疊度較高的框不會被誤刪。
參考文獻(References):
[1] 萬衛(wèi)兵,施鵬飛.Snake活動輪廓在組織培養(yǎng)細胞分割中的應(yīng)用[J].計算機工程與設(shè)計,2006.21:4153-4156
[2] 胡樹煜.醫(yī)學圖像中粘連細胞分割方法研究[J].計算機仿真,2012.29(2):260-262,27
[3] 蘇士美,呂雪揚.骨髓細胞圖像的小波變換與K-means聚類分割算法[J].鄭州大學學報(工學版),2015.36(4):15-18
[4] 劉應(yīng)乾,曹茂永.基于Gabor濾波與區(qū)域生長的細胞分割[J].山東科技大學學報(自然科學版),2012.31(2):99-103
[5] Ronneberger O, Fischer P, Brox T. U-net: Convolutional?networks for biomedical image segmentation[C]//Proceedings of the International Conference on Medical image computing and computer-assisted intervention. Berlin, Germany:Springer,2015:234-241
[6] Redmon J, Divvala S, Girshick R, et al. You Only Look Once: Unified Real-Time Object Detection[C]. IEEE Conference on Computer Vision and Pattern? Recogniton. IEEE,201:779-788
[7] Liu W, Anguelovd E, et al. SSD: Single Shot Multi Box Detector[J]. Computer Vision-ECCV 2016.Springer International Publishing,2016:21-37
[8] R. Girshick, Fast R-CNN, in IEEE International Conference on Computer Vision (ICCV),2015.
[9] S. Ren, K. He, R. Girshick, and J. Sun. Faster R-CNN:To-wards real-time object detection with region proposal net-works[C]. In NIPS,2015.
[10] He K, Gkioxari G, Dollar P, et al. Mask r-cnn[C].International Conference on Computer Vision.New York:IEEE,2017:2980-2988
[11] Long J,Shelhamer E,Darrell T. Fully convolutional networks for semantic segmentation[J].IEEE Transactions on Pattern Analysis & Machine Intelligence,2014.39(4):640-651
[12] Lin T Y,Dollár P,Girshick R,et al. Feature pyramid?networks for object detection[C].Conference on Computer Vision and Pattern Recognition,2016: 936-944
[13] Kaiming He,Xiangyu Zhang, et al. Deep Residual? Learning for Image Recognition[C].Conference on Computer Vision and Pattern Recognition,2015.
[14] Fisher Yu,Vladlen Koltun. Multi-Scale Context?Aggregation by Dilated Convolutions[C].Conference on Computer Vision and Pattern Recognition,2016.
[15] Chen L C,Papandreou G,Kokkinos I,et al. Deep Lab:semantic image segmentation with deep convolutional nets,atrous convolution,and fully connected CRFs[J]. IEEE Trans on Pattern Analysis & Machine Intelligence,2016.40(4):834-848
[16] Lin T Y,Maire M,Belongie S,et al. Microsoft COCO:common objects in context[C].European Conference on Computer Vision,2014:740-755