秦晨陽,應(yīng) 捷,楊海馬
(上海理工大學(xué) 光電信息與計算機工程學(xué)院,上海 200093)
細胞或細胞核的檢測是計算機輔助醫(yī)療的一項基本內(nèi)容,可對細胞形態(tài)等各種定量分析提供支持。細胞的觀察過程一般是由專家取樣,再經(jīng)過染色處理,最后在顯微鏡下查看載有細胞樣本的玻片。這個過程往往需要專業(yè)人士觀察大量的細胞樣本,因此這個方法及其耗費時間。隨著顯微數(shù)字成像技術(shù)的高度發(fā)展,越來越多的專家只需瀏覽計算機屏幕上的虛擬影像,而不需在顯微鏡下檢查玻璃幻燈片。所以現(xiàn)代的圖像處理方法和機器學(xué)習(xí)等技術(shù)為專家進行細胞方面的研究提供了更好的方法。
目前,對細胞或細胞核的檢測方法主要有:距離變換、形態(tài)學(xué)操作、H-最大/最小值變換、拉普拉斯高斯(LoG)濾波、最大穩(wěn)定極值區(qū)域(MSER)檢測、Hough變換、監(jiān)督學(xué)習(xí)等方法。
隨著深度學(xué)習(xí)模型和神經(jīng)網(wǎng)絡(luò)算法的不斷發(fā)展和優(yōu)化,深度學(xué)習(xí)在醫(yī)學(xué)圖像的分割和識別上顯示出了巨大的優(yōu)勢。卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)[1-2]是一種有監(jiān)督學(xué)習(xí)的深度學(xué)習(xí)模型,通過結(jié)合局部感受野、權(quán)值共享等實現(xiàn)對輸入數(shù)據(jù)的位移變化、尺度變化、形變變化的不變性。CNN是一種高效的識別方法,采用CNN可避免圖像的復(fù)雜前期預(yù)處理,可以直接輸入原始圖像。
Xing等[3]使用了三種不同的CNN模型,分別對腦腫瘤、胰腺神經(jīng)內(nèi)分泌腫瘤和乳腺癌病理圖像進行了自動細胞核檢測。Dong等[4]采用了9層的CNN結(jié)合非最大值抑制方法對斑馬魚圖像中的細胞進行檢測。Song等[5]提出了一種基于多尺度CNN框架的H&E染色宮頸圖像細胞核檢測方法,其中使用了三種規(guī)模的CNN提取特征,并將其應(yīng)用于兩層神經(jīng)網(wǎng)絡(luò)的像素粗分割。Xie等[6]將一種快速掃描策略引入到深層卷積神經(jīng)網(wǎng)絡(luò)中,對胰腺細胞核進行檢測。Chen等[7]提出了一種基于深度學(xué)習(xí)和圖像處理的方法,通過分割邊界和檢測細胞核的幾何中心進行細胞核的分離和檢測。Kowal等[8]提出了一種結(jié)合卷積神經(jīng)網(wǎng)絡(luò)和分水嶺算法的方法,對乳腺癌細胞進行分割,得到的結(jié)果表明,卷積神經(jīng)網(wǎng)絡(luò)在大多數(shù)情況下優(yōu)于Otsu閾值法和自適應(yīng)閾值法,尤其是在核重疊的情況下。
CNN的基本結(jié)構(gòu)包括兩層:其一為特征提取層,每個神經(jīng)元的輸入與前一層的局部接受域相連,并提取該局部的特征,一旦該局部特征被提取后,它與其他特征間的位置關(guān)系也隨之確定下來;其二是特征映射層,網(wǎng)絡(luò)的每個計算層由多個特征映射組成,每個特征映射是一個平面,平面上所有神經(jīng)元的權(quán)值相等。特征映射結(jié)構(gòu)采用影響函數(shù)核小的sigmoid函數(shù)作為卷積網(wǎng)絡(luò)的激活函數(shù),使得特征映射具有位移不變性。此外,由于一個映射面上的神經(jīng)元共享權(quán)值,因而減少了網(wǎng)絡(luò)自由參數(shù)的個數(shù)。卷積神經(jīng)網(wǎng)絡(luò)中的每一個卷積層都緊跟著一個用來求局部平均與二次提取的計算層,這種特有的兩次特征提取結(jié)構(gòu)減小了特征分辨率。
U-net網(wǎng)絡(luò)[9]在2015年提出的,尤其在醫(yī)學(xué)圖像方面,由于醫(yī)學(xué)圖像大多灰度差異較小,邊緣部分特征容易丟失,而U-net的網(wǎng)絡(luò)結(jié)構(gòu)對于這些問題的解決有著很大的優(yōu)勢。
本文將使用卷積神經(jīng)網(wǎng)絡(luò)的一種衍生網(wǎng)絡(luò)即U-net網(wǎng)絡(luò)進行細胞核的檢測。U-net網(wǎng)絡(luò)由編碼和解碼兩部分組成。U-net 在處理醫(yī)學(xué)圖像方面具有優(yōu)勢,它在每個階段通過編碼和解碼跳躍連接,將各階段編碼與解碼生成的相同大小的特征圖在對應(yīng)位置疊加,并進行卷積操作以有效融合圖像的淺層與深層特征。這個操作對于圖像的細節(jié)和邊緣部分的分割有著很好的效果。
本文所用的U-net網(wǎng)絡(luò)和圖像處理方法如圖1所示。
圖 1 總體處理流程圖Fig. 1 Overall processing flow chart
首先,對原圖像進行數(shù)據(jù)預(yù)處理,其中包括隨機剪裁、邊緣檢測等操作,并將原圖像分割為128×128大小的圖像。其次,構(gòu)建U-net網(wǎng)絡(luò)模型,根據(jù)輸入圖像的大小,調(diào)整模型的結(jié)構(gòu),得到細胞核分割的mask圖像。最后,對mask圖像標(biāo)記幾何中心,將細胞核在原圖像中的邊緣和幾何中心標(biāo)記出來,得到最終的處理結(jié)果。
本實驗使用的數(shù)據(jù)集來自于網(wǎng)上公開的細胞核數(shù)據(jù)集,訓(xùn)練集包含760張圖像,測試集包含120張圖像。本實驗對細胞核進行的操作是識別和分割,操作系統(tǒng)為Windows 10,CPU型號為 Intel(R)Core(TM)i7-9750H,CPU頻率為2.59 GHz,系統(tǒng)內(nèi)存為 16 GB,GPU型號為NVIDIA GeForce GTX 1 660 Ti,安裝的深度學(xué)習(xí)框架為tensorflow+keras。
對原圖像進行隨機裁剪等操作進行數(shù)據(jù)集的擴充,在訓(xùn)練集上對原圖像上標(biāo)記出的細胞核進行一定的處理,并對原圖像中的細胞核進行分割。使用多種邊緣檢測算子對標(biāo)簽圖像進行邊緣檢測,以得到更加清晰平滑且利于區(qū)分界限的mask圖像。不同邊緣檢測算子的檢測結(jié)果如圖2所示。
由圖2可得,使用Canny算子和Roberts算子得到的圖像邊緣更加抖動,沒有Sobel算子和Log算子得到的圖像邊緣平滑,Log算子比Sobel算子得到的邊緣更加清晰和平滑,并且細胞核邊緣分離更加清晰,細胞核之間的分割效果更好。因此,最終使用Log算子對標(biāo)簽圖像進行邊緣檢測,并作為制作U-net網(wǎng)絡(luò)使用的mask。
本文構(gòu)建了基本的U-net網(wǎng)絡(luò),輸入圖像的大小為 128×128×3,每兩個 3×3 的卷積層后會跟一個用于下采樣步長為2的2×2最大池化操作,且均使用修正線性單元(rectified linear unit,RELU)作為激活函數(shù)。在每一個下采樣過程中,特征通道數(shù)量加倍。解碼部分則利用 2×2的卷積核對特征圖譜進行上采樣,特征通道數(shù)量減半,并連接來自相應(yīng)位置的解碼的特征圖譜,再通過兩次3×3 的卷積進行卷積運算,且均使用 RELU 作為激活函數(shù)。在最后一層中,利用1×1 的卷積核將每一個 64 維的特征向量映射到網(wǎng)絡(luò)的輸出層,最后輸出的圖像大小為128×128×1。
模型使用的是一般用于二分類的交叉熵?fù)p失函數(shù)。交叉熵?fù)p失函數(shù)是針對概率之間的損失函數(shù),其表達式為
式中:yi為第i個輸出值;為第i個輸出值的殘差;n為輸出的數(shù)量。對式(1)進行偏微分,可得
深度學(xué)習(xí)模型配置和參數(shù)如表1所示。
網(wǎng)絡(luò)模型檢測指標(biāo)分別為精確度、召回率、F指標(biāo)。我們定義:Tp表示網(wǎng)絡(luò)模型成功檢測出細胞核區(qū)域,F(xiàn)p表示模型檢測的細胞核區(qū)域?qū)嶋H上為背景區(qū)域,F(xiàn)N表示模型沒有檢測為細胞核區(qū)域但實際上為細胞核區(qū)域。由此,精確度、召回率和F指標(biāo)可分別表示如下:
經(jīng)本實驗數(shù)據(jù)集的測試,所建立的U-net網(wǎng)絡(luò)模型對細胞核的檢測結(jié)果是:精確度為0.82,召回率為0.83,F(xiàn)指標(biāo)為0.83。
對于輸入圖像進行細胞核檢測并返回mask圖像和細胞核標(biāo)注圖像,在返回圖像中對于檢測得到的細胞核進行幾何中心的標(biāo)定,得到的結(jié)果如圖3所示。
圖 2 邊緣檢測對比圖Fig. 2 Comparison of edge detection
表 1 深度學(xué)習(xí)模型配置和參數(shù)Tab. 1 Configuration and parameters of deep learning model
圖 3 檢測結(jié)果Fig. 3 Test results
從圖像的輸出結(jié)果可知,大多數(shù)的細胞核都能被很好地識別和標(biāo)注出來。
本文建立了U-net網(wǎng)絡(luò)模型,利用該模型對細胞核進行了檢測,得到了較好的檢測結(jié)果。然而當(dāng)圖像中的細胞核形狀不規(guī)則時,細胞核在原圖像中的標(biāo)注與細胞核邊界不能完全符合,有些細胞核的標(biāo)注形狀、大小會與細胞核不匹配,這些還需要通過進一步的研究來改善。