呂琪賢,范朝剛,詹 曙
(1.合肥工業(yè)大學(xué)計(jì)算機(jī)與信息學(xué)院,安徽 合肥 231009;2.東部戰(zhàn)區(qū)總醫(yī)院,江蘇 南京 210000)
不孕不育指的是:一對夫妻經(jīng)歷一年沒有任何避孕措施的性生活后仍未懷孕[1]。不孕不育癥會導(dǎo)致一系列家庭、社會和心理問題[2],而由男性導(dǎo)致的不孕不育幾乎占病例的一半[3]。臨床實(shí)踐中,精子的形狀是評價生育力的核心指標(biāo)之一[4],故對精子形態(tài)的異常進(jìn)行量化對診斷男性不育有著非常重要的意義[5,6]。
一般地,精子包括頭、中、尾3個部分,其中精子功能受頭部的畸形影響最大[7]。在精子頭部畸形檢測中,第一步便是從精子圖像中準(zhǔn)確地分割出頭部。早期,人們對精細(xì)胞的形態(tài)處理基本上是由人工完成的,但此類方法有著較為明顯的缺點(diǎn),如存在主觀性、不準(zhǔn)確等[8,9]。在人工方法的諸多弊端顯現(xiàn)之后,研究人員提出利用計(jì)算機(jī)輔助精子分析來診斷男性不育癥[10]。有一些方法利用傳統(tǒng)算法對精子進(jìn)行自動檢測和分割,Park等[11]在分割精子頭部時,采用策略性霍夫曼變換,構(gòu)造出逼近精子頭形狀的橢圓,進(jìn)而對頭部進(jìn)行分割。Nafisi等[12]在對精子的檢測中也運(yùn)用了橢圓近似思想,并且該方法還創(chuàng)新性地利用額外的附加值對非精子目標(biāo)進(jìn)行區(qū)分。Carrillo等[13]的分割方法用到了直方圖分析和大津閾值。Chang等[14]利用聚類方法成功分割出了核和頂體,且收集、構(gòu)建了金標(biāo)準(zhǔn)數(shù)據(jù)集。因?yàn)榫有螒B(tài)分析任務(wù)中十分缺乏此類數(shù)據(jù)集,因此該數(shù)據(jù)集的提出是一里程碑式的重要貢獻(xiàn)。
然而,以上所述的工作只能處理已染過色的精細(xì)胞圖像,故而在臨床應(yīng)用實(shí)時性方面存在挑戰(zhàn)。Ghasemian等[15]的方法是一個里程碑式的工作。他們創(chuàng)建了一個無染色的數(shù)據(jù)集并予以公開,所提方法也是針對沒有經(jīng)過染色的精子圖像。此外,其他的一些工作[16]也建立了和精子形態(tài)相關(guān)的數(shù)據(jù)集,以深入推進(jìn)相關(guān)研究。傳統(tǒng)機(jī)器學(xué)習(xí)方法也被一些研究人員用于精子的形態(tài)分析。文獻(xiàn)[17]采用小波變換和梯度分析,并結(jié)合掩膜技術(shù)來進(jìn)行精子圖像分割處理。在文獻(xiàn)[18]中,作者介紹了一種具有良好魯棒性的檢測分割精子各部分的方法,其中利用了自適應(yīng)窗平均速度跟蹤算法。卷積神經(jīng)網(wǎng)絡(luò)和支持向量機(jī)則被Reza等[19]用來對精子的3個部分進(jìn)行自動分割。當(dāng)前,在精子形態(tài)分析工作中僅有個別方法采用深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)。Nissen等[20]在精子形態(tài)的檢測分割任務(wù)中完全利用了經(jīng)典卷積神經(jīng)網(wǎng)絡(luò)。在另一深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)中[21],作者通過改進(jìn)HSMA數(shù)據(jù)集[15]新建了一含有上千幅精子圖像的嶄新數(shù)據(jù)集,然后搭建了一個24層的類似于VGG的卷積神經(jīng)網(wǎng)絡(luò)對精子頭部目標(biāo)進(jìn)行檢測分析。但是,這2個深度網(wǎng)絡(luò)只能處理僅含一個精子的圖像。
綜上所述,利用深度模型對精子頭部分割面臨以下挑戰(zhàn):(1)沒有一個公開可用的無染色的精子數(shù)據(jù)集;(2)精子圖像質(zhì)量差,如對比度低且含有大量噪聲;(3)網(wǎng)絡(luò)不能高效地處理無染色的含有多個精細(xì)胞的圖像。針對這些問題,本文首先進(jìn)行精子圖像的收集,建立了一個全新的無染色精子數(shù)據(jù)集;然后提出了基于殘差混合擴(kuò)張卷積的深度編解碼分割網(wǎng)絡(luò)來對精子頭部進(jìn)行分割。
本文提出的網(wǎng)絡(luò)如圖1所示,由左邊的編碼器和右邊的解碼器2部分構(gòu)成。卷積層、池化層(最大)、反卷積層和殘差塊(Residual Block)是本文網(wǎng)絡(luò)的基本組成單元,長跳躍連接層和混合擴(kuò)張(空洞)卷積是融于其中的基本模塊。左側(cè)的編碼器用于提取圖像的特征。輸入的原始圖像先經(jīng)過3×3的卷積層,再送到堆疊殘差模塊SRB(Stacked Residual Block)進(jìn)行特征提取。之后,特征圖經(jīng)過最大池化層(2×2,步長為2),尺寸降為原來的一半。特征提取操作完畢后,特征圖經(jīng)池化再送入殘差混合擴(kuò)張卷積RHDC (Residual Hybrid Dilated Convolution)模塊,之后的輸出經(jīng)上采樣層送入右側(cè)的解碼器,逐步恢復(fù)出原始圖像。解碼過程中,特征圖依次經(jīng)卷積層(3×3)、殘差模塊和上采樣層,逐步恢復(fù)尺寸,直至恢復(fù)到原始圖像的大小。最終的特征圖經(jīng)過1×1的卷積后,才輸出最后的分割結(jié)果。參照U-Net[22]的處理,本文也沿用了長跳過連接層。因?yàn)檫@不僅能更好地復(fù)用隱層特征和圖像特征,還有益于網(wǎng)絡(luò)訓(xùn)練。為了避免降采樣后特征圖尺寸過小,編解碼路徑中3×3卷積的填充(padding)均設(shè)為1。以下詳細(xì)介紹堆疊殘差模塊和殘差混合擴(kuò)張卷積(RHDC)模塊。
Figure 1 Network architecture of deep encoder-decoder segmentation network based on residual hybrid dilated convolution圖1 殘差混合擴(kuò)張卷積深度編解碼分割網(wǎng)絡(luò)結(jié)構(gòu)圖
對于深度神經(jīng)網(wǎng)絡(luò),學(xué)者們一開始普遍認(rèn)為:網(wǎng)絡(luò)輸出結(jié)果與網(wǎng)絡(luò)層數(shù)和復(fù)雜度成正比,但隨著研究的深入,發(fā)現(xiàn)其實(shí)不然。在網(wǎng)絡(luò)層數(shù)增加到一定數(shù)量之后,若再繼續(xù)增加深度,網(wǎng)絡(luò)輸出的結(jié)果更差。業(yè)界由此開始研究其中的原因,最終該問題被證實(shí)是由網(wǎng)絡(luò)退化(Degradation)所導(dǎo)致的。隨后,He等[23]提出了殘差結(jié)構(gòu)初步解決了網(wǎng)絡(luò)退化問題。殘差結(jié)構(gòu)起作用的理論邏輯在于:在已訓(xùn)練好的網(wǎng)絡(luò)上增加新的網(wǎng)絡(luò)層,新構(gòu)建的網(wǎng)絡(luò)層在理想狀態(tài)下應(yīng)是直接復(fù)制其前面的淺層網(wǎng)絡(luò)已學(xué)習(xí)到的特征,即恒等映射(Identity Mapping)。從而,新構(gòu)建的加深的網(wǎng)絡(luò)結(jié)構(gòu)的性能最差也不應(yīng)比淺層網(wǎng)絡(luò)差。其中,復(fù)制操作也是由跳躍連接所完成,它能在不增加網(wǎng)絡(luò)學(xué)習(xí)量的情況下將深層的梯度傳回至淺層,避免梯度消失,加速訓(xùn)練,進(jìn)一步提升網(wǎng)絡(luò)性能。
本文堆疊殘差模塊中的單個殘差塊如圖2所示。3×3和1×1的卷積交錯形成4個卷積層。1×1卷積旨在通過減少后面大的卷積核需要學(xué)習(xí)的特征通道數(shù)來減少網(wǎng)絡(luò)的學(xué)習(xí)量。堆疊殘差模塊(SRB)則是由2個殘差單元級聯(lián)而成。前面殘差單元的輸出經(jīng)由BN/ReLU層后再輸入到后面的殘差單元,整個堆疊殘差模塊的輸出經(jīng)最大池化后輸出到下一層。
Figure 2 Residual block圖2 殘差塊
在卷積操作中,增大卷積核的尺寸或者通過池化都能使感受野增大,但這2種處理方式,前者增加了計(jì)算量,后者導(dǎo)致信息丟失,均有一定的弊端。為了解決該問題,Yu等[24]提出擴(kuò)張卷積,并將其成功應(yīng)用到了圖像的語義分割任務(wù)中。擴(kuò)張卷積通過調(diào)整擴(kuò)張率,巧妙地避免了池化操作且在不增加額外計(jì)算量的情況下,使感受野擴(kuò)大。對擴(kuò)張率為2(Dilation_rate=2)的3×3的擴(kuò)張卷積,感受野大小為5×5,而普通卷積的感受野大小為3×3,前者將近為后者的3倍大小。但不可避免地,擴(kuò)張卷積也存在缺陷,即網(wǎng)格問題(Gridding Issue)。當(dāng)擴(kuò)張率(Dilation_rate)越來越大時,從輸入中采樣的數(shù)據(jù)越來越稀疏,不利于卷積學(xué)習(xí)。隨后,Wang等[25]提出了解決“網(wǎng)格問題”的混合擴(kuò)張卷積模塊HDC(Hybrid Dilated Convolution),且在語義分割中獲得了很好的效果。圖3是本文HDC模塊的結(jié)構(gòu)示意圖,它由級聯(lián)的3個擴(kuò)張卷積構(gòu)成,1、2、5分別是從左到右的3個擴(kuò)張卷積的擴(kuò)張率??紤]到低質(zhì)量的精子圖像并受啟發(fā)于殘差思想,本文將殘差結(jié)構(gòu)融入到混合擴(kuò)張卷積模塊中,構(gòu)成最終的殘差混合擴(kuò)張卷積模塊,如圖4所示。1×1的卷積與BN/ReLU層先后對輸入的特征圖進(jìn)行處理,進(jìn)而輸出到HDC中。再接著由BN/ReLU層和1×1的卷積層依次處理后與從恒等映射層復(fù)制而來的特征圖進(jìn)行融合,最后再由BN /ReLU層處理后作為輸入送到下一單元。
Figure 3 Hybrid dilated convlution model圖3 混合擴(kuò)張卷積模塊
Figure 4 Residual hybrid dilated convlution model圖4 殘差混合擴(kuò)張卷積模塊
醫(yī)學(xué)影像分析任務(wù)中,數(shù)據(jù)集是首要必備資源,而和精子形態(tài)分析相關(guān)的數(shù)據(jù)集稀缺,可用于深度學(xué)習(xí)的數(shù)據(jù)集更少。因此,本文收集并建立了一個人類精子頭部數(shù)據(jù)集。數(shù)據(jù)的收集是參照WHO 2010[7]的標(biāo)準(zhǔn)來進(jìn)行的,并將提出的數(shù)據(jù)集命名為人類精子頭部分割數(shù)據(jù)集HSHS-DS(Human Sperm Head Segmentation DataSet)。中國科學(xué)技術(shù)大學(xué)第一附屬醫(yī)院安徽省立醫(yī)院生殖中心提供了建立數(shù)據(jù)集所需的精液樣本。精子圖像是嚴(yán)格按照先將精液完全液化再用顯微鏡截取圖像的流程獲取的。拍攝的圖像數(shù)量是由精液樣本質(zhì)量直接決定的,為了提高分割的準(zhǔn)確率,拍攝和分析一萬個以上的精細(xì)胞。此外,為了便于處理,所有精子圖像的大小都被裁剪為256×256。
對精子圖像中的精子頭部進(jìn)行標(biāo)注前,由醫(yī)師指導(dǎo)作者先學(xué)會區(qū)分非目標(biāo)顆粒和精子頭部,再在相關(guān)專業(yè)人員的幫助下,采用labelme軟件[26]給所有圖像打上標(biāo)簽。標(biāo)注完成后,圖像分為背景和精子頭部2類。數(shù)據(jù)集包含訓(xùn)練集和測試集2個部分,各自包含1 007幅與200幅圖像,總共1 207幅圖像和相應(yīng)的真實(shí)標(biāo)簽。精子圖像的采集過程中,除了逐像素裁剪外,不曾對圖像做其它的額外處理。從另一個角度來說,所提出的網(wǎng)絡(luò)處理的是原始狀態(tài)的精細(xì)胞圖像,因此本文所提出的網(wǎng)絡(luò)有更好的實(shí)際應(yīng)用前景,能夠給醫(yī)生帶來更加客觀有效的臨床參考。圖5展示了其中的一些樣本。
Figure 5 Samples of the sperm images and corresponding labels in HSHS-DS圖5 HSHS-DS數(shù)據(jù)集中的精子圖像樣本和對應(yīng)的標(biāo)簽
考慮到精子頭部屬于小目標(biāo),因此本文利用交叉熵?fù)p失函數(shù)計(jì)算特征圖,能量函數(shù)則由Softmax基于最后一步的特征圖計(jì)算而得。Softmax函數(shù)的表達(dá)式如式(1)所示:
(1)
其中,ak(X)表示像素點(diǎn)X在特征通道k上的得分,K表示類的數(shù)量,本文網(wǎng)絡(luò)的最終輸出結(jié)果圖中只包含背景和精子頭部,即只有一類語義分割結(jié)果,因此K取2。pk(X)是像素點(diǎn)X的分類結(jié)果,其與類K相對應(yīng)。
利用加權(quán)交叉熵對像素點(diǎn)X的得分pk(X)進(jìn)行懲罰,加權(quán)交叉熵的定義如式(2)所示:
(2)
其中,Ω={1,…,K},l是像素的真實(shí)標(biāo)簽;w:Ω→R是決定像素點(diǎn)重要程度的權(quán)重函數(shù),其計(jì)算公式如式(3)所示:
(3)
其中,wb(X)表示平衡像素類別頻率的權(quán)重;d1(X)和d2(X)分別表示像素點(diǎn)X到最近的精子頭部邊界與第2近的精子頭部邊界的距離;m和σ為系數(shù),在實(shí)驗(yàn)中分別設(shè)為10和5。
訓(xùn)練網(wǎng)絡(luò)的硬件設(shè)備是一塊英偉達(dá)GeForce GTX TITAN顯卡,顯存為12 GB。本文采用訓(xùn)練集中的704個樣本對網(wǎng)絡(luò)進(jìn)行600輪訓(xùn)練。初始學(xué)習(xí)率設(shè)為0.075,在每一輪訓(xùn)練完以后再乘以0.8遞減更新。此外,本文采用Adam優(yōu)化器[27]對網(wǎng)絡(luò)進(jìn)行優(yōu)化。每經(jīng)過一輪訓(xùn)練,便在驗(yàn)證集(含有303個樣本)上對訓(xùn)練損失進(jìn)行計(jì)算并對網(wǎng)絡(luò)參數(shù)進(jìn)行同步保存。待整個網(wǎng)絡(luò)訓(xùn)練完成之后,再利用包含200個樣本的測試集對網(wǎng)絡(luò)進(jìn)行測試。
為了對網(wǎng)絡(luò)的分割性能進(jìn)行客觀評價,本文一一比較真實(shí)標(biāo)簽與分割結(jié)果,并計(jì)算了6個常用的定量指標(biāo)。這些指標(biāo)分別是:DSC系數(shù)、平均DSC系數(shù)MDSC、平均交并比MIOU、召回率recall、精確度precision和F1-score,它們的計(jì)算表達(dá)式分別如式(4)~式(10)所示:
(4)
(5)
(6)
(7)
(8)
(9)
(10)
在上述計(jì)算表達(dá)式中,|A|代表分割結(jié)果圖中被網(wǎng)絡(luò)分割出來的所有屬于精子頭部的像素集合的大小,|B|則代表真實(shí)標(biāo)簽中屬于精子頭部的像素集合的大小,指標(biāo)的均值是在對測試集中的所有圖像計(jì)算出的結(jié)果取平均而得,也即n取200。
由于在本文之前的精子頭部分割網(wǎng)絡(luò)中沒有完全采取深度模型來處理的,為了更好地檢驗(yàn)本文網(wǎng)絡(luò)的有效性,利用DeconvNet[28]和U-Net[21]2個在醫(yī)學(xué)圖像分割算法中較常用的深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)作為對比對象。為了保證比較結(jié)果的客觀有效性,所有的實(shí)驗(yàn)均在完全一致的實(shí)驗(yàn)條件下和完全相同的數(shù)據(jù)集上進(jìn)行。
表1是3個網(wǎng)絡(luò)的測試結(jié)果對比。從表1中可以看出,本文網(wǎng)絡(luò)的各項(xiàng)指標(biāo)均優(yōu)于DeconvNet和U-Net的。其中F1-score是綜合精確度和召回率而設(shè)計(jì)出的指標(biāo)。圖6展示了這3個網(wǎng)絡(luò)的輸出。在所有的分割結(jié)果圖中,三角形框表示錯誤分割,矩形框內(nèi)則表示未能將該處精子頭部分割出來或分割結(jié)果較差。很明顯,無論是處理含有少量還是多個精細(xì)胞的圖像,在錯誤分割或分割遺漏上,本文網(wǎng)絡(luò)均比其他2個網(wǎng)絡(luò)表現(xiàn)要好。圖6b是含有多個精子細(xì)胞的復(fù)雜圖像的分割結(jié)果,通過對比可知,本文網(wǎng)絡(luò)對含有多個精子細(xì)胞的復(fù)雜圖像中的精子頭部同樣有著良好的分割能力。
Table 1 Comparison of experimental results
Figure 6 Segmentation of the three networks圖6 3種網(wǎng)絡(luò)的分割結(jié)果
表2和圖7是本文消融實(shí)驗(yàn)的結(jié)果對比,其中No-SRB表示在所提出的網(wǎng)絡(luò)中去除堆疊殘差模塊,并采用普通卷積層代替所構(gòu)成的網(wǎng)絡(luò)。同樣,No-RHDC表示在提出的網(wǎng)絡(luò)中去除殘差混合擴(kuò)張卷積模塊,并采用普通的卷積層代替所形成的網(wǎng)絡(luò)。圖7的第2列(No-SRB)顯示分割遺漏或分割較差的情況明顯要多于后2種,第3列(No-RHDC)中圖像邊緣處的精子頭部分割情況要劣于第4列。實(shí)驗(yàn)結(jié)果驗(yàn)證了堆疊殘差模塊可提高網(wǎng)絡(luò)對于圖像特征的提取能力,且RHDC模塊能夠增大特征提取的感受野,有效提升網(wǎng)絡(luò)的分割能力。
Table 2 Comparison of ablation experiment results
Figure 7 Segmentation results in our ablation experiment圖7 消融實(shí)驗(yàn)結(jié)果圖
文獻(xiàn)[19,20]中的數(shù)據(jù)集和其他傳統(tǒng)方法所用的數(shù)據(jù)集均無法直接用于本文網(wǎng)絡(luò)的測試,為了進(jìn)一步評估本文網(wǎng)絡(luò)的魯棒性,本節(jié)利用公開的前列腺數(shù)據(jù)集MICCAI 2012[29]對網(wǎng)絡(luò)進(jìn)行測試。表3是3個網(wǎng)絡(luò)的分割結(jié)果的統(tǒng)計(jì)。圖8展示了3個網(wǎng)絡(luò)的輸出結(jié)果。通過比較各分割結(jié)果圖和指標(biāo)可以得出,本文提出的網(wǎng)絡(luò)具有良好的魯棒性。
本文提出了一個融合堆疊殘差模塊(SRB)和殘差混合擴(kuò)張卷積(RHDC)的深度編解碼網(wǎng)絡(luò)來分割人類精子頭部,并且建立了一個含有1 207幅精細(xì)胞圖像的數(shù)據(jù)集。本文所提網(wǎng)絡(luò)能夠在無染色、低質(zhì)量并且包含多個精細(xì)胞的復(fù)雜圖像中對精子頭部進(jìn)行準(zhǔn)確分割。此外,本文網(wǎng)絡(luò)的另一個優(yōu)點(diǎn)是能夠在低放大倍數(shù)質(zhì)量較差的精子圖像上良好地工作。由在采集數(shù)據(jù)過程中沒有進(jìn)行任何其他的處理,所以數(shù)據(jù)集中的圖像呈現(xiàn)出的是精細(xì)胞的原始真實(shí)狀態(tài),因此能夠在呈現(xiàn)出精子真實(shí)情況的圖像中準(zhǔn)確地分割出精子頭部形狀是本文網(wǎng)絡(luò)的另一個重要優(yōu)點(diǎn)。本文還在前列腺數(shù)據(jù)集MI CCAI 2012上對提出的網(wǎng)絡(luò)進(jìn)行了測試,網(wǎng)絡(luò)的分割結(jié)果表明所提出的網(wǎng)絡(luò)具有良好的泛化能力。本文提出的網(wǎng)絡(luò)可以極大地輔助醫(yī)生臨床診斷精子是否畸形。因此,本文提出的深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)分割網(wǎng)絡(luò)在精子頭部分割方面有著很好的表現(xiàn)。
Table 3 Comparison of segmentation performance on prostate dataset MI CCAI 2012
Figure 8 Prostate image segmentation results of the three networks圖8 3個網(wǎng)絡(luò)的前列腺圖像分割結(jié)果
但由于各方面的限制,本文仍有許多可以改進(jìn)的地方:(1)在數(shù)據(jù)集的制作過程中,由于人眼長期工作出現(xiàn)疲勞,在進(jìn)行標(biāo)注時無法避免失誤情況的出現(xiàn),因此在后續(xù)進(jìn)行數(shù)據(jù)集標(biāo)注時應(yīng)多增加人手來減少個人的肉眼疲勞,以此來提高標(biāo)注的準(zhǔn)確性。(2)本文所提出的網(wǎng)絡(luò)雖然取得了不錯的分割效果,但在性能和效率上還有待提高,研究更加輕量化、高效的實(shí)時分割網(wǎng)絡(luò)以滿足醫(yī)學(xué)臨床應(yīng)用的要求仍是一個重難點(diǎn)任務(wù)。(3)由于實(shí)驗(yàn)室條件的限制,本文研究的僅僅只是利用深度學(xué)習(xí)分割網(wǎng)絡(luò)來對精子頭部進(jìn)行分割,如何設(shè)計(jì)出能夠?qū)有螒B(tài)是否畸形做出自動判斷的深度模型是需要繼續(xù)努力的方向。
目前,我們正在繼續(xù)努力提高所提網(wǎng)絡(luò)的性能,下一階段的目標(biāo)是著力于研究利用深度學(xué)習(xí)算法進(jìn)行全面的精子形態(tài)分析和人類精子質(zhì)量評估。