孫福艷,王 瓊,呂宗旺,龔春艷
1.河南工業(yè)大學(xué) 信息科學(xué)與工程學(xué)院,鄭州 450001
2.中原智慧園區(qū)與智能建筑研究院,鄭州 450001
結(jié)直腸癌(colorectal cancer,CRC)是世界三大高發(fā)癌癥之一。2020 年,我國CRC 總體發(fā)病率已躍升至惡性腫瘤的第2 位,CRC 的死亡率也位居第5 位[1]。近70%~80%的CRC 起源于結(jié)腸息肉,早期篩查可以顯著提高存活率[2]。CRC 早期篩查的黃金標(biāo)準(zhǔn)就是使用結(jié)腸鏡檢測,在內(nèi)窺鏡下檢測并切除前驅(qū)病變(主要是腺瘤),可大大降低CRC 的發(fā)病率[3]。但人工結(jié)腸鏡檢查受限于操作者的狀態(tài)及經(jīng)驗(yàn),平均有26%的息肉在視頻檢查中被漏檢[4]。
使用計(jì)算機(jī)輔助診斷系統(tǒng)對結(jié)腸息肉進(jìn)行精確分割,可以輔助臨床醫(yī)生定位息肉,提高結(jié)腸鏡檢查中息肉的檢出率[5],對后續(xù)的息肉分類、治療環(huán)節(jié)至關(guān)重要。但結(jié)腸鏡采集到的息肉圖像存在鏡面高光、腔內(nèi)褶皺及排泄物遮擋等情況,此外,息肉本身的大小、形狀、顏色、紋理多變,與背景腸壁分界模糊,這些使得息肉分割非常具有挑戰(zhàn)性。
本文首先總結(jié)傳統(tǒng)息肉分割算法,分析傳統(tǒng)的圖像處理、機(jī)器學(xué)習(xí)分割算法的優(yōu)缺點(diǎn);接著總結(jié)基于深度學(xué)習(xí)的息肉分割算法,按照網(wǎng)絡(luò)結(jié)構(gòu)劃分為基于經(jīng)典CNN 結(jié)構(gòu)、U-Net 結(jié)構(gòu)及多模型融合的分割模型,歸納總結(jié)算法改進(jìn)策略及其優(yōu)劣勢;然后歸納結(jié)腸息肉圖像公開數(shù)據(jù)集及數(shù)據(jù)預(yù)處理方法;總結(jié)各方法在常用數(shù)據(jù)集上的評價指標(biāo)結(jié)果;最后分析基于深度學(xué)習(xí)的息肉分割研究面臨的挑戰(zhàn)和發(fā)展趨勢。
傳統(tǒng)的息肉分割算法按照發(fā)展歷程主要可以分為兩類:基于圖像處理技術(shù)、基于機(jī)器學(xué)習(xí)技術(shù)。
早期的圖像處理技術(shù)根據(jù)分割方式不同將其劃分為基于閾值[6]、邊緣[7-8]、區(qū)域[7,9-10]、形態(tài)學(xué)[6]四種分割方法。基于閾值的方法將灰度圖像中灰度值高于設(shè)定閾值的像素點(diǎn)視為前景區(qū)域(即息肉區(qū)域);基于邊緣的方法針對圖像的邊緣像素特點(diǎn)分割息肉;基于區(qū)域的方法將圖像分成多個區(qū)域,根據(jù)同一區(qū)域內(nèi)顏色、紋理、形狀等特征的相似性對區(qū)域進(jìn)行判斷;基于形態(tài)學(xué)的方法是分割前的預(yù)處理操作,腐蝕操作去除圖像噪聲,膨脹操作增強(qiáng)息肉邊界。
機(jī)器學(xué)習(xí)技術(shù)更充分地利用提取到的顏色、紋理、形態(tài)外觀等特征,通過支持向量機(jī)[11-12]、像素聚類[13]等方法自動學(xué)習(xí)特征并對特征進(jìn)行分類。基于支持向量機(jī)的方法將特征映射到高維空間,以數(shù)學(xué)方法尋找一個決策邊界將像素點(diǎn)分類為非息肉像素和息肉像素;基于像素聚類的方法將像素轉(zhuǎn)換為向量形式,將具有相似性的像素點(diǎn)聚類成不同區(qū)域。
上述傳統(tǒng)息肉分割算法的應(yīng)用及對比分析如表1所示。傳統(tǒng)的圖像處理和機(jī)器學(xué)習(xí)方法過分依賴于手工提取特征,其局限性有以下幾點(diǎn):(1)息肉的形態(tài)多變,很難找到一個適合所有息肉的形狀外觀特征。(2)不同成像方式(白光和窄帶光)下息肉的顏色、紋理差異較大,很難找到一個融合息肉多種特征的全局特征提取算法,導(dǎo)致在一組圖像上表現(xiàn)良好的模型在另一組圖像上表現(xiàn)不佳。(3)人工提取特征的算法復(fù)雜耗時,分割速度和精度都難以滿足臨床需求。
表1 傳統(tǒng)息肉分割算法對比分析Table 1 Comparison of traditional polyp segmentation algorithms
近年來,深度學(xué)習(xí)被廣泛應(yīng)用于自然圖像、醫(yī)學(xué)圖像分割等領(lǐng)域。相對于傳統(tǒng)的息肉分割算法,深度學(xué)習(xí)模型在處理噪聲、分割精度、處理速度、泛化能力等方面都具有優(yōu)越性,可以應(yīng)對不同采樣環(huán)境下的圖像及息肉形狀多樣性,模型魯棒性強(qiáng),自主學(xué)習(xí)特征和規(guī)律,極大地減少手工特征設(shè)計(jì)的工作量?;谏疃葘W(xué)習(xí)的息肉分割算法流程圖,如圖1所示。
圖1 基于深度學(xué)習(xí)的息肉分割算法流程圖Fig.1 Flow chart of deep learning method for polyp segmentation
本章按照深度學(xué)習(xí)分割模型的網(wǎng)絡(luò)結(jié)構(gòu)將其劃分為經(jīng)典CNN 結(jié)構(gòu)、U-Net 結(jié)構(gòu)及多模型融合三類,總結(jié)其改進(jìn)策略,并分析各改進(jìn)策略的優(yōu)勢和局限性。
2.1.1 基于FCN與傳統(tǒng)特征的改進(jìn)方法
CNN 網(wǎng)絡(luò)[14]在圖像級別的分類和回歸任務(wù)中表現(xiàn)良好,全卷積神經(jīng)網(wǎng)絡(luò)(fully convolutional network,F(xiàn)CN)[15]繼承CNN的思想,將CNN的全連接層替換為卷積層,采用反卷積層對最后一個卷積層的特征圖進(jìn)行上采樣,在上采樣的特征圖中逐像素進(jìn)行分類,達(dá)到在語義級別上分割息肉的效果。CNN與FCN網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。
圖2 CNN與FCN網(wǎng)絡(luò)結(jié)構(gòu)Fig.2 CNN and FCN network structure
文獻(xiàn)[16]使用不同深度的網(wǎng)絡(luò)進(jìn)行息肉分割,實(shí)驗(yàn)結(jié)果表明相較于深層網(wǎng)絡(luò),淺層網(wǎng)絡(luò)的分割結(jié)果更精確。這是由于淺層網(wǎng)絡(luò)能夠提取圖像的細(xì)節(jié)信息,如顏色、紋理等特征,這些特征對于息肉分割具有重要意義;而深層網(wǎng)絡(luò)更加專注于提取圖像語義信息,如大小、位置等特征,同時隨著網(wǎng)絡(luò)層數(shù)加深,圖像的邊緣信息會嚴(yán)重丟失。
為了充分利用息肉的淺層細(xì)節(jié)特征,文獻(xiàn)[17]將FCN-8S與Otsu閾值結(jié)合進(jìn)行特征提取,并利用Ground truth 引導(dǎo)圖像塊選擇進(jìn)行數(shù)據(jù)增強(qiáng)。該方法能夠更魯棒地適應(yīng)息肉形狀和顏色強(qiáng)度的變化。同樣文獻(xiàn)[18]結(jié)合深度學(xué)習(xí)和手工提取的特征,采用FCN進(jìn)行像素預(yù)測和初始息肉區(qū)域候選,從每個候選區(qū)域計(jì)算出texton特征,再利用隨機(jī)森林分類器對候選區(qū)域進(jìn)行細(xì)化,作出最終決策。該方法實(shí)現(xiàn)了分層學(xué)習(xí)息肉特征,accuracy達(dá)到97.54%。文獻(xiàn)[19]將預(yù)訓(xùn)練模型和FCN 結(jié)合以縮短訓(xùn)練時間,之后又利用從陰影形狀中導(dǎo)出的相對深度信息作為附加信息輸入通道[20],提高分割準(zhǔn)確率。
FCN在一定程度上實(shí)現(xiàn)像素級的分割效果,在自然圖像分割中表現(xiàn)優(yōu)秀。但連續(xù)的下采樣和上采樣操作丟失很多細(xì)節(jié)信息,導(dǎo)致分割結(jié)果邊界模糊,因此在需要精確分割的醫(yī)學(xué)圖像中應(yīng)用有限。
2.1.2 基于RNN的改進(jìn)方法
循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)[21]與CNN 相比,擁有一個循環(huán)單元,用于處理序列數(shù)據(jù),它保存前一時刻的信息并在當(dāng)前時刻將其作為輸入,因此RNN可以處理任意長度的序列數(shù)據(jù)。但是由于循環(huán)單元的參數(shù)共享,容易出現(xiàn)梯度消失、梯度爆炸和長期依賴的問題,長短期記憶網(wǎng)絡(luò)(long short-term memory,LSTM)[22]則通過遺忘門將短期記憶和長期記憶結(jié)合起來,在一定程度上改善這些問題。文獻(xiàn)[23]使用Deep-Labv3結(jié)合LSTM解決網(wǎng)絡(luò)加深導(dǎo)致的息肉位置信息丟失問題,利用LSTM的記憶功能增強(qiáng)息肉位置信息。分割效果較DeepLabv3 模型有所提高,但訓(xùn)練時間較長。RNN在序列檢測和自然語言處理等領(lǐng)域得到了廣泛的應(yīng)用,但應(yīng)用于單幀息肉分割的相關(guān)研究較少,多用于視頻息肉檢測和分類領(lǐng)域。
2.1.3 基于GAN的改進(jìn)方法
生成對抗網(wǎng)絡(luò)(generative adversarial network,GAN)[24]是生成網(wǎng)絡(luò)(G)和判別網(wǎng)絡(luò)(D)的組合,兩個網(wǎng)絡(luò)仍采用CNN結(jié)構(gòu)。GAN網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示。
圖3 生成對抗網(wǎng)絡(luò)(GAN)結(jié)構(gòu)Fig.3 Generative adversarial network(GAN)structure
文獻(xiàn)[25]和文獻(xiàn)[26]借助GAN 網(wǎng)絡(luò)學(xué)習(xí)息肉特征生成偽樣本,擴(kuò)充息肉樣本。G將隨機(jī)噪聲矢量作為輸入生成息肉偽樣本;D接收偽樣本和真實(shí)樣本并對其進(jìn)行學(xué)習(xí)和判別。根據(jù)判別結(jié)果與真實(shí)情況之間的誤差,D進(jìn)行自身優(yōu)化使判別結(jié)果更加準(zhǔn)確;同時誤差反饋給G 指導(dǎo)其優(yōu)化更新,生成更加真實(shí)的偽樣本;G 和D 之間進(jìn)行迭代對抗訓(xùn)練直到達(dá)到納什平衡。
文獻(xiàn)[27]則是以原始息肉圖像和分割掩碼作為輸入,學(xué)習(xí)標(biāo)注區(qū)域的特征,G 生成的不是息肉偽樣本而是預(yù)測分割掩碼。為了穩(wěn)定訓(xùn)練,將原始息肉圖像與掩碼(真實(shí)掩碼和生成掩碼)分別配對送入D,D對掩碼的真實(shí)性進(jìn)行判斷。兩個網(wǎng)絡(luò)基于D 的判別結(jié)果以對抗方式更新迭代,迫使G 生成足夠接近ground truth 的預(yù)測分割掩碼來欺騙D,以使D將其分類為真實(shí)掩碼。
GAN 在無監(jiān)督和半監(jiān)督領(lǐng)域取得了很好的效果,其生成的偽樣本能夠豐富數(shù)據(jù)多樣性,增強(qiáng)模型魯棒性。但模型訓(xùn)練過程不穩(wěn)定,難以找到很好達(dá)到納什平衡的方法。
表2 列舉了CNN 結(jié)構(gòu)息肉分割模型基于以上改進(jìn)策略的其他文獻(xiàn),并對各改進(jìn)策略的優(yōu)勢和局限性進(jìn)行歸納總結(jié)[25-26,28-32]。
表2 CNN結(jié)構(gòu)息肉分割模型的改進(jìn)方法對比Table 2 Comparison of improved methods for CNN structural polyp segmentation models
2015年,U-Net[33]的提出為醫(yī)學(xué)圖像分割帶來了革命性的改變,極大地推動了深度學(xué)習(xí)技術(shù)在醫(yī)學(xué)圖像分割中的應(yīng)用。U-Net的編碼器和解碼器分別用于捕獲上下文和恢復(fù)細(xì)節(jié)特征,同時利用跳躍連接增強(qiáng)淺層和深層特征的融合,模型可擴(kuò)展性強(qiáng);其采用的數(shù)據(jù)增強(qiáng)技術(shù)和Dropout等正則化方法使U-Net能夠適應(yīng)較小的訓(xùn)練集,因此在標(biāo)注較少的醫(yī)學(xué)圖像數(shù)據(jù)集上表現(xiàn)優(yōu)秀。
由于U-Net結(jié)構(gòu)的分割高精確度和高可擴(kuò)展性,衍生出一系列基于U-Net分割模型的改進(jìn)方法,將改進(jìn)方法概括為:基于擴(kuò)張卷積、改進(jìn)注意力、Transformer及多尺度特征融合的改進(jìn)方法。
2.2.1 基于擴(kuò)張卷積的改進(jìn)方法
U-Net 中的卷積層感受野有限,雖然增大卷積核能夠增大感受野,但同時也會增加模型參數(shù)量;此外下采樣過程中圖像分辨率降低導(dǎo)致信息丟失。針對這些問題,擴(kuò)張卷積通過在標(biāo)準(zhǔn)卷積中插入“空洞”來增大感受野捕獲更廣泛的上下文信息,同時不增加參數(shù)量和模型復(fù)雜度,并保持特征圖分辨率。
但通常很難找到一個合適大小的感受野來捕獲不同尺度的息肉信息,文獻(xiàn)[34]選擇聚合不同擴(kuò)張率的擴(kuò)張卷積,其設(shè)計(jì)的深度擴(kuò)張初始化模塊(depth dilated inception,DDI)結(jié)構(gòu)如圖4所示。初始的逐點(diǎn)卷積加深輸入特征圖;在加深的特征圖上并行連接多個擴(kuò)張率指數(shù)倍遞增的深度卷積,以從不同感受野中積累特征;在每個并行路徑中順序連接(3×1)和(1×3)的不對稱內(nèi)核深度卷積,這兩個非對稱卷積與(3×3)卷積核有相同大小的感受野,但前者參數(shù)少得多;最后級聯(lián)聚合多個深度擴(kuò)張卷積產(chǎn)生的并行輸出,進(jìn)行最終的逐點(diǎn)卷積。作者將多個DDI順序連接集成到U-Net的層結(jié)構(gòu)中,利用具有變化擴(kuò)張率的擴(kuò)張卷積實(shí)現(xiàn)了多樣性的息肉特征提取。
圖4 深度擴(kuò)張初始化(DDI)模塊結(jié)構(gòu)Fig.4 Depth dilated inception(DDI)module structure
文獻(xiàn)[35]在編解碼器之間使用空洞空間金字塔池化(atrous spatial pyramid pooling,ASPP),該模塊同樣通過組合不同擴(kuò)張率卷積的方式處理不同尺度的息肉。但卷積核邊緣部分穿插的“空洞”導(dǎo)致部分像素丟失,因此分割息肉邊界較為模糊。
2.2.2 基于注意力的改進(jìn)方法
雖然利用不同大小內(nèi)核的卷積能夠捕獲多尺度息肉特征,但由于卷積的平等性,重要特征無法突出,注意力機(jī)制可以使模型更多地關(guān)注重要信息部分。文獻(xiàn)[36]以DoubleU-Net 為基礎(chǔ)架構(gòu),在U-Net 內(nèi)部的跳躍連接處引入空間和通道注意力加強(qiáng)特征傳遞,同時在第二個編碼器的輸入端引入多尺度選擇核心通道注意力模塊,自適應(yīng)地調(diào)節(jié)接收域大小,選擇不同的感受野,提高小目標(biāo)的分割精度。
文獻(xiàn)[37]設(shè)計(jì)了淺層注意力模型,在深層特征的輔助下過濾掉淺層特征的噪聲并保留小息肉,充分利用不同特征之間的互補(bǔ)性。為解決息肉邊緣與背景腸壁分界模糊導(dǎo)致的分割結(jié)果邊緣模糊問題,文獻(xiàn)[38]提出不確定性增強(qiáng)上下文注意方法,將圖像劃分為前景、背景、不確定區(qū)域(息肉邊界),增強(qiáng)息肉邊緣信息;此外引入并行軸向注意力作為編碼器主干解決計(jì)算量大的問題??紤]到息肉大小的變化對模型訓(xùn)練的影響(模型在大多數(shù)尺寸的息肉樣本上表現(xiàn)優(yōu)秀,但處理特殊大小的息肉時會提供次優(yōu)結(jié)果),文獻(xiàn)[39]提出了基于文本引導(dǎo)注意力的TGANet,在訓(xùn)練過程中以文本注意力的形式將息肉圖像特征編碼為{單個,多個,小,中,大},并為其分配不同的權(quán)重。該模型能夠明顯適應(yīng)不同大小及多個息肉的情況,對臨床診斷中重要的扁平和無蒂息肉提供了更高的分割精度。
注意力機(jī)制能夠根據(jù)數(shù)據(jù)的不同情況自適應(yīng)地調(diào)整網(wǎng)絡(luò)權(quán)重,因此具有高可擴(kuò)展性和魯棒性。但注意力機(jī)制對輸入數(shù)據(jù)的加權(quán)和篩選操作導(dǎo)致信息丟失和誤判;此外大量的矩陣計(jì)算和映射操作增加網(wǎng)絡(luò)復(fù)雜度。
2.2.3 基于Transformer的改進(jìn)方法
文獻(xiàn)[40]提出了第一個用于圖像識別的基于自注意力的視覺Transformer(vision Transformer,ViT)框架,ViT 計(jì)算所有圖像塊之間的成對交互,生成上下文特征。這種上下文分析類似于U-Net中的上采樣過程,不同之處在于U-Net 中卷積層感受野有限,需要通過池化、擴(kuò)張等操作擴(kuò)大感受野;而ViT無卷積層,通過多頭注意力機(jī)制實(shí)現(xiàn)全局感受野。Transformer 編碼器結(jié)構(gòu)如圖5所示。
圖5 Transformer編碼器結(jié)構(gòu)Fig.5 Transformer encoder structure
卷積運(yùn)算的局限性限制了CNN 建模遠(yuǎn)程關(guān)系,尤其是當(dāng)目標(biāo)間紋理、形狀和大小差異性較大時分割結(jié)果較差。Transformer 的全局感受野能夠捕獲遠(yuǎn)程相關(guān)性解決這一限制,但由于其在所有階段進(jìn)行全局上下文建模,導(dǎo)致在捕獲細(xì)粒度細(xì)節(jié)方面有局限性。文獻(xiàn)[41]結(jié)合兩者的優(yōu)勢,提出了首個基于Transformer 的醫(yī)學(xué)圖像分割框架——TransUnet。該方法充分利用來自CNN特征的詳細(xì)高分辨率空間信息和來自Transformer的全局上下文編碼,淺層特征的密集融合提升了分割精度。
與TransUnet 以順序方式堆疊CNN 與Transformer不同,文獻(xiàn)[42]設(shè)計(jì)了一種融合技術(shù)——BiFusion模塊,將CNN 與Transformer 以并行方式結(jié)合在一起,有效捕獲淺層的空間特征和深層的語義上下文信息,且并行結(jié)構(gòu)不需要非常深的網(wǎng)絡(luò),減輕了梯度消失和特征減少的問題,提高模型推理速度。但分割的息肉邊界存在偽影,分割息肉內(nèi)部不連續(xù)。
2.2.4 基于多尺度特征融合的改進(jìn)方法
U-Net的跳躍連接結(jié)構(gòu)彌補(bǔ)了深層特征和淺層特征之間存在的語義差距。為了更充分利用這些分層特征中包含的互補(bǔ)性語義信息,文獻(xiàn)[43]在編碼器中引入語義校準(zhǔn)模塊(semantic calibration module,SCM),利用深層的高級語義信息對淺層的特征圖進(jìn)行增強(qiáng),通過解決語義錯位問題使得兩個相鄰特征映射之間的語義更好地融合,從而有效地緩解了由于語義偏移而導(dǎo)致的息肉邊界模糊和不可信的問題。此外,在解碼器中引入語義細(xì)化模塊(semantic refinement module,SRM),在解碼器進(jìn)行特征融合之前,根據(jù)全局上下文信息對特征圖重新加權(quán),可以同時增強(qiáng)目標(biāo)和減弱背景,提高息肉與背景腸壁的特征區(qū)分度。提出的SCM 和SRM 彌補(bǔ)了不同層次特征圖之間的語義鴻溝,從而充分利用這些特征的互補(bǔ)性來提高分割性能。
文獻(xiàn)[44]設(shè)計(jì)了語義特征增強(qiáng)模塊(semantic feature enhance module,SFEM),并重新設(shè)計(jì)解碼器結(jié)構(gòu)。SFEM使用三個并行分支對特定窗口大小的塊分別應(yīng)用非局部關(guān)注,該模塊能夠在不丟失空間信息的情況下進(jìn)一步增強(qiáng)多尺度語義特征。編碼器最后一層特征圖通過SFEM增強(qiáng)后發(fā)送到解碼器的每一層,解碼器每一層融合來自編碼器層、SFEM 及上采樣的特征,實(shí)現(xiàn)高低層特征融合。
文獻(xiàn)[45]重新設(shè)計(jì)跳躍連接部分,對跨層級的差異性特征進(jìn)行聚合。其設(shè)計(jì)的減法單元(subtraction unit,SU)對相鄰層級的特征圖進(jìn)行逐像素減法運(yùn)算,用于捕獲息肉淺層特征和深層特征的互補(bǔ)信息并突出其差異,將多個SU 金字塔式地連接起來構(gòu)成多尺度減法模塊,模塊結(jié)構(gòu)如圖6 所示。多尺度減法模塊中使用的減法運(yùn)算降低了輸入到解碼器的結(jié)果特征在不同層次之間的冗余度,但對特征的重用仍然導(dǎo)致高計(jì)算資源需求。
圖6 多尺度減法模塊結(jié)構(gòu)Fig.6 Multi-scale subtraction module structure
表3列舉了U-Net結(jié)構(gòu)基于以上改進(jìn)策略的其他文獻(xiàn),并對各改進(jìn)策略的優(yōu)勢和局限性進(jìn)行歸納總結(jié)[38,46-53]。
表3 U-Net結(jié)構(gòu)息肉分割模型的改進(jìn)方法對比Table 3 Comparison of improved methods for U-Net structural polyp segmentation models
ResUNet++[54]、PolypSegNet[34]雖然能夠在多尺度上提取息肉特征信息,但只是對息肉內(nèi)部區(qū)域進(jìn)行較好的處理,對息肉邊界的分割較為粗糙。許多研究者發(fā)現(xiàn)單一模型的預(yù)測能力有限,于是提出多模型融合的分割模型,將共享編碼器和多個特定任務(wù)的解碼器(例如區(qū)域分支和邊界分支)集成到一個網(wǎng)絡(luò)中,以提高分割性能。文獻(xiàn)[55]在數(shù)據(jù)預(yù)處理時通過藍(lán)色通道提取息肉圖像中鏡面高光部分,再引入Mumford-shah Euler圖像模型的變分修復(fù)方法來重建出沒有鏡面反射的圖像。之后集成雙數(shù)小波池化CNN 模型(dual-tree wavelet pooled CNN,DT-WpCNN)和局部梯度嵌入式加權(quán)水平集方法(local gradient weighting-embedded level set method,
LGWe-LSM),將兩種方法的分割結(jié)果進(jìn)行像素級融合作為最終預(yù)測結(jié)果。雙數(shù)小波池化方法相比傳統(tǒng)的池化方法在保留結(jié)構(gòu)的同時降低特征圖的維數(shù);LGWe-LSM 用于分割高度不均勻性和弱邊界的息肉區(qū)域,抑制DT-WpCNN分割的高強(qiáng)度假陽性區(qū)域并確保息肉區(qū)域的平滑度。
一些多模型融合的分割模型[56-58]提升了多正則化特征表示對相關(guān)任務(wù)的區(qū)分能力,從而顯著降低了過擬合的風(fēng)險,但區(qū)域分支和邊界分支分別進(jìn)行訓(xùn)練,忽略了它們之間的相互依賴關(guān)系。文獻(xiàn)[59]考慮區(qū)域和邊界的雙向約束,提出了SFANet。編碼器和雙解碼器下的選擇性特征聚合結(jié)構(gòu)和邊界敏感損失函數(shù)對區(qū)域邊界進(jìn)行約束,解決了邊界模糊問題,但該模型泛化性能較弱。文獻(xiàn)[60]則在恢復(fù)息肉邊界的同時更加關(guān)注到模型本身的泛化能力。文獻(xiàn)[61]設(shè)計(jì)了一個具有三個并行解碼器的模型Psi-Net,一個解碼器用于學(xué)習(xí)分割進(jìn)行掩碼預(yù)測,另外兩個解碼器用于輔助輪廓檢測和距離圖估計(jì)。輔助任務(wù)對掩碼預(yù)測進(jìn)行規(guī)范,以生成具有平滑邊界的精細(xì)掩碼。多模型融合的分割模型與單一模型相比分割準(zhǔn)確率有所提高,但模型復(fù)雜,損失函數(shù)的設(shè)計(jì)較困難,訓(xùn)練難度和計(jì)算量較大,導(dǎo)致網(wǎng)絡(luò)實(shí)時性較低。
目前使用的大多數(shù)公共息肉數(shù)據(jù)集都是由MICCAI挑戰(zhàn)賽提供。在EndoVis子挑戰(zhàn)賽[62]上提供了圖片數(shù)據(jù)集CVC-ColonDB、CVC-ClinicDB和ETIS-Larib,視頻數(shù)據(jù)集ASU-Mayo Clinic 和CVC-VideoClinicDB。CVCEndoSceneStill組合了CVC-ColonDB和CVC-ClinicDB,增加了其他類別的ground truth 掩碼(管腔及反光),并劃分了訓(xùn)練、驗(yàn)證和測試集,使得基于此數(shù)據(jù)集的分割方法能夠進(jìn)行直接比較。Kvasir[63]是一個多類圖像數(shù)據(jù)集,包含息肉類以及其他病理結(jié)果標(biāo)簽。文獻(xiàn)[64]提出了一個大型的視頻息肉數(shù)據(jù)集LDPolypVideo,包含不同類息肉,并在此數(shù)據(jù)集基礎(chǔ)上評估了許多息肉檢測方法。此外,文獻(xiàn)[65]提供了一個由不同病變(增生性病變、腺瘤和鋸齒狀腺瘤)組成的視頻數(shù)據(jù)集,用于息肉分類的研究。
盡管這些數(shù)據(jù)集被廣泛使用,但一些作者在實(shí)驗(yàn)中同時使用公開與私人數(shù)據(jù)集或僅使用私人數(shù)據(jù)集,以及對數(shù)據(jù)集的不同增強(qiáng)方法使得各方法難以進(jìn)行公平的比較。表4 總結(jié)了當(dāng)前公共可用的結(jié)腸鏡檢查圖像數(shù)據(jù)集[48-49,64-76]?!癈LS”表示息肉類別,“BBX”表示邊界框,“PM”表示二進(jìn)制掩碼,“D”表示檢測,“S”表示分割,“C”表示分類。
表4 公共可用結(jié)腸息肉圖像數(shù)據(jù)集Table 4 Publicly used colon polyp image datasets
數(shù)據(jù)集的數(shù)量和質(zhì)量很大程度上影響模型的性能,但由于涉及到隱私問題以及數(shù)據(jù)集的標(biāo)注需要耗費(fèi)大量人力資源,醫(yī)學(xué)圖像數(shù)據(jù)集大小往往受限。為了擴(kuò)充樣本多樣性,通常在模型訓(xùn)練時采取一些數(shù)據(jù)增強(qiáng)策略,通過增加訓(xùn)練數(shù)據(jù)量及數(shù)據(jù)多樣性來減少模型的過擬合,增強(qiáng)模型魯棒性。
文獻(xiàn)[69]在CVC-EndoSceneStill數(shù)據(jù)集上分析了不同數(shù)據(jù)增強(qiáng)策略對模型性能的影響,包括縮放、局部變形、裁剪、旋轉(zhuǎn)以及混合方法等,數(shù)據(jù)表明混合數(shù)據(jù)增強(qiáng)方法使息肉類分割的IoU由44.4%提升到54.8%。文獻(xiàn)[77]在數(shù)據(jù)預(yù)處理部分采用中值濾波去除圖像反光像素,對分割結(jié)果也產(chǎn)生了一定的積極影響。文獻(xiàn)[5]采用灰度圖進(jìn)行訓(xùn)練和識別。實(shí)驗(yàn)結(jié)果驗(yàn)證,當(dāng)有較多的皺紋或光斑時,使用RGB 圖像進(jìn)行息肉檢測會更加準(zhǔn)確;而當(dāng)息肉圖像不太明顯時,如未聚焦或殘影,使用灰度圖進(jìn)行息肉檢測效果更好。為了消除顏色對息肉分割的影響,文獻(xiàn)[37]隨機(jī)選取一個圖像并將其顏色傳遞給其他輸入圖像,多次顏色交換后得到內(nèi)容相同顏色不同的新輸入圖像。顏色交換操作可以解耦圖像內(nèi)容和顏色,迫使模型更加關(guān)注息肉形狀和結(jié)構(gòu)。
分割模型常用評價指標(biāo)計(jì)算方式如表5所示,其中最常用的是像素級的Dice和IoU[3]。
表5 常用評價指標(biāo)計(jì)算方式Table 5 Calculation methods of commonly used evaluation indexes
各分割方法在結(jié)腸息肉數(shù)據(jù)集上的評價指標(biāo)結(jié)果如表6所示。在CVC-ClinicDB上,基于RNN方法的CRFEfficientUNet[29]采用了多種數(shù)據(jù)增強(qiáng)策略對訓(xùn)練集進(jìn)行擴(kuò)充,該方法的Dice最高,但該方法對參數(shù)的重復(fù)利用使得訓(xùn)練時間過長;基于文本引導(dǎo)注意力的TGANet[39]僅次于CRF-EfficientUNet[29],取得第二Dice 結(jié)果94.6,且該方法處理不同尺寸和數(shù)量的息肉圖像時魯棒性較高;Transformer強(qiáng)大的全局特征建模功能極大地提高了模型分割性能,Transfuse[42]并行結(jié)合CNN與Transformer的方式取得了94.2 的Dice 結(jié)果;基于GAN 方法的結(jié)果較差,但文獻(xiàn)[32]在少量訓(xùn)練數(shù)據(jù)集(5 張,10 張,25 張)上的Dice要高于有監(jiān)督的其他模型,適用于訓(xùn)練數(shù)據(jù)有限或數(shù)據(jù)分布不均衡等情況。在Kvasir-SEG上,基于多模型融合的文獻(xiàn)[60]取得最高IoU,但同時雙分支結(jié)構(gòu)使得模型復(fù)雜,增加大量參數(shù)。
表6 息肉分割方法結(jié)果對比Table 6 Comparison of results of polyp segmentation methods
本文總結(jié)了基于深度學(xué)習(xí)的息肉分割方法的主要改進(jìn)策略,分析各方法的優(yōu)勢及局限性,發(fā)現(xiàn)目前該領(lǐng)域仍面臨一些挑戰(zhàn):(1)數(shù)據(jù)有限:深度學(xué)習(xí)網(wǎng)絡(luò)模型的訓(xùn)練需要大量的數(shù)據(jù)集并且需要對其進(jìn)行標(biāo)注,但大規(guī)模、高質(zhì)量的標(biāo)注醫(yī)學(xué)圖像數(shù)據(jù)集尤其是息肉圖像非常稀缺,在一定程度上影響模型訓(xùn)練性能;(2)數(shù)據(jù)復(fù)雜性:不同成像設(shè)備掃描的息肉圖像在顏色及質(zhì)量方面有很大差異,且息肉形態(tài)多變,在不同時期呈現(xiàn)不同的顏色紋理特征,息肉與周圍黏膜之間的邊界不清晰,都導(dǎo)致息肉分割得不精確,模型訓(xùn)練困難;(3)臨床使用率低:用于模型訓(xùn)練的數(shù)據(jù)集背景干凈、清晰,通常與臨床情況下的圖像存在差異,導(dǎo)致模型的準(zhǔn)確率在臨床環(huán)境中無法再現(xiàn)。
分析現(xiàn)階段深度學(xué)習(xí)息肉分割領(lǐng)域存在的問題,未來可以從以下幾個方面深入研究:
(1)制作標(biāo)準(zhǔn)的公共數(shù)據(jù)。一個接近實(shí)際臨床環(huán)境,并由專家標(biāo)注的大型息肉圖像數(shù)據(jù)集能夠大幅提高息肉分割模型的性能,提高模型臨床使用可行性。
(2)提升模型在小數(shù)據(jù)集上的分割性能。結(jié)合弱監(jiān)督學(xué)習(xí),利用少量標(biāo)注信息,從非標(biāo)注信息中進(jìn)行學(xué)習(xí);通過無監(jiān)督的GAN 生成高質(zhì)量息肉圖像,避免數(shù)據(jù)較少導(dǎo)致的過擬合問題?;蚪Y(jié)合遷移學(xué)習(xí),將其他數(shù)據(jù)集上的已訓(xùn)練好的分割模型參數(shù)遷移到息肉分割任務(wù)中,并進(jìn)行微調(diào),應(yīng)用于小型的息肉圖像數(shù)據(jù)集。2020年用于圖像處理的視覺Transformer[40]被提出,在醫(yī)學(xué)圖像處理領(lǐng)域取得優(yōu)秀的結(jié)果,但該方法需要通過大量訓(xùn)練數(shù)據(jù)提取全局關(guān)鍵特征獲得高分割性能,因此,Transformer模型如何在息肉小數(shù)據(jù)集上獲得高精度也是未來值得研究的方向。
(3)增強(qiáng)模型魯棒性。從數(shù)據(jù)角度,通過圖像增強(qiáng)策略提高圖像對比度、清晰度,或通過顏色變換、局部扭曲等操作擴(kuò)充樣本多樣性;從模型角度,通過引入注意力機(jī)制、Transformer[40]、深度可分離卷積[78]等,加強(qiáng)模型特征提取能力,提升其對不同采樣環(huán)境、畸變、噪聲等的適應(yīng)性,進(jìn)一步提升模型的精度和魯棒性。
(4)研究基于視頻的息肉分割技術(shù)?;谝曨l的分割模型[48]能夠處理帶有時間維度的動態(tài)醫(yī)學(xué)影像,更準(zhǔn)確定位和描述息肉的形態(tài)、大小、位置等信息。但目前息肉分割研究多為單幀的圖像分割,視頻語義分割領(lǐng)域仍存在很大挑戰(zhàn),可以從以下兩方面研究視頻語義分割:基于RNN[21]、LSTM[22]等方法利用視頻幀之間的時序信息提升分割精度;利用幀之間的相似性減少模型計(jì)算量、提高模型運(yùn)行速度。
(5)探究多任務(wù)模型。將息肉分割模型與其他檢測或分類網(wǎng)絡(luò)結(jié)合,通過共享網(wǎng)絡(luò)層學(xué)習(xí)多個相關(guān)聯(lián)任務(wù)的特征表示,模型在分割息肉的同時分類息肉類別(如腺瘤、增生等)。多任務(wù)模型通過在任務(wù)之間共享權(quán)重來減少模型參數(shù),降低過擬合風(fēng)險。但同時需要在實(shí)際任務(wù)中考慮數(shù)據(jù)不平衡、任務(wù)優(yōu)先級及模型復(fù)雜度等情況。
目前深度學(xué)習(xí)在醫(yī)學(xué)圖像處理領(lǐng)域應(yīng)用廣泛,但針對特定任務(wù)(如息肉分割、腦腫瘤分割、皮膚黑色素瘤分割等)仍有很大改進(jìn)空間。本文對深度學(xué)習(xí)在息肉分割方面的應(yīng)用及其改進(jìn)策略進(jìn)行研究分析,總結(jié)該領(lǐng)域存在的挑戰(zhàn)及未來研究方向,相信基于深度學(xué)習(xí)的息肉分割研究能夠更好地輔助臨床醫(yī)生早期發(fā)現(xiàn)并切除結(jié)腸息肉病變。