苗保明,陳 煒,吳 航,余 明,韓思齊
(1.天津理工大學(xué)天津市先進(jìn)機(jī)電系統(tǒng)設(shè)計(jì)與智能控制重點(diǎn)實(shí)驗(yàn)室,天津 300384;2.天津理工大學(xué)機(jī)電工程國家級(jí)實(shí)驗(yàn)教學(xué)示范中心,天津 300384;3.軍事科學(xué)院系統(tǒng)工程研究院,天津 300161;4.南開大學(xué)人工智能學(xué)院,天津 300381)
手術(shù)器械機(jī)器視覺識(shí)別是人工智能在醫(yī)療領(lǐng)域的典型應(yīng)用,如器械護(hù)士機(jī)器人、手術(shù)流程分割等,是未來的發(fā)展趨勢(shì)。高質(zhì)量的視覺圖像能夠?yàn)槭中g(shù)器械的檢測(cè)、分類等任務(wù)提供更多有效的特征信息,提高識(shí)別的準(zhǔn)確率。然而手術(shù)器械視覺圖像在采集、壓縮和傳輸過程中容易受到環(huán)境噪聲的干擾,如高斯噪聲和椒鹽噪聲等,這些干擾會(huì)導(dǎo)致圖像內(nèi)容和色彩發(fā)生扭曲或退化,從而對(duì)視覺任務(wù)產(chǎn)生負(fù)面影響。圖像去噪算法能夠有效地去除噪聲信息,從而提升圖像質(zhì)量。該算法旨在準(zhǔn)確地去除噪聲信息,同時(shí)保留圖像的細(xì)節(jié)特征不被破壞,因此如何更好地平衡這2 個(gè)方面成為該領(lǐng)域眾多研究人員追求的目標(biāo)。
目前,人們嘗試了許多方法去除圖像噪聲,主要包括傳統(tǒng)的去噪方法和基于深度學(xué)習(xí)的去噪方法。傳統(tǒng)的去噪方法包括中值濾波去噪和小波變換去噪等。屈正庚等[1]提出了自適應(yīng)中值濾波方法,該方法能夠根據(jù)噪聲大小自適應(yīng)調(diào)整濾波模板的尺寸,具有很好的去噪效果。傅偉等[2]在小波去噪和小波域隱馬爾可夫模型的基礎(chǔ)上引入了方差不變性變換來調(diào)整原始圖像的噪聲模型為高斯噪聲模型,將圖像分解為不同頻率的不同子帶,并使用隱馬爾可夫樹模型來規(guī)劃小波系數(shù)的邊緣分布,使得圖像保留了更多的邊緣信息。謝玉霞等[3]將小波去噪方法用于去除體表胃電中的高頻噪聲,從而有效地改善了信噪比及提高了信號(hào)的分辨力。然而傳統(tǒng)的去噪方法仍存在不足,如中值濾波用于去除復(fù)雜的噪聲時(shí)容易破壞圖像特征的幾何形狀;小波變換去噪的方向性較弱,只能捕捉有限的方向信息等。
基于深度學(xué)習(xí)的去噪方法具有更好的擬合噪聲分布等優(yōu)點(diǎn),因此受到了更多的關(guān)注。Zhang 等[4]提出了快且靈活的去噪卷積神經(jīng)網(wǎng)絡(luò)(fast and flexible denoising convolutional neural network,F(xiàn)FDNet),該網(wǎng)絡(luò)將可調(diào)噪聲水平圖作為輸入,能夠處理不同級(jí)別的噪聲以及空間變化噪聲。Kim 等[5]提出了分組殘差密集網(wǎng)絡(luò),該網(wǎng)絡(luò)級(jí)聯(lián)了多個(gè)具有殘差結(jié)構(gòu)的分組殘差密集塊,圖像去噪的性能得到明顯提高。此外,還有一些去噪方法將去噪過程劃分為多個(gè)具有不同任務(wù)的階段。如Tian 等[6]提出了一個(gè)由多模塊組成的注意力引導(dǎo)去噪網(wǎng)絡(luò),該網(wǎng)絡(luò)能夠在去除較復(fù)雜噪聲的同時(shí)增強(qiáng)了模型的表達(dá)能力,并生成干凈的圖像。Zhang 等[7]提出了雙任務(wù)互補(bǔ)網(wǎng)絡(luò),該網(wǎng)絡(luò)能夠在去除噪聲的同時(shí)保留更多的細(xì)節(jié)特征。Tian等[8]提出了一個(gè)聯(lián)合小波變換的三階段去噪網(wǎng)絡(luò),該網(wǎng)絡(luò)能夠?qū)崿F(xiàn)參數(shù)的動(dòng)態(tài)調(diào)節(jié)、噪聲抑制和圖像重建。
然而,大多數(shù)基于深度學(xué)去噪方法往往具有龐大的參數(shù)量,且在噪聲去除和細(xì)節(jié)保留任務(wù)上仍有很大的提升空間。因此,本研究提出一種基于深度學(xué)習(xí)的手術(shù)器械視覺圖像高斯與椒鹽噪聲去除方法,通過構(gòu)建輕量級(jí)多任務(wù)漸進(jìn)式網(wǎng)絡(luò)去除圖像噪聲,減少去噪模型的算力消耗和內(nèi)存占用。
輕量級(jí)多任務(wù)漸進(jìn)式網(wǎng)絡(luò)主要由3 個(gè)部分組成:多特征融合編碼器解碼器網(wǎng)絡(luò)、注意力引導(dǎo)網(wǎng)絡(luò)和細(xì)節(jié)恢復(fù)漸進(jìn)式網(wǎng)絡(luò)。輕量級(jí)多任務(wù)漸進(jìn)式網(wǎng)絡(luò)的結(jié)構(gòu)如圖1 所示。首先,將噪聲圖像輸入到多特征融合編碼器解碼器網(wǎng)絡(luò)中,用于噪聲信息的預(yù)測(cè),并將預(yù)測(cè)的噪聲信息從圖像中去除,得到粗粒度去噪圖像。然后,將粗粒度去噪圖像輸入到注意力引導(dǎo)網(wǎng)絡(luò)中,以去除圖像殘余噪聲。最后,由細(xì)節(jié)恢復(fù)漸進(jìn)式網(wǎng)絡(luò)對(duì)無噪聲圖像中的細(xì)節(jié)特征進(jìn)行恢復(fù)。
圖1 輕量級(jí)多任務(wù)漸進(jìn)式網(wǎng)絡(luò)的結(jié)構(gòu)圖
多特征融合編碼器解碼器網(wǎng)絡(luò)主要由編碼器、多尺度擴(kuò)張卷積模塊和解碼器組成。其中,多尺度擴(kuò)張卷積模塊由多個(gè)分支的擴(kuò)張卷積組成,將來自不同擴(kuò)張卷積的特征圖合并,然后輸入到1×1 卷積層。該模塊可以有效地捕捉噪聲的語義信息,以彌補(bǔ)由于編碼器連續(xù)下采樣導(dǎo)致的圖像紋理損失。此外,在多特征融合編碼器解碼器網(wǎng)絡(luò)中還加入了多個(gè)跳躍連接用來捕獲不同的特征。
注意力引導(dǎo)網(wǎng)絡(luò)由稀疏塊(sparse block,SB)、特征增強(qiáng)塊(feature enhancement block,F(xiàn)EB)、注意力塊(attention block,AB)和重建塊(reconstruction block,RB)4 個(gè)模塊組成,其中,稀疏塊使用擴(kuò)張卷積和標(biāo)準(zhǔn)卷積來擴(kuò)大感受野,以提高圖像去噪的性能和效率。特征增強(qiáng)塊通過長路徑集成注意力引導(dǎo)網(wǎng)絡(luò)的全局和局部特征,以增強(qiáng)算法模型的表達(dá)能力。假設(shè)IN和IR分別表示輸入噪聲圖像和預(yù)測(cè)殘差圖像,則稀疏塊可表示為
式中,OSB為稀疏塊的輸出,并將結(jié)果輸入到特征增強(qiáng)塊中;fSB為稀疏塊的函數(shù)。特征增強(qiáng)塊可表示為
式中,fFEB為特征增強(qiáng)塊的函數(shù)。注意力塊用來降低圖像背景特征提取的難度,其表達(dá)式為
式中,fAB為注意力塊的函數(shù);IR為注意力塊的輸出。重建塊主要用于無噪聲圖像的重構(gòu),其表達(dá)式為
式中,Iclear為預(yù)測(cè)的干凈圖像。
細(xì)節(jié)恢復(fù)漸進(jìn)式網(wǎng)絡(luò)由多通道密集注意力漸進(jìn)塊組成,并且使用跳躍連接來獲取不同的特征。多通道密集注意力漸進(jìn)塊的結(jié)構(gòu)如圖2 所示。注意力機(jī)制具有關(guān)注有效信息和忽略無效信息等優(yōu)點(diǎn),因此在通道密集注意力模塊[7]的基礎(chǔ)上增加并行結(jié)構(gòu),形成并行通道密集注意力模塊,如圖3 所示。并行通道密集注意力模塊主要由3 個(gè)并行式注意力模塊組成,可以使模型在訓(xùn)練過程中更有效地進(jìn)行特征融合和梯度下降。細(xì)節(jié)恢復(fù)漸進(jìn)式網(wǎng)絡(luò)由6 個(gè)循環(huán)階段組成,每個(gè)階段對(duì)應(yīng)多通道密集注意力漸進(jìn)塊,以實(shí)現(xiàn)與其他階段的參數(shù)共享。
圖2 多通道密集注意力漸進(jìn)塊的結(jié)構(gòu)圖
圖3 通道密集注意力模塊和并行通道密集注意力模塊
為了減少去噪模型的參數(shù)量和推理算力,將細(xì)節(jié)恢復(fù)漸進(jìn)式網(wǎng)絡(luò)中的常規(guī)卷積替換為深度可分離卷積。假設(shè)網(wǎng)絡(luò)的輸入特征圖為DF×DF×M,輸出特征圖為DF×DF×N,卷積核的大小為DK×DK×M×N。其中,DF為特征圖的長、寬尺寸,DK為卷積核的長、寬尺寸,M、N 分別為輸入通道數(shù)和輸出通道數(shù)。卷積步長和填充均為1,以使輸出特征圖的長、寬尺寸與特征圖相同,則普通卷積的計(jì)算量為
深度可分離卷積將普通卷積分解為深度卷積和點(diǎn)卷積,深度卷積的大小為DK×DK×1×M,點(diǎn)卷積的大小為1×1×M×N,則深度卷積的計(jì)算量為
點(diǎn)卷積的計(jì)算量為
深度可分離卷積的計(jì)算量為
計(jì)算公式(8)和公式(5)的比值表示如下:
公開的訓(xùn)練數(shù)據(jù)集為用于去除高斯噪聲的Waterloo Exploration 數(shù)據(jù)集[9]和用于去除椒鹽噪聲的BSD432 數(shù)據(jù)集[10],其中,Waterloo Exploration 數(shù)據(jù)集包含3 859 張彩色圖像,BSD432 數(shù)據(jù)集包含432 張彩色圖像。測(cè)試集為CBSD68[11]和Kodak24[12]圖像噪聲數(shù)據(jù)集。其中,CBSD68 數(shù)據(jù)集和Kodak24 數(shù)據(jù)集分別包含68 和24 張圖像。
由于手術(shù)器械噪聲數(shù)據(jù)集的缺乏,本文基于BW-I 型腹部外科手術(shù)器械包構(gòu)建了手術(shù)器械噪聲數(shù)據(jù)集。該數(shù)據(jù)集包括噪聲水平為50 的高斯噪聲圖像和噪聲比例為10%的椒鹽噪聲圖像,共10 種手術(shù)器械類別,每個(gè)類別有260 張256×256 像素的彩色圖像,共有2 600 張圖像。10 種類別的手術(shù)器械分別為丁字式開口器、止血鉗、腸鉗、持針器、組織鑷、帕巾鉗、舌鉗、手術(shù)剪、海綿鉗、組織剪。部分手術(shù)器械的噪聲圖像如圖4 所示。
圖4 部分手術(shù)器械的噪聲圖像
所提出的方法的訓(xùn)練過程在工作站上進(jìn)行,工作站的基本配置:CPU 為Intel Xeon E5-2678 V3、2.5 GHz,內(nèi)存為128 GiB,操作系統(tǒng)為Ubuntu18.04,CUDA 版本為11.4,并帶有2 個(gè)NVIDIA GeForce 3090 顯卡,PyTorch 版本為3.10。
對(duì)于高斯噪聲圖像,使用Adam 優(yōu)化器對(duì)所提出的方法進(jìn)行70 次的迭代訓(xùn)練,批量大小為32。初始學(xué)習(xí)率為0.001,并在迭代次數(shù)為30~60 時(shí)乘以0.1進(jìn)行衰減。對(duì)于椒鹽噪聲圖像,使用Adam 優(yōu)化器對(duì)所提出的方法進(jìn)行50 次的迭代訓(xùn)練,批量大小為128。初始學(xué)習(xí)率為0.001,并在迭代次數(shù)為30 時(shí)乘以0.1 進(jìn)行衰減。
峰值信噪比(peak signal-to-noise ratio,PSNR)被廣泛用于衡量不同去噪方法的性能,數(shù)值越大表示去噪圖像越接近真值圖像,去噪效果更優(yōu)。因此本研究采用PSNR 來評(píng)估模型的去噪效果。
在高斯噪聲圖像去噪實(shí)驗(yàn)中,將本文所提出的方法與經(jīng)典去噪方法進(jìn)行比較,經(jīng)典去噪方法包括去噪卷積神經(jīng)網(wǎng)絡(luò)[13](denoising convolutional neural networks,DnCNN)、FFDNet[4]和圖像恢復(fù)卷積神經(jīng)網(wǎng)絡(luò)(image restoration convolutional neural networks,IRCNN)[14]。高斯噪聲水平σ 分別設(shè)置為15、25、35、50。實(shí)驗(yàn)結(jié)果見表1,可以看出,在CBSD68 數(shù)據(jù)集上,當(dāng)噪聲水平為35 時(shí)本文所提出的方法的PSNR與DnCNN 方法相同,均優(yōu)于其他方法。高斯噪聲圖像的去噪結(jié)果如圖5 所示,可以看出,本文所提出的方法的去噪效果要優(yōu)于對(duì)比的方法。
表1 高斯噪聲圖像去噪實(shí)驗(yàn)中本文所提出的方法與經(jīng)典方法的PSNR 比較
圖5 在CBSD68 數(shù)據(jù)集上,噪聲水平為25 的高斯噪聲去噪結(jié)果的直觀比較
類似地,在椒鹽噪聲圖像去噪實(shí)驗(yàn)中,將本文所提出的方法與經(jīng)典去噪方法進(jìn)行比較,經(jīng)典去噪方法包括基于克里金插值濾波器的自適應(yīng)決策(adaptive decision based Kriging interpolation filter,ADKIF)[15]、非局部轉(zhuǎn)換濾波器卷積神經(jīng)網(wǎng)絡(luò)(non-local switching filter convolutional neural network,NLSF-CNN)[16]、自適應(yīng)切薩羅均值濾波器(adaptive Cesáro mean filter,ACmF)[17]、改進(jìn)型自適應(yīng)加權(quán)均值濾波器(improved adaptive weighted mean filter,IAWMF)[18]、不同的自適應(yīng)修正里斯平均值濾波器(different adaptive modified Riesz mean filter,DAMRmF)[19]。椒鹽噪聲的噪聲比例分別為10%、20%、30%、50%。實(shí)驗(yàn)結(jié)果見表2,可以看出,與經(jīng)典方法相比本文所提出的方法的去噪效果更好。椒鹽噪聲圖像去噪結(jié)果的直觀比較如圖6所示,可以看出,相比其他方法,本文所提出的方法在去除噪聲的同時(shí)保留了更多的細(xì)節(jié)特征。
表2 在CBSD68 數(shù)據(jù)集上,椒鹽噪聲圖像去噪實(shí)驗(yàn)中本文所提出的方法與經(jīng)典方法的PSNR 比較
圖6 在CBSD68 數(shù)據(jù)集上,噪聲比例為30%時(shí)椒鹽噪聲圖像去噪結(jié)果的直觀比較
在手術(shù)器械噪聲數(shù)據(jù)集上對(duì)所提出的方法進(jìn)行實(shí)驗(yàn)驗(yàn)證,并使用PSNR 作為評(píng)價(jià)指標(biāo)。實(shí)驗(yàn)結(jié)果表明,對(duì)于高斯噪聲圖像和椒鹽噪聲圖像,所提出的方法的PSNR 分別為28.69 和43.41。
然后,使用經(jīng)典的ResNet-18 模型和ResNet-34模型分別在噪聲數(shù)據(jù)集和去噪數(shù)據(jù)集上進(jìn)行分類實(shí)驗(yàn),比較模型分類性能的變化,實(shí)驗(yàn)結(jié)果見表3。由表3 可以看出,對(duì)于高斯噪聲圖像,ResNet-18 模型的分類準(zhǔn)確率為66.76%,比在無噪聲數(shù)據(jù)集上降低了18.37%,去噪后模型的準(zhǔn)確率為81.59%,提升了14.83%;ResNet-34 模型的分類準(zhǔn)確率為69.68%,比在無噪聲數(shù)據(jù)集上降低了19.78%,去噪后模型的準(zhǔn)確率為83.67%,提升了13.99%。對(duì)于椒鹽噪聲圖像,ResNet-18 模型的分類準(zhǔn)確率為65.01%,比在無噪聲數(shù)據(jù)集上減少了20.12%,去噪后模型的準(zhǔn)確率為82.22%,提升了17.21%;ResNet-34 模型的分類準(zhǔn)確率為70.55%,比在無噪聲數(shù)據(jù)集上減少了18.91%,去噪后模型的準(zhǔn)確率為87.46%,提升了16.91%。
表3 ResNet-18 模型和ResNet-34 模型分別在無噪聲數(shù)據(jù)集、噪聲數(shù)據(jù)集和去噪數(shù)據(jù)集上的分類準(zhǔn)確率
由實(shí)驗(yàn)結(jié)果可知,模型在去噪數(shù)據(jù)集上的分類表現(xiàn)要明顯優(yōu)于噪聲數(shù)據(jù)集,這表明了手術(shù)器械視覺圖像去噪的必要性和本文所提方法的優(yōu)秀去噪能力。
在手術(shù)器械噪聲數(shù)據(jù)集上,本文所提出的方法去噪效果的直觀比較如圖7 所示,可以看出,相比于噪聲圖像,去噪圖像的質(zhì)量得到明顯提升。
圖7 在手術(shù)器械噪聲數(shù)據(jù)集上,本文所提出的方法去噪效果的直觀比較
首先,對(duì)所提出的并行通道密集注意力模塊相較于通道密集注意力模塊的去噪效果進(jìn)行實(shí)驗(yàn)分析。在CBSD68 數(shù)據(jù)集上,分別對(duì)噪聲水平為15 的高斯噪聲圖像和噪聲比例為10%的椒鹽噪聲圖像進(jìn)行去噪實(shí)驗(yàn),結(jié)果見表4。由表4 可以看出,對(duì)于高斯噪聲和椒鹽噪聲,并行通道密集注意力模塊的去噪效果更優(yōu)。
表4 在CSBD68 數(shù)據(jù)集上,注意力模塊對(duì)于不同噪聲的去噪效果(PSNR)比較
其次,在CBSD68 數(shù)據(jù)集上,對(duì)所提出的方法的輕量化效果進(jìn)行實(shí)驗(yàn)驗(yàn)證,其中高斯噪聲水平為15。實(shí)驗(yàn)結(jié)果見表5,可以看出,輕量化后PSNR 稍有下降,但參數(shù)量和浮點(diǎn)運(yùn)算數(shù)(floating point operations,F(xiàn)LOPs)分別減少了約27.27%和29.81%。若使用模型的FLOPs 變化來計(jì)算壓縮率,則壓縮率約為29.81%。這表明輕量化的去噪方法具有更少的算力消耗和內(nèi)存占用。
表5 輕量化前后效果比較
本文提出了一種基于深度學(xué)習(xí)的手術(shù)器械視覺圖像高斯與椒鹽噪聲去除方法,將圖像的去噪過程分為粗粒度噪聲去除、細(xì)粒度噪聲去除和圖像細(xì)節(jié)特征恢復(fù)3 個(gè)階段,能夠在漸進(jìn)式去除噪聲的同時(shí)恢復(fù)圖像細(xì)節(jié)特征。在公開數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,本文所提出的方法取得了優(yōu)秀的去噪效果。在手術(shù)器械噪聲數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,ResNet-18模型和ResNet-34 模型在采用本文所提出的方法去噪的圖像上取得了更優(yōu)秀的分類表現(xiàn)。最后,對(duì)并行通道注意力模塊和輕量化效果進(jìn)行了實(shí)驗(yàn)分析,結(jié)果表明并行通道注意力模塊能更好地提升模型性能,并且輕量化后的去噪方法具有更少的算力消耗和內(nèi)存占用。但本研究也存在以下局限性:一是本研究僅使用了輕量化網(wǎng)絡(luò)設(shè)計(jì),去噪網(wǎng)絡(luò)的輕量化水平有限;二是本研究僅針對(duì)手術(shù)器械視覺圖像的高斯噪聲和椒鹽噪聲展開研究,而這并不能完全模擬未來臨床應(yīng)用場(chǎng)景中的真實(shí)噪聲,存在一定的局限性。下一步將對(duì)更加貼近臨床應(yīng)用場(chǎng)景的更多噪聲種類進(jìn)行研究,并與其他輕量化方法(如剪枝、參數(shù)量化等)相結(jié)合,以期建立一個(gè)易于部署應(yīng)用且性能優(yōu)秀的去噪網(wǎng)絡(luò)。