盧 葦,劉 丹,邵 敏,吳揚(yáng)東
1.貴州大學(xué) 現(xiàn)代制造技術(shù)教育部重點(diǎn)實(shí)驗(yàn)室,貴陽550025
2.貴陽市口腔醫(yī)院 口腔頜面外科,貴陽550002
電子計(jì)算機(jī)斷層掃描技術(shù)(Computed Tomography,CT),利用X射線束對人體一定厚度的層面進(jìn)行掃描,能夠快速地獲取病變區(qū)域的切片圖像,CT成像技術(shù)的發(fā)展為醫(yī)學(xué)圖像的處理奠定了基礎(chǔ)。醫(yī)學(xué)圖像的分割一直是醫(yī)學(xué)圖像處理的關(guān)鍵技術(shù)[1],醫(yī)學(xué)圖像分割就是把圖像分成特定的區(qū)域,以便提取出感興趣的區(qū)域,并使它盡可能地接近解剖結(jié)果。在醫(yī)學(xué)圖像中將特定的組織、器官分割出來,使其為醫(yī)學(xué)圖像的配準(zhǔn)、融合等處理,以及組織器官、病灶的測量和三維重建提供可靠的依據(jù)。其中,細(xì)胞的圖像分割是醫(yī)學(xué)圖像分割中較早也是相對較容易的研究點(diǎn),細(xì)胞圖像分割技術(shù)的應(yīng)用,避免了采用細(xì)胞學(xué)診斷法效率低,醫(yī)生長時(shí)間在顯微鏡下讀片易疲勞,產(chǎn)生誤判等缺點(diǎn)。隨著研究的進(jìn)行,醫(yī)學(xué)圖像分割在各類腫瘤的識別、器官提取方面的研究也不斷深入?,F(xiàn)今醫(yī)學(xué)圖像的分割方法常見的有基于閾值、區(qū)域、邊緣檢測以及結(jié)合區(qū)域與邊緣檢測的醫(yī)學(xué)圖像分割方法[2],研究者們也將改進(jìn)的粒子群算法、遺傳算法、蝙蝠算法等應(yīng)用于CT或者核磁共振(MR)圖像的分割中[3]。將常見的經(jīng)典圖像處理技術(shù)、理論與優(yōu)化算法、神經(jīng)網(wǎng)絡(luò)等有機(jī)地結(jié)合起來,以實(shí)現(xiàn)快速、自動(dòng)、精準(zhǔn)的處理,將會(huì)是未來醫(yī)學(xué)圖像處理的發(fā)展方向。
本文以下頜骨的識別與分割為例,下頜骨位于面下部,呈弓形,在頜面骨骼中面積和體積占比大,是面部骨骼中唯一能活動(dòng)的骨骼,也是病變的好發(fā)區(qū)域[4],但將以上圖像分割方法應(yīng)用在下頜骨的分割中差強(qiáng)人意。對于常用的閾值分割來說,對于目標(biāo)區(qū)域與背景區(qū)域灰度值相差較大時(shí),大大地簡化了處理步驟,只需設(shè)定合適的閾值便能將目標(biāo)區(qū)域分割出來。但因?yàn)橄骂M骨的閾值和整個(gè)面部骨組織的灰度值相近,所以基于閾值的分割方法無法有效地將其分割。另由于區(qū)域生長是將具有相似性質(zhì)的像素集合起來,但下頜骨像素的特性、灰度級都與面部骨骼相同,其兩突部分還與上頜骨以及顱骨相連,這使得基于區(qū)域生長和邊緣檢測的方法也無法實(shí)現(xiàn)有效的分割。近年來,研究者們利用粒子群算法、蟻群算法等優(yōu)化算法改進(jìn)經(jīng)典的圖像分割算法,以尋求最佳的閾值或者合適的邊界,但這并未改變基于閾值或邊緣檢測的分割方法的本質(zhì),所以也無法對下頜骨進(jìn)行有效的分割?,F(xiàn)今,基于深度學(xué)習(xí)的圖像分割方法在醫(yī)學(xué)圖像的分割上取得了較好的結(jié)果[5-8],在肺部[7]、腦腫瘤[8]等醫(yī)學(xué)圖像的自動(dòng)分割中大放異彩。其中,Mask R-CNN網(wǎng)絡(luò)是目前應(yīng)用最為廣泛的目標(biāo)檢測和分割網(wǎng)絡(luò)之一。在神經(jīng)網(wǎng)絡(luò)中,低層特征包含更多的細(xì)節(jié)信息[9],對識別小物體的作用不容忽視,但Mask R-CNN中網(wǎng)絡(luò)層數(shù)較深,低層特征和頂層特征融合路徑長,使低層特征沒有得到充分的利用,同時(shí)較深的網(wǎng)絡(luò)也會(huì)產(chǎn)生大量的計(jì)算任務(wù)。所以本文對Mask R-CNN網(wǎng)絡(luò)進(jìn)行改進(jìn),減少主干網(wǎng)絡(luò)的層數(shù),減少了網(wǎng)絡(luò)的計(jì)算量的同時(shí),縮短了低層特征到頂層特征融合距離和檢測時(shí)間。并將低層特征進(jìn)行復(fù)用,以增加頂層特征圖像的細(xì)節(jié)信息,提高特征金字塔的融合能力。將改進(jìn)的Mask R-CNN網(wǎng)絡(luò)在自備人體下頜骨數(shù)據(jù)集上進(jìn)行訓(xùn)練和驗(yàn)證,得到改進(jìn)后的Mask R-CNN網(wǎng)絡(luò)在人體下頜骨的識別和分割上具有很高的準(zhǔn)確率。
Mask R-CNN網(wǎng)絡(luò)是華人科學(xué)家何凱明在2017年提出,該網(wǎng)絡(luò)在精準(zhǔn)目標(biāo)檢測的同時(shí)還能獲得高質(zhì)量的圖像分割。該網(wǎng)絡(luò)以Resnet系列網(wǎng)絡(luò)為主干網(wǎng)絡(luò)進(jìn)行不同層級的圖像特征提??;利用主干網(wǎng)絡(luò)將圖像壓縮兩次、三次、四次、五次后的特征圖像用于特征金字塔網(wǎng)絡(luò)(FPN)的構(gòu)建[10],以實(shí)現(xiàn)多次度的融合;并將融合后的圖像輸入?yún)^(qū)域建議網(wǎng)絡(luò)(RPN)得到可能包含目標(biāo)物體的候選區(qū)域,也就是建議框[11];利用建議框?qū)τ行貙舆M(jìn)行截?。≧OI Align),獲得局部特征層,并將截取后的結(jié)果統(tǒng)一到一定的大小[12],進(jìn)而對目標(biāo)進(jìn)行定位、分類以及分割處理。
ResNet網(wǎng)絡(luò)的提出有效地解決了網(wǎng)絡(luò)層數(shù)加深引起的梯度消失、梯度爆炸問題[13],其中的關(guān)鍵技術(shù)是多個(gè)殘差塊堆疊而成。圖1是深層殘差網(wǎng)絡(luò)使用的一種殘差塊,在跳躍連接上沒有卷積操作,文中定義為Res Block殘差塊,該殘差塊的圖片輸入輸出維度是相同的,輸入經(jīng)過主分支上的三次卷積操作后的結(jié)果與原始輸入直接連接,用于加深網(wǎng)絡(luò)深度。圖2是深層殘差網(wǎng)絡(luò)使用的另一種殘差塊,該殘差塊的跳躍連接上有一個(gè)卷積層,輸入除了將經(jīng)過主分支上的三次卷積外,還會(huì)通過跳躍連接上的卷積,然后再與原始的輸入相連。文中定義為ResConv Block殘差塊,該殘差塊的輸入輸出的維度是不一樣的,其作用是改變網(wǎng)絡(luò)的維度和加深網(wǎng)絡(luò)深度。
圖1 Res殘差塊Fig.1 Res Block
圖2 ResConv殘差塊Fig.2 ResConv Block
兩種殘差塊都采用的是瓶頸結(jié)構(gòu)[14],經(jīng)過一個(gè)1×1的卷積,3×3的卷積,再經(jīng)過一個(gè)1×1的卷積,其中第一個(gè)1×1的卷積的作用是降維,第二個(gè)1×1的卷積的作用是升維。該類架構(gòu)可以減少參數(shù)量,降低計(jì)算復(fù)雜度,從而提高計(jì)算效率。
ResNet網(wǎng)絡(luò)具有很強(qiáng)的學(xué)習(xí)能力,但針對CT圖像中的下頜骨進(jìn)行檢測時(shí),由于下頜骨兩突部分較小。過深的網(wǎng)絡(luò)對兩突部分的檢測泛化能力下降,還會(huì)導(dǎo)致網(wǎng)絡(luò)臃腫、參數(shù)量過大,訓(xùn)練時(shí)間長。神經(jīng)網(wǎng)絡(luò)中,低層的網(wǎng)絡(luò)語義信息弱,定位好,利于檢測小物體,與深層網(wǎng)絡(luò)語義信息強(qiáng),分辨率低,不利于檢測小物體優(yōu)劣相互彌補(bǔ),從而提高網(wǎng)絡(luò)的精準(zhǔn)性。通過主干網(wǎng)絡(luò)獲得長寬被壓縮了兩次、三次、四次、五次的特征層C2~C5,從而得到特征金字塔自上而下的部分,這與一般的特征提取沒有區(qū)別;將最后提取到的特征層C5經(jīng)過通道統(tǒng)一以后進(jìn)行上采樣,采用最近鄰上采樣法,從而組成特征金字塔自下而上的部分;然后通過橫向連接將維度相同的特征圖進(jìn)行融合,并各自進(jìn)行一次3×3的卷積操作,以消除混疊效應(yīng),從而得到P2~P6層;這三大部分是經(jīng)典的特征金字塔結(jié)構(gòu)。
本文受ResNet網(wǎng)絡(luò)的啟發(fā),使用兩種殘差塊的組合來構(gòu)建改進(jìn)網(wǎng)絡(luò)的主干網(wǎng)絡(luò),利用殘差模塊可根據(jù)實(shí)際需要分割的器官或者病變區(qū)域靈活搭建不同網(wǎng)絡(luò)層數(shù)的主干網(wǎng)絡(luò),加快網(wǎng)絡(luò)的構(gòu)建。根據(jù)下頜骨的解剖結(jié)構(gòu),兩突部分到下頜切跡約占下頜骨高的1/3;下頜支部分約占下頜骨高的1/3;下頜體部分也約占下頜骨高的1/3。也就是網(wǎng)絡(luò)需識別與分割的小目標(biāo)、中等大小目標(biāo)和大目標(biāo)幾乎均等,所以在主干網(wǎng)絡(luò)中C1至C5層之間均堆疊3個(gè)的殘差塊,每個(gè)殘差塊包括3個(gè)卷積層,最終使得主干網(wǎng)絡(luò)自上而下的層數(shù)為38層,以適合訓(xùn)練下頜骨CT圖像,同時(shí)較淺的網(wǎng)絡(luò)層數(shù)還可防止過擬合的發(fā)生。
本文設(shè)計(jì)復(fù)用C1層特征提取網(wǎng)絡(luò)如圖3所示,首先輸入大小為640×640×3的原始圖像,將首次壓縮兩次后獲得的特征圖定義為C1。其次對C1采用256個(gè)步距為1,大小為3×3卷積核得到特征圖大小為160×160×256的C1C2,接著與經(jīng)過通道統(tǒng)一后的C2進(jìn)行融合后得到P2;對C1采用256個(gè)步距為2,大小為3×3卷積核得到特征圖大小為80×80×256的C1C3,與通道統(tǒng)一后的C3進(jìn)行融合后得到P3;同理對C1采用256個(gè)步距為4,大小為3×3卷積得到的C1C4,與C4融合后便得到了P4。此時(shí)的C1層壓縮次數(shù)少,包含較多的細(xì)節(jié)信息,易于檢測下頜骨中的兩突部分。
圖3 復(fù)用C1層特征提取網(wǎng)絡(luò)Fig.3 Reuse C1 layer feature extraction network
文中還設(shè)計(jì)一種復(fù)用依次卷積的C1層特征提取網(wǎng)絡(luò)如圖4所示,該方法除了在C1層的利用方式上述與復(fù)用C1層特征提取網(wǎng)絡(luò)不同外,其余均相同。在復(fù)用依次卷積的C1層特征提取網(wǎng)絡(luò)中,首先將C1層進(jìn)行統(tǒng)一通道數(shù)后得到的C1C2,與C2統(tǒng)一通道數(shù)以后進(jìn)行相加,再經(jīng)過3×3卷積得到P2。然后對C1C2進(jìn)行一次步距為2的3×3卷積得到C1C3,與C3統(tǒng)一通道數(shù)以后進(jìn)行相加,再經(jīng)過3×3卷積得到P3。最后對C1C3進(jìn)行一次步距為2的3×3卷積得到C1C4,與C4統(tǒng)一通道數(shù)以后進(jìn)行相加,再經(jīng)過3×3卷積得到P4。經(jīng)過這一系列步驟就完成了低層信息的重用,提高對小物體的檢測能力。
圖4 復(fù)用依次卷積的C1層特征提取網(wǎng)絡(luò)Fig.4 Reuse C1 layer feature extraction network of sequential convolution
主干網(wǎng)絡(luò)構(gòu)建完成以后,如圖5所示,會(huì)經(jīng)過建議網(wǎng)絡(luò)、局部特征層等處理后,進(jìn)行目標(biāo)物體的識別和分割。將主干網(wǎng)絡(luò)提取到的P2~P6將作為建議網(wǎng)絡(luò)(RPN)有效特征層的輸入。建議網(wǎng)絡(luò)對特征圖上的信息進(jìn)行預(yù)判,對可能包含目標(biāo)物體的部分生成不同大小、長寬比例不同的預(yù)測框,這些框會(huì)根據(jù)交并比(IOU)來預(yù)測該框選區(qū)域有無目標(biāo)物體或包含目標(biāo)物體的概率進(jìn)行計(jì)算,不同大小的框會(huì)預(yù)測特定大小的物體[15],這對下頜骨的識別來說是非常有必要的,因?yàn)橄骂M骨的CT圖像中可看出,從下頜骨的髁突、冠突部分到頦結(jié)節(jié)形狀大小差異性很大,如圖6所示,預(yù)測頦結(jié)節(jié)部分需要一個(gè)較小的框,而預(yù)測牙槽嵴則需要一個(gè)較大的框。
圖5 改進(jìn)Mask R-CNN流程簡圖Fig.5 Improved Mask R-CNN process diagram
圖6 下頜骨CT圖Fig.6 CT image of mandiblem
通過以上操作獲得一定數(shù)量的框以后,再與ROI Align結(jié)合,從而獲得固定大小的輸出,這與ROI Pooling的目的是相同的,但實(shí)現(xiàn)的方法和效果不一樣。ROI Align與ROI Pooling的區(qū)別在于ROI Pooling在生成局部特征層時(shí)會(huì)將感興趣區(qū)域取整到相鄰的像素,這樣的操作忽略了跨越像素的信息,然后再將這個(gè)感興趣區(qū)域按實(shí)際應(yīng)用分成不同數(shù)量的小區(qū)域,但當(dāng)感興趣區(qū)域的長寬不是偶數(shù)時(shí),感興趣區(qū)域會(huì)被再一次進(jìn)行取整的相連像素,會(huì)使得分成的這些小區(qū)域大小不等,在每個(gè)小區(qū)域中進(jìn)行最大池化操作,這個(gè)操作過程中會(huì)引入兩次量化誤差,會(huì)對目標(biāo)的分割產(chǎn)生影響。在RoI Align中,采用的是雙線性插值的方法進(jìn)行采樣,使兩次跨像素的信息得以保留,在感興趣區(qū)域進(jìn)行均等的劃分。將主干網(wǎng)絡(luò)提取到P2~P6不同尺度特征層輸入RoI Align中時(shí),RoI Align會(huì)根據(jù)輸入感興趣區(qū)域的大小來決定在哪一個(gè)層上映射出來,具體可通過公式(1)計(jì)算[16]。
其中,k0代表不同尺度的特征層P2~P6所對應(yīng)的下標(biāo)。
x,y對應(yīng)感興趣區(qū)域的寬和高,最后將計(jì)算結(jié)果向下取整后得到k。
經(jīng)過RoI Align層后,會(huì)輸出特定維度大小的特征圖,然后經(jīng)過一次7×7的卷積和用于模擬1 024全連接的通道數(shù)為1 024的1×1卷積,然后再經(jīng)過全連接以后連接到分類和定位分支上。同時(shí)經(jīng)過RoI Align層輸出特定維度大小的特征圖,會(huì)進(jìn)行四次3×3的卷積,然后進(jìn)行一次反卷積,再進(jìn)行一次通道數(shù)為所要識別的類別個(gè)數(shù)的卷積,得到分割結(jié)果,完成了復(fù)用低層信息的Mask R-CNN網(wǎng)絡(luò)的檢測與分割功能。
本文采用自制數(shù)據(jù)集進(jìn)行訓(xùn)練,數(shù)據(jù)來源為貴陽市某醫(yī)院,選取1 064張下頜骨的CT圖像,CT圖像為dicom格式,該格式有患者的姓名、性別、年齡、造影時(shí)間等隱私信息,所占內(nèi)存資源也較大,且無法使用常見的圖像處理軟件打開和處理。所以首先將dicom格式轉(zhuǎn)為常見的jpg格式,即可隱去患者的隱私、減少內(nèi)存占用,也方便后續(xù)圖片的標(biāo)注和處理。將轉(zhuǎn)換格式后的圖片在專業(yè)醫(yī)生的指導(dǎo)下利用開源標(biāo)注工具Labelme進(jìn)行標(biāo)注,如圖7所示;并生成對應(yīng)的掩膜圖片,如圖8所示。最后將圖片按9∶1的比例分為訓(xùn)練集和驗(yàn)證集進(jìn)行訓(xùn)練。
圖7 下頜骨標(biāo)注圖Fig.7 Mandible annotation diagram
圖8 下頜骨掩膜圖Fig.8 Mandible mask
本實(shí)驗(yàn)使用的是開源學(xué)習(xí)框架TensorflowGPU和Keras,內(nèi)存16 GB,使用GPU加速,顯卡為NVIDIA GTX1650。原始Mask R-CNN網(wǎng)絡(luò)和改進(jìn)后的Mask R-CNN網(wǎng)絡(luò)的學(xué)習(xí)率都為0.000 01,建議框的非極大抑制值為0.7,非極大抑制后保留2 000個(gè)候選框,置信度為0.7,損失的比重設(shè)置為等比,每個(gè)世代的步長為1 000,迭代150個(gè)epoch。對于改進(jìn)的Mask R-CNN網(wǎng)絡(luò),其損失函數(shù)依舊是各個(gè)分支上的損失,損失比重設(shè)置為等比,意味著每個(gè)分支的重要性相同,如公式(2)所示[12]:
其中,Lcls代表分類分支的損失;Lbox代表定位分支的損失;Lmask代表分割分支的損失。
分類和定位損失計(jì)算公式如式(3),式(3)前半部分代表分類損失,后半部分代表定位損失或者邊界框回歸損失[11,17]。
輸入分割分支的圖像會(huì)經(jīng)過一系列卷積、反卷積操作后輸出總的類別數(shù)個(gè)特征圖,Lmask定義為平均二值交叉嫡損失函數(shù),其公式如式(7)所示。該函數(shù)會(huì)對每一個(gè)像素進(jìn)行分類,利用sigmoid函數(shù)進(jìn)行二分類,判斷是否為該類別。
其中,y表示二值化后的真實(shí)值;y?表示二值化后的預(yù)測值。
本實(shí)驗(yàn)利用自制的數(shù)據(jù)集分別在原始的Mask R-CNN網(wǎng)絡(luò)和改進(jìn)的Mask R-CNN網(wǎng)絡(luò)進(jìn)行訓(xùn)練,迭代150個(gè)epoch,統(tǒng)計(jì)每個(gè)epoch的總損失L,得到原始Mask R-CNN網(wǎng)絡(luò)的總損失變化曲線如圖9所示,復(fù)用依次卷積的C1層的Mask R-CNN網(wǎng)絡(luò)的總損失變化曲線如圖10所示,重用C1層的Mask R-CNN網(wǎng)絡(luò)的總損失變化曲線如圖11所示。
圖9 Mask R-CNN網(wǎng)絡(luò)損失Fig.9 Mask R-CNN network loss
圖10 復(fù)用依次卷積的C1層的Mask R-CNN網(wǎng)絡(luò)損失Fig.10 Reuse Mask R-CNN network loss of C1 layer of sequential convolution
圖11 復(fù)用C1層的Mask R-CNN網(wǎng)絡(luò)損失Fig.11 Reuse Mask R-CNN network loss of C1 layer
紅色的曲線代表訓(xùn)練集損失,黑色的代表驗(yàn)證集損失;三個(gè)網(wǎng)絡(luò)的總損失都會(huì)在前20個(gè)epoch急劇下降至10%以內(nèi),說明利用了Mask R-CNN網(wǎng)絡(luò)對下頜骨CT圖像進(jìn)行識別與分割具有很高的可行性。原始網(wǎng)絡(luò)訓(xùn)練集的總損失最低可降至3.3%;測試集總損失最低為6.9%,驗(yàn)證損失變化不太穩(wěn)定,波動(dòng)較大;后20個(gè)epoch的平均損失訓(xùn)練集為3.3%,驗(yàn)證集為10.4%。復(fù)用依次卷積的C1層的Mask R-CNN網(wǎng)絡(luò)的總損失最低可降至2.8%;測試集總損失最低為6.6%,但驗(yàn)證損失變化較為穩(wěn)定,波動(dòng)平緩;后20個(gè)epoch的平均損失訓(xùn)練集為2.9%;驗(yàn)證集為10.2%。復(fù)用C1層的Mask R-CNN網(wǎng)絡(luò)的總損失最低可降至3.2%;測試集總損失最低為7.4%,相對于復(fù)用依次卷積的C1層的Mask R-CNN網(wǎng)絡(luò)的驗(yàn)證損失來說,驗(yàn)證損失波動(dòng)較大;后20個(gè)epoch的平均損失訓(xùn)練集為3.4%,驗(yàn)證集為10.3%。以及各網(wǎng)絡(luò)的參數(shù)量、訓(xùn)練時(shí)間如表1所示。
表1 各網(wǎng)絡(luò)部分指標(biāo)對比Table 1 Comparison of various network indicators
文中因?qū)W(wǎng)絡(luò)層數(shù)進(jìn)行了縮減,使得改進(jìn)的復(fù)用依次卷積的C1層的Mask R-CNN網(wǎng)絡(luò)的總參數(shù)量為42 343 070個(gè),改進(jìn)后復(fù)用C1層的Mask R-CNN網(wǎng)絡(luò)的總參數(shù)量為41 458 334個(gè),均約為原始Mask R-CNN網(wǎng)絡(luò)總參數(shù)量的2/3。并在迭代150個(gè)epoch后,改進(jìn)Mask R-CNN網(wǎng)絡(luò)訓(xùn)練耗時(shí)也為原始Mask R-CNN網(wǎng)絡(luò)70%左右。將具有較多細(xì)節(jié)特征的C1層與其他特征層相融合,很多的特征被網(wǎng)絡(luò)利用,使得訓(xùn)練損失和驗(yàn)證損失均低于原始Mask R-CNN網(wǎng)絡(luò),并從驗(yàn)證損失曲線也可看出,與原始Mask R-CNN網(wǎng)絡(luò)相比,復(fù)用依次卷積的C1層的Mask R-CNN網(wǎng)絡(luò)和驗(yàn)證損失變化更加平穩(wěn),穩(wěn)定性更強(qiáng)。為了驗(yàn)證本文中提出改進(jìn)Mask R-CNN網(wǎng)絡(luò)層數(shù)設(shè)置的合理性和算法的性能,將復(fù)用依次卷積的C1層的Mask R-CNN網(wǎng)絡(luò)與利用Resnet101作為主干特征提取網(wǎng)絡(luò)的Mask R-CNN網(wǎng)絡(luò)進(jìn)行比較。其中,Resnet101指主干特征提取網(wǎng)絡(luò)有101層,文中改進(jìn)的Mask R-CNN網(wǎng)絡(luò)層數(shù)為38層,將兩者對相同的下頜骨CT圖像分割效果如圖12所示。
圖12 不同分割方法對比Fig.12 Comparison of different segmentation methods
如圖12(a)所示,針對不同解剖結(jié)構(gòu)和不同成像質(zhì)量的下頜骨CT圖像,復(fù)用依次卷積C1層的Mask R-CNN網(wǎng)絡(luò)都能有效地進(jìn)行分割。與原始的Mask R-CNN網(wǎng)絡(luò)進(jìn)行對比如圖12(c)、(d)所示,改進(jìn)后的網(wǎng)絡(luò)不存在過分割問題。其原因就是采用了較少層數(shù)的主干特征提取網(wǎng)絡(luò),在下頜骨CT圖像的識別與分割中有效地防止了過擬合的發(fā)生。由于提高了低層信息的利用率,使得改進(jìn)后的網(wǎng)絡(luò)在兩突部分的識別,也就是小目標(biāo)的識別中更具優(yōu)勢,如圖12中的第三列所示,復(fù)用依次卷積C1層的Mask R-CNN網(wǎng)絡(luò)的分割效果更接近專家手工分割的結(jié)果。并在本次所使用的實(shí)驗(yàn)平臺(tái)上,對一張下頜骨CT圖像的識別與分割的耗時(shí)中發(fā)現(xiàn),原始Mask R-CNN網(wǎng)絡(luò)的耗時(shí)為0.56 s~0.74 s,復(fù)用依次卷積C1層的Mask R-CNN網(wǎng)絡(luò)的耗時(shí)為0.41 s~0.63 s,體現(xiàn)了改進(jìn)網(wǎng)絡(luò)的性能。所以選擇該復(fù)用依次卷積C1層的Mask R-CNN網(wǎng)絡(luò)對人體下頜骨識別并分割進(jìn)行更多的測試,測試結(jié)果如圖13所示。可得出即使在目標(biāo)區(qū)域和不同背景條件下:如圖13中第一排第一列中的兩突部位的灰度值與背景有較大的差別,而圖13中第一排第三列下頜支部位的灰度值與背景容易混淆,甚至肉眼較難分辨,但因提出的復(fù)用依次卷積C1層的Mask R-CNN網(wǎng)絡(luò)提升了對圖像細(xì)節(jié)信息的利用率,仍能有效地進(jìn)行識別與分割。再如圖13中第二排第四列中的頦結(jié)節(jié)CT圖像,該CT圖像是由口腔CT設(shè)備掃描成像,與其他CT圖像的成像設(shè)備明顯不同,但依然可以有效地識別與分割,并有很高的正確率。
圖13 復(fù)用依次卷積C1層的Mask R-CNN下頜骨分割效果圖Fig.13 Mask R-CNN segmentation effect diagram of C1 layer that reuses sequential convolution
本文提出了復(fù)用低層特性信息的Mask R-CNN網(wǎng)絡(luò),該網(wǎng)絡(luò)將主干網(wǎng)絡(luò)的層數(shù)進(jìn)行精簡,有效地減少了參數(shù)量,降低了運(yùn)算成本和時(shí)間成本,同時(shí)將低層特性融合到高層特征中,增加了特征金字塔的融合能力,并實(shí)驗(yàn)兩種不同的復(fù)用低層特性的方式,選擇使用復(fù)用依次卷積的C1層的Mask R-CNN網(wǎng)絡(luò)對人體下頜骨進(jìn)行識別與分割,用自建的1 064張下頜骨CT圖片訓(xùn)練,較原始的Mask R-CNN網(wǎng)絡(luò)在訓(xùn)練損失、驗(yàn)證損失、訓(xùn)練耗時(shí)上均獲得了提升。該網(wǎng)絡(luò)的應(yīng)用不僅局限于下頜骨的識別與分割,同時(shí)為處理其他器官或者病變區(qū)域擴(kuò)寬了思路,根據(jù)所需提取組織結(jié)構(gòu)的生理特性,加以實(shí)驗(yàn)確定所需堆疊的殘差塊的個(gè)數(shù),就可靈活地構(gòu)造適合于提取某特定組織器官的主干網(wǎng)絡(luò),對于實(shí)現(xiàn)更快更準(zhǔn)地提取組織結(jié)構(gòu),檢測病變具有重要意義。但該網(wǎng)絡(luò)在分割邊界光滑程度還有提高的空間,同時(shí)下一步將針對識別并分割出的器官CT圖像進(jìn)行三維建模方面的研究。