吳培德 李波,2 姚為,2 李鑫 程立,2
1.中南民族大學(xué)計(jì)算機(jī)科學(xué)學(xué)院;2.國(guó)家民委信息物理融合智能計(jì)算重點(diǎn)實(shí)驗(yàn)室
城市地下管道是城市的重要基礎(chǔ)設(shè)施,對(duì)地下管道的定期檢測(cè)是一項(xiàng)重要工作,關(guān)系到城市的正常運(yùn)行。文章針對(duì)目前地下管道缺陷檢測(cè)中的問(wèn)題,提出了一種DeformMobileViT 分類模型,將可變形卷積網(wǎng)絡(luò)與MobileViT 結(jié)合,并基于遷移學(xué)習(xí)訓(xùn)練建模,從管道設(shè)備獲取的地下管道圖像樣本中,判別出可能存在各類缺陷的樣本。實(shí)驗(yàn)結(jié)果表明,本文提出的模型F1normal 分?jǐn)?shù)達(dá)到94.15%。本文工作可以有效降低人工檢測(cè)的工作量,并提高檢測(cè)精度,具有良好的應(yīng)用價(jià)值。
隨著城市化發(fā)展,地下管道負(fù)荷越來(lái)越大,不僅容易出現(xiàn)管道開(kāi)裂、變形、腐蝕、有沉積物等缺陷,而且容易造成城市內(nèi)澇,道路坍塌等事故,對(duì)其進(jìn)行缺陷檢測(cè)非常重要。地下管道缺陷一般需要由專業(yè)人員來(lái)辨別。然而,人工判斷過(guò)程需要大量專業(yè)檢查人員和時(shí)間,并且直接到地下管道中檢測(cè)非常不安全[1]。目前有很多學(xué)者已經(jīng)在基于深度學(xué)習(xí)的地下管道缺陷檢測(cè)領(lǐng)域做了很多相關(guān)工作,也取得了許多成果。例如,在2019 年,Hassan 等人提出基于對(duì)AlexNet 進(jìn)行變換學(xué)習(xí)的模型,該模型能夠識(shí)別6 種主要的裂紋類型[2]。Xie 等人使用了兩級(jí)分層的深度CNN 模型,在多個(gè)基準(zhǔn)數(shù)據(jù)集上獲得了超過(guò)94%的分類準(zhǔn)確率[3]。2021 年,奧爾堡大學(xué)(AAU)在地下管道缺陷的研究中基于數(shù)據(jù)集SewerML[4],使用12 種來(lái)自多標(biāo)簽分類和地下管道自動(dòng)檢測(cè)領(lǐng)域的模型進(jìn)行了評(píng)估,使用Xie 的兩級(jí)模型方法在其他模型上實(shí)驗(yàn)得到自己的基準(zhǔn)算法,F(xiàn)2CIW 得分為55.11%,F(xiàn)1normal 分?jǐn)?shù)為91.8%[4]。目前的研究中,只有Xie 的研究中有地下管道異常樣本判別,且是作為第一階段網(wǎng)絡(luò)的工作,并通過(guò)凍結(jié)卷積層的參數(shù)和微調(diào)全連接層來(lái)實(shí)現(xiàn)第一階段學(xué)習(xí)到的參數(shù)轉(zhuǎn)移到多分類模型中。
在地下管道異常缺陷檢測(cè)研究中,目前傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)模型是提取圖像特征最主要的方法,但是卷積神經(jīng)網(wǎng)絡(luò)的卷積核大小是固定的,這使得它只能局部地提取圖像特征,需要通過(guò)多層疊加才能獲取更高級(jí)別的特征信息,然而這也容易導(dǎo)致梯度消失和梯度爆炸問(wèn)題。使用殘差連接優(yōu)化的網(wǎng)絡(luò),雖然能一定程度上優(yōu)化這個(gè)問(wèn)題,但是網(wǎng)絡(luò)越深需要的資源就越多,不便于部署于移動(dòng)設(shè)備中。
本文是基于上述問(wèn)題對(duì)MobileViT 模型進(jìn)行研究,在本文研究中,將地下管道的各種異常缺陷統(tǒng)稱為缺陷樣本,本研究將存在缺陷的樣本檢測(cè)出后,交由專業(yè)人員進(jìn)行進(jìn)一步復(fù)核,目前不對(duì)具體的缺陷類型進(jìn)行判別。
可變形卷積(Deformable Convolution)[5]即卷積位置可以進(jìn)行變形。與傳統(tǒng)卷積不同,傳統(tǒng)卷積只對(duì)N×N個(gè)網(wǎng)格進(jìn)行卷積,這種方式可能會(huì)忽略掉一些重要的特征。相比之下,可變形卷積可以更加準(zhǔn)確地提取所需的特征,因?yàn)樗皇芫匦慰虻南拗?。在滑?dòng)采樣時(shí),一般會(huì)在卷積核上均勻采樣一些點(diǎn),并根據(jù)學(xué)習(xí)到的偏移量來(lái)計(jì)算采樣點(diǎn)在輸入特征圖上的位置。具體地,可以將輸入特征圖上的每個(gè)像素看作一個(gè)坐標(biāo)點(diǎn),然后在卷積核上均勻采樣一些點(diǎn),再通過(guò)學(xué)習(xí)到的偏移量將這些采樣點(diǎn)映射到輸入特征圖上。這樣,在進(jìn)行卷積操作時(shí),每個(gè)采樣點(diǎn)就可以根據(jù)自己的位置對(duì)應(yīng)到輸入特征圖上的不同像素,從而實(shí)現(xiàn)可變形卷積的自適應(yīng)形狀采樣[5]。
需要注意的是,由于采樣點(diǎn)的位置是通過(guò)學(xué)習(xí)得到的,因此在可變形卷積的訓(xùn)練過(guò)程中,需要額外學(xué)習(xí)偏移量參數(shù)。這些參數(shù)的學(xué)習(xí)可以通過(guò)反向傳播算法來(lái)進(jìn)行,從而使采樣點(diǎn)能夠自適應(yīng)地學(xué)習(xí)到最優(yōu)的位置,以便更好地適應(yīng)輸入特征圖的變化。
MobileViT 模型的主要構(gòu)成是MobileNetV2 模塊和MobileViT 模塊,其中MobileViT 模塊可以被看作是一種將卷積操作和Transformer 相結(jié)合的特征提取模塊。MobileViT 模塊主要由局部特征提取模塊、全局特征提取模塊以及特征融合模塊三部分組成,通過(guò)多個(gè)Transformer的堆疊,從輸入圖像中提取全局和局部特征。
MV2 模塊的核心部分是借鑒了逆殘差(Inverted Residuals)的思想,包括一個(gè)擴(kuò)展層、深度可分離卷積層和線性投影層。該模塊的設(shè)計(jì)旨在提高神經(jīng)網(wǎng)絡(luò)的非線性表達(dá)能力,并通過(guò)減少計(jì)算量和參數(shù)數(shù)量來(lái)實(shí)現(xiàn)更好的性能。
為了分辨出圖像中管道缺陷輪廓像素,本文提出的DeformMobileViT 在MobileViT 網(wǎng)絡(luò)中加入可變形卷積層,DeformMobileViT 結(jié)構(gòu)如圖1 所示。
圖1 DeformMobileViT 模型結(jié)構(gòu),圖中紅色虛線框中為本文加入的可變形卷積層Fig.1 DeformMobileViT model structure, in which the deformable convolution layer added in this paper is shown in the red dotted box
可變形卷積層(Deformable Convolution)[5]通過(guò)引入偏移量,增大感受野,同時(shí)使感受野可以適應(yīng)不同尺寸、形狀的管道缺陷輪廓,使模型實(shí)現(xiàn)更好的分類效果。將MobileViT 網(wǎng)絡(luò)的第1 階段和最后階段的卷積調(diào)整為可變形卷積,而中間階段保留為標(biāo)準(zhǔn)卷積層,以減小引入可變形卷積帶來(lái)的網(wǎng)絡(luò)參數(shù)量的增加對(duì)網(wǎng)絡(luò)負(fù)荷的影響。
因?yàn)闇\的網(wǎng)絡(luò)層寬度與高度較大,有一個(gè)比較大的視野才能更全面地提取缺陷的特征,并且提取到的信息會(huì)一直前向傳播,所以第一層網(wǎng)絡(luò)可以提取到更好的特征很重要;最后一層卷積輸出進(jìn)行全局池化后進(jìn)行全連接輸出Logits,也有著十分重要的作用,于是本文將MobileViT 模型中第一塊和分類器前的卷積網(wǎng)絡(luò)替換為可變形卷積。中間階段保留為標(biāo)準(zhǔn)卷積層,是為了減小引入可變形卷積層增加的網(wǎng)絡(luò)參數(shù)量對(duì)網(wǎng)絡(luò)的負(fù)荷所產(chǎn)生的影響。這樣的設(shè)計(jì)可以在保持較小的計(jì)算代價(jià)的同時(shí),進(jìn)一步提高網(wǎng)絡(luò)的性能。
本文基于公開(kāi)數(shù)據(jù)集SewerML 進(jìn)行實(shí)驗(yàn)。
數(shù)據(jù)集Sewer-ML 中有超過(guò)130 萬(wàn)張地下管道圖片,本章選擇13004 樣本作為研究對(duì)象,按照訓(xùn)練集、驗(yàn)證集、測(cè)試集劃分進(jìn)行訓(xùn)練、驗(yàn)證及測(cè)試,其比例接近7:1.5:1.5,如表1 所示。
表1 數(shù)據(jù)集劃分Tab.1 Data set partitioning
為提高模型的泛化性,一般要對(duì)訓(xùn)練數(shù)據(jù)做增強(qiáng)處理。本文通過(guò)將圖像大小調(diào)整為224×224,以50%的概率水平翻轉(zhuǎn),將亮度、對(duì)比度、飽和度和色調(diào)抖動(dòng)為原始值的±10%,使用訓(xùn)練分割通道平均值和標(biāo)準(zhǔn)偏差對(duì)數(shù)據(jù)進(jìn)行歸一化,并對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行預(yù)處理。
在本研究中,我們使用了基于GPU 的服務(wù)器作為實(shí)驗(yàn)環(huán)境,并在服務(wù)器上安裝了Pytorch 深度學(xué)習(xí)框架。Python是我們主要采用的編程語(yǔ)言。處理器為Intel (R) Xeon(R)CPU E5-2630 v4@2.20GHz,GPU 為NVIDIA Tesla P40 24GB。模型訓(xùn)練參數(shù)設(shè)置Epochs 為50,BatchSize為32,優(yōu)化器選擇SDG,損失函數(shù)使用Focal loss 函數(shù)。
FLOPs 表示模型計(jì)算量,精確度相同情況下,一般計(jì)算量越小越好,更小的計(jì)算量代表消耗更少的計(jì)算資源。Param 表示模型參數(shù)總量,參數(shù)一般也是越小越好;精度使用F1score、Accaury(準(zhǔn)確率)及AP 進(jìn)行評(píng)價(jià)。
如表2 所示,可以看出與傳統(tǒng)的CNN 神經(jīng)網(wǎng)絡(luò)相比,將CNN 與Transformer 結(jié)合的MobileViT 網(wǎng)絡(luò)具有明顯的優(yōu)勢(shì)。在通用數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練之后,該網(wǎng)絡(luò)在更輕量化的情況下比一般的CNN 網(wǎng)絡(luò)具有更高的準(zhǔn)確率。Hasson2019 使用的是AlexNet 網(wǎng)絡(luò),鑒于當(dāng)時(shí)的硬件資源限制,其結(jié)構(gòu)復(fù)雜、參數(shù)很龐大,達(dá)到217M,精度相較后面提出的ResNet 網(wǎng)絡(luò)系列和DenseNet 較低,精確度僅達(dá)到78.76%,F(xiàn)1normal 有82.19%[6]。
表2 缺陷分類實(shí)驗(yàn)結(jié)果對(duì)比Tab.2 Comparison of experimental results of defect classification
Xie 等人使用的兩級(jí)分層的深度CNN 模型,準(zhǔn)確度有85.14%。MobileViT 參數(shù)量?jī)H有7.52M,計(jì)算量指標(biāo)FLOPs 也僅有0.71G,相比卷積網(wǎng)絡(luò)模型相對(duì)輕量。
MobileViT 將參數(shù)轉(zhuǎn)移學(xué)習(xí)后,精確度、F1 及AP值分別提升了3.22%、2.89%和3.42%。MobileViT 引入兩個(gè)卷積網(wǎng)絡(luò)后,構(gòu)建為DeformMobileViT 模型,計(jì)算量指標(biāo)FLOPs 增加了0.02G 也就是20M,參數(shù)量增加了1.19M。遷移學(xué)習(xí)后的DeformMobileViT 模型相比遷移學(xué)習(xí)后的MobileViT 模型精確率和F1 得分均提高了2.7%和3.57%,最后精確度達(dá)到91.44%,F(xiàn)1 值達(dá)到94.15%,AP為90.72%。
本文將輕量、準(zhǔn)確率高的模型MobileViT,與可變形卷積網(wǎng)絡(luò)結(jié)合,設(shè)計(jì)的DeformMobileViT 分類模型,能更加準(zhǔn)確地提取特征,從而在分類表現(xiàn)上有顯著提升。相比于原始模型,DeformMobileViT 在準(zhǔn)確率上提升了2.7%,F(xiàn)1normal 分?jǐn)?shù)提升了3.57%。