張 錚,錢勤建,周嘉政,柯子鵬,胡新宇
(湖北工業(yè)大學(xué) 機(jī)械工程學(xué)院,湖北 武漢 430068)
裂縫作用于表面,在一定程度上反應(yīng)了混凝土結(jié)構(gòu)性態(tài)。表面裂縫檢測(cè)是監(jiān)測(cè)混凝土結(jié)構(gòu)健康的一項(xiàng)重要任務(wù),對(duì)基礎(chǔ)設(shè)施的可靠性維護(hù)起著重要的作用[1]。若不及時(shí)采用適當(dāng)?shù)木S護(hù)方式來檢測(cè)會(huì)造成嚴(yán)重的后果,因此對(duì)于裂縫檢測(cè)方法的研究具有極為重要的意義[2]。裂縫圖像的像素亮度一般相對(duì)背景較低,其形狀具有明顯的邊緣特征,因此在傳統(tǒng)圖像處理領(lǐng)域,閾值分割、形態(tài)學(xué)、邊緣提取等算法被廣泛采用,但該類算法通常易受復(fù)雜背景噪聲的影響,且對(duì)于細(xì)小、網(wǎng)狀裂縫檢測(cè)效果比較差[3]。
近幾年來,受益于深度學(xué)習(xí)的快速發(fā)展,裂縫圖像分割已成為計(jì)算機(jī)視覺下游任務(wù)中的熱點(diǎn)。大量基于深度卷積神經(jīng)網(wǎng)絡(luò)的語義分割算法被廣泛應(yīng)用于裂縫檢測(cè)[4]?,F(xiàn)有的裂縫圖像語義分割算法主要有2 種結(jié)構(gòu)。第1 種為級(jí)聯(lián)結(jié)構(gòu),DUNG等[5]利用全卷積網(wǎng)絡(luò)(fully convolutional network,FCN)實(shí)現(xiàn)了來自混凝土試樣的循環(huán)加載測(cè)試視頻幀的裂縫圖像的像素級(jí)裂縫檢測(cè),此方法缺乏像素分類的一致性??紤]到由于最大池化下采樣操作造成的空間信息丟失等問題,REN 等[6]提出一種CrackSegNet 裂縫分割網(wǎng)絡(luò),一方面,網(wǎng)絡(luò)采用膨脹卷積限制了圖像下采樣倍數(shù)為1/8,由此獲得細(xì)節(jié)信息和語義信息相對(duì)較好的中等水平特征圖;另一方面,網(wǎng)絡(luò)引入了SPP(spatial pyramid pooling)模塊[7]用于多尺度上下文信息的融合;在保留更多的空間信息的同時(shí)進(jìn)一步增大了感受野。裂縫圖像具有邊界模糊、梯度復(fù)雜、語義信息相對(duì)簡(jiǎn)單的特點(diǎn),跟醫(yī)學(xué)細(xì)胞分割有一定的相似性,受醫(yī)學(xué)領(lǐng)域所提的U-Net 模型的啟發(fā),第2 種網(wǎng)絡(luò)采用U 型的Encode-Decode 結(jié)構(gòu)。LIU 等[8]提出了一種基于U-Net 的裂縫分割網(wǎng)絡(luò),與FCN 相比具有更好的高效性和魯棒性。HOU 等[9]提出了基于Res-Net 的U-Net 裂縫分割網(wǎng)絡(luò),優(yōu)化了模型退化的問題。受NLP(natural language processing)領(lǐng)域的影響,自注意力機(jī)制被廣泛應(yīng)用。級(jí)聯(lián)結(jié)構(gòu)中,李良福[10]等提出的基于PSPNet 改進(jìn)的裂縫分割網(wǎng)絡(luò),考慮到各像素之間的關(guān)系,引入空間位置自注意力模塊關(guān)聯(lián)全局上下文信息,但空間注意力的建模引入了很大的計(jì)算成本。U 型的Encode-Decode結(jié)構(gòu)中,LAU[11]等在U-Net 中同時(shí)建立通道注意力機(jī)制和空間位置自注意力機(jī)制,追求精度的同時(shí)嚴(yán)重忽略了檢測(cè)速度,實(shí)際應(yīng)用價(jià)值不高。
在現(xiàn)有的主流裂縫語義分割網(wǎng)絡(luò)模型中,無論是級(jí)聯(lián)結(jié)構(gòu)還是U 型Encode-Decode 結(jié)構(gòu),都普遍缺乏對(duì)裂縫圖像分割算法實(shí)時(shí)性的關(guān)注。裂縫圖像分割是單目標(biāo)分割任務(wù),圖像固有語義信息不像場(chǎng)景分割那樣豐富,設(shè)置過多的通道數(shù)不但增加了模型的計(jì)算成本,而且視覺信息容易出現(xiàn)高度冗余。U 型Encode-Decode 結(jié)構(gòu)中的跳躍連接使得裂縫邊緣、形狀、顏色等低級(jí)特征能很好地與具有高度像素分類一致性的高級(jí)特征進(jìn)行多尺度融合,但是多個(gè)跳躍連接意味著在模型推理的時(shí)候需要更多的顯存和計(jì)算時(shí)間。自注意力機(jī)制能夠彌補(bǔ)卷積捕獲長距離間相互作用的能力[12],但是注意力機(jī)制的建模會(huì)引入較多參數(shù)量和計(jì)算成本。Fast-SCNN[13]是一種雙分支結(jié)構(gòu)共享低級(jí)特征的實(shí)時(shí)語義分割模型,深淺分支共用淺層網(wǎng)絡(luò)的低級(jí)特征能夠進(jìn)一步精簡(jiǎn)網(wǎng)絡(luò)結(jié)構(gòu),單個(gè)跳躍連接的不同尺度融合方式能減少推理速度,在一定程度綜合了上述2 種主流的裂縫分割模型的優(yōu)點(diǎn)。然而,對(duì)于裂縫圖像分割這類單目標(biāo)分割任務(wù),F(xiàn)ast-SCNN 深分支中的SPP 模塊效果并不顯著,存在像素位置信息丟失且自身計(jì)算量大等問題。此外,F(xiàn)ast-SCNN 中所采用的上采樣方式未考慮全局信息的交互,未能提供精確的像素級(jí)別的注意力,會(huì)影響裂縫分割精度和魯棒性。針對(duì)兩種主流模型及Fast-SCNN 的不足,本文提出了一種基于改進(jìn)Fast-SCNN 的裂縫圖像實(shí)時(shí)分割算法,在Fast-SCNN 基礎(chǔ)上用一種輕量級(jí)的特征金字塔注意力模塊代替SPP 模塊,還提出了一種用于上采樣的輕量級(jí)的位置自注意力模塊,以注意力門的方式融合雙分支的輸出特征,有效地解決了細(xì)小裂縫檢測(cè)缺失、不連續(xù)等問題,進(jìn)一步提高了復(fù)雜背景裂縫檢測(cè)的魯棒性。最后,通過實(shí)驗(yàn)證明本文所提算法在一定程度上平衡了裂縫圖像分割精度和檢測(cè)速度,具有較高的裂縫檢測(cè)實(shí)際工程應(yīng)用價(jià)值。
Fast-SCNN[13]的雙分支結(jié)構(gòu)可以看作是級(jí)聯(lián)和U 型Encode-Decode 兩種主流結(jié)構(gòu)的優(yōu)化。圖1(a)為原始Fast-SCNN 的網(wǎng)絡(luò)總體結(jié)構(gòu)。本文所提算法是在Fast-SCNN 基礎(chǔ)上改進(jìn)的,改進(jìn)后的網(wǎng)絡(luò)總體結(jié)構(gòu)如圖1(b)所示。
改進(jìn)后的Fast-SCNN 的輕量級(jí)下采樣模塊(lightweight down-sample)與Fast-SCNN 相同。該模塊對(duì)于裂縫圖像特征提取具有高效性,其主要是采用深度可分離卷積(depthwise separable convolution,DSConv)[14]和壓縮特征圖通道數(shù)來減少參數(shù)量和計(jì)算量,其中深度DSConv 由DW 卷積(depthwise,DW)與點(diǎn)卷積(pointwise,PW)組成。輕量級(jí)的下采樣模塊執(zhí)行1 次標(biāo)準(zhǔn)卷積(Conv)和2 次DSConv,它們的步距都為2,卷積核大小為3×3,然后采用批歸一化(batch normalization)[15]使得每層輸入符合一定的數(shù)據(jù)分布,最后通過ReLu6 激活輸出結(jié)果。
1.2.1 雙分支設(shè)計(jì)方式
將1.1 節(jié)輕量級(jí)下采樣模塊的輸出作為共享特征圖,其優(yōu)點(diǎn)是在保留細(xì)節(jié)信息的同時(shí)學(xué)習(xí)到了輸入圖像的高維空間表征,進(jìn)而在共享特征圖基礎(chǔ)上引出深淺雙分支[13]。Fast-SCNN 淺分支能夠用于學(xué)習(xí)空間細(xì)節(jié)信息,保留中等分辨率的特征圖。深分支的前部分是一個(gè)全局特征提取模塊(global feature extraction),能夠獲得足夠低分辨的特征圖,學(xué)習(xí)具有豐富語義的全局上下文信息。全局特征提取模塊由一系列Bottleneck[14]堆疊而成。圖2(a)、圖2(b)分別展示了步距為1 和2 時(shí)的Bottleneck。深分支的后部分是一個(gè)上采樣模塊,上采樣的目的在于使深分支最終生成的輸出特征圖與淺分支的輸出通過跳躍連接(skip connection)特征融合。
圖2 不同步距的BottleneckFig.2 Schematic of bottleneck with different step distances
1.2.2 輕量級(jí)特征金字塔注意力模塊
Fast-SCNN 深分支的全局特征提取模塊中的SPP 模塊如圖3(a)所示,該模塊用于提取不同尺度的特征信息和增大感受野[10]。SPP 對(duì)多目標(biāo)分割更有效果,而裂縫圖像分割僅是單目標(biāo)分割任務(wù),且該模塊中不同尺度的池化方式會(huì)造成像素位置信息的丟失且自身的計(jì)算量大[11-14]。針對(duì)SPP 的不足,提出了一種輕量級(jí)的特征金字塔注意力模塊(lightweight feature pyramid attention,LFPA),提供更為精確的像素級(jí)別的注意力和精準(zhǔn)分割定位依據(jù),如圖3(b)所示,該模塊分別采用3×3、5×5、7×7 的DW 卷積構(gòu)成特征金字塔結(jié)構(gòu)。特征金字塔結(jié)構(gòu)中的DW 卷積步距都為2,它以分步的方式融合不同尺度的信息,聚合更多精準(zhǔn)的定位信息。此外,該模塊還插入了一個(gè)全局平均池化分支,用于增強(qiáng)全局上下文信息。SPP 與LFPA 都能捕獲多尺度上下文信息,但是LFPA 能產(chǎn)生像素級(jí)別的注意力,提升分割的準(zhǔn)確性。在計(jì)算量方面,相比于SPP 減少了約42%,進(jìn)一步輕量化了多尺度特征融合模塊所需的計(jì)算量。
圖3 兩種多尺度特征融合方式對(duì)比Fig.3 Comparison of two multi-scale feature fusion methods
1.2.3 輕量級(jí)位置自注意力模塊
標(biāo)準(zhǔn)位置自注意力模塊用于捕獲任意兩個(gè)像素之間的空間依賴關(guān)系,學(xué)習(xí)像素之間的特征相似性[10-12]。如圖4(a)所示,它采用查詢-鍵-值(querykey-value,QKV)模式來動(dòng)態(tài)地生成不同位置之間的相似性權(quán)重。上采樣如插值、反卷積等都沒有充分考慮全局上下文語義信息,容易造成像素分類錯(cuò)誤,影響檢測(cè)精度[5-9]。因此,本文提出了一種用于上采樣的輕量級(jí)位置自注意力模塊(lightweight position attention block,LPAB)。如圖4(b)所示,該模塊以短徑連接的方式豐富全局上下文信息,使得上采樣過程中任何兩個(gè)具有相似特征的位置可以相互促進(jìn),且無關(guān)其空間維度上的距離。本文改進(jìn)的Fast-SCNN 上采樣模塊與Fast-SCNN 直接采用4 倍插值上采樣的方式不同,改進(jìn)后的深分支改為兩次分步LPAB 進(jìn)行上采樣,分步上采樣可使恢復(fù)邊緣信息更加精細(xì)。
圖4 位置注意力和LPAB 插入方式Fig.4 Schematic of position attention and LPAB insertion method
用于上采樣的輕量級(jí)位置注意力模塊如圖5所示,假定輸入特征圖的分辨率為X∈RC×H×W,其中C、H和W分別代表特征圖通道數(shù)、空間高度和寬度。如式(1),輸入特征圖由一個(gè)3×3的步距為2 的反卷積Wq和兩個(gè)1×1的步距為1 的標(biāo)準(zhǔn)卷積Wk、Wv線性變換[16]得到。其中C^代表每個(gè)位置像素點(diǎn)映射得到的高維向量的空間維度,在本文中,其線性變化過程表示為
圖5 輕量級(jí)位置注意力模塊Fig.5 Schematic of lightweight position attention module
圖4(a)標(biāo)準(zhǔn)位置注意力模塊中K、V的空間分辨率是相同的,其計(jì)算量在一定程度上與K、V的空間高度和寬度的平方正相關(guān)。該模塊的矩陣計(jì)算量[17]可以表示為
式中:N=H×W;matrix表示矩陣運(yùn)算。
由于標(biāo)準(zhǔn)位置注意力模塊的計(jì)算復(fù)雜度是O(H2W2),如式(3)所示,采用標(biāo)準(zhǔn)位置注意力模塊上采樣時(shí)將引入很大一部分計(jì)算量。因此本文提出了一種輕量級(jí)的位置注意力模塊用于上采樣,在上采樣過程中考慮到了全局信息的同時(shí),進(jìn)一步減少了標(biāo)準(zhǔn)位置注意力模塊的計(jì)算量。本文LPAB 將兩個(gè)1×1卷積線性變化后的K、V進(jìn)行最大池化,由此提取有利于上采樣的語義信息,減少自相關(guān)矩陣的冗余相似度以及整個(gè)標(biāo)準(zhǔn)位置注意力模塊的計(jì)算量。輕量化后的位置注意力模塊矩陣計(jì)算量為式(4):
式中:S代表最大池化的卷積核大小,本文取7。
例如第1 個(gè)上采樣LPAB 模型,輸入特征圖的大小為16×16×128 像素,由式(3)可得約為0.033 5 G,而由式(4)可得FLOPs約為0.000 6 G,所以輕量化后的位置注意力模塊相比原來降低了49 倍。
1.2.4 跳躍連接
網(wǎng)絡(luò)的跳躍連接是一個(gè)具有單跳躍鏈接性質(zhì)的注意力門,由共享特征層引出得到的深分支的輸出特征圖以及淺分支得到的輸出特征圖,通過注意力門(attention gate,AG)[18]進(jìn)行特征融合。AG是一種軟注意力,它會(huì)動(dòng)態(tài)隱式生成軟區(qū)域建議,并突出對(duì)特定任務(wù)有用的顯著特征。圖6 為可視化網(wǎng)絡(luò)訓(xùn)練過程中不同輪數(shù)的注意力門響應(yīng)圖。不難發(fā)現(xiàn),網(wǎng)絡(luò)隨著訓(xùn)練輪數(shù)的迭代,突顯了待檢測(cè)分割的裂縫相關(guān)區(qū)域的同時(shí),抑制了背景等非裂縫區(qū)域的特征響應(yīng),驗(yàn)證了本文雙分支輕量級(jí)的淺分支與深分支以注意力門的方式進(jìn)行特征融合的有效性。
圖6 注意力門響應(yīng)圖可視化Fig.6 Visualization of attention gate response images
所提算法訓(xùn)練的實(shí)驗(yàn)硬件配置如下:NVIDIA GeForce GTX 2080ti GPU(11G),Intel(R) Xeon(R)Platinum 8255C CPU @ 2.50GH,45GB RAM。操作系統(tǒng)為Ubuntu20.04 LTS,編程語言為 Python3.8,深度學(xué)習(xí)框架采用Pytorch1.10.0。
數(shù)據(jù)集總共約1 400 張,由數(shù)碼單反相機(jī)采集。數(shù)據(jù)集中的裂縫圖像來自于橋梁、道路、隧道和建筑物等混凝土結(jié)構(gòu)基礎(chǔ)設(shè)施,所有裂縫圖像都是通過LabelMe 軟件進(jìn)行人為標(biāo)注的。即使全卷積網(wǎng)絡(luò)的輸入圖像可以為任意分辨率,為保證GPU 的合理利用和模型便于訓(xùn)練,將所采集的裂縫圖像分辨率統(tǒng)一裁剪為512×512像素。原始圖像數(shù)據(jù)集采用隨機(jī)水平翻轉(zhuǎn)、隨機(jī)垂直翻轉(zhuǎn)和隨機(jī)縮放裁剪這3 種數(shù)據(jù)增強(qiáng)的方式來擴(kuò)充原始數(shù)據(jù)集,得到共約2 800 張裂縫圖像。此外,本文還分別統(tǒng)計(jì)數(shù)據(jù)集中所有彩色裂縫圖像RGB3 個(gè)通道的各自均值以及方差,最終得到各RGB 通道的均值(mr,mg,mb)=(0.508,0.524,0.544),各通道方差(sr,sg,sb)=(0.051,0.046,0.049)。上述2 個(gè)統(tǒng)計(jì)量用于圖像數(shù)據(jù)的歸一化處理,有利于模型的收斂速度和精度。數(shù)據(jù)集按照6∶1 的比例劃分為訓(xùn)練集和測(cè)試集,訓(xùn)練集用于訓(xùn)練網(wǎng)絡(luò),驗(yàn)證集用來評(píng)估網(wǎng)絡(luò)性能。
在網(wǎng)絡(luò)訓(xùn)練過程中,損失函數(shù)L采用隨機(jī)梯度下降(SGD)優(yōu)化所有網(wǎng)絡(luò)可訓(xùn)練,動(dòng)量因子β=0.9,權(quán)重衰減系數(shù)weight_decay=1e-4,批量大小batchsize=4,初始學(xué)習(xí)率lr=0.01,訓(xùn)練150 輪(epoch),學(xué)習(xí)率動(dòng)態(tài)調(diào)整采用ploy 學(xué)習(xí)率變化策略。裂縫圖像語義分割本質(zhì)是一個(gè)像素級(jí)的2 分類任務(wù)。裂縫圖像標(biāo)簽中,像素值1 和0 分別定義為正樣本和負(fù)樣本,其中正樣本代表裂縫像素點(diǎn),負(fù)樣本代表非裂縫像素點(diǎn)。經(jīng)過統(tǒng)計(jì)可得,裂縫標(biāo)簽圖像中正樣本僅為2%,存在正負(fù)樣本不均衡。dice coefficient loss[19]是一種旨在應(yīng)對(duì)語義分割中正負(fù)樣本不平衡的場(chǎng)景損失函數(shù),它等同于優(yōu)化F1 score。因此,本文選擇dice coefficient loss 作為損失函數(shù)L,用公式可以表示為
在測(cè)試過程中,網(wǎng)絡(luò)預(yù)測(cè)結(jié)果中的每個(gè)像素點(diǎn)還需通過設(shè)定閾值(本文閾值取0.5)來判斷該像素點(diǎn)是否為正樣本,由此得到最終的預(yù)測(cè)二值裂縫圖像。本文選擇精準(zhǔn)率(Precision,P),召回率(Recall,R),F(xiàn)1 score,平均交并比(MmIOU)作為評(píng)價(jià)指標(biāo)[10],用公式可以表示為
式中:STP、SFP和SFN分別代表被模型預(yù)測(cè)為正類的正樣本、被模型預(yù)測(cè)為正類的負(fù)樣本、被模型預(yù)測(cè)為負(fù)類的正樣本。
2.4.1 LFPA 有效性驗(yàn)證
原始Fast-SCNN 的深分支串聯(lián)一個(gè)SPP 作為全局特征提取的輸出,本文改進(jìn)的Fast-SCNN 的深分支則是串聯(lián)一個(gè)LFPA 作為全局特征提取的輸出。本文將從兩方面來驗(yàn)證所提 LFPA 模塊相比原始SPP 模塊有著更高的高效性和準(zhǔn)確性。首先計(jì)算量方面,對(duì)于輸入分辨率為512×512像素的裂縫圖像,SPP 模塊的計(jì)算量約為8.7 M,而本文所提的LFPA 參數(shù)量約為5.7 M,相比于SPP 更為高效,減少了約42%的計(jì)算量;其次,由于深分支全局特征提取的輸出抽象程度高,語義信息豐富,且能夠保留一定的空間信息,因此,本文通過Grad-CAM技術(shù)來分析網(wǎng)絡(luò)是否學(xué)習(xí)到了更為精確的像素級(jí)別的注意力信息和精準(zhǔn)分割定位依據(jù)信息,裂縫圖像Grad-CAM[20]可視化結(jié)果的計(jì)算過程可以用公式表示為
式中:Ak代表將深分支全局特征提取的輸出特征圖中第k個(gè)通道;c代表屬于裂縫的像素點(diǎn);akc代表針對(duì)Ak的權(quán)重;代表輸出結(jié)果中每個(gè)屬于裂縫像素點(diǎn)的集合;代表A在通道k中,坐標(biāo)為ij位置處的數(shù)據(jù);N為特征圖的寬度與高度之積。
如圖7 所示,對(duì)比了SPP 和LFAP 的Grad-CAM可視化結(jié)果。Grad-CAM 結(jié)果顯示,對(duì)于簡(jiǎn)單裂縫和復(fù)雜裂縫的相關(guān)區(qū)域,LFAP 由于考慮到了像素之間的關(guān)系,依賴與長距離的全局信息交互,有著比SPP 更加完整的梯度響應(yīng),這意味著LFAP 可以獲得更多有利于精準(zhǔn)分割定位的信息。
圖7 SPP 和LFAP 的Grad-CAM 可視化結(jié)果Fig.7 Grad-CAM visualization results for SPP and LFAP
2.4.2 LPAB 的有效性驗(yàn)證
在改進(jìn)后的Fast-SCNN 基礎(chǔ)上,為驗(yàn)證本文所提的用于上采樣的LPAB 的有效性,將其與雙線性插值、反卷積這兩種常規(guī)上采樣方式對(duì)比,如表1所示,與其他兩種上采樣相比,采用LPAB 的上采樣方式在所有指標(biāo)上都有所提高,其中F1 score 可達(dá)76.74%,mIOU 達(dá)到了80.31%,在所有評(píng)價(jià)指標(biāo)上都取得了最好的結(jié)果。
表1 不同上采樣方式的實(shí)驗(yàn)結(jié)果對(duì)比Table 1 Comparison of experimental results with different up-sampling methods
圖8 展示了不同上采樣方式的裂縫圖像分割結(jié)果。為提高結(jié)果的主觀效果,在原圖和分割結(jié)果圖像中標(biāo)以紅色方框突顯不同上采樣方式的分割性能對(duì)比。本文提出的LPAB 模型在恢復(fù)圖像空間信息時(shí),通過建立長距離的語義信息交互,豐富了上采樣所需的語義信息。對(duì)比結(jié)果顯示,LPAB 提高了對(duì)于細(xì)小裂縫的識(shí)別能力和復(fù)雜背景裂縫檢測(cè)的魯棒性,對(duì)于復(fù)雜裂縫檢測(cè),其他兩種上采樣方式檢測(cè)復(fù)雜裂縫時(shí)存在的斷裂、缺失問題得到了改善,進(jìn)一步提升了復(fù)雜裂縫分割的完整性。
圖8 不同上采樣方式對(duì)比結(jié)果圖Fig.8 Comparison results of different up-sampling methods
2.4.3 和其他算法對(duì)比
將本文所提算法和以下算法進(jìn)行對(duì)比,現(xiàn)有主流的裂縫語義分割模型FCN[5]、U-Net[8]、PSP-Net[21]、DeeplabV3[22],輕量級(jí)的實(shí)時(shí)分割模型IC-Net[23]、DFA-Net[24]、Fast-SCNN[13]。為保證公平比較,所有算法在相同的配置下進(jìn)行訓(xùn)練。圖9 給出了不同算法的分割實(shí)驗(yàn)結(jié)果,其中第1 行給出了3 種類型的裂縫圖像。同樣地,為便于觀察,用紅色方框標(biāo)出了該區(qū)域各算法分割結(jié)果的不同表現(xiàn)。首先,前兩列可以驗(yàn)證不同算法對(duì)于細(xì)小裂縫的識(shí)別能力,對(duì)于第5~9 行這幾類算法而言,引入空間金字塔池化模塊對(duì)于細(xì)小裂縫的識(shí)別是有利的,但是本文提出的輕量級(jí)特征金字塔注意力模塊提供了更為精確的像素級(jí)注意力,對(duì)于細(xì)小裂縫的識(shí)別能力進(jìn)一步得到了提升。其次,中間兩列裂縫圖像中存在大小不一的孔洞以及紅色干擾物,可以驗(yàn)證不同算法對(duì)于復(fù)雜背景裂縫的分割能力。在復(fù)雜背景的干擾下,算法必須具有更好的魯棒性,而本文算法充分考慮到了像素點(diǎn)之間的關(guān)系,依賴與長距離的語義信息交互,在一定程度上提升了算法的魯棒性,分割結(jié)果最佳。最后兩列是復(fù)雜網(wǎng)狀裂縫,對(duì)于該類裂縫更依賴于上采樣恢復(fù)得到的細(xì)節(jié)信息,本文提出的用于上采樣的輕量級(jí)位置注意力機(jī)制,將位置注意力機(jī)制應(yīng)用于恢復(fù)細(xì)節(jié)信息,能夠提高網(wǎng)絡(luò)輸出的分類特征圖的像素分類一致性,提升了復(fù)雜裂縫的檢測(cè)能力。
圖9 不同算法對(duì)比結(jié)果圖Fig.9 Comparison results of different algorithms
表2 從評(píng)價(jià)指標(biāo)的角度驗(yàn)證本文算法在一定程度上平衡了算法的精度和速度。主流裂縫分割網(wǎng)絡(luò)FCN、U-Net、PSP-Net、DeeplabV3 的模型參數(shù)量和計(jì)算復(fù)雜度都很大,推理速度不超過50 f/s,而且F1 score、mIOU 還低于本文算法。在輕量級(jí)的實(shí)時(shí)語義分割模型中,IC-Net 和DFA-Net 網(wǎng)絡(luò)的參數(shù)和計(jì)算量相比于主流裂縫分割網(wǎng)絡(luò)大幅度減少,但是各項(xiàng)評(píng)估指標(biāo)表現(xiàn)不佳。本文改進(jìn)的Fast-SCNN 相比于原始模型,在小幅度增加參數(shù)量和計(jì)算量的基礎(chǔ)上,F(xiàn)1 score 提升了約6%,mIOU提高了約5%。本文算法的參數(shù)量為1.20 M,計(jì)算量不足1 G,推理速度也能達(dá)到151 f/s,具有較高的工程應(yīng)用價(jià)值。
表2 不同算法的實(shí)驗(yàn)結(jié)果對(duì)比Table 2 Comparison of experimental results with different algorithms
針對(duì)現(xiàn)有的主流裂縫語義分割模型實(shí)時(shí)性不足等問題,提出一種基于Fast-SCNN 改進(jìn)的裂縫圖像實(shí)時(shí)分割算法。本文算法從高效率和準(zhǔn)確性出發(fā),在原始Fast-SCNN 基礎(chǔ)上提出兩種輕量級(jí)的自注意力模塊。在裂縫數(shù)據(jù)集上實(shí)驗(yàn)可得,本文算法取得分割精度F1 score 為76.74%,平均交并比可達(dá)80.31%,而且模型參數(shù)為1.20 M,計(jì)算量也僅有0.96 G,此外,推理速度也可以達(dá)到151 f/s,相比于主流模型和其他輕量模型,進(jìn)一步平衡了裂縫圖像分割的速度與精度,對(duì)于裂縫檢測(cè)這項(xiàng)工程任務(wù)有很高的實(shí)際應(yīng)用價(jià)值。此外,本文工作受自注意力機(jī)制啟發(fā),未來工作將進(jìn)一步研究近年來較為廣泛使用的transformer 架構(gòu)在實(shí)時(shí)裂縫分割算法上的應(yīng)用。