張曉宇,李立明,柴曉冬,鄭樹彬,汪晨曦
(上海工程技術(shù)大學(xué)城市軌道交通學(xué)院,上海 201620)
鐵路是國家重要基礎(chǔ)設(shè)施、國民經(jīng)濟(jì)大動脈和大眾化交通工具,對我國社會經(jīng)濟(jì)快速發(fā)展和國防起著不可替代的全局性支撐作用。我國高速鐵路和高速列車技術(shù)研究建設(shè)經(jīng)過了近20 年的發(fā)展歷程,截至2021年底,全國鐵路營業(yè)里程達(dá)到15萬km以上,其中,高鐵運營里程突破4萬km。2021年新增高鐵(快鐵)通車?yán)锍碳s2 452 km,除貴陽環(huán)線外均為時速250 km及以上線路。長期的高速行駛會引起車輛振動,從而使鋼軌頂面形成孔洞、擦傷和疤痕等各種缺陷[1]。這些缺陷不僅會影響鋼軌頂面的外觀,還會對鋼軌的性能和安全性產(chǎn)生長期不利影響。因此,鋼軌頂面缺陷檢測是檢測鋼軌質(zhì)量安全的重要環(huán)節(jié)。由于人工檢測需耗費大量人力物力,而鋼軌頂面的檢測對在線檢測精度和實時性要求又很高,故手工檢測技術(shù)很難滿足這種嚴(yán)格要求。視覺檢測具有速度快、成本低、性能好等優(yōu)點,典型的應(yīng)用包括螺栓檢測[2]、波紋檢測[3]和裂縫檢測[4]。
其中,針對灰度圖像分布不均問題,張輝等[5]提出了基于改進(jìn)MRF的鋼軌表面缺陷自動分割方法。針對難以區(qū)分缺陷與鋼軌表面其他區(qū)域的難題,LI等[6-7]設(shè)計了一種鋼軌表面缺陷實時視覺檢測系統(tǒng),分別使用投影法和分層提取器得到缺陷對象,在一定程度上可將縱向背景信息與橫向缺陷信息進(jìn)行區(qū)分,但當(dāng)鋼軌表面背景過于復(fù)雜時,準(zhǔn)確率有待提高。隨著深度學(xué)習(xí)方法在視覺檢測領(lǐng)域的應(yīng)用與發(fā)展,越來越多的研究人員開始使用深度學(xué)習(xí)方法來檢測鋼軌表面缺陷,蘇燁、金俠挺等[8-9]分別運用Faster R-CNN卷積神經(jīng)網(wǎng)絡(luò)和語義分割框架DeepLab v3識別鋼軌表面缺陷,補償和抑制了前景與背景的損失,但當(dāng)缺陷區(qū)域較小時識別的效果不佳,容易被誤判,該方法精度有待進(jìn)一步提高。以上方法根據(jù)鋼軌表面缺陷的一種或幾種典型特征,比傳統(tǒng)算法有所改進(jìn),但鋼軌表面背景干擾復(fù)雜或缺陷對象較小時,效果不盡如人意,會出現(xiàn)缺陷邊界模糊、缺陷區(qū)域分散的情況,且計算量較大。
針對其他檢測方法存在的缺陷邊界模糊及缺陷區(qū)域分散等問題,使用級聯(lián)網(wǎng)絡(luò)進(jìn)行鋼軌頂面缺陷檢測。采用的RSDDs[10]數(shù)據(jù)集樣本中主要缺陷類型是軋疤、腐蝕、劃痕、孔洞、凹坑等,且缺陷的類型和位置是隨機的。首先,采用圖像垂直微分投影法,在無砟軌道圖像中精確定位并分割出鋼軌頂面區(qū)域;然后,使用級聯(lián)網(wǎng)絡(luò)(Encoder-Decoder Residual)模型[11],用于檢測鋼軌頂面的疤痕缺陷。其中,為更準(zhǔn)確地提取特征,在第1個網(wǎng)絡(luò)結(jié)構(gòu)中加入了卷積注意力機制[12];為得到邊界特征清晰的顯著性圖,在第2個網(wǎng)絡(luò)中將一維濾波器[13]與空洞卷積[14]相結(jié)合。經(jīng)過實驗對比,可以發(fā)現(xiàn)本文使用的模型檢測精度更高、魯棒性更強、實時性更好。方法流程如圖1所示。
圖1 基于級聯(lián)網(wǎng)絡(luò)的鋼軌頂面缺陷檢測算法流程
在無砟軌道圖像中包含軌枕、扣件、鋼軌區(qū)域等多種部件,如圖2(a)所示,非鋼軌區(qū)域的圖像信息會干擾后續(xù)缺陷檢測,且直接對整個軌道圖像進(jìn)行缺陷識別會耗費大量的內(nèi)存和時間[15]。為更好地檢測出鋼軌頂面的疤痕缺陷,先使用圖像垂直微分投影法分割得到鋼軌頂面區(qū)域。具體過程如表1所示。
表1 圖像垂直微分投影法
經(jīng)過垂直投影后得到的鋼軌頂面區(qū)域圖、垂直投影圖、一階導(dǎo)數(shù)投影圖分別如圖2(b)~圖2(d)所示。
圖2 鋼軌頂面區(qū)域提取
金閎奇等[16]針對缺陷樣本較少的問題,提出一種結(jié)合隨機子空間和級聯(lián)殘差網(wǎng)絡(luò)的缺陷檢測方法,不僅能在一定程度上解決小樣本問題,同時能獲得較高的識別性能;針對缺陷種類多樣、邊界模糊等問題,方鈞婷等[17]提出一種基于注意力機制的級聯(lián)網(wǎng)絡(luò)缺陷檢測算法,對金屬表面缺陷進(jìn)行高質(zhì)量分類和定位。針對軌道缺陷較小的特點,侯博文等[18]提出了一種基于深度殘差網(wǎng)絡(luò)的軌道結(jié)構(gòu)病害識別算法,提高了檢測效率。同樣,針對鋼軌頂面缺陷數(shù)據(jù)集樣本有限、檢測得到的鋼軌缺陷邊界不清晰以及鋼軌頂面疤痕缺陷特征較小等特點,使用ResNet-34[19]為主干的級聯(lián)網(wǎng)絡(luò)進(jìn)行特征提取和特征恢復(fù)。該檢測算法流程如圖3所示。
圖3 鋼軌頂面缺陷檢測模型
在特征提取階段,由于殘差網(wǎng)絡(luò)使用跳躍層進(jìn)行連接,易于實現(xiàn)更深層次的網(wǎng)絡(luò),故使用ResNet-34[19]作為特征提取器的主干,相較于以往使用VGG-16[20]模型來提取不同分辨率特征圖,殘差網(wǎng)絡(luò)可涵蓋更多的缺陷對象信息,提高缺陷檢測準(zhǔn)確性的同時降低了模型的復(fù)雜度。特征提取階段的模型如圖4(a)所示。
圖4 特征提取及特征恢復(fù)
如圖4(a)所示,整個特征提取部分包含1個輸入卷積層、4個殘差注意力塊和1個橋接模塊。輸入層有64個通道,卷積核大小為3×3,步長為1。
輸入圖像I∈H×W×C,其中,H、W、C分別為鋼軌頂面圖像的高度、寬度和通道數(shù)量。分別在6個層級上抽象出多尺度特征,表示為{fi,i=0,1,2,3,4,5},分辨率為[H/2i,W/2i]。陳慶文[21]提出一種基于深度聚類注意力機制的顯著對象檢測算法DCANet,可以更好地建立特征級別的像素上下文關(guān)聯(lián);孫美君[22]通過三線性全局注意力模塊進(jìn)一步細(xì)化淺層特征的空間位置信息,最終達(dá)到高效準(zhǔn)確的自動化表面缺陷檢測目的。于是,為有效降低訓(xùn)練誤差,使得模型收斂速度更快,將輕量級卷積注意力模塊(CBAM[23])嵌入ResNet-34的每個殘差基本塊中,以快速收斂形成殘差注意力塊,記為Res_cbam-i(i∈{1,2,3,4}),其結(jié)構(gòu)如圖5所示。具體來說,給定一個中間特征圖F∈H×W×C,注意力機制模塊會依次推斷一維通道注意力圖Mc∈C×1×1以及二維空間注意力圖Ms∈1×H×W,整個注意過程可總結(jié)為
圖5 殘差注意力塊
F′=Mc(F)?F,
F″=Ms(F′)?F′
(1)
式中,?為元素乘法。
為恢復(fù)先前多尺度特征中編碼的疤痕缺陷對象顯著性信息,在特征恢復(fù)階段設(shè)計了信道加權(quán)塊和殘差解碼器塊兩大模塊,在提高檢測效率,降低模型復(fù)雜度和維度的同時,又提高了跨渠道的信息交互能力。特征恢復(fù)階段的模型如圖4(b)所示。
2.2.1 信道加權(quán)塊
由特征提取階段直接提取出的疤痕缺陷特征圖更多地聚焦于不顯著的鋼軌背景區(qū)域,主要原因是未充分考慮全局上下文信息,導(dǎo)致預(yù)測結(jié)果不正確。為解決這個問題,使用信道加權(quán)塊來濾除背景噪聲的干擾,使得模型更加關(guān)注疤痕缺陷對象區(qū)域及其邊界,從而獲得更有效的特征區(qū)域。信道加權(quán)塊的輸入是當(dāng)前編碼特征X和來自下一解碼器級的輸出特征Y的級聯(lián)特征映射。為保持與X相同的分辨率,將特征Y進(jìn)行2倍的上采樣操作。信道加權(quán)模塊結(jié)構(gòu)如圖6所示。形式上,信道加權(quán)塊Z定義為
圖6 信道加權(quán)塊
(2)
式中,Cat為上采樣-連接操作;G為全局池化層;fconv為特征融合的瓶頸結(jié)構(gòu);σ為sigmoid激活函數(shù);?為元素乘法;⊕為逐元素求和運算。
2.2.2 殘差解碼器塊
殘差解碼器塊用來恢復(fù)在先前的多級特征中編碼的疤痕缺陷對象信息。如圖7所示,為增強模型的泛化能力,挖掘出更多潛在的疤痕缺陷特征信息,在兩個3×3卷積層之間增加了通道隨機混合[24]操作。通道隨機混合不包含任何其他復(fù)雜的運算,可實現(xiàn)更高的檢測效率,降低模型復(fù)雜度。此外,為實現(xiàn)降維的同時提高跨渠道的信息交互能力,增加了一個1×1卷積層。
圖7 殘差解碼器塊
對于輸入的鋼軌頂面圖像,通過特征提取和恢復(fù)階段獲得6個維度的輸出特征圖。由于最后一個維度輸出的特征圖(圖8中粗值圖所示)具有更高的檢測精度和更豐富的缺陷特征信息,將其作為邊界精細(xì)化網(wǎng)絡(luò)的輸入,進(jìn)一步優(yōu)化粗值圖中缺少的邊界和區(qū)域細(xì)節(jié)。
圖8 特征邊界精細(xì)化階段模型
如圖8所示,邊界精細(xì)化網(wǎng)絡(luò)同樣使用了編解碼形式的網(wǎng)絡(luò)結(jié)構(gòu),受到ANON[13]的啟發(fā),為有效地平衡細(xì)化性能和計算效率,將殘差精細(xì)化結(jié)構(gòu)與一維濾波器相結(jié)合。其中,為實現(xiàn)更深層的網(wǎng)絡(luò)并減少計算量,使用最大池化層進(jìn)行下采樣;為匹配特征維數(shù),使用雙線性插值進(jìn)行上采樣。此外,為能夠獲得更大的感受野并提高準(zhǔn)確性,使用空洞卷積[14](擴張率r=2,4)代替普通卷積??斩淳矸e與普通卷積的對比如圖9所示。與使用更大的卷積核相比,使用空洞卷積在計算成本和參數(shù)復(fù)雜度方面更合理有效。通過標(biāo)識映射分支將輸出與輸入粗映射相加,然后將經(jīng)sigmoid 激活函數(shù)映射后的精細(xì)化特征圖作為模型最終輸出。經(jīng)過特征邊界精細(xì)化處理前后的檢測效果對比如圖10所示。
圖9 空洞卷積與普通卷積對比
圖10 特征邊界精細(xì)化前后檢測效果對比
已有方法大多使用交叉熵作為訓(xùn)練損失,很難獲得缺陷對象的全局信息,可能產(chǎn)生模糊的邊界或不完整的檢測結(jié)果。針對這一問題,在QIN等[25]工作的啟發(fā)下,構(gòu)造了一個融合損失函數(shù)來監(jiān)督網(wǎng)絡(luò)的訓(xùn)練過程,以便在缺陷邊緣學(xué)習(xí)和獲得更詳細(xì)的顯著性信息。
融合損失由3部分組成,包括二元交叉熵(BCE[26])損失、聯(lián)合邊界交點(邊界IOU[27])損失和結(jié)構(gòu)相似性(SSIM[28])損失。模型的總損失被定義為
(3)
BCE用來反映預(yù)測值和實際標(biāo)簽之間的概率分布差異。其定義為
(4)
BCE難以處理缺陷對象檢測中常見的類不平衡問題,于是進(jìn)一步采用邊界IOU損失來懲罰不準(zhǔn)確的分類,并增強區(qū)域一致性和邊界響應(yīng),被定義為
Liou=1-
(5)
SSIM用來預(yù)測顯著圖和真實圖像之間的結(jié)構(gòu)相似性,被定義為
(6)
經(jīng)過多次訓(xùn)練后,模型所得各損失值及總的損失值如表2所示。
表2 檢測模型訓(xùn)練損失值
實驗采用PyTorch作為深度學(xué)習(xí)框架,使用GPU加速訓(xùn)練過程,其使用的硬件配置為Intel(R)Xeon(R)Silver 4214 CPU @ 2.20 GHz處理器、64G運行內(nèi)存、NVIDIA GeForce RTX 2080 Ti顯卡;軟件環(huán)境為Windows 10系統(tǒng),Python 3.7;GPU加速器為CUDA10.1。使用檢測模型的初始參數(shù)值設(shè)定如表3所示。
表3 檢測模型初始參數(shù)值設(shè)定
將本文使用的檢測模型與其他6種較為先進(jìn)的基于深度學(xué)習(xí)檢測方法進(jìn)行了比較,包括BASNet[25]、PFANet[29]、PoolNet[30]、R2Net[31]、U2Net[32]以及SOD[33]。為公平比較,使用默認(rèn)參數(shù)運行源代碼或可執(zhí)行文件,所有比較的模型均在相同的訓(xùn)練集上重新訓(xùn)練得到。
所使用的RSDDs[10]數(shù)據(jù)集樣本中缺陷的主要類型是軋疤、腐蝕、劃痕、孔洞、凹坑等,且缺陷的類型和位置是隨機的。該數(shù)據(jù)集主要由從快速鐵路和重載鐵路捕獲的二維灰度圖像組成,包括2個子數(shù)據(jù)集:Ⅰ型和Ⅱ型。相較于Ⅰ型數(shù)據(jù)集,Ⅱ型數(shù)據(jù)集的背景更窄且更一致,但卻包含了更復(fù)雜的缺陷。其中,選取160張(包括110張Ⅰ型、50張Ⅱ型)作為訓(xùn)練數(shù)據(jù)集;剩下的35張(包括18張Ⅰ型、17張Ⅱ型)作為測試訓(xùn)練集。
使用幾個普遍認(rèn)可的指標(biāo)來評估各種檢測方法的性能,包括精確召回率(PR[34])曲線、F測度曲線(F-measure[35])、平均絕對誤差(MAE)[36]、ROC[37]及AUC[38]。所使用評價指標(biāo)的參數(shù)定義如表4所示。
表4 評價指標(biāo)參數(shù)定義
精確率(Precision)為檢測出的鋼軌頂面疤痕缺陷準(zhǔn)確率,召回率(Recall)為在所有的疤痕缺陷中有多少被正確檢測出來,其定義如下
(7)
(8)
ROC曲線橫坐標(biāo)為FPR(False Positive Rate),表示所有非疤痕缺陷中有多少被預(yù)測為疤痕缺陷;縱坐標(biāo)為TPR(True Postive Rate),表示有多少真正的疤痕缺陷被預(yù)測出來。
(9)
(10)
F測度曲線被定義為精確率和召回率的加權(quán)調(diào)和平均值,用于綜合評估特征圖的質(zhì)量。
(11)
式中,β2一般取值為0.3,相當(dāng)于增大了Precision的重要性。每對P-R,都可以計算出1個Fβ,通常取最大的(或取均值)Fβ作為評價指標(biāo),記為maximumF-measure(或meanF-measure)。
將ROC曲線下的面積記為AUC(Area Under Curve),其取值范圍為[0.5,1],其值越大代表該方法效果越好。
平均絕對誤差用來測量歸一化特征圖S和真實值G之間的相異度,定義為
(12)
如圖11所示,文中使用的模型獲得了最佳檢測結(jié)果,在各種挑戰(zhàn)性的情況下,該結(jié)果與相應(yīng)的標(biāo)簽真值圖情況非常接近。具體來說,對于對比度低、前景雜亂的圖像,以往大多數(shù)方法都錯誤地將一些背景區(qū)域視為缺陷對象,而本文所使用的模型可有效地消除背景噪聲的干擾,不會出現(xiàn)過大的錯誤檢測。當(dāng)圖像遭受復(fù)雜背景干擾時,大多數(shù)檢測方法會產(chǎn)生模糊輪廓或分散顯著斑塊等不良結(jié)果。相比之下,本文所使用的模型有效地從復(fù)雜背景中識別出疤痕缺陷對象,并生成高對比度的疤痕缺陷特征圖。最后,對于具有復(fù)雜對象邊界和精細(xì)結(jié)構(gòu)的圖像,在所提出的邊界精細(xì)化網(wǎng)絡(luò)結(jié)構(gòu)幫助下,能夠精確地分割具有清晰邊界的整個疤痕缺陷對象。以上結(jié)果證明了該模型的合理性和優(yōu)越性。
圖11 各種方法在Ⅰ型、Ⅱ型數(shù)據(jù)集下所得檢測效果對比
為定量對比評估檢測出的缺陷對象的質(zhì)量,在表5及圖12(a)~圖12(c)中分別展示了本文所使用的模型相對于其他6種方法的性能,其中1~7分別代表本文方法、BASNet[26]、PFANet[30]、POOLNet[31]、R2Net[32]、U2Net[33]以及SOD[34]??梢钥闯?,所提出的模型在MAE和AUC方面始終優(yōu)于其他方法。特別是,本文使用模型的PR值在一個大的閾值范圍內(nèi)保持在90%以上。即使對于目前最好的SOD[34]方法,本文所使用的模型仍然具有很大優(yōu)勢。這些結(jié)果客觀地驗證了該模型的有效性和魯棒性。
圖12 多種方法進(jìn)行鋼軌頂面檢測效果評價對比
表5 多種方法進(jìn)行鋼軌頂面檢測效果評價對比值
本文方法在RSDDs[10]數(shù)據(jù)集上所得到的實驗結(jié)果如表6所示,對于Ⅰ型和Ⅱ型鋼軌頂面缺陷的檢測精度分別達(dá)到了98.6%和96.4%;單張圖像的檢測速度分別為0.037 s和0.046 s。
表6 Ⅰ、Ⅱ型鋼軌頂面缺陷檢測結(jié)果
(1)研究提出一種基于級聯(lián)網(wǎng)絡(luò)的鋼軌頂面缺陷檢測方法。首先,通過使用圖像垂直微分投影法較為準(zhǔn)確地從無砟軌道圖像中定位并分割出鋼軌頂面區(qū)域,接著通過訓(xùn)練以ResNet-34[18]為主干的級聯(lián)網(wǎng)絡(luò)進(jìn)行特征提取和特征恢復(fù),獲得鋼軌頂面疤痕缺陷的特征細(xì)節(jié)信息,從而實現(xiàn)對鋼軌頂面疤痕缺陷的檢測。
(2)在特征提取階段引入卷積注意力機制模塊,在降低訓(xùn)練誤差、提高收斂速度的同時提取出更加精確的鋼軌頂面疤痕缺陷特征;采用信道加權(quán)模塊與殘差解碼器模塊相結(jié)合的方式進(jìn)行缺陷特征恢復(fù);在特征恢復(fù)后設(shè)計了一個邊界精細(xì)化網(wǎng)絡(luò),以此得到邊界清晰明確的缺陷特征圖。此外,構(gòu)造了一個融合損失函數(shù)來監(jiān)督網(wǎng)絡(luò)的訓(xùn)練過程,以便在缺陷邊緣學(xué)習(xí)過程中獲得更詳細(xì)的顯著性信息。
(3)通過多種方法對比,結(jié)果表明:本文方法有較高的檢測效率,平均絕對誤差僅為0.001 2,對于Ⅰ型和Ⅱ型鋼軌頂面疤痕缺陷的檢測精度分別達(dá)到了98.6%和96.4%,平均檢測速度僅為0.041 s,為鋼軌頂面缺陷檢測提供了一種新的解決方案。