趙欣欣,錢勝勝,劉曉光
(1.中國鐵道科學(xué)研究院 鐵道建筑研究所,北京 100081;2.中國鐵道科學(xué)研究院 高速鐵路軌道技術(shù)國家重點實驗室,北京 100081;3.中國科學(xué)院 自動化研究所,北京 100190)
高強螺栓連接是橋梁等大型鋼結(jié)構(gòu)設(shè)施的主要連接方式之一。我國鐵路橋梁高強螺栓用鋼從40B,發(fā)展至20MnTiB和35VB,推廣使用至今,40多年工程實踐表明,兩種材質(zhì)的高強螺栓均能滿足使用要求[1]。近年來,受多種因素影響,高強螺栓延遲斷裂偶有發(fā)生[2-3]。通過分析11座存在高栓延遲斷裂病害的鐵路橋梁,發(fā)現(xiàn)累計螺栓斷裂數(shù)量超過50套的有3座,大于10套少于50套的有3座,少于10套的有5座??傮w來說斷裂比例極低,雖然暫時不足以引起節(jié)點連接失效,但如不及時發(fā)現(xiàn)和補充新螺栓,誘發(fā)連接失效的風(fēng)險會逐步累積。以某大橋為例,300余萬套高強螺栓分布在大橋各個角落,發(fā)生延遲斷裂脫落的僅數(shù)百套,通過橋梁維護人員定期尋查、采用望遠(yuǎn)鏡目視發(fā)現(xiàn)高強螺栓缺失,不僅耗費緊張的養(yǎng)護人力,還浪費有限的檢查時間,亟需研發(fā)自動化的高強螺栓缺失識別方法。目前通過機器視覺的圖像識別方法在很多領(lǐng)域得到應(yīng)用,是一個不錯的選擇。
當(dāng)前,國內(nèi)外的圖像檢測和分類識別方法可分為傳統(tǒng)和深度學(xué)習(xí)兩類。傳統(tǒng)方法主要使用手工構(gòu)建、選擇針對目標(biāo)的特征,然后進行圖像檢測識別分析。文獻[4-5]對訓(xùn)練樣本中的每張圖像提取特征向量,然后再進行場景圖像分類識別。文獻[6]利用數(shù)學(xué)形態(tài)學(xué)4個基本操作算子腐蝕、膨脹、開運算和閉運算以及Top-hat等操作來完成線狀橋梁目標(biāo)區(qū)域的檢測和識別。文獻[7]采用改進Canny算子和小波變換的結(jié)合方法進行橋梁圖像的檢測識別分析。傳統(tǒng)算法的圖像特征提取與分類識別分2步進行,需要手工構(gòu)建、選擇目標(biāo)特征,不但人的工作量大,而且在面臨復(fù)雜陌生問題時,往往無法設(shè)計出足夠抽象、深刻的特征,大多是針對諸如梯度、顏色、紋理等某一方面的淺層特征,使得傳統(tǒng)算法具有一定局限性。近年來,越來越多基于卷積神經(jīng)網(wǎng)絡(luò)以及其他深度學(xué)習(xí)模型的方法被用于特定圖像的分類識別[8]。Liu等[9]將深度卷積神經(jīng)網(wǎng)絡(luò)(CNN)應(yīng)用在圖像分割中,取得了較好的效果。Cha等[10]采用深度卷積網(wǎng)絡(luò)對混凝土裂縫識別進行研究,結(jié)合滑動窗口方法可以檢測任意大小的圖像,并與Canny、Sobel 兩種邊緣識別算子進行比較,驗證了深度學(xué)習(xí)在混凝土裂縫識別上的優(yōu)勢。黃宏偉等[11]提出基于深度學(xué)習(xí)的盾構(gòu)隧道滲漏水病害圖像識別方法,與傳統(tǒng)圖像識別算法相比,在錯檢率和運行效率上都有很大提高。經(jīng)典深度學(xué)習(xí)網(wǎng)絡(luò)算法雖然極大提高了圖像分類識別的準(zhǔn)確率和效率,但是直接用于解決橋梁螺栓缺失識別仍有不足。一是由于傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)采用權(quán)重共享降低參數(shù)總量,忽略了橋梁螺栓圖像數(shù)據(jù)集上不同區(qū)域具有不同的影響力;二是由于橋梁圖像數(shù)據(jù)集的不平衡特性,使用經(jīng)典網(wǎng)路很難在數(shù)據(jù)集上收斂。通過機器視覺實現(xiàn)橋梁場景中高強螺栓缺失的高效精準(zhǔn)識別,仍然存在圖片區(qū)域差異性較大、缺少完備的高強螺栓缺失專業(yè)數(shù)據(jù)集等諸多問題。
本文針對鐵路橋梁高強螺栓缺失場景特征,基于附加混合注意力子網(wǎng)絡(luò)卷積神經(jīng)網(wǎng)絡(luò),進行鐵路橋梁高強螺栓缺失圖像識別方法研究。
鐵路橋梁高強螺栓缺失圖像識別主要包括專業(yè)數(shù)據(jù)集構(gòu)建和基于附加混合注意力子網(wǎng)絡(luò)卷積神經(jīng)網(wǎng)絡(luò)圖像識別2部分,如圖1所示。
圖1 鐵路橋梁高強螺栓缺失圖像識別框架
1.1.1 基礎(chǔ)數(shù)據(jù)集
選取某座鐵路橋梁作為目標(biāo),采用相機、手機等常規(guī)移動設(shè)備拍攝橋梁各部位。為便于確保本文提出的高強螺栓缺失圖像識別方法的有效性,選取螺栓和支座2類場景。為保證數(shù)據(jù)的多樣性,在不同角度、焦距和光照等條件下,對某一具體場景目標(biāo)區(qū)域拍攝多幅圖像。人工篩選有效圖像并對每一幅圖像標(biāo)注其屬于支座或螺栓缺失場景,部分場景圖像如圖2所示。為使本文方法具有普遍性,初步構(gòu)建的橋梁螺栓缺失場景基礎(chǔ)數(shù)據(jù)集中,螺栓缺失和支座場景的數(shù)據(jù)比例嚴(yán)重失衡,其中螺栓缺失場景信息4 205條,支座場景信息393條。
圖2 構(gòu)建的數(shù)據(jù)集圖像樣本示例
1.1.2 數(shù)據(jù)增強和均衡
為進一步增加訓(xùn)練數(shù)據(jù)的多樣性,采用數(shù)據(jù)增強和均衡采樣的方法對不平衡的基礎(chǔ)數(shù)據(jù)集進行擴充,以便獲得適合識別網(wǎng)絡(luò)的平衡數(shù)據(jù)集。
首先將所有圖像的短邊縮放至分辨率為224像素,長邊同比例縮放。從縮放之后的圖片中,隨機裁剪224像素×244像素大小的區(qū)域。然后對裁剪之后的圖像,進行隨機水平翻轉(zhuǎn)、顏色變化、仿射變換操作,以增加訓(xùn)練集圖像片的多樣性。
基礎(chǔ)數(shù)據(jù)集中的螺栓缺失場景與支座場景數(shù)據(jù)數(shù)量之比超過10∶1,這種嚴(yán)重不平衡會導(dǎo)致,即使識別主網(wǎng)絡(luò)把全部圖片識別為螺栓缺失,仍有超過90%的測試準(zhǔn)確率,但顯然其不具備任何泛化性。為解決這一問題,在算法實現(xiàn)時使用了數(shù)據(jù)均衡提升識別網(wǎng)絡(luò)的泛化性能。首先對所有圖像按類別進行排序,隨后在每批次進行迭代前,按照順序同時重疊選擇2個類別的圖像,以保證2個類別圖像的數(shù)據(jù)集數(shù)目相等。這樣就保證了訓(xùn)練時的每迭代批次內(nèi)數(shù)據(jù)分布是均衡的,此外,由于每張圖像在輸入網(wǎng)絡(luò)訓(xùn)練前都進行了隨機增強操作,也保證了任意2個批次的圖像是不完全相同的,因此,總體可以認(rèn)為訓(xùn)練時識別網(wǎng)絡(luò)處理的數(shù)據(jù)類別近似均衡。
典型深度學(xué)習(xí)的圖像卷積神經(jīng)網(wǎng)絡(luò)識別首先通過卷積神經(jīng)網(wǎng)絡(luò)提取輸入圖片的特征,隨后根據(jù)提取圖像的特征與輸入圖象對應(yīng)的標(biāo)簽利用Softmax損失函數(shù)計算訓(xùn)練誤差,經(jīng)學(xué)習(xí)最終得到較好的網(wǎng)絡(luò)進行圖像識別。
如果有m個訓(xùn)練圖像,第i個圖像經(jīng)過卷積神經(jīng)網(wǎng)絡(luò)提取的特征向量為fi,其對應(yīng)的真實標(biāo)簽為yi,則識別誤差δ為
(1)
式中:a和b為Softmax層的權(quán)重矩陣和偏置向量;j為類別索引;ayi和aj分別為Softmax層權(quán)重矩陣中對應(yīng)yi和類別索引ji的向量;byi和bj為Softmax層偏置向量中對應(yīng)yi和類別索引ji的元素。
由式(1)知,δ主要取決于fi,a和b,而fi由特征提取卷積神經(jīng)網(wǎng)絡(luò)決定,a和b由訓(xùn)練數(shù)據(jù)的分布決定。若要獲取高效的鐵路橋梁高強螺栓缺失圖像識別網(wǎng)絡(luò),需要1個輕量級的卷積神經(jīng)網(wǎng)絡(luò)和較強表現(xiàn)能力的fi,以及合理的訓(xùn)練數(shù)據(jù)分布。
本文的卷積神經(jīng)網(wǎng)絡(luò)沒有采用在ImageNet[7]數(shù)據(jù)集上被證明有效的公開識別CNN模型,主要原因是,一方面對于AlexNet[12]和ResNet[13]等高精度網(wǎng)絡(luò)來說,CNN模型參數(shù)量較大,保存的模型文件會占用大量存儲空間且運行速度較慢;另一方面,近年來一些輕量級CNN模型被廣泛提出,雖然這么模型可以大幅度降低CNN的參數(shù)量,但由于其都采用了分離卷積操作,導(dǎo)致其在CPU上的模型推斷速度提升并沒有在GPU上明顯。本文設(shè)計的圖像識別卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)與文獻[11]中常用的不帶分支的扁平化深層卷積神經(jīng)網(wǎng)絡(luò)類似,包含卷積核分別為3×3×64,3×3×128,3×3×256,3×3×512和3×3×512共5個卷積層和5個最大值池化層以及維數(shù)分別為512和2的2個全連接層。輸入圖像初始數(shù)據(jù),經(jīng)過卷積層對輸入圖像進行非線性特征的提取,經(jīng)過池化層在保留主要特征同時,進行空間維度降維,全連接層對卷積層和池化層的輸出進行不同特性的線性加權(quán),最后輸出2個特征值分別代表輸入圖像的識別結(jié)果,如圖3所示。
圖3 圖像識別卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)
為提高網(wǎng)絡(luò)的識別精度,在上述卷積神經(jīng)網(wǎng)絡(luò)(簡稱主網(wǎng)絡(luò))上附加混合注意力子網(wǎng)絡(luò),包括通道注意力子網(wǎng)絡(luò)和空間注意力子網(wǎng)絡(luò)。通道注意力子網(wǎng)絡(luò)能夠自適應(yīng)地對不同圖片的不同通道的語義特征賦予不同權(quán)重;空間注意力子網(wǎng)絡(luò)解決卷積操作的全局共享造成的區(qū)域不敏感問題,高效地學(xué)習(xí)出區(qū)域影響權(quán)重因子。
1)通道注意力子網(wǎng)絡(luò)
深層卷積神經(jīng)網(wǎng)絡(luò)的高層特征圖的每個通道都代表著輸入圖片的不同語義信息,對于橋梁螺栓缺失場景分類識別來說,卷積神經(jīng)網(wǎng)絡(luò)最后一個最大值池化層的輸出的不同通道語義信息,經(jīng)過全連接層的融合可以獲得最終用于場景識別的深度特征。識別卷積神經(jīng)網(wǎng)絡(luò)一旦訓(xùn)練完成所有參數(shù)不變,意味著對于任何輸入圖像的不同語義信息最終識別所占的權(quán)重不變,這顯然不符合人類感知。例如,對于某些圖像顏色信息占識別主導(dǎo)地位,而對于另一些圖像可能紋理信息占主導(dǎo)地位。為解決這一問題,受到ImageNet2017識別冠軍網(wǎng)絡(luò)SENet的啟發(fā),提出一種通道注意力子網(wǎng)絡(luò)。該子網(wǎng)絡(luò)由卷積計算、空間維度降維與注意力因子映射3種運算構(gòu)成,并列附加在原卷積神經(jīng)網(wǎng)絡(luò)的每層卷積層上,如圖4所示。該子網(wǎng)絡(luò)可以自適應(yīng)地對不同輸入圖像的不同通道語義特征賦予不同權(quán)重,進而提高識別卷積神經(jīng)網(wǎng)絡(luò)的自適應(yīng)性。
假設(shè)w,h和c分別表示輸入圖像的寬、高和通道數(shù),圖像在原卷積神經(jīng)網(wǎng)絡(luò)的第i層輸入的特征值為Xi(wihici),經(jīng)過原卷積神經(jīng)網(wǎng)絡(luò)第i層卷積計算得到的輸出為Yi(wihici),經(jīng)過通道注意力子網(wǎng)絡(luò)的卷積計算、全局平均池化和注意力因子映射得到注意力因子矩陣Fi。
經(jīng)原卷積神經(jīng)網(wǎng)絡(luò)第i層卷積計算和通道注意力子網(wǎng)絡(luò)運算后得到的輸出為
(2)
2)空間注意力子網(wǎng)絡(luò)
圖5為1張機器視覺的橋梁螺栓群場景圖像,對于人類而言,圖5僅有部分區(qū)域所對應(yīng)的視覺內(nèi)容對最終的識別結(jié)果起主導(dǎo)作用。若將圖像均勻分割為16個網(wǎng)格,則區(qū)域2,3,6,9,10和13的特征在最終的場景識別計算時應(yīng)具有較大權(quán)重。然而,由于卷積操作所固有的全局共享特性,對整幅圖像的任意區(qū)域的操作完全相同。如果可以自適應(yīng)的根據(jù)輸入圖像的不同區(qū)域賦予不同權(quán)重,將會進一步提高鐵路橋梁螺栓缺失場景識別準(zhǔn)確率。
圖5 圖像不同空間區(qū)域?qū)鼍白R別影響
為解決上述問題,提出1種空間注意力子網(wǎng)絡(luò)。該子網(wǎng)絡(luò)也是由卷積計算、空間維度降維和注意力因子映射3種運算構(gòu)成,附加在通道注意力子網(wǎng)絡(luò)的卷積神經(jīng)網(wǎng)絡(luò)上構(gòu)成附加通道和空間混合注意力子網(wǎng)絡(luò)的圖像識別卷積神經(jīng)網(wǎng)絡(luò),其架構(gòu)如圖6所示。該子網(wǎng)絡(luò)對原始圖像的不同區(qū)域施加不同的影響因子,進而可以自適應(yīng)地根據(jù)輸入圖像的視覺內(nèi)容對不同區(qū)域賦予不同權(quán)重,進一步提高場景識別準(zhǔn)確率。
圖6 附加通道和空間混合注意力子網(wǎng)絡(luò)的圖像識別卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)
原始圖像的初始特征值X(whc)經(jīng)過空間注意力子網(wǎng)絡(luò)的4層卷積計算、4層池化和注意力因子映射得到空間注意力因子矩陣Hi。其與經(jīng)附加了通道注意力子網(wǎng)絡(luò)的卷積神經(jīng)網(wǎng)絡(luò)最后一層卷積計算的輸出融合得到的輸出為
(3)
根據(jù)最新卷積神經(jīng)網(wǎng)絡(luò)可視化的研究結(jié)果[14]可知,主干網(wǎng)絡(luò)的輸出特征圖的每個元素都對應(yīng)原始圖像的1塊區(qū)域(即感受域),因此對于網(wǎng)絡(luò)高層特征圖的每個位置施加不同的權(quán)重等價于對原始圖像的不同區(qū)域施加不同的影響因子。分支網(wǎng)絡(luò)的每層操作類型應(yīng)于原神經(jīng)網(wǎng)絡(luò)一致,可以保證語義對應(yīng)的一致性。
為提升圖像識別網(wǎng)絡(luò)的訓(xùn)練收斂速度和準(zhǔn)確性,采用遷移學(xué)習(xí)的方式訓(xùn)練圖像識別卷積神經(jīng)網(wǎng)絡(luò)。首先將卷積神經(jīng)網(wǎng)絡(luò)的最后一層全連接層的維數(shù)設(shè)置為1 000個,在ImageNet[15]數(shù)據(jù)集上進行訓(xùn)練。將訓(xùn)練完成后的參數(shù)作為附加通道和空間混合注意力子網(wǎng)絡(luò)的識別網(wǎng)絡(luò)所有層的初始化參數(shù),再采用構(gòu)建的橋梁螺栓缺失場景數(shù)據(jù)集繼續(xù)進行2次識別訓(xùn)練,最終得到鐵路橋梁高強螺栓缺失圖像識別網(wǎng)絡(luò)參數(shù)。該識別網(wǎng)絡(luò)即可進行螺栓缺失圖像識別。
為驗證算法有效性,鐵路橋梁高強螺栓缺失數(shù)據(jù)集的所有圖像按照70%,10%和20%的比例劃分訓(xùn)練集、驗證集和測試集。訓(xùn)練時采用Adam自適應(yīng)優(yōu)化算法,該優(yōu)化算法存儲了先前平方梯度的指數(shù)衰減平均值,而且保持了先前梯度的指數(shù)衰減平均值,能計算每個參數(shù)的自適應(yīng)學(xué)習(xí)率,當(dāng)損失函數(shù)值在驗證集上達到最小值時認(rèn)為完成訓(xùn)練。所有試驗結(jié)果均以測試集準(zhǔn)確率作為評價指標(biāo),與目前常用的VGG深層卷積神經(jīng)網(wǎng)絡(luò)圖像識別方法的識別準(zhǔn)確率進行對比,試驗結(jié)果見表1。
表1 不同識別網(wǎng)絡(luò)的試驗結(jié)果比較
對比表1中方法1和方法2的結(jié)果可知,使用本文的主網(wǎng)絡(luò),雖然訓(xùn)練集的準(zhǔn)確率下降了1.7%,但是測試集的準(zhǔn)確率上升了3.5%,表明本文的識別主網(wǎng)絡(luò)相對于VGG16具有減輕過擬合的效果。此外,本文的主網(wǎng)絡(luò)僅有60 M左右,而VGG16有250 M左右,說明本文主網(wǎng)絡(luò)輕量且高效。
識別網(wǎng)絡(luò)先在ImageNet上進行預(yù)訓(xùn)練,獲取訓(xùn)練參數(shù)再使用橋梁螺栓缺失專業(yè)數(shù)據(jù)集進行微調(diào),對比表1中方法2和方法3的結(jié)果可知,遷移學(xué)習(xí)后,識別準(zhǔn)確率由92.1%提升為93.5%。
為評估本文提出的訓(xùn)練數(shù)據(jù)增強中的類別平衡策略對識別主網(wǎng)絡(luò)泛化性能的影響,比較了數(shù)據(jù)增強和均衡對于不同訓(xùn)練圖像識別網(wǎng)絡(luò)的效果,從表1中的方法3和方法4的測試集結(jié)果對比來看,識別準(zhǔn)確率增加了0.6%。
對比表1中方法4和方法5的識別結(jié)果,可知附加通道注意力子網(wǎng)絡(luò)后,準(zhǔn)確率有了進一步提升。當(dāng)附加通道和空間混合注意力子網(wǎng)絡(luò)之后,其識別準(zhǔn)確率(對應(yīng)表1中方法6)表現(xiàn)最優(yōu),達到94.9%。
圖7給出了是否附加混合注意力子網(wǎng)絡(luò)時橋梁螺栓缺失場景圖像識別結(jié)果對比,顏色的深淺代表空間注意力子網(wǎng)絡(luò)認(rèn)為該區(qū)域?qū)ψR別結(jié)果影響的重要程度。由圖7可知,幾乎每個螺栓都被較明顯地識別出,也說明本文所提出混合注意力子網(wǎng)絡(luò)的有效性。
圖7 空間注意力子網(wǎng)絡(luò)的作用結(jié)果
通過1種基于混合注意力子網(wǎng)絡(luò)的圖像識別網(wǎng)絡(luò)和基于機器視覺的專業(yè)數(shù)據(jù)集,進行鐵路橋梁螺栓缺失圖像識別。首先,使用圖像識別主網(wǎng)絡(luò)、通道注意力模型和空間注意力模型3種方式聯(lián)合建模,進行端到端的圖像病害場景識別。采用遷移學(xué)習(xí)的方式訓(xùn)練圖像分類識別主網(wǎng)絡(luò),提升識別主網(wǎng)絡(luò)訓(xùn)練的收斂速度和準(zhǔn)確性。采用通道和空間混合注意力模型,可以自適應(yīng)地對不同圖片的不同通道的語義特征賦予不同權(quán)重,進而提高螺栓缺失圖像識別準(zhǔn)確率。然后,構(gòu)建了1個鐵路橋梁螺栓缺失場景基礎(chǔ)數(shù)據(jù)集,通過數(shù)據(jù)增強和均衡解決數(shù)據(jù)不平衡、多樣性不夠等問題。最后,進行了識別實驗,與常見識別方法相比,準(zhǔn)確率提高了4.9%。未來重點研究一方面是將提出的方法擴展到涂層裂化、異常變形等其它橋梁病害識別場景中;另一方面是進一步提升網(wǎng)絡(luò)的訓(xùn)練速度,以更快更好地識別其他橋梁常見病害。