楊勇,史肖蒙
(1.貴州大學(xué),貴州 貴陽 550025;2.貴州城市職業(yè)學(xué)院,貴州 貴陽 550025)
橋梁進(jìn)行定期的檢查和維護(hù)是橋梁安全運(yùn)行的必要條件,是保障國民經(jīng)濟(jì)的重要措施,其工作量日夜劇增, 而傳統(tǒng)的橋梁檢測技術(shù)存在著效率低、檢測盲區(qū)、受工人主觀因素影響等問題且存在安全隱患。改進(jìn)檢測方法,應(yīng)用無人機(jī)、機(jī)器人、人工智能等技術(shù)實(shí)現(xiàn)橋梁智能化、批量的高效率地檢測具有十分重要的意義。
計(jì)算機(jī)視覺技術(shù)主要有三大主流的研究方向,分別是圖像分類、目標(biāo)檢測、圖像分割。圖像分類是將圖像分成多個(gè)類別,如分成裂縫圖像、剝落圖像、露筋圖像等;目標(biāo)檢測是要將圖像中的病害目標(biāo)與在圖像中的位置區(qū)域標(biāo)識出來,圖像分割是只保留病害目標(biāo)的區(qū)域,刪除背景像素的技術(shù),效果見圖1 所示。
通過無人機(jī)、機(jī)器人等智能設(shè)備采集橋梁表觀圖像,利用計(jì)算機(jī)視覺技術(shù)對圖像進(jìn)行分類、目標(biāo)檢測,從而智能識別出存在橋梁表觀病害的圖像,以達(dá)到自動(dòng)化的檢測橋梁表觀病害的目的是當(dāng)下學(xué)者研究的熱門問題。王桂平[1]等人提出遷移VGG16 網(wǎng)絡(luò)模型結(jié)構(gòu)及全部卷積層參數(shù),在結(jié)構(gòu)末尾添加病害分類的全連接層來實(shí)現(xiàn)病害圖像的分類;以YOLO 目標(biāo)檢測算法模型為基礎(chǔ),改進(jìn)YOLO 模型結(jié)構(gòu)[2-4]、提出新模型結(jié)構(gòu)來實(shí)現(xiàn)橋梁表觀病害的目標(biāo)檢測。
上述研究中對于病害圖像分類均是以單標(biāo)簽的圖像進(jìn)行,即一張圖像中只識別單一的病害,但實(shí)際采集的一張橋梁表觀圖像中,往往存在多標(biāo)簽的病害,即一張病害圖像中存在多個(gè)類別的病害;對于目標(biāo)檢測的研究未對圖像進(jìn)行預(yù)分類,因采集的圖像數(shù)量一般非常多,且存在病害的圖像只有少數(shù),若將所有圖像都進(jìn)行病害目標(biāo)檢測,大量的背景(無病害)圖像必然會對檢測形成極大的干擾。本文主要基于計(jì)算機(jī)視覺技術(shù)下的圖像分類技術(shù),建立橋梁表觀多標(biāo)簽病害圖像數(shù)據(jù)集,利用主流的VGG、ResNet、DensNet 等網(wǎng)絡(luò)進(jìn)行多標(biāo)簽病害的分類,過濾出存在病害的圖像,為后續(xù)的病害目標(biāo)檢測、分割量化奠定基礎(chǔ)。
首先,多標(biāo)簽圖像分類不同于多類別的分類問題,多標(biāo)簽分類是對每個(gè)樣本每張圖像分配一組病害標(biāo)簽集,每個(gè)樣本的所有標(biāo)簽不是互斥的;而多類別分類是假設(shè)每張圖像僅有病害標(biāo)簽集中的一個(gè)病害標(biāo)簽。其次,多便簽圖像分類也不同于多輸出分類的問題,多輸出的分類問題,雖然處理的也是每張圖像中有多個(gè)標(biāo)簽的分類問題,其往往預(yù)測的是每張圖像的固定數(shù)量的標(biāo)簽。
近年來,神經(jīng)網(wǎng)絡(luò)強(qiáng)大的非線性表征能力使深度學(xué)習(xí)在圖像分類任務(wù)中的可行性、提取圖像特征的能力大幅度增加,研究出了許多多標(biāo)簽圖像分類的解決方案。
有學(xué)者設(shè)計(jì)了多個(gè)模型,直接將多標(biāo)簽分類看成多個(gè)二分類進(jìn)行圖像分類,該算法未考慮標(biāo)簽中的相關(guān)性,如露筋與銹蝕往往是一并存在的;Wei[5]等提出對每張圖片提取含有標(biāo)簽信息的候選區(qū)域,然后將每個(gè)候選區(qū)域輸入CNN 進(jìn)行分類訓(xùn)練,最后融合所有候選區(qū)域的分類結(jié)果,從而得到多個(gè)標(biāo)簽信息完整的圖片;Jiang Wang[6]等提出了CNN-RNN 網(wǎng)絡(luò)結(jié)構(gòu),利用CNN 提取相應(yīng)的語義特征,建立標(biāo)簽之間的相關(guān)性,完成分類訓(xùn)練,該算法考慮了每個(gè)圖像中的標(biāo)簽的相關(guān)性;TN Kipf[7]通過構(gòu)建數(shù)據(jù)集中標(biāo)簽共現(xiàn)的概率,完成GCN 模型的構(gòu)建,發(fā)掘目前類別之間的相關(guān)性,并聯(lián)合CNN進(jìn)行訓(xùn)練,完成最終的分類任務(wù)。
本文是基于弱監(jiān)督學(xué)習(xí)的方法,對每張圖像是否病害目標(biāo)建立Multi-Hot 向量標(biāo)簽。該方法的主要思想是將復(fù)雜的多標(biāo)簽分類問題轉(zhuǎn)化為單標(biāo)簽分類,因而可以利用遷移學(xué)習(xí)等技術(shù)來訓(xùn)練,達(dá)到多標(biāo)簽分類的目的。
多標(biāo)簽網(wǎng)絡(luò)模型的思想是設(shè)X=Rd:表示d 維的輸入空間;Y={y1,y2,...,ym}:表示帶有m 個(gè)可能的標(biāo)簽空間;D={(xi,yi)|1 ≤ i ≤ m}:訓(xùn)練集,m 表示訓(xùn)練集的大小,上標(biāo)表示樣本序數(shù),xi∈ X,是一個(gè)d 維向量,yiY,是Y 的一個(gè)標(biāo)簽子集。模型的任務(wù)就是學(xué)習(xí)一個(gè)多標(biāo)簽集的分類器函數(shù)F(xi),使F(xi)→yi。
本文是利用計(jì)算機(jī)視覺下的圖像分類的主流模型VGG、ResNet、ResNeXt、DensNet、SENet 進(jìn)行修改結(jié)構(gòu)末尾的分類層進(jìn)行遷移學(xué)習(xí),并對比各網(wǎng)絡(luò)模型的差異,選出最適合橋梁表觀病害圖像分類的網(wǎng)絡(luò)。
本文研究采用公開的數(shù)據(jù)集COncrete DEfect BRidge IMage Dataset[8],該數(shù)據(jù)集是由Martin Mundt 等人收集的混凝土橋梁多標(biāo)簽缺陷圖像,包含有六個(gè)相互不排斥的類別:鋼筋混凝土表面的裂縫(Crack)、脫落(spallation)、露筋(exposed bars)、風(fēng)化(efflorescence)、腐蝕(corrosion stain)合計(jì)5 個(gè)類別的病害和無缺陷(Background)圖像。為提高模型的泛化能力,訓(xùn)練過程中會采用隨機(jī)旋轉(zhuǎn)、裁剪、翻轉(zhuǎn)、隨機(jī)噪聲等數(shù)據(jù)增強(qiáng)技術(shù)。
多標(biāo)簽的圖像分類較為復(fù)雜,其評價(jià)標(biāo)準(zhǔn)也與多分類的圖像任務(wù)不同,其大致分為三大類,分別是基于樣本的評價(jià)、基于標(biāo)簽的評價(jià)、整體評價(jià),具體指標(biāo)包含準(zhǔn)確率(Accuracy)、精確率(Precision)、召回率(Recall)、F1 值、漢明損失(hamming_loss)、平均精度(Average Precision)等。
本文選取了ResNet50、ResNeXt50、ResNest50、SE_ResNeXt101、DenseNet121 共5 個(gè)主流的圖像分類模型進(jìn)行遷移學(xué)習(xí),訓(xùn)練120 個(gè)epoch,計(jì)算了在測試集上的相關(guān)指標(biāo)見表1 所示。mAP 表示各病害識別平均精度的均值,是以精確率(Precision)為縱軸,召回率(Recall)為橫軸繪制曲線下的面積,它不受人為主觀設(shè)置的閾值的影響,更加綜合評價(jià)模型的性能,從表1 的結(jié)果中看出SE_ResNeXt101、ResNeXt50 模型的mAP 值分別為93%、90%,為對比的5 個(gè)模型中最好的兩個(gè)模型,驗(yàn)證了模型中的分類聚合變換和注意力機(jī)制對橋梁表觀病害圖像的分類識別有較強(qiáng)的適用性。
表1 各實(shí)驗(yàn)?zāi)P蜏y試性能對比
選取mAP 值最高的SE_ResNeXt101 模型,繪制其在測試集的各個(gè)病害類別的P-R 曲線如圖2 所示,該曲線與坐標(biāo)軸圍成的面積及AP 值,其中露筋的AP 值最高為97%、腐蝕的AP 值最低也有88%,說明該模型對于橋梁表觀病害圖像的識別有很好的效果,能在實(shí)際的檢測工作中應(yīng)用。
圖3 的混淆矩陣統(tǒng)計(jì)了SE_ResNeXt101 模型在測試集上的各個(gè)類別病害檢測情況,如裂縫總目標(biāo)有150個(gè),召回138 個(gè),漏檢12 個(gè),召回率92%;模型預(yù)測裂縫總數(shù)162 個(gè),正確的138 個(gè),誤檢24 個(gè),精確率85%,其他類別也有較好的檢測效果。
本文對比了ResNet50、ResNeXt50、ResNest50、SE_ResNeXt101、DenseNet121 共5 個(gè)主流的圖像分類模型在橋梁表觀圖像上識別分類病害的性能,其SE_ResNeXt101 網(wǎng)絡(luò)模型mAP 值為93%,具有較好的檢測性能,能夠有效地過濾出存在病害的圖像,踢出無缺陷圖像的干擾,為后續(xù)進(jìn)一步精確檢測研究奠定了基礎(chǔ),對實(shí)際的檢測工作也有參考價(jià)值。