趙仲瑜,唐偉忠,張文輝,蒲 偉,牛超群
(中國(guó)鐵路蘭州局集團(tuán)有限公司,蘭州 730000)
接觸網(wǎng)沿鐵路線路上空架設(shè),為列車輸送運(yùn)行所需電流。因常年暴露在野外露天環(huán)境中,接觸網(wǎng)上容易附著鳥窩、風(fēng)箏和塑料等異物,造成接觸網(wǎng)短路和受電弓故障,是影響列車運(yùn)行安全的主要隱患之一。為保證列車安全運(yùn)行,在列車開行前,需要檢查接觸網(wǎng)上是否有異物附著。目前,接觸網(wǎng)異物排查主要依賴高頻率的人工巡檢,作業(yè)效率較低,耗費(fèi)人力物力,且人工目視檢查容易因疲勞導(dǎo)致漏檢。
目標(biāo)檢測(cè)是計(jì)算機(jī)視覺領(lǐng)域的一個(gè)基礎(chǔ)性研究課題,研究用于識(shí)別和定位輸入圖像中已知特定的某個(gè)或多個(gè)物體的圖像處理方法。目前,基于深度學(xué)習(xí)模型的目標(biāo)檢測(cè)已成為研究熱點(diǎn),我國(guó)鐵路領(lǐng)域已開展了不少研究。徐鑫等人[1]對(duì)YOLO(You Only Look Once)v5 模型的目標(biāo)框損失函數(shù)和檢測(cè)尺度加以改進(jìn),用以檢測(cè)鐵路軌道上侵入的行人及動(dòng)物;李興鑫[2]構(gòu)建了基于CNN 算法的、能夠理解特定場(chǎng)景的鐵路異物入侵檢測(cè)方法,用于檢測(cè)鐵路軌道上的侵入異物?;谏疃葘W(xué)習(xí)模型的目標(biāo)檢測(cè)為接觸網(wǎng)異物自動(dòng)檢測(cè)提供了一種可行方法,通過接觸網(wǎng)圖像訓(xùn)練深度學(xué)習(xí)模型,使其能夠識(shí)別圖像中的異物,區(qū)分異物類型,確定異物位置。為實(shí)現(xiàn)鐵路接觸網(wǎng)異物自動(dòng)檢測(cè),國(guó)內(nèi)相關(guān)研究人員在這方面開展了積極探索。蔣欣蘭等人[3]使用人工標(biāo)注的鳥巢樣本圖像對(duì)YOLOv3 深度網(wǎng)絡(luò)進(jìn)行訓(xùn)練,生成鳥巢識(shí)別模型,并使用改進(jìn)的直線段檢測(cè)算法(LSD,Line Segment Detector)確定待檢測(cè)的接觸網(wǎng)圖像中感興趣區(qū)域(ROI,Region of Interest),即圖像中可能存在鳥巢的區(qū)域,將選定的ROI 區(qū)域輸入到訓(xùn)練好的鳥巢識(shí)別模型進(jìn)行目標(biāo)檢測(cè),由于大幅縮小了異物目標(biāo)檢測(cè)的搜索范圍,能夠快速、準(zhǔn)確地檢測(cè)鐵路接觸網(wǎng)上的鳥巢;王科理等人[4]將YOLOv3和Faster RCNN 兩種模型用于接觸網(wǎng)鳥窩檢測(cè),對(duì)比實(shí)驗(yàn)表明,F(xiàn)aster RCNN 的檢測(cè)精度高于YOLOv3,但速度低于YOLOv3;王曉紅等人[5]在接觸網(wǎng)鳥窩檢測(cè)中,對(duì)YOLOv5s 模型加以改進(jìn),將特征提取網(wǎng)絡(luò)由CSPDarknet 替換為Efficient Net-B4 網(wǎng)絡(luò),提高了檢測(cè)精度和速度。
鳥窩和輕質(zhì)異物(如風(fēng)箏、塑料等)是2 類最常見的接觸網(wǎng)上附著的異物。本文采用3 種神經(jīng)網(wǎng)絡(luò)模型來識(shí)別接觸網(wǎng)上附著的鳥窩和輕質(zhì)異物,包括基本YOLOv5 模型、YOLOv5+坐標(biāo)注意力(CA,Coordinate Attention)改進(jìn)模型、YOLOv5+ConvNext Block 改進(jìn)模型,利用標(biāo)注好的接觸網(wǎng)圖像對(duì)這3 種模型進(jìn)行實(shí)驗(yàn)分析。
1.1.1 YOLOv5 模型
YOLO 系列算法[6]是目標(biāo)檢測(cè)的經(jīng)典算法,其主要特點(diǎn)是速度快、精度高。YOLOv5 模型[7]是YOLO 系列算法之一,它引入輕量級(jí)模型設(shè)計(jì)理念,可通過各種優(yōu)化方法對(duì)其進(jìn)行改進(jìn),能夠在保持高性能的同時(shí),實(shí)現(xiàn)高精度小尺寸目標(biāo)檢測(cè)。YOLOv5模型結(jié)構(gòu)主要包括4 部分:輸入端、backbone 部分、neck 部分、輸出端,其簡(jiǎn)要結(jié)構(gòu)如圖1 所示。
圖1 YOLOv5 模型簡(jiǎn)要結(jié)構(gòu)示意
在利用原始圖像數(shù)據(jù)進(jìn)行模型訓(xùn)練時(shí),先通過輸入端進(jìn)行圖像預(yù)處理,將原始圖像數(shù)據(jù)經(jīng)RGB 灰度轉(zhuǎn)換之后,可得到一個(gè)三維的數(shù)值矩陣CHW,如圖2 所示。圖2 中,C 代表通道維度,通常為3,HW 代表了空間維度,H 為高度,W 為寬度,通道維度關(guān)注圖像各個(gè)點(diǎn)的顏色、明暗等信息,空間維度關(guān)注圖像每個(gè)像素點(diǎn)與周圍像素點(diǎn)的關(guān)聯(lián)關(guān)系。
圖2 原始圖像數(shù)據(jù)經(jīng)RGB 灰度轉(zhuǎn)換為CHW 數(shù)值矩陣
backbone 部分具有較強(qiáng)的計(jì)算效率,用于完成圖像數(shù)據(jù)的特征提取,其核心網(wǎng)絡(luò)是Focus 網(wǎng)絡(luò)和CSP1 網(wǎng)絡(luò);其中,F(xiàn)ocus 網(wǎng)絡(luò)主要負(fù)責(zé)對(duì)圖像進(jìn)行切片操作,CSP1 網(wǎng)絡(luò)主要負(fù)責(zé)特征提取。
neck 部分包含的CSP2 網(wǎng)絡(luò)用于融合來自不同特征圖層次的信息,以得到更豐富的特征表達(dá)。
最后,通過輸出端的CONV 網(wǎng)絡(luò)對(duì)圖像數(shù)據(jù)進(jìn)行卷積運(yùn)算,將運(yùn)算結(jié)果帶入Focal Loss 損失函數(shù),以得到不同尺度的特征圖,F(xiàn)ocal Loss 損失函數(shù)可緩解目標(biāo)檢測(cè)中類別不平衡的問題。在得到不同尺度的特征圖之后,再進(jìn)行非極大值抑制(NMS,Non-Maximum Suppression)處理,用于篩選邊界框,去除冗余的檢測(cè)框,得到最終的檢測(cè)結(jié)果。
1.1.2 坐標(biāo)注意力機(jī)制
坐標(biāo)注意力(CA,Coordinate Attention)機(jī)制,又稱為CA 注意力機(jī)制,是一種深度學(xué)習(xí)技術(shù),常用于處理序列數(shù)據(jù),可對(duì)圖像、音頻等信息進(jìn)行選擇和歸納。
CA 注意力機(jī)制模塊[8]可根據(jù)需要靈活嵌入到其它深度學(xué)習(xí)網(wǎng)絡(luò)中。例如,將CA 注意力機(jī)制模塊嵌入到網(wǎng)絡(luò)模塊A、B 之間,對(duì)應(yīng)的復(fù)合網(wǎng)絡(luò)結(jié)構(gòu)如圖3 所示。網(wǎng)絡(luò)模塊A 的輸出作為CA 注意力機(jī)制模塊的輸入,CA 注意力機(jī)制模塊的輸出又作為下一個(gè)模塊B 的輸入。
圖3 嵌入CA 注意力機(jī)制的復(fù)合網(wǎng)絡(luò)結(jié)構(gòu)示例
將CA 注意力機(jī)制用于處理圖3 中生成的CHW數(shù)值矩陣時(shí),能夠同時(shí)考慮通道維度和空間維度的關(guān)系,并通過學(xué)習(xí)自適應(yīng)地調(diào)整通道權(quán)重,使模型更關(guān)注有用的通道信息,抑制不重要的通道。CA 注意力機(jī)制模塊在通道維度上通過常規(guī)卷積操作調(diào)整權(quán)重,在空間維度上將輸入經(jīng)過Residual 網(wǎng)絡(luò)一分為二,分別進(jìn)行寬度W 方向和高度H 方向的平均池化操作,然后將池化后的特征圖拼接在一起,進(jìn)行BatchNorm 網(wǎng)絡(luò)和Non-linear 網(wǎng)絡(luò)計(jì)算,再接著通過Conv2d 網(wǎng)絡(luò)進(jìn)行卷積運(yùn)算,運(yùn)算結(jié)果再利用sigmoid激活函數(shù)和Re-weight 網(wǎng)絡(luò),去調(diào)整CA 注意力機(jī)制模塊的權(quán)重參數(shù),計(jì)算得到的最終結(jié)果輸出到下一個(gè)網(wǎng)絡(luò)模塊B。
1.1.3 ConvNext 網(wǎng)絡(luò)
ConvNext 網(wǎng)絡(luò)[9]是在Swin Transformer 結(jié)構(gòu)上改進(jìn)得到的一種卷積神經(jīng)網(wǎng)絡(luò),具有更高準(zhǔn)確率和更快計(jì)算速度,且具有模塊化的優(yōu)點(diǎn),便于嵌入到其它模型中。ConvNext 網(wǎng)絡(luò)主要由DownSample 模塊和Block 模塊構(gòu)成,其核心是Block 模塊。例如,將ConvNext 網(wǎng)絡(luò)嵌入到網(wǎng)絡(luò)A、B 之間,形成的一個(gè)復(fù)合網(wǎng)絡(luò),其簡(jiǎn)要結(jié)構(gòu)如圖4 所示。
圖4 ConvNext 網(wǎng)絡(luò)結(jié)構(gòu)示意
網(wǎng)絡(luò)A 的輸出先經(jīng)過DownSample 模塊處理,得到處理結(jié)果a,主要作用是過濾掉冗余特征,減少參數(shù)數(shù)量,保留關(guān)鍵信息。之后,處理結(jié)果a 復(fù)制成2 份,其中一份處理結(jié)果a1 先通過深度卷積層,計(jì)算結(jié)果利用Layer Norm 技術(shù)進(jìn)行歸一化處理,以使網(wǎng)絡(luò)更快地收斂;然后通過2 個(gè)大小一致的Conv2d 網(wǎng)絡(luò)進(jìn)行卷積運(yùn)算,并利用Layer Scale 對(duì)圖像進(jìn)行縮放,接著使用Drop Path 對(duì)輸出結(jié)果進(jìn)行正則化處理,以防止模型過擬合。最后,計(jì)算結(jié)果與另外一份未經(jīng)過處理的處理結(jié)果a2 疊加在一起,得到ConvNext 網(wǎng)絡(luò)的輸出作為下一層網(wǎng)絡(luò)B 的輸入。
本文研究采用基本YOLOv5 模型、YOLOv5+CA 改進(jìn)模型、YOLOv5+ConvNext Block 改進(jìn)模型來檢測(cè)2 類接觸網(wǎng)異物:鳥窩和輕質(zhì)異物(如風(fēng)箏、塑料等)。
改進(jìn)模型的基本結(jié)構(gòu)大致如圖5 所示,將CA注意力機(jī)制模塊與ConvNext Block 模塊分別嵌入到Y(jié)OLOv5 模型中neck 部分的第一個(gè)concat 層之后。
圖5 YOLOv5 改進(jìn)模型基本結(jié)構(gòu)示意
本文選取230 張?jiān)嫉慕佑|網(wǎng)圖像,利用圖像標(biāo)注工具對(duì)這些圖像進(jìn)行標(biāo)注,作為實(shí)驗(yàn)用數(shù)據(jù)集,用于訓(xùn)練和測(cè)試接觸網(wǎng)異物檢測(cè)模型。鳥窩主要出現(xiàn)在接觸網(wǎng)支架上,多為橢球形,輕質(zhì)異物主要為漂浮物,質(zhì)地較輕,多懸掛在弓網(wǎng)上面。230 張?jiān)紙D像中,部分圖像成像質(zhì)量較低,有的圖像含有多種異物目標(biāo)。
圖像標(biāo)注使用開源labelImg 軟件,將原始接觸網(wǎng)圖像標(biāo)注為VOC 標(biāo)簽格式,類別標(biāo)簽0 代表鳥窩(nest),1 代表輕質(zhì)異物(abnormal),將標(biāo)注好的圖像保存為xml 文件。標(biāo)注示例如圖6 所示。
圖6 鳥窩(nest)標(biāo)簽標(biāo)注
為方便模型訓(xùn)練,還需要將標(biāo)注生成的xml 格式文件轉(zhuǎn)換為txt 文件。在txt 文件中,第1 個(gè)值為異物類別標(biāo)簽,其余4 個(gè)值分別為經(jīng)過歸一化處理后的圖像標(biāo)注框的中心點(diǎn)坐標(biāo)(x,y)及寬(w)和高(h),將這些值與圖像作為實(shí)驗(yàn)用數(shù)據(jù)集。
實(shí)驗(yàn)環(huán)境配置如表1 所示。
表1 實(shí)驗(yàn)環(huán)境
按照大約8∶2 的比例,將實(shí)驗(yàn)用數(shù)據(jù)集(230張圖像)劃分訓(xùn)練集與測(cè)試集,其中187 張圖像用作訓(xùn)練集,43 張圖像用作測(cè)試集。
在模型訓(xùn)練過程中,為了避免出現(xiàn)局部最優(yōu)的可能性,使用隨機(jī)梯度下降算法(SGD,Stochastic Gradient Descent)作為模型優(yōu)化器。此外,為了加快模型收斂速度,將Yolo 官方提供的基于COCO 數(shù)據(jù)集訓(xùn)練的預(yù)訓(xùn)練權(quán)重作為初始權(quán)重,3 種模型相關(guān)參數(shù)設(shè)置如表2 所示。
表2 3 種模型相關(guān)參數(shù)
采用精確率(Precision)、召回率(Recall)、交并比(IoU)、平均準(zhǔn)確率(mAP,mean Average Precision)作為本文所研究算法的性能評(píng)價(jià)指標(biāo),對(duì)訓(xùn)練后的模型進(jìn)行評(píng)價(jià),對(duì)比分析這3 種模型檢測(cè)鳥窩和輕質(zhì)異物的效果。
對(duì)于機(jī)器學(xué)習(xí)的分類問題,TP 表示正類判定為正類,TN 表示負(fù)類判定為負(fù)類,F(xiàn)P 表示負(fù)類判定為正類,F(xiàn)N 表示正類判定為負(fù)類。
Precision 指正確預(yù)測(cè)為正的樣本占全部預(yù)測(cè)為正的樣本的比例,即
Recall 指正確預(yù)測(cè)為正的樣本占全部實(shí)際為正的樣本的比例,即
對(duì)于目標(biāo)檢測(cè)深度學(xué)習(xí)模型,除了需要檢測(cè)出目標(biāo)所屬種類,還需要判定目標(biāo)的位置。在進(jìn)行模型訓(xùn)練前,對(duì)樣本中的目標(biāo)進(jìn)行標(biāo)注,得到標(biāo)注框A。在應(yīng)用模型進(jìn)行目標(biāo)檢測(cè)時(shí),會(huì)生成檢測(cè)框B。IoU表示A 和B 的交集和并集的比值,用于衡量A 和B兩個(gè)區(qū)域的重疊程度,即
平均精度(AP,Average Precision)是模型檢測(cè)一個(gè)類別的PR(Precision-Recall)曲線與Recall 軸所圍成的面積。PR 曲線圖可反映樣本整體預(yù)測(cè)的效果,mAP 是全部類別下的AP 的均值,用于衡量模型檢測(cè)所有目標(biāo)的平均精度。mAP@0.5 表示IoU 設(shè)為0.5 時(shí)的平均精確度,mAP@0.5:0.95 表示IoU 從0.5到0.95,步長(zhǎng)為0.05 時(shí)的平均精確度。mAP 的值越大,代表檢測(cè)框的位置更加準(zhǔn)確。
YOLOv5 模型、YOLOv5+CA 改進(jìn)模型、YOLOv5+ConvNext Block 改進(jìn)模型實(shí)驗(yàn)結(jié)果對(duì)比見表3。
表3 3 種模型實(shí)驗(yàn)結(jié)果對(duì)比
由表3 可知:
(1)對(duì)于總體樣本(all),YOLOv5+ConvNext改進(jìn)模型在Precision、Recall、mAP 指標(biāo)上均優(yōu)于YOLOv5 模型和YOLOv5+CA 改進(jìn)模型,Precision和Recall 比YOLOv5 模型分別提高7.7% 和8.5%,mAP@0.5 提高8.1%;YOLOv5+CA 改進(jìn)模型效果次之,Recall、mAP@0.5:.95 均貼近YOLOv5+ConvNext改進(jìn)模型,YOLOv5 模型的檢測(cè)效果最差。
(2)從不同類型目標(biāo)的預(yù)測(cè)結(jié)果來看,3 種模型識(shí)別鳥窩(nest 標(biāo)簽)的Precision 略高于輕質(zhì)異物(abnormal 標(biāo)簽),且識(shí)別鳥窩的Recall 低于輕質(zhì)異物,表明這3 種模型檢測(cè)鳥窩的Precison 相對(duì)較高,其中 YOLOv5+ConvNext Block 改進(jìn)模型識(shí)別鳥窩的檢測(cè)效果最好。計(jì)算生成YOLOv5+ConvNext Block改進(jìn)模型的PR 曲線圖,如圖7 所示。當(dāng)召回率達(dá)到0.9 附近時(shí),精確率與召回率處于比較平衡的位置,超過該值之后,精確率大幅下降。鳥窩樣本曲線與Recall,Precision 軸相交的面積要大于輕質(zhì)異物樣本曲線,也從另一個(gè)方面表明:YOLOv5+ConvNext Block 改進(jìn)模型檢測(cè)鳥窩的效果較好。
圖7 YOLOv5+ConvNext Block 改進(jìn)模型的Precision 和Recall關(guān)系曲線
(3)圖8 給出了一個(gè)小尺寸目標(biāo)檢測(cè)結(jié)果示例,圖中的接觸網(wǎng)上懸掛著一個(gè)體積較小的塑料薄膜,YOLOv5 模型和YOLOv5+CA 改進(jìn)模型均未檢測(cè)出(對(duì)應(yīng)于圖8(a)),圖8(b)為YOLOv5+ConvNext Block 改進(jìn)模型的檢測(cè)結(jié)果圖,相較于其它兩種模型,YOLOv5+ConvNext Block 改進(jìn)模型能夠更好地檢測(cè)出小尺寸目標(biāo),且置信度為0.69,處于一個(gè)較高水平。
圖8 YOLOv5 模型與YOLOv5+ConvNext Block 改進(jìn)模型的檢測(cè)結(jié)果對(duì)比示例
本文在YOLOv5 算法的基礎(chǔ)上,構(gòu)建基于深度學(xué)習(xí)的接觸網(wǎng)異物檢測(cè)模型,利用包含鳥窩和輕質(zhì)異物的接觸網(wǎng)圖像數(shù)據(jù)集,對(duì)比分析YOLOv5 模型、YOLOv5+CA 改進(jìn)模型和YOLOv5+ConvNext Block改進(jìn)模型的識(shí)別效果。實(shí)驗(yàn)結(jié)果表明,在識(shí)別和定位鳥窩和輕質(zhì)異物2 種常見的接觸網(wǎng)異物方面,本文提出的2 種改進(jìn)模型相對(duì)于YOLOv5 模型具有更好的性能,且YOLOv5+ConvNext Block 改進(jìn)模型在檢測(cè)小尺寸異物方面的能力較強(qiáng)。
本文通過建模實(shí)驗(yàn),初步探討了利用基于深度學(xué)習(xí)的目標(biāo)檢測(cè)技術(shù)實(shí)現(xiàn)鐵路接觸網(wǎng)異物檢測(cè)的可行性。本文研究采用的接觸網(wǎng)圖像數(shù)據(jù)集僅包含鳥窩和輕質(zhì)異物2 類常見異物,對(duì)3 種模型的識(shí)別效果的對(duì)比分析只限于這兩類異物。魯棒性和計(jì)算復(fù)雜性是目標(biāo)檢測(cè)的兩大挑戰(zhàn),考慮到技術(shù)的實(shí)用化,后續(xù)研究將在豐富和擴(kuò)充接觸網(wǎng)圖像數(shù)據(jù)集的基礎(chǔ)上,在提高模型識(shí)別更多類型目標(biāo)能力的同時(shí),進(jìn)一步研究提高模型的計(jì)算效率,加快推動(dòng)鐵路接觸網(wǎng)異物檢測(cè)技術(shù)的成功應(yīng)用。