關鍵詞:人工智能;電網(wǎng)作業(yè)現(xiàn)場;智能化違章識別技術;YOLOv5
中圖分類號:TM743;TP391.41 文獻標識碼:A 文章編號:1001-5922(2024)12-0158-04
電網(wǎng)作業(yè)現(xiàn)場環(huán)境復雜,潛在危險因素多,違章作業(yè)是導致危險的根源。人工監(jiān)管不僅成本高,同時效率低,電網(wǎng)作業(yè)現(xiàn)場違章智能化識別變得迫在眉睫。通過智能化違章識別技術對存在的違章行為發(fā)出警告,降低工人作業(yè)風險[1]。引入遷移學習和群優(yōu)化算法,提出了基于深度學習的電力作業(yè)安全帶佩戴檢測算法,該算法能夠在數(shù)據(jù)集少的情況下依舊實現(xiàn)比較高的檢測準確率[2]。提出了基于YOLOv4的安全帽佩戴檢測網(wǎng)絡SR-YOLO,可以快速、精準檢測安全帽的佩戴情況[3]。對YOLOv4主干網(wǎng)絡的殘差塊采用深度可分卷積與壓縮激勵組成的模塊替換,有效減少了網(wǎng)絡的深度和參數(shù)量,同時網(wǎng)絡檢測的平均精準度有所提升[4]。采用深度可分離卷積替代常規(guī)卷積,對YOLOX網(wǎng)絡進行改進,同時檢測的速度也有所提升,更適合在實際工程環(huán)境中應用[5]。基于此,對YOLOv5算法進行改進,并用于電網(wǎng)作業(yè)現(xiàn)場行為識別,期待為電網(wǎng)現(xiàn)場安全管理提供技術支持。
1智能化違章識別模型及評價標準
1.1YOLOv5算法
YOLOv5是YOLO系列的最新版本,其在目標檢測上具有良好的實時性能[6]。YOLOv5的核心思想是將目標檢測視為回歸問題,采用卷積神經(jīng)網(wǎng)絡直接預測檢測目標的邊界框與類別。YOLOv5采用卷積神經(jīng)網(wǎng)絡架構,由PyTorch框架實現(xiàn)。YOLOv5結(jié)構包括卷積層、殘差塊、上采樣層。
為了增強模型的魯棒性,Input采用Mosaic數(shù)據(jù)增強。隨機使用4張圖片,在隨機位置進行裁剪、旋轉(zhuǎn)、拼接、調(diào)整亮度,從而豐富數(shù)據(jù)集,達到提升對小物體識別性能的目的[8]。為提高檢測精度,YO?LOv5使用了不同尺寸的錨點框,以適應不同尺寸和形狀的目標。YOLOv5的輸出層包括若干個檢測頭(Detection Heads),每個檢測頭負責預測一組目標。每個目標由邊界框(Bounding Box)和類別標簽組成。每個檢測頭預測了多個不同尺寸的邊界框。YOLOv5引入了特征金字塔結(jié)構,以在不同網(wǎng)絡層次上融合特征,以便檢測不同尺寸的目標[9]。特征金字塔結(jié)構自頂向下進行特征傳遞,可以有效解決多尺度問題。YOLOv5使用一種綜合損失函數(shù),其數(shù)學表達式為[10]
1.2YOLOv5算法改進
考慮到電網(wǎng)作業(yè)現(xiàn)場背景比較復雜,而YOLOv5為復雜背景比較敏感,攝像頭下的小目標往往無法識別,因此對YOLOv5算法進行改進[11]。為檢測復雜背景下的小目標,增加160×160的檢測層,將每個雙向路徑采用BiFPN層進行連接,同時在每一個檢測層輸出前增加CBAM,具體結(jié)構如圖1所示。
改進YOLOv5算法增加了對小目標檢測的特征層,具體為在原有的16層基礎網(wǎng)絡上引入了Bottle?neckCSP和CONV層,用于特征提取[12]。進行上采樣操作,將特征圖擴展到160×160的尺寸。繼續(xù)進行BottleneckCSP處理,通過卷積操作獲得用于預測較小目標的特征圖。經(jīng)改進,模型可充分利用來自不同尺度的特征圖,以更好地預測目標。將骨干網(wǎng)絡提取的下采樣特征與Head的上采樣特征進行融合,然后融合Head下采樣特征,以增強網(wǎng)絡的語義信息。采用BiFPN層去取代原網(wǎng)絡結(jié)構的張量拼接Concat層。
卷積注意力模塊CBAM是一種輕量級的卷積注意力模塊,其通過獨立的通道維度和空間維度來有針對性地推斷注意力,從而使模型能夠更聚焦于關鍵區(qū)域,達到增強特征圖重要特征并抑制無關特征的目的[13]。CBAM模塊由通道注意力模塊與空間注意力模塊兩部分構成,其中通道注意力模塊所關注的是特征圖通道信息,空間注意力模塊所關注的是特征圖空間位置信息。兩模塊協(xié)同工作,使模型在通道維度和空間維度上均能有效地捕捉特征,提高模型的性能。CBAM模塊結(jié)構如圖2所示。
由圖2可知,通道注意力模塊對輸入特征圖進行最大池化和平均池化操作,然后進行共享MLP,兩者相加在激勵函數(shù)作用下與輸入特征圖相乘得到通道注意力??臻g注意力模塊在獲得通道注意力模塊的特征圖之后分別進行最大池化和平均池化操作,拼接后通過卷積操作、激活操作得到空間注意力。最后和通道注意力特征圖相乘得到最后的輸出特征圖。在Head分支下采樣階段的BottleneckCSP后添加CBAM模塊。通過特征融合可以使得目標特征的表達更好,對電網(wǎng)作業(yè)現(xiàn)場違章識別具有更好的魯棒性。
1.3現(xiàn)場違章動態(tài)跟蹤
在電網(wǎng)作業(yè)現(xiàn)場安裝攝像頭,通過攝像頭獲取實時視頻流。采用DeepSORT調(diào)用改進的YOLOv5目標檢測模型,從而得到視頻流每一幀圖像所對應的邊界框,同時通過對圖像特征的提取來保留邊界框與特征[14]。DeepSORT是一種強大的多目標跟蹤方法,結(jié)合了目標檢測、目標重識別和運動建模,能夠?qū)崿F(xiàn)在視頻中精確跟蹤和標識多個目標[15]。Deep?SORT使用改進YOLOv5在每一幀中檢測圖像中的目標,檢測器將每個目標標識為一個邊界框,并為其分配一個唯一的ID。為了處理目標在不同幀中的外觀變化,DeepSORT引入了目標重識別技術,在不同幀中重新識別相同的目標,并將其與之前的跟蹤目標關聯(lián)起來[16]。DeepSORT使用卡爾曼濾波器來對目標的運動進行建模,實現(xiàn)平滑的跟蹤??柭鼮V波器可以估計目標的位置和速度,并根據(jù)模型的預測來修正目標的位置。DeepSORT管理目標的軌跡,為每個跟蹤的目標分配唯一的ID,并在不同幀之間保持軌跡的連貫性[17]。
1.4模型性能評價標準
采用FPS(Frame Per Second)來衡量模型的實時性,其為每秒鐘檢測圖片的數(shù)量,數(shù)學表達式為[18]:
式中:N為每秒鐘成功處理圖像的數(shù)量;M為時間窗口的秒數(shù)。
FPS數(shù)值越大,其表明檢測模型能夠以更快的速度處理輸入數(shù)據(jù),從而提供更快的實時響應。
mAP(Mean Average Precision)是一種用于評估目標檢測模型性能的指標,其考慮了模型在多個類別上的準確性和召回率,然后取平均值,其數(shù)學表達式為[19]:
式中:TP為正確預測的正樣本;FP為錯誤預測的負樣本;FN為錯誤預測的正樣本。
2消融實驗分析
為對比不同組成部分對模型性能的影響,構造消融實驗[20]。對YOLOv5算法的改進主要是3個方面,分別是增加檢測層、BiFPN層去取代原網(wǎng)絡結(jié)構的張量拼接Concat層以及增加注意力模塊CBAM。采用1024張測試圖片開展消融實驗,結(jié)果如表1所示。
由表1可知,通過增加檢測層、BiFPN層去取代原網(wǎng)絡結(jié)構的張量拼接Concat層以及增加注意力模塊CBAM可以明顯提升R值和mAP值,使得網(wǎng)絡的目標識別性能得到明顯提升,同時泛化能力也有所改進,但是FPS有一定程度的下降。從整體上來看,F(xiàn)PS的變化并不大,可以滿足實時性要求,即可以通過犧牲計算時間的方式來換取更高的目標識別精度。
3實例分析
3.1數(shù)據(jù)來源
電網(wǎng)作業(yè)現(xiàn)場的違章主要包括未正確佩戴安全帽、未規(guī)范穿著工裝、未佩戴安全帶等。電網(wǎng)作業(yè)現(xiàn)場視頻來源主要有2種形式,一種是通過相機實時拍攝并保存到本地視頻文件中,另一種是通過電網(wǎng)作業(yè)現(xiàn)場的攝像頭獲取。伴隨著信息網(wǎng)絡技術的快速發(fā)展,大部分的電網(wǎng)作業(yè)現(xiàn)場均安裝有攝像頭,通過攝像頭來獲取現(xiàn)場視頻流。采用電網(wǎng)作業(yè)現(xiàn)場布置的攝像頭獲取電網(wǎng)作業(yè)現(xiàn)場視頻流,同時對規(guī)范穿工裝和未穿工裝的行為進行標記??紤]受到天氣、溫濕度等各種因素的影響,所獲取的電網(wǎng)作業(yè)現(xiàn)場視頻可能存在質(zhì)量比較差的視頻。因此對拍攝的視頻進行篩選,將一些不包含作業(yè)工人以及質(zhì)量比較差的視頻剔除,并每隔60幀對視頻流進行保存,從而得到電網(wǎng)現(xiàn)場作業(yè)圖片。
3.2結(jié)果分析
對攝像頭采集的視頻數(shù)據(jù)進行人員檢測與跟蹤,結(jié)果如圖3所示。
由圖3可知,圖中共有6名工人,其中有4名工人沒有穿戴工裝,同時其中有1名穿戴工裝的工人被另外1名穿戴工裝的工人遮擋,有1名未穿戴工裝人員被另外1名未穿戴工裝的工人遮擋,但是改進YO?LOv5依舊可以確保目標識別的精度。
4結(jié)語
電網(wǎng)作業(yè)現(xiàn)場智能化違章識別是避免違章作業(yè),確保作業(yè)安全的有效舉措。針對YOLOv5對復雜背景敏感,小目標無法識別的問題,通過增加檢測層、BiFPN層去取代原網(wǎng)絡結(jié)構的張量拼接Concat層、增加注意力模塊CBAM來對YOLOv5進行改進。通過消融實驗驗證了改進的YOLOv5相對于改進前R和mAP值明顯提升,但FPS有一定程度的下降,依舊可以滿足實時性要求。通過DeepSORT調(diào)用改進的YOLOv5目標檢測模型,對攝像頭采集的電網(wǎng)作業(yè)現(xiàn)場視頻流進行分析。改進的YOLOv5能夠有效檢測工人是否穿戴工裝,同時對部分被遮擋的工人也可以做到精準識別。這對降低現(xiàn)場安全管控成本,確保工人安全具有一定的實用價值。