王 茹,劉大明,張 健
1.上海電力大學(xué)計算機(jī)科學(xué)與技術(shù)學(xué)院,上海 201306
2.中國科學(xué)院等離子體物理研究所電源及控制工程研究室,合肥 230031
隨著國家智能電網(wǎng)建設(shè)進(jìn)程的深入,變電站的數(shù)量也與日俱增,隨之而來的運維檢修任務(wù)也愈加繁重。由于電力安全管理工作不到位和施工人員安全意識淡薄等原因,每年都有電力生產(chǎn)安全事故的發(fā)生,造成人員傷亡和直接的經(jīng)濟(jì)損失[1]。根據(jù)電力檢修事故的調(diào)查結(jié)果顯示,若電力工作人員能正確使用安全裝備(例如安全帽、工作服、絕緣手套和絕緣鞋等),將顯著減少在意外事件發(fā)生時的傷害和死亡風(fēng)險[2]。傳統(tǒng)的電力生產(chǎn)作業(yè)過程中主要通過人力巡查對電力工作人員的著裝進(jìn)行監(jiān)督以免意外發(fā)生。近些年,計算機(jī)視覺技術(shù)的發(fā)展有效地克服了人工監(jiān)督效率低下和成本過高的問題,其中采用圖像對電力行業(yè)工作現(xiàn)場違規(guī)著裝獲取現(xiàn)場信息,簡單方便且不與電力工作人員發(fā)生接觸,實現(xiàn)對電力現(xiàn)場帶電作業(yè)安全目標(biāo)檢測,有效預(yù)防電力施工安全事故,具有很高的研究空間和應(yīng)用價值。
在早期的研究中,主要關(guān)注的是安全帽檢測[3-4]。例如:劉曉慧等人[4]采用膚色檢測的方法來定位頭部以上的區(qū)域圖像并使用支持向量機(jī)(SVM)對是否佩戴安全帽進(jìn)行分類。另外部分文獻(xiàn)對人體著裝也進(jìn)行了檢測,陳健[5]利用人體比例約束模型和HSV 顏色空間中的特征提取進(jìn)行上衣和褲子分類。上述檢測方式都需要獲取工人的正向人臉信息或正面人體信息才能進(jìn)行處理,但在現(xiàn)實場景中難以實現(xiàn)。除了對電力工作人員有安全帽、安全帶、工作服的著裝要求外,電力工作人員在進(jìn)行驗電斷電過程中是否佩戴橡膠絕緣手套也是一項非常重要的安全問題[6]。
隨著深度學(xué)習(xí)模型的興起,國內(nèi)外學(xué)者應(yīng)用深度學(xué)習(xí)的方法對安全帽、安全帶和工作服等安全裝備進(jìn)行檢測[7-11],在目標(biāo)檢測領(lǐng)域取得了一系列顯著的成果。然而,當(dāng)前文獻(xiàn)中對絕緣手套的檢測研究相對較為有限,大多數(shù)研究聚焦于電力從業(yè)人員穿戴安全裝備,尤其是對絕緣手套的佩戴情況展開研究[12-13]。相較之下,極為有限的文獻(xiàn)著眼于電力從業(yè)人員在實際工作中未佩戴絕緣手套的情況進(jìn)行直接檢測[2,9]。這種現(xiàn)象導(dǎo)致在實際電力工作場景中,對于未佩戴絕緣手套的檢測存在明顯的研究空白,未能充分發(fā)揮計算機(jī)視覺技術(shù)在監(jiān)督檢測電力從業(yè)人員安全裝備佩戴的潛在作用。2022年,劉思佳[9]提出通過利用監(jiān)控攝像頭采集的視頻,運用計算機(jī)視覺技術(shù)對工作人員的著裝情況進(jìn)行監(jiān)測。系統(tǒng)通過視頻幀處理、Mask-RCNN 人體分割和VGG16 分類,實現(xiàn)對安全帽、工作服、工作褲、絕緣手套、絕緣靴的穿戴情況檢測。但是文章所用數(shù)據(jù)為作者組織錄制,場景和背景較為簡單,在實際電力場景下的檢測效果不佳。張伍康等人[2]提出針對絕緣手套的目標(biāo)檢測算法,他們在對電力工作人員是否佩戴絕緣手套的監(jiān)測中,應(yīng)用了改進(jìn)RetinaNet網(wǎng)絡(luò)的檢測算法。該文獻(xiàn)采用了多尺度特征提取骨干網(wǎng)絡(luò)Res2Net 對輸入圖像的特征圖進(jìn)行提取,再將提取到的特征圖分別輸入兩個子網(wǎng)絡(luò),最后得到包含絕緣手套邊界框的輸出圖像。文獻(xiàn)對電力復(fù)雜場景下的工作人員是否佩戴絕緣手套進(jìn)行了檢測,但是對未佩戴絕緣手套的檢測效果并不理想,其檢測精度和召回率仍需進(jìn)一步提高。
變電站環(huán)境復(fù)雜,而對是否佩戴絕緣手套需要對電力工作人員的手部進(jìn)行檢測,屬于小目標(biāo)檢測[2],加大了檢測難度。其次,電力人員的手部的姿勢和手指的動作也靈活多變,且手部面積占比較小動作很容易被其他物體或場景元素部分或完全遮擋,這些因素會增加對電力工作人員是否佩戴絕緣手套的檢測難度。目前的模型算法對此類目標(biāo)的研究成果較少且檢測效果不佳,因此本文選用YOLOv8n 模型進(jìn)行改進(jìn),針對這些問題提出了變電站電力人員安全裝備檢測算法Wear-YOLO,主要貢獻(xiàn)如下:
(1)本文將主干網(wǎng)絡(luò)中第五層C2f 模塊替換為MobileViTv3[14]模塊,MobileViTv3模塊先通過輕量級卷積操作對局部信息進(jìn)行提取,經(jīng)過一系列的Transformer塊,用于引入全局上下文信息,并將其與局部信息相融合,以此提供更準(zhǔn)確的特征表示,從而提高模型的檢測精度。
(2)添加了一個小目標(biāo)檢測層來幫助網(wǎng)絡(luò)更好地捕捉淺層的語義信息,利用多尺度特征幫助模型更好地處理不同大小的目標(biāo),使得模型在檢測小目標(biāo)時更加準(zhǔn)確,提高模型檢測精度。
(3)提出了WIoUv3[15]損失函數(shù)優(yōu)化邊界框預(yù)測,該方法通過引入動態(tài)非單調(diào)聚焦機(jī)制來解決目標(biāo)檢測中低質(zhì)量示例的問題,通過權(quán)衡低質(zhì)量示例和高質(zhì)量示例的學(xué)習(xí)使模型更專注于普通質(zhì)量的錨框,提高了模型在復(fù)雜場景下的泛化能力和準(zhǔn)確度。
基于深度學(xué)習(xí)的目標(biāo)檢測算法分為兩階段模型和一階段模型?;谏疃葘W(xué)習(xí)的二階段目標(biāo)檢測模型是將目標(biāo)檢測任務(wù)分為兩個階段:首先生成候選目標(biāo)框,然后通過分類和回歸模塊對這些候選框進(jìn)行精確的分類和位置調(diào)整。經(jīng)典的兩階段模型主要有:R-CNN(region convolutional neural networks)[16]、Fast R-CNN[17]和Faster R-CNN[18]。由于需要進(jìn)行兩次前向傳播,這類模型的精度較高,但速度相對較慢,因此研究人員提出通過在單次前向傳播中直接預(yù)測目標(biāo)框的類別和位置,具有較高的檢測速度和實時性能的一階段模型。經(jīng)典的一階段模型有:YOLO(you only look once)系列算法[19-24]、SSD(single shot multibox detector)[25]和RetinaNet。
YOLOv8是Ultralytics公司于2023年1月10日推出的YOLO系列模型的最新版本之一。YOLOv8n是相對于其他版本來說更加輕量級的模型,采用了較小的網(wǎng)絡(luò)結(jié)構(gòu),參數(shù)量和計算復(fù)雜度較低,適用于資源受限的設(shè)備和場景。它在保持較高的檢測精度的同時,具有更快的推理速度和更小的模型大小??紤]到實際應(yīng)用要求,本文選用YOLOv8n為基礎(chǔ)模型。YOLOv8網(wǎng)絡(luò)結(jié)構(gòu)包括Input、Backbone、Head 和Prediction四個部分。首先,骨干網(wǎng)絡(luò)采用CSPDarknet,使用CSP(cross stage partial)連接加強(qiáng)特征傳遞。其次,YOLOv8 引入C2f 模塊替換C3 模塊,以獲取更豐富的梯度流信息。在Neck 部分,YOLOv8 仍采用PAFPN 結(jié)構(gòu)來構(gòu)建特征金字塔,實現(xiàn)多尺度目標(biāo)信息提取。最后,檢測頭部分引入解耦頭(decoupled head)將定位任務(wù)和分類任務(wù)放置在兩條并行的分支中分別提取類別特征和位置特征,使網(wǎng)絡(luò)能夠更好地處理目標(biāo)檢測任務(wù)。YOLOv8 使用Anchor-free方式,動態(tài)分配正負(fù)樣本,Loss計算使用BCE、distribution focal loss和CIOU損失函數(shù)。
YOLOv8為目前最新的目標(biāo)檢測算法之一,將其應(yīng)用于電力場景的安全裝備檢測時,需要充分考慮移動設(shè)備的硬件性能限制。為了適應(yīng)實時性要求,本文選擇了YOLOv8n 算法的最小權(quán)值模型。然而,實際檢測中發(fā)現(xiàn),YOLOv8n算法存在一些問題。首先,在電力設(shè)備安全裝備檢測這樣的特殊場景中,可能涉及到復(fù)雜的光照條件、遮擋、不同尺度的目標(biāo)等挑戰(zhàn),需要更專門的模型結(jié)構(gòu)或訓(xùn)練策略。其次,對于電力設(shè)備安全裝備檢測,要求模型具有高的準(zhǔn)確性。然而,YOLOv8n 算法在處理電力場景下的安全裝備檢測時表現(xiàn)并不理想,容易出現(xiàn)誤檢和漏檢的問題。
為了提高變電站電力人員安全裝備的檢測效果,本文提出了Wear-YOLO 算法,網(wǎng)絡(luò)結(jié)構(gòu)如圖1 所示。本文首先考慮將主干網(wǎng)絡(luò)中第二個C2f 模塊替換為MobileViTv3 模塊,MobileViTv3 采用Transformer 的注意力機(jī)制,旨在在全局范圍內(nèi)捕捉圖像的特征信息。相對于傳統(tǒng)的C2f 結(jié)構(gòu),MobileViTv3 可能能夠更好地捕捉圖像中的長程依賴和上下文信息,從而更好地理解整個圖像場景,提供了更豐富的語境信息,進(jìn)一步提高模型在復(fù)雜環(huán)境下的特征提取能力。在此基礎(chǔ)上,針對小目標(biāo)檢測效果差的問題,增加了小目標(biāo)檢測分支,幫助網(wǎng)絡(luò)更好地捕捉淺層的語義信息,提高了對未佩戴絕緣手套等小目標(biāo)的檢測精度;最后,為了更好地引導(dǎo)模型訓(xùn)練,邊界框回歸預(yù)測使用WIoUv3損失函數(shù)。通過合理的梯度分配機(jī)制,使模型更注重于對普通質(zhì)量錨框的學(xué)習(xí),從而增強(qiáng)了模型的泛化能力和檢測性能。
圖1 Wear-YOLO網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 Wear-YOLO network structure
MobileViT 模塊的結(jié)構(gòu)如圖2 所示,可以使用較少的參數(shù)對輸入張量中的局部和全局信息進(jìn)行建模。對于輸入的張量X∈?H×W×C,MobileViT 首先用一個n×n和1×1卷積得到XL∈?H×W×d。為了使MobileViT能夠?qū)W習(xí)具有空間歸納偏置的全局表示,MobileViT 首先將XL展開為N個不重疊的patch,并對于每個p∈{1,2,…,P} 通過Transformer 對patch 間關(guān)系進(jìn)行編碼,獲得:
圖2 MobileViT模塊結(jié)構(gòu)Fig.2 MobileViT module structure
與丟失像素空間順序的ViT 不同,MobileViT 既不會丟失patch順序,也不會丟失每個patch內(nèi)像素的空間順序。MobileViT 折疊了來獲得XF∈?H×W×d,然后使用1×1卷積將XF投影到第C維空間,并通過級聯(lián)操作與X組合。然后使用n×n卷積來融合局部和全局特征。由于XU(p)使用卷積對n×n區(qū)域的局部信息進(jìn)行編碼,而XG(p)對P個patch 中的第p個位置的全局信息進(jìn)行編碼,因此XG可以對X中的全局信息進(jìn)行感知。因此,考慮對MobileViT模塊進(jìn)一步改進(jìn),利用其對局部和全局信息建模,使其在保持參數(shù)較少的情況下,進(jìn)一步提升模型對于是否佩戴絕緣手套等小目標(biāo)上的檢測性能。本文將主干網(wǎng)絡(luò)中第五層C2f模塊替換為MobileViTv3 模塊,MobileViTv3 模塊先通過卷積塊對局部信息進(jìn)行提取,使模型能夠更好地識別物體的輪廓、紋理和形狀,有助于區(qū)分目標(biāo)與背景或其他物體之間的差異;同時,MobileViTv3 模塊使用Transformer 中的自注意力機(jī)制對輸入的特征圖進(jìn)行全局的關(guān)聯(lián)性計算,這樣就可以捕獲長距離依賴和上下文信息,幫助模型對視覺場景進(jìn)行全局理解,提供更準(zhǔn)確的特征表示,使模型在光線昏暗或有遮擋的情況下也能更準(zhǔn)確地理解圖像中的物體位置和特征,進(jìn)一步增強(qiáng)了特征的表達(dá)能力,從而提高模型的檢測精度。針對是否佩戴絕緣手套的小目標(biāo)檢測面臨的挑戰(zhàn),在于手部面積小,檢測難度大,因此能夠從圖像中提取到的信息和特征非常有限,而手部與人員和操作桿等物體位置隱藏著諸多關(guān)聯(lián)信息。傳統(tǒng)的目標(biāo)檢測方法感受野有限,只能獲取局部上下文信息。為了解決這個問題,Transformer被引入計算機(jī)視覺領(lǐng)域[26-29]。MobileViT[30]結(jié)合了CNN和ViT 中輸入自適應(yīng)加權(quán)和全局處理的特點,使用Transformer 作為卷積來學(xué)習(xí)全局信息,有效地將局部和全局信息進(jìn)行編碼,并在一定程度上解決了基于Transformer的檢測模型存在計算量大和復(fù)雜的問題。
MobileViTv3 主要對MobileViTv1 塊的四個主要更改如圖3所示。融合塊(fusion block)中有三個更改:首先,3×3 卷積層替換為1×1 卷積層。3×3 卷積層融合了輸入特征、全局特征以及其他位置的輸入和全局特征,同時有助于減少參數(shù)量和計算復(fù)雜度,使得模型更加輕量化,適用于資源受限的設(shè)備。其次,因為與輸入特征相比,局部表示特征與全局表示特征的關(guān)系更密切,所以將局部和全局表示塊的特征融合在一起,而不是將輸入和全局表示塊融合在一起。第三,在生成MobileViT模塊的輸出之前,將輸入特征添加到融合塊中作為最后一步。在MobileViTv3 塊中引入殘差連接,通過將原始特征圖與經(jīng)過注意力機(jī)制和深度卷積處理后的特征圖相加,從而實現(xiàn)信息的跨層傳遞,進(jìn)一步提高了模型的性能,此提升也在實驗中得到驗證[14]。第四個變化是在局部表示塊中,將普通的3×3卷積層被3×3深度卷積層取代。深度卷積的分離性質(zhì)使得模型可以更加有效地學(xué)習(xí)特征,這對精度增益沒有太大影響,并提供了良好的參數(shù)和精度權(quán)衡。
圖3 MobileViTv3對MobileViTv1模塊的改進(jìn)示意圖Fig.3 Schematic improvement diagram of MobileViTv3 to MobileViTv1 module
在YOLOv8 網(wǎng)絡(luò)中添加了一個小目標(biāo)檢測層來提高對極小目標(biāo)的檢測能力。卷積神經(jīng)網(wǎng)絡(luò)的淺層網(wǎng)絡(luò)提取的特征與輸入比較近,包含了圖像的一些顏色、紋理和邊緣等細(xì)節(jié)信息,深層網(wǎng)絡(luò)經(jīng)過多次卷積池化之后更多提取的是抽象的語義信息,小目標(biāo)的特征容易被掩蓋或丟失,而目標(biāo)的細(xì)節(jié)和邊緣信息對于精確的分類和定位有至關(guān)重要的作用。因此小目標(biāo)檢測層將第2 層的特征圖添加到特征融合網(wǎng)絡(luò)中,幫助網(wǎng)絡(luò)更好地捕捉淺層的語義信息,從而提升對極小目標(biāo)的檢測精度。以下為其公式表達(dá)式:
其中,P2/4neck表示Neck 中P2 層的尺寸相對于輸入圖像的尺寸縮小了4 倍,同理,P2/4backbone表示骨干網(wǎng)絡(luò)中P2 層的尺寸相對于輸入圖像的尺寸縮小了4 倍。具體來說,在兩次Upsample上采樣和Concat之后,再進(jìn)行一次上采樣操作得到大小為160×160的特征圖,特征圖經(jīng)過上采樣和融合不同尺度的特征后,具有更強(qiáng)的語義信息和更精細(xì)的空間信息,從而能夠更好地區(qū)分和檢測極小目標(biāo)。然后,將得到的特征圖與骨干網(wǎng)絡(luò)第二層的輸出進(jìn)行Concat 操作,進(jìn)一步融合不同尺度的特征信息,并引入一個C2f 模塊對融合后的特征圖進(jìn)行處理,保持其大小為160×160,最后得到一個極小目標(biāo)檢測層。這樣做可以使網(wǎng)絡(luò)同時關(guān)注不同尺度的特征信息,從而提高對不同大小目標(biāo)的適應(yīng)性。特別是在檢測極小目標(biāo)時,融合多尺度特征能夠幫助網(wǎng)絡(luò)更好地捕捉目標(biāo)的細(xì)節(jié)信息。此外,改進(jìn)之后的小目標(biāo)檢測層使用第三次上采樣前的特征圖輸出進(jìn)行Concat 操作。這樣的改進(jìn)提升了模型在細(xì)微紋理、邊界和細(xì)微變化方面的檢測性能,從而在復(fù)雜場景中更準(zhǔn)確地定位和識別目標(biāo),同時也增強(qiáng)了模型對多尺度特征的融合能力,使得模型更適用于檢測不同尺度的目標(biāo)。
在目標(biāo)檢測中,邊界框回歸(bounding box regression)是決定目標(biāo)定位性能的關(guān)鍵步驟。YOLOv5 模型中使用CIoU Loss[31]作為邊界框回歸的損失函數(shù)。CIoU 在DIoU[31]的基礎(chǔ)上將即邊界框的縱橫比考慮進(jìn)損失函數(shù)中,共考慮了三個重要的幾何因素:重疊區(qū)域、中心點距離和縱橫比,進(jìn)一步提升了收斂速度和檢測精度。但由于使用了復(fù)雜的函數(shù)計算,CIoU 在計算過程中消耗了大量的算力,增加了訓(xùn)練時間。WIoU 提出了一種動態(tài)非單調(diào)聚焦機(jī)制,它使用outlier degree(異常程度)來評估錨框的質(zhì)量,而不是傳統(tǒng)的IoU。outlier degree 反映了錨框與真實目標(biāo)之間的差異,可以指示低質(zhì)量示例和高質(zhì)量示例。對于高質(zhì)量錨框,降低其競爭性,使得模型更加關(guān)注普通質(zhì)量的錨框。同時,對于低質(zhì)量示例,減少其產(chǎn)生有害梯度的影響,從而降低對模型訓(xùn)練的干擾,提高模型對于復(fù)雜情況的適應(yīng)能力。這樣的策略使得WIoU能夠更加專注于普通質(zhì)量的錨框,這在光線昏暗和遮擋等困難情況下,有助于提高目標(biāo)檢測的準(zhǔn)確率和穩(wěn)定性,從而提高了模型的泛化性能。WIoU 共有三個版本,其中WIoUv1 構(gòu)建了基于注意力的邊界框損失,WIoUv2 和WIoUv3 是在v1 的基礎(chǔ)上在Fcous 機(jī)制上添加梯度增益得到的。圖4 中,紫色矩形表示目標(biāo)框,藍(lán)色矩形表示預(yù)測框,綠色矩形表示最小邊界框。
圖4 目標(biāo)框、預(yù)測框、最小邊界框示意圖Fig.4 Schematic diagram of target box,prediction box,and minimum bounding box
WIoUv1的損失函數(shù)LWIoUv1的計算公式如下所示:
其中,RWIoU∈[1,e) 這將放大普通質(zhì)量錨框的LIoU,LIoU∈[0,1] 這將降低高質(zhì)量錨框的RWIoU,并且當(dāng)錨框與目標(biāo)框重合良好時,其重點關(guān)注中心點之間的距離。
為了使模型可以專注于困難示例并獲得分類性能的提升,WIoUv2引入單調(diào)注意力系數(shù),其損失函數(shù)計算公式如下所示:
WIoUv3 將非單調(diào)聚焦系數(shù)β應(yīng)用于WIoUv1,其計算公式如下所示:
β是非單調(diào)聚焦系數(shù),α和δ是超參數(shù)。當(dāng)β=δ,r=1且錨框的離群度滿足β=C(C為固定值)時,錨框?qū)@得最高的梯度增益。β和r的值由超參數(shù)α和δ控制。超參數(shù)α和δ、異常值β和梯度增益r之間的關(guān)系如圖5所示。
實驗訓(xùn)練模型使用的數(shù)據(jù)集是來自天池算法大賽中廣東電網(wǎng)智慧現(xiàn)場作業(yè)挑戰(zhàn)賽絕緣手套識別數(shù)據(jù)集以及網(wǎng)絡(luò)上收集的一些的圖像。經(jīng)過數(shù)據(jù)清洗之后共選取了2 788 張圖片,每張圖片的樣本標(biāo)簽均采用LabelImg標(biāo)注軟件進(jìn)行人工標(biāo)注,并將xml格式轉(zhuǎn)換為txt格式。數(shù)據(jù)集以9∶1的比例分為訓(xùn)練集2 509張和測試集279 張。數(shù)據(jù)集共包括了9 類樣本標(biāo)簽,包括安全帽、佩戴絕緣手套、未佩戴絕緣手套(包括沒有佩戴絕緣手套和佩戴錯誤的勞保手套)、絕緣鞋和其他類別,具體樣本標(biāo)簽及解釋如表1所示。
表1 電力安全裝備數(shù)據(jù)集標(biāo)簽說明Table 1 Label description of electric safety equipment dataset
在標(biāo)注數(shù)據(jù)時,對變電站中的檢修操作人員和監(jiān)督人員進(jìn)行區(qū)分,幫助模型更好地學(xué)習(xí)他們的特征和行為模式。同時,考慮到監(jiān)督人員和操作人員都可能參與到檢修現(xiàn)場的工作中,因此對監(jiān)督人員和檢修操作人員都進(jìn)行是否佩戴絕緣手套的標(biāo)注。其次,對檢修操作人員經(jīng)常使用的操作桿和驗電筆進(jìn)行標(biāo)注,可以為模型提供更多的上下文信息,有助于提高模型對手部位置的檢測。
訓(xùn)練電力安全裝備數(shù)據(jù)集時,模型輸入的圖片大小恒定為640×640,batch-size 大小設(shè)置為8,訓(xùn)練輪數(shù)為300 epoch,其他超參數(shù)均為默認(rèn)值。本文所有實驗均在同一實驗環(huán)境下進(jìn)行,實驗環(huán)境為Ubuntu 20.04 LTS操作系統(tǒng),CPU 為Intel?Xeon?Platinum 8350C,內(nèi)存42 GB,顯卡選用RTX 3090,深度學(xué)習(xí)框架PyTorch 1.11.0,CUDA Version為11.3。
為了對模型性能進(jìn)行準(zhǔn)確評估,實驗采用均值平均精度(mAP)、召回率R(recall)、參數(shù)量、FPS(frames per second)和損失函數(shù)曲線五個指標(biāo)來對各個模型的性能進(jìn)行對比。同時本文新增平均精度的標(biāo)準(zhǔn)差(standard deviation of average precision,SDAP)作為附加指標(biāo)來對模型的一致性、穩(wěn)定性和魯棒性進(jìn)行評估。
精確度P表示模型預(yù)測為正類的樣本,實際為正類樣本的比例,衡量了模型在所有預(yù)測為正類的樣本中的準(zhǔn)確性;召回率R 表示模型預(yù)測為正類的樣本中,實際為正類的比例,衡量了模型對所有實際正類樣本的識別能力。召回率R 指標(biāo)用于表示模型可以正確檢測到的對象數(shù)量。計算公式如下,其中,TP 表示真正例,指模型正確預(yù)測為正類的樣本數(shù)量;FP 表示假正例,指模型錯誤地將負(fù)類預(yù)測為正類的樣本數(shù)量;FN 表示假負(fù)例,指模型錯誤地將正類預(yù)測為負(fù)類的樣本數(shù)量:
平均精度AP 是以精確度為橫坐標(biāo),召回率為縱軸組成的PR曲線的面積,然后對所有類別的AP值進(jìn)行平均,得到各類目標(biāo)的均值平均精度mAP。mAP@0.5 表示IoU=0.5 時mAP的值。mAP越大,平均檢測精度越高,模型檢測性能越好。計算公式如下,其中C表示數(shù)據(jù)中的類別數(shù):
FPS 表示每秒檢測到的圖片數(shù)量。它反映了檢測模型的運行速度。計算公式如下,其中,fn表示總圖片數(shù)量,T表示所用的總時間:
平均精度的標(biāo)準(zhǔn)差SDAP 用于評估目標(biāo)檢測模型在不同類別上精度變化,通過計算所有類別的平均精度的標(biāo)準(zhǔn)差,可以得到平均精度的變化情況。較小的標(biāo)準(zhǔn)差表示模型在不同類別上的性能變化較小,即模型對于不同類別的檢測精度比較一致。這可以被視為模型對于不同類別的檢測能力相對穩(wěn)定,模型對于干擾因素的較小敏感性意味著它在不同環(huán)境或不同條件下的表現(xiàn)更加穩(wěn)定和可靠。其公式為:
3.3.1 主干網(wǎng)絡(luò)改進(jìn)對比實驗
本文使用MobileViTv3 模塊替換YOLOv8 模型中的第二個C2f 模塊,為驗證融合MobileViTv3 模塊后的檢測效果,在YOLOv8n 的網(wǎng)絡(luò)模型基礎(chǔ)上分別對比了MobileViTv1、MobileViTv2[32]和MobileViTv3 模塊的檢測效果。
由表2 可知,使用MobileViTv3 模塊后的模型對于安全裝備的均值平均精度達(dá)到90.1%,召回率達(dá)87.2%。融合MobileViTv3模塊后的模型相較于MobileViTv1和MobileViTv2在對佩戴絕緣手套、未佩戴絕緣手套、安全帽和絕緣鞋的檢測精度和召回率大多都有所提高,雖然在參數(shù)量和檢測速度上融合MobileViTv2 模塊后的模型參數(shù)量更少,速度更快,但融合MobileViTv2 的模型對未佩戴絕緣手套的檢測上召回率較低,容易發(fā)生漏檢的情況,綜合考慮之后選擇融合MobileViTv3 模塊對YOLOv8模型進(jìn)行改進(jìn),以提高模型的檢測性能。
表2 MobileViT模塊對比Table 2 Comparison of MobileViT modules
3.3.2 損失函數(shù)改進(jìn)對比實驗
為驗證WIoUv3損失函數(shù)的有效性,本文在模型融合MobileViTv3 模塊和增加小目標(biāo)檢測層的基礎(chǔ)上,本文將WIoUv3損失函數(shù)分別與DIoU[31]、GIoU[33]、SIoU[34]、Focal-EIOU[35]以及WIoUv1和WIoUv2進(jìn)行對比,由表3可知,模型采用WIoUv3損失函數(shù)能更準(zhǔn)確并快速地識別目標(biāo)物體并給出高置信度的預(yù)測結(jié)果并預(yù)測目標(biāo)物體的位置和大小,在檢測變電站電力人員的安全裝備方面表現(xiàn)更優(yōu),并提供可靠的檢測結(jié)果。
表3 損失函數(shù)對比Table 3 Loss function comparison
為更好地評估改進(jìn)的結(jié)構(gòu)對于模型整體性能的貢獻(xiàn)程度,本文進(jìn)行消融實驗,先后對于YOLOv8n網(wǎng)絡(luò)模型進(jìn)行了以下改進(jìn):對主干網(wǎng)絡(luò)中第二個的C2f模塊替換為MobileViTv3 模塊,增加P2 分支和改進(jìn)損失函數(shù)。消融實驗結(jié)果如表4所示。
表4 消融實驗Table 4 Ablation experiment
由表4 可知,本文的Wear-YOLO 模型對于安全裝備的均值平均精度達(dá)92.1%,相比于YOLOv8在均值平均精度上提升2.7個百分點,檢測效果有較大的提升,在召回率上提升3.3個百分點,漏檢、誤檢的情況減少。
表5 更全面地展現(xiàn)模型對于安全裝備檢測效果的提升,對主干網(wǎng)絡(luò)中第二個的C2f模塊替換為MobileViTv3模塊后,對佩戴絕緣手套的檢測精度提高1.1個百分點,召回率提高1.7 個百分點;對未佩戴絕緣手套的檢測精度提高1.1 個百分點,召回率提高1.1 個百分點;對絕緣鞋的檢測精度提高1.3個百分點,召回率提高3.3個百分點,這是因為在檢測過程中變電站電力人員手部面積占比小且容易被遮擋,不易被檢測且能夠提取的特征非常有限,而手部與工作人員和操作桿等位置有諸多聯(lián)系,MobileViTv3 模塊能夠通過Transformer 中的自注意力機(jī)制提取全局長距離依賴關(guān)系和上下文信息的同時用卷積塊獲得的局部信息進(jìn)行融合來提高模型的檢測精度。加入P2 分支后,對佩戴絕緣手套的檢測精度提高1.4 個百分點,召回率提高0.4 個百分點;對未佩戴絕緣手套的檢測精度提高8.1 個百分點,召回率提高10.4 個百分點;對絕緣鞋的檢測精度有所下降,但對安全帽和絕緣鞋的召回率分別提高1.4 和0.9 個百分點??梢钥吹絇2 檢測分支提高了極小目標(biāo)的檢測效果,這是因為對于未佩戴絕緣手套的檢測屬于小目標(biāo)檢測,P2 分支幫助網(wǎng)絡(luò)更好地捕捉淺層的語義信息,從而提升對小目標(biāo)的檢測精度并極大程度地提高了召回率,降低了小目標(biāo)漏檢的情況。對于邊界框回歸損失函數(shù)使用WIoUv3,對佩戴絕緣手套的檢測精度提高1.8 個百分點,召回率提高1.3 個百分點;對未佩戴絕緣手套的檢測精度提高1.2 個百分點,召回率提高2.0 個百分點;對安全帽的檢測精度提高0.6 個百分點,召回率提高1.0 個百分點;對絕緣鞋的檢測精度提高1.5個百分點,召回率略有降低,WIoUv3 采用梯度增益分配策略,不僅降低了高質(zhì)量錨框的競爭力,而且還減少了低質(zhì)量錨框產(chǎn)生的有害梯度,同時WIoUv3專注于普通質(zhì)量的錨框并提高了模型的整體檢測性能。
表5 安全裝備檢測對比Table 5 Comparison of safety equipment testing
為了更全面地驗證改進(jìn)之后的Wear-YOLO模型性能,將其與其他主流的目標(biāo)檢測算法在同一實驗環(huán)境下進(jìn)行對比實驗,實驗結(jié)果如表6所示。通過對表中的數(shù)據(jù)進(jìn)行對比,可以看到改進(jìn)后的Wear-YOLO 參數(shù)量相較于原始YOLOv8 略有增加,檢測速度有所下降,但依然優(yōu)于其他目標(biāo)檢測算法,適用于移動端的部署,并且均值平均精度mAP相比于原始YOLOv8n提高2.7個百分點,與YOLOv5n 模型相比提高4.1 個百分點,同時本文模型在檢測佩戴絕緣手套(glove)、未佩戴絕緣手套(wrongglove)和絕緣鞋(shoes)小目標(biāo)的效果上提升明顯,對于YOLOv8 分別提升4.1、10.5 和2.0 個百分點。與經(jīng)典的檢測模型Faster R-CNN、SSD、RetinaNet 相比均值平均精度分別提高14.5、22.1和26個百分點。此外與近幾年提出的針對安全裝備的檢測模型進(jìn)行對比實驗,與張伍康等人[2]提出的改進(jìn)RetinaNet模型和伏德粟等人提出的改進(jìn)YOLOv5 模型[13]相比均值平均精度分別提高6.7和2.6個百分點,從實驗結(jié)果可以得出,Wear-YOLO模型對于安全裝備的檢測精度更高,對于多種輸入樣本的魯棒性更優(yōu)。
表6 Wear-YOLO與其他模型對比實驗結(jié)果Table 6 Comparative experimental results between Wear-YOLO and other models
為了更全面地進(jìn)行對比實驗,本文繪制了SDAP折線圖來評估各模型的一致性和穩(wěn)定性,如圖6所示。通過折線圖可知,Wear-YOLO 模型的SDAP 折線比較平緩,起伏波動不大,在個別標(biāo)簽的檢測精度上與其他模型僅相差較少的情況下,在不同標(biāo)簽類別上的性能表現(xiàn)相對穩(wěn)定,優(yōu)于其他目標(biāo)檢測模型。這表明模型能夠?qū)Σ煌妮斎霕颖井a(chǎn)生相似的檢測結(jié)果,不會因為輸入數(shù)據(jù)的變化而產(chǎn)生較大的波動。同時對于噪聲、變化或干擾的魯棒性較高。即模型對于輸入數(shù)據(jù)的變化或干擾具有較好的適應(yīng)能力,能夠產(chǎn)生穩(wěn)定且可靠的檢測結(jié)果。
圖6 SDAP折線圖Fig.6 SDAP line chart
根據(jù)以上實驗結(jié)果及分析中可以得出本文改進(jìn)模型Wear-YOLO在變電站電力人員安全裝備檢測效果上優(yōu)于YOLOv8 和其他主流目標(biāo)檢測模型,為了更直觀地感受到Wear-YOLO 模型的檢測效果,圖7 給出了YOLOv8和Wear-YOLO的檢測效果對比圖。
圖7 檢測效果對比Fig.7 Detection effect comparison
圖7 中,左邊是YOLOv8 模型的檢測效果,右邊是改進(jìn)后Wear-YOLO 模型的檢測效果。圖7(a)中,左圖中在戶外檢測背景較為復(fù)雜的情況下,對于監(jiān)督人員未佩戴絕緣手套的檢測精度由0.64提升至0.79,對其絕緣鞋的檢測精度由0.76提升至0.78,并對YOLOv8的漏檢做出改進(jìn),精度達(dá)0.85;對于電力操作人員佩戴絕緣手套的檢測精度由0.73和0.78提升至0.80和0.84,對于絕緣鞋的檢測精度由0.65 提升至0.78;圖7(b)中,在光線昏暗的情況下,對于電力操作人員佩戴絕緣手套的檢測精度由0.74提升至0.84,對于絕緣鞋的檢測精度由0.67提升至0.79;圖7(c)中,在電力操作人員被部分遮擋的情況下,右圖相比于左圖仍能更準(zhǔn)確地實現(xiàn)對于是否佩戴絕緣手套等安全裝備的檢測;圖7(d)的兩幅對比圖中,由于電力操作人員的手部面積占比小且姿勢靈活多變,YOLOv8的模型對此的檢測效果不好發(fā)生漏檢的情況,改進(jìn)后的Wear-YOLO 對于電力工作人員不同的手部動作和狀態(tài)在不同背景之下檢測效果更好,減少了漏檢情況的發(fā)生。綜上所述,改進(jìn)之后的Wear-YOLO 模型在復(fù)雜的環(huán)境下能更精確地對變電站電力人員的安全裝備進(jìn)行檢測。
為驗證模型在不同任務(wù)上的有效性,在公開數(shù)據(jù)集MS COCO 2017 上進(jìn)行對比實驗,該數(shù)據(jù)集從復(fù)雜的日常場景中截取,包含多樣性的場景和對象,將所提出的Wear-YOLO 算法與原始算法進(jìn)行對比,結(jié)果如表7所示。
表7 MS COCO數(shù)據(jù)集對比實驗結(jié)果Table 7 MS COCO dataset comparative experimental results
從表7 中可以得出,改進(jìn)后的Wear-YOLO 模型在MS COCO 2017數(shù)據(jù)集上的平均檢測精度達(dá)55.2%,相較于基礎(chǔ)模型YOLOv8n 提升5.3 個百分點,召回率達(dá)51.0%,相較于基礎(chǔ)模型YOLOv8n 提升5.5 個百分點。模型的檢測速度上稍有所下降,但仍滿足實時檢測。這證明本文所提出的Wear-YOLO模型在目標(biāo)檢測任務(wù)上的有效性,反映模型可以在真實場景中更好地適應(yīng)復(fù)雜情況的能力。
利用深度學(xué)習(xí)方法實現(xiàn)變電站電力人員安全裝備的檢測可以及時發(fā)現(xiàn)并糾正不安全的行為,有效減少事故的發(fā)生,降低人員傷亡和直接經(jīng)濟(jì)損失。本文旨在構(gòu)建變電站電力人員安全裝備檢測算法,創(chuàng)新地將改進(jìn)的YOLOv8 模型融入其中,提出了Wear-YOLO 算法。這一改進(jìn)的關(guān)鍵在于主干網(wǎng)絡(luò)中引入了MobileViTv3 模塊不僅使模型更加深入地理解目標(biāo)的位置、形狀和上下文關(guān)系,這樣的結(jié)構(gòu)改進(jìn)為整個算法注入了更深層次的信息理解能力,提高了模型的感知力,進(jìn)而提升變電站電力人員安全裝備的檢測效果。引入小目標(biāo)檢測層P2,融合了卷積神經(jīng)網(wǎng)絡(luò)的淺層特征,更加專注于局部細(xì)節(jié)和邊緣信息的保留,這使得模型能夠更好地捕捉目標(biāo)的紋理、邊界以及微小的變化,對于未佩戴絕緣手套等小目標(biāo)的檢測定位有了明顯的提升,更有效地減少了漏檢情況的發(fā)生。使用WIoUv3作為邊界框回歸損失函數(shù),引入動態(tài)非單調(diào)的注意力機(jī)制,針對性地分配損失權(quán)重,強(qiáng)化了模型的泛化能力和檢測性能,從而更好地應(yīng)對不同場景下的檢測挑戰(zhàn)。實驗表明改進(jìn)后的Wear-YOLO 模型在變電站電力人員安全裝備的檢測中精度提高,召回率提高,漏檢情況減少,檢測速度符合實時檢測的要求,為后續(xù)變電站場景中對于電力人員安全裝備檢測的提供了一定的手段。