凌永標(biāo),毛 峰,楊嵐嵐,邱興衛(wèi),張志銳,張 杰
(1.國網(wǎng)黃山供電公司,安徽 黃山 245000;2.安徽大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,安徽 合肥 230601)
隨著經(jīng)濟(jì)不斷發(fā)展,人們對(duì)電力的需求越來越大,輸電部署和電網(wǎng)安全檢查任務(wù)艱巨。由于受到輸電系統(tǒng)的內(nèi)外環(huán)境影響,電力系統(tǒng)故障時(shí)有發(fā)生。電網(wǎng)部署和安全檢查需要電力工作人員花更多的時(shí)間在施工現(xiàn)場,這無疑增大了電力工作人員的危險(xiǎn)。目前,越來越多的行業(yè)都引入了人工智能技術(shù)來做一些重復(fù)或者危險(xiǎn)的事[1]。電網(wǎng)部署和安全檢測中引入人工智能更是未來的趨勢。
安全工器具是指在觸電、灼傷、墜落、摔跌等事故中,保障電力工作人員人身安全的各種專用的安全工器具。常用的有個(gè)體防護(hù)裝備、絕緣安全工器具、登高工器具、警示標(biāo)識(shí)等四大類。它的好壞直接影響到電力工作人員的人身安全,所以必須重視對(duì)安全工器具的日常檢查。然而,存在有少部分電力工作人員安全防范意識(shí)薄弱,對(duì)安全工器具的日常檢查流于形式,給電網(wǎng)安全檢查帶來危險(xiǎn)。電網(wǎng)安全檢查的監(jiān)管急需對(duì)檢查全過程中安全工器具進(jìn)行自動(dòng)化檢測和報(bào)警的解決方案,以保障電力工作人員的人身安全,防患于未然,提高電網(wǎng)運(yùn)營的安全性。
該文重點(diǎn)關(guān)注絕緣手套、絕緣鞋、安全帶、安全繩、掛鉤這幾類安全工器具在電網(wǎng)安全檢查中是否正?;虺霈F(xiàn)破損情況的自動(dòng)化檢測與識(shí)別任務(wù)。提出一種基于混合注意力網(wǎng)絡(luò)的安全工器具檢測方法?;旌献⒁饬W(wǎng)絡(luò)以經(jīng)典的Faster R-CNN[2]為主干網(wǎng)絡(luò),混合注意力模塊包含全局通道注意力和局部空間注意力兩個(gè)子模塊,引入多種混疊的數(shù)據(jù)增強(qiáng)方法,采用了基于多尺度特征金字塔的多層預(yù)測方法。此外,為了驗(yàn)證所提方法的有效性,還從電網(wǎng)安全檢查現(xiàn)場采集了一批真實(shí)圖片,整理并標(biāo)注對(duì)應(yīng)的安全工器具,構(gòu)建了一個(gè)安全工器具數(shù)據(jù)集。
傳統(tǒng)的目標(biāo)檢測算法主要依賴于手工設(shè)計(jì)的特征,對(duì)于多樣性的變化沒有很好的魯棒性。而且由于采用滑動(dòng)窗口的方式選取侯選框,沒有針對(duì)性,時(shí)間復(fù)雜度高,窗口冗余問題嚴(yán)重,難以取得滿意的結(jié)果。最近幾年,隨著深度學(xué)習(xí)領(lǐng)域的快速發(fā)展,深度卷積神經(jīng)網(wǎng)絡(luò)越來越多地應(yīng)用于計(jì)算機(jī)視覺領(lǐng)域,如檢測、分割、跟蹤等,并取得重大進(jìn)展?;谏疃染矸e神經(jīng)網(wǎng)絡(luò)的目標(biāo)檢測算法在目標(biāo)檢測領(lǐng)域取得了最好的效果。深度學(xué)習(xí)技術(shù)引用到檢測領(lǐng)域,主要使目標(biāo)檢測精度大幅提升,使得單一模型能夠檢測的目標(biāo)類別數(shù)目增加。
基于神經(jīng)網(wǎng)絡(luò)的目標(biāo)檢測算法分為兩階段檢測算法和單階段檢測算法兩種。R-CNN[3](Region with CNN feature)是卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用于目標(biāo)檢測問題的一個(gè)里程碑的飛躍,其使用Selective Search[4]算法生成候選區(qū)域,然后將候選區(qū)域變換為統(tǒng)一大小,送進(jìn)CNN提取特征,輸出的特征向量由SVM分類器進(jìn)行分類,R-CNN的進(jìn)階版Fast R-CNN[5]在R-CNN的基礎(chǔ)上采納了SPP-Net[6]方法,對(duì)R-CNN作了改進(jìn),使得性能進(jìn)一步提高。Fast R-CNN與R-CNN對(duì)比,主要有兩處不同:一是最后一個(gè)卷積層后加了一個(gè)ROI pooling層,二是損失函數(shù)使用了多任務(wù)損失函數(shù)(multi-task loss),將邊界框回歸直接加入到CNN網(wǎng)絡(luò)中訓(xùn)練。Faster R-CNN采用Region Proposal Network(RPN)來替代Selective-Search提取候選區(qū)域,anchor就是位置和大小固定的框,可以理解成事先設(shè)置好的固定的候選區(qū)域。
YOLO[7]不同于上述兩階段目標(biāo)檢測方法,它將物體檢測當(dāng)成一個(gè)回歸問題。做法是基于一個(gè)單獨(dú)的端到端網(wǎng)絡(luò),來完成從原始圖像的輸入到物體位置和類別的輸出任務(wù)。SSD[8]也是單階段目標(biāo)檢測方法,是Faster RCNN和YOLO的結(jié)合,同時(shí)采用了Faster RCNN中基于候選框的概念和YOLO中基于回歸的處理方法,在一個(gè)端到端網(wǎng)絡(luò)中直接回歸出目標(biāo)物體的類別和位置。FCOS是一個(gè)基于全卷積的單階段檢測網(wǎng)絡(luò),類似于語義分割,針對(duì)每個(gè)像素進(jìn)行預(yù)測。SSD、YOLOv3[9]、Faster R-CNN都依賴于預(yù)定義的候選框。而CornerNet、CenterNet、FCOS[10-12]是不需要預(yù)定義候選框的,從而減少大量的計(jì)算以及內(nèi)存占用。
結(jié)合數(shù)據(jù)增強(qiáng)和注意力機(jī)制等優(yōu)點(diǎn),該文提出一種基于混合注意力網(wǎng)絡(luò)的安全工器具檢測方法,主要是在Faster R-CNN網(wǎng)絡(luò)結(jié)構(gòu)上添加了混合注意力模塊,引入了多種混疊的數(shù)據(jù)增強(qiáng)方法,采用了基于多尺度特征金字塔的多層預(yù)測方法,以解決數(shù)據(jù)集中小目標(biāo)檢測不準(zhǔn)確的問題。
通過大量的實(shí)驗(yàn)發(fā)現(xiàn),許多效果較好的神經(jīng)網(wǎng)絡(luò)都有大量的參數(shù),要想很好地訓(xùn)練這些參數(shù),以使網(wǎng)絡(luò)擬合,則需要大量的訓(xùn)練數(shù)據(jù)。因?yàn)锳I技術(shù)非常強(qiáng)地依賴于高質(zhì)量數(shù)據(jù)[13]。但是在實(shí)際制作數(shù)據(jù)集時(shí),無論是采集數(shù)據(jù),還是對(duì)數(shù)據(jù)進(jìn)行標(biāo)注都需要大量的人力,物力,而且這非常耗時(shí)。因此該文采用數(shù)據(jù)增強(qiáng)技術(shù)來緩解數(shù)據(jù)量不足的問題。目前數(shù)據(jù)增強(qiáng)技術(shù)主要是通過對(duì)圖片進(jìn)行翻轉(zhuǎn),平移或者是旋轉(zhuǎn)等操作,有時(shí)也會(huì)采用在數(shù)據(jù)上增加噪聲的操作,以此可以在已有的少量數(shù)據(jù)上得到更多的訓(xùn)練數(shù)據(jù),使得網(wǎng)絡(luò)達(dá)到更好的效果[14]。綜上,為了提高網(wǎng)絡(luò)的精度與泛化能力,該文采用數(shù)據(jù)增強(qiáng)技術(shù)來獲得更多的訓(xùn)練數(shù)據(jù)。
數(shù)據(jù)增強(qiáng)主要分為:離線增強(qiáng)和在線增強(qiáng)。離線增強(qiáng):顧名思義是在數(shù)據(jù)輸入神經(jīng)網(wǎng)絡(luò)前對(duì)數(shù)據(jù)進(jìn)行離線增強(qiáng),通過離線增強(qiáng)的數(shù)據(jù)集在數(shù)據(jù)上會(huì)變成原數(shù)據(jù)集數(shù)目的N倍(是增強(qiáng)因子)。在線增強(qiáng):這種數(shù)據(jù)增強(qiáng)的方法是在神經(jīng)網(wǎng)絡(luò)中對(duì)數(shù)據(jù)進(jìn)行增強(qiáng),主要做法是在得到batch數(shù)據(jù)后,對(duì)獲得的這些batch數(shù)據(jù)進(jìn)行batch塊的旋轉(zhuǎn),平移或者翻轉(zhuǎn)等操作。由于在線操作很受硬件條件限制,這種增強(qiáng)方法一般適合較大的數(shù)據(jù)集。目前,隨著技術(shù)的不斷發(fā)展,很多機(jī)器學(xué)習(xí)框架已經(jīng)支持了這種在線數(shù)據(jù)增強(qiáng)方式,并且可以使用GPU來自動(dòng)實(shí)現(xiàn)優(yōu)化計(jì)算。因?yàn)橐院蟮臄?shù)據(jù)量較少,故該文采用的是多種混疊的離線數(shù)據(jù)增強(qiáng)的方式。多種混疊的數(shù)據(jù)增強(qiáng)示例如圖1所示。
圖1 多種混疊的數(shù)據(jù)增強(qiáng) (翻轉(zhuǎn)、旋轉(zhuǎn)、剪裁、mixup)示例
數(shù)據(jù)翻轉(zhuǎn)是數(shù)據(jù)增強(qiáng)中比較常用的一種方法,主要做法是將圖片做類似于鏡面的翻轉(zhuǎn),而不是將圖片旋轉(zhuǎn)180度,如圖1第一列分別是原圖的左右翻轉(zhuǎn)。該文的增強(qiáng)因子是2(即:指數(shù)量擴(kuò)大2倍)。旋轉(zhuǎn)就是順時(shí)針或者逆時(shí)針的旋轉(zhuǎn),通常增強(qiáng)因子設(shè)為2~4。如圖1第二列第二行所示,增強(qiáng)因子也設(shè)為2。裁剪這種數(shù)據(jù)增強(qiáng)方法的做法是先在原有圖片上隨機(jī)選擇其中的一部分區(qū)域,然后將選擇后的這部分區(qū)域裁剪,最后將裁剪得到的圖片塊resize成與原圖片一樣的大小,如圖1第二列第一行所示。該方法的增強(qiáng)因子任意,文中裁剪的增強(qiáng)因子也是設(shè)為2。mixup[15]是一種最近新出來運(yùn)用在計(jì)算機(jī)視覺上的數(shù)據(jù)增強(qiáng)方法,它的做法是將不同類別的圖像進(jìn)行混合,如圖1第三列所示。綜上,該文在數(shù)據(jù)增強(qiáng)上主要采用了以上幾種方法來擴(kuò)充數(shù)據(jù)集。
所提的混合注意力網(wǎng)絡(luò)以經(jīng)典的Faster R-CNN為主干網(wǎng)絡(luò)。Faster R-CNN主要包括四個(gè)模塊,分別是:特征提取、RPN、RoI Pooling和RCNN。因?yàn)槎嚯A段信息可以增強(qiáng)網(wǎng)絡(luò)的能力,提高算法的精度[16],在文獻(xiàn)[17]通過引入多尺度的特征融合模塊,設(shè)計(jì)了一個(gè)針對(duì)目標(biāo)檢測任務(wù)的輕量化特征提取網(wǎng)絡(luò)TinyNet,進(jìn)而提高了輕量化特征提取網(wǎng)絡(luò)對(duì)不同尺度目標(biāo)的適應(yīng)性。因此,為了解決數(shù)據(jù)集中部分目標(biāo)較小的問題,該文加入了FPN[18](特征金字塔網(wǎng)絡(luò))。此外每一個(gè)通道的特征通常都表示某特定類別的目標(biāo),在文獻(xiàn)[19]基于語義的增強(qiáng)混合特征選擇方法在文本分類時(shí)既提高了分類效率又能保證分類精度,在文獻(xiàn)[20]利用注意力機(jī)制對(duì)信息進(jìn)行增強(qiáng)融合語義信息與問題關(guān)鍵信息的多階段注意力答案選取模型也極大地提升了算法的性能?;谝陨蠁l(fā),并且為了解決不同通道重要性不同的問題,該文提出了混合注意力機(jī)制。網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。
圖2 基于Faster RCNN的混合注意力網(wǎng)絡(luò)結(jié)構(gòu)
在以往的工作中使用Faster R-CNN進(jìn)行目標(biāo)檢測,不論是在RPN還是在Fast R-CNN中,RoI都作用在Fc的前一層,這樣做在對(duì)大目標(biāo)物體進(jìn)行檢測時(shí)效果是很好的,但是對(duì)于小目標(biāo)物體的檢測效果就不行了。主要原因是對(duì)于一個(gè)RoI,映射到某個(gè)特征圖的做法是將底層的坐標(biāo)直接去除以步長,對(duì)于小目標(biāo)物體,當(dāng)進(jìn)行多層卷積和池化后,映射過去后就很小甚至是沒有了。所以為了解決數(shù)據(jù)集中部分目標(biāo)較小而檢測不好的問題,該文引入了特征金字塔網(wǎng)絡(luò),特征金字塔可以自然地利用卷積神經(jīng)網(wǎng)絡(luò)層級(jí)特征的金字塔形式,在生成所有的尺度上都含有強(qiáng)語義的信息特征。特征金字塔網(wǎng)絡(luò)的結(jié)構(gòu)采用自頂向下(the top-down pathway)結(jié)構(gòu)和橫向連接(lateral connections)的方式,以達(dá)到融合含有高分辨率的底層特征和含有豐富的語義信息的高層特征。這樣做到了從單尺度的一張輸入圖片,快速地構(gòu)建在所有尺度上都具有強(qiáng)的語義信息的特征金字塔網(wǎng)絡(luò),與此同時(shí)并沒有產(chǎn)生明顯的計(jì)算代價(jià)。
圖3 基于多尺度特征金字塔的預(yù)測流程
采用自上而下的路徑去融合低層特征圖,這些低層特征圖一般擁有較高的分辨率。特征金字塔具體做法如圖3所示,首先圖最左側(cè)一列是通過卷積得到每一層的特征圖,一般經(jīng)過多層卷積得到的特征圖分辨率會(huì)越來越低,但是會(huì)含有更多的語義信息,接著中間一列的作用是將左側(cè)得到的最高層的特征圖逐層做上采樣操作,因?yàn)槊恳粚拥臋M向連接操作需要將要連接的兩層特征的大小調(diào)整成相同的尺寸。這里使用橫向連接的作用是利用低層特征圖的定位細(xì)節(jié)信息。如圖3所示,首先將高層特征圖做一個(gè)2倍上采樣操作,然后將與其對(duì)應(yīng)的前一層特征圖做一個(gè)橫向連接結(jié)合,結(jié)合方式就是做像素間的加法。重復(fù)迭代該過程,直至生成最精細(xì)的特征圖。迭代開始階段,在卷積5層后面加了一個(gè)1*1的卷積核來產(chǎn)生最粗略的特征圖。最后,用3*3的卷積核去處理已經(jīng)融合的特征圖,以生成最后需要的特征圖。為了后面的應(yīng)用能夠在所有層級(jí)共享分類層,這里固定了3*3卷積后的輸出通道為d,這里d設(shè)為256。因此所有額外的卷積層具有256通道輸出。這些層沒有用非線性激活函數(shù)。卷積2,3,4,5層對(duì)應(yīng)的融合特征層為P2,3,4,5,對(duì)應(yīng)的層空間尺寸均相同。
通常在神經(jīng)網(wǎng)絡(luò)中是同等地對(duì)待每一個(gè)卷積層,但是其實(shí)每一個(gè)通道的特征通常都表示某特定類別的目標(biāo)。參考文獻(xiàn)[21-23],該文設(shè)計(jì)了一種全新的混合注意力模塊(通道空間注意力模塊CSA),分別包括全局通道注意力和局部空間注意力兩個(gè)子模塊。全局通道注意力是為了解決每個(gè)通道在卷積神經(jīng)網(wǎng)絡(luò)中貢獻(xiàn)不同的問題,局部空間注意力是為了關(guān)注圖片中的局部細(xì)節(jié)信息而加入的。
圖4 混合注意力模塊(包含全局通道注意力和局部空間注意力兩個(gè)子模塊)
如圖4所示,該通道注意力首先對(duì)輸入的特征進(jìn)行一個(gè)全局平均池化操作和全局最大池化操作。假如輸入的是一個(gè)h*w*c的特征圖,由兩個(gè)全局池化(池化大小為h*w)的操作可以得到兩個(gè)1*1*c的特征圖,然后將這兩個(gè)特征圖進(jìn)行一個(gè)相加操作,相加后得到一個(gè)1*1*c的特征圖,這個(gè)1*1*c的特征圖與輸入的特征圖h*w*c相乘便得到全局通道注意力之后的特征圖。將全局通道注意力特征圖作為輸入,送入到局部空間注意力模塊中,輸入到局部空間注意力的特征經(jīng)過一個(gè)局部最大池化和局部平均池化后分別得到兩個(gè)特征圖,特征圖的大小是(h/s)*(w/s)*c(s是池化的步長),然后將經(jīng)過局部最大池化和局部平均池化得到的特征圖進(jìn)行一個(gè)相加操作。這樣經(jīng)過全局通道注意力和局部空間注意力之后便得到重要的通道,同時(shí)也關(guān)注到局部信息。
損失函數(shù)與Faster R-CNN是一樣的,定義成以下式子:
(1)
Lreg(ti,Ti)=L1(ti-Ti)
(2)
其中,i是一個(gè)小批量中anchor的索引;pi是預(yù)測的該anchor是目標(biāo)的概率;Pi是真值標(biāo)簽,如果anchor是正樣本,真值標(biāo)簽的值為1,否則為0;ti是預(yù)測的邊界框的四個(gè)參數(shù)化坐標(biāo)向量;Ti是真值框的四個(gè)參數(shù)化坐標(biāo)向量;Lcls是分類損失,判斷預(yù)測框是目標(biāo)還是背景;Lreg是回歸損失;L1是平滑損失。PiLreg意味著只對(duì)正樣本錨框進(jìn)行回歸,因?yàn)楫?dāng)是負(fù)樣本錨框時(shí)Pi的值為0。
實(shí)驗(yàn)是在NVIDIA GeForce GTX TITAN XP GPU平臺(tái)上進(jìn)行的,網(wǎng)絡(luò)訓(xùn)練運(yùn)行內(nèi)存為12 GB,代碼基于PyTorch深度框架。
該文使用的數(shù)據(jù)來源于真實(shí)施工場景。從電力工作人員必備的安全防護(hù)工具的角度考慮,收集了絕緣手套、絕緣鞋、安全帶、安全繩以及掛鉤的相關(guān)圖片數(shù)據(jù),從而更好地進(jìn)行施工現(xiàn)場安全性檢測。共實(shí)地收集了2 541張圖片,其中劃分80%作為訓(xùn)練集,其余圖片作為驗(yàn)證集。表1列舉了制作的數(shù)據(jù)集的具體檢測對(duì)象分布情況。注意到該數(shù)據(jù)集中的類別個(gè)數(shù)相差較大,是因?yàn)椴糠诸悇e的場景分布較單一,比如絕緣手套破損和絕緣鞋,只出現(xiàn)在很少的場景下。
表1 電網(wǎng)施工現(xiàn)場安全工器具數(shù)據(jù)集的類別分布
目標(biāo)檢測的效果取決于預(yù)測框的位置和類別是否準(zhǔn)確,主流的評(píng)級(jí)指標(biāo)有:平均精度值(Average Precision,AP)和平均精度均值(mean Average Precision,mAP)[24]。AP是一種可以用來度量模型預(yù)測框類別和位置是否準(zhǔn)確的指標(biāo),AP通過計(jì)算每個(gè)類別預(yù)測框和真實(shí)框的IoU來判斷預(yù)測框是否準(zhǔn)確預(yù)測到了位置信息,同時(shí)引用精確度和召回率指標(biāo)評(píng)價(jià)預(yù)測框的類別是否準(zhǔn)確。mAP是對(duì)多個(gè)驗(yàn)證集個(gè)體求平均AP值得到的。
文中方法是兩階段的檢測方法。深度學(xué)習(xí)方法中,數(shù)據(jù)是其基石,模型的訓(xùn)練離不開大量的數(shù)據(jù)。因此,為了提高模型的泛化能力和魯棒性,采用了多種混合的數(shù)據(jù)增強(qiáng)方法,對(duì)研究所收集到的數(shù)據(jù)進(jìn)行增強(qiáng),從而使得神經(jīng)網(wǎng)絡(luò)具有更好的泛化效果。表2列舉了不同的數(shù)據(jù)增強(qiáng)方式所帶來的模型增益。其中AP0.5表示在訓(xùn)練和測試中使用的閾值,即當(dāng)預(yù)測結(jié)果中的檢測框與數(shù)據(jù)標(biāo)注的真值框的交并比大于0.5時(shí),認(rèn)為其檢測到了目標(biāo)的平均精度。由于網(wǎng)絡(luò)中使用了全連接層,在訓(xùn)練時(shí)還為圖片輸入設(shè)定了固定值,為600*600像素。實(shí)驗(yàn)中,學(xué)習(xí)率設(shè)置為0.001。
通過實(shí)驗(yàn)證明,選取經(jīng)典的ResNet101作為骨干網(wǎng)絡(luò)。同時(shí),為了加快模型訓(xùn)練速度,使用官方提供的ImageNet數(shù)據(jù)集上的預(yù)訓(xùn)練模型進(jìn)行參數(shù)初始化,而不是令參數(shù)隨機(jī)初始化。
表2 不同數(shù)據(jù)增強(qiáng)方法的性能對(duì)比
文中方法是在Faster R-CNN基礎(chǔ)上進(jìn)行的改進(jìn)和優(yōu)化。在原本網(wǎng)絡(luò)中增加了兩個(gè)模塊,進(jìn)一步提升了原有網(wǎng)絡(luò)的性能。為了證明所設(shè)計(jì)的模塊的有效性,進(jìn)行了相關(guān)消融實(shí)驗(yàn),并將實(shí)驗(yàn)的配置細(xì)節(jié)和評(píng)估結(jié)果放在表3中。
表3 各模塊的有效性驗(yàn)證結(jié)果
特征金字塔FPN是針對(duì)小目標(biāo)檢測不好的問題,增加了特征金字塔模塊來提升小目標(biāo)檢測的能力。混合注意力CSA是針對(duì)不同通道在網(wǎng)絡(luò)中所作的貢獻(xiàn)不同,所以引入注意力機(jī)制來解決此問題。相對(duì)于baseline,網(wǎng)絡(luò)性能都能得到一定的提升,當(dāng)兩個(gè)模塊都添加到網(wǎng)絡(luò)中時(shí),網(wǎng)絡(luò)性能提升得最大。
首先將提出的方法與其他經(jīng)典的目標(biāo)檢測方法在電網(wǎng)施工現(xiàn)場安全工器具數(shù)據(jù)集上進(jìn)行對(duì)比實(shí)驗(yàn)。在Faster R-CNN[2]、SSD[9]、RFBNet[25]和YOLOv3[10]這4種經(jīng)典且有效的方法上的實(shí)驗(yàn)結(jié)果展示在表4中。
表4 文中方法與現(xiàn)有方法在電網(wǎng)安全 工器具數(shù)據(jù)集上的對(duì)比實(shí)驗(yàn)
可以發(fā)現(xiàn),文中方法在電網(wǎng)施工現(xiàn)場安全工器具數(shù)據(jù)集上的性能表現(xiàn)都是略優(yōu)于其他方法的,較其他算法分別提高了8.7%、8.1%、9.1%和4.8%。圖5直觀地展示出文中方法在電網(wǎng)施工現(xiàn)場安全工器具數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果。其中左上角的圖片是檢測到掛鉤與安全繩斷股,右上角圖片是檢測到絕緣手套,第二行圖中檢測到安全帶破損與掛鉤情況。
圖5 文中方法在電網(wǎng)安全工器具數(shù)據(jù)集 上的檢測結(jié)果示例
電網(wǎng)施工及安全檢查對(duì)于電力工作人員的安全性保護(hù)至關(guān)重要,因此對(duì)安全工器具的正確佩戴和安全工器具是否破損的檢測工作是非常必要的。該文提出一種基于混合注意力網(wǎng)絡(luò)的安全工器具檢測方法?;旌献⒁饬W(wǎng)絡(luò)以經(jīng)典的Faster R-CNN為主干網(wǎng)絡(luò)。為了側(cè)重比較重要的通道引入了混合注意力模塊,包含全局通道注意力和局部空間注意力兩個(gè)子模塊。為了解決部分目標(biāo)較小的問題引入了特征金字塔模塊,采用了基于多尺度特征金字塔的多層預(yù)測方法。由于安全工器具的數(shù)據(jù)集數(shù)量較少,引入了多種混疊的數(shù)據(jù)增強(qiáng)方法,以此提高了檢測的準(zhǔn)確性。然而,該算法也存在一些不足,對(duì)于檢測目前還不能滿足實(shí)時(shí)的要求,后面欲通過通道剪枝來去除不重要的通道,從而提高算法的運(yùn)算速度。