陳 鵬, 秦倫明
(上海電力大學(xué) 電子與信息工程學(xué)院, 上海 200090)
隨著計(jì)算機(jī)視覺和電力巡檢機(jī)器人的快速發(fā)展,巡檢機(jī)器人和計(jì)算機(jī)視覺技術(shù)相結(jié)合在智能電網(wǎng)中的應(yīng)用需求越來越多。近年來,紅外熱成像儀搭載在電力巡檢機(jī)器人、無人機(jī)等檢測平臺(tái)上對(duì)電力設(shè)備進(jìn)行智能巡檢,減少了運(yùn)維人員采集電力設(shè)備紅外圖像的工作量。但在巡檢機(jī)器人和無人機(jī)拍攝電力設(shè)備的過程中,由于拍攝角度和拍攝距離的因素,在圖像上顯示的尺寸較小且目標(biāo)模糊[1]。傳統(tǒng)的圖像分割識(shí)別方法,由于其二值化閾值的選取存在較多人為干擾因素,對(duì)拍攝角度距離差異、光照影響和復(fù)雜背景干擾較為敏感,很難對(duì)紅外圖像中的電力設(shè)備進(jìn)行有效識(shí)別[2]。隨著深度學(xué)習(xí)的迅速發(fā)展以及硬件水平的提高,深度卷積神經(jīng)網(wǎng)絡(luò)在計(jì)算機(jī)視覺領(lǐng)域取得了巨大的成功,為深度學(xué)習(xí)在電力設(shè)備識(shí)別和定位中的應(yīng)用奠定了基礎(chǔ)[3]。
深度學(xué)習(xí)可以處理大規(guī)模的文本和圖像等數(shù)據(jù)[4]。現(xiàn)代的圖像識(shí)別將深度學(xué)習(xí)應(yīng)用其中,通過提取并學(xué)習(xí)識(shí)別物體的特征來適應(yīng)復(fù)雜的環(huán)境,減少了外界因素對(duì)物體識(shí)別的影響,提高了圖像識(shí)別的準(zhǔn)確性。圖像處理算法改進(jìn)過程中會(huì)出現(xiàn)各種數(shù)據(jù)集,如ImageNet訓(xùn)練集、VOC(Visual Object Classes)數(shù)據(jù)集和人臉檢測數(shù)據(jù)集(Face Detection Data Set and Benchmark,FDDB)等。這些數(shù)據(jù)集數(shù)量很大,種類很多,在訓(xùn)練過程中可以在很大程度上解決過擬合問題[5]。
基于深度學(xué)習(xí)的網(wǎng)絡(luò)模型主要分為以R-CNN系列[6-8]為代表的two-stage模型,以及以YOLO系列[9]和SSD[10]為代表的one-stage模型。
卷積神經(jīng)網(wǎng)絡(luò)從最初的CNN(Convolutional Neural Networks)開始,由R-CNN,Fast R-CNN逐漸發(fā)展為Faster R-CNN。
R-CNN的識(shí)別分為3個(gè)步驟:首先,得到多個(gè)候選區(qū)域并縮放到統(tǒng)一大小;其次,使用CNN分別對(duì)每個(gè)候選區(qū)域進(jìn)行特征提取;最后,通過支持向量機(jī)(Support Vector Machine,SVM)對(duì)提取到的特征向量進(jìn)行分類。R-CNN在提取候選區(qū)域使用選擇性搜索算法,由于對(duì)提取的候選框都需要進(jìn)行CNN操作,因此增加了計(jì)算量,使得相應(yīng)的訓(xùn)練步驟十分繁雜,訓(xùn)練耗時(shí)長,且每一步要進(jìn)行數(shù)據(jù)的保存,也需要較大的空間。
Fast R-CNN在取代SVM的基礎(chǔ)上,加入了邊框回歸,解決了R-CNN的空間開銷,提高了測試速度。但是Fast R-CNN在提取候選區(qū)域依然使用的是選擇性搜索算法。由于該算法運(yùn)行速度較慢,因此不能做到實(shí)時(shí)檢測。
Faster R-CNN在提取候選區(qū)域時(shí),采用區(qū)域生成網(wǎng)絡(luò)(Region Proposal Network,RPN)[11]來取代選擇性搜索算法。RPN采用滑動(dòng)窗口,通過以窗口為中心,不斷創(chuàng)建出不同大小的中心框,然后映射到原圖片上,形成候選區(qū)。RPN可以批量生成候選區(qū)域,解決了候選框批量生成時(shí)間太長的問題。與OLO(Only Look Once)和SSD(Single Shot multiBox Detector)算法相比,RPN精度高,但速度慢。因此,Faster R-CNN將網(wǎng)絡(luò)結(jié)構(gòu)分為2部分:第一部分用于生成候選區(qū)域的RPN;第二部分用于對(duì)候選區(qū)域中的目標(biāo)進(jìn)行識(shí)別。2部分共享權(quán)值從而提高了訓(xùn)練的效率。Faster R-CNN的網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。
圖1 Faster RCNN的網(wǎng)絡(luò)結(jié)構(gòu)
YOLO系列模型逐漸從YOLOv1,YOLOv2發(fā)展到Y(jié)OLOv3。
YOLOv1進(jìn)行了20多次卷積、4次最大池化,其中3×3卷積用于提取特征,1×1卷積用于壓縮特征,最后將圖像壓縮到7×7×30的大小,相當(dāng)于將整個(gè)圖像劃分為7×7的網(wǎng)格,每個(gè)網(wǎng)格負(fù)責(zé)自己區(qū)域的目標(biāo)檢測。
YOLOv2使用了一個(gè)新的分類網(wǎng)絡(luò)作為特征提取部分,網(wǎng)絡(luò)使用了較多的3×3卷積核,在每一次池化操作后使通道數(shù)翻倍。借鑒network in network思想,將1×1卷積核置于3×3卷積核之間來壓縮特征。使用批歸一化(Batch Normalization)穩(wěn)定模型訓(xùn)練,加速收斂,正則化模型。除此之外,YOLOv2借鑒了 R-CNN 系列中錨框的理念,引入了先驗(yàn)框。
YOLOv3改進(jìn)較大,主要體現(xiàn)在3個(gè)方面:采用多特征層進(jìn)行目標(biāo)檢測,一共提取3個(gè)特征層,分別為(13,13,75),(26,26,75),(52,52,75);采用反卷積UmSampling2d設(shè)計(jì),可以更多更好地提取出特征;使用了容易優(yōu)化的殘差網(wǎng)絡(luò)(Residual Network),能夠通過增加深度來提高準(zhǔn)確率。其內(nèi)部的殘差塊使用了跳躍連接,緩解了在深度神經(jīng)網(wǎng)絡(luò)中因深度增加而帶來的梯度消失問題。
SSD使用了不同層次與尺度的特征圖進(jìn)行檢測:大尺度特征圖保留了較多的空間位置信息,可以用來檢測小物體;小尺度特征圖具有更為豐富的語義信息,可以用來檢測大物體。SSD使用VGG-16(Visual Geometry Group Network 16)作為主干網(wǎng)絡(luò),并且將VGG-16最后的2個(gè)全連接層替換成卷積核大小為3×3和1×1的卷積層,同時(shí)采用空洞卷積擴(kuò)張卷積視野,然后移除分類層并增加一系列卷積層用于檢測。
綜上所述,在特征提取方面,Faster R-CNN模型采用共享卷積層提取特征,由于卷積層層數(shù)較深,可提取更多的目標(biāo)特征,對(duì)小目標(biāo)也具有較高的識(shí)別精度。YOLO系列和SSD模型雖然在速度上略勝一籌,但識(shí)別準(zhǔn)確率相對(duì)較低。因此,本文采用Faster R-CNN模型進(jìn)行電力設(shè)備紅外圖像識(shí)別。
Faster R-CNN模型預(yù)測過程主要分為以下3部分。
(1) 特征提取 搭建Faster R-CNN卷積神經(jīng)網(wǎng)絡(luò)模型,由卷積和池化組成的共享卷積層對(duì)各幅圖像提取目標(biāo)特征。
(2) 候選區(qū)域生成 提取的特征圖像通過RPN網(wǎng)絡(luò),將前景和背景各生成9個(gè)不同尺寸的候選框,用非極大值抑制算法微調(diào)候選框位置和尺寸,批量生成候選框。RPN的核心思想是使用CNN直接產(chǎn)生候選框。具體操作是在CNN卷積層后加滑動(dòng)窗口以及2個(gè)卷積層完成候選區(qū)域提取。第一個(gè)卷積層將特征圖每個(gè)滑動(dòng)窗口位置編碼成一個(gè)特征向量,使用一個(gè)小網(wǎng)絡(luò)在最后卷積層得到的特征圖中進(jìn)行滑動(dòng)操作,即通過卷積操作得到H×W個(gè)256維特征向量。 第二個(gè)卷積層對(duì)應(yīng)2個(gè)全連接層,對(duì)H×W個(gè)256維特征向量進(jìn)行2次全連接操作,即可得到RPN的輸出:2k個(gè)分?jǐn)?shù)以及4k個(gè)坐標(biāo)。2k個(gè)分?jǐn)?shù)是指候選框中物體是前景的概率以及是背景的概率,4k個(gè)坐標(biāo)是指候選框相較于原圖的偏移[11]。RPN結(jié)構(gòu)如圖2所示。
圖2 RPN結(jié)構(gòu)
(3) 分類與回歸 采用全連接層處理各個(gè)候選區(qū)域圖片。使用 Softmax分類器對(duì)候選區(qū)域進(jìn)行分類識(shí)別,并使用回歸器對(duì)候選區(qū)域向量進(jìn)行處理,將候選區(qū)域優(yōu)化為一個(gè)候選框,從而得到目標(biāo)位置信息。
Faster R-CNN模型整體的執(zhí)行流程如圖3所示。
圖3 Faster RCNN模型的執(zhí)行流程
本文采用的數(shù)據(jù)集為各地變電站和多個(gè)高壓實(shí)驗(yàn)室的電力設(shè)備紅外圖像。數(shù)據(jù)集的制作過程為:首先對(duì)最初始的紅外圖片進(jìn)行重命名、圖片格式轉(zhuǎn)化和圖片尺寸變換;然后利用圖像標(biāo)注軟件對(duì)原始紅外圖片中的電力設(shè)備進(jìn)行標(biāo)注。創(chuàng)建完成后的電力設(shè)備紅外圖像檢測數(shù)據(jù)庫一共包含300張電力設(shè)備紅外圖像,標(biāo)注出4類電力設(shè)備。將所有紅外圖片的90%作為訓(xùn)練集,10%作為測試集。
操作系統(tǒng)為Windows 10,運(yùn)行內(nèi)存16 G。在操作系統(tǒng)上安裝Anaconda3,Visual Studio2015和TensorFlow1.3.0,以Python為編程語言。利用VGG-16網(wǎng)絡(luò)結(jié)構(gòu)對(duì)電力設(shè)備紅外圖像檢測數(shù)據(jù)庫重新進(jìn)行訓(xùn)練,將訓(xùn)練后得到的新VGG-16網(wǎng)絡(luò)結(jié)構(gòu)嵌入到Faster R-CNN模型中,使用電力設(shè)備紅外圖像檢測數(shù)據(jù)庫中的測試圖片進(jìn)行測試,并觀察實(shí)驗(yàn)結(jié)果。
本文對(duì)YOLOv3,SSD和Faster R-CNN模型在測試集上進(jìn)行了對(duì)比試驗(yàn),評(píng)價(jià)指標(biāo)為識(shí)別準(zhǔn)確率和測試速度,不同方法電力設(shè)備識(shí)別結(jié)果如表1所示。
表1 不同方法電力設(shè)備識(shí)別結(jié)果
從表1可以看出,針對(duì)電力設(shè)備的識(shí)別,YOLOv3和SSD為代表的one-stage模型識(shí)別準(zhǔn)確率分別為82%和86%,測試速度分別為1.1 s和0.8 s;以Faster R-CNN為代表的two-stage模型識(shí)別準(zhǔn)確率為95%,測試速度為4.0 s。這說明Faster R-CNN模型在特征提取方面可以提取到更多有用特征,對(duì)目標(biāo)識(shí)別準(zhǔn)確率高。YOLOv3和SSD模型雖然對(duì)目標(biāo)的識(shí)別準(zhǔn)確率不高,但測試速度遠(yuǎn)遠(yuǎn)高于Faster R-CNN模型。
電力設(shè)備紅外圖像的識(shí)別效果如圖4所示。
圖4 電力設(shè)備紅外圖像的識(shí)別效果
本文針對(duì)目前的電力設(shè)備紅外圖像識(shí)別準(zhǔn)確率不高的缺點(diǎn),提出了一種基于Faster R-CNN的電力設(shè)備紅外圖像識(shí)別方法。結(jié)果發(fā)現(xiàn),Faster R-CNN的識(shí)別準(zhǔn)確率達(dá)到了95%,遠(yuǎn)遠(yuǎn)高于YOLOv3和SSD的識(shí)別準(zhǔn)確率。但Faster R-CNN的檢測速度慢于YOLOv3和SSD,后續(xù)可以在提升Faster R-CNN的檢測速度上開展進(jìn)一步研究。