(1.國網(wǎng)電力科學(xué)研究院武漢南瑞有限責(zé)任公司,武漢 430073; 2.南瑞集團(tuán)有限公司,南京 211106;3.國網(wǎng)浙江省電力有限公司,杭州 310007; 4.國網(wǎng)山東省電力公司日照供電公司,山東 日照 276826;5.國網(wǎng)浙江省電力有限公司嘉興供電公司,浙江 嘉興 314599)
由于高壓和超高壓輸電線路大都處于崇山峻嶺、交通死區(qū)、通訊盲區(qū),甚至無人區(qū),人工巡視不僅工作量大、周期長,而且巡視結(jié)果受視點、遮擋及天氣、地形等客觀因素影響大。近年來,隨著無人機和計算機視覺技術(shù)的發(fā)展,提出了基于無人機的輸電線路巡檢方法。它首先利用無人機搭載的高清相機,對絕緣子污穢、裂痕、爆片及塔材銹蝕等線路關(guān)鍵部位及缺陷的細(xì)節(jié)進(jìn)行巡視,然后,將視頻實時傳輸至地面站,最后再由計算機取代人工來進(jìn)行線路關(guān)鍵部件檢測和故障識別。由于觀察視點、光照、天氣和關(guān)鍵部件與缺陷及其所處背景的復(fù)雜變化,使得巡視圖像具有復(fù)雜的多變性和多樣性,另外,高清圖像數(shù)據(jù)量大,圖像大小高達(dá)4 800×2 704,而防震錘、間隔棒、掛點,分壓環(huán)和鳥巢等關(guān)鍵部件面積較小,其圖像常低于300×100像素,因而,如何準(zhǔn)確地檢測輸電線路關(guān)鍵部位及其缺陷已成為無人機巡檢技術(shù)研究的熱點。
輸電線路視覺巡檢主要有基于手工設(shè)計特征的方法和基于深度特征學(xué)習(xí)的方法兩類。早期的目標(biāo)檢測的特點是采用SIFT[1]、HOG[2]、LBP[3]等人工設(shè)計特征提取算子。其基本思路是針對特定目標(biāo)與場景的特點,首先手動設(shè)計特征算子,然后,再進(jìn)行特征的分類與識別。這類方法的缺點是目標(biāo)檢測對視點、光照、遮擋以及目標(biāo)與場景變化的適應(yīng)性差, 不能滿足輸電線路巡檢應(yīng)用的需要。近年來提出的深度學(xué)習(xí)方法的基本思路是通過已標(biāo)注的目標(biāo)圖像訓(xùn)練數(shù)據(jù)集,學(xué)習(xí)出深度特征網(wǎng)絡(luò)的參數(shù),然后,利用訓(xùn)練好的卷積網(wǎng)絡(luò),來檢測和識別目標(biāo)的位置和類型。深度學(xué)習(xí)檢測方法主要有基于區(qū)域建議的方法和基于回歸的方法兩類?;诤蜻x區(qū)域的方法主要有R-CNN[4],F(xiàn)ast R-CNN[5]和Faster R-CNN[6]等,其優(yōu)點是目標(biāo)檢測的精度高,缺點是目標(biāo)檢測的處理速度較慢;基于回歸的方法主要有SSD[16-17]和YOLO[18]等,其優(yōu)點是目標(biāo)檢測的處理速度快,缺點是小目標(biāo)檢測的精度較低??偟膩碚f,深度學(xué)習(xí)檢測的缺點是大量訓(xùn)練樣本圖像制備難度大,高分辨率圖像深度網(wǎng)絡(luò)的訓(xùn)練和目標(biāo)的檢測計算復(fù)雜度高;其優(yōu)點是不需手工設(shè)計特征抽取算法,通過捕獲光照、位置、尺度、旋轉(zhuǎn)以及目標(biāo)與場景等各種變化的訓(xùn)練樣本,就可自動訓(xùn)練出目標(biāo)特征的深度網(wǎng)絡(luò)參數(shù),極大地提高了較大尺度目標(biāo)檢測對視點、光照及背景變化的適應(yīng)性,深度學(xué)習(xí)為輸電線路線路關(guān)鍵部位與缺陷檢測提供了一種新的技術(shù)途徑。
內(nèi)容隨著深度學(xué)習(xí)技術(shù)的不斷發(fā)展,目標(biāo)檢測和識別技術(shù)取得了跨越式的發(fā)展,國內(nèi)外學(xué)者已經(jīng)在TPAMI、IJCV、TIP、CVIU以及CVPR、 ICCV、 ECCV等國際頂級期刊或會議上發(fā)表了許多重要的研究成果,主要有基于滑動窗口的方法和基于候選區(qū)域的方法兩種?;诨瑒哟胺椒ǖ乃悸肥轻槍斎雸D像或特征圖,采用滑動窗搜索的方法,判斷各個窗口是否包含目標(biāo)。Felzenz-walb提出一種顯著Deformable Parts Model(DPM)檢測算法[8],首先利用HOG特征金字塔滑動窗搜索方法,通過優(yōu)化部件形變參數(shù)和匹配分?jǐn)?shù),實現(xiàn)形變目標(biāo)的檢測,其缺點是計算量大。Pierre Sermanet利用多尺度的滑動窗口,提出了一種OverFeat特征提取算法[9],用卷積網(wǎng)絡(luò)將分類、定位和檢測統(tǒng)一起來,提高了目標(biāo)特征提取的適應(yīng)性,其缺點是滑動窗生成的候選區(qū)域特征提取存在重復(fù)計算;基于候選區(qū)域方法的思路是先提取候選區(qū)域,然后,對候選區(qū)域進(jìn)行分類和識別,主要有R-CNN[4],F(xiàn)ast R-CNN[5]和Faster R-CNN[6]等。R-CNN是先利用選擇性搜索方法產(chǎn)生候選區(qū)域,然后,采用卷積網(wǎng)絡(luò)提取目標(biāo)的特征,再利用SVM進(jìn)行特征分類[4,12],其缺點是候選區(qū)域相互重疊,卷積特征存在重復(fù)計算,處理速度慢。Kaiming He[13]提出了一個SPPnet深度卷積網(wǎng)絡(luò)空間金字塔池化目標(biāo)檢測方法[13],在最后一個卷積層和其后的全連接層之間,增加一個空間金字塔池化層,提取任意大小候選區(qū)域的固定大小特征圖,其特點是輸入任意大小的圖像,處理速度和精度比R-CNN高。Girshick, Ross提出了一種Fast R-CNN檢測方法[5],首先將選擇性搜索得到的目標(biāo)候選框投影到特征圖,并池化采樣成固定大小的特征,然后,再利用回歸分析檢測目標(biāo)的位置和類型。其特點是通過共享卷積網(wǎng)絡(luò)計算,提高了目標(biāo)檢測的處理速度。Shaoqing Ren提出了區(qū)域建議網(wǎng)絡(luò)Faster R-CNN檢測方法[6],首先,通過卷積特征圖產(chǎn)生RPN區(qū)域建議,然后結(jié)合Fast R-CNN網(wǎng)絡(luò),實現(xiàn)目標(biāo)檢測,其特點是RPN生成共享卷積特征計算,提高了目標(biāo)的檢測精度和速度。PASCAL VOC[10]和MS COCO[11]等數(shù)據(jù)集上的檢測試驗表明,基于候選區(qū)域的R-CNN方法在處理的速度和精度方面要優(yōu)于基于滑動窗口的方法。由于深度卷積網(wǎng)絡(luò)在過濾掉光照、視點、遮擋以及尺度變化特征的同時,也丟失了小目標(biāo)的細(xì)節(jié)特征,導(dǎo)致小目標(biāo)的檢測精度較低。寬視場高分辨率圖像雖然提高了小目標(biāo)檢測的精度,但同時也增加了計算的復(fù)雜度。因此,如何快速、準(zhǔn)確、可靠地檢測寬視場中的小目標(biāo)仍是輸電線路線路關(guān)鍵部位與缺陷檢測研究的難點。
為了提高小目標(biāo)特征表述的精度,Kong Tao提出了HyperNet 檢測方法[14],將高層的語義信息和底層高分辨率信息結(jié)合起來,提高多尺度目標(biāo)的表述精度。Lin, T.Y. 提出了特征金字塔檢測方法[15], 在每個特征層做預(yù)測,利用多尺度特征信息,提高了多尺度目標(biāo)的檢測精度,其缺點是檢測速度慢。Liu Wei 提出了基于多特征融合和SSD的小目標(biāo)檢測方法[18],引入小目標(biāo)的上下文信息,提高了目標(biāo)檢測的速度和精度。另外,文獻(xiàn)[19-20]還提出通過視圖聚合和對抗網(wǎng)絡(luò),來提高小目標(biāo)特征的精度,來改善小目標(biāo)的檢測精度,但其增大的輸入圖像尺度會導(dǎo)致訓(xùn)練和測試的計算和硬件成本的增加。為了解決小樣本引起的目標(biāo)檢測精度低問題,Goodfellow[20]提出了GAN對抗生成網(wǎng)絡(luò)方法[20],并將GAN應(yīng)用于圖像生成, 來擴充訓(xùn)練樣本集; Li Jianan提出了一種Perceptual GAN[22],通過學(xué)習(xí)每個類別不同尺度物體之間特征圖的內(nèi)在結(jié)構(gòu)相關(guān)性,再利用變換后的特征,來提高小目標(biāo)檢測的準(zhǔn)確率。其缺點是對抗生成模型通常難以訓(xùn)練且收斂。此外,文獻(xiàn)[23-24]和[7]還提出將上下文信息和語義分割引入目標(biāo)檢測,利用上下文信息改善了目標(biāo)檢測的精度和速度。由于航拍圖像中防震錘、間隔棒、絕緣子掛點和分壓環(huán)等小目標(biāo)雖然具有穩(wěn)定的上下文背景,但是,小目標(biāo)在上下文背景中的位置是隨機變化的,因而現(xiàn)有小目標(biāo)檢測方法的漏檢率較高。
受上述研究工作的啟發(fā),本文提出一種兩級Faster R-CNN級聯(lián)的目標(biāo)檢測方案,它根據(jù)小目標(biāo)上下文背景特點,采用兩個Faster-RCN來分別學(xué)習(xí)和建模小目標(biāo)及其上下文背景特征,首先執(zhí)行上下文背景區(qū)域檢測,獲取大尺度上下文背景,然后,將檢測出的上下文候選區(qū)域映射回原始圖像,提高小目標(biāo)特征圖的分辨率。圖1給出了提出的兩級Faster-RCNN級聯(lián)上下文小目標(biāo)檢測的處理框圖,第一級針對降分辨率的寬視場圖像,檢測小目標(biāo)的上下文區(qū)域。然后,將上下文對應(yīng)的原始圖像送給第二級的Faster R-CNN,進(jìn)而實現(xiàn)寬視場中的小目標(biāo)精確檢測。圖2分別給出了將分辨率圖像中小目標(biāo)特征圖和上下文背景中小目標(biāo)的特征圖。不同圖像分辨率的特征表達(dá)是完全不同的,可以看出上下文候選區(qū)域中小目標(biāo)包含更多的細(xì)節(jié)特征,小目標(biāo)特征表述的精度更高,本文提出的方法能夠先檢測小目標(biāo)所在的語義背景,然后,映射回原圖提高候選區(qū)域的分辨率,這樣,可以提高小目標(biāo)的分辨率,從而提升其檢測性能。本文第III節(jié)將針對航拍圖像中分壓環(huán)、防震錘、間隔棒和懸掛裝置等小目標(biāo)的上下文背景特點,詳細(xì)闡述提出的兩級Faster-RCNN級聯(lián)上下文小目標(biāo)檢測算法,第IV節(jié)給出了實驗結(jié)果。
圖1 兩級級聯(lián)Faster R-CNN的聯(lián)合框架(橙色線表示兩級Faster R-CNN之間的級聯(lián)關(guān)系)
圖2 高層卷積層中提取的特征圖所做的可視化效果
研究表明,F(xiàn)aster R-CNN減少了生成候選區(qū)域的數(shù)量計算量,因而在提高檢測速度的同時,也保證了檢測的準(zhǔn)確性。Faster R-CNN由RPN候選區(qū)域生成RPN網(wǎng)絡(luò)和Fast R-CNN檢測器兩個模塊組成。RPN網(wǎng)絡(luò)先采用3種長寬比的錨框生成候選區(qū)域,然后,將RPN的輸出作為Fast R-CNN的輸入,并通過細(xì)化微調(diào)來做預(yù)測。Faster R-CNN特點是RPN和Fast R-CNN共享卷積特征,可用VGG16[25],ResNet152[26]等非常深的基礎(chǔ)網(wǎng)絡(luò)來進(jìn)行高質(zhì)量的預(yù)測。在無人機巡檢實驗中,航拍原始圖像為4 800×2 704像素,小目標(biāo)的尺寸通常低于300×100像素。由于深度卷積網(wǎng)絡(luò)在過濾掉光照、視點以及尺度變化特征的同時,也丟失了小目標(biāo)的細(xì)節(jié)特征,在網(wǎng)絡(luò)的深層,小目標(biāo)會變得更小,在深層特征圖中可能還不到1個像素,小目標(biāo)的特征圖變得十分粗糙,導(dǎo)致線路關(guān)鍵部件及其缺陷等小目標(biāo)的檢測精度較低。因此,直接用Faster R-CNN進(jìn)行檢測,航拍圖像中的小目標(biāo)漏檢率較高。
為了提高無人機航拍寬視場高清圖像中小目標(biāo)的檢測精度,我們引入小目標(biāo)的上下文信息,將檢測分為兩個階段。首先,利用語義分割方法[7],生成可能包含小目標(biāo)的上下文候選區(qū)域。傳統(tǒng)的語義分割方法主要由自適應(yīng)閾值分割[27],自適應(yīng)區(qū)域分割[28],超像素分割[29]和SIFT特征匹配[1]等傳統(tǒng)的語義分割方法,這些方法十分依賴于人工設(shè)計的特征,不能自動的從訓(xùn)練數(shù)據(jù)中學(xué)習(xí)到特征表示,對不同檢測應(yīng)用的適應(yīng)性較差。本文采用一個Faster R-CNN方法來檢測可能包含有小目標(biāo)的幾類上下文大目標(biāo)候選區(qū)域。然后,針對提取到的上下文大目標(biāo)候選區(qū)域?qū)?yīng)的原始圖區(qū)域,利用第二級的Faster R-CNN來檢測和定位小目標(biāo),因而在提高寬視場圖像中小目標(biāo)檢測精度的同時,也保持了較高的處理速度。
本節(jié)簡要概述RPN結(jié)構(gòu)和錨。RPN可以接收任意大小的輸入圖像并輸出可能包含目標(biāo)的一組區(qū)域。為了生成候選區(qū)域,我們用一個小窗網(wǎng)絡(luò)在共享卷積層的最后一層滑動,將256維的ZFnet 或512維的VGG16卷積特征映射到低維,并將該向量輸入到兩個子全連接層,然后,再連到邊界框回歸層和邊界框分類層。由此預(yù)測區(qū)域含有目標(biāo)的概率以及預(yù)測框相對于真實框的偏移??紤]到目標(biāo)的尺度和旋轉(zhuǎn)變化,F(xiàn)aster R-CNN采用了3種不同的長寬比(1:1,1:2,2:1)組合和3個尺度組合的9個anchor來預(yù)測目標(biāo)的多尺度窗口,使得區(qū)域建議更加準(zhǔn)確,再利用隨機梯度下降(SGD)方法進(jìn)行端到端訓(xùn)練RPN分類和回歸分支。
首先,使用VGG16預(yù)訓(xùn)練模型來初始化基礎(chǔ)網(wǎng)絡(luò)。將RoI降采樣到7×7特征圖,與VGG16的第13層卷積層特征結(jié)合起來,然后,通過全連接層(FCs)映射成4 096維特征向量。對于每個RoI有兩個輸出向量:softmax類別概率和邊界框的回歸偏移。模型訓(xùn)練時,使用SGD端到端的優(yōu)化多任務(wù)損失,并對檢測網(wǎng)絡(luò)進(jìn)行微調(diào)。圖3給出了近似訓(xùn)練的過程,即使用VGG16預(yù)訓(xùn)練模型來初始化共享卷積層。當(dāng)訓(xùn)練Fast R-CNN時,RPN網(wǎng)絡(luò)的參數(shù)被固定。
圖3 近似訓(xùn)練的過程
Faster R-CNN中討論了三種方法共享卷積特征來訓(xùn)練網(wǎng)絡(luò)。在本文中,我們采用近似聯(lián)合訓(xùn)練方法。雖然它不像非近似聯(lián)合訓(xùn)練(考慮邊界框坐標(biāo)可微分的RoI池化層)那樣精確,但是實驗結(jié)果與其他兩種方法非常接近。首先,將候選目標(biāo)輸進(jìn)第二級Faster R-CNN訓(xùn)練網(wǎng)絡(luò)。當(dāng)訓(xùn)練Faster R-CNN檢測器時,由RPN生成的候選區(qū)域被固定。在反向傳播時,同時優(yōu)化RPN損失和Fast R-CNN損失。詳細(xì)的訓(xùn)練過程如圖3所示。網(wǎng)絡(luò)整個訓(xùn)練過程的概況如圖4所示。
圖4 前向和反向傳播網(wǎng)絡(luò)訓(xùn)練過程示意圖
我們在第一階段先檢測大目標(biāo),以降低輸入尺度并消除對小目標(biāo)的冗余干擾。具體而言,首先通過Faster R-CNN檢測電力塔架和絕緣子區(qū)域,然后用第二級Faster R-CNN檢測鳥巢、掛點和分壓環(huán)。兩個大目標(biāo)都是任意尺度的。電力塔大概是原始圖像的三分之一大??;絕緣子通常是矩形,其長寬比大于10。因此,我們需要預(yù)處理在第二階段中富含上下文信息的候選區(qū)域,來適應(yīng)RPN的輸入要求。對于在數(shù)據(jù)集中這兩個大目標(biāo),我們采用隨機裁剪的方法來解決這個問題。絕緣子候選框在真實框附近裁剪,保證長寬比保持在1∶2,并且短邊縮放到600像素。
本節(jié)將針對高分辨率寬視場中小物體圖像,評估和比較兩級Faster R-CNN的級聯(lián)和其他方法的檢測精度和速度性能。
實驗中,使用的國網(wǎng)南瑞公司提供的無人機拍攝的數(shù)據(jù)集,該數(shù)據(jù)集有3 700張圖片。每個圖像的大小為4 800×2 704。圖5展示了無人機采集的一些圖像。所有圖像都是高分辨率的,包含了多類小尺寸的目標(biāo)。在不同圖像中,這些目標(biāo)不僅尺度、位置以及所處背景差異很大,而且,觀察視角也具有很大的不確定性和隨機性,在航拍圖像中這些目標(biāo)可能被遮擋,因而,這使得我們的數(shù)據(jù)集非常具有挑戰(zhàn)性。我們進(jìn)行數(shù)據(jù)清洗,篩掉不包含目標(biāo)的圖像以及差異非常小的圖像。
圖5 數(shù)據(jù)集的示例。藍(lán)絕緣子、鳥巢、塔號牌、掛點和分壓環(huán)等檢測結(jié)果
實驗中檢測的小目標(biāo)有:鳥巢,塔號牌(表示電塔的數(shù)量或標(biāo)號),掛點(懸掛絕緣子的裝置)和分壓環(huán)。如在第3節(jié)中所述,在第一階段需要獲取包含上下文信息的候選區(qū)域,所以我們還標(biāo)注了2個電氣設(shè)備:電力塔架和絕緣子。
我們用預(yù)訓(xùn)練的ImageNet[30],VGG16[29]來提取特征,訓(xùn)練兩階段Faster R-CNN。 使用PyTorch框架來實現(xiàn)文中CNN架構(gòu)。每批隨機抽取300張圖片進(jìn)行訓(xùn)練。為了合理使用GPU內(nèi)存,如果圖像寬度大于2 000像素,則根據(jù)1 200 /w的比例大小進(jìn)行調(diào)整,w和h保持不變,其中w和h是圖像的寬度和高度。使用SGD求解器迭代10 000次,基本學(xué)習(xí)率為0.001。 此外,anchor與真實框的IoU重疊大于0.7的設(shè)為正樣本??紤]到正樣本十分稀缺的情況,為了均衡正負(fù)樣本,我們采樣更加偏向于正樣本。
在第一階段,用Faster R-CNN在原始圖像上做語義分割,從而提取可能包含小目標(biāo)的主要對象。表1給出了第一階段和整個階段的平均準(zhǔn)確率。我們在電力塔和絕緣子檢測中獲得了非常高的精度,其主要原因是塔架和絕緣子尺度比較大,容易學(xué)習(xí)到穩(wěn)定的可辨識特征。
在第二階段,采用相同的檢測過程來評估小目標(biāo)檢測性能。在第一階段之后,將預(yù)先檢測到的上下文區(qū)域輸進(jìn)到第二檢測網(wǎng)絡(luò)。表1給出了單級檢測的結(jié)果。
表1 單級檢測方法的結(jié)果
為了驗證本文提出的小目標(biāo)檢測方法的有效性,我們對單級的Faster-RCNN和級聯(lián)的Faster-RCNN做了對比實驗。即一種是用單級Faster R-CNN直接檢測原圖中的小目標(biāo),另一個實驗是利用本文的兩級Faster-RCNN級聯(lián)檢測方法。如圖6所示,給出了這兩種不同方法的部分結(jié)果圖像。表2給出了每類目標(biāo)的平均準(zhǔn)確率。實驗結(jié)果表明,對于近場拍攝的目標(biāo)圖像,這兩種方法都可以檢測到小目標(biāo),但本文級聯(lián)方法的回歸框更加準(zhǔn)確。此外,由于鳥巢和塔號牌的樣本數(shù)量有限,并且尺度比掛點和分壓環(huán)要小得多,故掛點和分壓環(huán)的準(zhǔn)確率明顯要比鳥巢和塔號牌高。對于遠(yuǎn)景拍攝的寬視場鳥巢、塔號牌等小目標(biāo)圖像,本文提出的方法的結(jié)果明顯優(yōu)于直接用單級Faster R-CNN檢測方法,其檢測的精度提升了13%。
圖6 單級和兩級級聯(lián)Faster R-CNN方法的檢測結(jié)果
表2 每類目標(biāo)的準(zhǔn)確率
由于場景圖像中不同目標(biāo)的長寬比變化很大,測試中采用了不同的anchor進(jìn)行小目標(biāo)檢測實驗。下面列舉了3種anchor的參數(shù):1∶1,1∶2,2∶1;1∶1,1∶3,3∶1;1∶1,1∶5,5∶1。表3給出了這3種縱橫比的實驗結(jié)果。從實驗結(jié)果可以看出,長寬比為1∶1,1∶2,2∶1的anchor比其它長寬比的anchor有著更好的檢測精度。
表3 不同anchor縱橫比的結(jié)果
本文針對寬視場輸電線路巡檢現(xiàn)場圖像,提出了一種兩級Faster R-CNN級聯(lián)的上下文小目標(biāo)檢測方法,采用兩個Faster-RCNN深度學(xué)習(xí)卷積網(wǎng)路分別對上下文背景和小目標(biāo)的特征檢測進(jìn)行建模,提高了候選區(qū)域內(nèi)小目標(biāo)圖像的分辨率和處理速度。首先,采用一個Faster-RCNN檢測上下文候選區(qū)域,然后,針對上下文候選區(qū)域映射到原始圖像,利用另一個Faster-RCNN檢測上下文候選區(qū)域中的小目標(biāo),提高了寬視場圖像中小目標(biāo)檢測的精度和速度。針對輸電線路巡檢的現(xiàn)場寬視場圖像數(shù)據(jù)庫,目標(biāo)檢測試驗表明,與單級Faster R-CNN相比,本文提出的方法不僅具有更高的小目標(biāo)檢測精度,同時,對于4 800×2 704這樣大幅面的圖像也保持了較高的處理速度,滿足了輸電線路快速巡檢應(yīng)用的要求。
感謝武漢南瑞有限責(zé)任公司無人機巡檢組提供的視頻數(shù)據(jù)。