韋汶妍, 劉曉立,楊傳凱,菅永峰,沙潔韻, 杜建超
(1. 國(guó)網(wǎng)陜西省電力公司電力科學(xué)研究院,陜西 西安 710100;2.國(guó)網(wǎng)陜西省電力公司經(jīng)濟(jì)技術(shù)研究院,陜西 西安 710075;3. 西安電子科技大學(xué) 通信工程學(xué)院, 陜西 西安 710071)
桿塔是輸電線路中的重要設(shè)施,是電力巡檢的主要監(jiān)測(cè)對(duì)象。當(dāng)前對(duì)桿塔的巡檢主要依靠人工、無(wú)線傳感器等手段,巡檢方法的智能化水平較低[1]。隨著人工智能和無(wú)人機(jī)技術(shù)的發(fā)展,將其應(yīng)用于輸電設(shè)備的自動(dòng)巡檢,將極大提高電力巡視的智能化水平[2]。在自動(dòng)巡視過(guò)程中,利用視頻攝像頭采集圖像,并對(duì)畫(huà)面中的桿塔進(jìn)行自動(dòng)識(shí)別和定位,可進(jìn)一步判別桿塔狀態(tài),引導(dǎo)無(wú)人機(jī)自主飛行[3]。
一些研究采用傳統(tǒng)的圖像處理方法對(duì)桿塔進(jìn)行檢測(cè)。例如文獻(xiàn)[4]使用自相似性特征提取高分辨率合成孔徑雷達(dá)圖像中的桿塔。文獻(xiàn)[5]結(jié)合無(wú)人機(jī)載攝像機(jī)標(biāo)定,對(duì)桿塔進(jìn)行投影變換,提取投影后的直線段特征進(jìn)行聚類(lèi)分析。文獻(xiàn)[6] 使用融合地理位置信息后的可變形部件模型的方法檢測(cè)桿塔。傳統(tǒng)算法普遍處理速度慢,算法效率低,易受到噪聲干擾,存在一定的虛警概率。隨著機(jī)器學(xué)習(xí)在目標(biāo)檢測(cè)領(lǐng)域的應(yīng)用,一些文獻(xiàn)使用機(jī)器學(xué)習(xí)中監(jiān)督學(xué)習(xí)的方式,利用方向梯度直方圖特征訓(xùn)練支持向量機(jī)來(lái)檢測(cè)輸電線路中的桿塔位置[7],但漏檢率高于虛檢率,檢測(cè)效果還有進(jìn)一步提升空間。文獻(xiàn)[8]使用無(wú)人機(jī)拍攝不同方位的桿塔,提取方向梯度直方圖特征作為輸入訓(xùn)練多層感知機(jī)。這雖然縮短了檢測(cè)時(shí)間和具有較好的檢測(cè)精度,但是輸入圖像要求近距離拍攝3個(gè)方位的桿塔。
近幾年深度學(xué)習(xí)在圖像處理領(lǐng)域有了普遍的使用[9]。深度學(xué)習(xí)中的CNN算法放棄了傳統(tǒng)方法的手工描述特征,通過(guò)對(duì)大量數(shù)據(jù)進(jìn)行標(biāo)注和訓(xùn)練,得到能自動(dòng)提取目標(biāo)深層特征[10]的網(wǎng)絡(luò)參數(shù),這類(lèi)算法在目標(biāo)檢測(cè)任務(wù)中表現(xiàn)出高準(zhǔn)確率,且訓(xùn)練得出的模型泛化能力強(qiáng)。文獻(xiàn)[11]指出:各類(lèi)卷積神經(jīng)網(wǎng)絡(luò)性能優(yōu)異,計(jì)算能力強(qiáng),還擁有超過(guò)100萬(wàn)張圖片的大型數(shù)據(jù)庫(kù)ImageNet。實(shí)際的桿塔檢測(cè)任務(wù)中,數(shù)據(jù)集達(dá)不到此規(guī)模,訓(xùn)練得到的模型存在提取目標(biāo)深層特征困難、檢測(cè)準(zhǔn)確度低、誤檢率高的問(wèn)題。為了解決這些問(wèn)題,圖像增廣和遷移學(xué)習(xí)是2種可行的方法。圖像增廣技術(shù)采用一些方式改變?cè)紙D像的狀態(tài),例如圖像旋轉(zhuǎn)、隨機(jī)裁剪及加噪聲等方法,使之與原圖存在不同但又不改變桿塔的特征,這一方法能擴(kuò)充數(shù)據(jù)集數(shù)量,提高模型的檢測(cè)精度[12]。文獻(xiàn)[13]提出,將在大型數(shù)據(jù)集上訓(xùn)練好的網(wǎng)絡(luò)參數(shù)遷移到小型數(shù)據(jù)集進(jìn)行訓(xùn)練,能解決小數(shù)據(jù)集規(guī)模不足以支撐深度學(xué)習(xí)網(wǎng)絡(luò)訓(xùn)練的問(wèn)題。針對(duì)這2點(diǎn),本文對(duì)實(shí)際采集的桿塔圖像,采用鏡像、旋轉(zhuǎn)、銳化等圖像增廣技術(shù)進(jìn)行擴(kuò)充以提高訓(xùn)練樣本數(shù)量,同時(shí)使用基于ImageNet訓(xùn)練得到的VGG16網(wǎng)絡(luò)作為特征提取器,利用遷移學(xué)習(xí)的原理,將VGG16已訓(xùn)練得到的參數(shù)作為初始化值,遷移淺層網(wǎng)絡(luò)的基礎(chǔ)特征提取能力,對(duì)這部分網(wǎng)絡(luò)層參數(shù)進(jìn)行凍結(jié),輸入的桿塔圖像進(jìn)行訓(xùn)練時(shí)反向傳播調(diào)整其他層參數(shù),最終得到能提取桿塔淺層基礎(chǔ)特征以及深層抽象特征的模型。將調(diào)整好的VGG16特征提取器結(jié)合深度學(xué)習(xí)網(wǎng)絡(luò)Faster 區(qū)域卷積神經(jīng)網(wǎng)絡(luò)(regional convolutional neural networks,R-CNN),即Faster R-CNN[14],實(shí)現(xiàn)了輸電桿塔的準(zhǔn)確檢測(cè)。算法的整體方案如圖1所示。
圖1 桿塔檢測(cè)方案總體框架Fig.1 Overall framework of tower inspection scheme
圖像增廣可有效增加訓(xùn)練樣本集數(shù)量,改善深度學(xué)習(xí)模型的性能。基于實(shí)際采集的巡檢圖片,采用3種方式進(jìn)行增廣:鏡像、銳化和旋轉(zhuǎn)。鏡像不改變?cè)瓐D內(nèi)容,只在水平方向上進(jìn)行對(duì)稱(chēng)處理;旋轉(zhuǎn)分為順時(shí)針和逆時(shí)針,分別旋轉(zhuǎn)5°、10°、15°、20°,旋轉(zhuǎn)一定的角度產(chǎn)生了區(qū)別于原圖的桿塔狀態(tài)但是不改變桿塔特征的圖像;對(duì)旋轉(zhuǎn)后的圖集采用非銳化掩蔽的方法進(jìn)行銳化,增強(qiáng)桿塔的邊緣,使其輪廓更加清晰[15]。非銳化掩蔽的原理為
A(m,n)=B(m,n)+θK(m,n).
(1)
式中:m,n分別為像素點(diǎn)橫、縱坐標(biāo);A(m,n)、B(m,n)分別為銳化輸出圖像和輸入圖像;θ為縮放因子;K(m,n)為校正值,且
K(m,n)=B(m,n)-G(m,n),
(2)
G(m,n)是圖像經(jīng)過(guò)高斯模糊處理后得到的值。具體做法是使用1個(gè)3×3的高斯權(quán)重矩陣遍歷圖像上每個(gè)像素點(diǎn),將權(quán)重矩陣上的每個(gè)權(quán)重乘以對(duì)應(yīng)位置的像素點(diǎn)得到新的像素值,每個(gè)像素點(diǎn)經(jīng)高斯模糊后的值為周?chē)?個(gè)點(diǎn)和自身的新像素值之和。
利用增廣將訓(xùn)練數(shù)據(jù)集擴(kuò)充了19倍。一些增廣的圖例如圖2所示。
圖2 圖像增廣Fig.2 Image augmentation
標(biāo)注過(guò)的圖像被輸入VGG16網(wǎng)絡(luò)進(jìn)行特征提取,此網(wǎng)絡(luò)已經(jīng)基于ImageNet圖像庫(kù)進(jìn)行了分類(lèi)任務(wù)的學(xué)習(xí)。ImageNet圖像庫(kù)包含了1 400萬(wàn)張以上的圖像,共分為2萬(wàn)多個(gè)類(lèi)別,大類(lèi)包括了鳥(niǎo)類(lèi)、花卉、食品、樂(lè)器、人、交通工具等[16],VGG16網(wǎng)絡(luò)從中學(xué)會(huì)提取目標(biāo)邊緣、紋理特征的參數(shù)。本文的桿塔不包含在ImageNet圖像庫(kù)中,并且與其收錄的圖像相似性低,但VGG16網(wǎng)絡(luò)的淺層學(xué)習(xí)是學(xué)會(huì)提取目標(biāo)的色彩斑點(diǎn)的權(quán)重,與輸入圖像集類(lèi)別關(guān)系不大[17],可以采用遷移學(xué)習(xí)的方式,利用VGG16已訓(xùn)練得到的參數(shù)作為初始化值后,凍結(jié)網(wǎng)絡(luò)淺層的參數(shù)不參與訓(xùn)練,將這部分網(wǎng)絡(luò)提取目標(biāo)基礎(chǔ)特征的能力直接遷移到桿塔的特征提取中,結(jié)合輸入桿塔圖像集反向傳播微調(diào)其他層的參數(shù),達(dá)到最好的檢測(cè)結(jié)果。與隨機(jī)初始化特征提取網(wǎng)絡(luò)或者參數(shù)從零開(kāi)始訓(xùn)練相比,使用遷移學(xué)習(xí)能提高訓(xùn)練速度,得到更好的特征提取效果[18]。
VGG16網(wǎng)絡(luò)[19]結(jié)構(gòu)如圖3所示,包括13個(gè)卷積層和3個(gè)全連接層,每個(gè)卷積層Conv3使用的卷積核大小Kernel_size為3×3,步長(zhǎng)stride為1,邊界填充pad為1。池化層使用大小為2×2的卷積核,步長(zhǎng)為2,邊界填充為0,采用極大值函數(shù)max()的池化方式。輸入圖片的長(zhǎng)和寬分別為M和N,每一層處理后的圖片長(zhǎng)W按式(3)計(jì)算,同理可以計(jì)算寬H。卷積層的處理不改變長(zhǎng)和寬,而經(jīng)過(guò)一次池化層Maxpool處理,長(zhǎng)和寬都變?yōu)榍耙粚拥亩种弧C繉咏?jīng)過(guò)卷積后使用非線性的ReLU[20-23]函數(shù)f(x)作為激勵(lì)函數(shù),表達(dá)式見(jiàn)式(4)。在存在導(dǎo)數(shù)時(shí),ReLU函數(shù)導(dǎo)數(shù)f′(x)為常數(shù)1,不會(huì)出現(xiàn)梯度消失的情況,而且反向傳播求誤差梯度時(shí)計(jì)算量更小,x為神經(jīng)元的輸入。
圖3 VGG16網(wǎng)絡(luò)結(jié)構(gòu)Fig.3 Vgg16 network structure
W=(M-Kernel_size+2pad)/stride+1,
(3)
(4)
經(jīng)過(guò)上述處理,最終輸出W=M/16和H=N/16,且維度為512的特征圖。
VGG16共有13個(gè)卷積層,前4個(gè)卷積層主要提取目標(biāo)的淺層特征,可以不進(jìn)行遷移學(xué)習(xí),直接保留初始參數(shù);后9個(gè)卷積層用來(lái)提取目標(biāo)的深層特征,故對(duì)它們進(jìn)行遷移學(xué)習(xí)。學(xué)習(xí)前后部分參數(shù)變化情況見(jiàn)表1。表1中列出了4組網(wǎng)絡(luò)參數(shù)的值,對(duì)每組網(wǎng)絡(luò)參數(shù)而言,上面1行為遷移學(xué)習(xí)前的值,下面1行為遷移學(xué)習(xí)后的值。由表1可以看出:遷移學(xué)習(xí)后這些參數(shù)在初始值基礎(chǔ)上出現(xiàn)了微調(diào),這些參數(shù)的變化體現(xiàn)了新模型對(duì)本地目標(biāo)進(jìn)行特征提取的適應(yīng)性改變。利用此種遷移學(xué)習(xí),提高了特征提取網(wǎng)絡(luò)的訓(xùn)練速度,實(shí)現(xiàn)了模型的本地化訓(xùn)練。
表1 遷移學(xué)習(xí)前后部分網(wǎng)絡(luò)參數(shù)的變化Tab.1 Changes of some network parameters before and after transfer learning
將由VGG16網(wǎng)絡(luò)進(jìn)行特征提取生成的桿塔特征圖送入Faster R-CNN的區(qū)域生成網(wǎng)絡(luò)(region proposal network,RPN)進(jìn)行進(jìn)一步處理。此網(wǎng)絡(luò)分為2部分,分別使用softmax分類(lèi)器的分類(lèi)層和微調(diào)候選框的回歸層。經(jīng)過(guò)RPN的卷積層和池化層處理得到的特征圖,每個(gè)特征點(diǎn)都被配備了k個(gè)錨,具有3種長(zhǎng)寬比{1∶1,2∶1,1∶2}和覆蓋整個(gè)輸入特征圖。下一步使用softmax分類(lèi)器對(duì)每個(gè)錨進(jìn)行二分類(lèi)判斷,判斷是目標(biāo)還是背景。VGG16網(wǎng)絡(luò)輸出的特征圖中每個(gè)特征點(diǎn)經(jīng)二分類(lèi)之后轉(zhuǎn)化為2k個(gè)目標(biāo)和背景的得分值。結(jié)合錨和softmax分類(lèi)得到的候選框與正確的邊界框存在一定的偏移量,用中心點(diǎn)坐標(biāo)和長(zhǎng)寬偏移表示為:
(5)
(6)
(7)
最后一部分采用全連接層和softmax分類(lèi)器處理RPN網(wǎng)絡(luò)生成的包含候選區(qū)域的特征圖,計(jì)算特征圖中每個(gè)候選區(qū)域?qū)儆谀膫€(gè)類(lèi)別并輸出其概率,同時(shí)再次使用回歸層微調(diào)候選區(qū)域邊界框,得到最終的目標(biāo)檢測(cè)框。
原始圖像和增廣后的數(shù)據(jù)集規(guī)模見(jiàn)表2。將191張?jiān)紙D像和3 706張?jiān)鰪V后圖像,按7∶3分為訓(xùn)練集和測(cè)試集訓(xùn)練2個(gè)模型,訓(xùn)練模型時(shí)的學(xué)習(xí)率均設(shè)置為0.001。因原始圖像數(shù)量較少,批量訓(xùn)練圖片數(shù)量設(shè)置為64,增廣后的數(shù)據(jù)集為256,迭代次數(shù)都為20 000次。
表2 數(shù)據(jù)集規(guī)模Tab.2 Dataset size
VGG16遷移學(xué)習(xí)原始圖像集訓(xùn)練后的模型稱(chēng)為A模型,VGG16遷移學(xué)習(xí)增廣圖像集訓(xùn)練后的模型稱(chēng)為B模型,下面對(duì)2個(gè)模型在測(cè)試集上的檢測(cè)結(jié)果進(jìn)行比較。首先根據(jù)網(wǎng)絡(luò)輸出的檢測(cè)精確度計(jì)算得到A模型和B模型檢測(cè)桿塔的精度均值分別為52.7%和90.5%;其次,采用精確率和召回率進(jìn)行評(píng)價(jià),即將檢測(cè)結(jié)果按照正確檢出與否進(jìn)行分類(lèi)統(tǒng)計(jì),其中:正確檢出桿塔的數(shù)量記為T(mén)TP,誤檢的數(shù)量記為T(mén)FP,漏檢的數(shù)量記為T(mén)FN,按照式(8)、(9)計(jì)算精確率fprecision和召回率frecall:
(8)
(9)
根據(jù)式(8)、(9)計(jì)算可得精確率-召回率曲線如圖4、5所示。由圖4、5可以看出:A模型效果較差,精確率只有0.7左右,而召回率只有0.6;B模型在測(cè)試集上的精確率和召回率均接近1,說(shuō)明B模型的誤檢率和漏檢率都很低,B模型的檢測(cè)效果具有較大幅度提升。
圖4 A模型精確率-召回率曲線Fig.4 Precision-recall rate curves of model A
圖5 B模型精確率-召回率曲線Fig.5 Precision-recall rate curves of model B
1張圖像中通常會(huì)出現(xiàn)多個(gè)桿塔,在檢測(cè)結(jié)果中,有些圖像中的桿塔能全部正確檢出,有些圖像則只能部分檢出,或存在誤檢。在下面的統(tǒng)計(jì)中,設(shè)全部送檢的圖像總數(shù)為I、桿塔全部正確檢出的圖像數(shù)量為I1、部分正確檢出的圖像數(shù)量為I2及存在誤檢的圖像數(shù)量為I3。
式(10)用來(lái)計(jì)算I1、I2、I3在送檢圖像總數(shù)中分別所占的比率p1、p2和p3,統(tǒng)計(jì)結(jié)果見(jiàn)表3。
表3 A模型及B模型檢測(cè)結(jié)果對(duì)比Tab.3 Comparison of test results between model A and model B
(10)
從表3可以看出:A模型的檢測(cè)結(jié)果中,p1僅為32.8%,而p2和p3高達(dá)62.1%和5.2%,說(shuō)明有大量未完全正確檢出的圖像,特別是存在漏檢的圖像數(shù)量超過(guò)了總圖像數(shù)的一半;B模型的檢測(cè)結(jié)果中,p1提升為97.8%,而p2和p3僅為1.8%和0.5%,誤檢和漏檢的情況明顯改善。
一些檢測(cè)結(jié)果的圖例被列在圖6中。由圖6可以看出:左側(cè)的A模型檢測(cè)出的結(jié)果中,圖例1和圖例5的邊界框回歸效果差,包含了許多圖像背景,圖例3和圖例4漏檢和誤檢現(xiàn)象較為嚴(yán)重,一些尺度較小的桿塔未被檢測(cè)出,準(zhǔn)確度不高;而右側(cè)的B模型能檢測(cè)到多種尺度的桿塔(如圖例1和圖例3所示),小尺度桿塔被準(zhǔn)確檢測(cè),圖例5中背光模糊的桿塔也被檢測(cè)出;并且B模型的邊界框定位的準(zhǔn)確度明顯高于A模型,更準(zhǔn)確地給出了桿塔在圖像中的位置。由此可見(jiàn),增廣圖像集訓(xùn)練后的模型可以更充分地學(xué)習(xí)到桿塔的淺層特征和深層特征并加以融合,提高了對(duì)圖像中多尺度目標(biāo)的檢測(cè)準(zhǔn)確度,降低了漏檢和誤檢概率,增強(qiáng)了模型的泛化性。
圖6 A模型和B模型檢測(cè)效果對(duì)比圖Fig.6 Comparison of inspection effects between model A and model B
文章提出了一種基于深度學(xué)習(xí)網(wǎng)絡(luò)的輸電桿塔智能檢測(cè)算法,即將VGG16網(wǎng)絡(luò)作為Faster R-CNN深度學(xué)習(xí)框架的特征提取器。該算法首先使用銳化、旋轉(zhuǎn)、鏡像的方式大幅擴(kuò)充桿塔圖像數(shù)據(jù)集,然后基于ImageNet圖像庫(kù)分類(lèi)任務(wù)的遷移學(xué)習(xí)對(duì)VGG16網(wǎng)絡(luò)進(jìn)行參數(shù)調(diào)整。實(shí)驗(yàn)結(jié)果表明:文章所提算法提高了精度均值、精確率-召回率和正確檢出圖像數(shù)量等多個(gè)性能評(píng)價(jià)指標(biāo),對(duì)于1張圖片中包含多個(gè)不同尺度桿塔具有良好的檢測(cè)效果,對(duì)背光和模糊圖像的檢測(cè)也有較好的效果。