吳亮,謝予星,鄒鵬飛
(1.武漢大學(xué)遙感信息工程學(xué)院,湖北武漢430079;2.克萊姆森大學(xué)計算學(xué)院,美國克萊姆森29634)
近年來,隨著電力線路智能巡檢的發(fā)展,采用直升機、無人機等收集影像越來越多的代替了人工攀塔勘察,因此相應(yīng)的關(guān)于電力設(shè)備的圖像數(shù)據(jù)量也越來越大。同時,通過使用基于機器學(xué)習(xí)的方法來自動總結(jié)歸納特征,目標檢測問題越來受益于日漸豐富的圖像數(shù)據(jù)。但是由于電力方面的應(yīng)用專業(yè)性強、使用范圍窄而沒有公開的相對完善標注的電力設(shè)備影像數(shù)據(jù)集,因此在影像目標檢測越來越受到數(shù)據(jù)驅(qū)動的今天,電力設(shè)備的檢測一直受數(shù)據(jù)不足或者標記數(shù)據(jù)質(zhì)量不高的制約而發(fā)展較為緩慢。虛擬數(shù)據(jù)具有獲取相對方便,可自動生成標注等的優(yōu)點,研究虛擬數(shù)據(jù)的生成、虛擬數(shù)據(jù)在機器學(xué)習(xí)中的使用對解決上述問題具有重要意義。
在前人研究的基礎(chǔ)上,本文旨在解決在電力設(shè)備實拍數(shù)據(jù)以及相應(yīng)標注信息數(shù)量較少或沒有的情況下,得到相對準確的檢測結(jié)果的問題。因此本文先通過通用虛擬場景生成引擎,模擬出防振錘可能存在的場景以及電塔等容易對防振錘造成遮擋的物體,再將防振錘虛擬模型放入場景中通過一定的策略獲取虛擬樣本集,并以該虛擬樣本集作為訓(xùn)練樣本,實驗了HOG[7]特征、類Haar特征[8]與卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)[10],并通過對實驗結(jié)果以及理論進行分析,得出比較可靠的防振錘檢測結(jié)果,以作為之后深度學(xué)習(xí)的初始標注,或者在不能得到實拍訓(xùn)練數(shù)據(jù)的特殊情況下的使用。
在本文實驗中,待訓(xùn)練和識別的目標以防振錘為例,配套設(shè)備主要包括高壓電塔和電線。這類設(shè)備均是按照實物的相關(guān)參數(shù)和剖面圖在3DS Max軟件中人工建模而成。其尺寸可人為根據(jù)所處的虛擬場景進行參數(shù)上的調(diào)整和控制,以保證虛擬物件與虛擬場景具有合適的比例關(guān)系。本文實驗所選用的防振錘是最常見的兩種型號——FD型和FR型,如圖1所示。
圖1 防振錘模型
虛擬影像數(shù)據(jù)的獲取,是借助游戲引擎中的相機(Camera)功能,對待獲取目標(本實驗中為防振錘)進行模擬拍照并將拍照結(jié)果實時渲染輸出成通用的圖片影像格式。其主要流程如圖2所示,其中N表示拍攝的影像張數(shù),n表示當(dāng)前已拍攝影像數(shù)目,W表示影像的寬度(像素為單位),H表示影像的高度(像素為單位),Xmax表示待攝目標在影像水平方向上的最大像素坐標,Xmin表示待攝目標在影像水平方向上的最小像素坐標,Ymax表示待攝目標在影像豎直方向上的最大像素坐標,Ymin表示待攝目標在影像豎直方向上的最小像素坐標。
在獲取虛擬影像的過程中,還需要考慮如下幾個方面:
1)保證訓(xùn)練的有效性,虛擬數(shù)據(jù)集應(yīng)避免相機位置、攝影姿態(tài)、拍攝視場角等攝影要素過于單一。本文設(shè)置了兩個矩形區(qū)域作為相機的隨機運動區(qū)域。
2)保證目標樣本影像成像角度的多樣性,可以目標為中心設(shè)置一長方體或立方體區(qū)域并隨機運動。
圖2 虛擬樣本生成流程
3)減少人工標注的工作量,在虛擬場景中可以對興趣結(jié)構(gòu)預(yù)設(shè)最小外接長方體。本文的防振錘3個部分的外包圍盒。
4)進行拍照之前,還應(yīng)判斷待拍攝目標是否完整位于影像中。
5)在游戲3D虛擬引擎中,事件的進行通常以幀為單位。因此在完成1)-3)所述準備工作后,按幀執(zhí)行相應(yīng)的函數(shù)功能,每一幀獲取一張影像并輸出。
按照本節(jié)所闡述方法,本文實驗共產(chǎn)生了7 062張防振錘目標樣本,其中FD型3 529張,F(xiàn)R型3 533張,如圖3所示為5種典型的防振錘及其背景。
圖3 虛擬樣本示例
在本文實驗中,采用的是Faster R-CNN、DPM以及組合類Haar級聯(lián)分類器3種方法進行檢測試驗。Faster R-CNN[10]是一種用于目標檢測的多層深度網(wǎng)絡(luò),由共享權(quán)值層以及其后連接的兩個并行網(wǎng)絡(luò)——區(qū)域提取網(wǎng)絡(luò)(Region proposal network,RPN)和目標檢測網(wǎng)絡(luò)(Fast R-CNN)所組成。其中RPN向Fast R-CNN網(wǎng)絡(luò)提供候選區(qū)以供目標檢測,F(xiàn)ast RCNN又可以分為兩個并行的外接框回歸網(wǎng)絡(luò)和目標類別分值網(wǎng)絡(luò),因此網(wǎng)絡(luò)輸出是被檢測圖像中可能含有防振錘的區(qū)域位置坐標和可能性得分值。
DPM[9]通過提取HOG特征得到目標的輪廓信息,建立目標整體與各部件間在一定程度上可變的相對位置關(guān)系來檢測目標物體。DPM可以在沒有使用防振錘部件標注的情況下,分別使用大小兩個分辨率的圖像來獲得防振錘整體和部分的HOG特征,用多模型來表達防振錘的不同視角,最后通過latent-svm方法學(xué)習(xí)得到防振錘各個模型、子模型以及模型和子模型之前的位置關(guān)系。在檢測的階段,則通過與訓(xùn)練得到的模型、子模型以及相互之前的位置關(guān)系來判斷一個區(qū)域是否是防振錘,給出可能性分值以及防振錘的外接矩形。
虛擬仿真場景在拍攝時可以精確的知道目標物體及其各部件的位置,在訓(xùn)練類haar特征的級聯(lián)分類器時可以分別對防振錘整體、連接器與兩邊的錘體建立3個級聯(lián)分類器。在用adaboost計算訓(xùn)練分類器時都是用統(tǒng)一大小的正方形樣本作為輸入數(shù)據(jù)集以及級聯(lián)分類器的特性,類haar特征的級聯(lián)分類器的輸出結(jié)果分別是防振錘整體、連接器與錘體的外接正方形。但是這些分類器單獨使用由于特征較少而不能產(chǎn)生很好的分類效果,本文采用將整體與部件分類器根據(jù)其幾何位置組合起來的方法進行實驗。
文中針對實際拍攝的防振錘影像用第二章所提到的方法對訓(xùn)練得到的分類器進行結(jié)合,來得到最終的檢測結(jié)果。
本文實驗了3種分類器,分別為Faster R-CNN分類器、DPM分類器以及基于類Haar特征的級聯(lián)分類器。其中,基于類haar特征的級聯(lián)分類器又分別由防振錘整體、連接器以及錘體分類器所組成。
對于Faster R-CNN分類器,本文采用了兩種CNN網(wǎng)絡(luò)結(jié)構(gòu)作為對比試驗,第一種是在論文[11]中所提出較淺的ZF網(wǎng)絡(luò),除了輸入輸出層共有5層共享權(quán)值層;另一種是論文[12]中提出的VGG16網(wǎng)絡(luò),共有13層共享權(quán)值層。由于Faster R-CNN自動選擇候選區(qū)域作為負樣本,因此其所有樣本均是用第1節(jié)方法生成的虛擬樣本,為7062張?zhí)摂M影像樣本。
DPM分類器中,對于訓(xùn)練用的正樣本與上述相同,使用虛擬影像。負樣本不需要進行標注,本實驗使用了50幅從1 500萬像素到2 400萬像素不等的負樣本。本實驗采用的模型數(shù)為3,同時訓(xùn)練了兩種子模型數(shù)分別為3個與8個的分類器來做比較。
類haar級聯(lián)分類器的訓(xùn)練使用的是OpenCV中所提供的Adaboost級聯(lián)分類器的訓(xùn)練方法。虛擬影像可以提供包括防振錘整體和其各部件在圖像上的精確位置,對于防振錘整體與連接器的訓(xùn)練,其樣本與DPM分類器相同。最終,防振錘整體分類器共使用了2 064個特征;連接器分類器共用了1 181個特征;錘體分類器共包含1 623個特征。
本文的檢測實驗是在19幅沒有參與訓(xùn)練的含有防振錘的實拍電力場景影像上進行,影像中總共包含有88個人眼可辨別或者人工可根據(jù)場景上下文推斷出的防振錘。在本文的檢測實驗中,本文將與圖像上的真實防振錘矩形區(qū)域交集與并集之比大于0.5的檢測矩形框視為正確的檢測結(jié)果。
表1為使用3種方法所得的實驗結(jié)果,檢測精度使用的是平均精度,表中加粗的部分是最好結(jié)果項。圖4是與表1相對應(yīng)的接收者操作特征(Receiver Operating Characteristic,ROC)曲線。其中,組合Haar指的是將防振錘整體與連接器、錘體分類器根據(jù)幾何位置組合起來的檢測器。從表中與圖中可以看出,DPM取得了最好的結(jié)果,其次是Faster R-CNN,而組合Haar檢測器則得到了較差的檢測結(jié)果。
雖然Faster R-CNN具有檢測速度快,準確率高等的優(yōu)點,但是虛擬防振錘與真實拍攝的防振錘在特征表達上還具有一定的差異性。因此只用虛擬仿真模型生成的圖像樣本訓(xùn)練得到的深度模型對實際目標物體的預(yù)測能力并不十分理想。而DPM由于其主要代表的是梯度也即目標的輪廓特征,從而避免了虛擬數(shù)據(jù)對顏色、紋理等特征模擬的不足,因而能夠得到最好的效果。組合類Haar檢測器則因為模擬數(shù)據(jù)中的矩形類Haar特征并不能很好的代表真實世界中防振錘與背景環(huán)境的復(fù)雜相對關(guān)系,所以即使采用組合的分類器也不能得到很好的效果。
圖4 檢測結(jié)果ROC曲線
表1 檢測結(jié)果
如圖5所示為DPM所學(xué)習(xí)到的防振錘特征圖,可以看出DPM特征與防振錘內(nèi)部紋理相關(guān)性較小,體現(xiàn)的主要是其輪廓信息。從表1檢測結(jié)果可以看出,具有3個子模型的分類器比有8個子模型的分類器有著更好的表現(xiàn),這表明了在訓(xùn)練DPM時,根據(jù)目標物體本身的特征先驗知識選擇模型數(shù)與子模型數(shù)是非常必要的,而不是模型數(shù)越多越好。如圖5(a)與圖5(b)所示,防振錘可分解為三個部分,那么3個子模型已經(jīng)可以較好的表達出防振錘的各部件特征關(guān)系,而且與我們對防振錘的先驗知識相近,但8個子模型則略顯冗余。另外,3個子模型的DPM也具有較為明顯的速度優(yōu)勢,相比于8個子模型的DPM可節(jié)省近40%的檢測時間。
圖5 防振錘DPM特征圖
根據(jù)Faster R-CNN檢測器的結(jié)果可以看出,雖然有著更深層網(wǎng)絡(luò)的VGG16在訓(xùn)練時有更低的損失值,但是在檢測時相對于ZF網(wǎng)絡(luò)不論對前景防振錘還是對背景防振錘都只得到了較低的AP。同時基于ZF網(wǎng)絡(luò)的Faster R-CNN分類器檢測出了更多的防振錘,這是因為VGG16網(wǎng)絡(luò)雖然有著更為強大的擬合能力,可對訓(xùn)練集進行更精確的學(xué)習(xí)和描述,但是作為訓(xùn)練集的虛擬樣本與真實樣本還存在一定的數(shù)據(jù)域偏置,而對訓(xùn)練域出現(xiàn)了一定程度的過擬合,導(dǎo)致檢測效果不如ZF網(wǎng)絡(luò)。另外可以看到使用了VGG16網(wǎng)絡(luò)的雖然AP較低,但這主要是由于VGG16檢測出的防振錘較少造成的,由ROC曲線可以看到,基于VGG16的Faster R-CNN在得分較高的區(qū)域具有較好的精度,也即對與訓(xùn)練集更相像的目標有著更好的表現(xiàn)。這也說明了如果在后續(xù)訓(xùn)練中如果能夠加入實拍數(shù)據(jù)集,如利用DPM在實拍數(shù)據(jù)集上檢測結(jié)果再加上少量的人工篩選,那么更深的網(wǎng)絡(luò)就會得到更好的表現(xiàn)。
文中針對電力設(shè)備影像及可靠標記數(shù)據(jù)缺乏的問題,提出了一種電力設(shè)備虛擬場景生成、虛擬影像及標記的獲取方法,并基于虛擬樣本集在沒有遷移學(xué)習(xí)的情況下實驗了一系列不同的目標檢測方法,并以防振錘為對象證明了DPM在虛擬數(shù)據(jù)集上有著最好的效果。通過實驗,本文還得到以下兩個結(jié)論:
由于虛擬樣本的數(shù)據(jù)域偏置,較淺的ZF網(wǎng)絡(luò)相對于較深VGG16取得了更好的效果。但是VGG16由于有較強的擬合能力,在對防振錘成像質(zhì)量較好的部分可以得到更高的分值,因此當(dāng)通過本文的方法在實拍影像上進行檢測,并以檢測結(jié)果作為補充樣本對基于更深層網(wǎng)絡(luò)的Faster R-CNN進行遷移學(xué)習(xí)時,將會得到更好的表現(xiàn)。
通過防振錘的檢測說明,基于先驗知識選擇DPM分類器的模型數(shù)與子模型數(shù)可以得到更好的效果。因此在訓(xùn)練其他電力設(shè)備分類器時,要合理利用相應(yīng)電力設(shè)備的先驗拍攝與結(jié)構(gòu)知識,并對復(fù)雜結(jié)構(gòu)的電力設(shè)備進行適當(dāng)?shù)姆纸?,才會在DPM分類器上得到較好的結(jié)果。
[1]于旭,楊靜,謝志強.虛擬樣本生成技術(shù)研究[J].計算機科學(xué),2011,38(3):16-19.
[2]Pishchulin L,Jain A,Andriluka M,et al.Articulated people detection and pose estimation:Reshaping the future[C]//Computer Vision and Pattern Recognition (CVPR) ,2012 IEEE Conference on.IEEE,2012:3178-3185.
[3]余萍,董保國.基于SIFT特征匹配的電力設(shè)備圖像變化參數(shù)識別[J].中國電力,2012,45(11):60-64.
[4]張宏釗,黃榮輝,姚森敬,等.對嵌入式系統(tǒng)的電力設(shè)備紫外監(jiān)測系統(tǒng)設(shè)計的分析[J].電子設(shè)計工程,2016,24(11):112-114.
[5]翟永杰,伍洋.基于3D模型和AdaBoost算法的絕緣子檢測[J].傳感器世界,2014(10):11-14.
[6]翟荔婷,張冰怡,馮志勇,等.基于3D塔架配準的絕緣子自爆缺陷檢測[J].計算機工程與科學(xué),2016,38(8):1688-1694.
[7]Dalal N,Triggs B.Histograms of oriented gradients forhuman detection[C]//2005 IEEE Computer Society Conference on ComputerVision and Pattern Recognition(CVPR'05).IEEE,2005,1:886-893.
[8]Viola P,Jones M.Rapid object detection using a boosted cascade of simple features[C]//International Conference on Computer Vision and Pattern Recognition,Kauai,USA:IEEE,2001:511-518.
[9]Felzenszwalb P F,Girshick R B,Mcallester D,et al.Object detection with discriminatively trained part-based models[J].IEEE Transactionson Pattern Analysis and Machine Intelligence,2010,32(9):1627-1645.
[10]Ren S,He K,Girshick R,et al.Faster R-CNN:Towards real-time object detection with region proposal networks[C]//Advances in Neural Information Processing Systems.2015:91-99.
[11]Zeiler M D,F(xiàn)ergus R.Visualizing and understandingconvolutionalnetworks[C]//EuropeanConference on Computer Vision.Springer International Publishing,2014:818-833.
[12]Simonyan K,Zisserman A.Very deep convolutional networks for large-scale image recognition[J].arXiv preprint arXiv:1409.1556,2014.
[13]Marin J,VáZquez D,GeróNimo D,et al.Learning appearance in virtual scenarios for pedestrian detection[C]//Computer Vision and Pattern Recognition(CVPR),2010 IEEE Conference on.IEEE,2010:137-144.
[14]Aubry M,Maturana D,Efros A A,et al.Seeing 3d chairs:exemplar part-based 2d-3d alignment using a large dataset of cad models[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,2014:3762-3769.
[15]Girshick r,Donahue j,Darrell T,et al.Rich feature hierarchies for accurate object detection and semantic segmentation[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.2014:580-587.
[16]Girshick R.Fast r-cnn[C]//Proceedings of the IEEE International Conference on Computer Vision,2015:1440-1448.