李 梅,郭 飛,張立中,王 波,張俊嶺,李兆桐
1) 國(guó)網(wǎng)寧夏電力有限公司,銀川 750001 2) 國(guó)網(wǎng)寧夏電力有限公司吳忠供電公司,吳忠 751101 3) 山東魯能軟件技術(shù)有限公司,濟(jì)南250001 4) 中國(guó)石油大學(xué)(華東)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,青島 266580
輸電線路的安全對(duì)國(guó)家的發(fā)展至關(guān)重要,由于吊車等大型機(jī)械運(yùn)作時(shí)的高度跟輸電線路的高度比較接近甚至更高,當(dāng)這些設(shè)備在輸電線附近進(jìn)行作業(yè)時(shí)會(huì)對(duì)輸電線路的安全造成威脅. 因此,設(shè)計(jì)一種能夠?qū)旊娋€路威脅進(jìn)行自動(dòng)報(bào)警的方法顯得十分必要[1].
國(guó)家電網(wǎng)在輸電塔上配備了圖像抓拍設(shè)備,但目前其供電方式為太陽(yáng)能充電,能夠提供的功率較小并且難以支撐監(jiān)控設(shè)備的長(zhǎng)時(shí)間運(yùn)行. 因此,對(duì)輸電線路進(jìn)行全天候監(jiān)控并利用常規(guī)深度學(xué)習(xí)目標(biāo)檢測(cè)的方式來(lái)進(jìn)行報(bào)警變得不再可行.針對(duì)以上問題,本文提出了一種基于TATLNet的輸電線路威脅報(bào)警方法,該方法通過紅外傳感器來(lái)對(duì)過往的大型設(shè)備進(jìn)行監(jiān)控[2],當(dāng)檢測(cè)到大型機(jī)械時(shí)再喚醒系統(tǒng)加以分析以減少能耗. 利用本文提出的一種新的輸電線路威脅檢測(cè)網(wǎng)絡(luò)TATLNet,并用通道剪枝的策略來(lái)對(duì)模型進(jìn)行壓縮[3?5],提高檢測(cè)速度,使之可以在輕量級(jí)計(jì)算平臺(tái)上運(yùn)行. 同時(shí),由于可以采集到的吊車、起重機(jī)等大型機(jī)械入侵圖像較少,采用傳統(tǒng)圖像幾何變換與GAN[6](Generative adversarial network,對(duì)抗生成網(wǎng)絡(luò))相結(jié)合的方式來(lái)對(duì)數(shù)據(jù)集進(jìn)行數(shù)據(jù)增強(qiáng).
該方法的貢獻(xiàn)主要有以下幾點(diǎn):
(1)解決了如何在無(wú)人值守的情況下對(duì)入侵輸電場(chǎng)地的吊車等大型機(jī)械進(jìn)行報(bào)警的難題;
(2)針對(duì)低能耗計(jì)算平臺(tái)的限制以及入侵輸電場(chǎng)地機(jī)械在圖像中的特點(diǎn),設(shè)計(jì)了一種新的端到端輸電線路威脅檢測(cè)網(wǎng)絡(luò)TATLNet;
(3)提出了目標(biāo)檢測(cè)的一個(gè)新思路,即將大多數(shù)計(jì)算用于提出更精確的候選區(qū)域,并針對(duì)具有較高準(zhǔn)確率的候選區(qū)域設(shè)計(jì)較小的分類網(wǎng)絡(luò).
目前對(duì)輸電線路威脅的監(jiān)控大多通過采集監(jiān)控圖像,并利用圖像匹配或者深度學(xué)習(xí)方法對(duì)圖像進(jìn)行分析. 文獻(xiàn)[7]中,攝像頭拍攝監(jiān)控區(qū)域圖像,通過對(duì)大型運(yùn)動(dòng)目標(biāo)進(jìn)行實(shí)時(shí)匹配,來(lái)確定運(yùn)動(dòng)目標(biāo)與輸電線路的位置和距離. 文獻(xiàn)[8]中,應(yīng)用紅外濾片式自動(dòng)切換網(wǎng)絡(luò)攝像機(jī),對(duì)監(jiān)控區(qū)域進(jìn)行24 h全天候監(jiān)控,并將圖像上傳至服務(wù)器,在服務(wù)器中應(yīng)用混合高斯背景建模實(shí)現(xiàn)對(duì)大型機(jī)械入侵的定向識(shí)別.
自從Hinton等[9]在2012年提出深度學(xué)習(xí)的概念,深度學(xué)習(xí)便逐漸取代了傳統(tǒng)的檢測(cè)算法而成為目標(biāo)檢測(cè)領(lǐng)域的主流方法. 近年來(lái)深度學(xué)習(xí)的發(fā)展為輸電線路威脅報(bào)警提供了新的方案,卷積神經(jīng)網(wǎng)絡(luò)對(duì)于目標(biāo)的幾何變換、光照等因素適應(yīng)性較強(qiáng),有效克服了目標(biāo)外觀的多樣性帶來(lái)的識(shí)別阻力. 它可以根據(jù)輸入到網(wǎng)絡(luò)的數(shù)據(jù)而自動(dòng)生成相應(yīng)的特征描述,具有較高的靈活性和普適性[10?13].
目前圖像中的目標(biāo)檢測(cè)主要分為單步檢測(cè)方法和兩步檢測(cè)方法兩種. 其中,單步檢測(cè)方法包括SSD(Single shot multibox detector)、YOLO(You only look once)和CornerNet(基于角點(diǎn)的目標(biāo)檢測(cè)神經(jīng)網(wǎng)絡(luò))等[14?16];兩步檢測(cè)方法包括如R-CNN(Region-CNN)、Fast R-CNN、Faster R-CNN和Mask R-CNN等[17?20]. 單步檢測(cè)方法直接在圖像上經(jīng)過計(jì)算生成檢測(cè)結(jié)果;兩步檢測(cè)方法先在圖像上提取候選區(qū)域,再基于候選區(qū)域進(jìn)行特征提取,然后在圖像中進(jìn)行預(yù)測(cè). 相對(duì)來(lái)說單步檢測(cè)方法速度快,準(zhǔn)確率略低;而兩步檢測(cè)方法準(zhǔn)確率高,速度略慢. 但是因?yàn)檩旊娝系脑O(shè)備由太陽(yáng)能電池供電,攝像頭無(wú)法全天開啟并且難以支撐大型計(jì)算平臺(tái)的運(yùn)行,因此上述傳統(tǒng)目標(biāo)檢測(cè)方法在此場(chǎng)景下并不適用. 而最近新提出的YOLO-Lite、MobileNet和ShuffleNet等輕型網(wǎng)絡(luò)結(jié)構(gòu)[21?23],盡管在速度和體積上有了極大的提升,但因此產(chǎn)生的準(zhǔn)確率損失使得其難以在此場(chǎng)景下滿足檢測(cè)要求.
綜上所述,將深度學(xué)習(xí)用于輸電場(chǎng)景的威脅報(bào)警是當(dāng)前的一個(gè)研究趨勢(shì). 目前常規(guī)的深度學(xué)習(xí)方法已經(jīng)取得了一定的效果,但是在檢測(cè)準(zhǔn)確率和效率方面仍有一定的提升空間,并且在限定能耗的條件下也不再適用. 因此,針對(duì)輸電場(chǎng)景大型機(jī)械入侵的偶然性和圖像特征,需要提出一整套新的輸電場(chǎng)景大型機(jī)械入侵檢測(cè)方法.
基于TATLNet的輸電場(chǎng)景下的威脅報(bào)警方法通過開啟或者關(guān)閉紅外傳感器控制系統(tǒng)來(lái)減少運(yùn)行能耗,當(dāng)紅外傳感器探測(cè)到大型機(jī)械的運(yùn)行時(shí)會(huì)喚醒攝像頭并加載神經(jīng)網(wǎng)絡(luò),在對(duì)攝像頭采集的視頻解碼后將圖像傳輸至輸電線路威脅檢測(cè)網(wǎng)絡(luò)TATLNet. TATLNet分為可疑區(qū)域生成網(wǎng)絡(luò)VRGNet(Vehicle regions generation network)和威脅判別網(wǎng)絡(luò)VTCNet(Vehicle threat classification network). VRGNet提取圖像中可能存在目標(biāo)的區(qū)域,VTCNet實(shí)現(xiàn)與VRGNet的特征共享并對(duì)候選區(qū)域進(jìn)行進(jìn)一步的分類. 檢測(cè)結(jié)果通過無(wú)線傳輸發(fā)送至服務(wù)器,在服務(wù)器上實(shí)現(xiàn)對(duì)大型機(jī)械入侵的報(bào)警,流程圖如圖1所示.
圖 1 系統(tǒng)流程圖Fig.1 System flow chart
由于可以獲得的數(shù)據(jù)集樣本較少,采用多種數(shù)據(jù)增強(qiáng)方式對(duì)數(shù)據(jù)集進(jìn)行擴(kuò)充,包括傳統(tǒng)的幾何變換數(shù)據(jù)增強(qiáng)和GAN生成新圖像的數(shù)據(jù)增強(qiáng)方法. 在用GAN對(duì)數(shù)據(jù)集進(jìn)行擴(kuò)充時(shí),采用深度卷積對(duì)抗生成網(wǎng)絡(luò)(Deep convolutional generative adversarial network,DCGAN)來(lái)生成新的圖像[24].考慮計(jì)算機(jī)顯存的限制,在訓(xùn)練時(shí)統(tǒng)一將圖像在960×640像素的尺寸上進(jìn)行訓(xùn)練,每16張圖像為一個(gè)批次,訓(xùn)練過程中生成的圖像樣本如圖2(a)所示. 對(duì)于傳統(tǒng)的圖像幾何變換方法,采用隨機(jī)裁剪、水平翻轉(zhuǎn)、圖像傾斜、添加噪聲和圖像縮放的方式對(duì)數(shù)據(jù)集進(jìn)行了擴(kuò)充,圖2(b)為添加椒鹽噪聲的圖像.
圖 2 數(shù)據(jù)增強(qiáng)圖像. (a) GAN生成圖像;(b)椒鹽噪聲圖像Fig.2 Images from data enhancement: (a)image generated from GAN;(b) image with salt and pepper noise
針對(duì)計(jì)算平臺(tái)低能耗的需求以及入侵輸電場(chǎng)地的機(jī)械在圖像中的特點(diǎn),設(shè)計(jì)了一種端到端的輸電線路威脅檢測(cè)網(wǎng)絡(luò)TATLNet,分別設(shè)計(jì)可疑區(qū)域生成網(wǎng)絡(luò)VRGNet和吊車分類網(wǎng)絡(luò)VTCNet兩部分,并采用模型壓縮的方式來(lái)對(duì)模型進(jìn)行壓縮以減少非必要參數(shù)數(shù)量、縮小模型體積、提高運(yùn)算速度. 其中,VRGNet負(fù)責(zé)輸電場(chǎng)景下吊車的粗略檢測(cè),VTCNet負(fù)責(zé)對(duì)VRGNet的檢測(cè)結(jié)果進(jìn)行進(jìn)一步判斷(可以將VRGNet視為一個(gè)更為精確的RPN[25]),VTCNet與VRGNet共享部分卷積層以減少檢測(cè)的計(jì)算量,TATLNet結(jié)構(gòu)圖如圖3所示.
2.3.1 VRGNet結(jié)構(gòu)設(shè)計(jì)
VRGNet借鑒了YOLO邊框回歸計(jì)算的思想,并對(duì)其主體網(wǎng)絡(luò)做了一定的精簡(jiǎn)以盡可能縮小模型的體積,網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示,其中Conv為卷積層(Convolutional layer),同時(shí)包含一個(gè)最大池化層(Max pooling layer)和relu激活層(Rectified linear unit layer),F(xiàn)c為全連接層(Fully connection layer).首先將輸入圖像縮放至統(tǒng)一尺寸后在圖像中劃分出多個(gè)網(wǎng)格,如果目標(biāo)中心點(diǎn)落在某個(gè)網(wǎng)格中,則該網(wǎng)格就負(fù)責(zé)對(duì)該目標(biāo)的檢測(cè). 由于大型機(jī)械在運(yùn)作時(shí)不會(huì)十分密集,并且該網(wǎng)絡(luò)的主要任務(wù)為檢測(cè)大型機(jī)械是否存在,對(duì)目標(biāo)的個(gè)數(shù)沒有很高的要求,因此每個(gè)網(wǎng)格只預(yù)測(cè)至多一個(gè)目標(biāo)出現(xiàn)的坐標(biāo)和概率. 由于需要檢測(cè)的目標(biāo)只有吊車這一類,所以VRGNet并不需要單獨(dú)的分類器,因而舍棄了目標(biāo)類別預(yù)測(cè)的分支,采用置信度來(lái)衡量邊框中存在目標(biāo)的概率. 根據(jù)對(duì)數(shù)據(jù)集中吊車尺寸的統(tǒng)計(jì),可以發(fā)現(xiàn)圖像中目標(biāo)的尺寸大小沒有大的波動(dòng),因此舍棄了特征金字塔結(jié)構(gòu)[14]來(lái)減小計(jì)算量. 經(jīng)過實(shí)驗(yàn),將圖像劃分為9×9的網(wǎng)格時(shí)模型準(zhǔn)確率最高.
圖 3 TATLNet結(jié)構(gòu)圖Fig.3 Structure of TATLNet
圖 4 VRGNet結(jié)構(gòu)圖Fig.4 Structure of VRGNet
2.3.2 VTCNet結(jié)構(gòu)設(shè)計(jì)
對(duì)于由VRGNet經(jīng)過回歸計(jì)算得到的可疑區(qū)域坐標(biāo),將其映射到VRGNet得到的特征圖上. 由此VTCNet與VRGNet實(shí)現(xiàn)了部分特征共享,所以VTCNet對(duì)候選區(qū)域圖像的判別不必從原圖開始對(duì)候選區(qū)域進(jìn)行特征提取,因此VTCNet層數(shù)不必太多,由此可以大幅度減少由圖像特征提取帶來(lái)的計(jì)算量. 如圖5所示,VTCNet根據(jù)區(qū)域坐標(biāo)在特征圖上得到候選區(qū)域,通過RoIPooling以及雙線性插值將候選區(qū)域縮放至統(tǒng)一尺寸,經(jīng)過兩個(gè)卷積層后通過一個(gè)全連接層生成固定長(zhǎng)度的特征向量,該向量通過Softmax算法實(shí)現(xiàn)對(duì)候選區(qū)域的判別.
圖 5 VTCNet結(jié)構(gòu)圖Fig.5 Structure of VTCNet
2.3.3 損失函數(shù)設(shè)計(jì)
由于TATLNet只需要檢測(cè)一類目標(biāo)而不用進(jìn)行多類別分類,所以最終的分類損失函數(shù)只需要判斷單類別的置信度,目標(biāo)置信度Lconf采用交叉熵?fù)p失函數(shù),具體如公式(1)所示.
其中,S2表示網(wǎng)格單元的總數(shù),Ci表示第i個(gè)網(wǎng)格目標(biāo)檢測(cè)器所產(chǎn)生的預(yù)測(cè)結(jié)果的置信度,C*i表示預(yù)測(cè)目標(biāo)框與真實(shí)目標(biāo)之間的交并比. 目標(biāo)坐標(biāo)的損失函數(shù)Lloc如公式(2)所示,其中pro代表所有目標(biāo),(xi,yi)表示第i個(gè)網(wǎng)格所產(chǎn)生的預(yù)測(cè)結(jié)果的中心點(diǎn)坐標(biāo),(x*i,y*i)為真實(shí)的中心點(diǎn)坐標(biāo). 相應(yīng)地,(wi,hi)和(w*i,h*i)分別代表預(yù)測(cè)目標(biāo)和真實(shí)目標(biāo)的寬、高.
結(jié)合TATLNet的結(jié)構(gòu)圖,如公式(3)所示,TATLNet的損失函數(shù)L可以設(shè)計(jì)為對(duì)置信度損失和坐標(biāo)損失的加權(quán)相加,其中α為加權(quán)系數(shù).
2.3.4 模型壓縮
通過通道剪枝的方式來(lái)對(duì)模型進(jìn)行壓縮,對(duì)已經(jīng)訓(xùn)練好的模型,選擇出相對(duì)不重要的通道,將這些通道刪除,然后構(gòu)造新的模型圖,經(jīng)過重新訓(xùn)練,恢復(fù)原先模型的準(zhǔn)確率,消除由于模型壓縮帶來(lái)的準(zhǔn)確率損失.
對(duì)于每一個(gè)通道上的卷積核,首先計(jì)算出其Frobenius范數(shù). 然后將其二值化,即如果計(jì)算出的Frobenius范數(shù)大于0則令其為1,如果等于0則保持不變. 將通道上的這一指標(biāo)累加起來(lái),以此找出神經(jīng)網(wǎng)絡(luò)各層中的冗余通道,實(shí)現(xiàn)對(duì)神經(jīng)網(wǎng)絡(luò)作用較小的分支的剪枝,獲得體積更小的模型圖.通過剪枝獲得的模型,利用訓(xùn)練集進(jìn)行重新訓(xùn)練,以彌補(bǔ)由于剪枝帶來(lái)的準(zhǔn)確率損失,在不損失模型準(zhǔn)確率的基礎(chǔ)上實(shí)現(xiàn)對(duì)深度學(xué)習(xí)模型的體積壓縮和速度提升.
為了測(cè)試TATLNet的各項(xiàng)性能指標(biāo),在英偉達(dá)輕量級(jí)計(jì)算平臺(tái) NVIDIA Tegra X2 上進(jìn)行了各項(xiàng)實(shí)驗(yàn),算法的性能以準(zhǔn)確率(Precision)、召回率(Recall)和檢測(cè)效率(Efficiency)為指標(biāo):
其中,TP為測(cè)試集檢測(cè)對(duì)的目標(biāo)數(shù);FP為漏檢數(shù);FN為誤檢數(shù);Time為算法在測(cè)試集進(jìn)行推理上所用時(shí)間總和,ms;Number為測(cè)試集樣本總數(shù).
考慮現(xiàn)場(chǎng)監(jiān)控場(chǎng)景下目標(biāo)在監(jiān)控圖像中的比例對(duì)檢測(cè)結(jié)果的影響,為了選取合適的VRGNet網(wǎng)格單元?jiǎng)澐直壤?,?duì)不同尺度網(wǎng)格單元下的檢測(cè)模型進(jìn)行測(cè)試,訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)均采用自制的吊車圖像數(shù)據(jù)集,測(cè)試結(jié)果如表1所示. 可以看出,隨著網(wǎng)格數(shù)目的增加,準(zhǔn)確率也隨之增加,而召回率有先增加后降低的趨勢(shì),檢測(cè)效率則隨著網(wǎng)格的增加迅速降低. 綜合準(zhǔn)確率與檢測(cè)效率,9×9為最優(yōu)網(wǎng)格劃分方案.
表 1 VRGNet中網(wǎng)格劃分對(duì)檢測(cè)結(jié)果的影響Table 1 Different strategies of grid cells partitioning
為了測(cè)試該方法所采用的數(shù)據(jù)增強(qiáng)技術(shù)對(duì)準(zhǔn)確率的影響,對(duì)無(wú)數(shù)據(jù)增強(qiáng)、傳統(tǒng)的圖像幾何變換、GAN以及GAN與圖形變換相結(jié)合的方式進(jìn)行了對(duì)照實(shí)驗(yàn),其中原始圖像500張,傳統(tǒng)的圖像幾何變換生成新的圖像1500張,GAN生成新圖像1500張. 實(shí)驗(yàn)結(jié)果表2所示,可以看出,GAN與傳統(tǒng)圖像幾何變換相結(jié)合的方式可以極大地提高模型的準(zhǔn)確率.
表 2 數(shù)據(jù)增強(qiáng)效果Table 2 Effect of data enhancement %
一般而言,輸入圖像的尺寸越高,神經(jīng)網(wǎng)絡(luò)檢測(cè)的準(zhǔn)確率越高,與此同時(shí)會(huì)伴隨著推理時(shí)間的增加. 為了在模型準(zhǔn)確率和推理速度之間達(dá)到平衡,對(duì)輸入圖像的不同尺寸進(jìn)行了測(cè)試,測(cè)試結(jié)果表3所示. 根據(jù)實(shí)際場(chǎng)景的需要,綜合檢測(cè)準(zhǔn)確率和效率,選擇480×480像素作為最終的圖像輸入尺寸.
表 3 不同輸入圖像尺寸的比較Table 3 Comparison of different image scales
為了測(cè)試TATLNet的性能,將其與未經(jīng)壓縮的TATLNet、MobileNet和ShuffleNet進(jìn)行了對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表4所示. 可以看出,經(jīng)過壓縮以后的TATLNet在準(zhǔn)確率損失可控的情況下實(shí)現(xiàn)了檢測(cè)速度的大幅提升. 跟其他輕量級(jí)目標(biāo)檢測(cè)算法相比,無(wú)論是檢測(cè)準(zhǔn)確率還是檢測(cè)效率,壓縮后的TATLNet都要更勝一籌.
表 4 與其他方法的比較Table 4 Comparison with other methods
為了測(cè)試方法性能,在寧夏省銀川市進(jìn)行了現(xiàn)場(chǎng)部署測(cè)試. 現(xiàn)場(chǎng)使用的攝像機(jī)為HIKVISION DS-2CD3T25D-I5,安裝在50個(gè)輸電塔35~40 m的高度,采集到的圖像尺寸為1920×1080像素,計(jì)算平臺(tái)為NVIDIA Tegra X2,生成的識(shí)別結(jié)果示例如圖6所示,在一個(gè)月中的報(bào)警數(shù)據(jù)如表5所示.
從中可以看出,該方法可以有效地檢測(cè)出攝像頭監(jiān)控范圍內(nèi)入侵的吊車等大型機(jī)械,并且對(duì)于距離較遠(yuǎn)的目標(biāo)也具有較高的準(zhǔn)確性.
圖 6 實(shí)地部署檢測(cè)效果Fig.6 Detection result in field deployment
表 5 現(xiàn)場(chǎng)部署檢測(cè)統(tǒng)計(jì)Table 5 Detection statistics in field deployment
針對(duì)輸電場(chǎng)景中的大型機(jī)械檢測(cè)問題,本文以一種新的輸電線路威脅檢測(cè)網(wǎng)絡(luò)TATLNet為主體提出了一種基于深度學(xué)習(xí)的輸電線路威脅報(bào)警方法. 通過一系列實(shí)驗(yàn)證明了TATLNet在對(duì)大型入侵機(jī)械上的優(yōu)越性,并測(cè)試了不同的檢測(cè)策略及超參數(shù)對(duì)檢測(cè)準(zhǔn)確率和效率的影響,實(shí)現(xiàn)了輸電場(chǎng)景下大型機(jī)械入侵檢測(cè)的優(yōu)化研究. 主要結(jié)論為:
(1)以傳統(tǒng)幾何變換與GAN相結(jié)合的方式進(jìn)行數(shù)據(jù)增強(qiáng),在此情境下可以獲得最高的準(zhǔn)確率增益.
(2)采用模型壓縮策略可以在不大量損失準(zhǔn)確率的前提下實(shí)現(xiàn)檢測(cè)速度的大幅提升.
(3)以準(zhǔn)確率、召回率和檢測(cè)效率作為評(píng)價(jià)指標(biāo),對(duì)網(wǎng)格劃分策略以及輸入圖像尺寸進(jìn)行比較,在將圖片劃分為9×9時(shí)各項(xiàng)指標(biāo)達(dá)到最優(yōu),圖像輸入尺寸在480×480像素時(shí)準(zhǔn)確率和效率達(dá)到最佳平衡.
(4)通過跟其他檢測(cè)方法的對(duì)比實(shí)驗(yàn)以及現(xiàn)場(chǎng)部署結(jié)果表明,該方法在準(zhǔn)確率和效率上都要優(yōu)于已有算法,具有較強(qiáng)的可用性、實(shí)時(shí)性和健壯性.
在實(shí)際應(yīng)用中發(fā)現(xiàn)了新的業(yè)務(wù)優(yōu)化需求,由于該方法檢測(cè)圖像中的所有大型機(jī)械并發(fā)出提示,會(huì)產(chǎn)生一定的誤報(bào)警. 在后續(xù)的研究中將會(huì)對(duì)系統(tǒng)進(jìn)行進(jìn)一步延伸,實(shí)現(xiàn)大型機(jī)械與輸電線路相對(duì)距離的檢測(cè),從而消除大型機(jī)械在輸電線路威脅距離以外時(shí)產(chǎn)生的報(bào)警.