董翔宇,李 安,汪太平,祁 麟,汪世才,朱仲賢
(1.國(guó)網(wǎng)安徽省電力有限公司 檢修分公司,安徽 合肥 230001; 2.合肥湛達(dá)智能科技有限公司,安徽 合肥 230031)
隨著工業(yè)自動(dòng)化、現(xiàn)場(chǎng)無(wú)人化等在越來(lái)越多的行業(yè)中需求的增加,作為主要技術(shù)之一,無(wú)人值守監(jiān)控巡查系統(tǒng)在諸多行業(yè)中得到了廣泛的認(rèn)可和關(guān)注。變電站作為智能電網(wǎng)建設(shè)中的重要連接樞紐,為了確保其安全正常的運(yùn)行,必須定期進(jìn)行檢查,以便及時(shí)完成相應(yīng)的維護(hù)[1]。但往往由于巡檢環(huán)境危險(xiǎn)、任務(wù)強(qiáng)度大、巡檢要求苛刻,使得單純依靠人工檢查的方式難以滿足現(xiàn)實(shí)任務(wù)的需求。作為一種輔助措施,使用變電站巡檢機(jī)器人在無(wú)人值守的環(huán)境下,進(jìn)行變電站設(shè)備的運(yùn)行狀態(tài)檢測(cè),在降低了人為巡檢難度的同時(shí)提升了安全性和執(zhí)行效率,故而受到了電力巡檢行業(yè)的高度認(rèn)可[2]。對(duì)于巡檢機(jī)器人而言,良好的路徑識(shí)別能力是實(shí)現(xiàn)智能導(dǎo)航巡檢路徑的關(guān)鍵[3]?,F(xiàn)有的巡檢機(jī)器人導(dǎo)航技術(shù)如磁道導(dǎo)航、用于室外機(jī)器人的差分GPS導(dǎo)航、慣性導(dǎo)航、固定環(huán)境下的激光導(dǎo)航等[4-5],在應(yīng)用于變電站場(chǎng)景時(shí)都存在一定的局限性。就磁道導(dǎo)航而言,需要在巡檢現(xiàn)場(chǎng)根據(jù)巡檢路線鋪設(shè)磁性感應(yīng)裝置,這不僅會(huì)增加額外的開(kāi)銷,還容易受到變電站的電磁干擾,影響導(dǎo)航精度及可靠性[6]。用于室外的差分GPS導(dǎo)航技術(shù)在用于變電站室內(nèi)導(dǎo)航時(shí),準(zhǔn)確性較低,精度差,而且在變電站環(huán)境中,還需要對(duì)位置信息進(jìn)行保密,這些都限制了高精度差分GPS在該領(lǐng)域的應(yīng)用[7]。此外,變電站內(nèi)可供巡檢機(jī)器人行走的空間有限,坐標(biāo)導(dǎo)航技術(shù)對(duì)于巡檢機(jī)器人的定位要求極其嚴(yán)格,特別是對(duì)運(yùn)動(dòng)系統(tǒng)精度的要求,必將大大增加巡檢機(jī)器人的機(jī)械制造成本;個(gè)別變電站場(chǎng)景中由于綠色植物的存在,會(huì)發(fā)生改變巡檢環(huán)境的情況,這使得激光導(dǎo)航技術(shù)也不再適用。因此,考慮上述多種因素,研究一種針對(duì)變電站場(chǎng)景有效的識(shí)別方法,為進(jìn)一步針對(duì)變電站場(chǎng)景導(dǎo)航提供參考是十分重要的。
視覺(jué)導(dǎo)航技術(shù)在克服了上述方法缺點(diǎn)的同時(shí),具備高精度、高可靠、高效率等特點(diǎn)。通過(guò)前景視覺(jué)裝置實(shí)時(shí)捕捉道路圖像,并與底層運(yùn)動(dòng)控制相結(jié)合,能夠有效地指導(dǎo)巡檢機(jī)器人執(zhí)行實(shí)時(shí)巡檢任務(wù)。現(xiàn)有的變電站巡檢機(jī)器人大多數(shù)通過(guò)手動(dòng)的方式對(duì)道路場(chǎng)景的特征進(jìn)行提取與識(shí)別,該方式涉及大量專業(yè)知識(shí)的應(yīng)用且對(duì)復(fù)雜道路場(chǎng)景的檢測(cè)結(jié)果欠佳。特別是在部分特殊場(chǎng)景中,由于環(huán)境發(fā)生變化,如光照或臨時(shí)附加了遮擋物等,往往會(huì)導(dǎo)致識(shí)別精度的降低。
隨著深度神經(jīng)網(wǎng)絡(luò)技術(shù)的發(fā)展,越來(lái)越多的圖像處理及識(shí)別任務(wù)可由卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)完成,有效地?cái)[脫了人工設(shè)計(jì)特征方面的限制[8]?,F(xiàn)有的卷積神經(jīng)網(wǎng)絡(luò)如全卷積神經(jīng)網(wǎng)絡(luò)(fully convolutional networks,FCN)[9]、PSPNet(pyramid scene parsing network)模型[10]、SegNet(segmentation network)[11]模型等,雖然具有較高的檢測(cè)精度,但仍存在模型較大、運(yùn)算速度慢、識(shí)別效率較低等不足,不適用于處理能力一般的嵌入式平臺(tái)應(yīng)用。為此,在現(xiàn)有全卷積神經(jīng)網(wǎng)絡(luò)研究的基礎(chǔ)上,本文設(shè)計(jì)了一種針對(duì)變電站道路場(chǎng)景的局部監(jiān)督深度混合模型(locally supervised deep hybrid model)的識(shí)別網(wǎng)絡(luò)。該網(wǎng)絡(luò)模型采用全局與局部信息相結(jié)合,能夠有效地增強(qiáng)和識(shí)別CNN卷積層中的局部語(yǔ)義特征,同時(shí)結(jié)合空間卷積,有效地改善由于遮擋所造成的信息丟失問(wèn)題,提升了變電站巡檢路徑標(biāo)志物及場(chǎng)景的識(shí)別精度和準(zhǔn)確度。
對(duì)于變電站巡檢機(jī)器人而言,理解其行駛的巡檢環(huán)境是至關(guān)重要的。如果行駛路線中存在遮擋,那么按照傳統(tǒng)的語(yǔ)義分割方式進(jìn)行處理時(shí)往往會(huì)忽略遮擋部分的檢測(cè),只處理可見(jiàn)區(qū)域的行駛路線。丟失掉的這部分局部特征不僅導(dǎo)致檢測(cè)精度的降低,而且影響巡檢機(jī)器人的定位及導(dǎo)航。在傳統(tǒng)的CNN網(wǎng)絡(luò)中,卷積特征通常會(huì)被匯集起來(lái),然后逐層進(jìn)行非線性變換,最后傳輸?shù)饺B接層(fully connected layer,FCL),并通過(guò)降低卷積特征的維數(shù),來(lái)避免巨大的內(nèi)存和計(jì)算開(kāi)銷。但在這一處理過(guò)程中,通常存在FCL難以提取到的圖像精細(xì)結(jié)構(gòu)。特別是在特征重構(gòu)時(shí),雖然可以保持圖像原始的整體布局,但往往會(huì)導(dǎo)致局部細(xì)節(jié)的丟失,從而進(jìn)一步影響語(yǔ)義分割的精度。文獻(xiàn)[12]的分析表明,通過(guò)FCL特征難以較好地捕捉到局部對(duì)象信息和精細(xì)結(jié)構(gòu),而這些中層特征往往對(duì)于場(chǎng)景識(shí)別非常重要。故而將FCL特征與卷積特征相結(jié)合,采用局部監(jiān)督的方式,來(lái)增強(qiáng)卷積層中相關(guān)的局部對(duì)象細(xì)節(jié)信息。
對(duì)于每一個(gè)卷積層,都對(duì)其采用局部監(jiān)督的方式。在給定N個(gè)訓(xùn)練實(shí)例時(shí),對(duì)于每一個(gè)訓(xùn)練對(duì)象Xi,將其標(biāo)簽定義為yi。傳統(tǒng)的CNN網(wǎng)絡(luò)是將最小化權(quán)值參數(shù)W作為優(yōu)化目標(biāo),即
(1)
其中,Ψ(·)為針對(duì)分類任務(wù)的一個(gè)典型的鉸鏈損失函數(shù)。CNN網(wǎng)絡(luò)的訓(xùn)練是尋找一個(gè)從圖像空間映射到其標(biāo)簽空間的最優(yōu)化的W向量。為了增強(qiáng)圖像的局部信息,在原有優(yōu)化目標(biāo)的基礎(chǔ)上進(jìn)行改進(jìn),即
(2)
其中:φ為與Ψ形式類似的損失函數(shù);μm為輔助損耗因子。為了使輔助的損失函數(shù)可以應(yīng)用在多個(gè)可選的卷積層上,定義包含這些卷積層的集合為M,從而在不同的卷積層上可以構(gòu)建多個(gè)局部信息監(jiān)督層。同時(shí),為了更好地實(shí)現(xiàn)局部監(jiān)督的有效性,使得W、Wm在CNN網(wǎng)絡(luò)的低卷積層中參數(shù)共享,高卷積層或FCL中參數(shù)相互獨(dú)立,并且保證計(jì)算輔助損失的標(biāo)簽相同,即ym=yi,故而直接將最終的標(biāo)簽信息在卷積層間傳播。
在傳統(tǒng)的CNN網(wǎng)絡(luò)中,包含一定數(shù)量的卷積層、池化層和全連接層,這里采用10層普通卷積網(wǎng)絡(luò),并交疊3層池化層來(lái)提取低級(jí)特征,并將局部監(jiān)督應(yīng)用在池化層之前。為了盡可能地保留局部的細(xì)節(jié)信息,這里定義卷積核大小為3×3×1,池化核大小為3×3×2,網(wǎng)絡(luò)具體參數(shù)見(jiàn)表1所列。
表1 主干網(wǎng)絡(luò)參數(shù)
新的卷積層和池化層生成的特征圖尺寸分別為14×14×80、14×14×384。由于局部監(jiān)督層與池化層直接連接,使得池化層直接獲取標(biāo)簽的概率分布,而不需要在它們中間使用任何FCL。同時(shí)采用隨機(jī)梯度下降法(stochastic gradient descent,SGD)對(duì)W、Wm進(jìn)行訓(xùn)練,構(gòu)建傳統(tǒng)的CNN網(wǎng)絡(luò),雖然提升了對(duì)于局部細(xì)節(jié)信息的獲取,但卻丟失了部分空間層級(jí)化信息,不利于遮擋部分道路的特征提取。
為了更好地提取道路的有效信息,進(jìn)一步研究圖像行和列上像素之間的空間關(guān)系,在不損失分辨率的前提下,解決由于遮擋所帶來(lái)的信息丟失問(wèn)題,考慮采用空間卷積作為識(shí)別空間層次信息網(wǎng)絡(luò)節(jié)點(diǎn),對(duì)特征行或者列按照從上到下、從下到上、從左到右、從右到左等順序依次分層計(jì)算處理,在同一層結(jié)構(gòu)中進(jìn)行空間信息的傳遞,空間卷積CNN結(jié)構(gòu)如圖1所示。
圖1 空間卷積SCNN結(jié)構(gòu)
假設(shè)在完成骨干基礎(chǔ)網(wǎng)絡(luò)的處理后,將通道、高度、寬度分別表示為C、H、W,其對(duì)應(yīng)的尺寸為C×H×W的特征矩陣按行進(jìn)行切片,可得到H個(gè)特征切片。將第1片特征經(jīng)一維的卷積操作后,從上向下疊加傳遞;第2片特征加上第1片特征的卷積輸出后,進(jìn)行一維卷積操作,依次向下傳遞,直到最后一片特征處理完畢。
處理完畢的特征矩陣傳遞到下一個(gè)處理模塊(從下向上的SCNN-U),并依次將處理結(jié)果傳遞給從左向右處理模塊SCNN-R及從右向左處理模塊SCNN-L。假設(shè)存在一個(gè)三維的張量T,其中Ti,j,k記為最后一個(gè)切片中通道i的元素和當(dāng)前切片中通道j的元素之間的權(quán)重,2個(gè)元素之間偏移列記為k。
同樣將Yi,j,k記為張量Y的元素,其中通道、行、列分別用i、j、k表示,則SCNN的前向計(jì)算為:
(3)
其中,f定義為線性糾正函數(shù)(rectified linear unit, ReLU)。
深度混合模型的網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。
圖2 深度混合模型的網(wǎng)絡(luò)結(jié)構(gòu)
綜上所述,識(shí)別場(chǎng)景的類別是由多層圖像內(nèi)容定義的,其中包括中層局部紋理和對(duì)象以及高層場(chǎng)景,這些特性是由CNN的各個(gè)層所捕獲的。場(chǎng)景類別可以根據(jù)全局結(jié)構(gòu)的FC特征進(jìn)行粗略分類;同時(shí),許多場(chǎng)景是模糊的,此時(shí)使用局部監(jiān)督進(jìn)行特征細(xì)化,并結(jié)合空間卷積進(jìn)行遮擋圖像的處理。
為了驗(yàn)證本文中所提出的基于局部監(jiān)督深度混合模型的場(chǎng)景識(shí)別效果,利用實(shí)際變電站巡檢機(jī)器人采集到的變電站巡檢行駛路況的場(chǎng)景圖像對(duì)網(wǎng)絡(luò)進(jìn)行測(cè)試。
根據(jù)巡檢機(jī)器人采集的變電站道路場(chǎng)景視頻,挑選出重復(fù)率較低的視頻幀共2 430張,將圖像尺寸統(tǒng)一規(guī)則化處理為1 024×768的圖像,并手動(dòng)標(biāo)注出待識(shí)別的目標(biāo),如電柜、儀表箱、路面等。隨機(jī)選擇其中的1 600張圖像作為訓(xùn)練集,剩余的830張圖像作為測(cè)試集。
為避免訓(xùn)練過(guò)程中過(guò)擬合,采用Adam對(duì)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,設(shè)置學(xué)習(xí)率為0.002,動(dòng)量參數(shù)為0.4,β1為0.80,β2為0.99。場(chǎng)景中主要標(biāo)注對(duì)象為儀表柜、電柜、儀表等需要進(jìn)行巡檢的設(shè)備終端。訓(xùn)練的服務(wù)器配置為Intel(R) Xeon(R) CPU E5-2683,64 GiB內(nèi)存,GPU為Titan X。為了更好地訓(xùn)練樣本,防止因?yàn)閳?chǎng)景特征單一導(dǎo)致的樣本過(guò)擬合,對(duì)樣本進(jìn)行旋轉(zhuǎn)、鏡像操作并加入訓(xùn)練集合,如圖3所示。
圖3 訓(xùn)練樣本數(shù)據(jù)集擴(kuò)充
通過(guò)不同的訓(xùn)練批量數(shù)量和迭代次數(shù)分別進(jìn)行訓(xùn)練,實(shí)驗(yàn)驗(yàn)證表明,Adam求解器相比于SGD具有更好的迭代效果。在相同迭代次數(shù)的條件下,權(quán)重網(wǎng)絡(luò)的收斂速度提升2%以上。
由于算法模型應(yīng)用于巡檢機(jī)器人,為此,測(cè)試算法的推理速度放在嵌入式邊緣計(jì)算終端Nvidia Jetson Tx2上,采用低功耗模式進(jìn)行工作,其學(xué)習(xí)率策略對(duì)比結(jié)果見(jiàn)表2所列,場(chǎng)景語(yǔ)義分割效果對(duì)比結(jié)果見(jiàn)表3所列。
表2 學(xué)習(xí)率策略對(duì)比
表3 場(chǎng)景語(yǔ)義分割效果對(duì)比
對(duì)巡檢目標(biāo)的識(shí)別區(qū)域進(jìn)行分割,然后將散點(diǎn)進(jìn)行擬合,得到場(chǎng)景中檢測(cè)目標(biāo)效果如圖4所示。
圖4 場(chǎng)景中巡檢目標(biāo)效果
為了判斷局部檢測(cè)目標(biāo)的區(qū)域與真實(shí)語(yǔ)義分割范圍的誤差,使用實(shí)驗(yàn)中,將真實(shí)區(qū)域與預(yù)測(cè)分割擬合后的區(qū)域交并比(Intersection over Unio,IoU)作為評(píng)價(jià)指標(biāo)。為了統(tǒng)一對(duì)比,使用CityScapes數(shù)據(jù)進(jìn)行訓(xùn)練,對(duì)路面、線路桿塔進(jìn)行識(shí)別。對(duì)于語(yǔ)義分割區(qū)域,區(qū)域分簇后進(jìn)行擬合、擴(kuò)邊20像素,然后進(jìn)行比較。實(shí)驗(yàn)中,以P表示查準(zhǔn)率、R表示召回率,采用Fβ作為調(diào)參,Fβ=[(1+β2)PR]/[(β2P)+R],則實(shí)驗(yàn)采用不同算法進(jìn)行語(yǔ)義分割,得到IoU的結(jié)果見(jiàn)表4所列。
表4 網(wǎng)絡(luò)有效性IoU值對(duì)比
LS-SCNN的IoU在Fβ=0.3時(shí),與BiseNet相比減少了0.1,但推理速度提高了22.2%。這是由于LS-SCNN在局部區(qū)域的配準(zhǔn)要求較高,在查準(zhǔn)率P要求較低時(shí),其預(yù)測(cè)的有效區(qū)域與實(shí)際范圍偏小。當(dāng)Fβ=0.5時(shí),SCNN有效性指標(biāo)IoU最高,但從表3可以看出,相對(duì)來(lái)說(shuō)其模型較大,推理速度與LS-SCNN相比慢了43.7%。局部特征增強(qiáng)部分的效果圖如圖5所示。
圖5 局部特征增強(qiáng)
由于場(chǎng)景中識(shí)別的局部特征與背景有很大的差異性,使得經(jīng)過(guò)局部特征增強(qiáng)后的邊緣更加清晰,有利于后續(xù)網(wǎng)絡(luò)的進(jìn)一步分割。語(yǔ)義分割的識(shí)別效果如圖6所示。
圖6 變電站道路與電力桿塔的分割識(shí)別效果
本文提出了一種基于局部監(jiān)督深度混合模型的識(shí)別網(wǎng)絡(luò),有效地實(shí)現(xiàn)對(duì)變電站巡檢機(jī)器人道路場(chǎng)景識(shí)別。針對(duì)CNN中存在FCL在局部細(xì)節(jié)提取方面的缺陷,采用局部監(jiān)督的方式增強(qiáng)卷積層中局部對(duì)象的細(xì)節(jié)信息。同時(shí),結(jié)合空間卷積處理,改善了由于遮擋所造成的信息丟失問(wèn)題。通過(guò)在實(shí)際變電站場(chǎng)景數(shù)據(jù)集上的實(shí)驗(yàn)表明,本文提出的識(shí)別網(wǎng)絡(luò)以較小的權(quán)重網(wǎng)絡(luò)明顯地提升了推理速度,并保持較高識(shí)別精度,在實(shí)際變電站場(chǎng)景中實(shí)現(xiàn)了高效率的識(shí)別效果。后續(xù)研究中,將進(jìn)一步改進(jìn)網(wǎng)絡(luò)的結(jié)構(gòu),深入挖掘不同網(wǎng)絡(luò)層次對(duì)識(shí)別效果的影響以及之間的內(nèi)在聯(lián)系,從而提升網(wǎng)絡(luò)的識(shí)別精度。