張珂,周睿恒,石超君,2,韓槊,杜明坤,趙振兵,2
1.華北電力大學(xué)電子與通信工程系,保定 071003;2.華北電力大學(xué)河北省電力物聯(lián)網(wǎng)技術(shù)重點實驗室,保定 071003
隨著國家電網(wǎng)新規(guī)劃的實施,我國電網(wǎng)建設(shè)不斷加速,輸電線路的覆蓋范圍逐步擴大。作為電力系統(tǒng)中最主要的基礎(chǔ)設(shè)施,輸電線路是否安全穩(wěn)定運行對整個電力系統(tǒng)及人們?nèi)粘I钣兄匾绊?。而確保輸電線路中關(guān)鍵部件(金具等)處于正常狀態(tài),是維持電力系統(tǒng)穩(wěn)定的重要環(huán)節(jié)。金具是鋁或鐵制的金屬附件,包含保護金具、接續(xù)金具、聯(lián)接金具、耐張線夾以及懸垂線夾等,主要用于支持、固定、接續(xù)裸導(dǎo)線、導(dǎo)體及絕緣子(趙振兵 等,2019)。此類部件常年處于戶外,面臨的環(huán)境復(fù)雜,易出現(xiàn)位移、歪斜和破損等情況,影響導(dǎo)線及桿塔連接結(jié)構(gòu)穩(wěn)定,一旦發(fā)現(xiàn)不及時將造成重大電路損壞事故。評估金具運行狀態(tài)并實現(xiàn)故障診斷,首先需對輸電線路金具目標進行精確定位和識別(趙振兵 等,2021)。隨著深度學(xué)習(xí)和無人機巡檢技術(shù)的發(fā)展,傳統(tǒng)人工巡檢方式逐漸被取代?,F(xiàn)階段主要依靠無人機航拍獲得金具圖像、再結(jié)合深度學(xué)習(xí)技術(shù)進行自動分析,因此研究基于深度學(xué)習(xí)的輸電線路金具檢測模型對保證電網(wǎng)安全運行有重大意義。
目前,金具檢測主流做法是把在公共數(shù)據(jù)集上表現(xiàn)良好的目標檢測模型加以優(yōu)化后,應(yīng)用于電力視覺領(lǐng)域。近年來,基于有監(jiān)督學(xué)習(xí)的輸電線路金具檢測模型已取得了較好效果。湯踴等人(2018)選用并改進了區(qū)域卷積神經(jīng)網(wǎng)絡(luò)Faster R-CNN(region convolutional neural network)(Ren 等,2017)作為輸電線路部件識別模型,調(diào)整了卷積運算中卷積核的大小、并采用數(shù)據(jù)增廣的方式擴充數(shù)據(jù)集,驗證了這兩種方法對提升精度的可行性。白潔音等人(2019)同樣采用該網(wǎng)絡(luò)作為主要模型,利用數(shù)據(jù)挖掘?qū)z測目標進行定位,為復(fù)雜背景下的航拍圖像多目標檢測提供了參考。戚銀城等人(2019)針對密集金具檢測問題,提出了一種使用改進交并比(intersection over union,IoU)的單步多框目標檢測模型(single shot multibox detector,SSD)(Liu 等,2016),該模型對目標尺度更加敏感,并針對密集目標加入斥力損失,獲得了更好的密集檢測效果。Wan等人(2020)針對現(xiàn)階段研究未考慮上下文信息的問題,在基于區(qū)域的全卷積網(wǎng)絡(luò)(region-based fully convolutional network,R-FCN)(Dai 等,2016)上做了改進,并采用可形變卷積模塊和注意力模塊,檢測精度提高了4%。翟永杰等人(2022)則從目標檢測模型與專業(yè)知識融合的角度,提出共現(xiàn)推理檢測模型,采用圖學(xué)習(xí)的方法,利用金具目標間的共現(xiàn)連接關(guān)系,構(gòu)建結(jié)合外部專業(yè)知識的目標檢測模型,在金具檢測上取得較為顯著的精度提升。趙振兵等人(2022)針對多類金具不同尺度變化較大的問題,提出了改進級聯(lián)區(qū)域卷積神經(jīng)網(wǎng)絡(luò)(cascade region convolutional neural networks,Cascade R-CNN)(Cai 和Vasconcelos,2018)的模型,利用神經(jīng)架構(gòu)搜索獲取空洞卷積的空洞率,擴大卷積計算的感受野,使其進行更優(yōu)的多尺度特征提取,并結(jié)合遞歸金字塔進行特征優(yōu)化,提高了檢測精確度。
上述研究大多采用的是基于卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)的目標檢測模型,而近年來Transformer(Vaswani 等,2017)因其優(yōu)異性能,在計算機視覺領(lǐng)域得到廣泛應(yīng)用。Dosovitskiy 等人(2021)提出了ViT(vision Transformer)模型,利用塊劃分的思想處理圖像,使整幅圖像輸入Transformer 的序列不會過長,解決了將Transformer用在圖像處理領(lǐng)域的困難,并驗證了這種模型在視覺上作為主干網(wǎng)絡(luò)的可行性。Beal 等人(2020)將ViT模型作為主干網(wǎng)絡(luò),結(jié)合Faster R-CNN模型的結(jié)構(gòu),構(gòu)建檢測模型,獲得了不錯的效果。針對目標檢測任務(wù)需要多尺度特征層、但ViT 模型各層尺度相同的問題,Liu 等人(2021)提出了Swin Transformer(shifted windows Transformer)模型,利用卷積神經(jīng)網(wǎng)絡(luò)的層次化思想和滑動窗口的操作構(gòu)建主干網(wǎng)絡(luò),其效果超越了以CNN 為主干網(wǎng)絡(luò)的目標檢測模型。該模型主要問題在于自注意力計算時,矩陣乘法計算量較大,導(dǎo)致模型運算效率較低,需針對計算進行改進。
現(xiàn)階段金具檢測模型大多依賴于有監(jiān)督學(xué)習(xí),即在模型訓(xùn)練之前需進行人為的數(shù)據(jù)標注。但隨著無人機巡檢的發(fā)展,采集的部件數(shù)據(jù)越來越多,全部進行人為標注需消耗大量資源。無監(jiān)督方式是研究方向之一(張珂 等,2021)。輸電線路大量數(shù)據(jù)的處理可利用Transformer 的自監(jiān)督學(xué)習(xí)特性有效解決。自監(jiān)督學(xué)習(xí)是無監(jiān)督學(xué)習(xí)的一種方式,通過給無標注數(shù)據(jù)設(shè)計輔助任務(wù),以進行主干網(wǎng)絡(luò)預(yù)訓(xùn)練,挖掘數(shù)據(jù)自身的特征表示;再通過檢測或分割等下游任務(wù),用較少的有監(jiān)督數(shù)據(jù)進行微調(diào)訓(xùn)練。
借鑒自然語言處理領(lǐng)域中單詞預(yù)測的輔助任務(wù),He 等人(2022)提出MAE(masked autoencoder)模型,利用Transformer結(jié)構(gòu)的編碼器和解碼器,將圖像隨機遮蓋一部分后輸入,在解碼器輸出重構(gòu)輸入圖像。通過較高的遮擋比率,例如75%,可顯著減少編碼器的計算量。在解碼器端,預(yù)測結(jié)果與原圖計算誤差損失,得以進行自監(jiān)督訓(xùn)練。自監(jiān)督訓(xùn)練完成后,去掉解碼器,將編碼器作為一個已預(yù)訓(xùn)練的ViT 主干網(wǎng)絡(luò),用于下游任務(wù)的有監(jiān)督微調(diào)訓(xùn)練。得益于ViT 的全局性,隨機遮掩不會影響計算,但對基于局部窗口的Swin Transformer 等網(wǎng)絡(luò)而言,隨機遮掩導(dǎo)致局部窗口中的可見塊數(shù)量不相等,妨礙了局部窗口的自注意力并行計算。針對這個問題,Xie等人(2022)提出的SimMIM(simple framework for masked image modeling)模型,采用了將未被遮蓋的和被遮蓋的圖像塊一同輸入編碼器的方法,而解碼器只設(shè)置一個簡單的線性層。雖然這樣使編碼器計算量變得較大,但可以訓(xùn)練基于局部自注意力的多尺度主干網(wǎng)絡(luò)。Li等人(2022)提出的UM-MAE(uniform masking MAE)模型則利用了一種二次采樣的方式,先均勻采樣保證每個局部窗口得到等量圖像塊,再隨機采樣遮擋小部分,防止均勻采樣減少自監(jiān)督任務(wù)的難度導(dǎo)致最終效果變差。這種方式不增加編碼器的計算量也可實現(xiàn)多尺度主干網(wǎng)絡(luò)的自監(jiān)督訓(xùn)練。
由于需要大量數(shù)據(jù)為支撐來挖掘數(shù)據(jù)自身的特征表示,自監(jiān)督學(xué)習(xí)的主要問題在于訓(xùn)練的速度較慢、所需時間較長。讓編碼器只處理未被遮蓋的部分圖像可顯著減少運算量,提高效率,而構(gòu)建輕量級的解碼器也可進一步縮短訓(xùn)練時間。同時,針對現(xiàn)有模型的損失函數(shù)進行改進,也有助于自監(jiān)督學(xué)習(xí)的訓(xùn)練更快收斂。
本文以上述問題為出發(fā)點,提出一種高精度金具檢測模型,主要貢獻如下:首先,針對主干網(wǎng)絡(luò)自注意力計算量較大的問題,提出輕量的高效特征提取網(wǎng)絡(luò)E-Swin;然后,為了利用大量的無標注數(shù)據(jù)、并加強模型特征提取能力,采用自監(jiān)督學(xué)習(xí)處理數(shù)據(jù),預(yù)訓(xùn)練主干網(wǎng)絡(luò)E-Swin,并設(shè)計輕量化、平滑的自監(jiān)督方法解決推理速度較慢的問題;最后,為了提高檢測定位精度,解決檢測框不貼合目標的問題,設(shè)計一種高性能檢測頭。為提高推理速度,本文構(gòu)建比Faster R-CNN 等二階段模型更有效的一階段模型,實現(xiàn)了對輸電線路金具檢測模型的優(yōu)化。
本文模型的實現(xiàn)過程如圖1所示,主要分為3部分實現(xiàn)輸電線路金具檢測。首先,采用Swin Transformer 作為主干網(wǎng)絡(luò),并針對其計算量仍較大的問題,改進自注意力的計算方法,實現(xiàn)計算量更小、更高效的特征提取網(wǎng)絡(luò)E-Swin;然后,為E-Swin主干網(wǎng)絡(luò)設(shè)計自監(jiān)督學(xué)習(xí)方法進行預(yù)訓(xùn)練,利用無標注圖像重構(gòu)的方式訓(xùn)練模型的特征提取能力,并設(shè)計輕量化解碼器和平滑損失函數(shù),以提高自監(jiān)督學(xué)習(xí)的效率。自監(jiān)督學(xué)習(xí)完成后,將E-Swin 作為檢測模型的主干網(wǎng)絡(luò);最后,為了提高整個模型的性能、使模型能夠輸出更貼合目標的檢測框,在主干網(wǎng)絡(luò)基礎(chǔ)上結(jié)合多尺度金字塔模塊和高性能檢測頭,構(gòu)建檢測模型。在檢測頭部分添加分類和回歸分支以外的交并比預(yù)測分支,對非極大值抑制(non-maximum suppression,NMS)分數(shù)利用預(yù)測框進行限制,使檢測框更貼合目標。搭建模型后,在自監(jiān)督訓(xùn)練的基礎(chǔ)上,利用少量標注數(shù)據(jù)進行有監(jiān)督微調(diào)訓(xùn)練,實現(xiàn)對應(yīng)目標的檢測。
圖1 本文模型的實現(xiàn)過程Fig.1 The implementation process of our model
Swin Transformer 采用滑動窗口的策略提高Transformer 自注意力計算的效率。其他提高計算效率的方法則不采用局部窗口,直接將計算目標進行下采樣,例如Wang 等人(2021)所提出的PVT(pyramid vision Transformer)模 型,以 及Zhang 和Yang(2021)所提出的ResT(residual efficient Transformer)模型等。本文利用ResTv2(residual efficient Transformer version2)(Zhang 和Yang,2022)的思想對Swin的計算模塊進行改進,提出一種高效局部自注意力的主干網(wǎng)絡(luò)E-Swin,減少冗余的計算量。
在Swin Transformer 中,輸入特征圖劃分為不重疊的窗口,在每個窗口內(nèi)獨立計算自注意力,然后利用窗口的移位,計算窗口間自注意力,減少了計算量,同時通過特征圖下采樣,構(gòu)建多尺度主干網(wǎng)絡(luò),使其更適用于檢測和分割等下游任務(wù)。通過將注意力的計算限制在不重疊的窗口內(nèi),提高了計算效率。但其在窗口內(nèi)仍采用標準的Transformer自注意力計算方式,對于有較多冗余信息的圖像而言,計算量仍然稍大,計算式為
式中,Q,K,V為查詢向量,dk是多頭注意力的維度。自注意力計算的主要計算復(fù)雜度來源于Q,K,V 交互時的大量矩陣乘法運算。
在E-Swin 主干網(wǎng)絡(luò)的自注意力計算中,仍采用滑動窗口進行局部劃分。在局部窗口中,通過對K、V 進行下采樣,有效減少矩陣相乘的計算量。同時,為了在減少計算量的基礎(chǔ)上不丟失有效信息,對V進行上采樣以重建信息。計算方式如圖2所示。
圖2 改進后的自注意力計算過程Fig.2 Process of improved self-attention calculation
首先,與原始的多頭自注意力計算類似,采用一組線性投影層將輸入X∈轉(zhuǎn)化為查詢Q,其尺寸為(k,n,dk),其中n代表特征的空間維度,即特征圖的大小為H×W,H、W為特征圖的長、寬,dm代表輸入通道數(shù),k代表線性層(即頭部)的個數(shù),dk=dm/k代表頭部的維度。而對于K和V,則采取不同的獲得方式。先將X 重塑為二維特征圖,其尺度為(dm,H,W),再利用一個尺度為s×s的平均池化層進行下采樣,減少后續(xù)計算量,并使模型關(guān)注特征圖中輪廓特征的有效信息。下采樣后的特征尺寸得到縮減,為(dm,H′,W′),再經(jīng)過線性投影層轉(zhuǎn)換得到K和V,其尺寸為(k,n′,dk),n′=H′×W′。然后進行常規(guī)矩陣計算,不同圖像塊的Q 和K 進行交互,再與對應(yīng)的V 相乘。改進后,在局部窗口的Q、K、V 交互中,計算復(fù)雜度為而在不進行下采樣的原始計算中,計算復(fù)雜度為O(2n2dm+)。在取s>1 時,下采樣可有效減少計算復(fù)雜度。
雖然下采樣可以顯著減少計算成本,但也將不可避免地丟失一部分特征信息。為了在實現(xiàn)高效計算的同時保證有效信息,在自注意力計算最后的線性層之前,對V值進行上采樣,恢復(fù)為原尺寸,并加到計算結(jié)果上。計算方式采用像素洗牌(pixel shuffle),先擴大通道數(shù),然后平均分配像素,達到上采樣的效果。上采樣分支可以高效地重建信息,并且?guī)缀醪辉黾佑嬎銖?fù)雜度。
本文在Swin Transformer 基于窗口的自注意力計算中,利用下采樣減少計算量、提高網(wǎng)絡(luò)對有效特征信息的提取能力。完成矩陣乘法計算后,在線性層前通過上采樣的方式,重建下采樣丟失的部分信息,構(gòu)成高效的主干網(wǎng)絡(luò)E-Swin。
隨著輸電線路無人機巡檢的廣泛使用,收集到的圖像數(shù)據(jù)也越來越多,對這些巡檢數(shù)據(jù)進行人為標注會消耗大量資源。如何有效利用這部分無標注數(shù)據(jù),成為近年來研究的一個新方向。
對上文提出的主干網(wǎng)絡(luò),本文采用自監(jiān)督學(xué)習(xí)的方式進行預(yù)訓(xùn)練。自監(jiān)督學(xué)習(xí)通過構(gòu)建輔助任務(wù),從大規(guī)模無標注數(shù)據(jù)中挖掘數(shù)據(jù)特征,并學(xué)習(xí)可以轉(zhuǎn)移到下游任務(wù)的特征表示。MAE 方法設(shè)計圖像重構(gòu)輔助任務(wù),對圖像隨機遮掩75%,再輸入編碼器和解碼器中,并使輸出結(jié)果重構(gòu)原圖,實現(xiàn)對普通ViT 主干網(wǎng)絡(luò)的自監(jiān)督訓(xùn)練。ViT 的全局性使得隨機遮掩不會影響計算,但對Swin 這樣的局部窗口網(wǎng)絡(luò)而言,隨機遮掩會導(dǎo)致每個局部窗口中的可見塊數(shù)量不相等,妨礙了基于窗口的自注意力并行計算。
UM-MAE 方法是對MAE 的擴展,解決了MAE方法由于隨機采樣而無法用在多尺度主干網(wǎng)絡(luò)上的問題。本文為了提高自監(jiān)督學(xué)習(xí)效率,從解碼器以及損失函數(shù)的角度進行優(yōu)化,提出輕量化、平滑的自監(jiān)督學(xué)習(xí)方法LS-UM(lightweight smooth uniform masking),用以訓(xùn)練前文所提出的E-Swin 主干網(wǎng)絡(luò),流程如圖3所示。
圖3 自監(jiān)督學(xué)習(xí)流程Fig.3 Process of self-supervised learning
采用一種二次采樣的方式,可以使MAE 方法適用于Swin 主干上。首先,對圖像執(zhí)行均勻采樣,采樣率為25%,即對每個2 × 2 的4 格單位采樣1 格。類似于MAE,會有75%的圖像塊被遮蔽,并且不會輸入編碼器中,確保編碼器的計算開銷較小。同時,由于是均勻采樣而不是隨機采樣,保證了在Swin 的每個局部窗口都能分配到等量的圖像塊,使移位窗口可以處理離散的圖像塊集合。然而,針對圖像而言,利用周圍的像素塊可比較容易地推理出缺失部分的圖像,所以相比于隨機采樣,均勻采樣會降低輔助任務(wù)難度,導(dǎo)致學(xué)習(xí)質(zhì)量下降。對此,在均勻采樣的基礎(chǔ)上進行二次遮蔽,將第1 步采樣得到的圖像塊遮蔽小部分,并利用共享的掩碼令牌表示。第2次采樣所產(chǎn)生的掩碼令牌仍會輸入編碼器,所以第2 次采樣不會改變輸入編碼器的圖像塊數(shù)量,保證局部窗口的注意力計算不會受到影響。利用第2 次采樣恢復(fù)了圖像重構(gòu)輔助任務(wù)的難度,使網(wǎng)絡(luò)將重點放在學(xué)習(xí)圖像的高質(zhì)量表示上。
在本文訓(xùn)練流程中,圖像在經(jīng)過二次采樣之后,以原圖25%的比例輸入編碼器。編碼器采用上文所提出的E-Swin 主干網(wǎng)絡(luò),提取圖像的特征。經(jīng)過編碼器后,得到圖像的特征表示,并利用上采樣恢復(fù)尺寸。然后,將第1 次采樣所遮蔽的75%圖像塊用一個可學(xué)習(xí)的向量表示,并與編碼器所得到的特征表示一起輸入解碼器。解碼器采用輕量化的單層Transformer 解碼器,加上一個線性預(yù)測層構(gòu)成,使輸出重構(gòu)原圖像。利用圖像重構(gòu)的方式訓(xùn)練編碼器的特征提取能力。自監(jiān)督訓(xùn)練的損失利用預(yù)測得到的像素值和原本像素值進行計算,平滑損失函數(shù)計算為
式中,x代表預(yù)測值與真實值之差。平滑損失是結(jié)合了平均絕對值誤差和均方誤差的優(yōu)化損失函數(shù)。平均絕對值誤差損失的導(dǎo)數(shù)為常數(shù),在訓(xùn)練后期預(yù)測值與真實值差異較小時不夠平滑,導(dǎo)致?lián)p失函數(shù)在穩(wěn)定值附近浮動,模型難以收斂。均方誤差在x較小時比較平滑,但在訓(xùn)練初期預(yù)測值與真實值差異較大時梯度較大,導(dǎo)致部分離群點梯度爆炸,訓(xùn)練不穩(wěn)定。平滑損失函數(shù)進行區(qū)間劃分,綜合這兩種損失函數(shù),有助于訓(xùn)練的穩(wěn)定。LS-UM 方法通過設(shè)計輕量化的單層解碼器和平滑的損失函數(shù),提高了自監(jiān)督學(xué)習(xí)的效率。
利用輸電線路巡檢圖像,完成圖像重構(gòu)的自監(jiān)督學(xué)習(xí)后,作為編碼器的主干網(wǎng)絡(luò)已經(jīng)學(xué)習(xí)到了相應(yīng)的圖像特征表示。保留編碼器作為目標檢測模型的主干,構(gòu)建檢測模型,再利用少量有標注數(shù)據(jù)進行微調(diào)訓(xùn)練,即可完成自監(jiān)督學(xué)習(xí)到下游任務(wù)的遷移。
基于上述內(nèi)容,本文用自監(jiān)督學(xué)習(xí)后的主干網(wǎng)絡(luò)構(gòu)建檢測模型。為了簡化計算并提高推理速度,采用一階段目標檢測模型RetinaNet(Lin 等,2017)的基本結(jié)構(gòu)作為參考,并做改進。
在主干網(wǎng)絡(luò)特征提取后采用特征金字塔模塊進行多尺度特征融合。語義信息主要集中在主干網(wǎng)絡(luò)所提取的高層特征圖上,而位置信息則集中在底層特征圖上。本文采用路徑聚合特征金字塔(path aggregation feature pyramid network,PAFPN)(Liu 等,2018)結(jié)構(gòu),該結(jié)構(gòu)在特征金字塔的基礎(chǔ)上增加了自底向上的采樣路徑,通過反復(fù)采樣以及結(jié)合堆疊,有效融合不同特征層的信息。
經(jīng)特征融合后,將得到的信息輸入最后的預(yù)測器,進行分類和回歸預(yù)測,得到圖像中目標類別和邊界框的預(yù)測結(jié)果。但對不同尺度的輸電線路金具而言,易出現(xiàn)邊界框質(zhì)量較差的問題。由于預(yù)測器中分類分支和回歸分支缺少關(guān)聯(lián),導(dǎo)致質(zhì)量較好的邊界框可能遭到抑制。在非極大值抑制過程中,一個預(yù)測目標只會輸出一組分類結(jié)果和邊界框,所有針對該目標的預(yù)測都會按照分類得分降序排列,分類得分最高的預(yù)測框會抑制與它自身重疊程度高于一定閾值的其他預(yù)測框。但這默認采用了分類得分最高的預(yù)測框作為邊界框,而沒有考慮分類得分稍低、但預(yù)測框更接近真實框的樣本,如圖4 所示。圖4中,淺色框代表真實框,深色框1和2代表兩個預(yù)測。預(yù)測框1 的分類得分為0.9、與真實框的交并比為85%,預(yù)測框2 的分類得分為0.87、與真實框的交并比為90%。預(yù)測框2 更加貼近真實框,但它在NMS過程中由于與分類準確度更高的預(yù)測框1 的重疊超過閾值而被其所抑制。Tian等人(2019)利用中心距離(centerness 分支)改善此問題。添加額外分支預(yù)測真實框和預(yù)測中心點間的歸一化距離,限制NMS得分計算,降低離真實框較遠預(yù)測框的權(quán)重,過濾了部分較差的預(yù)測框。但此方法并未考慮預(yù)測框與真實框的交并比,交并比可更好地反映預(yù)測框和真實框之間的相關(guān)程度(Wu等,2020)。
圖4 預(yù)測框的選擇問題Fig.4 Problems of selecting prediction box
本文在分類和回歸分支外,添加額外分支用于預(yù)測真實框和預(yù)測框的交并比。檢測頭結(jié)構(gòu)如圖5所示,其中,h,w代表輸入特征層尺寸,N代表類別數(shù),A代表預(yù)測錨框數(shù)。
圖5 檢測頭的結(jié)構(gòu)Fig.5 Composition of the detector head
交并比檢測頭用于預(yù)測每個回歸邊界框和真實框之間的交并比,與回歸分支平行連接到原分支的最后一層。在訓(xùn)練過程中,交并比預(yù)測部分和分類及回歸預(yù)測部分聯(lián)合訓(xùn)練。在推理的NMS 過程中,將每個檢測框的分類分數(shù)和預(yù)測交并比相乘以獲得置信度分數(shù)并依此排序。檢測置信度由此可結(jié)合分類準確度和定位精度,提高邊界框的定位準確率。
在訓(xùn)練過程中,分類損失采用RetinaNet 中的焦點損失(focal loss),該損失通過調(diào)節(jié)訓(xùn)練過程中困難樣本的權(quán)重,將重心聚焦在困難樣本上,用Lcls表示所有正、負樣本的分類損失?;貧w損失采用DIoU(distance-IoU)(Zheng 等,2020)損失,綜合考慮回歸框的重疊區(qū)域、中心距離兩個因素,用Lreg表示所有正樣本的預(yù)測框和真實框之間的回歸損失。交并比預(yù)測分支單獨采用二進制交叉熵損失函數(shù)(binary crossentropy loss,BCE Loss),用于計算預(yù)測交并比和真實交并比的損失,Liou具體為
式中,Npos表示所有正樣本的個數(shù),IoU′i表示每個邊界框與真實框的預(yù)測交并比,IoUi表示該框與真實框的實際交并比,利用二進制交叉熵損失函數(shù)進行訓(xùn)練。利用交并比預(yù)測損失和回歸損失共同訓(xùn)練回歸分支,提高檢測的定位精度。總訓(xùn)練損失Ltrain為
推理過程中,將分類分數(shù)乘上對應(yīng)檢測框的預(yù)測交并比,得到用于非極大值抑制的排序得分。由此,置信度排序可同時結(jié)合分類分數(shù)及定位精度,提高分類和回歸的相關(guān)性,使預(yù)測框定位更加精確。
本文的實驗數(shù)據(jù)圖像由輸電線路無人機巡檢拍攝得到,采用兩個輸電線路金具數(shù)據(jù)集對模型進行訓(xùn)練和評估。其一包含用于自監(jiān)督學(xué)習(xí)的大量無標注數(shù)據(jù);其二包含用于微調(diào)訓(xùn)練的有標注數(shù)據(jù),包括約1 600 幅圖像,按4∶1 劃分為訓(xùn)練集和測試集。樣本包括12 類金具,總共的標注目標為10 178 個,數(shù)據(jù)集示例圖如圖6所示,類別構(gòu)成如表1所示。
表1 數(shù)據(jù)集構(gòu)成Table 1 Composition of the dataset
圖6 數(shù)據(jù)集示例Fig.6 Dataset examples((a)example 1;(b)example 2)
本文實驗采用Pytorch 框架實現(xiàn),使用NVIDIA RTX3090 GPU 進行訓(xùn)練和推理測試,并對比不同的一階段和二階段目標檢測模型。訓(xùn)練時,對輸入圖像進行隨機剪裁和隨機翻轉(zhuǎn)做數(shù)據(jù)增強。在自監(jiān)督預(yù)訓(xùn)練中,為了適配網(wǎng)絡(luò),將圖像調(diào)整為256 × 256像素,學(xué)習(xí)率設(shè)置為0.001,進行1 600 輪圖像重構(gòu)的自監(jiān)督訓(xùn)練,提升主干網(wǎng)絡(luò)的特征提取能力。然后,將主干網(wǎng)絡(luò)組建為RetinaNet 形式的一階段檢測模型,利用有標注數(shù)據(jù)進行微調(diào)訓(xùn)練,輸入圖像尺寸設(shè)置為1 024 × 1 024 像素,以適用于需要更高分辨率的目標檢測任務(wù),學(xué)習(xí)率設(shè)置為0.000 1,權(quán)重衰減為0.05,NMS的閾值設(shè)置為0.6。
為了驗證本文所提出模型的性能,將本文模型與RetinaNet、SSD、Faster R-CNN、YOLOv4(you only look once version4)(Bochkovskiy 等,2020)、Swin Transformer、DETR(detection Transformer)(Carion等,2020)等先進模型在有標注金具檢測數(shù)據(jù)集上進行對比實驗。采用各類平均精確度(average precision,AP)為評價指標。AP50、AP75在計算時選取預(yù)測框和真實框IoU 大于0.5 和0.75 的正樣本,而AP50~95表示IoU 取值在0.5 到0.95 上的平均精度均值(mean average precision,mAP)。AP50在數(shù)值上更直觀展示模型效果,而AP50~95則更具總體性。
表2展示了本文模型和普通一階段RetinaNet模型在每一類檢測目標上的檢測結(jié)果。為了獲得較全面的模型對比效果,表2 所示的指標為AP50~95??梢钥闯觯疚哪P蛯Υ蟛糠纸鹁叩臋z測準確率提升在10%左右。對于屏蔽環(huán)、均壓環(huán)、防震錘、U 型掛環(huán)等有明顯輪廓特征和分布位置特征的金具,準確率提升更高。自監(jiān)督學(xué)習(xí)增強了模型的特征提取能力,因此這類特征明顯的樣本有較顯著的精度提升。對于并溝線夾和楔形線夾這類在數(shù)據(jù)集中出現(xiàn)次數(shù)較少的目標,其檢測準確率也獲得了較大提高,而樣本同樣較少的預(yù)絞式懸垂線夾準確率相對較低,在訓(xùn)練和測試樣本分配上還有待改進??傮w而言,相較于普通一階段模型RetinaNet,本文模型對金具目標的檢測準確率有較大提升。與其余模型的對比實驗結(jié)果如表3 所示??梢钥闯?,本文模型的檢測效果相對其他模型有明顯提升。其中Swin-T為普通的Swin 網(wǎng)絡(luò)所構(gòu)建的一階段目標檢測模型Swin-Tiny,未采用本文所提出的幾種優(yōu)化方法。Swin-T 的AP50~95指標為54.8%,本文模型為58.2%,提升了3.4%。同時,本文模型的AP50指標能夠達到88.6%,提升5.4%,相比于傳統(tǒng)的二階段模型Faster R-CNN 和一階段模型YOLOv4,也有12%左右的準確度提升。AP50指標的提高較為直觀地表明,本文模型的改進對檢測效果有較大提升,基本超越了傳統(tǒng)模型。
表2 各類金具檢測結(jié)果對比Table 2 Comparison of test results of various fittings /%
表3 與其他檢測模型性能對比Table 3 Performance comparison with other models /%
為驗證本文所提出的高效主干網(wǎng)絡(luò)、自監(jiān)督學(xué)習(xí)方法以及檢測頭模塊的有效性,設(shè)計了消融實驗進行對比。
2.4.1 高效主干網(wǎng)絡(luò)
為了驗證改進后自注意力計算的高效性,本文設(shè)計了一階段Swin-T基線模型和E-Swin模型的對比實驗。采用每秒浮點運算數(shù)(floating-point operations per second,F(xiàn)LOPs)衡量模型運算量,輸入尺寸設(shè)置為(3,1 024,1 024)。結(jié)果如表4所示。由表4可以看出,采用高效的自注意力計算可使模型的AP50~95和AP50提高0.9%、1.4%,并且浮點運算減少了8.1 GFLOPs(giga floating-point operations per second)。E-Swin 的下采樣使模型關(guān)注輪廓特征,同時,得益于對K和V進行的下采樣,模型矩陣乘法的計算量減少、計算復(fù)雜度降低。對V的上采樣重建了部分丟失的信息,與矩陣乘法計算結(jié)果相加,使改進后模型的準確率略微上升。
表4 改進主干網(wǎng)絡(luò)對結(jié)果的影響Table 4 The influence of improved backbone on results
2.4.2 自監(jiān)督學(xué)習(xí)
為了驗證自監(jiān)督學(xué)習(xí)方法對本文模型的有效性,設(shè)計了不同的對比實驗。表5 展示了使用Sim-MIM、UM-MAE 和本文提出的LS-UM 等3 種自監(jiān)督學(xué)習(xí)方法對主干網(wǎng)絡(luò)進行預(yù)訓(xùn)練并與普通Swin-T模型的對比結(jié)果。表5 中比較的指標包括不同自監(jiān)督方式在不同訓(xùn)練輪次情況下的預(yù)訓(xùn)練時間和損失,以及在完成自監(jiān)督學(xué)習(xí)和有監(jiān)督微調(diào)訓(xùn)練之后的檢測精度。精度指標采用較嚴格的AP50~95。
表5 不同自監(jiān)督學(xué)習(xí)方式性能對比Table 5 Performance comparison of different self-supervised learning methods
由表5 可以看出,在針對Swin 主干網(wǎng)絡(luò)的自監(jiān)督預(yù)訓(xùn)練過程中,由于UM-MAE 的編碼器只處理未被遮掩的圖像塊,即整個圖像的25%,而SimMIM 將圖像塊全部處理,所以UM-MAE 的訓(xùn)練時間明顯減少,大幅提升了效率,且最終精度提升約2%。而當預(yù)訓(xùn)練輪次從800 輪上升到1 600 輪時,雖然圖像重構(gòu)的損失并沒有下降太多,但最終微調(diào)的精度有略微上升,說明了自監(jiān)督學(xué)習(xí)可以充分挖掘圖像的特征表達,并有繼續(xù)提高特征提取能力的潛力。
另外,本文將UM-MAE 和優(yōu)化后的LS-UM 方法進行對比,在1 600 輪預(yù)訓(xùn)練后進行微調(diào)訓(xùn)練,其對比效果如表5 所示??梢钥闯觯靡嬗谳p量化的解碼器及平滑的損失函數(shù),LS-UM 的損失以及預(yù)訓(xùn)練所需時間得以減小,收斂更快,最終的有監(jiān)督微調(diào)效果也有0.3%的精度提升。
最后,為了比較使用不同無標注數(shù)據(jù)進行自監(jiān)督學(xué)習(xí)的效果,本文設(shè)計了在LS-UM 方法下,利用無標簽金具數(shù)據(jù)和ImageNet-1K 數(shù)據(jù)集做自監(jiān)督學(xué)習(xí)的對比實驗,以展示不同數(shù)據(jù)集對最終結(jié)果的影響,結(jié)果如表6所示。
表6 不同自監(jiān)督數(shù)據(jù)集效果對比Table 6 Comparison of different self-supervised datasets
由表6 可以看出,采用ImageNet-1K 進行自監(jiān)督預(yù)訓(xùn)練所需時間遠大于使用無標注金具數(shù)據(jù)的時間。ImageNet-1K 的數(shù)據(jù)量太大,但得益于龐大的數(shù)據(jù)量,主干網(wǎng)絡(luò)的特征提取能力得到了有效訓(xùn)練,其完成自監(jiān)督學(xué)習(xí)后的微調(diào)訓(xùn)練也只需更少輪次。采用無標注金具數(shù)據(jù)做預(yù)訓(xùn)練時,所需微調(diào)輪次則相對較多。主要原因在于無標注數(shù)據(jù)的數(shù)量和質(zhì)量上。金具數(shù)據(jù)的數(shù)量遠不及ImageNet-1K,且數(shù)據(jù)中有效信息較少而背景冗余信息較多,導(dǎo)致其在自監(jiān)督學(xué)習(xí)中提升的特征提取能力不大,微調(diào)時需更多時間。不過,使用金具數(shù)據(jù)做自監(jiān)督學(xué)習(xí)可以使主干網(wǎng)絡(luò)在特定任務(wù)上具有一定優(yōu)勢,最終微調(diào)精度提高0.4%,且自監(jiān)督學(xué)習(xí)時間大幅減少,效率更高。
2.4.3 高精度檢測頭
為驗證所提出的檢測頭對檢測精度的影響,針對Swin-T主干構(gòu)建了不同的模型,并進行對比實驗,實驗結(jié)果如表7 所示,其中,除Swin-T(二階段)外均為一階段模型。由表7 可以看出,用相同主干構(gòu)建的二階段模型,在未添加優(yōu)化模塊時,其性能較一階段模型略有提升,但由于二階段模型冗雜的計算處理方式,采用一階段模型,訓(xùn)練和推理會更高效。對一階段模型而言,額外分支采用centerness對邊界框的選取進行限制,模型的AP50~95可以提升1.4%,AP50提升2.5%,且額外預(yù)測分支與回歸分支并行訓(xùn)練,不需較多額外參數(shù)即可較明顯地提升檢測準確率。將額外分支改進為IoU 預(yù)測,可使檢測效果進一步提升,AP50~95和AP50再提升1.3%和2.2%。在檢測頭中采用預(yù)測框與真實框的交并比作為邊界框選擇時的額外限制,檢測精確度指標AP50為87.9%,模型在非極大抑制中能夠選擇更準確的預(yù)測框,使預(yù)測邊界框更貼近真實框。
表7 改進檢測頭對檢測結(jié)果的影響Table 7 Influence of improved detector head on detection results /%
為了更清晰地展示本文模型的改進對于金具檢測效果的提升,設(shè)置了可視化實驗展示結(jié)果。將巡檢金具圖像輸入本文模型以及一階段Swin-T 模型,對得到的檢測結(jié)果進行對比分析,如圖7 和圖8所示。
圖7 金具檢測結(jié)果對比Fig.7 Comparison of fitting detection results((a)Swin-T;(b)ours)
圖8 金具定位對比Fig.8 Comparison of fitting positioning((a)Swin-T;(b)ours)
圖7 和圖8 展示本文模型與一階段Swin-T 模型部分檢測結(jié)果的對比。如圖7 所示,均壓環(huán)、提包式懸垂線夾、U 型掛環(huán)等金具在一階段Swin-T 模型的檢測下均出現(xiàn)了漏檢的情況。通過圖7 中結(jié)果1、結(jié)果3、結(jié)果4 的對比可以看出,本文模型有效減少了漏檢的情況,自監(jiān)督學(xué)習(xí)有效把握了較為顯著的各類金具特征。通過圖中結(jié)果2 的對比可以看出,本文模型檢測出了由于遮擋較為嚴重而易被漏檢的線夾,在復(fù)雜遮擋環(huán)境下的檢測準確率有所提高。
圖8 展示了兩種模型對檢測框定位效果的對比。如圖8(a)所示,當兩個目標有相互重疊的部分時,普通模型對防震錘的定位出現(xiàn)了錯誤判斷,僅識別到一個目標,并在另一個的干擾下得到了不精確的預(yù)測框;而在圖8(b)中,本文模型的預(yù)測結(jié)果識別出了前后兩個防震錘,并且預(yù)測框貼近實際目標,定位效果明顯提升,檢測更加準確。
針對輸電線路巡檢所產(chǎn)生的無標注數(shù)據(jù)無法有效利用,以及金具檢測準確率較低的問題,本文提出了一種基于自監(jiān)督E-Swin 的金具檢測模型。主要貢獻如下:1)提出高效的E-Swin 主干網(wǎng)絡(luò),通過改進Swin 自注意力的計算方式,實現(xiàn)計算時間更短、更高效的特征提取。2)為了有效利用大量巡檢數(shù)據(jù),采用輕量化的平滑自監(jiān)督學(xué)習(xí)方式LS-UM 預(yù)訓(xùn)練主干網(wǎng)絡(luò)。通過圖像重構(gòu)輔助任務(wù),挖掘大量無標注數(shù)據(jù)中的特征表示,從而提升主干網(wǎng)絡(luò)的特征提取能力。3)構(gòu)建高精度金具檢測模型,利用增加額外分支的檢測頭,實現(xiàn)更加準確的邊界框預(yù)測。實驗表明,本文所提出的模型在金具檢測上的表現(xiàn)優(yōu)于主流模型。
本文同樣存在一些需要解決的問題。自監(jiān)督學(xué)習(xí)需利用大量的數(shù)據(jù)進行特征表達的學(xué)習(xí),本文暫未收集到ImageNet-1K量級的數(shù)據(jù),所以后續(xù)微調(diào)訓(xùn)練需要更久的時間。同時,輸電線路航拍圖像存在大量背景等冗余信息,目標信息分布不集中,不利于自監(jiān)督學(xué)習(xí)的進行。為此,需對用于自監(jiān)督學(xué)習(xí)的數(shù)據(jù)進行額外處理,例如結(jié)合生成對抗網(wǎng)絡(luò),進行額外的數(shù)據(jù)增強預(yù)處理等(黃鐄 等,2019),這也是下一步的研究方向。