姜振邦,鄒寬勝
(江蘇師范大學(xué)電氣工程及自動(dòng)化學(xué)院,徐州 221116)
電力線(xiàn)提取是保障飛行器低空安全飛行的重要措施,提前檢測(cè)出電力線(xiàn)并實(shí)施避障具有重要意義。美軍數(shù)據(jù)顯示:1997~2006年,共發(fā)生54 起軍用飛行器撞擊電力線(xiàn)事故,造成13 名軍事人員死亡,經(jīng)濟(jì)損失高達(dá)2.24 億美元[1]。飛行器與電力線(xiàn)發(fā)生碰撞會(huì)導(dǎo)致電力線(xiàn)損壞,影響電力系統(tǒng)的穩(wěn)定性。電力作為國(guó)民經(jīng)濟(jì)的重要基礎(chǔ)工業(yè),一旦發(fā)生故障將造成巨大的經(jīng)濟(jì)損失和社會(huì)影響。2019年8 月9日,英國(guó)倫敦等重要城市發(fā)生大規(guī)模停電事故,導(dǎo)致地鐵與城際火車(chē)停運(yùn)、道路交通信號(hào)中斷,市民被困在鐵路和地鐵中,居民生活受到嚴(yán)重影響[2]。為保障電力系統(tǒng)健康運(yùn)行,需定期進(jìn)行電力巡檢,掌握輸電線(xiàn)路的運(yùn)行情況以及線(xiàn)路周?chē)h(huán)境和線(xiàn)路保護(hù)區(qū)的變化情況。電力線(xiàn)提取又是電力巡檢中的關(guān)鍵環(huán)節(jié),因此對(duì)電力線(xiàn)提取方法進(jìn)行研究尤為重要。
利用圖像處理技術(shù)可以高效地提取出電力線(xiàn)。最直觀(guān)的電力線(xiàn)特征是基于邊緣檢測(cè)的直線(xiàn)特征[3],文獻(xiàn)[4‐5]將電力線(xiàn)簡(jiǎn)化為直線(xiàn)模型,但在復(fù)雜場(chǎng)景中這類(lèi)基于邊緣檢測(cè)直線(xiàn)特征的提取方法,提取到的線(xiàn)段可能是車(chē)道、樹(shù)枝或建筑物邊緣等。為解決這類(lèi)問(wèn)題,學(xué)者們提出結(jié)合全局輔助物和上下文信息的電力線(xiàn)提取方法,文獻(xiàn)[6‐7]均利用電力桿塔作為全局輔助物提取電力線(xiàn)。結(jié)合全局輔助物的電力線(xiàn)提取方法彌補(bǔ)了區(qū)分電力線(xiàn)和非電力線(xiàn)時(shí)僅依靠電力線(xiàn)自身特征所引起的不足,但預(yù)設(shè)的輔助物與電力線(xiàn)的關(guān)聯(lián)模型(如塔‐線(xiàn)關(guān)聯(lián)模型)難以適用多種多樣的航拍圖像[8]。文獻(xiàn)[9‐10]將上下文信息與電力線(xiàn)特征相結(jié)合用以區(qū)分電力線(xiàn)和偽電力線(xiàn),但上下文信息作為一種先驗(yàn)知識(shí),當(dāng)場(chǎng)景發(fā)生劇烈變化時(shí),場(chǎng)景上下文特征無(wú)法發(fā)揮作用。
深度學(xué)習(xí)方法在圖像處理領(lǐng)域得到廣泛應(yīng)用,如圖像分類(lèi)、目標(biāo)檢測(cè)[11‐12]和圖像分割。在電力線(xiàn)提取任務(wù)中,學(xué)者們嘗試引入深度學(xué)習(xí)方法。文獻(xiàn)[13]通過(guò)卷積神經(jīng)網(wǎng)絡(luò)提取圖像特征,將圖像分為包含電力線(xiàn)和不包含電力線(xiàn)兩大類(lèi),但無(wú)法實(shí)現(xiàn)電力線(xiàn)的準(zhǔn)確定位。文獻(xiàn)[14]通過(guò)構(gòu)建一個(gè)改進(jìn)的VGG16 神經(jīng)網(wǎng)絡(luò)獲取每一層的分層響應(yīng),并將分層響應(yīng)特征圖進(jìn)行整合以生成融合輸出,實(shí)現(xiàn)了端對(duì)端的電力線(xiàn)提取。但由于電力線(xiàn)公開(kāi)數(shù)據(jù)集的樣本量少,模型提取到的電力線(xiàn)特征有限,復(fù)雜背景下的電力線(xiàn)提取效果并不理想。文獻(xiàn)[15]針對(duì)醫(yī)學(xué)圖像提出U‐net 模型,在小數(shù)據(jù)集上取得較好效果,對(duì)電力線(xiàn)提取具有借鑒意義。
文獻(xiàn)[16]提出注意力機(jī)制(Attention mechanism),其主要用于翻譯模型,因其強(qiáng)大的關(guān)注特性和特征表達(dá)能力被引入計(jì)算機(jī)視覺(jué)領(lǐng)域。背景復(fù)雜的航空影像包含大量冗雜信息,注意力機(jī)制則能夠通過(guò)聚焦重要信息,抑制非重要特征,提高電力線(xiàn)提取的效率與準(zhǔn)確性。
因此本文提出一種基于階段注意力機(jī)制的電力線(xiàn)提取模型,該模型采用語(yǔ)義分割模型的編碼‐解碼結(jié)構(gòu)。編碼階段采用提出的階段輸入融合策略,將多尺度圖像與池化后的特征圖進(jìn)行通道上的拼接。解碼階段嵌入改進(jìn)的階段注意力模塊,通過(guò)將空間注意力、通道注意力和金字塔注意力融合,選擇重點(diǎn)位置、增強(qiáng)代表性物體、減弱背景干擾,實(shí)現(xiàn)像素級(jí)跨場(chǎng)景電力線(xiàn)提取。
使用SA‐Unet 模型進(jìn)行電力線(xiàn)提取的整體流程如圖1 所示:特征工程將數(shù)據(jù)處理成算法能夠理解的格式,并劃分為訓(xùn)練集和測(cè)試集。訓(xùn)練集用以訓(xùn)練深度學(xué)習(xí)模型,測(cè)試集用以預(yù)測(cè)和評(píng)估模型并返回預(yù)測(cè)結(jié)果。
圖1 整體流程Fig.1 Overall process
模型整體架構(gòu)采用編碼‐解碼的U 型結(jié)構(gòu),如圖2 所示。編碼過(guò)程采用階段輸入融合策略,充分利用圖像不同接受域的信息,減少池化帶來(lái)的空間位置信息丟失。同時(shí)仿照人類(lèi)視覺(jué)機(jī)制設(shè)計(jì)出階段注意力模塊,從大量信息中篩選出對(duì)當(dāng)前任務(wù)目標(biāo)更關(guān)鍵的信息。
如圖2 所示,SA‐Unet 編碼部分由卷積模塊、池化模塊、階段輸入模塊和特征融合模塊組成。在網(wǎng)絡(luò)的輸入端輸入一張128×128×3 的RGB 彩色圖像,并生成3 種小尺寸輸入圖像。4 種不同尺寸的輸入圖像通過(guò)卷積模塊提取特征,并與上一層經(jīng)過(guò)池化的特征圖進(jìn)行通道上的融合。融合后的特征圖分為兩路,一路進(jìn)行池化下采樣操作,另一路與解碼對(duì)應(yīng)部分進(jìn)行通道融合。SA‐Unet 解碼部分由卷積模塊、上采樣模塊、階段注意力模塊和特征融合模塊組成。特征圖經(jīng)過(guò)上采樣模塊,圖像尺寸增大,并與編碼對(duì)應(yīng)部分進(jìn)行通道融合。通過(guò)階段注意力模塊,關(guān)注重點(diǎn)區(qū)域,抑制無(wú)效特征,最后進(jìn)入卷積模塊進(jìn)行特征還原。
圖2 SA‐Unet 模型Fig.2 Model of SA‐Unet
編碼階段進(jìn)行4 次池化操作,極大減少參數(shù)量,加速損失的收斂。池化操作損失空間位置信息,某種程度上實(shí)現(xiàn)了一定的平移不變性,但是損失了圖像部件之間精確的空間相對(duì)關(guān)系。另外,卷積神經(jīng)網(wǎng)絡(luò)(Convolutional neural network,CNN)的內(nèi)部表示本身并沒(méi)有很好地考慮低層部件和高層概念的空間層次關(guān)系。
對(duì)于電力線(xiàn)提取任務(wù)來(lái)說(shuō),除電力線(xiàn)本身特征外,輔助物和上下文信息是成功提取電力線(xiàn)的關(guān)鍵。然而部件間的空間相對(duì)關(guān)系和低層部件與高層概念間的空間層次關(guān)系,在某種程度上正是電力線(xiàn)提取任務(wù)中的輔助物和上下文信息,這些特征有助于電力線(xiàn)的提取。因此本文提出階段輸入融合策略,如圖2 編碼階段所示:首先輸入一幅圖像,在經(jīng)過(guò)卷積塊的特征提取后進(jìn)行4 次池化操作,并在第2 層至第4 層增加原始圖像的多尺度輸入,每一層的多尺度輸入與上一層經(jīng)過(guò)卷積和池化操作后的特征圖進(jìn)行特征融合,最終完成特征提取。
注意力機(jī)制[17]是人類(lèi)視覺(jué)所特有的大腦信號(hào)處理機(jī)制。人類(lèi)視覺(jué)通過(guò)快速掃描全局圖像,獲得需要重點(diǎn)關(guān)注的目標(biāo)區(qū)域,也就是一般所說(shuō)的注意力焦點(diǎn),而后對(duì)這一區(qū)域投入更多注意力資源,以獲取更多所需要關(guān)注目標(biāo)的細(xì)節(jié)信息,而抑制其他無(wú)用信息。這是人類(lèi)利用有限的注意力資源從大量信息中快速篩選出高價(jià)值信息的手段,是人類(lèi)在長(zhǎng)期進(jìn)化中形成的一種生存機(jī)制,人類(lèi)視覺(jué)注意力機(jī)制極大地提高了視覺(jué)信息處理的效率與準(zhǔn)確性。如圖3 所示,本文改進(jìn)的注意力模塊由空間注意力機(jī)制、通道注意力機(jī)制和金字塔注意力機(jī)制組成,通過(guò)對(duì)特征圖進(jìn)行加權(quán)處理達(dá)到增強(qiáng)目標(biāo)特征并且抑制背景的目的。
圖3 階段注意力模塊Fig.3 Stage attention module
卷積操作通過(guò)通道和空間信息的混合來(lái)提取特征,通過(guò)本文提出的階段注意力模塊強(qiáng)調(diào)通道維度和空間維度的有價(jià)值特征,且不同位置設(shè)置不同的特征關(guān)注度。在得到中間特征映射圖的情況下,階段注意力模塊會(huì)進(jìn)行3 個(gè)階段的注意力映射,依次為通道注意力映射、空間注意力映射和金字塔注意力映射,然后將注意力映射相乘到輸入特征映射中進(jìn)行自適應(yīng)特征細(xì)化。模塊自動(dòng)學(xué)習(xí)信息的重要程度,設(shè)置注意力權(quán)重,有效地幫助特征信息在網(wǎng)絡(luò)模型中進(jìn)行傳輸。
1.3.1 通道注意力
不同通道的特征圖代表不同類(lèi)型的圖像特征,如形狀,顏色和紋理等。同時(shí)不同類(lèi)型的圖像特征包含差異性信息,具有不同的貢獻(xiàn)程度。通道注意力對(duì)不同的通道給定不同的關(guān)注度,關(guān)注有價(jià)值的通道信息,抑制其他通道的無(wú)用信息。因此設(shè)置通道注意力權(quán)重,關(guān)注重要通道信息,如圖4 所示。
圖4 通道注意力模塊Fig.4 Channel attention module
將不同通道上的特征圖F分別進(jìn)行全局最大池化和全局平均池化,得到最大池化向量VM和平均池化向量VA。然后將兩個(gè)向量輸入到權(quán)值共享的感知機(jī)進(jìn)行運(yùn)算,輸出兩個(gè)處理過(guò)的空間注意力向量VMN和VAN。接著對(duì)兩個(gè)空間注意力向量進(jìn)行逐像素相加,并送入Sigmoid 激活函數(shù),得到新的空間注意力向量Mc(F)。最后將新得到的空間注意力向量與原特征圖相乘,獲得最終的特征圖FC。
計(jì)算公式為
式中:AvgPool( ?) 為全局平均池化;MaxPool( ?) 為全局最大池化;MLP( ?) 為感知機(jī);σ( ?) 為Sigmoid 激活函數(shù)。
1.3.2 空間注意力
根據(jù)人類(lèi)視覺(jué)系統(tǒng)的特點(diǎn),人類(lèi)觀(guān)察事物首先會(huì)注意到感興趣的區(qū)域,忽略空間中其他區(qū)域??臻g注意力機(jī)制從人類(lèi)的視覺(jué)系統(tǒng)中得到啟發(fā),將特征圖的不同部分配以不同的權(quán)重,關(guān)注一幅圖像中的重要目標(biāo)區(qū)域。本文提出的空間注意力模塊,如圖5 所示。
圖5 空間注意力模塊Fig.5 Spatial attention module
將經(jīng)過(guò)通道注意力生成的特征圖FC輸入至空間注意力模塊,分別做基于通道的全局最大池化和全局平均池化,得到最大池化特征圖和平均池化特征圖,并將兩個(gè)特征圖在通道上進(jìn)行拼接。然后通過(guò)卷積操作將特征圖的通道降為1 得到FS,再經(jīng)過(guò)Sigmoid 激活函數(shù)生成空間注意力特征。最后將輸入特征與空間注意力特征進(jìn)行乘法操作,得到最終的特征圖。
計(jì)算公式為
式中:AvgPool( ?)為全局平均池化;MaxPool( ?)為全局最大池化;f( ?)為卷積操作;σ( ?)為Sigmoid 激活函數(shù)。
1.3.3 金字塔注意力
視覺(jué)系統(tǒng)在處理任務(wù)時(shí)會(huì)綜合考慮多方面信息,比如在使用顯微鏡觀(guān)察細(xì)胞時(shí),不同的放大倍數(shù)觀(guān)測(cè)到的細(xì)胞特征完全不同。金字塔注意力依據(jù)人類(lèi)視覺(jué)處理機(jī)制,通過(guò)提取圖像不同感受野的特征圖,獲取不同感受野下的圖像信息,將這些信息融合,獲得最后的權(quán)重系數(shù)[18]。本文提出的金字塔注意力模塊如圖6 所示。
圖6 金字塔注意力模塊Fig.6 Pyramid attention module
計(jì)算公式為
式中:f1( ?)表示卷積核大小為1 的卷積操作;f3( ?)表示卷積核大小為3 的卷積操作;f5( ?)表示卷積核大小為5 的卷積操作;σ( ?)為Sigmoid 激活函數(shù)。
實(shí)驗(yàn)數(shù)據(jù)采用公開(kāi)的Powerline Image Dataset 數(shù)據(jù)集,本數(shù)據(jù)集由土耳其電力傳輸公司(TEIAS)從實(shí)際飛機(jī)上獲取視頻畫(huà)面,并對(duì)視頻幀進(jìn)行徹底的檢查,分離、捕捉和清理。本數(shù)據(jù)集共采集了4 000張紅外圖像和4 000 張可見(jiàn)光圖像,并縮放到128 像素×128 像素。紅外文件夾包含2 000 張帶有電力線(xiàn)的紅外圖片和2 000 張沒(méi)有電力線(xiàn)的紅外圖片??梢?jiàn)光文件夾包含2 000 張含有電力線(xiàn)的可見(jiàn)光圖像和2 000 張不包含電力線(xiàn)的可見(jiàn)光圖像。視頻拍攝于土耳其21 個(gè)不同地區(qū)的不同季節(jié)。由于不同的背景,不同的溫度和天氣條件,以及不同的照明條件,所獲得的正集包含極其困難的場(chǎng)景,其中低對(duì)比度導(dǎo)致電力線(xiàn)接近不可見(jiàn)。原始視頻的紅外分辨率為576 像素×325 像素,可見(jiàn)光為全高清。然而,捕獲的幀被縮小到更小的尺寸128 像素×128 像素。
在包含電力線(xiàn)的2 000 張可見(jiàn)光圖像中,低對(duì)比度導(dǎo)致部分圖像的電力線(xiàn)接近不可見(jiàn),無(wú)法進(jìn)行數(shù)據(jù)的像素級(jí)標(biāo)注,故將其剔除。最終共獲得1 974 張包含電力線(xiàn)的可見(jiàn)光圖像,包括訓(xùn)練數(shù)據(jù)1 874 張,測(cè)試數(shù)據(jù)100 張。
關(guān)于數(shù)據(jù)的標(biāo)注工作,共邀請(qǐng)了6 名具有資深經(jīng)驗(yàn)的數(shù)據(jù)標(biāo)注師進(jìn)行人工標(biāo)注。實(shí)驗(yàn)使用數(shù)據(jù)標(biāo)注軟件Labelme 對(duì)可見(jiàn)光圖像進(jìn)行數(shù)據(jù)標(biāo)注,生成json 文件,文件中包含像素點(diǎn)的位置信息以及所屬類(lèi)別。最終通過(guò)Python 程序?qū)son 文件轉(zhuǎn)換為標(biāo)注圖(Ground truth,GT)。
本文引入FCN8s[19],F(xiàn)CN16s[19],F(xiàn)CN32s[19],Unet[15]和SegNet[20]5 種模型與本文提出的SA‐Unet在Powerline Image Dataset 圖像數(shù)據(jù)集上進(jìn)行比較,以驗(yàn)證模型的有效性。SA‐Unet 利用模型減枝即丟棄不代表模型性能的權(quán)重加速模型,并通過(guò)Fusing batch normalization and convolution 和多線(xiàn)程等策略提高算法效率。模型采用BCE With LogitsLoss 損失函數(shù),Adam[21]優(yōu)化函數(shù),學(xué)習(xí)率(Learning rate)設(shè)置為2e - 4,循環(huán)周期(epoch)設(shè)置為50。其余的實(shí)驗(yàn)配置:Windows10 操作系統(tǒng),Pytorch1.7.0 深度學(xué)習(xí)框架,CPU:Intel(R)Core(TM)i9‐10900k CPU @ 3.70 GHz,GPU:顯存為8 GB 的NVIDIA Ge‐Force RTX 2070。
為衡量SA‐Unet 模型預(yù)測(cè)能力的好壞,本文使用語(yǔ)義分割中最常用的平均交并比(Mean intersec‐tion over union,MIoU)和像素精度(Pixel accuracy,PA)作為度量標(biāo)準(zhǔn)。
MIoU 是衡量圖像分割精度的重要指標(biāo),即在每個(gè)類(lèi)別上計(jì)算兩個(gè)集合的交集與并集之比,最后再求取整體的平均值。MIoU 的值越大,表示模型的預(yù)測(cè)能力越好,分割精度越高。
計(jì)算公式為
式中:n表示類(lèi)別數(shù);pii表示像素實(shí)值為i且預(yù)測(cè)結(jié)果為i的數(shù)目;pij表示像素實(shí)值為i且預(yù)測(cè)結(jié)果為j的數(shù)目;pji表示像素實(shí)值為j且預(yù)測(cè)結(jié)果為i的數(shù)目。
像素精度即分類(lèi)正確的像素占總像素的比例,計(jì)算公式為
式中:n表示類(lèi)別數(shù);pii表示像素實(shí)值為i且預(yù)測(cè)結(jié)果為i的數(shù)目;pij表示像素實(shí)值為i且預(yù)測(cè)結(jié)果為j的數(shù)目。
在消融實(shí)驗(yàn)中,通過(guò)移除階段輸入融合模塊得到A‐Unet,通過(guò)A‐Unet 與SA‐Unet 的效果對(duì)比,查看使用階段輸入融合策略帶來(lái)的好處。類(lèi)似地,從SA‐Unet 中刪除階段輸入融合模塊和階段注意力模塊得到Unet,通過(guò)A‐Unet 與Unet 的效果對(duì)比,以查看階段注意力模塊在網(wǎng)絡(luò)執(zhí)行過(guò)程中的作用。實(shí)驗(yàn)結(jié)果如表1 所示,其中Time 表示推理一張圖片所用的時(shí)間。
表1 消融實(shí)驗(yàn)結(jié)果Table 1 Results of ablation experiment
橫向來(lái)看,SA‐Unet 比A‐Unet 在評(píng)價(jià)指標(biāo)PA 上提高0.13%,在評(píng)價(jià)指標(biāo)MIoU 上提高1.25%,顯然階段輸入融合策略可以明顯提高電力線(xiàn)的分割精度。A‐Unet 和Unet 相比,PA 指標(biāo)降低0.05%,而MIoU 指標(biāo)提高0.76%,表明階段注意力機(jī)制犧牲微乎其微的PA 指數(shù)換取MIoU 指數(shù)的明顯提升。經(jīng)過(guò)優(yōu)化的SA‐Unet 推理一張圖片用時(shí)0.253 1 s,低于A‐Unet 和Unet 模型,證實(shí)了SA‐Unet 使用加速策略的有效性。
縱向來(lái)看,Unet、A‐Unet 和SA‐Unet 在評(píng)價(jià)基準(zhǔn)PA 上均取得較高分?jǐn)?shù),而且三者相差不大。因?yàn)閷?duì)于航空電力線(xiàn)圖像而言,電力線(xiàn)在整幅圖像中占比較小,屬于小目標(biāo)和弱特征物體。而評(píng)價(jià)指標(biāo)PA描述的是分類(lèi)正確的像素占總像素的比例,對(duì)于電力線(xiàn)占比極小的航空電力線(xiàn)圖像而言,電力線(xiàn)分類(lèi)正確與否對(duì)PA 值的貢獻(xiàn)不大,故3 種模型均取得較高分?jǐn)?shù)且相差不大。
本文給出包括SA‐Unet 在內(nèi)的6 種模型在數(shù)據(jù)集部分測(cè)試圖像中的分割預(yù)測(cè)效果,見(jiàn)圖7。Power‐line Image Dataset 數(shù)據(jù)集大致可以分為城市電力線(xiàn)場(chǎng)景和鄉(xiāng)村電力線(xiàn)場(chǎng)景,本文選取數(shù)據(jù)集中背景復(fù)雜、電力線(xiàn)提取難度高的4 張電力線(xiàn)圖像進(jìn)行展示,其中包括1 張城市電力線(xiàn)場(chǎng)景圖和3 張鄉(xiāng)村電力線(xiàn)場(chǎng)景圖。鄉(xiāng)村電力線(xiàn)場(chǎng)景分別選取鄉(xiāng)村森林電力線(xiàn)場(chǎng)景、鄉(xiāng)村田地電力線(xiàn)場(chǎng)景和鄉(xiāng)村公路電力線(xiàn)場(chǎng)景,基本覆蓋數(shù)據(jù)集所有的場(chǎng)景類(lèi)型。
圖7(a)展示4 張不同場(chǎng)景和難易程度的航空電力線(xiàn)圖像。第1 幅圖像為樹(shù)林、電力線(xiàn)桿塔和電力線(xiàn)相互交織的場(chǎng)景,第2 幅和第3 幅圖像為鄉(xiāng)村田地的電力線(xiàn)場(chǎng)景,其中第3 幅圖像中混入鄉(xiāng)間公路,第4 幅圖像為高樓林立的城市電力線(xiàn)場(chǎng)景。圖7(b)展示4 種不同場(chǎng)景航空電力線(xiàn)圖像的人工標(biāo)注。由圖7(c)可以看出,F(xiàn)CN32s 由于直接將提取到的特征圖進(jìn)行雙線(xiàn)性上采樣至輸入圖像尺寸,故僅能提取特征明顯的電力線(xiàn),在第1 幅、第3 幅和第4 幅圖像中存在電力線(xiàn)漏檢,在第2 幅圖像中則出現(xiàn)了電力線(xiàn)錯(cuò)檢。如圖7(d)和圖7(e)所示,F(xiàn)CN16s 和FCN8s 最終輸出前融合淺層特征,較FCN32s 圖像分割精度提高。但FCN16s 和FCN8s 在第1 幅圖像中均出現(xiàn)電力線(xiàn)斷續(xù)的問(wèn)題,在第2 幅圖像中則出現(xiàn)電力線(xiàn)過(guò)分割問(wèn)題。由此可見(jiàn),F(xiàn)CN 系列模型對(duì)小目標(biāo)物體的分割并不理想。如圖7(f)所示,Segnet 在第2 幅和第4 幅圖像中取得了較好的分割效果,這是由于Segnet 采用編碼‐解碼結(jié)構(gòu)并且利用最大池化改善了邊界劃分的結(jié)果。由于光照等因素的影響,第1 幅和第3 幅圖像中的部分電力線(xiàn)特征較弱,幾乎不可見(jiàn)。Segnet 在第1 幅圖像中提取到的電力線(xiàn)存在斷續(xù),第3 幅圖像中漏檢了弱特征電力線(xiàn)。如圖7(g)所示,Unet 在第1 幅和第2 幅圖像中取得了較好的分割效果,同樣在第3 幅圖像中出現(xiàn)漏檢,并且在第4 幅圖像中將少量的建筑物邊緣視為電力線(xiàn)提取出來(lái)。如圖7(h)所示,SA‐Unet 在第3 幅圖像的電力線(xiàn)提取中存在斷續(xù),這是由本數(shù)據(jù)集可見(jiàn)光圖像低對(duì)比度和光照導(dǎo)致電力線(xiàn)不可見(jiàn)導(dǎo)致的。SA‐Unet 整體取得了最好的分割效果,能較準(zhǔn)確地區(qū)分出前景目標(biāo)和背景區(qū)域,這得益于模型的多階段輸入融合策略和階段注意力機(jī)制。
圖7 電力線(xiàn)分割預(yù)測(cè)效果Fig.7 Prediction effect of power line segmentation
表2 給出包括SA‐Unet 在內(nèi)的6 種模型在100 張測(cè)試圖像中的實(shí)驗(yàn)性能對(duì)比,其中Time 表示推理一張圖片所用的時(shí)間。橫向來(lái)看,F(xiàn)CN32s 和其他5 個(gè)網(wǎng)絡(luò)模型相比,在兩個(gè)指標(biāo)上的性能表現(xiàn)最差,表明FCN32s 模型在數(shù)據(jù)集上,經(jīng)過(guò)模型預(yù)測(cè)的像素分類(lèi)準(zhǔn)確度較低,電力線(xiàn)預(yù)測(cè)區(qū)域和電力線(xiàn)標(biāo)注區(qū)域之間的重合區(qū)域較少,在很多情況下不能正確分割出電力線(xiàn)。FCN16s 和FCN8s 明顯優(yōu)于FCN32s,但與Segnet、Unet 和SA‐Unet 相比,差距仍很明顯。Segnet 模型和Unet 模型整體效果較好,Unet 模型通過(guò)犧牲0.05% 的PA 值換取了MIoU 指數(shù)1.99% 的提升。SA‐Unet 模型在PA 和MIoU 兩項(xiàng)指標(biāo)中表現(xiàn)最好,充分表明利用階段輸入融合策略并嵌入階段注意力模塊的SA‐Unet 模型的有效性。經(jīng)過(guò)優(yōu)化的SA‐Unet 推理一張圖片用時(shí)0.253 1 s,低于Unet、Segnet 和FCN32s,略高于FCN16s 和FCN8s,平衡了算法的效率和精度,基本滿(mǎn)足低速條件下的實(shí)時(shí)性需求。
表2 對(duì)比實(shí)驗(yàn)結(jié)果Table 2 Results of comparative experiment
縱向來(lái)看,SA‐Unet 模型在評(píng)價(jià)指標(biāo)PA 和評(píng)價(jià)指標(biāo)MIoU 上表現(xiàn)最好,分別取得97.57% 和68.37% 的優(yōu)異成績(jī),比性能第2 的Unet 模型分別提高了0.08% 和2.01%,在MIoU 指標(biāo)上有顯著性提升。
本文提出一種基于階段注意力機(jī)制的電力線(xiàn)提取算法。在編碼階段,根據(jù)航空影像中電力線(xiàn)圖像特點(diǎn),提出階段輸入融合策略以減少空間位置信息丟失。在解碼階段,嵌入改進(jìn)的階段注意力模塊,利用有限的注意力資源從大量信息中快速篩選出高價(jià)值信息。此外,對(duì)Powerline Image Dataset 數(shù)據(jù)集進(jìn)行整理和標(biāo)注,并將本文提出的算法在數(shù)據(jù)集上進(jìn)行測(cè)試。通過(guò)消融實(shí)驗(yàn)證實(shí)了本文提出的階段輸入融合策略與階段注意力機(jī)制的有效性,并與5 種語(yǔ)義分割算法進(jìn)行比較,在PA 指標(biāo)和MIoU 指標(biāo)上均取得最優(yōu)結(jié)果。但是電力線(xiàn)在航空影像中屬于小目標(biāo)物體,所占像素極少,能夠提取到的特征有限,并且由于環(huán)境和光照等因素的影響,部分電力線(xiàn)不可見(jiàn)。因此,基于單一數(shù)據(jù)源的語(yǔ)義分割模型普遍存在分割精度不高甚至部分電力線(xiàn)無(wú)法提取等問(wèn)題。接下來(lái)將探索多種數(shù)據(jù)源融合的電力線(xiàn)提取算法,利用多模態(tài)信息提高算法在小目標(biāo)和弱特征物體上的分割精度。