李弘宸,楊忠,姜遇紅,韓家明,賴尚祥,張秋雁
1. 南京航空航天大學(xué) 自動(dòng)化學(xué)院,江蘇 南京 211106
2. 南京航空航天大學(xué) 無(wú)人機(jī)研究所,江蘇 南京 211106
3. 貴州電網(wǎng)有限責(zé)任公司,貴州 貴陽(yáng) 550000
隨著人類社會(huì)的發(fā)展,電力成為無(wú)法替代的重要能源之一。為了實(shí)現(xiàn)大面積的電力輸送以滿足電力需求,輸電線路廣泛地分布在各個(gè)地區(qū)和不同環(huán)境中。因此,輸電線路的安全正常運(yùn)作是保證電力穩(wěn)定可靠輸送的必要條件[1]。然而,由于空氣污染、自然災(zāi)害以及周圍植被等客觀因素的影響,輸電線路往往會(huì)出現(xiàn)故障,例如絕緣子爆裂、桿塔倒塌等,這些故障會(huì)嚴(yán)重降低電力輸送效率[2]。為了解決這一問題,電力部門需要定期地利用不同的電力線巡檢方法對(duì)輸電線路的健康狀況進(jìn)行評(píng)估。由于輸電線路分布廣泛,人工巡檢難以適應(yīng)復(fù)雜危險(xiǎn)的地形,并且該方法十分耗時(shí)[3]。所以,目前常用的巡檢方法是利用搭載相機(jī)的無(wú)人機(jī)進(jìn)行無(wú)人巡檢。利用航拍圖像中提取到的信息對(duì)輸電線路部件如絕緣子和桿塔等關(guān)鍵部件進(jìn)行健康評(píng)估。然而,無(wú)人機(jī)巡檢會(huì)采集大量無(wú)用數(shù)據(jù),在這些數(shù)據(jù)中不含有輸電線路信息。如果無(wú)用數(shù)據(jù)和有效數(shù)據(jù)同時(shí)被傳輸?shù)降孛嬲?,必將?dǎo)致工作量激增,嚴(yán)重影響輸電線路巡檢效率。為了解決這一問題,本文采用圖像分類算法對(duì)輸電線路航拍圖像進(jìn)行分類,去除無(wú)用數(shù)據(jù)并保留有效數(shù)據(jù)。該方法可以有效地提高輸電線路巡檢效率并提高輸電線路運(yùn)行的可靠性。隨著深度學(xué)習(xí)和圖形處理器的發(fā)展,卷積神經(jīng)網(wǎng)絡(luò)被廣泛地應(yīng)用在不同的圖像處理任務(wù)中,如圖像分類、目標(biāo)檢測(cè)以及語(yǔ)義分割等。不僅如此,卷積神經(jīng)網(wǎng)絡(luò)在這些領(lǐng)域中均取得了優(yōu)異的性能[4]。傳統(tǒng)的機(jī)器學(xué)習(xí)算法需要采用圖像特征提取算法如尺度不變特征變換算子 (scale-invariant feature transform, SIFT)[5]、局部二值模式算子(local binary pattern, LBP)[6]以及方向梯度直方圖算子(histogram of oriented gradient, HOG)[7],預(yù)先提取圖像特征。然而,通過這些算法提取的圖像特征和圖像高級(jí)語(yǔ)義之間存在較大的偏差,所以傳統(tǒng)的機(jī)器學(xué)習(xí)算法難以滿足復(fù)雜環(huán)境背景下的圖像分類任務(wù)[8]。卷積神經(jīng)網(wǎng)絡(luò)利用卷積層、池化層以及全連接層提取圖像的特征信息。隨著網(wǎng)絡(luò)深度增大,卷積神經(jīng)網(wǎng)絡(luò)可以提取圖像的高級(jí)語(yǔ)義。因此,卷積神經(jīng)網(wǎng)絡(luò)可以擺脫人工圖像特征提取算法的限制,在不同圖像處理任務(wù)中均取得優(yōu)異的性能[9]。
1998 年,LeCun 等[10]提出了卷積神經(jīng)網(wǎng)絡(luò)LeNet,并將其應(yīng)用于書寫字符的識(shí)別中。然而,受限于當(dāng)時(shí)圖像處理器的性能,LeNet 并沒有取得優(yōu)異的性能,所以卷積神經(jīng)網(wǎng)絡(luò)并沒有得到學(xué)術(shù)界的廣 泛 關(guān) 注。 2012 年, Krizhevsky 等[11]提 出AlexNet 并以巨大的優(yōu)勢(shì)獲得了ILSVRC 2012 競(jìng)賽的冠軍。因此,卷積神經(jīng)網(wǎng)絡(luò)引起巨大的關(guān)注。隨后,越來越多的學(xué)者提出性能更加優(yōu)異的卷積神經(jīng)網(wǎng)絡(luò),如VGGNet[12]以及GooLeNet[13]。隨著卷積神經(jīng)網(wǎng)絡(luò)層數(shù)的增加,訓(xùn)練集精確度會(huì)下降,這種現(xiàn)象不是由過擬合導(dǎo)致的。經(jīng)分析,過深的卷積神經(jīng)網(wǎng)絡(luò)會(huì)出現(xiàn)梯度彌散現(xiàn)象。為了解決這一問題,何凱明等[14]于2015 年提出了ResNet,并一舉奪得ILSVRC 2015 競(jìng)賽冠軍。
卷積神經(jīng)網(wǎng)絡(luò)由于其優(yōu)異的性能,被廣泛應(yīng)用于多種實(shí)際應(yīng)用中。在此之前,已有多名學(xué)者在輸電線路航拍圖像分類問題中進(jìn)行深入研究。陳科峻等[15]提出了一種基于循環(huán)神經(jīng)網(wǎng)絡(luò)的航空?qǐng)D像分類算法,首先,采用超像素分割算法獲取圖像地層特征;而后,通過交叉驗(yàn)證確定圖像最佳尺度;最后,采用改進(jìn)的雙向長(zhǎng)短期記憶網(wǎng)絡(luò)對(duì)航拍圖像進(jìn)行分類。
李厚強(qiáng)等[16]提出了一種基于分形理論的航拍圖像分類算法。首先,將航拍圖像的顏色格式由RGB 轉(zhuǎn)換為HSI;然后,根據(jù)顏色特征計(jì)算基于分形的圖像紋理特征;最后,采用BP 神經(jīng)網(wǎng)絡(luò)作為分類器對(duì)航拍圖像進(jìn)行分類。
張秋雁等[17]提出了一種基于VGG-16 網(wǎng)絡(luò)的輸電線路航拍圖像分類算法。首先,利用圖像增強(qiáng)對(duì)原始數(shù)據(jù)及進(jìn)行擴(kuò)充,以提高算法魯棒性;然后,利用多卷積層組合代替VGG-16 中的全連接層;最后,利用優(yōu)化網(wǎng)絡(luò)對(duì)輸電線路航拍圖像進(jìn)行分類。
本文在ResNet 的基礎(chǔ)上進(jìn)行改進(jìn),提出了一種優(yōu)化ResNet 結(jié)構(gòu),并利用收集到的輸電線路圖像數(shù)據(jù)集訓(xùn)練該網(wǎng)絡(luò)。實(shí)驗(yàn)結(jié)果表明,在輸電線路分類數(shù)據(jù)集上,優(yōu)化ResNet 網(wǎng)絡(luò)對(duì)比傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)具有更高的分類精確度和更低的內(nèi)存占用。
大量實(shí)驗(yàn)結(jié)果表明,加深卷積神經(jīng)網(wǎng)絡(luò)可以提高分類精確度。然而,過深的卷積神經(jīng)網(wǎng)絡(luò)會(huì)出現(xiàn)梯度彌散現(xiàn)象。當(dāng)訓(xùn)練集精確度達(dá)到飽和后會(huì)急劇下降,因此通過簡(jiǎn)單堆疊卷積層而構(gòu)成的網(wǎng)絡(luò),其深度難以超過20 層。ResNet 的出現(xiàn)在一定程度上打破了卷積神經(jīng)網(wǎng)絡(luò)的層數(shù)限制。綜合考慮內(nèi)存占用以及分類性能,本文采用ResNet50作為骨干網(wǎng)絡(luò),并對(duì)其進(jìn)行優(yōu)化。ResNet50 具體結(jié)構(gòu)如表1 所示。
表1 ResNet50 結(jié)構(gòu)
ResNet 由殘差網(wǎng)絡(luò)單元組成,其核心在于恒等映射。式(1)為殘差單元的輸入輸出關(guān)系:
式中:H(x)為殘差單元的輸出;x為殘差單元的輸入;F(·)為卷積以及激活函數(shù)等操作。
恒等映射不引入網(wǎng)絡(luò)參數(shù),相當(dāng)于淺層網(wǎng)絡(luò)。如果網(wǎng)絡(luò)在訓(xùn)練過程中出現(xiàn)由于層數(shù)過深而導(dǎo)致精確度下降的情況,可令F(x)趨近于0,此時(shí)殘差單元可近似于恒等映射,網(wǎng)絡(luò)對(duì)輸入x的變化更加敏感。因此,殘差模塊可以有效地抑制梯度彌散現(xiàn)象。殘差單元結(jié)構(gòu)如圖1 所示。
圖1 殘差單元結(jié)構(gòu)
為了增強(qiáng)網(wǎng)絡(luò)的分類性能,本文在原有殘差單元的基礎(chǔ)上提出了一種優(yōu)化殘差模塊,其結(jié)構(gòu)圖如圖2 所示。
圖2 優(yōu)化殘差單元結(jié)構(gòu)示意
我們將分組卷積引入殘差單元中,特征圖通過優(yōu)化殘差單元的第一個(gè)卷積核為1×1 的卷積層后,其通道維被分為4 等份。設(shè)輸入特征圖的尺寸為n×n×d,則xi的尺寸為n×n×(d/4)。為了增強(qiáng)網(wǎng)絡(luò)的信息流動(dòng),令該部分的輸入xi與前一部分的輸出yi-1相加,并使其經(jīng)過卷積操作而得到該部分的輸出yi。為了減少網(wǎng)絡(luò)參數(shù),建立了x1與y1的恒等映射,并利用卷積核為3×1 和1×3 的卷積層代替原有的卷積核為3×3 的卷積層,xi與yi的關(guān)系為
式中:xi為第i個(gè)輸入;yi為第i個(gè)輸出;Ki(·)為3×1 和1×3 的卷積以及激活函數(shù)等操作。
對(duì)比圖1 和圖2 可知,優(yōu)化殘差模塊與原有殘差模塊的區(qū)別在于,優(yōu)化殘差模塊利用分組卷積代替原有的3×3 卷積層。設(shè)一個(gè)尺寸為n×n×d的特征圖經(jīng)過3×3 的卷積層和本文提出的分組卷積結(jié)構(gòu),其參數(shù)式為
式中:p3×3為3×3 卷積層的參數(shù)量,pgroup為本文提出的分組卷積結(jié)構(gòu)的參數(shù)量。
通過觀察式(2)可知,本文提出的分組卷積結(jié)構(gòu)可大幅度減少網(wǎng)絡(luò)參數(shù)量,降低模型內(nèi)存占用,使網(wǎng)絡(luò)更適用于部署至如無(wú)人機(jī)嵌入式平臺(tái)中。
利用開源深度學(xué)習(xí)庫(kù)Keras 實(shí)現(xiàn)本文提出的優(yōu)化ResNet50 網(wǎng)絡(luò)。為了證明其有效性,控制不同網(wǎng)絡(luò)在訓(xùn)練時(shí)超參數(shù)相同。本文所有網(wǎng)絡(luò)均采用隨機(jī)梯度下降法優(yōu)化算法進(jìn)行訓(xùn)練。由于本文涉及到的航拍圖像分類任務(wù)中,僅包含2 類樣本,所以輸出層的激活函數(shù)以及損失函數(shù)分別為sigmoid 以及二元交叉熵?fù)p失函數(shù)(binary crossentropy)。依據(jù)文獻(xiàn)[18]的訓(xùn)練參數(shù)設(shè)置,批尺寸(batch size)、學(xué)習(xí)率(learning rate)、回合(epoch)以及權(quán)重衰減率(weight decay)分別設(shè)被置為30、0.01、50 以及0.000 1。
本文采用的數(shù)據(jù)集是由無(wú)人機(jī)巡檢過程中相機(jī)所捕捉到的航拍圖像組成。每張圖片的大小為224×224。航拍圖像被分為正負(fù)樣本,其中正樣本包含輸電線路關(guān)鍵部件信息,而負(fù)樣本不包含。正負(fù)樣本示意圖如圖3 所示。為了提高算法的魯棒性,利用數(shù)據(jù)增強(qiáng)方法擴(kuò)充數(shù)據(jù)集。經(jīng)過水平鏡像、垂直鏡像、改變亮度以及添加噪聲后,總數(shù)據(jù)量變?yōu)樵瓉淼? 倍。
圖3 樣本示意
本文采用的輸電線路航拍圖像數(shù)據(jù)集包含24 000 張輸電線路航拍圖像,其中正負(fù)樣本比例為1∶1。該數(shù)據(jù)集被分為訓(xùn)練集、驗(yàn)證集以及測(cè)試集,其包含的航拍圖像數(shù)量比例為3∶1∶1。為了使訓(xùn)練得到的權(quán)重能夠在測(cè)試集上達(dá)到良好的分類效果,保存在驗(yàn)證集精確度最高的權(quán)重,并利用該權(quán)重預(yù)測(cè)測(cè)試集數(shù)據(jù)類別。
根據(jù)參考文獻(xiàn)[19]所述,采用測(cè)試集精確度(Paccuracy)與類性能指標(biāo)(F1-measure)共同衡量卷積神經(jīng)網(wǎng)絡(luò)的分類性能;真陽(yáng)性(PTP)、真陰性(PTN)、偽陽(yáng)性(PFP)以及偽陰性(PFN)為分類任務(wù)的重要指標(biāo)。得到準(zhǔn)確率(Pprecision)以及召回率(Precall)的計(jì)算公式分別為
根據(jù)以上分析可知,Paccuracy與分類性能指標(biāo)F1-measure可通過式(3)計(jì)算得到
ResNet50 以及優(yōu)化ResNet50 的Pccuracy和F1-measure如表2 所示。通過觀察表2 數(shù)據(jù)可以得出如下結(jié)論:對(duì)比原始網(wǎng)絡(luò),優(yōu)化ResNet50 取得了更高的分類精度和F1-measure。因此,本文提出的優(yōu)化殘差單元可以提升分類網(wǎng)絡(luò)在輸電線路航拍數(shù)據(jù)集上的分類性能。圖4 展示了ResNet50 以及優(yōu)化ResNet50 的混淆矩陣。
表2 ResNet50 優(yōu)化前后分類性能對(duì)比
圖4 混淆矩陣
由于本文提出的網(wǎng)絡(luò)需要在無(wú)人機(jī)系統(tǒng)上運(yùn)行,因此,除了分類性能,網(wǎng)絡(luò)的實(shí)時(shí)性同樣需要實(shí)驗(yàn)驗(yàn)證。ResNet50 以及優(yōu)化ResNet50 的內(nèi)存占用和平均運(yùn)行時(shí)間如表3 所示。通過觀察表3 數(shù)據(jù)可以得出如下結(jié)論:1)對(duì)比原始網(wǎng)絡(luò),優(yōu)化ResNet50 網(wǎng)絡(luò)占用內(nèi)存更小,因此該網(wǎng)絡(luò)更適合部署至無(wú)人機(jī)系統(tǒng)中;2)雖然優(yōu)化ResNet50 網(wǎng)絡(luò)的平均運(yùn)行時(shí)間比ResNet50 更長(zhǎng),但是其處理速度仍然遠(yuǎn)遠(yuǎn)高于相機(jī)拍攝速度,仍可以達(dá)到實(shí)時(shí)性要求。因此,綜合考慮優(yōu)化ResNet50 網(wǎng)絡(luò)的分類性能,該網(wǎng)絡(luò)可以視為準(zhǔn)確性和實(shí)時(shí)性的折中方案。
表3 ResNet50 以及優(yōu)化ResNet50 性能比較
本文提出了一種優(yōu)化ResNet50 網(wǎng)絡(luò)結(jié)構(gòu),并將該結(jié)構(gòu)應(yīng)用于輸電線路圖像分類中。實(shí)驗(yàn)結(jié)果表明,本文提出的網(wǎng)絡(luò)比傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)具有更優(yōu)異的分類性能。在實(shí)時(shí)性方面,雖然優(yōu)化ResNet50 網(wǎng)絡(luò)的運(yùn)行速度比傳統(tǒng)神經(jīng)網(wǎng)絡(luò)略低,但是由于其更高的精確度和更小的內(nèi)存占用,可以認(rèn)為優(yōu)化ResNet50 是一種折中方案,更加適合應(yīng)用在無(wú)人機(jī)平臺(tái)。
1)與傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)相比,優(yōu)化ResNet50具有更優(yōu)異的分類性能和更低的內(nèi)存占用。
2)該網(wǎng)絡(luò)存在一些問題,由于本文僅在輸電線路場(chǎng)景分類數(shù)據(jù)集上對(duì)網(wǎng)絡(luò)進(jìn)行性能驗(yàn)證進(jìn)行性能驗(yàn)證,所以無(wú)法說明網(wǎng)絡(luò)的泛化性??梢岳么笮偷墓矓?shù)據(jù)集訓(xùn)練網(wǎng)絡(luò),并驗(yàn)證網(wǎng)絡(luò)的泛化性。
3)在輸電線路場(chǎng)景分類問題中,由于光照條件以及相機(jī)的拍攝距離、角度的變化,圖像特征會(huì)有較大的變化。為了增強(qiáng)分類算法的魯棒性,利用數(shù)據(jù)增強(qiáng)擴(kuò)充數(shù)據(jù)集十分必要。