劉 艷,黃 杰
(新疆信息產(chǎn)業(yè)有限責(zé)任公司,新疆 烏魯木齊 830011)
目前,在絕緣子故障巡檢中,依靠卷積神經(jīng)網(wǎng)絡(luò)以及大規(guī)模數(shù)據(jù)集的智能識別方法已開始投入應(yīng)用[1]。然而,基于卷積神經(jīng)網(wǎng)絡(luò)的智能識別方法數(shù)據(jù)標(biāo)注工作量較大,部分類型的絕緣子故障發(fā)生率很低,故障樣本數(shù)量少;這導(dǎo)致了樣本的不平衡。
文獻(xiàn)[2]提出了一種基于YOLOv2網(wǎng)絡(luò)的絕緣子自動(dòng)識別與缺陷診斷模型。該模型滿足了電力巡檢智能識別的精度要求,但是在目標(biāo)模型訓(xùn)練過程中運(yùn)用了大量人工標(biāo)記數(shù)據(jù)且數(shù)據(jù)不平衡,從而導(dǎo)致算法難以準(zhǔn)確識別過于密集的目標(biāo)。由此可見,僅依靠海量數(shù)據(jù)作為資源的深度模型訓(xùn)練模式,并不能很好地解決輸電線路中故障的智能檢測問題。
在機(jī)器學(xué)習(xí)算法中,自監(jiān)督學(xué)習(xí)算法不依賴于人類注釋,可通過無標(biāo)注樣本特征提取、對比與學(xué)習(xí)來獲得模型,能夠一定程度滿足智能檢測的需要。目前已有相關(guān)文獻(xiàn)對該系列方法進(jìn)行了探索。
文獻(xiàn)[3]提出了一種基于自監(jiān)督對比學(xué)習(xí)的深度神經(jīng)網(wǎng)絡(luò)方法,利用無標(biāo)記數(shù)據(jù)最大化訓(xùn)練樣本來增強(qiáng)模型的內(nèi)在魯棒性,并用實(shí)驗(yàn)方法得出“基于自監(jiān)督對比學(xué)習(xí)的深度神經(jīng)網(wǎng)絡(luò)方法生成的模型具有較強(qiáng)的穩(wěn)定性”的結(jié)論。
文獻(xiàn)[4]將“自監(jiān)督表征學(xué)習(xí)”引入海面目標(biāo)檢測領(lǐng)域,利用動(dòng)量對比自監(jiān)督表征學(xué)習(xí)算法進(jìn)行了船舶特征學(xué)習(xí),從大規(guī)模無標(biāo)簽海面目標(biāo)數(shù)據(jù)中挖掘船舶目標(biāo)特征。該方法在檢測效果上取得一定進(jìn)展,然而數(shù)據(jù)挖掘中存在樣本不均衡問題。
文獻(xiàn)[5]將自監(jiān)督深度學(xué)習(xí)技術(shù)應(yīng)用于衛(wèi)星圖像光學(xué)遙感數(shù)據(jù)檢測,其檢測精度是傳統(tǒng)自監(jiān)督學(xué)習(xí)方法的9倍,但在召回率和泛化能力方面表現(xiàn)不佳。
文獻(xiàn)[6]利用自監(jiān)督學(xué)習(xí)方法檢測多光譜圖像中的船舶目標(biāo),通過使用自監(jiān)督學(xué)習(xí)方法,學(xué)習(xí)無標(biāo)注數(shù)據(jù)特征以初始化主干網(wǎng)絡(luò)。在只有少樣本學(xué)習(xí)時(shí),該方法取得了比ImageNet預(yù)訓(xùn)練方法更好的結(jié)果;當(dāng)有足夠的訓(xùn)練數(shù)據(jù)可用時(shí),自監(jiān)督學(xué)習(xí)方法與ImageNet預(yù)訓(xùn)練表現(xiàn)相當(dāng)。
從2019年底至今,MoCo[7]系列,SimCLR[8],SimSiam[9],BYOL[10]等一系列自監(jiān)督方法快速發(fā)展,在處理無標(biāo)注數(shù)據(jù)集方面達(dá)到了有標(biāo)注數(shù)據(jù)集的效果。
以上方法,雖有效解決了智能檢測中數(shù)據(jù)短缺的問題,但在應(yīng)用于復(fù)雜的輸電線路場景時(shí),仍存在目標(biāo)識別精度低、實(shí)用性不強(qiáng)的問題。
針對以上問題,結(jié)合輸電線路故障目標(biāo)智能檢測特點(diǎn),本文以絕緣子目標(biāo)為例,提出了一種基于BYOL的多模態(tài)自監(jiān)督學(xué)習(xí)方法——通過學(xué)習(xí)多模態(tài)[11]樣本獲得目標(biāo)之間的關(guān)系,實(shí)現(xiàn)多模態(tài)目標(biāo)之間的差異性特征提??;使用2個(gè)相互學(xué)習(xí)的在線神經(jīng)網(wǎng)絡(luò)完成目標(biāo)模型的訓(xùn)練。該方法不僅解決了數(shù)據(jù)標(biāo)注問題,而且有效提高了模型識別精度與泛化性能。
在深度神經(jīng)網(wǎng)絡(luò)中鍵入自監(jiān)督學(xué)習(xí)方法,即訓(xùn)練一個(gè)模型使得相似的樣本具有相似的表示。BYOL建立在MoCo動(dòng)量網(wǎng)絡(luò)概念的基礎(chǔ)上,其添加了一個(gè)多層感知器[12]來實(shí)現(xiàn)從z預(yù)測p,而不是使用對比損失;在損失函數(shù)方面,其使用歸一化預(yù)測p和目標(biāo)z′之間的L2,loss。這個(gè)損失函數(shù)不需要負(fù)例,且對不同批量的尺寸大小、不同數(shù)據(jù)增強(qiáng)算法的適應(yīng)性強(qiáng)。
本文利用這一優(yōu)勢,以BYOL框架作為基準(zhǔn),將多模態(tài)表征后的標(biāo)準(zhǔn)化特征輸入至網(wǎng)絡(luò)中,經(jīng)過2個(gè)相互學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)完成目標(biāo)模型的訓(xùn)練,以期在提升模型精度的同時(shí),減輕制作標(biāo)注數(shù)據(jù)集的負(fù)擔(dān),解決樣本不均衡的問題。
如圖1所示,BYOL由在線網(wǎng)絡(luò)和目標(biāo)網(wǎng)絡(luò)組成。在線網(wǎng)絡(luò)由編碼器 fθ、投影器 gθ和預(yù)測器qθ構(gòu)成。使用 2 種數(shù)據(jù)增廣方式 t(·)及 t′(·)對圖像x進(jìn)行擴(kuò)增,進(jìn)而得到2種擴(kuò)增視圖網(wǎng)絡(luò)數(shù)據(jù)增強(qiáng)模塊 v以及v′。目標(biāo)網(wǎng)絡(luò)和在線網(wǎng)絡(luò)有相似的結(jié)構(gòu),唯一的不同就是其少了一個(gè)預(yù)測器,其編碼器和投影器分別用fξ和gξ表示。
圖1 BYOL原始網(wǎng)絡(luò)架構(gòu)Fig. 1 BYOL original network architecture
在線網(wǎng)絡(luò)的參數(shù) θ 用梯度下降更新,目標(biāo)網(wǎng)絡(luò)的參數(shù) ξ 由 θ的指數(shù)移動(dòng)平均來更新,即:
在線網(wǎng)絡(luò)在執(zhí)行梯度下降更新時(shí),計(jì)算 loss如式(3)(4)所示。
在單模態(tài)信息輸入中,BYOL架構(gòu)可實(shí)現(xiàn)不使用損失對比的方式而滿足對特征學(xué)習(xí)的需求;在訓(xùn)練完成后,學(xué)習(xí)到的視覺特征可以進(jìn)一步轉(zhuǎn)移到下游任務(wù),利用卷積網(wǎng)絡(luò)獲得最終模型。
實(shí)踐經(jīng)驗(yàn)表明,BYOL網(wǎng)絡(luò)框架在淺層可捕獲一般的基于視覺的邊緣、紋理等特征,在深層可捕獲與任務(wù)相關(guān)的高級特征;因此,僅傳輸前幾層的視覺特征至下游任務(wù)訓(xùn)練階段,模型所表現(xiàn)的效果并不會(huì)突出。
將單模態(tài)信息輸入源更改為多模態(tài)信息輸入源,在視覺信息基礎(chǔ)上增加文本信息,以鼓勵(lì)目標(biāo)網(wǎng)絡(luò)將多源信息傳輸至下游任務(wù)訓(xùn)練階段,可大幅度提升模型檢測精度。
在改進(jìn)的自監(jiān)督學(xué)習(xí)框架中,輸入經(jīng)過預(yù)處理的數(shù)據(jù)信息,一種為視覺特征描述,另一種為文本特征描述。
為更好地將2組信息融合,在改進(jìn)的自監(jiān)督學(xué)習(xí)框架中,將BYOL中的數(shù)據(jù)增強(qiáng)模塊替換為歸一化增強(qiáng)模塊與 Mixup[13]模塊,以便學(xué)習(xí)系統(tǒng)可以處理信息并在增強(qiáng)視圖中創(chuàng)建對比,以學(xué)習(xí)通用特征表示。
1.2.1 多模態(tài)異構(gòu)信息融合
與基于圖像的自監(jiān)督學(xué)習(xí)不同的是,多模態(tài)自監(jiān)督學(xué)習(xí)可同時(shí)對多種類型(圖像和文本等)輸入數(shù)據(jù)進(jìn)行學(xué)習(xí),并且可利用他們的關(guān)聯(lián)輔助網(wǎng)絡(luò)學(xué)習(xí)。在進(jìn)行多模態(tài)信息融合時(shí),既要考慮各模態(tài)之間的特征融合,也要考慮有效地利用各特定模態(tài)的特征。
本文將視覺信息及文本信息進(jìn)行融合,再將得到的特征根據(jù)不同模態(tài)求笛卡爾積。在笛卡爾積空間中嵌入維度,表達(dá)如式(5)所示。
式中:每個(gè)坐標(biāo)(Zl, Zv)為由語言、視覺組成的2-D點(diǎn)。
擴(kuò)充后,算法既計(jì)算了2個(gè)模態(tài)間的特征相關(guān)性,又保留了特定模態(tài)的信息。
多模態(tài)數(shù)據(jù)的語義特征表示:采用協(xié)同注意力機(jī)制的自動(dòng)編碼-解碼神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),以便同時(shí)實(shí)現(xiàn)交互性地學(xué)習(xí)圖像語義特征表示和文本語義特征表示。
1.2.2 改進(jìn)的BYOL框架
在改進(jìn)的BYOL框架中,將多源異構(gòu)信息通過信息融合模塊傳送至神經(jīng)網(wǎng)絡(luò)下游,并將BYOL中的增強(qiáng)模塊替換為歸一化增強(qiáng)模塊。通過將信息歸一化處理,來減輕增強(qiáng)參數(shù)的敏感性,實(shí)現(xiàn)程序運(yùn)行時(shí)的加快收斂。
如圖2所示,改進(jìn)的BYOL框架由歸一化模塊和Mixup模塊組成,計(jì)算過程為:首先,將多模態(tài)異構(gòu)信息融合后輸入至歸一化模塊,在信息規(guī)范化后將其饋送到 Mixup模塊;然后,Mixup模塊創(chuàng)建2個(gè)歸一化輸入,并通過2種數(shù)據(jù)增廣方式對輸入數(shù)據(jù)進(jìn)行擴(kuò)增作,從而得到擴(kuò)增視圖v和 v′;視圖被輸入至下游網(wǎng)絡(luò)用于訓(xùn)練。在線網(wǎng)絡(luò)和目標(biāo)網(wǎng)絡(luò)下游結(jié)構(gòu)與原始 BYOL網(wǎng)絡(luò)相同。Mixup模塊旨在為學(xué)習(xí)前景特征表示創(chuàng)建對比度,其與歸一化模塊相結(jié)合以獲得穩(wěn)定的性能增益。
圖2 改進(jìn)的BYOL框架Fig. 2 Improved BYOL framework
在訓(xùn)練過程中,信息經(jīng)Mixup模塊輸入目標(biāo)網(wǎng)絡(luò)。通過訓(xùn)練,在線網(wǎng)絡(luò)預(yù)測同一圖像在不同增強(qiáng)視圖下的目標(biāo)網(wǎng)絡(luò)表示。同時(shí),利用在線網(wǎng)絡(luò)的緩慢移動(dòng)平均值來更新目標(biāo)網(wǎng)絡(luò)。2個(gè)編碼器網(wǎng)絡(luò)會(huì)分別為相應(yīng)數(shù)據(jù)生成低維表示。網(wǎng)絡(luò)可以利用多種信號,發(fā)現(xiàn)視覺和語言實(shí)體之間的關(guān)系,于上下文描述中實(shí)現(xiàn)學(xué)習(xí),同時(shí)提取相關(guān)的視覺特征以協(xié)助預(yù)測。
實(shí)驗(yàn)數(shù)據(jù)為無人機(jī)航拍的輸變電設(shè)備圖像。
以絕緣子釉表面灼傷故障作為研究案例。篩選1 527張包含故障絕緣子的圖像作為圖像數(shù)據(jù)。將實(shí)驗(yàn)數(shù)據(jù)分為訓(xùn)練集與測試集。在訓(xùn)練集中,有1 009張含絕緣子表面灼傷的故障圖像;測試集中,共有518張含絕緣子表面灼傷的故障圖像。數(shù)據(jù)集如表1所示。
表1 數(shù)據(jù)集描述Tab. 1 Dataset description
實(shí)驗(yàn)條件:編程語言為 python;硬件環(huán)境為Tesla V100-DGX WORK STATION。訓(xùn)練所使用的算法框架為Pytorch。
改進(jìn)網(wǎng)絡(luò)框架中的投影、預(yù)測與原始 BYOL中的多層感知器相同,構(gòu)成為:輸出大小為4 096的線性層、批量歸一化單元、校正線性單元[14]和一個(gè)線性層。
網(wǎng)絡(luò)使用Adam優(yōu)化器,學(xué)習(xí)率為0.000 3,目標(biāo)衰減率參數(shù)為0.99,batch size為256,并訓(xùn)練了100個(gè)epoch。
結(jié)合模型檢測結(jié)果與測試集真實(shí)樣本,以精準(zhǔn)度、召回率、平均精度、檢測速度為指標(biāo),將本文方法與原始BYOL方法、SimCLR方法及SimSiam方法進(jìn)行比較,結(jié)果如表2所示。表2中,AP為平均精確度,通過計(jì)算P-R曲線的積分值獲得。
表2 各方法測試結(jié)果展示Tab. 2 Display of test results of various methods
從表2可以看出,本文模型準(zhǔn)確率、召回率和平均精度均優(yōu)于其他模型。本文模型AP值達(dá)到了0.838,與原始BYOL方法、SimCLR方法以及SimSiam方法相比分別提升了13.1%、23.4%與10.5%。
相比其他模型,雖然在監(jiān)測速度方面提升不明顯,但本文模型召回率提升明顯:比 SimSiam方法提高了14%,比原始BYOL方法提高了18%,比SimCLR方法提高了31.7%。
由于多模態(tài)信息有效融合了不同層次的信息,增強(qiáng)了特征的表達(dá)能力,使模型更容易在特征中獲取識別目標(biāo)的有效信息,所以召回率得以提升。
此外,本文設(shè)計(jì)的Mixup模塊有以下作用:有助于發(fā)現(xiàn)視覺和語言實(shí)體之間的關(guān)系、實(shí)現(xiàn)從上下文描述中學(xué)習(xí);提取相關(guān)的視覺特征,以協(xié)助模型進(jìn)行結(jié)果預(yù)測。
選取測試集中不同場景、不同拍攝角度的圖片進(jìn)行測試,測試結(jié)果如圖3所示。雖然圖3示出的不同背景下多種類絕緣子表面灼傷圖像中包含了逆光拍攝圖像,但本文設(shè)計(jì)的改進(jìn)BYOL多模態(tài)目標(biāo)識別方法仍可以自適應(yīng)地提取目標(biāo)特征并實(shí)現(xiàn)精準(zhǔn)檢測,這表明本文方法能夠應(yīng)對環(huán)境變化,具有很好的魯棒性和泛化能力。
圖3 改進(jìn)的BYOL多模態(tài)目標(biāo)識別方法的可視化結(jié)果Fig. 3 Visualization results of improved BYOL multimodality target recognition method
ROC曲線下面積(area under ROC curve,AUC)指標(biāo),準(zhǔn)確反映了模型目標(biāo)識別中真正例率和假正例率的關(guān)系,可以用來綜合檢測準(zhǔn)確性。使用AUC指標(biāo)來對比評價(jià)模型質(zhì)量,結(jié)果如圖4所示。
圖4 不同方法AUC指標(biāo)值Fig. 4 AUC index value of different methods
SimCLR方法、原始 BYOL方法、SimSiam方法以及改進(jìn)的 BYOL多模態(tài)目標(biāo)識別方法的AUC指標(biāo)測試結(jié)果分別為0.65、0.73、0.78以及0.81。顯然,本文算法優(yōu)于其余3種方法。
本文提出了一種 BYOL多模態(tài)目標(biāo)識別方法。經(jīng)測試,該方法可以提升絕緣子表面灼傷故障識別精度。
(1)解決了電力巡檢數(shù)據(jù)采集與標(biāo)注困難的問題。從圖像增強(qiáng)視角出發(fā),本文設(shè)計(jì)了 Mixup模塊,其特點(diǎn)是:有助于發(fā)現(xiàn)視覺和文本實(shí)體之間的關(guān)系;基于上下文描述,使在線網(wǎng)絡(luò)與目標(biāo)網(wǎng)絡(luò)互相學(xué)習(xí)進(jìn)步;同時(shí),提取的相關(guān)視覺特征可以協(xié)助模型進(jìn)行預(yù)測。
(2)將多源異構(gòu)信息通過信息融合模塊傳送至神經(jīng)網(wǎng)絡(luò)下游;多模態(tài)數(shù)據(jù)的語義特征表示采用協(xié)同注意力機(jī)制的自動(dòng)編碼-解碼神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu):這讓模型更容易在特征中獲取識別目標(biāo)的有效信息,使得網(wǎng)絡(luò)無監(jiān)督學(xué)習(xí)效果增強(qiáng)。
(3)實(shí)驗(yàn)結(jié)果表明,與原始 BYOL方法、SimCLR、SimSiam方法相比,本文方法對絕緣子灼傷目標(biāo)識別的精度更高。