高峰,楊瑩,馬瑋娜
(1.國(guó)網(wǎng)河南省電力公司信息通信公司,河南鄭州 450052;2.河南九域騰龍信息工程有限公司,河南鄭州 450000)
隨著信息技術(shù)的快速發(fā)展,智能電網(wǎng)成為我國(guó)相關(guān)建設(shè)的重點(diǎn)內(nèi)容及方向,同時(shí)也為進(jìn)一步推動(dòng)電力信息通信系統(tǒng)的建設(shè)提供了契機(jī)[1]。當(dāng)前各地電網(wǎng)企業(yè)已初步建立了電力運(yùn)營(yíng)監(jiān)控與信息管理平臺(tái),通過(guò)對(duì)運(yùn)維數(shù)據(jù)的采集、分析來(lái)優(yōu)化電力通信運(yùn)維體系,從而提升智能電網(wǎng)的水平[2]。但由于信息系統(tǒng)的檢修存在管理流程、網(wǎng)絡(luò)環(huán)境、涉及人員及遠(yuǎn)程操作均較為復(fù)雜的特點(diǎn),因此對(duì)相關(guān)操作進(jìn)行審計(jì)仍是檢修管理中的難點(diǎn)[3-5]。人工智能(Artificial Intelligence,AI)的崛起,使得計(jì)算機(jī)視覺(jué)技術(shù)被廣泛應(yīng)用于醫(yī)療、工業(yè)、教育等領(lǐng)域[6-8],實(shí)現(xiàn)了對(duì)視頻圖像數(shù)據(jù)進(jìn)行分類、檢測(cè)、識(shí)別和分割等任務(wù)。而應(yīng)用該技術(shù)對(duì)機(jī)房的視頻監(jiān)控?cái)?shù)據(jù)進(jìn)行實(shí)時(shí)采集與分析,可獲取現(xiàn)場(chǎng)檢修時(shí)間、人員和位置等信息;再將其與遠(yuǎn)程檢修審計(jì)信息進(jìn)行對(duì)比分析,可以找出不符合檢修計(jì)劃、無(wú)票檢修等一系列問(wèn)題,從而及時(shí)發(fā)現(xiàn)并審計(jì)違規(guī)行為。其中的關(guān)鍵技術(shù)是實(shí)現(xiàn)對(duì)監(jiān)控視頻圖像中檢修人員的檢測(cè),即人員目標(biāo)檢測(cè)。通過(guò)利用目標(biāo)檢測(cè)模型對(duì)機(jī)房視頻幀圖片進(jìn)行計(jì)算識(shí)別,以此判斷各個(gè)信息機(jī)房中人員出現(xiàn)的時(shí)間及位置信息。文中基于深度學(xué)習(xí)(Deep Learning,DL)算法,設(shè)計(jì)了一種針對(duì)機(jī)房檢修人員的檢測(cè)模型。
目前主流的目標(biāo)檢測(cè)方法主要采用深度學(xué)習(xí)算法[9-11],通??煞譃閮煞N:兩階段檢測(cè)與單階段檢測(cè)。兩階段檢測(cè)使用多個(gè)固定的滑動(dòng)窗口對(duì)整個(gè)圖像進(jìn)行掃描,以產(chǎn)生多個(gè)候選框,再?gòu)闹泻Y選出正樣本并進(jìn)行二次修正后得到最終效果[13]。而單階段檢測(cè)提前劃分單元格,再將實(shí)例對(duì)象放入其中,最后不斷對(duì)錨框進(jìn)行分類與位置修正并得到最終的效果。
YOLO 系列算法是單階段檢測(cè)模型,其優(yōu)點(diǎn)是能顯著提升計(jì)算速度,故可滿足實(shí)時(shí)性要求較高的場(chǎng)景。該模型的核心思想是將目標(biāo)檢測(cè)看作一個(gè)回歸問(wèn)題,并把輸入圖片劃分成若干網(wǎng)格;再用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)對(duì)圖片進(jìn)行特征提??;當(dāng)檢測(cè)到目標(biāo)時(shí),根據(jù)當(dāng)前網(wǎng)格的先驗(yàn)框得出預(yù)測(cè)框,進(jìn)而實(shí)現(xiàn)對(duì)圖像類別及位置的判別。
YOLOv4 模型[14]相比于傳統(tǒng)的YOLO 系列算法,可大幅提高檢測(cè)速度和準(zhǔn)確性。該模型從數(shù)據(jù)預(yù)處理、主干網(wǎng)絡(luò)、激活函數(shù)與損失函數(shù)多個(gè)部分進(jìn)行優(yōu)化。改進(jìn)模型主要有三個(gè)貢獻(xiàn):1)構(gòu)建一個(gè)低門檻、高性能的目標(biāo)檢測(cè)模型,即使用較低的GPU 就能訓(xùn)練出一個(gè)快速且準(zhǔn)確的目標(biāo)檢測(cè)器;2)驗(yàn)證了兩種先進(jìn)Bag-of-Freebies 和Bag-of-Specials 方法對(duì)于模型訓(xùn)練的影響;3)引入了交叉迭代歸一化(Cross Iteration Batch Normalization,CBN)、特征融合PAN、空間注意力機(jī)制SAM 等技術(shù)。
由于對(duì)機(jī)房監(jiān)控視頻處理的實(shí)時(shí)性要求較高,且還需保證能夠準(zhǔn)確識(shí)別和定位人員信息,所以文中以YOLOv4 作為基礎(chǔ)模型。整個(gè)模型包含輸入端、主干網(wǎng)絡(luò)、頸部網(wǎng)絡(luò)及輸出端四部分。首先,將機(jī)房運(yùn)維監(jiān)控的視頻幀圖像作為網(wǎng)絡(luò)的輸入;然后,使用主干網(wǎng)絡(luò)對(duì)圖像特征加以提?。辉倮妙i部網(wǎng)絡(luò)將獲得的特征做進(jìn)一步提取,并對(duì)不同尺度特征圖的信息進(jìn)行融合;最終輸出檢測(cè)結(jié)果。改進(jìn)YOLOv4 框架結(jié)構(gòu)如圖1 所示。
與傳統(tǒng)的YOLOv4 相比,文中進(jìn)行了如下改進(jìn):首先,用DenseNet 替換傳統(tǒng)模型主干網(wǎng)絡(luò)中的Cspdarketnet53,原因是DenseNet 網(wǎng)絡(luò)可增強(qiáng)層與層之間的密度,并提高特征的傳播及融合,從而減少梯度消失的問(wèn)題且降低了參數(shù)的數(shù)量與計(jì)算負(fù)荷;其次,提出人員特征提取模塊PM 來(lái)改進(jìn)空間金字塔池化,該模塊能夠?qū)Σ煌叨鹊臋C(jī)房運(yùn)維人員特征進(jìn)行有效提??;此外,CBL 模塊則是由卷積Conv、批量歸一化BN 以及Leaky ReLU 激活函數(shù)組成。
由于文中將損失函數(shù)變?yōu)長(zhǎng)eaky ReLU,促進(jìn)了特征的重用和融合,因此,改進(jìn)模型通過(guò)使用DenseNet模塊來(lái)提高層間的密度,使網(wǎng)絡(luò)結(jié)構(gòu)變得更為復(fù)雜,從而更有效地對(duì)人員信息進(jìn)行檢測(cè)。
DenseNet[15]主要思想是通過(guò)特征重用和旁路設(shè)置來(lái)解決梯度消失與模型退化的問(wèn)題,同時(shí)還大幅減少了參數(shù)的數(shù)量。其網(wǎng)絡(luò)結(jié)構(gòu)也是基于ResNet 網(wǎng)絡(luò)[16],不同之處在于DenseNet 中建立了所有前層及后層間的密集連接,并同時(shí)重用了該特性。密集網(wǎng)模型由密集塊與中間區(qū)間模塊過(guò)渡層組成。在同一個(gè)密集塊中,特征層的寬度和高度并未改變,而通道的數(shù)量則會(huì)發(fā)生相應(yīng)變化。過(guò)渡層是一個(gè)連接不同密集塊的模塊,其結(jié)合了密集塊的特性以減少前一個(gè)密集塊的寬度及高度。在模塊被堆疊后,功能也會(huì)連續(xù)堆疊,由此使得各層間的連接更為緊密。DenseNet 網(wǎng)絡(luò)結(jié)構(gòu)如圖2 所示。
圖2 DenseNet網(wǎng)絡(luò)結(jié)構(gòu)
傳統(tǒng)的網(wǎng)絡(luò)經(jīng)過(guò)第n層后的輸出結(jié)果為:
而在DenseNet 中,其會(huì)連接前面所有層作為輸入,由此得到的結(jié)果為:
式中,Hn(·) 表示非線性轉(zhuǎn)化函數(shù),包括歸一化、激活函數(shù)、池化和卷積操作;n層與n-1 層之間實(shí)際包含多個(gè)卷積層。
由于室內(nèi)檢修人員的目標(biāo)尺度大小不同,使用單一尺度的特征提取效果通常并不理想。而提取多尺度特征信息的關(guān)鍵,是對(duì)目標(biāo)的每種尺度均進(jìn)行充分利用,因此文中利用先驗(yàn)的人員長(zhǎng)寬比信息加入SPP 結(jié)構(gòu)進(jìn)行改進(jìn),以獲取不同尺度的人員感受野,進(jìn)而有效對(duì)檢修人員的多尺度特征加以提取。
SPP 網(wǎng)絡(luò)使用的感受野均為正方形,但這樣會(huì)覆蓋諸多除人員以外的無(wú)效背景,導(dǎo)致圖像噪聲較多,進(jìn)而干擾人員多尺度信息的提取。因此文中采用更寬的網(wǎng)絡(luò)加入人員的長(zhǎng)寬比先驗(yàn)信息,形成了一個(gè)新的人員特征提取模塊PM,其結(jié)構(gòu)如圖3所示。
圖3 PM結(jié)構(gòu)圖
人員特征提取模塊采用3×1、3×2 和3×3 共3 種大小不同的感受野來(lái)進(jìn)行特征提取。為了能夠擬合人員的寬高比,對(duì)3×2 與3×3 的卷積核在高度上使用擴(kuò)張率為1、2 的空洞卷積;同時(shí)借助1×1 的卷積對(duì)輸入通道進(jìn)行壓縮,以減少計(jì)算量;最后,再使用1×1的卷積進(jìn)行通道變換。
在目標(biāo)檢測(cè)中,僅基于距離的損失函數(shù)無(wú)法進(jìn)行準(zhǔn)確度量,因此文中采用GIoU 作為損失函數(shù),其能夠?qū)︻A(yù)測(cè)邊框與實(shí)際標(biāo)注邊框進(jìn)行對(duì)比,從而計(jì)算損失。
GIoU 損失函數(shù)可用公式表示為:
其中,LGIoU表示GIoU 的損失值;LIoU代表實(shí)際真實(shí)框與預(yù)測(cè)框的交并比;d表示兩個(gè)框中心點(diǎn)之間的歐式距離;c表示兩個(gè)框最小閉包區(qū)域的對(duì)角線長(zhǎng)度;v表示兩個(gè)框?qū)捀弑纫恢滦缘膮?shù);wgt和hgt、w及h分別表示真實(shí)框、預(yù)測(cè)框的寬度及高度;α表示長(zhǎng)寬比一致的權(quán)衡函數(shù)。
由于設(shè)備檢修工作人員均在室內(nèi)工作,故攝像頭在采集數(shù)據(jù)時(shí)易受到多種因素的影響。為了提高模型的檢測(cè)效果,選用曠視科技的CrowdHuman 數(shù)據(jù)集為基礎(chǔ)數(shù)據(jù)集來(lái)進(jìn)行實(shí)驗(yàn),該數(shù)據(jù)集內(nèi)包含有各種人員在不同背景環(huán)境下的24 370 張圖片。實(shí)驗(yàn)將其中15 000 張作為訓(xùn)練集,另外的5 000 張作為測(cè)試集,剩余的4 370 張則為驗(yàn)證集。
實(shí)驗(yàn)采用的深度學(xué)習(xí)框架為PyTorch1.0 版本,使用的編程語(yǔ)言為Python,操作系統(tǒng)為L(zhǎng)inux,處理器為Intel Core i7-5960,內(nèi)存為32 GB,顯卡為RTX2080。
在訓(xùn)練時(shí)將最小批次大小設(shè)置為128 張,并采用隨機(jī)梯度下降法作為模型訓(xùn)練的優(yōu)化策略。初始學(xué)習(xí)速率設(shè)置為0.001,動(dòng)量設(shè)置為0.9,其余參數(shù)設(shè)置與YOLOv4 模型相同且保持不變。
在目標(biāo)檢測(cè)時(shí),通常使用評(píng)價(jià)指標(biāo)來(lái)判別模型的優(yōu)劣。文中采用的指標(biāo)除了常見的準(zhǔn)確率、召回率、F1 值外,還需增加檢測(cè)速度。每秒幀率(FPS)是最常用的平均指標(biāo),即在硬件環(huán)境相同的情況下,模型1 s 內(nèi)處理圖片的幀數(shù),F(xiàn)PS 值越大,說(shuō)明模型的檢測(cè)速度越快,且性能越優(yōu)。
根據(jù)人員目標(biāo)檢測(cè)的真實(shí)情況和預(yù)測(cè)情況可以分為四類:1)TP,人員檢測(cè)框的真實(shí)情況是正類,預(yù)測(cè)也為正類;2)TN,人員檢測(cè)框的真實(shí)情況為負(fù)類,預(yù)測(cè)也為負(fù)類;3)FP,人員檢測(cè)框的真實(shí)情況是負(fù)類,預(yù)測(cè)是正類;4)FN,人員檢測(cè)框的真實(shí)情況是正類,預(yù)測(cè)是負(fù)類。
準(zhǔn)確率、召回率以及F1 值的計(jì)算方式如下:
將數(shù)據(jù)集輸入訓(xùn)練模型,經(jīng)過(guò)800 次的迭代訓(xùn)練后,整個(gè)模型取得了良好的結(jié)果,圖4 顯示了準(zhǔn)確率與迭代次數(shù)的關(guān)系曲線。從圖中可以看到,迭代800 次后的訓(xùn)練集、測(cè)試集和驗(yàn)證集準(zhǔn)確率基本不變,且模型趨于穩(wěn)定,精度逐漸達(dá)峰。表1 是模型不同評(píng)價(jià)指標(biāo)的最終結(jié)果,可看到模型的準(zhǔn)確率為87.9%,召回率為80.1%,F(xiàn)1 值為88.7%,F(xiàn)PS 為73,總體取得了較好的結(jié)果。
表1 改進(jìn)YOLOv4模型評(píng)價(jià)指標(biāo)
圖4 準(zhǔn)確率與迭代次數(shù)關(guān)系圖
為了驗(yàn)證文中所提出模型的性能,將檢測(cè)結(jié)果與主流的目標(biāo)檢測(cè)模型進(jìn)行對(duì)比,結(jié)果如表2 所示。從表中可以看出,該文模型的準(zhǔn)確率相比SSD、YOLO 以及YOLOv4 模型分別提高了25.8%、19.2%和7.3%;召回率比SSD 模型提高了21.4%,但相比于YOLOv4 模型略低;F1 值則比YOLOv4 模型提高了9.2%;同時(shí)FPS 也達(dá)到了73,較其他模型能夠更快處理視頻圖像數(shù)據(jù)。
表2 不同算法模型的評(píng)價(jià)指標(biāo)對(duì)比結(jié)果
在電力運(yùn)維的過(guò)程中,傳統(tǒng)信息系統(tǒng)檢修操作過(guò)程需要依靠人工監(jiān)護(hù)及審計(jì),監(jiān)護(hù)人員需要全程跟蹤操作過(guò)程,事后審計(jì)也需要耗費(fèi)大量精力進(jìn)行數(shù)據(jù)回溯,審計(jì)效率低,且在多操作同時(shí)開展時(shí),難以兼顧所有的操作細(xì)節(jié)。為了解決上述問(wèn)題,文中提出了基于YOLOv4 的改進(jìn)模型來(lái)對(duì)檢修人員進(jìn)行定位檢測(cè)。該模型用DenseNet 網(wǎng)絡(luò)替換原有YOLOv4 中的主干網(wǎng)絡(luò),從而減少了梯度消失,且使參數(shù)的數(shù)量和計(jì)算負(fù)荷均有所降低。同時(shí)還提出了人員特征提取模塊PM,對(duì)不同尺度的機(jī)房運(yùn)維人員特征進(jìn)行有效提取。在公開數(shù)據(jù)集上進(jìn)行的實(shí)驗(yàn)驗(yàn)證結(jié)果表明,所提出的模型準(zhǔn)確率達(dá)到了87.9%,召回率為80.1%,F(xiàn)1 值則達(dá)到88.7%,F(xiàn)PS 為73,優(yōu)于目前大部分主流模型的效果。因此該模型可以有效處理電力運(yùn)維視頻圖像數(shù)據(jù),實(shí)現(xiàn)對(duì)電力運(yùn)維檢修人員的智能化審計(jì)。然而模型仍存在一定的不足,后續(xù)可以進(jìn)一步對(duì)模型加以改進(jìn),從而提高模型的準(zhǔn)確率,同時(shí)優(yōu)化模型計(jì)算效率。