朱建寶,馬青山,俞鑫春,鄧偉超
(國網(wǎng)江蘇省電力有限公司南通供電分公司,南通226001)
智能全感知是“泛在電力物聯(lián)網(wǎng)”[1]對新型變電站運行時提出的新要求,涉及智能機器人技術(shù)[2]、電網(wǎng)的自動控制與決策技術(shù)[3]等多種技術(shù)。其中,視頻監(jiān)控作為變電站智能全感知的關(guān)鍵一環(huán),已被廣泛地應(yīng)用于變電站生產(chǎn)、運行環(huán)節(jié)。然而,當(dāng)前變電站的視頻監(jiān)控模式仍屬于“被動監(jiān)控”[4],監(jiān)控場景由監(jiān)控人員密切、時刻關(guān)注,或在安全事故發(fā)生后提供事后分析材料。為了實現(xiàn)變電站智能化和安全生產(chǎn)管控自動化,有必要開展變電站視頻監(jiān)控下的異常事件檢測研究。
視頻監(jiān)控下的異常事件檢測指的是利用圖像處理、計算機視覺等技術(shù)對視頻監(jiān)控內(nèi)容進行自動化的分析,進而準(zhǔn)確快速地檢測出視頻中的異常行為。由于視頻分析以及模式識別技術(shù)的快速發(fā)展,異常事件檢測取得了巨大的進步,但目前的研究工作大都無法達(dá)到落地和布控要求。在視頻監(jiān)控場景中,視頻成像時容易受到光照條件、遮擋、背景等影響,場景復(fù)雜多樣且一些攝像頭廣角較大,使得監(jiān)控視頻存在景深過大等問題,這些都給異常檢測帶來困難,容易出現(xiàn)漏檢和誤檢的情況。現(xiàn)有的方法大都基于塊或興趣點軌跡進行特征提取,特征大多是手工特征或單一特征,很難充分地表征時空信息,使得后續(xù)的分類器分類效果不好。與此同時,異常檢測最大的挑戰(zhàn)在于如何對異常行為的精確定義和歸納,需要考慮上下文信息。視頻中的異常事件被定義為在視頻中很少出現(xiàn)或者其不符合正常行為模式[5],且分為兩種類型,包括異常目標(biāo)的侵入和目標(biāo)的異常行為模式。人工智能等技術(shù)為解決視頻監(jiān)控下的異常事件檢測問題提供了可能[6]。
當(dāng)前視頻監(jiān)控中異常目標(biāo)侵入的感知方法分為兩種,但首先都需要將視頻拆分為圖像幀。一種是對視頻的前后多幀的關(guān)系進行建模,另一種是對單獨的圖像幀進行智能分割,并對圖像各個部分進行分析,以充分理解圖像中的內(nèi)容。采用第一種方式的研究有:文獻(xiàn)[7]提出了一種改進的融合外觀和運動信息的異常檢測方法,基于目標(biāo)對象提取光流,并使用了一種結(jié)合動能的多尺度光流直方圖來捕獲目標(biāo)的局部運動統(tǒng)計信息,該方法減少了監(jiān)控場景中由于遮擋、光照變化、景深等帶來的目標(biāo)漏檢情況;文獻(xiàn)[8]提出的雙流卷積網(wǎng)絡(luò)使用二維的卷積網(wǎng)絡(luò)來進行視頻流的行為識別,將視頻看成圖片幀流的形式,挖掘幀流之間的光流特征。在空間維度上,以單幀上的外觀形式,攜帶視頻描繪的場景的目標(biāo)信息,以其自身靜態(tài)外表作為一個有用的特征;在時間維度上,以多幀上的行為,表達(dá)了攝像頭和目標(biāo)之間的行為,最后根據(jù)分?jǐn)?shù)落在的區(qū)間來得到最后的分類結(jié)果;文獻(xiàn)[9]提出了一種3D-CNN 網(wǎng)絡(luò)—C3D,使用3D 卷積和3D 池化層來搭建網(wǎng)絡(luò),從而直接識別視頻中的異常行為。上述方法都是對視頻監(jiān)控下的異常檢測的有益嘗試,但實驗效果均高度依賴數(shù)據(jù)集。第二種方式則應(yīng)用了基于深度學(xué)習(xí)的圖像分割算法,區(qū)別于使用灰度值的不連續(xù)和相似性質(zhì)的傳統(tǒng)圖像分割算法,全卷積神經(jīng)網(wǎng)絡(luò)搭配數(shù)據(jù)集進行端到端訓(xùn)練的架構(gòu)使得該類算法具有較高的魯棒性和抗干擾能力,如LaneNet[10],Seg-Net[11],E-Net[12],F(xiàn)CNs[13],deeplabv3[14],PSPNet[15]等。因此本文擬采用基于語義分割的PSPNet 網(wǎng)絡(luò)對單獨的圖像幀進行內(nèi)容的感知,輔助以邏輯判斷,最終達(dá)成對變電站監(jiān)控視頻中人員危險行為的理解。
本文將變電站人員危險行為定義為離開安全通道?;诖?,本文提出的檢測方法整體流程如圖1所示。
圖1 變電站人員危險行為檢測整體流程Fig.1 Overall flow chart of detection of personnel dangerous behaviors in substation
整個任務(wù)具體被劃分為3 個步驟:
步驟1從變電站監(jiān)控設(shè)備導(dǎo)出視頻流,將視頻流中每一幀輸入到PSPNet 語義分割模型中,對變電站視頻監(jiān)控場景進行實時的語義分割,分割出安全通道及人員輪廓;
步驟2對各自的輪廓處理結(jié)果進行形態(tài)學(xué)處理,解決各自輪廓的斷裂問題并平滑輪廓形狀,最后利用Canny 算子提取輪廓的外邊緣;
步驟3利用邏輯與運算,得出安全通道和人員的輪廓交并關(guān)系,從而判斷人員是否離開安全通道,進入危險區(qū)域。
PSPNet 模型是經(jīng)典的語義分割網(wǎng)絡(luò)模型,全局的自適應(yīng)池化方式使得整體的語義分割效果較好。其網(wǎng)絡(luò)結(jié)構(gòu)包括特征提取模塊、全局特征融合模塊以及最后的輪廓掩碼預(yù)測模塊,如圖2 所示。
圖2 整體網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.2 Diagram of overall network structure
2.2.1 特征提取模塊ResNet101
ResNet101 中包含101 個卷積組,每一個卷積組中包含卷積操作、 批次正則化以及ReLu 激活操作。其中大小為3×3 以及1×1 的卷積核的作用是對圖像進行濾波,提取人員和安全通道特征相關(guān)的有用信息,生成初始的特征圖,如圖3 所示。
圖3 卷積組的組成結(jié)構(gòu)Fig.3 Components of convolutional group
2.2.2 全局特征融合模塊PSP Module
如圖2 所示,全局特征融合模塊采用了4 種尺度的自適應(yīng)平均池化層,最終生成尺度比為1∶2∶3∶6的特征圖,再由大小為1×1 的卷積組將各自的通道數(shù)目壓縮為原來的1/4,經(jīng)雙線性插值為與初始特征圖相同尺度后與初始特征圖共同拼接生成最后用于分割的融合特征圖。
2.2.3 輪廓掩碼預(yù)測模塊
在輪廓掩碼預(yù)測模塊中,網(wǎng)絡(luò)包括一次上采樣層、dropout 層和一次1×1 卷積層,將特征圖進一步擴大為與原始圖像尺寸相同的輪廓掩碼特征圖。
2.2.4 PSPNet 整體流程
具體地,一張大小為(720,720,3)的變電站監(jiān)控圖像,在特征提取模塊ResNet101 中,通過多次的空洞卷積以及殘差連接得到尺度為(90,90,2048)的初始特征圖,在全局特征融合模塊中,通過全局自適應(yīng)平均池化層分別獲得尺度為(1,1,2048),(2,2,2048),(3,3,2048)以 及(6,6,2048)的 特 征圖,再通過參數(shù)可學(xué)習(xí)的1×1 卷積層將通道壓縮成尺度為(1,1,512),(2,2,512),(3,3,512),(6,6,512)的特征圖,接著使用雙線性插值將特征圖都變?yōu)椋?0,90,512),最后將初始特征圖、經(jīng)雙線性插值后的特征圖在通道上進行拼接獲得尺度為(90,90,4096)的融合特征圖,在輪廓掩碼預(yù)測模塊中,經(jīng)過卷積層、dropout 層以及上采樣層,得到尺度為(720,720,19)的掩碼特征圖,利用該特征圖對原圖每個像素點進行類別的預(yù)測。
PSPNet 網(wǎng)絡(luò)模型損失函數(shù)采用了多分類的交叉熵?fù)p失函數(shù),對安全通道和人員進行像素級別的分類。單個像素輸出長度為類別數(shù)目的預(yù)測向量X=[x1,…,xC-1]后,首先利用softmax 函數(shù)對其進行向量歸一化成p=[p0,…,pC-1],使其表示概率為
得到預(yù)測的概率分布p 后,對其進行交叉熵?fù)p失計算,交叉熵?fù)p失函數(shù)公式為
式中:p=[p0,…,pC-1]表示預(yù)測的概率分布,每個元素pi表示像素屬于第i 類別的概率,各元素之和為1;y=[y0,…,yC-1]表示像素標(biāo)簽的one-hot 編碼,當(dāng)像素屬于第i 類別時yi=1,否則yi=0;c 表示像素的標(biāo)簽;C 表示像素類別數(shù)。
最后獲得微調(diào)后的模型權(quán)重后,從變電站視頻監(jiān)控流中抽取圖像幀,并輸入到PSPNet 網(wǎng)絡(luò)中進行語義分割,獲得人員和安全通道的粗輪廓,模型微調(diào)后測試結(jié)果如圖4 所示。
圖4 基于PSPNet 模型的人員和安全通道的輪廓分割Fig.4 Semantic segmentation of personnel and safe passage outline based on PSPNet
圖像中紅色區(qū)域為巡檢人員,紫色區(qū)域為安全通道區(qū)域,從結(jié)果圖中可以看到模型的初始分割達(dá)到了預(yù)計的效果。
從某一變電站視頻監(jiān)控流中抽取圖像幀,對輸出結(jié)果進行二值化,最終的人員和安全通道輪廓提取結(jié)果如圖5 所示。
圖5 輪廓提取結(jié)果Fig.5 Results of outline extraction
可以看到安全通道輪廓中存在小目標(biāo)和孤立的噪聲區(qū)域,而人員輪廓有斷裂和內(nèi)部的空洞。因此需要對其進行基于形態(tài)學(xué)處理的輪廓濾波以及合并,使其更有利于提取外輪廓,并進行交并關(guān)系的判斷。
使用遷移后的PSPNet 語義分割網(wǎng)絡(luò)處理變電站監(jiān)控視頻中的圖像幀并獲取人員和安全通道的粗輪廓后,發(fā)現(xiàn)各自的輪廓存在不可避免的輪廓斷裂和缺損,因此需要對其進行基于形態(tài)學(xué)處理的輪廓濾波和合并。在圖像形態(tài)學(xué)中,開運算能夠完全刪除不包含結(jié)構(gòu)元素的對象區(qū)域,平滑對象輪廓,斷開輪廓中狹窄的連接,去掉細(xì)小的突出部分;閉運算能夠?qū)ⅹM窄的缺口連接起來形成細(xì)長的彎口,并填充比結(jié)構(gòu)元素小的洞[16]。腐蝕和膨脹定義了形態(tài)學(xué)中的開閉運算,是形態(tài)學(xué)圖像處理的基礎(chǔ)。
膨脹運算是求局部最大值的操作[17],可以使得二值圖像中的線條“加長”或“變粗”。這種特殊的方式和變粗的程度由一個稱為結(jié)構(gòu)元素的集合控制。在數(shù)學(xué)上,膨脹定義為集合運算,A 被B 膨脹,記為A⊕B,定義為
式中:? 為空集;B 為結(jié)構(gòu)元素。A 被B 膨脹是所有結(jié)構(gòu)元素原點位置組成的集合,其中映射并平移后的B至少與A 的某些部分重疊。在圖像處理中,A⊕B 的第一個操作數(shù)為圖像,而第二個操作數(shù)為結(jié)構(gòu)元素,結(jié)構(gòu)元素往往比圖像小得多。通過膨脹運算可以使得目標(biāo)的邊界從內(nèi)向外進行擴張,因此能夠有效地填充目標(biāo)內(nèi)部的空洞,連接相近但斷開的前景目標(biāo)。
腐蝕是在二值圖像中“收縮”或“細(xì)化”的操作。與膨脹一樣,收縮的方式和程度由一個結(jié)構(gòu)元素控制。在數(shù)學(xué)上,膨脹定義為集合運算,A 被B 腐蝕,記為A,定義為
A 被B 腐蝕是所有結(jié)構(gòu)元素的原點位置的集合,其中平移的B 與A 的背景并不疊加。通過腐蝕運算,可以有效去除目標(biāo)區(qū)域的邊界點,使目標(biāo)邊界從外向內(nèi)收縮,因而圖像經(jīng)由腐蝕操作后,目標(biāo)區(qū)域的面積會縮小,小目標(biāo)和孤立噪聲點能被去除。腐蝕和膨脹的組合能夠有效地解決輪廓的斷裂、平滑輪廓形狀。
人員輪廓和安全通道輪廓存在輪廓斷裂和內(nèi)部空洞,因此需要先進行開運算,去除細(xì)小的雜亂輪廓,然后再對開運算結(jié)果進行閉運算合并輪廓間的斷裂或空洞,處理結(jié)果如圖6 所示。
圖6 基于形態(tài)學(xué)處理的輪廓預(yù)處理Fig.6 Contour preprocessing based on morphological processing
接著使用Canny 邊緣提取算子對預(yù)處理后的人員和安全通道輪廓進行外輪廓邊緣的提取,如圖7 所示。
圖7 外輪廓邊緣提取Fig.7 Edge extraction of outer contour
在獲得人員和安全通道輪廓2 個外部輪廓后,對矩陣圖進行按位的與運算來檢測輪廓間的相交情況。具體地,分別為每個輪廓創(chuàng)建2 個單獨的圖像矩陣,然后對它們使用邏輯與運算,生成與原始圖像大小相同的布爾矩陣。交點為具有正值(1 或True)的任何點。如果整個矩陣都為False,即人員和安全通道輪廓之間不存在交集,說明人員進入危險區(qū)域,并控制監(jiān)控同時發(fā)出警報;若矩陣中存在一個True,則表明輪廓會接觸且相交,說明人員仍處在安全的安全通道中。在本例中,兩輪廓相交表明人員處在安全區(qū)域內(nèi)。
為了減少變電站監(jiān)控人員工作壓力、提高監(jiān)控的實時性,促進變電站視頻監(jiān)控的智能化,本文提出了一種基于PSPNet 語義分割模型的變電站人員危險行為檢測模型。該模型包括3 個子任務(wù),分別是基于PSPNet 的變電站人員和安全通道的輪廓分割、基于形態(tài)學(xué)處理的輪廓濾波、外輪廓的提取以及巡檢危險行為檢測。通過在變電站監(jiān)控數(shù)據(jù)集下的訓(xùn)練和測試,該模型在實驗環(huán)境下獲得了較好的識別與檢測效果,同時檢測速度也能滿足實時性要求。
本文將語義分割網(wǎng)絡(luò)應(yīng)用到變電站視頻監(jiān)控中,但在進行輪廓填充時,采取的卷積核參數(shù)需要具體實驗調(diào)整獲得最佳的參數(shù)。因此,還需要進一步研究,提出一種端到端的解決方法來進行危險行為具體類型的判斷。