郭敬東,李曉林
(1.福建省電力有限公司電力科學研究院 福建省高供電可靠性配電技術(shù)企業(yè)重點實驗室, 福建 福州 350007;2.武漢工程大學 計算機科學與工程學院,湖北 武漢 430205)
根據(jù)電力作業(yè)規(guī)范,工作人員必須配戴安全帽、護目鏡和絕緣手套等[1]。但工作人員常未按要求進行電力施工,存在重大安全隱患。傳統(tǒng)的安監(jiān)方法是用人工來實時查看監(jiān)控圖像中工作人員在工作現(xiàn)場是否安全施工,排除安全隱患。這種方式需要大量的專職監(jiān)管人員長時間不間斷地關(guān)注視頻。由于視覺疲勞的原因,工作人員不可能長時間目不轉(zhuǎn)睛地盯著顯示屏幕。這種人為疏忽可能造成重大安全事故隱患[2,3]。因此,利用計算機視覺算法實時檢測這種違規(guī)行為,成為最有應用價值的方法之一。但是,低分辨率目標(其高或?qū)捑∮?0像素)與傳統(tǒng)高分辨率目標檢測不同。目標檢測算法隨著目標尺度的變小,性能會急劇下降[5]。為了能夠準確地檢測電力工作現(xiàn)場的極低分辨率的小目標(例如安全帽和護目鏡),本文提出了一種面向電力系統(tǒng)智能安監(jiān)的極低分辨率目標檢測方法,該方法通過對視頻圖像中的小目標進行超分辨率增強,進而對增強圖像進行目標檢測。該方法極大地提高了目標檢測方法的性能,同時滿足電力系統(tǒng)智能安監(jiān)實時性需求。本文的主要貢獻有:提出一種針對極低分辨率目標的檢測算法框架;提出一種改進的基于深度神經(jīng)網(wǎng)絡的目標檢測算法;構(gòu)建面向電力智能安監(jiān)的極小目標(高寬小于30像素)數(shù)據(jù)集,并在該數(shù)據(jù)集上驗證了本文方法的有效性。
本文提出一種面向電力安監(jiān)的極低分辨率下目標檢測算法。該算法框架主要分成3個部分:①利用背景建模方法獲取視頻圖像中運動目標;②將獲取的運動目標前景圖像進行超分辨率放大4倍;③放大圖像送入改進的神經(jīng)網(wǎng)絡中進行目標檢測。
背景建模(background modeling)[6]假定背景圖像像素值符合某種的概率分布,而前景圖像像素則服從這種概率分布。根據(jù)這種假設,原始圖像與背景圖像做差,即可以得到前景圖像,所以,該方法也被稱為背景減除。高斯背景建模方法將概率分布設定為高斯概率分布。由于光照變化、噪聲等對背景建模的影響,通常假設背景像素服從混合高斯分布模型[6]。為了獲得準確的前景目標,本文采用混合高斯背景建模方法。混合多高斯背景建模描述如下:
假定背景圖像中每個像素點符合K個高斯分布構(gòu)成的混合模型,即
(1)
(2)
(3)
其中,K為高斯分布個數(shù),η(xt;μi,t,τi,t) 為t時刻第i個高斯分布,μi,t為其均值,τi,t為其協(xié)方差矩陣,δi,t為方差,I為單位矩陣,ωi,t為t時刻第i個高斯分布的權(quán)重。實驗中,為了提高背景建模算法的處理速度,我們對單通道灰度圖像進行建模?;旌细咚箓€數(shù)為3,即K=3。
圖像超分辨率重建技術(shù)(image super-resolution)[7]是利用一組低質(zhì)量、低分辨率圖像來構(gòu)建單幀高質(zhì)量、高分辨率圖像的新技術(shù)。該技術(shù)可以提高圖像的識別能力和識別精度。當前基于學習的超分辨率重建方法是主流,其中以稀疏表示模型和深度學習模型為代表。由于深度學習模型需要海量的訓練數(shù)據(jù),且重建過程消耗大量的計算資源,時間復雜度太高,因而在本文中采用基于稀疏表示的超分辨率重建方法。該方法具有模型簡單,計算速度快,重建效果好,且不需要大量的訓練數(shù)據(jù)。該方法描述如下:
給定圖像塊集合Y=[y1,…,yn],標準的無監(jiān)督字典學習算法通過最小化重建誤差約束試圖學習到一個字典D=[d1,…,dm] 和一組關(guān)聯(lián)的稀疏編碼矩陣。其代價函數(shù)如下
(4)
盡管該問題是NP-hard問題,但在一定假設條件下,可以等價轉(zhuǎn)化為可優(yōu)化的問題,進而采用隨機梯度下降算法求最優(yōu)解[7,8]。通過添加正則項,可以實現(xiàn)這種變換,常用的正則項為Lasso懲罰項[8]
(5)
目標檢測技術(shù)在電力智能化有較廣泛的應用。研究人員能夠根據(jù)圖像中的信息獲得桿塔的編號[4]。傳統(tǒng)的目標檢測算法僅僅通過使用物體自身顏色的BGR值作為閾值對視頻幀進行判斷。然而同一顏色的BGR值隨光照改變明顯,針對不同的作業(yè)現(xiàn)場需要對該閾值進行精調(diào)來達到最優(yōu)效果。當視野中存在與目標顏色或面積相近物體,目標檢測難度會進一步提高。電力識別作業(yè)的場景主要在戶外,背景復雜,根據(jù)傳統(tǒng)的顏色及紋理特征進行判定很容易發(fā)生誤檢或者漏檢。因此,傳統(tǒng)的圖像特征配合機器學習中的傳統(tǒng)分類器無法達到理想的效果。目前主流的基于深度學習目標檢測技術(shù)[5]是學術(shù)界和工業(yè)界關(guān)注的焦點?;诰矸e神經(jīng)網(wǎng)絡的Fast R-CNN[9]和Faster R-CNN[10]算法在物體識別上有著準確度極高的識別性能,然而這些算法的網(wǎng)絡構(gòu)架十分復雜,檢測過程耗時嚴重,加上后續(xù)的決策分析會有更大的耗時,難以滿足電力作業(yè)場景中對不規(guī)范著裝進行實行預警的要求。
SSD(single shot multi-box detector)[11]是由Wei Liu等在ECCV 2016上提出的一種目標檢測算法,采用VGG分類網(wǎng)絡并增加額外的特征提取層使其能夠識別多尺度的物體,然而這種SSD在小目標的識別方面不盡人意。電力作業(yè)人員與攝像頭的距離會因作業(yè)內(nèi)容不同時遠時近,導致勞動防護用品的尺度在視頻幀中變化較大。當距離較遠時,目標在視頻幀中面積過小,SSD會失去對目標的檢測。SSD具有如下主要特點:①從YOLO[12]中繼承了將detection轉(zhuǎn)化為regression的思路,同時一次即可完成網(wǎng)絡訓練。②基于Faster RCNN中的anchor,提出了相似的prior box。③加入基于特征金字塔(feature pyramid network)[13]的檢測方式,相當于半個FPN思路。
針對電力施工現(xiàn)場特點,本文提出一種增強版的SSD目標檢測算法,即I-SSD。I-SSD在定位上比普通SSD要更加準確。當神經(jīng)網(wǎng)絡層數(shù)增加變的更“深”后,能夠?qū)W習到更抽象的特征,然而一味地加深也會導致在訓練過程中發(fā)生諸如梯度消失或者過擬合的問題。為了在性能和準確度取得平衡,本次研究在SSD的特征值提取層里加入了Inception結(jié)構(gòu),增加了卷積內(nèi)核的類型。由此使得SSD感受野的范圍增大,對小目標更加敏感同時不會失去對大目標的識別[11]。圖1展示的是I-SSD的網(wǎng)絡結(jié)構(gòu)。
圖1 I-SSD網(wǎng)絡結(jié)構(gòu)
圖1(a)為SSD網(wǎng)絡結(jié)構(gòu),圖1(b)為SSD-I的網(wǎng)絡結(jié)構(gòu)。預訓練的網(wǎng)絡在一個包含1261個人的1 100 000幅圖像大規(guī)模ReID數(shù)據(jù)集上訓練,由于該數(shù)據(jù)集包含不同光線、背景、角度條件下相同ID信息的行人數(shù)據(jù),使得通過深度學到的特征適合行人檢測。網(wǎng)絡結(jié)構(gòu)的參數(shù)配置見表1。
表1 網(wǎng)絡結(jié)構(gòu)配置
本次系統(tǒng)研發(fā)的應用場景主要在戶外,因此要求模型能在較復雜的背景條件下實現(xiàn)精準的目標檢測。同時,室外環(huán)境復雜、光線變化大,對系統(tǒng)挑戰(zhàn)更高,更能檢測模型的穩(wěn)定性。本次模擬測試的所有的實驗場景都選在了戶外。采用Tensorflow來搭建網(wǎng)絡并在Titan XP上對模型進行訓練。
本次研究收集了5種安全裝備作為樣本集,分別為紅色安全帽、藍色安全帽、白手套、反光背心和黑色橡膠鞋。每種目標樣本分別由不同的實驗人員穿戴上,在不同的戶外條件下拍攝遠近景照片作為訓練樣本。初步收集每種目標樣本2000余張作為數(shù)據(jù)集,其中1500張作為訓練集,500張作為測試集。
圖2展示的是室內(nèi)訓練模型的Learning Rate和Loss(avg)隨迭代次數(shù)的變化曲線。在室內(nèi)模型訓練時,首先用1.0×10-3的學習率進行了5000次迭代,然后繼續(xù)用5×10-4繼續(xù)迭代至24 000次,如圖2(a)所示。當?shù)螖?shù)達到20 000次以上,模型逐漸收斂,損失值趨于穩(wěn)定,從圖2(b)可以看出,最終的損失值在0.04左右。
圖2 訓練模型的Learning Rate和Loss(avg)變化曲線
經(jīng)過2.4萬次迭代之后,模型召回率趨于穩(wěn)定,最終在0.9左右,如圖3(a)所示,結(jié)合其它的迭代參數(shù)可以推測該模型已訓練完全,可用于后續(xù)的驗證測試。
圖3 訓練模型的Recall和Obj的變化曲線
將改進版的I-SSD與傳統(tǒng)的SSD及YOLO及Faster RCNN在預標注的測試機上測試準確率,如圖4所示,可以看出無論是在訓練時提取特征的效率上,還是在測試時的準確度上,改進版的SSD效果明顯優(yōu)于其它檢測模型。
圖4 不同對比算法的準確率比較
對SSD和I-SSD在同一樣的數(shù)據(jù)集上訓練到收斂,并對自然電力作業(yè)場景下進行目標檢測,從圖5中可以看出,傳統(tǒng)的SSD對諸如安全帽、手套等小目標識別效果不夠穩(wěn)定,而改進版的I-SSD對小目標的識別能力有較大提高,對于大目標也能有較穩(wěn)定的識別能力。
圖5 目標檢測的可視化結(jié)果比較
圖6顯示了迭代2.4萬次的I-SSD深度網(wǎng)絡模型在實時視頻流中的識別效果。該系統(tǒng)可以在視頻幀中檢測到指定目標并且?guī)誓鼙3衷?5 fps左右,能夠滿足項目對于實時性方面的要求。
圖6 深度網(wǎng)絡模型在實時視頻流中的識別結(jié)果
為了模擬電力作業(yè)現(xiàn)場,本文讓不同實驗人員穿戴上不同的安全裝備并在攝像頭范圍內(nèi)隨機行走,模擬戶外電力作業(yè)場景和作業(yè)行為,測試訓練出的分類模型在不同背景光線、距離條件下模型對穿戴護具的識別效果。
從圖6可以看出,手套相對于整個視頻幀中面積是很小的,具有極低分辨率的特點,然而I-SSD算法仍能準確地識別出來。同時,通過人臉識別的結(jié)果與行人的ID綁定后,使人臉信息一直在當前的檢測結(jié)果中,且具有很強的抗遮擋能力。
為驗證本算法在電力監(jiān)控場景下的檢測效果和時間復雜度,為了檢測頭盔,護目鏡和手套等極小目標,本項目從5個電力智能安監(jiān)現(xiàn)場20個攝像頭采集2小時的監(jiān)控視頻,并對數(shù)據(jù)集進行了標準整理,形成面向電力安監(jiān)的極小目標檢測數(shù)據(jù)集。該數(shù)據(jù)集共包含20萬張圖像,其分辨率為352×288像素,其中18萬張作為訓練集,剩余的作為測試集。該數(shù)據(jù)集共含有268個工作人員,35萬個人體實例,戴頭盔的行人約29萬個,戴手套的行人約32萬個,戴護目鏡的行人約27萬個。護目鏡的最小分辨率為18×7,手套的最小分辨率約為23×10,頭盔的最小分辨率約為 42×25 等。上述在ReID數(shù)據(jù)集上訓練的行人檢測算法得到的模型參數(shù)作為本數(shù)據(jù)集初始化參數(shù)。模型訓練參數(shù)設置保持不變。在圖像增強算法中,參數(shù)λ=0.5。實驗對比算法選擇當前速度最快的基于CNN的目標檢測算法SSD[11]和YOLO[12],見表2。I-SSD為本文改進算法,BG表示背景建模,SR表示基于稀疏表示模型的圖像超分變率算法。從表2中可以看出,本文方法在準確率和召回率等指標上取得最佳,同時也滿足了項目實時性的需求。
表2 監(jiān)控視頻場景測試結(jié)果
針對電力作業(yè)現(xiàn)場的智能安監(jiān)問題,本文提出了一個面向電力智能安監(jiān)的極低分辨率目標檢測算法。該方法使用google發(fā)布的Inception模塊替換了原SSD中VGG16的額外層,同時也改進了SSD的輸出層,提高了SSD對于視頻幀中極低分辨率的小目標的識別性能。通過與其它特征提取網(wǎng)絡對比檢測效果,可發(fā)現(xiàn)I-SSD在準確率方面有較大的提高;同時該檢測模型相較于Faster RCNN和YOLO,在同等條件的硬件GPU環(huán)境下,該檢測框架比其它兩類主流的檢測框架具有明顯的速度優(yōu)勢。