孫宏偉 王彥生 焦良葆 劉子恒 張智堅(jiān) 孟 琳,2
(1.南京工程學(xué)院人工智能產(chǎn)業(yè)技術(shù)研究院 南京 211167)(2.江蘇省智能感知技術(shù)與裝備工程研究中心 南京 211167)
隨著5G 通訊技術(shù)和新能源汽車的發(fā)展,電力需求量日益增加。在電力系統(tǒng)前端,尤其是具有安全風(fēng)險的礦井、發(fā)電廠和變電站等環(huán)境中,電能在大量產(chǎn)出的同時也伴隨著風(fēng)險的提高[1]。據(jù)國家能源局發(fā)布的2021 年1 月至10 月份的全國電力安全生產(chǎn)情況報告:全國電力系統(tǒng)發(fā)生人身傷亡事故32 起,死亡37 人;電力生產(chǎn)部分23 起,死亡26 人,占比達(dá)到71.9%。其中人員疏忽大意、違規(guī)進(jìn)行生產(chǎn)活動所引起的事故占總事故的48.3%[2],提高安全監(jiān)管制度的效能可以顯著降低此類事故的發(fā)生。
由于現(xiàn)代視頻監(jiān)控技術(shù)的發(fā)展,電力生產(chǎn)部門大范圍的使用視頻監(jiān)控系統(tǒng)[3]。同時也配備了相應(yīng)的監(jiān)管部門,通過視頻監(jiān)控對廠區(qū)內(nèi)存在的風(fēng)險隱患及時的進(jìn)行發(fā)現(xiàn)、排查。然而,排查大量的視頻數(shù)據(jù)并尋找問題所在屬于長期視頻終端類工作,此類工作極易引起人的視覺疲勞,出現(xiàn)VDT 綜合癥:視力模糊、工作學(xué)習(xí)效率下降等癥狀[4],引起監(jiān)管人員對環(huán)境狀態(tài)的誤判和漏判。因此需要開發(fā)一套能夠識別人員行為狀態(tài),判斷行為安全類別的自動檢測系統(tǒng)。
近年來,卷積神經(jīng)網(wǎng)絡(luò)被廣泛應(yīng)用于目標(biāo)檢測方面,主要分為以Faster RCNN[5]為代表的Two stage和以YOLO[6]為代表的One stage兩大類[7]。前者首先生成大量候選框,再利用回歸和分類對候選區(qū)域進(jìn)行處理,具有較高的精度;后者無需生成大量候選框,而是將特征提取、目標(biāo)分類和位置回歸工作直接合并,加快了算法的檢測速度。2017 年Tsung-Yi Lin 等針對One stage 網(wǎng)絡(luò)訓(xùn)練中樣本失衡問題提出Focal Loss 算法[8],實(shí)現(xiàn)了One stage 網(wǎng)絡(luò)精度的極大提高,大幅縮小了和Two stage 網(wǎng)絡(luò)的精度差距?,F(xiàn)階段,大量檢測算法的發(fā)展,推動了利用卷積神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)監(jiān)控系統(tǒng)的智能化建設(shè)[9]。
火力發(fā)電廠內(nèi)存在大型設(shè)備,廠區(qū)面積大,人物目標(biāo)在監(jiān)控畫面中所占比例較小的問題,傳統(tǒng)的目標(biāo)檢測方案容易出現(xiàn)小目標(biāo)特征提取不足,模型檢測能力變差[10]。本文提出槍球聯(lián)動機(jī)制,提高目標(biāo)的像素占比,降低算法的檢測難度;同時,針對工業(yè)環(huán)境下部署大型GPU 服務(wù)器較為困難,對YO?LOv5s 進(jìn)行改進(jìn),降低模型資源占用,加快模型預(yù)測速度,實(shí)現(xiàn)模型在輕量型邊緣計算設(shè)備上的實(shí)時預(yù)測,滿足廠區(qū)內(nèi)大量監(jiān)控攝像頭的計算需求。
槍機(jī)具備廣視角和高成像質(zhì)量的優(yōu)勢,適合用于大范圍監(jiān)控;球機(jī)具備轉(zhuǎn)動和變焦能力,適合用于對目標(biāo)進(jìn)行特寫處理。對此,本文提出槍球聯(lián)動機(jī)制:利用槍機(jī)對目標(biāo)位置進(jìn)行跟蹤檢測,球機(jī)獲取坐標(biāo)后對目標(biāo)進(jìn)行光學(xué)放大處理,獲得較為清晰的目標(biāo)圖像。
光學(xué)設(shè)備在設(shè)計、制造和安裝過程中會引入畸變,畸變不影響設(shè)備的成像質(zhì)量,但會引起像素坐標(biāo)位置的改變,其畸變程度也會呈現(xiàn)非線性關(guān)系,越遠(yuǎn)離成像中心,畸變程度越大[11],如圖1。在槍球聯(lián)動系統(tǒng)中,槍機(jī)需要給球機(jī)提供較為準(zhǔn)確的像素坐標(biāo)位置,而槍機(jī)使用的廣角鏡頭帶來的畸變,嚴(yán)重影響了對目標(biāo)的定位能力。本文所使用的??低昳DS-2SE7C144MW-D 系列槍球一體機(jī),其槍機(jī)存在明顯的桶形畸變?nèi)鐖D2。
圖1 桶形畸變
圖2 ??低昳DS-2SE7C144MW-D畸變
對畸變可以利用式(1)~(3)進(jìn)行數(shù)學(xué)描述:
式(1)~(3)中(xd,yd)為畸變點(diǎn)的成像位置,(Dxr,Dyr)為徑向畸變量,(Dxt,Dyt)為離心畸變量,(Dxp,Dyp)薄棱鏡畸變,(Dx,Dy)為總畸變量。獲得畸變點(diǎn)位置和畸變量的對應(yīng)關(guān)系后,由此可以展開對槍機(jī)成像的畸變校準(zhǔn)如圖3。
圖3 實(shí)際坐標(biāo)和成像坐標(biāo)
在槍球聯(lián)動系統(tǒng)中,槍機(jī)和球機(jī)存在安裝位置不相同,無法簡單用一個坐標(biāo)系統(tǒng)進(jìn)行位置描述的問題。因此,需要對槍機(jī)和球機(jī)的坐標(biāo)系統(tǒng)進(jìn)行位置匹配[12]。借助歐氏距離計算槍機(jī)四個頂點(diǎn)位置像素信息和球機(jī)當(dāng)前畫面的差異大小,球機(jī)初始化轉(zhuǎn)動一周后,獲得四個頂點(diǎn)對應(yīng)歐氏距離最小時刻的球機(jī)位置,記為匹配坐標(biāo)點(diǎn)(Xmin,Ymin,Xmax,Ymax)。即可利用式(4)~(5)對兩個坐標(biāo)系統(tǒng)進(jìn)行關(guān)聯(lián)匹配:
式(4)~(5)中(kx,ky)為匹配比例,(Xr,Yr)為匹配后球機(jī)坐標(biāo)系的目標(biāo)位置,(Xg,Yg)為匹配前槍機(jī)坐標(biāo)系的目標(biāo)位置,(width,hight)為槍機(jī)輸出尺寸。
YOLOv5s共有五個版本,分別是YOLOv5l、YO?LOv5m、YOLOv5n、YOLOv5s以及YOLOv5x,其差異在于網(wǎng)絡(luò)深度和寬度的不同[13]。其中,YOLOv5s的深度和寬度比例分別為0.33 和0.50,是YOLOv5 系列中較為輕量的模型[14]。YOLOv5sV6(下文簡稱YOLOv5s)版本為當(dāng)前最新版本,相較5.0 版的YO?LOv5,新版本所有模型的平均精度均值mAP(mean Average Precision,mAP)提高了0.3%~1.1%,F(xiàn)LOPs 減少了約5%,減少了資源占用,輕微的提升了推理速度。YOLOv5s 擁有213 層網(wǎng)絡(luò)如圖4,包含Conv、CSP、SPFF和Upsample模塊,在640*640的輸入下,網(wǎng)絡(luò)參數(shù)共7.03M。
圖4 YOLOv5s網(wǎng)絡(luò)結(jié)構(gòu)
YOLOv5s網(wǎng)絡(luò)模型中有三個不同尺度的輸出,分別是80*80(640/8)、40*40(640/16)以及20*20(640/32)。同時,網(wǎng)絡(luò)中設(shè)置了三個不同大小的預(yù)置框,利用三個預(yù)置框來對三個尺度的輸出分別進(jìn)行檢測,以此提高系統(tǒng)對不同尺度目標(biāo)的檢測能力。其中,80*80 尺度的輸出在網(wǎng)絡(luò)模型中歷經(jīng)更少的卷積層,包含較多的低層信息,適合用來檢測小尺度目標(biāo),因此,利用最小尺寸的預(yù)置框在該尺度中進(jìn)行小目標(biāo)檢測效果較好;而20*20 尺度的輸出,原始圖片信息在經(jīng)歷大量卷積操作后,會保留高層信息,如結(jié)構(gòu)、輪廓等,此類信息適合用于大尺度目標(biāo)的檢測,所以使用最大規(guī)格的預(yù)置框來在該尺度輸出上檢測大尺度目標(biāo)。
本文中待檢測行為如抽煙和安全帽佩戴等均為小尺寸目標(biāo)檢測范疇[15],其特征在深層卷積中容易丟失,引發(fā)漏報[16],這給檢測網(wǎng)絡(luò)帶來了很大困難。對此,本文修改預(yù)設(shè)anchors,刪除了最大的預(yù)設(shè)anchors,將最小預(yù)設(shè)anchors 由[10*13,16*30,33*23]修改為[3*4,4*8,6*4]。修改后的三種an?chors 分別為[3*4,4*8,6*4]、[10*13,16*30,33*23]以及[30*61,62*45,59*119],考慮到檢測環(huán)境為視頻監(jiān)控畫面,監(jiān)控中的待檢測目標(biāo)尺度均很小,因此本文拋棄最大的anchors,加強(qiáng)對小尺寸目標(biāo)的檢測能力。
在YOLOv5s 中,CSP 層 中 大 量 使 用 了Bottle?Neck 模塊,每個BottleNeck 模塊有兩個CBS 模塊,分別為1*1 和3*3。如圖5,該模塊利用1*1 的卷積模塊對輸入通道進(jìn)行壓縮,實(shí)現(xiàn)數(shù)據(jù)的降維操作,以此降低3*3 卷積層的計算復(fù)雜度,實(shí)現(xiàn)在深度較高的網(wǎng)絡(luò)中減少參數(shù)的數(shù)量,從而減少計算量[17]。在YOLOv5s 中,CSP 模塊在調(diào)用BottleNeck 后繼續(xù)接入數(shù)個CBS 模塊,CBS 功能模塊能夠?qū)崿F(xiàn)對輸入進(jìn)行特征提取的功能,仔細(xì)研究BottleNeck 模塊的計算邏輯不難發(fā)現(xiàn),為了降低計算量,該模塊對輸入首先進(jìn)行降維處理,然后利用CBS 進(jìn)行特征提取,提取完成后在進(jìn)行一次升維,因此,BottleNeck模塊中的3*3CBS模塊是對降維后的數(shù)據(jù)進(jìn)行特征提取,其相較CSP模塊中的其他CBS特征提取能力會更差。
圖5 BottleNeck作用原理
本文針對BottleNeck 模塊進(jìn)行修改,提出Bot?tleNeck-S,在卷積前加入BN-SiLU 結(jié)構(gòu)如圖6,此舉操作引入了BN-SiLU-weight 網(wǎng)絡(luò)結(jié)構(gòu),在文獻(xiàn)[18]中通過大量實(shí)驗(yàn)證實(shí)了此種網(wǎng)絡(luò)結(jié)構(gòu),可以帶來更好的性能。同時刪除3*3CBS 模塊,將特征提取的重點(diǎn)放置到BottleNeck 外,通過犧牲部分網(wǎng)絡(luò)性能來進(jìn)一步降低網(wǎng)絡(luò)模型參數(shù),加快預(yù)測速度。
分別取9個發(fā)育時期的‘索邦’花被片在液氮條件下充分研磨,然后用EASY Spin Plus植物RNA快速提取試劑盒(艾德萊,北京)提取花被片及各器官組織總RNA,并反轉(zhuǎn)錄成cDNA,置于 -20℃ 冰箱保存、備用。
圖6 BottleNeck修改前后對比
本文槍球聯(lián)動系統(tǒng)使用海康威視iDS-2SE7C144MW-D。網(wǎng)絡(luò)模型訓(xùn)練平臺搭建在GPU 運(yùn)算服務(wù)器上,硬件配置為AMD Ryzen Threadripper 3970X 32-Core,NVIDIA GeForce RTX 3090 顯 卡*3,128Gb 內(nèi) 存。軟 件 配 置 為Ubun?tu18.04 版本系統(tǒng),CUDDN 版本為8.0.5,CUDA 版本為11.5。
本文使用數(shù)據(jù)集是從視頻監(jiān)控截取的實(shí)時圖片,共計7341 張,包含cap、head、mask、face、map、fall和cigarette七大類。
本文模型精度評價指標(biāo)使用查全率(Recall,R)、查準(zhǔn)率(Precision,P)和平均精度均值。為了解釋P、R 和mAP,本文引入如下四個變量。TP 為真實(shí)值為正例且預(yù)測值為正例的樣本數(shù)量;FP 為真實(shí)值為反例但預(yù)測值為正例的樣本數(shù)量;FN 為真實(shí)值為正例但預(yù)測值為反例的樣本數(shù)量;TN 為真實(shí)值為反例且預(yù)測值為反例的樣本數(shù)量。則有如下定義:
查全率如式(6),表示所有樣本中正例被正確識別的比例。
查準(zhǔn)率如式(7),表示所有被檢測為正例的樣本中,檢測正確的比例:
平均精度均值如式(8),表示各類的檢測器PR曲線下面積占比的平均值,該指標(biāo)可以關(guān)聯(lián)P、R指標(biāo),展現(xiàn)模型性能:
其中,∑r=1,Pri表示PR 曲線上R=r-i時對應(yīng)P的數(shù)值。
這三個指標(biāo)越高,說明模型的檢測性能越強(qiáng),檢測結(jié)果越好。依據(jù)模型訓(xùn)練日志繪制如圖7。
圖7 中(a)和(b)分別為模型訓(xùn)練過程的P、R和mAP,其中old 為原始的YOLOv5s 網(wǎng)絡(luò)模型,new為修改后的YOLOv5s-light網(wǎng)絡(luò)模型。從圖中可以看出,YOLOv5s-light網(wǎng)絡(luò)模型收斂速度會較慢,但最終P、R 性能和原始網(wǎng)絡(luò)十分接近,mAP0.5 差距也很小,mAP0.5:0.95較原始網(wǎng)絡(luò)有些許下降,但此部分對于網(wǎng)絡(luò)模型實(shí)際檢測結(jié)果影響較小,因此二者的性能指標(biāo)十分接近。由此說明,YOLOv5slight網(wǎng)絡(luò)模型在模型精度上并未出現(xiàn)明顯降低。
圖7 模型指標(biāo)
為了進(jìn)一步體現(xiàn)YOLOv5s-light網(wǎng)絡(luò)模型的優(yōu)勢,我們設(shè)置了如下的對照實(shí)驗(yàn):使用常見的YO?LOv3,YOLOv4-tiny 以及YOLOv5s 網(wǎng)絡(luò)模型,用同一批數(shù)據(jù)集進(jìn)行訓(xùn)練評測。最終從模型參數(shù)量、權(quán)重文件大小、P、R、mAP 以及推理時間來綜合評價各個模型,對比結(jié)果如表1。
由表1 中實(shí)驗(yàn)數(shù)據(jù)可知,YOLOv3 網(wǎng)絡(luò)模型的性能指標(biāo)最高,比YOLOv5s-light 在mAP 上高了0.8%,但其模型不屬于輕量級模型,參數(shù)量龐大,硬件資源占用高,推理耗時較YOLOv5s-light 增加了181%;YOLOv4-tiny 在推理時間上花費(fèi)最少,但其網(wǎng)絡(luò)模型精度較YOLOv5s-light 降低了21.7%;YO?LOv5s-light 相較YOLOv5s,模型參數(shù)下降了30%,權(quán)重文件大小減小了28.1%,查準(zhǔn)率上升了1.3%,查全率下降了3.3%,雖然最終mAP由0.967下降到0.962,降低了0.5%,但推理耗時由1.4ms 下降到1.1ms,推理速度提高了21.4%。
表1 對照實(shí)驗(yàn)
為了驗(yàn)證YOLOv5s-light 的普遍適用性,本文同時選用了擁擠行人場景的公開數(shù)據(jù)集WiderPer?son 進(jìn)行測試,該數(shù)據(jù)集包含帶標(biāo)簽的圖片8999張,區(qū)分pedestrians、riders、partially-visible persons、ignore regions 以及crowd 五大類,共計約40 萬個標(biāo)注數(shù)據(jù)。利用YOLOv5s 和YOLOv5s-light 進(jìn)行對比試驗(yàn),如表2。
表2 WiderPerson數(shù)據(jù)集對比實(shí)驗(yàn)結(jié)果
由表2 中的實(shí)驗(yàn)數(shù)據(jù)可知,在公開數(shù)據(jù)集Wi?derPerson 上,YOLOv5s-light 較YOLOv5s 在 模 型mAP 和PR 均有下降,mAP 指標(biāo)降低了3.3%;推理耗時由1.2ms 下降到1.0ms,推理速度提高16.7%,符合上文模型性能特點(diǎn)。
本文通過修改預(yù)置框,提出BottleNeck-S 殘差卷積模塊,依賴模型使用環(huán)境,降低模型復(fù)雜度同時保持模型精度平緩變化。如圖8,分析可知,原YOLOv5s 模型生成的預(yù)測框如圖8(a),在窗簾、墻面、樹木等背景位置出現(xiàn)大量低置信度的head 和cigarette預(yù)測框;改進(jìn)后的YOLOv5s-light網(wǎng)絡(luò)如圖8(b)在無效預(yù)測框的控制上明顯優(yōu)于原始網(wǎng)絡(luò),尤其在背景處的無效框大幅減少,大部分檢測框均位于目標(biāo)周圍。
圖8 模型推理結(jié)果分析
綜上所述,YOLOv5s-light 相較于YOLOv5s 更加輕量化,模型推理速度大幅提高的同時,模型精度僅有輕微下降。由于參數(shù)的降低,在硬件資源占用上對邊緣設(shè)備部署十分友好,很容易部署在邊緣計算設(shè)備上。
單純的YOLOv5s 和YOLOv5s-light 都存在對檢測畫面中的小目標(biāo)檢測能力不足的問題,本文在小目標(biāo)檢測方向提出槍球聯(lián)動機(jī)制,增加整個系統(tǒng)對小目標(biāo)的檢測能力,評價指標(biāo)使用查全率、查準(zhǔn)率和平均精度均值,依據(jù)模型評價日志總結(jié)如表3。
表3 槍球聯(lián)動機(jī)制對照
由表3 分析可知,在引入槍球聯(lián)動機(jī)制后,網(wǎng)絡(luò)對目標(biāo)的查全率上升了2.8%,查準(zhǔn)率上升了0.5%,mAP 上升了1.9%。槍球聯(lián)動機(jī)制從尺度層面加強(qiáng)了系統(tǒng)對目標(biāo)的檢測能力,實(shí)現(xiàn)了更高的查全率,尤其加強(qiáng)了系統(tǒng)對小目標(biāo)的檢測能力。
針對目前廠區(qū)監(jiān)控畫面中待檢測目標(biāo)太小,常見檢測算法無法有效檢測的情況,本文提出了槍球聯(lián)動機(jī)制,對待檢測目標(biāo)進(jìn)行光學(xué)放大,以此來彌補(bǔ)檢測算法對小目標(biāo)檢測的不足。與此同時,針對現(xiàn)階段模型復(fù)雜度高,無法滿足邊緣計算設(shè)備實(shí)時檢測的需求,本文提出YOLOv5s-light網(wǎng)絡(luò)模型,對原始YOLOv5s 網(wǎng)絡(luò)模型進(jìn)行進(jìn)一步輕量化操作,實(shí)現(xiàn)模型參數(shù)下降30%,推理時間縮短21.4%,模型精度僅有輕微下降。最終,實(shí)現(xiàn)整套系統(tǒng)mAP提高了1.5%,模型大小下降28.1%,滿足輕量化的設(shè)計要求。下一步的研究重點(diǎn)是在面對多目標(biāo)重疊、遮擋時,在保證速度的前提下,對模型識別能力進(jìn)行進(jìn)一步優(yōu)化,提高識別能力。