蘇晨陽,武文紅,牛恒茂,石 寶,郝 旭,王嘉敏,高 勒,汪維泰
1.內(nèi)蒙古工業(yè)大學(xué)信息工程學(xué)院,呼和浩特 010080
2.內(nèi)蒙古建筑職業(yè)技術(shù)學(xué)院建筑工程測(cè)繪學(xué)院,呼和浩特 010080
建筑業(yè)作為世界上最危險(xiǎn)的行業(yè)之一,其生產(chǎn)安全事故頻發(fā),導(dǎo)致了眾多損失,根據(jù)中華人民共和國(guó)住房和城鄉(xiāng)建設(shè)部的統(tǒng)計(jì)數(shù)據(jù),2020年,全國(guó)共發(fā)生房屋市政工程生產(chǎn)安全事故689起,死亡794人,88%的建筑安全事故是由工人的不安全行為所引起的[1]。所以為了更好地保障工人與環(huán)境的安全,需要對(duì)不安全行為進(jìn)行外部條件的監(jiān)督。
對(duì)于傳統(tǒng)識(shí)別方法,早期通過傳感器來判斷工人與器材的位置,如在帽殼和帽襯間設(shè)置壓力傳感器[2],并與控制模塊連接,檢測(cè)工人是否佩戴安全帽,但這類方法人員與設(shè)備成本投入量大,且定位精度不高。后來發(fā)展出利用圖像處理技術(shù)來進(jìn)行不安全行為的識(shí)別,如用HOG 或基于顏色的手動(dòng)特征方法提取安全帽的形狀、顏色信息,送入分類器中進(jìn)行識(shí)別,使用Kinect 傳感器[3-4]將動(dòng)作活動(dòng)高頻關(guān)節(jié)構(gòu)建特征模型。使用HOG特征和人體重心[5]變化建模,利用SVM 進(jìn)行分類,識(shí)別工人的跌倒情況?;谑謩?dòng)特征的傳統(tǒng)行為識(shí)別方法較為依賴特征的選擇和提取,若研究人員對(duì)特定領(lǐng)域了解不夠,很容易忽略關(guān)鍵的特征點(diǎn),且識(shí)別速度和準(zhǔn)確率較低,在復(fù)雜施工環(huán)境下效果并不出色。
隨著技術(shù)發(fā)展,結(jié)合深度學(xué)習(xí)進(jìn)行的不安全行為識(shí)別逐漸出現(xiàn),從多種個(gè)人防護(hù)設(shè)備的佩戴情況到各類違規(guī)行為,出現(xiàn)了許多研究,劉浩等[6]運(yùn)用了多種深度學(xué)習(xí)框架,包括YOLOv3和ST-GCN來識(shí)別煤礦井下的工人多種不安全行為,含安全設(shè)備的佩戴和摔倒、跌落、疲勞作業(yè)等,達(dá)到了85.2%的平均準(zhǔn)確率。王超等[7]也利用ST-GCN對(duì)空管工人伸懶腰、瞌睡、各種姿勢(shì)入睡的行為進(jìn)行有效識(shí)別。
綜上所述,深度學(xué)習(xí)方法可以方便地對(duì)工人多種不安全行為進(jìn)行識(shí)別,成為了目前的主流研究方向。
對(duì)多樣的不安全行為來說,不同的施工場(chǎng)地、不同的工種所需要注意的不安全行為并不相同,如高空作業(yè)的工人需要關(guān)注安全繩是否佩戴,而化工企業(yè)的工人不得在禁區(qū)吸煙。因此,對(duì)于不同種類的不安全行為,針對(duì)其特點(diǎn),需要用不同的深度學(xué)習(xí)方法來識(shí)別,目前來看,深度學(xué)習(xí)在不安全行為的識(shí)別應(yīng)用上主要有兩大方法,目標(biāo)檢測(cè)和行為識(shí)別。
目標(biāo)檢測(cè)輸入主要為靜態(tài)圖像,通過學(xué)習(xí)圖像特征,輸出目標(biāo)在圖像中的位置及類別。而行為識(shí)別輸入主要為視頻序列,針對(duì)具有時(shí)間上連續(xù)屬性的動(dòng)作進(jìn)行特征學(xué)習(xí),輸出行為的對(duì)應(yīng)類別。在需要檢測(cè)未佩戴安全帽這樣單幀圖片即可判斷的靜態(tài)狀態(tài)時(shí),目標(biāo)檢測(cè)更為合適,而當(dāng)需要識(shí)別打架等動(dòng)態(tài)的行為時(shí),行為識(shí)別的效果更好。據(jù)所研究的場(chǎng)景與需要針對(duì)的行為不同,選擇合適的深度學(xué)習(xí)方法是目前的主流研究手段,圖1為當(dāng)前不安全行為識(shí)別主流方法及其適用行為,表1列舉了當(dāng)前研究方法的優(yōu)勢(shì)和局限性分析。
圖1 不安全行為識(shí)別方法Fig.1 Unsafe behavior identification method
雖然不安全行為識(shí)別包含目標(biāo)檢測(cè)和行為識(shí)別兩種方法,但其同屬深度學(xué)習(xí)中的多分類任務(wù),可以引入混淆矩陣來為分類模型建立一套評(píng)價(jià)標(biāo)準(zhǔn),以簡(jiǎn)單的二分類舉例,混淆矩陣如表2。各個(gè)指標(biāo)的含義如下:TP,真實(shí)為正樣本,預(yù)測(cè)為正樣本;FN,真實(shí)為正樣本,預(yù)測(cè)為負(fù)樣本;FP,真實(shí)為負(fù)樣本,預(yù)測(cè)為正樣本;TN,真實(shí)為負(fù)樣本,預(yù)測(cè)為負(fù)樣本。
表2 混淆矩陣Table 2 Confusion matrix
基于此矩陣,有以下幾種評(píng)價(jià)指標(biāo):
準(zhǔn)確率(accuracy),即分類正確的樣本占總樣本個(gè)數(shù)的比例,計(jì)算公式為:
精確率(precision),指的是預(yù)測(cè)為正,真實(shí)情況也為正的樣本占被預(yù)測(cè)為正的樣本的比例,計(jì)算公式為:
召回率(recall),指的是實(shí)際為正的樣本中被預(yù)測(cè)為正的樣本所占實(shí)際為正的樣本的比例,計(jì)算公式為:
平均精度(average precision,AP),即為PR 曲線下的面積,計(jì)算公式為:
均值平均精度(mAP),指在多分類任務(wù)中,所有類別的AP的平均值。計(jì)算公式為:
檢測(cè)速度(FPS),即每秒可以處理的圖片數(shù)量。
1.2.1 目標(biāo)檢測(cè)方法
發(fā)展至今,目標(biāo)檢測(cè)已形成兩大模型,分別為二階段目標(biāo)檢測(cè)和一階段目標(biāo)檢測(cè)。二階段目標(biāo)檢測(cè)先進(jìn)行區(qū)域生成,后通過卷積神經(jīng)網(wǎng)絡(luò)分類,常見的有R-CNN[8]、Fast R-CNN[9]、Faster R-CNN[10]、Mask R-CNN[11]等;一階段目標(biāo)檢測(cè)通過一個(gè)網(wǎng)絡(luò)直接提取特征和分類,常見模型有YOLOv1[12]、YOLOv2[13]、YOLOv3[14]、YOLOv4[15]、YOLOv5、YOLOv7[16]、SSD[17]等。
對(duì)于二階段目標(biāo)檢測(cè),F(xiàn)aster R-CNN 是迭代升級(jí)的較新版本,其復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu)和檢測(cè)步驟帶來了較高的精度,但在速度上存在劣勢(shì),基于其改進(jìn)的Mask RCNN可以完成目標(biāo)檢測(cè)、實(shí)例分割等多種任務(wù),其模型結(jié)構(gòu)如圖2 所示,由殘差網(wǎng)絡(luò)提取特征,送入RPN 區(qū)域預(yù)測(cè)網(wǎng)絡(luò)生成錨框,通過全卷積層FCN 實(shí)現(xiàn)像素級(jí)別的分割,配合全連接層FC layers 得到分類信息和回歸框信息,綜合得到輸出結(jié)果。
圖2 Mask R-CNN模型Fig.2 Mask R-CNN model
Mask R-CNN雖然有著全面的能力和較高的精度,但復(fù)雜度較高的網(wǎng)絡(luò)并不利于算力資源有限的邊緣設(shè)備使用,而YOLO 系列在復(fù)雜度上具有優(yōu)勢(shì),其中的小型網(wǎng)絡(luò)版本如YOLOv5-n還可進(jìn)一步減輕資源消耗,成為了許多研究人員的選擇,其經(jīng)典框架分為主干網(wǎng)絡(luò)BackBone、頸部Neck 和頭部Head。其中主干網(wǎng)絡(luò)負(fù)責(zé)提取特征,Neck 層負(fù)責(zé)將淺層簡(jiǎn)單特征和深層語義特征融合,Head部分為檢測(cè)頭,分別負(fù)責(zé)大中小目標(biāo)的檢測(cè)。而廣泛應(yīng)用的YOLOv5 主要改進(jìn)之處是在輸入端引入了Mosaic數(shù)據(jù)增強(qiáng)和自適應(yīng)錨框計(jì)算以及圖片縮放,并且提出了Focus 結(jié)構(gòu),其核心在于切片操作,如圖3 所示,原始的640×640×3 圖像經(jīng)過切片后,變成320×320×12特征圖,隨后會(huì)經(jīng)過拼接和卷積操作,成為320×320×64 大小。通過該操作,平面上的信息會(huì)存儲(chǔ)在通道維度,在使用3×3 卷積核提取時(shí),可以減少下采樣帶來的信息損失。
圖3 Focus結(jié)構(gòu)Fig.3 Focus structure
以目前的研究?jī)?nèi)容來看,基于目標(biāo)檢測(cè)方法的不安全行為識(shí)別研究最常用的模型為Faster R-CNN、Mask R-CNN和YOLO系列。
1.2.2 行為識(shí)別方法
與目標(biāo)檢測(cè)相比,行為識(shí)別會(huì)加入時(shí)間特征來識(shí)別具有上下文聯(lián)系的動(dòng)作,或采用人體關(guān)鍵點(diǎn)來建立骨骼模型框架特征體系,因此行為識(shí)別常以視頻作為輸入。目前基于深度學(xué)習(xí)的行為識(shí)別方法可分為基于卷積神經(jīng)網(wǎng)絡(luò)的模型如3DCNN[18]、Ⅰ3D[19]、ST-GCN[20]等,基于循環(huán)神經(jīng)網(wǎng)絡(luò)如LSTM[21]等,基于雙流神經(jīng)網(wǎng)絡(luò)[22]如SlowFast[23]等,文獻(xiàn)[24]介紹了近年來群體行為識(shí)別模型的發(fā)展。
在不安全行為識(shí)別的應(yīng)用方面,卷積神經(jīng)網(wǎng)絡(luò)的優(yōu)點(diǎn)是通用、易于實(shí)現(xiàn),但在特征提取和表現(xiàn)能力上低于其他網(wǎng)絡(luò)。其分支圖卷積神經(jīng)網(wǎng)絡(luò)依據(jù)人體姿態(tài)來建模識(shí)別,如通過OPENPOSE算法對(duì)人體骨架進(jìn)行估計(jì),再利用圖卷積神經(jīng)網(wǎng)絡(luò)ST-GCN 進(jìn)行時(shí)序上的學(xué)習(xí),圖4 為ST-GCN 模型的網(wǎng)絡(luò)流程,引入可學(xué)習(xí)的權(quán)重矩陣,賦予鄰接矩陣A中重要節(jié)點(diǎn)較大的權(quán)重,之后與輸入骨骼特征送入GCN 中運(yùn)算,通過TCN 網(wǎng)絡(luò)進(jìn)行時(shí)間信息的聚合,得到行為分類。
圖4 ST-GCN模型Fig.4 ST-GCN model
這樣的方法在動(dòng)態(tài)不安全行為識(shí)別中得到了廣泛的應(yīng)用,但在于人體被遮擋時(shí),由于節(jié)點(diǎn)關(guān)聯(lián)不清晰,識(shí)別效果會(huì)明顯下降。因此雙流模型進(jìn)入了研究者視野,其提取兩路特征的能力可以從更多的角度建立特征模型,盡量避免了實(shí)際應(yīng)用中各種外界因素的干擾,在識(shí)別精度上有很高的效果。如圖5 所示,雙流模型SlowFast設(shè)計(jì)了兩條卷積神經(jīng)網(wǎng)絡(luò)線路,一條用來提取較慢的特征信息如顏色等,一條用來提取快速變化的特征信息如時(shí)間動(dòng)作等,其中慢通道還會(huì)接受來自快通道的信息進(jìn)行融合,模型性能出色,但分開處理兩路數(shù)據(jù)也讓計(jì)算量和訓(xùn)練消耗變得較大,是需要在實(shí)際應(yīng)用時(shí)優(yōu)化的問題。
圖5 SlowFast模型Fig.5 SlowFast model
此外循環(huán)神經(jīng)網(wǎng)絡(luò)長(zhǎng)短時(shí)記憶單元方法LSTM 在更長(zhǎng)的時(shí)間序列有著更好的表現(xiàn),因此被眾多研究者結(jié)合到卷積神經(jīng)網(wǎng)絡(luò)和雙流卷積神經(jīng)網(wǎng)絡(luò)中,不足之處是計(jì)算和訓(xùn)練所需要的資源和時(shí)間較多。
1.2.3 目標(biāo)檢測(cè)和行為識(shí)別的模型性能
在不安全行為識(shí)別領(lǐng)域,目標(biāo)檢測(cè)方法和行為識(shí)別方法中都有著很多模型可以使用,通常準(zhǔn)確率與精度是研究者需要考慮的因素,除此之外,不安全行為識(shí)別的應(yīng)用場(chǎng)所通常在戶外,部署在邊緣設(shè)備,這就對(duì)計(jì)算資源和算力有所要求。表3、表4 分別為目標(biāo)檢測(cè)和行為識(shí)別中部分模型在公開數(shù)據(jù)集上的性能表現(xiàn)。
表3 目標(biāo)檢測(cè)模型性能Table 3 Target detection model performance
表4 行為識(shí)別模型性能Table 4 Behavioral recognition model performance
從上述表格內(nèi)容可以看出目標(biāo)檢測(cè)模型中,YOLO系列在速度和復(fù)雜度上具有很大的優(yōu)勢(shì),且可以采用更大的網(wǎng)絡(luò)結(jié)構(gòu)來犧牲速度換取精度,具有很強(qiáng)的靈活性,適合部署在邊緣設(shè)備解決實(shí)際問題。而在行為識(shí)別模型中,3D卷積神經(jīng)網(wǎng)絡(luò)類的參數(shù)普遍較低,而雙流網(wǎng)絡(luò)和自注意力模型所需計(jì)算資源和參數(shù)數(shù)量較為龐大,符合高復(fù)雜度高精度的特點(diǎn)。
然而,在實(shí)際應(yīng)用研究中,因背景、數(shù)據(jù)集、待識(shí)別行為的不同,模型性能會(huì)出現(xiàn)與上述分析不同的表現(xiàn);同時(shí),隨著研究者的改進(jìn)方法不同,效果也會(huì)存在差異。因此,對(duì)于不同條件下的不安全行為識(shí)別應(yīng)用,分析各種方法與模型的效果,是本文的主要內(nèi)容。
1.3.1 基于目標(biāo)檢測(cè)方法的應(yīng)用研究
在不安全行為識(shí)別的應(yīng)用中,目標(biāo)檢測(cè)方法通常用來識(shí)別靜態(tài)行為,比如人員的位置、是否佩戴安全帽、人與器械間距離等。
孫勇[25]基于Faster R-CNN 構(gòu)建了建筑工人不安全行為檢測(cè)系統(tǒng),實(shí)現(xiàn)了對(duì)未佩戴安全帽、使用手機(jī)、進(jìn)入危險(xiǎn)區(qū)域、翻越護(hù)欄四類不安全行為的識(shí)別,在自建的真實(shí)場(chǎng)景數(shù)據(jù)集下mAP 值達(dá)到0.853。該模型的局限性在于精度和檢測(cè)速度較低,在配置平常的電腦上單幀圖片需要3 s左右才能識(shí)別。張博等[26]同樣將Faster RCNN 用于施工現(xiàn)場(chǎng)防止人車碰撞的危險(xiǎn),檢測(cè)工人位置,利用工人與卡車間的空間相關(guān)性計(jì)算碰撞的可能性,模型達(dá)到了98.5%的召回率,滿足實(shí)際應(yīng)用需求,但其不足之處在于數(shù)據(jù)為仿真現(xiàn)場(chǎng)拍攝,并未在實(shí)地取材,同時(shí)在遮擋和光照較差的環(huán)境下效果不佳。
可以看出,對(duì)包含了多個(gè)不安全行為的識(shí)別模型,其效果并不理想,平均均值精度較低,這是由于其實(shí)驗(yàn)中小樣本的不安全行為識(shí)別精度嚴(yán)重拉低了整體精度。因此,若想實(shí)現(xiàn)包含多類別不安全行為的識(shí)別,一定要保證數(shù)據(jù)集中各行為樣本的數(shù)量充足、比例穩(wěn)定。此外,二階段目標(biāo)檢測(cè)的速度有著天生劣勢(shì),近年來一階段目標(biāo)檢測(cè)發(fā)展較快,在很多數(shù)據(jù)集上速度,甚至精度都優(yōu)于二階段目標(biāo)檢測(cè),因此許多研究者選擇使用YOLO為代表的一階段目標(biāo)檢測(cè)來進(jìn)行研究。
常捷等[27]使用YOLOv3對(duì)加油站工人抽煙、打電話進(jìn)行識(shí)別,數(shù)據(jù)集覆蓋了加油站的多個(gè)角度,對(duì)工作人員與車主的不安全行為進(jìn)行了統(tǒng)一的識(shí)別,平均精度達(dá)到了84%,但對(duì)香煙這樣的小目標(biāo)檢測(cè)精度僅有67%。YOLOv4模型增加了自對(duì)抗訓(xùn)練,主動(dòng)添加噪聲增強(qiáng)模型的魯棒性,能夠在施工場(chǎng)景圖像質(zhì)量普遍較低的情況下獲得不錯(cuò)的性能,此外引入GⅠOU 損失函數(shù),通過最小封閉矩形,避免ⅠOU 等于0 時(shí)梯度消失的問題,一定程度上改善了對(duì)小目標(biāo)和復(fù)雜背景下的性能。王晨[28]使用YOLOv4 對(duì)安全帽是否佩戴、吸煙、使用手機(jī)三類行為進(jìn)行識(shí)別,實(shí)驗(yàn)的優(yōu)勢(shì)在于數(shù)據(jù)的采集考慮到了環(huán)境因素,在多個(gè)氣候環(huán)境下,采集了人群密集與零散的數(shù)據(jù),增強(qiáng)了數(shù)據(jù)的泛化能力,因此識(shí)別獲得了較好的效果,且對(duì)于天氣、光照、遮擋的情況有著很好的魯棒性,達(dá)到了0.92 的mAP 和26.2 的FPS,符合實(shí)時(shí)檢測(cè)的任務(wù)要求,但其局限性在于所需計(jì)算資源和配置較高,推理速度較慢,在邊緣設(shè)備部署具有一定難度。
近年來,其他基于目標(biāo)檢測(cè)方法的不安全行為識(shí)別研究對(duì)比見表5[29-34],分析可得,目標(biāo)檢測(cè)方法在識(shí)別靜態(tài)行為時(shí)有著更大優(yōu)勢(shì),二階段目標(biāo)檢測(cè)方法中的Faster R-CNN 模型使用RPN 網(wǎng)絡(luò)生成anchor,經(jīng)過回歸生成偏移量,確定候選框位置,之后RoⅠ-Pooling 收集anchor的proposals(即候選框坐標(biāo)),再進(jìn)行分類,精度雖然較高,但由于較為繁瑣的網(wǎng)絡(luò)步驟,在速度上存在劣勢(shì),實(shí)際應(yīng)用中通常不能滿足實(shí)時(shí)檢測(cè)的速度要求。而一階段目標(biāo)檢測(cè)方法如YOLO將目標(biāo)檢測(cè)轉(zhuǎn)變?yōu)榛貧w問題,將圖像整體作為輸入,利用NMS 非極大值抑制修正多目標(biāo)定位,通過一個(gè)網(wǎng)絡(luò)直接輸出結(jié)果,在復(fù)雜度上存在優(yōu)勢(shì),但在小目標(biāo)和背景復(fù)雜、遮擋條件下,效果會(huì)下降明顯,還需要增強(qiáng)圖像的多尺度特征提取能力,才能跟上應(yīng)用所需的精度要求。
表5 基于目標(biāo)檢測(cè)方法的不安全行為識(shí)別研究Table 5 Research on unsafe behavior recognition based on target detection methods
1.3.2 基于行為識(shí)別方法的應(yīng)用研究
行為識(shí)別模型對(duì)具有時(shí)間上下文聯(lián)系特征的動(dòng)作行為有良好表現(xiàn),因此在不安全行為識(shí)別的研究中,常常用來識(shí)別打架、各種器械的操作、身體動(dòng)作等動(dòng)態(tài)行為。
對(duì)基于卷積神經(jīng)網(wǎng)絡(luò)的不安全行為識(shí)別,張雷等[35]使用門控循環(huán)單元(GRU)與CNN結(jié)合形成的融合網(wǎng)絡(luò)對(duì)井下工作人員的摘帽子、扔?xùn)|西、抽煙、跑動(dòng)、行走、坐下、揮手、睡覺行為進(jìn)行識(shí)別,利用注意力機(jī)制的權(quán)重分配提升了準(zhǔn)確率。實(shí)驗(yàn)表明,模型對(duì)八種動(dòng)作識(shí)別的平均準(zhǔn)確率為97.37%,但模型對(duì)于動(dòng)作相似但節(jié)奏不同的動(dòng)作識(shí)別性能較差。
除了提取視頻流中的特征,利用人體關(guān)鍵骨骼點(diǎn)形成模型后送入圖卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)特征的方法也有很廣泛的應(yīng)用。劉耀等[36]對(duì)建筑工人的不安全爬梯行為進(jìn)行識(shí)別研究,包括身體過度傾斜,攜帶東西,背對(duì)梯子,用AlphaPose提取人體骨骼關(guān)鍵點(diǎn),ST-GCN進(jìn)行分類識(shí)別,達(dá)到了98.48%的準(zhǔn)確率。較高的準(zhǔn)確率表明了基于骨架數(shù)據(jù)的識(shí)別能夠更好地克服光照影響。
從上述研究可以看出,基于圖卷積神經(jīng)網(wǎng)絡(luò)的方法在識(shí)別動(dòng)態(tài)行為時(shí)有著較高的準(zhǔn)確率。但工人被遮擋時(shí),識(shí)別效果下降較多,應(yīng)考慮使用更高級(jí)的算法或優(yōu)化來得到工人被遮擋情況下的三維骨架信息,或采取多個(gè)方向的攝像頭獲取數(shù)據(jù),避免某一角度人員密集帶來的識(shí)別困難問題。
對(duì)基于循環(huán)神經(jīng)網(wǎng)絡(luò)的不安全行為識(shí)別,應(yīng)用最多的是LSTM 網(wǎng)絡(luò)。Kong 等[37]在研究中使用目標(biāo)跟蹤網(wǎng)絡(luò)Siammask 追蹤施工場(chǎng)地人群,然后利用改進(jìn)的Social-LSTM 預(yù)測(cè)人的運(yùn)動(dòng)軌跡,實(shí)現(xiàn)了在同一畫面中追蹤多人的效果,對(duì)可能出現(xiàn)的碰撞、臨邊等行為做出預(yù)警,但實(shí)驗(yàn)并未對(duì)安全設(shè)備的佩戴等常見行為做出識(shí)別。循環(huán)神經(jīng)網(wǎng)絡(luò)
對(duì)基于雙流神經(jīng)網(wǎng)絡(luò)的不安全行為識(shí)別,黃珍珍等[38]提出了一種雙流網(wǎng)絡(luò),分別使用空洞卷積和自注意力機(jī)制來提取特征,后進(jìn)行融合,對(duì)鐵路工人的走、跑、上下道以及跌倒進(jìn)行識(shí)別,總體識(shí)別率達(dá)到了98%。但上道和下道以及走路因動(dòng)作本身的相似性,易造成誤識(shí)別,且未對(duì)真實(shí)情況下的鐵路務(wù)工人員檢測(cè)試驗(yàn)。
表6 為近年來其他基于行為識(shí)別方法的不安全行為識(shí)別研究?jī)?nèi)容對(duì)比[39-42]。從研究來看,行為識(shí)別的優(yōu)勢(shì)在于準(zhǔn)確率較高,但其仍然面臨著許多挑戰(zhàn):一是在施工環(huán)境下人員背景混亂,遮擋問題嚴(yán)重;二是用于數(shù)據(jù)的視頻圖像質(zhì)量不高,影響識(shí)別效果;三是當(dāng)模型同時(shí)處理多目標(biāo)的定位和動(dòng)作識(shí)別時(shí),由于輸入為三維數(shù)據(jù),消耗資源較多,工作量很大;四是很多動(dòng)作本身極為相似,誤判概率高,并且缺少對(duì)未佩戴安全設(shè)備這樣的靜態(tài)行為的識(shí)別,因此可以考慮引入目標(biāo)檢測(cè)模型為行為識(shí)別模型提供效果更好、復(fù)雜度更低的人員定位功能。
表6 基于行為識(shí)別方法的不安全行為識(shí)別研究Table 6 Research on identification of unsafe behaviors based on behavioral recognition methods
1.3.3 基于目標(biāo)檢測(cè)和行為識(shí)別結(jié)合的不安全行為識(shí)別方法
為了更全面地識(shí)別不安全行為,很多研究者開始使用兩種方法結(jié)合來研究,即使用目標(biāo)檢測(cè)定位工人及檢測(cè)靜態(tài)不安全行為,使用行為識(shí)別分析動(dòng)態(tài)不安全行為,互相彌補(bǔ)彼此一定的局限性,并且某些行為可以分別用兩種方法實(shí)現(xiàn),比如抽煙這一違規(guī)動(dòng)作,既可以用目標(biāo)檢測(cè)模型去檢測(cè)煙頭出現(xiàn)在人手中的這一畫面,也可以用行為識(shí)別來判斷是否有將煙拿到嘴邊的動(dòng)作。
對(duì)基于二階段目標(biāo)檢測(cè)與行為識(shí)別的結(jié)合,蘇洪超[43]在雙流網(wǎng)絡(luò)的前端引入Faster R-CNN,解決了前者不能在一幅圖像中識(shí)別多目標(biāo)的不安全行為問題,進(jìn)而實(shí)現(xiàn)了工人的動(dòng)靜態(tài)不安全行為混合識(shí)別,輸入的視頻流一路進(jìn)入目標(biāo)檢測(cè)網(wǎng)絡(luò),獲取多個(gè)目標(biāo)位置,另一路計(jì)算運(yùn)動(dòng)歷史圖像,經(jīng)過判斷動(dòng)靜態(tài)情況后送入對(duì)應(yīng)模型進(jìn)行不安全行為分類,通過引入目標(biāo)檢測(cè)方法,解決了同一場(chǎng)景下多目標(biāo)行為識(shí)別問題,實(shí)現(xiàn)了多種類的不安全行為識(shí)別。但未對(duì)模型的速度和精度進(jìn)行優(yōu)化,在實(shí)際使用中檢測(cè)速度較慢,需要算力較高,且不支持對(duì)雙人交互的危險(xiǎn)動(dòng)作識(shí)別。
對(duì)于性能較強(qiáng)的MaskR-CNN,郁潤(rùn)[44]使用該模型和LSTM網(wǎng)絡(luò)構(gòu)建識(shí)別方法,其中Mask R-CNN網(wǎng)絡(luò)負(fù)責(zé)檢測(cè)各類實(shí)體,如工人、梯子、挖土機(jī)等,LSTM 網(wǎng)絡(luò)負(fù)責(zé)對(duì)工人的行為進(jìn)行分類。模型選取施工現(xiàn)場(chǎng)兩項(xiàng)常見的不安全行為,即在梯子上爬得過高與安全帶使用不當(dāng)來進(jìn)行檢測(cè),實(shí)驗(yàn)中發(fā)現(xiàn),對(duì)工人、梯子和行走動(dòng)作的檢測(cè)精度較高,不足之處在于對(duì)安全帶的是否佩戴識(shí)別效果較差,平均精度為60.4%,這是由于安全帶的解掛動(dòng)作與其他日常動(dòng)作相似,容易造成誤判的效果,并且由于實(shí)驗(yàn)所用相機(jī)基于紅外原理,在室外施工場(chǎng)景使用時(shí)存在局限性。
可以看出,Mask R-CNN的優(yōu)勢(shì)在于其兼具動(dòng)靜態(tài)行為的識(shí)別能力,但其特征是從單一視圖上提取,特征的多樣化程度不夠,并且由于較大的網(wǎng)絡(luò)復(fù)雜度,其推理速度和消耗資源不理想,而YOLO系列作為一階段目標(biāo)檢測(cè)模型的優(yōu)秀代表,在速度與精度上都有良好的表現(xiàn),可以很方便地與行為識(shí)別方法結(jié)合應(yīng)用。
張萌[45]使用改進(jìn)的YOLOv4為基礎(chǔ),識(shí)別建筑工人安全帽和安全帶的穿著情況,用ST-GCN識(shí)別工人腳手架正常施工、高空探身和攀爬行為,并分別對(duì)目標(biāo)檢測(cè)和行為識(shí)別方法進(jìn)行了優(yōu)化,使得檢測(cè)速度和精度上升,達(dá)到動(dòng)態(tài)視頻檢測(cè)的要求,但不足之處在于沒有拍攝不利環(huán)境下的測(cè)試,泛化性有待提高,且對(duì)小目標(biāo)的對(duì)象和險(xiǎn)態(tài)行為的識(shí)別精度不高。孟維等[46]使用YOLOv5對(duì)人體進(jìn)行跟蹤,用OPENPOSE算法和ST-GCN網(wǎng)絡(luò)實(shí)現(xiàn)人體行為的識(shí)別,包括正常行為與摔倒動(dòng)作,模型部署簡(jiǎn)單,但未對(duì)實(shí)際應(yīng)用中可能出現(xiàn)的各類阻礙因素如光照、粉塵、遮擋等情況做出優(yōu)化。
近年來,其他基于目標(biāo)檢測(cè)和行為識(shí)別結(jié)合方法的不安全行為識(shí)別研究?jī)?nèi)容對(duì)比見表7[47-52],綜合上述研究,結(jié)合了目標(biāo)檢測(cè)的行為識(shí)別模型在多人員場(chǎng)景下的定位追蹤能力得到了很大的提升,并且能夠檢測(cè)安全設(shè)備佩戴問題和多種違規(guī)危險(xiǎn)動(dòng)作。但在網(wǎng)絡(luò)的進(jìn)一步優(yōu)化上存在難點(diǎn),兩種方法的輸入可能不同,提取的特征種類也有區(qū)別,如何協(xié)調(diào)兩方法的內(nèi)部結(jié)構(gòu),實(shí)現(xiàn)多尺度特征的相互融合以達(dá)到更好的效果是挑戰(zhàn)性的難題,多種網(wǎng)絡(luò)的結(jié)合也使得訓(xùn)練參數(shù)和所需資源變大,若能針對(duì)其速度和整體結(jié)構(gòu)進(jìn)行優(yōu)化,會(huì)在識(shí)別種類和性能上成為最優(yōu)的不安全行為識(shí)別方法。
表7 基于目標(biāo)檢測(cè)和行為識(shí)別結(jié)合方法的不安全行為識(shí)別研究Table 7 Research on unsafe behavior identification based on combined method of target detection and behavior recognition
目標(biāo)檢測(cè)方法在不安全行為識(shí)別的研究中存在局限性,因其直接學(xué)習(xí)圖片的圖像特征,當(dāng)目標(biāo)受到環(huán)境影響如光照、粉塵,和人員遮擋的情況時(shí),效果會(huì)大幅下降,并且許多行為如抽煙、喝酒等,由于香煙和酒瓶目標(biāo)較小,在實(shí)際應(yīng)用中會(huì)經(jīng)常出現(xiàn)漏檢、錯(cuò)檢情況,因此許多學(xué)者將目光放在了針對(duì)特定的研究場(chǎng)景來優(yōu)化目標(biāo)檢測(cè)模型的思路上。
對(duì)于二階段目標(biāo)檢測(cè)模型,萬子倫[53]針對(duì)Faster RCNN 在背景復(fù)雜情況下識(shí)別效果不佳的問題,制作了一組紅外信息數(shù)據(jù)加入訓(xùn)練,使得模型在昏暗條件下的識(shí)別效果上升,并替換了特征提取網(wǎng)絡(luò)和損失函數(shù),改進(jìn)單一的RPN識(shí)別網(wǎng)絡(luò)以更好地生成預(yù)測(cè)框。融合全部改進(jìn)措施后的模型相比原模型,mAP值提高了11.57%,盡管模型的精度提升明顯,但其改進(jìn)的局限之處是在目標(biāo)太多的視頻樣本中FPS下降明顯,在光照不好的情況下效果不理想,模型所需的計(jì)算次數(shù)較多,不利于部署。
對(duì)于一階段目標(biāo)檢測(cè)模型,針對(duì)復(fù)雜背景下模型性能下降的問題,吳海波[54]以YOLO 系列模型為基本框架,提出了一種實(shí)力特征預(yù)訓(xùn)練方法,構(gòu)造一個(gè)圖像拼接模板,將輸入圖像重新構(gòu)造為具有復(fù)雜背景的圖像進(jìn)行預(yù)訓(xùn)練。實(shí)驗(yàn)表明采用該方法下的模型所需迭代次數(shù)減少為一半,收斂速度也有提升,提升了紅外目標(biāo)的檢測(cè)精度,解決了小樣本下模型訓(xùn)練困難的問題,迭代次數(shù)、訓(xùn)練時(shí)間都得到了減少,對(duì)行人的識(shí)別正確率從77.2%提升至88.1%,但其不足之處在于對(duì)小目標(biāo)的檢測(cè)效果不理想。
另外,源于自然語言處理的Transformer 模型在計(jì)算機(jī)視覺被證明有著很好的效果,其衍生的模型DETR相比之前的目標(biāo)檢測(cè)方法有著更快更好的潛力。王永歸[55]基于改進(jìn)的多尺度單目3D 目標(biāo)檢測(cè)模型,提出了DETR 3D 目標(biāo)檢測(cè),引入Transformer 模型獲取特征的全局關(guān)系,設(shè)計(jì)了一種顯著網(wǎng)絡(luò)降低模型編碼器的計(jì)算量,使計(jì)算量下降了41.4%。對(duì)小目標(biāo),背景復(fù)雜等常見問題均有良好的表現(xiàn),但模型不能識(shí)別具體車輛類型,精度相較于多視圖的檢測(cè)方法仍有差距,有待繼續(xù)提升。
綜上所述,由于Faster R-CNN 有著更復(fù)雜的網(wǎng)絡(luò)框架,對(duì)遮擋和光照不足等問題的魯棒性較好,因此對(duì)其的改進(jìn)主要是針對(duì)檢測(cè)速度,而YOLO系列的改進(jìn)策略通常是犧牲小部分的檢測(cè)速度換取精度的提升。表8為近年來研究目標(biāo)檢測(cè)模型優(yōu)化的方法、優(yōu)勢(shì)及其局限性總結(jié)[56-64],總體來說,針對(duì)目標(biāo)檢測(cè)的改進(jìn)目的為:提升小目標(biāo)的檢測(cè)能力,提升背景復(fù)雜及遮擋情況下的檢測(cè)能力或提升模型的運(yùn)行速度和效率。改進(jìn)的方法有:壓縮模型、引入注意力機(jī)制、改進(jìn)損失函數(shù)、改進(jìn)錨框策略、改進(jìn)特征的融合策略和數(shù)據(jù)增強(qiáng)等。
表8 目標(biāo)檢測(cè)方法的優(yōu)化Table 8 Optimization of target detection methods
行為識(shí)別方法在不安全行為識(shí)別研究中的缺點(diǎn)在于網(wǎng)絡(luò)通常較為復(fù)雜,要考慮空間與時(shí)間的雙重特征,推理速度較慢,所以如何改善行為識(shí)別方法的性能成為了一個(gè)重要的研究?jī)?nèi)容。
對(duì)于卷積神經(jīng)網(wǎng)絡(luò)類型和長(zhǎng)短期記憶網(wǎng)絡(luò)的行為識(shí)別方法,金磊[65]針對(duì)這類網(wǎng)絡(luò)時(shí)間特征的建模能力不足問題,基于自注意力機(jī)制設(shè)計(jì)了一個(gè)時(shí)間聚合模塊,利用特征間的相關(guān)性發(fā)掘更多的時(shí)間特征,并引入3D ResNet 中改善了其性能,在UCF-101 中達(dá)到了91.79%的準(zhǔn)確率;同時(shí)針對(duì)不同行為的動(dòng)作節(jié)奏不同(如跑步和走路),在聚合模塊的基礎(chǔ)上進(jìn)一步構(gòu)建多尺度多樣性識(shí)別框架,通過不同深度的特征建模多個(gè)動(dòng)作節(jié)奏,這一框架在UCF-101 上進(jìn)一步達(dá)到了94.05%的準(zhǔn)確率,其缺點(diǎn)在于模型較為冗余,需要大規(guī)模的數(shù)據(jù)庫進(jìn)行預(yù)訓(xùn)練,對(duì)算力有較高的要求,在未裁剪好的視頻和小樣本情況下識(shí)別效果不佳。對(duì)于利用圖卷積神經(jīng)網(wǎng)絡(luò)的行為識(shí)別方法,陳泯融等[66]表示大多基于卷積神經(jīng)網(wǎng)絡(luò)的骨架行為識(shí)別模型并沒有充分獲取骨架的隱含的特征。因此在AⅠF-CNN模型的基礎(chǔ)上提出了多流融合網(wǎng)絡(luò)模型MS-CNN,新增了kernel 特征和多運(yùn)動(dòng)特征,分別提取幾何信息和全局信息,使識(shí)別準(zhǔn)確率有所提高,但是當(dāng)人體骨架被遮擋時(shí)較難推理出全貌,識(shí)別效果下降明顯。
從上述優(yōu)化研究?jī)?nèi)容來看,卷積神經(jīng)網(wǎng)絡(luò)基于其從單一圖像上提取特征的特點(diǎn),模型對(duì)相似行為的識(shí)別容易出現(xiàn)誤判,因此需要增強(qiáng)特征的多樣性,更多的特征角度可以更好地保證識(shí)別的準(zhǔn)確率,但這也意味著更大的網(wǎng)絡(luò)復(fù)雜度。因此,研究人員將目光放在了能夠利用人體骨骼關(guān)節(jié)特征的圖卷積神經(jīng)網(wǎng)絡(luò)上,增強(qiáng)其節(jié)點(diǎn)特征的提取數(shù)量和角度,改善相似行為的識(shí)別率,但不足在于無法很好地建立遮擋情況下的骨骼模型,在人員密集的場(chǎng)所如生產(chǎn)車間、化工企業(yè)等識(shí)別效果較差。
對(duì)于雙流神經(jīng)網(wǎng)絡(luò)類型行為識(shí)別方法,申軍軼[67]選取SlowFast作為待改進(jìn)網(wǎng)絡(luò),在下采樣時(shí)添加了最大值池化層,使得采樣有了依據(jù)標(biāo)準(zhǔn),避免了有效信息的丟失,減少了噪聲的出現(xiàn);同時(shí)使用3D-ResNet50 網(wǎng)絡(luò)提取特征,并對(duì)殘差塊進(jìn)行了切分,在不提高復(fù)雜度情況下提高了學(xué)習(xí)能力,最后替換了激活函數(shù),提高了模型的準(zhǔn)確率,不足之處在于檢測(cè)速度沒有達(dá)到實(shí)時(shí)檢測(cè)的要求,在人體被遮擋時(shí)識(shí)別效果下降。
可以看出,雙流神經(jīng)網(wǎng)絡(luò)優(yōu)化方向主要是為了改進(jìn)兩路特征的提取能力和融合問題,但雙流模型的高復(fù)雜度問題無法避免。近年來,Transformer模型被證明在行為識(shí)別方面有著很好的表現(xiàn),其核心的自注意力機(jī)制相比傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)等有著網(wǎng)絡(luò)參數(shù)少,性能強(qiáng)的優(yōu)勢(shì)。高聞[68]基于Transformer 用四種不同的神經(jīng)網(wǎng)絡(luò)層(輸入與預(yù)處理層、雙流編碼層、特征聚合層、特征映射與分類層)堆疊搭建模型,其創(chuàng)新之處在于雙流編碼層相比常規(guī)卷積神經(jīng)網(wǎng)絡(luò),參數(shù)量大幅減少,訓(xùn)練以及推理速度獲得提升,準(zhǔn)確率可達(dá)96.7%,但模型在面對(duì)大規(guī)模數(shù)據(jù)集時(shí)效果可能會(huì)有所下降,對(duì)小目標(biāo)的識(shí)別效果不佳,同時(shí)也有著更易于擬合的缺點(diǎn)。
近年來對(duì)行為識(shí)別模型做出的改進(jìn)及其局限性總結(jié)見表9[69-79],總結(jié)可知,行為識(shí)別方法優(yōu)化主要是圍繞特征進(jìn)行,其中卷積神經(jīng)網(wǎng)絡(luò)和雙流神經(jīng)網(wǎng)絡(luò)的優(yōu)化是為了提升對(duì)空間或時(shí)間特征的提取能力以及兩者的融合效果,而圖卷積神經(jīng)網(wǎng)絡(luò)的優(yōu)化通常會(huì)改進(jìn)對(duì)人體骨架信息的捕捉能力,加強(qiáng)骨骼節(jié)點(diǎn)包含的全局信息,讓遠(yuǎn)距離的節(jié)點(diǎn)輔助識(shí)別,然而優(yōu)化后的行為識(shí)別方法常常伴隨有缺點(diǎn),即模型變得復(fù)雜冗余,計(jì)算所需的資源數(shù)量上升,訓(xùn)練的時(shí)間變長(zhǎng)。因此,新興的基于transformer的注意力模型由于其較低的參數(shù)和復(fù)雜度有著很大的發(fā)揮空間。
表9 行為識(shí)別方法的優(yōu)化Table 9 Optimization of behavioral recognition methods
盡管目前的研究還著重于不安全行為的種類選擇和模型方法的搭配,還是有很多研究者針對(duì)已經(jīng)確定的不安全行為對(duì)選擇的模型進(jìn)行了各方面的優(yōu)化嘗試,以提升精度或速度。需要注意的是,相似的優(yōu)化方法,對(duì)于不同應(yīng)用場(chǎng)景和模型的改進(jìn)效果可能會(huì)有很大的差別。根據(jù)目前不安全行為識(shí)別領(lǐng)域的研究?jī)?nèi)容,常采用模型輕量化、引入注意力機(jī)制或改善網(wǎng)絡(luò)結(jié)構(gòu)的方法來改進(jìn)。
2.3.1 模型輕量化
隨著目標(biāo)檢測(cè)模型不斷地更新,在公共數(shù)據(jù)集上的檢測(cè)速度和精度紀(jì)錄不斷地被突破,網(wǎng)絡(luò)的結(jié)構(gòu)和參數(shù)也越來越復(fù)雜,對(duì)于不安全行為識(shí)別領(lǐng)域,其模型通常需要部署在邊緣設(shè)備以被使用,因此需要考慮對(duì)已選擇的模型進(jìn)行輕量化處理,在盡可能保證精度的同時(shí)降低參數(shù)和計(jì)算量,以便在計(jì)算能力可能不足的邊緣設(shè)備部署。常見的處理方法有引入輕量化網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行替換,如MobileNet、ShuffleNet、EfficientNet等,這些網(wǎng)絡(luò)結(jié)構(gòu)通常會(huì)采用組卷積等輕量卷積方式代替原有的傳統(tǒng)卷積,減少卷積過程的計(jì)算量,另一類方法是減少網(wǎng)絡(luò)本身的參數(shù)和復(fù)雜度,如利用遷移學(xué)習(xí)或知識(shí)蒸餾等方法來降低訓(xùn)練和推理時(shí)間。表10為目前常見的輕量級(jí)網(wǎng)絡(luò)在Cifar10數(shù)據(jù)集上的性能統(tǒng)計(jì),可以看出,MobileNetv2的精度表現(xiàn)最好,但其他數(shù)據(jù)較差,綜合性能與復(fù)雜度來看,ShuffleNetv2 的效果最優(yōu)。但此結(jié)果僅為在Cifar10 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果,在不同環(huán)境和數(shù)據(jù)下的研究還需實(shí)驗(yàn)進(jìn)行判斷。
表10 輕量級(jí)網(wǎng)絡(luò)性能比較Table 10 Comparison of lightweight network performance
屈文謙[80]的研究中就針對(duì)YOLOv3 模型進(jìn)行了此類工作,使用MobileNetV3替換了YOLOv3中的特征提取網(wǎng)絡(luò),建立了MoblieNetV3-YOLOv3 模型,替換后網(wǎng)絡(luò)的效果與替換前對(duì)比,檢測(cè)速度有了極大的提升,從20.48提升為33.94,但是mAP值僅有70.97%,說明輕量化雖然使得參數(shù)減少,計(jì)算量降低,但是針對(duì)不同的數(shù)據(jù)集和模型很可能會(huì)帶來不同程度的精度下降,在該文獻(xiàn)研究的車輛和安全帽識(shí)別問題中尤為明顯。然而,文獻(xiàn)[81]在使用MobileNetV3 替換了OpenPose 算法中的VGG19 網(wǎng)絡(luò)前十層后,發(fā)現(xiàn)對(duì)于摔倒和攀爬兩種不安全行為,輕量化后的模型相比原模型不僅速度得到了提升,精確度也提高了6.18%,這可能是由于MobileNetV3中含有SE 注意力模塊,對(duì)于該問題下的數(shù)據(jù)集起到了一定程度的精度提升效果,使得輕量化手段在這一問題中達(dá)到了精度和速度的雙重提升。
綜上所述,引入合適的輕量化網(wǎng)絡(luò)可以較為明顯地提升模型速度,但復(fù)雜度降低意味著網(wǎng)絡(luò)上的神經(jīng)元節(jié)點(diǎn)數(shù)量減少,深度變淺,在前向推理的過程中網(wǎng)絡(luò)所承載的信息權(quán)重降低,預(yù)測(cè)所獲得的特征表現(xiàn)減弱。因此會(huì)對(duì)精度產(chǎn)生影響,為應(yīng)對(duì)這樣的問題,采取措施對(duì)特征進(jìn)行多角度的強(qiáng)化是關(guān)鍵,增加通道提取特定特征,或在融合區(qū)域加入更多尺度信息,這樣才能彌補(bǔ)降低復(fù)雜度帶來的精度損失。
2.3.2 引入注意力機(jī)制
人類在觀察物體信息時(shí),通常會(huì)選擇性地集中關(guān)注某一點(diǎn),適當(dāng)忽略其他的信息,注意力機(jī)制正是源于這樣的思想,目前常用的注意力機(jī)制有SE 注意力模塊、CBAM注意力模塊、NAM注意力模塊等。綜合來講,注意力機(jī)制主要貢獻(xiàn)兩個(gè)方面:一是要決定需要關(guān)注輸入中的哪部分,二是分配計(jì)算資源給需要關(guān)注的那部分,近些年來各種注意力機(jī)制頻出,用其提升識(shí)別準(zhǔn)確率也成為了眾多研究人員的選擇。
文獻(xiàn)[82]使用YOLOv5 進(jìn)行實(shí)驗(yàn)后發(fā)現(xiàn),模型對(duì)于焊接等操作行為的檢測(cè)結(jié)果較差,這是因?yàn)樵寄P偷念A(yù)測(cè)結(jié)果通常忽略了焊接工具和火花的特征?;诖颂攸c(diǎn)設(shè)計(jì)了一個(gè)特征增強(qiáng)模塊以消除大多數(shù)無用的特征,最大限度地利用有用特征,即注意力機(jī)制,另外還創(chuàng)新性地在目標(biāo)檢測(cè)方法中引入時(shí)間特征模塊,改進(jìn)后的模型速度有所降低,但仍能達(dá)到30 FPS以上,并且mAP值提高了3.8%,其不足之處在于模型對(duì)算力有一定要求,推理和檢測(cè)速度有待進(jìn)一步提高。
屈文謙[80]的研究中除了輕量化,也引入了SE 注意力機(jī)制,在YOLOv3主干網(wǎng)絡(luò)輸出的三個(gè)特征層后依次加入SeNet 模塊,得到SeNet-YOLOv3 模型。最終使得模型FPS 達(dá)到23.45,mAP 值達(dá)到95.31%,相比未改進(jìn)模型精度速度都得到了提高。劉藝超等[83]在不安全行為識(shí)別研究中針對(duì)YOLOv5引入了CBAM注意力機(jī)制,從通道和空間兩方面關(guān)注特征。實(shí)驗(yàn)顯示,引入CBAM模塊結(jié)合對(duì)網(wǎng)絡(luò)結(jié)構(gòu)的優(yōu)化,使改進(jìn)后的YOLOv5對(duì)小目標(biāo)的檢測(cè)效果得到了提升,相比原模型提高了2.7%的檢測(cè)精度,但未對(duì)人員密集和背景嘈雜的情況做出優(yōu)化,也沒有對(duì)其他車間常見的作業(yè)不規(guī)范行為進(jìn)行識(shí)別。
注意力模塊因其方便通用的特性,可以加入各個(gè)目標(biāo)檢測(cè)或行為識(shí)別模型中,包括全局注意力、自適應(yīng)注意力、多層次注意力。從已有的研究改進(jìn)內(nèi)容來看,研究者通常會(huì)將輕量化和注意力搭配使用來優(yōu)化模型,一方面用輕量化犧牲一些精度來提高計(jì)算速度,另一方面使用注意力結(jié)構(gòu)適當(dāng)補(bǔ)償輕量化所帶來的精度損失。
2.3.3 網(wǎng)絡(luò)結(jié)構(gòu)的優(yōu)化
除上述兩個(gè)大方向外,還有許多研究人員對(duì)于已選擇的模型進(jìn)行了細(xì)部的優(yōu)化嘗試,如對(duì)損失函數(shù)或激活函數(shù)進(jìn)行替換使模型更適合實(shí)際數(shù)據(jù)集的需要,從特征的提取和融合方面改進(jìn)網(wǎng)絡(luò)等,經(jīng)過不斷的實(shí)驗(yàn)和嘗試,都可以提升一定的精度或速度。
余益鴻等[84]針對(duì)YOLOv5 進(jìn)行了網(wǎng)絡(luò)結(jié)構(gòu)優(yōu)化的嘗試,通過提高網(wǎng)絡(luò)深度和引入空洞卷積來增大感受野,同時(shí)采用增加池化層的方法解決提高深度所增加的大量冗余信息問題。除此之外,還做了在網(wǎng)絡(luò)中引入殘差模塊降低特征損失,在不同大小特征圖后加入形變卷積融合多尺度特征的工作,最終改進(jìn)后的YOLOv5模型平均精度相比改進(jìn)前提升了6%,但模型的缺點(diǎn)是未對(duì)安全防護(hù)設(shè)備進(jìn)行識(shí)別,在人員密集情況下效果下降。
杜俊鳳[85]在MASK R-CNN模型中針對(duì)臨邊行為數(shù)據(jù)的特點(diǎn),提出了改進(jìn)錨框的思路,即在模型原始錨框參數(shù)的條件下,增加64×64 的錨框尺寸,改善對(duì)小目標(biāo)的檢測(cè)靈敏度,同時(shí)針對(duì)防護(hù)欄一般為長(zhǎng)方形的情況,增加長(zhǎng)寬比為3∶1的錨框。同時(shí),引入Bi-FPN代替原模型中的特征金字塔網(wǎng)絡(luò),使得該模塊可以同時(shí)保留自上而下和自下而上的特征采樣方法,讓高層特征和淺層特征同時(shí)得到更好地保留,以增加一定計(jì)算量的代價(jià)來提高模型的性能,最終改進(jìn)后的MASK R-CNN平均準(zhǔn)確率提高了3.1%,F(xiàn)PS僅降低了0.04,其缺點(diǎn)在于所用數(shù)據(jù)為RGB圖像且為室內(nèi)拍攝,對(duì)光照問題敏感,實(shí)際使用時(shí)效果會(huì)下降,同時(shí)場(chǎng)景限于臨邊場(chǎng)景,泛化能力不足。
表11為近年來的其他優(yōu)化過的不安全行為識(shí)別研究對(duì)比[86-90]。綜上所述,網(wǎng)絡(luò)結(jié)構(gòu)的優(yōu)化涵蓋模型各個(gè)角落,針對(duì)具體數(shù)據(jù)與問題具有多種方法,包括改進(jìn)損失函數(shù)、優(yōu)化預(yù)測(cè)框的定位策略,針對(duì)特定數(shù)據(jù)集選擇更合適的激活函數(shù),提升模型的表達(dá)能力,與注意力、輕量化相結(jié)合,為模型帶來各個(gè)方面的性能提升。
表11 不安全行為識(shí)別上的應(yīng)用優(yōu)化Table 11 Application optimization on unsafe behavior recognition
由于研究中數(shù)據(jù)集的構(gòu)建、待檢測(cè)的場(chǎng)景、對(duì)不安全行為的定義等各不相同,并不能簡(jiǎn)單地評(píng)價(jià)目標(biāo)檢測(cè)和行為識(shí)別的方法孰勝孰劣。比如在某高空作業(yè)施工場(chǎng)景下,待檢測(cè)的不安全行為重點(diǎn)放在了安全帽和安全繩的佩戴上,那么顯然只使用目標(biāo)檢測(cè)模型是更優(yōu)的選擇,也更方便對(duì)模型進(jìn)行優(yōu)化,若施工場(chǎng)景覆蓋面廣,待識(shí)別不安全行為種類較多,那么結(jié)合兩種模型可能會(huì)有更好的效果。通過分析不安全行為識(shí)別的研究現(xiàn)狀,給出該領(lǐng)域目前存在的難點(diǎn)與不足:
(1)數(shù)據(jù)集問題,在不安全行為識(shí)別領(lǐng)域,數(shù)據(jù)集依然面臨著種類不全、數(shù)量較少的問題,這主要是由于不安全行為的定義沒有統(tǒng)一,不同施工場(chǎng)景、不同單位、不同工作人員所需要注意的不安全行為不相同,因此難以出現(xiàn)數(shù)量質(zhì)量雙優(yōu)的公開數(shù)據(jù)集,研究者需要耗費(fèi)較大精力尋找、拍攝、制作,才能用于模型訓(xùn)練。目前的數(shù)據(jù)集情況表現(xiàn)為:部分行為充足、部分行為不足。安全帽、反光衣、口罩等安全設(shè)備佩戴的公開數(shù)據(jù)集數(shù)量和質(zhì)量較高,很容易找到真實(shí)施工場(chǎng)景下的正負(fù)樣本,如在安全帽佩戴領(lǐng)域就有開源數(shù)據(jù)集SHWD,包括7 581 個(gè)不同場(chǎng)景、天氣、光照條件、人數(shù)、拍攝距離的圖像,分為安全帽類和未戴安全帽類,為相關(guān)研究提供了支持。同時(shí),也有很多不安全行為存在樣本不足的情況,如摔倒、攀爬、打架斗毆、喝酒、翻越欄桿等,這些行為本身的數(shù)據(jù)數(shù)量并不少,但在施工場(chǎng)景下的負(fù)樣本數(shù)據(jù)嚴(yán)重缺乏,若采用非施工場(chǎng)景下的數(shù)據(jù)進(jìn)行訓(xùn)練,那在真實(shí)場(chǎng)景進(jìn)行預(yù)測(cè)時(shí),由于復(fù)雜的施工環(huán)境和光照變化等,效果很可能大打折扣。
綜上所述,不安全行為識(shí)別研究領(lǐng)域的數(shù)據(jù)集工作面臨一定難點(diǎn),在各類違規(guī)、危險(xiǎn)行為的真實(shí)施工場(chǎng)景數(shù)據(jù)上存在空缺,如何在小樣本的條件下實(shí)現(xiàn)優(yōu)秀的識(shí)別性能是一個(gè)難點(diǎn)。
(2)融合多種類不安全行為識(shí)別后的性能問題。從目前研究現(xiàn)狀來看,針對(duì)靜態(tài)不安全行為的目標(biāo)檢測(cè)和針對(duì)動(dòng)態(tài)不安全行為的行為識(shí)別都各自達(dá)到了較高的精度,但當(dāng)需要同時(shí)識(shí)別兩類不安全行為時(shí),平均精度通常會(huì)在90%以下,還有較高的優(yōu)化空間。
(3)泛化問題。不同于其他目標(biāo)檢測(cè)和行為識(shí)別的研究領(lǐng)域,工人的不安全行為識(shí)別存在著場(chǎng)景多變、行為種類多變和光照角度遠(yuǎn)近多變的問題,不同工種、施工場(chǎng)景下的不安全行為識(shí)別研究都需要針對(duì)性的模型、方法和數(shù)據(jù)集來訓(xùn)練,這就導(dǎo)致后續(xù)研究人員很難在變換了場(chǎng)景和模型的情況下,參考前人的相關(guān)研究,做出改進(jìn)和優(yōu)化。
由于存在以上難點(diǎn),在此結(jié)合目標(biāo)檢測(cè)和行為識(shí)別的發(fā)展,給出未來該領(lǐng)域的研究建議和展望:
(1)對(duì)目前的數(shù)據(jù)集情況而言,研究者可以嘗試采用多場(chǎng)地、多角度、多距離的拍攝方法來自建數(shù)據(jù)集,同時(shí)采用數(shù)據(jù)增強(qiáng)對(duì)數(shù)據(jù)進(jìn)行一定的模糊、亮度改變等處理,盡可能真實(shí)模擬施工場(chǎng)景下的圖像,以此獲得更好的訓(xùn)練和測(cè)試效果。在已有的研究中,研究者受限于條件,多選擇在室內(nèi)模擬場(chǎng)地進(jìn)行數(shù)據(jù)集的拍攝構(gòu)建,在更為復(fù)雜的真實(shí)場(chǎng)景下識(shí)別時(shí)就會(huì)出現(xiàn)效果下降的問題,如果可以在構(gòu)建數(shù)據(jù)集時(shí)就利用真實(shí)場(chǎng)景建立,一定可以更好地避免此問題。
(2)為了實(shí)現(xiàn)更準(zhǔn)確的不安全行為識(shí)別,可以嘗試轉(zhuǎn)變思路來對(duì)某些不安全行為獲得更高的識(shí)別率,比如目標(biāo)檢測(cè)通常對(duì)遠(yuǎn)距離工地場(chǎng)景下的抽煙這一行為識(shí)別率較低,因?yàn)樵跀?shù)據(jù)集中只標(biāo)注香煙的話,目標(biāo)太小,識(shí)別困難,如果連帶胳膊抬起這一姿勢(shì)一同標(biāo)注,其余胳膊抬起的非抽煙情況也會(huì)對(duì)預(yù)測(cè)造成干擾,那么可以嘗試使用目標(biāo)檢測(cè)檢測(cè)香煙,加上行為識(shí)別去識(shí)別“胳膊抬起”這一動(dòng)作,結(jié)合檢測(cè)抽煙行為,可能會(huì)有更好的效果。
(3)為了實(shí)現(xiàn)更快速的不安全行為識(shí)別,針對(duì)邊緣設(shè)備部署所需要的輕量化研究,可以不局限于減少參數(shù)量這一方面,文獻(xiàn)[91]指出,各類輕量化網(wǎng)絡(luò)的工作集中在減少浮點(diǎn)運(yùn)算數(shù)量上,然而這種減少不一定會(huì)帶來相應(yīng)的快速,反而可能因?yàn)閮?nèi)存訪問的增加(輕量化網(wǎng)絡(luò)所采用的卷積方法導(dǎo)致)而出現(xiàn)負(fù)優(yōu)化。因此為了部署邊緣設(shè)備,可以從內(nèi)存訪問的減少這一思想入手,達(dá)到真正意義上的加速,比如使用文中提出的部分卷積(PConv)和FasterNet輕量網(wǎng)絡(luò)。
(4)對(duì)于未來的工人不安全行為識(shí)別研究,會(huì)出現(xiàn)基于背景和施工內(nèi)容的種類劃分,即:基于礦洞和隧道等自然背景施工,該分類下識(shí)別研究要針對(duì)光照和復(fù)雜地貌帶來的影響做出優(yōu)化,容易出現(xiàn)與危險(xiǎn)區(qū)域靠近相關(guān)的不安全行為?;诮ㄖㄔ斓姆亲匀槐尘笆┕?,該分類下的識(shí)別研究要針對(duì)灰塵和工程車輛的遮擋影響做出優(yōu)化,對(duì)更多類別的個(gè)人防護(hù)設(shè)備進(jìn)行識(shí)別?;谑覂?nèi)的工廠工人施工等劃分,該分類下的識(shí)別研究要針對(duì)人員密集情況等室內(nèi)特殊情況做出優(yōu)化,重點(diǎn)對(duì)各種違規(guī)操作進(jìn)行識(shí)別。在如此分類下,便可以為相似場(chǎng)景的后續(xù)不安全行為識(shí)別研究提供更好的參考和改進(jìn)方向。