田 楓,孫曉悅,劉 芳,盧 俊
(東北石油大學(xué) 計算機(jī)與信息技術(shù)學(xué)院,黑龍江 大慶 163318)
現(xiàn)階段,人體行為識別可以分為兩種主流方法:基于圖像的和基于人體骨骼關(guān)鍵點(diǎn)的?;诠羌苄蛄械娜梭w行為識別存在一定的優(yōu)勢:人體骨架的關(guān)節(jié)數(shù)量有限,所耗費(fèi)的計算資源較低,且對動態(tài)環(huán)境和復(fù)雜背景的適應(yīng)能力較強(qiáng),除此之外,骨架存在較強(qiáng)的語義信息,可以更好代表人體動作。因此,使用骨架數(shù)據(jù)來做行為識別成為熱門研究方向?,F(xiàn)常用的主流框架主要分為3類:RNN、CNN、GCN等。文獻(xiàn)[1,2]將處理時間依賴關(guān)系的LSTM對分組的人體骨骼關(guān)鍵點(diǎn)進(jìn)行分類識別。文獻(xiàn)[3,4]使用卷積神經(jīng)網(wǎng)絡(luò)(CNN)處理骨骼數(shù)據(jù),提出了骨架變換模塊自動對重要骨骼關(guān)鍵點(diǎn)分配較大權(quán)重,并使用窗口提議網(wǎng)絡(luò)檢測動作起始時間進(jìn)行行為識別。文獻(xiàn)[5,6]提出骨骼序列空時圖的概念,并提出了空時圖卷積網(wǎng)絡(luò)提取高級特征,并采用基于距離的采樣函數(shù)構(gòu)造圖卷積層,提高識別精度。
現(xiàn)有的關(guān)于行為識別方法雖然多種多樣,但面對實(shí)時監(jiān)控下的復(fù)雜場景識別能力較差,且計算量過大不能滿足實(shí)時監(jiān)控的要求,僅處于實(shí)驗(yàn)室研究階段。因此本文提出了一種基于圖卷積的作業(yè)行為實(shí)時檢測方法:首先對視頻監(jiān)控的作業(yè)人員以YOLOv5作為基礎(chǔ)模型進(jìn)行人員定位,然后對其骨架進(jìn)行提取,并利用DeepSort[7]對骨架進(jìn)行跟蹤,最后使用圖卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行行為分類和識別。
動作實(shí)施者是人,而作業(yè)現(xiàn)場環(huán)境復(fù)雜,非人體部分會存在影響識別精度,且提取特征過多使得模型計算量過大,檢測速度變慢的問題?;诖?,文中算法由4部分組成,包括作業(yè)人員定位、人體骨架提取、人員跟蹤、行為分類,算法流程如圖1所示。首先,對視頻中正在作業(yè)的工人進(jìn)行定位,從而過濾無關(guān)人員減少計算量;接著,對定位出來的操作人員進(jìn)行人體骨架提取,同時使用跟蹤算法結(jié)合骨骼信息完成相鄰幀間的目標(biāo)匹配,能夠滿足檢測時背景以及光照帶來較小影響;最后,通過圖卷積神經(jīng)網(wǎng)絡(luò)對相鄰幀的骨骼關(guān)鍵點(diǎn)數(shù)據(jù)進(jìn)行不規(guī)范行為識別,可以更好描述人體骨骼關(guān)鍵點(diǎn)之間空間和時序拓?fù)浣Y(jié)構(gòu),最終實(shí)現(xiàn)作業(yè)行為實(shí)時檢測。
由于作業(yè)現(xiàn)場環(huán)境復(fù)雜,所以為了減少不必要的檢測,需要對正在作業(yè)的工人進(jìn)行定位,從而減少后續(xù)骨骼提取和行為識別帶來的計算量。本文經(jīng)過在速度和精度方面的衡量,選用YOLOv5作為作業(yè)人員定位的基礎(chǔ)模型。在輸入端,YOLOv5采用3種數(shù)據(jù)增強(qiáng)方法:縮放、色彩空間調(diào)整和馬賽克增強(qiáng),其中馬賽克數(shù)據(jù)增強(qiáng)方法能夠有效提高對小對象的檢測。在整個模型實(shí)現(xiàn)過程中,采用了CSPNet和Focus結(jié)構(gòu)。其中CSPNet[8]可以有效地解決梯度信息重復(fù)問題,重復(fù)利用特征,減少網(wǎng)絡(luò)參數(shù)數(shù)量。同時使用FPN+PAN來增強(qiáng)網(wǎng)絡(luò)特征融合能力。在輸出端YOLOv5采用了GIoU_Loss來作為損失函數(shù),并采用加權(quán)NMS來解決遮擋嚴(yán)重導(dǎo)致檢測不準(zhǔn)確的問題。
Alphapose[9]采用自上而下的姿態(tài)估計算法,其中的對稱空間變換網(wǎng)絡(luò)能夠使得該模型在復(fù)雜場景下具有較高的檢測精度。同時其提出了參數(shù)化姿態(tài)非極大值抑制,定義了姿態(tài)距離,消去冗余的姿態(tài)估計結(jié)果,提高了人體骨骼提取準(zhǔn)確率。
Alphapose可輸出14個關(guān)節(jié)點(diǎn)的骨架圖,圖中每個關(guān)節(jié)點(diǎn)上的特征向量包含坐標(biāo)和估計置信度。經(jīng)過人體定位后,Alphapose使用單人姿態(tài)估計(single person pose estimation,SPPE)算法進(jìn)行人體骨架提取。由于目前骨架提取存在定位錯誤和產(chǎn)生冗余檢測結(jié)果的問題,Alphapose采用對稱變換網(wǎng)絡(luò)(SSTN)對人體檢測框進(jìn)行感興趣區(qū)域提取,自動調(diào)整檢測框,使得定位更加準(zhǔn)確;添加了姿態(tài)引導(dǎo)的樣本生成器(PGPG)對已有的數(shù)據(jù)進(jìn)行數(shù)據(jù)擴(kuò)充,進(jìn)行數(shù)據(jù)增強(qiáng);使用姿態(tài)非極大值抑制(PPNMS)計算姿態(tài)相似度去除冗余檢測框。通過上述3種方法,Alphapose能夠更加精確地提取人體骨架。
本文結(jié)合二維骨骼數(shù)據(jù)進(jìn)行DeepSort跟蹤。整體流程如圖2所示,其處理過程如下:
(1)作業(yè)人員定位:將訓(xùn)練好的基于YOLOv5的工作人員動作定位模型用來獲取DeepSort算法的檢測目標(biāo)的檢測框;
(2)跟蹤狀態(tài)預(yù)測:首先定義檢測集合Detection用于存儲當(dāng)前幀檢測到的目標(biāo)的檢測框坐標(biāo)數(shù)據(jù)。跟蹤集合Track用于存儲歷史坐標(biāo)數(shù)據(jù),以及丟失幀計數(shù)n。當(dāng)Detection集合為空集時,則n+1,當(dāng)n大于閾值時,則認(rèn)為該目標(biāo)消失,然后在Track中刪除該目標(biāo)的歷史數(shù)據(jù)。當(dāng)Detection不為空時,則n=0。利用目標(biāo)所在位置、運(yùn)動速度、寬高比、加速度等信息使用卡爾曼濾波器預(yù)測下一時刻目標(biāo)狀態(tài)。通過計算當(dāng)前時刻目標(biāo)狀態(tài)與下一時刻目標(biāo)狀態(tài)的協(xié)方差矩陣,計算卡爾曼增益,不斷更新當(dāng)前時刻目標(biāo)狀態(tài),使真實(shí)值與預(yù)測值之間的誤差越來越小,從而完成移動目標(biāo)的軌跡預(yù)測的過程;
(3)利用骨骼信息進(jìn)行獲取ID:計算物體檢測框di和物體跟蹤框yj之間的距離d,馬氏距離計算如式(1)所示
(1)
上述公式中,dj表示第j個檢測框的位置;yi表示第i個追蹤器對目標(biāo)的預(yù)測位置;Si表示檢測框和跟蹤框之間的協(xié)方差矩陣。通過計算當(dāng)前幀目標(biāo)的二維姿態(tài)特征和檢測目標(biāo)姿態(tài)特征之間的余弦距離來預(yù)測ID,余弦距離計算公式如式(2)所示
(2)
最后使用兩種距離的線性加權(quán)方式作為最終度量,得到代價矩陣。其計算如式(3)所示
ci,j=λd(1)(i,j)+(1-λ)d(2)(i,j)
(3)
(4)級聯(lián)匹配:當(dāng)人物經(jīng)長時間遮擋后,預(yù)測的不確定性會提高,此時采用級聯(lián)匹配方法,對更加頻繁出現(xiàn)的目標(biāo)賦予優(yōu)先權(quán);
(5)跟蹤優(yōu)化:由于檢測目標(biāo)匹配了錯誤的軌跡,相似目標(biāo)跟蹤過程經(jīng)常出現(xiàn)身份轉(zhuǎn)換問題。因此需要在級聯(lián)匹配后計算檢測目標(biāo)上一幀和當(dāng)前目標(biāo)檢測框的歐式距離,當(dāng)距離大于檢測框?qū)挾鹊?/4時,則重新匹配ID。
本文行為識別算法模型選用場景為作業(yè)現(xiàn)場,通過對工作人員的人體關(guān)鍵點(diǎn)以及置信度進(jìn)行圖卷積建模來實(shí)現(xiàn)作業(yè)人員操作是否規(guī)范的識別。
1.4.1 時空圖
由于圖卷積神經(jīng)網(wǎng)絡(luò)需要通過數(shù)據(jù)間的依賴關(guān)系構(gòu)建相應(yīng)的圖模型,所以本文利用Alphapose獲取已定位出來的員工骨骼關(guān)鍵點(diǎn)坐標(biāo)作為輸入,同時為了描述人體骨骼點(diǎn)之間的依賴關(guān)系,本文將根據(jù)人體骨骼的拓?fù)浣Y(jié)構(gòu)構(gòu)建圖模型。首先,在單幀上介紹圖卷積網(wǎng)絡(luò),單幀骨架在時間τ上會有N個聯(lián)合節(jié)點(diǎn)記為Vt以及相應(yīng)骨架邊記為Es(τ)={vtivtj|t=τ, (i,j)∈H}。 不同于圖像,人體骨架節(jié)點(diǎn)的鄰域的節(jié)點(diǎn)數(shù)不固定,定義第τ幀上的節(jié)點(diǎn)vti的鄰域?yàn)锽(vti)={vtj|d(vti,vtj)≤D,t=τ}, 其中,從vti到vtj的所有路徑中的最小長度用d(vti,vtj)表示,取D=1,代表取節(jié)點(diǎn)的1鄰域。其采樣函數(shù)如式(4)所示
p(vti,vtj)=vtj,vtj∈B(vti)
(4)
由于不同人體骨骼關(guān)鍵點(diǎn)的鄰域節(jié)點(diǎn)數(shù)量和順序均不固定,于是將鄰域B(vti) 中的節(jié)點(diǎn)劃分為K個固定的子集,每個子集可以寫成一個映射tiB(vti)→{0,…,K-1}, 并對每一個子集分配權(quán)重參數(shù)。權(quán)重函數(shù)如式(5)所示
W(vti,vtj)=W′(ti(vtj))
(5)
關(guān)鍵點(diǎn)劃分是遵循ST-GCN中的劃分策略將鄰域劃分為3個子集。具體來說,該策略根據(jù)經(jīng)驗(yàn)將內(nèi)核大小設(shè)置為3,并自然地將采樣區(qū)域分為3個子集:包括根節(jié)點(diǎn)本身;向心子集,其中包含靠近重心的相鄰頂點(diǎn);離心子集,包含離重心較遠(yuǎn)的相鄰頂點(diǎn)。如圖3所示。
空間劃分策略的映射如式(6)所示
(6)
式中:r是骨架重心到節(jié)點(diǎn)i的平均距離。
由于動作在時序上的連續(xù)性,則需要分析骨骼序列隨時間的變化。將相鄰幀之間的同一關(guān)節(jié)用邊連接,表示為EF={vtiv(t+1)i|t≤T-1}, 因此對某一關(guān)節(jié)點(diǎn)i,EF代表其隨時間的軌跡。
由于每個節(jié)點(diǎn)在時間上的連接形狀是固定的,輸出的特征圖的最后3個維度的形狀是 (C,T,V), 關(guān)節(jié)特征C, 關(guān)鍵幀數(shù)T, 關(guān)節(jié)數(shù)V。
1.4.2 添加注意力模塊的圖卷積模型
行為識別模型的主干網(wǎng)絡(luò)如圖4所示,由9個時空模塊(ST-GCN)堆疊而成,對于其中每一個時空模塊均進(jìn)行空間圖卷積和時間卷積。并將第4模塊和第7模塊的時間卷積步長設(shè)為2,每個模塊的輸出通道分別為64,64,64,128,128,128,256,256,256,網(wǎng)絡(luò)開始階段采用一個BN層將輸入骨架數(shù)據(jù)進(jìn)行歸一化處理,在最后添加平均池化層(global average pooling,GAP),將不同骨架數(shù)據(jù)池化到相同尺寸大小。最終采用使用SoftMax分類器進(jìn)行分類,SoftMax定義請見文獻(xiàn)[6]。其卷積輸出函數(shù)如式(7)所示
(7)
其中, 1/Zti(vtj) 為規(guī)范化項(xiàng),Zti(vtj)=|{vtk|ti(vtk)=ti(vtj)}| 對應(yīng)子集中的節(jié)點(diǎn)個數(shù),其目的是平衡不同子集對輸出的貢獻(xiàn)。
由于注意力能夠?qū)Ω信袆e力的骨骼特征分配更高的關(guān)注度,因此分別在第4層、第6層、第8層后添加SELayer[10]作為注意力分支,學(xué)習(xí)各骨骼關(guān)鍵點(diǎn)之間的關(guān)聯(lián)信息,突出該信息在不同層次的網(wǎng)絡(luò)結(jié)構(gòu)中和不同樣本上的獨(dú)特性。同時,使用注意力機(jī)制能夠使網(wǎng)絡(luò)在訓(xùn)練時主動關(guān)注不同關(guān)鍵點(diǎn)在不同行為類別起到的重要作用,提高模型適應(yīng)能力。該注意力模塊產(chǎn)生每個通道調(diào)制權(quán)重的集合,其輸出如式(8)所示
(8)
其中,X∈RC′×T′×V′為輸入特征圖,vc∈V為卷積核,mc∈MSE為輸出特征圖。模型識別整體流程如圖5所示。
1.4.3 邊重要性加權(quán)
人們運(yùn)動時骨骼關(guān)鍵點(diǎn)是相互協(xié)作完成的,同一骨骼關(guān)鍵點(diǎn)在做不同動作時起到的重要程度有所不同。例如,在做握手動作時,手部的信息比腿部信息更為重要,然而走路時,腿部信息要比手部動作更為重要。因此對不同部位進(jìn)行建模時,不同的邊應(yīng)具有不同的重要性,在每一個圖卷積模塊的每一層都添加了可學(xué)習(xí)的掩碼M,該掩碼將根據(jù)ES在空間圖上每個邊所學(xué)到的重要性權(quán)重來縮放節(jié)點(diǎn)特征對其相鄰節(jié)點(diǎn)的貢獻(xiàn)。
以連續(xù)多幀的人體骨架序列特征(二維坐標(biāo)以及置信度)作為輸入,經(jīng)行為識別網(wǎng)絡(luò)后,輸出檢測概率最大的類別。設(shè)當(dāng)前時刻t,則某個工作人員k的骨架在經(jīng)過行為識別后識別出來的行為為B(tk)。 在實(shí)際作業(yè)現(xiàn)場監(jiān)控場景下,存在設(shè)備或人員遮擋、光照強(qiáng)弱不定等因素的影響,某些幀提取的人體骨架存在誤差,從而導(dǎo)致行為識別錯誤,因此直接將B(tk)作為最終識別結(jié)果很容易導(dǎo)致錯檢情況的發(fā)生。由于行為的發(fā)生通常是在一段時間內(nèi)完成的,其持續(xù)時間不定。在行為發(fā)生的這段時間里,盡管存在錯檢情況,但是該操作人員絕大部分幀的動作會被識別為B(tk)。 因此本文將采用統(tǒng)計方法,對出現(xiàn)的行為進(jìn)行統(tǒng)計,連續(xù)5次出現(xiàn)同種動作將確定該動作為最終行為類別,中間出現(xiàn)不同動作標(biāo)簽,將重新進(jìn)行統(tǒng)計。
本次實(shí)驗(yàn)是以油田作業(yè)現(xiàn)場為研究背景,進(jìn)行相關(guān)實(shí)驗(yàn)。由于開關(guān)閥門是油田井場生產(chǎn)中經(jīng)常進(jìn)行的最基本的操作內(nèi)容。開關(guān)閥門時人要站在側(cè)面,防止閥門或絲杠飛出傷人,所以閥門操作是否規(guī)范是確保人身安全的保障措施。因此,通過對油田井場作業(yè)區(qū)域的監(jiān)控視頻進(jìn)行分析,利用計算機(jī)視覺相關(guān)知識,自動檢測出員工的不規(guī)范行為,加強(qiáng)井場操作規(guī)范,保障企業(yè)財產(chǎn)和人員安全有重要意義。
實(shí)驗(yàn)硬件環(huán)境:硬件平臺為聯(lián)想工作站,i7-6700 3.4 GHz CPU、NVIDIA CTX 3080Ti GPU,操作系統(tǒng)為Ubuntu 18.04。
軟件環(huán)境:程序編寫語言為Python3.7。
由于現(xiàn)階段研究缺乏閥門操作數(shù)據(jù)集,因此本文將以油田井場工人真實(shí)操作視頻和志愿者模擬操作視頻制作數(shù)據(jù)集。其中真實(shí)油田井場視頻數(shù)據(jù)包括操作人員正常操作閥門和錯誤操作閥門兩種動作,截取部分視頻幀用于操作人員動作定位模型的訓(xùn)練。由于真實(shí)場景下的視頻數(shù)量較少,所以志愿者對不同場景的閥門進(jìn)行模擬,包括正確操作、錯誤操作、不操作等3種動作類別,部分?jǐn)?shù)據(jù)集采樣如圖6所示。
工作人員定位階段選用YOLOv5框架,使用自制數(shù)據(jù)集,其中操作人員數(shù)據(jù)集包括6300幅訓(xùn)練圖片、1575幅驗(yàn)證圖片,將圖像歸一化到640×640,使用Adam優(yōu)化器,置信度閾值為0.7,非極大值抑制閾值為0.4,學(xué)習(xí)率為10-4。將訓(xùn)練樣本隨機(jī)抽取進(jìn)行200次迭代,每次迭代樣本數(shù)為8。實(shí)驗(yàn)參數(shù)見表1。
本文實(shí)驗(yàn)將在精確度(P)、交并比(IoU)和平均精度(mAP)來衡量模型,計算式(9),式(10)如下
(9)
(10)
表1 實(shí)驗(yàn)參數(shù)
其中:TP(true positive)表示被正確分類的正例;FP(false positive)表示本來是負(fù)例,被錯分為正例[11];area(C)檢測后框出的工作人員區(qū)域;area(G)是標(biāo)記的工作人員區(qū)域。
本文與常見的目標(biāo)檢測模型Faster RCNN[12],YOLOv3[13]進(jìn)行對比。對比結(jié)果見表2。
表2 不同算法對比
由表2知,YOLOv5在本文數(shù)據(jù)集中精確度,檢測速度方面均為最優(yōu),無論是在AP還是mAP上,作為一階段目標(biāo)檢測網(wǎng)絡(luò)的代表YOLOv5均比兩階段目標(biāo)檢測網(wǎng)絡(luò)Faster RCNN表現(xiàn)能力更好。3種網(wǎng)絡(luò)在測試集上的測試效果如圖7所示。
由圖7可知,在測試集上YOLOv5檢測精度為98.9%,單幀處理速度0.18 s,各項(xiàng)指標(biāo)均比另外兩種網(wǎng)絡(luò)要好。
經(jīng)過作業(yè)人員定位后裁剪出來的操作人員人體可能不夠完整,同時由于攝像頭分辨率以及放置距離的不同會導(dǎo)致裁剪出來的人體大小不同,因此在人體骨骼關(guān)鍵點(diǎn)提取之前需要對裁剪出來的圖片進(jìn)行預(yù)處理和歸一化。為解決裁剪出來的人體不全問題,將檢測框向外擴(kuò)大1.2倍,然后將裁剪出來的圖片縮放至固定大小224×160。本文分別采用Openpose[14]和Alphapose進(jìn)行人體骨架提取,實(shí)驗(yàn)結(jié)果見表3,可視化結(jié)果如圖8所示。
表3 單人關(guān)鍵點(diǎn)提取結(jié)果
分析實(shí)驗(yàn)結(jié)果,針對同一場景中的作業(yè)人員,由于工作場景中存在欄桿、樹木的遮擋,使用自下而上的Openpose提取的骨骼關(guān)鍵點(diǎn)雖然提取速度較快但是有關(guān)鍵點(diǎn)缺失情況的發(fā)生,會大大影響后續(xù)行為識別部分。Alphapose提取速度較慢,但是仍能滿足實(shí)時檢測需求,且識別精度較高,骨骼提取相對完整。
當(dāng)作業(yè)人員進(jìn)入作業(yè)區(qū)域時開始進(jìn)行跟蹤,當(dāng)目標(biāo)離開作業(yè)區(qū)域時停止跟蹤。本實(shí)驗(yàn)采用以下方法來計算跟蹤精度,定義如下:在連續(xù)T幀中,若目標(biāo)保持同一ID的幀數(shù)超過95%,定義:Ntr為跟蹤成功的員工數(shù),Ntf為跟蹤失敗員工數(shù),At=Ntr/(Ntr+Ntf)[15]為跟蹤準(zhǔn)確度。表4為人員跟蹤結(jié)果。
分析表4實(shí)驗(yàn)結(jié)果,在有遮擋情況的場景中跟蹤準(zhǔn)確度有所下降,分析其原因,檢測目標(biāo)部分遮擋導(dǎo)致骨架提取不完整,從而導(dǎo)致跟蹤準(zhǔn)確度下降。對于較遠(yuǎn)距離的實(shí)驗(yàn)場景中,由于檢測目標(biāo)較小,骨架提取精度有所下降,導(dǎo)致跟蹤精度降低。但在多種實(shí)驗(yàn)場景下,人員跟蹤準(zhǔn)確度均在95%以上,能夠?yàn)楹罄m(xù)的行為識別提供保障。實(shí)際場景下的跟蹤效果如圖9所示,其中圖9(a)為近距離的跟蹤效果圖,圖9(b)為較遠(yuǎn)距離的跟蹤效果圖。
表4 人員跟蹤結(jié)果
本次訓(xùn)練所使用的數(shù)據(jù)集中,訓(xùn)練集有5231個骨架,驗(yàn)證集有2011個骨架。本次訓(xùn)練每次隨機(jī)采樣2000,迭代200次,學(xué)習(xí)率為10-3,使用Adam優(yōu)化器和交叉熵?fù)p失函數(shù)。最終的圖卷積模型在訓(xùn)練集上的分類準(zhǔn)確率為98.3%,在驗(yàn)證集上的分類準(zhǔn)確率為96.7%。在第t幀,作業(yè)人員進(jìn)行閥門操作,若在(t,t+N)幀內(nèi)閥門操作行為能夠被正確識別,則識別任務(wù)完成,否則識別失敗。由于閥門操作動作具有連貫性,選取合理的時間步長對于識別精度是至關(guān)重要的,過短的時間步不能夠充分表達(dá)一個動作,而過長的時間步則導(dǎo)致運(yùn)算速度慢,冗余的信息也會干擾識別過程。所以需要選取合適的N。以由4名實(shí)驗(yàn)人員,分別在不同角度(左后方、右后方、正后方),不同距離(較近、中距離、較遠(yuǎn)距離)的300段視頻作為驗(yàn)證集,3種操作類別的視頻各100個。定義識別正確的視頻片段數(shù)量記為Nr,識別錯誤的視頻片段數(shù)量記為Nf,則識別正確率Ar=Nr/(Nr+Nf)。 本文采用N=(1,5,10,15,20,30) 作為輸入進(jìn)行測試。實(shí)驗(yàn)結(jié)果見表5。
如表5所示,當(dāng)N=1時,100段正確操作的視頻僅有54段被正確識別,錯誤操作視頻有53段被正確識別,無操作視頻全部識別成功,整體識別準(zhǔn)確率最低,在N=10時,盡管無操作視頻的識別率有所下降,但是整體識別準(zhǔn)確率最高。并隨著N的不斷增大,無操作視頻被正確識別的數(shù)量逐漸減少,正確操作的識別率不斷增加。當(dāng)N大于10時,錯誤操作的視頻均能夠被大部分識別。
對其中效果最好的N=10訓(xùn)練的模型采用300段視頻的測試后的混淆矩陣進(jìn)行可視化,如圖10所示。
表5 不同時間步長檢測精度對比
從混淆矩陣可以發(fā)現(xiàn),對于實(shí)驗(yàn)的3個行為類別,無操作的行為識別率最低,與錯誤操作混淆概率較大。100段正確操作視頻和100段錯誤操作視頻均被正確識別,然而100段無操作視頻中,90段視頻被正確分類,兩段視頻被錯誤識別為“operation”,8段視頻被錯誤識別為“error operation”。分析實(shí)驗(yàn)結(jié)果產(chǎn)生的原因,主要是測試數(shù)據(jù)中被錯誤識別的視頻,如圖11(a)所示,截取的視頻為工人靠近閥門,但未進(jìn)行旋轉(zhuǎn)操作的狀態(tài),可視化骨骼數(shù)據(jù),如圖11(b)所示,前4幀為工人靠近閥門階段,后6幀為身體彎曲,手接近閥門,但未進(jìn)行旋轉(zhuǎn)操作階段。部分核心關(guān)節(jié)點(diǎn)組成的集合與“正確操作”的動作序列如圖11(c)所示存在部分重合,容易導(dǎo)致分類錯誤。
由于存在上述誤檢情況,對可視化左肩關(guān)鍵點(diǎn)y坐標(biāo)隨時間變化曲線(圖12)進(jìn)行分析。前292幀為“正確操作”行為,292-475幀為“無操作”行為,475-682幀為“錯誤操作”行為。由圖可知,每種動作的坐標(biāo)變化較為規(guī)律,且在兩種動作切換時達(dá)到穩(wěn)定狀態(tài)所用時間大概為10幀左右。因此,采用連續(xù)10幀為輸入,同時采用滑窗方法對連續(xù)5次的檢測結(jié)果進(jìn)行統(tǒng)計,只有連續(xù)5次均為“錯誤操作”,則進(jìn)行報警,能夠達(dá)到降低誤報率的效果。最終實(shí)驗(yàn)結(jié)果如圖13所示。
在相同數(shù)據(jù)集上,使用不同方法與本文最終方法進(jìn)行作業(yè)人員行為識別對比分析,結(jié)果見表6,從表中可知,方法1與方法2表明,使用YOLOv5進(jìn)行人員定位能夠大幅度提高整體的識別速度;方法2與方法3對比表明,使用Alphapose進(jìn)行姿態(tài)估計雖然耗費(fèi)時間較多,但檢測精度有所提升,進(jìn)而表明姿態(tài)估計的準(zhǔn)確度能在很大程度上影響識別結(jié)果,因此在滿足實(shí)時性的要求下,選取較高精度的姿態(tài)估計模型。方法3與方法4對比表明,添加通道注意力,能夠有效提高識別精度。因此本文采用方法4,識別精度較高,且能夠滿足實(shí)時檢測,漏警率較低。
本文針對現(xiàn)有方法在真實(shí)作業(yè)場景下不能實(shí)時準(zhǔn)確的識別工作人員操作是否規(guī)范的問題,提出了基于圖卷積的作業(yè)行為實(shí)時檢測方法。首先,采用YOLOv5定位監(jiān)控視頻中的作業(yè)人員,并使用Alphapose提取人體骨架;然后使用DeepSort對待識別目標(biāo)進(jìn)行跟蹤;最后,使用圖卷積的方法對作業(yè)人員的操作不規(guī)范行為進(jìn)行識別,并采用統(tǒng)計方法降低誤檢率。實(shí)驗(yàn)結(jié)果表明,該方法在真實(shí)監(jiān)控場景下檢測速度可達(dá)25 fps,閥門操作行為識別準(zhǔn)確率可達(dá)96.7%,能夠?qū)﹀e誤操作行為進(jìn)行及時報警。但是,該算法針對復(fù)雜場景中人員密集,骨骼提取速度變慢,并且工作場景中存在大量設(shè)備,會產(chǎn)生人體遮擋導(dǎo)致提取的骨架存在部分缺失,使得最終行為識別結(jié)果錯誤。所以,在今后將針對多人場景下的行為識別存在的遮擋、實(shí)時性問題進(jìn)行研究。