摘 要:準(zhǔn)確識別物流駕駛員接打電話等危險(xiǎn)行為是實(shí)現(xiàn)生產(chǎn)安全的重要一環(huán)。針對工業(yè)現(xiàn)場背景復(fù)雜、駕駛員手臂動(dòng)作相似度高等問題,提出一種聯(lián)合邊緣特征的物流駕駛員危險(xiǎn)行為識別算法EF-GCN(edge feature graph convolutional network)。首先,提出基于自適應(yīng)圖卷積的空間感知模塊,考慮人體運(yùn)動(dòng)過程中遠(yuǎn)離質(zhì)心的邊緣關(guān)節(jié)點(diǎn),設(shè)計(jì)空間感知算法以提高權(quán)重分配。其次,設(shè)計(jì)時(shí)空邊緣注意力模塊,在時(shí)空均值化后添加邊緣卷積,改善模型對邊緣特征提取不充分的缺點(diǎn);同時(shí),引入可分離卷積SC block(separable convolution block),替換主干網(wǎng)絡(luò)中的標(biāo)準(zhǔn)卷積,減少模型參數(shù)量。最后,構(gòu)建相似特征識別網(wǎng)絡(luò)SF-RN(similar feature recognition network),對接打電話、抽煙等手臂相似行為進(jìn)行區(qū)分,強(qiáng)化算法對相似行為的識別能力。實(shí)驗(yàn)結(jié)果表明,EF-GCN較傳統(tǒng)的時(shí)空圖卷積網(wǎng)絡(luò)識別精度提高10.4百分點(diǎn),較基線模型提升3.2百分點(diǎn),能夠準(zhǔn)確識別物流駕駛員的危險(xiǎn)行為,驗(yàn)證了算法的有效性。
關(guān)鍵詞:邊緣特征;空間感知;注意力模塊;可分離卷積;相似特征識別
中圖分類號:TP391"" 文獻(xiàn)標(biāo)志碼:A""" 文章編號:1001-3695(2025)04-039-1255-07
doi: 10.19734/j.issn.1001-3695.2024.06.0251
Logistics driver dangerous behavior recognition based on edge features
Hou Guijie1, Wang Cheng1, Xia Yuan2, Du Lin2
(1. School of Internet of Things Engineering, Jiangnan University, Wuxi Jiangsu 214122, China; 2. Jiangyin Yiyuan-Jiangnan University Joint Laboratory of Industrial Intelligent Maintenance, Wuxi Jiangsu 214400, China)
Abstract:Accurately recognizing dangerous behaviors such as talking on the phone among logistics drivers is an important part of achieving production safety. To solve the problems of complex scene and high similarity of drivers’ arm movements in industrial field, this paper proposed EF-GCN, which combined edge features, to identify dangerous behaviors of logistics dri-vers. Firstly, it proposed a spatial perception module based on adaptive graph convolution, by taking into account joint points far away from the center of mass during human movement, and designing a weight allocation algorithm to improve recognition accuracy. Secondly, it designed spatial temporal edge attention module, and added edge convolution after spatial temporal averaging to improve the shortcomings of insufficient edge feature extraction by the model. Meanwhile, it introduced SC block to replace the standard convolution in the backbone network and reduce the amount of model parameters. Finally, it constructed SF-RN to distinguish similar arm behaviors such as making phone calls and smoking, and strengthen ability of the algorithm to recognize similar behaviors. Experimental results show that EF-GCN improves the recognition accuracy by 10.4 percentage points compared with the traditional spatial temporal graph convolution network and 3.2 percentage points compared with the baseline model. It can accurately recognize the dangerous behaviors of logistics drivers, verifying the effectiveness of thealgorithm.
Key words:edge feature; spatial perception; attention module; separable convolution; similar feature recognition
0 引言
物流運(yùn)輸車穩(wěn)定安全運(yùn)行是保障工廠安全生產(chǎn)的關(guān)鍵環(huán)節(jié)。駕駛員長時(shí)間駕駛?cè)菀壮霈F(xiàn)注意力不集中、疏忽大意的情況,造成安全隱患[1,2]。因此,在物流區(qū)域引入智能攝像頭,開發(fā)行為識別算法,準(zhǔn)確識別駕駛員危險(xiǎn)行為并報(bào)警對工廠物流運(yùn)輸有重要意義。
由于工廠環(huán)境普遍存在光照變化大、貨物堆積、行人車輛來往頻繁等特點(diǎn),采集到的RGB圖像易受背景干擾,難以獲得準(zhǔn)確結(jié)果[3]。基于骨骼數(shù)據(jù)的行為識別算法對光照、相機(jī)視角和背景變化魯棒性更強(qiáng)[4],因此被廣泛應(yīng)用于復(fù)雜環(huán)境下的人體行為識別。
早期人體行為識別算法,通常根據(jù)輸入骨骼數(shù)據(jù)手動(dòng)構(gòu)造關(guān)節(jié)坐標(biāo)向量,并將其輸送到RNN或CNN中預(yù)測動(dòng)作標(biāo)簽。這些方法忽略了關(guān)節(jié)內(nèi)在相關(guān)性,并且時(shí)空表達(dá)和特征泛化能力較差[5]。近年來,基于圖神經(jīng)網(wǎng)絡(luò)的人體行為識別算法成為研究熱點(diǎn)。Yan等人[6]提出時(shí)空圖卷積網(wǎng)絡(luò)ST-GCN(spatial temporal graph convolutional network)對骨骼數(shù)據(jù)進(jìn)行動(dòng)態(tài)建模,自主學(xué)習(xí)時(shí)空特征,但其忽略了人體關(guān)節(jié)的隱性關(guān)聯(lián),導(dǎo)致識別精度不高。Li等人[7]進(jìn)一步提出ASGCN(actional-structural GCN),將動(dòng)作鏈接和結(jié)構(gòu)鏈接合并為廣義骨架圖,以捕獲關(guān)節(jié)之間的依賴關(guān)系,但簡單合并效果不夠理想。Shi等人[8]提出了一種雙流自適應(yīng)圖卷積網(wǎng)絡(luò),通過反向傳播學(xué)習(xí)骨骼圖拓?fù)?,但?jì)算開銷大,難以滿足工業(yè)現(xiàn)場實(shí)時(shí)性要求。Zhou等人[9]提出了BlockGCN模型,引入拓?fù)渚幋a用來捕獲特定動(dòng)作的拓?fù)浣Y(jié)構(gòu),設(shè)計(jì)BlockGC圖卷積塊取代了常見的注意力機(jī)制,能有效減少模型參數(shù),但模型在復(fù)雜背景環(huán)境下表現(xiàn)不好。針對工業(yè)現(xiàn)場實(shí)際存在的問題,Chen等人[10]提出通道拓?fù)鋬?yōu)化圖卷積網(wǎng)絡(luò)CTR-GCN(channel-wise topology refinement GCN)動(dòng)態(tài)學(xué)習(xí)通道拓?fù)洳⒕酆喜煌ǖ赖年P(guān)節(jié)特征,計(jì)算共享拓?fù)渥鳛樗型ǖ赖南闰?yàn),在僅引入少量額外參數(shù)的前提下,有效提高了模型識別精度。
針對人體骨骼特征空間表示稀疏、邊緣關(guān)節(jié)潛在信息難以挖掘的問題,Ke等人[11]利用時(shí)空梯度來關(guān)注時(shí)空特征,通過將后向梯度投影到時(shí)空域,提取影響識別精度的時(shí)空關(guān)注點(diǎn)。Lee等人[12]提出注意引導(dǎo)的層次聚合模塊,通過空間平均池化進(jìn)行節(jié)點(diǎn)提取,應(yīng)用層次卷積計(jì)算特征空間中的歐幾里德距離,以此來確定要突出的關(guān)節(jié)。Chi等人[13] 提出基于自注意力的圖卷積算法,在骨骼空間建模過程中捕獲與上下文相關(guān)的內(nèi)在聯(lián)合拓?fù)?,將其作為圖卷積的鄰域頂點(diǎn)信息進(jìn)行訓(xùn)練,充分利用內(nèi)部關(guān)節(jié)之間的隱性聯(lián)系,提高模型識別精度。
圍繞骨骼關(guān)鍵點(diǎn)特征提取過程中存在的低效率以及信息丟失問題,許晨煬等人[14]提出多尺度通道注意力,通過多尺度卷積塊從不同感受野提取特征,利用SE模塊(squeeze and excitation)提取跨通道關(guān)聯(lián)信息。Song等人[15]設(shè)計(jì)局部注意力partAtt(part-wise attention)模塊,在整個(gè)動(dòng)作序列中關(guān)注最重要的身體部位,從而增強(qiáng)模型識別不同動(dòng)作序列行為的可解釋性和穩(wěn)定性,但作用于空間維度,難以關(guān)注時(shí)間維度特征。Shi等人[16]提出時(shí)空通道注意力模塊STC-attention(spatial-temporal-channel attention),并將其嵌入到每個(gè)圖卷積層中,重新校準(zhǔn)不同數(shù)據(jù)樣本的關(guān)節(jié)、幀和通道的關(guān)注權(quán)重,但沒有考慮關(guān)節(jié)邊緣信息,對運(yùn)動(dòng)過程中邊緣節(jié)點(diǎn)的變化不夠重視。
為從輸入數(shù)據(jù)中提取區(qū)分度高、信息豐富的特征,目前流行的先進(jìn)模型結(jié)構(gòu)復(fù)雜、參數(shù)量大,且通常聚合多流架構(gòu),高昂計(jì)算成本和復(fù)雜訓(xùn)練過程導(dǎo)致模型推理速度較慢。針對這一問題, Chen等人[17]用一組簡單圖卷積代替原本的空間圖卷積操作,降低模型參數(shù)量,提高識別速度,但一定程度上犧牲了識別精度。Song等人[18]使用復(fù)合縮放策略,選擇一組固定的縮放系數(shù)對網(wǎng)絡(luò)寬度、深度和圖像分辨率進(jìn)行均勻縮放,有效減少了模型計(jì)算量,但針對不同模型的縮放系數(shù)要手動(dòng)調(diào)整。Zhou等人[19]提出一種新的瓶頸結(jié)構(gòu),可以在高維度進(jìn)行身份映射和空間轉(zhuǎn)換,從而有效減少信息丟失和梯度混淆的發(fā)生,以此減少模型推理過程中所需的浮點(diǎn)運(yùn)算次數(shù),提高推理速度。
為解決輸入骨骼數(shù)據(jù)缺乏重要交互對象,以及用于區(qū)分相似行為的上下文信息的問題,使得模型能更好區(qū)分模糊樣本,Dubey等人[20]提出成對混淆算法,作用于端到端的卷積神經(jīng)網(wǎng)絡(luò)來進(jìn)行細(xì)粒度視覺分類,但僅適用于輸入RBG圖像進(jìn)行識別,算法可拓展性較差。Zhuang等人[21]設(shè)計(jì)注意力配對交互網(wǎng)絡(luò),通過學(xué)習(xí)一個(gè)交互特征向量來捕獲輸入數(shù)據(jù)的語義差異,但計(jì)算開銷較大。Zhou等人[22]提出基于對比學(xué)習(xí)的特征細(xì)化頭部FR head(feature refinement head),由時(shí)空解耦和對比特征細(xì)化組成,在特征空間中動(dòng)態(tài)發(fā)現(xiàn)和校準(zhǔn)模糊樣本,提高了模型對模糊樣本的識別精度。
綜上,針對物流駕駛員危險(xiǎn)行為識別過程中存在的準(zhǔn)確性、實(shí)時(shí)性要求,本文設(shè)計(jì)基于自適應(yīng)圖卷積的空間感知模塊以融合內(nèi)部關(guān)節(jié)信息;提出時(shí)空邊緣注意力提高邊緣特征權(quán)重;通過引入可分離卷積SC block分解標(biāo)準(zhǔn)卷積,減少模型參數(shù)量,提高模型對相似動(dòng)作的識別精度;設(shè)計(jì)相似特征識別網(wǎng)絡(luò)SF-RN,以一種輕量級的方式提取時(shí)空特征;通過引入差異化對比損失校正模糊樣本。最后,通過工廠現(xiàn)場采集的物流駕駛員樣本進(jìn)行算法有效性驗(yàn)證。
1 聯(lián)合邊緣特征的物流駕駛員危險(xiǎn)行為識別算法
工業(yè)現(xiàn)場物流駕駛員危險(xiǎn)行為樣本如圖1所示。圖像存在手臂細(xì)節(jié)模糊不清、受光照變化影響大等特點(diǎn),主流模型對于駕駛員危險(xiǎn)行為識別精度低,且難以對模糊動(dòng)作進(jìn)行有效區(qū)分。
針對以上問題,本文提出聯(lián)合邊緣特征的物流駕駛員危險(xiǎn)行為識別算法EF-GCN以感知空間特征,并區(qū)分接打電話、打哈欠等相似行為。
具體來說,針對樣本圖片中存在光照變化、背景遮擋導(dǎo)致駕駛員手臂細(xì)節(jié)模糊不清的問題,通過空間感知模塊引入邊緣關(guān)節(jié)的影響,設(shè)計(jì)注意力模塊增強(qiáng)模型提取邊緣特征的能力,提高了模型對骨骼關(guān)鍵點(diǎn)的識別精度。針對接打電話、打哈欠等手臂動(dòng)作相似度高、區(qū)分困難的問題,構(gòu)建相似特征識別網(wǎng)絡(luò),聯(lián)合訓(xùn)練清晰樣本與模糊樣本,通過衡量樣本相似程度以準(zhǔn)確區(qū)分相似行為。為滿足工業(yè)現(xiàn)場實(shí)時(shí)性要求,引入可分離卷積減少計(jì)算量,提高模型推理速度。
EF-GCN網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。EF-GCN分為時(shí)間建模和空間建模兩部分。對于空間建模部分,將物流駕駛員骨骼數(shù)據(jù)作為算法輸入,通過空間感知模塊,獲得模型訓(xùn)練過程中遠(yuǎn)離質(zhì)心關(guān)節(jié)點(diǎn)的權(quán)重矩陣。根據(jù)此權(quán)重矩陣,通過時(shí)空邊緣注意力強(qiáng)化對邊緣特征的提取能力,將輸入骨骼數(shù)據(jù)、空間感知模塊以及時(shí)空邊緣注意力的輸出共同計(jì)算共享通道拓?fù)?,結(jié)果進(jìn)行批量矩陣相乘并歸一化。對于時(shí)間建模部分,獲取空間建模輸出,通過sigmoid函數(shù)進(jìn)行激活,僅使用四個(gè)并行支路以加快推理速度。每個(gè)支路計(jì)算1×1卷積進(jìn)行降維,前兩個(gè)支路分別通過兩個(gè)由可分離卷積替換的5×1卷積層,第三分支通過平均池化層,將前三分支的輸出結(jié)果與第四支路直接進(jìn)行拼接,結(jié)果輸入相似特征識別網(wǎng)絡(luò)區(qū)分模糊動(dòng)作,提高模型對相似行為的識別精度,最后將輸出張量平整化為分類結(jié)果。
1.1 基于自適應(yīng)圖卷積的空間感知模塊
對輸入骨骼數(shù)據(jù)進(jìn)行空間建模,傳統(tǒng)方法利用人體結(jié)構(gòu)的自然連通性來完成。然而在人體活動(dòng)時(shí),關(guān)節(jié)以小局部群體的方式運(yùn)動(dòng),如圖3所示,僅根據(jù)線性連接建模不足以反映人體骨骼真實(shí)運(yùn)動(dòng)狀態(tài)。
為確定空間關(guān)節(jié)點(diǎn)在人體運(yùn)動(dòng)過程中的權(quán)重分?jǐn)?shù),針對基線模型CTR-GCN的共享通道拓?fù)?,不能有效表征骨骼?nèi)部隱性連接的問題,設(shè)計(jì)基于自適應(yīng)圖卷積的空間感知模塊。通過定義權(quán)重分?jǐn)?shù),來感知與當(dāng)前行為相關(guān)的空間內(nèi)在連接,根據(jù)輸入特征維度自適應(yīng)地進(jìn)行圖卷積操作。在保證動(dòng)態(tài)推斷通道拓?fù)涞那疤嵯拢瑥?qiáng)化骨骼質(zhì)心與遠(yuǎn)離質(zhì)心的邊緣關(guān)節(jié)點(diǎn)在行為識別過程中的空間聯(lián)系。
基于自適應(yīng)圖卷積的空間感知模塊屬于空間建模過程,接受物流駕駛員骨骼序列作為輸入,用來感知邊緣關(guān)節(jié)點(diǎn)在人體骨骼運(yùn)動(dòng)過程中的權(quán)重,具體結(jié)構(gòu)如圖4所示。首先輸入數(shù)據(jù)由批量歸一化BN(batch normalization)進(jìn)行歸一化處理,通過線性映射分別生成通道拓?fù)浜蜋?quán)重分?jǐn)?shù),計(jì)算點(diǎn)乘,并對結(jié)果進(jìn)行縮放以適應(yīng)輸入特征,將縮放的結(jié)果進(jìn)行softmax歸一化,得到權(quán)重矩陣作為模塊輸出,計(jì)算公式如下:
1.4 基于對比學(xué)習(xí)的相似特征識別網(wǎng)絡(luò)
針對物流駕駛員樣本圖片存在手臂動(dòng)作相似度高、難以區(qū)分的問題,設(shè)計(jì)基于對比學(xué)習(xí)的相似特征識別網(wǎng)絡(luò)SF-RN,作為額外的網(wǎng)絡(luò)結(jié)構(gòu)添加在時(shí)間建模之后,通過改變真值樣本與模糊樣本的相近程度,來區(qū)分相似行為,結(jié)果平整化為物流駕駛員行為類別的概率輸出,網(wǎng)絡(luò)結(jié)構(gòu)如圖8所示。
相似特征識別網(wǎng)絡(luò)將可以清楚辨別的真值樣本與難以區(qū)分的模糊樣本進(jìn)行聯(lián)合訓(xùn)練,得到衡量樣本相近程度的差異化對比損失Di。通過在訓(xùn)練過程中計(jì)算差異化對比損失的變化趨勢,更換選擇的特征關(guān)鍵點(diǎn)數(shù)目和權(quán)重,使得模糊樣本逐步貼近某個(gè)特定的真值樣本,以此提升模型對駕駛員手臂相似動(dòng)作的識別精度。
SF-RN分別沿著關(guān)節(jié)空間拓?fù)渑c時(shí)間通道,從骨骼數(shù)據(jù)中并行提取特征,將訓(xùn)練過程中行為識別模型EF-GCN預(yù)測出的真值樣本與模糊樣本進(jìn)行聚類。通過在特征空間中計(jì)算置信距離,來判斷真值樣本與模糊樣本的相近程度,并由一個(gè)差異化對比損失Di來表征。在反向傳播過程中,更新Di并對應(yīng)改變特征關(guān)鍵點(diǎn)的權(quán)重,提高模型對模糊樣本識別精度。計(jì)算過程見式(11)~(15)。
其中:μkCS、μkAS代表k類置信樣本CS和模糊樣本AS的聚類中心;Fi為從樣本i中提取的特征;γi和ηi為置信樣本和模糊樣本對差異化對比損失Di的貢獻(xiàn)權(quán)重;pik為樣本i對k類的預(yù)測概率得分;兩個(gè)特征向量之間的距離計(jì)算函數(shù)定義為dis(·),用余弦距離實(shí)現(xiàn)。
2 實(shí)驗(yàn)與結(jié)果分析
2.1 數(shù)據(jù)集
1)NTU RGB+D 60[23] 數(shù)據(jù)集包含56 880個(gè)樣本,其中訓(xùn)練集40 320個(gè)樣本,測試集16 560個(gè)樣本。樣本被分為60個(gè)行為類別,每個(gè)樣本包含一個(gè)動(dòng)作,并保證最多只有兩個(gè)受試者,存在交叉受試者X-Sub和交叉視圖X-View兩個(gè)基準(zhǔn)。X-Sub將 40個(gè)受試者動(dòng)作中的20個(gè)用于訓(xùn)練,其余20個(gè)用于驗(yàn)證。X-View將三個(gè)攝像機(jī)視圖中的兩個(gè)用于訓(xùn)練,另一個(gè)用于驗(yàn)證。
2)NW-UCLA[24] 數(shù)據(jù)集包含10名志愿者的1 494個(gè)視頻片段。Kinect攝像頭從多個(gè)角度捕捉具有20個(gè)關(guān)節(jié)的骨骼序列??偣舶?0個(gè)行為類別,每個(gè)動(dòng)作由十位不同的受試者完成。訓(xùn)練數(shù)據(jù)來自前兩個(gè)攝像頭,測試數(shù)據(jù)來自另一個(gè)攝像頭。
3)自制駕駛員危險(xiǎn)行為數(shù)據(jù)集 數(shù)據(jù)來源于合作企業(yè)下屬廠房,記錄物流門區(qū)域?qū)崟r(shí)通過的物流駕駛員圖像,其中包括不同種類物流貨運(yùn)車輛,如叉車、牛奶車、AGV等。圖像數(shù)據(jù)通過安裝在物流門頂部的??禂z像頭采集得到,總計(jì)2 062張圖片,按照7∶3的比例將數(shù)據(jù)集劃分為訓(xùn)練集和驗(yàn)證集,圖片存在部分遮擋、背景變化以及駕駛員動(dòng)作模糊不清等特點(diǎn)。
2.2 實(shí)驗(yàn)環(huán)境與超參數(shù)設(shè)置
實(shí)驗(yàn)最大訓(xùn)練輪次設(shè)置為65,批次大小為 16,初始學(xué)習(xí)率設(shè)置為0.1,并在輪次為55時(shí)以0.1的因子衰減。在前5個(gè)輪次中使用熱身策略,逐漸提高學(xué)習(xí)率,權(quán)值衰減為0.000 4,采用隨機(jī)梯度下降策略SGD(stochastic gradient descent)對參數(shù)進(jìn)行調(diào)優(yōu)。模塊中使用的激活函數(shù)為Swish函數(shù)。具體實(shí)驗(yàn)環(huán)境如表1所示。
2.3 注意力模塊對比實(shí)驗(yàn)
為驗(yàn)證本文ST-edge模塊提取邊緣特征、提升模型識別精度的有效性,在NW-UCLA數(shù)據(jù)集上將ST-edge與其他主流注意力模塊如通道注意力Channel-Att、幀注意力Frame-Att等進(jìn)行比較。注意力模塊好壞程度由模型參數(shù)量(parameters)以及識別精度(accuracy)兩個(gè)參數(shù)來表征。
結(jié)果如圖9所示,可看出加入注意模塊后,模型識別準(zhǔn)確率有了不同程度的上升,其中自主設(shè)計(jì)的時(shí)空邊緣注意力ST-edge融合了邊緣關(guān)節(jié)信息,因此精度最好,達(dá)到94.6%,在相同參數(shù)量的前提下明顯優(yōu)于幀注意力模塊。其他三個(gè)模塊雖然對模型參數(shù)量影響較小,但精度不如時(shí)空邊緣注意力,因此不選用。
2.4 消融實(shí)驗(yàn)
為驗(yàn)證改進(jìn)算法相較于原模型的性能提升效果,對改進(jìn)前后的駕駛員危險(xiǎn)行為識別算法進(jìn)行模塊消融實(shí)驗(yàn),采用CTR-GCN作為基線模型,在數(shù)據(jù)集NTU RGB+D 60中比對網(wǎng)絡(luò)引入空間感知模塊、時(shí)空邊緣注意力ST-edge、可分離卷積SC block和相似特征識別網(wǎng)絡(luò)SF-RN前后的參數(shù)量與識別精度變化。
本節(jié)的所有實(shí)驗(yàn)都在固定隨機(jī)種子的情況下進(jìn)行,以獲得可信數(shù)據(jù),實(shí)驗(yàn)結(jié)果如表2所示。其中top-1 代表概率最大的結(jié)果是正確答案的準(zhǔn)確率,top-5 代表概率排名前5的結(jié)果是正確答案的準(zhǔn)確率。
通過引入空間感知模塊,模型top-1識別精度相較基線從88.7%提升到90.3%,提升了1.6百分點(diǎn)。添加時(shí)空邊緣注意力模塊ST-edge,top-1識別精度從88.7%提升到89.8%,提升1.1百分點(diǎn)。引入可分離卷積,通過將標(biāo)準(zhǔn)卷積分解為點(diǎn)向卷積,在僅犧牲模型0.4百分點(diǎn)識別精度的前提下,模型參數(shù)量由1.46 M減少為1.05 M。設(shè)計(jì)相似特征識別網(wǎng)絡(luò)SF-RN,識別精度提升1.2百分點(diǎn)。算法改進(jìn)前后主要30個(gè)行為類別的top-1精度差值對比如圖10所示。
為能夠直觀體現(xiàn)算法效果,圖10中列舉在NTU RGB+D 60數(shù)據(jù)集X-Sub基準(zhǔn)下,對基線模型CTR-GCN與本文EF-GCN分別進(jìn)行實(shí)驗(yàn),計(jì)算主要30個(gè)行為類別之間top-1的精度差值。其中由藍(lán)色方塊表示的22個(gè)行為類的識別精度有提高,幅度最大的集中在由手臂動(dòng)作主導(dǎo)的敲鍵盤、打電話等類別,灰色方塊表示的3個(gè)行為類精度基本不變,而紅色表示的5個(gè)行為類精度稍有下降,主要集中在全身動(dòng)作如穿鞋、擁抱等類別(見電子版)。
從整體來看,提出的網(wǎng)絡(luò)模型EF-GCN對比基線模型top-1精度有所上升,特別是對手臂相似行為的識別精度有顯著提高,這證明了模型有著更好地區(qū)分手臂相似行為的能力,驗(yàn)證了模型有效性。
2.5 對比實(shí)驗(yàn)
為驗(yàn)證改進(jìn)后駕駛員危險(xiǎn)行為識別算法EF-GCN的有效性,基于NTU RGB+D 60以及NW-UCLA數(shù)據(jù)集,選取傳統(tǒng)時(shí)空圖卷積網(wǎng)絡(luò)ST-GCN,以及近五年主流的行為識別算法2s-AGCN、MS-G3D[25]、EfficientGCN-B4、CTR-GCN、 HD-GCN進(jìn)行對比實(shí)驗(yàn)。
對比結(jié)果如表3、4所示??梢钥闯?,本文算法在NTU RGB+D 60數(shù)據(jù)集X-Sub基準(zhǔn)下,top-1精度達(dá)到了91.9%,與傳統(tǒng)的ST-GCN相比提高10.4百分點(diǎn),優(yōu)于基線模型CTR-GCN 3.2百分點(diǎn),比HD-GCN高出2.5百分點(diǎn),在X-View基準(zhǔn)和NW-UCLA數(shù)據(jù)集上同樣達(dá)到最優(yōu)。這一結(jié)果證明EF-GCN擁有比基線模型更優(yōu)秀的識別效果和更強(qiáng)大的泛化能力,并在相同的評價(jià)標(biāo)準(zhǔn)下優(yōu)于多數(shù)現(xiàn)有方法。
2.6 物流駕駛員危險(xiǎn)行為識別實(shí)驗(yàn)
物流駕駛員危險(xiǎn)行為識別的整體實(shí)現(xiàn)流程分為目標(biāo)檢測、姿態(tài)估計(jì)、行為識別三部分。對于目標(biāo)檢測部分,模型通過??禂z像頭外部接口實(shí)時(shí)讀取拍攝的圖片,采取YOLOv5目標(biāo)檢測算法檢測物流駕駛員所在位置,劃定相應(yīng)錨框區(qū)域,記為S。對于姿態(tài)估計(jì)部分,選取主流人體姿態(tài)估計(jì)網(wǎng)絡(luò)HRNet為骨干網(wǎng)絡(luò),對錨框區(qū)域S進(jìn)行姿態(tài)估計(jì),從目標(biāo)人體RGB圖像數(shù)據(jù)中計(jì)算骨骼數(shù)據(jù),物流駕駛員姿態(tài)估計(jì)效果如圖11所示。對于行為識別部分,通過本文EF-GCN對獲取到的骨骼數(shù)據(jù)進(jìn)行時(shí)空建模,引入邊緣特征有效減少工業(yè)現(xiàn)場背景的干擾,額外添加相似特征識別網(wǎng)絡(luò)區(qū)分相似行為,最后輸出行為類別并發(fā)送給客戶端。
算法根據(jù)10~20個(gè)骨骼運(yùn)動(dòng)關(guān)鍵幀內(nèi)的姿態(tài)信息,對打哈欠、抽煙、接打電話等五類常見的物流駕駛員危險(xiǎn)行為實(shí)時(shí)進(jìn)行識別。本文算法在自制數(shù)據(jù)集上的混淆矩陣如圖12所示。其中橫軸代表預(yù)測類別標(biāo)簽,縱軸代表真實(shí)類別標(biāo)簽,對角線代表預(yù)測正確的概率,其他數(shù)值為預(yù)測錯(cuò)誤的概率。
根據(jù)混淆矩陣可以計(jì)算得知,EF-GCN識別精度為82.3%,能較好地關(guān)注相似動(dòng)作,體現(xiàn)在混淆矩陣中接打電話、打哈欠等手臂相似動(dòng)作識別精度較高,分別為87.27%和82.18%,然而對向后看這一危險(xiǎn)行為類別識別精度較低,僅有73.82%,原因是攝像頭安裝位置較高,拍攝得到樣本圖片多為俯視圖,存在視角限制,導(dǎo)致算法難以獲取正確的骨骼關(guān)鍵點(diǎn)信息。
實(shí)驗(yàn)結(jié)果如表5所示??梢钥闯?,本文算法在自制數(shù)據(jù)集上的top-1精度達(dá)到了82.3%,與基線模型CTR-GCN相比提高7.8百分點(diǎn),相較領(lǐng)域內(nèi)最新方法BlockGCN 提高了4.4百分點(diǎn),證明了本文算法的有效性,在實(shí)際工廠環(huán)境下表現(xiàn)優(yōu)異。
實(shí)驗(yàn)證明,EF-GCN有效改善了基線模型特征提取不充分的問題,提高模型對相似行為的識別精度,能夠準(zhǔn)確識別物流駕駛員的危險(xiǎn)行為,保障物流運(yùn)輸車安全穩(wěn)定地運(yùn)行。
3 結(jié)束語
針對工業(yè)物流運(yùn)輸中存在的駕駛員危險(xiǎn)行為識別問題,本文提出聯(lián)合邊緣特征的物流駕駛員危險(xiǎn)行為識別算法EF-GCN。設(shè)計(jì)基于自適應(yīng)圖卷積的空間感知模塊,提取人體運(yùn)動(dòng)過程中骨骼關(guān)節(jié)內(nèi)部聯(lián)系,通過權(quán)重矩陣,加權(quán)計(jì)算遠(yuǎn)離質(zhì)心的邊緣關(guān)節(jié)點(diǎn)在行為識別過程中的作用。提出時(shí)空邊緣注意力ST-edge,在時(shí)空通道注意力的基礎(chǔ)上添加邊緣卷積,強(qiáng)化模型對邊緣特征的提取能力。采用可分離卷積分解標(biāo)準(zhǔn)卷積為深度卷積和點(diǎn)向卷積,減少模型參數(shù)量,提高算法推理速度。設(shè)計(jì)相似特征識別網(wǎng)絡(luò)SF-RN,在訓(xùn)練過程中引入衡量真值樣本與模糊樣本相近程度的參數(shù),通過改變骨骼關(guān)鍵點(diǎn)的數(shù)量和權(quán)重來校正模糊樣本。
本文算法在NTU RGB+D 60數(shù)據(jù)集的X-Sub、X-View基準(zhǔn)以及NW-UCLA 數(shù)據(jù)集上分別取得了 91.9%、95.4%、95.8%的top-1準(zhǔn)確率,在自制數(shù)據(jù)集上準(zhǔn)確率達(dá)到82.3%,具備良好的識別精度,能夠滿足工業(yè)現(xiàn)場準(zhǔn)確識別物流駕駛員危險(xiǎn)行為的需求。但本文算法仍有優(yōu)化空間,對于缺乏足夠樣本的行為種類識別精度較差,下一步將考慮在數(shù)據(jù)量不足的情況下,利用遷移學(xué)習(xí)的方法改進(jìn)算法結(jié)構(gòu),維持較好的危險(xiǎn)行為識別精度。
參考文獻(xiàn):
[1] Kashevnik A, Shchedrin R, Kaiser C, et al. Driver distraction detection methods: a literature review and framework [J]. IEEE Access, 2021, 9: 60063-60076.
[2]李少凡, 高尚兵, 張瑩瑩. 用于駕駛員分心行為識別的姿態(tài)引導(dǎo)實(shí)例感知學(xué)習(xí) [J]. 中國圖象圖形學(xué)報(bào), 2023, 28(11): 3550-3561. (Li Shaofan, Gao Shangbing, Zhang Yingying. Pose-guided instance-aware learning for driver distraction recognition [J]. Journal of Image and Graphics, 2023, 28(11): 3550-3561.)
[3]吳琳, 許茹玉, 粟興旺, 等. 基于結(jié)構(gòu)誤差的圖卷積網(wǎng)絡(luò) [J]. 計(jì)算機(jī)應(yīng)用研究, 2023, 40(1): 155-159. (Wu Lin, Xu Ruyu, Su Xingwang, et al. Graph convolutional networks based on structural errors [J]. Application Research of Computers, 2023, 40(1): 155-159.)
[4]Sun Zehua, Ke Qiuhong, Rahmani H, et al. Human action recognition from various data modalities: a review [J]. IEEE Trans on Pattern Analysis and Machine Intelligence, 2023, 45(3): 3200-3225.
[5]Si Chenyang, Jing Ya, Wang Wei, et al. Skeleton-based action recognition with spatial reasoning and temporal stack learning [J]. Proc of ECCV 2018. Cham: Springer, 2018: 106-121.
[6]Yan Sijie, Xiong Yuanjun, Lin Dahua. Spatial temporal graph convolutional networks for skeleton-based action recognition[C]// Proc of the 32nd AAAI Conference on Artificial Intelligence. Palo Alto, CA: AAAI Press, 2018: 12328.
[7]Li Maosen, Chen Siheng, Chen Xu, et al. Actional-structural graph convolutional networks for skeleton-based action recognition [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Re-cognition. Piscataway, NJ: IEEE Press, 2019: 3590-3598.
[8]Shi Lei, Zhang Yifan, Cheng Jian, et al. Two-stream adaptive graph convolutional networks for skeleton-based action recognition [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Re-cognition. Piscataway, NJ: IEEE Press, 2019: 12018-12027.
[9]Zhou Yuxuan, Yan Xudong, Cheng Zhiqi, et al. BlockGCN: redefine topology awareness for skeleton-based action recognition [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Re-cognition. Piscataway, NJ: IEEE Press, 2024: 2049-2058.
[10]Chen Yuxin, Zhang Ziqi, Yuan Chunfeng, et al. Channel-wise topo-logy refinement graph convolution for skeleton-based action recognition [C]// Proc of IEEE/CVF International Conference on Computer Vision. Piscataway, NJ: IEEE Press, 2021: 13339-13348.
[11]Ke Lipeng, Peng Kuanchuan, Lyu Siwei. Towards To-a-T spatio-temporal focus for skeleton-based action recognition [C]// Proc of AAAI Conference on Artificial Intelligence. Palo Alto, CA: AAAI Press, 2022: 1131-1139.
[12]Lee J, Lee M, Lee D, et al. Hierarchically decomposed graph convolutional networks for skeleton-based action recognition [C]//Proc of IEEE/CVF International Conference on Computer Vision. Pisca-taway, NJ: IEEE Press, 2023: 10410-10419.
[13]Chi H G, Ha M H, Chi S, et al. InfoGCN: representation learning for human skeleton-based action recognition [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Pisca-taway, NJ: IEEE Press, 2022: 20154-20164.
[14]許晨煬, 范非易, 柯冠舟, 等. 基于多尺度通道注意力機(jī)制的行為識別方法 [J]. 電子測量技術(shù), 2023, 46(21): 114-122. (Xu Chenyang, Fan Feiyi, Ke Guanzhou, et al. Human activity recognition method based on multi-scale channel attention mechanism [J]. Electronic Measurement Technology, 2023, 46(21): 114-122.)
[15]Song Yifan, Zhang Zhang, Shan Caifeng, et al. Stronger, faster and more explainable: a graph convolutional baseline for skeleton-based action recognition [C]//Proc of the 28th ACM International Confe-rence on Multimedia. New York: ACM Press, 2020: 1625-1633.
[16]Shi Lei, Zhang Yifan, Cheng Jian, et al. Skeleton-based action re-cognition with multi-stream adaptive graph convolutional networks [J]. IEEE Trans on Image Processing, 2020, 29:9532-9545.
[17]Chen Zhan, Li Sicheng, Yang Bing, et al. Multi-scale spatial temporal graph convolutional network for skeleton-based action recognition[C]// Proc of AAAI Conference on Artificial Intelligence. Palo Alto, CA: AAAI Press, 2021: 1113-1122.
[18]Song Yifan, Zhang Zhang, Shan Caifeng, et al. Constructing stronger and faster baselines for skeleton-based action recognition [J]. IEEE Trans on Pattern Analysis and Machine Intelligence, 2023, 45(2): 1474-1488.
[19]Zhou Daquan, Hou Qibin, Chen Yunpeng, et al. Rethinking bottleneck structure for efficient mobile network design [C]// Proc of ECCV 2020. Cham: Springer, 2020: 680-697.
[20]Dubey A, Gupta O, Guo Pei, et al. Pairwise confusion for fine-grained visual classification [C]// Proc of ECCV 2018. Cham: Springer, 2018: 71-88.
[21]Zhuang Peiqin, Wang Yali, Qiao Yu. Learning attentive pairwise interaction for fine-grained classification[C]// Proc of AAAI Confe-rence on Artificial Intelligence. Palo Alto, CA: AAAI Press, 2020: 13130-13137.
[22]Zhou Huanyu, Liu Qingjie, Wang Yunhong. Learning discriminative representations for skeleton based action recognition [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2023: 10608-10617.
[23]Shahroudy A, Liu Jun, Ng T T, et al. NTU RGB+D: a large scale dataset for 3D human activity analysis [C]// Proc of IEEE Confe-rence on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2016: 1010-1019.
[24]Wang Jiang, Nie Xiaohan, Xia Yin, et al. Cross-view action mode-ling, learning, and recognition [C]// Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2014: 2649-2656.
[25]Liu Ziyu, Zhang Hongwen, Chen Zhenghao, et al. Disentangling and unifying graph convolutions for skeleton-based action recognition [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2020: 140-149.