張 淦, 周曉潔, 郭辰顥, 原毅璨, 吳 迪, 郭聖煜
(中國(guó)地質(zhì)大學(xué)(武漢) a. 經(jīng)濟(jì)管理學(xué)院; b.機(jī)械與電子信息學(xué)院, 湖北 武漢 430074)
起重作業(yè)具有設(shè)備體積龐大、操作視野盲區(qū)多、作業(yè)覆蓋范圍廣和作業(yè)環(huán)境復(fù)雜等特點(diǎn),人 - 機(jī)交互過(guò)程中容易發(fā)生如物體打擊類(lèi)等嚴(yán)重的安全事故[1],屬于典型的高風(fēng)險(xiǎn)施工場(chǎng)景。起重吊裝指揮手勢(shì)信號(hào)是該場(chǎng)景下信號(hào)工與起重機(jī)駕駛員之間常用的交流方式,用于嘈雜施工環(huán)境下傳遞信息,消除盲區(qū)碰撞等施工風(fēng)險(xiǎn)。但是,實(shí)際交流過(guò)程中常因手勢(shì)信號(hào)不規(guī)范、交流視野被遮擋和人員注意力不集中等問(wèn)題引發(fā)安全事故[2]。因此,探究起重吊裝指揮手勢(shì)信號(hào)的自動(dòng)識(shí)別,降低因交流問(wèn)題引發(fā)安全事故的概率,對(duì)提高工程安全管理水平具有重要意義。
起重吊裝指揮手勢(shì)信號(hào)主要由手臂和手的動(dòng)作共同完成。識(shí)別指揮手勢(shì)信號(hào)需要對(duì)動(dòng)作發(fā)出者的空間信息和運(yùn)動(dòng)信息進(jìn)行提取,再根據(jù)這兩種信息進(jìn)行動(dòng)作分類(lèi)。當(dāng)前提取這兩種信息的方式主要有接觸式識(shí)別和非接觸式識(shí)別兩種[3]。相比于基于穿戴式傳感器設(shè)備的接觸式識(shí)別[4],基于計(jì)算機(jī)視覺(jué)(Computer Vision,CV)的非接觸式識(shí)別抗環(huán)境干擾能力強(qiáng),識(shí)別準(zhǔn)確率高,以及識(shí)別過(guò)程對(duì)被識(shí)別者正常工作影響小,適用于起重作業(yè)過(guò)程的手勢(shì)信號(hào)自動(dòng)識(shí)別。當(dāng)前利用CV技術(shù)識(shí)別指揮手勢(shì)信號(hào)的研究被廣泛應(yīng)用于交通[5]、軍事[6]、采礦業(yè)[7]等領(lǐng)域。在工程領(lǐng)域的應(yīng)用主要集中在工人姿態(tài)評(píng)估[8]、績(jī)效評(píng)估、施工現(xiàn)場(chǎng)火焰檢測(cè)[10]等方面。針對(duì)人 - 機(jī)交互高風(fēng)險(xiǎn)場(chǎng)景下指揮手勢(shì)信號(hào)識(shí)別的研究正在興起[11]。Wang等對(duì)比了各領(lǐng)域指揮手勢(shì)識(shí)別的研究,討論了在工程領(lǐng)域利用CV技術(shù)識(shí)別指揮手勢(shì)信號(hào)的可行性[12],并提出基于ResNeXt的指揮手勢(shì)信號(hào)目標(biāo)識(shí)別機(jī)制[13]。這些研究重點(diǎn)在于準(zhǔn)確識(shí)別指揮手勢(shì)信號(hào),在識(shí)別速度上關(guān)注不足。文中將綜合考慮指揮手勢(shì)信號(hào)識(shí)別的準(zhǔn)確率和速度,使其滿足實(shí)際工程應(yīng)用中實(shí)時(shí)性等方面的需求。
本文按照國(guó)家標(biāo)準(zhǔn)分類(lèi)指揮手勢(shì)信號(hào),提出基于混合卷積神經(jīng)網(wǎng)絡(luò)(Mixed Convolutional Neural Network,MCN)的起重吊裝指揮手勢(shì)信號(hào)識(shí)別模型,建立指揮手勢(shì)信號(hào)識(shí)別 - 確認(rèn)機(jī)制。提高信號(hào)傳遞的準(zhǔn)確性和穩(wěn)定性,全過(guò)程記錄信號(hào)員和駕駛員的行為,預(yù)防起重作業(yè)中因交流問(wèn)題導(dǎo)致事故,方便事故后的分析和責(zé)任認(rèn)定,提高工程安全管理水平。
2019年12月10日國(guó)家市場(chǎng)監(jiān)督管理總局和國(guó)家標(biāo)準(zhǔn)化管理委員會(huì)聯(lián)合發(fā)布中華人民共和國(guó)國(guó)家標(biāo)準(zhǔn)GB/T 5082—2019《起重機(jī)手勢(shì)信號(hào)》[14],標(biāo)準(zhǔn)正文中規(guī)定了用于起重吊裝操作的25種指揮手勢(shì)信號(hào)。表1列出了其中部分指揮手勢(shì)信號(hào)。將指揮手勢(shì)信號(hào)按照是否為連續(xù)動(dòng)作,劃分成動(dòng)態(tài)指揮手勢(shì)信號(hào)和靜態(tài)指揮手勢(shì)信號(hào)2種,具體劃分情況如表2所示,可以看出起重吊裝操作的指揮手勢(shì)信號(hào)大多由連續(xù)的動(dòng)作組成,故不同種類(lèi)的指揮手勢(shì)信號(hào)需要根據(jù)其空間特征和運(yùn)動(dòng)特征進(jìn)行區(qū)分。
表1 指揮手勢(shì)信號(hào)(部分)
表2 動(dòng)靜態(tài)指揮手勢(shì)信號(hào)劃分情況
傳統(tǒng)2D卷積神經(jīng)網(wǎng)絡(luò)無(wú)法提取視頻幀之間包含的運(yùn)動(dòng)信息[15]。預(yù)先提取光流圖[16]或人體骨骼關(guān)鍵點(diǎn)[17]等,再通過(guò)2D卷積提取運(yùn)動(dòng)信息,這類(lèi)模型雖展現(xiàn)了良好的性能,但復(fù)雜的預(yù)處理增加了計(jì)算量,導(dǎo)致識(shí)別速度慢。借助體感攝像設(shè)備采集人體骨骼關(guān)鍵點(diǎn)[18],存在識(shí)別距離的限制。3D卷積神經(jīng)網(wǎng)絡(luò)[15](3D Convolutional Neural Network, C3D)中的3D卷積核可以同時(shí)提取單個(gè)視頻幀的空間信息和多個(gè)相鄰視頻幀之間的運(yùn)動(dòng)信息。3D卷積核是2D卷積核在時(shí)間軸上的拓展,將多幀視頻幀圖像在z軸上進(jìn)行疊加,得到一個(gè)圖像組,3D卷積核以滑動(dòng)窗口的形式分別在圖像組的x,y,z軸上逐一進(jìn)行卷積計(jì)算,得到特征圖像組。C3D的計(jì)算流程如圖1所示。
圖1 C3D計(jì)算流程
Tran等[19]認(rèn)為C3D的高層特征相比于低層特征包含較少的運(yùn)動(dòng)信息,基于此構(gòu)建了MCN。MCN將C3D中高層的卷積層(Convolutional Layer,Conv)由3D卷積核換成2D卷積核。以微小的性能損失,大幅度減少網(wǎng)絡(luò)參數(shù)量。同時(shí)為保證深度網(wǎng)絡(luò)的性能表現(xiàn),引入殘差塊結(jié)構(gòu)(ResBlock)。
MCN由1個(gè)底層模塊(Stem Module, SM)、2個(gè)3D殘差卷積模塊(3D Residual Convolutional Module, 3D-RCM),6個(gè)2D殘差卷積模塊(2D Re-sidual Convolutional Module, 2D-RCM),1個(gè)平均池化模塊(Average Pooling Module, APM)、1個(gè)全連接模塊(Full Connected Module, FCM),共11個(gè)模塊組成。由FCM根據(jù)RCM提取的空間信息和運(yùn)動(dòng)信息,對(duì)視頻動(dòng)作進(jìn)行識(shí)別分類(lèi)。RCM的具體結(jié)構(gòu)如圖2所示(圖中:Conv為2D/3D卷積層;BN為批歸一化層;ReLU為激活函數(shù)層),MCN的網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示。MCN具體參數(shù)如表3所示。
圖2 RCM結(jié)構(gòu)
表3 MCN結(jié)構(gòu)詳述
圖3 MCN結(jié)構(gòu)
起重吊裝指揮手勢(shì)信號(hào)識(shí)別模型的建立包括指揮手勢(shì)信號(hào)數(shù)據(jù)集構(gòu)建和模型訓(xùn)練兩部分。將MCN在指揮手勢(shì)信號(hào)數(shù)據(jù)集中訓(xùn)練后,得到起重吊裝指揮手勢(shì)信號(hào)識(shí)別模型。
按照國(guó)家標(biāo)準(zhǔn)中的規(guī)范動(dòng)作,構(gòu)建指揮手勢(shì)信號(hào)數(shù)據(jù)集。為提高模型的泛化能力,每種指揮手勢(shì)信號(hào)由多名信號(hào)員在不同環(huán)境下,以左側(cè)45°、正視、右側(cè)45°三個(gè)角度,以不同速率執(zhí)行多次。指揮手勢(shì)信號(hào)數(shù)據(jù)集如圖4所示。
圖4 指揮手勢(shì)信號(hào)數(shù)據(jù)集樣例(部分)
模型訓(xùn)練前需要對(duì)數(shù)據(jù)進(jìn)行預(yù)處理操作:(1)對(duì)輸入視頻進(jìn)行抽幀處理;(2)為減少模型參數(shù),且不損失視頻幀中主要空間信息和運(yùn)動(dòng)信息,將視頻幀尺寸縮放為h×w=128×171;(3)提高模型的泛化能力和抗干擾性。在不影響動(dòng)作流暢的前提下,將128×171的圖像在一定波動(dòng)范圍內(nèi)隨機(jī)裁剪成112×112;(4)考慮到起重吊裝指揮手勢(shì)信號(hào)的動(dòng)作持續(xù)時(shí)間稍長(zhǎng),為保證模型能夠?qū)W習(xí)到完整的運(yùn)動(dòng)信息,將16幀視頻幀組合成一個(gè)圖像組,即l=16。
由于MCN采用3D卷積核的網(wǎng)絡(luò),參數(shù)量較大,訓(xùn)練需要大量數(shù)據(jù),否則無(wú)法發(fā)揮網(wǎng)絡(luò)的完整性能,同時(shí)訓(xùn)練過(guò)程中可能出現(xiàn)過(guò)擬合現(xiàn)象。為此,對(duì)模型進(jìn)行遷移學(xué)習(xí),在大型基準(zhǔn)數(shù)據(jù)集Kinetics-400上進(jìn)行預(yù)訓(xùn)練,再將模型在指揮手勢(shì)信號(hào)數(shù)據(jù)集上微調(diào),以提高模型在小型數(shù)據(jù)集上的表現(xiàn)。
訓(xùn)練過(guò)程中,選擇交叉熵函數(shù)作為損失函數(shù)。選擇隨機(jī)梯度下降算法作為梯度優(yōu)化算法,其中初始學(xué)習(xí)率為10-3,動(dòng)量為0.9,權(quán)重衰減為5×10-4。為避免出現(xiàn)過(guò)擬合或梯度消失問(wèn)題,訓(xùn)練過(guò)程中添加學(xué)習(xí)率衰減機(jī)制,衰減周期為10,衰減系數(shù)為0.9。批處理量為4,訓(xùn)練周期為60。
為了利用起重吊裝指揮手勢(shì)識(shí)別模型降低因指揮手勢(shì)信號(hào)不規(guī)范、交流視野被遮擋、人員注意力不集中等問(wèn)題引發(fā)安全事故的概率,提高安全管理水平。筆者構(gòu)建了指揮手勢(shì)信號(hào)識(shí)別 - 確認(rèn)機(jī)制。該機(jī)制的框架由作業(yè)準(zhǔn)備模塊、信號(hào)識(shí)別模塊、信號(hào)確認(rèn)模塊、數(shù)據(jù)記錄模塊四部分組成。機(jī)制流程如圖5所示。
圖5 起重吊裝指揮手勢(shì)信號(hào)識(shí)別 - 確認(rèn)機(jī)制流程
首先,在起重吊裝作業(yè)開(kāi)始前,駕駛員需對(duì)作業(yè)環(huán)境進(jìn)行檢查,判斷在自己的視野中信號(hào)工的位置和姿態(tài)是否清晰可辨。如果難以辨識(shí),需要向現(xiàn)場(chǎng)安全管理人員申請(qǐng)使用視覺(jué)輔助工具,在信號(hào)工周?chē)贾帽O(jiān)控設(shè)備。同時(shí)在起重機(jī)駕駛艙處布置監(jiān)控設(shè)備,監(jiān)控視角與駕駛員相同。駕駛員輔以監(jiān)控畫(huà)面觀察信號(hào)工的指揮命令。待駕駛員能夠清晰觀察到信號(hào)工的姿態(tài)及位置后,申請(qǐng)作業(yè)開(kāi)始。
信號(hào)員發(fā)出吊裝指揮手勢(shì)信號(hào),攝像頭實(shí)時(shí)采集指揮手勢(shì)信號(hào)視頻圖像,然后利用基于MCN的起重吊裝指揮手勢(shì)信號(hào)識(shí)別模型對(duì)指揮手勢(shì)信號(hào)進(jìn)行識(shí)別,將模型識(shí)別的結(jié)果與直接觀察的結(jié)果進(jìn)行對(duì)比。若結(jié)果相同則執(zhí)行命令,同時(shí)保存視頻片段、模型識(shí)別結(jié)果和操作內(nèi)容,用于未來(lái)事故調(diào)查。若結(jié)果不同,則說(shuō)明存在問(wèn)題,需要保存問(wèn)題視頻片段,用于后期問(wèn)題分析:若是模型問(wèn)題,需要對(duì)模型進(jìn)一步優(yōu)化;若是指揮手勢(shì)信號(hào)不規(guī)范問(wèn)題,需要對(duì)信號(hào)員進(jìn)行動(dòng)作糾正指導(dǎo)。
起重吊裝作業(yè)環(huán)境復(fù)雜,操作端與指揮端未必處于同一水平面,有線傳輸視頻數(shù)據(jù)難以滿足應(yīng)用需求。操作端與指揮端處于同一連通空間中,操作端與指揮端之間的距離較近,建筑結(jié)構(gòu)對(duì)無(wú)線信號(hào)的干擾較小,采用無(wú)線傳輸方式可以滿足起重吊裝作業(yè)中視頻圖像實(shí)時(shí)傳輸?shù)男枨蟆?/p>
該機(jī)制的設(shè)計(jì)不會(huì)干擾起重機(jī)吊裝作業(yè)的正常進(jìn)行,可以輔助駕駛員明確操作指令,糾正信號(hào)員不規(guī)范的指揮手勢(shì)信號(hào)動(dòng)作,對(duì)吊裝作業(yè)全過(guò)程進(jìn)行視頻監(jiān)控。若后期發(fā)生安全事故,可根據(jù)視頻片段、模型識(shí)別結(jié)果、駕駛員操作內(nèi)容三部分,進(jìn)行事故分析和事故追責(zé)。明確事故責(zé)任,減少由于信號(hào)溝通問(wèn)題引起的安全風(fēng)險(xiǎn),提高施工現(xiàn)場(chǎng)安全管理水平。
選取國(guó)家標(biāo)準(zhǔn)中操作開(kāi)始、正常停止、勻速起升、慢速起升、勻速下降5種指揮手勢(shì)信號(hào),再加上無(wú)任何指令動(dòng)作的站立動(dòng)作,共6種動(dòng)作種類(lèi)。構(gòu)建指揮手勢(shì)信號(hào)數(shù)據(jù)集,將數(shù)據(jù)集按照7∶1∶2的比例,劃分成訓(xùn)練集(Train)、檢驗(yàn)集(Val)和測(cè)試集(Test),共計(jì)1495個(gè)視頻數(shù)據(jù),各類(lèi)動(dòng)作的樣本數(shù)滿足均勻分布。數(shù)據(jù)集劃分情況如表4所示。用以驗(yàn)證基于MCN的起重吊裝指揮手勢(shì)信號(hào)識(shí)別模型在起重機(jī)作業(yè)中的適用性。
表4 數(shù)據(jù)集劃分情況
MCN的識(shí)別性能如表5所示,MCN在測(cè)試集上的準(zhǔn)確率為97.13%。除“立正動(dòng)作”外,各手勢(shì)信號(hào)種類(lèi)預(yù)測(cè)結(jié)果的準(zhǔn)確率均高于96%。各手勢(shì)信號(hào)種類(lèi)的召回率均高于95%,其中,對(duì)于動(dòng)作特征顯著的正常停止和操作開(kāi)始兩種手勢(shì)信號(hào)的召回率達(dá)到了98%以上。MCN的識(shí)別效果如圖6所示。
表5 MCN的識(shí)別準(zhǔn)確率統(tǒng)計(jì) %
圖6 MCN識(shí)別效果
MCN與其他3D卷積類(lèi)網(wǎng)絡(luò)的性能對(duì)比如表6所示。MCN的參數(shù)量為C3D的14.7%,R3D的34.7%,R(2+1)D的36.7%。在硬件條件有限的情況下,MCN在準(zhǔn)確率、識(shí)別速度和參數(shù)上都優(yōu)于其他3D卷積類(lèi)網(wǎng)絡(luò)。實(shí)際識(shí)別中,在使用GTX 1650加速條件下,MCN網(wǎng)絡(luò)運(yùn)算速度平均73 ms,平均13.7 fps。在使用RTX 2060 SUPER加速條件下,網(wǎng)絡(luò)速度可以達(dá)到36.9 ms,實(shí)時(shí)識(shí)別時(shí)可達(dá)27.1 fps。在不使用GPU加速的情況下,運(yùn)算速度平均333.3 ms,平均3.0 fps。MCN網(wǎng)絡(luò)在硬件條件允許的情況下,基本具有實(shí)時(shí)識(shí)別的能力。
表6 MCN與其他3D卷積類(lèi)網(wǎng)絡(luò)的性能對(duì)比情況
本文主要研究結(jié)論如下:
(1)基于MCN的起重吊裝指揮手勢(shì)信號(hào)識(shí)別模型在各種環(huán)境下均表現(xiàn)出了較好的識(shí)別準(zhǔn)確率,同時(shí)模型參數(shù)量少,識(shí)別速度快,適用于起重機(jī)作業(yè)中吊裝指揮手勢(shì)信號(hào)的實(shí)時(shí)識(shí)別。
(2)指揮手勢(shì)信號(hào)識(shí)別 - 確認(rèn)機(jī)制可有效提高起重吊裝信號(hào)的傳遞準(zhǔn)確性和穩(wěn)定性,對(duì)不規(guī)范的指揮手勢(shì)信號(hào)動(dòng)作進(jìn)行糾正,降低起重機(jī)作業(yè)過(guò)程中因交流問(wèn)題導(dǎo)致工程安全事故發(fā)生的風(fēng)險(xiǎn)。對(duì)信號(hào)員和駕駛員的行為進(jìn)行全過(guò)程監(jiān)控,發(fā)生安全事故后,可根據(jù)視頻片段、模型識(shí)別結(jié)果、駕駛員操作內(nèi)容三部分,進(jìn)行事故分析和事故追責(zé),提高安全管理質(zhì)量。
(3)文中研究仍存有一些不足,包括識(shí)別畫(huà)面中若運(yùn)動(dòng)物體較多,會(huì)對(duì)識(shí)別準(zhǔn)確性造成一定影響;數(shù)據(jù)集的動(dòng)作種類(lèi)有待豐富;指揮端在多場(chǎng)景變換時(shí),需要根據(jù)變換程度,人工調(diào)整視頻畫(huà)面采集角度和距離。未來(lái)研究擬搭建更輕量化的模型,對(duì)視頻中動(dòng)作發(fā)出者的區(qū)域進(jìn)行抽取,明確識(shí)別對(duì)象,減少外界噪音對(duì)準(zhǔn)確度的影響;豐富模型的動(dòng)作識(shí)別種類(lèi);指揮端多場(chǎng)景變換視頻時(shí),實(shí)現(xiàn)視頻畫(huà)面采集角度和距離的自動(dòng)調(diào)整。