陳雪健, 秦水介, 白忠臣, 郭媛君, 楊之樂
(1 貴州大學(xué) 大數(shù)據(jù)與信息工程學(xué)院, 貴陽 550025;2 貴州大學(xué) 貴州省光電子技術(shù)及應(yīng)用重點實驗室, 貴陽 550025;3 中國科學(xué)院深圳先進(jìn)技術(shù)研究院, 廣東 深圳 518055)
在現(xiàn)代施工現(xiàn)場,已經(jīng)基本實現(xiàn)了監(jiān)控攝像頭的全面覆蓋。 因此,圖像和視頻數(shù)據(jù)不僅記錄了非法入侵施工現(xiàn)場的信息,還包括各種設(shè)備和建筑工人的活動。 但是這些視頻數(shù)據(jù)的提取利用并不完善。 近年來,機(jī)器視覺領(lǐng)域取得巨大研究進(jìn)展[1-2],相關(guān)機(jī)器視覺模型被廣泛應(yīng)用在各個方面,例如能見度測定[3]、基于手勢識別的手部康復(fù)系統(tǒng)[4]、輔助駕駛[5]以及用圖象識別的方法代替電阻等傳統(tǒng)火焰檢測技術(shù)[6]。 近年來,Transformer 在自然語言處理、計算機(jī)視覺等人工智能領(lǐng)域取得了可觀成果。并且因為其強(qiáng)大的全局信息捕捉能力被廣泛應(yīng)用在了計算機(jī)視覺研究中。 土方挖掘機(jī)作為一種全地形施工設(shè)備,現(xiàn)已成為了土方作業(yè)中不可或缺的重要設(shè)備。 并且土方作業(yè)運營成本大部分都來自于大型施工設(shè)備,因此對于施工設(shè)備進(jìn)行監(jiān)控并輔以相應(yīng)調(diào)整是提高設(shè)備生產(chǎn)率的最佳手段[7-11]。
本研究的主要貢獻(xiàn)體現(xiàn)在以下幾個方面。 首先,將計算機(jī)視覺這個領(lǐng)域的先進(jìn)技術(shù)(目標(biāo)識別、動作分割)結(jié)合起來,應(yīng)用于施工現(xiàn)場施工設(shè)備的活動分析,自動監(jiān)控與分析施工現(xiàn)場大型設(shè)備的工作。 與最近的研究相比,本文提出的模型基于長視頻的動作分割模型,將未裁剪的長視頻直接應(yīng)用于訓(xùn)練和識別。 此外,本文還提出了一種根據(jù)挖掘機(jī)動作計算挖掘機(jī)工作效率的方法。 該方法更適合通過挖掘機(jī)動作來計算挖掘機(jī)的工作效率,同時,該監(jiān)控系統(tǒng)還可以幫助施工管理人員直觀地了解土方挖掘機(jī)在一段時間內(nèi)的詳細(xì)活動信息,管理人員可以使用自動化監(jiān)控手段更好地調(diào)度施工設(shè)備,促進(jìn)項目的開展與實施。
本文提出的深度學(xué)習(xí)方法主要包含2 個階段,框架如圖1 所示。 由圖1 可知,首先使用Faster RCNN[12]模型對挖掘機(jī)視頻進(jìn)行處理,檢測視頻中是否存在卡車或挖土機(jī)。 然后,采用三維卷積神經(jīng)網(wǎng)絡(luò)提取其時序特征,并將結(jié)果輸入到ASFormer[13]模型中,對挖掘機(jī)的動作序列進(jìn)行訓(xùn)練和識別。 最后,計算挖掘機(jī)土方作業(yè)的工作效率。
圖1 框架流程圖Fig. 1 Workflow of the proposed framework
這個過程的目的是確定挖掘機(jī)和卡車在視頻的每一幀中的位置。 為了識別視頻中的挖掘機(jī)和卡車,本文采用了快速循環(huán)卷積神經(jīng)網(wǎng)絡(luò)(Faster R-CNN)該模型由Ren 等學(xué)者[12]開發(fā),并已廣泛應(yīng)用于各個領(lǐng)域。 在建筑領(lǐng)域,以往的研究已經(jīng)證明了該模型在惡劣施工條件下檢測施工工人和設(shè)備的巨大潛力[14]。
Faster R-CNN 中使用了卷積神經(jīng)網(wǎng)絡(luò)(CNN)。該網(wǎng)絡(luò)使用卷積層、激活層和池化層堆疊來提取圖像 的 特 征 圖, 隨 后 的 Region Proposal Networks(RPN)和全連接層共享該部分提取的特征圖。 其中,RPN 網(wǎng)絡(luò)用于生成區(qū)域特征。 隨后,RoI 池化層的功能是通過整合信息提取出proposal feature map,發(fā)送給后續(xù)的全連接層,并對目標(biāo)類別做出判斷。最后,利用proposal feature map 計算類別,再次獲得復(fù)選框的最終精確位置。
另外,在實際的施工現(xiàn)場,土方挖掘機(jī)在作業(yè)過程中會有各種動作,因此在識別挖掘機(jī)的過程中,要考慮到工作中挖掘機(jī)的各種動作識別。 本文采用3種不同的長寬比(1 ∶1、1 ∶2、2 ∶1)進(jìn)行標(biāo)記,使所提出的模型能夠檢測到動作不斷變化的土方挖掘機(jī)。 同時,為了提高模型的魯棒性,本文從現(xiàn)場不同角度采集了不同外觀土方挖掘機(jī)的工作視頻。 除此之外,還使用了常用的數(shù)據(jù)增強(qiáng)方法,在標(biāo)記圖像時進(jìn)行縮放、旋轉(zhuǎn)和鏡像,以擴(kuò)充數(shù)據(jù)集。
在挖掘機(jī)的動作分割識別過程中,本研究應(yīng)用了ASFormer 模型。 由于在施工現(xiàn)場獲得的視頻是未經(jīng)編輯的長視頻,一個視頻包含多個需要識別的動作。 并且土方挖掘機(jī)的工作狀態(tài)總是一系列動作序列,所以挖掘機(jī)的動作識別與動作分割任務(wù)目標(biāo)高度重合。 考慮到 ASFormer 模型應(yīng)用了Transformer 結(jié)構(gòu),其動作分割的性能得到了很大的提高。 ASFormer 的模型如圖2 所示。 由圖2 可知,ASFormer 使用帶有編碼器- 解碼器結(jié)構(gòu)的Transformer 模型。 編碼器首先根據(jù)預(yù)先提取到的視頻的時序特征預(yù)測每幀的初始動作概率。 然后由連續(xù)的解碼器對初始預(yù)測結(jié)果進(jìn)行優(yōu)化。
圖2 動作分割網(wǎng)絡(luò)Fig. 2 Action segmentation network
編碼器的輸入為預(yù)先提取的視頻的時序特征,大小為T × D,其中T為視頻幀數(shù),D為預(yù)先設(shè)定的特征維數(shù)。 編碼器在第一層使用全連接層,輸出用作后面一系列編碼器塊的輸入。 此后再將編碼器塊的輸出送入全連接層以獲得初始預(yù)測結(jié)果。 每個編碼器塊由前饋層和帶有殘差連接的單頭自注意層組成。
對于解碼器,首先其輸入來自編碼器的初始預(yù)測。 解碼器的第一層由一個調(diào)整輸入大小的全連接層開始,隨后是一系列解碼器塊。 解碼器的結(jié)構(gòu)類似于編碼器。 前饋層為時序卷積,交叉注意層為分層結(jié)構(gòu)。 與編碼器結(jié)構(gòu)中的自注意層相比,交叉注意層的主要區(qū)別在于查詢Q和鍵值K是由編碼器的輸出和上層的輸出串聯(lián)獲得的。 這樣做的目的是為了讓解碼器中的每個位置都可以參與編碼器的初始預(yù)測結(jié)果的細(xì)化。 最后通過堆疊這些單獨的解碼器來細(xì)化結(jié)果。 為了逐步減少外部信息對預(yù)測結(jié)果的影響,避免誤差積累,在解碼器接收每一個輸入之前,增加加權(quán)殘差連接前饋層和交叉注意層:
其中,out為前饋層輸出;x為前饋層輸入;α為交叉注意層系數(shù)。 對第一個解碼器設(shè)定α =1,而后對其余的解碼器α則采用了指數(shù)增加策略。
在施工過程中,挖掘機(jī)通常與大卡車等其他施工設(shè)備一起工作。 例如,在土方挖掘工作中,挖土機(jī)挖掘土壤,并將其裝入卡車的鏟斗中。 當(dāng)卡車滿載時,挖掘機(jī)將土壤移至傾卸區(qū),繼而在裝貨區(qū)等待重新裝貨。 如果單獨研究土方挖掘機(jī),其工作過程主要分為“挖掘”、“擺動”和“裝載”。 因此,將“挖掘-旋轉(zhuǎn)-裝載-旋轉(zhuǎn)”定義為挖掘機(jī)的一個工作循環(huán)。另外,土方挖掘機(jī)還具有“移動”和“靜止”兩種作用狀態(tài)。 當(dāng)挖掘機(jī)開始工作時, “移動”和“靜止”對工作效率幾乎沒有貢獻(xiàn),因此本研究將2 個動作列為其他動作,不在工作循環(huán)中,當(dāng)計算挖掘機(jī)工作效率時只考慮工作循環(huán)中的動作類型。 挖掘機(jī)的工作狀態(tài)如圖3 所示。
圖3 挖掘機(jī)工作狀態(tài)及流程Fig. 3 Working state and process of the excavator
在土方挖掘過程中,當(dāng)挖掘機(jī)鏟斗載荷一定時,挖掘機(jī)的工作效率可以用單位時間內(nèi)的工作循環(huán)次數(shù)來表示。 在工作循環(huán)中,挖掘機(jī)的挖掘和傾倒對挖掘機(jī)的工作效率貢獻(xiàn)最大。 除此之外,挖掘機(jī)的工作效率還受到擺動動作時間占比例的影響。 例如:當(dāng)擺動時間占比較高時,其效率會受到影響而降低。 經(jīng)過以上分析,本文將挖掘機(jī)工作效率計算公式定義如下:
其中,c表示工作循環(huán)數(shù);tc、ts分別表示工作循環(huán)總時間和旋轉(zhuǎn)動作總時間;EWP表示挖掘機(jī)的生產(chǎn)率,即單位時間的工作循環(huán)數(shù)。
為了訓(xùn)練深度學(xué)習(xí)模型,本研究使用普通光學(xué)相機(jī)和智能手機(jī)采集實際土方開挖現(xiàn)場的視頻流數(shù)據(jù),采集的視頻數(shù)據(jù)可以記錄挖土機(jī)的所有作業(yè)類型,所收集的視頻數(shù)據(jù)示例如圖4 所示。 為了避免光照和拍攝角度對結(jié)果的影響,實驗人員在不同的時間和不同的角度進(jìn)行視頻采集工作。 在視頻采集過程中,使用了6 個普通光學(xué)攝像頭和2 部智能手機(jī),總共收集了97 min 的視頻數(shù)據(jù)。 經(jīng)過選擇,最終選取分辨率為380?640、幀率為30 fps、總圖像幀數(shù)約80000幀的44 min 視頻數(shù)據(jù)進(jìn)行分析。 對于識別任務(wù)的數(shù)據(jù),本研究進(jìn)一步將數(shù)據(jù)分為訓(xùn)練集數(shù)據(jù)(約60000 片)和測試集數(shù)據(jù)。 在動作分割模型的訓(xùn)練過程中,將選出的44 min 視頻大致分成4 部分,其中3/4 作為訓(xùn)練集數(shù)據(jù),其余作為測試集數(shù)據(jù)。
圖4 數(shù)據(jù)集示例Fig. 4 Examples of the dataset
本研究訓(xùn)練的深度學(xué)習(xí)模型在挖掘機(jī)和卡車識別任務(wù)中表現(xiàn)良好,準(zhǔn)確率為93.81%。 識別結(jié)果如圖5 所示。 對于挖掘機(jī)的活動識別部分,本研究訓(xùn)練的模型在測試集中達(dá)到了93.25%,F(xiàn)1值分別為0.87、0.856、0.75。 測試集中某段視頻的分割結(jié)果如圖6 所示。 在圖6 中,從上到下展示了視頻實例的真實分割、分割結(jié)果以及幀動作類別的可能性。 另外,挖掘機(jī)和卡車識別模型可以在大多數(shù)環(huán)境中準(zhǔn)確識別和檢測這2 種類型的施工設(shè)備。 在分析挖掘機(jī)的活動時,動作分割模型能夠準(zhǔn)確識別其各種工作狀態(tài),包括:挖掘、傾卸、擺動、停止、移動。
圖5 目標(biāo)檢測結(jié)果Fig. 5 Excavator and truck identification results
圖6 挖掘機(jī)動作分割結(jié)果Fig. 6 Excavator action segmentation results
本文提出的模型具有良好的性能,但仍存在一些不足。 例如,在挖掘機(jī)、卡車識別過程中,若施工設(shè)備被大面積遮擋,識別就會產(chǎn)生較大的誤差。 在施工現(xiàn)場,這種遮擋通常發(fā)生在設(shè)備之間,模型不能對這種情景進(jìn)行有效的判斷,此時可以通過調(diào)整光學(xué)攝像機(jī)的位置來解決。
挖掘機(jī)的生產(chǎn)率通過分析計算挖掘機(jī)動作分割的結(jié)果得來。 挖掘機(jī)活動識別的結(jié)果可以直觀地展示其活動的順序。 模型輸出的識別結(jié)果對應(yīng)于每個視頻幀,因此可以通過視頻的幀率來計算每個動作的持續(xù)時間,以獲得各動作持續(xù)的準(zhǔn)確時間以及次數(shù)。 將這些數(shù)據(jù)應(yīng)用到1.3 節(jié)提出的方法中,能夠計算挖掘機(jī)的工作效率,從而可以進(jìn)一步評價其對整個建設(shè)項目的貢獻(xiàn)。 2 臺挖掘機(jī)的工作效率分析結(jié)果見表1。 由表1 的計算結(jié)果可知,挖掘機(jī)1 的工作效率為1.18 個工作循環(huán)/min,挖掘機(jī)2 的工作效率為1.22 個工作循環(huán)/min。 可以看出,挖掘機(jī)2的效率要高于挖掘機(jī)1 的效率。 表2 所展示的是對挖掘機(jī)的動作進(jìn)行人工識別結(jié)果,以及對挖掘機(jī)生產(chǎn)率的估算。 通過將表1 與表2 內(nèi)容對比,可以看出通過視頻自動處理得到的結(jié)果與人工識別精度相當(dāng),當(dāng)需要監(jiān)測的設(shè)備較多時,借助機(jī)器視覺的方法可以大大節(jié)省人力成本,同時也能保證分析的準(zhǔn)確度。
表1 挖掘機(jī)生產(chǎn)率分析結(jié)果Tab. 1 Analysis results of excavator productivity
表2 挖掘機(jī)動作人工識別結(jié)果Tab. 2 Manual segmentation results of excavator action
本文提出了一種基于計算機(jī)視覺的挖掘機(jī)作業(yè)和生產(chǎn)率自動化監(jiān)測框架,該框架集成了基于長視頻的挖掘機(jī)檢測、動作識別和生產(chǎn)率計算模塊。 檢測模塊識別挖掘機(jī)在視頻幀中的位置。 動作分割模塊對長視頻中的挖掘機(jī)活動進(jìn)行分割。 最后,根據(jù)識別出的挖掘機(jī)活動信息計算挖掘機(jī)的生產(chǎn)率。 本研究對施工監(jiān)控視頻進(jìn)行識別分析,并將分析結(jié)果與人工分析結(jié)果進(jìn)行了對比。 對生產(chǎn)率分析的結(jié)果表明,應(yīng)用生產(chǎn)率監(jiān)測系統(tǒng)得到的挖掘機(jī)的工作效率的準(zhǔn)確率與人工分析得到的準(zhǔn)確率的誤差很小,當(dāng)施工工地監(jiān)測設(shè)備較多時,機(jī)器視覺處理視頻數(shù)據(jù)的速度比人工速度快,能夠大大降低施工現(xiàn)場管理的人工成本,提高設(shè)備使用效率,降低安全風(fēng)險,為智慧工地數(shù)字化提供了可靠的技術(shù)途徑。