陳太光,鮑新平,汪 濤,李瑞斌
(1.國家能源集團新疆能源公司,新疆 烏魯木齊 830000;2.陜西航泰電氣股份有限公司,陜西 西安 710199)
隨著煤礦智能化水平的提高,煤礦安全管理也越來越精細化,對新技術的要求也更加迫切。針對不斷開采延伸的煤礦巷道來說,如何精確地定位每個巷道的人員分布、數量和異常情況對于煤礦安全管理來說至關重要。對于礦井人員的定位計數,傳統(tǒng)的方式多采用紅外探測、UWB、LoRa 等無線通信技術。但紅外探測只能探測通過某個截面的人數,當多人并列行走出現遮擋時,紅外探測并不能準確識別出人員的數量[1];對于UWB 超寬帶定位技術,需要部署通信基站,工程造價昂貴,并且UWB 定位需要每個下井人員佩戴電子標簽,假如電子標簽丟失、損壞也會造成定位偏差等情況[2]。
隨著深度學習目標檢測和跟蹤技術的發(fā)展以及礦井巷道監(jiān)控相機的覆蓋,使用深度學習圖像處理技術對礦井巷道人員進行實時統(tǒng)計分析成為研究熱點[3]。相比傳統(tǒng)的礦井人員計數技術,利用監(jiān)控相機可見光進行成像,通過深度學習神經網絡技術對所監(jiān)控的可視區(qū)域人員進行實時監(jiān)控、統(tǒng)計分析、及時預警,不僅可以做到事后溯源,施工成本低,而且計數準確率和實時性相對可靠。
為此,利用深度學習圖像識別技術,基于多目標檢測和跟蹤算法對礦井巷道人員進行實時分析,針對礦井下特殊的成像環(huán)境,通過對現有多目標跟蹤算法進行改進,實現對礦井巷道人員的進出數量進行準確統(tǒng)計。
使用深度學習多目標跟蹤實現的計數方法[4]已在多個場景中得到研究和應用。例如,使用多目標跟蹤算法,在智能交通方面進行了監(jiān)控視頻中車流量計數的應用研究[5-6];在養(yǎng)殖產業(yè)的自動化方面實現對羊只自動計數的應用研究[7];在人員計數方面,實現行人實時檢測與跟蹤,對地鐵客流量的統(tǒng)計進行了應用研究[8]??梢姸嗄繕烁橻9-10]在目標計數方面已經得到廣泛的應用。
基于深度學習的多目標跟蹤技術包括2 階段方法和單階段方法2 大類。
2 階段方法是指基于檢測的跟蹤算法,檢測模型用于目標定位,數據關聯模型實現跟蹤,檢測和關聯分2 步進行,例如,SORT 或DeepSORT 結合檢測算法來實現目標跟蹤。其中SORT 算法可結合了卡爾曼濾波器和匈牙利算法,實現了視頻幀到幀的預測和關聯,結合檢測模型可以實現在線和實時跟蹤,達到了同時期最先進的目標跟蹤性能;Deep-SORT 算法延續(xù)了SORT 算法實現簡單和實時運行的優(yōu)點,同時整合了外觀特征,對于長時間遮擋的目標,大大減少了跟蹤ID 的切換。
單階段方法是指檢測模型和數據關聯模型共享特征同時進行,不需要依賴單獨的檢測算法。其中JDE 算法聯合檢測和關聯,將外觀嵌入模型合并到單次激發(fā)檢測器中,可以同時輸出檢測信息和相應的外觀嵌入信息,降低了計算成本;CenterTrack 算法給出了1 個基于點的聯合檢測和跟蹤框架,通過在1 對圖像上執(zhí)行檢測,并結合先前幀的目標檢測結果來估計當前幀的目標運動情況,達到實時的跟蹤效果;FairMOT 算法認為以往的單階段跟蹤算法偏向于檢測任務,對Re-ID 任務不公平,容易導致ID切換,提出了基于無錨框目標檢測體系結構Center-Net 的公平跟蹤算法,減少了ID 切換。
YOLO 系列目標檢測算法已經發(fā)展得很成熟,在目標檢測領域取得了卓越的效果,YOLO+Deep-SORT 實現目標跟蹤的方案已經被廣泛應用在各個行業(yè),也是目前最受歡迎的多目標跟蹤方案之一。YOLO 算法在煤礦行業(yè)同樣得到廣泛應用,基于YOLOv3 算法已在多個項目中實現了對礦井巡檢人員進行持續(xù)的檢測跟蹤,用于判斷井下工作人員巡檢時是否存在漏檢行為,和對礦井下安全帽佩戴進行的檢測,但是對于礦井人員計數方面研究較少。
由于環(huán)境的特殊性和復雜性,視頻成像夾雜大量噪聲,直接使用YOLO+DeepSORT 模型用于礦井人數統(tǒng)計還存在一些缺陷。在DeepSORT 中,對于目標不存在遮擋的情況,跟蹤效果主要取決于檢測模型的檢測效果,當存在遮擋時,目標的特征提取也顯得很重要。在原本的DeepSORT 結構中,使用了1 個CNN 網絡用于提取目標特征,但是原本的CNN 網絡結構過于簡單,沒有提取到更豐富的目標特征。礦井環(huán)境下光照不足畫面模糊的情況很多,實驗表明,對于這種情況跟蹤效果不佳,出現ID 切換的情況較多,跟蹤不準確的情況如圖1。
圖1 跟蹤不準確的情況Fig.1 Examples of inaccurate tracking
如圖1,當發(fā)生遮擋之后又重新出現的人,ID 發(fā)生了切換,圖1(a)中ID 為7 的人被遮擋后重新出現,圖1(b)中ID 變成了9;對于大燈照耀或者光照不足的情況下,也容易跟丟,如圖1(c)和圖1(d)情況。
基于上述原因,針對DeepSORT 進行改進,再結合YOLOv5 檢測算法,實現礦井下人員的穩(wěn)定跟蹤計數。
針對DeepSORT 的目標特征提取部分進行改進,使用Re-ID 特征提取模型OSNet 代替原本的CNN 模型。OSNet 是1 個使用深度可分離卷積代替?zhèn)鹘y(tǒng)卷積的輕量級網絡,它通過設計1 種由多個卷積特征流組成的殘差塊,每個殘差塊檢測一定尺度的特征來實現全尺度特征學習。在礦井里面,工人穿著基本統(tǒng)一,使得不同人之間的差異很小,特別是在畫面稍有模糊的情況下更是如此,為了正確匹配同一個人和區(qū)分不同的人,局部小區(qū)域的特征和整體身體區(qū)域的特征是同樣重要的,支持全尺度特征學習的OSNet 正符合這樣的需求。此外,OSNet 具備輕量的特點,更適合用在礦井安全監(jiān)控設備等算力有限的環(huán)境中。
在OSNet 中,構建塊由多個感受野的不同卷積特征流組成,每個特征流所關注的特征尺度由1 個維度因子決定,維度因子跨流線性增加,以確保每個塊中捕獲不同尺度,然后通過聚合門動態(tài)融合得到的多尺度特征圖。OSNet 構建塊示意圖如圖2。
圖2 OSNet 構建塊示意圖Fig.2 Building block schematic of OSNet
由圖2 可知,聚合門可以根據特定的輸入圖像,通過為特定的尺度分配主導權重來聚焦于單個尺度,它可以自適應混合,對多尺度特征進行動態(tài)聚合,從而產生異構的全尺度特征。
另外,為了減少參數的數量,OSNet 采用了深度可分離卷積,將標準卷積分為點卷積和深度卷積2層,計算量由h*w*k2*c*c′減少到了h*w*(k2+c)*c′,參數個數由k2*c*c′減少到了(k2+c)*c′。其中:
h 為高;w 為寬;k 為卷積核大??;c 為輸入通道的深度;c′為輸出通道的深度。
算法總體流程如圖3。
圖3 算法總體流程圖Fig.3 Algorithm process
視頻每一幀圖像通過YOLOv5 模型得到目標檢測結果,檢測結果中包含了目標檢測框的位置坐標、置信度和類別,將檢測結果傳入OSNet 特征提取網絡,從原圖中裁剪出檢測到的目標,提取所有檢測目標的特征。通過卡爾曼濾波器,根據之前的運動狀態(tài)預測當前幀的運動狀態(tài)。然后從已存在的軌跡中劃分出確認態(tài)軌跡和未確認態(tài)軌跡,使用OSNet提取到的外觀特征對確認的軌跡和當前的檢測框進行關聯。沒有匹配上的跟蹤框和未確認的跟蹤框一起去跟未匹配的檢測框基于IOU 損失做匈牙利匹配。對于匹配的跟蹤框,則拿去更新軌跡。
基于ROI 區(qū)域的計數方法示意圖如圖4。
圖4 基于ROI 區(qū)域的計數方法示意圖Fig.4 Example of counting based on ROI area
在視頻畫面中設置ROI 區(qū)域,ROI 區(qū)域中設置1 條判斷進出的參考線,當1 個人進入ROI 區(qū)域時開始進行跟蹤,離開時停止跟蹤。如果1 個人朝著入口方向移動并穿過進出判斷參考線,說明是進入當前巷道,該巷道人數加1,如果是朝出口方向移動并穿過進出判斷參考線,說明是離開當前巷道,則該巷道人數減1。
訓練策略是YOLOv5 檢測模型和OSNet 特征提取模型分開單獨訓練,為此準備了相應的數據集。
針對YOLOv5 的訓練數據集,為了保證數據的質量,提升模型的魯棒性,采集了礦井下多個場景的圖像數據,最后經過篩選選出10 000 張圖像作為數據集進行標注用于訓練和測試,數據集僅僅包含礦工一類標注目標, 其中8 000 張用于訓練,2 000張用于測試。對于數據集的標注,借助makesense 工具采用人工標注。
訓練模型時,對訓練數據進行了Mosaic 數據增強,Mosaic 數據增強示例如圖5。也就是選4 張圖片,采用隨機縮放、隨機裁剪、隨機排布的方式進行拼接。這樣做豐富數據集的同時增加了許多小目標,可以提高網絡的魯棒性。
圖5 Mosaic 數據增強示例Fig.5 Examples of Mosaic data enhancement
針對Re-ID 特征提取模型OSNet 的訓練數據,通過人工裁剪從監(jiān)控視頻畫面中裁剪出1 張張僅包含1 個人的圖片,圖片大小為256×128。訓練集包含4 000 張圖片,100 個人,每個人40 張;測試集包含1 000 張圖片,100 個人,每個人10 張。每個人隨機選2 張作為query,剩下的作為gallery。
采用2 階段的跟蹤模型,首先單獨訓練YOLOv5,使用的圖片尺寸為640×368,batch-size 為8,epochs 為300。使用預訓練的YOLOv5s 進行訓練,訓練結束時,mAP_0.5:95 為0.52,mAP_0.5 為0.76,precision 為0.79,recall 為0.66。然后,單獨訓練Re-ID 特征提取模型OSNet,使用在ImageNet 上進行預訓練的模型進行訓練,使用的圖片尺寸為256×128,batch-size 為8,epochs 為200。訓練結束時Rank-1為91.4 %,mAP 為80.8%。最后,將2 種模型進行級聯測試驗證跟蹤效果。
通過實驗,采集200 段礦井監(jiān)控設備拍攝到的視頻片段測試跟蹤計數效果,先將訓練好的目標檢測網絡YOLOv5 和原生的DeepSORT 結合進行跟蹤測試,然后使用訓練好的目標檢測網絡YOLOv5 和融合了OSNet 的DeepSORT 結合進行測試。實驗結果對比見表1,視頻跟蹤效果示例如圖6。
表1 實驗結果對比Table 1 Comparison of experimental results
圖6 視頻跟蹤效果示例Fig.6 Examples of video tracking effects
從實驗結果可以看出,使用OSNet 的跟蹤效果明顯優(yōu)于原生DeepSORT 的效果??梢娞岢龅幕赗e-ID 特征提取模型對礦井下復雜的成像環(huán)境更友好,而改進后的模型對于遮擋的目標也實現了穩(wěn)定跟蹤。
使用YOLO v5 作為目標檢測器,結合改進的DeepSORT 跟蹤算法進行礦井人員跟蹤,實現煤礦礦井各個巷道區(qū)域的人員計數,在煤礦發(fā)生安全事故時可以明確地掌握各個區(qū)域的人員情況,為安排營救計劃提供支持。分析并通過實驗說明了Deep-SORT 存在的缺陷,以及應用在礦井場景下的不足,并針對性地對目標特征提取部分進行改進,使用全尺度特征學習且輕量化的Re-ID 特征提取模型OSNet 替代DeepSORT 中的原本的CNN 特征提取模型;采用了檢測器和Re-ID 特征提取模型單獨訓練的訓練策略,并取得了很好的效果;在實現人員穩(wěn)定跟蹤的基礎上通過在視頻畫面中設置ROI 區(qū)域來跟蹤人員進出方向進行人數統(tǒng)計。改進后的跟蹤模型取得了很好的效果。