摘" 要:為了解決高速公路監(jiān)控人員手工巡檢工作量大、效率低、準確性低的實際痛點,采用圖像自動識別技術(shù),以視頻信號采集為起點,通過圖像預處理、特征提取、目標識別與跟蹤、異常事件檢測、自動預警與處置的工作流程,建立YOLOv5目標檢測及DeepSORT目標根據(jù)算法,實時自動發(fā)現(xiàn)高速中出現(xiàn)的異常事件并及時預警處置,研究成果經(jīng)過實際工程應用,驗證了技術(shù)的創(chuàng)新性及可行性,可大大提高高速公路運營管理效率。
關(guān)鍵詞:YOLOv5目標檢測;DeepSORT目標跟蹤;特征提??;事件檢測;機器深度學習
中圖分類號:TP18;U491.2" " 文獻識別碼:A" " 文章編碼:2096-4706(2024)10-0143-07
Research on Highway Real-time Monitoring and Early Warning System Based on Image Recognition Technology
FU Yiheng
(Guangdong Road and Bridge Construction Development Co., Ltd., Guangzhou" 510663, China)
Abstract: In order to solve the actual pain points of large workload, low efficiency and low accuracy of manual inspection of monitoring personnel, the automatic image recognition technology is adopted, starting from video signal acquisition, and through image preprocessing, feature extraction, target recognition and tracking, abnormal event detection, automatic early warning and disposal and so on, the abnormal events in the highway are automatically discovered in real time and timely early warning and disposal. Through the practical engineering application, the innovation and feasibility of the research results are verified, and the technology greatly improves the efficiency of the highway operation and management.
Keywords: YOLOv5 object detection; DeepSORT target tracking; feature extraction; event detection; machine Deep Learning
0" 引" 言
根據(jù)國家統(tǒng)計局公布數(shù)據(jù)顯示,截至2022年12月31日,全國的高速公路總里程達到17.7 km,目前,高速公路上的超速、違法停車、行人非法闖入、拋灑物、交通事故等事件的監(jiān)、管、控,主要是通過監(jiān)控管理人員手動輪詢手段來實現(xiàn),存在工作量大、效率低、漏報、誤報、應急聯(lián)動性差等痛點。近兩年來視頻事件檢測產(chǎn)品已經(jīng)開始在行業(yè)內(nèi)應用,并且已被越來越多的高路公路運營管理單位青睞。作者多年來一直從事高速公路智慧化產(chǎn)品的開發(fā)研究及高速公路的運營管理,針對現(xiàn)在高速公路運營管理的痛點,開展基于圖像識別的智能實時檢測預警系統(tǒng)研究,實現(xiàn)高速公路上發(fā)生的各種異常事件的實時監(jiān)測及自動識別具體有重要意義。
1" 設計思路
從高速公路的運營管理痛點出發(fā),利用高速公路上已部署好的攝像機對高速公路的路域、橋梁、隧道、收費站、樞紐等場所的視頻進行采集,在監(jiān)控中心部署視頻分析服務器,對采集到的視頻信息進行識別、分析,通過算法自動識別出高速公路上的超速、低速、違規(guī)變道、違規(guī)停車、行人、拋灑物、隧道火災、山體滑坡等事件,并實時預警,遵循事件的實時檢測、自動識別、及時預警、緊急處置的閉環(huán)原則[1]。
2" 設計依據(jù)及標準
本研究的設計依據(jù)主要是以下標準及規(guī)范,這些標準規(guī)范對視頻檢測及識別的檢測范圍、檢測內(nèi)容、檢測時間、檢測準確率、漏報率、虛報數(shù)等做出了規(guī)定:
GB/T 28789—2012《視頻交通事件檢測器》、DB14/T 1335—2017《高速公路交通事件信息交換規(guī)范》、GB/T 29100—2012《道路交通信息服務 交通事件分類與編碼》、GB/T 29096—2012《道路交通管理數(shù)字字典交通事件數(shù)據(jù)》、GB/T 40768—2021《視頻流與時空信息整合編碼規(guī)范》、GB/T 31493—2015《數(shù)字音視頻分析儀技術(shù)要求》、GB/T 24726—2009《交通信息采集視頻車輛檢測器》、GB/T 34959—2017《音頻、視頻、信息技術(shù)和通信技術(shù)設備環(huán)境意識設計》。
根據(jù)以上技術(shù)指標要求,本研究技術(shù)指標定義為:事件檢測準確率≥96%,檢測時間≤8秒,漏報率≤2%,24小時虛報數(shù)不多于1條[2]。
3" 系統(tǒng)框架
系統(tǒng)架構(gòu)包含基礎層、數(shù)據(jù)采集層、信息傳輸層、數(shù)據(jù)處理層、支撐層和應用層組成,系統(tǒng)架構(gòu)圖如圖1所示。
基礎層為系統(tǒng)運行的基本保障層,包含服務器、工作站、通信設備、存儲設備等硬件部分以及操作系統(tǒng)、數(shù)據(jù)庫等。
數(shù)據(jù)采集層主要是高速公路上部署的各種攝像設備,負責車型、車流、交通事件的視頻信號采集。
傳輸層負責視頻信號、設備狀態(tài)數(shù)據(jù)、控制信號等的傳輸,通常有光纖專網(wǎng)、4G/5G/NB、Wi-Fi、LoRa等方式。
數(shù)據(jù)層包含數(shù)據(jù)的清洗、分析、融合、挖掘等功能,數(shù)據(jù)的類型包含設備基礎信息、狀態(tài)信息等結(jié)構(gòu)化數(shù)據(jù),還包含視頻、圖片等非結(jié)構(gòu)數(shù)據(jù)。
支撐層包含數(shù)據(jù)接口分析、分析引擎、報表引擎、實時計算、GIS服務、視頻服務等功能支撐。
應用層包含交通事件識別與分析、車型車流分析、目標檢測與跟蹤、事件查詢、事件分析統(tǒng)計、事件預警處理、緊急處置等業(yè)務流程。
4" 工作流程
本研究的工作流程是利用圖像識別技術(shù),對高速公路上發(fā)生的超速、違停、逆行、違規(guī)變道、行人闖入、拋灑物事件進行自動識別并預警,主要包含數(shù)據(jù)采集、特征提取、算法模型訓練等功能,主要功能如圖2所示。
4.1" 圖像采集及預處理
高速公路上每隔500~1 000 m就要部署一套攝像機,通過攝像機可以獲取海量的視頻數(shù)據(jù),視頻信號是由一幀一幀的圖像組成的,為了提高識別準確性,需要對圖像信號進行去噪、大小調(diào)整、灰度化等預處理[3]。
4.2" 圖像特性提取
經(jīng)過預處理的圖像信號,需要從中提取邊緣、紋理、顏色、形狀等有意義的特征,可以使用預訓練的深度學習模型(如卷積神經(jīng)網(wǎng)絡)來提取圖像特征,通過大規(guī)模數(shù)據(jù)進行模型訓練,這些模型能夠捕獲圖像中更高層次的語義信息。
4.3" 圖像標記
經(jīng)過預處理的圖像包含有車輛、行人、拋灑物等目標物體,需要對這些目標物體進行邊界標記,一般用矩形框來標記,將標記轉(zhuǎn)化為(x,y,width,height)的坐標信息形式來表示。
4.4" 算法模型訓練
建立訓練分類器,將已做標簽的數(shù)據(jù)集隨機劃分訓練集和測試集,其比例為9:1。將數(shù)據(jù)集輸入到模型中進行反復訓練,將圖像的提取特征和相對應的標簽進行匹配,建立圖像特征和事件類別的關(guān)聯(lián)模型。
4.5" 測試與評估
算法模型訓練完成后,將沒有做標簽的圖像數(shù)據(jù)輸入到分類器進行測試和評估,通過測試圖像輸入到分類器中預測測試結(jié)果,將測試結(jié)果與真實標簽的結(jié)果進行對比,評估分類器的屬性和準確性。
4.6" 部署及應用
算法模型在測試和評估確定其準確性后,可以根據(jù)實際應用場景進行部署,將圖像數(shù)據(jù)輸入到算法中,并對結(jié)果進行分析和跟蹤。
5" 核心技術(shù)
5.1" 基于YOLOv5的高速公路目標檢測技術(shù)
YOLOv5是一種目標檢測算法,是YOLO經(jīng)過第一代到第四代發(fā)展后的最新版本,與以往四代相比,YOLOv5在輸入端增加了Mosaic數(shù)據(jù)增強、自適應描框、自適應圖片縮放;在基準網(wǎng)絡中加入了Focus結(jié)構(gòu)和CSP結(jié)構(gòu)[4];在Neck網(wǎng)絡結(jié)構(gòu)中添加了FPN+PAN結(jié)構(gòu),在Head輸出層改進了損失函數(shù)GIOU_Loss [5]。
5.1.1" YOLOv5的網(wǎng)絡結(jié)構(gòu)
對于高速公路上的車輛、行人、拋灑物等目標的檢測,可以將網(wǎng)絡分成輸入端(Input)、基準網(wǎng)絡(Backbone)、Neck網(wǎng)絡及Head輸出端(Prediction)四個模塊。網(wǎng)絡結(jié)構(gòu)如圖3所示。
5.1.2" YOLOv5的基礎組件
CBL:CBL模塊由Conv+BN+Leaky Relu 激活函數(shù)組成,如圖3中模塊1所示。
Res unit:借鑒ResNet網(wǎng)絡中的殘差結(jié)構(gòu),用來構(gòu)建深層網(wǎng)絡,CBM是殘差模塊中的子模塊,如圖3中模塊2所示。
CSP1-X:由CBL模塊、Res unint模塊以及卷積層、Concate組成而成,如圖3中模塊3所示。
CSP2_X:由卷積層和X個Res組成,如圖3中模塊4所示。
Focus:首先將多個slice結(jié)果Concat起來,然后將其送入CBL模塊中,如圖3中的模塊5。
SPP:采用1×1、5×5、9×9和13×13的最大池化方式,進行多尺度特征融合,如圖3中的模塊6。
5.1.3" Mosaic數(shù)據(jù)增強
在YOLOv5中輸入端采用了Mosaic數(shù)據(jù)增強方式,選了4張圖片進行隨機裁剪、隨機縮放及隨機排列拼接,這樣大大增加了數(shù)據(jù)量,提升了算法訓練的網(wǎng)絡速度,還降低了算法訓練的內(nèi)存要求。
5.1.4" 自適應描框尺寸
傳統(tǒng)目標檢測需要利用滑動窗口來提取被檢目標,由于窗口尺寸固定,無法覆蓋尺寸不同的目標,且窗口的數(shù)量較多,需耗費大量運算資源,算法性能較差[6]。根據(jù)不同的數(shù)據(jù)集來自適應計算Anchor,對于不同的數(shù)據(jù)集,都會計算先驗框Anchor。然后在網(wǎng)絡訓練時,網(wǎng)絡會在Anchor的基礎上進行預測,然后輸出預測框,再和標簽框進行對比,最后就進行梯度地反向傳播,并將此功能嵌入到整個訓練代碼里中。
自適應的計算具體過程:
1)獲取數(shù)據(jù)集中所有目標的寬和高。
2)將每張圖片中按照等比例縮放的方式到resize指定大小,這里保證寬高中的最大值符合指定大小。
3)將bboxes從相對坐標改成絕對坐標,這里乘以的是縮放后的寬高。
4)篩選bboxes,保留寬高都大于等于兩個像素的bboxes。
5)使用K-means聚類三方得到n個Anchors。
6)使用遺傳算法隨機對Anchors的寬高進行變異。倘若變異后的效果好,就將變異后的結(jié)果賦值給Anchors [7];如果變異后效果變差就跳過,默認變異1 000次。這里是使用Anchor_fitness方法計算得到的適應度fitness,然后再進行評估[8]。
5.2" 基于DeepSORT的高速公路多目標跟蹤技術(shù)
DeepSORT是多目標跟蹤算法,是在SORT基礎上添加了級聯(lián)匹配以及軌跡狀態(tài)變化判斷的一種改進算法,在匹配過程中同時考慮目標的預測框、形狀及軌跡變化三個要素。在高速公路目標中存在車輛、行人等多目標跟蹤,還存在車輛之間相互遮擋、門架及隔離帶綠化物對車輛遮擋的情況,選用DeepSORT算法,可以提高多車輛連續(xù)跟蹤的穩(wěn)定性和準確性。DeepSORT的多目標跟蹤算法流程如圖4所示。
5.2.1" 目標跟蹤步驟
1)當檢測到高速公路上車輛目標的視頻時,目標檢測器負責對檢測框(Detections)進行檢測,預測當前幀的軌跡信息(Predict tracks),每次預測都是在上一次時間的基礎上加1。
2)如果預測軌跡得到確認,則輸入到檢測框進行級聯(lián)匹配,經(jīng)過級聯(lián)匹配成功后將通過卡爾曼濾波更新軌跡信息。
3)級聯(lián)匹配未成功且距離上一次更新時間為1的軌跡信息,和未經(jīng)過匹配的軌跡輸入到IoU檢測框進行匹配,如果匹配成功則更新軌跡。
4)IoU匹配未成功的軌跡分為暫定態(tài)和確定態(tài),暫定態(tài)軌跡直接刪除,設定一個MaxAge值,如果確定態(tài)軌跡信息距離上一次更新時間大于MaxAge值,則直接刪除;如果不大于MaxAge值則進行下一輪預測。
5)將所有軌跡中是確定態(tài)且距離上次更新時間小于n的軌跡作為最終跟蹤結(jié)果輸出,其中的n為可選參數(shù),當n為1時,只輸出最新更新的軌跡,此時的跟蹤更為精確,與觀測值更接近。但如果發(fā)生漏檢情況,軌跡會有短暫中斷。當n大于1的數(shù)時,如果此時發(fā)生漏檢,最終輸出會由卡爾曼濾波預測框彌補檢測漏檢目標,軌跡會更加連續(xù)[9]。
5.2.2" 卡爾曼濾波預測車輛運動狀態(tài)
高速公路上車輛的速度變化不大時,可以通過卡爾曼濾波來預測車輛運動狀態(tài),在卡爾曼濾波中主要通過觀測方程和狀態(tài)轉(zhuǎn)移矩陣對車輛目標狀態(tài)進行預測估計。
卡爾曼濾波觀測方程為:
Zt = Hxt + vt" " " " " " " " " " " " " " (1)
其中,Zt表示在t時刻高速公路上車輛目標的觀測值,H表示當時的觀測矩陣,xt表示t時刻車輛目標的觀測值與真實值的對應關(guān)系,vt表示t時刻觀測系統(tǒng)噪聲,此時噪聲滿足正態(tài)分布。
為了減少算法運算時的消耗,將高速公路上行駛的車輛目標建模為勻速運動,車輛運動的狀態(tài)表示為(b,v),其中b表示車輛目標的位置,v表示車輛的速度,目標車輛的狀態(tài)可表示為以下向量:
x = (x,y,a,h,vx,vy,va,vh)T" " " " "(2)
其中,x、y、a、h表示目標的各個位置,vx、vy、va、vh各個位置對應的速度。
狀態(tài)矩陣及觀測矩陣可分別表示為:
,(3)
其中,F(xiàn)表示時刻4的狀態(tài)矩陣,H表示觀測矩陣,I4表示時刻4時的位置坐標值,O表示坐標相對值。
卡爾曼濾波初始化時v全為0,b為檢測框參數(shù)。完成初始化后就進入預測階段,再通過后續(xù)匹配成功的檢測框?qū)︻A測結(jié)行進行優(yōu)化調(diào)整,經(jīng)過初始化及優(yōu)化調(diào)整后就完成了對高速公路目標車輛的狀態(tài)的預估,達到相關(guān)聯(lián)幀之間目標車輛的關(guān)聯(lián)跟蹤。
5.2.3" 關(guān)聯(lián)匹配算法
高速公路上的事件識別需要對多目標進行跟蹤,本研究選用的匈牙利算法是一種在多項式時間內(nèi)求解任務分配問題的組合優(yōu)化算法,在高速公路的多目標跟蹤問題中,用于匹配軌跡預測框與目標檢測框??梢詫⑼庥^特征距離、馬氏跟蹤、IoU距離等相關(guān)信息構(gòu)建代價矩陣,通過行歸約和列歸約后嘗試指派,如果指派成功則完成級聯(lián)匹配,如果匹配失敗,則通過調(diào)整行列值來更新代價矩陣,這樣可以解決目標跟蹤中相關(guān)聯(lián)幀之間的最大匹配問題。匈牙利算法的流程圖如圖5所示。
6" 案例應用
本研究成果主要應用于汕梅高速的蓮花山隧道群異常事件視頻檢測中,在路運一體化平臺的基礎上,研發(fā)基于圖像識別技術(shù)的高速公路實時監(jiān)測與預警系統(tǒng),在監(jiān)控中心部署算法服務器及深度學習事件檢測分析平臺[10],對管養(yǎng)的蓮花山隧道群實行視頻事件檢測,實現(xiàn)隧道內(nèi)的車輛超速、違規(guī)停車、違規(guī)變道、行人、拋灑物、煙霧等異常事件的自動精準識別并預警。
6.1" 類別及特征判斷的檢測
本應用場景為蓮花山隧道,隧道內(nèi)的行人、動物、摩托車、煙火、拋灑物,只需要對目標進行類別及特征判斷,提取目標的特征及類別,用YOLOv5算法的步驟進行描框、縮放、Mosaic數(shù)據(jù)增強、自適應處理識別。
6.2" 車輛特征的檢測
由于車輛是屬于行駛的目標,涉及車輛狀態(tài)的實時跟蹤以及車輛被遮擋的情況,所以需要用YOLOv5自法對車輛特征進行檢測,用DeepSORT對車輛進行目標跟蹤,用檢測框代替正確的跟蹤框組成連續(xù)幀片段,通過卡爾曼濾波及級聯(lián)方式完成目標的跟蹤。
6.3" 硬件拓撲結(jié)構(gòu)
硬件拓撲結(jié)構(gòu)包括場外及場內(nèi)兩部分,場外設備包括攝像機、通信專網(wǎng),主要完成視頻信號的采集和傳輸,場內(nèi)設備包括文件服務器、交通信息分析服務器、視頻入侵檢測分析服務器、應用服務器、視頻上墻設備以及展示設備,主要完成算法訓練、深度學習(目標檢測、跟蹤)等功能。硬件拓撲如圖6所示。
6.4" 軟件系統(tǒng)設計
因為視頻分析需要做大的算法訓練,運算量非常大,所以需要選擇多核及高性能的處理器(CPU),在圖形處理中大量應用機器深度學習及神經(jīng)網(wǎng)絡模型分析,所以需要配備高性能的圖形處理單元(GPU),在路達高速的項目應用中,服務器的配置關(guān)鍵參數(shù)要求如下:
主板:超微X11DAI-N,1塊;內(nèi)存:三星16 GB REG ECC DDR4 2666,4條;CPU:intel Xeon 4114+風冷風扇,2個;GPU:GeForce GTX 1080Ti;顯示卡:RTX 3080;硬盤:三星PM883 480G SSD;硬盤:希捷4 TB 企業(yè)級硬盤;系統(tǒng):Ubuntu 18.04.5 LTS。
選擇Python作為編程語言,選擇OpenCV作為圖像處理庫,選擇PyTorch 1.7.1為深度學習框架,界面框架則選擇PyQt5。系統(tǒng)界面如圖7所示。
6.5" 檢測結(jié)果
系統(tǒng)上線以來,在交通量檢測及安全監(jiān)控方面大大提高了管理效率,能夠自動檢測到車輛超速、車輛違停、車輛逆行、拋灑物、違規(guī)行人等事件,對高速公路上發(fā)生的事件通過目標檢測、分析、跟蹤進行識別,當檢測到事件時及時將報警信號發(fā)回監(jiān)控中心,監(jiān)控人員根據(jù)事件類別進行應急處理。識別效果如圖8所示。
7" 結(jié)" 論
本研究從高速公路異常事件監(jiān)測的痛點出發(fā),從系統(tǒng)的架構(gòu)設計、工作流程上進行設計,應用YOLOv5目標識別及DeepSORT目標跟蹤技術(shù),構(gòu)建圖像分析識別算法,自動識別出高速公路上超速、逆行、違章停車、違章變道、摩托車闖入、拋灑物、行人闖入、動物闖入等異常事件,研究成果在路達高速實際工程中應用驗證,采用圖像識別技術(shù)對高速公路各場景的實時監(jiān)控,能夠大大提高速公路的運營管理效率,成為高速公路行業(yè)視頻事件識別的先驅(qū)和典范,為高速公路自動化智能化管理提供參考和借鑒。但由于圖像識別受天氣及夜間光線影響,夜間識別準確率有待提高,接下將與雷達等不受光線影響的技術(shù)及設備相結(jié)合,進一步完善圖像識別的算法,研究出更加完善的高速公路實時檢測與預警系統(tǒng)。
參考文獻:
[1] 魏溪含,涂銘,張修鵬.深度學習與圖像識別:原理與實踐 [M].北京:機械工業(yè)出版社,2019:89-100.
[2] 全國智能運輸系統(tǒng)標準化技術(shù)委員會.視頻交通事件檢測器:GB/T 28789—2012 [S].北京:中國標準出版社,2013:2-3.
[3] 扶松柏.圖像識別技術(shù)與實戰(zhàn) [M].北京:清華大學出版社,2022:148-155.
[4] 李斌,文莉莉,鄔滿,等.基于注意力機制的SK-YOLOv5海洋目標檢測分類算法 [J].廣西科學,2023,30(1):132-138.
[5] 許璧麒,馬志強,寶財吉拉呼,等.基于YOLOv5的高速公路小目標車輛逆行檢測模型 [J].國外電子測量技術(shù),2022,41(11):146-153.
[6] 李海生,蔣周龍,李杰,等.高速公路交通視頻事件檢測系統(tǒng)應用探討 [J].中國交通信息化,2022(3):102-106.
[7] 張超,王亮.基于邊緣計算的行人檢測算法研究 [J].現(xiàn)代信息科技,2023,7(6):81-84
[8] 李少君.基于YOLOv5的實時檢測算法研究 [D].武漢:武漢郵電科學研究院,2022.
[9] 郭玉彬.基于視頻圖像的車輛檢測跟蹤及行為識別研究 [D].北京:北京交通大學,2021.
[10] 張立,王衛(wèi)華,王靖然,等.基于改進ResNet50的石油管道焊縫缺陷分類 [J].現(xiàn)代計算機,2021(20):98-102.
作者簡介:付毅恒(1984.01—),男,漢族,廣東肇慶人,交通工程工程師,本科,研究方向:智慧交通。