姜 雪,哈大雷,徐慧星,楊 帥,江升輝
(1. 中車長春軌道客車股份有限公司,長春 130062;2. 中車青島四方車輛研究所有限公司,青島 266031)
目前,我國已建成運(yùn)營速度最快、里程最長的高速鐵路網(wǎng),取得了令世界矚目的成就。為保持競爭力,我國高速鐵路需要在列車技術(shù)上持續(xù)創(chuàng)新,不斷提升旅客服務(wù)質(zhì)量,為旅客提供更加安全、舒適、高效的出行體驗(yàn)。
智能視頻分析技術(shù)借助計(jì)算機(jī)強(qiáng)大的數(shù)據(jù)處理功能,對監(jiān)控?cái)z像機(jī)所拍攝的海量視頻進(jìn)行高速分析,從視頻圖像的背景中將目標(biāo)分離出來,自動捕獲和跟蹤可疑目標(biāo),一旦場景中的目標(biāo)出現(xiàn)違反預(yù)定義分析規(guī)則的行為,會觸發(fā)預(yù)設(shè)置的聯(lián)動規(guī)則主動告警,為用戶提供有價值的關(guān)鍵信息。
為此,提出高速列車視頻智能分析應(yīng)用方案,在高速列車車廂內(nèi)安裝高清攝像機(jī),構(gòu)建高速列車智能視頻分析系統(tǒng),對攝像機(jī)采集的視頻數(shù)據(jù)流進(jìn)行智能分析,自動檢測和識別高速列車上的異常狀況,并將告警信息傳輸至車廂控制器,由車廂控制器將告警信息顯示在車載顯示設(shè)備上,或通過車載廣播設(shè)備播放告警信息,為改善旅客服務(wù)和保障列車安全運(yùn)行提供信息服務(wù)。
目前,智能視頻分析主要采用深度學(xué)習(xí),構(gòu)造深層次的網(wǎng)絡(luò)結(jié)構(gòu),學(xué)習(xí)機(jī)制為以數(shù)據(jù)為驅(qū)動,算法分為訓(xùn)練和推理2個階段;訓(xùn)練階段使用預(yù)先標(biāo)記的樣本(輸入和預(yù)期輸出)對模型進(jìn)行訓(xùn)練,通過網(wǎng)絡(luò)參數(shù)迭代得到一個最優(yōu)模型;推理階段使用訓(xùn)練好的深度神經(jīng)網(wǎng)絡(luò)模型,預(yù)測無標(biāo)記的新的輸入的輸出,輸出為連續(xù)值稱為回歸,輸出為離散值稱為分類。
按照智能視頻分析的任務(wù)類型,智能視頻分析技術(shù)包括目標(biāo)檢測、目標(biāo)跟蹤、目標(biāo)識別、目標(biāo)行為識別4種類型。
目標(biāo)檢測是智能視頻分析的基礎(chǔ),是從視頻圖像中去除掉背景成分,找出檢測目標(biāo)的區(qū)域,在這個過程中盡可能地減少背景噪聲和前景噪聲的干擾;目標(biāo)檢測方法主要包括光流法[1]、特征匹配法[2]和基于深度學(xué)習(xí)的方法[3]。
目標(biāo)跟蹤是在視頻圖像中尋找與目標(biāo)模板最相似的候選目標(biāo)區(qū)位置的過程,其中目標(biāo)跟蹤方法主要基于特征的跟蹤、基于區(qū)域的跟蹤和基于深度學(xué)習(xí)的方法[4]。
目標(biāo)識別是指根據(jù)視頻圖像中的目標(biāo)內(nèi)容,自動將其劃分到預(yù)定義類別,如人、車輛等不同目標(biāo);根據(jù)可利用信息的不同,目標(biāo)識別可分為基于形狀信息[5]和基于深度學(xué)習(xí)的方法。
目標(biāo)檢測、跟蹤和識別屬于智能視頻分析中底層和中層處理部分,而目標(biāo)行為識別是對目標(biāo)的運(yùn)動模式進(jìn)行分析和識別,通過在跟蹤過程中目標(biāo)的行為變化,根據(jù)用戶的自定義行為規(guī)則,判斷被跟蹤目標(biāo)的行為是否存在異常,屬于智能視頻分析中高層處理部分;目標(biāo)行為識別方法主要基于時空興趣點(diǎn)的方法、基于骨骼關(guān)節(jié)軌跡的方法和基于深度學(xué)習(xí)的方法[6]。
國內(nèi)關(guān)于智能視頻分析技術(shù)在列車上的應(yīng)用已開展了一些研究。段旺旺等人[7]基于視頻監(jiān)控圖像,使用Faster R-CNN模型進(jìn)行車廂人數(shù)檢測與統(tǒng)計(jì),實(shí)現(xiàn)動車組車廂擁擠度分析,車廂擁擠度預(yù)測結(jié)果的準(zhǔn)確率達(dá)到93.89%;馮勇等人[8]設(shè)計(jì)了行李架遺留物檢測方法,對指定的行李檢測區(qū)域采用幀差法完成初檢,判斷是否有物品遺留在行李架上,當(dāng)初檢檢測到行李遺留物時,使用YOLOv3模型對遺留物的位置、類別進(jìn)行復(fù)檢。
高速列車智能視頻分析系統(tǒng)主要由車廂攝像機(jī)、視頻監(jiān)控服務(wù)器和智能分析主機(jī)等設(shè)備組成,這些設(shè)備通過列車以太網(wǎng)組網(wǎng)進(jìn)行信息交互,系統(tǒng)構(gòu)成如圖1所示。
圖1 高速列車智能視頻分析系統(tǒng)構(gòu)成示意
(1)車廂攝像機(jī):選用高清網(wǎng)絡(luò)攝像機(jī),主要安裝在車門通過臺、客室、吧臺區(qū)及司機(jī)室等區(qū)域,安裝位置應(yīng)不影響現(xiàn)場設(shè)備運(yùn)行和人員正?;顒?,并確保能夠獲取監(jiān)視目標(biāo)區(qū)域清晰、完整的視頻畫面;所采集的監(jiān)視目標(biāo)區(qū)域數(shù)字視頻流數(shù)據(jù)同時發(fā)送給視頻監(jiān)控服務(wù)器和智能分析主機(jī)。
(2)視頻監(jiān)控服務(wù)器:每節(jié)車廂布置布置1臺視頻監(jiān)控服務(wù)器,主要由供電模塊、通信模塊、網(wǎng)絡(luò)視頻錄像機(jī)(NVR,Network Video Recorder)模塊和存儲模塊組成;視頻監(jiān)控服務(wù)器采用視頻中間件的方式,可兼容多種數(shù)字?jǐn)z像機(jī)設(shè)備的編碼格式,集中存儲車廂攝像機(jī)采集的視頻流數(shù)據(jù),具備視頻數(shù)據(jù)管理功能,提供視頻數(shù)據(jù)查詢和下載、刪除服務(wù)。
(3)智能分析主機(jī):根據(jù)智能視頻分析功能算力分析,每列 8編組動車組列車配置2臺智能分析主機(jī),分別處理1~4車和5~8車的視頻數(shù)據(jù);智能分析主機(jī)主要由供電模塊、通信模塊和智能分析模塊組成;智能分析模塊采用CPU+GPU+NPU硬件架構(gòu),具有高算力和高性能,主要完成列車智能視頻分析,自動識別和檢測各種異常事件;通過通信模塊接入基于車廂控制器構(gòu)建的列車骨干網(wǎng),可將智能分析模塊生成的告警事件信息發(fā)送給車廂控制器;還可從車廂控制器接收相關(guān)信息,實(shí)現(xiàn)與其他車載設(shè)備的信息交互,例如從車載旅客信息系統(tǒng)(PIS,Passenger Information System)獲取視頻流數(shù)據(jù)的補(bǔ)充信息。
車廂控制器接收到告警事件信息,將告警信息發(fā)送給公共區(qū)域車載顯示設(shè)備(如吊頂電視、內(nèi)外顯示器等,面向乘客提供引導(dǎo)信息)、工作人員車載顯示設(shè)備(如乘務(wù)員室智慧屏),或通過司機(jī)室廣播設(shè)備播放告警信息。
高速列車智能視頻分析系統(tǒng)工作過程如圖2所示。
圖2 高速列車智能視頻分析系統(tǒng)工作過程
(1)車廂攝像機(jī)通過車廂以太網(wǎng),基于實(shí)時流傳輸協(xié)議(RTSP,Real-TimeStream Protocol ),同時向視頻監(jiān)控服務(wù)器和智能分析主機(jī)傳輸監(jiān)視目標(biāo)區(qū)域的視頻流。
(2)視頻監(jiān)控服務(wù)器接收RTSP視頻流,從中抽取H.264裸流數(shù)據(jù)(含時間、日期、攝像機(jī)標(biāo)識符),同時從車廂控制器獲取其他車載系統(tǒng)提供的補(bǔ)充信息(包括車次、列車運(yùn)行區(qū)間、車廂號、攝像機(jī)位置號等),將視頻流數(shù)據(jù)和補(bǔ)充信息整合在一起后集中存儲,便于視頻數(shù)據(jù)檢索與查詢;提供視頻數(shù)據(jù)存儲管理,列車工作人員可在車載顯示設(shè)備上使用視頻管理軟件,進(jìn)行指定監(jiān)控視頻的下載、回放、刪除等操作,授權(quán)操作可被記錄以備查詢。
(3)智能分析主機(jī)接收車廂攝像機(jī)傳輸?shù)臄?shù)字視頻流數(shù)據(jù)后,利用內(nèi)置的視頻數(shù)據(jù)預(yù)處理程序與深度學(xué)習(xí)算法程序,對視頻流數(shù)據(jù)進(jìn)行實(shí)時處理,自動完成車廂乘客擁擠度檢測、車廂敏感人員識別、車廂遺留行李檢測、車廂重點(diǎn)位置監(jiān)控及司機(jī)疲勞駕駛監(jiān)測等智能視頻分析;發(fā)現(xiàn)異常事件時,生成異常事件告警信息發(fā)送給車廂控制器。
(4)車廂控制器作為列車骨干網(wǎng)節(jié)點(diǎn)設(shè)備,可與智能視頻分析系統(tǒng)的智能分析主機(jī)及視頻監(jiān)控服務(wù)器進(jìn)行信息交互,接收智能分析主機(jī)發(fā)送的異常事件告警信息;從PIS等其他車載系統(tǒng)或設(shè)備獲取視頻補(bǔ)充信息(如車次、列車運(yùn)行區(qū)間、車廂號、攝像機(jī)位置號等),并將這些相關(guān)信息發(fā)送給智能分析主機(jī)和視頻監(jiān)控服務(wù)器。
(5)當(dāng)車廂控制器接收到智能分析主機(jī)發(fā)送的異常事件告警信息時,將告警信息轉(zhuǎn)發(fā)給PIS;PIS根據(jù)告警事件類別,自動觸發(fā)告警信息的顯示或播報(bào)。對于車廂擁擠告警事件,PIS觸發(fā)公共區(qū)域車載顯示設(shè)備(如吊頂電視、內(nèi)外顯示器等)顯示面向乘客的引導(dǎo)信息,方便乘客隨時了解各車廂擁擠程度;對于司機(jī)疲勞駕駛告警事件,PIS觸發(fā)司機(jī)室廣播設(shè)備播放報(bào)警信息,提醒駕駛員注意安全駕駛,及時解除危險行為;對于車廂敏感人員識別、車廂遺留行李檢測、車廂重點(diǎn)位置監(jiān)控識別的告警事件,PIS觸發(fā)工作人員車載顯示設(shè)備(如乘務(wù)員室智慧屏)顯示告警信息,告警信息包含車廂號、攝像機(jī)位置號、報(bào)警描述、報(bào)警圖像或報(bào)警視頻,工作人員可通過操作智慧屏,實(shí)時查看或回放指定車廂的監(jiān)控畫面,進(jìn)一步了解車廂內(nèi)祥情。
車廂敏感人員人臉識別屬于目標(biāo)識別任務(wù)類型,是基于人的面部特征信息進(jìn)行身份識別的一種生物識別技術(shù),利用深度神經(jīng)網(wǎng)絡(luò)和多階段回歸從千萬級別的圖像中學(xué)習(xí)先驗(yàn)知識,快速準(zhǔn)確地對人臉進(jìn)行檢測并定位,能夠克服光照情況不理想、人臉姿態(tài)變化復(fù)雜等因素的影響。采用人臉識別技術(shù)可實(shí)現(xiàn)敏感人員的智能檢測和預(yù)警,提供更加安全的乘車環(huán)境。
系統(tǒng)從公安系統(tǒng)備案獲取人臉黑名單庫或其他敏感人員人臉庫,將其提前導(dǎo)入智能分析主機(jī),智能分析主機(jī)對車廂視頻監(jiān)控畫面進(jìn)行人臉識別。車廂敏感人員識別流程如圖3所示。
圖3 車廂敏感人員識別流程
本文實(shí)現(xiàn)的人臉識別應(yīng)用主要包含5個模塊:人臉檢測、人臉對齊、人臉特征提取、特征比對以及人臉識別;其中,人臉檢測采用MTCNN模型[9],如圖4所示,這是一種層層遞進(jìn)的多任務(wù)級聯(lián)卷積神經(jīng)網(wǎng)絡(luò),主要包含Proposal Network(P-Net),Refine Network(R-Net)及Output Network(O-Net)3個網(wǎng)絡(luò)。在進(jìn)行人臉識別時,先由P-Net通過卷積神經(jīng)網(wǎng)絡(luò)快速生成目標(biāo)候選檢測框, R-Net接收PNet生成的目標(biāo)候選檢測框,通過卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行目標(biāo)檢測框過濾,丟棄重疊窗體;最終由O-Net使用卷積神經(jīng)網(wǎng)絡(luò)完成人臉位置的檢測,同時回歸生成5個面部關(guān)鍵點(diǎn)。人臉對齊則使用5個面部關(guān)鍵點(diǎn)將人臉進(jìn)行歸一化處理以便進(jìn)行人臉特征提取。人臉特征提取模塊核心單元采用了卷積神經(jīng)網(wǎng)絡(luò)提取高層語義特征,生成目標(biāo)特征向量,特征比對模塊計(jì)算各特征向量之間的相似度,最終完成人臉識別,當(dāng)檢測到車廂敏感人員時,智能分析主機(jī)發(fā)送報(bào)警信息。
圖4 MTCNN網(wǎng)絡(luò)結(jié)構(gòu)示意
車廂乘客擁擠度檢測屬于目標(biāo)檢測任務(wù)類型,其目的是自動識別車廂內(nèi)乘客擁擠程度。動車組車廂乘客一般按照座號就坐,座椅區(qū)域極少會出現(xiàn)乘客擁擠的現(xiàn)象,車廂擁擠檢測主要針對車廂通過臺區(qū)域和車廂通道區(qū)域[4]。本文以車廂通過臺和通道區(qū)域作為檢測區(qū)域進(jìn)行人數(shù)統(tǒng)計(jì),車廂座椅排數(shù)作為比較基準(zhǔn)值,計(jì)算兩者比例判定車廂擁擠度。車廂擁擠度c定義為
其中,N為車廂通過臺和通道區(qū)域統(tǒng)計(jì)出的乘客數(shù)量;M是當(dāng)前車廂座椅排數(shù)。
根據(jù)預(yù)先設(shè)置的車廂不同擁擠度等級的閾值,判斷車廂擁擠程度,車廂擁擠度系數(shù)閾值如表1所示。
表1 車廂擁擠度系數(shù)閾值表
列車車廂內(nèi)空間狹小,當(dāng)出現(xiàn)擁擠時,人體往往會嚴(yán)重遮擋??紤]到攝像機(jī)拍攝位置較高,本文采用目標(biāo)檢測模型是通過對頭部的檢測實(shí)現(xiàn)人數(shù)統(tǒng)計(jì),車廂乘客擁擠度檢測流程圖如圖5所示。
圖5 車廂乘客擁擠度檢測流程
YOLOv5 是用于目標(biāo)檢測的最有效的深度學(xué)習(xí)算法之一[10], 包括 YOLOv5s、YOLOv5m、YOLO5l和 YOLOv5x 4種變體,每個變體具有特定的寬度和深度。車廂乘客擁擠度檢測使用輕量級的YOLOv5s模型,主要包括骨干網(wǎng)絡(luò)、特征融合及預(yù)測層3個組件,其輸出結(jié)果分別為目標(biāo)位置矩陣框、目標(biāo)類型和模型檢測置信度,如圖6所示。
圖6 YOLOv5s網(wǎng)絡(luò)結(jié)構(gòu)示意
其中,骨干網(wǎng)絡(luò)包括Focus模塊、Conv模塊、C3模塊和SPP模塊,通過多重卷積和池化從輸入圖像中提取不同大小的特征圖,創(chuàng)建4個不同大小的特征圖。特征融合是將一組融合圖像特征并將其轉(zhuǎn)發(fā)到預(yù)測層的網(wǎng)絡(luò)層,融合了幾個層次的特征圖,用以收集更多的上下文信息并減少信息丟失,在融合過程中利用FPN和PAN的特征金字塔結(jié)構(gòu),F(xiàn)PN和PAN共同增強(qiáng)了網(wǎng)絡(luò)的特征融合能力。特征融合層生成小、中、大3種尺寸新特征圖。預(yù)測層是預(yù)測圖像特征,構(gòu)造邊界框,然后預(yù)測目標(biāo)類別。
車廂遺留行李檢測屬于目標(biāo)檢測任務(wù)類型,當(dāng)乘客在終點(diǎn)站下車時,如有行李物品遺落在車廂內(nèi),智能分析主機(jī)可識別出行李物品遺留情況,并向乘務(wù)人員發(fā)出報(bào)警,方便乘務(wù)人員查找乘客遺留的行李物品。
車廂遺留行李檢測采用基于目標(biāo)檢測模型YOLOv5s,模型輸出結(jié)果包含檢測目標(biāo)位置矩陣框、目標(biāo)類型和模型檢測置信度。當(dāng)列車到達(dá)車次終點(diǎn)站時,乘客信息系統(tǒng)向智能分析主機(jī)發(fā)送到達(dá)列車終點(diǎn)站信號和列車行駛速度,智能分析主機(jī)先觸發(fā)車廂遺留人員檢測,當(dāng)本車廂遺留乘客人數(shù)總數(shù)小于設(shè)定閾值時(如3人,可設(shè)置),隨即觸發(fā)終點(diǎn)站遺留物檢測,并生成行李遺留物信息,包括行李類別(手提箱、背包、其它)、位置等。當(dāng)檢測到終點(diǎn)站車廂行李遺留時,智能分析主機(jī)發(fā)送報(bào)警信息,終點(diǎn)站車廂行李遺留檢測具體流程如圖7所示。
圖7 終點(diǎn)站車廂行李遺留檢測流程
車廂重點(diǎn)位置監(jiān)控屬于目標(biāo)識別任務(wù)類型,其目的是對列車重要區(qū)域進(jìn)行實(shí)時監(jiān)測和預(yù)警,以保證列車安全運(yùn)行。本文以乘客緊急制動手柄作為監(jiān)測對象。
智能分析主機(jī)提前導(dǎo)入緊急制動拉桿區(qū)域的背景圖像,智能分析主機(jī)基于背景差分法 ,對緊急制動拉桿區(qū)域的圖像進(jìn)行實(shí)時分析。背景差分法通過將圖像序列中的當(dāng)前幀與背景參考圖像對比來檢測運(yùn)動物體,可快速檢測運(yùn)動目標(biāo),且檢測準(zhǔn)確率較高。本文采用背景差分法進(jìn)行初檢,判斷是否存在可疑的入侵行為,再將初檢中發(fā)現(xiàn)的可疑圖像送入目標(biāo)分類網(wǎng)絡(luò)進(jìn)行復(fù)檢,進(jìn)一步分析緊急制動拉桿區(qū)域是否存在異常動作。復(fù)檢采用基于經(jīng)典卷積神經(jīng)網(wǎng)絡(luò)ResNet構(gòu)建的目標(biāo)分類模型,ResNet網(wǎng)絡(luò)特有的殘差結(jié)構(gòu)加深了網(wǎng)絡(luò)深度,并能夠加速網(wǎng)絡(luò)訓(xùn)練速度,使網(wǎng)絡(luò)更快收斂。當(dāng)檢測到緊急制動拉桿區(qū)域有乘客異常行為入侵時,智能分析主機(jī)發(fā)送報(bào)警信息,車廂重點(diǎn)位置監(jiān)控流程如圖8所示。
圖8 車廂重點(diǎn)位置監(jiān)控流程
司機(jī)疲勞檢測屬于目標(biāo)行為識別任務(wù)類型,其目的是監(jiān)督司機(jī)的駕駛行為,避免其在駕駛過程中出現(xiàn)的危險行為,確保行車安全。本文以司機(jī)眼部狀態(tài)作為智能分析對象,據(jù)此推斷司機(jī)的疲勞狀態(tài)。
司機(jī)眼部關(guān)鍵點(diǎn)檢測基于改進(jìn)的YOLOV5s模型,在YOLOv5-Face中添加人臉68個關(guān)鍵點(diǎn)坐標(biāo)回歸,模型使用wing loss作為損失函數(shù),對于小誤差,它表現(xiàn)為具有偏移量的對數(shù)函數(shù),而對于大誤差,則表現(xiàn)為L1損失函數(shù),wing loss損失函數(shù)的定義為
其中,w是一個正數(shù),將非線性部分的范圍限制在 [-w,w]區(qū)間內(nèi);ε約束非線性區(qū)域的曲率,且C=w-wln(1+|x|/ε))是一個常數(shù),可平滑的連接分段的線性和非線性部分,ε應(yīng)設(shè)置為一個很小的數(shù)值,因?yàn)樗鼤咕W(wǎng)絡(luò)訓(xùn)練變得不穩(wěn)定,且很小的誤差就會導(dǎo)致梯度爆炸問題。
YOLOv5-Face模型輸出結(jié)果包含檢測目標(biāo)位置矩陣框、檢測目標(biāo)的關(guān)鍵點(diǎn)位置、目標(biāo)類型和模型檢測置信度。根據(jù)司機(jī)眼睛的6個關(guān)鍵點(diǎn)的相對位置,對司機(jī)疲勞狀態(tài)進(jìn)行識別。當(dāng)駕駛員處于睜眼狀態(tài)時,眼睛關(guān)鍵點(diǎn)之間歐氏距離較大;在閉眼狀態(tài)時,眼睛關(guān)鍵點(diǎn)之間歐氏距離較較小。當(dāng)識別到司機(jī)閉眼且持續(xù)時間超過一定的閾值(可進(jìn)行設(shè)置)時,即可判斷司機(jī)處于疲勞狀態(tài),當(dāng)檢測到司機(jī)疲勞駕駛時,智能分析主機(jī)發(fā)送報(bào)警信息,司機(jī)疲勞檢測流程如圖9所示。
圖9 司機(jī)疲勞檢測流程
采用基于深度學(xué)習(xí)技術(shù)設(shè)計(jì)了一種高鐵列車智能視頻分析應(yīng)用方案,實(shí)現(xiàn)了車廂乘客擁擠度檢測、車廂敏感人員識別、車廂遺留行李檢測、車廂重點(diǎn)位置監(jiān)控及司機(jī)疲勞駕駛監(jiān)測,提升了高速列車旅客服務(wù)智能化水平,減輕了乘務(wù)人員排查各車廂異常事件的工作負(fù)擔(dān),有助于增強(qiáng)列車運(yùn)行安全。
目前在實(shí)際應(yīng)用中,高速列車智能視頻分析系統(tǒng)尚存在較高的誤報(bào)和漏報(bào)率,其原因主要是智能分析模型的訓(xùn)練樣本數(shù)量有限。下一步將收集更多的視頻圖像數(shù)據(jù),完成圖像標(biāo)注,通過構(gòu)造高質(zhì)量的訓(xùn)練數(shù)據(jù)集,持續(xù)對智能分析模型進(jìn)行改進(jìn)和優(yōu)化,提升檢測和識別的準(zhǔn)確度。