李 輝,石 旭, 張京晶,李心怡,姚世嚴,李天宇,鄭劍飛
(北京軌道交通路網(wǎng)管理有限公司,北京 100101)
近年來,“新基建”成為當前社會各界關注的熱點?!靶禄ā奔葱滦突A設施建設, 數(shù)字化、信息交互、科技創(chuàng)新驅(qū)動是“新基建”的3個特點。“新基建”主要包含3部分內(nèi)容:一是信息基礎設施,如以5G、物聯(lián)網(wǎng)、工業(yè)互聯(lián)網(wǎng)為代表的通信基礎設施,以人工智能(AI)、云計算、區(qū)塊鏈為代表的新技術基礎設施,以大數(shù)據(jù)中心為代表的算力基礎設施;二是融合基礎設施,指深度應用大數(shù)據(jù)、AI、物聯(lián)網(wǎng)技術,支撐傳統(tǒng)基礎設施升級,如智慧交通基礎設施、智慧能源基礎設施等;三是創(chuàng)新基礎設施,主要指支撐科學研究、技術研發(fā)的基礎設施。其中融合基礎設施與智慧地鐵建設目標高度一致。
AI技術經(jīng)過多年發(fā)展,已進入“機器學習期”。隨著各種機器學習算法的提出和應用,特別是深度學習技術的發(fā)展,機器能夠通過大數(shù)據(jù)分析,自動學習知識并實現(xiàn)智能化。智能視頻分析技術源于AI技術和機器視覺技術,在AI技術領域應用最為成熟。當前應用較為普遍的智能視頻分析算法種類包括人臉識別、目標跟蹤、物體檢測、密度估計、姿態(tài)估計及行人重識別(ReID)等。
近年來,智能視頻分析技術在安防、金融等領域有大量的應用場景,在維護社會公共安全、創(chuàng)新社會治理方面取得令人矚目的成績。但該技術在地鐵行業(yè)還處于剛起步或探索階段,距離廣泛應用還有較長距離。
國內(nèi)北京、杭州、鄭州、西安等城市地鐵線路已有部分智能視頻分析技術的應用場景,但是大多數(shù)場景仍是安防和金融領域的自然延伸。例如,北京地鐵6號線在車廂內(nèi)通過感知攝像機,運用圖像識別和視頻分析技術對車內(nèi)乘客暈倒及擁擠度等進行識別和告警;杭州地鐵通過人臉識別技術手段檢測、預防、捕獲各類涉危人員;西安地鐵、鄭州地鐵的刷臉支付等場景。
從國外的情況來看,2018年,日本東京地鐵實現(xiàn)乘客可通過APP實時查看全線85個站臺排隊及擁堵情況,引導乘客等待乘車或繞行其他路線。2019年,日本大阪地鐵谷町線天王寺站進行人臉過閘實證試驗。2021年,以色列地鐵在視頻監(jiān)控系統(tǒng)中加入智能分析功能,用于監(jiān)控“軌道入侵” “人群聚集”和“破壞攝像機”等站臺異常行為。
眾所周知,數(shù)據(jù)、算力和算法是人工智能的核心三要素,而現(xiàn)階段智能視頻分析技術仍以“數(shù)據(jù)驅(qū)動”為主,這意味著產(chǎn)品研發(fā)落地過程中遇到的最大障礙是數(shù)據(jù),以及因樣本數(shù)據(jù)規(guī)模不足而帶來的模型遷移和泛化能力差等問題。經(jīng)調(diào)研,目前國內(nèi)地鐵覆蓋全路網(wǎng)的攝像機的作用基本僅限于現(xiàn)場監(jiān)控,而智能視頻分析技術未能在地鐵行業(yè)推廣落地的原因主要有以下4個方面。
(1)場景缺乏梳理。既有的地鐵場景都是安防和金融領域應用場景的自然延伸(如黑名單布控、刷臉過閘等),并沒有針對地鐵建設和客流組織提供針對性的場景,不能很好地解決建設和運營中的痛點。
(2)算法缺乏樣本。智能視頻核心算法相對成熟,但卷積神經(jīng)網(wǎng)絡算法一定要針對不同的應用場景進行機器學習,在實踐中不斷打磨,才能達到應用要求。而各智能視頻廠商缺乏地鐵行業(yè)學習樣本數(shù)據(jù)和算法訓練的機會。
(3)沒有定制產(chǎn)品。由于沒有針對特定應用場景進行定制化,通用產(chǎn)品功能繁雜,硬件要求高,性價比低,難以全網(wǎng)推廣。
(4)缺乏標準規(guī)范。國家、行業(yè)、地方對于智能視頻分析技術在地鐵行業(yè)的應用,包括應用場景、技術、精度指標及安裝實施等方面均無標準規(guī)范支撐。
《北京市智慧交通提升行動計劃(2019-2021)》中提出,要實現(xiàn)地鐵的智慧化,必須打造集交通運行監(jiān)測中心、指揮調(diào)度中心、決策支持中心、綜合信息服務中心為一體的智慧交通大腦,如圖1所示?;凇皟?yōu)供”“控需”“強治”的交通綜合治理思路,全面整合政府、企業(yè)、社會化數(shù)據(jù),構(gòu)建運營、管控、執(zhí)法、服務等智慧交通應用場景,最終為公眾出行提供便捷、高效、安全、綠色的服務。而打造智慧交通大腦對視頻監(jiān)視系統(tǒng)(CCTV)智能化提出更高的要求,希望依托全路網(wǎng)布設的攝像機實現(xiàn)“智能判斷,自動預警” “協(xié)助指揮、服務乘客” “客流預測、決策支撐”及“視頻結(jié)構(gòu)化方便信息檢索”的能力。
近幾年,隨著高清視頻監(jiān)控攝像機在地鐵路網(wǎng)的推廣和普及,地鐵安防監(jiān)控已基本實現(xiàn)“看得見,看得清,看得明”。未來,為建成智慧地鐵,CCTV系統(tǒng)還需向“看得懂,看得準,看得遠”的智能化方向發(fā)展?!翱吹枚币笙到y(tǒng)在一定程度上能替代人工,通過遍布全網(wǎng)的攝像機智能識別出地鐵運營過程中發(fā)生的各種異常情況,并實時推送報警信號,不僅可以降低運營成本,還能保證工作標準一致,永不疲勞?!翱吹臏省眲t要求系統(tǒng)誤識率低,差錯率低,精準度高,不能誤報、錯報?!翱吹倪h”一方面指可視距離遠,借助5G等先進的通信手段,運營管理人員甚至乘客能夠把視角延伸至地鐵線網(wǎng)乃至列車的各個角落;二是指遠見能力,通過多個點位視頻聯(lián)動分析,可進行某區(qū)域未來一段時間的運營態(tài)勢分析,如5 min短期客流預測等。
智能視頻分析技術將對運營企業(yè)、管理部門、政府和乘客產(chǎn)生直接而有效的價值,甚至會引發(fā)管理模式和業(yè)務流程的優(yōu)化重構(gòu)。其中最直接、最突出的應用效果是在對智慧運營的支撐方面。如圖2所示,視頻分析后的數(shù)據(jù)將與自動售檢票(AFC)數(shù)據(jù)、行車數(shù)據(jù)以及物聯(lián)網(wǎng)數(shù)據(jù)等進行多元異構(gòu)數(shù)據(jù)的融合計算,實現(xiàn)客流快速化和定量化分析,以及客流狀態(tài)的實時準確獲取,從而支撐短時精準客流預測業(yè)務。同時,由于增加了對乘客異常行為的智能識別及告警能力,將進一步提升實時風險監(jiān)測水平,不斷壓縮和清除地鐵運行中的管理盲區(qū)。當車站需要進行客流引導及應急疏散時,系統(tǒng)可提供更加實時、直觀、有效的信息,有效發(fā)揮先期判斷、先期處置的協(xié)調(diào)調(diào)度指揮作用。此外,除了對運營企業(yè)和運營管理單位進行智慧化支撐外,還可為乘客提供全流線智慧化信息服務,從出行引導到進站、出站,使乘客地鐵出行更便捷,更安全,更舒適。
通過對地鐵行業(yè)全生命周期、全場景、全業(yè)務鏈分析,本文梳理出智能視頻分析十大主題業(yè)務場景,覆蓋建設、運營、清分清算、設備運維、多種經(jīng)營等多個業(yè)務板塊,如圖3所示。
針對以上業(yè)務場景,為便于后續(xù)工作開展,本文根據(jù)前期調(diào)研情況以及部分廠商視頻分析產(chǎn)品盲測的結(jié)果,對業(yè)務場景的算法研發(fā)和實施難度進行綜合評價,如表1所示。其中,32個場景中,9個“從無到有”,21 個“從有到優(yōu)”,2個“從優(yōu)到精”??梢?,大多數(shù)場景所需的算法模型已經(jīng)相對成熟,并且在其他行業(yè)已有應用案例,但是由于未能針對地鐵場景進行模型定制及樣本訓練,其算法準確率和軟件功能難以滿足地鐵實際業(yè)務的需求。
表1 業(yè)務場景應用現(xiàn)狀與實現(xiàn)難度分析
為實現(xiàn)智能視頻分析技術與地鐵行業(yè)的深度融合,本文提出“四步走”的實施路徑。首先,在深入研究地鐵行業(yè)應用場景和實際需求的基礎上,基于深度神經(jīng)網(wǎng)絡研發(fā)算法模型,并利用海量地鐵真實圖像樣本進行模型訓練,以提升其準確率。其次,利用地鐵真實測試樣本集對訓練后的模型進行測試和驗證。再次,針對實驗室檢測通過的算法模型,選擇試點線路、車站開展試點應用,并依據(jù)應用效果進行調(diào)優(yōu)。最終,基于試點情況總結(jié)形成適合地鐵行業(yè)特點、可落地、可推廣的智能視頻分析技術實施導則,從而指導全行業(yè)工程化推廣。
智能視頻分析技術與行業(yè)之間的耦合度極高,即便在其他行業(yè)應用成熟的算法也難以直接應用于地鐵行業(yè)。要實現(xiàn)該技術在地鐵行業(yè)落地須解決2個問題:訓練樣本與行業(yè)知識。一方面,除個別場景(如人臉識別)可以跨行業(yè)外,絕大多數(shù)場景均需要大量的地鐵樣本數(shù)據(jù)進行算法訓練,才能滿足精度要求。而外部AI廠商沒有此類數(shù)據(jù)。另一方面,算法模型要最終發(fā)揮作用,必須依據(jù)地鐵特定場景和特定業(yè)務需求進行定制。因此,有必要針對地鐵場景重新設計研發(fā)算法模型,并利用地鐵真實樣本數(shù)據(jù)開展模型訓練。下面列舉4個場景的算法研發(fā)。
4.1.1 車廂實時滿載率監(jiān)測
現(xiàn)狀:國內(nèi)地鐵暫無成熟應用案例。部分地鐵列車進行了試點應用,但算法準確率受車廂攝像機安裝高度、角度影響較大,且早晚高峰人員遮擋現(xiàn)象嚴重,因此一般作為車廂稱重數(shù)據(jù)的補充。
思路:可采用大廣角魚眼攝像機,頂部安裝,有效避免人員遮擋,利用畸變恢復技術,同時疊加多區(qū)域去重算法,提高車廂滿載率算法的準確性,為提升旅客乘車體驗、協(xié)助車站工作人員疏導客流提供幫助。圖4為普通攝像機識別情況,圖5為頂裝廣角攝像機識別情況。
算法模型:人頭檢測算法、Yolox-L。
考核指標:擁擠程度識別準確率大于95%,滿足規(guī)?;瘧眯枨?。
應用效果:將車廂擁擠情況提前顯示在前方車站乘客信息系統(tǒng)(PIS)顯示屏上,引導乘客均勻乘車。
4.1.2 乘客走行路徑分析
現(xiàn)狀:經(jīng)調(diào)研,該技術在泛安防行業(yè)應用準確率較低,不高于80%。地鐵行業(yè)目前沒有應用案例。
思路:利用ReID+FaceID綁定技術,實現(xiàn)乘客的全路徑分析。如圖6所示,在北京地鐵千萬客流量的背景下,只有通過人體+人臉綁定的方式,才能夠有效提升準確率,滿足實際業(yè)務應用需求。
算法模型: ReID+FaceID、OSNet。
考核指標:人體+人臉綁定準確率90%,滿足規(guī)?;瘧眯枨蟆?/p>
應用效果:通過分析抽樣乘客進站到出站的各環(huán)節(jié)走行路徑及時間,可驗證清分模型參數(shù)準確性,并輔助進行客流規(guī)律分析。
4.1.3 X 光機智能判圖
現(xiàn)狀:目前沒有在地鐵行業(yè)成熟應用,原因一是沒有足夠多的數(shù)據(jù)訓練算法;二是管制刀具、違禁品經(jīng)常更新,對算法的小樣本學習能力要求較高;三是背包內(nèi)物品的形態(tài)多種多樣,對機器識別的準確率要求較高。目前大多數(shù)X光機識別違禁品為15種左右,準確率約 50%。
思路:通過雙視角X光圖片多維度3D目標檢測算法,關聯(lián)分析2個及以上不同視角拍攝物品X光圖片,實現(xiàn)1+1>2的效果,有望大幅提升識別準確率。
核心算法:雙視角X光圖片多維度3D目標檢測算法。
考核指標:裝有違禁物品的行包過安檢機,安保人員與機器能夠同時識別出來,識別種類30種以上,識別準確率達到90%左右。
應用效果:通過技術方案改進與算法訓練,實現(xiàn)對常見違禁品的自動化識別與告警,降低現(xiàn)場工作人員的勞動強度。
4.1.4 周界防護
現(xiàn)狀:人員侵界、樹木侵界、危險源識別等算法模型在地鐵行業(yè)已有少量應用,但準確率仍有待提升。
思路:利用電子圍欄、振動光纖、紅外對射、mimo雷達等多種類型傳感器,融合計算機視覺技術,對侵界事件進行檢測和分析報警。
核心算法:異物檢測、人體識別等算法與傳感器技術進行融合。
考核指標:誤報率小于10%、漏報率小于2%。
應用效果:通過計算機視覺技術對傳感器采集到的各類侵界情況進行分析,提高周界監(jiān)控可靠性,降低誤報率。
為提升算法研發(fā)效率,本文搭建了算法訓練及檢測平臺,其架構(gòu)如圖7所示,支持多種模型和算法框架(TensorFlow、PyTorch、Caffe等),最大可支撐千萬級規(guī)模的樣本在線模型訓練,同時具備圖形處理器(GPU)卡、容器管理及分布式多機多卡訓練能力,大大提升了模型的訓練速度。此外,還建立了六大類模型指標評價體系,包含指標評價標準、參數(shù)顯示、綜合評分等,覆蓋多種地鐵典型場景需求,可以從不同維度對算法模型進行評價。
將通過實驗室檢測后的算法模型嵌入應用系統(tǒng)后,有必要通過小規(guī)模試點應用進一步檢驗智能視頻分析系統(tǒng)的可行性和適應性,并根據(jù)暴露出的問題進行針對性的算法調(diào)優(yōu)和功能優(yōu)化,從而確保大規(guī)模投入生產(chǎn)時少出問題或不出問題。
在既有線路進行試點過程中,要充分考慮工程化的各類問題。例如,既有攝像機的安裝高度、照射角度及范圍是否符合算法模型泛化要求,下降的精度是否在業(yè)務可接受范圍之內(nèi);車廂、站臺攝像機及相關設備是否具備改造條件;不同的CCTV系統(tǒng)建設廠商對視頻流獲取及圖像幀解析方式的影響;在既有數(shù)據(jù)傳輸帶寬已被各系統(tǒng)占用,特別是車地無線通信帶寬十分緊張的情況下,數(shù)據(jù)的傳輸方案是否合理,如何統(tǒng)籌考慮端、邊、云的計算方案等。
基于以上工作研發(fā)的“平安列車”智能視頻分析系統(tǒng)創(chuàng)新性地將計算機視覺技術與列車安全員業(yè)務進行融合,研發(fā)出3款智能終端,提供車廂擁擠度監(jiān)測(圖8)、乘客異常行為監(jiān)測(圖9)、智能清客、駕駛行為監(jiān)測等功能,并于2021年底在北京地鐵11號線西段工程(冬奧支線)全線進行了試點。
通過“平安列車”系統(tǒng)的研發(fā)及試點應用,進一步驗證了技術路線的可行性,打通了從數(shù)據(jù)標注到算法研發(fā)、訓練、檢測及工程化的全流程、各環(huán)節(jié),為未來地鐵新線建設和既有線改造CCTV系統(tǒng)中的視頻分析相關內(nèi)容的建設提供了有益參考。后續(xù),將繼續(xù)針對梳理出的各類業(yè)務場景進行算法研發(fā)和試點。對于完成試點驗證的場景,將匯總編制1套包括各個場景技術方案、軟硬件產(chǎn)品清單、現(xiàn)場實施方案、成本估算等內(nèi)容的《軌道交通智能視頻分析技術實施導則》,為智能視頻分析技術在地鐵行業(yè)的推廣落地奠定堅實基礎。
此外,對于實際業(yè)務應用過程中萌生出的新的應用場景,可以通過搭建的算法訓練和檢測平臺,持續(xù)推進新算法的研發(fā)、訓練、檢測和應用。因此,算法訓練和檢測平臺可視作地鐵智能視頻分析業(yè)務場景的孵化器,研發(fā)并通過檢測的新的應用場景可以不斷豐富完善《軌道交通智能視頻分析技術實施導則》,從而保障地鐵視頻分析智能化水平的持續(xù)提升,挖掘出更多視頻數(shù)據(jù)的價值。
相比2008年4萬億投入的“鐵公基”傳統(tǒng)基建,“新基建”將引發(fā)國家經(jīng)濟結(jié)構(gòu)向以數(shù)字經(jīng)濟為代表的新興經(jīng)濟轉(zhuǎn)變。借助云計算、大數(shù)據(jù)、AI等“新基建”技術,智能視頻分析技術將從根本上改變視頻信息采集、傳輸處理、系統(tǒng)控制的方式和結(jié)構(gòu),有效提高視頻監(jiān)控的智能化程度和使用價值。更重要的是,視頻數(shù)據(jù)將成為重要的可挖掘、可利用的數(shù)據(jù)資產(chǎn),為地鐵行業(yè)數(shù)字化轉(zhuǎn)型提供更加強勁的數(shù)字驅(qū)動力。