張 旭,郝向陽(yáng),李建勝,李朋月
1. 航天工程大學(xué),北京 101416; 2. 信息工程大學(xué)地理空間信息學(xué)院,河南 鄭州 450001
地理信息的表達(dá)內(nèi)容涉及地理實(shí)體及其空間關(guān)系、不確定性、地理動(dòng)態(tài)及地理本體等方面[1]。地理數(shù)據(jù)包括空間位置、屬性特征及時(shí)態(tài)特征3個(gè)部分,是對(duì)于不同的地理實(shí)體、地理要素、地理現(xiàn)象、地理事件、地理過(guò)程等的表達(dá)[2]。傳統(tǒng)的地理信息表達(dá)以二維地圖為主導(dǎo),展現(xiàn)地理空間的靜態(tài)屬性。為解決地理數(shù)據(jù)的多維表達(dá),使以地理方式看待世界時(shí)更加貼近人的視角,同時(shí)附加所不具備的地理屬性,將視頻與地理信息融合的地理超媒體的表達(dá)方式成為研究的新方向[3-6]。
目前對(duì)于監(jiān)控視頻的智能分析,無(wú)論是目標(biāo)檢測(cè)[7]還是跟蹤行為理解[8]等計(jì)算機(jī)視覺(jué)任務(wù),僅僅是基于視頻影像本身,其中影像目標(biāo)的檢測(cè)與跟蹤[9]等的精度是研究者們追求的主要目標(biāo),所得到的分析結(jié)果也僅僅是影像坐標(biāo)。以監(jiān)控視頻的目標(biāo)跟蹤為例,監(jiān)控者們更想得到的是實(shí)際地理位置和目標(biāo)的動(dòng)態(tài)方位、速度、運(yùn)動(dòng)軌跡等信息,而單純的視頻目標(biāo)跟蹤無(wú)法完成該任務(wù),將地理空間信息與視頻融合可有效解決這一問(wèn)題。文獻(xiàn)[10]描繪出攝像機(jī)的位置以及視圖方向?qū)⒁曨l影像置入“附近”視圖,來(lái)進(jìn)行跨攝像機(jī)的跟蹤。文獻(xiàn)[11]認(rèn)為空間視頻具有巨大的潛力,在GIS中使用基本數(shù)據(jù)類(lèi)型來(lái)建模空間視頻,使用Viewpoint數(shù)據(jù)結(jié)構(gòu)表示視頻幀來(lái)進(jìn)行視頻的地理空間分析。文獻(xiàn)[12]提出了一個(gè)系統(tǒng),用于從未標(biāo)定的視頻中利用地理空間數(shù)據(jù)進(jìn)行相機(jī)姿態(tài)估計(jì),通過(guò)GPS數(shù)據(jù)、序列影像和建筑物粗糙模型進(jìn)行建筑物精細(xì)三維建模。文獻(xiàn)[13]提出了基于視頻運(yùn)動(dòng)物體和GIS的集成模型,通過(guò)空間定位和聚類(lèi)運(yùn)動(dòng)物體的軌跡,構(gòu)建運(yùn)動(dòng)物體的虛擬視野和表達(dá)模型,在虛擬場(chǎng)景中逐幀重建運(yùn)動(dòng)對(duì)象的子圖。
傳統(tǒng)的監(jiān)控視頻與地理信息的融合模型分為兩類(lèi),即位置映射模型和視頻影像映射模型。前者僅僅將監(jiān)控相機(jī)的位置集成在地理信息的框架中,用統(tǒng)一的地理坐標(biāo)參考系將處于該區(qū)域范圍內(nèi)的監(jiān)控相機(jī)建立相關(guān)聯(lián)系。監(jiān)控視頻與地理信息的集成僅僅處于松集成階段,起到的作用更多是示意功能[14-15]。后者則是在此基礎(chǔ)上將視頻影像通過(guò)相機(jī)的內(nèi)外參數(shù)等信息映射至地理空間中,與地理場(chǎng)景疊加進(jìn)行處理分析[11,16-17]。雖然將更多信息映射至地理空間中,但是由于監(jiān)控視頻存在大量的信息冗余,無(wú)法使監(jiān)控人員快速捕獲真正感興趣的目標(biāo)信息。
監(jiān)控視頻中含有靜態(tài)環(huán)境背景信息和動(dòng)態(tài)前景目標(biāo)信息。首先對(duì)靜態(tài)背景建模,將背景提取并映射至地理空間,然后建立前景目標(biāo)和軌跡信息與地理空間的映射關(guān)系模型,通過(guò)該映射關(guān)系模型將其映射至地理空間,從而建立地理信息與前景目標(biāo)相融合的可視化模型。通過(guò)提取監(jiān)控視頻中動(dòng)態(tài)前景目標(biāo)信息,既可減少視頻的冗余信息,也可改善可視化效果。設(shè)某空間點(diǎn)P的世界坐標(biāo)為(Xw,Yw,Zw),通過(guò)旋轉(zhuǎn)矩陣R和平移向量t可以轉(zhuǎn)換為相機(jī)坐標(biāo)系下的坐標(biāo)(Xc,Yc,Zc),坐標(biāo)(Xc,Yc,Zc)與其對(duì)應(yīng)圖像坐標(biāo)(u,v)存在如式(1)所示透視投影關(guān)系
(1)
式中,fx、fy為相機(jī)焦距;dx、dy為相機(jī)傳感器在水平與垂直方向的像元物理尺寸;u0、v0為圖像像素主點(diǎn)坐標(biāo);K是僅與相機(jī)內(nèi)部結(jié)構(gòu)相關(guān)的參數(shù)所決定的內(nèi)參數(shù)矩陣;[R|t]是由相機(jī)相對(duì)世界坐標(biāo)系的旋轉(zhuǎn)矩陣R和平移向量t所決定的外參數(shù)矩陣;P為相機(jī)投影矩陣。
不妨假設(shè)地面為一平面,將世界坐標(biāo)系中的點(diǎn)映射至圖像坐標(biāo)系中,假設(shè)圖像中一點(diǎn)m,對(duì)應(yīng)世界坐標(biāo)點(diǎn)為M,則
m=[xy1]T
(2)
M=[XwYw0 1]T
(3)
m=HM
(4)
即
(5)
式中
(6)
上述所求解的H矩陣是將平面上的物方空間點(diǎn)透視變化至圖像空間中的映射矩陣,為了求解圖像空間點(diǎn)投射至物方空間中,需要對(duì)H矩陣求逆,即
(7)
H-1=(K[r1,r2,t])-1
(8)
當(dāng)假設(shè)世界坐標(biāo)高程為0時(shí),即將其看作平面時(shí),通過(guò)計(jì)算相機(jī)內(nèi)參矩陣K與外參矩陣[r1,r2,t]求解出H矩陣,內(nèi)參矩陣的求解是利用張正友標(biāo)定法[18]拍攝10~20張標(biāo)定板圖像進(jìn)行標(biāo)定,同時(shí)可獲取相機(jī)畸變參數(shù);外參矩陣可通過(guò)多點(diǎn)透視問(wèn)題(perspective-n-points,PNP)進(jìn)行求解,本文采用的是精度較高也較為流行的EPNP+Iteration[19-20]的方法。
在固定場(chǎng)景的監(jiān)控視頻中,背景信息并不引起人們關(guān)注,前景運(yùn)動(dòng)目標(biāo)才是關(guān)注的重點(diǎn),也是視頻智能分析的關(guān)鍵信息,因此運(yùn)動(dòng)目標(biāo)的提取尤為重要。本文采用MOG2[21]算法進(jìn)行前景目標(biāo)的提取,并根據(jù)差分檢測(cè)策略篩選出含前景目標(biāo)的視頻幀,通過(guò)跨幀檢測(cè)顯著提高了檢測(cè)效率,然后將提取出的前景運(yùn)動(dòng)目標(biāo)的輪廓作為地圖符號(hào)置入地理空間中進(jìn)行可視化表達(dá)。在多目標(biāo)跟蹤任務(wù)中,則利用基于深度學(xué)習(xí)的YOLOv3算法進(jìn)行目標(biāo)檢測(cè)并利用DeepSort[22]算法實(shí)現(xiàn)多目標(biāo)跟蹤。將視頻流輸入差分篩選器剔除無(wú)需檢測(cè)幀后,置入YOLOv3檢測(cè)器中,輸出檢測(cè)框、類(lèi)別與置信度,將該輸出再次置于DeepSort[22]多目標(biāo)跟蹤器中,通過(guò)改進(jìn)的遞歸卡爾曼濾波[23]預(yù)測(cè)位置并跟蹤,根據(jù)馬氏距離與深度描述子的余弦距離作為融合后的度量,采用匈牙利算法[24]進(jìn)行級(jí)聯(lián)匹配,輸出動(dòng)態(tài)跟蹤定位信息。具體流程見(jiàn)圖1。
圖1 實(shí)時(shí)檢測(cè)跟蹤流程Fig.1 Real-time detection and tracking flowchart
視頻所輸出的跟蹤結(jié)果為所跟蹤目標(biāo)在視頻流圖像中的位置、大小、身份識(shí)別信息等組成,由于這種結(jié)果無(wú)法被人們很直觀地感受到,因此在進(jìn)行目標(biāo)跟蹤時(shí)需要同時(shí)繪制出目標(biāo)的運(yùn)動(dòng)軌跡。目前通常以目標(biāo)檢測(cè)框的中心為軌跡節(jié)點(diǎn),雖然這種表達(dá)方式能夠顯示目標(biāo)的運(yùn)動(dòng)軌跡,但不能滿足量測(cè)定位的精度要求。為此,本文以目標(biāo)(以人為例)的雙足中心作為軌跡節(jié)點(diǎn)的初值,然后根據(jù)相機(jī)相對(duì)地平面的位姿與目標(biāo)在圖像中所占比例大小進(jìn)行軌跡校正。假設(shè)由多目標(biāo)跟蹤器中獲得的當(dāng)前幀ti中某一目標(biāo)Om的檢測(cè)框結(jié)果為(u,v,γ,h),分別對(duì)應(yīng)檢測(cè)框的左下點(diǎn)的橫縱坐標(biāo)、寬高比例以及高度,則ti幀中目標(biāo)Om在圖像中的軌跡節(jié)點(diǎn)Tj(u′,v′)可由式(9)求得
(9)
式中,δ、σ為校正值。由于由此獲得的目標(biāo)Om的軌跡節(jié)點(diǎn)Tj存在誤差,因此連接軌跡節(jié)點(diǎn)Tj所得到的軌跡Trajn出現(xiàn)抖動(dòng)現(xiàn)象,需要對(duì)所有軌跡節(jié)點(diǎn)進(jìn)行擬合以取得光滑的跟蹤軌跡。本文采用式(10)所示的3次多項(xiàng)式進(jìn)行軌跡擬合
y=a0+a1x+…+akxk(k=3)
(10)
各節(jié)點(diǎn)到該曲線的偏差平方和為
(11)
經(jīng)過(guò)求偏導(dǎo)化簡(jiǎn)后得到式(12)的矩陣表達(dá)形式
(12)
即
X×A=Y
(13)
A=(XTX)-1XTY
(14)
結(jié)合前文所計(jì)算得到的映射矩陣,當(dāng)獲得圖像空間中的跟蹤目標(biāo)Om的軌跡節(jié)點(diǎn)點(diǎn)集
(15)
通過(guò)映射矩陣可計(jì)算得到物方空間中該目標(biāo)Om的軌跡節(jié)點(diǎn)的對(duì)應(yīng)點(diǎn)集,經(jīng)過(guò)上述3次多項(xiàng)式擬合后得到的地理空間中平滑軌跡節(jié)點(diǎn)集為
(16)
在安防監(jiān)控中,以井字格形式的監(jiān)控視頻最為常見(jiàn),也廣泛應(yīng)用于公安系統(tǒng)、校園、小區(qū)等場(chǎng)所,然而這種以原始視頻影像序列作為信息源的方式費(fèi)時(shí)費(fèi)力且未利用空間相關(guān)信息。同時(shí),僅僅將監(jiān)控視頻映射至地理空間的模式也無(wú)法克服視頻數(shù)據(jù)的冗余性缺點(diǎn),難以突出視頻的主要信息。與傳統(tǒng)的監(jiān)控視頻相比,將視頻的動(dòng)態(tài)前景目標(biāo)信息或者是管理者們感興趣的信息提取出來(lái),將處理分析后的結(jié)果,本文根據(jù)應(yīng)用需求的差異性,共提出了4種融合模式,分別為:
融合模式1:軌跡要素層+前景動(dòng)態(tài)目標(biāo)圖層+背景層+真實(shí)地圖圖層;
融合模式2:軌跡要素層+前景動(dòng)態(tài)目標(biāo)圖層+真實(shí)地圖圖層;
融合模式3:軌跡要素層+前景動(dòng)態(tài)目標(biāo)圖層+背景層+矢量地圖圖層;
融合模式4:軌跡要素層+前景動(dòng)態(tài)目標(biāo)圖層+矢量地圖圖層。
圖2是以融合模式1為例的示意圖,將多目標(biāo)跟蹤的軌跡信息映射至地理空間,利用前景目標(biāo)提取算法提取目標(biāo)與軌跡相關(guān)聯(lián),以真實(shí)的場(chǎng)景作為固定背景信息,實(shí)現(xiàn)地理信息與視頻影像動(dòng)態(tài)前景目標(biāo)信息的融合。該模式包含要素最全,背景層的融合可利用視頻所提供的背景對(duì)真實(shí)場(chǎng)景更新,可體現(xiàn)前景動(dòng)態(tài)目標(biāo)在真實(shí)場(chǎng)景下的定位結(jié)果以及軌跡的位置分布,提供了更多超媒體信息;模式2主要用于以遙感地圖為參考底圖的動(dòng)態(tài)目標(biāo)定位跟蹤任務(wù),當(dāng)背景與真實(shí)地圖場(chǎng)景差別較小時(shí)適用該模式,使得可視化效果更加真實(shí);模式3與前兩者相比將真實(shí)地圖層更換為矢量地圖層,對(duì)于相機(jī)可視范圍外場(chǎng)景不被關(guān)注的情況下較為適用,同時(shí)使表達(dá)更為簡(jiǎn)潔;模式4適用于只關(guān)心地理信息表達(dá),忽視場(chǎng)景中超媒體信息的任務(wù),可視化效果也更為直觀,突出前景動(dòng)態(tài)目標(biāo)的定位跟蹤結(jié)果。同時(shí)模式3與模式4相比于前兩者均更重視動(dòng)態(tài)前景目標(biāo)在地理空間中的數(shù)據(jù)分析、可量測(cè)、可查詢統(tǒng)計(jì)等目的。
圖2 地理信息與視頻動(dòng)態(tài)前景目標(biāo)信息的融合模式Fig.2 Fusion mode of geographic information and video dynamic foreground summary information
為驗(yàn)證所提出的模型及方法的可行性,筆者采集了部分監(jiān)控視頻影像進(jìn)行試驗(yàn),所采集視頻場(chǎng)景為校園某一區(qū)域,所采用真實(shí)地圖為無(wú)人機(jī)在120 m高度拍攝的遙感影像,像素分辨率為0.08 m。硬件環(huán)境Intel XEON CPU E5-1607 3.00 GHz,16 GB內(nèi)存,NVIDIA GTX1060 6 GB顯卡。
試驗(yàn)數(shù)據(jù)是由USB外置相機(jī)采集,像素為640×480,相機(jī)內(nèi)參矩陣為
畸變參數(shù)為
由于該相機(jī)存在桶形畸變,一定程度上影響了映射結(jié)果,因此對(duì)視頻影像首先進(jìn)行畸變校正,再將畸變校正后的結(jié)果選取對(duì)應(yīng)點(diǎn)進(jìn)行PNP的計(jì)算,獲取相機(jī)外參數(shù)矩陣。對(duì)應(yīng)點(diǎn)對(duì)如表1所示。
表1 世界坐標(biāo)與圖像坐標(biāo)對(duì)應(yīng)點(diǎn)對(duì)
標(biāo)定出的相機(jī)在地理空間中的坐標(biāo)為(460 449.504 6,3 853 990.102,7.625 628 456),相機(jī)3個(gè)旋轉(zhuǎn)角為[-178.157° 55.467 1° 91.332 6°],外參數(shù)矩陣為
圖3為監(jiān)控視頻背景通過(guò)地理映射模型投射前后的對(duì)比圖,(a)為視頻圖像空間中的視角,(b)為地理物方空間中的視角,此時(shí)視頻的背景已具有地理信息,可實(shí)現(xiàn)查詢、量測(cè)等功能。
圖3 監(jiān)控視頻地理映射前后對(duì)比Fig.3 The comparison chart of surveillance video before and after geographical mapping
圖4是在試驗(yàn)視頻數(shù)據(jù)中截取的部分幀與所對(duì)應(yīng)的跟蹤結(jié)果,其中白色框是由遞歸卡爾曼濾波所得到的預(yù)測(cè)框,藍(lán)色框是由差分YOLOv3算法所計(jì)算得出的檢測(cè)框,綠色的ID號(hào)為通過(guò)匈牙利匹配所確定的跟蹤結(jié)果。
視頻的多目標(biāo)跟蹤量化評(píng)價(jià)見(jiàn)表2,分別采用了YOLOv2與YOLOv3兩種檢測(cè)器作為多目標(biāo)跟蹤的目標(biāo)檢測(cè)算法。評(píng)估的度量標(biāo)準(zhǔn)為MOT CHALLENGE所提供的方法CLEAR MOT[25],其中MOTA是結(jié)合了丟失目標(biāo),虛警率,ID轉(zhuǎn)換誤配數(shù),表示了多目標(biāo)跟蹤的準(zhǔn)確度,而MOTP是所有跟蹤目標(biāo)的平均邊框重疊率IOU,表示了多目標(biāo)跟蹤的精確度。由表2可看出,當(dāng)采用YOLOv2時(shí)多目標(biāo)跟蹤的MOTA與MOTP可達(dá)78.4與79.8,采用YOLOv3時(shí)有一定增長(zhǎng),分別為87.5與83.6,可以發(fā)現(xiàn)當(dāng)目標(biāo)檢測(cè)的精度提高時(shí),多目標(biāo)跟蹤的精度會(huì)隨之提高,同時(shí)量化指標(biāo)MOTA 87.5以及MOTP83.5體現(xiàn)了本文算法對(duì)于所實(shí)驗(yàn)視頻的適用性。
表2 多目標(biāo)跟蹤量化評(píng)價(jià)結(jié)果
試驗(yàn)中共選取了均勻分布的18個(gè)點(diǎn)作為圖像空間與地理空間的對(duì)應(yīng)點(diǎn),其中表1中的對(duì)應(yīng)點(diǎn)對(duì)作為映射模型計(jì)算的輸入值,剩下的13個(gè)點(diǎn)對(duì)作為測(cè)試點(diǎn)對(duì)進(jìn)行映射模型的精度評(píng)定,測(cè)試的對(duì)應(yīng)點(diǎn)對(duì)坐標(biāo)及映射后的坐標(biāo)見(jiàn)表3,并計(jì)算其均方誤差,其中最大誤差為0.117 4 m,最小為0.017 7 m,平均均方差為0.071 3 m。
圖5中(a)、(b)分別對(duì)應(yīng)了多目標(biāo)跟蹤軌跡在圖像空間中與地理物方空間中的可視化表達(dá);圖5(c)、(d)分別是原始跟蹤軌跡節(jié)點(diǎn)與通過(guò)三次多項(xiàng)式擬合后的誤差較小的平滑軌跡。
圖6展示了融合模式中兩種不同的底圖,分別是(a)中的無(wú)人機(jī)遙感影像圖,該底圖可最大程度反映真實(shí)的場(chǎng)景,但由于更新的原因,在特殊情況下可與背景層疊加顯示;(b)為矢量地圖,以其作為底圖層,可突出前景動(dòng)態(tài)目標(biāo)信息,使表達(dá)更加簡(jiǎn)明。紅色框?yàn)橄鄼C(jī)可視域范圍。
圖7中(a)、(d)分別對(duì)應(yīng)融合模式中的①到④,4種融合模式分別適用于不同的任務(wù)需求,具有不同的可視化表達(dá)效果,在突出重點(diǎn)有差異的情況下,可根據(jù)各模式的特點(diǎn)靈活選擇。
試驗(yàn)所采集視頻時(shí)長(zhǎng)22 s,共670幀,為驗(yàn)證所提方法的實(shí)時(shí)性,進(jìn)行了各部分耗時(shí)統(tǒng)計(jì),結(jié)果如表4所示,其中目標(biāo)檢測(cè)部分利用監(jiān)控視頻冗余特性,通過(guò)差分篩選剔除無(wú)須檢測(cè)幀提高檢測(cè)速度,共耗時(shí)16.96 s,跟蹤部分耗時(shí)4.27 s,映射總耗時(shí)0.13 s,其中檢測(cè)每幀平均耗時(shí)2.5 ms,跟蹤每幀平均耗時(shí)0.6 ms,總速度可達(dá)31.36 fps,可知所提出方法在完成任務(wù)需求的同時(shí)滿足實(shí)時(shí)性要求,同時(shí)當(dāng)視頻前景變化較小時(shí),可改變篩選閾值,進(jìn)一步提高檢測(cè)速度以提高實(shí)時(shí)性。
表4 實(shí)時(shí)性分析結(jié)果
本文在多目標(biāo)跟蹤的基礎(chǔ)上,提出融合地理信息與動(dòng)態(tài)前景目標(biāo)的模型,設(shè)計(jì)了4種多圖層融合模式將監(jiān)控視頻中動(dòng)態(tài)前景目標(biāo)與跟蹤軌跡通過(guò)地理映射模型投射至地理空間中,與傳統(tǒng)視頻與地理信息的結(jié)合方式相比,減少了視頻數(shù)據(jù)傳輸中的冗余,極大程度上降低了數(shù)據(jù)的存儲(chǔ)量,智能化提取了視頻動(dòng)態(tài)前景目標(biāo)信息,減輕了監(jiān)控人員的工作強(qiáng)度。實(shí)現(xiàn)了監(jiān)控視頻動(dòng)態(tài)前景目標(biāo)在真實(shí)地理空間中的表達(dá),解決了傳統(tǒng)目標(biāo)跟蹤任務(wù)僅僅處于圖像空間中,無(wú)法實(shí)現(xiàn)真實(shí)地理空間中可量測(cè)、可定位的問(wèn)題。從試驗(yàn)結(jié)果來(lái)看,多目標(biāo)跟蹤的準(zhǔn)確度MOTA可達(dá)87.5,精確度MOTP可達(dá)83.5,圖像空間向地理空間的映射模型精度為0.071 3 m,處理速度為31.36 fps,在精度與實(shí)時(shí)性上可滿足任務(wù)需求,監(jiān)控視頻的動(dòng)態(tài)前景目標(biāo)信息融合至地理空間的可視化效果良好,4種融合模式也可為不同的需求提供相應(yīng)映射方案。
圖5 多目標(biāo)跟蹤軌跡結(jié)果Fig.5 The results of multi-target tracking trajectory
圖6 試驗(yàn)區(qū)底圖Fig.6 The base map of experimental area
圖7 4種融合模式對(duì)比Fig.7 The comparison chart of four fusion modes
監(jiān)控視頻多用于以平面為主的場(chǎng)景,因此二維映射也可適用于大多情況,但未來(lái)的研究還可以從多方面展開(kāi),如利用不同平面高程約束實(shí)現(xiàn)三維映射;也可通過(guò)標(biāo)注真值的數(shù)據(jù)集,來(lái)評(píng)估跟蹤及映射的精度,不斷提高跟蹤算法與映射模型的精度;實(shí)現(xiàn)多相機(jī)的多目標(biāo)跟蹤在統(tǒng)一的地理參考場(chǎng)景下的融合表達(dá)。