高新興科技集團(tuán)股份有限公司 李 歡
基于增強(qiáng)現(xiàn)實(shí)技術(shù)的視頻監(jiān)控系統(tǒng)
高新興科技集團(tuán)股份有限公司 李 歡
目前視頻監(jiān)控技術(shù)已經(jīng)發(fā)展到網(wǎng)絡(luò)化、高清化和智能化的階段,給畫面觀看者提供了更便捷、更清晰、更輕松的體驗(yàn)。但是當(dāng)用戶對(duì)視頻畫面中的場(chǎng)景并不熟悉時(shí),用戶無法快速的了解并分析視頻畫面,這在一定程度上降低了效率。通過增強(qiáng)現(xiàn)實(shí)的方法,將畫面中的信息如街道、樓宇、商鋪等信息疊加在畫面上,使觀看者能在第一時(shí)間所見即所得。特別是在公共安全領(lǐng)域,少量的觀看者關(guān)注著整個(gè)城市不熟悉的街道,此技術(shù)能極大的提高其工作效率。
視頻監(jiān)控;增強(qiáng)現(xiàn)實(shí)(Augmented Reality);網(wǎng)絡(luò)攝像機(jī);安防
視頻監(jiān)控技術(shù)經(jīng)歷了模擬監(jiān)控、數(shù)字監(jiān)控、網(wǎng)絡(luò)監(jiān)控、高清監(jiān)控、智能監(jiān)控等幾個(gè)時(shí)代的發(fā)展,在社會(huì)治安中扮演著越來越重要的作用。到2014年為止,視頻監(jiān)控技術(shù)的3大技術(shù)方向?yàn)镠.265編解碼(圖像碼流更小)、4K高清(畫面更清晰)以及智能分析(畫面信息更多)。
智能分析技術(shù)蓬勃發(fā)展,目前也逐漸體系化。主要分為行為分析(如絆線、越界檢測(cè))、特征識(shí)別(如車牌、人臉識(shí)別)、輔助類工具(如視頻濃縮、摘要)。這些技術(shù)將原本需要人體肉眼去觀看和辨別的事物,改由計(jì)算機(jī)系統(tǒng)自動(dòng)處理了,也就是人腦的處理邏輯被輸入了計(jì)算機(jī)。這樣大大地方便了視頻的觀看者,減輕了視頻觀看者的負(fù)擔(dān),提升了觀看者的效率。
但是經(jīng)過研究發(fā)現(xiàn),人體大腦本身就不能識(shí)別的事物,因?yàn)闊o法邏輯化,所以計(jì)算機(jī)也無法識(shí)別。比如畫面里面的街道方向,遠(yuǎn)處一棟樓下的小店名稱。視頻畫面里面體現(xiàn)了這些內(nèi)容,但是人腦無法對(duì)它們進(jìn)行識(shí)別,因?yàn)槿四X的知識(shí)庫里面沒有相關(guān)的信息,除非你對(duì)視頻畫面里面的內(nèi)容非常熟悉。
為了解決這個(gè)問題,本文提出了一個(gè)基于增強(qiáng)現(xiàn)實(shí)技術(shù)的視頻監(jiān)控系統(tǒng),并詳細(xì)介紹了其中的各個(gè)模塊及技術(shù)。
增強(qiáng)現(xiàn)實(shí)是將計(jì)算機(jī)生成的圖形、文字信息疊加到現(xiàn)實(shí)景象之中的技術(shù)。在上個(gè)世紀(jì)90年代,美國(guó)的波音公司率先提出“增強(qiáng)現(xiàn)實(shí)”的概念。英文全稱為Augmented Reality,國(guó)際社會(huì)普遍簡(jiǎn)稱為“AR”。
隨著技術(shù)的發(fā)展,增強(qiáng)現(xiàn)實(shí)技術(shù)開始在人類生活中的各行各業(yè)中普及起來。目前全球的主要應(yīng)用集中在科研、醫(yī)療、工程、機(jī)器人、軍隊(duì)、生產(chǎn)制造以及游戲娛樂等領(lǐng)域。最新在全球出名的增強(qiáng)現(xiàn)實(shí)應(yīng)用是GOOGLE GLASS。目前人類肉眼還不能直接獲取計(jì)算機(jī)信息,所以現(xiàn)階段的增強(qiáng)現(xiàn)實(shí)應(yīng)用必須依靠攝像機(jī)和顯示器。
計(jì)算機(jī)系統(tǒng)將數(shù)據(jù)信息疊加在攝像機(jī)采集的視頻畫面上,然后顯示在顯示器中。人體肉眼通過觀看顯示器,可以在看到實(shí)時(shí)畫面的同時(shí)看到更多的計(jì)算機(jī)信息。
當(dāng)大腦分析眼睛捕獲的信息時(shí),如果信息不能準(zhǔn)確地顯示在指定的區(qū)域,會(huì)引起大腦的信息處理錯(cuò)誤和矛盾。所以,必須要求信息能夠在畫面中精確地定位與顯示。攝像機(jī)鏡頭的姿態(tài)必須輸出精確的位置數(shù)據(jù)。近年來,各種傳感器的技術(shù)日新月異。其中,GPS、北斗、重力加速度計(jì)、磁力線感應(yīng)計(jì)、距離傳感器、數(shù)據(jù)羅盤、電子陀螺儀、超聲波傳感器、結(jié)構(gòu)光傳感器、慣性導(dǎo)航傳感器等體積越來越小,精度日益提高。增強(qiáng)現(xiàn)實(shí)是涉及到多學(xué)科交叉的應(yīng)用技術(shù),各個(gè)學(xué)科的發(fā)展都會(huì)促進(jìn)其發(fā)展。如這些外部傳感器的發(fā)展使得增強(qiáng)現(xiàn)實(shí)技術(shù)在實(shí)際應(yīng)用中得到長(zhǎng)足地發(fā)展。
視頻監(jiān)控技術(shù)從上世紀(jì)80年代開始進(jìn)入人類的生活。在人類的生存、安保、發(fā)展方面起到了不可忽視的作用。上世紀(jì)90年代后期,基于模擬信號(hào)的視頻監(jiān)控系統(tǒng)初步跨入了半數(shù)字化的時(shí)代。本世紀(jì)00年代中期,視頻監(jiān)控技術(shù)快速發(fā)展,進(jìn)入了全數(shù)據(jù)化的時(shí)代。從攝像機(jī)開始,所有采集的信號(hào)均為數(shù)字信號(hào)。后端的傳輸、存儲(chǔ)、計(jì)算均為數(shù)字化系統(tǒng)。
當(dāng)視頻被數(shù)字化后,數(shù)據(jù)量非常巨大。傳統(tǒng)的壓縮編碼是建立在香農(nóng)(Shannon)信息論基礎(chǔ)上的,它以經(jīng)典的集合論為基礎(chǔ),用統(tǒng)計(jì)概率模型來描述信源。因此,壓縮編碼的發(fā)展歷程實(shí)際上是以香農(nóng)信息論為出發(fā)點(diǎn),一個(gè)不斷完善的過程。ISO國(guó)際標(biāo)準(zhǔn)化組織于1986年發(fā)布了JPEG編碼。又于1998年發(fā)布了MPEG編碼算法。此時(shí)標(biāo)志著視頻編碼算法正式誕生。隨著時(shí)代的發(fā)展,壓縮算法效率越來越高,壓縮率也越來越高。分別經(jīng)過了Mpeg1、Mpeg2、Mpeg4、Mpeg4 AVC等。國(guó)際電傳視訊聯(lián)盟ITU也發(fā)布了一系列的視頻編碼算法標(biāo)準(zhǔn),分別是H.261、H.262、H.263、H.263+、H.263++、H.264到今年推出的H.265算法。
攝像機(jī)的傳感器和處理系統(tǒng)也在快速發(fā)展。靶面越來越大,像素越來越多。對(duì)人眼最直觀的感受是面畫的視野越來越大,越來越清晰。歷史上經(jīng)過了像素為176×144、352×288、704×576、1280×720、1920×1080的發(fā)展。截止2014年,在視頻監(jiān)控領(lǐng)域中最新的技術(shù)就是4K技術(shù),畫面分辨率為4096×2160。相比最初的視頻畫面,足足大了350倍。代表著人眼可以看到的信息量是越來越多。
基于視頻監(jiān)控的智能分析技術(shù)是建立在解放視頻觀看者的思路之上。它的基礎(chǔ)是計(jì)算機(jī)圖像視覺分析技術(shù),簡(jiǎn)稱機(jī)器視覺。智能分析技術(shù)誕生在視頻數(shù)字化以后,目的是將非結(jié)構(gòu)化的圖像數(shù)據(jù)盡可能的進(jìn)行結(jié)構(gòu)化描述。經(jīng)過發(fā)展,目前分為三大類技術(shù)路線。
第一種是行為分析。通過將場(chǎng)景中背景和目標(biāo)分離進(jìn)而分析并追蹤在攝像機(jī)場(chǎng)景內(nèi)出現(xiàn)的目標(biāo),然后通過目標(biāo)觸碰預(yù)設(shè)的規(guī)則而觸發(fā)報(bào)警。例如絆線檢測(cè)、區(qū)域入侵檢測(cè)等。
第二種是特征提取。此項(xiàng)技術(shù)是在背景和前景分享技術(shù)上的高級(jí)應(yīng)用。當(dāng)檢測(cè)到目標(biāo)前景圖像后,對(duì)圖像進(jìn)行分析、特征提取和識(shí)別。例如車牌識(shí)別技術(shù)、人臉識(shí)別技術(shù)等。
第三種是輔助技術(shù)。目的是提高視頻觀看者的工作效率。例如視頻摘要技術(shù),是將長(zhǎng)時(shí)間的視頻中的移動(dòng)前景目標(biāo)提取出來,放在同樣的背景之中。根據(jù)原視頻長(zhǎng)度,原視頻前景目標(biāo)數(shù)量和目標(biāo)視頻畫面的放置密度等條件,可以將例如24小時(shí)的視頻壓縮到20秒鐘。極大的解放了勞動(dòng)力。
從目前幾類技術(shù)的發(fā)展來看,形成了固定的發(fā)展趨勢(shì)。為人類的安全生活提供了重要的保障。但是研究發(fā)現(xiàn),上述技術(shù)在技術(shù)發(fā)展的同時(shí),留下了很大一片空白區(qū)域。智能分析技術(shù)在對(duì)前景進(jìn)行結(jié)構(gòu)化描述時(shí),忽略了背景信息的重要性。目前尚無任何科研成果能夠通過計(jì)算機(jī)自動(dòng)的去描述畫面背景。將增強(qiáng)現(xiàn)實(shí)技術(shù)應(yīng)用在安防領(lǐng)域的視頻監(jiān)控?cái)z像機(jī)上能解決這個(gè)問題。
4.1 視頻背景結(jié)構(gòu)化顯示
增強(qiáng)現(xiàn)實(shí)技術(shù)是一個(gè)多學(xué)科的交叉應(yīng)用技術(shù),包含了計(jì)算機(jī)圖形學(xué)、多媒體、三維建模、實(shí)時(shí)視頻顯示及控制、多傳感器融合、實(shí)時(shí)跟蹤及注冊(cè)、場(chǎng)景融合等新技術(shù)與新手段。
在計(jì)算機(jī)尚不能自動(dòng)對(duì)背景進(jìn)行結(jié)構(gòu)描述的當(dāng)前,用戶或系統(tǒng)提供商手動(dòng)或半自動(dòng)在視頻畫面中添加信息是最直觀有效的解決方案。添加保存后,用戶在使用觀看時(shí)可以直接呈現(xiàn)。畫面中可以添加文本、聲音、視頻等多媒體資源,同時(shí)還可以進(jìn)行信息之間的互動(dòng),如展開詳細(xì)信息、播放、跳轉(zhuǎn)等?;谶@些基礎(chǔ)特性可以在多個(gè)場(chǎng)景中實(shí)現(xiàn)增強(qiáng)現(xiàn)實(shí)應(yīng)用。例如由后臺(tái)多系統(tǒng)關(guān)聯(lián)并提供的目標(biāo)詳細(xì)信息顯示,由商戶的提供在可展示的在線購物,由景區(qū)發(fā)布的景區(qū)畫面、天氣、人流、名勝古跡歷史信息等應(yīng)用。
為了達(dá)到人腦易接收,易分析,樂于接收的目的,增強(qiáng)的信息顯示作為與用戶眼睛接口的界面,必須達(dá)到美觀、易懂、易操作等基本要求。這就要求了計(jì)算機(jī)圖形學(xué)、三維建模等技術(shù)的應(yīng)用。這類技術(shù)加上UCD設(shè)計(jì)可以達(dá)到其目的。
如何達(dá)到實(shí)時(shí)性和提高渲染效果是傳統(tǒng)AR技術(shù)研究者必須面對(duì)的一個(gè)問題。在安防領(lǐng)域中,視頻監(jiān)控通常選擇使用臺(tái)式機(jī)與服務(wù)器作為計(jì)算與顯示主體。目前2014年,市面上主流臺(tái)式機(jī)已經(jīng)完全勝任其計(jì)算工作。但不排除在民用安防市場(chǎng),用戶使用手機(jī)等移動(dòng)終端進(jìn)行觀看。所以針對(duì)不同的應(yīng)用場(chǎng)景,實(shí)時(shí)性和效果可以通過調(diào)整信息顯示的復(fù)雜度來解決。
4.2 畫面中信息的定位
從攝像機(jī)的形態(tài)上來講,分為槍型、球型、半球型、筒型、異形等。球型攝像機(jī)簡(jiǎn)稱為球機(jī),區(qū)別于其它形態(tài)的攝像機(jī)。除了球機(jī)以外的所有形態(tài)攝像機(jī)都為固定式攝像機(jī)。球機(jī)的鏡頭可以水平360°、垂直92°旋轉(zhuǎn), 并且鏡頭觀看的場(chǎng)景可以從幾米到幾十公里距離遠(yuǎn)近變化(視場(chǎng)角變化)。因?yàn)楣潭ㄐ蛿z像機(jī)不會(huì)轉(zhuǎn)動(dòng),所以技術(shù)復(fù)雜度較球機(jī)低。槍機(jī)因?yàn)椴粫?huì)轉(zhuǎn)動(dòng),所以不需要考慮信息在畫面中偏移的問題。可以選擇采用基于畫面像素點(diǎn)的二維平面坐標(biāo)系來定位疊加到畫面上的信息。
圖1 磁北與地北
因?yàn)榍驒C(jī)的鏡頭會(huì)轉(zhuǎn)動(dòng),疊加到畫面上的信息也需要隨著畫面移動(dòng),此時(shí)必須動(dòng)態(tài)地計(jì)算信息的顯示位置坐標(biāo)。當(dāng)我們需要獲取攝像機(jī)鏡頭在真實(shí)世界中的東南西北方向時(shí),需將數(shù)字羅盤集成在球機(jī)機(jī)芯之中,可隨著機(jī)芯的運(yùn)動(dòng)姿態(tài)而采集到實(shí)時(shí)姿態(tài)數(shù)據(jù)。其中,數(shù)字羅盤采集到的正北方向是磁場(chǎng)的北極,與地球的地理北極還有一定的差距。需通過磁偏角來修正為地理北極(如圖1所示)。
在增強(qiáng)現(xiàn)實(shí)信息的坐標(biāo)獲取上,不能采用槍機(jī)一樣的XY二維平面坐標(biāo)。第一,因?yàn)榍驒C(jī)的視野是一個(gè)三維球空間,無法簡(jiǎn)單地進(jìn)行二維展開。因?yàn)橛猩疃?所以相同的目標(biāo)出現(xiàn)在鏡頭里面不同位置時(shí),二維畫面沒有固定的對(duì)應(yīng)坐標(biāo)。第二,在將三維球空間進(jìn)行二維投影時(shí),每一臺(tái)攝像機(jī)的鏡頭都會(huì)產(chǎn)生光學(xué)畸變,當(dāng)目標(biāo)物體在左上角時(shí),和目標(biāo)物體在正中心時(shí),它們之間的位移與鏡頭的轉(zhuǎn)動(dòng)角度位移沒有線性關(guān)系。
除了找到地理北極,數(shù)字羅盤還可以獲得姿態(tài)的垂直傾角和水平方向角。增強(qiáng)現(xiàn)實(shí)的信息標(biāo)簽雖然在視頻畫面中以2D圖標(biāo)顯示,但坐標(biāo)是以3D格式存儲(chǔ)。3D坐標(biāo)以球面坐標(biāo)形式存儲(chǔ),包括了P(水平方向角),T(垂直傾角), D(距離)。球面坐標(biāo)原點(diǎn)在攝像機(jī)所在位置,以正北水平方向?yàn)镻軸方向(如圖2所示)。
4.3 精確定位[2]
民用GPS、北斗一般精度在3m到12m左右,在較差的天氣中,最大誤差可達(dá)50m。在設(shè)計(jì)中使用GPS、北斗互備及互相參考的方式,以及系統(tǒng)對(duì)歷史數(shù)據(jù)進(jìn)行學(xué)習(xí)的方式。可以使經(jīng)緯度、海撥等數(shù)據(jù)保持較高的精度。
數(shù)字羅盤也會(huì)因?yàn)楦浇拇艌?chǎng)干擾產(chǎn)生誤差。數(shù)字羅盤的原理是檢測(cè)地球磁場(chǎng)磁力線,如果在使用的環(huán)境中有地球以外的磁場(chǎng),且這些磁場(chǎng)無法有效的屏蔽時(shí),那么電子羅盤的使用就有很大的問題,這時(shí)只能考慮使用陀螺來測(cè)定航向了?,F(xiàn)有許多戶外的系統(tǒng)中的校正算法需要大量的輸入和繁瑣的校正步驟??梢詫⑵渌悸方梃b,通過在攝像機(jī)上配置多種傳感器來互相校正。
4.4 兼容性設(shè)計(jì)
以上數(shù)據(jù)統(tǒng)一經(jīng)過標(biāo)準(zhǔn)數(shù)字化后,用通用文本語言描述。
增強(qiáng)現(xiàn)實(shí)信息使用xml語言描述,以地理位置信息為例,格式如下:
〈position〉
〈longitude〉E 116.3972282409668〈/longitude〉〈latitude〉N 39.90960456049752〈/latitude〉〈altitude〉+ 44.4〈/altitude〉
〈description〉天安門廣場(chǎng)〈/description〉
〈/position〉
position標(biāo)簽包括longitude(緯度)、latitude (經(jīng)度)、altitude(海拔)和description(文字描述)4個(gè)子標(biāo)簽。用戶可根據(jù)需要擴(kuò)展和追加。
longitude標(biāo)簽值的格式為“[E/W][度數(shù)]”,E/W表示東經(jīng)/西經(jīng),度數(shù)要求至少小數(shù)點(diǎn)后5位。
表1 NAL單元類型
latitude標(biāo)簽值的格式為“[N/S][度數(shù)]”,N/S表示北緯/南緯,度數(shù)要求至少小數(shù)點(diǎn)后5位。
altitude標(biāo)簽值的格式為“[+/-][高度]”,+/-表示海平面以上/以下,高度要求至少小數(shù)點(diǎn)后0位,單位為公制米。
H.264碼流結(jié)構(gòu)是采取NAL單元流格式進(jìn)行碼流打包傳輸,同樣,在NAL頭類型定義時(shí),也有補(bǔ)充增強(qiáng)信息定義。
表1中定義了nal_unit_type=6時(shí),為補(bǔ)充增強(qiáng)信息,具體的補(bǔ)充增強(qiáng)信息類型定義見表3。