□ 文/朱秀昌
經(jīng)過幾十年的發(fā)展,視頻監(jiān)控已成長為一個新興的 IT 產(chǎn)業(yè)。從技術(shù)角度看,視頻監(jiān)控技術(shù)經(jīng)歷了模擬方式、數(shù)字/網(wǎng)絡(luò)/高清方式的發(fā)展,目前正進(jìn)入以智能化視頻分析為核心的發(fā)展新階段。隨著視頻的采集、處理、顯示和傳輸技術(shù)的快速發(fā)展,使視頻監(jiān)控不僅能“看得見”,而且還“看得清”。隨著光纖網(wǎng)絡(luò)、3G/4G、WiFi的普及,今后5G網(wǎng)絡(luò)的開通,以往的監(jiān)控視頻“看得遠(yuǎn)”的傳輸瓶頸問題也得到了進(jìn)一步緩解。所有的這些,再加上計算機(jī)技術(shù)、芯片技術(shù)和人工智能理論的飛速發(fā)展,都為當(dāng)今監(jiān)控視頻分析技術(shù)的智能化奠定了堅實的技術(shù)基礎(chǔ)。
監(jiān)控視頻處理技術(shù)可分為三個層次,如圖1所示,從低到高分別為視頻處理、視頻分析和智能視頻分析。三個層次都很重要,都有繼續(xù)發(fā)展的空間,但智能分析這一層的技術(shù)成熟度相對較低,目前視頻分析技術(shù)正處于在向智能化分析發(fā)展的階段。
視頻信號處理是基礎(chǔ)部分,處理對象為像素或像塊,不涉及視頻內(nèi)容,為視頻分析提供清晰、連續(xù)的高質(zhì)量信源。除了比較成熟的視頻采集、濾波、壓縮、存儲、去噪、增強、傳輸?shù)瘸R?guī)處理技術(shù)外,為了有助于視頻分析,還有不少處理工作必須改進(jìn),例如:提供更多圖像細(xì)節(jié)的高動態(tài)范圍(HDR)視頻圖像的均衡;提高視頻圖像空間分辨率的超分辨率重建;對霧天、暗光、遮擋等多種受損圖像的處理;去除傳輸引起的幀間抖動等等。
▲圖1 監(jiān)控視頻處理的3個層次
監(jiān)控視頻分析(VA)處理涉及到視頻內(nèi)容。由于應(yīng)用的場合和目標(biāo)的不同,監(jiān)控視頻分析包含的內(nèi)容十分繁雜,如:1)場景分割,特征提取,前后景分離等;2)目標(biāo)檢測和跟蹤,人臉/車牌識別等;3)行為識別,異常行為檢測,群體行為識別;4)人流/車流統(tǒng)計,入侵檢測等。
智能監(jiān)控視頻分析,不僅和視頻內(nèi)容有關(guān),還和視頻所表達(dá)的語義有關(guān),希望從視頻內(nèi)容分析中得到場景狀態(tài)、目標(biāo)類別、動作或場景的含義等信息??傊?,希望通過智能分析,由計算機(jī)自主得到視頻內(nèi)容的語義結(jié)論,或者說用人工智能的方法為人們提供多種“視覺服務(wù)”。智能視頻分析技術(shù)屬于人工智能的范疇,實現(xiàn)智能分析的方法有多種,其中“深度學(xué)習(xí)”(Deep Learning,DL)的方法最為引人矚目,目前已經(jīng)取得了長足的進(jìn)展。
視頻監(jiān)控技術(shù)可看作是視覺的淺層效仿,用攝像機(jī)模仿人的眼睛,比較容易地實現(xiàn)了人工“監(jiān)視”和簡單的“控制”。要達(dá)到用機(jī)器分析所監(jiān)控視頻內(nèi)容,自動進(jìn)行相應(yīng)的控制,其中還有一個重要環(huán)節(jié),即“智能分析”,即在不需要或很少人工干預(yù)的情況下,對視頻內(nèi)容進(jìn)行處理和分析,得到相應(yīng)的結(jié)論,為控制單元的操作提供依據(jù)。近10余年來,如何在模仿視覺的基礎(chǔ)上進(jìn)一步模仿人腦功能,使現(xiàn)有的監(jiān)控系統(tǒng)具有充分的智能已成為研究和開發(fā)的熱點問題。系統(tǒng)智能的出現(xiàn),使傳感的內(nèi)容、含義具有了主觀“感覺”,能夠給出分析、判斷和結(jié)論,而并非只是對傳感對象的物理量作簡單的記錄。
目前在監(jiān)控領(lǐng)域,“智能分析”已經(jīng)獲得了不少比較成功的結(jié)果,如對攝像機(jī)的自動保護(hù),對入侵目標(biāo)的檢測和跟蹤,對簡單的人群、車流等目標(biāo)的正常和異常行為的判斷等。這些相對簡單的成績,可看著智能化視頻分析的個良好開端,當(dāng)然,智能視頻監(jiān)控能夠做到的遠(yuǎn)不至這些,今后它可以幫我們做更多更復(fù)雜的處理。
目前,許多稱之為“智能視頻分析”的設(shè)備和系統(tǒng)實際上遠(yuǎn)未能達(dá)到智能化的目標(biāo),需要完全或部分的人工干預(yù)。除了需克服常規(guī)視頻分析中的不利影響因素以外,如光照變化的無常、目標(biāo)的運動和遮擋、目標(biāo)/背景/陰影相互影響等,在智能化視頻分析中還存在一系列關(guān)鍵問題需要解決,如在視頻分析中自主實現(xiàn)目標(biāo)圖像的特征建模,并保持建模的多樣性;在有監(jiān)督學(xué)習(xí)時訓(xùn)練樣本的選取和標(biāo)注,無監(jiān)督學(xué)習(xí)時的準(zhǔn)確聚類;卷積深度學(xué)習(xí)時卷積核、池化方法的選取,輸出層的設(shè)計;沉重計算負(fù)擔(dān)的降低,使之適應(yīng)實時、在線應(yīng)用等。
▲圖2 人工智能中的深度學(xué)習(xí)
人工智能(AI)是計算機(jī)科學(xué)的一個分支,它企圖模仿人類智能的實質(zhì),造出一種新的能以人類智能相似方式工作的智能機(jī)器。如圖2所示,人工智能的范圍很廣,如機(jī)器人、數(shù)據(jù)挖掘、計算機(jī)視覺/聽覺、機(jī)器學(xué)習(xí)、專家系統(tǒng)等。在機(jī)器學(xué)習(xí)的眾多方法中,有不少已經(jīng)在視頻分析中廣泛采用,如支持向量機(jī)(SVM),隱馬爾可夫模型(HMM)、條件隨機(jī)場(CRF)、……。其中,近年來的基于人工神經(jīng)網(wǎng)絡(luò)(ANN)的深度學(xué)習(xí)(DL)是一種新的高效能的視頻分析算法,正在逐漸成為視頻分析中的主流方法之一。
深度學(xué)習(xí)采用多層的神經(jīng)網(wǎng)絡(luò)的方法來比較、分析(視頻)數(shù)據(jù),得到有用的結(jié)論。它的強大的學(xué)習(xí)建模和分類比較能力,使它能夠用于處理非常復(fù)雜多變的實際數(shù)據(jù),特別是非結(jié)構(gòu)類視頻數(shù)據(jù)。在多種機(jī)器學(xué)習(xí)方法中,有監(jiān)督學(xué)習(xí)的深度學(xué)習(xí)方法,如卷積神經(jīng)網(wǎng)絡(luò)(CNN),在視頻分析中已表現(xiàn)出優(yōu)越的性能。CNN的多層網(wǎng)絡(luò)結(jié)構(gòu)可以有效地學(xué)習(xí)輸入視頻數(shù)據(jù)與相應(yīng)輸出結(jié)果之間的復(fù)雜映射,可以自主建立隨時間和內(nèi)容而變化的分析模型。在基本深度學(xué)習(xí)方法的基礎(chǔ)上,多種改進(jìn)和變形的深度學(xué)習(xí)算法正在不斷涌現(xiàn),包括多種無監(jiān)督的學(xué)習(xí)方法。
深度學(xué)習(xí)是相對淺層學(xué)習(xí)而言的,都是基于多層人工神經(jīng)網(wǎng)絡(luò)進(jìn)行的,“深”和“淺”主要指的是神經(jīng)網(wǎng)絡(luò)的隱含層的數(shù)量而言的。一般含一兩個隱含層的人工神經(jīng)網(wǎng)絡(luò)(ANN)謂之淺層網(wǎng)絡(luò),如圖3(a)所示,早期的ANN大抵如此。深度學(xué)習(xí)網(wǎng)絡(luò)的常常含有幾個、十幾個、甚至更多的隱含層,如圖3(b)。隱含層數(shù)多是深度學(xué)習(xí)的一個主要結(jié)構(gòu)特點,其優(yōu)點是通過組合多個低層特征形成更加抽象的視頻數(shù)據(jù)高層屬性的類別或特征,從而可以解決復(fù)雜的信號處理或分析問題。
根據(jù)圖像的局部統(tǒng)計特性,深度學(xué)習(xí)可采取卷積策略,如圖3(c)所示的對輸入圖像進(jìn)行分塊卷積操作,形成卷積深度學(xué)習(xí)網(wǎng)絡(luò)(CNN)。卷積生成的圖像特征數(shù)據(jù)還可采用池化(pooling)等精簡方法,降低特征的數(shù)量,加快深度學(xué)習(xí)的處理速度。輸入視頻經(jīng)過若干層神經(jīng)網(wǎng)絡(luò)的處理以后,在輸出層輸出具有一定語義的處理的結(jié)果,如“某個目標(biāo)”為“異?!蹦繕?biāo),視頻中的某個群體的行為“正?!?,等等。卷積深度學(xué)習(xí)為監(jiān)控視頻分析中的智能化提供了一條切實可行之路。
基于深度學(xué)習(xí)的智能視頻分析可以硬件或軟件方式,前端或后端方式,實時或事后方式來實現(xiàn)??傊筛鶕?jù)實際需要和可能,選擇最好的方式進(jìn)行,或?qū)⒍喾N方式結(jié)合進(jìn)行,主要取決于兩方面因素,即軟件算法和硬件基礎(chǔ)。
▲圖3 深度學(xué)習(xí)網(wǎng)絡(luò)示意圖
軟件方面最關(guān)鍵的是的深度學(xué)習(xí)算法的優(yōu)劣,要求高效、簡捷的學(xué)習(xí)算法,包括有監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí),基于計算機(jī)、云計算和嵌入式的計算方式,合理的學(xué)習(xí)網(wǎng)絡(luò)結(jié)構(gòu),如循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)、深度置信網(wǎng)絡(luò)(DBN)等。比較簡單的深度學(xué)習(xí)可以在遠(yuǎn)端攝像機(jī)內(nèi)嵌入式實現(xiàn),復(fù)雜的視頻分析可以在計算機(jī)、工作站,甚至云端計算上實現(xiàn)?,F(xiàn)在已出現(xiàn)不少機(jī)器學(xué)習(xí)、深度學(xué)習(xí)的開源程序、商業(yè)和實驗軟件,為我們迅速入門和應(yīng)用深度學(xué)習(xí)技術(shù)提供了方便。智能視頻分析雖然主要依靠的是軟件,但軟件的運行基礎(chǔ)是硬件結(jié)構(gòu),因此硬件平臺的水平高低直接決定深度學(xué)習(xí)的能力和速度。
至于智能視頻分析在監(jiān)控方面的應(yīng)用,可以說幾乎目前常見的監(jiān)控系統(tǒng)都可智能化升級,其主要應(yīng)用領(lǐng)域包括:
(1)人臉識別,目標(biāo)檢測與跟蹤,個體/群體行為判定。
(2)車牌/車型識別,違規(guī)車輛識別,人流/車流統(tǒng)計。
(3)智能樓宇,居家養(yǎng)老,庫房倉儲監(jiān)管。
▲圖4 智能車牌識別一例
(4)公安偵破,防災(zāi)救援。
其他應(yīng)用領(lǐng)域還很多,如教育領(lǐng)域的考試違規(guī)識別;公共場所的周界防范,遺留物檢測,人群密度檢測,煙火檢測等。例如,廣東迅通科技股份有限公司的視頻圖像智能分析系統(tǒng)(迅通VAIS)采用深度學(xué)習(xí)的智能分析的方法進(jìn)行人臉識別、車牌識別和超分辨率重建等,取得了好于一般視頻分析的結(jié)果,圖4為某一車牌識別結(jié)果,曾經(jīng)用其它方法未能得到完全準(zhǔn)確的結(jié)果。
人工智能已成為新一輪產(chǎn)業(yè)革命的引擎,視頻監(jiān)控產(chǎn)業(yè)正在把握這一重大發(fā)展機(jī)遇,根據(jù)自身的特點和需求,把人工智能技術(shù)與產(chǎn)業(yè)升級改造有機(jī)結(jié)合起來,給自身技術(shù)的智能化發(fā)展注入了新的動力。其中,深度學(xué)習(xí)技術(shù)在視頻監(jiān)控領(lǐng)域已經(jīng)初現(xiàn)風(fēng)采,應(yīng)用范圍在逐步擴(kuò)大,分析效果(尤其是準(zhǔn)確度)越來越好,可在一定程度上替代人工操作,提高工作效率。但從總體上看,監(jiān)控視頻分析的智能化進(jìn)程當(dāng)屬起步階段,智能化程度并不高,尚存在不少制約發(fā)展的瓶頸問題,但隨著世界范圍內(nèi)對安全防范的重視,隨著中國“平安城市”、“科技強警”、“智能交通”等重大工程項目的不斷推進(jìn),智能化視頻監(jiān)控技術(shù)的發(fā)展必然會越來越快,其社會效益和市場前景也會越來越好。