□ 文/周井泉
隨著科技的進(jìn)步,視頻監(jiān)控領(lǐng)域的技術(shù)也在不停進(jìn)步,已經(jīng)從傳統(tǒng)的預(yù)覽、回放發(fā)展到在視頻中智能提取有效目標(biāo)信息,也就是視頻結(jié)構(gòu)化技術(shù)。
視頻結(jié)構(gòu)化技術(shù)已成為安防行業(yè)非常流行的技術(shù)。所謂的視頻結(jié)構(gòu)化技術(shù),簡單理解就是通過智能分析算法,從原始視頻文件中自動檢測場景中的運(yùn)動目標(biāo),包括人員目標(biāo)和車輛目標(biāo),并分析提取該目標(biāo)的屬性信息,如人員性別、是否背包、是否戴帽子等,以及車輛顏色、車牌號碼、車輛品牌等。
視頻結(jié)構(gòu)化技術(shù)融合了機(jī)器視覺、圖像處理、模式識別、機(jī)器學(xué)習(xí)等最前沿的人工智能技術(shù),隨著深度學(xué)習(xí)技術(shù)的發(fā)展和硬件設(shè)備性能的提升,基于GPU架構(gòu)的深度學(xué)習(xí)應(yīng)用方案已經(jīng)相對比較成熟。視頻結(jié)構(gòu)化分析的過程可以簡單理解成三個(gè)模塊:目標(biāo)檢測、目標(biāo)跟蹤和目標(biāo)屬性提取。
目標(biāo)檢測過程是從視頻中提取出前景目標(biāo),然后識別出前景目標(biāo)是有效目標(biāo)(如:人員、車輛、人臉等)還是無效目標(biāo)(如:樹葉、陰影、光線等)。在目標(biāo)檢測過程主要應(yīng)用到運(yùn)動目標(biāo)檢測、人臉檢測和車輛檢測等技術(shù)。
目標(biāo)跟蹤過程是實(shí)現(xiàn)特定目標(biāo)在場景中的持續(xù)跟蹤,并從整個(gè)跟蹤過程中獲取一張高質(zhì)量圖片作為該目標(biāo)的抓拍圖片。在目標(biāo)跟蹤過程中主要應(yīng)用到多目標(biāo)跟蹤、目標(biāo)融合以及目標(biāo)評分技術(shù)。
目標(biāo)屬性提取過程是對已經(jīng)檢測到的目標(biāo)圖片中目標(biāo)屬性的識別,判斷該目標(biāo)具有哪些可視化的特征屬性,例如人員目標(biāo)的性別、年齡、著裝,車輛目標(biāo)的車型、顏色等屬性。目標(biāo)屬性提取過程主要應(yīng)用基于深度學(xué)習(xí)網(wǎng)絡(luò)結(jié)構(gòu)的特征提取和分類技術(shù)。
目標(biāo)檢出率在視頻結(jié)構(gòu)化產(chǎn)品的應(yīng)用中意義非常重大,被關(guān)注的目標(biāo)在某個(gè)場景內(nèi)出現(xiàn)而未被檢測到,直接導(dǎo)致整個(gè)視頻結(jié)構(gòu)化分析結(jié)果無效,并且誤導(dǎo)用戶以為目標(biāo)確實(shí)沒有出現(xiàn)過,而目標(biāo)是否出現(xiàn)又是事先未知的,需要回到原始的辦法——人工看視頻查找。導(dǎo)致目標(biāo)漏檢的原因很多,包括目標(biāo)過小、光照不足、運(yùn)動模糊、目標(biāo)出現(xiàn)時(shí)間過短等因素。
想要通過屬性檢索快速鎖定所關(guān)注的目標(biāo),就必須要求屬性判斷準(zhǔn)確率高。然而,對于那些成像質(zhì)量不好或者尺寸過小的目標(biāo),往往很難準(zhǔn)確的判斷其屬性(即使肉眼也很難分辨)。屬性判斷有誤導(dǎo)致檢索應(yīng)用中沒有把關(guān)注的目標(biāo)檢索出來,同樣會導(dǎo)致檢索工作無效。
由于治安場景情況非常復(fù)雜,這就需要算法在各個(gè)場景下都能適用。在不同的場景具有良好的魯棒性,不至于在某些場景效果較好,但是在另外的場景效果很差。
在以往的案件偵破過程中,刑偵人員為了通過視頻獲取到嫌疑犯可能出現(xiàn)的地點(diǎn),需要夜以繼日地通過人工查看相關(guān)的視頻內(nèi)容,從中找到嫌疑人在哪些地點(diǎn)出現(xiàn)過。視頻查看工作是案件偵查過程中必不可少的,也是效率最低、最費(fèi)時(shí)的工作。
2015年,周克華案件偵破過程中,為了找到周克華的活動線索,民警花了兩個(gè)月時(shí)間,查看了近30萬GB的視頻,才最終發(fā)現(xiàn)了周克華的線索,30萬GB的視頻,相當(dāng)于80萬部高清視頻,其工作量可想而知。
然而,利用視頻結(jié)構(gòu)化技術(shù),提前對治安監(jiān)控的視頻進(jìn)行目標(biāo)以及對應(yīng)屬性的提取。一旦案件發(fā)生,民警只需根據(jù)嫌疑犯的特征,就可以從結(jié)構(gòu)化圖片庫中檢索出所有與嫌疑犯特征相符的目標(biāo)圖片,然后再從這些檢索結(jié)果中去查找嫌疑人的照片,定位嫌疑人的活動軌跡。在一般的案件偵破過程,刑偵人員需要從在幾十上百個(gè)點(diǎn)位的24個(gè)小時(shí)的錄像中查找嫌疑犯目標(biāo),但是利用視頻結(jié)構(gòu)化技術(shù)只需要從幾百上千張的結(jié)構(gòu)化圖片中去查找嫌疑犯,極大的降低了刑偵破案的人力資源和時(shí)間資源,大大提高了辦案效率。
在以往的視頻監(jiān)控應(yīng)用中,需要把所有前端相機(jī)的錄像進(jìn)行儲存。對于公安部門而言,一般需要存儲1-3個(gè)月的視頻,一個(gè)普通二線城市的視頻點(diǎn)位就有上萬個(gè),對后端的存儲空間提出了很高的要求。雖然視頻編解碼技術(shù)的發(fā)展,有效緩解了視頻存儲的壓力,但是沒有從根本上解決視頻存儲問題。
視頻結(jié)構(gòu)化技術(shù),通過提取視頻中有效信息圖片進(jìn)行保存,剔除無效信息,可以極大地提高設(shè)備存儲的利用率。舉個(gè)簡單的例子:對于一個(gè)偏僻的道路卡口場景,夜間8個(gè)小時(shí)有700輛汽車通過,8個(gè)小時(shí)的錄像相當(dāng)于約70萬張圖片(按1秒25幀計(jì)算)視頻結(jié)構(gòu)化的分析的結(jié)果,而理論上有700張有效的車輛圖片即可,兩者相差1000倍的數(shù)據(jù)量。因此,視頻結(jié)構(gòu)化技術(shù)讓存儲設(shè)備的利用率提高了1000倍。
在安防行業(yè),所謂的大數(shù)據(jù)通常是指視頻大數(shù)據(jù)。然而,傳統(tǒng)的視頻大數(shù)據(jù)的數(shù)據(jù)量非常大,而且存在大量的無效信息和冗余信息。如何有效地提取視頻大數(shù)據(jù)中真正對客戶有價(jià)值的信息,就是視頻結(jié)構(gòu)化技術(shù)所能體現(xiàn)的價(jià)值。從大數(shù)據(jù)和視頻結(jié)構(gòu)化兩者關(guān)系來看,視頻結(jié)構(gòu)化技術(shù)屬于大數(shù)據(jù)的應(yīng)用,視頻結(jié)構(gòu)化技術(shù)從視頻大數(shù)據(jù)中提取出所有的目標(biāo)信息,并把這些目標(biāo)信息以圖片的方式進(jìn)行存儲,將視頻大數(shù)據(jù)轉(zhuǎn)換成圖片大數(shù)據(jù)。
在安防行業(yè),視頻結(jié)構(gòu)化技術(shù)同樣屬于智能分析技術(shù),可以理解為對原有智能分析技術(shù)的補(bǔ)充。原有的智能分析技術(shù)是通過事先定義異常事件規(guī)則,然后對視頻中目標(biāo)運(yùn)動行為進(jìn)行智能分析來判斷是否屬于異常事件。它更多的是關(guān)注于事件本身,例如是否有人員目標(biāo)進(jìn)入到某個(gè)區(qū)域,是否有車輛目標(biāo)出現(xiàn)違法停車或者非法變道等。智能分析的主要應(yīng)用是異常事件實(shí)時(shí)布控,確保異常事件發(fā)生后第一時(shí)間能告知用戶。而視頻結(jié)構(gòu)化技術(shù)是將視頻場景中的運(yùn)動目標(biāo)檢測出來并提取該目標(biāo)的可視化特征。它更多的是關(guān)注于目標(biāo)本身,例如車輛目標(biāo)的顏色和類型,人員目標(biāo)的性別、年齡、著裝等。視頻結(jié)構(gòu)化技術(shù)的主要應(yīng)用是目標(biāo)的追蹤,搜索出目標(biāo)可能出現(xiàn)的所有位置,生成目標(biāo)的活動軌跡。當(dāng)然,視頻結(jié)構(gòu)化技術(shù)也可以和原有的智能分析技術(shù)結(jié)合應(yīng)用。例如通過實(shí)現(xiàn)錄入,可以對人員和車輛的圖片進(jìn)行實(shí)時(shí)目標(biāo)布控,當(dāng)布控人員或車輛出現(xiàn)在監(jiān)控畫面中時(shí)可以第一時(shí)間告知用戶,人臉卡口的實(shí)時(shí)報(bào)警系統(tǒng)就是其中最為典型的一個(gè)例子。
隨著視頻結(jié)構(gòu)化技術(shù)在安防領(lǐng)域的興起,越來越多的公司開始在視頻結(jié)構(gòu)化技術(shù)領(lǐng)域投入研發(fā)資源。其中,??低曉谝曨l結(jié)構(gòu)化實(shí)戰(zhàn)應(yīng)用中走在隊(duì)伍的前列,海康威視已經(jīng)推出了自己的視頻結(jié)構(gòu)化產(chǎn)品——獵鷹,該產(chǎn)品基于高密度的GPU硬件方案,并采用國際領(lǐng)先的深度學(xué)習(xí)網(wǎng)絡(luò)框架的人工智能學(xué)習(xí)算法,單臺設(shè)備支持40路實(shí)時(shí)視頻結(jié)構(gòu)化分析或40倍歷史錄像結(jié)構(gòu)化分析。獵鷹所采用的先進(jìn)算法在復(fù)雜的治安場景下仍具有良好的適用性,精確捕獲各類場景中出現(xiàn)的目標(biāo)和目標(biāo)屬性。設(shè)備支持多目標(biāo)按屬性進(jìn)行檢索,篩選出用戶所關(guān)心的目標(biāo),提高用戶的查詢效率。
現(xiàn)階段,視頻結(jié)構(gòu)化技術(shù)的應(yīng)用場景除了人臉卡口場景和車輛卡口場景,最多的應(yīng)用場景還是治安場景。由于人臉卡口和車輛卡口對于前端相機(jī)參數(shù)和相機(jī)的安裝規(guī)范和場景的選擇都有非常高的要求,因此在實(shí)際應(yīng)用中可以最大程度的避免外界干擾對算法性能的影響。然而,對于治安場景而言,相機(jī)安裝沒有統(tǒng)一規(guī)范,應(yīng)用場景復(fù)雜多樣,前端相機(jī)性能參差不齊。因此,視頻結(jié)構(gòu)化技術(shù)在治安場景下的實(shí)際應(yīng)用中還面臨著許許多多的問題。主要包括:
治安場景覆蓋范圍大,場景目標(biāo)尺寸過小。特別是大場景下遠(yuǎn)處的目標(biāo),即便是肉眼也很難辨認(rèn),目前的算法對于這類目標(biāo)的檢測效果比較差,更別說提出該目標(biāo)的屬性信息;
場景中遮擋問題。視頻結(jié)構(gòu)化技術(shù)完全依賴于視頻圖像,一旦目標(biāo)被遮擋,那算法也無能為力。在治安場景下,往往存在樹葉、樹木、建筑物的遮擋,或者是大目標(biāo)遮擋小目標(biāo)等情況;
低照度問題。對于卡口場景,夜間會有相機(jī)的補(bǔ)光措施。但是,對于普通的監(jiān)控相機(jī)一般是不具備補(bǔ)光功能,因此在夜間或者照度很低的情況下,往往容易出現(xiàn)目標(biāo)檢測不到或者目標(biāo)屬性無法提取的情況;
運(yùn)動模糊問題。在某些情況下,場景的光照不是特別充足,由于相機(jī)的曝光時(shí)間設(shè)置較長或者目標(biāo)運(yùn)動速度較快,會導(dǎo)致目標(biāo)出現(xiàn)非常嚴(yán)重的運(yùn)動模糊。針對這類模糊的目標(biāo),檢測效果往往比較差;
人員過于擁擠的場景。對于某些場景,如火車站廣場,人員非常擁擠,人員之間的遮擋非常嚴(yán)重。對于這類場景對于算法的效果影響也非常大。