陳勝杰
摘 要:在智能視頻監(jiān)控場(chǎng)景下,由于攝像機(jī)視角、光照條件、姿態(tài)的不同,同一行人在不同場(chǎng)景下的外貌出現(xiàn)巨大差異。本文結(jié)合深度學(xué)習(xí)、視覺(jué)注意機(jī)制、稀疏表示等領(lǐng)域的理論與方法,重點(diǎn)研究視頻的視覺(jué)特征表示和選擇算法以及顯著性多特征的融合方法,實(shí)現(xiàn)視頻數(shù)據(jù)中視覺(jué)特征的多層次、多尺度提取,形成穩(wěn)定、可靠的視頻行人數(shù)據(jù)處理方法。
關(guān)鍵詞:視頻檢索;深度學(xué)習(xí);特征融合
中圖分類號(hào):TP391.41文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1003-5168(2020)05-0055-02
Abstract: In the intelligent video surveillance scene, due to different camera angles, lighting conditions, and attitudes, the appearance of the same pedestrian in different scenes varies greatly. Combining theories and methods in the fields of deep learning, visual attention mechanism, and sparse representation, this paper focused on the visual feature representation and selection algorithm of video and the fusion method of significant multi-feature to achieve the multi-leveland multi-scale extraction of visual features in video data, forming a stable and reliable video pedestrian data processing method.
Keywords: video retrieval;deep learning;feature fusion.
行人重識(shí)別[1]是智能視頻監(jiān)控的關(guān)鍵組成部分,目前面臨諸多挑戰(zhàn)。對(duì)于傳統(tǒng)視頻監(jiān)控來(lái)說(shuō),在監(jiān)控區(qū)域多,保存視頻數(shù)據(jù)量大時(shí),視頻數(shù)據(jù)的查詢、檢索將變得極其復(fù)雜。將視覺(jué)主觀注意模型引入智能視頻監(jiān)控系統(tǒng)中,可以實(shí)現(xiàn)對(duì)視頻場(chǎng)景中感興趣目標(biāo)的自動(dòng)定位、辨識(shí)與跟蹤,對(duì)檢測(cè)目標(biāo)的行為實(shí)施分析與判斷。行人重識(shí)別技術(shù)是智能視頻監(jiān)控系統(tǒng)中的關(guān)鍵技術(shù)之一,當(dāng)前有必要對(duì)行人重識(shí)別計(jì)算模型進(jìn)行深入、有效的研究,提高智能視頻監(jiān)控系統(tǒng)的準(zhǔn)確性。
“十三五”期間,我國(guó)社會(huì)經(jīng)濟(jì)蓬勃發(fā)展,科技創(chuàng)新日新月異,人們大力開(kāi)展“平安中國(guó)”活動(dòng),加強(qiáng)視頻監(jiān)控和網(wǎng)絡(luò)化建設(shè)和應(yīng)用。目前,視頻分析和圖像檢測(cè)技術(shù)在打擊犯罪、安防、智慧城市、民生服務(wù)等方面發(fā)揮了越來(lái)越強(qiáng)大的作用[2]。
特征表示作為智能視頻監(jiān)控、視頻分析的關(guān)鍵技術(shù)之一,逐漸引起研究者的關(guān)注,被廣泛地應(yīng)用于行人重識(shí)別、圖像檢索、圖像分類及人臉識(shí)別與驗(yàn)證等經(jīng)典問(wèn)題中,成為計(jì)算機(jī)視覺(jué)領(lǐng)域中最熱門(mén)的研究課題之一。另外,受“平安中國(guó)”活動(dòng)推動(dòng),智能視頻監(jiān)控得到極大的推廣和應(yīng)用,圖像、視頻資源變得越來(lái)越豐富,海量的圖像信號(hào)與視頻數(shù)據(jù)勢(shì)必為圖像理解、識(shí)別、檢索、視頻摘要、目標(biāo)跟蹤等系統(tǒng)的執(zhí)行效率帶來(lái)挑戰(zhàn)。然而,研究人員指出,行人通常只是整個(gè)圖像或視頻幀的一部分。近年來(lái),計(jì)算機(jī)視覺(jué)領(lǐng)域的研究一直致力于如何準(zhǔn)確有效地從復(fù)雜的圖像場(chǎng)景中提取出有用的行人視覺(jué)信息,為后續(xù)的行人識(shí)別提供更加簡(jiǎn)潔、精細(xì)的圖像內(nèi)容表達(dá)。眾所周知,生物視覺(jué)系統(tǒng)具有非常高效的數(shù)據(jù)篩選能力,能夠?qū)?fù)雜場(chǎng)景進(jìn)行快速分析和理解,這得益于生物視覺(jué)的注意機(jī)制。目前,關(guān)于生物視覺(jué)注意的研究已經(jīng)很多,對(duì)人和動(dòng)物大腦的認(rèn)知過(guò)程進(jìn)行了分析和討論。受此啟發(fā),計(jì)算機(jī)視覺(jué)通過(guò)模擬人的視覺(jué)注意機(jī)制,能夠有效地濾除和檢測(cè)圖像和視頻數(shù)據(jù)中描述行人的重要目標(biāo),濾除場(chǎng)景中多余的背景視覺(jué)信息[3],從而降低計(jì)算機(jī)對(duì)圖像和視頻內(nèi)容理解的復(fù)雜度,這是行人識(shí)別算法研究的核心目的。本文重點(diǎn)分析了基于視覺(jué)注意機(jī)制的行人重識(shí)別技術(shù)。
1 行人視覺(jué)特征表示
在行人重識(shí)別的應(yīng)用中,全局的顏色、紋理、形狀特征是最常使用的底層圖像特征,但不足以表達(dá)行人圖像局部細(xì)節(jié)的差異。因此,在本項(xiàng)目中,首先將圖像進(jìn)行超像素劃分,針對(duì)超像素圖像塊,一方面利用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)來(lái)獲取圖像全局特征,另一方面采用基于視覺(jué)注意機(jī)制的深度網(wǎng)絡(luò)學(xué)習(xí)超像素塊的局部顯著特征。此外,考慮到視頻中行人圖像本身具有的特性,在構(gòu)建特征描述子時(shí),還將引入申請(qǐng)人提出的局部結(jié)構(gòu)描述子并結(jié)合圖像顯著性檢測(cè)進(jìn)行進(jìn)一步完善,使它適應(yīng)行人重識(shí)別場(chǎng)景,讓該描述子可以有效地將顏色、紋理和形狀結(jié)合在一起表征圖像前景目標(biāo)。上述三種描述子可以起到信息相互補(bǔ)充的作用,有利于提高行人重識(shí)別準(zhǔn)確度。
訓(xùn)練階段,首先在圖像數(shù)據(jù)庫(kù)上選取一定數(shù)量的行人圖片構(gòu)成訓(xùn)練樣本,然后利用基于視覺(jué)注意機(jī)制的深度學(xué)習(xí)模型對(duì)訓(xùn)練樣本進(jìn)行全局特征和局部特征學(xué)習(xí),從而得到更有區(qū)分能力的高級(jí)特征。同時(shí),基于局部結(jié)構(gòu)描述子,高級(jí)特征和低級(jí)特征都將作為顯著性候選特征。測(cè)試階段,對(duì)于任意一幅測(cè)試圖像,首先利用訓(xùn)練好的深度模型,提取高級(jí)特征,然后提取局部描述子,最后利用顯著性多特征融合分類器或距離度量進(jìn)行行人重識(shí)別。
2 視覺(jué)注意網(wǎng)絡(luò)建模
本文利用CNN作為空域特征深度學(xué)習(xí)網(wǎng)絡(luò)模型。其中,CNN本質(zhì)上是為識(shí)別二維形狀而特殊設(shè)計(jì)的一個(gè)多層感知器,它的結(jié)構(gòu)對(duì)平移、比例縮放、傾斜等變形具有高度不變性。這種性能優(yōu)勢(shì)對(duì)視頻行人重識(shí)別尤為重要,因?yàn)樵谝曨l場(chǎng)景下,不同視頻幀中的同一行人可能具有不同的角度、位置、姿態(tài)等。CNN的結(jié)構(gòu)能夠有效克服以上問(wèn)題,保證所獲得特征的魯棒性和區(qū)分能力。因此,筆者將充分借鑒CNN的上述優(yōu)點(diǎn)及在計(jì)算機(jī)視覺(jué)領(lǐng)域中的成功經(jīng)驗(yàn),以經(jīng)典的Tensorflow或Pytorch神經(jīng)網(wǎng)絡(luò)模型為訓(xùn)練和學(xué)習(xí)平臺(tái),構(gòu)建新的網(wǎng)絡(luò)模型,完成行人重識(shí)別基本特征的學(xué)習(xí),開(kāi)辟一條特征提取及表示的新途徑。
3 行人多特征顯著性分析與建模
顯著性是人類視覺(jué)對(duì)事物的某種質(zhì)與量的度量感知。對(duì)于行人重識(shí)別,顯著性特征是待識(shí)別行人有別于其他人的最根本特征。顯著性意識(shí)具有以下特點(diǎn):一是具有代表性,能使被識(shí)別的行人與其他行人具有明顯的可分性;二是顯著性意識(shí)與行人各種特征的測(cè)量單位無(wú)關(guān),它反映了特征值對(duì)正確識(shí)別行人的貢獻(xiàn)。利用它,行人特征可以分為最顯著特征、次顯著特征和一般顯著特征等。由于行人圖像受多種不可控因素影響,顯著性度量準(zhǔn)則不易采用確定形式的函數(shù)表示,應(yīng)該采用一個(gè)統(tǒng)計(jì)量表示。也就是說(shuō),最顯著特征對(duì)應(yīng)最大概率值,次顯著特征對(duì)應(yīng)次大概率值,以此類推。因此,課題擬采用最小錯(cuò)誤概率度量特征的顯著性感知。
4 基于證據(jù)理論的決策級(jí)融合行人重識(shí)別
近年來(lái),多源信息融合技術(shù)得到了迅速發(fā)展,行人重識(shí)別的多源信息融合大多采用像素級(jí)、特征級(jí),很少看到?jīng)Q策級(jí)多源信息融合的行人重識(shí)別報(bào)道。DS證據(jù)理論是多源信息決策級(jí)融合的一種有效方法,本文將獲得的顯著性特征匹配作為證據(jù),在行人目標(biāo)集中建立基本可信度,然后在同一決策框架下,用合并規(guī)則將不同的特征合并成統(tǒng)一的特征信息表示。實(shí)際應(yīng)用中,DS證據(jù)理論按照證據(jù)分配置信度函數(shù)給命題時(shí),要受多種因素影響,不同方法可能產(chǎn)生不同的基本概率賦值公式,應(yīng)根據(jù)具體情況確定。一般來(lái)說(shuō),要根據(jù)特征對(duì)行人目標(biāo)的度量以及其決策的重要性與可靠性等來(lái)構(gòu)造基本概率賦值。在DS證據(jù)組合規(guī)則中,各信息源所提出的證據(jù)是平等的。事實(shí)上,在各組信息源的可靠性、重要性不同的情況下,DS證據(jù)組合規(guī)則可能給出和客觀情況不符合的組合結(jié)果。因此,本課題在前面研究特征顯著性的基礎(chǔ)上給出了基于最小錯(cuò)誤概率的加權(quán)置信指派函數(shù)。
5 結(jié)語(yǔ)
本文將深度學(xué)習(xí)、人類視覺(jué)注意機(jī)制和圖像稀疏性表示等技術(shù)引入行人重識(shí)別計(jì)算模型中,針對(duì)現(xiàn)有算法的幾個(gè)關(guān)鍵問(wèn)題設(shè)計(jì)研究方案,提高行人重識(shí)別的準(zhǔn)確率和效率。其中,在外觀特征提取和表示方面,要借鑒傳統(tǒng)特征提取方法中的成功經(jīng)驗(yàn),結(jié)合深度學(xué)習(xí)算法,通過(guò)建立視覺(jué)注意卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)出具有良好魯棒性和區(qū)分能力的視覺(jué)特征。除了圖像理解領(lǐng)域,本文的研究成果也可以在計(jì)算機(jī)視覺(jué)、視頻理解、視覺(jué)搜索、視頻內(nèi)容的監(jiān)管和過(guò)濾等領(lǐng)域應(yīng)用。
參考文獻(xiàn):
[1]彭志勇,常發(fā)亮,劉洪彬,等.基于HSV模型和特征點(diǎn)匹配的行人重識(shí)別算法[J].光電子·激光,2015(8):1575-1582.
[2]中國(guó)安全防范產(chǎn)品行業(yè)協(xié)會(huì).中國(guó)安防行業(yè)“十三五”(2016—2020年)發(fā)展規(guī)劃[EB/OL].(2015-10-09)[2019-12-28].http://xh.21csp.com.cn/c59/201512/11379782.html.
[3]丁宗元,王洪元,陳付華,等.基于距離中心化與投影向量學(xué)習(xí)的行人重識(shí)別[J].計(jì)算機(jī)研究與發(fā)展,2017(8):1785-1794.