羅心怡 鄒清淼 李文卓 余 楨
(江西財經(jīng)大學(xué),江西 南昌330000)
1.1.1 智能安防。在破案的過程中,監(jiān)控視頻是現(xiàn)代科技有了很大進(jìn)步后用于破案的關(guān)鍵證據(jù),然而監(jiān)控視頻數(shù)量大,時間跨度長,單純依靠人力查找信息難免效率低下,而且還很容易出現(xiàn)疏漏。行人重識別技術(shù)可以快速從海量的視頻數(shù)據(jù)中篩選出與目標(biāo)人物相似度極高的軌跡片段,將在一定程度上減輕警察人員的工作量,提高破案的效率,促進(jìn)智能安防的快速發(fā)展。
1.1.2 智能尋人系統(tǒng)。當(dāng)公共場所發(fā)生人員失蹤情況時,尋人系統(tǒng)可以借助行人重識別技術(shù),通過導(dǎo)入提供的失蹤人員照片信息,在已存儲的監(jiān)控視頻數(shù)據(jù)下尋找與照片上的人相似度較高的人,再將這些人像信息與實際失蹤人員的圖片一一比較,從而快速發(fā)現(xiàn)該失蹤人員的足跡。
1.1.3 智能超市??梢酝ㄟ^行人重識別技術(shù)捕捉不同顧客在超市的足跡,再對顧客的足跡進(jìn)行數(shù)據(jù)化分析后生成顧客的個人喜好信息,從而幫助超市的管理人員優(yōu)化顧客在超市的體驗。
1.2.1 從目標(biāo)圖像數(shù)據(jù)中抽取特征圖像為檢索圖。
1.2.2 將視頻數(shù)據(jù)中獲取到的所有圖片均抽取相應(yīng)特征為底庫圖。
1.2.3 基于檢索圖,用行人重識別技術(shù)計算檢索圖與底庫圖的特征距離。
1.2.4 按照特征距離升序排列底庫圖,排在越前面的相似度越高。
1.3.1 歐氏距離:歐氏距離也稱為L2 距離,表示兩個向量在歐氏空間中的距離。它的公式如下。
1.3.2 馬氏距離:又稱為數(shù)據(jù)的協(xié)方差距離。它是一種有效的計算兩個未知樣本集的相似度的方法。與標(biāo)準(zhǔn)化歐氏距離不同的是它考慮到各種特性之間的聯(lián)系。它的公式如下:
由歐氏距離和馬氏距離公式對比可知,若協(xié)方差矩陣是單位矩陣,則馬氏距離可被簡化為歐氏距離;若協(xié)方差矩陣是對角陣,它也可以被看做正規(guī)化的馬氏距離。
1.3.3 余弦距離:余弦距離衡量的是空間向量的夾角,更加體現(xiàn)在方向上的差異,而不是位置。公式表示為:
1.4.1 監(jiān)控視頻下捕捉到的行人圖像大多分辨率低,不能像人臉識別技術(shù)那樣處理清晰的人臉信息,只能通過捕捉行人的外形、動作等特征進(jìn)行分析,而這些信息往往容易出現(xiàn)相似的情況。
1.4.2 行人重識別因為涉及到需要跨不同的攝像頭捕捉信息,而不同的攝像頭可能會出現(xiàn)同一個人卻外形有較大出入,而不同的人外形卻十分相似的情況。這就意味著極有可能兩個實際上截然不同的人因為在不同攝像頭下被鋪捉到,而被誤以為是同一個人。
1.4.3 攝像頭捕捉的是場景下的信息,所以容易受到周圍環(huán)境的影響,例如光線、人流量大、行人被遮擋等問題。
注意力機(jī)制其實就是通過深度網(wǎng)絡(luò)學(xué)習(xí)一種權(quán)重分布,再拿權(quán)重分布施加到原來的特征之上。權(quán)重的操作包括對圖像數(shù)據(jù)(部分分量和所有分量)進(jìn)行加權(quán)操作、根據(jù)某種策略篩選出部分特征圖像、對圖像進(jìn)行裁剪操作等,目的都是為了將圖像的特征凸顯出來。
計算機(jī)視覺所運用的注意力機(jī)制其實類似于人類視覺的注意力機(jī)制,本質(zhì)都是迅速從大量信息中過濾無關(guān)信息而關(guān)注重要信息。例如,在網(wǎng)絡(luò)上瀏覽信息時,如果沒有注意力機(jī)制,神經(jīng)網(wǎng)絡(luò)在處理該任務(wù)時,將對所有內(nèi)容進(jìn)行等價處理,也就是所謂的“一視同仁”,這就意味著需要仔細(xì)閱讀每一篇博客,對所有的信息都進(jìn)行特征標(biāo)記。而如果運用注意力機(jī)制,神經(jīng)網(wǎng)絡(luò)則著重關(guān)注具有某一關(guān)鍵詞的內(nèi)容,弱化其他不想關(guān)的內(nèi)容,也就意味著可以有目的性地過濾掉無關(guān)的內(nèi)容,只需閱讀自己需要的內(nèi)容,這樣就大大提高了我們捕捉以及匹配特征的效率。
2.3.1 注意力機(jī)制的具體應(yīng)用過程
早期的注意力機(jī)制研究是基于大腦成像機(jī)制的角度進(jìn)行分析,采用winner-take-all 的機(jī)制來研究如何對注意力進(jìn)行建模。隨著深度學(xué)習(xí)取得一定的發(fā)展后,深度學(xué)習(xí)與視覺注意力機(jī)制結(jié)合成為一種新的趨勢。研究學(xué)者普遍采用的是生成掩碼來表示注意力機(jī)制,這種方式即為學(xué)習(xí)一層新的權(quán)重后將圖像信息中的特征體現(xiàn)出來。這種思想發(fā)展成兩種不同類型的注意力機(jī)制:軟注意力和強(qiáng)注意力。軟注意力更加關(guān)注空間區(qū)域或者通道,而且是可以被微分的,也就意味著可以通過神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)進(jìn)行求導(dǎo)來獲得權(quán)重。強(qiáng)注意力更加關(guān)注圖像上的每一個點,是一個隨機(jī)過程,認(rèn)為每個點都可能延伸出注意力。強(qiáng)注意力不可被微分,需要通過增強(qiáng)學(xué)習(xí)來實現(xiàn)。
2.3.2 基于注意力機(jī)制研究的優(yōu)點
a.傳統(tǒng)的行人重識別多直接提取全局特征,由于缺少了行人的細(xì)節(jié)特征,最終造成難以準(zhǔn)確區(qū)分行人的問題。而基于注意力機(jī)制的行人重識別技術(shù)能夠?qū)θ舾商崛〉降奶卣鬟M(jìn)行相似度權(quán)重估計,將權(quán)重賦給網(wǎng)絡(luò)提取的全局特征,進(jìn)而提高識別的準(zhǔn)確率。
b.環(huán)境因素的影響是不可控的,而應(yīng)用注意力機(jī)制有利于弱化環(huán)境因素對圖像造成的影響,突出那些能夠幫助識別的部分圖像信息,從而解決環(huán)境因素如不同的攝像頭、背景復(fù)雜、被遮擋等的影響。
2.3.3 基于注意力機(jī)制研究的缺點
a. 基于單一的注意力機(jī)制極有可能造成對相似之處給予過多關(guān)注的現(xiàn)象,例如行人穿著的衣服十分相似,所占權(quán)重非常大,而忽略了衣服顏色并不相同這一能夠直接判斷的要素,最終造成顯而易見的錯誤。
b.運用注意力機(jī)制能夠過濾掉大部分的背景信息,使得識別的重點集中于行人區(qū)域上,而在一些特殊情況下,我們?nèi)匀恍枰欢ǖ谋尘靶畔磉M(jìn)行輔助判斷,被過濾掉的背景信息可能會降低識別的準(zhǔn)確率。
該數(shù)據(jù)集采集自戶外的攝像頭a 和攝像頭b,包括632 個行人的1264 張圖像,每張圖像的分辨率都調(diào)整為128*48。該數(shù)據(jù)集的特點是視角、光照、分辨率和姿態(tài)多樣化,所以能夠很好地模擬真實場景下攝像頭鋪捉到的圖像。同時,因其多樣性大處理難度也隨之增加,許多研究學(xué)者把該數(shù)據(jù)集作為行人重識別領(lǐng)域的基準(zhǔn)測試集。
該數(shù)據(jù)集采集自移動的攝像機(jī),原始樣本中圖像的分辨率均為64*32,實際應(yīng)用中一般會根據(jù)實驗需求進(jìn)行調(diào)整。該數(shù)據(jù)集包含三個視頻序列圖像:序列1 包含83 個行人的4857 張圖像;序列2 包含35 個行人的1936 張圖像;序列3 包含28 個行人的1762 張圖像。
該數(shù)據(jù)集是由清華大學(xué)研究團(tuán)隊采集并構(gòu)建,采集自5 個高清攝像頭和1 個低清攝像頭,包含1501 個行人和32668 個檢測到的行人矩形框。該數(shù)據(jù)集的規(guī)模遠(yuǎn)大于其他常用數(shù)據(jù)集,能夠確保每個行人至少被兩個攝像頭鋪捉到,并且在一個攝像頭下具有多張圖像。
累計匹配特性曲線(Cumulative Matching Characteristics,簡稱為CMC)是模式識別系統(tǒng)如人臉、虹膜、指紋等的重要評測指標(biāo),主要用于閉集測試。該曲線的橫坐標(biāo)為rank,縱坐標(biāo)為識別率百分比。rank n 表示識別結(jié)果相似性降序排列中前n 個結(jié)果包含目標(biāo)。識別率是rank n 的數(shù)目#(rank n)占總的query樣本數(shù)的比例。圖1是CMC曲線的一個實例。
圖1
圖2
平均精度均值(mean Average Precision,簡稱為mAP)是目標(biāo)檢測領(lǐng)域常用的評測指標(biāo),首先在一個類別內(nèi)求平均精度,再對所有類別的平均精度求平均。當(dāng)?shù)讕熘写嬖诙鄠€與檢索圖相匹配的圖像時,mAP 能夠?qū)⑺械钠ヅ鋱D返回,因此相比于CMC,mAP 的召回能力要高一些,鑒別的效率也更高。圖2 是P-R 曲線的一個實例,曲線圍成的面積就是AP 的值。
基于注意力機(jī)制能夠使識別過程更加關(guān)注行人有用的特征,此外還可以結(jié)合屬性識別,對行人的性別、衣服、褲子、鞋子等屬性進(jìn)行分類,并對這些屬性所提供的信息進(jìn)行整合,結(jié)合注意力機(jī)制將能夠進(jìn)一步提高行人重識別的效率。還可以運用如今趨于成熟的生成對抗網(wǎng)絡(luò)來輔助訓(xùn)練,利用生成對抗網(wǎng)絡(luò)捕捉到更多不同視角下行人動作的變化,從而實現(xiàn)更加細(xì)致地對行人姿態(tài)、動作進(jìn)行比對,進(jìn)一步提高行人重識別的準(zhǔn)確率。