唐佳敏,韓 華,黃 麗,王春媛
(上海工程技術(shù)大學 電子電氣工程學院,上海 201620)
近年來對“安全防范”與“治安管理”的重視,視頻監(jiān)控因為其實時性與精準性,需求性逐漸增強。但在傳統(tǒng)的視頻監(jiān)控中,只有簡單的記錄、存儲、回放等功能,無法起到有效的安全防范和治安管理的作用,且海量的視頻數(shù)據(jù)依靠人工檢索非常耗時耗力,還不能保證準確性,由此智能視頻應運而生,且發(fā)展迅猛,其中的行人重識別問題也發(fā)展成為熱點話題。行人重識別(Person Re-ID)研究主要從行人跨攝像頭跟蹤問題開始,是用來判斷目標行人在無重疊視域中被拍攝到的圖像是否屬于同一身份的目標行人。行人重識別研究可以廣泛用于智能視頻監(jiān)控,安全防御等領(lǐng)域。由于行人外觀易受衣物、姿態(tài)和攝像頭視角變化以及光照角度、事物遮擋、環(huán)境等各種復雜因素的影響,使得行人重識別研究面臨了很多挑戰(zhàn)與困難。近年來,行人重識別技術(shù)引起了各界的廣泛關(guān)注,提出了很多優(yōu)秀的技術(shù)研究方法[1]。
行人重識別問題目前已成為計算機視覺等研究領(lǐng)域的熱點,其主要功能就是在不同攝像頭下找到目標行人的身份關(guān)聯(lián)信息,以便能準確的識別目標行人,如圖1 所示。
圖1 無重疊區(qū)域監(jiān)控網(wǎng)絡中的行人重識別Fig.1 Person re-identification in non-overlapping area monitoring network
行人重識別早期并沒有獲得過多關(guān)注,只是作為跨攝像機目標跟蹤的一個分支。2005 年,行人重識別(Person Re-identification)一詞在研究跨攝像機目標跟蹤問題中第一次被提出;在2006 年,Gheissari 等人在國際頂級會議上首次將Person Re-Identification 這一術(shù)語提出,將行人重識別當作一個獨立的研究方向來開展[2];特別是在2007 年,D.Gary 等人公開發(fā)布了第一個關(guān)于行人重識別的數(shù)據(jù)集:VIPeR。這一數(shù)據(jù)集的發(fā)布使得越來越多的國內(nèi)外學者對此感興趣,紛紛投入研究,使之成為計算機視覺領(lǐng)域的熱點研究問題。
行人重識別的研究,從國內(nèi)外研究的發(fā)展歷史來看主要有兩大階段:基于人工設計特征的行人重識別方法和基于深度學習的行人重識別方法?;谌斯ぴO計特征的行人重識別方法主要由兩部分組成:特征提取和相似性度量。特征提取主要提取魯棒性強且具有很強區(qū)分判別性的特征表示向量;相似性度量主要對目標行人間的特征向量間的相似度進行比對?;谏疃葘W習的行人重識別方法則是將這兩部分整合為一個整體,輔以損失函數(shù)約束。
行人重識別研究出現(xiàn)了很多優(yōu)秀的有監(jiān)督學習算法,雖然有監(jiān)督學習的發(fā)展已經(jīng)取得了很好的結(jié)果,但是其獲得標簽信息的工作量和難度都很大;而無監(jiān)督學習由于不需要給數(shù)據(jù)打標簽,通過發(fā)現(xiàn)一些潛在的結(jié)構(gòu)來訓練數(shù)據(jù),可以節(jié)省很多人力物力資源,因而受到越來越多的關(guān)注。本文的研究也是基于無監(jiān)督學習的,以提取聯(lián)合判別性特征為目標。
在本項工作中,使用ResNet-50 作為卷積網(wǎng)絡的骨干網(wǎng)絡,研究了基于深度學習系統(tǒng)的無監(jiān)督行人重識別,提出了一種聯(lián)合判別性特征的無監(jiān)督框架,如圖2 所示。對于行人圖片,使用基于補丁的判別特征學習損失,將類似補丁塊的特征拉到一起,并推出不相似的補丁塊,來指導未標記數(shù)據(jù)集學習具有判別性的局部補丁特征。從全局方面,提出使用相斥損失的聚類策略來對樣本進行判別性的全局特征學習。
圖2 本方法框架圖Fig.2 Framework diagram of this method
局部特征學習旨在指導補丁網(wǎng)絡在未標記的數(shù)據(jù)集上學習判別性補丁特征。從相對較小尺寸的特征圖中提取補丁,而不是從圖像中采樣,這樣可以有效地減少特征計算中的計算量和CNN 網(wǎng)絡的復雜度[3]。為此,本文引入了一個空間變換網(wǎng)絡來形成補丁網(wǎng)絡,可以實現(xiàn)自動地從特征圖中提取補丁的功能[4]。補丁網(wǎng)絡為每個圖像特征映射,生成M個補丁塊,并且同一圖像的這些不同補丁塊位于不同的空間區(qū)域,這些不同的區(qū)域可能包含不同的身體部位,具有不同的語義信息,所以使用不同的CNN分支對同一圖像的這些不同的補丁進行編碼,并對不同的分支獨立地進行判別性特征學習,如圖3 所示。
圖3 局部判別性特征提取Fig.3 Local discriminative feature extraction
在一般的特征學習中,總是希望同一類的特征在特征空間中更接近,同時遠離其它類,這樣學習到的特征更具有判別性,所以這里的補丁網(wǎng)絡特征學習是將特征空間中相似的補丁塊拉近,同時將不相似的補丁塊推遠。
本文在本項無監(jiān)督框架中使用一種基于補丁塊的判別特征損失函數(shù),將相似的特征拉到一起,并推出不相似補丁塊,來學習未標記數(shù)據(jù)集中的補丁特征,公式(1)如下:
因為將相似的人的圖像特征直接拉近,也許會把具有不同身份的,但視覺上相似的人的圖像特征拉近,這是由于忽略人的身份信息,導致的識別率的降低。所以通過將人的圖像劃分為部分,可以讓同一圖像的不同補丁塊包含該人的不同信息,從而挖掘出埋藏其中的潛在信息。
全局特征學習旨在通過聚類策略,利用特征的相似性,將具有相同身份的圖片結(jié)合在一起,以此生成聚類,然后利用卷積模型進行最大化聚類中心差異性的操作進行數(shù)據(jù)的更新。
已知無監(jiān)督數(shù)據(jù)集里的每張圖片都沒有身份標注,因此在開始的時候會將每張圖片分配為各自的聚類中心,即{1 ≤i≤N}(是xi的聚類數(shù)量的動態(tài)索引)。這種方式能讓網(wǎng)絡學習識別每一個聚類的訓練樣本,而不是每一個人,并且可以將每個訓練樣本間的多樣性達到最大化。隨著數(shù)據(jù)參數(shù)更新,將類似的行人圖片并到同一個身份的聚類中,來表明行人圖片身份的同一性。
令一張圖片x屬于第c個聚類中心的概率如式(2)所示:
其中,C是當前狀態(tài)下聚類的數(shù)目,在開始狀態(tài)時C =N,也就是聚類的數(shù)目等于圖片的數(shù)目。隨著相似的圖像逐漸合并,聚類C的數(shù)量也逐漸減少;v=指代的是數(shù)據(jù)xi特征空間中的l2范數(shù),即‖vi‖=1;V∈RC×nφ是一個查詢列表,其中存放著每一個聚類的特征;Vj表示V的第j列特征;τ是一個標量參數(shù),引入的目的是為了便于對概率的取值區(qū)間有一個控制因素。在后續(xù)的實驗中,將τ設置為0.1。
在之前的操作中,通過VT·vi來計算數(shù)據(jù)xi和其它數(shù)據(jù)間的余弦相似度,而現(xiàn)在通過←來計算表V的第列數(shù)據(jù),將原來聚類的特征與新的數(shù)據(jù)特征求和并求平均值;利用公式(3)的損失函數(shù)優(yōu)化算法的卷積模型,將其作為相斥損失函數(shù),可以讓不同身份圖片間的差異性擴大。
通過最小化公式(3)的損失函數(shù),可以計算每個圖像特征vi與每一個聚類中心特征之間的余弦距離,并將其最大化。還可以計算每個圖像特征vi與相對應的聚類中心特征之間的余弦距離,并將其最小化,這樣就可以利用多樣性來推遠不相似的圖片。在優(yōu)化的步驟中,Vj列舉了第j個聚類中心中所包括的全部圖片的特征,將其作為該聚類的“中心點”。在模型訓練的每一個階段,對聚類中心的計算操作的時間復雜度非常高,所以可以通過查詢表格V 的方法來節(jié)省很多冗余的計算過程,這樣帶來的好處是在每次訓練階段不需要從所有訓練數(shù)據(jù)中反復地進行提取特征的步驟。
基于以上的無標簽數(shù)據(jù)集框架下的局部判別性損失函數(shù)和全局判別性損失函數(shù),最終每張圖像形成的總的損失函數(shù)可以表示為式(4):
其中,U表示一張圖片的補丁塊的個數(shù),λ是一個控制權(quán)重的參數(shù)。
本次實驗的數(shù)據(jù)集描述見表1,實驗在Market-1501 數(shù)據(jù)集和DukeMTMC-reID 數(shù)據(jù)集上操作研究。Market1501 數(shù)據(jù)集包含共32 668 張行人圖片,由分布的6 個攝像頭捕捉的1 501 個不同行人身份,將總共的32 668 張圖片分為訓練集和測試集兩部分,其中訓練集上有12 936 張行人圖片,測試集上有19 732 張行人圖片。DukeMTMC-reID 數(shù)據(jù)集共計36 411 張圖像。由8 個攝像頭捕捉1 404 個行人身份,同樣分為訓練集的16 522 張圖像和測試集的17 661 張圖像。
表1 數(shù)據(jù)集描述Tab.1 Description of the datasets
本次實驗中,使用兩個性能指標來評判此研究方法:
(1)累積匹配特征(CMC)曲線;
(2)平均精度均值(mAP)。每個被查詢圖像的平均精度(AP)由圖像的召回曲線確定,并通過計算查詢圖像的平均精度的平均值獲得平均精度均值(mAP)。在積累匹配特性曲線(CMC)中選取Rank-1,Rank-5 和Rank-10 的得分來反映檢索的精度。
將本算法性能與目前較先進的方法進行了比較,在Market-1501 數(shù)據(jù)集上得到的積累匹配特性曲線(CMC)如圖4 所示,在DukeMTMC-reID 數(shù)據(jù)集上得到的積累匹配特性曲線(CMC)如圖5 所示。同時,將本文方法與目前較先進方法的mAP值比較,見表2,在Market-1501 數(shù)據(jù)集上達到了36.02,和已有的好方法相比提高8.62 個百分點;在DukeMTMC-reID 數(shù)據(jù)集上達到了40.64,與已有的好方法比提高15.94 個百分點。在CMC 曲線中選取了具有代表性的Rank-1,Rank-5 和Rank-10的得分來進行比較,見表3,表4。從表3可以看出,本文的算法在Market- 1501 數(shù)據(jù)集上的rank-1 最終結(jié)果達到了59.35,相較于已有的好方法提高了2.65 個百分點;從表4 我們可以看出,本文的算法在DukeMTMC-reID 數(shù)據(jù)集上的Rank-1 最終結(jié)果達到了55.75,比已有的好方法提高了10.45 個百分點。因此,可以看出本文方法可以很好地解決行人重識別的問題,并且由于從局部和全局兩個分支全面地解決此問題,使得本文方法具有一定的先進性。
圖4 各算法在Market-1501 數(shù)據(jù)集上的積累匹配特性曲線(CMC)Fig.4 Cumulative matching characteristic curve(CMC)of each algorithm on the Market-1501 dataset
圖5 各算法在DukeMTMC-reID 數(shù)據(jù)集上的積累匹配特性曲線(CMC)Fig.5 Cumulative matching characteristic curve(CMC)of each algorithm on the DukeMTMC-reID dataset
表2 各算法在Market-1501 和DukeMTMC-reID 數(shù)據(jù)集上的平均精度均值(mAP)Tab.2 The average precision(mAP)of each algorithm on the Market-1501 and DukeMTMC-reID datasets
表3 在Market-1501 數(shù)據(jù)集的結(jié)果Tab.3 Results of the Market-1501 dataset
表4 在DukeMTMC-reID 數(shù)據(jù)集的結(jié)果Tab.4 Results of the DukeMTMC-reID dataset
本文還在Market-1501 和DukeMTMC-reID 這兩個大型數(shù)據(jù)集上對總損失中參數(shù)λ的影響進行了實驗分析,選取Rank-1 和mAP作為評測指標,實驗結(jié)果如圖6,圖7 所示??梢园l(fā)現(xiàn),λ的區(qū)間在[0,1]之間,Rank-1 的結(jié)果首先隨著λ的值呈現(xiàn)平穩(wěn)上升的趨勢,當λ =0.7 時,到達最高點之后下降。mAP的結(jié)果雖然有所曲折,但也是呈現(xiàn)上升趨勢,并且當λ =0.7 時取得最好的結(jié)果,隨之下降。即λ值設置為0.7 可以取得比較好的結(jié)果。由于學習到了更有判別力的聯(lián)合判別性特征,因此將全局損失和局部損失組合起來可以得到更好的結(jié)果。
圖6 λ 值對rank-1 的影響Fig.6 The effect of λ on rank-1
圖7 λ 值對mAP 的影響Fig.7 The effect of λ on mAP
行人重識別任務隨著計算機視覺和模式識別領(lǐng)域的快速發(fā)展而發(fā)展,成為該研究方向中的一個重要分支。作為智能視頻監(jiān)控方向上的研究支撐,對于實現(xiàn)跨攝像機研究中的目標跟蹤和行為分析等一系列面向智能視頻監(jiān)控的應用難題起到非常大的推進作用。本文基于全局與局部特征的無監(jiān)督學習框架,提出了一種聯(lián)合判別性特征學習方法來解決重識別任務,并實驗驗證了方法中每一部分的有效性,證明了所提出的方法對于解決行人重識別任務具有顯著的效果。