王生進,豆朝鵬,樊懿軒,李亞利
1.清華大學電子工程系,北京 100084;2.北京信息科學與技術國家研究中心,北京 100084
行人再識別研究從技術上可分成行人檢測和行人檢索兩個主要部分。當給定原始視頻序列后,首先提取出視頻幀,接著對每一幀圖像進行行人檢測,所有檢測到的行人便構成了一個行人檢索庫(gallery)。然后,當輸入一個待查詢對象(query)時,將其送入檢索庫進行特征匹配,最終返回查詢結果。其中,行人檢測是一個獨立的研究方向。因此,通常所指的行人再識別一般只包括行人檢索部分。即給定一幅行人圖像,從檢索庫中返回所有包含這一行人目標圖像的過程,而不包含行人檢測的過程。因此,行人再識別問題可以看做是圖像檢索的一個子問題,但在實際應用中包含視頻圖像的行人檢測部分。
在實際應用方面,行人再識別最大的應用需求來自于公共安防領域和新型商業(yè)領域,同時在人機交互領域也有該技術的位置。在公共安防領域,人臉識別是公共安防領域確定目標身份的最有力的技術手段之一。然而,人臉識別有著一項無法克服的障礙,即傳統(tǒng)人臉識別要求被采集對象需要以要求的角度、距離配合相機成像,即采取所謂的合作方式;隨著技術發(fā)展,半合作條件下的人臉識別也逐漸具備了技術可行性。盡管如此,在實際公共安防應用中,存在大量的非合作場景,被監(jiān)視對象不會配合相機成像,可能不會察覺自己處于被拍攝狀態(tài),在一些極端情況下,甚至可能刻意遮擋臉部等關鍵生物特征。因此,公共安防領域迫切需要一種能夠克服該困難的技術——行人再識別,以提供新的技術支持,在較大空間范圍和較長時間跨度上追蹤到目標人。以行人再識別技術為支撐,使得從背影找到人臉、并由此識別人臉成為可能。此外,在商業(yè)新零售領域,行人再識別技術也具有良好的應用前景。商業(yè)實體零售大數(shù)據(jù)中,需要分析客戶的行走路徑,對某些商品的關注程度,由此獲取客戶對商品的感興趣度,建立不同商品之間的興趣關聯(lián)。行人再識別能夠通過成像及分析,在較大空間范圍和較長時間跨度上,將客戶對不同商品的關注行為聯(lián)系起來,具有很高的商業(yè)應用價值。
除了有很強的實際應用價值外,行人再識別任務也有很大的理論研究價值。與目前較為成熟的人臉識別問題相比,行人再識別任務的不同在于,識別對象為非合作目標,即獲取行人視頻圖像時,只能通過預先架設的攝像頭在一個開放環(huán)境中捕捉行人目標,無法要求行人主動配合相機成像。這給行人再識別任務帶來了許多新的難點。盡管2006 年就提出了行人再識別的概念,但因為技術不成熟,產(chǎn)業(yè)界很少問津,鮮有應用場景,直到2015 年后,開始有企業(yè)試圖涉足行人再識別技術應用。究其原因,正是因為行人再識別面臨著非常大的技術挑戰(zhàn)。核心問題及關鍵技術是如何從時變表觀圖像中學習有效圖像特征表達、學習如何從元圖像數(shù)據(jù)空間映射到具有鑒別性的特征空間??傮w而言,行人再識別中,行人成像存在顯著的姿態(tài)、視角、光照以及成像質量等變化,還經(jīng)常面臨一定范圍遮擋等困難。這些問題通常難以在成像環(huán)節(jié)進行控制或避免。主要表現(xiàn)如下:1)視角變化大。與人臉識別任務相比,雖然捕捉到的人臉也存在一定的視角變化,但基本能保證人臉方向大致正對相機。而行人再識別問題中得到的圖像,行人可能以各種角度面對相機,在水平方向上行人可能以側面甚至背面朝向攝像頭。2)嚴重的遮擋。在開放式環(huán)境中,行人所在空間往往有許多物體對行人造成遮擋,如來往的車輛、行人之間的相互遮擋等。遮擋的行人對行人再識別造成了極大難度。3)姿態(tài)多變。在人臉識別問題中,人臉對齊是一個不可缺少的環(huán)節(jié),然而,在行人再識別問題中,行人在行走過程中身體姿態(tài)變化極大,且人體關節(jié)遠多于面部關鍵點,使得行人對齊難以實現(xiàn),行人對齊準確率遠低于人臉對齊。4)光照變化大。行人圖像可能是在一天的不同時段獲得的,光照強度的差別十分大。白天與夜晚拍攝得到的同一行人圖像,行人表觀差異巨大,即便是人為觀察也很難識別。
另外,相比人臉識別任務,行人再識別任務中所用的數(shù)據(jù)采集難度更大,標注更困難,學術界已有的數(shù)據(jù)集規(guī)模遠小于人臉識別數(shù)據(jù)集。在已有數(shù)據(jù)集上得到的特征提取器往往存在較嚴重的過擬合現(xiàn)象。如將某一數(shù)據(jù)集上得到的模型直接用于另一數(shù)據(jù)集,性能會急劇下降。為了更適應實際需求,行人再識別中的跨域問題有很大的研究意義,并且挑戰(zhàn)巨大。因此,從過去近10 年至今,學術界特別是機器學習和計算機視覺領域的研究者對此投入了極大的關注,行人再識別研究成為熱點,歷屆國際本領域幾大頂會和著名期刊均有諸多行人再識別論文發(fā)表。
本文整體安排如圖1 所示。首先,從任務、應用需求、技術挑戰(zhàn)、關鍵技術、數(shù)據(jù)集以及評價指標等方面介紹行人再識別任務。其次,針對提到的技術挑戰(zhàn),介紹了對應的解決方案。然后,探討了行人再識別存在的問題,進一步提出了人像態(tài)勢計算任務,并對相應的概念進行了探討。最后,介紹本文構建的對于人像態(tài)勢計算的基準數(shù)據(jù)集,并進行分析討論,給出了評測指標的建議,以促進人像態(tài)勢計算任務的發(fā)展。
圖1 本文整體結構Fig.1 Overall structure of this paper
考慮到行人再識別任務的應用價值和理論挑戰(zhàn),在充分了解和分析的基礎上可以發(fā)現(xiàn),面向行人再識別任務普遍采用的深度學習方法中,最重要的是需要解決行人特征學習問題,即行人深度特征學習。
如圖2 所示,行人再識別完整流程分為行人檢測和行人檢索兩部分。給定原始圖像或視頻,先對齊進行行人檢測,并將所有檢測結果以限制框形式(bounding box)匯聚在一起,形成圖像庫(gallery)。再識別時,給定查詢圖像(query),在圖像庫中檢索與其同身份的行人。具體過程是:對查詢圖像和庫圖像分別提取特征,并逐一比較查詢圖像特征與庫圖像特征的相似性(例如以歐氏距離為相似性度量)。最后,按照相似性由大至小排序的方式,返回查詢結果。返回結果形式與圖像檢索相似,故行人再識別也稱為行人檢索。在上述流程中,通常將行人檢測作為一項獨立任務進行研究。而行人再識別更多地強調(diào)給定查詢圖像、提取特征以及返回正確查詢結果的過程。毫無疑問,特征是否具有足夠強的表達、鑒別能力,是決定查詢結果好壞的最關鍵因素。實際上,絕大部分視覺任務都與特征表達能力有極強的聯(lián)系。在行人再識別這一計算機視覺新興的細分領域,特征學習也自然而然地成為至關重要的一個環(huán)節(jié)。
圖2 行人再識別任務的完整流程Fig.2 The complete process of person re-identification ((a)pedestrian detection;(b)person re-identification)
在行人再識別任務的深度學習方法中,深度度量學習是關鍵技術之一。深度度量學習采用非常直接的學習目標,即判斷兩幅圖像是否屬于同一個行人。該學習目標與行人再識別的初衷完全一致。具體來講,度量學習將圖像以樣本對的形式輸入到深度網(wǎng)絡中,當樣本對中的兩幅圖像來自于同一個行人時,標識為正樣對;反之,兩幅圖像來自于不同行人,則標識為負樣對。訓練時,網(wǎng)絡通過學習鑒別正負樣本對,獲得對行人的鑒別能力。值得指出的是,盡管度量學習有時被認為與特征學習屬于不同的研究范疇,但實際上度量學習提供了一種有效的特征學習方式,通過深度度量學習可以獲得一個具有鑒別力的深度特征空間,在這個空間中,來自同一身份的所有樣本(圖像特征)彼此相似,而來自不同身份的樣本彼此相遠。
早期行人再識別訓練樣本較少,而這種“組隊”產(chǎn)生樣本的訓練方式,能夠獲取相對較多的直接訓練樣本。然而,這種方式也有明顯的缺點,它將ID(identity)級別的行人身份標注信息退化為二值化的樣本對標簽,無法利用ID 級標注這種更強的監(jiān)督信息。在Market-1501 等大規(guī)模數(shù)據(jù)集出現(xiàn)后,越來越多的研究發(fā)現(xiàn),采用深度分類學習通常能夠獲得更好的效果。在采用Siamese 網(wǎng)絡結構的方法(Varior等,2016;Ahmed等,2015;Cheng等,2016;Shi等,2016)中,Varior等人(2016)提出的Gated Siamese聯(lián)合長短注意力機制(long short-term memory)來學習不同分割部件之間的關聯(lián)。
深度分類學習采用圖像分類的方式訓練深度模型,即訓練深度模型鑒別訓練集上每幅圖像所屬的行人ID。當一個模型能夠在訓練集上很好地識別行人身份時,該模型往往嵌入了具有鑒別能力的特征空間。這種模型通常稱為IDE(identity discrminative embedding)模式。相比于深度度量學習,這種方式充分利用了標簽中含有的強監(jiān)督信息。Geng等 人(2016)、Zheng 等 人(2019a)、Xiao 等 人(2016)、Ustinova 等人(2017)、Zheng 等人(2021)和Dou 等人(2022)都采用了這種方法。在大規(guī)模數(shù)據(jù)集上,這種方式通常取得比深度度量學習更好的鑒別能力。然而,兩種方式本身是相互相容的,與在相近的人臉識別任務上取得的經(jīng)驗一致,將兩種方式聯(lián)合起來能夠互相強化,取得更好的特征學習效果。
除以上兩類方法外,不同方法還根據(jù)不同場景進行針對性設計來提升行人再識別的性能。史維東等人(2020)提出一種融合形變與遮擋機制的行人再識別算法,提高了網(wǎng)絡應對行人姿態(tài)改變以及遮擋問題的能力。鄭鑫等人(2020)提出了基于注意力機制和多屬性分類的行人再識別方法,采用全局分支和局部分支相結合的方法,關注具有顯著性特征的行人部件,忽略帶有干擾信息的其他部件,學習到了行人的顯著性特征,有效解決了行人遮擋和不對齊的問題。沈慶等人(2020)通過交錯卷積構建4 個分支來提取多分辨率的行人特征,既對行人不同粒度特征進行抽取,也對不同分支特征進行交互,對行人進行了高效的特征表示。
目前,行人再識別廣泛采用兩種評價指標,分別是累積匹配特征曲線(cumulative matching characteristic,CMC)和平均準確率均值(mean average precision,mAP)。
CMC 是圖像檢索中常用的一個評價指標,關注的是給定查詢圖像,在排序結果最相似的前N個結果中存在正確匹配這一事件的發(fā)生概率,簡稱前N選正確率(Rank-N正確率),或縮寫為R-N正確率(如R-1 正確率、R-5 正確率等)。對于同一個方法,CMC將返回一個隨N單調(diào)遞增的概率值。行人再識別采用排序方式返回查詢結果,可以看成一個檢索排序問題,因此采用CMC作為評價指標。
一般來講,mAP 指標關注召回率與準確率二者的兼顧能力??紤]mAP 的原因是,給定一個查詢圖像,當圖像庫中存在一幅以上的正確匹配時,CMC指標不足以完全反映方法在召回率方面的性能。例如,假設某幅查詢圖像能夠在首次檢索時就得到一個正確的匹配結果,但剩余的若干正確匹配卻難以召回,導致CMC 指標很高,卻并不能反映方法的綜合性能。而mAP 指標綜合考慮了準確率和召回率,是在準確率—召回率(precision-recall,PR)曲線基礎上計算得到,是PR 曲線下的面積值。
為了推進行人再識別問題的研究,研究人員構建了若干行人再識別數(shù)據(jù)集。常用的有Gray 等人(2007)提 出 的VIPeR,Li 等 人(2014)提 出 的CUHK03,Zheng 等人(2015a)提出的Market-1501,Ristani等人(2016)提出的DukeMTMC-reID和Wei等人(2018)提出的MSMT17等。
VIPeR 數(shù)據(jù)集含有632 個行人,共1 264 幅圖像。每個行人有兩幅圖像,分別采集自兩個不同攝像頭。視頻圖像中行人框的標注完全依靠手工完成。該數(shù)據(jù)集的測試方法隨機將632 對行人圖像進行分組,一半用于訓練,一半用于測試,重復10 次,得到平均結果。
CUHK03 數(shù)據(jù)圖像采集于香港中文大學,由6個攝像頭采集得到,共13 164 幅圖像,包含1 467 個行人,數(shù)據(jù)量遠大于此前公開的行人再識別數(shù)據(jù)集,是第1 個足以進行深度學習的大規(guī)模行人重識別數(shù)據(jù)集。除了數(shù)據(jù)規(guī)模外,還有以下特點:1)除了人工標注行人框外,提供了由行人檢測器DPM(deformable part model)獲得的行人框,使得到的圖像數(shù)據(jù)更接近真實場景。由于行人檢測器不準確,會導致得到的行人圖像存在偏移、遮擋、身體部位缺失等。2)數(shù)據(jù)采集自多個攝像頭。這意味著同一個行人出現(xiàn)在多個不同攝像頭下,采集到的圖像有更豐富的角度變換,使得識別難度增大。3)圖像采集時間持續(xù)數(shù)月。從而使得由于天氣變換引起的光照等因素變化更加豐富。該數(shù)據(jù)集的測試方法有兩種。一是隨機選出100 個行人作為測試集,1 160 個行人作為訓練集,100 個行人作為驗證集,重復20次。二是類似Market-1501的測試方法,將數(shù)據(jù)集分為包含767 個行人的訓練集和700 個行人的測試集,測試時隨機選擇一幅作為query,剩下作為gallery。
Market-1501 數(shù)據(jù)集是在清華大學校園中采集的視頻圖像。采集圖像時,架設了6 個攝像頭,包括5 個高清攝像頭和1 個低清攝像頭。數(shù)據(jù)集規(guī)模大于CUHK03 數(shù)據(jù)集,共拍攝到1 501 個行人,得到32 668 個行人矩形框。每個行人至少有2個攝像頭捕捉到,并且在同一攝像頭下可能采集多幅同一行人圖像。訓練集有751 人,包含12 936 幅圖像,平均每人17.2 幅圖像;測試集有750 人,包含19 732 幅圖像,平均每人26.3 幅圖像。數(shù)據(jù)集中,查詢圖像有3 368 幅,檢測矩形框由人工標注完成,而查詢庫中的行人矩形框由行人檢測器檢測得到,使用的行人檢測器也是DPM。
DukeMTMC-reID 是行人跟蹤數(shù)據(jù)集DukeMTMC 的一個子集。DukeMTMC 是行人跟蹤數(shù)據(jù)集,使用了8 臺攝像機獲取高清視頻數(shù)據(jù),錄制了7 000多個行人軌跡,包含2 700 多個行人。DukeMTMCreID 中包含1 404 個出現(xiàn)在多攝像頭下的行人和408 個只出現(xiàn)在一個攝像頭下的行人,數(shù)據(jù)集共提供36 411個行人框。數(shù)據(jù)集中702個行人的16 522 幅圖像用于訓練,另702 人的2 228 幅圖像作為測試時的query 圖,17 661幅圖作為gallery。
MSMT17 是一個涵蓋多場景多時段且更接近真實場景的大型行人再識別數(shù)據(jù)集,使用了15 個攝像頭在校園內(nèi)采集圖像,包括12 個室外攝像頭和3 個室內(nèi)攝像頭。監(jiān)控視頻選擇1 個月內(nèi)不同天氣的4 天,每天采集3 小時,包含早上、中午、下午3 個時段。數(shù)據(jù)集使用了更先進的行人檢測器Faster RCNN(regions with convolutional neural network),最終得到4 101 個行人的126 441 個行人框。與其他數(shù)據(jù)集相比有以下優(yōu)勢:1)包含更多行人ID、行人檢測框和攝像頭;2)更復雜的場景和背景內(nèi)容,包含室內(nèi)室外場景;3)多時段拍攝,光照變化劇烈;4)使用了更可靠的行人檢測器。
縱觀行人再識別數(shù)據(jù)集的發(fā)展可以看到,早期的數(shù)據(jù)集規(guī)模相對較小,隨著深度學習方法的出現(xiàn),對數(shù)據(jù)集規(guī)模要求越來越高,出現(xiàn)了CUHK03,Market-1501,DukeMTMC-reID 等更大規(guī)模的數(shù)據(jù)集,滿足深度學習模型訓練的要求。另外,數(shù)據(jù)集的采集使用更多的攝像頭,并且覆蓋更豐富的場景,更接近實際應用場景。
本文針對ReID 的幾個關鍵問題開展研究,包括特征優(yōu)化問題、特征配準問題和部分遮擋問題。
2.1.1 權向量相關性及其影響
在物體識別研究和應用中,通用做法是采用基于深度網(wǎng)絡的深度模型特征作為物體特征描述。通過理論上深入研究,發(fā)現(xiàn)雖然深度特征的鑒別性能有了提升,但是深度特征仍然存在冗余,而存在的冗余會影響特征的鑒別力。針對這個問題,本文提出基于深度網(wǎng)絡的特征空間正交優(yōu)化理論以及深度特征學習方法SVDNet(singular vector decomposition network)。通過對特征空間對應的權矩陣施加正交約束,可實現(xiàn)在深度特征學習中進一步降低特征冗余,提高特征鑒別力。在其他模式識別問題上也獲得了良好的效果,具有一般性科學意義。實驗結果表明,所提出的方法有效降低了投影向量之間的相關性,生成了更具鑒別性的全連接層(fully connnected,F(xiàn)C)描述子,顯著提高了行人再識別的準確性。
特征空間正交優(yōu)化的深度特征學習方法SVDNet 解決的問題點如圖3 所示。這些權向量位于卷積神經(jīng)網(wǎng)絡(convolutional neural network,CNN)的最后全連接層,例如CaffeNet 的FC8 或者ResNet-50(residual network)的FC 層。本文使用DukeMTMCreID數(shù)據(jù)集中的3個訓練ID 進行示例,分別是紅色、粉色和藍色著裝的女性行人。圖中綠色和黑色帶箭頭虛線所示的向量分別是兩個不同ID 的測試圖像在最終全連接層之前的特征。在一個基線CNN 模型中,紅色和粉色權向量高度相關,并對特征表達引入了有害的冗余。
圖3 權向量空間相關性及其負面影響的示例說明Fig.3 Illustration of weight vector spatial correlation and its negative effects
2.1.2 SVDNet的網(wǎng)絡模型
SVDNet 的網(wǎng)絡模型如圖4 所示。在最終FC 層之前,SVDNet 使用一個權向量互相正交的本征層(eigenlayer)作為特征表達層。在測試階段,本征層的輸入或輸出都可以用于特征表達。給定兩幅待比較的圖像xi和xj,本文用hi和hj表示它們在Eigen-Layer 之前的特征,用fi和fj表示經(jīng)EigenLayer 投影后的特征,并通過歐氏距離比較這兩幅圖像特征,具體為
圖4 特征空間正交優(yōu)化方法SVDNet的網(wǎng)絡模型Fig.4 Structure of the feature space orthogonal optimization method SVDNet
式中,U,S,V的定義在W=USVT中給出。由于V是一個單位正交陣,式(1)等效為
式(2)說明,使用W=USVT時,任意兩幅圖像特征之間的距離Dij保持不變。因此,在張弛迭代的步驟中,模型的鑒別力是100%保留的。
深度學習中的網(wǎng)絡模型龐大、參數(shù)冗余,在行人再識別任務中,由于訓練集規(guī)模相對較小,容易出現(xiàn)過擬合風險。通過分析特征表達層,發(fā)現(xiàn)這種參數(shù)冗余不僅不必要,甚至還會嚴重降低特征鑒別力。因此,采用特征表達層的權矩陣正交優(yōu)化方法,將特征表達層權矩陣解讀為特征空間一組模板,通過奇異值(singular value decomposition,SVD)分解,將模板正交化,降低特征之間的相關性;同時,設計了一種特殊的訓練方法——張弛迭代法,通過循環(huán)迭代“SVD 分解”、“保持正交微調(diào)”和“放棄正交微調(diào)”,不斷提高特征鑒別能力,取得了顯著的性能提升。SVDNet 方法與最高性能(state-of-the-art,SOTA)(截止2017 年5 月)的對比結果如表1 所示。模板可視化的結果如圖5 所示。將W視為輸入特征空間的模板,可以看到,在第1、2行的Baseline 模型中,隱含了一些不相關模板,但也隱含了大量相似的模板。第3 行的SVDNet 結果顯示,減少了冗余、豐富了模板,優(yōu)化了特征表達。同時,證明了該方法在圖像分類任務中具有一定的提升效果。
圖5 模板可視化結果Fig.5 Visualization of the templates((a)example A and four highly-correlated examples;(b)example A and four uncorrelated examples;(c)examples after our method)
提出的基于SVDNet的行人檢索方法,緩解了由于全連接層描述子間的相關性所導致的影響基于歐氏距離的檢索性能降低的問題。表1 的實驗結果表明,本文方法有效降低了投影向量之間的相關性,生成了更具鑒別性的全連接層描述子,顯著提高了行人再識別的準確性。CaffeNet 模型在Market-1501數(shù)據(jù)集上的Rank-1 準確度從55.3%提高到80.5%,ResNet-50的準確度從73.8%提高到82.3%(Sun等,2017)。
表1 SVDNet與最高性能的對比結果Table 1 Comparisons with state-of-the-art methods%
在行人再識別研究中,非剛體行人的特征配準對識別性能具有較大影響,是一個急需解決的瓶頸問題。為解決該關鍵技術問題,提出一種基于廣義部件的行人部件特征學習方法,包括部件特征學習結構(part-based convolutional baseline,PCB)和部件提純方法(refined part pooling,RPP),有效解決了行人再識別中準確定位、對齊各個部件的問題,可以減小部件檢測誤差,提高部件特征鑒別力,進而提高了行人再識別方法的性能。很多學術研究機構和公司將PCB 方法作為 baseline(Sun 等,2018)。
提出的使用部件級特征作為細粒度信息可用于行人圖像描述的方法。所提方法不使用姿態(tài)估計這樣的外部資源,而是考慮每個部件內(nèi)部的內(nèi)容一致性,實現(xiàn)了特征圖上的每個像素到部件特征的精確定位。實驗證明,所提方法可以使基線性能獲得提升。在Market-1501 數(shù)據(jù)集上,mAP 和Rank-1 的精度分別為(77.4 + 4.2)%和(92.3 + 1.5)%,較大程度超過了當時的最先進性能水平。
2.2.1 行人語義部件特征學習
為了挖掘行人身體結構信息、提高特征鑒別力,較為直觀的一種做法是針對各個語義部件提取特征。一般的做法是借助于額外的模型來定位人體的語義部件,如行人分割、關鍵點檢測等。然而這種做法對語義部件誤差非常敏感。為此,提出了利用非局部相似性(supervised non-local similarity,SNS)學習提高語義部件特征學習的方法,減輕背景的影響,學習更具鑒別力的部件特征。圖6 是設計的基于語義部件的行人部件特征學習模型。其中,具體創(chuàng)新包括:1)舍棄了直接利用噪聲較大的姿態(tài)估計或行人分解結果作為語義部件的方式,提出利用語義部件的中心點作為相對可靠的線索,搜尋更魯棒的語義部件。2)以每個語義部件的中心點為錨點,通過非局部相似性吸收其周圍特征并最終形成部件特征。3)在非局部相似性學習過程中,施加不同部件錨點互斥約束,使學到的部件特征同時在全局感受和局部感受中取得較好平衡,進一步提高特征鑒別力。在4 種常見語義部件檢測方法基礎上,均提高了re-ID 準確度,取得了有競爭力的re-ID 性能。表2是利用4 種不同精度方法檢測語義部件的結果??梢钥闯?,本文方法能穩(wěn)定提高re-ID 準確率,且對檢測噪聲更為魯棒。
表2 利用 4 種不同精度方法檢測語義部件的結果Table 2 Results about 4 methods regarding different accuracy/%
圖6 基于語義部件的行人部件特征學習模型Fig.6 A semantic part-based feature learning model for pedestrian parts
2.2.2 行人廣義部件特征學習
進一步研究發(fā)現(xiàn),可以舍棄語義部件這一直觀做法,以更高視角考慮學習部件特征的重要前提,即當同一個部件在不同圖像中總能很好地對齊,就可以成為很好的部件,而并不需要依賴人對“部件”的直觀理解。基于這樣的認識,通過研究行人廣義部件特征學習,提出兩種解決方案。
1)提出一種用于廣義部件特征學習的卷積神經(jīng)網(wǎng)絡模型PCB(part-based convolutional baseline)。PCB 具有良好的通用性,能夠使用各種部件提取策略學習廣義部件特征,并最終顯著提高行人再識別準確率。尤其是采用均勻分割時,模型結構簡潔,準確率相對于其他分割策略更高,刷新了國際領先水平。除此之外,PCB 結構簡單、在跨數(shù)據(jù)集場景下具有良好的泛化能力,能夠與多種損失函數(shù)相容,這些優(yōu)點保證了PCB能夠用做一個很好的行人部件特征學習基線方法。
2)提出一種弱監(jiān)督的部件提純池化RPP(refined part pooling)方法,通過提純初始部件進一步提高PCB 性能。提純之后,卷積特征上相似的列向量被歸納到同一個部件中,使每個部件內(nèi)部更加一致。給定各種不同的部件提取策略,RPP 都能夠有效提純初始部件并提高所學部件特征的鑒別能力。RPP在PCB基礎上進一步提高了性能。
在 PCB 模型中,輸入圖像經(jīng)過主干網(wǎng)絡的卷積層換成一個3D 的張量T。PCB 在T上提取p個部件并將各個部件中的列向量取平均,產(chǎn)生相應個數(shù)的列向量g。隨后,通過一個尺寸為 1 × 1 的卷積層將列向量g降維成列向量h。最后,列向量h被輸入到一個ID 分類器中。ID 分類器由一個全連接層及一個串聯(lián)其后的 Softmax 函數(shù)構成。在測試階段,將p個部件的特征串聯(lián)起來,形成輸入圖像的最終描述子。提出的PCB 模型如圖7 所示。圖8 是部件特征的卷積基線和部件提純池化方法結合后的部分結果示例。表3 給出了PCB 和RPP 在3 個公開數(shù)據(jù)集上的實驗結果。在Market-1501 數(shù)據(jù)集上,PCB&RPP 在baseline 的基礎上將R-1 指標提高了7.0%。在DukeMTMC-reID 數(shù)據(jù)集上,PCB&RPP 將baseline 的R-1 指標提高了4.0%,刷新了SOTA(state of the art)。PCB 能夠與各種部件提取特征合作,并且,均勻分割高效且準確。RPP能夠提純各種粗部件并提高re-ID 準確率。PCB&RPP 方法簡單有效,在實際場景中已經(jīng)得到應用,且有多個學術研究采用為baseline,在3 個大規(guī)模reID 數(shù)據(jù)集上刷新(2018年上半年)SOTA。
表3 部件特征的卷積基線和部件提純池化方法結合后的數(shù)值實驗結果Table 3 Experimental results of combining part-based convolutional baseline and refined part pooling/%
圖7 基于部件特征的卷積基線模型Fig.7 Part-based convolutional baseline (PCB)model
圖8 部件特征的卷積基線和部件提純池化方法結合后的部分結果示例Fig.8 Results of combining part-based convolutional baseline and refined part pooling
針對實際行人再識別系統(tǒng)中大量行人被部分成像(部分圖像缺失)問題,Sun 等人(2019)提出了感知區(qū)域可見性的部件特征學習方法。這種思路對應的方法稱為感知可見性的部件特征模型(visibilityaware part model,VPM)。該方法創(chuàng)新及特色主要有3 點:1)將部件特征學習引入到部分成像行人再識別問題,使該問題也受益于細粒度特征;2)提出感知區(qū)域可見性的部件特征學習,在提取部件特征的同時,預測部件可見性,從而能夠在比較兩幅圖像時聚焦在它們共同的區(qū)域;3)區(qū)域可見性能力的學習采用自監(jiān)督,特征學習過程也受到自監(jiān)督輔助。該方法不僅刷新了部分成像條件下的行人再識別國際領先水平,還具有計算高效的特點。在多個partial re-ID 數(shù)據(jù)集上刷新SOTA。研究成果在CVPR2019 發(fā)表。圖9 是本文設計的VPM 網(wǎng)絡模型。首先,在完整行人圖像上定義p=m×n個緊密排列的矩形區(qū)域(圖中以p= 3 × 1 作為示例)。訓練時,VPM 將一個部分行人圖像縮放到固定尺寸,并將其輸入到層疊的卷積層中以生成 一個3D 張量T。再通過一個區(qū)域定位器進行像素級別的區(qū)域分類。具體地,區(qū)域定位器預測每個像素g屬于各個區(qū)域的概率,從而產(chǎn)生p個概率分布圖。得到概率分布圖之后,VPM 在張量T上使用帶權平均操作,為每個區(qū)域提取區(qū)域特征,并將各個概率分布圖通過求和產(chǎn)生相應的區(qū)域可見性得分。測試時,VPM 作為一個整體,輸出p個區(qū)域特征以及同等數(shù)量的可見性得分。表4給出了VPM在兩個公開數(shù)據(jù)集上的實驗結果。在Partial-REID數(shù)據(jù)集上,本文方法在R-1 指標上超過了SFR(spatial feature reconstruction)10.8%。
表4 可見性感知模型VPM 的數(shù)值實驗結果Table 4 Results of visibility-aware part model/%
圖9 可見性感知模型Fig.9 Visibility-aware part model
經(jīng)過更進一步研究,針對深度神經(jīng)網(wǎng)絡提取特征的主流框架,提出一種基于特征對齊的深度表達方法,在特征圖層實現(xiàn)配準(feature alignment layer,F(xiàn)AL),初步解決了行人再識別中的特征配準問題。
針對行人再識別問題中存在的兩個問題在方法上進行創(chuàng)新和改進。1)輸入圖像中不可避免存在背景噪聲,影響行人特征提取;2)由于行人檢測器不準確,導致圖像中行人位置存在偏移,無法位于圖像正中央。相應地,主要做了3 個工作,分別為:結合分割的行人再識別方法、基于特征校正層的行人再識別方法和基于自監(jiān)督特征校正層的行人再識別方法。前一個方法很直接地引入了額外的分割信息作為輔助,后兩個方法是基于注意力機制的方法,使網(wǎng)絡關注圖中更有鑒別力的區(qū)域,取得性能上的提升。
結合分割的行人再識別方法主要是針對消除背景噪聲提出的,設計了一個兩路神經(jīng)網(wǎng)絡結構用于提取行人特征。網(wǎng)絡的兩路分別用于提取原圖特征和分割后的圖中前景(行人)部分特征,最后將兩路特征進行融合,作為最終的特征表達。這樣得到的特征既包含整幅圖的特征,又包含專門針對前景部分的特征。整幅圖的特征能彌補由于分割丟失的部分細節(jié)信息,前景特征能夠抑制背景引入的噪聲。另外,為了得到分割結果,在自行構建的行人分割數(shù)據(jù)集上訓練了一個行人分割網(wǎng)絡。實驗證明,結合分割的行人再識別方法能有效提高行人再識別準確率。但是,該方法依賴額外的分割結果,并且兩路網(wǎng)絡使訓練和測試的計算代價增大。
基于特征校正層的行人再識別方法能夠同時解決背景噪聲和行人位置偏移的問題,該方法是一種基于注意力機制的方法。如圖10 所示,本文提出了一個特征校正層,該層能主動關注到特征圖中感興趣區(qū)域。
圖10 基于特征層對齊的深度表達方法在特征圖層實現(xiàn)框架Fig.10 Framework for the feature alignment layer
通過對特征圖進行像素級重排列將感興趣區(qū)域校正到特征圖中心,同時對感興趣區(qū)域進行拉伸,使其盡可能充滿整幅特征圖,抑制背景部分特征。特征校正層能插入到已有的卷積神經(jīng)網(wǎng)絡中,且網(wǎng)絡依然能完成端到端訓練。實驗證明,與結合分割的方法相比,基于特征校正層的方法的識別效果更優(yōu),且不會引入太多的額外計算開銷。另外,與已有的其他行人再識別方法進行比較,該方法的性能與其他最好方法的性能相當。
基于自監(jiān)督特征校正層的行人再識別方法是在特征校正層基礎上進一步改進。特征校正層是基于注意力機制的方法,與以往其他基于注意力機制的方法一樣,完全依賴網(wǎng)絡自主去學習和關注到圖中重要的區(qū)域。提出的自監(jiān)督特征校正層,則通過自監(jiān)督的方式指導網(wǎng)絡學習過程,從而使網(wǎng)絡能更好地關注到特征圖中有鑒別力的區(qū)域。具體做法是從原始圖象中隨機裁剪出若干幅圖像作為網(wǎng)絡輸入圖,根據(jù)這些輸入圖在原圖中的位置信息和特征校正層輸出的目標位置圖得到注意力損失函數(shù),從而監(jiān)督和指導特征校正層的訓練。最終實驗結果表明,引入自監(jiān)督機制后,特征校正層能更準確地關注到感興趣區(qū)域,從而進一步提升識別準確率。
提出的特征對齊層方法,實現(xiàn)了能同時緩解目標的不對齊和背景噪聲所造成的性能影響。在實驗中,本 文 方 法 在Market-1501、DukeMTMC-reID 和CUHK03 三個行人再識別數(shù)據(jù)集上,與最先進的方法相比,產(chǎn)生了具有競爭力的結果。同時,該方法提高了CUB-200-2011 上具有競爭力的細粒度識別基線(Xu等,2018)。
針對行人再識別中存在的幾個關鍵問題,本文提出了相應的解決方案。1)針對在學習過程中,深度特征存在的冗余問題,提出了基于深度網(wǎng)絡的特征空間正交優(yōu)化理論。通過對特征空間的權矩陣施加正交約束,降低了特征冗余,提高了特征鑒別力。2)針對行人再識別中存在的特征粒度大,無法對行人進行精細的描述以及非剛體行人造成的特征配準問題,提出了基于語義部件學習的再識別方法。該方法能夠學習到細粒度的部件特征。此外,提出了非局部相似性學習來提純部件特征,提高特征的鑒別力。在檢索時,通過計算對應部件之間的相似性,實現(xiàn)了特征的配準。3)針對圖像中行人信息不完全問題(遮擋和部分成像),提出了感知區(qū)域可見性的部件特征學習方法。該方法在提取部件特征的同時預測部件的可見性,從而能夠在比較兩幅圖象時,聚焦在它們共同的區(qū)域,減小了遮擋和部分成像問題帶來的影響。同時,提出了基于特征對齊的深度表達方法,解決了行人再識別中的特征配準問題。
盡管針對行人再識別的幾個關鍵問題提出了相應的解決方法,并取得了一定的效果,但在復雜的現(xiàn)實場景中,再識別性能仍然不佳。原因在于,目前的行人再識別技術主要依賴行人的服裝信息,未能從多視角表觀信息對行人形成綜合性的觀測描述。同時,對行人的綜合感知能力也是類人智能體的需求之一。由此,本文提出人像態(tài)勢計算的新思路。
雖然行人再識別研究取得了一定進展,但也開始遇到瓶頸。除了前面提及的特征優(yōu)化、部件對齊和遮擋問題之外,不同ID 的行人穿著相似或相同服裝的情況和同一個ID 的行人穿著不同服裝的情況對現(xiàn)有的行人再識別技術來說是一個難以攻克的技術壁壘。人類具有綜合感知能力,可以從多視角表觀信息中對目標物形成觀測描述。想象一下,在街上遇到一位即使看不清面孔的熟悉朋友,會下意識地立即完成感知:這位朋友是誰誰誰。進一步泛化推廣,看到一位行人,除了服裝信息之外,還會感知更加全面的信息,男士還是女士?年齡有多大?體型如何?也能注意到其狀態(tài),例如姿勢;并且通過面部表情還可以感知其心理狀態(tài)。盡管以往的ReID方法利用單一任務模型中可能包含了隱式的觀測信息,但現(xiàn)階段特征的解耦是一道無法跨越的難題。因此,以往的ReID方法無法解決上述問題。
自深度學習出現(xiàn)突破以來,計算機處理許多特定任務的能力已超過人類。例如,面部識別系統(tǒng)可以從數(shù)億人臉中找到目標人。另一方面,這些能力與開發(fā)類人智能體所需的能力并不完全吻合。朝著通用人工智能的目標,許多嘗試也在進行中。在總結了行人再識別的發(fā)展后,本文提出了人像態(tài)勢計算這一新課題,專注于如何實現(xiàn)綜合感知能力,試圖將人類“在街上遇到朋友”時表現(xiàn)出的感知能力賦能到機器上。又如在圖像分割領域,基于綜合感知思想的任務包括全景分割,它結合了語義和實例分割。而在計算機視覺和自然語言處理的交叉領域,視覺問答具有相似的特點。從“遇到朋友”的實例中,發(fā)現(xiàn)與該過程相關的現(xiàn)有任務包括行人屬性識別和行人再識別。那么新問題是:應該以什么方式組合這些任務?通過引入人像態(tài)勢計算,機器智能提供了一個多視角的觀測和描述。人像態(tài)勢計算是基于人類對人的整體觀測、感知和描述。為了構建計算模型,將其定義為像態(tài)、形態(tài)、神態(tài)和意態(tài)4 個要素。為支撐人像態(tài)勢計算的研究,進一步推進行人再識別研究的進展,本文構建了數(shù)據(jù)集Portrait250K,用于人像態(tài)勢計算研究。在Portrait250K 數(shù)據(jù)集中,重點標注了像態(tài)、形態(tài)和神態(tài)要素。每個要素都包含若干子任務,包括各種屬性識別任務。由于現(xiàn)有的行人再識別屬于對像態(tài)的感知,故也將人像態(tài)勢計算稱為ReID2.0。
以人為中心的研究是計算機視覺領域的熱點,近幾年在人機交互、智能安防和醫(yī)學健康等領域獲得了重要進展和諸多應用。引入人像態(tài)勢計算這一任務,意圖在于以行人再識別研究為基礎實現(xiàn)對人的全面觀測和描述。
3.2.1 與人像相關的任務
一個與人像態(tài)勢計算相關的任務是行人屬性識別(pedestrian attribute recognition,PAR),其目的是預測目標人物的屬性。PAR 的現(xiàn)有方法包括Jia 等人(2021)為代表提出的視覺注意力機制,Bourdev 等人(2011)設計的身體部件劃分方法和以 Wang 等人(2016)為代表設計的屬性關系挖掘方法等。雖然這個任務已經(jīng)得到了一定的研究和討論,但在存在視角變化、可變光照、低分辨率、遮擋和模糊等情況下仍然是困難的。人像態(tài)勢計算與PAR 的核心區(qū)別在于,前者是從多個相對獨立的方面來分析人像。近10 年來,提出了許多用于PAR 的數(shù)據(jù)集,但都不能滿足人像態(tài)勢計算的需要。
除了與屬性識別相關的任務外,行人再識別(ReID)也是人像態(tài)勢計算的子任務之一。行人再識別的典型基線方法通過測量查詢圖像和圖庫圖像的特征向量(在復雜模型中可能不止一個)之間的距離來進行檢索。與許多其他視覺任務一樣,好的ReID 模型的關鍵是學習良好的表征。顯然,如果模型能夠獲得更多的監(jiān)督來幫助學習更好的表征,例如人像的各種屬性,將有助于提高性能。
3.2.2 多任務學習
現(xiàn)實世界中的任務在很多情況下是相互關聯(lián)的,多任務學習(multi-task learning,MTL)試圖同時解決多個任務以獲得更好的泛化性能。此外,任務之間不相關的信息也有助于減少過擬合。人像態(tài)勢計算關注各種側面的態(tài)勢和其子任務之間的關聯(lián)關系。MTL的研究主要集中在結構設計和優(yōu)化方法兩個子問題上。為MTL 設計網(wǎng)絡結構的本質是使不同任務之間共享子網(wǎng)和參數(shù),主流策略大致可以分為兩類,即硬共享(如 Hu 和Singh(2021)設計的方案)和軟共享(如 Gao 等人(2019)設計的方案)。硬共享方法將整個模型分為兩部分,靠近輸入的子網(wǎng)由所有任務共享,然后為每個任務獨立分支出模塊。軟共享方法通常對于每個任務都有端到端的獨立模塊,而這些模塊可以在網(wǎng)絡的不同階段進行交互。對于多任務產(chǎn)生的多個損失,獲得總損失的最簡單方法是手動為其分配權重。一種更靈活有效的方法是根據(jù)任務的不確定性來計算權重。
行人再識別研究經(jīng)歷了約10 年的高速發(fā)展,學術上取得了初步成果,少數(shù)應用落地。但仍然存在尚未解決的一些問題,促使對ReID 問題進行進一步的思考。場景中,同一ID 不同服裝的ReID 如何解決?不同ID 同一服裝的ReID 如何解決?此外,隨著ReID 的發(fā)展,如何實現(xiàn)深度人像描述?在以人為中心的理念指導下如何觀測和感知人的全面狀態(tài)表征?這些都是需要研究的課題。
人像態(tài)勢是構建深度人像描述的一個途徑,包含人的像態(tài)、形態(tài)、神態(tài)和意態(tài)。像態(tài)表征人臉和生物特征的表觀信息;形態(tài)表征人體的靜止和序貫體型體態(tài)信息;神態(tài)表征人臉的面部表情和情緒信息;意態(tài)表征行為過程和意圖預測。按照這個范式定義,構成人像態(tài)勢計算的內(nèi)涵。在人機交互和智能安防中,人是核心關鍵的要素。
像態(tài)感知兩個維度,一是對感知對象的物理特征進行精準認知,以表達顏色、尺寸等;二是對這些特征組合的表象進行屬性描述,以表達是什么,如人臉、行人及其屬性。像態(tài)包含人臉、性別、年齡以及行人外表等表觀特征。
形態(tài)感知兩個維度,一是對感知對象的靜止肢體特征進行認知,以表達動作、姿態(tài)等;二是對感知對象的肢體變化特征進行描述,以表達做什么,如步態(tài)、奔跑和逆行等。形態(tài)包含多種人體肢體特征,如姿態(tài)、體形、體態(tài)和步態(tài)等。
神態(tài)感知人的表情、微表情和情緒。一是對感知對象的面部表情特征進行認知,以表達如喜怒哀樂;二是對感知對象的面部神色特征進行描述,以表達其內(nèi)心的波動、思想的意識和精神的狀態(tài),通常不為人的意志所控制。神態(tài)主要用于表達人的內(nèi)心狀態(tài),如神態(tài)自若、神色慌張和精神恍惚等。
意態(tài)體現(xiàn)人的行為動作和意圖,主要體現(xiàn)在基于前三態(tài)識別的邏輯推理而進行計算,且與相關信息有關聯(lián)。對感知對象行為意圖、目標和后果的顯性特征進行認知;對行為的意圖、目標和后果背后的隱性特征進行認知,以預測趨勢,進而判斷與其他事件的關聯(lián)、影響及可能后果。意態(tài)的顯性特征認知較為容易實現(xiàn),意態(tài)的隱性特征認知難度較大,但在實際的事件預測中是不可缺少的。
綜上所述,基于行人再識別和人像屬性識別,本文提出了人像態(tài)勢分析,并為觀察人像設計了4 個層次,希望達成機器視覺對人像高層次的、全面的分析和理解。
目前由于人像態(tài)勢識別的難度大,完全按照上述四態(tài)構建數(shù)據(jù)集條件尚不成熟。為此,本文構建了一個人像態(tài)勢計算基準數(shù)據(jù)集。收集了來自各國的51 部電影和電視劇的250 000 幅人像,并手工標記了8種標簽,對應8個子任務。圖像和標簽的分布表現(xiàn)出現(xiàn)實世界中自然存在的許多特征,包括但不限于長尾分布或不平衡分布、多樣的遮擋、截斷、光照變化以及服裝、妝容和背景環(huán)境的變化。為了獲得人像邊界框,使用了多目標跟蹤技術。多目標跟蹤旨在連續(xù)地估計視頻中對象的邊界框和身份。Wang 等 人(2020)提 出 的 JDE(jointly learns the detector and embedding model)模型聯(lián)合輸出檢測結果和相應的表征,是一個簡潔快速的系統(tǒng)。提取JDE 模型每隔一些幀輸出的邊界框,最終獲得250 000幅分辨率為256 × 128 像素的圖像。這些圖像需要標記身份、性別、年齡、體型、身高、表情以及全身和手臂姿勢的標簽。十幾位專業(yè)的標注員完成了對這些圖像的8 個標簽的人工標注。為了減少不同標注員主觀判斷的影響,每個標注員只標注一個屬性,因此每個屬性只有一個或兩個標注員標注。圖11 展示了數(shù)據(jù)集中的部分圖像以及對應標簽。
1)半監(jiān)督的ID。訓練集和庫集中沒有ID 標簽的圖像分別有86 516 和57 724 幅,占總數(shù)的60%以上。其中,大多數(shù)不是無法識別而是不屬于重要角色,標注員沒有提供ID標簽。
2)多標簽表情分類。由于面部表情的復雜性,本文給少量的圖像賦予了多個表情標簽,使得這里的表情分類任務成為一個多標簽問題。
3)長尾、不平衡分布。每個ID 擁有的圖像數(shù)量呈現(xiàn)出顯著的長尾分布,并且其他屬性的每個標簽之間的樣本分布也嚴重不平衡。其他工作可能使用不平衡因子,即最大類中的樣本數(shù)除以最小類的樣本數(shù)來表示長尾分布的嚴重程度。而在Portrait250K 中,長尾分布是自然形成而非人為構建的,上述不平衡因子會忽略除極端情況外的其他類別,因此沒有參考價值。經(jīng)濟學中使用基尼系數(shù)來判斷收入的公平性,但無法更詳細地描述分配情況。本文設計了LTSk(long tail score)(k比例的長尾分數(shù))指標來衡量長尾分布的嚴重程度。具體為
式中,x是長度為N的布爾向量,y記錄了每個標簽對應的樣本數(shù)。N是標簽的數(shù)量,1-范數(shù)代表元素和。LTSk表示頭部樣本占所有樣本的比例為k時,頭部樣本的富集程度。值越接近0 表示富集越嚴重。本文計算了再識別領域的基準數(shù)據(jù)集Market-1501 和本文的Portrait250K 關于LTS0.2的數(shù)值,結果如表5 所示。很明顯,Portrait250K 有更嚴重的長尾分布。對于其他再識別數(shù)據(jù)集也是如此,因為它們都是以類似的方式收集的。
表5 人像態(tài)勢數(shù)據(jù)集的長尾分布(LTS0.2指標)Table 5 Long-tail distribution of our dataset
為了衡量模型的性能,實現(xiàn)評估和比較,并突出人像態(tài)勢計算研究的初衷,本文為每個子任務設計了指標,并提出一個統(tǒng)一的度量標準,將所有8 項任務的評測指標整合在一起來評估模型的整體性能,稱為態(tài)勢分析質量(portrait interpretation quality,PIQ)。PIQ 反映了本文的系統(tǒng)性視角,為每個子任務合理分配權重。此外,本文在多任務學習的范式下設計了一個基線方法,并專注于多任務表示學習,提出了特征空間分離方案以及一個簡單的度量學習損失。最后,通過實驗證明了人像態(tài)勢計算研究的可行性和優(yōu)越性。
接下來,首先介紹每個子任務的度量標準,然后描述基于每個子任務的度量標準的 PIQ 計算。
1)再識別人物評測指標。再識別任務常用的評估指標是 CMC曲線和mAP,二者都是通過對查詢集中所有樣本的性能進行平均來計算的。當查詢集中的樣本幾乎均勻分布在每個ID 中時,這是相當合理的,這也是Market-1501等常用再識別數(shù)據(jù)集的實際情況。但在包括Portrait250K 在內(nèi)的更一般情況下,在大規(guī)模查詢集中不同ID 上的樣本分布不平衡時,上述指標會增加頭部ID 的權重。如果查詢圖像在ID之間均勻采樣,查詢集的大小將受到尾部 ID大小的限制,從而導致測試集不夠充分。針對這個問題,本文提出了Macro CMC 和Macro mAP。與CMC 曲線和mAP 的不同之處在于,Macro CMC 和Macro mAP會先計算查詢集中每個ID 的平均性能,然后在所有ID之間取平均值。
再識別任務旨在執(zhí)行跨域目標檢索。但是,由于電影拍攝中常用的固定鏡頭技術,即使在連續(xù)的幾幀中只選擇一幀,也會有很多相似的幀。類似的幀對除ReID 以外的任務沒有太大影響。與去除它們相比,保留這些相似的幀在某種程度上相當于數(shù)據(jù)增強。但是對于再識別任務,如果在圖庫集中存在任何查詢圖像的相似幀,則該查詢將成為一個簡單的樣本,因為模型只需要將相似圖像映射到嵌入空間的鄰近點,這會影響評估的有效性。其他再識別數(shù)據(jù)集不存在這個問題,因為其測試集是由不同相機拍攝的圖像組成的。
為了解決這個問題,需標記出相似的圖像。這里,本文使用了感知哈希算法,它可以為每幅圖像生成一個哈希值,通過計算它們對應的哈希值的漢明距離可以衡量兩幅圖像的相似度。本文將相似度超過閾值的圖像標記為一組,并且在測試期間不考慮與查詢在同一組中的圖庫圖像。
2)分類任務評測指標。對于分類任務,由于樣本在不同標簽上的分布不平衡,通常使用 F1-score,即精確率和召回率的調(diào)和平均值進行評估。與Macro CMC 和Macro mAP 類似,本文使用 Macro F1-score。
3)PIQ 指標。性別、年齡、體型和身高分類是關于像態(tài)的任務,身體和手臂動作分類是關于形態(tài)的任務。統(tǒng)一的度量指標 PIQ 平等地考慮態(tài)勢分析的3 個方面,即給每個方面分配相同的權重。不過需要注意的是,再識別任務雖然屬于像態(tài)感知,但相對獨立且重要,所以將其獨立出來。PIQ 的計算式為
式中,ReID表示再識別任務的指標,采用Macro Rank-1 和Macro mAP 的平均值。App表示像態(tài)分析的度量指標,采用性別,年齡,體型和身高的F1-score 的平均值。Pos表示形態(tài)分析的度量指標,采用上肢動作和身體動作的F1-score 的平均值。Emo表示神態(tài)分析的度量指標,采用表情分類的F1-score。
本文為人像態(tài)勢分析任務設計了一種基線方法FSS(feature space split),如圖12 所示。提出的框架使用HRNet-W32(high-resolution network)作為統(tǒng)一的特征提取器,將得到的特征向量按照3 種態(tài)勢進行劃分,為每個任務對應的分類器提供不同的特征向量。同時,使用帶有度量學習損失的BNNecks(batch normalization neck)來改善類別之間的區(qū)分。
圖12 人像態(tài)勢分析的基準方法Fig.12 Baseline method for portrait interpretation
本文認為各個態(tài)勢的表示是自然獨立的,因此將特征空間劃分為3個子空間,分別存儲來自3個態(tài)勢的信息。這種說法很容易成立,因為像態(tài)相同的人(同一個人)可以做出不同的姿勢或有不同的情緒,反之亦然。在實踐中,本文直接將主干網(wǎng)絡輸出的特征向量分為3 部分。對于每一個子任務,性別、年齡、體型和身高的分類都屬于像態(tài)感知,但它們之間并不相關,所以它們會對應像態(tài)特征向量中不相交的部分。再識別任務只關注與身份相關的信息,也就是與像態(tài)相關的信息。所以它使用的特征向量就是分配給像態(tài)的特征向量,包括相關子任務的維度和一些沒有分配給任何子任務的維度。通過引入有關各種屬性的信息,可以通過更多的監(jiān)督來指導再識別任務,從而提高性能。對于形態(tài),身體和手臂動作分類是相對相關的任務,所以本文讓這兩個任務共享一些維度,而每個任務都有自己獨立的維度。神態(tài)感知只有一個子任務,因此無需進一步劃分。
對于一個分類任務,更多的標簽通常需要更復雜的特征空間來使其可區(qū)分,所以本文讓每個任務對應的特征向量的維數(shù)與相關標簽的數(shù)量成正比。
度量學習可以幫助模型學習到更好的表示,在細粒度圖像分類、人臉識別和再識別等領域有很多應用。利用度量學習損失,同一類別的樣本在特征空間被拉近,否則被推開。本文對特征向量計算各種度量學習損失以提高類間區(qū)分性能。
使用上述基線方法,本文最終獲得的PIQ 性能為0.495。其中,ReID 任務的Rank-1 和mAP 分別為0.351 和0.536,性別、年齡、體型、身高、全身姿勢、手臂姿勢和表情分類任務分別為0.823,0.685,0.444,0.650,0.561,0.530,0.340。具體結果見表6??梢钥闯觯鄬τ趩稳蝿栈€和簡單多任務基線,本文的方法獲得了更好的結果,證明了人像態(tài)勢分析任務的可行性和優(yōu)越性。實驗結果也體現(xiàn)了本文提出的數(shù)據(jù)集的難度。
表6 人像態(tài)勢數(shù)據(jù)集基線方法數(shù)值實驗結果Table 6 Experimental results of the baseline method of portrait interpretation
行人再識別是計算機視覺研究領域當前公認的挑戰(zhàn)性前沿課題,具有重要的理論研究和應用價值。針對行人再識別中的理論和關鍵技術已經(jīng)開展了近10 年的研究,取得了一定的研究成果。行人再識別技術的突破,初步解決了跨視域攝像機行人目標跟蹤的瓶頸問題,推動了智能視頻安防應用。
非剛體非合作目標同時產(chǎn)生時變與形變,大類內(nèi)方差,小訓練樣本,要求高泛化能力,視角變化大,光照影響嚴重。針對上述問題,本文重點在特征表達理論上開展創(chuàng)新研究,對行人的鑒別性特征進行深入研究。針對目前物體識別中普遍采用的深度網(wǎng)絡特征仍然存在冗余進而影響特征鑒別力的問題,提出了基于深度網(wǎng)絡的特征空間正交優(yōu)化理論。針對非剛體行人的特征配準這一瓶頸問題,提出了一種基于廣義部件的行人部件特征學習方法,并提出一種特征圖層配準方法,有效解決了非剛體行人再識別中的特征配準問題。
現(xiàn)有的關于人像的研究在行人屬性識別和行人再識別等問題上取得了一定成果,但總體而言仍存在不足。1)缺乏挖掘各種任務之間的相互關系及其可能帶來的好處;2)針對每個任務專門設計深度模型,效率偏低;3)無法應對實際場景中統(tǒng)一模型和全面綜合感知的需求。對此,在前期行人再識別研究的基礎上,本文對人像態(tài)勢計算ReID2.0進行研究,并構建Portrait250K 基準數(shù)據(jù)集。人像態(tài)勢計算從一個新的系統(tǒng)性角度詮釋了針對人像的多視角觀測和感知。基于多任務學習的框架,人像態(tài)勢計算對人像的靜態(tài)屬性和動態(tài)狀態(tài)進行綜合觀測和描述。本文構建的Portrait250K 數(shù)據(jù)集包含250 000 幅標記了身份、性別、年齡、體型、身高、表情以及全身和手臂姿勢的圖像。此外,本文為這項任務提出了評價指標PIQ,為人像態(tài)勢計算的進一步研究提供了參考。