蔡江琳,韓華,王春媛,潘欣宇,芮行江
(上海工程技術(shù)大學(xué) 電子電氣工程學(xué)院,上海 201620)
行人重識別的目的是在配備多臺攝像機、且視野不交叉的環(huán)境中找到具有相同身份的目標(biāo)行人。當(dāng)目標(biāo)行人穿過某臺攝像機視野時,可以在另一臺攝像機下找到相同身份的人。當(dāng)前的行人重識別多是基于2 類:基于圖像的行人重識別[1-7]和基于視頻的行人重識別[8-12]。從傳統(tǒng)的特征提取方法和度量學(xué)習(xí)方法、到利用卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練模型,基于圖像的行人重識別模型已經(jīng)取得了很高的識別準(zhǔn)確度。但在實際的監(jiān)控視頻中,由于行人的許多不確定因素,例如光照、遮擋、姿態(tài)變化等,導(dǎo)致監(jiān)控跟蹤失敗,基于圖像的二維特征很難解決這些問題。而不同于圖像重識別的是,基于視頻的行人重識別的研究對象是行人軌跡,包含了行人更多的時空信息,連續(xù)的幀圖像之間有著密切聯(lián)系。當(dāng)前基于視頻的行人重識別技術(shù)已取得有效的成果。例如,Times Shift Dynamic Warping(TSDTW)[13]模型通過對每個行人的時空動態(tài)信息進行編碼來生成一種潛在的特征表示,解決不準(zhǔn)確和不完整序列的選擇和數(shù)據(jù)匹配問題。又如一種頂推度量學(xué)習(xí)模型[9],是通過優(yōu)化最小類內(nèi)的變化來提高top rank 中行人重識別的準(zhǔn)確度。再如,采用一種視頻排序函數(shù)[14]方法,在排序的同時可以從含噪或者不完整的視頻序列中選擇可靠的時空特征。上述的視頻重識別技術(shù)多是采用有監(jiān)督的學(xué)習(xí)方法,但是在實際的場景中,往往不具有可測量性和實際性。為此,基于半監(jiān)督[1,12]和無監(jiān)督[13-19]的學(xué)習(xí)方法開始得到更多的關(guān)注。
當(dāng)前由于無監(jiān)督學(xué)習(xí)存在的一些固有性質(zhì),導(dǎo)致無監(jiān)督模型的性能比有監(jiān)督模型差。而事實上,這些基于視頻研究的無監(jiān)督模型不能有效地利用深度卷積神經(jīng)網(wǎng)絡(luò)[20](deep Convolutional Neural Networks)強大的特征學(xué)習(xí)能力,獲取具有表達性的特征和具有判別力的匹配模型。主要是因為無標(biāo)簽數(shù)據(jù)集中并不具備有效的監(jiān)督信息供模型訓(xùn)練。在基于深度神經(jīng)網(wǎng)絡(luò)的行人重識別中,常用三元組損失函數(shù)作為度量模型損失的方法。而對于無監(jiān)督學(xué)習(xí)則需要模型自主挖掘三元組用于損失計算。本文中,基于無監(jiān)督學(xué)習(xí)挖掘三元組方案的主要內(nèi)容有:
(1)單相機內(nèi)的時空一致性,每條行人軌跡中的圖像都屬于同一個ID,目的是利用構(gòu)成軌跡的圖像更新軌跡特征。
(2)從無標(biāo)簽數(shù)據(jù)集中挖掘三元組,設(shè)計一種自適應(yīng)加權(quán)的條件、即三元組損失函數(shù),動態(tài)調(diào)整正負(fù)樣本對之間的距離,提高模型性能。
單相機內(nèi)關(guān)聯(lián)學(xué)習(xí)的目的是為了學(xué)習(xí)具有判別力的單相機軌跡特征?;趩蜗鄼C內(nèi)的時空一致性如圖1 所示。
圖1 單相機內(nèi)的時空一致性Fig.1 The spatio-temporal consistency with a single camera
研究中,將圖1 中的行人軌跡定義為源軌跡,假設(shè)攝像機k下有Nk條小片段軌跡,則所有錨樣本軌跡的特征集合為構(gòu)成源軌跡中的任一幀圖像特征表示為xk,p。而單相機內(nèi)的時空一致性則意味著來自同一條軌跡的大多數(shù)圖像都表示同一個行人,因此構(gòu)成源軌跡中的任一幀圖像與該軌跡間的特征距離會比該幀圖像與其它軌跡間的特征距離小。
1.1.1 軌跡特征表示方法
由圖1 可知,這里的行人軌跡是由連續(xù)的圖像幀構(gòu)成。每條軌跡包含了同一行人的多張連續(xù)圖像,為此可以提取行人豐富的時空信息,使學(xué)習(xí)到的行人特征更加具有表達力。當(dāng)前的許多軌跡特征處理方案多是利用卷積神經(jīng)網(wǎng)絡(luò)中的時間池化層,例如最大池化層[21](max-pooling)、或是平均池化層[10](mean-pooling),將小片段軌跡表示成一種序列級的特征。但是,這種方法在網(wǎng)絡(luò)學(xué)習(xí)的過程中需要大量的計算成本,因為每個小批量學(xué)習(xí)迭代中都要用到前饋(feed-forward)軌跡中的所有圖像,會造成時間浪費。為此,在模型訓(xùn)練過程中,將小片段軌跡表示成ak,i,并采用指數(shù)滑動平均的方法(EMA),通過構(gòu)成該軌跡中的任意幀圖像xk,p來更新軌跡特征。進而推得的數(shù)學(xué)公式可寫為:
其中,i=p表示更新軌跡的圖像是源軌跡中的任意幀圖像;t表示小批量樣本集訓(xùn)練迭代的次數(shù);τ是向EMA 提供的衰減率參數(shù),通常用來控制模型的更新速度相當(dāng)于一個影子變量,其初值可表示為構(gòu)成ak,i這條軌跡的所有圖像幀的特征均值,最終目的是獲取更新后軌跡特征值
由于軌跡特征ak,i和圖像特征xk,p之間存在尺度和單位的差異,研究中采用l2對其進行歸一化,例如,采用指數(shù)滑動平均的算法來更新軌跡,究其原因就在于對滑動窗口中的值求平均時,前面的值都是呈指數(shù)衰減的,導(dǎo)致原來的值對更新后的值產(chǎn)生的影響減少,而最近的值權(quán)重更大,從而使滑動均值只與最近的迭代有關(guān)系。當(dāng)ak,i初始化為所有圖像的特征均值并根據(jù)式(1)進行迭代更新時,單相機內(nèi)的錨樣本會伴隨著模型學(xué)習(xí)的過程持續(xù)學(xué)習(xí)來表示每條軌跡。
1.1.2 關(guān)聯(lián)排序
在模型學(xué)習(xí)的過程中,逐漸更新攝像機k內(nèi)的Nk軌跡特征。由式(1)獲取所有錨樣本軌跡集合為要搜索的目標(biāo)行人圖像為xk,p,為了找到和目標(biāo)圖像xk,p最近鄰的軌跡特征,將目標(biāo)圖像與攝像機k內(nèi)的所有軌跡進行關(guān)聯(lián),計算彼此間的相似程度,并進行排序,得到一個排序列表,再找到與目標(biāo)圖像距離最近的軌跡特征。
本節(jié)將使用標(biāo)準(zhǔn)的l2度量方法,對圖像特征和軌跡特征進行標(biāo)準(zhǔn)化后將計算兩者間的特征距離。計算目標(biāo)圖像與所有錨樣本軌跡間的特征距離,這里需用到的數(shù)學(xué)公式可寫為:
1.1.3 挖掘三元組和損失函數(shù)設(shè)計
在本節(jié)中,采用一種特殊的三元組損失函數(shù)來評估模型性能。在訓(xùn)練過程中起到一種類似頂推(top-push)的作用。單相機關(guān)聯(lián)學(xué)習(xí)過程如圖2 所示。圖2中,使rank -1 的軌跡ak,t能夠?qū)?yīng)于目標(biāo)圖像所在的軌跡ak,p,即p=t。
圖2 單相機關(guān)聯(lián)學(xué)習(xí)過程Fig.2 The process of intra-camera association learning
傳統(tǒng)的三元組損失函數(shù)是由FaceNet[23-24]提出,包括:錨樣本xa、即要尋找的目標(biāo)樣本,與目標(biāo)樣本具有相同身份的正樣本xp,與目標(biāo)樣本不具有相同身份的負(fù)樣本xn,此處的數(shù)學(xué)公式具體如下:
其中,[·]+=max (0,·) ;Da,p表示目標(biāo)樣本與正樣本之間的特征距離;Da,n表示目標(biāo)樣本與負(fù)樣本之間的特征距離;m是給定的閾值,可以使目標(biāo)樣本與正樣本之間的最大距離遠(yuǎn)小于目標(biāo)樣本與負(fù)樣本之間的最小距離。
為了在訓(xùn)練過程中學(xué)習(xí)更好的特征,充分挖掘各個樣本對之間潛在的關(guān)聯(lián)性、從而提取更加鮮明的行人特征,為此引入一種自適應(yīng)加權(quán)的方法,將損失函數(shù)中的各個樣本對距離加上相應(yīng)的權(quán)重來訓(xùn)練模型,圖3 給出的就是樣本權(quán)重描述。則一般加權(quán)三元組的數(shù)學(xué)計算公式見如下:
圖3 樣本權(quán)重Fig.3 Illustration of weights
其中,xp∈P表示正樣本集,xn∈N表示負(fù)樣本集。
而由Hermans 等人提出的困難三元組損失[21],僅考慮正負(fù)樣本時,對應(yīng)的權(quán)重可以寫成:
其中,最困難正樣本是指視覺上看不是同一個人、但實際是相同身份的行人,則兩者之間的特征距離會最大。最困難負(fù)樣本是指視覺上看是同一個人、但實際上不是相同身份的行人,則兩者之間的特征距離將會最小。這種方法可以有效避免在訓(xùn)練過程中由于簡單樣本的影響使訓(xùn)練陷入了較壞的局部最小值。而傳統(tǒng)的權(quán)重統(tǒng)一的三元組損失在模型訓(xùn)練過程中對異常值較魯棒,為此擬結(jié)合這2 種損失的優(yōu)越性,來設(shè)計本節(jié)的三元組損失函數(shù)。
由于該模型是基于無監(jiān)督的一種端到端的訓(xùn)練模式,因此沒有預(yù)先標(biāo)記的成對行人標(biāo)簽。為此要先找到對應(yīng)的三元組,從而設(shè)計損失函數(shù)。此后的設(shè)計過程可做研究闡釋如下。
由式(2)可以得到,攝像機k內(nèi)所有錨樣本軌跡與目標(biāo)圖像xk,p之間的特征距離為了確定對應(yīng)的正負(fù)樣本,利用式(3)找到rank -1 的軌跡ak,t,并且在理想狀況下可認(rèn)為ak,t對應(yīng)xk,p所在的軌跡ak,p。那么如果p=t,則rank -1 軌跡ak,t就是軌跡ak,p,對應(yīng)目標(biāo)圖像xk,p為正樣本集;如果p≠t,則rank -1 軌跡ak,t不是軌跡ak,p,對應(yīng)目標(biāo)圖像xk,p為負(fù)樣本集?;诖?,單相機內(nèi)三元組損失可進一步剖析闡述如下。
(1)當(dāng)p≠t時。損失函數(shù)為:
(2)當(dāng)p=t時。三元組對應(yīng)的正樣本為ak,p,并且從小批量數(shù)據(jù)中隨機采樣M幀圖像作為負(fù)樣本,則損失函數(shù)為:
式(7)~式(8)是基于關(guān)聯(lián)排序,由rank -1 判斷三元組而設(shè)計的損失函數(shù)。為了挖掘軌跡中圖像之間潛在的關(guān)聯(lián)性,提取更鮮明的軌跡特征,根據(jù)目標(biāo)圖像與正負(fù)樣本之間特征距離的大小來自適應(yīng)加權(quán)訓(xùn)練模型,模型參數(shù)可由如下公式計算求得:
由式(9)可以看出,對于正樣本,在計算ωp時,困難的樣本與目標(biāo)樣本間的特征距離大,則分配的權(quán)重會大,模型訓(xùn)練時會更加注重困難樣本學(xué)習(xí);而簡單的樣本與目標(biāo)樣本間的特征距離小,分配的權(quán)重也會小。對于負(fù)樣本,在計算ωn和ωM時,困難的樣本與目標(biāo)樣本間的特征距離小,在設(shè)計時指數(shù)變成負(fù)號,從而保證分配給困難樣本的權(quán)重更大。
此外在單相機內(nèi)關(guān)聯(lián)學(xué)習(xí)的過程中,每個小批量樣本迭代時,都要對樣本集中的圖像進行采樣計算LI_weighted,并持續(xù)更新錨樣本軌跡集合,當(dāng)數(shù)據(jù)集規(guī)模較大時,會造成計算資源和時間的浪費,這里采用了典型的隨機梯度下降法來優(yōu)化模型訓(xùn)練。
綜上所述,這種設(shè)計的關(guān)聯(lián)學(xué)習(xí)方案,在無標(biāo)簽數(shù)據(jù)集的前提下,可以采用一種端到端的深度學(xué)習(xí)方式。將單相機內(nèi)的任意軌跡初始化為構(gòu)成軌跡的幀特征的均值,以此減少計算成本,采用指數(shù)滑動平均的方法在批量迭代學(xué)習(xí)的過程中持續(xù)更新軌跡,保證軌跡特征與最近迭代的特征相關(guān);對所有錨樣本軌跡集合進行排序,確定rank -1 軌跡,并作為判斷三元組的關(guān)鍵條件;在rank -1 軌跡的條件下,確定三元組,由此設(shè)計損失函數(shù),并引入自適應(yīng)權(quán)重挖掘樣本間潛在的關(guān)聯(lián)性,在批量學(xué)習(xí)中能夠動態(tài)調(diào)整正負(fù)樣本間的特征距離,可以加速模型的收斂速率,避免過擬合的風(fēng)險,提高模型的魯棒性。為此,這種方案能夠有效學(xué)習(xí)單相機下具有判別力的軌跡特征,從而促進跨相機下軌跡關(guān)聯(lián)的效率。
由式(2)得到單相機內(nèi)的軌跡排序列表詳見圖3。在模型迭代過程中,采用如下方式連接2 臺攝像機k,l下的軌跡,作為跨相機關(guān)聯(lián)學(xué)習(xí)的錨樣本,即:
其中,ak,i表示攝像機k中的rank -1;al,t表示攝像機l中的rank -1;t表示樣本集訓(xùn)練迭代的次數(shù)。
其中,DXp,p表示要查詢的目標(biāo)圖像xk,p與跨相機關(guān)聯(lián)的軌跡Xk,p之間的特征距離,而Xk,p即是由式(10)獲得的與源軌跡ak,p關(guān)聯(lián)的軌跡特征。ωn與ωM即是由式(9)獲得。這種三元組損失函數(shù)將會有助于該深度模型推進跨相機下最匹配的軌跡合并成含有豐富信息的跨相機錨樣本,并且此種關(guān)聯(lián)的軌跡特征將有效對應(yīng)于要尋找的目標(biāo)圖像特征。
在模型訓(xùn)練中,還要知道模型識別的差異,通過聯(lián)合單相機關(guān)聯(lián)損失LI_weighted與跨相機關(guān)聯(lián)損失LC_weighted作為模型訓(xùn)練的最終損失,數(shù)學(xué)計算公式為:
其中,λ是一個平衡參數(shù)。
在模型訓(xùn)練中,單相機內(nèi)的軌跡特征學(xué)習(xí)見圖2。隨著模型的訓(xùn)練更新,要搜索的目標(biāo)圖像與源軌跡之間的關(guān)聯(lián)程度更深,能夠有效判別軌跡,從而增強跨相機下軌跡的關(guān)聯(lián)程度,有效提高跨相機內(nèi)的關(guān)聯(lián)學(xué)習(xí)。因此,為了使模型對2 種關(guān)聯(lián)學(xué)習(xí)的程度一致,這里將λ設(shè)置為1。
本文采用標(biāo)準(zhǔn)視頻數(shù)據(jù)集iLIDS-VID[23]、PRID2011[24]和MARS[10]來評估算法模型。文中的數(shù)據(jù)參數(shù)見表1。
表1 數(shù)據(jù)集參數(shù)Tab.1 Parameters for the datasets
在MARS 數(shù)據(jù)集中共有20 478條行人軌跡,包括1 261個行人,每個行人至少穿過2 臺攝像機視野。在6 臺攝像機部署的監(jiān)控環(huán)境下采集的行人軌跡更加貼近實際的監(jiān)控場景,包含更多的未知變化。在iLIDS-VID 數(shù)據(jù)集中共有300 個行人,包含600條軌跡,在不同的攝像機下共有2 條軌跡,每條軌跡由23~192 張不等的連續(xù)圖像構(gòu)成,平均會有73 張圖像。在PRID2011 數(shù)據(jù)集中共有178 個行人,包含1 134條軌跡,每條軌跡由5~675 幀圖像構(gòu)成。
本文中,將MARS 數(shù)據(jù)集中的625 個行人的軌跡用來訓(xùn)練,其余的636 個行人的軌跡用來測試模型。將iLIDS-VID 中的行人平均劃分作為訓(xùn)練集和測試集。對于PRID2011,采用傳統(tǒng)的分割方案,將178 個行人平均劃分用來訓(xùn)練和測試,每條軌跡至少包含27 幀圖像。
本文中采用累積匹配特性CMC值來評估基于iLIDS-VID 和PRID2011 算法的性能,學(xué)習(xí)過程中將行人標(biāo)簽隨機劃分,重復(fù)10次,確保統(tǒng)計結(jié)果穩(wěn)定。采用CMC和平均精度均值map來評估基于MARS算法的性能。
仿真實驗是基于Linux 系統(tǒng),搭建GPU 版的Tensorflow[25]框架,使用Python 編寫完成的。利用基于ImageNet[26]預(yù)訓(xùn)練的參數(shù)初始化該深度模型。為了保證采樣的小批量集中都包含所有攝像機下的行人,將batch_size設(shè)置為128。對于較大規(guī)模的數(shù)據(jù)集MARS,設(shè)置迭代次數(shù)為2×105,并采用隨機梯度下降(Stochastic Gradient Descent,SGD)的方法訓(xùn)練模型。將初始化學(xué)習(xí)率設(shè)置為0.01,當(dāng)模型迭代剩下5×104時,學(xué)習(xí)率下降為0.001。自適應(yīng)加權(quán)訓(xùn)練模型,為了避免被零除,在實驗中,將權(quán)重衰減速率設(shè)為e-6。對于較小規(guī)模數(shù)據(jù)集iLIDS-VID 和PRID2011,將學(xué)習(xí)率初始為0.045,設(shè)置迭代次數(shù)為4×104,采用RMSProp 優(yōu)化器[27]優(yōu)化模型時,設(shè)置指數(shù)衰減為每2個epoches為0.94。此外,則根據(jù)經(jīng)驗將2 種關(guān)聯(lián)損失的閾值m設(shè)為0.2。在測試階段,研究獲取的軌跡特征是遵循l2標(biāo)準(zhǔn)化。對跨相機下軌跡間的l2距離進行計算,作為相似度測量的標(biāo)準(zhǔn),用于視頻行人重識別中。
基于ImageNet 預(yù)訓(xùn)練參數(shù)來初始化本文模型,采用典型的MobileNet[28]網(wǎng)絡(luò)作為本文模型的骨干網(wǎng)絡(luò)。對此過程可給出探討論述如下。
(1)本文設(shè)計的自適應(yīng)加權(quán)損失與其它損失對比。為證明本文優(yōu)化的自適應(yīng)加權(quán)三元組損失函數(shù)能夠有效提高模型的準(zhǔn)確度,基于標(biāo)準(zhǔn)數(shù)據(jù)集PRID2011、iLIDS-VID 和MARS(這里的各數(shù)據(jù)集皆為rank -1 軌跡),與使用權(quán)重一致的傳統(tǒng)三元組損失函數(shù)和困難樣本權(quán)重的三元組損失函數(shù)做對比,說明本文采用自適應(yīng)加權(quán)的方法更適用于行人重識別研究。比較結(jié)果見表2,CMC曲線如圖4 所示。
表2 不同關(guān)聯(lián)損失之間的比較Tab.2 Comparisons between different association loss
圖4 基于不同數(shù)據(jù)集的3 種損失性能比較Fig.4 Comparison of three loss performance based on different datasets
實驗證明,本文引入自適應(yīng)權(quán)重,動態(tài)訓(xùn)練模型,提高模型的準(zhǔn)確度更有效。由表2 可以看出,本文模型基于3 種標(biāo)準(zhǔn)數(shù)據(jù)集訓(xùn)練結(jié)果均比使用傳統(tǒng)和困難三元組損失高。在MARS 這種多攝像頭捕捉、更貼近于現(xiàn)實監(jiān)控場景中,本文rank -1 相較于其它2 種損失分別高出4.3%和15.1%。在數(shù)據(jù)集iLIDS-VID 和PRID2011上,本文rank -1 比另外2種損失分別高出7.1%和24.8%以及4.3%和15.1%。再結(jié)合基于不同數(shù)據(jù)集的3 種損失性能比較的CMC曲線圖如圖5 所示,圖5 中的藍色曲線是本文模型性能。從圖5 中可以直觀看出,基于本文設(shè)計的損失函數(shù)的模型性能明顯優(yōu)于另外2 種損失,在不使用任何行人的先驗信息條件下,本文的rank -1 基本可以達到50%以上。
圖5 基于MARS的CMC 曲線圖Fig.5 CMC curve on MARS
(2)本文算法與其它較先進算法對比。本文中先基于較大數(shù)據(jù)集MARS 進行實驗,分別與2020年較先進的算法UTAL[29]、以及其它較先進的算法Stepwise[18]等做比較,比較結(jié)果見表3。
表3 在MARS 上的結(jié)果比較Tab.3 Comparison results on MARS %
實驗證明,在選用了較大的數(shù)據(jù)集、且更加接近真實的監(jiān)控場景中,本文模型識別的準(zhǔn)確率明顯優(yōu)于其它模型。本文算法的rank -1 為50.2%,要比先進的UTAL 算法rank-1 高出0.3%。這就說明本文模型在沒有任何先驗行人信息的前提下,更加適用于行人重識別任務(wù)。
此外本文在標(biāo)準(zhǔn)的較小數(shù)據(jù)集PRID2011 和iLIDS-VID 上做了對比實驗。實驗結(jié)果見表4。CMC 曲線如圖6 所示。
表4 在PRID2011 和iLIDS-VID 上的結(jié)果比較Tab.4 Comparison results on PRID2011 and iLIDS-VID %
圖6 基于PRID2011 和iLIDS-VID的CMC 曲線圖Fig.6 CMC curve based on PRID2011 and iLIDS-VID
實驗證明,在較小的數(shù)據(jù)集上,本文算法識別準(zhǔn)確率更高,rank -1 分別為86.2%,65.4%,相較先進的Stepwise[16]算法分別高出了5.3%和23.7%。在圖6 中藍色曲線代表本文的算法,可以直觀看出比其它較先進的算法高出較多,模型性能更好,在無監(jiān)督學(xué)習(xí)條件下,基于PRID2011 訓(xùn)練的模型準(zhǔn)確率達到85%以上。基于iLIDS-VID 數(shù)據(jù)集訓(xùn)練的模型性能,從圖6 中也可以看出明顯高于其它算法性能,rank -1 比黑色曲線高出23.7%。
在結(jié)合不同損失函數(shù)性能對比和與當(dāng)前較先進算法的比較中可以發(fā)現(xiàn),本文算法較優(yōu)越主要可歸因為基于rank -1 挖掘的三元組較困難。具體地,當(dāng)rank -1 軌跡不是源軌跡時,表明該軌跡是與目標(biāo)樣本距離最近的負(fù)樣本、即困難樣本;當(dāng)rank -1軌跡是源軌跡時,本文隨機采樣的M張圖像作為負(fù)樣本,再通過圖像間的特征距離來分配權(quán)重,對困難樣本著重學(xué)習(xí)。而在特征學(xué)習(xí)的過程中,基于困難三元組學(xué)習(xí)可以得到更加有效的特征。綜上所述,本文模型在不使用任何先驗身份信息的前提下,更加適用于行人重識別任務(wù)。
本文提出無監(jiān)督學(xué)習(xí)三元組用于視頻行人重識別研究。在基于單相機內(nèi)軌跡的時空一致性學(xué)習(xí)軌跡特征過程中,利用關(guān)聯(lián)排序的方法從無標(biāo)簽的數(shù)據(jù)集中挖掘目標(biāo)圖像的三元組用于計算損失,并引入自適應(yīng)加權(quán)的方法來動態(tài)調(diào)整正負(fù)樣本間的距離,提高模型的魯棒性,學(xué)習(xí)單相機下具有判別力的行人特征。同時基于rank -1 合并2 臺不同攝像機下的關(guān)聯(lián)軌跡,作為跨相機損失計算的三元組錨樣本。最終聯(lián)合2 種關(guān)聯(lián)損失優(yōu)化,提高無監(jiān)督模型的準(zhǔn)確度。