張?jiān)迄i,王洪元,張 繼,陳 莉,吳琳鈺,顧嘉暉,陳 強(qiáng)
1(常州大學(xué) 信息科學(xué)與工程學(xué)院,江蘇 常州 213614)
2(社會(huì)安全信息感知與系統(tǒng)工業(yè)和信息化部重點(diǎn)實(shí)驗(yàn)室(南京理工大學(xué)),江蘇 南京 210094)
行人重識(shí)別(person re-identification)旨在解決跨攝像機(jī)檢索匹配行人圖像或視頻的問題,主要有兩種方法:基于圖像的行人重識(shí)別和基于視頻的行人重識(shí)別.前者利用行人圖像匹配同一行人在不同攝像機(jī)視圖下的行人圖像[1-5],后者直接利用信息更加豐富的行人視頻片段匹配同一行人在不同攝像機(jī)視圖下的行人視頻[6-8].而基于視頻的行人重識(shí)別與現(xiàn)實(shí)世界的應(yīng)用更為貼切,從而在近期引起了極大的關(guān)注.現(xiàn)有的基于視頻的行人重識(shí)別的方法主要依賴于完全標(biāo)注的視頻片段.由于標(biāo)注數(shù)據(jù)的成本過于巨大,因此研究依賴少量標(biāo)注的半監(jiān)督視頻行人重識(shí)別具有極大的應(yīng)用價(jià)值.
單標(biāo)注樣本學(xué)習(xí)是半監(jiān)督學(xué)習(xí)的一種.單標(biāo)注樣本視頻行人重識(shí)別的關(guān)鍵在于如何準(zhǔn)確地對(duì)大量無標(biāo)簽視頻片段進(jìn)行標(biāo)簽估計(jì)[9-11].其常見的方法是:在迭代過程中先將數(shù)據(jù)嵌入特征空間,以每個(gè)行人唯一的有標(biāo)簽視頻片段特征作為固定度量中心,無標(biāo)簽視頻片段根據(jù)與固定度量中心的距離為其分配偽標(biāo)簽.初始有標(biāo)簽數(shù)據(jù)和每次選定的偽標(biāo)簽數(shù)據(jù)合并作為新的數(shù)據(jù)集,進(jìn)行下一次訓(xùn)練.如圖1 所示(圖中共有3 類數(shù)據(jù):實(shí)心圓表示無標(biāo)簽數(shù)據(jù),顏色表示各自真實(shí)的分類;空心圓表示該類的初始有標(biāo)簽數(shù)據(jù)特征;虛線圓內(nèi)與空心圓顏色不同的點(diǎn)則表示偽標(biāo)簽標(biāo)注錯(cuò)誤的數(shù)據(jù),以空心圓為中心選取一定比例的偽標(biāo)簽數(shù)據(jù)用于下一次訓(xùn)練):隨著選取用作下次訓(xùn)練偽標(biāo)簽數(shù)據(jù)的增加,標(biāo)注錯(cuò)誤的偽標(biāo)簽數(shù)量也極大地增加.因此,以上這種固定度量中心的方法是有缺陷的.在這種情況下,當(dāng)有標(biāo)簽數(shù)據(jù)在特征空間中處于類的邊緣或者遠(yuǎn)離類的中心,隨著選取偽標(biāo)簽數(shù)據(jù)的增加,將會(huì)得到大量不準(zhǔn)確的偽標(biāo)簽數(shù)據(jù),而過多的不可靠的偽標(biāo)簽數(shù)據(jù)在迭代過程中將會(huì)嚴(yán)重影響模型的性能.
Fig.1 Common label evaluation methods圖1 常見標(biāo)簽評(píng)估方式
為了在每輪訓(xùn)練過程中得到更多的正確偽標(biāo)簽視頻片段用于下一次訓(xùn)練,本文提出了一種新策略:近鄰中心迭代策略(neighborhood center iteration,簡(jiǎn)稱NCI).每一次迭代訓(xùn)練后,在特征空間中找出所選取的偽標(biāo)簽視頻片段和有標(biāo)簽視頻片段特征每一類的中心點(diǎn),作為其下一輪預(yù)測(cè)無標(biāo)簽視頻片段的偽標(biāo)簽的度量中心點(diǎn).隨著選取偽標(biāo)簽視頻片段的數(shù)量逐步增加,本文的策略能更加準(zhǔn)確地加入復(fù)雜的無標(biāo)簽視頻片段用于下一次訓(xùn)練.此外,傳統(tǒng)的行人重識(shí)別特征學(xué)習(xí)主要依賴于三重?fù)p失[12]等函數(shù),其計(jì)算量大,因此,本文提出一個(gè)損失控制策略,聯(lián)合訓(xùn)練交叉熵?fù)p失(crossentropy loss)和在線實(shí)例匹配損失(online instance matching loss,簡(jiǎn)稱OIM Loss)[13],既能有效地縮小類內(nèi)距離,又能使得訓(xùn)練過程更加地穩(wěn)定高效.
本文的主要工作如下:
(1) 提出訓(xùn)練策略NCI,該策略中提出的新標(biāo)簽評(píng)估準(zhǔn)則能有效地提升無標(biāo)簽視頻片段的偽標(biāo)簽預(yù)測(cè)準(zhǔn)確率和最終算法的精度;
(2) 提出損失控制策略,聯(lián)合訓(xùn)練CrossEntropy Loss 和OIM Loss,使得訓(xùn)練過程更加的穩(wěn)定.
相對(duì)于最新的半監(jiān)督和單標(biāo)注學(xué)習(xí)方法,本文的方法在MARS 和DukeMTMC-VideoReID 兩個(gè)大型數(shù)據(jù)集上都有很好的性能提升.
對(duì)于監(jiān)督視頻行人重識(shí)別,新出現(xiàn)了許多基于深度學(xué)習(xí)的方法[14-18],如:文獻(xiàn)[14]將細(xì)化循環(huán)單元模塊和時(shí)空線索聚合模塊用于恢復(fù)缺失幀和利用上下文信息,從而獲得行人視頻片段的特征表示;文獻(xiàn)[17]提出時(shí)空注意力感知學(xué)習(xí)方法,旨在視頻序列的時(shí)空上關(guān)注視頻中行人的重要部分,以解決行人圖像質(zhì)量因不同的時(shí)間空間區(qū)域變化而變化的問題;文獻(xiàn)[18]提出了判別聚合網(wǎng)絡(luò)方法,直接聚合原始視頻幀,且結(jié)合度量學(xué)習(xí)和對(duì)抗學(xué)習(xí)的思想生成更多的判別圖像,減少每個(gè)視頻處理的圖像幀數(shù),誤導(dǎo)性信息的低質(zhì)量幀也可以得到很好的過濾和去噪.對(duì)于無監(jiān)督的視頻行人重識(shí)別,文獻(xiàn)[13]提出了半監(jiān)督行人檢測(cè)的OIM Loss,它也可用于無監(jiān)督的視頻行人重識(shí)別;文獻(xiàn)[19]提出了一種自底向上聚類方法(bottom-up clustering,簡(jiǎn)稱BUC)來聯(lián)合優(yōu)化CNN 和無標(biāo)簽樣本間的關(guān)系,并且在聚類過程中利用了一個(gè)多樣性正則項(xiàng)來平和每個(gè)聚類的數(shù)據(jù)量.
以往的半監(jiān)督行人重識(shí)別方法大多數(shù)是基于圖像[20-23]行人重識(shí)別.近期出現(xiàn)了不少半監(jiān)督視頻行人重識(shí)別方法,如Zhu 等人[24]提出了一種基于半監(jiān)督交叉視圖投影的字典學(xué)習(xí)方法;也出現(xiàn)了一些單標(biāo)注視頻行人重識(shí)別任務(wù)的方法,如Liu 等人[10]用有標(biāo)簽的樣本初始化模型,計(jì)算出與查詢集樣本最接近的k個(gè)樣本并且刪除其中的可疑樣本,再將其余樣本添加到訓(xùn)練集中,重復(fù)該過程直到算法收斂為止;Ye 等人[11]提出了一種動(dòng)態(tài)圖匹配(dynamic graph matching,簡(jiǎn)稱DGM)方法,該方法迭代更新圖和標(biāo)簽估計(jì),以學(xué)習(xí)更好的特征空間;Wu 等人[9]使用一個(gè)逐步利用無標(biāo)簽視頻片段的策略(exploit the unknown gradually,簡(jiǎn)稱EUG),先用有標(biāo)簽視頻片段初始化網(wǎng)絡(luò)模型,再根據(jù)與有標(biāo)簽數(shù)據(jù)的距離將偽標(biāo)簽數(shù)據(jù)線性合并到訓(xùn)練集中進(jìn)行后續(xù)的訓(xùn)練;文獻(xiàn)[25]用了一個(gè)單標(biāo)注樣本漸進(jìn)學(xué)習(xí)的方式(progressive learning,簡(jiǎn)稱PL),將標(biāo)簽數(shù)據(jù)、偽標(biāo)簽數(shù)據(jù)和索引標(biāo)簽數(shù)據(jù)這3 個(gè)部分在迭代過程中聯(lián)合訓(xùn)練模型.但是文獻(xiàn)[10,11]中采用靜態(tài)策略來確定每次訓(xùn)練所選擇的偽標(biāo)簽數(shù)據(jù)的數(shù)量的方法是不合理的,因?yàn)槌跏寄P涂赡懿唤?只有少數(shù)偽標(biāo)簽預(yù)測(cè)在初始階段是可靠和準(zhǔn)確的,如果選擇與后期訓(xùn)練相同數(shù)量的數(shù)據(jù),則不可避免地會(huì)出現(xiàn)更多錯(cuò)誤的偽標(biāo)簽數(shù)據(jù).而文獻(xiàn)[9,25]中將有標(biāo)簽視頻片段特征作為固定度量中心也會(huì)得到大量不準(zhǔn)確的偽標(biāo)簽數(shù)據(jù).因此本文提出了近鄰中心迭代策略,從一定程度上解決偽標(biāo)簽錯(cuò)誤率低的問題.
在迭代訓(xùn)練過程中,采用的是一種常見的漸進(jìn)學(xué)習(xí)方式[9],每次訓(xùn)練選取一定比例可靠的偽標(biāo)簽視頻片段 用于下一次訓(xùn)練.S表示選取下一次訓(xùn)練的偽標(biāo)簽數(shù)據(jù)的候選集:
本文方法的具體框架如圖2 所示,采用ResNet-50 結(jié)構(gòu)的端到端模型作為特征提取網(wǎng)絡(luò),且在分類層前面加上了一個(gè)全連接層和一個(gè)時(shí)間平均池化層.對(duì)于每一個(gè)視頻片段,當(dāng)所有圖片被提取為幀級(jí)特征后,時(shí)間平均池化層將所有的幀級(jí)特征合并,作為視頻片段的特征表示.
初始訓(xùn)練時(shí),使用唯一有標(biāo)簽視頻片段集合L來初始化模型,再用訓(xùn)練好的模型提取U中無標(biāo)簽視頻片段特 征,每個(gè)無標(biāo)簽視頻片段的偽標(biāo)簽由特征空間中距離最近的度量中心點(diǎn)的標(biāo)簽進(jìn)行分配,然后產(chǎn)生每個(gè)無標(biāo)簽 視頻片段的選擇指示器si,并根據(jù)公式(1)來得到候選集S.在之后的迭代中,每次候選集S和初始的標(biāo)簽數(shù)據(jù)L合并為新的數(shù)據(jù)集D,D=S∪L.D則作為下一次訓(xùn)練用的訓(xùn)練集.且在訓(xùn)練過程中,S隨著訓(xùn)練次數(shù)的增加而不斷地 擴(kuò)大.
Fig.2 Overall framework of NCI strategy圖2 NCI 策略整體框架
以往的標(biāo)簽評(píng)估方法[9,25]中,有標(biāo)簽數(shù)據(jù)作為固定度量中心,在每輪訓(xùn)練中為最近的無標(biāo)簽數(shù)據(jù)進(jìn)行偽標(biāo)簽分配.如圖1 所示,這一方法是有很大弊端的:原始有標(biāo)簽視頻片段在特征空間內(nèi)同類中的相對(duì)位置是固定的;且當(dāng)原始有標(biāo)簽視頻片段在特征空間中處于同類的邊緣或者遠(yuǎn)離類中心的點(diǎn)時(shí),每次訓(xùn)練會(huì)預(yù)測(cè)出更多錯(cuò)誤 的偽標(biāo)簽,隨著選取偽標(biāo)簽數(shù)據(jù)S的增大(例如圖中選取80%),選取到不可靠數(shù)據(jù)的概率變得更大.
針對(duì)這種情況,提出了一種新的標(biāo)簽評(píng)估標(biāo)準(zhǔn).在迭代過程中,利用得到的可靠集合D中每個(gè)類的中心,作為 下一次訓(xùn)練預(yù)測(cè)偽標(biāo)簽的度量中心點(diǎn).具體來說,每次訓(xùn)練結(jié)束,訓(xùn)練完的模型提取無標(biāo)簽視頻片段的特征并嵌 入特征空間,此時(shí),無標(biāo)簽數(shù)據(jù)特征與上一次訓(xùn)練所得的集合D中每個(gè)類的中心(初次訓(xùn)練D中每個(gè)行人只有一 個(gè)初始數(shù)據(jù),則以此為類中心)依次計(jì)算距離,距離最近的類的標(biāo)簽則為該無標(biāo)簽視頻片段的偽標(biāo)簽.然后,無標(biāo)簽視頻片段與為其分配偽標(biāo)簽的度量中心的距離排序,按比例選取距離較小并帶有偽標(biāo)簽的無標(biāo)簽視頻片段 作為可靠偽標(biāo)簽數(shù)據(jù)候選集S,并與L合并為D,作為下一次訓(xùn)練的數(shù)據(jù)集.依次迭代,直至用完所有無標(biāo)簽視頻 片段.這樣能夠使得每次選取的度量中心更準(zhǔn)確地反映出特征空間內(nèi)每個(gè)類中的特征的集中趨勢(shì),能夠更加接近類的真實(shí)中心,使得每次預(yù)測(cè)的偽標(biāo)簽更加準(zhǔn)確.
如圖3 所示(圖3 共有3 類:實(shí)心圓表示無標(biāo)簽數(shù)據(jù)特征,空心圓表示該類的初始有標(biāo)簽數(shù)據(jù)特征,五角星代 表上一次訓(xùn)練所得集合D的類中心,虛線圓內(nèi)與空心圓顏色不同的點(diǎn)則表示偽標(biāo)簽標(biāo)注錯(cuò)誤的數(shù)據(jù),此時(shí)則以 五角星為中心選取一定比例的偽標(biāo)簽數(shù)據(jù)用于下一次訓(xùn)練):當(dāng)初始訓(xùn)練后,以唯一有標(biāo)簽樣本為中心點(diǎn)選取20%的數(shù)據(jù),在之后訓(xùn)練中依次以新的中心(五角星)為度量中心點(diǎn)選取40%,80%的數(shù)據(jù).可以明顯地看到:前一次迭代選取的偽標(biāo)簽數(shù)據(jù)與初始有標(biāo)簽數(shù)據(jù)合并之后產(chǎn)生的新的度量中心點(diǎn)更加接近類的真實(shí)中心,而相比于圖1 預(yù)測(cè)出更多正確的偽標(biāo)簽.因此,近鄰中心迭代策略中的標(biāo)簽評(píng)估標(biāo)準(zhǔn),能夠極大地提高每次偽標(biāo)簽預(yù)測(cè)的準(zhǔn)確率,進(jìn)而提高最終結(jié)果.
數(shù)據(jù)樣本的集中趨勢(shì)描述有平均數(shù)、中位數(shù)等,本文分別用平均中心和中位數(shù)中心計(jì)算特征空間的樣本中心.由于MARS 數(shù)據(jù)集采樣的攝像頭較多且場(chǎng)景較為復(fù)雜,可能在特征空間中離群點(diǎn)較多,因此使用中位數(shù)中心 更為合適.DukeMTMC-VideoReID 數(shù)據(jù)集場(chǎng)景相對(duì)簡(jiǎn)單,則使用平均中心更合適.用R表示D中所有類的中心的 集合,其中,平均中心公式可表示為
其中,Rk表示第k類樣本新的度量中心點(diǎn),Dk表示D中第k類樣本的集合,N為Dk中元素的個(gè)數(shù).
Fig.3 NCI label evaluation method圖3 NCI 標(biāo)簽評(píng)估方式
由于前幾次用于訓(xùn)練的數(shù)據(jù)較少,模型的性能較差,預(yù)測(cè)的無標(biāo)簽視頻片段的偽標(biāo)簽可靠的數(shù)量較少,因此,若前幾次訓(xùn)練每次選取過多的偽標(biāo)簽數(shù)據(jù),會(huì)極大地影響最終的模型性能.因此,本文采用了漸進(jìn)的動(dòng)態(tài)抽樣策略.其中,每個(gè)無標(biāo)簽視頻片段與所有度量中心的距離的最小值可表示為
其中,xi∈U,Rk∈R表示新的度量中心點(diǎn),φ(·)表示該無標(biāo)簽視頻片段在特征空間中的特征.對(duì)于偽標(biāo)簽數(shù)據(jù)的選 擇,通過選擇指示器st將一定比例較小的d(xi)對(duì)應(yīng)的無標(biāo)簽視頻片段xi作為可靠的偽標(biāo)簽數(shù)據(jù)采樣到訓(xùn)練中:
其中,mt表示當(dāng)前輪次選取偽標(biāo)簽數(shù)據(jù)的數(shù)量.隨著迭代次數(shù)t的增加,選取可靠偽標(biāo)簽數(shù)據(jù)的數(shù)量會(huì)逐步增加:mt=mt-1+p·nu,p∈(0,1).其中,p表示迭代過程中選取偽標(biāo)簽數(shù)據(jù)數(shù)量的增長(zhǎng)率.比較好的選擇是將p設(shè)置為一個(gè)很小的值,這意味著mt逐步增大,并且每一步的變化很小.這種設(shè)置隨著迭代過程逐步優(yōu)化,模型性能會(huì)非常穩(wěn)定地提高,并最終獲得令人滿意的性能.
常用的OIM Loss 利用來自有標(biāo)簽行人視頻數(shù)據(jù)的特征形成查詢表,與批次樣本之間的進(jìn)行距離比較.另外,那些無標(biāo)簽視頻片段可以被視為負(fù)樣本,將它們的特征存儲(chǔ)在循環(huán)隊(duì)列中并進(jìn)行比較.不僅適用于單標(biāo)注視頻行人重識(shí)別訓(xùn)練場(chǎng)景,并且相比于其他損失函數(shù)收斂得更快更穩(wěn)定.OIM Loss 可以表示為
其中,XOIM表示視頻片段的特征矩陣,V表示每個(gè)類代表性的特征,C表示提取的特征X與每個(gè)類的余弦距離.而 CrossEntropy Loss 也是常用的損失函數(shù),在深度訓(xùn)練中有著比較穩(wěn)定和準(zhǔn)確的效果.用XCe表示最終視頻片段的特征矩陣,則CrossEntropy Loss 可表示為
基于以上兩個(gè)損失函數(shù),為了單標(biāo)注視頻行人重識(shí)別的訓(xùn)練過程更加穩(wěn)定、模型性能更佳,本文提出了一個(gè)有效的損失函數(shù)訓(xùn)練策略,聯(lián)合訓(xùn)練OIM Loss 和CrossEntropy Loss 兩個(gè)損失函數(shù):
其中,pCe和pOIM表示訓(xùn)練過程中兩個(gè)損失評(píng)估的精度;β是一個(gè)可變參數(shù),用于動(dòng)態(tài)分配權(quán)重.損失函數(shù)的評(píng)估精度高,則分配大一點(diǎn)的權(quán)重;評(píng)估精度低,則分配小一些的權(quán)重.通過動(dòng)態(tài)地調(diào)整訓(xùn)練權(quán)重,使得在訓(xùn)練過程中模型能夠更加穩(wěn)定,表現(xiàn)得更加魯棒,無標(biāo)簽數(shù)據(jù)的偽標(biāo)簽精度更高.通過兩個(gè)大型數(shù)據(jù)集上的實(shí)驗(yàn),也驗(yàn)證了本文的損失控制策略的有效性.
MARS[7]數(shù)據(jù)集是視頻行人重識(shí)別任務(wù)中最大的數(shù)據(jù)集,數(shù)據(jù)集包含1 261 個(gè)行人,共有17 503 個(gè)視頻片段和3 248 個(gè)干擾視頻片段.其中,625 個(gè)行人用于訓(xùn)練,636 個(gè)行人用于測(cè)試.訓(xùn)練集中每個(gè)行人平均有13 個(gè)視頻片段,每個(gè)視頻片段平均有816 幀.
DukeMTMC-VideoReID[26]數(shù)據(jù)集包含1 812 個(gè)行人,共有4 832 個(gè)視頻片段.并將行人分別劃分為702,702和408 份,分別用于訓(xùn)練、測(cè)試和干擾.總共2 196 個(gè)視頻片段用于訓(xùn)練以及2 636 個(gè)視頻片段用于測(cè)試和干擾.每個(gè)視頻片段平均有168 幀.
本文使用累積匹配特征(cumulative matching characteristic,簡(jiǎn)稱CMC)曲線和平均準(zhǔn)確率(mean average precision,簡(jiǎn)稱mAP)來評(píng)估每次迭代模型的性能,并使用符號(hào)M表示最終預(yù)測(cè)無標(biāo)簽視頻片段偽標(biāo)簽準(zhǔn)確率.
在兩個(gè)數(shù)據(jù)集中,為每個(gè)行人隨機(jī)選擇攝像機(jī)1 中的一個(gè)視頻片段作為初始化有標(biāo)簽數(shù)據(jù)集L.如果攝像機(jī) 1 沒有該行人,將在下一臺(tái)攝像機(jī)中隨機(jī)選擇一個(gè)視頻片段,以確保每個(gè)行人都有一個(gè)用于初始化的視頻片段.
實(shí)驗(yàn)中,本文使用ImageNet[27]預(yù)訓(xùn)練去掉最后的分類層的ResNet50 作為NCI 的初始模型.采用動(dòng)量為0.5且權(quán)重衰減為0.000 5 的隨機(jī)梯度下降(SGD)優(yōu)化方法.整體學(xué)習(xí)率初始化為0.1,并在最后15 個(gè)周期衰減為0.01.在用損失函數(shù)控制策略訓(xùn)練的時(shí)候,由于初始數(shù)據(jù)過少,本文使用CrossEntropy Loss 來進(jìn)行前幾次迭代的訓(xùn)練,以獲得穩(wěn)定的偽標(biāo)簽數(shù)據(jù);之后使用本文提出的損失函數(shù)控制策略,使得實(shí)驗(yàn)過程更加穩(wěn)定、效果更好.
4.3.1 參數(shù)分析
當(dāng)訓(xùn)練循環(huán)到第t步,本文會(huì)選擇t×p比例的帶有偽標(biāo)簽的無標(biāo)簽視頻片段用作下一次的模型訓(xùn)練.其中,增長(zhǎng)率p的影響見表1、表2.p取0.05~0.3 時(shí),p值越小,rank-1,mAP的精度越高.且當(dāng)p=0.05 時(shí),rank-1,mAP和偽標(biāo)簽的精度最高,模型性能最好.如圖4 所示,當(dāng)p取0.05,0.10 和0.20 時(shí),前面幾次迭代3 張圖曲線間的間隙不大,然而后面曲線間的間隙則越來越大,并且p取0.05 時(shí)的曲線明顯高于0.10 和0.20.原因是錯(cuò)誤標(biāo)簽評(píng)估在迭代過程中會(huì)不斷累積,選取偽標(biāo)簽越多錯(cuò)誤的累積影響越大.因此,增長(zhǎng)率p擴(kuò)大的越緩慢,選取的正確偽標(biāo)簽越多,從而模型精度rank-1,mAP越高.綜合分析,p值取小一些效果會(huì)更好.本文以下闡述以p=0.05 和p=0.1 的結(jié)果進(jìn)行比較.
在選取特征空間的數(shù)據(jù)中心點(diǎn)時(shí),本文使用了平均中心和中位數(shù)中心.結(jié)果見表1:p取0.05~0.3 時(shí),在MARS 數(shù)據(jù)集上,中位數(shù)中心比平均中心偽標(biāo)簽精度明顯更高.其中:當(dāng)p=0.05 時(shí),中位數(shù)中心比平均中心預(yù)測(cè)偽標(biāo)簽精度高 1.63%;當(dāng)p=0.10 時(shí),中位數(shù)中心比平均中心偽標(biāo)簽精度高2.43%.而p取 0.05~0.3 時(shí),在DukeMTMC-VideoReID 數(shù)據(jù)集上,平均中心比中位數(shù)中心偽標(biāo)簽精度明顯更高.其中,p=0.05 時(shí),平均中心比中位數(shù)中心偽標(biāo)簽精度高0.8%;當(dāng)p=0.10 時(shí),平均中心比中位數(shù)中心偽標(biāo)簽精度高0.87%.因此,本文實(shí)驗(yàn)選用中位數(shù)中心作為MARS 數(shù)據(jù)集的標(biāo)簽評(píng)估方式,平均中心作為DukeMTMC-VideoReID 數(shù)據(jù)集的標(biāo)簽評(píng)估方式.
Table 1 Comparison of center selection method correct rate表1 中心選取方式正確率的對(duì)比區(qū)性 (%)
Table 2 Comparison of NCI and EUG results表2 NCI 與EUG 結(jié)果對(duì)比 (%)
Fig.4 Results of different values of parameter p on the MARS dataset圖4 參數(shù)p 不同值在MARS 數(shù)據(jù)集上的結(jié)果圖
4.3.2 近鄰中心迭代策略的有效性
如表2、表3 所示,表示p取0.05~0.3 時(shí),NCI 策略相比于EUG 在rank-1accuracy(%)、mAP(%)、偽標(biāo) 簽準(zhǔn)確率M(%)有著全面性的提升.
? 當(dāng)兩種方式均取p=0.10 時(shí),在DukeMTMC-VideoReID 數(shù)據(jù)集上,NCI 的rank-1 精度提升2.61%,mAP精度提升3.84%,偽標(biāo)簽的預(yù)測(cè)精度提升1.61%;在MARS 數(shù)據(jù)集上,NCI 的rank-1 精度提升2.78%,mAP精度提升6.12%,偽標(biāo)簽的預(yù)測(cè)精度提升4.04%;
? 均取p=0.05 時(shí),在DukeMTMC-VideoReID 數(shù)據(jù)集上,NCI 的rank-1 精度提升1.61%,mAP精度提升3.17%,偽標(biāo)簽的預(yù)測(cè)精度提升1.13%;在MARS 數(shù)據(jù)集上,NCI 的rank-1 精度提升1.93%,mAP精度提升3.35%,而偽標(biāo)簽的預(yù)測(cè)精度提升1.97%.
綜合以上分析能得出,增長(zhǎng)率p取0.05~0.3 時(shí),無論是rank-1,mAP精度還是偽標(biāo)簽的準(zhǔn)確率,均有了極大的提升.由此得出,本文提出的NCI 相比于最新的策略EUG 有著全面的性能提升.
4.3.3 損失控制策略的有效性
表3 是聯(lián)合NCI 和損失控制策略分別在DukeMTMC-VideoReID 和MARS 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果與NCI 在rank-1accuracy(%)、mAP(%)、偽標(biāo)簽準(zhǔn)確率M(%)的比較,以驗(yàn)證損失控制策略的有效性.如表3 所示,NCI 和損失控制策略聯(lián)合訓(xùn)練的結(jié)果與NCI 進(jìn)行比較可得:
? 當(dāng)均取p=0.10 時(shí),DukeMTMC-VideoReID 數(shù)據(jù)集上,rank-1 精度提升6.1%,mAP精度提升7.5%,偽標(biāo)簽準(zhǔn)確率提升5.36%;在MARS 數(shù)據(jù)集上,rank-1 精度提升0.7%,mAP精度提升0.6%,偽標(biāo)簽的準(zhǔn)確率提升0.51%;
? 當(dāng)p=0.05 時(shí),DukeMTMC-VideoReID 數(shù)據(jù)集上,rank-1 精度提升5.9%,mAP精度提升7.6%,偽標(biāo)簽的準(zhǔn)確率提升4.82%;在MARS 數(shù)據(jù)集上,rank-1 精度提升2%,mAP精度提升2.9%,偽標(biāo)簽的準(zhǔn)確率提升3.48%.
Table 3 Comparison of loss control strategy results表3 損失控制策略結(jié)果的對(duì)比 (%)
綜合以上分析,本文提出的損失控制策略能有效地提升NCI 的性能,最終提升模型的性能.同時(shí),表3 在同等p值下的實(shí)驗(yàn)結(jié)果對(duì)比,能依次證明本文的NCI 和損失控制策略提升效果明顯.
4.3.4 與其他方法比較
表4 是本文的方法NCI 和損失控制策略分別在DukeMTMC-VideoReID 和MARS 數(shù)據(jù)集上,與其他方法在rank-1accuracy(%)和mAP(%)的比較.表4 中,與本文的對(duì)比方法有OIM,BUC,DGM,Stepwise,EUG 和PL 等方法.本文提出的方法相比其他方法對(duì)單標(biāo)注視頻行人重識(shí)別性能都有明顯的提升.本文提出的方法 NCI 在DukeMTMC-VideoReID 數(shù)據(jù)集上,最高使rank-1 達(dá)到74.40%,mAP達(dá)到66.40%;在MARS 數(shù)據(jù)集上,最高使rank-1 達(dá)到64.60%,mAP達(dá)到45.80%.而在NCI 加上提出的損失控制策略之后,在DukeMTMC-VideoReID 數(shù)據(jù)集上,最高使rank-1 達(dá)到80.30%,mAP達(dá)到74.00%;在MARS 數(shù)據(jù)集上,最高使rank-1 達(dá)到66.60%,mAP達(dá)到48.70%.性能遠(yuǎn)超過DGM,Stepwise,EUG 和PL 等方法.
NCI 和損失控制策略聯(lián)合訓(xùn)練的最終結(jié)果與無監(jiān)督的方法OIM 和BUC 相比,在DukeMTMC-VideoReID和MARS 數(shù)據(jù)集上有著明顯的優(yōu)勢(shì).相比于單標(biāo)注視頻行人重識(shí)別最新的方法EUG 和PL 有很大提升.
? 當(dāng)p=0.05 時(shí),在DukeMTMC-VideoReID 數(shù)據(jù)集上,rank-1 分別提升了7.51%,7.4%,mAP上分別提升了10.77%,10.7%;在MARS 數(shù)據(jù)集上,rank-1 分別提升了3.93%,3.8%,mAP上分別提升了6.25%,6.1%;
? 而當(dāng)p=0.10 時(shí),在DukeMTMC-VideoReID 數(shù)據(jù)集上,rank-1 分別提升了8.71%,8.5%,mAP上分別提升了11.34%,11.2%;在MARS 數(shù)據(jù)集上,rank-1 分別提升了3.48%,3.2%,mAP上分別提升了6.72%,6.5%.
Table 4 Comparison of accuracy between NCI and other methods表4 NCI 與其他方法的結(jié)果的對(duì)比 (%)
綜合以上分析,說明本文NCI 和損失控制策略聯(lián)合訓(xùn)練,相比于同類的方法有很大的提升,從而驗(yàn)證了本文提出的近鄰中心迭代策略和損失控制策略的有效性和優(yōu)越性.
單標(biāo)注學(xué)習(xí)的錯(cuò)誤標(biāo)簽估計(jì)會(huì)嚴(yán)重降低模型的魯棒性,無標(biāo)簽視頻片段的標(biāo)簽估計(jì)對(duì)于單標(biāo)注視頻行人重識(shí)別至關(guān)重要.針對(duì)這個(gè)問題,本文提出了一種近鄰中心迭代策略.該策略從簡(jiǎn)單可靠的無標(biāo)簽視頻片段樣本開始,逐步更新用于預(yù)測(cè)偽標(biāo)簽的度量中心點(diǎn),獲取更加可靠的偽標(biāo)簽數(shù)據(jù)來更新模型.每次選取的可靠偽標(biāo)簽數(shù)據(jù)以較慢的速度增加.此外,本文提出了一種新的損失訓(xùn)練策略,能使得訓(xùn)練過程更加穩(wěn)定又能縮小類內(nèi)距離,從而獲得可靠的偽標(biāo)簽數(shù)據(jù)和更魯棒的模型.本文方法的有效性在MARS 和DukeMTMC-VideoReID 兩個(gè)大規(guī)模數(shù)據(jù)集上得到了很好的驗(yàn)證.