江雨燕,董映宇,鄭煒晨,邵 金,呂 魏
(安徽工業(yè)大學(xué) 管理科學(xué)與工程學(xué)院,安徽 馬鞍山 243002)
行人重識別(personal re-identification)是從一個(gè)攝像機(jī)中的行人圖片與其他互不重疊區(qū)域的攝像機(jī)拍攝到的行人圖片相互匹配的問題.行人重識別在計(jì)算機(jī)視覺領(lǐng)域發(fā)展迅速也很有挑戰(zhàn)性,因?yàn)榇嬖谶\(yùn)動(dòng)模糊,尺寸大小變化,部分遮擋,外觀變化等問題.同時(shí),在低分辨率的攝像機(jī)的不同也因?yàn)榉直媛实投a(chǎn)生很高的相似度.當(dāng)前,主要重識別方法有兩種:1)設(shè)計(jì)具有魯棒性的行人特征提取的表達(dá)模型;2)建立有效的行人相似性度量判別模型.
對于行人特征表達(dá)模型,提取具有魯棒性鑒別特征表達(dá)行人.如:對稱驅(qū)動(dòng)局部的特征進(jìn)行累積的描述子(SDALF)[1]、自定義圖案結(jié)構(gòu)特征提取方法(CPS)[2]、生物學(xué)啟發(fā)特征和協(xié)方差描述(BiCov)[3]以及由局部fisher向量編碼的混合特征(eLDFV)[4]等.Liao等人利用色彩和紋理直方圖建立特征表達(dá)方法,提出了LOMO[5]模型,以此計(jì)算局部色彩紋理特征,得到一個(gè)超高維度的特征向量.Matsukawa等人基于像素特征層級分布提出一種區(qū)域描述子GOG[6].Chen[7]等人在塊匹配的基礎(chǔ)上提出自適應(yīng)層次結(jié)構(gòu)的顏色分布場行人再識別方法.雖然上述模型通過圖形特征上的表達(dá)能力和判別能力有顯著提升,但由于行人圖形在不同視圖下的特征變化的復(fù)雜性,上述模型對于判別精度提升有限.
在度量判別模型領(lǐng)域,通過d(xi,xj)=(xi-xj)TM(xi-xj)形式的Mahalanobis距離函數(shù),用馬氏距離替換歐式距離,提出更加有效的有監(jiān)督的度量學(xué)習(xí)模型.如:Liao等人則結(jié)合KISSME算法和FDA算法,建立了一種交叉二次判別模型XQDA(Cross-view Quadratic Discriminant Analysis,XQDA)[5].Huo等人采用線性判別分析的映射方法使樣本在投影子空間中能夠保持最大化的分類信息提出增量學(xué)習(xí)的LDKISS[8].Gao等人[9]利用字典表達(dá)的方法,學(xué)習(xí)一種具有視覺不變性的正交字典,提升了模型的分辨能力.Wang等人基于嵌入不同的訓(xùn)練人員類別來構(gòu)造一個(gè)身份回歸空間,建立了IRS[10].Feroz等人[11]將XQDA擴(kuò)展到更高維度的空間,運(yùn)用核化方法學(xué)習(xí)不同視圖下特征的非線性變化.Li等人運(yùn)用深度學(xué)習(xí)等方法,建立了FPNN[12]深度網(wǎng)絡(luò)模型.hmed等人利用人體結(jié)構(gòu)信息,在FPNN的基礎(chǔ)上,提出了Improved Deep[13]深度網(wǎng)絡(luò)結(jié)構(gòu).Wang[14]等人基于siamese模型的卷積神經(jīng)網(wǎng)絡(luò)用于行人再辨識的研究,在分類與驗(yàn)證損失函數(shù)的聯(lián)合監(jiān)督下引入特征加權(quán)層提高判別性能.在深度學(xué)習(xí)方面,行人重識別性能得到了很大的提高,但由于需要對過于龐大的訓(xùn)練數(shù)據(jù)進(jìn)行標(biāo)注的巨大工作量以及對數(shù)據(jù)規(guī)模的要求,在實(shí)際的應(yīng)用中對即時(shí)性高維度小樣本的問題(Small Sample Size problem,SSS)的處理存在著局限性.
度量學(xué)習(xí)在處理高維度小規(guī)模訓(xùn)練數(shù)據(jù)時(shí)有良好的性能.然而,它們存在兩個(gè)局限性:1)樣本容量小導(dǎo)致樣本協(xié)方差的逆容易出現(xiàn)較大偏差,對應(yīng)大的特征值容易被高估,小的特征值被低估,影響度量矩陣的判別精度;2)人的外貌特征在跨視圖存在非線性的變化,現(xiàn)有的大部分方法都是固定的線性變化.針對上述兩個(gè)局限性,一種新的非線性度量學(xué)習(xí)方法,稱為核交叉視圖二次判別分析 k-XQDA(Kernel Cross-view Quadratic Discriminant Analysis,k-XQDA)[9]由Feroz提出.然而,這種非線性度量學(xué)習(xí)方法在因樣本規(guī)模小存在的偏差很大程度上影響核化后的判別能力.同時(shí),由于核化空間高維度的復(fù)雜性,現(xiàn)在的改進(jìn)方法只適用于非核化空間下的情況.
針對上述問題,本文提出一種有效的改進(jìn)方法,將MCE準(zhǔn)則(Minimum classification error,MCE)[15]與k-XQDA結(jié)合.針對樣本容量小導(dǎo)致樣本協(xié)方差的逆出現(xiàn)較大偏差,在原空間中通過最小誤差分類準(zhǔn)和平滑技術(shù)有效減小大的特征值,適當(dāng)放大小的特征值,又由于跨視角間樣本出現(xiàn)的非線性變化問題,通過理論推導(dǎo)將原空間改善后的特征值有效引入核化空間,優(yōu)化核化空間中的度量矩陣提升距離度量的準(zhǔn)確性,稱為最小分類誤差的跨視圖二次判別分析(MCE-KXQDA).實(shí)驗(yàn)表明,MCE-KXQDA基于最小誤差分類準(zhǔn)則和平滑技術(shù)能顯著提高k-XQDA的性能.
XQDA[5]算法在KISSME算法的基礎(chǔ)上將跨視圖的數(shù)據(jù)映射到子空間中,在對特征降維的同時(shí)學(xué)習(xí)距離度量.兩個(gè)樣本xi和xj,Δij=xi-xj表示特征差值,定義類內(nèi)差值ΩS和類間差值ΩD服從均值為0的兩個(gè)高斯分布,δ(Δij)為決策函數(shù).
(1)
其中ΩS和ΩD協(xié)方差矩陣分別是ΣS和ΣD,δ(Δij)數(shù)值的高低分別對應(yīng)Δij∈ΩD與Δij∈ΩS,可以得出:
(2)
假設(shè)在給定的c個(gè)類別中有n個(gè)樣本X=(x1,x2,…,xn)源于同一視角,另有m個(gè)樣本Z=(z1,z2,…,zm)源于其他的視角,對xi,zi∈Rd.在跨視圖訓(xùn)練集{X,Z}學(xué)習(xí)一個(gè)低維子空間W={w1,w2,…,wb}∈Rd×b,并在低維子空間內(nèi)學(xué)習(xí)一個(gè)距離度量將同類樣本和非同類樣本盡量區(qū)分開.低維子空間的相似距離由如下公式算出:
(3)
(4)
最大化J(wk)等價(jià)于:
(5)
(6)
(7)
對XQDA進(jìn)行核化,得到非線性維空間上的形式被稱為k-XQDA[9].假設(shè)給定的核化方程記作k(xi,xj)=〈Φ(xi),Φ(xj)〉,Φ(x)表示將x核化后的數(shù)據(jù)形式,Φ(x)∈RD×n,D?d.對于訓(xùn)練數(shù)據(jù)集核化后的矩陣(X,Z)∈Rd×(n+m),K核化后的協(xié)方差矩陣,K∈R(n+m)×(n+m),對核矩陣進(jìn)行分塊處理:
其中Φ=[ΦX,ΦZ],θ=[αk,βk]T.非線性核化的損失函數(shù)J(wk)通過式(6)、式(7)可以進(jìn)行簡化計(jì)算.具體核化過程如下:
nSΣS=A+B-C-D
(8)
(9)
(10)
(11)
(12)
(13)
(14)
(15)
(16)
(17)
對分子的核化nDΣD=U+V-E-P-nSΣS其中:
(18)
其中Φi表達(dá)式為:
ΦX=[Φ(x1),…,Φ(xn1),…,Φ(xn)]
(19)
ΦZ=[Φ(z1),…,Φ(zm1),…,Φ(zm)]
(20)
(21)
(22)
(23)
(24)
由式(8)-式(17)和式(18)-式(24)分別求出J(wk)的分子和分母部分,最大化J(wk)求出非線性空間中的度量矩陣:
(25)
由于數(shù)據(jù)規(guī)模較小,存在的數(shù)據(jù)偏差將影響判別模型的效率和魯棒性.引入最小分類誤差準(zhǔn)則和平滑技巧結(jié)合非線性維度空間的表示,得出更高效的判別模型MCE-kXQDA.小樣本導(dǎo)致的數(shù)據(jù)偏差會(huì)使得協(xié)方差矩陣特征值大的偏大,特征值小的偏小.最小分類準(zhǔn)則和平滑技巧可以有效減小數(shù)據(jù)偏差造成的影響,非線性核化方法可以使算法更具魯棒性,將兩者結(jié)合進(jìn)一步提升判別準(zhǔn)確率.
對于任意一組數(shù)據(jù)的協(xié)方差矩陣Σi,Φi表示組成協(xié)方差矩陣的特征向量,Λi是特征向量對應(yīng)特征值構(gòu)成的對角陣,協(xié)方差矩陣可以表示為:
兩個(gè)樣本的距離δ(xij)可以表示為:
特征值中d-k個(gè)小的特征值使用平滑技巧得到新的特征值:
在Tao等人提出的MCE-KISS[15]中hc表示屬于類別c中樣本x的誤分類的評價(jià)函數(shù):
在考慮內(nèi)類最遠(yuǎn)距離和類間最近距離的基礎(chǔ)上得出的單個(gè)類別c誤分類的損失函數(shù)lc,其中ξ是超參數(shù):
給定了訓(xùn)練樣本{xn|n=1,2,…,N}和每個(gè)樣本對應(yīng)的標(biāo)簽{Ci|i=1,2,…,M},下式計(jì)算經(jīng)驗(yàn)損失:
利用梯度下降法對參數(shù)θ進(jìn)行更新如下,其中ε是步長:
式中c表示相同類別,r表示不同類別.在學(xué)習(xí)過程中,我們需要保證特征值是正的,所以我們進(jìn)一步定義:
進(jìn)一步計(jì)算出確切的參數(shù)更新的形式:
(26)
(27)
(28)
(29)
(30)
對協(xié)方差矩陣做出的調(diào)整可以轉(zhuǎn)化為對特征值矩陣的線性變化,Λ′為線性變化的矩陣,故調(diào)整后的協(xié)方差矩陣Σ′可以表示為:
Σ′=ΦΛ′ΛΛ′ΦT
(31)
在原空間調(diào)整后的協(xié)方差矩陣Σ′可以進(jìn)一步調(diào)整為下面的形式:
(32)
結(jié)合式(30)-式(32)可以得出原空間優(yōu)化后的數(shù)據(jù)矩陣Y′:
Y′=Λ′TY,Y=X,Z
(33)
最小分類準(zhǔn)則和平滑技巧對原空間協(xié)方差矩陣中特征值做出了有效調(diào)整,其調(diào)整后的特征值對角陣可以視為從原對角陣通過線性變換得到,任何線性變化都可以由對應(yīng)的線性變化矩陣Λ′ 表示.原數(shù)據(jù)矩陣X,Z通過式(30)-式(33)得到調(diào)整后的數(shù)據(jù)矩陣X′,Z′.將調(diào)整后的數(shù)據(jù)矩陣X′,Z′有效的引入核化空間,由式(8)-式(24)可得:
(34)
(35)
(36)
(37)
核化后的距離計(jì)算如下:
(38)
(39)
圖1 MCE-kXQDA算法框架
MCE-kXQDA算法:
輸入:訓(xùn)練數(shù)據(jù)X=(x1,x2,…,xn),Z=(z1,z2,…,zm),類別列表y={1,2,…,c}
輸出:樣本xi和zj的距離
2.通過式(30)-式(33)得出調(diào)整后的數(shù)據(jù)矩陣X′,Z′
3.通過式(34)構(gòu)建核化矩陣K′
8.通過式(39)計(jì)算出距離d(Φ(xi),Φ(zj))
在行人重識別實(shí)驗(yàn)中,測試集標(biāo)簽被認(rèn)為在訓(xùn)練過程中是不可見的.我們將數(shù)據(jù)集的一半作為訓(xùn)練集一半作為測試集.每個(gè)人被視為一個(gè)不同的類,為了進(jìn)行測試,一個(gè)視圖中的測試圖像形成查詢集,其他視圖中的測試圖像形成圖庫集.查詢根據(jù)圖庫進(jìn)行匹配,并根據(jù)匹配得分獲得一個(gè)排序列表.rank-N表示前N匹配樣本中的準(zhǔn)確率.重復(fù)上述過程10次,評估平均性能.
數(shù)據(jù)集:我們使用了3個(gè)標(biāo)準(zhǔn)數(shù)據(jù)集,包括CUHK01[16],GRID[17]和PRID2011[18],這些數(shù)據(jù)集為實(shí)驗(yàn)提供了較小的訓(xùn)練集,庫中所有圖像樣本均被歸一化到160×60的尺寸.
CUHK01數(shù)據(jù)集采集于香港中文大學(xué),包含3884幅行人圖片,一共971個(gè)標(biāo)簽.來自每個(gè)攝像機(jī)的每個(gè)身份的兩個(gè)圖像.該數(shù)據(jù)集有一對互不連接的攝像機(jī),圖像質(zhì)量較好,如圖2所示.基于LOMO特征模型提取的圖像特征,進(jìn)行10次重復(fù)的獨(dú)立實(shí)驗(yàn),計(jì)算平均值作為識別精度的測試結(jié)果.本文提出的算法在k-XQDA基礎(chǔ)上做的改進(jìn),首先和k-XQDA[9]對比,在rank-1,rank-5,rank-10,rank-20均取得最優(yōu),特別在rank-1精度上達(dá)到了62.12%.同時(shí),與考慮半正定限制條件和采用非對稱樣本加權(quán)策略的MLAPG[22]算法和基于核化的KNFST[23]對比中也取得更好的效果.實(shí)驗(yàn)也驗(yàn)證了KNFST的結(jié)論,具體對比結(jié)果如表1所示.
圖2 CUHK01數(shù)據(jù)集的行人樣本
表1 在CUHK01數(shù)據(jù)集上實(shí)驗(yàn)結(jié)果
GRID數(shù)據(jù)集包含250對行人圖像.每一組包含了同一個(gè)人從不同的相機(jī)視圖中看到的兩幅圖像.所有的圖像都是從安裝在一個(gè)繁忙的地鐵站的8個(gè)獨(dú)立的攝像頭視圖中拍攝的,如圖3所示.由于姿態(tài)、顏色、光線的變化,數(shù)據(jù)集具有挑戰(zhàn)性;以及空間分辨率低導(dǎo)致的圖像質(zhì)量差.同時(shí),在GRID數(shù)據(jù)集的圖庫有額外的775張圖像,它們與查詢集具有不同的身份,并充當(dāng)干擾物.本文在GRID數(shù)據(jù)庫上基于GOG和LOMO疊加模型提取圖像特征,進(jìn)行10次重復(fù)的獨(dú)立實(shí)驗(yàn),計(jì)算平均值作為精度的測試結(jié)果.在與k-XQDA對比不同級別的準(zhǔn)確率上都較優(yōu),在rank-1上提升達(dá)到11.19%.與OL-MANS相比,省去計(jì)算每次為每個(gè)查詢圖像獨(dú)立的二次度量,在提高識別精度的同時(shí)保證了計(jì)算效率,具體對比結(jié)果如表2所示.
圖3 GRID數(shù)據(jù)集的行人樣本
表2 在GRID數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果對比
PRID2011中有385條軌跡來自攝像頭A,749條軌跡來自攝像頭B,其中兩個(gè)攝像頭中都只出現(xiàn)了200人,本文外加入了549張圖像,它們與查詢集具有不同的身份,并充當(dāng)干擾物,如圖4所示.數(shù)據(jù)庫上基于GOG模型提取圖像特征,進(jìn)行10次重復(fù)的獨(dú)立實(shí)驗(yàn),計(jì)算平均值作為識別精度的測試結(jié)果.對比其他算法,在不同的級別的準(zhǔn)確率都處于最優(yōu),在rank-的識別精度上,超過k-XQDA8.44%,與采取核化方法的KNFST算法相比可以精度超過14.74%.對比結(jié)果如表3所示.
圖4 PRID2011數(shù)據(jù)集的行人樣本
表3 在PRID2011數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果對比
本文基于LOMO特征模型提取的圖像特征從CUHK01數(shù)據(jù)集選取不同數(shù)據(jù)樣本量大小的算法對辨識精度做了測試.如圖5所示,在數(shù)據(jù)量p=800、600、400和200這4種條件下算的識別精度,從圖中可知在數(shù)據(jù)量下降明顯的條件下,算法保持較高的識別精度,對數(shù)據(jù)量大小的變化具有較強(qiáng)的魯棒性.
圖5 算法識別精度對比圖
本文提出基于核化跨視圖二次判別法的改進(jìn)方法.本算法將原空間下對協(xié)方差矩陣優(yōu)化調(diào)整有效的引入核化空間,提出最小分類誤差原則及平滑技巧與核化跨視圖二次判別法結(jié)合,得出更有效的度量矩陣提高判別準(zhǔn)確率.為了驗(yàn)證本文方法的有效性,實(shí)驗(yàn)選取了CUHK01,GRID,PRID2011這3個(gè)公開數(shù)據(jù)庫上,并分別用不同的特征提取模型對算法進(jìn)行了測試,測試結(jié)果顯示本文算法在不同級別的準(zhǔn)確率上都取得最優(yōu),優(yōu)于改進(jìn)前的核化跨視圖二次判別法.本算法在數(shù)據(jù)量變化是具有較強(qiáng)的魯棒性,在不同大小的數(shù)據(jù)樣本下測試算法識別精度,在樣本量較小的情況下保持較高的識別精度.