許方潔 成科揚(yáng) 張建明
(江蘇大學(xué)計算機(jī)科學(xué)與通信工程學(xué)院,鎮(zhèn)江,212013)
隨著人工智能的發(fā)展和高清監(jiān)控攝像的普及,人們的公共安全意識逐步提高,行人視頻監(jiān)控已經(jīng)滲透在我們生活的各個方面。行人再識別作為行人視頻監(jiān)控中最為重要的一項技術(shù),廣泛應(yīng)用于類似公共場所監(jiān)控、犯罪預(yù)防和案件偵破等安全領(lǐng)域。行人再識別,即在某攝像頭中出現(xiàn)的人物在另一攝像頭中出現(xiàn)或在同一攝像頭中不同時間出現(xiàn)時,計算機(jī)能夠自動判斷是同一人物的技術(shù),主要由特征提取與分類器設(shè)計兩大模塊構(gòu)成。在特征表示方面,顏色、紋理、邊緣和形狀等傳統(tǒng)特征被廣泛地應(yīng)用在行人特征的表示上,或?qū)⒍喾N具有互補(bǔ)性質(zhì)的特征相結(jié)合[1],在一定程度上來克服因視角、光線等條件變化造成的影響。然而,這些特征并非都具有同等地位,很有必要對不同特征進(jìn)行加權(quán),文獻(xiàn)[2]提出無監(jiān)督顯著性學(xué)習(xí)方法,其通過學(xué)習(xí)每個特征塊的顯著性來對兩幅圖的相似性進(jìn)行加權(quán),有效提高了算法的再識別率;文獻(xiàn)[3]在Zhao等工作的基礎(chǔ)上,針對行人再識別中目標(biāo)類間顯著性外觀特征的不穩(wěn)定問題,融合圖像的內(nèi)在顯著性特征提出了一種新的行人再識別算法。特征分布的空間信息也是一種重要的線索,將行人圖像分割成不同片段或區(qū)域來進(jìn)行特征提取[4,5],分割方法有橫向條紋分割、三角圖形分割、同心環(huán)分割及局部塊分割等?;谌梭w結(jié)構(gòu)對稱這一生物特性,文獻(xiàn)[6]將行人分為頭部、軀干和腿部,分別以軀干和腿部的垂直對稱軸為中心建立基于國際照明學(xué)會推薦顏色空間模型(Commission international eclairage LAB,CIELAB)的局部加權(quán)空間直方圖,并結(jié)合貝葉斯框架下基于局部統(tǒng)計特征的顯著區(qū)域檢測方法描述行人外觀特征。
以上人為設(shè)定的特征受到場景影響較大,通常需要專業(yè)人員針對不同場景進(jìn)行深入研究來確定[7]。此外,人體作為一種非剛性對象,采用人工設(shè)定的固定特征來表示行人并非是最好的選擇。從機(jī)器學(xué)習(xí)的角度來看,由數(shù)據(jù)驅(qū)動提取的特征更能夠體現(xiàn)行人對象的本質(zhì)以及行人之間的區(qū)分性。深度學(xué)習(xí)是近年來機(jī)器學(xué)習(xí)領(lǐng)域較為熱門的話題,它是一種特征學(xué)習(xí)方法,把原始數(shù)據(jù)通過一些簡單的非線性模型轉(zhuǎn)變?yōu)楦邔哟蔚?、更加抽象的表達(dá)[8]。相比傳統(tǒng)神經(jīng)網(wǎng)絡(luò),其優(yōu)勢在于通過無監(jiān)督的逐層模型來感知圖像的高層特征,從而獲得更能表示圖像的本質(zhì)特征。此外,行人視頻監(jiān)控領(lǐng)域中存在的大量無標(biāo)簽數(shù)據(jù),對于傳統(tǒng)有監(jiān)督的學(xué)習(xí)方法來說是影響識別效率的重大問題,而深度學(xué)習(xí)中的無監(jiān)督算法恰恰適應(yīng)了這種情況,為行人再識別帶來了希望。
將提取到的圖像特征輸入分類器可獲得從低層特征到類別的直接映射,然而在行人再識別中,獲得每個行人的大量訓(xùn)練樣本是不可能實(shí)現(xiàn)的,因此,這種傳統(tǒng)低層特征直接到類別的映射方法在行人再識別任務(wù)中并不可取。此外,基于數(shù)字的低層特征并不能被人所理解,其缺乏語義的本質(zhì)限制了行人再識別的應(yīng)用,例如,在對罪犯的所搜中,目擊者往往只能提供罪犯的發(fā)型、服裝和攜帶物等外貌特征。而由于監(jiān)控視頻清晰度有限或者僅僅捕捉到行人的側(cè)臉或后背等原因,發(fā)展成熟的人臉識別技術(shù)常常沒有辦法很好地應(yīng)用在行人再識別上。相比于人臉上的眼睛、鼻子等細(xì)小的五官特征,在監(jiān)控視頻中更容易獲得發(fā)型、服裝這類明顯的外貌特征。這些外貌特征稱之為行人的屬性,即可用于區(qū)分行人的具有語義表達(dá)能力的中層特征。屬性學(xué)習(xí)就是在低層特征與類別之間加入一層具有語義性質(zhì)的屬性,使得行人識別算法更符合實(shí)際應(yīng)用需求。本文結(jié)合了深度學(xué)習(xí)與屬性學(xué)習(xí)的優(yōu)勢,將兩者結(jié)合并應(yīng)用于行人再識別該特定任務(wù)中,從特征的提取與表示兩方面提高了行人再識別算法的準(zhǔn)確性與實(shí)用性。
本文提出的基于深度學(xué)習(xí)與屬性學(xué)習(xí)相結(jié)合的行人再識別方法主要由兩個模塊組成:特征提取模塊與屬性分類模塊。特征的提取選用深度學(xué)習(xí)中的無監(jiān)督學(xué)習(xí)模型——卷積自動編碼器(Convolutional auto-encoder, CAE)來對卷積神經(jīng)網(wǎng)絡(luò)(Convolutional neural network, CNN)模型進(jìn)行訓(xùn)練,解決了無標(biāo)簽樣本的訓(xùn)練問題。由屬性分類器對CAE提取的特征進(jìn)行屬性分類,并結(jié)合“屬性-類別映射關(guān)系”獲得最終的識別結(jié)果。本文的行人再識別方法整體框架參考圖1。
圖1 基于深度學(xué)習(xí)與屬性學(xué)習(xí)相結(jié)合的行人再識別方法框架Fig.1 Framework of deep learning and attributes learning based pedestrian re-identification method
輸入圖片經(jīng)過多層CAE的特征提取獲得多張?zhí)卣鲌D,屬性分類器集合中包含多個屬性相關(guān)的支持向量機(jī)(Support vector machine, SVM)分類器,將CEA提取的多張?zhí)卣鲌D拉成一條向量并進(jìn)行稀疏化,因此,每個輸入樣本對應(yīng)一個稀疏向量。將該稀疏向量輸入所有分類器,獲得對應(yīng)屬性的概率p(ak|x)分布,即對于每個屬性,樣本具有該屬性的概率?!皩傩?類別映射關(guān)系表”由統(tǒng)計而來,其中每個元素代表具有屬性ak的情況下屬于類別yj的概率。
普通自動編碼器與堆疊自動編碼器不能處理二維圖像的池化與白化問題,并且大量冗余參數(shù)被強(qiáng)迫參與計算使得運(yùn)算效率低下,而CAE是一種專門用于處理圖像數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò)[9],具有無監(jiān)督學(xué)習(xí)的能力,能夠?yàn)榫矸e神經(jīng)網(wǎng)絡(luò)提供模型訓(xùn)練。本文針對所選數(shù)據(jù)集為行人再識別設(shè)計了一個多層CNN網(wǎng)絡(luò),并通過CAE對每一層網(wǎng)絡(luò)進(jìn)行訓(xùn)練,過程如圖2所示。每一層的輸入圖像X進(jìn)行卷積操作得到一系列特征圖h,經(jīng)過Max-Pooling后通過反卷積操作重構(gòu)原輸入圖像得到Y(jié),X與Y的誤差作為該隱含層的參數(shù)調(diào)整依據(jù),權(quán)值和偏置的更新通過傳統(tǒng)反向傳播算法(Backpropagation algorithm, BP)獲得。參考文獻(xiàn)[10],根據(jù)數(shù)據(jù)集圖像構(gòu)建3層隱層網(wǎng)絡(luò):第1層卷積層C1設(shè)定100張?zhí)卣鲌D,為集合h1,卷積核K1大小為5×5,次采樣層采用2×2的Max-Pooling窗口;第2層卷積層C2設(shè)定150張?zhí)卣鲌D,集合為h2,卷積核K2大小為5×5,次采樣層Max-Pooling窗口大小為2×2;第3層卷積層C3特征圖有200張,集合為h3,卷積核K3大小針對圖像尺寸設(shè)為3×3,次采樣層Max-Pooling窗口大小為2×2。卷積操作步長為1,Max-Pooling操作步長均為2。經(jīng)過Max-Pooling后的圖像保持原來尺寸,僅把Max-Pooling窗口掃過區(qū)域中非最大值的像素設(shè)為0,而Pooling操作后,圖像中的0像素均被刪除,原圖像尺寸減半。
圖2 卷積自動編碼器編碼器訓(xùn)練過程Fig.2 Training process of CAEs
1.3.1 行人屬性
行人屬性是關(guān)于行人外貌的語義性描述,人體不同的部位具有不同的屬性,例如,人體頭部相關(guān)屬性有“禿頂”、“帶帽”、“長發(fā)”以及“短發(fā)”等;衣服款式相關(guān)屬性有“長袖”“短袖”“連衣裙”和“短裙”等;鞋子相關(guān)屬性有“單色鞋”“多色鞋”“平底鞋”和“高跟鞋”等;攜帶物相關(guān)屬性有“雙肩包”“單肩包”“手提包”和“無攜帶”等。在不同環(huán)境和場合可以對行人屬性進(jìn)行選擇和細(xì)分,使之有利于行人的再識別。例如,在機(jī)場、火車站等流通區(qū)域,“行李箱”“背包”等屬性就成為普遍屬性,而這些屬性在商場可能并不適用。本文參考行人再識別領(lǐng)域?qū)<业难芯?,并基于VIPeR數(shù)據(jù)庫行人特點(diǎn),選取數(shù)據(jù)集中存在并具有區(qū)分性的屬性用于行人再識別。具體選用了“帶帽”“短發(fā)”“長發(fā)”“長袖”“短袖”“穿外套”“長褲”“短褲”“有花紋”“有LOGO”“雙肩包”“單肩包”“手提包”“手拿物品”“涼鞋”“單鞋”和“靴子”這17個屬性。對所有訓(xùn)練樣本進(jìn)行關(guān)于這些屬性的標(biāo)記,并為每一個屬性訓(xùn)練一個SVM分類器。圖片的屬性標(biāo)簽以1和-1表示,1代表圖片中行人具有該屬性,為正樣本,而-1則代表不具有該屬性,為負(fù)樣本。圖3展示了部分具有屬性的樣本。
圖3 行人屬性示例Fig.3 Examples of pedestrian’s attributes
1.3.2 屬性學(xué)習(xí)
對于有監(jiān)督的學(xué)習(xí)方法,每個類別需要大量樣本來對模型進(jìn)行訓(xùn)練,而在實(shí)際情況中,搜集每個行人的大量圖像并不可取,而屬性學(xué)習(xí)則能夠有效克服類別樣本稀缺問題。由于在屬性學(xué)習(xí)階段,需要知道的是某個行人是否具有某個屬性,而不是該行人是誰,而屬性具有共享性,即某個屬性被許多人所共有,那么針對屬性的學(xué)習(xí)就可以利用這些具有該屬性的不同行人樣本進(jìn)行訓(xùn)練,而具有該屬性的訓(xùn)練樣本就可以很充足,足以訓(xùn)練出效果良好的分類器。
行人屬性設(shè)計完成后,為每一個屬性設(shè)計一個SVM分類器,將CAE最后獲得的特征作為屬性分類器的輸入。訓(xùn)練分類器時,具有該屬性的樣本作為正樣本,不具有該屬性的樣本作為負(fù)樣本,將正負(fù)樣本輸入該屬性分類器以進(jìn)行訓(xùn)練,以獲得樣本具有該屬性的概率,即屬性的后驗(yàn)概率p(ak|x),每個屬性分類器都作類似訓(xùn)練。屬性的先驗(yàn)概率由統(tǒng)計獲得,構(gòu)成一張“屬性-差別”映射概率表。表1中展示了10個類別對應(yīng)10個屬性的概率,每一元素代表具有屬性ak的樣本屬于類別yj的概率,即p(yj|ak)。根據(jù)條件概率公式計算類別的后驗(yàn)概率,即
(1)
取類別后驗(yàn)概率最大的類作為對樣本的判別類,即
(2)
表1 屬性-類別映射概率表示例
圖4 行人圖片對應(yīng)屬性 Fig.4 Corresponding attributes in one pedestrian sample
本文采用行人再識別中常用的VIPeR公共行人數(shù)據(jù)庫[11]進(jìn)行訓(xùn)練和測試。VIPeR數(shù)據(jù)庫包含632個行人的1 264張圖像,由兩個不同視場的攝像頭拍攝,每個行人分別具有兩張不同角度、光線和姿態(tài)的圖片。對于有監(jiān)督的學(xué)習(xí)方法,每個行人2張圖片無法訓(xùn)練有效的識別模型,而屬性學(xué)習(xí)成功避免了這個問題。根據(jù)本文設(shè)定的17個屬性對1 264張樣本圖片進(jìn)行屬性標(biāo)注,圖4給出了其中1張行人圖像所具有的屬性,這些屬性對應(yīng)的標(biāo)簽即為1,其余屬性標(biāo)簽即為-1。632個行人對應(yīng)了632個類別,實(shí)驗(yàn)中,圖片樣本類別以1~632的數(shù)字來表示。本文采用文獻(xiàn)[12]提出的交叉驗(yàn)證方法,將VIPeR數(shù)據(jù)庫隨機(jī)分為10等份,1份作為測試集,確保其中不存在屬性完全相同的兩個樣本,其余9份用于訓(xùn)練,重復(fù)10次,以10次實(shí)驗(yàn)的平均值作為實(shí)驗(yàn)結(jié)果。
圖5 屬性分類器識別率Fig.5 Accuracies of attribute classifiers
經(jīng)過10次實(shí)驗(yàn),對結(jié)果求平均, 以上17個屬性分類器的測試準(zhǔn)確率如圖5所示,可以看出數(shù)據(jù)集對于某些屬性,如“短發(fā)”“長發(fā)”“長袖”和“短袖”等屬性的分類準(zhǔn)確率相比其他屬性稍低。這是由于VIPeR數(shù)據(jù)集中采集的行人圖片背景比較復(fù)雜,尤其上半身區(qū)域?qū)?yīng)背景中常有樹木、建筑等干擾圖像,若對圖片進(jìn)行適當(dāng)?shù)谋尘胺蛛x,屬性分類器的識別效率應(yīng)該會更高。
本文采用的17個屬性與文獻(xiàn)[13]所采用的屬性有部分相同或相似,表2列舉了6個相同及相似屬性分類器的分類準(zhǔn)確率以及該6個屬性分類器的平均準(zhǔn)確率作為比較。文獻(xiàn)[13]采用顏色和紋理這兩個傳統(tǒng)的低層特征作為屬性分類器的輸入,顏色特征包括RGB,HSV和YCbCr共8個通道,再由亮度通道導(dǎo)出21個紋理特征,隨后將特征交給SVM分類器進(jìn)行分類識別。由表2可知,對于相同屬性或相似屬性,由本文CAE提取的特征所訓(xùn)練的屬性識別準(zhǔn)確率總體上要高于文獻(xiàn)[13]中基于優(yōu)化屬性的行人再識別方法(Optimized attribute based re-identification,OAR)方法達(dá)到的準(zhǔn)確率,如在屬性“有l(wèi)ogo”上識別率高出10%以上,而在屬性“手提包”上高出30%以上,在屬性“雙肩包”、“穿短褲”和“穿長褲”上識別率也有較大的提高。并且,屬性的平均識別率也有所提高,由此體現(xiàn)了深度學(xué)習(xí)模型CAE在特征提取上的優(yōu)勢。
如表3所示,本文在VIPeR數(shù)據(jù)集上進(jìn)行行人再識別實(shí)驗(yàn)的準(zhǔn)確率達(dá)到27.5%,與文獻(xiàn)[13]所達(dá)到的最高第一匹配率21.4%相比高出約6%。與文獻(xiàn)[14]采用的設(shè)定屬性與自挖掘?qū)傩越Y(jié)合的方法相比,識別率高出近10%。與文獻(xiàn)[6]采用顯著性檢測對應(yīng)k最近鄰法(Salience detection correespondence k-nearest neighbor,SDC-knn)和顯著檢測對應(yīng)單類支持向量機(jī)法(Salience detection correspondence one-class support vector machine, SDC-OCSVM)對顏色特征與尺度不變特征變換(Scale-invariant feature transform,SIFT)特征進(jìn)行分類的方法相比,本文識別率也占有優(yōu)勢。文獻(xiàn)[15]采用改進(jìn)的深度學(xué)習(xí)方法進(jìn)行特征提取,實(shí)現(xiàn)了28.2%的識別率,雖然高于本文方法,但其方法提取的特征缺乏語義表達(dá)能力,因此在實(shí)際應(yīng)用中缺乏實(shí)用價值。
表2 屬性分類器準(zhǔn)確率比較
表3 在VIPeR數(shù)據(jù)庫上的行人再識別識別率
表4 在i-LIDS數(shù)據(jù)集上的零樣本識別率
Tab.4Zero-shotrecognitionrateson
i-LIDSdataset
%
由于屬性具有共享性,本文所提出的行人再識別方法同樣可以對于缺乏訓(xùn)練樣本的行人圖像進(jìn)行識別區(qū)分。將本文訓(xùn)練好的深度模型和屬性分類器直接用于i-LIDs[16]行人數(shù)據(jù)集,得到22.1%的識別率。由表4可知,文獻(xiàn)[17]提出的基于屬性解釋的再識別方法(Attribute interpreted-identification,AIR)以及加權(quán)AIR方法在i-LIDS上的零訓(xùn)練樣本識別率分別為11.5%和16.5%,均低于本文所達(dá)到的零訓(xùn)練樣本識別率。
實(shí)驗(yàn)證明,本文提出的基于深度學(xué)習(xí)與屬性學(xué)習(xí)相結(jié)合的行人再識別方法能夠有效提高行人再識別的準(zhǔn)確率,并增強(qiáng)再識別系統(tǒng)的語義表達(dá)能力,同時,對于零訓(xùn)練樣本能夠?qū)崿F(xiàn)較好的識別能力,使得該行人再識別系統(tǒng)能夠更有效、更實(shí)用地應(yīng)用在各安全領(lǐng)域。
行人再識別具有巨大發(fā)展前景,但也存在著因視角、姿態(tài)、光照和遮擋等各種變化因素導(dǎo)致的挑戰(zhàn)。本文提出了一種基于深度學(xué)習(xí)與屬性學(xué)習(xí)相結(jié)合的行人再識別方法,首先,為行人圖像構(gòu)建一個多層卷積神經(jīng)網(wǎng)絡(luò)用以提取行人特征,并通過卷積自動編碼器進(jìn)行網(wǎng)絡(luò)的無監(jiān)督訓(xùn)練;然后設(shè)計了17個行人外貌相關(guān)屬性來對不同的行人進(jìn)行區(qū)分,充分利用了深度學(xué)習(xí)提取特征的優(yōu)勢與屬性富有語義的特點(diǎn),在一定程度上提高了存在各種變化因素情況下行人再識別方法的準(zhǔn)確率與實(shí)用性。得益于屬性所具有的共享特性,本文提出的方法能夠?qū)θ狈τ?xùn)練樣本的行人圖像進(jìn)行較好的遷移識別能力。由于屬性的設(shè)計對再識別的影響重大,如何實(shí)現(xiàn)數(shù)據(jù)驅(qū)動的屬性生成方法是下一步研究的主要內(nèi)容。