丁正彥,尚巖峰,張重陽
1.公安部第三研究所物聯(lián)網(wǎng)技術(shù)研發(fā)中心,上海 201204;2.上海交通大學(xué)電子信息與電氣工程學(xué)院,上海 200240
行人屬性識(shí)別任務(wù)一直以來都是智能視頻分析領(lǐng)域的研究熱點(diǎn)。該任務(wù)在行人檢測(cè)(羅艷 等,2022)的基礎(chǔ)上,通過識(shí)別行人目標(biāo)的視覺屬性,包括性別、年齡、衣著以及攜帶物等語義內(nèi)容,為目標(biāo)結(jié)構(gòu)化描述與快速檢索提供支撐。
隨著深度學(xué)習(xí)技術(shù)的不斷發(fā)展,尤其是卷積神經(jīng)網(wǎng)絡(luò)模型在圖像分類領(lǐng)域的廣泛應(yīng)用,研究人員提出了許多基于深度網(wǎng)絡(luò)模型的行人屬性識(shí)別優(yōu)化方法。Li 等人(2015)引入多屬性聯(lián)合學(xué)習(xí)機(jī)制,通過單個(gè)骨干網(wǎng)絡(luò)模型得到多屬性共享的全局特征,從而有效挖掘?qū)傩灾g的相互關(guān)系。Liu 等人(2017)引入視覺注意機(jī)制,采用多方向注意力模塊對(duì)骨干網(wǎng)絡(luò)模型的不同語義層提取注意力特征圖,并借助多尺度融合模塊實(shí)現(xiàn)特征優(yōu)化。Tang 等人(2019)引入屬性相關(guān)的弱監(jiān)督定位機(jī)制,結(jié)合高層語義的指導(dǎo)信息,實(shí)現(xiàn)特定屬性關(guān)注區(qū)域的多尺度自適應(yīng)感知。
另一方面,研究人員通過采集不同場(chǎng)景下的行人目標(biāo)數(shù)據(jù),并標(biāo)注相關(guān)屬性信息,構(gòu)建了多個(gè)面向行人屬性識(shí)別任務(wù)的大規(guī)模公開數(shù)據(jù)集,例如PA100K(pedestrian attribute 100K)(Liu 等,2017)、PETA(pedestrian attribute)(Deng 等,2014)、RAPv1(richly annotated pedestrian v1)(Li 等,2016)和RAPv2(richly annotated pedestrian v2)(Li 等,2019),涵蓋各種全局目標(biāo)屬性和局部目標(biāo)屬性,其中全局屬性主要包括性別、年齡等,局部屬性主要包括頭部屬性、上身屬性和下身屬性等。
但是,現(xiàn)階段行人屬性識(shí)別任務(wù)存在的主要問題在于某些屬性類別的樣本分布嚴(yán)重不均衡,以RAPv2 數(shù)據(jù)集為例,屬性類別總數(shù)為54 個(gè),其中正樣本所占比例低于10%的屬性類別達(dá)到34個(gè),占比超過60%(34/54),如圖1所示(黃色標(biāo)注)。
圖1 RAPv2數(shù)據(jù)集的各個(gè)屬性類別正樣本比例統(tǒng)計(jì)情況Fig.1 Positive sample ratio for each attribute category of RAPv2 dataset
針對(duì)樣本分布不均衡的問題,研究人員通常重點(diǎn)關(guān)注其中實(shí)例數(shù)較少的類別(記做少數(shù)類),在模型訓(xùn)練過程中引入了多種優(yōu)化策略。1)數(shù)據(jù)增廣策略。通過對(duì)少數(shù)類進(jìn)行數(shù)據(jù)混合(Zhang 等,2018)或數(shù)據(jù)噪聲(Zhong 等,2020)等操作,隨機(jī)生成新訓(xùn)練樣本,從而增加相關(guān)類別的數(shù)量比例,該方法在目標(biāo)實(shí)例分割等任務(wù)中也廣泛使用(Ghiasi 等,2021);2)損失加權(quán)策略。在損失函數(shù)的設(shè)計(jì)過程中增加類別自適應(yīng)的權(quán)重,從而選擇性地提高少數(shù)類的樣本重要程度(Jia 等,2020);3)遷移學(xué)習(xí)策略,在樣本均衡的相關(guān)數(shù)據(jù)集上進(jìn)行模型預(yù)訓(xùn)練,并通過特征遷移實(shí)現(xiàn)少數(shù)類樣本數(shù)據(jù)上的模型泛化(Liu等,2019)。
雖然上述方法能夠緩解樣本分布不均衡問題,但是如何根據(jù)具體任務(wù)特點(diǎn)進(jìn)行多種優(yōu)化策略的互補(bǔ)融合仍然有待進(jìn)一步研究。因此,本文針對(duì)行人多屬性識(shí)別任務(wù),提出一種基于漸進(jìn)式迭代的優(yōu)化方法,深入融合上述3 種優(yōu)化策略,具體改進(jìn)如下:1)數(shù)據(jù)生成。針對(duì)行人目標(biāo)中的少數(shù)類屬性,采用馬賽克自編碼器(masked autoencoder,MAE)(He 等,2022)得到新生成的相關(guān)樣本數(shù)據(jù),通過提高少數(shù)類的正樣本比例,構(gòu)建基于屬性平衡化的數(shù)據(jù)生成模型(balanced attributes-data generation model,BADGM),同時(shí)實(shí)現(xiàn)從MAE 通用大模型到專用小任務(wù)的遷移學(xué)習(xí)和知識(shí)增強(qiáng)。2)數(shù)據(jù)判別。針對(duì)新生成的行人目標(biāo)數(shù)據(jù),采用基于原有數(shù)據(jù)訓(xùn)練的屬性判別模型進(jìn)行數(shù)據(jù)篩選,根據(jù)屬性預(yù)測(cè)的分布一致性剔除異常數(shù)據(jù),通過啟發(fā)式的注意力機(jī)制,構(gòu)建基于特征注意力的數(shù)據(jù)判別模型(attention features-data discrimination model,AF-DDM),其中判別模型在訓(xùn)練過程中需要根據(jù)樣本比例自適應(yīng)調(diào)整損失函數(shù)的權(quán)重,保證數(shù)據(jù)判別的有效性。3)漸進(jìn)式迭代。采用數(shù)據(jù)生成與數(shù)據(jù)判別相互交替的循環(huán)迭代框架,在不增加數(shù)據(jù)標(biāo)注代價(jià)的情況下,實(shí)現(xiàn)行人多屬性識(shí)別數(shù)據(jù)的漸進(jìn)式優(yōu)化,同時(shí)針對(duì)均衡后的數(shù)據(jù)集,通過知識(shí)蒸餾機(jī)制融合多個(gè)不同輪次的數(shù)據(jù)判別模型,如圖2 所示,構(gòu)建基于漸進(jìn)式迭代的蒸餾融合模型(progressive iterations-distillation fusion model,PIDFM),在不增加模型復(fù)雜度的情況下進(jìn)一步提升行人屬性識(shí)別精度。
圖2 基于漸進(jìn)式迭代的行人屬性識(shí)別優(yōu)化框架Fig.2 Optimization framework based on progressive iteration for pedestrian attributes recognition
在實(shí)際應(yīng)用過程中,本文所采用的基于漸進(jìn)式迭代的行人屬性識(shí)別優(yōu)化方法能夠通過無監(jiān)督學(xué)習(xí)機(jī)制,在海量無標(biāo)注的行人屬性識(shí)別數(shù)據(jù)集上進(jìn)行自適應(yīng)的數(shù)據(jù)均衡與模型融合,從而有效提升模型的泛化能力。
針對(duì)行人屬性識(shí)別任務(wù)中存在的樣本不均衡問題,現(xiàn)有的數(shù)據(jù)增廣策略主要通過數(shù)據(jù)混合和數(shù)據(jù)噪聲等操作實(shí)現(xiàn)。如圖3 所示,以常用的隨機(jī)擦除算法為例,隨機(jī)掩蓋部分圖像塊進(jìn)行模擬(掩蓋比例為0.3),可以發(fā)現(xiàn)隨機(jī)擦除后的樣本數(shù)據(jù)與真實(shí)場(chǎng)景數(shù)據(jù)存在明顯差異,并且可能丟失某些局部屬性相關(guān)的關(guān)鍵特征信息,導(dǎo)致訓(xùn)練穩(wěn)定性下降。
圖3 隨機(jī)掩蓋部分圖像塊與復(fù)原結(jié)果對(duì)比Fig.3 Comparison between random masks and restoration results
本文提出引入馬賽克自編碼器進(jìn)行圖像復(fù)原,經(jīng)過復(fù)原后的目標(biāo)圖像與真實(shí)場(chǎng)景的目標(biāo)圖像無明顯差異(圖3),可以作為少數(shù)類樣本數(shù)據(jù)的補(bǔ)充,從而實(shí)現(xiàn)基于屬性平衡化的數(shù)據(jù)生成。在具體實(shí)現(xiàn)過程中,采用一種改進(jìn)的MAE 算法,如圖4 所示。首先按照一定比例隨機(jī)掩蓋原始目標(biāo)中的部分圖像塊,然后通過非對(duì)稱的編碼器與解碼器結(jié)構(gòu)進(jìn)行復(fù)原操作,其中編碼器模塊采用基于Transformer 結(jié)構(gòu)的深度網(wǎng)絡(luò)模型(Dosovitskiy 等,2021)進(jìn)行特征編碼,而解碼器模塊則采用輕量級(jí)模型,MAE 模型預(yù)先在海量無標(biāo)注數(shù)據(jù)集上進(jìn)行自監(jiān)督訓(xùn)練,因此能夠很好地實(shí)現(xiàn)行人目標(biāo)的通用特征表示。另一方面,為了進(jìn)一步優(yōu)化模型對(duì)于行人目標(biāo)屬性特征的表示能力,本文采用大規(guī)模行人屬性識(shí)別數(shù)據(jù)對(duì)MAE 模型進(jìn)行微調(diào),并引入多個(gè)典型的行人屬性類別標(biāo)簽作為監(jiān)督信息,例如性別、年齡和衣著等。
在生成模型的訓(xùn)練過程中,本文采用原始MAE模型作為預(yù)訓(xùn)練模型,通過增加行人屬性識(shí)別相關(guān)的監(jiān)督約束(圖4),從而進(jìn)一步強(qiáng)化模型對(duì)于屬性相關(guān)的常識(shí)信息提取,訓(xùn)練階段馬賽克區(qū)域所占比例(masking ratio,MR)的隨機(jī)取值范圍記為[MRlow,MRhigh],在保留關(guān)鍵特征信息的情況下增加生成數(shù)據(jù)的多樣性。
圖4 針對(duì)少數(shù)類采用改進(jìn)的MAE算法進(jìn)行數(shù)據(jù)生成Fig.4 Data generation using an improved MAE algorithm for small-amount categories
在生成模型的推理過程中,本文在[MRlow,MRhigh]范圍內(nèi)隨機(jī)選擇MR 值生成馬賽克圖像并進(jìn)行復(fù)原操作,具體為
式中,E和D分別表示圖像編碼器和解碼器,θ和φ分別為編碼器和解碼器的模型參數(shù),M⊙為馬賽克操作,Iori和Igen分別為原始圖像和生成圖像。
本文采用上述數(shù)據(jù)生成策略,針對(duì)屬性識(shí)別任務(wù)中存在的少數(shù)類數(shù)據(jù),通過MAE 模型生成新樣本,即每個(gè)原始圖像得到N幅生成圖像,N的取值為
式中,num為屬性個(gè)數(shù),Nl為第l個(gè)屬性對(duì)應(yīng)的生成圖像個(gè)數(shù),pl為第l個(gè)屬性的訓(xùn)練集正樣本比例,yl為原始圖像的第l個(gè)屬性標(biāo)簽,λ為數(shù)據(jù)增廣系數(shù),round(·)為四舍五入操作。在行人多屬性識(shí)別任務(wù)中,每個(gè)數(shù)據(jù)樣本對(duì)應(yīng)num個(gè)屬性標(biāo)簽(y1,y2,…,ynum)。
在數(shù)據(jù)生成過程中,MR 值的大小將對(duì)目標(biāo)圖像的復(fù)原結(jié)果產(chǎn)生影響。如圖5所示,隨著MR值的不斷增加,所生成目標(biāo)圖像的細(xì)節(jié)特征逐漸減少。從對(duì)比結(jié)果可以看出,當(dāng)MR 大于0.9 時(shí),目標(biāo)馬賽克圖像的可見部分僅為零散分布的少數(shù)局部區(qū)域,但是通過MAE 模型仍然能夠充分挖掘可見區(qū)域的位置關(guān)系等深層信息,從潛在特征中恢復(fù)出行人的基本樣貌圖像,同時(shí)證明了本文所采用的自編碼器模型有效實(shí)現(xiàn)了行人目標(biāo)的通用特征表示,其中包括各個(gè)關(guān)鍵部件之間的位置關(guān)系等常識(shí)特征。
圖5 不同MR值的數(shù)據(jù)生成結(jié)果對(duì)比Fig.5 Comparison of data generation results for different MR
通過數(shù)據(jù)生成,本文實(shí)現(xiàn)了從通用大模型(MAE 自編碼器)到專用小任務(wù)(行人屬性識(shí)別)的遷移學(xué)習(xí)和知識(shí)增強(qiáng),如圖6 所示,其中MAE 模型采用自監(jiān)督學(xué)習(xí)機(jī)制,從大規(guī)模無標(biāo)注數(shù)據(jù)中自主獲取目標(biāo)的通用特征表示,包含行人目標(biāo)姿態(tài)等先驗(yàn)知識(shí),即數(shù)據(jù)背后的目標(biāo)常識(shí)特征,有助于提升行人目標(biāo)屬性識(shí)別的準(zhǔn)確性和泛化性。
圖6 從通用大模型到專用小任務(wù)的遷移學(xué)習(xí)Fig.6 Transfer learning from general big models to dedicated small tasks
針對(duì)生成模型得到的新樣本數(shù)據(jù),由于存在某些細(xì)節(jié)特征丟失,可能導(dǎo)致相關(guān)屬性類別發(fā)生變化。本文采用基于多標(biāo)簽分類框架的判別模型進(jìn)行數(shù)據(jù)篩選,如圖7 所示,結(jié)合原始圖像的屬性標(biāo)簽信息,根據(jù)預(yù)測(cè)分布的一致性,從中過濾標(biāo)簽異常的新生成樣本。篩選后的數(shù)據(jù)能夠保留與屬性相關(guān)的關(guān)鍵特征,通過啟發(fā)式的注意力機(jī)制,實(shí)現(xiàn)基于特征注意力的數(shù)據(jù)判別。
圖7 針對(duì)新生成樣本采用多標(biāo)簽分類框架進(jìn)行數(shù)據(jù)判別Fig.7 Multi-label classification framework used for data discrimination of newly generated samples
在判別模型的訓(xùn)練過程中,本文基于多標(biāo)簽分類框架,采用50 層的殘差網(wǎng)絡(luò)模型作為骨干網(wǎng)絡(luò),在原始的屬性識(shí)別數(shù)據(jù)集上進(jìn)行訓(xùn)練。在訓(xùn)練過程中采用類別自適應(yīng)的權(quán)重(Jia 等,2020),即根據(jù)樣本比例自適應(yīng)調(diào)整損失函數(shù)的權(quán)重,從而緩解原始數(shù)據(jù)不均衡問題對(duì)模型精度的影響。
在判別模型的推理過程(圖7)中,本文針對(duì)新生成樣本進(jìn)行數(shù)據(jù)篩選,首先將判別模型輸出的多個(gè)屬性標(biāo)簽分為關(guān)鍵屬性標(biāo)簽和其他屬性標(biāo)簽兩類,分別采用判別條件1 和判別條件2 進(jìn)行篩選,其中Nl取值參見式(2)。
判別條件1:對(duì)于關(guān)鍵屬性標(biāo)簽(Nl>0),若判別模型預(yù)測(cè)的標(biāo)簽與原始標(biāo)簽一致,且輸出的相應(yīng)置信度值高于閾值τ,則滿足判別條件,否則不滿足;
判別條件2:對(duì)于其他屬性標(biāo)簽(Nl= 0),若判別模型輸出的相應(yīng)置信度值高于閾值τ,則滿足判別條件,否則不滿足。
根據(jù)上述判別條件對(duì)判別模型預(yù)測(cè)的所有屬性標(biāo)簽進(jìn)行逐一篩選,最后選擇每個(gè)屬性預(yù)測(cè)結(jié)果均滿足一致性的新生成樣本。
本文采用上述數(shù)據(jù)判別策略,針對(duì)新生成樣本進(jìn)行數(shù)據(jù)篩選,如圖8 所示,當(dāng)新生成樣本不滿足一致性判別條件時(shí),則丟棄該樣本,并由生成模型隨機(jī)得到新樣本進(jìn)行補(bǔ)充。通過生成模型與判別模型的相互對(duì)抗機(jī)制,使得新生成樣本能夠在保留屬性關(guān)鍵特征的情況下實(shí)現(xiàn)樣本多樣化,同時(shí)篩選后的生成數(shù)據(jù)訓(xùn)練得到的模型將更加易于學(xué)習(xí)屬性相關(guān)特征,從而引入啟發(fā)式的模型注意力機(jī)制,進(jìn)一步提升模型的可解釋性與泛化能力。
圖8 通過判別模型引入對(duì)抗學(xué)習(xí)與注意力機(jī)制Fig.8 Introducing adversarial learning and attention mechanisms through discriminative model
為了更好地解決行人屬性分類數(shù)據(jù)的樣本不均衡問題,本文在數(shù)據(jù)生成與數(shù)據(jù)篩選相互結(jié)合的基礎(chǔ)上提出漸進(jìn)式迭代機(jī)制,通過兩者相互交替的循環(huán)迭代,逐步優(yōu)化得到類別均衡數(shù)據(jù)集,并通過知識(shí)蒸餾框架對(duì)不同輪次的判別模型進(jìn)行有效融合,提升屬性識(shí)別模型對(duì)多種應(yīng)用場(chǎng)景的適應(yīng)能力。
本文采用循環(huán)迭代算法,具體步驟如下:
輸入:原始屬性識(shí)別數(shù)據(jù)集Dori,迭代輪數(shù)T。
輸出:類別均衡后的數(shù)據(jù)集Dnew,不同輪次訓(xùn)練得到的屬性判別模型{M1,···,MT}。
1)D0=Dori;
2)fort= 1 toTdo;
3)通過生成模型擴(kuò)充Dt-1的少數(shù)類,得到Gt。根據(jù)式(2)每個(gè)樣本隨機(jī)生成N個(gè)新樣本;
4)基于Dt-1訓(xùn)練得到屬性判別模型Mt;
5)通過判別模型Mt篩選Gt,得到G*t。若新樣本不滿足判別條件1和2,則重新生成;
6)更新當(dāng)前數(shù)據(jù)集:Dt=Dt-1∪;
7)returnDnew=DT。
本文采用上述循環(huán)迭代策略,經(jīng)過T輪迭代后,得到多個(gè)屬性判別模型{M1,···,MT},由于采用不同樣本比例的數(shù)據(jù)集訓(xùn)練,模型之間具有較好的互補(bǔ)性。因此,本文實(shí)現(xiàn)了基于漸進(jìn)式迭代的蒸餾融合 模 型 PI-DFM(progressive iterations-distillation fusion model),如圖9 所示,以不同迭代輪次的屬性判別模型作為教師模型,并且采用類別均衡后的屬性識(shí)別數(shù)據(jù)集Dnew作為訓(xùn)練數(shù)據(jù)。
圖9 基于漸進(jìn)式迭代實(shí)現(xiàn)蒸餾融合模型Fig.9 Achieving distillation fusion model based on progressive iteration
對(duì)于每個(gè)訓(xùn)練樣本Xi,首先通過對(duì)不同教師模型的輸出結(jié)果Mt(Xi)進(jìn)行加權(quán)融合,得到訓(xùn)練監(jiān)督信息T(Xi),具體為
式中,wt為教師模型Mt所對(duì)應(yīng)的權(quán)重,考慮到數(shù)據(jù)集的類別均衡性隨著迭代輪次增加逐步優(yōu)化,教師模型的準(zhǔn)確率也同步實(shí)現(xiàn)漸進(jìn)式提升,因此wt的取值為
然后,針對(duì)該樣本預(yù)測(cè)得到學(xué)生模型的輸出結(jié)果S(Xi),其網(wǎng)絡(luò)結(jié)構(gòu)與教師模型一致,最后通過計(jì)算S(Xi)和T(Xi)之間的KL(Kullback-Leibler)散度(Bagherinezhad 等,2018)作為蒸餾損失函數(shù),具體為
在大規(guī)模實(shí)際應(yīng)用場(chǎng)景下,測(cè)試數(shù)據(jù)與已有訓(xùn)練數(shù)據(jù)的樣本比例可能存在差異,本文通過知識(shí)蒸餾框架,融合不同樣本比例數(shù)據(jù)訓(xùn)練得到的教師模型,能夠有效提升模型在開放不確定場(chǎng)景的泛化能力。
實(shí)驗(yàn)在目前主流的4 種行人屬性識(shí)別評(píng)測(cè)數(shù)據(jù)集上進(jìn)行。相關(guān)數(shù)據(jù)集的具體參數(shù)情況與常用評(píng)測(cè)方法(Jia等,2020)一致,如表1所示。
表1 行人屬性識(shí)別評(píng)測(cè)數(shù)據(jù)集的參數(shù)情況Table 1 Parameter configuration of benchmark datasets for pedestrian attributes recognition
實(shí)驗(yàn)中,采用裝有4 張 Nvidia Tesla A100(單張顯卡的顯存大小為40 GB)的GPU 服務(wù)器,并基于Pytorch平臺(tái)進(jìn)行模型訓(xùn)練和推理。
1)生成模型。在模型訓(xùn)練階段,參考MAE 模型的訓(xùn)練超參數(shù)(He 等,2022),并增加屬性預(yù)測(cè)機(jī)制,如圖4 所示,在固定編碼器模型參數(shù)的情況下微調(diào)其他模塊,進(jìn)一步優(yōu)化嵌入特征表示,同時(shí)馬賽克區(qū)域所占比例MR的取值范圍為[0.3,0.7];在模型推理階段,數(shù)據(jù)增廣系數(shù)λ的取值為2。
2)判別模型。在模型訓(xùn)練階段,與常用評(píng)測(cè)方法(Jia 等,2020)的模型訓(xùn)練超參數(shù)保持一致,以50 層的殘差網(wǎng)絡(luò)模型作為骨干網(wǎng)絡(luò),輸入圖像尺度歸一化為H×W= 256 × 192;在模型推理階段,數(shù)據(jù)判別閾值τ的取值為0.7。
3)漸進(jìn)式迭代。迭代輪數(shù)T取值為3,通過生成模型與判別模型之間的T次循環(huán)迭代優(yōu)化行人屬性識(shí)別精度。在迭代過程中,判別模型的訓(xùn)練周期數(shù)根據(jù)生成數(shù)據(jù)的增加等比例減少。
在整個(gè)訓(xùn)練和推理過程中,本文沒有對(duì)上述超參數(shù)進(jìn)行調(diào)整,即針對(duì)不同數(shù)據(jù)集均采用一致的超參數(shù)。
實(shí)驗(yàn)采用常用評(píng)測(cè)方法(Jia 等,2020)使用的行人屬性識(shí)別評(píng)測(cè)指標(biāo)。針對(duì)不同屬性,統(tǒng)計(jì)全部屬性的平均準(zhǔn)確率(mean accuracy,mA);針對(duì)不同樣本,統(tǒng)計(jì)全部樣本的平均精度(precision,Prec)、平均召回率(Recall)和平均F1 分?jǐn)?shù)(準(zhǔn)確率和召回率的調(diào)和平均,記做F1)。
在測(cè)試過程中,本文采用50 層的殘差網(wǎng)絡(luò)模型作為基準(zhǔn)模型(baseline),并提出基于漸進(jìn)式迭代的優(yōu)化方法,與多種目前主流的行人屬性識(shí)別方法DeepMAR(deep multi attribute recognition)(Li 等,2015)、VAC(visual attention consistency)(Guo 等,2019)和RPAR(rethinking pedestrian attribute recognition)(Jia 等,2020)分別在PA100K、PETA、RAPv1和RAPv2 數(shù)據(jù)集上進(jìn)行對(duì)比,對(duì)比算法均采用與行人屬性識(shí)別任務(wù)常用評(píng)測(cè)方法(Jia 等,2020)一致的參數(shù)配置,實(shí)驗(yàn)結(jié)果如表2—表5 所示。可以看出,本文方法的mA 和F1 兩個(gè)指標(biāo)均有明顯提升,表明本文方法能夠有效優(yōu)化行人屬性識(shí)別結(jié)果。在不增加模型復(fù)雜度的情況下,mA 和F1 兩項(xiàng)指標(biāo)均優(yōu)于目前最優(yōu)的行人屬性識(shí)別算法RPAR。
表2 不同算法在PA100K數(shù)據(jù)集上的識(shí)別結(jié)果Table 2 Test results on PA100K dataset for different algorithms/%
表3 不同算法在PETA數(shù)據(jù)集上的識(shí)別結(jié)果Table 3 Test results on PETA dataset for different algorithms/%
表4 不同算法在RAPv1數(shù)據(jù)集上的識(shí)別結(jié)果Table 4 Test results on RAPv1 dataset for different algorithms/%
表5 不同算法在RAPv2數(shù)據(jù)集上的識(shí)別結(jié)果Table 5 Test results on RAPv2 dataset for different algorithms/%
實(shí)驗(yàn)進(jìn)一步將本文算法與目前主流的引入額外模型復(fù)雜度的行人屬性識(shí)別算法CAS-SAL-FR(cascaded split-and-aggregate learning with feature recombination)(Yang 等,2021)和DBSAN(dual- branch self-attention network)(Liu 等,2022)在PETA 數(shù)據(jù)集上進(jìn)行對(duì)比,并比較了模型復(fù)雜度情況,結(jié)果如表6所示。可以看出,本文所提出的算法在模型復(fù)雜度最小的情況下得到了較好模型準(zhǔn)確率指標(biāo),其中F1指標(biāo)在3種算法中結(jié)果最優(yōu)。
表6 3種算法在PETA數(shù)據(jù)集上的識(shí)別結(jié)果Table 6 Test results of three algorithms on PETA
本文提出的迭代優(yōu)化方法是從屬性類別均衡性的角度進(jìn)行優(yōu)化,與目前主流的行人屬性識(shí)別方法具有較好的互補(bǔ)性。本文以RAPv2 數(shù)據(jù)集為例,針對(duì)34 個(gè)不均衡類別(正樣本所占比例低于10%)的屬性識(shí)別結(jié)果進(jìn)行統(tǒng)計(jì),如圖10 所示,與基準(zhǔn)模型結(jié)果相比,通過漸進(jìn)式迭代優(yōu)化后的屬性識(shí)別模型能夠有效緩解類別不均衡的問題,其中每個(gè)類別的平均準(zhǔn)確率均有明顯提升。
圖10 漸進(jìn)式迭代優(yōu)化模型與基準(zhǔn)模型結(jié)果對(duì)比Fig.10 Results of progressive iterative optimization model and baseline model
4.3.1 關(guān)鍵子模塊選取
本文提出的漸進(jìn)式迭代算法主要包括BA-DGM數(shù)據(jù)生成模塊(記做模塊1)、AF-DDM 數(shù)據(jù)判別模塊(記做模塊2)和PI-DFM 蒸餾融合模塊(記做模塊3)。為了進(jìn)一步驗(yàn)證各子模塊的有效性,本文分別采用第1 輪數(shù)據(jù)生成后得到的數(shù)據(jù)(D0+G1)和第1輪數(shù)據(jù)判別后得到的數(shù)據(jù)(D0+G*1)在RAPv2 數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),并與經(jīng)過T輪迭代和蒸餾融合后的最終模型對(duì)比,結(jié)果如表7 所示,其中平均值表示mA 和F1 指標(biāo)的平均,反映了針對(duì)不同屬性和針對(duì)不同樣本評(píng)測(cè)指標(biāo)的綜合評(píng)價(jià)(參見4.2 節(jié))。實(shí)驗(yàn)結(jié)果表明,3 個(gè)主要模塊對(duì)于屬性識(shí)別的準(zhǔn)確率均有提升作用。
表7 3個(gè)改進(jìn)模塊在RAPv2數(shù)據(jù)集上的識(shí)別結(jié)果Table 7 Test results of three improvements on RAPv2/%
4.3.2 數(shù)據(jù)判別閾值τ的參數(shù)分析
數(shù)據(jù)判別閾值的選擇需要考慮多個(gè)屬性的平均準(zhǔn)確率和召回率情況,實(shí)驗(yàn)分別針對(duì)4 個(gè)訓(xùn)練集(具體情況參見表1)進(jìn)行驗(yàn)證,從中隨機(jī)抽取1/5 的樣本數(shù)據(jù)作為驗(yàn)證集,由其余4/5的樣本數(shù)據(jù)訓(xùn)練得到判別模型,并統(tǒng)計(jì)在不同閾值下的屬性判別結(jié)果平均準(zhǔn)確率,結(jié)果如圖11 所示。實(shí)驗(yàn)結(jié)果表明,當(dāng)判別閾值大于0.7 時(shí),屬性判別的平均準(zhǔn)確率較高(94%~98%),繼續(xù)增加閾值后準(zhǔn)確率的提升較?。ㄐ∮?%);另一方面,增加判別閾值將導(dǎo)致滿足過濾條件的屬性樣本減少,以RAPv2 數(shù)據(jù)集為例,當(dāng)判別閾值由0.7調(diào)整為0.8時(shí),樣本的平均檢出率由77.9%下降至49.8%。因此,根據(jù)上述參數(shù)分析結(jié)果,本文采用判別閾值τ= 0.7,可以同時(shí)滿足準(zhǔn)確率和召回率要求。
圖11 不同閾值下的屬性判別結(jié)果平均準(zhǔn)確率Fig.11 Mean accuracy of attribute discrimination results under different thresholds
4.3.3 MR取值范圍的參數(shù)分析
MR 取值范圍的選擇需要考慮不同馬賽克區(qū)域比例下的新樣本生成情況,本文以RAPv2 數(shù)據(jù)集為例,首先分別對(duì)比了不同MR 取值下的新生成樣本通過數(shù)據(jù)判別的比例,如圖12 所示,當(dāng)MR 大于0.7時(shí),由于丟失了大量細(xì)節(jié)特征,導(dǎo)致屬性識(shí)別結(jié)果下降,樣本通過數(shù)據(jù)判別的比例低于5%(圖中紅色標(biāo)注),因此MR 取值范圍的上限MRhigh可以確定為0.7。
圖12 不同MR取值下的新生成樣本通過數(shù)據(jù)判別的比例Fig.12 Passing ratios of data discrimination for newly generated samples under different MR values
進(jìn)一步地,實(shí)驗(yàn)分別針對(duì)不同MRlow取值下訓(xùn)練得到的判別模型結(jié)果(mA)進(jìn)行對(duì)比分析,結(jié)果如表8 所示,經(jīng)過第1 輪迭代,當(dāng)MRlow< 0.3 時(shí),由于新樣本的多樣性下降導(dǎo)致模型結(jié)果變差,而當(dāng)MRlow> 0.3時(shí),由于新樣本的低質(zhì)量比例增加導(dǎo)致模型結(jié)果變差,因此MR取值范圍的下限MRlow可以確定為0.3。
表8 不同MRlow取值下的模型結(jié)果mA對(duì)比Table 8 mA comparison of model results under different MRlowvalues
4.3.4 數(shù)據(jù)增廣系數(shù)λ的參數(shù)分析
數(shù)據(jù)增廣系數(shù)的選擇需要考慮生成數(shù)據(jù)集的規(guī)模大小和樣本均衡性,如表9所示,本文以RAPv2數(shù)據(jù)集為例,在不同的λ值下,分別針對(duì)第1 次迭代后和第T次迭代后的模型結(jié)果(mA)進(jìn)行對(duì)比。實(shí)驗(yàn)結(jié)果表明,當(dāng)λ< 2 時(shí),由于生成數(shù)據(jù)集的樣本均衡性變差導(dǎo)致模型精度下降,而當(dāng)λ> 2 時(shí),由于生成數(shù)據(jù)集的樣本規(guī)模變大影響模型訓(xùn)練效率,導(dǎo)致經(jīng)過T輪漸進(jìn)式迭代優(yōu)化后的最終模型精度下降。因此,數(shù)據(jù)增廣系數(shù)λ的取值可以確定為2。
表9 不同λ值下的模型結(jié)果mA對(duì)比Table 9 mA comparison of model results under different λvalues/%
本文對(duì)數(shù)據(jù)判別的篩選情況進(jìn)行可視化驗(yàn)證,如圖13 所示,以戴帽子、戴眼鏡、打電話和穿靴子4 個(gè)典型屬性為例,首先針對(duì)每個(gè)正樣本圖像隨機(jī)生成N個(gè)(N取100)新樣本,然后使用判別模型進(jìn)行篩選,最后對(duì)通過篩選的新樣本的馬賽克區(qū)域進(jìn)行實(shí)驗(yàn)分析,統(tǒng)計(jì)其中保留的細(xì)節(jié)特征的空間概率分布。通過實(shí)驗(yàn)結(jié)果可以發(fā)現(xiàn),數(shù)據(jù)判別能夠較好地保留行人目標(biāo)關(guān)鍵屬性的相關(guān)特征,從而引入啟發(fā)式的注意力機(jī)制;另外,通過深入挖掘不同屬性的相關(guān)特征分布情況,能夠進(jìn)一步提升判別模型的可解釋性。
圖13 4種典型屬性的數(shù)據(jù)判別篩選情況Fig.13 Filtering results of data discrimination for four typical attributes((a)wearing hat attribute;(b)wearing glasses attribute;(c)phoning attribute;(d)wearing boots attribute)
此外,本文以RAPv2數(shù)據(jù)集為例,驗(yàn)證T輪迭代后不均衡類別(正樣本所占比例低于10%)的個(gè)數(shù)變化情況,如表10 所示,當(dāng)T的取值為3 時(shí),經(jīng)過T輪迭代,不均衡的類別數(shù)由34減少到0,最終實(shí)現(xiàn)了數(shù)據(jù)集的漸進(jìn)式優(yōu)化。
表10 經(jīng)過T輪迭代后的不均衡類別的變化情況Table 10 Variation of uneven categories after the Tepochs
圍繞行人屬性識(shí)別任務(wù)中存在的樣本不均衡問題,本文提出了一種基于漸進(jìn)式迭代的模型和數(shù)據(jù)優(yōu)化方法,通過數(shù)據(jù)生成與數(shù)據(jù)判別的相互對(duì)抗,引入啟發(fā)式注意力機(jī)制,并構(gòu)建了從MAE 通用大模型到專用小任務(wù)的遷移框架,深入挖掘人體目標(biāo)的常識(shí)特征,有效提升了模型的泛化能力。通過與目前主流的行人屬性識(shí)別方法進(jìn)行實(shí)驗(yàn)對(duì)比,結(jié)果表明本文提出的數(shù)據(jù)均衡化和漸進(jìn)式迭代方法與現(xiàn)有的改進(jìn)方法之間具有良好的互補(bǔ)性,并有助于進(jìn)一步提升模型的準(zhǔn)確性指標(biāo)。
但是,本文方法存在以下不足之處,需要進(jìn)一步深入研究。1)在實(shí)際場(chǎng)景下行人目標(biāo)存在相互遮擋等問題,影響數(shù)據(jù)生成和模型迭代效果;2)行人目標(biāo)的不同屬性之間存在相關(guān)性,影響行人多屬性判別模型的識(shí)別效果;3)行人動(dòng)作姿態(tài)的樣本多樣性對(duì)于某些特定屬性(如打電話等動(dòng)作)的識(shí)別準(zhǔn)確率影響較大,限制了模型精度的進(jìn)一步提高。
下一步工作將基于MAE 模型的通用特征表示,融合目標(biāo)質(zhì)量評(píng)價(jià)和人體骨架結(jié)構(gòu)等先驗(yàn)知識(shí),優(yōu)化行人多屬性之間的關(guān)系建模,進(jìn)一步提升模型的可解釋性。