李宗民,邊玲燕,劉玉杰
(中國石油大學(xué)(華東)計(jì)算機(jī)與通信工程學(xué)院,山東青島266580)
隨著互聯(lián)網(wǎng)軟硬件技術(shù)的不斷進(jìn)步,網(wǎng)購成為人們生活中不可或缺的一部分,而服裝網(wǎng)購是其中最熱門的一個(gè)應(yīng)用。服裝屬性識(shí)別[1-2]、服裝推薦[3-5]和跨場(chǎng)景服裝檢索[6-9]等研究正受到廣泛關(guān)注。不同場(chǎng)景的服裝圖像存在顯著差異,使得跨場(chǎng)景服裝檢索非常具有挑戰(zhàn)性。在日常生活中拍攝的用戶服裝圖像往往背景復(fù)雜,人體姿態(tài)、拍攝光線和角度也十分多變。而商家服裝圖像一般都在特定的環(huán)境下由專業(yè)人員拍攝的,背景純凈,姿態(tài)專業(yè)。由此可見,不同場(chǎng)景下的服裝圖像表現(xiàn)出了不同的特性,如何從跨場(chǎng)景服裝圖像的公共特征和域特定特征中提取更有表述力的描述子很具挑戰(zhàn)性。
傳統(tǒng)單一域的圖像檢索方法無法對(duì)雙域的特定特征進(jìn)行建模。HUANG等[10]提出的DRAN和YANG等[11]提出的MSAE分別為每個(gè)場(chǎng)景域創(chuàng)建2個(gè)完全獨(dú)立的深度學(xué)習(xí)分支,以學(xué)習(xí)2種場(chǎng)景域的差異,但無法捕獲2個(gè)域共享的公共特征。改進(jìn)的Siamese網(wǎng)絡(luò)[6]共享2個(gè)Inception-6分支的權(quán)重,有助于學(xué)習(xí)底層公共特征,但原有的對(duì)比損失函數(shù)將視覺差異性大的負(fù)樣本和視覺差異性小的負(fù)樣本同等對(duì)待,這種處理方法可能導(dǎo)致網(wǎng)絡(luò)過擬合和不良范化。
為解決這一問題,本文提出了一種基于類別約束的增強(qiáng)對(duì)比損失函數(shù),并設(shè)計(jì)了相應(yīng)的三分支網(wǎng)絡(luò)。通過三分支網(wǎng)絡(luò),可將服裝圖像中的物品特征轉(zhuǎn)換為2個(gè)潛在空間,即公共類別空間和特定場(chǎng)景域空間。在場(chǎng)景域空間網(wǎng)絡(luò),用類別信息約束傳統(tǒng)對(duì)比損失函數(shù),增大對(duì)類間負(fù)樣本對(duì)的懲罰以減輕過擬合。實(shí)驗(yàn)表明,在基準(zhǔn)數(shù)據(jù)集上,該算法的檢索精度明顯優(yōu)于其他算法。
本文提出的框架由三部分構(gòu)成,圖1給出了基本流程說明。本文的主要工作總結(jié)如下:
圖1 網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 Network structure
1)提出了一種新的跨場(chǎng)景服裝檢索網(wǎng)絡(luò)框架。該網(wǎng)絡(luò)框架融合了場(chǎng)景域空間和類別空間。
2)提出了一種新的增強(qiáng)對(duì)比損失函數(shù)。通過附加的類別信息約束傳統(tǒng)對(duì)比損失函數(shù),防止過擬合。
近年來,服裝圖像檢索[2,6-9,12]得到了廣泛的研究。LIU等[8]首次提出跨場(chǎng)景服裝檢索的理念,用人體姿態(tài)估計(jì)人體區(qū)域,然后通過兩步稀疏化編碼實(shí)現(xiàn)跨場(chǎng)景服裝檢索。KALANTIDIS等[13]提出了一種新的區(qū)域表示方法,該方法使用二值空間掩膜,約束人體姿態(tài),估計(jì)人體區(qū)域,以此來削弱背景的影響。KIAPOUR等[6]提出跨場(chǎng)景服裝精確檢索的概念,目的是在購物網(wǎng)站中找到完全相同的商品。在解決服裝檢索問題時(shí),通過對(duì)服裝區(qū)域檢測(cè)的方法可以很好地縮小2個(gè)場(chǎng)景域之間的差異,然而,如果服裝區(qū)域檢測(cè)錯(cuò)誤,該錯(cuò)誤將被傳播到判別模型中。此外,這些單一域服裝檢索方法無法對(duì)跨場(chǎng)景服裝檢索問題中場(chǎng)景域的特定特征進(jìn)行建模。
基于2個(gè)完全獨(dú)立分支的雙屬性感知排序網(wǎng)絡(luò)(DARN)[10],分別對(duì)不同場(chǎng)景域進(jìn)行特征學(xué)習(xí),其檢索特征表示由語義屬性學(xué)習(xí)驅(qū)動(dòng)。DARN網(wǎng)絡(luò)實(shí)驗(yàn)表明,高層語義信息學(xué)習(xí)是提高檢索精度的關(guān)鍵因素[10]。WANG等[12]提出了增強(qiáng)對(duì)比損失函數(shù)的Siamese網(wǎng)絡(luò)和多任務(wù)網(wǎng)絡(luò)微調(diào)方案。LIU等[2]提出的DeepFashion Net網(wǎng)絡(luò)通過聯(lián)合預(yù)測(cè)服裝屬性和關(guān)鍵點(diǎn)來學(xué)習(xí)服裝特征,并將該網(wǎng)絡(luò)應(yīng)用于深度時(shí)尚數(shù)據(jù)集的跨場(chǎng)景服裝檢索子任務(wù),其主要缺點(diǎn)是對(duì)于關(guān)鍵點(diǎn)和服裝屬性的訓(xùn)練需要大量數(shù)據(jù)。JI等[9]提出的YNET共享底層網(wǎng)絡(luò),分別為每個(gè)域創(chuàng)建不同的深度學(xué)習(xí)分支來建模域特定特征。但是公共分支位于網(wǎng)絡(luò)底層,學(xué)習(xí)到的特征只體現(xiàn)了底層的圖像細(xì)節(jié),未考慮高層語義信息。相較單一網(wǎng)絡(luò),多分支網(wǎng)絡(luò)進(jìn)一步提高了跨場(chǎng)景服裝檢索的精度。
連續(xù)的CNN層代表了圖像的抽象程度,最后一層包含了圖像的抽象描述子,對(duì)規(guī)模、圖像位置、視角、遮擋上的變化具有魯棒性。然而,這些描述子并不擅長視覺相似性的估計(jì),因?yàn)橄嗨菩允?個(gè)抽象的高級(jí)概念(短袖與其他短袖更匹配,而非牛仔外套)以及低級(jí)細(xì)節(jié)(條紋短袖與條紋短袖匹配,條紋間隔相似的短袖比過寬或過窄的條紋短袖更匹配)的函數(shù)。目標(biāo)檢測(cè)網(wǎng)絡(luò)忽略了細(xì)節(jié)信息(其目的是識(shí)別短袖,不管它是條紋還是格子)。換句話說,目標(biāo)識(shí)別網(wǎng)絡(luò)關(guān)注的是該類別中所有對(duì)象所共有的特征,忽略了對(duì)相似度估計(jì)非常重要的細(xì)節(jié)信息。降低了它作為相似性估計(jì)器的有效性。
本文借鑒DARN網(wǎng)絡(luò)[10]中聯(lián)合服裝屬性約束特征學(xué)習(xí)的思路,用新的框架來學(xué)習(xí)更具判別力的服裝特征描述子。
隨著深度卷積神經(jīng)網(wǎng)絡(luò)在特征表示中的廣泛應(yīng)用,基于深度模型的相似性學(xué)習(xí)方法越來越受到關(guān)注。深度度量學(xué)習(xí)是指訓(xùn)練神經(jīng)網(wǎng)絡(luò)將圖像投影到度量空間中進(jìn)行相似性度量。HUANG等[10]提出了一種雙重屬性感知排序網(wǎng)絡(luò)(DARN),用于跨場(chǎng)景服裝特征學(xué)習(xí)。WU等[14]提出了一種用于圖像檢索的深度相似性學(xué)習(xí)方法,即在線多模態(tài)深度相似學(xué)習(xí)(OMDSL)算法。三元組損失[15]通過計(jì)算正對(duì)和負(fù)對(duì)之間的相對(duì)距離來實(shí)現(xiàn)相似性檢索,但是采用相對(duì)距離來度量相似性極易出現(xiàn)類內(nèi)差異性大、類間差異性小的問題?;赟iamese網(wǎng)絡(luò)的對(duì)比損失[16]是度量學(xué)習(xí)中應(yīng)用最廣泛的配對(duì)損失。該網(wǎng)絡(luò)由一對(duì)具有共享權(quán)重的CNN組成,需要一對(duì)圖像作為輸入。真值標(biāo)簽表示圖像對(duì)相似或不相似。不同于三元組損失的相對(duì)距離,通過計(jì)算絕對(duì)距離解決本文試圖解決的相似性問題而不是訓(xùn)練目標(biāo)檢測(cè),然后利用網(wǎng)絡(luò)進(jìn)行相似性評(píng)估。傳統(tǒng)對(duì)比損失函數(shù)將視覺差異性大的負(fù)樣本和視覺差異性小的負(fù)樣本同等對(duì)待,這種處理方法同樣會(huì)導(dǎo)致類內(nèi)差異性大、類間差異性小的問題。另外,由于被訓(xùn)練為對(duì)2幅圖像是否相似進(jìn)行的二進(jìn)制決策(是/否),因此,無法捕捉到細(xì)粒度相似性。受文獻(xiàn)[10]啟發(fā),筆者用Siamese網(wǎng)絡(luò)取代完全獨(dú)立的網(wǎng)絡(luò)分支結(jié)構(gòu),聯(lián)合高層語義信息和場(chǎng)景域分支網(wǎng)絡(luò),采用新的對(duì)比損失函數(shù)來解決跨場(chǎng)景服裝檢索問題。
圖1所示為本文算法的整體框架圖。本節(jié)首先對(duì)整體框架進(jìn)行詳細(xì)闡述,然后在場(chǎng)景域空間學(xué)習(xí)中描述本文提出的增強(qiáng)對(duì)比損失函數(shù),最后闡述網(wǎng)絡(luò)的訓(xùn)練細(xì)節(jié)。
網(wǎng)絡(luò)學(xué)習(xí)框架由類別空間和場(chǎng)景域空間兩部分組成,如圖1所示。與單一Siamese[16]不同,它由3個(gè)子網(wǎng)絡(luò)構(gòu)成,包括1個(gè)提取場(chǎng)景域特定特征的雙路網(wǎng)絡(luò)以及2個(gè)提取線上類別公共特征和線下類別公共特征的單路網(wǎng)絡(luò)。
在訓(xùn)練期間,將線上線下服裝p,q分別送入類別空間學(xué)習(xí)網(wǎng)絡(luò),同時(shí)將訓(xùn)練服裝對(duì)
送入場(chǎng)景域空間學(xué)習(xí)網(wǎng)絡(luò)。p,q的圖像尺寸均為227×227×3。與DRAN[10]需要存儲(chǔ)2個(gè)分支的參數(shù)相比,共享權(quán)重的雙路網(wǎng)絡(luò)在聯(lián)合高層公共特征和域特定特征的基礎(chǔ)上節(jié)省了內(nèi)存空間。實(shí)驗(yàn)表明,場(chǎng)景域空間和類別空間中學(xué)習(xí)到的特征維度均為4 096維。檢索過程優(yōu)先進(jìn)行類別特征匹配,其次,同類別的2個(gè)圖像的相似性用特征距離來度量,不同類別的圖像直接判定為不匹配,然后通過K最近鄰搜索,在特征空間中找到相似的圖像。
細(xì)節(jié)信息對(duì)于相似度估計(jì)至關(guān)重要,忽略細(xì)節(jié)信息會(huì)降低相似性估計(jì)器的有效性。然而,簡(jiǎn)單的抽象特征描述子并不擅長視覺相似性的估計(jì),因?yàn)橄嗨菩允?個(gè)抽象的高層語義信息和低級(jí)細(xì)節(jié)的函數(shù)??鐖?chǎng)景服裝檢索必須在多個(gè)層次上對(duì)圖像特征進(jìn)行評(píng)估。受文獻(xiàn)[10]的啟發(fā),本文聯(lián)合服裝類別得到更具有判別力的服裝特征描述子—三分支網(wǎng)絡(luò)。
使用基于AlexNet的CNN模型[18]。該模型在120萬ImageNet[19]數(shù)據(jù)集上進(jìn)行了預(yù)訓(xùn)練,用于提取常規(guī)視覺特征,服裝類別作為訓(xùn)練監(jiān)督信息。用DeepFashion數(shù)據(jù)集對(duì)該模型進(jìn)行微調(diào),使其更符合本文所研究的問題。提取fc7層的特征作為類別特征,定義為fci。模型輸出11維類別所屬的概率向量,按照概率值大小確定所屬類別并將其分別定義為類別Cpi、Cqi。如果Cpi和Cqi為同一類服裝產(chǎn)品,則 C=1,否則 C=0。
圖2 類別空間網(wǎng)絡(luò)結(jié)構(gòu)Fig.2 Category space network structure
圖2 展示了場(chǎng)景域空間網(wǎng)絡(luò)的細(xì)節(jié)。為了提取不同場(chǎng)景域的特征描述子,本文借鑒Siamese網(wǎng)絡(luò)[17]模型(細(xì)節(jié)見圖2),提出了一種魯棒性更高的對(duì)比損失函數(shù)。每個(gè)分支采用AlexNet[18]參考模型。在每個(gè)分支頂部是3個(gè)全連接層(fc6、fc7和fc8),輸入為前一層的輸出。考慮到網(wǎng)絡(luò)最后一層(fc8)是為原始訓(xùn)練數(shù)據(jù)集中的類別數(shù)設(shè)計(jì)的,故本文將其刪除并使用fc7層作為特征表示。該網(wǎng)絡(luò)共有60M參數(shù),7層深。其中Xp和Xq分別表示線上服裝和線下服裝,如果Xp和Xq為同一服裝產(chǎn)品,則Y=1,否則Y=0。W表示網(wǎng)絡(luò)的共享參數(shù)向量。GW(Xp)和GW(Xq)為Xp和Xq映射到低維空間中的2點(diǎn)。EW(Xp,Xq)相似性度量定義如下:
在訓(xùn)練過程中,成對(duì)的圖像被送到共享權(quán)重的2個(gè)子網(wǎng)絡(luò)中(見圖2)。每個(gè)子網(wǎng)絡(luò)生成一個(gè)特征向量,將這2個(gè)特征向量放入對(duì)比損失函數(shù),則傳統(tǒng)損失函數(shù)可定義為
其中(Y,Xp,Xq)i表示第i個(gè)樣本,Y表示產(chǎn)品配對(duì)標(biāo)簽(1或 0),C表示類別配對(duì)標(biāo)簽(1或 0),L1和 L0表示正樣本對(duì)和負(fù)樣本對(duì)的部分損失函數(shù),n表示訓(xùn)練樣本的數(shù)量。
一般情況下,類內(nèi)負(fù)樣本對(duì)的視覺差異性往往小于類間負(fù)樣本對(duì)甚至是部分正樣本對(duì),通過傳統(tǒng)對(duì)比損失函數(shù)進(jìn)行計(jì)算,易導(dǎo)致類內(nèi)負(fù)樣本差異過小。已知訓(xùn)練圖像對(duì)按是否為相同產(chǎn)品進(jìn)行劃分,得到的正樣本對(duì)一定來自于相同類別,來自不同類別的產(chǎn)品一定是負(fù)樣本對(duì)。那么,傳統(tǒng)對(duì)比損失函數(shù)就可以通過類別信息加以約束。增強(qiáng)對(duì)比損失函數(shù)定義如下:
與式(3)相同,本文提出的增強(qiáng)對(duì)比損失函數(shù)也是成對(duì)輸入的。但本文使用了3種不同類型的服裝對(duì),正樣本對(duì)(a)、(b),類內(nèi)負(fù)樣本對(duì)(a)、(c)以及類間負(fù)樣本對(duì)(a)、(d)(參見圖3)。類間負(fù)樣本對(duì)包含2個(gè)來自不同類別的負(fù)樣本,一般更容易區(qū)分,有助于對(duì)訓(xùn)練網(wǎng)絡(luò)進(jìn)行粒度區(qū)分。類內(nèi)負(fù)樣本對(duì)包含2個(gè)來自相同類別的負(fù)樣本,一般不容易區(qū)分,有助于對(duì)訓(xùn)練網(wǎng)絡(luò)進(jìn)行細(xì)粒度劃分。這種擴(kuò)展背后的主要原因是現(xiàn)實(shí)世界中同類別的不同產(chǎn)品往往存在很大的視覺相似性。這樣的樣本對(duì)在原始對(duì)比損失函數(shù)中易導(dǎo)致過擬合。在增強(qiáng)對(duì)比損失函數(shù)中通過max(m2,EW(Xp,Xq)i)有效限制了此樣本對(duì)的L值。卷積網(wǎng)絡(luò)經(jīng)過端到端的訓(xùn)練后,將fc7層提取的特征作為匹配特征,定義為FMi。
圖3 不同類型的服裝對(duì)Fig 3 Different types of clothing pairs
評(píng)估實(shí)驗(yàn)[20]發(fā)現(xiàn),為了有效訓(xùn)練所提出的網(wǎng)絡(luò),在學(xué)習(xí)之前,m值應(yīng)為訓(xùn)練圖像對(duì)特征之間的平均歐氏距離的2倍。在實(shí)驗(yàn)過程中,筆者用不同的m值進(jìn)行試驗(yàn),最終選擇效果較好時(shí)的值m=30。在培訓(xùn)的第1階段,從服裝類別中挑選出11大類,并將其分別標(biāo)記為正樣本對(duì)、類間負(fù)樣本對(duì)、類內(nèi)負(fù)樣本對(duì)。利用正樣本對(duì)和類間負(fù)樣本對(duì)訓(xùn)練了一個(gè)初始粗粒度的相似性度量網(wǎng)絡(luò)。首先,將學(xué)習(xí)率設(shè)為0.001,動(dòng)量為0.9,訓(xùn)練20 000次,然后,將學(xué)習(xí)率降至0.000 1,再訓(xùn)練15 000次。在第2階段,用正樣本對(duì)和類內(nèi)負(fù)樣本對(duì)對(duì)每個(gè)類別上的學(xué)習(xí)度量網(wǎng)絡(luò)進(jìn)行微調(diào)(學(xué)習(xí)速率為0.000 1),以產(chǎn)生細(xì)粒度的相似性度量。2個(gè)學(xué)習(xí)階段,均使用相應(yīng)的驗(yàn)證集來監(jiān)測(cè)停止訓(xùn)練的時(shí)間。
為了驗(yàn)證本文算法的有效性,在真實(shí)數(shù)據(jù)集上與基準(zhǔn)算法進(jìn)行了對(duì)比實(shí)驗(yàn)。
實(shí)驗(yàn)部分采用DeepFashion數(shù)據(jù)集。該數(shù)據(jù)集包含超過80萬張圖像,其中包括類別、服裝屬性、關(guān)鍵點(diǎn)以及跨場(chǎng)景的圖像對(duì)等標(biāo)記信息。本文不研究關(guān)鍵點(diǎn)信息,因?yàn)樗隽吮疚牡姆秶?。此外,?shí)驗(yàn)只使用DeepFashion數(shù)據(jù)集中針對(duì)跨場(chǎng)景服裝檢索問題的子數(shù)據(jù)集Consumer-to-shopClothes Retrieval Benchmark,每個(gè)商品id對(duì)應(yīng)的文件夾中包含一張賣家秀和幾張匹配的買家秀。用商品類別來命名每個(gè)商品id所屬的文件夾。為了學(xué)習(xí)類別信息,本文利用已有信息生成服裝圖像的類別標(biāo)簽。去除損壞的圖像,得到193 950幅用戶圖像和45 381幅商品圖像,分布在23個(gè)類的33 881種商品的id文件夾,本文選擇了11種與產(chǎn)品圖片的上衣服裝相關(guān)的類別標(biāo)簽。對(duì)此數(shù)據(jù)集采用了相似的分區(qū)方法(見表 1)。
表1 數(shù)據(jù)集劃分Table1 Dataset partition
(1)AlexNet,在 WTBI框架[6]中采用 AlexNet網(wǎng)絡(luò)FC6全連接層特征(4 096維)作為特征表達(dá)。網(wǎng)絡(luò)在ImageNet的一個(gè)子集上進(jìn)行預(yù)訓(xùn)練,然后提取用戶服裝圖像和商城服裝圖像的特征。
(2)Contrastive,該方法基于 Siamese網(wǎng)絡(luò),采用傳統(tǒng)對(duì)比損失函數(shù)[21]。在DeepFashion數(shù)據(jù)集的跨場(chǎng)景服裝檢索子集上進(jìn)行訓(xùn)練,然后利用視覺特征計(jì)算不同場(chǎng)景服裝圖像的距離。
(3)DARN網(wǎng)絡(luò)框架[10]有2個(gè)完全獨(dú)立的嵌套NIN的網(wǎng)絡(luò)分支,分別用于商品服裝圖像和用戶服裝圖像,與Siamese網(wǎng)絡(luò)共享底層。在DARN[10]網(wǎng)絡(luò)頂層的全連接層用于類別和屬性預(yù)測(cè),訓(xùn)練損失是預(yù)測(cè)損失和三元組損失的加權(quán)組合。通過串聯(lián)卷積層和全連接層的特征,利用特征向量計(jì)算三元組損失函數(shù),調(diào)整卷積層的形狀,再利用ImageNet上NIN的預(yù)訓(xùn)練參數(shù),使之與原NIN模型[22]相同。
(4)FashionNet網(wǎng)絡(luò)結(jié)構(gòu)[2]以VGG-16為基礎(chǔ),所有圖像通過同一組卷積層傳遞。頂層分支部分用于處理不同的任務(wù),包括屬性預(yù)測(cè)和關(guān)鍵點(diǎn)預(yù)測(cè),而不是處理不同場(chǎng)景域。換言之,不同場(chǎng)景域的服裝圖像通過同一卷積層進(jìn)行特征提取。由于受內(nèi)存限制,本文沿用文獻(xiàn)[7]中的處理方法,用VGGCNNN-S[23]取代DeepFashion使用的VGG-16模型[24]。同時(shí),由于對(duì)服裝關(guān)鍵點(diǎn)的研究超出了本文范圍,因此去除了關(guān)鍵點(diǎn)預(yù)測(cè)子分支和屬性預(yù)測(cè)分支。
用top-k精度評(píng)估檢索性能,定義如下:
其中,Q為查詢總數(shù),q指查詢的用戶服裝圖像;如果在返回的top-k排序列表中至少有1幅與q匹配的服裝圖像,則為命中,(q,K)=1;否則認(rèn)為沒有命中,(q,K)=0。對(duì)于大多數(shù)查詢來說,在DeepFashion數(shù)據(jù)集中只有1個(gè)匹配的數(shù)據(jù)庫圖像。
實(shí)驗(yàn)在64位 Windows7操作系統(tǒng),TiTan X和980 Ti,128 G內(nèi)存環(huán)境下進(jìn)行,算法采用Python和Matlab混合編程實(shí)現(xiàn)。將商品服裝圖像和用戶服裝圖像作為輸入,并以相應(yīng)的top-k精度作為比較依據(jù)。
在上身服裝圖像上提取特征檢索,實(shí)驗(yàn)中子網(wǎng)絡(luò)均采用AlexNet結(jié)構(gòu),將4 096維的類別特征FCi和匹配特征FMi級(jí)聯(lián)作為服裝描述子。圖4和表2為基準(zhǔn)方法和本文方法在DeepFashion子數(shù)據(jù)集上的top-k精度對(duì)比,可知,在4種基線方法中,單一域網(wǎng)絡(luò)結(jié)構(gòu)且不考慮高層語義信息的AlexNet效果最差(P@20=0.150)。 FashionNet(P@20=0.239)以及DARN(P@20=0.239)的表現(xiàn)比單一Siamese網(wǎng)絡(luò)(P@20=0.150)要好,這是因?yàn)榫捎昧朔种ЫY(jié)構(gòu)并且添加了高層語義信息。FashionNet的效果要優(yōu)于DARN,這與DeepFashion中的實(shí)驗(yàn)結(jié)果一致,其分支結(jié)構(gòu)雖未用于域特定特征,但通過多任務(wù)訓(xùn)練提高了檢索精度。在對(duì)比試驗(yàn)中,未采用關(guān)鍵點(diǎn)和服裝屬性數(shù)據(jù),這也導(dǎo)致本文方法(P@20=0.481)要優(yōu)于 FashionNet(P@20=0.431)。可以看出,在使用較少監(jiān)督信息的情況下,本文方法的性能優(yōu)于4個(gè)基準(zhǔn)方法,結(jié)果與預(yù)期一致。通過結(jié)合高層語義信息和多分支網(wǎng)絡(luò),本文方法可以學(xué)習(xí)到更有表述力的服裝特征描述子。
圖4 跨場(chǎng)景服裝檢索top-k精度的比較Fig 4 Comparison of top-k accuracy of cross-scenario clothing retrieval
表2 跨場(chǎng)景服裝檢索top-k精度Table 2 Top-k accuracy of cross-scenario clothing retrieval
為了更好地理解任務(wù)和特征提取模型,分析了一些樣例并進(jìn)行查詢。圖5顯示了top-3查詢匹配結(jié)果,黑框表示查詢圖像,綠框表示匹配正確的查詢結(jié)果。首先,查詢結(jié)果圖像(即第2~4列中的商品服裝圖像)與查詢圖像(即第1列中的用戶服裝圖像)背景差異十分明顯。因此,采用單獨(dú)的網(wǎng)絡(luò)分支分別提取特定特征是很有必要的。其次,部分商品圖像,如第2、3組查詢得到的商品圖像也帶有嘈雜的背景。因此,有必要引入額外信息,如類別信息,來提高模型的判別能力。
圖5 部分服裝圖像檢索結(jié)果Fig.5 Retrieval results of some clothing image
圖6 展示了本文模型在top-3列表匹配失敗的查詢案例,虛線右側(cè)表示查詢對(duì)應(yīng)的真值圖像??梢钥闯?,此類查詢圖像往往存在遮擋(第1組)、變形(第2組)或光線不足(第3組)的情況。同時(shí),失敗情況均為在類內(nèi)查詢的錯(cuò)誤,這也從側(cè)面表明,基于類別約束的檢索方法是有效的。
圖6 部分檢索結(jié)果失敗樣例Fig.6 Some failed retrieval results of clothing image
針對(duì)大規(guī)??鐖?chǎng)景服裝檢索問題,提出了一種基于高層公共特征約束域特定特征的相似性度量算法。主要思想是利用類別信息約束傳統(tǒng)對(duì)比損失函數(shù),降低過擬合,提高特征的表述力,并且提出三分支網(wǎng)絡(luò)結(jié)構(gòu)融合域特定特征和高層語義公共特征。實(shí)驗(yàn)表明,本文算法具有明顯的改善效果。今后將嘗試更新模型以進(jìn)一步提高查詢準(zhǔn)確率和效率。