陳嬡嬡,李 來,劉光燦,劉青山
(江蘇省大數(shù)據(jù)分析技術(shù)重點(diǎn)實驗室(南京信息工程大學(xué)),南京 210044)
基于關(guān)鍵點(diǎn)的服裝檢索
陳嬡嬡*,李 來,劉光燦,劉青山
(江蘇省大數(shù)據(jù)分析技術(shù)重點(diǎn)實驗室(南京信息工程大學(xué)),南京 210044)
目前,同款或近似款式服裝檢索主要分為基于文本和基于內(nèi)容兩類。基于文本算法往往需要海量標(biāo)注樣本,且存在人工主觀性帶來的標(biāo)注缺失和標(biāo)注差異等問題;基于內(nèi)容算法一般對服裝圖像的顏色、形狀、紋理提取特征,進(jìn)行相似性度量,但難以應(yīng)對背景顏色干擾,以及視角、姿態(tài)引起的服裝形變等問題。針對上述問題,提出一種基于關(guān)鍵點(diǎn)的服裝檢索方法。利用級聯(lián)深度卷積神經(jīng)網(wǎng)絡(luò)為基礎(chǔ),定位服裝關(guān)鍵點(diǎn),融合關(guān)鍵點(diǎn)區(qū)域低層視覺信息以及整幅圖像的高層語義信息。對比傳統(tǒng)檢索方法,所提算法能有效處理視角、姿態(tài)引起的服裝形變和復(fù)雜背景的干擾;同時不需大量樣本標(biāo)定, 且對背景、形變魯棒。在Fashion Landmark數(shù)據(jù)集和BDAT-Clothes數(shù)據(jù)集上與常用算法進(jìn)行對比實驗。實驗結(jié)果表明所提算法能有效提升檢索的查準(zhǔn)率和查全率。
關(guān)鍵點(diǎn);深度卷積神經(jīng)網(wǎng)絡(luò);級聯(lián);服裝檢索
隨著電子商務(wù)的普及,越來越多的年輕人傾向于網(wǎng)上購買服裝,網(wǎng)上購物平臺提供的主要是通過文本關(guān)鍵字進(jìn)行服裝檢索的服務(wù)(Texture-Based Image Retrieval, TBIR)[1-2]。對于電商而言,TBIR需要耗費(fèi)大量的人力物力對每日新增入庫的商品進(jìn)行標(biāo)注;對于購物者而言,TBIR返回的往往是商品品類的大類,比如連衣裙,需要用戶在返回的海量結(jié)果中根據(jù)自己的需求、喜好進(jìn)一步篩選,這就使得用戶體驗不佳。
近年來發(fā)展的基于內(nèi)容的圖像檢索技術(shù)(Content-Based Image Retrieval, CBIR)受到廣泛關(guān)注,尤其是在服裝檢索領(lǐng)域[3-10]?;ɑ茏R別、百度識圖、拍立淘等產(chǎn)品,都是“以圖搜圖”的成功應(yīng)用。CBIR通過對服裝圖片抽取顏色、形狀、紋理等低層特征,以此建立查詢索引庫,然后計算與查詢圖片特征之間的相似度,返回與用戶查詢最匹配的商品,一定程度上提升了檢索的精度。其中比較典型的方法包括:文獻(xiàn)[11]提出利用HSV顏色模型提取服裝顏色實現(xiàn)服裝檢索;文獻(xiàn)[12]提出將切割顏色直方圖、顏色距、前景顏色直方圖三種算法得到的歐氏距離線性加權(quán),進(jìn)一步去除背景干擾;文獻(xiàn)[13]提出運(yùn)用魯棒性強(qiáng)、速度快的SURF(Speeded-Up Robust Feature)算法來減少光照、尺度、角度引起的誤差。通常,單一特征提取的信息較為單一,描述能力較弱,例如方向梯度直方圖(Histogram of Oriented Gradient, HOG),而多特征融合包含更豐富的信息,能更好地處理這一問題。文獻(xiàn)[14]提出分二次檢索,先利用款式縮小檢索范圍,在此基礎(chǔ)上融合顏色直方圖進(jìn)一步排除干擾。文獻(xiàn)[15]提出組合顏色、花型、款式三種特征來全方位檢索服裝。但這些算法大部分都是基于單一的低層視覺特征或者簡單的多特征線性融合,對于復(fù)雜背景干擾,視角、姿態(tài)引起的服裝形變無法得到較為滿意的檢索結(jié)果。
上述傳統(tǒng)檢索算法是使用低層視覺特征來度量服裝圖片之間的相似性,缺少了對圖片高層語義信息的理解,這正是傳統(tǒng)特征對目前檢索任務(wù)難以勝任的主要原因[16]。近幾年流行的深度學(xué)習(xí)(Deep Learning)在圖像分類[17-19]、目標(biāo)檢測[20-22]、物體分割、人臉識別[23-24]等分類、回歸視覺任務(wù)中取得突破性進(jìn)展[25-26],揭示了卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)對低層視覺特征和高層語義特征的強(qiáng)大表征能力。CNN一般包括卷積層(Convolution Layer)、池化層(Pooling Layer)和全連接層(Fully-Connected Layer)。一般來說,不同的卷積層抽取圖像的不同信息,淺層的卷積主要描述圖像的形狀、顏色、紋理等低層視覺信息,深層的卷積主要描述圖像的高層語義信息,融合不同卷積層的特征能更好的表達(dá)圖像,處理更加復(fù)雜的視覺任務(wù)。針對傳統(tǒng)特征的不足之處,本文利用CNN回歸關(guān)鍵點(diǎn),提出級聯(lián)多個卷積神經(jīng)網(wǎng)絡(luò),采取由粗到細(xì)策略,逐步定位服裝關(guān)鍵點(diǎn):衣領(lǐng)(Collar)、袖子(Sleeve)、邊(Hem),檢索框架如圖1所示。
圖1 基于關(guān)鍵點(diǎn)的服裝檢索框架Fig. 1 Clothing retrieval framework based on key points
利用關(guān)鍵點(diǎn)中暗含的空間幾何信息,對服裝進(jìn)行對齊、配準(zhǔn),解決傳統(tǒng)形狀特征無法應(yīng)對的服裝形變問題。在關(guān)鍵點(diǎn)定位的基礎(chǔ)上,利用CNN提取關(guān)鍵點(diǎn)區(qū)域低層卷積特征和整幅圖像高層卷積特征,充分整合視覺和語義信息,更好地實現(xiàn)了服裝檢索中的同款和相似款式的檢索。實驗結(jié)果表明,文本算法在大規(guī)模服裝數(shù)據(jù)庫中能取得較為理想的檢索效果。
當(dāng)視角不同或姿態(tài)變化時,同款服裝的形狀會發(fā)生很大尺度的變化,如圖2所示,基于傳統(tǒng)形狀特征算法很難處理這種問題。此外,圖中地面顏色與上衣的顏色近似,復(fù)雜的背景也給基于顏色特征的檢索算法帶來了嚴(yán)峻的挑戰(zhàn)。在人臉識別中,為了有效處理不同姿態(tài)(角度、遮擋、夸張表情)問題,一般采用關(guān)鍵點(diǎn)檢測,預(yù)先進(jìn)行人臉的配準(zhǔn)和對齊。受這一思想啟發(fā),對于不同形變服裝進(jìn)行暗含幾何約束的關(guān)鍵點(diǎn)檢測是有必要的,然后在檢測到的關(guān)鍵點(diǎn)周邊區(qū)域提取卷積特征來進(jìn)行相似性度量,有效地解決了服裝形變和復(fù)雜背景干擾等問題,極大地提高了檢索精度。
圖2 視角、姿態(tài)引起的服裝形狀變化Fig. 2 Shape changes caused by angle and attitude
深度卷積神經(jīng)網(wǎng)絡(luò)在分類、回歸諸多領(lǐng)域得到成功應(yīng)用,主要?dú)w因于其強(qiáng)大的特征學(xué)習(xí)能力。本文設(shè)計三個卷積神經(jīng)網(wǎng)絡(luò)級聯(lián),采取“由粗到細(xì)”的策略來回歸服裝關(guān)鍵點(diǎn)。文中的服裝關(guān)鍵點(diǎn)標(biāo)定為3組6個點(diǎn):左衣領(lǐng)A、右衣領(lǐng)B;左袖子C、右袖子D;左下側(cè)邊E、右下側(cè)邊F。
第一級網(wǎng)絡(luò)主要是對關(guān)鍵點(diǎn)進(jìn)行粗定位,包含三個深度卷積神經(jīng)網(wǎng)絡(luò),分別是CNN L1、CNN F1、CNN R1,L和R是對服裝左右兩側(cè)的三個關(guān)鍵點(diǎn)監(jiān)測,F(xiàn)是對整個服裝的檢測,相近的網(wǎng)絡(luò)可以學(xué)習(xí)出服裝的對稱結(jié)構(gòu),如圖3所示。
圖3 Level1結(jié)構(gòu)Fig. 3 Level1 structure
其中,綠色方框表示左側(cè)圖片中黃色虛線框標(biāo)定的服裝區(qū)域,黃色區(qū)域表示各個網(wǎng)絡(luò)的輸入,三角、圓點(diǎn)、正方形表示三個網(wǎng)絡(luò)各自的預(yù)測輸出,菱形表示這一級網(wǎng)絡(luò)的最終位置的預(yù)測輸出。虛線框內(nèi)的服裝區(qū)域檢測可由Faster RCNN(Faster Regions with Convloutional Neural Network)、SSD(Single Shot MultiBox Detector)、YOLO(You Only Look Once)等目標(biāo)檢測算法得到,這不是本文的重點(diǎn),在此不進(jìn)行深入的探討。3個深度卷積神經(jīng)網(wǎng)絡(luò)的輸入是不同的,CNN L1以服裝的左側(cè)區(qū)域為輸入,CNN R1以服裝的右側(cè)區(qū)域為輸入,CNN F1則以整個服裝區(qū)域作為輸入。這樣做的原因有兩點(diǎn):首先,能充分利用服裝區(qū)域的上下文信息,并結(jié)合CNN提取的全局特征,避免了回歸時出現(xiàn)局部最優(yōu)值情況,保證了網(wǎng)絡(luò)訓(xùn)練的可收斂性;其次,由于暗含了關(guān)鍵點(diǎn)的幾何約束,使用多個網(wǎng)絡(luò)同時預(yù)測多個值,且每個關(guān)鍵點(diǎn)的位置由多個網(wǎng)絡(luò)平均得到,使得在單個網(wǎng)絡(luò)預(yù)測出現(xiàn)偏差時也能有效地預(yù)測6個位置,盡可能保證第一級網(wǎng)絡(luò)預(yù)測結(jié)果的可靠性。
第二級網(wǎng)絡(luò)主要進(jìn)行位置的調(diào)整,其結(jié)構(gòu)如圖4所示,使用兩個同結(jié)構(gòu)的卷積神經(jīng)網(wǎng)絡(luò)分別對上一級預(yù)測得到的6個關(guān)鍵點(diǎn)進(jìn)行微調(diào),網(wǎng)絡(luò)的輸入改變成以關(guān)鍵點(diǎn)為中心的n×n的正方形區(qū)域,本文中將n設(shè)置為15。在前一級網(wǎng)絡(luò)預(yù)測結(jié)果的周邊局部區(qū)域上微調(diào)關(guān)鍵點(diǎn)的位置,目的是進(jìn)一步減小定位誤差,實現(xiàn)更加精確定位,最終預(yù)測關(guān)鍵點(diǎn)位置同樣由多個網(wǎng)絡(luò)的輸出平均得到。第三級網(wǎng)絡(luò)與第二級網(wǎng)絡(luò)結(jié)構(gòu)相同。
圖4 Level2結(jié)構(gòu)Fig. 4 Level2 structure
隨著級聯(lián)層數(shù)的加深,網(wǎng)絡(luò)的輸入變得越來越小,由于輸入的是局部信息,缺少相應(yīng)的上下文信息,會產(chǎn)生因局部區(qū)域表現(xiàn)的不可靠導(dǎo)致網(wǎng)絡(luò)發(fā)散的后果。除此之外,隨著級聯(lián)層數(shù)的加深,模型的訓(xùn)練時間也會相應(yīng)增加。為了壓縮模型訓(xùn)練時間和確保關(guān)鍵點(diǎn)定位的可靠性,本文只選擇了3級網(wǎng)絡(luò)級聯(lián)結(jié)構(gòu)。級聯(lián)網(wǎng)絡(luò)最終的預(yù)測輸出可用式(1)來描述:
(1)
其中:(x,y)表示最終的關(guān)鍵點(diǎn)坐標(biāo),ki表示第i級網(wǎng)絡(luò)預(yù)測的個數(shù)。
本節(jié)主要介紹各級網(wǎng)絡(luò)的具體實現(xiàn)結(jié)構(gòu)。在上節(jié)提到,第一級網(wǎng)絡(luò)結(jié)構(gòu)主要是對關(guān)鍵點(diǎn)的粗定位,但實際上期望實現(xiàn)的是盡可能精準(zhǔn)且極小的定位偏差,這樣才能為后繼網(wǎng)絡(luò)
提供更合理的輸入?yún)^(qū)域,所以這級網(wǎng)絡(luò)需要相對較深的網(wǎng)絡(luò)結(jié)構(gòu)。圖5是CNN F1的網(wǎng)絡(luò)結(jié)構(gòu),具體包括4層卷積層、3層池化層、2層全連接層。其中,池化層選擇最大池化而不是平均池化,主要是其能更好保留紋理信息,便于關(guān)鍵點(diǎn)回歸。另外,最后一層全連接含有12個神經(jīng)元,用于6個關(guān)鍵點(diǎn)的坐標(biāo)位置回歸。
后繼兩級級聯(lián)是對前一級預(yù)測結(jié)果的微調(diào),所以網(wǎng)絡(luò)相對較淺,同時也能減少級聯(lián)框架的訓(xùn)練時間。表1和表2分別列出了第一級、二三兩級網(wǎng)絡(luò)的具體結(jié)構(gòu)。表中,F(xiàn)1、L1、R1分別代表第一級中的三個網(wǎng)絡(luò);S表示二三兩級中的網(wǎng)絡(luò);Input表示網(wǎng)絡(luò)的輸入;C表示卷積層,兩列數(shù)字分別表示卷積核的大小和Feature Map數(shù)目;P表示池化層,數(shù)字表示卷積核大小;FC表示全連接層,數(shù)字為該層神經(jīng)元數(shù)目。
表1 第一級子網(wǎng)結(jié)構(gòu)Tab. 1 The first subnet structure
表2 二三兩級子網(wǎng)結(jié)構(gòu)Tab. 2 The second and third subnet structure
圖5 F1網(wǎng)絡(luò)結(jié)構(gòu)Fig. 5 F1 network structure
在卷積神經(jīng)網(wǎng)絡(luò)中,深層卷積提取的是語義信息,淺層卷積提取的是視覺信息。相比傳統(tǒng)的手工特征具有更好的特征描述能力,這一點(diǎn)在多數(shù)視覺任務(wù)中得到了充分驗證。
大部分購物網(wǎng)站展示的圖片中,服裝一般是處于居中位置,占據(jù)較大空間,且外形沒有較大尺度形變,背景簡單無干擾,針對這種情況,提取整幅圖像的深層卷積特征,進(jìn)行相似性度量就可以達(dá)到相對較好的檢索效果。用戶自己拍攝的圖像中,因為存在拍攝者的視角和被拍攝者的肢體動作等因素,服裝外形常常變形,基于傳統(tǒng)形狀特征的算法很難處理。
本文提出先對服裝進(jìn)行關(guān)鍵點(diǎn)定位,利用暗含的幾何關(guān)系應(yīng)對形變問題,然后提取其周邊的淺層卷積特征,融合整幅圖像的深層卷積特征來進(jìn)行精確檢索。本文特征提取以2012年提出的AlexNet分類模型[17]為基本網(wǎng)絡(luò)如圖6所示,在其基礎(chǔ)上微調(diào)訓(xùn)練自己的模型。這個經(jīng)典模型結(jié)構(gòu)簡單,網(wǎng)絡(luò)較淺,計算量少,較少的樣本就能取得較好的分類準(zhǔn)確率。整幅圖像的高層特征使用第5層卷積特征,關(guān)鍵點(diǎn)周邊區(qū)域特征使用第2層卷積特征,采取特征串聯(lián)方式,AlexNet網(wǎng)絡(luò)對最終的特征進(jìn)行了降維處理。本文中的訓(xùn)練樣本是從BDAT-Clothes服裝數(shù)據(jù)集中每類隨機(jī)抽取的1 000圖片組成,驗證樣本是測試集中每類抽取的100張圖片組成。
為了驗證本文算法的有效性,在兩個大規(guī)模服裝圖像檢索數(shù)據(jù)庫BDTA-Clothes和Fashion Landmark上與常用算法進(jìn)行了對比實驗。實驗硬件環(huán)境為i7-4790 CPU,NVIDIA 750 Ti GPU,軟件環(huán)境是ubuntu-14.04 LTS。
BDATA-Clothes是從互聯(lián)網(wǎng)上收集的16類總共包括33 682 張RGB服裝圖片。查詢圖片每類400張,剩余作為檢索數(shù)據(jù)庫。其中,沖鋒衣1 652張、衛(wèi)衣1 638張、夾克1 587張、女式T恤1 544張、女式襯衫1 662張、女式西服1 662張、女式風(fēng)衣1 598張、旗袍1 608張、棉服1 635張、男式T恤1 754張、男式襯衫1 584張、男式西服1 583張、男式風(fēng)衣2 200張、羽絨服1 685張、連衣裙2 017張和針織衫1 873張。
圖6 AlexNet網(wǎng)絡(luò)Fig. 6 AlexNet network
Landmark Detection Benchmark[27-28]:是一個公開的大型服裝數(shù)據(jù)集,包括123 016張服裝圖片,每張圖片標(biāo)定6~8個關(guān)鍵點(diǎn),服裝邊界框,3種服裝類型(上半身、下半身、全身)以及3種形變程度(正常、中等、嚴(yán)重)。為了驗證本文關(guān)鍵點(diǎn)檢測模型無需大量的訓(xùn)練樣本,實驗時從Landmark Detection數(shù)據(jù)集中僅選取了6 455張圖片作為訓(xùn)練,1 626張圖片作為測試。原始數(shù)據(jù)集標(biāo)注個數(shù)不統(tǒng)一,為了適應(yīng)本文關(guān)鍵點(diǎn)模型,對數(shù)據(jù)庫中的關(guān)鍵點(diǎn)標(biāo)注信息僅保留下6個:左右衣領(lǐng)、左右袖子以及左右側(cè)邊。當(dāng)作為檢索數(shù)據(jù)庫使用時,隨機(jī)抽取1 000張作為查詢,剩余樣本作為檢索圖像庫。
3.3.1 評價指標(biāo)
關(guān)鍵點(diǎn)定位的準(zhǔn)確性可以用回歸出的關(guān)鍵點(diǎn)(x′,y′)與真實標(biāo)定的關(guān)鍵點(diǎn)(x,y)之間的歐氏距離來判斷,如式(2)所示,主要是衡量單幅圖像的關(guān)鍵點(diǎn)誤差。距離越大說明網(wǎng)絡(luò)預(yù)測的偏差越大,回歸的關(guān)鍵點(diǎn)位置越不準(zhǔn)確。式(3)表示所有測試樣本中各個關(guān)鍵點(diǎn)的預(yù)測值ntest與其真值Dis之間的平均距離,能更好地反映網(wǎng)絡(luò)的定位性能。
(2)
(3)
3.3.2 參數(shù)設(shè)置
本節(jié)簡單地說明各級網(wǎng)絡(luò)的初始參數(shù)設(shè)置。level1中各個網(wǎng)絡(luò)的初始學(xué)習(xí)率設(shè)置為0.01,動量設(shè)置為0.9,權(quán)重衰減因子設(shè)置為0.000 5。學(xué)習(xí)策略采用“inv”倒數(shù)衰減方式,其中g(shù)amma參數(shù)設(shè)置為0.000 1,power參數(shù)設(shè)置為0.75。level2與level1設(shè)置相同。level3中初始學(xué)習(xí)率設(shè)置為0.005,其余設(shè)置與level1保持一致。
3.3.3 結(jié)果分析
第一級網(wǎng)絡(luò)回歸的關(guān)鍵點(diǎn)位置直接影響后續(xù)網(wǎng)絡(luò)的輸入?yún)^(qū)域。通常情況下,隨著迭代次數(shù)增加,訓(xùn)練的模型會趨向于收斂,定位誤差也越來越小。本文做了3組迭代次數(shù)對關(guān)鍵點(diǎn)定位誤差影響的實驗,每組中的誤差是5次實驗取均值,結(jié)果如表3、表4所示。從表中可以看出,隨著迭代次數(shù)的增加,關(guān)鍵點(diǎn)的回歸誤差越來越小。當(dāng)?shù)螖?shù)從100萬次增加到120萬次時,定位誤差基本不變,說明模型已經(jīng)收斂。級聯(lián)的各網(wǎng)絡(luò)經(jīng)過同樣的迭代次數(shù)對比實驗,發(fā)現(xiàn)大約10萬次就收斂了。所以本文接下來的實驗都是在第一級網(wǎng)絡(luò)訓(xùn)練100萬次,后續(xù)網(wǎng)絡(luò)訓(xùn)練10萬次上進(jìn)行的。
表3 不同迭代次數(shù)時的定位誤差Tab. 3 Location error in different iterations
表4 L、R、F網(wǎng)絡(luò)的定位誤差Tab. 4 Network positioning error of L、R and F
關(guān)鍵點(diǎn)定位誤差除了與訓(xùn)練模型的迭代次數(shù)有關(guān),還與級聯(lián)層數(shù)有關(guān)系。本文將級聯(lián)層數(shù)從1改變到4,分別統(tǒng)計了各級網(wǎng)絡(luò)的平均定位誤差,并分析了各級中6個關(guān)鍵點(diǎn)的定位誤差,實驗結(jié)果如圖7所示。其中,橫坐標(biāo)LC、RC、LS、RS、LW、RW分別表示左衣領(lǐng)、右衣領(lǐng)、左袖子、右袖子、左下側(cè)邊、右下側(cè)邊,level表示級聯(lián)的層數(shù)。從圖7中不難看出,隨著級聯(lián)層數(shù)的增加,關(guān)鍵點(diǎn)的預(yù)測值與真實值之間的距離越來越小,說明定位越來越準(zhǔn),驗證了本文關(guān)鍵點(diǎn)模型的有效性。但同時也能發(fā)現(xiàn),level4網(wǎng)絡(luò)的位置調(diào)整的力度遠(yuǎn)比level2和level3要小,且level3已經(jīng)取得較好的定位準(zhǔn)確率。
圖7 各關(guān)鍵點(diǎn)平均誤差Fig. 7 Average error of key points at all levels
此外,各個關(guān)鍵點(diǎn)的平均誤差也不相同,袖子的定位誤差相對較大,原因是選取的訓(xùn)練樣本總數(shù)較少,僅為6 445張服裝圖片,分?jǐn)偟綗o袖、短袖、長袖三類的訓(xùn)練樣本數(shù)目要遠(yuǎn)低于另外兩組關(guān)鍵點(diǎn),導(dǎo)致了定位誤差要略微偏高。定位誤差次之的是衣領(lǐng),主要是訓(xùn)練數(shù)據(jù)集中存在部分頭發(fā)遮擋關(guān)鍵點(diǎn)的情況,給關(guān)鍵點(diǎn)定位帶來了難度,降低了相應(yīng)的定位準(zhǔn)確度。但這些定位誤差總體較小,都在可接受范圍內(nèi),如果增加對應(yīng)的訓(xùn)練樣本以及增添服裝中心的關(guān)鍵點(diǎn)標(biāo)定信息,可以進(jìn)一步降低因類別數(shù)目不均以及部分關(guān)鍵點(diǎn)遮擋造成的誤差。
增加級聯(lián)數(shù)目可以進(jìn)一步提高關(guān)鍵點(diǎn)定位的準(zhǔn)確性,但同時也會增加模型訓(xùn)練時間以及單張圖片的定位時間,表5是不同級聯(lián)數(shù)目時模型的訓(xùn)練時間和測試速度。
表5 各級模型的訓(xùn)練時間、測試速度Tab. 5 Training time, test speed of each level
由于level1迭代次數(shù)最多,所以訓(xùn)練時間最長,級聯(lián)的level2、level3、level4設(shè)置相同,所以每增加一級,就需要增加約為2.3 h的模型訓(xùn)練時間。測試速度方面,第一級網(wǎng)絡(luò)fps可以達(dá)到240+,第四級網(wǎng)絡(luò)只能達(dá)到25左右。綜合考慮各級網(wǎng)絡(luò)的關(guān)鍵點(diǎn)定位準(zhǔn)確性、模型訓(xùn)練時間、測試速度,本文選擇了三層級聯(lián)結(jié)構(gòu)。
除了對關(guān)鍵點(diǎn)模型進(jìn)行了定量分析,本文也對其進(jìn)行了定型分析,從測試集中挑選了具有代表性的服裝圖片進(jìn)行了檢測結(jié)果可視化,如圖8所示。
圖8 關(guān)鍵點(diǎn)檢測效果Fig. 8 Key point detection results
圖8中每一行圖片中存在視角、姿態(tài)引起的服裝形變。從(a)、(b)定位結(jié)果來看,本文關(guān)鍵點(diǎn)模型對不同背景、姿態(tài)下的各種類型服裝都能有效地進(jìn)行定位。針對(c)中關(guān)鍵點(diǎn)被頭發(fā)、手提包遮擋的情況,本文模型依然能回歸出關(guān)鍵點(diǎn)位置,此時關(guān)鍵點(diǎn)區(qū)域特征是遮擋物的特征。存在遮擋的圖片在數(shù)據(jù)庫很少,且單個關(guān)鍵點(diǎn)的低層視覺信息在最終融合的特征中所占比例很小,所以最終對檢索結(jié)果影響不是很大。為了進(jìn)一步減小關(guān)鍵點(diǎn)被遮擋的影響,未來的工作考慮對數(shù)據(jù)庫中的標(biāo)注信息重新整理,并增加服裝中心位置的標(biāo)注,因為中心位置一般不容易被遮擋,且中心位置圖案有時候是同種顏色、款式服裝的主要區(qū)別,例如白色短袖T恤,區(qū)別主要就是中心位置印刷的各種圖案。除了形變、背景、遮擋等因素,本文還對不同光照場景進(jìn)行了實驗,從(d)結(jié)果來看,本文關(guān)鍵點(diǎn)模型依然能有效地檢測出關(guān)鍵點(diǎn)。
3.4.1 評價指標(biāo)
溫度控制方案如圖2所示。在該方案中,溫度傳感器測到的室內(nèi)溫度值與給定的溫度值的差值輸入到控制器,控制器通過特定的算法用脈沖控制步進(jìn)電機(jī),步進(jìn)電機(jī)與電動閥連接,通過轉(zhuǎn)動控制電動閥閥門的開度,進(jìn)而控制管道內(nèi)液體的流量,最終改變室內(nèi)的溫度。溫度傳感器將檢測到的實時溫度與給定溫度進(jìn)行比較,差值再次送入控制器,控制器通過步進(jìn)電機(jī)改變管道液體流量,使溫度降低的速度加快或減慢,最終使室內(nèi)溫度與給定溫度匹配。
查準(zhǔn)率(precision)和查全率(recall)[10]是檢索算法中最常用的兩個評價指標(biāo),具體公式如式(4)、(5)所示。其中,近鄰樣本在本文中定義為:數(shù)據(jù)庫中與查詢樣本歐氏距離最近的k服裝樣本,在兩個數(shù)據(jù)庫中k均設(shè)定為0.02。
(4)
(5)
3.4.2 對比實驗
本文選取了目前服裝檢索中最常用算法與本文進(jìn)行對比,涉及的特征主要包括顏色特征:HSV(Hue,Saturation,Value)、HIST(Histogram),形狀特征:HOG(Histogram of Oriented Gradient)、局部二值模式(Local Binary Pattern, LBP),紋理特征:Color Moments,以及全局特征:GIST(Global Characteristics)[29]。除了單一特征的對比,本文還與多特征融合做了對比,實驗中,每種特征維度均為128維。
表6 前10張圖像的查準(zhǔn)率和查全率對比Tab. 6 Comparison of precision and recall of the top 10 images
從表6中可以看出,在BDAT-Clothes數(shù)據(jù)庫上,HOG+HSV特征融合之后的查準(zhǔn)率和查全率要明顯好于單一的HOG特征或者HSV特征。相比單一特征,多特征融合由于包含了更加豐富的圖像信息,所以能一定程度上提升檢索性能。Fashion Landmark數(shù)據(jù)庫背景相對復(fù)雜,服裝變形明顯,傳統(tǒng)的基于低層視覺信息的單一特征通常無法有效地處理這些問題,檢索結(jié)果不是很理想,使用HOG+HSV的傳統(tǒng)多特征融合對檢索性能提升也很有限,所以低層視覺特征更適用于較為簡單的檢索任務(wù)。表6中的Landmark表示關(guān)鍵點(diǎn)周邊小區(qū)域的淺層CNN特征,利用關(guān)鍵點(diǎn)中暗含的幾何信息,可以對服裝進(jìn)行對齊,有效地去除復(fù)雜背景和服裝形變的干擾,所以查準(zhǔn)率和查全率均要高于傳統(tǒng)算法。CNN + Landmark表示的是將關(guān)鍵點(diǎn)區(qū)域淺層卷積特征和全圖的高層卷積特征的融合,這樣可以有效地將語義信息和視覺信息整合,全局信息和局部信息整合,使得最終的特征具有更好的表征能力,檢索性能更加理想。
為了更充分地驗證本文算法的有效性,選取了傳統(tǒng)特征中查全率最高的HOG+HSV多特征與本文算法進(jìn)行了查全率對比,檢索返回服裝圖片數(shù)目設(shè)置成5組,實驗結(jié)果如圖9所示。在兩個大規(guī)模圖像檢索數(shù)據(jù)庫上,隨著檢索返回數(shù)目的增加,本文算法的查全率比傳統(tǒng)多特征融合方式的優(yōu)勢愈發(fā)明顯。在設(shè)定返回相同數(shù)目圖片情況時,本文算法查全率要明顯高于對比算法,說明檢索出的匹配服裝數(shù)目更多;在設(shè)定相同查全率情況時,本文算法需要更少的返回圖片數(shù)目,意味著查準(zhǔn)率更優(yōu)。本文提出的關(guān)鍵點(diǎn)檢索算法相比傳統(tǒng)算法在性能上有很大的提升,更適合目前的服裝檢索任務(wù)。
圖9 不同檢索返回樣本數(shù)目下的查全率對比Fig. 9 Comparison of recall under different retrieval returns
針對大規(guī)模服裝檢索問題,提出一種基于關(guān)鍵點(diǎn)定位的檢索方法。本文算法的主要思想是使用關(guān)鍵點(diǎn)定位,融合關(guān)鍵點(diǎn)區(qū)域的低層視覺信息和整幅服裝圖像的高層語義信息。相比傳統(tǒng)基于顏色、形狀、紋理等檢索方法,關(guān)鍵點(diǎn)算法能有效地處理視角、姿態(tài)引起的服裝形變和復(fù)雜背景干擾,極大地提升了服裝檢索可靠性。在Fashion Landmark和BDAT-Clothes兩個大規(guī)模數(shù)據(jù)庫上的對比實驗表明,本文算法可以顯著提高檢索的查準(zhǔn)率和查全率。將來的工作會考慮如何解決頭發(fā)、肢體等造成的關(guān)鍵點(diǎn)遮擋問題,進(jìn)一步提高本文算法的檢索魯棒性。
References)
[1] 薛培培, 鄔延輝. 基于圖像內(nèi)容和支持向量機(jī)的服裝圖像檢索方法研究[J]. 移動通信, 2016(2):79-82.(XUE P P, WU Y H. A clothing image retrieval method based on image content and support vector machine[J]. Mobile Communication, 2016(2):79-82.)
[2] 蘭麗, 耿增民. 服裝圖像檢索研究綜述[J]. 電腦知識與技術(shù), 2015, 11(12): 184-187.(LAN L, GENG Z M. The clothing image research review[J]. Computer Knowledge and Technology, 2015, 11(12): 184-187.)
[3] LIU S, SONG Z, LIU G, et al. Street-to-shop: cross-scenario clothing retrieval via parts alignment and auxiliary set[C]// Proceedings of the 20th ACM International Conference on Multimedia. New York: ACM, 2012:1335-1336.
[4] WEI D, WAH C, BHARDWAJ A, et al. Style finder: fine-grained clothing style detection and retrieval[C]// Proceedings of the 2013 IEEE Conference on Computer Vision and Pattern Recognition Workshops. Piscataway, NJ: IEEE, 2013: 8-13.
[5] HUANG J, FERIS R S, CHEN Q, et al. Cross-domain image retrieval with a dual attribute-aware ranking network[C]// Proceedings of the 2015 IEEE International Conference on Computer Vision. Piscataway, NJ: IEEE, 2015: 1062-1070.
[6] VEIT A, KOVACS B, BELL S, et al. Learning visual clothing style with heterogeneous dyadic co-occurrences[C]// Proceedings of the 2015 IEEE International Conference on Computer Vision. Piscataway, NJ: IEEE, 2015: 4642-4650.
[7] LIANG X, LIN L, YANG W, et al. Clothes co-parsing via joint image segmentation and labeling with application to clothing retrieval[J]. IEEE Transactions on Multimedia, 2016, 18(6): 1175-1186.
[8] 應(yīng)玉龍. 基于內(nèi)容的服裝圖像檢索系統(tǒng)研究[J]. 福建電腦, 2016, 32(3): 25-26. (YING Y L. Research on clothing image retrieval system based on content[J]. Fujian Computer, 2016, 32(3): 25-26.)
[9] KIAPOUR M H, HAN X, LAZEBNIK S, et al. Where to buy it: matching street clothing photos in online shops[C]// Proceedings of the 2015 IEEE International Conference on Computer Vision. Piscataway, NJ: IEEE, 2015: 3343-3351.
[10] LI L, LIU G, LIU Q. Advancing iterative quantization hashing using isotropic prior[C]// Proceedings of the 22nd International Conference on Multimedia Modeling. Berlin: Springer, 2016: 174-184.
[11] 張騰, 郭清宇. 基于 HSV 顏色直方圖的服裝檢索[J]. 信息與電腦, 2011(10): 28-29.(ZHANG T, GUO Q Y. Clothing retrieval based on HSV color histogram[J]. China Computer and Communication, 2011(10): 28-29.)
[12] 陳倩, 潘中良. 基于內(nèi)容的服裝檢索系統(tǒng)中顏色特征提取算法的研究和改進(jìn)[J]. 激光雜志, 2016, 37(4): 62-68.(CHEN Q, PAN Z L. Research and improvement of color feature extraction algorithms in the content-based clothing images retrieval system[J]. Laser Journal, 2016, 37(4):62-68.)
[13] 李克磊, 劉正東. 基于 SURF 算法的服裝視覺圖像檢索研究[J]. 北京服裝學(xué)院學(xué)報(自然科學(xué)版), 2014, 34(3): 57-62. (LI K L, LIU Z D. Visual clothing image retrieval research based on the SURF algorithm[J]. Journal of Beijing Institute of Clothing Technology (Natural Science Edition), 2014, 34(3): 57-62.)
[14] 侯阿臨, 趙柳青, 桃敏, 等. 基于多特征的服裝圖像檢索[J]. 現(xiàn)代電子技術(shù), 2010, 33(6): 171-175. (HOU A L, ZHAO L Q, TAO M, et al. Clothing image retrieval based on multi-features[J]. Modern Electronics Technique, 2010, 33(6): 171-175.)
[15] 王海龍, 杜俊俐, 郭清宇. 基于內(nèi)容的圖像檢索技術(shù)在服裝檢索中的應(yīng)用[J]. 計算技術(shù)與自動化, 2009, 28(2): 88-91.(WANG H L, DU J L, GUO Q Y. The application of content based image retrieval technology in clothing retrieval system[J]. Computer Technology and Automation, 2009, 28(2):88-91.)
[16] LIU H, WANG R, SHAN S, et al. Deep supervised hashing for fast image retrieval[C]// Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2016:2064-2072.
[17] KRIZHEVSKY A, SUTSKEVER I, HINTON G E. ImageNet classification with deep convolutional neural networks[C]// Proceedings of the 25th International Conference on Neural Information Processing Systems. Lake Tahoe: Curran Associates Inc., 2012: 1097-1105.
[18] SZEGEDY C, LIU W, JIA Y, et al. Going deeper with convolutions[C]// Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2015: 1-9.
[19] HE K, ZHANG X, REN S, et al. Delving deep into rectifiers: surpassing human-level performance on ImageNet classification[C]// Proceedings of the 2015 IEEE International Conference on Computer Vision. Piscataway, NJ: IEEE, 2015:1026-1034.
[20] REN S, HE K, GIRSHICK R, et al. Faster R-CNN: towards real-time object detection with region proposal networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2016, 39(6): 1137-1149.
[21] LIU W, ANGUELOV D, ERHAN D, et al. SSD: single shot multibox detector[C]// Proceedings of the 14th European Conference on Computer Vision. Berlin: Springer, 2015: 21-37.
[22] REDMON J, DIVVALA S, GIRSHICK R, et al. You only look once: unified, real-time object detection[C]// Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2015: 779-788.
[23] SUN Y, WANG X, TANG X. Deep convolutional network cascade for facial point detection[C]// Proceedings of the 2013 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2013: 3476-3483.
[24] SUN Y, WANG X, TANG X. Deep learning face representation by joint identification-verification[EB/OL].[2016- 11- 20]. https://core.ac.uk/download/pdf/25035739.pdf.
[25] DENG J, DING N, JIA Y, et al. Large-scale object classification using label relation graphs[M]// Proceedings of the 13th European Conference on Computer Vision. Berlin: Springer, 2014:48-64.
[26] SHELHAMER E, LONG J, DARRELL T. Fully convolutional networks for semantic segmentation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2016, 79(10):1337-1342.
[27] LIU Z, YAN S, LUO P, et al. Fashion landmark detection in the wild[C]// Proceedings of the 14th European Conference on Computer Vision. Berlin: Springer, 2016: 229-245.
[28] LIU Z, LUO P, QIU S, et al. DeepFashion: powering robust clothes recognition and retrieval with rich annotations[C]// Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2016:1096-1104.
[29] OLIVA A, TORRALBA A. Modeling the shape of the scene: a holistic representation of the spatial envelope[J]. International Journal of Computer Vision, 2001, 42(3): 145-175.
This work is partially supported by the National Natural Science Foundation of China (61622305, 61502238, 61532009), the Natural Science Foundation of Jiangsu Province (BK20160040).
CHENAiai, born in 1992, M. S. candidate. Her research interests include pattern recognition, data mining, deep learning.
LILai, born in 1990, M. S. candidate. His research interests include image retrieval, deep learning.
LIUGuangcan, born in 1982, Ph. D., professor. His research interests include pattern recognition, data mining.
LIUQingshan, born in 1975, Ph. D., professor. His research interests include image analysis, video analysis, machine learning.
Clothingretrievalbasedonlandmarks
CHEN Aiai*, LI Lai, LIU Guangcan, LIU Qingshan
(JiangsuKeyLaboratoryofBigDataAnalysisTechnology(NanjingUniversityofInformationScience&Technology),NanjingJiangsu210044,China)
At present, the same or similar style clothing retrieval is mainly text-based or content-based. The text-based algorithms often require massive labled samples, and the shortages of exist label missing and annotation difference caused by artificial subjectivity. The content-based algorithms usually extract image features, such as color, shape, texture, and then measured the similarity, but it is difficult to deal with background color interference, and clothing deformation due to different angles, attitude, etc. Aiming at these problems, clothing retrieval based on landmarks was proposed. The proposed method used cascaded deep convolutional neural network to locate the key points and combined the low-level visual information of the key point region as well as the high-level semantic information of the whole image. Compared with traditional methods, the proposed method can effectively deal with the distortion of clothing and complex background interference due to angle of view and attitude. Meanwhile, it does not need huge labeled samples, and is robust to background and deformation. Experiments on two large scale datasets Fashion Landmark and BDAT-Clothes show that the proposed algorithm can effectively improve the precision and recall.
landmark; deep convolution neural network; cascade; clothing retrieval
2017- 05- 11;
2017- 07- 12。
國家自然科學(xué)基金資助項目(61622305, 61502238, 61532009); 江蘇省自然科學(xué)基金資助項目(BK20160040)。
陳嬡嬡(1992—),女,江蘇揚(yáng)州人,碩士研究生,主要研究方向:模式識別、數(shù)據(jù)挖掘、深度學(xué)習(xí); 李來(1990—),男,江蘇徐州人,碩士研究生,主要研究方向:圖像檢索、深度學(xué)習(xí); 劉光燦(1982—),男,湖南邵陽人,教授,博士,主要研究方向:模式識別、數(shù)據(jù)挖掘;劉青山(1975—),男,安徽合肥人,教授,博士生導(dǎo)師,博士,主要研究方向:圖像分析、視頻分析、機(jī)器學(xué)習(xí)。
1001- 9081(2017)11- 3249- 07
10.11772/j.issn.1001- 9081.2017.11.3249
(*通信作者電子郵箱yycmthgh@163.com)
TP311
A