鄧瑩潔 羅戎蕾
摘 要:針對服裝特征分類識別不夠全面、較多分類特征導(dǎo)致效果較差的問題,提出一種帶有Inception v2模組的快速區(qū)域卷積神經(jīng)網(wǎng)絡(luò)模型的女裝半身裙多特征分類識別方法。建立一個包含8類款式、11種顏色、5種圖案、4種長度,共計28種類別標簽的女裝半身裙樣本庫;以快速區(qū)域卷積神經(jīng)網(wǎng)絡(luò)(Faster r-cnn)結(jié)構(gòu)為基礎(chǔ),引入一個Inception v2模組,對半身裙的款式及多種特征進行學(xué)習(xí)訓(xùn)練,通過全連接層將來自Faster r-cnn主干網(wǎng)絡(luò)和Inception v2的分類信息進行特征融合并共享損失,以提高算法的準確率;將目標檢測框與分類結(jié)果一起輸出,在對半身裙圖像精準定位的基礎(chǔ)上實現(xiàn)了半身裙款式及常見特征的分類識別。結(jié)果表明:該方法的平均分類準確率為92.8%,可以有效地對女裝半身裙款式、特征進行分類識別,并且可用于實際場景的服裝圖片中。
關(guān)鍵詞:卷積神經(jīng)網(wǎng)絡(luò);Inception v2模組;快速區(qū)域卷積神經(jīng)網(wǎng)絡(luò);女裝半身裙
中圖分類號: TS941.26
文獻標志碼:A
文章編號:1009-265X(2021)06-0098-08
收稿日期:2020-08-06 網(wǎng)絡(luò)首發(fā)日期:2021-01-21
基金項目:浙江理工大學(xué)研究生培養(yǎng)基金項目
作者簡介:鄧瑩潔(1995-),女,福建邵武人,碩士研究生,主要從事服裝數(shù)字化方面的研究。
通信作者:羅戎蕾,E-mail:luoronglei@163.com。
Classification and Recognition of Bust Skirt Style and CommonFeatures Based on Convolutional Neural Network
DENG yingjie, LUO Ronglei
(a.School of Fashion Design & Engineering;b.Zhejiang Province Engineering Laboratory ofClothing Digital Technology, Zhejiang Sci-Tech University, Hangzhou 310018, China)
Abstract: To solve the problem that the classification and recognition of garment features are not all-round enough and many classification features lead to poor effect, a multi-feature classification and recognition method for women〖JX+0.8mm〗〖XZ(322#〗〖HT15.〗'〖XZ)〗s bust skirt based on fast regional convolutional neural network model with Inception v2 module is proposed. A sample library of 28 kinds of women's bust skirts is established, which includes 8 styles, 11 colors, 5 patterns and 4 lengths. Based on the structure of fast regional convolutional neural network (Faster R-CNN), an Inception v2 module is introduced to train the learning of the styles and multiple features of bust skirt. Through the fully connected layer, classification information from the faster R-CNN backbone network and Inception v2 has feature fusion and shares loss, to promote the accuracy of the algorithm. The target detection framework is output together with the classification results, which achieves the classification and recognition of bust skirt style and common features on the basis of accurate positioning of bust skirt images. The results show that the average classification accuracy of this method is 92.8%, which can effectively classify and recognize the styles and features of women's bust skirts, and can be used for garment pictures in real scenarios.
Key words: convolution neural network; Inception v2 module; faster R-CNN; women's bust skirt
互聯(lián)網(wǎng)與移動設(shè)備的普及,加速了服裝行業(yè)的發(fā)展,基于內(nèi)容的在線推薦系統(tǒng)已成為滿足消費者對服裝需求的常見方式,服裝圖像高效、準確的分類識別并建立相應(yīng)的視覺標簽對于在線推薦系統(tǒng)起著重要作用,可為消費者提供一種更為方便的方式來檢索他們喜歡的服裝商品。
傳統(tǒng)的圖像處理方法主要采用人工設(shè)計算法進行特征的提取,例如邊緣檢測、顏色直方圖、局部二值模式分別提取輪廓、顏色、紋理特征,再利用決策樹、支持向量機等進行模式的分類識別[1-3]。向忠等[4]采用canny邊緣檢測、HSV顏色空間對織物印花輪廓及顏色特征進行提取;Manfredi等[5]運用二值蒙版投影對人體著裝圖像進行粗糙形狀描述,進而獲取服裝的3D積分顏色直方圖及HOG特征最后通過決策樹實現(xiàn)服裝的顏色分類。李東等[6]根據(jù)服裝輪廓的幾何特點將服裝輪廓曲線的曲率極值點集作為表達服裝款式的特征向量,結(jié)合支持向量機對服裝款式進行分類。以上傳統(tǒng)算法都取得了不錯的進展,但其具有兩項明顯的缺點:一是傳統(tǒng)的特征提取過程是針對具體的底層或局部特征進行提取,經(jīng)過專門的人為設(shè)定,使得該類方法的泛化能力及模型可遷移性都較弱;二是依賴高質(zhì)量的輸入圖像,由于服裝的高度可變性、屬性特征多樣化、拍攝場景復(fù)雜都會導(dǎo)致分類器的準確率下降。近年來,卷積神經(jīng)網(wǎng)絡(luò)的興起為特征提取和分類識別技術(shù)提供了新的研究方向,基于更深層次卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的服裝圖像檢索系統(tǒng)在精確程度及檢索效率上都有大幅度的提升[7]。卷積神經(jīng)網(wǎng)絡(luò)(CNNs)是一種多層次模型,通過逐層遞增的模式及端到端的結(jié)構(gòu)可以學(xué)習(xí)特定的圖像表示并且廣泛運用于服裝領(lǐng)域:Dong等[8]在微調(diào)的VGG-Net中引入了“空間金字塔”池化策略,解決了不同大小及比例的圖像輸入引起的識別精度降低的問題同時對服裝風(fēng)格進行分類;Li等[9]提出一種基于極限學(xué)習(xí)機(ELM)神經(jīng)網(wǎng)絡(luò)的識別框架,采用ELM對CNN特征、顏色直方圖特征進行深度融合實現(xiàn)服裝款式分類;吳歡等[10]運用卷積神經(jīng)網(wǎng)絡(luò)CaffeNet模型對女褲廓形進行分類。觀察服裝時,首先是整體,其次是細節(jié),故對于服裝進行細致的描述至關(guān)重要,上述方法都只針對服裝(風(fēng)格、廓形、顏色等其中之一)單一屬性進行分類識別,不能較好地描述服裝的特點。因此,以女裝半身裙為研究對象,通過對卷積神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)的修改以及參數(shù)微調(diào)實現(xiàn)目標服裝的精準定位,在此基礎(chǔ)上對半身裙的款式及顏色、圖案、長短多種特征進行分類識別,其結(jié)果可用于基于內(nèi)容的推薦。
1 樣本準備
1.1 樣本采集
由于目前沒有此類的服裝圖像樣本庫,根據(jù)女裝半身裙形態(tài)差異及特點綜合電子商務(wù)平臺對半身裙款式的劃分,本文選取了8種款式的半身裙:直筒裙、包臀裙、A字裙、波浪裙、百褶裙、魚尾裙、不規(guī)則裙以及蛋糕裙。直筒裙是所有半身裙的原型,呈H型也稱為H裙;包臀裙因其緊身貼臀而得名,裙體從腰口沿臀部展開至臀圍線最大然后至下擺逐漸收緊,短稱包臀裙長稱鉛筆裙(這里統(tǒng)稱為包臀裙);A字裙的側(cè)縫從腰口至下擺逐漸擴大,形成A字廓形;波浪裙(喇叭裙、傘裙)將下擺展開到一定范圍,面料自然下垂形成波浪;百褶裙是指裙身由許多細密、垂直的等距褶裥構(gòu)成的裙裝,其褶裥數(shù)量在幾十至上百不等;魚尾裙的裙擺為波浪結(jié)構(gòu),基礎(chǔ)裙型為直筒裙或包臀裙;不規(guī)則裙呈不規(guī)則、不對稱的形狀;蛋糕裙(節(jié)裙、塔裙)由多層次的橫向抽褶裁片拼接而成,使裙體形成像蛋糕一樣的層疊結(jié)構(gòu)。從各大電商平臺收集每種款式半身裙各200張,總計1600張,創(chuàng)建女裝半身裙樣本庫。為了還原真實場景的特征提取與目標識別工作,選取的半身裙圖像均為人體以各種姿態(tài)穿著(包含正、反面及側(cè)面圖片)且背景不一。圖1以截取過的8類半身裙款式正面樣本進行展示。
1.2 樣本描述及標注
根據(jù)收集的半身裙款式及對裙類最常見的描述[11],對半身裙的顏色、圖案、長度做進一步的劃分,包括顏色11種、圖案5種、長度4類,其中裙類長度按照裙擺至人體腿部的位置可分為:短裙至大腿中部、中裙至膝蓋附近、中長裙至小腿中部以及長裙至腳踝附近。半身裙的款式及特征見表1。
針對以上半身裙的款式特征屬性(共計28種),采用Labelimg軟件進行標注,故每張圖片具有款式、顏色、圖案和長度4類標簽。半身裙屬性特征如圖2,圖3,圖4所示。
2 卷積神經(jīng)網(wǎng)絡(luò)模型構(gòu)建
通常,典型的卷積神經(jīng)網(wǎng)絡(luò)(CNN)由一個輸入層、一個輸出層和多個隱藏層組成,隱藏層中包括卷積層、池化層及全連接層,這些層次結(jié)構(gòu)通過激活函數(shù),例如Relu、Sigmoid、Tanh等實現(xiàn)輸入圖像的轉(zhuǎn)化,最終通過Softmax回歸完成分類。近年來,服裝領(lǐng)域主要以圖像分類及目標檢測為熱點研究內(nèi)容,其中圖像分類是通過對圖像的整體分析,預(yù)測圖像的類別。而目標檢測主要的目的是從圖片中檢測并定位特定的多個目標[12]。卷積神經(jīng)網(wǎng)絡(luò)針對不同的視覺問題各有側(cè)重點,需要根據(jù)實際問題進行權(quán)衡選擇。
2.1 Inception v2模組
Inception v2[13]網(wǎng)絡(luò)是一個旨在降低卷積網(wǎng)絡(luò)復(fù)雜程度的模塊。例如將較大尺寸的5×5卷積替換為較小的3×3卷積即可在保留計算效率的同時獲得較高的精確性。Inception各個模塊主要用于提取圖像特征,隨著每個模塊設(shè)計的卷積分支的數(shù)量、結(jié)構(gòu)和卷積核的大小不同,其特征提取能力隨之改變。Inception A模塊由3條卷積分支組成,分支內(nèi)部選用較小的1×1和3×3的卷積核,用于提取較低級的底層特征;Inception B模塊有2條分支結(jié)構(gòu),為了減少參數(shù),其中一條分支將一個較大的7×7卷積核拆分為兩個不對稱的7×1和1×7卷積核,由于卷積核較大,適用于網(wǎng)絡(luò)中間層;Inception C模塊同樣采用2條分支,與B模塊的區(qū)別是其卷積核為1×3和3×1,可對圖像局部特征進行有效的提取。Inception v2模組結(jié)構(gòu)如圖5所示。
2.2 快速區(qū)域卷積神經(jīng)網(wǎng)絡(luò)
快速區(qū)域卷積神經(jīng)網(wǎng)絡(luò)(Faster r-cnn)是基于Fast r-cnn[14]的改進算法,通過替換Fast r-cnn內(nèi)部的目標選擇算法Selective Search[15]為區(qū)域提議網(wǎng)絡(luò)RPN(Region proposal net),使Faster r-cnn網(wǎng)絡(luò)直接生成目標候選區(qū)域的同時加快了模型的識別速度。Faster r-cnn網(wǎng)絡(luò)由4個部分組成:特征提取網(wǎng)絡(luò)、RPN區(qū)域提議網(wǎng)絡(luò)、ROI池化層以及最終分類和回歸網(wǎng)絡(luò)組成。其網(wǎng)絡(luò)結(jié)構(gòu)由圖6所示。
將圖像輸入至網(wǎng)絡(luò)模型,經(jīng)過卷積與池化交替變換的特征圖像饋入RPN網(wǎng)絡(luò)得到一組矩形目標提案;ROI Pooling層將特征圖像與RPN形成的候選區(qū)域進行相同尺寸裁剪;最后通過兩個同級全連接網(wǎng)絡(luò)框回歸層(reg)與框分類層(cls)輸出檢測結(jié)果。
2.3 帶有Inception v2模組的快速區(qū)域卷積神經(jīng)網(wǎng)絡(luò)
基于本文半身裙的識別特征較多(包含款式、顏色、圖案、長度下的28個類別標簽),將具有強大特征提取能力的Inception v2模組引入Faster r-cnn網(wǎng)絡(luò)。改進后的Faster r-cnn網(wǎng)絡(luò)結(jié)構(gòu)如圖7所示。
半身裙圖像通過Labelimg標注,得到識別區(qū)域的準確二維坐標,將帶有坐標的圖像輸入至帶有Inception v2模組的快速區(qū)域卷積神經(jīng)網(wǎng)絡(luò),此過程如圖8所示。
在Faster r-cnn主干網(wǎng)絡(luò)中,圖像通過CNN層的卷積、池化交替操作得到特征圖像,經(jīng)過一個滑動窗口形成不同的錨框(Anchor box),這里根據(jù)大部分半身裙圖像的比例及位置信息,將候選區(qū)域的box修改為100,同時修改Anchor的比例為[0.51.04.06.0],采用此方式可以減少訓(xùn)練時長并降低損失不收斂的風(fēng)險,得到Anchor box信息的RPN網(wǎng)絡(luò)將每個樣本映射為一個概率值(表示錨框有物體的概率)和四組坐標值(定義物體位置),即通過RPN網(wǎng)絡(luò)預(yù)測候選區(qū)域。主要流程如圖9所示。
首先,特征圖像經(jīng)過一個3×3的卷積操作,增強特征圖像的魯棒性;其次采用1×1卷積獲得一個具有維度18的張量進行Reshape(Reshape尺寸為(15,15,18)),在維度18的張量中具有9個比例hw∈{11,12,21}的Anchor,且每個Anchor都會生成一個包含前景和背景的目標框;最后通過一個二分類的Softmax實現(xiàn)前、后背景分離。
由以上過程生成的Anchor邊界較模糊,故對其進行邊界框回歸,本文選取前景Anchor(由Softmax判別)回歸,一個box由四維向量(x,y,w,h)構(gòu)成,其中x、y、w、h,表示候選框的位置及長寬。
設(shè)目標box為G=(Gx,Gy,Gw,Gh),源box為S=(Sx,Sy,Sw,Sh),取映射關(guān)系F,使F(S)=G。
平移box得:
縮放box得:
再求S對G的平移和縮放量(vx,vy)、(vw,vh):
前景box對box的平移和縮放量(v*x,v*y)、(v*w,v*h):
式中:x為前景box,xs為源box,x為目標box。
對dx(S)、dy(S)、dw(S)、dh(S)進行線性回歸,則目標函數(shù)F為:
式中:φ(S)為區(qū)域提議的特征向量;W*為需要學(xué)習(xí)的參數(shù);d*(S)為預(yù)測結(jié)果。
采用損失函數(shù)Smooth L1計算損失,其表達式為:
式中:N為類別數(shù)量;v*為真實框與預(yù)測框的平移和縮放量。
在Inception v2模組中,圖像經(jīng)過Inception各模塊的特征提取和訓(xùn)練已經(jīng)可以理解較高的特征表示,此過程的其損失值為:
式中:y為真實標簽;p(y)為真實標簽的概率;ε為模型參數(shù);n為某個類別;p(n)為預(yù)測標簽的概率。
然后將特征提取的結(jié)果輸入至Softmax分類器中,進而將分類信息送出。
將Inception v2與Faster-r-cnn網(wǎng)絡(luò)的兩部分的損失進行結(jié)合,得到新的損失函數(shù)為:
在模型訓(xùn)練過程中手動調(diào)整了參數(shù)a和b的值,最終發(fā)現(xiàn)當(dāng)a=0.6,b=0.5時,神經(jīng)網(wǎng)絡(luò)收斂情況較好,L最終收斂在0.05。
由Faster r-cnn主干網(wǎng)絡(luò)與Inception v2模組的訓(xùn)練結(jié)果經(jīng)過1×1卷機后進行多分類并輸出最終結(jié)果。
為進一步提高模型對半身裙的分類性能,對模型的參數(shù)進行修改,將網(wǎng)絡(luò)的初始學(xué)習(xí)率設(shè)置為0.0002,當(dāng)?shù)螖?shù)達90000次后,調(diào)整學(xué)習(xí)率為0.00002,防止學(xué)習(xí)率過高無法求出最優(yōu)解導(dǎo)致最終結(jié)果發(fā)散;網(wǎng)絡(luò)的最大迭代次數(shù)設(shè)置為100000。
3 結(jié)果與分析
3.1 訓(xùn)練過程及結(jié)果
采用Python3.6.5作為編程語言,訓(xùn)練環(huán)境搭建在Ubuntu18.04系統(tǒng)下進行(Intel Xeon E3 2603V2*2型號;CPU 128GB DDR3 ECC內(nèi)存;16GB NVIDIA TESLA V100*2型號顯卡)。
基于半身裙樣本庫,在實驗數(shù)據(jù)集中將隨機選取80%作為訓(xùn)練集,20%作為測試集用于模型性能的評估。訓(xùn)練過程將統(tǒng)一像素后的半身裙圖像輸入模型,圖像同時經(jīng)過Faster r-cnn主干網(wǎng)絡(luò)與帶有Softmax分類器的Inception v2模組進行特征提取與目標框的選擇,然后利用全卷積層進行特征融合與損失值的共享進而降低損失值,以提高模型分類性能,最終將分類結(jié)果與檢測框一起輸出。本文模型的分類準確率如表2所示。
由表2可知,圖案的準確率為89.9%,較其他類別準確率較低,原因可能為同種圖案存在大小和比例上的差異,可增加訓(xùn)練數(shù)量提高此類的準確率。此外,其余的準確率都在90%以上且平均準確率為92.8%,可見本文提出的帶有Inception v2模組的快速區(qū)域卷積神經(jīng)網(wǎng)絡(luò)能有效的對女裝半身裙的款式類型及顏色、圖案、長度特征進行分類識別。
3.2 模型驗證
抽取阿里巴巴Fashion AI數(shù)據(jù)集中的半身裙圖像對模型進行驗證,F(xiàn)ashion AI數(shù)據(jù)集擁有服裝圖像10萬以上,包含女裝上衣、外套、半身裙等品類的詳細標簽信息。根據(jù)建立的半身裙數(shù)據(jù)集中訓(xùn)練集的數(shù)量有1280張,按照11的比例隨機抽取Fashion AI中1280張半身裙圖片作為測試集,輸入至Faster r-cnn Inception v2模型中。分類準確率如表3所示。
由表3可知,模型對于在Fashion AI中抽取的測試集的平均分類準確率為86.3%,較先前測試的準確率低了6.5%,但平均準確率在仍能達到85%以上且未出現(xiàn)模型過擬合的問題,說明研究提出的模型分類性能及魯棒性都較好。
3.3 實例分析
為更直觀的看出改進Faster r-cnn Inception v2模型的分類識別性能,選取4幅包含多個類別標簽的半身裙圖像輸入模型。測試結(jié)果如圖10所示。
從圖10測試結(jié)果可以看出,第一幅圖像為短裙的概率為95%、為紅色的概率為70%、為不規(guī)則裙及格子圖案的概率都為100%,其在顏色屬性中分類概率較低的原因是格子圖案具有明顯的黑色方框,使半身裙在顏色上同時具有紅色及黑色,影響了模型的判別能力;第二幅圖像為中長裙的概率為89%、其他屬性概率都為100%,模型能夠較好的對其各個分類特征進行判別。以此類推模型對圖10中的(c)和(d)圖也能進行良好的判別。
4 結(jié) 論
根據(jù)半身裙形態(tài)差異結(jié)合電子商務(wù)平臺對半身裙款式的劃分,將女裝半身裙分為8個類別:直筒裙、包臀裙、A字裙、波浪裙、百褶裙、魚尾裙、不規(guī)則裙以及蛋糕裙,在此基礎(chǔ)上對其主要的顏色、圖案、長度特征進行分類,建立帶有28種類別標簽的女裝半身裙樣本庫;提出一種帶有Inception v2模組的快速區(qū)域卷積神經(jīng)網(wǎng)絡(luò),通過修改其box數(shù)量及Anchor比例,對輸入的半身裙圖像進行精準定位,最后通過微調(diào)模型參數(shù),實現(xiàn)了女裝半身裙款式及常見特征的分類識別;該方法可應(yīng)用于實際場景的網(wǎng)絡(luò)圖片,模型通過RPN網(wǎng)絡(luò)可對圖像進行精確定位以及錨框的選擇,無須對圖像的背景進行處理,節(jié)省分類時間。本研究提出的方法平均準確率在92%以上,可對女裝半身裙圖像的多種特征進行判別。
參考文獻:
[1]ZHANG W, ANTúNEZ E, GKTRK S, et al. Apparel silhouette attributes recognition[C].Workshop on the Applications of Computer Vision BrecRenridge, CO, USA. IEE, 2012:489-496.
[2]DI W, WAH C, BHARDWAJ A, et al.Style finder: Fine-grained clothing style detection and retrieval[C].Conference on Computer Vision.and Pattern Recognition work shops. Portland, OR, USA. IEEE, 2012:8-13.
[3]DHAKA V P, SHARMA M K. Classification of image using a genetic general neural decision tree[J]. International Journal of Applied Pattern Recognition, 2015, 2(1):76-95.
[4]向忠,何旋,錢淼,等.基于邊緣和顏色特征的織物印花花型檢索[J].紡織學(xué)報,2018,39(5):137-143.
[5]MANFREDI M, GRANA C, CALDERARA S, et al. A complete system for garment segmentation and color classification[J]. Machine Vision and Applications, 2014, 25(4):955-969.
[6]李東,萬賢福,汪軍,等.基于輪廓曲率特征點的服裝款式識別方法[J].東華大學(xué)學(xué)報(自然科學(xué)版),2018,44(1):87-92.
[7]LUO Y, WANG Z, HUANG Z, et al. Snap and find: Deep discrete cross-domain garment image retrieval[J]. IEEE Transactions on Image Procession,2019,60(12):1-10.
[8]DONG C Y, SHI Y Q,TAO R. Convolutional neural networks for clothing image style recognition[C]// Proceedings of 2018 International Conference on Computational, Modeling, Simulation and Mathematical Statistics Xi'an: Advanced Science and Industry Research Center,2018.
[9]LI R, LU W, LIANG H, et al. Multiple features with extreme learning machines for clothing image recognition[J]. IEEE Access, 2018, 6:36283-36294.
[10]吳歡,丁笑君,李秦曼,等.采用卷積神經(jīng)網(wǎng)絡(luò)CaffeNet模型的女褲廓形分類[J].紡織學(xué)報,2019,40(4):117-121.
[11]吳苗苗,劉驪,付曉東,等.款式特征描述符的服裝圖像細粒度分類方法[J].計算機輔助設(shè)計與圖形學(xué)學(xué)報,2019,31(5):780-791.
[12]周俊宇,趙艷明.卷積神經(jīng)網(wǎng)絡(luò)在圖像分類和目標檢測應(yīng)用綜述[J].計算機工程與應(yīng)用,2017,53(13):34-41.
[13]SZEGEDY C, IOFFE S, VANHOUCKE V, et al. Inception-v4, inception-resnet and the impact of residual connections on learning[C]// Proceedings of the 31st AAAI Conference on Artificial Intelligence,2017:4278-4284.
[14]GIRSHICK R. Fast R-CNN[C]// International Conference on Computer Vision.Santiago, chile.IEEE,2015:1440-1448.
[15]UIJLINGS J R R, DE VAN SANDE K E A,GEVERS T,et al. Selective search for object recognition[J]. International Journal of Computer Vision, 2013,104(2):154-171.