鄧瑩潔 羅戎蕾
摘 要:針對服裝特征分類識別不夠全面、較多分類特征導致效果較差的問題,提出一種帶有Inception v2模組的快速區(qū)域卷積神經(jīng)網(wǎng)絡模型的女裝半身裙多特征分類識別方法。建立一個包含8類款式、11種顏色、5種圖案、4種長度,共計28種類別標簽的女裝半身裙樣本庫;以快速區(qū)域卷積神經(jīng)網(wǎng)絡(Faster r-cnn)結構為基礎,引入一個Inception v2模組,對半身裙的款式及多種特征進行學習訓練,通過全連接層將來自Faster r-cnn主干網(wǎng)絡和Inception v2的分類信息進行特征融合并共享損失,以提高算法的準確率;將目標檢測框與分類結果一起輸出,在對半身裙圖像精準定位的基礎上實現(xiàn)了半身裙款式及常見特征的分類識別。結果表明:該方法的平均分類準確率為92.8%,可以有效地對女裝半身裙款式、特征進行分類識別,并且可用于實際場景的服裝圖片中。
關鍵詞:卷積神經(jīng)網(wǎng)絡;Inception v2模組;快速區(qū)域卷積神經(jīng)網(wǎng)絡;女裝半身裙
中圖分類號: TS941.26
文獻標志碼:A
文章編號:1009-265X(2021)06-0098-08
收稿日期:2020-08-06 網(wǎng)絡首發(fā)日期:2021-01-21
基金項目:浙江理工大學研究生培養(yǎng)基金項目
作者簡介:鄧瑩潔(1995-),女,福建邵武人,碩士研究生,主要從事服裝數(shù)字化方面的研究。
通信作者:羅戎蕾,E-mail:luoronglei@163.com。
Classification and Recognition of Bust Skirt Style and CommonFeatures Based on Convolutional Neural Network
DENG yingjie, LUO Ronglei
(a.School of Fashion Design & Engineering;b.Zhejiang Province Engineering Laboratory ofClothing Digital Technology, Zhejiang Sci-Tech University, Hangzhou 310018, China)
Abstract: To solve the problem that the classification and recognition of garment features are not all-round enough and many classification features lead to poor effect, a multi-feature classification and recognition method for women〖JX+0.8mm〗〖XZ(322#〗〖HT15.〗'〖XZ)〗s bust skirt based on fast regional convolutional neural network model with Inception v2 module is proposed. A sample library of 28 kinds of women's bust skirts is established, which includes 8 styles, 11 colors, 5 patterns and 4 lengths. Based on the structure of fast regional convolutional neural network (Faster R-CNN), an Inception v2 module is introduced to train the learning of the styles and multiple features of bust skirt. Through the fully connected layer, classification information from the faster R-CNN backbone network and Inception v2 has feature fusion and shares loss, to promote the accuracy of the algorithm. The target detection framework is output together with the classification results, which achieves the classification and recognition of bust skirt style and common features on the basis of accurate positioning of bust skirt images. The results show that the average classification accuracy of this method is 92.8%, which can effectively classify and recognize the styles and features of women's bust skirts, and can be used for garment pictures in real scenarios.
Key words: convolution neural network; Inception v2 module; faster R-CNN; women's bust skirt
互聯(lián)網(wǎng)與移動設備的普及,加速了服裝行業(yè)的發(fā)展,基于內容的在線推薦系統(tǒng)已成為滿足消費者對服裝需求的常見方式,服裝圖像高效、準確的分類識別并建立相應的視覺標簽對于在線推薦系統(tǒng)起著重要作用,可為消費者提供一種更為方便的方式來檢索他們喜歡的服裝商品。
傳統(tǒng)的圖像處理方法主要采用人工設計算法進行特征的提取,例如邊緣檢測、顏色直方圖、局部二值模式分別提取輪廓、顏色、紋理特征,再利用決策樹、支持向量機等進行模式的分類識別[1-3]。向忠等[4]采用canny邊緣檢測、HSV顏色空間對織物印花輪廓及顏色特征進行提取;Manfredi等[5]運用二值蒙版投影對人體著裝圖像進行粗糙形狀描述,進而獲取服裝的3D積分顏色直方圖及HOG特征最后通過決策樹實現(xiàn)服裝的顏色分類。李東等[6]根據(jù)服裝輪廓的幾何特點將服裝輪廓曲線的曲率極值點集作為表達服裝款式的特征向量,結合支持向量機對服裝款式進行分類。以上傳統(tǒng)算法都取得了不錯的進展,但其具有兩項明顯的缺點:一是傳統(tǒng)的特征提取過程是針對具體的底層或局部特征進行提取,經(jīng)過專門的人為設定,使得該類方法的泛化能力及模型可遷移性都較弱;二是依賴高質量的輸入圖像,由于服裝的高度可變性、屬性特征多樣化、拍攝場景復雜都會導致分類器的準確率下降。近年來,卷積神經(jīng)網(wǎng)絡的興起為特征提取和分類識別技術提供了新的研究方向,基于更深層次卷積神經(jīng)網(wǎng)絡結構的服裝圖像檢索系統(tǒng)在精確程度及檢索效率上都有大幅度的提升[7]。卷積神經(jīng)網(wǎng)絡(CNNs)是一種多層次模型,通過逐層遞增的模式及端到端的結構可以學習特定的圖像表示并且廣泛運用于服裝領域:Dong等[8]在微調的VGG-Net中引入了“空間金字塔”池化策略,解決了不同大小及比例的圖像輸入引起的識別精度降低的問題同時對服裝風格進行分類;Li等[9]提出一種基于極限學習機(ELM)神經(jīng)網(wǎng)絡的識別框架,采用ELM對CNN特征、顏色直方圖特征進行深度融合實現(xiàn)服裝款式分類;吳歡等[10]運用卷積神經(jīng)網(wǎng)絡CaffeNet模型對女褲廓形進行分類。觀察服裝時,首先是整體,其次是細節(jié),故對于服裝進行細致的描述至關重要,上述方法都只針對服裝(風格、廓形、顏色等其中之一)單一屬性進行分類識別,不能較好地描述服裝的特點。因此,以女裝半身裙為研究對象,通過對卷積神經(jīng)網(wǎng)絡模型結構的修改以及參數(shù)微調實現(xiàn)目標服裝的精準定位,在此基礎上對半身裙的款式及顏色、圖案、長短多種特征進行分類識別,其結果可用于基于內容的推薦。
1 樣本準備
1.1 樣本采集
由于目前沒有此類的服裝圖像樣本庫,根據(jù)女裝半身裙形態(tài)差異及特點綜合電子商務平臺對半身裙款式的劃分,本文選取了8種款式的半身裙:直筒裙、包臀裙、A字裙、波浪裙、百褶裙、魚尾裙、不規(guī)則裙以及蛋糕裙。直筒裙是所有半身裙的原型,呈H型也稱為H裙;包臀裙因其緊身貼臀而得名,裙體從腰口沿臀部展開至臀圍線最大然后至下擺逐漸收緊,短稱包臀裙長稱鉛筆裙(這里統(tǒng)稱為包臀裙);A字裙的側縫從腰口至下擺逐漸擴大,形成A字廓形;波浪裙(喇叭裙、傘裙)將下擺展開到一定范圍,面料自然下垂形成波浪;百褶裙是指裙身由許多細密、垂直的等距褶裥構成的裙裝,其褶裥數(shù)量在幾十至上百不等;魚尾裙的裙擺為波浪結構,基礎裙型為直筒裙或包臀裙;不規(guī)則裙呈不規(guī)則、不對稱的形狀;蛋糕裙(節(jié)裙、塔裙)由多層次的橫向抽褶裁片拼接而成,使裙體形成像蛋糕一樣的層疊結構。從各大電商平臺收集每種款式半身裙各200張,總計1600張,創(chuàng)建女裝半身裙樣本庫。為了還原真實場景的特征提取與目標識別工作,選取的半身裙圖像均為人體以各種姿態(tài)穿著(包含正、反面及側面圖片)且背景不一。圖1以截取過的8類半身裙款式正面樣本進行展示。
1.2 樣本描述及標注
根據(jù)收集的半身裙款式及對裙類最常見的描述[11],對半身裙的顏色、圖案、長度做進一步的劃分,包括顏色11種、圖案5種、長度4類,其中裙類長度按照裙擺至人體腿部的位置可分為:短裙至大腿中部、中裙至膝蓋附近、中長裙至小腿中部以及長裙至腳踝附近。半身裙的款式及特征見表1。
針對以上半身裙的款式特征屬性(共計28種),采用Labelimg軟件進行標注,故每張圖片具有款式、顏色、圖案和長度4類標簽。半身裙屬性特征如圖2,圖3,圖4所示。
2 卷積神經(jīng)網(wǎng)絡模型構建
通常,典型的卷積神經(jīng)網(wǎng)絡(CNN)由一個輸入層、一個輸出層和多個隱藏層組成,隱藏層中包括卷積層、池化層及全連接層,這些層次結構通過激活函數(shù),例如Relu、Sigmoid、Tanh等實現(xiàn)輸入圖像的轉化,最終通過Softmax回歸完成分類。近年來,服裝領域主要以圖像分類及目標檢測為熱點研究內容,其中圖像分類是通過對圖像的整體分析,預測圖像的類別。而目標檢測主要的目的是從圖片中檢測并定位特定的多個目標[12]。卷積神經(jīng)網(wǎng)絡針對不同的視覺問題各有側重點,需要根據(jù)實際問題進行權衡選擇。
2.1 Inception v2模組
Inception v2[13]網(wǎng)絡是一個旨在降低卷積網(wǎng)絡復雜程度的模塊。例如將較大尺寸的5×5卷積替換為較小的3×3卷積即可在保留計算效率的同時獲得較高的精確性。Inception各個模塊主要用于提取圖像特征,隨著每個模塊設計的卷積分支的數(shù)量、結構和卷積核的大小不同,其特征提取能力隨之改變。Inception A模塊由3條卷積分支組成,分支內部選用較小的1×1和3×3的卷積核,用于提取較低級的底層特征;Inception B模塊有2條分支結構,為了減少參數(shù),其中一條分支將一個較大的7×7卷積核拆分為兩個不對稱的7×1和1×7卷積核,由于卷積核較大,適用于網(wǎng)絡中間層;Inception C模塊同樣采用2條分支,與B模塊的區(qū)別是其卷積核為1×3和3×1,可對圖像局部特征進行有效的提取。Inception v2模組結構如圖5所示。
2.2 快速區(qū)域卷積神經(jīng)網(wǎng)絡
快速區(qū)域卷積神經(jīng)網(wǎng)絡(Faster r-cnn)是基于Fast r-cnn[14]的改進算法,通過替換Fast r-cnn內部的目標選擇算法Selective Search[15]為區(qū)域提議網(wǎng)絡RPN(Region proposal net),使Faster r-cnn網(wǎng)絡直接生成目標候選區(qū)域的同時加快了模型的識別速度。Faster r-cnn網(wǎng)絡由4個部分組成:特征提取網(wǎng)絡、RPN區(qū)域提議網(wǎng)絡、ROI池化層以及最終分類和回歸網(wǎng)絡組成。其網(wǎng)絡結構由圖6所示。
將圖像輸入至網(wǎng)絡模型,經(jīng)過卷積與池化交替變換的特征圖像饋入RPN網(wǎng)絡得到一組矩形目標提案;ROI Pooling層將特征圖像與RPN形成的候選區(qū)域進行相同尺寸裁剪;最后通過兩個同級全連接網(wǎng)絡框回歸層(reg)與框分類層(cls)輸出檢測結果。
2.3 帶有Inception v2模組的快速區(qū)域卷積神經(jīng)網(wǎng)絡
基于本文半身裙的識別特征較多(包含款式、顏色、圖案、長度下的28個類別標簽),將具有強大特征提取能力的Inception v2模組引入Faster r-cnn網(wǎng)絡。改進后的Faster r-cnn網(wǎng)絡結構如圖7所示。
半身裙圖像通過Labelimg標注,得到識別區(qū)域的準確二維坐標,將帶有坐標的圖像輸入至帶有Inception v2模組的快速區(qū)域卷積神經(jīng)網(wǎng)絡,此過程如圖8所示。
在Faster r-cnn主干網(wǎng)絡中,圖像通過CNN層的卷積、池化交替操作得到特征圖像,經(jīng)過一個滑動窗口形成不同的錨框(Anchor box),這里根據(jù)大部分半身裙圖像的比例及位置信息,將候選區(qū)域的box修改為100,同時修改Anchor的比例為[0.51.04.06.0],采用此方式可以減少訓練時長并降低損失不收斂的風險,得到Anchor box信息的RPN網(wǎng)絡將每個樣本映射為一個概率值(表示錨框有物體的概率)和四組坐標值(定義物體位置),即通過RPN網(wǎng)絡預測候選區(qū)域。主要流程如圖9所示。
首先,特征圖像經(jīng)過一個3×3的卷積操作,增強特征圖像的魯棒性;其次采用1×1卷積獲得一個具有維度18的張量進行Reshape(Reshape尺寸為(15,15,18)),在維度18的張量中具有9個比例hw∈{11,12,21}的Anchor,且每個Anchor都會生成一個包含前景和背景的目標框;最后通過一個二分類的Softmax實現(xiàn)前、后背景分離。
由以上過程生成的Anchor邊界較模糊,故對其進行邊界框回歸,本文選取前景Anchor(由Softmax判別)回歸,一個box由四維向量(x,y,w,h)構成,其中x、y、w、h,表示候選框的位置及長寬。
設目標box為G=(Gx,Gy,Gw,Gh),源box為S=(Sx,Sy,Sw,Sh),取映射關系F,使F(S)=G。
平移box得:
縮放box得:
再求S對G的平移和縮放量(vx,vy)、(vw,vh):
前景box對box的平移和縮放量(v*x,v*y)、(v*w,v*h):
式中:x為前景box,xs為源box,x為目標box。
對dx(S)、dy(S)、dw(S)、dh(S)進行線性回歸,則目標函數(shù)F為:
式中:φ(S)為區(qū)域提議的特征向量;W*為需要學習的參數(shù);d*(S)為預測結果。
采用損失函數(shù)Smooth L1計算損失,其表達式為:
式中:N為類別數(shù)量;v*為真實框與預測框的平移和縮放量。
在Inception v2模組中,圖像經(jīng)過Inception各模塊的特征提取和訓練已經(jīng)可以理解較高的特征表示,此過程的其損失值為:
式中:y為真實標簽;p(y)為真實標簽的概率;ε為模型參數(shù);n為某個類別;p(n)為預測標簽的概率。
然后將特征提取的結果輸入至Softmax分類器中,進而將分類信息送出。
將Inception v2與Faster-r-cnn網(wǎng)絡的兩部分的損失進行結合,得到新的損失函數(shù)為:
在模型訓練過程中手動調整了參數(shù)a和b的值,最終發(fā)現(xiàn)當a=0.6,b=0.5時,神經(jīng)網(wǎng)絡收斂情況較好,L最終收斂在0.05。
由Faster r-cnn主干網(wǎng)絡與Inception v2模組的訓練結果經(jīng)過1×1卷機后進行多分類并輸出最終結果。
為進一步提高模型對半身裙的分類性能,對模型的參數(shù)進行修改,將網(wǎng)絡的初始學習率設置為0.0002,當?shù)螖?shù)達90000次后,調整學習率為0.00002,防止學習率過高無法求出最優(yōu)解導致最終結果發(fā)散;網(wǎng)絡的最大迭代次數(shù)設置為100000。
3 結果與分析
3.1 訓練過程及結果
采用Python3.6.5作為編程語言,訓練環(huán)境搭建在Ubuntu18.04系統(tǒng)下進行(Intel Xeon E3 2603V2*2型號;CPU 128GB DDR3 ECC內存;16GB NVIDIA TESLA V100*2型號顯卡)。
基于半身裙樣本庫,在實驗數(shù)據(jù)集中將隨機選取80%作為訓練集,20%作為測試集用于模型性能的評估。訓練過程將統(tǒng)一像素后的半身裙圖像輸入模型,圖像同時經(jīng)過Faster r-cnn主干網(wǎng)絡與帶有Softmax分類器的Inception v2模組進行特征提取與目標框的選擇,然后利用全卷積層進行特征融合與損失值的共享進而降低損失值,以提高模型分類性能,最終將分類結果與檢測框一起輸出。本文模型的分類準確率如表2所示。
由表2可知,圖案的準確率為89.9%,較其他類別準確率較低,原因可能為同種圖案存在大小和比例上的差異,可增加訓練數(shù)量提高此類的準確率。此外,其余的準確率都在90%以上且平均準確率為92.8%,可見本文提出的帶有Inception v2模組的快速區(qū)域卷積神經(jīng)網(wǎng)絡能有效的對女裝半身裙的款式類型及顏色、圖案、長度特征進行分類識別。
3.2 模型驗證
抽取阿里巴巴Fashion AI數(shù)據(jù)集中的半身裙圖像對模型進行驗證,F(xiàn)ashion AI數(shù)據(jù)集擁有服裝圖像10萬以上,包含女裝上衣、外套、半身裙等品類的詳細標簽信息。根據(jù)建立的半身裙數(shù)據(jù)集中訓練集的數(shù)量有1280張,按照11的比例隨機抽取Fashion AI中1280張半身裙圖片作為測試集,輸入至Faster r-cnn Inception v2模型中。分類準確率如表3所示。
由表3可知,模型對于在Fashion AI中抽取的測試集的平均分類準確率為86.3%,較先前測試的準確率低了6.5%,但平均準確率在仍能達到85%以上且未出現(xiàn)模型過擬合的問題,說明研究提出的模型分類性能及魯棒性都較好。
3.3 實例分析
為更直觀的看出改進Faster r-cnn Inception v2模型的分類識別性能,選取4幅包含多個類別標簽的半身裙圖像輸入模型。測試結果如圖10所示。
從圖10測試結果可以看出,第一幅圖像為短裙的概率為95%、為紅色的概率為70%、為不規(guī)則裙及格子圖案的概率都為100%,其在顏色屬性中分類概率較低的原因是格子圖案具有明顯的黑色方框,使半身裙在顏色上同時具有紅色及黑色,影響了模型的判別能力;第二幅圖像為中長裙的概率為89%、其他屬性概率都為100%,模型能夠較好的對其各個分類特征進行判別。以此類推模型對圖10中的(c)和(d)圖也能進行良好的判別。
4 結 論
根據(jù)半身裙形態(tài)差異結合電子商務平臺對半身裙款式的劃分,將女裝半身裙分為8個類別:直筒裙、包臀裙、A字裙、波浪裙、百褶裙、魚尾裙、不規(guī)則裙以及蛋糕裙,在此基礎上對其主要的顏色、圖案、長度特征進行分類,建立帶有28種類別標簽的女裝半身裙樣本庫;提出一種帶有Inception v2模組的快速區(qū)域卷積神經(jīng)網(wǎng)絡,通過修改其box數(shù)量及Anchor比例,對輸入的半身裙圖像進行精準定位,最后通過微調模型參數(shù),實現(xiàn)了女裝半身裙款式及常見特征的分類識別;該方法可應用于實際場景的網(wǎng)絡圖片,模型通過RPN網(wǎng)絡可對圖像進行精確定位以及錨框的選擇,無須對圖像的背景進行處理,節(jié)省分類時間。本研究提出的方法平均準確率在92%以上,可對女裝半身裙圖像的多種特征進行判別。
參考文獻:
[1]ZHANG W, ANTúNEZ E, GKTRK S, et al. Apparel silhouette attributes recognition[C].Workshop on the Applications of Computer Vision BrecRenridge, CO, USA. IEE, 2012:489-496.
[2]DI W, WAH C, BHARDWAJ A, et al.Style finder: Fine-grained clothing style detection and retrieval[C].Conference on Computer Vision.and Pattern Recognition work shops. Portland, OR, USA. IEEE, 2012:8-13.
[3]DHAKA V P, SHARMA M K. Classification of image using a genetic general neural decision tree[J]. International Journal of Applied Pattern Recognition, 2015, 2(1):76-95.
[4]向忠,何旋,錢淼,等.基于邊緣和顏色特征的織物印花花型檢索[J].紡織學報,2018,39(5):137-143.
[5]MANFREDI M, GRANA C, CALDERARA S, et al. A complete system for garment segmentation and color classification[J]. Machine Vision and Applications, 2014, 25(4):955-969.
[6]李東,萬賢福,汪軍,等.基于輪廓曲率特征點的服裝款式識別方法[J].東華大學學報(自然科學版),2018,44(1):87-92.
[7]LUO Y, WANG Z, HUANG Z, et al. Snap and find: Deep discrete cross-domain garment image retrieval[J]. IEEE Transactions on Image Procession,2019,60(12):1-10.
[8]DONG C Y, SHI Y Q,TAO R. Convolutional neural networks for clothing image style recognition[C]// Proceedings of 2018 International Conference on Computational, Modeling, Simulation and Mathematical Statistics Xi'an: Advanced Science and Industry Research Center,2018.
[9]LI R, LU W, LIANG H, et al. Multiple features with extreme learning machines for clothing image recognition[J]. IEEE Access, 2018, 6:36283-36294.
[10]吳歡,丁笑君,李秦曼,等.采用卷積神經(jīng)網(wǎng)絡CaffeNet模型的女褲廓形分類[J].紡織學報,2019,40(4):117-121.
[11]吳苗苗,劉驪,付曉東,等.款式特征描述符的服裝圖像細粒度分類方法[J].計算機輔助設計與圖形學學報,2019,31(5):780-791.
[12]周俊宇,趙艷明.卷積神經(jīng)網(wǎng)絡在圖像分類和目標檢測應用綜述[J].計算機工程與應用,2017,53(13):34-41.
[13]SZEGEDY C, IOFFE S, VANHOUCKE V, et al. Inception-v4, inception-resnet and the impact of residual connections on learning[C]// Proceedings of the 31st AAAI Conference on Artificial Intelligence,2017:4278-4284.
[14]GIRSHICK R. Fast R-CNN[C]// International Conference on Computer Vision.Santiago, chile.IEEE,2015:1440-1448.
[15]UIJLINGS J R R, DE VAN SANDE K E A,GEVERS T,et al. Selective search for object recognition[J]. International Journal of Computer Vision, 2013,104(2):154-171.