魏雄 閆坤
摘? 要:針對(duì)服裝圖像特征提取不全面和服裝兼容性難以建模等問(wèn)題,提出了一種基于通道注意力的多模態(tài)服裝兼容性模型ECA-RMCN。在特征提取網(wǎng)絡(luò)CNN的殘差模塊上引入高效通道注意力模塊ECA-Net來(lái)增強(qiáng)服裝低級(jí)和高級(jí)等重要特征,抑制無(wú)效特征。采用組合損失函數(shù)處理服裝正負(fù)樣本不均衡的問(wèn)題,達(dá)到更好的搭配效果。在公共的Polyvore數(shù)據(jù)集進(jìn)行對(duì)比實(shí)驗(yàn)來(lái)驗(yàn)證模型有效性。實(shí)驗(yàn)結(jié)果表明,該算法對(duì)服裝的兼容性預(yù)測(cè)和搭配性能優(yōu)于其他方法,有很好的應(yīng)用價(jià)值。
關(guān)鍵詞:通道注意力;卷積神經(jīng)網(wǎng)絡(luò);兼容性建模;組合損失函數(shù)
中圖分類號(hào):TP18? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):2096-4706(2022)04-0001-07
Multimodal Clothing Compatibility Learning Based on Channel Attention
WEI Xiong1,2,3, YAN Kun1,2,3
(1.Textile and Clothing Intelligent Hubei Provincial Engineering Research Center, Wuhan? 430200, China; 2.Hubei Provincial Garment Informatization Engineering Technology Research Center, Wuhan? 430200, China; 3.School of Computer Science and Artificial Intelligence, Wuhan Textile University, Wuhan? 430200, China)
Abstract: Aiming at the problems of incomplete feature extraction of clothing images and difficult modeling of clothing compatibility and so on, a multimodal clothing compatibility model ECA-RMCN based on channel attention is proposed. The high-efficiency channel attention module ECA-Net is introduced on the residual module of the feature extraction network CNN to enhance important features such as low-level and high-level clothing, and suppress invalid features. The combined loss function is used to deal with the problems of unbalanced positive and negative samples of clothing to achieve better matching effect. Comparative experiments are performed on the public Polyvore dataset to verify the effectiveness of the model. The experimental results show that the algorithm is better than other methods in the compatibility prediction and matching performance of clothing, and it has good application value.
Keywords: channel attention; convolutional neural network; compatibility modeling; combined loss function
0? 引? 言
兼容性建模是服裝搭配推薦任務(wù)過(guò)程中必不可少的步驟,它直接影響了套裝搭配的效果。隨著網(wǎng)絡(luò)服裝業(yè)的快速發(fā)展,人們的消費(fèi)觀念也從線下轉(zhuǎn)向線上。與實(shí)體店相比,網(wǎng)絡(luò)平臺(tái)則更加方便快捷,不受時(shí)空的制約,服裝數(shù)量和種類也更多樣化。但是繁多的服裝數(shù)量使人們難以挑選出適合自己的衣服,降低了自己的購(gòu)買欲望。利用計(jì)算機(jī)視覺(jué)技術(shù)來(lái)為用戶推薦服裝逐漸成為主流方法,常用的方法主要包括基于關(guān)聯(lián)規(guī)則的智能搭配、基于服裝視覺(jué)特征的智能搭配、基于協(xié)同過(guò)濾算法的智能搭配等[1],然而這些傳統(tǒng)的推薦算法提取的顏色、紋理和形狀特征不明顯,也未考慮將圖像信息和語(yǔ)義信息結(jié)合,影響了推薦的搭配效果,因此有必要采取更加有效的服裝搭配推薦方法。
近些年,人工智能和機(jī)器學(xué)習(xí)技術(shù)在服裝領(lǐng)域得到了很好的應(yīng)用?,F(xiàn)有的服裝搭配方法主要基于深度學(xué)習(xí)的服裝搭配和基于用戶個(gè)性化的服裝搭配。在深度學(xué)習(xí)服裝搭配中,運(yùn)用機(jī)器學(xué)習(xí)方法通過(guò)深入挖掘服裝信息之間的交互行為等大量數(shù)據(jù),從中學(xué)習(xí)服裝之間的潛在聯(lián)系。先前的工作主要研究成對(duì)服裝[2-4]。他們認(rèn)為服裝的兼容性問(wèn)題可以通過(guò)度量學(xué)習(xí)來(lái)解決,將服裝特征映射到某個(gè)特定的風(fēng)格空間,通過(guò)估計(jì)風(fēng)格向量之間的距離來(lái)預(yù)測(cè)服裝搭配效果。例如McAuley[4]等人利用CNN提取服裝的視覺(jué)特征并將其嵌入潛在空間,接著將成對(duì)服裝在潛在空間的距離作為服裝間的搭配性度量。針對(duì)未考慮一整套服裝之間的兼容性關(guān)系,Han[5]等人更關(guān)注序列對(duì)的服裝搭配,他將上衣、褲子、鞋子和配飾看成一個(gè)有序的序列,訓(xùn)練一個(gè)Bi-LSTM模型通過(guò)學(xué)習(xí)上一件服裝的特征信息有序的預(yù)測(cè)下一件服裝并考慮套裝之間的兼容程度。后來(lái),一些學(xué)者認(rèn)為一套服裝之間更像一個(gè)集合,這些單品之間沒(méi)有固定的序列關(guān)系,將它們看成一個(gè)序列也很難反映出單品間的復(fù)雜關(guān)系。針對(duì)這個(gè)問(wèn)題,崔澤宇等人[6]用有向圖表示服裝,他認(rèn)為圖結(jié)構(gòu)可以更好地反映服裝單品之間的復(fù)雜關(guān)系。首先用一個(gè)子結(jié)構(gòu)來(lái)表示一套服裝,然后對(duì)節(jié)點(diǎn)間的交互進(jìn)行建模并學(xué)習(xí)節(jié)點(diǎn)的信息交互。在用戶個(gè)性化的服裝搭配上除了考慮服裝的兼容性關(guān)系外,還融入了用戶的外在因素。在基于場(chǎng)景的服裝搭配中,Ma等人[7]根據(jù)情境化的服裝概念學(xué)習(xí)模塊,獲取場(chǎng)合、服裝類別和屬性之間的依賴關(guān)系。除此之外還引入了一個(gè)弱標(biāo)簽建模模塊來(lái)減輕人工標(biāo)注任務(wù)??紤]到根據(jù)自己的身材挑選合適的服裝是不可忽視的穿衣技巧,與傳統(tǒng)的研究體型和服裝風(fēng)格之間的關(guān)系和學(xué)習(xí)體型測(cè)量的嵌入方法不同,Hsiao等人引入了ViBE[8],該方法捕捉不同體型的特征,根據(jù)個(gè)人的體型選擇特定的服裝。由于不同的人對(duì)不同風(fēng)格的服裝有不一樣的偏好,如何將用戶偏好因素納入搭配模型中得出良好的搭配效果也是一個(gè)挑戰(zhàn)。現(xiàn)有的個(gè)性化推薦任務(wù)除了利用矩陣因子分解(MF)框架外,song等人[9]基于服裝—服裝和用戶—服裝間的交互,從總體美學(xué)和個(gè)人偏好的角度提出了一種綜合的個(gè)人偏好建模方法。然而這些方法存在特征提取不精確和未考慮整體套裝兼容性的缺陷。03E69849-66FA-488A-A3B1-77A92F2904C7
基于上述存在的問(wèn)題,我們?cè)贛CN網(wǎng)絡(luò)的基礎(chǔ)上增加了幾個(gè)模塊。首先在CNN殘差塊上引入ECA模塊來(lái)提升重要特征,加強(qiáng)對(duì)顏色、紋理、形狀、風(fēng)格特征的權(quán)重分配,以提升推薦精度;設(shè)計(jì)交叉熵?fù)p失和Dis損失相結(jié)合的組合損失函數(shù)來(lái)解決服裝圖像像素正負(fù)樣本不平衡的問(wèn)題,從而獲得更好地搭配效果。
1? 相關(guān)工作
1.1? 注意力機(jī)制
注意力機(jī)制是增強(qiáng)深層CNN的有效手段,用來(lái)提升CNN的性能。其核心目標(biāo)是從眾多信息中選擇出對(duì)當(dāng)前目標(biāo)任務(wù)更為關(guān)鍵的信息[10]。近幾年,注意力模型(Attention Model)被廣泛使用在自然語(yǔ)言處理、圖像識(shí)別、語(yǔ)音識(shí)別等各種不同類型的深度學(xué)習(xí)任務(wù)中。注意力機(jī)制最初在2014年作為RNN(Recurrent Neural Network)中編碼器—解碼器框架的一部分來(lái)編碼長(zhǎng)的輸入語(yǔ)句,后續(xù)被廣泛運(yùn)用在RNN中[11]。2018年hu等人提出了SE-Net(Squeeze and Excitation Network)網(wǎng)絡(luò)結(jié)構(gòu),SE-Net中的關(guān)鍵結(jié)構(gòu)SE-Net block利用了注意力機(jī)制的思想,顯式地建模特征圖之間的相互依賴關(guān)系,并通過(guò)學(xué)習(xí)的方式來(lái)自適應(yīng)地獲取到每張?zhí)卣鲌D的重要性[12]。后來(lái)Wang等人提出了ECA-Net[13](Efficient Channel Attention Network)來(lái)實(shí)現(xiàn)對(duì)SE-Net block的改進(jìn),提出了一種不降維的局部跨信道交互策略(ECA block)和自適應(yīng)選擇一維卷積核大小的方法,通過(guò)一維卷積層匯總跨信道信息的方法獲取更加精確的注意力信息。Qing[14]等人提出了一種融合有效通道注意網(wǎng)絡(luò)(MRA-NET)的多尺度殘差卷積神經(jīng)網(wǎng)絡(luò)模型用于高光譜圖像分類。Zhou[15]等人提出了一種用于煙霧車輛檢測(cè)的高效空間注意網(wǎng)絡(luò)(ESA-Net),通過(guò)權(quán)值組合得到每個(gè)ResNet塊的特征空間表示。受到他們的啟發(fā),本文引入ECA-Net模塊更好地提取服裝的重要特征。
1.2? 服裝兼容性建模
研究服裝兼容性的基礎(chǔ)是服裝識(shí)別。先前的工作通過(guò)服裝分割方法和人體姿態(tài)信息相結(jié)合來(lái)解析、檢索服裝類型[16,17]。Wang等人為了解決用戶照片和在線產(chǎn)品圖像之間的領(lǐng)域鴻溝,提出一種在孿生深度網(wǎng)絡(luò)中流行的對(duì)比損失來(lái)提高檢索性能[18]。后來(lái)Al-Halah等人[19]提出一種非負(fù)矩陣分解方法將提取的服裝特征投影到特定的服裝風(fēng)格空間。Lee等人[20]提出一種Style2Vec服裝向量表示模型來(lái)學(xué)習(xí)服裝上下文信息。Hisao等人[21]提出一種無(wú)監(jiān)督的方法來(lái)學(xué)習(xí)服裝風(fēng)格,其方法基于主題模型將服裝屬性視為文字,服裝視為文檔,風(fēng)格視為主題來(lái)學(xué)習(xí)潛在的服裝風(fēng)格一致性。
服裝兼容性建模是研究服裝搭配推薦的關(guān)鍵要素,其最終目的是根據(jù)服裝的圖像與文本信息來(lái)對(duì)套裝的一個(gè)整體評(píng)價(jià)。Veit等人[22]提出了端到端的孿生神經(jīng)網(wǎng)絡(luò)通過(guò)進(jìn)一步改進(jìn)距離度量學(xué)習(xí)來(lái)預(yù)測(cè)服裝的搭配度。Li[23]等人提出了一個(gè)層次時(shí)尚圖(HFGN)框架通過(guò)構(gòu)建基于用戶-套裝交互和套裝-單品映射的層次結(jié)構(gòu)來(lái)學(xué)習(xí)服裝兼容性。Song等人[24]提出了一種基于內(nèi)容的神經(jīng)方案(BPR-DAE)用于上衣和下裝匹配的兼容性建模,通過(guò)一個(gè)雙重自動(dòng)編碼器網(wǎng)絡(luò)聯(lián)合建模時(shí)裝不同形態(tài)之間的一致性關(guān)系與服裝之間的隱含偏好。后來(lái),Song等人[25]認(rèn)為現(xiàn)有的研究忽視了服裝搭配的規(guī)則,提出了一種基于注意知識(shí)提取的神經(jīng)相容性建模方案,闡述了如何將豐富的服裝領(lǐng)域知識(shí)整合到純數(shù)據(jù)驅(qū)動(dòng)學(xué)習(xí)中來(lái)增強(qiáng)兼容性建模的性能。
2? 基于通道注意力的服裝兼容性建模
2.1? MCN網(wǎng)絡(luò)
多層比較網(wǎng)絡(luò)(Multi-Layered Comparison Network,MCN)[26]通過(guò)端到端的方式學(xué)習(xí)服裝兼容性,主要工作流程是先預(yù)測(cè)套裝的兼容性,然后利用反向傳播梯度進(jìn)行搭配診斷。該網(wǎng)絡(luò)主要分為四個(gè)部分:利用CNN的多個(gè)卷積層的深度連接特性來(lái)提取服裝不同方面的特征;構(gòu)建比較模塊比較多個(gè)層次特征之間的成對(duì)相似性,有效的集合多特征的方法來(lái)學(xué)習(xí)服裝的兼容性;運(yùn)用多層感知器(Multilayer Perceptron,MLP)根據(jù)輸入的成對(duì)相似性來(lái)計(jì)算服裝的兼容性得分;采用反向傳播梯度梯度來(lái)近似每對(duì)商品的相似度的重要程度,從而找出套裝中不兼容的服裝單品。MCN網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。
2.2? 殘差模塊
為了從服裝圖像中提取出更多細(xì)節(jié)特征,解決復(fù)雜圖像中低對(duì)比度區(qū)域及細(xì)小紋理、顏色等欠識(shí)別的問(wèn)題,引入改進(jìn)的殘差模塊替代傳統(tǒng)的殘差模塊(Residual Block)。引入殘差模塊的目的是防止后續(xù)隨著神經(jīng)網(wǎng)絡(luò)的加深使得在利用小批量隨機(jī)梯度下降法訓(xùn)練網(wǎng)絡(luò)時(shí)產(chǎn)生梯度消失,導(dǎo)致網(wǎng)絡(luò)模型訓(xùn)練無(wú)法收斂的問(wèn)題[27]。傳統(tǒng)殘差模塊由兩個(gè)卷積層和ReLU激活函數(shù)組成,本文為提高網(wǎng)絡(luò)的泛化能力優(yōu)化了殘差模塊,在每個(gè)卷積層之前加入批量歸一化(Batch Normalization,BN)層和ReLU激活函數(shù)用于防止過(guò)擬合現(xiàn)象的發(fā)生。在卷積層中間加入ECA-Net層為每個(gè)特征分配不同的權(quán)重。傳統(tǒng)的殘差模塊如圖2所示。優(yōu)化后的殘差模塊結(jié)構(gòu)如圖3所示。
2.3? ECA模塊
雖然殘差模塊強(qiáng)化了特征的傳播能力,有效地提取出更多服裝紋理細(xì)節(jié)信息,但復(fù)雜背景下低層特征中缺少語(yǔ)義信息,分布不均衡,仍會(huì)對(duì)服裝紋理的特征提取造成干擾。為了解決這個(gè)問(wèn)題,我們通過(guò)引入通道注意力網(wǎng)絡(luò)ECA模塊(Efficient Channel Attention,ECA-Net)[28]來(lái)捕獲復(fù)雜紋理信息,該模塊的核心思想在于特征權(quán)重的學(xué)習(xí),增強(qiáng)有效特征權(quán)重、抑制無(wú)效或者效果小的特征權(quán)重,從而增強(qiáng)了網(wǎng)絡(luò)的特征提煉能力,提高模型的服裝搭配精度。ECA-Net結(jié)構(gòu)示意圖如圖4所示。03E69849-66FA-488A-A3B1-77A92F2904C7
在圖4中,給定空間維度H×W×C特征圖x經(jīng)過(guò)全局平均池化(Global Average Pooling,GAP)壓縮為1×1×C的特征圖,然后通過(guò)執(zhí)行大小為k的一維卷積生成每個(gè)通道的權(quán)重(其中k通過(guò)通道維數(shù)C的映射自適應(yīng)確定),再經(jīng)過(guò)ReLU激活函數(shù)將權(quán)重值控制在0到1之間,最后通過(guò)乘法逐通道加權(quán)至特征中,完成對(duì)原始特征的權(quán)重分配,輸出新的特征圖。ECA-Net是基于SE-Net的改進(jìn),在經(jīng)過(guò)SE的全局均值池化后,ECA-Net會(huì)考慮每個(gè)通道及其k個(gè)近鄰,通過(guò)一維卷積快速完成通道權(quán)重的計(jì)算。K代表了在一個(gè)通道權(quán)重的計(jì)算過(guò)程中參與的近鄰數(shù)目,考慮到k值會(huì)影響ECA計(jì)算的效率和有效性,提出了自適應(yīng)計(jì)算k的函數(shù)。在嵌入各種注意力模塊的對(duì)比中,ECA-Net通過(guò)引入極少參數(shù)可明顯提升模型的搭配效果,不會(huì)加大模型的計(jì)算復(fù)雜度。服裝紋理圖像較為復(fù)雜,利用該模塊為輸入特征圖各特征通道賦予權(quán)重,增強(qiáng)任務(wù)相關(guān)像素權(quán)重,可以弱化背景和噪聲影響,從而獲得更精確的紋理特征。
2.4? 改進(jìn)的BOW模型的文本特征提取塊圖
詞袋模型[29](bag of words,BOW)最早出現(xiàn)在自然語(yǔ)言處理與信息檢索領(lǐng)域,近年來(lái)被廣泛運(yùn)用在計(jì)算機(jī)視覺(jué)中。傳統(tǒng)的服裝搭配任務(wù)只學(xué)習(xí)圖像特征,然而視覺(jué)信息和文本信息是相輔相成的,將兩者結(jié)合起來(lái)有利于更好地學(xué)習(xí)服裝兼容性。BOW使用一組無(wú)序的單詞來(lái)表示一段文字,將文本信息視為若干個(gè)詞匯的集合,忽略其語(yǔ)法和語(yǔ)序等要素。由于提取到的文本特征不夠完整,我們?cè)谠械腂OW模型后面添加了一個(gè)全連接模塊,最后生成一個(gè)4×1 000維的文本特征向量。改進(jìn)的BOW結(jié)構(gòu)如圖5所示。
2.5? 改進(jìn)的MCN兼容性學(xué)習(xí)方法
為了更好地預(yù)測(cè)服裝的兼容性及對(duì)不兼容套裝的搭配診斷,本文將ECA-Net和殘差模塊嵌入改進(jìn)的MCN,提出了一種改進(jìn)的服裝搭配網(wǎng)絡(luò)ECA-RMCN(Efficient Channel Attention Residual Network MCN)。模型總體架構(gòu)如圖6所示。ECA-RMCN網(wǎng)絡(luò)結(jié)構(gòu)與 MCN網(wǎng)絡(luò)結(jié)構(gòu)類似,其引入改進(jìn)的殘差模塊替代傳統(tǒng)的殘差模塊,然后在主干網(wǎng)絡(luò)中引入ECA模塊對(duì)輸入特征映射進(jìn)行重要特征的權(quán)重分配,然后輸入下一層進(jìn)行相似性比較。文本信息提取網(wǎng)絡(luò)為BoW。
我們將上衣、褲子和鞋子等這些不同類型的成對(duì)類型組合投影到不同的子空間來(lái)學(xué)習(xí)他們的相似性。假設(shè)fij=y(wi,wj)表示wi和wj的相似性,投影相似性計(jì)算公式如下:
y(wi,wj)=d(Pi→(i,j)wi,Pj→(i,j)wj) (1)
其中Pi→(i,j)為配對(duì)組合(i,j)的第i項(xiàng)投影,d為余弦相似性。根據(jù)相似性計(jì)算公式,我們可以根據(jù)以下公式預(yù)測(cè)兼容性:
Pi→(i,j)wi=RELU(wi ? m(i,j))(2)
其中m(i,j)是和特征wi相同維度的掩碼向量,線性整流函數(shù)(ReLU)作為激活函數(shù)。
采用反向傳播梯度來(lái)近似每個(gè)關(guān)于不兼容的相似性的重要性。假設(shè)一套有N件單品的顏色特征集合,其中ci是第i項(xiàng)的向量。構(gòu)造其特征間的成對(duì)相似性n×n的比較矩陣R,對(duì)k個(gè)不同特征的比較有k個(gè)不同的比較矩陣。通過(guò)將矩陣R中的所有元素輸入到兩層MLP中來(lái)計(jì)算服裝的兼容性得分,其計(jì)算公式如下:
(3)
其中,S和矩陣R之間的非線性矩陣有更好的預(yù)測(cè)性能,我們用S的導(dǎo)數(shù)來(lái)近似表示每個(gè)輸入相似性的重要性。假設(shè)我們標(biāo)記不兼容套裝為0,來(lái)解釋與不相關(guān)的每個(gè)相似性的重要性。若不兼容套裝為0,則使用相反的。我們使用所有相似性的梯度來(lái)計(jì)算每個(gè)套裝的重要性:
(4)
其中wq是第q項(xiàng)的搭配重要性。在不改變?cè)瓉?lái)的構(gòu)圖下通過(guò)替換導(dǎo)致服裝最不兼容的單品使得套裝更兼容。在訓(xùn)練過(guò)程中,我們使用sigmoid函數(shù)為兼容性概率的輸出分?jǐn)?shù)建模并使用二進(jìn)制交叉熵作為損失函數(shù):
Lc=y · logσ(s)+(1-y)· log(1-σ(s))(5)
3? 實(shí)驗(yàn)
3.1? 實(shí)驗(yàn)環(huán)境
本文實(shí)驗(yàn)環(huán)境在Ubuntu 16.04操作系統(tǒng)上進(jìn)行相關(guān)實(shí)驗(yàn),實(shí)驗(yàn)基于PyTorch的深度學(xué)習(xí)框架,Python版本在3.5.2及以上,硬件平臺(tái)為Intel I9-9900X;Nvidia GTX2080Ti;96 GB內(nèi)存。
3.2? 數(shù)據(jù)集
本文使用Polyvore數(shù)據(jù)集對(duì)ECA-RMCN模型的評(píng)估。該數(shù)據(jù)集包含21 889套服裝,其中17 316套用于訓(xùn)練,1 497套用于驗(yàn)證,3 076套用于測(cè)試。其中還包含164 379件服飾單品,每一件單品包含服飾圖像和相對(duì)應(yīng)文本描述。在訓(xùn)練過(guò)程中,一套服飾中的平均時(shí)裝數(shù)量是6件。在文本描述上,我們刪除出現(xiàn)次數(shù)少于30次的單詞,從而生成2 757大小的文本詞匯表。在Polyvore上服飾單品的順序?yàn)樯弦?、褲子、鞋和配飾?/p>
3.3? 實(shí)驗(yàn)細(xì)節(jié)
在實(shí)驗(yàn)中,輸入的服裝圖像大小是224×224。輸入套裝的可變長(zhǎng)度大小從3到5,空白部分由該類型的平均圖像處理。我們?cè)O(shè)置額外損失權(quán)重λ{(lán)1,2,3}分別為5e-3,5e-4,1。輸入的每個(gè)batch有32套服裝,初始學(xué)習(xí)率為1e-2,每10輪的衰減系數(shù)為0.2。采用動(dòng)量為0.9的梯度下降算法。最后僅保留驗(yàn)證集上有最佳性能的模型參數(shù)。
3.4? 評(píng)價(jià)指標(biāo)
為了定量評(píng)估服裝預(yù)測(cè)及搭配模型的性能,采用AUC(Outfit Compatibility Prediction)、FIFB(Fill-in-the-blank)作為評(píng)價(jià)指標(biāo)。
AUC:服裝兼容性預(yù)測(cè)任務(wù)的目標(biāo)是通過(guò)模型得出一個(gè)分?jǐn)?shù)判斷其整體兼容性。本文提出的ECA-RMCN模型通過(guò)端到端的方式從輸入的服裝圖像中計(jì)算出套裝兼容性預(yù)測(cè)分?jǐn)?shù)。我們隨機(jī)從測(cè)試集中選擇6 000套服裝,采用ROC曲線下面積來(lái)比較不同的方法性能。03E69849-66FA-488A-A3B1-77A92F2904C7
FIFB:服裝填空任務(wù)是從一組候選服飾單品中選擇與服裝空白處最為搭配的服飾單品,通過(guò)回答問(wèn)題的準(zhǔn)確性來(lái)評(píng)估模型性能。在實(shí)驗(yàn)中,每個(gè)問(wèn)題有4個(gè)選項(xiàng),對(duì)于空白部分,選擇得分最高的選項(xiàng)作為答案。此任務(wù)的目標(biāo)函數(shù)可表示為:
(6)
其中R是所有選項(xiàng)的集合,n是我們要填入的空白位置。
3.5? 實(shí)驗(yàn)結(jié)果與分析
3.5.1? 定性實(shí)驗(yàn)
為了可視化展示模型的訓(xùn)練效果,實(shí)驗(yàn)中服裝搭配效果圖如圖7所示。由圖可以看出經(jīng)過(guò)殘差模塊、全連接模塊、ECA-Net增強(qiáng)服裝的有效特征對(duì)套裝的搭配起到了良好的作用。
3.5.2? 定量實(shí)驗(yàn)
Pooling[30]:使用平均池操作聚合輸入特征的可變長(zhǎng)度來(lái)預(yù)測(cè)兼容性Concatenation[31]:通過(guò)將5個(gè)單品特征連接為一個(gè)長(zhǎng)度1 000×5的長(zhǎng)向量,使用MLP作為二元分類器。這里設(shè)置隱藏層的大小為1 000。CSN[32]:一種度量成對(duì)兼容性的學(xué)習(xí)方法。根據(jù)不同類型組合條件下的投影嵌入距離計(jì)算兼容性。套裝兼容性是所有成對(duì)兼容性的平均值。
Bi-LSTM+VSE[33]:通過(guò)每一步LSTM消耗一個(gè)CNN編碼的特征輸出一個(gè)隱藏狀態(tài)和下一個(gè)單品的預(yù)測(cè)。兼容性得分是預(yù)測(cè)項(xiàng)與真實(shí)項(xiàng)之間的交叉熵。它聯(lián)合優(yōu)化了前向LSTM、后向LSTM損失和VSE損失。
Self-Attention[34]:采用自我注意機(jī)制來(lái)關(guān)聯(lián)一套服裝中的不同單品計(jì)算出該套裝的表示形式。這里使用縮放的點(diǎn)乘注意力[35],其中查詢、鍵和值是同一套裝中的單品特征。
從表1中的數(shù)據(jù)可以看出,Bi-LSTM+VSE和Self-Attention這兩個(gè)方法的AUC均低于80%,F(xiàn)ITB精度均低于50%。本文的方法在AUC上提高到了91.6%,F(xiàn)ITB精度則達(dá)到了61.5%,證明了我們方法的先進(jìn)性。
4? 結(jié)? 論
本文基于MCN提出了一種改進(jìn)的服裝搭配模型ECA-RMCN,它在視覺(jué)語(yǔ)義嵌入、多模態(tài)特征提取模塊、多層相似性比較與兼容性預(yù)測(cè)模塊和服裝搭配學(xué)習(xí)模塊四個(gè)方面學(xué)習(xí)服裝的整體兼容性關(guān)系。運(yùn)用有效通道注意力(ECA)的多層特征提取圖像—文本信息,有效地捕獲服裝的各個(gè)方面特征。通過(guò)比較CNN多層網(wǎng)絡(luò)中的服裝相似性預(yù)測(cè)服裝的兼容性并對(duì)其不兼容的套裝中的單品進(jìn)行替換。在未來(lái),我們將融入用戶的個(gè)人偏好因素到模型中使得套裝既符合日常搭配,還能滿足個(gè)人的偏好需求。
參考文獻(xiàn):
[1] 紀(jì)丹丹,戴宏欽.服裝搭配方法研究綜述 [J].現(xiàn)代絲綢科學(xué)與技術(shù),2020,35(4):31-35.
[2] VEIT A,KOVACS B,Bell S,et al.Learning visual clothing style with heterogeneous dyadic co-occurrences [C]//Proceedings of the IEEE International Conference on Computer Vision.2015:4642-4650.
[3] HE R,PACKER C,MCAULEY J.Learning compatibility across categories for heterogeneous item recommendation [C]//2016 IEEE 16th International Conference on Data Mining (ICDM).Santiago:IEEE,2016:937-942.
[4] MCAULEY J,TARGETT C,SHI Q,et al.Image-based recommendations on styles and substitutes [C]//Proceedings of the 38th international ACM SIGIR conference on research and development in information retrieval.New York:Association for Computing Machinery,2015:43-52.
[5] HAN X,WU Z,JIANG Y G,et al.Learning fashion compatibility with bidirectional lstms [C]//Proceedings of the 25th ACM international conference on Multimedia.New York:Association for Computing Machinery,2017:1078-1086.
[6] CUI Z,LI Z,WU S,et al.Dressing as a whole:Outfit compatibility learning based on node-wise graph neural networks [C]//The World Wide Web Conference.2019:307-317.
[7] MA Y,YANG X,LIAO L,et al.Who,where,and what to wear? Extracting fashion knowledge from social media [C]//Proceedings of the 27th ACM International Conference on Multimedia.New York:Association for Computing Machinery,2017:2019:257-265.03E69849-66FA-488A-A3B1-77A92F2904C7
[8] HSIAO W L,GRAUMAN K.ViBE:Dressing for diverse body shapes [C]//Proceedings of the IEEE/CVF Conference on? Computer Vision and Pattern Recognition.Seattle:IEEE,2020: 11059-11069.
[9] SONG X,HAN X,LI Y,et al.GP-BPR:Personalized compatibility modeling for clothing matching [C]//Proceedings of the 27th ACM International Conference on Multimedia.New York:Association for Computing Machinery,2019:320-328.
[10] 朱豐,胡曉峰,吳琳,等.從態(tài)勢(shì)認(rèn)知走向態(tài)勢(shì)智能認(rèn)知 [J].系統(tǒng)仿真學(xué)報(bào),2018,30(3):761-771.
[11] 梁斌,劉全,徐進(jìn),等.基于多注意力卷積神經(jīng)網(wǎng)絡(luò)的特定目標(biāo)情感分析 [J].計(jì)算機(jī)研究與發(fā)展,2017,54(8):1724-1735.
[12] 耿磊,邱玲,吳駿,等.結(jié)合深度可分離卷積與通道加權(quán)的全卷積神經(jīng)網(wǎng)絡(luò)視網(wǎng)膜圖像血管分割 [J].生物醫(yī)學(xué)工程學(xué)雜志,2019,36(1):107-115.
[13] WANG X,SUN Z,ZHANG W,et al.Matching user photos to online products with robust deep features [C]//Proceedings of the 2016 ACM on international conference on multimedia retrieval.New York:Association for Computing Machinery,2016:7-14.
[14] QING Y,LIU W.Hyperspectral Image Classification Based on Multi-Scale Residual Network with Attention Mechanism [J].Remote Sensing,2021,13(3):335.
[15] ZHOU J,QIAN S,YAN Z,et al.ESA-Net:A Network with Efficient Spatial Attention for Smoky Vehicle Detection [C]//2021 IEEE International Instrumentation and Measurement Technology Conference (I2MTC).IEEE,2021:1-6.
[16] YAMAGUCHI K,KIAPOUR M H,BERG T L.Paper doll parsing:Retrieving similar styles to parse clothing items [C]//Proceedings of the IEEE international conference on computer vision.IEEE,2013:3519-3526.
[17] YANG W,LUO P,LIN L.Clothing co-parsing by joint image segmentation and labeling [C]//Proceedings of the IEEE conference on computer vision and pattern recognition.IEEE,2014:3182-3189.
[18] WANG X,SUN Z,ZHANG W,et al.Matching user photos to online products with robust deep features [C]//Proceedings of the 2016 ACM on international conference on multimedia retrieval.New York:Association for Computing Machinery,2016:7-14.
[19] AL-HALAH Z,STIEFELHAGEN R,GRAUMAN K.Fashion forward:Forecasting visual style in fashion [C]//Proceedings of the IEEE international conference on computer vision.Venice:IEEE,2017:388-397.
[20] LEE H,SEOL J,LEE S.Style2vec:Representation learning for fashion items from style sets [J/OL].arXiv:1708.04014.(2017-08-14).https://arxiv.org/abs/1708.04014.
[21] HSIAO W L,GRAUMAN K.Learning the latent” look”:Unsupervised discovery of a style-coherent embedding from fashion images [C]//Proceedings of the IEEE International Conference on Computer Vision.Venice:IEEE,2017:4203-4212.03E69849-66FA-488A-A3B1-77A92F2904C7
[22] VEIT A,KOVACS B,BELL S,et al.Learning visual clothing style with heterogeneous dyadic co-occurrences [C]//Proceedings of the IEEE International Conference on Computer Vision.Santiago:IEEE,2015:4642-4650.
[23] LI X,WANG X,HE X,et al.Hierarchical fashion graph network for personalized outfit recommendation [C]//Proceedings of the 43rd International ACM SIGIR Conference on Research and Development in Information Retrieval.New York:Association for Computing Machinery,2020:159-168.
[24] SONG X,F(xiàn)ENG F,LIU J,et al.Neurostylist:Neural compatibility modeling for clothing matching [C]//Proceedings of the 25th ACM international conference on Multimedia.New York:Association for Computing Machinery,2017:753-761.
[25] HAN X,SONG X,YAO Y,et al.Neural compatibility modeling with probabilistic knowledge distillation [J].IEEE Transactions on Image Processing,2019,29:871-882.
[26] WANG X,WU B,ZHONG Y.Outfit compatibility prediction and diagnosis with multi-layered comparison network [C]//Proceedings of the 27th ACM International Conference on Multimedia.2019:329-337.
[27] ?;?,饒志強(qiáng),趙玉林,等.基于改進(jìn)U-Net網(wǎng)絡(luò)的隧道裂縫分割算法研究 [J].計(jì)算機(jī)工程與應(yīng)用,2021,57(22):215-222.
[28] WANG Q,WU B,ZHU P,et al.ECA-Net:efficient channel attention for deep convolutional neural networks [C]//CVF Conference on Computer Vision and Pattern Recognition (CVPR).Seattle:IEEE,IEEE.2020.
[29] ZHANG Y,JIN R,ZHOU Z H.Understanding bag-of-words model:a statistical framework [J].International Journal of Machine Learning and Cybernetics,2010,1(1-4):43-52.
[30] LI Y,CAO L,ZHU J,et al.Mining fashion outfit composition using an end-to-end deep learning approach on set data [J].IEEE Transactions on Multimedia,2017,19(8):1946-1955.
[31] TANGSENG P,YAMAGUCHI K,OKATANI T.Recommending outfits from personal closet [C]//Proceedings of the IEEE International Conference on Computer Vision Workshops.Venice:IEEE,2017:2275-2279.
[32] VASILEVA M I,PLUMMER B A,DUSAD K,et al.Learning type-aware embeddings for fashion compatibility [C]// Proceedings of the European Conference on Computer Vision (ECCV).Cham:Springer,2018:390-405.
[33] HAN X,WU Z,JIANG Y G,et al.Learning fashion compatibility with bidirectional lstms [C]//Proceedings of the 25th ACM international conference on Multimedia.New York:Association for Computing Machinery,2017:1078-1086.
[34] WANG X,GIRSHICK R,GUPTA A,et al.Non-local neural networks [C]//Proceedings of the IEEE conference on computer vision and pattern recognition.Salt Lake City:IEEE,2018:7794-7803.
[35] VASWANI A,SHAZEER N,PARMAR N,et al.Attention is all you need [J].NIPS17:Proceedings of the 31st International Conference on Neural Information Processing Systems.New York:Association for Computing Machinery,2017:6000-6010.
作者簡(jiǎn)介:魏雄(1974—),男,漢族,湖北武漢人,副教授,CCF 會(huì)員,博士,研究方向:并行計(jì)算、紡織服裝大數(shù)據(jù)等;閆坤(1997—),女,漢族,湖北黃岡人,CCF 會(huì)員,碩士在讀,研究方向:圖像處理。03E69849-66FA-488A-A3B1-77A92F2904C7