韓豐澤
(陜西服裝工程學(xué)院,陜西 西安712046)
圖像識別與分類技術(shù)是現(xiàn)階段計(jì)算機(jī)視覺領(lǐng)域的重要構(gòu)成部分,而深度學(xué)習(xí)技術(shù)從人工神經(jīng)網(wǎng)絡(luò)概念提出至今經(jīng)歷了多次大起大落,隨著基于深度學(xué)習(xí)的圖像識別競賽中超越人類識別準(zhǔn)確率,再加上大數(shù)據(jù)的廣泛普及與推廣得以迅速發(fā)展[1]。在數(shù)字圖像處理技術(shù)高速發(fā)展推進(jìn)下,部分科技公司逐步推陳出新了以圖搜圖技術(shù),現(xiàn)階段百度與谷歌等公司均研發(fā)了具備一定搜圖功能的軟件與產(chǎn)品。在服裝圖像搜索與應(yīng)用中,淘寶、唯品會(huì)等App 也推出了以圖搜圖功能,但是總體而言受各種因素影響,當(dāng)前各式各樣方式所獲取的服裝圖像分類結(jié)果均不夠理想化,特別是搜索的圖像中還存在一定的遮擋和復(fù)雜背景,再加上圖像質(zhì)量較差,致使檢索結(jié)果差強(qiáng)人意。
服裝圖像識別與分類的本質(zhì)在于通過圖像特征與分類模型明確服裝類別,常用服裝圖像識別方法主要有傳統(tǒng)方法與深度學(xué)習(xí)方法[2],具體如圖1 所示。
圖1 服裝圖像識別與分類方法
圖像特征提取即通過計(jì)算機(jī)技術(shù)由圖像內(nèi)提取可表達(dá)圖像特性的數(shù)據(jù),基于處理分析生成計(jì)算機(jī)可理解的圖像的非圖像表示的過程。圖像特征提取與分類識別算法精確度息息相關(guān)[3]。
其一,顏色特征提取。圖像顏色特征的顯著特性為直觀且穩(wěn)定,對于平移與旋轉(zhuǎn)等變換的感知不夠靈敏。顏色特征實(shí)際上就是以像素或者區(qū)域?yàn)檩d體對于圖像的顏色加以描述與表達(dá),具體劃分為顏色直方圖、顏色矩、顏色集等等。其中顏色直方圖闡述了不同顏色在圖像中所占據(jù)的比例,但是不能呈現(xiàn)顏色間的位置關(guān)聯(lián)性;顏色矩通過矩表示圖像全部顏色,其一般在其他顏色特征提取前進(jìn)行范圍縮小。目前通過傳統(tǒng)顏色特征,有學(xué)者提出了新型顏色特征,也就是級聯(lián)顏色矩,其將圖像空間信息添加于顏色特征內(nèi),級聯(lián)顏色矩則基于級聯(lián)各塊顏色矩得以生成。此外,有學(xué)者提出了服裝圖像預(yù)處理程序,包含直方圖均衡、前景提取、圖像服裝區(qū)域尺寸歸一化處理。
其二,形狀特征提取。圖像形狀特征提取時(shí),以所提取信息范圍可劃分為輪廓特征與區(qū)域特征兩種。在服裝圖像識別時(shí),形狀特征切實(shí)應(yīng)用于服裝款式識別,經(jīng)典形狀特征闡述方法主要包含邊界特征法與傅里葉形狀描述符法等等。其中邊界特征法本質(zhì)在于以邊緣檢測提取圖像內(nèi)形狀的邊界特征,其盡量忽視形象邊界之外的相關(guān)信息,最終只保留可呈現(xiàn)圖像內(nèi)形狀邊界的閉合曲線。
其三,紋理特征提取。服裝圖像中紋理特征可真實(shí)反映服裝紋路或者面料等有關(guān)信息。紋理特征提取方法主要包含統(tǒng)計(jì)分析法、結(jié)構(gòu)分析法、信號處理法、模型法等等。其中統(tǒng)計(jì)分析法面向單獨(dú)像素及其相鄰像素的灰度屬性進(jìn)行分析,具體即灰度共生矩陣、灰度差分統(tǒng)計(jì)等等,其優(yōu)勢在于簡單且容易實(shí)現(xiàn),而不足在于難以合理利用全局信息且計(jì)算復(fù)雜、消耗時(shí)間。結(jié)構(gòu)分析法即明確定義紋理構(gòu)成元素為紋理基元,且主張紋理基元與紋理表現(xiàn)形式密切相關(guān)。信號處理法即針對紋理區(qū)域進(jìn)行變換之后再提取穩(wěn)定特征值以此為特征加以表示,通常基于線性變換、濾波器變換紋理,再就能量分布進(jìn)行特征提取。模型法即以紋理圖像預(yù)測計(jì)算模型參數(shù),就參數(shù)作為特征分割圖像,具體包含隨機(jī)場模型法與分形模型法。
通過全局特征可簡單識別服裝類別,但是服裝主觀風(fēng)格量化難上加難,基于形狀與紋理等簡單特征難以精確識別。所以在完成高難度識別任務(wù)時(shí),單純依賴于全局特征有時(shí)候根本不能獲取預(yù)期效果。相較于全局特征不同,局部特征提取是面向圖像局部的,常用局部特征表達(dá)類型包含角點(diǎn)類型與區(qū)域類型,而特征提取方法則主要有三種。
其一,SURF 方法。SURF 方法是對于SIFT 的改進(jìn)優(yōu)化,對于SIFT 在構(gòu)造DOG 尺度空間與求取DOG 空間局部極限值時(shí)消耗時(shí)間過多這一現(xiàn)象,SURF 方法選擇以Hessian 矩陣變換圖像,如此一來在檢測極限值時(shí)只需簡單方程便可求得Hessian 行列式近似值,通過盒裝模糊濾波進(jìn)行高斯模糊近似值求取。在高斯金字塔構(gòu)建過程中,SURF 方法可確保圖像尺寸不變化,只針對濾波器尺寸加以調(diào)整。而在求解關(guān)鍵點(diǎn)主方向的時(shí)候,SURF 方法選擇哈爾小波轉(zhuǎn)換,而非直方圖統(tǒng)計(jì),以此便更大程度上加快了匹配速度。
其二,SIFT 方法。SIFT 方法的關(guān)鍵點(diǎn)是一個(gè)重要概念,圖像的關(guān)鍵點(diǎn)即特征表現(xiàn)比較穩(wěn)定的點(diǎn),這些點(diǎn)一般不會(huì)由于光照或者噪音的影響發(fā)生顯著變化。SIFT 方法的具體流程為:基于構(gòu)建高斯金字塔,進(jìn)行尺度空間建設(shè),此過程可確保SIFT 尺度不變性;搜索并定位關(guān)鍵點(diǎn),所謂關(guān)鍵點(diǎn)即通過所構(gòu)建的尺度空間的局部極限值點(diǎn)構(gòu)成的,所以搜索時(shí)需尋找空間內(nèi)全部局部極限值點(diǎn),再去除不穩(wěn)定、不可用的點(diǎn),從而保留關(guān)鍵點(diǎn),隨后定位關(guān)鍵點(diǎn),通常是針對全部離散關(guān)鍵點(diǎn)進(jìn)行曲線擬合以獲取關(guān)鍵點(diǎn)位置與尺度信息;方向賦值,主要是為了實(shí)現(xiàn)算法旋轉(zhuǎn)不變性,通過圖像梯度獲取圖像特征穩(wěn)定方向,再對關(guān)鍵點(diǎn)賦值,隨后明確定義關(guān)鍵點(diǎn)及其周圍有點(diǎn)貢獻(xiàn)值的點(diǎn)為關(guān)鍵點(diǎn)描述子,為促使方法穩(wěn)定旋轉(zhuǎn)圖像,需提前將坐標(biāo)軸根據(jù)關(guān)鍵點(diǎn)進(jìn)行既定角度旋轉(zhuǎn),同時(shí)為確保SIFT 方法的光照變化穩(wěn)定,還需針對模型進(jìn)行歸一化操作。據(jù)此可知,SIFT 對于旋轉(zhuǎn)變化、亮度變化保持不變性、信息量豐富且多元化,與大數(shù)據(jù)發(fā)展需求高度相符,可進(jìn)一步順利匹配海量數(shù)據(jù)內(nèi)數(shù)據(jù)信息,但是不足在于偶爾所提取的特征點(diǎn)比較少,難以切實(shí)提取邊緣光滑對象的實(shí)際特征。
其三,HOG 方法。HOG 特征是基于圖像局部區(qū)域梯度方向直方圖加以生成的,其特征提取流程具體為:輸入圖像;圖像標(biāo)準(zhǔn)化處理;計(jì)算梯度;計(jì)算Cell 內(nèi)各像素幅度與方向;計(jì)算重疊的各Block 內(nèi)HOG 描述子;串聯(lián)全部Block 區(qū)域內(nèi)HOG 描述子;圖像HOG 特征提取。HOG 特征提取涉獵大量圖像局部操作,所以HOG 特征提取方法并不受圖像幾何變形與光照變化影響。類似于SIFT 方法,HOG 方法也通過圖像內(nèi)梯度方向直方圖提取特征。但是SIFT 方法會(huì)根據(jù)檢測的興趣點(diǎn)同步使用,所以處于復(fù)雜環(huán)境時(shí)物體特征提取時(shí)SIFT 方法的優(yōu)勢會(huì)更加突出。HOG特征單元較小,主要以逐層擴(kuò)大方式提取特征,切實(shí)保留了像素間與空間層面的有機(jī)聯(lián)系與相關(guān)性,所以HOG 方法在提取剛性物體特征方面優(yōu)勢更為凸顯。
不同于服裝圖像傳統(tǒng)識別方法,基于深度學(xué)習(xí)的服裝圖像識別與分類方法將特征提取與分類器輸入相融合,以一個(gè)模型提取并分類特征,分類器作為模型最后一層,處于全部特征提取流程后面[4]。
傳統(tǒng)特征提取方法為深度學(xué)習(xí)特征提取方法提供了更加完善的思路與依據(jù),二者最大的差異體現(xiàn)于SIFT、HOG 等傳統(tǒng)方法高度依賴于先驗(yàn)知識手工設(shè)計(jì)特征,但是深度學(xué)習(xí)整個(gè)過程無需人為設(shè)計(jì)特征,其整個(gè)過程是基于神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)并模擬人類大腦學(xué)習(xí)過程,由海量數(shù)據(jù)中學(xué)習(xí)不同特征的表示。據(jù)此可見傳統(tǒng)特征提取方法無法充分合理利用大數(shù)據(jù)優(yōu)勢,且依靠手工調(diào)整參數(shù),所以特征內(nèi)參數(shù)量相對偏少,但是深度學(xué)習(xí)可由海量數(shù)據(jù)內(nèi)學(xué)習(xí)特征,其中包括上萬參數(shù),所以以此方法提取的特征表達(dá)效果更為顯著。
近幾年關(guān)于基于卷積神經(jīng)網(wǎng)絡(luò)的服裝圖像識別與分類算法逐步衍生。其中通過Res Net 與Squeeze Net 對于電商服裝圖像識別與分類的具體表現(xiàn),檢測并進(jìn)一步改進(jìn)了分類準(zhǔn)確率影響因素,主要包含生成背景、擴(kuò)大網(wǎng)絡(luò)、采用集合增強(qiáng)數(shù)據(jù),以此經(jīng)過優(yōu)化,其準(zhǔn)確率可達(dá)80%左右;基于Google Inception 模型的區(qū)分傳統(tǒng)服裝圖像與真實(shí)服裝圖像的方法,通過對比分析選擇了以均方根方向傳播法為優(yōu)化器,從而區(qū)分結(jié)果于訓(xùn)練集與測試集中的準(zhǔn)確率高達(dá)92%與90%。通常網(wǎng)絡(luò)會(huì)自主裁剪或者適度縮放圖像,以保障固定大小輸入,如此會(huì)在一定程度上降低圖像精確度,對此可通過針對微調(diào)VGG 網(wǎng)絡(luò)配置空間金字塔池,以消除固定尺寸輸入約束,提升圖像輸入靈活性。
商店零售商所提供的真實(shí)服裝圖像標(biāo)簽多數(shù)情況下都是錯(cuò)誤的或者不完整的,而且圖像類型之間的不均衡嚴(yán)重阻礙了學(xué)習(xí)有效性。對此可通過多任務(wù)深度學(xué)習(xí)架構(gòu)學(xué)習(xí)有效表示形式,并構(gòu)建切實(shí)應(yīng)用于不平衡學(xué)習(xí)的多權(quán)重卷積神經(jīng)網(wǎng)絡(luò),此網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)主要包含兩層,上層為任務(wù)層,下層為共享層。在此基礎(chǔ)上,有學(xué)者設(shè)計(jì)了不同的CNN 以進(jìn)行服裝圖像識別與分類,分別為常規(guī)CNN、涵蓋起始模塊CNN、囊括起始模塊與殘差模塊CNN、遷移學(xué)習(xí)CNN,全部網(wǎng)絡(luò)均可實(shí)現(xiàn)服裝圖像較好分類,且遷移學(xué)習(xí)CNN 擁有非常高的圖像識別分類精確度。Fashion Net 作為全新服裝分類模型,其中結(jié)合了傳統(tǒng)圖像特征提取與深度學(xué)習(xí)特征提取的優(yōu)勢。
針對常見服裝圖像識別與分類系統(tǒng),以及各類型消費(fèi)者對于服裝識別與分類系統(tǒng)的實(shí)際需求進(jìn)行詳細(xì)分析,根據(jù)模型面向服裝各類型屬性的標(biāo)注任務(wù),將多功能服裝識別與分類系統(tǒng)劃分為三個(gè)模塊,具體如表1 所示。
首先,輸入搜索功能模塊。此模塊想要實(shí)現(xiàn)的具體功能包括用戶輸入服裝有關(guān)關(guān)鍵字詞,頁面展示與關(guān)鍵字詞有關(guān)的圖像。而關(guān)鍵字詞主要包括三種,具體即服裝類別(外套、短褲、長褲、T恤等等)、服裝特點(diǎn)(印花、針織、純棉等等)、服裝顏色(黑色、白色、黃色等等)。系統(tǒng)會(huì)就用戶所輸入關(guān)鍵字詞篩選出符合關(guān)鍵字詞屬性的服裝類型以供用戶瀏覽,用戶只需點(diǎn)擊選擇明確具體類型,界面就會(huì)呈現(xiàn)用戶所期望的服裝圖像。其次,風(fēng)格分類功能模塊。與服裝風(fēng)格分類模型相一致,將服裝風(fēng)格具體劃分為簡約風(fēng)、優(yōu)雅風(fēng)、復(fù)古風(fēng)、民族風(fēng)、可愛風(fēng)、職場風(fēng)。再次,精細(xì)化分類功能模塊。此模塊實(shí)現(xiàn)主要從大類開始分層精細(xì)化識別與分類。明確服裝第一層總體分類為三類:上裝、下裝、全身;第二層分類為款式:上裝分為短袖、T 恤、外套等;第三層分類添加了服裝屬性標(biāo)簽:風(fēng)格、特點(diǎn)等[5]。
表1 服裝圖像識別與分類系統(tǒng)功能模塊
綜上,在深度學(xué)習(xí)高速發(fā)展趨勢下,深度學(xué)習(xí)在計(jì)算機(jī)視覺領(lǐng)域的實(shí)際應(yīng)用實(shí)現(xiàn)了突破性發(fā)展,其在服裝圖像識別中的應(yīng)用流程具體即以BP 神經(jīng)網(wǎng)絡(luò)識別服裝圖像,由分類中提取服裝質(zhì)地與結(jié)構(gòu)特征,輸入于神經(jīng)網(wǎng)絡(luò)內(nèi),以實(shí)現(xiàn)整個(gè)學(xué)習(xí)過程。其中傳統(tǒng)特征提取方式無法充分發(fā)揮大數(shù)據(jù)優(yōu)勢,過于依賴手工進(jìn)行參數(shù)調(diào)整,所以特征內(nèi)參數(shù)量偏少,但是深度學(xué)習(xí)可由海量數(shù)據(jù)內(nèi)學(xué)習(xí)包括多參數(shù)的特征,因此以其提取的特征表達(dá)效果更佳,更加適合服裝圖像識別。據(jù)此,本文以深度學(xué)習(xí)的特征提取模型實(shí)現(xiàn)了服裝圖像識別。