高 靜,段中興,何宇超
(西安建筑科技大學(xué) 信息與控制工程學(xué)院,西安 710055)
隨著我國(guó)人民對(duì)生活各方面需求的不斷提高,各類生活垃圾數(shù)量急劇增加,2019年我國(guó)生活垃圾清運(yùn)量為2.42億噸,其中45.2%被衛(wèi)生填埋,50.2%被焚燒處理,絕大多數(shù)垃圾由于未做分類,不能回收利用.現(xiàn)今垃圾分類以人工分類為主[1],由于垃圾種類繁多,分類時(shí)由于辨識(shí)困難,垃圾回收工作難以從源頭順利進(jìn)行,用于垃圾分類的移動(dòng)端app等輔助工具對(duì)于居民進(jìn)行分類投放或工廠進(jìn)行自動(dòng)化分揀具有非常重要的價(jià)值.垃圾分類屬于典型的細(xì)粒度圖像分類問題,相比于其他圖像分類有更多的挑戰(zhàn),也有很強(qiáng)的實(shí)用價(jià)值.
垃圾分類模型要落地于實(shí)際工程應(yīng)用,對(duì)模型的要求不僅聚焦于精度高,還有體積小與速度快.近年來,相關(guān)學(xué)者對(duì)于垃圾分類等細(xì)粒度圖像分類問題展開研究,趙冬娥等[2]提出對(duì)垃圾紅外光譜的高光譜圖像,分析其反射率光譜信息,為改進(jìn)垃圾分類技術(shù)提供了新思路;何凱等[3]提出將注意力機(jī)制嵌入到不同尺度當(dāng)中,進(jìn)行特征融合之后,精確地提取顯著性特征;高明等[4]提出了端到端的遷移學(xué)習(xí)網(wǎng)絡(luò)架構(gòu)GANet(Garbage Neural Network),在網(wǎng)絡(luò)中使用一種像素級(jí)注意力機(jī)制PSATT,對(duì)于易混淆的垃圾圖像分類效果有所提升;錢濤等[5]結(jié)合MV-PearINet與K-means方法,將無監(jiān)督聚類算法應(yīng)用到特征提取中,對(duì)于珍珠細(xì)粒度分類取得了不錯(cuò)的效果.對(duì)于小樣本學(xué)習(xí),近年來許多相關(guān)方法[6-8]被提出,其中最多的就是應(yīng)用遷移學(xué)習(xí)[9],通過預(yù)訓(xùn)練來緩解樣本不足的問題.
現(xiàn)有圖像分類方法執(zhí)行垃圾圖像分類任務(wù)時(shí),具有以下特征:圖像背景復(fù)雜,目標(biāo)難以定位;垃圾圖像易混淆;目標(biāo)過于集中部分,容易甄選到次要信息;模型可移植性較差.針對(duì)以上問題,文本的主要貢獻(xiàn)有:
1)提出由多尺度深度可分離卷積構(gòu)成的多尺度特征提取模塊,在輸入層獲取更為豐富有效的特征信息;
2)輸出層使用鋸齒狀擴(kuò)張卷積,獲得更大的感受野,較好地保留深層特征信息;
3)對(duì)網(wǎng)絡(luò)進(jìn)行裁剪,減少模型的參數(shù)量與計(jì)算量,使模型能夠兼顧快速性與準(zhǔn)確性要求.
本研究還在網(wǎng)絡(luò)的輸入端使用Gridmask數(shù)據(jù)增強(qiáng),提高了數(shù)據(jù)的多樣性,將預(yù)熱與余弦退火相結(jié)合優(yōu)化學(xué)習(xí)率,有效避免收斂不穩(wěn)定或后期收斂慢的問題.在“華為云”競(jìng)賽提供的數(shù)據(jù)集上,經(jīng)過多角度的實(shí)驗(yàn)分析,驗(yàn)證了提出模型的優(yōu)越性.
深度可分離卷積將單個(gè)卷積核的任務(wù)轉(zhuǎn)變?yōu)橛成淇缤ǖ老嚓P(guān)性和空間相關(guān)性,把傳統(tǒng)的三維(3D)卷積核分解為一個(gè)逐通道處理的二維(2D)卷積核和一個(gè)跨通道1×1大小的3D卷積核來增強(qiáng)特征提取.
W1=Ck×Ck×P×Q
(1)
(2)
W2=Ck×Ck×1×1×P+1×1×P×Q
(3)
(4)
深度可分離卷積與普通卷積的參數(shù)量比值為W,如式(5)所示:
(5)
當(dāng)卷積核為3×3×128,輸入通道與輸出通道均為128時(shí),傳統(tǒng)卷積的參數(shù)量為147456,而深度可分離卷積的參數(shù)量為17536,同比縮減了88.12%.對(duì)比二者可知,采用深度可分離卷積相比傳統(tǒng)卷積能夠縮減運(yùn)算的復(fù)雜度.
卷積尺寸單一在一定程度上限制了特征的提取能力,而原深度可分離卷積的Depthwise卷積均使用固定的3×3的卷積核,為獲取更為豐富的特征信息,本文使用多尺度深度可分離卷積替換原來的3×3卷積核,獲取不同尺寸大小的感受野,將不同尺寸的特征融合,進(jìn)一步提高模型分類精度,有效應(yīng)對(duì)垃圾圖像背景復(fù)雜與目標(biāo)不突出帶來的挑戰(zhàn).
如圖1所示,首先進(jìn)行特征降維,使用1×1標(biāo)準(zhǔn)卷積將輸入特征通道壓縮為特定數(shù)目的特征通道.例如,將G個(gè)輸入特征通道壓縮為G/2、G/4、G/8以及G/8 4種數(shù)量的特征圖,對(duì)壓縮后的每個(gè)特定通道上的特征圖進(jìn)行Depthwise卷積,卷積核的大小分別為1×1、3×3、5×5以及最大池化,Depthwise卷積的計(jì)算如式(6)所示:
圖1 多尺度深度可分離卷積Fig.1 Multiscale fusion depth separable convolution
(6)
式中,d(*)(i,j)為輸出特征圖坐標(biāo)(i,j) 處的值,K和L分別為卷積核的寬度和高度,W(k,l)為卷積核中(k,l)的值,y(i+k,j+l)為輸入特征圖中坐標(biāo)(i+k,j+l)的值.將多尺度特征卷積通過1×1卷積,卷積之后將特征融合,Pointwise卷積計(jì)算如式(7)所示:
(7)
式中,p(*)(i,j,n)為輸出特征圖坐標(biāo)(i,j,n) 處的值,Wm為第m個(gè)1×1卷積核,y(i,j,m)為第m個(gè)輸入特征圖中坐標(biāo)(i,j)的值,M為輸入特征圖的數(shù)量.
多尺度特征提取模塊由3個(gè)多尺度深度可分離卷積疊加連接后與1×1卷積和批歸一化融合層經(jīng)過殘差連接組成,如圖2所示.在模塊輸出端引入樣本的前饋通道構(gòu)成閉環(huán),將殘差部分與卷積通道部分的輸出特征相加,構(gòu)成淺層特征與深層特征的結(jié)合,使深度卷積神經(jīng)網(wǎng)絡(luò)的權(quán)值收斂更加有效.對(duì)于背景復(fù)雜與重要特征不突出的垃圾圖像,使用多尺度可分離卷積代替最大池化層可以提取任意分辨率的特征,獲得通道面上“最有價(jià)值”的特征分布,將1×1的卷積與BN(Batch Normalization)[10]融合,能夠提高網(wǎng)絡(luò)的運(yùn)行速率.
圖2 多尺度特征提取模塊Fig.2 Multi-scale feature extraction module
令垃圾圖像X={x1,x2,…,xN},其中xi表示任意垃圾圖像,N表示垃圾圖像總數(shù);Z={z1,z2,…,zN}表示垃圾圖像的對(duì)應(yīng)類別標(biāo)簽.垃圾圖像與對(duì)應(yīng)標(biāo)簽之間的映射關(guān)系為f(g),如式(8)所示:
Z=f(X,ω)
(8)
式中,ω為網(wǎng)絡(luò)中的權(quán)重.
多尺度特征提取模塊的輸入輸出映射關(guān)系為,如式(9)所示:
fc(X,ω)=H(X)-φ(X)
(9)
其中,H(X)表示網(wǎng)絡(luò)輸入X的期望輸出;H(X)-φ(X)表示網(wǎng)絡(luò)的輸出與輸入的殘差,φ(X)表示1×1卷積通道的輸出.
擴(kuò)張卷積在Deeplab系列[11]模型中用來解決在語義分割中由于下采樣引發(fā)的特征丟失問題,在不改變特征圖尺寸的前提下,仍能獲取更大的感受野.為了獲取更深層的特征,在輸出層使用狀擴(kuò)張卷積,由于擴(kuò)張卷積核有間隔,當(dāng)疊加的卷積層都采用相同的擴(kuò)張率,會(huì)導(dǎo)致整體特征圖的像素產(chǎn)生中斷,發(fā)生像素遺漏.如圖3所示,使用擴(kuò)張率均為2的擴(kuò)張卷積,會(huì)出現(xiàn)網(wǎng)格效應(yīng)[12],白色像素塊在卷積時(shí)會(huì)被遺漏.因此,本設(shè)計(jì)采用擴(kuò)張率為[1,2,3]的鋸齒狀擴(kuò)張卷積.
圖3 擴(kuò)張率均為2的擴(kuò)張卷積Fig.3 Expanded convolution with expansion rate of 2
鋸齒狀擴(kuò)張卷積[13]采用連續(xù)擴(kuò)張率的擴(kuò)張卷積,如圖4(a)對(duì)應(yīng)擴(kuò)張率為1的3×3的卷積核;圖4(b)為擴(kuò)張率為2的擴(kuò)張卷積,感受野為7×7;圖4(c)為擴(kuò)張率為3的擴(kuò)張卷積,感受野為13×13.采用鋸齒狀擴(kuò)張卷積,所有的像素塊都能參與到卷積計(jì)算中,對(duì)于主要特征不突出的垃圾圖像,深度提取圖像特征,提高分類準(zhǔn)確度.
圖4 鋸齒狀擴(kuò)張卷積Fig.4 Serrated expansion convolution
擴(kuò)張卷積核和感受野的計(jì)算如式(10)和式(11)所示:
fn=fk+(fk-1)×(Dr-1)
(10)
(11)
其中,fk為原始卷積核的尺寸;fn為擴(kuò)張卷積核的尺寸;Dr為擴(kuò)張率;lm-1為第m-1層感受野的尺寸;lm為經(jīng)過擴(kuò)張卷積后第m層感受野尺寸;Si為第i層步幅大小.
模型的精度、大小以及推理時(shí)間都是決定其工程應(yīng)用價(jià)值的重要指標(biāo),本文在不影響模型性能的情況下,去掉一些冗余的部分以減少參數(shù)量與計(jì)算量.Xception架構(gòu)的中間層由8個(gè)相同的殘差模塊組成,由于多尺度深度可分離卷積具有較強(qiáng)的特征提取能力,在網(wǎng)絡(luò)淺層便可獲取到豐富的特征,因此,在中間層以1個(gè)殘差模塊為單位裁剪尺度,進(jìn)行裁剪.經(jīng)實(shí)驗(yàn)得到,當(dāng)裁剪尺度為2時(shí),模型精度略微下降,推理時(shí)間有效減少,綜合表現(xiàn)最佳.
ML-Xception(Multiscale Lightweight Xception)網(wǎng)絡(luò)是基于Xception[14]框架改進(jìn)的一種輕量型多尺度特征融合的網(wǎng)絡(luò)模型.Xception體系架構(gòu)由36個(gè)卷積層組成的殘差連接模塊構(gòu)成網(wǎng)絡(luò)的特征提取基礎(chǔ).Xception與InceptionV3架構(gòu)的參數(shù)量相差不多,但精度有所提升,一定程度上歸因于參數(shù)更加有效.基線模型性能對(duì)比如表1所示.
表1 基線模型性能對(duì)比Table 1 Performance comparison of baseline models
如圖5所示,對(duì)于輸入圖像x∈RH×W×C,首先經(jīng)過conv_1和conv_2兩個(gè)普通卷積,初步提取圖像特征,原始特征與權(quán)重系數(shù)對(duì)應(yīng)相乘后獲得權(quán)重分配的新特征,依次輸入到3個(gè)多尺度特征提取模塊中進(jìn)行特征學(xué)習(xí),3個(gè)模塊中的多尺度深度可分離卷積為3×3×128、3×3×256以及3×3×728;經(jīng)過中間層的6個(gè)殘差模塊獲取較深層特征;經(jīng)過輸出層的多尺度特征提取模塊4,將特征輸入到具有連續(xù)擴(kuò)張率的擴(kuò)張卷積中,獲取更深層的特征;將全部特征通過自適應(yīng)池化,使用Dropout模塊丟棄部分特征,最終經(jīng)過全連接層輸出圖像分類結(jié)果.
圖5 ML-Xception模型框架Fig.5 ML-Xception model framework
對(duì)ML-Xception模型使用的訓(xùn)練優(yōu)化策略如表2所示.
表2 訓(xùn)練優(yōu)化策略Table 2 Training optimization strategy
本研究的訓(xùn)練數(shù)據(jù)采用“華為云人工智能大賽·垃圾分類挑戰(zhàn)杯”賽方依照深圳市頒布的垃圾分類標(biāo)準(zhǔn)制作的數(shù)據(jù)集,共包括14000余張垃圾圖像,分別為廚余垃圾、可回收垃圾、有害垃圾、其他垃圾4大類,共40小類.進(jìn)行深度學(xué)習(xí)訓(xùn)練之前要對(duì)圖像進(jìn)行預(yù)處理,根據(jù)計(jì)算資源和結(jié)果的可靠性,將圖像統(tǒng)一調(diào)整尺寸為224×224的像素大小,再進(jìn)行數(shù)據(jù)增強(qiáng)操作.本研究采用GridMask數(shù)據(jù)增強(qiáng)[15]方法對(duì)原數(shù)據(jù)集進(jìn)行增強(qiáng).
深度卷積神經(jīng)網(wǎng)絡(luò)模型在進(jìn)行訓(xùn)練時(shí),要利用優(yōu)化器來提高收斂速度與收斂精度,本研究采用自適應(yīng)隨機(jī)優(yōu)化算法Adam[16].Adam算法兼具AdaGrad和RMSProp兩種算法的優(yōu)點(diǎn),動(dòng)態(tài)調(diào)整每個(gè)參數(shù)的學(xué)習(xí)率,因此本研究采用Adam優(yōu)化方法來優(yōu)化模型.
采用交叉熵(cross entropy)作為損失函數(shù)來計(jì)算目標(biāo)與預(yù)測(cè)之間的差距.計(jì)算如式(12)所示:
(12)
其中,Closs為損失值,m為參與訓(xùn)練的樣本量,n為參與訓(xùn)練的類別數(shù),q(xij)表示樣本x(i)為標(biāo)簽j的概率,p(xij)表示模型預(yù)測(cè)樣本x(i)為標(biāo)簽j的概率.對(duì)本文研究的這種多類別分類問題,交叉熵?fù)p失求導(dǎo)更簡(jiǎn)單,有利于加快模型的推理速度,因此本研究選擇交叉熵作為損失函數(shù).
傳統(tǒng)的學(xué)習(xí)率優(yōu)化方式是給定一個(gè)學(xué)習(xí)率初始值,直接在此基礎(chǔ)上梯度下降更新學(xué)習(xí)率,由于模型的權(quán)重是隨機(jī)初始化的,給定學(xué)習(xí)率的大小會(huì)直接影響模型的穩(wěn)定性,若給定學(xué)習(xí)率過大可能會(huì)導(dǎo)致模型振蕩.因此本文提出預(yù)熱與余弦退火[17]相結(jié)合的學(xué)習(xí)率控制策略.首先采用warm-up預(yù)熱的方式,開始訓(xùn)練時(shí)采用小的學(xué)習(xí)率,隨著模型慢慢適應(yīng)新數(shù)據(jù)集,逐步增大學(xué)習(xí)率,直到達(dá)到最初設(shè)置的較大學(xué)習(xí)率時(shí)再采用最初設(shè)置的學(xué)習(xí)率進(jìn)行訓(xùn)練,然后采用余弦退火(Cosine annealing)算法來降低學(xué)習(xí)率.避免了因?yàn)閷W(xué)習(xí)率過大導(dǎo)致振蕩的發(fā)生.余弦退火通過余弦函數(shù)來降低學(xué)習(xí)率,學(xué)習(xí)率計(jì)算過程如式(13)和式(14)所示:
(13)
(14)
其中ηmax,ηmin的初始值為學(xué)習(xí)率的最大值(初始學(xué)習(xí)率)和最小值(默認(rèn)值為0),定義了學(xué)習(xí)率的范圍,Tmax是訓(xùn)練的輪次上限,Tcur是訓(xùn)練過程中的當(dāng)前訓(xùn)練輪數(shù).本文提出的學(xué)習(xí)率優(yōu)化策略不僅能夠降低模型對(duì)最大學(xué)習(xí)率的敏感性,還有助于提高模型收斂階段的穩(wěn)定性.
在深度卷積網(wǎng)絡(luò)訓(xùn)練過程中,為了防止模型過擬合采用權(quán)重衰減[18],通過權(quán)重衰減(L2正則化)緩解模型過擬合,權(quán)重變化如式(15)所示:
(15)
實(shí)驗(yàn)中用到的軟硬件配置以及訓(xùn)練參數(shù)設(shè)置如表3和表4所示.
表3 實(shí)驗(yàn)配置Table 3 Experimental configuration
表4 訓(xùn)練參數(shù)設(shè)置Table 4 Training parameter settings
評(píng)價(jià)指標(biāo)如下:
1)訓(xùn)練精度.訓(xùn)練集的分類準(zhǔn)確度,訓(xùn)練精度的計(jì)算如式(16)所示:
(16)
2)驗(yàn)證精度.驗(yàn)證集的分類準(zhǔn)確度,驗(yàn)證精度的計(jì)算如式(17)所示:
(17)
為驗(yàn)證不同模型結(jié)構(gòu)以及優(yōu)化策略的有效性,在“華為云”垃圾分類數(shù)據(jù)集上,將數(shù)據(jù)集的90%劃分為訓(xùn)練數(shù)據(jù),10%為測(cè)試數(shù)據(jù),進(jìn)行了相關(guān)實(shí)驗(yàn),實(shí)驗(yàn)過程及結(jié)果如下.
4.2.1 與相關(guān)模型的性能對(duì)比
將本文模型與InceptionV3、ResNet50以及Xception41模型進(jìn)行訓(xùn)練及測(cè)試,經(jīng)過7個(gè)epoch訓(xùn)練之后,各模型的訓(xùn)練準(zhǔn)確率及損失分別如圖6(a)、圖6(b)所示,為使損失值對(duì)比明顯,省略前期損失過高階段,僅繪制70個(gè)step之后的損失值.驗(yàn)證準(zhǔn)確率及損失如圖7(a)、圖7(b)所示,最終模型測(cè)試結(jié)果繪制如表5所示.
表5 不同模型的結(jié)果對(duì)比Table 5 Performance comparison of baseline models
圖6 不同模型訓(xùn)練結(jié)果Fig.6 Different models training results
圖7 不同模型驗(yàn)證結(jié)果Fig.7 Different models verification results
由結(jié)果可以看出本文模型損失值的下降速度和收斂速度最快,InceptionV3、Resnet50、Xception41模型的訓(xùn)練精度均低于本文模型,測(cè)試精度分別低于本文模型7.3%、5.2%、3.5%,并且測(cè)試精度在達(dá)到高峰后均有所下降,說明在訓(xùn)練時(shí)發(fā)生了過擬合,導(dǎo)致訓(xùn)練精度提高,測(cè)試精度反而下降,而本文模型表現(xiàn)良好.從第70個(gè)迭代周期起,各模型的準(zhǔn)確率曲線波動(dòng)幅度差異逐漸明顯,到第600個(gè)周期,其他模型曲線基本趨于穩(wěn)定,而本文模型仍呈上升趨勢(shì),穩(wěn)定之后與Xception模型曲線準(zhǔn)確率相差約2.3%.該高度差產(chǎn)生的原因有:多尺度特征提取模塊是一個(gè)全部由多尺度深度可分離卷積構(gòu)成的殘差模塊,替換了池化層后避免了對(duì)特征的隨意丟棄,其中線性殘差部分是1×1卷積和批歸一化層融合的模塊,多尺度深度可分離卷積將不同尺寸的特征圖融合起來,殘差模塊將淺層與深層特征融合,使得模型特征更加豐富;輸出層使用鋸齒狀擴(kuò)張卷積擴(kuò)大了卷積核的感受野,進(jìn)一步提高了特征提取能力,使得分類性能有比較大的提升.
4.2.2 多尺度特征提取模塊有效性驗(yàn)證
為了驗(yàn)證多尺度特征提取模塊的有效,實(shí)驗(yàn)對(duì)比了Xception、使用深度可分離卷積替換了最大池化后的模型Xception-Sep以及使用了多尺度特征提取模塊的模型Xception-D,結(jié)果如表6所示.使用可分離卷積替換最大池化,減少了特征丟失,模型的分類準(zhǔn)確率提高了0.3%,一定程度上提高了模型的特征提取能力,采用多尺度特征提取模塊的模型相較Xception模型,分類精度提高了1.1%,多尺度卷積的引入使得模型的復(fù)雜度變高,參數(shù)量增多,但殘差模塊中將卷積層和批歸一化層融合,有利于優(yōu)化計(jì)算復(fù)雜性.結(jié)果表明,多尺度特征提取模塊有利于特征信息的提取,提高分類準(zhǔn)確率.
表6 不同特征提取模塊對(duì)比Table 6 Comparison of different feature extraction modules
4.2.3 鋸齒狀擴(kuò)張卷積的有效性驗(yàn)證
對(duì)比擴(kuò)張率不變與鋸齒狀擴(kuò)張卷積兩種結(jié)構(gòu)下的ML-Xception網(wǎng)絡(luò)性能,實(shí)驗(yàn)結(jié)果如表7,采用相同擴(kuò)張率的擴(kuò)張卷積訓(xùn)練精度提高了0.3%,鋸齒狀擴(kuò)張卷積的訓(xùn)練精度提高了1.7%,說明其對(duì)于深層特征提取的有效性.
表7 擴(kuò)張率設(shè)置對(duì)比實(shí)驗(yàn)Table 7 Comparative experiment on expansion rate setting
4.2.4 模型裁剪優(yōu)化驗(yàn)證
對(duì)Xception架構(gòu)中間層的殘差模塊進(jìn)行裁剪,對(duì)比模型性能,確定最佳網(wǎng)絡(luò)深度,結(jié)果如表8所示.
表8 裁剪模型性能對(duì)比Table 8 Performance comparison of cutting models
由表中結(jié)果可知,當(dāng)裁剪的殘差模塊數(shù)量為2時(shí),模型的精度略有下降,但推理時(shí)間減少較多,綜合性能最優(yōu).因此選擇裁剪2個(gè)殘差模塊,使模型兼顧較少的參數(shù)量與高精度的要求.由于中間層的殘差模塊均相同,因此裁剪結(jié)果與裁剪位置無關(guān).
4.2.5 訓(xùn)練優(yōu)化策略的有效性驗(yàn)證
設(shè)置不同優(yōu)化策略組合,對(duì)比分析實(shí)驗(yàn)結(jié)果,驗(yàn)證數(shù)據(jù)增強(qiáng)、Dropout、預(yù)熱組合優(yōu)化的有效性.
由表9可知,增加預(yù)熱之后模型收斂時(shí)間減少了27ms,精度增加了1.6%,說明了預(yù)熱對(duì)于模型訓(xùn)練的有效性,增加數(shù)據(jù)增強(qiáng)和Dropout之后,測(cè)試精度與訓(xùn)練精度的差距減少至0.5%,說明模型的魯棒性得到提升,但是數(shù)據(jù)增強(qiáng)擴(kuò)充了樣本復(fù)雜度,在相同的訓(xùn)練批次下,訓(xùn)練精度會(huì)有所下降,最終組合3種優(yōu)化策略,訓(xùn)練精度和測(cè)試精度都得到較大幅度的提升.結(jié)果表明,該訓(xùn)練優(yōu)化策略對(duì)模型性能有顯著提升效果.
表9 優(yōu)化策略性能驗(yàn)證Table 9 Performance comparison of optimization strategy
本文針對(duì)現(xiàn)有垃圾圖像分類方法不能兼顧高精度和低延時(shí)的要求,存在垃圾類別易混淆等問題,設(shè)計(jì)了一種多尺度特征融合的輕量型分類模型ML-Xception,相較于傳統(tǒng)模型,該模型使用多尺度特征提取殘差模塊,進(jìn)行不同尺寸的特征融合,淺層特征與深層特征的融合,分類精確度提高了1.1%,引入鋸齒狀擴(kuò)張卷積,顯著提升模型精度,裁剪模型,進(jìn)一步優(yōu)化模型的復(fù)雜度和參數(shù)量.同時(shí),本文所使用訓(xùn)練策略,可以推廣至其他同類問題,結(jié)合預(yù)熱與余弦退火學(xué)習(xí)率控制策略,實(shí)現(xiàn)學(xué)習(xí)率的凸變化,配合Adam優(yōu)化方法以及數(shù)據(jù)歸一化,加快模型收斂速率,運(yùn)用Gridmask和隨機(jī)翻轉(zhuǎn)等數(shù)據(jù)增強(qiáng)結(jié)合遷移學(xué)習(xí),可緩解小樣本集訓(xùn)練過擬合問題,綜合以上策略,使模型的訓(xùn)練更加平滑,達(dá)到最優(yōu)狀態(tài).
在后續(xù)研究中,可以嘗試應(yīng)用無監(jiān)督等算法,自動(dòng)標(biāo)注海量缺失標(biāo)注樣本,或者使用GAN網(wǎng)絡(luò)等生成模型,擴(kuò)充數(shù)據(jù)集,進(jìn)一步提升模型的實(shí)用性.