陳鵬羽,張洪艷,賀 威
基于多尺度特征融合細(xì)粒度分類網(wǎng)絡(luò)的扎把煙葉分級(jí)方法
陳鵬羽,張洪艷*,賀 威
(武漢大學(xué)測繪遙感信息工程國家重點(diǎn)實(shí)驗(yàn)室,武漢 430070)
當(dāng)前我國煙葉分級(jí)主要采用的人工分級(jí)方法受主觀因素的影響,易出現(xiàn)分級(jí)精度低、不穩(wěn)定等問題。為了提高煙葉分級(jí)結(jié)果的準(zhǔn)確度與可信度,通過對(duì)實(shí)地采集的煙葉RGB圖像數(shù)據(jù)進(jìn)行分析,并針對(duì)扎把煙葉數(shù)據(jù)復(fù)雜、類間差異較小的問題,提出了基于弱監(jiān)督數(shù)據(jù)增強(qiáng)網(wǎng)絡(luò)的多尺度特征融合細(xì)粒度扎把煙葉分級(jí)方法。本方法在Resnet-50提取特征的基礎(chǔ)上,首先利用多尺度特征融合模塊融合不同層次特征,再通過卷積層學(xué)習(xí)得到代表重要局部區(qū)域的注意力圖,最后利用雙線性注意力池化操作進(jìn)一步從局部區(qū)域中提取細(xì)粒度特征并用于分類。另外,本方法引入了注意力分散約束損失,以防止不同注意力圖所關(guān)注區(qū)域之間的冗余。最終模型經(jīng)訓(xùn)練后在測試集上,分級(jí)準(zhǔn)確率與宏F1分?jǐn)?shù)分別為91.261%和91.780%,相比于以往細(xì)粒度分類模型分別提升了3.6%和2.8%。結(jié)果表明,相比與其他深度學(xué)習(xí)方法,該方法在扎把煙草數(shù)據(jù)集上取得了更好的性能。
扎把煙葉; 分等定級(jí); 多尺度特征融合; 細(xì)粒度分類;注意力分散約束損失
中國是世界上第一的煙草生產(chǎn)和消費(fèi)國,年煙產(chǎn)量占世界總產(chǎn)量的三分之一左右[1]。其中煙葉是煙草工業(yè)的重要原料,煙葉也成為了我國重要的經(jīng)濟(jì)作物之一。在煙葉收購過程中不同質(zhì)量的烤煙煙葉,會(huì)影響后續(xù)卷煙生產(chǎn)的品質(zhì)以及煙葉收購的價(jià)格。因此制定科學(xué)合理與統(tǒng)一的煙葉分級(jí)標(biāo)準(zhǔn)對(duì)于卷煙生產(chǎn)顯得非常必要。我國根據(jù)煙葉的成熟度、葉片結(jié)構(gòu)、身份、油分、色度、長度和殘傷這7項(xiàng)因素將煙葉分為42個(gè)等級(jí)[2]。然而這些因素并沒有被統(tǒng)一的定量標(biāo)準(zhǔn)所描述,所以目前工人們主要基于知識(shí)和經(jīng)驗(yàn)采用感官檢測和主觀評(píng)定的方式進(jìn)行分等定級(jí)。然而,這種傳統(tǒng)人工分級(jí)方法難以滿足煙草生產(chǎn)需求[3]。
近年來隨著數(shù)字圖像識(shí)別技術(shù)的不斷發(fā)展,多種圖像算法被應(yīng)用到煙葉分級(jí)任務(wù)當(dāng)中。例如張帆等[4]應(yīng)用圖像處理技術(shù)提取煙葉的形狀、顏色、紋理特征,再利用模糊數(shù)學(xué)的方法模擬人工分級(jí)過程,建立了煙葉分級(jí)模糊評(píng)判模型。焦艷華等[5]利用SVM算法劃分煙葉等級(jí),并結(jié)合二進(jìn)制粒子群算法自適應(yīng)地選擇最優(yōu)分類特征。Liu等[6]通過提取煙葉特征參數(shù),并輸入至GRNN神經(jīng)網(wǎng)絡(luò)進(jìn)行建模,實(shí)現(xiàn)了煙葉的自動(dòng)分等定級(jí)。雖然這些方法都取得了較好的精度,但分級(jí)結(jié)果往往受到特征提取方法等因素的影響,從而被局限在針對(duì)單片煙葉的初分級(jí)應(yīng)用。在煙葉收購流程中,初分級(jí)后工人會(huì)將同一等級(jí)的多片煙葉以把為單位進(jìn)行扎把,之后再由定級(jí)人員進(jìn)行檢驗(yàn)判斷每把煙葉是否分級(jí)正確。因此對(duì)于扎把煙葉,由于每把煙葉中煙葉數(shù)量不同以及煙葉之間會(huì)出現(xiàn)相互遮擋以及卷曲等多種情況,造成數(shù)據(jù)類內(nèi)差異大于類間差異,大大增加了不同等級(jí)煙葉的定級(jí)難度,使得傳統(tǒng)圖像處理算法難以提取有用的特征進(jìn)行定級(jí)。
隨著深度學(xué)習(xí)方法在人臉識(shí)別、目標(biāo)檢測、農(nóng)產(chǎn)品質(zhì)量監(jiān)測[7-8]等多個(gè)領(lǐng)域的廣泛應(yīng)用,人們開始利用卷積神經(jīng)網(wǎng)絡(luò)對(duì)復(fù)雜煙葉圖像進(jìn)行自適應(yīng)的特征提取和分等定級(jí)。例如王士鑫等[9]在inception V3模型的基礎(chǔ)上結(jié)合遷移學(xué)習(xí),提高了煙葉分級(jí)的準(zhǔn)確率。Li等[10]提出了一種基于MobileNetV2的改進(jìn)輕量化網(wǎng)絡(luò)結(jié)構(gòu),利用深度可分離卷積代替?zhèn)鹘y(tǒng)卷積層,最終得到的模型在精度和分類速度上都有所提高。但上述的深度學(xué)習(xí)方法僅使用深度網(wǎng)絡(luò)中高層抽象特征進(jìn)行分類,并未探究淺層網(wǎng)絡(luò)中以及煙葉數(shù)據(jù)本身的細(xì)粒度特征對(duì)于分級(jí)結(jié)果的影響。
細(xì)粒度圖像分類,是近年來深度學(xué)習(xí)領(lǐng)域一個(gè)非常熱門的研究課題。其目的是對(duì)于某一類別圖像進(jìn)行更加細(xì)致的子類劃分,而通常這些子類之間的差異較為細(xì)微[11]。因此相較于傳統(tǒng)的分類任務(wù),細(xì)粒度分類通過尋找更具有區(qū)分性的區(qū)域塊比如鳥類的尾巴、鳥喙等,以及提取更加豐富的細(xì)節(jié)信息來提高分類精度。Berg等[12]和Lei[13]等利用人工標(biāo)注關(guān)鍵區(qū)分區(qū)域塊來進(jìn)行監(jiān)督學(xué)習(xí),雖然取得了不錯(cuò)的精度,但由于人工標(biāo)注費(fèi)時(shí)費(fèi)力因此很難普及。另外一些工作[14-15]利用注意力方式讓網(wǎng)絡(luò)在弱監(jiān)督下自主學(xué)習(xí)關(guān)鍵區(qū)分區(qū)域,再通過放大區(qū)域塊使網(wǎng)絡(luò)觀察到更多細(xì)節(jié)。最近Lin等[16]提出了雙線性池化,通過矩陣外積的形式來融合并聯(lián)雙分支卷積網(wǎng)絡(luò)所輸出的不同特征,從而得到更顯著的細(xì)節(jié)信息提高分類精度。Hu 等[17]提出了弱監(jiān)督數(shù)據(jù)增強(qiáng)網(wǎng)絡(luò)(weakly supervised data augmentation network,WSDAN),該網(wǎng)絡(luò)在僅使用類別標(biāo)簽的情況下利用弱監(jiān)督學(xué)習(xí)方法提取關(guān)鍵性可區(qū)分局部區(qū)域,并結(jié)合雙線性注意力池化層來強(qiáng)化不同局部區(qū)域所對(duì)應(yīng)的細(xì)粒度特征,并應(yīng)用此特征進(jìn)行分類。同時(shí)該方法還在訓(xùn)練過程中隨機(jī)選擇不同局部區(qū)域?qū)υ紨?shù)據(jù)進(jìn)行增強(qiáng),避免了傳統(tǒng)數(shù)據(jù)增強(qiáng)方法效率低以及生成噪聲數(shù)據(jù)等問題。受此啟發(fā),本研究擬將圖像細(xì)粒度分類的思想引入到扎把煙葉分類的任務(wù)中。然而,以往的圖像細(xì)粒度分類方法,如WSDAN網(wǎng)絡(luò)無法保證多個(gè)關(guān)注區(qū)域的差異性,從而導(dǎo)致網(wǎng)絡(luò)提取出的分類特征冗余,使得模型對(duì)于扎把煙葉數(shù)據(jù)中分布分散的特征不能充分利用,直接影響最終網(wǎng)絡(luò)的應(yīng)用效果。
為了解決扎把煙葉不同等級(jí)間相似性高難以區(qū)分的問題,本研究在WSDAN網(wǎng)絡(luò)基礎(chǔ)上提出了改進(jìn)多尺度特征融合細(xì)粒度分類方法。方法在特征提取網(wǎng)絡(luò)最后一層特征的基礎(chǔ)上,引入多尺度特征融合模塊,為煙葉分類提供更加豐富的細(xì)節(jié)信息。同時(shí)提出了注意力分散約束損失,使網(wǎng)絡(luò)其能夠關(guān)注到煙葉數(shù)據(jù)內(nèi)部更多的可區(qū)分性區(qū)域特征。
為了解決扎把煙葉數(shù)據(jù)具有的特征分布分散、類別差異不明顯等難題,本研究以細(xì)粒度分類網(wǎng)絡(luò)WSDAN[17]為基礎(chǔ),提出了多尺度特征融合煙葉細(xì)粒度分類方法,方法總框圖如圖1所示。相比較于WSDAN網(wǎng)絡(luò),本方法引入了多尺度特征融合模塊以及注意力分散約束損失,同時(shí)為了提高模型訓(xùn)練效率,去掉了對(duì)煙葉分類結(jié)果影響較小的注意力隨機(jī)引導(dǎo)數(shù)據(jù)增強(qiáng)部分。接下來,本研究將詳細(xì)介紹提出方法的主要結(jié)構(gòu)包括局部區(qū)域空間表示、雙線性注意力池化層、中心損失,以及改進(jìn)過后方法所加入的特征融合模塊、注意力分散約束損失。
圖1 多尺度特征融合煙葉細(xì)粒度分類方法結(jié)構(gòu)圖
Figure 1 Structure diagram of multi-scale feature fusion fine-grained classification method
圖2 雙線性注意力池化層結(jié)構(gòu)圖
Figure 2 Structure diagram of bilinear attention pooling layer
在獲得注意力圖后,為了進(jìn)一步提取不同注意力圖所關(guān)注的局部區(qū)域特征,方法引入了WSDAN網(wǎng)絡(luò)中雙線性注意力池化層BAP(bilinear attention map),結(jié)構(gòu)見圖2,即將每一個(gè)注意力圖與所有融合后特征圖對(duì)應(yīng)元素相乘得到部分特征圖F,見公式(1)。
F=A×(=1, 2, …,) (1)
其中代表注意力圖維數(shù),F代表部分特征圖。
為了降低數(shù)據(jù)維度,網(wǎng)絡(luò)采用全局平均池化(·)將部分特征圖F轉(zhuǎn)化成注意力特征向量f∈1×N(2),并將所有f進(jìn)行拼接形成特征矩陣∈M×N(3),最后將特征矩陣送入全連接層得到分類結(jié)果。
f=(F) (2)
其中f代表注意力特征向量,(·)代表全局平均池化。
其中(,)代表注意力圖與特征圖進(jìn)行雙線性特征池化,代表特征矩陣。
在訓(xùn)練階段對(duì)于同一類別數(shù)據(jù),網(wǎng)絡(luò)希望相同通道注意力圖能夠關(guān)注相似的部位,這樣就能保證對(duì)于相同類別所學(xué)習(xí)到的關(guān)鍵可區(qū)分性區(qū)域位置相似,進(jìn)而降低了類內(nèi)的差異。為了達(dá)到這一目的,WSDAN網(wǎng)絡(luò)在中心損失[19]的基礎(chǔ)上,提出了注意力規(guī)則化損失函數(shù),來保證對(duì)于同一類別數(shù)據(jù)相同維度注意力圖具有固定的關(guān)注中心。該損失函數(shù)表示為L,見(4)。
其中c代表部分特征中心,維度為1×N。
c初始化為0并隨著網(wǎng)絡(luò)訓(xùn)練被逐漸更新,見公式5。
其中代表更新率。
在卷積神經(jīng)網(wǎng)絡(luò)從低層到高層的訓(xùn)練過程中,網(wǎng)絡(luò)首先通過低層卷積提取淺層信息,再經(jīng)過不斷地卷積、池化、激活等操作,網(wǎng)絡(luò)的感受野不斷擴(kuò)大,逐漸開始提取更多整體抽象信息,這些整體抽象信息往往具有更強(qiáng)的信息表達(dá)能力。通常對(duì)于基本分類任務(wù),往往只利用深度網(wǎng)絡(luò)最后一層的輸出特征。但對(duì)于細(xì)粒度分類任務(wù),往往由于待分類類別間差異較小,通常需要網(wǎng)絡(luò)能夠?qū)W習(xí)到更加細(xì)節(jié)且更具有判別性的特征。淺層網(wǎng)絡(luò)由于下采樣次數(shù)較少因此能夠提供更多的高分辨率局部細(xì)節(jié)信息(如垂直邊緣特征、水平邊緣特征等),利用這些細(xì)節(jié)特征能夠更好的幫助網(wǎng)絡(luò)捕捉類間的細(xì)微差異。因此,本研究在網(wǎng)絡(luò)Resnet-50的基礎(chǔ)上,通過提取出特征提取網(wǎng)絡(luò)中不同層次的特征,并利用多尺度特征融合模塊,來對(duì)不同尺度特征進(jìn)行融合與交互。
圖3 多尺度特征融合模塊結(jié)構(gòu)圖
Figure 3 Structure diagram of multi-scale feature fusion module
圖4 降采樣模塊結(jié)構(gòu)圖
Figure 4 Structure diagram of down-sampling module
多尺度特征融合模塊結(jié)構(gòu)如圖3所示,將特征提取網(wǎng)絡(luò)分為低、中、高3層,并提取出對(duì)應(yīng)的特征圖分別表示為低層特征F,中層特征F,高層特征F。對(duì)于低層和中層特征再經(jīng)過降采樣模塊來使得特征在尺度和維度上與高層特征相對(duì)應(yīng)。降采樣模塊如圖4所示,包括兩條分支,主分支先經(jīng)過最大池化層來降低特征尺度,再經(jīng)過1×1卷積層擴(kuò)大特征維度;為了防止特征下采樣時(shí)池化操作產(chǎn)生的信息丟失,受跳躍連接的啟發(fā)在主分支旁引入一個(gè)一層卷積的側(cè)分支,其中卷積層卷積核大小以及個(gè)數(shù)分別與主干分支中池化層卷積核大小,1×1卷積層卷積核個(gè)數(shù)相同,保證了輸出特征維度尺寸與主干分支相同,之后將不同分支得到特征相加再經(jīng)過批歸一化BN層(batch normalization)得到降采樣后特征。降采樣模塊保證了低層,中層特征圖在尺度和維度上大小上與網(wǎng)絡(luò)高層輸出特征圖相同,同時(shí)也減小了在降采樣過程中部分信息丟失。最后將高維特征圖與經(jīng)過降采樣模塊的中低維特征圖進(jìn)行對(duì)應(yīng)元素相加,來實(shí)現(xiàn)多尺度特征的融合。
由于本次任務(wù)針對(duì)扎把煙葉數(shù)據(jù)分級(jí),同一數(shù)據(jù)中包括了經(jīng)人工篩選得到的級(jí)別統(tǒng)一的多片煙葉。而原始的WSDAN網(wǎng)絡(luò)在訓(xùn)練過程中會(huì)出現(xiàn)不同注意力圖關(guān)注區(qū)域較為集中,導(dǎo)致細(xì)粒度特征提取出現(xiàn)冗余的情況,可能造成扎把煙葉數(shù)據(jù)中具有關(guān)鍵分類特征的葉片未被充分利用。因此為了讓網(wǎng)絡(luò)關(guān)注到同一數(shù)據(jù)內(nèi)更多不同的可區(qū)分性區(qū)域,受到Chang等[20]等人提出的Mutual-Channel 損失中分散模塊的啟發(fā),本研究在原始網(wǎng)絡(luò)損失中加入了注意力分散約束損失(attention diversity loss),記為L。該損失函數(shù)是一種用來衡量不同注意力圖之間的相似性的近似距離度量。在訓(xùn)練過程中,該損失約束著網(wǎng)絡(luò)中注意力圖的學(xué)習(xí),使得不同注意力圖所關(guān)注區(qū)域更加分散,具體約束流程如圖5所示。首先將改進(jìn)過后的網(wǎng)絡(luò)所提取得到的注意力圖通過Softmax函數(shù)進(jìn)行歸一化操作,再通過跨通道最大池化層(cross-channel max pooling, CCMP)將不同注意力層A的最大響應(yīng)映射至同一個(gè)尺寸為×的響應(yīng)矩陣中。在這里同樣可以使用跨通道平均池化層(CCAP),但由于平均池化可能會(huì)抑制住每一維度注意力圖所觀察到的信息的峰值,而最大池化能夠保持這些峰值,通常這些峰值對(duì)細(xì)粒度分類是有益的。之后對(duì)響應(yīng)矩陣進(jìn)行求和再平均就得到了注意力分散約束損失L(式6)。
其中,A代表第維注意力圖中的第個(gè)像素。
圖5 注意力分散約束流程圖
Figure 5 Flow chart of attention distraction constraint
圖6 注意力分散約束解釋圖
Figure 6 A graphical explanation of the attention diversity component
如圖6所示,假設(shè)目前共有3層注意力圖,且注意力圖中響應(yīng)部位的值為1,非響應(yīng)部位的值為0,如圖6中的左圖所示,若不同注意力圖所關(guān)注到的響應(yīng)部位不同,則得到的L值為3/;圖6中的右圖顯示,若不同注意力圖所關(guān)注到的響應(yīng)部位相似,則得到的L值越靠近1/。因此L越大,代表不同注意力圖所觀察到的判別性部位越分散,不同注意力圖之間的冗余越小。在網(wǎng)絡(luò)訓(xùn)練的時(shí)候?yàn)榱伺c其他損失項(xiàng)保持一致需要在其前面添加負(fù)號(hào)。最終,改進(jìn)過后網(wǎng)絡(luò)的損失函數(shù)如式8所示,包括了交叉熵?fù)p失,注意力規(guī)則化損失,以及注意力分散約束損失。交叉熵?fù)p失如公式7所示。
其中,代表調(diào)節(jié)因子。
將工人分級(jí)捆扎之后的煙葉,平鋪在載物臺(tái)上,利用GaiaField Lite-V10便攜式高光譜成像儀,在設(shè)置好曝光時(shí)間、移位臺(tái)運(yùn)行速度等參數(shù)后進(jìn)行數(shù)據(jù)獲取,采集得到高光譜圖像數(shù)據(jù)。為了避免光譜數(shù)據(jù)受到暗電流等噪聲影響,采用SpecView2.9.2數(shù)據(jù)處理軟件對(duì)光譜圖像進(jìn)行黑白校正。校正過后利用Python中Spectral庫對(duì)數(shù)據(jù)進(jìn)行批量的真彩色合成,分別選擇637.3、546.8和468.0 nm作為紅光、綠光、藍(lán)光所對(duì)應(yīng)波段,盡可能還原煙葉真實(shí)的目視效果,得到對(duì)應(yīng)的RGB圖像數(shù)據(jù)。為了去除圖像質(zhì)量等因素對(duì)于分級(jí)效果的影響,本實(shí)驗(yàn)對(duì)所有得到的真彩色數(shù)據(jù)進(jìn)行了數(shù)據(jù)的預(yù)處理操作包括平滑去噪,背景分割,小圖斑去除。處理后的數(shù)據(jù)(圖7)顯示,數(shù)據(jù)樣例中不同圖片中煙葉數(shù)量、煙葉分布等情況不同,導(dǎo)致出現(xiàn)不同等級(jí)煙葉數(shù)據(jù)的差異較小,而同等級(jí)煙葉數(shù)據(jù)差異較大的情況,符合細(xì)粒度分類任務(wù)的應(yīng)用場景。
通過對(duì)不同時(shí)期獲取到的扎把煙葉進(jìn)行數(shù)據(jù)采集,最終共有5個(gè)等級(jí)(B2F、B3F、C2F, C3F和X2F)的煙葉數(shù)據(jù)4 305張(表1),圖像尺寸為696×697(像素),按照80%、10%和10%的比例隨機(jī)劃分?jǐn)?shù)據(jù)集為訓(xùn)練集、驗(yàn)證集和測試集。其中為了提高模型的泛化能力,對(duì)訓(xùn)練集數(shù)據(jù)進(jìn)行隨機(jī)翻轉(zhuǎn),隨機(jī)亮度變換,隨機(jī)小角度旋轉(zhuǎn)等數(shù)據(jù)增強(qiáng),最終將訓(xùn)練集擴(kuò)充至22 602張。
本實(shí)驗(yàn)使用的軟硬件環(huán)境見表2所示,模型的訓(xùn)練與測試采用Pytorch深度學(xué)習(xí)框架,并采用Python中Opencv庫對(duì)數(shù)據(jù)進(jìn)行預(yù)處理。
表1 扎把煙葉數(shù)據(jù)集數(shù)據(jù)分布
圖7 扎把煙葉數(shù)據(jù)集示例圖
Figure 7 A sample graph of bundled tobacco dataset
表2 實(shí)驗(yàn)軟硬件環(huán)境
本實(shí)驗(yàn)參照文獻(xiàn)[17]進(jìn)行實(shí)驗(yàn)設(shè)置,使用到的特征提取網(wǎng)絡(luò)為Resnet-50,所有模型訓(xùn)練過程中初始學(xué)習(xí)率為0.000 1,學(xué)習(xí)率更新策略采用Pytorch中ReduceLROnPlateau方法,模型優(yōu)化算法采用Adam,損失函數(shù)的調(diào)節(jié)因子設(shè)置為1,注意力圖維度設(shè)置為32。最終定量實(shí)驗(yàn)結(jié)果為10次實(shí)驗(yàn)結(jié)果的平均值。
本實(shí)驗(yàn)使用Top-1準(zhǔn)確率(Top-1 accuracy),宏F1分?jǐn)?shù)(Macro-F1 score)作為定量評(píng)價(jià)分類結(jié)果的評(píng)價(jià)指標(biāo)。準(zhǔn)確率表示的是分類正確的樣本在總樣本中的比例。準(zhǔn)確率越大,表示分類正確的樣本數(shù)越多,表達(dá)式見公式9。
其中代表真陽性,代表假陽性,代表假陰性,代表真陰性。
F1分?jǐn)?shù)(F1 score),是統(tǒng)計(jì)學(xué)中用來衡量二分類模型精確度的一種指標(biāo)。同時(shí)兼顧了分類模型的精確率和召回率,可以看作是模型精確率和召回率的一種調(diào)和平均,表達(dá)式見公式10。
其中代表模型精度,代表模型召回率。宏F1分?jǐn)?shù)[21],是加和了各類的F1分?jǐn)?shù),并取平均的結(jié)果。宏F1分?jǐn)?shù)越大表示模型在多個(gè)類分類效果越好,表達(dá)式見公式11。
其中代表類別數(shù)。
本實(shí)驗(yàn)首先分析了注意力分散約束損失與多尺度特征融合模塊的有效性;其次,探究了提出方法與傳統(tǒng)深度學(xué)習(xí)以及細(xì)粒度分類方法在扎把煙葉數(shù)據(jù)集上的效果對(duì)比。
首先,為了驗(yàn)證注意力分散約束損失L的有效性,本實(shí)驗(yàn)設(shè)置了L損失的消融實(shí)驗(yàn),并在測試集上進(jìn)行精度對(duì)比。結(jié)果(表3)表明,本實(shí)驗(yàn)方法在引入L損失后準(zhǔn)確率達(dá)到91.261%,宏F1分?jǐn)?shù)達(dá)到91.780%,準(zhǔn)確率提高了0.821%,F(xiàn)1分?jǐn)?shù)提高了0.839%。
為了直觀體現(xiàn)L損失對(duì)模型注意力圖學(xué)習(xí)的影響,本實(shí)驗(yàn)采用Grad-CAM[22]方法對(duì)得到的注意力圖進(jìn)行可視化,熱力圖結(jié)果如圖8所示。其中紅色區(qū)域代表模型重點(diǎn)關(guān)注區(qū)域,藍(lán)色區(qū)域代表模型次要關(guān)注區(qū)域。從圖8中可以看出,不加入L損失的模型對(duì)不同等級(jí)煙葉數(shù)據(jù)重點(diǎn)關(guān)注區(qū)域相似并較為集中,出現(xiàn)了大量煙葉數(shù)據(jù)未被利用的情況。而對(duì)于加入了L損失的模型,其對(duì)不同等級(jí)數(shù)據(jù)關(guān)注區(qū)域分布均較為分散,充分利用了數(shù)據(jù)內(nèi)的多數(shù)葉片的特征。因此可以看出L損失能夠改善注意力圖重點(diǎn)關(guān)注區(qū)域集中產(chǎn)生的冗余現(xiàn)象,并且使得煙葉數(shù)據(jù)內(nèi)分散的特征被網(wǎng)絡(luò)充分利用。
表3 注意力分散約束損失測試集實(shí)驗(yàn)對(duì)比
圖8 模型注意力可視化對(duì)比圖
Figure 8 Visual comparison of model attention maps
表4 不同特征組合模型
接著,驗(yàn)證多尺度特征融合模塊的有效性,以及不同特征組合對(duì)模型精度的影響,本研究將特征提取網(wǎng)絡(luò)Resnet50根據(jù)網(wǎng)絡(luò)的深度劃分為高層特征(對(duì)應(yīng)于卷積conv5_1,conv5_2,conv5_3輸出的特征)、中層特征(對(duì)應(yīng)于卷積Conv4_5,Conv4_6輸出的特征)、低層特征(對(duì)應(yīng)于卷積Conv3_4輸出的特征)。在保證實(shí)驗(yàn)結(jié)構(gòu)統(tǒng)一的前提下,對(duì)網(wǎng)絡(luò)不同維度特征進(jìn)行組合,并進(jìn)行了消融實(shí)驗(yàn)。結(jié)果(表4)分別是模型1僅使用一層高層特征的網(wǎng)絡(luò)、模型2使用了3層高層特征進(jìn)行融合的網(wǎng)絡(luò)、模型3使用了高層和中層特征進(jìn)行融合的網(wǎng)絡(luò)、模型4使用了中層和低層特征進(jìn)行融合的網(wǎng)絡(luò)、模型5使用了低層、中層、高層特征進(jìn)行融合的網(wǎng)絡(luò)。
表5 不同組合特征模型實(shí)驗(yàn)對(duì)比
表6 與其他深度學(xué)習(xí)模型對(duì)比
從表5可以看出,首先相較于僅使用特征提取網(wǎng)絡(luò)最后一層的模型1,使用了特征融合模塊的模型2、3、4在測試集上的準(zhǔn)確率以及F1分?jǐn)?shù)都小于它。對(duì)于模型2、3來說高層特征的冗余造成了模型精度的下降,而模型3相較于模型2在測試集上準(zhǔn)確率提高了0.299個(gè)百分點(diǎn),F(xiàn)1分?jǐn)?shù)提高了0.386個(gè)百分點(diǎn),這說明了低層特征的引入對(duì)于煙葉細(xì)粒度分級(jí)精度提升是有所幫助的。而模型4相較于其他模型精度最低,這又說明高層抽象特征對(duì)于細(xì)粒度分類任務(wù)是不可或缺的。最后模型5分類精度達(dá)到91.261%,F(xiàn)1分?jǐn)?shù)達(dá)到91.780%,達(dá)到最優(yōu),說明了低、中、高層特征組合能夠使網(wǎng)絡(luò)在不損失原有抽象信息的基礎(chǔ)上,融合更多有價(jià)值的細(xì)節(jié)信息,提高模型的分類精度。
將所提出的方法與傳統(tǒng)深度學(xué)習(xí)方法Vgg[23]、Inception-V2[24]、Resnet[25]以及當(dāng)前細(xì)粒度分類任務(wù)中同樣使用到雙線性池化操作的HBP[26]、Bilinear pooling[16]和原始WSDAN[17]網(wǎng)絡(luò)進(jìn)行精度對(duì)比。結(jié)果(表6)表明,本實(shí)驗(yàn)提出的方法在扎把煙葉測試集上取得了91.261%的精度,超過了傳統(tǒng)深度學(xué)習(xí)網(wǎng)絡(luò)。這說明考慮煙葉數(shù)據(jù)中細(xì)粒度信息能夠有效的提高模型的分類精度。同時(shí),本實(shí)驗(yàn)將所提出的方法在準(zhǔn)確率和F1分?jǐn)?shù)上遠(yuǎn)高于HBP,Bilinear Pooling等細(xì)粒度分類方法。
本實(shí)驗(yàn)方法與原始WSDAN網(wǎng)絡(luò)相比,模型在測試集上的準(zhǔn)確率提升了3.611個(gè)百分點(diǎn),F(xiàn)1分?jǐn)?shù)提升了2.860個(gè)百分點(diǎn)。并且通過進(jìn)一步分析可知,在煙葉分級(jí)過程中,同一主組煙葉(BF,CF)中的誤分率是高于非同一主組煙葉的,原因在于同一主組內(nèi)部煙葉其生長部位以及顏色大體一致,因此更具有混淆性。通過對(duì)比原始WSDAN以及改進(jìn)后網(wǎng)絡(luò)的混淆矩陣(圖9),可以看出相較于原始WSDAN網(wǎng)絡(luò),改進(jìn)后網(wǎng)絡(luò)于同一主組內(nèi)部的錯(cuò)分?jǐn)?shù)量明顯減少。因此改進(jìn)過后模型在扎把煙葉分類任務(wù)上分類效果更好。
圖 9 混淆矩陣對(duì)比圖
Figure 9 Confusion matrix comparison diagram
本實(shí)驗(yàn)提出了一種針對(duì)扎把煙葉數(shù)據(jù)分級(jí)的基于弱監(jiān)督數(shù)據(jù)增強(qiáng)網(wǎng)絡(luò)的多尺度特征融合細(xì)粒度分類方法。通過實(shí)驗(yàn)證明,本方法中引入的注意力分散約束損失和多尺度特征融合模塊能夠降低網(wǎng)絡(luò)中不同注意力圖所關(guān)注區(qū)域的冗余程度以及能夠充分地利用深度網(wǎng)絡(luò)中不同尺度的特征信息。最終實(shí)驗(yàn)與其他傳統(tǒng)深度學(xué)習(xí)以及細(xì)粒度分類方法相比,本實(shí)驗(yàn)提出的方法分級(jí)精度達(dá)到了91.261%,F(xiàn)1分?jǐn)?shù)達(dá)到91.780%,在扎把煙葉數(shù)據(jù)集上分類效果更優(yōu)。未來隨著扎把煙葉樣本的不斷采集,本實(shí)驗(yàn)方法將有望被實(shí)際應(yīng)用到煙葉收購流程中,提高煙葉分級(jí)準(zhǔn)確率,降低人工分級(jí)成本。
[1] 蘇明秋. 基于煙葉圖像的參數(shù)精確提取和分級(jí)識(shí)別系統(tǒng)研究與實(shí)現(xiàn)[D]. 成都: 電子科技大學(xué), 2020.
[2] 王士鑫. 基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)的烤煙煙葉質(zhì)量分級(jí)研究[D]. 昆明: 云南師范大學(xué), 2020.
[3] 莊珍珍. 基于機(jī)器視覺的煙葉自動(dòng)分級(jí)方法研究[D]. 重慶: 西南大學(xué), 2016.
[4] 張帆, 張新紅, 張彤. 模糊數(shù)學(xué)在煙葉分級(jí)中的應(yīng)用[J]. 中國煙草學(xué)報(bào), 2002, 8(3): 44-48.
[5] 焦艷華, 張雪萍, 林楠. 支持向量機(jī)在烤煙煙葉自動(dòng)分級(jí)中的應(yīng)用[J]. 微計(jì)算機(jī)信息, 2009, 25(22): 195-196, 167.
[6] LIU J J, SHEN J Y, SHEN Z Y, et al. Grading tobacco leaves based on image processing and generalized regression neural network[C]//2012 IEEE International Conference on Intelligent Control, Automatic Detection and High-End Equipment. Beijing, China. IEEE : 89-93.
[7] 薛勇, 王立揚(yáng), 張瑜, 等. 基于GoogLeNet深度遷移學(xué)習(xí)的蘋果缺陷檢測方法[J]. 農(nóng)業(yè)機(jī)械學(xué)報(bào), 2020, 51(7): 30-35.
[8] 劉小剛, 范誠, 李加念, 等. 基于卷積神經(jīng)網(wǎng)絡(luò)的草莓識(shí)別方法[J]. 農(nóng)業(yè)機(jī)械學(xué)報(bào), 2020, 51(2): 237-244.
[9] 王士鑫, 云利軍, 葉志霞, 等. 一種基于卷積神經(jīng)網(wǎng)絡(luò)的煙葉分級(jí)處理算法[J]. 云南民族大學(xué)學(xué)報(bào)(自然科學(xué)版), 2020, 29(1): 65-69.
[10] LI J X, ZHAO H, ZHU S P, et al. An improved lightweight network architecture for identifying tobacco leaf maturity based on Deep learning[J]. J Intell Fuzzy Syst, 2021, 41(2): 4149-4158.
[11] 郭美宏. 基于深度學(xué)習(xí)的教材插圖分類算法研究[D]. 成都: 西南交通大學(xué), 2020.
[12] BERG T, BELHUMEUR P N. POOF: part-based one-vs.-one features for fine-grained categorization, face verification, and attribute estimation[C]//2013 IEEE Conference on Computer Vision and Pattern Recognition. Portland, OR, USA. IEEE: 955-962.
[13] LEI J J, DUAN J H, WU F, et al. Fast mode decision based on grayscale similarity and inter-view correlation for depth map coding in 3D-HEVC[J]. IEEE Trans Circuits Syst Video Technol, 2018, 28(3): 706-718.
[14] FU J L, ZHENG H L, MEI T. Look closer to see better: recurrent attention convolutional neural network for fine-grained image recognition[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, HI, USA. IEEE: 4476-4484.
[15] ZHENG H L, FU J L, MEI T, et al. Learning multi-attention convolutional neural network for fine-grained image recognition[C]//2017 IEEE International Conference on Computer Vision. Venice, Italy. IEEE: 5219-5227.
[16] LIN T Y, ROYCHOWDHURY A, MAJI S. Bilinear CNN models for fine-grained visual recognition[C]//2015 IEEE International Conference on Computer Vision. Santiago, Chile. IEEE: 1449-1457.
[17] HU T, QI H G, HUANG Q M, et al. See better before looking closer: weakly supervised data augmentation network for fine-grained visual classification[EB/OL]. 2019: arXiv: 1901.09891. https://arxiv.org/abs/1901. 09891
[18] REN S Q, HE K M, GIRSHICK R, et al. Faster R-CNN: towards real-time object detection with region proposal networks[J]. IEEE Trans Pattern Anal Mach Intell, 2017, 39(6): 1137-1149.
[19] WEN Y D, ZHANG K P, LI Z F, et al. A discriminative feature learning approach for deep face recognition[M]//Computer Vision - ECCV 2016. Cham: Springer International Publishing, 2016: 499-515.
[20] CHANG D, DING Y, XIE J, et al. The devil is in the channels: mutual-channel loss for fine-grained image classification[J]. IEEE Trans Image Process, 2020: 2020Feb20.
[21] 袁培森, 申成吉, 徐煥良. 基于遷移學(xué)習(xí)和雙線性CNN的細(xì)粒度菌菇表型識(shí)別[J]. 農(nóng)業(yè)機(jī)械學(xué)報(bào), 2021, 52(7): 151-158.
[22] SELVARAJU R R, COGSWELL M, DAS A, et al. Grad-CAM: visual explanations from deep networks via gradient-based localization[C]//2017 IEEE Int Conf Comput Vis ICCV, 2017: 618-626.
[23] SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition[EB/OL]. 2014: arXiv: 1409.1556. https://arxiv.org/abs/1409.1556
[24] SZEGEDY C, VANHOUCKE V, IOFFE S, et al. Rethinking the inception architecture for computer vision[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, NV, USA. IEEE: 2818-2826.
[25] HE K M, ZHANG X Y, REN S Q, et al. Deep residual learning for image recognition[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, NV, USA. IEEE: 770-778.
[26] YU C J, ZHAO X Y, ZHENG Q, et al. Hierarchical bilinear pooling for fine-grained visual recognition[M]//Computer Vision - ECCV 2018. Cham: Springer International Publishing, 2018: 595-610.
Multi-scale feature fusion method for bundled tobacco leaf classification based on fine-grained classification network
CHEN Pengyu, ZHANG Hongyan, HE Wei
(State Key Laboratory of Information Engineering in Surveying, Mapping and Remote Sensing, Wuhan University, Whuhan 430070)
The quality of grading directly affects the economic benefits of the downstream industry chain. At present, tobacco classification mainly adopts manual method in China, which is easy to be affected by subjective factors, resulting in problems such as low classification accuracy and unstable classification results. In order to improve the accuracy and reliability of tobacco grading results, under analyzing the characteristics of RGB tobacco dataset, we proposed a multi-scale feature fusion tobacco classification method based on Weakly Supervised Data Augmentation Network for Fine-Grained Visual Classification to solve the problems of complex data and small difference between different classes of bundled tobacco. Specifically, we first obtained features of input data through the Resnet-50, and fused the different features by multi-scale feature fusion module. Next, the attention maps representing different object’s regions were obtained through the Convolutional Layers. Finally, we used bilinear attention pooling layer to extract fine-grained features of different regions focused by different attention maps ,and input the fine-grained features to the fully connection layer to obtain the classification result. In addition, Attention Diversity Loss was introduced in this method to prevent the redundancy between the regions concerned by different attention maps. After training, the grading accuracy and macro F1 score of the final model in the test set were 91.261% and 91.780%, respectively, which were 3.6% and 2.8% higher than the previous fine-grained classification model. Experimental results compared with other deep learning methods showed that our method achieve better performance on bundled tobacco dataset, which demonstrates its effectiveness and ability to distinguish the relatively similar bundled tobacco leaves.
bundled tobacco leaves; grading and ranks; multi-scale feature fusion; fine-grained classification;attention diversity loss
TP393; S572
A
1672-352X (2022)06-1013-09
10.13610/j.cnki.1672-352x.20230106.022
2023-01-09 09:45:46
[URL] https://kns.cnki.net/kcms/detail//34.1162.S.20230106.1441.031.html
2022-02-22
國家自然科學(xué)基金(42071322)和湖北省杰出青年基金(2020CFA053)共同資助。
陳鵬羽,碩士研究生。E-mail:794030456@qq.com
張洪艷,博士,教授,博士生導(dǎo)師。E-mail:zhanghongyan@whu.edu.cn
安徽農(nóng)業(yè)大學(xué)學(xué)報(bào)2022年6期