摘" 要: 針對(duì)復(fù)雜背景下棉田昆蟲細(xì)粒度圖像分類問題,提出一種基于多分類自適應(yīng)聚焦損失函數(shù)與雙線性卷積神經(jīng)網(wǎng)絡(luò)(B?CNN)的研究方法。為更有效地提取圖像特征,選取B?CNN作為主干網(wǎng)絡(luò),預(yù)訓(xùn)練的InceptionV3作為特征提取網(wǎng)絡(luò),并加入了注意力機(jī)制CBAM模塊。針對(duì)圖像數(shù)據(jù)集類別不平衡的問題,設(shè)計(jì)了一種多分類自適應(yīng)聚焦損失函數(shù),提高模型對(duì)少數(shù)類別的識(shí)別能力。此外,在模型訓(xùn)練過程中加入[L2]正則化解決模型過擬合問題,使用ReduceLROnPlateau學(xué)習(xí)率調(diào)度器幫助模型達(dá)到最優(yōu)解。實(shí)驗(yàn)結(jié)果顯示,文中模型在驗(yàn)證集上的準(zhǔn)確率達(dá)到97.52%,在測(cè)試集上的準(zhǔn)確率達(dá)到97.14%,同時(shí)損失值、[F1]分?jǐn)?shù)等評(píng)價(jià)指標(biāo)也均優(yōu)于其他對(duì)比模型。該研究不僅為棉田昆蟲的圖像分類提供了一種有效的技術(shù)手段,也為其他領(lǐng)域的細(xì)粒度圖像分類問題提供了有益的參考。
關(guān)鍵詞: 棉田昆蟲; B?CNN; 多分類自適應(yīng)聚焦損失; InceptionV3; CBAM; 細(xì)粒度圖像分類
中圖分類號(hào): TN911.73?34; TP399" " " " " " " " " 文獻(xiàn)標(biāo)識(shí)碼: A" " " " " " " " " "文章編號(hào): 1004?373X(2025)05?0043?06
Research on cotton insects′ fine?grained image classification"based on multi?class adaptive Focal Loss and B?CNN
HAO Yuehua, Lü Weidong, ZHANG Youdi, FENG Junlei
(School of Mathematics and Physics, Lanzhou Jiaotong University, Lanzhou 730070, China)
Abstract: A research method based on multi?class adaptive Focal Loss function and bilinear convolutional neural network (B?CNN) is presented aiming at the fine?grained image classification of insects in cotton fields under complex background. B?CNN is selected as the backbone network, InceptionV3 is pre?trained as the feature extraction network, and CBAM (convolutional block attention module) module is added, so as to extract image features more effectively. A multi?class adaptive Focal Loss function is designed to improve the model′s recognition ability to the few categories. In addition, [L2] regularization is added to the process of model training to get rid of the overfitting, and the ReduceLROnPlateau learning rate scheduler is used to help the model reach the optimal solution. Experimental results show that the accuracy of the proposed model on the verification set reaches 97.52%, and its accuracy on the test set reaches 97.14%. Meanwhile, the evaluation indexes of both the loss value and the [F1] score of the proposed model are better than those of the other comparison models. This study not only provides an effective technique for image classification of insects in cotton fields, but also provides a useful reference for fine?grained image classification in other fields.
Keywords: cotton insect; B?CNN; multi?class adaptive Focal Loss; InceptionV3; CBAM; fine?grained image classification
0" 引" 言
隨著人工智能的快速發(fā)展,圖像分類作為計(jì)算機(jī)視覺領(lǐng)域的核心任務(wù)之一,已經(jīng)廣泛應(yīng)用在各個(gè)領(lǐng)域。特別是在農(nóng)業(yè)領(lǐng)域,害蟲的準(zhǔn)確分類和識(shí)別對(duì)于作物保護(hù)和產(chǎn)量維持至關(guān)重要。由于人工檢測(cè)方法效率低、成本高,基于深度學(xué)習(xí)的昆蟲分類方法可以高效、準(zhǔn)確地判別蟲害的類別和數(shù)量,有利于針對(duì)性地采取措施減少損失[1]。
由于細(xì)粒度圖像分類的對(duì)象類間差異小、類內(nèi)差異大,導(dǎo)致分類模型對(duì)于圖像特征的學(xué)習(xí)效果變差,因此細(xì)粒度圖像分類任務(wù)比粗粒度圖像分類更具挑戰(zhàn)性[2]。
細(xì)粒度圖像分類的研究可分為強(qiáng)監(jiān)督學(xué)習(xí)和弱監(jiān)督學(xué)習(xí)。強(qiáng)監(jiān)督細(xì)粒度從目標(biāo)檢測(cè)領(lǐng)域的一些優(yōu)秀算法出發(fā)[3],依靠更多的標(biāo)注信息和人工成本,模型復(fù)雜度較大,因此實(shí)用性較差,應(yīng)用局限性大。弱監(jiān)督學(xué)習(xí)減少了人工標(biāo)注成本,實(shí)用性更強(qiáng)。文獻(xiàn)[4]提出了基于弱監(jiān)督細(xì)粒度圖像分類模型的顯著性模塊,只提供圖像類注釋就可以使用顯著圖定位重要的區(qū)域部分。文獻(xiàn)[5]提出了一種基于注意引導(dǎo)圖像增強(qiáng)的弱監(jiān)督細(xì)粒度圖像分類網(wǎng)絡(luò),研究了圖像增強(qiáng)對(duì)分類網(wǎng)絡(luò)的影響。文獻(xiàn)[6]設(shè)計(jì)了一種端到端的網(wǎng)絡(luò)模型MAMSL,通過融合多重注意力機(jī)制和多網(wǎng)絡(luò)多尺度并行學(xué)習(xí)來解決細(xì)粒度圖像分類問題。文獻(xiàn)[7]構(gòu)建了基于SVM的B?CNN分類模型和基于GA?SVM的B?CNN新冠CT圖像分類算法。
與很多圖像分類、圖像識(shí)別任務(wù)相同,昆蟲圖像分類與識(shí)別經(jīng)歷了從提取特征用機(jī)器學(xué)習(xí)分類器進(jìn)行分類到如今端到端的分類過程。文獻(xiàn)[8]利用logistic模型樹(LMT)、隨機(jī)森林、支持向量機(jī)(SVM)等機(jī)器學(xué)習(xí)技術(shù)對(duì)昆蟲圖像分種和分性別。文獻(xiàn)[9]提出了一種利用無線成像設(shè)備獲取的粘紙陷阱圖像對(duì)小型溫室害蟲進(jìn)行多類自動(dòng)識(shí)別的方法,開發(fā)的算法具有級(jí)聯(lián)方法,分別使用卷積神經(jīng)網(wǎng)絡(luò)(CNN)對(duì)象檢測(cè)器和CNN圖像分類器。文獻(xiàn)[10]通過結(jié)合transformer結(jié)構(gòu)和卷積塊構(gòu)建一個(gè)簡(jiǎn)化但非常有用的有效害蟲識(shí)別網(wǎng)絡(luò)。
盡管已有研究在昆蟲圖像分類上取得了一定的進(jìn)展,但針對(duì)棉田昆蟲細(xì)粒度圖像特性的分類,仍缺乏深入的研究和成熟的解決方案。針對(duì)這一問題,本文提出了一種基于多分類自適應(yīng)聚焦損失函數(shù)與雙線性卷積神經(jīng)網(wǎng)絡(luò)的棉田昆蟲細(xì)粒度圖像分類方法。該方法不僅能夠自適應(yīng)地調(diào)整對(duì)不同類別樣本的關(guān)注權(quán)重,優(yōu)化模型訓(xùn)練過程,還能夠通過雙線性特征融合和注意力機(jī)制策略,增強(qiáng)模型對(duì)棉田昆蟲圖像的分類能力。
1" 模型設(shè)計(jì)與方法
1.1" 主干網(wǎng)絡(luò)
雙線性卷積神經(jīng)網(wǎng)絡(luò)[11](Bilinear CNN, B?CNN)的特征提取部分是由兩個(gè)獨(dú)立的卷積神經(jīng)網(wǎng)絡(luò)構(gòu)成,核心是通過雙線性操作將兩個(gè)特征提取網(wǎng)絡(luò)結(jié)合起來,再通過池化操作讓得到的高維雙線性特征實(shí)現(xiàn)降維。相比于傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò),雙線性卷積神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)了特征之間的交互,因此更能捕捉到圖像中的紋理和細(xì)節(jié)差異。
1.2" 特征提取網(wǎng)絡(luò)
InceptionV3是一種深度學(xué)習(xí)中用于視覺識(shí)別的工具,InceptionV3包含了48層卷積層,具有更深的網(wǎng)絡(luò)結(jié)構(gòu);通過采用分解卷積技術(shù),將較大的卷積操作分解為更小的卷積和非對(duì)稱卷積;在每個(gè)卷積層之后實(shí)施批量歸一化(BN)處理;同時(shí),引入了輔助性的分類器以提高性能;使用RMSProp優(yōu)化器進(jìn)行訓(xùn)練。InceptionV3在計(jì)算機(jī)視覺領(lǐng)域,特別是在圖像分類、識(shí)別、目標(biāo)檢測(cè)等任務(wù)中應(yīng)用廣泛。
遷移學(xué)習(xí)將已在大型數(shù)據(jù)集(例如ImageNet)上訓(xùn)練完畢的模型參數(shù)進(jìn)行遷移,固定模型的若干層,并對(duì)剩余層進(jìn)行細(xì)調(diào),這樣做旨在縮短訓(xùn)練所需的時(shí)間、減少計(jì)算資源和復(fù)雜度,提高模型的收斂速度和性能的效果。本文采用遷移學(xué)習(xí),在B?CNN的特征提取網(wǎng)絡(luò)模塊采用預(yù)訓(xùn)練的InceptionV3模型作為特征提取網(wǎng)絡(luò),移除最后一層全連接層,替換為自適應(yīng)平均池化層,以確保輸出特征圖的尺寸一致。
1.3" 注意力機(jī)制
CBAM注意力機(jī)制依次包含兩部分的內(nèi)容,即通道注意力模塊和空間注意力模塊。在CBAM架構(gòu)中,輸入特征首先被送入通道注意力模塊,在此模塊中,特征圖會(huì)根據(jù)通道注意力進(jìn)行加權(quán)處理,以產(chǎn)生通道注意力圖。隨后,這些特征將進(jìn)入空間注意力模塊,以生成空間注意力圖,CBAM將進(jìn)行過兩層加權(quán)后的特征圖輸出到下一層。這樣的注意力機(jī)制使模型能夠更加全面地捕獲到圖像的多方面特征,提高模型的學(xué)習(xí)能力和性能。
1.4" 多分類自適應(yīng)聚焦損失函數(shù)
聚焦損失[12](Focal Loss)是常用于目標(biāo)檢測(cè)和圖像分割任務(wù)中的一種損失函數(shù),可以解決類別不平衡問題。Focal Loss通過添加一個(gè)調(diào)整因子[γ]來減少易分類背景樣本的權(quán)重,使模型學(xué)習(xí)更多不易區(qū)分的少數(shù)正樣本。傳統(tǒng)的Focal Loss的數(shù)學(xué)公式如下所示:
[FLpt=-αt1-ptγlogpt] (1)
式中:[pt]是模型對(duì)于類別[t]的預(yù)測(cè)概率;[αt]是預(yù)定義的類別[t]的權(quán)重,用于平衡不同類別的重要性;[γ]是調(diào)整因子,為了降低易區(qū)分樣本對(duì)損失的影響,讓模型集中于難以區(qū)分的樣本。當(dāng)[γ]為0時(shí),F(xiàn)ocal Loss即等于普通的交叉熵?fù)p失。
由于本文的數(shù)據(jù)分布不均衡,不宜使用傳統(tǒng)的交叉熵?fù)p失函數(shù),故將Focal Loss引入模型中并加以改進(jìn),采用獨(dú)立類別自適應(yīng)參數(shù)調(diào)整。設(shè)計(jì)了一種根據(jù)每個(gè)類別的準(zhǔn)確率和驗(yàn)證集的總準(zhǔn)確率來自適應(yīng)地調(diào)整Focal Loss中的[α]和[γ]值的多分類自適應(yīng)聚焦損失函數(shù)(Multi?class Adaptive Focal Loss)。對(duì)于有[C]個(gè)類別的多分類問題,模型對(duì)于每個(gè)樣本的原始輸出通過Softmax函數(shù)轉(zhuǎn)換為概率分布[p],真實(shí)的標(biāo)簽是[y]。傳統(tǒng)的Softmax交叉熵?fù)p失函數(shù)的表達(dá)式為:
[CE(y,p)=-c=1Cyclog pc] (2)
式中[pc]是模型預(yù)測(cè)樣本屬于類別[c]的概率,計(jì)算公式為:
[pc=ezci=1Cezi] (3)
為了實(shí)現(xiàn)自適應(yīng)聚焦,引入一個(gè)聚焦權(quán)重[α],這個(gè)權(quán)重可以根據(jù)模型對(duì)每個(gè)樣本的預(yù)測(cè)置信度進(jìn)行調(diào)整。聚焦權(quán)重可以使用模型預(yù)測(cè)的最大概率[pmax]來計(jì)算。
[λ=1-pmaxγ] (4)
式中[γ]是一個(gè)調(diào)整參數(shù),用于控制聚焦的程度。
因此,單個(gè)樣本的多分類自適應(yīng)聚焦損失函數(shù)的數(shù)學(xué)表達(dá)式可以寫為:
[MCAFL(y,p)=-αc=1Cycλlogpc] (5)
將其應(yīng)用于整個(gè)數(shù)據(jù)集需要對(duì)數(shù)據(jù)集中的每個(gè)樣本計(jì)算損失,數(shù)據(jù)集總樣本量為[B],每個(gè)樣本有[C]個(gè)類別,那么整個(gè)數(shù)據(jù)集的多分類自適應(yīng)聚焦損失函數(shù)的數(shù)學(xué)表達(dá)式可以寫為:
[TotalLoss =1Bb=1Bc=1Cαcy(b)cλ(b)logp(b)c] (6)
式中:[B]是數(shù)據(jù)集中的樣本數(shù)量;[y(b)c]是第[b]個(gè)樣本的第[c]個(gè)類別的真實(shí)標(biāo)簽(one_hot編碼);[p(b)c]是模型預(yù)測(cè)第[b]個(gè)樣本屬于類別[c]的概率;[λ(b)]是第[b]個(gè)樣本的聚焦權(quán)重;[αc]是第[c]個(gè)類別的聚焦權(quán)重,可以根據(jù)模型預(yù)測(cè)的情況動(dòng)態(tài)調(diào)整。
1.5" 模型框架
模型框架如圖1所示,雙線性卷積神經(jīng)網(wǎng)絡(luò)的兩個(gè)InceptionV3分支分別提取圖像不同位置的特征,再經(jīng)過CBAM模塊提取通道和空間特征,模型的雙線性匯合通過特征外積的方式將兩個(gè)分支提取到的特征進(jìn)行交互,后通過池化操作進(jìn)行降維,分類層輸出分類結(jié)果。
2" 數(shù)據(jù)處理與實(shí)驗(yàn)設(shè)置
2.1" 數(shù)據(jù)處理
實(shí)驗(yàn)使用到的數(shù)據(jù)集為文獻(xiàn)[13]的自然復(fù)雜場(chǎng)景下新疆棉田昆蟲數(shù)據(jù)集,此數(shù)據(jù)集包含13類昆蟲,分別為苜蓿盲蝽、牧草盲蝽、綠盲蝽、黑食蚜盲蝽、茶翅蝽、中黑盲蝽、棉鈴蟲、草蛉、多異瓢蟲、菱斑巧瓢蟲、橫斑瓢蟲、食蚜蠅和蜂。該數(shù)據(jù)集已分為訓(xùn)練集、驗(yàn)證集和測(cè)試集三部分,共計(jì)圖片3 225張。棉田昆蟲細(xì)粒度圖像如圖2所示。
為增加模型的魯棒性,對(duì)數(shù)據(jù)進(jìn)行了增強(qiáng)和標(biāo)準(zhǔn)化操作。整體數(shù)據(jù)預(yù)處理分為以下兩部分:
1) 一部分只進(jìn)行調(diào)整圖像大小、轉(zhuǎn)換為張量,以及標(biāo)準(zhǔn)化處理操作;
2) 另一部分是對(duì)數(shù)據(jù)進(jìn)行如下操作:隨機(jī)旋轉(zhuǎn)圖像,角度在-20°~20°之間;將圖像大小調(diào)整(縮放和裁剪)為隨機(jī)的尺寸和長(zhǎng)寬比,然后將這個(gè)調(diào)整后的圖像裁剪為299×299;以50%的概率水平翻轉(zhuǎn)圖像;隨機(jī)改變圖像的亮度、對(duì)比度、飽和度和色調(diào)。
隨后將兩部分預(yù)處理后的數(shù)據(jù)進(jìn)行合并,既進(jìn)行了數(shù)據(jù)增強(qiáng),又保留了圖片數(shù)據(jù)的原始信息。
2.2" 實(shí)驗(yàn)環(huán)境
本文的實(shí)驗(yàn)環(huán)境配置如表1所示。
2.3" 實(shí)驗(yàn)設(shè)置
CBAM模塊中ratio參數(shù)設(shè)為8,即第一個(gè)全連接層會(huì)將輸入特征圖的通道數(shù)的維度縮減到原來的[18],第二個(gè)全連接層再將維度恢復(fù),可以減少計(jì)算成本和參數(shù)量。
多分類自適應(yīng)聚焦損失函數(shù)中,初始值[α]為0.25,gamma_init為2,gamma_max為5,gamma_increment為0.1。本文根據(jù)當(dāng)前的訓(xùn)練進(jìn)度、驗(yàn)證集準(zhǔn)確率和各類別準(zhǔn)確率動(dòng)態(tài)調(diào)整[α]和[γ]值。訓(xùn)練早期使用初始設(shè)定的[α]和[γ]值,每個(gè)epoch檢查模型在驗(yàn)證集上的準(zhǔn)確率以及所有類別的最低準(zhǔn)確率。如果驗(yàn)證集上的準(zhǔn)確率低于70%,或者任一類別的準(zhǔn)確率低于80%,則認(rèn)為模型需要更多地關(guān)注難分樣本和難分種類。據(jù)此,改變[γ]的值(通過gamma_increment改變),但不超過最大值gamma_max。訓(xùn)練后期驗(yàn)證集總準(zhǔn)確率和各類別準(zhǔn)確率達(dá)到設(shè)定閾值之后,基本采用固定值,以便模型能夠更好的泛化。
模型訓(xùn)練中,批次大小設(shè)為32,共進(jìn)行30個(gè)epoch,類別數(shù)為13。采用Adam優(yōu)化器,加入[L2]正則化防止過擬合,初始化學(xué)習(xí)率為0.000 1,權(quán)重衰減(weight_decay)為1×10-5。添加學(xué)習(xí)率調(diào)度器ReduceLROnPlateau,監(jiān)控模型指標(biāo)(本文設(shè)為驗(yàn)證集準(zhǔn)確率),使其在一定訓(xùn)練輪數(shù)內(nèi)未得到改善時(shí),通過減少學(xué)習(xí)率達(dá)到模型的最優(yōu)解。ReduceLROnPlateau學(xué)習(xí)率調(diào)度器的factor控制減少的幅度,將初始學(xué)習(xí)率設(shè)為0.000 1,patience設(shè)為5,factor設(shè)為0.1。
2.4" 模型評(píng)估
本文的模型評(píng)價(jià)指標(biāo)為:驗(yàn)證集準(zhǔn)確率、測(cè)試集準(zhǔn)確率、損失值、精確率(Precision)、召回率(Recall)、[F1]分?jǐn)?shù)([F1]?Score)以及多類別混淆矩陣。
準(zhǔn)確率(Accuracy):分類正確的樣本占總樣本的比例。
[Accuracy=TP+TNTP+TN+FP+FN] (7)
精確率:真正例占模型預(yù)測(cè)為正例的總數(shù)的比例,重視避免誤報(bào)。
[Precision=TPTP+FP] (8)
召回率:真正例占所有實(shí)際正例的比例,重視避免漏報(bào)。
[Recall=TPTP+FN] (9)
式中:TP(真正例)指的是正確識(shí)別的正樣本數(shù);TN(真負(fù)例)是指正確識(shí)別的負(fù)樣本數(shù);FP(假正例)是指錯(cuò)誤地將負(fù)樣本識(shí)別為正樣本的情況;FN(假負(fù)例)則是指錯(cuò)誤地將正樣本識(shí)別為負(fù)樣本的情況。
[F1]分?jǐn)?shù):精確率和召回率的調(diào)和平均值,平衡二者的指標(biāo)。在類別不平衡的情況下,單純依賴精確率或召回率可能會(huì)給出誤導(dǎo)性的性能評(píng)估。
[F1=2×Precision×RecallPrecision+Recall] (10)
多類別混淆矩陣:顏色編碼的熱圖可以看到模型對(duì)于每個(gè)類別分類的情況。在多分類問題中,混淆矩陣的對(duì)角線元素表示每個(gè)類別被正確分類的數(shù)量,相對(duì)應(yīng)的非對(duì)角線元素表示該類別分類錯(cuò)誤的數(shù)量。
3" 實(shí)驗(yàn)結(jié)果
模型實(shí)驗(yàn)結(jié)果對(duì)比如表2所示,本文模型在驗(yàn)證集上的準(zhǔn)確率為97.52%,在測(cè)試集上的準(zhǔn)確率為97.14%,損失值為0.001 7,精確率為0.98,召回率為0.97,[F1]分?jǐn)?shù)為0.97。選取與本文模型相關(guān)的6個(gè)模型進(jìn)行對(duì)比,可知本文模型在各個(gè)模型評(píng)價(jià)指標(biāo)上均優(yōu)于其他模型,且在驗(yàn)證集上的準(zhǔn)確率高于其他模型1.85%~6.5%,測(cè)試集上的準(zhǔn)確率高于其他模型1.27%~4.12%。說明在棉田昆蟲細(xì)粒度圖像分類任務(wù)上,本文所提出的模型效果優(yōu)于其他模型。
隨著epoch的增加,模型的訓(xùn)練損失變化圖、訓(xùn)練集上的準(zhǔn)確率、驗(yàn)證集上的準(zhǔn)確率,以及測(cè)試集上的準(zhǔn)確率如圖3所示。
實(shí)驗(yàn)的棉田昆蟲圖像數(shù)據(jù)集中測(cè)試集共315張,圖4的多類別混淆矩陣是在模型訓(xùn)練結(jié)束后使用測(cè)試數(shù)據(jù)集繪制的。非對(duì)角線上非0的情況即為分類錯(cuò)誤,可以看到僅有4處,且有3處為1,1處為4,模型在對(duì)測(cè)試集315張昆蟲圖片進(jìn)行分類僅有7張圖片分類錯(cuò)誤。特別地,類別7在數(shù)據(jù)量極少且拍攝環(huán)境復(fù)雜的情況下突破其他對(duì)比模型的低準(zhǔn)確率,可以達(dá)到100%,說明本文模型泛化能力較強(qiáng),對(duì)少數(shù)難分樣本的關(guān)注度高。
4" 結(jié)" 論
本文對(duì)于棉田昆蟲細(xì)粒度圖像進(jìn)行分類研究,選取雙線性卷積神經(jīng)網(wǎng)絡(luò)(B?CNN)為主干網(wǎng)絡(luò),遷移學(xué)習(xí)的InceptionV3預(yù)訓(xùn)練模型作為特征提取網(wǎng)絡(luò),并加入CBAM模塊進(jìn)行通道和空間注意力增強(qiáng),強(qiáng)化模型提取圖像特征的能力。另外,針對(duì)多分類任務(wù)中數(shù)據(jù)類別不均衡的情況,設(shè)計(jì)了一種多分類自適應(yīng)聚焦損失函數(shù),采用獨(dú)立類別自適應(yīng)參數(shù)調(diào)整,根據(jù)每個(gè)類別的準(zhǔn)確率和驗(yàn)證集的總準(zhǔn)確率自適應(yīng)地調(diào)整每個(gè)類別樣本的權(quán)重。
經(jīng)實(shí)驗(yàn)及對(duì)比,本文模型在棉田昆蟲細(xì)粒度圖像數(shù)據(jù)集的驗(yàn)證集、測(cè)試集上的準(zhǔn)確率和[F1]分?jǐn)?shù)等評(píng)價(jià)指標(biāo)上均優(yōu)于其他相關(guān)傳統(tǒng)模型。說明本文提出的模型魯棒性、泛化能力較好,對(duì)于棉田昆蟲細(xì)粒度圖像分類的針對(duì)性較強(qiáng),為在農(nóng)業(yè)上進(jìn)一步研究棉田昆蟲類別,控制害蟲利用益蟲提供了一定的技術(shù)支撐。
未來的研究工作重點(diǎn)在于采集更多具有地域性的棉田昆蟲圖像數(shù)據(jù),深入探究針對(duì)于棉田昆蟲的深度學(xué)習(xí)算法模型,研究更加輕量化、可移動(dòng)到端的棉田昆蟲識(shí)別方法?;谏疃葘W(xué)習(xí)算法的棉田昆蟲細(xì)粒度圖像分類和識(shí)別的研究對(duì)于農(nóng)業(yè)生產(chǎn)和發(fā)展的作用將越來越顯著,這些研究也為農(nóng)田育種、農(nóng)田生態(tài)改善和農(nóng)業(yè)智能管理一體化提供了重要的技術(shù)支撐。
注:本文通訊作者為呂衛(wèi)東。
參考文獻(xiàn)
[1] 王露.基于深度學(xué)習(xí)的糧蟲目標(biāo)檢測(cè)算法研究[D].鄭州:河南工業(yè)大學(xué),2021.
[2] ZHANG Q W. Researches advanced in fine?grained image classification based on deep learning [J]. Journal of physics: Conference series, 2023, 2580(1): 012004.
[3] 張大瑋.基于深度學(xué)習(xí)的細(xì)粒度圖像識(shí)別問題研究[D].沈陽:沈陽工業(yè)大學(xué),2022.
[4] CHEN F, HUANG G, LAN J, et al. Weakly supervised fine?grained image classification via salient region localization and different layer feature fusion [J]. Applied sciences, 2020, 10(13): 4652.
[5] LU J M, WU W. Fine?grained image classification based on attention?guided image enhancement [J]. Journal of physics: Conference series, 2021, 1754(1): 012189.
[6] 李泓毅.多重注意力機(jī)制融合的細(xì)粒度圖像分類算法研究[D].蘭州:西北師范大學(xué),2021.
[7] 蔡茂.基于改進(jìn)的B?CNN模型的醫(yī)學(xué)CT圖像分類研究[D].長(zhǎng)春:長(zhǎng)春工業(yè)大學(xué),2023.
[8] TUDA M, LUNA?MALDONADO A I. Image?based insect species and gender classification by trained supervised machine learning algorithms [J]. Ecological informatics, 2020, 60: 101135.
[9] ARCEGA R D J, CHAO J J, CHIU L Y, et al. Automatic greenhouse insect pest detection and recognition based on a cascaded deep learning classification method [J]. Journal of applied entomology, 2021, 145(3): 206?222.
[10] PENG Y S, WANG Y. CNN and transformer framework for insect pest classification [J]. Ecological informatics: An international journal on ecoinformatics and computational ecology, 2022, 72: 101846.
[11] LI E Z, SAMAT A, DU P J, et al. Improved bilinear CNN model for remote sensing scene classification [J]. IEEE geoscience and remote sensing letters, 2020, 19: 1?5.
[12] MUKHOTI J, KULHARIA V, SANYAL A, et al. Calibrating deep neural networks using focal loss [C]// Advances in Neural Information Processing Systems 33: Annual Conference on Neural Information Processing Systems 2020. [S.l.: s.n.], 2020: 15288?15299.
[13] 楊滿仙,陳燕紅,李雨晴,等.新疆棉田主要昆蟲圖像數(shù)據(jù)集CottonInsect [EB/OL].[2024?04?07].https://www.cnki.com.cn/Article/CJFDTotal?KXGZ20240407001.htm.
基金項(xiàng)目:國(guó)家自然科學(xué)基金項(xiàng)目:多自由度非光滑脈沖耦合振子的鎖頻共振與參數(shù)振動(dòng):分析與計(jì)算(11962011)
作者簡(jiǎn)介:郝月華(1998—),女,山西晉中人,碩士研究生,研究方向?yàn)闄C(jī)器學(xué)習(xí)與圖像處理。
呂衛(wèi)東(1967—),男,陜西岐山人,碩士研究生,副教授,研究方向?yàn)榭煽啃岳碚撆c生存分析。
張幽迪(1999—),女,貴州畢節(jié)人,碩士研究生,研究方向?yàn)闄C(jī)器學(xué)習(xí)與圖像處理。
馮俊磊(1998—),男,河南駐馬店人,碩士研究生,研究方向?yàn)闄C(jī)器學(xué)習(xí)和時(shí)間序列預(yù)測(cè)。