中圖分類號:S126 文獻標識碼:A 文章編號:2095-5553(2025)07-0104-07
Abstract:Toaddress the challenge posedbyvariations inreddate defectsacrossdiffrentvarietiesandlighting conditionsinautomatedsorting tasks,thisstudyproposedanovelmeta-learning-basedalgorithm fordomainadaptivedefect detection.First,across-domaindataset wasconstructedbycolecting images ofreddate defects frommultiplevarietiesand environmental conditions.To mitigatesampleimbalance,aditional defectsampleswere generatedusing the StyleGAN3 network,and data augmentation techniques were applied toenhance the diversity of testdataset.Next,abi-level optimizationmeta-learning framework was introduced fordomain-adaptivereddate defect detection.Aconvolutional neuralnetwork wasemployedasthebaselearner,whileadual-layeroptimizationstrategy wasusedtoconstruct themeta-learner.AnL2regularizationtermwasincorporatedintothelossfunctiontoreduce overfiting.Averageacuracywasused as theevaluationmetric.Ablation experiments wereconductedonboth the base learnerandthe meta-learner,and the proposed methodwas comparedagainst various deep learning and metalearningalgorithms to validate itsperformance.Experimental results demonstrated that theproposedmethod achieves average accuracies of 78.6% on the original target domain dataset and 86.5% on the augmented datasets, outperforming the MAML algorithm by 6.4% and 7.6% ,respectively. These findings confirm the method's effectiveness in adapting to cross-domain red date defect detection under diverse conditions.
Keywords: jujubes defect detection;domain adaptation;meta learning;bi-level optimization;L2 regularization
0 引言
紅棗作為中華民族的代表性果品之一,口感甘甜,含有豐富的營養(yǎng)物質,被廣泛應用于中醫(yī)藥和食品制作中。近年來,隨著人們對健康食品關注度的持續(xù)攀升,紅棗市場消費量不斷增大,其在食品加工、保健品生產等領域的需求日益旺盛。在紅棗加工過程中,傳統(tǒng)人工分揀方式因效率低下、勞動力成本高且難以保證分揀標準一致性,已無法滿足市場對紅棗供應量和質量的要求。隨著智慧農業(yè)的快速發(fā)展,果實分揀已逐漸進入智能化應用階段。果實缺陷檢測作為自動化分揀任務中的重要環(huán)節(jié),旨在通過圖像處理技術確定果實的缺陷類別,提高分揀的準確性[1]
目前紅棗缺陷檢測方法主要包括基于機器視覺的檢測方法和基于深度學習的檢測方法。機器視覺檢測方法通過提取紅棗圖像特定特征結合傳統(tǒng)分類方法對缺陷紅棗進行識別2,采用人工設計特征提取器的方法往往依賴專家經驗,機器視覺方法對復雜多樣的環(huán)境抗干擾性差,例如紅棗的顏色、紋理和形狀可能會受到光照強度和角度的影響,從而導致識別準確率不高。相較于傳統(tǒng)特征提取方法,深度學習算法包含的卷積神經網(wǎng)絡(CNNs)可以進行層次化的特征提取,而且能夠直接從原始數(shù)據(jù)中學習到有用的特征表示,逐漸成為研究熱點,基于CNNs的深度學習方法在紅棗缺陷檢測任務中已取得了一定的研究進展[3-5]。深度學習模型的訓練通常需要大量的高質量標注數(shù)據(jù),在訓練數(shù)據(jù)和測試數(shù)據(jù)具有相似分布特征的情況下,其性能表現(xiàn)出色。然而,在跨域任務中,源域和目標域的數(shù)據(jù)分布往往存在顯著差異,這通常會導致深度學習模型的準確性和魯棒性顯著下降6。遷移學習通過將大規(guī)模數(shù)據(jù)集中學習到的規(guī)則遷移到下游具體任務中,在一定程度上能夠緩解跨域識別問題,但當源域與目標域的數(shù)據(jù)分布差異較大時,會出現(xiàn)“負遷移\"現(xiàn)象。
元學習8常被稱為“學習如何學習”,旨在提升模型在面對新任務時的快速適應能力。與遷移學習不同,元學習通過在多個任務上進行訓練,從中學習到1個通用的初始參數(shù)。這使得在處理新任務時,模型只需進行少量的梯度更新。相比于遷移學習,元學習方法在面臨跨域數(shù)據(jù)分布時表現(xiàn)出更好的泛化能力,為跨域紅棗缺陷檢測提供了新解決方案。
受模型無關元學習9的思想啟發(fā),本研究針對現(xiàn)有紅棗表面缺陷識別檢測面臨的樣本不均衡以及跨域泛化性能差的問題,設計一種基于雙層優(yōu)化元學習的紅棗缺陷檢測域自適應算法。該方法通過收集不同品種和不同條件下的紅棗缺陷圖像構建跨域數(shù)據(jù)集,并利用StyleGAN3生成缺陷樣本來平衡訓練數(shù)據(jù),利用數(shù)據(jù)增強豐富測試數(shù)據(jù)的多樣性;基于卷積神經網(wǎng)絡構建基學習器,采用雙層優(yōu)化元學習策略進行參數(shù)更新,并在損失函數(shù)中加入L2正則化項降低過擬合風險;為驗證方法的有效性,分別對基學習器和元學習器進行消融實驗,并與遷移學習和模型無關元學習方法(MAML)進行對比實驗。
1數(shù)據(jù)
1. 1 源域數(shù)據(jù)集
源域數(shù)據(jù)集為加工生產線收集的新疆駿棗圖片,分為健康棗、黑斑棗、黃皮棗、裂口棗、脫皮棗、皺棗6類。健康棗表皮呈鮮紅色或紫紅色,表面光滑;黑斑棗果肉發(fā)生了變質或霉變,表皮出現(xiàn)黑色霉爛斑塊;黃皮棗表皮整體顏色泛黃;裂口棗果皮有明顯的裂縫或開口;脫皮棗表皮有明顯的脫落現(xiàn)象;皺棗果肉干癟、表皮褶皺較多[10]。各類紅棗樣本如圖1所示,樣本類別和數(shù)量如表1所示。
圖1源域樣本圖片 Fig.1Sample images of source domain jujubes
表1源域數(shù)據(jù)集Tab.1 Dataset of source domain 張
所收集的原始源域數(shù)據(jù)集存在樣本數(shù)量不均衡的情況,樣本不均衡可能導致對樣本較少的類別檢測性能下降。為解決這個問題,采用StyleGAN3[11](Alias-FreeGenerativeAdversarialNetworks)生成圖片對源域數(shù)據(jù)中較少樣本進行擴充。StyleGAN3是由NVIDIA發(fā)布的一個生成對抗網(wǎng)絡模型,專注于高質量圖像生成,可以有針對性地進行數(shù)據(jù)增廣。利用StyleGAN3對黑斑棗、黃皮棗、裂口棗和皺棗進行數(shù)據(jù)增廣,生成的圖片如圖2所示。訓練時將源域各類紅棗樣本數(shù)量均設為550張,稱為均衡源域數(shù)據(jù)集。
圖2生成樣本圖片F(xiàn)ig. 2 Generated sample images
1.2 目標域數(shù)據(jù)集
目標域原始數(shù)據(jù)集為網(wǎng)絡公開數(shù)據(jù)集(https://github.com/canghao/jujube/blob/master/Jujube.zip),健康棗、裂口棗和皺棗圖像樣本數(shù)量如表2所示。為豐富數(shù)據(jù)的多樣性,在現(xiàn)有目標域數(shù)據(jù)集的基礎上,對現(xiàn)有圖像進行背景、對比度和亮度的變換,以模擬不同的環(huán)境條件和光照變化[10],如圖3所示。將5種不同情況數(shù)據(jù)集分別命名為目標域 1~ 目標域5,目標域2對原始圖像進行背景變換,目標域 3~ 目標域5對原始圖像進行亮度、對比度的變換。
表2目標域數(shù)據(jù)集Tab.2Dataset of target domain
圖3 目標域樣本圖片
Fig.3Sample images of target domain jujubes
2 研究方法
2.1模型無關元學習
模型無關元學習9的訓練過程不依賴于特定的網(wǎng)絡結構,而是關注如何有效地優(yōu)化參數(shù)以快速適應。算法由基學習器(網(wǎng)絡模型)和元學習器(學習策略)組成[2],基學習器負責執(zhí)行具體任務的訓練和推理,元學習器通過跨任務優(yōu)化策略指導基學習器的學習過程。元學習包括元訓練和元測試兩個過程,均由一系列任務(Task)組成。對于數(shù)據(jù)集 D 將其劃分為元訓練集 Dtrain 和元測試集 Dtest ,對于每個任務Task,數(shù)據(jù)被分為支持集(supportset)和查詢集(queryset),模型在支持集上進行訓練微調,在查詢集上進行評估。元學習的過程如圖4所示,元訓練階段,基學習器在元學習器的指導下完成元訓練,經過若干任務訓練,迭代更新確定最優(yōu)初始化參數(shù);元測試階段,基學習器利用元訓練階段得到的初始化參數(shù),經過少量梯度更新得到能夠適應新任務的模型。
2.2雙層優(yōu)化域自適應元學習算法
基于雙層優(yōu)化域自適應元學習算法的紅棗缺陷檢測整體流程如圖5所示。
圖5基于元學習的域自適應紅棗缺陷檢測流程 Fig.5Domain-adaptive jujubesdefectdetection flowchart based on meta-learning
元訓練階段,利用源域數(shù)據(jù)集對模型進行元訓練,從較大規(guī)模數(shù)據(jù)集中學習到紅棗的通用特征;元測試階段,使用元訓練階段得到的模型參數(shù)作為初始參數(shù),在目標域數(shù)據(jù)集上對模型進行元測試,得到適應目標域數(shù)據(jù)特性的新模型。該算法采用卷積神經網(wǎng)絡構建基學習器,雙層優(yōu)化策略構建元學習器,為降低模型過擬合風險,在損失函數(shù)中添加L2正則化項。
2.2.1 基學習器
基學習器網(wǎng)絡結構如圖6所示。該結構包含4個卷積模塊和1個線性分類模塊,每個卷積模塊由卷積層(kernel為 3×3,stride 為1,padding為O,filters為48)、非線性激活函數(shù)ReLU、批量歸一化BN和最大池化層(kernel為 2×2,stride 為2)組成。
DmN Conv(3,3)+BN+ReLU MaxPoolingLinear
2.2.2 元學習器
元學習器包括內層循環(huán)和外層循環(huán)兩層優(yōu)化,內循環(huán)學習每個任務的最優(yōu)參數(shù),使用梯度下降最小化損失;外循環(huán)利用所有任務的損失之和更新網(wǎng)絡參數(shù),將更新后的參數(shù)作為新任務的最優(yōu)初始參數(shù)。元學習器流程如圖7所示,用參數(shù)化函數(shù) fθ 來表示模型,其中 θ 為模型參數(shù),從 Dtrain 中隨機抽取 N 個類別的 2K 個樣本構建 N-way , K —shot任務,組成Ti-?(T) 任務分布。
內循環(huán)學習中,從訓練集 Dtrain 中采樣任務 Ti ,對每個任務的支持集supportset進行訓練,并計算損失值 LS-Ti(fθ) ,利用梯度下降法得到更新后參數(shù) θi′ ,如式(1)所示。
式中: ablaθ (204號 對參數(shù) θ 的梯度;α 內循環(huán)學習率。
內循環(huán)中將當前任務更新后得到的參數(shù) θi′ 作為下一任務的初始化參數(shù),直到內循環(huán)的所有任務都完成更新。
外循環(huán)學習中,利用內循環(huán)更新后的參數(shù) θ′ 對每個任務的查詢集queryset數(shù)據(jù)進行測試,并計算查詢集損失值 LQ-Ti(fθ') ,利用梯度下降法最小化查詢集損失值之和 ,得到更新后的參數(shù) θ ,用于新任務預測,更新方式如式(2)所示,其中 β 為外循環(huán)學習率。
雙層優(yōu)化域自適應元學習算法采用交叉熵損失[13]作為損失函數(shù),如式(3)所示。
式中: M 一 類別數(shù)量;
yic (20 樣本 i 的符號函數(shù);
(20 ?ic ——類別 i 屬于類別 Ψc 的預測概率。
為在訓練過程中減少模型參數(shù)的復雜度,降低過擬合風險,在查詢集交叉熵損失函數(shù)中添加L2正則化項,如式(4)所示。其中 λ 為超參數(shù),取值范圍為 [0,1] 。
根據(jù)式(4)損失值更新模型參數(shù) θ ,如式(5)所示。
初始化模型 fθ′ (2號1從元訓練數(shù)據(jù)集中采樣N-way,K-shot任務1
訓練每個任務中的support set計算損失值 LS-Ti(fθ′) (2 內外!1 循循!梯度下降,更新參數(shù) 環(huán)環(huán)!0=0-aVoLs-Ti(fe)1
利用內循環(huán)更新的參數(shù) θi′ ,
訓練每個任務中的query set,
計算損失值之和
(204號
梯度下降,更新參數(shù)
0←0-βVo∑LQ-T(fo)Ti-p(T)
3 實驗與分析
3.1實驗環(huán)境及參數(shù)設置
實驗平臺的硬件環(huán)境為GPU:NVIDIAGeForceRTX3090,CPU:IntelXeonGold6342,操作系統(tǒng)及軟件環(huán)境為Ubuntu 18.04+ Python 3.8.10+CUDA11.1+ Pytorch 1.10.0。
實驗設置參考文獻[14]中的N—way, K ——shot數(shù)據(jù)采樣方式,元訓練階段,每個任務隨機從元訓練集Dtrain 選擇 N 個紅棗種類( .N 設置為3),從每個種類采樣2K 個實例( ??K 設置為3),使用此 N 個種類中每個類別的 K 個不同實例組成該任務的支持集support set,其余
N×K 個實例組成該任務的查詢集queryset。元測試階段,每個任務隨機從元測試集 Dtest 中進行數(shù)據(jù)采樣,設置方式與元訓練階段相同。實驗超參數(shù)參考文獻15中的設置,圖片大小統(tǒng)一為84像素 ×84 像素,batchsize為2,內循環(huán)學習率為0.0l,外循環(huán)學習率設置為0.001,元訓練階段采樣500個任務進行訓練,元測試階段采樣600個任務進行測試,訓練階段每個任務內部進行5次梯度更新,測試階段每個任務進行5次梯度更新,實驗訓練20個Epoch。
3.2 評價指標
使用元學習算法常用的準確率[1來度量模型性能,將元測試集 Dtest 采樣的所有任務的平均分類準確率Accuracy作為模型評價指標。具體定義如式(6)和式(7)所示。
式中: N 在元測試集上采樣的總任務數(shù);
Accj (20 在任務 j 的 query set上的預測正確率;
Numaccj (204 在任務 j 的query set上預測正確的樣本數(shù);
Numallj (204號 在任務 j 的queryset上的總樣本數(shù)。
3.3基學習器消融實驗
基學習器消融實驗中,元學習器均采用雙層優(yōu)化策略,將本文算法與模型無關元學習MAML算法的基學習器進行比較,MAML基學習器中卷積濾波數(shù)為32,本文卷積濾波數(shù)為48。將兩種算法在原始源域和均衡源域上分別進行訓練,在目標域1上進行測試,結果如表3所示??梢钥闯觯谠荚从蛏媳疚乃惴ê蚆AML算法在目標域上的準確率相差不大,但在對源域數(shù)據(jù)集進行均衡后,由于卷積濾波數(shù)增加增強了網(wǎng)絡特征提取能力,本文算法準確率比MAML算法高 2.9% 。
表3基學習器消融實驗結果 Tab.3Base learnerablation experiment results
3.4元學習器消融實驗
元學習器消融實驗中,基學習器卷積濾波數(shù)量均設為48,將本文算法與MAML[9]、MAML ++[15] 、MAML + ALFA[17算法的元學習器進行比較,同時考慮背景和光照條件對模型性能的影響。將4種算法在均衡源域上進行訓練,在5個目標域上進行測試,結果如表4所示。
表4元學習器消融實驗結果 Tab.4Results of ablation experiments on meta learner:
由于本文算法在損失函數(shù)中添加L2正則化項,有效降低過擬合風險,提高模型的泛化能力,在不同背景和不同光照條件下的目標域數(shù)據(jù)集的分類準確率均高于所比較算法。當正則化系數(shù) λ 設置為0.3時,目標域1上的準確率比MAML算法高 6.4% ,目標域4上的準確率比MAML算法高 7.6% 。由于紅棗的背景比較單一,模型在目標域1和目標域2上的準確率相差不大。由表4可以看出,所有算法在目標域4上的準確率均為最高,表明光照條件對模型的準確性和泛化能力有顯著影響。由于目標域4的數(shù)據(jù)與源域數(shù)據(jù)一致性較高,從而顯著提高模型的分類性能。
3.5 對比實驗
將本文算法分別與遷移學習方法和其他元學習算法在目標域數(shù)據(jù)集上進行對比實驗,驗證方法有效性。
3.5.1 遷移學習方法對比實驗
選用經典的深度學習算法作為遷移學習的模型,包括基于CNN的ResNet34[18]、ResNeSt5O[19]和基于Transformer的Vision Transformer[2o]。在均衡源域數(shù)據(jù)集上進行預訓練得到預訓練模型,訓練輪數(shù)設為100。在目標域1數(shù)據(jù)集上加載預訓練模型進行遷移學習,訓練輪數(shù)設為20,對比結果如表5所示??梢钥闯?,本文算法準確率比ResNet34算法高 10.3% ,比ResNeSt50算法高 6.3% ,比VisionTransformer算法高 8.7% ,表明該算法在跨域場景下,能夠通過較少的梯度更新獲得優(yōu)于遷移學習算法的性能。
表5與遷移學習方法對比結果 Tab.5Comparison results with deep learning models
3.5.2 元學習模型對比實驗
與模型無關元學習算法MAML和基于度量的元學習算法 Matching Networks[21]、Prototypical Networks[22]進行比較,不同模型超參數(shù)設置均參照本文算法進行設置,結果如表6所示??梢钥闯?,本文算法在目標域上的性能明顯優(yōu)于其他算法,準確率比MAML算法高 9.3% ,比Matching Networks 算法高 14.8% ,比PrototypicalNetworks算法高 6.2% 。
表6與元學習算法對比結果 Tab.6 Comparison results with meta-learning model:
4結論
1)針對跨域紅棗缺陷檢測任務中的數(shù)據(jù)特征差異問題,設計一種基于元學習的域自適應算法。通過圖像處理技術改善樣本不均衡問題并增加數(shù)據(jù)的多樣性;在模型中通過增加卷積濾波器的數(shù)量,提高基學習器的特征提取能力,同時在損失函數(shù)中添加L2正則化項以優(yōu)化元學習器策略,從而降低過擬合風險,使模型能夠更好地適應目標域的識別任務;不同背景和光照條件下的實驗結果表明,該算法能夠有效提升跨域紅棗缺陷檢測的準確率。為實現(xiàn)快速高效的紅棗缺陷跨域檢測提供技術支持。
2)實驗結果顯示,該方法在原始目標域數(shù)據(jù)集上的平均準確率為 78.6% ,在經過數(shù)據(jù)增強后,平均準確率提升至 86.5% ,分別比MAML算法高出6.4%.7.6% 。
參考文獻
[1]宋懷波,尚鈺瑩,何東?。麑嵞繕松疃葘W習識別技術研究進展[J].農業(yè)機械學報,2023,54(1):1—19.SongHuaibo, Shang Yuying,He Dongjian. Reviewon deep learning technology for fruit target recognition [J].Transactions of the Chinese Society for AgriculturalMachinery,2023,54(1):1-19.
[2]李聰,李玉潔,李小占,等.基于機器視覺的紅棗外部品質檢測技術研究進展[J].食品工業(yè)科技,2022,43(20):447—453.
[3]文懷興,王俊杰,韓昉.基于改進殘差網(wǎng)絡的紅棗缺陷檢測分類方法研究[J].食品與機械,2020,36(1):161—165.
[4]張忠志,薛歡慶,范廣玲.基于改進卷積神經網(wǎng)絡的紅棗缺陷識別[J].食品與機械,2021,37(8):158—162.
[5]Guo Z,Zheng H,Xu X,et al. Quality grading of jujubesusing composite convolutional neural networks incombinationwith RGB color space segmentation and deep convolutionalgenerative adversarial networks [J]. Journal of FoodProcess Engineering,2021,44(2):el3620.
[6] Zhao Y,Cai L. Reducing the covariate shift by mirrorsamples in cross domain alignment [C]. 35th Conferenceon Neural Information Processing Systems, 2021.
[7] JuJ,Zheng H,Xu X,et al. Classification of jujubedefects in small data sets based on transfer learning [J].NeuralComputing and Applications,2022,34(5):3385-3398.
[8]孟德宇,束俊,徐宗本.從機器學習到元學習的方法論演變[J].中國計算機學會通訊,2021,17(8):76-84.Meng Deyu, Shu Jun, Xu Zongben. Methodologicalevolution from machine learning to meta-learning [J].Communications of the CCF,2021,17(8): 76-84 :
[9] Finn C,Abbeel P,Levine S. Model-agnostic meta-learningfor fast adaptation of deep networks [C].InternationalConference on Machine Learning,2017:1126—1135.
[10]楊志銳,鄭宏,郭中原,等.基于網(wǎng)中網(wǎng)卷積神經網(wǎng)絡的紅棗缺陷檢測[J].食品與機械,2020,36(2):140—145.
[11] KarrasT, Aittala M, Laine S, et al.Alias-freegenerative adversarial networks [C]. Proceedings of theConference on Neural Information Processing Systems,2021:852-863.
[12]周伯俊,陳峙宇.基于深度元學習的小樣本圖像分類研究綜述[J].計算機工程與應用,2024,60(8):1—15.Zhou Bojun,Chen Zhiyu. Survey of few-shot imageclassification based on deep meta-learning [J].ComputerEngineering and Applications,2024,60(8):1-15.
[13]劉復昌,李晨璇,王延斌,等.結合MAML和Dirichlet過程的小樣本點云分類[J].計算機輔助設計與圖形學學報,2023,35(11):1674—1682.LiuFuchang,LiChenxuan,WangYanbin,etal.Few-shotpointclouds classification based on MAML and Dirichletprocess [J]. Journal of Computer-Aided Designamp;.ComputerGraphics,2023,35(11):1674—1682.
[14]VinyalsO,BlundellC,LillicrapT,etal.Matchingnetworksforoneshotlearning[C].AdvancesinNeuralInformation Processing Systems,2016:3637-3645.
[15]Antoniou A,Edwards H,Storkey A. How to trainyourMAML:A step-by-step guide [C]. Proceedings oftheInternational Conference on Learning Representations,2019:1—11.
[16]趙戈偉,許升全,謝娟英.DL—MAML:一種新的蝴蝶物種自動識別模型[J].計算機研究與發(fā)展,2024,61(3):674-684.Zhao Gewei,Xu Shengquan,XieJuanying. DL—MAML:Aninnovativemodelforautomaticallyidentifyingbutterfly species[J]. Journal of Computer Research andDevelopment,2024,61(3):674-684.
[17] Baik S,Choi M, Choi J. Meta-learning with adaptivehyperparameters [J].AdvanceinNeural InformationProcessing Systems,2020,33:20755—20765.
[18] He K,Zhang X,Ren S,et al. Deep residual learningfor image recognition [C]. Proceedings of the Conferenceon Computer Vision and Pattern Recognition, 2016:770-778.
[19] Zhang H,Wu C, Zhang Z, et al. ResNeSt: Split-attention networks [C]. Proceedings of the IEEE/CVFConference on Computer Vision and Pattern Recognition,2022:2736—2746.
[20] Xia Z,Pan X, Song S,et al. Vision transformerwith deformable attention[C]. Proceedings of the IEEE/CVF Conference on Computer Vision and PatternRecognition,2022:4794—4803.
[21] Vinyals O,BlundellC,Lilicrap T,et al. Matching networksforoneshotlearning[C].ProceedingsoftheConference and Workshop on Neural Information ProcessingSystems,2016:3637-3645.
[22]Snell J,Swersky K,Zemel R S. Prototypical networksfor few-shot learning [C]. Proceedings of the 31stConference on Neural Information Processing Systems,2017:1-15.