梁耀星 古政坤 劉曉涵 曹燕瓊 李俊鑫 劉程煒 張建 羅海燕
摘要:為了研究梅州地區(qū)各等級煙葉的外觀特征與物理特性間的關(guān)系,找到一種通過煙葉外觀特征表征其物理特性的方法,選取了梅州6個產(chǎn)地、12個等級的初烤煙葉共977片。使用機(jī)器視覺設(shè)備和質(zhì)構(gòu)儀分別檢測了煙葉樣本的外觀特征和物理特性。選取其中781片煙葉樣本作為訓(xùn)練集,使用了彈性網(wǎng)絡(luò)、極端隨機(jī)樹、支持向量機(jī)等回歸模型以及模型融合技術(shù)分別構(gòu)建了基于煙葉外觀特征的最大拉力、剪切力和撕裂度的表征模型。選取196片煙葉樣本作為測試集,以平均絕對誤差為模型評價指標(biāo),評估了3種表征模型的泛化性能。結(jié)果表明,對于最大拉力的表征模型而言,模型在測試集上的預(yù)測值與真實值的相關(guān)系數(shù)超過0.73,擬合優(yōu)度為0.54;對于剪切力的表征模型而言,模型在測試集上的預(yù)測值與真實值的相關(guān)系數(shù)超過0.78,擬合優(yōu)度為0.60;對于撕裂度的表征模型而言,模型在測試集上的預(yù)測值與真實值的相關(guān)系數(shù)超過0.75,擬合優(yōu)度為0.56。煙葉的外觀特征對于煙葉的最大拉力、剪切力和撕裂度具有一定的表征能力。
關(guān)鍵詞:物理特性;外觀特征;機(jī)器視覺;表征模型
中圖分類號:S-3? ? ? ? ? ? ? ? 文獻(xiàn)標(biāo)志碼:A? ? ? ? ? ? ? ?文章編號:2097-2172(2023)10-0952-010
doi:10.3969/j.issn.2097-2172.2023.10.013
Characterization Method of Tobacco Leaves Physical
Properties Based on Machine Vision
LIANG Yaoxing 1, GU Zhengkun1, LIU Xiaohan 2, CAO Yanqiong 2, LI Junxin 2, LIU Chengwei 4,
ZHANG Jian 3, LUO Haiyan 2
(1. China Tobacco Guangdong Industrial Co., Ltd., Guangzhou Guangdong 510385, China; 2. Guangdong Shaoguan Tobacco
Recuring Co., Ltd., Shaoguan Guangdong 512000, China; 3. Shanghai Micro Vision Technology Ltd., Shanghai 200082, China;
4. Mc Master University, Hamilton Ontario L8S4L8, Canada)
Abstract: In order to study the relationship between the appearance characteristics and the physical properties of various grades of tobacco in Meizhou, an attempt was made to find a method about characterizing the physical properties of tobacco through its appearance characteristics. A total of 977 pieces of first-roasted tobacco leaves of 12 grades from six origins in Meizhou were selected. The appearance characteristics and physical properties of the tobacco samples were examined using machine vision equipment and texture analyzer, respectively. A total of 781 tobacco samples were selected as the training set. Regression models such as Elastic Net, Extremely Randomized Trees and Support Vector Machine were used along with the Ensemble technique to construct the characterization models of maximum tensile force, shear force and tearing degree based on the appearance characteristics of tobacco samples. A total of 196 tobacco samples were selected as the test set, and the generalization performance of the three characterization models were evaluated using the mean absolute error. The results indicated that the maximum tensile force model exhibited a correlation coefficient over 0.73 between the predicted and true values of the samples in the test set, with a goodness of fit of 0.54. Similarly, the shear force model demonstrated a correlation coefficient exceeding 0.78 and a goodness of fit of 0.60. Additionally, the tearing degree model displayed a correlation coefficient surpassing 0.75 and a goodness of fit of 0.56 for the predicted and true values of the samples in the test set. The appearance characteristics of tobacco leaves have certain ability to characterize the maximum tensile force, shear force and tearing degree of tobacco leaves.
Key words: Physical characteristic; Appearance characteristic; Machine vision; Characterization model
煙葉的物理特性是煙葉加工的重要指標(biāo)之一,直接影響加工過程的造碎程度,進(jìn)而影響煙葉原料的損耗及其加工質(zhì)量[1 ]。煙葉的物理特性與其部位等級密切相關(guān),此外,煙葉的部位等級又與其外觀特征有著強(qiáng)烈的相關(guān)性[2 ],因此,煙葉的物理特性在一定程度上可由煙葉的外觀特征進(jìn)行表征。長期以來,人們都在對煙葉加工過程中葉梗分離段如何提高煙葉質(zhì)量并減少造碎進(jìn)行研究,提高加工中的煙葉質(zhì)量并減少造碎對各工業(yè)公司具有非常重要的作用和影響[3 ]。馬雨佳等[4 ]研究了煙葉抗破碎指數(shù)與物理特性的關(guān)聯(lián)性,發(fā)現(xiàn)煙葉抗破碎指數(shù)與抗張強(qiáng)度、延伸率、回復(fù)性、厚度呈顯著正相關(guān)。另外,在基于理化特性的煙葉耐加工性研究中發(fā)現(xiàn)煙葉耐加工性與主要物理特性間存在不同程度的相關(guān),但目前少有學(xué)者對煙葉外觀特征與物理特性之間的關(guān)系進(jìn)行研究。為此,我們選取了梅州6個產(chǎn)地、12個等級的初烤煙葉共977片。使用機(jī)器視覺設(shè)備和質(zhì)構(gòu)儀分別檢測了煙葉樣本的外觀特征和物理特性。選取其中781片煙葉樣本作為訓(xùn)練集,使用了彈性網(wǎng)絡(luò)(Elastic Net)、極端隨機(jī)樹(Extremely Randomized Trees)、支持向量機(jī)(Support Vector Machine)等回歸模型以及模型融合(Ensemble)技術(shù)分別構(gòu)建了基于煙葉外觀特征的最大拉力、剪切力和撕裂度的表征模型。選取196片煙葉樣本作為測試集,以平均絕對誤差為模型評價指標(biāo),評估了3種表征模型的泛化性能,探討了煙葉外觀特征與物理特性間的關(guān)系,并嘗試通過構(gòu)建機(jī)器學(xué)習(xí)回歸模型以基于煙葉外觀特征表征物理特性。與生產(chǎn)線上工人們根據(jù)經(jīng)驗及眼觀手摸的方式來評估煙葉物理特性相比,基于機(jī)器學(xué)習(xí)算法的物理特性表征模型更具客觀性和準(zhǔn)確性,這種表征模型在煙葉加工中能夠更好地評估煙葉物理特性,進(jìn)而對后續(xù)潤葉、打葉過程中工藝參數(shù)的調(diào)節(jié)提供可靠的數(shù)據(jù)支持。
1? ?材料與方法
1.1? ?材料
1.1.1? ? 供試樣品? ? 于2020年和2021年采集梅州6個地區(qū)、12個等級的初烤煙葉樣本共977片。由煙葉分級專家按照烤煙國家標(biāo)準(zhǔn)(GB2635—1992)進(jìn)行等級分選[5 ],所選初烤煙葉產(chǎn)地為廣東省梅州市下的大埔縣、豐順縣、蕉嶺縣、梅縣區(qū)、平遠(yuǎn)縣和五華縣,等級分別為上部橘黃一級煙(B1F)、上部橘黃二級煙(B2F)、上部橘黃三級煙(B3F)、上部橘黃四級煙(B4F)、中部橘黃一級煙(C1F)、中部橘黃二級煙(C2F)、中部橘黃三級煙(C3F)、中部橘黃四級煙(C4F)、下部橘黃一級煙(X1F)、下部橘黃二級煙(X2F)、下部橘黃三級煙(X3F)、下部橘黃四級煙(X4F)。
1.1.2? ? 實驗設(shè)備? ? 煙葉綜合測試臺 GTM 600(上海創(chuàng)和億,中國);質(zhì)構(gòu)儀 CTX(AMETEK Brookfield,美國);恒溫恒濕箱 KBF115-E6(Binder,德國)。
1.2? ?方法
1.2.1? ?外觀特征測定? ? 將采集的煙葉樣本展平后置于綜合測試臺內(nèi)采集煙葉樣本圖像,從中提取外觀特征,包括重量、長度、寬度、周長、面積、顏色深淺、顏色均勻度、油分、厚度和結(jié)構(gòu);并從圖像中提取更細(xì)致的顏色特征[6 ],包括RGB顏色空間中的B均值、G均值、R均值,HSV顏色空間中的V均值、S標(biāo)準(zhǔn)偏差以及Lab顏色空間中的L均值、a均值和b均值。煙葉的顏色深淺和均勻度分別以煙葉顏色的H均值和H標(biāo)準(zhǔn)偏差表征,油分以S均值來表征,厚度以煙葉透光強(qiáng)度的倒數(shù)來表征,結(jié)構(gòu)則由煙葉重量與煙葉面積之比來表征。
1.2.2? ? 物理特性測定? ? 將每個產(chǎn)地、每個部位等級的煙葉樣本置于恒溫恒濕箱內(nèi),對恒溫恒濕箱設(shè)置不同的溫度和濕度,平衡48 h后將煙葉樣本取出。將每片煙葉樣本按葉尖、葉腰、葉基裁剪出檢測葉片,每張檢測葉片要求寬度為15 mm、長度不小于40 mm。使用質(zhì)構(gòu)儀對裁剪好的檢測葉片測量最大拉力和剪切力,進(jìn)而通過計算得到撕裂度、拉伸長度和撕裂距離。平衡煙葉樣本時恒溫恒濕箱設(shè)定的溫度分別為20.0、25.0、30.0 ℃,濕度分別為60.0%、65.0%、70.0%(表1)。
1.3? ?數(shù)據(jù)挖掘
1.3.1? ? 數(shù)據(jù)劃分? ? 按照煙葉的部位等級對樣本數(shù)據(jù)集進(jìn)行分層抽樣,訓(xùn)練集與測試集比例設(shè)定為80%∶20%。為進(jìn)一步判斷數(shù)據(jù)劃分合理性,使用主成分分析(Principal Component Analysis, PCA)方法將訓(xùn)練集和測試集樣本投影至二維平面并觀察它們的分布情況。
主成分分析是一種數(shù)據(jù)降維技術(shù)[7 ],其本質(zhì)是一個線性變換,通過該線性變換,數(shù)據(jù)集被變換至一個新的坐標(biāo)系中,使數(shù)據(jù)投影的第一大方差對應(yīng)的方向在第一個坐標(biāo)軸上(稱為第一主成分),第二大方差對應(yīng)的方向在第二個坐標(biāo)軸上(第二主成分),依此類推。通過主成分分析,通常能夠使原始數(shù)據(jù)集的維數(shù)降低,同時保留數(shù)據(jù)集中盡可能多的信息[8 ]。
1.3.2? ? 數(shù)據(jù)探索? ? 對煙葉樣本的各物理特性指標(biāo)以及外觀特征指標(biāo)繪制頻數(shù)直方圖,檢查數(shù)據(jù)分布情況。對煙葉樣本的各外觀特征及物理特性指標(biāo)繪制相關(guān)系數(shù)熱力圖,檢查各指標(biāo)之間的線性相關(guān)程度。特征間的線性相關(guān)程度很高說明不同特征所包含的信息存在一定重復(fù),即數(shù)據(jù)集中存在冗余信息,若不對這些冗余信息加以處理,則可能導(dǎo)致后續(xù)機(jī)器學(xué)習(xí)模型的訓(xùn)練和推斷速度變慢。為此以0.8作為相關(guān)系數(shù)的閾值,對外觀特征進(jìn)行篩選,以消除數(shù)據(jù)集中的冗余信息。最后繪制經(jīng)過篩選后的外觀特征與物理特性之間的相關(guān)系數(shù)熱力圖,據(jù)此確定要構(gòu)建回歸模型的物理特性。
1.3.3? ? 特征工程? ? 在現(xiàn)有外觀特征的基礎(chǔ)上,通過構(gòu)建如下組合特征可以擴(kuò)充特征空間,以得到更為豐富且全面的煙葉外觀特征,組合特征的定義方式如表2所示。繪制擴(kuò)充后的外觀特征與物理特性之間的相關(guān)系數(shù)熱力圖,并計算所有煙葉外觀特征與各物理特性的皮爾遜相關(guān)系數(shù)r的95%置信區(qū)間和對應(yīng)的p值,以觀察各外觀特征與目標(biāo)物理特性之間的相關(guān)性。
1.3.4? ? 模型訓(xùn)練與融合? ? 常用的機(jī)器學(xué)習(xí)回歸模型包括:彈性網(wǎng)絡(luò)(Elastic Net, EN),極端隨機(jī)樹(Extremely Randomized Trees, ERT),支持向量機(jī)(Support Vector Machine, SVM)和多層感知機(jī)(Multi-layer Perceptron, MLP)等。彈性網(wǎng)絡(luò)是一種同時具有L1和L2正則化的線性模型[9 ],它具備自動選擇特征的能力。極端隨機(jī)樹與隨機(jī)森林類似,都是由許多決策樹集成的模型,但其完全隨機(jī)的分裂方式使其在模型訓(xùn)練上比隨機(jī)森林更快。另外在各種實踐中,極端隨機(jī)樹與隨機(jī)森林在泛化性能上往往難分伯仲。支持向量機(jī)原本是基于最大化分類間隔的一種分類算法,對其方法稍做修改,將數(shù)據(jù)盡可能多地納入“間隔”中,即可得到一種強(qiáng)有力的回歸模型,該算法尤其適用于中小型復(fù)雜數(shù)據(jù)集。多層感知機(jī)是一種前向結(jié)構(gòu)的人工神經(jīng)網(wǎng)絡(luò),包含輸入層、輸出層及若干隱藏層[10 ],理論上它能夠擬合任何函數(shù),并且已被證明是一種通用的近似算法[11 ]?;跀U(kuò)充后的外觀特征分別構(gòu)建上述4種基礎(chǔ)機(jī)器學(xué)習(xí)回歸模型:彈性網(wǎng)絡(luò)、極端隨機(jī)樹、支持向量機(jī)和多層感知機(jī),并在訓(xùn)練集上進(jìn)行五折交叉驗證,通過網(wǎng)格搜索獲得各模型的最佳超參數(shù)組合。在最佳超參數(shù)組合下計算各回歸模型在訓(xùn)練集上交叉驗證的平均絕對誤差,以判斷各物理特性下的每個回歸模型的泛化性能的優(yōu)劣。
為進(jìn)一步提升模型泛化能力,針對每個目標(biāo)物理特性,選擇對應(yīng)平均絕對誤差的均值最小的3個模型進(jìn)行等權(quán)重的模型融合。一般而言,不同的基礎(chǔ)模型基于不同的假設(shè),對同一數(shù)據(jù)集的適應(yīng)程度也各不相同,因此在預(yù)測新樣本時,不同模型“所犯的錯誤”也有所不同(即不同基礎(chǔ)模型給出的預(yù)測值與真實值之差也不相同),因此,將基礎(chǔ)模型進(jìn)行融合得到的融合模型通常比單個基礎(chǔ)模型有著更強(qiáng)的泛化能力[12 ]。
1.3.5? ? 模型測試及評估? ? 本文選用平均絕對誤差作為評價融合回歸模型泛化性能的指標(biāo),這種評價指標(biāo)在數(shù)據(jù)集中可能存在異常值時表現(xiàn)較好,因此適合于使用質(zhì)構(gòu)儀檢測得到的煙葉物理特性數(shù)據(jù)[13 ]。平均絕對誤差的計算公式如下:
2? ?結(jié)果與分析
2.1? ? 數(shù)據(jù)劃分結(jié)果
將完整數(shù)據(jù)集(c)劃分為訓(xùn)練集(a)與測試集(b),并分別繪制三個數(shù)據(jù)集中所有部位等級的分布圖。從圖1可見,采用分層抽樣法可以基本保持訓(xùn)練集與測試集中每個部位等級的樣本所占的比例。
全部梅州煙葉樣本經(jīng)分層抽樣后,781個樣本用于構(gòu)建預(yù)測煙葉物理特性的回歸模型,196個樣本用于評估所建回歸模型的泛化性能(在未知數(shù)據(jù)上給出準(zhǔn)確預(yù)測值的能力)。
訓(xùn)練集與測試集經(jīng)過主成分分析法投影至二維平面后,所得散點圖如圖2所示。從圖2可以看出,訓(xùn)練集與測試集的樣本點在二維平面上的分布基本一致,說明測試集的選取對全體樣本數(shù)據(jù)集有較好的代表性,因而使用該測試集對模型進(jìn)行泛化性能評估所得的結(jié)果具有較高的可靠性。
2.2? ?數(shù)據(jù)探索結(jié)果
各煙葉外觀特征的分布情況如圖3所示,各煙葉物理特性的分布情況如圖4所示。
觀察圖3與圖4,發(fā)現(xiàn)多數(shù)煙葉外觀特征基本呈現(xiàn)正態(tài)分布,長度、油分和厚度則呈現(xiàn)出一定的偏態(tài)分布。煙葉物理特性則基本呈現(xiàn)正態(tài)分布,沒有明顯異常。對訓(xùn)練集中所有18個外觀特征繪制相關(guān)系數(shù)熱力圖,如圖5所示。
從圖5可以發(fā)現(xiàn),重量和寬度均與面積存在較高的相關(guān)性,深淺和部分顏色特征(如B均值、G均值、R均值、L均值和b均值等)也存在線性相關(guān)程度較高的現(xiàn)象。除此之外,B均值、G均值、R均值、L均值和b均值之間也存在強(qiáng)烈的線對這些冗余信息進(jìn)行剔除,通??梢栽诓伙@著降低模型泛化性能的情況下縮短模型的訓(xùn)練和推斷時間,同時也能夠得到更具解釋性的機(jī)器學(xué)習(xí)模型。由于本研究的數(shù)據(jù)集中包含了不同顏色空間的顏色特征,這些特征之間必然存在較高的相關(guān)性,也即特征中的信息存在冗余,為此采用了Drop CorrelatedFeatures特征選擇算法,將原始的18個外觀特征篩選為12個,同時確保了篩選后的外觀特征間的相關(guān)系數(shù)均不超過0.8。在此基礎(chǔ)上探索外觀特征與物理特性間的相關(guān)系數(shù),進(jìn)而確定最大拉力、剪切力和撕裂度作為煙葉外觀特征來表征其物理特性,而其他物理特性因其與外觀特征相關(guān)性較弱,可以預(yù)見對它們構(gòu)建表征模型的效果不會很好,因此本研究中放棄對它們建模。
本研究表明,基于煙葉的外觀特征,表征梅州煙葉的物理特性,在一定程度上具有可行性的,從融合模型在測試集上的泛化性能展示的結(jié)果看,當(dāng)前的外觀特征對剪切力有較好的表征能力,而對最大拉力的表征能力稍弱,表征效果仍有待提高。一個值得嘗試的思路是尋找一些與最大拉力的相關(guān)性更強(qiáng)的外觀特征,例如煙葉的紋理等,這需要將煙葉紋理進(jìn)行數(shù)字化表征[17 ]。本研究選取了彈性網(wǎng)絡(luò)、極端隨機(jī)樹、支持向量機(jī)和多層感知機(jī)算法對所選煙葉物理特性進(jìn)行建模,結(jié)果表明,對于最大拉力的表征模型而言,模型在測試集上的預(yù)測值與真實值的相關(guān)系數(shù)超過0.73,擬合優(yōu)度為0.54;對于剪切力的表征模型而言,模型在測試集上的預(yù)測值與真實值的相關(guān)系數(shù)超過0.78,擬合優(yōu)度為0.60;對于撕裂度的表征模型而言,模型在測試集上的預(yù)測值與真實值的相關(guān)系數(shù)超過0.75,擬合優(yōu)度為0.56。煙葉的外觀特征對于煙葉的最大拉力、剪切力和撕裂度具有一定的表征能力。SVR對3種物理特性的泛化性能最優(yōu),為打破模型假設(shè)的限制,進(jìn)一步提升模型泛化性能,本研究中還采取了模型融合技術(shù),將在每個物理特性上泛化性能最佳的前3個基礎(chǔ)模型進(jìn)行融合,分別得到了對物理特性有著更強(qiáng)泛化性能的3個融合回歸模型。在這3個模型中,剪切力模型具有最優(yōu)的泛化能力,這得益于剪切力與外觀特征之間有著更高的相關(guān)性。與此同時,最大拉力與外觀特征之間的相關(guān)性相對較弱,這也在一定程度上導(dǎo)致了最大拉力模型的泛化能力稍差。
參考文獻(xiàn):
[1] 馬雨佳.? 基于理化特性的煙葉耐加工性模型建立及應(yīng)用[D].? 鄭州:鄭州輕工業(yè)大學(xué),2022.
[2] 李? ?波,張仲文,章? ?程,等.? 淺談不同顏色模型在煙葉顏色數(shù)字化中的運用[J].? 天津農(nóng)業(yè)科學(xué),2021,
27(7):48-51.
[3] 鄧? ?凱.? 煙葉初加工過程中葉梗分離線三級打葉風(fēng)分提高煙葉品質(zhì)及減少造碎的相關(guān)研究[J].? 中國標(biāo)準(zhǔn)化,2017(18):50-51.
[4] 馬雨佳,紀(jì)曉楠,劉志洋,等.? 煙葉抗破碎指數(shù)與物理特性的關(guān)聯(lián)性分析[J].? 輕工學(xué)報,2022,37(3):101-107.
[5] 國家技術(shù)監(jiān)督局.? 中華人民共和國國家標(biāo)準(zhǔn):烤煙 GB2635-1992[S].? 北京:中國標(biāo)準(zhǔn)出版社,1992.
[6] 唐? ?嵐.? 密集化煙葉烘烤中圖像特征提取及應(yīng)用研究[D].? 重慶:重慶大學(xué),2015.
[7] 郭奕通.? 主成分分析在球坐標(biāo)系下的分析與研究[D].? 廣州:廣東工業(yè)大學(xué),2020.
[8] 池陳帆.? 福建省耕地面積變化及其驅(qū)動因子研究[D].? 福州:福建農(nóng)林大學(xué),2011.
[9] 馮明皓.? 自適應(yīng)彈性網(wǎng)神經(jīng)網(wǎng)絡(luò)模型及算法研究[D].? 大連:大連海事大學(xué),2020.
[10] 王春柳,楊永輝,賴輝源,等.? ?基于開放域?qū)υ捪到y(tǒng)的自動化評測方法研究[J].? 計算機(jī)應(yīng)用研究,2020,
37(5):1456-1459.
[11] 顧成露.? 基于神經(jīng)網(wǎng)絡(luò)的直擴(kuò)信號捕獲算法研究[D].? 成都:電子科技大學(xué),2020.
[12] AUR?魪LIEN G. Hands-on machine learning with scikit-learn, keras, and tensorflow[M].? Sebastopol: O'Reilly Media, 2019.
[13] 李? ?曉,陳科冰,韓? ?明,等.? 質(zhì)構(gòu)儀在煙葉力學(xué)特性檢測中的應(yīng)用進(jìn)展[J].? 輕工學(xué)報,2021,36(3):63-69.
[14] 秦? ?瑯.? 基于模型融合的煙葉烘烤過程狀態(tài)預(yù)測方法研究[D].? 武漢:華中科技大學(xué),2022.
[15] 陳思昂,王? ?敏,杜? ?薇,等.? 基于原煙外觀圖像和近紅外光譜的煙葉感官質(zhì)量模型研究[J].? 寒旱農(nóng)業(yè)科學(xué),2023,2(3):260-269.
[16] 姜有虎,李玉梅,李旭林,等.? 基于主成分分析的嘉峪關(guān)產(chǎn)區(qū)馬瑟蘭葡萄最佳采收期確定[J].? 甘肅農(nóng)業(yè)科技,2022,53(1):94-98.
[17] 李嘉康,陶智麟,徐? ?波,等.? 基于隨機(jī)森林的煙葉紋理定量分析[J].? 湖北農(nóng)業(yè)科學(xué),2022,61(14):155-159.
收稿日期:2023 - 05 - 25;修訂日期:2023 - 09 - 07
基金項目:廣東中煙工業(yè)有限責(zé)任公司項目(Q/GDZY 207 011-02)。
作者簡介:梁耀星(1984 — ),男,廣東陽江人,農(nóng)藝師,碩士,主要從事煙葉質(zhì)量檢驗及研究工作。Email: liangyaoxing@gdzygy.com。
通信作者:羅海燕(1965 — ),女,廣東梅州人,高級農(nóng)藝師,主要從事打葉復(fù)烤工藝技術(shù)研究工作。Email: sgxcl@126.com。