杜海娜,孟令峰,王松峰*,張炳輝,王愛華,劉 浩,李增盛,孫福山
1.中國農業(yè)科學院煙草研究所農業(yè)農村部煙草生物學與加工重點實驗室,山東省青島市嶗山區(qū)科苑經(jīng)四路11號 266101 2.中國農業(yè)科學院研究生院,北京市海淀區(qū)中關村南大街12號 100081 3.中國煙草總公司福建省公司,福州市鼓樓區(qū)北環(huán)中路133號 350000
煙葉烘烤是煙葉在烤房等高溫環(huán)境下顏色由綠變黃的干燥過程,需要根據(jù)煙葉外觀變化對烤房溫度、濕度和烘烤時間等因素進行調控[1-3],從而使煙葉失水和變黃相互協(xié)調。在煙葉烘烤過程中,合理調控失水狀態(tài)可以改善煙葉內在品質[4-5]。但在實際煙葉烘烤環(huán)節(jié),依靠人工通過烤房觀察窗查看煙葉變黃和皺縮程度進而判斷失水率仍存在著主觀差異的影響。近年來,隨著智能化技術在煙草領域的發(fā)展和應用,已構建了多種煙葉烘烤過程水分動態(tài)預測模型,推動了密集烤房烘烤操作的智能化發(fā)展。陳飛程等[6]利用全自動色差計提取煙葉顏色特征,采用圖像處理技術提取紋理特征,通過因子分析法得到6種表觀優(yōu)度因子作為模型輸入,搭建了煙葉含水率BP神經(jīng)網(wǎng)絡預測模型(決定系數(shù)R2為0.998 7,均方根誤差RMSE為0.011 8)。段史江[7]通過提取6種顏色特征和4種紋理特征分別輸入BP神經(jīng)網(wǎng)絡與LS-SVM算法,建立了煙葉含水率預測模型,發(fā)現(xiàn)基于遺傳算法的LS-SVM模型預測精度較佳,相關系數(shù)為0.998。張廣普等[8]通過因子分析法量化研究了烘烤變黃期煙葉的顏色變化,并構建了不同變黃溫度點的葉片含水率預測模型,發(fā)現(xiàn)在煙葉烘烤變黃期可利用BP神經(jīng)網(wǎng)絡基于煙葉顏色參數(shù)進行葉片含水率的快速無損估測。Miguel等[9]開發(fā)了基于數(shù)字圖像處理的煙葉密集烘烤控制系統(tǒng),能夠實時記錄煙葉樣品的質量損失情況和煙葉圖像,并發(fā)現(xiàn)質量損失與色相良好擬合,決定系數(shù)達0.970 7。上述研究大多采用試驗取樣結合機器學習算法對烘烤過程中煙葉水分變化進行分析,而利用實際煙葉烘烤環(huán)節(jié)實時采集數(shù)據(jù)預測烘烤過程煙葉失水率的研究則鮮見報道。為此,通過實時采集實際烘烤過程中煙葉狀態(tài)變化圖像及質量數(shù)據(jù),利用機器學習搭建3種模型預測煙葉失水率,以期為煙葉智能烘烤提供技術支持。
供試烤煙為2021年福建省三明市泰寧縣煙草試驗站成熟采收的翠碧一號中部葉(從下往上第7~9葉位),供試烤房為氣流上升式密集烤房。按照優(yōu)質烤煙栽培生產技術規(guī)范和當?shù)卮浔桃惶柮芗婵竟に囘M行田間管理和烘烤操作。
LT-P4A50-C工業(yè)耐高低溫相機(深圳立天威視光電技術有限公司);25 W標準拍攝用光源(深圳海睿光電有限公司);烤煙房質量傳感器(福州福日衡電子科技有限公司)。
1.3.1 數(shù)據(jù)采集和預處理
氣流上升式密集烤房一次可烘烤300桿煙(3層2列),取中層12桿煙作為烤煙質量數(shù)據(jù)采集對象計算烘烤過程中煙葉失水率,并采用LT-P4A50-C工業(yè)耐高低溫相機和標準拍攝用光源對準第一桿煙采集煙葉圖像(保存為BMP格式,分辨率為2 592 px×1 944 px),隨機加入烤房下層和上層數(shù)據(jù)各730、436個擴充樣本。
式中:Vi為烘烤過程中第i桿煙的失水率,%;Di為第i桿煙的實時質量,kg;Fi為點火前第i桿煙的質量,kg;V為烘烤過程中12桿煙的平均失水率,%。
為避免拍攝光照、背景環(huán)境等多種因素對采集圖像產生影響,采用中值濾波對煙葉圖像進行去噪處理,得到邊緣清晰的高質量煙葉圖像;然后利用MATLAB 2016(美國MathWorks公司)的閾值分割程序進行圖像分割[10-11],去除烤房內部背景等圖像干擾信息,縮短計算時間并提高計算空間利用率[12]。將煙葉圖像數(shù)據(jù)按照3∶1的比例劃分為訓練集與測試集,得到訓練集2 195個,測試集732個。
圖1 烘烤過程中煙葉質量和圖像采集裝置示意圖Fig.1 Schematic diagram of image acquisition and weighing device during curing process
1.3.2 圖像特征提取
①選用RGB顏色空間的R、G、B分量,并通過運算組合選取3種顏色特征參數(shù)2G-R-B、R/G和G-R,再結合Lab顏色空間[13]選取l*、a*、b*分量及其特征組合a*/b*,共10種顏色特征。②基于灰度梯度共生矩陣的圖像紋理特征提取方法,提取烘烤過程中煙葉圖像的能量、灰度均值、梯度均值、灰度分布不均勻性、梯度分布不均勻性、相關度、灰度熵、梯度熵、慣性矩和逆差矩,共10種紋理特征。
1.3.3 圖像特征簡化
使用SPSS 25.0統(tǒng)計分析軟件(美國國際商業(yè)機器公司)對選取的10種顏色特征參數(shù)和10種紋理特征參數(shù)進行聚類分析,計算這20種特征參數(shù)與煙葉失水率實測值的皮爾遜相關系數(shù)。根據(jù)聚類分析和相關性分析結果對圖像特征參數(shù)進行簡化。
提取訓練集中2 195個圖像的簡化特征參數(shù)及其對應的失水率作為模型輸入,利用MATLAB 2016(美國MathWorks公司)建立網(wǎng)格式支持向量機(GS-SVM)、遺傳算法(Genetic Algorithm,GA)優(yōu)化的BP神經(jīng)網(wǎng)絡(GA-BP)以及極限學習機(ELM)3種回歸預測模型。
1.4.1 GS-SVM模型
在2013年12月13日召開的中國水利企業(yè)協(xié)會五屆理事會二次會議上,新興鑄管股份有限公司被授予“2011—2012年度全國優(yōu)秀水利企業(yè)”榮譽稱號。
SVM模型核函數(shù)選擇徑向基核函數(shù)(Radial Basis Function,RBF)。通 過 網(wǎng) 格 搜 索 法(Grid Search,GS)對該模型的懲罰因子c和核參數(shù)g進行尋優(yōu)[14-15],運用網(wǎng)格采樣點函數(shù)meshgrid[步長為0.5,區(qū)間范圍為(-10,10)]得到最佳網(wǎng)絡回歸模型參數(shù)c和g分別為256.000 0和2.828 4;選取mapminmax函數(shù)對樣本進行歸一化處理,并對輸出結果進行反歸一化處理。
1.4.2 GA-BP神經(jīng)網(wǎng)絡模型
設置3層BP神經(jīng)網(wǎng)絡拓撲結構[16],訓練學習率為0.01,最大迭代次數(shù)為1 000,訓練精度為0.000 1,采用遺傳算法優(yōu)化神經(jīng)網(wǎng)絡的初始權值和閾值,初始種群規(guī)模設置為30,最大進化代數(shù)為50,交叉概率為0.8,變異概率為0.2,自變量范圍為(-3,3)。采用mapminmax函數(shù)對樣本進行歸一化和反歸一化處理,再利用BP神經(jīng)網(wǎng)絡進行精確求解[17-18]。
1.4.3 ELM模型
建立ELM模型[19-21],選擇步長為10,多次對隱含層神經(jīng)元的個數(shù)進行尋優(yōu),優(yōu)化確定模型的結構,最終確定隱含層神經(jīng)元個數(shù)為100。采用mapminmax函數(shù)對樣本進行歸一化和反歸一化處理。
將測試集中732個圖像的簡化特征參數(shù)輸入3種模型,導出預測的煙葉失水率并與實際失水率進行對比,利用Microsoft Exce1 2013(美國微軟公司)繪制回歸曲線。
選取均方根誤差(Root mean square error,RMSE)、決定系數(shù)(Coefficient of determination,R2)2個指標評價模型精度[22-23]。
從烤房中層煙葉圖像中選取15張(每10 h取1張)觀察烘烤過程中煙葉的變黃失水和皺縮情況,見圖2??梢?,在變黃期(0~40 h)煙葉失水變軟并逐漸由黃綠色變?yōu)闇\黃色;在定色期(40~100 h)煙葉繼續(xù)失水凋萎、葉尖逐漸干燥卷曲并由淺黃色逐漸加深變?yōu)辄S色;在干筋期(100~140 h)煙葉主脈失水、煙葉皺縮卷曲并由黃色變?yōu)殚冱S色。
2.2.1 圖像特征聚類分析
圖2 烘烤過程中煙葉圖像變化Fig.2 Changes of images of tobacco leaves during curing process
圖3 煙葉顏色特征和紋理特征變量聚類分析Fig.3 Cluster analysis of tobacco leaf color feature and texture feature variables
對烘烤過程中煙葉圖像的10種顏色特征和10種紋理特征分別進行變量聚類,結果見圖3??梢姡?0為距離將10種顏色特征分為兩類:R/G、a*/b*、a*、2G-R-B、G-R和b*為一類(類別1),R、G、B和l*為一類(類別2);10種紋理特征也分為兩類:能量、灰度均值、梯度均值、灰度分布不均勻性、相關度、灰度熵、梯度熵、慣性矩和逆差矩為一類(類別1),梯度分布不均勻性為一類(類別2)。同類特征之間差異較小,不同類特征之間差異較大。
2.2.2 圖像特征與失水率相關性分析
將提取的煙葉圖像特征值作為待選變量,分別與主導變量(烘烤過程中煙葉失水率)進行皮爾遜相關性分析,在每類特征中選擇與失水率變化相關性最強的特征,結果見表1??梢姡婵具^程中煙葉的10種顏色特征值均與失水率極顯著相關,其中類別1的6種顏色特征中a*/b*與失水率相關性最強,為0.935;類別2的4種顏色特征中R與失水率相關性最強,為0.931。煙葉的10種紋理特征值均與失水率極顯著相關,其中類別1中的梯度熵與失水率的相關系數(shù)絕對值最高,為0.914;類別2中僅有梯度分布不均勻性1種紋理特征,與失水率的相關性系數(shù)為0.883。綜上,根據(jù)聚類分析和相關性分析優(yōu)選出2種顏色特征(a*/b*、R)和2種紋理特征(梯度熵、梯度分布不均勻性)。對煙葉圖像特征進行優(yōu)選有利于降低模型計算的復雜程度,提高模型的穩(wěn)定性和預測速度[23]。
表1 煙葉顏色特征和紋理特征優(yōu)選Tab.1 Tobacco leaf color feature and texture feature optimization
2.2.3 優(yōu)選特征與失水率的變化
優(yōu)選出的圖像顏色特征(a*/b*、R)和紋理特征(梯度熵、梯度分布不均勻性)隨烘烤時間的變化見圖4??梢?,①顏色特征a*/b*總體呈現(xiàn)先逐漸升高后趨于穩(wěn)定的趨勢。a*分量表示從紅色到綠色的范圍,b*分量表示從黃色到藍色的范圍,兩個分量取值范圍均為[127,-128]。煙葉在烘烤過程中逐漸失水,顏色由綠色向黃色過渡[7]。a*分量表示綠色的負值逐漸增大,其絕對值逐漸減??;b*分量表示黃色的正值逐漸增大,a*/b*總體在煙葉干筋始期(100~120 h)逐漸升高,至干筋末期(120~140 h)煙葉顏色基本固定時逐漸穩(wěn)定。②R分量表示顏色的紅色成分,取值范圍為[0,255],數(shù)值越大說明亮度越高,其呈現(xiàn)先逐漸升高后趨于穩(wěn)定的趨勢,煙葉失水率持續(xù)增大,主要是由于煙葉在變黃期和定色期失水變軟,顏色發(fā)生變化,逐漸由綠色向黃色轉變,干筋期主脈繼續(xù)失水,此時黃色基本固定。③紋理特征梯度分布不均勻性在變黃期呈現(xiàn)下降趨勢,這是由于隨烘烤時間的增加,煙葉失水凋萎,溝紋逐漸清晰;定色期和干筋期梯度分布不均勻性逐漸升高,這是由于定色期是煙葉主要失水階段,煙葉葉面逐漸粗糙,煙葉的支脈、主脈逐漸失水,溝紋逐漸復雜;干筋期煙葉主脈進一步失水,葉片全干,煙葉皺縮卷曲最為嚴重。④梯度熵則在變黃期略有上升,定色期和干筋期逐漸降低,同梯度分布不均勻性變化趨勢相反[6-7]。
以優(yōu)選出的4種顏色和紋理特征作為模型輸入,采用訓練集的煙葉圖像及其對應的失水率對3種模型進行訓練,3種模型對測試集的失水率預測結果見圖5??梢?,GS-SVM、GA-BP和ELM 3種回歸模型均具有較高的預測精度(0.996 1≤R2≤0.997 3)和 較 小 的預測 誤 差(0.011 7≤RMSE≤0.014 0),能夠較為準確地預測密集烘烤過程中煙葉失水率,其中GS-SVM模型預測誤差最小,為0.011 7。3種回歸模型在變黃期(0~40 h)和定色期(40~100 h)的預測誤差較小,這是由于變黃期(0~40 h)煙葉顏色變化明顯,定色期(40~100 h)雖顏色基本固定但因葉脈失水而使得紋理逐漸清晰;干筋后期(120~140 h)煙葉失水主要為主脈失水,煙葉變化不明顯,從而導致預測值波動較大,失水率預測誤差較高。
圖4 烘烤過程中煙葉圖像特征和失水率變化Fig.4 Changes of image features and dehydration rate of tobacco leaves during curing process
圖5 3種煙葉失水率回歸模型預測結果Fig.5 Prediction results of dehydration rate of tobacco leaves by three regression models
通過在密集烤房中安裝質量傳感器和工業(yè)耐高低溫相機,獲取烘烤過程中煙葉圖像和失水率數(shù)據(jù);對煙葉圖像的顏色特征和紋理特征進行提取、聚類和相關性分析后,優(yōu)選出4種特征(a*/b*、R、梯度熵、梯度分布不均勻性)作為輸入變量對3種模型(GS-SVM、GA-BP、ELM)進行訓練,建立了烘烤過程中煙葉失水率預測模型。分別利用3種預測模型對測試集圖像進行失水率預測,結果表明,3種預測模型均能夠準確預測密集烘烤過程中煙葉失水率,預測精度均超過0.99,其中GS-SVM模型預測誤差最小,為0.011 7。煙葉失水率預測模型的構建實現(xiàn)了密集烘烤過程中煙葉失水率的實時無損檢測,為烘烤工藝參數(shù)的精準調控奠定了基礎并提供了試驗參考數(shù)據(jù)。但本研究中建立的模型參數(shù)僅依據(jù)福建產區(qū)單一品種、單一部位煙葉進行確定,未來還需要增加不同產區(qū)、不同品種、不同部位的烤煙數(shù)據(jù)來擴充數(shù)據(jù)集并進行模型訓練,以進一步提高模型性能,為后續(xù)煙葉烘烤智能調控系統(tǒng)的研發(fā)提供支持。