楊承恩, 蘇 玲, 馮偉志, 周建宇, 武海巍*, 袁月明, 王 琦*
1. 吉林農業(yè)大學工程技術學院, 吉林 長春 130118 2. 吉林農業(yè)大學食藥用菌教育部工程研究中心, 吉林 長春 130118
平菇(Pleurotus ostreatus)也稱糙皮側耳, 中國臺灣又稱秀珍菇, 分類學上將其劃分為擔子菌門、 傘菌目、 側耳科、 側耳屬[1]。 因其價格便宜, 味道鮮美非常受大眾喜愛。 近年來, 我國平菇產業(yè)發(fā)展迅猛, 目前是我國產量前三位的食用菌大宗品種, 在全國大部分省、 市、 地區(qū)均有栽培。 實際生產中全國各地的平菇因為成本問題, 往往采用當?shù)剞r作物廢料作為培養(yǎng)平菇的基質, 不同的基質和當?shù)鬲氂械霓r業(yè)特點往往導致不同地區(qū)平菇營養(yǎng)價值各具特色[2-3]。 龍瑞等經過對不同地區(qū)平菇分析得出不同主栽地區(qū)平菇各有自己的營養(yǎng)價值優(yōu)勢[4]。 不同地區(qū)氣候、 栽培方式差異也影響著平菇的口感、 營養(yǎng)成分含量。 消費者很難從外觀進行其產地的判別, 為有序進行平菇產品的規(guī)范管理, 打造區(qū)域特色平菇品牌, 開發(fā)可實現(xiàn)簡單、 快速、 低成本的平菇產地鑒別方法迫在眉睫。
傅里葉變換紅外光譜(Fourier translation infrared spectroscopy, FTIR)技術具有綠色、 高效、 低成本的特點和優(yōu)勢[5-6], 在檢測和識別農作物種類、 地區(qū)方面已有許多研究報道。 陳林杰等[7]通過中紅外光譜指紋區(qū)對不同產地桑黃進行分析; 李超等[8]通過紅外光譜的圖譜解析對不同產地蒼術進行快速判別; 安淑靜等[9]基于中紅外光譜結合化學計量學對7種產地山茱萸鑒定與分析等等。 目前, 尚未見傅里葉中紅外光譜鑒別平菇產地的研究報道, 本研究基于傅里葉中紅外光譜技術的特點與機器學習建模, 開發(fā)一種簡單、 快速、 低成本的平菇產地判別方法, 以解決平菇由“量產”升級轉型向“優(yōu)產”的產業(yè)需求。
選取由國家食用菌產業(yè)技術體系各綜合試驗站, 提供并鑒定的平菇樣品, 共600份。 樣品分布情況見表1。
表1 平菇樣品采集信息Table 1 Antler cap sample collection information
主要設備: 美國Nicolet iS10傅里葉變換紅外光譜儀, 便攜式HY-12型壓片機(天津天光光學儀器有限公司), 超帥高速多功能粉碎機型號CS-700(武義海納電器有限公司), 200目不銹鋼篩(江蘇國業(yè)機械設備有限公司)等。
數(shù)據(jù)采用Omnic v8.2光譜采集軟件、 The Unscrambler X 10.4、 Matlab2014b、 Origin2019b等數(shù)據(jù)處理軟件進行處理。
首先用蒸餾水洗凈平菇樣品上的雜質, 置于干燥箱9~10 h脫水至恒重, 使用多功能粉碎機粉碎, 過200目篩, 同時將溴化鉀放入75 ℃恒溫干燥箱內烘6小時左右。
將每個樣本以平菇1.8 mg和溴化鉀190 mg放入瑪瑙研缽中研磨, 再經紅外壓片模具壓片測定, 采用Omnic v8.2軟件采集中紅外光譜數(shù)據(jù)。 波數(shù)范圍400~4 000 cm-1, 分辨率為4 cm-1, 掃描次數(shù)為16, 每個樣本重復掃描3次, 取平均光譜。 實驗數(shù)據(jù)采集過程中, 保持室內溫度為25 ℃, 相對濕度為38%RH。 實驗采集10個不同地區(qū)平菇各60份樣品, 共600份樣品。
1.4.1 光譜預處理
在采集光譜信息時, 會因為樣品本身、 光散射與基線漂移等因素產生隨機的偏差。 光譜預處理技術不僅對原始光譜的噪聲進行優(yōu)化處理, 且可以提高對光譜數(shù)據(jù)處理的效率。 在與原始光譜對比的基礎上, 采用The Unscrambler X 10.4軟件對采集的原始光譜進行多元散射校正(multiplicative scatter correction, MSC), 標準正態(tài)變量變換(standard normal variable transformation, SNV), 平滑(smoothing, SG), 一階導數(shù)(first derivative, FD), 二階導數(shù)(second derivative, SD)等數(shù)據(jù)處理。
1.4.2 K-S檢驗樣品劃分
K-S檢驗(kolmogorov-stone, K-S)是一種能夠選出充分符合樣本分布規(guī)律且具有代表性數(shù)據(jù)的樣本劃分方法[10]。 按照訓練集和測試集樣品數(shù)為7∶3的比例, 用K-S法劃分600份樣品, 得訓練集420份(不同地區(qū)平菇各42份), 測試集180份(不同地區(qū)平菇各18份)。
1.4.3 主成分分析
主成分分析(principal component analysis, PCA)是一種常見的無監(jiān)督降維方法[11]。 針對中紅外光譜數(shù)據(jù)量大, 冗余信息多的特點, 使用PCA降維分析可以減少無效數(shù)據(jù)的堆積并盡可能提取主要特征信息。
1.4.4 支持向量機
支持向量機(support vector machine, SVM)是一種非常有效的分類與預測算法[12]。 通過核函數(shù)將低維度中不可分的數(shù)據(jù)映射到一個高維度的n維歐式空間中, 就此尋找一個超平面求解分類問題。
1.4.5 隨機森林
隨機森林(random forest, RF)是一種具有集成思想的分類與預測算法[13]。 它將每一個單獨的決策樹匯集成決策森林, 從而產生“好而不同”的個體學習器, 并在保持準確性和多樣性方面做出最優(yōu)的分類與預測選擇。
1.4.6 極限學習機
極限學習機(extreme learning machine, ELM)是一種基于經典神經網(wǎng)絡改進后的快速學習算法[14]。 在訓練階段采用隨機的輸入層權值和偏差, 能夠以極快的速度進行較好泛化, 具有選擇參數(shù)少、 學習效果好、 適用性強的特點。
圖1 不同產區(qū)的平菇平均光譜圖Fig.1 Average spectra of pleurotus ostreatus in different producing areas
經多種預處理后的光譜結合支持向量機進行建模對比如表2, 可知MSC預處理后的光譜數(shù)據(jù)建模識別效果最佳, 訓練集識別率為86.67%, 測試集識別率為84.44%。
表2 光譜預處理方法對比Table 2 Comparison of spectral pretreatment methods
將MSC平菇光譜數(shù)據(jù)進行歸一化處理, 設置數(shù)據(jù)映射范圍為0~1(見圖2)。 在python3.7平臺上, 采用pandas庫中的PCA函數(shù)對歸一化后的訓練集MSC平菇光譜數(shù)據(jù)進行主成分分析。 此處僅展示MSC全段光譜的前10個主成分方差百分比和累積貢獻率如表3所示。 可知PCA1的方差百分比最大為53.9%, PCA2的方差百分比為13.85%, 前3個PCA的累積貢獻率為79.09%, 直到前7個PCA的累積貢獻率為97.51%, 之后的各PCA方差百分比都小于1%且累積貢獻率提高速度逐步變小。
表3 前10個主成分的方差百分比和累積貢獻率Table 3 Variance percentage and cumulative contribution rate of the top 10 principal components
圖2 歸一化后的不同產地平菇數(shù)據(jù)Fig.2 Normalized data of pleurotus ostreatus from different habitats
在PCA降維過程中, 選擇主成分的個數(shù)會直接影響機器學習建模后的分析結果。 采用主成分個數(shù)累積貢獻率≥85%原則結合主成分方差百分比≥1%原則[15], 選擇經PCA降維后的前7個主成分。
將經PCA降維后的前7個主成分光譜數(shù)據(jù)作為輸入變量, 建立SVM, RF和ELM不同產地平菇識別模型。
2.3.1 SVM模型
支持向量機需要確定最佳懲罰因子(c)、 核函數(shù)參數(shù)(g), 及最優(yōu)核函數(shù)。 此處采用粒子群優(yōu)化算法(particle swarm optimization, PSO), 將變量C1初始值設為1.5來增加PSO參數(shù)局部搜索能力, C2初始值設為1.7增加PSO參數(shù)全局搜索能力, 最大進化數(shù)量初始值為200, 種類最大數(shù)量初始值為20, 種族更新彈性系數(shù)為1, 以此來尋找最佳c和g, 使用徑向基核函數(shù)(radial basis function, RBF)作為最優(yōu)核函數(shù)。
基于MSC-PCA平菇光譜數(shù)據(jù)建立SVM識別模型見圖3(a,b), 可知SVM模型在訓練集和測試集的識別率均為100%。 由此可得SVM對不同產地的平菇分類識別有著極好的效果。
圖3(a) 粒子群優(yōu)化參數(shù)尋優(yōu)適應度曲線Fig.3(a) Particle swarm optimization parameter optimization fitness curve
圖3(b) SVM的測試集識別結果Fig.3(b) Test set recognition results of SVM
2.3.2 RF模型
在RF模型中, 初始分類器的個數(shù)影響著最終建模分類的好壞, 本研究采用遺傳算法尋找最優(yōu)參數(shù), 將遺傳算法中待優(yōu)化的變量個數(shù)設置為2, 個體數(shù)目設置為20, 最大遺傳代數(shù)設置為200, 變量的二進制位數(shù)設置為10。 建立RF模型, 當決策樹數(shù)量為540時模型識別效果最佳, 建模識別結果如圖4(a,b)。
圖4(a) RF的訓練集識別結果Fig.4(a) Training set recognition results of RF
圖4(b) RF的測試集識別結果Fig.4(b) Test set recognition results of RF
由圖4(a,b)可知, RF模型對不同產地的平菇識別效果較好, 訓練集識別率為100%, 測試集識別率為98.89%, 僅有1份武漢地區(qū)平菇樣品和1份云南地區(qū)平菇樣品識別錯誤。
2.3.3 ELM模型
在ELM模型中, 隨機輸入的隱藏權值和隱藏偏差閾值會極大地影響ELM模型的識別準確率, 同時過多的隱層神經元個數(shù)又會增加模型識別的耗時時間。 選擇sigmoidal函數(shù)作為激活函數(shù), 設置隱層神經元個數(shù)為1~5 000, 步長為1進行對比尋找最優(yōu)參數(shù), 見圖5(a, b)。
圖5(a) ELM的訓練集識別結果Fig.5(a) Training set recognition results of ELM
圖5(b) ELM的測試集識別結果Fig.5(b) Test set recognition results of ELM
經計算對比, 當最優(yōu)隱層神經元個數(shù)為1 252, ELM模型尋優(yōu)速度快, 識別效果最好。 由圖5(a, b)可知, 訓練集識別率為99.28%, 有1份濟南地區(qū)平菇樣品和1份新疆地區(qū)平菇樣品, 1份西藏地區(qū)平菇樣品識別錯誤; 測試集識別率為98.33%, 有2份武漢地區(qū)平菇樣品和1份云南地區(qū)平菇樣品識別錯誤。 ELM模型識別率尚可。
基于中紅外光譜結合機器學習, 提出一種對不同產地平菇快速鑒別的方法。
(1)受產地差異的影響, 來源于不同產地平菇在中紅外光譜的530~1 660 cm-1波段內的相關性表現(xiàn)出明顯差異。
(2)MSC-PCA平菇光譜數(shù)據(jù)結合SVM, RF, ELM都有不錯的識別效果, 其中SVM模型訓練集、 測試集識別率均為100%; RF模型訓練集識別率為100%, 但測試集識別率稍低為98.89%; ELM模型相比其他模型識別率較差, 訓練集識別率為99.28%, 測試集識別率為98.33%。 3種模型的識別率均高于98%, 說明采用紅外光譜技術結合機器學習可以有效識別不同產地的平菇。
(3)中紅外光譜結合機器學習, 特別是SVM模型能夠更準確地鑒別不同產地平菇, 此方法的開發(fā)也可為其他種類的食用菌產品來源鑒別提供參考。