• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于原煙外觀圖像和近紅外光譜的煙葉感官質(zhì)量模型研究

    2023-04-20 01:22:46陳思昂王敏杜薇高旭李海濤鄧羽翔王俊稀郭彥旭
    甘肅農(nóng)業(yè)科技 2023年3期
    關(guān)鍵詞:感官質(zhì)量近紅外光譜

    陳思昂 王敏 杜薇 高旭 李海濤 鄧羽翔 王俊稀 郭彥旭

    摘要:為了探討不同產(chǎn)地、不同等級(jí)以及不同品種來(lái)料煙外觀指標(biāo)、物理特性及近紅外光譜對(duì)其感官質(zhì)量的影響,找到一種可以客觀反映煙葉感官質(zhì)量的方法。選取了四川3個(gè)產(chǎn)地、3個(gè)部位、10個(gè)等級(jí)和2個(gè)品種的單料煙,以組為單位進(jìn)行采集,每組10片,共采集煙葉7897片。使用變量標(biāo)準(zhǔn)化(SNV)方法對(duì)原始光譜數(shù)據(jù)進(jìn)行校正,用Standard Scaler方法對(duì)煙葉外觀指標(biāo)、物理特性、校正后的光譜數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化。采用主成分分析(PCA)法對(duì)數(shù)據(jù)進(jìn)行降維。分別運(yùn)用二次判別分析算法(QDA)、K近鄰算法(KNN)、支持向量機(jī)(SVC)構(gòu)建訓(xùn)練模型,用Grid Search CV算法進(jìn)行超參優(yōu)化,以平衡準(zhǔn)確率作為模型評(píng)價(jià)指標(biāo)。結(jié)果表明,3個(gè)訓(xùn)練模型中,SVC的泛化能力最優(yōu)。其中,香氣風(fēng)格彰顯程度、香氣質(zhì)、香氣量、雜氣、濃度、勁頭、刺激性、余味及甜感的預(yù)測(cè)平衡準(zhǔn)確率分別為0.747、0.751、0.715、0.720、0.712、0.774、0.685、0.725、0.700。外觀指標(biāo)、物理特性及近紅外光譜共同影響著煙葉的感官質(zhì)量。

    關(guān)鍵詞:煙葉綜合評(píng)價(jià);外觀指標(biāo);近紅外光譜;感官質(zhì)量

    中圖分類(lèi)號(hào):S-3? ? ? ? ? ? ? ? 文獻(xiàn)標(biāo)志碼:A? ? ? ? ? ? ? ? 文章編號(hào):2097-2172(2023)03-0260-10

    doi:10.3969/j.issn.2097-2172.2023.03.013

    Abstract: To investigate the influence of the appearance index, physical properties and near-infrared spectroscopy of cigarettes from different origins, different grades and different varieties on the sensory qualityand to find a way that could objectively reflect the sensory quality of tobacco leaf, in this study, single tobaccos including 3 parts, 10 grades and 2 varieties were selected from 3 origins of Sichuan Province, and 10 pieces of tobacco leaves in each group were adopted for the collection, i.e. a total of 7897 tobacco leaves were collected. The original spectral data was corrected by standard normalized variate (SNV), and the appearance index, physical properties and standarded spectral data of tobacco leaf were standardized with the Standard Scaler method subsequently. Principal Component Analysis(PCA) was used to reduce the dimensionality of the data. The quadratic Discriminant Analysis Algorithm(QDA), K-Nearest Neighbors (KNN), and Support Vector Machine (SVC) were performed to construct the training model, and the Grid Search CV algorithm was executed for hyperparameter optimization, and the balance accuracy was used as the model evaluation. The results showed that mong the three training models, SVC had the best generalization ability. The prediction balance accuracy of aroma style highlighting, aromatric, aroma volume,miscellaneous gas, concentration, strength, irritation, aftertaste and sweetness were 0.747, 0.751, 0.715, 0.720, 0.712, 0.774, 0.685, 0.725, 0.700, respectively. The appearance index, physical properties and near-infrared spectra jointly affect the sensory quality of tobacco leaf.

    Key words: Comprehensive evaluation of tobacco leaf; Appearance index; Near-infrared spectroscopy; Sensory quality

    煙草是我國(guó)重要的經(jīng)濟(jì)作物,而煙葉是卷煙工業(yè)最重要的原料基礎(chǔ)。煙葉的質(zhì)量直接影響著煙葉的可用性,影響著煙草經(jīng)濟(jì)的發(fā)展。煙葉質(zhì)量是一個(gè)綜合概念,包含了煙葉的外觀指標(biāo)、物理特性、化學(xué)成分以及感官質(zhì)量,它們從不同方面反映了煙葉的品質(zhì)特征。外觀特征中的煙葉顏色、物理特性中的長(zhǎng)度、葉片結(jié)構(gòu)等是煙葉分級(jí)的重要依據(jù)?;瘜W(xué)成分和感官質(zhì)量反映了煙葉的內(nèi)在質(zhì)量,化學(xué)成分的含量可通過(guò)近紅外光譜數(shù)據(jù)建模測(cè)量。外觀特征、物理特性在某種程度上和煙葉的內(nèi)在質(zhì)量存在著必然的聯(lián)系[1 - 2 ],而感官質(zhì)量是目前鑒定煙葉內(nèi)在質(zhì)量的重要手段,是煙葉產(chǎn)品質(zhì)量的基礎(chǔ)和核心[3 ]。目前,煙葉的感官質(zhì)量主要依靠專(zhuān)家的評(píng)吸,較大程度上受專(zhuān)家的知識(shí)經(jīng)驗(yàn)水平、心理、情緒等的影響,指標(biāo)較主觀、片面。因此亟須尋找一種可以客觀反映煙葉感官質(zhì)量的方法。

    近年來(lái)的研究表明,通過(guò)一些指標(biāo)可以一定程度上客觀反映煙葉的感官質(zhì)量。通過(guò)對(duì)煙葉的厚度、顏色和彈性與感官舒適性指標(biāo)中的甜潤(rùn)、清晰、清爽度進(jìn)行相關(guān)性分析,發(fā)現(xiàn)這些外觀指標(biāo)可以反映煙葉的感官舒適性[4 ]。對(duì)煙葉化學(xué)成分與感官質(zhì)量進(jìn)行偏最小二乘回歸分析表明,煙葉的糖堿比、糖氮比、總植物堿、揮發(fā)堿、總氮、蛋白質(zhì)、水溶性總糖[5 ]、還原糖、K、Cl、揮發(fā)堿等分別與感官刺激性、雜氣、柔細(xì)度、余味、香氣質(zhì)、勁頭等感官質(zhì)量指標(biāo)有不同程度的相關(guān)性[6 ]。上述研究?jī)H通過(guò)煙葉的某一類(lèi)質(zhì)量,比如外觀質(zhì)量/內(nèi)在化學(xué)成分來(lái)評(píng)價(jià)煙葉的質(zhì)量,這種評(píng)價(jià)是片面的,因?yàn)闊熑~的質(zhì)量是各個(gè)指標(biāo)綜合表征的結(jié)果。同時(shí),相關(guān)研究主要集中在簡(jiǎn)單的相關(guān)、偏回歸分析方法,這些分析方法只能反映變量?jī)?nèi)各項(xiàng)指標(biāo)間的簡(jiǎn)單相關(guān)性,難以客觀反映變量整體間的內(nèi)在聯(lián)系。有研究者對(duì)云南普洱煙區(qū)初烤煙葉的外觀質(zhì)量、常規(guī)化學(xué)成分進(jìn)行主成分分析或因子分析,之后對(duì)煙葉外觀質(zhì)量、常規(guī)化學(xué)成分與感官質(zhì)量指標(biāo)進(jìn)行典型相關(guān)分析,同樣表明外觀質(zhì)量、化學(xué)成分與感官質(zhì)量存在顯著的相關(guān)性[7 ],但這同樣不能反映煙葉的這些指標(biāo)對(duì)感官質(zhì)量的影響。除此之外,上述研究采用的是化學(xué)成分?jǐn)?shù)據(jù),是經(jīng)過(guò)模型計(jì)算出的數(shù)據(jù),存在一定的誤差,不同機(jī)器測(cè)量出的結(jié)果也會(huì)略有不同。為探討影響煙葉感官質(zhì)量各指標(biāo)的因素,我們從數(shù)據(jù)源頭出發(fā),采用最原始的近紅外光譜數(shù)據(jù),同時(shí)加上煙葉的外觀指標(biāo)、物理特性數(shù)據(jù),把這些數(shù)據(jù)綜合起來(lái)訓(xùn)練機(jī)器學(xué)習(xí)模型,從而建立一種全面、客觀表征煙葉的感官質(zhì)量的方法。

    1? ?材料與方法

    1.1? ?材料

    1.1.1? ? 供試品種? ? 指示單料煙品種為云87、紅大,產(chǎn)自四川涼山州會(huì)東縣、會(huì)理縣、德昌縣。

    1.1.2? ? 實(shí)驗(yàn)設(shè)備? ? 煙葉綜合測(cè)試臺(tái)(型號(hào)為GTM- 600),由上海創(chuàng)和億電子科技有限公司自主研發(fā),主要用于拍攝原煙圖像以及檢測(cè)原煙的物理特性指標(biāo)。手持式近紅外光譜儀(型號(hào)為AURA),由Carl Zeiss公司生產(chǎn),主要用于采集950~1 650 nm波長(zhǎng)的近紅外光譜數(shù)據(jù)。

    1.2? ?樣品采集

    于2021年9月至2022年2月收集四川3個(gè)采樣點(diǎn)、2個(gè)單料煙品種的上中下3個(gè)部位、10個(gè)等級(jí)的煙葉,以組為單位進(jìn)行采集,每組數(shù)量為10片,共采集煙葉7 897片。以上單料煙由煙葉分級(jí)專(zhuān)家按照烤煙國(guó)家標(biāo)準(zhǔn)(GB 2635—1992)進(jìn)行等級(jí)分選,共包含10個(gè)等級(jí),分別為上部橘黃二級(jí)煙(B2F)、下部橘黃二級(jí)煙(X2F)、上部橘黃三級(jí)煙(B3F)、中部橘黃一級(jí)煙(C1F)、中部橘黃三級(jí)煙(C3F)、上部橘黃一級(jí)煙(B1F)、中部橘黃二級(jí)煙(C2F)、中部橘黃四級(jí)煙(C4F)、中部檸檬黃三級(jí)煙(C3L)、中部微帶青三級(jí)煙(C3V)。采集煙葉時(shí)每10片煙葉作為一個(gè)整體,使用手持近紅外光譜儀采集光譜。每種單料煙采集的光譜數(shù)量為25~50,采集5~10組。

    1.3? ?方法

    1.3.1? ? 原煙外觀指標(biāo)檢測(cè)? ? RGB圖像是最常見(jiàn)的一種圖像表示方式,由R(紅色)、G(綠色)、B(藍(lán)色)3個(gè)通道組成。本研究通過(guò)對(duì)原煙圖像分別提取R、G、B通道的顏色值,并計(jì)算平均值和標(biāo)準(zhǔn)偏差,可以獲取圖像的R-均值、R-標(biāo)準(zhǔn)偏差、G-均值、G-標(biāo)準(zhǔn)偏差、B-均值、B-標(biāo)準(zhǔn)偏差等外觀指標(biāo)。HSV圖像是另外一種圖像表示方式,由H(色調(diào))、S(飽和度)、V(亮度)3個(gè)通道組成,本研究同時(shí)將圖像轉(zhuǎn)換到HSV顏色空間,分別提取H、S、V通道的顏色值,并計(jì)算各通道的平均值和標(biāo)準(zhǔn)偏差。

    1.3.2? ? 原煙物理特性的檢測(cè)? ? 采用煙葉綜合測(cè)試臺(tái)稱(chēng)取原煙重量,并獲取原煙的厚度。采用圖像預(yù)處理的方法從煙葉綜合測(cè)試臺(tái)拍攝的原煙圖像中提取長(zhǎng)度、寬度、周長(zhǎng)、面積、結(jié)構(gòu)等物理特性指標(biāo)。

    1.3.3? ? 原煙近紅外光譜的檢測(cè)? ? 采用手持式近紅外光譜儀檢測(cè)范圍為950~1 650 nm的原煙近紅外光譜數(shù)據(jù)。

    1.3.4? ? 原煙感官質(zhì)量評(píng)價(jià)? ? 煙葉感官質(zhì)量指標(biāo)包括香氣風(fēng)格彰顯程度、香氣質(zhì)、香氣量、雜氣、濃度、勁頭、刺激性、余味及甜感,按照GB5606.4 — 2005進(jìn)行評(píng)吸,利用香味輪廓法采用9分制判定。

    1.4? ?數(shù)據(jù)挖掘

    1.4.1? ? 數(shù)據(jù)劃分? ? 以組為單位進(jìn)行訓(xùn)練集和測(cè)試集的劃分。先采集的組數(shù)作為訓(xùn)練集,后采集的組數(shù)作為測(cè)試集。每個(gè)光譜號(hào)下的單料煙均會(huì)采集8~10組,用每個(gè)光譜號(hào)下單料煙的前8組來(lái)訓(xùn)練模型,剩下的組用來(lái)預(yù)測(cè)。

    1.4.2? ? 數(shù)據(jù)探索? ? 采用matplotlib庫(kù)繪制外觀指標(biāo)、物理特性及近紅外光譜的頻數(shù)直方圖查看數(shù)據(jù)的整體分布情況。采用seaborn庫(kù)繪制相關(guān)系數(shù)矩陣查看外觀指標(biāo)、物理特性及近紅外光譜各指標(biāo)之間的相關(guān)性,探索數(shù)據(jù)之間是否存在多重共線性。

    1.4.3? ? 管道模型訓(xùn)練及優(yōu)化? ? 考慮到測(cè)試集數(shù)據(jù)需要和訓(xùn)練集數(shù)據(jù)進(jìn)行相同的預(yù)處理,我們把樣本平衡、數(shù)據(jù)標(biāo)準(zhǔn)化、數(shù)據(jù)降維以及模型訓(xùn)練寫(xiě)入一個(gè)管道模型。

    由于感官質(zhì)量各指標(biāo)中各類(lèi)別的樣本數(shù)存在明顯的樣本不平衡,因此樣本需要進(jìn)行平衡處理。本研究采用imbalanced-learn庫(kù)對(duì)樣本數(shù)少的類(lèi)別進(jìn)行上采樣。

    煙葉的外觀指標(biāo)、物理特性、近紅外光譜數(shù)據(jù)之間的量綱不同,可能會(huì)影響后續(xù)模型的精度,因此這些數(shù)據(jù)在建模前需要進(jìn)行標(biāo)準(zhǔn)化處理。我們采用Standard Scaler方法對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化。原始近紅外光譜數(shù)據(jù)在采集時(shí)可能會(huì)受到散射帶來(lái)的光譜誤差,需要先進(jìn)行變量標(biāo)準(zhǔn)化(standard normalized variate,SNV)處理。

    本研究的數(shù)據(jù)涵蓋了來(lái)自不同維度的特征,特征之間可能會(huì)存在著多重共線性,這會(huì)導(dǎo)致解的空間不穩(wěn)定,從而導(dǎo)致模型的泛化能力弱;同時(shí),高維空間樣本具有稀疏性,導(dǎo)致模型比較難找到數(shù)據(jù)特征。我們采用主成分分析方法(Principal Component Analysis,PCA)進(jìn)行數(shù)據(jù)降維。

    QDA(Quadratic Discriminant Analysis Algorithm)為二次判別分析算法,是一種生成模型,它假設(shè)每個(gè)類(lèi)別服從高斯分布,同線性判別分析一樣,求在輸入為 x 的情況下分類(lèi)為 k 的概率最大的分類(lèi)。KNN(K-Nearest Neighbors)為K近鄰算法,是一種分類(lèi)算法,其思想是一個(gè)樣本與數(shù)據(jù)集中的k個(gè)樣本最相似,如果這k個(gè)樣本中的大多數(shù)屬于某一個(gè)類(lèi)別,則該樣本也屬于這個(gè)類(lèi)別。SVC(Support Vector Machine)是支持向量機(jī)中的一種分類(lèi)算法,其原理是尋找一個(gè)能夠區(qū)分兩類(lèi)的超平面,使得邊際最大。我們選取QDA、KNN、SVC 3種模型作為數(shù)據(jù)的訓(xùn)練模型,采用網(wǎng)格搜索+交叉驗(yàn)證(Grid Search CV)作為超參數(shù)優(yōu)化算法選取最優(yōu)的超參數(shù)及模型。

    1.4.4? ? 模型測(cè)試和評(píng)估? ? 對(duì)測(cè)試集數(shù)據(jù)采用和訓(xùn)練集相同的處理方法,之后采用最優(yōu)模型對(duì)測(cè)試集數(shù)據(jù)進(jìn)行預(yù)測(cè),并用平衡準(zhǔn)確率作為模型的評(píng)估指標(biāo)。

    2? ?結(jié)果與分析

    2.1? ?數(shù)據(jù)探索結(jié)果

    2.1.1? ? 數(shù)據(jù)分布情況? ? 自變量的數(shù)據(jù)分布對(duì)后面的數(shù)據(jù)預(yù)處理以及建模有著非常重要的作用。本研究分別繪制了外觀指標(biāo)、物理特性及近紅外光譜數(shù)據(jù)的直方圖。從煙葉外觀指標(biāo)和物理特性的直方圖(圖1)可以看出,重量、寬度、周長(zhǎng)、面積、結(jié)構(gòu)、R-均值、R-標(biāo)偏、G-均值、G-標(biāo)偏、B-均值、B-標(biāo)偏、H-均值、S-均值、S-標(biāo)偏、V-均值和V-標(biāo)偏數(shù)據(jù)近似服從正態(tài)分布;煙葉的厚度存在明顯的異常值,煙葉厚度為0.005~0.020的數(shù)據(jù)量極少;長(zhǎng)度數(shù)據(jù)為左偏態(tài)分布;H-標(biāo)偏數(shù)據(jù)為右偏態(tài)分布。剔除煙葉厚度超過(guò)0.005的異常值后,再次探索煙葉厚度的數(shù)據(jù)分布情況,表明數(shù)據(jù)近似服從正態(tài)分布。

    近紅外光譜數(shù)據(jù)維度比較高,因此每間隔50 nm繪制該波長(zhǎng)的分布。從煙葉近紅外光譜數(shù)據(jù)的直方圖(圖2)可以看出,數(shù)據(jù)近似服從正態(tài)分布,沒(méi)有明顯的異常值。綜上可知,除了煙葉長(zhǎng)度和H-標(biāo)偏數(shù)據(jù)服從偏態(tài)分布外,其他煙葉外觀指標(biāo)、物理特性及近紅外光譜數(shù)據(jù)均近似服從正態(tài)分布。

    進(jìn)一步探討感官質(zhì)量指標(biāo)作為因變量的各類(lèi)別數(shù)據(jù)情況,以查看各類(lèi)別數(shù)據(jù)之間是否存在不平衡。如圖3所示,各個(gè)感官質(zhì)量指標(biāo)均出現(xiàn)中間類(lèi)別數(shù)量多、兩邊類(lèi)別數(shù)量少的情況。各個(gè)類(lèi)別的數(shù)量極度不平衡,有些類(lèi)別的數(shù)量所占總數(shù)比甚至小于5%,這種情況下建立的模型會(huì)比較偏重于數(shù)量占比多的類(lèi)別,導(dǎo)致模型的泛化能力差,因此需要對(duì)占比小于5的類(lèi)別進(jìn)行相鄰類(lèi)別合并。本研究將香氣風(fēng)格彰顯程度中類(lèi)別10合并到類(lèi)別9中,香氣量中類(lèi)別9合并到類(lèi)別8中;將雜氣中類(lèi)別10合并到類(lèi)別9中,雜氣中類(lèi)別4合并到類(lèi)別5中;將濃度中類(lèi)別9合并到類(lèi)別8中;將勁頭中類(lèi)別8合并到類(lèi)別7中;將刺激性中類(lèi)別10合并到類(lèi)別9中;將余味中類(lèi)別9與10歸并為類(lèi)別8,余味中類(lèi)別4歸并為類(lèi)別5;將甜感中類(lèi)別9歸并為類(lèi)別8。經(jīng)過(guò)合并后,極少數(shù)占比的類(lèi)別不存在,但各類(lèi)別之間的數(shù)據(jù)仍然是不平衡的。綜上所述,感官質(zhì)量各指標(biāo)中的各類(lèi)別之間不平衡,后續(xù)建模時(shí)需要對(duì)數(shù)據(jù)進(jìn)行平衡處理。

    2.1.2? ? 數(shù)據(jù)相關(guān)性分析? ? 自變量之間較強(qiáng)的關(guān)聯(lián)性說(shuō)明變量之間存在多重共線性,這種共線性會(huì)對(duì)后面的模型訓(xùn)練造成一定的影響,因此建模之前需要探索煙葉外觀指標(biāo)、物理特性及近紅外光譜數(shù)據(jù)之間的關(guān)聯(lián)性。從煙葉外觀指標(biāo)、物理特性之間的相關(guān)性分析(圖4)可以看出,各物理特性之間,重量與面積的相關(guān)系數(shù)為0.7,長(zhǎng)度和周長(zhǎng)的相關(guān)系數(shù)為0.7,寬度和面積的相關(guān)系數(shù)達(dá)到0.9。各顏色外觀指標(biāo)之間,R-均值、G-均值、B-均值、H-均值、V-均值之間的相關(guān)性很強(qiáng),相關(guān)系數(shù)達(dá)到0.9和1.0。R-標(biāo)偏、G-標(biāo)偏、B-標(biāo)偏、V-標(biāo)偏之間的相關(guān)性也很強(qiáng),相關(guān)系數(shù)也達(dá)到了0.8~1.0。H-標(biāo)偏與S-標(biāo)偏的相關(guān)系數(shù)為0.7,相關(guān)性也較強(qiáng)??傊锢硖匦耘c顏色指標(biāo)之間的相關(guān)性比較弱或沒(méi)有相關(guān)性。

    對(duì)煙葉各近紅外光譜數(shù)據(jù)之間的相關(guān)性進(jìn)行分析(圖5)表明,各近紅外光譜數(shù)據(jù)之間的相關(guān)性很強(qiáng),說(shuō)明變量之間存在很明顯的多重共線性。

    對(duì)煙葉的外觀指標(biāo)、物理特性和近紅外光譜數(shù)據(jù)的相關(guān)性進(jìn)行分析(圖6)可以看出,煙葉的外觀指標(biāo)和物理特性與近紅外光譜數(shù)據(jù)之間的相關(guān)性比較弱。綜上所述,自變量之間存在比較多的共線性,后續(xù)建模時(shí)需要消除這種共線性。

    2.2? ?模型訓(xùn)練與模型選擇

    對(duì)訓(xùn)練集數(shù)據(jù)進(jìn)行樣本平衡、數(shù)據(jù)標(biāo)準(zhǔn)化、數(shù)據(jù)降維(保留數(shù)據(jù)方差占比0.999 5的主成分)處理后,采用QDA、KNN、SVC 3種模型對(duì)上述處理后的數(shù)據(jù)進(jìn)行訓(xùn)練并優(yōu)化。由表1可知,煙葉感官質(zhì)量各指標(biāo)中,SVC模型的平衡準(zhǔn)確率均表現(xiàn)最高,為0.725~0.773。其中,感官質(zhì)量各指標(biāo)模型中,勁頭的平衡準(zhǔn)確率最高,達(dá)到0.773;香氣風(fēng)格彰顯程度的平衡準(zhǔn)確率最低,為0.725。

    2.3? ?模型預(yù)測(cè)與模型評(píng)估

    采用最終選擇的SVC模型對(duì)測(cè)試集數(shù)據(jù)進(jìn)行預(yù)測(cè)的結(jié)果(表2)表明,感官質(zhì)量各指標(biāo)中, 勁頭模型的平衡準(zhǔn)確率最高,達(dá)到0.774,這與驗(yàn)證集的表現(xiàn)一致;刺激性的平衡準(zhǔn)確率最低,為0.685。

    測(cè)試集數(shù)據(jù)中感官質(zhì)量各指標(biāo)的混淆矩陣見(jiàn)圖7。對(duì)角線上的數(shù)據(jù)為預(yù)測(cè)值與真實(shí)值表現(xiàn)一致的數(shù)量。在香氣風(fēng)格彰顯程度模型中,類(lèi)別D的檢出率最高,100個(gè)樣品中可以檢測(cè)出86個(gè);類(lèi)別B的檢出率最低,236個(gè)樣品中只檢測(cè)出160個(gè)。在香氣質(zhì)模型中,類(lèi)別C-的檢出率最高,359個(gè)樣品中檢測(cè)出304個(gè);類(lèi)別B的檢出率最低,246個(gè)樣品中只檢測(cè)出147個(gè)。在香氣量模型中,類(lèi)別C的檢出率最高,426個(gè)樣品中檢測(cè)出341個(gè);類(lèi)別D的檢出率最低,100個(gè)樣品中只檢測(cè)出61個(gè)。在雜氣模型中,類(lèi)別C的檢出率最高,499個(gè)樣品中檢測(cè)出419個(gè);類(lèi)別B的檢出率最低,150個(gè)樣品中只檢測(cè)出84個(gè)。在濃度模型中,類(lèi)別C-的檢出率最高,190個(gè)樣品中檢測(cè)出145個(gè);類(lèi)別B的檢出率最低,190個(gè)樣品中只檢測(cè)出118個(gè)。在勁頭模型中,類(lèi)別C-的檢出率最高,280個(gè)樣品中檢測(cè)出230個(gè);類(lèi)別B-的檢出率最低,485個(gè)樣品中只檢測(cè)出356個(gè)。在刺激性模型中,類(lèi)別C的檢出率最高,409個(gè)樣品中檢測(cè)出332個(gè);類(lèi)別C-的檢出率最低,150個(gè)樣品中只檢測(cè)出72個(gè)。在余味模型中,類(lèi)別C-的檢出率最高,250個(gè)樣品中檢測(cè)出203個(gè);類(lèi)別B-的檢出率最低,300個(gè)樣品中只檢測(cè)出190個(gè)。在甜感模型中,類(lèi)別C-的檢出率最高,409個(gè)樣品中檢測(cè)出337個(gè);類(lèi)別D的檢出率最低,80個(gè)樣品中只檢測(cè)出45個(gè)。

    3? ?討論與結(jié)論

    探索數(shù)據(jù)的分布情況對(duì)后續(xù)的建模起著至關(guān)重要的作用,是一個(gè)不容忽視的環(huán)節(jié)。通過(guò)研究自變量數(shù)據(jù)的分布情況,可以觀察樣本中是否存在異常點(diǎn),因?yàn)橛行┠P捅热鏠DA等對(duì)于異常點(diǎn)會(huì)非常敏感[8 ],模型會(huì)試圖擬合這部分?jǐn)?shù)據(jù),導(dǎo)致測(cè)試集數(shù)據(jù)的預(yù)測(cè)效能比較差。因此,本研究通過(guò)觀察數(shù)據(jù)的分布去除了一些厚度異常的數(shù)據(jù)。同時(shí),觀察數(shù)據(jù)的分布也可以幫助研究選擇合適的模型,比如生成式模型對(duì)數(shù)據(jù)的分布要求很高。QDA作為一種生成式模型,不要求每個(gè)類(lèi)別的協(xié)方差相同,普適性更高,但其假設(shè)條件就是樣本必須服從正態(tài)分布。本研究對(duì)數(shù)據(jù)的分布進(jìn)行探索,去除異常值后,發(fā)現(xiàn)數(shù)據(jù)基本服從正態(tài)分布,因此可以構(gòu)建QDA模型。從煙葉的感官質(zhì)量各類(lèi)別的數(shù)據(jù)分布來(lái)看,各類(lèi)別之間均存在不平衡的情況,主要表現(xiàn)在中間類(lèi)別多、兩邊類(lèi)別少的情況,這說(shuō)明工業(yè)生產(chǎn)中的煙葉質(zhì)量大部分處于一般水平,質(zhì)量很高和質(zhì)量較低的煙葉均較少,這跟工業(yè)生產(chǎn)中煙葉質(zhì)量的真實(shí)情況一致。這種不平衡數(shù)據(jù)挖掘在其他很多領(lǐng)域也是普遍存在的,基于精度的傳統(tǒng)分類(lèi)算法和SVM在進(jìn)行分類(lèi)時(shí)[9 ],模型會(huì)偏重于訓(xùn)練類(lèi)別多的樣本,會(huì)忽視類(lèi)別少的樣本,造成類(lèi)別少的數(shù)目被錯(cuò)誤預(yù)測(cè)的概率增大;而通過(guò)增加類(lèi)別少的數(shù)據(jù)的數(shù)量,可以糾正模型預(yù)測(cè)的“有偏性”;最后采用有效的評(píng)估指標(biāo)進(jìn)行模型評(píng)估,而不能再繼續(xù)采用準(zhǔn)確率來(lái)進(jìn)行評(píng)價(jià)。本研究通過(guò)對(duì)類(lèi)別少的樣本進(jìn)行上采樣,以達(dá)到各類(lèi)別之間樣本數(shù)目的平衡,從而避免模型預(yù)測(cè)的“有偏性”,同時(shí)采用平衡準(zhǔn)確率對(duì)模型效能進(jìn)行評(píng)估。

    對(duì)自變量間的相關(guān)性分析可以探討數(shù)據(jù)之間是否存在多重共線性。多重共線性問(wèn)題在很多模型的實(shí)際應(yīng)用中都普遍存在,比如多元線性回歸分析[10 ],SVM分類(lèi)算法[11 ]。而多重共線性產(chǎn)生的原因可能來(lái)自?xún)蓚€(gè)方面,一是自變量之間客觀存在共線性關(guān)系,二是樣本數(shù)據(jù)不是足夠多。本研究應(yīng)該屬于第一種情況,煙葉的顏色值比如R,G,B分別代表紅色,綠色和藍(lán)色通道的值,其不僅包含了顏色信息,還包含了亮度等信息。而H代表色調(diào),包含了所有顏色值的信息,因此,R,G,B,H通道之間必然相互關(guān)聯(lián),這與本研究中這4個(gè)通道之間相關(guān)性很高的結(jié)果是一致的。主成分分析為這種共線性問(wèn)題的解決提供了一種有效的方法。通過(guò)主成分分析可以改進(jìn)多重共線性的問(wèn)題,將多個(gè)指標(biāo)綜合為幾個(gè)主成分進(jìn)而減少信息的冗余[12 - 13 ],本研究也是通過(guò)PCA實(shí)現(xiàn)數(shù)據(jù)降維,從而消除變量間的多重共線性。

    本研究同時(shí)采用煙葉的外觀物理特性及近紅外光譜數(shù)據(jù),各類(lèi)型之間的數(shù)據(jù)由于量綱的不同,其數(shù)值差異也很大,比如近紅外光譜數(shù)據(jù)為小于1的值,而煙葉的顏色值可達(dá)到200多?;诰嚯x度量的模型如KNN、SVM模型以及線性回歸類(lèi)的模型如邏輯回歸、嶺回歸、拉索回歸等對(duì)于特征之間不同取值范圍非常敏感,因此建模前必須要進(jìn)行標(biāo)準(zhǔn)化,以消除數(shù)據(jù)之間的差異。而近紅外光譜數(shù)據(jù),由于受到采集環(huán)境、儀器的運(yùn)行狀態(tài)或者技術(shù)人員操作等各種因素的影響,在采集時(shí)會(huì)存在基線偏移、干擾噪聲等問(wèn)題[14 ],這會(huì)導(dǎo)致后期建立的模型出現(xiàn)偏倚,因此必須對(duì)光譜數(shù)據(jù)進(jìn)行校正。本研究采用SNV對(duì)光譜數(shù)據(jù)進(jìn)行預(yù)處理,提高KNN、SVM、QDA模型的精度。

    SVC由于其在高維空間中非常有效,采用了結(jié)構(gòu)風(fēng)險(xiǎn)最小化使模型泛化能力提高,因此在煙草等多個(gè)領(lǐng)域廣泛應(yīng)用。有研究對(duì)中紅外和近紅外光譜數(shù)據(jù)進(jìn)行融合后,利用支持向量機(jī)可以建立煙葉濃香型、中間香型及清香型的分類(lèi)判別模型,準(zhǔn)確率均大于85%[15 ]。通過(guò)煙葉的化學(xué)成分可以較好地預(yù)測(cè)煙葉感官品質(zhì)中的香氣量[16 ]。本研究選用QDA、KNN、SVC算法構(gòu)建煙葉感官質(zhì)量各個(gè)指標(biāo)的多分類(lèi)模型,結(jié)果表明SVC的預(yù)測(cè)效能最優(yōu),煙葉感官質(zhì)量各指標(biāo)的平衡準(zhǔn)確率0.685~0.774,這進(jìn)一步說(shuō)明SVC模型在預(yù)測(cè)煙葉感官質(zhì)量各指標(biāo)方面有著較大的優(yōu)勢(shì)。

    近年來(lái),計(jì)算機(jī)圖像處理技術(shù)在生物、醫(yī)學(xué)、農(nóng)業(yè)、建筑等方面都得到廣泛應(yīng)用。如通過(guò)對(duì)花牛蘋(píng)果葉片圖像進(jìn)行處理,提取圖像中R(紅色)、G(綠色)、B(藍(lán)色)各參數(shù)值以及各組合值,建立模型,可以快速有效無(wú)損檢測(cè)蘋(píng)果葉片的營(yíng)養(yǎng)狀況[17 ]。近紅外光譜技術(shù)作為一種快速、無(wú)損檢測(cè)物質(zhì)的方法,在農(nóng)業(yè)、工業(yè)、食品等領(lǐng)域也得到廣泛應(yīng)用[18 ]。本研究也是通過(guò)圖像處理技術(shù)提取煙葉圖像各顏色信息(RGB、HSV顏色空間的顏色信息)和物理特性,結(jié)合近紅外光譜技術(shù)檢測(cè)煙葉化學(xué)成分的源頭數(shù)據(jù)(近紅外光譜數(shù)據(jù)),進(jìn)而預(yù)測(cè)煙葉的感官質(zhì)量各指標(biāo),其數(shù)據(jù)種類(lèi)更全面,更能代表煙葉的整體質(zhì)量水平,這為工業(yè)生產(chǎn)中判定煙葉的整體質(zhì)量水平帶來(lái)了便利,可以快速檢測(cè)煙葉的整體質(zhì)量,提高工業(yè)檢測(cè)效率。

    煙葉的外觀指標(biāo)、物理特性及近紅外光譜共同影響著煙葉的感官質(zhì)量。基于煙葉的外觀物理特性以及近紅外光譜數(shù)據(jù),可以預(yù)測(cè)煙葉的香氣風(fēng)格彰顯程度、香氣質(zhì)、香氣量、雜氣、濃度、勁頭、刺激性、余味和甜感等感官質(zhì)量指標(biāo)。在這些感官質(zhì)量指標(biāo)中,基本上類(lèi)別C和類(lèi)別C-的檢出率最高,類(lèi)別B、類(lèi)別B-和類(lèi)別D的檢出率最低,這可能與工業(yè)生產(chǎn)中類(lèi)別C和類(lèi)別C-的煙葉樣品比較普遍,而類(lèi)別B、類(lèi)別B-和類(lèi)別D的樣品數(shù)量比較稀少有關(guān)。同時(shí),由于本研究是基于2個(gè)品種的煙葉構(gòu)建的感官質(zhì)量模型,而這2個(gè)品種之間的感官評(píng)吸標(biāo)準(zhǔn)可能會(huì)有些差異,這也可能是模型平衡準(zhǔn)確率未超過(guò)0.8的原因。未來(lái)可能需要把兩個(gè)品種分別構(gòu)建煙葉的感官質(zhì)量模型。3個(gè)訓(xùn)練模型中,SVC的泛化能力最優(yōu)。其中,香氣風(fēng)格彰顯程度、香氣質(zhì)、香氣量、雜氣、濃度、勁頭、刺激性、余味及甜感的預(yù)測(cè)平衡準(zhǔn)確率分別為0.747,0.751,0.715,0.720,0.712, 0.774,0.685,0.725,0.700。

    參考文獻(xiàn):

    [1] 梁洪波,李念勝,元? ?建,等.? 烤煙煙葉顏色與內(nèi)在品質(zhì)的關(guān)系[J]. 中國(guó)煙草科學(xué),2002,23(1):9-11.

    [2] 王? ?欣.? 湖北煙區(qū)烤煙質(zhì)量綜合評(píng)價(jià)及與國(guó)內(nèi)外優(yōu)質(zhì)烤煙的差異分析[D].? 鄭州:河南農(nóng)業(yè)大學(xué),2008.

    [3] 張勇剛,宋朝鵬,李常軍.? 煙葉感官質(zhì)量評(píng)價(jià)研究進(jìn)展[J].? 湖北農(nóng)業(yè)科學(xué),2010,49(9):2271-2274.

    [4] 閆鐵軍,馬俊桃,劉文鋒,等.? 煙葉外觀質(zhì)量與感官舒適性的相關(guān)性分析[J].? 湖北農(nóng)業(yè)科學(xué),2021,60(23):109-113.

    [5] 陳劍明,楊式華,馮洪濤,等.? 云南主產(chǎn)煙區(qū)煙葉水溶性糖與感官質(zhì)量相關(guān)及通徑分析[J].? 西南農(nóng)業(yè)學(xué)報(bào),2017,30(11):2506-2511.

    [6] 林順順,張曉鳴.? 基于PLSR分析煙葉化學(xué)成分與感官質(zhì)量的相關(guān)性[J].? 中國(guó)煙草科學(xué),2016,37(1):78-82.

    [7] 潘義宏,李佳佳,蔣美紅.? 煙葉外觀質(zhì)量、常規(guī)化學(xué)成分與其感官質(zhì)量的典型相關(guān)分析[J].? 江蘇農(nóng)業(yè)科學(xué),2015,43(10):384-388.

    [8] 王秀梅.? 基于二次判別模型(QDA)的土壤鎘安全閾值判定[D].?; 北京:中國(guó)農(nóng)業(yè)科學(xué)院,2018.

    [9] 鄭恩輝,李? ?平,宋執(zhí)環(huán).? 不平衡數(shù)據(jù)知識(shí)挖掘_類(lèi)分布對(duì)支持向量機(jī)分類(lèi)的影響[J].? 信息與控制,2005,34(6):703-708.

    [10] 魯? ?茂,賀昌政.? 對(duì)多重共線性問(wèn)題的探討[J].? 統(tǒng)計(jì)與決策,2007(8):6-9.

    [11] 冼廣銘,齊德昱,方? ?群.? 改進(jìn)SVM分類(lèi)算法中多重共線性問(wèn)題研究[J].? 計(jì)算機(jī)工程與應(yīng)用,2010,46(26):142-144.

    [12] 陶? ?然.? Logistic模型多重共線性問(wèn)題的診斷及改進(jìn)[J].? 統(tǒng)計(jì)與決策,2008(15):22-24.

    [13] 姜有虎,李玉梅,李旭林,等.? 基于主成分分析的嘉峪關(guān)產(chǎn)區(qū)馬瑟蘭葡萄最佳采收期確定[J].? 甘肅農(nóng)業(yè)科技,2022,53(1):94-98.

    [14] 李尚科,李? ?跑,杜國(guó)榮,等.? 基于近紅外光譜技術(shù)和優(yōu)化預(yù)處理方法的不同品牌燕麥無(wú)損鑒別分析[J].? 食品安全質(zhì)量檢測(cè)學(xué)報(bào),2019,10(24):8204-8210.

    [15] 沙云菲,黃? ?雯,王? ?亮,等.? 中紅外和近紅外數(shù)據(jù)融合的香型風(fēng)格判別[J].? 光譜學(xué)與光譜分析,2021,41(2):473-476.

    [16] 趙青松,李興兵,唐小松.? 基于支持向量機(jī)的煙葉感官品質(zhì)評(píng)價(jià)[J].? 計(jì)算機(jī)工程與應(yīng)用,2007,43(10):236-238.

    [17] 楊煥昱,李幗英,馬建芳,等.? 基于圖像數(shù)字處理技術(shù)的元帥系蘋(píng)果葉片營(yíng)養(yǎng)水平診斷研究[J].? 甘肅農(nóng)業(yè)科技,2022,53(3):59-63.

    [18] 張華瑜,潘永東,柳小寧,等.? 利用近紅外谷物分析儀快速檢測(cè)青稞粗蛋白質(zhì)含量研究[J].? 甘肅農(nóng)業(yè)科技,2020(1):33-36.

    猜你喜歡
    感官質(zhì)量近紅外光譜
    煙梗形變工藝參數(shù)對(duì)梗絲內(nèi)在質(zhì)量的影響研究
    不同變黃條件對(duì)烤煙上部葉中性致香成分和感官質(zhì)量的影響
    基于近紅外光譜法的藜麥脂肪含量快速檢測(cè)
    不同切絲寬度對(duì)卷煙質(zhì)量的影響
    中國(guó)當(dāng)代醫(yī)藥(2016年19期)2016-09-30 20:42:57
    再造煙葉不同加工方式對(duì)卷煙品質(zhì)的影響
    小麥子粒粗蛋白FT—NIRS分析模型建立的初步研究
    近紅外光譜分析技術(shù)快速檢測(cè)冰溫貯藏牛肉品質(zhì)
    人工醇化上部煙葉重要中性致香物質(zhì)與感官質(zhì)量關(guān)系研究
    利用油水穩(wěn)定化和支持向量回歸增強(qiáng)近紅外光譜測(cè)定油中水分的方法
    永平县| 南江县| 隆林| 邹平县| 京山县| 休宁县| 平武县| 奈曼旗| 巴林左旗| 缙云县| 延边| 望城县| 将乐县| 子长县| 盖州市| 定南县| 兴宁市| 揭东县| 嘉鱼县| 阳泉市| 安福县| 大冶市| 太仓市| 哈尔滨市| 广饶县| 金溪县| 赣州市| 金湖县| 苍山县| 务川| 克拉玛依市| 木里| 哈尔滨市| 县级市| 云阳县| 曲松县| 钟山县| 彭水| 伊通| 贺兰县| 连州市|