吳曉炯,張 宇,高 揚,張 瑋,居 雷*
1.上海煙草集團有限責任公司技術中心,上海市浦東新區(qū)秀浦路3733號 201315
2.上海煙草集團有限責任公司煙草質量監(jiān)督檢測站,上海市楊浦區(qū)長陽路717號 200082
烤煙型卷煙的感官質量除受卷煙輔材、環(huán)境等因素影響外,主要與煙葉和煙氣化學成分相關[1]。卷煙煙氣中的化學成分來源于煙葉化學成分燃燒時的熱裂解和干餾,其與卷煙感官質量的關聯(lián)非常復雜,相關科研工作者進行了大量的研究。其中感官質量與煙葉化學成分的研究較多[2-7],與煙氣化學成分的研究相對較少[8-11]。在統(tǒng)計上,樣本數(shù)多于或遠多于自變量的研究有較多的線性或非線性的統(tǒng)計算法,而樣本數(shù)少于或遠少于自變量的研究難度較高,一般使用PCA 主成分法[12-13]和偏最小二乘方法[14-15]。Lasso 回歸模型是一種能較好地解釋多自變量數(shù)據(jù)的統(tǒng)計方法[16],其模型靈活可調,目前在保險、生物醫(yī)藥、市場調研、工程技術等領域有廣泛的應用[17-19],但在煙草領域尚未見到相關報道。本研究中建立煙氣化學成分的Lasso 回歸模型,并分析90 個化學成分與感官評價指標的關系,旨在為今后數(shù)字化配方設計過程中感官質量的預測模型提供新的算法基礎。
依據(jù)煙葉產(chǎn)區(qū)覆蓋廣、部位齊全的原則,篩選了包括云南、湖南、福建、四川、廣東、山東、河南、遼寧、安徽、陜西、黑龍江等煙葉主產(chǎn)區(qū)的代表性煙葉以及津巴布韋地區(qū)的進口煙葉原料,覆蓋了上、中、下不同部位。40個等級(編號為1~40)的煙葉原料(表1)均采用統(tǒng)一工藝條件、統(tǒng)一輔材,控制樣品平均吸阻在(1 100±50)Pa、平均圓周為(24.2±0.2)mm,制備成卷煙樣品,供感官評價。
表1 煙葉原料信息Tab.1 Information of flue-cured tobacco leaves
感官評價指標的設計參考GB 5606.4—2005《卷煙感官技術要求》、YC/T 497—2014《中式卷煙風格感官評價方法》、YC/T 530—2018《烤煙煙葉質量風格特色感官評價方法》,從香型、香氣質、香氣量、雜氣、勁頭、刺激、余味方面對煙葉原料進行全面評價,其中香型分為濃香型、中間香型和清香型;香氣質、香氣量、雜氣的評分范圍為1~9分;勁頭、刺激、余味的評分范圍為1~5 分,勁頭為程度指標,勁頭越大,得分越高,刺激為質量指標,刺激越小,得分越高。為排除氣候、環(huán)境、各自狀態(tài)變化等因素,每次評吸時固定選擇7名感官質量評價技術人員(包含1名全國評煙委員會委員)。選擇貴州-2016-C 樣品作為校準樣品,使多輪次打分數(shù)據(jù)盡量客觀一致。最終統(tǒng)計的感官評價指標相對得分為校準樣品與試驗樣品的差值,取評價小組打分中位數(shù)形成最終得分。
1.3.1 材料、試劑與儀器
甲基叔丁基醚(99.8%,美國Anaqua公司);戊酸甲酯(98%)、庚酸甲酯(98.2%)、壬酸甲酯(98%)、十三酸甲酯(98.1%)、十五酸甲酯(98%)(美國ChemService公司)。
7890B/5977A 氣質聯(lián)用儀、DB-5MS 毛細管柱(30 m×0.32 mm×0.25 μm)、DB-WAX毛細管柱(60 m×0.32 mm ×0.25 μm)(美國Agilent公司);RM200A轉盤式吸煙機(德國Borgwaldt KC公司)。
1.3.2 實驗方法
樣品前處理方法:將卷煙樣品置于溫度為22 ℃、相對濕度為60%的恒溫恒濕箱中平衡48 h。
測試方法:煙氣粒相成分的測定采用中心切割二維氣相色譜-質譜法。用劍橋濾片捕集20支卷煙的煙氣粒相物。分析條件:
一維柱:DB-5MS毛細管柱,恒流1.9 mL/min;二維柱:DB-WAX 毛細管柱,恒流1.9 mL/min;進樣口溫度:250 ℃;進樣量:3 μL;進樣模式:不分流進樣;不分流時間:1 min;吹掃流量:50 mL/min;中心切割時間:切割1(5.1~10.0 min),切割2(10.0~16.6 min),切割3(16.6~23.5 min),切割4(23.5~30.5 min)。
一維升溫程序:4段切割初始溫度均為45 ℃(保持2 min),并以6 ℃/min 的速率升溫,切割1 升至93 ℃,切割2升至132.6 ℃,切割3升至174 ℃,切割4 升至216 ℃,然后快速降溫至60 ℃(切割1、切割2)或80 ℃(切割3、切割4)。
二維升溫程序:切割1 以4 ℃/min 的速率升至180 ℃,然后以10 ℃/min的速率升至230 ℃(20 min);切割2、切割3 皆以4 ℃/min 的速率升至230 ℃(20 min);切割4 以4 ℃/min 的速率升至230 ℃(30 min)。GC/MS 接口溫度:240 ℃;電子能量:70 eV;EI源溫度:230 ℃;四極桿溫度:150 ℃;質量掃描范圍:33~400 amu。采用提取離子法積分峰面積,內標法相對定量,得到煙氣成分的半定量結果。
1.4.1 煙氣化學成分
本研究中的煙氣化學成分主要指通過ISO標準抽吸條件下由劍橋濾片捕集的煙氣粒相成分,再通過中心切割的方法分離得到的化學成分,共計90種。由于部分化學成分間共線性顯著,保留共線性顯著因子會導致檢測誤差噪聲被放大從而影響化學成分與感官的顯著性關系,故通過相關性篩選保留63種化合物,見表2。
表2 煙氣化學成分列表Tab.2 List of chemical components in mainstream cigarette smoke
對表2 中煙氣粒相成分檢測結果進行相關性分析,將相關性超過0.9 的化學成分剔除一項,結果見表3。表3中苯酚為保留項,對應苯乙醇、對甲酚、吲哚為剔除項,表明苯酚、苯乙醇、對甲酚、吲哚均與該感官指標顯著相關,僅保留苯酚。同時,由表3可知,通過官能團進行化合物聚類存在其統(tǒng)計上的合理性,如丁香酚和異丁香酚等價、3-甲基吡啶和3-乙基吡啶等價,但是煙氣化學成分關系復雜,官能團不同的物質也可能存在顯著正相關,如丙酮酸甲酯和苯乙烯等價。因此,使用統(tǒng)計上更可靠的相關性等價表方式進行化合物聚類而非官能團聚類更合理。其次,在數(shù)據(jù)預處理方面,本研究中參考了改進后的評吸計分方法,所有煙氣粒相成分取值都是試驗樣品檢測數(shù)據(jù)基于校準樣品貴州-2016-C樣品檢測數(shù)據(jù)的相對比值。
表3 化學成分等價表Tab.3 Equivalence table of chemical components
1.4.2 Lasso回歸模型
式中回歸系數(shù)β、β0是待估計的參數(shù)??梢钥吹?,Lasso回歸模型相比于經(jīng)典線性回歸模型增加了一項關于參數(shù)β的一階正則化項,增加正則化項后當參數(shù)β部分取值為零時亦能降低損失函數(shù)的取值,這就代表了在超參數(shù)λ取不同值時,非零參數(shù)β部分的取值也不同,說明找到最優(yōu)超參數(shù)λ可以達成篩選參數(shù)β的目標。一旦超參數(shù)λ確定后,損失函數(shù)就確定了篩選后因子的回歸系數(shù),通過因子的回歸系數(shù)可得到篩選后因子與因變量的線性函數(shù)。
運用Trevor Hastie 開發(fā)的基于R 軟件的glmnet軟件包完成統(tǒng)計分析[21]。
對感官評價指標相對得分進行統(tǒng)計,具體數(shù)據(jù)見表4。由表4可知,所有感官評價指標相對得分均值都小于零,說明試驗樣品的各感官指標得分相對于校準樣品是偏高的。其中勁頭的標準差最大,說明勁頭的數(shù)據(jù)離散度較高,樣品間的差異相對較大。香型的峰度最小,說明樣品的濃、中、清風格的比例較均衡。香型和刺激的偏度大于零,說明兩者是正向偏態(tài)的感官指標;香氣質、香氣量、雜氣、勁頭、余味的偏度小于零,說明這些感官指標是負向偏態(tài)的感官指標。
表4 感官評價指標相對得分的統(tǒng)計分布Tab.4 Statistical data of relative scores of sensory indexes
2.2.1 勁頭的Lasso回歸分析
首先對表1 中所列單料煙樣品卷煙進行訓練集和驗證集拆分,拆分比例為3∶1,再對訓練集勁頭感官相對得分的指標與煙氣化學成分進行Lasso回歸,采用10 折交叉檢驗,得到超參數(shù)lnλ與均方誤差(Mean Squared Error)的關系,見圖1。由圖1 可知,圖中上方橫軸表示每個λ對應的篩選后因子保留數(shù),均方誤差從左往右先減小再增加,表明煙氣化學成分數(shù)量的增加沒有增加模型的解釋度,隨后當因子數(shù)降低到5以下時隨著因子數(shù)的減少均方誤差也隨之增加。圖1 中兩條虛線分別代表均方誤差的λ值和一個標準誤差內λ的最大取值,這是兩種通用的超參數(shù)λ篩選方法,本研究中采用第一條虛線確定的λ值作為因子篩選依據(jù)。由圖1可知,第一條虛線對應的橫軸中l(wèi)nλ≈-1.5,則λ≈0.2,此時因子數(shù)約為5個。
圖1 勁頭Lasso回歸超參數(shù)篩選Fig.1 Hyperparameter screening of Lasso regression for smoke strength
得到λ的取值后,根據(jù)1.4.2中的公式,可以獲得篩選后的因子及其系數(shù),見圖2。由圖2 可知,對勁頭正向影響最大的是煙堿,其次是2,6-二甲氧基苯酚,隨后依次是丁酸、乙酰胺和3-甲基吡啶。
圖2 勁頭Lasso回歸的因子系數(shù)圖Fig.2 Factor coefficient plot of Lasso regression for smoke strength
通過因子的回歸系數(shù)可得到篩選后的因子與因變量的線性函數(shù),據(jù)此構建勁頭的線性模型并用驗證集的數(shù)據(jù)進行驗證,驗證決定系數(shù)R2為0.71。
由于訓練集和驗證集的拆分具有隨機性,隨機性顯著影響最終的λ值、篩選的因子數(shù)量、因子名稱及驗證集的預測效果,為了確保所篩選的因子具有代表性,隨機分割10 000次樣本,即生成10 000個訓練集和驗證集數(shù)據(jù)集對,選擇驗證集決定系數(shù)超過0的記入因子統(tǒng)計列表,最終選取出現(xiàn)頻次超過30%的因子,見表5。由表5 可知,10 000 次隨機樣本劃分,總計產(chǎn)生有效驗證集8 452 個,其中煙堿的出現(xiàn)頻次最高,達到88.9%;丁酸出現(xiàn)頻次次之,為81.2%;出現(xiàn)頻次超過50%的還有乙酰胺、2,6-二甲氧基苯酚、檸檬烯和2-乙基吡啶。
表5 主要勁頭因子Lasso回歸頻次表Tab.5 Lasso regression frequencies of major smoke strength factor
因子篩選完畢后,由于因子數(shù)遠小于樣本數(shù),則可以利用經(jīng)典線性逐步回歸法再次進行因子篩選,最后進行線性回歸分析,結果如表6所示。由表6可知,與勁頭顯著相關的指標為4個,分別是正相關的煙堿、丁酸、2-乙基吡啶,負相關的3-甲基-2-環(huán)戊烯-1-酮,驗證決定系數(shù)R2為0.70,總體擬合效果尚佳。
表6 勁頭線性回歸分析結果Tab.6 Results of linear regression analysis for smoke strength
通常認為煙堿與勁頭顯著正相關[22],酸性物質一般不與勁頭呈正相關,但表6中數(shù)據(jù)表明丁酸也與勁頭呈正相關。周曉等[23]指出揮發(fā)酸類酸性物質在煙氣中的整體占比很低,其主要作用是提供香味;鄧其馨等[24]指出單料煙煙氣pH 值主要由煙堿(呈堿性)貢獻。由此可知丁酸作為揮發(fā)酸類酸性物質的主要作用是提供香味,并不是平衡酸堿性,故丁酸與勁頭呈正相關。李云等[25]指出質量好的煙葉的低級脂肪酸較多,本研究更進一步指出,煙氣勁頭較大的單料煙其低級脂肪酸尤其是丁酸也較多。
2.2.2 勁頭的主成分回歸分析
首先對所有樣本化學成分數(shù)據(jù)進行主成分分析(PCA),采用平行分析準則保留5 個主成分,利用最大方差旋轉法(varimax)提取這5個主成分的信息并計算主成分得分,總方差解釋率為74%,基本滿足分析要求。將這5 個主成分得分作為自變量與勁頭進行線性回歸分析,結果見表7。由表7 可知,主成分RC1通過了P<0.05的顯著檢驗。
表7 勁頭主成分線性回歸分析結果Tab.7 Results of principal component linear regression analysis for smoke strength
保留主成分RC1的化學成分載荷矩陣系數(shù)絕對值大于0.6的因子,見表8。由表8可知,通過主成分線性回歸法篩選得到的因子數(shù)比Lasso 回歸篩選得到的因子數(shù)多,其中,與勁頭正相關的化學成分是茄酮、丁香酚、乙酸、吡啶、3-甲基吡啶、吡咯、苯甲醇、煙堿、丁酸、3-乙基吡啶、2,6-二甲氧基苯酚;與勁頭負相關的化學成分是DDMP、2,5-二甲基苯酚、2(5H)-呋喃酮、4-環(huán)戊烯-1,3-二酮、琥珀酰亞胺。
表8 勁頭主成分RC1部分化合物的載荷矩陣系數(shù)Tab.8 Loading matrix coefficients of some chemical components in principal component RC1 for smoke strength
2.2.3 勁頭的偏最小二乘回歸分析
使用偏最小二乘回歸分析處理2.2.1節(jié)中拆分的訓練集,采用7折交叉檢驗,置換檢驗采用隨機20次勁頭得分的排序,可得一個主成分的總方差解釋率為77%,基本滿足分析要求。隨后篩選VIP 值[27]大于1的化學成分作為與勁頭相關的重要化學成分,見表9。由表9可以看出,通過偏最小二乘方法篩選的化合物成分數(shù)相對Lasso回歸法篩選的成分數(shù)多。
表9 勁頭偏最小二乘因子篩選表Tab.9 Factor screening of partial least squares for smoke strength
最后對勁頭偏最小二乘驗證集進行線性回歸檢驗,結果見表10,驗證決定系數(shù)R2達到了0.72,RC1通過P<0.05的顯著性檢驗,驗證效果較好。
表10 勁頭偏最小二乘驗證集線性回歸檢驗結果Tab.10 Validation results of partial least squares validation set linear regression for smoke strength
通過比較上述多種方法可知,Lasso回歸方法在處理少樣本、多自變量的數(shù)據(jù)時較為適用。主成分線性回歸只能篩選主成分,再通過主成分人工篩選載荷矩陣系數(shù)得到自變量因子,且主成分回歸分析得到的自變量因子數(shù)多于Lasso回歸方法,但主成分回歸分析的驗證決定系數(shù)(0.64)差于Lasso 回歸方法的驗證決定系數(shù)(0.71)。偏最小二乘回歸得到的驗證決定系數(shù)(0.72)與Lasso回歸方法接近,但篩選后的自變量因子數(shù)較多,后續(xù)的對應關系較難分析。綜上所述,在驗證決定系數(shù)接近或較優(yōu)的情況下,Lasso回歸模型對于降低自變量因子維度數(shù)具有一定優(yōu)勢。
香型的超參數(shù)lnλ與均方誤差(Mean Squared Error)的關系見圖3。由圖3可知,第一條虛線對應的橫軸中l(wèi)nλ≈-3.5,則λ≈0.03,此時因子數(shù)約為15個。
圖3 香型Lasso回歸超參數(shù)篩選Fig.3 Hyperparameter screening of Lasso regression for flavor style
得到最佳λ后可以獲得篩選后的因子及其系數(shù),見圖4。
圖4 香型Lasso回歸的因子系數(shù)圖Fig.4 Factor coefficient plot of Lasso regression for flavor style
最后,將得到的香型的線性模型用驗證集的數(shù)據(jù)進行驗證,驗證決定系數(shù)R2為0.76。
同樣地,隨機分割10 000 次樣本即生成10 000個訓練集和驗證集數(shù)據(jù)集對,選擇驗證集決定系數(shù)超過0的記入因子統(tǒng)計列表,見表11。由表11可知,總計產(chǎn)生有效驗證集5 729個,有效模型的出現(xiàn)概率不如勁頭高。在香型的有效模型中,所有因子出現(xiàn)概率相同(均為100%),說明香型的模型因子關系非常穩(wěn)健。
因子篩選完畢后,利用經(jīng)典線性逐步回歸法再次進行因子篩選,最后進行線性回歸分析,結果見表12。由表12 可知,與香型相關的顯著指標為10 個,分別是與清香型風格單料煙正相關的化合物尼可他因、煙堿、降茄二酮、3-羥基-β-二氫大馬酮、甲基環(huán)戊烯醇酮、2-乙基吡啶,以及與濃香型風格單料煙正相關的化合物2-甲基吡啶、3-氧代-α-紫羅蘭醇、新植二烯、呋喃酮。香型線性回歸分析的驗證決定系數(shù)R2為0.84,總體擬合效果尚佳。
盧樂華等[27]分析了云南清香型卷煙的香味風格特征,指出吡啶類化合物、環(huán)戊烯酮類化合物、美拉德反應產(chǎn)物及酸性成分對清香型卷煙風格的形成具有重要影響,這與本研究中2-乙基吡啶、甲基環(huán)戊烯醇酮與卷煙清香型風格顯著相關結論一致;盧樂華等[27]還指出2-甲基吡啶、新植二烯是云南清香型卷煙的特征香味成分,本研究中發(fā)現(xiàn)這些成分與濃香型香味風格顯著性更高,即濃香型風格卷煙中這些化合物含量更高。
經(jīng)過分析,其他感官指標如香氣質、香氣量、雜氣、余味、刺激等未找到驗證集驗證較好的情況,推測目前所檢測的化學成分與這些感官指標相關性不高,這與相關文獻[28-29]報道的結果一致。
(1)采用Lasso回歸方法分析了卷煙煙氣成分與各單項感官指標的關系,同時比較了Lasso回歸模型與PCA 主成分線性回歸模型及偏最小二乘回歸模型,分析結果表明Lasso回歸模型對于降低自變量因子維度數(shù)具有一定優(yōu)勢。
(2)對通過Lasso回歸模型篩選的因子進行經(jīng)典線性逐步回歸分析,結果表明感官指標中勁頭、香型與部分化學成分呈顯著線性相關,其驗證決定系數(shù)分別為0.70和0.84,預測準確度較好,其他感官指標與化學成分的線性相關性不高。
(3)線性回歸模型中與勁頭統(tǒng)計正相關的化合物為煙堿、丁酸、2-乙基吡啶,與勁頭統(tǒng)計負相關的化合物為3-甲基-2-環(huán)戊烯-1-酮;與清香型風格單料煙統(tǒng)計正相關的化合物為尼可他因、煙堿、降茄二酮、3-羥基-β-二氫大馬酮、2-乙基吡啶、甲基環(huán)戊烯醇酮,與濃香型風格單料煙統(tǒng)計正相關的化合物為2-甲基吡啶、3-氧代-α-紫羅蘭醇、新植二烯、呋喃酮。