胡建軍,李廣才,李耀光,馮曉民,周冀衡,柳 昕
1.中國(guó)煙草總公司職工進(jìn)修學(xué)院,鄭州市金水區(qū)鑫苑路7號(hào) 450008
2.河南中煙工業(yè)有限責(zé)任公司技術(shù)中心,鄭州市管城區(qū)隴海東路72號(hào) 450000
3.湖南農(nóng)業(yè)大學(xué)煙草與健康重點(diǎn)實(shí)驗(yàn)室,長(zhǎng)沙市芙蓉區(qū)農(nóng)大路1號(hào) 410128
4.北京市煙草質(zhì)量監(jiān)督檢驗(yàn)站,北京市朝陽(yáng)區(qū)櫻花西街10號(hào) 100029
煙葉化學(xué)成分與感官品質(zhì)的關(guān)系較為復(fù)雜,一直備受廣大研究者的關(guān)注[1-11]。事實(shí)上,二者之間存在著較為復(fù)雜的線性或非線性關(guān)系,其中線性關(guān)系得到了較為廣泛的分析[2-9],而非線性關(guān)系的研究則較少[10-11]。統(tǒng)計(jì)上,兩個(gè)變量之間的關(guān)系是一次函數(shù)關(guān)系的,其圖像是直線,兩個(gè)變量之間的這種關(guān)系就是“線性關(guān)系”;如果不是一次函數(shù)關(guān)系的,其圖像不是直線,就是“非線性關(guān)系”。廣義可加模型(Generalized Additive Model,GAM)作為一種能夠較好地?cái)M合變量間非線性關(guān)系的統(tǒng)計(jì)分析方法[12-13],為揭示煙葉化學(xué)成分與感官評(píng)吸質(zhì)量間存在何種形式的非線性關(guān)系提供了新的途徑。目前,廣義可加模型在生態(tài)學(xué)、醫(yī)學(xué)、環(huán)境科學(xué)等領(lǐng)域得到了廣泛的應(yīng)用[14-16],但在煙草科學(xué)研究領(lǐng)域尚未得到廣泛而靈活的應(yīng)用[10-11]。因此,構(gòu)建了基于廣義可加模型的非線性關(guān)系識(shí)別方法,并分析了國(guó)內(nèi)烤煙4 種常規(guī)化學(xué)成分(總氮、煙堿、總糖和還原糖)含量與感官評(píng)價(jià)指標(biāo)間的非線性關(guān)系。
2005—2007年采集云南、貴州、河南、湖南、福建、四川、山東、安徽等國(guó)內(nèi)主產(chǎn)煙區(qū)烤煙中部煙葉(8~12葉位)497 個(gè)樣本。
1.2.1 煙葉常規(guī)化學(xué)成分分析與感官質(zhì)量評(píng)價(jià)
采用連續(xù)流動(dòng)法[17]測(cè)定了各煙葉樣本的總氮、煙堿、總糖和還原糖含量,并由省級(jí)以上卷煙感官評(píng)吸專家(5~8 名)按9 分標(biāo)度制[6],對(duì)各卷制樣品的香氣質(zhì)、香氣量、雜氣、刺激性和余味等感官評(píng)價(jià)指標(biāo)進(jìn)行定量評(píng)分,取其平均值作為各感官評(píng)價(jià)指標(biāo)得分。
1.2.2 基于廣義可加模型的非線性關(guān)系識(shí)別
設(shè)Y 為因變量,X1,X2,…,Xp為自變量,經(jīng)典的線性回歸模型一般可表示為:
式中:回歸系數(shù)β0,β1,…,βp的參數(shù)估計(jì)一般通過(guò)最小二乘法獲得。
可加模型是線性模型的擴(kuò)展,其一般形式為:
式中:si(Xi)為光滑函數(shù)(i=1,2,…,p),滿足E[sj(Xj)]=0。si(Xi)并不給定參數(shù)形式,而是以非參數(shù)形式來(lái)估計(jì)。它的非參數(shù)形式使得模型非常靈活,可以是光滑樣條函數(shù)、核函數(shù)或局部回歸光滑函數(shù),以揭示自變量的非線性效應(yīng)。
廣義可加模型與廣義線性模型類似,包括1 個(gè)隨機(jī)成分(random component),1 個(gè)可加成 分(additive component)以及兩者的連接函數(shù)(link function)。隨機(jī)成分,即因變量Y,服從指數(shù)分布族,可以是正態(tài)分布、二項(xiàng)分布、負(fù)二項(xiàng)分布、Poisson 分布、Gamma 分布等,即:
式中:θi為該指數(shù)類分布的似然參數(shù),不同yi對(duì)應(yīng)不同的θi;φ 為尺度參數(shù),它對(duì)所有yi都取相同值;b(·)和c(·)為 函數(shù),它們決定了分布的特殊形式。
可加成分為:
連接函數(shù)g(·)將隨機(jī)成分與可加成分聯(lián)結(jié)成g(μ)=η。例如,對(duì)于服從正態(tài)分布的模型,其連接函數(shù)為恒等變換函數(shù)η=g(μ)=μ;對(duì)于二分類數(shù)據(jù)的非參數(shù)logit 模型,其連接函數(shù)則為logit 變換函數(shù)
廣義可加模型的估計(jì),是在最小二乘法的基礎(chǔ)上增加了1 項(xiàng)懲罰項(xiàng)來(lái)保證節(jié)點(diǎn)處的光滑性,稱為懲罰最小二乘法(penalized sum of squares)。實(shí)際計(jì)算中采用局部積分(local scoring)算法,即由迭代再?gòu)?fù)加權(quán)最小二乘法(Iterative Reweighted Least Squares,IRLS)與反向擬合(back-fitting)過(guò)程合并而成[12-13]。
廣義可加模型中每一項(xiàng)不必都是非線性的,可以納入線性等參數(shù)項(xiàng),這種模型稱為半?yún)?shù)廣義可加模型(semi-parametric generalized additive models)。為揭示自變量Xi與因變量Y 之間的線性與非線性關(guān)系,同時(shí)構(gòu)建了1 個(gè)半?yún)?shù)廣義可加模型[18](模型1)和1個(gè)線性模型(模型2)。
第1 個(gè)模型對(duì)于變量Xi包括線性和非線性兩部分,可表示為:
第2 個(gè)模型對(duì)于變量Xi是線性的,可表示為:
假設(shè)K1,K2分別表示模型1 和2 的對(duì)數(shù)似然函數(shù)值,則在原假設(shè)為兩變量間不存在非線性關(guān)系的前提下,統(tǒng)計(jì)量D=K1-K2服從自由度為df 的卡方分布(Chi-square distribution)。其中,n 為樣本量,tr()為“平滑系數(shù)”矩陣的逆矩陣的跡,“平滑系數(shù)”矩陣的定義與計(jì)算見(jiàn)文獻(xiàn)[12]。假設(shè)α=0.05,進(jìn)行統(tǒng)計(jì)假設(shè)檢驗(yàn)。若P 值大于0.05,則說(shuō)明兩變量間不存在非線性關(guān)系;否則,兩變量間存在非線性關(guān)系。
運(yùn)用Trevor Hastie 開(kāi)發(fā)的基于R 軟件的GAM 軟件包完成統(tǒng)計(jì)分析[19-23]。
對(duì)烤煙研究樣本的常規(guī)化學(xué)成分與感官評(píng)價(jià)指標(biāo)進(jìn)行了描述統(tǒng)計(jì),結(jié)果見(jiàn)表1。由表1 可以看出,樣品煙葉4 種常規(guī)化學(xué)成分與感官評(píng)價(jià)指標(biāo)在不同樣品間存在較為廣泛的變異,煙堿、總氮、總糖和還原糖等常規(guī)化學(xué)成分的變異明顯大于香氣質(zhì)、香氣量、雜氣、刺激性和余味等感官評(píng)價(jià)指標(biāo)的變異;常規(guī)化學(xué)成分以煙堿的變異最大、總糖的變異最小,感官評(píng)價(jià)指標(biāo)中以香氣質(zhì)得分的變異最大、余味得分的變異最小。對(duì)于全部497 個(gè)樣本,煙堿的偏度系數(shù)大于0,為正向偏態(tài)分布;總氮、總糖、還原糖、香氣質(zhì)、香氣量、雜氣、刺激性和余味的偏度系數(shù)都小于0,為負(fù)向偏態(tài)分布;煙堿、總氮、總糖、還原糖、香氣質(zhì)、香氣量、雜氣、刺激性和余味的峰度系數(shù)大于0,為尖峭峰,數(shù)據(jù)大多集中在平均值附近。
表1 樣品烤煙常規(guī)化學(xué)成分與感官評(píng)價(jià)指標(biāo)的描述統(tǒng)計(jì)
烤煙煙葉總氮含量與感官評(píng)價(jià)指標(biāo)的廣義可加模型分析結(jié)果(表2)表明,在樣品煙葉化學(xué)成分的分布范圍內(nèi)和5%顯著水平下,總氮與香氣質(zhì)、香氣量、雜氣、刺激性和余味呈顯著線性負(fù)相關(guān),與香氣質(zhì)、雜氣、刺激性和余味呈顯著非線性相關(guān)。統(tǒng)計(jì)檢驗(yàn)結(jié)果(表3)也表明,只有總氮與香氣量的非線性關(guān)系不顯著(P 值大于0.05)。圖1 表明,總氮與香氣質(zhì)、雜氣、刺激性和余味間存在明顯的“∩”型曲線關(guān)系??緹煙熑~總氮含量為2.5%左右時(shí)評(píng)吸質(zhì)量最佳,低于1.5%或高于2.8%時(shí)評(píng)吸質(zhì)量明顯下降,適宜區(qū)間為1.5%~2.8%。
表2 總氮含量與感官評(píng)價(jià)指標(biāo)的廣義可加模型分析結(jié)果
表3 總氮含量與感官評(píng)價(jià)指標(biāo)的非線性關(guān)系統(tǒng)計(jì)檢驗(yàn)結(jié)果
圖1 煙葉總氮含量與感官評(píng)價(jià)指標(biāo)的相互關(guān)系
烤煙煙葉煙堿含量與感官評(píng)價(jià)指標(biāo)的廣義可加模型分析結(jié)果(表4)表明,在樣品煙葉化學(xué)成分的分布范圍內(nèi)和5%顯著水平下,煙堿與香氣量呈顯著線性正相關(guān),與余味呈顯著線性負(fù)相關(guān),與香氣質(zhì)、香氣量、雜氣、刺激性和余味均呈現(xiàn)顯著非線性相關(guān)。統(tǒng)計(jì)檢驗(yàn)結(jié)果(表5)也表明,煙堿與香氣質(zhì)、香氣量、雜氣、刺激性和余味均存在顯著的非線性關(guān)系。圖2 表明,煙堿與香氣質(zhì)、香氣量、雜氣、刺激性和余味之間存在明顯的“∩”型曲線關(guān)系。烤煙煙葉煙堿含量為2.5%左右時(shí)評(píng)吸質(zhì)量最佳,低于2.0%或超過(guò)3.5%時(shí)評(píng)吸質(zhì)量明顯下降,適宜區(qū)間為2.0%~3.5%。
表4 煙堿含量與感官評(píng)價(jià)指標(biāo)的廣義可加模型分析結(jié)果
表5 煙堿含量與感官評(píng)價(jià)指標(biāo)的非線性關(guān)系統(tǒng)計(jì)檢驗(yàn)結(jié)果
圖2 煙堿含量與感官評(píng)價(jià)指標(biāo)的相互關(guān)系
烤煙煙葉總糖含量與感官評(píng)價(jià)指標(biāo)的廣義可加模型分析結(jié)果(表6)表明,在樣品煙葉化學(xué)成分的分布范圍內(nèi)和5%顯著水平下,總糖與香氣質(zhì)、香氣量、雜氣、刺激性和余味呈顯著線性正相關(guān),與香氣質(zhì)、香氣量、雜氣、刺激性和余味呈顯著非線性相關(guān)。統(tǒng)計(jì)檢驗(yàn)結(jié)果(表7)也表明,總糖與香氣質(zhì)、香氣量、雜氣、刺激性和余味均存在顯著的非線性關(guān)系。圖3 表明,總糖與香氣質(zhì)、香氣量、雜氣、刺激性和余味間存在明顯的“∩”型曲線關(guān)系??緹煙熑~總糖含量為22%左右時(shí)評(píng)吸質(zhì)量最佳,低于15%或超過(guò)28%時(shí)評(píng)吸質(zhì)量明顯下降,適宜區(qū)間為15%~28%。
表6 總糖含量與感官評(píng)價(jià)指標(biāo)的廣義可加模型分析結(jié)果
表7 總糖含量與感官評(píng)價(jià)指標(biāo)的非線性關(guān)系統(tǒng)計(jì)檢驗(yàn)結(jié)果
圖3 總糖含量與感官評(píng)價(jià)指標(biāo)的相互關(guān)系
烤煙煙葉還原糖含量與感官評(píng)價(jià)指標(biāo)的廣義可加模型分析結(jié)果(表8)表明,在樣品煙葉化學(xué)成分的分布范圍內(nèi)和5%顯著水平下,還原糖與香氣質(zhì)、香氣量、雜氣、刺激性和余味呈顯著線性正相關(guān),與香氣質(zhì)、香氣量、雜氣、刺激性和余味呈顯著非線性相關(guān)。統(tǒng)計(jì)檢驗(yàn)結(jié)果(表9)也證實(shí),還原糖與香氣質(zhì)、香氣量、雜氣、刺激性和余味均存在顯著的非線性關(guān)系。圖4 表明,還原糖與香氣質(zhì)、香氣量、雜氣、刺激性和余味間存在明顯的“∩”型曲線關(guān)系。烤煙煙葉還原糖含量為18%左右時(shí)評(píng)吸質(zhì)量最佳,低于15%或超過(guò)25%時(shí)評(píng)吸質(zhì)量明顯下降,適宜區(qū)間為15%~25%。
表8 還原糖含量與感官評(píng)價(jià)指標(biāo)的廣義可加模型分析結(jié)果①
表9 還原糖含量與感官評(píng)價(jià)指標(biāo)的非線性關(guān)系統(tǒng)計(jì)檢驗(yàn)結(jié)果
圖4 還原糖含量與感官評(píng)價(jià)指標(biāo)的相互關(guān)系
在樣品煙葉化學(xué)成分的分布范圍內(nèi)和5%顯著水平下,總氮與香氣質(zhì)、香氣量、雜氣、刺激性和余味呈顯著線性負(fù)相關(guān),煙堿與香氣量、余味分別呈顯著線性正相關(guān)和負(fù)相關(guān),總糖、還原糖與香氣質(zhì)、香氣量、雜氣、刺激性和余味均呈顯著線性正相關(guān)。這與文獻(xiàn)[6-8]研究結(jié)論基本一致,但總氮與香氣的關(guān)系存在差異。
總氮與香氣質(zhì)、雜氣、刺激性和余味之間,煙堿、總糖、還原糖與香氣質(zhì)、香氣量、雜氣、刺激性和余味之間都存在顯著的非線性關(guān)系,且上述非線性關(guān)系均表現(xiàn)為明顯的“∩”型曲線關(guān)系,而總氮與香氣量的非線性關(guān)系在5%顯著水平下是不顯著的。因此,當(dāng)非線性關(guān)系顯著時(shí),應(yīng)慎重對(duì)待線性相關(guān)分析的結(jié)論。例如,在一些文獻(xiàn)中,經(jīng)常出現(xiàn)總氮與香氣質(zhì)、香氣量的線性相關(guān)系數(shù)正負(fù)不一致的結(jié)論,主要是因?yàn)閮烧唛g的真實(shí)關(guān)系是“∩”型曲線關(guān)系,其線性相關(guān)系數(shù)的正負(fù)主要取決于煙葉樣本總氮含量的分布范圍。
烤煙煙葉總氮、煙堿、總糖和還原糖含量的適宜區(qū)間分別為1.5%~2.8%,2.0%~3.5%,15%~28%和15%~25%。這與中國(guó)煙草種植區(qū)劃課題組確定的適宜區(qū)間(總氮含量2.0%~2.5%、煙堿含量2.2%~2.8%和還原糖含量18%~22%)基本一致[24]。需要指出的是,在實(shí)際應(yīng)用中,若能綜合考慮煙葉產(chǎn)區(qū)、品種、部位的影響,劃分的化學(xué)成分適宜區(qū)間的實(shí)際意義將得到明顯提升。
[1]謝劍平.煙草香料技術(shù)原理與應(yīng)用[M].北京:化學(xué)工業(yè)出版社,2009:129-153.
[2]杜詠梅,張懷寶,付秋娟,等.烤煙非揮發(fā)有機(jī)酸、高級(jí)脂肪酸與其他成分及其感官品質(zhì)的關(guān)系[J].煙草科技,2011(6):29-34.
[3]高遠(yuǎn),張艷玲,張仕祥,等.不同香型烤煙類胡蘿卜素及其降解產(chǎn)物含量與感官質(zhì)量的關(guān)系[J].煙草科技,2014(2):38-43.
[4]薛超群,王建偉,奚家勤,等.烤煙煙葉理化指標(biāo)與焦甜感程度的關(guān)系[J].煙草科技,2011(12):9-13.
[5]王麗麗,湯朝起,王以慧,等.賀州曬黃煙主要生物堿含量與其評(píng)吸質(zhì)量的相關(guān)性研究[J].中國(guó)煙草學(xué)報(bào),2013,19(3):23-27.
[6]鄧小華,周冀衡,陳冬林,等.湖南烤煙還原糖含量區(qū)域特征及其對(duì)評(píng)吸質(zhì)量的影響[J].煙草科技,2008(12):13-19.
[7]胡建軍,馬明,李耀光,等.煙葉主要化學(xué)指標(biāo)與其評(píng)吸質(zhì)量的灰色關(guān)聯(lián)分析[J].煙草科技,2001(1):3-7.
[8]閆克玉,王建民,屈劍波,等.河南烤煙評(píng)吸質(zhì)量與主要理化指標(biāo)的相關(guān)分析[J].煙草科技,2001(10):5-9.
[9]胡建軍,周冀衡,李文偉,等.烤煙香味成分與其評(píng)吸質(zhì)量的典型相關(guān)分析[J].煙草科技,2007(3):9-15,20.
[10]胡建軍,李廣才,周冀衡,等.湖南烤煙生物堿含量與其評(píng)吸質(zhì)量的相互關(guān)系研究[J].中國(guó)煙草學(xué)報(bào),2011,17(4):31-42.
[11]李廣才,余玉梅,胡建軍,等.湖南烤煙主要化學(xué)成分與評(píng)吸質(zhì)量的非線性關(guān)系解析[J].中國(guó)煙草學(xué)報(bào),2012,18(4):17-26.
[12]Hastie T J,Tibshirani R J.Generalized additive models [M].London:Chapman and Hall,1990:89-90.
[13]Wood S N.Generalized Additive Models:An Introduction with R[M].New York:Chapman and Hall/CRC,2006.
[14]Lehmann A.GIS modeling of submerged macrophyte distribution using generalized additive models[J].Plant Ecology,1998,139(1):113-124.
[15]Johansen D,Gr?nb?k M,Overvad K,et al.Generalized additive models applied to analysis of the relation between amount and type of alcohol and all-cause mortality[J].European Journal of Epidemiology,2005,20(1):29-36.
[16]Politou C Y,Tserpes G,Dokos J.Identification of deep-water pink shrimp abundance distribution patterns and nursery grounds in the eastern Mediterranean by means of generalized additive modelling [J].Hydrobiologia,2008,612(1):99-107.
[17]黃嘉礽.煙草工業(yè)手冊(cè)[M].北京:中國(guó)輕工業(yè)出版社,1999:625-870.
[18]Radomski D,Lewandowski Z,Roszkowski P I.An application of a generalized additive model for an identification of a nonlinear relation between a course of menstrual cycles and a risk of endometrioid cysts[J].Information Technologies in Biomedicine:Advances in Soft Computing,2008,47(1):482-487.
[19]Venables W N,Ripley B D.Modern applied statistics with S-PLUS[M].4th Edition.New York :Springer Verlag,2002.
[20]Brian S E.A handbook of statistical analyses using S-PLUS[M].2nd Edition.New York:CRC,2001.
[21]Wood S N.Fast stable direct fitting and smoothness selection for generalized additive models[J].Journal of the Royal Statistical Society Series B,2008,70(3):495-518.
[22]Michael J C.The R book[M].Chichester:John Wiley&Sons Ltd,2007.
[23]The R development core team.R:A language and environment for statistical computing[CP/OL].[2014-06-24].Vienna:R Foundation for Statistical Computing.http://www.R-project.org.
[24]王彥亭,謝劍平,李志宏.中國(guó)煙草種植區(qū)劃[M].北京:科學(xué)出版社,2010.