趙政杰 趙原爽
摘 要:研究發(fā)現(xiàn)葡萄酒中礦物質(zhì)元素含量與產(chǎn)地土壤中礦物質(zhì)組成有一定的關聯(lián)性,通過檢測葡萄酒中礦物質(zhì)含量,以及相互比例,建立數(shù)學模型,可以實現(xiàn)葡萄酒的產(chǎn)地溯源。本文運用單因素方差分析、獨立t檢驗、Duncan多重比較、主成分分析(PCA)、逐步距離判別分析、聚類分析等統(tǒng)計學方法成功實現(xiàn)了對兩個葡萄酒樣品的產(chǎn)地溯源。
關鍵詞:大數(shù)據(jù) 葡萄酒 產(chǎn)地溯源
中圖分類號:TS261 文獻標識碼:A 文章編號:1672-3791(2018)01(a)-0077-02
葡萄酒中礦物質(zhì)元素含量與產(chǎn)地土壤中礦物質(zhì)組成有一定的關聯(lián)性[1],通過檢測葡萄酒中礦物質(zhì)含量,以及相互比例,建立數(shù)學模型,可以實現(xiàn)葡萄酒的產(chǎn)地溯源。
以Slavonia地區(qū)中16個葡萄酒2號待測樣品4種礦物質(zhì)的檢測結果為例。
根據(jù)每組樣品所含的m種礦物質(zhì)含量數(shù)據(jù),建立礦物質(zhì)含量及組成比例與產(chǎn)地相關聯(lián)的數(shù)學模型,由于需要分析產(chǎn)地類型,而數(shù)據(jù)所給礦物質(zhì)含量較多,不能直接判斷所給元素是否都能夠來代表地區(qū)特征,我們通過對礦物質(zhì)含量及組成比例進行Duncan多重比較、主成分分析(PCA)等統(tǒng)計方法[2]篩選出部分元素作為三個產(chǎn)地特征元素,然后在已知總體類別的基礎上,由大量各類樣品的觀測值建立判別模型。
在已知1號待測樣品來自Slavonia地區(qū),2號待測樣品來自Vojvodina地區(qū)的情況下,由于Slavonia地區(qū)要對葡萄酒產(chǎn)地進行進一步劃分,我們先建立聚類分析模型將該產(chǎn)地進行進一步劃分,再用模型二中的判別分析法模型判斷1號待測樣品來自哪個具體類別。
運用t檢驗來判斷兩個樣品的歸屬產(chǎn)地。
按照下面的公式計算t統(tǒng)計量:
將置信區(qū)間設置為95%,P<0.05,數(shù)據(jù)具有統(tǒng)計意義,說明該元素在該地區(qū)內(nèi)差異比較小,并且含量數(shù)值波動不大[1],所以可以用該元素作為該地區(qū)的特征元素,由此得出Fe、Li、Al、Be、Bi、Cr、Se、Sr、Ti、As元素符合上述條件。
該方法是考慮葡萄酒多個變量之間的相關性的一種多元統(tǒng)計方法,研究如何通過原始變量的幾個主要成分,即特征元素,使它們盡可能保留原始變量信息,實現(xiàn)降維目的。
假設有n個樣本,每個樣本共有p個變量,構成一個n×p階的數(shù)據(jù)矩陣:
當p較大時,在p維空間中考察問題比較麻煩。為了克服這一困難,就需要進行降維處理,即用較少的綜合指標代替原來較多的變量指標,而且使這些綜合指標既能盡可能地反映原來指標反映的信息,同時它們之間又是彼此獨立的。
(1)利用下式將原始數(shù)據(jù)標準化:
(2)設X已標準化,計算變量Xi*的相關系數(shù)陣式中rij為原變量的Xi與Xj之間的相關系數(shù):
(3)計算主成分貢獻率及累計貢獻率。主成分的貢獻和率累計貢獻率分別為:
一般取累計貢獻率達85%~95%的特征值λ1,λ2,…,λm所對應的第1,2,…,m(m≤p)個主成分。
當選取Cu、Fe、Li等前16種礦物質(zhì)元素時,累計貢獻率達到了99.987%,可以作為辨別產(chǎn)地的指標。
經(jīng)過對數(shù)據(jù)的Duncan多重比較以及主成分分析,篩選出的5種特征元素分別是Fe、Li、Al、Cr、Ti,使用這5種元素的含量及其比例建立與產(chǎn)地關聯(lián)的模型。進一步對這些特征元素進行判別分析,從而分類待測樣品。
所得數(shù)據(jù)見圖1和圖2。
經(jīng)分析,1號待測樣品和Slavonia地區(qū)Mahalanobis距離最近,即1號待測樣品的數(shù)據(jù)與Slavonia地區(qū)的數(shù)據(jù)具有高度相似性,所以我們可認為1號待測樣品屬于Slavonia地區(qū),同理我們可認為2號待測樣品屬于Vojvodina地區(qū)。
運用聚類分析(Cluster analysis)[3],該方法在Slavonia地區(qū)葡萄酒元素含量相似的基礎上收集數(shù)據(jù)進行分類、衡量不同數(shù)據(jù)源間的相似性,將Slavonia地區(qū)進行進一步分類,分到不同的簇中。
設數(shù)據(jù)矩陣A=(xij)nxm,衡量被分類對象間的相似程度用rij=(ei,ej)表示xi,xj的相似程度,則稱之為相似系數(shù)。由此得到模糊相似矩陣R=(rij)nxm,運用計算rij的歐氏距離法:
(1)取λ1=1最大值,對于每個xi作相似類:[xj]R={xj|rij=1},即使?jié)M足rij=1的xi和xj視為一類,構成相似類。
(2)取λ2(λ1<λ2)為次大值,從R中直接找出相似程度的元素(xi,xj)即rij≥λ2,并相應地將對應于λ1=1的等價分類中xi與xj所在的類合并為一類,即可得到λ2水平上的等價分類。
(3)依次取λ1>λ2>λ3…,按步驟(2)的方法依次類推,直到合并到X成為一類為止,最后可以動態(tài)聚類。
利用特征元素,對Slavonia地區(qū)的16個品牌建立聚類分析模型并通過SPSS計算。第2、7組Mahalanobis距離最近,即第2、7組數(shù)據(jù)具有高度相似性,因此我們可認為1號待測樣品屬于組別2,即Traminac。
參考文獻
[1] 王丙濤,陳波,涂小珂,等.葡萄酒中元素分布與其原產(chǎn)地關系的分類模型[J].食品科學,2014,35(2):213-216.
[2] 孫淑敏,郭波莉,魏益民,等.多礦物元素分析在羊肉產(chǎn)地溯源中的應用[A].中國農(nóng)業(yè)工程學會[C].2009.
[3] SPITZKE M E,F(xiàn)AUHL-HASSEK C. Determination of the 13C/12C ratios of ethanol and higher alcohols in wine by GC-C-IRMS analysis[J].Uropean Food Research and Technology,2010,231(2):247-257.