袁少州+闞黎
【摘 要】本文首先計(jì)算各評(píng)酒員在所有葡萄酒樣品打分與均值差的平方和來(lái)確定該評(píng)酒員的準(zhǔn)確度,從而確定葡萄酒的分級(jí)。再利用主成分分析法、系統(tǒng)聚類分析法完成對(duì)釀酒葡萄的分級(jí)。最后用逐步回歸法建立模型,說(shuō)明了可以用葡萄和葡萄酒的理化指標(biāo)來(lái)評(píng)價(jià)葡萄酒的質(zhì)量。
【關(guān)鍵詞】主成分分析法;系統(tǒng)聚類分析法;逐步回歸法
【Abstract】In order to evaluate the accuracy of the wine tasters, we first calculate the quadratic sum of difference between the mean score and the score given by that wine taster, then classify the grape wine. Using principal components analysis and systematical clustering method, we classify the grape. At last, we apply the stepwise regression method to build a model, indicating that the quality of the grape wine can be evaluated by the physical and chemical indexes of the grape and the wine.
【Key words】Principal components analysis;Systematical clustering method;Stepwise regression method
0 引言
葡萄酒的質(zhì)量一般利用對(duì)評(píng)酒員對(duì)其各項(xiàng)指標(biāo)的打分求和進(jìn)行評(píng)價(jià),而釀酒葡萄的好壞與葡萄酒的質(zhì)量有很大的關(guān)系[1]。本文利用所給數(shù)據(jù),采用多元統(tǒng)計(jì)分析的方法,完成了對(duì)釀酒葡萄的分級(jí),并建立了釀酒葡萄與葡萄酒的理化指標(biāo)的聯(lián)系模型和葡萄和葡萄酒的理化指標(biāo)對(duì)葡萄酒質(zhì)量的影響模型。
1 數(shù)據(jù)來(lái)源與模型假設(shè)
本文數(shù)據(jù)來(lái)源于2012年全國(guó)大學(xué)生數(shù)學(xué)建模競(jìng)賽A題[2],根據(jù)所給數(shù)據(jù),做出以下假設(shè):(1)假設(shè)葡萄酒的生產(chǎn)加工流程相同且固定,即葡萄酒的質(zhì)量只與葡萄有關(guān);(2)假設(shè)評(píng)酒員均有一定資歷,打分情況可以反映葡萄酒質(zhì)量的真實(shí)水平;(3)假設(shè)評(píng)酒員打分相互獨(dú)立,且各組評(píng)酒員的打分服從正態(tài)分布。
2 符號(hào)系統(tǒng)
N1——紅葡萄酒的樣品總數(shù);N2——白葡萄酒的樣品總數(shù);N——各組評(píng)酒員的人數(shù);x1ij——第m組評(píng)酒員號(hào)i對(duì)紅葡萄酒樣品j的評(píng)分;ti——葡萄樣本n個(gè)一級(jí)理化指標(biāo)中的第i個(gè)指標(biāo)。
3 釀酒葡萄分級(jí)模型
3.1 數(shù)據(jù)處理
為了對(duì)葡萄進(jìn)行分級(jí),首先對(duì)各理化指標(biāo)進(jìn)行歸一化處理,再確定其所對(duì)應(yīng)的葡萄酒的質(zhì)量,而質(zhì)量是由評(píng)酒員對(duì)其分類指標(biāo)打分求和而確定的,故評(píng)酒員的打分直接關(guān)系到對(duì)葡萄酒的分級(jí),由于存在個(gè)人喜好導(dǎo)致的偏差,通過(guò)計(jì)算各評(píng)酒員在所有葡萄酒樣品打分與均值差的平方和來(lái)確定該評(píng)酒員的準(zhǔn)確度,結(jié)果見(jiàn)表1。本文選取平方和最小的前十位評(píng)酒員的評(píng)分作為分級(jí)的依據(jù),分別為:第一組的評(píng)酒員1、5、10,以及第二組的評(píng)酒員1、2、3、4、5、7、9。
表1 評(píng)酒員的準(zhǔn)確度測(cè)評(píng)表
3.2 釀酒葡萄理化指標(biāo)的主成分分析模型
釀酒葡萄的理化指標(biāo)在不同程度上反映了研究對(duì)象的某些信息,但不同理化指標(biāo)之間會(huì)有一些相關(guān)性,而且由于變量過(guò)多,在某種程度上使問(wèn)題的研究變得復(fù)雜,因此,本文用主成分分析法對(duì)所研究問(wèn)題進(jìn)行簡(jiǎn)化處理[4]。
對(duì)于27個(gè)紅葡萄樣本的30個(gè)一級(jí)理化指標(biāo)組成的向量依次設(shè)為t1,t2,…,tn,取它們的線性組合指標(biāo)為F1,F(xiàn)2,…,F(xiàn)s(s≤m),即
F1=z11t1+z12t2+…+z1ntn,F(xiàn)2=z21t1+z22t2+…+z2ntn, ……Fs=zs1t1+zs2t2+…+zsntn.(1)
式(1)中的Fi,F(xiàn)j(i≠j,j=1,2,…,s)相互無(wú)關(guān),且Fs是與F1,F(xiàn)2,…,F(xiàn)s-1都不相關(guān)的t1,t2,…,tn的所有線性組合中方差最大者。Fs稱為t1,t2,…,tn的第s主成分。設(shè)t1,t2,…,tn各向量的數(shù)據(jù)為tij(i,j=1,2,…,n),計(jì)算出相關(guān)系數(shù)矩陣:R=(rij)n×n,求其特征值λi(i=1,2,…,n),并由大到小排序,并分別求出對(duì)應(yīng)的單位特征向量ei=(ei1,ei2,…,ein)(i=1,2,…,n),繼而求出主成分Fi的貢獻(xiàn)率hi和累計(jì)貢獻(xiàn)率Hi,取累計(jì)貢獻(xiàn)率為85%~95%的s(s≤n)所對(duì)應(yīng)的前s個(gè)主成分。計(jì)算主成分載荷zij=ρ(Fi,tj)=■(i=1,2,…,s;j=1,2,…,n),繼而的相互各主成分的得分矩陣Z=(zij)n×n,部分結(jié)果見(jiàn)表2。白葡萄樣品的理化指標(biāo)的處理方法同上。通過(guò)累計(jì)貢獻(xiàn)率表知,紅葡萄樣品和白葡萄樣品的前三個(gè)主成分累計(jì)貢獻(xiàn)率已經(jīng)超過(guò)95%,因此均取s=3;將得分矩陣中的各數(shù)據(jù)值帶入式(1),即可得到紅葡萄樣品和白葡萄樣品的主成分。
表2 紅葡萄樣品協(xié)方差矩陣特征值,特征貢獻(xiàn)率和累計(jì)貢獻(xiàn)率表(部分)
3.3 釀酒葡萄理化指標(biāo)的聚類分析模型
對(duì)于上一節(jié)得到的兩種葡萄樣品的主成分,本文采用系統(tǒng)聚類法對(duì)其進(jìn)行分類[3]。
假定類G中有m個(gè)元素,用列向量vi(i=1,2,…,m)表示,dij表示vi與vj的距離,定義類GK與類GL的距離DKL=min{dij∶vi∈GK;vj∈GL},如果類GK與類GL聚成一個(gè)新類GM,其與已有類GJ的距離DMJ=min{DKJ,DLJ},J≠K,L,重復(fù)進(jìn)行兩個(gè)最近類的合并,直至所有的樣品合并為一類,最后形成一個(gè)親疏關(guān)系圖譜,從中得出分類數(shù)量及每一類包含的樣品。兩種葡萄酒的聚類圖如圖1和圖2所示。