胡良平
(1.軍事科學(xué)院研究生院,北京 100850;2.世界中醫(yī)藥學(xué)會(huì)聯(lián)合會(huì)臨床科研統(tǒng)計(jì)學(xué)專業(yè)委員會(huì),北京 100029 *通信作者:胡良平,E-mail:lphu812@sina.com)
本期《基于SAS與R軟件的主成分分析》一文介紹了“主成分分析方法”,此法不僅可以借用于多重線性回歸分析(見本期《主成分分析應(yīng)用(Ⅰ)——主成分回歸分析》)和無序樣品聚類分析(見本期《主成分分析應(yīng)用(Ⅱ)——主成分聚類分析》)之中,還可以借用于判別分析或分類分析之中。
主成分判別分析(the principal components discrimination analysis)是對(duì)擬用于判別分析的定量變量先進(jìn)行主成分分析,產(chǎn)生主成分變量,然后再基于這些主成分變量(注意:不是原變量)進(jìn)行判別分析。
將原先可能具有一定相關(guān)性的定量指標(biāo),通過主成分分析,使其轉(zhuǎn)變成相互獨(dú)立的變量,期望能夠有利于縮小同一類樣品之間的相對(duì)距離,同時(shí),還有利于擴(kuò)大不同類樣品之間的相對(duì)距離,以便更好地對(duì)樣品實(shí)現(xiàn)精準(zhǔn)分類。
1.4.1 問題與數(shù)據(jù)結(jié)構(gòu)
【例1】有一個(gè)著名的數(shù)據(jù)集,即iris數(shù)據(jù)集,其中共有150個(gè)觀測(cè),4個(gè)定量的評(píng)價(jià)指標(biāo)[Sepal.Length、Sepal.Width、Petal.Length、Petal.Width,分別代表萼片長度、萼片寬度、花瓣長度、花瓣寬度,單位都是毫米(mm)],1個(gè)代表分類的標(biāo)簽變量(species,種類)。共有3種花,即有setosa(剛毛的)、versicolor(雜色的)、virginica(尚未找到合適的中文翻譯名),各有50個(gè)觀測(cè),數(shù)據(jù)結(jié)構(gòu)見表1[1-2]。
表1 三類鳶尾屬植物4項(xiàng)定量指標(biāo)的測(cè)定結(jié)果
1.4.2 對(duì)數(shù)據(jù)結(jié)構(gòu)的分析
在表1中,有3類鳶尾屬植物,其標(biāo)簽變量名為G,其具體代碼分別為1、2、3,它可以被稱為結(jié)果變量。顯然,結(jié)果變量是多值名義變量,雖然其代碼是三個(gè)數(shù)字,但僅代表三種種屬的花。X1~X4這四個(gè)計(jì)量評(píng)價(jià)指標(biāo)都是用來反映每種花的特征的,它們的取值并非越大越好,也不是越小越好。關(guān)鍵是期望它們能夠很好地區(qū)分出不同種屬的花。
1.5.1 概述
知道三種種屬的花各有50株,期望基于這150株花在四項(xiàng)計(jì)量指標(biāo)上的取值能構(gòu)建一個(gè)計(jì)算公式,即判別函數(shù)式,用于對(duì)一株新的屬于這三類之一的花的真實(shí)類別進(jìn)行分類或判別。為了實(shí)現(xiàn)這一分析目的,可以基于多種不同的統(tǒng)計(jì)思想或思路來構(gòu)造分析方法,通常有如下四類:①基于“距離”的判別分析法;②基于“貝葉斯先驗(yàn)概率”的判別分析法;③基于“投影”的判別分析法;④基于“機(jī)器學(xué)習(xí)”的判別分析法。
1.5.2 基于“距離”的判別分析方法[3-4]
就是基于定量評(píng)價(jià)指標(biāo)計(jì)算出每一類中各樣品之間的距離,再將各類樣品的距離計(jì)算公式組合在一起,構(gòu)成一個(gè)判別函數(shù)式,用于判定任何一個(gè)未知類別的樣品的歸屬。
1.5.3 基于“貝葉斯后驗(yàn)概率”的判別分析方法[3]
就是基于“貝葉斯先驗(yàn)概率”來構(gòu)造一個(gè)總的期望損失函數(shù)ECM,貝葉斯判別分析是取使ECM達(dá)到最小的劃分。
1.5.4 基于“投影”的判別分析方法[3]
費(fèi)希爾線性判別是把k個(gè)總體的所有p維空間的樣本點(diǎn)投影到一維空間上,使得在一維空間中,來自不同總體的樣本點(diǎn)能盡可能地被分開。
1.5.5 基于“機(jī)器學(xué)習(xí)”的判別分析方法[5-6]
“機(jī)器學(xué)習(xí)”是一種統(tǒng)計(jì)思想,基于其產(chǎn)生出許多高效的統(tǒng)計(jì)分析方法,主要實(shí)現(xiàn)兩方面的統(tǒng)計(jì)功能,即“回歸分析”和“判別分析”。根據(jù)解決問題時(shí)所采取的思路和關(guān)鍵技術(shù)不同,其具體的分析方法包括以下幾種:①?zèng)Q策樹分析法;②支持向量機(jī)分析法;③各種神經(jīng)網(wǎng)絡(luò)分析法;④隨機(jī)森林分析法;⑤集成學(xué)習(xí)分析法等。
因篇幅所限,本文僅介紹基于“主成分變量”和“距離”的判別分析方法。
將表1中的150行5列數(shù)據(jù)按文本格式存儲(chǔ)在“F:CCC”文件夾中,命名為“150株鳶尾屬植物四項(xiàng)評(píng)價(jià)指標(biāo)資料.txt”;設(shè)所需要的SAS程序名為“基于150株鳶尾屬植物四項(xiàng)評(píng)價(jià)指標(biāo)資料進(jìn)行主成分判別分析.SAS”:
proc format;
value specname
1='Setosa '
2='Versicolor'
3='Virginica ';
run;
data iris;
title 'Fisher (1936) Iris Data';
infile 'f:ccc150株鳶尾屬植物四項(xiàng)評(píng)價(jià)指標(biāo)資料.txt';
input SepalLength SepalWidth PetalLength PetalWidth Species;
format Species specname.;
label
SepalLength='Sepal Length in mm.'
SepalWidth ='Sepal Width in mm.'
PetalLength='Petal Length in mm.'
PetalWidth ='Petal Width in mm.';
symbol=put(Species,specname10.);
run;
proc princomp data=iris prefix=z out=bbb;
var SepalLength SepalWidth PetalLength PetalWidth;
run;
PROC DISCRIM data=bbb METHOD=NPAR K=6 MANOVA LISTERR CROSSLISTERR;
CLASS Species;
VAR z1-z4;
RUN;
DISCRIM過程
以下校準(zhǔn)數(shù)據(jù)的分類匯總:WORK.BBB
使用以下項(xiàng)的交叉驗(yàn)證匯總:6個(gè)最接近的鄰近值
分入“Species”的觀測(cè)數(shù)和百分比從SpeciesSetosaVersicolorVirginica合計(jì)Setosa500050100.000.000.00100.00Versicolor0491500.0098.002.00100.00Virginica0149500.002.0098.00100.00合計(jì)50505015033.3333.3333.33100.00先驗(yàn)0.333330.333330.33333
“Species”的出錯(cuò)數(shù)估計(jì)SetosaVersicolorVirginicaTotal比率0.00000.02000.02000.0133先驗(yàn)0.33330.33330.3333
以上結(jié)果表明:第2類和第3類各有一個(gè)樣品被分錯(cuò)了。
值得一提的是:本例資料經(jīng)過主成分變換后的判別分析結(jié)果與未經(jīng)過主成分變換的判別分析結(jié)果[1-2]一致。換句話說,是否有必要采取主成分判別分析有待進(jìn)一步研究。
參考文獻(xiàn)
[1] 胡良平. 醫(yī)學(xué)統(tǒng)計(jì)學(xué)——運(yùn)用三型理論進(jìn)行多元統(tǒng)計(jì)分析[M]. 北京: 人民軍醫(yī)出版社, 2010: 188-240.
[2] 胡良平. SAS常用統(tǒng)計(jì)分析教程[M]. 2版. 北京: 電子工業(yè)出版社, 2015: 575-588.
[3] 茆詩松. 統(tǒng)計(jì)手冊(cè)[M]. 北京: 科學(xué)出版社, 2006: 539-546.
[4] 薛薇. R語言數(shù)據(jù)挖掘方法及應(yīng)用[M]. 北京: 電子工業(yè)出版社, 2016: 122-141.
[5] 周志華. 機(jī)器學(xué)習(xí)[M]. 北京: 清華大學(xué)出版社, 2016: 73-196.
[6] 吳喜之. 復(fù)雜數(shù)據(jù)統(tǒng)計(jì)方法——基于R的應(yīng)用[M]. 3版. 北京: 中國人民大學(xué)出版社, 2015: 41-56.