馬馮艷
(重慶師范大學(xué)涉外商貿(mào)學(xué)院數(shù)學(xué)與計(jì)算機(jī)學(xué)院,中國(guó) 重慶401520)
在生產(chǎn)﹑科研和日常生活中我們經(jīng)常會(huì)遇到判別分類問(wèn)題,在這些問(wèn)題中,已經(jīng)知道研究對(duì)象可以分為幾個(gè)類,而且對(duì)這些類別也已經(jīng)作了一些觀測(cè),取得了一批樣本數(shù)據(jù).我們需要對(duì)這些數(shù)據(jù)進(jìn)行處理,找到不同類別之間的顯著性區(qū)別和判別方法.
主分量分析和線性判別分析是我們最常用的兩種方法[1].主分量分析又稱主成分分析,也有稱經(jīng)驗(yàn)正交函數(shù)分解或特征向量分析.判別分析又稱“分辨法”,是在分類確定的條件下,根據(jù)某一研究對(duì)象的各種特征值,判別其類型歸屬問(wèn)題的一種多變量統(tǒng)計(jì)分析方法.線性判別分析是判別分析的一種,它是運(yùn)用線性方程進(jìn)行判別.Fisher線性判別為線性判別中最重要的判別方法之一[2].
主分量分析的基本原理:把原來(lái)多個(gè)變量劃為少數(shù)幾個(gè)綜合指標(biāo)的一種統(tǒng)計(jì)分析方法,是一降維處理技術(shù).主分量分析的基本思想:主分量分析是設(shè)法將原來(lái)眾多具有一定相關(guān)性的指標(biāo)(比如p個(gè)指標(biāo)),重新組合成一組新的互相無(wú)關(guān)的綜合指標(biāo)來(lái)代替原來(lái)的指標(biāo).通常數(shù)學(xué)上的處理就是將原來(lái)p個(gè)指標(biāo)作線性組合,作為新的綜合指標(biāo)[3].
Fisher線性判別分析的基本原理:將高維空間中的類映射到低維空間,并且要求在低維空間類與類之間較好區(qū)分,是一降維處理技術(shù).Fisher線性判別分析的基本思想:對(duì)于多個(gè)類來(lái)講,我們希望類內(nèi)離散度越小越好,類間離散度越大越好.對(duì)于原始的類,我們想通過(guò)將其投影到低維空間,并且要求經(jīng)過(guò)投影后達(dá)到類內(nèi)離散度最小,類間離散度最大.在投影的過(guò)程中,如果投影到一維空間效果不是很好,我們可以將其維數(shù)增多[4].
現(xiàn)對(duì)三類品種的鳶尾屬(Iris)植物進(jìn)行研究,希望通過(guò)研究鳶尾屬植物的幾個(gè)主要指標(biāo),可以將一個(gè)未知樣本進(jìn)行歸類.對(duì)鳶尾屬植物的四個(gè)指標(biāo)進(jìn)行了統(tǒng)計(jì).對(duì)統(tǒng)計(jì)數(shù)據(jù)作如下變換:
①對(duì)所有樣本數(shù)據(jù)X進(jìn)行中心化標(biāo)準(zhǔn)化.
②對(duì)處理后的數(shù)據(jù)求解相關(guān)系數(shù)矩陣R得
③求解R的特征值λi和特征向量ei.
表1 特征值,及其貢獻(xiàn)率﹑累計(jì)貢獻(xiàn)率表
由上表可以看出,前三個(gè)特征值的累積貢獻(xiàn)率已達(dá)到99.485%,所以我們選取前三個(gè)特征值所對(duì)應(yīng)的特征向量為主成分,這樣我們就將四維空間降到三維空間.原始數(shù)據(jù)經(jīng)過(guò)主分量分析,位數(shù)降低,得到變換Y=X*E.
經(jīng)過(guò)主分量分析,原始數(shù)據(jù)已經(jīng)降到三維,我們將對(duì)得到的三維空間里的數(shù)據(jù)再次進(jìn)行降維處理.我們選取各類中的前40個(gè)樣本代表該類進(jìn)行研究.
④分別計(jì)算出各類的樣本均值mk和所有樣本的均值m
⑤計(jì)算類內(nèi)離散度矩陣Sw和類間離散度矩陣Sb
⑥計(jì)算Sb和Sw的廣義特征值和特征向量
由于η2比η1小很多,并且η2接近于0,所以我們只選取特征值η1所對(duì)應(yīng)的特征向量組成最優(yōu)投影矩陣
⑦對(duì)Y進(jìn)行Fisher線性判別,得到變換Z=Y*W.
⑧計(jì)算經(jīng)過(guò)變換后所得到的類的均值
通過(guò)主分量分析和Fisher線性判別,我們將樣本由四維空間降到一維空間.由上面的計(jì)算,我們可以得到公式Z=X*E*W.
隨機(jī)選取45個(gè)樣本得到樣本組x,在選取樣本時(shí),前15個(gè)樣本是從第一類中抽取的,中間15個(gè)樣本是從第二類中抽取的,最后15個(gè)樣本是從第三類中抽取的.我們首先對(duì)需要判別的樣本進(jìn)行變換,然后分別計(jì)算這45個(gè)樣本到三類均值的距離
dij表示第i個(gè)樣本到第j類的距離.
表2 樣本到各類的距離表
表2中加粗的數(shù)字表示該樣本距離某類均值距離最小,也就是樣本屬于這個(gè)類.判別結(jié)果為前15個(gè)樣本判為第一類,中間16個(gè)樣本判為第二類,最后14個(gè)樣本判為第三類.其中第31個(gè)樣本通過(guò)距離判別判為第二類,而這個(gè)樣本是從第三類中抽取的;其他樣本判別均正確.在這次判別中,錯(cuò)誤率為1/45,我們認(rèn)為判別是比較合理的.對(duì)所有的樣本都進(jìn)行分類判別,其錯(cuò)誤率為4/150,我們認(rèn)為對(duì)數(shù)據(jù)的處理以及距離判別的方法是比較合理的.
我們?cè)谘芯盔S尾屬植物的三個(gè)品種時(shí),首先運(yùn)用主分量分析,在這個(gè)過(guò)程中維數(shù)降低了一維,但我們保留了99.485%的原有信息,可以說(shuō)這一數(shù)據(jù)變換很有意義.在主分量分析之后,我們?cè)龠\(yùn)用Fisher線性判別分析,將數(shù)據(jù)進(jìn)行投影,投影到一維空間.然后我們選取了45個(gè)樣本進(jìn)行分類判別時(shí),判別結(jié)果比較理想,從而驗(yàn)證了兩次降維處理的有效性和距離判別的可行性.
[1]陸元鴻.數(shù)理統(tǒng)計(jì)方法[M].上海:華東理工大學(xué)出版社,2005,8.
[2]吳翊,李永樂(lè),胡慶軍,等.應(yīng)用數(shù)理統(tǒng)計(jì)[M].長(zhǎng)沙:國(guó)防科技大學(xué)出版社,2005.
[3]朱永生.實(shí)驗(yàn)數(shù)據(jù)多元統(tǒng)計(jì)分析[M].北京:科學(xué)出版社,2009.
[4]楊淑瑩.模式識(shí)別與智能計(jì)算Matlab技術(shù)實(shí)現(xiàn)[M].北京:電子工業(yè)出版社,2008.
[5]李弼程,邵美珍,黃潔.模式識(shí)原理與應(yīng)用[M].西安:西安電子科技大學(xué)出版社,2008.