吳江
摘 要: 將Fisher判別與Mahalanobis距離判別作比較,研究二者的關(guān)系,得出結(jié)論并給出解釋與證明?;诙叩谋容^給出一種簡(jiǎn)單的Fisher判別程序(基于MATLAB),并做數(shù)值實(shí)驗(yàn)加以論證。
關(guān)鍵詞: 數(shù)據(jù);樣本; Fisher判別; Mahalanobis距離
中圖分類號(hào): O 213.9 文獻(xiàn)標(biāo)志碼: A 文章編號(hào): 1671-2153(2017)05-0091-04
0 引 言
判別方法是根據(jù)所研究個(gè)體的觀測(cè)值構(gòu)建一個(gè)綜合標(biāo)準(zhǔn)來推斷個(gè)體屬于已知種類中的哪一類的方法[1]。判別方法有很多,Mahalanobis距離判別是最典型的判別方法,F(xiàn)isher判別是最常用的判別方法之一[2]。目前對(duì)于Mahalanobis距離判別和Fisher判別的比較研究比較缺乏。本文簡(jiǎn)要闡述了Mahalanobis距離判別和Fisher判別的內(nèi)容,然后對(duì)其進(jìn)行比較研究,得出一些結(jié)論并給出一種簡(jiǎn)單的Fisher判別程序。
由于Fisher判別不需要對(duì)樣本進(jìn)行檢驗(yàn),而且有一定的正確率,因此它在實(shí)際中得到了廣泛的應(yīng)用[3]。
Mahalanobis距離判別簡(jiǎn)稱馬氏距離判別,從統(tǒng)計(jì)學(xué)角度考慮,采用Mahalanobis距離來衡量總體之間的距離比采用歐式距離來衡量總體之間的距更為科學(xué)。
1 Fisher判別與Mahalanobis距離判別的關(guān)系
2 基于MATLAB的Fisher判別程序
在MATLAB中,Mahalanobis距離判別的程序可以調(diào)用函數(shù)
classify(sample,training,group,'mahalanobis')
來實(shí)現(xiàn),其中“sample”表示待測(cè)樣本,“training”表示訓(xùn)練樣本,“group”表示分組,“mahalanobis”表示使用的距離是Mahalanobis距離。從定理1知道Fisher判別是一種將數(shù)據(jù)經(jīng)過一個(gè)線性映射處理后的Mahalanobis距離判別,所以先編寫一個(gè)映射程序再結(jié)合classify函數(shù)來實(shí)現(xiàn)Fisher判別程序,這樣做的好處是不需要編寫一個(gè)完整的Fisher判別程序,只需要編寫一個(gè)映射程序,這樣的Fisher判別程序可以視為比較研究的一個(gè)應(yīng)用。程序流程如圖1所示。
運(yùn)行結(jié)果表示隨機(jī)生成隨機(jī)均值為0,方差為1和均值為3,方差為1的兩組二維正態(tài)分布數(shù)據(jù)各25個(gè)作為訓(xùn)練樣本,用Fisher判別對(duì)這兩組數(shù)據(jù)進(jìn)行回代估計(jì),得出誤判率為0.020。圖2用圓形和菱形的點(diǎn)表示兩組訓(xùn)練樣本,用在直線y=x上的圓形和菱形點(diǎn)表示兩組訓(xùn)練樣本經(jīng)過映射f后得到的點(diǎn)。圖2表示將數(shù)據(jù)映射到一條直線上(因?yàn)槭且痪S數(shù)據(jù),映射到任何一條直線上都可以,這里是映射到直線y=x),使得這兩組數(shù)據(jù)更加容易區(qū)分開來。這里要注意的是每運(yùn)行一次程序都會(huì)得到不同的結(jié)果,因?yàn)閮山M訓(xùn)練樣本是隨機(jī)生成的。
3 MATLAB數(shù)值實(shí)驗(yàn)
實(shí)驗(yàn)1 隨機(jī)生成隨機(jī)均值為0,方差為1和均值為3,方差為1的兩組一維正態(tài)分布數(shù)據(jù)各500個(gè)作為訓(xùn)練樣本,然后分別用Fisher判別和Mahalanobis距離判別對(duì)這兩組數(shù)據(jù)進(jìn)行回代估計(jì)。誤判率的回代估計(jì)容易計(jì)算,當(dāng)訓(xùn)練樣本容量較大時(shí),可以作為真實(shí)誤判率的一種估計(jì)[4] 。進(jìn)行10次實(shí)驗(yàn)結(jié)果如表1所示。
由表1可以看出,10次實(shí)驗(yàn)中Mahalanobis距離判別誤判率與Fisher判別誤判率均為相等。因?yàn)樵诙ɡ?中已經(jīng)證明了對(duì)于一維數(shù)據(jù),F(xiàn)isher判別與Mahalanobis距離判別等價(jià),所以無論多少次實(shí)驗(yàn),一維數(shù)據(jù)的Fisher判別與Mahalanobis距離判別的誤判率一定是相等的。
實(shí)驗(yàn)2 隨機(jī)生成隨機(jī)均值為0,方差為1和均值為3,方差為1的兩組二維正態(tài)分布數(shù)據(jù)各500個(gè)作為訓(xùn)練樣本,與實(shí)驗(yàn)一操作相同,進(jìn)行10次實(shí)驗(yàn)得到兩種判別方法的誤判率,實(shí)驗(yàn)結(jié)果如表2所示。由表2可以看出,10次實(shí)驗(yàn)中,F(xiàn)isher判別誤判率和Mahalanobis距離判別誤判率均不相等,F(xiàn)isher判別誤判率要稍低于Mahalanobis距離判別誤判率,在樣本為二維數(shù)據(jù)的情況下Fisher判別要略好于Mahalanobis距離判別。
實(shí)驗(yàn)3 隨機(jī)生成隨機(jī)均值為0,方差為1和均值為3,方差為1的兩組五維正態(tài)分布數(shù)據(jù)各500個(gè)作為訓(xùn)練樣本,與實(shí)驗(yàn)一和實(shí)驗(yàn)二操作相同,進(jìn)行10次實(shí)驗(yàn)得到兩種判別方法的誤判率,實(shí)驗(yàn)結(jié)果如表3所示。
由表3可以看出,10次實(shí)驗(yàn)中Fisher判別誤判率要低于Mahalanobis距離判別誤判率,并且Mahalanobis距離判別誤判率大約是Fisher判別誤判率的兩倍左右,在樣本為五維數(shù)據(jù)的情況下Fisher判別要好于Mahalanobis距離判別。
從上述3次數(shù)值實(shí)驗(yàn)結(jié)果可以看出,同種判別方法隨著樣本數(shù)據(jù)維數(shù)的增加判別的準(zhǔn)確性會(huì)有所提高。如果將樣本數(shù)據(jù)維數(shù)繼續(xù)增加, Fisher判別的效果會(huì)更加明顯的好于Mahalanobis距離判別。
4 結(jié)束語
對(duì)于一維數(shù)據(jù),F(xiàn)isher判別與Mahalanobis距離判別等價(jià),而隨著數(shù)據(jù)維數(shù)的增加,F(xiàn)isher判別準(zhǔn)確性要好于Mahalanobis距離判別,這也證實(shí)了定理1所描述的Fisher判別是一種將數(shù)據(jù)經(jīng)過一個(gè)線性映射處理后的Mahalanobis距離判別。所以在數(shù)據(jù)維數(shù)不等于1的情況下,F(xiàn)isher判別是Mahalanobis距離判別的一種改進(jìn)。
得到了Fisher判別與Mahalanobis距離判別的關(guān)系(定理1),就可以先編寫一個(gè)映射程序再結(jié)合classify來實(shí)現(xiàn)Fisher判別程序,因?yàn)檫@里的Mahalanobis距離判別程序只要調(diào)用classify函數(shù)即可實(shí)現(xiàn),無須自己編寫程序,從而避免了編寫一個(gè)完整的Fisher判別程序,降低了工作量. 這也可以看成是Fisher判別與Mahalanobis距離判別關(guān)系的一個(gè)簡(jiǎn)單應(yīng)用.
參考文獻(xiàn):
[1] 易平,劉彪,周丹,等. 聲光調(diào)制用于全光纖維激光器的光譜調(diào)諧[J]. 電壓與聲光,2014,36(4):552-554.
[2] 連紅天,王石語,劉國(guó)榮,等.用聲光調(diào)制器實(shí)現(xiàn)的1WNd:YAG單縱模環(huán)形激光器[J]. 應(yīng)用光學(xué),2014,35(2):332-335.
[3] 黃利文,梁飛豹. 改進(jìn)的Fisher判別法[J]. 福州大學(xué)學(xué)報(bào)(自然科學(xué)版),2006,34(4):471-475.
[4] 范金城,梅長(zhǎng)林. 數(shù)據(jù)分析[M]. 北京:中國(guó)科學(xué)出本社,2010:160.