艾天霞, 張 蕾
(1.榆林學院 數(shù)學與統(tǒng)計學院,陜西 榆林719000;2. 云南師范大學文理學院 工商管理學院,云南昆明650222)
判別分析的基本思想是根據(jù)對已有的分類數(shù)據(jù)進行研究,找出樣本數(shù)據(jù)的分類規(guī)律,然后建立判別函數(shù),進而通過判別函數(shù)對新樣本的分類情況進行判別的一種分類學科。根據(jù)是否需要事先假設總體的分布情況,判別分析分為參數(shù)判別分析和非參數(shù)判別分析。參數(shù)判別分析就是傳統(tǒng)的判別分析,主要有距離判別、Bayes判別和Fisher 判別。非參數(shù)判別分析主要分為兩種:一種是非參數(shù)核密度估計判別分析;另一種是非參數(shù)最近鄰估計判別分析[1]。在參數(shù)判別分析方法中,Bayes 判別方法應用最為廣泛;在非參數(shù)判別分析方法中,非參數(shù)核密度Bayes 判別方法最為普遍。下面介紹這兩種判別分析的基本原理,并對這兩種判別分析方法進行比較。
傳統(tǒng)Bayes 判別分析主要討論正態(tài)分布的情況。假設有k 個總體G1,G2,…,Gk,對應的概率密度函數(shù)分別為f1(x),f2(x),…,fk(x),Xi服從均值為μi,協(xié)方差陣為∑i的正態(tài)分布,其中i = 1,2,…,k,Xi的密度函數(shù)為
相應的先驗概率分別為p1,p2,…,pk,則有pi≥0 且p1+p2+…+pk= 1。提前假定所有的錯判損失都相同,則多分類Bayes 判別的判別準則為[2]
在非參數(shù)核密度Bayes判別分析中,假設有k 個總體G1,G2,…,Gk,p 個指標,相應的核密度函數(shù)[3-4]分別為fn1(x),fn2(x),…,fnk(x),先驗概率分別為p1,p2,…,pk,假定所有的錯判損失相等,采用SJ 帶寬,并取核函數(shù)為高斯核函數(shù),則總體Gj(j =1,2,…,k)的核密度估計[5-6]可表示為
其 中,i = 1,2,…,nj;j = 1,2,…,k;n = n1+n2+ … +nj;相應的先驗概率的估計為
將先驗概率的估計值代入多分類貝葉斯判別規(guī)則中,得到后驗概率,然后進行比較。因此,非參數(shù)核密度貝葉斯判別規(guī)則為
傳統(tǒng)Bayes 判別方法是一種參數(shù)判別方法,主要討論總體服從正態(tài)分布的情形。采用傳統(tǒng)Bayes判別方法時,需要事先假定總體服從正態(tài)分布。但是,在實際情況中,總體通常不服從正態(tài)分布,或者總體的分布情況是未知的,此時已不再適用傳統(tǒng)Bayes 判別方法。非參數(shù)核密度Bayes 判別方法是一種非參數(shù)判別方法,運用非參數(shù)判別方法時,不需要事先假定總體的分布情況,而是直接通過數(shù)據(jù)本身來估計總體的概率密度,適用于任何分布形式的總體。從理論上來說,相比于傳統(tǒng)方法,非參數(shù)核密度Bayes 判別方法具有更廣泛的適用性。
通過統(tǒng)計模擬的方法對傳統(tǒng)Bayes 判別方法與非參數(shù)核密度Bayes 判別方法進行比較。若總體所考慮的指標有p 個,那么總體就是p 維數(shù)據(jù),所采用的判別分析就是p 維判別分析。為了方便研究,文中僅僅模擬了p = 1 和p = 2 的情形,其他多維情形可以類似推導。
對于一維情形和二維情形,又分別模擬了正態(tài)數(shù)據(jù)和非正態(tài)數(shù)據(jù),其中正態(tài)數(shù)據(jù)作為對照組,非正態(tài)數(shù)據(jù)作為比較組??傮w中參數(shù)的取值情況不同,得到的數(shù)據(jù)也不一樣。針對上述情形,文中將分別模擬參數(shù)的不同取值情況,以便更好地說明結果。
3.2.1 一維正態(tài) 用R 語言隨機生成服從N(μ,σ2)的一維數(shù)據(jù)xi(i = 1,2,…,n),其中針對參數(shù)μ和σ2的不同取值,模擬了以下6 種情況:(1)μ = 0,σ2= 1;(2)μ = 0,σ2= 0.5;(3)μ = 5,σ2= 1;(4)μ = 5,σ2= 0.5;(5)μ = 10,σ2= 1;(6)μ =10,σ2= 0.5。生成隨機數(shù)據(jù)后,定義每組數(shù)據(jù)的原始分類情況,采用的方法是:求出每組數(shù)據(jù)的中位數(shù),記為Me(xi),對于i = 1,2,…,n,定義
則Si就是每組數(shù)據(jù)的原始分類情況。如果存在若干數(shù)據(jù)等于Me(xi)的情況,就需要剔除掉這幾個數(shù)據(jù),然后再重新生成幾個隨機數(shù)據(jù),直至每組數(shù)據(jù)中沒有等于中位數(shù)的情況為止,最后將保證類別1和類別2 的數(shù)據(jù)各占數(shù)據(jù)總量的一半。
3.2.2 一維非正態(tài) 不妨采用服從Gamma 分布的數(shù)據(jù)進行模擬。用R 語言隨機生成服從Gamma(α,β)分布的數(shù)據(jù)xi(i = 1,2,…,n),其中針對參數(shù)α 和β 的不同取值,模擬了以下6 種情況:(1)α = 2,β = 0.1;(2)α = 2,β = 0.5;(3)α = 2,β = 1;(4)α = 2,β = 2.5;(5)α = 2,β = 5;(6)α =2,β = 10.5。生成隨機數(shù)據(jù)后,定義每組數(shù)據(jù)的原始分類情況,方法同上。
3.2.3 二維正態(tài) 用R 語言隨機生成服從N2(μ,Σ)的二維正態(tài)數(shù)據(jù),其中第一維數(shù)據(jù)xi1服從N(μ1,),第二維數(shù)據(jù)xi2服從N(μ2,),針對參數(shù)μ1,,μ2,的不同取值,模擬了以下6 種情況:。生成隨機數(shù)據(jù)后,定義每組數(shù)據(jù)的原始分類情況,采用的方法是:令
求出yi的中位數(shù),記為Me(yi),最后,對于i = 1,2,…,n,定義
則Si就是每組數(shù)據(jù)的原始分類情況。如果存在若干數(shù)據(jù)等于Me(yi)的情況,就需要剔除再選,直至每組數(shù)據(jù)中沒有等于中位數(shù)的情況為止,最后將保證類別1 和類別2 的數(shù)據(jù)各占數(shù)據(jù)總量的一半。
3.2.4 二維非正態(tài) 不妨采用混合分布組成的非正態(tài)二維數(shù)據(jù),具體方法如下:先構造第一維數(shù)據(jù)xi1,用R 生成兩組具有不同μ 和σ2的一維正態(tài)數(shù)據(jù),第一組數(shù)據(jù)ri1服從N(μ1,),第二組數(shù)據(jù)ri2服從N(μ2,),其中μ1≠μ2且,再生成一組服從U(0,1)的均勻分布數(shù)據(jù)zi,對于i = 1,2,…,n
則xi1為第一維數(shù)據(jù),同理構造第二維數(shù)據(jù)xi2。針對參數(shù)μ1,,μ2,,μ3,,μ4,σ24 的不同取值,模擬以下6 種情況:
生成二維隨機數(shù)據(jù)后,定義每組數(shù)據(jù)的原始分類情況,方法同上。
3.2.5 模擬結果 利用隨機生成的數(shù)據(jù),采用兩種判別方法進行判別分析。在統(tǒng)計模擬時,分別取樣本容量n = 50,n = 200,n = 500 3 種情況,進行重復數(shù)N = 1 000 次的模擬試驗,最后取1 000 次模擬結果的平均值作為最終結果。運行R 軟件,得出每組數(shù)據(jù)的最終模擬結果,將兩種判別方法的最終模擬結果進行比較。結果顯示,在上述統(tǒng)計模擬的各種情形中,非參數(shù)核密度Bayes 判別方法的正判率都明顯高于傳統(tǒng)Bayes 判別方法的正判率。
3.3.1 對一組正態(tài)體檢數(shù)據(jù)的判別分析 為研究冠心病,某位醫(yī)生測定了15 例50 ~59 歲的冠心病人和15 例50 ~59 歲的正常人的舒張壓和膽固醇指標(數(shù)據(jù)來源于《SPSS 寶典》16.3 實例數(shù)據(jù)[7])。對這30例數(shù)據(jù)分別用兩種判別方法進行判別分析,將分類結果與原始分類情況進行比較,結果如表1 所示。
表1 體檢數(shù)據(jù)的兩種判別結果比較Tab.1 Comparison of two discriminant results for physical examination data
表1 結果表明,在冠心病組的判別中,非參數(shù)核密度Bayes 判別方法的正判率是66.7%,高于傳統(tǒng)Bayes 判別方法的正判率;在正常人組的判別中,兩種方法的正判率都是100%。綜合來看,非參數(shù)核密度Bayes 判別方法的正判率高于傳統(tǒng)Bayes 判別方法。
3.3.2 對一組非正態(tài)企業(yè)財務數(shù)據(jù)的判別分析為研究企業(yè)財務預警[8-9]問題,隨機選取了20 家被特別處理的上市公司(ST 公司)和180 家正常的上市公司(非ST 公司)作為研究對象(數(shù)據(jù)來源于Wind 資訊)。測定這200 家上市公司的8 個財務指標。對這8 個財務指標數(shù)據(jù)進行正態(tài)性檢驗,各指標數(shù)據(jù)都不服從正態(tài)分布。針對這200 例數(shù)據(jù),分別采用兩種判別方法進行判別分析,將分類結果與原始分類情況進行比較,計算出兩種方法的正判率,結果如表2 所示。
表2 企業(yè)財務數(shù)據(jù)的兩種判別結果比較Tab.2 Comparison of two discriminant results for enterprise’s financial data
表2 結果表明,在ST 公司的判別中,非參數(shù)核密度Bayes 判別方法的正判率是100%,明顯高于傳統(tǒng)Bayes 判別方法的正判率;在非ST 公司的判別中,非參數(shù)核密度Bayes 判別方法的正判率略高于傳統(tǒng)Bayes 判別方法的正判率。綜合來看,非參數(shù)核密度Bayes 判別方法的正判率明顯高于傳統(tǒng)Bayes判別方法的正判率。
綜上所述,非參數(shù)核密度Bayes 判別方法要明顯優(yōu)于傳統(tǒng)Bayes 判別方法。從理論上看,當總體的分布情況已知,且服從正態(tài)分布時,傳統(tǒng)Bayes 判別方法無疑是適用的;但當總體的分布情況未知時,此時應該采用非參數(shù)核密度Bayes 判別方法。非參數(shù)核密度Bayes 判別方法不需要事先假定總體的分布情況,所以適用范圍更廣。通過統(tǒng)計模擬和實證分析兩方面驗證,結果表明,當總體服從正態(tài)分布時,非參數(shù)核密度Bayes 判別方法的正判率不低于傳統(tǒng)Bayes 判別方法的正判率;當總體不服從正態(tài)分布時,非參數(shù)核密度Bayes 判別方法的正判率遠遠高于傳統(tǒng)Bayes 判別方法的正判率??梢?,對于任何分布形式的總體來說,非參數(shù)核密度Bayes 判別方法都是有效的。
[1]朱干江.非參數(shù)密度估計在判別分析中的應用[D].南京:南京信息工程大學,2007.
[2]薛毅,陳立萍.統(tǒng)計建模與R 軟件[M].北京:清華大學出版社,2007:375-397.
[3]馬明衛(wèi),宋松柏.非參數(shù)方法在干旱頻率分析中的應用[J].水文,2011,31(3):5-12.
MA Mingwei,SONG Songbai.Nonparametric approach for drought frequency analysis[J]. Journey of China Hydrology,2011,31(3):5-12.(in Chinese)
[3]牛玉坤,胡曉華.基于非參數(shù)核估計方法的中國股市收益率分布研究[J].湖南師范大學學報:自然科學版,2013,26(4):363-367.
NIU Yukun,HU Xiaohua. The Chinese stock market returns distribution research based on nonparametric kernel estimation method[J].Journal of Hainan Normal University:Natural Science,2013,26(4):363-367.(in Chinese)
[5]ZHANG Jin,WANG Xueren.Robust normal reference bandwidth for kernel density estimation[J].Statist Neerlandica,2009,63:13-23.
[6]Adamowskik.Nonparametric kernel estimation of frequencies[J].Water Resources Research,1985,21(11):1585-1590.
[7]張慶利.SPSS 寶典[M].2 版.北京:電子工業(yè)出版社,2011:214-287.
[8]羅怡,鄭春偉.我國企業(yè)財務預警實證分析—以2012 年23 家金融機具上市公司為例[J].財經(jīng)科學,2014(2):88-95.
LUO Yi,ZHENG Chunwei.Financial warning empirical analysis of the financial instrument companies:evidence form 23 listed companies of 2012[J].Finance and Economics,2014(2):88-95.(in Chinese)
[9]黃振,朱珺,張為.基于Bayes 判別分析法的上市公司財務風險研究[J].洛陽理工學院學報:社會科學版,2012,27(3):26-28.
HUANG Zhen,ZHU Jun,ZHANG Wei. Research based on discriminative analysis of bayes into financial risks faced with the exchange-listed companies[J].Journal of Luoyang Institute of Science and Technology:Social Science,2012,27(3):26-28.(in Chinese)