楊海麗 鄭治波
(保山學(xué)院數(shù)學(xué)學(xué)院 云南·保山 678000)
在實(shí)際生活中,會(huì)遇到基于事物的某種屬性將其分類(lèi)到已知的類(lèi)別中的問(wèn)題,例如,根據(jù)已獲得的癥狀數(shù)據(jù),判別一位新的病人是否具有某種疾?。桓鶕?jù)已有的氣象資料來(lái)預(yù)報(bào)明天的天氣;多元統(tǒng)計(jì)分析的判別分析就是解決這類(lèi)問(wèn)題的一種方法。綜合已有的文獻(xiàn)寫(xiě)關(guān)于三種方法的比較多,[1]但是關(guān)于貝葉斯判別法的兩種規(guī)則的詳細(xì)討論方面較少,為了便于學(xué)習(xí)全面學(xué)習(xí)貝葉斯判別法,本文將貝葉斯判別法的特點(diǎn)、規(guī)則、應(yīng)用結(jié)合起來(lái)研究。
貝葉斯判別的思想是:基于樣品的先驗(yàn)概率分布,從總體中抽取樣本,用樣本來(lái)修正已有的認(rèn)識(shí),得到后驗(yàn)概率分布,由后驗(yàn)概率分布來(lái)做判別分析。[2]
最大后驗(yàn)概率判別法的基本思想是:[3]通過(guò)計(jì)算出樣品屬于各個(gè)組的后驗(yàn)概率,將樣品歸類(lèi)到后驗(yàn)概率最大的組。
最大后驗(yàn)概率法采用如下的判別規(guī)則:
最大后驗(yàn)概率法,未考慮誤判的概率,在實(shí)際分析中有些情況不得不考慮誤判概率,如,誤將不合格藥品判別成合格藥品可能會(huì)危及生命。
最小期望誤判代價(jià)法采用的是使得ECM達(dá)到最小的判別規(guī)則。即:
兩組的一般情形:
密度函數(shù)與先驗(yàn)概率同前,現(xiàn)假設(shè)誤判代價(jià)矩陣為:
實(shí)際應(yīng)用中,如果先驗(yàn)概率難以給出,則通常把它們?nèi)〕上嗟?,?yīng)用此判別規(guī)則。
表1 某地區(qū)人口死亡數(shù)據(jù)表
當(dāng)誤判代價(jià)c(2|1)=c(2|1)時(shí),上述簡(jiǎn)化為:
從以上的分析可以看出最大后驗(yàn)概率法其實(shí)是在默認(rèn)誤判損失相等情況下的最小期望誤判代價(jià)法。
例1設(shè)有π1π2π3三個(gè)組,欲判別某樣品x0屬于何組,已知
解:分別計(jì)算出三個(gè)后驗(yàn)概率
所以應(yīng)將x0判為組π3。
例2設(shè)有π1π2π3三個(gè)組,已知某樣品x0屬于這三個(gè)組的先驗(yàn)概率,以及概率密度如下:
判別樣品屬于何組?
解:按照最小期望誤判代價(jià)法則,具體計(jì)算過(guò)程如下:
由于時(shí)I=2為最小值,故x0屬于π2。
圖1 預(yù)測(cè)結(jié)果圖
以上的兩個(gè)判別規(guī)則的實(shí)現(xiàn)基于同一組基礎(chǔ)數(shù)據(jù),分別根據(jù)最大后驗(yàn)概率法和最小期望誤判代價(jià)法的判別規(guī)則來(lái)進(jìn)行判別分析。在實(shí)際應(yīng)用中當(dāng)數(shù)據(jù)較多時(shí),這兩種方法的理論分析較為繁瑣,考慮可以借助于計(jì)算機(jī)軟件實(shí)現(xiàn)做判別分析。本文以最簡(jiǎn)單直觀的數(shù)據(jù)分析軟件SPSS給讀者呈現(xiàn)。
借助于SPSS軟件可以快捷地實(shí)現(xiàn)判別分析,以例題的方式展示數(shù)據(jù)分析的過(guò)程。
例3為研究某第地區(qū)人口死亡狀況,按某種方法將15個(gè)已知樣品分為3類(lèi),指標(biāo)及原始數(shù)據(jù)如表1所示。
表1中指標(biāo)說(shuō)明如下:x1:0歲組死亡概率;x2:1歲組死亡概率;x3:10歲組死亡概率;x4:55歲組死亡概率;x5:80歲組死亡概率;x6:平均預(yù)期壽命。
為了對(duì)四個(gè)待判樣品做出判別。借助于SPSS25軟件,所得結(jié)果如圖1。
圖1是返回已知數(shù)據(jù)表得出的結(jié)果,可以看出已知數(shù)據(jù)的預(yù)測(cè)結(jié)果與實(shí)際結(jié)果安全吻合,第一、第四個(gè)樣品屬于第3組;第二個(gè)樣品屬于第1組;第三個(gè)樣品屬于第2組。
從合并圖中不難看出,第一組和第二組,第三組和第二組能夠和好地區(qū)分開(kāi),但是第一組和第三組存在重合的區(qū)域(圖2)。
圖2 判別分析結(jié)果圖
表2交叉驗(yàn)證采用了留一個(gè)在外的原則,正確地對(duì)86.7%個(gè)進(jìn)行了交叉驗(yàn)證,并對(duì)分組個(gè)案進(jìn)行了分類(lèi)。
表2 交叉驗(yàn)證
一般的決策方法所得結(jié)論三對(duì)結(jié)果完全接受或者反對(duì),而貝葉斯判別方法給出的是決策概率,可以判斷所獲得信息的價(jià)值決定是否需要獲取更多新的信息。貝葉斯判別方法則是對(duì)調(diào)查結(jié)果的可能性作出數(shù)量化的評(píng)價(jià)。貝葉斯判別方法根據(jù)具體的問(wèn)題進(jìn)行重復(fù)使用,進(jìn)而使所作出的決策更加完善和科學(xué)。
貝葉斯判別方法的缺點(diǎn)是:需要采集的數(shù)據(jù)信息較多;分析計(jì)算相對(duì)復(fù)雜;數(shù)據(jù)采集帶有主觀概率;推廣使用困難。