張永利,朱艷偉
(1.河北聯(lián)合大學(xué)輕工學(xué)院,河北唐山 063000;2.唐山師范學(xué)院數(shù)學(xué)與信息科學(xué)系,河北唐山 063000)
社會(huì)經(jīng)濟(jì)領(lǐng)域中存在大量的分類(lèi)問(wèn)題,實(shí)際分類(lèi)問(wèn)題中影響樣本分類(lèi)的指標(biāo)很多,不同指標(biāo)之間又可能具有一定的相關(guān)性,如果不加以處理,必將引起計(jì)算量的增大,甚至導(dǎo)致分類(lèi)的不準(zhǔn)確。而人為地選擇分類(lèi)指標(biāo),會(huì)帶有一定的主觀性,影響分類(lèi)的科學(xué)性。為了解決這個(gè)問(wèn)題,本文利用主成分分析對(duì)分類(lèi)指標(biāo)進(jìn)行線性組合,得到能夠替代原來(lái)指標(biāo)的少數(shù)幾個(gè)相互無(wú)關(guān)的綜合指標(biāo),進(jìn)而達(dá)到了優(yōu)化模糊聚類(lèi)法的目的。
在處理多元樣本數(shù)據(jù)時(shí),首先遇到的問(wèn)題是觀測(cè)數(shù)據(jù)很多。如從總體(總體X=(x1,…,xp)',X是一個(gè)p維隨機(jī)向量,每個(gè)xi是要考察的數(shù)量指標(biāo),i=1,…,p)中獲得了n個(gè)樣品X1,X2,…,Xn,共有n×p個(gè)數(shù)據(jù),如何從這些數(shù)據(jù)中抓住主要規(guī)律,從而分析樣本或總體的主要性質(zhì)呢?如果多個(gè)指標(biāo)是相互獨(dú)立的,則可以把問(wèn)題化為p個(gè)單指標(biāo)來(lái)處理,這是簡(jiǎn)單而罕見(jiàn)的情況。所以提出了主成分分析的方法,主成分分析是將多指標(biāo)化為少數(shù)幾個(gè)綜合指標(biāo)的一種統(tǒng)計(jì)分析方法,在實(shí)際問(wèn)題中,研究多指標(biāo)的問(wèn)題是經(jīng)常遇到的問(wèn)題,多元統(tǒng)計(jì)分析處理的是多變量(多指標(biāo))問(wèn)題[1]。其機(jī)理可以簡(jiǎn)單的陳述如下:借助一個(gè)正交變換T,將其分量相關(guān)的原隨機(jī)變量X=(x1,…,xp)',轉(zhuǎn)化成其分量不相關(guān)的新隨機(jī)向量U=(u1,u2,…,up)',在代數(shù)上表現(xiàn)為將X的協(xié)方差陣變換成對(duì)角形陣,在幾何上表現(xiàn)為將原坐標(biāo)系變換成新的正交坐標(biāo)系,使之指向樣本點(diǎn)散布最開(kāi)的p個(gè)正交方向,然后對(duì)多維變量系統(tǒng)進(jìn)行降維處理,使之能以一個(gè)較高的精度轉(zhuǎn)換成低維變量系統(tǒng)[2-3]
在經(jīng)典的聚類(lèi)分析方法中,可用經(jīng)典等價(jià)關(guān)系對(duì)樣本集X進(jìn)行聚類(lèi)。設(shè)R是X上的經(jīng)典等價(jià)關(guān)系,對(duì)X中的任意兩個(gè)元素x和y,若xRy或(x,y)∈R,則將x和y并為一類(lèi),否則x和y不屬于一類(lèi)。相應(yīng)地,可用X上的模糊等價(jià)關(guān)系對(duì)樣本集X進(jìn)行模糊聚類(lèi)。設(shè)R~是X上的模糊等價(jià)關(guān)系,μR~是R~的隸屬函數(shù),則R~的λ—截關(guān)系R~λ是X上的經(jīng)典等價(jià)關(guān)系,根據(jù)R~λ得到X的一種聚類(lèi),稱為在λ水平上的聚類(lèi)。即對(duì)于X上的任意兩個(gè)元素x與y,若 μR~(x,y)≥λ,則x與y屬于同一類(lèi),否則x與y不屬于同一類(lèi)。[4,5]
基于主成分的模糊聚類(lèi)分析方法為實(shí)現(xiàn)這一優(yōu)化提供了有效的數(shù)學(xué)方法。應(yīng)用過(guò)程中,先用主成分分析法對(duì)原始數(shù)據(jù)進(jìn)行主成分分析,然后再以這些新的數(shù)據(jù)進(jìn)行模糊聚類(lèi)。具體步驟如下:
(1)原始數(shù)據(jù)矩陣的構(gòu)建
進(jìn)行主成分分析之前,首先要確定分類(lèi)指標(biāo)。由于研究目的不同,選擇的指標(biāo)也就不同。而研究發(fā)現(xiàn),當(dāng)選擇的指標(biāo)發(fā)生變化時(shí),盡管變化不大,主成分分析的結(jié)果也隨之發(fā)生變化。所以,對(duì)于分類(lèi)問(wèn)題,在指標(biāo)選擇上當(dāng)尤為慎重。
設(shè)有n個(gè)樣本,確定了p項(xiàng)指標(biāo),所得觀測(cè)值xij(i=1,2,…,n,j=1,2,…,p)構(gòu)成原始數(shù)據(jù)矩陣
(2)將原始數(shù)據(jù)標(biāo)準(zhǔn)化
主成分分析的關(guān)鍵是求主成分,其工具是協(xié)方差矩陣,由于協(xié)方差矩陣易受指標(biāo)的量綱和數(shù)量級(jí)的影響,所以經(jīng)常要對(duì)原始數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,記()n×p為標(biāo)準(zhǔn)化后的數(shù)據(jù)表,則
(3)計(jì)算p個(gè)變量的相關(guān)系數(shù)矩陣R=(rij)p×p,其中
(4)計(jì)算R的特征值和特征向量,計(jì)算方差貢獻(xiàn)率和累計(jì)方差貢獻(xiàn)率,并提取主成分
設(shè) λ1,λ2,…,λp為R的p個(gè)特征根,不妨設(shè) λ1≥λ2≥…≥λp>0,相應(yīng)特征向量為a1,a2,…,ap。若前r個(gè)特征值的累計(jì)方差貢獻(xiàn)率達(dá)到85%或以上(根據(jù)經(jīng)驗(yàn),r的值往往不超過(guò)3),則取前r個(gè)主成分為:
(5)計(jì)算n個(gè)樣本在選出的r個(gè)主成分上的得分
主成分得分是原始數(shù)據(jù)(已標(biāo)準(zhǔn)化)在主成分所定義的新坐標(biāo)系中的新數(shù)據(jù),即
對(duì)經(jīng)過(guò)主成分分析得到的新數(shù)據(jù)(Y1,Y2,…,Yr)進(jìn)行模糊聚類(lèi)分析。
(6)標(biāo)定
首先將新數(shù)據(jù)進(jìn)行歸一化,使其壓縮到[0,1]閉區(qū)間內(nèi)。在此基礎(chǔ)上建立模糊相似關(guān)系()。為此要先計(jì)算出被分類(lèi)對(duì)象間的相似程度的統(tǒng)計(jì)量cij,而求統(tǒng)計(jì)量的方法多達(dá)14種,我們將在下面實(shí)際應(yīng)用中選用絕對(duì)值減數(shù)法構(gòu)造模糊相似矩陣=(cij)n×n:
(8)求λ-截集并確定分類(lèi)
在模糊等價(jià)關(guān)系矩陣()中,選取不同的λ值(λ∈[0,1]),即可得出不同的分類(lèi)結(jié)果,最后從中確定一種切合實(shí)際的分類(lèi)結(jié)果。具體方法:
①選取λ值,然后將矩陣中凡≥λ值的數(shù)值均改為1,其余改寫(xiě)為0;
②改寫(xiě)后凡橫行(或豎列)中“1”的個(gè)數(shù)和位置相同的樣本聚為一類(lèi),不同者為一類(lèi)。
利用基于主成分的模糊聚類(lèi)法對(duì)全國(guó)30個(gè)省市自治區(qū)經(jīng)濟(jì)發(fā)展情況進(jìn)行分類(lèi)。
問(wèn)題分析:中央政府進(jìn)行宏觀調(diào)控,必須了解各地區(qū)的經(jīng)濟(jì)發(fā)展水平。通過(guò)分類(lèi),對(duì)屬于同一經(jīng)濟(jì)層次的地區(qū)可以統(tǒng)一調(diào)查,因地制宜,優(yōu)化資源配置,產(chǎn)出最大經(jīng)濟(jì)效益。
根據(jù)3中的步驟可以得到前三個(gè)特征值累計(jì)方差貢獻(xiàn)率已達(dá)89.431%,說(shuō)明前三個(gè)主成分基本包含了全部指標(biāo)具有的信息,我們?nèi)∏叭齻€(gè)特征值,并計(jì)算出相應(yīng)的特征向量:
因而前三個(gè)主成分為:
分別取 λ 為:0.92,0.89,0.87,求出相應(yīng)的 λ - 截集,得到分類(lèi)結(jié)果如下:
當(dāng)λ=0.92時(shí)的分類(lèi)是:
{X3,X16},{X4,X5,X14X20,X26,X27,X30},{X7,X13},{X28,X29},其它獨(dú)自為一類(lèi)。
當(dāng) λ =0.89 時(shí)的分類(lèi)是:{X3,X16},{X4,X5,X6,X8,X12,X14,X17,X18,X20,X22,X23,X24X26,X27,X30},{X7,X13},{X10,X15},{X25,X28,X29},其它獨(dú)自為一類(lèi)。
當(dāng)λ=0.87時(shí)的分類(lèi)是:
{X3,X16},{X4,X5,X6,X7,X8X12,X13,X14,X17,X18,X20,X22,X23,X24,X25,X26,X27,X28.X29,X30},{X10,X15},其它獨(dú)自為一類(lèi)。
為了檢驗(yàn)分類(lèi)效果,可用 Microsoft Excel把 λ =0.89 時(shí)的分類(lèi){X3,X16},{X4,X5,X6,X8,X12,X14,X17,X18,X20,X22,X23,X24,X26,X27,X30},{X7,X13},{X10,X15},{X25,X28,X29}的圖形分別畫(huà)在一起,并把數(shù)據(jù)點(diǎn)用線連起來(lái)(如圖1)。
圖1 每一類(lèi)樣本的趨勢(shì)曲線
每一類(lèi)的幾何圖形走向比較接近,這與它的置信水平較高是相適應(yīng)的。所以利用這種方法得出的分類(lèi)結(jié)果是可靠的、可行的。
將主成分分析與模糊聚類(lèi)分析有效的結(jié)合起來(lái),能夠有效的降低指標(biāo)維數(shù),剔除指標(biāo)間的重疊信息。通過(guò)上面的具體實(shí)例,得到了令人滿意的分類(lèi)結(jié)果,驗(yàn)證了該方法的可行性,和有效性。
[1]張中文 高永.主成分分析與因子分析在醫(yī)院綜合評(píng)價(jià)中的比較研究[J].中國(guó)醫(yī)院統(tǒng)計(jì)2009,16,3:249-252.
[2]趙桂紅.基于主成分分析法的機(jī)場(chǎng)停機(jī)坪安全評(píng)價(jià)研究[J].統(tǒng)計(jì)與決策,2009,(07):74-76.
[3]王亞軍,李江濤,張東旭,尹瑞光.主成分聚類(lèi)分析在礦井通風(fēng)系統(tǒng)安全性評(píng)價(jià)中的應(yīng)用[J].煤礦安全,2009,(10):92-95.
[4]楊春華.模糊聚類(lèi)分析在大學(xué)生綜合素質(zhì)評(píng)定中的應(yīng)用[J].保山師專學(xué)報(bào),2009,(02):40-46.
[5]王好芳,吳美,陳文艷.模糊聚類(lèi)分析在區(qū)域水資源承載能力評(píng)價(jià)中的應(yīng)用[J].山東大學(xué)學(xué)報(bào)(工學(xué)版),2009,(03):139-143.
[6]潘永麗,王元亮,李冬.模糊聚類(lèi)分析及應(yīng)用的C++實(shí)現(xiàn)[J].云南民族大學(xué)學(xué)報(bào)(自然科學(xué)版),2009,(04):379-382.