劉 洋
(大慶師范學(xué)院 數(shù)學(xué)科學(xué)學(xué)院,黑龍江 大慶 163712)
基于模型的聚類算法受到生物醫(yī)藥學(xué)界,統(tǒng)計學(xué)界,金融界,計算機(jī)等領(lǐng)域的高度重視。本文針對獨(dú)立的Gaussian與Beta有限維混合模型建立一種新的聚類方法,BGMMn聚類算法。此算法更適合獨(dú)立的Gaussian與Beta有限維混合數(shù)據(jù),特別是Gaussian分布數(shù)據(jù)容易聚類的有限維混合數(shù)據(jù),有較高的聚類數(shù)目估計的準(zhǔn)確度。
觀測指標(biāo)或樣本數(shù)據(jù)集X={X1,X2,X3,…Xn}分為G個類,假設(shè)數(shù)據(jù)以權(quán)重πk(k=1,2,…G)來自每一個類。 令X=(YT,ZT)T,其中Y為Beta分布有限維觀測數(shù)據(jù),Z為Gaussian分布有限維觀測數(shù)據(jù),并且假設(shè)Y與Z有相同的類的結(jié)構(gòu)形式,Yi與Zi相互獨(dú)立,i=1,2,…n。 則
θ1k=(αk1,αk2,…αkp1;βk1,βk2,…βkp1)為參數(shù)。
記θk=(θ1k,θ2k),θ=(θ1,θ2…θG),則觀測數(shù)據(jù)的聯(lián)合概率模型為
引入數(shù)據(jù)集X的分類標(biāo)簽Hi=(hi1,hi2,…h(huán)iG)T, 若數(shù)據(jù)Xi來自第k個類,則hik=1;否則hik=0,其中k=1,2,…G,i=1,2,…n。 于是觀測數(shù)據(jù)聯(lián)合概率模型的log-似然函數(shù)為
把分類標(biāo)簽H看成缺失向量,可以利用EM算法[1]的E步得到完全數(shù)據(jù)集的log-似然函數(shù)。
1)給出分布中參數(shù)π,μ,σ的初值:
2)利用EM算法[1]估計Gaussian分布參數(shù)μ,Σ,得到
其中v=1,2,…p2;k=1,2,…G。
3)更新分類指標(biāo)τik
4)重復(fù)2)與3)直到收斂為止。
5)利用第3)步收斂時τik的取值,根據(jù)分類準(zhǔn)則:若{w|τiw=maxw{τiw}},則數(shù)據(jù)Xi屬于第w類,得出有限維混合數(shù)據(jù)X的初始分類。
9)循環(huán)6),7),8)步驟,直到算法收斂為止。
利用模型選擇標(biāo)準(zhǔn)AIC[2],BIC[3],AIC3[2],ICL[4]各自確定的聚類數(shù)目選擇最優(yōu)的模型選擇標(biāo)準(zhǔn)。在相同的背景框架下,對BGMMn聚類算法分別應(yīng)用上述四種模型選擇標(biāo)準(zhǔn)進(jìn)行數(shù)據(jù)模擬,比較得到的正確聚類個數(shù)的次數(shù),選擇最優(yōu)的模型選擇標(biāo)準(zhǔn)。模擬結(jié)果AIC,BIC,AIC3, ICL得到的正確聚類個數(shù)的次數(shù)分別為22,6,19,6。于是BGMMn聚類算法應(yīng)用AIC作為給出最優(yōu)聚類個數(shù)的模型選擇標(biāo)準(zhǔn)。
為了客觀的評價算法的優(yōu)良,研究有限維混合數(shù)據(jù)的真實聚類與算法得到的聚類二者之間的所有可能的聯(lián)系[5]。為了估計BGMMn聚類算法估計的準(zhǔn)確度,對隨機(jī)產(chǎn)生的數(shù)據(jù)集進(jìn)行模擬,比較有限維混合數(shù)據(jù)的真實的聚類數(shù)目與算法得到的聚類數(shù)目,若二者的聚類數(shù)目一致,則記為1,否則記為0,模擬結(jié)束后,對記錄結(jié)果進(jìn)行累加,其和記為N,于是算法聚類數(shù)目估計的準(zhǔn)確度可以通過式子“N×模擬次數(shù)的倒數(shù)”進(jìn)行計算。
為檢驗BGMMn聚類算法的優(yōu)勢,比較了BGMMn聚類算法與BGMMs聚類算法[5],BGMMa聚類算法[5],BGMMh聚類算法[5]對聚類數(shù)目估計的準(zhǔn)確度。模擬數(shù)據(jù)集見表1,對數(shù)據(jù)集模擬10000次后4種聚類算法對聚類數(shù)目估計的準(zhǔn)確度見表2。
表1 模擬的數(shù)據(jù)集
注:GB為容易聚類的Beta分布數(shù)據(jù),BB為不容易聚類的Beta分布數(shù)據(jù),GG為容易聚類的Gaussian分布數(shù)據(jù),BGm為均值接近時不容易聚類的Gaussian分布數(shù)據(jù),BGv表示方差很大時不容易聚類的Gaussian分布數(shù)據(jù)。
表2 聚類數(shù)目預(yù)測的準(zhǔn)確度
注:GB為容易聚類的Beta分布數(shù)據(jù),BB為不容易聚類的Beta分布數(shù)據(jù),GG為容易聚類的Gaussian分布數(shù)據(jù),BGm為均值接近時不容易聚類的Gaussian分布數(shù)據(jù),BGv表示方差很大時不容易聚類的Gaussian分布數(shù)據(jù)。
通過對獨(dú)立的Gaussian與Beta有限維混合模型的聚類算法的研究,提出BGMMn聚類算法。在相同的背景下,通過模擬4種聚類算法的聚類數(shù)目估計的準(zhǔn)確度,表明該算法的優(yōu)勢,也指出Gaussian分布數(shù)據(jù)容易聚類時該聚類算法較其他三種聚類算法更為有效。
[參考文獻(xiàn)]
[1] Little R J A, Rubin D B.缺失數(shù)據(jù)統(tǒng)計分析[M].孫山澤,譯.北京:中國統(tǒng)計出版社,2004:143-152.
[2] Biernacki C, Govaert G.Choosing models in model-based cluslering and discriminant analysis[J].Journal of statcstical Computarion and simulation,1999,64: 49-71.
[3] Pan W.Incorproating gene functions as priors in model-based clustering of microarray geneexpression data[J].Bioinformatics, 2006,22 (7): 795-801.
[4] Ji Y, Wu C, Liu P, et al. Applications of beta-mixture models in bioinformatics[J].Bioinformatics,2005,21 (9): 2118-2122.
[5] Xiao Feng D, Timo E, Olli Y H, et al. A joint finite mixture model for clustering genes from independent Gaussian and beta distributed data[J].BMC Bioinformatics, 2009,10 :165.