◆吳婷
基于EM算法的高斯混合模型在鳶尾花數(shù)據(jù)集的應(yīng)用
◆吳婷
(保山學(xué)院 云南 678000)
高斯混合模型是一種含隱變量的概率圖模型,其參數(shù)通常由EM算法迭代訓(xùn)練得到。本文在簡單推導(dǎo)高斯混合模型的EM算法后,將使用高斯混合模型對(duì)鳶尾花(iris)數(shù)據(jù)集進(jìn)行分類判別。同時(shí),針對(duì)EM算法受初始值影響大的問題,使用了K均值聚類算法作為其初始值的估計(jì)方法。在得到K均值聚類算法和EM算法的分類判別結(jié)果后,對(duì)比兩種算法的判別準(zhǔn)確率,以此說明在初始值合適的條件下,基于EM算法的高斯混合模型具有較高的準(zhǔn)確率。最后文章分析指出了當(dāng)前EM算法的兩個(gè)局限性:易受初始值影響和維度災(zāi)難。
高斯混合模型;EM算法;鳶尾花數(shù)據(jù)集;K均值聚類
在實(shí)際問題中,傳統(tǒng)的單一模型已經(jīng)無法滿足準(zhǔn)確性和合理性的要求,有限混合分布的提出為大量隨機(jī)現(xiàn)象建立統(tǒng)計(jì)模型提供了數(shù)學(xué)基礎(chǔ)?;旌夏P褪欠治鰪?fù)雜現(xiàn)象的一個(gè)極其重要的工具,如圖像分割技術(shù)和股票市場的數(shù)據(jù)分析,它幾乎涵蓋了金融、經(jīng)濟(jì)、生物、醫(yī)學(xué)、計(jì)算機(jī)科學(xué)及工程領(lǐng)域等的各個(gè)學(xué)科[1]。EM算法是一種基于極大似然估計(jì)的迭代算法,用于對(duì)混合模型的參數(shù)估計(jì)。近年,國內(nèi)外研究者對(duì)EM算法作了大量研究。王凱南,金立左對(duì)傳統(tǒng)EM算法穩(wěn)定性低,易陷入局部極小值,在迭代過程中加入基于模型熵的分裂和合并策略進(jìn)行改進(jìn)。馮杭,王勝兵[2]針對(duì)離散-連續(xù)型混合分布參數(shù)估計(jì)問題,給出EM算法的估計(jì)和求解。Haojun Sun,Shengrui Wang[3]設(shè)計(jì)了一種計(jì)算高斯混合模型中重復(fù)率的算法,使用該算法能消除數(shù)據(jù)集中不同類的混淆問題。
高斯混合模型(Gaussian Mixture Model,GMM)是由多個(gè)高斯分布組成的模型,其總體密度函數(shù)為多個(gè)高斯密度函數(shù)的加權(quán)組合[3]。它既是一種基于概率的聚類模型,也是一種含隱變量的概率圖模型。假設(shè)樣本x是從K個(gè)高斯分布中的一個(gè)分布生成的,但是無法觀測到具體由哪個(gè)分布生成。我們引入一個(gè)隱變量z∈{1,...,K}來表示樣本x來自哪個(gè)高斯分布,z服從多項(xiàng)分布:
從高斯混合模型中生成一個(gè)樣本x需要兩步:
(1)首先從多項(xiàng)式分布中p(z;π)隨機(jī)選取一個(gè)高斯分布;
(2)假定選中了第k個(gè)高斯分布(z=k),再從高斯分布中選取一個(gè)樣本x。
EM算法每次迭代包含兩個(gè)步驟:
(2)M步:最大化ELBO(證據(jù)下界),將參數(shù)估計(jì)問題轉(zhuǎn)換為優(yōu)化問題,求出下次迭代的參數(shù)。根據(jù)拉格朗日求解后,可得
K均值聚類算法(K-means Clustering Algorithm,Kmeans)[6]是一種迭代求解的聚類分析算法,其步驟為,先預(yù)將數(shù)據(jù)分為K組,則隨機(jī)選取K個(gè)對(duì)象作為初始的聚類中心,然后計(jì)算每個(gè)對(duì)象與各個(gè)種子聚類中心之間的距離,把每個(gè)對(duì)象分配給距離它最近的聚類中心。聚類中心以及分配給它們的對(duì)象就代表一個(gè)聚類。每分配一個(gè)樣本,聚類的聚類中心會(huì)根據(jù)聚類中現(xiàn)有的對(duì)象被重新計(jì)算。這個(gè)過程將不斷重復(fù)直到滿足某個(gè)終止條件。終止條件可以是沒有(或最小數(shù)目)對(duì)象被重新分配給不同的聚類,沒有(或最小數(shù)目)聚類中心再發(fā)生變化,誤差平方和局部最小。
數(shù)據(jù)使用了來自R語言中base包里面的iris數(shù)據(jù)集[7]。iris數(shù)據(jù)集也稱鳶尾花卉數(shù)據(jù)集,是一類多重變量分析的數(shù)據(jù)集,也是常用的分類實(shí)驗(yàn)數(shù)據(jù)集,由Fisher于1936收集整理。iris數(shù)據(jù)集包含150個(gè)數(shù)據(jù)樣本,分為3類,每類50個(gè)數(shù)據(jù),每個(gè)數(shù)據(jù)包含4個(gè)屬性,分別為:花萼長度(Sepal.Length),花萼寬度(Sepal.Width),花瓣長度(Petal.Length),花瓣寬度(Petal.Width)。可通過4個(gè)屬性預(yù)測鳶尾花卉屬于(Setosa,Versicolour,Virginica)三個(gè)種類(Species)中的哪一類。
鳶尾花數(shù)據(jù)集是一個(gè)開放數(shù)據(jù)集,為解決分類判別問題,已有其他算法的嘗試,如:KNN、決策樹、邏輯回歸(線性回歸)、樸素貝葉斯、SVM、隨機(jī)森林、PCA、Kmeans、Boosting等。目前還沒有使用過高斯混合模型來解決鳶尾花劃分的問題。
按種類(Species)不同,分別繪制4個(gè)影響變量的密度圖,由圖1可知,花瓣的長度和寬度對(duì)花種類的影響較為明顯,不同種類有明顯的分布結(jié)構(gòu)區(qū)分。而從整體分布上,4個(gè)屬性大體也服從正態(tài)分布,故使用高斯混合模型來表示。
圖1 不同種類在不同影響變量上的密度圖
實(shí)驗(yàn)環(huán)境為macOS 11.6操作系統(tǒng),使用R語言4.1.1版本。使用到的R包:ggplot2包和mixtools包。
圖2 對(duì)數(shù)似然值與迭代次數(shù)
針對(duì)分類結(jié)果,需要使用一些分類器的評(píng)價(jià)指標(biāo)來對(duì)模型優(yōu)劣進(jìn)行評(píng)價(jià)。如果是二分類問題,那么有多種評(píng)價(jià)指標(biāo)可以選擇,如準(zhǔn)確率、召回率、F1、ROC等。但由于本次研究的是三分類問題,那么采用準(zhǔn)確率來判斷分類的優(yōu)劣。
(1)K均值聚類的判別結(jié)果
由表1可知,K均值聚類判別準(zhǔn)確率為89.33%,接近90,判別的準(zhǔn)確率不錯(cuò),但K均值聚類容易陷入局部最優(yōu)。針對(duì)iris數(shù)據(jù)集,對(duì)setosa類別判別更為準(zhǔn)確,versicolor和virginica的分類容易混淆。
表1 K均值聚類的判別結(jié)果
真實(shí)值預(yù)測值setosaversicolorvirginica setosa5000 versicolor0482 virginica01436
(2)基于EM算法的高斯混合模型的判別結(jié)果
由表2可知,使用K均值聚類結(jié)果作為初始值后的EM算法判別準(zhǔn)確率為96.67%,判別準(zhǔn)確率相比僅使用K均值聚類提高了6個(gè)百分點(diǎn)。針對(duì)iris數(shù)據(jù)集,對(duì)versicolor和virginica的分類判別更為準(zhǔn)確。
表2 基于EM算法的高斯混合模型的判別結(jié)果
真實(shí)值預(yù)測值setosaversicolorvirginica setosa5000 versicolor0455 virginica0050
從實(shí)驗(yàn)結(jié)果上看,基于EM算法的高斯混合模型在鳶尾花數(shù)據(jù)集的無監(jiān)督判別有較好的適用性和準(zhǔn)確率。但目前EM算法還存在自身的一些局限性有待解決。一是模型分類結(jié)果受初始值的影響較大,目前尚未有公認(rèn)最有效的初始值確定方法,常用方法是使用聚類的結(jié)果來作初始值。二是不適用于高維數(shù)據(jù),當(dāng)數(shù)據(jù)維度變高時(shí),極易出現(xiàn)相關(guān)變量導(dǎo)致奇異矩陣的出現(xiàn),導(dǎo)致無法進(jìn)行估計(jì);同時(shí),高維數(shù)據(jù)還會(huì)導(dǎo)致待估計(jì)的參數(shù)個(gè)數(shù)呈冪增長,EM算法求解運(yùn)行效率較低。今后可以針對(duì)這兩個(gè)問題,提出進(jìn)一步的解決優(yōu)化方案。
[1]馮杭,王勝兵. 基于EM算法的離散-連續(xù)型混合分布參數(shù)估計(jì)[J]. 統(tǒng)計(jì)與決策,2019:85-88.
[2]王凱南,金立左. 基于高斯混合模型的EM算法改進(jìn)與優(yōu)化[J]. 工業(yè)控制計(jì)算機(jī),2017:115-116+118.
[3]Sun H,Wang S. Measuring the component overlapping in the Gaussian mixture model[J]. Data mining and knowledge discovery,2011,23(3):479-502.
[4]Dempster A P,Laird N M,Rubin D B. Maximum likelihood from incomplete data via the EM algorithm[J]. Journal of the Royal Statistical Society:Series B(Methodological),1977,39(1):1-22.
[5]邱錫鵬. 神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)[M]. 北京:機(jī)械工業(yè)出版社,2020.04.
[6]Wang L,Ma J W. An Efficient Greedy EM Algorithm for Gaussian Mixture for Adaptive Model Selection Using the Kurtosis and Skewness Criterion[C]//Advanced Materials Research. Trans Tech Publications Ltd,2012,452:1501-1506.
[7]周志華. 機(jī)器學(xué)習(xí)[M]. 北京:清華大學(xué)出版社,2016.01.
[8]Fisher,R. A.(1936) The use of multiple measurements in taxonomic problems.Annals of Eugenics,7,Part II,179-188.
網(wǎng)絡(luò)安全技術(shù)與應(yīng)用2022年4期