四川大學(xué) 魏燁敏 蔣子元
在機(jī)器學(xué)習(xí)中,系統(tǒng)聚類算法和K-means聚類算法是兩種常用的聚類算法,并具有各自的特征,將兩者特征結(jié)合到一起設(shè)計(jì)的組合聚類算法,可以發(fā)揮兩種算法的優(yōu)勢(shì)作用,提高機(jī)器學(xué)習(xí)聚類算法的分析和判斷能力。目前關(guān)于機(jī)器學(xué)習(xí)聚類組合算法的研究已經(jīng)得到了廣泛關(guān)注,比如在電力工業(yè)中,可以利用機(jī)器學(xué)習(xí)聚類算法實(shí)現(xiàn)用戶負(fù)荷類型分析,完成電價(jià)制定和負(fù)荷預(yù)測(cè)等工作。
系統(tǒng)聚類算法通過將樣品劃分成若干類,選擇各類中距離最小的類進(jìn)行合并,指導(dǎo)將所有類合并成一個(gè)類,完成機(jī)器學(xué)習(xí)過程。系統(tǒng)聚類算法的主要步驟包括:(1)構(gòu)建M個(gè)初始模式樣本類,用Y1(0)、Y2(0)、…Ym(0)表示,并對(duì)類與類間的距離進(jìn)行計(jì)算;(2)根據(jù)類與類間的距離計(jì)算結(jié)構(gòu),構(gòu)建距離矩陣D(m),求取D(m)中的最小元素,根據(jù)最小元素建立新的分類,比如最小元素是Yi(m)和Yj(m)之間的距離,則根據(jù)Yi(m)與Yj(m)間距建立新分類Y1(m+1)、Y2(m+1)、…Ym(m+1);(3)計(jì)算合并新類之間的距離,得到距離矩陣D(m+1),再對(duì)Yij(m+1)與其它未合并類Y1(m+1)、Y2(m+1)、…Ym(m+1)之間的距離進(jìn)行計(jì)算;(4)如果經(jīng)過上述計(jì)算和合并沒有得到預(yù)期聚類結(jié)果,則返回第二步進(jìn)行迭代計(jì)算,直到得到預(yù)期聚類結(jié)果。該聚類算法的主要優(yōu)點(diǎn)是可以由系統(tǒng)根據(jù)數(shù)據(jù)間距離自動(dòng)列出類別[1]。
K-means聚類算法法即最小最大聚類算法,通過綜合考慮各簇之間的簇內(nèi)方差值關(guān)系,確定聚類目標(biāo)函數(shù),在最小化K各簇中的最大簇內(nèi)方差值下進(jìn)行聚類。具體是對(duì)公式:
進(jìn)行聚類最小化,通過迭代方式,得到松弛化公式:
可以將其聚類過程看作簇與聚類中心的迭代更新過程,在權(quán)重增加下,可以將接近中心的樣本劃分到簇k中。由于0≤p≤1,1/(1-p)>0,方差越大則權(quán)重越高[2]。
在機(jī)器學(xué)習(xí)過程中,如果負(fù)荷樣本數(shù)量過高,特征向量的維數(shù)往往也較多,單獨(dú)采用任意一種聚類方法,都難以獲得理想的聚類效果。為了得到更加可靠的聚類分析結(jié)果,客觀描述樣本類型,準(zhǔn)確識(shí)別樣本并提高分類效率,可以通過聚類算法組合設(shè)計(jì),找到適合對(duì)大數(shù)量和高維度樣本進(jìn)行聚類分析的方法,實(shí)現(xiàn)負(fù)荷特性的有效聚類。
通過對(duì)上述兩種聚類算法進(jìn)行分析可以看出,初始聚類中心設(shè)計(jì)對(duì)聚類算法的應(yīng)用效果有重要影響,如果初始聚類中心的設(shè)計(jì)不合理,將導(dǎo)致聚類結(jié)果出現(xiàn)不穩(wěn)定現(xiàn)象。而且在處理大數(shù)量樣本數(shù)據(jù)時(shí),聚類算法的重復(fù)性步驟非常多,但其整體流程較為簡(jiǎn)單,原理較為直觀和清晰,能夠在計(jì)算機(jī)軟件的輔助下,實(shí)現(xiàn)快速分類。采用組合算法的優(yōu)勢(shì)是不需要初始設(shè)定經(jīng)典聚類算法,解決傳統(tǒng)單一聚類算法在應(yīng)用過程中容易出現(xiàn)局部最優(yōu)解的問題。
基于上述考慮,設(shè)計(jì)系統(tǒng)聚類算法和K-means聚類算法的組合算法,通過二次組合,對(duì)機(jī)器學(xué)習(xí)過程中的負(fù)荷特性進(jìn)行進(jìn)一步的計(jì)算分析。將系統(tǒng)聚類算法作為一次聚類算法,利用其對(duì)負(fù)荷特性進(jìn)行分類,然后在采用K-means聚類算法進(jìn)行二次聚類分析,將一次聚類計(jì)算結(jié)果直接作為二次聚類分析的聚類中心,解決傳統(tǒng)聚類算法的初始參數(shù)敏感性問題,同時(shí)為二次聚類分析結(jié)果的客觀性和準(zhǔn)確性提供保障。
聚類組合算法的關(guān)鍵步驟包括平滑處理、量綱差別判斷、歸一化處理、加權(quán)處理、系統(tǒng)聚類、相關(guān)系數(shù)判斷、最優(yōu)系統(tǒng)聚類、最小最大聚類、有效性驗(yàn)證、矩陣還原及加權(quán)、最優(yōu)分類數(shù)確定、質(zhì)控特殊數(shù)據(jù)、加權(quán)矩陣還原等。
根據(jù)上述聚類組合算法設(shè)計(jì)方式,及其學(xué)習(xí)聚類組合算法的應(yīng)用流程可以分為三大步驟,一是對(duì)初始數(shù)據(jù)進(jìn)行處理,并完成特征向量設(shè)置,二是應(yīng)用組合聚類算法,三是對(duì)聚類分析結(jié)果進(jìn)行展示?;谶@一基本流程,聚類組合算法的詳細(xì)應(yīng)用流程如下:(1)在第一階段,完成數(shù)據(jù)導(dǎo)入和壞數(shù)處理工作,并對(duì)導(dǎo)入的數(shù)據(jù)樣本進(jìn)行歸一化處理,得到樣本特征向量;(2)在第二階段的聚類組合算法應(yīng)用過程中,首先對(duì)分類數(shù)進(jìn)行初始化,然后由系統(tǒng)執(zhí)行聚類算法,確定初始化聚類中心,完成最小最大k均值聚類,利用有效性函數(shù)對(duì)聚類結(jié)果進(jìn)行檢驗(yàn),如果不滿足聚類分析要求,則返回初始分類數(shù)步驟進(jìn)行迭代計(jì)算,直到得到預(yù)期的聚類計(jì)算分析結(jié)果;(3)在第三階段,將得到的滿意聚類結(jié)果導(dǎo)出,并由計(jì)算機(jī)軟件輔助繪制聚類效果圖,對(duì)聚類結(jié)果進(jìn)行展示。
本次選取的算例為某工業(yè)園電子元件制造企業(yè)的每日負(fù)荷數(shù)據(jù)聚類組合算法應(yīng)用。在數(shù)據(jù)搜集過程中,選取該電子元件制造企業(yè)在近5個(gè)月內(nèi)每日24時(shí)的負(fù)荷數(shù)據(jù),經(jīng)過處理后得到聚類特征向量,共得到152組數(shù)據(jù),將非正常數(shù)據(jù)剔除后,剩余130組有效數(shù)據(jù)。將130組有效數(shù)據(jù)制作成分析樣本,共分為6類,提取出三組特殊數(shù)據(jù),基于上述聚類組合算法對(duì)其進(jìn)行聚類分析。從本次算例分析結(jié)果來看,根據(jù)聚類組合算法最終得到的負(fù)荷曲線,負(fù)荷高峰值分別出現(xiàn)在8~11時(shí)和14~16時(shí),部分為迎峰負(fù)荷。通過對(duì)各類別情況進(jìn)行分析可以看出,第一類和第二類是減產(chǎn)或停產(chǎn)的特殊情況,得到的聚類分析曲線也較為特殊,其他負(fù)荷曲線形態(tài)則較為相似。通過進(jìn)行聚類組合分析和計(jì)算,可以確定負(fù)荷高峰為1200kW,最低時(shí)也可達(dá)到800kW,平時(shí)基本穩(wěn)定在1000kW左右,而且沒有隨季節(jié)變化出現(xiàn)較大波動(dòng)。基于上述分析結(jié)果,該企業(yè)通過在高峰時(shí)采取減產(chǎn)等措施,可以使負(fù)荷峰值下降約200~300kW。聚類組合算法的應(yīng)用可以完成負(fù)荷分析人物,為移峰填谷、優(yōu)化系統(tǒng)運(yùn)行提供支持。
綜上所述,單一的聚類算法難以完成大數(shù)量和高維度樣本的聚類分析任務(wù),通過設(shè)計(jì)和應(yīng)用聚類組合算法,可以發(fā)揮不同聚類算法的優(yōu)勢(shì),同時(shí)解決初始聚類中心設(shè)置問題,從而得到更加可靠的聚類分析結(jié)果。通過對(duì)系統(tǒng)聚類算法與K-means聚類算法的組合設(shè)計(jì)和應(yīng)用進(jìn)行研究,可以為相關(guān)機(jī)器學(xué)習(xí)聚類算法的改進(jìn)提供參考。