*基金項目:宿州學(xué)院2022年度第二批院級科研平臺開放課題項目(編號 2022ykf26)的成果之一。
收稿日期:2024-5-12
作者簡介:王孟玉(),安徽宿州人,助教,研究方向:機器學(xué)習(xí)與人工智能。Email:1206611675@qq.com。
摘要:目標函數(shù)的模糊聚類算法,是目前實際應(yīng)用最廣泛的模糊聚類算法,該類算法是將聚類問題轉(zhuǎn)換為帶約束條件的優(yōu)化問題。為了解決將數(shù)據(jù)聚類問題便捷轉(zhuǎn)化為數(shù)學(xué)問題,簡化聚類求解過程,方便對海量數(shù)據(jù)進行聚類分析;該文設(shè)計了對目標函數(shù)的聚類進行轉(zhuǎn)換,將聚類算法的條件優(yōu)化問題轉(zhuǎn)化為線性約束的數(shù)學(xué)問題。通過構(gòu)建相似度函數(shù)的聚類方式,對數(shù)據(jù)集進行相似度目標集成。以便將該類算法更好的應(yīng)用于模式識別和圖像處理等領(lǐng)域中。
關(guān)鍵詞:目標函數(shù),聚類算法,相似度
中圖分類號:U495
文獻標識碼:A
文章編號:1674-9545(2024)02-0000-(00)
DOI:10.19717/j.cnki.jjun.2024.02.013
隨著人工智能技術(shù)的飛速發(fā)展,對海量數(shù)據(jù)集進行聚類分析,越來越多的受到大家的青睞.基于目標函數(shù)聚類算法的研究,就有了更加廣泛的應(yīng)用前景.但是當處理的數(shù)據(jù)集規(guī)模越來越大,數(shù)據(jù)的維度和字段的設(shè)計更加復(fù)雜時,采用傳統(tǒng)方式的聚類算法,已經(jīng)無法在短時間內(nèi)得到理想的結(jié)果.且常見的聚類算法只針對獨立的某個目標函數(shù)優(yōu)化,聚類效果不理想;因而研究可將目標函數(shù)設(shè)置多個目標進化點[1],在聚類算法進行實現(xiàn)的時候,可將優(yōu)化后的算子重新設(shè)置,使之能夠在目標函數(shù)的聚類算法中進行快速迭代.此外,傳統(tǒng)的模糊聚類算法存在處理數(shù)據(jù)集不平衡問題.文章還設(shè)計解決了數(shù)據(jù)集的不平衡問題,使得通過聚類處理后的數(shù)據(jù)集更加平衡和穩(wěn)定[2].
1聚類算法的概述
1.1聚類算法的模型研究
劃分聚類算法[3]根據(jù)一些標準,通過指定的數(shù)量將目標數(shù)據(jù)進行劃分.為了使聚類數(shù)據(jù)對異常值和噪聲值不產(chǎn)生敏感效益,提出了基于目標函數(shù)的模糊聚類算法.通過將字母數(shù)加入修復(fù)部分可以解決聚類異常值,在進行引入聯(lián)合式的競爭,就能夠使數(shù)據(jù)集的隸屬度聚類數(shù)降低,以便達到最佳值[4]-[6].
模糊聚類目標函數(shù)模型,先建立關(guān)于目標函數(shù)的一些表達式,通過數(shù)學(xué)規(guī)劃中的迭代優(yōu)化方法,進行運算可以得到關(guān)于目標函數(shù)的最優(yōu)解[7].假設(shè)向量數(shù)據(jù)集K={k1, k2,…, kn},再試圖將n個樣本向量xi(i=1,2,…,n)進行分為m個組G(i=1,2, …,m),同時求解每一組的聚類中心值mi,采用平方誤差準則函數(shù),進行改造目標函數(shù)的公式如下所示.
P=∑mj=1Pj=∑mj=1∑nki‖xi-ci‖2(1)
1.2分類屬性的多目標聚類算法
由于傳統(tǒng)的分類數(shù)據(jù)算法的指標單一的原因,所以怎么能夠?qū)㈩惻c類之間的信息同步,進行正常的編解碼操作得到聚類函數(shù)的目標最優(yōu)解[8],已成為基于分類屬性的目標聚類算法所要解決的主要問題.目前探索出的解決辦法是通過推算得到基于中心點的向量值,以中心點對應(yīng)的數(shù)值得出樣本數(shù)據(jù)的隸屬矩陣值,得到最終的聚類結(jié)果.應(yīng)用最廣泛的數(shù)據(jù)分類算法大多是以fkmd為原型,但由于某些場景下實驗的局限性,得到的結(jié)果不理想[9].因而提出了以nsga-FMC為基礎(chǔ),把NSGA-Ⅱ和Fcentroids相融合的理念,尋求提升算法的性能,主要有算法的遺傳操作改進、目標函數(shù)改進和樣本集中心的選取,最終得出算法的改進流程[10].
1.3聚類算法的均衡化處理
聚類算法通常滿足平衡和不平衡的數(shù)據(jù)需要,因而要對相應(yīng)算法進行數(shù)據(jù)集的均衡化處理.數(shù)據(jù)集分為人工智能學(xué)習(xí)分類法的不平衡數(shù)據(jù)集和平衡數(shù)據(jù)集問題.而在實際應(yīng)用中主要是探究怎么樣在同一不平衡數(shù)據(jù)集上,采用傳統(tǒng)意義上的均衡化處理算法,很少將樣本的差異化因素考慮在內(nèi),這樣做會在很大程度上偏離現(xiàn)實結(jié)果.因而需要對數(shù)據(jù)集分類的不平衡上對相應(yīng)的模糊聚類的算法進行修正和改進.
2聚類算法的廣義泛化模糊聚類
對于聚類算法中的數(shù)據(jù)集均衡化處理,首先在設(shè)計聚類算法時,要考慮信息容量對聚類結(jié)果的影響.即數(shù)據(jù)集從平衡轉(zhuǎn)為不平衡時,樣本信息可能會對判決結(jié)果進行干擾.其次要通過聚類算法的自動機制主動找尋樣本容量信息,進而再根據(jù)數(shù)據(jù)集對樣本類別進行改進.
2.1均衡聚類算法
對于處理數(shù)據(jù)集的均衡模糊均值算法,設(shè)計一般性參數(shù)p指標,數(shù)值范圍設(shè)為[1,+無窮),在降噪和平衡目標參數(shù)2個方面起作用.當p=1時即轉(zhuǎn)為FCM硬聚類算法,當趨向于正的無窮大時,通過算法得到的結(jié)果是類的中心轉(zhuǎn)化成數(shù)據(jù)的重心.算法構(gòu)造的過程是,以目標函數(shù)(1)為基礎(chǔ),設(shè)置一般性參數(shù)P為1時,目標函數(shù)(2)則簡化為(3);具體過程如下.
J(U,Q)=∑nj=1∑ci=1upij∑ns=1upis‖xj-ci‖2(2)
JEFCM(U,Q)=∑ci=1∑nj=1uij∑nj=1uij‖xj-ci‖2""""""" (3)
在EFCM算法中,參數(shù)值uij和ci 是由迭代算法設(shè)計得出的預(yù)估值.∑ns=1upis代表第i個類的樣本容量.EFCM聚類算法中,聚類中心ci和隸屬矩陣U=(uij)×c×n通常用以下步驟確定.
(1)將粒子位置xi(t)的每c維分量構(gòu)成一組進行單位化,單位化后的位置分量對應(yīng)為模糊隸屬度uij,滿足條件∑ni=1uij=2,從而實現(xiàn)模糊隸屬度矩陣U的初始化.
(2)通過公式:Ci=∑nk=1uikxk∑nk=1uik,i=1,2,3…m,計算聚類的中心C1,C2,C3…Cm.
(3)計算迭代次數(shù)超過參數(shù)t,數(shù)據(jù)集的最優(yōu)解所對應(yīng)的適應(yīng)度函數(shù)值接近于閥值時,則及時終止算法.
(4)計算更新最優(yōu)解,最終確定粒子所對應(yīng)的位置和速度.
2.2 EFCM算法的實驗分析
通過設(shè)置仿真實驗,可實現(xiàn)對算法可行性的驗證.首先設(shè)定一個已知的類別數(shù)為n=3,第一次實驗,設(shè)置為數(shù)據(jù)集平衡的實驗,通過matlab實現(xiàn)正態(tài)分布函數(shù),對樣本集進行高斯分解,設(shè)置分類中心坐標值為(8.0,8.0)和(12.0,12.0);第一個分類的隨機樣本數(shù)為120,矩陣數(shù)值為[3 0,0 3];第二個分類的樣本數(shù)為30,協(xié)方差矩陣數(shù)值為[1 0,0 1];照此樣本容量的取值,通過EFCM算法對樣本值進行聚類處理,的搭配的樣本空間分布如圖1所示.
設(shè)置為數(shù)據(jù)集不平衡的實驗,一般是先通過matlab設(shè)置正態(tài)分布函數(shù),對樣本數(shù)據(jù)集進行高斯分解.設(shè)置的分類中心坐標值為(6.0,6.0)和(10.0,10.0),分類的隨機樣本數(shù)為100,矩陣數(shù)值為[5 0,0 5];由于不同樣本容量的數(shù)值會導(dǎo)致樣本方差的不同,所以對于協(xié)方差的取值要嚴格參照樣本比例,對每個數(shù)據(jù)集在算法處理上進行12次測試,算法的計算處理效果如圖2所示.
2.3均衡性C均值算法的廣義模糊聚類
模糊聚類算法中因素有以下三個方面,一是模糊隸屬度的表達.模糊隸屬度體現(xiàn)了樣本與聚類中心的關(guān)系,當樣本和聚類中心距離較大時,聚類算法賦予樣本較小的模糊隸屬度,所以模糊隸屬度反比例于樣本、聚類中心距離.二是聚類中心的取定.為了聚類目標函數(shù)最小化,聚類中心應(yīng)與模糊隸屬度較大的樣本靠近,換言之即聚類中心應(yīng)落入樣本聚集較多的地方.聚類中心主要通過兩種方法計算得到,一種是樣本模糊隸屬度加權(quán)平均,另外一種是通過生物進化算法如遺傳算法尋優(yōu)估計得到.三是確定聚類目標函數(shù).這三部分都包含了模數(shù)指標,且限制三個部分所包含的模糊指標盡量是相近的關(guān)系.從目標函數(shù)本身出發(fā)分析,一般會得到局部極小值和多個參數(shù)的求解方法.
GFCM算法的設(shè)計與構(gòu)造過程如下:
(1)首先通過廣義均衡性C均值算法,對目標函數(shù)、隸屬度等數(shù)據(jù)進行獨立賦值,得到目標函數(shù)的最小值為:FGFCM(m,n)=∑px=1∑qy=1un1xy‖My-cx‖2,其中n1 >0,即為算法對應(yīng)目標函數(shù)的指標值.
(2)設(shè)定聚類中心計算公式為:
fi=∑mj=1un2ijxj∑mp=1un2ip,其中n2>0,即為該算法的模糊指標值.利用fi計算p個聚類中心值p1,p2...pi.
(3)通過步驟(1)中的公式計算函數(shù)值,直到其數(shù)值小于某個確定的閥值時結(jié)束.
(4)通過公式gij=1∑cm=1pijpmj2n-1,其中參數(shù)n為該算法的模糊隸屬度的對應(yīng)指標.重新計算隸屬度矩陣;然后回到步驟(2)繼續(xù)執(zhí)行.
2.4 GFCM算法的仿真實驗結(jié)果及分析結(jié)果分析
通過對GFCM算法的分析,基于普通數(shù)據(jù)集和UCT數(shù)據(jù)集的數(shù)據(jù)進行算法的實測.次實驗同時考慮了FCM算法的有效性,對兩種算法的取值指標設(shè)置為n1=n2=n3>2, 隨機進行仿真實驗的比較,對實驗結(jié)果進行有效分析.
在實驗中,設(shè)置圖像的合成像素為256x256,樣本集數(shù)據(jù)建立在高斯分布的樣本類之上,兩個樣本類的中心可設(shè)置為(6,6)和(12,12),樣本基數(shù)為200,對應(yīng)方差的矩陣值為[6 0,0 6],同時在FCM和GFCM算法上進行20次實驗數(shù)據(jù)集處理,計算分析實驗精度,取其平均值.得到的樣本仿真實驗的分布情況如表1所示.
3基于相似度的目標集成聚類算法及實驗分析
3.1相似度算法描述
首先是對交叉算子的引入,對DSCE計算部分進行了改進,且將改進后的算法應(yīng)用在對目標的優(yōu)化過程中.其次在對改進后的算法計算時,可結(jié)合一般K-means算法進行過程搜索.改進后的多目標集成聚類算法MDSCE的流程圖如圖3所示.
為了便于對聚類進行劃分,可以更換編碼的方式,采取通過標簽的方式進行編碼.當采用此種編碼方式時,設(shè)置一個位置數(shù)據(jù)代表一個標簽對應(yīng)每個被劃分后的數(shù)據(jù)節(jié)點,此種劃分方法適應(yīng)于分類間隔性數(shù)據(jù)和連續(xù)性數(shù)據(jù)類型.接著對數(shù)據(jù)進行預(yù)處理時,考慮基于DSMOS算法,處理數(shù)據(jù)集會產(chǎn)生多樣化的數(shù)據(jù)值,因而與多樣化的聚類種群效果相對應(yīng).預(yù)處理的方法通常使用最佳臨近分配的采樣方法,通過隨機抽樣,獲取新的樣本數(shù)據(jù);再將樣本中的子樣本數(shù)據(jù)在K-Means、average linkage等算法中生成聚類的結(jié)果,經(jīng)過上述過程處理,同時完成了對種群進行初始化.
目標函數(shù)的計算是通過歐氏距離和簇內(nèi)距離的累加,極大的提升該算法的適應(yīng)性,且計算結(jié)果的值越小,說明劃分的效果越好.計算公式如下所示.
dev(C)=∑Ci∈C∑Pi∈Mkd(Pi,Zk)(4)
其中,Zk代表簇數(shù)據(jù)集Ci的中心,函數(shù)d(Pi,Zk)表示聚類數(shù)據(jù)的歐式距離.對于面向歐式距離的連通性函數(shù)而言,點到點數(shù)據(jù)分割到同一個簇的頻率計算方法如下所示.
f(xm,yij)=1i+1,xm∈Ci∧yij∈Mk0,其他(5)
其中,變量yij表示與數(shù)據(jù)節(jié)點xm相鄰接的第j個數(shù)據(jù)值.
3.2實驗數(shù)據(jù)及分析
為了更好的測試驗證多目標聚類算法MDSCE實驗的結(jié)果,可結(jié)合UCI數(shù)據(jù)庫中的數(shù)據(jù)集和,如:spectheart、cmc、Website phishing 、cardiotocography、vehile等,特征描述如表2所示.
在設(shè)計上述實驗時,首先對數(shù)據(jù)進行預(yù)處理,預(yù)先設(shè)置初始數(shù)據(jù)集的處理次數(shù)為20;初始樣本種群數(shù)采用傳統(tǒng)的3種聚類算法生成,獲取的初始種群數(shù)為30.傳統(tǒng)的聚類算法設(shè)置參數(shù)k的取值為[5,20].本次實驗對交叉算子和聚類算法的搜索步驟,均是基于初始種群數(shù)進行,且此實驗通過MDSCE與CSPA、DSCE算法進行對比,對不同交叉算子計算時,MDSCE的計算效果明顯優(yōu)于CSPA、DSCE算法.實驗結(jié)果如表3所示.
通過相似度的聚類算法的設(shè)計,引入新的聚類算法和交叉算子,在合并數(shù)據(jù)簇的時候不斷進行迭代,與MDSCE在新一輪中進行合并的次數(shù)始終設(shè)置為1次.此外,利用MDSCE算法在確定簇的數(shù)據(jù)值方面能生成聚類解的特點,配合K-Means算法在UCI數(shù)據(jù)集上的使用,可以有效的提升MDSCE的聚類效果.
4總結(jié)
文章設(shè)計研究的廣義模糊聚類和面向相似度目標函數(shù)的聚類算法,均是通過聚類算法,將目標函數(shù)的聚類轉(zhuǎn)換成了線性約束的數(shù)學(xué)問題來加以解決.通過在分類監(jiān)督工作中是否考慮樣本容量,有效實現(xiàn)了數(shù)據(jù)集分類不平衡問題;結(jié)合使用的K-Means聚類搜索過程,對數(shù)據(jù)集與聚類算法進行相似度目標集成,很大程度上提升了聚類搜索的質(zhì)量和搜索效率.通過上述研究過程,使得模糊聚類算法還有更大挖掘空間,在以后算法的計算效率上還會繼續(xù)提升,使得算法能夠不斷完善.
參考文獻:
[1]張世文,李智勇,陳少淼,等.基于生態(tài)策略的動態(tài)多目標優(yōu)化算法[J].計算機研究與發(fā)展,2014,51(6):1313.
[2]陳獻,胡麗瑩,林曉煒等.基于核非負矩陣分解的有向圖聚類算法[J].計算機應(yīng)用,2021,41(12):3447.
[3]張鵬. 基于深度學(xué)習(xí)混合模型的商品垃圾評論識別研究[D].鎮(zhèn)江:江蘇科技大學(xué),2019.
[4]李智林. 基于混合模型的非均衡數(shù)據(jù)分類研究[D].南京:南京郵電大學(xué),2018.
[5]崔國楠,王立松,康介祥,等.結(jié)合多目標優(yōu)化算法的模糊聚類有效性指標及應(yīng)用[J].計算機科學(xué),2021,48(10):197.
[6]崔國楠,王立松,康介祥,等.結(jié)合多目標優(yōu)化算法的模糊聚類有效性指標及應(yīng)用[J].計算機科學(xué),2021,48(10):197.
[7]祖志文,李秦.基于粒子群優(yōu)化的馬氏距離模糊聚類算法[J].重慶郵電大學(xué)學(xué)報(自然科學(xué)版),2019,31(2):279.
[8]李娜,劉方.基于模糊聚類視區(qū)劃分的SAR目標識別方法[J].電子學(xué)報,2012,51(2):213-228.
[9]王會舉,李孟萱,黃衛(wèi)衛(wèi),等.基于隱馬爾可夫模型的多真值發(fā)現(xiàn)算法[J].計算機工程與科學(xué),2021,43(3):518.
[10]林杰. 基于深度學(xué)習(xí)的目標檢測系統(tǒng)的研究與實現(xiàn)[D].北京:北京郵電大學(xué),2022.
(責(zé)任編輯" 胡安娜)