摘 要:針對傳統(tǒng)的K-medoids聚類算法在聚類時需要隨機(jī)選擇初始類中心且指定聚類數(shù)目K,及聚類結(jié)果不穩(wěn)定的問題,提出了一種優(yōu)化初始類中心的自適應(yīng)K-medoids算法(adaptive K-medoids algorithm for optimizing initial class centers,CH_KD).其思想是定義了特征重要度,以此篩選出每一簇中最優(yōu)的代表特征,組成特征子集,并重點研究了傳統(tǒng)劃分算法的自適應(yīng)優(yōu)化與改進(jìn).首先,利用特征標(biāo)準(zhǔn)差定義特征區(qū)分度,選擇出區(qū)分度強(qiáng)的特征.其次,利用皮爾遜相關(guān)系數(shù)度量特征簇中每個特征的冗余度,選擇出冗余度低的特征.最后,將特征區(qū)分度與特征冗余度之積作為特征重要度,以此篩選出每一簇中最優(yōu)的代表特征,組成特征子集.實驗將所提算法與其他聚類算法在14個UCI數(shù)據(jù)集上進(jìn)行對比,結(jié)果驗證了CH_KD算法的有效性與優(yōu)勢.
關(guān)鍵詞:無監(jiān)督;特征區(qū)分度;特征冗余度;CH函數(shù);特征選擇
中圖分類號:TP391""""" 文獻(xiàn)標(biāo)志碼:A""" 文章編號:1000-2367(2025)01-0106-10
聚類算法是將數(shù)據(jù)集劃分成不同的簇,目的是使同一個簇中的樣本相異度較低,而不同簇間的樣本相異度較高.對于處理大規(guī)模無標(biāo)簽數(shù)據(jù),聚類算法[1]在數(shù)據(jù)挖掘領(lǐng)域占據(jù)了重要地位,其發(fā)展至今已有眾多分支,主要分為2大類[2]:層次聚類算法和劃分聚類算法.K-medoids算法是其中一種劃分聚類算法,由于其劃分聚類結(jié)構(gòu)清晰、時間效率高而得到了廣泛的應(yīng)用.此算法首先經(jīng)過簇數(shù)量的選擇,然后選取合適的初值,最后完成初始化過程后進(jìn)行聚類.K-medoids算法是基于K-means算法的一種改進(jìn)算法.
K-medoids聚類算法的優(yōu)點是能夠處理大型數(shù)據(jù)集,結(jié)果簇相當(dāng)緊湊,且簇與簇之間分明清晰.但缺點是傳統(tǒng)的K-medoids聚類算法隨機(jī)選擇初始類中心,而且需要人為指定聚類數(shù)目K,導(dǎo)致聚類結(jié)果不穩(wěn)定.由于聚類算法初始化對結(jié)果的影響非常大,所以現(xiàn)有方法大多是將其他算法與K-medoids結(jié)合使用,這樣可以有效地提高K-medoids算法在聚類的準(zhǔn)確率和效率,快速準(zhǔn)確地找到最佳簇中心.
趙成[3]提出一種基于聚類和中心向量的快速K近鄰分類算法.王全民等[4]將經(jīng)典的果蠅優(yōu)化算法與K-medoids算法結(jié)合為一種新型的K-medoids算法,使得此新算法的聚類效果更好.魏霖靜等[5]將K-medoids算法與聚類簇思想結(jié)合起來,對每個聚類簇進(jìn)行混合蛙跳算法優(yōu)化.管雪婷等[6]提出一種優(yōu)化螢火蟲的K-medoids聚類算法且融合了云模型,可以有效地抑制K-medoids算法易陷入局部最優(yōu)的問題.管雪婷[7]提出一種基于改進(jìn)的螢火蟲優(yōu)化的K-medoids算法.楊楠[8]提出一種基于改進(jìn)布谷鳥算法的K中心點聚類算法.劉葉等[9]將K-means算法與K-medoids算法相結(jié)合.李蓮[10]提出了一種基于改進(jìn)的人工蜂群的K-medoids聚類算法.譚成兵等[11]使用布谷鳥優(yōu)化的K-medoids算法進(jìn)行聚類,通過多節(jié)點并行聚類的方式可以提高聚類效率.李欣宇等[12]將K-medoids算法與密度聚類算法的思想結(jié)合,減少算法執(zhí)行的時間且提高聚類結(jié)果的準(zhǔn)確度.但這些算法存在特征維度高與冗余度高的問題.
針對K-medoids算法初始類中心的問題,可以利用類內(nèi)誤差平方和選取初始類中心的候選集[13],對K-medoids的初始類中心進(jìn)行優(yōu)化.針對文獻(xiàn)[14-15]中存在的K值問題,根據(jù)文獻(xiàn)[16]中的方法,可利用基于中位數(shù)的輪廓系數(shù)或CH函數(shù)來確定合適的K值.
本文的算法思想如下.首先,設(shè)計了算法1和算法2來解決選取初始類中心候選集和K-medoids聚類算法最佳聚類數(shù)目K的問題,由此提出一種優(yōu)化初始類中心的自適應(yīng)K-medoids算法(adaptive K-medoids algorithm for optimizing the initial class center,CH_KD).然后,使用CH_KD算法將特征集劃分簇.最后,特征選擇根據(jù)定義的特征重要度來選取每個特征簇中最具有代表性的特征,組成最終的特征子集.
本文的特征選擇是基于優(yōu)化類中心的自適應(yīng)K-medoids算法的無監(jiān)督特征選擇,其目的是降低維度,保留具有高分類信息且冗余度低的特征[17].利用優(yōu)化類中心的自適應(yīng)K-medoids算法對特征進(jìn)行聚類,使相似(冗余)特征聚為一類,以便選出冗余度低且區(qū)分度強(qiáng)的特征子集.為了選出區(qū)分度強(qiáng)的特征,利用特征標(biāo)準(zhǔn)差定義特征區(qū)分度;為了選出冗余度低的特征,利用皮爾遜相關(guān)系數(shù)度量[18]特征簇中每個特征的冗余度;并以特征區(qū)分度和特征冗余度之積定義特征的重要度,以此選出每一簇中最優(yōu)的代表特征,組成特征子集.
實驗在MATLAB R2016b上進(jìn)行了14個數(shù)據(jù)集上的對比,實驗結(jié)果表明,本文所提的CH_KD算法與K-medoids、K-means以及KCOIC進(jìn)行實驗對比后發(fā)現(xiàn),CH_KD算法聚類結(jié)果最優(yōu);CH_KDFS算法與其他算法相比,特征個數(shù)越少且AUC(Aera under the curve)值高,表明分類效果好.
1 K-medoids算法
K-medoids算法是一種迭代重定位的算法,基本思想是:首先,從數(shù)據(jù)集中隨機(jī)選擇K個樣本作為初始類中心.其次,按距離最近原則將其余的樣本劃分到離其最近的類中心所在的簇中.然后,從每個簇中選擇使得類內(nèi)誤差平方和最小的樣本作為新的類中心.最后,直到類中心不再變化或者達(dá)到指定的迭代次數(shù)時,算法結(jié)束.
給定樣本xi和xj,則樣本xi和xj之間的歐氏距離
式中,q為樣本的特征數(shù)目,xif表示樣本xi在第f個特征上的取值.樣本之間的距離越近,則表明2樣本之間越相似,反之則越相異.
類內(nèi)誤差平方和
式中k=1,2,…,K,K表示類別數(shù)目,Ck表示第k類樣本集合,x為Ck的樣本,Ok表示Ck的類中心,樣本x和Ok的相異度d(x,Ok)以歐氏距離度量.SEC的值越小則表示算法的聚類效果越好.
2 K-medoids算法自適應(yīng)優(yōu)化
傳統(tǒng)的K-medoids聚類算法隨機(jī)選擇初始類中心,而且需要人為指定聚類數(shù)目K,但選擇的初始類中心和聚類數(shù)目K決定著聚類的結(jié)果,所以導(dǎo)致K-medoids算法的聚類結(jié)果不穩(wěn)定.針對K-medoids算法初始類中心的問題,受文獻(xiàn)[13]的啟發(fā),可以利用類內(nèi)誤差平方和選取初始類中心的候選集,對K-medoids的類中心進(jìn)行優(yōu)化.針對K-medoids算法K值的問題,受文獻(xiàn)[16]的啟發(fā),可利用基于中位數(shù)的輪廓系數(shù)或CH函數(shù)來確定合適的K值.由此,本文設(shè)計了一種優(yōu)化初始類中心的自適應(yīng)K-medoids算法(adaptive K-medoids algorithm for optimizing initial class centers,CH_KD).
假設(shè)給定的數(shù)據(jù)集為X={xi|xi∈Rq,1in},即數(shù)據(jù)集中有n個樣本,每個樣本有q維特征,第i個樣本的第f個特征值為λi,f;欲將數(shù)據(jù)集X劃分為K個簇Ck,1kK.
定義1 數(shù)據(jù)集X的平均樣本距離
式中,dM(X)由數(shù)據(jù)集X中任意2個樣本間距離和的平均值計算得到.
定義2 簇間相似度
SC=min(d(Oi,Oj)),(4)
式中,i=1,2,…,n,j=1,2,…,n,Oi和Oj分別表示簇Ci和簇Cj的類中心,可知簇間相似度由2個簇的類中心歐式距離計算得到.SC的值越小表示2簇之間的距離越近,則2簇的相似度越高,反之則越相異.
定義3 樣本xi的誤差平方和
式中,樣本xi的誤差平方和根據(jù)其與其余樣本間的歐氏距離平方和計算得到.
CH(Calinski-Harabasz)函數(shù)作為內(nèi)部聚類效果的衡量標(biāo)準(zhǔn)之一,其原理是通過簇間方差和簇內(nèi)方差來評估聚類效果,定義如下.
式中,z表示數(shù)據(jù)集的平均值,zj表示Cj簇內(nèi)所有樣本的平均值.可知,tr(B)表示簇間的離散程度,tr(W)表示簇內(nèi)的緊密程度.CH(K)則體現(xiàn)了在聚類數(shù)目為K時聚類質(zhì)量的好壞,CH值越大則表明聚類效果越好.
本文提出的CH_KD算法主要包括2個部分:首先利用類內(nèi)誤差平方和選取初始類中心候選集,其次利用中位數(shù)的輪廓系數(shù)或者CH函數(shù)來確定合適的K值.為了更直觀地說明改進(jìn)的2種算法,圖1給出算法的大致流程圖.
依據(jù)圖1可知,為解決K-medoids聚類算法初始類中心的問題,設(shè)計算法1.
算法1 選取初始類中心候選集算法偽代碼如下.
為解決K-medoids聚類算法聚類數(shù)目K的問題,設(shè)計算法2.
算法2 確定最佳聚類數(shù)目算法的偽代碼如下.
算法1實現(xiàn)初始類中心的選取,其中步驟4)~14)的時間復(fù)雜度為O(n1/2(n+n+n)),則算法1的總時間復(fù)雜度為O(n3/2).算法2實現(xiàn)聚類數(shù)目的確定,其中步驟2)~12)的時間復(fù)雜度為O(n1/2(tK(n-K)2+n1/2+n)),其中t為迭代次數(shù),K為聚類數(shù)目,則算法2的時間復(fù)雜度可估計為O(n5/2).總體上來看,本問所提算法CH_KD的時間復(fù)雜度可估計為O(n5/2).
3 特征重要度確定
特征選擇的目的是降低維度,保留具有高分類信息且冗余度低的特征.利用優(yōu)化類中心的自適應(yīng)K-medoids算法對特征進(jìn)行聚類,使相似(冗余)特征聚為一類,以便選出冗余度低且區(qū)分度強(qiáng)的特征子集.為了選出區(qū)分度強(qiáng)的特征,利用特征標(biāo)準(zhǔn)差定義特征區(qū)分度,為了選出冗余度低的特征,利用皮爾遜相關(guān)系數(shù)度量特征簇中每個特征的冗余度[19],并以特征區(qū)分度和特征冗余度之積定義特征的重要度,以此選出每一簇中最優(yōu)的代表特征,組成特征子集.
現(xiàn)給定數(shù)據(jù)集為X={xi|xi∈Rq,1in},n、q分別表示數(shù)據(jù)集的樣本數(shù)量和特征數(shù)量.用fi=(f1i,f2i,…,fni)表示第i個特征向量,則有X={f1,f2,…,fq}.
定義4 特征fi的區(qū)分度
式中,i=1,2,…,q,fji表示特征fi在第j個樣本上的取值.由于區(qū)分能力強(qiáng)的特征其方差較大,所以以特征的標(biāo)準(zhǔn)差來度量特征的區(qū)分度ddis,i是合理的.
定義5 特征fi的冗余度
式中,i=1,2,…,q,Ci表示第i個特征簇,rij表示特征fi和特征fj間的皮爾遜相關(guān)系數(shù),rij絕對值越小,則表示特征fi和fj之間越不相關(guān).dred,i表示特征fi在特征簇Ci中的冗余度,dred,i的值越大則表明fi特征冗余度越低.
定義6 特征fi的重要度
dimp,i=ddis,idred,i.(12)
由式(12)可知,特征fi的重要度dimp,i定義為特征fi的區(qū)分度與特征fi的冗余度之積,特征fi的重要度dimp,i的值越大,則表明特征fi越重要.并且由此設(shè)計了基于優(yōu)化類中心的自適應(yīng)K-medoids算法的無監(jiān)督特征選擇(unsupervised feature selection of adaptive K-medoids algorithm based on optimal class center CH_KDFS),稱算法3.
算法3 CH_KDFS算法的偽代碼如下.
算法3實現(xiàn)特征選擇,步驟2的時間復(fù)雜度為O(q5/2),步驟3的時間復(fù)雜度為O(nq),步驟4)~7)的時間復(fù)雜度為O(nq2).則算法3總的時間復(fù)雜度可估計為O(q5/2).
4 實驗結(jié)果與分析
4.1 實驗準(zhǔn)備
為驗證所提聚類算法的聚類效果及其特征選擇效果的好壞,在15個數(shù)據(jù)集上進(jìn)行實驗對比.表1給出了實驗所使用的15個數(shù)據(jù)集的詳細(xì)描述.其中前10個數(shù)據(jù)集為UCI數(shù)據(jù)集,UCI數(shù)據(jù)庫是用于機(jī)器學(xué)習(xí)的數(shù)據(jù)庫.后5個數(shù)據(jù)集為ASU數(shù)據(jù)集(Academic Search Ultimate,綜合學(xué)科參考類全文數(shù)據(jù)庫).
使用準(zhǔn)確率(Accuracy,ACC)、蘭德系數(shù)(Rand Index,RI)、F-measure(F1)、調(diào)整互信息(Adjusted Mutual Information,AMI)、歸一化互信息(Normal Mututal Information,NMI)和調(diào)整蘭德系數(shù)(Adjusted Rand Index,ARI)這6種指標(biāo)對聚類結(jié)果進(jìn)行評價,這6種評價指標(biāo)均為值越大則表示算法性能越好.在SVM、NB、和KNN分類器下,使用分類精度precision和AUC這2種指標(biāo)對分類效果進(jìn)行評價,分類精度和AUC的值越大,則表明分類效果越好.為避免特征量綱帶來的影響,提高算法的準(zhǔn)確率,使用文獻(xiàn)[20]的方式對數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化.
實驗結(jié)果中加粗的數(shù)值表示實驗結(jié)果的最優(yōu)值.實驗的主要環(huán)境是Windows10 64位操作系統(tǒng),處理器為Inter(R)Core(TM)i5-8500和3.00 GHz 8.0 GB 內(nèi)存;實驗在MATLAB R2016b上進(jìn)行.
4.2 CH_KD算法聚類結(jié)果分析
將CH_KD算法與K-medoids聚類算法、K-means聚類算法及KCOIC聚類算法進(jìn)行實驗對比,驗證所提CH_KD聚類算法的有效性.本節(jié)實驗在常用的9個UCI數(shù)據(jù)集Seeds、Waveform21、Statlog、Segmentation-test、Heart、Zoo、Soybean-small、Ionosphere和Iris上進(jìn)行,為充分體現(xiàn)算法的有效性,采用6種評價指標(biāo)ACC、RI、F1、AMI、NMI和ARI對算法的聚類效果進(jìn)行評價.表2給出K值自適應(yīng)聚類算法CH_KD算法和KCOIC算法的聚類數(shù)目,K-means算法和K-medoids算法的聚類數(shù)目與真實類別數(shù)相等.
由表2可知,在Seeds、Waveform21、Segmentation-test、Heart、Ionosphere和Iris這6個數(shù)據(jù)集上,CH_KD算法確定的類數(shù)目與真實類數(shù)目相等,與其他算法相比準(zhǔn)確率更高.在Zoo和Soybean-small數(shù)據(jù)集上,CH_KD算法確定的類數(shù)目最接近真實類數(shù)目.在Statlog數(shù)據(jù)集上,CH_KD算法確定的類數(shù)目明顯多于真實類數(shù)目.從本節(jié)實驗所選的9個常用UCI數(shù)據(jù)集的實驗結(jié)果來看,CH_KD算法確定最佳聚類數(shù)目的性能優(yōu)于KCOIC算法.
由表3可知,在Ionosphere數(shù)據(jù)集上,CH_KD算法獲得了準(zhǔn)確的聚類數(shù)目,但其聚類效果低于K-medoids算法,分析其原因可能是Ionosphere數(shù)據(jù)集簇間離散程度相差較大,導(dǎo)致未選到更為合理的類中心,使得聚類結(jié)果略差.在Waveform21數(shù)據(jù)集上,CH_KD算法的聚類效果與K-means算法和K-medoids算法相差不多.在Seeds、Statlog、Segmentation-test、Heart、Zoo、Soybean-small和Iris這7個數(shù)據(jù)集上的聚類效果明顯優(yōu)于K-means算法和K-medoids算法.在Waveform21數(shù)據(jù)集上,4種算法的聚類效果相差不大,且CH_KD算法的聚類效果優(yōu)于KCOIC算法.特別是在4種聚類算法表現(xiàn)均良好的Heart數(shù)據(jù)集、Zoo數(shù)據(jù)集和Iris數(shù)據(jù)集上,CH_KD算法在6個指標(biāo)上均取得了最優(yōu)值.在Heart數(shù)據(jù)集上,CH_KD算法在ACC、RI、F1、AMI、NMI和AMI指標(biāo)上分別高出其他對比算法0.74%~20.55%、13.83%~15.6%、20.54%~40.96%、18.38%~23.89%、10.96%~24%、26.99%~31.23%.在Zoo數(shù)據(jù)集上,CH_KD算法在ACC、RI、F1、AMI、NMI和AMI指標(biāo)上分別高出其他對比算法4.95%~8.81%、1.7%~12.7%、3.76%~17.33%、5.6%~18.5%、1.56%~19.11%、4.14%~38.23%.在Iris數(shù)據(jù)集上,CH_KD算法在ACC、RI、F1、AMI、NMI和AMI指標(biāo)上分別高出其他對比算法0.96%~23.45%、4.98%~10.42%、14.12%~17.7%、3.58%~23.58%、5.02%~14.92%、10.29%~15.6%.
總體上來看,CH_KD算法在Seeds數(shù)據(jù)集、Statlog數(shù)據(jù)集、Segmentation-test數(shù)據(jù)集、Heart數(shù)據(jù)集、Zoo數(shù)據(jù)集、Soybean-small數(shù)據(jù)集和Iris數(shù)據(jù)集上的聚類結(jié)果最優(yōu).則有效地驗證了所提算法的可行性及有效性.
4.3 CH_KDFS(CH_KD feature selection)算法的實驗結(jié)果與分析
CH_KDFS算法與CMIM算法、mRMR算法、JMIM算法、MRI算法、DCSF算法以及MRMSR算法在SVM、NB和KNN(K=1)這3個分類器下的分類精度如表4所示.分類器的各參數(shù)根據(jù)文獻(xiàn)[21-22]進(jìn)行設(shè)置.
由表4可知,在lung數(shù)據(jù)集上,CH_KDFS算法在SVM、NB和KNN這3個分類器上的分類精度均最優(yōu).在COIL20數(shù)據(jù)集上,CH_KDFS算法在SVM和KNN這2個分類器上的分類精度最優(yōu).在SVM分類器上高出其他6種算法8.94%~13.33%,在KNN分類器上高出其他6種算法3.33%~7.76%,但在NB分類器上的分類精度略低于部分算法.在SMK-CAN-187數(shù)據(jù)集上,CH_KDFS算法的分類精度均略低于部分算法.上述分析表明,CH_KDFS算法易受分類器的影響,但整體來看CH_KDFS算法具有更好的分類性能.
CH_KDFS算法、FSFC算法和WFSFC算法在5個數(shù)據(jù)集DLBCL、colon、lung、ORL和COIL20數(shù)據(jù)集上所選特征個數(shù),以及在SVM、NB這2個分類器下的AUC值如表5和表6所示.特征個數(shù)越少且AUC值越高,表明分類效果越好.實驗中各分類器使用5折交叉驗證.
由表5和表6可知,在SVM分類器上,CH_KDFS算法在DLBCL、colon、lung和ORL數(shù)據(jù)集上均以較少的特征取得了最優(yōu)的分類效果.特別是在ORL數(shù)據(jù)集上,CH_KDFS算法分別比FSFC、WFSFC算法高出23.2%、10.5%.在COIL20數(shù)據(jù)集上,CH_KDFS算法能以較少的特征個數(shù)達(dá)到略低于對比算法的分類效果.在NB分類器上,CH_KDFS算法在colon和lung數(shù)據(jù)集上均取得了最少的特征個數(shù)且分類效果最優(yōu).在colon數(shù)據(jù)集上分別比FSFC、WFSFC算法高出33.7%、6.7%,在lung數(shù)據(jù)集上分別比FSFC、WFSFC算法高出8.0%、7.7%.在ORL數(shù)據(jù)集上,盡管CH_KDFS算法的分類效果低于WFSFC算法,但所選的特征個數(shù)遠(yuǎn)少于WFSFC算法.綜上所述,CH_KDFS算法在特征選擇的個數(shù)以及分類效果上優(yōu)于對比算法.
5 結(jié) 論
針對傳統(tǒng)K-medoids算法的缺點,本文提出了CH_KD算法,其目的是優(yōu)化K-medoids算法的隨機(jī)選擇初始類中心且需要人為指定聚類數(shù)目K而導(dǎo)致聚類結(jié)果不穩(wěn)定的問題.此算法為自適應(yīng)優(yōu)化初始類中心的K-medoids算法,利用特征標(biāo)準(zhǔn)差定義特征區(qū)分度,利用皮爾遜相關(guān)系數(shù)度量特征簇中每個特征的冗余度,將特征區(qū)分度和特征冗余度的乘積定義為特征的重要度,以此選出每一簇中最優(yōu)代表特征,組成特征子集.在MATLAB R2016b實驗表明,在8個常用UCI數(shù)據(jù)集上,CH_KD算法確定最佳聚類數(shù)目的性能優(yōu)于KCOIC算法.在Seeds數(shù)據(jù)集、Statlog數(shù)據(jù)集、Segmentation-test數(shù)據(jù)集、Heart數(shù)據(jù)集、Zoo數(shù)據(jù)集和Soybean-small數(shù)據(jù)集上CH_KD算法的聚類結(jié)果最優(yōu).CH_KDFS算法與FSFC算法和WFSFC算法相對比,在DLBCL、colon、lung、ORL和COIL20這5個數(shù)據(jù)集上所選特征個數(shù),以及在SVM、NB這2個分類器下的AUC值相比,特征個數(shù)越少且AUC值越高,表明CH_KDFS算法分類效果越好,即CH_KDFS算法在特征選擇的個數(shù)以及分類效果上優(yōu)于對比算法.綜上所述,CH_KD算法具有可行性和有效性,實驗聚類效果較好,且算法分類效果較好.
參 考 文 獻(xiàn)
[1]LI H L.Multivariate time series clustering based on common principal component analysis[J].Neurocomputing,2019,349:239-247.
[2]黃曉輝,王成,熊李艷,等.一種集成族內(nèi)和族間距離的加權(quán)k-means 聚類方法[J].計算機(jī)學(xué)報,2019,42(12):2836-2848.
HUANG X H,WANG C,XIONG L Y,et al.A Weighting k-Means Clustering Approach by Integrating Intra-Cluster and Inter-Cluster Distances[J].Chinese Journal of Computers,2019,42(12):2836-2848.
[3]趙成.基于螢火蟲算法和改進(jìn)K近鄰的文本分類研究[D].重慶:重慶郵電大學(xué),2020.
ZHAO C.Research on text classification based on firefly algorithm and improved K nearest neighbor[D].Chongqing:Chongqing University of Posts and Telecommunications,2020.
[4]王全民,楊晶,張帥帥.一種基于改進(jìn)果蠅優(yōu)化的K-mediods聚類算法[J].計算機(jī)技術(shù)與發(fā)展,2018,28(12):17-22.
WANG Q M,YANG J,ZHANG S S.A new K-mediods clustering algorithm based on improved fruit fly optimization algorithm[J].Computer Technology and Development,2018,28(12):17-22.
[5]魏霖靜,寧璐璐,郭斌,等.基于混合蛙跳算法的K-mediods聚類挖掘與并行優(yōu)化[J].計算機(jī)科學(xué),2020,47(10):126-129.
WEI L J,NING L L,GUO B,et al.K-mediods cluster mining and parallel optimization based on shuffled frog leaping algorithm[J].Computer Science,2020,47(10):126-129.
[6]管雪婷,石鴻雁.融合云模型優(yōu)化螢火蟲的K-mediods聚類算法[J].統(tǒng)計與決策,2021,37(5):34-39.
GUAN X T,SHI H Y.K-mediods clustering algorithm of glowworm swarm optimization combined with cloud model[J].Statistics amp; Decision,2021,37(5):34-39.
[7]管雪婷.基于改進(jìn)的螢火蟲優(yōu)化的K中心點算法[D].沈陽:沈陽工業(yè)大學(xué),2021.
GUAN X T.K-center algorithm based on improved firefly optimization[D].Shenyang:Shenyang University of Technology,2021.
[8]楊楠.基于改進(jìn)布谷鳥算法的K中心點聚類分析及并行實現(xiàn)[D].蘭州:西北師范大學(xué),2018.
YANG N.K-center clustering analysis and parallel implementation based on improved cuckoo algorithm[D].Lanzhou:Northwest Normal University,2018.
[9]劉葉,吳晟,周海河,等.基于K-means聚類算法優(yōu)化方法的研究[J].信息技術(shù),2019,43(1):66-70.
LIU Y,WU S,ZHOU H H,et al.Research on optimization method based on K-means clustering algorithm[J].Information Technology,2019,43(1):66-70.
[10]李蓮.基于蜂群和粗糙集的聚類算法研究[D].長沙:長沙理工大學(xué),2014.
LI L.Research on clustering algorithm based on bee colony and rough set[D].Changsha:Changsha University of Science amp; Technology,2014.
[11]譚成兵,劉源,徐健.基于布谷鳥算法的K-medoids聚類挖掘與并行優(yōu)化[J].臺州學(xué)院學(xué)報,2021,43(03):7-12.
TAN C B,LIU Y,XU J,et al.K-medoids clustering mining and parallel optimization based on the cuckoo algorithm[J].Journal of Taizhou University,2021-43(03):7-12.
[12]李欣宇,傅彥.改進(jìn)型的K-mediods算法[J].成都信息工程學(xué)院學(xué)報,2006,21(4):532-534.
LI X Y,F(xiàn)U Y.Improved K-mediods algorithm[J].Journal of Chengdu University of Information Technology,2006,21(4):532-534.
[13]鐘志峰,李明輝,張艷.機(jī)器學(xué)習(xí)中自適應(yīng)k值的k均值算法改進(jìn)[J].計算機(jī)工程與設(shè)計,2021,42(1):136-141.
ZHONG Z F,LI M H,ZHANG Y.Improved k-means clustering algorithm for adaptive k value in machine learning[J].Computer Engineering and Design,2021,42(1):136-141.
[14]陳江勇.基于平衡性的無監(jiān)督特征選擇算法研究[D].合肥:安徽大學(xué),2021.
CHEN J Y.Research on unsupervised feature selection algorithm based on balance[D].Hefei:Anhui University,2021.
[15]裴華欣.自適應(yīng)密度峰劃分聚類算法研究及應(yīng)用[D].杭州:浙江工業(yè)大學(xué),2018.
PEI H X.Research and application of adaptive density peak division clustering algorithm[D].Hangzhou:Zhejiang University of Technology,2018.
[16]吳禮福,姬廣慎,胡秋岑.強(qiáng)混響環(huán)境下基于K-medoids特征聚類的話者計數(shù)[J].南京大學(xué)學(xué)報(自然科學(xué)),2021,57(5):875-880.
[17]胡軍,王海峰.基于加權(quán)信息?;亩鄻?biāo)記數(shù)據(jù)特征選擇算法[J/OL].智能系統(tǒng)學(xué)報:1-10[2023-04-12].http://kns.cnki.net/kcms/detail/23.1538.tp.20230317.1408.004.html.
HU J,WANG H F.Feature selection algorithm for multi tag data based on weighted information granulation[J/OL].Journal of Intelligent Systems:1-10[2023-04-12].http://kns.cnki.net/kcms/detail/ 23.1538.tp.20230317.1408.004.html.
[18]趙源上,林偉芳.基于皮爾遜相關(guān)系數(shù)融合密度峰值和熵權(quán)法的典型新能源出力場景研究[J/OL].中國電力:1-10[2023-04-13].http://kns.cnki.net/kcms/detail/11.3265.TM.20230227.0856.006.html.
ZHAO Y S,LIN W F.Research on typical new energy output scenarios based on Pearson correlation coefficient fusion densitypeak value and entropy weight method[J/OL].China Power:1-10[2023-04-13].http://kns.cnki.net/kcms/detail/11.3265.TM.20230227.0856.006.html.
[19]徐久成,黃方舟,穆輝宇,等.基于PCA和信息增益的腫瘤特征基因選擇方法[J].河南師范大學(xué)學(xué)報(自然科學(xué)版),2018,46(2):104-110.
XU J C,HUANG F Z,MU H Y,et al.Tumor feature gene selection method based on PCA and information gain[J].Journal of Henan Normal University(Natural Science Edition),2018,46(2):104-110.
[20]戰(zhàn)慶亮,葛耀君,白春錦.流場特征識別的無量綱時程深度學(xué)習(xí)方法[J].工程力學(xué),2023,40(02):17-24.
ZHAN Q L,GE Y J,BAI C J,et al.A dimensionless time history in-depth learning meth od for flow field feature recognition[J].Engineering Mechanics,2023,40(02):17-24.
[21]雍菊亞,周忠眉.基于互信息的多級特征選擇算法[J].計算機(jī)應(yīng)用,2020,40(12):3478-3484.
YONG J Y,ZHOU Z M.Multi-level feature selection algorithm based on mutual information[J].Journal of Computer Applications,2020,40(12):3478-3484.
[22]劉艷,程璐,孫林.基于K-S檢驗和鄰域粗糙集的特征選擇方法[J].河南師范大學(xué)學(xué)報(自然科學(xué)版),2019,47(2):21-28.
LIU Y,CHENG L,SUN L.Feature selection method based on K-S test and neighborhood rough sets[J].Journal of Henan Normal University(Natural Science Edition),2019,47(2):21-28.
Adaptive K-medoids algorithm for optimizing initial class center
Abstract: To solve the problem that the traditional K-medoids clustering algorithm needs to randomly select the initial cluster center and specify the number of clusters K, and the clustering results are unstable, this paper proposes an adaptive K-medoids algorithm to optimize the initial cluster center(CH_KD). The purpose is to define the feature importance, so as to screen out the best representative features in each cluster and form a feature subset, and focus on the adaptive optimization and improvement of the traditional partition algorithm. First, the feature discrimination is defined by the feature standard deviation, and the features with strong discrimination are selected. Secondly, Pearson correlation coefficient is used to measure the redundancy of each feature in the feature cluster, and the features with low redundancy are selected. Finally, the product of feature discrimination and feature redundancy is taken as the feature importance to screen out the best representative features in each cluster and form a feature subset. The experiment compares the proposed algorithm with other clustering algorithms on 14 UCI datasets, and the results verify that CH_KD the effectiveness and advantages of algorithm.
Keywords: unsupervised; feature differentiation; feature redundancy; CH function; feature selection