李曉慶 唐昊 司加勝 苗剛中
聚類過程主要包括數(shù)據(jù)準(zhǔn)備、特征選取與提取、相似度計算、聚類與評估等步驟,經(jīng)典的聚類算法包含K-means、K-modes、模糊均值聚類(Fuzzy C-means,FCM)算法、DBSCAN等.目前仍有關(guān)于經(jīng)典聚類算法的衍生算法的研究,文獻[1]以近鄰反射傳播聚類算法為基礎(chǔ),提出一種基于同類約束的半監(jiān)督近鄰反射傳播聚類方法.文獻[2]提出K-近鄰估計協(xié)同系數(shù)的協(xié)同模糊C均值算法.然而,這些聚類算法的距離度量函數(shù)是僅針對單屬性的數(shù)據(jù)集的距離運算.
隨著互聯(lián)網(wǎng)和物聯(lián)網(wǎng)的快速發(fā)展和廣泛應(yīng)用,各種數(shù)據(jù)的數(shù)量呈現(xiàn)指數(shù)式增長,可獲取的數(shù)據(jù)屬性也呈現(xiàn)出多樣化.許多學(xué)者開始致力于混合屬性數(shù)據(jù)集聚類的相關(guān)研究.Huang[3]提出一種適用于混合屬性數(shù)據(jù)聚類的K-prototypes算法,對于分類屬性部分,該算法采用匹配差異度來描述數(shù)據(jù)點之間相異度.近年來,陳晉音等[4]提出一種面向混合屬性數(shù)據(jù)的增量式聚類算法.根據(jù)混合屬性數(shù)據(jù)特征,將特征向量集分為數(shù)值占優(yōu)、分類占優(yōu)和均衡型三類.文獻[5]對不同情況的特征選取相應(yīng)的距離度量方式進行分析,通過預(yù)設(shè)參數(shù),發(fā)現(xiàn)數(shù)據(jù)密集區(qū)域,確定核心點,進而利用核心點確定密度相連的對象實現(xiàn)聚類.文獻[6]提出一種基于密度的聚類中心自動確定的混合屬性數(shù)據(jù)聚類算法.以上文獻在處理混合屬性數(shù)據(jù)的聚類時,并未考慮無序?qū)傩詳?shù)據(jù)的聚類問題.
文獻[7]將混合屬性數(shù)據(jù)分為有序?qū)傩院蜔o序?qū)傩詢蓚€部分,并構(gòu)造出雙重近鄰無向圖,但未對混合屬性數(shù)據(jù)聚類時距離度量做深入研究.文獻[8]針對不同維度的向量間的無序?qū)傩韵蛄考木嚯x度量展開研究.文獻[9]針對機械系統(tǒng)故障診斷中對先驗知識利用不足和在高維特征空間中診斷難的問題,提出一種基于成對約束和通過約束準(zhǔn)則構(gòu)造核函數(shù)的半監(jiān)督譜核聚類方法.本文基于文獻[7?9]提出一種改進的半監(jiān)督FCM 算法,首先對混合數(shù)據(jù)集的構(gòu)成進行占優(yōu)分析,確定占優(yōu)因子α,對Jaccard距離做閾值改進,并將所獲改進Jaccard距離作為無序?qū)傩跃嚯x度量函數(shù),進而將所得混合屬性距離度量函數(shù)應(yīng)用于半監(jiān)督FCM 聚類算法,得到改進的半監(jiān)督FCM聚類算法.最后,在滾動軸承的不同類型單故障及復(fù)合故障數(shù)據(jù)的特征集中進行算法對比驗證.
數(shù)據(jù)集由多個數(shù)據(jù)組成,每個數(shù)據(jù)對象由其屬性進行描述.數(shù)據(jù)庫中的每個對象以一元組的形式呈現(xiàn),每一列代表一個屬性.數(shù)據(jù)挖掘中常用的屬性類型包括:1)數(shù)值屬性,通常用實數(shù)值來描述,包括離散型數(shù)值和連續(xù)型數(shù)值之分;2)分類(標(biāo)稱)屬性,每個不同的值代表某種類別、代碼或狀態(tài),這些值無列別順序;3)二值屬性,取值只有1或0兩種情況.通常1表示屬性值非空,0表示屬性值為空值;4)序數(shù)屬性,屬性取值的值域是一個有意義的序列.
以上為常規(guī)屬性類型,當(dāng)數(shù)據(jù)對象包含多種屬性類型時,稱為混合屬性數(shù)據(jù).本文將混合屬性分為有序?qū)傩院蜔o序?qū)傩詢深?劃分依據(jù)是此屬性有無列別順序.常規(guī)屬性中,數(shù)值屬性和序數(shù)屬性屬于有序?qū)傩?分類屬性屬于無序?qū)傩?若二值屬性維數(shù)較多,則只能看成有序?qū)傩?若維數(shù)為1,則既能看成有序?qū)傩?亦能看成無序?qū)傩?
對于數(shù)據(jù)集的距離度量是進行有意義的聚類分析的前提,若存在某混合屬性數(shù)據(jù)集表達式為Φ=,記混合屬性特征向量Xi=(xi1,xi2,···,xil),前m維屬性為有序?qū)傩?后l?m維為無序?qū)傩?對于上述混合屬性距離度量而言,一般將混合屬性數(shù)據(jù)按照屬性類型進行劃分,分別求解距離,再進行整體距離的加權(quán)求和.本節(jié)對有序?qū)傩院蜔o序?qū)傩缘木嚯x度量進行簡要闡述,并對無序?qū)傩缘木嚯x度量方法加以改進,最后給出本文提出的混合屬性距離度量的完備性證明.
本文在處理前m維有序?qū)傩缘木嚯x計算時,采用歐氏距離作為距離度量函數(shù).在距離度量中,閔可夫斯基距離(Minkowski distance)是衡量數(shù)值點之間距離的一種非常常見的方法,計算公式為
其中,如果p→∞時,就是切比雪夫距離;p=1時,表示曼哈頓距離;p=2時,表示歐氏距離,即
可以看出,歐氏距離是兩個向量相對應(yīng)維度的運算,即歐氏距離適用于有序?qū)傩缘挠嬎?
對于后l?m維的無序?qū)傩?本文采用改進的Jaccard距離度量方法.
傳統(tǒng)的Jaccard相似度常用于二值型數(shù)據(jù)的相似度計算.在數(shù)據(jù)挖掘中,經(jīng)常將屬性值二值化,通過計算Jaccard相似度,可以簡單快速地得到兩個對象的相似程度.記集合, 集合,則A和B的Jaccard相似系數(shù)定義為
相應(yīng)的Jaccard距離定義為
其中,Jaccard相似系數(shù)反映了A和B集合的相交程度,值在[0,1]范圍之內(nèi),若A和B不相交,則值為0.
廣義Jaccard相似系數(shù)定義[10]為
可見,廣義Jaccard相似系數(shù)雖然考慮向量中各維數(shù)值的大小,但是向量屬性的排序?qū)τ嬎憬Y(jié)果有一定的影響.因此,廣義Jaccard相似系數(shù)處理無序?qū)傩约男Ч焕硐?
實際生活或生產(chǎn)環(huán)境下,傳感設(shè)備所得數(shù)值存在一定的誤差,本文對相似系數(shù)計算做了相應(yīng)改進,引入相異度閾值系數(shù)ε修正屬性數(shù)值的相似性判斷,則相似性判斷公式為
其中,p=m+1,m+2,···,l;q=m+1,m+2,···,l.即若向量A和B中存在兩個屬性值Xip和Xjq滿足以上條件,則令
有序?qū)傩圆糠志嚯x度量采用歐氏距離,無序?qū)傩圆糠志嚯x度量采用改進的Jaccard距離,則混合屬性的距離表達式為
其中,x與y均為前m個有序?qū)傩砸约發(fā)?m個無序?qū)傩越M成的混合屬性向量,1分別為 x 與y的前m個有序?qū)傩越M成的向量,x2和y2分別為x與y的l?m個無序?qū)傩越M成的集合,為了均衡非占優(yōu)屬性對數(shù)據(jù)對象整體相似性的影響,引入占優(yōu)因子α[3],并針對本文算例取值0.6,若m/l>α,則特征向量集是數(shù)值占優(yōu)數(shù)據(jù)集,則令β=0.4,若(l?m)/l>α,則特征向量集是分類占優(yōu)數(shù)據(jù)集,則令β=0.6,若以上兩個條件均不滿足,則特征向量集是均衡型混合屬性數(shù)據(jù)集,令β=0.5.
距離定義需滿足同一性、非負(fù)性、對稱性和三角不等性,為了使證明過程更加清晰,記有x和y和z三個向量,為有序向量部分,維數(shù)為m,A和B和C為無序?qū)傩圆糠謽?gòu)成的集合,維數(shù)為l.
定理1.若,且有,則(M為集合A和B考慮相異度閾值情況下,求交集所得的集合).
證明.若,則.向量A中已有p個元素屬于C,k?p個元素不屬于C,及l(fā)?k個元素可能屬于C.同理,B的情況亦然.易證,A和B中相異元素屬于C的個數(shù)最大值為l?p,即
推論1.本文所提混合屬性距離滿足三角不等性.
證明.需證,即
將歐氏距離統(tǒng)一放置等式左側(cè),即
推論2.混合屬性距離度量滿足距離度量準(zhǔn)則.
證明.
1)
滿足到自己距離為零;
滿足非負(fù)性;
3)d(x,y)=d(y,x),滿足對稱性;
4)由推論1可知,滿足三角不等性.故混合屬性距離度量滿足距離度量準(zhǔn)則.□
FCM算法是根據(jù)不同樣本點對聚類中心的隸屬度不同來劃分聚類的算法,它的隸屬度取值由K-means聚類算法的{0,1},拓展至[0,1],即每個樣本的類別隸屬度為一個實數(shù)區(qū)間,相較而言,更具靈活性.
記Xi(i=1,2,···,n)中每一個向量Xi均有l(wèi)維屬性.根據(jù)選定的相似性度量函數(shù),劃分為c個聚類中心稱為簇Vk,其中k=1,2,···,c.那么n個樣本分別屬于c個類別的隸屬度矩陣記為U=[uik]c×n(模糊劃分矩陣),其中uik(1≤i≤n,1≤k≤c)表示第i個樣本Xi屬于第k個類別的隸屬度,應(yīng)滿足以下約束條件:
FCM算法的目標(biāo)函數(shù)定義為
聚類中心的迭代公式為
以下為傳統(tǒng)FCM的算法描述.
算法1.FCM算法
輸入.待聚類樣本.
輸出.聚類中心及隸屬度矩陣.
步驟1.給定需要劃分的聚類中心數(shù)目c及相關(guān)參數(shù);
步驟2.初始化隸屬度矩陣U;
步驟3.根據(jù)公式計算c個聚類中心;
步驟4.計算出各個樣本點到聚類中心的距離矩陣,并得到新的隸屬度矩陣(若分母為0,則令uik=1);
步驟5.計算出目標(biāo)函數(shù)值J.如果小于給定的閾值δ或與上次循環(huán)產(chǎn)生的目標(biāo)函數(shù)值之差小于閾值δ則算法停止.否則,返回步驟2.
多數(shù)情況下的聚類集成算法建立在非監(jiān)督方式之上,由于缺乏對先驗知識的利用,致使聚類集成的準(zhǔn)確性、魯棒性和穩(wěn)定性有所降低.
半監(jiān)督模糊聚類突破了有監(jiān)督和無監(jiān)督模糊聚類中只考慮一種樣本類型的局限,整體考慮數(shù)據(jù)集中的所有樣本,提高了未知樣本的使用率,從而改善了聚類效果.它的核心思想是利用監(jiān)督數(shù)據(jù),得到初始的聚類劃分,然后利用得到的初始的聚類劃分對未標(biāo)記的數(shù)據(jù)進行約束指導(dǎo)[11].
本文將改進距離度量公式與半監(jiān)督模糊聚類算法結(jié)合,得到改進的半監(jiān)督FCM算法目標(biāo)函數(shù).
當(dāng)s為奇數(shù)時,令
則
當(dāng)s為偶數(shù)時,令
則
定義R(·)為將集合轉(zhuǎn)換成一維行向量的運算,則,由于無序?qū)傩圆糠猪樞驘o關(guān),故的形式并不唯一,取其中一種形式,與有序?qū)傩圆糠志垲愔行穆?lián)合,最終求得.即改進的FCM算法中的聚類中心每次更新是由有序部分更新結(jié)果與無序部分更新結(jié)果共同構(gòu)成.
以下為改進半監(jiān)督FCM的算法描述.
算法2.改進的半監(jiān)督FCM算法
輸入.標(biāo)記樣本和未標(biāo)記樣本.
輸出.聚類中心及未標(biāo)記樣本的隸屬度矩陣.
步驟1.將標(biāo)記樣本和未標(biāo)記樣本進行篩選及降維預(yù)處理;
步驟2.利用FCM算法對標(biāo)記樣本進行預(yù)聚類;
步驟3.利用步驟2所得聚類中心對未標(biāo)記樣本做如下操作:采用改進距離度量函數(shù)計算未標(biāo)記樣本與聚類中心的距離,選擇最靠近第i個聚類中心的未標(biāo)記樣本并貼上標(biāo)簽i,加入到標(biāo)記樣本中,并從未標(biāo)記樣本中刪除;
步驟4.計算各個樣本點到聚類中心的距離矩陣,并得到新的隸屬度矩陣(若分母為0,則令uik=1);
步驟5.對最新獲得的標(biāo)記樣本進行重聚類處理,計算目標(biāo)函數(shù)值J.迭代至J小于給定的閾值δ或與上次循環(huán)產(chǎn)生的目標(biāo)函數(shù)值之差小于閾值δ則算法停止.
本文所提算法主要針對包含有序和無序?qū)傩缘幕旌蠈傩詳?shù)據(jù)集的聚類方法,為驗證聚類算法的聚類精度,選用滾動軸承多種工況下的振動信號進行預(yù)處理和時頻分析[12],并提取相應(yīng)特征值構(gòu)成訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù).
在軸承運行過程中,當(dāng)內(nèi)滾道發(fā)生剝落、裂紋、點蝕等損傷時,會產(chǎn)生一定頻率的沖擊振動,軸承外圈亦是同理,當(dāng)滾動體產(chǎn)生損傷時,缺陷部位通過內(nèi)圈或外圈滾道表面時,也會產(chǎn)生一定頻率的沖擊振動,現(xiàn)實中的滾動軸承的振動信號,主要通過安放在軸承座上的傳感器測取設(shè)備獲得,測得的信號是包含若干成分的混合.損傷故障大致可以分為兩類:1)可以從轉(zhuǎn)速和軸承的幾何尺寸求得的通過頻率,又稱為故障特征頻率.2)由于損傷沖擊作用誘發(fā)的軸承系統(tǒng)的高頻固有振動成分.若不考慮機械系統(tǒng)的非線性因素,近似構(gòu)造出包含軸系和軸承的復(fù)合振動信號數(shù)學(xué)模型如下[13]:
其中,x(t)為加速度傳感器采集的軸承座綜合振動信號;x1(t)為與軸轉(zhuǎn)頻和軸承各元件通過頻率相關(guān)的低頻振動信號;ai為與軸轉(zhuǎn)頻相關(guān)的第i個低頻振動信號分量的幅值;fi為頻率;bj為滾動軸承故障隱患所引起的第j個低頻振動信號分量的幅值;fj為滾動軸承元件的故障通過頻率;x2(t)為以固有頻率為載波頻率,以滾動軸承通過頻率為調(diào)制頻率的調(diào)制信號;bk,j(t)為滾動軸承第k個調(diào)制信號,其調(diào)制頻率為滾動軸承的各元件的通過頻率;fk,gz為載波頻率,是各零部件的固有頻率;n(t)為x(t)中的噪聲分量.
由某故障軸承的結(jié)構(gòu)參數(shù)計算得到轉(zhuǎn)速為1800r/min下的故障特征頻率,可知,
相應(yīng)地,各故障特征頻率如表1所示.
表1 軸承各部件故障特征頻率(Hz)Table 1 Characteristic frequency of rolling bearings(Hz)
將以上四種故障頻率分別作為單故障振動信號的頻率,忽略機械系統(tǒng)的非線性因素,近似構(gòu)造出包含軸系和軸承的復(fù)合振動信號.
對復(fù)合振動信號進行特征提取,并構(gòu)造混合屬性向量,特征向量中有序?qū)傩圆糠职畲笾?、最小值、峭度值、均值?biāo)準(zhǔn)差5個指標(biāo),無序?qū)傩圆糠值臉?gòu)建主要是通過對復(fù)合振動信號進行經(jīng)驗?zāi)B(tài)分解(Empirical mode decomposition,EMD)[14],得到若干本征模函數(shù)(Intrinsic mode function,IMF)分量,再進行希爾伯特變換,進而求得特征頻率值而獲得.對于構(gòu)造的外圈故障和滾動體故障復(fù)合振動信號進行EMD分解,最終得到8組本征模函數(shù)分量及對應(yīng)頻譜圖,如圖1所示.
實驗部分選取五種故障(各取50組),進行聚類處理及分析.五種故障包括內(nèi)圈故障、外圈故障、滾動體故障三個單故障及內(nèi)外圈、滾動體外圈兩種復(fù)合故障.聚類結(jié)果采用聚類精度均值來衡量,即每個簇中占比最高的對象所占的比例的平均值.
軸承的混合屬性特征向量中有序?qū)傩耘c無序?qū)傩詳?shù)值差異性較大,圖2(a)和圖2(b)分別為未標(biāo)準(zhǔn)化數(shù)據(jù)及標(biāo)準(zhǔn)化數(shù)據(jù)的預(yù)聚類結(jié)果.
從圖2可以看出,未標(biāo)準(zhǔn)化數(shù)據(jù)對預(yù)聚類的正確率影響較明顯,標(biāo)準(zhǔn)化數(shù)據(jù)預(yù)聚類正確率更高.預(yù)聚類所得聚類中心對最終聚類結(jié)果正確率有直接影響,故本文預(yù)聚類前對于原始數(shù)據(jù)做標(biāo)準(zhǔn)化的預(yù)處理.
圖3(a)為FCM重聚類結(jié)果,相同分組用實線相連,縱坐標(biāo)為數(shù)據(jù)點實際組別,聚類實驗結(jié)果用實線相連.可以看出傳統(tǒng)半監(jiān)督FCM聚類算法單故障聚類結(jié)果較理想,聚類不純度較低,但耦合故障聚類的實驗結(jié)果與實際組別交叉嚴(yán)重,聚類結(jié)果不理想.圖3(b)為改進FCM 重聚類結(jié)果圖,與傳統(tǒng)半監(jiān)督FCM 聚類結(jié)果相比,耦合故障的聚類精度明顯提高,詳細(xì)結(jié)果如表2所示.圖4(a)和圖4(b)為兩種聚類算法聚類結(jié)果的柱狀統(tǒng)計圖(柱狀圖坐標(biāo)分別為:x:實驗結(jié)果組別號,y:實際組別號,z:統(tǒng)計數(shù)).
表2 聚類精度對比表Table 2 Comparison table of clustering accuracy
圖1 復(fù)合振動信號EMD分解Fig.1 The EMD decomposition of complex vibration signals
圖2 有標(biāo)簽數(shù)據(jù)預(yù)聚類Fig.2 Pre-clustering of the label data
圖3 重聚類結(jié)果Fig.3 Re-clustering result
圖4 重聚類結(jié)果柱狀統(tǒng)計圖Fig.4 Bar chart of re-clustering result
經(jīng)計算可得,歐氏距離作為距離度量函數(shù)所得試驗結(jié)果的聚類精度為0.848,改進的混合屬性距離度量函數(shù)所得試驗結(jié)果的聚類精度為0.94.
表2為FCM聚類算法改進前及改進后在單故障及復(fù)合故障聚類中的精度對比.從表2可以看出,在本實驗部分,復(fù)合故障之間的干擾對傳統(tǒng)FCM聚類精度有較大影響,改進的混合屬性距離作為距離度量函數(shù)在耦合故障診斷方面具有顯著優(yōu)勢.
實驗選取4組單故障及6組耦合故障的特征數(shù)據(jù)集(每組50個向量)進行聚類處理,此時故障類型較多,復(fù)合故障之間干擾較強,傳統(tǒng)FCM的聚類精度急劇下降,實驗結(jié)果部分添加了混合屬性聚類的K-prototypes方法作為對比.
重聚類結(jié)果散點圖如圖5所示,圖5(a)為傳統(tǒng)半監(jiān)督FCM聚類的結(jié)果,圖5(b)為K-prototypes聚類的結(jié)果,圖5(c)為改進半監(jiān)督FCM聚類的結(jié)果,縱坐標(biāo)代表類別,試驗數(shù)據(jù)共有10種故障,每種故障50組數(shù)據(jù),并分別加上類別屬性編號1~10,故圖中橫坐標(biāo)1~50,51~100,···,451~500的實際類別應(yīng)該依次對應(yīng)1~10類,圖中的散點分布為聚類方法所得的結(jié)果,圖5(a)圖中橫坐標(biāo)1~50的區(qū)間,有若干點縱坐標(biāo)為7,橫坐標(biāo)300~350的區(qū)間,有若干點縱坐標(biāo)為9,這些都是實際結(jié)果與實驗結(jié)果不相符的情況.三種聚類算法的柱狀統(tǒng)計圖如圖6所示.
圖5 重聚類結(jié)果散點圖Fig.5 Scatter diagram of re-clustering result
由正確率柱狀圖對比可知,當(dāng)故障類型較多時,改進FCM 重聚類的聚類效果最好,K-prototypes次之,傳統(tǒng)FCM重聚類的聚類效果較差,三種算法的聚類精度如表3所示.
表3 三種算法聚類精度對比表Table 3 Comparison table of clustering accuracy by three algorithms
表4為在改進FCM中不同相異度閾值ε下的聚類精度對比表.
表4 不同ε值下聚類精度對比表Table 4 Comparison table of clustering accuracy by differentε
圖6 重聚類結(jié)果柱狀統(tǒng)計圖Fig.6 Bar chart of re-clustering result
考慮到噪音對低頻信號有較大干擾,對4,7,8,9故障聚類結(jié)果進行分析,并對無序?qū)傩圆糠志嚯x度量計算時的相異度閾值ε采用自適應(yīng)閾值調(diào)整,自適應(yīng)閾值調(diào)整公式如下:
由表4可知,ε=0.12時,聚類效果最好,因此基準(zhǔn)值ε0取0.12,在特定區(qū)間內(nèi),相異度閾值越高則低頻信號聚類精度越高,超過一定區(qū)間則會導(dǎo)致高頻信號的錯歸類,進而影響聚類精度.根據(jù)式(6),結(jié)合本文實驗算例,可知最易錯歸類的相異度閾值為0.125,故乘數(shù)因子γ取值0.005.式中fmax取值163.2,f為計算Jaccard距離的兩個數(shù)的平均值.根據(jù)以上參數(shù)設(shè)置,得到最終結(jié)果如圖7和圖8所示.
圖7 改進FCM自適應(yīng)閾值調(diào)整后重聚類結(jié)果Fig.7 Re-clustering result by improved FCM algorithm after adaptive threshold
圖8 改進FCM自適應(yīng)閾值調(diào)整后重聚類結(jié)果柱狀統(tǒng)計圖Fig.8 Bar chart of re-clustering result by improved FCM algorithm after adaptive threshold
將圖8與圖6(c)對比,可知混合屬性距離度量公式進行自適應(yīng)閾值調(diào)整后,聚類精度進一步提升,由聚類精度計算公式求得,聚類精度提升至0.912.
本文提出一種基于改進Jaccard距離的混合屬性距離度量方法,并運用于半監(jiān)督FCM 聚類算法中,得到改進的半監(jiān)督FCM算法,將在數(shù)值屬性數(shù)據(jù)集的聚類方法擴展到了混合屬性數(shù)據(jù)集的聚類問題中.通過對聚類算法的聚類精度這一指標(biāo)值進行比較,證明了改進的半監(jiān)督FCM 算法在聚類效果方面有了顯著提升,并得到如下結(jié)論.
1)傳統(tǒng)半監(jiān)督FCM算法將樣本不同特征量賦予相同的權(quán)重,忽略了不同屬性特征量本身的相異性,K-prototypes算法作為混合屬性聚類算法,對分類屬性采用匹配差異度的距離度量方法,但是和廣義的Jaccard距離有相同的弊端,即向量維度對計算結(jié)果有很大影響,處理含無序?qū)傩缘幕旌蠈傩詳?shù)據(jù)集時,精度較低.改進半監(jiān)督FCM 聚類在處理含無序?qū)傩缘幕旌蠈傩詳?shù)據(jù)集的聚類問題時,采用歐氏距離與改進的Jaccard相結(jié)合的距離度量方式,聚類精度明顯優(yōu)于傳統(tǒng)的半監(jiān)督FCM 聚類和K-prototypes聚類.
2)當(dāng)聚類中心較多時(對應(yīng)試驗中故障類型較多),對于改進半監(jiān)督FCM,相異度閾值ε可采用自適應(yīng)閾值調(diào)整,即對于無序?qū)傩圆糠肿赃m應(yīng)改變ε的值,聚類精度得到提高.
半監(jiān)督聚類的標(biāo)記樣本數(shù)據(jù)必須滿足每個簇都至少有一個樣本被標(biāo)記出,且初始樣本數(shù)據(jù)對聚類結(jié)果影響較大.換而言之,半監(jiān)督聚類算法是建立在對標(biāo)記樣本完全信任的基礎(chǔ)上的.因此,如何提高算法對于不均衡數(shù)據(jù)集的聚類精度問題需要進一步研究.另外,將軌跡坐標(biāo)值作為無序?qū)傩苑至?并將本文提出算法與時間翹曲距離結(jié)合,對軸心軌跡進行相似性判斷并聚類,也是下一步工作的重點.