胡 明, 唐東凱, 李芬田, 王澤儒
(1.長(zhǎng)春工程學(xué)院, 吉林 長(zhǎng)春 130012;2.長(zhǎng)春工業(yè)大學(xué) 計(jì)算機(jī)科學(xué)與工程學(xué)院, 吉林 長(zhǎng)春 130012)
不確定聚類(lèi)中距離計(jì)算方法綜述
胡 明1,2, 唐東凱2*, 李芬田2, 王澤儒2
(1.長(zhǎng)春工程學(xué)院, 吉林 長(zhǎng)春 130012;2.長(zhǎng)春工業(yè)大學(xué) 計(jì)算機(jī)科學(xué)與工程學(xué)院, 吉林 長(zhǎng)春 130012)
基于概率模型,將不確定聚類(lèi)算法分為基于概率模型和缺失概率模型,并分別總結(jié)了距離的計(jì)算方式。
不確定聚類(lèi); 相似性度量; 概率模型; 距離公式
不確定性普遍存在于數(shù)據(jù)中,是數(shù)據(jù)的固有屬性[1]。在對(duì)不確定數(shù)據(jù)進(jìn)行聚類(lèi)時(shí)需要考慮其不確定性,否則會(huì)出現(xiàn)誤差,如圖1所示。
圖1(a)原始數(shù)據(jù)集被分為3個(gè)簇(a,b,c)。圖1(b)不考慮數(shù)據(jù)的不確定性進(jìn)行聚類(lèi)得到簇a′,b′,c′和c″。圖1(c)不確定性被考慮時(shí),分為簇a′,b′和c,聚類(lèi)結(jié)果比圖1(b)更接近圖1(a)。
(a) 數(shù)據(jù)集
(b) 確定聚類(lèi)
(c) 不確定聚類(lèi)
確定數(shù)據(jù)聚類(lèi)算法可以使用確定距離計(jì)算方式(如歐式距離)作為兩個(gè)對(duì)象之間的相似度度量以指導(dǎo)整個(gè)聚類(lèi)過(guò)程,但不確定數(shù)據(jù)的特點(diǎn)是每個(gè)數(shù)據(jù)對(duì)象都是由多個(gè)數(shù)據(jù)點(diǎn)表示,不再是單個(gè)數(shù)據(jù)點(diǎn)[2-4]。這就使得不確定數(shù)據(jù)的聚類(lèi)不能使用傳統(tǒng)的距離公式來(lái)進(jìn)行聚類(lèi),因此,不確定數(shù)據(jù)聚類(lèi)的主要難點(diǎn)就是如何計(jì)算不確定數(shù)據(jù)對(duì)象之間的距離。
在不確定數(shù)據(jù)聚類(lèi)中,常將不確定性數(shù)據(jù)細(xì)分為存在級(jí)不確定性(Existential Uncertainty)和屬性值不確定性(Attribute Level Uncertainty)[5]。存在級(jí)不確定性由一個(gè)概率值來(lái)表示該元組存在的可能性大小,屬性值不確定性是指每個(gè)元組屬性具有多個(gè)可能的取值,且多個(gè)取值滿(mǎn)足某種分布(如高斯分布等),用概率密度函數(shù)來(lái)表示。上述兩種類(lèi)型的不確定數(shù)據(jù)都涉及到概率或概率分布,可以看作是基于概率模型。但在實(shí)際應(yīng)用中,很難事先知道不確定數(shù)據(jù)的概率分布,而分布的范圍很容易知道,這種類(lèi)型的不確定性數(shù)據(jù)可以看作是缺失概率模型的。
文中主要討論基于概率模型和缺失概率模型兩種形式的不確定聚類(lèi),總結(jié)其中的距離計(jì)算方式。
在概率模型中,相當(dāng)于在確定數(shù)據(jù)對(duì)象的維度中增加了一個(gè)概率維,在存在級(jí)不確定數(shù)據(jù)中該概率維表示該元組的存在概率,在屬性級(jí)不確定數(shù)據(jù)中由概率密度函數(shù)來(lái)表示。因此,需要考慮到不確定對(duì)象的概率或概率密度函數(shù),才能很好地保留數(shù)據(jù)的不確定性,得到高質(zhì)量的聚類(lèi)結(jié)果。
屬性值不確定聚類(lèi)用概率密度函數(shù)來(lái)表示數(shù)據(jù)的不確定性。文中采用孫吉貴[6]等對(duì)聚類(lèi)算法的分類(lèi)方式,將不確定聚類(lèi)方式分為基于劃分、基于密度和基于相似概率分布,并將從以上3個(gè)方面對(duì)屬性值不確定聚類(lèi)中的距離計(jì)算方式進(jìn)行介紹。
1.1.1 基于劃分的不確定聚類(lèi)中距離計(jì)算
基于劃分的不確定聚類(lèi)算法主要有uk-means[7]、uk-medoids[8]以及uk-means的變形ck-means[9]。假設(shè)D={o1,o2,...,on}為m維不確定數(shù)據(jù)集,C={C1,C2,…,Ck}為k個(gè)不同的簇,fi(x)為不確定對(duì)象oi的概率密度函數(shù),滿(mǎn)足fi(x)≥0,?x∈Rm且
在uk-means中,使用期望的平方作為距離函數(shù),如下式:
簇心的計(jì)算如下:
在uk-means中,對(duì)于線(xiàn)性移動(dòng)和自由移動(dòng)的對(duì)象來(lái)說(shuō),計(jì)算期望的平方是容易的,但是當(dāng)數(shù)據(jù)量變大時(shí),積分的出現(xiàn)使得計(jì)算時(shí)間花費(fèi)太大。因此,文獻(xiàn)[7]借鑒剛體力學(xué)上的轉(zhuǎn)動(dòng)慣量以及平行軸定理對(duì)式(1)做了簡(jiǎn)化,首先對(duì)于每個(gè)不確定對(duì)象oi,定義其質(zhì)心
對(duì)于任何不確定對(duì)象oi和任何屬于Rm的點(diǎn)y都有:
只需要提前計(jì)算ki和ED(oi,ki),就可以得到ED(oi,y),不需要再次評(píng)估概率密度函數(shù)。
算法uk-means和ck-means在計(jì)算簇心的時(shí)候,都是使用一個(gè)單獨(dú)的點(diǎn)來(lái)代表整個(gè)簇,這對(duì)于不確定數(shù)據(jù)來(lái)說(shuō),丟失了一些信息,會(huì)對(duì)最終的聚類(lèi)精度造成影響,因此Gullo F[8]等借鑒k-medoids的思想,使用一個(gè)不確定對(duì)象而不是一個(gè)確定的點(diǎn)來(lái)表示一個(gè)簇,提出了uk-medoids算法,針對(duì)屬性級(jí)不確定對(duì)象oi,oj的距離計(jì)算公式如下:
式中:dist(x,y)----x和y的距離(如歐式距離)。
由式(1)~式(5)可以看出,基于劃分的不確定聚類(lèi)中的距離公式都是使用確定距離和概率密度函數(shù)的數(shù)值積分來(lái)計(jì)算的,其主要時(shí)間代價(jià)為數(shù)值積分的計(jì)算。
Wang K N[10]等在uk-means的基礎(chǔ)上討論了各種剪枝策略對(duì)計(jì)算效率的影響;肖宇鵬[11]等將ck-means的距離計(jì)算方法與模糊c-均值相結(jié)合,對(duì)模糊c-均值的目標(biāo)函數(shù)做了擴(kuò)展,使得模糊c-均值算法的聚類(lèi)思想適用于不確定聚類(lèi);曹科研[12]等將uk-means算法中期望距離的計(jì)算方式運(yùn)用到障礙空間中,并結(jié)合剪枝技術(shù)提出了適用于障礙空間中不確定聚類(lèi)的算法;遲榮華[13]等利用改進(jìn)的快速高斯變換方法獲取概率密度函數(shù),減少了距離計(jì)算的時(shí)間;文獻(xiàn)[14]針對(duì)不同的概率密度函數(shù)討論了各自的距離計(jì)算方式,最終結(jié)合快速高斯模型提出了一種有效的距離公式。
1.1.2 基于密度的不確定聚類(lèi)中距離計(jì)算
Kriegel[15]等最早提出基于密度的不確定聚類(lèi)算法FDBSCAN,并在同一年改進(jìn)了OPTICS算法,提出了FOPTICS算法[16]。在聚類(lèi)的相似性度量上FDBSCAN和FOPTICS算法采用了距離分布函數(shù),能夠體現(xiàn)出數(shù)據(jù)對(duì)象的概率密集程度。并對(duì)基于密度聚類(lèi)中涉及到的核心對(duì)象概率和對(duì)象的可達(dá)概率做了重新定義。FDBSCAN算法采用距離分布函數(shù)描述數(shù)據(jù)的不確定性,如下:
Pd(o,o′)(b)=P(d(o,o′)≤b)=
其中,Pd(o,o′)為距離密度函數(shù),且限制條件為
在式(7)數(shù)據(jù)集D中,A?D,當(dāng)A中數(shù)據(jù)對(duì)象的數(shù)目大于或等于μ并且A中全部不確定數(shù)據(jù)對(duì)象到o的距離都小于或等于ε時(shí),則稱(chēng)A中數(shù)據(jù)對(duì)象的概率之和為數(shù)據(jù)對(duì)象o的核心概率對(duì)象。
FOPTICS算法與FDBSCAN算法一樣,都采用距離分布函數(shù),唯一的不同就是FOPTICS是在模糊聚類(lèi)算法OPTICS上擴(kuò)展來(lái)的,采用的是模糊距離分布函數(shù),如下:
由式(9)可得出模糊可達(dá)距離,如下:
其他基于密度的不確定聚類(lèi)算法,如潘冬明[17]等借鑒相對(duì)密度算法的思想,重新定義了不確定數(shù)據(jù)的距離公式;王洪朋[18]等結(jié)合信息熵和R*的概念,提出了新的距離計(jì)算公式以及不確定聚類(lèi)算法PRE-DBSCAN;許華杰[19]采用R樹(shù)索引和概率閾值索引提高算法的效率。文獻(xiàn)[17-19]都是以FDBSCAN和FOPTICS算法的距離計(jì)算公式為基礎(chǔ)的,聚類(lèi)方式相同。
1.1.3 基于相似概率分布的不確定聚類(lèi)中距離計(jì)算
1.1.1和1.1.2中涉及的算法只是研究數(shù)據(jù)對(duì)象的幾何屬性,并且將研究的焦點(diǎn)放在不確定對(duì)象的實(shí)例上,他們并沒(méi)有考慮到不確定對(duì)象之間的相似性。
概率分布和幾何位置如圖2所示。
(a) 不同均值的數(shù)據(jù)對(duì)象 (b) 相同均值的數(shù)據(jù)對(duì)象
假設(shè)不確定對(duì)象obj1服從均勻分布,obj2服從高斯分布,如果兩個(gè)不確定對(duì)象有相同的均值(見(jiàn)圖2(b)),很顯然,obj1和obj2的幾何位置嚴(yán)重重疊,但實(shí)際上卻是兩個(gè)不同的簇。在基于劃分的不確定聚類(lèi)中,由式(1)~式(5)可以看出,只有對(duì)象的中心被考慮。而在本節(jié)的假設(shè)中,obj1和obj2有相同的中心,式(1)~式(5)無(wú)法對(duì)這種具有不同分布規(guī)律的對(duì)象集進(jìn)行有效的聚類(lèi)?;诿芏鹊牟淮_定數(shù)據(jù)聚類(lèi)方法的基本思想是將密集程度大的對(duì)象集合在一起,變成一個(gè)簇,兩個(gè)不同的簇之間由稀疏區(qū)域分隔,然而在本節(jié)的假設(shè)中,obj1和obj2嚴(yán)重重合,沒(méi)有稀疏區(qū)域可以將obj1和obj2分成兩個(gè)不同的簇,所以,基于密度的方法也不能在這種情形下有效工作。
針對(duì)這種類(lèi)型的不確定數(shù)據(jù),Jiang B[20]等提出使用KL-散度(Kullback-Leibler divergence)來(lái)作為不確定對(duì)象的相似性度量,KL-散度是統(tǒng)計(jì)獨(dú)立性的最佳度量,不但能很好地區(qū)分圖2(b)中的兩個(gè)嚴(yán)重重疊的不同的簇,而且對(duì)于圖2(a)的情況也能很好地解決。下面給出KL-散度在相似概率分布中具體應(yīng)用。
當(dāng)不確定對(duì)象的屬性值離散時(shí),假設(shè)f和g是離散域D中兩個(gè)不確定對(duì)象的概率質(zhì)量函數(shù),那么不確定對(duì)象間的KL距離定義為:
當(dāng)不確定對(duì)象的屬性值連續(xù)時(shí),假設(shè)f和g分別表示連續(xù)域D中兩個(gè)不確定對(duì)象的概率密度函數(shù),那么不確定對(duì)象間的KL距離定義為:
王建榮[21]在文獻(xiàn)[12]的基礎(chǔ)上進(jìn)行了改進(jìn),由于D(f‖g)不具有對(duì)稱(chēng)性,所以做了如下變換:
KL-散度不僅適用于相似概率分布,也同樣可以擴(kuò)展到基于劃分的不確定聚類(lèi)算法和基于密度的不確定聚類(lèi)算法中。
存在級(jí)不確定數(shù)據(jù)是基于概率模型的另一種表現(xiàn)方式,每個(gè)元組都有一個(gè)概率值來(lái)表示該元組。文獻(xiàn)[21]對(duì)不確定元組做了如下定義:
定義3(不確定元組集) 不確定數(shù)據(jù)集D是一個(gè)由相互獨(dú)立的d維不確定元組(Xi,pi)構(gòu)成的集合,D={(X1,p1),(X2,p2),…,(Xn,pn)},其中,Xi是第i個(gè)元組的值,pi是該元組的存在概率,0≤pi<1。
由定義3可知,每個(gè)不確定對(duì)象都有一個(gè)概率值,傳統(tǒng)的距離計(jì)算方式?jīng)]有考慮到概率值,僅能用于確定數(shù)據(jù)之間,為了不丟失數(shù)據(jù)的不確定屬性,必須將元組的不確定性包含在距離度量中。文獻(xiàn)[22]結(jié)合歐式距離提出了一種針對(duì)存在級(jí)不確定數(shù)據(jù)的度量方式。
定義4(不確定相異度) 不確定相異度dsij指兩個(gè)不確定元組(Xi,pi)和(Xj,pj)之間的相異程度,其公式如下:
式(14)不僅考慮了兩個(gè)不確定元組之間的確定距離,而且包含了兩個(gè)不確定元組的存在概率。各個(gè)不確定元組之間的概率越接近,它們的相異度越小,相似度就越大,就越有可能屬于同一類(lèi),反之則屬于不同的簇。
以上討論的都是基于概率模型進(jìn)行不確定聚類(lèi),而在實(shí)際應(yīng)用中,事先很難知道數(shù)據(jù)的概率分布情況。對(duì)于這種形式的不確定數(shù)據(jù)主要有兩種形式來(lái)表示:區(qū)間數(shù)和三角模糊數(shù),它們都不需要事先知道數(shù)據(jù)的分布情況,很容易應(yīng)用到多個(gè)領(lǐng)域。
文獻(xiàn)[23]對(duì)區(qū)間數(shù)的定義如下:
定義5(區(qū)間數(shù)) 給定AL,AR∈Rd且AR≥AL,稱(chēng)集合:A=[AL,AR]?{u|AL≤AR}為一個(gè)區(qū)間數(shù),其中AL為區(qū)間數(shù)的下界,AR為區(qū)間數(shù)的上界。當(dāng)AL=AR,即上下界相等時(shí),區(qū)間數(shù)變?yōu)榇_定的數(shù)。
定義6(區(qū)間數(shù)的距離) 對(duì)于給定的區(qū)間數(shù),X=[XL,XR],Y=[YL,YR],它們之間的距離為:
d(X,Y)= ‖X-Y‖=
由式(16)可以看出,使用區(qū)間數(shù)來(lái)表示不確定數(shù)據(jù),進(jìn)行聚類(lèi)時(shí),可以避免大量的積分運(yùn)算,有效降低算法的時(shí)間復(fù)雜度。
在不知道數(shù)據(jù)的概率密度函數(shù)時(shí),除了區(qū)間數(shù)之外,三角模糊數(shù)也可以表示不確定數(shù)據(jù)。記R+為正實(shí)數(shù)集,F(xiàn)(R+)為全體正模糊數(shù)集,R為實(shí)數(shù)集,F(xiàn)(R)為全體模糊數(shù)集,下面給出三角模糊數(shù)的定義:
定義7(三角模糊數(shù)) 設(shè)α=(l,m,u)為三角模糊數(shù);其中,α∈F(R),l和u分別為α的上界和下界;(m-l)和(u-m)分別為α的下限和上限,m為三角模糊數(shù)α的主值,是可能性最大的值。
對(duì)于給定的三角模糊數(shù)α=(mα-xα,mα,mα+yα),β=(mβ-xβ,mβ,mβ+yβ),其中mα,xα,yα,mβ,xβ,yβ∈R,在任意維度j(1≤j≤d)上,這兩個(gè)三角模糊數(shù)之間的距離都有相離、相接、相交、相含4種狀態(tài)。4種狀態(tài)中在每一維上的最大和最小距離分別為:
根據(jù)以上定義,陸億紅[25-26]等重新定義了兩個(gè)d維的三角模糊數(shù)之間的距離,如下:
D= [Dmin,Dmid,Dmax]=
式(20)為三角模糊數(shù)的距離公式,此時(shí)計(jì)算出來(lái)的三角模糊數(shù)之間的距離仍是一個(gè)三角模糊數(shù),保留了數(shù)據(jù)的不確定性。為了將距離度量有效地運(yùn)用于不確定聚類(lèi),文獻(xiàn)[15]將式(20)做了變換,得到兩個(gè)三角模糊數(shù)之間的距離,其表達(dá)式為:
從概率模型的角度出發(fā),將不確定數(shù)據(jù)聚類(lèi)分為兩類(lèi):基于概率模型的不確定聚類(lèi)和缺失概率模型的不確定聚類(lèi)。在概率模型中,都是用數(shù)據(jù)概率密度函數(shù)或者概率質(zhì)量函數(shù)來(lái)表示不確定性,由于概率的存在,在這類(lèi)的不確定聚類(lèi)中距離計(jì)算大多使用期望距離及其變形或KL-散度。而對(duì)于事先不知道概率模型的不確定數(shù)據(jù)來(lái)說(shuō),使用區(qū)間數(shù)和三角模糊數(shù)可以很好地計(jì)算其不確定對(duì)象之間的距離。在實(shí)際應(yīng)用中,應(yīng)根據(jù)不確定數(shù)據(jù)的類(lèi)型選擇合適的距離計(jì)算函數(shù)。
[1] 王梁,周光焱,王黎維,等.不確定關(guān)系數(shù)據(jù)屬性級(jí)溯源表示與概率計(jì)算[J].軟件學(xué)報(bào),2014,25(4):863-879.
[2] 范麗文.基于無(wú)線(xiàn)傳感器網(wǎng)絡(luò)不確定數(shù)據(jù)的HPDBSCAN算法研究[D].南昌:江西理工大學(xué),2013.
[3] 張亞昕.不確定數(shù)據(jù)聚類(lèi)算法研究[J].計(jì)算技術(shù)與自動(dòng)化,2013,32(2):60-63.
[4] 孫佳,胡明,趙佳.K-means初始聚類(lèi)中心選取優(yōu)化算法[J].長(zhǎng)春工業(yè)大學(xué)學(xué)報(bào),2016,37(1):25-29.
[5] 周傲英,金澈清,王國(guó)仁,等.不確定性數(shù)據(jù)管理技術(shù)研究綜述[J].計(jì)算機(jī)學(xué)報(bào),2009,32(1):1-16.
[6] 孫吉貴,劉杰,趙連宇.聚類(lèi)算法研究[J].軟件學(xué)報(bào),2008,19(1):48-61.
[7] Chau M, Cheng R, Kao B, et al. Uncertain data mining: An example in clustering location data[C]//Pacific-Asia Conference on Advances in Knowledge Discovery and Data Mining. Springer-Verlag: [s.n.],2006:199-204.
[8] Gullo F, Ponti G, Tagarelli A. Clustering uncertain data via k-medoids[C]// International Conference on Scalable Uncertainty Management. Springer-Verlag: [s.n.],2008:229-242.
[9] Lee S D, Kao B, Cheng R. Reducing uk-means to k-means[C]// IEEE International Conference on Data Mining Workshops. [S.l.]: IEEE Computer Society,2007:483-488.
[10] Wang K N, Kao B, Chui C K, et al. Efficient clustering of uncertain data[M]. [S.l.]: IEEE,2006.
[11] 肖宇鵬,何云斌,萬(wàn)靜,等.基于模糊C-均值的空間不確定數(shù)據(jù)聚類(lèi)[J].計(jì)算機(jī)工程,2015,41(10):47-52.
[12] 曹科研,王國(guó)仁,韓東紅,等.障礙空間中不確定數(shù)據(jù)聚類(lèi)算法[J].計(jì)算機(jī)科學(xué)與探索,2012,12(6):1087-1097.
[13] 遲榮華,程媛,朱素霞,等.基于快速高斯變換的不確定數(shù)據(jù)聚類(lèi)算法[J].通信學(xué)報(bào),2017,38(3):101-111.
[14] Xiao L, Hung E. An efficient distance calculation method for uncertain objects[C]//Computational Intelligence and Data Mining, 2007. CIDM 2007.IEEE Symposium on. [S.l.]: IEEE,2007:10-17.
[15] Kriegel H P, M Pfeifle. Density-based clustering of uncertain data[C]//Proceedings of the 11th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.2005:672-677.
[16] Kriegel H P, Pfeifle M. Hierarchical density-based clustering of uncertain data[C]//Eleventh ACM SIGKDD International Conference on Discovery in Date Mining ACM.2005:689-692.
[17] 潘冬明,黃德才.基于相對(duì)密度的不確定數(shù)據(jù)聚類(lèi)算法[J].計(jì)算機(jī)科學(xué),2015(b11):72-74.
[18] 王洪朋.一種基于密度的不確定性數(shù)據(jù)聚類(lèi)算法[D].哈爾濱:哈爾濱工程大學(xué),2015.
[19] 許華杰,李國(guó)徽,楊兵,等.基于密度的不確定性數(shù)據(jù)概率聚類(lèi)[J].計(jì)算機(jī)科學(xué),2009,36(5):68-71.
[20] Jiang B, Pei J, Tao Y, et al. Clustering uncertain data based on probability distribution similarity[J].IEEE Transactions on Knowledge & Data Engineering,2013,25(4):751-763.
[21] 王建榮.基于概率分布相似性的不確定數(shù)據(jù)聚類(lèi)算法研究[D].西安:西安電子科技大學(xué),2014.
[22] 王曉偉,賈焰,楊樹(shù)強(qiáng),等.存在級(jí)不確定數(shù)據(jù)上的概率Skyline計(jì)算[J].計(jì)算機(jī)研究與發(fā)展,2011,48(1):68-76.
[23] 陸億紅,夏聰.不確定數(shù)據(jù)的最優(yōu)K近鄰和局部密度聚類(lèi)算法[J].控制與決策,2016(3):541-546.
[24] 彭宇,羅清華,王丹,等.基于區(qū)間數(shù)聚類(lèi)的無(wú)線(xiàn)傳感器網(wǎng)絡(luò)定位方法[J].自動(dòng)化學(xué)報(bào),2012,38(7):1190-1199.
[25] 何云斌,張志超,萬(wàn)靜,等.不確定數(shù)據(jù)聚類(lèi)的U-PAM算法和UM-PAM算法的研究[J].計(jì)算機(jī)科學(xué),2016,43(6):263-269.
[26] 陸億紅,翁純佳.基于三角模糊數(shù)的不確定性數(shù)據(jù)聚類(lèi)算法[J].浙江工業(yè)大學(xué)學(xué)報(bào),2016,44(4):405-409.
Summaryofdistancecalculationformulaforuncertainclusteringalgorithm
HU Ming1,2, TANG Dongkai2*, LI Fentian2, WANG Zeru2
(School of Computer Science & Engineering, Changchun University of Technology, Changchun 130012, China)
Based on probabilistic model, uncertain clustering algorithm is classified into model-based probability and model-missed. Here we also summarize the distance calculation formulas.
uncertain clustering; similarity measure; probability model; distance formula.
2017-07-18
吉林省科技廳重大科技招標(biāo)專(zhuān)項(xiàng)(20160203010GX); 吉林省發(fā)改委產(chǎn)業(yè)創(chuàng)新專(zhuān)項(xiàng)基金項(xiàng)目(20170505MA2)
胡 明(1963-),男,漢族,吉林長(zhǎng)春人,長(zhǎng)春工程學(xué)院教授,博士,主要從事分布式計(jì)算、數(shù)據(jù)挖掘方向研究,E-mail:huming@ccut.edu.cn. *通訊作者:唐東凱(1992-),男,漢族,河南商丘人,長(zhǎng)春工業(yè)大學(xué)碩士研究生,主要從事數(shù)據(jù)挖掘方向研究,E-mail:tdkhkd@126.com.
10.15923/j.cnki.cn22-1382/t.2017.5.13
TP 311
A
1674-1374(2017)05-0477-07