李楊,郝志峰,謝光強(qiáng),袁淦釗
(1.廣東工業(yè)大學(xué) 自動(dòng)化學(xué)院,廣東廣州510006;2.廣東工業(yè)大學(xué)計(jì)算機(jī)學(xué)院,廣東廣州510006;3.華南理工大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院,廣東廣州510006)
隨著信息化社會(huì)的全面到來(lái),面向高維海量數(shù)據(jù)的應(yīng)用變得越來(lái)越普遍,因此,如何分析和使用這些數(shù)據(jù)是一個(gè)亟待解決的問(wèn)題,鑒于人類(lèi)對(duì)于海量高維數(shù)據(jù)的認(rèn)知能力有限,在知識(shí)發(fā)現(xiàn)、信息決策的過(guò)程中,多維數(shù)據(jù)可視化技術(shù)成為一種輔助人們理解與直觀地掌握數(shù)據(jù)特性的有效手段.多維可視化技術(shù)的目的是盡量反映多維信息及其各屬性之間的關(guān)系信息,幫助數(shù)據(jù)工程師準(zhǔn)確快速地發(fā)現(xiàn)數(shù)據(jù)集中隱藏的特征信息、關(guān)系信息、模式信息、趨勢(shì)信息及聚類(lèi)信息等.
然而,在對(duì)海量數(shù)據(jù)進(jìn)行可視化時(shí),情況更為復(fù)雜,應(yīng)用傳統(tǒng)的數(shù)據(jù)可視化技術(shù)及流程時(shí),往往會(huì)出現(xiàn)圖像疊加嚴(yán)重、可視化圖像質(zhì)量低、辨識(shí)性差等現(xiàn)實(shí)問(wèn)題,數(shù)據(jù)聚合是解決該問(wèn)題的一種有效方法,也就是在數(shù)據(jù)可視化之前先進(jìn)行數(shù)據(jù)抽象.現(xiàn)有的數(shù)據(jù)聚合方法往往沒(méi)有為數(shù)據(jù)可視化進(jìn)行專(zhuān)門(mén)的優(yōu)化和改進(jìn),更為重要的是,缺少針對(duì)可視化所作的數(shù)據(jù)聚合質(zhì)量度量,對(duì)數(shù)據(jù)聚合的質(zhì)量沒(méi)有量化和理論支撐,本文研究的質(zhì)量度量指標(biāo)驅(qū)動(dòng)的數(shù)據(jù)聚合彌補(bǔ)了上述不足.
為了彌補(bǔ)人類(lèi)視覺(jué)感知能力的不足,幫助人們理解多維數(shù)據(jù),研究人員提出了相當(dāng)數(shù)量的數(shù)據(jù)可視化方法,這些方法將多維數(shù)據(jù)通過(guò)降維轉(zhuǎn)換并映射到三維或者二維可視空間來(lái)實(shí)現(xiàn)多維信息的可視化.根據(jù)其可視化的原理不同可以劃分為基于幾何的技術(shù)、面向像素的技術(shù)、基于圖標(biāo)的技術(shù)、基于層次的技術(shù)、基于圖形的技術(shù)和基于降維映射的技術(shù)等[1-2].
在數(shù)據(jù)量較大時(shí),為了提高數(shù)據(jù)可視化的圖像質(zhì)量,降低圖像疊加的問(wèn)題,通常會(huì)對(duì)數(shù)據(jù)進(jìn)行抽象,數(shù)據(jù)抽象的目的是在數(shù)據(jù)精簡(jiǎn)的同時(shí),保持原數(shù)據(jù)的各種特性,提高數(shù)據(jù)抽象后可視化的圖像質(zhì)量.抽樣和聚合是2種常用的數(shù)據(jù)抽象方法.Bertini等[3]提出了利用聚類(lèi)聚合的方法在散點(diǎn)圖中自動(dòng)降低圖像疊加;Johansson等[4]提出了基于距離變化的數(shù)據(jù)抽樣方法,并在屏幕空間對(duì)圖像質(zhì)量進(jìn)行了度量.
質(zhì)量度量的研究由來(lái)已久,隨著數(shù)據(jù)可視化技術(shù)的發(fā)展,數(shù)據(jù)可視化中的質(zhì)量度量越來(lái)越引起學(xué)者們的注意,越來(lái)越多的成果發(fā)表在數(shù)據(jù)可視化領(lǐng)域的重要期刊和會(huì)議上,這些方法也極大地促進(jìn)了數(shù)據(jù)可視化技術(shù)本身的發(fā)展.根據(jù)數(shù)據(jù)可視化度量指標(biāo)所實(shí)施的對(duì)象不同,現(xiàn)有的質(zhì)量度量方法可以被分成兩大類(lèi):實(shí)施于數(shù)據(jù)空間和圖像空間[5].在數(shù)據(jù)空間方面,Cui等[6]研究了在抽象和聚合2種不同的數(shù)據(jù)抽象方法下計(jì)算數(shù)據(jù)抽象質(zhì)量,權(quán)衡如何在數(shù)據(jù)精簡(jiǎn)和數(shù)據(jù)損失方面取得平衡;在圖像空間方面,Tatu等[7]使用Hough變換對(duì)感興趣的散點(diǎn)圖進(jìn)行分級(jí),以提高可視化圖像質(zhì)量.但是,圖像空間的質(zhì)量度量存在著受限于某種單個(gè)數(shù)據(jù)可視化方法的缺點(diǎn).
本文提出一種數(shù)據(jù)空間質(zhì)量度量驅(qū)動(dòng)下的數(shù)據(jù)聚合方法均分K-means++,這一方法面向多維數(shù)據(jù),廣泛適用于大部分?jǐn)?shù)據(jù)可視化方法,在質(zhì)量度量指標(biāo)的驅(qū)動(dòng)下進(jìn)行多維數(shù)據(jù)的可視化.
K-means算法具有簡(jiǎn)單、聚類(lèi)速度快的優(yōu)點(diǎn).在大量的實(shí)驗(yàn)中發(fā)現(xiàn),在進(jìn)行海量數(shù)據(jù)的聚合運(yùn)算中,K-means算法具有以下缺點(diǎn):
1)在聚合運(yùn)算,特別是海量數(shù)據(jù)的聚合運(yùn)算中,K值往往較大,這種情況下,傳統(tǒng)的K-means算法會(huì)出現(xiàn)迭代次數(shù)過(guò)大的情況,極大地影響了聚合速度.
2)傳統(tǒng)的K-means++算法[8]雖然改進(jìn)了初始點(diǎn)的選擇,但仍然以最小化近鄰點(diǎn)距離之和為目的,往往會(huì)出現(xiàn)各個(gè)聚簇的點(diǎn)數(shù)分布極不均勻的情況,某些聚簇只有幾個(gè)點(diǎn),某些聚簇則有成百上千個(gè)點(diǎn).但是,在數(shù)據(jù)聚合中,往往希望聚合前的數(shù)據(jù)能在聚合后的各個(gè)中心點(diǎn)上均勻分布,使聚合后的數(shù)據(jù)更好地反映原數(shù)據(jù)的分布.
鑒于現(xiàn)有的K-means及其改進(jìn)算法在數(shù)據(jù)聚合中存在的缺陷,本文提出了均分K-means++的數(shù)據(jù)聚合方法,仿真實(shí)驗(yàn)證明,該算法大大減少了迭代次數(shù),在分布上與原數(shù)據(jù)更加吻合,從而更加適用于數(shù)據(jù)可視化中的數(shù)據(jù)聚合運(yùn)算.
算法1 均分K-means
1)輸入 d 維空間[0,1]d的 n 個(gè)點(diǎn) p1,p2,…,pn,隨機(jī)選擇 k 個(gè)初始點(diǎn) C={c1,c2,…,ck}.
3)對(duì)于1≤j≤k,計(jì)算集合 Sj內(nèi)點(diǎn)之和 sum=∑i∈Sjpi和數(shù)目 num=|Sj|,cj=sum/num 為集合 Sj新的中心點(diǎn).
4)重復(fù)2)~3),直至C不再變化或迭代次數(shù)達(dá)到上限.
算法2 均分K-means++
令D(x)表示一個(gè)數(shù)據(jù)點(diǎn)到離它最近的已經(jīng)選出的中心點(diǎn)的距離.則均分K-means++算法定義如下:
1)輸入 d 維空間[0,1]d的 n 個(gè)點(diǎn) p1,p2,…,pn.
①均勻隨機(jī)地在X中選出第1個(gè)中心點(diǎn).
③重復(fù)②,直至選出k個(gè)中心點(diǎn).
2)繼續(xù)算法1的2)~4)步.
數(shù)據(jù)可視化中的質(zhì)量度量通?;谝韵履康?尋找感興趣的預(yù)測(cè)結(jié)果、降低圖像疊加、發(fā)現(xiàn)有意義的模式等.近年來(lái),雖然數(shù)據(jù)可視化中的質(zhì)量度量研究發(fā)展很快,但很少有人將這些成果總結(jié),并指出它們之間的聯(lián)系,本文建立一個(gè)多維數(shù)據(jù)可視化質(zhì)量評(píng)價(jià)模型,用來(lái)量化數(shù)據(jù)可視化中的聚合數(shù)據(jù)質(zhì)量,從而驅(qū)動(dòng)數(shù)據(jù)可視化圖像質(zhì)量的改善.
可視化質(zhì)量評(píng)價(jià)模型如圖1所示.圖中描述了質(zhì)量評(píng)價(jià)模型下的數(shù)據(jù)可視化過(guò)程,包括3個(gè)階段:
1)數(shù)據(jù)轉(zhuǎn)換(源數(shù)據(jù)→轉(zhuǎn)換后數(shù)據(jù)).數(shù)據(jù)轉(zhuǎn)換的主要目的是改變數(shù)據(jù)形式為更利于可視化的格式,例如對(duì)于一些高維數(shù)據(jù),需要進(jìn)行特征選擇、投影等降維操作,對(duì)于海量數(shù)據(jù),常見(jiàn)的操作是聚合和采樣.
2)數(shù)據(jù)映射(轉(zhuǎn)換后數(shù)據(jù)→可視化結(jié)構(gòu)).數(shù)據(jù)映射是整個(gè)模型的核心部分,這一步將數(shù)據(jù)的每一維表現(xiàn)為可視化結(jié)構(gòu)中的可視特征.同樣的數(shù)據(jù)可能映射為多種不同的可視化結(jié)構(gòu),質(zhì)量評(píng)價(jià)指標(biāo)需要對(duì)這些過(guò)程進(jìn)行評(píng)價(jià).例如,不同的維序?qū)?yīng)不同的可視化結(jié)構(gòu),相應(yīng)的質(zhì)量度量評(píng)價(jià)也是不同的.
3)視圖轉(zhuǎn)換(可視化結(jié)構(gòu)→視圖).視圖轉(zhuǎn)換將可視化結(jié)構(gòu)翻譯為特定的圖像形式(如像素),這樣做的目的是為了突出圖像空間的作用,因?yàn)槟承┵|(zhì)量評(píng)價(jià)指標(biāo)直接以可視化結(jié)構(gòu)所對(duì)應(yīng)的像素為計(jì)算對(duì)象,不過(guò),相對(duì)于數(shù)據(jù)空間質(zhì)量評(píng)價(jià)而言,直接對(duì)圖像空間進(jìn)行的質(zhì)量評(píng)價(jià)相對(duì)較少.
圖1 總體框架Fig.1 Overall framework
質(zhì)量評(píng)價(jià)模型可以幫助數(shù)據(jù)分析者選擇一個(gè)可靠的過(guò)程組合.通常在一種情況下會(huì)有一個(gè)或者多個(gè)解決方案供數(shù)據(jù)分析者選擇,整個(gè)選擇過(guò)程都是由質(zhì)量評(píng)價(jià)指標(biāo)驅(qū)動(dòng)的,因?yàn)橘|(zhì)量評(píng)價(jià)指標(biāo)可以量化每個(gè)階段的數(shù)據(jù)或視圖質(zhì)量(向上箭頭),計(jì)算結(jié)果最終影響整個(gè)處理過(guò)程(向下箭頭).
根據(jù)數(shù)據(jù)可視化度量指標(biāo)所實(shí)施的對(duì)象不同,現(xiàn)有的質(zhì)量度量方法可以被分成兩大類(lèi):實(shí)施于數(shù)據(jù)空間或圖像空間.
1)數(shù)據(jù)空間.
在數(shù)據(jù)空間計(jì)算的度量指標(biāo)只使用可視化前后的數(shù)據(jù)進(jìn)行計(jì)算,不涉及到任何視圖信息.
2)圖像空間.
面向圖像空間的度量指標(biāo)計(jì)算則繞過(guò)數(shù)據(jù),直接對(duì)輸出的圖像信息進(jìn)行計(jì)算,這類(lèi)方法通常需要輔助復(fù)雜的圖像處理方法.
1)聚類(lèi)質(zhì)量.
聚類(lèi)質(zhì)量指標(biāo)用于度量可視化后的數(shù)據(jù),保持分組信息的程度,對(duì)于明顯分組的數(shù)據(jù)是否比較容易識(shí)別[9].
2)相關(guān)性指標(biāo).
相關(guān)性指標(biāo)用于度量可視化后的數(shù)據(jù)保持原數(shù)據(jù)二維或多維之間相關(guān)性的程度.二維數(shù)據(jù)之間的Pearson相關(guān)性和多維數(shù)據(jù)之間的全局相關(guān)性都在該指標(biāo)考慮的范圍之內(nèi)[10].
3)離群點(diǎn)指標(biāo).
離群點(diǎn)指標(biāo)用于度量可視化后的數(shù)據(jù)保持那些與大部分其他數(shù)據(jù)明顯不同的數(shù)據(jù)(即離群點(diǎn))的能力[11].
4)復(fù)雜模式指標(biāo).
Wilkinson等[12]提出一種度量發(fā)現(xiàn)復(fù)雜模式能力的指標(biāo),這些復(fù)雜模式不能在之前提出的分類(lèi)中被發(fā)現(xiàn),如“某種針織質(zhì)地”、“某種身材指標(biāo)”等.
5)圖像質(zhì)量指標(biāo).
圖像質(zhì)量指標(biāo)不關(guān)心各種模式被保持的程度,而是度量可視化后的圖像質(zhì)量,例如圖形是否大量重疊等.
6)特征保持指標(biāo).
特征保持指標(biāo)度量可視化后的數(shù)據(jù)保持原數(shù)據(jù)特征的程度.這些特征包括原數(shù)據(jù)的分類(lèi)信息[7,13]、可視化中的抽象數(shù)據(jù)相對(duì)于原數(shù)據(jù)而言的信息損失[3-4]等用戶(hù)感興趣的特征信息.
圖像空間中的質(zhì)量度量對(duì)具體的數(shù)據(jù)可視化方法敏感,因此,本文選擇的抽象數(shù)據(jù)級(jí)別(data abstraction level,DAL)、直方圖差值度量(histogram difference measure,HDM)、最近鄰距離度量(nearest neighbor measure,NNM)3個(gè)指標(biāo)是數(shù)據(jù)空間中的質(zhì)量度量指標(biāo),能夠較好地驗(yàn)證算法2在聚類(lèi)質(zhì)量、圖像質(zhì)量和特征保持指標(biāo)上的表現(xiàn).
1)DAL.
DAL是數(shù)據(jù)抽象級(jí)別的縮寫(xiě),用來(lái)表示數(shù)據(jù)抽象的程度,計(jì)算公式如式(1):
式中:Na表示抽象后的數(shù)據(jù)集大小,No表示原數(shù)據(jù)集的大小.
2)HDM.
HDM定義為抽象前后2個(gè)直方圖的標(biāo)準(zhǔn)差,取值范圍是[0,1],0表示2個(gè)直方圖所對(duì)應(yīng)的每一對(duì)桶都有其中一個(gè)是空的,1則表示2個(gè)直方圖所對(duì)應(yīng)的每一對(duì)桶都完全一致,用式(2)來(lái)表示2個(gè)直方圖第i個(gè)桶的差值:
式中:Poi是抽象前數(shù)據(jù)落入第i個(gè)桶的比例,Psi是抽象后數(shù)據(jù)落入第i個(gè)桶的比例,Pbi是2個(gè)桶的差值.
式中:Ph是2個(gè)直方圖的差值,N是直方圖中桶的數(shù)量.
如式(3)定義,HDM 是直方圖標(biāo)準(zhǔn)差,Ph,max是 Ph最大值.
對(duì)于n維數(shù)據(jù)集的HDM定義為n個(gè)一維HDM平均值.默認(rèn)的桶寬使用式(4)計(jì)算:
式中:S為某一維數(shù)據(jù)的標(biāo)準(zhǔn)差,Num為數(shù)據(jù)集的大小.
3)NNM.
NNM定義為每條記錄與其抽象后代表它的記錄之間的標(biāo)準(zhǔn)化距離平均值,計(jì)算公式如下:
①n維空間內(nèi)2條記錄U、V之間的歐氏距離為
②對(duì)抽象前數(shù)據(jù)集中的第i條記錄,計(jì)算它與抽象后數(shù)據(jù)集中每一條記錄之間的距離,選擇其中距離最小的值作為Di.
式中:Xi是抽象前數(shù)據(jù)集中的第i條記錄,Yj是抽象后數(shù)據(jù)集中的第j條記錄,A表示抽象后數(shù)據(jù)集的大小,Di代表第i條記錄的距離.
③)標(biāo)準(zhǔn)化所有最小距離的平均值為NNM表示抽象前數(shù)據(jù)集的大小.
在幾大類(lèi)數(shù)據(jù)可視化方法中,基于幾何的技術(shù)、面向像素的技術(shù)、基于層次的技術(shù)和基于圖形的技術(shù)均適用于本文提出的方法.基于幾何技術(shù)的基本思想是以點(diǎn)、線等幾何畫(huà)法將多維數(shù)據(jù)展現(xiàn)在二維、三維空間,適合于維數(shù)高但數(shù)據(jù)量相對(duì)不多的數(shù)據(jù)集,其代表方法為平行坐標(biāo)法[14],其他方法還包括放射坐標(biāo)系[15]、散點(diǎn)圖矩陣[16]、Andrews 曲線法[17]等.面向像素的技術(shù)利用像素的顏色代表數(shù)據(jù)的值,空間被分割成多個(gè)子窗口,每個(gè)子窗口對(duì)應(yīng)多維數(shù)據(jù)中的一維,比較有代表性的方法包括VisDB[18]、圓形分段法[19]等.基于層次的技術(shù)可以對(duì)數(shù)據(jù)進(jìn)行層次劃分,將數(shù)據(jù)以層次結(jié)構(gòu)的方式組織并以圖形表示出來(lái),在不同層次上表示不同維度的元素值,適用于每一維數(shù)據(jù)之間具有層次關(guān)系的多維數(shù)據(jù).包括維堆[20]、嵌套坐標(biāo)系[21]等方法.基于圖形的技術(shù)利用圖形的大小、顏色等屬性表示數(shù)據(jù),代表方法包括多線圖、Survey Plot[22],這 2 種方法都是在平行坐標(biāo)法的基礎(chǔ)上發(fā)展而來(lái)的.
上述的數(shù)據(jù)可視化方法的共同點(diǎn)是其可視化圖像質(zhì)量容易受到數(shù)據(jù)集大小的影響,因此,在應(yīng)用本文提出的數(shù)據(jù)聚合方法時(shí),既能夠提高可視化圖像質(zhì)量,又能保持原數(shù)據(jù)的大部分特性.限于篇幅,本文只展示了2種最具代表性的數(shù)據(jù)可視化方法:平行坐標(biāo)法和散點(diǎn)圖法.
文中涉及的算法實(shí)現(xiàn)編程環(huán)境為MATLAB 7.1,數(shù)據(jù)可視化工具為XmdvTool[23],實(shí)驗(yàn)環(huán)境為Windows XP 3.6GHz,2.00GB,實(shí)驗(yàn)中的所有數(shù)據(jù)都被規(guī)范化至[0,1]6,3個(gè)質(zhì)量評(píng)價(jià)指標(biāo)DAL、HDM、NNM的取值范圍均為[0,1].數(shù)據(jù)基本信息如表1所示.3.1 質(zhì)量度量驅(qū)動(dòng)的平行坐標(biāo)圖聚合前后對(duì)比
表1 實(shí)驗(yàn)數(shù)據(jù)信息Table 1 Experimental data
數(shù)據(jù)集DS1采用算法2分別以數(shù)據(jù)抽象級(jí)別DAL=0.07,0.04,0.02 時(shí)進(jìn)行數(shù)據(jù)聚合.圖2 包含了數(shù)據(jù)聚合前后的平行坐標(biāo)圖,可以發(fā)現(xiàn),在DAL=1,即數(shù)據(jù)聚合前,數(shù)據(jù)疊加嚴(yán)重,難以辨識(shí)其中任何的數(shù)據(jù),而聚合后的數(shù)據(jù)不僅保持了較高的質(zhì)量度量指標(biāo)(如圖3所示),圖像質(zhì)量也有了明顯的提高.
圖2 不同DAL下DS1的平行坐標(biāo)圖Fig.2 Parallel coordinates of DS1at different DALS
圖3 不同DAL下DS1的質(zhì)量度量指標(biāo)Fig.3 Quality metrics of DS1at different DAL
圖4是數(shù)據(jù)集DS2用算法2進(jìn)行數(shù)據(jù)聚合前(DAL=1)及聚合后(DAL 為0.02,0.04,0.07)的散點(diǎn)圖矩陣.不難發(fā)現(xiàn),在DAL=1時(shí),各個(gè)數(shù)據(jù)點(diǎn)疊加嚴(yán)重,很難辨識(shí)其中的任何有用信息,也難以發(fā)現(xiàn)兩維屬性之間的關(guān)系,而聚合后的數(shù)據(jù)即使在DAL=0.02時(shí),也能很容易地發(fā)現(xiàn)其中存在的屬性關(guān)聯(lián)信息.圖5展示了聚合后的DS2同樣保持了較高的質(zhì)量度量指標(biāo).當(dāng)數(shù)據(jù)維度較小時(shí),聚合后的數(shù)據(jù)在散點(diǎn)圖上的表現(xiàn)更好.
圖4 不同DAL下DS2的散點(diǎn)圖Fig.4 Scatter plots of DS2at different DAL
圖5 不同DAL下DS2的質(zhì)量度量指標(biāo)Fig.5 Quality metrics of DS2at different DAL
質(zhì)量度量指標(biāo)驅(qū)動(dòng)下的數(shù)據(jù)聚合加入了質(zhì)量量化指標(biāo),聚合數(shù)據(jù)的質(zhì)量可以被精確量化,可以幫助數(shù)據(jù)工程師在數(shù)據(jù)可視化的過(guò)程中根據(jù)實(shí)際需求調(diào)整度量指標(biāo)參數(shù),以獲取聚合數(shù)據(jù)質(zhì)量與可視化圖像質(zhì)量之間的平衡.本文提出了一種均分K-means++數(shù)據(jù)聚合算法,仿真實(shí)驗(yàn)表明,與傳統(tǒng)的聚類(lèi)算法相比,均分K-means++更適用于以提高數(shù)據(jù)可視化圖像質(zhì)量為目的的數(shù)據(jù)聚合.目前,均分K-means++數(shù)據(jù)聚合算法存在的問(wèn)題是當(dāng)K增大到一定程度時(shí),初始點(diǎn)的計(jì)算效率較低,下一步將研究如何在海量數(shù)據(jù)集上提高算法效率.
[1]孫揚(yáng),封孝生,唐九陽(yáng),等.多維可視化技術(shù)綜述[J].計(jì)算機(jī)科學(xué),2008,35(11):1-7.SUN Yang,F(xiàn)ENG Xiaosheng,TANG Jiuyang,et al.Survey on the research of multidimensional and multivariate data visualization[J].Computer Science,2008,35(11):1-7.
[2]KEIM D A,ANKERST M.Visual data mining and exploration of large databases[C]//PKDD.Freiburg,Germany,2001:104-109.
[3]BERTINI E,SANTUCCI G.Quality metrics for 2D scatterplot graphics:automatically reducing visual clutter[C]//Smart Graphics 4th International Symposium.Banff,Canada,2004:10-15.
[4]JOHANSSON J,COOPER M.A screen space quality method for data abstraction[J].Computer Graphics Forum,2008,27(3):1039-1046.
[5]BERTINI E,TATU A,KEIM D.Quality metrics in highdimensional data visualization:an overview and systematization[J].IEEE Trans on Visualization and Computer Graphics,2011,17(12):2203-2212.
[6]CUI Q,WARD M,RUNDENSTEINER E,et al.Measuring data abstraction quality in multiresolution visualizations[J].IEEE Trans on Visualization and Computer Graphics,2006,23(12):709-716.
[7]ALBUQUERQUE T A,EISEMANN G.Combining automated analysis and visualization techniques for effective exploration of high-dimensional data[C]//Proc IEEE Symp Visual Analytics Science and Technology.Atlantic City,USA,2009:59-66.
[8]ARTHUR D,VASSILVITSKII S.K-means++:the advantages of careful seeding[C]//Symposium on Discrete Algorithms.Philadelphia,USA,2007:1027-1035.
[9]FERDOSI B J,BERNOULLI J.Finding and visualizing relevant subspaces for clustering high-dimensional astronomical data using connected morphological operators[C]//IEEE Conf Visual Analytics Science and Technology.Salt Lake City,USA,2010:35-42.
[10]JOHANSSON S,JOHANSSON J.Interactive dimensionality reduction through user-defined combinations of quality metrics[J].IEEE Trans on Visualization and Computer Graphics,2009,15(6):993-1000.
[11]PENG W,WARD M O,RUNDENSTEINER E A.Clutter reduction in multi-dimensional data visualization using dimension reordering[C]//IEEE Symp Information Visualization.Austin,USA,2004:89-96.
[12]WILKINSON L,ANAND A,GROSSMAN R.Graph-theoretic scagnostics[C]//IEEE Symp Information Visualization.Chicago,USA,2005:157-164.
[13]SIPS M,NEUBERT B,LEWIS J P,et al.Selecting good views of high-dimensional data using class consistency[J].Computer Graphics Forum,2009,28(3):30-41.
[14]INSELBERG A.The plane with parallel coordinates[J].The Visual Computer,1985,1(2):69-91.
[15]HOFFMAN P E,GRINSTEIN G G,MARX K,et a1.DNA visual and analytic data mining[C]//IEEE Visualization Phoenix.Phoenix,USA,1997:437-441.
[16]MATRIX S.Scatter plot matrics[EB/OL].[2012-09-20].http://www.itl.nist.Gov/div898/hand book/eda/section3/eda33qb.html.
[17]ANDREWS D F.Plots of high-dimensional data[J].Biometrics,1972,28(1):125-136.
[18]KEIM D A,KRIEGEL H P.VisDB:database exploration using multidimensional visualization[J].Computer Graphics Applications,1994,14(5):40-49.
[19]HOFMAN P E.Table visualizations:a formal model and its applications[D].Lowell,USA:University of Massachusetts,1999:25.
[20]WARD M O,LEBLANC J,TIPNIS R.N-Land:a graphical tool for exploring n-dimensional data[C]//Computer Graphics International Conference.Melbourne,Australia,1994:1-14.
[21]FEINER S,BESHERS C.Worlds within worlds:metaphors for exploring n-dimensional virtual worlds[C]//ACM Proceedings Conference on User Interface Software Design.New York,USA,1990:76-83.
[22]LOHNINGER H.INSPECT,a program system to visualize and interpret chemical data[J].Chemometrics and Intelligent Laboratory Systems,1994,22(1):147-153.
[23]WARD M O.“Xmdvtool”[EB/OL].[2012-09-23].Xmdv Users Group.http://davis.wpi.edu/xmdv/datasets.html.