魏世超,李 歆,張宜弛,周曉鋒,李 帥
1.中國(guó)科學(xué)院 沈陽(yáng)自動(dòng)化研究所,沈陽(yáng)110016
2.中國(guó)科學(xué)院大學(xué),北京100049
3.中國(guó)科學(xué)院 網(wǎng)絡(luò)化控制系統(tǒng)重點(diǎn)實(shí)驗(yàn)室,沈陽(yáng)110016
4.中國(guó)科學(xué)院 機(jī)器人與智能制造創(chuàng)新研究院,沈陽(yáng)110016
現(xiàn)實(shí)生活中的大量數(shù)據(jù)通常包含可能對(duì)決策者有用的隱藏模式,但這些數(shù)據(jù)通常維度較高。例如,在入侵檢測(cè)、欺詐檢測(cè)、醫(yī)療分析領(lǐng)域[1]的數(shù)據(jù),通常包含數(shù)百維。模式識(shí)別、圖像處理[2]領(lǐng)域的數(shù)據(jù)通常包含上千個(gè)特征。現(xiàn)實(shí)數(shù)據(jù)高維特性的存在帶來(lái)了計(jì)算成本增加、維度災(zāi)難[3]等問(wèn)題,不利于對(duì)數(shù)據(jù)的理解分析。解決數(shù)據(jù)高維特性問(wèn)題的一種方法是降維,即尋求減少數(shù)據(jù)特征數(shù)量的技術(shù)。
眾多研究者提出了多種降維技術(shù)。一種是基于特征選擇的方法,根據(jù)一些標(biāo)準(zhǔn)選擇原始特征的子集[4]。Danubianu 等人[5]提出了一種應(yīng)用相關(guān)性的篩選器來(lái)尋找相關(guān)特征的特征選擇方法。另一種降維技術(shù)是基于特征變換的方法,通過(guò)指定的變換函數(shù)將高維數(shù)據(jù)映射到低維空間。與特征選擇方法不同,生成的特征集不是原始特征的子集,而是根據(jù)原始特征新創(chuàng)建的。目前基于特征變換的降維方法主要有主成分分析(PCA)[6]、局部線性嵌入(LLE)[7]、等距映射(Isomap)[8]、局部切空間排列(LTSA)[9]、隨機(jī)近鄰嵌入(t-SNE)[10]、拉普拉斯特征映射(LE)[11]等。這些方法已經(jīng)被應(yīng)用于多個(gè)領(lǐng)域。Jamieson等人[12]將拉普拉斯特征映射和t-SNE應(yīng)用于計(jì)算機(jī)提取的乳腺癌特征空間中,對(duì)醫(yī)學(xué)圖像映射進(jìn)行分類和可視化檢查。Garces等人[13]運(yùn)用t-SNE將不同風(fēng)格的剪切畫可視化。Liu等人[14]采用LLE對(duì)腫瘤基因表達(dá)數(shù)據(jù)進(jìn)行降維。
以往研究的不足之處在于研究都是在數(shù)值數(shù)據(jù)的背景下進(jìn)行的。然而大多數(shù)真實(shí)世界的數(shù)據(jù)集同時(shí)包含分類屬性和數(shù)值屬性。例如,信用系統(tǒng)的數(shù)據(jù)包括年齡、年薪、儲(chǔ)蓄金額等數(shù)值屬性,以及教育背景、職業(yè)、婚姻狀況等分類屬性[15]。許多知識(shí)發(fā)現(xiàn)算法并不能處理混合類型數(shù)據(jù)。這些算法只分析數(shù)值或分類數(shù)據(jù),并通過(guò)將一種類型的數(shù)據(jù)轉(zhuǎn)換為另一種類型的數(shù)據(jù)來(lái)解決這一缺陷。對(duì)于只處理數(shù)值型數(shù)據(jù)的算法,獨(dú)熱編碼(One-Hot Encoding)是一種普遍采用的方法,它將每個(gè)分類值轉(zhuǎn)換為二進(jìn)制向量。然而這種方法有幾個(gè)顯著的缺點(diǎn)。首先,轉(zhuǎn)換后的數(shù)據(jù)增加了維度,計(jì)算成本也隨之增加,其次將分類屬性轉(zhuǎn)換為二進(jìn)制向量,未考慮屬性間的相互關(guān)系,造成數(shù)據(jù)語(yǔ)義丟失,影響后續(xù)的分類聚類等算法的精度和性能。
本文主要針對(duì)t-SNE 算法不能處理混合數(shù)據(jù)的缺點(diǎn),提出一種E-t-SNE 算法擴(kuò)展其對(duì)混合屬性數(shù)據(jù)的處理能力。該算法引入信息熵的概念,考慮不同分類屬性值對(duì)距離計(jì)算過(guò)程中不同的貢獻(xiàn)程度,然后采用與數(shù)值屬性加權(quán)結(jié)合的方式,構(gòu)造混合屬性數(shù)據(jù)的距離矩陣。為了驗(yàn)證該算法處理混合屬性數(shù)據(jù)的有效性,采用k 近鄰(kNN,k-Nearest Neighbor)[16]分類算法驗(yàn)證降維后數(shù)據(jù)的分類精度優(yōu)于其他距離度量方案。此外,將混合屬性數(shù)據(jù)投影到低維空間進(jìn)行可視化,證明了該算法對(duì)混合數(shù)據(jù)集的可視化展示更符合人們對(duì)數(shù)據(jù)的直觀理解。
高維數(shù)據(jù)降維可視化處理是將維數(shù)大于3 的數(shù)據(jù)轉(zhuǎn)換為2 維或者3 維,降維后的數(shù)據(jù)能夠在低維空間可視化展示并可以用于后續(xù)的機(jī)器學(xué)習(xí)算法。Hinton 及Roweis[17]于2002 年提出了一種隨機(jī)近鄰嵌入(SNE)降維方法。由于SNE 方法的價(jià)值方程優(yōu)化困難并且存在低維數(shù)據(jù)擁擠問(wèn)題,因此Maaten 及Hinton 于2008 年在SNE 的基礎(chǔ)上提出基于t 分布的隨機(jī)近鄰嵌入方法(t-SNE)。t-SNE的思想是在低維空間中采用重尾t分布構(gòu)造一個(gè)概率分布,使其在高維空間中構(gòu)造的概率分布相似。在概率分布中,相似的數(shù)據(jù)點(diǎn)被選中的概率較高,不相似的數(shù)據(jù)點(diǎn)被選中的概率較低。高維空間中,點(diǎn)j相對(duì)于點(diǎn)i的概率分布定義為:
其中,σ 是以xi為中心的高斯函數(shù)的方差,由二進(jìn)制搜索算法確定。設(shè)高維空間中的聯(lián)合概率pij為對(duì)稱條件概率,即
其中,n是數(shù)據(jù)點(diǎn)的個(gè)數(shù)。對(duì)于高維數(shù)據(jù)xi和xj在低維空間中的映射yi和yj,采用自由度為1 的t 分布表示低維聯(lián)合概率分布,即
為保證低維空間映射點(diǎn)之間的聯(lián)合概率分布qij較好地模擬高維空間數(shù)據(jù)點(diǎn)之間的聯(lián)合概率分布pij,采用梯度下降法最小化所有數(shù)據(jù)點(diǎn)的KL 散度(Kullback-Leibler divergences)得到低維空間最佳模擬點(diǎn)。目標(biāo)函數(shù)C 和梯度下降法優(yōu)化的定義如下:
為了加速優(yōu)化過(guò)程,避免陷入較差的局部最小值,在梯度中加入一個(gè)動(dòng)量項(xiàng):
獨(dú)熱編碼(One-Hot Encoding)是機(jī)器學(xué)習(xí)算法中處理分類屬性數(shù)據(jù)的常用方法。由于很多現(xiàn)實(shí)世界中的數(shù)據(jù)集不總是連續(xù)的數(shù)值型數(shù)據(jù),在應(yīng)用回歸、分類、聚類等機(jī)器學(xué)習(xí)算法時(shí),數(shù)據(jù)集中包含的分類型數(shù)據(jù)無(wú)法直接進(jìn)行距離和相似度計(jì)算。獨(dú)熱編碼將具有k 個(gè)不同值域的分類屬性轉(zhuǎn)換為一組k 個(gè)二進(jìn)制屬性,每個(gè)二進(jìn)制屬性都對(duì)應(yīng)于k個(gè)分類值中的一個(gè)。
然而這種對(duì)分類屬性數(shù)據(jù)的處理方式缺點(diǎn)顯著。首先轉(zhuǎn)換后的數(shù)據(jù)大大增加了數(shù)據(jù)維度,計(jì)算成本增加。其次,將分類屬性轉(zhuǎn)換為二進(jìn)制向量,未考慮屬性間的相互關(guān)系,造成數(shù)據(jù)語(yǔ)義丟失,影響后續(xù)的分類聚類等算法的精度和性能。
k 近鄰(kNN,k-Nearest Neighbor)分類算法是最常用的分類算法之一,被應(yīng)用于數(shù)據(jù)挖掘、模式識(shí)別等多個(gè)領(lǐng)域。算法采用k 個(gè)最近鄰居的類標(biāo)簽來(lái)確定未知點(diǎn)的類標(biāo)簽,即k 個(gè)最近鄰文本中大多數(shù)屬于某個(gè)類別,則樣本也屬于這個(gè)類別,故k 值的選取至關(guān)重要。如果k 值偏小,會(huì)提高噪聲的干擾;如果k 值偏大,并且測(cè)試樣本中屬于訓(xùn)練集中包含數(shù)據(jù)較少的類,則會(huì)增加噪聲,降低分類準(zhǔn)確性。
觀察式(1)可以發(fā)現(xiàn),t-SNE算法將高維數(shù)據(jù)點(diǎn)間的歐式距離轉(zhuǎn)換為表示相似性的條件概率[18],常用的空間距離計(jì)算方法歐式距離并不適合處理分類型數(shù)據(jù)。本文采用一種新的距離計(jì)算方法,分別構(gòu)建數(shù)值型數(shù)據(jù)的距離矩陣和分類型數(shù)據(jù)距離矩陣,然后將兩個(gè)矩陣融合得到混合數(shù)據(jù)的距離矩陣,輸入t-SNE 算法進(jìn)行降維并可視化。
關(guān)于混合屬性數(shù)據(jù)的公式符號(hào)描述如下[19]:X={ x1, x2,…,xn} 表示N 個(gè)混合數(shù)據(jù)對(duì)象的數(shù)據(jù)集,對(duì)于 每 一 個(gè) xi(1 ≤i ≤n),混 合 型 數(shù) 據(jù) 集 xi代 表M(M=Mn+Mc)個(gè)屬性其中表示Mn個(gè)數(shù)值型數(shù)據(jù),表示Mc個(gè)分類型數(shù)據(jù)。表示數(shù)值部分的第k 個(gè)屬性,表示分類部分的第k 個(gè)屬性。第k 列分類屬性的定義域表示為表示分類屬性的個(gè)數(shù)。
3.1.1 數(shù)值型數(shù)據(jù)的距離矩陣
D(n)是一個(gè)n×n(n=N)的矩陣,對(duì)角線上元素全是0,表示數(shù)據(jù)點(diǎn)自身與自身的距離,表示和之間的距離,
3.1.2 分類型數(shù)據(jù)的距離矩陣
傳統(tǒng)的定義分類屬性數(shù)據(jù)之間距離的方式是建立在每個(gè)分類屬性權(quán)重相同的情況下,數(shù)據(jù)相同距離為0,不同距離為1。本文表示為公式如下:
這種定義分類屬性數(shù)據(jù)的方法忽略了不同分布的不同屬性值對(duì)距離計(jì)算時(shí)貢獻(xiàn)度的差異。因此,為了考慮貢獻(xiàn)度的差異,為分類屬性加入權(quán)重wk,公式(9)可修改為:
顯然wk是分類屬性的權(quán)重,它表示對(duì)分類屬性距離計(jì)算時(shí)的貢獻(xiàn)程度。這里
然后討論每個(gè)分類屬性權(quán)重wk的計(jì)算方式,本文引入信息熵的概念計(jì)算權(quán)重[20]。由信息熵的性質(zhì)可知,信息熵可以作為一個(gè)系統(tǒng)復(fù)雜程度的度量,如果系統(tǒng)越復(fù)雜,出現(xiàn)不同情況的種類越多,那么他的信息熵就越大,反之一個(gè)系統(tǒng)越簡(jiǎn)單,出現(xiàn)情況種類越少,信息熵越小。同理,如果數(shù)據(jù)集中分類型數(shù)據(jù)的定義域中ak,t種類越多,分布越不均勻,則的信息熵越大,即對(duì)距離的計(jì)算貢獻(xiàn)程度越高,權(quán)重越大。因此的信息熵可表示為:
這里p(ak,t)是分類屬性中ak,t的概率:
其中,rk為中分類值的數(shù)量。因此,數(shù)據(jù)集中分類屬性對(duì)距離計(jì)算時(shí)貢獻(xiàn)程度可用權(quán)重wk表示:
將式(14)代入式(10)中,得到分類屬性數(shù)據(jù)的距離計(jì)算公式:
2.依規(guī)處理國(guó)際稅收協(xié)定與國(guó)內(nèi)稅法的對(duì)接關(guān)系。雙邊或多邊稅收協(xié)定屬于國(guó)際法的范疇。雙邊稅收協(xié)定是由締約國(guó)雙方政府談判后達(dá)成的,經(jīng)過(guò)各自國(guó)家的立法程序后生效的,因此對(duì)于締約國(guó)政府具有法律上的約束力。
D(c)是一個(gè)n×n(n=N)的矩陣,對(duì)角線上元素全是0,表示數(shù)據(jù)點(diǎn)自身與自身的距離表示和之間的距離,
3.1.3 混合型數(shù)據(jù)的距離矩陣
根據(jù)以上內(nèi)容可以發(fā)現(xiàn),對(duì)于混合型數(shù)據(jù)集的距離計(jì)算采用數(shù)值型和分類型分別計(jì)算的方法。數(shù)值型數(shù)據(jù)點(diǎn)直接采用歐式距離進(jìn)行度量,分類型數(shù)據(jù)點(diǎn)引入信息熵的概念,將不同分類屬性對(duì)距離計(jì)算的貢獻(xiàn)程度量化成權(quán)重,用權(quán)重與分類值之間距離相乘的方法構(gòu)造出分類屬性數(shù)據(jù)點(diǎn)之間的距離。
最后將計(jì)算出來(lái)的數(shù)值型數(shù)據(jù)點(diǎn)之間的距離與分類型數(shù)據(jù)點(diǎn)之間的距離相加,得到混合屬性數(shù)據(jù)點(diǎn)之間的距離dij(xi,xj),表示為:
E-t-SNE算法流程如圖1所示。
圖1 E-t-SNE算法流程
E-t-SNE 算法描述如下所示,其中迭代次數(shù)T 太小容易導(dǎo)致優(yōu)化過(guò)程不完全,太大增加算法執(zhí)行時(shí)間,本文設(shè)置為1 000;較大的動(dòng)量項(xiàng)可以使優(yōu)化過(guò)程避免陷入較差的局部最優(yōu),根據(jù)經(jīng)驗(yàn),當(dāng)?shù)螖?shù)T <250 時(shí),動(dòng)量項(xiàng)α(T)=0.5,當(dāng)T ≥250時(shí),α(T)=0.8;學(xué)習(xí)率η初值為100,每次迭代結(jié)束根據(jù)自適應(yīng)學(xué)習(xí)率機(jī)制進(jìn)行更新;維數(shù)m 設(shè)置為2[21]。
算法1E-t-SNE算法
(1)分別根據(jù)式(7)和式(15)構(gòu)建數(shù)值型數(shù)據(jù)距離矩陣D(n)和分類型數(shù)據(jù)距離矩陣D(c);根據(jù)公式(17)構(gòu)建混合數(shù)據(jù)距離矩陣D;
(2)分別根據(jù)式(1)和(2)計(jì)算pj|i和pij;
(3)初始解Y(0)={ y1, y2,…,yn} 采樣與正態(tài)分N(0,10-4I)
(4)for t=1 to T
①根據(jù)式(3)計(jì)算qij;
②根據(jù)式(5)計(jì)算梯度;
③根據(jù)式(6)計(jì)算Y(t);
(5)得到低維數(shù)據(jù)表示Y(T)={ y1, y2,…,yn}。
輸出:混合數(shù)據(jù)集在低維空間的數(shù)據(jù)表示。
為了驗(yàn)證E-t-SNE 算法的有效性,本文選用UCI 機(jī)器學(xué)習(xí)知識(shí)庫(kù)中的4個(gè)真實(shí)混合數(shù)據(jù)集:Credit Approval、Australian Credit Approval、Heart、Adult。數(shù)據(jù)集Credit Approval 包含2 個(gè)類,6 個(gè)數(shù)值屬性和8 個(gè)分類屬性,共653條數(shù)據(jù);數(shù)據(jù)集Australian Credit Approval包含2個(gè)類,6個(gè)數(shù)值屬性和9個(gè)分類屬性,共690條數(shù)據(jù);數(shù)據(jù)集Heart 包含2 個(gè)類,7 個(gè)數(shù)值屬性和6 個(gè)分類屬性,共270條數(shù)據(jù);數(shù)據(jù)集Adult包含2個(gè)類,3個(gè)數(shù)值屬性和3個(gè)分類屬性,共1 100 條數(shù)據(jù)。表1 列出了4 個(gè)數(shù)據(jù)集數(shù)據(jù)量,數(shù)值屬性個(gè)數(shù),分類屬性個(gè)數(shù)以及類的個(gè)數(shù)。
表1 混合型數(shù)據(jù)集的詳細(xì)信息
為了評(píng)價(jià)E-t-SNE 算法的性能,本文使用了4 個(gè)真實(shí)混合數(shù)據(jù)集。由于不知道數(shù)據(jù)在高維空間中的結(jié)構(gòu),所以無(wú)法通過(guò)對(duì)比高維和低維空間投影映射的方法來(lái)直接的評(píng)估性能。E-t-SNE算法本身是一種混合數(shù)據(jù)降維可視化算法,按照理論,降維以后的數(shù)據(jù)應(yīng)該保留了原始高維空間中數(shù)據(jù)集的分類特征。因此,可以對(duì)混合數(shù)據(jù)集降維之后的數(shù)據(jù)進(jìn)行評(píng)價(jià),驗(yàn)證此降維可視化算法對(duì)后續(xù)數(shù)據(jù)分析的影響。本文采用k 近鄰(kNN)分類算法,將降維以后的數(shù)據(jù)中80%用做訓(xùn)練集,20%做測(cè)試集,通過(guò)對(duì)測(cè)試數(shù)據(jù)分類準(zhǔn)確度的比較,對(duì)本文E-t-SNE 算法和獨(dú)熱編碼方式、余弦距離度量方法進(jìn)行了評(píng)價(jià)。
為驗(yàn)證E-t-SNE 算法的有效性,本文采用多種距離計(jì)算方法構(gòu)建混合數(shù)據(jù)集的距離矩陣,并與本文算法對(duì)比。其中獨(dú)熱編碼方式是將分類屬性轉(zhuǎn)換為k 個(gè)二進(jìn)制屬性構(gòu)建距離矩陣;余弦距離方法是將混合屬性數(shù)據(jù)轉(zhuǎn)換為向量,通過(guò)計(jì)算向量間夾角的余弦值構(gòu)建距離矩陣。原始的t-SNE 算法不能直接處理混合數(shù)據(jù)集,但是本文將混合數(shù)據(jù)集不做處理直接輸入t-SNE 算法,作為對(duì)比降維以后分類準(zhǔn)確率的基準(zhǔn),以凸顯本文算法的有效性。
文獻(xiàn)[10]指出,t-SNE 算法的性能對(duì)困惑度Perp 變化較為敏感。根據(jù)Perp 的定義,若Perp 太小,則低維嵌入點(diǎn)孤立,看不到低維空間中的聚簇效果;若Perp太大,則所有低維嵌入點(diǎn)聚集成一個(gè)簇,無(wú)法辨析數(shù)據(jù)的真實(shí)結(jié)構(gòu)。因此,本文以代價(jià)函數(shù)KL(P||Q)的值在0.05~0.35之間為依據(jù),經(jīng)過(guò)多次實(shí)驗(yàn),對(duì)4個(gè)混合數(shù)據(jù)集Credit Approval、Australian Credit Approval、Heart、Adult 的困惑度Perp分別設(shè)定為50、50、20、100。
文獻(xiàn)[16]指出,kNN分類算法中k 的選擇至關(guān)重要,為避免k 值選取不當(dāng)對(duì)實(shí)驗(yàn)結(jié)果準(zhǔn)確新造成的干擾,本文選取多個(gè)k 值作為參數(shù),每個(gè)k 值分別進(jìn)行5次實(shí)驗(yàn)取平均值。
從表2可以看出,k 取不同值時(shí),算法t-SNE、余弦距離、One-Hot 編碼、E-t-SNE 在Credit Approval 數(shù)據(jù)集上的分類準(zhǔn)確率分別是0.682 0、0.746 9、0.814 2、0.861 3。通過(guò)比較可以發(fā)現(xiàn),E-t-SNE 比其他3 種算法在準(zhǔn)確率上分別提高了17.93%、11.44%、4.71%。因此E-t-SNE 算法性能更好。
表2 Credit Approval數(shù)據(jù)集實(shí)驗(yàn)結(jié)果
為了更加直觀地反應(yīng)降維以后的數(shù)據(jù)分布情況,證明E-t-SNE 算法在可視化方面的優(yōu)勢(shì),本文結(jié)合低維空間可視化視圖作為一種最直觀的評(píng)價(jià)方法。
圖2 展示了Credit Approval 數(shù)據(jù)集在低維空間中的映射視圖(類標(biāo)簽只用于染色,不同的顏色表示不同的類)。其中(a)采用獨(dú)熱編碼方式計(jì)算混合數(shù)據(jù)集數(shù)據(jù)點(diǎn)之間的距離降維后得到的視圖;(b)采用余弦距離方式計(jì)算混合數(shù)據(jù)集數(shù)據(jù)點(diǎn)之間的距離降維后得到的視圖;圖(c)采用E-t-SNE算法處理混合數(shù)據(jù)集降維后得到的視圖。通過(guò)觀察圖2 可以發(fā)現(xiàn),(a)和(b)中兩個(gè)類的數(shù)據(jù)點(diǎn)混淆在一起,沒(méi)有很好的分離,在低維空間中不能明顯地發(fā)現(xiàn)數(shù)據(jù)集的類別情況;而(c)則可以直觀的發(fā)現(xiàn)數(shù)據(jù)集中存在兩個(gè)類。
圖2 Credit Approval數(shù)據(jù)集二維空間可視化
從表3 可以看出,k 取不同值時(shí),算法t-SNE、余弦距離、One-Hot編碼、E-t-SNE在Australian Credit Approval數(shù)據(jù)集上的分類準(zhǔn)確率分別是0.702 8、0.717 5、0.800 6、0.844 2。通過(guò)比較可以發(fā)現(xiàn),E-t-SNE 比其他三種算法在準(zhǔn)確率上分別提高了14.14%、12.67%、4.36%。因此E-t-SNE算法性能更好。
表3 Australian Credit Approval數(shù)據(jù)集實(shí)驗(yàn)結(jié)果
圖3 展示了Australian Credit Approval 數(shù)據(jù)集在低維空間中的映射視圖。其中(a)采用獨(dú)熱編碼方式計(jì)算混合數(shù)據(jù)集數(shù)據(jù)點(diǎn)之間的距離降維后得到的視圖;(b)采用余弦距離方式計(jì)算混合數(shù)據(jù)集數(shù)據(jù)點(diǎn)之間的距離降維后得到的視圖;圖(c)采用E-t-SNE算法處理混合數(shù)據(jù)集降維后得到的視圖。通過(guò)觀察圖3 可以發(fā)現(xiàn),(a)中兩個(gè)類的數(shù)據(jù)點(diǎn)混淆在一起;(b)中數(shù)據(jù)點(diǎn)分布松散無(wú)明顯規(guī)律;(c)中兩個(gè)類別區(qū)分明顯。
圖3 Australian Credit Approval數(shù)據(jù)集二維空間可視化
從表4可以看出,k 取不同值時(shí),算法t-SNE、余弦距離、One-Hot 編碼、E-t-SNE 在Heart 數(shù)據(jù)集上的分類準(zhǔn)確率分別是0.678 6、0.689 6、0.756 0、0.795 8。通過(guò)比較可以發(fā)現(xiàn),E-t-SNE 比其他兩種算法在準(zhǔn)確率上分別提高了11.72%、10.62%、7.74%。因此E-t-SNE算法性能更好。
表4 Heart數(shù)據(jù)集實(shí)驗(yàn)結(jié)果
圖4 展示了Heart 數(shù)據(jù)集在低維空間中的映射視圖。其中(a)采用獨(dú)熱編碼方式計(jì)算混合數(shù)據(jù)集數(shù)據(jù)點(diǎn)之間的距離降維后得到的視圖;(b)采用余弦距離方式計(jì)算混合數(shù)據(jù)集數(shù)據(jù)點(diǎn)之間的距離降維后得到的視圖;圖(c)采用E-t-SNE 算法處理混合數(shù)據(jù)集降維后得到的視圖。通過(guò)觀察圖4 可以發(fā)現(xiàn),(a)中兩個(gè)類的數(shù)據(jù)點(diǎn)分散,很難發(fā)現(xiàn)數(shù)據(jù)集中的隱藏模式。(b)中可以大體發(fā)現(xiàn)有兩個(gè)類別,但類內(nèi)數(shù)據(jù)點(diǎn)沒(méi)有很好地區(qū)分;(c)中兩個(gè)類之間區(qū)分明顯。
圖4 Heart數(shù)據(jù)集二維空間可視化視圖
從表5可以看出,k 取不同值時(shí),算法t-SNE、余弦距離、One-Hot 編碼、E-t-SNE 在Adult 數(shù)據(jù)集上的分類準(zhǔn)確率分別是0.737 0、0.740 8、0.753 4、0.791 0。通過(guò)比較可以發(fā)現(xiàn),E-t-SNE 比其他兩種算法在準(zhǔn)確率上分別提高了5.40%、4.93%、3.76%。因此E-t-SNE 算法性能更好。
表5 Adult數(shù)據(jù)集實(shí)驗(yàn)結(jié)果
圖5 展示了Adult 數(shù)據(jù)集在低維空間中的映射視圖。其中(a)采用獨(dú)熱編碼方式計(jì)算混合數(shù)據(jù)集數(shù)據(jù)點(diǎn)之間的距離降維后得到的視圖;(b)采用余弦距離方式計(jì)算混合數(shù)據(jù)集數(shù)據(jù)點(diǎn)之間的距離降維后得到的視圖;圖(c)采用E-t-SNE 算法處理混合數(shù)據(jù)集降維后得到的視圖。通過(guò)觀察圖5 可以發(fā)現(xiàn),(a)、(b)兩個(gè)類的數(shù)據(jù)點(diǎn)混淆在一起,不能很好地區(qū)分類與類之間的關(guān)系。(c)中兩個(gè)類之間雖有混淆重疊,但類間區(qū)分明顯。
圖5 Adult數(shù)據(jù)集二維空間可視化
圖6 匯總了E-t-SNE 算法和對(duì)比算法在4 個(gè)UCI 數(shù)據(jù)集上的分類準(zhǔn)確度。由圖6 可以看出,將選取的4 個(gè)混合屬性數(shù)據(jù)集用不同的距離度量方法降維到二維平面后,用kNN 做分類處理,E-t-SNE 算法具有較高的分類準(zhǔn)確性。
圖6 E-t-SNE算法與其他算法分類準(zhǔn)確率對(duì)比
以上實(shí)驗(yàn)證明了E-t-SNE 算法在對(duì)混合數(shù)據(jù)降維方面有更大的優(yōu)勢(shì)。由于引入了信息熵概念,考慮了不同的分類型屬性對(duì)距離計(jì)算時(shí)的不同貢獻(xiàn)度,使得降維以后的數(shù)據(jù)更多地保留了數(shù)據(jù)在高維空間的結(jié)構(gòu)分布,使其在后續(xù)的分類算法中獲得了更高的準(zhǔn)確度。
本文總結(jié)了現(xiàn)有的降維可視化算法的原理及特點(diǎn),指出它們不能有效地處理混合屬性數(shù)據(jù)的缺點(diǎn)。在t-SNE 算法的基礎(chǔ)上提出了一種擴(kuò)展的E-t-SNE 算法,使其能處理混合型數(shù)據(jù)集。該方法引入信息熵的概念度量混合屬性數(shù)據(jù)點(diǎn)之間的距離,相比于傳統(tǒng)的將分類型數(shù)據(jù)轉(zhuǎn)換成0/1的獨(dú)熱編碼方式和將分類型數(shù)據(jù)轉(zhuǎn)換成向量的余弦距離計(jì)算方法,該方法既能處理混合型數(shù)據(jù),又不增加數(shù)據(jù)維度,并且將不同類標(biāo)簽的數(shù)據(jù)映射到低維空間,有利于更好地理解和發(fā)現(xiàn)高維空間數(shù)據(jù)的結(jié)構(gòu)。通過(guò)實(shí)驗(yàn)發(fā)現(xiàn),經(jīng)過(guò)E-t-SNE 降維后的混合類型數(shù)據(jù)集,在后續(xù)的數(shù)據(jù)分析算法中表現(xiàn)出比獨(dú)熱編碼方式更高的準(zhǔn)確率,證明了E-t-SNE算法的有效性。
E-t-SNE算法能有效地對(duì)混合類型數(shù)據(jù)集進(jìn)行降維可視化操作。但并沒(méi)有考慮算法的復(fù)雜度和執(zhí)行時(shí)間問(wèn)題。當(dāng)數(shù)據(jù)量太大時(shí),復(fù)雜的矩陣運(yùn)算會(huì)占用大量?jī)?nèi)存和消耗大量的時(shí)間。在后續(xù)的研究工作中,將考慮算法的復(fù)雜度問(wèn)題,優(yōu)化求解過(guò)程,縮短求解時(shí)間。