陸慧娟,劉亞卿,孟亞瓊,關(guān) 偉,劉硯秋
1.中國計量大學(xué) 信息工程學(xué)院,杭州 310018
2.中國計量大學(xué) 現(xiàn)代科技學(xué)院,杭州 310018
面向基因數(shù)據(jù)分類的核主成分分析旋轉(zhuǎn)森林算法*
陸慧娟1+,劉亞卿1,孟亞瓊1,關(guān) 偉2,劉硯秋1
1.中國計量大學(xué) 信息工程學(xué)院,杭州 310018
2.中國計量大學(xué) 現(xiàn)代科技學(xué)院,杭州 310018
Abstract:Rotation forest(RoF)algorithm is an ensemble classification algorithm using linear analysis theory and decision trees.The rotation forest achieves higher classification accuracy and superior performance with less number of classifiers.However,the classification accuracy decreases for gene expression data with linearly inseparable cases.To address this issue,this paper proposes a rotation forest algorithm based on kernel principal component analysis(KPCA-RoF),chooses the Gaussian kernel function and principal component analysis to implement the nonlinear mapping and deal with differences in gene data.The proposed algorithm focuses on the optimization of parameters,and uses decision tree algorithm for ensemble learning.Experiments show that the new algorithm well addresses the linearly inseparabal issue and improves the classification accuracy.
Key words:kernel function;principal component analysis;decision tree;rotation forest;gene data classification
旋轉(zhuǎn)森林(rotation forest,RoF)是一種運用線性分析理論和決策樹的集成分類算法,在分類器個數(shù)較少的情況下仍可以取得良好的結(jié)果,同時能保證集成分類的準確性。但對于部分基因數(shù)據(jù)集,存在線性不可分的情況,原始的算法分類效果不佳。提出了一種運用核主成分分析變換的旋轉(zhuǎn)森林算法(rotation forest algorithm based on kernel principal component analysis,KPCA-RoF),選擇高斯徑向基核函數(shù)和主成分分析的方法對基因數(shù)據(jù)集進行非線性映射和差異性變化,著重于參數(shù)的選擇問題,再利用決策樹算法進行集成學(xué)習(xí)。實驗證明,改進后的算法能很好地解決數(shù)據(jù)線性不可分的情形,同時也提高了基因數(shù)據(jù)集上的分類精度。
核函數(shù);主成分分析;決策樹;旋轉(zhuǎn)森林;基因數(shù)據(jù)分類
癌癥是嚴重威脅人類健康的一大疾病,已經(jīng)成為我國主要的公共衛(wèi)生問題之一。目前癌癥的發(fā)病率和死亡率一直呈上升趨勢,因此預(yù)防和治療癌癥是全世界關(guān)注的焦點問題[1]。然而,人類肌體從癌變的發(fā)生,到有明顯癥狀的出現(xiàn),要經(jīng)過一個較長的潛伏期,如果在此期間能夠及時發(fā)現(xiàn),并且進行有效的干預(yù),就可以將腫瘤控制或扼殺在萌芽狀態(tài)。依靠基因表達數(shù)據(jù)進行腫瘤診斷分類是目前比較熱門的一種分類方法,對于基因數(shù)據(jù)的分類問題,目前主要集中在分類精度、泛化能力、算法的復(fù)雜性和可理解性上。但是由于基因表達數(shù)據(jù)維數(shù)高、小樣本和非線性等特點,使得基因表達數(shù)據(jù)的分析遇到一定的困難。且對于部分基因數(shù)據(jù)集,存在線性不可分的情況,原始的旋轉(zhuǎn)森林(rotation forest,RoF)算法在對線性不可分的基因數(shù)據(jù)集進行分類時容易出現(xiàn)分類精度低,耗時長等問題。對樣本數(shù)據(jù)的篩選、特征選擇、降維、數(shù)據(jù)分類等都是當前數(shù)據(jù)挖掘和機器學(xué)習(xí)中的研究熱點,清楚差異基因的功能和對其進行干預(yù)而引起的結(jié)果,并最終可以根據(jù)獲得的信息進行診斷和治療[2]。
旋轉(zhuǎn)森林[3]是于2006年提出的一種分類器集成系統(tǒng),其基本思想建立在隨機森林算法基礎(chǔ)上。旋轉(zhuǎn)森林把原特征空間分割成若干子集,之后對每個子集分別進行某種線性變換。如主成分分析(principal components analysis,PCA),保留所有主成分的情況下,將得到的變換分量分別按照這些子集原來對應(yīng)的順序合并,這樣每次隨機分割后得到的數(shù)據(jù)集都被投影到不同坐標空間中,從而形成差別較大的分量子集,用這些分量自己訓(xùn)練分類器,能夠得到差異較大且分類性能較高的基分類器,以提高集成分類的性能。
毛莎莎等人[4]利用旋轉(zhuǎn)森林集成方式,集成了兩種不同的模型,充分利用兩種模型各自的優(yōu)勢,為形成異構(gòu)算法集成提供了啟示。Mousavi等人[5]結(jié)合了旋轉(zhuǎn)森林和集成剪枝兩種方法,并提出了EP-RTF(ensemble pruning and rotation forest)算法。首先通過遺傳算法選擇異構(gòu)的分類器子集,其次運用旋轉(zhuǎn)森林方法進行訓(xùn)練,參數(shù)由遺傳算法進行優(yōu)化,并使用加權(quán)投票的方式得出最終結(jié)果。Wong等人[6]將旋轉(zhuǎn)森林分類器和LPQ(local phase quantization)算法相結(jié)合,驗證了旋轉(zhuǎn)森林和支持向量機分類器的良好性能,同時也為未來的蛋白質(zhì)研究提供了理論基礎(chǔ)。不過從目前的文獻來看,對旋轉(zhuǎn)森林算法的研究和應(yīng)用依然不多,有很多地方值得進一步深入探討。
本文提出了一種運用核主成分分析變換的旋轉(zhuǎn)森林算法(rotation forest algorithm based on kernerl principal component analysis,KPCA-RoF)。利用核主成分分析的方法進行數(shù)據(jù)的非線性映射和差異性變換,并選擇合適的參數(shù),利用決策樹算法進行集成學(xué)習(xí),形成核函數(shù)旋轉(zhuǎn)森林算法。實驗表明,核旋轉(zhuǎn)森林方法在同等集成度的條件下具有更高的分類精度,這在一定程度上可以解決基因數(shù)據(jù)線性不可分的情形。
對于任意一數(shù)據(jù)集T有以下關(guān)系:
其中,i=1,2,…,n,Rn表示n維空間。如果存在一個超平面S:
可以將兩類樣本完全分開,則稱數(shù)據(jù)集T為線性可分數(shù)據(jù)集。
一個數(shù)據(jù)集是否線性可分,取決于是否能找到一個超平面來分離兩個相鄰的類別。如果每個類別的分布范圍本身是全連通的單一凸集,且沒有重疊部分,則這兩個類別就是線性可分的。如果存在的多種模式可以用n維歐式空間的點分開,則可以在此空間中形成一個曲面把歸屬于不同模式的樣本點完全隔開,如支持向量機(support vector machine,SVM)[7]就可以很好地分類。線性不可分的現(xiàn)象,簡單來說就是一個數(shù)據(jù)集不可以通過一個線性分類器(直線、平面)來實現(xiàn)正確的分類。如圖1所示。
Fig.1 Linearly separable and linearly inseparable圖1 線性可分與線性不可分
對于線性不可分的情形,可以采用核函數(shù)映射的方式得到其特征空間,之后在此基礎(chǔ)上進一步操作。但是采用直接映射的方法在高維空間進行操作是不可行的,因為直接映射本身就存在著計算復(fù)雜等技術(shù)問題,且映射函數(shù)的形式和參數(shù)也不容易把握,借助核函數(shù)的方法可以間接地實現(xiàn)此種映射[8]。
以下列舉幾種常用的核函數(shù):
(1)線性核函數(shù)
(2)P階多項式核函數(shù)
(3)高斯徑向基核函數(shù)(radialbasisfunction,RBF)
將樣本集作為輸入,高維的特征空間作為輸入空間,許多的傳統(tǒng)線性分類算法就可以實現(xiàn)非線性分類,這是基于核的機器學(xué)習(xí)算法應(yīng)用的基礎(chǔ)。雖然其中的映射函數(shù)非常復(fù)雜甚至難以求出,但是可以通過核函數(shù)繞過此問題,使此方法變得容易應(yīng)用。高斯徑向基核函數(shù)由于更小的數(shù)值復(fù)雜度和較少的參數(shù),以及較強的代表性而成為核函數(shù)的首選方法[9],通過調(diào)整核函數(shù)參數(shù)的大小控制其過擬合的程度而得到合適的算法。
假設(shè)x1,x2,…,xm為訓(xùn)練樣本,xk∈RN用來表示其輸入空間。選定映射函數(shù)為Φ,其定義如下:
核函數(shù)通過映射關(guān)系Φ先實現(xiàn)輸入樣本點x到特征空間F的映射,F(xiàn)由Φ(x1),Φ(x2),…,Φ(xm)生成,中心化處理映射后的數(shù)據(jù),即:
則映射后特征空間的協(xié)方差矩陣為:
按照主成分分析的方式求解特征方程:
λ和V是屬于Φ(xi)的生成空間中的特征值和特征向量,因此:
并且存在參數(shù)αi,使得V可由Φ(xi)線性表示,即:
合并式(6)、(7),把映射后數(shù)據(jù)的相互內(nèi)積定義成一個m階的矩陣K,其元素根據(jù)選擇的核函數(shù)計算所得:
則可以得到與式(5)等價的公式:
其中,α=(α1,α2,…,αm)T,矩陣K就是以后所要用到的變換矩陣[10]。
求解K的特征值和特征向量。設(shè)K的特征值為λ1≤λ2≤ …≤λm,所對應(yīng)的特征向量為α1,α2,…,αm。
核函數(shù)方法可以按照模塊化的形式擴展機器學(xué)習(xí)算法,基于這一原理,選擇利用核主成分分析的方式實現(xiàn)樣本數(shù)據(jù)的變換,并形成差異性強的訓(xùn)練集,之后再參照旋轉(zhuǎn)森林算法以決策樹為基分類器,形成核主成分分析旋轉(zhuǎn)森林算法。算法描述如圖2所示。
Fig.2 Description of KPCA-RoF圖2 核主成分分析旋轉(zhuǎn)森林算法描述
(1)對一給定的n維樣本集,取除去類標的特征集部分為H,劃分為不相交的K份。
(2)設(shè)D1,D2,…,DL為要用于分類的基分類器。Hij表示Di分類器所使用訓(xùn)練集中對應(yīng)的第j個特征子集,其中1≤i≤L,1≤j≤K。對樣本集進行隨機抽樣m次,抽樣形成樣本子集Zi,并且m=n/k,Zij表示Hij所對應(yīng)的樣本子集。對Zij選擇某核函數(shù)進行核主成分分析,排列其特征向量產(chǎn)生一個新的系數(shù)矩陣Cij。
(3)重復(fù)上述步驟,對每個Zi通過核主成分分析的方式產(chǎn)生一個系數(shù)矩陣,共重復(fù)了K次。
(4)將上述產(chǎn)生的系數(shù)矩陣組合成一個巨大的稀疏矩陣,以此生成基分類器Di的旋轉(zhuǎn)矩陣Ri:
這樣分類器Di所使用的訓(xùn)練集則為ZRi。同樣在測試過程中,對于新樣本x,也要與旋轉(zhuǎn)矩陣相乘得到xRi再送入分類器,判定其類別的置信度為:
因為不同的核函數(shù)會對分類效果帶來較大的差異,不適當?shù)暮瘮?shù)形式或者參數(shù)甚至有可能達不到分類的效果。單獨對核函數(shù)進行評價,通過測算映射后數(shù)據(jù)的類內(nèi)聚集和類間離散程度來評估可分性的好壞[11]。這種方法獨立于具體的分類算法,也不考慮最后的泛化能力,因而適用性較強。本文采用高斯核函數(shù)改進旋轉(zhuǎn)森林算法,并關(guān)注于參數(shù)的選擇問題。
這里對參數(shù)的優(yōu)化選用特征類間距作為參考指標[12]。數(shù)據(jù)映射后在特征空間中的夾角和距離為:
用Di,j來表示兩個向量之間的距離,表示如下:
將具體的核函數(shù)代入式(12)和(13):
其中夾角滿足:
同理可得出:
從上述表達式可得,僅有一個參數(shù)影響類間距和夾角,從而影響特征空間的分布情況,進一步影響旋轉(zhuǎn)森林算法的分類效果。
當參數(shù)δ的值趨于0時,可以得出其夾角的余弦值趨于1,也即意味著映射后的兩向量夾角值趨于0;并且通過計算向量距離可知,向量的距離也趨于0,這意味著所有的樣本被映射到一點上了,這樣根本無法對樣本進行分類。當參數(shù)δ的值趨于無窮大時,兩向量夾角趨于π/2,樣本的距離趨于一個常數(shù),這說明樣本集被映射到一個n維的特征空間中,且可以發(fā)現(xiàn)特征向量是兩兩正交。因此特征空間的維數(shù)隨著δ的增大而單調(diào)增大,一直增加到n(n是樣本空間樣本的個數(shù));并且特征空間各向量之間的夾角以及距離也是單調(diào)增加的,分別趨于π/2和。
給定一個包含有L個樣本C個類別的訓(xùn)練集X,即:
計算樣本映射后在特征空間中的平均值:
則在映射后的空間中類間平均距離的表達式為:
在核空間中類間余弦值為:
在核空間中類內(nèi)余弦值為:
綜合式(19)、(20)、(21)可得:
通過上述表達式可知,類間距可以表述為類間角和類內(nèi)角的運算結(jié)果。當類內(nèi)角大,類間角小時,類間距較大;反之則類間距較小。而根據(jù)式(14)可知,類間角和類內(nèi)角均隨著δ的增大而增大,因此可能存在一個參數(shù)值,使得類間距最大。
本實驗主要選擇高斯徑向基核函數(shù)對樣本進行變換,對比指標主要有分類精度、集成度等。通過對核函數(shù)唯一的參數(shù)δ進行優(yōu)化[13],使之獲得較好的分類性能。
本實驗選定Breast(乳腺癌)、CNS(神經(jīng)系統(tǒng)腫瘤組織)、ALL(急性淋巴細胞白血病)3個數(shù)據(jù)集作為實驗對象,數(shù)據(jù)來源均可以從公開的站點下載,其下載網(wǎng)址為http://datam.i2r.a-star.edu.sg/datasets/krbd/。因為原始數(shù)據(jù)集的維數(shù)過高,不利于直接進行數(shù)據(jù)分類,所以先利用ReliefF算法[14]進行一定程度上的降維處理。ReliefF算法是一種帶有特征權(quán)重的選擇方法,這里對數(shù)據(jù)集隨機抽樣30次,特征閾值設(shè)為0.95,得出預(yù)處理后的數(shù)據(jù)集。按照上述方法通過實驗的手段取得各數(shù)據(jù)集的最佳參數(shù)。下面是有關(guān)的曲線δ-J(δ),δ的取值范圍為δ={10-5,10-4,…,105}。
圖3表示3組數(shù)據(jù)各自的參數(shù)值與其歸一化的類間距之間的關(guān)系,均采用30次實驗的平均值??梢钥闯?,在可觀測到的范圍內(nèi)[10-6,106],存在著極大值點,分別是0.9、0.9、0.8。則認為對于這3組數(shù)據(jù)集,最優(yōu)的參數(shù)值分別為δ1=δ2=0.9,δ3=0.8。
Fig.3 Parameter values and class separation distance圖3 參數(shù)值與類間距的關(guān)系
本文主要通過與Bagging算法[15]、隨機森林算法以及原始的旋轉(zhuǎn)森林算法進行比較實驗和分析,依次驗證改進后的旋轉(zhuǎn)森林算法的有效性。所有算法的基分類器都采用C4.5決策樹[16],主要控制的變量有集成度N和抽取的樣本個數(shù)M,每次均做到控制單一量的變化,分別取最好的結(jié)果進行對比實驗。實驗統(tǒng)計量為F檢驗,樣本方差為S2,樣本均值為Xˉ。
(1)高斯徑向基核旋轉(zhuǎn)森林(RBF-RoF)特征集分割數(shù)實驗。
表1在基于決策樹的集成數(shù)為30的情況下,不斷地改變各特征集的分割數(shù)后所得到的分類精度。保證基分類器的數(shù)目足夠多,這樣就可以使得每個實驗數(shù)據(jù)集充分集成。從實驗結(jié)果得到,在特征集分割數(shù)大于10時,分割數(shù)的改變對于提高旋轉(zhuǎn)森林的分類精度不會帶來很大的改善,這跟原始的旋轉(zhuǎn)森林實驗的結(jié)果類似。因此在后續(xù)的實驗中,沒必要再去增加特征集的分割數(shù),保持在5~10之間的任何一個值即可,這里選擇N=9。
Table 1 Classification accuracy and the number of feature set splitting表1 分類精度與特征集分割數(shù)之間的關(guān)系
表2展示了隨著集成度的上升,各數(shù)據(jù)集分類精度的變化。從結(jié)果可以得到,隨著集成度的上升,各數(shù)據(jù)集大約在集成度為15時獲得較好的精度,之后就幾乎穩(wěn)定下來。分別在每一個數(shù)據(jù)集上選用幾種集成算法,實驗變量為集成度,驗證不同集成算法所帶來的分類效果。
Table 2 Classification accuracy and integration level表2 分類精度與集成度之間的關(guān)系
圖4~圖6分別展示了各數(shù)據(jù)集在不同分類算法下的分類精度,對比結(jié)果可以發(fā)現(xiàn),隨著集成度的上升,各分類算法的精度都會有所上升??傮w來講,Bagging決策樹的分類精度最差,隨機森林稍好,旋轉(zhuǎn)森林更好一些,經(jīng)過高斯徑向基核函數(shù)改進的核主成分分析旋轉(zhuǎn)森林(RBF-RoF)效果總是最好的。Bagging決策樹僅僅是對決策樹的集成,不會對算法性能帶來明顯的提升,隨機森林增加了對特征空間的隨機分割,基分類器間存在一定的差異性。從上述實驗結(jié)果可以看出,旋轉(zhuǎn)森林和RBF-RoF都會取得良好的實驗效果,這是由于這兩種算法對特征空間進行分割和變換。對比改進前后的旋轉(zhuǎn)森林,改進后的分類精度會有所提升;同時,改進后的旋轉(zhuǎn)森林在比較小的集成度時就可以取得很好的精度,這說明進行非線性變換相比線性變換會帶來更好的可分性,同時非線性變換會增加很多的計算量,但算法的復(fù)雜度同屬于O(n3),復(fù)雜度影響并不明顯,相對于精度的提高,可以忽略。
Fig.4 Classification accuracy of Breast dataset圖4 Breast數(shù)據(jù)集的分類精度
Fig.5 Classification accuracy of CNS dataset圖5 CNS數(shù)據(jù)集的分類精度
Fig.6 Classification accuracy ofALL dataset圖6 ALL數(shù)據(jù)集的分類精度
(2)通過對改進后的算法進行統(tǒng)計學(xué)分析,以說明比原始算法存在顯著性差別。這里利用F檢驗的方法來驗證改進前后的顯著性。
求解實驗結(jié)果樣本的方差S2:
進一步求得F值:
其中一般取參數(shù)α=0.05,與F分布表中所查到的值進行比對,如果前者大于后者,則認為本組算法之間是彼此顯著的,否則就認為差別不大。
表3列舉了幾個常用的統(tǒng)計量,樣本均值、方差S2以及顯著性F。從計算結(jié)果可以得到,在各個數(shù)據(jù)集上表現(xiàn)顯著性有效。
Table 3 Statistics analysis of algorithms表3 算法改進前后的統(tǒng)計量分析
通過特征集分割、采樣與變換,最后再重新生成一個變換矩陣,是旋轉(zhuǎn)森林的重要特點。借助核支持向量機的思想以及旋轉(zhuǎn)森林算法的流程,實現(xiàn)了基于高斯徑向基核主成分分析的旋轉(zhuǎn)森林,與利用線性變換的旋轉(zhuǎn)森林算法相比,分類精度得到提高。并通過對其他統(tǒng)計量的分析可知,改進后的算法方差更小,并且比原始算法更顯著。盡管改進后的算法會帶來更多的資源消耗,例如計算時間和內(nèi)存,但是在計算成本越來越低的現(xiàn)今社會,這不應(yīng)該成為一種瓶頸。
[1]Lu Huijuan.A study of tumor classification algorithms using gene expression data[D].Xuzhou:China University of Mining and Technology,2012.
[2]Lu Huijuan,An Chunlin,Zheng Enhui,et al.Dissimilarity based ensemble of extreme learning machine for gene expression data classification[J].Neurocomputing,2014,128(5):22-30.
[3]Liu Min,Xie Huosheng.Ensemble co-training algorithm based on rotation forest[J].Computer Engineering and Applications,2011,47(30):172-175.
[4]Mao Shasha,Xiong Lin,Jiao Licheng,et al.Isomerous multiple classifier ensemble via transformation of the rotation forest[J].Journal of Xidian University,2014,41(5):48-53.
[5]Mousavi R,Eftekhari M,Haghighi M G.A new approach to human microRNA target prediction using ensemble pruning and rotation forest[J].Journal of Bioinformatics and Computational Biology,2015,13(6):1550017.
[6]Wong Leon,You Zhuhong,Ming Zhong,et al.Detection of interactions between proteins through rotation forest and local phase quantization descriptors[J].International Journal of Molecular Sciences,2015,17(1):21.
[7]Adankon M M,Cheriet M.Support vector machine[M]//Encyclopedia of Biometrics.[S.l.]:Springer US,2015:1303-1308.
[8]Lu Huijuan,Du Bangjun,Liu Jinyong,et al.A kernel extreme learning machine algorithm based on improved particle swam optimization[J].Memetic Computing,2017,9(2):121-128.
[9]Jian Ling.Kernel based learning algorithm and application[D].Dalian:Dalian University of Technology,2012.
[10]Li Zhe,Kruger U,Xie Lei,et al.Adaptive KPCA modeling of nonlinear systems[J].IEEE Transactions on Signal Processing,2015,63(9):2364-2376.
[11]Song Xiaoshan,Jiang Xiaoyu,Luo Jianhua,et al.Analysis of the inter-class distance-based kernel parameter evaluating method for RBF-SVM[J].Acta Armamentarii,2012,33(2):203-208.
[12]Wang Tinghua,Chen Junting.Survey of research on kernel function evaluation[J].Application Research of Computers,2011,28(1):25-28.
[13]Qiu Xiaoyu.The selection for the kernel-based method[D].Jinan:Shandong Normal University,2008.
[14]Chen Xiaolin,Ji Bo,Ye Yangdong.A R-NIC algorithm based on ReliefF feature weighting[J].Computer Engineering,2015,41(4):161-165.
[15]Li Yaqin,Yang Huizhong.Ensemble modeling method based on Bagging algorithm and Gaussian process[J].Journal of Southeast University:Natural Science Edition,2011,41(S1):93-96.
[16]Meng Yang,Hou Feifei.Node association mining based on C4.5[J].Telecom World,2016(10):131-132.
附中文參考文獻:
[1]陸慧娟.基于基因表達數(shù)據(jù)的腫瘤分類算法研究[D].徐州:中國礦業(yè)大學(xué),2012.
[3]劉敏,謝伙生.一種基于旋轉(zhuǎn)森林的集成協(xié)同訓(xùn)練算法[J].計算機工程與應(yīng)用,2011,47(30):172-175.
[4]毛莎莎,熊霖,焦李成,等.利用旋轉(zhuǎn)森林變換的異構(gòu)多分類器集成算法[J].西安電子科技大學(xué)學(xué)報:自然科學(xué)版,2014,41(5):48-53.
[9]漸令.基于核的學(xué)習(xí)算法與應(yīng)用[D].大連:大連理工大學(xué),2012.
[11]宋小衫,蔣曉瑜,羅建華,等.基于類間距的徑向基函數(shù)——支持向量機核參數(shù)評價方法分析[J].兵工學(xué)報,2012,33(2):203-208.
[12]汪廷華,陳峻婷.核函數(shù)的度量研究進展[J].計算機應(yīng)用研究,2011,28(1):25-28.
[13]邱瀟鈺.核函數(shù)的參數(shù)選擇[D].濟南:山東師范大學(xué),2008.
[14]陳曉琳,姬波,葉陽東.一種基于ReliefF特征加權(quán)的RNIC算法[J].計算機工程,2015,41(4):161-165.
[15]李雅芹,楊慧中.一種基于Bagging算法的高斯過程集成建模方法[J].東南大學(xué)學(xué)報,2011,41(S1):93-96.
[16]孟楊,候飛飛.基于C4.5的節(jié)點關(guān)聯(lián)挖掘[J].通訊世界,2016(10):131-132.
Classifier Algorithm of Genetic Data Based on Kernel Principal Component Analysis and Rotation Forest*
LU Huijuan1+,LIU Yaqing1,MENG Yaqiong1,GUAN Wei2,LIU Yanqiu1
1.College of Information Engineering,China Jiliang University,Hangzhou 310018,China
2.College of Modern Science and Technology,China Jiliang University,Hangzhou 310018,China
A
TP181
+Corresponding author:E-mail:hjlu@cjlu.edu.cn
LU Huijuan,LIU Yaqing,MENG Yaqiong,et al.Classifier algorithm of genetic data based on kernel principal component analysis and rotation forest.Journal of Frontiers of Computer Science and Technology,2017,11(10):1570-1578.
ISSN 1673-9418 CODEN JKYTA8
Journal of Frontiers of Computer Science and Technology
1673-9418/2017/11(10)-1570-09
10.3778/j.issn.1673-9418.1608046
E-mail:fcst@vip.163.com
http://www.ceaj.org
Tel:+86-10-89056056
*The National Natural Science Foundation of China under Grant Nos.61272315,60905034(國家自然科學(xué)基金);the Natural Science Foundation of Zhejiang Province under Grant No.Y1110342(浙江省自然科學(xué)基金);the National Security Bureau Project under Grant No.zhejiang-00062014AQ(國家安全總局項目).
Received 2016-08,Accepted 2016-10.
CNKI網(wǎng)絡(luò)優(yōu)先出版:2016-10-19,http://www.cnki.net/kcms/detail/11.5602.TP.20161019.1458.008.html
LU Huijuan was born in 1962.She received the Ph.D.degree from China University of Mining and Technology in 2012.Now she is a professor at China Jiliang University,and the outstanding member of CCF.Her research interests include machine learning,pattern recognition and bioinformatics,etc.She has published over 80 papers,conducted 2 National Natural Science Foundation of China projects and 8 Science&Technology projects of Zhejiang Province.
陸慧娟(1962—),女,浙江東陽人,2012年于中國礦業(yè)大學(xué)獲得博士學(xué)位,現(xiàn)為中國計量大學(xué)教授,CCF杰出會員、理事,主要研究領(lǐng)域為機器學(xué)習(xí),模式識別,生物信息學(xué)等。發(fā)表學(xué)術(shù)論文80多篇,主持完成國家自然科學(xué)基金項目2項,浙江省級科技項目8項。
LIU Yaqing was born in 1988.His research interests include machine learning,cloud computing and data mining,etc.
劉亞卿(1988—),男,河南周口人,碩士,主要研究領(lǐng)域為機器學(xué)習(xí),云計算,數(shù)據(jù)挖掘等。
MENG Yaqiong was born in 1992.She is an M.S.candidate at China Jiliang University,and the member of CCF.Her research interests include machine learning and data mining,etc.
孟亞瓊(1992—),女,安徽蕪湖人,中國計量大學(xué)碩士研究生,CCF會員,主要研究領(lǐng)域為機器學(xué)習(xí),數(shù)據(jù)挖掘等。
GUAN Wei was born in 1976.He is a lecturer at China Jiliang University,and the member of CCF.His research interests include machine learning and pattern recognition,etc.
關(guān)偉(1976—),男,湖北仙桃人,碩士,中國計量大學(xué)講師,CCF會員,主要研究領(lǐng)域為機器學(xué)習(xí),模式識別等。
LIU Yanqiu was born in 1977.She is an associate professor at China Jiliang University,and the member of CCF.Her research interests include machine learning,data mining and image processing,etc.
劉硯秋(1977—),女,河南洛陽人,碩士,中國計量大學(xué)副教授,CCF會員,主要研究領(lǐng)域為機器學(xué)習(xí),數(shù)據(jù)挖掘,圖像處理等。