武海濱 張 濤 趙發(fā)林 李 康
基于偏最小二乘線性判別分析的遺傳算法在代謝組學(xué)特征篩選中的應(yīng)用*
武海濱1張 濤2趙發(fā)林3李 康4△
目的 探討基于偏最小二乘線性判別分析的遺傳算法特征篩選性能,并將其應(yīng)用于高維代謝組學(xué)數(shù)據(jù)。方法 通過模擬試驗驗證基于偏最小二乘線性判別分析的遺傳算法特征篩選能力,同時應(yīng)用于卵巢良惡性腫瘤鑒別的代謝組學(xué)數(shù)據(jù)特征篩選分析。結(jié)果 模擬實驗顯示,基于偏最小二乘線性判別分析的遺傳算法對信息變量的篩選能力明顯優(yōu)于偏最小二乘變量投影重要性指標(biāo);代謝組學(xué)數(shù)據(jù)分析顯示,使用遺傳算法篩選出的變量能夠獲得更低的誤差率,該方法篩得的變量具有更大的概率包含了與某種生物學(xué)結(jié)果相關(guān)的代謝物。結(jié)論 基于偏最小二乘線性判別分析的遺傳算法作為一種優(yōu)化技術(shù),在小樣本條件下對高維數(shù)據(jù)的特征篩選具有較好的效果。
偏最小二乘 判別分析 遺傳算法 代謝組學(xué)
*:國家自然科學(xué)基金資助(81172767)
1.浙江省疾病預(yù)防控制中心(310051)
2.山東大學(xué)公共衛(wèi)生學(xué)院流行病與衛(wèi)生統(tǒng)計學(xué)系
3.杭州師范大學(xué)醫(yī)藥衛(wèi)生管理學(xué)院
4.哈爾濱醫(yī)科大學(xué)衛(wèi)生統(tǒng)計學(xué)教研室
△通訊作者:李康,E-mail:likang@ems.hrbmu.edu.cn
代謝組學(xué)通常使用理化分析技術(shù)對生物體體液或組織的小分子代謝物進行定量的動態(tài)測量,繼而利用統(tǒng)計學(xué)方法識別與病理生理刺激或基因改變相關(guān)的代謝物,探索可能的代謝途徑?;诜治黾夹g(shù)的進步,如LC-MS,GC-MS和NMR,近年來代謝組學(xué)迅速發(fā)展,并成功地應(yīng)用于醫(yī)學(xué)、毒理學(xué)和營養(yǎng)學(xué)等領(lǐng)域〔1-4〕。當(dāng)前的分析技術(shù)能夠產(chǎn)生高通量的代謝指紋圖譜數(shù)據(jù),包含豐富的信息,但也對數(shù)據(jù)的分析提出了挑戰(zhàn)。首先,代謝物的數(shù)量遠大于觀測例數(shù),很容易導(dǎo)致模型過擬合的發(fā)生;其次,很難確定哪些代謝物與某種生物學(xué)結(jié)果密切相關(guān)。
偏最小二乘(partial least squares,PLS)能夠較好地處理多重共線性和小樣本數(shù)據(jù),已經(jīng)成為光譜學(xué)和化學(xué)計量學(xué)領(lǐng)域的一種基本方法,在代謝組學(xué)中也具有廣泛應(yīng)用〔5-6〕。但是,有研究指出當(dāng)存在大量噪聲變量時,PLS仍易過度擬合數(shù)據(jù),產(chǎn)生過于“理想”的結(jié)果〔7〕。代謝指紋圖譜數(shù)據(jù)中代謝物的數(shù)目遠大于觀測數(shù)目,并且包含大量無關(guān)的代謝物,很容易導(dǎo)致機會性分類,因此在模型建立之前有必要先進行特征篩選。PLS模型中的變量投影重要性(variable importance in the projection,VIP)指標(biāo)能夠直觀地顯示每個變量的重要程度,已被廣泛應(yīng)用于代謝組學(xué)研究中的特征篩選〔8-9〕。然而,數(shù)據(jù)中大量的噪聲變量可能對VIP產(chǎn)生影響,而且生物標(biāo)記物之間復(fù)雜的相互作用可能比獨立的基本效應(yīng)更加重要〔10〕。為處理上述問題,本研究提出了基于偏最小二乘線性判別分析(partial least squares linear discriminant analysis,PLSLDA)的遺傳算法(genetic algorithm,GA)用于特征篩選。
PLS最初為一種回歸方法,它通過建立正交得分向量(或稱潛變量、成分、因子等)間接擬合解釋變量集和反應(yīng)變量集之間的線性關(guān)系。由于PLS簡單、靈活,能夠提取相關(guān)的信息,最近被廣泛應(yīng)用于降維、分類、可視化、特征篩選等問題〔11-12〕。PLSLDA 是 PLS用于分類問題的一種方法,已被用于基因組和代謝組的研究〔13-14〕,該方法的第一步是通過特征提取獲得k個得分向量t1,…,tk。假定數(shù)據(jù)集包含n個觀測、m個解釋變量和反應(yīng)變量Y,對于分類問題Y可以使用不同的整數(shù)表示(Y=1,…,q),若q=2,Y可以按照連續(xù)型變量直接處理,若q>2,Y則需轉(zhuǎn)換成q個啞變量后進行處理:
因此,解釋變量和反應(yīng)變量矩陣可以分別表示為Xn×m和Yn×q。假定數(shù)據(jù)已經(jīng)標(biāo)準(zhǔn)化,PLS 按照如下方式將兩個矩陣分解成得分和載荷的乘積形式:
(2)式中Tn×k和Un×k是提取出的k個得分向量,Pm×k和Qq×k是相應(yīng)的載荷矩陣,En×m和Fn×q表示殘差矩陣。正交得分向量通過最大化解釋變量和反應(yīng)變量之間的協(xié)方差獲得,即在約束條件wTw=1,cTc=1,和tTu最大的條件下計算向量t和u。向量t和u分別表示矩陣T和U的某一列,w和c是相應(yīng)的權(quán)重向量,權(quán)重向量計算的不同定義了不同的PLS算法,經(jīng)典的非線性迭代偏最小二乘算法(nonlinear iterative partial least squares,NIPALS)中權(quán)重向量w和c可以通過下面的特征值問題來解決〔15〕:
在獲得了w和c后,可以計算出t=Xw和u=Yc的值。進而,矩陣X和Y減去t和u所包含的信息,再進行第二輪得分向量的提取。上述過程不斷重復(fù)進行直到達到指定的收斂標(biāo)準(zhǔn)。
第二步即使用得分向量t1,…,tk作為預(yù)測變量進行線性判別分析。由于選擇的PLS得分向量個數(shù)k遠小于變量個數(shù)m,使用近似正態(tài)分布的得分向量進行線性判別分析時能夠獲得較為理想的結(jié)果。得分向量個數(shù)k是PLSLDA中唯一需要優(yōu)化的參數(shù),通常使用交叉驗證來選擇。
在得分向量提取的過程中,每個自變量權(quán)重的絕對值表示它們在相應(yīng)得分向量中影響的大小,而得分向量具有進行分類的能力,因此自變量的權(quán)重可以表示它們在相應(yīng)得分向量中的重要性。第j個自變量在第r個得分向量中變量影響的平方()為其相應(yīng)權(quán)重的平方()乘以第r個得分向量所解釋總變異的百分比,VIP是對自變量在提取的k個得分向量中VIN的綜合:
遺傳算法(GA)的基本原理類似于自然界的進化和自然選擇過程。首先,GA使用簡單的編碼技術(shù)將搜索空間映射到基因空間,接著通過適者生存的機制從初始種群中進化問題的解。在進化過程中,GA通過染色體的復(fù)制(replication)、交叉(crossover)和變異(mutation)等遺傳過程不斷進化出新的子代,那些具有較高適應(yīng)性的染色體具有更高的概率將它們的信息傳遞給下一代,保證了GA的搜索方向逐漸向最優(yōu)解靠近,同時防止出現(xiàn)局部最優(yōu)。由于GA能夠在復(fù)雜或高維空間中搜索最優(yōu)或近似最優(yōu)的解,該方法被廣泛應(yīng)用于優(yōu)化問題,這里將GA作為一種特征篩選策略使用。
本研究中,每一個變量被定義為遺傳算法中的一個基因,從所有m個基因中隨機選取g個基因構(gòu)成一個染色體,每個染色體表示問題的一個可能的解,c個染色體構(gòu)成了一個小生境(niche),w個小生境構(gòu)成了初始種群。小生境各自獨立進化,它們之間可以按照一定的概率間或交換染色體,這一過程稱為遷移(migration)。適應(yīng)函數(shù)(fitness function)用于評估進化過程中每個染色體的適應(yīng)性,常用的如準(zhǔn)確率、誤差率或AUC等,本方法對種群內(nèi)每一代的每個染色體建立PLSLDA模型,并使用交叉驗證的判別準(zhǔn)確率來評價染色體的適應(yīng)性。適應(yīng)性較高的染色體具有更高的概率將它們的信息傳遞給下一代。整個GA過程在適應(yīng)函數(shù)的約束下,通過一系列不斷重復(fù)的復(fù)制、交叉、變異和遷移等操作逐漸提高染色體的適應(yīng)性。為避免子代的最大適應(yīng)性出現(xiàn)較大波動,可以按一定概率保留適應(yīng)性最高的染色體進入子代且不進行交叉和變異,這一過程即精英主義(elitism)。進化很多代以后,若某個染色體的適應(yīng)性大于等于設(shè)定的目標(biāo)值,將該染色體作為最優(yōu)染色體選擇出來,流程見圖1。當(dāng)獲得了足夠數(shù)量的最優(yōu)染色體后,那些在最優(yōu)染色體中多次出現(xiàn)的基因表明在多變量背景下對于分類具有重要作用〔16〕,因此可以根據(jù)變量在最優(yōu)染色體中出現(xiàn)的頻率來判斷其重要性。該算法與其他基于PLS的遺傳算法存在著差異,如Ramadan的研究結(jié)果〔6〕。首先,我們將該方法用于超高效液相色譜與質(zhì)譜聯(lián)用儀(UPLC-QTOF/MS)的代謝指紋圖譜數(shù)據(jù),該方法獲得的代謝物個數(shù)遠大于NRM;其次,在算法中變量采用整數(shù)編碼,以便控制染色體長度;最后,使用多種群的方法進化出上千個染色體能夠獲得較穩(wěn)健的結(jié)果。本研究使用R軟件包galgo〔17〕來完成遺傳算法的進化過程,使用plsgenomics軟件包實現(xiàn)PLSLDA。
圖1 遺傳算法的基本流程
代謝指紋圖譜數(shù)據(jù)通常具有數(shù)以萬計的代謝物,多變量的模式使上述問題更為復(fù)雜,為對比 GAPLSLDA和VIP的特征篩選性能,我們設(shè)計了多變量模式的模擬數(shù)據(jù),并模擬實際工作中的小樣本情況。首先,獨立產(chǎn)生1000個服從N(0,1)的噪聲變量,然后產(chǎn)生兩組差異變量,每組包含3個差異變量,最后將這6個變量放在模擬數(shù)據(jù)集中指定的位置。為簡單起見,本模擬試驗中的差異變量均設(shè)為二分類變量,信息變量的產(chǎn)生原理見圖2。設(shè)有3個信息變量X1,X2,X3和1個反應(yīng)變量Y,信息變量被設(shè)定同時作用于反應(yīng)變量,且假定3個信息變量同等重要,信息變量值為1時表示“高表達”,0表示“低表達”,3個信息變量共有8種不同的組合方式,假定只有1個“高表達”的情況為“正常狀態(tài)”,出現(xiàn)2個或3個“高表達”時為“癌癥狀態(tài)”。為了減少每個變量的主效應(yīng),我們設(shè)定了這種組合的構(gòu)成比例:出現(xiàn)三個“低表達”和三個“高表達”的概率均為0.1。根據(jù)預(yù)先指定的概率,進行重復(fù)抽樣,產(chǎn)生30個“正常觀測”和30個“癌癥觀測”,最后重復(fù)上述過程100次。
圖2 差異變量的產(chǎn)生原理
由于兩種特征篩選方法均能夠?qū)λ凶兞窟M行排序,我們使用6個差異變量排序的頻率分布來演示結(jié)果(100次重復(fù),600個排序)。圖3是兩種方法對差異變量排序的頻率分布圖(排序前100位),可以看出兩個分布均為正偏態(tài),但GA-PLSLDA篩選出的差異變量排序更為向前集中,VIP篩選出的差異變量排序具有較多的右拖尾。GA-PLSLDA能夠?qū)?0.0%的信息變量排在前6位,99.5%的差異變量排在前100位中,而 VIP僅將 56.3%的差異變量排在前 6位,91.7%的差異變量排在前100位中,顯示GA-PLSLDA比VIP具有更優(yōu)的特征篩選能力,該方法受噪聲影響較小,能夠較好地處理多變量模式。其他的模擬實驗證實,在變量數(shù)目一定,如果增加樣本量(如n1=n2=100),這種差別會逐漸減小,但GA-PLSLDA方法篩選的結(jié)果仍然明顯優(yōu)于VIP的方法。
圖3 GA-PLSLDA和VIP對差異變量排序的頻率分布圖(排序前100位)
收集37例首次發(fā)現(xiàn)的原發(fā)性卵巢癌患者和54例卵巢囊腫患者尿樣,采用超高效液相色譜與質(zhì)譜聯(lián)用儀(UPLC-QTOF)檢測,分別分析正離子(ESI+)和負離子(ESI-)模式,數(shù)據(jù)集的說明見表1。
表1 卵巢癌患者血漿代謝指紋圖譜數(shù)據(jù)集概況
由于代謝指紋圖譜數(shù)據(jù)變量個數(shù)太多,如直接使用遺傳算法進行變量篩選,運算負荷過大,因此,首先使用單變量的過濾法刪除最不相關(guān)的一些變量。本研究使用基于兩獨立樣本t檢驗的置換檢驗(permutation test),進行10000次置換,雙側(cè)P<0.1的變量構(gòu)成候選數(shù)據(jù)集,使用R軟件包multtest完成該過程。最后,分別使用GA-PLSLDA和VIP從候選數(shù)據(jù)集中選擇簡單有效的變量子集。
在遺傳算法中設(shè)定交叉概率為0.5,交叉點可以是染色體的任何位置,每個染色體均發(fā)生變異,適應(yīng)函數(shù)為PLSLDA 5折交叉驗證的預(yù)測準(zhǔn)確率。小生境個數(shù)、小生境規(guī)模、染色體長度和最大進化代數(shù)見表2,其他參數(shù)使用默認(rèn)設(shè)定,對每個數(shù)據(jù)集分別進化1000個最優(yōu)染色體以增強結(jié)果的穩(wěn)定性。
表2 遺傳算法參數(shù)設(shè)置
分別選擇這兩種算法變量篩選排序前50位的變量,并逐個比較它們預(yù)測的誤差率,如PLSLDA具有較低的分類誤差率,模型可能包含對分類具有重要作用的變量。由于數(shù)據(jù)集樣本量較小,此處采用e.632+誤差率,選擇100個Bootstrap樣本進行計算。圖4為兩種特征篩選方法排序前50的變量判別誤差率的逐個比較,表3為排序前50的變量獲得的最小判別誤差率。由此可見,進行特征篩選后PLSLDA的判別誤差率明顯小于未進行特征篩選,特征篩選能夠有效地減少無關(guān)代謝物的影響,提高分類的準(zhǔn)確性。在變量個數(shù)相同時GA-PLSLDA篩選出的變量一般比VIP能夠獲得更低的誤差率,這表明GA-PLSLDA更能夠排除無關(guān)代謝物的影響,有效地降低分類誤差率,該方法篩得的變量具有更大的概率包含了與某種生物學(xué)結(jié)果密切相關(guān)的代謝物。
圖4 卵巢癌代謝指紋圖譜數(shù)據(jù)判別誤差率的比較
表3 排序前50的變量PLSLDA最小判別誤差率
代謝指紋圖譜數(shù)據(jù)中樣本例數(shù)較小,代謝物的數(shù)量巨大,很容易對PLS產(chǎn)生影響,導(dǎo)致機會性分類。因此,特征篩選具有重要的意義,該過程能夠有效地降低模型的復(fù)雜性,提高分類器的預(yù)測性能,并可以發(fā)現(xiàn)可能的生物標(biāo)記物。本研究提出了一種基于PLSLDA和GA的特征篩選方法,該方法通過限制染色體的長度控制進化過程中模型的復(fù)雜性,噪聲變量在每個染色體中的影響可以變得較小,從而降低了過擬合的風(fēng)險。另外,在GA-PLSLDA的進化過程中會建立成千上萬的PLSLDA模型,考慮了變量之間復(fù)雜的相互作用,能夠發(fā)現(xiàn)多變量的模式。最后,通過進化出相當(dāng)數(shù)目的最優(yōu)染色體可以使結(jié)果更加穩(wěn)健。
本研究通過模擬試驗和實例分析證明了GAPLSLDA在特征篩選上優(yōu)于代謝組學(xué)中經(jīng)常使用的VIP指標(biāo),能夠處理復(fù)雜的多變量模式。雖然該方法具有較好的特征篩選性能,但是它需要設(shè)定較多的參數(shù),運算負荷相對較大;此外,一些無關(guān)變量偶爾能夠伴隨生物標(biāo)記物出現(xiàn)在染色體上,增加了特征篩選的假發(fā)現(xiàn)率,需要進一步探索;最后,由于運算負荷較大,本研究實例分析中未使用雙重交叉驗證,計算出的誤差率可能會比實際偏低,而樣本量對結(jié)果的具體影響,仍需進一步研究。
1.Greef J,Smilde AK.Symbiosis of chemometrics and metabolomics:Past,present,and future.Journal of Chemometrics,2005,19(5 - 7):376-386.
2.Clayton TA,Lindon JC,Cloarec O,et al.Pharmaco-metabonomic phenotyping and personalized drug treatment.Nature,2006,440(7087):1073-1077.
3.Robertson DG.Metabonomics in toxicology:a review.Toxicological Sciences,2005,85(2):809-822.
4.Van Dorsten FA,Daykin CA,Mulder TP,et al.Metabonomics approach to determine metabolic differences between green tea and black tea consumption.Journal of Agricultural and Food Chemistry,2006,54(18):6929-6938.
5.Brindle JT,Antti H,Holmes E,et al.Rapid and noninvasive diagnosis of the presence and severity of coronary heart disease using 1H-NMR-based metabonomics.Nature medicine,2002,8(12):1439-1444.
6.Ramadan Z,Jacobs D,Grigorov M,et al.Metabolic profiling using principal component analysis,discriminant partial least squares,and genetic algorithms.Talanta,2006,68(5):1683-1691.
7.Westerhuis JA,Hoefsloot HCJ,Smit S,et al.Assessment of PLSDA cross validation.Metabolomics,2008,4(1):81-89.
8.Qiu Y,Cai G,Su M,et al.Serum metabolite profiling of human colorectal cancer using GC-TOFMS and UPLC-QTOFMS.Journal of Proteome Research,2009,8(10):4844-4850.
9.Martin JC,Canlet C,Delplanque B,et al.1H NMR metabonomics can differentiate the early atherogenic effect of dairy products in hyperlipidemic hamsters.Atherosclerosis,2009,206(1):127-133.
10.Moore JH.The ubiquitous nature of epistasis in determining susceptibility to common human diseases.Human Heredity,2003,56(1-3):73-82.
11.Boulesteix AL,Strimmer K.Partial least squares:a versatile tool for the analysis of high-dimensional genomic data.Briefings in Bioinformatics,2007,8(1):32-44.
12.荀鵬程,錢國華,趙楊,等.高維生物學(xué)數(shù)據(jù)兩階段組合降維策略研究.中國衛(wèi)生統(tǒng)計,2012,29(5):626-629.
13.Boulesteix AL.PLS dimension reduction for classification with microarray data.Statistical Applications in Genetics and Molecular Biology,2004,3(1):1544-1561.
14.Taylor SL,Ganti S,Bukanov NO,et al.A metabolomics approach using juvenile cystic mice to identify urinary biomarker and altered pathways in polycystic kidney disease.American Journal of Physiology Renal Physiology,2010,298(4):909-922.
15.錢國華,荀鵬程,陳峰,等.偏最小二乘法降維在微陣列數(shù)據(jù)判別分析中的應(yīng)用.中國衛(wèi)生統(tǒng)計,2007,24(2):120-123.
16.Li L,Weinberg C,Darden T,et al.Gene selection for sample classification based on gene expression data:study of sensitivity to choice of parameters of the GA/KNN method.Bioinformatics,2001,17(12):1131-1142.
17.Trevino V,F(xiàn)alciani F.GALGO:an R package for multivariate variable selection using genetic algorithms.Bioinformatics,2006,22(9):1154-1156.
Genetic Algorithm Based on Partial Least Squares Linear Discriminant Analysis and its Application on Feature Selection of Metabonomics
Wu Haibin,Zhang Tao,Zhao Falin,et al.Department of NCDs Control and Prevention,Zhejiang Center for Disease Control and Prevention(310051),Hangzhou
ObjectiveEvaluating the feature selection property of the genetic algorithm based on partial least squares linear discriminant analysis,and its application on high dimensional metabolomic data.MethodsValidating the ability of genetic algorithm based on partial least squares linear discriminant analysis with simulated data and applying it on discriminating metabolomic data between benign and malignant ovarian cancer.ResultsSimulations showed that the genetic algorithm based on partial least squares linear discriminant analysis was superior to the index of variable importance in the projection.The analysis on real metabolomics data indicated that using variables selected by genetic algorithm we were able to obtain smaller error rate than the index of variable importance in the projection.The variables selected by genetic algorithm had higher probability involving the metabolites that were related with certain biological results.ConclusionAs an optimization technique,genetic algorithm based on partial least squares linear discriminant analysis could effectively analyze the high dimensional data with small sample size.
Partial least squares;Discriminant analysis;Genetic algorithm;Metabonomics
(責(zé)任編輯:劉壯)