馮 利 岳小飛
(國(guó)家開(kāi)放大學(xué)醫(yī)藥學(xué)院 北京 100039) (北京康復(fù)醫(yī)院藥劑科 北京 100144)
近年來(lái)組學(xué)技術(shù)如基因組學(xué)、蛋白質(zhì)組學(xué)和代謝組學(xué)迅速發(fā)展。醫(yī)學(xué)工作者可將組學(xué)、患者臨床診斷及影像學(xué)等數(shù)據(jù)整合以提高疾病診斷的準(zhǔn)確性,特別是惡性腫瘤等重大疾病[1]。雖然惡性腫瘤診斷方法發(fā)展迅速[2],但其早期診斷仍較困難。組學(xué)可從系統(tǒng)、整體水平捕捉機(jī)體在疾病早期的生理、病理變化,為惡性腫瘤早期診斷提供重要參考依據(jù)[3-4]。組學(xué)數(shù)據(jù)通常變量數(shù)目多、樣本量少,這給數(shù)據(jù)分析帶來(lái)較大挑戰(zhàn)。多元統(tǒng)計(jì)分析方法及機(jī)器學(xué)習(xí)算法因具有強(qiáng)大的數(shù)據(jù)分析處理能力,在支持臨床決策及尋找早期診斷生物標(biāo)志物方面發(fā)揮了越來(lái)越重要的作用[5-8]。
本研究首先將原始數(shù)據(jù)集分為訓(xùn)練數(shù)據(jù)集(約為全部數(shù)據(jù)的1/10)和測(cè)試數(shù)據(jù)集(約為全部數(shù)據(jù)的9/10)。先采用訓(xùn)練數(shù)據(jù)集建立數(shù)據(jù)處理模型,即通過(guò)偏最小二乘法(Partial Least Squares,PLS)降維,提取不同數(shù)量主成分導(dǎo)入到線性判別分析(Linear Discriminant Analysis,LDA),K-最近鄰法(K-Nearest Neighbor,KNN),決策樹(shù)(Decision Tree,DT),支持向量機(jī)(Support Vector Machine,SVM),人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network,ANN),裝袋法(Bagging),隨機(jī)森林(Random Forest,RF),二次判別分析(Quadratic Discriminant Analysis,QDA)及邏輯回歸(Logistic Regression,LR)9種分類器中對(duì)數(shù)據(jù)進(jìn)行分類,采用10折交叉驗(yàn)證法優(yōu)化各分類器參數(shù)及防止模型過(guò)度擬合,使之達(dá)到最佳分類效果,采用預(yù)測(cè)準(zhǔn)確率等指標(biāo)對(duì)其分類效果進(jìn)行評(píng)價(jià)并將表現(xiàn)較好的幾種分類器組成集合式分類器。此外對(duì)潛在生物標(biāo)志物進(jìn)行初步篩選。
PCA和PLS是兩種常用的降維方法[9]。二者均通過(guò)對(duì)多變量數(shù)據(jù)信息調(diào)整組合提取少量綜合變量來(lái)解釋原數(shù)據(jù)的大部分變異,當(dāng)組間變異在總變異中不占主導(dǎo)地位時(shí),PLS分類效果往往比PCA更好[10]。此外PLS算法在處理高維、共線性、干擾強(qiáng)的數(shù)據(jù)時(shí)功能強(qiáng)大。SVM可處理分類及回歸問(wèn)題,其泛化能力優(yōu)秀,但運(yùn)算量較大。RF、Bagging和DT這3種方法較簡(jiǎn)便,易于解釋和可視化,但有時(shí)預(yù)測(cè)準(zhǔn)確性不高。LR的特點(diǎn)是運(yùn)算速度快、模型簡(jiǎn)單、易于理解,可直接看到各個(gè)變量的權(quán)重。LDA和LR相似,二者的區(qū)別是決策邊界的估計(jì)方法不同。當(dāng)決策邊界高度非線性時(shí),KNN預(yù)測(cè)結(jié)果常優(yōu)于LDA和LR。QDA使用二次決策邊界,當(dāng)數(shù)據(jù)集滿足高斯分布假設(shè)時(shí),其預(yù)測(cè)結(jié)果常比KNN好。評(píng)價(jià)機(jī)器學(xué)習(xí)模型分類效果的常用指標(biāo)有準(zhǔn)確率、曲線下方面積(Area Under the Curve,AUC)值、召回率、精密度、F1值等。其中準(zhǔn)確率最常用,其缺點(diǎn)是當(dāng)兩組樣本數(shù)量相差太大時(shí)該指標(biāo)會(huì)失真。召回率是陽(yáng)性樣本的檢出率。精密度是陽(yáng)性樣本的預(yù)測(cè)準(zhǔn)確率。AUC值為受試者工作特征(Receiver Operating Characteristic,ROC)曲線下方面積,在兩組樣本數(shù)不平衡時(shí)該指標(biāo)更為客觀;F1值是召回率和精密度的調(diào)和平均值,能直觀評(píng)價(jià)模型對(duì)疾病患者的檢出率及檢測(cè)準(zhǔn)確性。在醫(yī)學(xué)研究中,除疾病診斷外還可通過(guò)計(jì)算PLS模型中每個(gè)自變量的VIP值來(lái)篩選與樣本類別密切相關(guān)的重要變量(潛在生物標(biāo)志物)。一般認(rèn)為,VIP值大于1以及變量峰面積(峰高或表達(dá)量等)組間t檢驗(yàn)或方差分析(Analysis of Variance,ANOVA)有顯著性差異(P<0.05)的變量才是較為可靠的潛在生物標(biāo)志物。
本研究使用美國(guó)FDA-NCI蛋白質(zhì)組項(xiàng)目數(shù)據(jù)庫(kù)中的蛋白質(zhì)組公共數(shù)據(jù)集,包括SELDI-TOF-MS高分辨質(zhì)譜技術(shù)平臺(tái)采集的80例轉(zhuǎn)基因?qū)Ч芤认侔┬∈笱鍢颖竞?01例年齡相仿的正常小鼠血清樣本蛋白質(zhì)組數(shù)據(jù),使用質(zhì)荷比(掃描范圍為800~11 992.91 Da)及對(duì)應(yīng)蛋白質(zhì)的峰面積作為特征變量,共6 771個(gè)變量[11](http://home.ccr.cancer.gov/ncifdaproteomics/ppat-terns.asp)。
組學(xué)數(shù)據(jù)十分復(fù)雜,噪音信號(hào)多,有時(shí)還有缺失值,因此其預(yù)處理非常重要。由于該數(shù)據(jù)集已進(jìn)行譜峰的質(zhì)荷比(m/z)校準(zhǔn),本研究首先對(duì)數(shù)據(jù)進(jìn)行歸一化、中心化和標(biāo)度化等預(yù)處理,調(diào)整樣本間基線偏差,消除儀器不穩(wěn)定,以及各峰間由于峰面積數(shù)值存在較大差異對(duì)分析結(jié)果的影響。在本文中數(shù)據(jù)預(yù)處理以及后續(xù)所有數(shù)據(jù)統(tǒng)計(jì)處理均在R語(yǔ)言(版本:3.6.1)數(shù)據(jù)處理平臺(tái)完成[12]。
參考相關(guān)文獻(xiàn)[10]及本研究數(shù)據(jù)初步分析結(jié)果,選取PLS作為降維方法。提取PLS不同數(shù)量的主成分與LDA等9種分類器組成結(jié)合式分類器。在本研究中,機(jī)器學(xué)習(xí)算法均采用R語(yǔ)言軟件包完成,SVM使用的是“e1071”軟件包(版本:1.7-0.1);PLS使用的是“mixOmics”軟件包(版本:6.3.2);BAGGING和RF使用的是“randomForest”軟件包(版本:4.6-14);ANN使用的是“nnet”軟件包(版本:7.3-12);DT使用的是“tree”軟件包(版本:1.0-39);LDA和QDA使用的是“MASS”軟件包(版本:7.3-5)。LR用R語(yǔ)言“glm”函數(shù)完成。
對(duì)模型預(yù)測(cè)效果用準(zhǔn)確率(Accuracy)、精密度(Precision)、召回率(Recall)、AUC、F1值進(jìn)行評(píng)價(jià)。
首先采用PLS和PCA方法選取20個(gè)主成分對(duì)數(shù)據(jù)集進(jìn)行降維以初步觀察數(shù)據(jù),得出各主成分的累計(jì)方差貢獻(xiàn)率,見(jiàn)圖1。PCA第1主成分即可解釋原始變量約95%的方差,這表明各自變量間相關(guān)性較大;PLS第1主成分可解釋自變量和因變量大約50%的方差。通過(guò)10折交叉驗(yàn)證得出,選擇25個(gè)主成分時(shí)PLS的判別分析(PLS-DA)正確率為67%,這與原始數(shù)據(jù)集的變量數(shù)目太大及與分類不相關(guān)的干擾因素較多有關(guān)。參考PLS對(duì)方差的解釋能力,見(jiàn)圖1,選取PLS的前5、15及25個(gè)主成分構(gòu)建結(jié)合式分類器,PLS-LDA、PLS-LR、PLS-QDA、PLS-ANN、PLS-SVM的分類效果較好。使用25個(gè)主成分時(shí),其分類正確率分別為100%、100%、99%、96%和96%,隨著主成分?jǐn)?shù)目的增加其分類準(zhǔn)確性也增加。PLS-RF、PLS-BAGGING、PLS-DT和PLS-KNN的分類效果不理想,當(dāng)主成分?jǐn)?shù)目增大時(shí),其分類準(zhǔn)確率不僅沒(méi)有提高,反而下降,見(jiàn)圖2。將PLS-LR、PLS-LDA、PLS-ANN、PLS-SVM、PLS-QDA幾種分類器以多數(shù)投票表決法構(gòu)建集合式分類器(PLS-RES),考察其分類準(zhǔn)確性和主成分?jǐn)?shù)目的關(guān)系,PLS-RES在使用15個(gè)主成分時(shí)分類準(zhǔn)確度即可達(dá)到100%,見(jiàn)圖3。
圖1 PCA(A)及 PLS(B)提取的前20個(gè)主成分的方差貢獻(xiàn)率和累積方差貢獻(xiàn)率
圖2 10種分類器在主成分為5(10PCs)、15(15PCs)和25(20PCs)時(shí)的分類準(zhǔn)確率
圖3 采用不同主成分?jǐn)?shù)時(shí)5種結(jié)合模型的分類正確率
當(dāng)主成分?jǐn)?shù)為5、10、20時(shí)PLS-ANN等5種分類器的5種評(píng)價(jià)指標(biāo)預(yù)測(cè)值,見(jiàn)表1。當(dāng)主成分?jǐn)?shù)目為2和10時(shí)5種分類器各評(píng)價(jià)指標(biāo)預(yù)測(cè)值,見(jiàn)圖4。當(dāng)預(yù)測(cè)正確率接近100%時(shí),5種評(píng)價(jià)指標(biāo)的差別不大。當(dāng)預(yù)測(cè)正確率逐漸降低時(shí)F1值和召回率顯著下降。選擇5個(gè)主成分時(shí)QDA的預(yù)測(cè)正確率為51%,其F1值和召回率分別僅為19%和12%。
表1 主成分?jǐn)?shù)為5、10和20時(shí)各分類器5種評(píng)價(jià)指標(biāo)的預(yù)測(cè)值(%)
圖4 主成分?jǐn)?shù)目為2(A)時(shí)和10(B)時(shí)5種結(jié)合分類器各評(píng)價(jià)指標(biāo)的預(yù)測(cè)值
當(dāng)主成分?jǐn)?shù)為20時(shí)采用PLS-DA結(jié)合模型,篩選得到前20個(gè)主成分的VIP均值>1且t檢驗(yàn)P<0.05的變量(潛在生物標(biāo)志物)105個(gè),見(jiàn)表2。本研究主要目的是構(gòu)建一種處理多維數(shù)據(jù)的結(jié)合式算法以對(duì)不同生理功能的生物樣本進(jìn)行分類,因此篩選出的潛在生物標(biāo)志物為何種蛋白質(zhì)及其具有何種生物學(xué)功能需要進(jìn)一步鑒定和分析。
表2 通過(guò)PLS-DA結(jié)合模型篩選出的潛在生物標(biāo)志物信息(部分)
研究[11]發(fā)現(xiàn),KRASG12D基因表達(dá)與成年(9周齡)小鼠侵入性胰腺導(dǎo)管癌密切相關(guān),攜帶該致癌基因的小鼠成年后全部患癌。本研究中的數(shù)據(jù)集為攜帶KRASG12D基因的幼年(5周齡)轉(zhuǎn)基因小鼠及年齡相仿的正常對(duì)照組小鼠血清蛋白質(zhì)組學(xué)數(shù)據(jù)。采用本研究建立的結(jié)合式分類器在癌癥未發(fā)病時(shí)即可將攜癌基因幼年小鼠與正常對(duì)照組加以區(qū)分,表明本研究具有較大潛在應(yīng)用價(jià)值。在對(duì)本研究中數(shù)據(jù)集進(jìn)行PCA分析時(shí)發(fā)現(xiàn)各變量之間具有較高相關(guān)性,當(dāng)變量之間高度相關(guān)時(shí)PLS的分類準(zhǔn)確性明顯優(yōu)于PCA[9]。此外有研究[13]發(fā)現(xiàn),當(dāng)變量之間相關(guān)性較高時(shí),基于特征提取的SVM比單獨(dú)使用SVM的分類效果好,這與本研究結(jié)果一致。本研究建立的方法也可用于基于光譜[9]、色譜、基因組、代謝組、影像等高維數(shù)據(jù)及包括少數(shù)幾種臨床診斷指標(biāo)的低維數(shù)據(jù)的腫瘤輔助診斷。低維數(shù)據(jù)可不降維直接進(jìn)行分類。此外本研究提出的潛在生物標(biāo)志物的篩選方法有助于通過(guò)測(cè)定少數(shù)指標(biāo)即可對(duì)腫瘤進(jìn)行早期診斷。