曹海濤 , 朱靜 , 曾海波 , 劉彥辰
1.新疆農(nóng)業(yè)大學(xué)計(jì)算機(jī)與信息工程學(xué)院,烏魯木齊 830052;2.新疆烏魯木齊市友誼醫(yī)院,烏魯木齊 830049
傳統(tǒng)疾病篩查和診斷通常檢測(cè)周期較長,且一些篩查和診斷方法需要進(jìn)行侵入性檢測(cè),例如穿刺、活組織檢查等。這種檢測(cè)方式不僅痛苦,還可能導(dǎo)致感染和其他并發(fā)癥,使患者出現(xiàn)緊張、不適[1]等情緒。因此,需要尋找一種更便捷、非侵入性的方法來輔助疾病篩查和診斷,以改善早期診斷和治療效果,改善人們健康狀況。本研究旨在利用宏基因組學(xué)和機(jī)器學(xué)習(xí)技術(shù),探索腸道菌群[2]在疾病篩查和診斷中的應(yīng)用,以建立一種輔助參考模型。
近年來,腸道菌群對(duì)疾病的影響引起了廣泛關(guān)注。研究表明,患有某些疾病的人群其腸道菌群與健康人群存在差異[3],腸道微生物群落的失衡可能導(dǎo)致病原菌過度生長和有害代謝產(chǎn)物的產(chǎn)生,從而引起免疫系統(tǒng)異常和疾病的發(fā)生,如克羅恩?。?]和糖尿病[5]等。然而,現(xiàn)有的疾病診斷[6]方法存在局限性,單一模型的診斷能力有限,而利用多組數(shù)據(jù)建立模型需要大量的特征,難以應(yīng)用于臨床。1998年,Handelsman等[7]首次提出宏基因組學(xué)(metagenomics)的概念——一種研究環(huán)境中所有微生物基因組總體的方法,高通量測(cè)序技術(shù)的發(fā)展[8]極大地推動(dòng)了宏基因組學(xué)的研究。宏基因組學(xué)為我們更好地理解和利用腸道菌群提供了平臺(tái),從而深入研究人體腸道菌群與健康之間的關(guān)系。
機(jī)器學(xué)習(xí)通常作為各種預(yù)測(cè)任務(wù)模型的核心算法使用,在構(gòu)建疾病預(yù)測(cè)模型時(shí),大量使用邏輯回歸、K近鄰、隨機(jī)森林和人工神經(jīng)網(wǎng)絡(luò)等方法。Pasolli等[9]使用隨機(jī)森林模型設(shè)計(jì)了有關(guān)2型糖尿病的疾病預(yù)測(cè)模型;Ai等[10]使用隨機(jī)森林完善了關(guān)于結(jié)直腸癌的疾病預(yù)測(cè)模型;Wu等[11]使用K近鄰建立了預(yù)測(cè)2型糖尿病的疾病模型;Reiman等[12]使用人工神經(jīng)網(wǎng)絡(luò)構(gòu)建了預(yù)測(cè)肝硬化疾病模型。盡管使用不同模型預(yù)測(cè)疾病的方法大部分依賴于機(jī)器學(xué)習(xí)模型的自我學(xué)習(xí)能力,在對(duì)應(yīng)的疾病數(shù)據(jù)上表現(xiàn)出色。然而,這些模型普遍存在缺乏泛化的能力,在其他疾病數(shù)據(jù)中表現(xiàn)不佳。
本研究采用宏基因組學(xué)和機(jī)器學(xué)習(xí)模型,利用多組獨(dú)立的宏基因組數(shù)據(jù)進(jìn)行研究。通過生物信息學(xué)工具對(duì)原始數(shù)據(jù)進(jìn)行預(yù)處理,并使用數(shù)據(jù)降維和隨機(jī)森林模型設(shè)定特征重要性閾值,篩選與疾病發(fā)生高度相關(guān)的特征菌群。接著,進(jìn)行特征相關(guān)性分析,并使用加權(quán)平均的方法構(gòu)建一種融合模型,旨在解決傳統(tǒng)疾病篩查和診斷方法的侵入性和耗時(shí)問題,以及現(xiàn)有模型缺乏泛化能力的限制。本研究通過結(jié)合宏基因組學(xué)和機(jī)器學(xué)習(xí)技術(shù),期望建立一種基于腸道菌群的非侵入性篩查和診斷模型,為疾病的早期篩查和診斷提供輔助參考,改善人們的健康狀況。
從NCBI(美國國家生物技術(shù)信息中心)的SRA數(shù)據(jù)庫中,選擇3個(gè)樣本的宏基因組測(cè)序數(shù)據(jù),分別為Cirrhosis數(shù)據(jù)集(ERP005860)、T2D數(shù)據(jù)集(SRA045646、SRA050230、ERP002469)、Obesity數(shù)據(jù)集(ERP003612)。Cirrhosis數(shù)據(jù)集包括健康者118名、疾病患者114名;T2D數(shù)據(jù)集包括健康者217名、疾病患者223名;Obesity數(shù)據(jù)集包括健康者89名、疾病患者164名。
上述的3個(gè)樣本數(shù)據(jù)集都采用人類微生物計(jì)劃[13]所制定的標(biāo)準(zhǔn),來預(yù)處理宏基因測(cè)序數(shù)據(jù),首先使用FastQC和MultiQC對(duì)原始測(cè)序數(shù)據(jù)進(jìn)行質(zhì)量控制處理,接著利用工具KneadData對(duì)經(jīng)過質(zhì)量控制的序列去除宿主污染得到純凈序列,最后使用默認(rèn)的參數(shù)在純凈的測(cè)序數(shù)據(jù)上運(yùn)行MetaPhlAn2來生成物種組成表,測(cè)序數(shù)據(jù)處理流程如圖1所示,宏基因組數(shù)據(jù)經(jīng)過處理后得到的物種組成表如表1所示。
表1 部分原始數(shù)據(jù)Table 1 Part of raw data
圖1 測(cè)序數(shù)據(jù)處理流程圖Fig. 1 Sequencing data processing flowchart
由于宏基因測(cè)序數(shù)據(jù)包含成千上萬個(gè)微生物DNA序列,并且每個(gè)微生物可能具有數(shù)千到數(shù)百萬個(gè)基因。同時(shí),每個(gè)樣本的菌群組成也可能因樣本來源、環(huán)境條件等因素存在差異,從而導(dǎo)致該類型的數(shù)據(jù)通常都是高維稀疏的,所以需要依據(jù)處理的數(shù)據(jù)集來對(duì)比選擇合適的降維、篩選方法。為了對(duì)比數(shù)據(jù)降維和特征篩選對(duì)疾病預(yù)測(cè)模型精度的影響,本文使用主成分分析(principal component analysis,PCA)[14]、自編碼器(AutoEncoder)[15]、非線性降維(T-SNE)[16]進(jìn)行數(shù)據(jù)降維、對(duì)比,使用隨機(jī)森林模型進(jìn)行特征篩選,最后進(jìn)行特征菌群的相關(guān)性分析。
加權(quán)平均融合模型(weighted average fusion model)是一種集成學(xué)習(xí)方法[17],通過對(duì)多個(gè)單模型的預(yù)測(cè)結(jié)果進(jìn)行加權(quán)平均,從而得到最終的預(yù)測(cè)結(jié)果。通過對(duì)比子模型的預(yù)測(cè)結(jié)果和真實(shí)值之間的關(guān)系,設(shè)定權(quán)重值來降低模型融合后的預(yù)測(cè)誤差。在分類問題中,加權(quán)平均集成算法在二分類和多分類問題上均表現(xiàn)出更高的預(yù)測(cè)精度。本實(shí)驗(yàn)使用支持向量機(jī)(support vector machine,SVM)[18]、極度梯度提升樹(extreme gradient boosting,XGBoost)[19]、多層感知機(jī)(multilayer perceptron,MLP)[20]3個(gè)子模型進(jìn)行預(yù)測(cè),并采用加權(quán)平均來判定各子模型的預(yù)測(cè)結(jié)果與真實(shí)值的差異。本文使用了3種不同的加權(quán)融合方法,即軟投票[21]、Stacking[22]和加權(quán)平均,并通過可視化方式進(jìn)行預(yù)測(cè)結(jié)果的對(duì)比。比較T-SNE降維和隨機(jī)森林特征選擇后每種融合模型預(yù)測(cè)結(jié)果指標(biāo),分析了隨機(jī)森林篩選出的特征菌群的重要程度,闡明各特征菌群在各個(gè)疾病發(fā)生發(fā)展過程中發(fā)揮的潛在性作用,實(shí)驗(yàn)的整體流程如圖2所示。
圖2 實(shí)驗(yàn)流程圖Fig. 2 Experimental flowchart
在加權(quán)平均融合模型中,每個(gè)單一模型的預(yù)測(cè)結(jié)果被賦予一個(gè)權(quán)重,權(quán)重的大小反映了這個(gè)模型的預(yù)測(cè)能力。一般來說,權(quán)重越大的模型對(duì)最終預(yù)測(cè)結(jié)果的貢獻(xiàn)越大。
本文采用排序法是一種常見的加權(quán)平均模型融合技術(shù),它可以基于單一模型在一些表現(xiàn)指標(biāo)上的表現(xiàn),為每個(gè)單一模型分配一個(gè)權(quán)重,以此來組合多個(gè)單一模型的預(yù)測(cè)結(jié)果,從而得到最終的預(yù)測(cè)結(jié)果。這種方法的基本原理是根據(jù)單一模型在各個(gè)表現(xiàn)指標(biāo)上的表現(xiàn)來為它們賦予不同的權(quán)重,從而使得在預(yù)測(cè)結(jié)果中表現(xiàn)更好的單一模型能夠產(chǎn)生更大的影響,而表現(xiàn)較差的單一模型則產(chǎn)生較小的影響。加權(quán)平均融合中基于表現(xiàn)指標(biāo)的排序法的公式見式(1)。
其中,k是評(píng)價(jià)指標(biāo)的數(shù)量,wj是第j個(gè)指標(biāo)的權(quán)重,滿足=1。
為了在加權(quán)平均融合中確定每個(gè)單一模型的權(quán)重,可以使用式(2)計(jì)算。
其中,n表示單一模型的數(shù)量,si表示第i個(gè)單一模型的總體得分,表示所有單一模型的總體得分之和。
具體來說,基于表現(xiàn)指標(biāo)的排序法通常包含以下步驟:①選擇一些表現(xiàn)指標(biāo),這些指標(biāo)應(yīng)該能夠反映單一模型的預(yù)測(cè)能力,例如準(zhǔn)確率、精度、召回率、F1分?jǐn)?shù)等;②對(duì)每個(gè)單一模型在這些指標(biāo)上進(jìn)行評(píng)估,并計(jì)算它們?cè)诟鱾€(gè)指標(biāo)中的得分;③根據(jù)各個(gè)指標(biāo)的重要性,為每個(gè)指標(biāo)賦予一個(gè)權(quán)重;④對(duì)于每個(gè)單一模型,將它在每個(gè)指標(biāo)上的得分乘以對(duì)應(yīng)的權(quán)重,并對(duì)乘積求和,從而得到該單一模型的總體得分;⑤根據(jù)每個(gè)單一模型的總體得分,為它們分配一個(gè)權(quán)重,從而在加權(quán)平均融合中確定它們的貢獻(xiàn)度。
本文選取的評(píng)價(jià)指標(biāo)有精確率(precision)、準(zhǔn)確率(accuracy)和ROC曲線下的面積(AUC),評(píng)價(jià)指標(biāo)按公式(3)~(5)計(jì)算。
其中,TP表示真正例,TN表示真負(fù)例,F(xiàn)P表示假正例,F(xiàn)N表示假負(fù)例,rankinsi代表第i條樣本的序號(hào),M、N各自代表了正樣本數(shù)量及負(fù)樣本數(shù)量,∑insi∈positiveclass是遍歷所有的正樣本,并累加其序號(hào)。
使用PCA、AutoEncoder、T-SNE 3種方法對(duì)3種疾病的物種組成表進(jìn)行數(shù)據(jù)降維,接著可視化降維后3種疾病數(shù)據(jù)各個(gè)特征之間的分布(圖3~5)。從降維后的特征分布圖看出T-SNE的效果要好于PCA和AutoEncoder,經(jīng)過AutoEncoder降維后的數(shù)據(jù)整體分布效果要好于PCA,這是因?yàn)門-SNE是一種非線性降維算法,相比于PCA,它可以更好地捕捉數(shù)據(jù)中的非線性結(jié)構(gòu)。對(duì)于AutoEncoder來說,深度學(xué)習(xí)方法可以快速將高維數(shù)據(jù)降到低維,但由于AutoEncoder無法學(xué)習(xí)菌群特征之間的復(fù)雜結(jié)構(gòu),故在處理高維稀疏的宏基因測(cè)序數(shù)據(jù)時(shí),通過T-SNE降維之后的數(shù)據(jù)分布更加均衡,最后將經(jīng)過T-SNE降維后組成的新數(shù)據(jù)作為模型的輸入數(shù)據(jù)。
圖3 肝硬化數(shù)據(jù)降維圖Fig. 3 Dimensionality reduction diagram of liver cirrhosis data
圖4 肥胖癥數(shù)據(jù)降維圖Fig. 4 Dimensionality reduction diagram of obesity data
圖5 糖尿病數(shù)據(jù)降維圖Fig. 5 Dimensionality reduction diagram of diabetes data
使用隨機(jī)森林模型對(duì)物種組成表進(jìn)行特征篩選,設(shè)定好特征重要性閾值,將原始特征中重要性高于閾值的特征篩選出來,并由低到高呈現(xiàn)出來(表2),組成新的數(shù)據(jù)作為模型的輸入,對(duì)比T-SNE降維產(chǎn)生的數(shù)據(jù),觀察是否對(duì)模型精度產(chǎn)生影響。
表2 3種數(shù)據(jù)經(jīng)過特征選擇后的特征菌群Table 2 Three types of data with characteristic microbial communities after feature selection
最后對(duì)降維后篩選出的數(shù)據(jù)進(jìn)行相關(guān)性分析(圖6),以便理解特征之間的關(guān)系,確定哪些特征菌群對(duì)目標(biāo)變量的影響最大,這有助于建立更準(zhǔn)確的預(yù)測(cè)模型。另外,檢測(cè)多個(gè)特征菌群之間是否存在高度相關(guān)性[23],這種情況可能導(dǎo)致模型過擬合或不穩(wěn)定,同時(shí),需要注意避免選擇過多的特征,以避免過擬合和降低模型的泛化能力。因此,在選擇特征時(shí),需要綜合考慮各個(gè)特征菌群的相關(guān)性、重要性和可解釋性等因素,選擇最具有代表性的菌群進(jìn)行建模。
圖6 3種疾病數(shù)據(jù)特征相關(guān)性分析Fig. 6 Correlation analysis of three disease data features
將加權(quán)融合模型與其他2種模型融合方法(軟投票、Stacking)的性能進(jìn)行了基準(zhǔn)測(cè)試。使用肝硬化、2型糖尿病和肥胖癥數(shù)據(jù)集交叉驗(yàn)證了模型的準(zhǔn)確性,方便與現(xiàn)有的模型進(jìn)行比較。在表3中,對(duì)數(shù)據(jù)使用T-SNE降維,加權(quán)平均模型在肝硬化數(shù)據(jù)集上執(zhí)行的交叉驗(yàn)證的AUC值為0.5901,在2型糖尿病數(shù)據(jù)集上執(zhí)行的交叉驗(yàn)證的AUC值為0.5651,在肥胖癥數(shù)據(jù)集上執(zhí)行的交叉驗(yàn)證的AUC值為0.3871。
表3 經(jīng)過T-SNE降維后模型在3種數(shù)據(jù)集上交叉驗(yàn)證的結(jié)果Table 3 Cross validation results of the model on three datasets after T-SNE dimensionality reduction
對(duì)于這些數(shù)據(jù)集,使用隨機(jī)森林篩選數(shù)據(jù)特征,設(shè)定特征重要性閾值,將選擇后特征作為模型的輸入,在表4中,加權(quán)平均模型在肝硬化數(shù)據(jù)集上執(zhí)行的交叉驗(yàn)證的AUC值為0.9286,在2型糖尿病數(shù)據(jù)集上執(zhí)行的交叉驗(yàn)證的AUC值為0.6521,在肥胖癥數(shù)據(jù)集上執(zhí)行的交叉驗(yàn)證的AUC值為0.5747。
表4 經(jīng)過特征選擇后模型在3種數(shù)據(jù)集上交叉驗(yàn)證的結(jié)果Table 4 Cross validation results of the model on three datasets after feature selection
比較模型在經(jīng)過T-SNE降維和隨機(jī)森林特征篩選后的效果,發(fā)現(xiàn)經(jīng)過降維后的數(shù)據(jù)特征會(huì)影響到分類模型原本的效果,可能是因?yàn)門-SNE對(duì)數(shù)據(jù)的處理比較復(fù)雜,需要調(diào)整的參數(shù)較多,容易出現(xiàn)“擁擠”問題,并且T-SNE只能處理連續(xù)型數(shù)據(jù),不能處理離散型數(shù)據(jù),而隨機(jī)森林特征篩選則不受這個(gè)限制。因此,隨機(jī)森林特征篩選相較于T-SNE降維具有更好的效果。
為了比較3種融合模型的擬合效果,對(duì)經(jīng)過特征篩選和T-SNE降維的3種數(shù)據(jù)集中不同融合模型的AUC值進(jìn)行數(shù)據(jù)可視化。從圖7中可以看出,在使用隨機(jī)森林進(jìn)行特征篩選前加權(quán)平均的ROC曲線下的面積效果最好,經(jīng)過隨機(jī)森林模型的特征篩選后,軟投票和加權(quán)平均的ROC曲線下的面積效果最好,故加權(quán)平均融合模型在進(jìn)行特征選擇前后的綜合性能要優(yōu)于其余融合模型,是3種融合方法中表現(xiàn)最佳的。
圖7 融合模型ROC曲線下的面積圖Fig. 7 Area chart under ROC curve of fusion model
本文使用多種模型進(jìn)行宿主表型預(yù)測(cè),包括3種單一子模型和3種融合模型,以及K近鄰、邏輯回歸2種適用于宿主表型預(yù)測(cè)的機(jī)器學(xué)習(xí)模型。單一模型的預(yù)測(cè)結(jié)果在表5中展示,這些對(duì)比分析旨在證明加權(quán)平均融合模型的準(zhǔn)確性和有效性。
表5 單一模型預(yù)測(cè)結(jié)果Table 5 Prediction results of single model
使用隨機(jī)森林算法來訓(xùn)練特征篩選模型,并根據(jù)特征的重要性繪制特征重要性圖(圖8),對(duì)于加權(quán)平均模型,每個(gè)特征的重要性可以通過對(duì)該特征的權(quán)重進(jìn)行分析確定。在3種疾病數(shù)據(jù)中,每個(gè)特征代表不同的細(xì)菌。在確定每個(gè)特征的重要性時(shí),要考慮以下3個(gè)因素。①權(quán)重大小。加權(quán)平均模型中每個(gè)特征的權(quán)重表示其在模型中的重要性。權(quán)重越大,特征對(duì)模型的影響越大。②相關(guān)性。特征之間的相關(guān)性也會(huì)影響其在模型中的重要性。如果2個(gè)特征高度相關(guān),它們的權(quán)重可能會(huì)減少。③數(shù)據(jù)分布。特征在數(shù)據(jù)集中的分布也會(huì)影響其重要性。如果一個(gè)特征在數(shù)據(jù)集中出現(xiàn)的頻率很高,那么它對(duì)模型的影響可能會(huì)更大。
圖8 3種數(shù)據(jù)在模型中特征細(xì)菌的重要性Fig. 8 The importance of three types of data in characteristic bacteria in models
從圖8可以看出,在肝硬化數(shù)據(jù)中韋榮氏球菌、嗜血桿菌、鏈球菌等特征菌群的重要程度較高,消化鏈球菌、雙歧桿菌、糞芽孢菌等特征菌群在糖尿病數(shù)據(jù)中占有較高的特征重要性,而對(duì)于肥胖癥數(shù)據(jù),厭氧棍狀菌、羅氏菌、罕見小球菌等特征菌群具有較高的重要性。此外,篩選出的特征菌群并不只存在于一種疾病中,特定的菌群可以與多種疾病相關(guān)聯(lián),因此在研究微生物菌群與疾病之間的關(guān)系時(shí),要考慮不同疾病之間微生物群落的共性和差異性,從而可以更好地理解微生物群落與疾病之間的關(guān)系。
在3種疾病數(shù)據(jù)中,使用隨機(jī)森林的方法能夠篩選出多種特征菌群,比如消化鏈球菌、厭氧棍狀菌和韋榮氏球菌。較之于2型糖尿病患者,消化鏈球菌可能更有益。2型糖尿病是一種慢性疾病,通常與胰島素抵抗和胰島素缺乏有關(guān)。胰島素抵抗意味著身體無法有效地利用胰島素,而胰島素缺乏則可能導(dǎo)致血糖水平升高。研究表明,消化鏈球菌可以代謝產(chǎn)生乳酸,而這種酸可以提高胰島素敏感性[24]。對(duì)于肥胖癥來說,厭氧棍狀菌是一種有益的腸道菌群,它們?cè)谌狈ρ鯕獾沫h(huán)境中生長繁殖。研究表明,肥胖癥患者腸道中的厭氧棍狀菌數(shù)量減少,這可能導(dǎo)致代謝疾病的產(chǎn)生。而通過增加厭氧棍狀菌的攝入量,可以改善肥胖癥患者的腸道菌群平衡,降低代謝疾病的風(fēng)險(xiǎn)[25]。另外,韋榮氏球菌可能有助于改善肝硬化患者的健康狀況。一項(xiàng)研究表明,肝硬化患者腸道中的韋榮氏球菌數(shù)量減少,這可能導(dǎo)致腸道屏障的受損和炎癥反應(yīng)的增加[26]。需要注意的是,目前關(guān)于特征菌群在對(duì)應(yīng)疾病上發(fā)揮的作用還需要更多的研究來證實(shí)特征菌群對(duì)疾病患者的實(shí)際益處。這些研究都證明了本文基于隨機(jī)森林方法篩選出多種特征菌群的基礎(chǔ)上,構(gòu)建融合疾病診斷模型的合理性。
本研究通過對(duì)3種疾病的宏基因測(cè)序數(shù)據(jù)進(jìn)行疾病預(yù)測(cè)建模和特征篩選,分別選擇出與各種疾病發(fā)生發(fā)展相關(guān)的菌群特征?;陔S機(jī)森林模型篩選出的特征菌群,再使用加權(quán)平均融合方法,建立不同疾病的輔助診斷模型,同時(shí)對(duì)比了MetAML工具[9]所使用的SVM分類模型,盡管在肥胖癥數(shù)據(jù)集上,該模型的AUC值要大于加權(quán)平均模型。但在肝硬化和糖尿病數(shù)據(jù)集上,該模型的AUC值要小于加權(quán)平均模型。對(duì)比發(fā)現(xiàn)SVM模型在不同的數(shù)據(jù)集上的模型預(yù)測(cè)能力要稍弱于加權(quán)平均模型。同時(shí),加權(quán)平均融合模型選擇的特征菌群的預(yù)測(cè)準(zhǔn)確率相較于投票法和Stacking融合方法是最高的,在3種疾病數(shù)據(jù)劃分的訓(xùn)練集和測(cè)試集上均能保持相對(duì)較好的預(yù)測(cè)準(zhǔn)確率。使用加權(quán)平均融合模型,可以做到進(jìn)一步聯(lián)系腸道菌群與患者表型,再結(jié)合隨機(jī)森林方法構(gòu)建的特征菌群篩選模型,進(jìn)一步加快特征菌群在日常疾病篩查診斷上的使用??傮w來說,加權(quán)平均模型為識(shí)別與疾病相關(guān)的微生物特征和開發(fā)用于早期檢測(cè)和預(yù)防相關(guān)疾病的非侵入性診斷工具提供了一種輔助方法。
本文在研究過程中仍存在一定的不足,例如所獲取的疾病數(shù)據(jù)量有限,未能充分考慮疾病數(shù)據(jù)樣本量對(duì)模型的影響。因此,下一步的研究需要擴(kuò)大數(shù)據(jù)收集的疾病種類,以涵蓋更廣泛的疾病,從而提高融合模型的覆蓋面和適用性,更全面地驗(yàn)證融合模型的效果,提高模型的準(zhǔn)確性和泛化能力。