[摘 要]目的 探討孤獨癥譜系障礙(ASD)患兒和健康兒童之間腸道菌群組成的差異,并使用機器學習算法構(gòu)建疾病篩查模型,提供基于腸道菌群生物標志物的非侵入性孤獨癥篩查手段。方法 本研究于2019年12月至2023年4月,在濟南市、遵義市、香港特別行政區(qū)以及上海市招募149名2.5~4.5歲孤獨癥兒童為孤獨癥組,按年齡、性別1∶1匹配的149名健康兒童為對照組,采集糞便樣本,通過16S rRNA基因V3-V4區(qū)測序收集兩組兒童腸道菌群相關(guān)指標(α多樣性、β多樣性以及差異物種)。在屬水平,使用隨機森林、支持向量機、K近鄰算法、樸素貝葉斯分類器4種機器學習算法在模型開發(fā)數(shù)據(jù)集中構(gòu)建孤獨癥分類模型,識別最具判別性的菌屬組合,并評估模型在兩個獨立外部測試數(shù)據(jù)集中的泛化能力。結(jié)果 ①孤獨癥組的菌群多樣性顯著高于對照組(Chao指數(shù)=118.00、105.00,Shannon指數(shù)=3.46、3.00,P=0.023、0.001)。②孤獨癥兒童和對照兒童腸道菌群結(jié)構(gòu)存在顯著差異(F=5.198,R2=0.052,P<0.001)。③共篩選出14個特征菌屬。其中孤獨癥組中豐度較高的菌屬為Phocaeicola、Anaerobutyricum、Faecalibacterium、Blautia、Oscillibacter、Lachnospira、Parabacteroides、Flintibacter和Anthropogastromicrobium,對照組中豐度較高的菌屬為Ruthenibacterium、Flavonifractor、Bifidobacterium、Anaerostipes和Eisenbergiella。④基于14個菌屬組合的隨機森林模型在模型開發(fā)數(shù)據(jù)上具有最優(yōu)分類性能,訓練集中曲線下面積(AUC)為100%(95%CI:100%~100%),驗證集中AUC為93.94%(95%CI:88.13%~99.74%)。在兩個獨立的外部測試集中,樸素貝葉斯模型則展現(xiàn)出最佳的泛化性能,AUC分別為63.83%(95%CI:51.99%~75.67%)和60.19%(95%CI:47.83%~72.55%)。結(jié)論 孤獨癥和健康兒童腸道微生物群落存在顯著差異,且特定腸道生物標志物對孤獨癥疾病狀態(tài)具有分類能力,提示腸道微生物具有作為兒童早期孤獨癥無創(chuàng)篩查標志物的潛在作用。
[關(guān)鍵詞]腸道菌群;孤獨癥;兒童;生物標志物;機器學習;16S rRNA
Doi:10.3969/j.issn.1673-5293.2024.07.001
[中圖分類號]R174;R179[文獻標識碼]A
[文章編號]1673-5293(2024)07-0001-11
Characteristic analysis of gut microbiota and screening model
construction in children with autism spectrum disorder
[Abstract] Objective To investigate the differences of gut microbiota composition between children with autism spectrum disorder (ASD) and health children,and to construct a disease screening model using machine learning algorithm to provide a non-invasive method for autism screening based on biomarkers of gut microbiota. Methods From December 2019 to April 2023,this study recruited 149 ASD children aged 2.5 to 4.5 years from Jinan,Zunyi,Hong Kong and Shanghai,as the autism group.Additionally,149 healthy children matched 1∶1 by age and gender were recruited as the control group.Fecal samples were collected,and gut microbiota-related indices were gathered through 16S rRNA gene V3-V4 region sequencing for both groups.At the genus level,four machine learning algorithms,random forest,support vector machine,K-nearest neighbors,and naive bayes classifier,were used to construct an autism classification model in the model development dataset,identifying the most discriminative bacterial genus combinations,and the generalization ability of the models was evaluated in two independent external test datasets. Results ①The gut microbiota diversity of the autism group was significantly higher than that in the control group (Chao index=118.00,105.00; Shannon index=3.46,3.00; P=0.023,0.001).②There were significant differences in gut microbiota structure between autism children and control children (F=5.198,R2=0.052,P<0.001).③A total of 14 characteristic genera were identified.The genera with higher abundance in the autism group were Phocaeicola,Anaerobutyricum,F(xiàn)aecalibacterium,Blautia,Oscillibacter,Lachnospira,Parabacteroides,F(xiàn)lintibacter,and Anthropogastromicrobium,and the genera with higher abundance in the control group were Ruthenibacterium,F(xiàn)lavonifractor,Bifidobacterium,Anaerostipes,and Eisenbergiella.④The random forest model based on the combination of 14 genera showed the best classification performance in the model development dataset,with the training set AUC of 100% (95%CI:100%-100%) and validation set AUC of 93.94%(95%CI:88.13%-99.74%).In two independent external test datasets,the Naive Bayes model showed the best generalization performance,with AUC of 63.83%(95%CI:51.99%-75.67%) and 60.19%(95%CI:47.83%-72.55%),respectively. Conclusion There are significant differences in the gut microbiota communities between autism children and control children,and specific gut microbiota biomarkers have the capability to classify autism disease states,suggesting that gut microbiota has potential significance as a non-invasive screening biomarker for early autism detection in children.
[Key words] gut microbiota;autism;children;biomarkers;machine learning;16S rRNA
孤獨癥譜系障礙(autism spectrum disorder,ASD),以下簡稱孤獨癥或ASD,是一種復雜的發(fā)生在生命早期的神經(jīng)發(fā)育障礙性疾病,以社交障礙、興趣狹隘、刻板行為及不尋常的感官反應等為特征[1]。美國疾病控制與預防中心(Centers for Disease Control and Prevention,CDC)的調(diào)查數(shù)據(jù)顯示,2020年8歲兒童ASD患病率為2.76%,較2018年增長近22%[2]。而中國ASD發(fā)病率從2000年的2.80/10 000增長至2015年的63/10 000[3]。而當前孤獨癥尚無標準化且嚴格的診斷標準,缺乏明確的生物標志物來輔助診斷[4]。既往研究表明,孤獨癥兒童相較于對照組,其腸道菌群的生物量、豐富度和多樣性存在顯著差異[5]。為了進一步探索孤獨癥生物標志物,目前已有研究利用機器學習算法中的隨機森林模型進行探索,然而該領(lǐng)域仍處于不斷發(fā)展與完善的階段[6]。因此,本研究旨在分析孤獨癥與健康兒童腸道菌群的特征差異,并借助四種機器學習算法,構(gòu)建孤獨癥的早期篩查模型,以在生命早期及時識別孤獨癥,為無創(chuàng)生物篩查工具提供參考。
1材料與方法
1.1研究對象選擇
本研究于2019年12月至2023年4月共納入298例年齡2.5~4.5歲的受試者進行篩查模型開發(fā)構(gòu)建。孤獨癥組共149例,其中101例于山東省濟南市中心醫(yī)院兒??凭驮\ASD患兒中招募,48例于貴州省遵義市孤獨癥康復中心的孤獨癥患兒中招募。按性別和年齡1∶1匹配的健康兒童,即神經(jīng)典型(neurotypical,NT)發(fā)育兒童共149例為對照組,其中117名來自上海市閔行區(qū)出生隊列,另有32名兒童來自香港特別行政區(qū)(原始數(shù)據(jù)下載自NCBI,BioProject ID:912769,網(wǎng)站:https://www.ncbi.nlm.nih.gov/bioproject/?term=PRJNA912769)。孤獨癥的診斷由兒科醫(yī)生根據(jù)第五版《精神障礙診斷與統(tǒng)計手冊》的標準進行[3]。納入標準:參加研究前至少1個月沒有服用抗生素、益生菌或其他可能影響腸道微生物群的藥物。排除標準:在過去一年中有精神分裂癥、其他精神疾病、情緒障礙和癲癇發(fā)作的患者。
選擇兩個獨立的外部測試隊列來評估模型的泛化能力。一個隊列包括來自韓國的85名受試者(38名對照,47名孤獨癥),而另一個隊列包括來自厄瓜多爾的50名受試者(27名對照,23名孤獨癥)和來自意大利的23名受試者(13名對照,10名孤獨癥)。外部測試數(shù)據(jù)從NCBI下載(BioProject ID:PRJEB45948、PRJEB27306、PRJEB29421,網(wǎng)站:https://www.ncbi.nlm.nih.gov/bioproject/?term=PRJEB45948、 https://www.ncbi.nlm.nih.gov/bioproject/?term=PRJEB27306、https://www.ncbi.nlm.nih.gov/bioproject/?term=PRJEB29421)。
本研究的實施方案已通過上海市生物醫(yī)藥技術(shù)研究院倫理委員會的審查,并獲得批準(PJ2019-17)。在充分詳盡地解釋研究內(nèi)容后,所有參與的研究對象及其監(jiān)護人均自愿簽署知情同意書。
1.2糞便樣本采集
將帶有保護液的分體式糞便采集器(江蘇一米科技,中國)交予對象及其監(jiān)護人,保證采樣當天身體狀態(tài)良好,與平時相比無特殊不適癥狀。采集的樣本在回收后,立即存放于-80 ℃的超低溫冰箱中。
1.3腸道菌群測定
采用QIAamp PowerFecal Pro DNA Kit糞便抽提試劑盒(QIAGEN,德國)對樣本的基因組DNA進行提取。取稀釋后的DNA 1μL,使用TransStart Fastpfu DNA聚合酶(北京全式金生物,中國),和帶有不同Barcode(樣品標簽)的特異性引物338F(5′-ACTCCTACGGGAGGCAGCAG-3′)和806R(5′-GGACTACHVGGGTWTCTAAT-3′),對樣本的16S rRNA基因的V3-V4區(qū)進行聚合酶鏈式反應(polymerase chain reaction,PCR)擴增。PCR產(chǎn)物用QIAquick PCR純化試劑盒(QIAGEN,德國)進行純化,然后Qubit定量,所有樣本的PCR產(chǎn)物等量混合。用TransNGS DNA Library Prep Kit for Illumina(北京全式金生物,中國)對PCR產(chǎn)物進行文庫構(gòu)建,構(gòu)建好的文庫經(jīng)定量和文庫檢測合格后,采用Illumina MiSeq測序儀(Illumina,美國)進行2×300bp的雙端測序。
1.4生物信息學分析
1.4.1上游分析
測序完成后,在去除樣本中Barcode特異性引物的基礎(chǔ)上,對得到的原始序列數(shù)據(jù)執(zhí)行生物信息學的上游分析。首先對雙端測序得到的成對末端(paired end,PE)序列數(shù)進行拼接。使用Quantitative Insights Into Microbial Ecology 2(QIIME,美國)軟件處理,通過插件dada2對序列進行過濾和剪切處理,移除上下游引物,并去除冗余的序列,保留一組唯一的代表序列集合,構(gòu)建參數(shù)誤差模型來推測真實的序列并進行去噪,從而構(gòu)建擴增子序列變異體(amplicon sequence variant,ASV)表格。接著利用軟件RDP classifier確定ASV序列的分類信息(門、綱、目、科、屬),閾值設定為0.8,菌種注釋采用生物大分子序列比對搜索工具(basic local alignment search tool,BLAST)中的BLASTn與SILVA參考數(shù)據(jù)庫(網(wǎng)站:https://www.arb-silva.de/,版本138.1),和美國國家生物技術(shù)信息中心(National Center for Biotechnology Information,NCBI)數(shù)據(jù)庫進行比對,置信閾值設定:identity>97%、alignment>97%,以具有最高匹配分值的菌種作為該代表序列的物種名稱。
1.4.2下游分析
在R 4.2.2中主要使用了“amplicon”和“vegan”包來進行生物信息學下游分析,包括α多樣性指標(衡量單個樣本內(nèi)部的多樣性水平)和β多樣性指標(衡量組間的微生物群落結(jié)構(gòu)差異)。本研究主要采用的α多樣性指標為Chao指數(shù)(估計群落中ASV的數(shù)目,值越大表示豐富度越高)和Shannon指數(shù)(同時考慮豐富度和均勻度,值越大表示多樣性越高)。兩組間α多樣性指數(shù)的統(tǒng)計學差異采用Mann-Whitney U檢驗。采用基于Bray-Curtis距離矩陣的主坐標分析(principal coordinates analysis,PCoA)可視化腸道菌群組成差異,并使用置換多元方差分析(permutational multivariate analysis of variance,PerMANOVA)確定孤獨癥組與對照組細菌結(jié)構(gòu)差異的顯著性。在置換999次的基礎(chǔ)上,進行組間差異的顯著性分析,P<0.05表示差異有統(tǒng)計學意義。
1.5基于機器學習構(gòu)建篩查模型
1.5.1特征選擇
使用機器學習構(gòu)建篩查模型之前,有必要采用多種特征選擇技術(shù)的組合來篩選出有重要貢獻的菌屬。第一種方法涉及使用STAMP軟件基于錯誤發(fā)現(xiàn)率(1 discovery rate,F(xiàn)DR)的Welch’s 雙側(cè)t檢驗分析,F(xiàn)DR<0.05的菌屬具有統(tǒng)計學顯著差異。然后利用主成分分析(principal component analysis,PCA)篩選出方差貢獻率(每個主成分占整個數(shù)據(jù)集方差的比例)超過1%的菌屬。最后,采用線性判別分析(linear discriminant analysis,LDA)在線工具(網(wǎng)站:http://huttenhower.sph.harvard.edu/galaxy/)篩選組間有差異的物種。該方法首先應用Kruskal-Wallis H檢驗篩選顯著差異物種,再通過Wilcoxon檢驗組間差異一致性,最后用LDA評估物種豐度對差異的貢獻。本研究中設置的Log(LDA)的閾值為3,超過該閾值即認定該菌在兩組之間存在顯著差異。采用FDR對P值進行調(diào)整,以校正后的q<0.05作為相對豐度在兩組間差異有統(tǒng)計學意義的判斷標準。將上述組合方法確定的屬納入模型。
為了識別特征噪聲,避免模型過擬合,反復調(diào)整特征子集,使模型性能最大化。使用R 4.2.2中的“Boruta”包創(chuàng)建隨機陰影變量,并反復比較特征變量的重要性得分即Z-score,來識別重要變量。將每個菌屬的Z-score與最大陰影屬性(maximum Z-score among shadow attributes,MZSA)的Z-score進行比較,認為各特征菌屬的Z-score顯著高于MZSA的屬為重要屬。此外,采用隨機森林交叉驗證方法進行遞歸特征消除,識別出模型錯誤率最低的最優(yōu)變量組合,并得到各特征的重要度排序,利用最后篩選出的差異特征構(gòu)建模型。
1.5.2篩查模型構(gòu)建
在模型開發(fā)數(shù)據(jù)集中,298例樣本(孤獨癥為149例,對照為149例)被隨機劃分為80%的訓練集和20%的驗證集。在訓練集中采用內(nèi)部5次十折交叉驗證法(fold=10),即將訓練數(shù)據(jù)分成10個子集,每次使用其中1個子集作為驗證集,其余作為訓練集,重復5次以獲得穩(wěn)定的性能評估結(jié)果,最終取平均性能作為評估結(jié)果,進行超參數(shù)選擇,并對留存的驗證集進行模型評價,從而構(gòu)建最優(yōu)模型。將構(gòu)建好的最優(yōu)模型在外部測試數(shù)據(jù)集中進行測試,以評估模型泛化能力。
使用R 4.2.2中的“randomForest”和“e1071”包,使用隨機森林(random forest,RF)、支持向量機(support vector machine,SVM)、K近鄰算法(K-nearest neighbor,KNN)和樸素貝葉斯分類器(naive bayes classifier,NBC)四種機器學習篩查模型來區(qū)分孤獨癥與對照,并明確特定的生物標志物。完整的機器學習篩查模型構(gòu)建和外部測試流程(見圖1)。
1.5.3模型結(jié)果評價和可視化
利用R 4.2.2中“pROC”和“caret”包,進行受試者工作特征(receiver operating characteristic,ROC)和曲線下面積(area under the curve,AUC)的計算,并繪制ROC曲線。AUC值介于0.5與1之間,越接近1,說明模型的分類性能越好,反應模型的總體表現(xiàn)。使用機器學習評估指標衡量模型的性能,包括準確率、召回率、精度、馬修斯相關(guān)系數(shù)(Matthews correlation coefficient,MCC)。
2結(jié)果
2.1孤獨癥組與對照組兒童基本信息
孤獨癥組149例患兒平均年齡3.9歲(年齡范圍在2.5~4.5歲),對照組149例健康兒童平均年齡3.8歲(年齡范圍在3.0~4.0歲)。兩組男女比例為1∶1,均為男性115例,女性34例。孤獨癥組101例(67.8%)來自華北地區(qū)的濟南,48例(32.2%)來自西南地區(qū)的遵義。在對照組中,117例兒童(78.5%)來自華東地區(qū)的上海,32名兒童(21.5%)來自中國華南地區(qū)的香港特別行政區(qū)。
2.2孤獨癥組與對照組兒童腸道菌群組成
完成質(zhì)量控制和去除冗余序列后,298份兒童糞便樣本中總共獲得了12 374 919條高質(zhì)量的序列,最低為10 647條,最高為316 537條,均一化分析用數(shù)據(jù)量為10 647條。本次共聚類4 995個ASV,分屬于338個屬。在338個屬中,有67個屬在至少一個組中相對豐度大于0.1%,占孤獨癥組總豐度的97.5%,占對照組總豐度的98%。根據(jù)不同的測序深度構(gòu)建稀釋曲線(見圖2A),稀釋曲線呈現(xiàn)明顯的平臺期,所有樣本的采樣覆蓋率都很高,說明本次測序深度已經(jīng)足夠覆蓋樣本中大部分的物種,測序深度足以進行后續(xù)的糞便微生物群研究。
兩組的α多樣性分析顯示,孤獨癥組的Chao指數(shù)[118.00(93.50,154.00) vs. 105.00(75.00,135.00),P=0.023]和Shannon指數(shù)[3.46(3.04,3.80) vs. 3.00(2.56,3.48),P=0.001]顯著高于對照組,說明孤獨癥組具有更高的豐度和多樣性(見圖2B、圖2C)。進一步基于年齡分層進行α多樣性分析。與2.5~3.5歲亞組相比,對照組3.5~4.5歲亞組的Chao指數(shù)顯著增加(P<0.05),而孤獨癥組無顯著變化(P>0.05)(見圖2D),對照組3.5~4.5歲亞組的Shannon指數(shù)較2.5~3.5歲亞組顯著升高(P<0.05),而孤獨癥組的變化仍無統(tǒng)計學意義(P>0.05)(見圖2E)。通過比較兩組在門水平上的相對豐度(見圖2F),孤獨癥組厚壁菌門(Bacillota)和擬桿菌門(Bacteroidota)的比值顯著低于對照組(P<0.05)。
2.3孤獨癥和對照組兒童腸道菌群結(jié)構(gòu)差異
基于Bray-Curtis距離進行的PCoA可視化結(jié)果(見圖3),孤獨癥組與對照組的糞便微生物群落展現(xiàn)一定程度的重疊。在PCoA中,能夠最大程度區(qū)分所有樣本的兩個主要坐標軸解釋了7.18%和11.34%的差異。進一步通過PerMANOVA評估β多樣性,結(jié)果表明兩組間的微生物群落在整體分布上呈現(xiàn)出顯著性差異(F=5.198,R2=0.052,P<0.001)。
2.4差異物種選擇
首先通過Welch’s t檢驗(雙側(cè)),識別出30個FDR<0.05的屬作為差異菌屬。另外,PCA識別出15個方差貢獻率超過1%的菌屬,將這15個重要菌屬從高到低排序,占總方差的98.3%。使用線性判別分析(linear discriminant analysis effect size,LEfSe)識別孤獨癥組與對照組中有差異的物種,設定LDA分值為3.0,篩選LDA>3.0且FDR(調(diào)整后的P值)<0.05的物種作為組間差異物種,獲得34個差異菌屬。結(jié)合這三種方法篩選的變量,共有53個差異菌屬被納入篩查模型。
考慮到53個屬可能存在的冗余性,使用R語言的“Boruta”包算法進一步進行特征篩選,最后共有28個菌屬的重要性得分大于最大陰影屬性,在重要性圖中被標記為綠色(見圖4A)。最后,使用R語言中的“rfcv”函數(shù)進行5次十折交叉驗證,發(fā)現(xiàn)當篩查模型中包含14個菌屬時,模型錯誤率最低(見圖4B)。根據(jù)“MeanDecreaseGini”重要性指數(shù),分類能力最高的菌屬是Ruthenibacterium。其中,發(fā)現(xiàn)9個菌屬在孤獨癥兒童中富集,這些屬包括Phocaeicola、Anaerobutyricum、糞桿菌屬(Faecalibacterium)、經(jīng)黏液真桿菌屬(Blautia)、顫螺菌屬(Oscillibacter)、毛螺菌屬(Lachnospira)、Parabacteroides、Flintibacter和Anthropogastromicrobium。而在對照組中,Ruthenibacterium、Flavonifractor、雙歧桿菌(Bifidobacterium)、Anaerostipes和Eisenbergiella的豐度較高(見圖4C)。最后篩選出的14個菌屬在孤獨癥組中的總豐度達49.26%,在對照組中為38.65%(見表1)。
2.5機器學習模型
為了測試潛在的生物標志物是否可以用于孤獨癥患病狀態(tài)的分類,使用機器學習算法基于14個菌屬建立了孤獨癥篩查模型。計算RF、SVM、KNN、NBC這四種分類算法在開發(fā)模型數(shù)據(jù)集中訓練集和驗證集上的正確率、召回率、精度和MCC指標。從可以看出,隨機森林分類器在訓練數(shù)據(jù)集(準確率=1,召回率=1,精度=1,MCC=1)和驗證數(shù)據(jù)集(準確率=0.84,召回率=0.79,精度=0.88,MCC=0.69)上都表現(xiàn)出較好的預測性能,AUC分別為100%(95%CI:100%~100%)和93.94%(95%CI:88.13%~99.74%)(見表2、圖5A、圖5B)。
運用兩個獨立外部測試隊列對上述構(gòu)建的四種分類模型進行評估。表2的外部測試結(jié)果表明,樸素貝葉斯模型在外部測試數(shù)據(jù)集1(準確率=0.56,召回率=0.83,精度=0.57,MCC=0.08)和外部測試數(shù)據(jù)集2(準確率=0.56,召回率=0.61,精度=0.51,MCC=0.13)中均具有更好的泛化能力,AUC值分別為63.83%(95%CI:51.99%~75.67%)和60.19%(95%CI:47.83%~72.55%)(見表2、圖5C、圖5D)。雖然這4個模型均能區(qū)分孤獨癥和對照,但與開發(fā)模型數(shù)據(jù)分類結(jié)果相比,對外部測試數(shù)據(jù)的分類性能有所下降。
3討論
3.1機器學習特征篩選
本研究基于腸道菌群數(shù)據(jù),使用不同機器學習模型進行疾病狀態(tài)的預測。盡管機器學習目前在國內(nèi)外研究中取得了巨大突破和應用潛力,但個體間腸道菌群組成的顯著差異仍然給模型應用的有效性帶來了嚴峻挑戰(zhàn)。傳統(tǒng)的孤獨癥預測模型通常依賴于LEfSe方法進行差異菌群的篩選。然而,由于LEfSe分析基于非參數(shù)檢驗,可能導致較高假陰性率[7]。為減少假陰性率,本文采用了三種不同的方法(LEfSe、STAMP和PCA)聯(lián)合識別預測特征變量,并篩選出53個菌屬作為預測模型的候選特征。由于菌屬間可能存在的冗余性,進一步篩選有助于降低模型的復雜性,減少泛化誤差,并提升模型的預測性能和可解釋性。Boruta算法很好改善模型泛化誤差,通過向系統(tǒng)添加隨機性來降低隨機波動和相關(guān)性的潛在干擾,更準確地揭示特征與疾病狀態(tài)之間的內(nèi)在關(guān)聯(lián)。與基于單個隨機森林的特征選擇方法相比,Boruta算法通常能夠產(chǎn)生更為穩(wěn)定的結(jié)果[8]。最終構(gòu)建的預測模型包含了14個錯誤率最低的屬,其中五個屬(Anthropogastromicrobium、Bifidobacterium、Flavonifractor、Flintibacter和Oscillibacter)先前在LEfSe分析中并未被識別。這14個菌屬的豐度在孤獨癥患者中達到49.26%,在對照組中為38.65%。此外,篩選出的生物標志物在兩組之間的豐度變化范圍為0.12%至9.12%。
在傳統(tǒng)的疾病研究中,顯著性檢驗主要用于尋找差異特征,但這種方法在研究復雜的神經(jīng)發(fā)育障礙時可能會忽略關(guān)鍵預測因子[9]。有研究者[10]指出,預測模型篩選出的變量可能包括在人類腸道微生物組成中未顯示統(tǒng)計學顯著性的預測因子。最終選定的14個預測因子中,有四個屬在STAMP分析中并未顯示統(tǒng)計學顯著性,但很可能影響大腦功能。Parabacteroides已被發(fā)現(xiàn)與一系列精神疾病的高水平相關(guān),包括重性抑郁障礙和雙相情感障礙[11]。已有研究發(fā)現(xiàn)Faecalibacterium與一些參與干擾素γ表達的基因上調(diào)和下調(diào)有關(guān),干擾素是胎兒發(fā)育過程中與ASD相關(guān)的細胞因子[12]。炎癥環(huán)境被認為與ASD的發(fā)生發(fā)展有關(guān),Blautia可通過其代謝物減少炎癥和代謝狀態(tài),并具有抗菌能力[13]。Anaerostipes主要與丁酸鹽的產(chǎn)生有關(guān)[14],可能通過短鏈脂肪酸的作用影響ASD的發(fā)生。雖然以上4個菌屬在統(tǒng)計學上無顯著性差異,但兩組的絕對變化均較高。豐度差異最大的是Phocaeicola,達到了9.12%。動物研究表明Phocaeicola與認知有關(guān),在社交焦慮小鼠中檢測到更多的Phocaeicola masiliensis[15]。
3.2機器學習模型構(gòu)建
利用預測模型尋找兒童早期孤獨癥的生物標志物目前尚處于探索階段。Zhao等[16]使用更適合小樣本研究的支持向量機分類模型,篩選出對模型貢獻最大的15個優(yōu)勢菌屬,AUC為0.88。在探究疾病分類的機器學習算法方面,一項研究表明當使用來自不同隊列的年齡和性別匹配的孤獨癥和對照樣本構(gòu)建預測模型時顯示出良好的分類性能(AUC>0.87)。而結(jié)合所有樣本進行建模時,模型預測性能下降(AUC=0.78)[17]??梢酝茢?,不同種群之間的微生物異質(zhì)性阻礙了分類績效的有效性。這與我們目前的研究是一致的。隨機森林模型顯示,來自中國四個不同地區(qū)的年齡和性別匹配的孤獨癥和正常兒童之間存在更好的分辨能力,突出了兩組之間的微生物差異。雖然將該模型的預測擴展到兩個外部跨隊列數(shù)據(jù)集仍然可以預測ASD,但其預測性能明顯下降。由此可見,中國不同地區(qū)飲食差異造成的混雜因素可能人為地提高了分類性能。在外部測試和開發(fā)隊列之間的受試者之間的基線不平衡可能影響概括結(jié)果的能力。預測模型的有效性因地區(qū)和人口而異。
完整的預測模型研究應該包括模型的內(nèi)部和外部測試。開發(fā)隊列分為80%的訓練集和20%的驗證集。在訓練集通過內(nèi)部十倍交叉驗證選擇最優(yōu)超參數(shù),以提高選擇結(jié)果的可靠性,避免過擬合問題[18]。外部效度反映了模型的一般性,需要使用非來自研究本身的數(shù)據(jù)集進行驗證,這些數(shù)據(jù)集與時間無關(guān)或地理上相互獨立[19]。因此在本研究中,我們選擇了兩個完全獨立于開發(fā)隊列的外部數(shù)據(jù)集來驗證模型的泛化能力。
3.3機器學習模型評價
當處理不平衡的數(shù)據(jù)集時,準確性會被高估,因為它沒有完全考慮最終分數(shù)計算中混淆矩陣的四分類的大小。召回率和精確度的側(cè)重點不一樣,更關(guān)注于找到盡可能多的陽性患者和測量模型對陽性患者的預測準確性[20]。在臨床實際應用中,可根據(jù)不同的目的選擇不同的評價指標。AUC高意味著模型對正樣本的預測概率高于對負樣本的預測概率,不受閾值選擇的影響,可以綜合考慮模型在各種閾值下的性能。AUC在正負樣本數(shù)量不平衡情況下,也能給出有意義的評價結(jié)果。在實際應用中,MCC能夠平衡真陽性、真陰性、假陽性和假陰性,通常為不平衡數(shù)據(jù)集提供更準確和全面的性能評估[21]。它不僅考慮了所有可能的預測結(jié)果,而且還提供了一個直觀的、范圍特定的值來衡量預測與實際結(jié)果的一致性。
由于本研究采用回顧性研究設計,宿主年齡、地理、飲食、基因型、胃腸狀態(tài)、疾病狀態(tài)等影響因素未被納入研究,無法證實因果關(guān)系和排除混雜因素干擾。因此,未來仍需建立縱向人群隊列,探索其他宿主因素與腸道生物標志物的關(guān)聯(lián),以及它們的聯(lián)合預測是否可以作為早期篩查和改善自閉癥癥狀的更有效手段,將是我們下一步的重點。
綜上所述,本研究發(fā)現(xiàn)了孤獨癥組和對照組兒童腸道微生物多樣性、結(jié)構(gòu)的差異,并鑒定出14個差異菌屬。借助機器學習算法,構(gòu)建孤獨癥兒童的早期篩查模型,分別在內(nèi)部開發(fā)數(shù)據(jù)集和外部測試數(shù)據(jù)集中對構(gòu)建的篩查模型進行性能評估,結(jié)果提示腸道菌群對輔助孤獨癥無創(chuàng)篩查有潛在意義。
[參考文獻]
[1]Rosen N E,Lord C,Volkmar F R.The diagnosis of autism:from Kanner to DSM-III to DSM-5 and beyond[J].J Autism Dev Disord,2021,51(12):4253-4270.
[2]Zeidan J,F(xiàn)ombonne E,Scorah J,et al.Global prevalence of autism:a systematic review update[J].Autism Res,2022,15(5):778-790.
[3]Maenner M J,Warren Z,Williams A R,et al.Prevalence and characteristics of autism spectrum disorder among children aged 8 years-autism and developmental disabilities monitoring network,11 sites,United States,2020[J].MMWR Surveill Summ,2023,72(2):1-14.
[4]賈美香.提升對我國孤獨癥譜系障礙兒童發(fā)病狀況及早期干預的關(guān)注[J].中國婦幼健康研究,2023,34(1):1-4.
[5]Wan Y,Zuo T,Xu Z,et al.Underdevelopment of the gut microbiota and bacteria species as non-invasive markers of prediction in children with autism spectrum disorder[J].Gut,2022,71(5):910-918.
[6]Bundgaard-Nielsen C,Knudsen J,Leutscher P D C,et al.Gut microbiota profiles of autism spectrum disorder and attention deficit/hyperactivity disorder:a systematic literature review[J].Gut Microbes,2020,11(5):1172-1187.
[7]Cho H,Qu Y,Liu C,et al.Comprehensive evaluation of methods for differential expression analysis of metatranscriptomics data[J].Brief Bioinform,2023,24(5):bbad279.
[8]Jayasinghe W J M L P,Deo R C,Ghahramani A,et al.Deep multi-stage reference evapotranspiration forecasting model:multivariate empirical mode decomposition integrated with the boruta-random forest algorithm[J].Ieee Access,2021,9:166695-166708.
[9]Monteith S,Glenn T,Geddes J,et al.Expectations for artificial intelligence (AI) in psychiatry[J].Curr Psychiatry Rep,2022,24(11):709-721.
[10]Wang M,Doenyas C,Wan J,et al.Virulence factor-related gut microbiota genes and immunoglobulin a levels as novel markers for machine learning-based classification of autism spectrum disorder[J].Comput Struct Biotechnol J,2021,19:545-554.
[11]Gomez-Nguyen A,Basson A R,Dark-Fleury L,et al.Parabacteroides distasonis induces depressive-like behavior in a mouse model of Crohn's diseas[J].Brain Behav Immun,2021,98:245-250.
[12]Inoue R,Sakaue Y,Sawai C,et al.A preliminary investigation on the relationship between gut microbiota and gene expressions in peripheral mononuclear cells of infants with autism spectrum disorders[J].Biosci Biotechnol Biochem,2016,80(12):2450-2458.
[13]Li R,Li L,Hong P,et al.β-Carotene prevents weaning-induced intestinal inflammation by modulating gut microbiota in piglets[J].Anim Biosci,2021,34(7):1221-1234.
[14]Kircher B,Woltemate S,Gutzki F,et al.Predicting butyrate- and propionate-forming bacteria of gut microbiota from sequencing data[J].Gut Microbes,2022,14(1):2149019.
[15]Ritz N L,Brocka M,Butler M I,et al.Social anxiety disorder-associated gut microbiota increases social fear[J].Proc Natl Acad Sci U S A,2024,121(1):e2308706120.
[16]Zhao Y,Wang Y,Meng F,et al.Altered gut microbiota as potential biomarkers for autism spectrum disorder in early childhood[J].Neuroscience,2023,523:118-131.
[17]Morton J T,Jin D M,Mills R H,et al.Multi-level analysis of the gut-brain axis shows autism spectrum disorder-associated molecular and microbial profiles [J].Nat Neurosci,2023,26(7):1208-1217.
[18]Charilaou P,Battat R.Machine learning models and over-fitting considerations[J].World J Gastroenterol,2022,28(5):605-607.
[19]Collins G S,Reitsma J B,Altman D G,et al.Transparent reporting of a multivariable prediction model for individual prognosis or diagnosis (TRIPOD):the TRIPOD statement[J].BMJ,2015,350:g7594.
[20]Kumar Y,Koul A,Singla R,et al.Artificial intelligence in disease diagnosis:a systematic literature review,synthesizing framework and future research agenda[J].J Ambient Intell Humaniz Comput,2023,14(7):8459-8486.
[21]Chatterjee A,Pahari N,Prinz A,et al.Machine learning and ontology in eCoaching for personalized activity level monitoring and recommendation generation[J].Sci Rep,2022,12(1):19825.