計 超, 陳一霄, 劉 凱, 蘇嘯塵, 滕夢豪, 郭 燕, 姬文晨, 李 萌
(1. 西安交通大學(xué)第一附屬醫(yī)院 骨科, 陜西 西安, 710061;2. 西安交通大學(xué)第二附屬醫(yī)院 生物診斷治療國家地方聯(lián)合工程研究中心, 陜西 西安, 710004;3. 西安交通大學(xué) 生命科學(xué)與技術(shù)學(xué)院生物醫(yī)學(xué)信息與基因組中心, 陜西 西安, 710049)
骨質(zhì)疏松(OP)是最常見的代謝性骨病之一[1-2], 臨床特征包括骨密度和骨質(zhì)量下降、骨微結(jié)構(gòu)破壞和骨脆性增加,從而導(dǎo)致骨折易感性增加[3-4], 因此OP的早期診斷對于改善治療和預(yù)后至關(guān)重要。目前, OP的常規(guī)診斷多依靠臨床表現(xiàn)和影像學(xué)檢查監(jiān)測骨密度[5]。然而,這種測量方法的敏感性較差,可能會忽視潛在骨折的早期癥狀[6]。近年來,為OP的臨床管理開發(fā)的生物標(biāo)志物已顯示出檢測高骨折風(fēng)險個體的敏感性和可靠性[7]。這些生物標(biāo)志物對于預(yù)測OP風(fēng)險、確定潛在治療靶點和探索機制很有價值。另一方面,免疫系統(tǒng)在骨科疾病中的作用得到證實,能夠促使“骨免疫學(xué)”的產(chǎn)生和發(fā)展[8]。OP是最常見的炎癥性骨質(zhì)流失病癥之一。研究[9]表明,免疫細胞浸潤在OP的發(fā)生、發(fā)展中起重要作用,如Th17細胞是T淋巴細胞破骨細胞的一個亞群,血液及外周組織中的Th17細胞可作為OP的重要標(biāo)志物。CIBERSORT是一種軟件工具,用于分析表征由多種細胞類型組成的免疫細胞亞群[10]。因此,從免疫系統(tǒng)的角度,評估免疫細胞的浸潤情況,對于闡明OP的分子機制以及開發(fā)新的治療靶點至關(guān)重要。本研究首先篩選得到OP患者的差異表達基因(DEGs), 然后使用機器學(xué)習(xí)篩選其潛在的診斷標(biāo)記,并應(yīng)用CIBERSORT分析OP患者和正常受試者的22個免疫細胞亞群差異,此外還分析了篩選得到的診斷標(biāo)記與免疫浸潤細胞的關(guān)系,以更好地了解OP發(fā)生、發(fā)展的分子及免疫機制。
從基因表達綜合數(shù)據(jù)庫(GEO)( https://www.ncbi.nlm.nih.gov/geo/)中下載OP的表達譜數(shù)據(jù)集GSE56815、GSE13850、GSE35959和GSE7158。
R語言(版本3.6.2)和R軟件包用于數(shù)據(jù)分析[11]。整合GSE56815和GSE13850基因數(shù)據(jù)集表達矩陣,使用“sva 3.34.0”包消除批次間差異。使用二維主成分分析(PCA)聚類來證明樣本之間的校準(zhǔn)效果。通過“l(fā)imma 3.42.0”包過濾DEGs, 使用“ggplot2 3.3.0”包繪制DEGs火山圖,展示DEGs的差異表達情況。設(shè)置P<0.05和|log2FC|>1為統(tǒng)計學(xué)顯著性的標(biāo)準(zhǔn)。
利用基因集富集分析(GSEA)平臺對DEGs進行基因本體論(GO)和京都基因和基因組百科全書(KEGG)富集分析[12]。FDR<0.25和P<0.05是顯著富集的標(biāo)準(zhǔn)?!癱luster Profiler 3.14.3”包用于分析和繪制結(jié)果。
最小絕對值收斂和選擇算法(LASSO)邏輯回歸和支持向量機遞歸特征消除(SVM-RFE)用于OP診斷標(biāo)記的特征選擇和篩選[13-14]。對GSE35959和GSE7158數(shù)據(jù)集的表達矩陣進行質(zhì)量控制后,使用“sva 3.34.0”包去除批次間的差異。然后將數(shù)據(jù)集合并成一個獨立的數(shù)據(jù)集,并基于獨立的數(shù)據(jù)集驗證所獲得的診斷標(biāo)記的組合診斷效率?!癵lmnet 4.0.2”包用于LASSO邏輯回歸分析。通過“e1071 1.7.6”包運行SVM-RFE以進一步確定這些生物標(biāo)志物在OP中的診斷價值。判斷篩選結(jié)果的顯著性閾值為P<0.05。最后,將LASSO邏輯回歸和SVM-RFE算法識別出的基因結(jié)合起來進行后續(xù)分析。
CIBERSORT工具用于分析基因表達矩陣數(shù)據(jù); 篩選P<0.05的樣本,得到免疫細胞浸潤矩陣。然后使用“ggplot2 3.3.0”包對免疫細胞浸潤矩陣數(shù)據(jù)進行PCA聚類分析,繪制出二維PCA聚類圖?!癱orrplot 0.88”包用于繪制相關(guān)熱圖,以可視化22種浸潤免疫細胞之間的相關(guān)性?!癵gplot2 3.3.0”包繪制小提琴圖以直觀反映免疫細胞浸潤差異。
“ggstatsplot 0.2.0”包用于分析診斷標(biāo)志物和免疫浸潤細胞之間的Pearson相關(guān)分析?!癵gplot2 3.3.0”包用于可視化結(jié)果。
首先,對GSE56815和GSE13850數(shù)據(jù)集的基因表達矩陣進行歸一化和批量校正。數(shù)據(jù)集歸一化前后的二維PCA聚類圖如圖1A和圖1B所示。結(jié)果表明,歸一化后的2組樣本聚類更加明顯。數(shù)據(jù)預(yù)處理后,使用R語言軟件從基因表達矩陣中共提取331個DEGs, 見圖1C。ZER1、RPL10、FOLR1、DVL1和EFCAB1等基因的表達水平顯著上調(diào);MAP3K3、IL1R2、RPL3L、SLC41A3、EGFR和WNT1等基因的表達水平顯著下調(diào)(圖1D)。
A: GSE56815和GSE13850數(shù)據(jù)集樣本校正前PCA聚類圖; B: GSE56815和GSE13850數(shù)據(jù)集樣本校正后PCA聚類圖(紅色代表GSE56815數(shù)據(jù)集,藍色代表GSE13850數(shù)據(jù)集); C: DEGs火山圖(藍色代表上調(diào)差異基因,綠色代表無顯著差異基因,紅色代表下調(diào)差異基因); D: 上調(diào)及下調(diào)的前50個DEGs的熱圖(紅色代表上調(diào)的差異基因,綠色代表下調(diào)的差異基因)。
GO富集分析中的細胞成分分析發(fā)現(xiàn),大多數(shù)DEGs富集于“核仁”“內(nèi)吞囊泡”“錨定點”和“內(nèi)質(zhì)網(wǎng)”相關(guān)通路(圖2A)。此外,對分子功能通路的分析表明,已篩選得到的DEGs可能通過調(diào)節(jié)“RNA結(jié)合”“酶結(jié)合”和“翻譯調(diào)節(jié)活性”相關(guān)通路來發(fā)揮其分子功能(圖2B)。GO的生物過程通路的富集結(jié)果表明, DEGs主要與“含有復(fù)雜亞基組織的蛋白質(zhì)”“細胞凋亡過程”“大分子分解代謝過程”和“生物合成過程的正調(diào)控”的調(diào)控有關(guān)(圖2C)。KEGG通路富集分析的結(jié)果見圖2D所示。富含DEGs的通路主要涉及子宮內(nèi)膜癌、前列腺癌等癌癥相關(guān)通路、胞吞相關(guān)通路和Wnt信號通路。以上結(jié)果表明, DEGs主要集中在激素調(diào)節(jié)相關(guān)通路(如“內(nèi)吞小泡”“內(nèi)吞參與通路”“子宮內(nèi)膜癌等癌癥相關(guān)通路”)和免疫反應(yīng)過程(如“內(nèi)質(zhì)網(wǎng)”“翻譯調(diào)節(jié)劑的活性”和“生物合成的正向調(diào)節(jié)”),提示其在OP的發(fā)病機制中起著重要作用。
A: OP的DEGs GO富集分析的前9個細胞成分分析; B: OP的DEGs GO富集分析前9個分子功能分析;C: OP的DEGs GO富集分析前9個生物學(xué)過程分析; D: KEGG富集分析OP的 DEGs的前9條富集通路。
LASSO邏輯回歸和SVM-RFE算法用于從DEGs中篩選基因作為OP的診斷標(biāo)志物。2種算法得到的基因標(biāo)志物重疊,最終篩選出5個診斷相關(guān)基因為關(guān)鍵基因:SKAP2、SLC30A3、TDRD12、RPL10和CSPP1。為了進一步探索這些關(guān)鍵基因的診斷效能,將GSE35959和GSE7158數(shù)據(jù)集合并用作驗證集(圖3A、3B)。當(dāng)SKAP2、SLC30A3、TDRD12、RPL10、CSPP1作為變量輸入時,驗證集的診斷效率達到了較高水平[曲線下面積(AUC)為0.786](圖3C), 提示由SKAP2、SLC30A3、TDRD12、RPL10聯(lián)合CSPP1構(gòu)成的預(yù)測模型具有較高的診斷價值。
A: 合并驗證集的GSE35959和GSE7158數(shù)據(jù)集前的PCA聚類圖; B: 合并驗證集的GSE35959和GSE7158數(shù)據(jù)集后的PCA聚類圖; C: 5個診斷標(biāo)志物擬合后驗證診斷效果的ROC曲線(深藍色曲線的AUC用于衡量模型性能, AUC越接近1, 表示模型性能越好)。
22種免疫細胞的相關(guān)熱圖顯示,活化的肥大細胞與漿細胞呈正相關(guān),靜息肥大細胞也與嗜酸性粒細胞呈正相關(guān)。此外,活化的CD4記憶T細胞與調(diào)節(jié)性T細胞呈負相關(guān),巨噬細胞與記憶B細胞呈負相關(guān)(圖4A)。免疫細胞浸潤差異分析顯示, OP患者和正常對照者的M2巨噬細胞和靜息CD4記憶T細胞差異有統(tǒng)計學(xué)意義(P<0.05), 見圖4B。
A: 22種免疫細胞的相關(guān)熱圖(彩色方塊大小表示相關(guān)性的強度,紅色表示正相關(guān),藍色表示負相關(guān),顏色越深表示相關(guān)性越強); B: 22種免疫細胞占比的小提琴圖。
進一步研究已篩選的OP診斷分子標(biāo)記與免疫細胞浸潤之間的相關(guān)性(圖5A)。結(jié)果發(fā)現(xiàn),SKAP2與靜息CD4記憶T細胞呈正相關(guān)(r=0.238,P=0.009), 見圖5B;CSPP1與幼稚B淋巴細胞呈正相關(guān)(r=0.198,P=0.030)(圖5C);RPL10與嗜酸性粒細胞呈負相關(guān)(r=-0.179,P=0.050)(圖5D)。
A: 5個關(guān)鍵基因與浸潤免疫細胞之間相關(guān)性的熱圖(紅色代表正相關(guān),藍色代表負相關(guān)); B: SKAP2與免疫浸潤細胞之間的相關(guān)性;C: CSPP1與免疫浸潤細胞之間的相關(guān)性; D: RPL10與免疫浸潤細胞之間的相關(guān)性(圓點大小代表基因與免疫細胞相關(guān)性的強弱。圓點越大則相關(guān)性越強; 圓點越小則相關(guān)性越弱。圓點顏色深淺代表P值的大小。顏色越藍則P值越小; 顏色越綠則P值越大)。
OP是一種慢性骨科疾病,其特征是骨密度和骨質(zhì)量下降,骨微結(jié)構(gòu)破壞,導(dǎo)致骨脆性增加[15]。篩選OP生物標(biāo)志物有助于改進骨折風(fēng)險的評估方法并改善其早期診斷效果。既往研究[8]表明,免疫細胞浸潤在OP的發(fā)生、發(fā)展過程中具有重要作用。因此,特異性診斷標(biāo)志物的篩選和免疫細胞浸潤的分析對于改善OP患者的預(yù)后具有深遠意義。此外, CIRBESORT工具為分析疾病免疫細胞浸潤模式提供了便利。本研究確定了OP的早期診斷標(biāo)志物,并進一步探討了免疫細胞浸潤在OP中的作用,通過差異表達分析共鑒定出331個DEGs。有研究[16]使用這些OP細胞群進行生物信息學(xué)分析, GO富集分析顯示, DEGs主要與內(nèi)質(zhì)網(wǎng)活性、翻譯調(diào)節(jié)因子和生物合成過程的正調(diào)控有關(guān),提示免疫反應(yīng)在OP的發(fā)病機制中具有重要意義。研究[17]表明,雌激素通過抑制破骨細胞的活性在OP的發(fā)生過程中發(fā)揮重要作用, Wnt信號通路可以控制成骨細胞的形成[18]。
本研究結(jié)合LASSO邏輯回歸和SVM-RFE算法確定SKAP2、SLC30A3、TDRD12、RPL10和CSPP1作為OP的診斷標(biāo)志物。研究[19]表明,SKAP2基因編碼src激酶相關(guān)磷蛋白2參與不同生理過程,包括整合素信號轉(zhuǎn)導(dǎo)、細胞遷移和癌癥進展。研究[20]發(fā)現(xiàn),SKAP2在類風(fēng)濕性關(guān)節(jié)炎和1型糖尿病中的表達降低。本研究結(jié)果表明, OP中SKAP2表達降低,可能與調(diào)節(jié)內(nèi)分泌激素有關(guān)。SLC30A3的編碼產(chǎn)物是鋅轉(zhuǎn)運蛋白3, 主要參與突觸小泡中鋅的積累。本研究發(fā)現(xiàn), OP患者SLC30A3的表達顯著上調(diào),這與雌激素調(diào)節(jié)對OP患者的作用一致。此外,研究[21]發(fā)現(xiàn),RPL10在脊椎動物軟骨內(nèi)骨發(fā)育過程中呈差異表達。本研究發(fā)現(xiàn),RPL10在OP患者中表達上調(diào),推測RPL10通過調(diào)節(jié)內(nèi)分泌激素影響其骨骼發(fā)育。此外,對TDRD12基因的研究尚未得到統(tǒng)一結(jié)論。研究[22]發(fā)現(xiàn),TDRD12參與JAK-STAT通路,在脂質(zhì)代謝調(diào)控中發(fā)揮作用,而脂質(zhì)代謝紊亂與骨吸收和骨形成失衡密切相關(guān),可能是絕經(jīng)后OP發(fā)生的基礎(chǔ)。LI Q H等[23]發(fā)現(xiàn),CSPP1衍生的circ-CSPP1促進卵巢癌細胞的增殖和遷移,可以推測OP患者中下調(diào)的CSPP1也可能受到內(nèi)分泌激素的影響。因此,SKAP2、SLC30A3、TDRD12、RPL10和CSPP1可能參與OP的發(fā)生、發(fā)展,可作為其診斷標(biāo)志物。
為了進一步探討免疫浸潤細胞在OP中的作用,采用CIBERSORT對OP的免疫浸潤進行綜合評估。結(jié)果表明,與對照組相比,OP中M2巨噬細胞浸潤增加,靜息CD4記憶T細胞浸潤減少。研究[24]發(fā)現(xiàn),活化的T淋巴細胞是RANKL和腫瘤壞死因子-α(TNF-α)的主要來源,可導(dǎo)致各種病理和炎癥條件下的骨破壞。由此提示, CD4記憶T細胞和巨噬細胞在OP的發(fā)病機制中起重要作用,應(yīng)成為進一步研究重點。此外,關(guān)鍵基因與免疫細胞相關(guān)性分析顯示,SKAP2與靜息CD4記憶T細胞呈正相關(guān),與M2巨噬細胞呈負相關(guān);CSPP1與幼稚B淋巴細胞呈正相關(guān),與巨噬細胞呈負相關(guān);RPL10與靜息NK細胞呈正相關(guān),與嗜酸性粒細胞呈負相關(guān);SLC30A3與CD8+T細胞呈正相關(guān),與活化的CD4記憶T細胞和活化的NK細胞呈負相關(guān);TDRD12與M0巨噬細胞呈正相關(guān),與中性粒細胞呈負相關(guān)。上述結(jié)果表明,本研究篩選的分子標(biāo)記基因可能在增加CD4+T細胞和M2巨噬細胞或減少CD8+T細胞方面發(fā)揮作用,參與OP的發(fā)生進展,以上結(jié)果還需要在后續(xù)研究中進一步闡明。
綜上所述,本研究使用LASSO邏輯回歸和SVM-RFE確定了SKAP2、SLC30A3、TDRD12、RPL10和CSPP1作為OP的診斷標(biāo)志物。此外, CIBERSORT被用于分析OP相關(guān)的免疫細胞浸潤,結(jié)果表明,靜息CD4+T細胞和M2巨噬細胞等免疫浸潤細胞可能參與OP的發(fā)生和發(fā)展。此外,本研究還發(fā)現(xiàn),SKAP2與靜息CD4記憶T細胞和巨噬細胞相關(guān),SLC30A3與激活的CD4記憶T細胞和激活的NK細胞相關(guān),TDRD12、CSPP1與巨噬細胞相關(guān),RPL10與靜息NK細胞相關(guān)。這些免疫細胞可能在OP的發(fā)生、發(fā)展中起著關(guān)鍵作用,對這些免疫細胞的進一步探索可能會證實其是OP免疫治療的靶點。本研究篩選的OP相關(guān)診斷分子標(biāo)志物有助于為OP的早期診療提供新的思路和方向,為藥物靶點提供新的可能性。