陳敬恒 陳凱奇 何達東 石宇雄
廣州市番禺區(qū)中醫(yī)院骨傷科,廣東廣州 511400
絕經(jīng)婦女骨質(zhì)疏松癥(postmenopausal osteoporosis,PMOP)屬Ⅰ型原發(fā)性骨質(zhì)疏松癥,主要發(fā)病機制為女性絕經(jīng)后雌激素水平下降,骨量丟失,骨脆性增加,其導致的骨折會極大地增加患者的致殘率、病死率,加重社會經(jīng)濟負擔,現(xiàn)已成為重要的公共衛(wèi)生問題[1]。PMOP 發(fā)病的本質(zhì)是成骨、破骨細胞的活動發(fā)生紊亂,骨代謝平衡被打破。長鏈非編碼RNA(long noncoding RNA,lncRNA)是不翻譯蛋白質(zhì)的功能性RNA 分子,參與轉(zhuǎn)錄調(diào)控、轉(zhuǎn)錄后調(diào)控、表觀遺傳調(diào)控等過程,對機體重要的生物學功能起到調(diào)節(jié)作用[2]。近年來隨著測序技術快速發(fā)展,多項研究報道,lncRNA 可能參與調(diào)控機體骨代謝平衡[3-5],但目前l(fā)ncRNA 參與調(diào)控PMOP 的分子機制尚不明確。機器學習是通過計算機模擬人類學習過程涉及的概率學、統(tǒng)計學、人工智能的新興學科,被廣泛應用于生物醫(yī)學領域[6-7]。隨機森林算法通過對分類變量進行反復迭代計算評分,生成高準確度分類器,篩選關鍵變量,常被作為挖掘生物標記物的重要機器學習算法[8]。本研究擬通過隨機森林算法篩選PMOP 的關鍵lncRNA,并通過生物信息學方法預測分析靶標基因及其相關生物學過程,為PMOP 的診斷治療提供新的靶點方向。
從基因表達數(shù)據(jù)庫檢索PMOP 患者芯片數(shù)據(jù),檢索時限為建庫至2020 年12 月。下載GSE56815 芯片數(shù)據(jù),該芯片基于GPL96 HG-U133A 平臺檢測,包括40 例PMOP 患者與40 名正常絕經(jīng)后女性的測序數(shù)據(jù)。
使用R 語言oligo 軟件包[9]對GSE56815 芯片數(shù)據(jù)進行RMA 基因校正標準化處理,通過Ensemble Gene 97 數(shù)據(jù)庫[10]進行基因重注釋,獲得基因類型、基因名及探針對應關系,獲得lncRNA 表達矩陣。當有多個探針對應同一個基因時,取平均值作為最終表達值。
使用R 語言Randomforest 軟件包建立隨機森林模型,該模型通過隨機生成lncRNA 分類樹并對分類結(jié)果打分,隨后模型會對所有單棵樹的分類結(jié)果進行統(tǒng)計判定,獲得高準確性分類結(jié)果。使用Caret 軟件包對上述分類結(jié)果進行重要性排序,篩選前10 位關鍵lncRNA。
靶標基因是非編碼RNA 參與調(diào)控生物學過程的重要中介分子,本研究使用starBase V2.0 數(shù)據(jù)庫[11]進行l(wèi)ncRNA 靶標基因預測分析。將lncRNA 的Gene Symbol 上傳至starBase V2.0,設定物種為“Homo sapiens”(人類),運行預測分析,數(shù)據(jù)庫將識別目標lncRNA 并對基于文獻、實驗驗證的靶標基因結(jié)果進行匯總。
生物學過程依賴于遺傳物質(zhì)翻譯的蛋白質(zhì)分子互相協(xié)作完成,對共同參與相關生物學過程的基因進行PPI 分析與網(wǎng)絡構(gòu)建,有助于深入理解基因作用關系。借助在線網(wǎng)站STRING V11[12]進行靶標基因PPI 網(wǎng)絡構(gòu)建與分析,將靶標基因上傳至STRING 進行分析,下載保存結(jié)果。
預測靶標基因富集的KEGG 信號通路[13]、GO 生物學注釋[14]過程,有助于探索lncRNA 調(diào)控PMOP 的分子機制。使用clusterProfiler[15]軟件包進行GO 富集分析,使用在線數(shù)據(jù)庫KOBAS 3.0[16]進行KEGG 信號通路富集分析,以P <0.05 為差異有統(tǒng)計學意義。
通過對GSE56815 芯片數(shù)據(jù)進行校正標準化處理及重注釋共識別出其中127 個PMOP 相關lncRNA,篩選重要性排名前10 的關鍵lncRNA:LINC01963、SNHG32、POLR2J4、WT1-AS、LINC00474、PCOTH、EGOT、LINC01565、LINC01140、LINC01558。見圖1。
圖1 絕經(jīng)婦女骨質(zhì)疏松癥長鏈非編碼RNA 重要性隨機森林圖
將關鍵lncRNA 整理上傳至starBase V2.0 數(shù)據(jù)庫,運行靶標基因預測分析,數(shù)據(jù)庫共識別出LINC01140、LINC01963、PCOTH、POLR2J4、WT1-AS 這5 個lncRNA,其余l(xiāng)ncRNA 未有相關靶標基因,將結(jié)果導入至網(wǎng)絡構(gòu)建軟件Cytoscape 進行l(wèi)ncRNA-靶標基因調(diào)控網(wǎng)絡構(gòu)建。見圖2。圖中菱形節(jié)點為lncRNA,圓形節(jié)點為靶標基因。
圖2 長鏈非編碼RNA-靶標基因調(diào)控網(wǎng)絡
共識別出61 個節(jié)點(node),存在30 個互作聯(lián)系(edge),平均節(jié)點連接度(degree)為0.98,網(wǎng)絡富集置信度為0.0092。將結(jié)果導入至Cytoscape,以靶標基因為網(wǎng)絡節(jié)點,互作聯(lián)系為節(jié)點連線,將無互作關系節(jié)點隱去,構(gòu)建靶標基因PPI 網(wǎng)絡。見圖3。
圖3 蛋白質(zhì)-蛋白質(zhì)相互作用網(wǎng)絡
靶標基因共富集于52 個KEGG 信號通路,以P<0.05進行篩選,共獲得12 個差異顯著的信號通路。見表1。
表1 KEGG 信號通路富集分析
GO 生物學富集分析結(jié)果主要涉及RNA 聚合酶Ⅱ活性、DNA 導向的5’-3’RNA 聚合酶活性、5’-3’RNA 聚合酶活性、RNA 聚合酶活性、肌動蛋白結(jié)合、氧化還原酶活性、醛醇-輔酶Ⅱ的氧化還原酶活性、作用于CH-OH 供體的氧化還原酶活性、核苷酸轉(zhuǎn)移酶活性、乙醇脫氫酶活性、輔酶結(jié)合、肌動蛋白纖維結(jié)合、醛酮還原酶活性,根據(jù)富集基因數(shù)量及P 值繪制GO 富集柱狀圖。見圖4。
隨著現(xiàn)代科學技術的發(fā)展,人體各種微觀分子功能結(jié)構(gòu)被逐步發(fā)現(xiàn)與認知。lncRNA 是一類長度在200 nt 以上、序列特征接近于信使RNA 但不能翻譯蛋白質(zhì)的遺傳物質(zhì),既往被認為是基因組中的“噪聲”“暗物質(zhì)”,無特殊作用[17]。但近年來伴隨著高通量測序技術的發(fā)展,研究者認識到lncRNA 廣泛分布于遺傳信息內(nèi),能從轉(zhuǎn)錄、轉(zhuǎn)錄后、表觀遺傳修飾等多方面進行遺傳信息的調(diào)控,參與機體重要生物學過程。越來越多研究[3,18]發(fā)現(xiàn),lncRNA 可能參與調(diào)控人體骨吸收-骨形成過程,在骨代謝過程發(fā)揮重要調(diào)控作用,攜帶重要遺傳信息的lncRNA 可能是診斷及治療PMOP 的新靶點。
機器學習算法模型目前被應用于多個領域,在研究中體現(xiàn)出較好的預測價值與臨床意義[19]。本研究借助隨機森林算法,對PMOP 患者芯片數(shù)據(jù)進行分類樹建立與迭代評分,根據(jù)重要性大小進行排序,以此篩選出PMOP 關鍵lncRNA,進而預測分析關鍵lncRNA靶標基因及其調(diào)控網(wǎng)絡、PPI、信號通路等分子機制,對lncRNA 調(diào)控PMOP 機制展開探索。
成骨細胞-破骨細胞活動是骨代謝過程的本質(zhì)體現(xiàn),lncRNA 可能通過信號、導向、誘餌等生物學效應模式[20]參與調(diào)控成骨細胞、破骨細胞及骨髓間充質(zhì)干細胞的分化、增殖等活動,影響骨代謝平衡。研究[21]表明,LINC01140 通過抑制miR-23b 表達,減輕低密度脂蛋白誘導骨髓巨噬細胞炎癥反應,骨髓巨噬細胞作為破骨細胞的前體細胞,在炎癥反應刺激下可能增強破骨分化趨勢,LINC01140 可能是調(diào)控破骨分化的轉(zhuǎn)錄阻滯物。POLR2J4 是RNA 聚合酶Ⅱ亞家族J4 型,參與轉(zhuǎn)錄翻譯調(diào)控,與多種代謝性疾病的診斷預后密切相關[22]。LINC01963 通過靶向miR-641/TMEFF2 與負責調(diào)控細胞基礎生命活動的絲裂原活化蛋白激酶信號通路相串擾,參與調(diào)控成骨、破骨細胞活動[23-24]。WT1-AS 被認為是多種腫瘤的重要調(diào)控因子,通過多途徑調(diào)控細胞增殖凋亡活動[25-26]。
從富集的GO 過程來看,靶標基因主要集中于細胞層面的RNA 聚合酶、氧化還原酶等酶活性的調(diào)控,與上述lncRNA 主要功能活動相一致,通過調(diào)控成骨、破骨細胞活動,影響骨代謝平衡。KEGG 信號通路富集結(jié)果顯示,除了RNA 降解、RNA 聚合酶等轉(zhuǎn)錄翻譯相關信號通路調(diào)控外,靶標基因還富集于甘油酯代謝、半乳糖代謝、氨基酸代謝等活動。Zhao 等[27]通過脂質(zhì)組學發(fā)現(xiàn),PMOP 小鼠多種脂質(zhì)代謝活動發(fā)生明顯變化,且其脂代謝與骨代謝之間存在重要聯(lián)系。半乳糖代謝與衰老密切相關,D-半乳糖通過誘導氧化應激導致衰老,抑制D-半乳糖代謝活動可改善衰老大鼠的骨代謝活動[28]。
lncRNA 對體內(nèi)多個生物學過程的調(diào)控作用正逐漸被闡明,深入研究lncRNA 在不同疾病發(fā)生發(fā)展過程中發(fā)揮的作用及其分子機制有助于深化對疾病病理機制的理解,為提出更加切實有效的治療方式提供基礎。本研究借助隨機森林算法篩選出PMOP 關鍵lncRNA 并對靶標基因及潛在分子機制進行預測探索,綜合分析lncRNA 參與調(diào)控成骨細胞、破骨細胞增殖分化活動、遺傳物質(zhì)轉(zhuǎn)錄翻譯、機體糖脂代謝等活動的可能。目前研究對lncRNA 在機體發(fā)揮的作用仍較少,研究手段、水平及范圍較有限,希望本研究能為lncRNA 診斷治療PMOP 提供理論依據(jù)與思路方向。