馬 偉,李丹丹,張常建,陳偉浩,熊 鳴,喬媛媛,李 軍
心力衰竭(heart failure,HF)是一個復(fù)雜的臨床癥狀,其特點是心臟供血不足[1]。在發(fā)展中國家,HF 是患者住院的常見原因,其發(fā)病率和病死率也高[2-5]。HF 的發(fā)病率逐年增加,已經(jīng)成為重要公共健康問題[6-8]。在發(fā)展中國家,HF非常普遍,其患病率高達0.4%~2%[9-10]。雖然現(xiàn)在的診斷和治療水平已經(jīng)改善了HF 患者的預(yù)后,但是其5 年生存率仍不足50%[11-12]。HF 越早發(fā)現(xiàn),患者預(yù)后越好,因此尋找預(yù)測HF的標志物對于降低患者病死率以及提高患者生活質(zhì)量非常有幫助。目前也發(fā)現(xiàn)了一些HF 的風(fēng)險因子。例如,Onoue 等[13]發(fā)現(xiàn)肌肉減少癥可以預(yù)測HF 患者的不良事件,而肌肉減少癥可以通過結(jié)合年齡、握力和小腿圍來進行評估。Soyama 等[14]通過超聲心動圖監(jiān)測心臟發(fā)現(xiàn)心臟舒張應(yīng)變(diastolic wall strain,DWS)能夠評估HF 患者心臟的功能。他們發(fā)現(xiàn)低DWS 水平患者,心功能比較好,而左心室功能受損的患者DWS 值升高,DWS 高的患者預(yù)后往往不好。近些年來,隨著高通量分子實驗技術(shù)的發(fā)展,多種多樣的基于血液或組織的分子標志物也出現(xiàn)了。Huang等[15]發(fā)現(xiàn)外周血白細胞的線粒體DNA(mitochondrial DNA,mtD‐NA)的拷貝數(shù)變異(copy number variation,CNV)是HF 的獨立危險因素,能夠預(yù)測HF 患者病死率。Tumorigenicity-2 (sST2)能夠為HF 患者的后期處置提供幫助[16]。Circulating cell-free DNA (cfDNA)也可以作為HF 標志物[17]。在失代償期的HF 患者,血清高水平內(nèi)源性促紅細胞生成素的長期的臨床預(yù)后更差[18]。HF 標志物的概況參見這三篇綜述[19-21]。芯片技術(shù)的發(fā)展和二代測序及三代測序的發(fā)展,累積了很多全轉(zhuǎn)錄組數(shù)據(jù),這也為開發(fā)新的多分子標志物帶來了機遇和挑戰(zhàn)[22-23]。通過轉(zhuǎn)錄組分析,Maciejak 發(fā)現(xiàn)RNAS1、FMN1和JDP2與HF 患者的臨床指標有顯著的相關(guān)性。ST 段太高的心梗第一天,這三個基因的表達值在隨后發(fā)生HF 的患者中高于隨后未發(fā)生HF 的患者[24]?;谵D(zhuǎn)錄組的方法能夠發(fā)現(xiàn)基因表達特征作為疾病的標志物[25]。Heidecker基于轉(zhuǎn)錄組發(fā)現(xiàn)了一個45個基因特征的標志物,可以評估HF 患者的風(fēng)險[26]。然而上述標志物部分是單個分子,部分是幾十個基因的特征,相比人類將近3 萬個基因的數(shù)量,標志物涉及到的基因數(shù)量還是特別少,這就會導(dǎo)致容易產(chǎn)生過擬合,使得標志物的擴展應(yīng)用性不強。因此非常有必要尋找基于轉(zhuǎn)錄組的擴展性好的標志物。
使用全轉(zhuǎn)錄組的特征而不是僅僅局限于差異基因可以產(chǎn)生更穩(wěn)定的HF標志物。傳統(tǒng)的觀點認為蛋白質(zhì)功能的改變是由于突變導(dǎo)致了氨基酸序列發(fā)生了變化,然而有人發(fā)現(xiàn)原子含量,尤其是氧原子也與蛋白質(zhì)功能有關(guān)。大氣中氧含量的增加促進細胞交流與細胞器的形成,跨膜蛋白長度與蛋白質(zhì)氧含量有關(guān),而蛋白質(zhì)氧含量又受到大氣氧含量的約束[27]。與無氧呼吸比較,有氧呼吸能夠有效的獲取能量,發(fā)生更多的代謝反應(yīng)[28-29]。對于HF患者,其特征就是組織缺氧,細胞氧化應(yīng)激增加[30]。因此,我們猜想在這樣的缺氧情況下,轉(zhuǎn)錄組會產(chǎn)生系統(tǒng)性的缺氧反應(yīng),不同氧含量的蛋白質(zhì)其表達量會有不同的變化,這種不同的變化可以用來尋找HF 標志物。為了證實此猜想,本課題組從GEO(Gene Expression Omnibus,GEO)下載了兩套HF 數(shù)據(jù)(GSE57345 和GSE21610),然后開發(fā)了一個基于全轉(zhuǎn)錄組的預(yù)測HF的標志物[25,31],發(fā)現(xiàn)基因的表達水平與氧原子含量(oxygen atom content,OAC)的Spearmam’s相關(guān)系數(shù)能夠很好的區(qū)分HF。
1.1 蛋白質(zhì)、mRNA 序列與基因表達數(shù)據(jù) 本研究從Ensembl 數(shù)據(jù)庫下載了蛋白質(zhì)序列和mRNA 序列[32]。從GEO 數(shù)據(jù)庫下載了兩套HF 數(shù)據(jù),篩選標準為:組織來源為心肌組織活檢并且有正常心肌組織,最終篩選獲得GSE57345(Affymetrix Human Gene 1.1 ST Array)和GSE21610(Affymetrix Human Genome U133 Plus 2.0 Array)[33]。在GSE57345 中,心臟組織樣本是MAGNet 聯(lián)盟從患者取得。本文的數(shù)據(jù)分析采用R 語言進行統(tǒng)計分析(version 3.6.2,https://www.r-project.org/)。
1.2 計算蛋白質(zhì)氧原子含量以及OAC 與基因表達的Spearman 相關(guān)性 蛋白質(zhì)氧原子含量定義為:蛋白質(zhì)序列中氧原子的數(shù)量/蛋白質(zhì)總原子數(shù)。在計算相關(guān)性之前,先根據(jù)轉(zhuǎn)錄本最優(yōu)密碼子的比例(codon optimality ratio of protein,CORP)進行排序,然后分成10 等份。CORP 定義為:mRNA 中最優(yōu)密碼子數(shù)量/總的密碼子數(shù)量。最優(yōu)密碼子定義為:密碼子的最佳穩(wěn)定性相關(guān)系數(shù)得分(correlation coefficient,CSC),而正值得分的密碼子就是最優(yōu)密碼子[34]。首先計算所有的蛋白質(zhì)編碼轉(zhuǎn)錄本的表達量與其相應(yīng)蛋白質(zhì)OAC 的Spearman 相關(guān)系數(shù),然后針對上述10 份的每一份再計算一次。因此,對于每個樣本,會得到11 個相關(guān)系數(shù),1 個總的和10個10等份的。
1.3 構(gòu)建分類器 使用randomForest R包構(gòu)建隨機森林模型,模型參數(shù)為:樹的數(shù)量為800,其他參數(shù)為默認值[35]。在構(gòu)建分類器這里,將兩套數(shù)據(jù)的相關(guān)系數(shù)范圍使用公式(1)縮放至[-1,1],y’表示放縮后的值,y表示放縮前的值,min 表示原數(shù)據(jù)值中最小值,max 表示原數(shù)據(jù)中最大值。10 個10 等份的相關(guān)系數(shù)作為輸入特征。然后通過特征重要性篩選特征。使用準確率、陽性預(yù)測值(positive pre‐dictive value,PPV)和陰性預(yù)測值(negative predic‐tive value,NPV)作為分類器性能評估參數(shù)。使用5折交叉驗證、測試集以及獨立驗證集測試模型準確性。準確率=(真陽性數(shù)量+真陰性數(shù)量)/總量;PPV=真陽性數(shù)量/(真陽性數(shù)量+假陽性數(shù)量);NPV=真陰性數(shù)量/(真陰性數(shù)量+假陰性數(shù)量)。
2.1 數(shù)據(jù)統(tǒng)計學(xué)特征 數(shù)據(jù)的人口統(tǒng)計學(xué)資料和基本臨床信息見表1。GSE57345 包含313 個樣本,包括177 個HF 樣本和136 個正常樣本(non-HF con‐torls,NF)。HF樣本中有男性144例和女性33例,正常樣本有男性73例和女性63例。兩組的平均年齡分別為55.4 和49.4。GSE21610 有38 個樣本,30(28例男性和2例女性)和HF樣本和8個正常樣本(6例男性和2例女性),兩組平均年齡分別為51.3和29.0。
2.2 HF患者OAC與基因表達的相關(guān)性 首先對所有編碼蛋白的轉(zhuǎn)錄本計算了OAC 與基因表達的相關(guān)性。發(fā)現(xiàn)在GSE57345數(shù)據(jù)集中,HF 樣本的相關(guān)系數(shù)遠高于正常樣本(圖1A,P=2.25×10-11)。然后再使用相關(guān)系數(shù)作為參數(shù)做受試者工作曲線(re‐ceiver operating characteristic curve,ROC),曲線下面積(the area under curve,AUC)為0.772,如圖1B 所示。數(shù)據(jù)集GSE21610的結(jié)果類似(P=0.04),AUC為0.729,見圖1C和1D。數(shù)據(jù)集GSE21610沒有數(shù)據(jù)集GSE57345 顯著可能是由于其樣本量的原因(38 VS 313)。雖然兩個數(shù)據(jù)集中的相關(guān)系數(shù)差別比較大,但是HF樣本都高于正常樣本。
表1 數(shù)據(jù)集基本信息
圖1 兩個數(shù)據(jù)集中所有轉(zhuǎn)錄本的相關(guān)系數(shù)
2.3 基于選擇特征的隨機森林分類器 轉(zhuǎn)錄本最優(yōu)密碼子的比例與轉(zhuǎn)錄本的翻譯速度有關(guān)系[34]。因此,我們根據(jù)轉(zhuǎn)錄本的COPR 將所有轉(zhuǎn)錄本等分為10 組,每組分別計算表達水平與氧含量的Spearman 相關(guān)系數(shù)。在數(shù)據(jù)集GSE57345 中,第3、5、6、7、8、9、10 部分有顯著的區(qū)分能力,AUC 大于0.6,表2。尤其是第5 部分和第8 部分,AUC 大于0.8。第4 部分的AUC 也將近0.6(0.599)。在所有10部分中,HF樣本的相關(guān)系數(shù)都大于正常樣本。
表2 總體和10部分相關(guān)系數(shù)的區(qū)分能力
為了構(gòu)建分類器,本研究將GSE57345 隨機分為訓(xùn)練集和測試集兩部分,訓(xùn)練集包含250 個樣本(142 HF 和108 NF),測試集包含63 個樣本(35 HF和28NF)。 為了評估分類器的性能,把數(shù)據(jù)集GSE21610 作為完全獨立的一個測試集,僅僅在構(gòu)建好分類器后才使用。為了保持數(shù)據(jù)的通用性,再將兩套數(shù)據(jù)的相關(guān)系數(shù)范圍都縮放至[-1,1]。然后使用訓(xùn)練集進行模型構(gòu)建。10 部分的相關(guān)系數(shù)作為特征輸入隨機森林模型,根據(jù)特征重要性得分,選擇了前三個重要性得分最高的特征(圖2A),分別為第3、5、8部分。最終使用這三個特征作為輸入特征構(gòu)建隨機森林分類器。首先,使用5 折交叉驗證測試分類器性能。5 折交叉驗證的AUC 為0.851(圖2B),其準確率為83.6%,PPV 為85.7%,NPV 為81.5%,結(jié)果雖然不錯,但是也可能是由于過擬合導(dǎo)致,必須通過測試集進行驗證。使用訓(xùn)練集所有樣本構(gòu)建模型,然后使用GSE57345 的測試集部分數(shù)據(jù)進行測試,其AUC 為0.793(圖2C),準確率、PPV和NPV 分別為77.8%、80.0% 和75.0%。最終,在完全一個獨立的數(shù)據(jù)集GSE21610上測試了我們的分類器(圖2D),AUC高達0.908。準確率、PPV和NPV分別為86.8%、86.7% 和87.5%。總體上,本研究構(gòu)建的分類器能夠很好地區(qū)分HF和NF(表3)。
表3 分類器的性能評估
圖2 隨機森林模型性能評估
在獨立的測試集GSE21610中,HF和NF的年齡不匹配。為了排除年齡的影響,我們挑選了10個年齡在11.6 至46.4(NF 樣本年齡的)的HF 樣本來匹配NF樣本。這18個樣本(10個HF 和8個NF)的準確率、PPV和NPV分別為83.3%、80.0%和87.5%。這說明我們的分類器在獨立測試集上的效果不受年齡影響,也并非正負樣本差引起。
在本研究中,本研究發(fā)現(xiàn)轉(zhuǎn)錄本表達量與轉(zhuǎn)錄本對應(yīng)蛋白質(zhì)的氧原子含量的相關(guān)性能夠很好地區(qū)分HF 與NF。相關(guān)性在HF 組中更高,這說明在缺氧環(huán)境下,轉(zhuǎn)錄組受到了很大影響,系統(tǒng)更傾向于表達氧原子含量更高的蛋白質(zhì),可能是為了補償缺氧或者是緩解氧化應(yīng)激壓力。通過交叉驗證、測試集以及獨立測試集評估,發(fā)現(xiàn)利用表達量-氧原子含量相關(guān)性構(gòu)建的分類器展現(xiàn)了非常穩(wěn)定的預(yù)測性能。本研究開發(fā)的基于全轉(zhuǎn)錄組的策略能夠避免少量表達波動帶來的影響。
然而本研究仍然存在缺陷。首先,受限于數(shù)據(jù)庫中HF 患者心臟組織表達譜數(shù)據(jù)的限制,僅僅評估了其區(qū)分HF 和NF 的性能,沒有評估其與HF 患者預(yù)后的關(guān)系。其次,使用的數(shù)據(jù)集,其樣本來源是心肌組織(作為臨床預(yù)測標志物,更容易取材或者非侵襲的取材更方便合適,比如血液、尿液等)?,F(xiàn)實中,常用的很多HF 標志物確實來自血液或者是身體檢查。盡管如此,也有基于心肌組織的標志物。Heidecker 用心肌活檢組織找到了HF 的轉(zhuǎn)錄組標志物[26]。Morgun 使用心肌活檢組織轉(zhuǎn)錄組構(gòu)建了預(yù)測是否發(fā)生心臟移植排斥反應(yīng)的預(yù)測器,提高了心臟移植排斥診斷率[36]。實際上,心肌活檢組織是診斷心臟移植排斥反應(yīng)的金標準。最后,本研究開發(fā)的標志物是基于整個轉(zhuǎn)錄組的,不是基于個別基因或者少數(shù)基因的,無法對其功能做闡釋。我們發(fā)現(xiàn)轉(zhuǎn)錄效率低的轉(zhuǎn)本部分(F1、F2、F3)對HF鑒別無作用,而轉(zhuǎn)錄效率高的部分對HF 有鑒別作用,這可能與人類進化過程中氧含量的變化有關(guān),也可能與人體反應(yīng)機制有關(guān)。在缺血情況下,心肌組織氧含量高的轉(zhuǎn)錄本轉(zhuǎn)錄更多,可能是反應(yīng)性的存儲更多的氧而導(dǎo)致的。隨著技術(shù)的發(fā)展,心肌組織樣本提取會變得越來越容易,侵襲性越來越小,基于心肌組織的標志物會越來越多。由于HF是臨床死亡最多原因之一,多變量的標志物將會更好的預(yù)測HF,改善其預(yù)后[37]。因此,如果有合適的數(shù)據(jù),我們非常樂意在新的數(shù)據(jù)中檢驗我們預(yù)測器預(yù)測HF及HF預(yù)后的能力。
總的來說,本研究構(gòu)建了一個基于全轉(zhuǎn)錄組的HF 標志物,能夠準確的區(qū)分HF 與NF。隨著全轉(zhuǎn)錄組技術(shù)的成熟,價格越來越低,本研究提出的策略能夠很容易的實施,未來將會有更多的轉(zhuǎn)錄組標志物甚至多組學(xué)整合策略的標志物出現(xiàn)。