徐志鑫 王亞東
摘 要:lncRNAs(long noncoding RNAs)是一類長度超過200個核苷酸的非編碼RNAs,越來越多的證據(jù)表明lncRNAs在許多生物過程中起關(guān)鍵作用。lncRNAs也與多種疾病的發(fā)生和發(fā)展有密切的聯(lián)系。近年來,很多研究人員關(guān)注于預(yù)測lncRNA與疾病的關(guān)聯(lián)預(yù)測的計算模型,這可以有效地減少生物實驗的時間和成本。本文總結(jié)了近年來有關(guān)lncRNA與疾病關(guān)聯(lián)預(yù)測的一些數(shù)據(jù)資源和有代表性的計算方法,并對當前存在的問題進行了分析,討論了未來的挑戰(zhàn)和發(fā)展方向。
關(guān)鍵詞: lncRNAs;疾病;lncRNA-疾病關(guān)聯(lián);計算方法
文章編號: 2095-2163(2019)03-0211-05 中圖分類號: TP311.13 文獻標志碼: A
0 引 言
隨著人類基因組計劃的完成,蛋白質(zhì)編碼基因僅占整個基因組的約1.5%,這意味著超過98%的人類基因組還不是編碼蛋白質(zhì)序列,這些基因組區(qū)域通常轉(zhuǎn)錄為非編碼RNA(ncRNA)[1]。在很長一段時間里,非編碼RNA在生物學(xué)上被認定是轉(zhuǎn)錄噪聲[2]。然而,越來越多的研究表明,非編碼RNA在許多生物過程中發(fā)揮著關(guān)鍵作用。其中,lncRNAs(long noncoding RNAs)就是一類長度超過200個核苷酸的非編碼RNAs。近年來,lncRNAs引起了研究人員的高度關(guān)注,因為已有證據(jù)指出lncRNA在多種生物機制中扮演重要角色,如表觀遺傳調(diào)控、染色質(zhì)重構(gòu)、基因轉(zhuǎn)錄、蛋白質(zhì)轉(zhuǎn)運、細胞分化、細胞運輸?shù)萚3]。此外,lncRNAs的突變和失調(diào)與肺癌、乳腺癌、卵巢癌、腎病、心血管疾病、自身免疫疾病等多種疾病的發(fā)生和發(fā)展有密切的關(guān)系[4]。盡管已經(jīng)取得了一定的研究成果,但對于生物學(xué)家和遺傳學(xué)家來說,確定那些未知的關(guān)聯(lián)關(guān)系仍可堪稱是一個重大的挑戰(zhàn)。傳統(tǒng)的生物實驗和臨床方法會耗費大量的時間和精力,因此時下的眾多研究者正致力于開發(fā)有效的計算方法來解決這一問題。近年來,研究人員提出了一些計算模型和方法來預(yù)測lncRNA與疾病的關(guān)聯(lián)關(guān)系。
本文綜述了近年來涌現(xiàn)的一些預(yù)測疾病相關(guān)的候選lncRNA的算法和工具,闡述了lncRNA-疾病關(guān)聯(lián)關(guān)系預(yù)測的研究進展。預(yù)測方法主要分為2類:基于生物網(wǎng)絡(luò)的方法和基于機器學(xué)習(xí)的方法,本文重點探討了其中一些方法。最后,則總結(jié)了當前的關(guān)鍵問題和未來的研究方向。
1 相關(guān)數(shù)據(jù)資源
隨著生物數(shù)據(jù)的快速增長,研究人員建立了一些特定的數(shù)據(jù)庫來存儲和管理數(shù)據(jù)。本節(jié)擬集中推介一些和lncRNA、疾病相關(guān)的公共數(shù)據(jù)資源,詳情可見如下。
1.1 lncRNA數(shù)據(jù)資源
NONCODE(http://www.bioinfo.org/noncode/)[5]是一個包含幾乎所有非編碼RNA的綜合知識庫。其中涵蓋16種(人類、小鼠、牛、大鼠、黑猩猩、大猩猩、猩猩、酵母、果蠅、擬南芥等)和527 336個lncRNA轉(zhuǎn)錄本。
LNCipedia(http://www.lncipedia.org/)[6]是一個人類lncRNA的綜合數(shù)據(jù)庫,通過整合不同的數(shù)據(jù),當前版本包含了120 353個人類lncRNA轉(zhuǎn)錄物。而且,也研發(fā)提供了預(yù)測蛋白質(zhì)編碼能力的實用工具。
lncRNAdb(http://www.lncrnadb.org)[7]是一種知識資源,旨在提供真核生物非編碼RNA的全面注釋。在該數(shù)據(jù)庫中,每個條目包含lncRNA的序列、結(jié)構(gòu)、基因組語境、基因表達、亞細胞定位、保守性和功能信息。用戶可以搜索和下載lncRNA信息并提交新條目。
LncRBase(http://bicresources.jcbose.ac.in/zhumur/lncrbase)[8]是人類和小鼠lncRNA的存儲庫,總共包含216 562個lncRNA轉(zhuǎn)錄物條目。在該數(shù)據(jù)庫中,已廣泛收集了基本的lncRNA轉(zhuǎn)錄特征、基因組位置、重疊小非編碼RNA、相關(guān)重復(fù)元件、相關(guān)印記基因和lncRNA啟動子信息。
1.2 疾病數(shù)據(jù)資源
Disease Ontology(http://disease-ontology.org)[9]是馬里蘭大學(xué)醫(yī)學(xué)院基因組科學(xué)研究所主辦的與人類疾病相關(guān)的生物醫(yī)學(xué)數(shù)據(jù)整合的開放數(shù)據(jù)庫。設(shè)計上包含了8 043個遺傳,發(fā)育和獲得性人類疾病,旨在通過疾病概念連接不同的數(shù)據(jù)集。
Medical Subject Headings(https://www.ncbi.nlm.nih.gov/mesh)是用于索引生命科學(xué)文章的綜合受控詞匯表詞庫。有27 883個描述符和87 000個按照層次結(jié)構(gòu)樹排列的條目。
OMIM(http://www.omim.org/)[10]是由約翰霍普金思大學(xué)醫(yī)學(xué)院McKusick-Nathans遺傳醫(yī)學(xué)研究所維護的人類基因和遺傳疾病在線知識庫。截至2017年5月26日,共有24 065個條目。
1.3 lncRNA-疾病關(guān)聯(lián)關(guān)系相關(guān)數(shù)據(jù)資源
LncRNADisease(http://www.cuilab.cn/lncrnadisease)[11]是手動收集的經(jīng)過實驗驗證的lncRNA-疾病關(guān)聯(lián)關(guān)系數(shù)據(jù)庫。當前版本包含大約3000個lncRNA-疾病對和475個lncRNA相互作用對,其中涉及大約2 000個出版文獻中的914個lncRNA和329種疾病。
Lnc2Cancer(http://www.bio-bigdata.net/lnc2cancer)[12]是一個癌癥相關(guān)lncRNAs資源,搜集包含了666個人類lncRNA和97個人類癌癥之間的1 488條關(guān)聯(lián)條目。與此同時,還提供了lncRNA表達模式、實驗技術(shù)、簡要功能描述、原始參考和附加注釋信息。此外,也允許用戶搜索、瀏覽和下載數(shù)據(jù)以及向數(shù)據(jù)庫提交新數(shù)據(jù)等操作。
MNDR(http://www.rna-society.org/mndr)[13]是哺乳動物非編碼RNA-疾病關(guān)系在線知識庫,當前版本包含了807個lncRNA相關(guān)、229個miRNA相關(guān)、13個piRNA相關(guān)和100個snoRNA相關(guān)的數(shù)據(jù)條目。
2 交叉驗證
為了評估算法的效果,對于lncRNA-疾病關(guān)聯(lián)關(guān)系預(yù)測,通常對研究提出的模型進行留一交叉驗證(LOOCV)或5-折交叉驗證。其中,LOOCV在已知的、經(jīng)過實驗驗證的lncRNA-疾病關(guān)聯(lián)關(guān)系上設(shè)計發(fā)生,關(guān)聯(lián)關(guān)系中的每一對作為測試樣本,而剩余的用于訓(xùn)練模型。如果測試樣本的排名高于特定閾值,就可以認為正確預(yù)測了這個lncRNA-疾病關(guān)聯(lián)關(guān)系對。有2種類型的LOOCV,分別為:全局LOOCV和局部LOOCV。對于全局LOOCV,測試樣本的排名被列入所有調(diào)查疾病的全部未知候選微生物-疾病關(guān)聯(lián)對中。對于局部LOOCV,測試樣本僅在給定疾病的其它未知的疾病相關(guān)lncRNA中進行排名。即2種LOOCV的主要區(qū)別在于是否考慮了所有被調(diào)查的疾病。而-5折交叉驗證將所有已知的、經(jīng)過驗證的lncRNA-疾病關(guān)聯(lián)對隨機分為5組。不是選擇一個lncRNA-疾病關(guān)聯(lián)對作為測試樣本,而是將這5組中的每一組輪流作為測試集,而其它4組作為訓(xùn)練集。為了直觀地評估性能,研究者一般選擇接受者操作特征曲線(ROC),這是評估二元分類模型的常用方法。研究中,敏感度(sensitivity)和特異度(specificity)是ROC曲線中使用的2個關(guān)鍵指標。對于lncRNA-疾病關(guān)聯(lián)關(guān)系的預(yù)測,敏感度表示出一個測試被正確識別的比例,而特異度表示出一個測試被錯誤地認為有關(guān)聯(lián)關(guān)系的比例。利用這種方式,通過不斷改變閾值,使用真陽性率(敏感度)與假陽性率(1-特異度)繪制ROC曲線來做出比較。ROC曲線下的面積也通常用于測試性能。一般地,AUC=0.5表示效果是隨機的,AUC=1表示效果完美。
3 計算方法
越來越多的證據(jù)表明,lncRNA的突變和失調(diào)與多種人類疾病密切相關(guān),lncRNA功能及其與人類疾病的關(guān)系引起了更多研究者的興趣與重視。計算模型可能是識別潛在lncRNA功能和lncRNA-疾病關(guān)聯(lián)關(guān)系的有效方法。本節(jié)論述了一些用于識別lncRNA-疾病關(guān)聯(lián)的計算方法,詳情可見如下。
3.1 基于生物網(wǎng)絡(luò)的方法
具有相似功能lncRNA可能與表型相似的疾病相關(guān),根據(jù)這個假設(shè),一些研究人員提出了數(shù)種基于生物網(wǎng)絡(luò)的方法來預(yù)測疾病相關(guān)的lncRNA,對此可做闡釋解析如下。
Sun等人[14]基于lncRNA功能相似網(wǎng)絡(luò)提出了一種基于全局網(wǎng)絡(luò)的計算方法RWRlncD。研究中,在相繼構(gòu)建了lncRNA-疾病關(guān)聯(lián)網(wǎng)絡(luò)、疾病相似性網(wǎng)絡(luò)和lncRNA功能相似網(wǎng)絡(luò)后,RWRlncD通過在lncRNA功能相似網(wǎng)絡(luò)上進行隨機游走重啟(RWR)來預(yù)測潛在的lncRNA-疾病關(guān)系。基于已驗證的lncRNA-疾病關(guān)聯(lián)關(guān)系,RWRlncD在LOOCV下獲得0.822的AUC。然而此方法不能應(yīng)用于沒有任何已知相關(guān)lncRNA的疾病。當未來有更多l(xiāng)ncRNA-疾病關(guān)聯(lián)和更準確的lncRNA功能相似性度量時,RWRlncD的預(yù)測性能將會改善。
此后,研究立足于有更多共同的miRNA相互作用的lncRNA傾向于與相似的疾病相關(guān)聯(lián)的假設(shè),Zhou等人[15]又提出了RWRHLD模型預(yù)測潛在的lncRNA-疾病關(guān)聯(lián)關(guān)系。RWRHLD將3個網(wǎng)絡(luò)(miRNA相關(guān)聯(lián)的lncRNA-lncRNA串擾網(wǎng)絡(luò)、疾病相似性網(wǎng)絡(luò)和已知的lncRNA疾病關(guān)聯(lián)網(wǎng)絡(luò))整合為一個網(wǎng)絡(luò),并在其上進行隨機游走。基于已知實驗驗證的lncRNA-疾病關(guān)聯(lián),RWRHLD在LOOCV下獲得0.871的AUC值。然而,RWRHLD僅適用于具有已知的lncRNA-miRNA相互作用的lncRNA,此外lncRNA串擾網(wǎng)絡(luò)和lncRNA-疾病關(guān)聯(lián)網(wǎng)絡(luò)的不完全覆蓋可能會降低模型預(yù)測性。
Yang等人[16]基于已知疾病基因和lncRNA-疾病關(guān)聯(lián)構(gòu)建了編碼-非編碼基因-疾病二分網(wǎng)絡(luò),并進一步實現(xiàn)了該二分網(wǎng)絡(luò)上的傳播算法,以推測潛在的lncRNA-疾病關(guān)聯(lián)。該方法在LOOCV下獲得了0.788 1的AUC。然而,非編碼基因、蛋白質(zhì)編碼基因和lncRNA功能注釋之間相互作用的缺失卻影響了方法的性能。
除了單層的網(wǎng)絡(luò),一些研究人員嘗試構(gòu)建了lncRNA-疾病的多級網(wǎng)絡(luò),并據(jù)此基于多級網(wǎng)絡(luò)來研究識別新的疾病相關(guān)lncRNA。
Yao等人[17]提出了基于多層復(fù)合網(wǎng)絡(luò)來預(yù)測疾病相關(guān)lncRNA的算法LncPriCNet。研究通過將表型-表型相互作用、lncRNA-lncRNA相互作用以及基因-基因相互作用與疾病-ncRNA關(guān)系相結(jié)合來構(gòu)建復(fù)合網(wǎng)絡(luò),而后再使用隨機游走重啟算法(RWR)來預(yù)測候選的疾病相關(guān)lncRNA。當已知疾病的lncRNAs信息不足時,LncPriCNet依然表現(xiàn)良好。原因可能是多層復(fù)合網(wǎng)絡(luò)能夠支持更多的信息交互。
Zhang等人[18]基于多種生物信息提出了LncRDNetFlow算法。該算法整合了多個網(wǎng)絡(luò),包括lncRNA相似性網(wǎng)絡(luò)、蛋白質(zhì)相互作用網(wǎng)絡(luò)、疾病相似性網(wǎng)絡(luò)以及相互之間的關(guān)聯(lián)網(wǎng)絡(luò),并在異構(gòu)網(wǎng)絡(luò)上利用流傳播算法來預(yù)測lncRNA-疾病關(guān)聯(lián),最終在LOOCV下達到0.841的AUC。此方法能夠在沒有已知關(guān)聯(lián)的情況下預(yù)測新的關(guān)聯(lián)關(guān)系。究其原因就在于其整合了蛋白質(zhì)的信息及其與lncRNAs和疾病的關(guān)聯(lián)。
3.2 基于機器學(xué)習(xí)的方法
機器學(xué)習(xí)對于預(yù)測疾病候選lncRNA有著重要作用,可根據(jù)已知疾病相關(guān)的lncRNA和未知的lncRNA特征來訓(xùn)練分類器,同時根據(jù)各項集之間的生物學(xué)特征差異來對候選lncRNA進行排名。
Chen等人[19]開發(fā)了LRLSLDA(Laplacian Regularized Least Squares for LncRNA–Disease Association)計算模型,該模型是基于半監(jiān)督學(xué)習(xí)框架的預(yù)測潛在疾病相關(guān)lncRNA模型。模型基于一個假設(shè)——相似的疾病傾向于與功能相似的lncRNA相關(guān)聯(lián)。LRLSLDA結(jié)合了已知的疾病-lncRNA關(guān)聯(lián)關(guān)系和lncRNA表達譜,在留一交叉驗證(LOOCV)下獲得0.776的AUC,同時也不需要負樣本的信息,而負樣本往往難以獲得。但LRLSLDA仍有一些限制,例如,模型中出現(xiàn)很多參數(shù),如何選擇參數(shù)并未得到根本性的解決。此外,對同一個lncRNA-疾病關(guān)聯(lián)對會分別從lncRNA和疾病空間得到2個不同的分數(shù),如何高效地結(jié)合2個分數(shù)也已成為時下的研究課題。
Zhao等人[20]使用已知的癌癥相關(guān)lncRNA,基于多元數(shù)據(jù)、基因組、調(diào)節(jié)物組和轉(zhuǎn)錄組的整合,開發(fā)了一種基于樸素貝葉斯分類器的模型,以識別新的癌癥相關(guān)lncRNA。該模型基于可公開獲得的多個癌癥類型的外顯子數(shù)據(jù)和小鼠的直系同源lncRNA knockdown數(shù)據(jù),采用10折交叉驗證進行評估。測試后表明該模型顯示出良好的效果,并成功鑒定707種潛在的癌癥相關(guān)lncRNA。文獻中使用的監(jiān)督分類器,如支持向量機(SVM)和樸素貝葉斯分類器的關(guān)鍵限制是需要負樣本的信息,而這在當前的研究中是無法獲得的。因此,總是隨機選擇未被標記的lncRNA-疾病關(guān)聯(lián)對作為負樣本,這就嚴重影響了預(yù)測性能。
基于功能相似的lncRNA總是與相似的疾病相關(guān)聯(lián),Chen等人[1]通過計算與lncRNA相關(guān)的疾病組之間的語義相似性開發(fā)了2個新的模型LNCSIM1和LNCSIM2。這2個模型之間的差別就在基于疾病有向無環(huán)圖的疾病語義相似度的計算上,而這對如何有效表示不同疾病之間的關(guān)系是至關(guān)重要的。當疾病語義相似性和lncRNA功能相似性(由LNCSIM計算)與之前的LRLSLDA相結(jié)合時,得到新的lncRNA-疾病關(guān)聯(lián)預(yù)測模型LRLSLDA-LNCSIM,可以在更大程度上提升LRLSLDA的預(yù)測性能。
Biswas等人[21]提出了基于矩陣分解的lncRNA-疾病關(guān)聯(lián)預(yù)測計算模型。模型整合了lncRNA-疾病關(guān)聯(lián)關(guān)系,經(jīng)過實驗驗證的基因-疾病關(guān)聯(lián)關(guān)系,基因-基因相互作用數(shù)據(jù)以及l(fā)ncRNA和基因的表達譜。使用非負矩陣分解方法預(yù)測lncRNA和疾病的相互作用,并使用雙聚類來識別lncRNA模塊。
對于有監(jiān)督的機器學(xué)習(xí)算法,需要假設(shè)與疾病相關(guān)的lncRNA和不相關(guān)的lncRNA是分離的,然而已被證明與疾病相關(guān)的lncRNA數(shù)量仍然較少,而且?guī)缀鯖]有實驗?zāi)軌蜃C明那些關(guān)系不存在的,故而研究人員設(shè)計開發(fā)了一些基于半監(jiān)督學(xué)習(xí)的模型。機器學(xué)習(xí)方法面臨的挑戰(zhàn)是如何選擇有用的生物特征來訓(xùn)練分類器。因此,整合多個數(shù)據(jù)資源是提高性能的有效方法。但是,一些冗余或不相關(guān)的生物信息可能是無用的,甚至?xí)档托阅?。同時,不同的分類算法也可能僅適合不同的數(shù)據(jù)資源。因此,利用多種學(xué)習(xí)算法可以獲得更好的預(yù)測性能。
3.3 其它方法
在前述研究中分析可知,所有的計算模型均需要與已知的lncRNA-疾病關(guān)聯(lián)來實現(xiàn)預(yù)測。然而,即使是現(xiàn)在,已知的經(jīng)實驗驗證的lncRNA-疾病關(guān)聯(lián)關(guān)系仍然非常有限。因此,研究人員已轉(zhuǎn)而開始探索基于已知的疾病相關(guān)基因、miRNA和lncRNA與基因或miRNA之間的關(guān)系來預(yù)測lncRNA-疾病關(guān)聯(lián)。
Liu等人[22]開發(fā)了一種不需要依賴已知lncRNA-疾病關(guān)系,而通過整合已知人類疾病基因和人類lncRNA與基因表達譜來預(yù)測潛在的人類lncRNA-疾病關(guān)聯(lián)的計算方法。在該方法中,將lncRNA分為2部分:組織特異性和非組織特異性lncRNA。首先根據(jù)不同組織中所有l(wèi)ncRNA的表達水平計算組織特異性評分。然后,對于組織特異性lncRNA,該計算框架推測這些lncRNA與各種人類組織相關(guān)的疾病間可能存在的關(guān)聯(lián)。此外,還可以基于疾病-基因關(guān)聯(lián)和基因-lncRNA共表達關(guān)系獲得非組織特異性lncRNA的相關(guān)疾病。該模型在LOOCV下獲得0.764 5的AUC,非組織特異性lncRNA的預(yù)測精度為0.89。然而,該方法仍然不能預(yù)測無相關(guān)基因記錄的疾病相關(guān)lncRNA。
Li等人[23]提出了一種基于基因組位置的計算方法,運行后能夠更為全面地預(yù)測與血管疾病相關(guān)的人類lncRNA。10個被預(yù)測為與血管平滑肌細胞相關(guān)的lncRNA將被選擇用于下一步的實驗驗證以測試該方法的準確性。結(jié)果,10個中共有8個得到了證實。實驗結(jié)果表明該方法的可靠預(yù)測性能及鑒定新型lncRNA用于診斷和治療血管疾病的潛在價值。然而,該方法的應(yīng)用范圍尚屬有限,因為并非所有的lncRNA都具有相鄰基因,即使該lncRNA具有相鄰基因,也可能與其鄰近基因無功能相關(guān)性。
另外,統(tǒng)計學(xué)方法也已應(yīng)用在lncRNA-疾病關(guān)聯(lián)的預(yù)測中。Chen[24]基于超幾何分布提出了HGLDA模型。通過整合疾病語義相似性,miRNA-疾病關(guān)聯(lián)和miRNA-lncRNA相互作用來計算lncRNA功能相似性。過程中,將測試lncRNA和疾病是否顯著共享可以與這兩者相互作用的常見miRNA,模型對每個lncRNA-疾病對進行超幾何分布測試。HGLDA在LOOCV下獲得0.762 1的AUC,然而,HGLDA不能應(yīng)用于那些沒有任何已知miRNA相互作用的lncRNA。
4 結(jié)束語
越來越多的證據(jù)表明非編碼RNA(lncRNA)在許多人類疾病中發(fā)揮重要作用。預(yù)測新的lncRNA-疾病關(guān)聯(lián)將有助于生物學(xué)家理解疾病的致病機理。此外,這也有助于人類疾病的診斷、預(yù)防和治療。最近,很多研究人員構(gòu)建計算模型來預(yù)測新的lncRNA-疾病關(guān)聯(lián),使得顯著減少生物實驗的時間和成本已成為現(xiàn)實可能。本文中,擷選了一些重要的公開可用的數(shù)據(jù)庫,然后,詳述了近年來一些預(yù)測疾病相關(guān)lncRNA的計算方法,包括基于生物網(wǎng)絡(luò)的方法、基于機器學(xué)習(xí)的方法以及其它類型的方法,這些方法取得了一些成果,但還需要后續(xù)更大力度投入來改進現(xiàn)有研究。很多方法整合了其它類型的生物數(shù)據(jù)來提高性能,然而,將適合與lncRNA-疾病關(guān)聯(lián)預(yù)測的多種數(shù)據(jù)整合起來仍然頗顯困難。因此,需要開發(fā)更具針對性的方法來有效整合這些數(shù)據(jù)。對于一些機器學(xué)習(xí)模型,負樣本往往難以獲得,而且在參數(shù)選擇、分類器組合等方面也存在一定問題與不足。在很多模型中,相似性計算對關(guān)聯(lián)預(yù)測的準確性有重要影響,因此,如何設(shè)計科學(xué)合理的方法來計算相似性,同時處理整合來自不同生物信息的相似性分值也是亟待深入探討研究的關(guān)鍵問題。
參考文獻
[1]CHEN X, YAN C C, LUO C, et al. Constructing lncRNA functional similarity network based on lncRNA-disease associations and disease semantic similarity[J]. Scientific Reports, 2015, 5:11338.
[2] LOURO R, SMIRNOVA A S, VERJOVSKI-ALMEIDA S. Long intronic noncoding RNA transcription: Expression noise or expression choice?[J]. Genomics, 2009, 93(4):291-298.
[3] GEISLER S, COLLER J. RNA in unexpected places: Long non-coding RNA functions in diverse cellular contexts[J]. Nature Reviews Molecular Cell Biology, 2013, 14(11):699-712.
[4] CHEN X, YAN C C, ZHANG X, et al. Long non-coding RNAs and complex diseases: From experimental results to computational models[J]. Briefings in Bioinformatics, 2016, 18(4):558-576.
[5] ZHAO Yi, LI Hui, FANG Shuangsang, et al. NONCODE 2016: An informative and valuable data source of long non-coding RNAs[J]. Nucleic Acids Research, 2016, 44(Database issue):D203-D208.
[6] VOLDERS P J, HELSENS K, WANG X, et al. LNCipedia: A database for annotated human lncRNA transcript sequences and structures[J]. Nucleic Acids Research, 2013, 41(Database issue):D246-D251.
[7] QUEK X C, THOMSON D W, MAAG J L, et al. lncRNAdb v2.0: Expanding the reference database for functional long noncoding RNAs[J]. Nucleic Acids Research, 2015, 43(Database issue):168-173.
[8] CHAKRABORTY S, DEB A, MAJI R K, et al. LncRBase: An enriched resource for lncRNA information[J]. PloS One, 2014, 9(9):e108010.
[9] LYNN S, ARZE C, NADENDLA S, et al. Disease ontology: A backbone for disease semantic integration[J]. Nucleic Acids Research, 2011, 40(Database issue):940-946.
[10]AMBERGER J S, BOCCHINI C A, SCHIETTECATTE F, et al. OMIM.org: Online mendelian inheritance in man (OMIM), an online catalog of human genes and genetic disorders[J]. Nucleic Acids Research, 2015, 43(Database issue):789-798.
[11]CHEN G, WANG Z, WANG D, et al. LncRNADisease: A database for long-non-coding RNA-associated diseases[J]. Nucleic Acids Research, 2013, 41(Database issue):983-986.
[12]NING S, ZHANG J, WANG P, et al. Lnc2Cancer: A manually curated database of experimentally supported lncRNAs associated with various human cancers[J]. Nucleic Acids Research, 2016, 44(Database issue):D980-D985.
[13]WANG Y, CHEN L, CHEN B, et al. Mammalian ncRNA-disease repository: A global view of ncRNA-mediated disease network[J]. Cell Death & Disease, 2013, 4(8):e765.
[14]SUN Jie, SHI Hongbo, WANG Zhenzhen, et al. Inferring novel lncRNA-disease associations based on a random walk model of a lncRNA functional similarity network[J]. Molecular Biosystems, 2014, 10(8):2074-2081.
[15]ZHOU M, WANG X, LI J, et al. Prioritizing candidate disease-related long non-coding RNAs by walking on the heterogeneous lncRNA and disease network[J]. Molecular bioSystems, 2015, 11(3): 760-769.
[16]YANG X, GAO L, GUO X, et al. A network based method for analysis of lncRNA-disease associations and prediction of lncRNAs implicated in diseases[J]. PLoS One, 2014, 9(1): e87797.
[17]YAO Qianlan, WU Leilei, JIA Li, et al. Global prioritizing disease candidate lncRNAs via a multi-level composite network[J]. Scientific Reports, 2017, 7:39516.
[18]ZHANG Jingpu, ZHANG Zuping, CHEN Zhigang, et al. Integrating multiple heterogeneous networks for novel LncRNA-disease association inference[J]. IEEE/ACM Transactions on Computational Biology & Bioinformatics, 2017, PP(99):1.
[19]CHEN Xing, YAN Guiying. Novel human lncRNA-disease association inference based on lncRNA expression profiles[J]. Bioinformatics, 2013, 29(20): 2617-2624.
[20]ZHAO T, XU J, LIU L, et al. Identification of cancer-related lncRNAs through integrating genome, regulome and transcriptome features[J]. Molecular BioSystems, 2014, 11(1): 126-136.
[21]BISWAS A K, KANG M, KIM D C, et al. Inferring disease associations of the long non-coding RNAs through non-negative matrix factorization[J]. Network Modeling Analysis in Health Informatics & Bioinformatics, 2015, 4(1):1-17.
[22]LIU Mingxi, CHEN Xing, CHEN Geng, et al. A computational framework to infer human disease-associated long noncoding RNAs[J]. PLoS One, 2014, 9(1):e84408.
[23]LI Jianwei, CHENG Gao, WANG Yuchen, et al. A bioinformatics method for predicting long noncoding RNAs associated with vascular disease[J]. Science China Life Sciences, 2014, 57(8):852-857.
[24]Chen Xing. Predicting lncRNA-disease associations and constructing lncRNA functional similarity network based on the information of miRNA[J]. Scientific Reports, 2015, 5:13186.