鄭廣勇,曾濤,李亦學(xué),2,3,4
領(lǐng)域前瞻
前沿信息技術(shù)在生物醫(yī)學(xué)大數(shù)據(jù)中的應(yīng)用及展望
鄭廣勇1,曾濤1,李亦學(xué)1,2,3,4
1. 中國(guó)科學(xué)院上海營(yíng)養(yǎng)與健康研究所,中國(guó)科學(xué)院計(jì)算生物學(xué)重點(diǎn)實(shí)驗(yàn)室,生物醫(yī)學(xué)大數(shù)據(jù)中心,上海 200031 2. 廣州國(guó)家實(shí)驗(yàn)室,廣州 510320 3. 國(guó)科大杭州高等研究院,中國(guó)科學(xué)院大學(xué),杭州 310013 4. 復(fù)旦大學(xué)遺傳與發(fā)育協(xié)同創(chuàng)新中心,上海 200438
近年來(lái),隨著以高通量組學(xué)檢測(cè)技術(shù)為代表的生物技術(shù)(biological technology, BT)的發(fā)展,生物醫(yī)學(xué)研究領(lǐng)域開(kāi)始進(jìn)入大數(shù)據(jù)時(shí)代。面對(duì)高維度、跨層次、多模態(tài)生物醫(yī)學(xué)大數(shù)據(jù),科學(xué)研究需要數(shù)據(jù)密集型科研新范式。云計(jì)算、區(qū)塊鏈、人工智能等前沿信息技術(shù)(information technology, IT)的蓬勃發(fā)展為這種新型研究范式的實(shí)踐提供了技術(shù)手段。本文對(duì)云計(jì)算、區(qū)塊鏈、人工智能等前沿信息技術(shù)在生物醫(yī)學(xué)大數(shù)據(jù)中的應(yīng)用進(jìn)行了描述,并對(duì)數(shù)據(jù)密集型科研新范式支撐環(huán)境的構(gòu)建提出了前瞻展望,以期建立融合BT&IT 技術(shù)的新型研究方案和科研新范式,最終推動(dòng)生物醫(yī)學(xué)研究跨越式發(fā)展。
組學(xué);云計(jì)算;區(qū)塊鏈;人工智能;數(shù)據(jù)密集型科研新范式
自2001年“人類(lèi)基因組計(jì)劃”完成,生物醫(yī)學(xué)研究開(kāi)始進(jìn)入“后基因組時(shí)代”。伴隨著對(duì)基因組、轉(zhuǎn)錄組、蛋白組及代謝組等組學(xué)的深入研究,人們?cè)谖⒂^的分子層面對(duì)生命科學(xué)有了系統(tǒng)化的認(rèn)知[1]。近10年來(lái),隨著各種高通量組學(xué)技術(shù)的快速發(fā)展,基因組、表觀遺傳組、轉(zhuǎn)錄組、蛋白質(zhì)組、代謝組、微生物組、相互作用組等組學(xué)數(shù)據(jù)正以前所未有的速度進(jìn)行累積,如何高效分析解讀這些組學(xué)背后的科學(xué)規(guī)律,從而在微觀層面更加全面地認(rèn)識(shí)生物體的分子機(jī)理,成為生物醫(yī)學(xué)研究領(lǐng)域的一個(gè)重要課題[2]。特別值得注意的是,為了深入測(cè)量并描述生物體的行為和功能,表型組學(xué)近年應(yīng)運(yùn)而生。表型組是指生物體從微觀(分子、細(xì)胞)到宏觀(器官、組織、生物體),從胚胎發(fā)育到出生、生長(zhǎng)、衰老及死亡過(guò)程中,由基因與環(huán)境以及二者互相作用產(chǎn)生的所有形態(tài)、功能、行為等方面的生物學(xué)性狀集合[3]。從表型組的定義可以知道,其涵蓋了時(shí)間(生物體從出生到死亡的過(guò)程)和空間(分子、細(xì)胞、器官、組織、生物體)兩個(gè)方面的信息。在表型組研究中,對(duì)生物體的物理表型(體質(zhì)、影像)、化學(xué)表型(基因、蛋白質(zhì)、轉(zhuǎn)錄組、代謝物、免疫因子等)以及生物表型(如肺功能、心功能和認(rèn)知功能等)進(jìn)行從宏觀到微觀的測(cè)量和分析,從而系統(tǒng)反映生物體在時(shí)間和空間兩個(gè)維度上的動(dòng)態(tài)變化過(guò)程[4]。由于表型組數(shù)據(jù)涵蓋兩個(gè)維度信息,刻畫(huà)了從分子到生物體不同層次特性,同時(shí)包含文本、圖片、影像等不同模式的數(shù)據(jù),因而具有高維度、跨層次、多模態(tài)的特征。各類(lèi)組學(xué)技術(shù)的蓬勃發(fā)展推動(dòng)了生物醫(yī)學(xué)領(lǐng)域研究進(jìn)入數(shù)據(jù)密集型科研新范式時(shí)期,從而為領(lǐng)域的發(fā)展帶來(lái)了挑戰(zhàn)和機(jī)遇。在大數(shù)據(jù)時(shí)代,面對(duì)數(shù)據(jù)密集型科研新范式,生物信息學(xué)研究人員需要在傳統(tǒng)的計(jì)算生物學(xué)方法中引入云計(jì)算、區(qū)塊鏈、人工智能等前沿信息技術(shù)(information technology, IT),支撐這種科研新范式的實(shí)踐,進(jìn)而高效解讀海量不同維度、不同層次的生物醫(yī)學(xué)領(lǐng)域數(shù)據(jù),實(shí)現(xiàn)領(lǐng)域大數(shù)據(jù)的匯聚研究[5]。在此基礎(chǔ)上,如果能夠構(gòu)建數(shù)據(jù)密集型科研新范式的支撐系統(tǒng),則可以幫助科學(xué)家和臨床醫(yī)生從系統(tǒng)的層面上通過(guò)數(shù)據(jù)密集型的計(jì)算分析和計(jì)算實(shí)驗(yàn),深度挖掘和發(fā)現(xiàn)大數(shù)據(jù)背后的價(jià)值,理解多維數(shù)據(jù)背后的科學(xué)規(guī)律,從而有力支持生物醫(yī)學(xué)問(wèn)題的基礎(chǔ)研究和轉(zhuǎn)化研究工作。本文將首先對(duì)云計(jì)算、區(qū)塊鏈、人工智能等前沿信息技術(shù)在生物醫(yī)學(xué)大數(shù)據(jù)中的應(yīng)用進(jìn)行描述,然后對(duì)數(shù)據(jù)密集型科研新范式支撐環(huán)境的構(gòu)建提出展望。
云計(jì)算(cloud computing)是分布式計(jì)算的一種,指的是通過(guò)網(wǎng)絡(luò)“云”將巨大的數(shù)據(jù)計(jì)算處理程序分解成無(wú)數(shù)個(gè)小程序,然后通過(guò)多部服務(wù)器組成的系統(tǒng)進(jìn)行處理和分析這些小程序得到結(jié)果并返回給用戶(hù)。與傳統(tǒng)的本地計(jì)算技術(shù)相比,云計(jì)算技術(shù)具有以下優(yōu)點(diǎn):
(1)擴(kuò)展性好:相比于傳統(tǒng)的服務(wù)器計(jì)算,云計(jì)算能夠快速地對(duì)應(yīng)用進(jìn)行動(dòng)態(tài)擴(kuò)展。云計(jì)算可根據(jù)用戶(hù)不同的應(yīng)用搭配不同的計(jì)算資源和存儲(chǔ)資源,進(jìn)行細(xì)粒度的資源部署,從而提高資源的使用效率。
(2)兼容性高:目前市場(chǎng)上大多數(shù)IT資源、軟、硬件都支持虛擬化,因此云計(jì)算的兼容性非常強(qiáng),能夠?qū)Σ煌阅艿臋C(jī)器進(jìn)行統(tǒng)一管理配置,從而提高服務(wù)效率。
(3)可靠性高:由于云計(jì)算對(duì)各種計(jì)算資源進(jìn)行統(tǒng)一的管理配置,因此單點(diǎn)服務(wù)器故障不會(huì)影響整個(gè)系統(tǒng)對(duì)外提供服務(wù),因而比傳統(tǒng)的本地服務(wù)器計(jì)算具有更高的可靠性。
(4)性?xún)r(jià)比高:將資源放在虛擬資源池中統(tǒng)一管理一定程度上優(yōu)化了物理資源,用戶(hù)不再需要昂貴的、存儲(chǔ)空間大的主機(jī),而是可選擇相對(duì)廉價(jià)的計(jì)算資源統(tǒng)一組成云并擁有不遜于大型主機(jī)的性能,因此具有良好的性?xún)r(jià)比。
面對(duì)生物醫(yī)學(xué)大數(shù)據(jù)的快速增長(zhǎng),云計(jì)算的優(yōu)點(diǎn)使其成為生物醫(yī)療領(lǐng)域計(jì)算生物學(xué)工作的必然選擇。目前,云計(jì)算技術(shù)已經(jīng)在許多生物醫(yī)學(xué)基礎(chǔ)研究和應(yīng)用研究中進(jìn)行使用,并取得了良好的效果(表1)。Fischer等[6]構(gòu)建了基于云計(jì)算技術(shù)的全外顯子測(cè)序數(shù)據(jù)分析流程,為罕見(jiàn)遺傳疾病的機(jī)理研究提供了有效支撐。Samuel等[7]搭建了一個(gè)跨平臺(tái)訪(fǎng)問(wèn)的云計(jì)算資源池,為微生物組學(xué)數(shù)據(jù)分析提供了便利。Ben等[8]構(gòu)建了一款基于云計(jì)算技術(shù)的SNP (single nucleotide polymorphism)識(shí)別工具,該工具可以高效地從人類(lèi)基因組測(cè)序數(shù)據(jù)中識(shí)別SNP信息。Guo等[9]使用云計(jì)算技術(shù),構(gòu)建了高效的宏基因組測(cè)序數(shù)據(jù)從頭拼接軟件,為宏基因組測(cè)序數(shù)據(jù)的解讀提供了解決方案。美國(guó)國(guó)立生物技術(shù)研究中心NCBI (National Center for Biotechnology Information)推出了基于Google云和亞馬遜云的BLAST+版本(https://blast.ncbi.nlm.nih.gov/Blast.cgi?CMD=Web&PAGE_TYPE=BlastDocs&DOC_TYPE=CloudBlast),有效滿(mǎn)足了超大規(guī)模的生物醫(yī)學(xué)領(lǐng)域數(shù)據(jù)的序列比對(duì)的需求。美國(guó)Broad研究中心推出了基于Google 云的GATK4套裝軟件(https://gatk.broadinstitute.org/),從而為從大規(guī)模的基因組測(cè)序數(shù)據(jù)中識(shí)別胚系突變(germline mutation)和體細(xì)胞突變(somatic mutation)提供了解決方案。近年,筆者基于云計(jì)算技術(shù)建立了智慧多組學(xué)數(shù)據(jù)分析系統(tǒng)(https://aicloud.biosino. org/casmap)。該系統(tǒng)能夠?qū)蚪M、轉(zhuǎn)錄組、表觀遺傳組、微生物組、代謝組等多種生命組學(xué)大數(shù)據(jù)進(jìn)行自動(dòng)化分析。該系統(tǒng)與傳統(tǒng)的分析系統(tǒng)相比,具有以下優(yōu)點(diǎn):(1)方便的數(shù)據(jù)分析,系統(tǒng)為多種組學(xué)數(shù)據(jù)的分析流程提供了可視化的操作界面,取代繁瑣的命令行模式,零編程經(jīng)驗(yàn)用戶(hù)也可以通過(guò)簡(jiǎn)單的鼠標(biāo)操作完成專(zhuān)業(yè)的組學(xué)數(shù)據(jù)分析。用戶(hù)在系統(tǒng)中可以一鍵運(yùn)行各種組學(xué)分析流程,并獲得分析結(jié)果報(bào)告,并可以把報(bào)告中圖表用于后續(xù)的論文發(fā)表。(2)可靠的數(shù)據(jù)挖掘,系統(tǒng)的后端存儲(chǔ)了500GB+ 的生命科學(xué)專(zhuān)業(yè)注釋數(shù)據(jù),幫助用戶(hù)在開(kāi)展組學(xué)數(shù)據(jù)分析時(shí)獲得更為可靠的結(jié)果。系統(tǒng)中的分析流程全部根據(jù)高影響因子的SCI論文分析過(guò)程進(jìn)行研發(fā),確保數(shù)據(jù)挖掘的先進(jìn)性,精準(zhǔn)解讀數(shù)據(jù)背后的意義。(3)高效的數(shù)據(jù)處理,系統(tǒng)基于云計(jì)算技術(shù)進(jìn)行開(kāi)發(fā),能夠彈性地應(yīng)對(duì)用戶(hù)的少量、中量、海量數(shù)據(jù)分析需求,極大的提高了分析效率,減少了數(shù)據(jù)處理時(shí)間,幫助用戶(hù)高效快速地對(duì)各類(lèi)生命組學(xué)數(shù)據(jù)進(jìn)行深入解讀。
區(qū)塊鏈作為近年來(lái)的一項(xiàng)新興技術(shù),它具有去中心化、可追溯、不可偽造、公開(kāi)透明等屬性。區(qū)塊鏈本質(zhì)上是一個(gè)分布式數(shù)據(jù)庫(kù),采用去中心化和去信任的途徑構(gòu)建可信任的網(wǎng)絡(luò)。狹義來(lái)講,區(qū)塊鏈?zhǔn)且环N按照時(shí)間順序?qū)?shù)據(jù)區(qū)塊以順序相連的方式組合成的一種鏈?zhǔn)綌?shù)據(jù)結(jié)構(gòu),并以密碼學(xué)方式保證不可篡改和不可偽造的分布式賬本。廣義來(lái)講,區(qū)塊鏈技術(shù)是利用塊鏈?zhǔn)綌?shù)據(jù)結(jié)構(gòu)來(lái)驗(yàn)證與存儲(chǔ)數(shù)據(jù)、用分布式節(jié)點(diǎn)共識(shí)算法來(lái)生成和更新數(shù)據(jù)、利用密碼學(xué)的方式保證數(shù)據(jù)傳輸和訪(fǎng)問(wèn)的安全、利用智能合約來(lái)編程和操作數(shù)據(jù)的一種全新的分布式基礎(chǔ)架構(gòu)與計(jì)算范式。區(qū)塊鏈?zhǔn)怯晒?jié)點(diǎn)參與的分布式數(shù)據(jù)庫(kù)系統(tǒng),眾節(jié)點(diǎn)形成點(diǎn)對(duì)點(diǎn)的網(wǎng)絡(luò),沒(méi)有中心化設(shè)備和管理機(jī)構(gòu),它不需要第三方信任背書(shū)。
表1 云計(jì)算技術(shù)在生物醫(yī)學(xué)大數(shù)據(jù)中的典型應(yīng)用
目前,阻礙生物醫(yī)學(xué)大數(shù)據(jù)廣泛應(yīng)用的一個(gè)主要問(wèn)題是數(shù)據(jù)孤島化。由于利益分配機(jī)制不明、隱私泄露風(fēng)險(xiǎn)、倫理法規(guī)約束等,大部分醫(yī)療領(lǐng)域的研究人員在實(shí)驗(yàn)數(shù)據(jù)和臨床數(shù)據(jù)共享方面往往猶豫不決。因此,在生物醫(yī)療領(lǐng)域迫切需要建立安全、互利的數(shù)據(jù)共享機(jī)制,從而使數(shù)據(jù)通過(guò)流通與匯聚釋放價(jià)值,推進(jìn)生物醫(yī)藥產(chǎn)業(yè)的創(chuàng)新發(fā)展[10]。區(qū)塊鏈技術(shù)的去中心化、可追溯、不可偽造、公開(kāi)透明等屬性賦予該技術(shù)應(yīng)用于生物醫(yī)療領(lǐng)域數(shù)據(jù)管理共享的能力。Fan等[11]通過(guò)區(qū)塊鏈技術(shù)構(gòu)建了電子病歷共享系統(tǒng),該系統(tǒng)在包含病人隱私的同時(shí)提供了病歷的脫敏共享,有效促進(jìn)了醫(yī)療信息流通。Jin等[12]基于區(qū)塊鏈技術(shù)搭建了個(gè)人基因組共享系統(tǒng),為基因組數(shù)據(jù)共享提供了一個(gè)技術(shù)案例。美國(guó)哈佛大學(xué)的Church等[13]提出通過(guò)區(qū)塊鏈技術(shù)來(lái)管理和共享個(gè)人基因組數(shù)據(jù),將大大加速基因組研究和產(chǎn)業(yè)應(yīng)用,具有良好的科學(xué)價(jià)值和社會(huì)經(jīng)濟(jì)價(jià)值。近年,筆者和合作伙伴一起構(gòu)建了基于區(qū)塊鏈技術(shù)和隱私安全計(jì)算技術(shù)的智能數(shù)據(jù)共享分析系統(tǒng)(https:// platform.sdap.biosino.org/),為醫(yī)療領(lǐng)域的數(shù)據(jù)共享提供了一站式的解決方案。該分析系統(tǒng)具有以下技術(shù)優(yōu)點(diǎn):(1)使用區(qū)塊鏈技術(shù)構(gòu)建靈活的多方數(shù)據(jù)共享模塊, 智能合約觸發(fā)數(shù)據(jù)的確權(quán)和授權(quán)過(guò)程,分布式賬本對(duì)數(shù)據(jù)的加載和消費(fèi)情況進(jìn)行記錄和追溯,解決數(shù)據(jù)共享的信任問(wèn)題;(2)使用隱私計(jì)算技術(shù)構(gòu)建安全的多方數(shù)據(jù)分析模塊,數(shù)據(jù)分析在沙箱內(nèi)進(jìn)行,不分享原始數(shù)據(jù), 分享數(shù)據(jù)的價(jià)值;(3)使用部分中心化+多節(jié)點(diǎn)分布式的技術(shù)構(gòu)建智能多方數(shù)據(jù)存儲(chǔ)模塊,分布式的存儲(chǔ)方案不僅保證原始數(shù)據(jù)的安全,同時(shí)也避免了大規(guī)模數(shù)據(jù)在不同用戶(hù)間傳輸過(guò)程,大大提高了數(shù)據(jù)分析效率。
人工智能是研發(fā)模擬、延伸、擴(kuò)展人類(lèi)智慧的理論、方法及技術(shù)的一門(mén)新興學(xué)科,近年成為信息科學(xué)發(fā)展的一個(gè)重要研究方向[14,15]。利用人工智能技術(shù)建立符合生物醫(yī)學(xué)大數(shù)據(jù)特征的數(shù)據(jù)庫(kù)、算法及計(jì)算環(huán)境,正廣泛深入生命科學(xué)的各個(gè)領(lǐng)域。人工智能技術(shù)廣泛且深入的融入生物醫(yī)學(xué)研究是目前生命科學(xué)發(fā)展的一個(gè)重要趨勢(shì)。一方面,人工智能能夠從海量的生物異質(zhì)大數(shù)據(jù)中發(fā)現(xiàn)人類(lèi)大腦無(wú)法分析、無(wú)法理解的數(shù)據(jù)結(jié)構(gòu),捕捉到人類(lèi)無(wú)法意識(shí)到的生物學(xué)特征。另一方面,人工智能所應(yīng)用的計(jì)算方法既可以模擬人類(lèi)思考的特點(diǎn),也可以完全擺脫人類(lèi)的傳統(tǒng)思考模式。利用這樣的類(lèi)腦方法來(lái)研究生命科學(xué),可以更有效地處理生命現(xiàn)象的極端復(fù)雜性,使得研究更接近生命的本質(zhì)。所以,人工智能技術(shù)可以幫助生物醫(yī)學(xué)領(lǐng)域研究實(shí)現(xiàn)關(guān)鍵的實(shí)質(zhì)性突破,革新生物醫(yī)學(xué)研究的現(xiàn)有范式,拓展生物醫(yī)學(xué)研究的范圍,有助于闡明生物醫(yī)學(xué)領(lǐng)域大量懸而未決的基本問(wèn)題。
目前,人工智能技術(shù)已在生物醫(yī)學(xué)研究的多個(gè)方向進(jìn)行了應(yīng)用和探索,在眾多復(fù)雜的研究場(chǎng)景中都有新的發(fā)現(xiàn):
(1)在分子細(xì)胞機(jī)理研究方面,基于人工智能技術(shù)中的深度學(xué)習(xí)方法可以建立高效的分子相互作用預(yù)測(cè)模型,進(jìn)而幫助科學(xué)家解讀復(fù)雜的生物過(guò)程背后的分子規(guī)律。例如,近年來(lái),深度學(xué)習(xí)模型的快速發(fā)展與廣泛應(yīng)用有助于刻畫(huà)細(xì)胞內(nèi)基因的時(shí)空表達(dá)和順式–反式調(diào)控[16],蛋白–蛋白相互作用[17],蛋白–代謝小分子相互作用[18],細(xì)胞間的通訊[19]等生物過(guò)程機(jī)理。
(2)在生命組學(xué)數(shù)據(jù)分析方面,基于自然語(yǔ)言和人工智能邏輯的組學(xué)數(shù)據(jù)分析平臺(tái)DrBioRight,為下一代組學(xué)分析范式提供了五個(gè)特征示范[20]:(i)準(zhǔn)確識(shí)別不具有專(zhuān)門(mén)技術(shù)性知識(shí)的用戶(hù)所提出的分析請(qǐng)求;(ii)幫助用戶(hù)探索和理解與任務(wù)相關(guān)的組學(xué)數(shù)據(jù)和分析結(jié)果;(iii)通過(guò)穩(wěn)定用戶(hù)群的貢獻(xiàn)保持對(duì)組學(xué)數(shù)據(jù)和分析方法的及時(shí)更新;(iv)經(jīng)由用戶(hù)對(duì)分析質(zhì)量的反饋不斷修正和更新平臺(tái)性能;(v)與智能移動(dòng)平臺(tái)和社交媒體實(shí)現(xiàn)良好匹配,為分析流程增加更多的靈活性。
(3)在生物醫(yī)學(xué)知識(shí)圖譜發(fā)展方面,基于監(jiān)督的深度學(xué)習(xí)策略,關(guān)系抽取模型能夠在不依賴(lài)于人工標(biāo)注數(shù)據(jù)的情況下應(yīng)用到各種生物醫(yī)學(xué)關(guān)系抽取場(chǎng)景當(dāng)中,可從千萬(wàn)篇科研文獻(xiàn)中挖掘理解藥物、靶點(diǎn)、病毒、副作用等等生物醫(yī)學(xué)實(shí)體之間相互作用規(guī)律的生物醫(yī)學(xué)實(shí)體關(guān)系網(wǎng)絡(luò),進(jìn)而通過(guò)抽取出的提示性信息指導(dǎo)實(shí)驗(yàn)驗(yàn)證;例如通過(guò)查找文獻(xiàn)支持來(lái)驗(yàn)證針對(duì)“非典”或“中東呼吸綜合征”的老藥新用策略的可行性,及其針對(duì)“新冠病毒”的有效性[21]。
(4)在生物模型算法發(fā)展方面,scDEC使用一組生成對(duì)抗網(wǎng)絡(luò)將高維單細(xì)胞數(shù)據(jù)映射到低維隱空間,在低維空間進(jìn)行聚類(lèi)分析,再使用另一組生成對(duì)抗網(wǎng)絡(luò)將低維數(shù)據(jù)映射回高維空間, 從而為在單細(xì)胞數(shù)據(jù)分析提供集數(shù)據(jù)降維、生成與細(xì)胞聚類(lèi)于一體的智能算法[22]?;诰矸e神經(jīng)網(wǎng)絡(luò)算法的人工智能模型可在大量臨床影像數(shù)據(jù)基礎(chǔ)上進(jìn)行學(xué)習(xí)訓(xùn)練臨床診斷模型,從而輔助臨床醫(yī)生實(shí)現(xiàn)對(duì)患者的高準(zhǔn)確率診斷[23]。人工智能技術(shù)與計(jì)算物理、量子化學(xué)、分子動(dòng)力學(xué)等技術(shù)的結(jié)合,將有助于提高藥物發(fā)現(xiàn)與發(fā)展這一關(guān)鍵環(huán)節(jié)的效率與成功率,從而降低新藥研發(fā)成本,為新藥研發(fā)帶來(lái)了新的發(fā)展動(dòng)力[24]。
現(xiàn)代生物醫(yī)學(xué)研究的目標(biāo)之一是在分子、細(xì)胞、組織、器官等層面上解析生物體外在表型所對(duì)應(yīng)的內(nèi)在組成形式及其相互作用規(guī)律。由于生命體系的高度復(fù)雜和精準(zhǔn)調(diào)控特性,以生物化學(xué)、分子生物學(xué)等學(xué)科為代表的現(xiàn)代生物醫(yī)學(xué)研究發(fā)展了幾十年后,遇到了重大的瓶頸?,F(xiàn)代生物醫(yī)學(xué)研究的重點(diǎn)突破,需要對(duì)研究技術(shù)和研究模式進(jìn)行根本性的變革。近年來(lái),隨著以高通量組學(xué)檢測(cè)技術(shù)為代表的生物技術(shù)(biological technology, BT)的成熟與發(fā)展,以及以云計(jì)算、區(qū)塊鏈、人工智能為代表的前沿信息技術(shù)的發(fā)展,建立融合BT&IT技術(shù)的新型研究方案和科研新范式,將是打破現(xiàn)代生物醫(yī)學(xué)研究瓶頸,推動(dòng)生物醫(yī)學(xué)研究跨越式發(fā)展的必由之路。
面對(duì)數(shù)據(jù)密集型科研新范式的需求,構(gòu)建一個(gè)融合BT&IT技術(shù),界面友好、安全可靠、用戶(hù)充分可及的生物醫(yī)學(xué)大數(shù)據(jù)操作系統(tǒng),進(jìn)而建立密集型科研新范式的應(yīng)用支撐環(huán)境,可以非常有效地幫助生命科學(xué)研究人員方便地實(shí)現(xiàn)生物醫(yī)學(xué)大數(shù)據(jù)的獲取、交互共享、智能化調(diào)度、多維深度展示、高性能計(jì)算和深度挖掘分析等各類(lèi)科學(xué)實(shí)驗(yàn)活動(dòng),進(jìn)而加速生物醫(yī)學(xué)大數(shù)據(jù)整合,融匯和貫通各類(lèi)高維多層次復(fù)雜數(shù)據(jù),推動(dòng)數(shù)據(jù)共享和充分利用,實(shí)現(xiàn)生物醫(yī)學(xué)大數(shù)據(jù)的匯聚研究,推動(dòng)生物醫(yī)學(xué)研究獲得革命性進(jìn)展。
[1] Goodwin S, McPherson JD, McCombie WR. Coming of age: ten years of next-generation sequencing technologies.,2016, 17(6): 333–351.
[2] Nimrod R, Ron S. Multi-omic and multi-view clustering algorithms: review and cancer benchmark., 2018, 46(20): 10546–10562.
[3] Houle D, Govindaraju DR, Omholt S. Phenomics: the next challenge., 2010, 11(12): 855–866.
[4] Brown SDM, Holmes CC, Mallon AM, Meehan TF, Smedley D, Wells S. High-throughput mouse phenomics for characterizing mammalian gene function.,2018, 19(6): 357–370.
[5] Milicchio F, Rose R, Bian J, Min J, Prosperi M. Visual programming for next-generation sequencing data analytics.,2016, 9:16.
[6] Fischer M, Snajder R, Pabinger S, Dander A, Schossig A, Zschocke J, Trajanoski Z, Stocker G. SIMPLEX: cloud-enabled pipeline for the comprehensive analysis of exome sequencing data.,2012, 7(8): e41948.
[7] Angiuoli SV, Matalka M, Gussman A, Galens K, Vangala M, Riley DR, Arze C, White JR, White O, Fricke WF. CloVR: a virtual machine for automated and portable sequence analysis from the desktop usingcloud computing., 2011, 12:356.
[8] Langmead B, Schatz MC, Lin J, Pop M, Salzberg SL. Searching for SNPs with cloud computing., 2009, 10(11): R134.
[9] Guo X, Yu N, Ding XJ, Wang JX, Pan Y. DIME: a novel framework for de novo metagenomic sequence assembly., 2015, 22(2): 159–177.
[10] Byrd JB, Greene AC, Prasad DV, Jiang XQ, Greene CS.Responsible, practical genomic data sharing that accelerates research.,2020, 21(10): 615–629.
[11] Fan K, Wang S, Ren Y, Li H, Yang Y. MedBlock: efficient and secure medical data sharing via blockchain., 2018, 42(8): 136.
[12] Jin XL, Zhang M, Zhou ZY, Yu XY. Application of a blockchain platform to manage and secure personal genomic data: a case study of LifeCODE.ai in China.,2019, 21(9): e13587.
[13] Zhavoronkov A, Church G. The advent of human life data economics.,2019. 25(7): 566–570.
[14] Wu F, Lu CW, Zhu MJ, Chen H, Zhu J, Yu K, Li L, Li M, Chen QF, Li X, Cao XD, Wang ZY, Zha ZJ, Zhuang YT, Pan YH. Towards a new generation of artificial intelligence in China., 2020, 2(6): 312–316.
[15] Zhao XT, Yang YD, Qu HZ, Fang XD. Applications of machine learning in clinical decision support in the omic era., 2018, 40(9): 693–703.
趙學(xué)彤, 楊亞?wèn)|, 渠鴻竹, 方向東. 組學(xué)時(shí)代下機(jī)器學(xué)習(xí)方法在臨床決策支持中的應(yīng)用. 遺傳, 2018, 40(9): 693–703.
[16] Alexandra Maslova, Ricardo N. Ramirez, Ke Ma, Hugo Schmutz, Chendi Wang, Curtis Fox, Bernard Ng, Christophe Benoist, Sara Mostafavi. Deep learning of immune cell differentiation., 2020, 117(41): 25655–25666.
[17] Ethan C. Alley, Grigory Khimulya, Surojit Biswas, Mohammed AlQuraishi, George M. Church. Unified rational protein engineering with sequence-based deep representation learning., 2019, 16(12): 1315–1322.
[18] Morton JT, Aksenov AA, Nothias LF, Foulds JR, Quinn RA, Badri MH, Swenson TL, Van Goethem MW, Northen TR, Vazquez-Baeza Y, Wang M, Bokulich NA, Watters A, Song SJ, Bonneau R, Dorrestein PC, Knight R. Learning representations of microbe–metabolite interactions., 2019, 16(12): 1306–1314.
[19] Shao X, Lu XY, Liao J, Chen HJ, Fan XH. New avenues for systematically inferring cell-cell communication: through single-cell transcriptomics data., 2020, 11(12): 866–880.
[20] Li J, Chen H, Wang YM, May Chen MJ, Liang H. Next- generation analytics for omics data.2021, 39(1): 3–6.
[21] Hong LX, Lin JJ, Li SY, Wan FP, Yang H, Jiang T, Zhao D, Zeng JY. A novel machine learning framework for automated biomedical relation extraction from large-scale literature repositories., 2020, 2(6): 347– 355.
[22] Liu Q, Chen SQ, Jiang R, Wong WH. Simultaneous deep generative modeling and clustering of single cell genomic data.,2021, 3(6): 536–544.
[23] Esteva A, Kuprel B, Novoa RA, Ko J, Swetter SM, Blau HM, Thrun S. Dermatologist-level classification of skin cancer with deep neural networks.,2017, 542(7639): 115–118.
[24] Jing YK, Bian YM, Hu ZH, Wang LR, Xie XQ. Deep learning for drug design: an artificial intelligence paradigm for drug discovery in the big data era., 2018, 20(3): 58.
Application and prospect of cutting-edge information technology in biomedical big data
Guangyong Zheng1, Tao Zeng1, Yixue Li1,2,3,4
In recent years, with the development of various high-throughput omics based biological technologies (BT), biomedical research began to enter the era of big data. In the face of high-dimensional, multi-domain and multi-modal biomedical big data, scientific research requires a new paradigm of data intensive scientific research. The vigorous development of cutting-edge information technologies (IT) such as cloud computing, blockchain and artificial intelligence provides technical means for the practice of this new research paradigm. Here,we describe the application of such cutting-edge information technologies in biomedical big data, and propose a forward-looking prospect for the construction of a new paradigm supporting environment for data intensive scientific research. We expect to establish a new research scheme and new scientific research paradigm integrating BT & IT technology, which can finally promote the great leap forward development of biomedical research.
omics; cloud computing; blockchain; artificial intelligence; new paradigm of data intensive scientific research
2021-05-31;
2021-09-16
中國(guó)科學(xué)院戰(zhàn)略性先導(dǎo)科技專(zhuān)項(xiàng)課題(編號(hào):XDB38050200)資助[Surpported by the Strategic Priority Research Program of Chinese Academy of Sciences (No. XDB38050200)]
鄭廣勇,副研究員,研究方向:生物信息學(xué)。E-mail: gyzheng@picb.ac.cn
李亦學(xué),教授,研究方向:生物信息學(xué)。E-mail: yxli@sibs.ac.cn
10.16288/j.yczz.21-192
2021/9/27 12:05:04
URI: https://kns.cnki.net/kcms/detail/11.1913.R.20210926.1702.002.html
(責(zé)任編委: 方向東)