文/張洋
蘭州大學(xué)云計(jì)算為科研加速
文/張洋
基于IaaS的JPPF云計(jì)算藥物篩選平臺(tái)充分利用了不同架構(gòu)和不同操作系統(tǒng)的云計(jì)算資源來(lái)進(jìn)行藥物分子的虛擬篩選,大大縮短了藥物篩選的進(jìn)程,節(jié)省了平臺(tái)構(gòu)建成本,為利用云計(jì)算技術(shù)來(lái)加快新藥的研發(fā)提供了一種新的思路。
計(jì)算機(jī)輔助藥物設(shè)計(jì)在高性能計(jì)算的帶動(dòng)下有了突飛猛進(jìn)的發(fā)展。它的應(yīng)用縮短了藥物研究與開(kāi)發(fā)的進(jìn)程,提高了藥物開(kāi)發(fā)的效率。目前,在藥物研究領(lǐng)域中對(duì)于新藥的發(fā)現(xiàn)工作主要使用虛擬篩選方法。通過(guò)計(jì)算機(jī)的模擬來(lái)預(yù)測(cè)藥物與受體生物大分子之間的作用關(guān)系,計(jì)算受體與配體的相互作用,從而設(shè)計(jì)出優(yōu)化先導(dǎo)化合物的方法,最終可以篩選出在某些疾病中起到關(guān)鍵作用的蛋白靶點(diǎn)的抑制劑,這種抑制劑對(duì)研發(fā)這種疾病的藥物有著非常重要的作用。
新藥研制的關(guān)鍵之一是從大量的化合物樣品庫(kù)中發(fā)現(xiàn)有藥理活性的化合物,其工作量極大,一般情況下通過(guò)常規(guī)藥物篩選的命中率僅為0.01%,效率非常有限。目前由美國(guó)國(guó)家生物技術(shù)信息中心維護(hù)的有機(jī)小分子生物活性數(shù)據(jù)庫(kù)Pubchem已經(jīng)收錄了大約6300多萬(wàn)化合物,同時(shí)ZINC藥物數(shù)據(jù)庫(kù)上可以購(gòu)買(mǎi)的藥物分子已經(jīng)達(dá)到了3500多萬(wàn),而且每年的藥物分子數(shù)量還在不斷的增加。面對(duì)待處理測(cè)試的近億數(shù)目的藥物,如果僅僅通過(guò)生物測(cè)試實(shí)驗(yàn)進(jìn)行盲篩的話,需要耗費(fèi)巨大的人力和財(cái)力,這對(duì)于一般的實(shí)驗(yàn)室和研究所來(lái)說(shuō)是很難實(shí)現(xiàn)的。
為了提高篩選效率和命中率,人們開(kāi)發(fā)了利用高性能計(jì)算機(jī)進(jìn)行虛擬藥物篩選這一新的途徑。通過(guò)高性能計(jì)算對(duì)上百上千萬(wàn)分子進(jìn)行模擬、預(yù)測(cè)藥物與受體生物大分子之間的作用關(guān)系,模擬和計(jì)算受體與配體的相互作用,設(shè)計(jì)優(yōu)化先導(dǎo)化合物的方法,最終可以篩選出在某些疾病中起到關(guān)鍵作用的蛋白靶點(diǎn)的抑制劑,大大提高了篩選命中率。據(jù)國(guó)際上公布數(shù)據(jù)顯示,基于高性能計(jì)算的藥物篩選命中率為2%~24%,是常規(guī)藥物篩選命中率的上百倍甚至上千倍,從而極大地降低了新藥研制周期和成本。
虛擬篩選是一種計(jì)算密集型應(yīng)用,計(jì)算諸如靜電力和范德華力等非綁定交互作用的時(shí)間占整個(gè)過(guò)程的絕大部分,需要大量的CPU參與計(jì)算并且耗費(fèi)大量的計(jì)算時(shí)間。如果要篩選的藥物數(shù)量增加就需要更多的計(jì)算資源。
網(wǎng)格技術(shù)一直是藥物篩選應(yīng)用最廣的技術(shù),也具有很大的潛力,但是它需要先進(jìn)的架構(gòu),如智能的服務(wù)器、快速的連接;而且,為了最大化利用共享的資源和架構(gòu)還需要使用高效的工具、軟件和技術(shù)來(lái)管理整個(gè)網(wǎng)格。這些技術(shù)的集成、整合成本是非常高的。而且網(wǎng)格技術(shù)嚴(yán)重依賴(lài)分散的數(shù)據(jù)管理。一些軟件的定義不是很明確,有些應(yīng)用必須修改才能以適應(yīng)網(wǎng)格的使用,尤其是異構(gòu)網(wǎng)格。另外,其性能也是研究者一直質(zhì)疑的問(wèn)題,尤其是它的技術(shù)已經(jīng)落后于云計(jì)算和GPU的發(fā)展,所以導(dǎo)致了這項(xiàng)技術(shù)比較難以進(jìn)一步推廣和應(yīng)用。
目前云計(jì)算已經(jīng)滲透到許多領(lǐng)域,如金融、教育、醫(yī)療、電子政務(wù)以及電子商務(wù)等。在這期間,云計(jì)算在生物信息化領(lǐng)域也得到了良好的發(fā)展。尤其在新藥研究方面,全球大的制藥公司輝瑞、強(qiáng)生、葛蘭素史克等都把云計(jì)算技術(shù)引入到新藥研究的過(guò)程中,開(kāi)展如蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)、基因序列比對(duì)、虛擬篩選和蛋白質(zhì)靶點(diǎn)分析等應(yīng)用,大大減少了藥物研發(fā)的時(shí)間。進(jìn)行大規(guī)模的虛擬篩選需要很多的計(jì)算資源,云計(jì)算為實(shí)現(xiàn)這種大規(guī)模的應(yīng)用帶來(lái)了機(jī)會(huì),我們可以把不同架構(gòu)、不同操作系統(tǒng)的云計(jì)算資源組織起來(lái)就可以提供強(qiáng)大的計(jì)算能力,從而用來(lái)進(jìn)行大規(guī)模的藥物虛擬篩選。
在三種云計(jì)算服務(wù)中,IaaS把數(shù)據(jù)中心以及基礎(chǔ)設(shè)施硬件資源通過(guò)Web分配給用戶(hù)使用,用戶(hù)可以部署和運(yùn)行任意軟件,比較適合生物化學(xué)中的分布式計(jì)算應(yīng)用。IaaS也是目前在藥物研究中用的最多的一種云計(jì)算模式。比如亞馬遜的IaaS云計(jì)算就可以快速地提供多個(gè)節(jié)點(diǎn)的集群服務(wù),用它來(lái)實(shí)現(xiàn)大規(guī)模的并行計(jì)算。
Hadoop也被用于虛擬篩選研究,但是Hadoop的HDFS文件系統(tǒng)對(duì)本地服務(wù)器的磁盤(pán)讀寫(xiě)要求很高,而且會(huì)在節(jié)點(diǎn)間產(chǎn)生大量的流量,對(duì)于網(wǎng)絡(luò)的通暢性要求很高,所以Hadoop架構(gòu)只有在完成網(wǎng)絡(luò)優(yōu)化后,才有可能實(shí)現(xiàn)計(jì)算性能提升。
J PPF是目前一個(gè)較為開(kāi)放的計(jì)算框架,既可以通過(guò)接口設(shè)計(jì)J AR包來(lái)完成自己的計(jì)算任務(wù),也可以通過(guò)修改源代碼,在編譯的過(guò)程中就可以完成計(jì)算任務(wù);除此之外,J PPF支持的平臺(tái)比較廣泛,除Windows、L inux和OS之外,還支持Android系統(tǒng)以及平板電腦等移動(dòng)設(shè)備,并通過(guò)指令快速完成相關(guān)計(jì)算任務(wù)。
2014年,蘭州大學(xué)基礎(chǔ)醫(yī)學(xué)院采用IaaS云服務(wù),并設(shè)計(jì)了一個(gè)基于J PPF(Java Parallel Processing Framework)的異構(gòu)分布式計(jì)算框架(如圖1所示),它可以調(diào)用IaaS提供的不同架構(gòu)和不同操作系統(tǒng)的計(jì)算資源,并將虛擬篩選作業(yè)自動(dòng)分配在這些資源上,從而完成大規(guī)模的虛擬篩選。
圖1 基于JPPF的異構(gòu)分布式計(jì)算框架
該系統(tǒng)主要包括四個(gè)部分:客戶(hù)端,服務(wù)器端,數(shù)據(jù)庫(kù)中心,計(jì)算節(jié)點(diǎn)。通過(guò)客戶(hù)端提交任務(wù)到Server端進(jìn)行分配,Server端通過(guò)蒙特卡洛羅的算法將待篩選的任務(wù)分配到相應(yīng)的計(jì)算節(jié)點(diǎn);計(jì)算節(jié)點(diǎn)執(zhí)行Server端分配的任務(wù),并從數(shù)據(jù)庫(kù)中心下載要進(jìn)行篩選的藥物分子,完成虛擬篩選后再把結(jié)果傳輸?shù)綌?shù)據(jù)庫(kù)中心。其中我們采用如下公式來(lái)有效地管理整個(gè)計(jì)算任務(wù)的生命周期,使得整個(gè)時(shí)耗t最優(yōu),公式:
其中Ai代表程序初始化和數(shù)據(jù)分配所需要的時(shí)間,Bi代表在計(jì)算節(jié)點(diǎn)運(yùn)算的時(shí)間,Ci是最后數(shù)據(jù)結(jié)果收集和處理所耗費(fèi)的時(shí)間。最后我們通過(guò)基于分子動(dòng)力學(xué)模擬的MMPBSA方法來(lái)準(zhǔn)確的預(yù)測(cè)藥物分子與篩選抑制劑之間的結(jié)合自由能(Δ GBind),如公式:
其中Δ Grec-lig、Δ Grec和Δ Glig分別代表在動(dòng)力學(xué)模擬計(jì)算過(guò)程中的配體-受體組成的復(fù)合物、受體和配體的平均自由能。
基于上述平臺(tái),我們進(jìn)行了基于β 2腎上腺素受體(β 2AR)的藥物篩選研究。β 2腎上腺素受體屬于G蛋白偶聯(lián)受體的A類(lèi)家族的成員之一,它可以通過(guò)激活Gs蛋白來(lái)調(diào)節(jié)細(xì)胞內(nèi)關(guān)鍵的信號(hào)通路,進(jìn)而影響生理過(guò)程,比如呼吸道和血管的平滑肌松弛調(diào)節(jié)。通過(guò)研究β 2腎上腺素受體在IaaS云計(jì)算模式上的藥物篩選的分布式計(jì)算,可以為藥物設(shè)計(jì)提供很好的計(jì)算范例。在一個(gè)由40個(gè)節(jié)點(diǎn)構(gòu)建的校園IaaS云計(jì)算平臺(tái)上進(jìn)行了五萬(wàn)個(gè)藥物分子的測(cè)試,結(jié)果表明該平臺(tái)可以很好地協(xié)調(diào)這些計(jì)算資源進(jìn)行藥物篩選,并給出了很好的藥物篩選結(jié)果。
基于IaaS的JPPF云計(jì)算藥物篩選平臺(tái)充分利用了不同架構(gòu)和不同操作系統(tǒng)的云計(jì)算資源來(lái)進(jìn)行藥物分子的虛擬篩選,大大縮短了藥物篩選的進(jìn)程,節(jié)省了平臺(tái)構(gòu)建成本,為利用云計(jì)算技術(shù)來(lái)加快新藥的研發(fā)提供了一種新的思路。目前很多高校都有藥物研究方向,大多數(shù)學(xué)院都是構(gòu)建自己的高性能計(jì)算集群來(lái)進(jìn)行分子的模擬和計(jì)算。云計(jì)算的低成本、穩(wěn)定性以及可擴(kuò)充性為構(gòu)建這種應(yīng)用提供一種靈活的方案,讓這些研究方向的師生體驗(yàn)更方便和快捷的計(jì)算服務(wù)。
(為蘭州大學(xué))