文/姜疆
醫(yī)藥大數(shù)據(jù)能夠有效幫助研發(fā)人員發(fā)現(xiàn)新藥,并加快研發(fā)進(jìn)程,但是目前,我國醫(yī)藥大數(shù)據(jù)的發(fā)展卻明顯落后于很多其它領(lǐng)域
當(dāng)前,大數(shù)據(jù)在醫(yī)藥研發(fā)以及生產(chǎn)工藝改進(jìn)等方面的發(fā)展可謂突飛猛進(jìn)?;趯A繑?shù)據(jù)信息的利用,通過多角度、深層次的數(shù)據(jù)分析,以及動(dòng)態(tài)直觀的呈現(xiàn)方式,醫(yī)藥大數(shù)據(jù)能夠有效幫助研發(fā)人員發(fā)現(xiàn)新藥,并加快研發(fā)進(jìn)程,可以使醫(yī)藥企業(yè)節(jié)約成本,增強(qiáng)患者安全,控制風(fēng)險(xiǎn),提高臨床試驗(yàn)效率。但是目前,我國醫(yī)藥大數(shù)據(jù)的發(fā)展卻明顯落后于其它許多領(lǐng)域。制藥業(yè)在有針對性的利用醫(yī)藥大數(shù)據(jù)進(jìn)行醫(yī)藥研發(fā)的同時(shí),還應(yīng)善于積累和運(yùn)用自動(dòng)化工具收集、統(tǒng)計(jì)和分析有關(guān)數(shù)據(jù),挖掘數(shù)據(jù)中蘊(yùn)藏的情報(bào)價(jià)值,以有效地提高收益能力,贏得良好的社會(huì)效益。
人類進(jìn)入后基因組時(shí)代以來,隨著分子生物學(xué)、結(jié)構(gòu)生物學(xué)、計(jì)算機(jī)科學(xué)及信息科學(xué)的發(fā)展,藥物研發(fā)也進(jìn)入了一個(gè)革命性變化的新時(shí)代,理性藥物設(shè)計(jì)成為藥物發(fā)現(xiàn)的主要方法。其中最為重要的途徑是計(jì)算機(jī)輔助藥物設(shè)計(jì)(Computer-Aided Drug Design,CADD)、分子模擬(Molecular Simulations)與數(shù)據(jù)挖掘(Data Mining)方法的發(fā)展與大規(guī)模應(yīng)用。當(dāng)前,基于超算和云計(jì)算的藥物設(shè)計(jì)平臺(tái)、分子模擬平臺(tái)和大數(shù)據(jù)挖掘平臺(tái)正在廣泛建立,以加速新藥研究的速度和在原子尺度研究藥物作用機(jī)理。
在大數(shù)據(jù)與傳統(tǒng)產(chǎn)業(yè)廣泛而深入融合,從而推動(dòng)傳統(tǒng)產(chǎn)業(yè)大規(guī)模轉(zhuǎn)型升級的時(shí)代,新藥研發(fā)、醫(yī)藥生產(chǎn)質(zhì)量控制和工藝改進(jìn),以及供應(yīng)鏈管理、市場營銷收益管理與企業(yè)品牌建設(shè)等方面,大數(shù)據(jù)技術(shù)應(yīng)用在全球范圍內(nèi)得到高度重視。同時(shí),“大數(shù)據(jù)+健康”融合而成的新的大健康領(lǐng)域給大數(shù)據(jù)的發(fā)展帶來了巨大的空間。
一般來說,對大數(shù)據(jù)戰(zhàn)略意義的理解分為以下兩點(diǎn),一是掌握海量有意義的數(shù)據(jù)資料,二是對這些有意義的數(shù)據(jù)資料進(jìn)行專業(yè)化的有效處理。在大數(shù)據(jù)時(shí)代,醫(yī)藥研發(fā)對數(shù)據(jù)信息的利用當(dāng)然也不再局限于傳統(tǒng)的數(shù)據(jù)、文獻(xiàn)查詢,而是可以通過多角度、海量的數(shù)據(jù)分析,動(dòng)態(tài)直觀的呈現(xiàn)方式,幫助研發(fā)人員發(fā)現(xiàn)新藥、提供決策支持、加快研發(fā)進(jìn)程。
那么,新藥研發(fā)或中藥分子機(jī)制研究的大數(shù)據(jù)是什么?用比較時(shí)髦的話來講,藥物研發(fā)中的大數(shù)據(jù)是近百萬針對眾多生物靶點(diǎn)的活性化合物及數(shù)據(jù),以及目前超過一萬個(gè)活性類藥小分子與其生物受體的X射線晶體衍射數(shù)據(jù)。同時(shí),隨著科學(xué)的發(fā)展與時(shí)間推移,數(shù)據(jù)產(chǎn)生的速度越來越快。井噴的數(shù)據(jù)終將完成從量變到質(zhì)變的過程,從而帶給藥物研發(fā)革命性的轉(zhuǎn)變。
中國統(tǒng)計(jì)信息服務(wù)中心大數(shù)據(jù)實(shí)驗(yàn)室副主任江潮指出,通過大數(shù)據(jù)采集和挖掘,醫(yī)藥企業(yè)可以拓寬市場調(diào)研數(shù)據(jù)的廣度和深度,并通過大數(shù)據(jù)模型分析,掌握醫(yī)藥行業(yè)市場構(gòu)成及變化趨勢、細(xì)分市場的特征、消費(fèi)者需求和競爭者經(jīng)營狀況等眾多因素,并可對未來的市場作出一定的預(yù)測,針對性和個(gè)性化設(shè)定產(chǎn)品的市場定位。
我們知道,分子因?yàn)橛锌尚D(zhuǎn)的化學(xué)鍵而具有柔性,結(jié)果便造成了一個(gè)分子在不同條件下有非常多的三維空間形狀,這稱為構(gòu)象(conformation)。而藥物分子設(shè)計(jì)的關(guān)鍵點(diǎn)就是,要確定配體/藥物(ligand/drug)與靶標(biāo)(target)互相作用時(shí),所采取的構(gòu)象(稱為活性構(gòu)象)??膳潴w或靶標(biāo)都可能有成千上萬種構(gòu)象,它們的復(fù)合物所需的“活性構(gòu)象”如滄海一粟,極為難以找尋。而大數(shù)據(jù)運(yùn)用則為尋找到這“滄?!钡摹耙凰凇碧峁┝丝赡埽?/p>
英國癌癥研究中心的相關(guān)研究者Bissan Al-Lazikani就表示,基于大數(shù)據(jù)與有關(guān)技術(shù)以助力科學(xué)家們進(jìn)行預(yù)測并且設(shè)計(jì)實(shí)驗(yàn),可以幫助研究者們利用可靠的數(shù)據(jù)來進(jìn)行更有價(jià)值的病癥研究。如今研究者通過尋找到和錯(cuò)誤基因或蛋白相關(guān)的所有信息,可以更加清楚地理解是否一種新藥可以正常發(fā)揮作用,盡管這些數(shù)據(jù)異常龐大且分散。
據(jù)了解,英國癌癥研究中心的canSAR數(shù)據(jù)庫計(jì)劃在不久前,通過加入錯(cuò)誤蛋白的3D結(jié)構(gòu),以及繪制癌癥交流的圖譜,將可鑒別錯(cuò)誤癌癥細(xì)胞表面的缺點(diǎn),從而為開發(fā)特殊藥物來阻斷癌癥提供了思路,而且也將幫助研究者鑒別腫瘤細(xì)胞內(nèi)部的交流線路,為開發(fā)新型癌癥個(gè)體化療法帶來行之有效的幫助。
制藥企業(yè)往往可以利用預(yù)測模型,根據(jù)患者的基因、疾病和生活方式,評估特定藥物是否適用于該患者,這種分析也考慮到了可能危及患者生命的風(fēng)險(xiǎn)因素。而基于藥物開發(fā)大數(shù)據(jù)分析,制藥業(yè)更進(jìn)一步,推出了專門面向一些疾病,如心血管和神經(jīng)變性等疾病療法的程序,依靠目標(biāo)明確的個(gè)性化療法,患者將不會(huì)再服用無助于改善病情的藥物。
臨床方面,利用大數(shù)據(jù)和預(yù)測分析,醫(yī)藥企業(yè)可以進(jìn)行有效的臨床試驗(yàn)。挑選出來參與試驗(yàn)的患者能夠符合通過多個(gè)數(shù)據(jù)庫發(fā)現(xiàn)的某些先決條件,研究人員也可以實(shí)時(shí)監(jiān)控患者的情況。
在臨床試驗(yàn)開始前,大數(shù)據(jù)還有助于預(yù)測特定化合物的副作用,特別是有方法可以預(yù)測化合物的藥物毒性。以前,等到人體試驗(yàn)發(fā)現(xiàn)毒性的時(shí)候,可能為時(shí)已晚。如現(xiàn)在有了能分析48種藥物特征的Proctor方法,不僅能挽救健康損失,還能節(jié)約時(shí)間和資金。
大數(shù)據(jù)對于中醫(yī)藥研究開發(fā)具有更加特別而重大的意義!歷經(jīng)數(shù)百年甚至數(shù)千年的實(shí)際使用經(jīng)驗(yàn),中華醫(yī)藥對于諸多種疾病的治療效果明顯,對病患的康復(fù)益處良多,例如復(fù)方苦參注射液(CKI),在國內(nèi)被批準(zhǔn)用于治療各種癌癥腫瘤,通常作為西醫(yī)化療的一種輔助??墒撬麄兪侨绾纹鹱饔玫模壳敖^大多數(shù)都尚未搞清楚。
中藥的分子機(jī)理研究受困于高度復(fù)雜的生物系統(tǒng)以及復(fù)雜的中藥成分,同時(shí),中藥的分子機(jī)制缺乏不能將中藥復(fù)方中的有害成分剔除以減少毒副作用,也限制了中藥有效成分的進(jìn)一步優(yōu)化設(shè)計(jì)。
而如今,基于大數(shù)據(jù)技術(shù),比較中藥具體成分與有關(guān)已知靶點(diǎn)的活性分子的相似性,就有可能揭示中藥成分起作用的分子機(jī)制。我們知道,化學(xué)上存在著一個(gè)極其淺顯的經(jīng)驗(yàn)規(guī)則——相似相溶,這一概念亦可推廣到藥物分子,雖然藥物與其受體的作用要復(fù)雜得多,拓?fù)渌幮F(tuán)可以很好地描述類藥分子與生物靶點(diǎn)相互作用的相似性。
中藥方劑,也就是古代的古方,多出自醫(yī)書、典籍,是制作中成藥的源頭。中成藥與中藥方劑有著千絲萬縷的聯(lián)系,但是因?yàn)闀r(shí)間久遠(yuǎn),現(xiàn)在很多藥品研發(fā)者已經(jīng)找不到或者記不得某些中藥方劑的出處?,F(xiàn)在運(yùn)用大數(shù)據(jù)手段,很容易就能找出中成藥對應(yīng)的中藥方劑,從而為相關(guān)中醫(yī)藥研究開發(fā)拓展巨大的空間。
基于大數(shù)據(jù)及相關(guān)技術(shù),可以在系統(tǒng)層面上看到藥物分子與許多靶標(biāo)相互作用的新現(xiàn)象、新規(guī)律。但是目前,我國醫(yī)藥大數(shù)據(jù)的發(fā)展卻明顯落后于很多其它領(lǐng)域,還僅局限在以臨床醫(yī)療和保健方面的應(yīng)用為主。
江潮表示,醫(yī)藥企業(yè)采用大數(shù)據(jù)技術(shù)解決實(shí)際問題,還缺乏有效的技術(shù)方案和應(yīng)用模式,很多其它領(lǐng)域的成功經(jīng)驗(yàn)在醫(yī)藥大數(shù)據(jù)領(lǐng)域不一定可行,也沒有得到很好的借鑒。尤其是,醫(yī)藥健康行業(yè)內(nèi)的資源整合度低,數(shù)據(jù)壁壘嚴(yán)重,企業(yè)間以及上下游關(guān)聯(lián)企業(yè)的數(shù)據(jù)合作困難,導(dǎo)致大數(shù)據(jù)實(shí)施成本高昂,甚至因壁壘太高無法進(jìn)行。
制藥企業(yè)面對成百上千個(gè)項(xiàng)目,首先要做的就是進(jìn)行立項(xiàng)調(diào)研,在通過各種途徑了解到相關(guān)靶點(diǎn)/技術(shù)/疾病現(xiàn)狀后,可以有針對性地利用醫(yī)藥數(shù)據(jù)庫進(jìn)行相關(guān)信息檢索,為其有關(guān)項(xiàng)目提供決策。數(shù)據(jù)庫主要分為原始文獻(xiàn)/專利數(shù)據(jù)庫和基于前者加工整理的綜合數(shù)據(jù)庫兩類。
眼下,國外的醫(yī)藥數(shù)據(jù)庫繁多,主流的有睿唯安(Clarivate Analytics(Cortellis、Integrity…))、IMS Health(與 Quintiles合并后改名為IQVIA)、Evaluate等,各數(shù)據(jù)庫均有其特點(diǎn)和重點(diǎn)關(guān)注領(lǐng)域。
在查詢相關(guān)信息之前,需要明確對哪個(gè)靶點(diǎn)/疾病進(jìn)行立項(xiàng),這通常來自于研發(fā)立項(xiàng)部門Leader們或客戶要求時(shí)的初步?jīng)Q策。最近科睿唯安開發(fā)的Drug Research Advisor (DRA)Target Druggability數(shù)據(jù)庫利用已整理的數(shù)據(jù)來對疾病—靶點(diǎn)—藥物進(jìn)行關(guān)聯(lián)分類/排序,從而可以在數(shù)據(jù)庫中預(yù)測潛在成藥性的first-inclass類或新適應(yīng)癥開發(fā)的靶點(diǎn)。
英國癌癥研究中心的canSAR數(shù)據(jù)庫利用大數(shù)據(jù)方法來構(gòu)建詳細(xì)的圖片,有助于闡明主要已知的人類分子的行為及作用機(jī)制。該數(shù)據(jù)庫中整理了幾十億的實(shí)驗(yàn)性測定數(shù)據(jù),可以繪制出一百萬種藥物及多種人類的蛋白化學(xué)物質(zhì),同時(shí)還將遺傳信息數(shù)據(jù)同臨床試驗(yàn)結(jié)果進(jìn)行了完美的結(jié)合。而最新的相關(guān)研究極大地增強(qiáng)了該數(shù)據(jù)庫的內(nèi)容,以幫助研究者篩選可以用來開發(fā)新型癌癥藥物的最優(yōu)可能的潛在靶點(diǎn),并且?guī)椭茖W(xué)家們開發(fā)更加快速且有效的創(chuàng)新性藥物。
醫(yī)藥企業(yè)還得關(guān)注研究領(lǐng)域已上市藥物的治療/銷售情況、潛在新藥和未來仿制藥物的競爭情況。相關(guān)商業(yè)數(shù)據(jù)庫如IQVIA、GlobalData、Evaluate Group等很需要關(guān)注,其數(shù)據(jù)主要來源于公司年報(bào)或者根據(jù)治療費(fèi)用和患病人群以及市場份額競爭來預(yù)測藥物或疾病領(lǐng)域的銷售額。
不過,國外醫(yī)藥數(shù)據(jù)庫價(jià)格昂貴,且是全英文的,針對國內(nèi)醫(yī)藥產(chǎn)業(yè)現(xiàn)狀有點(diǎn)水土不服,特別是,國內(nèi)以仿制藥為主,從頭原研企業(yè)較少。而由于國外醫(yī)藥數(shù)據(jù)庫的這一系列問題,國內(nèi)醫(yī)藥數(shù)據(jù)庫得以快速發(fā)展。
國內(nèi)醫(yī)藥數(shù)據(jù)庫主要被應(yīng)用于項(xiàng)目立項(xiàng)、市場調(diào)查、競品分析、專利情報(bào)、臨床試驗(yàn)及仿制藥一致性評價(jià)等信息查詢。國內(nèi)目前的主流數(shù)據(jù)庫有7家,見表格所示。
2006年10月,丁香園藥學(xué)數(shù)據(jù)庫上線;2009年,藥智數(shù)據(jù)/咸達(dá)醫(yī)藥數(shù)據(jù)庫上線;2013年Insight、藥渡數(shù)據(jù)、醫(yī)藥魔方上線……眼下,國內(nèi)醫(yī)藥數(shù)據(jù)庫可以說也進(jìn)入了競爭時(shí)代,相互競爭促進(jìn)了醫(yī)藥信息行業(yè)、制藥和醫(yī)療健康行業(yè)的快速發(fā)展。各醫(yī)藥數(shù)據(jù)庫均有其自己特色,綜合型、研發(fā)型、市場型數(shù)據(jù)庫都有。但是,相比于國外一流數(shù)據(jù)庫,國內(nèi)醫(yī)藥數(shù)據(jù)庫還有不小的差距,在技術(shù)和數(shù)據(jù)方面還需要不斷努力。
藥物創(chuàng)新領(lǐng)域的大數(shù)據(jù)主要來源于高通量實(shí)驗(yàn)、高效能模擬計(jì)算、信息化、科技出版物和專利文獻(xiàn)4個(gè)方面。同時(shí),醫(yī)院臨床數(shù)據(jù)、公共衛(wèi)生數(shù)據(jù)和移動(dòng)醫(yī)療健康數(shù)據(jù)等各數(shù)據(jù)端口呈現(xiàn)出多樣化且快速增長的發(fā)展趨勢,極大地豐富了制藥和醫(yī)療健康大數(shù)據(jù)。電子數(shù)據(jù)流把制藥業(yè)的方方面面聯(lián)系在一起,不管是患者隨訪、電子病歷還是有關(guān)的研發(fā)。
特別值得一提的是,通過數(shù)字APP、可穿戴監(jiān)控設(shè)備和其他電子設(shè)備,可以使制藥企業(yè)獲得關(guān)于患者和消費(fèi)者情況的即時(shí)反饋,實(shí)時(shí)了解患者的健康狀況,從而掌握關(guān)于消費(fèi)者的第一手資料,以推動(dòng)藥物研發(fā)進(jìn)度的加快,同時(shí)增強(qiáng)患者安全,控制風(fēng)險(xiǎn)。
國內(nèi)主流醫(yī)藥數(shù)據(jù)庫一覽
制藥公司之間也可以相互合作,共享創(chuàng)新和數(shù)據(jù)。此外,制藥公司現(xiàn)在還可以利用大數(shù)據(jù),與供應(yīng)商、保險(xiǎn)公司、數(shù)據(jù)管理公司以及非本公司的科學(xué)家進(jìn)行合作,共享信息,以擴(kuò)大其數(shù)據(jù)庫,用于未來的臨床試驗(yàn)和預(yù)測模型。而醫(yī)藥公司之外的科學(xué)家,可以向這家公司提交他們關(guān)于某化合物的發(fā)現(xiàn),用于分析和試驗(yàn)。
醫(yī)藥大數(shù)據(jù)在迅速發(fā)展的征途上也面臨著一系列挑戰(zhàn), 諸如存儲(chǔ)、標(biāo)引/標(biāo)注和質(zhì)控、可視化、數(shù)據(jù)挖掘和計(jì)算復(fù)雜度,等等問題。醫(yī)藥專家表示,這些問題可以通過在超算和云服務(wù)技術(shù)的支持下發(fā)展并行計(jì)算方法而逐漸得到解決。
從離散、不完備且信噪比低的大數(shù)據(jù)中難以找到物質(zhì)活性與結(jié)構(gòu)之間的連續(xù)函數(shù)關(guān)系,貝葉斯學(xué)習(xí)機(jī)及其與支持向量機(jī)、決策樹技術(shù)的組合是大數(shù)據(jù)挖掘的發(fā)展方向。大數(shù)據(jù)既是科學(xué)實(shí)驗(yàn)通量化和社會(huì)信息化的結(jié)果又是原因,正確解決大數(shù)據(jù)挖掘問題是提高藥物創(chuàng)新效率的核心。
當(dāng)然,大數(shù)據(jù)應(yīng)用,其真正的核心在于挖掘數(shù)據(jù)中蘊(yùn)藏的情報(bào)價(jià)值,而不僅是數(shù)據(jù)計(jì)算。只要醫(yī)藥行業(yè)企業(yè)平時(shí)善于積累和運(yùn)用自動(dòng)化工具收集、挖掘、統(tǒng)計(jì)和分析這些數(shù)據(jù),為我所用,都會(huì)有效地幫助自己提高市場競爭力和收益能力,贏得良好的效益。
如今,隨著網(wǎng)絡(luò)論壇、評論版、博客、微博、微信、點(diǎn)評網(wǎng)及電商平臺(tái)等媒介在PC端和移動(dòng)端的創(chuàng)新和發(fā)展,公眾分享信息變得更加便捷自由,成千上億的“網(wǎng)絡(luò)評論”形成了交互性大數(shù)據(jù),其中蘊(yùn)藏了巨大的醫(yī)藥行業(yè)需求開發(fā)價(jià)值。
作為醫(yī)藥行業(yè)企業(yè),如果能對網(wǎng)上醫(yī)藥行業(yè)的評論數(shù)據(jù)進(jìn)行收集,建立網(wǎng)評大數(shù)據(jù)庫,然后再利用分詞、聚類、情感分析了解消費(fèi)者的消費(fèi)行為、價(jià)值趣向、評論中體現(xiàn)的新消費(fèi)需求和企業(yè)產(chǎn)品質(zhì)量問題,以此來改進(jìn)和創(chuàng)新產(chǎn)品,量化產(chǎn)品價(jià)值,制訂合理的價(jià)格及提高服務(wù)質(zhì)量,將從中獲取更大的收益。
尤得一提的是,可以自豪地說,除了中華民族,世界上沒有任何一個(gè)民族為子孫后代留下如此龐大的、可直接采用的大數(shù)據(jù)醫(yī)學(xué)遺產(chǎn)。中醫(yī)藥歷史上從來就不缺乏大數(shù)據(jù)的身影,而且中醫(yī)藥的一個(gè)典型特征就是數(shù)據(jù)量大。
《黃帝內(nèi)經(jīng)》以生命為中心,重點(diǎn)論述了臟腑、經(jīng)絡(luò)、病因、病機(jī)、治療原則以及針灸等多個(gè)方面內(nèi)容,同時(shí)涉及了天文、地理、心理、社會(huì)、哲學(xué)、歷史等多個(gè)學(xué)科,是一部名副其實(shí)的大數(shù)據(jù)著作。唐《新修本草》博采眾長,整理和記載數(shù)據(jù)量大,記載藥物多達(dá)844種,不僅內(nèi)容豐富,而且實(shí)用性強(qiáng),全書圖文并茂,很好地體現(xiàn)了大數(shù)據(jù)、多中心的資料整理方式。中醫(yī)方劑學(xué)著作《普濟(jì)方》的問世是大數(shù)據(jù)在中醫(yī)史上的又一次有效應(yīng)用。它載方達(dá)61739首,除收錄明以前各家方書以外,還收集很多其他方面的材料,如傳記、雜志等。內(nèi)容包括總論、臟腑身形、傷寒雜病、外科、婦科、兒科、針灸等多個(gè)學(xué)科,且編寫得十分詳細(xì),是現(xiàn)今我們研究中醫(yī)十分寶貴的醫(yī)學(xué)文獻(xiàn)資料。
中醫(yī)藥大數(shù)據(jù)資料的有效運(yùn)用當(dāng)然遠(yuǎn)不止于此,在當(dāng)代,基于大數(shù)據(jù)技術(shù)的不斷深度開發(fā)和高效利用,必將有望使祖國醫(yī)藥大數(shù)據(jù)成為取之不盡用之不竭的寶貴資源!