癌癥是嚴(yán)重威脅人民群眾健康的重大公共衛(wèi)生問題。近年來我國癌癥發(fā)病率、死亡率呈逐年上升趨勢,給家庭和社會造成重大經(jīng)濟負擔(dān),也是當(dāng)前社會重大民生“痛點”。黨中央、國務(wù)院高度重視抗癌新藥的注冊和審批工作,2018年以來,李克強總理3次主持召開國務(wù)院常務(wù)會議,對加快抗癌新藥的上市等議題做出了重要部署。2018年10月10日,國家醫(yī)療保障局宣布將阿扎胞苷、阿法替尼等17種抗癌藥物納入國家醫(yī)療保障體系[1]。其中包括12個實體腫瘤藥和5個血液腫瘤藥,均為臨床必需、療效確切、參保人員需求迫切的腫瘤治療藥品,涉及非小細胞肺癌、腎癌、結(jié)直腸癌、黑色素瘤、淋巴瘤等多個癌種。
黑色素瘤已成為世界上發(fā)病率增長最快的惡性腫瘤之一,年發(fā)病增長率為3%~5%。我國黑色素瘤患者也呈現(xiàn)快速增長的趨勢,每年新發(fā)病例約2萬例。根據(jù)個體遺傳基因的差異指導(dǎo)合理用藥,是精準(zhǔn)醫(yī)療所要實現(xiàn)的目標(biāo)之一。發(fā)現(xiàn)與藥物效用相關(guān)的遺傳因素和靶標(biāo)分子,并將其應(yīng)用于藥物設(shè)計和臨床實踐中,對于新藥研發(fā)、精準(zhǔn)施藥和提高藥物治療效果有十分重要的意義。在這些新藥的研發(fā)過程中,藥物基因組學(xué)(Pharmacogenomics)的研究發(fā)揮了重要作用。Gay等人[2]報道了2例肺癌患者在出現(xiàn)NGR1基因融合后使用阿法替尼(40mg qd)治療,極大地改善了患者咳嗽和氣短等癥狀,是老藥新用的一個典型案例;Hida等人[3]的研究表明針對克唑替尼耐藥開發(fā)出新一代ALK 抑制劑艾樂替尼,能夠使非小細胞肺癌惡化或死亡風(fēng)險降低66%。
在藥物基因組學(xué)研究中,隨著海量數(shù)據(jù)的累積,越來越需要信息領(lǐng)域的專業(yè)人員對規(guī)模急速增長和內(nèi)容紛繁復(fù)雜的藥物基因組大數(shù)據(jù)進行收集、整理、建模與挖掘。這些數(shù)據(jù)能夠從不同層次反映藥物與基因、藥物與疾病系統(tǒng)之間更精細的信息。本文擬從抗癌藥物的個性化用藥入手,整合抗癌藥物領(lǐng)域的異構(gòu)數(shù)據(jù),設(shè)計涵蓋藥物、基因、疾病在內(nèi)的藥物基因組學(xué)知識表示模型,并重點將知識圖譜的語義類型擴充到藥物服用方式、藥物使用劑量、藥物副作用等個性化用藥信息和藥物副作用維度。
從數(shù)據(jù)組織形式上可將藥物基因組學(xué)異構(gòu)數(shù)據(jù)分為詞表、數(shù)據(jù)庫、非結(jié)構(gòu)化文本文檔和通用本體庫等。
詞表包括醫(yī)學(xué)主題詞表(Medical Subject Headings,MeSH)、國際疾病分類(International Classification of Disease,ICD)、美國癌癥中心分類詞匯匯編(NCI’s thesaurus,NCIt)、醫(yī)學(xué)系統(tǒng)命名法-臨床術(shù)語(Systematized Nomenclature of Human and Veterinary Medicine-Clinical Term,SNOMED-CT)等。
DrugBank:包含藥物的基本信息及藥理學(xué)、藥物間相互作用、藥物基因組學(xué)、相關(guān)臨床試驗、藥物毒性、藥物靶點的信息;PharmGKB(The Pharmacogenomics Knowledgebase):收集、審編和開放共享具有臨床意義的基因-藥物關(guān)系和基因-表型關(guān)系知識[4];RxNorm:臨床藥物標(biāo)準(zhǔn)命名表,以規(guī)范化形式(即活性成分+劑量+劑型以及商品名稱)來表示臨床藥物[5];SIDER(Side Effect Resource):是從藥物說明書中和公開的文件中提取的上市藥物的不良反應(yīng)數(shù)據(jù)庫,包括藥物適應(yīng)癥、不良反應(yīng)發(fā)生頻率、不良反應(yīng)分類和藥物-靶標(biāo)關(guān)系的鏈接方面的數(shù)據(jù);DisGeNET:是整合多種資源的人類疾病-基因-變異的數(shù)據(jù)庫。
美國食品藥品監(jiān)督管理局(Food and Drug Administration,F(xiàn)DA):美國批準(zhǔn)上市的藥品及藥品使用說明書詳細信息;電子病歷:以非結(jié)構(gòu)化的文本形式記錄患者在醫(yī)院診斷治療的全過程,通常包含首頁、病程記錄、檢查檢驗結(jié)果、醫(yī)囑、手術(shù)記錄、護理記錄等信息。
基因本體(Gene Ontology,GO):是對跨物種和跨數(shù)據(jù)庫的基因表達和基因產(chǎn)物屬性進行結(jié)構(gòu)化及定義精確的描述,旨在統(tǒng)一各種基因產(chǎn)物數(shù)據(jù)庫的信息表達方式;疾病本體(Disease Ontology,DO):提供一個與人類疾病相關(guān)的整合生物醫(yī)學(xué)數(shù)據(jù)的開源本體,以促進各種疾病及相關(guān)健康狀況向特定醫(yī)學(xué)代碼的映射。
知識表示模型的構(gòu)建可以理解為是一種結(jié)構(gòu)化的有向圖集合,其中圖的節(jié)點代表實體或者概念,邊代表實體/概念之間的語義關(guān)系,最終組成“實體-關(guān)系-實體”三元組[6]。基于上文提到的藥物基因組學(xué)數(shù)據(jù)資源,國內(nèi)外研究者開展了一系列的知識表示模型構(gòu)建和跨緯度的藥物、基因、疾病信息挖掘研究。
在國外,Meng Wang等人[7]利用ICD-9和DrugBank知識,通過構(gòu)建層次化知識圖譜獲取電子醫(yī)學(xué)病歷中患者、疾病和藥物之間的關(guān)系,最后實現(xiàn)了安全用藥的信息整合與挖掘;Michel Dumontier等人[8]利用PharmGKB數(shù)據(jù)構(gòu)建了一個輕量型本體,包含40個核心概念,共涉及藥物、表型、基因型、藥物治療多個領(lǐng)域的藥物基因組學(xué)本體(Pharmacogenomics Ontology,PO);Boyce R D[9]等人利用從美國食品藥品監(jiān)督管理局(FDA)獲取的包含藥物基因組信息的藥物標(biāo)簽提取藥物-生物標(biāo)記物關(guān)系,將這些提取的概念及關(guān)系標(biāo)準(zhǔn)、完整地表示出來,從而構(gòu)建藥物基因組語義模型。在國內(nèi),藥物基因組學(xué)知識整合的相關(guān)工作也逐漸引起關(guān)注。弓孟春[10]等人提出了藥物基因組學(xué)臨床部署的總體框架,引導(dǎo)精準(zhǔn)醫(yī)學(xué)臨床實踐的發(fā)展方向,構(gòu)建基于中國人群數(shù)據(jù)的知識庫體系;邢玉華[11]等人對2型糖尿病治療藥物及其相關(guān)的基因多態(tài)性信息進行了闡述。
通過分析以上研究發(fā)現(xiàn),目前開展的藥物知識表示涉及的語義類型通常僅限于藥物、基因、疾病,而對藥物服用方式、藥物使用劑量調(diào)整、適用人群、藥物副作用等個性化用藥信息沒有深入探究和描述,能夠輔助臨床醫(yī)生、臨床藥師精準(zhǔn)用藥的藥物基因組學(xué)知識表示研究十分有限。因此開展面向精準(zhǔn)用藥的藥物基因組學(xué)知識表示模型構(gòu)建研究具有現(xiàn)實意義。
知識表示模型的構(gòu)建方法分為自頂向下(top-down)和自底向上(bottom-up)兩種[12]。自頂向下構(gòu)建方法是從高質(zhì)量的結(jié)構(gòu)化數(shù)據(jù)中提取本體和模式信息,構(gòu)建出知識圖譜的框架;自底向上構(gòu)建方法是從實體層出發(fā),提取開放共享數(shù)據(jù)源中的有效信息,經(jīng)人工審核后,加入到知識庫中。本文采用兩種方法結(jié)合的構(gòu)建方式,即先構(gòu)建知識表示框架,再提取開放數(shù)據(jù)源中的有效信息,完成知識表示模型的實例填充。
框架設(shè)計過程中需明確知識組織的語義類型和表示方式,如以網(wǎng)絡(luò)的形式表示知識,構(gòu)建三元組關(guān)系。通過對現(xiàn)有的藥物基因組知識表示模型的分析,在藥物、基因、疾病3種常見語義類型的基礎(chǔ)上,擴充抗癌藥物基因組學(xué)知識表示模型的語義類型,涵蓋藥物、基因、基因變異、疾病(適應(yīng)癥、疾病發(fā)生部位等)、個性化用藥(服用方式、服用頻率、適用人群、服用劑量、劑量調(diào)整等)、不良反應(yīng)等多個維度。抗癌藥物基因組知識表示框架涵蓋的類及屬性如表1所示。
表1 抗癌藥物基因組學(xué)知識表示框架涵蓋的類及屬性
信息整合和知識抽取指通過人工或者自動化技術(shù),從結(jié)構(gòu)化、半結(jié)構(gòu)化或非結(jié)構(gòu)化的開放醫(yī)學(xué)數(shù)據(jù)中提取出知識表示模型所涉及的基本組成元素,包括實體、屬性和關(guān)系等,組成有效的三元組形式存入數(shù)據(jù)庫中。下面以黑色素瘤疾病的相關(guān)用藥為例,進行相關(guān)實體、屬性及語義關(guān)系的抽取。
3.2.1 實體及屬性抽取
多數(shù)黑色素瘤疾病的發(fā)生是由BRAF基因突變引起的。從美國食品藥品監(jiān)督管理局(FDA)公布的藥品說明書數(shù)據(jù)中,通過人工標(biāo)注的方法獲取能夠靶向治療BRAF基因突變引起的黑色素瘤的藥物,以及存在藥物相互作用關(guān)系的藥物數(shù)據(jù),包括Binimetinib、Cobimetinib、Dabrafenib、Encorafenib、Nivolumab、Trametinib和Vemurafenib。其中,Dabrafenib、Encorafenib和Vemurafenib是BRAF基因突變的靶向藥物。從DrugBank和PharmGKB數(shù)據(jù)庫中解析以上7種藥物的屬性信息,包括藥物名稱、藥物描述、化學(xué)式、分子量、商品名等;從RxNorm數(shù)據(jù)庫獲取藥物及劑量、劑型、用藥頻率等屬性信息。
3.2.2 語義關(guān)系定義及抽取
語義關(guān)系抽取是知識表示模型構(gòu)建的重要環(huán)節(jié)之一。本文語義關(guān)系抽取的重點是抽取疾病和藥物、疾病和癥狀、疾病和基因、疾病和疾病、藥物和癥狀、藥物和藥物等實體間的關(guān)聯(lián)關(guān)系,從而為患者和領(lǐng)域?qū)<姨峁┲С帧?/p>
本文圍繞藥物、基因、突變、疾病、用藥劑量、復(fù)用方式、不良反應(yīng)等制定了15種語義關(guān)系。其中一級語義關(guān)系10種,二級語義關(guān)系5種,并對每一種語義關(guān)系進行了詳細定義(表2)。通過人工標(biāo)注的方法,對上文提到的7種藥物的藥品說明書信息進行標(biāo)注和語義關(guān)系抽取,并將抽取出的語義關(guān)系與已經(jīng)定義的15種語義關(guān)系進行概念歸并,如“in combination with”=“synergized by”,“recommended dosage”=“routine dosage”。
表2 語義關(guān)系定義
對美國食品藥品監(jiān)督管理局公布的藥品說明書數(shù)據(jù)進行實體和語義關(guān)系抽取的示例如圖1所示。根據(jù)實體、屬性及語義關(guān)系的抽取結(jié)果,繪制抗癌藥物基因組知識表示框架的示意圖(圖2)。圖2涵蓋了藥物、基因、突變、疾病、劑量/劑型、人群、不良反應(yīng)等實體,并構(gòu)建了實體與實體之間的語義關(guān)系。
圖1 實體及語義關(guān)系抽取示例
圖2 抗癌藥物基因組知識表示示意圖
將Trametinib等7種藥物及相關(guān)實體填充到知識表示模型中,最終黑色素瘤相關(guān)藥物的知識表示模型共包含了136個三元組。其中涉及7種藥物及其對應(yīng)劑量、劑型,1種基因及相關(guān)的3種基因變異,14種疾病和30種不良反應(yīng)。
抗癌藥物基因組系知識表示三元組示例如表3所示。
表3 抗癌藥物基因組學(xué)知識表示三元組示例
使用XML技術(shù),將抽取出的藥物、基因、疾病、用藥等實體和屬性存儲于結(jié)構(gòu)化的XML文件中,然后基于Dom4j、XPath等技術(shù)對XML文件進行解析,構(gòu)造相應(yīng)參數(shù),為可視化分析和展示打好基礎(chǔ)。選取開源免費的ECharts可視化圖表工具對上述實體及其關(guān)系進行可視化展示(圖3)。
圖3 抗癌藥物知識表示模型可視化示例
本文通過對異構(gòu)的藥物基因組數(shù)據(jù)的整合和抽取,構(gòu)建了以藥物為中心,涵蓋藥物服用方式、藥物使用劑量、藥物副作用、靶向基因、疾病等多個維度的抗癌藥物基因組學(xué)知識表示模型,并對其中的語義關(guān)系進行了詳細定義;同時,在此框架下以黑色素瘤相關(guān)藥物為實例完成了知識表示模型的填充和可視化展示。抗癌藥物基因組學(xué)知識表示模型的構(gòu)建能夠發(fā)現(xiàn)藥物、基因、疾病之間的新知識、新關(guān)聯(lián),輔助藥物信息的關(guān)聯(lián)檢索和智能推薦,為臨床醫(yī)生精準(zhǔn)用藥、聯(lián)合用藥等提供參考依據(jù),為藥學(xué)科研人員開展新藥研發(fā)、老藥新用等的研究提供理論支持,為癌癥患者查詢藥物知識提供服務(wù)支撐。
在此基礎(chǔ)上,我們將繼續(xù)對藥物基因組異構(gòu)數(shù)據(jù)進行深入探究和分析,比對不同數(shù)據(jù)資源的元數(shù)據(jù)項,制定遴選標(biāo)準(zhǔn),擇優(yōu)整合多維度藥物基因組學(xué)相關(guān)實體,如黑色素瘤相關(guān)的癥狀描述等內(nèi)容,完善抗癌藥物基因組知識表示模型的知識組織體系;同時,開展抗癌藥物基因組學(xué)知識表示模型的實證研究,將其應(yīng)用到“中國工程科技知識中心醫(yī)藥衛(wèi)生知識服務(wù)系統(tǒng)”中,從知識表示模型可視化、尋醫(yī)問藥、關(guān)聯(lián)關(guān)系查詢等角度開展服務(wù),探究模型的可用性和可行的服務(wù)模式。