科學(xué)文獻(xiàn)是生物數(shù)據(jù)最可靠的來源之一[1]。利用機(jī)器學(xué)習(xí)的方法能在海量資料中挖掘出有效知識,并實(shí)時整合以往的經(jīng)驗(yàn)教訓(xùn)[2]。目前,絕大部分生物醫(yī)學(xué)實(shí)體(如疾病、基因、藥物)的關(guān)聯(lián)存儲在各種生物信息學(xué)和臨床數(shù)據(jù)庫中,并以文本形式記錄在數(shù)據(jù)庫中,研究者需要用關(guān)聯(lián)挖掘工具識別文本中的實(shí)體及其之間的語義關(guān)聯(lián),構(gòu)建關(guān)聯(lián)網(wǎng)絡(luò)以描述實(shí)體之間的相互作用。近年來,國內(nèi)外對生物實(shí)體間關(guān)聯(lián)進(jìn)行了較多的研究,如蛋白質(zhì)與蛋白質(zhì)的關(guān)聯(lián)[3]、蛋白質(zhì)與基因的關(guān)聯(lián)[4]、藥物與藥物的關(guān)聯(lián)[5]、藥物與疾病的關(guān)聯(lián)[6]等。
針灸是在中醫(yī)學(xué)中采用針刺或火灸人體穴位治療疾病的方法[7],是聯(lián)合國教科文組織認(rèn)定的人類非物質(zhì)文化遺產(chǎn)代表作之一,在中國已有幾千年歷史。針灸用于緩解人體各種疼痛已得到越來越多專家的認(rèn)可,但其治療機(jī)制尚不明確[8],與基因和藥物之間的關(guān)聯(lián)也不明確,需要深入挖掘探討。
本文基于機(jī)器學(xué)習(xí)中的支持向量機(jī)(Support Vector Machine,SVM)方法,以針灸為例,識別疾病、基因和藥物實(shí)體,挖掘三者之間的關(guān)聯(lián),構(gòu)建出3個關(guān)聯(lián)網(wǎng)絡(luò),預(yù)測實(shí)體間新關(guān)聯(lián),提出實(shí)驗(yàn)性研究假設(shè),為研究人員今后進(jìn)行有關(guān)針灸治療、疾病候選、基因篩選、靶向藥物和個性化醫(yī)療等研究提供數(shù)據(jù)支持和新的研究思路。
為順利完成本次研究,制定了如下研究步驟:構(gòu)建詞典并獲取針灸相關(guān)英文文獻(xiàn),基于詞典和SVM方法對文獻(xiàn)摘要進(jìn)行實(shí)體識別,基于SVM方法挖掘針灸相關(guān)疾病、基因和藥物的關(guān)聯(lián),設(shè)定最小Lift閾值并依據(jù)關(guān)聯(lián)規(guī)則計(jì)算并排序疾病-基因-藥物之間的關(guān)聯(lián),利用R語言實(shí)現(xiàn)關(guān)聯(lián)網(wǎng)絡(luò)的可視化和分析新關(guān)聯(lián),使用ROC曲線驗(yàn)證本文算法的準(zhǔn)確性。
首先從國際疾病分類-10(International Statistical Classification of Diseases and Related Health Problems 10th Revision,ICD-10)[9]、Entrez GENE[10-11]、Gene Ontology[12]、OMIM[13]、DrugBank[14]等數(shù)據(jù)庫中獲取并建立疾病、基因和藥物詞典,命名為“Disease_Dictionary”(共計(jì)2 036個類目)、“Gene_Dictionary”(共計(jì)4 0172個人類基因詞條)和“Drug_Dictionary”(共計(jì)1 763種藥物詞條)。
詞典包括每個基因(藥物)的標(biāo)準(zhǔn)名稱、別名、同義詞、標(biāo)準(zhǔn)編號等屬性。以這3個詞典為標(biāo)準(zhǔn)進(jìn)行命名實(shí)體識別。
在PubMed數(shù)據(jù)庫中以“"acupuncture"[MeSH Terms] OR "acupuncture"[All Fields] OR "acupuncture therapy"[MeSH Terms] OR ("acupuncture"[All Fields] AND "therapy"[All Fields]) OR "acupuncture therapy"[All Fields]”為關(guān)鍵詞進(jìn)行檢索,截止日期為2017年2月13日,得到25 777篇相關(guān)文獻(xiàn),其中18 333篇含有摘要。本文以這18 333篇文獻(xiàn)摘要為主要對象進(jìn)行文本關(guān)聯(lián)挖掘研究。
考慮到醫(yī)學(xué)文獻(xiàn)專業(yè)性較高及后期數(shù)據(jù)處理的實(shí)際需求,采用以下方法對文獻(xiàn)摘要進(jìn)行預(yù)處理:去除所有與本文無關(guān)的信息,如作者信息、發(fā)表日期等;由于摘要中出現(xiàn)的“BACKGROUND:”“METHODS:”“RESULTS:”“CONCLUSION:”等部分期刊的標(biāo)準(zhǔn)格式,不影響最終處理結(jié)果,所以本文將這些單詞全部移除;保留文獻(xiàn)摘要部分,合計(jì)18 333篇;通過斷句法把這些摘要轉(zhuǎn)化為單獨(dú)語句,得到有764 308條語句的語料庫;將希臘字母變?yōu)橛⑽囊糇g,如“α→Alpha”等;采用BIO方法對每個單詞進(jìn)行標(biāo)注,使之變成規(guī)范文本語料庫,以便進(jìn)行實(shí)體識別和關(guān)聯(lián)提?。换谠~典在語料庫中識別3種不同實(shí)體,提取并標(biāo)注,同一句中出現(xiàn)不同的實(shí)體則假定該實(shí)體對具有關(guān)聯(lián)。
需要說明的是,由于文獻(xiàn)量較大,很難準(zhǔn)確且完全將文中的疾病是由藥物副作用引起的還是其他原因引起的區(qū)分開;本文是以“針灸”這個治療方法為關(guān)鍵字進(jìn)行檢索的,得到的資料大多是治療效果的展示。所以,本文設(shè)定為識別出的藥物用于治療疾病,而不是導(dǎo)致疾病的原因。
本文使用機(jī)器學(xué)習(xí)算法中的SVM方法是一種二元分類器,屬于有監(jiān)督機(jī)器學(xué)習(xí)方法。對于二值問題,SVM通過一條清晰的間距區(qū)分不同類別中的數(shù)據(jù)點(diǎn),其中“間距”通過優(yōu)化使分割的距離最大,間距邊界上的樣本一般稱為“支持向量”;處理非線性的數(shù)據(jù)時,SVM挑選出一個內(nèi)核函數(shù)(Kernel Function)將低維數(shù)據(jù)映射到高維空間解決該問題,相當(dāng)于直接在特征空間內(nèi)直接計(jì)算內(nèi)積。
本文采用的內(nèi)核函數(shù)是Huber損失函數(shù)[15],它是支持SVM分類器中的一種變體函數(shù)。Smith[16]對比多種生物實(shí)體關(guān)聯(lián)提取算法時,發(fā)現(xiàn)Huber損失函數(shù)效率最高。該函數(shù)公式中的T表示整個訓(xùn)練集大小,訓(xùn)練集中第i對二進(jìn)制特征向量定義為Xi,若關(guān)聯(lián)對被標(biāo)記為正數(shù),則yi=1,否則yi=-1。令ω為特征向量權(quán)重,距離相同的為Xi;令θ為閾值參數(shù);令λ為正則化參數(shù)。由此,本文使用的損失函數(shù)定義如下:
在R語言中,可以在svmMLiA.py文件中添加函數(shù)kernelTrans(),然后對optStruct類進(jìn)行修改,即可實(shí)現(xiàn)Huber損失核函數(shù)。部分關(guān)鍵代碼如圖1所示。
圖1 部分關(guān)鍵代碼
對生物醫(yī)學(xué)實(shí)體間的關(guān)聯(lián)進(jìn)行度量時,需要用以下度量指標(biāo)。
支持度support用于衡量集合內(nèi)各項(xiàng)出現(xiàn)的頻次閾值。
support(A)=P(A)=a/N
置信度confidence可以度量關(guān)聯(lián)規(guī)則的屬性。
提升指數(shù)lift能夠評估一個預(yù)測模型是否有效,體現(xiàn)集合{A}對{B}的重要性。
若值為1,則A與B無關(guān)聯(lián);若值小于1,則A與B相斥;若值大于1,則值越高,A與B之間的關(guān)聯(lián)規(guī)則越有價值[17]。由于life閾值為3時,相當(dāng)于99.8%百分位臨界值或連續(xù)標(biāo)準(zhǔn)正態(tài)分布的標(biāo)準(zhǔn)差,因此lift大于3的關(guān)聯(lián)對具有更強(qiáng)關(guān)聯(lián)性。
R語言是一種進(jìn)行統(tǒng)計(jì)計(jì)算和繪圖的語言和環(huán)境,能夠?qū)崿F(xiàn)網(wǎng)絡(luò)模型的構(gòu)建和分析算法[18]。ROC曲線檢測算法的準(zhǔn)確性適用于二分類情況,現(xiàn)廣泛應(yīng)用于醫(yī)學(xué)診斷實(shí)驗(yàn)性能的評價[19],同樣也適用于本文算法性能的評價。因此,本文采用R語言實(shí)現(xiàn)關(guān)聯(lián)網(wǎng)絡(luò)模型構(gòu)建,并用ROC曲線判別算法性能。
本文以針灸相關(guān)文獻(xiàn)摘要為研究的數(shù)據(jù)基礎(chǔ),以“Disease_Dictionary”、“Gene_Dictionary”和“Drug_Dictionary”為標(biāo)準(zhǔn),基于SVM方法對針灸相關(guān)文獻(xiàn)摘要進(jìn)行識別,去重后得到與針灸相關(guān)的包括抑郁癥等在內(nèi)的296種疾病、神經(jīng)生長因子(Nerve Growth Factor,NGF)等在內(nèi)的51種基因和納洛酮等在內(nèi)的278種藥物。
在識別疾病實(shí)體時,由于ICD-10內(nèi)所有疾病名稱都有明確分類,疾病名稱含有具體部位(或原因),如查詢“疼痛(Pain)”時,得到“眼疼(H57.1-Ocular Pain)、關(guān)節(jié)痛(M25.5-Pain in joint)、腰背疼痛(M54.5-LowBackPain)等”。但在實(shí)際文本挖掘過程中,由于很多文獻(xiàn)摘要中的醫(yī)學(xué)詞匯沒有嚴(yán)格按照標(biāo)準(zhǔn)進(jìn)行撰寫,因此本文在挖掘過程中直接引用此類沒有嚴(yán)格限定的疾病實(shí)體,并標(biāo)注上“不明原因(not otherwise specified,NOS)”,如“PainNOS”等,以示區(qū)別??梢园l(fā)現(xiàn),針灸主要用于治療疼痛、皰疹樣皮炎、緊張、焦慮等病征,其中疼痛包括頭痛、腰背疼痛、偏頭痛、不明原因疼痛等。
針灸與基因的關(guān)聯(lián)研究較少,相關(guān)研究最多的是NGF。該蛋白質(zhì)具有刺激神經(jīng)增長的活性,其突變與遺傳性感覺和自主性神經(jīng)障礙相關(guān),其基因表達(dá)失調(diào)與過敏性鼻炎有關(guān)[20]。在治療慢性疼痛和中風(fēng)過程中使用電針刺療法(electroacupuncture,EA),可顯著上調(diào)NGF水平[21-22]。針灸相關(guān)藥物研究最多的是納洛酮,它能起到預(yù)防或逆轉(zhuǎn)阿片樣物質(zhì)的作用,包括呼吸抑制、鎮(zhèn)靜和低血壓。電針刺療法結(jié)合納洛酮可以緩解急性內(nèi)臟痛覺過敏[23]。
針灸相關(guān)38種疾病與29種基因存在關(guān)聯(lián)的有81種,Lift閾值超過3的有70種。
使用R語言構(gòu)建的針灸相關(guān)疾病-基因關(guān)聯(lián)網(wǎng)絡(luò)如圖2所示。
圖2 疾病-基因關(guān)聯(lián)網(wǎng)絡(luò)
疾病-基因中單關(guān)聯(lián)的有2對,即SMO-惡心與嘔吐(Nausea And Vomiting)和NRG1-精神分裂癥(Schizophrenia),基因NGF、CORT、APP(Amyloid beta Precursor Protein,淀粉樣β蛋白前體)分別與15、8、7種疾病具有關(guān)聯(lián),炎癥(Inflammation)、緊張(Stress)、阿茲海默病(Alzheimer’s Disease)、壞死(Necrosis)分別與11、6、5、5種基因具有關(guān)聯(lián)。
得到443種關(guān)聯(lián),大于Lift閾值3的關(guān)聯(lián)有285種。針灸相關(guān)疾病-藥物關(guān)聯(lián)網(wǎng)絡(luò)如圖3所示。
疾病-藥物之間具有單關(guān)聯(lián)的有4對,即焦慮-阿普唑侖(Anxiety-Alprazolam)、消化不良-多潘立酮(Dyspepsia-Domperidone)、炎癥-納洛酮(Inflammation-Naloxone)、哮喘-地塞米松(Asthma-Dexamethasone)。惡心嘔吐(Nausea And Vomiting)與昂丹司瓊(Ondansetron)、順鉑(Cisplatin)、胃復(fù)安(Metoclopramide)3種藥物存在關(guān)聯(lián),尼莫地平(Nimodipine)與血管性癡呆(VascularDementia)、癡呆(Dementia)、梗塞(Infarction)3種疾病存在關(guān)聯(lián)。可以發(fā)現(xiàn),疼痛與藥物的關(guān)聯(lián)最多。
圖3 疾病-藥物關(guān)聯(lián)網(wǎng)絡(luò)
此外,本文得到的藥物與疾病的關(guān)聯(lián),都是與針灸相關(guān)的,因此可以預(yù)測這些藥物與針灸共同治療的療效可能會更佳。
得到39種不同關(guān)聯(lián),大于Lift閾值3的關(guān)聯(lián)有38種。針灸相關(guān)基因-藥物關(guān)聯(lián)網(wǎng)絡(luò)如圖4所示。
圖4 基因-藥物關(guān)聯(lián)網(wǎng)絡(luò)
基因-藥物之間具有單關(guān)聯(lián)的有2對,即DICER1-黃體酮(DICER1-Progesterone)、MYD88-秋水仙堿(MYD88-Colchicine)。一氧化氮(Nitric Oxide)只與基因S100B、NOS2有關(guān),基因NGF與9種不同藥物存在關(guān)聯(lián),基因CORT與7種藥物存在關(guān)聯(lián),基因APP和CYP2C8分別與4種不同藥物關(guān)聯(lián)。普魯卡因可以抑制基因STAT3在mRNA和蛋白質(zhì)水平表達(dá),是一種治療神經(jīng)性疼痛很有潛力的治療藥物[24]。
同樣,得到疾病-基因-藥物兩兩之間有704種關(guān)聯(lián),經(jīng)過驗(yàn)證得到預(yù)測性關(guān)聯(lián)(即假陽性關(guān)聯(lián))262種。使用R語言構(gòu)建的針灸相關(guān)疾病-基因-藥物關(guān)聯(lián)網(wǎng)絡(luò)如圖5所示。
圖5 疾病-基因-藥物關(guān)聯(lián)網(wǎng)絡(luò)
可以發(fā)現(xiàn),阿茲海默病(Alzheimer's Disease)與基因APP、NGF和藥物腺苷(Adenosine)、銀杏(Ginkgo biloba)、異氟烷(Isoflurane)、鏈脲菌素(Streptozocin)具有關(guān)聯(lián)。由此推測這2種基因與這4種藥物也可能具有關(guān)聯(lián)。
本文通過計(jì)算得到一些關(guān)聯(lián)程度較高,但尚未被證實(shí)的實(shí)體關(guān)聯(lián)對(表1)。
在疾病-基因新關(guān)聯(lián)預(yù)測中,便秘可能與基因NGF、CORT有關(guān)。NGF相關(guān)疾病有腦梗、帕金森病、小兒腦癱、視神經(jīng)相關(guān)疾病、過敏性鼻炎等[25],NGF醫(yī)藥產(chǎn)品主要有蘇肽生、金路捷和恩經(jīng)復(fù)。皮質(zhì)醇穩(wěn)定蛋白[26](cortistatin,CORT)的基因編碼是一種類似生長激素抑制素的神經(jīng)肽,與抑郁癥相關(guān)。便秘是由多種病因引起的,如胃腸道疾病;不少藥物也可導(dǎo)致該疾病,如抗精神病藥“奮乃靜”“氯氮平”等、精神活性藥“丙戊酸鈉”等、阿片類鎮(zhèn)痛藥“可卡因”“嗎啡”等、抗抑郁藥“氟西汀”“阿米替林”等??梢园l(fā)現(xiàn),服用抗抑郁藥可能會導(dǎo)致便秘,而基因CORT又與抑郁癥相關(guān),那么便秘可能與CORT某種變異具有關(guān)聯(lián)。同理,服用精神活性藥可能導(dǎo)致便秘,而NGF又與神經(jīng)性疾病息息相關(guān),針灸對治療便秘具有一定的功效[27]。所以,便秘與NGF也可能具有關(guān)聯(lián),針灸在治療便秘的同時,也可能改變了基因NGF的性狀。
表1 關(guān)聯(lián)程度較高的預(yù)測性實(shí)體對
在疾病-藥物新關(guān)聯(lián)預(yù)測中,抑郁癥(Depression)可能與藥物巴氯芬(Baclofen)有關(guān)。巴氯芬用于改善錐體束損害造成的肌張力增高的痙攣癥狀、不同原因造成的痙攣性偏癱和截癱,針灸可以通過一定程度上激活細(xì)胞外信號調(diào)節(jié)激酶(Extracellular Signal-regulated Kinase,ERK)來緩解重度抑郁癥癥狀[28]。因此,巴氯芬結(jié)合針灸可能會對抑郁癥產(chǎn)生更好的療效。
潛在關(guān)聯(lián)對Amyloidosis-Ondansetron中的淀粉樣變(Amyloidosis)指淀粉樣蛋白沉積于組織或器官引起的慢性代謝性疾病,可侵犯全身多種器官,分為系統(tǒng)性和皮膚淀粉樣變,是一組表現(xiàn)各異的臨床綜合征,目前尚無特效治療方法。對原發(fā)性及合并于多發(fā)性骨髓瘤的A1型淀粉樣變,二甲硫氧化物顯示較好的療效,可與環(huán)磷酰胺等烷化劑并用;對于皮膚淀粉樣變,針灸可以顯著緩解[29];昂丹司瓊用于預(yù)防或治療化療藥物(如“順鉑”“阿霉素”等)和放射治療引起的惡心嘔吐。因此,這二者的關(guān)聯(lián),必須考慮患者淀粉樣變器官(或部位)及并發(fā)癥的不同,需要進(jìn)一步探討。
在基因-藥物新關(guān)聯(lián)預(yù)測中,基因APP可能與硼替佐米、布托啡諾、多潘立酮等8種藥物有關(guān)。以新關(guān)聯(lián)APP-氟桂利嗪為例進(jìn)行分析,APP經(jīng)β和γ分泌酶水解產(chǎn)生的β淀粉樣蛋白,會對血管形態(tài)及血管功能產(chǎn)生影響,導(dǎo)致血管硬化,在大腦內(nèi)引起與阿爾茨海默病相似的病理變化——神經(jīng)突退縮和神經(jīng)元變性[30]。氟桂利嗪對血管收縮物質(zhì)引起的血管收縮有持久的抑制作用,保護(hù)腦組織,所以APP與氟桂利嗪可能會具有某種關(guān)聯(lián)。因此,氟桂利嗪結(jié)合針灸對阿爾茨海默病或偏頭痛的療效更好。同樣,在治療APP/PS1雙轉(zhuǎn)基因阿爾茨海默病小鼠時,能提高它們的空間學(xué)習(xí)和記憶能力[31],由此可以推測針灸與APP可能具有關(guān)聯(lián)。針灸在治療多發(fā)性骨髓瘤癌癥患者使用硼替佐米而導(dǎo)致的周圍神經(jīng)性病變時,有較好的療效[32];在治療偏頭痛時,針灸可能比用常規(guī)藥物(如氟桂利嗪)的療效更好[33]。在動物實(shí)驗(yàn)中表明,在治療術(shù)后疼痛時,針灸比布托啡諾等阿片類鎮(zhèn)痛藥的效果更好[34]。但是目前尚無大規(guī)模臨床實(shí)驗(yàn)證明針灸與前述藥物共同治療會產(chǎn)生更好的療效,也沒有證據(jù)表明針灸會導(dǎo)致這些基因突變。
將針灸相關(guān)疾病-基因、疾病-藥物和基因-藥物間的關(guān)聯(lián)結(jié)果導(dǎo)入SPSS 20.0軟件,使用ROC曲線判斷算法性能(圖6)。
圖6 ROC曲線驗(yàn)證
從圖6看出,得到ROC曲線下的面積分別為0.749、0.840和0.806,關(guān)聯(lián)準(zhǔn)確度中等偏上,相應(yīng)的標(biāo)準(zhǔn)誤差分別為0.072、0.032和0.071,P值均為0.000,95%置信區(qū)間分別為(0.607,0.890)、(0.777,0.903)和(0.667,0.945),說明算法性能中等偏上,優(yōu)于CoPub[35]生物實(shí)體關(guān)聯(lián)提取算法。本文也得到了一些尚未驗(yàn)證的實(shí)體關(guān)聯(lián)對,即有一些假陽性的預(yù)測性結(jié)果[36],這也是生物醫(yī)學(xué)實(shí)體關(guān)聯(lián)提取的目標(biāo)之一:提出的預(yù)測性的研究假設(shè),可幫助科研人員設(shè)計(jì)相關(guān)實(shí)驗(yàn)方向[37]。
文獻(xiàn)數(shù)量飛速增長,PubMed約每分鐘增加2篇論文[38],每位研究者不可能全面閱讀與研究相關(guān)領(lǐng)域的所有文獻(xiàn)。文本挖掘的目標(biāo)是增強(qiáng)從不斷增長的文獻(xiàn)語料庫中提取信息的能力,從而更為有效地提取及合成信息。在醫(yī)學(xué)生物領(lǐng)域,文本挖掘越來越多地用于支持新知識發(fā)現(xiàn)和假設(shè)生成[39],如現(xiàn)有藥物新用途、疾病候選基因、發(fā)病機(jī)制等相關(guān)科學(xué)假設(shè)[40]。同時,通過信息可視化技術(shù),可對現(xiàn)有知識點(diǎn)進(jìn)行概述,幫助學(xué)者更高效地獲取生物醫(yī)學(xué)文獻(xiàn)關(guān)鍵內(nèi)容。隨著生物醫(yī)學(xué)大數(shù)據(jù)的進(jìn)一步發(fā)展,各種文本挖掘算法和技術(shù)將會呈現(xiàn)越來越重要的作用。
本文基于機(jī)器學(xué)習(xí)方法成功地在針灸相關(guān)文獻(xiàn)中進(jìn)行疾病-基因-藥物新關(guān)聯(lián)的挖掘與預(yù)測,但只對3種實(shí)體進(jìn)行了關(guān)聯(lián)挖掘,并僅限于PubMed數(shù)據(jù)庫,不夠全面。因此,下一步的研究計(jì)劃是在更大規(guī)模數(shù)據(jù)(包括臨床平臺獲得的數(shù)據(jù))中,嘗試對生物醫(yī)學(xué)數(shù)據(jù)中多種實(shí)體(如基因、蛋白質(zhì)、通路、疾病、致病機(jī)制、藥物、臨床檢查、基因組和藥物不良反應(yīng)等)進(jìn)行關(guān)聯(lián)挖掘與預(yù)測。