關陟昊 單治易 林紫洛 楊雪梅 唐小利
(中國醫(yī)學科學院/北京協和醫(yī)學院醫(yī)學信息研究所 北京 100020)
我國是世界上老年人口最多的國家,老年與共病密切相關,60歲以上居民中有75.8%被1種以上慢性病困擾[1]。共病與日益增加的不良健康結果相關,如死亡率高、殘疾、生活質量差、住院以及醫(yī)療資源和支出增加[2]。疾病防治重在預防,我國大力推進的健康中國戰(zhàn)略核心在于“治未病”這一預防理念。如果能夠發(fā)現疾病共患的關聯規(guī)律、預測潛在的共病關系,對臨床診療方案有效制定和國家醫(yī)療資源合理配置具有參考意義。
共病這一概念最早由美國Feinstein A R提出,英文表達形式為“comorbidity”,是指患有所研究的某種索引疾病的患者同時還伴發(fā)其他疾病[3]。本研究中所指共病為多種疾病同時發(fā)生在同一機體內的現象,包括并發(fā)癥、合并癥和繼發(fā)癥等。目前國內外關于共病的醫(yī)學研究主要分為兩個方向,分別是共病模式研究和共病預測研究。醫(yī)學領域的“疾病關聯”多指疾病與病因的關聯,包括:宿主病因,即基因、蛋白、通路等組學角度的病因[4-5];環(huán)境病因,即社會、物理、化學等流行病學角度病因[6]。因此相比于“疾病關聯”,“共病”一詞更適合描述疾病之間的關聯關系。
共病模式研究目的是了解調查人群的共病患病現狀,挖掘常見高發(fā)共病組合或共現關系較強的疾病診斷集群[7]。共病模式研究較為成熟,但多基于共現和統計分析思想,提取、描述能力較強,預測能力較弱,研究重點在于挖掘常見疾病之間關聯關系、發(fā)現高頻疾病組合,以達到疾病預警、共病防治的目的。
2.3.1 研究策略 隨著自然語言處理和網絡分析技術發(fā)展,共病預測正在成為共病研究中重要研究方向。目前國內外已有大量關于共病預測的相關研究成果,研究策略主要包括以下3個方面。一是從生物信息學角度:基于高通量基因組學、蛋白組學數據,利用生物信息學方法,從基因表達角度計量疾病間關聯關系,進而預測可能共現的疾病[8]。二是從臨床醫(yī)學角度:基于電子病歷數據,提取疾病共現關系,根據疾病在真實世界中的共現頻次和關聯網絡特點預測未出現的并發(fā)疾病[9]。三是從情報學角度:基于臨床病例構建共病網絡,適用于挖掘發(fā)病率較高的常見病共病關系[10-11],但對于發(fā)病率非常低的罕見病,可能不會在所研究的臨床病例樣本中出現,也可能被多次誤診[12]。解決上述問題的方法之一是使用嚴謹準確的科學文獻數據,生物醫(yī)學文獻包含科研人員對疾病的明確表述。
2.3.2 基于知識網絡的相關研究 大量的文獻集聚使研究內容彼此之間的關系呈現為一種高度復雜性的網絡,研究人員可以通過知識網絡對相關隱性知識進行挖掘[13]。Xu R、Li L和Wang Q[14]將兩個疾病概念在同一個句子中的共現視為具有共患風險的疾病對,通過提取疾病概念對建立疾病風險網絡,該數據集隨后被一些學者[15-16]用于共病網絡研究,這說明基于語義模型提取共病關系是可行的。但是從文本挖掘角度來說,共現關系并不能完整體現概念間基于文獻建立的關聯,因為概念除了在同一篇文章中共同存在,還會通過文獻間引用建立關聯,被稱為實體計量學。Song M、Kang K和An J Y[17]對比基于共現和基于引用構建的實體關聯網絡,提出基于引用關系構造的網絡能夠發(fā)現更為多樣但鏈接關系較弱的關聯,而利用基于共現關系構造的網絡可以得到更高準確率。由此可知在實體關聯網絡的構造過程中,基于引用提取的關系偏重于“全”,基于共現提取的關系偏重于“準”,將二者融合起來可能會達到“全”和“準”的平衡。國內外已有基于單一關系(共現或是引用)進行潛在關系發(fā)現的研究成果,并沒有將二者結合的先例。
2.3.3 鏈路預測 其作為分析復雜網絡的有效手段,是指如何通過已知網絡節(jié)點以及網絡結構等信息,預測網絡中尚未產生連邊的兩個節(jié)點之間產生連接的可能性,在共病預測領域已有廣泛應用,但都局限于從共現層面提取共病關系,忽略了實體間通過引用行為建立的關聯。
2.3.4 創(chuàng)新研究路徑 為解決以上問題,本研究探討將共現與引用關系相結合的潛在共病關系發(fā)現方法。以糖尿病領域為例,通過時間切片方法說明所提方法的優(yōu)越性,并對該領域的共病組合進行預測,提出未來可能的共病組合,結合相關文獻分析疾病間有可能發(fā)生關聯的途徑。
本研究選用文獻數據作為研究對象,基于語義模型和實體計量學提取共病關系構建共病網絡,利用鏈路預測算法計算網絡結構特征指標,選取預測效果最好的指標進行共病關系的預測。本研究設計4個步驟:數據收集、共病關系提取、共病網絡構建以及共病關系預測,見圖1。
PubMed數據庫是美國國立醫(yī)學圖書館(National Library of Medicine,NLM)開發(fā)的免費文獻檢索系統,提供生物醫(yī)學文摘信息及相關數據鏈接。本研究旨在發(fā)現可以為臨床診療與疾病預防提供參考的共病組合,因此選取數據庫中時效性較強的文獻類型。Colil數據庫是日本學者基于PubMed Central Open Access Subset(PMC-OAS)全文本構建的生物醫(yī)學領域引用語句數據庫[18],本研究選取Colil數據庫獲取文獻對應的施引語句。
3.3.1 主謂賓(Subject-Predicates-Object,SPO)結構提取 使用SemRep工具提取文獻摘要中的共病對,SemRep是NLM基于統一醫(yī)學語言系統(Unified Medical Language System,UMLS)開發(fā)的從生物醫(yī)學文本中抽取語義三元組的工具,這個三元組被稱為語義謂詞。語義謂詞由主語、賓語和它們之間的關系組成,形成SPO三元組。利用SemRep工具從下載的MEDLINE摘要數據中抽取語義三元組,通過限制實體類型為“dsyn”(疾病或綜合征);限制語義類型為“COMPLICATES”(并發(fā))、“ASSOCIATED_WITH”(與…相關聯)、“CAUSES”(引起)、“AFFECTS”(影響)、“PREDISPOSES”(誘發(fā))、“MANIFESTATION_OF”(現象表達)、“PRECEDES”(先于…發(fā)生)、“COEXISTS_WITH”(與…同時發(fā)生)可以篩選出具有共病關系的疾病對[14]。
3.3.2 引用語句實體提取 MetaMap是NLM開發(fā)的醫(yī)學實體抽取工具,可以將生物醫(yī)學文本與UMLS敘詞表中的概念匹配起來。使用MetaMap工具識別施引語句中的醫(yī)學實體,通過限制實體類型為疾病或綜合征(disease or syndrome)可以篩選出施引語句中所包含的疾病實體。例如PMID為33450530的文獻的施引語句中包含的疾病實體為“Diabetes Mellitus”,假設該篇文獻摘要中包含的疾病實體為“Ketoacidosis”和“Asthma”,那么基于引用關系建立的共病對為“Diabetes Mellitus-Ketoacidosis”和“Diabetes Mellitus-Asthma”。
對抽取出的共病關系進行數據清洗,首先排除Disease、Syndrome、Disorder等無意義的泛指概念[19]。同一種疾病可能有不同表達方式,例如妊娠性糖尿病可能被表達為gestational diabetes或diabetes during pregnant。因此要對提取出的疾病概念做消歧處理。具體而言是將實體列表導入德溫特數據分析平臺(Derwent Data Analyzer,DDA)通過人工建立敘詞表的方式完成清洗工作。對基于共現的共病關系和基于引用的共病關系做取并集處理,得到完整共病網絡。
表1 鏈路預測指標及計算公式
3.5.2 模型評價指標 AUC是常用的準確性評估指標,表示預測的正例排S在負例前面的概率[21],選取AUC作為模型評價的指標。
3.5.3 預測方法有效性驗證 由于共病網絡形成是具有時序性的,因此預測方法的有效性可通過時間切片方法進行驗證,即將第1年至第n-1年數據作為訓練集,第n年的數據作為測試集。為比較基于共現關系的方法、基于引用關系的方法和本研究所提出的方法在預測新共病關系方面的性能差異,分別對這3種方法對應的共病網絡進行鏈路預測并用AUC評估模型的預測性能。
從兩個維度收集數據,一是獲取2016-2020年PubMed數據庫中糖尿病相關文獻,二是通過Colil數據庫獲取這些文獻的引用語句。在PubMed中檢索糖尿病相關文獻,時間限定為2016-2020年,共收集到213 199篇文獻和對應的1 024 427條引用語句。
基于引用關系提取的唯一疾病實體數量大約是基于共現關系提取的唯一疾病實體數量的5倍,二者交集占前者的4%、占后者的23%。在共病對數量方面,兩種方法提取出的重復疾病對數量為40對,占基于共現方法提取數量的3%,占基于引用方法提取數量的2‰,可以看出僅基于共現或基于引文不能獲取完整的共病網絡,這說明將二者結合是有意義的,見表2、圖2。
表2 基于共現、基于引用和融合后網絡的疾病和關系數量
各項指標均大于0.5,說明在糖尿病的共病網絡中邊不是隨機產生的,可以利用鏈路預測算法對未來共病網絡進行預測。整合后的網絡在各項預測指標上總體優(yōu)于僅基于共現和僅基于引用構建的網絡,說明整合后的網絡能夠很好地描述糖尿病領域的共病現象,將二者結合是有意義的。其中基于隨機游走的Cos指標預測效果最好,見表3。因此利用基于隨機游走的Cos指標對全部數據進行預測,列出了相似度最高的前10條邊,即最有可能產生連邊的疾病對,見表4。
表3 鏈路預測各指標的AUC值
表4 相似度最高的前10個疾病對
通過查找表中所列疾病的相關文獻進行分析,發(fā)現疾病對之間的發(fā)病機制存在關聯。針對部分疾病組合進行解讀和說明。mobius syndrome-chronic granulomatous disease:Mobius綜合征是一種罕見的出生缺陷[22],其致病基因之一與B細胞的存活有關[23]。慢性肉芽腫是一類基因突變引起的免疫缺陷病[24]。這兩種疾病均在患者幼年起病,影響免疫系統正常功能。edema disease-navajo neurohepatopathy:納瓦霍神經肝病多發(fā)于嚴重金屬污染地區(qū)[25],而體內累積過多重金屬會對神經、血液、消化等系統造成損害,水腫可能這些基礎疾病的結果。這兩種疾病的發(fā)病可能都與患者居住環(huán)境有關。lipoidosis-class Ⅲ malocclusion:類脂蛋白沉積癥是指透明蛋白樣物質沉積在皮膚、黏膜及內臟而引起的疾病,牙齒發(fā)育異常是常見的并發(fā)癥[26]。三類牙錯合是頜骨大小與牙齒大小不成比例的臨床表征之一。二者均在幼年發(fā)病并進行性發(fā)展,到患者成年時期自然靜止,且都與口腔黏膜異常有關。lupus renal disease-hypotestosteronism:狼瘡性腎病患者體內的促炎細胞因子升高會影響脂類代謝,這是低膽固醇血癥的病因之一[27]。狼瘡性腎病和低膽固醇血癥均與細菌、病毒感染以及免疫系統的異常炎性反應有關。綜上疾病間可能通過癥狀、生活環(huán)境、發(fā)病時期等途徑產生關聯。疾病之間的關聯并非偶然,患者當前所患疾病可能是另一種疾病的危險因素,發(fā)現共病的共同機制對疾病的早期干預和防控措施制定具有一定意義。
本研究利用實體提取技術和復雜網絡分析方法,從生物醫(yī)學文獻中提取疾病實體并根據語義和引用關系構建共病對,融合實體共現與引用關系,構建共病網絡,運用鏈路預測方法對潛在疾病組合進行預測,為疾病的病因、病理、治療等方面研究提供新的參考方向。研究不足之處在于:受鏈路預測算法限制,只能預測網絡中已有節(jié)點間的新鏈接,不能預測網絡中尚未出現的節(jié)點間的鏈接;受科研條件和專業(yè)知識的限制,僅能通過已發(fā)表的文獻解釋潛在疾病組合間產生關聯的可能途徑,未能通過一定實驗手段進行驗證。