喻 捷
(東華大學計算機科學與技術學院,上海201620)
隨著醫(yī)療大數(shù)據(jù)領域的迅速發(fā)展,很多用于處理藥物不良反應(drug adverse reaction,ADR)相關的電子病歷的醫(yī)院管理系統(tǒng)(Hospital Information System,HIS),自身識別電子病歷中所涵蓋的藥物不良反應術語的能力以及所使用的不良反應術語庫的全面性都無法與當前的需求相匹配,尤其是電子健康記錄(electronic health record,EHR)的發(fā)展,對于癥狀庫的深度與廣度提出了更高的要求。同時,如何從發(fā)現(xiàn)的不良反應術語,關聯(lián)到發(fā)現(xiàn)其所對應的疾病術語或更高層級的醫(yī)學術語,成為了學界亟待解決的問題。本文所研究的課題就是面向已有的藥物不良反應發(fā)現(xiàn)與呈報系統(tǒng),對多源異構數(shù)據(jù)源進行數(shù)據(jù)融合。區(qū)別于以往藥物不良反應發(fā)現(xiàn)與呈報系統(tǒng)所使用到的單一的不良反應術語集,研究中融合了多個具有代表性的醫(yī)學術語集,形成了層級的、多軸性的、更為全面的、按系統(tǒng)器官分類的癥狀庫。本文的研究內容強化了藥物不良反應發(fā)現(xiàn)與呈報系統(tǒng)的設計性能,使其具有從電子病歷涵蓋的不良反應信息中得到對應的疾病術語及醫(yī)學術語表示的能力,并可通過篩選得到不良反應所涉及的系統(tǒng)器官類別。
多源異構是大數(shù)據(jù)的基本特征之一,多源數(shù)據(jù)融合成為了大數(shù)據(jù)分析處理的關鍵環(huán)節(jié),多源數(shù)據(jù)融合也成為大數(shù)據(jù)領域重要的研究主題與熱點方向[1]。本文所涉及的多源異構數(shù)據(jù)融合通過對相同領域但不同結構的數(shù)據(jù)集的融合,提高數(shù)據(jù)集的完備性,并進一步挖掘數(shù)據(jù)的潛在價值。
數(shù)據(jù)融合按照一定準則綜合分析、處理來自多個數(shù)據(jù)源的信息,從而獲得比其各個組成部分都更為充分、準確的信息,在全面信息的基礎上進行相應決策與估計,進而得出更為精確、可靠的結論[2]。
數(shù)據(jù)融合算法是數(shù)據(jù)融合的核心部分。目前,多源數(shù)據(jù)融合領域廣泛運用的算法有基于D-S理論[3]、模糊集理論[4]、主題圖[5]和語義規(guī)則[6]的數(shù)據(jù)融合算法。
本文所研究的面向藥物不良反應發(fā)現(xiàn)與呈報系統(tǒng)的多源異構數(shù)據(jù)融合,融合的數(shù)據(jù)源分別為FAERS(FDA AdverseEventReportingSystem,F(xiàn)AERS)的數(shù)據(jù)集、國際疾病分類(International Classification of Diseases,ICD)以及醫(yī)學用語詞典(MedDRA)。融合的目的在于構建多軸性的醫(yī)學術語與疾病術語集合,并實現(xiàn)從不良反應術語到醫(yī)學術語或疾病術語的一個一對多的層級性映射關聯(lián)。這里將對此展開探討分述如下。
FAERS數(shù)據(jù)集來源于美國食品藥品監(jiān)督管理局(Food and Drug Administration)的藥物不良反應報告系統(tǒng),數(shù)據(jù)集包含的是用戶提交到FDA的藥物不良反應報告系統(tǒng)中的不良反應信息和用藥錯誤信息。這個數(shù)據(jù)庫是用來支持FDA的藥物和生物制品安全監(jiān)測系統(tǒng)的。本文所用到的FAERS數(shù)據(jù)集由FAERS數(shù)據(jù)庫中的數(shù)據(jù)去重篩選后翻譯得到,涵蓋不良反應術語8 000條左右。
國際疾病分類是依據(jù)疾病的某些特征,按照規(guī)則將疾病分門別類,并用編碼的方法來表示的系統(tǒng)。全世界通用的是第10次修訂本《疾病和有關健康問題的國際統(tǒng)計分類》,稱為ICD-10。ICD-10收入了疾病記錄近26 000多條,主要包括ICD-10編碼、手術碼、疾病名稱、拼音碼。
醫(yī)學用語詞典(MedDRA)是由人用藥物注冊技術要求國際協(xié)調會(ICH)主辦開發(fā)、在醫(yī)藥事務管理活動中使用的一套醫(yī)學標準術語[7]。該術語集可廣泛見于各種醫(yī)學數(shù)據(jù)的編碼、檢索和分析,如不良事件、適用癥與臨床檢查等場景。以本文用到的MedDRA 21.0版本為例,收錄了疾病記錄等118 000條左右,從上到下主要包括系統(tǒng)器官分類(System organ class,SOC)、位組語(High level group term,HLGT)、高位語(High level term,HLT)、首選語(Preferred term,PT)以及低位語(Lowest level term,LLT)這五層結構。
本文通過多源數(shù)據(jù)融合研發(fā)建立的以人體系統(tǒng)及器官分類的不良反應癥狀庫,包含有2層。第一層為醫(yī)學術語與疾病術語,第二層為不良反應術語。最終能夠實現(xiàn)通過提取的不良反應信息,匹配不良反應信息所對應的醫(yī)學術語與疾病術語,并得到涉及的人體系統(tǒng)及器官類。
在醫(yī)學上,醫(yī)學術語或癥狀術語很多都涉及人體的多個系統(tǒng)或器官,比如缺鐵性貧血就涉及到血液循環(huán)系統(tǒng)與內分泌系統(tǒng)。這種術語與系統(tǒng)或器官的一對多表示,更適合醫(yī)學研究的需要。因此,本次研究引入帶有多軸性的MedDRA數(shù)據(jù)集,參見表1,即MedDRA的低位語與系統(tǒng)器官分類存在一對多的關系,MedDRA中的醫(yī)學術語對應一個或多個系統(tǒng)器官分類[8]。
表1 缺鐵性貧血在MedDRA中的多軸性表示Tab.1 Multiaxial expression of iron deficiency anemia in MedDRA
此外,標準的不同,中西醫(yī)學的不同等都有可能導致同一種疾病有多個不同的疾病名稱。如西醫(yī)疾病學中的蛛網(wǎng)膜下腔出血與中醫(yī)中的腦中風表述的就是同一癥狀。為了豐富數(shù)據(jù)源中的疾病術語,避免出現(xiàn)同一種疾病的不同疾病名稱的缺失,研究中又引入了ICD-10數(shù)據(jù)集作為MedDRA數(shù)據(jù)集的補充,但是ICD-10卻不具有多軸性。對于ICD-10數(shù)據(jù)集,研究通過構建和MedDRA相同的多軸性表達方式,達到將MedDRA與ICD-10進行數(shù)據(jù)融合的目的。
本文所涉及的多源數(shù)據(jù)融合致力于構建從不良反應術語到醫(yī)學術語或疾病術語的一個一對多的層級性映射關聯(lián)。通過構建層級性關聯(lián),每一條不良反應術語都可以在疾病術語集或醫(yī)學用語集中找到對應的一種或多種表示。在層級性關聯(lián)中,每一條不良反應術語所涉及到的系統(tǒng)器官類別也可以表示為由其所對應的疾病術語或醫(yī)學用語所涉及的系統(tǒng)器官類別。
如FAERS中提取的不良反應信息為血壓升高,通過層級性融合,能夠匹配出高血壓心臟病、高血壓性腦病等疾病,也能夠匹配出撤退性高血壓、反彈性高血壓等醫(yī)學用語,并且得到可能涉及的人體系統(tǒng)器官。設計運行結果詳見表2。
表2 MedDRA、ICD-10及FAERS的比較Tab.2 Comparison of MedDRA,ICD-10 and FAERS
本文著眼于已有的不良反應發(fā)現(xiàn)系統(tǒng),通過進行多軸性、層級性的多源數(shù)據(jù)融合,在原有的提取電子病歷中的不良反應的基礎上,通過提取的不良反應術語,找到對應的疾病術語及醫(yī)學用語表示。同時,根據(jù)層級結構分析得到受不良反應影響的系統(tǒng)器官。在方法上,主要用到的是基于疾病術語特征提取的模式識別以及向量空間模型(Vector Space Model)。
本文所涉及的不良反應發(fā)現(xiàn)系統(tǒng)設計是在鄧劍雄等人[9]提出的基于HIS的藥品不良反應快速上報與智能搜索系統(tǒng)的基礎上,融入了多源數(shù)據(jù)融合帶來的不良反應到疾病術語與醫(yī)學用語的層級性映射關聯(lián),實現(xiàn)對HIS系統(tǒng)的不良反應相關疾病報告功能。研究得到的面向藥物不良反應發(fā)現(xiàn)與上報系統(tǒng)的系統(tǒng)結構如圖1所示。
圖1 面向藥物不良反應發(fā)現(xiàn)與上報系統(tǒng)的系統(tǒng)架構Fig.1 System architecture for adverse drug reaction discovery and reporting system
首先,對本文研究問題進行定義,用L1={M1,M2,M3,..,Mn} 來表示醫(yī)學用語數(shù)據(jù)集,用L2={S1,S2,S3,..,Sn} 來表示疾病術語數(shù)據(jù)集,用L3={A1,A2,A3,..,An} 來表示不良反應術語集,Label={lab1,lab2,lab3,..,labn} 表示系統(tǒng)或器官類別。 那么醫(yī)學用語集和疾病術語集中的每一條記錄都可以表示為<symptom,label>的形式。 對于Mi∈L1,Mi.label表示所屬的系統(tǒng)器官類別標簽,Mi.symptom表示醫(yī)學用語,同理也可以表示L2。此外,L1所具有的多軸性可以表示為對于Mi,Mj∈L1,i≠j,存在Mi.symptom=Mj.symptom且Mi.label≠Mj.label。 對于Si∈L2,研究嘗試通過實體鏈接的方式來繼承L1的多軸性。
本文通過對數(shù)據(jù)的預處理,構建了Label以及L1,L2,L3,其中對于Ai∈L3,Ai.Label為空且為集合類型,Ai.symptom為不良反應術語,同時Ai還包含Ai.set,用來存放層級性映射關聯(lián)中滿足條件的所有醫(yī)學用語或疾病術語,并將對應的系統(tǒng)器官標簽存入Label集合中。
圖2 不良反應在層級性映射關聯(lián)中的形式及Lab獲取Fig.2 The form of adverse reactions in hierarchical mapping correlation and Lab acquisition
本文的多軸性融合是為ICD-10引入多軸性表示,從而與MedDRA融合,其實質是基于ICD-10疾病術語中涵蓋的醫(yī)學特征詞語的模式識別。與常規(guī)的分類問題所不同的是,通常分類的特征選擇都是從原始特征中挑選出最有代表性、分類性能好的特征,而對ICD-10引入多軸性需要提取多個分類明顯的特征,對多個特征分別進行分類決策,最終可得對于ICD-10的每條疾病術語都屬于一個或多個系統(tǒng)器官類別的運行結果,具體即如圖3所示。
圖3 構建ICD-10疾病術語的多軸性表示Fig.3 Construction of multiaxial representation of ICD-10 disease terms
在特征的選擇上,常見的醫(yī)學術語特征有發(fā)病部位、病因、病理等。如鼻竇惡性腫瘤,按發(fā)病部位屬于耳鼻喉,按病理屬于惡性腫瘤。
本文的層級融合是構建以FAERS數(shù)據(jù)集為底層,多軸性融合后的MedDRA與ICD-10數(shù)據(jù)集為頂層的2層結構。研究通過構建詞向量空間,并以FAERS數(shù)據(jù)集為對象進行聚類,來完成層級性映射關聯(lián)。這里,設計給出的癥狀庫層級性映射關聯(lián)模型則如圖4所示。
圖4 癥狀庫層級性映射關聯(lián)模型Fig.4 Hierarchical mapping correlation model of symptom library
層級性關聯(lián)融合所涉及到的詞典庫包含了FAERS數(shù)據(jù)集的所有不良反應術語。因此,通過構建詞向量空間模型,F(xiàn)AERS數(shù)據(jù)集的不良反應術語都可以用MedDRA或ICD-10中的醫(yī)學用語或疾病術語的夾角余弦值表示。
向量空間模型把對文本內容的處理簡化為向量空間中的向量運算,并且是以空間上的相似度表達語義的相似度。對于MedDRA、ICD-10及FAERS數(shù)據(jù)集,研究擬將構建詞向量空間模型,再通過計算夾角余弦值來評估相似度。
研究選擇了Skip-gram模型作為生成數(shù)據(jù)源對應的詞向量的模型。Skip-gram是一種根據(jù)當前詞語來預測上下文的詞語模型。相對于根據(jù)上下文的詞語預測當前詞語出現(xiàn)的概率的模型,Skip-gram在理解低頻詞上有比較好的效果,這點在本文的課題研究中顯得尤為重要,很多在電子病歷中頻繁出現(xiàn)的不良反應術語在數(shù)據(jù)源中卻屬于低頻詞。Skip-gram的輸入層是一個詞向量,投影層直接將輸入層的詞向量傳遞給輸出層,整體的研發(fā)設計架構則如圖5所示。
圖5 Skip-gram模型Fig.5 Skip-gram model
本文是針對為醫(yī)院提供的藥物不良反應發(fā)現(xiàn)與呈報系統(tǒng),通過對系統(tǒng)的癥狀庫進行多源異構數(shù)據(jù)融合,形成了層級的按系統(tǒng)器官分類的癥狀庫,并且在對于癥狀庫的描述上更為全面,能夠反映出癥狀庫中的術語所涉及的多個系統(tǒng)器官類。本文雖然采用了神經(jīng)網(wǎng)絡語言模型中適宜于處理低頻詞的Skip-gram模型,但在低頻詞的層級性關聯(lián)上仍然有待于提高。