馬 浩,戴國琳,劉新遙,萬艷麗
(中國醫(yī)學(xué)科學(xué)院醫(yī)學(xué)信息研究所,北京 100020)
隨著我國醫(yī)療技術(shù)的發(fā)展和醫(yī)療領(lǐng)域信息化水平的提升,生物醫(yī)學(xué)文獻(xiàn)、電子病歷等大量的數(shù)據(jù)迅速產(chǎn)生,這給醫(yī)學(xué)的發(fā)展提供了重要的資源。如何合理、有效地利用海量醫(yī)學(xué)數(shù)據(jù)成為了一項(xiàng)重要的研究課題。知識(shí)圖譜最早是谷歌的一個(gè)知識(shí)庫,它使用語義檢索來提高谷歌搜索的質(zhì)量[1]。知識(shí)圖譜的基本組成是“實(shí)體-關(guān)系-實(shí)體”三元組和“實(shí)體-屬性-屬性值”對(duì),其具有強(qiáng)大的語義處理能力,能夠?qū)︶t(yī)學(xué)知識(shí)進(jìn)行合理的表示及利用,為醫(yī)學(xué)的發(fā)展提供有力支持。醫(yī)學(xué)知識(shí)圖譜也是知識(shí)圖譜應(yīng)用的重要領(lǐng)域之一,目前醫(yī)學(xué)領(lǐng)域經(jīng)典的醫(yī)學(xué)知識(shí)圖譜有北京大學(xué)、鄭州大學(xué)和鵬城實(shí)驗(yàn)室構(gòu)建的中文醫(yī)學(xué)知識(shí)圖譜[2]、上海曙光醫(yī)院構(gòu)建的中醫(yī)藥知識(shí)圖譜[3]、中國中醫(yī)科學(xué)院構(gòu)建的中醫(yī)臨床知識(shí)圖譜[4]、中醫(yī)養(yǎng)生知識(shí)圖譜[5]等。本文主要對(duì)醫(yī)學(xué)知識(shí)圖譜的自動(dòng)構(gòu)建情況進(jìn)行總結(jié),以期為醫(yī)學(xué)知識(shí)圖譜的構(gòu)建及應(yīng)用提供借鑒。
構(gòu)建醫(yī)學(xué)知識(shí)圖譜首先需要從非結(jié)構(gòu)化、半結(jié)構(gòu)化的數(shù)據(jù)源中,通過知識(shí)抽取和知識(shí)融合技術(shù)得到結(jié)構(gòu)化的知識(shí)并將其存儲(chǔ)于數(shù)據(jù)庫中,形成的醫(yī)學(xué)知識(shí)圖譜可以支持構(gòu)建醫(yī)療語義搜索引擎、醫(yī)療問答系統(tǒng)和醫(yī)療決策支持系統(tǒng),具體構(gòu)建流程見圖1。
圖1 醫(yī)學(xué)知識(shí)圖譜構(gòu)建流程
1.1 命名實(shí)體識(shí)別 命名實(shí)體識(shí)別的概念在1996 年的MUC-6 會(huì)議上被提出,當(dāng)時(shí)用來識(shí)別文本中的人名、機(jī)構(gòu)名和地理位置[6]。在醫(yī)學(xué)領(lǐng)域中,命名實(shí)體主要包括疾病名、藥物名等。命名實(shí)體識(shí)別早期一般采用基于規(guī)則和詞典的方法,此種方法可以取得較高的準(zhǔn)確率,但召回率較低,規(guī)則構(gòu)建的難度較大,遷移性較差。機(jī)器學(xué)習(xí)的方法一般把命名實(shí)體識(shí)別看作是序列標(biāo)注任務(wù),常用的模型有支持向量機(jī)(support vector machine,SVM)[7]、條件隨機(jī)場(chǎng)(conditional random field,CRF)[8]等。機(jī)器學(xué)習(xí)的方法需要手工構(gòu)建特征,構(gòu)建過程費(fèi)時(shí)費(fèi)力,且這些特征往往不能擴(kuò)展到其他任務(wù)。
深度學(xué)習(xí)的方法可以自動(dòng)提取有效特征,不需要人工干預(yù),很好的節(jié)省人力。目前在命名實(shí)體識(shí)別任務(wù)中最經(jīng)典的深度學(xué)習(xí)方法是BiLSTM-CRF模型[9]。該模型的輸入為經(jīng)過預(yù)訓(xùn)練得到的詞向量,通過前向和后向的LSTM 層提取特征,最后經(jīng)過CRF 層得到標(biāo)簽序列。但是該模型也有一些缺陷,比如BiLSTM-CRF 模型不能利用全局的上下文信息。對(duì)此,曾青霞等[10]在模型中加入注意力機(jī)制,在CCKS2018 和CoNLL 數(shù)據(jù)集中進(jìn)行了實(shí)驗(yàn),發(fā)現(xiàn)加入了注意力機(jī)制后模型的準(zhǔn)確率有所提高。此外,深度學(xué)習(xí)的方法需要大規(guī)模的標(biāo)注數(shù)據(jù),在數(shù)據(jù)規(guī)模較小的情況下表現(xiàn)不佳。陳美杉等[11]提出了一種KNN-BERT-BiLSTM-CRF 模型,通過遷移學(xué)習(xí)的方法對(duì)肝癌患者提問的文本進(jìn)行命名實(shí)體識(shí)別,發(fā)現(xiàn)該方法取得了較高的F1 值,并且只需要少量的標(biāo)注語料。
1.2 關(guān)系抽取 實(shí)體關(guān)系抽取任務(wù)在1998 年的MUC-7[12]會(huì)議上第1 次被提出,該會(huì)議給出了3 種關(guān)系模板:Location_of、Employee_of 和Product_of。在醫(yī)學(xué)領(lǐng)域的關(guān)系主要有疾病導(dǎo)致癥狀、檢查證實(shí)疾病等。關(guān)系抽取的方法早期有基于共現(xiàn)和基于規(guī)則的方法?;诠铂F(xiàn)的方法比較簡單,召回率高,但精確度較低?;谝?guī)則的方法準(zhǔn)確率較高,但召回率較低,可移植性差。基于機(jī)器學(xué)習(xí)的方法可以分為有監(jiān)督、半監(jiān)督和無監(jiān)督的方法。有監(jiān)督的方法具有較高的準(zhǔn)確率,但是依賴于有標(biāo)注的語料庫,半監(jiān)督和無監(jiān)督的方法可以減少對(duì)人工標(biāo)注數(shù)據(jù)的依賴。
基于深度學(xué)習(xí)的方法也可以進(jìn)行醫(yī)學(xué)實(shí)體間的關(guān)系抽取。張志昌等[13]使用雙向的GRU 聯(lián)合注意力機(jī)制進(jìn)行中文電子病歷中的關(guān)系抽取。丁龍[14]提出一種基于注意力機(jī)制的BiGRU-CNN 模型進(jìn)行電子病歷中的關(guān)系抽取,與其他模型相比,該方法取得了最高的F1 值。李青青等[15]提出了一種基于Attention機(jī)制的主輔多任務(wù)模型抽取生物醫(yī)學(xué)實(shí)體間的關(guān)系,該方法能夠利用多個(gè)任務(wù)之間的相關(guān)信息,提升生物醫(yī)學(xué)關(guān)系抽取的效果。
以上方法都是流水線的方法,即先抽取實(shí)體再抽取實(shí)體之間的關(guān)系,這種方法會(huì)存在錯(cuò)誤傳播的問題,并且無法充分利用兩個(gè)任務(wù)之間的相關(guān)信息。牧楊子[16]使用BiLSTM 模型進(jìn)行中文電子病歷的實(shí)體關(guān)系聯(lián)合抽取,較好的完成了實(shí)體關(guān)系聯(lián)合抽取任務(wù)。羅凌[17]提出一種新的標(biāo)注策略來提取生物醫(yī)學(xué)文本中的重疊關(guān)系,使用Att-BiLSTM-CRF 模型對(duì)實(shí)體關(guān)系進(jìn)行聯(lián)合抽取,取得了優(yōu)于流水線方法的結(jié)果。周侗[18]使用圖卷積網(wǎng)絡(luò)聯(lián)合實(shí)體識(shí)別任務(wù)和關(guān)系抽取任務(wù),進(jìn)行中文電子病歷的實(shí)體關(guān)系聯(lián)合抽取,取得了很好的效果。
1.3 實(shí)體對(duì)齊 在醫(yī)學(xué)知識(shí)圖譜的構(gòu)建過程中,醫(yī)學(xué)實(shí)體“多詞一義”的情況十分普遍,比如“帕金森癥”還可表述為“帕金森障礙”“帕金森綜合征”“PD”等。通過實(shí)體對(duì)齊工作可以對(duì)這些冗余的知識(shí)整合加工,提高知識(shí)的質(zhì)量。實(shí)體對(duì)齊也可稱為共指消解,其目標(biāo)是發(fā)現(xiàn)多個(gè)知識(shí)庫中指代現(xiàn)實(shí)世界中同一事物的實(shí)體,并將它們進(jìn)行鏈接,從而可以進(jìn)行多源知識(shí)的融合[19]。實(shí)體對(duì)齊可以通過基于屬性相似度的成對(duì)實(shí)體對(duì)齊和考慮了實(shí)體間關(guān)系的集體實(shí)體對(duì)齊來實(shí)現(xiàn)。成對(duì)實(shí)體對(duì)齊常用方法有基于傳統(tǒng)概率模型的方法和基于機(jī)器學(xué)習(xí)的方法等。集體實(shí)體對(duì)齊常用的方法有基于向量空間模型的方法、基于條件隨機(jī)場(chǎng)模型的方法、基于相似性傳播的方法等。
目前,基于知識(shí)表示學(xué)習(xí)的實(shí)體對(duì)齊方法是研究的熱點(diǎn)。這種方法可以充分利用知識(shí)圖譜中潛在的語義關(guān)系,有助于提高實(shí)體對(duì)齊的效果,具體的有基于翻譯模型[20]的方法和基于圖卷積神經(jīng)網(wǎng)絡(luò)[21]的方法。在醫(yī)學(xué)領(lǐng)域,孫倩南[22]使用TransE 算法對(duì)實(shí)體和關(guān)系進(jìn)行嵌入,對(duì)不同數(shù)據(jù)源的呼吸科室醫(yī)療數(shù)據(jù)進(jìn)行了實(shí)體對(duì)齊工作。滕飛等[23]在表示學(xué)習(xí)的基礎(chǔ)上,根據(jù)醫(yī)學(xué)知識(shí)的特點(diǎn),加入詞根集和規(guī)則用于醫(yī)學(xué)實(shí)體對(duì)齊任務(wù),提高了實(shí)體對(duì)齊的準(zhǔn)確性。程瑞[24]通過圖卷積網(wǎng)絡(luò)對(duì)醫(yī)療知識(shí)圖譜中的關(guān)系信息和結(jié)構(gòu)信息進(jìn)行建模,使用TransE 對(duì)屬性信息進(jìn)行建模,最終將兩者融合進(jìn)行實(shí)體對(duì)齊,在DBP15K數(shù)據(jù)集上取得了較好的效果。
醫(yī)學(xué)知識(shí)圖譜能夠?qū)︶t(yī)學(xué)知識(shí)進(jìn)行結(jié)構(gòu)化表示并在此基礎(chǔ)上進(jìn)行查詢與推理,目前主要應(yīng)用于醫(yī)療語義搜索引擎、醫(yī)療問答系統(tǒng)、醫(yī)療決策支持系統(tǒng)等。
2.1 醫(yī)療語義搜索引擎 基于醫(yī)學(xué)知識(shí)圖譜的醫(yī)療語義搜索引擎可以準(zhǔn)確地理解用戶的搜索意圖,提高用戶的搜索體驗(yàn),幫助用戶快速找到自己感興趣的內(nèi)容。當(dāng)用戶進(jìn)行查詢時(shí),語義搜索引擎可以將用戶查詢的關(guān)鍵詞映射到醫(yī)學(xué)知識(shí)圖譜中的概念之上,根據(jù)醫(yī)學(xué)知識(shí)圖譜中的概念層次結(jié)構(gòu)進(jìn)行推理,通過知識(shí)卡片的形式向用戶返回相關(guān)的知識(shí)。目前谷歌、百度等搜索引擎都已經(jīng)將知識(shí)圖譜嵌入了搜索引擎。谷歌可以提供約400 種健康狀況的信息,當(dāng)用戶搜索疾病信息時(shí),它可以通過信息卡片的形式展示疾病的特征。百度構(gòu)建的知識(shí)圖譜“知心”,可以用于支持用戶對(duì)于醫(yī)療信息的搜索。受限于醫(yī)學(xué)知識(shí)圖譜的規(guī)模和質(zhì)量,目前基于知識(shí)圖譜的醫(yī)療語義搜索引擎的應(yīng)用范圍和效果仍有待進(jìn)一步提高。
2.2 醫(yī)療問答系統(tǒng) 醫(yī)療問答系統(tǒng)是搜索系統(tǒng)的一種高級(jí)形式,可以通過自然語言來準(zhǔn)確地回答用戶的問題。對(duì)于用戶提出的問題,基于知識(shí)圖譜的醫(yī)療問答系統(tǒng)首先通過命名實(shí)體識(shí)別、關(guān)系抽取等自然語言處理技術(shù)對(duì)用戶的問句進(jìn)行語義解析,理解用戶的問題,然后生成知識(shí)圖譜的查詢語句在知識(shí)圖譜中進(jìn)行查詢,最后向用戶返回答案。目前醫(yī)療問答系統(tǒng)的產(chǎn)品如北京慧醫(yī)明智科技有限公司的“慧醫(yī)大白”還有國外的“沃森醫(yī)生”都可以提供基于醫(yī)學(xué)知識(shí)圖譜的醫(yī)療問答。也有不少研究者對(duì)醫(yī)療問答系統(tǒng)的構(gòu)建進(jìn)行了探索,如康莉[25]基于構(gòu)建的心血管病知識(shí)圖譜,采用深度學(xué)習(xí)的方法進(jìn)行語義解析,最終實(shí)現(xiàn)了心血管疾病知識(shí)的問答系統(tǒng)。曹明宇等[26]構(gòu)建了原發(fā)性肝癌的知識(shí)圖譜,并基于此構(gòu)建了原發(fā)性肝癌知識(shí)問答系統(tǒng),可以對(duì)肝細(xì)胞癌相關(guān)問題進(jìn)行回答。但是目前仍沒有較為成熟的醫(yī)療問答系統(tǒng)出現(xiàn),知識(shí)圖譜的完整性、系統(tǒng)理解用戶問題的準(zhǔn)確性、推理的準(zhǔn)確性及系統(tǒng)能回答問題的復(fù)雜性等方面都有待提高。
2.3 醫(yī)療決策支持系統(tǒng) 基于醫(yī)療知識(shí)圖譜,可以構(gòu)建醫(yī)療決策支持系統(tǒng)進(jìn)行自動(dòng)診斷,根據(jù)癥狀和化驗(yàn)結(jié)果給出診斷和治療方案,幫助醫(yī)生減少誤診的發(fā)生,提高醫(yī)療工作的質(zhì)量?;卺t(yī)學(xué)知識(shí)圖譜的醫(yī)療決策支持系統(tǒng)主要通過推理引擎來完成決策支持過程。當(dāng)用戶輸入癥狀和檢查結(jié)果,推理引擎根據(jù)知識(shí)圖譜和用戶的輸入給出診斷結(jié)果或接下來的治療方案。目前百度的“靈醫(yī)”、阿里巴巴的“Doctor You”、騰訊的“覓影”,都可以為醫(yī)生提供臨床決策支持服務(wù)。國外的“沃森醫(yī)生”可以提供針對(duì)腫瘤疾病的決策支持,目前已經(jīng)在部分醫(yī)院得到應(yīng)用。Gong F 等[27]利用知識(shí)圖譜實(shí)現(xiàn)了對(duì)患者的用藥推薦并取得了良好的效果。鄭少宇等[28]基于醫(yī)學(xué)教材、診療指南等知識(shí)源構(gòu)建了常見病的知識(shí)圖譜,基于此開發(fā)了對(duì)于常見病的診斷輔助系統(tǒng),可以在主要臨床環(huán)節(jié)有效地進(jìn)行決策輔助。目前醫(yī)療決策支持系統(tǒng)一般只能對(duì)醫(yī)療決策提供輔助,其提供決策的準(zhǔn)確性還有待加強(qiáng)。
知識(shí)圖譜已成為當(dāng)前研究的熱點(diǎn),但由于醫(yī)療大數(shù)據(jù)具有專業(yè)性強(qiáng),結(jié)構(gòu)復(fù)雜等特點(diǎn),醫(yī)學(xué)知識(shí)圖譜的自動(dòng)構(gòu)建和應(yīng)用依然面臨很大的挑戰(zhàn)。在醫(yī)學(xué)知識(shí)抽取環(huán)節(jié),抽取算法的準(zhǔn)確率普遍不高,限制條件較多,可擴(kuò)展性不強(qiáng)。醫(yī)學(xué)實(shí)體對(duì)齊算法的計(jì)算復(fù)雜度較高,實(shí)體對(duì)齊方法缺乏訓(xùn)練數(shù)據(jù),多語言的實(shí)體對(duì)齊也較為困難。在醫(yī)學(xué)知識(shí)應(yīng)用方面,由于現(xiàn)有醫(yī)學(xué)知識(shí)推理能力的限制,醫(yī)療決策支持系統(tǒng)的準(zhǔn)確性暫時(shí)還不能滿足臨床輔助決策要求。
總之,醫(yī)學(xué)知識(shí)圖譜能夠促進(jìn)醫(yī)學(xué)數(shù)據(jù)的有效利用,進(jìn)而促進(jìn)醫(yī)學(xué)的發(fā)展。我國醫(yī)療信息化水平的發(fā)展及海量醫(yī)學(xué)數(shù)據(jù)的產(chǎn)生為醫(yī)學(xué)知識(shí)圖譜的發(fā)展提供了契機(jī)。相信在不久的將來,隨著醫(yī)學(xué)知識(shí)圖譜構(gòu)建的發(fā)展,其將在醫(yī)療領(lǐng)域發(fā)揮更大的作用。