張坤麗,任曉輝,莊 雷,昝紅英,張維聰,穗志方
(1. 鄭州大學(xué) 計(jì)算機(jī)與人工智能學(xué)院,河南 鄭州 450001;2. 北京大學(xué) 計(jì)算語言學(xué)教育部重點(diǎn)實(shí)驗(yàn)室,北京 100871;3. 鵬城實(shí)驗(yàn)室,廣東 深圳 518052)
隨著醫(yī)藥技術(shù)的快速發(fā)展,各類新藥不斷上市并進(jìn)入醫(yī)院藥房,使臨床醫(yī)師掌握所有藥品的用法用量、不良反應(yīng)、禁忌癥等信息具有一定的難度[1]。且新藥存在名稱繁多、用法復(fù)雜等情況,對(duì)臨床用藥的安全性和有效性具有較大的挑戰(zhàn)[2]。與此同時(shí),醫(yī)藥學(xué)數(shù)據(jù)具有質(zhì)量控制困難、內(nèi)涵豐富等特點(diǎn),因此面對(duì)海量的醫(yī)藥學(xué)數(shù)據(jù),亟需構(gòu)建醫(yī)藥學(xué)知識(shí)庫(kù),高效準(zhǔn)確地發(fā)現(xiàn)知識(shí),為醫(yī)學(xué)方面的研究和臨床決策提供充分可靠的依據(jù),最終實(shí)現(xiàn)精準(zhǔn)預(yù)防、精準(zhǔn)診斷和精準(zhǔn)治療的目標(biāo)[3]。
近年來許多學(xué)者在醫(yī)學(xué)知識(shí)庫(kù)的構(gòu)建方面進(jìn)行了研究,如解放軍醫(yī)學(xué)圖書館與重慶維普咨詢有限公司合作研發(fā)了一個(gè)主要面向臨床醫(yī)藥學(xué)專業(yè)人士的中國(guó)疾病知識(shí)總庫(kù)(China Disease Knowledge Total Database, CDD)[4],由疾病庫(kù)、藥品庫(kù)、輔助檢查庫(kù)和循證醫(yī)學(xué)庫(kù)4個(gè)知識(shí)庫(kù)組成。侯麗等[5]構(gòu)建了基于本體的臨床醫(yī)學(xué)知識(shí)庫(kù),其中包含疾病庫(kù)、藥物庫(kù)、檢查庫(kù)3大醫(yī)學(xué)知識(shí)庫(kù)。除了構(gòu)建的各種綜合知識(shí)庫(kù)外還有各類??茖2〉乃幤分R(shí)庫(kù),如葛彩霞等[6]建立了一個(gè)藥物與不良反應(yīng)對(duì)應(yīng)關(guān)系的知識(shí)庫(kù),為藥物不良反應(yīng)的監(jiān)測(cè)以及藥物不良反應(yīng)研究提供一個(gè)在線資源。徐帆等[7]構(gòu)建了藥品屬性分類知識(shí)庫(kù),為實(shí)踐數(shù)據(jù)驅(qū)動(dòng)的藥事管理模式提供參考。張麗等[8]構(gòu)建了消化系統(tǒng)用藥知識(shí)庫(kù),利用該知識(shí)庫(kù),可為醫(yī)師在確定用藥方案時(shí)提供用藥前攔截、用藥中警示、用藥后提示等信息。除此之外,目前也出現(xiàn)了眾多的主流醫(yī)學(xué)綜合網(wǎng)站,如丁香園(1)丁香園網(wǎng)址:http://www.dxy.cn/是中國(guó)最大的面向醫(yī)生、醫(yī)療機(jī)構(gòu)、醫(yī)藥從業(yè)者的專業(yè)性社會(huì)化網(wǎng)絡(luò)[9],其中收錄了數(shù)千種藥品說明書。MENET(2)MENET網(wǎng)址:http://www.menet.com.cn/作為醫(yī)藥健康信息領(lǐng)先平臺(tái),其中包括醫(yī)保藥品、參比藥物及上市藥品和低價(jià)藥品等。
雖然目前國(guó)內(nèi)的醫(yī)藥學(xué)資源很多,但是分析后發(fā)現(xiàn),面向?qū)?茖2〉乃幤分R(shí)庫(kù)包含的藥品知識(shí)存在一定的局限性,無法有效地了解多方面的藥品信息,而醫(yī)學(xué)綜合知識(shí)庫(kù)中的藥品庫(kù)雖然包含各種藥品信息,但是各自具有獨(dú)特的知識(shí)表示方式,例如藥品的分類體系和描述體系就各有不同。不同的醫(yī)藥資源在藥品數(shù)量、藥品知識(shí)描述中的藥品屬性、詳細(xì)程度等方面都存在差異性,并且其中的藥品知識(shí)多為非結(jié)構(gòu)化描述,沒有直接將藥品與疾病、癥狀等建立結(jié)構(gòu)化關(guān)聯(lián),不便于臨床應(yīng)用時(shí)快速準(zhǔn)確地對(duì)癥治療,而且難以與現(xiàn)有的知識(shí)圖譜及資源建立聯(lián)系。例如利用自然語言處理與文本挖掘技術(shù)研發(fā)的中文醫(yī)學(xué)知識(shí)圖譜 (Chinese Medical Knowledge Graph,CMeKG),CMeKG的構(gòu)建參考ICD[10]、SNOMED-CT[11-12]、MeSH[13]等權(quán)威的國(guó)際醫(yī)學(xué)標(biāo)準(zhǔn)以及規(guī)模龐大、多源異構(gòu)的臨床指南等醫(yī)學(xué)文本信息[14],其中包含1萬多種疾病、近兩萬種藥物、1萬多個(gè)癥狀的結(jié)構(gòu)化知識(shí)描述,缺點(diǎn)是非結(jié)構(gòu)化的藥品知識(shí)無法與CMeKG直接建立結(jié)構(gòu)化連接。
藥品的詳細(xì)信息對(duì)于輔助臨床醫(yī)生合理用藥、提高醫(yī)療質(zhì)量[14]等至關(guān)重要,在一定時(shí)間內(nèi)高效地了解多種藥品的詳細(xì)信息對(duì)于提高臨床決策的效率等也尤為重要,因此信息完整的藥品庫(kù)可為臨床醫(yī)生、護(hù)士在處理醫(yī)囑,合理選擇、使用藥物方面提供及時(shí)的服務(wù)[15],本文以有效輔助臨床應(yīng)用,提高臨床決策效率為目的構(gòu)建了多來源的中文藥品知識(shí)庫(kù)(Chinese Medicine Knowledge Base,CMKB),其中針對(duì)藥品知識(shí)和表示方式的差異性,構(gòu)建了滿足多來源情況的知識(shí)描述體系和分類體系。CMKB的構(gòu)建過程可以分為模式層構(gòu)建、數(shù)據(jù)層構(gòu)建和建立藥品與多實(shí)體間知識(shí)關(guān)聯(lián)三個(gè)部分。
模式層構(gòu)建主要分為兩步(圖1),第一步是進(jìn)行知識(shí)描述體系構(gòu)建,第二步是進(jìn)行分類知識(shí)體系構(gòu)建,即通過分析多來源的數(shù)據(jù)形成CMKB的概念架構(gòu)。數(shù)據(jù)層則是在自動(dòng)清洗和篩選后所形成的具體藥品信息基礎(chǔ)上,對(duì)非結(jié)構(gòu)的藥品知識(shí)描述采用深度學(xué)習(xí)的方法自動(dòng)抽取疾病、癥狀等實(shí)體,構(gòu)建了藥品與多種實(shí)體之間的結(jié)構(gòu)化知識(shí)關(guān)聯(lián)。
圖1 CMKB的構(gòu)建過程示意圖
多來源藥品知識(shí)的描述體系有較大的差異,因此為了使藥品庫(kù)中的知識(shí)描述更加規(guī)范化,本文通過對(duì)多來源數(shù)據(jù)結(jié)構(gòu)的分析,建立了CMKB的知識(shí)描述體系。本文選擇CDD、丁香園以及MCDEX中國(guó)醫(yī)師藥師臨床用藥指南的藥品數(shù)據(jù)作為參考來建立CMKB的知識(shí)描述體系。其中,MCDEX中國(guó)醫(yī)師藥師臨床用藥指南(簡(jiǎn)稱MCDEX)是由衛(wèi)生部合理用藥專家委員會(huì)組織編寫的臨床用藥參考書,包括國(guó)家基本藥物、臨床常用藥物、國(guó)內(nèi)外新上市藥物等[16]。
藥品的知識(shí)描述體系可由藥品的適應(yīng)證、用法用量及禁忌癥等多種藥品屬性構(gòu)成。不同的數(shù)據(jù)來源都根據(jù)藥品屬性對(duì)藥品進(jìn)行了知識(shí)描述。表1是統(tǒng)計(jì)三個(gè)來源中的藥品屬性得到的結(jié)果。
表1 不同來源的藥品屬性
由表1可以看出,不同來源依據(jù)不同的屬性對(duì)藥品進(jìn)行知識(shí)描述,但是在醫(yī)療活動(dòng)中,疾病的種類繁多,一種疾病具有多種癥狀,且針對(duì)疾病的不同癥狀可能采用不同的用藥方案,所以藥品知識(shí)庫(kù)需要涵蓋針對(duì)病情合理用藥時(shí)所必須了解的所有基本的藥品屬性。以“鹽酸萘甲唑啉滴鼻液”為例展示CMKB最終確立的藥品描述體系中的藥品屬性及相應(yīng)的樣例,如表2所示。
表2 “鹽酸萘甲唑啉滴鼻液”為例的藥品屬性知識(shí)描述介紹
在構(gòu)建了知識(shí)描述體系后,此時(shí)的各種藥品仍處于散亂分布狀態(tài),不便于臨床高效查詢,因此需要構(gòu)建一個(gè)標(biāo)準(zhǔn)的分類體系對(duì)藥品進(jìn)行整理。
分析CDD、丁香園、MCDEX以及MENET 4個(gè)來源的藥品分類情況后發(fā)現(xiàn),不同藥品資源庫(kù)的藥品分類情況各有不同,并且不同的一級(jí)類別數(shù)遠(yuǎn)多于相同的一級(jí)類別數(shù)。
本文期望建立一個(gè)不僅能夠涵蓋多種藥品分類情況,并且具有普遍認(rèn)可度的分類體系。因此將各級(jí)醫(yī)療衛(wèi)生機(jī)構(gòu)配備使用藥品依據(jù)的國(guó)家基本藥物目錄(2018年版)的分類標(biāo)準(zhǔn)與多個(gè)來源的藥品分類情況進(jìn)行分析后發(fā)現(xiàn),國(guó)家基本藥物目錄中的分類標(biāo)準(zhǔn)雖然具有高度認(rèn)可性,并且最多地涵蓋多個(gè)來源的藥品分類,但是仍然存在一些不在分類標(biāo)準(zhǔn)中的藥品分類情況。
因此,本文構(gòu)建的CMKB將國(guó)家基本藥物目錄的分類標(biāo)準(zhǔn)作為基本的分類框架,將4個(gè)來源的分類體系作為參考進(jìn)行一定的調(diào)整,形成能適應(yīng)多來源藥品分類情況的藥品分類體系。最終采用的分類體系總共包含了27種一級(jí)類別和119種二級(jí)類別。表3中列舉了CMKB分類體系中的一級(jí)類別及其包含的二級(jí)類別數(shù)和二級(jí)類別樣例。
表3 CMKB的中文藥品知識(shí)庫(kù)的分類體系
在分析數(shù)據(jù)構(gòu)建了CMKB的模式層后,接下來就是進(jìn)行數(shù)據(jù)層的構(gòu)建,主要工作分為藥品數(shù)據(jù)收集與處理、藥品分類并完善藥品信息,下面將具體進(jìn)行介紹。
本文收集了CDD、丁香園和MCDEX中的藥品數(shù)據(jù),依據(jù)已經(jīng)建立的藥品知識(shí)描述體系,從中抽取出所有藥品的7種屬性信息,包括藥品的適應(yīng)證、禁忌癥等。
由于藥品數(shù)據(jù)是多來源的,所以需要對(duì)收集到的藥品數(shù)據(jù)進(jìn)行處理。但是此時(shí)的數(shù)據(jù)存在以下問題:
(1) 本文構(gòu)建的CMKB針對(duì)的是化學(xué)藥品,但是收集的藥品數(shù)據(jù)中存在混入的中成藥或者民族藥。
(2) 對(duì)于相同的藥品,屬性數(shù)據(jù)中存在以下問題: ①個(gè)別符號(hào)差異,造成數(shù)據(jù)重復(fù); ②知識(shí)描述上存在文字差異,造成內(nèi)容相似度很高; ③知識(shí)描述差異較大。
(3) 不同來源的藥品名稱存在形式不同的情況,有的將“化學(xué)成分”作為藥品名稱,例如“氨芐西林”,有的則將“化學(xué)成分+劑型”作為藥品名稱,例如“氨芐西林膠囊”。
針對(duì)以上問題,第一步是進(jìn)行數(shù)據(jù)清洗。依據(jù)多個(gè)醫(yī)藥資源中的“中成藥”和“民族藥”對(duì)收集的數(shù)據(jù)進(jìn)行清洗,確保藥品歸屬于“化學(xué)藥品”的準(zhǔn)確性。然后清洗所有由于符號(hào)差異生成的重復(fù)數(shù)據(jù)。
第二步要對(duì)剩余的藥品數(shù)據(jù),進(jìn)行數(shù)據(jù)篩選。首先根據(jù)數(shù)據(jù)相似性進(jìn)行篩選,依據(jù)最長(zhǎng)字符序列匹配算法對(duì)每一種藥品篩選出相似度在80%以上的數(shù)據(jù),并在差異較大的數(shù)據(jù)之間選取字符串最長(zhǎng)的數(shù)據(jù)作為保留的藥品知識(shí)描述。之后針對(duì)藥品名稱形式不同的問題,本文暫時(shí)忽略它們之間的從屬關(guān)系,將相應(yīng)的藥品數(shù)據(jù)都保留下來。
數(shù)據(jù)經(jīng)過處理后,接下來就要開始進(jìn)行數(shù)據(jù)層的具體構(gòu)建工作,主要分為兩步。第一步,根據(jù)分類體系對(duì)多來源的藥品知識(shí)進(jìn)行整理,其中針對(duì)不同的類別問題采用的處理方法如下:
(1) 所有藥品首先依據(jù)國(guó)家基本藥物目錄的藥品分類情況進(jìn)行規(guī)整。由于基本藥物目錄中的藥品名稱均以化學(xué)成分的形式列舉,因此對(duì)于其他來源中化學(xué)成分+劑型的藥品,依據(jù)字符串匹配的方法進(jìn)行藥品名稱的匹配,例如,“阿莫西林”匹配出“阿莫西林顆?!焙汀鞍⒛髁制钡?,最終都以國(guó)家基本藥物目錄中的分類“青霉素類”為準(zhǔn)。
(2) 不同來源的藥品分類存在差異性,因此對(duì)相同藥品進(jìn)行分類名稱的字符串相似度匹配。將相似性高的分類名稱以已整理的藥品分類為準(zhǔn),若差別較大,例如,“頭孢地尼片”在丁香園中的分類為“胃腸解痙藥及胃動(dòng)力藥”,但在MENET中分類為“全身用抗細(xì)菌藥”??紤]到藥品的多種療效,所以也保留了差異較大的分類情況。
(3) 當(dāng)藥品數(shù)據(jù)無法確定具體的所屬分類時(shí),首先查看是否有正確的二級(jí)類別,若無,再根據(jù)相關(guān)的一級(jí)分類進(jìn)行規(guī)整。其中由于兒科用藥的特殊性,本文將所有兒科藥品均以兒科的一級(jí)類別為先。
(4) 對(duì)于最后剩余的藥品數(shù)據(jù)均歸類在一級(jí)類別“其他藥品”中,例如,“治療肥胖癥用藥”“運(yùn)動(dòng)系統(tǒng)用藥”等。
第二步為完成分類后的藥品添加處理后的知識(shí)描述,形成初步的中文藥品知識(shí)庫(kù),此時(shí)藥品庫(kù)中的數(shù)據(jù)以<藥品名稱-藥品屬性-藥品知識(shí)描述>的三元組形式呈現(xiàn),例如:<唑尼沙胺片-禁忌癥-已知對(duì)鹽酸氨溴索或其他配方成份過敏者不宜使用>,總計(jì)81 157條藥品的三元組信息。
目前初步構(gòu)建的藥品知識(shí)庫(kù)中的知識(shí)描述雖然便于醫(yī)生全面并且詳細(xì)地了解藥品信息,合理使用藥物,但是臨床決策的高效性同樣重要。因此,為了便于臨床應(yīng)用,下一步就要考慮CMKB如何在臨床應(yīng)用中更加高效準(zhǔn)確地輔助醫(yī)生針對(duì)具體的病情合理用藥,在使用藥物方面提供及時(shí)的服務(wù)。此時(shí)藥品知識(shí)庫(kù)中的藥品信息大多是非結(jié)構(gòu)化的知識(shí)描述,無法根據(jù)病人具體的疾病、癥狀快速有效地選擇合適的藥品進(jìn)行對(duì)癥治療,并且醫(yī)生在選擇藥品時(shí)也需要及時(shí)考慮與其他藥品的相互影響,避免嚴(yán)重副作用的產(chǎn)生,因此建立起藥品與疾病等其他實(shí)體之間結(jié)構(gòu)化的知識(shí)關(guān)聯(lián)顯得尤為重要。
在分析藥品的多個(gè)屬性后發(fā)現(xiàn),適應(yīng)證、禁忌癥和不良反應(yīng)的藥品知識(shí)描述中包含的疾病、癥狀信息最多,即在這些知識(shí)中藥品與疾病、癥狀之間的結(jié)構(gòu)化關(guān)聯(lián)最為密切。同時(shí)發(fā)現(xiàn)在藥物相互作用中存在藥品與藥品之間的影響作用,可形成藥品間的結(jié)構(gòu)化關(guān)聯(lián)。因此本文選擇采用這4種屬性知識(shí)來進(jìn)行藥品與多種實(shí)體間知識(shí)關(guān)聯(lián)的建立,可構(gòu)建的以藥品為中心的三種知識(shí)關(guān)聯(lián)具體如下:
(1)藥品-疾病的知識(shí)關(guān)聯(lián)例如,“左氧氟沙星注射液”的適應(yīng)證的知識(shí)描述:本品適用于敏感細(xì)菌所引起的急性支氣管炎、彌漫性細(xì)支氣管炎等,可形成三元組知識(shí)關(guān)聯(lián)<左氧氟沙星注射液-適應(yīng)證-急性支氣管炎|彌漫性細(xì)支氣管炎[疾病]>。
(2)藥品-癥狀的知識(shí)關(guān)聯(lián)例如,“左氧氟沙星注射液”的不良反應(yīng)的知識(shí)描述:用藥期間可能出現(xiàn)惡心、嘔吐、腹部不適等癥狀,可形成藥品與癥狀之間的三元組知識(shí)關(guān)聯(lián)<左氧氟沙星注射液-不良反應(yīng)-惡心|嘔吐|腹部不適[癥狀]>。
(3)藥品-藥品的知識(shí)關(guān)聯(lián)例如,“鹽酸左氧氟沙星注射液”的藥物相互作用的知識(shí)描述:聯(lián)合應(yīng)用喹諾酮類抗生素和抗糖尿病藥物的患者可能出現(xiàn)血糖紊亂,可形成藥品與藥品之間的三元組知識(shí)關(guān)聯(lián)<鹽酸左氧氟沙星注射液-藥物相互作用-喹諾酮類抗生素|抗糖尿病藥物[藥品]>。
本文以建立藥品與疾病之間的知識(shí)關(guān)聯(lián)為例,基于根據(jù)概念架構(gòu)整理的藥品數(shù)據(jù),具體介紹關(guān)聯(lián)的構(gòu)建過程,主要分為三個(gè)步驟。第一步,針對(duì)未經(jīng)標(biāo)注的知識(shí)描述,采用基于規(guī)則的方法對(duì)疾病信息進(jìn)行命名實(shí)體識(shí)別,具體使用MeSH詞表、ICD-10以及CMeKG中的疾病數(shù)據(jù)進(jìn)行疾病名稱的字符串規(guī)則匹配,從而實(shí)現(xiàn)初步的疾病標(biāo)注文本,并且為了保證疾病標(biāo)注的正確性,之后進(jìn)行了人工校對(duì),對(duì)一些錯(cuò)誤信息進(jìn)行數(shù)據(jù)清洗。
第二步,為了驗(yàn)證本文構(gòu)建的中文藥品知識(shí)庫(kù)中藥品語料的有效性,以及對(duì)疾病標(biāo)注語料進(jìn)行一致性評(píng)價(jià),本文將藥品的非結(jié)構(gòu)化知識(shí)描述作為原始語料,采用基于深度學(xué)習(xí)的方法對(duì)語料進(jìn)行疾病實(shí)體的命名實(shí)體識(shí)別,從而實(shí)現(xiàn)多來源藥品知識(shí)描述中疾病實(shí)體的自動(dòng)抽取。
為了實(shí)現(xiàn)疾病實(shí)體的識(shí)別和自動(dòng)抽取,本文采用經(jīng)過處理后的適應(yīng)證、禁忌癥和不良反應(yīng)的藥品知識(shí)描述等近3萬條進(jìn)行實(shí)驗(yàn),包含訓(xùn)練集數(shù)據(jù)23 000條,測(cè)試集數(shù)據(jù)6 000條,并將藥品知識(shí)描述作為原始語料,其中針對(duì)上一步已知的疾病信息采用BIOE的標(biāo)注方式對(duì)知識(shí)描述語料進(jìn)行標(biāo)注,之后分別送入BiLSTM-CRF模型和T-BiLSTM-CRF的模型進(jìn)行學(xué)習(xí),最終實(shí)現(xiàn)對(duì)語料中的疾病實(shí)體的命名實(shí)體識(shí)別。其中實(shí)驗(yàn)使用的T-BiLSTM-CRF模型是在BiLSTM-CRF模型的基礎(chǔ)上加入遷移學(xué)習(xí)的思想,使用BiLSTM模型在非醫(yī)學(xué)領(lǐng)域的Resume數(shù)據(jù)集上進(jìn)行訓(xùn)練,獲得含有非醫(yī)學(xué)的關(guān)鍵知識(shí)的模型參數(shù),之后將這一階段得到的模型參數(shù)作為目標(biāo)網(wǎng)絡(luò)S-network中醫(yī)藥學(xué)數(shù)據(jù)集上進(jìn)行訓(xùn)練的BiLSTM+CRF模型的初始化數(shù)據(jù),并進(jìn)行調(diào)優(yōu),該模型通過融入外部非醫(yī)學(xué)領(lǐng)域的資源的關(guān)鍵特征來提高BiLSTM-CRF模型的命名實(shí)體識(shí)別效果。T-BiLSTM-CRF模型的整體架構(gòu)如圖2所示。
圖2 T-BiLSTM-CRF模型的整體架構(gòu)圖
在實(shí)驗(yàn)過程中本文將第一步經(jīng)過人工校對(duì)后的標(biāo)注語料作為實(shí)體識(shí)別的測(cè)試數(shù)據(jù),最終得到的實(shí)驗(yàn)結(jié)果如表4所示。
表4 實(shí)驗(yàn)結(jié)果 (單位: %)
本文使用F1值來對(duì)實(shí)體識(shí)別標(biāo)注語料進(jìn)行一致性評(píng)價(jià),文獻(xiàn)[19]指出,當(dāng)F1值達(dá)到80%以上時(shí),則可以認(rèn)為語料實(shí)體標(biāo)注的一致性是可信賴的。采用BiLSTM-CRF和T-BiLSTM-CRF模型進(jìn)行命名實(shí)體識(shí)別實(shí)驗(yàn),F(xiàn)1值分別達(dá)到了90.6%和91.4%,表明通過神經(jīng)網(wǎng)絡(luò)模型自動(dòng)抽取出的疾病實(shí)體是可靠的,因此后面構(gòu)建的中文藥品知識(shí)庫(kù)中的藥品與疾病之間的知識(shí)關(guān)聯(lián)是值得信賴的,最終從知識(shí)描述中抽取出的疾病共4 536種。
由于在收集到多來源藥品數(shù)據(jù)的同時(shí),也獲取到了多種藥品的半結(jié)構(gòu)化信息,如已有的多種藥品屬性,而這些信息有助于構(gòu)建相應(yīng)實(shí)體間的結(jié)構(gòu)化關(guān)系。因此本文將藥品實(shí)體、已知的藥品屬性與自動(dòng)抽取的疾病實(shí)體之間構(gòu)建了實(shí)體間結(jié)構(gòu)化關(guān)聯(lián)的三元組數(shù)據(jù),其中藥品實(shí)體與疾病實(shí)體之間的關(guān)系是已知的,即適應(yīng)證、禁忌癥和不良反應(yīng)三類。所以構(gòu)建的藥品知識(shí)庫(kù)中可形成<藥品-藥品屬性[適應(yīng)證|禁忌癥|不良反應(yīng)]-疾病>的三元組知識(shí)關(guān)聯(lián)形式。最終CMKB中包含的三元組知識(shí)關(guān)聯(lián)數(shù)據(jù)總計(jì)235 810條,同樣以“鹽酸萘甲唑啉滴鼻液”為例形成的知識(shí)關(guān)聯(lián)如表5所示。
表5 以“鹽酸萘甲唑啉滴鼻液”為例的藥品與疾病的知識(shí)關(guān)聯(lián)
最終CMKB中形成了藥品與疾病、藥品與癥狀、藥品與藥品之間結(jié)構(gòu)化的知識(shí)關(guān)聯(lián),有利于在臨床應(yīng)用時(shí)醫(yī)生根據(jù)具體的情況快速選擇合適的藥品。與此同時(shí),構(gòu)建的藥品庫(kù)與中文醫(yī)學(xué)知識(shí)圖譜CMeKG有著相似的知識(shí)關(guān)聯(lián)情況,其中CMeKG將疾病類實(shí)體作為中心,標(biāo)注疾病與其他類實(shí)體之間的關(guān)系類型,形成實(shí)體之間廣泛的知識(shí)關(guān)聯(lián)[17][18]。因此本文構(gòu)建的CMKB中建立的藥品與多種實(shí)體之間的知識(shí)關(guān)聯(lián)可以與CMeKG進(jìn)行連接,提供快速的藥品查詢服務(wù),并且為查詢的藥品提供CMKB中詳細(xì)的藥品知識(shí)描述,更加全面地了解藥品信息,有效提高醫(yī)療質(zhì)量。
本文所使用的深度學(xué)習(xí)模型針對(duì)文本中存在的嵌套實(shí)體時(shí),準(zhǔn)確率較低,如[感染性[心內(nèi)膜炎]疾病]疾病,實(shí)驗(yàn)只識(shí)別出了“心內(nèi)膜炎”而并未識(shí)別出完整的疾病實(shí)體“感染性心內(nèi)膜炎”,因此后續(xù)計(jì)劃采用具有更加廣泛、專業(yè)的醫(yī)學(xué)詞典以及其他更優(yōu)化的深度學(xué)習(xí)模型和算法進(jìn)行更準(zhǔn)確的實(shí)體識(shí)別。
依據(jù)多來源的藥品數(shù)據(jù)進(jìn)行模式層和數(shù)據(jù)層的構(gòu)建后,最終形成了構(gòu)建的中文藥品知識(shí)庫(kù)CMKB。其中總共包含27種一級(jí)類別和119種二級(jí)類別,涵蓋了14 141種化學(xué)藥品。每種類別中包含藥品數(shù)的分布情況如圖3所示。
圖3 不同類別的藥品分布情況圖
本文最終將通過適應(yīng)證、禁忌癥和不良反應(yīng)建立的藥品與疾病實(shí)體間結(jié)構(gòu)化知識(shí)關(guān)聯(lián)的結(jié)果以藥品知識(shí)圖譜的形式進(jìn)行了可視化展示,以“左旋咪唑”為例的展示效果如圖4所示。
圖4 “左旋咪唑”的藥品與疾病知識(shí)關(guān)聯(lián)的可視化展示圖
本文以有效輔助臨床應(yīng)用以及提高臨床決策效率為目的,構(gòu)建了一個(gè)多來源的中文藥品知識(shí)庫(kù)CMKB。首先針對(duì)多來源的藥品數(shù)據(jù)進(jìn)行知識(shí)描述體系和分類體系構(gòu)建;之后根據(jù)建立的體系結(jié)構(gòu)和數(shù)據(jù)處理后的藥品信息進(jìn)行數(shù)據(jù)層的構(gòu)建,形成了初步的CMKB。同時(shí)為了實(shí)現(xiàn)臨床決策的高效性,本文構(gòu)建了藥品與疾病、癥狀等多種實(shí)體間的結(jié)構(gòu)化知識(shí)關(guān)聯(lián)。CMKB中的藥品知識(shí)能夠提高臨床用藥的有效性和合理性,并且可以作為特征,加入到醫(yī)療問答在內(nèi)的多種自然語言處理應(yīng)用中。CMKB中建立的知識(shí)關(guān)聯(lián)有助于完成多學(xué)科協(xié)作、貫通診療全過程的醫(yī)療臨床決策支持系統(tǒng),并且有助于輔助診斷和智能導(dǎo)診。目前構(gòu)建的CMKB所包含藥品數(shù)目以及構(gòu)建的多種知識(shí)關(guān)聯(lián)的數(shù)量存在局限性,下一步將嘗試?yán)冒氡O(jiān)督的信息抽取等新技術(shù)進(jìn)行更廣泛的藥品知識(shí)的自動(dòng)抽取,進(jìn)一步擴(kuò)大CMKB所涵蓋藥品知識(shí)的廣度和深度。