韓普 馬健 張嘉明
摘 要:[目的/意義]隨著大數(shù)據(jù)和人工智能時(shí)代的來臨,基于數(shù)據(jù)驅(qū)動的醫(yī)療輔助決策以及醫(yī)療健康知識挖掘受到人們的極大關(guān)注。醫(yī)療知識圖譜是醫(yī)療信息分析和知識服務(wù)的基礎(chǔ),在醫(yī)療人工智能和醫(yī)療信息檢索中發(fā)揮著重要作用。[方法/過程]本文以醫(yī)療領(lǐng)域的實(shí)際應(yīng)用需求為出發(fā)點(diǎn),從醫(yī)療大數(shù)據(jù)獲取、醫(yī)療實(shí)體及關(guān)系標(biāo)注、醫(yī)療實(shí)體識別、醫(yī)療實(shí)體鏈接、醫(yī)療實(shí)體關(guān)系挖掘、中文醫(yī)療知識圖譜表示和存儲等關(guān)鍵技術(shù)入手,提出了多數(shù)據(jù)源融合的醫(yī)療知識圖譜構(gòu)建的理論框架。[結(jié)果/結(jié)論]面向醫(yī)療領(lǐng)域的知識圖譜構(gòu)建是一項(xiàng)非常重要的基礎(chǔ)任務(wù),同時(shí)也是人工智能領(lǐng)域的重要發(fā)展方向。
關(guān)鍵詞:醫(yī)療知識圖譜;多源數(shù)據(jù)融合;實(shí)體識別;實(shí)體鏈接;實(shí)體關(guān)系
DOI:10.3969/j.issn.1008-0821.2019.06.009
〔中圖分類號〕G250.2 〔文獻(xiàn)標(biāo)識碼〕A 〔文章編號〕1008-0821(2019)06-0081-10
Abstract:[Purpose/Significance]With the approaching of the big data and artificial intelligence age,people have been paying great attention to the medical-assisted decision making and mining for the medical health knowledge based on the data driving.As the basis of medical information analysis and medical knowledge services,medical health knowledge graphs play a significant role in the medical artificial intelligence and medical information retrieval.[Method/Process]Therefore,based on the actual application demand in medical field and proceeded with such key technologies as acquisition of medical big data,annotation of medical entities and their relations,identification of medical entities,linkage of medical entities,mining for relations of medical entities,as well as expression and storage of Chinese medical health knowledge graphs,this paper put forward a theoretical framework regarding construction of the medical health knowledge graph integrated with multi-data sources.[Result/Conclusion]The construction of knowledge maps for the medical field was a very important basic task,and it is also an important development direction in the field of artificial intelligence.
Key words:medical knowledge graph;multi-data source fusion;entity recognition;entity linking;entity relationship
隨著醫(yī)療信息化的迅猛發(fā)展,醫(yī)療機(jī)構(gòu)以及各類互聯(lián)網(wǎng)平臺產(chǎn)生了大量的醫(yī)療數(shù)據(jù),這些數(shù)據(jù)蘊(yùn)含著豐富的醫(yī)療知識,經(jīng)過處理和分析的醫(yī)療大數(shù)據(jù)不僅可以為醫(yī)生的臨床診斷提供輔助決策[1];還可以通過各種應(yīng)用平臺為公眾提供高質(zhì)量的醫(yī)療信息服務(wù),提升公眾的醫(yī)療信息素養(yǎng)。因此,如何深入挖掘并利用各類醫(yī)療大數(shù)據(jù)成為當(dāng)前人們關(guān)注的熱點(diǎn)。
近些年,受到自然語言理解和人工智能的推動,基于大數(shù)據(jù)的語義知識庫自動構(gòu)建受到了學(xué)界和業(yè)界的極大關(guān)注。2012年,Google提出了知識圖譜的概念,此后國內(nèi)外出現(xiàn)了面向各種應(yīng)用的知識圖譜。常見的如DBpedia[2]、Freebase[3]、Knowledge Vault[4]、NELL[5]、YAGO[6]等,這些知識圖譜的數(shù)據(jù)主要來自維基百科。國內(nèi)中文知識圖譜主要有百度的“知心”、搜狗的“知立方”、SSCO[7]和Zhishi.me[8]等,這些通用知識圖譜以各類非結(jié)構(gòu)化或半結(jié)構(gòu)化數(shù)據(jù)為來源,體量大,覆蓋面廣。但在面向?qū)I(yè)領(lǐng)域的信息分析等需求時(shí),通用知識圖譜在實(shí)體粒度以及領(lǐng)域語義知識表征不夠細(xì)化,尤其是對于專業(yè)要求非常高的醫(yī)療領(lǐng)域。因此,在醫(yī)療領(lǐng)域的信息分析和人工智能應(yīng)用中,面向領(lǐng)域的知識圖譜更有針對性。Ernst P等[9]基于科學(xué)文獻(xiàn)、健康記錄以及問答社區(qū)等多種網(wǎng)絡(luò)數(shù)據(jù)源構(gòu)建了健康和生命科學(xué)的英文知識圖譜。此外,國外已經(jīng)建成了醫(yī)療領(lǐng)域資源庫一體化醫(yī)學(xué)語言系統(tǒng)(UMLS)[10]、醫(yī)學(xué)系統(tǒng)命名法—臨床術(shù)語(SNOMED CT)知識庫[11]等資源。在國內(nèi),由復(fù)旦大學(xué)等構(gòu)建了面向細(xì)分領(lǐng)域的中文知識圖譜OpenKG.cn。雖然國內(nèi)出現(xiàn)了一些探索和嘗試,但更多的還是處于探索階段。陳德華[12]等提出了一種基于增量學(xué)習(xí)的臨床領(lǐng)域時(shí)序知識圖譜鏈接預(yù)測模型。Weng H等[13]基于臨床病歷,提出了自動構(gòu)建中醫(yī)知識圖譜的研究框架。He B[14]等建立了一個(gè)包含句法和語義的中文電子病歷語義知識庫。阮彤等[15]、賈李蓉等[16]基于中醫(yī)病癥分類代碼和中醫(yī)藥學(xué)語言系統(tǒng),構(gòu)建了中醫(yī)藥知識圖譜。通過文獻(xiàn)梳理可以發(fā)現(xiàn),通用領(lǐng)域知識圖譜已經(jīng)比較成熟,但領(lǐng)域知識圖譜更多的還處于探索中。和國外相比,國內(nèi)醫(yī)療領(lǐng)域知識圖譜才剛剛開始起步,亟需學(xué)界和業(yè)界齊心協(xié)力構(gòu)建面向各類醫(yī)療需求的領(lǐng)域知識圖譜,進(jìn)而提升國內(nèi)的醫(yī)療信息服務(wù)和人工智能水平。
醫(yī)療健康是人們關(guān)注的重點(diǎn),與此相關(guān)的信息檢索和知識服務(wù)是當(dāng)前人們最為迫切的需求之一。據(jù)公開數(shù)據(jù)顯示,百度每天搜索量約60億次,其中25%與疾病健康有關(guān)。相比國外較為完善的醫(yī)療語義資源,中文醫(yī)療資源建設(shè)起步比較晚,開放的醫(yī)療資源更是很有限。在當(dāng)前背景下,構(gòu)建中文醫(yī)療知識圖譜是一項(xiàng)非常迫切的研究課題,其意義主要體現(xiàn)在以下幾個(gè)方面:1)有助于提高臨床治療水平,為醫(yī)生提供輔助決策。在臨床中,醫(yī)生的診斷水平受到醫(yī)學(xué)知識水平和臨床經(jīng)驗(yàn)的影響,因此一套輔助決策和導(dǎo)向作用的決策支持系統(tǒng)是非常有必要的,而決策支持系統(tǒng)離不了醫(yī)療知識圖譜的支撐。2)提升公眾的醫(yī)療健康信息素養(yǎng)和健康信息意識。和發(fā)達(dá)國家相比,國內(nèi)公眾的醫(yī)療健康知識水平偏低,醫(yī)療健康信息意識比較薄弱,這些問題一定程度上影響著醫(yī)患關(guān)系,影響著醫(yī)療領(lǐng)域的整體服務(wù)水平。3)醫(yī)療知識圖譜是醫(yī)療健康信息化發(fā)展的重要資源,醫(yī)療知識圖譜構(gòu)建是人工智能在醫(yī)療領(lǐng)域的發(fā)展趨勢,同時(shí)也是醫(yī)療健康信息化的必然要求。雖然國外出現(xiàn)了一些英文的醫(yī)療知識圖譜探索和研究,但中文的特點(diǎn)決定了其它語言的醫(yī)療知識圖譜不能直接照搬,其理論和實(shí)踐還亟待研究和探索。4)各類醫(yī)療數(shù)據(jù)包含了不同的醫(yī)療知識,只有融合多種醫(yī)療數(shù)據(jù),才能充分發(fā)揮各類醫(yī)療大數(shù)據(jù)的價(jià)值。本文以多源醫(yī)療大數(shù)據(jù)為數(shù)據(jù)源,從數(shù)據(jù)獲取、實(shí)體識別、實(shí)體鏈接及數(shù)據(jù)融合、實(shí)體關(guān)系挖掘、知識圖譜表示和存儲方面,系統(tǒng)地提出一套面向多源大數(shù)據(jù)的醫(yī)療知識圖譜構(gòu)建的概念模型,為國內(nèi)醫(yī)療健康知識圖譜的相關(guān)理論和實(shí)踐提供借鑒和參考,進(jìn)而推動國內(nèi)醫(yī)療健康信息化的快速發(fā)展。
1 知識圖譜概念
通常認(rèn)為,知識圖譜就是現(xiàn)實(shí)世界中根據(jù)實(shí)體間關(guān)系相互連接起來所形成的一種網(wǎng)絡(luò)結(jié)構(gòu)[17],其本身就是結(jié)構(gòu)化的語義知識庫[18],屬于語義網(wǎng)絡(luò)的范疇[12]。目前,知識圖譜已經(jīng)成為一種新的關(guān)系表現(xiàn)形式,用于呈現(xiàn)各類實(shí)體以及實(shí)體間的關(guān)聯(lián)關(guān)系。根據(jù)知識圖譜的覆蓋范圍不同,可分為通用知識圖譜和領(lǐng)域知識圖譜。目前國內(nèi)外通用知識圖譜的相關(guān)研究比較多見,領(lǐng)域知識圖譜的研究剛開始起步。相比于領(lǐng)域知識圖譜,通用知識圖譜覆蓋面更加廣泛,能夠滿足多方面需求,但因其范圍過于寬泛,造成其專業(yè)領(lǐng)域知識深度表征不夠,無法描述更細(xì)化的領(lǐng)域?qū)嶓w知識。與其它領(lǐng)域不同的是,醫(yī)療領(lǐng)域?qū)嶓w數(shù)量巨大,新詞頻出、復(fù)合詞組合多樣以及實(shí)體間關(guān)系復(fù)雜,通用知識圖譜難以承載這一領(lǐng)域的專業(yè)知識。同時(shí),醫(yī)療知識圖譜是醫(yī)療信息處理、信息檢索以及問答系統(tǒng)的重要組成部分,也是當(dāng)前需求最為迫切的基礎(chǔ)資源之一,因此醫(yī)療知識圖譜的構(gòu)建是一項(xiàng)非常重要的研究方向。本文的知識圖譜是指實(shí)體以及實(shí)體間關(guān)系的語義網(wǎng)絡(luò)結(jié)構(gòu)。而另外一個(gè)研究方向主要是用圖形的方式直觀地呈現(xiàn)學(xué)科或領(lǐng)域知識的各種聯(lián)系[19]。雖然名稱上完全一樣,但屬于兩個(gè)不同的研究領(lǐng)域。本文所述的知識圖譜則是以自然語言處理和文本挖掘?yàn)榛A(chǔ),通過數(shù)據(jù)獲取、文本挖掘、語義分析以及人工智能的方法來挖掘并采用網(wǎng)絡(luò)結(jié)構(gòu)來表示的醫(yī)療實(shí)體以及實(shí)體間的關(guān)聯(lián)關(guān)系,是一種可以不斷更新的醫(yī)療領(lǐng)域語義資源知識網(wǎng)絡(luò)。
2 醫(yī)療知識圖譜數(shù)據(jù)源
2.1 醫(yī)療文本數(shù)據(jù)的分類
常見醫(yī)療大數(shù)據(jù)既有較為規(guī)范的電子病歷,也有醫(yī)療健康社區(qū)中的用戶生成內(nèi)容(UGC),以及醫(yī)療詞典資源和相關(guān)政策文件。根據(jù)數(shù)據(jù)的表現(xiàn)形式,可以將醫(yī)療健康數(shù)據(jù)分為結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)以及非結(jié)構(gòu)化數(shù)據(jù)3類。1)結(jié)構(gòu)化醫(yī)療數(shù)據(jù):主要包括醫(yī)療疾病詞典、中醫(yī)藥詞典等,如國際疾病分類手冊ICD11;2)半結(jié)構(gòu)化醫(yī)療數(shù)據(jù):主要包括電子病歷和醫(yī)學(xué)文獻(xiàn)等;3)非結(jié)構(gòu)化醫(yī)療數(shù)據(jù):主要包括各類百科中的醫(yī)療詞條、以及好問康、家庭醫(yī)生在線和求醫(yī)網(wǎng)等醫(yī)療論壇上的文本數(shù)據(jù)。
2.2 醫(yī)療文本數(shù)據(jù)的獲取
醫(yī)療數(shù)據(jù)直接影響著醫(yī)療知識圖譜的質(zhì)量。已有的醫(yī)療語義知識庫數(shù)據(jù)來源單一,對專家知識依賴性強(qiáng),沒有充分利用當(dāng)前的各類醫(yī)療大數(shù)據(jù),尤其是以醫(yī)院真實(shí)電子病歷為數(shù)據(jù)源的醫(yī)療知識圖譜還不多見[12]。吳運(yùn)兵等[20]提出通過融合多方數(shù)據(jù)資源構(gòu)建知識圖譜的方法,以提升知識圖譜的實(shí)際應(yīng)用價(jià)值。針對臨床輔助決策和醫(yī)療問答系統(tǒng)應(yīng)用場景的實(shí)際需求,醫(yī)療健康知識圖譜構(gòu)建需重點(diǎn)考慮以下數(shù)據(jù)資源。
1)醫(yī)療詞典:這類資源主要包括已有的醫(yī)療詞典資源,如國際疾病分類手冊ICD11等,這類資源具有較高的專業(yè)性,是醫(yī)療知識圖譜的重要數(shù)據(jù)源之一;
2)電子病歷:電子病歷是臨床醫(yī)生對病程的記錄,主要包括出院小結(jié)和各類病程記錄,如入院記錄、檢查記錄和治療記錄等等,是醫(yī)療知識圖譜的非常重要的數(shù)據(jù)源;
3)醫(yī)學(xué)文獻(xiàn):醫(yī)學(xué)文獻(xiàn)是科學(xué)研究成果的呈現(xiàn),也是高質(zhì)量的醫(yī)療數(shù)據(jù)源之一。醫(yī)學(xué)文獻(xiàn)摘要是論文內(nèi)容的高度凝練,也是醫(yī)療知識圖譜中醫(yī)學(xué)文獻(xiàn)數(shù)據(jù)源的關(guān)鍵內(nèi)容;
4)互聯(lián)網(wǎng)上的用戶生成內(nèi)容:隨著信息技術(shù)的發(fā)展,互聯(lián)網(wǎng)上積累大量關(guān)于醫(yī)療健康的用戶生成內(nèi)容。這類數(shù)據(jù)的量十分巨大,數(shù)據(jù)質(zhì)量也在日趨提高,是醫(yī)療知識圖譜的重要補(bǔ)充數(shù)據(jù)。
3 中文醫(yī)療知識圖譜模型構(gòu)建研究
3.1 多數(shù)據(jù)源融合的醫(yī)療知識圖譜構(gòu)建思路
融合多源數(shù)據(jù)的醫(yī)療知識圖譜首先通過各個(gè)渠道獲取醫(yī)療文本大數(shù)據(jù),然后對各類數(shù)據(jù)采用XML統(tǒng)一格式、進(jìn)行數(shù)據(jù)清洗、分詞和詞性標(biāo)注,接著采用機(jī)器學(xué)習(xí)方法進(jìn)行醫(yī)療實(shí)體識別及實(shí)體關(guān)系標(biāo)注;然后以疾病為中心,挖掘其它實(shí)體與疾病之間的關(guān)系,并利用RDF和Neo4j進(jìn)行存儲和呈現(xiàn);針對不斷增長的各類醫(yī)療大數(shù)據(jù)和實(shí)際應(yīng)用需要,可以利用Spark技術(shù)生成動態(tài)醫(yī)療知識圖譜,最后在醫(yī)療知識圖譜基礎(chǔ)上,為臨床輔助診斷決策和醫(yī)療健康問答系統(tǒng)提供醫(yī)療知識來源。具體思路如圖1。
3.2 醫(yī)療文本數(shù)據(jù)處理
醫(yī)療大數(shù)據(jù)來源渠道多樣,數(shù)據(jù)格式、編碼方案和存儲格式不盡相同,為了后續(xù)多源數(shù)據(jù)融合以及醫(yī)療知識圖譜構(gòu)建的需要,該部分工作主要包括以下幾個(gè)方面。1)統(tǒng)一數(shù)據(jù)格式:包括統(tǒng)一數(shù)據(jù)存儲格式、編碼方案,針對后續(xù)RDF標(biāo)準(zhǔn)和多數(shù)據(jù)源融合需求,將多數(shù)據(jù)源的醫(yī)療數(shù)據(jù)轉(zhuǎn)換為包含數(shù)據(jù)來源、時(shí)間和類型等屬性的XML文件。2)數(shù)據(jù)清洗和篩選:互聯(lián)網(wǎng)醫(yī)療文本數(shù)據(jù)中存在大量廣告信息,電子病歷中也存在較大比例的重復(fù)段落以
及質(zhì)量較低的信息。通常的做法是去除那些可信度較低,信息欠完整的數(shù)據(jù)(如成分殘缺的句子),來確保數(shù)據(jù)的質(zhì)量[21]。3)分詞和詞性標(biāo)注:醫(yī)療文本分詞是知識圖譜構(gòu)建中非常重要的環(huán)節(jié),直接影響著實(shí)體識別的效果。目前常用的有ICTCLAS、Stanford Parser、Ansj、Jieba及mmseg4j[22]。此外,哈爾濱工業(yè)大學(xué)的語言技術(shù)平臺(LTP)也提供分詞和詞性標(biāo)注功能。針對醫(yī)療領(lǐng)域分詞問題,基于ICTCLAS,李國壘等[23]提出了中文病歷的分詞策略;也有學(xué)者[24]對不同的分詞方法進(jìn)行測評,探索更適合于醫(yī)療領(lǐng)域的分詞策略,如張立邦等[25]提出了基于無監(jiān)督學(xué)習(xí)的中文電子病歷分詞方法。
雖然有不少成熟的分詞工具供選擇,但醫(yī)療領(lǐng)域詞匯專業(yè)性非常強(qiáng),新詞頻現(xiàn),加上各類復(fù)合詞的組合規(guī)律十分復(fù)雜,造成目前醫(yī)療領(lǐng)域分詞結(jié)果很不理想。因此,醫(yī)療領(lǐng)域不僅需要適合的分詞算法,還需要高質(zhì)量的醫(yī)學(xué)詞典。在醫(yī)療詞典資源上,國外有比較知名的ICD11、UMLS等資源,但中文領(lǐng)域的醫(yī)學(xué)詞典資源還比較匱乏。
3.3 醫(yī)療實(shí)體識別
醫(yī)療實(shí)體識別是知識圖譜構(gòu)建的關(guān)鍵技術(shù)環(huán)節(jié)。根據(jù)所采用的方法,可將醫(yī)療實(shí)體識別分為基于醫(yī)學(xué)詞典的方法、基于規(guī)則的方法和基于機(jī)器學(xué)習(xí)的方法?;卺t(yī)學(xué)詞典的方法是利用實(shí)體詞典抽取相關(guān)實(shí)體,Sasaki Y等[26]等通過加入實(shí)體詞性來構(gòu)建實(shí)體詞典以提高蛋白質(zhì)實(shí)體的識別效果,該方法的實(shí)體識別準(zhǔn)確率比較高,但對醫(yī)療詞典的要求非常高,基于規(guī)則的方法則是根據(jù)實(shí)體的表現(xiàn)特征制定相應(yīng)規(guī)則,葉楓等[27]通過加入語言符號、詞性、構(gòu)詞特征、詞邊界和上下文的特征,來提高醫(yī)療實(shí)體的識別效果。在CCKS2017任務(wù)中,Hu J等[28]針對不同類型實(shí)體構(gòu)建了眾多規(guī)則來提高實(shí)驗(yàn)效果。雖然規(guī)則在一定程度上能提升實(shí)體識別效果,但由于醫(yī)療文本來源多樣,基于先驗(yàn)知識的規(guī)則也會變得非常復(fù)雜,并且可遷移性較差。
機(jī)器學(xué)習(xí)是目前醫(yī)療實(shí)體識別中最為流行的方法,常見的機(jī)器學(xué)習(xí)方法有最大熵模型(ME)、支持向量機(jī)(SVM)、隱馬爾可夫模型(HMM)、條件隨機(jī)場(CRF)以及循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)。在通常的命名實(shí)體識別任務(wù)中,CRF和SVM在使用同樣特征時(shí)有著非常相近的表現(xiàn)[29]。在英文領(lǐng)域,Jiang M等[30]發(fā)現(xiàn)CRF對醫(yī)療實(shí)體識別的效果要好于SVM。Lei J等[31]通過采用同樣的特征對CRF、SVM、SSVM和ME 4種方法進(jìn)行了對比,結(jié)果發(fā)現(xiàn)SSVM方法在中文醫(yī)療實(shí)體識別中要略好于其它方法。Chen Yanxu等[32]在CCKS2017任務(wù)中,發(fā)現(xiàn)單純CRF的F值要高于LSTM-CRF。Liu Z等[33]利用2010、2012和2014 i2b2 NLP的比賽數(shù)據(jù)進(jìn)行了多組對照實(shí)驗(yàn),發(fā)現(xiàn)LSTM要好于CRF方法。在中醫(yī)實(shí)體識別研究中,王世昆等[34]發(fā)現(xiàn)CRF對中醫(yī)實(shí)體的識別效果要好于ME和SVM。Wang Y等[35]比較了CRF、HMM、MEMM 3種模型在中醫(yī)癥狀實(shí)體識別上的效果,發(fā)現(xiàn)CRF模型更適合于中醫(yī)實(shí)體的識別。此外,也有研究者采用改進(jìn)的機(jī)器學(xué)習(xí)方法,如燕楊[36]等提出了基于層疊條件隨機(jī)場的中文醫(yī)療實(shí)體識別方法;針對電子病歷語料標(biāo)注的難題,在不增加標(biāo)注量的前提下,王潤奇等[37]基于Tri-Training的半監(jiān)督學(xué)習(xí)方法進(jìn)行中文醫(yī)療實(shí)體識別;Hu J[28]等在CCKS2017任務(wù)中采用多種方法進(jìn)行了對照實(shí)驗(yàn),發(fā)現(xiàn)加入特征的BI-LSTM方法要好于CRF方法。
從以上研究可以發(fā)現(xiàn),在醫(yī)療實(shí)體識別模型中,CRF有著較好的表現(xiàn)。隨著深度學(xué)習(xí)和人工智能的推進(jìn),基于循環(huán)神經(jīng)網(wǎng)絡(luò)以及長短時(shí)記憶網(wǎng)絡(luò)(LSTM)的改進(jìn)算法[38]和CRF相結(jié)合,利用海量的醫(yī)療數(shù)據(jù)特征作為詞向量在醫(yī)療實(shí)體識別上取得了比較顯著的結(jié)果。另外,從已有研究來看,由于醫(yī)療領(lǐng)域分詞帶來的問題過多,基于字的實(shí)體識別效果要高于基于詞的識別效果。
3.4 醫(yī)療實(shí)體及實(shí)體關(guān)系標(biāo)注
3.4.1 醫(yī)療實(shí)體標(biāo)注
醫(yī)療實(shí)體標(biāo)注是實(shí)體識別和實(shí)體關(guān)系挖掘的基礎(chǔ),在已有研究基礎(chǔ)上,結(jié)合實(shí)體識別算法的格式要求,可采用BX、IX、EX、SX以及O作為實(shí)體標(biāo)識符,其中B(實(shí)體開頭)、I(實(shí)體中間)、E(實(shí)體結(jié)尾)、S(獨(dú)立詞位實(shí)體)、O(非實(shí)體),X表示實(shí)體所屬類別,包括D(疾?。(癥狀)、C(檢查)、T(治療)以及O(組織器官)。例如,風(fēng)濕性關(guān)節(jié)炎是一種常見的急性或慢性結(jié)締組織炎癥,分詞后可標(biāo)注為:
風(fēng)濕性/BD關(guān)節(jié)炎/ED是/O一種/O常見的/O急性/O或/O 慢性/O結(jié)締組織/SO炎癥/SS。
3.4.2 醫(yī)療實(shí)體關(guān)系標(biāo)注
3.5 醫(yī)療實(shí)體鏈接與知識融合
醫(yī)療實(shí)體鏈接是將多數(shù)據(jù)源中的實(shí)體通過鏈接關(guān)聯(lián)起來,以更好地表述不同數(shù)據(jù)源實(shí)體間的語義關(guān)聯(lián)關(guān)系,進(jìn)而實(shí)現(xiàn)多源數(shù)據(jù)融合以用于醫(yī)療人工智能中的語義理解和語義分析。在各類醫(yī)療文本數(shù)據(jù)源中,疾病、癥狀、檢查和藥物等各類實(shí)體的表述是多樣化的,醫(yī)療實(shí)體縮寫、簡寫以及中英文混合等不規(guī)范表述以及實(shí)體的上下文指代不明給實(shí)體鏈接帶來了極大困難。根據(jù)所采用的相關(guān)關(guān)系計(jì)算方法,實(shí)體鏈接方法主要分為兩大類,一類是基于實(shí)體本身的方法,該方法主要是利用實(shí)體字符本身的特征進(jìn)行計(jì)算,如字符串編輯距離、Jaro距離、Jaro-Winkler距離和Smith-Waterman算法;另一類是基于實(shí)體背景信息的計(jì)算方法,通常有余弦相似度、Jaccard系數(shù)、主題模型、詞向量、SimRank和圖結(jié)構(gòu)的方法。周鵬程等[40]提出了一種基于多知識庫的實(shí)體鏈接方法,進(jìn)而實(shí)現(xiàn)對多個(gè)知識庫的實(shí)體鏈接。王雪鵬等[41]給出了一種基于網(wǎng)絡(luò)語義標(biāo)簽的多源知識庫實(shí)體對齊算法。通過獲取實(shí)體各種屬性值之間的相似度特征,李陽等[42]提出了基于語義的實(shí)體相似度計(jì)算方法。Wang Y[43]等采用基于字面的相似度、基于特征的相似度方法以及混合相似度的方法對中醫(yī)實(shí)體名稱進(jìn)行了歸一化研究。由于醫(yī)療實(shí)體的復(fù)雜性,通常輔助標(biāo)準(zhǔn)化的醫(yī)療術(shù)語庫(如ICD11)進(jìn)行多源醫(yī)療實(shí)體鏈接。通過多源醫(yī)療實(shí)體鏈接融合不同數(shù)據(jù)源的同一實(shí)體,解決單一數(shù)據(jù)源知識圖譜覆蓋面過低的問題,從根本上促進(jìn)醫(yī)療數(shù)據(jù)融合。
3.6 醫(yī)療實(shí)體關(guān)系抽取
實(shí)體關(guān)系抽取是醫(yī)療知識圖譜構(gòu)建的關(guān)鍵環(huán)節(jié),本文中實(shí)體關(guān)系主要是疾病實(shí)體與其它幾類實(shí)體的關(guān)系,具體如表1所示。從已有研究來看,目前醫(yī)療實(shí)體關(guān)系挖掘可分為基于模式匹配、基于語義詞典、基于特征和基于機(jī)器學(xué)習(xí)的方法。模式匹配是以實(shí)體識別結(jié)果為基礎(chǔ),以句子為單位,根據(jù)標(biāo)志詞來制定相應(yīng)模式,進(jìn)而通過模式匹配比對,確定相應(yīng)實(shí)體間的關(guān)系。如“服用吲哚美辛后,關(guān)節(jié)腫痛緩解”,能夠匹配治療類實(shí)體+癥狀類實(shí)體+“緩解”這一模式,進(jìn)而將“吲哚美辛”與“關(guān)節(jié)腫痛”關(guān)系標(biāo)注為TBS?;谠~典的方法是在語義詞典資源基礎(chǔ)上,根據(jù)實(shí)體間的關(guān)聯(lián)確定實(shí)體關(guān)系?;谔卣鞯姆椒ㄊ歉鶕?jù)實(shí)體類型、詞性、詞與詞之間的位置、實(shí)體前后的詞與詞性等特征,通過不斷迭代與聚合,將具有相同特征的實(shí)體組(通常為兩個(gè)非同類實(shí)體)視為同一類型,然后進(jìn)行實(shí)體關(guān)系挖掘。當(dāng)前醫(yī)療實(shí)體關(guān)系挖掘比較常用的是機(jī)器學(xué)習(xí)法,這類方法的思路是將關(guān)系挖掘轉(zhuǎn)換為分類問題。Demner-Fushman D等[44]采用多種方法對I2B2 2010電子病歷中的實(shí)體進(jìn)行了挖掘研究,發(fā)現(xiàn)詞典資源在實(shí)體關(guān)系挖掘中有著重要作用。Frunza O等[45]采用多種機(jī)器學(xué)習(xí)方法探究疾病和治療之間的3種關(guān)系,發(fā)現(xiàn)貝葉斯分類法和其它特征組合取得了較好的效果。Wang X等[46]根據(jù)上下文共現(xiàn)關(guān)系對疾病和癥狀間的關(guān)聯(lián)關(guān)系進(jìn)行了挖掘。Luo Y[47]采用循環(huán)神經(jīng)網(wǎng)絡(luò)對I2B2 2010電子病歷中的實(shí)體關(guān)系進(jìn)行了抽取,發(fā)現(xiàn)加入醫(yī)療詞向量有助于實(shí)體關(guān)系的挖掘。Hwang S等[48]基于PubMed文獻(xiàn)數(shù)據(jù),采用TF-IDF和共現(xiàn)關(guān)系識別了疾病和癥狀關(guān)系。吳嘉偉等[49]從特征選擇角度,采用深度學(xué)習(xí)算法對英文電子病歷中的實(shí)體關(guān)系進(jìn)行了抽取研究。Zhao C等[50]基于實(shí)體共現(xiàn)關(guān)系構(gòu)建了疾病和癥狀關(guān)系的二分網(wǎng)絡(luò)。李夢箐等[51]通過二分圖和復(fù)雜網(wǎng)絡(luò)的結(jié)構(gòu)來挖掘疾病與中藥之間的關(guān)系。通過構(gòu)建K-partite網(wǎng)絡(luò),Kamdar M R等[52]采用隱條件隨機(jī)場來挖掘藥物及藥物反應(yīng)實(shí)體間的隱藏關(guān)系??梢园l(fā)現(xiàn),醫(yī)療實(shí)體關(guān)系挖掘目前是醫(yī)療信息處理和分析研究中的熱點(diǎn),基于機(jī)器學(xué)習(xí)的方法是醫(yī)療實(shí)體關(guān)系抽取中的常用方法。目前在多源醫(yī)療文本大數(shù)據(jù)中,通常將實(shí)體關(guān)系抽取研究視為分類問題,然后挖掘?qū)嶓w各種特征來提升實(shí)體關(guān)系的抽取效果。
3.7 中文醫(yī)療知識圖譜表示及存儲
知識圖譜表示和存儲是將醫(yī)療實(shí)體以及實(shí)體關(guān)系按照一定規(guī)范存儲,為后續(xù)的醫(yī)療知識分析和知識服務(wù)做好準(zhǔn)備。目前較為廣泛的數(shù)據(jù)描述模型有RDF以及最近興起的圖數(shù)據(jù)庫兩種存儲方案。夏宇航等[53]通過數(shù)據(jù)庫與RDF三元組相結(jié)合對電子病歷進(jìn)行拆分存儲,以提高實(shí)體的檢索效率。阮彤等[54]將中醫(yī)藥關(guān)系轉(zhuǎn)為RDF格式數(shù)據(jù)來存儲中醫(yī)藥領(lǐng)域知識圖譜。Beyan O D等[55]提出一種基于RDF的結(jié)構(gòu)來描述電子病歷中的時(shí)序關(guān)系。Kamdar M R等[52]通過RDF框架存儲藥物、蛋白質(zhì)等實(shí)體間的隱藏關(guān)系并基于SPARQL進(jìn)行查詢。遵從RDF規(guī)范,Wang M等[56]通過構(gòu)建病人、藥物和治療的RDF圖,進(jìn)而鏈接已有的知識圖譜資源,并提供基于SPARQL的在線查詢。在醫(yī)療知識圖譜存儲時(shí),可以基于RDF語法,構(gòu)建以疾病為中心,其它四類為屬性的疾病——屬性——關(guān)系三元組,以此存儲實(shí)體識別及實(shí)體間關(guān)系。每一個(gè)實(shí)體都有一個(gè)URL(Uniform Resource Locator,統(tǒng)一資源定位符)與之對應(yīng),通過URL就能跳轉(zhuǎn)到相應(yīng)的實(shí)體,實(shí)現(xiàn)實(shí)體數(shù)據(jù)間的鏈接。如下所示。
在上例醫(yī)療知識圖譜中,描述的是以風(fēng)濕疾病為中心,以及相關(guān)的癥狀等其它實(shí)體間的關(guān)系。醫(yī)療知識圖譜本身是一種圖結(jié)構(gòu),而圖形數(shù)據(jù)庫通過鍵和鏈接存儲實(shí)體及實(shí)體關(guān)系,因此在網(wǎng)絡(luò)結(jié)構(gòu)存儲時(shí)比較占優(yōu)勢,近些年基于圖數(shù)據(jù)庫的語義關(guān)系存儲受到研究者的重視。但由于圖數(shù)據(jù)庫技術(shù)發(fā)展時(shí)間較短,在標(biāo)準(zhǔn)和規(guī)范方面還不夠完善[57]。目前常用的圖形數(shù)據(jù)庫有Neo4j、Titan和FlockDB等。Neo4j是由Java和Scala語言寫成NoSql數(shù)據(jù)庫,也是目前使用較多的圖形數(shù)據(jù)庫。通過Neo4j可以直觀呈現(xiàn)實(shí)體間的各種關(guān)系(如圖2所示),可為臨床輔助診斷以及公眾的醫(yī)療健康信息服務(wù)提供更易于理解和交互的知識呈現(xiàn)方式。Neo4j代碼格式和可視化呈現(xiàn)如下。
3.8 醫(yī)療知識圖譜的動態(tài)構(gòu)建
隨著信息技術(shù)的發(fā)展,醫(yī)療領(lǐng)域的各類大數(shù)據(jù)在飛速增長,面向各類醫(yī)療應(yīng)用需求的醫(yī)療知識圖譜需要即時(shí)進(jìn)行動態(tài)更新。針對多源的醫(yī)療文本大數(shù)據(jù),可通過加州大學(xué)伯克利分校AMP實(shí)驗(yàn)室開源的Spark[58-59]技術(shù)平臺行大數(shù)據(jù)的快速處理,根據(jù)已有的癥狀、檢查、治療、組織器官4類實(shí)體所占的關(guān)系權(quán)重,快速確定疾病與其它實(shí)體間的距離。同時(shí),該技術(shù)有著比MapReduce更為快捷迅速的處理效率,基于內(nèi)存的操作更是大大加快了大數(shù)據(jù)的處理速度,此外,通過Spark的流技術(shù)還可以實(shí)現(xiàn)醫(yī)療知識圖譜的持續(xù)更新,面對當(dāng)前呈現(xiàn)指數(shù)增長醫(yī)療數(shù)據(jù)以及人們迫切的應(yīng)用需求,實(shí)時(shí)更新知識圖譜的重要性不言而喻。通過引入Spark技術(shù),可以大大提升醫(yī)療知識圖譜的實(shí)際應(yīng)用價(jià)值,加快推進(jìn)醫(yī)療大數(shù)據(jù)應(yīng)用的快速發(fā)展。
4 結(jié) 語
醫(yī)療知識圖譜是醫(yī)療信息分析和知識服務(wù)的基礎(chǔ),同時(shí)也是醫(yī)療領(lǐng)域人工智能的重要知識源。本文針對臨床和公眾兩大用戶需求,提出了融合多種數(shù)據(jù)源的醫(yī)療知識圖譜構(gòu)建的概念模型,該模型主要包括各類醫(yī)療數(shù)據(jù)的獲取、醫(yī)療文本數(shù)據(jù)的處理、醫(yī)療實(shí)體及實(shí)體關(guān)系標(biāo)注、醫(yī)療實(shí)體識別、醫(yī)療實(shí)體鏈接、實(shí)體關(guān)系挖掘以及知識圖譜的存儲和表示等關(guān)鍵技術(shù)環(huán)節(jié)。本文一方面提出了融合多種醫(yī)療文本數(shù)據(jù)源的理念,所構(gòu)建的醫(yī)療知識圖譜更為全面、更具實(shí)際應(yīng)用價(jià)值;另一方面,提出了基于Spark技術(shù)的醫(yī)療知識圖譜動態(tài)更新思路,即所構(gòu)建的醫(yī)療知識圖譜是隨著數(shù)據(jù)增長而動態(tài)更新的,具有較強(qiáng)的現(xiàn)實(shí)意義和應(yīng)用價(jià)值。盡管如此,在醫(yī)療知識圖譜的具體實(shí)施和推廣時(shí),仍然面臨著許多問題,如電子病歷屬于患者的個(gè)人隱私,任何機(jī)構(gòu)和個(gè)人在沒有經(jīng)過授權(quán)情況不能擅自使用,所以從國家層面亟待出臺相關(guān)的法律法規(guī),同時(shí)也需要學(xué)界和業(yè)界的協(xié)力推進(jìn),進(jìn)一步推動醫(yī)療知識圖譜的理論和實(shí)踐。
參考文獻(xiàn)
[1]李徐曼,沈江,余海燕.數(shù)據(jù)驅(qū)動的醫(yī)療與健康決策支持研究綜述[J].工業(yè)工程與管理,2017,22(1):1-13.
[2]Lehmann J.DBpedia:A large-scale,Multilingual Knowledge Base Extracted from Wikipedia[J].Semantic Web,2015,6(2):167-195.
[3]Bollacker K,Evans C,Paritosh P,et al.Freebase:A Collaboratively Created Graph Database for Structuring Human Knowledge[C].Proceedings of the 2008 ACM SIGMOD International Conference on Management of Data.ACM,2008:1247-1250.
[4]Dong X,Gabrilovich E,Heitz G,et al.Knowledge Vault:A Web-scale Approach to Probabilistic Knowledge Fusion[C]//ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.ACM,2014:601-610.
[5]Mitchell T,Cohen W,Hruschka E,et al.Never-ending Learning[J].Communications of the ACM,2018,61(5):103-115.
[6]Biega J,Kuzey E,Suchanek F M.Inside YAGO2s:A Transparent Information Extraction Architecture[C].Proceedings of the 22nd International Conference on World Wide Web.ACM,2013:325-328.
[7]Hu F H,Shao Z Q,Ruan T.Self-Supervised Chinese Ontology Learning from Online Encyclopedias[J].The Scientific World Journal,2014:Article ID 848631.
[8]Niu X,Sun X,Wang H,et al.Zhishi.me-weaving Chinese Linking Open Data[C].International Semantic Web Conference.Springer,Berlin,Heidelberg,2011:205-220.
[9]Ernst P,Siu A,Weikum G.KnowLife:A Versatile Approach for Constructing a Large Knowledge Graph for Biomedical Sciences.[J].Bmc Bioinformatics,2015,16(1):1-13.
[10]Bodenreider O.The Unified Medical Language System(UMLS):Integrating Biomedical Terminology[J].Nucleic Acids Research,2004,32(suppl_1):D267-D270.
[11]Uzuner ,Solti I,Cadag E.Extracting Medication Information from Clinical Text[J].Journal of the American Medical Informatics Association,2010,17(5):514-518.
[12]陳德華,殷蘇娜,樂嘉錦,等.一種面向臨床領(lǐng)域時(shí)序知識圖譜的鏈接預(yù)測模型[J].計(jì)算機(jī)研究與發(fā)展,2017,54(12):2920-2930.
[13]Weng H,Liu Z,Yan S,et al.A Framework for Automated Knowledge Graph Construction Towards Traditional Chinese Medicine[C].International Conference on Health Information Science.Springer,Cham,2017:170-181.
[14]He B,Dong B,Guan Y,et al.Building a Comprehensive Syntactic and Semantic Corpus of Chinese Clinical Texts[J].Journal of Biomedical Informatics,2017,69:203-217.
[15]阮彤,孫程琳,王昊奮,等.中醫(yī)藥知識圖譜構(gòu)建與應(yīng)用[J].醫(yī)學(xué)信息學(xué)雜志,2016,37(4):8-13
[16]賈李蓉,劉靜,于彤,等.中醫(yī)藥知識圖譜構(gòu)建[J].醫(yī)學(xué)信息學(xué)雜志,2015,36(8):51-53.
[17]Singhal A.Introducing the Knowledge Graph:Things,Not Strings[EB/OL].http://googleblog.blogspot.ie/2012/05/introducing-knowledgegraph-things-not.html,2018-07-12.
[18]劉嶠,李楊,段宏,等.知識圖譜構(gòu)建技術(shù)綜述[J].計(jì)算機(jī)研究與發(fā)展,2016,53(3):582-600.
[19]馮新翎,何勝,熊太純,等.“科學(xué)知識圖譜”與“Google知識圖譜”比較分析——基于知識管理理論視角[J].情報(bào)雜志,2017,36(1):149-153.
[20]吳運(yùn)兵,陰愛英,林開標(biāo),等.基于多數(shù)據(jù)源的知識圖譜構(gòu)建方法研究[J].福州大學(xué)學(xué)報(bào):自然科學(xué)版,2017,45(3):329-335.
[21]張坤麗,馬鴻超,趙悅淑,等.基于自然語言處理的中文產(chǎn)科電子病歷研究[J].鄭州大學(xué)學(xué)報(bào):理學(xué)版,2017,49(4):40-45.
[22]黃翼彪.開源中文分詞器的比較研究[D].鄭州:鄭州大學(xué),2013.
[23]李國壘,陳先來,夏冬,等.中文病歷文本分詞方法研究[J].中國生物醫(yī)學(xué)工程學(xué)報(bào),2016,35(4):477-481.
[24]于清,陳永杰,丁巖.適用于醫(yī)療衛(wèi)生領(lǐng)域的中文分詞方法研究[J].新疆師范大學(xué)學(xué)報(bào):自然科學(xué)版,2017,36(1):62-66.
[25]張立邦,關(guān)毅,楊錦峰.基于無監(jiān)督學(xué)習(xí)的中文電子病歷分詞[J].智能計(jì)算機(jī)與應(yīng)用,2014,(2):68-71.
[26]Sasaki Y,Tsuruoka Y,McNaught J,et al.How to Make the Most of NE Dictionaries in Statistical NER[J].BMC Bioinformatics,2008,9(11):S5.
[27]葉楓,陳鶯鶯,周根貴,等.電子病歷中命名實(shí)體的智能識別[J].中國生物醫(yī)學(xué)工程學(xué)報(bào),2011,30(2):256-262.
[28]Hu J,Shi X,Liu Z,et al.HITSZ_CNER:A Hybrid System for Entity Recognition from Chinese Clinical Text[C].China Conference on Knowledge Graph and Semantic Computing 2017,SiChuan:Chendu,August,2017:26- 29.
[29]Keerthi S S,Sundararajan S.CRF Versus SVM-struct for Sequence Labeling[R].Yahoo Research Technical Report,2007.
[30]Jiang M,Chen Y,Liu M,et al.A Study of Machine-learning-based Approaches to Extract Clinical Entities and Their Assertions from Discharge Summaries[J].Journal of the American Medical Informatics Association,2011,18(5):601-606.
[31]Lei J,Tang B,Lu X,et al.A Comprehensive Study of Named Entity Recognition in Chinese Clinical Text[J].Journal of the American Medical Informatics Association,2013,21(5):808-814.
[32]Chen Yanxu,Zhang Gang,F(xiàn)ang Haizhou,et al.Clinical Named Entity Recognition Method Based on CRF[C].China Conference on Knowledge Graph and Semantic Computing 2017,SiChuan:Chendu,August,2017:26- 29.
[33]Liu Z,Yang M,Wang X,et al.Entity Recognition from Clinical Texts Via Recurrent Neural Network[J].BMC Medical Informatics and Decision Making,2017,17(2):67.
[34]王世昆,李紹滋,陳彤生.基于條件隨機(jī)場的中醫(yī)命名實(shí)體識別[J].廈門大學(xué)學(xué)報(bào):自然版,2009,26(3):359-364.
[35]Wang Y,Yu Z,Li C,et al.Supervised Methods for Symptom Name Recognition in Free-text Clinical Records of Traditional Chinese Medicine:An Empirical Study[J].Journal of Biomedical Informatics,2013,47(2):91-104.
[36]燕楊,文敦偉,王云吉,等.基于層疊條件隨機(jī)場的中文病歷命名實(shí)體識別[J].吉林大學(xué)學(xué)報(bào)(工),2014,44(6):1843-1848.
[37]王潤奇,關(guān)毅.基于Tri-Training算法的中文電子病歷實(shí)體識別研究[J].智能計(jì)算機(jī)與應(yīng)用,2017,7(6):132-134.
[38]Sundermeyer M,Schlüter R,Ney H.LSTM Neural Networks for Language Modeling[C]//Thirteenth Annual Conference of the International Speech Communication Association,2012.
[39]zlem Uzuner,South B R,Shen S,et al.2010 i2b2/VA Challenge on Concepts,Assertions,and Relations in Clinical Text[J].Journal of the American Medical Informatics Association Jamia,2011,18(5):552.
[40]周鵬程,武川,陸偉.基于多知識庫的短文本實(shí)體鏈接方法研究——以Wikipedia和Freebase為例[J].現(xiàn)代圖書情報(bào)技術(shù),2016,32(6):1-11.
[41]王雪鵬,劉康,何世柱,等.基于網(wǎng)絡(luò)語義標(biāo)簽的多源知識庫實(shí)體對齊算法[J].計(jì)算機(jī)學(xué)報(bào),2017,40(3):701-711.
[42]李陽,高大啟.知識圖譜中實(shí)體相似度計(jì)算研究[J].中文信息學(xué)報(bào),2017,31(1):140-146.
[43]Wang Y,Yu Z,Jiang Y,et al.Automatic Symptom Name Normalization in Clinical Records of Traditional Chinese Medicine[J].BMC Bioinformatics,2010,11(1):40.
[44]Demner-Fushman D,Apostolova E,Islamaj Dogan R.NLMs System Description for the Fourth i2b2/VA Challenge[C]//Proceedings of the 2010 i2b2/VA Workshop on Challenges in Natural Language Processing for Clinical Data.Boston,MA,USA:i2b2,2010.
[45]Frunza O,Inkpen D.Extraction of Disease-treatment Semantic Relations from Biomedical Sentences[C]//Proceedings of the 2010 Workshop on Biomedical Natural Language Processing.Association for Computational Linguistics,2010:91-98.
[46]Wang X,Chused A,Elhadad N,et al.Automated Knowledge Acquisition from Clinical Narrative Reports[J].AMIA.Annual Symposium Proceedings/AMIA Symposium.AMIA Symposium,2008,(6):783-787.
[47]Luo Y.Recurrent Neural Networks for Classifying Relations in Clinical Notes[J].Journal of Biomedical Informatics,2017,72:85-95.
[48]Hwang S,Kim J,Kim J,et al.CSnet:Constructing Symptom Network Based on Disease-symptom Relationships[C]//IEEE International Conference on Systems,Man and Cybernetics.IEEE,2017:960-965.
[49]吳嘉偉,關(guān)毅,呂新波.基于深度學(xué)習(xí)的電子病歷中實(shí)體關(guān)系抽取[J].智能計(jì)算機(jī)與應(yīng)用,2014,4(3):35-38.
[50]Zhao C,Jiang J,Xu Z,et al.A Study of EMR-based Medical Knowledge Network and Its Applications[J].Computer Methods and Programs in Biomedicine,2017,143:13-23.
[51]李夢箐,朱友澤,馬利,等.基于二分圖的疾病與中藥關(guān)聯(lián)性研究[J].世界科學(xué)技術(shù):中醫(yī)藥現(xiàn)代化,2016,(4):575-581.
[52]Kamdar M R,Musen M A.PhLeGrA:Graph Analytics in Pharmacology Over the Web of Life Sciences Linked Open Data[C]//Proceedings of the 26th International Conference on World Wide Web.International World Wide Web Conferences Steering Committee,2017:321-329.
[53]夏宇航,高大啟,阮彤,等.基于知識圖譜的醫(yī)療病歷數(shù)據(jù)存儲研究[J].計(jì)算機(jī)工程,2018.
[54]阮彤,孫程琳,王昊奮,等.中醫(yī)藥知識圖譜構(gòu)建與應(yīng)用[J].醫(yī)學(xué)信息學(xué)雜志,2016,(4):8-13.
[55]Beyan O D,Decker S.An RDF Based Semantic Approach to Model Temporal Relations in Health Records[C]//SWAT4LS,2016.
[56]Wang M,Zhang J,Liu J,et al.Pdd Graph:Bridging Electronic Medical Records and Biomedical Knowledge Graphs Via Entity Linking[C]//International Semantic Web Conference.Springer,Cham,2017:219-227.
[57]王仁武,袁毅,袁旭萍.基于深度學(xué)習(xí)與圖數(shù)據(jù)庫構(gòu)建中文商業(yè)知識圖譜的探索研究[J].圖書與情報(bào),2016,(1):110-117.
[58]Han Z,Zhang Y.Spark:A Big Data Processing Platform Based on Memory Computing[C]//Seventh International Symposium on Parallel Architectures,Algorithms and Programming.IEEE,2016:172-176.
[59]Wills J,Owen S,Laserson U,et al.Advanced Analytics with Spark:Patterns for Learning from Data at Scale[M].OReilly Media,Inc.,2015.
(責(zé)任編輯:郭沫含)