胡紅娟 周 陽
(南華大學附屬第一醫(yī)院護理部 衡陽 421001) (南華大學護理學院 衡陽 421001)
匡澤民 譚 玲
(首都醫(yī)科大學附屬北京安貞醫(yī)院高血壓科 北京 100029) (北京郵電大學計算機學院 北京 100876)
《“健康中國2030”綱要》提出,鼓勵醫(yī)療衛(wèi)生機構(gòu)與互聯(lián)網(wǎng)合作,加強區(qū)域醫(yī)療衛(wèi)生信息資源整合及臨床、科研數(shù)據(jù)整合共享和應用,支持研發(fā)醫(yī)療健康相關(guān)的人工智能技術(shù)。近年來各類知識圖譜不斷涌現(xiàn)[1-3],逐漸融入到醫(yī)學領域,醫(yī)學知識圖譜成為人工智能輔助醫(yī)療系統(tǒng)的基本組成部分[4]。知識圖譜將醫(yī)學知識與互聯(lián)網(wǎng)充分結(jié)合,探索科研數(shù)據(jù)整合共享和應用的方法,為人工智能研發(fā)提供依據(jù)。2017年我國學科目錄進行調(diào)整,首次出現(xiàn)知識圖譜學科方向。目前醫(yī)學是知識圖譜應用最廣的領域之一,醫(yī)學知識圖譜應用也是目前智能大數(shù)據(jù)的前沿研究問題。
有學者[5]提出狹義的知識圖譜是一種大規(guī)模的語義網(wǎng)絡,包含實體、概念及其之間的各種語義關(guān)系。但與傳統(tǒng)語義網(wǎng)絡相比,知識圖譜具有規(guī)模巨大、語義豐富、質(zhì)量精良、結(jié)構(gòu)友好等特性。廣義知識圖譜則是指一種技術(shù)體系,指大數(shù)據(jù)時代知識工程的一系列代表性技術(shù)的總和??偟膩碚f,知識圖譜實質(zhì)是建立在語義網(wǎng)絡上的知識系統(tǒng)[6]。醫(yī)學知識圖譜將知識圖譜與醫(yī)學知識結(jié)合,將互聯(lián)網(wǎng)技術(shù)與醫(yī)學情境融合,實現(xiàn)醫(yī)學數(shù)據(jù)的自動化與智能化處理。構(gòu)建醫(yī)學知識圖譜可為臨床輔助決策、文獻可視化分析、智能問答以及智慧搜索提供支持。
臨床決策支持系統(tǒng)(Clinical Decision Support System,CDSS)使用個體化數(shù)據(jù)對患者進行特定評估并向臨床醫(yī)師提出決策建議。醫(yī)學知識圖譜的誕生為CDSS提供了深層關(guān)系發(fā)現(xiàn)與推理能力。目前研究人員積極探索臨床環(huán)境中決策支持的潛力[7],與知識圖譜結(jié)合開發(fā)適用于醫(yī)療環(huán)境的臨床決策支持系統(tǒng)。Zhao C、Jiang J和Guan Y等[8]開發(fā)電子病歷(Electronic Medical Record,EMR)驅(qū)動的CDSS。該系統(tǒng)利用電子病歷中的醫(yī)學知識網(wǎng)絡表示醫(yī)學知識,構(gòu)建由癥狀、檢查、檢查結(jié)果、疾病和治療5類實體組成的知識網(wǎng)絡,將患者現(xiàn)狀輸入后可獲得關(guān)于疾病測試、初始診斷及治療相應建議。在知識推理方面,由于貝葉斯網(wǎng)絡受到推理及學習的計算復雜性限制,該系統(tǒng)選擇馬爾可夫隨機場(Markov Random Field,MRF)執(zhí)行推理任務。Goodwin T和Harabagiu S[9]設計一個用于回答醫(yī)學問題的CDSS,利用MiMic-III提供一個公開的電子病歷集合,自動生成一個龐大的醫(yī)學知識圖譜,通過概率推理方法獲得問題答案,自動發(fā)現(xiàn)與主題相關(guān)的問題答案可能性,生成包含答案的相關(guān)科學文章。Sheng M、Hu Q和Zhang Y等[10]提出一種基于知識圖譜的數(shù)據(jù)密集型臨床決策支持平臺IDS,該平臺圍繞患者就診過程提供一系列CDSS服務,即查詢、檢查、診斷、藥物、治療及預后等。IDS從醫(yī)學樣本庫中提取三元組形成知識圖譜,然后通過規(guī)則檢測構(gòu)建新的三元組豐富醫(yī)學樣本庫。目前該平臺已應用于鄉(xiāng)村醫(yī)療,有利于降低誤診率。朱超宇和劉雷[11]構(gòu)建一個知識圖譜輔助的肺部影像診斷系統(tǒng),其結(jié)合指南和文獻中肺癌及肺結(jié)核的相關(guān)知識構(gòu)建知識圖譜,醫(yī)生診斷時將患者影像特征與知識圖譜中的影像特征相結(jié)合進行分析,得到更加全面的結(jié)果。研究顯示CDSS主要來源于臨床數(shù)據(jù),其中41.66%來自數(shù)據(jù)集存儲庫或臨床中心,33.33%來自電子健康檔案(Electronic Health Record,EHR)[12]。近年來由于大數(shù)據(jù)和自然語言處理技術(shù)的快速發(fā)展,從電子病歷中自動挖掘知識成為新的研究趨勢[13-14]?;谥R圖譜的CDSS充分利用電子病歷,但不同醫(yī)院平臺的電子病歷數(shù)據(jù)錄入有自己的語言,使得跨越平臺開發(fā)CDSS出現(xiàn)障礙,這就要求電子健康記錄中數(shù)據(jù)創(chuàng)建語言的一致性[15]。臨床指南、科研文獻也是知識的重要來源,通過文本計算機化構(gòu)建知識圖譜,更科學地為臨床決策提供指導。
目前醫(yī)學行業(yè)積累了規(guī)??捎^的大數(shù)據(jù),但是這些數(shù)據(jù)并未創(chuàng)造價值,其中一個重要原因就是數(shù)據(jù)混雜,隱匿于大量文獻當中,用戶無法精確定位。知識圖譜的可視化數(shù)據(jù)分析、視覺知識圖譜構(gòu)建[16]、CiteSpace[17]使用能夠幫助用戶直觀理解醫(yī)學信息內(nèi)容,實現(xiàn)大數(shù)據(jù)的價值變現(xiàn)。例如田元祥、劉莎莎和周新宇等[18]利用CiteSpace構(gòu)建中醫(yī)肝郁脾虛證候診斷標準知識圖譜;李新宇、李翔和廖林麗等[19]基于CiteSpace構(gòu)建中醫(yī)藥論治干眼知識圖譜;張琪、曹林忠和蔣瑋等[20]基于CiteSpace分析股骨頭壞死中醫(yī)藥治療知識圖譜等。通過計量軟件的可視化分析可以直觀了解中醫(yī)子領域研究現(xiàn)狀,通過關(guān)鍵詞聚類分析還可了解該子領域研究集中度。該方法還廣泛應用于心血管慢病分析中,王偉帥、李陽兵和劉鑫源等[21]通過從CNKI中檢索高原高血壓相關(guān)文獻,利用CiteSpace分析直觀了解到該領域文獻在2011發(fā)文量最高,軍區(qū)醫(yī)院在該領域有突出貢獻,研究重點從氧化應激轉(zhuǎn)換到血管緊張素,目前研究熱點為高血壓用藥及護理。知識圖譜在文獻可視化中的應用使文獻閱讀變得簡單直觀,但將多篇文獻構(gòu)建成圖譜,可能會缺失其中某些數(shù)據(jù)的展現(xiàn)。因此利用圖譜技術(shù)時需加強對文獻重點內(nèi)容的提取能力。
問答系統(tǒng)的構(gòu)建要求機器能夠理解自然語言,需要機器具備強大的背景知識,而知識圖譜就是這類背景知識中的重要形式之一。Ruan T、Huang Y和 Liu X等[22]設計一個基于知識圖譜的智能問答工具QAnalysis。用戶可用自然語言輸入其分析需求,該系統(tǒng)會以圖表形式返回答案。該系統(tǒng)實現(xiàn)3個方面的改進:不是直接從知識庫中提取答案,而是從統(tǒng)計上推導出答案;利用患者圖和臨床術(shù)語圖相結(jié)合改善以往語義解析易混淆的現(xiàn)狀;提高問題回答的精度。Fecho K、Balhoff J和 Bizon C等[23]首先采用知識圖譜生產(chǎn)翻譯程序,然后基于3個翻譯推理器ROBOKOP(用面向知識的路徑鏈接的生物醫(yī)學對象推理)、RTX(推理工具)和midiKanren等生產(chǎn)問答系統(tǒng),以生物鏈路模型作為高級本體將領域知識表示為醫(yī)學實體之間關(guān)系的知識圖譜,應用MCAT問題評估問答系統(tǒng)改進問答系統(tǒng)以提高性能。李賀、劉嘉宇和李世鈺等[24]利用公開數(shù)據(jù)庫構(gòu)建疾病知識圖譜,基于知識圖譜確定檢查、癥狀、科室、病因及傳染性5類問題,通過AC多模式匹配算法,結(jié)合語義相似度計算進行癥狀實體識別,封裝匹配詞轉(zhuǎn)換成查詢語言,實現(xiàn)問題回答。同時優(yōu)化問句分析、信息檢索及答案抽取,從而提高醫(yī)療問答系統(tǒng)與網(wǎng)絡技術(shù)、醫(yī)學知識的融合度。Li C、Hang S和Hu X等[25]構(gòu)建老年醫(yī)療保健知識圖譜,利用爬蟲技術(shù)從百科網(wǎng)站獲取老年健康信息構(gòu)建本體庫,采用變體的關(guān)聯(lián)規(guī)則挖掘算法檢測實體之間關(guān)系,使用Limes算法將實體與88 446個實體的關(guān)系融合,建立度量表達式最終形成知識圖譜,利用知識圖譜構(gòu)建一個歷史行為驅(qū)動的問答平臺KnowHealth,該平臺將健康問題分成12類并根據(jù)老年人的歷史行為回答老年保健相關(guān)問題。盡管利用知識圖譜在構(gòu)建醫(yī)療問答系統(tǒng)方面開展了相關(guān)研究,但受限于現(xiàn)有醫(yī)學知識圖譜的推理能力,知識圖譜和問答系統(tǒng)的結(jié)合還有一定局限,并且大部分問答系統(tǒng)主要是針對簡單問題,對于復雜醫(yī)療問題的解決有一定限制[26]。因此迫切需要推進相關(guān)研究的創(chuàng)新。
互聯(lián)網(wǎng)時代醫(yī)療信息呈現(xiàn)爆炸式增長,要精準、便捷獲取重要信息顯得更加困難,因此智能化、情景化、社會化的智慧搜索技術(shù)應用成為研究熱點。而知識圖譜可為有效查詢和搜索數(shù)據(jù)提供更為靈活的數(shù)據(jù)結(jié)果。Hasan S、Rivera D和Wu X C等[27]提出用于癌癥數(shù)據(jù)的科學數(shù)字圖書館框架,核心是知識圖譜。該平臺利用基于語義網(wǎng)絡的知識圖譜儲存癌癥注冊表數(shù)據(jù),實現(xiàn)特點場景數(shù)據(jù)查詢,例如乳腺癌治療序列變化的查詢。將知識圖譜與外部數(shù)據(jù)集鏈接,以便于使用多個數(shù)據(jù)集執(zhí)行復雜查詢。同時該平臺還可實現(xiàn)癌癥知識可視化,用戶通過索引檢索和信息檢索進行查詢和搜索。Shenoi S J、Vi L和Sarvesh S等[28]開發(fā)腫瘤搜索引擎,檢索與患者狀況、遺傳特征、年齡和性別相關(guān)的科學文章和臨床試驗,構(gòu)建知識圖譜,對疾病、基因和人口統(tǒng)計學信息進行擴展查詢。Struck A、Walsh B和 Buchanan A等[29]構(gòu)建一個生物醫(yī)學證據(jù)圖譜(BioMedical Evidence Graph,BMEG),內(nèi)容包括患者樣本信息、突變、基因表達、藥物反應數(shù)據(jù)、基因組注釋和文獻分析。BMEG通過導入和取消幾個相關(guān)資源來構(gòu)建連貫圖表,將這些復雜數(shù)據(jù)進行整合和分析,實現(xiàn)癌癥生物數(shù)據(jù)查詢。醫(yī)學知識圖譜搜索不僅提供用戶網(wǎng)頁間超鏈接的文檔關(guān)系,還包括不同類型實體間豐富的語義關(guān)系。然而受限于醫(yī)學知識圖譜的知識數(shù)量和質(zhì)量,需要不斷改進和完善技術(shù)框架。
知識圖譜作為互聯(lián)網(wǎng)領域的新興技術(shù),是信息處理和知識組織的強大工具。知識圖譜將領域內(nèi)的復雜知識通過信息抽取、數(shù)據(jù)挖掘、語義匹配、語義計算和知識推理等過程精準地描述出來,描述知識及其演化過程、發(fā)展規(guī)律,從而為研究和決策提供準確、可追蹤、可解釋、可推理的知識數(shù)據(jù)。但目前知識圖譜研究還不夠完善和深入,需要在以下方面進行進一步嘗試:一是知識圖譜應用應標準化,豐富其功能,例如基于高血壓指南構(gòu)建高血壓用藥知識圖譜,實現(xiàn)用藥推薦、藥物查詢、藥物問詢等功能;二是知識圖譜普及應公開化,如臨床決策與健康管理相結(jié)合,增加其利用率并實現(xiàn)真正落地。