王松,李正鈞,楊濤,胡孔法,3
(1.南京中醫(yī)藥大學(xué)人工智能與信息技術(shù)學(xué)院,江蘇 南京 210023;2.南京中醫(yī)藥大學(xué)中醫(yī)藥文獻(xiàn)研究所,江蘇 南京 210023;3.江蘇省中醫(yī)藥防治腫瘤協(xié)同創(chuàng)新中心,江蘇 南京 210023)
自2012年5月谷歌(Google)正式推出知識(shí)圖譜搜索引擎服務(wù),知識(shí)圖譜得到廣泛關(guān)注和應(yīng)用。中醫(yī)藥領(lǐng)域知識(shí)體系具有規(guī)模龐大、內(nèi)涵豐富、關(guān)系復(fù)雜等特點(diǎn)。知識(shí)圖譜作為資源管理和知識(shí)應(yīng)用的重要技術(shù),應(yīng)用于中醫(yī)藥領(lǐng)域能夠更加有效地描述、挖掘?qū)嶓w間的關(guān)系,使大規(guī)模知識(shí)存儲(chǔ)更為規(guī)范、應(yīng)用更加高效,實(shí)現(xiàn)中醫(yī)藥資源的有效整合,為知識(shí)服務(wù)相關(guān)研究奠定基礎(chǔ),為中醫(yī)藥傳承和發(fā)展提供新的思路。
知識(shí)圖譜是一種以圖的形式描述知識(shí)發(fā)展進(jìn)程與內(nèi)部相關(guān)關(guān)系的技術(shù)方法[1],本質(zhì)上是一種大規(guī)模的語義網(wǎng)絡(luò),是實(shí)現(xiàn)知識(shí)網(wǎng)絡(luò)可視化的有效載體[2]。知識(shí)圖譜是由節(jié)點(diǎn)和邊組成的具有有向圖結(jié)構(gòu)的知識(shí)表示方式,其中節(jié)點(diǎn)表示實(shí)體,邊代表實(shí)體之間的語義關(guān)系。知識(shí)圖譜與本體聯(lián)系緊密,本體側(cè)重于表達(dá)認(rèn)知的概念框架,知識(shí)圖譜旨在以圖譜的形式直觀、準(zhǔn)確地描述實(shí)體或概念本身及其之間的關(guān)系,故在知識(shí)圖譜構(gòu)建時(shí),模式層構(gòu)建實(shí)質(zhì)上就是在完成本體定義的任務(wù)[3-4]。
知識(shí)圖譜根據(jù)知識(shí)覆蓋范圍分為通用知識(shí)圖譜和領(lǐng)域知識(shí)圖譜類。通用知識(shí)圖譜體量大,覆蓋面廣,代表性的知識(shí)圖譜包括DBpedia[5]、YAGO[6]等;領(lǐng)域知識(shí)圖譜對(duì)知識(shí)的深度和精度有更高要求,應(yīng)用形式更廣泛,如中國中醫(yī)科學(xué)院中醫(yī)藥信息研究所基于中醫(yī)藥學(xué)語言系統(tǒng)構(gòu)建中醫(yī)藥知識(shí)圖譜,實(shí)現(xiàn)綜合型知識(shí)檢索、問答以及決策等智能應(yīng)用[7]。
目前,構(gòu)建知識(shí)圖譜的整體技術(shù)路線如圖1所示,中醫(yī)藥領(lǐng)域知識(shí)圖譜的構(gòu)建流程同樣包括知識(shí)抽取、知識(shí)融合、知識(shí)存儲(chǔ)和知識(shí)推理等多種關(guān)鍵技術(shù),下面選擇主要技術(shù)逐一簡(jiǎn)要介紹。
圖1 知識(shí)圖譜構(gòu)建技術(shù)路線
知識(shí)抽取的目標(biāo)是從不同來源數(shù)據(jù)中以自動(dòng)或半自動(dòng)的方式抽取知識(shí)。數(shù)據(jù)來源主要分為結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)三種。不同類型數(shù)據(jù),抽取的方法也不同。結(jié)構(gòu)化數(shù)據(jù)主要分為關(guān)系數(shù)據(jù)庫和鏈接數(shù)據(jù),可通過直接映射、圖映射等方法進(jìn)行知識(shí)抽取;半結(jié)構(gòu)化數(shù)據(jù)主要分為百科類數(shù)據(jù)和普通網(wǎng)頁數(shù)據(jù),通常使用包裝器技術(shù)進(jìn)行抽??;中醫(yī)醫(yī)案、中醫(yī)文獻(xiàn)、中醫(yī)古籍等都屬于非結(jié)構(gòu)化數(shù)據(jù),也是當(dāng)前中醫(yī)藥領(lǐng)域知識(shí)抽取研究的重點(diǎn)內(nèi)容。知識(shí)抽取包括實(shí)體抽取、關(guān)系抽取、屬性抽取等任務(wù)。實(shí)體抽取主要是從非結(jié)構(gòu)中醫(yī)文本中定位實(shí)體的邊界并將其分配到預(yù)定義類別(如癥狀、中藥、疾病等)集合的過程[4]。目前,中醫(yī)藥領(lǐng)域?qū)嶓w抽取的主流方法是將傳統(tǒng)的機(jī)器學(xué)習(xí)模型與深度學(xué)習(xí)方法相結(jié)合,如用于序列標(biāo)記的長(zhǎng)短期記憶LSTM-CRF模型[8]。關(guān)系抽取通常在已識(shí)別的實(shí)體基礎(chǔ)上,從文本中抽取實(shí)體間關(guān)系[9],分為同類型實(shí)體間關(guān)系抽取(如疾病-疾病等)和不同類型實(shí)體間關(guān)系抽取(如疾病-中藥等)。屬性抽取是從異構(gòu)信息源如醫(yī)學(xué)詞典、主流醫(yī)學(xué)網(wǎng)站等為醫(yī)學(xué)實(shí)體構(gòu)造屬性列表,對(duì)實(shí)體進(jìn)行完整描述,如中藥的屬性包括藥性、藥味、歸經(jīng)、功效等。
知識(shí)融合旨在建立異構(gòu)本體或異構(gòu)實(shí)例之間的聯(lián)系,使從不同知識(shí)源中抽取的知識(shí)整合在同一框架下,且異構(gòu)的知識(shí)圖譜間能夠互操作[10]。由于不同知識(shí)源中數(shù)據(jù)存在重疊、質(zhì)量良莠不齊等問題,并且通過知識(shí)抽取與挖掘所獲取的數(shù)據(jù)可能會(huì)包含錯(cuò)誤信息等,故需要進(jìn)行知識(shí)融合。知識(shí)融合從融合元素對(duì)對(duì)象進(jìn)行劃分:一是框架匹配,對(duì)概念、屬性、關(guān)系等進(jìn)行匹配和融合[11-12],如對(duì)不同來源的中藥的別名、功效等屬性進(jìn)行融合,可根據(jù)各個(gè)數(shù)據(jù)源可信度及不同來源中出現(xiàn)次數(shù)進(jìn)行排序,補(bǔ)充到相應(yīng)屬性字段中[13];二是實(shí)體對(duì)齊,判斷兩個(gè)知識(shí)庫中的兩個(gè)或幾個(gè)實(shí)體是否表示同一對(duì)象,通過對(duì)齊合并相同的實(shí)體完成知識(shí)融合[14]。傳統(tǒng)的實(shí)體對(duì)齊方法?;趯傩蕴卣飨嗨频某蓪?duì)比較方法[15];基于機(jī)器學(xué)習(xí)的實(shí)體對(duì)齊方法是將其轉(zhuǎn)化為二分類問題[14]。知識(shí)融合還需解決多個(gè)圖譜實(shí)例間的沖突,如何檢測(cè)和消解沖突是知識(shí)融合的重要步驟[16]。
對(duì)知識(shí)進(jìn)行持久化存儲(chǔ),使其滿足用戶的查詢、推理等需求是知識(shí)圖譜的必備功能之一。按照存儲(chǔ)結(jié)構(gòu),知識(shí)圖譜的存儲(chǔ)方式大體分為基于表結(jié)構(gòu)的存儲(chǔ)和基于圖結(jié)構(gòu)的存儲(chǔ)?;诒斫Y(jié)構(gòu)的存儲(chǔ)是將知識(shí)圖譜中的數(shù)據(jù)存儲(chǔ)在二維的數(shù)據(jù)表中,包括關(guān)系數(shù)據(jù)庫、三元組表和類型表。目前大多數(shù)知識(shí)圖譜是以圖數(shù)據(jù)庫進(jìn)行存儲(chǔ),圖數(shù)據(jù)庫通過節(jié)點(diǎn)、邊和屬性對(duì)數(shù)據(jù)進(jìn)行表示和存儲(chǔ),能夠?qū)F(xiàn)實(shí)世界中的關(guān)聯(lián)數(shù)據(jù)直觀表現(xiàn)為圖的形式[17]。Neo4j開源數(shù)據(jù)庫是目前最流行的圖數(shù)據(jù)庫之一,具備高效查詢能力和拓展性。對(duì)于存儲(chǔ)結(jié)構(gòu)和工具的選擇,需要綜合考慮數(shù)據(jù)庫性能和對(duì)后續(xù)任務(wù)的支持度等方面。
知識(shí)推理是指基于圖譜從已有事實(shí)或關(guān)系推斷未知的事實(shí)或關(guān)系。中醫(yī)領(lǐng)域知識(shí)圖譜中,知識(shí)推理可以輔助醫(yī)生進(jìn)行疾病診斷和提供治療方案等。知識(shí)推理的應(yīng)用主要包括知識(shí)補(bǔ)全、知識(shí)對(duì)齊等。傳統(tǒng)的知識(shí)推理方法主要通過規(guī)則從已存在的知識(shí)圖譜中推理新的實(shí)體或關(guān)系,通常適用于知識(shí)圖譜中層次較低的實(shí)體分類[18];基于統(tǒng)計(jì)推理是通過統(tǒng)計(jì)規(guī)律發(fā)現(xiàn)隱含關(guān)系;基于圖結(jié)構(gòu)的推理是利用實(shí)體之間的路徑所蘊(yùn)含信息進(jìn)行語義關(guān)系推理[19]。隨著深度學(xué)習(xí)的發(fā)展,基于表示學(xué)習(xí)的推理和基于深度學(xué)習(xí)的推理優(yōu)勢(shì)突出,知識(shí)推理方法未來將不斷融合以應(yīng)對(duì)更加復(fù)雜、多樣的推理任務(wù),并且僅僅依靠于知識(shí)圖譜本身推理并不能完全彌補(bǔ)知識(shí)圖譜的不完整性,外部信息也是很好的補(bǔ)充。
中醫(yī)藥知識(shí)圖譜的構(gòu)建是以中醫(yī)藥學(xué)科建設(shè)目標(biāo)、研究方向與等級(jí)分類[20]為指導(dǎo),下面對(duì)現(xiàn)有的中醫(yī)藥知識(shí)圖譜,根據(jù)其知識(shí)范圍和應(yīng)用目標(biāo)進(jìn)行簡(jiǎn)要?dú)w納,如表1所示。
中醫(yī)學(xué)是在長(zhǎng)期的醫(yī)療實(shí)踐中形成的獨(dú)特理論體系。石燕等[21]繪制中醫(yī)體質(zhì)知識(shí)圖譜,對(duì)近十年中醫(yī)體質(zhì)發(fā)展情況、研究熱點(diǎn)進(jìn)行可視化展示,并得出中醫(yī)體質(zhì)辨識(shí)在中醫(yī)治未病和全民健康管理中具有良好的應(yīng)用前景。陳陵芳[22]借助Citespace知識(shí)圖譜可視化軟件從作者、機(jī)構(gòu)和研究熱點(diǎn)方面對(duì)中國知網(wǎng)中“病機(jī)十九條”相關(guān)文獻(xiàn)進(jìn)行分析,構(gòu)建“病機(jī)十九條”的知識(shí)庫模型,并以肝郁證、肺經(jīng)風(fēng)熱證等實(shí)例驗(yàn)證了知識(shí)庫的有效性。張瑩瑩[23]建立基于中醫(yī)藥知識(shí)圖譜的舌象診療系統(tǒng),該系統(tǒng)能夠根據(jù)用戶輸入的癥狀和上傳的舌象照片,給出中醫(yī)辨證結(jié)果及建議用藥。盧克治[24]基于深度神經(jīng)網(wǎng)絡(luò)對(duì)中醫(yī)古籍文獻(xiàn)進(jìn)行實(shí)體抽取和關(guān)系抽取以構(gòu)建知識(shí)圖譜,并通過圖數(shù)據(jù)庫搭建可視化平臺(tái),基于Web端實(shí)現(xiàn)知識(shí)搜索和發(fā)現(xiàn)。
將知識(shí)圖譜技術(shù)應(yīng)用于中醫(yī)藥臨床研究,可以為中醫(yī)診療知識(shí)的傳播和學(xué)習(xí)提供新的思路和方法。牟梓君[25]通過構(gòu)建知識(shí)圖譜從疾病、證候、癥狀、治法、療效等方面實(shí)現(xiàn)小兒腦癱知識(shí)體系的可視化,為臨床疾病診療方案的制定和優(yōu)化提供方法。石英杰[26]模擬臨床診療路徑,構(gòu)建基于病機(jī)辨證模型的胸痹知識(shí)圖譜,為臨床智能輔助診斷提供借鑒。胡嘉元[27]應(yīng)用Gephi軟件構(gòu)建中醫(yī)病機(jī)內(nèi)涵知識(shí)圖譜,并基于圖譜建立中醫(yī)臨床個(gè)體化診療決策支持系統(tǒng),應(yīng)用于中醫(yī)藥治療心血管疾病的臨床分析和輔助決策。鄭子強(qiáng)[28]針對(duì)慢性腎臟病診療過程構(gòu)建中醫(yī)診療本體層,并建立中醫(yī)知識(shí)圖譜學(xué)習(xí)和推理原型系統(tǒng)。孫明俊等[29]構(gòu)建類風(fēng)濕性關(guān)節(jié)炎的中醫(yī)輔助診療系統(tǒng),向醫(yī)生展示相關(guān)的診療指南并推薦藥方。
名老中醫(yī)代表著當(dāng)前中醫(yī)學(xué)術(shù)和臨床發(fā)展的最高水平,張雨琪等[30]選取名醫(yī)趙炳南、朱仁康為研究對(duì)象,制定包含病-證-癥-法-方-藥等概念及概念間關(guān)系的知識(shí)框架,并應(yīng)用圖數(shù)據(jù)庫進(jìn)行可視化展示。劉凡等[31]以姚乃禮醫(yī)師脾胃病診療經(jīng)驗(yàn)文獻(xiàn)為數(shù)據(jù)來源,基于Neo4j數(shù)據(jù)庫構(gòu)建名老中醫(yī)臨床經(jīng)驗(yàn)知識(shí)圖譜,實(shí)現(xiàn)可視化展示和語義搜索功能。
構(gòu)建中醫(yī)方藥知識(shí)圖譜可以高效地對(duì)方藥等相關(guān)實(shí)體進(jìn)行管理。郭文龍[12]構(gòu)建中醫(yī)方劑知識(shí)圖譜,對(duì)方劑組成、劑量、炮制等信息進(jìn)行直觀展示。周孜恒等[32]基于《脾胃論》構(gòu)建中醫(yī)方劑本體,實(shí)現(xiàn)智能檢索應(yīng)用。尹丹等[33]設(shè)計(jì)中醫(yī)經(jīng)方知識(shí)圖譜,并基于知識(shí)圖譜初步探索并設(shè)計(jì)了一種模擬人思維進(jìn)行檢索的經(jīng)方知識(shí)圖譜搜索模式,此搜索方案仍需不斷完善以使知識(shí)圖譜更加貼合中醫(yī)臨床診療的需求。劉禹琪[34]構(gòu)建中醫(yī)名方知識(shí)圖譜,并通過圖譜進(jìn)行藥物重定位。吳鴻[35]對(duì)《本草綱目》和《中國典型病例大全》中的方劑、藥物、疾病等進(jìn)行實(shí)體、關(guān)系抽取,建立中醫(yī)診療知識(shí)圖譜,實(shí)現(xiàn)癥狀與方劑、癥狀與藥物等之間關(guān)系推理,為方劑智能推薦服務(wù)奠定基礎(chǔ)。
在中醫(yī)藥知識(shí)圖譜構(gòu)建方法和標(biāo)準(zhǔn)化流程方面,已有部分學(xué)者進(jìn)行了初步探索。于彤等[2]以基于本體和語義網(wǎng)絡(luò)技術(shù)構(gòu)建的中醫(yī)藥學(xué)語言系統(tǒng)(TCMLS)為框架,初步構(gòu)建中醫(yī)藥知識(shí)圖譜,并以可視化圖形方式進(jìn)行展示,這也是對(duì)TCMLS的一種擴(kuò)充,并探索基于知識(shí)圖譜搭建中醫(yī)藥維基百科系統(tǒng)或?qū)崿F(xiàn)知識(shí)地圖系統(tǒng)等應(yīng)用。張德政等[36]采用本體知識(shí)表示方法構(gòu)建中醫(yī)核心知識(shí)圖譜,并在圖譜基礎(chǔ)上探討中醫(yī)臨證經(jīng)驗(yàn)等相關(guān)應(yīng)用。賈李蓉等[37]從資料來源、研究?jī)?nèi)容、展示形式等構(gòu)建中醫(yī)藥知識(shí)圖譜,并提出基于中醫(yī)藥知識(shí)圖譜檢索系統(tǒng)的應(yīng)用前景。上海曙光醫(yī)院構(gòu)建包含疾病庫、證候庫、方藥庫等的中醫(yī)藥知識(shí)圖譜,實(shí)現(xiàn)中醫(yī)藥知識(shí)問答和輔助開藥應(yīng)用[13]。中國中醫(yī)科學(xué)院中醫(yī)藥信息研究所致力于中醫(yī)藥信息化建設(shè)和數(shù)字資源利用等相關(guān)研究,目前已經(jīng)建設(shè)中醫(yī)藥學(xué)語言系統(tǒng)、中醫(yī)經(jīng)方知識(shí)圖譜、中醫(yī)美容知識(shí)圖譜等9個(gè)知識(shí)圖譜,并將知識(shí)圖譜嵌入中醫(yī)藥知識(shí)服務(wù)平臺(tái)TCMKB中,以可視化方式進(jìn)行展示,方便中醫(yī)用戶在概念層次上瀏覽領(lǐng)域知識(shí),實(shí)現(xiàn)知識(shí)檢索、問答以及決策等應(yīng)用[7]。除了知識(shí)圖譜整體構(gòu)建思路,技術(shù)方法的選擇也同樣重要。目前,中醫(yī)知識(shí)大多以非結(jié)構(gòu)文本形式存在,面對(duì)海量的中醫(yī)知識(shí),手動(dòng)對(duì)知識(shí)進(jìn)行全面抽取耗時(shí)、耗力,如何準(zhǔn)確、高效地對(duì)這類文本進(jìn)行分析和處理是當(dāng)前知識(shí)圖譜研究的重點(diǎn),也是知識(shí)圖譜構(gòu)建中具有挑戰(zhàn)性的任務(wù)之一。屈倩倩等[38]基于Bert-BiLSTM-CRF模型識(shí)別出《傷寒論》中癥狀、疾病名稱、方劑、中藥、時(shí)間5類實(shí)體,識(shí)別精度較高。高佳奕等[39]基于LSTM-CRF模型對(duì)國醫(yī)大師的中醫(yī)醫(yī)案癥狀實(shí)體進(jìn)行抽取,通過多分類指標(biāo)評(píng)價(jià)和不同變體模型的對(duì)比,得出帶有Peephole機(jī)制的雙向LSTM識(shí)別效果較好,為中醫(yī)文本的自動(dòng)化抽取提供方法上的參考。將自然語言處理技術(shù)應(yīng)用于中醫(yī)文本抽取對(duì)研究效率的提高具有重要意義,未來研究需不斷探索適應(yīng)于中醫(yī)藥領(lǐng)域且具有中醫(yī)藥特色的命名實(shí)體識(shí)別模型,以期加快中醫(yī)智能化發(fā)展。
中醫(yī)養(yǎng)生學(xué)是我國具有中華民族特色的領(lǐng)域,Yu等[40]參考相關(guān)典籍、教材等構(gòu)建中醫(yī)養(yǎng)生頂層本體,確定領(lǐng)域概念及其相關(guān)關(guān)系,并借助領(lǐng)域現(xiàn)有詞庫作為數(shù)據(jù)資源,完成中醫(yī)養(yǎng)生知識(shí)圖譜構(gòu)建,并實(shí)現(xiàn)檢索、瀏覽、可視化功能,向用戶提供準(zhǔn)確、全面的中醫(yī)養(yǎng)生知識(shí)。張靜等[41]應(yīng)用SATI3.2和Ucinet6軟件繪制中藥安全知識(shí)圖譜,揭示中藥安全領(lǐng)域的主要研究熱點(diǎn)及關(guān)聯(lián)性,為中藥安全研究開展提供參考。
綜上所述,目前中醫(yī)藥知識(shí)圖譜在中醫(yī)基礎(chǔ)理論、臨床、方藥、方法學(xué)等方面已經(jīng)取得一些成果,可將中醫(yī)藥知識(shí)圖譜應(yīng)用研究歸納為3個(gè)方向:①部分研究以科學(xué)計(jì)量學(xué)為理論基礎(chǔ),多以數(shù)據(jù)庫中期刊文獻(xiàn)為來源,應(yīng)用可視化軟件繪制作者、機(jī)構(gòu)、關(guān)鍵詞等相關(guān)信息的圖譜,從不同角度展示中醫(yī)藥領(lǐng)域結(jié)構(gòu)特點(diǎn)、研究前沿和發(fā)展趨勢(shì),但大多研究仍集中在宏觀概述層面上,知識(shí)圖譜解讀一定程度上依賴定性描述和判斷,未來需更深入的研究和挖掘。②部分研究偏于技術(shù)方法,對(duì)中醫(yī)藥知識(shí)圖譜構(gòu)建方法、標(biāo)準(zhǔn)化流程和算法模型開發(fā)等進(jìn)行探索和實(shí)踐,其中基于本體的中醫(yī)藥知識(shí)表示研究比較多,為中醫(yī)藥知識(shí)的關(guān)聯(lián)、整合與分析等提供有力手段,但面對(duì)多類型、多源知識(shí)表達(dá)則能力有限,且尚未形成明確完整的知識(shí)圖譜建模策略和流程,這也導(dǎo)致研究結(jié)果之間存在差異[42]。③部分研究以應(yīng)用為主,以知識(shí)圖譜為基礎(chǔ)開展知識(shí)問答、知識(shí)推薦、輔助診斷等服務(wù)探索研究,為醫(yī)生臨床診療服務(wù),但是由于中醫(yī)個(gè)體化診療和干預(yù)等特點(diǎn),使部分研究與真實(shí)臨床診療結(jié)果具有一定的差距,如何建模實(shí)體使模型推薦的結(jié)果更加符合中醫(yī)理論要求是當(dāng)前研究的重點(diǎn)問題。
中醫(yī)術(shù)語是中醫(yī)藥領(lǐng)域利用特定文字來表述或限定專業(yè)概念的符號(hào),集中體現(xiàn)中醫(yī)學(xué)領(lǐng)域的核心知識(shí)[43]。中醫(yī)藥領(lǐng)域知識(shí)表述多樣化,專家診療相對(duì)獨(dú)立、各具特點(diǎn),常以非結(jié)構(gòu)化文本形式存在,缺乏自然語言處理方面的資源,給中醫(yī)文本信息抽取和利用帶來一定困難,故需要標(biāo)準(zhǔn)的中醫(yī)專業(yè)術(shù)語作為支撐。目前中醫(yī)藥領(lǐng)域已有權(quán)威的藥物、疾病詞典,但是由于癥狀描述本身相對(duì)復(fù)雜,在中醫(yī)癥狀術(shù)語規(guī)范問題上尚未形成統(tǒng)一標(biāo)準(zhǔn),缺乏權(quán)威的、全面的、受業(yè)內(nèi)廣泛認(rèn)可的術(shù)語詞典。知識(shí)抽取的質(zhì)量直接決定上層任務(wù)的好壞,圍繞統(tǒng)一的中醫(yī)術(shù)語標(biāo)準(zhǔn)進(jìn)行規(guī)范,對(duì)后續(xù)知識(shí)圖譜的應(yīng)用具有重要的意義。
模式層構(gòu)建的有效性直接影響知識(shí)圖譜構(gòu)建的質(zhì)量。中醫(yī)藥領(lǐng)域隱性知識(shí)豐富且關(guān)系復(fù)雜,構(gòu)建領(lǐng)域知識(shí)圖譜耗時(shí)、耗力,本體構(gòu)建并沒有嚴(yán)格的要求和規(guī)范,且中醫(yī)本體往往是由多個(gè)機(jī)構(gòu)獨(dú)立構(gòu)建,如何定義本體間的關(guān)系尚未有統(tǒng)一的標(biāo)準(zhǔn),其術(shù)語表達(dá)和關(guān)系定義都具有較大差別,這也導(dǎo)致本體使用率和重復(fù)率不高。現(xiàn)階段知識(shí)表示方式大多仍是基于三元組形式進(jìn)行語義映射,知識(shí)抽取往往針對(duì)的是二元關(guān)系抽取,然而二元關(guān)系很難表達(dá)實(shí)體關(guān)系的時(shí)空特性,面向多類型、多源融合的信息時(shí),多元關(guān)系的展示仍需深入探索。
隨著醫(yī)療數(shù)據(jù)不斷增多以及中醫(yī)師在實(shí)踐過程中臨床資料不斷積累,這些不同來源的中醫(yī)知識(shí)會(huì)存在大量重疊、知識(shí)質(zhì)量參差不齊、知識(shí)關(guān)聯(lián)關(guān)系不明確等問題[44]。知識(shí)融合主要研究如何將不同來源抽取的知識(shí)通過對(duì)齊、合并、消歧等操作整合在同一框架下。其中本體層融合時(shí),會(huì)出現(xiàn)不同本體間某些術(shù)語描述同一類實(shí)體的數(shù)據(jù)情況,那么需要本體融合技術(shù)把它們進(jìn)行融合,但由于中醫(yī)本體的復(fù)雜性,中醫(yī)本體對(duì)齊問題尚未能很好地解決[45]。中醫(yī)藥領(lǐng)域知識(shí)融合技術(shù)不斷發(fā)展,但是不同的技術(shù)在效率、適應(yīng)范圍等方面均有不同,故仍需要人工干預(yù),進(jìn)一步完善知識(shí)融合技術(shù)規(guī)范,實(shí)現(xiàn)異構(gòu)知識(shí)圖譜之間的互操作。
目前,中醫(yī)藥知識(shí)圖譜輔助診療系統(tǒng)的構(gòu)建大多借助于人工智能領(lǐng)域較為成熟的方法和技術(shù),但這些方法和技術(shù)也具有一定的適用范圍,不同的方法在實(shí)際應(yīng)用場(chǎng)景中所表現(xiàn)的特征及蘊(yùn)含的內(nèi)容存在差異性。同時(shí)也要考慮這些技術(shù)和方法與中醫(yī)藥實(shí)際情況的適配程度,由于病情千變?nèi)f化及中醫(yī)個(gè)體化診療等特點(diǎn),使得部分推理結(jié)果與中醫(yī)真實(shí)診療結(jié)果存在一定的差距,目前藥方推薦評(píng)價(jià)一般是醫(yī)生主觀評(píng)價(jià),尚未有定量指標(biāo)[29]。如何選擇適合的方法和技術(shù)使模型推薦的結(jié)果更加符合中醫(yī)理論并更好地服務(wù)中醫(yī)臨床?如何提升中醫(yī)知識(shí)推理的效率和準(zhǔn)確性?這是今后中醫(yī)藥知識(shí)圖譜研究需要重點(diǎn)關(guān)注的方向。
知識(shí)圖譜因其具有知識(shí)語義化、數(shù)據(jù)易關(guān)聯(lián)、可擴(kuò)展等特點(diǎn),已經(jīng)成為資源管理和知識(shí)應(yīng)用的重要技術(shù),中醫(yī)藥與知識(shí)圖譜相結(jié)合是中醫(yī)藥事業(yè)不斷發(fā)展的必然趨勢(shì)。但鑒于中醫(yī)藥知識(shí)圖譜仍處于研究探索階段,理論內(nèi)核仍需完善,知識(shí)圖譜的相關(guān)功能也需不斷探索。
知識(shí)獲取是知識(shí)圖譜構(gòu)建過程中重要的一步,其準(zhǔn)確率、完整性和有效率大大影響后續(xù)知識(shí)圖譜的質(zhì)量。中醫(yī)藥領(lǐng)域數(shù)據(jù)龐大、概念表達(dá)多樣化且關(guān)系復(fù)雜,領(lǐng)域知識(shí)圖譜構(gòu)建缺乏相關(guān)資源,故需要先統(tǒng)一標(biāo)準(zhǔn),才能從這些數(shù)據(jù)中挖掘高質(zhì)量的知識(shí)。其次,中醫(yī)藥領(lǐng)域中積累了大量以文本形式存在的知識(shí)源,如中醫(yī)醫(yī)案、中醫(yī)文獻(xiàn)、中醫(yī)古籍等,如何使其電子化并保證電子化過程中知識(shí)的完整度和規(guī)范化也是未來研究的方向。此外,名老中醫(yī)辨證往往依賴自身經(jīng)驗(yàn)且各具特點(diǎn),其醫(yī)案也是他們學(xué)術(shù)思想和臨床經(jīng)驗(yàn)的載體,很多隱性知識(shí)難以明確表達(dá),如何對(duì)這些知識(shí)進(jìn)行抽取以更好地傳承名老中醫(yī)經(jīng)驗(yàn)也是值得探討的問題。基于深度學(xué)習(xí)和群體智能的知識(shí)抽取方法逐漸成為研究主流,為中醫(yī)藥知識(shí)抽取帶來新的機(jī)會(huì)與挑戰(zhàn)。
多模態(tài)是指多個(gè)知識(shí)表示方式或者來源。中醫(yī)藥領(lǐng)域的多模態(tài)知識(shí)包含病史信息、理化檢查結(jié)果、影像圖片信息、聲音信息等。目前,多模態(tài)融合技術(shù)發(fā)展迅速并已經(jīng)成為研究熱門,旨在將不同模態(tài)的數(shù)據(jù)相互融合并充分發(fā)揮其優(yōu)點(diǎn),實(shí)現(xiàn)多模態(tài)數(shù)據(jù)之間的互補(bǔ)性。在對(duì)中醫(yī)古籍構(gòu)建知識(shí)圖譜時(shí),部分古籍中涉及的大量插圖,僅僅靠文本數(shù)據(jù)不足以覆蓋全部知識(shí),將其與文本信息相融合也能便于用戶理解。中醫(yī)臨床辨證采取四診合參,涉及聽覺、視覺、嗅覺、觸覺等多模態(tài)數(shù)據(jù),將這些數(shù)據(jù)相互融合,有助于全面評(píng)估疾病情況,提高中醫(yī)辨證的客觀性。隨著計(jì)算機(jī)技術(shù)和中醫(yī)類醫(yī)療器械的發(fā)展,舌象儀、脈象儀等設(shè)備為中醫(yī)四診信息的采集提供支撐,通過多模態(tài)知識(shí)融合能夠關(guān)聯(lián)多種模式信息,為下一步應(yīng)用知識(shí)圖譜,輔助中醫(yī)臨床決策提供參考。
中醫(yī)藥領(lǐng)域常采用基于規(guī)則推理等傳統(tǒng)方法對(duì)小規(guī)模知識(shí)圖譜進(jìn)行推理,但傳統(tǒng)方法過于依賴規(guī)則,準(zhǔn)確率不高,并且在相關(guān)決策中仍需依賴大量專家知識(shí)進(jìn)行輔助判斷。隨著數(shù)據(jù)量的增大及抽取精度要求的提高,單一方法不能滿足實(shí)際需求。將不同推理方式進(jìn)行融合,充分發(fā)揮各自優(yōu)勢(shì)并互為補(bǔ)充,才能完成更復(fù)雜、多樣的推理任務(wù)。近年來,深度學(xué)習(xí)是在機(jī)器學(xué)習(xí)基礎(chǔ)上發(fā)展而來的基于神經(jīng)網(wǎng)絡(luò)對(duì)數(shù)據(jù)進(jìn)行表征學(xué)習(xí)的算法模型,擁有強(qiáng)大的學(xué)習(xí)能力,降低專家定義特征的代價(jià),在智能問答、語音識(shí)別等領(lǐng)域超過了傳統(tǒng)算法,可以提高推理的準(zhǔn)確性,對(duì)提升中醫(yī)臨床決策水平具有重要意義。
目前知識(shí)圖譜在中醫(yī)藥領(lǐng)域中應(yīng)用廣泛,但中醫(yī)藥領(lǐng)域知識(shí)圖譜的構(gòu)建和應(yīng)用仍需更深層次的挖掘。如何運(yùn)用知識(shí)圖譜切實(shí)解決中醫(yī)臨床問題還需進(jìn)一步的思考和探索。信息技術(shù)的飛速發(fā)展為中醫(yī)藥知識(shí)圖譜的構(gòu)建創(chuàng)造了良機(jī),作為中醫(yī)藥領(lǐng)域知識(shí)圖譜的研究,要緊密結(jié)合中醫(yī)藥體系自身特點(diǎn),契合中醫(yī)理論和臨床實(shí)際需求,研究如何能夠更加精準(zhǔn)地建模,以表達(dá)中醫(yī)證候、中藥方劑、辨證論治等各類中醫(yī)藥知識(shí),以求更加精準(zhǔn)、科學(xué)地輔助臨床,對(duì)實(shí)現(xiàn)智能問答、輔助診療等服務(wù)提供支撐。