婁 培,胡佳慧,趙琬清,陳凌云,方 安
知識(shí)圖譜作為一個(gè)結(jié)構(gòu)化的圖模型,可以很好地描述現(xiàn)實(shí)中各種實(shí)體及相互之間的關(guān)系,在信息檢索等領(lǐng)域有著非常重要的作用。知識(shí)圖譜也被廣泛用于醫(yī)療領(lǐng)域,利用知識(shí)圖譜描述病歷中相關(guān)的醫(yī)療知識(shí),可以提高數(shù)據(jù)的利用率,推動(dòng)智能醫(yī)療的發(fā)展,為醫(yī)生的決策支持起到重要的輔助作用[1]。
知識(shí)圖譜的構(gòu)建流程包括本體構(gòu)建、數(shù)據(jù)抽取、數(shù)據(jù)融合、數(shù)據(jù)存儲(chǔ)、可視化展示。由于構(gòu)建醫(yī)學(xué)知識(shí)圖譜的數(shù)據(jù)來源廣泛,從異構(gòu)數(shù)據(jù)源中抽取的醫(yī)學(xué)名詞差異化嚴(yán)重,導(dǎo)致圖譜中存在實(shí)體重復(fù)、冗余等問題,進(jìn)而無法很好地完成檢索、知識(shí)推理、圖譜問答等一系列任務(wù),因此需要進(jìn)行數(shù)據(jù)融合,使其成為一個(gè)有機(jī)整體,有利于進(jìn)行更全面的知識(shí)共享[2]。本文以醫(yī)學(xué)知識(shí)圖譜為切入點(diǎn),將電子病歷數(shù)據(jù)與網(wǎng)絡(luò)資源進(jìn)行融合,以期構(gòu)建一個(gè)內(nèi)容更全面的知識(shí)圖譜,在此過程中,提出了一種基于多維特征的實(shí)體融合方法,可以更好地適用于醫(yī)學(xué)知識(shí)圖譜知識(shí)融合。
知識(shí)圖譜實(shí)例層的融合主要以實(shí)體對(duì)齊任務(wù)為主,即將知識(shí)庫中含義相同但標(biāo)識(shí)符不同的實(shí)體進(jìn)行知識(shí)發(fā)現(xiàn)和合并。實(shí)體對(duì)齊方法主要分為基于實(shí)體屬性的方法和基于表示學(xué)習(xí)的方法兩大類[3]。有學(xué)者設(shè)計(jì)了融合屬性信息的雙向?qū)R圖卷積網(wǎng)絡(luò)模型,通過融合更多的圖譜信息提高了實(shí)體對(duì)齊準(zhǔn)確率[4]。有學(xué)者利用度量空間的數(shù)學(xué)特征過濾掉大量不滿足映射條件的實(shí)例對(duì),使用三角形不等式計(jì)算實(shí)體間相似性[5]。有學(xué)者開發(fā)了Silk Linking Framework 工具包,用于發(fā)現(xiàn)Web 數(shù)據(jù)源之間的數(shù)據(jù)鏈接,允許用戶定義規(guī)則并基于字符、數(shù)字、日期相似度進(jìn)行實(shí)體對(duì)齊[6]。還有學(xué)者使用機(jī)器學(xué)習(xí)方法進(jìn)行實(shí)體對(duì)齊,如有學(xué)者使用詞頻-逆文檔頻度(term frequency-inverse document frequency,TF-IDF)、隱含狄利克雷分布(latent Dirichlet allocation,LDA)計(jì)算文本型實(shí)體的相似度,使用支持向量機(jī)(support vector machine,SVM)、Logistic 回歸等方法進(jìn)行建模,得到了較好的結(jié)果[7];有學(xué)者使用主動(dòng)學(xué)習(xí)方法訓(xùn)練一個(gè)分類器對(duì)記錄進(jìn)行匹配[8];有學(xué)者提出了一種簡單貪婪匹配算法(SiGMa),適用于大規(guī)模知識(shí)庫的實(shí)體對(duì)齊,利用圖的結(jié)構(gòu)信息和局部實(shí)體屬性進(jìn)行相似性度量[9]。
近年來,基于表示學(xué)習(xí)的實(shí)體對(duì)齊算法受到了廣泛的關(guān)注。該算法將知識(shí)圖譜中的實(shí)體映射到低維的向量空間,在低維空間中可以高效地計(jì)算實(shí)體、關(guān)系及其之間的聯(lián)系,解決知識(shí)圖譜數(shù)據(jù)稀疏性問題[10]。通過將實(shí)體映射成向量以便使用公式計(jì)算各實(shí)體間的相似度,在知識(shí)融合時(shí)具有很好的效果。有學(xué)者使用語義和結(jié)構(gòu)特征訓(xùn)練基于聯(lián)合表示學(xué)習(xí)的實(shí)體對(duì)齊模型,以提升實(shí)體對(duì)齊的效果[11]。有學(xué)者使用有監(jiān)督實(shí)體對(duì)齊方法,通過TransE 算法把實(shí)體和關(guān)系表示成向量,計(jì)算向量之間的語義距離判斷兩個(gè)實(shí)體是否對(duì)齊[12]。有學(xué)者提出了一種基于表示學(xué)習(xí)的知識(shí)圖嵌入和實(shí)體對(duì)齊算法,基于預(yù)先對(duì)齊的實(shí)體對(duì),將頭、尾實(shí)體與相應(yīng)的上下文向量建模,將實(shí)體嵌入到公共空間中,在統(tǒng)一框架下解決了實(shí)體的嵌入和對(duì)齊問題[13]。有學(xué)者提出了一種利用聯(lián)合知識(shí)嵌入實(shí)現(xiàn)實(shí)體對(duì)齊的方法,根據(jù)一個(gè)小的對(duì)齊實(shí)體種子集,將不同圖譜的實(shí)體和關(guān)系聯(lián)合編碼到一個(gè)統(tǒng)一的低維語義空間中,根據(jù)實(shí)體的語義距離在這個(gè)聯(lián)合語義空間中進(jìn)行對(duì)齊[14]。有學(xué)者提出一種融入實(shí)體描述的知識(shí)圖譜表示學(xué)習(xí)模型(description-embodied knowledge representation learning,DKRL),利用連續(xù)詞袋模型(continuous bag of words,CBOW)和卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)將實(shí)體的描述信息轉(zhuǎn)換成向量,然后利用TransE 進(jìn)行訓(xùn)練[15]。
通用領(lǐng)域的實(shí)體對(duì)齊任務(wù)已受到廣泛關(guān)注,醫(yī)學(xué)領(lǐng)域也在逐漸開展相關(guān)研究。有學(xué)者提出了一種通過挖掘Web 數(shù)據(jù)建立糖尿病知識(shí)庫的方法,從垂直門戶的半結(jié)構(gòu)化內(nèi)容中提取知識(shí),然后進(jìn)一步將它們映射到統(tǒng)一的知識(shí)圖中,使用基于距離的期望最大化(expectation maximization,EM)算法進(jìn)行知識(shí)融合[16]。有學(xué)者構(gòu)建了中文癥狀知識(shí)庫,以從醫(yī)療網(wǎng)站中提取的數(shù)據(jù)和中文百科網(wǎng)站中提取的癥狀為補(bǔ)充,利用實(shí)體類型對(duì)齊、實(shí)體映射和屬性映射融合抽取到的數(shù)據(jù),以解決不同數(shù)據(jù)源之間的數(shù)據(jù)重復(fù)問題[17]。有學(xué)者構(gòu)建了一個(gè)生物醫(yī)學(xué)知識(shí)圖譜,從出版物、百科全書、醫(yī)療門戶網(wǎng)站和在線社區(qū)中提取和融合了數(shù)據(jù),并使用邏輯推理進(jìn)行了一致性檢查[18]。
醫(yī)學(xué)領(lǐng)域數(shù)據(jù)專業(yè)性強(qiáng),多以臨床術(shù)語記述,且包含醫(yī)學(xué)習(xí)慣用語、縮略語等。其中,疾病名稱和癥狀名稱的不規(guī)范表述現(xiàn)象尤為嚴(yán)重,在圖譜構(gòu)建過程中容易造成歧義和冗余。因此,本文針對(duì)醫(yī)學(xué)知識(shí)圖譜結(jié)構(gòu)和醫(yī)學(xué)術(shù)語表述的特點(diǎn),提出了一種基于多維特征融合的實(shí)體對(duì)齊方法。
針對(duì)醫(yī)學(xué)數(shù)據(jù)的特點(diǎn),在構(gòu)建醫(yī)學(xué)知識(shí)圖譜過程中習(xí)慣將圖譜本體層劃分為疾病、癥狀、治療、病因等實(shí)體類型,圖譜呈現(xiàn)為以疾病為中心的一階發(fā)散結(jié)構(gòu),根據(jù)這類圖結(jié)構(gòu)特點(diǎn),本文提出一種融合多維特征的醫(yī)學(xué)知識(shí)圖譜分步實(shí)體對(duì)齊方法。在待對(duì)齊的數(shù)據(jù)三元組中,將疾病類型定義為頭實(shí)體,其他類型歸類為尾實(shí)體,首先對(duì)齊尾實(shí)體節(jié)點(diǎn),對(duì)齊后得到語義一致的尾實(shí)體表達(dá),然后進(jìn)行頭實(shí)體對(duì)齊。
廣義上的實(shí)體對(duì)齊方法分為成對(duì)對(duì)齊和集體對(duì)齊兩種,成對(duì)對(duì)齊只根據(jù)一個(gè)實(shí)體對(duì)中兩個(gè)實(shí)體本身的信息進(jìn)行匹配,集體對(duì)齊會(huì)考慮整個(gè)知識(shí)圖譜的信息進(jìn)行實(shí)體匹配[19]。本文綜合考慮頭、尾實(shí)體本身的相似度和鄰居節(jié)點(diǎn)的相似度,從實(shí)體的語義、結(jié)構(gòu)、字符3 方面提取特征,利用監(jiān)督學(xué)習(xí)方法訓(xùn)練實(shí)體對(duì)齊模型,模型框架見圖1。
圖1 多維特征融合的頭尾實(shí)體對(duì)齊模型框架
在尾實(shí)體對(duì)齊中,通過尋找異構(gòu)數(shù)據(jù)源中相同類型實(shí)體之間的最佳對(duì)齊方式來融合數(shù)據(jù)。選取實(shí)體的3 個(gè)特征(即語義、結(jié)構(gòu)、字符特征)構(gòu)建模型。通過基于Transformer 的雙向編碼模型(bidirectional encoder representations from transformer,BERT)、Word2Vec 模型得到實(shí)體語義信息的向量表示,利用TransR 模型得到實(shí)體結(jié)構(gòu)信息的向量表示,進(jìn)行向量拼接并計(jì)算余弦距離得到相似度,通過Jaccard 系數(shù)獲得實(shí)體的字符相似度特征。將多個(gè)特征送入分類模型訓(xùn)練得到尾實(shí)體對(duì)齊結(jié)果(圖2)。
圖2 尾實(shí)體對(duì)齊模型
2.2.1 語義特征
文本型數(shù)據(jù)對(duì)齊中廣泛使用到語義相似度計(jì)算,通過詞向量中攜帶的語義信息進(jìn)行特征提取。本文使用兩種語義模型對(duì)實(shí)體構(gòu)造嵌入,將異構(gòu)數(shù)據(jù)源實(shí)體映射到同一向量空間,通過度量空間距離衡量語義上的相似度。
Word2Vec 模型是一種分布式的向量表示方法,通過從大數(shù)據(jù)集中學(xué)習(xí)高質(zhì)量的詞嵌入計(jì)算單詞的矢量表示[20]。由于Word2Vec 訓(xùn)練的準(zhǔn)確率與訓(xùn)練數(shù)據(jù)有直接關(guān)系,且醫(yī)學(xué)知識(shí)圖譜有很強(qiáng)的領(lǐng)域?qū)I(yè)性,因此結(jié)合通用語料和醫(yī)學(xué)領(lǐng)域?qū)I(yè)語料作為訓(xùn)練語料。本文使用CBOW 模型將詞映射到固定維度空間,對(duì)實(shí)體詞xi使用隨機(jī)梯度下降的優(yōu)化方法,最小化目標(biāo)函數(shù),更新并輸出向量,得到實(shí)體的向量表示w2v_vec(xi)。
基于BERT 模型的自然語言處理任務(wù)通過預(yù)訓(xùn)練過程和微調(diào)過程兩個(gè)過程實(shí)現(xiàn)[21]。將訓(xùn)練語料輸入BERT 模型中,通過訓(xùn)練Next Sentence Prediction和Masked 語言模型兩個(gè)任務(wù)得到詞語的表達(dá)。模型的輸入是位置信息、詞、句子3 種向量的疊加。通過微調(diào)預(yù)訓(xùn)練模型將語料中的知識(shí)遷移至向量BERT_vec(xi)中(圖3)。
圖3 BERT 模型語義相似度計(jì)算
2.2.2 圖結(jié)構(gòu)特征
自然語言處理模型通常需要對(duì)大規(guī)模語料進(jìn)行訓(xùn)練,學(xué)習(xí)隱含的語義信息,知識(shí)表示學(xué)習(xí)不依賴于文本信息,而是通過將實(shí)體映射到低維空間來獲得數(shù)據(jù)的深度特征。TransE 模型借鑒了Word2Vec 的平移不變性思想,對(duì)實(shí)體和關(guān)系進(jìn)行分布式表示,但由于模型設(shè)計(jì)簡單只能學(xué)習(xí)“一對(duì)一”關(guān)系,而醫(yī)學(xué)知識(shí)圖譜中包含眾多“一對(duì)n”關(guān)系。因此,本文使用了將不同關(guān)系分別映射至不同空間的TransR 模型[22]。
將抽取的三元組數(shù)據(jù)作為正例(h,r,t),對(duì)每個(gè)正例三元組,隨機(jī)替換頭實(shí)體或尾實(shí)體生成負(fù)例{(h′,r,t) ∪ (h,r,t′)}。通過映射矩陣將關(guān)系r映射到不同空間,對(duì)每個(gè)三元組,將其損失函數(shù)定義為公式(1)。利用梯度下降法對(duì)參數(shù)進(jìn)行更新,得到含有實(shí)體圖結(jié)構(gòu)特征的向量表示Trans_vec(xi)。
2.2.3 字符集合特征
Jaccard 系數(shù)可以比較樣本集之間的相似性和差異性。將異構(gòu)數(shù)據(jù)源中的每個(gè)實(shí)體分別映射到集合M、W,Jaccard 系數(shù)定義為集合M與W交集的大小與并集大小的比值,Jaccard 值越大說明相似度越高。使用Jaccard 系數(shù)計(jì)算一個(gè)實(shí)體對(duì)中相同字符數(shù)與總字符數(shù)之比,得到實(shí)體對(duì)的字符集合特征Sim_symjac。
2.2.4 相似度計(jì)算
通過對(duì)異構(gòu)數(shù)據(jù)源中的實(shí)體構(gòu)造嵌入,得到了實(shí)體的語義特征和結(jié)構(gòu)特征向量。利用向量的運(yùn)算特性將上述w2v_vec、BERT_vec、Trans_vec向量橫向拼接。通過計(jì)算拼接后向量在二維空間的夾角余弦值評(píng)估它們的相似度,夾角θ越小,余弦值越大,得到兩個(gè)數(shù)據(jù)源中實(shí)體對(duì)的相似度Sim_symcos,計(jì)算公式為公式(3)和公式(4)。在實(shí)體對(duì)齊任務(wù)中,因?yàn)閿?shù)據(jù)的類別注釋只有相同或不同兩種類型,因此將其轉(zhuǎn)換為二分類問題,將實(shí)體對(duì)的余弦相似度值和Jaccard 系數(shù)值作為分類模型的輸入進(jìn)行訓(xùn)練,得到融合結(jié)果,計(jì)算公式為公式(5)。
尾實(shí)體融合完成后,對(duì)頭實(shí)體(疾?。┻M(jìn)行融合。當(dāng)三元組中尾實(shí)體類型和關(guān)系類型相同而對(duì)應(yīng)的頭實(shí)體名稱不同時(shí),考慮頭實(shí)體的屬性相似性和結(jié)構(gòu)相似性進(jìn)行實(shí)體對(duì)齊(圖4)。
圖4 頭實(shí)體對(duì)齊模型
2.3.1 屬性相似性
利用疾病的別名屬性和英文名稱屬性可以進(jìn)行實(shí)體對(duì)齊,如果兩個(gè)數(shù)據(jù)源中頭實(shí)體具有相同的疾病名稱、別稱、英文名稱,即可認(rèn)為兩個(gè)實(shí)體相同,如垂體生長激素腺瘤的英文別名為Marie,中文別名包括生長激素腺瘤、GH 腺瘤等。
2.3.2 結(jié)構(gòu)相似性
當(dāng)實(shí)體不能通過別名進(jìn)行對(duì)齊時(shí),根據(jù)結(jié)構(gòu)相似度判斷兩實(shí)體的相似性。以異構(gòu)數(shù)據(jù)源中的兩個(gè)疾病集合為例,對(duì)頭實(shí)體x,y的相似度需考慮以下3 個(gè)因素:兩頭實(shí)體包含的相同尾節(jié)點(diǎn)個(gè)數(shù)Num_tail,計(jì)算公式為公式(6);兩個(gè)數(shù)據(jù)源中頭實(shí)體對(duì)應(yīng)的所有尾實(shí)體集合中相同字符數(shù)與總字符數(shù)的比值,計(jì)算公式為公式(7);通過TransR 模型計(jì)算頭實(shí)體所得的向量余弦相似度Sim_TransR。在相似度特征值計(jì)算完成后,仍將結(jié)果輸入到分類模型進(jìn)行頭實(shí)體分類,計(jì)算公式為公式(8)。
由于醫(yī)學(xué)知識(shí)圖譜實(shí)體對(duì)齊研究中沒有先驗(yàn)數(shù)據(jù)集,因此本文以垂體瘤專病知識(shí)圖譜構(gòu)建為例驗(yàn)證所提出的分步實(shí)體對(duì)齊方法的有效性(圖5)。數(shù)據(jù)來源包括兩個(gè)部分。一部分?jǐn)?shù)據(jù)來源于我國某三甲醫(yī)院神經(jīng)外科治療中心,包含300 名垂體瘤患者的臨床診療信息。在臨床醫(yī)生的指導(dǎo)下對(duì)疾病、癥狀實(shí)體進(jìn)行標(biāo)注,使用基于單字特征的條件隨機(jī)場(conditional random field,CRF)進(jìn)行實(shí)體識(shí)別[23],最終得到80 種疾病和762 個(gè)相關(guān)癥狀實(shí)體。另一部分?jǐn)?shù)據(jù)從醫(yī)學(xué)網(wǎng)站和質(zhì)量較高的百科類網(wǎng)站中選取。將電子病歷中抽取的疾病實(shí)體作為檢索詞,在醫(yī)學(xué)網(wǎng)站進(jìn)行檢索。由于單一的門戶網(wǎng)站包含的疾病種類有限,信息檢索不全面,因此選取了“尋醫(yī)問藥網(wǎng)”[24]、UpToDate 臨床顧問[25]、百度百科[26]、“春雨醫(yī)生”[27]4 個(gè)數(shù)據(jù)質(zhì)量較高、結(jié)構(gòu)化程度較好的網(wǎng)站。通過設(shè)計(jì)正則等規(guī)則構(gòu)建數(shù)據(jù)抽取器,實(shí)現(xiàn)對(duì)網(wǎng)站中疾病和癥狀數(shù)據(jù)的自動(dòng)化抽取,得到58 種疾病和435 個(gè)相關(guān)癥狀實(shí)體。
圖5 無功能垂體腺瘤數(shù)據(jù)對(duì)齊實(shí)例
最終,得到垂體瘤疾病相關(guān)的3 154 個(gè)“疾病-癥狀”三元組進(jìn)行模型實(shí)驗(yàn),訓(xùn)練集與測試集按7∶3 進(jìn)行劃分。本文使用了監(jiān)督學(xué)習(xí)模型,在專業(yè)醫(yī)生的幫助下對(duì)實(shí)體對(duì)的相似性進(jìn)行人工標(biāo)注,如果該實(shí)體對(duì)可以融合,標(biāo)記為1,否則標(biāo)記為0。
實(shí)驗(yàn)在Windows 10 環(huán)境下進(jìn)行,模型基于TensorFlow 框架構(gòu)建。在訓(xùn)練基于Word2Vec 的語義相似度模型時(shí),使用Python 的gensim 庫提供的方法進(jìn)行詞向量訓(xùn)練。使用CBOW 模型,參數(shù)定義如下:min_count=1,hs=1,window=10,dim=150維。對(duì)谷歌預(yù)訓(xùn)練好的BERT 模型進(jìn)行微調(diào),參數(shù)定義如下:epoch=100,batchsize=100,λ=0.001,dim=768 維。將構(gòu)建好的正負(fù)例“疾病-癥狀”三元組輸入TransR 模型,定義向量維度dim=50 維。
分類模型訓(xùn)練調(diào)用Sklearn.linear_model 子類下的回歸模型、Sklearn.tree.DecisionTreeClassifier子類下的決策樹模型和深度神經(jīng)網(wǎng)絡(luò)(deep neural networks,DNN)模型。使用DNN 模型時(shí)設(shè)置輸入層3 個(gè)神經(jīng)元,隱藏層4 個(gè)神經(jīng)元,輸出層2 個(gè)神經(jīng)元,設(shè)置參數(shù)為n_epoch=30,batch_size=32,show_metric=True。
在尾實(shí)體對(duì)齊模型中,采用logistic 回歸、決策樹和神經(jīng)網(wǎng)絡(luò)3 種不同的分類模型進(jìn)行訓(xùn)練,結(jié)果如表1 所示。訓(xùn)練結(jié)果顯示,神經(jīng)網(wǎng)絡(luò)表現(xiàn)最好,準(zhǔn)確率為99.58%,F(xiàn)1 值為99.58%。模型可以很好地將具有相似特征的實(shí)體進(jìn)行合并。
表1 融合多維特征的醫(yī)學(xué)知識(shí)圖譜分步實(shí)體對(duì)齊模型結(jié)果
將尾實(shí)體融合后的三元組用于頭實(shí)體融合實(shí)驗(yàn)。其中17 個(gè)實(shí)體可直接映射,6 個(gè)實(shí)體可通過別名屬性進(jìn)行融合,包括垂體生長激素腺瘤、垂體微腺瘤、庫欣綜合征、甲狀腺功能減退等。仍利用上述3 種分類模型進(jìn)行頭實(shí)體對(duì)齊訓(xùn)練,模型對(duì)齊了42 個(gè)頭實(shí)體。實(shí)驗(yàn)結(jié)果顯示,頭實(shí)體對(duì)齊實(shí)驗(yàn)中決策樹的分類效果更好,其準(zhǔn)確率達(dá)到97.47%,F(xiàn)1值達(dá)到97.32%。
使用Logistic 回歸作為基線模型,在頭實(shí)體、尾實(shí)體融合中,基線模型的準(zhǔn)確率達(dá)到了83.92%,說明本文選擇的特征可以很好地表達(dá)實(shí)體信息。相較于尾實(shí)體,頭實(shí)體數(shù)據(jù)量小,神經(jīng)網(wǎng)絡(luò)在訓(xùn)練過程中出現(xiàn)過擬合,決策樹在頭實(shí)體對(duì)齊實(shí)驗(yàn)中表現(xiàn)更好;而隨著數(shù)據(jù)量的增加,在尾實(shí)體對(duì)齊時(shí),神經(jīng)網(wǎng)絡(luò)的優(yōu)勢則體現(xiàn)出來。
本文介紹了一種融合多維特征的醫(yī)學(xué)知識(shí)圖譜分步實(shí)體對(duì)齊方法,利用抽取到的電子病歷和網(wǎng)絡(luò)資源中的疾病和癥狀信息,對(duì)實(shí)體對(duì)齊模型進(jìn)行了研究。根據(jù)醫(yī)學(xué)數(shù)據(jù)特征,本文提出了分步的頭實(shí)體、尾實(shí)體對(duì)齊方法,并全面考慮到了數(shù)據(jù)的語義、結(jié)構(gòu)、字符相似度特征。實(shí)驗(yàn)結(jié)果顯示,頭實(shí)體、尾實(shí)體融合的準(zhǔn)確率都很高,均達(dá)到了97%以上,說明該方法可以有效將異構(gòu)數(shù)據(jù)源融合在一起,適用于多源異構(gòu)醫(yī)學(xué)知識(shí)圖譜的構(gòu)建。
本文也存在一定的局限,由于數(shù)據(jù)量較小,在實(shí)體對(duì)相似度計(jì)算時(shí)沒有考慮計(jì)算復(fù)雜度,今后將考慮引入分塊的思想,將知識(shí)圖譜劃分成n 個(gè)小規(guī)模的圖譜進(jìn)行匹配以降低計(jì)算復(fù)雜度,同時(shí)還將嘗試把知識(shí)圖譜用在醫(yī)療決策支持等場景中,幫助醫(yī)生和患者解決實(shí)際問題。