• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    醫(yī)學(xué)領(lǐng)域知識(shí)融合研究進(jìn)展

    2024-05-11 03:32:54熊玲珠杜建強(qiáng)劉安棟
    關(guān)鍵詞:語(yǔ)義融合信息

    彭 琳,宋 珺,熊玲珠,杜建強(qiáng),葉 青,劉安棟

    江西中醫(yī)藥大學(xué)計(jì)算機(jī)學(xué)院,南昌 330004

    長(zhǎng)期以來(lái),醫(yī)學(xué)領(lǐng)域的知識(shí)分散在各種信息載體中,未充分利用其價(jià)值。為發(fā)揮信息技術(shù)對(duì)醫(yī)學(xué)傳承創(chuàng)新發(fā)展的支撐作用,研究人員將知識(shí)圖譜(knowledge graph,KG)引入醫(yī)學(xué)領(lǐng)域,以提升電子病歷、醫(yī)案、古籍等知識(shí)的研究與利用效果。然而,不同知識(shí)圖譜的來(lái)源多樣,呈現(xiàn)多樣性和異質(zhì)性,可能導(dǎo)致數(shù)據(jù)重復(fù)和冗余,同時(shí)醫(yī)學(xué)知識(shí)間存在互補(bǔ)。因此,如何有效融合和充分利用多源的醫(yī)學(xué)知識(shí),并減少研究中的重復(fù)工作,是一項(xiàng)意義深遠(yuǎn)的任務(wù)。

    知識(shí)融合作為知識(shí)圖譜研究中的核心問(wèn)題之一,能夠?qū)⒉煌R(shí)圖譜融合為一個(gè)統(tǒng)一、一致且簡(jiǎn)潔的形式,以實(shí)現(xiàn)應(yīng)用間的互操作性[1]。在醫(yī)學(xué)領(lǐng)域,知識(shí)融合旨在利用融合技術(shù)將分散在各個(gè)知識(shí)圖譜或不同數(shù)據(jù)源中的醫(yī)學(xué)知識(shí)進(jìn)行對(duì)齊與合并,形成一個(gè)更全面的醫(yī)學(xué)領(lǐng)域知識(shí)圖譜,在提高知識(shí)質(zhì)量、擴(kuò)大規(guī)模、提高醫(yī)學(xué)知識(shí)利用率和共享性等方面具有促進(jìn)作用。

    根據(jù)匹配對(duì)象的不同,知識(shí)融合可分為本體匹配(ontology matching)、實(shí)體對(duì)齊(entity alignment)和實(shí)體鏈接(entity linking)三類。本體匹配是指將不同本體之間的概念進(jìn)行對(duì)齊和匹配;實(shí)體對(duì)齊旨在找到不同知識(shí)圖譜中對(duì)應(yīng)的實(shí)體;實(shí)體鏈接則用于將文本中的實(shí)體與外部知識(shí)圖譜中的實(shí)體進(jìn)行關(guān)聯(lián)。由于技術(shù)發(fā)展迅速,本文主要調(diào)研了近5年醫(yī)學(xué)領(lǐng)域知識(shí)融合任務(wù)的相關(guān)文獻(xiàn),并發(fā)現(xiàn)以下現(xiàn)象:(1)描述醫(yī)學(xué)本體匹配的文獻(xiàn)數(shù)量逐漸減少,且均不足另外兩類文獻(xiàn)的三分之一。(2)近年來(lái),關(guān)于本體匹配的文獻(xiàn)研究進(jìn)展不多,本體更多用于輔助實(shí)體對(duì)齊或?qū)嶓w鏈接,以增強(qiáng)知識(shí)融合的準(zhǔn)確性。(3)醫(yī)學(xué)實(shí)體鏈接文獻(xiàn)相對(duì)最多,但隨著技術(shù)的發(fā)展以及各類知識(shí)圖譜的構(gòu)建,醫(yī)學(xué)實(shí)體對(duì)齊的研究在近幾年不斷增長(zhǎng)。因此,本文將聚焦于實(shí)體對(duì)齊和實(shí)體鏈接這兩個(gè)核心任務(wù)。

    目前,醫(yī)學(xué)領(lǐng)域中與知識(shí)融合相關(guān)的綜述較少,F(xiàn)rench 等[2]梳理了1980 年至2022 年生物醫(yī)學(xué)實(shí)體鏈接的發(fā)展?fàn)顩r;Shi等[3]從技術(shù)角度分析了生物醫(yī)學(xué)實(shí)體鏈接的發(fā)展歷程,并探討了應(yīng)用于不同場(chǎng)景的數(shù)據(jù)集特征以及不同方法在各類數(shù)據(jù)集上的效果。上述兩篇文獻(xiàn)僅綜述了實(shí)體鏈接任務(wù),未涉及實(shí)體對(duì)齊任務(wù)。同時(shí),本文緊扣“問(wèn)題-方法”的思路,從任務(wù)的問(wèn)題切入,通過(guò)分析現(xiàn)有研究方法給出相應(yīng)的解決方案,具體結(jié)構(gòu)如圖1 所示。首先,系統(tǒng)梳理醫(yī)學(xué)領(lǐng)域知識(shí)融合的定義、評(píng)價(jià)指標(biāo)及數(shù)據(jù)集;歸類醫(yī)學(xué)領(lǐng)域知識(shí)融合中存在的問(wèn)題。然后,按照問(wèn)題、技術(shù)兩個(gè)維度,綜述了近年來(lái)醫(yī)學(xué)領(lǐng)域知識(shí)融合中實(shí)體對(duì)齊、實(shí)體鏈接任務(wù)的相關(guān)方法,重點(diǎn)對(duì)最新研究進(jìn)展進(jìn)行對(duì)比和深入分析;在此基礎(chǔ)上,針對(duì)每類問(wèn)題,總結(jié)現(xiàn)有研究工作的解決思路與策略。最后,根據(jù)前文的分析,給出了醫(yī)學(xué)領(lǐng)域知識(shí)融合的未來(lái)研究方向。

    圖1 組織結(jié)構(gòu)圖Fig.1 Organizational structure diagram

    1 醫(yī)學(xué)領(lǐng)域知識(shí)融合概述

    1.1 問(wèn)題定義

    知識(shí)圖譜是一個(gè)有向圖,一般表示為G={E,R,T},其中,E、R、T分別代表知識(shí)圖譜中的實(shí)體、關(guān)系、三元組的集合[4]。實(shí)體對(duì)齊、實(shí)體鏈接的定義如下:

    定義1實(shí)體對(duì)齊(entity alignment,EA)也稱實(shí)例匹配、實(shí)體消解,旨在將不同數(shù)據(jù)源或知識(shí)圖譜中指代相同事物的實(shí)體進(jìn)行匹配。具體而言,給定兩個(gè)知識(shí)圖譜G1={E1,R1,T1},G2={E2,R2,T2},目標(biāo)是找到它們之間等價(jià)的實(shí)體對(duì),其中“≡”表示等價(jià)關(guān)系,即實(shí)體ei與實(shí)體ej指向同一個(gè)事物。一般情況下,會(huì)給定一組已對(duì)齊實(shí)體對(duì)作為訓(xùn)練集,稱為種子對(duì)齊(seed alignment)。醫(yī)學(xué)實(shí)體對(duì)齊任務(wù)示例如圖2(a)所示。

    圖2 醫(yī)學(xué)實(shí)體對(duì)齊與實(shí)體鏈接任務(wù)示意圖Fig.2 Schematic of medical entity alignment and entity linking tasks

    定義2實(shí)體鏈接(entity linking,EL)有時(shí)也被稱為實(shí)體消歧,側(cè)重于將文本中的實(shí)體提及(mention)鏈接到知識(shí)圖譜或知識(shí)庫(kù)中對(duì)應(yīng)的實(shí)體。其中,“實(shí)體提及”簡(jiǎn)稱為“提及”,指用自然語(yǔ)言文本表示實(shí)體的語(yǔ)言片段;“實(shí)體”通常指代知識(shí)圖譜或知識(shí)庫(kù)中的實(shí)體對(duì)象。具體地,給定一個(gè)特定的醫(yī)學(xué)領(lǐng)域知識(shí)圖譜G={E,R,T},其中包含N個(gè)實(shí)體E={e1,e2,…,eN},同時(shí),給定一個(gè)包含一組被識(shí)別的實(shí)體提及M={m1,m2,…,mM}的醫(yī)學(xué)文本D,目標(biāo)是找到實(shí)體提及mj∈M對(duì)應(yīng)的知識(shí)圖譜中的實(shí)體ei∈E。圖2(b)展示了醫(yī)學(xué)實(shí)體鏈接任務(wù)的示意圖。

    1.2 評(píng)價(jià)指標(biāo)

    醫(yī)學(xué)領(lǐng)域知識(shí)融合任務(wù)采用的評(píng)價(jià)指標(biāo)可分為兩類:第一類指標(biāo)為精確率P(precision)、召回率R(recall)、F1 值(F1-measure);另一類指標(biāo)為Hits@k、MR、MRR。其中,這兩類均可作為實(shí)體對(duì)齊任務(wù)的評(píng)價(jià)指標(biāo),實(shí)體鏈接任務(wù)則常用第一類作為評(píng)價(jià)指標(biāo)。

    (1)P、R、F1

    以下公式中,TP表示模型正確預(yù)測(cè)的正樣本數(shù)目、FP為模型錯(cuò)誤預(yù)測(cè)的負(fù)樣本數(shù)目、FN則代表被模型錯(cuò)誤預(yù)測(cè)的正樣本數(shù)目。

    其中,這三個(gè)指標(biāo)的數(shù)值越大,模型效果越好。并且,F(xiàn)1 值是用來(lái)評(píng)估不同模型的綜合指標(biāo),綜合考慮了P和R 的調(diào)和平均值。

    對(duì)于醫(yī)學(xué)實(shí)體對(duì)齊任務(wù),P 表示正確預(yù)測(cè)的實(shí)體對(duì)數(shù)量與所有預(yù)測(cè)實(shí)體對(duì)數(shù)量之比,即正確對(duì)齊實(shí)體的比例;R 表示正確預(yù)測(cè)的實(shí)體對(duì)數(shù)量與所有真實(shí)存在的實(shí)體對(duì)數(shù)量之比,即正確對(duì)齊實(shí)體的覆蓋率。

    對(duì)于醫(yī)學(xué)實(shí)體鏈接任務(wù),P 衡量了鏈接到知識(shí)圖譜的實(shí)體中有多少是正確的,即模型給出的鏈接中有多少是準(zhǔn)確的;R 衡量了模型是否能夠找到文本中的大部分實(shí)體提及并將它們正確地鏈接到知識(shí)圖譜中,即模型有多少能夠找到的實(shí)體提及被正確鏈接。

    (2)Hits@k、MR、MRR

    Hits@k:表示前k個(gè)命中率,即對(duì)齊結(jié)果中在前k名的正確對(duì)齊實(shí)體所占的比例,其中k是一個(gè)預(yù)先設(shè)定的整數(shù)。

    MR(mean rank):平均排名,即正確對(duì)齊實(shí)體排名的平均值。

    MRR(mean reciprocal rank):平均倒數(shù)排名,即計(jì)算正確對(duì)齊實(shí)體排名的倒數(shù)的平均值。該指標(biāo)反映模型對(duì)于不同實(shí)體間相似度的區(qū)分能力。

    其中,Hits@k、MRR 越大模型的效果越好,而MR 越小模型的效果越好。

    1.3 數(shù)據(jù)集

    基于知識(shí)圖譜構(gòu)建的實(shí)體對(duì)齊數(shù)據(jù)集中,DBP15k[5]是由DBpedia 不同語(yǔ)言版本鏈接而成的大型通用實(shí)體對(duì)齊數(shù)據(jù)集,包含了DBP15KZH-EN、DBP15KJA-EN和DBP15KFR-EN三個(gè)子版本;D-W-100K[6]的數(shù)據(jù)來(lái)自DBpedia和Wikidata,用于支持多領(lǐng)域知識(shí)圖譜的實(shí)體對(duì)齊任務(wù);MED-BBK-9K[7]是騰訊天衍實(shí)驗(yàn)室構(gòu)建的基于兩個(gè)醫(yī)療知識(shí)圖譜的實(shí)體對(duì)齊數(shù)據(jù)集,包含9 162 個(gè)一對(duì)一實(shí)體對(duì)。

    醫(yī)學(xué)領(lǐng)域?qū)嶓w鏈接數(shù)據(jù)集中,NCBI 疾病語(yǔ)料庫(kù)是由Do?an 等[8]構(gòu)建的科學(xué)領(lǐng)域醫(yī)學(xué)實(shí)體鏈接語(yǔ)料庫(kù),包含793篇生物醫(yī)學(xué)文獻(xiàn)摘要,常見(jiàn)數(shù)據(jù)集劃分為593/100/100;COMETA[9]是一個(gè)醫(yī)學(xué)社交媒體領(lǐng)域的實(shí)體鏈接數(shù)據(jù)集,由Reddit論壇上的醫(yī)學(xué)實(shí)體提及和SNOMED CT[10]術(shù)語(yǔ)組成。醫(yī)學(xué)知識(shí)融合數(shù)據(jù)集見(jiàn)表1。

    表1 醫(yī)學(xué)領(lǐng)域知識(shí)融合數(shù)據(jù)集Table 1 Knowledge fusion datasets for medical field

    2 問(wèn)題與挑戰(zhàn)

    實(shí)體對(duì)齊和實(shí)體鏈接均為醫(yī)學(xué)領(lǐng)域知識(shí)融合的重要任務(wù),但它們的關(guān)注點(diǎn)有所不同。(1)任務(wù)目標(biāo)上,實(shí)體對(duì)齊致力于解決不同醫(yī)學(xué)數(shù)據(jù)源或知識(shí)圖譜中相同實(shí)體的對(duì)應(yīng)問(wèn)題,例如,將不同數(shù)據(jù)源中描述的相同疾病“高血壓”和“高血壓病”進(jìn)行匹配,以便在整合后的知識(shí)圖譜中建立一致的關(guān)聯(lián);而實(shí)體鏈接旨在將醫(yī)學(xué)文本中識(shí)別到的實(shí)體提及,如疾病、癥狀、治療等,鏈接到外部知識(shí)源中的規(guī)范實(shí)體,從而豐富實(shí)體的語(yǔ)義信息,其中外部知識(shí)源通常為預(yù)定義的知識(shí)圖譜。(2)在評(píng)測(cè)方面,實(shí)體對(duì)齊側(cè)重于匹配質(zhì)量和數(shù)據(jù)源整合,解決語(yǔ)義差異和質(zhì)量問(wèn)題;而實(shí)體鏈接更關(guān)注正確的實(shí)體消歧和上下文理解,以確保鏈接準(zhǔn)確性。(3)應(yīng)用場(chǎng)景中,實(shí)體對(duì)齊用于整合多源知識(shí),以實(shí)現(xiàn)跨數(shù)據(jù)源查詢和分析,如整合醫(yī)學(xué)知識(shí)圖譜以提供統(tǒng)一查詢接口;實(shí)體鏈接則將非結(jié)構(gòu)化文本與結(jié)構(gòu)化的知識(shí)圖譜關(guān)聯(lián),是醫(yī)療智能問(wèn)答、基于知識(shí)圖譜的信息檢索、內(nèi)容推薦等應(yīng)用的基礎(chǔ)。

    相比于通用領(lǐng)域的知識(shí)融合,醫(yī)學(xué)領(lǐng)域由于其專業(yè)性與復(fù)雜性特點(diǎn)給知識(shí)融合研究帶來(lái)了諸多挑戰(zhàn)。下文將具體分析醫(yī)學(xué)領(lǐng)域知識(shí)融合任務(wù)所面臨的共有難點(diǎn),以及實(shí)體對(duì)齊和實(shí)體鏈接各自的難點(diǎn)。

    2.1 醫(yī)學(xué)知識(shí)融合中的共同難點(diǎn)

    2.1.1 多樣性與歧義性

    多樣性與歧義性問(wèn)題分別表現(xiàn)出“多詞一義”與“一詞多義”的現(xiàn)象。(1)多樣性問(wèn)題:不同的研究機(jī)構(gòu)和研究人員對(duì)于命名的習(xí)慣存在差異,同一個(gè)醫(yī)學(xué)實(shí)體往往具有多個(gè)不同的名稱,例如,“乳腺導(dǎo)管內(nèi)癌”和“乳腺導(dǎo)管內(nèi)原位癌”,“帕金森病”和“帕金森氏癥”,“齲齒”和“爛牙”。這種實(shí)體命名多樣性增加了知識(shí)融合任務(wù)的復(fù)雜性。(2)歧義性問(wèn)題:同一個(gè)實(shí)體名稱可以表示不同的含義,例如,“神曲”在中藥領(lǐng)域是中藥材,在文學(xué)領(lǐng)域?qū)儆谝徊课膶W(xué)作品;“山楂”既可表示為藥物,也能表示為飲食。歧義性問(wèn)題需要結(jié)合上下文信息進(jìn)行消歧。示例如圖3所示。

    圖3 多樣性和歧義性問(wèn)題示例Fig.3 Examples of diversity and ambiguity issues

    2.1.2 標(biāo)注數(shù)據(jù)的缺乏

    在實(shí)體對(duì)齊中,通常需要大量人工標(biāo)注的預(yù)對(duì)齊實(shí)體對(duì),以便連接兩個(gè)知識(shí)圖譜。同樣,在實(shí)體鏈接過(guò)程中也需標(biāo)注數(shù)據(jù)進(jìn)行訓(xùn)練。然而,由于醫(yī)學(xué)領(lǐng)域的專業(yè)性,需依賴專業(yè)的醫(yī)學(xué)人員進(jìn)行標(biāo)注,因此,獲取高質(zhì)量的標(biāo)注數(shù)據(jù)困難且昂貴,這導(dǎo)致知識(shí)融合任務(wù)中標(biāo)注數(shù)據(jù)的匱乏。

    2.1.3 計(jì)算效率的問(wèn)題

    醫(yī)學(xué)領(lǐng)域的知識(shí)圖譜規(guī)模龐大,涉及大量的實(shí)體和關(guān)系。如何在合理的時(shí)間內(nèi)高效完成實(shí)體對(duì)齊或?qū)嶓w鏈接計(jì)算,是一個(gè)具有挑戰(zhàn)性的問(wèn)題。因此,需要設(shè)計(jì)高效的算法和優(yōu)化策略,以提高知識(shí)融合的計(jì)算效率。

    2.2 醫(yī)學(xué)領(lǐng)域?qū)嶓w對(duì)齊的難點(diǎn)

    2.2.1 知識(shí)圖譜異質(zhì)性

    知識(shí)圖譜之間的結(jié)構(gòu)異質(zhì)性包含實(shí)體鄰域異質(zhì)性及關(guān)系異質(zhì)性。(1)實(shí)體鄰域異質(zhì)性:目前許多研究建立在待對(duì)齊的實(shí)體對(duì)具有相似的鄰域結(jié)構(gòu)這一假設(shè)之上,但由于結(jié)構(gòu)異質(zhì)性的存在,兩個(gè)知識(shí)圖譜的對(duì)齊實(shí)體不一定具有相似或相同的鄰域結(jié)構(gòu),如圖4 所示,中心實(shí)體“乳腺導(dǎo)管內(nèi)癌”與“乳腺導(dǎo)管內(nèi)原位癌”僅有實(shí)體“乳腺癌”這一共同鄰居,其余鄰居均不同。(2)關(guān)系異質(zhì)性:在現(xiàn)實(shí)生活中,不同來(lái)源的知識(shí)圖譜通常具有關(guān)系獨(dú)立性,即在一個(gè)知識(shí)圖譜中存在的某個(gè)關(guān)系未必存在于另一個(gè)知識(shí)圖譜中。例如,圖4中知識(shí)圖譜1存在的“適宜飲食”關(guān)系在知識(shí)圖譜2中不存在。

    圖4 知識(shí)圖譜異質(zhì)性示例Fig.4 Examples of knowledge graph heterogeneity

    2.2.2 利用潛在的信息

    在傳統(tǒng)的實(shí)體對(duì)齊任務(wù)中,通常直接對(duì)醫(yī)學(xué)實(shí)體進(jìn)行對(duì)齊,而忽略了實(shí)體相關(guān)的潛在信息,如結(jié)構(gòu)信息、屬性信息和實(shí)體描述信息等。這種方法導(dǎo)致實(shí)體對(duì)齊任務(wù)的準(zhǔn)確率較低,并容易產(chǎn)生大量的噪聲和錯(cuò)誤數(shù)據(jù),例如,“心臟病”和“心臟衰竭”在名稱上相似但不等價(jià),若不考慮其他信息可能導(dǎo)致錯(cuò)誤的匹配。因此,需要考慮如何更好地利用有效信息以提高醫(yī)學(xué)實(shí)體對(duì)齊準(zhǔn)確性。

    2.3 醫(yī)學(xué)領(lǐng)域?qū)嶓w鏈接的難點(diǎn)

    2.3.1 未見(jiàn)實(shí)體問(wèn)題

    在醫(yī)學(xué)領(lǐng)域,存在大量專有名詞、罕見(jiàn)實(shí)體和新興概念,如新的醫(yī)學(xué)術(shù)語(yǔ)、疾病、治療方法等,這些實(shí)體可能未在訓(xùn)練數(shù)據(jù)或知識(shí)圖譜中出現(xiàn)。因此,未見(jiàn)實(shí)體問(wèn)題可細(xì)分為兩類:(1)訓(xùn)練集中罕見(jiàn)實(shí)體,其出現(xiàn)的頻率較低,難以在有限數(shù)據(jù)中進(jìn)行充分學(xué)習(xí);(2)知識(shí)圖譜中缺乏對(duì)應(yīng)提及,導(dǎo)致文本中部分實(shí)體提及無(wú)法在知識(shí)圖譜中找到對(duì)應(yīng)項(xiàng),通常稱為“NIL(unlinkable mentions)實(shí)體”,如“Curry-Jones 綜合征”[11]在2017 年前未被添加到SNOMED CT中。

    2.3.2 短文本問(wèn)題

    醫(yī)學(xué)領(lǐng)域的一些文本往往篇幅較短,例如,臨床記錄、病歷摘要中簡(jiǎn)潔的描述,如“患者接受了青霉素治療”;提及級(jí)別的文本很短,可能不足8個(gè)字符,如“腿扭傷后遺癥”“左朧骨骨折上端”。這類短文本的語(yǔ)義信息有限,導(dǎo)致其缺乏足夠的上下文信息來(lái)進(jìn)行準(zhǔn)確的實(shí)體識(shí)別和鏈接。因此,在醫(yī)學(xué)實(shí)體鏈接中,短文本上下文信息不豐富的問(wèn)題是常見(jiàn)的挑戰(zhàn)。

    3 醫(yī)學(xué)領(lǐng)域?qū)嶓w對(duì)齊方法

    隨著研究的不斷深入,醫(yī)學(xué)實(shí)體對(duì)齊方法經(jīng)歷了傳統(tǒng)方法和基于表示學(xué)習(xí)方法兩大發(fā)展階段。其中,傳統(tǒng)方法包括基于詞典和規(guī)則、基于相似性計(jì)算等方法,而基于表示學(xué)習(xí)的方法涵蓋了翻譯模型和深度模型等技術(shù)。各方法的區(qū)別、優(yōu)缺點(diǎn)及適用范圍,如表2所示。

    表2 醫(yī)學(xué)實(shí)體對(duì)齊方法分類Table 2 Classification of medical entity alignment methods

    3.1 傳統(tǒng)的實(shí)體對(duì)齊方法

    3.1.1 基于詞典和規(guī)則的方法

    早期的醫(yī)學(xué)實(shí)體對(duì)齊方法大多采用詞典和規(guī)則的方式。這類方法通過(guò)事先構(gòu)建醫(yī)學(xué)詞典或定義規(guī)則來(lái)匹配實(shí)體,其優(yōu)點(diǎn)是簡(jiǎn)單直接,易于實(shí)施。由于不同數(shù)據(jù)源的差異,醫(yī)學(xué)實(shí)體對(duì)齊中存在大量實(shí)體名稱不一致和術(shù)語(yǔ)描述不規(guī)范的情況。為此,王明強(qiáng)[12]以不孕癥相關(guān)古籍為數(shù)據(jù)來(lái)源,基于知識(shí)規(guī)范化規(guī)則和行業(yè)標(biāo)準(zhǔn),并根據(jù)不同知識(shí)元素特點(diǎn),通過(guò)異名字符串匹配與人工校驗(yàn)相結(jié)合的方式實(shí)現(xiàn)實(shí)體對(duì)齊,解決了中醫(yī)古籍中異名、簡(jiǎn)稱和錯(cuò)誤的情況。翟東升等[13]則針對(duì)不同術(shù)語(yǔ)的特點(diǎn),制定不同規(guī)則以實(shí)現(xiàn)實(shí)體對(duì)齊,包括利用詞典映射中醫(yī)藥別名,借助Uniprot 數(shù)據(jù)庫(kù)構(gòu)造包含靶點(diǎn)和基因的映射詞典,通過(guò)字符串匹配標(biāo)準(zhǔn)化表述不一致的藥性、味和歸經(jīng)信息等。

    上述方法的共同特點(diǎn)是單純依賴自定義規(guī)則或術(shù)語(yǔ)詞典進(jìn)行匹配,容易導(dǎo)致語(yǔ)義、語(yǔ)法等信息的缺失。為此,胡正銀等[14]基于SPO三元組模型,通過(guò)UMLS[15]超級(jí)詞表和多維映射技術(shù),實(shí)現(xiàn)了多源異構(gòu)領(lǐng)域知識(shí)的實(shí)體對(duì)齊。劉道文等[16]則嘗試將ICD[17]術(shù)語(yǔ)體系作為橋梁,利用同義詞與上下位關(guān)系對(duì)齊互聯(lián)網(wǎng)醫(yī)療數(shù)據(jù)和電子健康檔案真實(shí)數(shù)據(jù),彌補(bǔ)了真實(shí)數(shù)據(jù)中疾病與科室關(guān)系的不足。然而,基于詞典和規(guī)則的方法對(duì)詞典、規(guī)則的依賴性高,且無(wú)法處理未知實(shí)體或術(shù)語(yǔ),擴(kuò)展性較差。

    3.1.2 基于相似度計(jì)算的方法

    為了克服基于詞典和規(guī)則方法的局限性,研究人號(hào)提出了基于相似性計(jì)算的實(shí)體對(duì)齊方法。這類方法考慮實(shí)體的屬性、關(guān)系和語(yǔ)義信息,通過(guò)計(jì)算相似度度量來(lái)確定實(shí)體對(duì)齊關(guān)系,較為靈活。Gong 等[18]提出將預(yù)處理與實(shí)體匹配方法相結(jié)合,以融合基于Web挖掘的多源糖尿病數(shù)據(jù)。而針對(duì)醫(yī)學(xué)實(shí)體名稱的獨(dú)特性,An[19]設(shè)計(jì)了一個(gè)三階段實(shí)體解析算法TSER,同時(shí)處理多源異構(gòu)乳腺癌數(shù)據(jù)實(shí)體對(duì)齊過(guò)程中的標(biāo)準(zhǔn)庫(kù)規(guī)模大、措辭相似的不同實(shí)體、同一實(shí)體的名稱可能有大量字面差異等問(wèn)題。

    基于相似度計(jì)算的方法可以靈活應(yīng)對(duì)不同的實(shí)體對(duì)齊需求,但受到數(shù)據(jù)質(zhì)量和計(jì)算效率的限制,且在處理大規(guī)模數(shù)據(jù)時(shí)存在效率問(wèn)題。隨著傳統(tǒng)機(jī)器學(xué)習(xí)的廣泛應(yīng)用,學(xué)者們開始將機(jī)器學(xué)習(xí)技術(shù)引入到相似度計(jì)算中,以進(jìn)一步提升對(duì)齊準(zhǔn)確性。宋文欣[20]通過(guò)構(gòu)建同義醫(yī)療實(shí)體庫(kù)應(yīng)對(duì)多詞一義問(wèn)題,并使用三種無(wú)監(jiān)督實(shí)體對(duì)齊方法來(lái)判斷待對(duì)齊實(shí)體與候選實(shí)體間的相關(guān)程度,以緩解數(shù)據(jù)標(biāo)注的不足,但由于數(shù)據(jù)廣泛且差異大導(dǎo)致對(duì)齊效果不佳。同時(shí),以上方法均未考慮現(xiàn)實(shí)應(yīng)用中正負(fù)例樣本占比不一致所引發(fā)的數(shù)據(jù)不平衡問(wèn)題。針對(duì)這一問(wèn)題,蔡嬌[21]采用基于不平衡數(shù)據(jù)的機(jī)器學(xué)習(xí)方法,從單分類、數(shù)據(jù)、算法三個(gè)角度探究不同分類模型對(duì)遺傳病領(lǐng)域?qū)嶓w對(duì)齊的影響,實(shí)驗(yàn)表明,對(duì)不平衡數(shù)據(jù)集進(jìn)行處理能夠提升對(duì)齊效果。傳統(tǒng)機(jī)器學(xué)習(xí)方法可以通過(guò)訓(xùn)練模型來(lái)學(xué)習(xí)實(shí)體對(duì)齊的規(guī)律,具有一定的泛化能力,但需要手動(dòng)調(diào)整模型參數(shù)和特征工程,這一過(guò)程相對(duì)繁瑣且耗時(shí)。

    3.2 基于表示學(xué)習(xí)的實(shí)體對(duì)齊方法

    傳統(tǒng)的實(shí)體對(duì)齊方法通常需要手工提取實(shí)體屬性和關(guān)系特征,并要求對(duì)齊的實(shí)體在知識(shí)圖譜中具有相同的屬性和關(guān)系,因此容易受到知識(shí)圖譜稀疏性和異質(zhì)性的限制。而基于表示學(xué)習(xí)的方法可以自動(dòng)學(xué)習(xí)實(shí)體的連續(xù)表示,通過(guò)學(xué)習(xí)實(shí)體的共同鄰居或關(guān)系路徑等信息來(lái)建模實(shí)體間的相似度。目前,基于表示學(xué)習(xí)的實(shí)體對(duì)齊方法以翻譯表示(translating embedding,TransE)[22]系列模型、圖神經(jīng)網(wǎng)絡(luò)(graph neural network,GNN)[23]系列模型為主。

    3.2.1 基于TransE系列模型的方法

    TransE由Bordes等[22]在2013年提出,被公認(rèn)為知識(shí)圖譜表示學(xué)習(xí)領(lǐng)域的里程碑。該模型基于距離度量思想,關(guān)注如何通過(guò)最小化實(shí)體在不同知識(shí)圖譜中的關(guān)系表示間的距離來(lái)進(jìn)行實(shí)體對(duì)齊。孫倩南[24]將TransE 運(yùn)用到醫(yī)院多個(gè)呼吸科室疾病數(shù)據(jù)庫(kù)實(shí)體對(duì)齊任務(wù)中,但由于建模的兩個(gè)知識(shí)圖譜規(guī)模和信息差異較大,導(dǎo)致向量學(xué)習(xí)不夠準(zhǔn)確,進(jìn)而影響了基于聯(lián)合知識(shí)嵌入的實(shí)體對(duì)齊方法效果。在大多數(shù)方法中,未充分利用本體資源。為提高對(duì)齊準(zhǔn)確性,Xiang 等[25]提出采用本體語(yǔ)義來(lái)增強(qiáng)知識(shí)圖譜實(shí)體對(duì)齊的OntoEA 方法,該方法通過(guò)迭代共同訓(xùn)練策略整合基于TransE的實(shí)體嵌入、本體嵌入、類別沖突矩陣、成員關(guān)系嵌入和初始對(duì)齊嵌入模塊,減少了類別沖突和誤報(bào)問(wèn)題,并在多個(gè)基準(zhǔn)測(cè)試中獲得良好效果。然而,引入本體會(huì)產(chǎn)生新的挑戰(zhàn),如本體中的類別沖突很難處理。雖然TransE計(jì)算效率高,易于實(shí)現(xiàn),但仍然存在一些局限性,如圖5 展示了TransE 的一系列改進(jìn)方法。

    圖5 基于TransE系列方法發(fā)展歷程Fig.5 Development process of TransE series methods

    TransH[26]、TransR[27]和TransD[28]方法旨在解決TransE處理復(fù)雜關(guān)系的限制。TransH 利用關(guān)系特定的超平面投影實(shí)體的向量表示,使得一個(gè)實(shí)體在不同關(guān)系中有不同的表示。而TransR改進(jìn)了TransE和TransH中實(shí)體和關(guān)系在同一語(yǔ)義空間中映射可能導(dǎo)致實(shí)體和關(guān)系語(yǔ)義相互混淆的問(wèn)題,其通過(guò)引入新矩陣表示關(guān)系的轉(zhuǎn)換,將實(shí)體和關(guān)系分別映射到不同的語(yǔ)義空間中。由于醫(yī)學(xué)知識(shí)圖譜的復(fù)雜性,往往存在“一對(duì)多”關(guān)系。為此,F(xiàn)ang等[29]以TransR為基礎(chǔ)模型之一,通過(guò)提取電子病歷和網(wǎng)絡(luò)中與垂體瘤相關(guān)的數(shù)據(jù),依次對(duì)齊尾、頭實(shí)體,并結(jié)合分類模型來(lái)學(xué)習(xí)和預(yù)測(cè)使用的字符、語(yǔ)義和結(jié)構(gòu)三種特征,實(shí)驗(yàn)證明該分步對(duì)齊方法具有良好效果。TransD在TransR的基礎(chǔ)上進(jìn)一步改進(jìn),對(duì)頭、尾實(shí)體使用不同的轉(zhuǎn)換矩陣,以更好地處理復(fù)雜關(guān)系并降低計(jì)算復(fù)雜度。

    PTransE[30]和IPTransE[31]方法彌補(bǔ)了TransE 缺乏考慮多步關(guān)系路徑能力的問(wèn)題。PTransE結(jié)合了TransE和TransH 的思想,引入基于路徑的注意力機(jī)制,通過(guò)分配不同的注意力權(quán)重來(lái)捕捉多步關(guān)系的語(yǔ)義信息。在醫(yī)學(xué)實(shí)體對(duì)齊任務(wù)中,PTransE 方法考慮到了關(guān)系信息中的多步關(guān)系路徑,例如<小兒肺炎,表現(xiàn)為,發(fā)熱><發(fā)熱,對(duì)應(yīng)藥品,布洛芬><小兒肺炎,對(duì)應(yīng)藥品,布洛芬>。借助PTransE 的支持,程瑞[32]提出了一種聯(lián)合關(guān)系信息和屬性信息的迭代EA 方法,以解決現(xiàn)有方法忽略實(shí)體屬性信息或?qū)傩耘c關(guān)系信息混淆處理的問(wèn)題。然而,PTransE 存在長(zhǎng)路徑建模能力不足、路徑注意力的計(jì)算復(fù)雜度較高等問(wèn)題。為了解決這些問(wèn)題,IPTransE被提出,它采用矩陣分解和動(dòng)態(tài)路徑選擇來(lái)改善PTransE的性能。

    3.2.2 基于GNN系列模型的方法

    基于TransE 系列實(shí)體對(duì)齊方法的優(yōu)點(diǎn)在于其簡(jiǎn)單而直觀的表示學(xué)習(xí)框架,通過(guò)學(xué)習(xí)實(shí)體間的關(guān)系向量進(jìn)行對(duì)齊,取得了一定的效果。這類方法不依賴于復(fù)雜的圖結(jié)構(gòu)和高階關(guān)系的建模,具有計(jì)算效率高、易于實(shí)現(xiàn)和解釋的優(yōu)勢(shì)。但其未顯示地考慮實(shí)體的鄰居信息,因此可能無(wú)法捕捉到一些重要的上下文關(guān)系。隨著圖神經(jīng)網(wǎng)絡(luò)(graph neural network,GNN)的興起,研究人員發(fā)現(xiàn)GNN 能夠更好地利用圖結(jié)構(gòu)信息,通過(guò)多層次的鄰居聚合和信息傳遞,更全面地考慮實(shí)體的上下文信息和全局信息,從而實(shí)現(xiàn)更準(zhǔn)確、魯棒的實(shí)體對(duì)齊。因此,研究重點(diǎn)逐漸轉(zhuǎn)向基于GNN 系列的實(shí)體對(duì)齊方法,以進(jìn)一步提升對(duì)齊任務(wù)的性能和靈活性。

    圖卷積網(wǎng)絡(luò)(graph convolutional network,GCN)[33]是最先被廣泛應(yīng)用于實(shí)體對(duì)齊的圖神經(jīng)網(wǎng)絡(luò)模型之一。Zhang等[34]通過(guò)結(jié)合語(yǔ)義和結(jié)構(gòu)嵌入來(lái)衡量實(shí)體間的相關(guān)性,在采用預(yù)訓(xùn)練語(yǔ)言模型獲得實(shí)體語(yǔ)義嵌入的同時(shí),結(jié)合GCN捕獲實(shí)體下位詞和同義詞的結(jié)構(gòu)嵌入,以完成電子病歷與術(shù)語(yǔ)庫(kù)之間的實(shí)體對(duì)齊。然而,GCN在處理圖數(shù)據(jù)時(shí)每個(gè)節(jié)點(diǎn)對(duì)鄰居節(jié)點(diǎn)賦予了相同權(quán)重,使得GCN 無(wú)法充分考慮不同鄰居節(jié)點(diǎn)的重要性差異。針對(duì)GCN 中固定權(quán)重聚合方式的不足,Velickovic 等[35]在2018 年提出圖注意力網(wǎng)絡(luò)(graph attention network,GAT)。GAT通過(guò)引入注意力機(jī)制使每個(gè)節(jié)點(diǎn)能夠自適應(yīng)地分配不同權(quán)重給鄰居節(jié)點(diǎn),從而更靈活地關(guān)注與當(dāng)前節(jié)點(diǎn)相關(guān)性更高的鄰居節(jié)點(diǎn),增強(qiáng)了圖神經(jīng)網(wǎng)絡(luò)的表達(dá)能力和學(xué)習(xí)能力。廖開際等[36]重視實(shí)體鄰居的利用,借助多種注意力機(jī)制和圖卷積神經(jīng)網(wǎng)絡(luò)清除實(shí)體冗余并賦予實(shí)體權(quán)重,通過(guò)實(shí)體鄰域信息增強(qiáng)實(shí)體嵌入以完成多源乳腺癌數(shù)據(jù)的實(shí)體對(duì)齊,解決了實(shí)體鄰域異質(zhì)性問(wèn)題。

    上述方法未直接討論或解決GNN由于多層堆疊引起的噪聲問(wèn)題,也較少關(guān)注實(shí)體與關(guān)系間的良性互動(dòng)。對(duì)此,鄔萌[37]提出RD-HRGCNs模型,首先,通過(guò)構(gòu)造原始實(shí)體圖的對(duì)偶關(guān)系圖和使用圖注意力機(jī)制,將關(guān)系信息融入實(shí)體表示中,彌補(bǔ)了GCN 忽略實(shí)體間關(guān)系信息的不足;其次,利用帶有高速路神經(jīng)網(wǎng)絡(luò)門控(highway gates)的雙層RGCN進(jìn)一步捕獲醫(yī)療實(shí)體的鄰域結(jié)構(gòu)信息并過(guò)濾噪聲。次年,李麗雙等[38]針對(duì)中文電子病歷知識(shí)圖譜間結(jié)構(gòu)異質(zhì)性的特點(diǎn),設(shè)計(jì)了一個(gè)名為DvGNet的雙視角并行圖神經(jīng)網(wǎng)絡(luò)模型,該模型分別采用實(shí)體交互和關(guān)系交互視角緩解實(shí)體鄰域異質(zhì)性和關(guān)系異質(zhì)性,并利用門控機(jī)制聚合嵌入表示以解決噪聲傳播問(wèn)題,進(jìn)而提高了模型的性能和效果。基于GNN系列的實(shí)體對(duì)齊方法可以更好地捕捉圖結(jié)構(gòu)中的關(guān)系和特征,因此整體效果略優(yōu)于基于TransE系列的方法。在GNN模型中引入更豐富的知識(shí)來(lái)幫助實(shí)體對(duì)齊,仍然是一個(gè)值得探索的問(wèn)題。

    3.2.3 其他深度學(xué)習(xí)方法

    除了基于TransE、GNN系列的方法,還有其他一些深度學(xué)習(xí)方法被應(yīng)用于實(shí)體對(duì)齊任務(wù)。隨著2018 年BERT(bidirectional encoder representation from transformers)[39]預(yù)訓(xùn)練語(yǔ)言模型的發(fā)布,研究者們也嘗試將BERT 模型應(yīng)用于實(shí)體對(duì)齊,并取得了良好效果。通過(guò)將兩個(gè)實(shí)體的文本描述輸入BERT,可以獲得它們的語(yǔ)義表示,并對(duì)這些表示進(jìn)行比較以判斷是否對(duì)應(yīng)同一實(shí)體。劉旭利等[40]將醫(yī)療實(shí)體視為短句,從而把病人事件圖譜中醫(yī)療實(shí)體與醫(yī)療知識(shí)庫(kù)實(shí)體的對(duì)齊問(wèn)題轉(zhuǎn)化為兩個(gè)句子之間的語(yǔ)義關(guān)系多分類問(wèn)題,通過(guò)使用基于字符特征和語(yǔ)義相似性的BERT 分類算法實(shí)現(xiàn)了知識(shí)融合任務(wù)。上述方法將一對(duì)術(shù)語(yǔ)作為序列輸入到BERT中,并不生成單個(gè)術(shù)語(yǔ)的嵌入,可能會(huì)丟失術(shù)語(yǔ)級(jí)語(yǔ)義信息。針對(duì)這一問(wèn)題,Ma 等[41]設(shè)計(jì)了SiBERT 模型,利用詞嵌入序列生成術(shù)語(yǔ)級(jí)嵌入以增強(qiáng)相似性計(jì)算中實(shí)體的特征,并引入遷移學(xué)習(xí)機(jī)制對(duì)模型進(jìn)行預(yù)訓(xùn)練有效緩解對(duì)數(shù)據(jù)的依賴,旨在將電子病歷中治療、檢查、疾病和癥狀四類實(shí)體與ICD 標(biāo)準(zhǔn)術(shù)語(yǔ)進(jìn)行對(duì)齊。該模型采用孿生網(wǎng)絡(luò)使其訓(xùn)練速度比CNN和BERT更快,但由于模型訓(xùn)練數(shù)據(jù)量較小且數(shù)據(jù)標(biāo)注難度大,在應(yīng)用上存在局限。

    在當(dāng)前深度學(xué)習(xí)盛行的時(shí)代,也不乏有研究者將傳統(tǒng)方法與深度學(xué)習(xí)相融合,并提出新的框架,旨在提升醫(yī)學(xué)實(shí)體對(duì)齊的效果。例如,Tang等[42]提出了一種融合Gromov-Wasserstein 距離的無(wú)監(jiān)督實(shí)體對(duì)齊框架,通過(guò)聯(lián)合優(yōu)化實(shí)體語(yǔ)義和圖結(jié)構(gòu)充分利用知識(shí)圖譜的結(jié)構(gòu)信息,并結(jié)合三階段漸進(jìn)優(yōu)化算法以應(yīng)對(duì)相關(guān)的計(jì)算挑戰(zhàn),在多個(gè)數(shù)據(jù)集上取得了良好的結(jié)果,但該框架在處理懸掛實(shí)體時(shí)的能力有限。懸掛實(shí)體是近年來(lái)實(shí)體對(duì)齊新問(wèn)題,指在不同知識(shí)圖譜之間找不到對(duì)應(yīng)的實(shí)體,這些實(shí)體的存在可能會(huì)影響知識(shí)圖譜的完整性和準(zhǔn)確性,即并非所有實(shí)體都有對(duì)應(yīng)的等價(jià)實(shí)體。為了解決這一問(wèn)題,Luo 等[43]基于UMLS 構(gòu)建了一個(gè)具有實(shí)體對(duì)齊(EA)任務(wù)和懸掛實(shí)體檢測(cè)(DED)任務(wù)的醫(yī)學(xué)跨語(yǔ)言知識(shí)圖譜數(shù)據(jù)集MedED。此外,提出了一種聯(lián)合EA 和DED的無(wú)監(jiān)督方法UED,該方法挖掘文字語(yǔ)義信息,為EA生成虛擬實(shí)體對(duì)和全局引導(dǎo)對(duì)齊信息,然后利用EA結(jié)果來(lái)協(xié)助DED,在解決懸掛實(shí)體對(duì)齊問(wèn)題的同時(shí)消除了對(duì)種子對(duì)的需求。然而,所提出的方法依賴于文字語(yǔ)義信息的可用性,而該信息并不總是可靠的。對(duì)此,Xu 等[44]為充分利用知識(shí)圖譜中圖結(jié)構(gòu)信息,提出一種弱監(jiān)督框架WOGCL,其在模型、訓(xùn)練和推理三個(gè)方面進(jìn)行了改進(jìn)。具體來(lái)說(shuō),通過(guò)引入門控圖注意力網(wǎng)絡(luò)來(lái)捕捉局部和全局圖結(jié)構(gòu)相似性,設(shè)計(jì)了對(duì)比學(xué)習(xí)和最優(yōu)傳輸學(xué)習(xí)的兩個(gè)學(xué)習(xí)目標(biāo);通過(guò)最優(yōu)傳輸計(jì)劃獲得可區(qū)分的實(shí)體表示,提出了基于PageRank 的方法來(lái)計(jì)算高階結(jié)構(gòu)相似性。WOGCL僅使用純圖結(jié)構(gòu)信息,解決了跨語(yǔ)言知識(shí)圖譜中的懸掛實(shí)體對(duì)齊問(wèn)題并增強(qiáng)了實(shí)體對(duì)齊框架的可推廣性。如表3 總結(jié)了基于表示學(xué)習(xí)的醫(yī)學(xué)領(lǐng)域?qū)嶓w對(duì)齊方法。

    表3 基于表示學(xué)習(xí)的醫(yī)學(xué)實(shí)體對(duì)齊方法Table 3 Medical entity alignment method based on representation learning

    4 醫(yī)學(xué)領(lǐng)域?qū)嶓w鏈接方式

    實(shí)體鏈接各方法的優(yōu)缺點(diǎn)及適用范圍,如表4所示。

    表4 醫(yī)學(xué)實(shí)體鏈接方法分類Table 4 Classification of medical entity linking methods

    4.1 傳統(tǒng)的實(shí)體鏈接方法

    4.1.1 基于規(guī)則的方法

    早期的醫(yī)學(xué)實(shí)體鏈接方法基于規(guī)則,以模式匹配、構(gòu)建術(shù)語(yǔ)詞典為主要手段,主要用來(lái)消除醫(yī)學(xué)實(shí)體的歧義。模式匹配方法通常根據(jù)設(shè)定的拼寫規(guī)則、指示詞、構(gòu)詞規(guī)則和前后綴字符串等來(lái)定義模板,然后應(yīng)用這些模板進(jìn)行精確或部分匹配。例如,Li等[45]提出的基于規(guī)則的模型通過(guò)創(chuàng)建一組句法規(guī)則或語(yǔ)義約束來(lái)解決醫(yī)學(xué)實(shí)體歧義性問(wèn)題。然而,這種方法很難處理實(shí)體的別名、縮寫詞等多樣形式。基于詞典的方法將實(shí)體鏈接問(wèn)題轉(zhuǎn)化為詞典匹配問(wèn)題,該方法使用構(gòu)建完善的詞典來(lái)識(shí)別和匹配實(shí)體,其中包含大量詞匯縮寫、變體、同義詞和昵稱等條目。Xiu 等[46]和Liu 等[47]利用構(gòu)建的詞典擴(kuò)展不匹配的實(shí)體提及,并采用基于排名的余弦相似度方法消歧,分別構(gòu)建了消化系統(tǒng)腫瘤知識(shí)圖譜、類風(fēng)濕關(guān)節(jié)炎知識(shí)圖譜。但由于醫(yī)學(xué)實(shí)體名稱的多樣性,這類方法需要維護(hù)一個(gè)龐大的詞典,并且難以處理新詞。

    不同的技術(shù)可以用來(lái)輔助這兩種方法,以便更好地解決醫(yī)學(xué)實(shí)體鏈接中的問(wèn)題。例如,為了解決中文醫(yī)學(xué)實(shí)體鏈接中可能出現(xiàn)的錯(cuò)別字或音譯差異、措辭相似但不同的實(shí)體等困難,Sun 等[48]設(shè)計(jì)了多級(jí)相似性匹配方法。盡管基于規(guī)則的方法易于理解和實(shí)現(xiàn),但存在以下問(wèn)題:規(guī)則的構(gòu)建需要大量的人力,且無(wú)法覆蓋所有情況;規(guī)則的設(shè)計(jì)往往依賴于實(shí)體的形態(tài)特征,因此在區(qū)分形態(tài)上相似但語(yǔ)義不同的語(yǔ)境時(shí)變得困難;一個(gè)領(lǐng)域中設(shè)計(jì)的實(shí)體規(guī)則無(wú)法直接遷移至另一個(gè)醫(yī)學(xué)領(lǐng)域,例如,專為電子病歷設(shè)計(jì)的規(guī)則并不適用于古籍。

    4.1.2 基于傳統(tǒng)機(jī)器學(xué)習(xí)的方法

    基于傳統(tǒng)機(jī)器學(xué)習(xí)的方法主要利用特征工程編碼實(shí)體提及和候選實(shí)體,然后通過(guò)相似度計(jì)算對(duì)實(shí)體進(jìn)行排序和選擇,進(jìn)而實(shí)現(xiàn)實(shí)體鏈接任務(wù)。相較于基于規(guī)則的方法,該方法靈活性和實(shí)用性更高。將機(jī)器學(xué)習(xí)應(yīng)用于醫(yī)學(xué)實(shí)體鏈接的最早嘗試之一是DNorm[49]。該方法引入了成對(duì)學(xué)習(xí)排序的思想,通過(guò)學(xué)習(xí)文本中疾病實(shí)體提及與知識(shí)庫(kù)中概念名稱的相似性來(lái)進(jìn)行評(píng)分,不僅能夠處理同義詞、多義詞和非一對(duì)一的關(guān)系,而且可以專門用于解決縮寫和詞序變化問(wèn)題。然而,監(jiān)督方法依賴于大量標(biāo)注數(shù)據(jù),且難以處理未見(jiàn)實(shí)體的情況。

    相比于監(jiān)督方法,無(wú)監(jiān)督方法不需要標(biāo)注數(shù)據(jù),能夠自動(dòng)發(fā)現(xiàn)實(shí)體間潛在的關(guān)聯(lián)關(guān)系。Wu等[50]同樣針對(duì)臨床縮寫問(wèn)題,開發(fā)了一個(gè)臨床縮寫識(shí)別和消歧的框架CARD。與DNorm思想不同的是,CARD利用機(jī)器學(xué)習(xí)方法識(shí)別縮寫,并基于聚類生成縮寫的可能含義,然后利用基于概要和向量空間模型進(jìn)行詞義消歧。Angell等[51]也設(shè)計(jì)了一個(gè)基于聚類的模型,考慮了文檔內(nèi)和跨文檔間的實(shí)體提及關(guān)系,通過(guò)聚類多個(gè)提及并共同預(yù)測(cè)鏈接,以更好地應(yīng)對(duì)醫(yī)學(xué)文本中存在的模糊或不明確指代的挑戰(zhàn),但其性能受到聚類算法的選擇和參數(shù)設(shè)置的影響。

    隨著研究的深入,研究人員嘗試在醫(yī)學(xué)實(shí)體鏈接中應(yīng)用更多的機(jī)器學(xué)習(xí)算法。其中,PageRank 算法最初為評(píng)估搜索引擎結(jié)果相關(guān)性而設(shè)計(jì),在使用基于圖的表示時(shí)也常用于實(shí)體鏈接。例如,Duque 等[52]利用基于共現(xiàn)信息的圖自動(dòng)構(gòu)建知識(shí)圖譜,并采用PageRank 進(jìn)行詞義消歧,該方法不僅考慮了歧義詞的上下文信息,還能在不依賴大量外部資源的情況下提高消歧的準(zhǔn)確性。而為了彌補(bǔ)知識(shí)圖譜中缺失的領(lǐng)域知識(shí),Ruas等[53]提出一種將關(guān)系抽取用于實(shí)體鏈接的框架,通過(guò)自動(dòng)提取的關(guān)系來(lái)構(gòu)建消歧圖,然后利用PageRank 和本體信息選擇每個(gè)實(shí)體的最佳候選,從而提高實(shí)體鏈接性能。傳統(tǒng)機(jī)器學(xué)習(xí)方法在性能和準(zhǔn)確性方面相較于基于規(guī)則的方法取得了顯著進(jìn)展,但其性能高度依賴于特征工程的質(zhì)量,需要人工設(shè)計(jì)和選擇適當(dāng)?shù)奶卣?。此外,該方法的語(yǔ)義信息抽取和表示能力有限,難以處理復(fù)雜語(yǔ)義關(guān)聯(lián)和上下文依賴。

    4.2 基于深度學(xué)習(xí)的實(shí)體鏈接方法

    近年來(lái),隨著深度學(xué)習(xí)的發(fā)展,神經(jīng)網(wǎng)絡(luò)因其出色的泛化能力而在醫(yī)學(xué)實(shí)體鏈接中備受關(guān)注,并取得了良好的鏈接效果。這些模型可以自動(dòng)學(xué)習(xí)特征和表示,具備強(qiáng)大的表達(dá)能力,并能有效地捕捉文本中的復(fù)雜語(yǔ)義和上下文關(guān)系。

    4.2.1 卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)

    早期基于深度學(xué)習(xí)的實(shí)體鏈接技術(shù)主要采用卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)[54]。Luo等[55]通過(guò)引入匹配張量和多視圖CNN 模型,結(jié)合多任務(wù)共享結(jié)構(gòu),以解決中文醫(yī)學(xué)短文本規(guī)范化和非標(biāo)準(zhǔn)表達(dá)問(wèn)題。但由于卷積核的大小限制,CNN 只能學(xué)習(xí)到文本中的局部信息。為了克服該局限,具有參數(shù)共享和記憶性的循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)[56]被提出,并逐漸取代CNN的地位。

    隨后,RNN 的變種之一,長(zhǎng)短期記憶網(wǎng)絡(luò)(long short-term memory,LSTM)[56]因解決了RNN 存在的梯度消失、爆炸問(wèn)題而成為許多自然語(yǔ)言處理應(yīng)用的主要模型,并廣泛應(yīng)用于醫(yī)學(xué)實(shí)體鏈接任務(wù)中。在后續(xù)研究中,Bi-LSTM[57]彌補(bǔ)了LSTM 處理上下文信息時(shí)的缺陷,可以更好地捕捉雙向上下文信息。Yan 等[58]提出了一種無(wú)監(jiān)督方法,使用多實(shí)例學(xué)習(xí)來(lái)提高鏈接的準(zhǔn)確性。通過(guò)構(gòu)建一個(gè)中文醫(yī)療實(shí)體鏈接數(shù)據(jù)集,利用Bi-LSTM作為編碼器獲取實(shí)體和上下文的表示,并使用排序網(wǎng)絡(luò)對(duì)候選實(shí)體進(jìn)行評(píng)分,在解決標(biāo)注數(shù)據(jù)難以獲取的同時(shí)緩解了知識(shí)庫(kù)稀疏性??紤]到實(shí)體鏈接基于命名實(shí)體識(shí)別,部分學(xué)者嘗試對(duì)醫(yī)學(xué)命名實(shí)體識(shí)別和實(shí)體鏈接任務(wù)進(jìn)行聯(lián)合建模。然而,在上述方法中,Yan等[58]將這兩項(xiàng)任務(wù)視為獨(dú)立步驟導(dǎo)致錯(cuò)誤級(jí)聯(lián)和相互支持不足,而Luo 等[55]簡(jiǎn)單地聯(lián)合建模兩項(xiàng)任務(wù)卻無(wú)法編碼復(fù)雜特征。為了解決這些問(wèn)題,Zhao 等[59]提出了一種基于Word2Vec、CNN 和Bi-LSTM 方法的深度神經(jīng)多任務(wù)學(xué)習(xí)框架。該框架通過(guò)顯式反饋策略共同建模這兩項(xiàng)任務(wù),并通過(guò)多任務(wù)學(xué)習(xí)提供的通用表示增強(qiáng)任務(wù)之間的相互作用,從而提高了聯(lián)合執(zhí)行效率。

    4.2.2 BERT預(yù)訓(xùn)練語(yǔ)言模型

    最近,基于BERT的預(yù)訓(xùn)練語(yǔ)言模型在許多醫(yī)學(xué)實(shí)體鏈接任務(wù)中得到了有效應(yīng)用。Liu等[60]提出了一種自對(duì)齊的預(yù)訓(xùn)練模型SAPBERT。該模型利用從統(tǒng)一醫(yī)學(xué)語(yǔ)言系統(tǒng)(UMLS)中通過(guò)聚類提取的同義詞集對(duì)BERT進(jìn)行微調(diào),以應(yīng)對(duì)醫(yī)學(xué)領(lǐng)域特定的細(xì)粒度語(yǔ)義關(guān)系的挑戰(zhàn),并有效提升了醫(yī)學(xué)實(shí)體鏈接的性能。同年,Liu等[61]在SAPBERT 基礎(chǔ)上引入領(lǐng)域特定知識(shí),嘗試完成跨語(yǔ)言醫(yī)學(xué)實(shí)體鏈接任務(wù)。該研究通過(guò)建立一個(gè)包含10種語(yǔ)言的跨語(yǔ)言評(píng)估基準(zhǔn),并提出跨語(yǔ)言轉(zhuǎn)移方法,展示了如何將領(lǐng)域特定知識(shí)從英語(yǔ)傳遞到資源匱乏的語(yǔ)言,在目標(biāo)語(yǔ)言中實(shí)現(xiàn)了性能的提升。

    為了更好地利用BERT技術(shù),研究人員結(jié)合特定任務(wù)需求進(jìn)行改進(jìn),并引入數(shù)據(jù)增強(qiáng)、對(duì)抗訓(xùn)練進(jìn)一步提高鏈接性能。Dong等[62]專注于發(fā)現(xiàn)不在知識(shí)庫(kù)(out-of-KB)中的實(shí)體提及,提出一種基于BERT 的實(shí)體鏈接改進(jìn)方法BLINKout。該方法通過(guò)將這些提及與特殊的NIL 實(shí)體進(jìn)行匹配,能夠有效識(shí)別知識(shí)庫(kù)之外的提及;采用經(jīng)過(guò)微調(diào)的NIL實(shí)體表示、同義詞增強(qiáng)和特定領(lǐng)域的語(yǔ)言模型,以增強(qiáng)同義詞對(duì)實(shí)體鏈接的作用。而針對(duì)實(shí)體提及表達(dá)的一致性問(wèn)題,Li等[63]引入Stacking-BERT模型,利用基于BERT 的原始排名模型和Stacking-BERT 排名模型來(lái)捕獲語(yǔ)義信息,并通過(guò)堆疊機(jī)制選擇最佳映射對(duì),以實(shí)現(xiàn)將臨床術(shù)語(yǔ)自動(dòng)映射到中文ICD編碼。并采用對(duì)抗訓(xùn)練和數(shù)據(jù)增強(qiáng)的技巧,有效地提高了模型在小樣本上的效果。

    4.2.3 輕量級(jí)模型

    然而,BERT模型參數(shù)過(guò)多且需要大量的計(jì)算資源,這限制了其在資源有限的場(chǎng)景中的應(yīng)用。研究人員發(fā)現(xiàn),當(dāng)輸入的單詞順序被打亂或者注意力范圍受限制時(shí),現(xiàn)有基于BERT 模型的醫(yī)學(xué)實(shí)體鏈接性能變化很小。這意味著在解決這類特定任務(wù)時(shí),使用像BERT這樣的大型模型可能存在不必要的計(jì)算成本。為此,文獻(xiàn)[64-66]提出了用于醫(yī)學(xué)實(shí)體鏈接的輕量級(jí)神經(jīng)網(wǎng)絡(luò)模型,這些模型分別采用具有注意機(jī)制的對(duì)齊層、殘差卷積神經(jīng)網(wǎng)絡(luò)、基于內(nèi)部和外部實(shí)體的注意力3種不同的方式,以降低模型的復(fù)雜性和資源消耗,實(shí)現(xiàn)了與基于BERT 模型的先前工作相媲美的性能,并且在資源有限的場(chǎng)景下具有更高的效率。其中,Abdurxit 等[66]通過(guò)整合自注意力和交叉注意力模塊,能夠更好地捕捉醫(yī)學(xué)提及和候選實(shí)體之間以及實(shí)體之間的信息。

    4.2.4 生成式方法

    不同于上述方法的思想,生成式方法試圖通過(guò)建立一個(gè)生成模型,將實(shí)體鏈接(EL)任務(wù)視為自然語(yǔ)言生成(NLG)任務(wù)。在該任務(wù)中,模型接收一個(gè)包含提及的文本作為輸入,然后生成相應(yīng)鏈接的實(shí)體名稱作為輸出。Yuan 等[67]嘗試將生成式方法應(yīng)用于醫(yī)學(xué)領(lǐng)域?qū)嶓w鏈接中,通過(guò)知識(shí)圖譜引導(dǎo)的預(yù)訓(xùn)練和同義詞感知微調(diào)來(lái)提升生成式EL 效果,解決了缺乏大規(guī)模人工標(biāo)注和多個(gè)同義詞的問(wèn)題。De等[68]提出的自回歸實(shí)體鏈接模型也采用了生成式方法,通過(guò)生成觀察到的提及-實(shí)體對(duì)來(lái)學(xué)習(xí)。該模型采用淺層LSTM 解碼器實(shí)現(xiàn)并行計(jì)算,并引入判別性修正項(xiàng)來(lái)改進(jìn)解碼器的排序,解決了以往自回歸生成方法中計(jì)算成本高、無(wú)法并行解碼和需要大量數(shù)據(jù)訓(xùn)練的問(wèn)題。然而,該方法需要候選集或知識(shí)圖譜的支持,并且缺乏對(duì)生成樣本的重新排序能力。

    為了解決上述問(wèn)題,Mrini 等[69]在De 等[68]的基礎(chǔ)上進(jìn)一步改進(jìn),提出一種編碼器-解碼器的自回歸實(shí)體鏈接模型。通過(guò)將模型與提及檢測(cè)和實(shí)體匹配預(yù)測(cè)這兩個(gè)輔助任務(wù)一起進(jìn)行訓(xùn)練,并學(xué)習(xí)在推理時(shí)重新排序生成的樣本,取得了多個(gè)數(shù)據(jù)集上的最佳性能,同時(shí)解決對(duì)預(yù)定義候選集依賴問(wèn)題。此外,消融實(shí)驗(yàn)證明了每個(gè)輔助任務(wù)對(duì)主任務(wù)性能提升的重要性,以及重新排序?qū)π阅芴嵘鸬降年P(guān)鍵作用。盡管在醫(yī)學(xué)領(lǐng)域應(yīng)用生成式方法進(jìn)行實(shí)體鏈接任務(wù)引起了相當(dāng)大的關(guān)注,但生成式EL方法在訓(xùn)練過(guò)程需要大量的計(jì)算資源才能達(dá)到高性能。因此,需要進(jìn)一步研究以克服這一挑戰(zhàn)。表5總結(jié)了基于深度學(xué)習(xí)的醫(yī)學(xué)實(shí)體鏈接方法。

    表5 基于深度學(xué)習(xí)的醫(yī)學(xué)實(shí)體鏈接方法Table 5 Medical entity linking methods based on deep learning

    5 醫(yī)學(xué)知識(shí)融合難點(diǎn)的解決方案

    5.1 解決兩任務(wù)共有難點(diǎn)思路

    5.1.1 多樣性與歧義性

    實(shí)體命名多樣性與歧義性是醫(yī)學(xué)領(lǐng)域知識(shí)融合中的常見(jiàn)問(wèn)題。實(shí)體對(duì)齊任務(wù)中,實(shí)體命名多樣性表現(xiàn)為兩個(gè)不同知識(shí)圖譜中的實(shí)體在進(jìn)行一對(duì)一對(duì)齊時(shí)可能由于命名差異而出現(xiàn)錯(cuò)誤;而在實(shí)體鏈接任務(wù)中,則是多個(gè)實(shí)體提及鏈接到知識(shí)圖譜中的一個(gè)標(biāo)準(zhǔn)實(shí)體。以下是解決該問(wèn)題的主要方法:

    (1)借助同義詞詞典。包括維護(hù)癥狀詞匯字典[70]、構(gòu)建同義醫(yī)療實(shí)體庫(kù)[20]、構(gòu)造醫(yī)學(xué)詞根庫(kù)[38]等。例如,Xie 等[70]通過(guò)將疾病實(shí)體映射到ICD-10 以維護(hù)癥狀詞匯字典,并使用基于編輯距離的相似性函數(shù)對(duì)實(shí)體名稱進(jìn)行匹配,解決實(shí)體命名多樣性問(wèn)題。

    (2)語(yǔ)義相似度匹配。利用自然語(yǔ)言處理技術(shù)計(jì)算實(shí)體名稱的語(yǔ)義相似度,將語(yǔ)義上相似的實(shí)體進(jìn)行對(duì)齊,從而彌補(bǔ)命名差異帶來(lái)的問(wèn)題。例如,An[19]通過(guò)對(duì)乳腺癌疾病術(shù)語(yǔ)的核心詞拆分候選,并結(jié)合編輯距離、BERT+Cosine和BERT+ESIM等多種語(yǔ)義相似性計(jì)算方法,最終融合得到相似性并對(duì)其排序。

    (3)遷移學(xué)習(xí)與預(yù)訓(xùn)練模型。劉龍航[71]設(shè)計(jì)融入多種傳統(tǒng)特征的BERT 匹配模型對(duì)臨床術(shù)語(yǔ)和疾病實(shí)體進(jìn)行處理,提高實(shí)體對(duì)齊準(zhǔn)確性。Ma 等[41]引入遷移學(xué)習(xí)機(jī)制并利用同義詞詞典對(duì)模型進(jìn)行預(yù)訓(xùn)練,提高模型對(duì)多樣性實(shí)體命名的適應(yīng)能力。

    (4)規(guī)范化和標(biāo)準(zhǔn)化。無(wú)論是實(shí)體對(duì)齊還是實(shí)體鏈接,都可以通過(guò)規(guī)范化和標(biāo)準(zhǔn)化方法統(tǒng)一不同數(shù)據(jù)源的實(shí)體命名,以緩解多樣性帶來(lái)的難題。例如,Yuan 等[72]提出基于知識(shí)圖譜和對(duì)比學(xué)習(xí)的CODER 方法,利用醫(yī)學(xué)知識(shí)圖譜中的術(shù)語(yǔ)和關(guān)系三元組進(jìn)行對(duì)比學(xué)習(xí),實(shí)現(xiàn)電子病歷術(shù)語(yǔ)規(guī)范化,從而解決多樣性問(wèn)題。

    相對(duì)于多樣性問(wèn)題,醫(yī)學(xué)領(lǐng)域的歧義性問(wèn)題常見(jiàn)于實(shí)體鏈接任務(wù)。王瑩[73]基于融入醫(yī)療實(shí)體的上下文語(yǔ)義信息特征對(duì)待消歧實(shí)體和候選實(shí)體進(jìn)行余弦相似度計(jì)算,以完成實(shí)體消歧過(guò)程,從而提高實(shí)體準(zhǔn)確性。例如,消歧完成后,對(duì)“山楂”一詞,查詢實(shí)體關(guān)系“藥物治療”時(shí)被細(xì)化為“山楂·藥物”,查詢實(shí)體關(guān)系“適宜飲食”時(shí),該詞則細(xì)化為“山楂·飲食”。

    5.1.2 標(biāo)注數(shù)據(jù)的缺乏

    針對(duì)標(biāo)注數(shù)據(jù)缺乏問(wèn)題,主要解決方法如下:

    (1)自監(jiān)督學(xué)習(xí)。其核心思想是通過(guò)設(shè)計(jì)輔助任務(wù)從數(shù)據(jù)中生成偽標(biāo)簽,然后利用這些偽標(biāo)簽進(jìn)行模型訓(xùn)練。如Zhang等[74]利用基于領(lǐng)域知識(shí)的自監(jiān)督方法,并使用對(duì)比學(xué)習(xí)訓(xùn)練上下文編碼器,彌補(bǔ)了標(biāo)注數(shù)據(jù)缺乏的問(wèn)題,但其自監(jiān)督質(zhì)量需進(jìn)一步增強(qiáng)。

    (2)主動(dòng)學(xué)習(xí)。這是一種智能的數(shù)據(jù)采樣方法,它通過(guò)挑選對(duì)當(dāng)前模型不確定的樣本,請(qǐng)求專家進(jìn)行標(biāo)注,從而有針對(duì)性地增加標(biāo)注數(shù)據(jù),提高模型性能。如Oberhauser等[75]通過(guò)使用主動(dòng)采樣策略和基于BERT的雙編碼器技術(shù),能夠支持醫(yī)學(xué)專家進(jìn)行數(shù)據(jù)標(biāo)注,并鏈接到大型知識(shí)圖譜中的實(shí)體,有效減輕標(biāo)注負(fù)擔(dān)。

    (3)對(duì)抗訓(xùn)練。在醫(yī)學(xué)領(lǐng)域知識(shí)融合任務(wù)中,對(duì)抗訓(xùn)練可以通過(guò)增強(qiáng)模型的穩(wěn)健性來(lái)減少標(biāo)注數(shù)據(jù)的需求。例如,Wiatrak等[76]通過(guò)設(shè)計(jì)和應(yīng)用基于快速梯度符號(hào)方法(fast gradient sign method,F(xiàn)GSM)的對(duì)抗正則化方法,并結(jié)合基于代理的度量學(xué)習(xí)損失,模擬硬負(fù)樣本的采樣以增強(qiáng)訓(xùn)練對(duì)抗性,從而有效地解決了候選檢索階段的標(biāo)注數(shù)據(jù)缺乏問(wèn)題。

    (4)無(wú)監(jiān)督方法。無(wú)監(jiān)督實(shí)體對(duì)齊能夠在沒(méi)有任何先驗(yàn)知識(shí)或者人工標(biāo)注的情況下,自動(dòng)地將兩個(gè)知識(shí)圖譜中相同實(shí)體進(jìn)行匹配。Qi 等[77]首次嘗試將傳統(tǒng)概率推理和語(yǔ)義嵌入技術(shù)相結(jié)合,提出了PRASE方法,以消除種子對(duì)的需求。首先,使用概率推理選擇高置信實(shí)體映射作為種子對(duì),然后基于這些種子對(duì)訓(xùn)練語(yǔ)義嵌入模塊,并不斷迭代更新。相比之下,無(wú)監(jiān)督實(shí)體鏈接方法的實(shí)現(xiàn)相對(duì)多樣,包括基于共現(xiàn)圖的無(wú)監(jiān)督技術(shù)[52]、利用現(xiàn)有知識(shí)庫(kù)并基于自注意力機(jī)制的方法[78]、多實(shí)例學(xué)習(xí)結(jié)合ICD-10 聚類方法[58]、利用潛在細(xì)粒度信息的模型[79]、基于聚類的實(shí)體鏈接模型[51]等。

    5.1.3 計(jì)算效率的問(wèn)題

    針對(duì)計(jì)算效率問(wèn)題,主要從注意力機(jī)制、模型結(jié)構(gòu)、嵌入表示、編解碼器四個(gè)方面進(jìn)行改進(jìn)。

    (1)優(yōu)化注意力機(jī)制:Abdurxit等[66]結(jié)合內(nèi)部和外部實(shí)體注意力機(jī)制,整合醫(yī)學(xué)實(shí)體提及和候選實(shí)體之間以及實(shí)體之間的信息,實(shí)現(xiàn)更好的性能表現(xiàn)和更高的推理速度。

    (2)模型結(jié)構(gòu)優(yōu)化:改進(jìn)模型的結(jié)構(gòu),設(shè)計(jì)更高效、輕量級(jí)的神經(jīng)網(wǎng)絡(luò)模型,如使用殘差卷積神經(jīng)網(wǎng)絡(luò)ResCNN[65]或基于CNN 的輕量級(jí)神經(jīng)模型[64],以減少參數(shù)數(shù)量和計(jì)算資源的需求,從而提高計(jì)算效率。

    (3)改進(jìn)嵌入表示:可以采用不同的方法來(lái)優(yōu)化嵌入表示,例如,Chen等[64]引入更多特征來(lái)改進(jìn)嵌入表示;Ma等[41]基于孿生式BERT網(wǎng)絡(luò),通過(guò)直接計(jì)算每個(gè)術(shù)語(yǔ)級(jí)別的嵌入表示相似性,提高了準(zhǔn)確性并降低了計(jì)算成本。

    (4)優(yōu)化編解碼器:Bhowmik 等[80]和De 等[68]將醫(yī)學(xué)實(shí)體鏈接任務(wù)看成一個(gè)端到端的過(guò)程,分別從編碼器和解碼器角度進(jìn)行了改進(jìn),以提高處理速度。Bhowmik等[80]提出基于BERT 的雙編碼器模型,通過(guò)提及編碼器和候選編碼器的協(xié)同作用,可以一次同時(shí)處理文檔中的多個(gè)實(shí)體提及;而De 等[68]則通過(guò)引入判別性修正項(xiàng)和淺層解碼器,實(shí)現(xiàn)高效的并行解碼計(jì)算。如表6總結(jié)了醫(yī)學(xué)領(lǐng)域知識(shí)融合共有難點(diǎn)的解決方案。

    表6 醫(yī)學(xué)領(lǐng)域知識(shí)融合共有難點(diǎn)的解決方案Table 6 Challenging solutions for knowledge fusion in medical domain

    5.2 解決實(shí)體對(duì)齊難點(diǎn)的思路

    5.2.1 知識(shí)圖譜異質(zhì)性

    針對(duì)知識(shí)圖譜之間的結(jié)構(gòu)異質(zhì)性,主要有引入圖注意力機(jī)制、引入遠(yuǎn)距離鄰居以及多視圖學(xué)習(xí)三種方法。通用領(lǐng)域已有不少研究,在圖神經(jīng)網(wǎng)絡(luò)中引入圖注意力機(jī)制可以對(duì)不同鄰域賦予不一樣的權(quán)重,以緩解實(shí)體鄰域異質(zhì)性。例如,KGNN[81]、MuGNN[82]和NMN[83]等模型均引入了圖注意力機(jī)制,但在具體方法上略有不同。其中,KGNN 通過(guò)聯(lián)合訓(xùn)練基于TransE 的模型和基于GAT 的模型來(lái)處理跨語(yǔ)言知識(shí)圖譜的異質(zhì)性;MuGNN通過(guò)多個(gè)通道對(duì)知識(shí)圖譜進(jìn)行編碼,實(shí)現(xiàn)了自注意力和跨圖注意力,從不同的角度增強(qiáng)了實(shí)體嵌入的結(jié)構(gòu)信息;NMN通過(guò)采樣和匹配實(shí)體的鄰域,來(lái)選擇信息豐富的鄰域并捕捉鄰域之間的差異,從而更準(zhǔn)確地估計(jì)實(shí)體之間的相似度。Sun等[84]提出的AliNet模型同時(shí)考慮了直接鄰居和遠(yuǎn)距離鄰居,該模型通過(guò)引入遠(yuǎn)距離鄰居來(lái)擴(kuò)展實(shí)體鄰域結(jié)構(gòu)的重疊部分,并使用注意機(jī)制和門控策略來(lái)聚合多跳鄰域信息,以減輕不同知識(shí)圖譜中實(shí)體鄰域異質(zhì)性。

    近年來(lái),醫(yī)療領(lǐng)域?qū)υ撾y點(diǎn)的研究逐漸受到關(guān)注,廖開際等[36]將MuGNN 模型應(yīng)用于醫(yī)學(xué)領(lǐng)域,通過(guò)引入跨圖注意力機(jī)制和基于注意力的跨圖鄰域匹配模塊等設(shè)計(jì),來(lái)緩解實(shí)體鄰域異質(zhì)性,從而有效地處理異質(zhì)性問(wèn)題。然而,以上研究主要聚焦于實(shí)體鄰域異質(zhì)性,卻忽略了關(guān)系異質(zhì)性對(duì)結(jié)構(gòu)異質(zhì)性的影響。對(duì)此,李麗雙等[38]采用多視圖學(xué)習(xí)的方式,嘗試從實(shí)體和關(guān)系兩個(gè)不同的圖譜視角學(xué)習(xí)嵌入表示,并通過(guò)門控機(jī)制將它們結(jié)合起來(lái),以全面緩解電子病歷知識(shí)圖譜的結(jié)構(gòu)異質(zhì)性。

    5.2.2 利用潛在的信息

    現(xiàn)有研究通過(guò)考慮屬性信息、結(jié)構(gòu)信息和語(yǔ)義信息來(lái)提高醫(yī)學(xué)實(shí)體對(duì)齊的準(zhǔn)確性。一些研究[37,44]通過(guò)充分利用其中一種信息來(lái)達(dá)到不錯(cuò)的對(duì)齊效果,而另一些研究[29,32,77]則考慮多種信息以融合多維特征。例如,程瑞[32]提出了兩種聯(lián)合實(shí)體對(duì)齊方法,用于解決現(xiàn)有方法忽略實(shí)體屬性信息或?qū)⑵渑c關(guān)系信息混淆處理,以及使用相同模型對(duì)知識(shí)圖譜中不同信息建模限制精度提升這兩大問(wèn)題。其中一種是迭代方法,它充分結(jié)合了關(guān)系信息和屬性信息;另一種方法則基于GCN和TransE,先對(duì)結(jié)構(gòu)、關(guān)系和屬性信息分別建模,再有效地聯(lián)合利用這些信息。為了解決現(xiàn)有方法未充分利用圖結(jié)構(gòu)信息的問(wèn)題,Xu 等[44]采用門控圖注意力網(wǎng)絡(luò)來(lái)捕捉局部和全局圖結(jié)構(gòu)相似性,同時(shí),利用對(duì)比學(xué)習(xí)和最優(yōu)傳輸學(xué)習(xí)的目標(biāo),以獲得可區(qū)分的實(shí)體表示。通過(guò)這種方式,能夠僅利用結(jié)構(gòu)信息就完成醫(yī)學(xué)實(shí)體對(duì)齊任務(wù)。而Tang 等[42]在其最新研究中通過(guò)聯(lián)合優(yōu)化實(shí)體語(yǔ)義和知識(shí)圖譜結(jié)構(gòu)的方式,充分利用了知識(shí)圖譜的結(jié)構(gòu)信息,而不是僅僅將其隱式編碼到嵌入中,實(shí)驗(yàn)表明,該方法在多個(gè)基準(zhǔn)數(shù)據(jù)集中取得不錯(cuò)的效果。需要注意的是,信息的利用并非越多種類越好,有時(shí)過(guò)多信息反而會(huì)產(chǎn)生噪聲,從而干擾實(shí)體對(duì)齊。因此,應(yīng)根據(jù)不同數(shù)據(jù)集特點(diǎn)及特定領(lǐng)域需求,充分利用有效信息。

    5.3 解決實(shí)體鏈接難點(diǎn)的思路

    5.3.1 未見(jiàn)實(shí)體問(wèn)題

    下面分別對(duì)未見(jiàn)實(shí)體中的兩類問(wèn)題提供解決思路。

    針對(duì)訓(xùn)練集中罕見(jiàn)實(shí)體問(wèn)題,Varma 等[85]使用跨領(lǐng)域數(shù)據(jù)集集成方法,將通用文本知識(shí)庫(kù)中的結(jié)構(gòu)化知識(shí)轉(zhuǎn)移到醫(yī)學(xué)領(lǐng)域,增強(qiáng)醫(yī)學(xué)實(shí)體的結(jié)構(gòu)資源,從而提高對(duì)罕見(jiàn)實(shí)體的泛化能力;Ujiie等[86]結(jié)合了跨度表示和字典匹配特征,其利用神經(jīng)網(wǎng)絡(luò)將從跨度表示中獲得的上下文分?jǐn)?shù)和字典匹配分?jǐn)?shù)加權(quán)和,來(lái)預(yù)測(cè)每個(gè)跨度的疾病概念;Angell等[51]采用基于聚類的推理方法實(shí)現(xiàn)醫(yī)學(xué)實(shí)體鏈接。通過(guò)推理方法構(gòu)建圖,并利用聚類將相似節(jié)點(diǎn)聚合形成提及組,若其中一個(gè)提及正確鏈接到實(shí)體,整個(gè)組即正確分類,間接解決未見(jiàn)實(shí)體問(wèn)題。

    而對(duì)于知識(shí)圖譜中缺乏對(duì)應(yīng)提及問(wèn)題,即不可鏈接實(shí)體的預(yù)測(cè),可以采用后修剪和閾值法、利用深度學(xué)習(xí)模型等方法。例如,Yuan等[87]探索了醫(yī)學(xué)實(shí)體鏈接中的部分知識(shí)圖譜推理問(wèn)題,并提出了后修剪和閾值法這兩種修復(fù)方法以解決無(wú)法鏈接提及(NIL)問(wèn)題,從而提高部分知識(shí)圖譜推理的性能;Dong 等[62]提出了BLINKout方法,利用BERT 模型對(duì)實(shí)體鏈接進(jìn)行改進(jìn),將未見(jiàn)實(shí)體的提及與特殊的NIL 實(shí)體匹配,以識(shí)別在UMLS、SNOMED CT等語(yǔ)料庫(kù)中不存在的提及。

    5.3.2 短文本問(wèn)題

    在解決醫(yī)學(xué)領(lǐng)域尤其是中文的短文本問(wèn)題上,研究人員專注于以下兩個(gè)方面:(1)如何擴(kuò)展短文本內(nèi)容;(2)如何巧妙運(yùn)用語(yǔ)義匹配模式之間的微妙差異。Luo等[55]提出了多視圖卷積神經(jīng)網(wǎng)絡(luò)的多任務(wù)框架,通過(guò)引入匹配張量將短文本比較擴(kuò)展到字符、詞和句子層面建模提及與實(shí)體交互,解決中文臨床診斷和手術(shù)名稱的短文本問(wèn)題。Li等[63]使用基于BERT的融合模型將中文實(shí)體鏈接視為句對(duì)分類任務(wù),以捕捉臨床實(shí)體提及的語(yǔ)義信息,并通過(guò)生成硬負(fù)樣本增強(qiáng)模型的特征學(xué)習(xí)能力,該方法巧妙運(yùn)用了語(yǔ)義匹配的細(xì)微差別。Vretinaris等[88]將文本片段中的實(shí)體提及表示為查詢圖以捕捉它們的相互關(guān)系,其中不同的節(jié)點(diǎn)類型表示藥物、不良反應(yīng)、癥狀和發(fā)現(xiàn),然后運(yùn)用圖神經(jīng)網(wǎng)絡(luò)將醫(yī)學(xué)實(shí)體鏈接問(wèn)題建模成圖匹配問(wèn)題,實(shí)現(xiàn)了擴(kuò)展短文本內(nèi)容并充分利用語(yǔ)義匹配的微妙差異。盡管其是在英文醫(yī)學(xué)文本上的應(yīng)用,但思路對(duì)中文具有借鑒作用。這些方法為解決復(fù)雜領(lǐng)域的實(shí)體鏈接短文本問(wèn)題帶來(lái)了新的視角和可能性。表7 總結(jié)了醫(yī)學(xué)領(lǐng)域?qū)嶓w對(duì)齊與實(shí)體鏈接各自難點(diǎn)的解決方案。

    表7 醫(yī)學(xué)領(lǐng)域?qū)嶓w對(duì)齊與實(shí)體鏈接各自難點(diǎn)的解決方案Table 7 Challenging solutions for entity alignment and entity linking in medical domain

    6 總結(jié)與展望

    通過(guò)對(duì)醫(yī)學(xué)領(lǐng)域?qū)嶓w對(duì)齊和實(shí)體鏈接研究現(xiàn)狀的分析,發(fā)現(xiàn)國(guó)內(nèi)醫(yī)學(xué)實(shí)體對(duì)齊的研究由于領(lǐng)域知識(shí)圖譜規(guī)模的限制和公開語(yǔ)料庫(kù)的稀缺,其起步相對(duì)較晚;相比之下,醫(yī)學(xué)實(shí)體鏈接的研究更為多樣與豐富。深度學(xué)習(xí)的興起促進(jìn)了知識(shí)融合任務(wù)的發(fā)展,使得醫(yī)學(xué)領(lǐng)域知識(shí)融合中存在的實(shí)體命名多樣性、利用潛在的信息等問(wèn)題得到了較好的解決。然而,標(biāo)注語(yǔ)料的缺乏、模型的計(jì)算效率、知識(shí)圖譜異質(zhì)性等問(wèn)題仍需不斷研究,以探索更為高效的解決方案。根據(jù)本文的研究,未來(lái)醫(yī)學(xué)領(lǐng)域的知識(shí)融合將涵蓋以下幾個(gè)方面:

    (1)多模態(tài)知識(shí)融合。醫(yī)學(xué)領(lǐng)域涉及臨床報(bào)告、醫(yī)學(xué)影像和音視頻等多種類型的信息,不同模態(tài)的信息之間存在互補(bǔ)性。例如,中醫(yī)臨床辨證依賴于四診合參,通過(guò)望聞問(wèn)切獲取舌面象、脈象、體質(zhì)信息和癥狀信息等多模態(tài)數(shù)據(jù),這些數(shù)據(jù)的融合能更全面地評(píng)估患者的疾病狀況。目前,多模態(tài)知識(shí)融合主要包括特征級(jí)的早期融合、基于決策的晚期融合、混合融合三種方法。然而,不同模態(tài)間的信息貢獻(xiàn)存在差異,多數(shù)研究卻采用固定的權(quán)重融合各模態(tài)信息。未來(lái)可以考慮:如何確定不同模態(tài)數(shù)據(jù)之間的權(quán)重以保證數(shù)據(jù)一致性;如何設(shè)計(jì)模型提取特征以提高各模態(tài)信息的利用率。

    (2)多視圖實(shí)體對(duì)齊。由于醫(yī)學(xué)知識(shí)圖譜中的實(shí)體存在各種特性,傳統(tǒng)的單一視圖對(duì)齊方法難以滿足精準(zhǔn)對(duì)齊的需求。多視圖對(duì)齊可以將知識(shí)圖譜的不同特性劃分為不同的視圖,如實(shí)體名稱視圖、屬性視圖、關(guān)系視圖等,從而從特定視圖中學(xué)習(xí)到實(shí)體嵌入。通過(guò)聯(lián)合優(yōu)化多個(gè)視圖的信息,可以提高實(shí)體對(duì)齊的性能。因此,多視圖實(shí)體對(duì)齊值得進(jìn)一步研究。

    (3)弱監(jiān)督或無(wú)監(jiān)督方法。為了適應(yīng)醫(yī)學(xué)領(lǐng)域樣本少的特點(diǎn),已有一些研究人員針對(duì)標(biāo)注數(shù)據(jù)的缺乏難點(diǎn)進(jìn)行了探索,但由于特定領(lǐng)域的復(fù)雜性,小樣本或零樣本問(wèn)題將長(zhǎng)期存在,這依舊是研究熱點(diǎn)。因此,未來(lái)可以期待更多研究專注于弱監(jiān)督或無(wú)監(jiān)督方法,以降低數(shù)據(jù)標(biāo)注成本,并實(shí)現(xiàn)醫(yī)學(xué)知識(shí)融合過(guò)程的自動(dòng)化和高效化。

    (4)中西醫(yī)融合。中醫(yī)與西醫(yī)可以相互補(bǔ)充,將兩者的知識(shí)進(jìn)行融合,構(gòu)建跨領(lǐng)域的醫(yī)學(xué)知識(shí)圖譜,有利于融會(huì)貫通中西醫(yī)學(xué)的優(yōu)勢(shì),為下游應(yīng)用提供全面的支持。此外,中西醫(yī)融合也促進(jìn)中醫(yī)的現(xiàn)代化和標(biāo)準(zhǔn)化,推動(dòng)中醫(yī)知識(shí)的共享和傳播。然而,由于中西醫(yī)在思維方式、診斷方法、治療途徑等方面存在差異,這將給知識(shí)融合研究帶來(lái)新的挑戰(zhàn)。因此,如何有效對(duì)齊中醫(yī)實(shí)體與西醫(yī)實(shí)體成為亟待解決的難題。

    (5)大模型賦能知識(shí)融合。隨著“ChatGPT”“GPT-4”等大模型掀起的新浪潮,使得利用大模型增強(qiáng)醫(yī)學(xué)領(lǐng)域知識(shí)融合成為可能,例如,使用大模型作為編碼器和解碼器來(lái)實(shí)現(xiàn)知識(shí)融合與補(bǔ)全。此外,醫(yī)學(xué)領(lǐng)域也涌現(xiàn)出一些專用大模型,如“華佗GPT”“靈醫(yī)Bot”以及專注于中醫(yī)領(lǐng)域的“岐黃問(wèn)道·大模型”,它們的出現(xiàn)可進(jìn)一步提升醫(yī)學(xué)領(lǐng)域模型訓(xùn)練的準(zhǔn)確性。未來(lái),利用大模型進(jìn)行醫(yī)學(xué)術(shù)語(yǔ)定義補(bǔ)全、實(shí)體標(biāo)準(zhǔn)化對(duì)齊、同義詞的提取與融合等研究將成為醫(yī)療領(lǐng)域的重要突破。

    猜你喜歡
    語(yǔ)義融合信息
    村企黨建聯(lián)建融合共贏
    融合菜
    從創(chuàng)新出發(fā),與高考數(shù)列相遇、融合
    《融合》
    語(yǔ)言與語(yǔ)義
    訂閱信息
    中華手工(2017年2期)2017-06-06 23:00:31
    “上”與“下”語(yǔ)義的不對(duì)稱性及其認(rèn)知闡釋
    認(rèn)知范疇模糊與語(yǔ)義模糊
    展會(huì)信息
    語(yǔ)義分析與漢俄副名組合
    亚洲精品中文字幕在线视频| 一级毛片女人18水好多| 狂野欧美激情性xxxx| 欧美日韩视频精品一区| 亚洲av熟女| 久久久精品欧美日韩精品| 国产午夜精品久久久久久| 丰满的人妻完整版| 久久国产乱子伦精品免费另类| 亚洲精品中文字幕在线视频| 国产精品1区2区在线观看.| 757午夜福利合集在线观看| 色播在线永久视频| 丝袜美足系列| 黄色毛片三级朝国网站| 免费在线观看日本一区| 国产精品爽爽va在线观看网站 | 身体一侧抽搐| 一级毛片精品| 我的亚洲天堂| 黄片播放在线免费| 一区二区三区精品91| 母亲3免费完整高清在线观看| 丝袜美腿诱惑在线| 免费高清在线观看日韩| av在线天堂中文字幕 | 久久香蕉激情| 最近最新免费中文字幕在线| 男女午夜视频在线观看| 12—13女人毛片做爰片一| 动漫黄色视频在线观看| 精品一区二区三区视频在线观看免费 | 热99re8久久精品国产| 国产国语露脸激情在线看| 三级毛片av免费| 人人妻人人澡人人看| 99热国产这里只有精品6| 精品无人区乱码1区二区| 夜夜夜夜夜久久久久| 91麻豆av在线| 级片在线观看| 午夜久久久在线观看| 欧美日韩亚洲国产一区二区在线观看| 欧美成人免费av一区二区三区| 免费在线观看亚洲国产| 很黄的视频免费| aaaaa片日本免费| 精品一区二区三区四区五区乱码| 国产成人一区二区三区免费视频网站| bbb黄色大片| 欧美激情极品国产一区二区三区| 久久精品aⅴ一区二区三区四区| 午夜影院日韩av| 日韩成人在线观看一区二区三区| 男女下面进入的视频免费午夜 | 欧美日韩亚洲综合一区二区三区_| 午夜福利在线免费观看网站| 香蕉丝袜av| 亚洲九九香蕉| 亚洲av熟女| 久久久久久久精品吃奶| 一级片免费观看大全| 日本a在线网址| 久久天躁狠狠躁夜夜2o2o| 久久久久九九精品影院| 国产色视频综合| 一进一出抽搐动态| av片东京热男人的天堂| 日本vs欧美在线观看视频| 亚洲一区高清亚洲精品| 夫妻午夜视频| 一级毛片女人18水好多| 9191精品国产免费久久| 日韩国内少妇激情av| 欧美日韩瑟瑟在线播放| 又黄又爽又免费观看的视频| 国产亚洲精品久久久久久毛片| 成人av一区二区三区在线看| 免费看a级黄色片| 精品国产一区二区三区四区第35| 久久精品国产亚洲av香蕉五月| 另类亚洲欧美激情| www.999成人在线观看| 99国产精品免费福利视频| 久久精品人人爽人人爽视色| videosex国产| 亚洲欧美一区二区三区黑人| 18美女黄网站色大片免费观看| 国产精华一区二区三区| 首页视频小说图片口味搜索| 极品人妻少妇av视频| 精品一区二区三区四区五区乱码| 精品午夜福利视频在线观看一区| 法律面前人人平等表现在哪些方面| 精品一区二区三区av网在线观看| 一级毛片女人18水好多| 欧美精品啪啪一区二区三区| 妹子高潮喷水视频| 亚洲美女黄片视频| 黄色女人牲交| 在线天堂中文资源库| 俄罗斯特黄特色一大片| 亚洲一码二码三码区别大吗| 国产精品偷伦视频观看了| bbb黄色大片| av网站在线播放免费| 久久人妻av系列| 女人爽到高潮嗷嗷叫在线视频| 亚洲一区中文字幕在线| 悠悠久久av| 神马国产精品三级电影在线观看 | 欧美激情 高清一区二区三区| videosex国产| 亚洲欧美一区二区三区黑人| 成人黄色视频免费在线看| 免费不卡黄色视频| 国产单亲对白刺激| 久久午夜综合久久蜜桃| 免费一级毛片在线播放高清视频 | 亚洲一区二区三区不卡视频| 国产精品98久久久久久宅男小说| 欧美日韩黄片免| 精品久久久久久,| 天天影视国产精品| 99热只有精品国产| 国产成人av教育| 久久草成人影院| 欧美久久黑人一区二区| 国产亚洲精品综合一区在线观看 | 三上悠亚av全集在线观看| 99re在线观看精品视频| 亚洲久久久国产精品| 狠狠狠狠99中文字幕| tocl精华| 在线av久久热| 国产成人av激情在线播放| 国产伦一二天堂av在线观看| 亚洲成人免费电影在线观看| 最好的美女福利视频网| 久久精品国产清高在天天线| 国产精品爽爽va在线观看网站 | 99久久99久久久精品蜜桃| 女同久久另类99精品国产91| 亚洲少妇的诱惑av| 国产一卡二卡三卡精品| 国内毛片毛片毛片毛片毛片| 亚洲国产欧美一区二区综合| 国产麻豆69| 国产av一区在线观看免费| 一区二区三区国产精品乱码| 黑人巨大精品欧美一区二区mp4| 国产精品久久久av美女十八| 黄色视频不卡| av超薄肉色丝袜交足视频| 69精品国产乱码久久久| 国产精品 欧美亚洲| 国产99久久九九免费精品| 午夜91福利影院| 身体一侧抽搐| 丁香欧美五月| 啦啦啦 在线观看视频| 国产精品久久视频播放| 性少妇av在线| 黄色a级毛片大全视频| 欧美日韩精品网址| 国产男靠女视频免费网站| 国产91精品成人一区二区三区| 淫秽高清视频在线观看| 18美女黄网站色大片免费观看| x7x7x7水蜜桃| 丰满迷人的少妇在线观看| 日韩国内少妇激情av| 纯流量卡能插随身wifi吗| 丁香欧美五月| 国产亚洲欧美在线一区二区| 十八禁人妻一区二区| 99久久国产精品久久久| 级片在线观看| 99久久99久久久精品蜜桃| 亚洲成人免费电影在线观看| 无遮挡黄片免费观看| 欧美激情 高清一区二区三区| 91av网站免费观看| 桃红色精品国产亚洲av| 久久草成人影院| 久久 成人 亚洲| 亚洲专区国产一区二区| 成人国产一区最新在线观看| 国产av一区二区精品久久| 51午夜福利影视在线观看| 日韩有码中文字幕| 久久久国产一区二区| 一级毛片高清免费大全| 亚洲欧美精品综合一区二区三区| 日韩精品青青久久久久久| 在线免费观看的www视频| 交换朋友夫妻互换小说| 黄片大片在线免费观看| 精品欧美一区二区三区在线| 亚洲av成人一区二区三| 欧美亚洲日本最大视频资源| 免费av毛片视频| 久久中文字幕人妻熟女| 麻豆国产av国片精品| 国产av一区在线观看免费| 精品久久久精品久久久| 侵犯人妻中文字幕一二三四区| 神马国产精品三级电影在线观看 | 亚洲欧美日韩无卡精品| 国产精品国产av在线观看| 亚洲av第一区精品v没综合| 成人手机av| 亚洲欧洲精品一区二区精品久久久| 国产成+人综合+亚洲专区| 999久久久国产精品视频| 99国产精品免费福利视频| 免费搜索国产男女视频| 夜夜夜夜夜久久久久| 99精品在免费线老司机午夜| 欧美日韩av久久| 久久国产乱子伦精品免费另类| 久久香蕉国产精品| 青草久久国产| 久久伊人香网站| 国产无遮挡羞羞视频在线观看| 国产精品一区二区三区四区久久 | 热re99久久国产66热| 精品国产亚洲在线| 男女下面进入的视频免费午夜 | 国产成人av激情在线播放| 一级a爱视频在线免费观看| 国产不卡一卡二| 久久精品91蜜桃| 久久欧美精品欧美久久欧美| 国产精品一区二区三区四区久久 | 在线国产一区二区在线| 亚洲精品在线美女| 男女做爰动态图高潮gif福利片 | 亚洲欧美日韩无卡精品| 男女之事视频高清在线观看| 精品无人区乱码1区二区| 亚洲色图综合在线观看| 一区二区三区激情视频| 欧美午夜高清在线| 国产成人精品无人区| 国产单亲对白刺激| 国产成人精品久久二区二区免费| 日本免费一区二区三区高清不卡 | 国产欧美日韩精品亚洲av| 成年人黄色毛片网站| 国产aⅴ精品一区二区三区波| 在线观看舔阴道视频| 男人舔女人的私密视频| 欧美激情 高清一区二区三区| 桃红色精品国产亚洲av| 亚洲精品国产一区二区精华液| 亚洲专区字幕在线| 午夜免费成人在线视频| 午夜福利在线免费观看网站| 亚洲欧美激情综合另类| 9191精品国产免费久久| 日本五十路高清| 俄罗斯特黄特色一大片| 欧美黄色淫秽网站| 老司机深夜福利视频在线观看| 国产av在哪里看| 亚洲人成77777在线视频| 日本vs欧美在线观看视频| 亚洲欧美一区二区三区久久| 精品电影一区二区在线| 免费在线观看完整版高清| 视频在线观看一区二区三区| 国产亚洲欧美精品永久| 欧美日韩av久久| 婷婷六月久久综合丁香| 日本a在线网址| 欧美成人免费av一区二区三区| 在线十欧美十亚洲十日本专区| 亚洲国产看品久久| 日日干狠狠操夜夜爽| 精品午夜福利视频在线观看一区| 一边摸一边抽搐一进一出视频| 午夜a级毛片| 久久久久国内视频| 人人澡人人妻人| 12—13女人毛片做爰片一| 亚洲精品国产精品久久久不卡| 免费在线观看亚洲国产| 不卡av一区二区三区| 国产精品国产av在线观看| 成人黄色视频免费在线看| 在线国产一区二区在线| 午夜影院日韩av| 人成视频在线观看免费观看| 日本三级黄在线观看| 亚洲中文字幕日韩| 99精品欧美一区二区三区四区| 亚洲五月婷婷丁香| 精品高清国产在线一区| 村上凉子中文字幕在线| 日韩av在线大香蕉| 国产激情久久老熟女| 欧美成人午夜精品| 亚洲精品粉嫩美女一区| 女警被强在线播放| 怎么达到女性高潮| 成人国产一区最新在线观看| 国内毛片毛片毛片毛片毛片| 国产成人啪精品午夜网站| 精品国产亚洲在线| 亚洲性夜色夜夜综合| 成年女人毛片免费观看观看9| 老司机深夜福利视频在线观看| 一进一出好大好爽视频| 黄色片一级片一级黄色片| 丁香六月欧美| 一级a爱视频在线免费观看| 亚洲久久久国产精品| 三级毛片av免费| 两性午夜刺激爽爽歪歪视频在线观看 | 色播在线永久视频| 亚洲专区中文字幕在线| 天天添夜夜摸| 成人三级做爰电影| 国产无遮挡羞羞视频在线观看| 啦啦啦 在线观看视频| 精品国产一区二区久久| 搡老熟女国产l中国老女人| 免费少妇av软件| 桃红色精品国产亚洲av| 麻豆一二三区av精品| 精品一区二区三卡| 青草久久国产| 亚洲av成人一区二区三| 一a级毛片在线观看| 青草久久国产| 99久久99久久久精品蜜桃| av欧美777| 99精品久久久久人妻精品| 日韩免费高清中文字幕av| 免费av毛片视频| 精品熟女少妇八av免费久了| av电影中文网址| 久热这里只有精品99| 国产色视频综合| 9191精品国产免费久久| 一级a爱片免费观看的视频| 久久精品亚洲av国产电影网| 亚洲中文日韩欧美视频| 国产精品香港三级国产av潘金莲| 高清毛片免费观看视频网站 | 天天躁夜夜躁狠狠躁躁| 中文字幕另类日韩欧美亚洲嫩草| 国产人伦9x9x在线观看| 少妇粗大呻吟视频| 久久中文字幕人妻熟女| 亚洲avbb在线观看| 亚洲一区二区三区色噜噜 | 热99re8久久精品国产| 欧美日韩国产mv在线观看视频| 黄色视频,在线免费观看| 黄色片一级片一级黄色片| 热99国产精品久久久久久7| 午夜福利,免费看| 在线av久久热| 亚洲熟女毛片儿| av有码第一页| 91麻豆av在线| 国产亚洲av高清不卡| 琪琪午夜伦伦电影理论片6080| 久久久国产成人精品二区 | 久久亚洲真实| 国产精品电影一区二区三区| 精品国产一区二区三区四区第35| 欧美乱妇无乱码| 韩国av一区二区三区四区| 男女做爰动态图高潮gif福利片 | 日韩欧美免费精品| 多毛熟女@视频| 精品少妇一区二区三区视频日本电影| 99精品欧美一区二区三区四区| 精品久久久久久电影网| 欧美国产精品va在线观看不卡| 欧美午夜高清在线| 精品一区二区三区四区五区乱码| 国产精品98久久久久久宅男小说| 老汉色av国产亚洲站长工具| 性欧美人与动物交配| 亚洲中文字幕日韩| 国产精品av久久久久免费| 正在播放国产对白刺激| 欧美一区二区精品小视频在线| 啪啪无遮挡十八禁网站| 丝袜美足系列| av在线播放免费不卡| 99在线视频只有这里精品首页| 高清欧美精品videossex| 亚洲av成人av| 欧美黄色淫秽网站| 不卡一级毛片| 叶爱在线成人免费视频播放| 国产高清国产精品国产三级| 女人高潮潮喷娇喘18禁视频| a在线观看视频网站| 亚洲专区字幕在线| 国产欧美日韩精品亚洲av| 法律面前人人平等表现在哪些方面| ponron亚洲| 午夜福利在线观看吧| 中文字幕高清在线视频| 一进一出好大好爽视频| 国产区一区二久久| 天堂俺去俺来也www色官网| 久久中文字幕一级| 91老司机精品| 男女下面进入的视频免费午夜 | 欧美乱色亚洲激情| 国产欧美日韩精品亚洲av| 夫妻午夜视频| 波多野结衣高清无吗| 国产精品 国内视频| 麻豆一二三区av精品| 亚洲激情在线av| 国产精品亚洲av一区麻豆| 丝袜在线中文字幕| 母亲3免费完整高清在线观看| 亚洲欧美一区二区三区久久| 十八禁网站免费在线| 精品久久久久久成人av| 日韩欧美国产一区二区入口| 亚洲人成电影观看| 亚洲自偷自拍图片 自拍| 日本黄色日本黄色录像| 日韩欧美在线二视频| 亚洲成人免费av在线播放| 波多野结衣一区麻豆| 97人妻天天添夜夜摸| 欧美日韩中文字幕国产精品一区二区三区 | 日本 av在线| 最新在线观看一区二区三区| 免费在线观看影片大全网站| www.www免费av| 色婷婷久久久亚洲欧美| 亚洲av日韩精品久久久久久密| 黑人欧美特级aaaaaa片| 亚洲国产看品久久| 两人在一起打扑克的视频| 欧美中文日本在线观看视频| 国产色视频综合| 亚洲一区二区三区不卡视频| 国产欧美日韩精品亚洲av| 国产成人啪精品午夜网站| 女人高潮潮喷娇喘18禁视频| 真人一进一出gif抽搐免费| av免费在线观看网站| 18禁美女被吸乳视频| 男男h啪啪无遮挡| 国产高清激情床上av| 久久久久久亚洲精品国产蜜桃av| 免费在线观看影片大全网站| 视频在线观看一区二区三区| 超碰成人久久| 欧美日本中文国产一区发布| 成人18禁在线播放| 久久狼人影院| 首页视频小说图片口味搜索| 大型黄色视频在线免费观看| 久久性视频一级片| 一二三四在线观看免费中文在| 91av网站免费观看| 男男h啪啪无遮挡| 久久久水蜜桃国产精品网| 免费av中文字幕在线| 午夜a级毛片| 亚洲成国产人片在线观看| 成人国产一区最新在线观看| 一区在线观看完整版| 国产精品免费视频内射| 99国产精品免费福利视频| 成人影院久久| 亚洲精品久久成人aⅴ小说| 精品午夜福利视频在线观看一区| 亚洲av成人不卡在线观看播放网| 午夜精品在线福利| 亚洲人成网站在线播放欧美日韩| 一个人观看的视频www高清免费观看 | 18禁观看日本| 成年人黄色毛片网站| 亚洲成人免费电影在线观看| 人成视频在线观看免费观看| 欧美人与性动交α欧美软件| 丰满的人妻完整版| 亚洲男人的天堂狠狠| 亚洲第一av免费看| 最新在线观看一区二区三区| 亚洲 国产 在线| 视频区图区小说| 国产精品98久久久久久宅男小说| 日日干狠狠操夜夜爽| 搡老熟女国产l中国老女人| 淫秽高清视频在线观看| 啦啦啦在线免费观看视频4| 男女床上黄色一级片免费看| 欧美大码av| 1024香蕉在线观看| 在线播放国产精品三级| 亚洲国产看品久久| 可以免费在线观看a视频的电影网站| 男人舔女人的私密视频| av福利片在线| 身体一侧抽搐| 久久午夜亚洲精品久久| 欧美日韩黄片免| 中文欧美无线码| 国产精品国产高清国产av| 国产一区二区在线av高清观看| 少妇的丰满在线观看| 女性被躁到高潮视频| 久久狼人影院| 亚洲精华国产精华精| 黑人猛操日本美女一级片| 一二三四在线观看免费中文在| 日韩欧美一区视频在线观看| 成年人黄色毛片网站| 国产亚洲精品综合一区在线观看 | 久热这里只有精品99| 老司机福利观看| 国产在线观看jvid| 精品久久蜜臀av无| 国产精品久久久av美女十八| 国产单亲对白刺激| 天天躁狠狠躁夜夜躁狠狠躁| 欧美黄色淫秽网站| 国产又爽黄色视频| 一级片'在线观看视频| 日韩 欧美 亚洲 中文字幕| 国产精品久久电影中文字幕| 午夜a级毛片| 日韩欧美在线二视频| 80岁老熟妇乱子伦牲交| 多毛熟女@视频| 80岁老熟妇乱子伦牲交| 免费久久久久久久精品成人欧美视频| 亚洲片人在线观看| 久久伊人香网站| 午夜福利,免费看| 夜夜躁狠狠躁天天躁| 天堂动漫精品| 国产激情欧美一区二区| 日韩三级视频一区二区三区| 精品国内亚洲2022精品成人| 亚洲精品粉嫩美女一区| 看片在线看免费视频| 极品教师在线免费播放| 亚洲欧美一区二区三区久久| 丝袜美腿诱惑在线| 午夜福利影视在线免费观看| 免费观看人在逋| 亚洲自偷自拍图片 自拍| 欧美成人性av电影在线观看| 曰老女人黄片| 午夜福利在线观看吧| 亚洲中文字幕日韩| 亚洲色图 男人天堂 中文字幕| 国产高清视频在线播放一区| 国产欧美日韩综合在线一区二区| 97碰自拍视频| www国产在线视频色| 午夜a级毛片| 国产精品永久免费网站| 国产欧美日韩一区二区三| 久久久久久久久免费视频了| 老汉色av国产亚洲站长工具| 精品一区二区三区av网在线观看| 中文字幕人妻丝袜一区二区| 在线观看免费高清a一片| 久久中文字幕一级| www日本在线高清视频| 99国产精品一区二区蜜桃av| 亚洲欧美日韩另类电影网站| 欧美日韩视频精品一区| 嫩草影视91久久| 老司机午夜福利在线观看视频| 日本 av在线| 国产在线精品亚洲第一网站| 亚洲av成人av| 色播在线永久视频| 天天添夜夜摸| 亚洲一区中文字幕在线| 亚洲人成电影观看| 亚洲成人久久性| 老司机午夜十八禁免费视频| 美女大奶头视频| 99久久综合精品五月天人人| 少妇被粗大的猛进出69影院| 最近最新中文字幕大全电影3 | 老司机福利观看| 1024香蕉在线观看| 欧美最黄视频在线播放免费 | 99久久精品国产亚洲精品| 久久国产精品男人的天堂亚洲| www.熟女人妻精品国产| 88av欧美| 精品国产国语对白av| 免费女性裸体啪啪无遮挡网站| 午夜激情av网站| 中文欧美无线码| 日韩欧美国产一区二区入口| 99久久综合精品五月天人人| 欧美老熟妇乱子伦牲交| 免费一级毛片在线播放高清视频 | 国产欧美日韩精品亚洲av| 免费一级毛片在线播放高清视频 | 在线看a的网站| 国产精品免费视频内射|