宋培彥劉稚楠 劉 冰
(1.天津師范大學管理學院 天津 300387)
(2.湖北職業(yè)技術學院 湖北孝感 432000)
隨著信息技術快速發(fā)展,為適應知識資源結構不一、領域多元、表示形式多樣等特點,知識組織系統(tǒng)之間也顯現(xiàn)出句法、術語、概念層面的異構性,形成信息孤島現(xiàn)象。為了促進知識集成和共享,通過映射建立知識間聯(lián)系、實現(xiàn)知識組織系統(tǒng)互操作是可行的方法。以突發(fā)重大公共衛(wèi)生事件為例,通過映射,可以將分散分布、多源異構的公共衛(wèi)生領域知識建立聯(lián)系,系統(tǒng)化組織并規(guī)范化管理,提高公共衛(wèi)生領域知識組織的科學性、規(guī)范性、實用性,有助于根據(jù)應急工作快速、規(guī)范地組織知識,將知識有序化匯聚和關聯(lián),最終實現(xiàn)知識驅動的應急事件科學決策。
國內外學者也針對映射方法開展了研究和實踐,取得了較好的映射效果,但對映射標準的關注較少。國際標準化組織針對知識組織系統(tǒng)間的互操作已發(fā)布相關標準,ISO 25964則針對術語映射關系構建提出了更為明確的參考建議,有助于規(guī)范術語映射流程。因此,本文將公共衛(wèi)生領域術語作為數(shù)據(jù)源,依據(jù)國際標準ISO 25964,參照中心結構模型,將術語之間的復雜語義關系進行繼承和復用,在國際規(guī)范框架下探索公共衛(wèi)生領域術語的映射機制、建立起知識組織系統(tǒng)之間的語義映射關系,實現(xiàn)公共衛(wèi)生領域知識有效聯(lián)結與集成揭示,為知識組織系統(tǒng)的互操作提供新思路,為公共衛(wèi)生風險研判和決策提供知識保障。
國內外在公共衛(wèi)生領域知識組織系統(tǒng)映射方面已有不少實踐,其中代表性的有美國國立醫(yī)學圖書館編制的一體化醫(yī)學語言系統(tǒng)UMLS(Unified Medical Language System)、醫(yī)學主題詞表MeSH和SNOMED CT等知識組織系統(tǒng)。這些項目通過實現(xiàn)多個知識組織系統(tǒng)之間相互映射、融合等互操作,最終形成大型、全面、具有豐富語義關系的知識組織系統(tǒng)。如UMLS是基于概念和語義構建其獨立映射規(guī)則,匯集上百部多種類型的知識組織系統(tǒng),支持不同知識組織系統(tǒng)之間的互操作。MeSH則通過語義類型與外部語義網絡高層類目建立映射關聯(lián),共享UMLS語義網的豐富語義關系。通過跨語言映射,中文版CMeSH《中文醫(yī)學主題詞表》在與MeSH映射的基礎上,保留原有編排體系,融合中醫(yī)學知識,既最大程度與MeSH兼容,也支撐了國內中醫(yī)藥大型數(shù)據(jù)庫建設。此外,在UMLS中邏輯護理術語(ICNP)映射到SNOMED CT時,通過模式識別和術語自動匹配實現(xiàn)自動交叉映射,生成候選映射,并且持續(xù)維護映射。在UMLS超級敘詞表和MalaCard疾病術語的語義映射過程中,分別使用唯一標識符、Metamap和限制語義類型的Metamap三種映射方法,通過改進語義等效性的精確度,保證術語映射過程質量。可見,術語作為知識組織系統(tǒng)的基礎,在知識組織系統(tǒng)互操作中扮演重要角色,是保證映射質量的關鍵。
對于映射方法的研究,學者從構建理論模型、技術方法、軟件工具等方面為實現(xiàn)公共衛(wèi)生領域知識組織系統(tǒng)之間的互操作提供多種思路。如王麗偉等從理論模型入手,提出多領域本體映射與聚類理論模型,將藥物領域本體RxNorm和NDF-RT(美國國家藥物文件—參考術語)中的術語建立映射,從而實現(xiàn)藥物信息的分類聚合;牟冬梅等通過構建以UMLS為主導的多本體融合模式,實現(xiàn)醫(yī)學數(shù)字資源語義互聯(lián),從而促進醫(yī)學信息領域知識本體的有效共享。部分學者關注實現(xiàn)映射的技術方法,陳瑞和賈君枝基于眾包模式,采用分類法映射,將計算機和用戶智慧相結合,以確保映射質量和效率的提升;孫海霞等則基于詞典的語義相似度方法,根據(jù)CMeSH的語義關系和詞匯字長特點,實現(xiàn)文獻自由詞到CMeSH主題詞語義自動映射方案。由于人工映射的工作量大、成本高,且質量標準難以控制,不適用于信息快速發(fā)展的現(xiàn)狀,自動化映射成為重要研究課題。為實現(xiàn)映射自動化,郭思成等利用深度學習工具Word2Vec,將實驗對象詞條轉化為向量形式,根據(jù)詞向量相似度結果與目標詞表類目進行自動化匹配篩選,建立《中國中醫(yī)藥學主題詞表》TC類、《中國圖書館分類法》R類向《中文醫(yī)學主題詞表》的語義映射。Dos Reis等采取半自動化的方式進行多生物醫(yī)學知識組織系統(tǒng)的映射,考慮已建立的映射關系、知識組織系統(tǒng)的變化以及映射過程可能發(fā)生的變化,構建正式啟發(fā)式框架以適應映射過程,并實現(xiàn)了一定程度的自動調整映射,通過對映射結果準確率、召回率等指標的評估,證實該方法的有效性,并有效提高了映射質量和映射效率。由以上分析可見,學者從理論、技術、工具層面提出了知識組織系統(tǒng)互操作的實現(xiàn)方式和諸多可能性。知識組織系統(tǒng)通過術語的有序化組織和語義關系映射,有利于揭示知識單元內容和知識主題。
綜上,國內外術語映射相關研究在生物醫(yī)學領域已有諸多實踐,主要從語義和語詞特征入手,借助工具、通過同義詞計算實現(xiàn)映射自動化提高映射效率,構建理論模型以保證映射質量,在各類知識組織系統(tǒng)之間實現(xiàn)映射,并取得了一定的效果,可以將這些成果進行“復用”,為應急管理公共衛(wèi)生領域提供可靠的知識儲備。同時,由于語義結構復雜、映射周期較長,很難適應公共衛(wèi)生應急管理要求快速應對的需求,因此需要尋求一種簡潔有效、準確易用的知識組織映射方式,實現(xiàn)離散知識組織系統(tǒng)間的知識銜接和共享。
為了實現(xiàn)規(guī)范的映射過程,本文在國際通用敘詞表互操作標準ISO 25964的框架下,基于語義層面實現(xiàn)公共衛(wèi)生領域術語間的映射,豐富該領域術語的深度和覆蓋面,為知識互操作提供新思路,推進公共衛(wèi)生領域知識的共建共享,為公共衛(wèi)生應急決策提供決策支持。
ISO 25964是國際標準化組織發(fā)布的知識組織系統(tǒng)互操作標準,用于指導各類知識組織系統(tǒng)之間的互操作,從概念層面實現(xiàn)詞表間的語義映射,而非簡單的語詞形式匹配。通過公共衛(wèi)生領域知識組織系統(tǒng)之間的互操作,從概念層面連接相關知識組織系統(tǒng),從而實現(xiàn)知識組織系統(tǒng)構建,能有效保障公共衛(wèi)生領域術語映射過程的效率、規(guī)范性和映射機制的國際性。因此,在ISO 25964框架下對現(xiàn)有公共衛(wèi)生領域知識組織系統(tǒng)進行快速、簡化映射,有助于厘清該領域知識的層級關系,擴大領域知識的覆蓋面和深度,及時為應急管理工作充分提供可靠的公共衛(wèi)生領域知識服務。
ISO 25964將映射模型劃分為三種類型:結構統(tǒng)一模型、直接連接模型、中心結構模型。結構統(tǒng)一模型結構簡單,適用于兩個具有相同的等級結構、完全對稱的多語言敘詞表。直接連接模型強調在范圍、語種、結構等方面具有差異性的兩個或多個詞表之間建立直接連接。相對于以上兩種模型,中心結構模型對知識組織系統(tǒng)的概念體積大小和結構一致性沒有嚴格要求,通過指定一個知識組織系統(tǒng)為中心,其他知識組織系統(tǒng)作為衛(wèi)星與其建立映射,以中心知識組織系統(tǒng)來搜索用其他衛(wèi)星知識組織系統(tǒng)標引的資源,擴展知識組織系統(tǒng)的覆蓋范圍與深度。
由于公共衛(wèi)生領域術語所屬的知識組織系統(tǒng)涉及概念數(shù)量多、覆蓋領域較廣且結構各異,領域知識不斷更新發(fā)展,為了提高可操作性和繼承性,本文采用中心結構作為映射模型。中心結構模型對知識組織系統(tǒng)的結構和體量沒有嚴格要求,可以在兩個不同知識組織系統(tǒng)中術語建立間接映射,避免出現(xiàn)差異度極大的術語映射情況。易于與更多的知識組織系統(tǒng)映射,可以控制互操作的工作量,降低操作成本和難度,并可在一定程度上提高映射效率。
本文在中心結構模型圖(見圖1)的基礎上,進一步擴充和優(yōu)化知識組織系統(tǒng)的映射關系,設計形成優(yōu)化版的映射模型(見圖2)。在圖2中,KOSA和KOS B為衛(wèi)星知識組織系統(tǒng),KOSC為中心知識組織系統(tǒng)。根據(jù)該模型,衛(wèi)星知識組織系統(tǒng)中的每個概念與中心知識組織系統(tǒng)中相應的概念分別映射,衛(wèi)星知識組織系統(tǒng)之間不再相互映射。KOSD表示映射完成后融合多種語義關系的中心知識組織系統(tǒng)。
圖1 ISO 25964映射模型-中心結構模型(原)
圖2 ISO 25964映射模型-中心結構模型(改進后)
在確定映射模型的基礎上,需要明確構成映射機制的映射類型。ISO 25964規(guī)定了詞表之間通常有三種主要的映射類型:等同映射、等級映射和相關映射(見圖3)。基于這三種映射類型,可形成以下幾種映射機制(見圖4)。
圖3 基于ISO 25964的映射類型
圖4 公共衛(wèi)生領域知識組織系統(tǒng)映射方法框架
3.2.1 基于等同關系的等同映射
在映射過程中優(yōu)先考慮兩個術語的概念是否具有等同關系,概念等同的術語之間可以實現(xiàn)等同映射(EQ)。等同關系的確定除了兩者之間概念相同,還存在以下幾種情況:術語完全相同、詞形不同(字符、單復數(shù)、拼寫、后綴等)、語種不同(數(shù)字、量詞)、語序顛倒、互為用代關系、具有相同代項以及術語增加多詞界定但內涵仍然相同,以上情況均可視為兩者具有等同關系。
3.2.2 基于等級關系的等級映射
當一個術語與另一個術語被判定為不存在等同關系,則應考慮術語概念之間是否具有屬種、實例、整體與部分關系,若符合,則考慮進行等級映射。等級映射根據(jù)概念間的等級關系分為上位映射(Broader Mapping,BM)和下位映射(Narrower Mapping,NM)兩種。從下位到上位概念的等級映射表達為以下格式:“COVID-19 BM Coronavirus”。從上位到下位概念的等級映射表達為以下格式:“Coronavirus NM COVID-19”。
3.2.3 基于相關關系的相關映射
當概念之間既不存在等同關系,也不存在等級關系,但兩者在語義上有一定程度關聯(lián),則建立相關映射,表示兩個術語之間具有相關性。由于語義關聯(lián)性強弱不一,是否相關難以判斷,需要根據(jù)實際應用場景判斷兩者相關性,如通過結合語境、充分考慮用戶興趣和需求、檢索結果中相關資源的概念和數(shù)量等區(qū)分相關性,避免將語義關聯(lián)性較弱的概念納入映射集合,造成映射結果冗余,增加檢索的噪音數(shù)據(jù)。
根據(jù)知識組織系統(tǒng)的結構特性,等同映射、等級映射和相關映射三種類型具有對稱性和傳遞性,對稱性體現(xiàn)當在兩個概念具有等同關系時,其映射關系正反皆成立。傳遞性則是當判定兩個概念具有等同關系時,通過推理,其子概念可跟隨父概念傳遞到父概念的等同概念,成為其等同概念的子概念。由于所選知識組織系統(tǒng)的結構和內容上均存在一定的相似性,因此,可利用映射類型的對稱性和傳遞性,通過繼承和推理實現(xiàn)等級關系映射。
本文以不同字母(A、B、C)代表處于不同知識組織系統(tǒng)的概念,相同字母及其變形(如A-a-a)代表概念處于同一知識組織系統(tǒng)中,且A、a、a的概念范圍由大到小排列。根據(jù)中心結構模型,以B作為中心知識組織系統(tǒng)中的概念,A和C作為衛(wèi)星知識組織系統(tǒng)中的概念分別與B進行兩兩映射,單向箭頭連線則表示概念間為上下位關系,箭頭起始端為父概念,終止端為相應的子概念。
(1)如果概念A與概念B精確匹配而建立等同映射,則概念a、b將自動成為概念A或B的下位概念,不用在A與b、B與a之間人工重復建立上位匹配,同時,概念b的子概念b和b也自動與概念A構成等級關系,B與C的映射同理(見圖5)。
圖5 基于繼承推理的等級映射規(guī)則-1
(2)基于上一繼承規(guī)則,若概念B和概念C建立精確匹配,概念b與概念c建立精確匹配,則概念c自動成為概念b的下位概念,概念c成為概念b的下位概念(見圖6)。
圖6 基于繼承推理的等級映射規(guī)則-2
(3)當概念A、概念B、概念C分別建立精確匹配,概念a和概念b建立下位匹配,概念b和概念c建立精確匹配,則概念a成為概念A、B、C的下位概念,概念b和概念c成為概念a的下位概念,概念a和概念b原有下位概念a、b成為概念b和概念c的子概念(見圖7)。
圖7 基于繼承推理的等級映射規(guī)則-3
本文映射機制的實現(xiàn)主要按照以下三個步驟進行(見圖4)(1)構建公共衛(wèi)生領域語料庫;(2)結合語義和文本進行術語同義計算;(3)實施術語語義映射。
(1)構建公共衛(wèi)生領域語料庫。實現(xiàn)現(xiàn)有公共衛(wèi)生領域知識組織系統(tǒng)術語映射的關鍵在于復用該領域現(xiàn)有知識組織系統(tǒng)。因此,本文以公共衛(wèi)生領域知識組織系統(tǒng)的術語作為數(shù)據(jù)源。此外,為方便后續(xù)相似度計算,擬獲取大量公共衛(wèi)生領域的敘詞表、分類表等作為文本支撐,對數(shù)據(jù)進行清洗后形成公共衛(wèi)生領域語料庫。
(2)結合語義和文本開展術語相似度計算。在術語概念體系中,詞間關系在術語知識體系構建中具有基礎性作用。本文調用第一階段構建的語料庫,根據(jù)術語間的等同關系、上下位關系、相關關系、范疇和釋義等,對詞語相似度進行語義計算。結合編輯距離算法(Levenshtein Distance)計算術語之間的文本相似度,當文本相似度大于閾值時則判定兩者為同義詞關系?;谡Z義計算和文本相似度計算的結果,提高語義計算相似度的覆蓋率和詞間關系的深度。在文本分類、聚類的過程中,優(yōu)化分類、聚類效果,為實現(xiàn)“按類映射”提供條件,提高映射效率和術語服務效果。
(3)實施術語語義映射。以國際標準ISO 25964作為基礎框架,研究術語的映射方法?;谏弦浑A段的同義詞計算結果,采用人機結合方式進行術語映射,實現(xiàn)知識組織系統(tǒng)間映射流程的規(guī)范化管理,以提高映射質量。針對公共衛(wèi)生領域知識組織系統(tǒng)開展映射,在明確知識組織系統(tǒng)知識表示框架的基礎上,根據(jù)ISO 25964中的中心結構模型確定中心知識組織系統(tǒng)和衛(wèi)星知識組織系統(tǒng),按照等同映射、等級映射、相關映射三種映射類型,通過繼承推理的方式實現(xiàn)術語語義分類映射,實現(xiàn)有效語義匹配,實現(xiàn)術語語義層面的互操作。
傳染病是引發(fā)突發(fā)公共衛(wèi)生事件的重要因素之一,為了構建傳染病領域知識之間的映射關系,為類似公共衛(wèi)生事件的應對提供權威的知識來源和知識框架,本文選取三個傳染病領域知識組織系統(tǒng)中的術語集作為實驗數(shù)據(jù)源,包括冠狀病毒傳染病本體(Ontology of Coronavirus Infectious Disease,CIDO)、基因流行病學本體(Genomic Epidemiology Ontology,GenEpio)以及傳染病本體(Infectious Disease Ontology,IDO)(見表1)。這些知識組織系統(tǒng)均遵循開放生物醫(yī)學本體庫(OBO Foundry)指南,本體的權威性與準確性有所保障。
表1 公共衛(wèi)生領域實驗數(shù)據(jù)概況
從內容層面分析,3個知識組織系統(tǒng)均引用來源于基本形式本體(Basic Formal Ontology,BFO)、基因本體(Gene Ontology,GO)、關系本體(Relation Ontology,RO)等知識組織系統(tǒng)的數(shù)據(jù),存在一定交叉,但其內容各自有所側重。其中,IDO涵蓋傳染病種類最多,覆蓋大部分傳染病領域的術語,并針對特定的病原體進行擴展。CIDO側重于冠狀病毒傳染病知識,從病因、傳播機制、發(fā)病機理、診斷、預防和治療等方面進行描述。GenEpio則涵蓋識別、記錄和研究食源性病原體和相關疫情所需的詞匯。對IDO、CIDO、GenEpio進行映射,可以豐富傳染病的種類、細化冠狀病毒的病理知識,從識別、診斷、治療和預防階段為疫情防控提供知識基礎。
根據(jù)本體的語義范疇,CIDO、IDO、GenEpio本體中均存在“Process”概念分支,且該概念分支為本體的主要部分,能代表本體各自的內容特征,因此,分別節(jié)選三個本體“Process”概念分支下的概念作為樣本術語,節(jié)選部分的現(xiàn)有存在語義關系的類目數(shù)量(見表2)。CIDO在所選的知識組織系統(tǒng)的規(guī)模最大,概念結構完整,適合為中心知識組織系統(tǒng),GenEpio和IDO為衛(wèi)星知識組織系統(tǒng)分別向CIDO建立映射。
表2 公共衛(wèi)生領域術語實驗數(shù)據(jù)源
基于以上三種等級映射規(guī)則,選取了3名具有一定醫(yī)學知識背景的實驗人員,在熟悉所規(guī)定的映射規(guī)則的基礎上,分為3組對實驗數(shù)據(jù)之間的等級關系進行映射實驗。由于本文研究的重點是建立符合國際標準的知識組織系統(tǒng)映射機制,術語相似度計算等技術僅作為輔助技術、提高效率。為了保證映射的準確性和專業(yè)性,采取了專業(yè)人員人工判斷的方式實現(xiàn)“術語相似度計算”,并給出了可能的計算方法。后續(xù)可以使用術語相似度計算的相關工具,以適應大規(guī)模工程化的需要。
映射實驗主要以Excel為操作平臺,實驗人員憑借其專業(yè)背景,并以醫(yī)學類百科詞典、術語詞典、Wiki百科等作為語料庫,對術語概念和語義關系進行理解分析,按照等同關系—等級關系—相關關系的順序判定術語之間的語義關系。根據(jù)給定的三種映射規(guī)則,將其子概念按照映射規(guī)則繼承,與映射對象判定為等級關系。由于等同和等級關系是一種強相關關系,在一定程度上已經涵蓋了相關關系的映射,加之相關關系語義關聯(lián)性較弱,一般不作為映射的重點,因此,相關關系可以沿用上述映射方法,并通過語義相似性計算、共現(xiàn)計算等方法予以處理。
從統(tǒng)計學意義上看,映射后語義關系的增量和增幅可以反映語義關系的緊密程度,從而反映映射結果的評價指標。映射的增量是指實驗后具有語義關系的概念比實驗前具有語義關系的概念增加的數(shù)量。為了避免實驗結果主觀化,將三組得到的實驗數(shù)據(jù)取平均值,確定為等級關系增量的最終數(shù)據(jù)。增幅則是實驗后三組增量數(shù)據(jù)的平均值與實驗前已具有語義關系的概念數(shù)量的百分比。通過這兩個評價指標,可以將實驗結果量化,更清晰得呈現(xiàn)經實驗運算后概念之間語義關系的覆蓋范圍的擴大程度以及關聯(lián)性增強程度的實驗效果。
經過推理繼承,對三個知識組織系統(tǒng)中的術語語義關系進行映射,原知識組織系統(tǒng)中等級關系“SubClassOf”,現(xiàn)細化為上位匹配和下位匹配兩種映射關系(實驗結果見表3)。
表3 基于推理繼承映射結果數(shù)據(jù)
其中,上位關系平均新增14條,下位關系平均新增58條,共72條,較映射前其等級關系增幅達到13.43%,映射結果比較理想。由于本實驗節(jié)選的術語為同一概念分支,其結構和概念較為相似,且由于繼承推理,會引入更多的下位概念,因此新增等級關系的術語較多,較映射前增幅較大。本實驗為抽樣實驗,在其他領域也具有一定的通用性和泛化能力,因而是有效的。
通過推理繼承的映射結果分析可知,以ISO 25964為映射標準,細化了原有知識組織系統(tǒng)中對等級關系劃分不明確的問題,將等級關系以準確明了的方式體現(xiàn),既保證了映射結果的準確率,也在一定程度上豐富了概念之間的語義關聯(lián)性,深化知識組織系統(tǒng)的概念關聯(lián)度和知識覆蓋面。
選擇公共衛(wèi)生領域知識組織系統(tǒng)作為概念來源,以國際互操作標準ISO 25964為映射標準,使用中心結構模型制定映射規(guī)則開展術語語義映射實驗,從增量和增幅兩個指標評價映射結果。實驗結果表明,映射增幅達到13.43%,證明該方法切實可行。其優(yōu)點在于,利用ISO 25964結構簡單、規(guī)范的特點,保證了語義映射機制和映射過程的規(guī)范性,提高了多知識組織系統(tǒng)集成的映射效率,達到了提高概念間的語義關聯(lián)的廣度和深度的效果。對于應急工作而言,通過映射能夠快速復用和重組現(xiàn)有公共衛(wèi)生知識成果,有利于快速、準確提供豐富的知識來源,提高應急決策和反應效率。
今后,將進一步引入同義詞計算技術,并與人工映射相結合,從概念層面發(fā)現(xiàn)術語之間的語義關系,提高映射的精度和準確度,不斷完善公共衛(wèi)生領域知識組織系統(tǒng)的概念體系和快速響應能力,繼續(xù)做好深入的研究工作。