陳辰
敘詞表概念映射研究
陳辰
敘詞表概念映射可滿足用戶深層次的概念檢索需求。區(qū)分術(shù)語映射和概念映射的不同,從現(xiàn)實(shí)情況出發(fā),提出基于ISO標(biāo)準(zhǔn)對(duì)其映射類型進(jìn)行擴(kuò)展使用的方法。結(jié)合敘詞表映射實(shí)驗(yàn),對(duì)概念映射方法進(jìn)行探析。
敘詞表映射 概念映射 映射類型 映射方法
敘詞表映射[1]是知識(shí)組織體系互操作技術(shù)中的一種,它是為兩個(gè)或者多個(gè)詞表的術(shù)語建立映射關(guān)系,以在詞表之間實(shí)現(xiàn)自動(dòng)的轉(zhuǎn)換和連接,從而實(shí)現(xiàn)不同檢索系統(tǒng)間的“一站式”主題檢索。敘詞表概念映射不同于術(shù)語映射,它從滿足用戶概念檢索需求出發(fā),達(dá)到語義概念層次的映射,從而提高系統(tǒng)的互操作水平。
相關(guān)機(jī)構(gòu)和研究人員對(duì)術(shù)語映射與概念映射尚未做明確區(qū)分。但筆者認(rèn)為,《ISO25964-1——敘詞表和其他敘詞表互操作:信息檢索用敘詞表》將過去基于術(shù)語的改為基于概念的詞表組織結(jié)構(gòu),而且更關(guān)注概念、以及概念間的聯(lián)系,正是反映了用戶具有概念檢索的需求。敘詞表映射為滿足用戶此需求,也需對(duì)概念映射和術(shù)語映射進(jìn)行明確界定,探究兩者的不同,以明確哪些方法可達(dá)到概念層次的映射。筆者認(rèn)為從映射程度上劃分,敘詞表映射分為術(shù)語映射與概念映射。
1.1 術(shù)語映射
術(shù)語映射指詞形不同而詞義相同的詞語之間的映射,它只涉及術(shù)語間的語義對(duì)等關(guān)系,而不涉及概念間的等級(jí)和相關(guān)關(guān)系。筆者將術(shù)語對(duì)等映射概括為兩種情況:一是從詞形學(xué)角度分析是同一個(gè)詞,但是由于單復(fù)數(shù)形式、全稱和簡寫、大小寫、譯文、標(biāo)點(diǎn)差異、首字母縮寫等原因造成詞形不規(guī)范的映射情況,這些語法表現(xiàn)形式不一致而語義一致的詞可視為等價(jià)映射;二是詞形完全不一致但是詞義相同,如異形同義詞間也是等價(jià)映射。對(duì)等關(guān)系既可只用一種“等價(jià)映射”類型表示,如使用EM(Equivalence Mapping即等價(jià)映射,簡稱EM)表示,也可對(duì)“等價(jià)映射”進(jìn)行細(xì)化,如全稱和簡寫術(shù)語的映射類型可表述為“FT/AB”(Full Term和Abbreviation,全稱和簡稱對(duì)等),單復(fù)數(shù)間的映射表示為“Si/pl”(Singular和plural,單數(shù)和復(fù)數(shù)對(duì)等)。
1.2 概念映射
概念映射是在術(shù)語等價(jià)映射基礎(chǔ)上,進(jìn)一步實(shí)現(xiàn)概念間等級(jí)和相關(guān)關(guān)系的映射。相對(duì)于術(shù)語映射,它是更深層次的映射,即達(dá)到術(shù)語語義對(duì)等映射層次后,映射尚未結(jié)束,還可與其他術(shù)語進(jìn)一步建立等級(jí)、相關(guān)等概念映射關(guān)系,實(shí)現(xiàn)多映射。比如,一體化醫(yī)學(xué)語言系統(tǒng)(Unified Medical Language System,簡稱UMLS)[2]項(xiàng)目中,其超級(jí)詞表的建立運(yùn)用四級(jí)結(jié)構(gòu)模式,即通過“元詞-詞串-術(shù)語-概念”四個(gè)不同層面,逐層映射來最終達(dá)到概念層次的映射,而不滿足于只達(dá)到術(shù)語層面的映射。
實(shí)施敘詞表概念映射,首先要確定映射類型?!禝SO25964-2——敘詞表和其他敘詞表互操作:與其他詞表的互操作》[3]提出的概念映射包括三種類型:等價(jià)映射、等級(jí)映射和相關(guān)映射,以及三種映射程度:精確對(duì)等、非精確對(duì)等和部分映射,三種映射類型下又包含進(jìn)一步細(xì)化的映射類型,如圖1所示。
圖1 ISO25964映射關(guān)系類型
ISO是國際標(biāo)準(zhǔn),基于利于數(shù)據(jù)交流、共享和重用的考慮,推薦使用此映射類型,以便日后的互操作。標(biāo)準(zhǔn)具有抽象性,而敘詞表具體映射過程中的關(guān)系類型卻要復(fù)雜很多,所以一方面要結(jié)合ISO標(biāo)準(zhǔn)的映射類型,另一方面在使用時(shí)要進(jìn)行適度擴(kuò)展,以滿足現(xiàn)實(shí)映射的需要。筆者以Chaplan和Neville提出的映射類型為例探討如何擴(kuò)展使用ISO提出的三種映射類型。表1是整合分析情況,映射類型一欄代表ISO標(biāo)準(zhǔn),帶有圓圈數(shù)字標(biāo)志的代表Chaplan[4]提出的映射類型,不帶圓圈的數(shù)字代表Neville[5]提出的映射類型。結(jié)果顯示,除Chaplan“無匹配”沒有ISO的對(duì)應(yīng)映射類型外,其他類型都是ISO映射類型的擴(kuò)展。擴(kuò)展分析過程涉及的歸類定義與說明如下:ISO映射類型分為等價(jià)映射、等級(jí)映射和相關(guān)映射三大類。
(1)等價(jià)映射分為簡單映射和復(fù)合映射,簡單映射根據(jù)映射程度又分為精確映射和非精確映射,“精確映射”包括語法一致和語法不一致兩種情況。語法詞形完全一致,詞義也一致的屬于“精確簡單的等價(jià)映射”,詞形不一致,比如單復(fù)數(shù)、連接符等不同,而詞義相同,筆者也將其列為“精確簡單的等價(jià)映射”;而組合匹配由于語義上與原有詞不完全對(duì)等則歸于“非精確等價(jià)匹配”中。需說明的是,表1括號(hào)中有“需進(jìn)一步判定映射類型”的標(biāo)識(shí),為便于統(tǒng)計(jì)分析,這些映射類型暫時(shí)列入表1的相應(yīng)位置,但需要進(jìn)一步進(jìn)行語義分析,才可以判斷其映射類型,如可能是限定詞、同形異義詞和異形同義詞等情況。
(2)等級(jí)映射根據(jù)詞表固有的關(guān)系分為屬種、實(shí)例、整體與部分三種,“通用詞匹配”屬于等級(jí)映射范疇。
(3)相關(guān)映射主要是概念層次的映射,指在語義上有關(guān)聯(lián)的詞間關(guān)系,其中反義詞匹配歸屬相關(guān)映射。
筆者將ISO映射類型與Chaplan和Neville提出的映射類型進(jìn)行對(duì)比分析,發(fā)現(xiàn)在現(xiàn)實(shí)中使用ISO映射類型作為標(biāo)準(zhǔn),并結(jié)合具體映射情況對(duì)ISO進(jìn)行擴(kuò)展使用的方案是可行的。ISO標(biāo)準(zhǔn)的使用不僅有利于日后數(shù)據(jù)的重用和共享,通過對(duì)標(biāo)準(zhǔn)進(jìn)行擴(kuò)展使用,還可更好地滿足現(xiàn)實(shí)需要,因此筆者建議在實(shí)施映射時(shí),可使用等價(jià)、等級(jí)和相關(guān)三種映射類型,并根據(jù)需要對(duì)其進(jìn)行擴(kuò)展。
表1 ISO,Chaplan與Neville映射類型的擴(kuò)展分析表
3.1 單映射和多映射
在映射方法上,術(shù)語映射一般采用“單映射”,即只允許和目標(biāo)詞表某個(gè)術(shù)語建立一種映射關(guān)系;而概念映射則建立起“多映射”,可和目標(biāo)詞表多個(gè)術(shù)語建立多個(gè)映射關(guān)系,以更好地體現(xiàn)概念和概念間的關(guān)系。比如,Earthquakes EM Earthquakes,只建立精確等價(jià)映射關(guān)系,屬于單映射;Earthquakes EM Earthquakes,同時(shí)Earthquakes BTM Geological hazards,既有精確等價(jià)映射,又有上位映射,屬于多映射。(BTM表示上位映射,是Broader Term Mapping的簡稱)。CAT(農(nóng)業(yè)敘詞表)到聯(lián)合國糧農(nóng)組織AGROVOC詞表的映射項(xiàng)目[6]中允許“多對(duì)一”和“一對(duì)多”的映射,即允許CAT的多個(gè)詞映射到AGROVOC上,也允許一個(gè)CAT詞映射到多個(gè)AGROVOC詞上,實(shí)質(zhì)是允許建立“多映射”關(guān)系。
3.2 映射構(gòu)建的影響因素
敘詞表構(gòu)建映射關(guān)系應(yīng)首先考慮應(yīng)用需求。概念映射是多映射,它挖掘概念間的深層映射關(guān)系,可滿足用戶概念檢索需求;而術(shù)語映射只要求建立兩術(shù)語間的對(duì)等映射關(guān)系,不能滿足用戶深層次的檢索需求。此外,映射的建立還要考慮檢索系統(tǒng)的效率。將多映射關(guān)系應(yīng)用于檢索系統(tǒng)時(shí),需要系統(tǒng)對(duì)多映射關(guān)系進(jìn)行多層展示和自動(dòng)轉(zhuǎn)換,這不僅需要系統(tǒng)能對(duì)映射關(guān)系進(jìn)行直觀展示,同時(shí)也要保證映射數(shù)據(jù)轉(zhuǎn)換的速度和效率,因此多映射關(guān)系對(duì)系統(tǒng)有更高的要求。
3.3 建立多映射類型的方法
3.3.1 參考已有映射關(guān)系類型
(1)在精確等價(jià)映射關(guān)系基礎(chǔ)上可考慮建立多映射。為詞形相同或相似的術(shù)語建立精確等價(jià)映射關(guān)系,尚不能滿足用戶概念檢索需求,尤其是相同學(xué)科或者同一檢索系統(tǒng)兩詞表間的精確等價(jià)映射基本不會(huì)對(duì)檢索結(jié)果有顯著影響,所以需在此基礎(chǔ)上進(jìn)一步建立等級(jí)或者相關(guān)映射等多映射關(guān)系。
(2)等級(jí)映射一般建立單映射關(guān)系,即以“最鄰近”為原則,建立最近的上位、下位映射以保證映射數(shù)據(jù)的質(zhì)量。
(3)不宜建立多次相關(guān)映射,因?yàn)橄嚓P(guān)關(guān)系在語義上不對(duì)等,如果建立多次,會(huì)造成語義上的失真,影響映射數(shù)據(jù)質(zhì)量。要根據(jù)目標(biāo)詞表相關(guān)映射詞與源詞表對(duì)應(yīng)的映射詞的語義相關(guān)度而定,相關(guān)度大的可建立多映射關(guān)系。兩個(gè)詞是否具有相關(guān)關(guān)系以及具有多大相關(guān)度,其確定并無統(tǒng)一標(biāo)準(zhǔn),為不影響映射數(shù)據(jù)整體質(zhì)量,相關(guān)的映射不宜過多。
3.3.2 根據(jù)詞表本身結(jié)構(gòu)和語義層次關(guān)系
詞表的結(jié)構(gòu)影響映射的構(gòu)建,詞表有多種結(jié)構(gòu)關(guān)系和層次,可根據(jù)映射繼承性原則[7]建立多映射關(guān)系,具體方法見表2。以Life Sciences Thesaurus(Subjects)(生命科學(xué)敘詞表)第4版作為源詞表,Aquatic Sciences&Fisheries Abstracts(ASFA)Thesaurus(Subjects)(水科學(xué)和漁業(yè)文摘敘詞表)第3版作為目標(biāo)詞表進(jìn)行映射實(shí)驗(yàn),表中NTM表示下位映射(Narrower Term Mapping,簡稱NTM)。
表2 據(jù)詞表結(jié)構(gòu)確定多映射關(guān)系示例
3.3.3 特殊映射關(guān)系的建立方法
除以上兩種映射方法外,筆者在實(shí)驗(yàn)過程還發(fā)現(xiàn)幾種特殊映射關(guān)系的建立方法與規(guī)律,現(xiàn)結(jié)合實(shí)驗(yàn)數(shù)據(jù)進(jìn)行說明。
(1)精確等價(jià)映射基礎(chǔ)上的多映射關(guān)系。精確等價(jià)映射主要涉及詞形精確匹配、詞形規(guī)范匹配和同義詞匹配等,是同一概念不同表達(dá)術(shù)語間的對(duì)等映射關(guān)系。如果還考慮與其他概念建立映射,需要在此精確等價(jià)映射基礎(chǔ)上建立多映射關(guān)系。
①詞形精確匹配,是指詞形、詞義完全相同的兩個(gè)術(shù)語建立匹配關(guān)系,在此基礎(chǔ)上再構(gòu)建進(jìn)一步的映射關(guān)系,比如:
Bacterioplankton EM Bacterioplankton (第1層)
Bacterioplankton EM Bacteria+Plankton (第2層)
②詞形規(guī)范匹配,是指語法表現(xiàn)形式不一致而語義一致的兩個(gè)術(shù)語建立匹配,在此基礎(chǔ)上構(gòu)建進(jìn)一步的映射關(guān)系,即在全稱與簡稱、單復(fù)數(shù)、有無連接符術(shù)語、詞綴不同、翻譯、全稱和首字母縮寫等匹配的基礎(chǔ)上建立進(jìn)一步映射關(guān)系,例如簡寫與全稱等價(jià)映射基礎(chǔ)上的進(jìn)一步映射關(guān)系:
N.M.R.EM Nuclear magnetic resonance (第1層)
N.M.R.BTM Spectroscopy(第2層)
③同義詞匹配,是指詞形不一致,而語義相同或相似的兩術(shù)語間建立匹配,在此基礎(chǔ)上構(gòu)建進(jìn)一步的映射關(guān)系,比如:
Ranging behavior EM Range action (第1層)
Ranging behavior BTM Behavior(第2層)
Ranging behavior RTM Home range (第3層)
其中,RTM是Related Term Mapping的簡稱,表示相關(guān)映射。
(2)反義詞對(duì)基礎(chǔ)上的共同上位概念?!胺戳x詞對(duì)”通常是同一事物或者同一現(xiàn)象的兩個(gè)相反屬性。用戶在檢索“反義詞對(duì)”時(shí)往往希望獲取其對(duì)應(yīng)上位類——共同現(xiàn)象或事物的信息,所以有必要建立“反義詞對(duì)”及其共同上位類映射關(guān)系,比如:
[Abiotic factors RTM(反義)Biotic factors] BTM Environmental factors
Abiotic factors與Biotic factors是Environmental factors的兩個(gè)相反屬性,Environmental factors是兩者的共同上位類,故建立上位映射關(guān)系。
(3)詞義不完全組配上的多映射關(guān)系。組配映射分為并列組配和交叉組配,組配既可完全代替源詞表術(shù)語的語義,也可能不能實(shí)現(xiàn)語義上的完全對(duì)等,這時(shí)可在組配映射基礎(chǔ)上建立進(jìn)一步概念映射關(guān)系,比如:
Bacterial artifical chromosomes BTM(Bacteria+chromosomes)
Bacterial artifical chromosomes(細(xì)菌人工染色體)在目標(biāo)詞表的組配關(guān)系為Bacteria+ chromosomes(細(xì)菌染色體),該組配尚不能完全代表源詞表映射詞的語義,源詞表映射詞的實(shí)際含義比目標(biāo)詞表中的映射詞要廣,因此應(yīng)在組配基礎(chǔ)上建立與源詞表映射詞的上位映射關(guān)系。
以上幾種特殊的映射關(guān)系會(huì)出現(xiàn)在多數(shù)映射項(xiàng)目中,具有共性和典型性,所以被單獨(dú)總結(jié)出來,希望為日后的映射項(xiàng)目提供參考。
第一,需明確敘詞表映射只有達(dá)到深層次的概念映射,才能滿足用戶概念檢索需求。通過建立概念間的等價(jià)、等級(jí)和相關(guān)映射關(guān)系,檢索系統(tǒng)才能基于這種底層的映射數(shù)據(jù)和關(guān)系,自動(dòng)為用戶提供相應(yīng)檢索詞的等價(jià)詞、上下位詞和相關(guān)詞提示,從而實(shí)現(xiàn)真正意義上的擴(kuò)展檢索,進(jìn)而提高用戶的查全率。
第二,敘詞表映射類型的確定是開展映射工作的前提。各個(gè)詞表在詞形、詞義和結(jié)構(gòu)上的差異使兩個(gè)詞表間建立完全的精確對(duì)等匹配是不可能的,所以要根據(jù)詞表本身的特點(diǎn)以及實(shí)際需要來確定建立何種映射類型。ISO提出的等價(jià)、等級(jí)和相關(guān)映射類型比較抽象,未對(duì)現(xiàn)實(shí)中的何種映射關(guān)系屬于該三種映射類型做出明確規(guī)定,很難直接在實(shí)際映射項(xiàng)目中使用。Chaplan與Neville提出的近30種映射類型,比較全面和具體,但難免會(huì)有冗余或者重合定義的情況[8]。據(jù)此,本文通過將兩人提出的映射類型在ISO映射類型中做擴(kuò)展分析,以尋求最佳映射類型的確定方案。根據(jù)分析結(jié)果,基于映射數(shù)據(jù)共享、重用的考慮,筆者建議使用ISO映射類型,并在此基礎(chǔ)上根據(jù)實(shí)際需要對(duì)該映射類型進(jìn)行擴(kuò)展使用。
第三,敘詞表概念映射方法從實(shí)施意義上講是映射確定的過程。筆者根據(jù)敘詞表映射實(shí)驗(yàn),探討了映射構(gòu)建的影響因素和建立多映射類型的方法。相關(guān)機(jī)構(gòu)和人員在建立多映射關(guān)系時(shí),應(yīng)考慮映射數(shù)據(jù)的實(shí)際需求與應(yīng)用系統(tǒng)的效率等影響因素。
映射的實(shí)施方法,一方面可參考已建立的映射類型實(shí)施多映射,另一方面也可根據(jù)詞表本身的結(jié)構(gòu)關(guān)系和語義關(guān)系,推斷并建立多映射關(guān)系。此外,筆者還總結(jié)幾種特殊映射關(guān)系的建立方法,如精確等價(jià)基礎(chǔ)上的映射關(guān)系,反義詞對(duì)基礎(chǔ)上的共同上位概念和詞義不完全組配上的多映射關(guān)系建立等??傊瑪⒃~表概念映射工作相當(dāng)繁雜,以上只是概念映射的部分實(shí)施方案,并沒有涉及映射的整體工作流程。除此之外,概念映射還涉及映射規(guī)則、映射數(shù)據(jù)質(zhì)量檢測和映射數(shù)據(jù)的應(yīng)用等,還需要進(jìn)行進(jìn)一步的研究與探討。
[1]ZengM L,Chan LM.Trends and Issues in Establishing Interoperability Among Knowledge Organization Systems[J].Journal of the American Soiety for Information Science and Technology,2004,55(5):377-395.
[2]UMLSreferenceManual[EB/OL].(2009-09-09).[2014 -03-01].http://www.ncbi.nlm.nih.gov/books/NBK 9684.
[3]ISO 25964-2:2011.Information and documentation——Thesauri and interoperability with other vocabularies——Part 2:Interoperability with other vocabularies [S/OL].(2012-10-31).[2014-05-26].http://www. iso.org/iso/catalogue_detail.htm?csnumber=53658.
[4]Chaplan M.A.,Mapping Laborline thesaurus terms to Library of Congress subject headings:Implications for vocabulary switching[J].Library Quarterly,65(1):39-61.
[5]H.H.Neville.Feasibility study of a scheme for reconciling thesauri covering a common subject[J].Journal of Documentation,1970,26(4):313-336.
[6]Liang A C,Sini M,Chang C,et al.The mapping schema from Chinese agricultural thesaurus to agrovoc[C] //Proceedings of the Fifth Conference of the European Federation for Information Technology in Agriculture,F(xiàn)ood and Environment and the Third World Congress on Computers in Agriculture and Natural Resources.Vila Real,Portugal:EFITA/WCCA,2005.
[7]陳辰.敘詞表映射語義判定和自動(dòng)推理規(guī)則探析[J].圖書情報(bào)工作,2014,58(2):126-131.
[8]Mcculloch E,Macgregor G.Analysis of mapping types for terminology services[J].Journal of Information Science,2008,34(1):70-92.
Research on Concept Mapping of Thesaurus
CHEN Chen
Concept mapping of thesaurus can meet users’needs for deep concept retrieval.This article discusses the distinctions between concept mapping and terminology mapping.Based on ISO standard,it proposes the extension use of the three mapping types.Then,it makes a detailed analysis on the methods of concept mapping.
thesaurus mapping;concept mapping;mapping types;mapping methods
格式 陳辰.敘詞表概念映射研究[J].圖書館論壇,2015(1):37-42.
陳辰(1986-),女,碩士,任職于河北金融學(xué)院圖書館.
2014-07-14