鄭丹丹 張夢宇 朱波
摘 要:研究關(guān)于環(huán)境科學的多語言術(shù)語知識庫EcoLexicon,總結(jié)其對于術(shù)語學研究及術(shù)語知識庫構(gòu)建的啟示。通過查閱相關(guān)文獻及資料,針對EcoLexicon網(wǎng)站主要功能和實際應(yīng)用進行分析,梳理EcoLexicon術(shù)語庫的理論背景和結(jié)構(gòu)框架??偨Y(jié)出對術(shù)語學研究及術(shù)語知識庫構(gòu)建的四點啟示:多語言、領(lǐng)域性、可視化、互操作性。
關(guān)鍵詞:EcoLexicon;術(shù)語學;術(shù)語知識庫;啟示
中圖分類號:N04;H159 ??文獻標識碼:A ??DOI:10.12339/j.issn.1673-8578.2021.04.003
Application and Enlightenment of Term Knowledge Base “EcoLexicon”//ZHENG Dandan, ZHANG Mengyu, ZHU Bo
Abstract: This paper introduces EcoLexicon, a terminology knowledge base on environmental science, and offers some tips for terminology research and the construction of terminology knowledge base. By consulting relevant documents and materials, we analyze the main functions and application of EcoLexicon with a focus on its theoretical background and structural framework. Four characteristics of EcoLexicon are drawn from multilanguage, specialized domain, visualization, and interoperability.
Keywords: EcoLexicon; terminology; terminology knowledge base; tips
收稿日期:2021-07-15? 修回日期:2021-08-16
基金項目:江蘇省高校哲學社會科學研究重大項目“國際民航術(shù)語認知與應(yīng)用研究”(2020SJZDA012)和江蘇省研究生教育教學改革項目(JGLX19_019)階段性成果
引言
術(shù)語通過語音或文字來表達專業(yè)概念,是特殊的認知信息結(jié)構(gòu)[1]。術(shù)語知識庫利用計算機的特有功能,大量儲存術(shù)語,不斷進行修改、更新等操作,加強對術(shù)語條目的管理,適應(yīng)科學技術(shù)發(fā)展對術(shù)語提出的新要求,在語言學、計算機輔助翻譯、機器翻譯、專業(yè)知識儲存等領(lǐng)域作用顯著。伴隨互聯(lián)網(wǎng)發(fā)展,術(shù)語知識庫推動了術(shù)語標準化和規(guī)范化,對專業(yè)知識進行組織、描述和管理,為專業(yè)學習、交流與傳播提供幫助。國外在這方面已有成功經(jīng)驗,如世界知識產(chǎn)權(quán)組織(WIPO)術(shù)語庫,北約在線術(shù)語庫NATOTerm,美國聯(lián)機計算機圖書館中心(OCLC)術(shù)語庫,加拿大多領(lǐng)域大型術(shù)語庫Termium等。此外,網(wǎng)絡(luò)知識組織系統(tǒng)(NKOS)、開放元數(shù)據(jù)注冊(OMR)、維基百科等提供術(shù)語知識庫建設(shè)機制,供用戶發(fā)布和共享術(shù)語。術(shù)語知識庫一方面提供特定領(lǐng)域術(shù)語標準化信息;另一方面展示該領(lǐng)域知識網(wǎng)絡(luò),成為知識服務(wù)的基石[2]。國內(nèi)近年來也有突破,誕生了一批標志性成果,如全國科學技術(shù)名詞審定委員會主持建設(shè)的“術(shù)語在線”、中國特色話語對外翻譯標準化術(shù)語庫[3]、面向云計算領(lǐng)域的雙語術(shù)語知識庫[4]、航空術(shù)語語義知識庫[5]。術(shù)語知識庫研究涵蓋知識的融合、集成、管理、服務(wù)等方面,是一項系統(tǒng)的知識工程,在理論和應(yīng)用上值得進一步探討。
西班牙格拉納達大學Lexicon團隊起步較早,成果突出,獨樹一幟。自1994年起,由Faber引領(lǐng),團隊以詞匯語法模型和認知語言學為基礎(chǔ),在術(shù)語學、詞匯語義學、詞典學、隱喻、翻譯和專業(yè)知識表征等領(lǐng)域開展研究。2003年,“基于多語語料庫的海岸工程知識提取”獲該國教育和科技部立項。在此基礎(chǔ)上,團隊開發(fā)出面向環(huán)境領(lǐng)域的多語術(shù)語知識庫EcoLexicon。經(jīng)過不斷改進、完善,已在環(huán)境領(lǐng)域匯集3631個概念,總共20 342條術(shù)語,以六種語言呈現(xiàn)[6];專業(yè)語料庫容量巨大,僅英文專業(yè)文獻詞數(shù)就高達5400萬,可通過Sketch Engine免費檢索[7]。本文將以EcoLexicon為研究對象,探討其生成、應(yīng)用及對業(yè)界的啟示。
1 EcoLexicon的理論基礎(chǔ)和數(shù)據(jù)結(jié)構(gòu)
在構(gòu)建過程中,Lexicon團隊參考、借鑒了交際術(shù)語學和社會術(shù)語學等,在框架語義學基礎(chǔ)上形成了框架術(shù)語學(Frame-based Terminology,F(xiàn)BT),以概念組織、術(shù)語單元的多維性質(zhì)、從多語語料庫提取語義和句法信息為特色,發(fā)展成為描寫術(shù)語學的最新流派。
FBT 是一種以認知為導(dǎo)向的術(shù)語理論,其核心理念為:在科學和技術(shù)傳播中,術(shù)語作為特定知識單元激活專業(yè)領(lǐng)域語義框架,后者取決于(用戶)專業(yè)背景知識并與之對應(yīng)。語義框架論基于語義、句法和語用等三方面理論 ,它們分別關(guān)聯(lián)術(shù)語條目信息、專業(yè)知識單元之間關(guān)系和概念系統(tǒng)。
語義層面包含內(nèi)部和外部表征。內(nèi)部通過描述語義構(gòu)成和語義關(guān)系,形成定義模板,構(gòu)建術(shù)語作為特定知識單元的含義;外部是一個領(lǐng)域本體,頂端概念包括對象(Object)、事件(Event)、屬性(Attribute) 和關(guān)系(Relation)。本體由具體對象和過程的概念表征構(gòu)成。概念體系如同一個支架,自然語言表述為術(shù)語數(shù)據(jù)查詢、數(shù)據(jù)集成和數(shù)據(jù)推斷提供語義基礎(chǔ)。句法層面基于具體事件,以謂詞-論元結(jié)構(gòu)形式出現(xiàn)。事件在本質(zhì)上由謂詞決定,它激活了不同實體之間的關(guān)系。FBT認為術(shù)語之間在句法上存在關(guān)聯(lián),如同基于圖像的微型語法。這種結(jié)構(gòu)不僅展現(xiàn)出語言上的層級和非層級關(guān)系,而且還能標記語料庫文本,用于信息檢索。語用層面指向語境,包含言內(nèi)和言外兩種。言內(nèi)語境又稱上下文,跨度通常為特定術(shù)語之前與之后的5個詞,在術(shù)語知識庫設(shè)計階段至關(guān)重要。通過各種搭配和搭配模式,上下文展現(xiàn)出術(shù)語激活和使用的具體情境,在術(shù)語消歧、定義表述、語言使用、概念建模和術(shù)語提取等方面作用顯著。相比之下,言外語境與文化知識、觀念和信仰相關(guān),這緣于專業(yè)知識單位內(nèi)嵌的文化信息。概念范疇與語言使用者的生存環(huán)境緊密關(guān)聯(lián),后者從相關(guān)地理環(huán)境或區(qū)域條件中識解其內(nèi)涵,比如常見天氣現(xiàn)象,因此文化定位對語義網(wǎng)絡(luò)產(chǎn)生直接影響。
FBT認為每個專業(yè)都有屬于本領(lǐng)域的事件模板(Event Template),這些事件能夠被概念系統(tǒng)捕捉,構(gòu)成概念事件的結(jié)構(gòu)基礎(chǔ),可在框架中對新行為或新事件進行范疇化處理。參照原型概念,F(xiàn)BT把專業(yè)域中反復(fù)發(fā)生的事件稱為原型域事件(Prototypical Domain Event),原型域事件把專業(yè)域中的基礎(chǔ)層面范疇配置在一起,產(chǎn)生了一個適用于所有層面信息架構(gòu)的模塊,把體現(xiàn)專業(yè)域特色的典型狀態(tài)和事件以及參與其中的實體都納入進去,確立起一個組織具體概念的框架。范疇中的具體概念被置于網(wǎng)絡(luò)中,通過層級和非層級關(guān)系聯(lián)系在一起[8]。EcoLexicon以此為理論基礎(chǔ),根據(jù)語料來源把環(huán)境工程細分為地質(zhì)學、生物學、氣象學等領(lǐng)域,并以這些領(lǐng)域為基礎(chǔ),對概念網(wǎng)絡(luò)進行語境化處理,取得了突破。
EcoLexicon中的語義網(wǎng)絡(luò)基于域事件,為環(huán)境領(lǐng)域中的典型狀態(tài)或事件以及參與其中的實體提供一個模板,把它們?nèi)谌肫渲?。從視覺上看,語義網(wǎng)絡(luò)中的每個概念都與其他概念相互關(guān)聯(lián)。選擇這種可視化方法,原因是語義網(wǎng)絡(luò)是最為突出的術(shù)語表征方法,可在智能環(huán)境中獲取和封裝大量語義信息。在使用時,環(huán)境領(lǐng)域的廣闊性、多維性和大量概念命題經(jīng)常導(dǎo)致EcoLexicon出現(xiàn)信息超載。Lexicon團隊通過量化和質(zhì)性手段來解決這一問題,比如讓用戶通過關(guān)系類型來過濾超載的語義網(wǎng)絡(luò);根據(jù)主題設(shè)置上下文限制,提供重新語境化的概念景象;提供網(wǎng)絡(luò)、樹型和路徑三種不同模式,讓概念行為可視化。
在概念圖左下角有一個文本框,允許用戶選取不同種類的概念關(guān)系,具體為下義關(guān)系(type_of),部分-整體關(guān)系(part_of)關(guān)系,以及非層級關(guān)系(has_function,located_at,causes, affects, result_of等)。這些概念關(guān)系不會直接出現(xiàn)頁面上。用戶點擊標簽左側(cè)的復(fù)選框,就可以啟動或退出一種關(guān)系的視圖。通過選擇關(guān)系種類,用戶可以過濾超載信息。通過下拉菜單,選取不同的語境領(lǐng)域,用戶就能更新語義網(wǎng)絡(luò)。這種質(zhì)性方法可解決信息超載,同時提高表征的多維性。概念關(guān)系因視角不同而發(fā)生變化,導(dǎo)致語義網(wǎng)絡(luò)需要再語境化。用戶可根據(jù)具體概念在不同主題域的突出性,來啟動或限制概念命題,無需全方位表征。以Water為例。相比脫離語境、信息過載的語義網(wǎng)絡(luò),圖1把領(lǐng)域限定為土木工程,語義網(wǎng)絡(luò)信息大幅降低,專業(yè)性顯著提升。
除網(wǎng)絡(luò)模式外,EcoLexicon還提供樹形模式和路徑模式。在樹形模式下,各種概念類別通過橫向樹形結(jié)構(gòu)連接,通常情況下有多個樹形分支。兩者具有相同的根,即中心概念(而非術(shù)語)。與典型的Is A層次結(jié)構(gòu)①相同,左側(cè)樹根顯示更通用的概念,而右側(cè)分支顯示與所搜索概念相關(guān)的更為具體的概念。例如,Sediment(沉積物)可分為Moraine(冰磧)、Diamict(混積巖)、Agglomerate(集塊巖)、Sludge(淤泥)等,其中Moraine又可以分為Lateral moraine(冰川側(cè)磧)、Terminal moraine(終磧)、Recessional moraine(后退冰磧)、Ground moraine(地磧)和Central moraine(中心冰磧),其余分支還可以繼續(xù)細分為各種子概念類別,形成樹形結(jié)構(gòu)(見圖2)。
路徑模式顯示了兩個概念間的最短路徑及其關(guān)系。例如, Hurricane(龍卷風)屬于Wind(風)的一部分,Wind會影響Lithometeor(大氣塵粒),后者由Sand(沙)造成(見圖3)。
Lexicon團隊匯編了一個專用語料庫,以提取語言和概念知識,并對它們進行分類和標記,方便用戶訪問。每個文本都已根據(jù)一組基于可擴展標記語言(XML)的元數(shù)據(jù)進行了標注。這些標注包含文本語言、作者、出版日期、目標讀者、語境、關(guān)鍵字等信息。用戶可以根據(jù)語境或目標讀者等語用因素,來查詢語料庫,比較同一術(shù)語在不同文本中的使用情況。以pollute(污染)一詞為例。通過檢索專業(yè)語料,可以發(fā)現(xiàn)多種污染源和污染物,然后歸入語義角色和分類[7],具體可見表1。
除標注外,EcoLexicon面對的另一挑戰(zhàn)就是將數(shù)據(jù)集成到語言鏈接開放數(shù)據(jù)云中。鏈接數(shù)據(jù)是一個重要步驟,通過在語義網(wǎng)中發(fā)布和鏈接結(jié)構(gòu)化資源來創(chuàng)建共享信息空間。但是,數(shù)據(jù)源之間語義關(guān)系的規(guī)范化是一個限制因素。為解決這一問題,EcoLexicon將以三種方式出現(xiàn):(1)當前提供的網(wǎng)頁應(yīng)用程序;(2)另一個可讓用戶瀏覽關(guān)聯(lián)數(shù)據(jù)格式EcoLexicon的網(wǎng)頁應(yīng)用程序;(3)簡單協(xié)議和資源描述框架端點②。團隊設(shè)計了一種鏈接算法,以自動執(zhí)行DBpedia③和EcoLexicon之間的映射。EcoLexicon的數(shù)據(jù)類別與語言變體、多語言選擇和語義關(guān)系有關(guān),這些類別對應(yīng)于DBpedia所包含文本屬性。因此,數(shù)據(jù)鏈接第一步是把EcoLexicon中所有英語變體的字符串與DBpedia的資源描述框架屬性進行比較。由于這些字符串可能與DBpedia中各種條目匹配并導(dǎo)致歧義,需要通過比較其他語言有效項來消除歧義。當多語言選擇不適用,或出現(xiàn)多義性時,語義信息就會發(fā)揮作用。若語境中與概念相同的任何術(shù)語出現(xiàn)在與文本相關(guān)的DBpedia屬性中(即rdfs:comment;DBpedia-owl:abstract等),則被視為相同概念[6]。此外,還需提供EcoLexicon訪問權(quán)限,以便驗證、評估鏈接的安全性。
2 應(yīng)用
EcoLexicon(http://EcoLexicon.ugr.es)在網(wǎng)絡(luò)語義中設(shè)定環(huán)境概念,展示環(huán)境領(lǐng)域的概念結(jié)構(gòu)。用戶群體包括環(huán)境學家、技術(shù)寫作人員和專業(yè)譯員等。它有助于拓展環(huán)境領(lǐng)域?qū)I(yè)知識,提高用戶對文本的理解。所有信息和專業(yè)文本語料庫都儲存在一個獨立的數(shù)據(jù)庫中,可供添加、刪除、修改。用戶可訪問并查詢所需信息,主要目的是獲取專業(yè)知識。與最初版本相比,新版EcoLexicon增加了如下功能:兼容所有現(xiàn)代瀏覽器;增加更多交互和組合圖形,允許調(diào)整圖形大小,選擇概念關(guān)系,刪除或調(diào)整節(jié)點,前進/后退操作,為術(shù)語創(chuàng)建鏈接,通過谷歌或谷歌圖像搜索概念/術(shù)語;增加樹形模式與路徑模式;個性化存儲設(shè)置。
用戶打開網(wǎng)站,會發(fā)現(xiàn)三個區(qū)域:(1)頂部欄。包括術(shù)語/概念搜索或更改界面語言操作。(2)側(cè)邊欄。顯示有關(guān)概念圖的信息:定義、術(shù)語/概念、相關(guān)術(shù)語/概念、相關(guān)資源、概念類別和短語。(3)中心區(qū)。包括概念/術(shù)語搜索歷史、概念圖及其術(shù)語名稱,以及自定義配置概念圖的圖標。概念圖左下方有一個帶標題的文本框,供用戶區(qū)分EcoLexicon中的三類概念關(guān)系:上下義(普遍-特殊)關(guān)系、部分-整體關(guān)系、非層級關(guān)系。通過單擊某個概念/術(shù)語,就可以把它定位于中心或拖動節(jié)點。在側(cè)邊欄選擇,可顯示詳細信息(定義、關(guān)聯(lián)術(shù)語、資源等),獲取選定項的相關(guān)鏈接。此外,用戶還可以直接通過谷歌搜索、谷歌圖片和Wolfram Alpha④查詢概念的相關(guān)信息。
EcoLexicon頁面左側(cè)包含一系列模塊,顯示特定概念或術(shù)語的信息。這些信息主要包括:(1)定義:提供中心概念的定義。(2)術(shù)語:顯示指定中心概念所有相關(guān)術(shù)語的列表。按語言和術(shù)語類型(主要輸入術(shù)語、同義詞、變體、首字母縮寫等)排序,每個術(shù)語左側(cè)都有國旗標志,代表語言種類。(3)資源:提供與概念/術(shù)語相關(guān)的圖像、文本及視聽材料。每個概念的資源列表顯示在此框中。用戶可通過資源旁的圖標識別資源類型。單擊資源條目,就可以打開一個包含更多信息(標題、描述、來源等)的窗口。(4)概念類別:每個概念都與一個或多個概念類別相關(guān)聯(lián)。單擊其中一種類別,將出現(xiàn)一個視窗,列出所有相關(guān)概念。該模塊還包括“類別”層次結(jié)構(gòu)圖標,單擊圖標,系統(tǒng)就會以分層形式顯示概念,每個節(jié)點可前進或后退。如單擊層次結(jié)構(gòu)中的類別之一,則會出現(xiàn)一個新窗口,包含與該類別相關(guān)的所有概念。(5)詞匯表:如果概念圖中心元素是術(shù)語,則可顯示該術(shù)語最常用的搭配動詞列表。
以翻譯舉例。除專業(yè)翻譯外,不少學校的應(yīng)用翻譯課程都會涉及環(huán)境科學術(shù)語。筆者在翻譯一篇關(guān)于大氣層的文獻時,曾登錄網(wǎng)站,查找核心術(shù)語Climate change(氣候變化)以及相關(guān)術(shù)語/概念。比如,??寺鼘樱‥kman Layer)指離地面100~2000米的區(qū)域;Orographic effect(地形效應(yīng))指某一巖層由于地形、巖層的產(chǎn)狀與厚度因素的影響,在地質(zhì)圖上有不同的露頭形態(tài)。對非環(huán)境專業(yè)譯者來說,在網(wǎng)絡(luò)上逐一搜索這些術(shù)語十分煩瑣,而且容易出錯。登錄EcoLexicon,輸入“Climate change”,會自動鏈接所有相關(guān)術(shù)語,比如Desertification(沙漠化)、Recession(衰退)、Atmosphere(大氣),還可以直接查看術(shù)語定義、使用語境以及相關(guān)資料,非常方便(見圖4)。
由此可見,EcoLexicon不僅適用于環(huán)境科學領(lǐng)域?qū)I(yè)人士,對于需要了解環(huán)境科學知識的其他行業(yè)專家也有很大幫助。當用戶用其中一種語言搜索某個術(shù)語時,可以得出包括定義、分類、搭配、演變、語法等信息。對譯者來說,可以通過切換語言得知某個術(shù)語用另外五種語言如何表示,從而選擇相應(yīng)的術(shù)語進行翻譯。不僅如此,EcoLexicon的術(shù)語庫可以在Sketch Engine中免費使用,譯者還可以通過Trados等計算機輔助軟件,自建翻譯術(shù)語庫,在環(huán)境科學領(lǐng)域承擔大型專業(yè)翻譯或本地化項目。
3 啟示
作為大型多語言術(shù)語知識庫,EcoLexicon過去十幾年里不斷改進,規(guī)模日趨擴大,專業(yè)化水平不斷提高,經(jīng)濟和社會效益日益顯現(xiàn),給術(shù)語知識庫建設(shè)和術(shù)語研究帶來如下啟示。
3.1 多語言
術(shù)語的國際化發(fā)展要從語言入手,而不同國家使用的不同語言可能導(dǎo)致各國學者在使用不同語種術(shù)語庫時遇到困難。早前,人們建立術(shù)語庫以方便編纂各種專業(yè)辭書,后來發(fā)現(xiàn)建立術(shù)語庫不僅方便編纂和修訂辭書,還能夠規(guī)范、協(xié)調(diào)和統(tǒng)一各種術(shù)語的使用,防止語言和文化差異造成的術(shù)語混用。比如,瑞典技術(shù)術(shù)語中心建立“TERMDOK術(shù)語數(shù)據(jù)庫”的主要目的就是解決北歐斯堪的納維亞地區(qū)復(fù)雜的語言體系為進出口貿(mào)易以及科技交流帶來的困難。該術(shù)語數(shù)據(jù)庫對每一條術(shù)語/概念的表述均采用了瑞典語、英語、法語、德語、挪威語、芬蘭語等多種語言,克服了北歐國家之間的語言障礙[10]。
自創(chuàng)立以來,歐盟就支持語言多樣性。根據(jù)《歐洲語言教育政策發(fā)展指南》,多語種教育的定位一是多語教育,二是多語言意識教育。后者的優(yōu)越性一方面在于提升學習者的語言能力和語言學習能力,另一方面在于啟發(fā)學習者語言是認知世界的資源,構(gòu)建多語言格局,化解語言沖突與矛盾,促進各國之間經(jīng)濟發(fā)展和文化交流[11]。順應(yīng)歐盟多語言政策和規(guī)劃,EcoLexicon在系統(tǒng)內(nèi)置西班牙語、英語、德語、法語、俄語和希臘語六種語言,為不同語言的使用者提供便利。與之相比,目前國內(nèi)術(shù)語庫大多僅有漢、英兩種語言[12]。參照EcoLexicon多語言實踐,術(shù)語知識庫構(gòu)建中可融入更多語言,促進國際合作,服務(wù)全球治理。世界是多元、多極、多層的,在構(gòu)建中國學派、講好中國故事、傳遞中國聲音的過程中,應(yīng)關(guān)注多種語言和不同受眾。
3.2 領(lǐng)域性
作為知識領(lǐng)域,術(shù)語學的研究對象是術(shù)語單元,可從三個角度加以討論。從語言學角度看,術(shù)語是語言的詞匯單元,在具體的語用和話語情境中表達特殊概念。這種特殊概念有準確意義,被各個領(lǐng)域的專業(yè)群體識別并穩(wěn)定下來。從認知角度看,術(shù)語構(gòu)成表征知識結(jié)點的概念單元。它們對專業(yè)領(lǐng)域的概念結(jié)構(gòu)來說不可或缺,通過詞匯單元從語言上表現(xiàn)出來。所有概念結(jié)點組成一個領(lǐng)域的概念結(jié)構(gòu)。從交際角度看,術(shù)語是話語單元,通過它可以從個體中發(fā)現(xiàn)專業(yè)人員,幫助他們進行交流和互動,還能通過教學目的來傳播知識,培養(yǎng)新的專家,或者把專業(yè)知識作為信息傳播給那些想學習一門學科的大眾。以Erosion(侵蝕)為例。在EcoLexicon中,通過分析海岸工程的專業(yè)語料和各種語義搭配,可以發(fā)現(xiàn)“侵蝕”:(1)是一種過程;(2)持續(xù)時間不一;(3)隨季節(jié)變換;(4)受事不同,影響某個地區(qū)或海洋動物群;(5)施事不同,由人為或自然因素觸發(fā)。由此可見,術(shù)語的主要功能就是在領(lǐng)域內(nèi)表征和傳播專業(yè)知識。
譯者是術(shù)語工作者。專業(yè)譯者通常專注一個特定領(lǐng)域。統(tǒng)計顯示,專業(yè)譯者把75%的時間用于術(shù)語翻譯。除工具功能之外,術(shù)語可以為譯者提供獲取專業(yè)知識的途徑。翻譯產(chǎn)業(yè)進入2.0 時代后,采用計算機輔助翻譯技術(shù)已是勢在必行。術(shù)語庫在翻譯項目中的應(yīng)用大幅提升了翻譯效率和質(zhì)量,降低成本,成為企業(yè)語言資產(chǎn)的核心。專業(yè)翻譯公司和團體都在嘗試建設(shè)具有行業(yè)特色的翻譯術(shù)語庫,把擁有特定領(lǐng)域的術(shù)語庫作為產(chǎn)品和服務(wù)賣點,比如面向能源、地質(zhì)、交通、計算機等領(lǐng)域的專業(yè)術(shù)語庫。受西班牙教育和科技部委托,Lexicon團隊基于海岸工程項目,構(gòu)建面向環(huán)境領(lǐng)域的EcoLexicon,積累了豐富經(jīng)驗,目前已轉(zhuǎn)向軍事和醫(yī)學等領(lǐng)域[13],服務(wù)北約和歐盟等市場或機構(gòu)需求,開發(fā)可通過商品銷售共享的行業(yè)資源。
3.3 可視化
FBT認為圖形也可以描寫概念,與語言語境形成互補。與語言一樣, 圖形在句法方面表現(xiàn)為由不同的形態(tài)要素按照一定模式組合而成,在語義方面能夠傳達概念的內(nèi)涵、外延以及同義關(guān)系,在語用方面則表現(xiàn)為因用戶需求、文本專業(yè)程度不同而發(fā)揮不同功能。Lexicon團隊把圖形信息分為形象圖形、抽象圖像和動態(tài)圖形三種,指出這三類圖形信息之間的不同組合,可以構(gòu)成八種圖像表述方式。不管以何種方式出現(xiàn),圖像都可以作為語境的一種表現(xiàn)形式,出現(xiàn)在術(shù)語庫之中,促進概念的傳播和理解,深化和擴展人們對于概念和概念關(guān)系的認識。例如下面兩幅圖像。圖5來自EcoLexicon圖像數(shù)據(jù)庫,是一幅實景圖,匯集了云、陸地、植被、雨和海洋等景象;圖6來自大氣研究大學協(xié)會(University Corporation for Atmospheric Research),細粒度刻畫了降水過程中的概念和知識點[8]。
信息化時代使科技和生活發(fā)生了巨大變革。紙媒體到融媒體的轉(zhuǎn)變給術(shù)語知識庫建設(shè)帶來挑戰(zhàn),定義和解釋術(shù)語的方式需要與時俱進。為克服傳統(tǒng)術(shù)語庫的不足,需要優(yōu)化知識庫處理技術(shù),依托本體完成專業(yè)領(lǐng)域的概念網(wǎng)絡(luò)構(gòu)建,形成立體化的知識圖譜。在大部分現(xiàn)存術(shù)語庫中,圖片的選擇和呈現(xiàn)都是隨機的,基本上是依靠術(shù)語編纂者的直覺,缺乏系統(tǒng)性和一致性。針對這個問題,Lexicon團隊做出了一些嘗試,提出視覺語法(visual grammar)概念,如同在詞、句、意等層面對語言進行分析,視覺信息也可以用相似性、抽象性和動態(tài)性三個特征進行分層,根據(jù)術(shù)語編撰的實際需要進行選擇。在開發(fā)過程中,EcoLexicon就遵循了這樣的原則,取得了較為理想的效果。此外,我們還可以依托本體理論,運用Protégé專業(yè)軟件,對領(lǐng)域概念及概念間的關(guān)系進行規(guī)范化描述,構(gòu)建專業(yè)領(lǐng)域的概念網(wǎng)絡(luò),形成立體化的主題知識圖譜,實現(xiàn)知識的體系化與可視化[4]。
3.4 互操作性
所謂互操作性,指的是不同系統(tǒng)和機構(gòu)之間相互合作、協(xié)同工作的能力,亦稱“協(xié)同工作能力”或“互用性”。按照較為通用的劃分方法, 互操作性依其范疇可分為組織機構(gòu)互操作性、語義(內(nèi)容)互操作性和技術(shù)互操作性,按照其發(fā)展水平還可分為技術(shù)、語義、流程、知識、價值、目標六個層級[15]。和重復(fù)利用一樣,互操作性是知識表征和提取中的關(guān)鍵問題,通過語義網(wǎng)和鏈接開放數(shù)據(jù)云等表現(xiàn)出來。在21世紀初,歐盟就發(fā)布了《聯(lián)結(jié)歐洲》(Linking up Europe)提案,針對互操作的重要性和具體政策達成共識。2004年,歐洲互操作性框架正式出臺,規(guī)定了以互操作性為中心的一整套標準和指南,為各成員國提供了協(xié)調(diào)一致的頂層架構(gòu)。歐盟互動術(shù)語數(shù)據(jù)庫(IATE)為歐盟術(shù)語資源提供基于網(wǎng)絡(luò)的基礎(chǔ)設(shè)施,提高信息的可用性和標準化,為聯(lián)盟內(nèi)部的互操作性打下堅實基礎(chǔ)。
國內(nèi)一些專業(yè)性機構(gòu)及重要部門都有自己的術(shù)語庫。除中國百科術(shù)語庫、全國科技名詞委術(shù)語庫之外,大多數(shù)都是內(nèi)部使用,外部用戶無法在互聯(lián)網(wǎng)直接訪問或進行交互,存在封閉、重復(fù)、簡單的弊端。作為一個多語術(shù)語知識庫,EcoLexicon集成了環(huán)境科學領(lǐng)域的概念、語言和視覺信息,包括術(shù)語在內(nèi)的各種資源可融入不同類型的應(yīng)用程序,得到重復(fù)利用。在開發(fā)過程中,Lexicon團隊創(chuàng)造出諸多“副產(chǎn)品”,比如環(huán)境專業(yè)英語數(shù)據(jù)庫(EcoLexicon English Corpus)、基于專業(yè)術(shù)語庫的環(huán)境領(lǐng)域計算機輔助翻譯系統(tǒng)(EcoLexiCAT)和圖像注釋工具(Manzanilla)。這些產(chǎn)品和EcoLexicon本身存在互操作性,可充分利用并強化EcoLexicon內(nèi)部的術(shù)語數(shù)據(jù)資源[15]。以EcoLexiCAT為例。系統(tǒng)可以把專業(yè)翻譯工作中的不同功能集成在一個獨立界面,用戶可同時得到EcoLexicon、BabelNet、IATE和Sketch Engine支持,獲得豐富的術(shù)語信息,如定義、翻譯、圖像、復(fù)合術(shù)語、語料庫訪問。在Sketch Engine界面,譯者可以選取原文和譯文片段,直接獲得特定術(shù)語的索引、持續(xù)查詢語言(CQL)查詢和特性素描。如果想得到詳細分析,可在Sketch Engine上打開新標簽頁,在其開放數(shù)據(jù)庫中進一步查詢。用戶不僅能夠通過平臺獲取知識,還能直接參與術(shù)語庫的完善過程,按照自己的需求選擇術(shù)語庫的功能模式、增添術(shù)語條目,幫助術(shù)語庫實現(xiàn)優(yōu)化、迭代。在術(shù)語庫建設(shè)中,我們可借鑒EcoLexicon,以重復(fù)利用和互操作性為導(dǎo)向,增加交互渠道,共享資源,不斷提高建設(shè)和應(yīng)用水平。
4 結(jié)語
科技是國家強盛之基,創(chuàng)新是民族進步之魂,術(shù)語是科技產(chǎn)品和創(chuàng)新思維在語言中的結(jié)晶。本文分析了EcoLexicon的功能和應(yīng)用,總結(jié)出對術(shù)語知識庫建設(shè)的啟示。在知識經(jīng)濟體系中,術(shù)語知識庫已納入國家發(fā)展戰(zhàn)略,許多國家和地區(qū)都把術(shù)語知識系統(tǒng)作為基礎(chǔ)設(shè)施加以建設(shè),高度重視術(shù)語學和知識工程學等相關(guān)研究。EcoLexicon使知識在人機之間共享,進而實現(xiàn)個體知識與群體知識共享,滿足知識服務(wù)體系建設(shè)深層次需求,服務(wù)知識創(chuàng)新工程體系建設(shè)。從術(shù)語知識庫構(gòu)建方式看,國內(nèi)仍存在構(gòu)建效率低、實例和屬性規(guī)模小、難以應(yīng)對大數(shù)據(jù)時代領(lǐng)域知識快速增長等問題。為提升建設(shè)水平,可以參照EcoLexicon經(jīng)驗,提高領(lǐng)域知識的獲取效率,展現(xiàn)多語言、領(lǐng)域性、可視化、互操作性等特點,不斷完善,打造系統(tǒng)化、智能化的術(shù)語和知識服務(wù)平臺。
注釋
① 在知識表示、面向?qū)ο蟪绦蛟O(shè)計與面向?qū)ο笤O(shè)計的領(lǐng)域,Is A(英語:subsumption,包含架構(gòu))是類的父子繼承關(guān)系,如類D是另一個類B的子類(類B是類D的父類)。
② SPARQL是Simple Protocol and RDF Query Language的縮寫,為資源描述框架(Resource Description Framework,RDF)開發(fā)的一種查詢語言和數(shù)據(jù)獲取協(xié)議。
③ DBpedia,一個特殊的語義網(wǎng)應(yīng)用范例,從維基百科的詞條里擷取出結(jié)構(gòu)化資料,強化搜尋功能,并將其他資料鏈接至維基百科。
④ 沃爾夫勒姆公司開發(fā)的新一代搜索引擎,能根據(jù)用戶所提問題直接給出答案。
參考文獻
[1] 陳雪.認知術(shù)語學概論[M]. 北京:商務(wù)印書館,2017.
[2] 宋培彥,王星,李俊莉.術(shù)語知識庫的構(gòu)建與服務(wù)研究[J].情報理論與實踐,2014(11):110-113.
[3] 魏向清.中國特色話語對外傳播與術(shù)語翻譯標準化[J].中國翻譯,2019(1):91-97.
[4] 李雙燕,苗菊.面向技術(shù)文檔翻譯的雙語術(shù)語知識庫建設(shè)研究[J].中國科技術(shù)語,2021 (1):43-52.
[5] 王裴巖,張桂平,蔡東風. 航空術(shù)語語義知識庫ATHowNet的構(gòu)建[J].中國科技術(shù)語,2021 (3):26-32.
[6] MARTN A S, CABEZAS-GARCA M, CASTRO M B,et al. Recent advances in EcoLexicon[J]. Dictionaries, Journal of the Dictionary Society of North America,2017,38(1): 96-115.
[7] FABER P, CABEZAS-GARCA M. Specialized knowledge representation: from terms to frames [J]. Research in Language,2019,17(2): 197-211.
[8] FABER P. A Cognitive Linguistics View of Terminology and Specialized Language [M]. Amsterdam: John Benjamins Publishing Company, 2012.
[9] FABER P, LEN-ARAZ P, REIMERINK A. EcoLexicon: New Features and Challenges[C]// KERNERMAN I, et al. GLOBALEX 2016: Lexicographic Resources for Human Language Technology in conjunction with the 10th edition of the Language Resources and Evaluation Conference, Portoro, Slovenia,2016:73-80.
[10] 張國君,吳曉燕,丁國瑞. 建立多語種軍事術(shù)語數(shù)據(jù)庫系統(tǒng)的基本構(gòu)想[J].中國科技術(shù)語,2013 (5):9-13.
[11] 徐錦芬,潘晨茜.多語言意識下的中國特色外語教育規(guī)劃[J].外語教學,2021(2):49-54.
[12] 顧春輝,溫昌斌. 聯(lián)合國術(shù)語庫建設(shè)及其對中國術(shù)語庫建設(shè)的啟示[J].中國科技術(shù)語,2017 (3):5-9,34.
[13] FABER P, LENARAZ P. Frame-based terminology applied to military science: transforming a glossary into a knowledge resource[J].Lexicography, 2019(6): 105-131.
[14] 張曉娟,張夢田. 西方國家政府信息資源互操作性標準體系研究[J].情報資料工作,2015(3): 42-48.
[15] LEN-ARAZ P, REIMERINK A, FABER P. EcoLexicon and by-products: integrating and reusing terminological resources[J].Terminology, 2019,25(2): 222-258.
作者簡介:鄭丹丹(1997—),女,南京航空航天大學外國語學院2020級碩士研究生,專業(yè)為英語筆譯,曾在《中國ESP研究》上發(fā)表論文。通信方式:zheng_dd@126.com。
張夢宇(1997—),女,南京航空航天大學外國語學院2019級碩士研究生,專業(yè)為英語筆譯,曾在《中國科技術(shù)語》《英語世界》等刊物上發(fā)表譯文。通信方式:826354842@qq.com。
朱波(1971—),男,南京航空航天大學外國語學院教授,主要從事翻譯和專門用途語言教學與研究,主持完成省部級項目4項,在《應(yīng)用語言學通訊》(CLAC)、《中國翻譯》等期刊上發(fā)表論文30余篇,出版教材3部、譯著4部,指導(dǎo)團隊成員以第一作者/譯者在國內(nèi)外期刊上發(fā)表成果10余項。通信方式:zhu_bo@126.com。