徐小棚 安小米 代曉明
(1.數(shù)據(jù)工程與知識工程教育部重點(diǎn)實(shí)驗(yàn)室,北京 100872 2.中國人民大學(xué)信息資源管理學(xué)院,北京 100872)
隨著術(shù)語學(xué)的發(fā)展和完善,各行業(yè)內(nèi)部的術(shù)語數(shù)量急劇增加,如何有效管理龐雜的術(shù)語條目成為術(shù)語學(xué)關(guān)注的議題之一。同時(shí),計(jì)算機(jī)技術(shù)的產(chǎn)生和發(fā)展,為術(shù)語的規(guī)范化管理提供了一種全新的方式,在這樣的條件下,術(shù)語數(shù)據(jù)庫應(yīng)運(yùn)而生。
世界上最早的術(shù)語數(shù)據(jù)庫是1963年建立的歐洲經(jīng)濟(jì)共同體委員會(huì)術(shù)語數(shù)據(jù)庫(EURODIOAUTOM),用于翻譯工作,可以在法語、德語、意大利語、英語等語言之間進(jìn)行術(shù)語互譯。
80年代初奧地利國際術(shù)語信息中心主任、國際標(biāo)準(zhǔn)化組織術(shù)語技術(shù)委員會(huì)秘書費(fèi)爾伯(H.Felber)教授和加拿大國家術(shù)語數(shù)據(jù)庫專家等來華,介紹了國際上建立術(shù)語庫的動(dòng)態(tài)和建庫經(jīng)驗(yàn),隨即國內(nèi)有關(guān)學(xué)者開始了調(diào)研和建立術(shù)語數(shù)據(jù)庫的工作。1989年以來,中國許多部委或所屬的研究單位陸續(xù)開始建立不同類型的術(shù)語數(shù)據(jù)庫[1]。在國際標(biāo)準(zhǔn)采標(biāo)的基礎(chǔ)上,中國發(fā)布了《GB/T 13725—2001建立術(shù)語數(shù)據(jù)庫的一般原則與方法》和《GB/T 15625—2001術(shù)語數(shù)據(jù)庫技術(shù)評價(jià)指南》。
但是當(dāng)前對術(shù)語庫的研究還沒有引起足夠的關(guān)注。筆者利用中國期刊全文數(shù)據(jù)庫,以術(shù)語庫為關(guān)鍵詞進(jìn)行標(biāo)題檢索,共命中文獻(xiàn)14篇,且逐年平均分布,變化趨勢不明顯。由此可見,目前學(xué)界鮮有對術(shù)語數(shù)據(jù)庫構(gòu)建的探討。進(jìn)一步研讀相關(guān)文獻(xiàn)發(fā)現(xiàn),在對術(shù)語庫進(jìn)行研究的文章中,其探討的主題主要集中在術(shù)語自動(dòng)抽取技術(shù)等對于數(shù)據(jù)來源方式的討論,而并未對術(shù)語庫構(gòu)建技術(shù)本身進(jìn)行探討。
通過研讀術(shù)語學(xué)相關(guān)書籍,發(fā)現(xiàn)其對于術(shù)語數(shù)據(jù)庫構(gòu)建技術(shù)的探討往往停留于理論層面,并且時(shí)間已較為久遠(yuǎn)。且與互聯(lián)網(wǎng)技術(shù)飛速發(fā)展相悖的是,2000年之后的書籍中已罕有與術(shù)語庫構(gòu)建相關(guān)的段落出現(xiàn)。
目前網(wǎng)絡(luò)上分布著一些術(shù)語庫,其中較為典型的有:ISO Concept Database,IATE,NORMATERM,GLOT-C和中國百科術(shù)語數(shù)據(jù)庫。其中ISO Concept Database是國際標(biāo)準(zhǔn)化組織為存儲(chǔ)其術(shù)語而建立的術(shù)語數(shù)據(jù)庫。IATE是用于歐盟機(jī)構(gòu)間的術(shù)語數(shù)據(jù)庫,從2004年至今,IATE一直在搜集、傳播、共享與歐盟管理相關(guān)的專業(yè)術(shù)語。NORMATERM是法國標(biāo)準(zhǔn)化協(xié)會(huì)(AFNOR)研制的標(biāo)準(zhǔn)術(shù)語數(shù)據(jù)庫,旨在控制和存取AFNOR日益增加的術(shù)語。中國百科術(shù)語數(shù)據(jù)庫是新聞出版總署的重點(diǎn)科研項(xiàng)目,以《中國大百科全書》為資源開發(fā)研制。
這些數(shù)據(jù)庫都以傳統(tǒng)的交互方式建立,數(shù)據(jù)來源權(quán)威準(zhǔn)確,用戶通過瀏覽器,可以完成對術(shù)語定義、上下位詞、同義詞等的檢索和查詢。同時(shí),數(shù)據(jù)庫后臺(tái)管理員能夠定期對數(shù)據(jù)庫內(nèi)容進(jìn)行維護(hù)與更新。
雖然,現(xiàn)有的網(wǎng)絡(luò)術(shù)語數(shù)據(jù)庫具有數(shù)據(jù)權(quán)威性高、操作和維護(hù)簡單等優(yōu)點(diǎn),但這種簡單的人機(jī)交互方式也帶來了一些問題,如:網(wǎng)站交互性不強(qiáng)、網(wǎng)站內(nèi)容無法實(shí)時(shí)更新、知識的再利用性不高等。
作為世界上最為權(quán)威的術(shù)語庫之一,ISO Concept Database創(chuàng)建于2009年10月,目前已更名為ISO Online Browsing Platform(以下簡稱為IOBP),提供更加簡潔的圖形界面供用戶使用。雖然術(shù)語庫構(gòu)建原則中,對術(shù)語類目有諸多要求,但I(xiàn)OBP卻采用了更加簡潔的辦法進(jìn)行處理——對于每一個(gè)術(shù)語條目都只設(shè)置了術(shù)語全稱、術(shù)語簡稱、術(shù)語描述、備注、術(shù)語來源五個(gè)類目。但其術(shù)語描述(description)類目卻包含了諸多功能,比如既能描述術(shù)語的內(nèi)涵和外延,也能根據(jù)需求加入公式、示例。
IOBP的強(qiáng)大來自于其豐富的資源,但作為傳統(tǒng)術(shù)語庫,其提供的功能依然非常有限,存在的問題主要有以下兩點(diǎn):
一是術(shù)語概念體系未能得到體現(xiàn)。一方面從術(shù)語的來源上看,ISO提供的術(shù)語大多只包含名稱、描述與術(shù)語來源三大部分,并未包含描述術(shù)語概念體系的類目;另一方面從術(shù)語庫的結(jié)構(gòu)來看,IOBP亦未提供描述術(shù)語概念體系的字段。
二是術(shù)語庫交互性與動(dòng)態(tài)性差。IOBP只允許用戶對數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)行檢索和查閱,而不允許用戶對已有數(shù)據(jù)進(jìn)行修改和標(biāo)注。術(shù)語類目結(jié)構(gòu)單一,不利于信息的索取,此外,對于同一詞語在同一來源中的演變,以及同一術(shù)語在不同來源中的聚類都無法很好地體現(xiàn)。
Web 2.0自2004年3月被明確提出以來,其所具有的以個(gè)人為中心的信息發(fā)布與獲取的主動(dòng)性、信息組織與管理的自組織性、信息利用與共享的低成本性等顯著特性,為信息的有效傳播和利用提供了一種新的可行方法[2]。
目前,互聯(lián)網(wǎng)上已經(jīng)出現(xiàn)了基于Web 2.0的Wiki網(wǎng)絡(luò)詞典,然而尚未有基于Web 2.0理念的專業(yè)術(shù)語網(wǎng)站出現(xiàn)。而Web 2.0的典型應(yīng)用帶來的動(dòng)態(tài)更新、互動(dòng)性強(qiáng)的優(yōu)勢,為術(shù)語庫的構(gòu)建與發(fā)展帶來了新的可能。
相較于 Web 1.0,Web 2.0 具有如下特征[3]:
(1)參與性——去中心化,互聯(lián)網(wǎng)成為平臺(tái)(參與體系),用戶作為開發(fā)者,在獲取更多信息的同時(shí),為用戶提供更高的參與性,為網(wǎng)站帶來更大的關(guān)注度。
(2)協(xié)同性——自組織協(xié)同創(chuàng)作,充分利用集體力量和智慧。該特性能夠?yàn)槿蚍秶鷥?nèi)術(shù)語的發(fā)展和沿襲提供一個(gè)方便快捷的平臺(tái),只要有互聯(lián)網(wǎng)介入,就能夠協(xié)同進(jìn)行術(shù)語的更新和修改。
(3)集成性——通過帶動(dòng)分散的、獨(dú)立的開發(fā)者把各個(gè)系統(tǒng)和網(wǎng)站匯集、聚合。由于進(jìn)入門檻低,界面友好,使用方便,Web 2.0能夠極佳地整合和匯集原有網(wǎng)站的信息,使其繼承性得到提升。
(4)平臺(tái)獨(dú)立性——不同應(yīng)用平臺(tái)具有通用的界面、服務(wù)和通信等開放應(yīng)用程序接口。這將會(huì)使網(wǎng)站的通用性得到極大的提升,方便使用軟件導(dǎo)出數(shù)據(jù)庫內(nèi)容并進(jìn)行分析。
術(shù)語數(shù)據(jù)庫按其功能區(qū)分,基本上有三種類型:一是面向翻譯的,能夠?qū)崿F(xiàn)雙語或多語對照;二是面向標(biāo)準(zhǔn)化的,術(shù)語庫里每條術(shù)語都經(jīng)過權(quán)威機(jī)構(gòu)審定和公布,術(shù)語具有單義性、科學(xué)性特點(diǎn);三是面向知識的,充分利用術(shù)語作為知識的節(jié)點(diǎn)和知識關(guān)聯(lián),向知識庫方向發(fā)展。
應(yīng)該說,面向知識的術(shù)語庫是術(shù)語庫發(fā)展的主要趨勢。而構(gòu)建這樣的大型多功能的術(shù)語庫僅靠一個(gè)部門或機(jī)構(gòu)的力量是很難完成的,需要廣大用戶和網(wǎng)民的參與。Web 2.0的上述主要特征正好契合了這一要求,同時(shí)大眾分類(也叫分眾分類)技術(shù)、Wiki技術(shù)為構(gòu)建面向知識的術(shù)語庫提供了技術(shù)應(yīng)用基礎(chǔ)。
通過文獻(xiàn)研究發(fā)現(xiàn),目前Web 2.0在術(shù)語庫領(lǐng)域的應(yīng)用依然很少,但是國外術(shù)語庫已經(jīng)就此進(jìn)行了一定嘗試。例如英國約克大學(xué)提供的考古數(shù)據(jù)服務(wù)(archeology data service)中,就對Web 2.0技術(shù)應(yīng)用進(jìn)行了一定嘗試,其做法是將不同的詞條用自定義關(guān)鍵詞進(jìn)行標(biāo)引,然后在主頁上對于搜索熱門關(guān)鍵詞進(jìn)行展示[4]。除此之外,基于Wiki的網(wǎng)絡(luò)百科全書的興起,也為術(shù)語庫的發(fā)展帶來一種新的思路。
針對上述的分析,課題組以構(gòu)建文件信息管理領(lǐng)域的術(shù)語庫為目標(biāo),應(yīng)用Wiki技術(shù)進(jìn)行設(shè)計(jì)。
在數(shù)據(jù)來源方面:由于術(shù)語的選取與認(rèn)定工作一般由專家來承擔(dān),專業(yè)性較高,且自動(dòng)抽取技術(shù)尚未有大規(guī)模應(yīng)用,因此,QuickMerger術(shù)語庫的主要術(shù)語來源依然是直接從標(biāo)準(zhǔn)文本中抽取,即抽取標(biāo)準(zhǔn)中的術(shù)語和定義章節(jié)的內(nèi)容。由于文件信息數(shù)據(jù)庫構(gòu)建的應(yīng)用對象主要為國際標(biāo)準(zhǔn)化組織信息與文獻(xiàn)委員會(huì)檔案與文件分技術(shù)委員會(huì)(ISO/TC46/SC11)的專家用于支持《ISO 30300:2011信息與文獻(xiàn)文件管理體系:基礎(chǔ)與術(shù)語》的研制工作,因此術(shù)語庫內(nèi)容以英文為主,術(shù)語資源來源于國外權(quán)威性組織的75個(gè)術(shù)語表或術(shù)語詞典。同時(shí),QuickMerger術(shù)語庫也為專家與大眾的參與保留了相應(yīng)接口。由于術(shù)語的發(fā)展是一個(gè)不斷演進(jìn)的過程,因此在系統(tǒng)設(shè)計(jì)時(shí),保留了用戶自行修改與添加術(shù)語的功能,以便讓QuickMerger變成一個(gè)術(shù)語聚合與再發(fā)掘的平臺(tái)。
在數(shù)據(jù)質(zhì)量控制方面:如前文所論述,如何進(jìn)行有效的質(zhì)量控制是使用Wiki技術(shù)進(jìn)行術(shù)語庫構(gòu)建所需解決的關(guān)鍵性問題,QuickMerger的設(shè)計(jì)方案從術(shù)語描述、權(quán)限控制兩個(gè)方面對術(shù)語庫進(jìn)行有效的質(zhì)量控制。
規(guī)范術(shù)語描述參照GB/T 13725—2001的需求,QuickMerger術(shù)語庫將描述術(shù)語的數(shù)據(jù)項(xiàng)分為術(shù)語描述、來源元素和術(shù)語管理事務(wù)三個(gè)元素集,如表1所示。由于數(shù)據(jù)庫中的術(shù)語主要來源于各標(biāo)準(zhǔn),大部分只包含名稱(全稱與簡稱)和描述兩部分,參照ISO Concept Database的解決方案,對于術(shù)語及其來源,均采用“名稱+描述”的方式加以定義。
QuickMerge中術(shù)語審定流程,主要依靠Wiki對用戶權(quán)限的控制來實(shí)現(xiàn)。首先,系統(tǒng)設(shè)置管理員、用戶和訪客三種不同身份。用戶可對數(shù)據(jù)庫有完全的瀏覽權(quán)限,且可對術(shù)語條目進(jìn)行修改和完善;管理員除了擁有用戶的權(quán)限外,還能添加和刪除用戶,確保用戶為可信群體;訪客僅擁有對數(shù)據(jù)庫有限的瀏覽權(quán)限。
表1 QuickMerger中的數(shù)據(jù)項(xiàng)
表2 QuickMerger中不同的用戶權(quán)限列表
在數(shù)據(jù)結(jié)構(gòu)控制方面:Wiki管理數(shù)據(jù)的方式為頁面,每個(gè)頁面都有一個(gè)用標(biāo)題和基本元數(shù)據(jù)標(biāo)識的條目,這樣的方式方便編輯與修改,卻不方便規(guī)范化的檢索與閱讀。在傳統(tǒng)Wiki的構(gòu)建中,為了規(guī)范Wiki頁面的數(shù)據(jù)結(jié)構(gòu),常常使用規(guī)范命名空間、頁面分類與命名以及使用自定義信息模板等方式。在QuickMerger中,使用了一種更為簡單的方式對頁面結(jié)構(gòu)進(jìn)行固化,稱為Half-Wiki。其實(shí)現(xiàn)方式是將Wiki頁面固化為傳統(tǒng)數(shù)據(jù)庫的“增刪改查”頁面,用戶不以頁面為單位對信息進(jìn)行編輯,而是以條目為單位,編輯條目中的每一個(gè)數(shù)據(jù)項(xiàng)。這樣的結(jié)構(gòu)能夠規(guī)避Wiki對頁面復(fù)雜的規(guī)則設(shè)定,簡化用戶的工作量,最大限度保證頁面的同一性,同時(shí)又能讓用戶參與到詞條的編輯修改過程中來。
QuickMerger以Media Wiki為基礎(chǔ),采用MySQL+PHP框架構(gòu)建,其系統(tǒng)體系結(jié)構(gòu)如圖1所示:
圖1 QuickMerger系統(tǒng)體系結(jié)構(gòu)圖
(1)瀏覽與搜索功能
如圖2所示,QuickMerger提供按術(shù)語表(Glossary)和詞典(Dictionary)瀏覽、搜索術(shù)語的功能。術(shù)語按照字母順序降序排列,可按照字母順序進(jìn)行查找,也可以在搜索框中直接點(diǎn)擊進(jìn)行搜索。
(2)編輯術(shù)語表功能
圖2 QuickMerger瀏覽與搜索界面截圖
點(diǎn)擊左側(cè)分欄中的Source glossaries右側(cè)的New即可創(chuàng)建新的術(shù)語表,需要填入術(shù)語表的名稱、簡寫及描述信息。完成之后點(diǎn)擊Create即可創(chuàng)建。
術(shù)語表創(chuàng)建完成后,點(diǎn)擊左側(cè)Imported by me可以查看由用戶自己創(chuàng)建的術(shù)語表,然后點(diǎn)擊Edit或者Delete即可進(jìn)行相應(yīng)的修改與刪除操作。
(3)編輯術(shù)語表中的術(shù)語功能
如圖3所示,點(diǎn)擊Add Terms按鈕即可進(jìn)行術(shù)語添加,添加完成后可進(jìn)行修改和刪除(Remove按鈕)等相應(yīng)操作,完成之后點(diǎn)擊Submit即保存本次操作。
(4)創(chuàng)建詞典功能
圖3 編輯術(shù)語界面截圖
QuickMerger最大的功能便是能將名稱相同且存在于不同術(shù)語表中的術(shù)語條目組合在一起。點(diǎn)擊屏幕左側(cè)Dictionaries右邊的New按鈕即可創(chuàng)建新詞典。
詞典創(chuàng)建完成之后,可使用Merge功能,將所選術(shù)語表下所有的術(shù)語進(jìn)行整合,如圖4所示。整合完成后,在詞典中搜索任意一條術(shù)語,將可顯示其在不同術(shù)語表中的描述信息。
與傳統(tǒng)術(shù)語庫相比較,QuickMerger具有4個(gè)方面的優(yōu)勢:
(1)有效的用戶權(quán)限控制。與傳統(tǒng)術(shù)語庫只看不動(dòng)、單向交流的模式不同,QuickMerger通過有效的用戶權(quán)限控制,讓更多用戶可以使用并參與到
圖4 QuickMerger Merge功能截圖
術(shù)語庫的編輯過程中,使得信息的流動(dòng)從單向變?yōu)殡p向,提升了網(wǎng)站整體的互動(dòng)性。同時(shí),通過有效的權(quán)限控制,讓除了用戶和管理員之外的人員都無法瀏覽術(shù)語資源,術(shù)語資源的訪問權(quán)限得到了限制,避免了可能帶來的版權(quán)糾紛,保護(hù)了術(shù)語庫這一知識成果。
(2)能夠?qū)崿F(xiàn)術(shù)語資源動(dòng)態(tài)更新
不同于傳統(tǒng)術(shù)語庫資源靜態(tài)不變的模式,在QuickMerger中,術(shù)語資源可以簡單快捷地得到更新,有利于緊跟術(shù)語的發(fā)展動(dòng)態(tài)。
(3)具有更大的自由度與升級空間
使用Wiki進(jìn)行術(shù)語庫開發(fā),在后續(xù)使用和維護(hù)中可以方便地添加與更改相應(yīng)的數(shù)據(jù)項(xiàng)、改變頁面結(jié)構(gòu)與顯示模式,有利于術(shù)語庫后續(xù)的開發(fā)與升級。
(4)具有更標(biāo)準(zhǔn)化的接口
使用主流MediaWiki進(jìn)行Wiki搭建,為Quick-Merger未來進(jìn)一步發(fā)展帶來了更多可能性,Media Wiki提供的標(biāo)準(zhǔn)化接口將有益于利用術(shù)語資源進(jìn)行有效的二次開發(fā)利用。
QuickMerger目前也存在一定局限,主要體現(xiàn)在兩個(gè)方面:
(1)跟蹤術(shù)語發(fā)展變化規(guī)律的方式有待改進(jìn)
在QuickMerger目前的設(shè)計(jì)中,并未設(shè)置跟蹤術(shù)語修改記錄的存儲(chǔ)單元,對術(shù)語條目的每一次編輯都將覆蓋上一次編輯的結(jié)果。因此,使用Quick-Merger跟蹤術(shù)語發(fā)展變化規(guī)律的方式還有待改進(jìn)。
(2)權(quán)限管理有待規(guī)范和完善
QuickMerger的權(quán)限管理的基礎(chǔ)是:所有的用戶都是經(jīng)過培訓(xùn)的專業(yè)人員,所有的術(shù)語資源都來自權(quán)威的標(biāo)準(zhǔn)。據(jù)此,QuickMerger并未設(shè)置內(nèi)容審核流程,權(quán)威術(shù)語資源之外的更多有價(jià)值的術(shù)語資源的參考有待完善。
本文對基于Web 2.0的術(shù)語庫構(gòu)建提出以下4點(diǎn)未來發(fā)展建議:
建議在描述術(shù)語表的著錄項(xiàng)中加入時(shí)間與版本信息,利用詞典功能將所有術(shù)語表組合在一起之后,將術(shù)語釋義按時(shí)間順序排列即可直觀展現(xiàn)術(shù)語演變規(guī)律。
借鑒維基百科的方針,依托Wiki權(quán)限控制功能,為術(shù)語庫建立術(shù)語提交與刪除審定流程。參照維基百科,術(shù)語庫應(yīng)設(shè)置系統(tǒng)管理員及術(shù)語仲裁委員會(huì),并建立相應(yīng)的術(shù)語收錄范圍,術(shù)語詞條可以由用戶自行修改和提交,但必須有嚴(yán)格的描述和出處,提交和刪除詞條的權(quán)力應(yīng)由術(shù)語仲裁委員會(huì)判定和賦予。
可以借鑒維基百科中對分類的展示方法,利用頁間鏈接來展現(xiàn)詞間上下位、同反義關(guān)系。研究發(fā)現(xiàn),現(xiàn)有術(shù)語資源對于詞間關(guān)系缺少描述,建議在結(jié)束維基術(shù)語提交審查后,可以召集專家(術(shù)語仲裁委員會(huì))手工添加詞間關(guān)系與分類等數(shù)據(jù)項(xiàng),更好體現(xiàn)詞間關(guān)系,讓術(shù)語庫的內(nèi)容更趨完善。
可以借鑒大眾分類在照片分享、網(wǎng)站收藏等網(wǎng)站中的成功應(yīng)用案例,開發(fā)為術(shù)語庫網(wǎng)頁加標(biāo)簽的功能。引入大眾分類機(jī)制不僅能極大提高用戶的參與性,也能極大改進(jìn)術(shù)語網(wǎng)站的交互體驗(yàn)。同時(shí),用戶可利用標(biāo)簽對術(shù)語對應(yīng)的通俗詞匯進(jìn)行標(biāo)注,更方便用戶找到所期望的術(shù)語。
[1]劉青.中國術(shù)語學(xué)研究與探索[M].北京:商務(wù)印書館,2010.
[2]朝樂門.Web 2.0在組織知識管理中的應(yīng)用研究[J].情報(bào)資料工作,2010(2):49-52.
[3]王偉軍,孫晶.Web 2.0的研究與應(yīng)用綜述[J].情報(bào)科學(xué),2007,25(12):1907-1913.
[4]王莉,梁冰,郝春云,等.基于Wiki技術(shù)的標(biāo)準(zhǔn)術(shù)語庫的設(shè)計(jì)與實(shí)現(xiàn)[J].數(shù)字圖書館論壇,2011(3):44-51.