【摘要】文章探討了國(guó)內(nèi)外機(jī)輔詞典編纂系統(tǒng)的研究現(xiàn)狀以及各系統(tǒng)的構(gòu)架,并圍繞學(xué)習(xí)詞典編寫體例描述詞典數(shù)據(jù)庫(kù)的結(jié)構(gòu)及詞典語(yǔ)法體系,介紹機(jī)輔詞典編纂系統(tǒng)的用戶界面及反饋回顯等人機(jī)交互方法如何貫穿于詞典編纂的整個(gè)過(guò)程,最后給出了系統(tǒng)的改進(jìn)方向。
【關(guān)鍵詞】學(xué)習(xí)詞典;機(jī)輔詞編系統(tǒng);詞典語(yǔ)法;用戶界面;反饋
【中圖分類號(hào)】G40-057 【文獻(xiàn)標(biāo)識(shí)碼】B 【論文編號(hào)】1009—8097 (2008) 08—0063—05
一 引言
英語(yǔ)學(xué)習(xí)詞典從20世紀(jì)30年代誕生到如今,經(jīng)歷了從手工編撰到計(jì)算機(jī)輔助編纂兩個(gè)階段。自80年代以來(lái)計(jì)算機(jī)和語(yǔ)料庫(kù)的使用發(fā)揮著越來(lái)越重要的作用[1]。當(dāng)前英美各種主流英語(yǔ)學(xué)習(xí)詞典無(wú)一不是靠計(jì)算機(jī)輔助(簡(jiǎn)稱“機(jī)輔”)編寫的。我國(guó)機(jī)輔詞典編纂(簡(jiǎn)稱“機(jī)輔詞編”)系統(tǒng)相對(duì)發(fā)展較為滯后。最近,在參考國(guó)際相關(guān)系統(tǒng)基礎(chǔ)上,結(jié)合具體詞典項(xiàng)目,我們?yōu)橐徊啃滦陀h學(xué)習(xí)詞典開(kāi)發(fā)了一套完善的機(jī)輔詞編系統(tǒng)。系統(tǒng)設(shè)計(jì)原則參考另文[2]。本文主要介紹該機(jī)輔詞編系統(tǒng)的設(shè)計(jì)實(shí)現(xiàn)。全文組織如下:首先介紹國(guó)內(nèi)外機(jī)輔詞編系統(tǒng)的現(xiàn)狀,然后闡述新一代學(xué)習(xí)詞典的設(shè)計(jì)理念及其對(duì)機(jī)輔詞編系統(tǒng)的要求,接著圍繞詞典體例描述詞典數(shù)據(jù)庫(kù)結(jié)構(gòu)及詞典語(yǔ)法,介紹用戶界面及反饋回顯等人機(jī)交互方法如何貫穿詞典編寫整個(gè)過(guò)程,最后給出該系統(tǒng)的發(fā)展方向。
二 國(guó)內(nèi)外現(xiàn)狀
計(jì)算機(jī)用于大型詞典編纂能夠提高詞典編寫效率與質(zhì)量,減少詞典面世時(shí)間,縮短詞典再版周期已成為業(yè)界共識(shí)。為此,許多商業(yè)公司和學(xué)術(shù)團(tuán)體參與研制開(kāi)發(fā)此類系統(tǒng)。如法國(guó)多媒體傳播工程公司(Ingénierie Diffusion Multimédia)開(kāi)發(fā)的詞典產(chǎn)生系統(tǒng)[3];美國(guó)國(guó)際語(yǔ)言學(xué)暑期研究所(SIL International)為語(yǔ)言田野調(diào)查服務(wù)的詞庫(kù)管理工具Lexique Pro;捷克Masaryk大學(xué)研制的詞典編寫和瀏覽器DEB [4];南非TshwaneDJe公司出品的詞典編輯系統(tǒng)TshwaneLex[5];法日發(fā)起的開(kāi)源多語(yǔ)詞庫(kù)管理項(xiàng)目彩蝶Papillon[6] 等。中國(guó)也有一些單位嘗試?yán)糜?jì)算機(jī)實(shí)現(xiàn)詞典自動(dòng)生成或輔助編寫工作[7]。
總的來(lái)看,計(jì)算機(jī)在詞典編纂中的應(yīng)用目前多數(shù)集中在對(duì)語(yǔ)料庫(kù)的例句檢索以及詞條的編寫和維護(hù)。前者通過(guò)建立語(yǔ)料庫(kù)和詞典編纂的接口[8],使詞典數(shù)據(jù)內(nèi)容真實(shí)可信;后者多建立客戶機(jī)/服務(wù)器模式,完成詞典數(shù)據(jù)的采集整理。一般是在后臺(tái)利用關(guān)系型數(shù)據(jù)庫(kù)或XML形式存儲(chǔ)詞典數(shù)據(jù),前端界面接受用戶的輸入的詞條信息內(nèi)容。
當(dāng)前主流機(jī)輔詞編系統(tǒng)的設(shè)計(jì)特點(diǎn)可以概括為:(1)信息輸入借由良好的用戶人機(jī)接口環(huán)境實(shí)現(xiàn);(2)海量數(shù)據(jù)的存儲(chǔ)管理由后臺(tái)數(shù)據(jù)庫(kù)承擔(dān);(3)編寫過(guò)程中不同程度地利用語(yǔ)料庫(kù)作為支撐。但應(yīng)該看到,學(xué)術(shù)團(tuán)體圍繞某一具體項(xiàng)目研制的系統(tǒng)常受制于詞典的具體設(shè)計(jì),難以推廣;商業(yè)系統(tǒng)則常把詞典維護(hù)管理當(dāng)作典型的信息管理系統(tǒng)開(kāi)發(fā),缺乏詞典學(xué)指導(dǎo),費(fèi)用也比較昂貴。同時(shí)由于國(guó)際國(guó)內(nèi)計(jì)算機(jī)、網(wǎng)絡(luò)使用情況不一,難以直接使用。
在沒(méi)有一定規(guī)??捎玫暮线m語(yǔ)料和較好的自然語(yǔ)言處理方法之前,在實(shí)際詞典的編纂中追求計(jì)算機(jī)的自動(dòng)生成無(wú)疑不太現(xiàn)實(shí)。為此,我們把目標(biāo)限制在計(jì)算機(jī)輔詞編系統(tǒng)上,即充分利用計(jì)算機(jī)的存儲(chǔ)和檢索功能,使編寫人員集中精力在提升詞典語(yǔ)言質(zhì)量上,無(wú)需在編寫過(guò)程中陷入內(nèi)容和形式的照應(yīng)困境,顧此失彼。
三 知識(shí)庫(kù)設(shè)計(jì)
機(jī)輔詞編系統(tǒng)服務(wù)于詞典編纂這一終極目的。詞典自身的規(guī)劃設(shè)計(jì)決定系統(tǒng)應(yīng)用的成敗。在本項(xiàng)目中我們的定位是一部適用于中國(guó)英語(yǔ)學(xué)習(xí)者的高階學(xué)習(xí)詞典。與市面上現(xiàn)有大多數(shù)英漢雙語(yǔ)詞典的不同在于,它切合學(xué)生英語(yǔ)學(xué)習(xí)實(shí)際,對(duì)詞條的釋義嚴(yán)格采用對(duì)應(yīng)詞形式,注重搭配,增設(shè)了多個(gè)有針對(duì)性的學(xué)習(xí)欄目。
1 詞典編寫體例
一部好的詞典在編寫之初,就應(yīng)該規(guī)劃好詞典的設(shè)計(jì)原則。這涉及到詞典編寫體例上的安排。詞典編寫體例包含詞典要記錄的信息內(nèi)容和形式。其中,內(nèi)容包括要描寫清楚一個(gè)詞條需要用到哪方面的信息;形式指特定信息描述項(xiàng)應(yīng)以何種樣式(包括描述項(xiàng)的排列順序及不同描述項(xiàng)的形式上的區(qū)別)呈現(xiàn)。
詞典主要描述結(jié)構(gòu)表示如下:
詞典::=詞條*
詞條::=(主詞條|次詞條)*
我們規(guī)劃中的學(xué)習(xí)詞典有將近10萬(wàn)個(gè)詞條。詞條又可分為主詞條(作為詞目詞單設(shè))和依附于主詞條的次詞條(不單獨(dú)立目)。一個(gè)典型詞條的完整框架包括詞目詞、注音、構(gòu)詞、不規(guī)則形式、詞類標(biāo)識(shí)、語(yǔ)法標(biāo)識(shí)、語(yǔ)用標(biāo)識(shí)、詞頻標(biāo)記、釋義、例證及特色欄目等。其中,對(duì)主詞條而言,詞目詞、注音、詞類標(biāo)識(shí)、語(yǔ)法標(biāo)識(shí)、釋義等是常見(jiàn)的信息必有項(xiàng)(obligatory information item),此外還可能包含不規(guī)則變化形式、構(gòu)詞、詞頻標(biāo)記、例證、插圖、短語(yǔ)、習(xí)語(yǔ)、短語(yǔ)謂詞、派生詞等內(nèi)容以及辨析、注意、文化、搭配等信息可選項(xiàng)(optional information item)。短語(yǔ)、習(xí)語(yǔ)、短語(yǔ)動(dòng)詞、派生詞等常以次詞條形式附屬于主詞條之下,但描寫框架類似主詞條,也包含有釋義及例證等必有或可選內(nèi)容。
雖然根據(jù)詞典屬性,我們區(qū)分了信息描述項(xiàng)的必有和可選性,出于錄入數(shù)據(jù)的完整性和簡(jiǎn)化操作界面的考慮,我們從滿足最復(fù)雜詞條信息項(xiàng)的描寫要求出發(fā),將所有描述信息項(xiàng)設(shè)計(jì)成一個(gè)模板(template),允許其中某些可選項(xiàng)的取值為空。一旦實(shí)際出現(xiàn)某些信息項(xiàng),則對(duì)這些信息項(xiàng)的排列將嚴(yán)格遵循描寫順序,按照編輯體例中的呈現(xiàn)形式表現(xiàn)出來(lái)。
2 數(shù)據(jù)庫(kù)結(jié)構(gòu)設(shè)計(jì)
根據(jù)詞典編輯體例,結(jié)合計(jì)算機(jī)實(shí)現(xiàn)技術(shù),我們采用比較成熟的關(guān)系型數(shù)據(jù)庫(kù)存儲(chǔ)詞典數(shù)據(jù)。數(shù)據(jù)庫(kù)中每一張表(table)對(duì)應(yīng)于一部詞典;每條記錄(record)對(duì)應(yīng)于詞典中的每個(gè)詞條。每個(gè)字段(field)對(duì)應(yīng)于每個(gè)詞條應(yīng)包含的信息描述項(xiàng)。由于不同詞條的描述詳盡程度不一,設(shè)計(jì)字段時(shí),應(yīng)充分考慮每個(gè)字段的性質(zhì)和實(shí)際容量,以期完整保留詞典數(shù)據(jù)。
在本項(xiàng)目中,根據(jù)詞典編寫體例規(guī)范,設(shè)置基本數(shù)據(jù)庫(kù)結(jié)構(gòu)如下:
字段“序號(hào)”采用自動(dòng)編號(hào),在將用戶鍵入的信息內(nèi)容入庫(kù)時(shí)由機(jī)器動(dòng)態(tài)生成。每個(gè)詞條具有唯一的確認(rèn)標(biāo)識(shí)。該序號(hào)用來(lái)甄別詞形相同,但卻分屬不同詞目詞的同形異義詞。如設(shè)有詞形相同的兩個(gè)詞條:A1(表示數(shù)量的determiner)和A2(表示安培的noun),因其生成序號(hào)不同,憑此標(biāo)識(shí)可以區(qū)分為兩個(gè)不同的同形詞。
大多數(shù)字段如“詞目”“音標(biāo)”“不規(guī)則形式”“其他拼寫形式”“構(gòu)詞”等描述長(zhǎng)度有限,可用文本型字段存儲(chǔ)。由于學(xué)習(xí)詞典的性質(zhì),對(duì)某些詞語(yǔ)可能會(huì)根據(jù)中國(guó)學(xué)生學(xué)習(xí)英語(yǔ)過(guò)程中的常犯的錯(cuò)誤,補(bǔ)充追加額外信息,像詞語(yǔ)辨析、使用時(shí)應(yīng)注意的問(wèn)題、特定的文化知識(shí)背景與圖片及固定搭配等。這些信息并不是每個(gè)詞條都有,描述長(zhǎng)度也不確定。我們把它們都各自單獨(dú)存為一個(gè)文件。數(shù)據(jù)庫(kù)中存儲(chǔ)的是相應(yīng)文件名,而非數(shù)據(jù)內(nèi)容本身。這些情況出現(xiàn)在數(shù)據(jù)庫(kù)的“辨析”“注意”“文化”“插圖”“搭配”等字段。生成詞典時(shí)再根據(jù)這些文件名獲取數(shù)據(jù)內(nèi)容,與其他字段的文本共同構(gòu)成完整的詞典。因此這些字段也設(shè)計(jì)成文本數(shù)據(jù),以節(jié)省空間。
文本型字段的取值,根據(jù)它是否與其他字段的取值存在依賴關(guān)系,分為獨(dú)立取值數(shù)據(jù)和非獨(dú)立取值數(shù)據(jù)兩類:
(1) 獨(dú)立取值數(shù)據(jù)
大部分字段具有獨(dú)立取值特性,如任何詞目詞都可能存在不依賴其他字段的“詞類”及“音標(biāo)”屬性,即這些字段具有自足性。
(2) 非獨(dú)立取值數(shù)據(jù)
有些字段的取值依賴于其他字段的取值。譬如“語(yǔ)法標(biāo)識(shí)”“不規(guī)則形式”的取值依賴于“詞類標(biāo)識(shí)”的取值,像只有名詞才有“可數(shù)”“不可數(shù)”的區(qū)別,也只有可數(shù)名詞才會(huì)有復(fù)數(shù)的不規(guī)則變化形式。
針對(duì)文本型數(shù)據(jù),還可以根據(jù)其數(shù)據(jù)取值是否封閉,分為固定取值和非固定取值兩類:
(1) 固定取值數(shù)據(jù)
“詞類標(biāo)識(shí)”“語(yǔ)域標(biāo)識(shí)”“地域標(biāo)識(shí)”“語(yǔ)法標(biāo)識(shí)”“學(xué)科標(biāo)識(shí)”及“詞頻標(biāo)記”的取值是由編輯體例設(shè)置的有限封閉集中的具體某個(gè)元素或某幾個(gè)元素的組合而成,像詞類標(biāo)識(shí)的取值只能在由11大詞類、4個(gè)次類謂詞、2個(gè)詞綴和1個(gè)符號(hào)構(gòu)成的18種標(biāo)記中選擇。
(2) 非固定取值數(shù)據(jù)
有些字段取值是開(kāi)放的,如“詞目詞”“不規(guī)則形式”等字段沒(méi)有固定取值,不同詞語(yǔ)有不同的拼寫形式,形態(tài)變化也不相同,需要編寫人員錄入相關(guān)數(shù)據(jù)。
字段“義項(xiàng)”相對(duì)比較復(fù)雜。譬如每個(gè)詞語(yǔ)的義項(xiàng)個(gè)數(shù)不一;釋義和例證的數(shù)量和長(zhǎng)度也不能一刀切;有時(shí)還可能插入一些該義項(xiàng)特有的語(yǔ)法語(yǔ)義信息等。數(shù)據(jù)庫(kù)文本型字段的容量有限,難以承載,因此需要引入備注型(memo)字段。
字段“義項(xiàng)”的復(fù)雜性還在于詞典數(shù)據(jù)庫(kù)以詞條作為記錄。詞條排列以主詞目詞為起頭詞,某一詞條下可能還有其他依附的次詞條,如從主詞目詞衍生的派生詞、短語(yǔ)等。這些次詞條具有與主詞條類似的信息描寫框架,如詞性、釋義等,這樣就形成詞條描寫中的嵌套關(guān)系。一個(gè)詞條屬下有多少個(gè)次詞條,編寫之前并沒(méi)有一個(gè)準(zhǔn)確的數(shù)字,因此義項(xiàng)字段長(zhǎng)度仍然不能事先確定,這也促使我們選擇相對(duì)具有彈性的備注型字段作為容器?!傲x項(xiàng)”字段實(shí)際包容詞條描寫的其他字段信息。由于各類異質(zhì)信息都集中在一個(gè)字段中,后期詞典加工還需要引入詞典語(yǔ)法(dictionary grammar)來(lái)處理。
3 詞典語(yǔ)法
在成品詞典的版式中,詞條的不同信息項(xiàng)有相對(duì)固定的編排順序和各自的格式安排。設(shè)計(jì)數(shù)據(jù)庫(kù)結(jié)構(gòu)時(shí),應(yīng)該盡可能將需要區(qū)分的信息項(xiàng)由不同字段來(lái)描述,如從詞目詞字段取出的文本統(tǒng)一用Arial in Bold字體顯示,詞類標(biāo)識(shí)用Italic字形體現(xiàn)。針對(duì)復(fù)雜的義項(xiàng)等復(fù)雜信息,格式化顯示時(shí),對(duì)這類信息加以特別解釋。
依據(jù)詞典微觀結(jié)構(gòu),我們構(gòu)造了一個(gè)適應(yīng)本項(xiàng)目的詞典語(yǔ)法。詞典語(yǔ)法的作用主要有兩類:其一是實(shí)現(xiàn)區(qū)分詞條信息描述項(xiàng)的通用解釋方法;其二是為強(qiáng)調(diào)信息描述項(xiàng)內(nèi)某些文本提供特定的處理方法。
通用解釋方法主要解決義項(xiàng)中的信息描述項(xiàng)的嵌套使用。根據(jù)編寫體例,一條詞語(yǔ)如果有多個(gè)詞類,那么以該詞形作為主詞目詞;其他不同詞類及其相應(yīng)的描寫項(xiàng)不獨(dú)立立目,但在形式上單列一行,并加“—”以示凸顯。如果是某一詞語(yǔ)的派生詞及短語(yǔ)搭配則需另立次詞條,并在形式上縮進(jìn),以示與主詞條的區(qū)別,其他信息描述項(xiàng)與主詞條相同。數(shù)據(jù)庫(kù)存儲(chǔ)時(shí)在“義項(xiàng)”字段的描述信息中添加“-”“+”等標(biāo)識(shí)信息,表明該標(biāo)識(shí)之后的文本應(yīng)采用哪種顯示格式。
在“義項(xiàng)”字段中嵌套描述的信息項(xiàng)內(nèi)部不再有字段的顯性區(qū)分,我們?cè)O(shè)計(jì)了一套原有字段特定的形式標(biāo)記。在對(duì)詞典信息內(nèi)容形式化輸出時(shí),根據(jù)輔助格式標(biāo)記,取出各自的信息描述項(xiàng),按照編輯體例的要求統(tǒng)一進(jìn)行格式化輸出。
信息描述項(xiàng)特定內(nèi)容的凸顯針對(duì)某些需要強(qiáng)調(diào)的文本內(nèi)容,通過(guò)插入類XML標(biāo)識(shí)實(shí)現(xiàn)。如學(xué)習(xí)詞典安排有大量例證,其中有典型意義的固定搭配常常淹沒(méi)在大量文本中,不容易找到,特別是在信息量大、印張有限的印刷本中。系統(tǒng)支持由等類XML形式標(biāo)出的特定格式信息,并根據(jù)這些標(biāo)識(shí)信息輸出帶有特定格式的文本。
四 人機(jī)交互實(shí)現(xiàn)
由于本項(xiàng)目英漢學(xué)習(xí)詞典的定位,不僅需要描寫詞語(yǔ)的讀音、拼寫形式及意義,對(duì)某一詞語(yǔ)如何使用、與其它詞語(yǔ)的辨析等語(yǔ)言應(yīng)用方面的知識(shí)內(nèi)容也應(yīng)該盡可能詳細(xì)地列出。這使得本部詞典中每個(gè)詞條的描寫信息項(xiàng)遠(yuǎn)比普通雙語(yǔ)詞典要多得多,對(duì)這些描寫項(xiàng)的格式要求也復(fù)雜得多。
對(duì)于一部好的詞典來(lái)說(shuō),語(yǔ)言質(zhì)量是其生命。我們不能指望編者在專注于提升詞條語(yǔ)言質(zhì)量的同時(shí)還能記住各種復(fù)雜的體例格式和繁瑣的排版指令。為此,有必要設(shè)計(jì)一個(gè)良好的人機(jī)交互界面,使得編者從內(nèi)容和形式兼顧造成效率低下并且容易出錯(cuò)的困境中解放出來(lái)。詞典界面如圖1所示。
1 用戶界面設(shè)計(jì)
在Windows環(huán)境下,利用C#制作出前端用戶界面,編者只需通過(guò)程序依據(jù)編輯體例提供的各種輸入框中鍵入相關(guān)信息內(nèi)容,系統(tǒng)在后臺(tái)自動(dòng)記錄用戶輸入的信息內(nèi)容并將其保存到數(shù)據(jù)庫(kù)特定表的特定記錄中。
系統(tǒng)工作界面主要可分為數(shù)據(jù)瀏覽區(qū)、詞條編輯區(qū)和反饋顯示區(qū)三部分。數(shù)據(jù)瀏覽區(qū)提供對(duì)數(shù)據(jù)庫(kù)記錄(對(duì)應(yīng)于詞典中的詞條)的基本增刪改操作,實(shí)現(xiàn)對(duì)指定檢索條件下的特定類(如詞類、詞語(yǔ)起始字母)等的詞條檢索以及詞條在數(shù)據(jù)庫(kù)庫(kù)首、庫(kù)尾及向前、向后的位置定位。詞條編輯區(qū)針對(duì)當(dāng)前處于活動(dòng)狀態(tài)的詞條可以進(jìn)行任一字段的信息編輯,包括各信息描述項(xiàng)的增、刪、改操作以及同一類型多個(gè)信息內(nèi)容塊的順序調(diào)整(如義項(xiàng)或例證的調(diào)序);反饋顯示區(qū)用來(lái)顯示活動(dòng)狀態(tài)的詞條依據(jù)詞典編輯體例的格式化信息內(nèi)容。
詞典項(xiàng)目的日常工作主要是在詞條編輯區(qū)完成。系統(tǒng)根據(jù)數(shù)據(jù)庫(kù)結(jié)構(gòu)定義的字段,以列表框(combobox)形式呈現(xiàn)具有固定取值的字段內(nèi)容,如詞類標(biāo)識(shí)、詞頻標(biāo)記等,用戶可以直接選取框中預(yù)定義的屬性值,防止鍵入其他不規(guī)范內(nèi)容,造成體例的混亂;以輸入文本框(textbox)接受其他開(kāi)放性字段內(nèi)容。系統(tǒng)根據(jù)當(dāng)前編輯的主字段取值,動(dòng)態(tài)呈現(xiàn)依附字段的輸入框。嵌套描述的信息描述項(xiàng)采用通用模板呈現(xiàn)。根據(jù)用戶在特定輸入框中的鍵入信息,將其保存到相應(yīng)數(shù)據(jù)庫(kù)記錄字段,或根據(jù)編輯體例和詞典語(yǔ)法,添加各類輔助區(qū)別信息添加到義項(xiàng)字段,從而實(shí)現(xiàn)詞典編寫過(guò)程的詞條信息入庫(kù)。
本項(xiàng)目一大特色是采用對(duì)譯詞釋義,幫助學(xué)生準(zhǔn)確掌握詞語(yǔ)的確切意義。為方便編者快速選定釋義,系統(tǒng)嵌入了英漢對(duì)譯詞檢索器[9],可以通過(guò)菜單調(diào)用。同時(shí)還配備有從多個(gè)語(yǔ)料和詞典資源中篩選的經(jīng)典例句庫(kù)檢索,使得機(jī)輔詞編系統(tǒng)不僅具有規(guī)范編寫格式的功能,同時(shí)還能切實(shí)提高詞典的語(yǔ)言質(zhì)量,從形式和內(nèi)容兩個(gè)方面為詞典項(xiàng)目服務(wù)。系統(tǒng)同時(shí)結(jié)合自然語(yǔ)言處理技術(shù),利用淺層句法分析,結(jié)合統(tǒng)計(jì)方法,實(shí)現(xiàn)了英語(yǔ)詞語(yǔ)搭配的輔助發(fā)現(xiàn),并將其運(yùn)用到詞典編纂中,使得學(xué)習(xí)詞典同時(shí)具有搭配詞典的特點(diǎn),更方便學(xué)習(xí)者學(xué)到地道純粹的英語(yǔ)。相關(guān)實(shí)現(xiàn)處理方法,另文撰述。
詞典數(shù)據(jù)涉及到知識(shí)產(chǎn)權(quán)的保護(hù)。詞典項(xiàng)目的完成是一個(gè)需要多人協(xié)作、費(fèi)時(shí)經(jīng)年的過(guò)程。其中涉及到不同角色工作人員之間的數(shù)據(jù)交換,通過(guò)設(shè)置登錄口令,賦予不同權(quán)限,使得系統(tǒng)能夠在主編領(lǐng)導(dǎo)下實(shí)現(xiàn)信息資源的共享,同時(shí)杜絕詞典數(shù)據(jù)的篡改或外泄。
2 信息反饋
詞典編寫是一個(gè)實(shí)時(shí)糾偏的過(guò)程,編者對(duì)于所編寫詞條應(yīng)該了然于胸。為使編寫人員能夠隨時(shí)自我檢查詞條的編輯質(zhì)量,系統(tǒng)利用RichEdit控件,依據(jù)詞典語(yǔ)法實(shí)現(xiàn)了一個(gè)讀取數(shù)據(jù)庫(kù)內(nèi)容并動(dòng)態(tài)顯示當(dāng)前詞條的反饋界面。其實(shí)質(zhì)是建立一個(gè)良好的人機(jī)交互環(huán)境。
由于系統(tǒng)在接受用戶詞條編寫時(shí),考慮到描述信息的完整性,采用了完全模板形式。為防止用戶在對(duì)詞典編寫體例理解不透的情況下,這種設(shè)計(jì)有可能導(dǎo)致用戶誤輸入錯(cuò)誤信息,因此在每完成一個(gè)詞條編寫的同時(shí),系統(tǒng)將在反饋顯示區(qū)展現(xiàn)當(dāng)前詞條在最終詞典中的版面形式。編者可以直觀地發(fā)現(xiàn)可能存在的錯(cuò)誤,并回到數(shù)據(jù)編輯區(qū)有針對(duì)性地在有錯(cuò)誤的操作區(qū)重新編寫該詞條。
信息反饋使詞典數(shù)據(jù)內(nèi)容與表現(xiàn)形式有機(jī)統(tǒng)一起來(lái)。應(yīng)該指出的是,信息反饋的呈現(xiàn)頁(yè)面依據(jù)的是詞典語(yǔ)法。而詞典語(yǔ)法又是由編寫體例決定的。當(dāng)體例變遷時(shí),可以按照新體例動(dòng)態(tài)展現(xiàn)新的詞典格式。這樣就無(wú)需重新修正詞典描寫信息內(nèi)容,隨時(shí)輸出不同樣式的詞典排版頁(yè)面。
五 結(jié)語(yǔ)
本系統(tǒng)充分考慮到詞典編寫人員分散;聯(lián)機(jī)成本較高、在線時(shí)間難以保障;用戶計(jì)算機(jī)操作不夠熟練等各種因素,利用C#設(shè)計(jì)了一個(gè)友好的人機(jī)用戶界面,利用數(shù)據(jù)庫(kù)技術(shù)進(jìn)行有效的詞典管理,利用語(yǔ)料庫(kù)保障了詞條例證及搭配信息的準(zhǔn)確可靠性。同時(shí)詞典信息內(nèi)容的格式反饋也增強(qiáng)了系統(tǒng)的用戶友好性。從目前運(yùn)用情況來(lái)看,項(xiàng)目組成員正在緊張有序地利用這個(gè)工具開(kāi)展工作。我們?cè)诒卷?xiàng)目中實(shí)現(xiàn)的系統(tǒng)對(duì)于提升詞典編纂效率,實(shí)現(xiàn)詞典編輯過(guò)程的無(wú)紙化辦公及將來(lái)的詞典出版具有重要意義。
當(dāng)前機(jī)輔詞編系統(tǒng)還需要引入拼寫檢查,數(shù)據(jù)壓縮,并盡可能與專業(yè)排版軟件接軌,雖然當(dāng)前可以直接調(diào)用Word拼寫功能,但額外調(diào)用耗費(fèi)資源,我們計(jì)劃自主開(kāi)發(fā)或利用第三方資源完成。數(shù)據(jù)壓縮可以保存更多詞典數(shù)據(jù)并有效傳遞,這可以利用現(xiàn)有數(shù)據(jù)庫(kù)管理工具實(shí)現(xiàn)。當(dāng)前系統(tǒng)植根于微軟體系,對(duì)于輕量級(jí)排版系統(tǒng)可以勝任,但針對(duì)將來(lái)與現(xiàn)有主流排版系統(tǒng)的接軌,實(shí)現(xiàn)數(shù)據(jù)內(nèi)容直接印刷輸出,可以考慮采用文本的XML化,以尋求更好的數(shù)據(jù)交換接口。
參考文獻(xiàn)
[1] 陳國(guó)華,田兵.基于英漢對(duì)譯語(yǔ)料庫(kù)的《中國(guó)學(xué)生英語(yǔ)學(xué)習(xí)詞典》的研編[R].北京外國(guó)語(yǔ)大學(xué),2006.
[2] 陳國(guó)華,熊文新.英語(yǔ)學(xué)習(xí)詞典機(jī)輔編寫系統(tǒng)的設(shè)計(jì)原則與實(shí)現(xiàn)[J].外語(yǔ)電化教學(xué),2007,(5):3-7.
[3] McNamara,M. Dictionaries for all:XML to Final Product[A], XML Conference Exposition Powering the Information Society[C],2003.
[4] Pala,K.,A.Horak,M.Povolny,et al.DEB II - Platform for a Lexicographic Station[A].Computer Treatment of Slavic and East European Languages[C].Slovakia:Slovensky narodny korpus.2006.
[5] Joffe,D. G-M de Schryver.TshwaneLex:A State-of- the-Art Dictionary Compilation Program[A].Proceedings of the 7th EURALEX International Congress[C],2004.
[6] Boitet,C.,M. Mangeot-Lerebours,G.Sérasset.The PAPILLON project:cooperatively building a multilingual lexical data-base to derive open source dictionaries lexicons[A].Proceedings of the 2nd Workshop NLPXML [C],2002.
[7] 高景和. 英漢、漢英雙語(yǔ)詞典編纂出版的發(fā)展趨勢(shì)[J].大學(xué)出版,2002,(3):22-23.
[8] 陳國(guó)華,梁茂成,Adam Kilgarriff.語(yǔ)料庫(kù)和詞典編纂的接口[A],廣東外語(yǔ)外貿(mào)大學(xué)學(xué)報(bào)(增刊)(中國(guó)辭書學(xué)會(huì)雙語(yǔ)詞典專業(yè)委員會(huì)第6屆年會(huì)暨學(xué)術(shù)研討會(huì)論文專輯)[C], 2005,(16):116-120.
[9] 陳國(guó)華,王立欣,梁茂成等.英漢/漢英對(duì)譯語(yǔ)料庫(kù)對(duì)應(yīng)詞檢索器[J].外語(yǔ)電化教學(xué),2006,(6):11-16.