文/王東海
在新中國成立后相當長一段時間里,辭書的編纂多被認為是專家層面的工作,一般由科研機構(如中國社科院語言研究所詞典室)、自由作者(包括合作模式與單人模式)完成編纂,出版社僅僅是在作者交稿后介入編輯、出版流程。各大出版社并不十分重視自編辭書。隨著辭書的社會效益和經濟效益的日益突顯,出版社逐漸開始轉換角色,由接受作者投稿出版辭書慢慢轉向自主策劃組織編纂辭書。如中國大百科全書出版社、漢語大詞典出版社(現(xiàn)已合并)本身就是為組織、編纂、出版大型工具書而成立,詞典編纂是其強項。湖北辭書出版社和四川辭書出版社承擔的核心工作也是《漢語大字典》的編纂、修訂,上海辭書出版社承擔《辭?!返木幾肱c修訂,這些都是詞典編纂任務集中明確的出版社。而商務印書館的漢語辭書、外研社的雙語辭書,也都有悠久的優(yōu)良傳統(tǒng),現(xiàn)在高等教育出版社、人民教育出版社以及其他各級出版社也逐漸設立獨立的辭書室,承擔詞典編輯的任務。這些出版社的詞典編纂力量專業(yè)而集中。在未來中國的詞典編纂中,出版社將承擔編纂量的半壁江山,而另一半份額中大部分將由出版社委托的相關科研機構或團體進行編纂,自由作者編纂的辭書比例會越來越少。
辭書的網絡化編輯方式代表著未來詞典編纂模式的發(fā)展方向,[1]在西方已經走過了試點階段,進入良好的運行階段,但在我國還未展開。其實,我國出版社的網絡和硬件設備并不落后,有的甚至優(yōu)于國外,落后的是缺乏運作大型網絡項目的經驗和管理模式,特別是在詞典的編纂中還沒有建立先進的項目管理意識。
運用工作流技術,結合漢語漢字的本質特點、漢語辭書編輯工作的特點和方式、漢語辭書出版的流程,進行詞典編纂,可以提高詞典編纂的效率和信息利用率,并為創(chuàng)造新的價值提供基礎。工作流是對工作中的資源、任務、過程環(huán)節(jié)的有序、有效控制,這一運行原理與我們正在研究的基于網絡的詞典編纂工作模式的特點相一致。引進工作流技術后,將一個常規(guī)工作流程分解成定義明晰、界限清楚的任務,用計算機程序固定下來,建立工作者角色、管理賬戶、組織單位、用戶之間的工作關系,并通過網絡形成各個客戶端的連通,形成一條生產線,按照一定的規(guī)則和過程來執(zhí)行任務,并對它們進行實時監(jiān)控和及時反饋總結,達到減少重復工作、提高辦事效率和管理水平的目的。
本文運用網絡工作流技術,采用任務驅動模型,整合語料庫資源及編者人力資源,分解任務,將詞典類工具書的編纂工作流分為規(guī)劃中心、資料中心、勾乙中心、編寫中心、排版輸出中心五大環(huán)節(jié)。試圖通過建立計算機輔助系統(tǒng)的工作模式,提升詞典類工具書編纂的效率。
規(guī)劃中心的工作主要包括需求分析和方案設計兩大內容。
需求分析具體體現(xiàn)為詞典編纂的選題研究。選題關系到一部詞典的定位、宗旨和功能,是詞典整體架構的基礎和指導思想。需求分析的結果是形成一份完整的、論證充分的選題報告。選題一旦確立,以后的各個環(huán)節(jié)必須嚴格圍繞這個指揮棒運作。
需求分析具體從以下四方面展開。①用戶需求分析。分為年齡層次、文化層次、行業(yè)特點、用戶對本詞典的細化要求幾個方面。②人力資源分析。分析工作中每個參與者的專業(yè)特長和技能特長,厘定在詞典編纂中可以承擔的具體工作,如資料分析、專科術語釋義、同義詞對比、校對等。③資源需求分析。各參與人員提供資源需求,核心是語料資源。④市場分析。主要圍繞詞典的營銷、經濟效益、社會效益、學術效益等方面進行分析。
需求分析是由主編和責任編輯給出主導意見,再采用面向內部和面向專家兩個征求意見模式。在技術上建構基于B/S模式的網絡征求意見模塊。一些民眾最關注的普及性的詞典容易引起普通民眾的關注和參與熱情,如新詞語詞典、流行語詞典等,如果條件允許,可通過網絡征求意見,如《新華新詞語詞典》(商務印書館,2003版)的編纂就有限制地使用了這種集思廣益的做法。
內部人員、專家和公眾三個層次的意見收集齊后,須在工作流中建立討論模塊,公示詞典的題目、宗旨、定位、收詞等基本信息。征求意見的類型分三種:①支持、反對意見。②修正意見。③補充意見。征求意見的途徑可以多樣化,例如可以編寫幾種風格、功能類型不同的樣條置于網絡上,讓內部和外部參與人員進行評論和修改完善,這樣可避免征求意見時的籠統(tǒng)、無目的性。
在集思廣益的基礎上,責任編輯需要形成一個完整翔實的選題報告。選題報告在線提交給主編審閱。工作流系統(tǒng)的最大特點是可以設置工作追蹤,在審閱追蹤器中,可以由責任編輯發(fā)起審閱邀請,邀請相關主編、專家等加入審閱,而在審閱追蹤器中可以動態(tài)觀測審閱進程,并有催請?zhí)崾竟δ堋_x題通過后,該選題會以群發(fā)的方式發(fā)送至編寫組所有相關人員,并提供審閱注釋的及時反饋。這一過程貫穿于整個詞典編纂流程,是一個開放的環(huán)節(jié),允許隨時提出修改意見。
方案設計環(huán)節(jié)主要根據前一環(huán)節(jié)的選題報告,設計詞典的體例,工作結果是形成詞典的編纂細則。編纂細則是編寫組成員的工作標準和要求,所以要細到標點、符號的使用規(guī)定。同時細則的每一條要具有共性、可操作性。例如《現(xiàn)代漢語詞典》的編纂細則就有180條,分為總則、語匯、條目、字形與詞形、注音、釋義、舉例七個核心部分,最后還特別規(guī)定了標志、標點、搭頭字眼以及釋義程式用語等細節(jié)。
編纂細則的內容又分為強制性細則和推薦性細則兩種。強制性細則適用于統(tǒng)一處理的問題。將這些問題的處理方法明確規(guī)定,并無條件執(zhí)行。如有例外情況,編者可通過工作流的在線反饋系統(tǒng)提交主編討論,主編針對例外情況再修訂,不允許編者自行處理。例如,釋義方面用語的使用就需要統(tǒng)一規(guī)范,如“形容”、“比喻”這樣的搭頭字眼,“見”、“參見”、“即”、“稱”、“同”等體現(xiàn)中觀參見系統(tǒng)的釋義用語,我們稱其為詞典釋義功能詞。當前詞典編纂中存在這些功能詞使用上的不統(tǒng)一和混亂的情況,如這方面不做出統(tǒng)一規(guī)定,必然加大主編統(tǒng)稿工作的負擔。要嚴格界定這些功能詞使用的不同情況及所承擔的不同意義描寫功能,在細則中進行明確規(guī)定。
推薦性細則多為有爭議的問題。在工作流的交流板塊上主編應與所有編者、顧問專家、內部人員一起進行討論,斟酌統(tǒng)一解決方案。例如,在詞典立目方面最難把握的是清晰區(qū)分詞與語的界限、同形詞與多義詞的界限,功能標注方面難點在于詞類標注中兼類詞與詞類活用、詞義活用的分界。這樣的原則把握需要以主編為主導,以專家意見為參考,發(fā)揮所有編者的判斷力,求得共識。
細則是逐步完善的,往往直到最后出版才能最終完善。所以,工作流系統(tǒng)中的在線討論應該在詞典編纂過程中全程開放,關注編者的即時意見是主編的例行工作。
在網絡環(huán)境下的詞典編纂工作流中,資料中心是最重要的資源環(huán)節(jié),工作核心是動態(tài)組合語料庫的建立。
早期詞典的語料庫追求文本的數(shù)量。詞典語料庫的建立往往忽略一個問題——語料的針對性。每部詞典的編纂宗旨和定位不同,各種專項詞典對語料的要求更具個性化。語料庫動態(tài)組合是為了體現(xiàn)語料庫的平衡性,而語料庫的平衡也是選詞立目、釋義平衡的保證。
網絡合作模式的后臺語料資源應該是動態(tài)組合的。語料庫組合的基礎單位是語篇,組合的依據是不同定位的詞典編者提出的要求組合,完成組合的條件是對語篇進行詳細的多維度的屬性標注,根據不同的屬性標記在工作流中動態(tài)組合成各種語料資源集。
勾乙是詞典編纂工作流前端針對性的材料搜集和初步分析環(huán)節(jié)。勾乙是在報刊書籍的某些詞句兩端,畫上形狀像“乙”的記號(「」),表示要抄錄下來,作為資料的一種做法。勾乙主要承擔三項任務,一是在動態(tài)組合的語料庫中,根據選詞原則選定詞目;二是為具體詞條的編寫從語料庫中提取詞條的最小語境集;三是針對語例集進行初步的分析和加工標注。工作結果是建立詞目初表、有標注的詞條用例表。
選詞是詞典編纂的重要環(huán)節(jié),首先要根據詞典的規(guī)模、定位和宗旨設定明確的選詞標準。設定選詞標準,首先要研究好收錄對象的分類,按詞典類型,設定各類詞的收錄比例。例如語文詞典要設置好基本詞匯、方言詞、古語詞、歷史詞、行業(yè)詞、百科詞等的選錄原則。專科詞典則需要設置好各分支學科的收詞比例,還有純術語、一般術語、準術語的收錄原則。例如,綜合性語文詞典與綜合性百科詞典的區(qū)別是百科詞收錄的比例。
傳統(tǒng)詞典選詞一般是利用資料勾乙的方法。勾乙分為普勾或普勻與選勾相結合。勾乙不只是勾詞,還要勾出詞的特殊用法或例句。在工作流中,普勾的方式可以用語料庫分詞標注與詞頻統(tǒng)計的方法來進行量化確定。這一過程全部由計算機完成,速度快,是傳統(tǒng)手工勾乙的方法無法比擬的。另外,有了計算機的詞語索引聚類技術,還可為是否收錄該詞提供通用度、分布度等方面的數(shù)據參考。
但計算機詞頻統(tǒng)計是一個既定詞表,有先入為主的弊端,而對于大量未登陸詞無法處理,所以不可能僅靠計算機詞頻統(tǒng)計確定收詞范圍,計算機提供的詞表和詞頻表、分布表等數(shù)據只是選詞收詞的重要參考,但利用計算機的操作可以解決約90%的選詞問題,還有10%的選詞工作需要主編和編者的主觀經驗和積累來進行完善、補充和調整,資料分析員可將詞表及自己認為不確定的詞進行標紅勾乙,提交主編和編者刪減、修改、補充,資料分析員只有遴選推薦權。
本環(huán)節(jié)工作的結果是詞目初表和詞形資料表(含詞頻、分布度、異形、兒化等信息)。最后的選詞詞目數(shù)據是從語境使用實態(tài)中提取的,反映詞語使用頻率和分布的客觀情況,這些信息又可反過來修正詞典中一些靠主觀經驗厘定的內容,進行更精確化的校正。
詞目勾乙完成后,資料分析員還要進行材料勾乙,即詞條的用法勾乙。早期的手工資料勾乙需要先將一篇語料復印多份,然后使用不同顏色的符號進行勾選,如例句和特殊用法等。在語料庫中,分析員可先將各詞在語料庫中的用例批量提取,形成最小應用語境集。這一環(huán)節(jié)的工作結果會形成一個相對完整的詞語用例庫,具有復用性,不但是本詞典編者編纂的重要參考,以后編纂其他類型的詞典也可反復使用,對其中的資料各取所需。
編者承擔具體詞條的編寫工作。編寫中心的工作結果是詞典清樣的定稿排版。
編者核心工作可分解為如下幾項:①確定立目條目,判斷同形詞與多義詞以決定所立詞目的數(shù)量;②從分析員對材料的初歸類中判斷義項的分設與合并;③選擇義項的描寫方式(釋義方式);④界定兼類以供各義項詞類標注,選擇合適的釋義先導詞,界定義項的順序;⑤確定書證或整理語例,標注語體語域屬性等。這些工作需要編者具有專業(yè)的語言文字學知識或相應??浦R,具有較強的分析和概括歸納能力。
主編也需要承擔詞條編寫任務,因為只有進入具體的編寫環(huán)節(jié),才能及時發(fā)現(xiàn)問題,調整編纂思路。主編所承擔的詞條應該是詞典收詞各級分類中有代表性的,如普通詞與方言詞、古語詞、??圃~等詞匯類聚中的典型代表。
主編為編者建立賬戶,編者獲得相應權限后,登錄系統(tǒng)可以看到主編分配的詞條編寫任務及分析員傳送的初步整理的各種知識材料。編者享有語料庫的訪問權,可隨時在語料庫中補充、測查相關材料或驗證自己的釋義,并與資料員保持密切的信息溝通,還可提出資料要求,直接以任務的方式傳送到資料員工作臺上。編者可以享有瀏覽其他編者編纂的內容的權利,但不具有修改權。這樣便于及時解決體例不統(tǒng)一、釋義內容互補性差甚至矛盾等的情況的出現(xiàn)。
編寫環(huán)節(jié)是整個工作流的核心環(huán)節(jié),在做好上述工作的基礎上,還要突出以下幾個工作重點。
每一個詞條及其釋文都是一個相對獨立的小知識元,但它們之間有著緊密的關聯(lián),體現(xiàn)著嚴密的系統(tǒng)性。釋義時要有系統(tǒng)意識,一部詞典收錄的詞條是一個系統(tǒng),可將詞條按照常用的同義、反義、類義、上下義、整體與部分等語義關系建立知識本體系統(tǒng)。當前,計算機工程界將語義關系的界定越來越走向細致化,例如俄羅斯的詞匯函數(shù)就界定出70多種語義關系。詞典編纂是一項操作性的工藝,不是純粹的學術研究,過細的語義關系界定減少了區(qū)分度,也就影響了操作性。
在工作流中,要實現(xiàn)關聯(lián)釋義,還要做好三方面工作。一是主編分配工作時不宜按音序的方式分配,而應根據已經系聯(lián)成小系統(tǒng)的同語義場的詞進行分配,這樣便于提高釋義的準確性和系統(tǒng)性。二是在釋當前詞條時,由計算機自動從工作流中提取同場其他詞的釋義,列于當前詞條的右邊,方便參照釋義。三是根據字詞的屬性關系建好屬性關聯(lián),自動標注參見系統(tǒng),并提取相關詞的釋義進行實時參照,一些多音詞、同名異指詞或異名同指詞之間的參見關聯(lián)可以基于這個關聯(lián)標注來進行??梢?,對字詞屬性進行關聯(lián)標注本身就是詞典中觀參見系統(tǒng)建構的過程。
已分配的詞條編輯完成后須由小組長或詞典主編進行審核,審核通過后進入備用庫。在編者完成全部詞條的編寫后,所有詞條將匯集到主編或外聘專家工作臺上進行統(tǒng)稿。修改意見會及時反饋到編者手中。修改稿統(tǒng)一后由主編進行精確的統(tǒng)稿操作,主編主要審核釋義的難易程度、辭書體語言表達風格、釋義的各個細節(jié)的準確度和合體度等,同時要盡量保持詞典體例、風格的一致性。統(tǒng)稿環(huán)節(jié)至關重要,主編是統(tǒng)稿的組織者,并由數(shù)位專家共同完成。統(tǒng)稿后將進入嚴格的校對環(huán)節(jié)。要堅持三審三校制度。最后由主編初定稿。內容的審核還包括行政審批平臺,這是詞典由主編傳送給責編,責編通過后再發(fā)給總編,總編通過后即完成行政審批程序,進入公開征求意見階段。
征求意見是重要的環(huán)節(jié),編寫組的人員可能身在其中,而對很多錯誤或不妥之處無法察覺,外部專家站在旁觀者和專家的角度會發(fā)現(xiàn)很多問題。征求意見分為內部意見征求與外部意見征求。在工作流中對內外部專家開放瀏覽權和注釋權,供專家在線進行審核。對于一些使用網絡不方便的專家可使用紙制本。意見的征求要細致,要落實到詞條,時間不宜太短,要給專家仔細閱讀的時間,從宏觀到微觀的每一個成分中探尋其中可能存在的問題。
專家?guī)鞈撨m時更新并區(qū)分層次,聘請一些有真知灼見、高水平且負責任的專家進入核心專家層。出版社應該有專門的ERP專家管理部門,統(tǒng)一管理專家的研究特長、工作量、報酬、貢獻度等信息。
專家意見反饋后,要及時登記到工作流討論欄,具體意見附在相應的詞條旁,加審閱注釋。然后由編寫組進行逐條討論,對詞典內容進行再次修改調整。此過程要做好督辦和催辦工作,要發(fā)揮工作流的審閱追蹤優(yōu)勢,采用工作流內短信催促或工作流外電話催促等方式。修改后還要經過主編再審和專業(yè)人員的再校,完成后主編定稿,轉入工作流的專業(yè)排版系統(tǒng)。
定稿后的詞典進入工作流系統(tǒng)中排版輸出模塊。此模塊可在線調用Word、方正書版、Adobe InDesign等專業(yè)軟件進行編輯排版,最后發(fā)布出國際通用的PDF格式樣本,再進入清樣校訂、簽字付型。而印刷裝訂、出版發(fā)行等環(huán)節(jié)由于參與人員和工作性質發(fā)生根本改變,已經不屬于本工作流環(huán)節(jié)。詞典編纂工作流到輸出專業(yè)排版的詞典清樣就已經完成。
一部詞典在這個工作流系統(tǒng)中作為一個項目存在,和該項目相關的所有信息及所有材料都會封閉在項目文件目錄下,基于計算機的強大功能,有些詞條內容的修改軌跡也可保存,以方便回溯,每次修改都會自動生成版本,需要時可以回溯到任何歷史版本。這些寶貴的資料極大地方便了詞典的后期修訂以及詞典系列化工作,也有利于學術研究。如《現(xiàn)代漢語詞典五十年》(商務印書館,2005)就匯集了現(xiàn)代漢語詞典從1956年到第五版修訂的主要材料,清晰地勾勒出了整個詞典編纂和修訂的流程,為詞典史等方面的學術研究提供了大量寶貴的資料。
詞典編纂一般都工程浩大,難免不同程度地存在錯訛之處,一部詞典編纂完成,該詞典編纂室的工作并沒有結束,而要長期動態(tài)監(jiān)控和發(fā)現(xiàn)詞典中的問題,如體例不統(tǒng)一、釋義矛盾疏漏、可進一步提高質量之處等,還要關注學術界相關評論中提出的修改意見,以便修訂時使用。這方面工作主要由資料分析員承擔,要將其作為一個例行性工作來處理。
要為詞典評論預留接口,負責任的詞典評論可以發(fā)現(xiàn)詞典中的問題,歸納詞典的優(yōu)點,對于詞典的營銷至關重要。這些評論性的資料也要由資料員進行搜集,對有價值的評論進行整理,形成專題報告上報主編。
對已編詞典的實用價值和經濟價值進行全方位挖掘的重要方法是系列化。如大型詞典的優(yōu)勢是滿足查全需求,可在此基礎上進行細化定位,開發(fā)快捷性或便攜性等版本。系列化工作最主要的是詞目、語例、義項數(shù)及每個義項釋義的豐度的調整。因此詞典編纂工作流要為這種系列化工作做好前期準備。
首先要對字詞目、字詞屬性信息、釋義、例證等進行字段化標記,這樣可以保證每個標記點都能封閉為相對獨立的知識單元,進行自由組合,以實現(xiàn)數(shù)據復用。將詞條進行多維度標記,還可以幫助生成不同類型的專項詞典,如根據《現(xiàn)代漢語詞典》就可以生成方言詞小詞典、雅詞小詞典、同音詞詞典、三音詞詞典、聯(lián)綿詞詞典等。這些詞典的形成,依賴于工作流中對詞條相關內容的詳細屬性標注,標注越詳細,越易于利用計算機信息組合形成子類詞典的雛形,越有利于詞典系列化工作。
電子詞典是近些年流行的詞典類型,它的智能性、便攜性及多媒體化體現(xiàn)著比傳統(tǒng)紙質詞典顯著的優(yōu)越性。而電子詞典的核心要依據工作流中的詞典文本及詞條屬性標注,詳細的屬性標注是電子詞典多條件檢索的基礎工作。有了這些屬性標注,詞典的檢索就不會只是停留在關鍵詞檢索階段,而是可以進行復雜的布爾表達式檢索、閾值區(qū)段檢索、多條件組合檢索、追加檢索等操作。
詞典的編纂是一個大型的知識工程,應構建一個由出版社為主導的基于網絡的詞典編纂工作流系統(tǒng),對工作中的資源、任務、過程環(huán)節(jié)、權限進行有序、有效的控制,從而提高工作效率,真正體現(xiàn)編纂團隊的高效協(xié)作。
[1]章宜華、雍和明.當代詞典學[M].北京:商務印書館,2007:377-402