陳正嬌
(文山學院辦公室,云南文山 663000)
《中國檔案主題詞表》 (為表述方便,以下簡稱《中詞表》)收錄了不同歷史時期出現(xiàn)的具有檢索意義的詞匯。在計算機技術廣泛推廣運用的今天,經(jīng)過改版的《中詞表》仍然未達到預期的效果。檔案檢索語言應該如何應對社會的發(fā)展成為了檔案學學者研究的一個新課題。
《中詞表》是中國檔案主題標引與檢索標準化的工具書,是國家標準《檔案著錄規(guī)則》的配套項目,于 1986年 7月由國家檔案局成立《中詞表》編委會著手編制,于 1988年 8月編成,同年 12月《中詞表》第一版由檔案出版社出版。該表由前言、說明、主表、范疇索引組成。《中詞表》試行本經(jīng)過 3年的試行,從 1992年 3月起開始進行修改,直至 1995年 12月修訂出版。再版的《中詞表》新增詞目 2134條,刪除詞目 3531條,訂正錯誤 405處,增補詞間關系 (參照項)1.5萬余處;將主表款目排序改為依詞目音序、調序結合字型筆畫排列,訂正了詞目首字筆劃檢字表的錯漏現(xiàn)象;調整了部分范疇類目;編制了詞族索引和人名、機構名兩個附表。其中人名表收錄明清以來名人 11771位,機構名表收錄明清以來中央級黨、政、軍、社團、企事業(yè)機構名稱 1900個。[1]這次修訂使《中詞表》在一定程度上得到了較大的完善與提高。
綜上所述,不難看出:《中詞表》自編制到第二次修定,歷經(jīng)兩代,耗時 9年余,幾乎處于編制修改狀態(tài)中,其使用價值體現(xiàn)甚少。盡管再版的《中詞表》有了較大的完善與提高,但是,自 20世紀 90年代中期至今,文本檢索成為檢索的主流,且結構較為完備,詞匯比較豐富,選詞統(tǒng)一、規(guī)范,而具有較強專業(yè)性的《中詞表》卻只能蒙上層層灰垢。這樣一本傾注了眾多檔案工作者大量心血的工具書,不能充分發(fā)揮作用、體現(xiàn)價值,不僅違背了《中詞表》編委會的編制初衷,造成人力、財力等資源的浪費,也勢必對檔案工作者的工作積極性帶來不良影響,進而影響我國檔案事業(yè)的發(fā)展。
《中詞表》作為檔案界的第一個標準化的主題詞表,卻不能充分發(fā)揮作用、體現(xiàn)價值,是什么阻礙了它的應用與發(fā)展?檔案界內人士應如何應對挑戰(zhàn),使其價值得以充分體現(xiàn)是不可忽視的問題。
20世紀 80年代以來,隨著科學技術的迅猛發(fā)展,計算機技術廣泛普及運用,各行各業(yè)的管理都大踏步地向著信息化的標準邁步,我國檔案工作的重心也必須面對挑戰(zhàn):由實體管理轉向信息管理?!吨性~表》的出臺無疑會受到界內人士的關注。因此,《中詞表》頒布十幾年來,在很大程度上促進了我國檔案事業(yè)的發(fā)展,但是,我們也必須看到,很多檔案館 (室)并沒有廣泛地使用、甚至沒有使用《中詞表》對檔案進行標引,《中詞表》的檢索意義與價值不能得以體現(xiàn)。如果我們仔細推敲,并不難發(fā)現(xiàn)其中的原因:
自然語言,是指直接使用未經(jīng)過控制的自然語言中的語詞作為標識,進行信息資源的標引和檢索。使用自然語言標引和檢索的實踐,可以追溯到我國唐代類書的編制和西方 13~14世紀的圣經(jīng)語詞索引。作為一種標引和檢索方法得到社會廣泛使用,則是在計算機出現(xiàn)以后。[2](P287)20世紀 90年代以后發(fā)展起來的互聯(lián)網(wǎng)主要由文本組成,這進一步擴大了全文檢索的使用范圍。目前文本檢索實際上已經(jīng)超過受控系統(tǒng),成為檢索的主流。由此不難看出,相對于規(guī)范的人工語言而言,在檔案檢索中使用自然語言,可以取消復雜、費時、耗力的檔案標引工作,或至少可以降低標引工作的難度和成本,使大多數(shù)未經(jīng)過專門的檔案標引與檢索訓練的用戶,用自己熟悉的語言直接查詢各種數(shù)據(jù)庫,提高檢索效率。如:“雖然美國已經(jīng)出現(xiàn)了多個挑戰(zhàn) Google的自然語言搜索引擎,但是 Google對此的興致并不高,Google的研發(fā)負責人日前表示,網(wǎng)民太懶,他們并不愿意輸入一個完整的句子,Google更關心詞組層面上的自然語言搜索技術?!盵3]在計算機廣泛普及運用的今天,自然語言所具有的專指度高、詞匯更新及時以及面向用戶能力好等優(yōu)點使普通用戶在檔案檢索中更習慣于使用自然語言。這在很大程度上沖擊了檢索語言的使用,對《中詞表》的使用與推廣造成了障礙。
如詞表的結構比較簡單,只有主表和范疇索引、功能略顯不足;詞間關系顯示不夠完整、嚴謹,參照度比較低;一些同義詞、近義詞未加合并,詞匯的等同率不高;有些詞很少用,另一些常用詞又未被收錄等。[1]首先,《中詞表》主要適用于各級各類綜合性檔案館 (室)庋藏漢文檔案的主題標引和檢索,企事業(yè)單位的文書檔案及各級機關一般公文、資料的主題標引和檢索亦可參照使用。但《中詞表》對科技檔案中的詞匯收錄較少,所以不能完全滿足專業(yè)檔案機構的需要,必要時還需采用中央專業(yè)主管機關檔案部門編制的有關專業(yè)詞表。[4]其次,從使用效果上來看,由于主題檢索語言被移植到檔案工作領域的時間不長,既缺乏成熟的理論做指導,更沒有多少現(xiàn)成的經(jīng)驗可資借鑒,因而使得《中詞表》的推廣與使用一直舉步維艱。最后,《中詞表》自誕生起,其標準化程度明顯不夠。檔案主題詞標引規(guī)則方面的標準沒有制定出來,檔案界也沒有明確指定某個規(guī)則作為本行業(yè)的參照標準。如用主題詞標引時,有的用《中詞表》,有的用《漢語主題詞表》,有的用專業(yè)敘詞表,有的用本單位、本部門、本行業(yè)的主題詞表,還有的用關鍵詞來標引。[5]以上種種都妨礙了其推廣使用。
我國歷史悠久,卷帙浩繁,而檔案標引工作起步晚,加之之前沒有統(tǒng)一的檔案標引標準,所以檔案標引工作就被擱置了。如截止 2005年底,云南省檔案館共保管檔案、資料 693069卷 (冊),其中民國檔案 299169卷。[6]按現(xiàn)有的工作效率,民國檔案光著錄標引一項工作就得花費上百年的時間。歷史檔案尚且如此,更何況現(xiàn)行檔案?檔案標引工作量太大對檔案標引工作帶來的難度,影響了檔案標引的質量,而且,長期的檔案標引工作的實踐還證明:檔案標引工作存在容易錯標、漏標、過渡標、粗標等諸多亟待解決的問題。檔案標引工作從過程上看既簡單又枯燥,需要依賴人工對檔案信息進行著錄、標引和錄入,整個過程環(huán)環(huán)相扣,如果哪一環(huán)節(jié)出了錯誤,整個檔案標引工作的勞動成果就會付諸東流。因此,在大工作量、高準確度和檔案標引專業(yè)人員少的狀態(tài)下,檔案標引工作一拖再拖,工作量有增無減,給檔案標引人員帶來巨大的壓力。
自然語言雖然具有專指度高,能提供比較多的檢索點,詞匯更新及時和面向用戶能力好等優(yōu)點,但自然語言也有其缺點,如詞性、詞義不規(guī)范,語義模糊現(xiàn)象的存在,詞匯間語義關系不能全面地顯示等。因此,自然語言不可能完全取代規(guī)范化的人工語言,而必須與檔案檢索語言結合應用。為此,檔案人員應努力實現(xiàn)檔案檢索語言自然語言化,開發(fā)主題詞和關鍵詞轉換系統(tǒng)軟件,同時在一個系統(tǒng)中采用主題詞和關鍵詞進行標引和檢索。例如在檔案檢索系統(tǒng)中,可以仿照網(wǎng)絡搜索引擎同時使用分類檢索系統(tǒng)和關鍵詞檢索系統(tǒng)的形式,同時提供《中詞表》與關鍵詞檢索途徑,用戶可以根據(jù)自己的檢索需要挑選適合的方式,或通過使用不同的系統(tǒng)改進檢索效果。
再版的《中詞表》有了較大程度的完善與提高,但隨著社會的發(fā)展,筆者認為要提高《中詞表》的科學性和實用性,還有很多工作要做。如要對主、附表的詞目以及詞間關系進行增刪改,將詞目譯為英文,作出英譯名索引,這也是適應改革開放的需要,有利于我國一些歷史檔案的對外開放。具體說來,首先,一方面要解決《中詞表》個別專業(yè)收詞過多,不同專業(yè)之間收詞數(shù)量不平衡的問題,從實際出發(fā)對詞匯加以調整,增加科技、經(jīng)濟發(fā)展和深化體制改革中出現(xiàn)的新詞目,刪除實踐證明沒有標引和檢索意義的詞目,調整補充詞目間的用、代、屬、分、族、參關系,多管齊下,使之具有更廣泛的指導性。另一方面,要以《中詞表》為源詞庫,有計劃、有規(guī)范地編制一批與之在選詞原則、詞形詞義規(guī)范以及用代關系等方面完全兼容的篇幅較小而又切合專業(yè)檔案部門需要的系列專業(yè)詞表。其次,要推進檔案檢索語言的計算機化。若將計算機用于輔助編制、管理分類表和敘詞表,則可克服手工編制、管理分類表和敘詞表耗資、費時、投入多、效率低、差錯率高等缺點。并且要抓緊推進實現(xiàn)詞表的機讀化,從而達到與《中詞表》的地位和使用需要相對稱的目的。最后,要明確《中詞表》的權威地位。一個詞表能夠順利發(fā)展并得到廣泛接受,硬性的規(guī)定即標準化必不可少,而《中詞表》自誕生之日起就面臨著標準化程度不夠和標準制定的系統(tǒng)性相對欠缺的尷尬境地。[5]因此,確定《中詞表》的權威地位,提高其標準化程度勢在必行。
檔案人員要有高度的社會責任感和敬業(yè)精神,充分發(fā)揮自身的主觀能動性來對待檔案標引這項工程。在熟悉《中詞表》的基礎上,本著對檔案負責、對將來負責、對社會負責的思想,積極主動地標引。檔案標引工作人員不能抱有“等、靠”的思想,而是應該從實踐利用的角度出發(fā),將自己的聰明才智奉獻給檔案事業(yè),做好檔案標引工作,為檔案的提供利用打下堅實的基礎。
《中詞表》是我國一部大型綜合性的檔案敘詞表,其結構較為完備,詞匯比較豐富。它作為檔案分類標引的主要依據(jù),極大地促進了檔案分類整理工作的開展,其完善與提高對我國的檔案事業(yè)的發(fā)展有積極的促進作用。但是,從上述我們也可以看出,《中詞表》還有很長的路要走。以上是筆者對《中詞表》的一些粗淺想法,如有不當之處,誠請各位同仁批評指正。
[1] 周銘,呂榜珍.《中國檔案主題詞表》發(fā)展的歷史回顧與展望 [J].機電兵船檔案,2006,(1):28.
[2] 馬張華.信息組織[M].北京:清華大學出版社,2001.
[3] Google稱自然語言搜索不關注完整句子 側重詞組[EB/OL].http://www.lanfang.net/action-viewnewsitemid-23306,2008-05-10.
[4] 李小崗.繼承與創(chuàng)新——《中國檔案主題詞表》與《漢語主題詞表》之比較[J].云南檔案,2008,(12):27.
[5] 李春雷.試析《中國檔案主題詞表》未能廣泛推廣使用的客觀原因[J].云南檔案,2008,(6):44.
[6] 吳強.彩云之南的記憶寶庫——云南省檔案館[J].檔案春秋,2007,(12):57.