張文亮 彭媛媛
摘 要 論文對(duì)英國(guó)古籍?dāng)?shù)字化處理方式進(jìn)行歸納,大體描述其數(shù)字化標(biāo)準(zhǔn)化工作流程,并從中總結(jié)出英國(guó)古籍?dāng)?shù)字化過程中的相關(guān)技術(shù)方法和特點(diǎn)。英國(guó)古籍?dāng)?shù)字化過程,實(shí)行數(shù)字化文件格式規(guī)范化、字符編碼標(biāo)準(zhǔn)化等手段和方法,用以實(shí)現(xiàn)數(shù)字化文件的通用性和共享性。論文通過對(duì)英國(guó)古籍?dāng)?shù)字化標(biāo)準(zhǔn)化工作的梳理和總結(jié),為我國(guó)今后古籍?dāng)?shù)字化標(biāo)準(zhǔn)的制定提供了指導(dǎo)思想。
關(guān)鍵詞 英國(guó)古籍 古籍?dāng)?shù)字化 標(biāo)準(zhǔn)體系
分類號(hào) G249.561
DOI 10.16810/j.cnki.1672-514X.2016.05.020
Abstract This paper summarizes the methods of ancient books digitalization in Britain, generally describes its digital standardization workflow, and sums up the related technical methods and characteristics of British ancient books digitization process. In the procession of British ancient books digitization, the digital file format normalization, the standardization of character encoding and other means and methods are implemented, so as to achieve versatility and sharing of digital files. Based on the collating and summarizing of British digitization standardization, it provides guidelines for our future ancient books digitization standards.
Keywords British ancient books. Digitization of ancient books. Standard system.
20世紀(jì)80年代中后期,國(guó)外圖書館開始推行古舊、易損文獻(xiàn)資料數(shù)碼及縮微化工作,其中古籍?dāng)?shù)字化工程成為重中之重。國(guó)外古籍文獻(xiàn)數(shù)字化工程不僅包括本國(guó)古老文獻(xiàn)的數(shù)字化工作,同時(shí)開展國(guó)際聯(lián)合活動(dòng),采取相應(yīng)標(biāo)準(zhǔn)規(guī)范,實(shí)施其他地區(qū)文獻(xiàn)的數(shù)字化保存工作。代表性項(xiàng)目有:美國(guó)—古藤堡計(jì)劃[1]、日本—善本書目索引、加拿大—Amicus 數(shù)字圖書館項(xiàng)目等國(guó)家的獨(dú)立項(xiàng)目;中美—百萬(wàn)冊(cè)書數(shù)字圖書館計(jì)劃、中英法俄—IDP敦煌學(xué)項(xiàng)目等國(guó)家的合作項(xiàng)目。
英國(guó)古籍文獻(xiàn)數(shù)字化過程中,在數(shù)字化加工、資源描述等方面借鑒相關(guān)行業(yè)標(biāo)準(zhǔn),如:英國(guó)公共圖書館領(lǐng)域的NOF/People's Network項(xiàng)目標(biāo)準(zhǔn)與指南[2]、英國(guó)分布國(guó)家電子資源項(xiàng)目(DNER)標(biāo)準(zhǔn)體系[3]、英國(guó)電子政府互操作框架(e-GIF)標(biāo)準(zhǔn)體系指南[4]等。經(jīng)過不斷探尋,英國(guó)逐步形成本國(guó)古籍標(biāo)準(zhǔn)化處理流程和相應(yīng)管理體系。本文通過描述英國(guó)古籍?dāng)?shù)字化方式及標(biāo)準(zhǔn)化工作,總結(jié)出其古籍?dāng)?shù)字化標(biāo)準(zhǔn)的應(yīng)用特點(diǎn),以期為我國(guó)古籍?dāng)?shù)字化標(biāo)準(zhǔn)體系建設(shè)提供可行性參考。
1 英國(guó)本國(guó)古籍?dāng)?shù)字化標(biāo)準(zhǔn)現(xiàn)狀
大英圖書館于1993年發(fā)布“2000年規(guī)劃目標(biāo)”[5],計(jì)劃到2000年實(shí)現(xiàn)館藏文獻(xiàn)數(shù)字化并運(yùn)行于網(wǎng)絡(luò)。1995年,大英圖書館開始實(shí)施“數(shù)字化圖書館計(jì)劃”。其中,The Electronic Beowulf (電子化開放源碼集成系統(tǒng))計(jì)劃是對(duì)盎格魯—撒克遜史詩(shī)手稿和丹麥皇家圖書館所藏稿本數(shù)字化。從此,英國(guó)古籍?dāng)?shù)字化工程逐漸拉開帷幕。由于英國(guó)古籍的版本、紙張性質(zhì)不盡相同,數(shù)字化時(shí)根據(jù)具體情況制定了適宜的處理流程,確立了相應(yīng)的標(biāo)準(zhǔn)化規(guī)范。
1.1 處理流程
英國(guó)大量古籍屬于脆性紙質(zhì)。為了更加妥善地保管,國(guó)家管理部門與相關(guān)機(jī)構(gòu)合作,投入大量的人力、財(cái)力與技術(shù),如表1所示[6],采用掃描、縮微或二者相結(jié)合的混合式處理方法,將文獻(xiàn)進(jìn)行數(shù)碼影像處理或轉(zhuǎn)化為縮微制品。
由表1可知,不同的古籍保存方式,處理程序也有所不同。對(duì)于只能進(jìn)行一次加工處理的古籍資料,先縮微處理,再掃描縮微膠片,以備檢索;對(duì)于裝訂較為完好的資料,采用掃描方式,數(shù)碼影像使用時(shí)更為方便,再行處理數(shù)碼影像,以保留版本;對(duì)于紙質(zhì)較好的古籍文獻(xiàn),掃描或縮微處理都可,以節(jié)約成本為先。
1.2 技術(shù)控制
在促進(jìn)存取和使用新形式文獻(xiàn)的現(xiàn)實(shí)情況下,英國(guó)對(duì)原始手稿、古籍善本,少量檔案資料進(jìn)行數(shù)字化處理時(shí),盡可能將被損壞的資料恢復(fù)原貌或完成原始數(shù)據(jù)的恢復(fù)。但有時(shí),使用某些計(jì)算機(jī)工具(如光學(xué)字符識(shí)別工具、文本編碼轉(zhuǎn)換工具)并不是最優(yōu)的解決方案。此時(shí),需要通過數(shù)據(jù)管理和文檔編碼技術(shù)進(jìn)行控制。英國(guó)古籍?dāng)?shù)字化中還應(yīng)用了元數(shù)據(jù)技術(shù),在館藏目錄或Web中需要通過元數(shù)據(jù)標(biāo)準(zhǔn)的輔助,以瀏覽訪問館藏文獻(xiàn)。因而,在技術(shù)控制方面,英國(guó)圖書館采用了數(shù)據(jù)管理技術(shù)、文檔編碼技術(shù)、元數(shù)據(jù)管理技術(shù)對(duì)本國(guó)古籍進(jìn)行管理規(guī)范。
1.2.1 數(shù)據(jù)管理技術(shù)
數(shù)字化項(xiàng)目中,要對(duì)數(shù)字圖像搜索的深度和廣度進(jìn)行控制,需要通過數(shù)據(jù)管理技術(shù)進(jìn)行圖像文件的檢索。
數(shù)字轉(zhuǎn)換時(shí),優(yōu)先考慮文件的生成格式。如今,TIFF(標(biāo)簽圖像文件格式)是用于存儲(chǔ)數(shù)字圖像版本最常見的文件格式。除了TIFF,還可以使用其他(如GIF)的圖形格式。使用的掃描儀軟件可以自動(dòng)創(chuàng)建許多技術(shù)型、管理型信息標(biāo)簽,并將它們記錄到文件頭部。換句話說(shuō),可以直接記錄到文件本身。TIFF頭文件中的信息使用ASCII格式存儲(chǔ),從這個(gè)意義上說(shuō)它們的處理平臺(tái)是相互獨(dú)立的。將元數(shù)據(jù)記錄到TIFF頭文件中的做法較為普遍,其作用也較為明顯:它可以確保原文檔、轉(zhuǎn)換過程和轉(zhuǎn)換后的圖像文件之間的緊密聯(lián)系[7]。
1.2.2 文檔編碼技術(shù)
現(xiàn)有的多數(shù)數(shù)字化項(xiàng)目、方案多采用SGML(標(biāo)準(zhǔn)通用標(biāo)記語(yǔ)言)或采用XML(可擴(kuò)展標(biāo)記語(yǔ)言)的文檔編碼技術(shù)。其目的是將圖像與單一主件或整體館藏中允許訪問的結(jié)構(gòu)性元素相結(jié)合。文件編碼的數(shù)據(jù)也可用在儲(chǔ)存基礎(chǔ)數(shù)據(jù)庫(kù)系統(tǒng)中,并轉(zhuǎn)化成標(biāo)準(zhǔn)化表示形式用以交換使用。但是,SGLM存在對(duì)許多應(yīng)用程序軟件都不支持的問題,而XML已經(jīng)開始逐漸接替作為最常用的標(biāo)記語(yǔ)言[8]。
英國(guó)現(xiàn)階段的古籍?dāng)?shù)字化工作是基于SGML著名編碼規(guī)則的TEI(文本編碼倡議),其中DTD(文檔類型定義)在人文領(lǐng)域?qū)Ω鱾€(gè)文本進(jìn)行編碼。編碼檔案說(shuō)明倡議(EAD)開發(fā)了關(guān)于DTD編碼檢索工具,用來(lái)編碼整個(gè)館藏文獻(xiàn)或其他對(duì)象。
1.2.3 元數(shù)據(jù)管理技術(shù)
英國(guó)圖書館計(jì)劃創(chuàng)建以數(shù)字對(duì)象為主的數(shù)字圖像文件。首先,定義基礎(chǔ)元數(shù)據(jù)元素、對(duì)元數(shù)據(jù)進(jìn)行分類,進(jìn)而實(shí)現(xiàn)管理。元數(shù)據(jù)大致分為兩類,即管理型與結(jié)構(gòu)型。前者是指位于數(shù)位以內(nèi)或是數(shù)字對(duì)象以外的,以確保實(shí)時(shí)管理的描述性元素;后者是指在數(shù)字對(duì)象之內(nèi)用以導(dǎo)航的元素。為完善元數(shù)據(jù)元素的存儲(chǔ)管理,實(shí)施了元數(shù)據(jù)管理過程,具體流程如圖1所示。
元數(shù)據(jù)元素管理主要涉及數(shù)字圖像掃描、數(shù)字化存儲(chǔ)、轉(zhuǎn)化機(jī)讀目錄格式、改變編碼標(biāo)識(shí)等幾個(gè)過程。掃描數(shù)字圖像之前,對(duì)數(shù)字圖像的分辨率、數(shù)位深度、文件格式和版本類型進(jìn)行限定規(guī)范,明確所有權(quán)機(jī)構(gòu),并記錄相應(yīng)的技術(shù)方法。對(duì)完成掃描的圖像進(jìn)行數(shù)字化存儲(chǔ),記錄項(xiàng)目名稱和項(xiàng)目機(jī)構(gòu)名稱,定義其對(duì)象的唯一標(biāo)識(shí)符,以便于數(shù)字化保存與檢索。而后,將數(shù)字化存儲(chǔ)的數(shù)據(jù)轉(zhuǎn)化為以計(jì)算機(jī)格式輸出的書目記錄,當(dāng)對(duì)標(biāo)記對(duì)象的存儲(chǔ)記錄進(jìn)行修改的同時(shí),標(biāo)識(shí)代碼也隨之改變。
2 英國(guó)對(duì)其他國(guó)家古籍?dāng)?shù)字化標(biāo)準(zhǔn)現(xiàn)狀
英國(guó)存有許多中國(guó)、西夏國(guó)、印度、突厥等國(guó)家的古代文獻(xiàn)。各國(guó)古籍在語(yǔ)言上存在較大差異,但數(shù)字化中又存在交叉現(xiàn)象。其中,英國(guó)收藏的中文古籍所占比重較大。本部分按照中文古籍和其他語(yǔ)種古籍分別闡述英國(guó)對(duì)其他國(guó)家古籍的數(shù)字化概況及其標(biāo)準(zhǔn)化現(xiàn)狀。
2.1 英國(guó)對(duì)中文古籍的數(shù)字化標(biāo)準(zhǔn)應(yīng)用
2.1.1 英國(guó)對(duì)中文古籍?dāng)?shù)字化概況
英國(guó)參與了許多中文古籍字化項(xiàng)目,其中,最主要的項(xiàng)目即英國(guó)圖書館主持的IDP項(xiàng)目,該項(xiàng)目由中國(guó)、法國(guó)、俄羅斯、柏林等國(guó)家圖書館和研究機(jī)構(gòu)共同參與。IDP 旨在通過國(guó)際合作,開發(fā)各國(guó)所藏中文文獻(xiàn),實(shí)現(xiàn)全面數(shù)字化,通過網(wǎng)絡(luò)資源共享,促進(jìn)世界范圍內(nèi)的研究討論[6]。其中,國(guó)際敦煌工程數(shù)據(jù)庫(kù)收錄5萬(wàn)余件中亞刻本和印本以及3萬(wàn)余件中國(guó)國(guó)家圖書館館藏敦煌文獻(xiàn)資源數(shù)據(jù)。讀者可通過中國(guó)國(guó)家圖書館的IDP主頁(yè)和英國(guó)圖書館IDP 主頁(yè)進(jìn)行題名、關(guān)鍵詞、遺址、語(yǔ)言文字的檢索閱讀[9]。
大英圖書館、博物館原有大量古籍圖像資料。在獲得資助之后,大英圖書館開始采用系統(tǒng)化圖像數(shù)字化技術(shù),將圖像顏色、圖形形狀等多項(xiàng)信息通過數(shù)據(jù)代碼形式處理和存儲(chǔ),利用計(jì)算機(jī)實(shí)現(xiàn)加工處理,以方便瀏覽者的檢索、傳輸。大英圖書館和中國(guó)國(guó)家圖書館都藏有敦煌醫(yī)學(xué)手稿,但這些醫(yī)學(xué)手稿多存在破損情況[10]。大英圖書館通常經(jīng)過專家仔細(xì)查閱與判斷,確定幾個(gè)片段的拼湊以得到一份完整的手稿,最初將破損的手稿碎片分類、編號(hào),對(duì)手稿碎片統(tǒng)一記錄,摘錄主要內(nèi)容,形成簡(jiǎn)明提要,整合處理后形成手稿摘要列表和目錄列表。專家對(duì)醫(yī)學(xué)手稿的存在形式、紙張狀況進(jìn)行分析,大體分為兩類(如表2)。
對(duì)敦煌中文古籍?dāng)?shù)字化之前,首先對(duì)古籍版本進(jìn)行選擇,分析前人整理、校勘的成果,形成對(duì)比研究,以此保證數(shù)字化古籍的權(quán)威性和準(zhǔn)確性。其次,協(xié)調(diào)處理古籍?dāng)?shù)字化存儲(chǔ)格式,IDP數(shù)據(jù)庫(kù)中存儲(chǔ)的數(shù)字化資源多數(shù)以doc、html、pdf三種形式存在,設(shè)定存儲(chǔ)格式更便于讀者瀏覽閱讀,有利于提升古籍?dāng)?shù)字化資源的利用效率,促進(jìn)古籍?dāng)?shù)字化的發(fā)展。敦煌文獻(xiàn)同時(shí)存在著寫本文字難以辨認(rèn);文書詞語(yǔ)難以理解;大量佛教書卷文獻(xiàn)不易領(lǐng)會(huì);寫本行文大多異于后世刻本,不易把握等障礙。因而,解決古籍?dāng)?shù)字化中漢字字符集缺失成為首要問題[11]。敦煌文獻(xiàn)中還存在大量生僻字、罕見字,以及不易和不能辨別的文字,現(xiàn)有字符庫(kù)無(wú)法與之相匹配,計(jì)算機(jī)無(wú)法釋讀,數(shù)字化處理后會(huì)出現(xiàn)方框、黑塊符號(hào)等問題。如此,即人為地破壞了古籍版本的真實(shí)性和價(jià)值性,也為學(xué)術(shù)研究帶來(lái)了極大障礙,導(dǎo)致學(xué)者不敢輕易引用電子版古籍作為注釋,影響了數(shù)字化古籍的使用效率。
除了大量敦煌中文文獻(xiàn),英國(guó)國(guó)家圖書館還典藏有一定數(shù)量的古籍珍本。為此,從1980年開始大英圖書館建立“古版書簡(jiǎn)明標(biāo)題目錄”(簡(jiǎn)稱 ISTC)[12],主要收錄15世紀(jì)活版印刷版文獻(xiàn)題錄,是全球該類文獻(xiàn)最大的聯(lián)機(jī)數(shù)據(jù)庫(kù)。大英圖書館還收錄了包括部分中文古籍書目,且與牛津大學(xué)、劍橋大學(xué)等六所大學(xué)、研究所圖書館聯(lián)合,建立“中文圖書聯(lián)合檢索”平臺(tái),對(duì)英國(guó)大量中文古籍進(jìn)行整合,實(shí)現(xiàn)了互聯(lián)網(wǎng)平臺(tái)的書目檢索,為讀者了解英國(guó)的中文文獻(xiàn)古籍收藏情況提供方便。在檢索系統(tǒng)中,古籍文獻(xiàn)多被賦予目錄編碼,運(yùn)用高級(jí)檢索進(jìn)行查檢,以防全文檢索時(shí)中文簡(jiǎn)體和繁體文字切換檢索、漢字自動(dòng)切分、自然語(yǔ)言檢索或主題詞檢索等標(biāo)準(zhǔn)沒有統(tǒng)一的弊端[13]。
2.1.2 相關(guān)標(biāo)準(zhǔn)應(yīng)用
英國(guó)對(duì)中文古籍文獻(xiàn)數(shù)字化過程中涉及字符處理、技術(shù)規(guī)范等標(biāo)準(zhǔn)。其中,字符處理標(biāo)準(zhǔn)方面。對(duì)于敦煌古籍文獻(xiàn),數(shù)字化之前,先要對(duì)文獻(xiàn)中包含的字符和相關(guān)文字術(shù)語(yǔ)進(jìn)行標(biāo)準(zhǔn)化和規(guī)范化處理,根據(jù)現(xiàn)有的字符集標(biāo)準(zhǔn),進(jìn)一步規(guī)范處理,形成適用于敦煌文獻(xiàn)數(shù)字化使用的字符集。在技術(shù)標(biāo)準(zhǔn)方面,針對(duì)古籍版本形式不同,紙張性質(zhì)差異較大的現(xiàn)象,應(yīng)用相關(guān)技術(shù)標(biāo)準(zhǔn)加以限定和約束,將其轉(zhuǎn)化為數(shù)字化格式的文件,以達(dá)到國(guó)際通用、資源共享的目的。應(yīng)用現(xiàn)行文件格式編碼標(biāo)準(zhǔn),對(duì)數(shù)字化文獻(xiàn)格式進(jìn)行控制,盡可能轉(zhuǎn)換為PDF、HTML文件格式。大英圖書館構(gòu)建多個(gè)數(shù)字化文獻(xiàn)數(shù)據(jù)庫(kù)與檢索系統(tǒng),方便人們檢索使用相關(guān)文件。在數(shù)據(jù)庫(kù)與檢索系統(tǒng)維護(hù)方面也形成了統(tǒng)一、規(guī)范化的標(biāo)準(zhǔn),以提供完備的工具和穩(wěn)定的平臺(tái)。
2.2 英國(guó)對(duì)其他語(yǔ)種古籍?dāng)?shù)字化標(biāo)準(zhǔn)應(yīng)用
2.2.1 英國(guó)對(duì)其他語(yǔ)種古籍?dāng)?shù)字化概況
大英圖書館藏有的多種珍貴文獻(xiàn)中,還包括西藏,梵文,西夏文,于闐,龜茲,粟特文,維吾爾文,突厥和蒙古等超過45 000份手稿或印刷在紙張、木材和其他材料上的文檔,其中一部分手稿包含多種語(yǔ)言。大英圖書館同時(shí)存有印度收集的中亞地區(qū)手稿,通常被稱為Hoernle集合。對(duì)Hoernle集合中的手稿破譯、解讀,1902年出版相關(guān)報(bào)告,并最終存放于大英博物館。據(jù)不完全統(tǒng)計(jì),Hoernle集合包含超過2000份梵文文獻(xiàn),吐火羅語(yǔ)1200份,另外約250份于闐語(yǔ)文獻(xiàn)(具體情況參見表3)。
大英圖書館對(duì)不同語(yǔ)種的文獻(xiàn)進(jìn)行完整著錄,形成檢索目錄。多數(shù)目錄和大部分手稿同時(shí)制成縮微膠卷。此外,為妥善保存古印度金剛經(jīng),以數(shù)字化形式提供瀏覽,并將其數(shù)字化內(nèi)容刻錄于光盤中,方便學(xué)者隨時(shí)利用移動(dòng)設(shè)備進(jìn)行研究。為防止破壞古籍原件,即制成縮微膠片或數(shù)字圖像形式。部分手稿被分為幾部分,依次定期展出,既可以避免手稿過度使用,又可以供讀者免費(fèi)瀏覽。如果研究人員有閱讀需求,可以提出參觀手稿原件的要求,但務(wù)必事先與負(fù)責(zé)人員做好聯(lián)絡(luò)工作。較為脆弱的手稿,管理人員必須事先檢查清楚所有細(xì)節(jié)。
2.2.2 相關(guān)標(biāo)準(zhǔn)應(yīng)用
英國(guó)在對(duì)多語(yǔ)種古籍文獻(xiàn)數(shù)字化過程中主要采用技術(shù)標(biāo)準(zhǔn)與規(guī)范。為避免文獻(xiàn)手稿著錄過程中出現(xiàn)諸多問題,大英圖書館在著錄手稿之前,對(duì)手稿進(jìn)行了翻譯和轉(zhuǎn)錄,并對(duì)手稿的著錄格式應(yīng)用現(xiàn)有標(biāo)準(zhǔn)進(jìn)行限定,以便日后存儲(chǔ)和使用。部分不適宜進(jìn)行數(shù)字化處理的文獻(xiàn),根據(jù)數(shù)據(jù)加工標(biāo)準(zhǔn)的規(guī)定,進(jìn)行掃描處理或形成數(shù)字影像資料,以圖片形式儲(chǔ)存和使用。對(duì)于這些資料,同樣加入到聯(lián)機(jī)檢索系統(tǒng)中,并且通過相關(guān)的文獻(xiàn)檢索目錄標(biāo)準(zhǔn)對(duì)其進(jìn)行規(guī)范化處理。
3 英國(guó)古籍?dāng)?shù)字化標(biāo)準(zhǔn)體系的特點(diǎn)
3.1 相互兼容的文件格式
英國(guó)數(shù)字化古籍文獻(xiàn)的文件格式大多通用、兼容。根據(jù)統(tǒng)一的文檔存儲(chǔ)標(biāo)準(zhǔn),英國(guó)對(duì)完成數(shù)字化處理的文本文件進(jìn)行標(biāo)準(zhǔn)化,以規(guī)范文檔的存儲(chǔ)格式。PDF存儲(chǔ)格式的文件居多;少量文件可以通過Word文檔形式讀取。基于Web網(wǎng)頁(yè)瀏覽版的文件,以相互兼容的HTML、XML、SGML核心語(yǔ)言編碼,讀者可以進(jìn)行全面的瀏覽、檢索與獲取。
3.2 篩選數(shù)字化古籍底本
由于古籍年代久遠(yuǎn),紙質(zhì)情況、印刷方式和書寫格式都有較大差異,而且大部分的古籍存在不同程度上的損毀,因此,英國(guó)在對(duì)相關(guān)數(shù)據(jù)庫(kù)的建設(shè)過程中,制定了相應(yīng)的古籍典藏管理標(biāo)準(zhǔn),根據(jù)不同底本的紙質(zhì)、外貌、破損情況將不同紙質(zhì)的古籍進(jìn)行分類,在不損毀其原貌的基礎(chǔ)上,進(jìn)行古籍?dāng)?shù)字化處理。
3.3 遵循國(guó)際標(biāo)準(zhǔn)
英國(guó)現(xiàn)今古籍?dāng)?shù)字化標(biāo)準(zhǔn),大多是應(yīng)用或結(jié)合相關(guān)行業(yè)現(xiàn)行標(biāo)準(zhǔn)或國(guó)際通用標(biāo)準(zhǔn),并結(jié)合本國(guó)具體情況,完成文獻(xiàn)數(shù)字化工程標(biāo)準(zhǔn)化和規(guī)范化工作。英國(guó)認(rèn)為根據(jù)適當(dāng)?shù)膰?guó)際標(biāo)準(zhǔn)建立數(shù)字化程序,進(jìn)而管理數(shù)字化信息,有利于對(duì)其今后的訪問、使用和長(zhǎng)期保存。從交流共享的角度考慮,各國(guó)數(shù)字化工程都應(yīng)該適當(dāng)遵循既定的、國(guó)際公認(rèn)的標(biāo)準(zhǔn),尤其是此類標(biāo)準(zhǔn)尚為在本國(guó)建立規(guī)范前,采用國(guó)際標(biāo)準(zhǔn)為最佳選擇。
4 啟示
多年來(lái),英國(guó)古籍?dāng)?shù)字化標(biāo)準(zhǔn)化工作雖然目前沒有對(duì)外出臺(tái)古籍?dāng)?shù)字化的具體標(biāo)準(zhǔn)條例,但其數(shù)字化工程中應(yīng)用的數(shù)字管理技術(shù)、文檔編碼技術(shù)等技術(shù)規(guī)范,以及對(duì)古籍文獻(xiàn)資源的分類和管理工作,帶給我們諸多啟示。
4.1 加強(qiáng)存儲(chǔ)規(guī)范標(biāo)準(zhǔn)建設(shè)
英國(guó)數(shù)字化古籍的存儲(chǔ)格式以PDF文件為主,輔以Word、XML等存儲(chǔ)格式。反觀我國(guó)數(shù)字化古籍存儲(chǔ)格式,目前仍處于各自為政的狀態(tài)。因而,制定文檔存儲(chǔ)標(biāo)準(zhǔn)、開發(fā)或統(tǒng)一文件格式是亟待解決的問題。統(tǒng)一數(shù)字化古籍的存儲(chǔ)格式,實(shí)現(xiàn)文獻(xiàn)存儲(chǔ)格式的標(biāo)準(zhǔn)化,應(yīng)首要促進(jìn)、聯(lián)合小范圍內(nèi)的出版機(jī)構(gòu),進(jìn)而實(shí)現(xiàn)古籍?dāng)?shù)字化出版的主要機(jī)構(gòu)協(xié)同合作,完成古籍文件存儲(chǔ)格式標(biāo)準(zhǔn)化的最終目標(biāo)。
4.2 字符處理標(biāo)準(zhǔn)的統(tǒng)一
完善字符集代碼進(jìn)而實(shí)現(xiàn)標(biāo)準(zhǔn)化,有助于統(tǒng)一數(shù)字化古籍的文件格式、建立資源數(shù)據(jù)庫(kù),實(shí)現(xiàn)資源共建共享。我國(guó)目前在古籍?dāng)?shù)字化工程中沒有統(tǒng)一的制作單位,大多相關(guān)企業(yè)以自身利益為前提,執(zhí)行不同的行業(yè)標(biāo)準(zhǔn),形成的數(shù)據(jù)庫(kù)也基本處于封閉狀態(tài)。根據(jù)當(dāng)今學(xué)術(shù)研究的趨勢(shì),數(shù)字化古籍未來(lái)將向公眾開放使用,亟需構(gòu)建層次性、結(jié)構(gòu)化的資源數(shù)據(jù)庫(kù)。各級(jí)研發(fā)部門與企業(yè)機(jī)構(gòu)應(yīng)當(dāng)提前簽訂共享協(xié)議,搭建統(tǒng)一的數(shù)字化管理平臺(tái),使用同一平臺(tái)并互相調(diào)用,實(shí)現(xiàn)資源的共建共享,充分發(fā)揮文獻(xiàn)資源的價(jià)值。
4.3 制定專門的數(shù)據(jù)加工標(biāo)準(zhǔn)
古籍?dāng)?shù)字化中,制定專門的數(shù)據(jù)加工標(biāo)準(zhǔn),對(duì)數(shù)字化發(fā)展尤為重要。掃描時(shí)分辨率大小、圖像的內(nèi)存大小等都需必要標(biāo)明。其中,在制定影像處理標(biāo)準(zhǔn)時(shí),應(yīng)力求一種符合古籍特征及需求,具有較高壓縮比,能保證低失真率,清晰顯示原始圖書原貌的統(tǒng)一圖像儲(chǔ)存格式。文化行業(yè)部門和企業(yè)機(jī)構(gòu)中要制定與數(shù)據(jù)加工相關(guān)的標(biāo)準(zhǔn)規(guī)范為最終實(shí)現(xiàn)我國(guó)古籍?dāng)?shù)字化奠定堅(jiān)實(shí)的基礎(chǔ)。
4.4 制定專門的數(shù)據(jù)庫(kù)檢索標(biāo)準(zhǔn)
制訂標(biāo)準(zhǔn)化的數(shù)字化全文檢索系統(tǒng),有助于讀者的檢索和使用。創(chuàng)建標(biāo)準(zhǔn)化檢索系統(tǒng)時(shí),有必要邀請(qǐng)專業(yè)的資深學(xué)者共同參與,在關(guān)鍵詞檢索、條件檢索、邏輯檢索、模糊檢索、組配檢索等方面制定標(biāo)準(zhǔn)規(guī)范;古籍文獻(xiàn)中涉及的人名、地名、官職、特定詞匯等專業(yè)術(shù)語(yǔ),需有符合學(xué)科特點(diǎn)的敘詞及詞組。我國(guó)現(xiàn)有的數(shù)字化檢索數(shù)據(jù)庫(kù),多由企業(yè)根據(jù)其各自現(xiàn)有條件、人員及設(shè)備進(jìn)行著錄。數(shù)據(jù)庫(kù)的檢全率、檢準(zhǔn)率較低,不便于用戶檢索使用,可見制定專門的數(shù)字化檢索標(biāo)準(zhǔn)同樣是當(dāng)務(wù)之急。
4.5 古籍文獻(xiàn)資源分類與管理標(biāo)準(zhǔn)
英國(guó)的古籍善本數(shù)字化加工之前,會(huì)根據(jù)古籍的版本、類型、紙張情況、底本完整情況等對(duì)文獻(xiàn)資源進(jìn)行分類處理,根據(jù)文獻(xiàn)資料的不同情況制定數(shù)字化處理方案,同時(shí)不同紙張性質(zhì)的古籍文獻(xiàn)存在不同的加工管理流程。我國(guó)目前缺乏文獻(xiàn)資源分類組織的流程,同樣缺少數(shù)字化古籍的管理、維護(hù)流程。古籍版本的差異決定其選用數(shù)字化方式的不同,;數(shù)字化管理流程更決定著數(shù)字化工程的未來(lái)發(fā)展。國(guó)家相關(guān)部分應(yīng)當(dāng)對(duì)此給予高度重視,以確保我國(guó)珍稀古籍資源的數(shù)字化存儲(chǔ)與利用能夠順利、有序的完成。
參考文獻(xiàn):
[ 1 ] 毛建軍.歐美地區(qū)中文古籍?dāng)?shù)字化概述[J].數(shù)字與縮微影像,2008(1):36-38.
[ 2 ] NOF-digitise Technical Standards and Guidelines.Re-vised Nov.2000[EB/OL].[2014-12-15].http://www.people-network.gov.uk/nof/technicalstandards/index.html.
[ 3 ] Working with the distributed national electronic reso-urces.Feb.2001[EB/OL].[2014-12-15].http://www.jisc.ac.uk/dner/programmes/guidance/DNERStandards.html
[ 4 ] UK Cabinet Office.E-government interoperability fra-mework,v.3,Oct.2001[EB/OL].[2014-12-15].http://www.govtalk.gov.uk/documents/e-GIF version 3 approved.pdf.
[ 5 ] PRUDERY J. The British Librarys initiatives for access projects[J].Communications of the ACM,1995(4):65-69.
[ 6 ] Digital imaging and preservation microfilm:The future of the hybrid approach for the preservation of brittle books[EB/OL].[2014-12-15.]http://www.bl.uk/aboutus/stratpolprog/digi/digitisation/index.html.
[ 7 ] 英國(guó)國(guó)家圖書館元數(shù)據(jù)標(biāo)準(zhǔn)[EB/OL].[2012-05-12].http://www.bl.uk/bibliographic/service.html(Metadata Standards).
[ 8 ] 英國(guó)古籍?dāng)?shù)字化項(xiàng)目指南[EB/OL].[2012-05-11].http://www.bl.uk/aboutus/stratpolprog/digi/digitisation/index.html.
[ 9 ] Guidelines for digitization projects for collections and holdings in the public domain, particularly those held by libraries and archives英國(guó)圖書館數(shù)字化戰(zhàn)略規(guī)劃[EB/OL].[2014-12-15].http://www.bl.uk/aboutus/stratpolprog/digi/digitisation/digistrategy/index.html#top.
[10] 英國(guó)國(guó)際敦煌項(xiàng)目[EB/OL].[2014-12-15].http://idp.bl.uk/pages/collections_en.a4d#pagetop.
[11] 英國(guó)敦煌古籍?dāng)?shù)字化項(xiàng)目研究[EB/OL].[2014-12-15].http://idp.bl.uk/pages/education_research.a4d.
[12] 中國(guó)國(guó)家圖書館:國(guó)際敦煌項(xiàng)目(IDP)[EB/OL].[2014-
12-15].http://idp.nlc.gov.cn/.
[13] 雪鳴宏.英國(guó)古籍書目數(shù)據(jù)庫(kù):ISTC[J].姜振儒,編譯.河北科技圖苑,1993(3):56-57.
[14] WHITFIELD S. The international Dunhuang project:A challenge for digitization[J].Microform and Imaging
Review,1997(26):15-21.