■阮曉東
古籍?dāng)?shù)據(jù)庫(kù)利用探索
■阮曉東
我國(guó)的中文古籍?dāng)?shù)字化工作自20世紀(jì)80年代以來(lái)逐步推進(jìn),并取得了較為顯著的成果。先后建成了一系列大、中型古籍?dāng)?shù)據(jù)庫(kù),具有代表性的如《古今圖書(shū)集成》數(shù)據(jù)庫(kù)、《文淵閣四庫(kù)全書(shū)》電子版、《中國(guó)基本古籍庫(kù)》、書(shū)同文全文檢索系統(tǒng)。這些數(shù)據(jù)庫(kù),為文史工作者進(jìn)行學(xué)術(shù)研究提供了極大的便利。
而作為圖書(shū)館工作者,則可以利用這些古籍?dāng)?shù)據(jù)庫(kù),進(jìn)行本館特色資源的開(kāi)發(fā)和建設(shè),或編制專(zhuān)業(yè)工具書(shū)等,收到事半功倍的效果,對(duì)此我們做了一些探索。
古籍?dāng)?shù)據(jù)數(shù)字化形式主要有古籍書(shū)目型、全文型、全圖像型和圖文型。
古籍書(shū)目型數(shù)據(jù)庫(kù)是最早建立起來(lái)的有關(guān)古籍資料的數(shù)據(jù)庫(kù),只能說(shuō)是古籍?dāng)?shù)字化的雛形。它將館藏古籍的書(shū)目、著者、分類(lèi)、索引等信息錄入計(jì)算機(jī)而形成,其代表是南京圖書(shū)館建立的中文古籍書(shū)目數(shù)據(jù)庫(kù),共收錄了40萬(wàn)條數(shù)據(jù)。再有是我國(guó)清華、北大兩所高校各自編撰的館藏古籍書(shū)目數(shù)據(jù)庫(kù),其資源庫(kù)投入使用后,極大的方便了讀者。
全文型古籍?dāng)?shù)據(jù)庫(kù)是通過(guò)手工或者掃描錄入古籍資源,形成電子文本,供用戶(hù)查詢(xún)。優(yōu)點(diǎn)便于閱讀,便于檢索,儲(chǔ)備量大且存儲(chǔ)空間小,缺點(diǎn)文字錄入艱難,無(wú)古籍原貌。其代表可見(jiàn)臺(tái)灣的漢籍全文資料庫(kù)。
全圖像型古籍?dāng)?shù)據(jù)庫(kù)是直接通過(guò)掃描,以圖片格式,配以標(biāo)引,再進(jìn)行分類(lèi)存儲(chǔ),目前是各大圖書(shū)館采用最多的手段。優(yōu)點(diǎn)是保存古籍原貌,缺點(diǎn)是檢索困難。其代表為武漢大學(xué)出版社以文淵閣本《四庫(kù)全書(shū)》為底本的“四庫(kù)全書(shū)光盤(pán)版”。南京圖書(shū)館2010年推出的《中國(guó)近代文獻(xiàn)圖像數(shù)據(jù)庫(kù)》,目前已匯集中華民國(guó)時(shí)期文獻(xiàn)中的圖片十余萬(wàn)幅。
圖文型古籍?dāng)?shù)據(jù)庫(kù)是在存儲(chǔ)古籍圖像基礎(chǔ)上,將書(shū)中具有檢索內(nèi)容數(shù)字化,借助軟件工具,讀者可以快捷的查詢(xún)。
全文圖像型,是通過(guò)光學(xué)掃描,獲得古籍的原始影像,再經(jīng)過(guò)修正、標(biāo)引、編輯等工序,將此影像直接存入數(shù)據(jù)庫(kù)中。這種數(shù)據(jù)庫(kù),其制作優(yōu)勢(shì)是方便快捷,不必對(duì)古籍文字進(jìn)行錄入、識(shí)別和校對(duì),且其內(nèi)容完整,原汁原味。缺點(diǎn)也很明顯,它其實(shí)就是紙本圖書(shū)的圖像版。雖然有一些輔助檢索功能,但檢索點(diǎn)少,實(shí)用性不高。
全文檢索型,其制作方式,一是通過(guò)人工文字錄入,獲得可以任意編輯的文本文字,這是目前采用的主要方式。二是通過(guò)光學(xué)掃描后,采用文字識(shí)別軟件,對(duì)掃描出的原書(shū)圖像進(jìn)行分析和識(shí)別,產(chǎn)生可編輯的文本文字。由于古籍印刷方式多樣,且字體差異大,并含有異體字,缺筆避諱字等,采用通用文字識(shí)別軟件進(jìn)行識(shí)別極為困難,除非花高價(jià)專(zhuān)門(mén)設(shè)計(jì)針對(duì)特定圖書(shū)的文字識(shí)別軟件,因此無(wú)法普及。
總之,全文檢索型古籍?dāng)?shù)據(jù)庫(kù)制作困難,要進(jìn)行大量的文字錄入、校對(duì)等人工勞動(dòng),費(fèi)工費(fèi)力,造價(jià)昂貴。但其優(yōu)勢(shì)也極為明顯,即可以進(jìn)行任意字詞的全文檢索,實(shí)現(xiàn)查全查準(zhǔn),這是古籍電子資源最重要的優(yōu)點(diǎn)之一。
當(dāng)前,大大小小的古籍?dāng)?shù)據(jù)庫(kù)層出不窮,為我們利用古籍?dāng)?shù)據(jù)庫(kù)制作圖書(shū)館特色數(shù)字資源和編制專(zhuān)業(yè)工具書(shū)提供了極好的條件。而要合理地利用古籍?dāng)?shù)據(jù)庫(kù),首先需要對(duì)其進(jìn)行科學(xué)的選擇。我們的選取原則,是優(yōu)先選擇大、中型全文檢索型數(shù)據(jù)庫(kù)。
以南京圖書(shū)館的中文電子文獻(xiàn)為例,目前我們可以獲得的古籍全文檢索型數(shù)據(jù)庫(kù)如下:
《瀚堂典藏》古籍?dāng)?shù)據(jù)庫(kù):此數(shù)據(jù)庫(kù)采用大字符集和通用瀏覽器模式。以小學(xué)工具類(lèi)、古代類(lèi)書(shū)類(lèi)數(shù)據(jù)、出土文獻(xiàn)類(lèi)數(shù)據(jù)為基礎(chǔ),大量納入包括經(jīng)、史、子、集四部、中醫(yī)藥典籍、古典戲曲、敦煌文獻(xiàn)、儒、釋、道等歷代傳世文獻(xiàn),文字總量超過(guò)15億字,篇幅驚人。
《瀚堂近代報(bào)刊》數(shù)據(jù)庫(kù):這是瀚堂公司推出的另一大型數(shù)據(jù)庫(kù)。到2011年,全庫(kù)數(shù)據(jù)總量約300萬(wàn)筆,圖文對(duì)應(yīng)的報(bào)刊圖片近80萬(wàn)幀。并匯集了300多種清末至民初的報(bào)紙和刊物。
《瀚堂典藏》新增分庫(kù):這是瀚堂公司2010年推出的《古本小說(shuō)》分庫(kù),收錄唐以前至民國(guó)初年的志人類(lèi)、志怪類(lèi)、傳奇類(lèi)、話(huà)本類(lèi)、章回類(lèi)、短篇類(lèi)等,文言、白話(huà)小說(shuō)書(shū)目約400種。
《文淵閣四庫(kù)全書(shū)》電子版:清代乾隆年間編纂的《四庫(kù)全書(shū)》,是中國(guó)古代最大的一部叢書(shū)。其電子版共收書(shū)3461種,總字?jǐn)?shù)約七億字,全書(shū)分為經(jīng)、史、子、集四部,內(nèi)容涵蓋廣博,包括哲學(xué)、歷史、文藝、政治、社會(huì)、經(jīng)濟(jì)、軍事、法律、醫(yī)學(xué)、天文、地理、算學(xué)、生物學(xué)、農(nóng)業(yè)、占卜等。
中國(guó)基本古籍庫(kù):分為4個(gè)子庫(kù)、20個(gè)大類(lèi)和100個(gè)細(xì)目,共收錄上自先秦,下迄民國(guó)的歷代名著和各學(xué)科基本文獻(xiàn)一萬(wàn)種,每種均提供一個(gè)通行版本的數(shù)碼全文,和1-2個(gè)珍貴版本的原版影像??傆?jì)收書(shū)約17萬(wàn)卷,版本12500多個(gè),全文17億字,影像1200萬(wàn)頁(yè)。
書(shū)同文全文檢索系統(tǒng):南京圖書(shū)館試用其全文檢索產(chǎn)品有:《大清五部會(huì)典》《大清歷朝實(shí)錄》《四部叢刊》及增補(bǔ)、《歷代石刻史料匯編》和《十通》等。
此外,還有南京圖書(shū)館自建的館藏古籍全文數(shù)據(jù)庫(kù)等。
上述這些大、中型全文檢索型數(shù)據(jù)庫(kù),我們可以在館內(nèi)直接獲取,而無(wú)需付出任何費(fèi)用,尤其是其中的大型全文檢索型數(shù)據(jù)庫(kù),是我們編輯專(zhuān)業(yè)工具書(shū),制作特色數(shù)據(jù)庫(kù)的主要工具。
這里以《文淵閣四庫(kù)全書(shū)》電子版的利用為例,探討編輯《中華大典·軍事典》和制作“金陵掌故”特色數(shù)據(jù)庫(kù)的方法和技巧。
1、編撰《中華大典》的實(shí)踐和體會(huì):《中華大典》是國(guó)家“十一五”時(shí)期文化發(fā)展規(guī)劃綱要的重要項(xiàng)目。這部類(lèi)書(shū)巨著,共設(shè)24個(gè)分類(lèi)典。其中《中華大典·軍事典》的編纂工作,于2009年4月正式啟動(dòng)。
《軍事典》共設(shè)6個(gè)分典,其中《軍事人物分典》,由南京政治學(xué)院擔(dān)負(fù)編纂任務(wù),南京圖書(shū)館是其合作單位。這也是南京圖書(shū)館為科研單位提供高端服務(wù)的一次有益嘗試?!盾娛氯宋锓值洹穬?nèi)容涉及上迄先秦,下至辛亥革命的數(shù)千年的軍事人物,以及浩如煙海的歷史典籍。
編輯《軍事人物分典》這一類(lèi)專(zhuān)業(yè)工具書(shū),首先必須從成千上萬(wàn)種古籍中篩選出最核心的善本典籍,制定為專(zhuān)用書(shū)目,從而為古籍的使用劃定一個(gè)科學(xué)合理的范圍。以后還可以根據(jù)專(zhuān)用書(shū)目,查找原始的善本資料。而單純用人工方式,通過(guò)對(duì)紙質(zhì)文獻(xiàn)進(jìn)行逐類(lèi)逐種篩選,其工作量驚人,且難以全面準(zhǔn)確地查出所有核心文獻(xiàn)。我們采用《文淵閣四庫(kù)全書(shū)》電子版,輔以其它古籍?dāng)?shù)據(jù)庫(kù),再通過(guò)對(duì)原始古籍的檢索查詢(xún),較好地完成了編制專(zhuān)用書(shū)目的任務(wù)。
《文淵閣四庫(kù)全書(shū)》電子版界面友好,易學(xué)易用,除了支持全文檢索,可以進(jìn)行整段、片段甚至單個(gè)字詞查詢(xún),還具有一些實(shí)用而重要的功能,例如原始文獻(xiàn)對(duì)照功能。用戶(hù)在閱讀文本文檔時(shí),可以隨時(shí)調(diào)閱原始的掃描影像,進(jìn)行對(duì)比校對(duì),有利于保證文字的正確性。還有單種文獻(xiàn)查詢(xún)功能,即可以針對(duì)某一類(lèi)型甚至某一種書(shū)進(jìn)行全文查詢(xún),即提高了檢索結(jié)果的單純性,也提高了檢索速度。此外,《文淵閣四庫(kù)全書(shū)》電子版不僅有網(wǎng)絡(luò)版,也有單機(jī)版,便于用戶(hù)在圖書(shū)館以外的地方獨(dú)立工作。這些優(yōu)點(diǎn),使我們可以在較短時(shí)間內(nèi)組織專(zhuān)人,利用此數(shù)據(jù)庫(kù)進(jìn)行所需的加工制作。
以我們負(fù)責(zé)的魏晉南北朝時(shí)期為例。按計(jì)劃,選有軍事人物約150人。我們選擇了其中的重要人物30余名,將其姓名逐個(gè)輸入“四庫(kù)全書(shū)”數(shù)據(jù)庫(kù)中,進(jìn)行查檢。例如曹操,以其本名及魏武、魏公、阿瞞等作為檢索詞,搜得相關(guān)結(jié)果一萬(wàn)余條。逐條閱讀,以篩選出包含重要內(nèi)容的古籍,再經(jīng)參照其他古籍?dāng)?shù)據(jù)庫(kù),得出用于魏晉南北朝時(shí)期的專(zhuān)用書(shū)目。其中經(jīng)類(lèi)書(shū)25種,史類(lèi)書(shū)140種,子類(lèi)書(shū)90種,集類(lèi)書(shū)100種。最后,再?gòu)酿^藏中查找出列入書(shū)目中的較好版本的古籍,完成通用書(shū)目的編制。
通用書(shū)目完成后,即可進(jìn)行軍事人物詞條的檢索和選取。同樣,以曹操的相關(guān)稱(chēng)謂為檢索詞,分別從經(jīng)、史、子、集四部得到相關(guān)記錄。其中僅曹操一詞即檢出四千余條記錄。逐條篩選,獲得時(shí)間早、內(nèi)容豐富、罕見(jiàn)的條目,而剔除大量簡(jiǎn)單重復(fù)的記錄。
這些極大檢索量的工作,采用手工勞動(dòng)方式是無(wú)法完成的。
2、制作《金陵掌故》全文數(shù)據(jù)庫(kù)的實(shí)踐和體會(huì):《金陵掌故》數(shù)據(jù)庫(kù)是我們初步開(kāi)發(fā)的一個(gè)地方文獻(xiàn)數(shù)據(jù)庫(kù)。其收錄范圍,涉及上古到清代與南京有關(guān)的盡可能多的文獻(xiàn),包括圖書(shū)(含單篇文章)庫(kù)和詞條庫(kù)兩部分。其內(nèi)容以地理、歷史、風(fēng)俗及與之相關(guān)的人物、故實(shí)為主。數(shù)據(jù)庫(kù)按分類(lèi)組織,支持全文檢索,其文字可以任意復(fù)制和編輯。
初期制作中,我們從《四庫(kù)全書(shū)》電子版等古籍?dāng)?shù)據(jù)庫(kù)中,提取相關(guān)古籍電子資源,如《景定建康志》《江南野史》《至大金陵新志》《金陵百詠》《六朝事跡編類(lèi)》等數(shù)十種,另制定了掃描計(jì)劃,擬將一些沒(méi)有電子文本的南京地區(qū)的地方文獻(xiàn)進(jìn)行文字錄入,與現(xiàn)有電子文獻(xiàn)共同形成文本型的圖書(shū)庫(kù)。
詞條庫(kù)部分,設(shè)置歷史、地理、風(fēng)俗、人物,文學(xué)等大類(lèi),其下再逐級(jí)設(shè)置二級(jí)和三級(jí)等類(lèi)目,進(jìn)行深度的細(xì)分。例如地理類(lèi)的,則按傳統(tǒng)方式,設(shè)置城邑、山陵、湖沼、河流、樓臺(tái)等二級(jí)類(lèi)目,以及各自的三級(jí)乃至四級(jí)類(lèi)目。
詞條的選取方法,首先是利用《四庫(kù)全書(shū)》電子版等古籍?dāng)?shù)據(jù)庫(kù),對(duì)相關(guān)詞條進(jìn)行搜索、比對(duì),選擇出最原始,或內(nèi)容最豐富的詞條。最后根據(jù)預(yù)先制定的標(biāo)引規(guī)則進(jìn)行標(biāo)引。在此搜檢過(guò)程中,還可能不斷發(fā)現(xiàn)和充實(shí)新詞條,使特色數(shù)據(jù)庫(kù)更加完善。限于篇幅,這里就不詳述了。
需要注意的是,現(xiàn)行古籍?dāng)?shù)據(jù)庫(kù)的古籍,絕大多數(shù)未斷句和加標(biāo)點(diǎn)。而我們據(jù)此制作的特色數(shù)據(jù)庫(kù),考慮到普及性和可讀性等因素,需要斷句和加上句號(hào)、逗號(hào)等基本標(biāo)點(diǎn)。這是一項(xiàng)嚴(yán)肅且較為艱難的工作。應(yīng)直接套用中華書(shū)局及各省正規(guī)古籍出版單位出版的標(biāo)點(diǎn)本同一圖書(shū),進(jìn)行斷句和標(biāo)點(diǎn)。確實(shí)沒(méi)有合格的同一紙質(zhì)文獻(xiàn),再考慮聘請(qǐng)專(zhuān)家,進(jìn)行標(biāo)點(diǎn)工作。
近幾年來(lái),我國(guó)古籍電子資源建設(shè)的步伐不斷加速,2011年,文化部發(fā)布了《關(guān)于進(jìn)一步加強(qiáng)古籍保護(hù)工作的通知》,要求加快古籍的數(shù)字化建設(shè)。2012年5月,文化部主辦了“全國(guó)古籍?dāng)?shù)字化建設(shè)與服務(wù)工作研討會(huì)”,對(duì)全國(guó)古籍?dāng)?shù)字化合作服務(wù)機(jī)制、國(guó)內(nèi)外古籍?dāng)?shù)字化保護(hù)利用、古籍?dāng)?shù)字化成果共享方式和古籍?dāng)?shù)字化標(biāo)準(zhǔn)規(guī)范等問(wèn)題進(jìn)行了研究,并提出了要求。國(guó)家古籍保護(hù)中心和各省級(jí)古籍保護(hù)中心進(jìn)行了規(guī)模宏大的中華古籍?dāng)?shù)字資源庫(kù)的建設(shè)。
長(zhǎng)期以來(lái),圖書(shū)館大量投資,致力于古籍?dāng)?shù)據(jù)庫(kù)的購(gòu)置和自建,供用戶(hù)科研學(xué)習(xí)之用,而對(duì)圖書(shū)館自身如何利用這類(lèi)數(shù)據(jù)庫(kù),制作二三次文獻(xiàn)或特色數(shù)據(jù)庫(kù),乃至進(jìn)行其它電子資源的開(kāi)發(fā),似并未加以關(guān)注。特撰寫(xiě)此文,拋磚引玉,希望引起同仁們的廣泛重視,從而使大量涌現(xiàn)的古籍?dāng)?shù)據(jù)庫(kù)不僅是用戶(hù)學(xué)術(shù)研究的工具,也是圖書(shū)館工作者拓展服務(wù)的利器。