劉 雅
國(guó)家圖書(shū)館中文采編部
〔北京市海淀區(qū) 100081〕
*?jiǎng)?雅女,出生于1981年,館員。
目次是書(shū)刊上的目錄,表示內(nèi)容的篇目次序,由篇、章、條、款、項(xiàng)、附錄、題錄等序號(hào)、名稱和頁(yè)碼組成。目次數(shù)據(jù)是數(shù)字化了的目次信息,目次數(shù)據(jù)庫(kù)則是按照一定的格式與數(shù)據(jù)模型組織起來(lái)的目次數(shù)據(jù)集合。近幾年數(shù)字圖書(shū)館如雨后春筍般紛紛建立,與此同時(shí),傳統(tǒng)紙質(zhì)文獻(xiàn)的電子化、數(shù)據(jù)化工作也開(kāi)展得如火如荼。為了讓讀者能更全面、更深入地利用文獻(xiàn)資源,目次數(shù)據(jù)的制作與利用已經(jīng)得到了國(guó)內(nèi)很多圖書(shū)館的重視,越來(lái)越多的圖書(shū)館開(kāi)始制作目次數(shù)據(jù),并將其與系統(tǒng)掛接供讀者檢索使用。
圖書(shū)的目次是圖書(shū)的內(nèi)容大綱,可以完整真實(shí)地反映圖書(shū)的整體結(jié)構(gòu),使用戶在閱讀前對(duì)圖書(shū)的架構(gòu)能一目了然。無(wú)論是傳統(tǒng)圖書(shū)館,還是數(shù)字圖書(shū)館,相對(duì)于圖書(shū)的題名、責(zé)任者、分類號(hào)而言,圖書(shū)的目次具有更多、更重要的信息內(nèi)容。目次可以更深層次地揭示圖書(shū)內(nèi)容,查閱一本書(shū)的目次,有助于了解圖書(shū)的結(jié)構(gòu)和內(nèi)容概要,讓讀者對(duì)書(shū)了解更全面[1]。
關(guān)重要的參考作用
目次數(shù)據(jù)是對(duì)文獻(xiàn)內(nèi)容客觀忠實(shí)的反映,它能讓讀者大致了解文獻(xiàn)內(nèi)容,從而判斷該文獻(xiàn)是否為自己所需要的。曾有學(xué)者通過(guò)問(wèn)卷進(jìn)行調(diào)查統(tǒng)計(jì),其中一項(xiàng)針對(duì)圖書(shū)書(shū)名、著者、出版時(shí)間、圖書(shū)目次、內(nèi)容簡(jiǎn)介等項(xiàng)目對(duì)讀者借書(shū)決策所起的作用進(jìn)行調(diào)查,調(diào)查結(jié)果是讀者選擇圖書(shū)目次的人數(shù)最多。由此可以看出,目次對(duì)用戶在選擇圖書(shū)方面起到了重要的作用[2]。
對(duì)編目員來(lái)說(shuō),其關(guān)注的是如何讓用戶得到更準(zhǔn)確、更全面和組織更為合理的信息,他們甚至希望用戶可以只通過(guò)對(duì)書(shū)目數(shù)據(jù)的瀏覽即可確定對(duì)該文獻(xiàn)的需要程度,因此,目次數(shù)據(jù)對(duì)用戶和圖書(shū)館員來(lái)說(shuō)都是同等重要的。
2009年,OCLC發(fā)表了《Online Catalogs:What Users and Librarians Want:An OCLC Report》(聯(lián)機(jī)目錄:用戶和圖書(shū)館工作人員需要什么)。報(bào)告做了基于對(duì)WorldCat用戶的三個(gè)調(diào)查,以不同用戶(最終用戶與圖書(shū)館工作人員)對(duì)目錄數(shù)據(jù)質(zhì)量認(rèn)識(shí)作為調(diào)查重點(diǎn),得出改善目錄數(shù)據(jù)的建議[3]。調(diào)查結(jié)果顯示:圖書(shū)館員和工作人員希望用目次來(lái)加強(qiáng)目錄中的數(shù)據(jù),其強(qiáng)烈愿望僅次于“合并重復(fù)數(shù)據(jù)”。在對(duì)用戶的調(diào)查中顯示,終端用戶認(rèn)為“提高目錄數(shù)據(jù)質(zhì)量”是最希望實(shí)現(xiàn)的,排名前兩位的是“增加網(wǎng)絡(luò)內(nèi)容/全文的鏈接”以及“更多的主題信息”。并列排在第三的是“更多的目次”以及“增加概要/摘要”。
可見(jiàn),目次數(shù)據(jù)在對(duì)文獻(xiàn)內(nèi)容的揭示、資源的查找等方面具有較強(qiáng)的優(yōu)勢(shì),對(duì)于完善書(shū)目數(shù)據(jù)來(lái)說(shuō)是不可或缺的。
目前,從圖書(shū)生產(chǎn)到流通的各個(gè)環(huán)節(jié)都有目次數(shù)據(jù)產(chǎn)生。大致可以分成四個(gè)來(lái)源:(1)出版社。出版社交付印刷的圖書(shū)都是電子版,所以出版社擁有圖書(shū)的電子目次。有些出版社還將一部分圖書(shū)的目次數(shù)據(jù)放在出版社網(wǎng)站上以供檢索,比如北京大學(xué)出版社、當(dāng)代世界出版社等。瀏覽者只要通過(guò)點(diǎn)擊一本書(shū),就能看到該書(shū)的內(nèi)容簡(jiǎn)介、前言、目次等信息。(2)圖書(shū)供應(yīng)商。當(dāng)當(dāng)網(wǎng)、卓越等網(wǎng)上書(shū)店一般都提供了數(shù)字化的目次、作者簡(jiǎn)介、內(nèi)容簡(jiǎn)介等信息。圖書(shū)館供應(yīng)商提供的目次數(shù)據(jù)雖然多且全,但缺點(diǎn)是格式不規(guī)范,目次的等級(jí)錄入?yún)⒉畈积R。(3)數(shù)字化公司。萬(wàn)方數(shù)據(jù)、方正等,他們制作了很多電子圖書(shū),其中都包含目次數(shù)據(jù)。但目次數(shù)據(jù)只是圖書(shū)數(shù)字化的附屬產(chǎn)品,并非這些公司的主營(yíng)業(yè)務(wù)。(4)圖書(shū)館類機(jī)構(gòu)。比如,中國(guó)科學(xué)院國(guó)家科學(xué)圖書(shū)館的UNICAT聯(lián)合目錄提供目次數(shù)據(jù)。
既然目次數(shù)據(jù)的產(chǎn)生渠道這么多,各圖書(shū)館可以根據(jù)自身特點(diǎn),整合各種渠道的目次數(shù)據(jù),采取以下一種或綜合多種方式制作目次數(shù)據(jù),建設(shè)目次數(shù)據(jù)庫(kù)。
一方面,可由圖書(shū)館員采用傳統(tǒng)人工方式制作目次數(shù)據(jù),這種方式的最大優(yōu)勢(shì)在于:遵循一定的著錄規(guī)則,格式相對(duì)規(guī)范,方便用戶檢索和進(jìn)行數(shù)據(jù)交換。但是,由人工來(lái)制作目次數(shù)據(jù)的劣勢(shì)在于:速度是制作目次數(shù)據(jù)的瓶頸,還需要投入大量的人力物力進(jìn)行制作、校對(duì),錯(cuò)誤量也居高不下。國(guó)家圖書(shū)館從2000年4月開(kāi)始手工輸入制作中文學(xué)術(shù)性圖書(shū)的目次數(shù)據(jù),主要選擇匯編、個(gè)人全集、選集、學(xué)術(shù)論文集、會(huì)議錄等目次有檢索意義的圖書(shū),將每一條目次信息著錄到一個(gè)獨(dú)立的自定義970字段中,970字段的第二個(gè)指示符表示標(biāo)題的層級(jí),比如子字段$h表示章節(jié)號(hào)、$i表示章節(jié)標(biāo)題、$f表示著者。截至2009年8月,國(guó)家圖書(shū)館已經(jīng)完成77 000多種圖書(shū)近840萬(wàn)條目次數(shù)據(jù)的制作。在數(shù)字化、信息化高速發(fā)展的今天,手工輸入目次數(shù)據(jù)的方式顯然缺乏效率。
另一方面,是采取外包方式委托制作。將目次數(shù)據(jù)從掃描、OCR識(shí)別、校對(duì)、數(shù)據(jù)查重等全流程外包給有編目經(jīng)驗(yàn)的第三方,圖書(shū)館主要負(fù)責(zé)校對(duì)和驗(yàn)收工作。這種方式的優(yōu)勢(shì)在于:可以從最初選擇外包公司到最終數(shù)據(jù)的校對(duì)進(jìn)行全過(guò)程的控制,效率高。缺點(diǎn)則是投入較大。
購(gòu)買(mǎi)的主要對(duì)象是數(shù)據(jù)庫(kù)廠商、圖書(shū)供應(yīng)商,主要形式是在購(gòu)買(mǎi)數(shù)據(jù)庫(kù)或圖書(shū)的同時(shí)要求其附贈(zèng)目次數(shù)據(jù)或通過(guò)增值購(gòu)買(mǎi)目次數(shù)據(jù)。目前,可獲取目次數(shù)據(jù)的電子圖書(shū)數(shù)據(jù)庫(kù)商中較大的有方正電子圖書(shū)。方正電子圖書(shū)所收錄內(nèi)容來(lái)自400多家出版社,大概100多萬(wàn)冊(cè),這些電子圖書(shū)一般都帶有目次數(shù)據(jù),但它們是單獨(dú)保存的XML格式,一種圖書(shū)有一個(gè)或多個(gè)XML目次文件,這些數(shù)據(jù)的特點(diǎn)是,章節(jié)號(hào)、章節(jié)名和著者是放在同一個(gè)標(biāo)簽字段的同一個(gè)屬性中,頁(yè)碼是放在另一個(gè)屬性中。如果要導(dǎo)出目次數(shù)據(jù),需要開(kāi)發(fā)工具批量導(dǎo)出,導(dǎo)出后的數(shù)據(jù)沒(méi)有目次層級(jí)關(guān)系。
這種方式的優(yōu)點(diǎn)是:以相對(duì)小的成本獲取目次數(shù)據(jù),此種方式相對(duì)于外包制作而言,可降低40%左右的費(fèi)用;目次數(shù)據(jù)完整。缺點(diǎn)是:每個(gè)制作商在格式與標(biāo)引規(guī)則上會(huì)與各圖書(shū)館的既有數(shù)據(jù)存有較大差異,影響數(shù)據(jù)的再整合;購(gòu)買(mǎi)的目次數(shù)據(jù)會(huì)限制使用范圍,無(wú)法與其他公益性圖書(shū)館共享。
網(wǎng)絡(luò)采集包括兩種形式:一種是抓取網(wǎng)絡(luò)上提供的免費(fèi)的目次數(shù)據(jù),與書(shū)目數(shù)據(jù)進(jìn)行掛接;當(dāng)當(dāng)網(wǎng)、瑯瑯圖書(shū)、豆瓣圖書(shū)以及一些出版社的網(wǎng)站上會(huì)提供圖書(shū)的內(nèi)容簡(jiǎn)介、前言、目次等信息,可以通過(guò)自動(dòng)抓取技術(shù)獲取這些目次信息。網(wǎng)頁(yè)抓取目次數(shù)據(jù)是使用解析程序?qū)W(wǎng)頁(yè)內(nèi)容進(jìn)行解析,得出圖書(shū)目次。主要有兩種技術(shù)路線,一種是使用網(wǎng)頁(yè)爬蟲(chóng)抓取web數(shù)據(jù),另一種方式是按照ISBN號(hào)訪問(wèn)鏈接地址,進(jìn)行抓取。另一種是在采集網(wǎng)絡(luò)電子圖書(shū)的過(guò)程中,同時(shí)采集目次數(shù)據(jù),通過(guò)技術(shù)處理,與電子圖書(shū)全文一起為用戶提供服務(wù)。網(wǎng)絡(luò)電子圖書(shū)作為網(wǎng)絡(luò)資源的重要組成部分,正在逐漸成為數(shù)字圖書(shū)館的館藏。2010年建設(shè)的國(guó)家開(kāi)放存取資源總庫(kù)采集了約5萬(wàn)本電子圖書(shū)。在這個(gè)資源庫(kù)中,可以利用數(shù)字技術(shù)對(duì)電子圖書(shū)的目次數(shù)據(jù)進(jìn)行提取,實(shí)現(xiàn)目次數(shù)據(jù)與全文的鏈接,使用戶可以方便地從目次直接定位到正文。
網(wǎng)絡(luò)采集方式的優(yōu)勢(shì)在于:成本低,易操作,效率高。劣勢(shì)在于:目次數(shù)據(jù)格式五花八門(mén),十分復(fù)雜;目次數(shù)據(jù)的正確性、完整性得不到保證,有的只有一級(jí)目錄,而且沒(méi)有進(jìn)行質(zhì)量控制,錯(cuò)誤率很高,要利用的話需要進(jìn)行大量校對(duì)工作;有些PDF格式的電子圖書(shū)被放到網(wǎng)上前經(jīng)過(guò)了處理,如:加密不能復(fù)制,或者復(fù)制后與原文不一致,或者復(fù)制內(nèi)容粘貼后顯示亂碼。這些問(wèn)題的出現(xiàn)無(wú)任何規(guī)律可循,若要加以利用需耗費(fèi)很大功夫。
國(guó)外圖書(shū)館都比較重視目次數(shù)據(jù)庫(kù)的建設(shè)。美國(guó)國(guó)會(huì)圖書(shū)館處理目次數(shù)據(jù)的方式之一是采用856字段方式進(jìn)行鏈接,將目次數(shù)據(jù)集中放到一個(gè)服務(wù)器上后,根據(jù)每一條目次所在的地址通過(guò)系統(tǒng)為相應(yīng)的書(shū)目數(shù)據(jù)自動(dòng)追加一個(gè)856字段。英國(guó)國(guó)家圖書(shū)館的部分圖書(shū)都提供了目次顯示,主要通過(guò)在MARC數(shù)據(jù)中以字段注釋方式提供鏈接。日本國(guó)會(huì)圖書(shū)館的目次數(shù)據(jù)是放在書(shū)目記錄的“contents”字段中,并進(jìn)行顯示。
相對(duì)而言,國(guó)內(nèi)圖書(shū)館在目次數(shù)據(jù)庫(kù)的建設(shè)方面還處于落后狀態(tài),也是近幾年才開(kāi)始重視目次數(shù)據(jù)庫(kù)的建設(shè)。目前,國(guó)內(nèi)提供目次數(shù)據(jù)的圖書(shū)館主要有國(guó)家圖書(shū)館、中科院國(guó)家科學(xué)圖書(shū)館、上海交通大學(xué)圖書(shū)館等幾家。國(guó)家圖書(shū)館的特色資源庫(kù)、方正電子圖書(shū)中都含有目次數(shù)據(jù),因各種原因,2009年前手工輸入的目次數(shù)據(jù)尚未掛接到系統(tǒng)中以供檢索使用。中國(guó)科學(xué)院國(guó)家科學(xué)圖書(shū)館的UNICAT聯(lián)合目錄集成服務(wù)系統(tǒng),2007年開(kāi)發(fā)了圖書(shū)目次服務(wù)功能,在書(shū)目數(shù)據(jù)中嵌入目次、書(shū)評(píng)信息。目前,UNICAT聯(lián)合目錄集成服務(wù)系統(tǒng)有近16 000種圖書(shū)數(shù)據(jù)嵌入了目次信息,3 000余種圖書(shū)數(shù)據(jù)嵌入了書(shū)評(píng)內(nèi)容,并逐年增加[4]。
目次數(shù)據(jù)的制作是一項(xiàng)長(zhǎng)期的任務(wù),若是涵蓋所有中文圖書(shū)的話,每年需要制作的數(shù)量也頗為可觀,如果每個(gè)圖書(shū)館均按照自己的格式、方式方法建設(shè)目次數(shù)據(jù)庫(kù),將會(huì)造成大量人力、物力、財(cái)力的浪費(fèi)。因此,共建共享目次數(shù)據(jù)庫(kù)是信息時(shí)代圖書(shū)館的最好選擇。
上文已介紹,各種渠道獲取的目次數(shù)據(jù)格式不一,有的是掃描的圖像格式,只能閱讀不能修改;有的是TXT文本格式;有的是MARC格式。因格式千差萬(wàn)別,要把各種渠道所獲得的目次數(shù)據(jù)經(jīng)過(guò)轉(zhuǎn)化成為各個(gè)圖書(shū)館能利用的格式有點(diǎn)難度,因此,要想共享目次數(shù)據(jù)首先要統(tǒng)一目次數(shù)據(jù)的相關(guān)標(biāo)準(zhǔn)規(guī)范,避免由于標(biāo)準(zhǔn)、規(guī)則等不統(tǒng)一而造成混亂。國(guó)家圖書(shū)館應(yīng)發(fā)揮行業(yè)引領(lǐng)作用,適時(shí)制訂目次的生產(chǎn)標(biāo)準(zhǔn)和規(guī)范,并推廣到全國(guó)。
用戶對(duì)目次數(shù)據(jù)的呼聲越來(lái)越高將會(huì)推動(dòng)目次數(shù)據(jù)庫(kù)在全國(guó)范圍內(nèi)的建設(shè)與發(fā)展,而共建共享是建設(shè)目次數(shù)據(jù)庫(kù)的發(fā)展方向。要達(dá)到這個(gè)目的,必然需要一個(gè)公益性目次數(shù)據(jù)采集平臺(tái)供上傳和下載目次數(shù)據(jù),這個(gè)平臺(tái)的目次數(shù)據(jù)可以來(lái)自兩個(gè)聯(lián)合:(1)圖書(shū)館界的橫向聯(lián)合,即所有生產(chǎn)目次數(shù)據(jù)(格式統(tǒng)一)的圖書(shū)館將其制作的目次數(shù)據(jù)上傳到該平臺(tái)供其他圖書(shū)館下載使用;(2)圖書(shū)出版商、發(fā)行商、用戶的縱向聯(lián)合,其提供的目次數(shù)據(jù)(格式符合規(guī)范或能轉(zhuǎn)化為規(guī)范格式)經(jīng)審核后可以上傳。這樣,通過(guò)建設(shè)良好的溝通、互動(dòng)機(jī)制,可以將大家的智慧與力量引入目次數(shù)據(jù)的建設(shè)中來(lái),實(shí)現(xiàn)資源的最大利用。
目前,已經(jīng)有一個(gè)現(xiàn)成的平臺(tái)可以利用——全國(guó)聯(lián)合編目中心。
共建共享目次數(shù)據(jù)庫(kù)的最終目標(biāo)是在圖書(shū)館界的聯(lián)盟基礎(chǔ)上實(shí)現(xiàn)目次數(shù)據(jù)的無(wú)障礙交流和共享。近年來(lái),我國(guó)圖書(shū)館界在聯(lián)盟建設(shè)方面有了一些發(fā)展,已具備在圖書(shū)館界的聯(lián)盟基礎(chǔ)上進(jìn)行中文圖書(shū)目次數(shù)據(jù)庫(kù)建設(shè)工作的條件??梢杂蓢?guó)家圖書(shū)館進(jìn)行牽頭,由全國(guó)聯(lián)合編目中心這個(gè)機(jī)構(gòu)進(jìn)行統(tǒng)一管理,將目次數(shù)據(jù)與書(shū)目數(shù)據(jù)掛接達(dá)到資源的共建共享。
之所以選擇全國(guó)聯(lián)合編目中心,一是目次數(shù)據(jù)必須依托書(shū)目數(shù)據(jù)存在和加以利用;二是該中心包括二十幾個(gè)書(shū)目數(shù)據(jù)庫(kù),具備推廣共建共享目次數(shù)據(jù)庫(kù)的實(shí)力。該中心書(shū)目數(shù)據(jù)的使用單位已超過(guò)1 000家,成員館的隊(duì)伍已發(fā)展到600多家,成立了十四家分中心[5],在書(shū)目數(shù)據(jù)的共建共享方面摸索出很多經(jīng)驗(yàn),在此基礎(chǔ)上進(jìn)行目次數(shù)據(jù)的共建共享應(yīng)是水到渠成。
建設(shè)中文圖書(shū)目次數(shù)據(jù)庫(kù)是圖書(shū)館滿足信息時(shí)代讀者的檢索需求,提升服務(wù)的一個(gè)重要方面,采取共建共享的模式來(lái)建設(shè)中文圖書(shū)目次數(shù)據(jù)庫(kù)既節(jié)省了大量的人力、物力、財(cái)力,又能在最大程度上實(shí)現(xiàn)資源共享,是一個(gè)很好的舉措。
[1]武漢大學(xué),北京大學(xué)《目錄學(xué)概論》編寫(xiě)組.目錄學(xué)概論[M].北京:中華書(shū)局,1982:107.
[2]孫維鈞.圖書(shū)目錄的缺陷及MARC的完善[J].大學(xué)圖書(shū)館學(xué)報(bào),1999,17(4):65~67.
[3]OCLC報(bào)告——聯(lián)機(jī)目錄:用戶和館員需要什么[EB/OL].[2010-08-06].http://catwizard.blogbus.com/logs/38491121.html.
[4]中國(guó)科學(xué)院國(guó)家科學(xué)圖書(shū)館.UNICAT聯(lián)合目錄集成服務(wù)系統(tǒng)[EB/OL].[2011-3-5].http://union.csdl.a(chǎn)c.cn/2.jsp.
[5]國(guó)家圖書(shū)館聯(lián)合編目中心.全國(guó)聯(lián)合編目中心[EB/OL].[2011-5-1].http://olcc.nlc.gov.cn/about-zxjj.html.