陳 娟
(深圳圖書館,廣東 深圳 518000)
書目數(shù)據(jù)是計(jì)算機(jī)可識(shí)別和可處理的揭示館藏文獻(xiàn)資源的信息聯(lián)合書目數(shù)據(jù)庫(kù),特別是區(qū)域聯(lián)合書目數(shù)據(jù)庫(kù),匯集了同一區(qū)域多個(gè)圖書館的書目數(shù)據(jù)。在一個(gè)聯(lián)合書目數(shù)據(jù)庫(kù)內(nèi),同一種文獻(xiàn)被重復(fù)記錄了兩次或兩次以上,被稱為重復(fù)記錄[1]。當(dāng)重復(fù)記錄超過一定比例時(shí),通常會(huì)被認(rèn)為是質(zhì)量問題。重復(fù)數(shù)據(jù)不僅造成書目數(shù)據(jù)庫(kù)的容量快速膨脹,還給成員館使用數(shù)據(jù)造成不必要的篩選麻煩[2]。因此,重復(fù)數(shù)據(jù)的清理與合并工作成為各大聯(lián)合編目系統(tǒng)書目數(shù)據(jù)維護(hù)工作的業(yè)務(wù)范圍,業(yè)界關(guān)于重復(fù)數(shù)據(jù)的產(chǎn)生原因、合并模式等探討較多[3-5],已基本形成共識(shí),但是基于實(shí)踐的重復(fù)數(shù)據(jù)系統(tǒng)控制的總結(jié)探討卻較少。
深圳“圖書館之城”的建設(shè)目標(biāo)是整合全市公共圖書館服務(wù)系統(tǒng)和文獻(xiàn)資源,在全市范圍內(nèi)為市民提供統(tǒng)一的圖書館服務(wù)[6]。統(tǒng)一書目管理是深圳“圖書館之城”開展統(tǒng)一服務(wù)的重要基礎(chǔ),總書目庫(kù)數(shù)據(jù)質(zhì)量關(guān)系著統(tǒng)一服務(wù)的質(zhì)量。正常情況下,同一種文獻(xiàn)對(duì)應(yīng)一條書目記錄,合庫(kù)前,由于“圖書館之城”各成員館編目規(guī)則不統(tǒng)一、編目質(zhì)量參差不齊以及數(shù)據(jù)庫(kù)合并等諸多原因,深圳“圖書館之城”總書目庫(kù)中存在大量重復(fù)書目數(shù)據(jù)。用ISBN 檢索時(shí),有時(shí)會(huì)檢出兩條及以上書目記錄(如圖1),個(gè)別情況是因?yàn)橐惶?hào)多書,多數(shù)情況下是一種書出現(xiàn)一條或幾條重復(fù)記錄。據(jù)統(tǒng)計(jì),截至2014 年底,中央書目庫(kù)數(shù)據(jù)為251 萬條,ISBN重復(fù)的數(shù)據(jù)達(dá)42萬余條,重復(fù)記錄占比約為16.7%,重復(fù)數(shù)據(jù)若不及時(shí)加以控制和規(guī)范,每年遞增速度將達(dá)到3 萬條以上。重復(fù)數(shù)據(jù)和冗余數(shù)據(jù)給讀者OPAC書目檢索帶來了巨大的困擾,也給工作人員書目查重造成了極大的不便,同時(shí)也對(duì)“圖書館之城”統(tǒng)一服務(wù)的整體效果產(chǎn)生了一定的負(fù)面影響。因此,“圖書館之城”重復(fù)書目數(shù)據(jù)控制工作被提上了日程。近4年來,通過控制重復(fù)數(shù)據(jù)產(chǎn)生源頭、回溯清理歷史重復(fù)數(shù)據(jù),深圳“圖書館之城”的中文圖書重復(fù)書目數(shù)據(jù)控制工作取得了一定的成效。
圖1 OPAC中查到的重復(fù)書目示例
為了控制重復(fù)數(shù)據(jù)產(chǎn)生的源頭,首先要對(duì)中央書目庫(kù)中新增記錄進(jìn)行嚴(yán)格管理。只有控制了中央書目庫(kù)新增書目記錄,不再繼續(xù)灌入大量重復(fù)數(shù)據(jù),再組織專門人員開展重復(fù)書目數(shù)據(jù)清理工作,才能起到事半功倍效果。為了對(duì)中央書目庫(kù)中新增書目記錄進(jìn)行嚴(yán)格管理,采取了以下措施。
按照《美國(guó)圖書館學(xué)會(huì)詞匯》的定義,聯(lián)合編目是指“一組各自獨(dú)立的圖書館開展的書目原始編目的協(xié)作活動(dòng),成員館之間有義務(wù)相互提供書目記錄”。聯(lián)合編目可以降低成員館的編目成本,提高編目工作質(zhì)量,避免書目數(shù)據(jù)資源的重復(fù)建設(shè)。2014 年,深圳“圖書館之城”召開館長(zhǎng)聯(lián)席會(huì)議,提出搭建“圖書館之城”聯(lián)合采編平臺(tái),將成員館的書目數(shù)據(jù)、采訪數(shù)據(jù)與館藏?cái)?shù)據(jù)等整合起來,按照統(tǒng)一模式實(shí)施數(shù)據(jù)的加工、構(gòu)建和運(yùn)行管理,要求各成員館在統(tǒng)一平臺(tái)上開展聯(lián)合采編工作。2015 年,深圳“圖書館之城”聯(lián)合采編平臺(tái)搭建完成,自同年6 月深圳大學(xué)城圖書館首批接入平臺(tái),截至2018 年底,深圳“圖書館之城”聯(lián)合采編平臺(tái)已經(jīng)整合了包括深圳圖書館、深圳大學(xué)城圖書館(深圳市科技圖書館)等9個(gè)區(qū)館、11個(gè)成員館的書目數(shù)據(jù)(如表1)。中央書目庫(kù)中書目數(shù)據(jù)已有近300萬條,中文書目數(shù)據(jù)278萬條,占整個(gè)中央書目庫(kù)書目數(shù)據(jù)總量的92%,這其中又以中文圖書書目數(shù)據(jù)占絕大部分。因此,中文圖書書目數(shù)據(jù)質(zhì)量的控制工作是深圳“圖書館之城”書目質(zhì)量管理工作的重中之重,聯(lián)合采編平臺(tái)的建立是書目質(zhì)量控制工作得以開展的基礎(chǔ)保障,取消了原有數(shù)據(jù)批接收模式,按系統(tǒng)權(quán)限進(jìn)行分級(jí)控制,建立多種有效機(jī)制,堵住了重復(fù)數(shù)據(jù)產(chǎn)生的主要源頭。
表1 各區(qū)館加入聯(lián)合采編平臺(tái)時(shí)間
2016 年底,深圳“圖書館之城”各主要成員館數(shù)據(jù)均已全部完成回溯書目數(shù)據(jù)批導(dǎo)入,中央書目庫(kù)新增數(shù)據(jù)主要來源于各成員館新編數(shù)據(jù)。由深圳圖書館和深圳市標(biāo)準(zhǔn)技術(shù)研究院聯(lián)合起草的《公共圖書館統(tǒng)一服務(wù)書目質(zhì)量控制規(guī)范》(簡(jiǎn)稱《規(guī)范》),在兩年的時(shí)間里,經(jīng)過多輪專家論證、修改,于2017年11月14日由深圳市市場(chǎng)監(jiān)督管理局發(fā)布,并于2017年12月1日起正式實(shí)施。通過《規(guī)范》的制訂、應(yīng)用與實(shí)施,可以有效控制重復(fù)數(shù)據(jù)和冗余數(shù)據(jù)產(chǎn)生源頭,規(guī)范“圖書館之城”各成員館的編目行為,提高編目數(shù)據(jù)的質(zhì)量,降低中央書目庫(kù)中重復(fù)數(shù)據(jù)和冗余數(shù)據(jù)比例,最終提升“圖書館之城”統(tǒng)一服務(wù)效果與影響力。
編目人員的業(yè)務(wù)素養(yǎng)對(duì)中央書目庫(kù)的書目數(shù)據(jù)質(zhì)量有深遠(yuǎn)影響。編目操作不規(guī)范,沒有查重或查重不徹底,直接新增數(shù)據(jù),就會(huì)給中央書目庫(kù)增加重復(fù)書目記錄。合庫(kù)前,各成員館編目人員參差不齊,部分成員館沒有設(shè)置審校崗位,同時(shí),各成員館均不同程度地將編目業(yè)務(wù)進(jìn)行了外包,而書商提供的外包編目人員不固定,很多外包編目人員沒有經(jīng)過系統(tǒng)培訓(xùn)或者培訓(xùn)不到位就上崗編目。為了提升各成員館編目人員的業(yè)務(wù)素養(yǎng),按照《規(guī)范》要求,自2015年起,深圳“圖書館之城”的采編協(xié)調(diào)工作組每年組織舉辦中文圖書編目規(guī)范培訓(xùn)班,培訓(xùn)的主要內(nèi)容包括:中文圖書編目規(guī)則及實(shí)例分析、中文圖書編目流程、ULAS 平臺(tái)介紹等。到2018年底,培訓(xùn)班已成功舉辦了3期,學(xué)員均來自各區(qū)館和書商的編目人員。為了給“圖書館之城”書目建設(shè)篩選合格的編目人員,每期學(xué)員都需通過嚴(yán)格的編目考核,取得“圖書館之城”編目員資格證書后,才能在聯(lián)合采編平臺(tái)中上崗編目。據(jù)統(tǒng)計(jì),3期培訓(xùn)班中取得“圖書館之城”編目員資格證書的學(xué)員一共有84人(如表2),占參加考核總學(xué)員人數(shù)的68.3%。
表2 2015~2018年編目培訓(xùn)考核通過情況
書目質(zhì)量控制光靠人工校驗(yàn)是不夠的,加上編目系統(tǒng)軟件的某些功能干預(yù)可以事半功倍。在各成員館書目數(shù)據(jù)批量導(dǎo)入時(shí),系統(tǒng)會(huì)根據(jù)重點(diǎn)字段進(jìn)行系統(tǒng)判重進(jìn)行初次合并,判重的字段有:題名字段、ISBN 號(hào)/統(tǒng)一書號(hào)、出版年代、頁碼等。通過匹配以上字段,系統(tǒng)對(duì)判重記錄進(jìn)行自動(dòng)合并,在合庫(kù)時(shí)就可以控制部分重復(fù)數(shù)據(jù)的產(chǎn)生。在聯(lián)合采編平臺(tái)中,設(shè)置了ISBN 重復(fù)提醒功能,即書目數(shù)據(jù)交送時(shí)由系統(tǒng)判定中央書目庫(kù)是否有ISBN 相同的數(shù)據(jù),如有則提示普通審校員只能交送館藏,不能交送該書目數(shù)據(jù)。對(duì)于ISBN 確有相同的圖書(如多卷書),需經(jīng)高級(jí)審校員核實(shí)后,由該高級(jí)審校員交送。通過系統(tǒng)提供的多次判重機(jī)制,在關(guān)鍵環(huán)節(jié)把關(guān)確認(rèn),進(jìn)一步控制了重復(fù)書目數(shù)據(jù)產(chǎn)生源頭。
在聯(lián)合采編平臺(tái)建立起來之后,深圳“圖書館之城”的中心館——深圳圖書館,專門針對(duì)已有重復(fù)書目數(shù)據(jù)開展了集中合并工作。集中合并工作采用時(shí)間回溯的方式,已開展了近4 年,目前還在進(jìn)行中,大概可以分為以下3個(gè)階段。
集中合并是指組織專門人員使用專門的數(shù)據(jù)合并程序開展重復(fù)書目數(shù)據(jù)清理工作。實(shí)際上,在深圳“圖書館之城”各成員館書目數(shù)據(jù)批量導(dǎo)入工作結(jié)束后,就專門針對(duì)已有重復(fù)書目數(shù)據(jù)開始了重復(fù)數(shù)據(jù)集中合并工作,并初步確立了重復(fù)數(shù)據(jù)合并處理原則:①對(duì)照某幾個(gè)關(guān)鍵字段確認(rèn)為同一種書的情況下合并,不能確認(rèn)為同一種書的情況下不合并;②合并以國(guó)家圖書館、CRLnet 和CALIS的數(shù)據(jù)為準(zhǔn);③同年的平精裝合并成為一條記錄,并增加一條010 字段;④分類號(hào)不同的同一種書,增加690 字段并合并;⑤價(jià)格不同的同一種書,增加010字段并合并……這些合并原則是重復(fù)數(shù)據(jù)清理工作最初遵循的規(guī)范,從2015—2017年,“圖書館之城”采編工作協(xié)調(diào)組在工作間隙清理重復(fù)數(shù)據(jù)記錄大約為14.7萬條。
圖2 采編協(xié)調(diào)工作組QQ群
在原有合并原則基礎(chǔ)上,根據(jù)工作中遇到的問題,采編協(xié)調(diào)工作組召開小組工作會(huì)議,集中商討,調(diào)整并細(xì)化了合并原則,結(jié)合實(shí)例形成了《深圳市“圖書館之城”中央書目庫(kù)重復(fù)數(shù)據(jù)合并操作規(guī)范》,對(duì)合并流程進(jìn)行了詳細(xì)指引,較之前的合并原則更具操作性、更全面細(xì)致。由于記錄總是存在著細(xì)微差異性,在判重字段確定的前提下,合并操作規(guī)范中對(duì)匹配字段的比對(duì)設(shè)定了檢查原則:忽略全角、半角的輸入方式、外文字母的大小寫、空格及各種標(biāo)點(diǎn)符號(hào)、各種特殊字符、阿拉伯?dāng)?shù)字與漢字的對(duì)應(yīng)等(如版本說明205 字段@a 子字段“二版”與“2 版”應(yīng)視為相同)。另外,合并操作規(guī)范中列出了只有3 種情況的重復(fù)數(shù)據(jù)是不需合并的:分卷冊(cè)著錄數(shù)據(jù),同一種書的復(fù)制品(只有深圳圖書館有這種類型的數(shù)據(jù)),同一種書的不同版本數(shù)據(jù)。需合并的數(shù)據(jù)中,對(duì)每一種合并情況及對(duì)應(yīng)的操作步驟都有操作示例。
采編協(xié)調(diào)工作組還建立了工作群(如圖2),對(duì)合并操作規(guī)范以外遇到的特殊情況,及時(shí)在群里討論決定是否合并、如何合并。
2018 年開始,重復(fù)數(shù)據(jù)清理工作成為采編協(xié)調(diào)工作組全年的重點(diǎn)工作。據(jù)統(tǒng)計(jì),2018 年清理重復(fù)數(shù)據(jù)記錄大約為12.7 萬條(見圖3),接近前3年重復(fù)數(shù)據(jù)清理的總和。
圖3 2015~2018年重復(fù)數(shù)據(jù)合并統(tǒng)計(jì)
從2015年到2018年底,合并工作可以在兩個(gè)界面進(jìn)行操作:聯(lián)合采編平臺(tái)的“驗(yàn)收管理”模塊(圖4)和“圖書館之城”統(tǒng)一平臺(tái)的“書目雙屏合并”模塊。這兩種渠道都需要操作員將有重復(fù)記錄的ISBN 號(hào)輸入到檢索框中,通過在操作界面的左右兩屏中逐條對(duì)比重要字段來判斷是否需要進(jìn)行合并。這兩種界面都非??简?yàn)工作人員的眼力、耐心,容易引起視覺疲勞,特別是在多卷書的分卷冊(cè)眾多、重復(fù)記錄多的情況下更需要認(rèn)真對(duì)待。少兒圖書這種情況尤其多見——同一個(gè)故事系列共用一個(gè)ISBN號(hào),一個(gè)系列有20-30種書,如果每一種書對(duì)應(yīng)有兩條及以上的記錄需要合并,通過翻前后記錄來對(duì)應(yīng)卷冊(cè)再核對(duì)各字段已經(jīng)讓人眼花,很容易誤操作或漏合并,而且系統(tǒng)在頻繁翻前后記錄的情況下容易“崩潰”。2019 年初,系統(tǒng)部在聯(lián)合采編系統(tǒng)中新增了“書目查重合并”新模塊,提供了數(shù)據(jù)合并的新界面(如圖5),新界面較以往的兩種合并界面有以下幾個(gè)優(yōu)勢(shì):①無需操作員輸入ISBN 號(hào);②重要字段通過表格對(duì)比列出,更清晰簡(jiǎn)潔;③多卷書的分卷冊(cè)可以通過題名和其他字段對(duì)比,直接選中然后在左右屏分別顯示,不需要一條條翻前后記錄;④對(duì)于有大學(xué)城圖書館的書目數(shù)據(jù),保留其記錄號(hào)的操作較以往更簡(jiǎn)便。2019 年初,采編協(xié)調(diào)工作組在部門內(nèi)部對(duì)新界面進(jìn)行了操作培訓(xùn),重復(fù)數(shù)據(jù)的清理工作在新界面下繼續(xù)進(jìn)行,“書目查重合并”新界面得到了工作組的一致好評(píng),合并工作效率也隨之提高。
圖4 原查重合并操作界面
圖5 升級(jí)后的“書目查重合并”界面
在ULAS 平臺(tái)下,一家成員館新增或下載數(shù)據(jù),其他館不用重復(fù)編目,直接驗(yàn)收追加館藏即可,大大減少了重復(fù)工作量,提高了各成員館的工作效率。據(jù)統(tǒng)計(jì)(見圖6),2016~2018年,各成員館書目數(shù)據(jù)利用率(只直接追加館藏的記錄條數(shù)占總記錄條數(shù)的比例)平均為60%左右,部分成員館書目數(shù)據(jù)利用率為80%以上(南山圖書館、羅湖圖書館、鹽田圖書館)。成員館中,深圳圖書館和大學(xué)城圖書館的書目數(shù)據(jù)利用率較低,這是因?yàn)樯钲趫D書館新書訂購(gòu)到貨更早,承擔(dān)了大部分新書書目數(shù)據(jù)的制作工作,而大學(xué)城圖書館參考的分編庫(kù)與其他成員館不同所致。在“圖書館之城”執(zhí)行持證上崗編目以來,各成員館提供的書目數(shù)據(jù)較之前更規(guī)范和統(tǒng)一,書目數(shù)據(jù)質(zhì)量大大提升,在2018 年,深圳圖書館的書目數(shù)據(jù)利用率從個(gè)位數(shù)提升到了23%,相比而言,有4個(gè)成員館(福田圖書館、鹽田圖書館、光明圖書館、坪山圖書館)的數(shù)據(jù)利用率較前兩年有一定幅度的降低,在一定程度上說明各成員館書目數(shù)據(jù)共建共享的責(zé)任意識(shí)進(jìn)一步加強(qiáng)。
圖6 2016-2018年成員館書目數(shù)據(jù)利用情況
聯(lián)合采編平臺(tái)于2015年搭建完成,并于同年6月深圳大學(xué)城圖書館首批加入,至2016 年底有80%的成員館加入。從表3 中可以看出,2016~2018 年,每年需合并的重復(fù)數(shù)據(jù)總量較以往大大降低了,2017~2018 年,每年只有 400 條左右的重復(fù)數(shù)據(jù)需要清理,數(shù)量降低一方面得益于《規(guī)范》的制定實(shí)施,另一方面也是經(jīng)過編目培訓(xùn)班學(xué)習(xí),編目員業(yè)務(wù)水平提升、操作更規(guī)范的結(jié)果,說明重復(fù)數(shù)據(jù)產(chǎn)生的源頭得到了有效控制。
2014 年底第一次統(tǒng)計(jì)結(jié)果顯示,重復(fù)數(shù)據(jù)有42 萬條左右,占中央書目庫(kù)總量(約為251 萬)的16.7%,經(jīng)過近4 年的回溯集中合并處理,截至到2019年3月,重復(fù)數(shù)據(jù)總量為12萬左右,占比約為4.4%(中文圖書書目數(shù)據(jù)總量約為270 萬),2007~2015年重復(fù)記錄清理量每年2.5萬條左右,一共清理重復(fù)記錄27.4 萬條,歷史重復(fù)數(shù)據(jù)的清理工作已初步完成約75%。
表3 2007~2018年重復(fù)數(shù)據(jù)比例
續(xù)表3
通過對(duì)重復(fù)書目數(shù)據(jù)的合并清理,不僅給中央書目庫(kù)“減負(fù)”,減少了各成員館編目查重的困擾,也讓讀者在OPAC 檢索有了更好的使用體驗(yàn)(如圖7)。相對(duì)于合并前的同一本書對(duì)應(yīng)4條檢索結(jié)果(圖1),需要讀者一一點(diǎn)開查詢館藏所在進(jìn)行取舍,合并后,同一本書只有一條檢索結(jié)果,且所有館藏分布在一個(gè)窗口展示,一目了然,大大節(jié)省了讀者的操作時(shí)間。重復(fù)書目數(shù)據(jù)合并后,OPAC給讀者提供了更好的使用體驗(yàn)。
圖7 OPAC中重復(fù)書目合并后的顯示界面
在重復(fù)書目數(shù)據(jù)控制工作實(shí)踐中,我們也發(fā)現(xiàn)了一些需要改進(jìn)的問題,例如錯(cuò)誤合并和漏合并的情況不可避免,要提前擬定好對(duì)策。深圳“圖書館之城”第一輪重復(fù)書目數(shù)據(jù)回溯清理工作預(yù)計(jì)在2019年底基本完成,同時(shí),為了防止舊界面清理工作完成的不徹底,同時(shí)防止新導(dǎo)入少量書目數(shù)據(jù)存在重復(fù),在第一輪重復(fù)數(shù)據(jù)清理工作完成后,需要對(duì)中央書目庫(kù)所有未做標(biāo)記的重復(fù)書目數(shù)據(jù)進(jìn)行重新統(tǒng)計(jì),再次進(jìn)行清理維護(hù)。
聯(lián)合書目數(shù)據(jù)庫(kù)中重復(fù)書目數(shù)據(jù)控制工作是一個(gè)系統(tǒng)工程,需要統(tǒng)籌計(jì)劃,逐步推進(jìn)。此項(xiàng)工作涉及業(yè)務(wù)范圍廣,遠(yuǎn)非一個(gè)部門能夠單獨(dú)解決,尤其需要計(jì)算機(jī)技術(shù)部門的大力支持和密切配合,深圳“圖書館之城”的書目質(zhì)量控制工作實(shí)踐也證明了這一點(diǎn),系統(tǒng)提供的多次判重功能、模塊更新與升級(jí),都對(duì)重復(fù)書目數(shù)據(jù)控制工作給予了強(qiáng)力支撐。一個(gè)系統(tǒng)功能較好的聯(lián)編系統(tǒng)與重復(fù)書目數(shù)據(jù)控制工作成效息息相關(guān)。重復(fù)書目數(shù)據(jù)控制工作不是一項(xiàng)階段性工作,而是一項(xiàng)書目數(shù)據(jù)維護(hù)常規(guī)工作,應(yīng)根據(jù)實(shí)際情況不斷地系統(tǒng)調(diào)整與策略優(yōu)化。