陳 娟
(深圳圖書館,廣東 深圳 518000)
書目數(shù)據(jù)是計算機可識別和可處理的揭示館藏文獻資源的信息聯(lián)合書目數(shù)據(jù)庫,特別是區(qū)域聯(lián)合書目數(shù)據(jù)庫,匯集了同一區(qū)域多個圖書館的書目數(shù)據(jù)。在一個聯(lián)合書目數(shù)據(jù)庫內(nèi),同一種文獻被重復(fù)記錄了兩次或兩次以上,被稱為重復(fù)記錄[1]。當(dāng)重復(fù)記錄超過一定比例時,通常會被認為是質(zhì)量問題。重復(fù)數(shù)據(jù)不僅造成書目數(shù)據(jù)庫的容量快速膨脹,還給成員館使用數(shù)據(jù)造成不必要的篩選麻煩[2]。因此,重復(fù)數(shù)據(jù)的清理與合并工作成為各大聯(lián)合編目系統(tǒng)書目數(shù)據(jù)維護工作的業(yè)務(wù)范圍,業(yè)界關(guān)于重復(fù)數(shù)據(jù)的產(chǎn)生原因、合并模式等探討較多[3-5],已基本形成共識,但是基于實踐的重復(fù)數(shù)據(jù)系統(tǒng)控制的總結(jié)探討卻較少。
深圳“圖書館之城”的建設(shè)目標(biāo)是整合全市公共圖書館服務(wù)系統(tǒng)和文獻資源,在全市范圍內(nèi)為市民提供統(tǒng)一的圖書館服務(wù)[6]。統(tǒng)一書目管理是深圳“圖書館之城”開展統(tǒng)一服務(wù)的重要基礎(chǔ),總書目庫數(shù)據(jù)質(zhì)量關(guān)系著統(tǒng)一服務(wù)的質(zhì)量。正常情況下,同一種文獻對應(yīng)一條書目記錄,合庫前,由于“圖書館之城”各成員館編目規(guī)則不統(tǒng)一、編目質(zhì)量參差不齊以及數(shù)據(jù)庫合并等諸多原因,深圳“圖書館之城”總書目庫中存在大量重復(fù)書目數(shù)據(jù)。用ISBN 檢索時,有時會檢出兩條及以上書目記錄(如圖1),個別情況是因為一號多書,多數(shù)情況下是一種書出現(xiàn)一條或幾條重復(fù)記錄。據(jù)統(tǒng)計,截至2014 年底,中央書目庫數(shù)據(jù)為251 萬條,ISBN重復(fù)的數(shù)據(jù)達42萬余條,重復(fù)記錄占比約為16.7%,重復(fù)數(shù)據(jù)若不及時加以控制和規(guī)范,每年遞增速度將達到3 萬條以上。重復(fù)數(shù)據(jù)和冗余數(shù)據(jù)給讀者OPAC書目檢索帶來了巨大的困擾,也給工作人員書目查重造成了極大的不便,同時也對“圖書館之城”統(tǒng)一服務(wù)的整體效果產(chǎn)生了一定的負面影響。因此,“圖書館之城”重復(fù)書目數(shù)據(jù)控制工作被提上了日程。近4年來,通過控制重復(fù)數(shù)據(jù)產(chǎn)生源頭、回溯清理歷史重復(fù)數(shù)據(jù),深圳“圖書館之城”的中文圖書重復(fù)書目數(shù)據(jù)控制工作取得了一定的成效。
圖1 OPAC中查到的重復(fù)書目示例
為了控制重復(fù)數(shù)據(jù)產(chǎn)生的源頭,首先要對中央書目庫中新增記錄進行嚴格管理。只有控制了中央書目庫新增書目記錄,不再繼續(xù)灌入大量重復(fù)數(shù)據(jù),再組織專門人員開展重復(fù)書目數(shù)據(jù)清理工作,才能起到事半功倍效果。為了對中央書目庫中新增書目記錄進行嚴格管理,采取了以下措施。
按照《美國圖書館學(xué)會詞匯》的定義,聯(lián)合編目是指“一組各自獨立的圖書館開展的書目原始編目的協(xié)作活動,成員館之間有義務(wù)相互提供書目記錄”。聯(lián)合編目可以降低成員館的編目成本,提高編目工作質(zhì)量,避免書目數(shù)據(jù)資源的重復(fù)建設(shè)。2014 年,深圳“圖書館之城”召開館長聯(lián)席會議,提出搭建“圖書館之城”聯(lián)合采編平臺,將成員館的書目數(shù)據(jù)、采訪數(shù)據(jù)與館藏數(shù)據(jù)等整合起來,按照統(tǒng)一模式實施數(shù)據(jù)的加工、構(gòu)建和運行管理,要求各成員館在統(tǒng)一平臺上開展聯(lián)合采編工作。2015 年,深圳“圖書館之城”聯(lián)合采編平臺搭建完成,自同年6 月深圳大學(xué)城圖書館首批接入平臺,截至2018 年底,深圳“圖書館之城”聯(lián)合采編平臺已經(jīng)整合了包括深圳圖書館、深圳大學(xué)城圖書館(深圳市科技圖書館)等9個區(qū)館、11個成員館的書目數(shù)據(jù)(如表1)。中央書目庫中書目數(shù)據(jù)已有近300萬條,中文書目數(shù)據(jù)278萬條,占整個中央書目庫書目數(shù)據(jù)總量的92%,這其中又以中文圖書書目數(shù)據(jù)占絕大部分。因此,中文圖書書目數(shù)據(jù)質(zhì)量的控制工作是深圳“圖書館之城”書目質(zhì)量管理工作的重中之重,聯(lián)合采編平臺的建立是書目質(zhì)量控制工作得以開展的基礎(chǔ)保障,取消了原有數(shù)據(jù)批接收模式,按系統(tǒng)權(quán)限進行分級控制,建立多種有效機制,堵住了重復(fù)數(shù)據(jù)產(chǎn)生的主要源頭。
表1 各區(qū)館加入聯(lián)合采編平臺時間
2016 年底,深圳“圖書館之城”各主要成員館數(shù)據(jù)均已全部完成回溯書目數(shù)據(jù)批導(dǎo)入,中央書目庫新增數(shù)據(jù)主要來源于各成員館新編數(shù)據(jù)。由深圳圖書館和深圳市標(biāo)準(zhǔn)技術(shù)研究院聯(lián)合起草的《公共圖書館統(tǒng)一服務(wù)書目質(zhì)量控制規(guī)范》(簡稱《規(guī)范》),在兩年的時間里,經(jīng)過多輪專家論證、修改,于2017年11月14日由深圳市市場監(jiān)督管理局發(fā)布,并于2017年12月1日起正式實施。通過《規(guī)范》的制訂、應(yīng)用與實施,可以有效控制重復(fù)數(shù)據(jù)和冗余數(shù)據(jù)產(chǎn)生源頭,規(guī)范“圖書館之城”各成員館的編目行為,提高編目數(shù)據(jù)的質(zhì)量,降低中央書目庫中重復(fù)數(shù)據(jù)和冗余數(shù)據(jù)比例,最終提升“圖書館之城”統(tǒng)一服務(wù)效果與影響力。
編目人員的業(yè)務(wù)素養(yǎng)對中央書目庫的書目數(shù)據(jù)質(zhì)量有深遠影響。編目操作不規(guī)范,沒有查重或查重不徹底,直接新增數(shù)據(jù),就會給中央書目庫增加重復(fù)書目記錄。合庫前,各成員館編目人員參差不齊,部分成員館沒有設(shè)置審校崗位,同時,各成員館均不同程度地將編目業(yè)務(wù)進行了外包,而書商提供的外包編目人員不固定,很多外包編目人員沒有經(jīng)過系統(tǒng)培訓(xùn)或者培訓(xùn)不到位就上崗編目。為了提升各成員館編目人員的業(yè)務(wù)素養(yǎng),按照《規(guī)范》要求,自2015年起,深圳“圖書館之城”的采編協(xié)調(diào)工作組每年組織舉辦中文圖書編目規(guī)范培訓(xùn)班,培訓(xùn)的主要內(nèi)容包括:中文圖書編目規(guī)則及實例分析、中文圖書編目流程、ULAS 平臺介紹等。到2018年底,培訓(xùn)班已成功舉辦了3期,學(xué)員均來自各區(qū)館和書商的編目人員。為了給“圖書館之城”書目建設(shè)篩選合格的編目人員,每期學(xué)員都需通過嚴格的編目考核,取得“圖書館之城”編目員資格證書后,才能在聯(lián)合采編平臺中上崗編目。據(jù)統(tǒng)計,3期培訓(xùn)班中取得“圖書館之城”編目員資格證書的學(xué)員一共有84人(如表2),占參加考核總學(xué)員人數(shù)的68.3%。
表2 2015~2018年編目培訓(xùn)考核通過情況
書目質(zhì)量控制光靠人工校驗是不夠的,加上編目系統(tǒng)軟件的某些功能干預(yù)可以事半功倍。在各成員館書目數(shù)據(jù)批量導(dǎo)入時,系統(tǒng)會根據(jù)重點字段進行系統(tǒng)判重進行初次合并,判重的字段有:題名字段、ISBN 號/統(tǒng)一書號、出版年代、頁碼等。通過匹配以上字段,系統(tǒng)對判重記錄進行自動合并,在合庫時就可以控制部分重復(fù)數(shù)據(jù)的產(chǎn)生。在聯(lián)合采編平臺中,設(shè)置了ISBN 重復(fù)提醒功能,即書目數(shù)據(jù)交送時由系統(tǒng)判定中央書目庫是否有ISBN 相同的數(shù)據(jù),如有則提示普通審校員只能交送館藏,不能交送該書目數(shù)據(jù)。對于ISBN 確有相同的圖書(如多卷書),需經(jīng)高級審校員核實后,由該高級審校員交送。通過系統(tǒng)提供的多次判重機制,在關(guān)鍵環(huán)節(jié)把關(guān)確認,進一步控制了重復(fù)書目數(shù)據(jù)產(chǎn)生源頭。
在聯(lián)合采編平臺建立起來之后,深圳“圖書館之城”的中心館——深圳圖書館,專門針對已有重復(fù)書目數(shù)據(jù)開展了集中合并工作。集中合并工作采用時間回溯的方式,已開展了近4 年,目前還在進行中,大概可以分為以下3個階段。
集中合并是指組織專門人員使用專門的數(shù)據(jù)合并程序開展重復(fù)書目數(shù)據(jù)清理工作。實際上,在深圳“圖書館之城”各成員館書目數(shù)據(jù)批量導(dǎo)入工作結(jié)束后,就專門針對已有重復(fù)書目數(shù)據(jù)開始了重復(fù)數(shù)據(jù)集中合并工作,并初步確立了重復(fù)數(shù)據(jù)合并處理原則:①對照某幾個關(guān)鍵字段確認為同一種書的情況下合并,不能確認為同一種書的情況下不合并;②合并以國家圖書館、CRLnet 和CALIS的數(shù)據(jù)為準(zhǔn);③同年的平精裝合并成為一條記錄,并增加一條010 字段;④分類號不同的同一種書,增加690 字段并合并;⑤價格不同的同一種書,增加010字段并合并……這些合并原則是重復(fù)數(shù)據(jù)清理工作最初遵循的規(guī)范,從2015—2017年,“圖書館之城”采編工作協(xié)調(diào)組在工作間隙清理重復(fù)數(shù)據(jù)記錄大約為14.7萬條。
圖2 采編協(xié)調(diào)工作組QQ群
在原有合并原則基礎(chǔ)上,根據(jù)工作中遇到的問題,采編協(xié)調(diào)工作組召開小組工作會議,集中商討,調(diào)整并細化了合并原則,結(jié)合實例形成了《深圳市“圖書館之城”中央書目庫重復(fù)數(shù)據(jù)合并操作規(guī)范》,對合并流程進行了詳細指引,較之前的合并原則更具操作性、更全面細致。由于記錄總是存在著細微差異性,在判重字段確定的前提下,合并操作規(guī)范中對匹配字段的比對設(shè)定了檢查原則:忽略全角、半角的輸入方式、外文字母的大小寫、空格及各種標(biāo)點符號、各種特殊字符、阿拉伯?dāng)?shù)字與漢字的對應(yīng)等(如版本說明205 字段@a 子字段“二版”與“2 版”應(yīng)視為相同)。另外,合并操作規(guī)范中列出了只有3 種情況的重復(fù)數(shù)據(jù)是不需合并的:分卷冊著錄數(shù)據(jù),同一種書的復(fù)制品(只有深圳圖書館有這種類型的數(shù)據(jù)),同一種書的不同版本數(shù)據(jù)。需合并的數(shù)據(jù)中,對每一種合并情況及對應(yīng)的操作步驟都有操作示例。
采編協(xié)調(diào)工作組還建立了工作群(如圖2),對合并操作規(guī)范以外遇到的特殊情況,及時在群里討論決定是否合并、如何合并。
2018 年開始,重復(fù)數(shù)據(jù)清理工作成為采編協(xié)調(diào)工作組全年的重點工作。據(jù)統(tǒng)計,2018 年清理重復(fù)數(shù)據(jù)記錄大約為12.7 萬條(見圖3),接近前3年重復(fù)數(shù)據(jù)清理的總和。
圖3 2015~2018年重復(fù)數(shù)據(jù)合并統(tǒng)計
從2015年到2018年底,合并工作可以在兩個界面進行操作:聯(lián)合采編平臺的“驗收管理”模塊(圖4)和“圖書館之城”統(tǒng)一平臺的“書目雙屏合并”模塊。這兩種渠道都需要操作員將有重復(fù)記錄的ISBN 號輸入到檢索框中,通過在操作界面的左右兩屏中逐條對比重要字段來判斷是否需要進行合并。這兩種界面都非??简灩ぷ魅藛T的眼力、耐心,容易引起視覺疲勞,特別是在多卷書的分卷冊眾多、重復(fù)記錄多的情況下更需要認真對待。少兒圖書這種情況尤其多見——同一個故事系列共用一個ISBN號,一個系列有20-30種書,如果每一種書對應(yīng)有兩條及以上的記錄需要合并,通過翻前后記錄來對應(yīng)卷冊再核對各字段已經(jīng)讓人眼花,很容易誤操作或漏合并,而且系統(tǒng)在頻繁翻前后記錄的情況下容易“崩潰”。2019 年初,系統(tǒng)部在聯(lián)合采編系統(tǒng)中新增了“書目查重合并”新模塊,提供了數(shù)據(jù)合并的新界面(如圖5),新界面較以往的兩種合并界面有以下幾個優(yōu)勢:①無需操作員輸入ISBN 號;②重要字段通過表格對比列出,更清晰簡潔;③多卷書的分卷冊可以通過題名和其他字段對比,直接選中然后在左右屏分別顯示,不需要一條條翻前后記錄;④對于有大學(xué)城圖書館的書目數(shù)據(jù),保留其記錄號的操作較以往更簡便。2019 年初,采編協(xié)調(diào)工作組在部門內(nèi)部對新界面進行了操作培訓(xùn),重復(fù)數(shù)據(jù)的清理工作在新界面下繼續(xù)進行,“書目查重合并”新界面得到了工作組的一致好評,合并工作效率也隨之提高。
圖4 原查重合并操作界面
圖5 升級后的“書目查重合并”界面
在ULAS 平臺下,一家成員館新增或下載數(shù)據(jù),其他館不用重復(fù)編目,直接驗收追加館藏即可,大大減少了重復(fù)工作量,提高了各成員館的工作效率。據(jù)統(tǒng)計(見圖6),2016~2018年,各成員館書目數(shù)據(jù)利用率(只直接追加館藏的記錄條數(shù)占總記錄條數(shù)的比例)平均為60%左右,部分成員館書目數(shù)據(jù)利用率為80%以上(南山圖書館、羅湖圖書館、鹽田圖書館)。成員館中,深圳圖書館和大學(xué)城圖書館的書目數(shù)據(jù)利用率較低,這是因為深圳圖書館新書訂購到貨更早,承擔(dān)了大部分新書書目數(shù)據(jù)的制作工作,而大學(xué)城圖書館參考的分編庫與其他成員館不同所致。在“圖書館之城”執(zhí)行持證上崗編目以來,各成員館提供的書目數(shù)據(jù)較之前更規(guī)范和統(tǒng)一,書目數(shù)據(jù)質(zhì)量大大提升,在2018 年,深圳圖書館的書目數(shù)據(jù)利用率從個位數(shù)提升到了23%,相比而言,有4個成員館(福田圖書館、鹽田圖書館、光明圖書館、坪山圖書館)的數(shù)據(jù)利用率較前兩年有一定幅度的降低,在一定程度上說明各成員館書目數(shù)據(jù)共建共享的責(zé)任意識進一步加強。
圖6 2016-2018年成員館書目數(shù)據(jù)利用情況
聯(lián)合采編平臺于2015年搭建完成,并于同年6月深圳大學(xué)城圖書館首批加入,至2016 年底有80%的成員館加入。從表3 中可以看出,2016~2018 年,每年需合并的重復(fù)數(shù)據(jù)總量較以往大大降低了,2017~2018 年,每年只有 400 條左右的重復(fù)數(shù)據(jù)需要清理,數(shù)量降低一方面得益于《規(guī)范》的制定實施,另一方面也是經(jīng)過編目培訓(xùn)班學(xué)習(xí),編目員業(yè)務(wù)水平提升、操作更規(guī)范的結(jié)果,說明重復(fù)數(shù)據(jù)產(chǎn)生的源頭得到了有效控制。
2014 年底第一次統(tǒng)計結(jié)果顯示,重復(fù)數(shù)據(jù)有42 萬條左右,占中央書目庫總量(約為251 萬)的16.7%,經(jīng)過近4 年的回溯集中合并處理,截至到2019年3月,重復(fù)數(shù)據(jù)總量為12萬左右,占比約為4.4%(中文圖書書目數(shù)據(jù)總量約為270 萬),2007~2015年重復(fù)記錄清理量每年2.5萬條左右,一共清理重復(fù)記錄27.4 萬條,歷史重復(fù)數(shù)據(jù)的清理工作已初步完成約75%。
表3 2007~2018年重復(fù)數(shù)據(jù)比例
續(xù)表3
通過對重復(fù)書目數(shù)據(jù)的合并清理,不僅給中央書目庫“減負”,減少了各成員館編目查重的困擾,也讓讀者在OPAC 檢索有了更好的使用體驗(如圖7)。相對于合并前的同一本書對應(yīng)4條檢索結(jié)果(圖1),需要讀者一一點開查詢館藏所在進行取舍,合并后,同一本書只有一條檢索結(jié)果,且所有館藏分布在一個窗口展示,一目了然,大大節(jié)省了讀者的操作時間。重復(fù)書目數(shù)據(jù)合并后,OPAC給讀者提供了更好的使用體驗。
圖7 OPAC中重復(fù)書目合并后的顯示界面
在重復(fù)書目數(shù)據(jù)控制工作實踐中,我們也發(fā)現(xiàn)了一些需要改進的問題,例如錯誤合并和漏合并的情況不可避免,要提前擬定好對策。深圳“圖書館之城”第一輪重復(fù)書目數(shù)據(jù)回溯清理工作預(yù)計在2019年底基本完成,同時,為了防止舊界面清理工作完成的不徹底,同時防止新導(dǎo)入少量書目數(shù)據(jù)存在重復(fù),在第一輪重復(fù)數(shù)據(jù)清理工作完成后,需要對中央書目庫所有未做標(biāo)記的重復(fù)書目數(shù)據(jù)進行重新統(tǒng)計,再次進行清理維護。
聯(lián)合書目數(shù)據(jù)庫中重復(fù)書目數(shù)據(jù)控制工作是一個系統(tǒng)工程,需要統(tǒng)籌計劃,逐步推進。此項工作涉及業(yè)務(wù)范圍廣,遠非一個部門能夠單獨解決,尤其需要計算機技術(shù)部門的大力支持和密切配合,深圳“圖書館之城”的書目質(zhì)量控制工作實踐也證明了這一點,系統(tǒng)提供的多次判重功能、模塊更新與升級,都對重復(fù)書目數(shù)據(jù)控制工作給予了強力支撐。一個系統(tǒng)功能較好的聯(lián)編系統(tǒng)與重復(fù)書目數(shù)據(jù)控制工作成效息息相關(guān)。重復(fù)書目數(shù)據(jù)控制工作不是一項階段性工作,而是一項書目數(shù)據(jù)維護常規(guī)工作,應(yīng)根據(jù)實際情況不斷地系統(tǒng)調(diào)整與策略優(yōu)化。