文/國家圖書館 謝思靜
為了更好地保護(hù)紙質(zhì)文獻(xiàn),近年來,許多圖書館用縮微膠卷復(fù)制了民國時(shí)期的一些書籍、雜志和報(bào)紙,以實(shí)現(xiàn)縮微膠卷文獻(xiàn)的電子化和計(jì)算機(jī)化。通過對館藏信息資源展開組織和披露,已經(jīng)實(shí)現(xiàn)將各種文獻(xiàn)資料從文件級逐漸向內(nèi)容級轉(zhuǎn)變,在一定程度上滿足了數(shù)字時(shí)代讀者有效獲取和使用信息的需要,提高了閱讀服務(wù)質(zhì)量。由于民國時(shí)期的文件數(shù)量龐大,數(shù)字化過程可能涉及文件的重復(fù)處理。需要對微縮文獻(xiàn)數(shù)據(jù)庫進(jìn)行復(fù)核,及時(shí)發(fā)現(xiàn)錄入的多個(gè)文檔。本文特別討論這項(xiàng)工作中的雙重檢查,以促進(jìn)民國微型文獻(xiàn)數(shù)字化的雙重檢查。
查重是指檢查正在編輯的圖書是否有收藏記錄。計(jì)算機(jī)復(fù)制檢查是對以前的分類和索引復(fù)制檢查。這是縮微文獻(xiàn)文件的主要程序。目的是避免同一本書的不同編號,以便集中處理同一種書和同一種書的不同版本和卷,最大限度地避免重復(fù)處理造成的資源浪費(fèi)。查重是縮微文獻(xiàn)流程中的第一步,是縮微文獻(xiàn)實(shí)現(xiàn)數(shù)字化轉(zhuǎn)變的重要前提。查重效果直接決定了文獻(xiàn)分類標(biāo)引的質(zhì)量,并對縮微文獻(xiàn)數(shù)字化和數(shù)據(jù)庫的建設(shè)質(zhì)量有一定的影響。高質(zhì)量的重復(fù)檢查可以避免同一本書不同編號的現(xiàn)象,保持同一文件的分類和標(biāo)識的一致性,協(xié)助相關(guān)文件(如配套出版物和重印圖書)的分類,并在數(shù)據(jù)庫中查找和更正問題記錄??梢钥闯觯貜?fù)檢查是微型文檔數(shù)字化中一項(xiàng)非常重要的工作。
根據(jù)圖書館的縮微文獻(xiàn)工作規(guī)范,初步設(shè)計(jì)文獻(xiàn)數(shù)據(jù)庫查重工作流程,如圖1所示:
圖1 查重工作流程
(一)項(xiàng)目啟動(dòng)前。為了及時(shí)發(fā)現(xiàn)文件數(shù)字化過程中出現(xiàn)的所謂重復(fù)問題,管理層應(yīng)及時(shí)組織專人進(jìn)行全面的文件復(fù)制工作,做到事半功倍。為嚴(yán)格管理微文檔的數(shù)字記錄,項(xiàng)目開工前采取以下管理措施:
1.明確分工。由專人負(fù)責(zé),專人負(fù)責(zé)。一般由分管領(lǐng)導(dǎo)負(fù)責(zé),技術(shù)負(fù)責(zé)人明確維修操作權(quán)限,管理人員完成復(fù)檢任務(wù)。圖書館微文獻(xiàn)數(shù)據(jù)的復(fù)制檢查通常由業(yè)務(wù)負(fù)責(zé)人主導(dǎo),系統(tǒng)部配合采編部,具體數(shù)據(jù)維護(hù)由管理人員負(fù)責(zé)。
2.實(shí)施計(jì)劃管理??s微文獻(xiàn)數(shù)據(jù)資料的維護(hù)需要統(tǒng)籌設(shè)計(jì),不能采用零碎處理的方法,對于文獻(xiàn)資料的維護(hù)應(yīng)該確定維護(hù)范圍、維護(hù)方法、所需資源、實(shí)際需求等。
3.建立數(shù)據(jù)處理基礎(chǔ)。數(shù)據(jù)的標(biāo)準(zhǔn)化、標(biāo)準(zhǔn)化和一致性是縮微文獻(xiàn)數(shù)據(jù)質(zhì)量的關(guān)鍵。微文獻(xiàn)數(shù)據(jù)批量導(dǎo)入后,首先對數(shù)據(jù)庫進(jìn)行全面復(fù)檢,初步建立復(fù)檢數(shù)據(jù)處理原則:(1)根據(jù)關(guān)鍵詞進(jìn)行分類,將同類關(guān)鍵詞的文獻(xiàn)進(jìn)行合并,對于不能確定為同類關(guān)鍵詞的則分開處理;(2)合并以國家圖書館、CRLnet和CALIS的數(shù)據(jù)為準(zhǔn);(3)將同一年度的平封面合并為一條記錄,增加010字段;(4)對于具有不同分類號的同一本書,添加和合并了690個(gè)字段。
4.對文獻(xiàn)整體查重。為了保證縮微文獻(xiàn)文檔數(shù)據(jù)庫的穩(wěn)定性,以及在重復(fù)檢查過程中沒有遺漏,在使用請求號錯(cuò)誤檢查方法進(jìn)行搜索時(shí),有必要將整個(gè)文檔分為多個(gè)部分。每次提取少量數(shù)據(jù)時(shí),可以單獨(dú)使用請求編號提取類別A和類別B。當(dāng)有許多特定類型的收集數(shù)據(jù)時(shí),也可以對其進(jìn)行分解,并在其中檢查錯(cuò)誤。例如,T類可以分解為第二類TB、TD和TE以提取數(shù)據(jù);還可以使用“之間”關(guān)系提取TP3和TP4之間的數(shù)據(jù)。數(shù)據(jù)復(fù)查維護(hù)后,提取其他類別的數(shù)據(jù),每天寫下申請?zhí)?,第二天檢查并修復(fù)錯(cuò)誤,直到所有類別檢查完畢。
(二)項(xiàng)目進(jìn)行中。為保證工作質(zhì)量,在管理過程中制訂詳細(xì)的復(fù)檢標(biāo)準(zhǔn),通過多次復(fù)檢達(dá)到最終目的。詳細(xì)標(biāo)準(zhǔn)的制訂有利于復(fù)檢過程的監(jiān)督管理,以最少的檢索方式準(zhǔn)確實(shí)現(xiàn)復(fù)檢目的,并在復(fù)檢過程中發(fā)現(xiàn)縮微文獻(xiàn)數(shù)據(jù)庫中的數(shù)據(jù)錯(cuò)誤。由于記錄總是略有不同,合并操作規(guī)范在確定重復(fù)的判斷字段的前提下,設(shè)置匹配字段比較的檢查原理。請無視全角和半角、外國文字、空格、標(biāo)點(diǎn)符號的輸入方法,以及特殊字符、阿拉伯?dāng)?shù)字、漢字的對應(yīng)。在此基礎(chǔ)上,從以下四個(gè)方面對文檔數(shù)據(jù)庫進(jìn)行仔細(xì)檢查:
1.對ISBN查重發(fā)現(xiàn)數(shù)據(jù)錯(cuò)誤。不同內(nèi)容、甚至不同版本、不同裝訂和語言的圖書的ISBI數(shù)量是不同的。如果ISBI重復(fù)檢查中有多條數(shù)據(jù),應(yīng)仔細(xì)區(qū)分并準(zhǔn)確判斷。管理者應(yīng)善于發(fā)現(xiàn)這一過程中的數(shù)據(jù)錯(cuò)誤,如“一本書兩條記錄”“兩本書一條記錄”“一本書兩個(gè)點(diǎn)”等細(xì)節(jié)問題。
2.在標(biāo)題項(xiàng)目、多卷書籍項(xiàng)目和系列項(xiàng)目的重復(fù)檢查中發(fā)現(xiàn)錯(cuò)誤。使用標(biāo)題重復(fù)檢查可以準(zhǔn)確判斷收集的數(shù)據(jù)分類是否正確,描述格式是否一致。例如,在某些書籍的修訂版、多個(gè)版本和不同版本的其他形式中,主題名稱保持不變,但I(xiàn)SBN編號被重新分配。在檢查標(biāo)題副本的過程中,很容易發(fā)現(xiàn)分類是否一致以及描述格式是否正確。必須在收藏?cái)?shù)據(jù)庫中檢查多卷書籍和系列。管理者可以通過檢查已到達(dá)圖書館的其他卷和多卷書籍及系列卷的數(shù)據(jù),檢查分類和主題索引是否一致,以及描述格式是否與建議的館藏?cái)?shù)據(jù)一致,以確保館藏?cái)?shù)據(jù)的統(tǒng)一。
3.對責(zé)任者進(jìn)行查重。在沒有書名和版權(quán)信息的情況下,如果推算出這本書的負(fù)責(zé)人,可以考慮復(fù)查負(fù)責(zé)人。如果檢測到過多的文件,則有必要使用假定的出版年份或其他支持信息的組合(即有限的重復(fù))進(jìn)行搜索。負(fù)責(zé)人姓名是否規(guī)范;繁體字或音譯字不一致。如有必要,還可以通過網(wǎng)絡(luò)檢索探索負(fù)責(zé)人的相關(guān)作品,查閱文獻(xiàn)載體形式等信息和數(shù)據(jù)。
4.對文獻(xiàn)主題作為輔助查重。在明確文檔內(nèi)容的基礎(chǔ)上,可以通過分析給定的分類標(biāo)記或主題詞來檢查文檔主題。相對而言,這種方法稍微困難一些,這要求管理者熟悉分類詞典,并能夠快速準(zhǔn)確地對文獻(xiàn)主題進(jìn)行分類。當(dāng)管理者在分類過程中使用某個(gè)主題詞進(jìn)行搜索時(shí),他們會(huì)檢索到多個(gè)具有相同主題詞的數(shù)據(jù)。通過快速比較和分析,可以判斷分類并找出錯(cuò)誤。
5.與流通部、閱覽部等其他部門協(xié)作。管理者應(yīng)與流通部、閱讀部等部門的其他人員協(xié)調(diào),收集相關(guān)部門反饋的信息,及時(shí)發(fā)現(xiàn)錯(cuò)誤數(shù)據(jù)。一些平時(shí)在圖書館不容易發(fā)現(xiàn)的錯(cuò)誤,在其他部門的工作操作中也很容易發(fā)現(xiàn),如010節(jié)的價(jià)格與實(shí)際圖書不符、書名錯(cuò)誤、分類號或借書編號錯(cuò)誤、藏書地點(diǎn)錯(cuò)誤、采集條碼的掃描字符串等。
(三)項(xiàng)目結(jié)項(xiàng)前。提高復(fù)檢的準(zhǔn)確性,避免同類文件的重復(fù)拍攝,是提高縮微文獻(xiàn)文件管理質(zhì)量的有效途徑。因此,在逐項(xiàng)復(fù)檢完成后,應(yīng)及時(shí)安排復(fù)檢,通過查漏補(bǔ)缺,確保復(fù)檢質(zhì)量。在對叢書和多卷書進(jìn)行分類時(shí),應(yīng)盡可能選擇多種方式,以保持每卷書的分類描述的一致性,尤其是對先到圖書館的叢書或多卷書的某個(gè)子卷進(jìn)行分類時(shí)。
使用CALIS數(shù)據(jù)庫資源查看系列中的相關(guān)信息,多卷書和其他子卷,并根據(jù)整個(gè)系列和多卷書的一般信息以及圖書館編目規(guī)則,確定首先進(jìn)入圖書館的系列和多卷書的子卷是集中分類還是單獨(dú)分類。這樣,只要到達(dá)圖書館的第一本書的分類是準(zhǔn)確的,無論是誰檢查圖書館的其他子卷,他都會(huì)很清楚,從而保持圖書館系列和多卷書的每個(gè)子卷的分類描述一致。也可使用a-leph500圖書館集成系統(tǒng)。編目時(shí),可以參考不同文獻(xiàn)類型的數(shù)據(jù)庫,如古籍、珍本、期刊等數(shù)據(jù)庫,使復(fù)檢結(jié)果更加完整,編目員比較檢索到的數(shù)據(jù)并選擇最準(zhǔn)確、最完整的記錄是很有幫助的。經(jīng)過反復(fù)檢查,減少了重復(fù)記錄,保證了數(shù)據(jù)質(zhì)量。
對于圖書館來說,編目數(shù)據(jù)的質(zhì)量反映了圖書館的專業(yè)水平,全面準(zhǔn)確的復(fù)檢是保證編目數(shù)據(jù)質(zhì)量的前提。重復(fù)檢查是一項(xiàng)系統(tǒng)工程,需要有計(jì)劃、有步驟地推進(jìn)。闡述了微文獻(xiàn)的查重工作流程,建立了查重機(jī)制,對查重工作提出了建議,并根據(jù)具體情況采取多種方式進(jìn)行詳細(xì)檢索,為了提高縮微文獻(xiàn)的數(shù)據(jù)質(zhì)量,為圖書館縮微文獻(xiàn)數(shù)字化奠定基礎(chǔ),必須避免重復(fù)記錄。希望本研究能對今后縮微文獻(xiàn)的復(fù)制檢查起到有益的作用。同時(shí),需要注意的是,數(shù)字文檔復(fù)制驗(yàn)證不是一個(gè)階段,而是日常數(shù)據(jù)維護(hù),必須根據(jù)實(shí)際情況不斷調(diào)整和優(yōu)化。