趙 晟
(天津圖書館 天津 300191)
為使目前已有的縮微文獻能夠得到更好的開發(fā)利用,對縮微膠片進行數字化加工已成為我國圖書館界的共識。筆者以天津圖書館“縮微文獻影像數據庫”(以下簡稱縮微數據庫)項目為例,探索公共圖書館縮微文獻數字化建設問題。
從2009年5月起,天津圖書館開始實施館藏縮微數據庫建設項目,將館藏民國時期文獻、古籍文獻的縮微膠片轉換為數字化圖片,并進行了相應的影像處理、書目著錄、目次著錄、網絡發(fā)布等,初步建立了縮微數據庫——“民國時期期刊”子庫。
天津圖書館實施縮微文獻數字化項目的規(guī)劃目標是對館藏的歷史文獻縮微膠片進行數字化轉換和加工,形成館藏縮微數據庫,其中包括民國時期的期刊、報紙、圖書和古籍文獻子庫,實現縮微文獻的網絡發(fā)布,并能具備四大功能:(1)在線全文瀏覽功能。讀者通過網絡能了解到縮微文獻的封面、封底等所有內容,并能全文瀏覽;(2)書目查詢功能。該庫具有多個字段的查詢和瀏覽功能;(3)目次檢索功能。文獻的所有目次信息均能提供全文檢索和定位到內容瀏覽;(4)版權保護功能。該庫既能對館藏珍貴文獻進行保護,又便于讀者利用,實現多種保護手段單獨或組合使用。
第一步是設計整個系統(tǒng)的規(guī)劃流程。包括對縮微膠片的數字化影像、影像加工、書目著錄、目次著錄、管理發(fā)布等流程。
第二步是構建運行軟件的系統(tǒng)環(huán)境和數據庫存儲格式。根據目前計算機操作系統(tǒng)的實際使用情況,天津圖書館先期開發(fā)采用了微軟Windows服務器端和客戶端平臺,后臺數據庫采用微軟的SQL Server數據庫軟件,保證了系統(tǒng)的兼容性和易用性。
第三步是制定不同的加工和處理標準。針對不同文獻,制定了不同的加工和處理標準。如針對民國時期的期刊、報紙、圖書以及古籍文獻等,根據本館情況,參照相應的國家標準和行業(yè)標準,制定了不同的加工和處理標準。上述四種類型的文獻的書目著錄標準、目次著錄標準、網絡發(fā)布標準都有所不同,需要根據不同情況分別制定加工和處理標準。
第四步是進行測試化加工,隨時發(fā)現問題并改正。調查館藏文獻的使用情況,確定以使用量和使用頻率最高的民國時期期刊作為測試加工對象。
第五步是開發(fā)測試,不斷完善相關標準。根據項目開發(fā)的全過程,制定縮微膠片的數字化影像標準、影像加工標準、書目著錄標準、目次著錄標準、統(tǒng)一發(fā)布標準等,并在項目測試工作中不斷改進。
第六步是項目的應用。在將近一年時間充分測試的基礎上,正式進行天津圖書館縮微數據庫的一期項目:“民國時期期刊”子庫的加工制作和發(fā)布工作。截至目前,天津圖書館已完成縮微膠片轉數字化影像、影像加工、書目著錄、目次著錄“民國時期期刊”31種,404冊,33077拍,外網全文發(fā)布11種,175冊,11000拍。
根據天津圖書館的實際情況,并考慮到歷史文獻特別是民國時期文獻的原件紙質不佳的因素,該館制定了民國時期文獻縮微膠片轉換數字化影像采用300 DPI的加工標準,而沒有采用《數字圖書館加工標準規(guī)范》推薦的600 DPI最高加工標準,這樣避免了影像圖片多余數字噪點的出現,為后期的圖片處理降低了難度。
對于不同的文獻、不同的收藏單位,在建立相應數據庫時數據會有所不同。根據這一情況,項目組設置了“系統(tǒng)設置”模塊,對六種情況進行設置:(1)數據字段的設置。包括設立字段數量、類型、數據長度。系統(tǒng)數據庫支持可自定義字段,字段長度可在系統(tǒng)中調整;(2)編輯書目字段;(3)設置目次字段;(4)維護 MARC 字段;(5)設置查重字段;(6)服務器設置,包括加工服務器、數據庫存儲服務器、發(fā)布服務器的相應設置等。
根據館藏文獻已經按MARC標準著錄,且許多縮微文獻也帶有MRAC數據等情況,項目組決定書目數據采用MARC標準,并開發(fā)了標準接口。這樣不僅可以單獨著錄文獻,還可以從其他圖書館系統(tǒng)中導入標準的MARC數據,減少著錄工作量,也方便數據交換。
在目次著錄上,除將目次信息全文著錄外,還將目次和對應頁面掛接,使讀者能快速定位到內容信息。根據文獻具體情況,項目組制定了專門目次著錄標準,統(tǒng)一了解決問題的辦法:(1)在目次著錄外,增加全文瀏覽功能,既真實反映了文獻原貌,也符合讀者的使用習慣;(2)設置絕對頁碼,與真實的文獻頁碼相對應;(3)對于民國時期文獻的文字用法,在原文照錄的基礎上,還制定具體標準,統(tǒng)一設置對應檢索字段;(4)根據目次著錄標準,人工添加某些實用目次,并加特殊標記以示區(qū)別,使目次信息更加全面。
目前,圖像全文識別技術并不完全能夠處理古籍文獻,實際的識別精度也不太高,并存在著字體、版式識別的問題,需要大量人工干預和處理,加工成本高,進度也相對慢。根據這一情況,項目組創(chuàng)新性地提出,只進行書目和目次信息的著錄,待相關技術成熟再進行全文識別。這樣能大量減少加工處理的難度,快速提高加工速度,解決主要信息檢索的問題。
由于只是針對圖片進行處理,項目組還開發(fā)了圖像處理模塊,可將縮微膠片轉成數字化影像后進行處理,包括剪邊、糾斜、去噪點等,并支持單獨或批量處理功能,大大加快了處理進度。
參照《數字圖書館加工標準規(guī)范》,項目組在影像原始數據的存儲上采用TIF格式,發(fā)布采用JPG格式,并加入了PDF發(fā)布格式。
為保證大量加工的流程管理,項目組在系統(tǒng)中設置了六大模塊:影像加工、書目著錄、目次著錄、管理發(fā)布、系統(tǒng)設置、系統(tǒng)管理,并在相應模塊設置了任務交送,明確當前模塊加工任務結束后,由系統(tǒng)自動轉下一模塊,保證了工作的按序進行。
由于部分文獻涉及版權問題,項目組根據不同的保護等級要求,設置相應的保護手段和措施,實現了不同版權的保護問題。主要采取了以下幾種方法:部分文獻內網發(fā)布,限制瀏覽;發(fā)布數據采用水印管理;降分辨率發(fā)布;設置只讀或限制打印、復制等。
為保證發(fā)布數據的安全、準確、檢索方便,項目組統(tǒng)一了發(fā)布標準,并開發(fā)了部分功能。如設定書目信息的發(fā)布字段和別名、字段長度以及檢索字段;設定目次信息的發(fā)布字段以及檢索字段,對目次中的統(tǒng)一檢索字段只用于檢索而不發(fā)布;對書目、目次信息進行全文檢索;檢索關鍵字支持簡繁體自動轉換。
為保證加工、存儲、發(fā)布的數據安全,系統(tǒng)設置了“系統(tǒng)管理”模塊,并能實現圖像狀態(tài)跟蹤、縮微用戶管理、數據庫備份還原、縮微日志管理、數據導出、數據導入、修改密碼七大功能。
擁有自主版權主要體現在三個方面:一是服務器端統(tǒng)一認證、支持多客戶端同時使用;二是統(tǒng)一服務器管理平臺,包括加工服務器、數據庫存儲服務器、發(fā)布服務器,支持集群功能,能充分滿足大數據量、多客戶端加工使用,能滿足多用戶、多功能檢索要求;三是支持簡繁體字自動轉換,無論讀者輸入的檢索字體是繁體字還是簡體字,系統(tǒng)都能自動進行轉換,將含對應的簡繁字段的檢索結果一并檢出。
參照國家標準和行業(yè)標準,項目組制定了縮微膠片轉數字化影像標準、影像加工標準、書目著錄標準、目次著錄標準、統(tǒng)一發(fā)布標準,方便用戶使用和數據交換。
包括內外網控制發(fā)布、高分辨率TIF格式加工存儲、低分辨率JPG格式發(fā)布存儲、數字水印保護、PDF格式加密發(fā)布等。
系統(tǒng)設置了支持標準的數據接口,能方便數據的導入和導出,便于相應的軟件開發(fā)和利用。
縮微數據庫建設是公共圖書館縮微文獻開發(fā)與利用的發(fā)展方向,筆者結合天津圖書館的實踐,認為我國公共圖書館縮微數據庫建設的發(fā)展目標主要應體現在以下八個方面。
由全國縮微文獻復制中心牽頭,在天津圖書館縮微數據庫的基礎上加以擴展,形成全國性的縮微文獻數字化項目。
由全國縮微文獻復制中心負責制定全國公共圖書館縮微數字化工作規(guī)劃,協調各圖書館的縮微文獻數字化工作。各圖書館可根據自身館藏,自定選題或多館聯合選題,并提前報全國縮微文獻復制中心備案,做到統(tǒng)籌規(guī)劃,避免重復建設。
應以國家標準和行業(yè)標準以及數字資源版權征集中涉及的縮微文獻數字化征集標準為依據,在天津圖書館標準的基礎上,針對各類縮微文獻制定統(tǒng)一的加工、發(fā)布、存儲等一系列標準。各圖書館均依據此標準進行縮微文獻的數字化轉換工作,確保數字文獻格式及各項參數的統(tǒng)一,為各圖書館之間的文獻共享提供保障。
各圖書館在同一平臺上以同一標準,按選題自主加工,加工進度自行安排。
凡各圖書館加工完成的縮微文獻數字資源,應由各圖書館按照標準自行保存。對于各圖書館有容災備份計劃,需要異地保存的數字資源,可復制一份交由全國縮微文獻復制中心代為保存。
由全國縮微文獻復制中心負責開發(fā)檢索平臺,并為各圖書館提供檢索接口,使讀者可以在各圖書館的網站上檢索到包括國家圖書館在內的各圖書館的縮微文獻目錄,并可獲知縮微文獻的館藏信息。具體文獻服務由各圖書館負責。
縮微數字資源的服務方式可采用多種方式,筆者認為主要可分為三種方式:一是完全開放。讀者可以在網上檢索并瀏覽全書內容,但不提供下載服務;二是有限開放。各圖書館可以結合自身情況,靈活選擇文獻資源發(fā)布方式,如完全局域網發(fā)布或部分局域網發(fā)布等;三是離線光盤調閱等。各圖書館可根據自身情況以及讀者需求,決定采用相應的服務方式。
在完成以上工作的基礎上,全國縮微文獻復制中心應與各公共圖書館一起,進一步探討縮微文獻資源共享方式,力求實現縮微文獻數字資源在公共圖書館范圍內的共享。
縮微文獻的數字化開發(fā)與利用是一項長期的工作,天津圖書館縮微文獻數字化的探索,不僅培養(yǎng)了一批熟悉縮微文獻數字化技術和流程的專門人才,而且在推動全國公共圖書館縮微文獻數字化工作中將發(fā)揮積極作用。
[1] 李茁.縮微文獻影像聯合數據庫的共建共享[J].數字與縮微影像,2009(3):4-6.
[2] 李茁.縮微文獻影像數據庫的建設與應用[J].數字與縮微影像,2008(4):39-41.
[3] 陳小平.論網絡環(huán)境下的圖書館數字化建設[J].數字與縮微影像,2010(2):28-31.