冀曉萌
(國家圖書館,北京 100081)
數(shù)字技術(shù)的不斷創(chuàng)新和發(fā)展給圖書館館藏建設和知識服務提供了更加廣闊的空間和前景。作為圖書館館藏的重要組成部分,民國時期檔案類資源的數(shù)字化加工整理對于整個圖書館的館藏體系建設和數(shù)字服務水平提高具有非常重要的意義。近年來,民國時期檔案資料的保護與開發(fā)愈發(fā)受到重視,在這種背景下,如何做好館藏民國時期檔案類資料的數(shù)字資源建設與服務,成為圖書館面臨的重要問題之一。隨著《革命歷史檔案著錄細則》《民國檔案目錄中心數(shù)據(jù)采集標準民國檔案著錄細則》等各級圖書館和檔案館標準規(guī)范的相繼出臺,為檔案類資源的數(shù)字化加工整理工作提供了可靠的技術(shù)支持和標準化的操作指南。
“革命文獻與民國時期文獻保護計劃”項目實施以來,以國家圖書館為主的建設單位已完成約1萬頁日本細菌戰(zhàn)罪行調(diào)查檔案,1.2萬頁日軍在中國戰(zhàn)區(qū)暴行調(diào)查檔案,3.3萬頁相關文字檔案的數(shù)字化回歸工作[1]。筆者圍繞國家圖書館館藏民國時期檔案類資源的數(shù)字資源建設和服務,探討民國時期檔案類資源的特點、采集難點及方法,探究民國時期檔案類數(shù)字資源的建設與利用,以期為圖書館館藏檔案類資源的數(shù)字化服務提供借鑒和參考。
民國時期檔案類資源是重要的館藏歷史文化遺產(chǎn)之一,對于保護文化遺產(chǎn)和研究歷史具有重要意義[2]。但是檔案資源的特點和采集難點也是不可忽視的問題。
(1)多樣性:民國時期檔案資源豐富多樣,涉及政治、經(jīng)濟、文化、軍事、社會等各個領域。這些文獻或檔案資源反映了當時社會的多種面貌,包括各類人群、地域、文化等方面,數(shù)量龐大。
(2)稀缺性:民國時期,中國社會發(fā)生了許多重大變革,如政治制度的更替、社會經(jīng)濟的轉(zhuǎn)型、文化思潮的轉(zhuǎn)變等,由于歷經(jīng)戰(zhàn)爭和政治動蕩,很多民國時期的文獻或檔案資源已經(jīng)失落或流散,因此保存完好的文獻或檔案資源具有稀缺性[3]。
(3)區(qū)域性:民國時期政治的特殊性,導致不同地區(qū)的政治、文化、經(jīng)濟情況差異巨大,因此在檔案類資源的收集和整理中,需要考慮地域特點和文獻特征。
(4)具有研究價值和歷史價值:民國時期檔案資源的研究價值廣泛,包括歷史、政治、社會、文化等多個學科領域[4]。這些資源在一定程度上反映出歷史的真實面貌,可以幫助我們更深入地了解中國近現(xiàn)代歷史的演進和發(fā)展。
檔案資源的采集是數(shù)字化工作的重要環(huán)節(jié),對于數(shù)字化工作的質(zhì)量和效率有著至關重要的影響。然而在民國時期檔案類資源的采集過程中,卻面臨著諸多難點:
(1)分布范圍廣。民國時期的檔案文獻并沒有明確的統(tǒng)一分類和組織形式,而是分散在各個國家、地區(qū)、機構(gòu)和個人手中,這些檔案文獻既包括政府部門的公文檔案,也包括私人收集的文獻資料。因此,要將這些零散的文獻整合、分類、加工成系統(tǒng)化的數(shù)字化文獻庫,采集時需要耗費大量的人力和物力。
(2)保存狀況不同。民國時期檔案資源的保存狀況各異,有的檔案資源保存完好,易于采集和數(shù)字化處理;有的檔案資源保存較差,存在印刷不清晰、涂抹污損等問題,需要進行修復、整理等工作后才能進行數(shù)字化處理;一些文獻內(nèi)容存在缺失、不準確等問題,需要進行補充和校對,這都增加了工作量和采集的難度[5]。
(3)多樣性和復雜性。民國時期的檔案資源種類繁多,涵蓋政治、經(jīng)濟、文化、軍事等各個領域,且存在紙質(zhì)檔案、照片、音頻、視頻等多種形式,這些文獻類型的特點和數(shù)字化加工方式都不盡相同,需要采用不同的采集設備和技術(shù)。此外,很多檔案資源以外文形式存在,需要先翻譯再進行數(shù)字化采集,為保證翻譯結(jié)果的準確性和可信度,需要專業(yè)人才提供支持,從而加大了采集的難度和復雜度。
(4)采集環(huán)境要求較高。翻拍方式易受天氣、光照等外部因素的影響,如果缺乏專業(yè)的檔案采集環(huán)境如光線較暗,容易導致拍攝出的照片不清晰,進而影響數(shù)字化質(zhì)量。
(1)電子資源采集:直接采集已數(shù)字化的電子版資源。調(diào)研檔案資源的分布情況、館藏內(nèi)容和數(shù)量、現(xiàn)有的數(shù)字化資源等信息,根據(jù)實際情況,可直接對已數(shù)字化的電子資源進行采集。
(2)實地采集:實地采集是指到現(xiàn)場相機翻拍、掃描、復印等方式采集文獻資源。翻拍是指將文獻放在專業(yè)的拍攝平臺上,用高像素的相機進行拍攝,通常適用于紙質(zhì)文獻和圖片等實物資料的數(shù)字化采集;掃描則是指將文獻放在掃描儀上進行數(shù)字化采集,適用于較小尺寸的文獻、圖冊、圖表、手稿等多種文獻形式的數(shù)字化采集。采集者需要具備相關的知識和技能,如對文獻資源的鑒定和分類、拍攝和掃描技術(shù)等,盡可能保留檔案的原始外貌。
此外,針對海外回歸的民國時期檔案資源,需要先對外文進行翻譯,再進行數(shù)字化采集。翻譯的工作需要有專業(yè)學科背景的人員支持,才能保證翻譯結(jié)果的準確性和可信度。同時,對于一些難以識別和處理的文獻形式如手抄本等,也需要利用專業(yè)技術(shù)進行數(shù)字化采集,如通過圖像處理技術(shù)對圖像進行分割、識別和校對等處理。
民國時期檔案類資源因其具有多樣性、稀缺性等特點,在數(shù)據(jù)加工時需要進行整體考慮,確保以下加工原則。
(1)完整保留檔案原貌:盡可能保留原始檔案的完整性和真實性,不進行過多修改和處理。以1:1的比例采集保存檔案圖像,原檔案幅面較大,無法整體采集的,可將原件分畫幅采集,確保拼接與原圖基本一致,無重影、拼接處無明顯歪斜變形等。
(2)數(shù)據(jù)質(zhì)量要求高:數(shù)字化加工后的檔案資料需要適配多種服務端口,這就需要在加工時按數(shù)字資源保存、出版印刷及發(fā)布服務的需求可能性,生成長期保存級、出版印刷級與發(fā)布服務級圖像。保證圖像清晰度、文本識別準確性、數(shù)據(jù)完整性和一致性等方面,以確保數(shù)字化加工檔案的可靠性和可用性。
(3)數(shù)據(jù)制作內(nèi)容準確無誤:元數(shù)據(jù)著錄的信息做到準確無誤,標引字段信息符合元數(shù)據(jù)著錄規(guī)范。在翻譯外文檔案資源時,需對翻譯過程進行統(tǒng)一管理、質(zhì)量跟蹤。譯文文檔格式與原文文檔格式應保持一致。應聘請專家團隊嚴格審校,確保無政治性、學術(shù)性、知識性、技術(shù)性錯誤。
2.2.1 元數(shù)據(jù)加工重點及質(zhì)量把控
元數(shù)據(jù)是以源文獻為中心的知識組織方式,檔案數(shù)據(jù)信息需對數(shù)字資源對應源文獻的內(nèi)容及特征進行描述。參照國家圖書館及檔案館的元數(shù)據(jù)著錄規(guī)范,檔案資料的元數(shù)據(jù)內(nèi)容應包括檔案數(shù)據(jù)信息表和數(shù)據(jù)信息表,即每個檔案創(chuàng)建一條元數(shù)據(jù),記錄每份文件的基本信息,生成“數(shù)據(jù)信息表”。以由國家圖書館民國時期文獻保護工作辦公室編著的《二戰(zhàn)時期西南太平洋戰(zhàn)區(qū)日本戰(zhàn)俘訊問檔案匯編》一書為例,著錄字段信息包括:加工編號、標識符、題名、創(chuàng)建者、日期、語種、主題/描述、類型、權(quán)限等。其中日期應著錄對象數(shù)據(jù)標注日期(原樣著錄)與標準格式日期(YYYY-MM-DD)兩種,名稱需著錄英文(原樣著錄)和中文譯文,主題/描述可根據(jù)文獻具體情況選擇著錄英文關鍵詞或中文提要。在生成元數(shù)據(jù)的過程中,需要查看元數(shù)據(jù)文件命名是否正確,存儲結(jié)構(gòu)是否符合規(guī)范,是否依照規(guī)定的字段結(jié)構(gòu)進行信息著錄,元數(shù)據(jù)是否存在無法對應對象數(shù)據(jù)等問題,字符、符號等文字錯誤率一般情況下不超過0.3‰。在元數(shù)據(jù)檢查時,通常采取抽樣方法,抽取一般不低于50%樣本,如發(fā)現(xiàn)元數(shù)據(jù)數(shù)據(jù)信息表個別標簽取值有誤,需核對檔案基本信息,按規(guī)定字段結(jié)構(gòu)重新賦值。
2.2.2 對象數(shù)據(jù)加工重點及質(zhì)量把控
根據(jù)《數(shù)字資源加工標準規(guī)范》以及項目調(diào)研實踐,數(shù)字化加工民國時期檔案類資源一般情況下包括長期保存級、出版印刷級與發(fā)布服務級圖像3個應用級別。針對不同應用級別的對象數(shù)據(jù),按不同標準進行圖像處理與格式轉(zhuǎn)換,一般情況下,影像均以灰度掃描,要求圖像清晰,亮度適中,以保證盡量多的清晰內(nèi)容為原則,掃描后的圖像不做糾偏及去污處理,掃描后的圖像要求真實反映原卷,在原件正確的前提下頁碼連續(xù),不能有缺頁、錯頁、數(shù)據(jù)內(nèi)容缺失等現(xiàn)象。參照“二戰(zhàn)時期西南太平洋戰(zhàn)區(qū)日本戰(zhàn)俘訊問檔案數(shù)字化服務”項目,該項目提交3種格式的對象數(shù)據(jù),包括TIFF格式的長期保存級、JPEG2000格式的出版印刷級以及PDF格式的發(fā)布服務級。需要確保各級別對象數(shù)據(jù)圖像掃描文件夾和文件名命名正確、數(shù)據(jù)格式和圖像掃描分辨率符合要求、圖像清晰,不存在黑邊框、歪斜情況,圖像掃描錯誤率一般不超過1‰。
匯編成冊出版是將數(shù)字化的檔案按照一定的分類、目錄和排版規(guī)則進行編輯,形成電子書籍或者紙質(zhì)出版物。通常需要進行文本編輯、圖片處理、版面設計等工作。這種方式可以將檔案數(shù)字化為易于傳播和保存的形式,同時也方便人們進行查閱和研究。相比其他數(shù)字化揭示方式,匯編成冊出版更加貼近傳統(tǒng)的紙質(zhì)出版物形式,更加容易讓人接受。同時,也可以在紙質(zhì)出版物的基礎上制作電子版,增加檔案的傳播范圍和可訪問性。
國家圖書館近年來一直面向全國組織申報文獻整理項目,并組織專家評審會對申報項目進行評審,根據(jù)文獻內(nèi)容、整理數(shù)量、類型、珍稀程度以及整理難度確定經(jīng)費資助額度。相關的出版情況發(fā)布在“革命文獻與民國時期文獻保護網(wǎng)”上。其中有關檔案類的出版項目見表1。
表1 近年來國家圖書館組織出版的部分民國檔案類文獻項目
國家圖書館出版社將出版的民國文獻大致分為6大類,分別為文獻資料叢編、期刊資料分類匯編、外文類影印圖書、名人日記信札、抗戰(zhàn)及對日戰(zhàn)犯審判文獻和其他[6]。如,《二戰(zhàn)時期西南太平洋戰(zhàn)區(qū)日本戰(zhàn)俘訊問檔案匯編》收錄了約2000份訊問報告,揭示了二戰(zhàn)時期日軍在西南戰(zhàn)區(qū)各部隊的隸屬關系,提供了軍工企業(yè)的生產(chǎn)情況以及武器裝備的詳細數(shù)據(jù),具有重要的史料價值和現(xiàn)實意義,有利于深化和推進對二戰(zhàn)歷史的研究[7]。
建設民國時期專題數(shù)據(jù)庫,通過對民國時期檔案類資料的數(shù)字化加工和處理,提高數(shù)據(jù)的利用價值。專題數(shù)據(jù)庫的建立不僅可以大容量存儲檔案資料,便于管理和查詢,還可以通過網(wǎng)絡共享,提高數(shù)據(jù)共享效率。通過電腦網(wǎng)絡或手機移動端,公眾可以隨時隨地訪問這些數(shù)字化檔案,實現(xiàn)遠程查詢、瀏覽和下載。相比于傳統(tǒng)的紙質(zhì)檔案,專題數(shù)據(jù)庫具有信息檢索速度快、容量大、便于管理等優(yōu)點,因此在檔案資料數(shù)字化展示和傳播方面得到廣泛應用,極大地拓展了檔案資料的利用價值和范圍。
目前,“革命文獻與民國時期文獻保護計劃”項目建設的民國時期文獻專題數(shù)據(jù)庫包括“日本細菌戰(zhàn)資料庫”“東京審判資料庫”“日本戰(zhàn)爭罪行審判史料編譯”等,致力于向社會公眾推廣、普及抗戰(zhàn)歷史知識,為讀者研究使用提供便利。
數(shù)字化展覽通常需要借助一些數(shù)字展示技術(shù),如數(shù)字投影、數(shù)字屏幕、觸摸屏等。這些技術(shù)可以將數(shù)字檔案以多種形式如圖片、視頻、音頻等呈現(xiàn)給觀眾,使檔案內(nèi)容更加生動直觀。同時,數(shù)字化檔案的展覽還可以借助一些虛擬現(xiàn)實和增強現(xiàn)實技術(shù),搭配文物或民國時期的歷史文化資料,形成多元化的展覽效果,為觀眾打造更加沉浸式展示體驗。另外,數(shù)字化展覽具有更高的互動性,觀眾可以進行數(shù)字化操作、實時交互等,更具有參與感和趣味性,吸引更多的觀眾和用戶,提高民國時期檔案資料的傳播效果。如,國家圖書館在出版《遠東國際軍事法庭庭審記錄》一書后,又舉辦了“歷史的審判”展,將整理出版、數(shù)據(jù)庫建設和展覽展示有機地融合起來,形成了比較完整的文獻傳播鏈條。
知識服務是近年來圖書館界的研究熱點之一,指面向服務對象需求,對數(shù)據(jù)進行深度挖掘、分析、過濾、提取與組織,最終形成有價值的知識供服務對象使用,幫助服務對象完成目標明確的任務或工作[8]。對于民國檔案類文獻而言,依托數(shù)字化加工整理后的檔案資源,通過對數(shù)字化檔案資料的語義標注和知識抽取,建立基于知識圖譜的知識服務平臺,提供自然語言查詢和問答服務等功能,為用戶提供更加智能化的知識服務。用戶通過輸入關鍵詞等語言,通過平臺自動地從數(shù)字化檔案資料中提取相關的信息和知識,快速地回答用戶的問題,提供更加高效、準確的知識服務,從而擴大民國時期檔案類資源知識服務的范圍。
國家圖書館是民國文獻館藏最多的公共機構(gòu)。保護好包括檔案在內(nèi)的民國文獻,是圖書館的職責所在。數(shù)字人文時代的到來為文獻保護工作帶來了新技術(shù)、新思路和新挑戰(zhàn),圖書館館藏民國時期檔案類資料的數(shù)字資源建設與服務,既是圖書館館藏體系和數(shù)字服務水平的重要組成部分,推動數(shù)字技術(shù)與傳統(tǒng)檔案文獻管理相結(jié)合,促進館藏檔案資源的保護、利用和傳承,也可以為推動相關的學術(shù)研究提供真實、可靠的文獻保障。