文/湖南省地質(zhì)礦產(chǎn)勘查開發(fā)局四一八隊(duì) 劉瑞
紙質(zhì)檔案的數(shù)字化是指利用掃描儀、OCR技術(shù)等對館藏的紙質(zhì)檔案進(jìn)行數(shù)字化加工,從而將紙質(zhì)檔案轉(zhuǎn)化成以光盤、硬盤或服務(wù)器為存儲(chǔ)載體的數(shù)字資料。目前全國及省級(jí)地質(zhì)資料館的歸檔資料已逐步實(shí)現(xiàn)電子化,可通過互聯(lián)網(wǎng)等進(jìn)行查詢和閱覽。而我隊(duì)檔案館中儲(chǔ)存的仍是紙質(zhì)檔案,隨著數(shù)字化時(shí)代的到來,紙質(zhì)檔案已經(jīng)不能滿足日常地勘工作的需要。為順應(yīng)信息化時(shí)代發(fā)展的要求,紙質(zhì)檔案數(shù)字化是大勢所趨,已經(jīng)成為當(dāng)前我隊(duì)地質(zhì)檔案管理部門迫在眉睫的一項(xiàng)重要工作。
湖南省地勘局四一八隊(duì)成立于20世紀(jì)60年代末,在單位體改過程中,隊(duì)檔案室館匯集了原四一八隊(duì)、原四六八隊(duì)和原省基礎(chǔ)公司3個(gè)單位的檔案資料20余萬件,館藏的這些資料絕大部分是以文字、圖表等紙質(zhì)為載體的檔案,在借閱使用過程中有諸多不便,使用效率低,無法滿足工作需要;同時(shí)紙質(zhì)檔案具有易損壞、無法再生等特點(diǎn),有很多檔案資料是十幾年前甚至幾十年前形成歸檔的,由于存放時(shí)間長,容易受潮或者老化,年代久遠(yuǎn)的紙張?jiān)缫寻l(fā)黃或者發(fā)脆,有些紙質(zhì)甚至黏連到一起,部分檔案由于反復(fù)借閱已經(jīng)破爛不堪,這些地質(zhì)檔案若不及時(shí)數(shù)字化,將會(huì)造成檔案資料的白白流失,對單位甚至國家造成重大損失。因此,對紙質(zhì)檔案數(shù)字化,實(shí)現(xiàn)檔案資源共享,提高地質(zhì)檔案利用率及檔案管理水平,優(yōu)化館藏結(jié)構(gòu),顯得十分必要。
(一)老舊檔案問題。目前,我隊(duì)檔案館中有大量地質(zhì)檔案形成于20世紀(jì)90年代以前,局限于當(dāng)時(shí)的科技水平,歸檔的資料有計(jì)算機(jī)打印的、油印的,甚至手工書寫的,這些檔案資料由于儲(chǔ)存時(shí)間長、檔案轉(zhuǎn)移不當(dāng)或反復(fù)借閱查看的原因,部分文字字跡模糊、破爛不堪。許多陳年的區(qū)域地質(zhì)圖、地形地質(zhì)圖、地質(zhì)記錄數(shù)據(jù)表格等地質(zhì)檔案資料由于保存時(shí)限過長,部分內(nèi)容已經(jīng)無法清晰辨認(rèn),這對地質(zhì)檔案資料的保存和利用都有著較大的弊端,如不及時(shí)進(jìn)行“搶救”,很有可能造成檔案的徹底消失,給地勘單位帶來重大損失。
(二)借閱繁瑣。根據(jù)目前檔案館的管理規(guī)定,在歸檔資料時(shí)僅歸檔紙質(zhì)文檔,電子文檔都散存在各個(gè)部門或各個(gè)項(xiàng)目組當(dāng)中。匯交的資料檔案館接收后編號(hào)保存在檔案館中,僅進(jìn)行簡單的目錄管理。其他人需要查詢借閱時(shí),只能從檔案館拷貝電子表格目錄找到檔案名稱和檔案目錄,然后到檔案館現(xiàn)場查看紙質(zhì)地質(zhì)檔案歸檔目錄,借閱過程異常繁瑣。野外的技術(shù)人員需要查閱資料時(shí),只能從野外回來,非常不便。
(三)檔案的局限性。在地質(zhì)檔案資料歸檔時(shí),大部分只保存一份,一旦有人借走,其他人需要借閱時(shí)只能等待或者與已借閱的人員進(jìn)行溝通協(xié)調(diào),這樣大大降低了檔案管理工作的效率,甚至有可能影響到檔案價(jià)值的挖掘。此外,有時(shí)由于借閱人員管理不善,造成檔案資料遺失,而檔案資料只有一份,從而給單位帶來不可估量的損失。
(四)安全問題。館藏的每一份地質(zhì)檔案資料都價(jià)值不菲,為了這些地質(zhì)檔案的形成,國家投入了大量的人力、財(cái)力和物力。傳統(tǒng)的紙質(zhì)檔案在保管過程中如果遇到自然災(zāi)害或人為災(zāi)害事故,館藏的檔案資料可能毀于一旦,給單位造成無法挽回的損失。
(五)占用空間。由于傳統(tǒng)紙質(zhì)檔案數(shù)量多,其存儲(chǔ)需要占用大量的空間,小則占用幾間庫房,大則占用一層樓甚至一棟或者多棟樓,這給檔案管理工作帶來較多的不便。隨著時(shí)間的推移,館藏資料越來越多,人工管理越來越不方便。為了單位的發(fā)展,不得不對檔案館進(jìn)行擴(kuò)容或者搬遷,而在檔案館進(jìn)行擴(kuò)容或者搬遷過程中,極易損壞檔案資料甚至造成檔案資料的遺失。
紙質(zhì)地質(zhì)檔案數(shù)字化工作的技術(shù)標(biāo)準(zhǔn)主要有《歸檔文件整理規(guī)則(DA/T22-2015)》和《紙質(zhì)檔案數(shù)字化技術(shù)規(guī)范(DA/T31-2017)》,數(shù)字化工作流程主要有拆卷修整、數(shù)字化掃描、影像處理、存儲(chǔ)、裝訂和還卷等等。
(一)拆卷修整。由于紙質(zhì)檔案數(shù)量繁多,不可能在短時(shí)間內(nèi)全部數(shù)字化,因此,在紙質(zhì)檔案數(shù)字化進(jìn)程中,應(yīng)對館藏地質(zhì)檔案資料的結(jié)構(gòu)進(jìn)行認(rèn)真分析和研究,做到有所側(cè)重和有所選擇,按照輕重緩急程度,對保存價(jià)值高或使用頻次高的地質(zhì)檔案資料優(yōu)先數(shù)字化,然后根據(jù)紙質(zhì)檔案資料數(shù)字化計(jì)劃,逐步對相關(guān)資料及所有地質(zhì)檔案資料數(shù)字化。為呈現(xiàn)資料原貌,如不影響掃描質(zhì)量,依原件掃描不進(jìn)行拆卷。首先,對必須進(jìn)行拆卷的案卷,拆卷前應(yīng)查看卷內(nèi)是否有蟲蛀、破洞、撕裂或斷裂,或者無法進(jìn)行掃描等情況,若有這些情況,需安排檔案專業(yè)人士對其進(jìn)行初步修復(fù)后方可拆卷;其次,應(yīng)查看卷內(nèi)文件是否有頁碼,沒有頁碼的用鉛筆在右下角編寫頁碼。拆卷后的檔案資料按順序平放擺放整齊,有頁面有折角或揉皺而影響掃描的,需要對其做相應(yīng)的壓平去皺處理,為下一步掃描做好準(zhǔn)備。
(二)數(shù)字化掃描。紙質(zhì)檔案的掃描,主要是通過專業(yè)掃描儀采用掃描的方法把紙質(zhì)檔案轉(zhuǎn)化成數(shù)字信息。在掃描時(shí)應(yīng)對原件進(jìn)行完整掃描,保持設(shè)置的頁面大小與原件保持一致,并保證柵格文件的掃描質(zhì)量,確保掃描后的數(shù)字圖像清晰、完整、不失真。在掃描工作開始前,有以下注意事項(xiàng):1.選擇掃描儀。根據(jù)不同紙質(zhì)檔案資料的幅面、材質(zhì)等選擇不同規(guī)格的掃描儀。2.選擇掃描模式。掃描方式通常有黑白二值、灰度和彩色,灰度和彩色掃描模式對原件有較高的還原度。3.選擇分辨率。以柵格文件的清晰度、不影響圖像的利用效果為準(zhǔn),為了加快后期資料制作速度并提高OCR精度,一般分辨率設(shè)置不得低于300dpi。原件清晰度不夠時(shí),應(yīng)根據(jù)實(shí)際情況提高分辨率并修改其他掃描參數(shù)。4.選擇消藍(lán)方式。對已保存年代久遠(yuǎn)的紙張,圖件的背景色都很深,在圖紙輸入時(shí)須選擇合理的門限參數(shù)、對比度及亮度等掃描參數(shù)進(jìn)行消藍(lán)處理,這樣掃描出來的圖像才清晰。5.選擇存儲(chǔ)格式。掃描后的電子文件保存格式主要JPG、TIF和PDF三類。
(三)影像處理。地質(zhì)檔案資料經(jīng)過掃描后,為了使掃描后形成的柵格文件清晰、美觀,首先需要進(jìn)行圖像糾斜、旋轉(zhuǎn)、去污、拼接和裁邊工作等。其次,采用專業(yè)軟件對文字、表格等資料進(jìn)行OCR識(shí)別并保存為DOC或DOCX等格式文件,對不能識(shí)別的檔案資料則應(yīng)對照掃描件采用人工打字的方式,使掃描后的檔案資料真正做到數(shù)字化、電子化,可隨時(shí)對復(fù)制的檔案資料進(jìn)行編輯和利用;對掃描后的圖件,則需地質(zhì)專業(yè)人員采用地質(zhì)專業(yè)軟件(如MapGIS、ArcGIS等)對圖件進(jìn)行校正后再進(jìn)行矢量化,根據(jù)不同的地質(zhì)內(nèi)容建立不同的點(diǎn)、線、面文件,再組成單個(gè)工程文件。
(四)存儲(chǔ)。數(shù)字化后的地質(zhì)檔案資料可采用只讀CD、DVD光盤、移動(dòng)硬盤等存儲(chǔ),也可保存在服務(wù)器中,閃存等U盤不允許作為載體。載體表面應(yīng)清潔干凈,不能有擦痕、劃痕和變形等。在存儲(chǔ)之前,應(yīng)先對載體進(jìn)行病毒查殺,以免因計(jì)算機(jī)病毒侵入導(dǎo)致檔案資料無法使用。存儲(chǔ)好之后,應(yīng)重新打開載體確認(rèn)是否為空載體或非本檔資料電子文件內(nèi)容,并確保所接收電子文件數(shù)據(jù)的安全性且能在通用設(shè)備上被正確讀取、復(fù)制。為防止出現(xiàn)意外情況,對數(shù)字化的檔案資料必須做好備份,并儲(chǔ)存在不同的地方,確保數(shù)據(jù)安全。
(五)裝訂。拆卷掃描后的地質(zhì)檔案資料要盡量按原來的案卷模樣進(jìn)行恢復(fù)裝訂,重新裝訂后的案卷沒有明顯拆卷的痕跡,盡力保證原案卷不受損壞,用鉛筆編寫的頁碼用橡皮擦輕輕擦掉,發(fā)現(xiàn)原案卷裝訂有誤的應(yīng)按正確順序重新裝訂,做到安全、準(zhǔn)確、無遺漏。對數(shù)字化后的復(fù)制本,裝訂順序應(yīng)和原案卷完全一致。
(一)提高辦公效率。數(shù)字化的地質(zhì)檔案數(shù)據(jù)可在網(wǎng)上查詢和統(tǒng)計(jì),從而提高工作效率。尤為重要的是,紙質(zhì)檔案數(shù)字化后可以實(shí)現(xiàn)全文檢索,通過報(bào)告名稱、作者、主題、摘要等單獨(dú)檢索或組合檢索迅速獲得準(zhǔn)確的查詢結(jié)果,大大縮短查詢時(shí)間,使用起來極為方便迅速。由于可復(fù)制和無紙化的優(yōu)勢,即使技術(shù)人員在野外需要借閱資料,都可以在電腦上完成,大大地提高了工作和學(xué)習(xí)的效率,有效避免了紙介質(zhì)資料在保存或借閱等環(huán)節(jié)中出現(xiàn)的損壞或丟失等問題。
(二)實(shí)現(xiàn)資源共享。數(shù)字化的紙質(zhì)檔案具有圖文并茂的優(yōu)勢,在網(wǎng)絡(luò)日益普及的今天,可以使人們輕松地獲得檔案信息資料。數(shù)字化的檔案資料更易于保存,具有存儲(chǔ)、管理、共享等功效,其數(shù)字化后的紙質(zhì)檔案不受時(shí)間和空間問題的限制,能真正實(shí)現(xiàn)多方資源共享,大家可通過互聯(lián)網(wǎng)實(shí)現(xiàn)跨時(shí)間、地域進(jìn)行資料查詢和借閱,使得檔案信息能實(shí)現(xiàn)“超時(shí)空”流動(dòng),既豐富了地質(zhì)檔案資料的內(nèi)容,又實(shí)現(xiàn)了檔案資料的共享。
(三)增強(qiáng)原件保護(hù)。在地質(zhì)工作中,地質(zhì)檔案資料的利用率較高,但紙質(zhì)檔案資料對館藏條件要求非常高,不僅不易于保存,而且在頻繁借閱過程中由于都是通過人工操作,翻閱次數(shù)多了就會(huì)導(dǎo)致圖紙破損,非常不利于原始檔案資料的保護(hù)。地質(zhì)檔案數(shù)字化后,通過形成紙質(zhì)檔案數(shù)字化副本,供調(diào)取和利用,從而實(shí)現(xiàn)對紙質(zhì)檔案的有效保護(hù),進(jìn)一步優(yōu)化檔案利用方式。
紙質(zhì)檔案數(shù)字化使得傳統(tǒng)的檔案管理工作逐步轉(zhuǎn)化為數(shù)字化管理,增強(qiáng)了對原件的保護(hù),提高了檔案管理和使用效率,實(shí)現(xiàn)了資源共享,是提升地質(zhì)檔案資料管理能力的重要途徑之一,為更好地挖掘地質(zhì)檔案資料價(jià)值創(chuàng)造了良好的條件,是一項(xiàng)意義非凡的工作。