蘇 芳 韋建中
檔案數(shù)字化是檔案管理過(guò)程中一場(chǎng)深刻的革命,在石化集團(tuán)公司對(duì)各單位“廣泛應(yīng)用數(shù)字化、網(wǎng)絡(luò)化技術(shù),加快檔案信息化建設(shè)步伐,建設(shè)數(shù)字化檔案館”的要求下,我館作為試點(diǎn)單位,開(kāi)始了建設(shè)數(shù)字檔案館的摸索。館藏檔案數(shù)字化是建設(shè)數(shù)字檔案館的基礎(chǔ)和前期工作,是組成數(shù)字檔案館的主要資源。為了實(shí)現(xiàn)數(shù)字資源的共享和統(tǒng)一利用,同時(shí)也為了保護(hù)檔案原件,將現(xiàn)有檔案進(jìn)行數(shù)字化加工勢(shì)在必行。
一、目前檔案數(shù)字加工面臨的問(wèn)題
1、數(shù)字化對(duì)象數(shù)量龐大、類(lèi)型多樣
中原油田檔案館是油田檔案資源的管理服務(wù)中心,伴隨著油田的勘探開(kāi)發(fā)和生產(chǎn)建設(shè),形成了大量的檔案資料。目前庫(kù)藏紙質(zhì)檔案約230多萬(wàn)卷,錄音錄像檔案14305盤(pán),照片檔案56116張,底圖640087張,磁帶60512盤(pán),光盤(pán)1329張,檔案數(shù)量以每年10多萬(wàn)卷的速度遞增。如果把目前館藏檔案全部數(shù)字化,將是一項(xiàng)經(jīng)年累月的浩大工程。
2、檔案數(shù)字化效率問(wèn)題
在數(shù)字化流程的各個(gè)環(huán)節(jié),都需要進(jìn)行質(zhì)量控制,而這就需要大量的工作時(shí)間為保障。以紙質(zhì)檔案為例,陳舊發(fā)黃的油印文件與現(xiàn)行的打印文件相比,識(shí)別率明顯要低很多,已損壞的文件還需要修復(fù)處理,甚至有些文件識(shí)別下來(lái)并不會(huì)比手工錄入快。
3、部門(mén)之間的協(xié)調(diào)問(wèn)題
館藏檔案數(shù)字化工作是一項(xiàng)需要投入大量人力、物力和財(cái)力的工程,不僅僅是檔案信息部門(mén)的事情,還會(huì)涉及業(yè)務(wù)指導(dǎo)部門(mén)、檔案保管部門(mén)等。爭(zhēng)取分管領(lǐng)導(dǎo)的支持與協(xié)調(diào),才是館藏檔案數(shù)字化工作得以順利進(jìn)行的保障。
二、館藏檔案數(shù)字化的實(shí)施
1、做好檔案鑒定工作,突出重點(diǎn)
由于我館保管的檔案數(shù)量龐大,檔案的價(jià)值也各有不同,所以不可能將全部檔案數(shù)字化,既浪費(fèi)有限的資金,又會(huì)增加檔案部門(mén)的工作量。因此,要根據(jù)館藏實(shí)際情況,先進(jìn)行檔案價(jià)值鑒定,篩選重要全宗,突出重點(diǎn),有選擇地對(duì)館藏檔案進(jìn)行數(shù)字化。
第一,對(duì)檔案館中保存年代久遠(yuǎn)已瀕臨損壞的珍貴老檔案進(jìn)行數(shù)字化。第二,對(duì)具有長(zhǎng)遠(yuǎn)使用價(jià)值且不方便用戶反復(fù)翻閱的原件檔案進(jìn)行數(shù)字化。第三,對(duì)利用率高、需求量大的開(kāi)放檔案進(jìn)行數(shù)字化。第四,針對(duì)主體服務(wù)對(duì)象,對(duì)具有油田特色的檔案進(jìn)行數(shù)字化。
2、細(xì)分檔案數(shù)字化加工流程,嚴(yán)格控制精度
按照先公開(kāi)后保密、先近期后歷史的原則,分步開(kāi)展數(shù)字化加工工作。以紙質(zhì)檔案為例,2000年以來(lái)的公文檔案、數(shù)據(jù)庫(kù)中未有的且利用率較高的勘探開(kāi)發(fā)類(lèi)檔案、油田生產(chǎn)建設(shè)項(xiàng)目檔案、局級(jí)科研檔案進(jìn)行全文錄入。
①整理拆分:從檔案管理員處填寫(xiě)《檔案領(lǐng)取記錄單》,并領(lǐng)取檔案后,以件為單位拆除檔案的裝訂線,區(qū)分出需掃描的檔案材料。對(duì)檔案進(jìn)行整理,將其中夾雜的紙屑以及訂書(shū)針等金屬物全部去掉,對(duì)已破損的文件進(jìn)行必要的修復(fù),對(duì)于不清楚的文件資料在征得檔案管理員的同意后進(jìn)行素描,以保障掃描圖像的質(zhì)量。
在檔案整理拆分過(guò)程中,對(duì)于破損的檔案材料要做相應(yīng)登記,在征得檔案管理員的同意后,用透明膠從背面粘合。破損情況嚴(yán)重、無(wú)法粘合的,可用專(zhuān)用紙?jiān)诒趁嫱幸r進(jìn)行文件的修復(fù);也可復(fù)印后掃描。
②檔案掃描:檔案經(jīng)過(guò)整理后,將需要掃描的案卷交給檔案掃描人員,紙張狀況較差,以及過(guò)薄、過(guò)軟或超厚的檔案,采用平板掃描方式;紙張狀況好的檔案采用高速掃描方式以提高工作效率。
使用的數(shù)字化檔案管理系統(tǒng)支持任意類(lèi)型的掃描儀,支持黑白、彩色、灰度圖像掃描,支持各種分辨率的掃描方式,能夠掃描從A4到A0幅面的圖紙。操作員可在系統(tǒng)界面上實(shí)時(shí)瀏覽、監(jiān)控掃描的圖像,適時(shí)做出相應(yīng)調(diào)整。
③圖像處理:系統(tǒng)具有去黑邊、糾偏、條碼識(shí)別等功能,還可為圖像增加數(shù)字水印。操作員可對(duì)圖像進(jìn)行鏡像、任意角度旋轉(zhuǎn),調(diào)整亮度、對(duì)比度,銳化、鈍化、模糊、腐蝕,拼接、裁邊等處理,提高影像質(zhì)量。
④圖像識(shí)別:針對(duì)掃描得到的電子文件的不同文檔類(lèi)型,靈活定義各種文檔的版面。使用內(nèi)置OCR識(shí)別引擎,根據(jù)區(qū)域特征自動(dòng)進(jìn)行版面還原,對(duì)文檔中的文字信息進(jìn)行識(shí)別。自動(dòng)提取文檔中的文號(hào)、標(biāo)題、責(zé)任者等信息。
⑤索引錄入:經(jīng)由OCR自動(dòng)提取的信息在數(shù)據(jù)庫(kù)中形成索引,還可手工補(bǔ)充其他的圖像索引信息。這樣掃描圖像入庫(kù)后,就有索引信息支持用戶通過(guò)文號(hào)、標(biāo)題、作者等屬性進(jìn)行查詢(xún)。錄入人員首先檢查條碼的正確與否、圖像文件的頁(yè)數(shù)及圖像質(zhì)量,然后創(chuàng)建索引,同時(shí)檢查索引建立的正確性,進(jìn)行必要的人工修改。
⑥檔案復(fù)原:在索引錄入檢查無(wú)誤后,檔案資料以件為單位歸入檔案盒,檢查是否有缺失、遺漏的內(nèi)容,填寫(xiě)《掃描生產(chǎn)流程單》,交由檔案管理員檢查接收入庫(kù),要保證盒內(nèi)每件檔案的完整準(zhǔn)確。
3、數(shù)字化成果的存儲(chǔ)
同一種檔案在數(shù)字化后可以生成不同的格式,在實(shí)際工作中,采用最多的就是TIFF和PDF兩種格式。其中TIFF格式主要用于存儲(chǔ)生產(chǎn)圖紙等輸出精度要求較高的圖像文件;而PDF格式一般用于存儲(chǔ)輸出分辨率要求不高或者多頁(yè)的文字內(nèi)容較多的文件。
采用服務(wù)器、磁盤(pán)陣列、光盤(pán)等多種存儲(chǔ)方式對(duì)數(shù)字化后的文件進(jìn)行安全存儲(chǔ),依據(jù)檔案的類(lèi)別建好相應(yīng)的目錄結(jié)構(gòu),以文件的檔號(hào)為掃描后的圖像文件命名,再將文件存儲(chǔ)到對(duì)應(yīng)的目錄下。規(guī)范文件名稱(chēng)及存儲(chǔ)邏輯結(jié)構(gòu),便于對(duì)加工好的文件進(jìn)行組織和掛接利用。
三、檔案數(shù)字化的重要意義
1、實(shí)現(xiàn)資源共享,提高工作效率
檔案資料經(jīng)過(guò)數(shù)字化加工后,社會(huì)公眾(開(kāi)放檔案)和各職能部門(mén)都能通過(guò)檔案管理系統(tǒng)即時(shí)查詢(xún)利用所需要的電子文檔原文信息,檔案利用不再受檔案原文不能共享的限制,也避免了傳統(tǒng)檔案利用方式對(duì)檔案實(shí)體多次輾轉(zhuǎn)造成的時(shí)間浪費(fèi)和重復(fù)勞動(dòng),從而提高工作效率,降低檔案信息利用的成本。
2、有效地保護(hù)檔案實(shí)體的安全
檔案因經(jīng)常外借翻閱易產(chǎn)生破損甚至丟失,給檔案的永久保管造成威脅。而檔案進(jìn)行數(shù)字化加工后,可通過(guò)電子方式提供利用,減少了原件的使用頻率,有效地保護(hù)了原件。
3、提升企業(yè)形象
館藏檔案數(shù)字化,是促進(jìn)檔案管理信息化、現(xiàn)代化的具體舉措。數(shù)字化項(xiàng)目完成后,不僅檔案管理和利用手段實(shí)現(xiàn)了現(xiàn)代化,檔案利用效率也大大提高,檔案作用也越發(fā)顯著,同時(shí)也將極大地提升企業(yè)形象。