文·武向峰
檔案信息資源建設(shè)是檔案信息化建設(shè)的重點(diǎn),館藏紙質(zhì)檔案數(shù)字化是信息資源的重要來(lái)源和基礎(chǔ)。紙質(zhì)檔案數(shù)字化是采用掃描儀等設(shè)備對(duì)紙質(zhì)檔案進(jìn)行數(shù)字化加工,使其轉(zhuǎn)化為存儲(chǔ)在磁帶、磁盤(pán)、光盤(pán)等載體上的數(shù)字圖像,并按照紙質(zhì)檔案的內(nèi)在聯(lián)系,建立起目錄數(shù)據(jù)與數(shù)字圖像關(guān)聯(lián)關(guān)系的處理過(guò)程。紙質(zhì)檔案數(shù)字化能有效地保護(hù)檔案原件,查閱起來(lái)也極為方便快捷。各級(jí)各類檔案館都已開(kāi)展館藏紙質(zhì)檔案數(shù)字化工作,筆者擬對(duì)紙質(zhì)檔案數(shù)字化加工中的若干問(wèn)題進(jìn)行分析探討,并提出意見(jiàn)以供商榷。
(一)檔案機(jī)讀目錄缺失、漏編情況,表現(xiàn)為紙質(zhì)檔案實(shí)體及其紙質(zhì)目錄存在,其機(jī)讀目錄不存在,致使掃描件無(wú)法掛接。
(二)題名錄入錯(cuò)誤。題名指文件的標(biāo)題,一般應(yīng)照實(shí)抄錄。有些機(jī)讀目錄在題名錄入時(shí)沒(méi)有照實(shí)錄入,出現(xiàn)了以下錯(cuò)誤。一是簡(jiǎn)寫(xiě)題名,不能準(zhǔn)確全面體現(xiàn)文件材料的內(nèi)容。如某全宗 1985年的“關(guān)于公布干部任職的通知”的題名簡(jiǎn)寫(xiě)成“通知”;二是題名出現(xiàn)錯(cuò)別字,尤其是婚姻檔案中的姓名錯(cuò)誤,如“王芬”錄入為“王芳”,“劉友棟”錄入為“劉支棟”;三是題名全錯(cuò),如帶有文件處理單的某份文件,題名錄入為“文件處理單”,沒(méi)有錄入文件的題名。
(三)文號(hào)漏錄、錄入不全或錄入錯(cuò)誤。文號(hào)一般是由“發(fā)文機(jī)關(guān)代字+年份+順序號(hào)”組成。一是檔案原件的文號(hào)在錄入機(jī)讀目錄時(shí)漏錄;二是錄入文號(hào)不完整,只錄入文號(hào)中的年度和發(fā)文順序號(hào),如〔1985〕5號(hào);三是出現(xiàn)發(fā)文機(jī)關(guān)代字錄入錯(cuò)誤或年份錄入錯(cuò)誤,如沭政辦發(fā)〔2009〕13號(hào),錄入為“沭政發(fā)〔2009〕13號(hào)”。
(四)責(zé)任者漏錄、錄入錯(cuò)誤。責(zé)任者是指制發(fā)文件的組織或個(gè)人,錄入機(jī)讀目錄時(shí)有的“責(zé)任者”一項(xiàng)空著,有的錯(cuò)把發(fā)文機(jī)關(guān)錄入為歸檔單位。
(五)成文日期漏錄、錄入錯(cuò)誤或錄入不全。成文日期指文件形成的日期,是由年月日八位阿拉伯?dāng)?shù)字組成,比如2001年2月23日的一份文件,其成文日期錄入為“20010223”。有的檔案機(jī)讀目錄成文日期這一項(xiàng)空著,有的只有年度,有的只有年份和月份,沒(méi)有具體的日期等。
(六)檔案機(jī)讀目錄與檔案數(shù)字圖像不關(guān)聯(lián)。如有的檔案,能檢索到其檔案機(jī)讀目錄數(shù)據(jù),檢索不到原文的數(shù)字圖像,其原因是沒(méi)有關(guān)聯(lián)其檔案數(shù)字圖像。
(七)檔案目錄數(shù)據(jù)與檔案數(shù)字圖像關(guān)聯(lián)不準(zhǔn)確。如有的婚姻檔案,其卷內(nèi)目錄有50件婚姻檔案。由于掛接錯(cuò)誤,每件檔案的機(jī)讀目錄數(shù)據(jù)與其關(guān)聯(lián)的檔案數(shù)字圖像不能一一對(duì)應(yīng)。
(八)檔案數(shù)字圖像模糊、偏斜,或數(shù)字圖像不完整。如某“審批預(yù)備黨員轉(zhuǎn)正存根”掃描檔案共44頁(yè),其中第20、22、32頁(yè)數(shù)字圖像不完整,其“石門鎮(zhèn)”“青云鎮(zhèn)”“臨沭一中”三個(gè)單位名稱經(jīng)掃描裁邊后成了“門鎮(zhèn)”“云鎮(zhèn)”“沭一中”。
(一)對(duì)館藏紙質(zhì)檔案機(jī)讀目錄漏編、錯(cuò)編的處理方法
1.對(duì)檔案機(jī)讀目錄漏編的處理
對(duì)照館藏紙質(zhì)檔案一件一件地核對(duì)其機(jī)讀目錄,對(duì)于漏編的檔案機(jī)讀目錄,根據(jù)《檔案著錄規(guī)則》,按照目錄數(shù)據(jù)庫(kù)建立時(shí)制定的數(shù)據(jù)規(guī)則,對(duì)照檔案原件內(nèi)容,照實(shí)錄入目錄內(nèi)容。
2.對(duì)檔案機(jī)讀目錄數(shù)據(jù)著錄項(xiàng)內(nèi)容與實(shí)體檔案不吻合的處理
一在檔案數(shù)字化前期發(fā)現(xiàn)檔案目錄數(shù)據(jù)錄入內(nèi)容與其紙質(zhì)檔案不吻合,有兩種處理方法。一是如果需要修改的機(jī)讀目錄量很小,可以在檔案管理系統(tǒng)內(nèi)檢索出錄入錯(cuò)誤的機(jī)讀目錄,如上文提到的1985年“關(guān)于公布干部任職的通知”這份檔案的題名簡(jiǎn)寫(xiě)成“通知”,可先檢索出這條錯(cuò)誤的機(jī)讀目錄,點(diǎn)擊編輯進(jìn)入包括題名、文號(hào)、件號(hào)等十二個(gè)著錄項(xiàng)的界面,然后補(bǔ)充正確題名,最后點(diǎn)擊保存即可。二是如果需要修改的機(jī)讀目錄量大,工作人員可以在數(shù)字檔案管理系統(tǒng)中,檢索出需要修改的機(jī)讀目錄,以查詢報(bào)表的方式導(dǎo)出EXCEL格式的檔案機(jī)讀目錄,對(duì)照紙質(zhì)檔案進(jìn)行一一修改。然后從檔案管理系統(tǒng)中檢索出錄入錯(cuò)誤的機(jī)讀目錄,進(jìn)行刪除。最后打開(kāi)檔案管理系統(tǒng),導(dǎo)入修改后的EXCEL表格中正確的檔案機(jī)讀目錄即可。檔案機(jī)讀目錄中,不管是題名、文號(hào)、件號(hào)、責(zé)任者、年度,還是成文日期、全宗號(hào)、目錄號(hào)、保管期限、盒號(hào),如果出現(xiàn)錄入錯(cuò)誤內(nèi)容的現(xiàn)象,都可以通過(guò)以上方法進(jìn)行修改。
二在檔案掃描件掛接后,發(fā)現(xiàn)檔案目錄數(shù)據(jù)錄入內(nèi)容與實(shí)體檔案不吻合,不僅要重新編輯機(jī)讀目錄,還要修改原文進(jìn)行數(shù)字圖片掛接。各檔案館雖然使用的檔案管理軟件不同,但基本功能應(yīng)大致相同。下面以八九數(shù)碼檔案管理軟件為例,處理檔案目錄和數(shù)字圖像出現(xiàn)的問(wèn)題。如婚姻檔案中誤將“王芬”錄入為“王芳”,按照前文所說(shuō)方法,應(yīng)重新編輯這條機(jī)讀目錄,把“王芳”改為“王芬”并保存。然后再檢索出修改過(guò)的這條帶有“王芬” 題名的目錄,點(diǎn)擊修改原文,出現(xiàn)“電子文件修改”界面,再點(diǎn)擊瀏覽,找到相應(yīng)的PDF格式的圖片文件夾,點(diǎn)擊修改,這樣這條機(jī)讀目錄就與其檔案數(shù)字圖片掛接上了。
(二)對(duì)紙質(zhì)檔案數(shù)字圖像模糊、偏斜、不完整的處理方法
1.對(duì)于檔案數(shù)字圖像模糊、不完整的處理方法
一數(shù)字圖像不完整、無(wú)法清晰識(shí)別或圖像失真度較大時(shí),應(yīng)重新掃描、去污、存儲(chǔ)。掃描色彩模式一般有黑白二值、彩色、灰度等,通常采用黑白二值。頁(yè)面為黑白兩色且不帶插圖、字跡清晰的檔案可采用黑白二值模式進(jìn)行掃描。頁(yè)面為黑白兩色,但字跡清晰度差或帶有插圖的檔案以及頁(yè)面為多色文字的檔案,可采用灰度模式掃描。頁(yè)面中有紅頭、印章或插有彩色照片、黑白照片、彩色插圖的檔案,可視需要采用彩色模式進(jìn)行掃描。采用黑白二值、灰度、彩色幾種模式對(duì)檔案進(jìn)行掃描時(shí),其分辨率應(yīng)選擇 ≥200dpi 。特殊情況下,如文字偏小、密集、清晰度較差等,以及需要進(jìn)行OCR漢字識(shí)別的檔案,可適當(dāng)提高分辨率,建議選擇≥300dpi 。對(duì)于圖像頁(yè)面中出現(xiàn)的影響圖像質(zhì)量的雜質(zhì)如黑點(diǎn)、黑線、黑框、黑邊等應(yīng)進(jìn)行去污處理。處理過(guò)程中應(yīng)遵循展現(xiàn)檔案原貌的原則。重新掃描后的圖像存儲(chǔ)時(shí),應(yīng)先刪除原來(lái)模糊或者不完整的掃描件,再按照原來(lái)圖像文件名命名。
二把重新掃描后的清晰完整的數(shù)字圖像與對(duì)應(yīng)的機(jī)讀目錄掛接。一是在檔案數(shù)據(jù)庫(kù)中按照存儲(chǔ)的路徑找到包含這份文件的文件夾,雙擊打開(kāi)文件夾,搜索出全部PDF格式的文件,然后刪除。二是在計(jì)算機(jī)桌面上找到PDF打包軟件,雙擊打開(kāi),選擇好檔案數(shù)字圖像存儲(chǔ)路徑,點(diǎn)擊執(zhí)行操作,這份PDF格式的文件就自動(dòng)生成了。如果是卷內(nèi)文件,需要按照這份文件的存儲(chǔ)路徑在數(shù)據(jù)庫(kù)中找到包含這份文件的文件夾,打開(kāi)文件夾刪除卷皮和目錄數(shù)字圖像生成的PDF格式的文件。三是登錄檔案管理系統(tǒng)檢索到這件檔案,然后點(diǎn)擊這條目錄前面的原文就可以看到所掛接上的清晰完整的數(shù)字圖像了。
2.對(duì)于檔案數(shù)字圖像偏斜的處理方法
一對(duì)偏斜的檔案數(shù)字圖像糾偏。從檔案數(shù)據(jù)庫(kù)中,根據(jù)存儲(chǔ)路徑找到這張偏斜的數(shù)字圖像并雙擊,在圖像的菜單欄里找到編輯并點(diǎn)擊,出現(xiàn)向右旋轉(zhuǎn)、向左旋轉(zhuǎn)、向下旋轉(zhuǎn)3個(gè)箭頭標(biāo)志,根據(jù)需要調(diào)整的角度來(lái)點(diǎn)擊相對(duì)應(yīng)的旋轉(zhuǎn)箭頭;如果調(diào)整的角度不是90°或者90°的倍數(shù),可以直接輸入需要調(diào)整的角度來(lái)糾偏,使圖像立正不偏斜,然后點(diǎn)擊確定保存圖像。
二把糾偏后的數(shù)字圖像與對(duì)應(yīng)的機(jī)讀目錄掛接。糾偏后的數(shù)字圖像與對(duì)應(yīng)的機(jī)讀目錄掛接的方法,與重新掃描后的數(shù)字圖像與對(duì)應(yīng)的機(jī)讀目錄掛接是一樣的,需要根據(jù)存儲(chǔ)路徑找到包含糾偏的數(shù)字圖像文件夾,搜索出全部PDF格式的文件,然后刪除。再利用PDF打包軟件,對(duì)這個(gè)文件夾的所有數(shù)字圖像進(jìn)行打包。如果是以卷為單位的卷內(nèi)文件,需要?jiǎng)h除由封面和卷內(nèi)目錄生成的PDF文件。這樣糾偏后的數(shù)字圖像與對(duì)應(yīng)的機(jī)讀目錄就掛接好了。
(一)精心謀劃是做好館藏紙質(zhì)檔案數(shù)字化工作的必要前提。檔案數(shù)字化工作內(nèi)容繁瑣,每個(gè)工作項(xiàng)目開(kāi)展前都必須做好充分的準(zhǔn)備。為此,檔案館要精心謀劃,總體把握項(xiàng)目的實(shí)施,制定出完善可行的工作方案,保證每個(gè)工作項(xiàng)目順利實(shí)施。
(二)科學(xué)管理是做好館藏紙質(zhì)檔案數(shù)字化工作的關(guān)鍵方法。根據(jù)館藏紙質(zhì)檔案門類多、起止年度長(zhǎng)、卷件數(shù)多、數(shù)字資源建設(shè)管理從理論到實(shí)踐需要逐漸深化等特點(diǎn),根據(jù)數(shù)字化項(xiàng)目進(jìn)展情況,對(duì)人力、技術(shù)、資金進(jìn)行及時(shí)有效地調(diào)整控制,以確保完成各個(gè)年度、各個(gè)項(xiàng)目的工作目標(biāo)。
(三)強(qiáng)化質(zhì)量是做好紙質(zhì)檔案數(shù)字化工作的核心要求。質(zhì)量是檔案數(shù)字化建設(shè)的核心。檔案數(shù)字化工作的質(zhì)量直接影響著檔案信息資源建設(shè)的質(zhì)量。檔案數(shù)字化工作由多個(gè)工作環(huán)節(jié)組成,每個(gè)工作環(huán)節(jié)的工作質(zhì)量都將影響到整個(gè)數(shù)字化工作的質(zhì)量。紙質(zhì)檔案機(jī)讀目錄數(shù)據(jù)核對(duì)、檔案掃描、圖像處理、圖像存儲(chǔ)、數(shù)據(jù)匯總掛接、數(shù)據(jù)抽檢驗(yàn)收等每一個(gè)工作環(huán)節(jié)都需要檔案館工作人員積極跟進(jìn),有效檢查監(jiān)督,及時(shí)發(fā)現(xiàn)問(wèn)題,防止操作失誤,杜絕安全隱患,提高館藏紙質(zhì)檔案數(shù)字化工作水平。