梁連高
(南寧市國土資源檔案館,廣西 南寧 530021)
隨著檔案信息化建設的不斷發(fā)展,非數(shù)字檔案的數(shù)字化工作已成為當前檔案工作的重中之重,特別是紙質檔案的掃描工作,各機關、團體、企事業(yè)單位已普遍開展。數(shù)字化加工過程中產(chǎn)生的大量電子檔案以JPEG等格式的圖像文件存在,保持了檔案的原貌,但不能對其中的內(nèi)容進行引用、檢索等操作,給電子檔案的利用造成了很大的不便。為實現(xiàn)全文檢索,達到引用文本的目的,需用OCR軟件將數(shù)字檔案圖像識別轉換為文字。
“OCR”是光學字符識別(Optical Character Recognition)的縮寫,是指電子設備檢查紙上顯示的字符,通過檢測暗、亮的模式確定其形狀,然后用字符識別方法將形狀翻譯成計算機文字的過程。在最近幾年中,OCR識別技術隨著掃描儀的普及得到了飛速的發(fā)展,掃描、識別軟件的性能不斷強大并向智能化不斷升級發(fā)展。但是要想快速地獲取正確的掃描結果,得到高效率的文字錄入,必須認真學習有關知識,結合實踐經(jīng)驗,摸索出工作方法。
文檔圖像的質量直接影響到OCR軟件正確識別的結果,在掃描時,設置分辨率及相關參數(shù)非常重要,掃描后進行圖像處理,保證圖像完整、清晰,無影響圖片美觀的黑邊和污點,圖像不偏斜等。嚴格按照《紙質檔案數(shù)字化技術規(guī)范》(DA/T 31—2005)進行檔案數(shù)字化加工。
筆者采用富士fi-6770高速掃描儀和plusteckA380平板掃描儀進行掃描,紙張過大的圖紙采用工程圖掃描儀掃描。下面介紹檔案掃描、圖像處理操作中的一些方法。
紙張較好的檔案直接采用富士fi-6770高速掃描儀掃描;紙張過大的圖紙采用工程圖掃描儀掃描;紙張狀況較差的及過薄、過軟的檔案,采用plusteckA380平板掃描儀掃描。
掃描色彩模式:彩色。頁面中有紅頭、印章或有黑白照片、彩色照片、彩色插圖的檔案,建議采用彩色模式。
圖像存儲格式:JPEG。
掃描分辨率:300 dpi。分辨率的設置是文字識別的重要前提。一般來講,掃描儀提供較多的圖像信息,識別軟件比較容易得出識別結果。在實際工作中,200 dpi達不到最佳效果,經(jīng)驗表明,選擇300 dpi適合大部分打印文檔掃描。
壓縮比率:6.掃描儀設置壓縮比率為6,壓縮比率即為80%以上。
掃描時適當?shù)卣{(diào)整好亮度和對比度,使掃描文件黑白分明。這對識別率的影響最為關鍵,掃描亮度和對比度的設定,以觀察掃描后圖像中漢字的筆畫較細但又不斷開為原則。
利用Photoshop圖像軟件對圖像進行適當處理加工,以使圖像正確、完整、清晰呈現(xiàn)。
2.5.1 糾偏
對出現(xiàn)的偏斜圖像進行糾偏處理,以達到視覺上基本不感覺偏斜為準,對方向不正確的圖像進行旋轉還原。
2.5.2 去污處理
對圖像頁面中出現(xiàn)的影響圖像質量的雜質進行去污處理,在處理過程中遵循“在不影響圖像可讀度的前提下展現(xiàn)檔案原貌”的原則。
2.5.3 去黑邊
在不影響圖像中字跡完整度的情況下,去除掃描過程中在頁面周圍出現(xiàn)的黑色邊框。
2.5.4 去底色
在不影響圖像中字跡可辯認度的情況下,去除掃描過程中頁面中出現(xiàn)的偏黃或偏藍底色。
2.5.5 調(diào)整順序
發(fā)現(xiàn)檔案圖像排列順序與檔案原件不一致時,及時調(diào)整。
經(jīng)過掃描、圖像處理后,在形成紙質文書檔案源版數(shù)字圖像基礎上,經(jīng)OCR識別技術生成一套雙層PDF格式的數(shù)字副本或者生成一套TXT格式的數(shù)字副本。筆者采用漢王易識軟件進行識別,下面介紹識別方法和步驟。
按照《歸檔文件整理規(guī)則》(DA/T 22—2015)的檔號編制方法,使用ACDSee 5.0進行圖像文件的命名,每一件文件掃描后的圖像以檔號來命名。建議:檔號+件內(nèi)流水號+擴展名,其中,件內(nèi)流水號由4位阿拉伯數(shù)字標識,不足4位的,前面用“0”補足。
例如:全宗號為“Z109”的2016年文書檔案,機構代碼為“BGS”、保管期限為“永久”的第1件檔案有3頁,其數(shù)字圖像命名為:
Z109-WS·2016-Y-BGS-0001-0001.jpg
Z109-WS·2016-Y-BGS-0001-0002.jpg
Z109-WS·2016-Y-BGS-0001-0003.jpg
3.2.1 啟動漢王易識
插入加密狗雙擊“漢王易識”桌面快捷圖標,啟動漢王易識軟件。
3.2.2 系統(tǒng)設置
在文件菜單中選擇“系統(tǒng)配置...”進入“設置”對話框。
3.2.2.1 “無UI掃描參數(shù)設置”選項卡
選擇分辨率“300 dpi”、圖像類型“彩色”、“灰度和彩色掃描圖像保存為JPG格式”;單擊“應用”;單擊“確定”。
3.2.2.2 “識別設置”選項卡
選擇“自動傾斜校正”“取消識別結果提示”“批量識別后自動查看日志”“顯示版面分析順序”;單擊“應用”,然后單擊“確定”。
3.2.2.3 “導出設置”選項卡
選擇“自動啟動關聯(lián)程序打開輸出文件”“輸出雙層PDF文件”、創(chuàng)建Rtf文件“公式自動轉換”、Word版本“自動檢測”、“輸出公式原圖”、PDF圖像壓縮系數(shù)“30”;單擊“應用”;單擊“確定”。
3.2.2.4 設置分析、識別參數(shù)
工具欄選擇“簡體”“公文”。針對有紅色公章或紅頭的辦公文件,可識別紅頭和公章覆蓋的內(nèi)容。
識別操作步驟如下:①圖像輸入。單擊“打開圖像”;選定要識別的圖像文件;單擊“打開”,每一件圖像文件分別打開到系統(tǒng)中。②版面分析。單擊“版面分析”或者“分析全部”,系統(tǒng)自動對選中的圖像文件進行版面分析,以提高識別正確率。③識別圖像。單擊“識別”或者“識別全部”選項,系統(tǒng)自動對選中的圖像文件進行識別處理。④創(chuàng)建PDF。經(jīng)分析、識別后,選中需要創(chuàng)建雙層PDF單件文件的所有圖像,單擊“創(chuàng)建PDF”。雙層PDF創(chuàng)建成功后會自動彈出文件的窗口。⑤文稿校對。漢王易識軟件具有文稿校對功能,系統(tǒng)自動校對,但要經(jīng)過人工校正后準確率才可達到100%.
源版數(shù)字圖像轉換生成的PDF、TXT等格式,我們將其稱為“衍生數(shù)字副本”。使用ACDSee Pro 3對衍生數(shù)字副本命名,建議:檔號+擴展名。
例如:全宗號為“Z109”的2016年文書檔案,機構代碼為“BGS”、保管期限為“永久”的第1件文書檔案源版數(shù)字圖像轉換為衍生數(shù)字副本,其命名為:
Z109-WS·2016-Y-BGS-0001.pdf
建立目錄數(shù)據(jù)與OCR識別圖像關聯(lián),實現(xiàn)全文檢索功能,便于查詢利用。
雙擊打開正在使用的“檔案管理系統(tǒng)”;選擇“批量掛接OCR成果”;選擇需要掛接相應文件夾中的PDF文件;單擊“開始掛接”。筆者同時掛接了TXT文檔及雙層PDF文件,既可以實現(xiàn)全文檢索,又可以保持檔案原貌功能,實現(xiàn)復制、粘貼等操作。OCR識別圖像掛接完成后,使用移動硬盤或刻錄光盤進行離線備份OCR識別成果,保存雙層PDF格式數(shù)字副本。
綜上所述,對收集到的紙質文檔進行掃描、圖像處理后,進行OCR識別,識別準確率大于99%.識別結果形成單頁的雙層PDF文件,既較好地保持了檔案的原貌,又可以實現(xiàn)檔案全文檢索,復制、粘貼等操作,提高了工作效率。在檔案領域,OCR技術使檔案掃描成果達到了全文可識別,將檔案數(shù)字化發(fā)展提升到了一個新的階段,使原本掃描出來的圖片變得更容易檢索,為檔案數(shù)據(jù)查詢提供了技術支持,是檔案數(shù)字化發(fā)展中必不可少的一環(huán)。
[1]國家檔案局檔案科學技術研究所標準化研究室.DA/T 13—1994檔號編制規(guī)則[S].北京:中國標準出版社,1994.
[2]國家檔案局.DA/T 31—2005紙質檔案數(shù)字化技術規(guī)范[S].北京:中國標準出版社,2005.
[3]國家檔案局檔案館(室)業(yè)務指導司.DA/T 22—2015歸檔文件整理規(guī)則[S].北京:中國標準出版社,2015.
[4]遲春佳.OCR技術及其在高校圖書館信息資源數(shù)字化建設中的應用[J].中國科技信息,2007(7):95-96.