【摘 要】本文介紹文檔數(shù)字化過程中的一種實際情況的處理過程和方法,主要是依托條形碼技術(shù)和信息管理系統(tǒng),對具有不同規(guī)格紙張的文件進(jìn)行分拆掃描、在信息管理系統(tǒng)中實現(xiàn)掃描電子文件自動識別、自動拼接和系統(tǒng)自動上載等。
【關(guān)鍵詞】條形碼;文檔數(shù)字化;信息管理系統(tǒng);掃描;電子文件
引言
文檔數(shù)字化是企業(yè)檔案管理工作中不可避免的過程和環(huán)節(jié),它是建設(shè)數(shù)字檔案館最基礎(chǔ)的工作。文檔數(shù)字化有機(jī)器掃描、縮微轉(zhuǎn)換、人工錄入等多種途徑,其中通過機(jī)器掃描是紙質(zhì)文件數(shù)字化最常見的手段。紙張規(guī)格單一、規(guī)范化的文件在掃描過程中操作簡單,需花費(fèi)的人力較少。當(dāng)文件中存在不同規(guī)格的紙張的時候,操作過程將非常繁瑣,差錯率較高。在企業(yè)文檔數(shù)字化過程中,大量的文件和報告中含有不同規(guī)格的紙張,一份文件中既包含有A4幅面的大量文字信息,還包含A1,A2,A3,甚至包含A0等不同頁面規(guī)格的圖紙,這些不同規(guī)格尺寸的文件給掃描工作帶來較大的難度。操作人員往往需要把文件分拆,對不同規(guī)格的紙張分別進(jìn)行掃描,然后再將掃描電子文件按前后順序進(jìn)行拼接合并。無論是文件分拆、掃描、拼接,還是最終的掃描文件質(zhì)量檢查,其工作量都非常大,容易產(chǎn)生人為錯誤,從而影響最終掃描文件的質(zhì)量。
本項目的研究思路是通過將條形碼技術(shù)植入文件掃描和系統(tǒng)管理過程,對紙質(zhì)文件進(jìn)行分拆掃描,自動拼接,系統(tǒng)識別上載,實現(xiàn)對紙質(zhì)文件掃描、電子文件上載過程的自動控制,提高紙質(zhì)文件掃描和掃描電子文件上載的效率,實現(xiàn)無差錯管理。
1.系統(tǒng)分析
本項目的關(guān)鍵技術(shù)涉及兩方面內(nèi)容,一是條形碼技術(shù)的應(yīng)用,二是系統(tǒng)開發(fā)。條形碼技術(shù)應(yīng)用包括條形碼技術(shù)的系統(tǒng)植入,以及根據(jù)實際情況對實體文件進(jìn)行分拆處理。由于文件紙張規(guī)格的不同,必須對待掃描文件進(jìn)行分拆,才能進(jìn)行掃描。如果在文件被分拆之前植入條形碼,通過條形碼在被分拆文件的各個部分之間、掃描電子文件與系統(tǒng)著錄信息之間建立關(guān)聯(lián),系統(tǒng)就可以通過識別條形碼,來實現(xiàn)各部分掃描電子文件之間的精確識別、排序。同時,條形碼也可以作為掃描電子文件最終實現(xiàn)自動拼接和自動上載的依據(jù)。條形碼的植入可通過系統(tǒng)打印,人工粘貼的方式植入到待掃描文件的固定位置。
在系統(tǒng)開發(fā)方面,需要在系統(tǒng)實現(xiàn)以文件數(shù)據(jù)為依據(jù)生成條形碼,系統(tǒng)中條目信息與掃描電子文件的無縫對接,實現(xiàn)系統(tǒng)識別電子文件,自動拼接電子文件,自動上載電子文件等功能。將人工從繁瑣的電子文件檢查、拼接、上載過程中解放出來,提高工作效率。根據(jù)業(yè)務(wù)工作實際情況,系統(tǒng)的業(yè)務(wù)流程圖如圖1所示。
以上業(yè)務(wù)流程中,①文件檢查、③文件植入條形碼、④掃描、⑦電子文件檢查、⑧問題文件處理等五個業(yè)務(wù)步驟是需要人工干預(yù)的流程,②生成條形碼、⑤文件拼接、⑥電子文件與系統(tǒng)條目對接、⑨電子文件上載則完全由系統(tǒng)自動實現(xiàn)。其中⑤⑨這兩部分是文檔數(shù)字化過程中業(yè)務(wù)量最為繁重的步驟,現(xiàn)在都由系統(tǒng)功能替代人工操作來完成。
2.技術(shù)方案
2.1條形碼方案
條形碼是在被分拆文件的不同部分之間,掃描電子文件與系統(tǒng)三者之間建立聯(lián)系的紐帶,在文件拆分時,其實現(xiàn)過程如下:
在文件檢查階段,以實體文件的紙張規(guī)格為依據(jù),人工對實體文件進(jìn)行分拆,為不同規(guī)格紙張的首頁賦予一個條形碼,人工檢查確定文件需要被拆分的部分?jǐn)?shù)。系統(tǒng)以記錄為依據(jù),為每一個記錄生成一個條形碼。根據(jù)實體文件的拆分情況,人工進(jìn)行條形碼分拆,條形碼拆分的個數(shù)與實體文件拆分的部分?jǐn)?shù)相同,這樣就可以給被拆分文件的每一部分賦予一個條形碼。例如:W文件中間有三張頁碼連續(xù)的A1規(guī)格的圖紙,其余均為A4規(guī)格的紙張。該文件因為紙張規(guī)格和前后順序不同,需要被拆分為三部分,三張頁碼連續(xù)的A1規(guī)格的圖紙賦予一個條形碼,圖紙前后的A4規(guī)格紙張各賦予一個條形碼,共3個條形碼。系統(tǒng)把賦予該文件的條形碼分成1/3,2/3,3/3三部分,按順序分別賦予給文件的三部分。在系統(tǒng)生成條形碼時,根據(jù)實體文件的實際情況,在數(shù)據(jù)庫中人工輸入文件分拆的總部分?jǐn)?shù)是3,把條形碼分成3部分并打印。在系統(tǒng)中顯示情況如圖1。
條形碼被打印出來,人工粘貼到文件相應(yīng)部分首頁的固定位置,就可以進(jìn)行文件掃描。這樣掃描電子文件每一部分的首頁都附上相應(yīng)的條形碼。至此,系統(tǒng)記錄與電子文件均具有相同的條形碼,電子文件的條形碼植入業(yè)已實現(xiàn)。
2.2系統(tǒng)開發(fā)
系統(tǒng)開發(fā)需要實現(xiàn)條形碼分拆(見上述條形碼方案),通過識別條形碼實現(xiàn)電子文件拼接,以及電子文件自動上載等功能。
實體文件分拆掃描后,存放在固定位置。為實現(xiàn)電子文件拼接,系統(tǒng)定期檢查指定目錄下的電子文件,根據(jù)數(shù)據(jù)庫中電子文件的總部分?jǐn)?shù),以及位于文件首頁固定位置條形碼分拆順序號,將具有相同條形碼的多個電子文件按順序合并成一個邏輯單元(電子文件),實現(xiàn)電子文件拼接合并的任務(wù)。至此,被分拆掃描的實體文件被重新合并成與實體文件完全一致的、完整的電子文件,并由系統(tǒng)按既定規(guī)則命名,轉(zhuǎn)移至另一固定位置,供系統(tǒng)上載。電子文件命名規(guī)則也被設(shè)計為系統(tǒng)識別和上載電子文件的依據(jù),以作為條形碼識為的補(bǔ)充。
電子文件自動上載階段,系統(tǒng)讀取固定位置的、規(guī)則命名的電子文件,將電子文件按條形碼與數(shù)據(jù)庫中對應(yīng)的文件記錄建立關(guān)聯(lián)關(guān)系,實現(xiàn)拼接后的完整電子文件與系統(tǒng)記錄對接,并自動上載電子文件到數(shù)據(jù)庫中相應(yīng)的記錄,更新數(shù)據(jù)庫中的記錄狀態(tài)為“掛接完成”。
結(jié)論
從實際情況看,本項目的實施效果完全達(dá)到并超出系統(tǒng)當(dāng)初的設(shè)計目標(biāo):
①條形碼識別率達(dá)90%。植入條形碼后,電子文件的系統(tǒng)掃描識別率達(dá)到90%,即90%的文件可完全由系統(tǒng)識別,實現(xiàn)自動拼接和自動上載。對于系統(tǒng)不能識別的文件,通過人工檢查,手動完成拼接并按既定規(guī)則命名后,仍可以通過系統(tǒng)自動上載至數(shù)據(jù)庫。
②人力成本節(jié)省30%。經(jīng)過統(tǒng)計,與全人工操作實現(xiàn)文件拼接與電子文件上載相比較,該項目的實施可節(jié)省30%的人力。人工操作階段,大量的人力集中在兩個階段,一是掃描工作需要花費(fèi)人力確保掃描順序不能倒置。植入條形碼之后則可以隨機(jī)掃描,由系統(tǒng)識別文件的頁碼順序。二是花費(fèi)大量的人力進(jìn)行電子文件拼接。在這個過程中需要人工打開電子文件,識別文件順序,然后再進(jìn)行文件拼接,三個步驟都耗費(fèi)大量時間?,F(xiàn)在這兩個階段的80%工作由系統(tǒng)自動完成,與方案實施前相比較,人工只需承擔(dān)以前20%的工作量。
③電子文件的良品率實現(xiàn)提升。實施條形碼技術(shù)方案以后,由于人力資源從以前的實體文件掃描,掃描電子文件拼接等環(huán)節(jié)轉(zhuǎn)移到文件檢查環(huán)節(jié),實體文件的檢查效果與電子文件的檢查效果都較項目實施前有明顯提高,電子文件的良品率從92%提高至98%,項目實施效果非常明顯。
參考文獻(xiàn):
王崇、高洪波、楊帆:信息時代網(wǎng)絡(luò)媒介對檔案服務(wù)的影響研究.蘭臺世界.2014年第32期
耽文欣:基于文字特征的文檔碎片拼接復(fù)原研究. 焦作大學(xué)學(xué)報.2014年第5期
陽誠海 陳開 許華虎 何永義:基于分類特征提取的手部動作識別方法的研究及應(yīng)用.計算機(jī)應(yīng)用與軟件2011 年第28 卷第6 期
作者簡介:王崇,1971年10月,男,漢族,籍貫湖北英山,武漢大學(xué)雙學(xué)位,副研究館員 研究方向:信息技術(shù)應(yīng)用和企業(yè)信息安全?,F(xiàn)就職于深圳中廣核工程設(shè)計有限公司。曾在《蘭臺世界》、《情報理論與實踐》、《中國信息導(dǎo)報》發(fā)表多篇論文。