摘要:數(shù)字檔案是當(dāng)前政務(wù)信息化建設(shè)領(lǐng)域的一項(xiàng)重要基礎(chǔ)資源建設(shè)工作,如何高質(zhì)量的完成數(shù)字檔案采集轉(zhuǎn)化工作是其中的重要環(huán)節(jié),面對(duì)已經(jīng)實(shí)施的數(shù)字檔案建設(shè)項(xiàng)目,充分利用計(jì)算機(jī)圖像自動(dòng)修正技術(shù)實(shí)現(xiàn)數(shù)字檔案的質(zhì)量控制可大幅提高工作效率,該技術(shù)在未來電子政務(wù)建設(shè)領(lǐng)域必將發(fā)揮日益重要的作用,將為全面推進(jìn)國家電子政務(wù)建設(shè)提供重要技術(shù)支撐。
關(guān)鍵詞:圖像;自動(dòng)修正;數(shù)字檔案
中圖分類號(hào):TB
文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):16723198(2015)22022601
1引言
隨著信息技術(shù)的不斷發(fā)展,越來越多的無紙化應(yīng)用環(huán)境正逐步走進(jìn)人們的日常生活,各級(jí)政府部門的行政管理工作亦逐步向著電子化管理的方向邁進(jìn),越來越多的網(wǎng)絡(luò)信息化平臺(tái)為政府部門發(fā)揮公共管理職能提供了極佳的信息共享及交流渠道。但在實(shí)際的工作中,由于大量的原始憑據(jù)仍然是以紙質(zhì)檔案的形式保存,難以適應(yīng)現(xiàn)代化公共管理服務(wù)的需要,必須進(jìn)行批量的檔案數(shù)字化轉(zhuǎn)換工作來實(shí)現(xiàn)集中化管理,目前,通行的做法是通過掃描、拍照等形式將原始檔案轉(zhuǎn)換為數(shù)字圖像,一方面便于傳輸與檢索,另一方面能夠在需要的時(shí)候,能夠以各種形式再次轉(zhuǎn)換為紙質(zhì)文檔,同時(shí)數(shù)字檔案還能為下一步實(shí)現(xiàn)圖像內(nèi)容識(shí)別如OCR(Optical Character Recognition,光學(xué)字符識(shí)別)奠定基礎(chǔ)。
2檔案數(shù)字化工作的常見問題
目前,絕大多數(shù)的紙質(zhì)檔案數(shù)字化工作均采用掃描儀、數(shù)碼相機(jī)等圖像采集設(shè)備來完成,而相對(duì)專業(yè)的檔案數(shù)字化服務(wù)機(jī)構(gòu)往往配備高速掃描儀設(shè)備來滿足高效、批量的數(shù)字化轉(zhuǎn)換需求。不同于常見的平板式掃描儀,高速掃描設(shè)備通常采用滾筒式的自動(dòng)進(jìn)紙器來負(fù)責(zé)紙張的傳送功能,除了速度比普通平板掃描儀速度提升數(shù)倍外,最突出的問題是紙張?jiān)诮?jīng)過機(jī)械傳送的過程中很容易發(fā)生偏移,從而產(chǎn)生傾斜的掃描圖像,這類圖像雖然不影響一般肉眼辨識(shí),但是會(huì)嚴(yán)重影響圖像后續(xù)識(shí)別處理的速度和精度,例如對(duì)傾斜度要求較高的OCR文字識(shí)別技術(shù),會(huì)大大降低識(shí)別的成功率,需要人工干預(yù)進(jìn)行糾偏處理操作方可順利完成,無形中增加了工作強(qiáng)度與人力成本。而對(duì)于傳統(tǒng)平板掃描儀采集的圖像,由于紙張與反射蓋板之間的間隙以及漏光等多種因素,容易在掃描幅面與紙張邊界之間形成黑色外框,嚴(yán)重影響圖像美觀,甚至在一定程度上會(huì)增加檔案圖像的大小,浪費(fèi)計(jì)算機(jī)存儲(chǔ)空間,這在大批量的檔案數(shù)字化工作中體現(xiàn)的尤為明顯。
相較傳統(tǒng)商用領(lǐng)域的數(shù)字化檔案加工服務(wù),國內(nèi)電子政務(wù)信息化建設(shè)亦在不斷加快推進(jìn)檔案數(shù)字化進(jìn)程,以組織機(jī)構(gòu)代碼數(shù)字檔案采集工作為例,一般用戶通過受理窗口辦理組織機(jī)構(gòu)代碼業(yè)務(wù),需提交營業(yè)執(zhí)照(事業(yè)法人登記證、社團(tuán)法人登記證等各類成立批文)、法定代表人身份證、申請(qǐng)表等多種類型的紙質(zhì)文書,業(yè)務(wù)受理人員需要實(shí)時(shí)的將用戶材料進(jìn)行掃描建檔,在熟練操作的情況下,考慮到人工時(shí)效性以及設(shè)備等各類因素,極容易產(chǎn)生各類傾斜、黑邊、缺邊缺角等各類數(shù)字檔案質(zhì)量問題,必須經(jīng)過人工二次審核后方能符合歸檔要求,浪費(fèi)了大量的人力物力,由此帶來的采集效率低下等問題亦阻礙了數(shù)字檔案的推廣與應(yīng)用工作。
3圖像自動(dòng)修正技術(shù)
考慮到數(shù)字圖像在采集過程中可能產(chǎn)生的各種不確定性問題,各類圖像修正技術(shù)正逐漸受到信息化建設(shè)單位的重視,根據(jù)工作機(jī)制來看,可大體分為基于圖像采集硬件設(shè)備的自動(dòng)修正技術(shù)和第三方軟件提供的自動(dòng)修正技術(shù)兩大類。
基于硬件的自動(dòng)修正技術(shù)主要是通過圖像采集設(shè)備驅(qū)動(dòng)程序入手,對(duì)從光學(xué)傳感器獲得的數(shù)字信號(hào)直接進(jìn)行分析,通過特定的算法對(duì)標(biāo)志位像素點(diǎn)進(jìn)行計(jì)算后輸出至計(jì)算機(jī),其優(yōu)點(diǎn)是響應(yīng)速度快,與應(yīng)用系統(tǒng)無關(guān),可以很容易獲得質(zhì)量較為統(tǒng)一的數(shù)字圖像,而缺點(diǎn)則是功能較局限、對(duì)原始檔案質(zhì)量要求較高、可定制性較差、設(shè)備初期投入大等等。目前國內(nèi)外專業(yè)的掃描設(shè)備制造商如富士通、柯達(dá)等廠家均提供該類型解決方案。
基于軟件的圖像修正技術(shù)種類繁多,而應(yīng)用比較廣泛的自動(dòng)修正技術(shù)均支持無人值守操作且可隨應(yīng)用系統(tǒng)集成。從技術(shù)原理上來看,基于軟件的圖像修正技術(shù)基本上是對(duì)已經(jīng)生成的圖像文件進(jìn)行二次處理分析,其中的主要技術(shù)包括對(duì)圖像本身的濾波計(jì)算、二值化處理、躍點(diǎn)計(jì)算等算法的復(fù)用與集成,并通過分析某一區(qū)域像素點(diǎn)的分布趨勢來完成對(duì)圖像邊界的確認(rèn)、傾斜角度計(jì)算等關(guān)鍵指標(biāo)的確立,并以此對(duì)原有圖像進(jìn)行旋轉(zhuǎn)、像素填充等操作,從而完成整個(gè)圖像自動(dòng)修正過程。該方法的優(yōu)點(diǎn)是適應(yīng)性廣、擴(kuò)展性好、部署靈活且投入低,非常適合與各類信息化系統(tǒng)進(jìn)行集成。
4應(yīng)用案例分析
從以上兩類圖像自動(dòng)修正技術(shù)的可行性來看,基于軟件集成方式的圖像自動(dòng)修正技術(shù)顯然更加適合各類電子政務(wù)信息系統(tǒng)的應(yīng)用環(huán)境,這里仍然以組織機(jī)構(gòu)代碼數(shù)字檔案采集工作為例,分析該技術(shù)在數(shù)字檔案數(shù)字化領(lǐng)域產(chǎn)生的實(shí)際效益。
組織機(jī)構(gòu)代碼數(shù)字檔案采集工作自2005年在全國范圍內(nèi)啟動(dòng),經(jīng)過十年的不斷完善,已經(jīng)建成了覆蓋
各類法人機(jī)構(gòu)的組織機(jī)構(gòu)代碼數(shù)字檔案庫,已采集的
數(shù)字檔案圖像超過1億份,并且通過專用網(wǎng)絡(luò)24小時(shí)不間斷實(shí)時(shí)更新。對(duì)于如此龐大的基礎(chǔ)信息資源,其建設(shè)歷程橫跨了多個(gè)信息化發(fā)展階段,其中不可避免的會(huì)出現(xiàn)各類問題,主要包括:早期采集傾斜圖像未糾正、不同時(shí)期圖像采集分辨率混亂、黑邊裁減或有或無、不同設(shè)備采集圖像幅面大小不一、人工審核工作量大等問題。以上問題在早期電子政務(wù)的信息化建設(shè)項(xiàng)目中均具有普遍性和代表性,并且多數(shù)是由于早期信息化制度不完善所導(dǎo)致的歷史遺留問題,因此迫切需要通過一定的技術(shù)手段在保障工作持續(xù)性的基礎(chǔ)上有效解決圖像質(zhì)量問題。
根據(jù)以上的功能需求,基于軟件的圖像自動(dòng)修正技術(shù)能夠完整的實(shí)現(xiàn)存量和新增數(shù)字檔案圖像的自動(dòng)圖像質(zhì)量控制功能,一方面可以通過編寫第三方軟件的形式,自動(dòng)對(duì)存量數(shù)字檔案進(jìn)行遍歷掃描,對(duì)發(fā)現(xiàn)的傾斜角度、黑邊、缺邊缺角等不符合質(zhì)量要求的圖像進(jìn)行自動(dòng)校正。另一方面,通過實(shí)時(shí)監(jiān)控新增檔案圖像的方法,及時(shí)對(duì)新增檔案進(jìn)行核查,對(duì)發(fā)現(xiàn)的不合格檔案及時(shí)進(jìn)行報(bào)警或者直接修改校正,從而實(shí)現(xiàn)與業(yè)務(wù)系統(tǒng)的無縫銜接,將系統(tǒng)的改造成本降到最低。該方法的最大特點(diǎn)還體現(xiàn)在部署的靈活性方面,不但能夠通過軟件接口支持眾多主流的數(shù)字圖像類型,同時(shí)能夠利用分布式計(jì)算原理,通過改變圖像處理客戶端數(shù)量,靈活調(diào)整圖像處理能力,在充分利用現(xiàn)有資源的基礎(chǔ)上最大限度的保護(hù)基礎(chǔ)設(shè)施投入。
5效益分析
通過自動(dòng)修正技術(shù)的引入,能有效提高數(shù)字檔案的圖像質(zhì)量,使圖像采集效率至少提升35%以上,大大降低了人力成本投入,并且能夠避免由于人為操作失誤產(chǎn)生錯(cuò)誤的概率,增強(qiáng)了數(shù)字圖像的可靠性,使原有圖像采集系統(tǒng)易用性顯著提高,避免了二次改造成本,為進(jìn)一步開展數(shù)字檔案交換共享提供必要基礎(chǔ)。
數(shù)字圖像自動(dòng)修正技術(shù)集中體現(xiàn)了圖像采集處理優(yōu)化的過程,為傳統(tǒng)的紙質(zhì)檔案轉(zhuǎn)化提供一項(xiàng)高效、便捷的技術(shù)手段。由于其涉及的應(yīng)用面非常廣泛,可為各類原始檔案數(shù)據(jù)的流通共享提供了一條便利的捷徑,對(duì)促進(jìn)政務(wù)信息化、提高辦事效率、激發(fā)市場主題活力,降低行政成本具有重要的意義。
6結(jié)語
總體看來,數(shù)字檔案工作是各類涉及電子政務(wù)信息化系統(tǒng)建設(shè)中的重要一環(huán),而依賴于人工圖像采集難免會(huì)出現(xiàn)檔案質(zhì)量參差不齊,可用性較差等諸多問題。行業(yè)內(nèi)的相關(guān)標(biāo)準(zhǔn)規(guī)范在對(duì)圖像傾斜、黑框、白邊等問題僅提出了原則性規(guī)定,在具體執(zhí)行過程中很難達(dá)到完全的統(tǒng)一。
參考文獻(xiàn)
[1]楊有,李曉虹.基于線結(jié)構(gòu)分析的檔案圖像傾斜校正[J].計(jì)算機(jī)科學(xué),2007.
[2]王海杰.文檔影像圖像處理中的糾偏與降噪研究[D].杭州:浙江大學(xué),2008.
[3]朱學(xué)芳.計(jì)算機(jī)圖像信息資源管理研究[J].現(xiàn)代圖書情報(bào)技術(shù),2004.