鄭艷昆 中國現(xiàn)代文學(xué)館
試論檔案數(shù)字化過程中OCR技術(shù)的應(yīng)用
鄭艷昆 中國現(xiàn)代文學(xué)館
引進(jìn)信息化系統(tǒng)、推動(dòng)數(shù)字化發(fā)展已經(jīng)成為現(xiàn)階段檔案管理的主流趨勢,檔案數(shù)字化不僅減輕了管理人員的工作壓力,提高了檔案管理效率,而且也能夠進(jìn)一步挖掘檔案資料的潛在價(jià)值,真正發(fā)揮檔案資料的借鑒、參考價(jià)值。在檔案數(shù)字化發(fā)展過程中,如何將紙質(zhì)檔案內(nèi)容準(zhǔn)錄入到計(jì)算機(jī)中是需要重點(diǎn)關(guān)注的核心問題,OCR(光學(xué)字符識別)技術(shù)的應(yīng)用,實(shí)現(xiàn)了文字、圖像的快速識別和準(zhǔn)確轉(zhuǎn)換,逐漸成為數(shù)字檔案管理中的核心技術(shù)之一。
檔案管理 數(shù)字化 OCR技術(shù) 應(yīng)用技巧
OCR技術(shù)是指利用電子設(shè)備(掃描儀、數(shù)碼相機(jī)等),掃描紙質(zhì)檔案中的文字、圖像,然后借助于字符識別將其轉(zhuǎn)換為計(jì)算機(jī)可識別的二進(jìn)制數(shù)據(jù),并生成對應(yīng)文字和圖像的一種技術(shù)。我國自20世紀(jì)70年代開始著手漢字識別的相關(guān)研究,隨著經(jīng)驗(yàn)的積累和技術(shù)的成熟,目前國內(nèi)OCR技術(shù)的應(yīng)用較為成熟。文章首先對OCR技術(shù)的運(yùn)作流程和檔案錄入優(yōu)勢進(jìn)行了簡單概述,隨后結(jié)合工作經(jīng)驗(yàn),就OCR技術(shù)在檔案數(shù)字化中的實(shí)際應(yīng)用展開了分析。
各類光學(xué)儀器是實(shí)現(xiàn)紙質(zhì)檔案文字識別的主要工具,目前常用的影像輸入儀器主要有掃描儀、數(shù)碼相機(jī)和傳真器等。這些電子設(shè)備在掃描精度、速度等方面均有較大差異,需要在實(shí)際的檔案數(shù)字化轉(zhuǎn)化中篩選使用。在選擇好掃描設(shè)備后,將需要進(jìn)行文字轉(zhuǎn)換的紙質(zhì)檔案進(jìn)行整理劃分,例如圖片、表格、文字等要單獨(dú)分類,這樣一方面可以提高文字識別率,盡量降低掃描識別中出現(xiàn)亂碼、錯(cuò)位等現(xiàn)象,另一方面也能夠最大限度的還原紙質(zhì)檔案的信息,提高檔案資料的利用價(jià)值。另外,考慮到檔案掃描過程中會(huì)涉及到人工操作,操作時(shí)可能會(huì)導(dǎo)致待識別檔案誤動(dòng),因此還需要對采取傾斜校正措施,避免掃描識別字體出現(xiàn)傾斜問題。
漢字中有許多形體結(jié)構(gòu)類似的文字,例如“日”和“曰”、“子”和“于”等,由于掃描設(shè)備只能通過識別文字區(qū)域黑/白點(diǎn)數(shù)的方式完成掃描錄入,因此掃描這些文字時(shí)容易出現(xiàn)較高的錯(cuò)誤率。對比識別能夠進(jìn)一步細(xì)化文字特征,包括文字的筆畫端點(diǎn)、交叉點(diǎn)數(shù)量等,都可以在掃描過程中進(jìn)行針對性的識別。這樣一來,雖然并不能保證OCR技術(shù)100%的識別率,但是也能夠大幅度降低誤識率,從而使得識別結(jié)果更加穩(wěn)定。目前OCR技術(shù)中應(yīng)用較為成熟的對比識別算法有歐式空間對比法、動(dòng)態(tài)程序?qū)Ρ确ㄒ约癏MM對比法等。
人工校正是OCR技術(shù)在檔案數(shù)字化應(yīng)用中的最后一個(gè)技術(shù)環(huán)節(jié),對于實(shí)現(xiàn)文字糾偏、減少錯(cuò)誤率有很好的效果。在以往的檔案數(shù)字化錄入過程中,需要技術(shù)人員逐字逐句的檢查檔案是否存在錯(cuò)誤,不僅浪費(fèi)了大量的校正時(shí)間,而且容易因技術(shù)人員的疏忽大意,而影響校正效果。借助于OCR技術(shù),人工校正只是一種輔助手段,多數(shù)情況下是由計(jì)算機(jī)篩選出可能存在錯(cuò)誤的文字區(qū)域,然后再安排技術(shù)人員進(jìn)行專門的檢查。這樣就縮小了人工校正的范圍,從而提高了工作效率。
完成上述一系列操作,且經(jīng)過系統(tǒng)性的人工校正后,可以將掃描結(jié)果輸出形成電子檔案。通過大量的對比可以發(fā)現(xiàn),利用OCR技術(shù)得到的數(shù)字檔案無論是在字形、排列等方面,均與原紙質(zhì)檔案有極高的吻合度。需要注意的是,生成電子檔案后,要及時(shí)進(jìn)行電子檔案的復(fù)制備份,避免因設(shè)備故障或人為破壞導(dǎo)致數(shù)字檔案受到損失。將原版檔案進(jìn)行加密保存,備份檔案可以供人瀏覽、下載使用。
在檔案數(shù)字化工作中,所謂的全文檢索主要可以分為兩種:一種是針對全文目錄的檢索,必須在目錄數(shù)據(jù)庫中找到相關(guān)的條目才能將所需的文檔打開;另一種則是真正意義上的全文檢索,該檢索方式可以對檔案全文進(jìn)行逐字逐句的檢索,二者之間的工作效率與作用是十分明顯的,逐漸深入開發(fā)并利用檔案信息資源。
OCR技術(shù)的使用,在著錄標(biāo)引方法上取得了一定的突破。在傳統(tǒng)的檔案目錄創(chuàng)建中,其中的許多內(nèi)容都是通過手工錄入的方式,費(fèi)時(shí)費(fèi)力易出錯(cuò)。OCR技術(shù)為檔案目錄的創(chuàng)建與錄入提供了一種全新的方式。在實(shí)際的工作中,工作人員可以直接從OCR中尋找著錄相關(guān)項(xiàng)目,使用基本的復(fù)制、粘貼操作將其放入到目錄數(shù)據(jù)庫中的相應(yīng)段落當(dāng)中即可。然而,由于OCR技術(shù)自身方面還存在著一些問題,導(dǎo)致了該方法在實(shí)際使用的過程中缺乏可行性。在OCR技術(shù)未來發(fā)展的過程中,必須要從可行性的方面入手,逐漸完善OCR技術(shù),確保OCR在技術(shù)方面的應(yīng)用能夠獲得突破。
在過去,用戶在選擇與利用檔案信息文件的過程中,主要以其憑證價(jià)值作為其是否使用的判定標(biāo)準(zhǔn)。然而,部分檔案在使用過程中,對檔案的原真性具有較高的要求,例如結(jié)婚證、戶口薄、學(xué)生證、房產(chǎn)證等,只有使用紙質(zhì)檔案才能真正地發(fā)揮出起作用。檔案絕不僅僅擁有憑證價(jià)值,也具有一定的情報(bào)價(jià)值與參考價(jià)值。若要將其用于學(xué)術(shù)研究或決策參考,按照現(xiàn)行的工作方式,只能去檔案館使用印刷或手工摘錄的方式來獲取,不僅不便于實(shí)際工作中的使用,也會(huì)影響檔案信息的傳播速度,對其使用效果產(chǎn)生影響。使用OCR文字識別技術(shù),使用數(shù)字化檔案代替?zhèn)鹘y(tǒng)的紙質(zhì)檔案,使我國的檔案信息技術(shù)取得了全面性的突破,使其可以為用戶提供更加優(yōu)質(zhì)的服務(wù)。
雖然OCR技術(shù)已經(jīng)逐漸趨于成熟和完善,并且經(jīng)過大量的實(shí)踐證明,利用OCR技術(shù)可以實(shí)現(xiàn)提高文字錄入正確率的效果。但是仍然有一些檔案管理部門反映OCR技術(shù)的應(yīng)用效果不理想。究其原因,還是因?yàn)檫@些部門沒有掌握該項(xiàng)技術(shù)的應(yīng)用技巧??偨Y(jié)來說,檔案數(shù)字化過程中OCR技術(shù)的應(yīng)用應(yīng)當(dāng)注意做好以下幾方面。
分辨率的高低直接決定了文字識別的準(zhǔn)確率,這也是早期數(shù)字掃描過程中極其容易出現(xiàn)文字亂碼的主要原因。近年來,隨著掃描設(shè)備性能不斷提升,這些設(shè)備的分辨率也越來越高,例如一些比較高端的光學(xué)掃描設(shè)備的分辨率可以達(dá)到800pi以上。需要注意的是,文字識別過程中的設(shè)備分辨率并不是越高越好,不同字號的文字對應(yīng)著最佳分辨率,例如1-3號字體可以選擇200pi,而6-8號字體可以選擇600pi等。另外,分辨率的高低也會(huì)直接影響掃描成本,尤其是對于一些工作量較大、檔案較多的單位,合理設(shè)置分辨率還能節(jié)省一部分費(fèi)用。
上文中提到,OCR技術(shù)進(jìn)行紙質(zhì)檔案掃描的原理是通過識別目標(biāo)區(qū)域的黑/白點(diǎn)陣,選取黑色部分作為文字的字體結(jié)構(gòu),從而高度還原文字,實(shí)現(xiàn)文字的轉(zhuǎn)換。在對紙質(zhì)檔案掃描時(shí),如果檔案文件黑白分明,則可以實(shí)現(xiàn)較好的文字識別效果;但是很多早期的檔案資料或特殊紙質(zhì)的檔案資料,黑白對比度不高,因此給掃描儀的識別準(zhǔn)確度造成了一定的影響。針對這種情況,可以人為調(diào)整掃描儀的亮度值:可以通過掃描實(shí)驗(yàn)來確定亮度值的大小,例如掃描結(jié)果中文字線條較粗,則說明亮度值偏大;反之,如果文字輪廓不清晰,則說明亮度值偏小。
合理選擇OCR軟件也是關(guān)系到文字識別效率的重要因素。近年來,部分智能掃描儀自帶OEM掃描軟件,雖然能夠?yàn)閽呙韫ぷ魈峁┮恍┓奖?,但是無論是在掃描效果還是實(shí)用功能等方面,均不如OCR軟件。另外,這些高端掃描儀大多為國外品牌,部分甚至沒有中文文字識別功能,因此其實(shí)際應(yīng)用價(jià)值不高。好的掃描軟件應(yīng)當(dāng)至少具備兩方面要素:其一是能夠進(jìn)行中文漢字的高效、準(zhǔn)確識別,其二是圖像軟件自帶文字編輯和加工功能,便于后期人工校正。除此之外,向其他一些輔助功能也可以適當(dāng)選取,對于檔案文字的錄入也有一定幫助。
原紙質(zhì)檔案中的部分特殊文字或特殊格式,在掃描時(shí)可能會(huì)出現(xiàn)無法識別的現(xiàn)象,需要相關(guān)人員進(jìn)行手動(dòng)調(diào)整。目前確定無法正確識別的格式有粗體、斜體、首行縮進(jìn)等,另外向一些復(fù)雜的數(shù)學(xué)、物理、化學(xué)公式,以及模糊的黑白圖像等,在識別時(shí)也容易出現(xiàn)亂碼或格式丟失等現(xiàn)象。針對這種問題的解決辦法主要有兩種:一種是利用數(shù)碼相機(jī)進(jìn)行拍照識別,將目標(biāo)圖像或公式進(jìn)行拍照選取,然后直接粘貼到數(shù)字檔案中;另一種是后期人工校正,由于亂碼會(huì)被系統(tǒng)自動(dòng)標(biāo)注,后期可以人工查看這些亂碼,并對照原檔案進(jìn)行修正。
許多檔案中同時(shí)包含圖片和文字,甚至多數(shù)情況下采用圖文混排的形式,這就給OCR的掃描識別增加了難度。為了提高掃描效率和識別成功率,可以人為進(jìn)行檔案資料的版面區(qū)分,將檔案分成多個(gè)掃描區(qū)域,從而提高了識別效率。理論上來說,應(yīng)當(dāng)盡可能的保持同一掃描區(qū)域中的字號相同,且文字排列整齊,行間距一致。掃描時(shí)要分區(qū)域進(jìn)行,每完成一個(gè)區(qū)域的掃描工作,在換檔案開始下一區(qū)域掃描,這樣不僅提高了OCR識別的專業(yè)性,也可以留出一定的時(shí)間進(jìn)行人工校正,提高了文字處理速度。
OCR技術(shù)的應(yīng)用為提升檔案錄入速度和質(zhì)量提供了必要的技術(shù)支持,重視OCR技術(shù)的應(yīng)用也成為優(yōu)化數(shù)字檔案管理工作的核心內(nèi)容。作為數(shù)字檔案管理人員,一方面要不斷提高個(gè)人的數(shù)字化設(shè)備操作能力,掌握OCR技術(shù)在檔案轉(zhuǎn)化和文字錄入中的操作技術(shù),另一方面又要總結(jié)以往工作經(jīng)驗(yàn),注意學(xué)習(xí)OCR技術(shù)的應(yīng)用技巧,例如學(xué)會(huì)如何進(jìn)行對比度調(diào)節(jié)、如何設(shè)置分辨率等,為提高OCR技術(shù)的應(yīng)用成效提供人力支持。
[1]趙燁,王明磊,李新友.信息化時(shí)代背景下應(yīng)用OCR技術(shù)的大數(shù)據(jù)量文檔處理系統(tǒng)模型[J].計(jì)算機(jī)應(yīng)用,2015(s1):329-331.
[2]彭健,潘保昌.基于OCR技術(shù)的金融和財(cái)務(wù)票據(jù)自動(dòng)錄入與管理系統(tǒng)[J].重慶工商大學(xué)學(xué)報(bào)(自然科學(xué)版),2017(03):150-154.
[3]張文國.OCR數(shù)字化加工系統(tǒng)研發(fā)成功為圖書、檔案、文獻(xiàn)資料數(shù)字化提供先進(jìn)技術(shù)手段[J].電子出版,2013(04):139-142.
[4]王玲麗.淺談OCR技術(shù)在圖書館文獻(xiàn)資源加工中的應(yīng)用——以上海圖書館近代文獻(xiàn)全文OCR數(shù)據(jù)制作項(xiàng)目為例[J].數(shù)字與縮微影像,2015(01):23-26.
鄭艷昆,女,中國現(xiàn)代文學(xué)館征集編目部助理館員,研究方向:檔案資源建設(shè)。