• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      OCR漢字識(shí)別系統(tǒng)獲取紙質(zhì)圖片資料文字信息技巧

      2017-08-22 09:10:28鐘子喆韋軍朱鳳印
      現(xiàn)代交際 2017年16期
      關(guān)鍵詞:原理技巧方法

      鐘子喆+韋軍+朱鳳印

      摘要:OCR漢字識(shí)別系統(tǒng)通過掃描儀掃描,能快速將紙質(zhì)文本信息轉(zhuǎn)換成Word可編輯文本,極大地提高了工作效率,因此漢字OCR識(shí)別技術(shù)有著廣泛的發(fā)展前途及實(shí)際應(yīng)用價(jià)值,文章提到的具體操作方法可以有效地應(yīng)用于實(shí)際工作當(dāng)中,供同行參考。

      關(guān)鍵詞:OCR漢字識(shí)別系統(tǒng) 原理 方法 技巧

      中圖分類號(hào):TP391 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-5349(2017)16-0191-03

      一、 什么是OCR?

      OCR是(Optical Character Recognition)的縮寫,即光學(xué)字符識(shí)別,也可簡(jiǎn)稱文字識(shí)別。它的工作原理就是通過電子設(shè)備檢查紙質(zhì)資料上打印的字符,采用光電轉(zhuǎn)換裝置將漢字或字符轉(zhuǎn)換成電信號(hào),并由計(jì)算機(jī)進(jìn)行檢測(cè)暗、亮的模式確定其形狀,然后用字符識(shí)別方法將形狀翻譯成計(jì)算機(jī)文字的過程。[1]

      衡量OCR系統(tǒng)性能優(yōu)劣主要指標(biāo)有:拒識(shí)率、誤識(shí)率、識(shí)別速度、用戶界面的友好性,產(chǎn)品的穩(wěn)定性,易用性及可行性等。[2]早期的OCR軟件在識(shí)別率等方面不是很理想。文字識(shí)別的工作只能由簡(jiǎn)單的識(shí)別軟件逐字進(jìn)行,無法分辨不同的字體,對(duì)于手寫體或是印刷效果不清晰的印刷品,在識(shí)別上有一定的難度。有人做過實(shí)驗(yàn),對(duì)于印刷品模糊或是手寫體過于潦草的漢字,識(shí)別后的修改時(shí)間與正常打字的速度相差不多,有時(shí)甚至還趕不上人工打字的速度。但是隨著這項(xiàng)技術(shù)的日趨成熟,識(shí)別軟件已經(jīng)進(jìn)入了人工智能階段,它不僅能識(shí)別黑白印刷體漢字,還能識(shí)別灰度和彩色印刷體漢字,識(shí)別正確率能達(dá)到99% ,對(duì)于手寫漢字識(shí)別率已達(dá)到70% 以上,對(duì)于大批量的印刷文字向電子文檔的輸入,OCR漢字識(shí)別效率與識(shí)別率都能讓用戶十分滿意。[3-12]

      二、 原理與功能模塊[4]

      OCR的功能是將各種錄入漢字、印刷體或手寫體中每個(gè)漢字的圖形或圖像通過計(jì)算機(jī)辨認(rèn)出來,并標(biāo)出漢字類別代碼,從而獲取文字及版面信息的過程。[2]因此,漢字識(shí)別歸根結(jié)底是一個(gè)圖像識(shí)別問題。由于漢字信息量很大,具有不同的字形、字體,而且結(jié)構(gòu)復(fù)雜,因此漢字識(shí)別的過程極其復(fù)雜。漢字識(shí)別系統(tǒng)可由漢字圖形輸入裝置、予處理器、識(shí)別器、后處理器幾部分組成。如圖1所示。

      漢字圖形輸入裝置主要功能是通過光、電輸入設(shè)備,將原稿轉(zhuǎn)換成二維點(diǎn)陣圖形。所謂的原稿指的就是印刷的紙質(zhì)資料。

      予處理器是指對(duì)印刷的紙質(zhì)資料文稿頁(yè),進(jìn)行成分分析、字符的分割、去干擾等。

      后處理器是對(duì)識(shí)別后的詞組、詞條和上下文關(guān)系進(jìn)行后期糾錯(cuò)、輸出。

      三、OCR適合對(duì)象[4]

      (1)印刷行業(yè)、文印店經(jīng)常會(huì)遇到客戶只給你一本厚厚的宣傳冊(cè),要明天之前必須把那本宣傳冊(cè)上的文字原原本本打出來。OCR能極大地減輕錄入工作強(qiáng)度、提高錄入速度,是非常快捷、省力的好幫手。

      (2)辦公室工作人員經(jīng)常會(huì)遇到要馬上把紙質(zhì)文本打印成Word文檔的工作,對(duì)于打字慢或是懶得打字的人,為了完成工作任務(wù),OCR是非常好的選擇。

      (3)其他對(duì)象:廣泛應(yīng)用于網(wǎng)上資源數(shù)據(jù)庫(kù)、數(shù)字化圖書館、檔案部門,尤其是對(duì)于原始紙質(zhì)文件、檔案、書稿等的引用、檢索數(shù)字化工作,OCR能輕松提高效率。

      四、OCR系統(tǒng)識(shí)別漢字的方法

      文字識(shí)別模塊是OCR軟件的核心部分,它主要對(duì)輸入的漢字進(jìn)行“閱讀”,但不能一目多行,必須逐行切割,一個(gè)個(gè)字的辨認(rèn),即單字識(shí)別,再進(jìn)行歸一化。文字識(shí)別模塊通過對(duì)不同樣本漢字的特征進(jìn)行提取,完成識(shí)別,自動(dòng)查找可疑字,具有前后聯(lián)想等功能。[4]

      (一)漢字識(shí)別所需硬件、軟件

      一般來說進(jìn)行漢字識(shí)別只需要一臺(tái)計(jì)算機(jī)、掃描儀即可。OCR漢字識(shí)別軟件在購(gòu)買掃描儀時(shí)會(huì)自帶,安裝在本機(jī)上運(yùn)行即可。不同的掃描儀所附帶的OCR漢字識(shí)別軟件是不一樣的。目前,市面上的OCR軟件有丹青、漢王、蒙恬OCR、清華紫光、尚書等。OCR軟件的種類雖然很多,但其使用方法大同小異?,F(xiàn)以清華紫光OCR2003專業(yè)版為例,介紹其具體操作過程和使用技巧。[5]清華紫光OCR2003專業(yè)版具有識(shí)別率高、支持表格識(shí)別等特點(diǎn),流程分為四步:獲取識(shí)別圖像;圖像版面處理;識(shí)別及修改;結(jié)果輸出。[6]

      (二)設(shè)置掃描模式及掃描

      在本機(jī)上安裝好清華紫光OCR2003千禧版之后雙擊桌面圖標(biāo),打開掃描儀對(duì)掃描參數(shù)進(jìn)行設(shè)置。如果選擇“直接終掃”,系統(tǒng)只進(jìn)行一次掃描?!爸苯咏K掃”能節(jié)約時(shí)間,但是前提是要把需識(shí)別的紙質(zhì)文本在掃描儀中放好,掃描時(shí)盡量不要出現(xiàn)歪斜現(xiàn)象。

      掃描時(shí)采用的分辨率是識(shí)別過程的關(guān)鍵。一般雜志或報(bào)紙需300dpi的分辨率就能足夠供OCR產(chǎn)生良好的識(shí)別效果,以激光打印機(jī)輸出設(shè)備的紙質(zhì)文件在300dpi的掃描品質(zhì)下,識(shí)別率可以達(dá)到99%。[7]掃描完成后,利用紫光OCR2003千禧版對(duì)該紙質(zhì)文件進(jìn)行識(shí)別。拖動(dòng)中間或是右側(cè)工作區(qū)域內(nèi)的藍(lán)色線框,可調(diào)整識(shí)別范圍,框選部分顏色會(huì)以黃色顯示,如圖2所示。

      (三)傾斜矯正和版面分析

      OCR系統(tǒng)有自動(dòng)傾斜矯正和手動(dòng)傾斜矯正兩種方式,建議使用自動(dòng)傾斜矯正。由于印刷和用戶多方面操作的原因,掃描得到的圖像可能有一定的傾斜角度,尤其是小的傾斜角度,在掃描中難以避免,傾斜角度小OCR系統(tǒng)可以自動(dòng)適應(yīng),無須任何處理就可識(shí)別;傾斜角度小于10—15度時(shí)可以先進(jìn)行傾斜矯正,然后再進(jìn)行識(shí)別處理;如果傾斜角度大于15度的圖像,建議重新掃描。[8]

      版面分析是指將掃描得到的圖像,劃分出每一個(gè)區(qū)域塊,目的是告訴OCR軟件將同一版面的文章、表格等分開,以便于分別處理,并按照一定的順序進(jìn)行識(shí)別。對(duì)于劃分出的區(qū)域范圍,簡(jiǎn)單的圖像版式筆者建議使用自動(dòng)分析,報(bào)刊等復(fù)雜版式建議采用手動(dòng)分析,以免遺漏所要識(shí)別的文字。[9]

      (四)進(jìn)行文字識(shí)別

      掃描后的圖像文件,經(jīng)過傾斜矯正、版面分析等處理后,即可進(jìn)入識(shí)別階段。識(shí)別窗口菜單欄上有“橫排正文”按鈕

      和“豎排文字”按鈕

      ,如果沒有其他的復(fù)雜的內(nèi)容,一般默認(rèn)用

      就可以,不用進(jìn)行版面分析就能識(shí)別。識(shí)別是OCR系統(tǒng)的核心,為了保證正確地識(shí)別,應(yīng)按以下的步驟進(jìn)行。

      (1)選擇正確地識(shí)別字體。[10]選擇工具面板上的

      按鈕旁邊的小黑三角,根據(jù)識(shí)別圖像的具體情況選擇字體 。

      簡(jiǎn)體多體(印刷體)——常見的宋體、仿宋體、黑體、楷體、圓體

      繁體多體(印刷體)——常見的宋體、仿宋體、黑體、楷體、圓體

      純 英 文(印刷體)——常見的英文多種字體

      手 寫 體——要求筆記規(guī)范、不潦草

      (2)在展開的左側(cè)面板下拉列表中選擇“TMP0000.TXT”,同時(shí),軟件右側(cè)會(huì)自動(dòng)顯示需識(shí)別的掃描文字,如圖3所示。

      (3) 點(diǎn)擊OCR系統(tǒng)工具條中的【全部識(shí)別】

      按鈕之后,面板被分為上下兩部分,如圖4所示,其中上部分顯示已經(jīng)識(shí)別出來的字符,下半部分是掃描原稿。識(shí)別體現(xiàn)OCR的核心技術(shù)。從掃描文本中分檢出的文字圖像,計(jì)算機(jī)根據(jù)方案的筆畫、特征點(diǎn)、投影信息、點(diǎn)的區(qū)域分布等進(jìn)行分析,并將其轉(zhuǎn)變成文字的標(biāo)準(zhǔn)代碼的過程。[11]

      圖中醒目的紅色漢字,表示系統(tǒng)識(shí)別認(rèn)為有誤,需要進(jìn)一步識(shí)別和確認(rèn)。同時(shí),系統(tǒng)還提供了相似的文字供選擇。因?yàn)榇蟛糠譂h字已經(jīng)被識(shí)別,紅顏色顯示的只有小部分,需要使用者逐個(gè)比對(duì)。如果想要對(duì)于識(shí)別過的圖像進(jìn)行再次識(shí)別,系統(tǒng)會(huì)出現(xiàn)對(duì)話框,提示是否覆蓋已有的識(shí)別結(jié)果。

      (4)對(duì)已識(shí)別的文字進(jìn)行保存。點(diǎn)擊【導(dǎo)出】按鈕

      →【保存類型】→】, 或Word的RTF文件,文件名為“掃描1”。用記事本打開識(shí)別 “掃描1” 文件并將其拷貝/粘貼在Word中,對(duì)其進(jìn)行編輯和格式調(diào)整即可。

      五、結(jié)語

      使用OCR軟件時(shí)要保證印刷品的清晰度,是真正提高工作效率的關(guān)鍵,如何除錯(cuò)或利用輔助信息提高識(shí)別正確率,仍是OCR最重要的課題。

      參考文獻(xiàn):

      [1] 徐永芳.OCR技術(shù)在檔案數(shù)字化過程中的應(yīng)用[J].藝術(shù)科技,2011(2).

      [2] OCR文字識(shí)別系統(tǒng)[EB/OL].http://zhidao.baidu.com/question/277594055.html, 2011-06-09.

      [3] 白樺.提高OCR識(shí)別率[J].電腦知識(shí)與技術(shù),2004(34):4.

      [4] 丁龍,陸俞,顏世崇.漢字OCR的原理、方法與應(yīng)用[J].高師理科學(xué)刊,1998,18(6):19-21.

      [5] 王桂敏,齊鳳河. OCR軟件使用經(jīng)驗(yàn)淺談[J].科技信息,2006(6):18.

      [6] 詹莊影.OCR文字識(shí)別系統(tǒng)使用技巧[J].華南金融電腦,2002(11):81.

      [7] 印刷體OCR識(shí)別技術(shù)[J].企業(yè)標(biāo)準(zhǔn)化,2004(5):44.

      [8] 藍(lán)色理想.OCR 圖片文字識(shí)別圖解教程[EB/OL]. 2006-11-20[20012-03-08].http://www.blueidea.com/computer/soft/2006/4278.asp.

      [9] 可可豆.自己動(dòng)手提高OCR 識(shí)別率[J].廣東電腦與電訊,2003(3):81.

      [10] OCR文字識(shí)別技術(shù)[EB/OL].2006-03-07[20012-03-08].http://news.pack.cn/packtechnology/bzxjs/2006-03/2006030714050309.shtml.

      [11] 淺談文字識(shí)別軟件OCR [EB/OL].http://wenku.baidu.com/view/5961ef68af1ffc4ffe47ac58.html.

      [12] 深入探究光學(xué)字符識(shí)別軟件——OCR[EB/OL]. 2004-05-13[2012-03-08].http://info.printing.hc360.com/HTML/001/010/001/29952.htm.

      Abstract: OCR Chinese characters recognition system is scanned by a scanner, can quickly be paper text information into Word editable text, improved work efficiency greatly, so the Chinese characters OCR recognition technology has a broad development prospects and practical value, this article refers to the specific operation method can be effectively applied in practical work, for reference.

      Key words: OCR Chinese characters recognition system, Principle ,Method, Skill,

      猜你喜歡
      原理技巧方法
      肉兔短期增肥有技巧
      了解咳嗽祛痰原理,有效維護(hù)健康
      開好家長(zhǎng)會(huì)的幾點(diǎn)技巧
      甘肅教育(2020年12期)2020-04-13 06:24:46
      平均場(chǎng)正倒向隨機(jī)控制系統(tǒng)的最大值原理
      指正要有技巧
      提問的技巧
      化學(xué)反應(yīng)原理全解讀
      可能是方法不對(duì)
      通信原理教學(xué)改革探索
      用對(duì)方法才能瘦
      Coco薇(2016年2期)2016-03-22 02:42:52
      弥勒县| 丘北县| 牡丹江市| 明溪县| 井研县| 顺义区| 陈巴尔虎旗| 益阳市| 临夏市| 丹凤县| 阿拉尔市| 汾西县| 朔州市| 繁峙县| 娱乐| 两当县| 新兴县| 麦盖提县| 丹凤县| 樟树市| 厦门市| 诸暨市| 新河县| 福州市| 广丰县| 上犹县| 塔河县| 京山县| 平远县| 武冈市| 东海县| 疏附县| 萨迦县| 张家港市| 台南县| 石首市| 茂名市| 大冶市| 昔阳县| 金堂县| 泊头市|