• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      淺談OCR識(shí)別技術(shù)在科技檔案管理中的運(yùn)用

      2021-08-06 07:13:02
      卷宗 2021年21期
      關(guān)鍵詞:二值像素閾值

      王 瑜

      (中國電建集團(tuán)北京勘測設(shè)計(jì)研究院有限公司,北京 100024)

      OCR文字識(shí)別技術(shù)的英文全稱是Optical Character Recognition,譯為光學(xué)字符識(shí)別。OCR文字識(shí)別是視覺感知中一個(gè)重要的技術(shù),目的是從圖片中提取文字信息。它是利用光學(xué)技術(shù)和計(jì)算機(jī)技術(shù)把印在或?qū)懺诩埳系奈淖肿x取出來,并轉(zhuǎn)換成一種計(jì)算機(jī)能夠接受、人也可以理解的格式。文字識(shí)別是計(jì)算機(jī)視覺研究領(lǐng)域的分支之一,這個(gè)課題已經(jīng)在很多行業(yè)得到應(yīng)用。OCR識(shí)別技術(shù)主要可應(yīng)用的場景有:教育場景文字識(shí)別、卡證文字識(shí)別、財(cái)務(wù)票據(jù)文字識(shí)別、醫(yī)療票據(jù)文字識(shí)別和汽車場景文字識(shí)別。

      1 OCR技術(shù)的流程

      OCR文字識(shí)別從本質(zhì)上可以歸類為序列化標(biāo)注問題,主要目標(biāo)是尋找文本串圖形到文本串內(nèi)容的映射。在工作流程上,《DA/T77-2019紙質(zhì)檔案數(shù)字復(fù)制件光學(xué)字符識(shí)別(OCR)工作規(guī)范》已有所規(guī)定,主要流程是:

      1.1 圖像輸入

      首先對(duì)圖像的分辨率、傾斜度、清晰度、失真度等方面進(jìn)行評(píng)估,并進(jìn)行適當(dāng)?shù)恼{(diào)整。然后把不同的格式和壓縮方式的圖像進(jìn)行解碼。

      1.2 圖像預(yù)處理

      主要包括二值化、去噪、傾斜矯正等。

      1)二值化:圖像錄入設(shè)備采集到圖像,一般都是彩色圖像。二值化就是將具有灰度級(jí)的彩色圖像轉(zhuǎn)換為黑白圖像,設(shè)定任意的閾值,并與各像素值進(jìn)行比較,當(dāng)大于閾值時(shí)轉(zhuǎn)換為黑,小于閾值轉(zhuǎn)換為白。

      2)去噪:主要方法是均值濾波器、自適應(yīng)維納濾波器、中值濾波器、形態(tài)學(xué)噪聲濾除器、小波去噪。

      3)傾斜矯正:對(duì)圖像識(shí)別前先對(duì)相關(guān)的內(nèi)容進(jìn)行校正。

      1.3 對(duì)比識(shí)別

      1)版式分析:對(duì)圖片中文字進(jìn)行分段落、分行的過程,稱之為版面分析。

      2)檔案特征分析:通過分析歸檔章、公文要素分析、表格分析、印章分析等方面對(duì)檔案進(jìn)行分析。

      1.4 識(shí)別和匹配

      以特征提取數(shù)據(jù)庫對(duì)比為主。文字的位移、筆畫的粗細(xì)、斷筆、粘連、旋轉(zhuǎn)等因素極大地增加了特征提取的難度。

      1.5 成果整理輸出

      1)成果整理:按照紙質(zhì)檔案數(shù)字復(fù)制件的版式對(duì)OCR成果的版式、公文要素、文字符號(hào)等內(nèi)容進(jìn)行理解與重建。

      2)成果輸出:將檔案OCR成果同時(shí)保存為純文本形式和雙層版式文件形式。

      2 OCR技術(shù)在科技檔案管理中運(yùn)用的幾種場景

      OCR識(shí)別在檔案場景的應(yīng)用,主要針對(duì)兩方面:著錄項(xiàng)數(shù)據(jù)抓取方面和全文OCR識(shí)別。在檔案文件元數(shù)據(jù)抓取的方面的OCR識(shí)別技術(shù)的應(yīng)用可以參考卡證文字識(shí)別,即把OCR技術(shù)和檔案系統(tǒng)集成,讓OCR識(shí)別出的文字直接被收錄到相應(yīng)的部位。這一點(diǎn)科技檔案出版格式的高度標(biāo)準(zhǔn)化給OCR識(shí)別帶來了方便。因?yàn)槲淖肿R(shí)別的主要目標(biāo)是對(duì)定位好的文字區(qū)域進(jìn)行識(shí)別,主要解決的是將一串文字圖片轉(zhuǎn)錄為對(duì)應(yīng)的字符的問題。以圖紙圖簽中用于填寫著錄項(xiàng)目數(shù)據(jù)抓取為例,如圖1所示。在圖紙的圖簽中,我們可以把圖簽按照原有框格把每一個(gè)框格都切割成多個(gè)框格,對(duì)應(yīng)框格內(nèi)獲得圖紙名稱、圖號(hào)、設(shè)計(jì)人、制圖人、校核人、審核人等信息。那么在檔案著錄時(shí)就可以靠定位和對(duì)信息的分析,尋找圖簽上我們需要的信息,然后導(dǎo)入檔案系統(tǒng)中相應(yīng)的著錄項(xiàng)里。

      OCR技術(shù)在科技檔案管理中另一個(gè)非常重要的運(yùn)用場景就是全文識(shí)別了。全文識(shí)別給檔案的利用提供了便利。就我們自己單位來說,曾經(jīng)在有人需要利用檔案的時(shí)候,只能對(duì)著錄項(xiàng)中著錄的內(nèi)容進(jìn)行檢索,這就需要提供相對(duì)準(zhǔn)確的圖號(hào)或關(guān)鍵詞等信息,如果相應(yīng)關(guān)鍵詞關(guān)聯(lián)的檔案太多,就需要人工篩選。而且沒有全文檢索,也很難再借閱前知道文件內(nèi)是否有自己需要的內(nèi)容,不解決這些問題,檔案部門沒辦法提供良好的檔案利用服務(wù)。

      3 OCR識(shí)別技術(shù)在科技檔案管理的過程中遇到的問題

      3.1 早期檔案不清楚

      最近形成的科技檔案紙張干凈、印刷清楚,給OCR識(shí)別技術(shù)提供了良好的環(huán)境。但是早期的檔案就存在紙張泛黃、印刷模糊等問題。甚至很多檔案在最初形成的時(shí)候所處環(huán)境就極度惡略,比如一些檔案,是在工地上直接形成的,工地上條件不好,檔案也有明顯被水浸泡過的情況,或者沾上了其他的污漬,甚至皺皺巴巴的情況。這就給OCR識(shí)別帶來了困難。

      3.2 文字難以識(shí)別

      在科技檔案中存在很多數(shù)學(xué)公式。另外有的科技檔案是手寫的,雖然文字清晰,但是并不是常規(guī)的印刷體。另外檔案中文字的排版也有各種各樣的種類,還有表格和圖片也給OCR識(shí)別技術(shù)帶來了挑戰(zhàn)。

      4 解決辦法

      4.1 早期檔案不清楚的問題的解決

      1)圖片預(yù)處理:對(duì)于模糊不清的檔案,在數(shù)字化掃描過程中,首先應(yīng)該嚴(yán)格按照《DA/T31-2017紙質(zhì)檔案數(shù)字化規(guī)范》執(zhí)行,如為了最大限度保留檔案原件信息,便于多種方式的利用,需要采用彩色模式進(jìn)行掃描,如果頁面為黑白兩色,也可以采用黑白二值或灰度模式掃描,掃描分辨率應(yīng)不小于200dpi。褶皺不平影響掃描質(zhì)量的紙質(zhì)檔案應(yīng)先進(jìn)行壓平等相應(yīng)技術(shù)處理。對(duì)于掃描后仍然模糊的檔案就需要應(yīng)用計(jì)算機(jī)圖片處理的技術(shù)來處理了。比如圖片太黃可以調(diào)節(jié)亮度,模糊可以調(diào)高對(duì)比度,或者曲線來找到能使圖片變得最清晰的方法。如果需要局部調(diào)節(jié)則是 用選框工具對(duì)想要修改的局部進(jìn)行框選,再進(jìn)行上述調(diào)節(jié)。如果局部邊緣是不規(guī)則形狀的話,則需要用鋼筆工具建立選區(qū)進(jìn)行修復(fù)。對(duì)于局部污漬的處理我認(rèn)為可以高低頻的方式進(jìn)行修復(fù)。但是這些方法處理圖片太過耗費(fèi)精力,在操作時(shí)可以只對(duì)非常模糊的檔案進(jìn)行此類操作。

      2)選擇適應(yīng)的二值化方法:常見的圖像二值化方法很多目前二值化的方法主要分為全局閾值方法、局部閾值方法和基于深度學(xué)習(xí)的方法。全局閾值方法常見的有固定閾值方法和Otsu方法,其原理都是通過人工設(shè)定的公式直接找出一個(gè)合適的統(tǒng)一閾值對(duì)圖像進(jìn)行二值化。局部閾值方法主要有自適應(yīng)閾值算法、Niblack算法等。是根據(jù)像素的臨域塊的像素分布來確定該像素位置上的二值化閾值。這樣做的好處在于每個(gè)像素位置處的二值化閾值不是固定不變的,而是由其周圍領(lǐng)域的分布來決定的。基于深度學(xué)習(xí)的二值化方法主要有全卷積的二值化方法,在圖像分類和圖像檢測等方面取得了巨大的成就和廣泛的應(yīng)用,傳統(tǒng)的基于CNN的分割方法的做法通常是:為了對(duì)一個(gè)像素分類,使用該像素周圍的一個(gè)圖像塊作為CNN的輸入用于訓(xùn)練和預(yù)測。

      3)選擇適應(yīng)的降噪方法:圖像噪聲是指存在于圖像數(shù)據(jù)中不必要的或多余的干擾信息,產(chǎn)生于圖像的采集、量化或傳輸過程,對(duì)圖像的后處理、分析均會(huì)產(chǎn)生極大的影響,因此一種好的去噪方法在去除噪聲的同時(shí),還需要保持圖像的邊界和細(xì)節(jié)。早期的去噪方法多為空間濾波,隨著度學(xué)習(xí)的不斷發(fā)展,基于神經(jīng)網(wǎng)絡(luò)的方法不斷涌現(xiàn)。去噪方法很多可以通過實(shí)際需要進(jìn)行選擇。

      4.2 文字難以識(shí)別的問題的解決

      文字識(shí)別時(shí)首先要做到把圖像增強(qiáng),常用的圖像增強(qiáng)方法有PCA抖動(dòng)、顏色增強(qiáng)。隨機(jī)尺度變換、隨機(jī)剪裁、平移變換等。另外還可以利用深度學(xué)習(xí)的方法對(duì)圖像中的文字進(jìn)行處理。深度學(xué)習(xí)方法是合成自然場景文本的方法,非常適合于文字識(shí)別。在自然場景中,除了手寫字,大部分文本都市由計(jì)算機(jī)生成的,只有物理渲染和成像過程不受計(jì)算機(jī)算法控制。合成的圖像樣本可以由圖像前景層、圖像背景層、邊緣、陰影組合而成。主要可分為如下六步:

      1)字體渲染:隨機(jī)選取字體,將文本沿著水平文本線或隨機(jī)曲線呈現(xiàn)到圖像前景層中。

      2)描邊、加陰影、著色:選擇字體,將文本沿水平文本線或隨機(jī)曲線呈現(xiàn)到圖像前景層。

      3)基礎(chǔ)著色:三個(gè)圖像層中的每一層都填充從自然圖像簇中采集的不同均勻色。

      4)仿射投影扭曲:對(duì)前景和便捷圖像層進(jìn)行隨機(jī)的全息投影變換,模擬3D環(huán)境。

      5)自然數(shù)據(jù)混合:每個(gè)圖層均從ICDAR203和SVT訓(xùn)練數(shù)據(jù)集隨機(jī)采樣的圖像進(jìn)行混合?;旌戏绞脚c混合程度隨機(jī)決定。該操作會(huì)產(chǎn)生折中的紋理和組合范圍。三個(gè)圖像通道也以隨機(jī)方式混合在一起,提供單個(gè)輸出圖像通道。

      6)加噪聲:應(yīng)用高斯噪聲、模糊和JPEG壓縮等方法為圖像加噪聲。

      5 結(jié)語

      2020年4 月,工信部印發(fā)《關(guān)于工業(yè)大數(shù)據(jù)發(fā)展的指導(dǎo)意見》,同年5月中宣部改辦下發(fā)了《關(guān)于做好國家文化大數(shù)據(jù)體系建設(shè)工作的通知》足可見國家大力發(fā)展信息化產(chǎn)業(yè)的決心。近年來數(shù)字檔案館的建設(shè)、各項(xiàng)規(guī)章制度的發(fā)布,都像是在督促我們不斷學(xué)習(xí)不斷進(jìn)步,只有這樣才能跟上我們所熱愛的檔案事業(yè)進(jìn)步的腳步,一起成長。

      猜你喜歡
      二值像素閾值
      趙運(yùn)哲作品
      藝術(shù)家(2023年8期)2023-11-02 02:05:28
      像素前線之“幻影”2000
      混沌偽隨機(jī)二值序列的性能分析方法研究綜述
      支持CNN與LSTM的二值權(quán)重神經(jīng)網(wǎng)絡(luò)芯片
      小波閾值去噪在深小孔鉆削聲發(fā)射信號(hào)處理中的應(yīng)用
      “像素”仙人掌
      基于自適應(yīng)閾值和連通域的隧道裂縫提取
      基于二值形態(tài)學(xué)算子的軌道圖像分割新算法
      視頻圖像文字的二值化
      比值遙感蝕變信息提取及閾值確定(插圖)
      河北遙感(2017年2期)2017-08-07 14:49:00
      舞阳县| 鸡西市| 家居| 新营市| 海淀区| 南康市| 怀集县| 疏勒县| 阿鲁科尔沁旗| 丽水市| 文昌市| 盐源县| 河源市| 新宁县| 蕉岭县| 葫芦岛市| 磐安县| 金山区| 昌黎县| 河东区| 唐山市| 墨竹工卡县| 沁水县| 沙河市| 巴青县| 黄龙县| 西安市| 天长市| 隆尧县| 文山县| 河源市| 杭锦旗| 阿勒泰市| 柳州市| 汪清县| 施秉县| 旌德县| 塔城市| 驻马店市| 沿河| 沁阳市|