• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于模板匹配OCR的報(bào)告自動(dòng)歸檔系統(tǒng)研究

      2021-08-24 08:41:10辰,陳陽(yáng)
      關(guān)鍵詞:字符識(shí)別字符像素點(diǎn)

      張 辰,陳 陽(yáng)

      (1.廣東省建設(shè)工程質(zhì)量安全檢測(cè)總站有限公司,廣東 廣州510500;2.廣東省建筑科學(xué)研究院集團(tuán)股份有限公司,廣東 廣州510500)

      0 引言

      光學(xué)字符識(shí)別(Optical Character Recognition,OCR)是指對(duì)文本資料的圖像文件進(jìn)行分析識(shí)別處理,獲取文字及版面信息的過程。亦即將圖像中的文字進(jìn)行識(shí)別,并以文本的形式返回。其在文檔歸檔應(yīng)用背景下具有廣闊的市場(chǎng)前景。OCR字符識(shí)別技術(shù)經(jīng)過 多 年 發(fā) 展 ,已 有 LeNet[1]、RRPN[2]、DMPNet[3]、CTPN[4]等OCR網(wǎng)絡(luò)結(jié)構(gòu)被提出。其中,CTPN是目前應(yīng)用最廣的文本檢測(cè)模型之一。其基本假設(shè)是單個(gè)字符相較于異質(zhì)化程度更高的文本行更容易被檢測(cè),因此先對(duì)單個(gè)字符進(jìn)行類似R-CNN的檢測(cè),并在檢測(cè)網(wǎng)絡(luò)中加入雙向LSTM[5],使檢測(cè)結(jié)果形成序列提供了文本的上下文特征,便可以將多個(gè)字符進(jìn)行合并得到文本行。LeNet網(wǎng)絡(luò)提出時(shí)間較早,在銀行票據(jù)手寫體字符識(shí)別方面有著長(zhǎng)期的應(yīng)用。上述網(wǎng)絡(luò)結(jié)構(gòu)可以在通用背景下有效識(shí)別場(chǎng)景中的字符,對(duì)于非垂直文本也能進(jìn)行檢測(cè)。對(duì)于大多數(shù)OCR的應(yīng)用場(chǎng)景,并不需要對(duì)圖片中的所有字符進(jìn)行識(shí)別,往往只需要對(duì)部分ROI區(qū)域的字符進(jìn)行檢測(cè),但OCR技術(shù)對(duì)ROI區(qū)域的位移與旋轉(zhuǎn)適應(yīng)性較差,需要訓(xùn)練單獨(dú)的網(wǎng)絡(luò)來(lái)對(duì)ROI區(qū)域進(jìn)行定位。機(jī)器視覺技術(shù)在制造業(yè)領(lǐng)域有著廣泛的應(yīng)用,特別是在工件定位、視覺測(cè)量等方面有大量成熟的算法,其中,模板匹配算法則針對(duì)工業(yè)定位[6-7]的應(yīng)用背景,提出了基于灰度[8]、邊緣[9]、變換域[10]的模板匹配算法,能適應(yīng)各種工業(yè)定位需求[11-15]。

      計(jì)算機(jī)視覺技術(shù)與機(jī)器視覺技術(shù)在土木建筑行業(yè)的應(yīng)用十分有限,就材料檢測(cè)而言,存在大量檢測(cè)報(bào)告需要進(jìn)行數(shù)字歸檔,海量的報(bào)告歸檔消耗了大量的人力成本與時(shí)間成本。其中,報(bào)告種類繁多、掃描質(zhì)量、人員操作不規(guī)范等問題,使得OCR技術(shù)無(wú)法同諸如銀行票據(jù)識(shí)別在建材檢測(cè)行業(yè)落地。

      綜上所述,本文針對(duì)建筑行業(yè)報(bào)告歸檔的實(shí)際應(yīng)用,提出了機(jī)器視覺技術(shù)與計(jì)算機(jī)視覺OCR技術(shù)結(jié)合的方案。利用機(jī)器視覺領(lǐng)域中具有強(qiáng)適應(yīng)性(魯棒性)的模板匹配技術(shù),克服檢測(cè)報(bào)告掃描質(zhì)量不可控、檢測(cè)報(bào)告掃描結(jié)果位移與形變等諸多難題,再利用OCR技術(shù)強(qiáng)大的字符識(shí)別能力,構(gòu)建了一套基于模板匹配技術(shù)與卷積神經(jīng)網(wǎng)絡(luò)的報(bào)告自動(dòng)歸檔系統(tǒng),所構(gòu)建的系統(tǒng)對(duì)檢測(cè)報(bào)告的正確歸檔率達(dá)到了95.8%。相較于人工歸檔,系統(tǒng)自動(dòng)化歸檔可節(jié)約大量的人力成本與時(shí)間成本。

      1 尋找ROI區(qū)域

      報(bào)告自動(dòng)歸檔就是對(duì)報(bào)告編號(hào)進(jìn)行識(shí)別并進(jìn)行重命名保存,但報(bào)告編號(hào)的位置與大小不固定,且報(bào)告的掃描質(zhì)量沒有統(tǒng)一標(biāo)準(zhǔn),要對(duì)報(bào)告中的具體內(nèi)容進(jìn)行識(shí)別,就需要先對(duì)報(bào)告圖像中的要素進(jìn)行分類,尋找到需要進(jìn)行識(shí)別處理的區(qū)域。本文使用了基于邊緣的模板匹配方法來(lái)進(jìn)行要素搜尋,定位ROI區(qū)域。

      模板匹配的方法主要有三種:(1)基于灰度;(2)基于邊緣;(3)基于變換域?;诨叶扰c基于變換域的模板匹配方法針對(duì)圖像的線性變換具有較強(qiáng)的魯棒性,匹配目標(biāo)的速度快、精度高?;谧儞Q域的方法還可以過濾頻域中特定頻率的信號(hào),使其具有良好的抗噪性。但當(dāng)匹配目標(biāo)發(fā)生重疊、部分缺失、局部光照變化或非線性變化的情況下,上述兩種方法的匹配效果較差。

      基于邊界的模板匹配算法的核心是圖像邊緣檢測(cè)。邊緣檢測(cè)的方法很多,但主要分為兩大類:基于搜索的邊緣檢測(cè)方法和基于零交叉的邊緣檢測(cè)方法。基于搜索的方法檢測(cè)邊緣,首先計(jì)算邊緣強(qiáng)度的度量,通常是一階導(dǎo)數(shù)表達(dá)式,如梯度大小;然后估計(jì)邊緣的局部方向,如梯度方向;最后在圖像上使用X方向和Y方向上的梯度或?qū)?shù)來(lái)匹配?;谶吔绲哪0迤ヅ渌惴ㄖ饕瑑蓚€(gè)步驟:(1)創(chuàng)建基于邊緣的模型;(2)使用模型在圖像中搜索。

      1.1 創(chuàng)建邊緣模板

      (1)計(jì)算圖像梯度

      為了計(jì)算圖像中每個(gè)像素點(diǎn)的梯度大小和梯度方向,本文采用了水平濾波器與垂直濾波器來(lái)檢測(cè)圖像中像素值變化劇烈的像素點(diǎn),濾波器的構(gòu)造方式如圖1所示。定義待檢測(cè)的點(diǎn)在圖片中的像素坐標(biāo)為(x,y),該像素點(diǎn)點(diǎn)坐標(biāo)的像素值為 f(x,y),水平與垂直濾波器的輸出值 Gx、Gy按式(1)與式(2)進(jìn)行計(jì)算:

      圖1 濾波器構(gòu)造示意圖

      像素點(diǎn)(x,y)的梯度大小 Mag與梯度方向 Dir可由式(3)與式(4)進(jìn)行計(jì)算:

      (2)梯度增強(qiáng)與梯度歸一化

      為了更好地獲取圖像的邊緣信息,計(jì)算每個(gè)像素點(diǎn)的梯度信息后,可對(duì)每個(gè)像素點(diǎn)的梯度值進(jìn)行增強(qiáng)與歸一化處理。

      定義像素點(diǎn)(x,y)梯度方向上左右兩側(cè)像素點(diǎn)的 梯 度 值 為 LeftMag(x,y)、RightMag(x,y), 所 有 像 素點(diǎn)中的最大梯度值記為 MaxMag,像素點(diǎn)(x,y)的梯度值 Mag(x,y)的增強(qiáng)方式按式(5)處理:

      利用式(5)對(duì)所有像素點(diǎn)的梯度值進(jìn)行處理后,邊緣像素點(diǎn)的梯度值被歸一化到了255個(gè)強(qiáng)度等級(jí),而從式(5)可知,確定為非邊緣像素點(diǎn)的梯度強(qiáng)度將直接被清零。根據(jù)上述處理方式,得到了歸一化圖像梯度圖 nmsEdges,nmsEdges中任意一點(diǎn)的表達(dá)形式如式(6)所示:

      nmsEdges(x,y)?width×height×Mag*(x,y) (6)式(6)中,width表示圖像的像素寬度,height表示圖像的像素高度,Mag*(x,y)為像素點(diǎn)(x,y)處的增強(qiáng)結(jié)果,由此可見,歸一化圖像梯度圖nmsEdges本質(zhì)上為一個(gè)三維矩陣。

      (3)滯后閾值處理

      在完成nmsEdges的計(jì)算之后,通過滯后閾值處理可以獲得圖像最終的真實(shí)邊緣像素點(diǎn)集合。滯后閾值處理針對(duì)模糊邊緣進(jìn)行像素領(lǐng)域判斷,找到模糊邊緣的分界邊緣,并篩選真實(shí)邊緣點(diǎn),排除假邊緣點(diǎn)。

      定義最大梯度對(duì)比度maxContrast與最小梯度對(duì)比度 minContrast。 當(dāng) 像 素 點(diǎn)(x,y)處 的 Mag*(x,y)>maxContrast時(shí),該像素點(diǎn)的最終邊緣梯度值設(shè)定為1/Mag(x,y)。 當(dāng) maxContrast>Mag*(x,y)>minContrast時(shí),如果該點(diǎn)周圍八鄰域的歸一化梯度值均小于maxContrast,則直 接將該 點(diǎn)的梯度值 Mag(x,y)計(jì) 為0,從而實(shí)現(xiàn)對(duì)模糊邊緣的邊界判定,同理,如果該點(diǎn)的 minContrast>Mag*(x,y),則 認(rèn)為 該 點(diǎn)為 假 邊緣點(diǎn),直接將其邊緣梯度設(shè)定值計(jì)0。至此,對(duì)圖像邊緣的提取完畢,邊緣提取結(jié)果示意圖如圖2所示。

      圖2 對(duì)邊界的提取效果

      1.2 基于邊緣的模板匹配

      在匹配的過程中,使用相似度Score來(lái)衡量模板與搜索圖中目標(biāo)的匹配程度。對(duì)于搜索圖中像素點(diǎn)(u,v)處與模板的相似度 Scoreuv使用式(7)進(jìn)行計(jì)算:

      式(7)中,n表示模板中像素點(diǎn)的總個(gè)數(shù),如果搜索圖中某個(gè)位置的Scoreuv為1,則說明該位置的邊緣圖案與模板邊緣完全匹配。圖2(b)所展示的邊緣模板進(jìn)行匹配的效果如圖3所示。

      圖3 邊緣模板的匹配效果

      為了加快匹配速度,可在總數(shù)為n的模板像素點(diǎn)中選取m個(gè)像素點(diǎn)參與相似度的計(jì)算,從而使得匹配過程不需要所有像素點(diǎn)都參與其中,以此提高模板匹配的速度。

      而對(duì)m個(gè)點(diǎn)的選取原則采用式(8)的選取方式,其中Scorem表示搜索圖像素點(diǎn)中的第m個(gè)點(diǎn)的相似度值,如果第m個(gè)點(diǎn)不滿足式(8)所述條件,則排除該點(diǎn)。g表示算法搜索的貪婪度,取值范圍為(0,1),貪婪度控制了點(diǎn)的利用率,當(dāng)g設(shè)置為0時(shí),所有相關(guān)點(diǎn)都需要參與到匹配計(jì)算中。g越大則表示匹配過程利用的點(diǎn)越少,雖然可以提高算法的運(yùn)行速度,但是會(huì)使得算法的魯棒性下降。Scoremin則表示最低相似度值,為算法的設(shè)置參數(shù)。

      2 OCR數(shù)字識(shí)別網(wǎng)絡(luò)的構(gòu)建

      對(duì)于文檔自動(dòng)歸檔的應(yīng)用場(chǎng)景,其本質(zhì)上可以將其定義為一個(gè)手寫體數(shù)字字符識(shí)別問題,文檔中主要出現(xiàn)的是工業(yè)字符,相對(duì)于手寫體識(shí)別,其識(shí)別難度更低。因此,本文使用了LeNet網(wǎng)絡(luò)架構(gòu)來(lái)構(gòu)建本文的文檔字符數(shù)字識(shí)別模型,該網(wǎng)絡(luò)在銀行票據(jù)手寫體字符識(shí)別得到了廣泛的應(yīng)用。LeNet的網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示。

      圖4 LeNet網(wǎng)絡(luò)結(jié)構(gòu)

      從圖4可知,LeNet網(wǎng)絡(luò)總共由輸入層、輸出層、兩層卷積層、兩層池化層以及兩層全連接層組成。LeNet網(wǎng)絡(luò)的核心就是卷積操作,圖5為圖像卷積運(yùn)算的基本流程。其中圖5(a)所示原圖像尺寸為8×8,圖像左半部分為深色,右半部分為淺色。Gi,j為圖 5(b)所示的 3×3卷積核,將其沿著原圖像長(zhǎng)、寬方向進(jìn)行卷積運(yùn)算,滑動(dòng)步長(zhǎng)為1。卷積運(yùn)算前,在原圖像上進(jìn)行一定程度的像素填充延拓,如圖5(b)左圖,使得輸出圖像仍然為8×8,所得輸出特征圖如圖5(b)右圖所示。

      原圖像經(jīng)過卷積運(yùn)算后特征圖中顯現(xiàn)出原圖像的交界線。從圖5可見,圖5中的卷積核與上一節(jié)中的水平卷積核類似,其對(duì)邊界敏感,如果對(duì)同一張圖片采用不同的卷積核進(jìn)行卷積運(yùn)算,就可以提取圖像中的高級(jí)抽象特征,且卷積操作沿著圖像平面滑動(dòng),其對(duì)特征的感受能力不隨其位置的變化而改變,即具有平移不變性。

      圖5 卷積運(yùn)算流程

      池化層對(duì)輸入進(jìn)行池化操作,卷積操作可稱為下采樣,卷積過后,圖像尺寸變小,而池化操作則是進(jìn)行上采樣,池化后圖像尺寸變大。與卷積運(yùn)算不同,池化的目的不是提取高級(jí)抽象特征,而是通過組合高級(jí)抽象特征以再現(xiàn)低級(jí)的具象特征,因此每個(gè)池化操作都對(duì)應(yīng)一個(gè)卷積操作,它們之間的計(jì)算參數(shù)具有相關(guān)性。卷積與池化的對(duì)應(yīng)計(jì)算流程如圖6所示。

      圖6 池化操作與卷積操作

      通過卷積/池化操作,可以容易地區(qū)分?jǐn)?shù)字字符,如字符數(shù)字“1”在卷積池化后具有直線特征而不存在曲線特征,而數(shù)字字符“3”則不存在直線特征,有且僅有曲線特征。最終將特征集合輸入LeNet網(wǎng)絡(luò)的全連接層,使得LeNet能夠輕松勝任OCR數(shù)字字符識(shí)別任務(wù)。

      3 實(shí)驗(yàn)驗(yàn)證

      本文的報(bào)告自動(dòng)歸檔系統(tǒng)的運(yùn)行過程主要分為兩步:(1)識(shí)別“報(bào)告編號(hào)”關(guān)鍵字,并定位其在圖像中的位置與角度;(2)根據(jù) ROI定位結(jié)果,將識(shí)別區(qū)域進(jìn)行摳圖,在將摳圖后的圖片區(qū)域處理后輸入到LeNet網(wǎng)絡(luò),最終得到報(bào)告編號(hào)的OCR識(shí)別結(jié)果。

      3.1 ROI區(qū)域的定位

      通過對(duì)報(bào)告圖片的仔細(xì)分析,發(fā)現(xiàn)報(bào)告中可能存在干擾 ROI區(qū)域定位的要素,即“樣品編號(hào)”,其與“報(bào)告編號(hào)”都存在“編號(hào)”這一共同要素,如圖7所示。因此在生成邊緣模板時(shí),盡量選擇清晰的圖片生成模板。

      圖7 生成邊緣模板

      由于存在共同要素“編號(hào)”,因此模板匹配的Scoremin不能低于0.5。與此同時(shí),本文的應(yīng)用背景為報(bào)告自動(dòng)歸檔,從而代替人工,以節(jié)約人力成本。不同于高速生產(chǎn)線追求高速的識(shí)別,本文的應(yīng)用背景更加注重算法的安全性。本文抽取了200份報(bào)告進(jìn)行模板匹配測(cè)試,每張報(bào)告的圖像尺寸為1 240×1 753,在Scoremin=0.7的基礎(chǔ)上,對(duì)貪婪度g的設(shè)置進(jìn)行了測(cè)試,測(cè)試結(jié)果如圖8所示。

      在圖8中,正確定位率是指對(duì)“報(bào)告編號(hào)”的定位準(zhǔn)確率。誤定位率則是匹配結(jié)果的得分高于Scoremin,但匹配位置錯(cuò)誤。無(wú)定位率值匹配結(jié)果低于Scoremin,因此沒有定位輸出結(jié)果。當(dāng)貪婪度g=0.1時(shí),表明模板的大部分像素點(diǎn)都參與到了匹配任務(wù)中,200份報(bào)告的平均匹配時(shí)間為1.965 s,匹配準(zhǔn)確率為99%,沒有發(fā)生誤定位;當(dāng)設(shè)置g=0.7時(shí),匹配耗時(shí)為 0.034 s,匹配準(zhǔn)確率僅為54.5%,誤定位率高達(dá)45.25%。

      圖8 不同貪婪度下的模板匹配結(jié)果

      在設(shè)置 Scoremin=0.7,g=0.1的情況下,對(duì)三種報(bào)告的模板匹配結(jié)果如圖9所示?;谶吘壍哪0迤ヅ渌惴ǎㄟ^設(shè)置低貪婪度與高相似度,可以準(zhǔn)確地匹配搜索圖中的目標(biāo)圖形,且能較好地適應(yīng)匹配目標(biāo)的變形與旋轉(zhuǎn),為后期的OCR數(shù)字字符識(shí)別提供了基礎(chǔ)。

      圖9 模板的匹配效果

      3.2 OCR數(shù)字字符識(shí)別

      本文總共對(duì)報(bào)告中0~9的數(shù)字字符進(jìn)行了截取,每種字符截取了80個(gè)樣本,85%的樣本作為卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練集,10%的樣本用于測(cè)試集,5%的樣本用于過擬合測(cè)試集。訓(xùn)練終止迭代周期為1 000,初始學(xué)習(xí)率為 0.001,截止誤差為0.000 1。圖10展示了對(duì)LeNet網(wǎng)絡(luò)的訓(xùn)練過程,前100個(gè)訓(xùn)練周期內(nèi)網(wǎng)絡(luò)逐漸收斂,100~300訓(xùn)練周期內(nèi)出現(xiàn)小幅震蕩,最終于480訓(xùn)練周期達(dá)到迭代停止條件,訓(xùn)練誤差達(dá)到最低,過擬合誤差開始上升,此時(shí)的訓(xùn)練錯(cuò)誤率僅為1%。

      圖10 卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過程

      對(duì)于網(wǎng)絡(luò)的輸入圖像,均歸一化到了 32×32維的矩陣,輸出結(jié)果為 10維列向量,表示 0~9。對(duì)網(wǎng)絡(luò)輸出的可視化展示如圖11所示,本文通過LeNet網(wǎng)絡(luò)對(duì)100份報(bào)告共900個(gè)字符進(jìn)行數(shù)字字符識(shí)別,實(shí)驗(yàn)結(jié)果顯示,LeNet網(wǎng)絡(luò)對(duì)數(shù)字字符的正確識(shí)別率達(dá)到了96.77%,結(jié)合模板匹配算法,整個(gè)系統(tǒng)的綜合識(shí)別率為95.8%。

      圖11 OCR數(shù)字字符識(shí)別可視化

      4 結(jié)論

      本文所構(gòu)建的報(bào)告自動(dòng)歸檔系統(tǒng)可以節(jié)約大量人力成本,減少了人員手動(dòng)錄入時(shí)間,雖然存在錯(cuò)誤識(shí)別的情況,但檢測(cè)人員只需要對(duì)重命名的文檔進(jìn)行檢查,極大地提高了報(bào)告歸檔效率。通過對(duì)識(shí)別錯(cuò)誤的報(bào)告進(jìn)行分析,發(fā)現(xiàn)識(shí)別錯(cuò)誤的情況多出現(xiàn)在印刷不均勻的數(shù)字字符上,后續(xù)工作可不斷收集錯(cuò)誤報(bào)告的字符,對(duì)網(wǎng)絡(luò)模型進(jìn)行增量式訓(xùn)練,以進(jìn)一步提升網(wǎng)絡(luò)的識(shí)別正確率。

      猜你喜歡
      字符識(shí)別字符像素點(diǎn)
      尋找更強(qiáng)的字符映射管理器
      字符代表幾
      一種USB接口字符液晶控制器設(shè)計(jì)
      電子制作(2019年19期)2019-11-23 08:41:50
      消失的殖民村莊和神秘字符
      基于canvas的前端數(shù)據(jù)加密
      一種改進(jìn)深度學(xué)習(xí)網(wǎng)絡(luò)結(jié)構(gòu)的英文字符識(shí)別
      基于逐像素點(diǎn)深度卷積網(wǎng)絡(luò)分割模型的上皮和間質(zhì)組織分割
      儀表字符識(shí)別中的圖像處理算法研究
      基于CUDA和深度置信網(wǎng)絡(luò)的手寫字符識(shí)別
      基于Node-Cell結(jié)構(gòu)的HEVC幀內(nèi)編碼
      义乌市| 留坝县| 西林县| 靖州| 新竹县| 镇赉县| 汽车| 延川县| 乌什县| 朔州市| 龙井市| 繁昌县| 颍上县| 庆元县| 蓬莱市| 三门县| 新沂市| 延吉市| 手机| 双柏县| 珠海市| 灵山县| 西贡区| 三穗县| 双峰县| 蓬溪县| 原阳县| 漳州市| 措勤县| 大方县| 高密市| 叶城县| 卢龙县| 绥芬河市| 静安区| 陈巴尔虎旗| 常熟市| 镇坪县| 陵川县| 灌南县| 子洲县|