楊鴻 廖浩然 李江 廖潔鋒
摘要:作為文本識別的重要組成部分,它在現(xiàn)實生活中的應用越來越廣泛。本文主要研究了圖像文本識別方法、傳統(tǒng)方法和深度學習方法,并利用Matlab進行了識別。因此,我們對圖像識別的研究有了更深的認識。字符識別技術是利用計算機自動識別和處理紙張上的字符,并將它們轉(zhuǎn)換為可識別信息的技術。由于它的廣泛應用,這項技術正變得越來越重要。在現(xiàn)代科學研究、軍事技術、工農(nóng)業(yè)生產(chǎn)、醫(yī)學、氣象天文學等諸多領域,文本識別技術解決了許多實際問題。本文主要考慮和研究了基于Matlab的圖像文本識別方法,能夠快速準確地識別輸入圖像,提取圖像中的高級語義信息。了解圖像文本識別的原理以及高級語義圖像的分類和檢索具有重要的研究價值。
關鍵詞:MATLAB;文字識別;字符分割
一、設計背景
隨著計算機科學的飛速發(fā)展,基于圖像的多媒體信息迅速成為重要的信息媒介。在圖像中,文本信息包含豐富的高級語義信息。提取這些詞對于理解、索引和搜索圖像的高級語義非常有幫助。文本提取可以分為兩類:動態(tài)圖像文本提取和靜態(tài)圖像文本提取。其中,靜態(tài)圖像文本提取是動態(tài)圖像文本提取的基礎,具有廣泛的應用范圍和基礎研究。因此,本文主要討論了靜止圖像的文本提取技術。靜態(tài)圖像中的人物可以分為兩類:一類是圖像中場景中的人物,稱為場景人物;另一種是在影像后期制作中加入文字,稱為人工文字,如圖所示。由于文本的位置、大小、顏色和形狀的隨機性,通常很難對文本進行檢測和提取。然而,人工漢字在字體上比較標準化,尺寸有限,容易識別。它們比前者更容易檢測和提取,并且因為它們能夠解釋和總結(jié)圖像的內(nèi)容,所以它們適合于在圖像中索引和搜索關鍵詞。研究圖像中的場景特征比較困難,這方面的研究成果和文獻也不是很豐富。本文主要討論了圖像中人工特征的提取技術。
人們在日常生活和工作中需要處理大量的文本信息,這是一項勞動密集型的工作。然而,通過探索文本識別方法,我們可以提高工作效率,降低勞動強度。因此,文本識別技術發(fā)展迅速。字符采集、信息分析與處理、信息分類與識別是字符識別技術的主要步驟。信息采集是將紙張上的文字信息轉(zhuǎn)化為電流信號,然后自動輸入計算機。信息的分析和處理主要包括對電信號的去噪、偏移、厚度和大小的處理。信息分類識別是對處理后的文本信息進行分類識別并輸出識別結(jié)果。利用Matlab軟件編寫Matlab語言進行字符識別和處理,闡述了字符識別的原理,用于文獻檢索、郵件和包裹分揀、商品代碼識別、商品倉庫管理等。
字符識別。識別的問題是從僅包含單詞的圖像中識別機器可讀的字母序列。該問題的難點之一是輸出空間是可變長度序列。在一般的圖像分類中,輸出空間的維數(shù)是固定的。此外,諸如字體、照明、顏色和比例等問題也使得識別變得困難。
字符識別活躍在生活的各個角落,如照片翻譯、手機照片識別等。,大大方便了我們的日常生活,提高了我們的工作效率。相信隨著人工智能(AI)的進一步發(fā)展,圖像-文本識別技術將會有更廣闊的應用前景。工業(yè)圖像的字符識別也已經(jīng)滲透到我們的日常生活中。與騰訊的OCR字符識別相比,它已經(jīng)應用于現(xiàn)實生活的很多方面,如身份證識別、名片識別、快遞號碼識別等。
二、總體方案設計
1.數(shù)字圖像預處理
由于采集到的圖像數(shù)據(jù)包含了大量的信息,不需要進行計量檢定。為了提取有用的真實信息,增強相關信息的可檢測性,最大限度地簡化數(shù)據(jù),需要進行預處理。首先,為了去除大量雜亂的信息,需要去噪和濾波;由于數(shù)字的識別與顏色無關,如果是彩色照片,則需要先將其變灰,然后進行二值化。此外,它還涉及位置分割和圖片大小歸一化。
2、字符分割
分割圖片時,主要根據(jù)兩種情況進行劃分。一個是灰度是相同的。如果圖片中存在一些平衡的灰度值,并且一些灰度值具有相同的平衡背景,則可以通過設置適當?shù)拈撝祦磉_到切割目的。另一方面,如果圖像中的物體背景不能通過灰度值來區(qū)分,但是通過一些特征變化可以將屬性值轉(zhuǎn)換成灰度值,那么結(jié)合閾值設置的方法可以對圖像進行裁剪。
3、特征提取
圖像為二維信號,使用全部圖像數(shù)據(jù)進行直接分類是不可取的,因此,一般都通過某種特征提取算法,將圖像表示為一個長度為n的向量{x1,x2,...,xn},對應于n維空間中的一個點,特征提取之前需要將分割得到的不同子圖像規(guī)格化為相同的大小。數(shù)字識別領域有兩種特征提取算法。基于統(tǒng)計的特征提取和基于結(jié)構(gòu)的特征提取。前者包括點密度、矩和特征區(qū)域,后者是指與輪廓有關的信息,如圓、端點、拐點等,反映了數(shù)字的幾何結(jié)構(gòu),但抗干擾能力較弱。
4、選取分類器模型
最小距離分類器:選用筆畫密度總長度特征來進行第一層的粗分類。在這種方法中, 被識別模式與所屬模式類別樣本的距離最小。假定c個類別代表模式的特征向量用R1, …, Rc表示, x是被識別模式的特征向量, |x-Ri|是x與Ri (i=1, 2, …, c) 之間的距離,如果|x-Ri|最小, 則把x分為第i類。最近分類器:結(jié)合網(wǎng)格特征和方向特征完成第二層的分類和匹配。最近鄰分類器是基于最小距離分類的擴展,它以訓練集中的每個樣本為準則,在訓練集中找到與待分類樣本最近的樣本,然后根據(jù)該樣本進行分類。
參考文獻
[1]張華萍,黃辰.文字識別技術研究[J].物聯(lián)網(wǎng)技術,2018,8(08):17-19.
[2]田瑤琳.基于RGB分割的含數(shù)字水印圖像的文字識別[J].福建電腦,2019,35(04):62-64.
[3]張國林.基于漢字識別的碎紙片拼接復原模型研究[J].科技廣場,2014(01):62-64.
[4]唐玲,劉磊.基于matlab的計量手寫體數(shù)字自動識別[J].工業(yè)計量,2020,30(01):43-45.
500783