張楊
摘要:文本檢測作為新時代的產(chǎn)物,對于計算機視覺識別具有良好的應(yīng)用效果。隨著我國計算機領(lǐng)域相關(guān)研究工作的不斷深入,神經(jīng)網(wǎng)絡(luò)的場景文本識別的精度以及質(zhì)量也在不斷提升。場景文本識別能夠應(yīng)用到諸多領(lǐng)域中,并且發(fā)揮出重要的作用?;诖耍疚闹饕槍ι窠?jīng)網(wǎng)絡(luò)的場景文本識別展開研究,僅供參考。
關(guān)鍵詞:神經(jīng)網(wǎng)絡(luò);場景文本識別;計算機技術(shù)
中圖分類號:TP391.41文獻標識碼:A文章編號:1672-9129(2020)07-0135-01
Abstract:Text detection, as a product of the new era, has a good application effect for computer vision recognition. With the deepening of relevant research in the field of computer in China, the accuracy and quality of scene text recognition of neural network are also improving. Scene text recognition can be applied in many fields and plays an important role. Based on this, this paper mainly studies the scene text recognition of neural network for reference only.
Key words:neural network;Scene text recognition;Computer technology
1引言
場景文本檢測技術(shù)是科技信息迅速發(fā)展的產(chǎn)物,場景文本識別具有一定的真實性以及可靠性,特別是近年來隨著我國計算機視覺領(lǐng)域的研究不斷深入,場景文本識別已經(jīng)成為計算機領(lǐng)域的一項熱門研究課題。文本作為一種符號,也是一種特殊的視覺信息[1]。眾所周知,文本不僅僅具備顏色、紋理等特質(zhì),與此同時,文本還具備計算機可供識別的基本特征。此外,本文還具有針對性的、目的明確的語義信息。也就是說,文本識別在計算機領(lǐng)域中的應(yīng)用范圍極廣。對此,本文主要研究基于神經(jīng)網(wǎng)絡(luò)場景文本識別,希望可以為相關(guān)研究者帶來理論幫助。
2基于卷積神經(jīng)網(wǎng)絡(luò)的文本檢測算法
2.1 文本檢測網(wǎng)絡(luò)結(jié)構(gòu)。本文中所選擇文本檢測神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)為卷積神經(jīng)網(wǎng)絡(luò),該網(wǎng)絡(luò)共有27層神經(jīng)層。在這其中,前部分的15層繼承于原網(wǎng)絡(luò)結(jié)構(gòu),但對conv4-3層進行了保留。并且再次接觸時,又額外增加了余下的神經(jīng)層,其中還包括3個池化層。隨著卷積層尺寸不斷變小,卷積層的范圍也在逐漸減小,這樣就能夠?qū)Ω鱾€尺度的檢測框進行預(yù)測和分析。在此過程中,文本框?qū)虞敵鰹槊總€默認框,并且能夠?qū)@些邊界框的數(shù)值進行預(yù)測。
2.2 損失函數(shù)。文本檢測過程中,一般包括兩個基本的訓練任務(wù)。既回歸任務(wù)以及分類任務(wù)兩大類[2-3]。其中,回歸任務(wù)一般針對存在默認值的文本識別工作中,用于預(yù)測默認框位置的偏移值。借助回歸任務(wù),所得到的文本框檢測結(jié)果更加真實,更加貼近實際的數(shù)值?;貧w任務(wù)所輸出的多維向量,能夠代表平移縮放后的偏移值。其中,分類任務(wù)主要用于對最終默認的文本框?qū)傩赃M行確認。分類任務(wù)輸出的數(shù)值能夠表示文本的概率值。因此,最終采取文本檢測網(wǎng)絡(luò)的損失函數(shù)能夠分別代表位置的回歸損失函數(shù)、置信度的分類損失函數(shù)。通過對損失函數(shù)進行分析,而后能夠有針對性的展開檢測任務(wù),從而實現(xiàn)文本識別的目的。
2.3 非極大值抑制。在處理完檢測任務(wù)后,為了能夠進一步提升文本識別的準確度,還需要借助非極大值抑制對其展開進一步的搜索。非極大值抑制的目的是為了能夠有效的消除冗余的檢測框。與此同時,借助非極大值抑制,還能夠?qū)ψ罴训臋z測框進行尋找,實現(xiàn)最佳檢測的目的。在非極大值抑制過程中。首先,將檢測結(jié)果按照置信度得分進行排序。排序的目的是為了確保非極大值抑制的公平性,根據(jù)選中概率最大的一層,作為最終的檢測結(jié)果。而后,再將余下的檢測框與所選中的檢測框進行對比。通過對比分析其不同點,若IOU大于某一設(shè)定的閾值,則能夠證明,當前所選中的檢測框中的得分最高檢測框包含其中。而后,將多余的檢測框進行刪除,僅對第一個檢測框予以保留。在全部刪除完成后,從未處理的檢測框中繼續(xù)選擇概率最大的檢測框。通過進行反復(fù)的檢測、刪除,最終直到全部的檢測框都篩選完成,只保留最終的檢測框結(jié)果。
3基于神經(jīng)網(wǎng)絡(luò)的場景文本識別實驗
3.1 數(shù)據(jù)集。為了能夠進一步驗證基于神經(jīng)網(wǎng)絡(luò)的場景文本識別,本文中對此展開了實驗。首先,應(yīng)對實驗的數(shù)據(jù)集進行確認。本文主要以足球場景的文本檢測數(shù)據(jù)集作為實驗的數(shù)據(jù)集。針對某足球場內(nèi)舉辦的足球賽場景,對場內(nèi)進行文本標注。通過對足球場內(nèi)部的全部信息予以標注,并且分別對所標注的文本屬性進行記錄,包括文本的信息、坐標、內(nèi)容等等。為了能夠更好的區(qū)分文本,本文主要對文本的坐標符號進行色彩分類,生成相應(yīng)的xml標簽文件。在對場內(nèi)的全部本文進行標注完成后,一共得到2000張圖片,共包含45231個文本區(qū)域。針對該數(shù)據(jù)集中的全部樣本進行隨機選擇,最終選定了2500張樣本,作為本次實驗所用的訓練數(shù)據(jù),并選定800張樣本作為測試數(shù)據(jù),作為算法的驗證。
3.2 實驗細節(jié)以及最終結(jié)果。在實驗過程中,通過對以上的樣本進行檢測框的選取,網(wǎng)絡(luò)輸入采用400×400 大小的圖片,由RGB通道進行輸入,將之傳送至電腦終端。整個訓練的過程主要借助模型中的數(shù)據(jù)參數(shù),對網(wǎng)絡(luò)這部分卷積層進行初始化。初始化的目的是為了能夠確保最終實驗結(jié)果不受到其他因素的影響,從而保證最終的實驗結(jié)果真實可靠。對其采用隨機梯度下降法的方式進行訓練。為了更加直觀的看到效果,選擇借助網(wǎng)絡(luò)對其進行優(yōu)化學習。學習率初始化設(shè)置為0.001,動量參數(shù)為0.8。針對學習率的更新,主要采取衰減法進行實現(xiàn)。整個實驗過程全部在Windows系統(tǒng)內(nèi)完成。編程實驗主要借助Python軟件進行。通過對實驗的指標進行分類,并且對其采取回歸分析的方式,分別對數(shù)字文本和字母文本的召回率進行評估。最終的文本檢測內(nèi)容與訓練的數(shù)據(jù)并不重復(fù)。通過展開此次實驗?zāi)軌蚩闯?,基于神?jīng)網(wǎng)絡(luò)的場景文本識別具有良好的應(yīng)用效果,不僅能夠?qū)ψ闱蛸愂碌任捏w活動進行識別分析,還能夠用于一些監(jiān)控、安檢領(lǐng)域中,都能夠發(fā)揮良好的效果,具有一定的推廣意義。
4結(jié)論
綜上所述,為了能夠進一步驗證場景文本識別的應(yīng)用效果,本文主要借助卷積神經(jīng)網(wǎng)絡(luò),對某足球賽事的場景進行了文本識別檢測。借助網(wǎng)絡(luò)技術(shù),能夠?qū)ψ闱驁鰞?nèi)部的文本進行全部的檢測以及標號。通過采取回歸分析,能夠?qū)ψ罱K篩選得到的文本檢測框進行篩選,通過制作賽事場景的數(shù)據(jù)集,能夠更好的對其進行實驗和測試。研究證明,基于神經(jīng)網(wǎng)絡(luò)的場景文本識別應(yīng)用范圍極廣,具有良好的推廣價值。
參考文獻:
[1]王光軍. 基于神經(jīng)網(wǎng)絡(luò)的自然場景中的字符識別算法的研究與實現(xiàn)[D].電子科技大學,2020.
[2]李穎. 基于BERT-DPCNN的垃圾彈幕識別改進及應(yīng)用[D].上海師范大學,2020.
[3]陳澤瀛.一種基于自適應(yīng)非極大值抑制的文本檢測算法[J].數(shù)字技術(shù)與應(yīng)用,2020,38(03):117-120.