汪洪濤,李 魁,潘 昊,丁 力
(1.武漢理工大學(xué) 網(wǎng)絡(luò)信息中心,湖北 武漢 430070;2.武漢理工大學(xué) 計(jì)算機(jī)學(xué)院,湖北 武漢 430070;3.武漢尚賽光電科技有限公司,湖北 武漢 430206)
對(duì)自然場(chǎng)景下圖片中包含的文本識(shí)別,可以廣泛應(yīng)用于無(wú)人駕駛中路牌信息的理解、車(chē)牌的檢測(cè)識(shí)別、圖片廣告過(guò)濾、場(chǎng)景理解、商品識(shí)別、票據(jù)識(shí)別等領(lǐng)域。與傳統(tǒng)的高質(zhì)量文檔圖像(optical character recognition,OCR)[1]相比,自然場(chǎng)景下的圖片脫離了圖片場(chǎng)景和質(zhì)量的束縛,面臨著復(fù)雜背景的干擾、文字的傾斜與形變、字體大小不一、字體格式多樣、多方向文本等眾多挑戰(zhàn)。從傳統(tǒng)的OCR文本識(shí)別到智能駕駛中街道交通標(biāo)志識(shí)別,兩者具有一定的相似性,但自然場(chǎng)景下的文本檢測(cè)與識(shí)別面臨著更大的困難。雖然傳統(tǒng)OCR輸入的圖片具有清晰度高、文本區(qū)域位置明顯、文字風(fēng)格尺寸一致等特點(diǎn),但是在自然場(chǎng)景下圖片的文字檢測(cè)和識(shí)別依舊面臨著較大的可變形與差異性,而且圖片拍攝的角度變化大、不具有可控性,導(dǎo)致文字產(chǎn)生長(zhǎng)寬比不一、大小差異大的形變。正是由于不可控的、復(fù)雜多變的影響因素,處理自然場(chǎng)景下的圖片文字信息時(shí),需要先檢測(cè)文本區(qū)域位置,再對(duì)文本區(qū)域內(nèi)容進(jìn)行識(shí)別。作為識(shí)別過(guò)程中的第一步,文本檢測(cè)的效果對(duì)文本識(shí)別的最終結(jié)果起到了至關(guān)重要的影響。
傳統(tǒng)文本檢測(cè)方法是通過(guò)手工設(shè)計(jì)的特征進(jìn)行分類(lèi),該方法受限于人工設(shè)計(jì)的特征分類(lèi)能力,因此文本檢測(cè)效果在相當(dāng)長(zhǎng)的一段時(shí)間內(nèi)沒(méi)有取得重要突破。近年來(lái),隨著深度學(xué)習(xí)理論的不斷發(fā)展,神經(jīng)網(wǎng)絡(luò)在各種計(jì)算機(jī)視覺(jué)任務(wù)中得到了廣泛應(yīng)用,利用深度神經(jīng)網(wǎng)絡(luò)來(lái)進(jìn)行文本檢測(cè)與識(shí)別成為主流方向。與傳統(tǒng)手工設(shè)計(jì)特征提取然后分類(lèi)的框架不同,深度學(xué)習(xí)通過(guò)中間隱藏層自動(dòng)學(xué)習(xí)特征,隨著卷積層的疊加,低層特征組合形成更加抽象的高層特征來(lái)進(jìn)行分類(lèi),進(jìn)而使計(jì)算機(jī)自動(dòng)地學(xué)習(xí)相關(guān)特征,避免了繁瑣且低效的手工特征選擇。此外,深度學(xué)習(xí)的自動(dòng)學(xué)習(xí)算法是多層表達(dá)的復(fù)雜算法,其自動(dòng)提取的分類(lèi)特征是由低層次特征組合而來(lái)的高層次特征。在自然場(chǎng)景文本檢測(cè)領(lǐng)域,也相繼出現(xiàn)許多基于深度學(xué)習(xí)的方法[2],這些方法通過(guò)深度學(xué)習(xí)網(wǎng)絡(luò)模型自動(dòng)獲取文本特征,并依據(jù)這些特征對(duì)自然場(chǎng)景文本進(jìn)行檢測(cè),與傳統(tǒng)方法手工設(shè)計(jì)特征進(jìn)行檢測(cè)相比,基于深度學(xué)習(xí)的方法取得了令人矚目的成績(jī)。
隨著深度學(xué)習(xí)和卷積神經(jīng)網(wǎng)絡(luò)在文本檢測(cè)領(lǐng)域取得的成績(jī)愈加顯著,基于深度卷積神經(jīng)網(wǎng)絡(luò)的文本檢測(cè)方法在實(shí)際應(yīng)用中越來(lái)越普遍[3]。目前,在自然場(chǎng)景下有多種文本識(shí)別方法。
基于候選框的文本識(shí)別方法一般從Faster-RCNN[4](faster-recurrent convolutional neural networks)等目標(biāo)檢測(cè)方法出發(fā),通過(guò)anchor的密集采樣實(shí)現(xiàn)對(duì)目標(biāo)位置的檢測(cè)。如ZHONG等[5]提出了DeepText算法,對(duì)Faster-RCNN進(jìn)行改進(jìn)并用于文字檢測(cè),先用Inception-RPN提取候選的單詞區(qū)域,再利用文本檢測(cè)網(wǎng)絡(luò)過(guò)濾候選區(qū)域中的噪聲區(qū)域,最后對(duì)重疊區(qū)域進(jìn)行投票和非極大值抑制;LIU等[6]提出了DMPNet(deep matching prior network,),該方法為應(yīng)對(duì)自然場(chǎng)景文本多方位、透視失真,以及文本大小、顏色和尺度的變化,提出了改用緊湊的四邊形而非矩形的方法對(duì)文本區(qū)域進(jìn)行檢測(cè),同時(shí)提出一個(gè)光滑的損失函數(shù)對(duì)文本位置進(jìn)行回歸,比L1和L2損失函數(shù)具有更好的魯棒性和穩(wěn)定性。DENG等[7]提出了基于CRPN (cascade region proposal network)的多方向文本檢測(cè)方法,該方法不需要預(yù)先了解文本的形狀,而是通過(guò)基于頂點(diǎn)的CRPN來(lái)預(yù)測(cè)文本區(qū)域的位置。CRPN生成的候選框有幾何適應(yīng)性,因此對(duì)任意方向和各種長(zhǎng)寬比的文本區(qū)域具有較好的魯棒性。
基于圖像語(yǔ)義分割的識(shí)別方法是從全卷積神經(jīng)網(wǎng)絡(luò)的思想出發(fā),將文本區(qū)域視為一種類(lèi)別進(jìn)行像素級(jí)別的分類(lèi)。本質(zhì)上,它將文本檢測(cè)看作一種廣義上的圖像語(yǔ)義分割。此類(lèi)方法一般利用圖像語(yǔ)義分割中常用的全卷積網(wǎng)絡(luò)作為基本骨架,從而進(jìn)行像素級(jí)別的文本區(qū)域與分文本區(qū)域的標(biāo)注,同時(shí)對(duì)文本區(qū)域邊界框進(jìn)行回歸。HE等[8]提出了一種高性能的直接回歸文本區(qū)域位置的檢測(cè)算法DDRN,該算法通過(guò)回歸預(yù)測(cè)偏移量得到文本位置的邊界框。LYU等[9]提出了角點(diǎn)定位的文本檢測(cè)算法,該方法結(jié)合了物體檢測(cè)和語(yǔ)義分割這兩種方法的思想,針對(duì)文本排列方向不確定和文本區(qū)域長(zhǎng)寬比變化大的問(wèn)題,先檢測(cè)文本區(qū)域的角點(diǎn)位置,接著對(duì)角點(diǎn)位置進(jìn)行采樣和分組,進(jìn)而得到文本候選區(qū)域的邊框位置,然后利用全卷積神經(jīng)網(wǎng)絡(luò)對(duì)文本候選區(qū)域邊框按得分進(jìn)行排序,最終通過(guò)非極大值抑制處理得到檢測(cè)結(jié)果。
在傳統(tǒng)的深度卷積神經(jīng)網(wǎng)絡(luò)(deep convolutional neural networks, DCNN)[10]模型進(jìn)行文本識(shí)別時(shí),通常是使用標(biāo)記的字符圖像進(jìn)行訓(xùn)練,對(duì)于每一個(gè)字符有一個(gè)對(duì)應(yīng)的預(yù)測(cè)輸出,字符與字符之間沒(méi)有任何上下文關(guān)系,這種方法需要訓(xùn)練出一個(gè)強(qiáng)健的字符檢測(cè)器來(lái)識(shí)別每張圖片中出現(xiàn)的字符。還有一些方法是將字符圖像識(shí)別視作圖片分類(lèi)問(wèn)題,對(duì)于每一個(gè)圖片中出現(xiàn)的單詞,為其分配一個(gè)標(biāo)簽與之對(duì)應(yīng),會(huì)有超過(guò)9萬(wàn)個(gè)單詞的情況出現(xiàn)。這些方法對(duì)于序列對(duì)象的識(shí)別較難,如生活中常見(jiàn)的樂(lè)譜、文字、筆跡等,它們之間的組合方式復(fù)雜多變,數(shù)量龐大,基于DCNN的系統(tǒng)很難應(yīng)用在序列識(shí)別任務(wù)中。因此,SHI等[11]提出了CRNN(convolutional recurrent neural network,)模型,解決了可變長(zhǎng)度序列下的識(shí)別問(wèn)題,不僅適用于文本識(shí)別領(lǐng)域,還適用于其他的序列數(shù)據(jù)識(shí)別。
CRNN算法網(wǎng)絡(luò)結(jié)構(gòu)可以分解為卷積層、遞歸層和轉(zhuǎn)錄層3個(gè)部分,通過(guò)最底層的卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks, CNN)直接讀取輸入圖像,自動(dòng)從里面提取文本特征,在遞歸層主要是利用到了循環(huán)神經(jīng)網(wǎng)絡(luò)(reursive neural network, RNN)的“記憶”性,建立一個(gè)序列到序列的模型,對(duì)卷積層提取到的特征進(jìn)行預(yù)測(cè),之后輸出到頂部的轉(zhuǎn)錄層,轉(zhuǎn)錄層再將前面預(yù)測(cè)到的特征分布轉(zhuǎn)換為序列標(biāo)簽,通過(guò)連接時(shí)序分類(lèi)(connectionist temporal classification, CTC)解碼找出對(duì)應(yīng)標(biāo)簽概率最大的字符,然后進(jìn)行輸出[12]。通過(guò)CRNN網(wǎng)絡(luò)架構(gòu)進(jìn)行文本識(shí)別有以下優(yōu)點(diǎn):①可以不用逐個(gè)對(duì)字符進(jìn)行標(biāo)注,完全可以對(duì)整個(gè)序列文本進(jìn)行識(shí)別;②沒(méi)有序列長(zhǎng)度的限制,只需要輸入文本圖片和與之對(duì)應(yīng)的序列標(biāo)簽即可;③通過(guò)CNN和RNN可以直接由輸入圖片得到序列標(biāo)簽,無(wú)需進(jìn)行字符分割、尺度歸一化等數(shù)據(jù)預(yù)處理操作;④相比于其他文本識(shí)別模型,參數(shù)更少且有效。
由于傳統(tǒng)的DCNN模型只對(duì)固定維數(shù)的輸入和輸出進(jìn)行操作,無(wú)法應(yīng)用于可變長(zhǎng)度標(biāo)簽序列的文本識(shí)別問(wèn)題。筆者采用優(yōu)化的CRNN模型,對(duì)修正后的圖像進(jìn)行文本識(shí)別,同時(shí)對(duì)其中編碼器網(wǎng)絡(luò)架構(gòu)進(jìn)行優(yōu)化,替換了文本序列特征提取網(wǎng)絡(luò),將空間轉(zhuǎn)換網(wǎng)絡(luò)(spatial transformer network, STN)[13]與CRNN整合起來(lái),設(shè)計(jì)新的損失函數(shù),并對(duì)實(shí)驗(yàn)細(xì)節(jié)進(jìn)行了優(yōu)化。
在CRNN中,主要的網(wǎng)絡(luò)架構(gòu)是由編碼器網(wǎng)絡(luò)中CNN+RNN組成的,CNN網(wǎng)絡(luò)配置是基于VGG-VeryDeep體系結(jié)構(gòu)的,RNN使用的是雙向長(zhǎng)短時(shí)記憶循環(huán)神經(jīng)網(wǎng)絡(luò)(Bi-directional LSTM,BiLSTM),為了能夠適用于英文文本的識(shí)別,在第三層和第四層的最大池化層采用的是1×2的矩形窗口代替?zhèn)鹘y(tǒng)的2×2池化,這能產(chǎn)生更長(zhǎng)的特征序列以便識(shí)別更狹小的字符,如“L”和“l(fā)”這種字符。此外,第5層和第6層使用了批尺度歸一化層,用于緩解因CNN和RNN結(jié)合起來(lái)導(dǎo)致難以訓(xùn)練的問(wèn)題。在輸入網(wǎng)絡(luò)前,對(duì)圖像進(jìn)行預(yù)處理操作,將其縮放到相同的高度,輸入到CNN中提取特征序列,然后從中提取特征向量,根據(jù)CNN的平移不變性,特征向量的生成也是從左往右的,最后將生成的特征向輸入到RNN中進(jìn)行序列建模,繼續(xù)提取文本的序列特征,輸出特征分布,給后面的CTC進(jìn)行解碼。
編碼器接受輸入的圖片,通過(guò)CNN將之轉(zhuǎn)化為特征向量W×H×D的形式,在CNN中經(jīng)過(guò)卷積、池化和激活函數(shù)作用于圖像中某一區(qū)域,最后提取出來(lái)的特征圖在空間相對(duì)位置上是不變的,特征圖的每個(gè)列向量都對(duì)應(yīng)原圖像中的一塊矩形區(qū)域。
CRNN中CNN是基于VGG16結(jié)構(gòu)的,為了更好地提取文本特征,將CNN中基于VGG特征提取網(wǎng)絡(luò)替換為Resnet50,與STN中不同的是,這里對(duì)殘差塊進(jìn)行了優(yōu)化處理。在接近輸入和輸出之間有著更短的連接,可以使得CNN更為深入,且準(zhǔn)確有效,故在每個(gè)殘差單元引入了一個(gè)1×1的卷積,在它之后才是一個(gè)3×3的卷積,每個(gè)殘差塊中包含的殘差單元個(gè)數(shù)分別為3、4、6、6、3。Res_unit_0是對(duì)輸入圖像進(jìn)行處理的模塊,在之后兩個(gè)殘差塊中,采取步長(zhǎng)為2、padding為2對(duì)特征圖進(jìn)行采樣提取特征,最后3個(gè)殘差塊padding改為1,使得在水平上不降低分辨率,區(qū)分相鄰圖像之間的特征,具體配置如圖1所示。
圖1 殘差塊單元配置
訓(xùn)練過(guò)程中,引入STN后的模型基于Resnet50和VGG16的特征提取網(wǎng)絡(luò)上單詞識(shí)別精度變化,具體如圖2所示。由圖2可知,隨著訓(xùn)練次數(shù)的增加,二者識(shí)別精度上升趨勢(shì)基本一致,最后穩(wěn)定不變,Resnet50相對(duì)于VGG16單詞識(shí)別精度更高,故筆者選用Resnet50作為特征提取網(wǎng)絡(luò)。
圖2 Resnet50和VGG16單詞識(shí)別精度變化
CRNN中對(duì)于RNN的使用采取的是BiLSTM結(jié)構(gòu),并引入殘差連接的方式,可以讓上下文的信息傳遞到深層,通過(guò)將LSTM的起始輸入信息和輸出信息相加,構(gòu)成了雙向殘差長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(residual Bi-directional LSTM, resBiLSTM),使得在CNN中提取出來(lái)的特征能夠更好地和BiLSTM層結(jié)合,同時(shí)也能學(xué)習(xí)到復(fù)雜序列數(shù)據(jù)中的上下文信息。將CRNN網(wǎng)絡(luò)架構(gòu)(VGG16+BiLSTM)和改進(jìn)后的網(wǎng)絡(luò)架構(gòu)(Resnet50+resBiLSTM)在Synth90k和SynthText進(jìn)行訓(xùn)練。
利用CNN-resBiLSTM得到預(yù)測(cè)標(biāo)簽序列yt后,需要通過(guò)yt找到它所對(duì)應(yīng)的概率最高的輸出標(biāo)簽序列。一般在使用Softmax計(jì)算損失值時(shí),需要yt中每一個(gè)字符對(duì)應(yīng)著原圖像的位置和標(biāo)簽信息,但實(shí)際情況下由于樣本圖片中字體大小、樣式、背景等的復(fù)雜性,使得輸出的標(biāo)簽序列并不能一一對(duì)應(yīng)上每一個(gè)元素字符,因此使用CTC解碼器來(lái)完成。
(1)
其中,l∈B-1(m)表示所有經(jīng)過(guò)B變換之后為m的路徑l。
利用CTC原理設(shè)計(jì)訓(xùn)練時(shí)的損失函數(shù),定義訓(xùn)練集X={Ii,li},其中Ii為識(shí)別網(wǎng)絡(luò)中的輸入圖片,li為對(duì)應(yīng)的groundtruth,通過(guò)負(fù)對(duì)數(shù)似然函數(shù)(negative log-likelihood,NLL)作為識(shí)別模型的損失函數(shù),如式(2)所示。
(2)
其中,yi為由編碼器中CNN和RNN產(chǎn)生出來(lái)的標(biāo)簽序列。損失函數(shù)能夠直接從輸入圖像Ii和對(duì)應(yīng)的groundtruth中計(jì)算loss值,可以減少在圖片上的人工標(biāo)注信息,使得每對(duì)圖像-標(biāo)簽數(shù)據(jù)能夠在這個(gè)識(shí)別網(wǎng)絡(luò)中進(jìn)行訓(xùn)練,對(duì)于序列數(shù)據(jù)的識(shí)別具有很大的幫助。將STN修正網(wǎng)絡(luò)與優(yōu)化的CRNN網(wǎng)絡(luò)結(jié)合起來(lái),融合STN與CTC損失函數(shù),形成一個(gè)端到端的文本修正與識(shí)別的模型,融合后的損失函數(shù)如式(3)所示。
(3)
結(jié)合修正網(wǎng)絡(luò)與識(shí)別網(wǎng)絡(luò)進(jìn)行同步訓(xùn)練,直接輸入訓(xùn)練集中的圖片,經(jīng)過(guò)修正網(wǎng)絡(luò)處理,然后進(jìn)入識(shí)別網(wǎng)絡(luò),輸出識(shí)別結(jié)果,不需要中間過(guò)程,很大程度上簡(jiǎn)化了工作量,提高了文本識(shí)別效率。
自然場(chǎng)景下的文本識(shí)別常用的評(píng)判標(biāo)準(zhǔn)是 ICDAR上使用的兩種:①平均編輯距離(average edit distance,AED),是指輸入任意兩個(gè)字符串,計(jì)算其中一個(gè)字符串變動(dòng)到另外一個(gè)字符串這一過(guò)程中需要的最少編輯操作次數(shù),編輯操作可以是替換、插入或者刪除字符,計(jì)算出來(lái)的編輯距離越小,則兩個(gè)字符串的相似程度越大。如字符串s1為“sstce”,字符串s2為“state”,將s1轉(zhuǎn)換成s2時(shí),刪除s1中一個(gè)‘s’,將第一個(gè)‘c’替換為‘a(chǎn)’,然后插入一個(gè)‘t’,這兩個(gè)字符串的編輯距離就為3。②單詞識(shí)別正確率(word accuracy,WA),其計(jì)算方法如式(4)所示。
(4)
選取SynthText90k和SynthText作為訓(xùn)練數(shù)據(jù)集,選取SVT、IIIT5K和ICDAR2013作為測(cè)試數(shù)據(jù)集,3種數(shù)據(jù)集對(duì)比如表1所示。
表1 SVT、IIIT5K、ICDAR2013數(shù)據(jù)集對(duì)比
對(duì)網(wǎng)絡(luò)的主要部分CNN和RNN進(jìn)行結(jié)構(gòu)的改進(jìn)。CNN上主要是利用了Resnet50進(jìn)行文本特征提取,主要由6個(gè)殘差塊組成,其中第一個(gè)是對(duì)輸入圖片進(jìn)行預(yù)處理操作,其余每個(gè)殘差塊由若干個(gè)1×1和3×3的殘差單元組成,每個(gè)殘差塊中使用了批歸一化(batch norm,BN)和ReLU激活函數(shù)處理,殘差塊的輸入由上一個(gè)殘差塊產(chǎn)生的shortcut和經(jīng)過(guò)卷積后的特征圖相加組成。此外,第2個(gè)到第6個(gè)殘差塊的輸出特征維度分別為32、64、128、256、512。殘差塊的內(nèi)部結(jié)構(gòu)如圖3所示。
圖3 殘差塊內(nèi)部結(jié)構(gòu)
在殘差網(wǎng)絡(luò)之后,是兩層殘差循環(huán)神經(jīng)網(wǎng)絡(luò),每層包含256個(gè)resBiLSTM單元,兩層LSTM的方向相反,當(dāng)前輸出與之前和之后狀態(tài)有關(guān),兩層結(jié)合在一起組成BiLSTM結(jié)構(gòu)。此外,每層通過(guò)一個(gè)快捷方式將BiLSTM的原始信息與其輸出信息相加,進(jìn)一步提取序列特征信息。優(yōu)化后的CNN和RNN構(gòu)成了Res_CRNN識(shí)別模型,結(jié)合編碼器中網(wǎng)絡(luò)結(jié)構(gòu)信息,識(shí)別模型Res_CRNN配置參數(shù),如表2所示。其中,s為步長(zhǎng),p為填充0的大小,conv為卷積核尺寸,括號(hào)后的數(shù)字代表每個(gè)殘差包含的殘差單元個(gè)數(shù)。
表2 Res_CRNN識(shí)別模型網(wǎng)絡(luò)配置
訓(xùn)練時(shí)采用Synth90k和SynthText數(shù)據(jù)集,輸入圖片大小為640×205,batchsize大小設(shè)置為32,優(yōu)化器采取Adadelta算法,其是改進(jìn)的Adagrad算法,收斂速度較快,雖然其學(xué)習(xí)速率可以自適應(yīng),但通過(guò)人為設(shè)置的學(xué)習(xí)速率計(jì)劃更有效,訓(xùn)練參數(shù)如表3所示。
表3 訓(xùn)練模型的部分參數(shù)信息
識(shí)別模型采用SVT、IIIT5K、ICDAR2013 3種數(shù)據(jù)集作為測(cè)試集進(jìn)行驗(yàn)證。SVT數(shù)據(jù)集是Google從各個(gè)街景中獲取的,測(cè)試數(shù)據(jù)集共有647張圖片,這些圖像分辨率低,可變性高,這樣使SVT數(shù)據(jù)集在自然場(chǎng)景下的文本識(shí)別更具有現(xiàn)實(shí)意義。IIIT5K數(shù)據(jù)集主要包括門(mén)牌號(hào)、廣告牌、海報(bào)等關(guān)鍵字作為搜索對(duì)象獲取的圖像,測(cè)試數(shù)據(jù)集采用了3 000張經(jīng)過(guò)裁剪的單詞圖像和數(shù)字圖像,這些圖像背景復(fù)雜,文字樣式變形,這對(duì)于自然場(chǎng)景的文本檢測(cè)與識(shí)別更具挑戰(zhàn)性和實(shí)際意義。ICDAR2013數(shù)據(jù)集是由文檔分析與國(guó)際會(huì)議(ICDAR)建立的,檢測(cè)與識(shí)別都有對(duì)應(yīng)的訓(xùn)練集和測(cè)試集。本研究使用的測(cè)試數(shù)據(jù)集包括233張圖片,都是經(jīng)過(guò)裁剪過(guò)濾之后的圖片,每張圖片都包括頂點(diǎn)坐標(biāo)、高度、寬度和文本內(nèi)容。通過(guò)對(duì)CRNN網(wǎng)絡(luò)優(yōu)化和加上STN文本修正網(wǎng)絡(luò)后的Res_CRNN模型進(jìn)行對(duì)比分析,實(shí)驗(yàn)結(jié)果如表4所示,其中AED為平均編輯距離,WA為單詞識(shí)別正確率。
表4 3種識(shí)別方法在不同數(shù)據(jù)集上實(shí)驗(yàn)結(jié)果
由表4可知,改進(jìn)后的識(shí)別模型Res_CRNN在SVT和IIIT5K上識(shí)別效果比CRNN分別高1.4%和2.1%,在ICDAR2013上差距不大;在Res_CRNN上加入STN文本修正網(wǎng)絡(luò)后,識(shí)別精確度有了進(jìn)一步的提升,在SVT、IIIT5K、ICDAR2013上識(shí)別精度分別提升了3.8%、10.0%和1.3%,平均編輯距離明顯下降。
圖4 IIIT5K上STN+Res_CRNN識(shí)別效果
通過(guò)采取STN文本修正方法,以及在改進(jìn)的CRNN編碼器網(wǎng)絡(luò)結(jié)構(gòu)的基礎(chǔ)上,建立了Res_CRNN文本識(shí)別模型,該模型可在一定程度上提高文本的識(shí)別精度。但由于此次研究?jī)H限于英文文本,未來(lái)可進(jìn)一步完善設(shè)計(jì)方法,通過(guò)擴(kuò)充訓(xùn)練集模型來(lái)提高對(duì)自然場(chǎng)景下各類(lèi)文本的適應(yīng)能力,以實(shí)現(xiàn)對(duì)多種語(yǔ)言類(lèi)型的文本識(shí)別。
武漢理工大學(xué)學(xué)報(bào)(信息與管理工程版)2021年6期