于潔瀟,張大壯,何 凱
(天津大學(xué)電氣自動(dòng)化與信息工程學(xué)院,天津 300072)
場(chǎng)景文本識(shí)別(scene text recognition,STR)一直是計(jì)算機(jī)視覺(jué)領(lǐng)域中一個(gè)重要的課題[1].近年來(lái),STR因其在自動(dòng)駕駛、機(jī)器人等領(lǐng)域的應(yīng)用而受到廣泛關(guān)注.STR早期只能用于水平分布圖像的文本識(shí)別,近年來(lái)則主要關(guān)注于復(fù)雜的場(chǎng)景文本識(shí)別.后者中存在大量的遮蔽、扭曲等不規(guī)則情況,極大地增加了場(chǎng)景文本的識(shí)別難度.
現(xiàn)有的場(chǎng)景文本識(shí)別算法大致可以分為兩大類:非語(yǔ)義方法和語(yǔ)義方法.
(1) 非語(yǔ)義方法.大多數(shù)場(chǎng)景文本識(shí)別方法[2-4]是基于視覺(jué)信息實(shí)現(xiàn).例如,一些學(xué)者提出使用滑動(dòng)窗口[2-3]或手動(dòng)標(biāo)記[5]的方式來(lái)識(shí)別場(chǎng)景文本圖像.后來(lái),Jaderberg等[6]以圖像分類的形式來(lái)處理 STR問(wèn)題.Shi等[7]在 CTC解碼器[8]之前采用卷積網(wǎng)絡(luò)和殘差網(wǎng)絡(luò)結(jié)合的方法來(lái)提取序列信息.Liao等[9]先利用語(yǔ)義分割算法將文本從背景圖像中分離出來(lái),再進(jìn)行識(shí)別.除此之外,有學(xué)者提出了基于 STR的空間矯正網(wǎng)絡(luò).例如,Shi等[10]首先提出了基于薄板樣條(thin plate spline,TPS)的空間變換網(wǎng)絡(luò),可將不規(guī)則圖像轉(zhuǎn)換成水平的規(guī)則圖像.在此基礎(chǔ)上,Zhang等[11]提出了一種消除透視失真的迭代機(jī)制.Chen等[12]提出了一種針對(duì)于場(chǎng)景文本識(shí)別的超分辨率模型.此外,部分學(xué)者提出采用不同的學(xué)習(xí)策略和訓(xùn)練數(shù)據(jù)集來(lái)提高模型的識(shí)別精度.例如,Singh等[13]創(chuàng)建了TextOCR數(shù)據(jù)集,Baek等[14]將半監(jiān)督與自監(jiān)督的訓(xùn)練方式相結(jié)合,來(lái)解決數(shù)據(jù)集多樣性不足的問(wèn)題.
(2) 語(yǔ)義方法.為了提高場(chǎng)景文本識(shí)別器的性能,一些學(xué)者提出利用文本圖像中上下文相關(guān)性的語(yǔ)義方法.例如,Lee等[15]將圖像轉(zhuǎn)換成一維序列后,根據(jù)相鄰的時(shí)間步長(zhǎng)引導(dǎo)文本識(shí)別器對(duì)圖像進(jìn)行識(shí)別.Qiao等[16]通過(guò)訓(xùn)練語(yǔ)義模型(semantics enhanced encoder-decoder,SEED)來(lái)指導(dǎo)全局信息的解碼過(guò)程.Litman等[17]通過(guò)增加解碼器的數(shù)量來(lái)強(qiáng)化解碼器對(duì)上下文信息的學(xué)習(xí).此外,隨著Transformer[18]的廣泛使用,越來(lái)越多的學(xué)者傾向于采用注意力方法來(lái)提取圖像中豐富的語(yǔ)義信息.例如,Yang等[19]提出了一種基于雙向解碼的 Transformer解碼器,F(xiàn)ang等[20]在Transformer的基礎(chǔ)上實(shí)現(xiàn)了自然語(yǔ)言處理模型和計(jì)算機(jī)視覺(jué)模型的結(jié)合,但該方法大大增加了訓(xùn)練成本.
現(xiàn)有方法(如 RNN或 LSTM)通?;谛蛄?,或者通過(guò)語(yǔ)義信息來(lái)監(jiān)督文本識(shí)別器的訓(xùn)練,過(guò)于強(qiáng)調(diào)視覺(jué)的重要性,容易受到上下文語(yǔ)義信息的影響.鑒于從純文本中比從圖像中提取語(yǔ)義信息容易得多,本文提出了一個(gè)糾錯(cuò)(error correction,EC)模塊,可直接修正文本識(shí)別器的識(shí)別結(jié)果.此外,提出了一個(gè)多特征(multi-feature,MF)提取器,可以從初始的圖像中提取空間和序列信息.
不規(guī)則數(shù)據(jù)集中存在的視覺(jué)障礙是造成識(shí)別錯(cuò)誤的關(guān)鍵因素.為此,本文提出了一個(gè) EC模塊來(lái)糾正拼寫(xiě)錯(cuò)誤.EC模塊是一個(gè)基于文本的序列信息處理模塊,可通過(guò)派生詞來(lái)獨(dú)立訓(xùn)練EC模塊的糾錯(cuò)能力,有助于解決視覺(jué)障礙所帶來(lái)的負(fù)面影響.此外,現(xiàn)有 STR算法中僅采用 Resnet-45最后一個(gè)模塊的輸出來(lái)提取相關(guān)特征,容易忽略淺層 Resnet網(wǎng)絡(luò)中的信息,特別是場(chǎng)景文本圖像中所包含的空間特征信息.為此,提出了一個(gè)多特征提取器,其由 5個(gè) MF單元構(gòu)成,分別對(duì)應(yīng) Resnet-45的后 5個(gè)模塊,每個(gè)MF單元由注意力網(wǎng)絡(luò)和殘差網(wǎng)絡(luò)組成,以確保模型能夠提取足夠多的圖像特征信息.
與現(xiàn)有算法不同,所提算法屬于一個(gè)識(shí)別-糾錯(cuò)的框架,具體如圖1所示.其中,STR識(shí)別器由 MF提取器和Transformer編解碼器構(gòu)成.在識(shí)別STR圖像時(shí),先采用 MF提取器來(lái)提取場(chǎng)景文本圖像特征,再利用文本識(shí)別器中的編解碼框架從特征圖中識(shí)別文本信息,最后使用EC模塊來(lái)糾正識(shí)別錯(cuò)誤的字符.
圖1 模型整體識(shí)別-糾錯(cuò)框架Fig.1 Overall recognition-correction framework of the model
STR識(shí)別器負(fù)責(zé)對(duì)圖像中的文本信息進(jìn)行識(shí)別,其輸出為錯(cuò)誤結(jié)果“roards”(真值為“boards”,其中,綠色表示結(jié)果預(yù)測(cè)正確,紅色表示預(yù)測(cè)錯(cuò)誤),利用 EC模塊糾正該錯(cuò)誤拼寫(xiě),最終獲得正確的輸出結(jié)果.
為了解決單詞中的個(gè)別字母識(shí)別錯(cuò)誤的問(wèn)題,提出了一種由記憶編碼器、注意力網(wǎng)絡(luò)和循環(huán)解碼器組成的 EC模塊,具體如圖2所示.其中,循環(huán)解碼器每一次解碼都會(huì)調(diào)用注意力網(wǎng)絡(luò).記憶編碼器對(duì)輸入的文本(例:roards)進(jìn)行編碼,并輸出一個(gè)輸出態(tài)(o0)和一個(gè)隱藏態(tài)(h0).每次解碼過(guò)程中,o0均會(huì)與權(quán)重矩陣(wi)相乘,生成語(yǔ)義特征圖(Si).解碼器從語(yǔ)義特征圖(Si)中解碼出當(dāng)前位置字符;與此同時(shí),GRU會(huì)生成一個(gè)新的輸出態(tài)(oi)和隱藏態(tài)(hi),并在下一次的循環(huán)解碼過(guò)程中通過(guò)注意力網(wǎng)絡(luò)生成新的權(quán)重矩陣.最終,利用權(quán)重矩陣與o0生成新的語(yǔ)義特征圖,并解碼出下個(gè)位置的字符.
圖2 EC糾錯(cuò)模塊框架Fig.2 Framework of the EC correction module
(1) 記憶力編碼器.為了提高編碼器的性能,在EC模塊中增加了記憶編碼器,采用學(xué)習(xí)感知機(jī)來(lái)提高學(xué)習(xí)能力.同時(shí),使用一個(gè)由雙向 GRU函數(shù)組成的 BiGRU序列來(lái)提高信息的存儲(chǔ)能力.在保留文本中相鄰字符的上下文信息的同時(shí),提高了模型對(duì)整體文本的記憶能力.
如圖2所示,首先將文本識(shí)別器的結(jié)果通過(guò)嵌入詞向量編碼器,獲得詞向量.其中,M表示單詞的最大長(zhǎng)度,D表示詞向量的維度.使用嵌入詞向量編碼器,可以使得模型在訓(xùn)練過(guò)程中學(xué)到最合適的編碼方式.在減少人工編碼成本的同時(shí),使得編碼方式更加適合模型任務(wù).
(2) 注意力網(wǎng)絡(luò).注意力網(wǎng)絡(luò)負(fù)責(zé)連接編碼器和解碼器.記憶編碼器和循環(huán)解碼器輸出的oi、hi拼接后進(jìn)入注意力網(wǎng)絡(luò)中,最終計(jì)算出權(quán)重矩陣wi.
如圖3所示,本文注意力網(wǎng)絡(luò)由多個(gè)注意力單元和一個(gè)融合單元組成.每個(gè)注意力單元由線性層和激活函數(shù)組成.鑒于特征圖的通道數(shù)會(huì)隨著網(wǎng)絡(luò)深度的增加而增加,因此特征提取的精度會(huì)逐漸提高.不同注意力單元的特征圖維度不同,因此,在注意力單元之間添加 L變換器來(lái)平衡維度.L變換器在擴(kuò)展上一級(jí)輸出特征圖維度的同時(shí),可進(jìn)一步減小注意力單元輸出到融合單元的特征圖維度.
圖3 注意力網(wǎng)絡(luò)框架Fig.3 Framework of the attention network
在傳遞過(guò)程中,注意力單元負(fù)責(zé)接收上一個(gè)注意力單元的特征圖;經(jīng)過(guò)維度變換和相關(guān)計(jì)算后,將輸出送到下一個(gè)注意力單元和融合單元.注意力網(wǎng)絡(luò)的整體過(guò)程可以表示為
式中:hi和oi分別表示編碼器或解碼器的第 i次循環(huán)的輸出;Attn表示注意力網(wǎng)絡(luò);c1,c2,…,cn表示每個(gè)注意力單元的輸出;CAT表示拼接處理.與大多數(shù)場(chǎng)景文本識(shí)別算法通道數(shù)一致,注意力單元的第1層通道數(shù)設(shè)為 512.隨著注意網(wǎng)絡(luò)深度的增加,通道數(shù)也會(huì)相應(yīng)增加.
在注意力網(wǎng)絡(luò)中采用自適應(yīng)學(xué)習(xí)策略,可以保證各個(gè)注意力單元性能穩(wěn)定.每個(gè)注意力單元都被賦予一個(gè)可學(xué)習(xí)的參數(shù)(λk,k = 1 ,2,…,n),該參數(shù)通過(guò)在整體模型的梯度反向傳播中進(jìn)行優(yōu)化,訓(xùn)練后參數(shù)達(dá)到最優(yōu)值.融合過(guò)程為
式中初始參數(shù)kλ設(shè)為1.0.
根據(jù)式(3)和式(4),注意力機(jī)制網(wǎng)絡(luò)輸出權(quán)重矩陣wi,與o0相乘后得到語(yǔ)義特征圖Si.最終,循環(huán)解碼器可從Si中解碼得到糾錯(cuò)后的文本.有兩種乘法策略可供選擇:普通乘法策略和殘差策略.其中普通乘法策略適用于注意力網(wǎng)絡(luò)相對(duì)較淺的情況,其計(jì)算式為
殘差策略適用于網(wǎng)絡(luò)層較深、注意力單元數(shù)量較多的情況,其計(jì)算式為
實(shí)驗(yàn)表明,使用 2個(gè)注意力單元時(shí),模型參數(shù)量性能最優(yōu),因此本文采取式(5)的乘法策略.
(3) 循環(huán)解碼器.不同于多數(shù)序列預(yù)測(cè)的文本識(shí)別器,EC模塊并非一次解碼出全部文本,而是采用了循環(huán)解碼策略,以充分提取相鄰字母之間的上下文信息.如圖2所示,在每次循環(huán)中,解碼器中的GRU 函數(shù)可根據(jù)Si計(jì)算出下一循環(huán)的oi+1和hi+1,利用 Linear線性函數(shù)和 Softmax分類器,從oi+1中計(jì)算出當(dāng)前字符(Ci).在下一次循環(huán)中,注意力網(wǎng)絡(luò)根據(jù)oi+1和hi+1來(lái)計(jì)算wi+1,若當(dāng)前位置不存在字符,則以null表示解碼完畢,最后,刪除‘null’即可得到糾錯(cuò)后的文本.上述過(guò)程用公式描述如下.
與其他領(lǐng)域不同,場(chǎng)景文本識(shí)別的最終準(zhǔn)確性取決于每一個(gè)字母的識(shí)別精度,而循環(huán)解碼策略可有效避免上述個(gè)別字符識(shí)別錯(cuò)誤的情況.EC模塊采用帶有循環(huán)機(jī)制的 GRU編解碼框架,利用 GRU特性和循環(huán)機(jī)制可有效學(xué)習(xí)文本中的序列信息,最終根據(jù)上下文信息來(lái)糾正拼寫(xiě)錯(cuò)誤.例如:文本“roards”中只有字母‘b’被錯(cuò)誤識(shí)別成了‘r’,類似的拼寫(xiě)錯(cuò)誤均可以使用EC模塊來(lái)進(jìn)行有效糾正.
STR識(shí)別器可將場(chǎng)景文本圖像轉(zhuǎn)換為文本,這是一種由圖像到字符串的轉(zhuǎn)換.如圖4所示,文本識(shí)別器由 MF提取器和 Transformer編解碼器組成.在許多STR算法中,特征提取器僅由Resnet-45網(wǎng)絡(luò)組成,而MF提取器中包含有5個(gè)MF單元,分別連接Resnet-45的最后 5個(gè)模塊,每個(gè) MF單元都可以視為一個(gè)注意力特征提取器.
圖4 采用MF提取器的STR框架Fig.4 STR framework with MF extractor
為了從圖像中獲得直觀的空間信息,將底層Resnet-45模塊輸出到淺層的 MF單元中,再利用各個(gè)MF單元從5個(gè)Resnet-45輸出模塊中學(xué)習(xí)特征信息.如圖4所示,MF單元由2個(gè)(卷積層-標(biāo)準(zhǔn)化層-激活層)序列和一個(gè) Softmax分類器構(gòu)成.利用殘差思想,將MF輸入和Softmax輸出的權(quán)重進(jìn)行乘加操作,再使用拼接函數(shù)將5個(gè)MF單元的輸出拼接在一起,作為T(mén)ransformer編解碼器的輸入.
與文獻(xiàn)[19]類似,Transformer編解碼器主要由多頭注意力機(jī)制組成,解碼器的數(shù)量影響模型的性能和參數(shù)量,本文選用3個(gè)Transformer編解碼器.
為了驗(yàn)證本文提出模型的有效性,選取 MJSynth(MJ)[6]、SynthText(ST)[21]、SynthAdd(SA)[22]為訓(xùn)練數(shù)據(jù)集,選取 IIIT5k-words(IIIT5k)[23]、Street View Text(SVT)[2]、ICDAR2003(IC03)[24]、ICDAR2013(IC-13)[25]、ICDAR2015(IC15)[26]、CUTE80(CUTE)[27]、SVTP[28]等7個(gè)公共數(shù)據(jù)集作為測(cè)試數(shù)據(jù)集.
實(shí)驗(yàn)選用2個(gè)NVIDIA 2080Ti圖形處理器.STR模型經(jīng)過(guò) 6個(gè)周期的訓(xùn)練,批尺寸設(shè)為 146.為了在一個(gè)周期內(nèi)讀取所有訓(xùn)練數(shù)據(jù),一個(gè)批尺寸中的MJ、ST和 SA的比例設(shè)為 5∶4∶1.為公平起見(jiàn),所有實(shí)驗(yàn)均未采用數(shù)據(jù)增強(qiáng),而是直接使用原始數(shù)據(jù)集進(jìn)行訓(xùn)練或測(cè)試.與大多數(shù) STR算法的參數(shù)設(shè)置相同,輸入圖像尺寸統(tǒng)一調(diào)整為:高32像素;寬100像素;初始學(xué)習(xí)率設(shè)為1.00,在第4個(gè)和第5個(gè)周期后衰減至 0.10和 0.01.由于 EC模塊主要關(guān)注語(yǔ)義信息,因此,本文實(shí)驗(yàn)中忽略了特殊字符和標(biāo)點(diǎn)符號(hào).識(shí)別的字符類別總數(shù)為 36,其中包括 10個(gè)數(shù)字和26個(gè)小寫(xiě)字母.
使用經(jīng)過(guò)干擾處理的派生詞訓(xùn)練EC模塊,通過(guò)對(duì) 9×104個(gè)英文單詞隨機(jī)替換或添加字符來(lái)產(chǎn)生派生詞.在此機(jī)制下,一個(gè)單詞可對(duì)應(yīng)多個(gè)派生詞(可以視作存在拼寫(xiě)錯(cuò)誤的單詞).利用這種多對(duì)一的映射關(guān)系來(lái)訓(xùn)練 EC模塊的糾錯(cuò)能力.此外,訓(xùn)練數(shù)據(jù)中仍然保留了真值,以確保 EC模塊不會(huì)“糾正”原本正確的預(yù)測(cè).當(dāng)模型基本穩(wěn)定后終止訓(xùn)練,該模型訓(xùn)練約600個(gè)周期,批尺寸設(shè)為2000,初始學(xué)習(xí)率設(shè)為0.001.鑒于本文字符種類只有36個(gè),詞向量維度設(shè)為10.
為了討論 MF提取器和 EC模塊對(duì)識(shí)別準(zhǔn)確率的影響,選取了 7個(gè)公共數(shù)據(jù)集(IIIT5k、SVT、IC03、IC13、IC15、SVTP和 CUTE)進(jìn)行測(cè)試,結(jié)果如表1所示.
表1 MF和EC對(duì)識(shí)別結(jié)果的影響Tab.1 Influence of MF and EC on the recognition results%
從表1中可以看出,采用MF提取器可有效提高模型的識(shí)別準(zhǔn)確率.特別是在規(guī)則數(shù)據(jù)集(SVT)上,準(zhǔn)確率從 88.3%提高到了 91.7%;在不規(guī)則數(shù)據(jù)集(SVTP)上,準(zhǔn)確率也從78.4%提高到了83.9%.實(shí)驗(yàn)結(jié)果證明了 MF提取器的有效性.與傳統(tǒng)的 Resnet-45相比,MF提取器能夠從不同深度的特征圖中提取信息,它不僅能夠提取圖像的深層細(xì)節(jié),還能夠?qū)W習(xí)圖像中初始的空間信息.當(dāng) STR模型性能不夠優(yōu)秀時(shí),該機(jī)制可以獲得良好的效果.
此外,從表1中還可以看出,在使用EC模塊后,在 7個(gè)測(cè)試數(shù)據(jù)集上的準(zhǔn)確率均有明顯提升.與僅使用 MF提取器的基礎(chǔ)模型相比,使用 EC模塊后,IC15的準(zhǔn)確率提高了 1.6%,SVTP的準(zhǔn)確率提高了1.4%,CUTE的準(zhǔn)確率提高了 1.4%.不規(guī)則數(shù)據(jù)集中的各種形變、遮擋容易產(chǎn)生更多的字符識(shí)別錯(cuò)誤,所以在不規(guī)則數(shù)據(jù)集上效果更加明顯.盡管低質(zhì)量圖像導(dǎo)致的識(shí)別錯(cuò)誤很難用現(xiàn)有的方法進(jìn)行糾正,但使用 EC模塊仍然可以根據(jù)語(yǔ)義信息來(lái)實(shí)現(xiàn)有效的糾正.
表2展示了EC模塊對(duì)網(wǎng)絡(luò)識(shí)別性能的影響,幾張樣例圖像分別代表存在模糊、遮蔽、文本分布扭曲以及書(shū)寫(xiě)不規(guī)范等視覺(jué)障礙.從表2中可以看出,未使用 EC模塊時(shí),這些視覺(jué)障礙會(huì)產(chǎn)生識(shí)別錯(cuò)誤,而使用EC模塊則可以有效糾正上述拼寫(xiě)錯(cuò)誤,證明了EC模塊的有效性.
表2 EC模塊對(duì)識(shí)別性能的影響Tab.2 Effects of the EC module on the recognition ability
為了討論 EC模塊中注意力網(wǎng)絡(luò)深度對(duì)網(wǎng)絡(luò)糾錯(cuò)能力的影響,分別選取 IC15、SVTP、CUTE 3個(gè)不規(guī)則數(shù)據(jù)集進(jìn)行測(cè)試,結(jié)果如圖5所示.可以看出,隨著注意力單元數(shù)量的增加,識(shí)別準(zhǔn)確率逐漸提高;但當(dāng)注意力單元數(shù)量過(guò)大時(shí),準(zhǔn)確率不再提高,甚至略有下降.綜合考慮,最終將注意力單元數(shù)設(shè)為n=2.
圖5 注意力單元數(shù)量對(duì)性能的影響Fig.5 Effects of the number of attention units on performance
為了進(jìn)一步驗(yàn)證 EC模塊的性能,將 STR問(wèn)題看成 26類字母分類問(wèn)題,在 7個(gè)公共數(shù)據(jù)集上,分別對(duì)使用 EC模塊前后的查全率、查準(zhǔn)率以及FP(false positive)值進(jìn)行了計(jì)算,其中FP值表示負(fù)樣本被識(shí)別成正樣本的個(gè)數(shù),平均結(jié)果如表3所示.從表3中可以看出:使用EC模塊后,查全率、查準(zhǔn)率在7個(gè)數(shù)據(jù)集上均有提高,證明了 EC模塊可有效提升算法性能.FP值在使用EC模塊后均有所下降,進(jìn)一步證明EC模塊的糾錯(cuò)能力.
表3 查全率、查準(zhǔn)率及FP對(duì)比結(jié)果Tab.3 Comparison results of recall,precision and FP
為了驗(yàn)證提出算法的有效性,將其與當(dāng)前該領(lǐng)域的最新算法進(jìn)行了比較,并在7個(gè)常用的場(chǎng)景文本識(shí)別測(cè)試集上進(jìn)行了測(cè)試,結(jié)果如表4所示.為公平起見(jiàn),ABInet采用與其他算法相同的數(shù)據(jù)集來(lái)進(jìn)行訓(xùn)練.從表4中可以看出,本文提出算法在數(shù)據(jù)集IIIT5k、SVT、IC03獲得了3個(gè)最高的準(zhǔn)確率,并在數(shù)據(jù)集 IC13、IC15、SVTP、CUTE上取得了次高的準(zhǔn)確率.實(shí)驗(yàn)結(jié)果表明,該模型識(shí)別效果優(yōu)于當(dāng)前最優(yōu)模型.此外,與其他具有語(yǔ)義模塊或新式監(jiān)督訓(xùn)練方法模型,如:SEED[16]、ABInet[20]、TRBA-PR[14]等相比,所提出模型性能更優(yōu).其主要原因是傳統(tǒng)模型對(duì)語(yǔ)義信息不夠重視,往往將語(yǔ)義信息與視覺(jué)模型混合;雖然這一操作在一定程度上提高了文本識(shí)別器的性能,但在整體框架中,語(yǔ)義信息所占比例被大大削弱;然而,EC模塊獨(dú)立于視覺(jué)模型,在訓(xùn)練過(guò)程中可直接從文本中學(xué)習(xí)語(yǔ)義信息,因此可以有效地糾正拼寫(xiě)錯(cuò)誤.
表4 不同算法識(shí)別效果對(duì)比Tab.4 Comparison of recognition effects of different methods %
本文提出了一個(gè)用于場(chǎng)景文本識(shí)別的 EC模塊與MF提取器.與大多數(shù)從視覺(jué)角度提取語(yǔ)義信息的模型不同,EC模塊可獨(dú)立地在純文本中進(jìn)行訓(xùn)練,可以保證獲得更加豐富的上下文信息.所提出的 EC模塊結(jié)構(gòu)簡(jiǎn)單,處理速度快,實(shí)用性強(qiáng),可靈活應(yīng)用于STR模型當(dāng)中.此外,與傳統(tǒng)的Resnet-45特征提取器不同,MF提取器保留并學(xué)習(xí)了圖像的初始空間信息.實(shí)驗(yàn)結(jié)果表明,所提出模型在 7個(gè)公共測(cè)試數(shù)據(jù)集上都取得了較好的效果.
設(shè)計(jì)具有糾錯(cuò)能力的文本識(shí)別解碼器是今后一個(gè)值得嘗試的方向.在訓(xùn)練場(chǎng)景文本識(shí)別器的同時(shí),可通過(guò)訓(xùn)練來(lái)不斷提高解碼器的糾錯(cuò)能力.