摘要:針對(duì)自然場(chǎng)景中的文本圖像存在信息、背景復(fù)雜,以及基于CNN(ConvolutionalNeuralNetworks)的自然場(chǎng)景文本圖像檢測(cè)魯棒性低的問(wèn)題,提出一種改進(jìn)的FasterRCNN(RegionbasedConvolutionalNeuralNetworks)模型和多頭注意力機(jī)制的字符關(guān)聯(lián)模型文本檢測(cè)識(shí)別方法。該方法首先使用改進(jìn)的FasterRCNN模型檢測(cè)出圖像中字符的特征,其次通過(guò)字符關(guān)聯(lián)模塊和多頭注意力模塊獲取字符間的語(yǔ)義關(guān)聯(lián)信息,最后由字符輸出模塊的生成識(shí)別結(jié)果。實(shí)驗(yàn)結(jié)果表明,該方法具有良好的魯棒性,能夠有效利用字符間的關(guān)聯(lián)信息和上下文語(yǔ)義信息解碼字符序列,尤其是在不規(guī)則文本的識(shí)別中表現(xiàn)優(yōu)異。
關(guān)鍵詞:場(chǎng)景文本識(shí)別;改進(jìn)的FasterRCNN;魯棒性;注意力機(jī)制
中圖分類(lèi)號(hào):TP391文獻(xiàn)標(biāo)志碼:A
0引言(Introduction)
自然場(chǎng)景中的文本檢測(cè)識(shí)別[1]具有廣泛的應(yīng)用場(chǎng)景。然而,由于文本圖像中存在背景、信息復(fù)雜等問(wèn)題,影響了模型的文本識(shí)別精度?;贔asterRCNN模型求出圖像中所有文本區(qū)域的方法[2],在處理文本數(shù)量不確定的場(chǎng)景時(shí),其識(shí)別性能往往不盡如人意,表現(xiàn)出較低的魯棒性。同時(shí),準(zhǔn)確獲取字符的順序和全局的語(yǔ)義信息也至關(guān)重要,但是當(dāng)前大多數(shù)文本識(shí)別方法[3\|4]都是采用單向順序傳送或者使用CRNN(ConvolutionalRecurrentNeuralNetwork),這些方法不僅效率低,而且從解碼時(shí)間步獲取的信息不足,會(huì)導(dǎo)致錯(cuò)誤識(shí)別。
針對(duì)基于CRNN的自然場(chǎng)景文本檢測(cè)識(shí)別方法中存在的結(jié)構(gòu)復(fù)雜、魯棒性低的問(wèn)題,提出基于改進(jìn)的FasterRCNN和多頭注意力機(jī)制的文本檢測(cè)識(shí)別模型。該模型基于多頭注意力的字符關(guān)聯(lián)網(wǎng)絡(luò),能夠有效識(shí)別圖像中的字符,并將字符進(jìn)行格式化,確保字符間的位置信息相關(guān)聯(lián),并能夠同時(shí)獲取上下文之間的語(yǔ)義信息。
1相關(guān)工作(Relatedwork)
在早期的研究中,一些場(chǎng)景文本識(shí)別方法[5\|6]大都是將檢測(cè)到的字符進(jìn)行分類(lèi),即先通過(guò)滑動(dòng)窗口檢測(cè)單個(gè)字符,再采用動(dòng)態(tài)規(guī)劃的方法將其整合得到文本單詞內(nèi)容。隨后,陸續(xù)出現(xiàn)了基于單詞分類(lèi)的識(shí)別方法。JADERBERG等[7]把輸入的圖像首先通過(guò)CNN,其次經(jīng)過(guò)過(guò)濾后獲得每個(gè)字符之間的界限,最后使用分類(lèi)方法得出結(jié)果序列。ALMAZN等[8]則是直接預(yù)測(cè)圖像中的特征,將文本的標(biāo)注映射到同一個(gè)公共的向量空間中以計(jì)算最近的距離。
深度學(xué)習(xí)的飛速發(fā)展也讓自然場(chǎng)景文本檢測(cè)識(shí)別模型、算法的性能有了顯著的提高。主流方法是開(kāi)始使用RNN(RecurrentNeuralNetwork)[9]對(duì)序列特征進(jìn)行建模,通常以字符序列的形式出現(xiàn)?;谡Z(yǔ)義分割仿射變換和CRNN模型,LIU等[10]提出了快速文本定位方法(FastOrientedTextSpotting,F(xiàn)OTS),此方法可以檢測(cè)識(shí)別出非水平的文本,但只適用于較短的文本;SHI等[11]將CNN與RNN融合后運(yùn)用到場(chǎng)景文本識(shí)別中,實(shí)現(xiàn)了字符序列預(yù)測(cè)。但是,該方法在處理字符序列時(shí),對(duì)序列中不同位置的字符賦予了相近的權(quán)重,導(dǎo)致對(duì)于識(shí)別結(jié)果至關(guān)重要的關(guān)鍵字符并未獲得足夠的重視,可能在一定程度上影響了識(shí)別的精確度和魯棒性。
注意力機(jī)制[12]能自動(dòng)關(guān)注與當(dāng)前任務(wù)相關(guān)的信息,從而忽略不相關(guān)或冗余的信息。劉崇宇等[13]提出的文本檢測(cè)方法使用了注意力機(jī)制,更加注重對(duì)輸入圖形的整體的文本檢測(cè)。LEE等[14]提出的ABINet(Autonomous,BidirectionalandIterativeNetwork)方法的建模中使用了Transformer。馬洋洋等[15]提出的CTC(ConnectionistTemporalClassification)\|Attention方法同樣采用了Transformer,都是通過(guò)其中內(nèi)置的多頭自注意力機(jī)制大幅度提高了模型的上下文表達(dá)能力,并且取得了SOTA(State\|of\|the\|Art)的效果。
然而,上述提及的很多模型都是主要針對(duì)規(guī)則方向上的文本圖像,但是在自然場(chǎng)景下,很多圖像的文本復(fù)雜、形狀多變且難以準(zhǔn)確識(shí)別。對(duì)于圖像背景、信息復(fù)雜的文本識(shí)別,就需要先對(duì)圖像中的文本進(jìn)行預(yù)處理。SHI等[16]提出基于空間變換網(wǎng)絡(luò)STN(SpaceTransformerNetwork)[17],使用薄板樣條算法TPS(ThinPlateSpline)預(yù)處理傾斜的文本,增強(qiáng)了模型的識(shí)別能力。宋問(wèn)玉等[18]則是在矯正過(guò)后使用Retinex和ACE(AutomaticColorEqualization)對(duì)圖像進(jìn)行彩色增強(qiáng),使得輸入圖像的文本更加清晰可辨。
為了準(zhǔn)確識(shí)別文本內(nèi)容,需要更加關(guān)注字符之間的關(guān)聯(lián)信息,一些研究工作嘗試通過(guò)分割字符從而更加關(guān)注字符之間的關(guān)聯(lián)信息。Two\|Attention[19]是基于FCN(FullyConvolutionalNeuralNetworks)的方法,將輸入圖像中的文本字符進(jìn)行分割,然而此類(lèi)方法要求模型必須達(dá)到每個(gè)字符級(jí)別的精確度,這無(wú)疑大大增加了訓(xùn)練的難度。
2算法框架(Algorithmframework)
2.1總體模型框架
本文提出了一種基于多頭注意力機(jī)制的字符關(guān)聯(lián)模型的自然場(chǎng)景文本檢測(cè)識(shí)別模型,其整體框架如圖1所示。模型主要由字符檢測(cè)模塊、字符關(guān)聯(lián)模塊、多頭注意力模塊和字符輸出模塊組成。在處理一個(gè)帶有文本的圖像時(shí),首先使用改進(jìn)的FasterRCNN模型檢測(cè)并提取出圖像中所有字符的特征向量,字符關(guān)聯(lián)模塊從字符檢測(cè)模塊提取的信息中逐一獲取字符之間的關(guān)聯(lián)信息;其次通過(guò)多頭注意力,使用多通道對(duì)字符關(guān)聯(lián)模塊輸出的特征向量進(jìn)行解碼,生成維度的特征序列,并獲取正則化后的全局語(yǔ)義信息,將正則化后的特征向量輸入字符輸出模塊;最后輸出模型的識(shí)別結(jié)果。
2.2字符檢測(cè)模塊
改進(jìn)的FasterRCNN模型流程圖如圖2所示,它使用ResNet\|101[20]網(wǎng)絡(luò)替換原FasterRCNN中的VGG\|16[21]網(wǎng)絡(luò)。在原始的前饋CNN上,增加了一個(gè)跳躍連接層,與VGG\|16相比,ResNet\|101的優(yōu)勢(shì)是可以簡(jiǎn)化網(wǎng)絡(luò)結(jié)構(gòu),減少計(jì)算量,以及防止反向傳播時(shí)的梯度彌散問(wèn)題,可以使網(wǎng)絡(luò)結(jié)構(gòu)達(dá)到更深的層度。以下是基于改進(jìn)FasterRCNN模型的字符檢測(cè)模塊的實(shí)驗(yàn)流程:首先將所有的英文字母(包括大小寫(xiě))、輸入圖像中的文本背景和0~9的數(shù)字等信息輸入ResNet\|101網(wǎng)絡(luò)中進(jìn)行字符的檢測(cè)提取,獲得通道的特征圖。
得到全局的特征通道圖之后,根據(jù)感受野之間的對(duì)應(yīng)關(guān)系,從整體的特征圖中提取出檢測(cè)到字符的通道特征圖,然后使用大小為512的卷積核將所有字符特征圖的通道數(shù)量設(shè)置為最小,由于ROI(RegionofInterest)Pooling需要進(jìn)行兩次量化,量化后的候選框起初回歸出來(lái)的位置的偏差會(huì)影響檢測(cè)或者分割的準(zhǔn)確度,因此選擇ROI(RegionofInterest)Align量化特征圖,特征圖的大小設(shè)置為49,并通過(guò)最后的模塊將特征圖轉(zhuǎn)為識(shí)別模塊中所需要的維度序列。
2.3字符關(guān)聯(lián)模塊
根據(jù)順序讀取字符的關(guān)聯(lián)信息,可以更好地識(shí)別文本圖像,特別是在背景和信息復(fù)雜的文本中,需要獲取字符之間的關(guān)聯(lián)信息。常用的方法是使用RNN對(duì)文本圖像轉(zhuǎn)化的序列進(jìn)行編碼和解碼,但會(huì)出現(xiàn)字符關(guān)聯(lián)信息不足的問(wèn)題,從而導(dǎo)致字符的誤識(shí)別。想要在字符檢測(cè)模塊中得到的特征圖上準(zhǔn)確地定位字符,就需要獲取字符之間的關(guān)聯(lián)信息,這樣可以讓之后的輸出具有字符的關(guān)聯(lián)信息。圖3展示了本文的字符關(guān)聯(lián)模塊的架構(gòu)圖。
2.4多頭注意力模塊
注意力機(jī)制的核心思想是通過(guò)對(duì)輸入數(shù)據(jù)的不同部分賦予不同的權(quán)重,以表示它們?cè)谔囟ㄈ蝿?wù)中的相對(duì)重要性。因此,可以將注意力機(jī)制看作一種強(qiáng)調(diào)或弱化某些特征的方法,使得模型能夠更好地關(guān)注到與當(dāng)前任務(wù)最相關(guān)的特征。傳統(tǒng)的注意力機(jī)制通常是基于RNN等模型實(shí)現(xiàn)的,存在依賴(lài)前一時(shí)刻以及順序執(zhí)行的問(wèn)題。本文提出的多頭注意力模塊是將多個(gè)注意力機(jī)制進(jìn)行堆疊,在每個(gè)注意力機(jī)制之間進(jìn)行殘差級(jí)聯(lián),這種做法大大增強(qiáng)了模型的識(shí)別能力。通過(guò)不斷地訓(xùn)練模型,每個(gè)注意力機(jī)制在不同的位置能夠同時(shí)處理來(lái)自不同特征子空間的信息,從而得到更全面、豐富的特征表示。其中,自注意力機(jī)制可以快速地提取局部特征內(nèi)部的依賴(lài)關(guān)系,采用縮放點(diǎn)積注意力,首先將位置關(guān)聯(lián)模塊的輸出特征[WTHX]Y[WTBX]通過(guò)3次不同的線性變換得到3個(gè)維度均為d2的輸入矩陣,即查詢[WTHX]Q、鍵K、值V,其次將Q、K[WTBX]的轉(zhuǎn)置做點(diǎn)積運(yùn)算并除以 ,最后將Softmax處理獲得的結(jié)果與[WTHX]V[WTBX]做張量乘法??s放點(diǎn)積注意力的計(jì)算公式為
2.5字符輸出模塊
長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)能使循環(huán)神經(jīng)網(wǎng)絡(luò)記錄之前的信息和忽略一些不重要的信息,從而對(duì)長(zhǎng)期語(yǔ)境等關(guān)系進(jìn)行建模。門(mén)控循環(huán)單元(GRU)在此基礎(chǔ)上,保留了長(zhǎng)期序列信息,同時(shí)可以減少梯度消失問(wèn)題。因此,字符輸出模塊由一個(gè)注意力機(jī)制和一個(gè)GRU組成。多頭注意力機(jī)制輸出的特征向量輸入字符輸出模塊后,最終的輸出為結(jié)果序列。
字符輸出模塊的注意力機(jī)制可以獲取到每個(gè)字符之間的依賴(lài)關(guān)聯(lián)信息,即不管在哪個(gè)時(shí)間或者步驟上,都可以只關(guān)注想要識(shí)別的字符。在解碼環(huán)節(jié),該模塊通過(guò)不斷地更新其狀態(tài),能夠全面獲得特征向量中的全部狀態(tài)信息。用Z=(z1,z2,…,zM)表示輸出的結(jié)果序列,其中M為每個(gè)序列特征的迭代次數(shù),即生成的序列長(zhǎng)度也為M。輸出至t步,本文的識(shí)別模型由多頭注意力的輸出、字符輸出模塊中GRU的隱藏層狀態(tài)以及t-1步時(shí)的zt-1輸出獲得結(jié)果序列。在t步時(shí),zt的計(jì)算公式如下:
3實(shí)驗(yàn)結(jié)果(Experimentalresult)
3.1實(shí)驗(yàn)細(xì)節(jié)
在本文的實(shí)驗(yàn)過(guò)程中,首先將原始圖像輸入字符檢測(cè)模塊中進(jìn)行檢測(cè),并提取字符特征,為了提高字符檢測(cè)的精度,輸入的圖片必須具有較高的分辨率。其次將字符檢測(cè)模塊輸出圖像作為識(shí)別模塊中的輸入圖像,控制點(diǎn)數(shù)量設(shè)置為20。為了使訓(xùn)練集的數(shù)據(jù)更具針對(duì)性,需要對(duì)兩個(gè)不規(guī)則文本中的圖像進(jìn)行字符的標(biāo)注,使用ICDAR2013、ICDAR2015、TotalText數(shù)據(jù)集進(jìn)行訓(xùn)練,并且將mini\|batch的大小設(shè)置為256。使用SGD(StochasticGradientDescent)對(duì)訓(xùn)練的參數(shù)進(jìn)行逐步優(yōu)化,SGD動(dòng)量的大小為0.9,權(quán)重的衰減大小為0.001,進(jìn)行2×104次迭代;為了保證參數(shù)的最優(yōu)化,學(xué)習(xí)率設(shè)置為0.001。
在識(shí)別階段有兩層單向連接的LSTM單元,多頭注意力模塊是由2個(gè)Transformer單元塊組成的,由字符輸出模塊輸出最終的字符序列。模型訓(xùn)練時(shí),使用AdaDelta(AdaptiveDelta)進(jìn)行參數(shù)上的優(yōu)化,在識(shí)別階段有兩層單向連接的LSTM單元,批處理大小為256,初始學(xué)習(xí)率為0.6,輸出序列N的最大長(zhǎng)度設(shè)置為25。
[BT5+*3.2數(shù)據(jù)集與評(píng)價(jià)指標(biāo)
為了準(zhǔn)確評(píng)估本文所提實(shí)驗(yàn)方法的有效性,需要將其與一些常見(jiàn)的自然場(chǎng)景文本檢測(cè)識(shí)別方法進(jìn)行對(duì)比,本文選擇數(shù)據(jù)集ICDAR(InternationalConferenceonDocumentAnalysisandRecognition)2013、ICDAR2015和TotalText作為訓(xùn)練集和測(cè)試集,前者為規(guī)則數(shù)據(jù)集,后兩者為不規(guī)則數(shù)據(jù)集。
評(píng)價(jià)文本檢測(cè)模塊部分,主要使用文本檢測(cè)方法中的查準(zhǔn)率P、查全率R和調(diào)和平均值F。
查準(zhǔn)率P的計(jì)算公式為
對(duì)整個(gè)文本識(shí)別結(jié)果的性能評(píng)估指標(biāo)采用單詞級(jí)的識(shí)別精度。
消融實(shí)驗(yàn)采用的評(píng)估指標(biāo)為FS、FW、FG、Ffull、Fnone,分別代表使用ICDAR2013、ICDAR2015測(cè)試集提供的強(qiáng)詞典、弱詞典、通用詞典、TotalText測(cè)試詞典和無(wú)詞典輔助。
3.3定量實(shí)驗(yàn)結(jié)果分析
在ICDAR2013、ICDAR2015和TotalText數(shù)據(jù)集上,將本文的檢測(cè)模型與其他檢測(cè)方法進(jìn)行了實(shí)驗(yàn)對(duì)比,結(jié)果如表1所示,從表1中的數(shù)據(jù)可以看出,本文的檢測(cè)模型展現(xiàn)出了優(yōu)異的性能。
在ICDAR2013、ICDAR2015和TotalText數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,與表1中的其他文本檢測(cè)方法相比,本文模型在查準(zhǔn)率與查全率方面大多高于對(duì)比模型的相應(yīng)指標(biāo)值。即便與表現(xiàn)最佳的文本檢測(cè)模型相比,也僅在查全率上略微低了1百分點(diǎn)。4Wlf8Gk4WFKpay0Mmkj/CuRPBDgg961JTQ5cBxBHIPE=這一結(jié)果充分證明了本文檢測(cè)模型具有高度的魯棒性。
表2展示了本文檢測(cè)模型與其他檢測(cè)模型在ICDAR2013、ICDAR2015及TotalText數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果。從表2的實(shí)驗(yàn)結(jié)果中可以看出,本文的檢測(cè)模型在3個(gè)數(shù)據(jù)集上分別取得了93.7%、83.0%、88.6%的優(yōu)異結(jié)果,相比于其他模型,性能更優(yōu)。尤其在不規(guī)則文本數(shù)據(jù)集ICDAR2015及TotalText上,本文的檢測(cè)模型表現(xiàn)更優(yōu)異。即便在ICDAR2013數(shù)據(jù)集上稍遜于EPAN,但是EPAN在ICDAR2015、TotalText上EPAN數(shù)據(jù)集上獲得的精度結(jié)果不如本文的檢測(cè)模型。
與TextScanner、Two\|Attention模型相比,本文模型在ICDAR2015、TotalText數(shù)據(jù)集上展現(xiàn)出了較大的性能提升。具體而言,相較于Two\|Attention模型,本文在ICDAR2015、TotalText數(shù)據(jù)集上分別提升了3.7百分點(diǎn)、1.8百分點(diǎn);與TextScanner模型相比,則分別提升了3.6百分點(diǎn)、5.3百分點(diǎn)。當(dāng)與基于注意力機(jī)制的SAR、EPAN模型相比,本文模型在ICDAR2015、TotalText不規(guī)則的文本數(shù)據(jù)集上相比于ICDAR2013有更大的性能提升。本文模型的識(shí)別模塊考慮了相鄰字符間的關(guān)聯(lián)信息與上下文之間的語(yǔ)義信息,因此與傳統(tǒng)采用分割或者基于傳統(tǒng)注意力機(jī)制的模型相比,能夠逐一獲取字符之間的關(guān)聯(lián)信息,并關(guān)聯(lián)到全局之間的語(yǔ)義信息,可以獲得更佳的實(shí)驗(yàn)結(jié)果。
3.4消融實(shí)驗(yàn)
本小節(jié)通過(guò)消融實(shí)驗(yàn)評(píng)估不同模塊對(duì)模型總體性能的影響。為驗(yàn)證本文使用的ResNet\|101對(duì)檢測(cè)模塊起到的重要作用,設(shè)計(jì)了對(duì)比實(shí)驗(yàn),將改進(jìn)后的FasterRCNN(采用ResNet\|101)與原始版本的FasterRCNN(采用VGG\|16作為基準(zhǔn)框架)進(jìn)行性能對(duì)比。此消融實(shí)驗(yàn)同樣在ICDAR2013、ICDAR2015和TotalText數(shù)據(jù)集上進(jìn)行,對(duì)比結(jié)果如表3所示。Ours(1)代表使用原來(lái)的VGG\|16框架的實(shí)驗(yàn)結(jié)果。
在文本識(shí)別階段,Ours(2)代表從本文模型去除字符關(guān)聯(lián)模塊和多頭注意力模塊,僅采用Bi\|LSTM進(jìn)行序列建模。實(shí)驗(yàn)對(duì)比結(jié)果如表4所示。觀察表4的數(shù)據(jù)可以得出,字符關(guān)聯(lián)模塊和多頭注意力模塊對(duì)本文模型的性能有很大的提升作用。
在ICDAR2013、ICDAR2015、TotalText數(shù)據(jù)集上,僅依賴(lài)Bi\|LSTM進(jìn)行序列建模的消融實(shí)驗(yàn)?zāi)P团c本文模型相比,顯示性能分別下降了0.9百分點(diǎn)、2.8百分點(diǎn)、4.2百分點(diǎn)。由此可以得出,僅使用Bi\|LSTM進(jìn)行序列的建模,其性能表現(xiàn)一般,容易漏檢圖像中的字符。相比之下,本文模型使用字符關(guān)聯(lián)模塊和多頭注意力模塊進(jìn)行序列建模,可以使字符的區(qū)域逐一對(duì)齊并對(duì)其成功加以檢測(cè)識(shí)別,使得字符所在的區(qū)域可以獲得更合理的比例權(quán)重。
4結(jié)論(Conclusion)
本文提出的基于多頭注意力機(jī)制的文本檢測(cè)識(shí)別方法考慮了字符之間的關(guān)聯(lián)信息和上下文之間的語(yǔ)義信息。首先,使用改進(jìn)的FasterRCNN模型求出場(chǎng)景圖像中所有字符的特征向量;其次,通過(guò)識(shí)別模塊中的各個(gè)模塊獲得識(shí)別結(jié)果。針對(duì)檢測(cè)部分魯棒性低的問(wèn)題,研究人員對(duì)FasterRCNN進(jìn)行改進(jìn),使其能夠更好地應(yīng)對(duì)復(fù)雜不規(guī)則的文本。對(duì)于識(shí)別階段中上下文之間字符信息語(yǔ)義不相關(guān)的問(wèn)題,引入字符關(guān)聯(lián)模塊和多頭注意力模塊,可以關(guān)聯(lián)字符之間的語(yǔ)義信息并對(duì)其檢測(cè)識(shí)別。在實(shí)驗(yàn)部分,本文選取了常見(jiàn)的檢測(cè)模型及識(shí)別方法與本文的檢測(cè)模塊以及整體模型進(jìn)行比較,并在3個(gè)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),結(jié)果表明本文的檢測(cè)模型的查全與查準(zhǔn)以及識(shí)別準(zhǔn)確度都很出色,尤其是在不規(guī)則文本ICDAR2015、TotalText中的表現(xiàn)更好。在接下來(lái)的工作中,將擴(kuò)充方法來(lái)對(duì)全文之間語(yǔ)義信息不顯著的文本進(jìn)行檢測(cè)識(shí)別。
參考文獻(xiàn)(References)
[1]ZHUY,YAOC,BAIX.Scenetextdetectionandrecognition:recentadvancesandfuturetrends[J].Frontiersofcomputerscience,2016,10(1):19\|36.
[2]LIH,WANGP,SHENCH,etal.Towardsend\|to\|endtextspottingwithconvolutionalrecurrentneuralnetworks[C]∥IEEE.Proceedingsofthe20cFDWvilYO2ezGTqeP+iNi5bmeGidGZ/hz4BsW6utNq8=17IEEEInternationalConferenceonComputerVision.Venice:IEEE,2017:5238\|5246.
[3]ZOUBJ,YANGWJ,LIUS,etal.Athree\|stagetextrecognitionframeworkfornaturalsceneimages[J].JournalofZhejiangUniversity(NaturalScience),2021,48(1):1\|8.
[4]WANGXY,DONGLF.ApplicationofattentionmechanisminofflineChinesehandwrittentextlinerecognition[J].Journalofchinesecomputersystems,2019,40(9):1876\|1880.
[5]WANT,WUDJ,COATESA,etal.End\|to\|endtextrecognitionwithconvolutionalneuralnetworks[C]∥IEEE.Proceedingsofthe21stInternationalConferenceonPatternRecognition(ICPR2012).HonshuIsland:IEEE,2012:3304\|3308.
[6]NEUMANNL,MATASJ.Real\|timescenetextlocalizationandrecognition[C]∥IEEE.Proceedingsofthe2012IEEEConference onComputerVisionandPatternRecognition.Providence:IEEE,2012:3538\|3545.
[7]JADERBERGM,SIMONYANK,VEDAIDIA,etal.Readingtextinthewildwithconvolutionalneuralnetworks[J].Internationaljournalofcomputervision,2016,116(1):1\|20.
[8]ALMAZNJ,GORDOA,F(xiàn)ORNSA,etal.Wordspottingandrecognitionwithembeddedattributes[J].IEEEtransactionsonpatternanalysisandmachineintelligence,2014,36(12):2552\|2566.
[9]楊麗,吳雨茜,王俊麗,等.循環(huán)神經(jīng)網(wǎng)絡(luò)研究綜述[J].計(jì)算機(jī)應(yīng)用,2018,38(S2):1\|6,26.
[10]LIUX,LIANGD,YANS,etal.Fastorientedtextspottingwithaunifiednetwork[C]∥IEEE.ProceedingsoftheInternationalConferenceonComputerVision.S\|eoul:IEEE,2019:5676\|5685.
[11]SHIBG,BAIX,YAOC.Anend\|to\|endtrainableneuralnetworkforimage\|basedsequencerecognitionanditsapplicationtoscenetextrecognition[J].IEEEtransactionsonpatternanalysisandmachineintelligence,2016,39(11):2298\|2304.
[12]BAHDANAUD,CHOKH,BENGIOY.Neuralmachinetranslationbyjointlylearningtoalignandtranslate[C]∥Ithaca.Proceedingsofthe3rdInternationalConferenceonLearningRepresentations(ICLR).SanDiego:Ithaca,2015.
[13]劉崇宇,陳曉雪,羅燦杰,等.自然場(chǎng)景文本檢測(cè)與識(shí)別的深度學(xué)習(xí)方法[J].中國(guó)圖象圖形學(xué)報(bào),2021,26(6):1330\|1367.
[14]LEECY,OSINDEROS.Recursiverecurrentnetswithattentionmodelingforocrinthewild[C]∥IEEE.Proceedingsofthe2016IEEEConferenceonComputerVisionandPatternRecognition.LasVegas:IEEE,2016:2231\|2239.
[15]馬洋洋,肖冰.基于CTC\|Attention脫機(jī)手寫(xiě)體文本識(shí)別[J].激光與光電子學(xué)進(jìn)展,2021,58(12):130\|137.
[16]SHIBG,YANGMK,WANGXG,etal.ASTER:anattentionalscenetextrecognizerwithflexiblerectification[J].IEEEtransactionsonpatternanalysisandmachineintelligence,2019,41(9):2035\|2048.
[17]JADERBERGM,SIMONYANK,ZISSERMANA.Spatialtransformernetworks[C]∥NIPS.AdvancesinNeuralInformationProcessingSystems.Montreal:NIPS,2015:2017\|2025.
[18]宋問(wèn)玉,杜文爽,封宇,等.雙注意力機(jī)制的復(fù)雜場(chǎng)景文字識(shí)別網(wǎng)絡(luò)[J].無(wú)線電工程,2024,54(2):343\|350.
[19]LYUPY,LIAOMH,YAOC,etal.MaskTextSpotter:Anend\|to\|endtrainableneurralnetworkforspottingtextwitharbitraryshapes[C]∥Springer.ProceedingsoftheEuropeanConferenceonComputerVision.Munich:Springer,2018:67\|83.
[20]ZHANGRY,WANGQQ,LUY.CombinationofResNetandcenterlossbasedmetriclearningforhandwrittenChinesecharacterrecognition[C]∥IEEE.Proceedingsofthe201714thIAPRInternationalConferenceonDocumentAnalysisandRecognition.Kyoto:IEEE,2017:25\|29.
[21]LIUB,ZHANGXY,GAOZY,etal.WelddefectimagesclassificationwithVGG16\|basedneuralnetwork[C]∥ZHAIG,ZHOUJ,YANGX.InternationalForumonDigitalTVandWirelessMultimediaCommunications.Singapore:Springer,2018:215\|223.
[22]TIANZ,HUANGWL,HET,etal.Detectingtextinnaturalimagewithconnectionisttextproposalnetwork[C]∥Springer.Proceedingsof theEuropeanConferenceonComputerVision.Amsterdam:Springer,2016:56\|72.[HJ1.75mm]
[23]LIJM,ZHANGCQ,SUNYP,etal.Detectingtextinthewildwithdeepcharacterembeddingnetwork[C]∥Springer.Proceedingsofthe14thAsiaConferenceonComputerVision.Perth:Springer,2018:501\|517.
[24]LONGSB,RUANJQ,ZHANGWJ,etal.TextSnake:Aflexiblerepresentationfordetectingtextofarbitraryshapes[C]∥Springer.ProceedingsoftheEuropeanConferenceonComputerVision.Cham:Springer,2018:19\|35.
[25]XUECH,LUSJ,ZHANGW.MSR:multi\|scaleshaperegressionforscenetextdetection[C]∥MorganKaufmannProceedingsoftheTwenty\|EighthInternationalJointConferenceonArtificialIntelligence.Macao:MorganKaufmann,2019:989\|995.
[26]LIAOMH,SHIBG,BAIX.TextBoxes++:asingle\|shotorientedscenetextdetector[J].IEEEtransactionsonimageprocessing:apublicationoftheieeesignalprocessingsociety,2018,27(8):3676\|3690.
[27]LIAOMH,LYUPY,HEMH,etal.MaskTextSpotter:anend\|to\|endtrainableneuralnetworkforspottingtextwitharbitraryshapes[J].IEEEtransactionsonpatternanalysisandmachineintelligence,2021,43(2):532\|548.
[28]ZHANFN,LUSJ.ESIR:end\|to\|endscenetextrecognitionviaiterativeimagerectification[C]∥IEEE.Proceedingsofthe2019IEEE/CVFConferenceonComputerVisionandPatternRecognition.LongBeach:IEEE,2019:2054\|2063.
[29]YANGMK,GUANYS,LIAOMH,etal.Symmetry\|constrainedrectificationnetworkforscenetextrecognition[C]∥IEEE.Proceedingsofthe2019IEEE/CVFInternationalConferenceonComputerVision.Seoul:IEEE,2019:9147\|9156.
[30]WANZY,HEMH,CHENHR,et al.Textscanner:readingcharactersinorderforrobustscenetextrecognition[C]∥AAAI.ProceedingsoftheAAAIConferenceonArtificialIntelligence.NewYork:AAAI,2020,34(7):12120\|12127.
[31]LIH,WANGP,SHENCH,etal.Show,attendandread:asimpleandstrongbaselineforirregulartextrecognition[C]∥AAAI.ProceedingsoftheAAAIConferenceonArtificialIntelligence.Honolulu:AAAI,2019,33(1):8610\|8617.
[32]HUANGYL,SUNZH,JINLW,etal.EPAN:effectivepartsattentionnetworkforscenetextrecognition[J].Neurocomputing,2020,376:202\|213.