陳 敏,葉東毅,陳羽中
(福州大學(xué) 計算機(jī)與大數(shù)據(jù)學(xué)院,福州 350116) (福建省網(wǎng)絡(luò)計算與智能信息處理重點(diǎn)實驗室,福州 350116) E-mail:yzchen@fzu.edu.cn
文字具有豐富的語義信息,可以作為一種信息交流的方式嵌入到文檔或自然場景中,是人類信息傳遞與交互的主要途徑之一.自然場景中的文字識別可以幫助我們客觀地理解世界,在無人駕駛、圖像檢索、機(jī)器人導(dǎo)航、遙感圖像識別等領(lǐng)域獲得了廣泛應(yīng)用.目前,傳統(tǒng)的用于文檔文本的光學(xué)字符識別系統(tǒng)已經(jīng)非常成熟,但如何在自然場景下精確識別文本仍然是一個具有挑戰(zhàn)性的問題.主要原因在于文本圖像中存在字體變化多樣、光照不均、文本布局不規(guī)則、文本過度彎曲等問題,導(dǎo)致模型所輸出的字符序列和輸入圖像之間存在錯位,嚴(yán)重影響模型的文本識別精度.因此,研究者逐漸開始關(guān)注現(xiàn)實生活中理解難度較大的復(fù)雜場景下的不規(guī)則文本識別任務(wù).
隨著卷積神經(jīng)網(wǎng)絡(luò)CNN(Convolutional Neural Network)和循環(huán)神經(jīng)網(wǎng)絡(luò)RNN(Recurrent Neural Network)得到廣泛的應(yīng)用,提升了場景文本識別網(wǎng)絡(luò)的上下文建模能力并且取得了很好的效果.然而,目前大多數(shù)的模型魯棒性較差,不規(guī)則文本的各種形狀和彎曲模式對識別造成了更大的困難.一方面,由于圖像背景復(fù)雜,相鄰字符黏連緊密,容易產(chǎn)生識別誤差,需要對單個字符進(jìn)行順序定位.另一方面,主流識別網(wǎng)絡(luò)只考慮局部序列上下文依賴關(guān)系,在預(yù)測字符序列時,缺少全局語義信息的監(jiān)督,會錯誤識別邊緣特征,需考慮獲取全局語義信息作為補(bǔ)充.由此可見,對于自然場景下的文本識別,不僅依賴于圖像的視覺特征,還取決于相鄰字符間的位置信息和全局語義信息.
要正確識別文本圖像中的內(nèi)容,必須準(zhǔn)確感知每個字符的順序.通常,一個文本中的字符大小是相同的.然而,不同場景文本中的字符布局可能不同.因此,從場景圖片中獲取字符的位置信息將有利于對數(shù)據(jù)信息更深層次的挖掘.基于上述分析,本文提出了位置關(guān)聯(lián)模塊,該模塊通過將高維特征圖逐列分離成一維向量,在每個時間步上將一維向量連接到長短期記憶單元,并采用多層連接設(shè)計順序關(guān)聯(lián)一維向量,不僅對上下文信息進(jìn)行編碼,而且對位置信息進(jìn)行編碼.最后通過雙層卷積神經(jīng)網(wǎng)絡(luò)歸一化序列特征,生成與形狀和字符排列相適應(yīng)的特征圖,有助于順序獲取字符間的位置信息以大致確定字符位置.
針對全局語義信息不足問題,主流的文本識別方法[1,2]都采用單向串行傳輸?shù)姆绞?遞歸地感知當(dāng)前解碼時間步的語義信息.但這些方法都只能從每個解碼時間步中獲取有限的語義信息,并且第1個解碼時間步?jīng)]有可用的語義信息,甚至?xí)蛳聜鬟f錯誤的語義信息,導(dǎo)致錯誤積累.同時,串行傳輸模式效率較低.針對上述問題,本文提出了一個并行注意力模塊,該模塊基于多路并行傳輸?shù)姆绞将@取全局語義信息,通過多頭自注意力機(jī)制進(jìn)行上下文通信,可以同時感知一個字符或一行中所有字符的語義信息,選擇性地關(guān)注文本關(guān)鍵信息而忽略其他次要信息,提升了模型的高效性.
基于上述問題,本文提出了一種基于多路并行的位置關(guān)聯(lián)網(wǎng)絡(luò)(Multi-Path Parallel Location Association Network,MPLAN),MPLAN能夠有效對齊字符,確保字符間位置信息相關(guān)聯(lián),同時能夠并行捕獲全局語義信息,避免了注意力漂移問題.主要貢獻(xiàn)如下:
1)MPLAN通過關(guān)聯(lián)字符位置信息與全局語義信息,提高了場景文本識別網(wǎng)絡(luò)的準(zhǔn)確性和有效性.
2)MPLAN提出了位置關(guān)聯(lián)模塊,在序列特征中順序捕獲相鄰字符間的位置信息,使得特征向量表達(dá)出空間位置特性.解決了缺少字符間位置信息的問題.
3)MPLAN提出了并行注意力模塊來獲取全局語義信息,該模塊通過關(guān)聯(lián)局部特征的相關(guān)性,采用多路并行的傳輸方式獲取全局語義信息,解決了場景文本識別中全局語義信息不足的問題.
4)MPLAN在訓(xùn)練階段只需要單詞級注釋,可充分利用真實數(shù)據(jù)和合成數(shù)據(jù)進(jìn)行訓(xùn)練.并在包括規(guī)則文本、不規(guī)則文本在內(nèi)的幾個測試數(shù)據(jù)集基準(zhǔn)上達(dá)到了最先進(jìn)的性能.
早期的場景文本識別方法[3,4]大多基于逐個字符分類的方法完成場景文本識別,即先通過滑動窗口檢測單個字符,利用設(shè)計好的字符分類模型識別出每個字符類別,再采用動態(tài)規(guī)劃的方法將其整合得到文本單詞內(nèi)容.但這些方法依賴于人工設(shè)計的特征工程和驗證規(guī)則,將難以滿足復(fù)雜的自然場景文本識別需求.隨后,又提出了基于單詞分類的識別方法,即直接從整個圖像中預(yù)測文本實例,以單詞表為依據(jù),進(jìn)行單詞類別識別,不需要檢測單個字符.Jaderberg等人[5]將場景文本圖像的識別任務(wù)轉(zhuǎn)換為文本分類任務(wù),將整張文本圖像輸入到CNN網(wǎng)絡(luò)中,以高召回率的區(qū)域建議方法和過濾階段來進(jìn)一步回歸字符邊界框,采用字典分類模型輸出目標(biāo)文本序列.Almazan等人[6]提出從輸入圖像中預(yù)測標(biāo)簽嵌入向量,將輸入圖像和對應(yīng)的文本標(biāo)注映射到同一個公共的向量空間中計算最近距離.文獻(xiàn)[7]采用具有結(jié)構(gòu)化輸出層的卷積神經(jīng)網(wǎng)絡(luò)與條件隨機(jī)場CRF(Conditional Random Field)相結(jié)合的模型,實現(xiàn)了無字典約束的文本識別.
近年來,隨著深度學(xué)習(xí)的進(jìn)一步發(fā)展,場景文本識別算法取得了巨大進(jìn)展.場景文本通常以字符序列的形式出現(xiàn),因此通常將其建模為序列識別問題,并使用RNN對序列特征進(jìn)行建模.Sutskever等人[8]用序列特征表示圖像,采用遞歸神經(jīng)網(wǎng)絡(luò)將輸入特征映射成固定維度的向量,再使用另一個遞歸神經(jīng)網(wǎng)絡(luò)從向量中解碼目標(biāo)字符序列.Shi等人[9]將CNN與RNN相結(jié)合運(yùn)用到場景文本識別中,使用CNN從輸入文本圖像中提取圖像特征,使用RNN對其進(jìn)行序列重構(gòu),采用聯(lián)結(jié)主義時間分類損失來識別字符數(shù),實現(xiàn)字符序列預(yù)測.由于這類方法賦予不同位置上的序列特征相同的權(quán)重,將難以定位關(guān)鍵字符識別區(qū)域,并且串行計算降低了運(yùn)算效率.因此,Yang等人[10]提出了一種基于Transformer[11,12]的注意力解碼器,可以有效地處理長序列,而且能并行地執(zhí)行訓(xùn)練,提升了模型的收斂速度.
隨著注意力機(jī)制[13]在自然語言處理領(lǐng)域的成功,越來越多的研究者將其運(yùn)用到場景文本識別領(lǐng)域.Lee等人[14]提出使用具有注意力建模的遞歸卷積神經(jīng)網(wǎng)絡(luò)來構(gòu)建更加緊密的特征空間和捕獲長距離的上下文依賴關(guān)系.該模型將輸入文本圖像水平編碼為一維序列特征,然后利用上一個時間步驟的語義信息引導(dǎo)視覺特征隱式建模字符級語言模型,之后由解碼器生成目標(biāo)字符序列.Cheng等人[15]指出現(xiàn)有注意力機(jī)制存在的注意力漂移問題,并提出了一個關(guān)注注意力網(wǎng)絡(luò)FAN(Focusing Attention Network),使得偏移的注意力重新聚焦在目標(biāo)區(qū)域上,從而確保解碼階段的字符與序列特征能夠?qū)R.FAN能夠自動調(diào)整注意力網(wǎng)絡(luò)的注意力中心,但需要額外的字符級的標(biāo)注.Wang等人[16]提出了一個解耦注意力網(wǎng)絡(luò)DAN(Decoupled Attention Network),該網(wǎng)絡(luò)設(shè)計了一個卷積對齊模塊CAM替換傳統(tǒng)注意力解碼器中的遞歸對齊模塊,將對齊操作與歷史解碼結(jié)果解耦合,避免了錯誤信息的積累,使得識別算法的性能進(jìn)一步提升.Litman等人[17]提出了一個選擇性上下文優(yōu)化網(wǎng)絡(luò)SCATTER(Selective Context ATtentional Text Recognizer),采用堆疊特征監(jiān)督塊的方式,細(xì)化視覺特征表示,編碼上下文相關(guān)性,并將視覺特征與上下文特征拼接,提升了選擇性解碼器的識別精度.
上述模型主要針對水平方向上的規(guī)則文本圖像,難以準(zhǔn)確識別存在透視失真或任意形狀彎曲的不規(guī)則文本圖像中的字符.為了準(zhǔn)確識別復(fù)雜場景下的不規(guī)則文本圖像,研究人員嘗試在預(yù)處理階段對不規(guī)則文本圖像進(jìn)行矯正.Shi等人[18]提出基于空間變換網(wǎng)絡(luò)STN(Space Transformer Network)[19],使用薄板樣條算法TPS(Thin Plate Spline)將不規(guī)則的文本矯正為線性排列的文字序列,并采用雙向長短期記憶網(wǎng)絡(luò)進(jìn)行序列建模,提高了識別性能.ESIR[20]采用一種新穎的線性擬合變換估計文本行中的字符位置,并通過多次迭代空間變換網(wǎng)絡(luò)的方法產(chǎn)生更精確的失真矯正.Yang等人[21]提出一種對稱約束的矯正網(wǎng)絡(luò)ScRN(Symmetry-constrained Rectification Network),使用每個文本實例的中心線,并通過一些幾何屬性(包括文本中心線方向、字符方向和比例)添加對稱約束.由于對文本形狀的詳細(xì)描述和對稱約束的顯式描述,ScRN在文本矯正方面具有較強(qiáng)的魯棒性.Lin等人[22]提出了一個以分解為核心思想的圖像矯正網(wǎng)絡(luò)STAN(Sequential Transformation Attention-based Network),利用空間變換網(wǎng)絡(luò)將仿射變換獨(dú)立作用在分割后的圖像塊上,通過網(wǎng)格投影子模塊平滑相鄰塊之間的連接來矯正不規(guī)則文本.由于文本矯正網(wǎng)絡(luò)無法有效解決復(fù)雜場景中的模糊、光照不均等問題,一些研究人員考慮通過獲取2D空間信息進(jìn)行不規(guī)則文本識別.Li等人[23]設(shè)計了一個二維注意力編碼器網(wǎng)絡(luò)SAR(Show-Attend-and-Read),通過額外添加一個二維注意力分支,為單個字符選擇局部特征和字符領(lǐng)域信息,提升了文本識別精度.Huang等人[24]提出了有效區(qū)域注意網(wǎng)絡(luò)EPAN(Effective Parts Attention Network),該網(wǎng)絡(luò)引入了兩階段注意力機(jī)制,第2階段的注意力機(jī)制從第一階段的注意力機(jī)制生成的過濾特征中選擇輔助信息用于定位有效字符區(qū)域.
為了獲取字符位置信息,一些研究工作采用語義分割的方法對單個字符位置進(jìn)行分割.Wan等[25]設(shè)計了一種基于語義分割的雙分支識別系統(tǒng)TextScanner,兩個分支可以獨(dú)立預(yù)測字符的類別和幾何信息,借助字符間的位置順序提高了模型識別性能.Two-Attention[26]是基于FCN(Fully ConvolutionalNeural Networks)的語義分割識別網(wǎng)絡(luò),將不規(guī)則文本識別視為圖像分割問題,設(shè)計了二維注意力編碼器網(wǎng)絡(luò),通過搜索字符的空間位置關(guān)系提升了識別性能.不過基于分割的方法需要精確到字符級的標(biāo)注,訓(xùn)練代價較大.
本文所提出的并行位置關(guān)聯(lián)網(wǎng)絡(luò)MPLAN的框架如圖1所示.MPLAN是一個可端到端訓(xùn)練的網(wǎng)絡(luò)模型,包括文本矯正模塊、特征提取模塊、位置關(guān)聯(lián)模塊、并行注意力模塊和字符預(yù)測模塊.給定一個輸入圖像I,由文本矯正模塊對輸入圖像進(jìn)行歸一化矯正,得到矯正圖像Ir,然后通過特征提取模塊從矯正圖像Ir中提取視覺特征F,位置關(guān)聯(lián)模塊從視覺特征F中逐列捕獲字符位置信息,其輸出是一個包含不同字符位置信息的特征向量M.并行注意力模塊通過多通道對位置關(guān)聯(lián)模塊輸出的特征向量M并行解碼,生成N個對齊的一維序列特征P,每個特征對應(yīng)文本中的一個字符,并捕獲對齊后的全局語義信息.最后,將對齊后的特征向量征P輸入字符預(yù)測模塊,輸出N個預(yù)測字符.
在自然場景中,過度彎曲文本和透視失真文本十分常見,給識別工作帶來了極大的挑戰(zhàn).本文在圖像預(yù)處理階段針對不規(guī)則文本進(jìn)行水平矯正.文本矯正網(wǎng)絡(luò)是以空間變換網(wǎng)絡(luò)STN為基礎(chǔ),并結(jié)合TPS進(jìn)行參數(shù)變換.其中,TPS是基于二維空間的插值方法,針對彎曲文本進(jìn)行非剛性變換,廣泛運(yùn)用于在文本圖像的變換和匹配.STN由定位網(wǎng)絡(luò)、網(wǎng)格生成器和采樣器3個部分組成.定位網(wǎng)絡(luò)會沿輸入圖像I中文本的上下邊界預(yù)測一組固定數(shù)量的控制點(diǎn),通過控制點(diǎn)間的線性關(guān)系計算TPS變換矩陣,網(wǎng)格生成器根據(jù)控制點(diǎn)的位置和TPS變換矩陣確定采樣點(diǎn)的位置,將采樣點(diǎn)的位置信息輸入到采樣器中生成最終的矯正圖像Ir.
圖1 MPLAN整體框圖Fig.1 Overall framework of MPLAN
在特征提取階段,通過不斷堆疊卷積層和最大池化層,并使用殘差連接加深網(wǎng)絡(luò)的深度,從而提取更豐富的視覺特征.特征提取模塊以改進(jìn)的ResNet50作為骨干網(wǎng)絡(luò).改進(jìn)的ResNet50每層對應(yīng)于一個輸出,且將Block3、Block4、Block5這3個殘差塊中的步幅由(2,2)改為(1,1),并額外添加3個最大池化層用于對特征圖進(jìn)行下采樣操作.其中,最大池化層的卷積核大小為(2,1),可以在水平軸上保留更多的信息,有利于避免多字符的粘連問題.特征提取模塊以采樣器輸出的矯正圖像作為輸入,最后一層輸出特征圖,F∈H×W×D,H為高,W為寬,D為通道的數(shù)量.為了保持原始的高寬比,調(diào)整輸入圖像的大小,使其具有固定高度和可變寬度.
要正確地識別文本圖像中的內(nèi)容,就必須依賴于順序讀取字符的位置信息.針對復(fù)雜背景下的不規(guī)則文本,不僅要關(guān)注相鄰字符間的上下文語義信息,還需捕獲字符位置信息.常用的方法都需要將輸入圖像轉(zhuǎn)換為中間序列表示,并使用RNN對其進(jìn)行編碼和解碼,在解碼過程的后幾個時間步中,將會出現(xiàn)字符位置信息不足,從而導(dǎo)致字符對齊不一致的錯誤識別.針對在特征圖上精確定位字符的問題,MPLAN提出了位置關(guān)聯(lián)模塊來順序捕獲字符間的位置信息,使輸出的特征映射帶有字符位置信息.位置關(guān)聯(lián)模塊的詳細(xì)架構(gòu)如圖2所示.
圖2 位置關(guān)聯(lián)模塊結(jié)構(gòu)圖Fig.2 Structure of location association module
位置關(guān)聯(lián)模塊直接對特征提取模塊輸出的視覺特征映射F以寬度為基準(zhǔn),采用兩層單向的LSTM逐列使用512個隱藏狀態(tài)大小來順序捕獲字符位置信息和關(guān)聯(lián)上下文語義信息.對于所有特征行,可在LSTM單元內(nèi)共享參數(shù),以克服過擬合和減少參數(shù)量.然后,使用兩個3×1的卷積層,并在層間插入了一個ReLU函數(shù)來輸出包含位置信息的特征向量Fk.位置關(guān)聯(lián)模塊生成特征向量Fk的運(yùn)算過程如下:
(1)
(2)
Fk=f(F2)
(3)
位置關(guān)聯(lián)模塊將特征提取模塊的輸出F與Fk進(jìn)行級聯(lián)相加得到最后的輸出特征M∈dmodel,其中dmodel表示輸出的特征維度.這使得輸出特征能夠?qū)W習(xí)表示字符的位置信息.
注意力機(jī)制廣泛應(yīng)用于序列識別問題,其核心思想是特征對齊,將輸入特征的相關(guān)信息對齊對應(yīng)的輸出信息.在識別問題上,使得字符之間的特征相關(guān)性可以在高階特征中相互關(guān)聯(lián).傳統(tǒng)的注意力機(jī)制存在時間依賴和串行計算的問題.本文提出了一個并行注意力模塊,并行注意力模塊由多頭注意力機(jī)制和前饋神經(jīng)網(wǎng)絡(luò)構(gòu)成的網(wǎng)絡(luò)堆疊2次而成,使用殘差網(wǎng)絡(luò)連接每一個子層,通過并行訓(xùn)練增強(qiáng)網(wǎng)絡(luò)性能.并行注意力模塊采用多頭注意力機(jī)制在不同特征子空間中學(xué)習(xí)相關(guān)信息,并使用前饋神經(jīng)網(wǎng)絡(luò)作用于注意力機(jī)制輸出的每一個位置上,進(jìn)而從多角度得到更全面的特征表示.
多頭注意力機(jī)制是集成多個獨(dú)立運(yùn)行的自注意力機(jī)制,可以在不同的位置聯(lián)合處理來自不同特征表示子空間的信息,從而實現(xiàn)并行編碼.其中,自注意力機(jī)制是注意力機(jī)制的一個特例,可以快速提取局部特征內(nèi)部的依賴關(guān)系,并且只針對重要信息進(jìn)行學(xué)習(xí).自注意力機(jī)制主要采用縮放點(diǎn)積注意力,首先將位置關(guān)聯(lián)模塊的輸出特征M通過3次不同的線性變換得到3個維度均為dk的輸入矩陣:查詢Q、鍵K、值V,輸出是根據(jù)Q與K的相似度計算V上的加權(quán)和.縮放點(diǎn)積注意力計算公式如下:
(4)
Softmax可以將Q和K的點(diǎn)積運(yùn)算結(jié)果進(jìn)行歸一化處理.并行注意力模塊可以并行計算n_head次縮放點(diǎn)積注意力,然后將n_head次的縮放點(diǎn)積注意力結(jié)果進(jìn)行拼接得到多頭注意力權(quán)重求和結(jié)果C=[c1,c2,c3,…,cN],計算公式如下:
(5)
ct=MultiHead(Q,K,V)=Concat(head1,…,headn_head)W0
(6)
前饋神經(jīng)網(wǎng)絡(luò)包含了兩個線性變換,中間有一個ReLU激活函數(shù).將多頭注意力機(jī)制的輸出C經(jīng)過前饋神經(jīng)網(wǎng)絡(luò)得到并行注意力模塊的輸出P=[p1,p2,…,pN].前饋神經(jīng)網(wǎng)絡(luò)的定義公式為:
FFN(x)=max(0,xW1+b1)W2+b2
(7)
其中,W1、b1、W2和b2都是可訓(xùn)練參數(shù).此外,運(yùn)用同一個線性變換作用在不同的位置上,權(quán)重參數(shù)在層間是共享的.
字符預(yù)測模塊的作用是將輸入的序列特征向量轉(zhuǎn)換為目標(biāo)字符串,能夠輸出任意長度的字符序列.字符預(yù)測模塊是一個單向的循環(huán)網(wǎng)絡(luò),由注意力機(jī)制和字符級的門控循環(huán)神經(jīng)網(wǎng)絡(luò)GRU組成.識別階段的注意力機(jī)制用于捕獲輸出字符間的依賴關(guān)系,使得模型在每個時間步驟上聚焦于目標(biāo)字符區(qū)域.該網(wǎng)絡(luò)更新每一個解碼步驟處的狀態(tài)都可以再次訪問序列特征中的所有狀態(tài),會更明確關(guān)注到目標(biāo)字符部分.每個序列特征都將迭代N次,產(chǎn)生長度為N的目標(biāo)字符序列,表示為Y=(y1,…,yN).
在第t步,識別網(wǎng)絡(luò)根據(jù)并行注意力模塊的的序列輸出P、GRU內(nèi)部隱藏層狀態(tài)st-1和上一步的預(yù)測yt-1來預(yù)測目標(biāo)字符或序列結(jié)束符號(EOS).當(dāng)預(yù)測出一個“EOS”時,將停止預(yù)測.整個識別網(wǎng)絡(luò)采用GRU學(xué)習(xí)注意依賴關(guān)系.在時間步長t時,輸出yt,公式如下:
yt=Softmax(WoutSt+bout)
(8)
其中,st是第t時間步GRU單元的隱藏層狀態(tài).隱藏層狀態(tài)st通過GRU的循環(huán)過程進(jìn)行更新,公式如下:
st=GRU(yp,gt,st-1)
(9)
其中,yp是上一時間步輸出yt-1的嵌入向量,gt表示上下文向量,計算特征P=[p1,p2,…,pN]的加權(quán)和,公式如下:
(10)
其中,T表示特征長度,pi∈P表示在第i時間步的序列特征向量,αt,i是注意力權(quán)重向量,公式如下:
(11)
et,i=Tanh(Wsst-1+Whpi+b)
(12)
其中,et,i為對齊得分,表示高級特征表示與當(dāng)前輸出的相關(guān)度,st-1是GRU單元的上一時間步的隱藏層狀態(tài),Wout、Ws、Wh、bout和b分別表示線性變換和分類器的偏差,都是可訓(xùn)練參數(shù).
本文在兩個合成數(shù)據(jù)集Synth90K[28]和SynthText[29]上進(jìn)行訓(xùn)練,并在6個公開數(shù)據(jù)集上進(jìn)行測試,包括IIIT5K-Words(IIIT5K)[30]、Street View Text(SVT)[31]、ICDAR 2013(IC13)[32]、ICDAR 2015(IC15)[33]、SVT-Perspective(SVT-P)[34]、CUTE80(CUTE)[35].其中,IIIT5K、SVT和IC13屬于規(guī)則文本數(shù)據(jù)集,IC15、SVT-P和CUTE屬于不規(guī)則文本數(shù)據(jù)集.
實驗中采用的對比模型有文本矯正模型Aster[18]、Esir[20]和ScRN[21],語義分割模型TextScanner[25]和Two-Attention[26],以及注意力機(jī)制模型SAR[23]、EPAN[24]、Holistic[10]、DAN[16]、Seed[27]、STAN[22].
本文實驗中,原始圖像調(diào)整為64×256輸入到文本矯正模塊中,采用較大的輸入尺寸是為了保留高分辨率.文本矯正模塊輸出大小為32×100的矯正圖像作為識別網(wǎng)絡(luò)的輸入圖像,控制點(diǎn)數(shù)量設(shè)為20.特征提取模塊中采用改進(jìn)的ResNet50作為骨干網(wǎng)絡(luò).其中,最大池化層采用2×1的下采樣步幅,有利于沿橫軸保留了更多的分辨率以區(qū)分相鄰特征.骨干網(wǎng)絡(luò)之后是兩層單向連接的LSTM單元,每一層的LSTM采用512個隱藏單元,LSTM的輸出經(jīng)過兩個3×1卷積層和ReLU激活函數(shù)將特征圖線性投影為512維.并行注意力模塊是由2個Transformer單元塊組成,其中head=8,隱藏單元數(shù)為512,最后由字符預(yù)測模塊輸出最終的字符序列.模型訓(xùn)練采用ADADELTA作為優(yōu)化器,批處理大小為128,初始學(xué)習(xí)率為0.8.設(shè)置輸出序列N的最大長度為25.性能評估指標(biāo)采用單詞級的識別精度.
在測試推理階段,模型采用波束搜索法,即每步保持累積分?jǐn)?shù)最高的k個候選項,k=5.
表1展示了MPLAN和對比模型在6個測試數(shù)據(jù)集上的實驗結(jié)果.除MPLAN模型外,其他對比模型的相關(guān)數(shù)據(jù)均來自相關(guān)文獻(xiàn).從表1的實驗結(jié)果可以發(fā)現(xiàn),在僅使用合成訓(xùn)練數(shù)據(jù)集的情況下,MPLAN模型在IIIT5K、SVT、IC13、IC15、SVT-P和CUTE這6個測試數(shù)據(jù)集上的精度為94.7%、91.5%、93.2%、82.2%、82.5%、88.2%,總體識別表現(xiàn)優(yōu)于其他對比模型,特別地,與其他對比模型相比,MPLAN在具有挑戰(zhàn)性的不規(guī)則文本數(shù)據(jù)集IC15和CUTE上性能提升顯著.MPLAN只在IC13和SVT-P測試數(shù)據(jù)集上的精度略低于TextScanner和EPAN.但是,TestScanner在訓(xùn)練階段需要額外的字符級注釋,EPAN在不規(guī)則文本數(shù)據(jù)集上的識別精度不高.
與文本矯正模型Aster、Esir和ScRN相比,MPLAN在規(guī)則文本數(shù)據(jù)集和不規(guī)則文本數(shù)據(jù)上均有顯著提升.與語義分割模型Two-Attention和TextScanner相比,MPLAN在IIIT5K、SVT、IC13、IC15、SVT-P和CUTE 這6個測試數(shù)據(jù)集上的精度相比Two-Attention模型分別提升了0.7%、1.4%、0.5%、5.9%、0.2%、1.4%.MPLAN在SVPT數(shù)據(jù)集上略低于TextScanner,在IIIT5K、SVT、IC13、IC15和CUTE 5個測試數(shù)據(jù)集上的精度相比TextScanner則分別提升了0.8%、1.4%、0.3%、2.6%、4.9%.與基于注意力機(jī)制的模型SAR、EPAN、Holistic、DAN、Seed、STAN相比,MPLAN在IC15、SVT-P和CUTE 這3個不規(guī)則文本數(shù)據(jù)集上至少獲得2.2%、0.3%和2.8%的提升,證明MPLAN在不規(guī)則文本數(shù)據(jù)集上更具優(yōu)勢.與采用語義分割或傳統(tǒng)注意力機(jī)制的模型相比,MPLAN考慮了相鄰字符間的位置信息與全局語義信息,能夠順序捕獲字符位置信息,并關(guān)聯(lián)上下文語義信息,從而提升了識別精度.
表1 MPLAN與基準(zhǔn)模型的性能對比Table 1 Overall performance of MPLAN and baseline models
本節(jié)通過消融實驗評估不同模塊對模型總體性能的影響.為了公平起見,訓(xùn)練以及測試設(shè)置均相同.MPLAN的消融模型包括了MPLAN w/o RECT、MPLAN w/o LAPA、MPLANw/oLOCATION 這3個實驗.其中,MPLAN w/o RECT表示從MPLAN去除文本矯正網(wǎng)絡(luò),將原始圖像直接輸入到識別網(wǎng)絡(luò)中.MPLANw/oLAPA表示從MPLAN中去除位置關(guān)聯(lián)模塊和并行注意力模塊,僅采用Bi-LSTM進(jìn)行序列建模.MPLANw/oLOCATION表示去除位置關(guān)聯(lián)模塊,使用Transformer中的正余弦位置編碼進(jìn)行替換.
實驗結(jié)果如表2所示,可以看出各模塊對MPLAN的整體性能均有提升作用.與MPLAN相比,MPLAN w/oRECT在數(shù)據(jù)集IIIT5K、SVT、IC13、IC15、SVT-P、CUTE上分別下降了0.7%,0.8%、0.6%、2.9%、2.7%、2.8%.上述結(jié)果表明文本矯正網(wǎng)絡(luò)可以將不規(guī)則文本調(diào)整為線性排列的規(guī)則文本,在一定程度上降低彎曲文本的識別難度.與MPLAN相比,MPLANw/oLAPA在數(shù)據(jù)集IIIT5K、SVT、IC13、IC15、SVT-P、CUTE上分別下降了0.7%,0.6%、0.9%、2.6%、0.6%、4.2%.上述結(jié)果表明使用Bi-LSTM進(jìn)行序列建模的效果不佳,因為Bi-LSTM為不同的特征分配相同的權(quán)重,使得模型難以識別到字符的有效區(qū)域,相反,結(jié)合位置關(guān)聯(lián)模塊和并行注意力模塊的序列建??梢愿咝У捻樞蚨ㄎ蛔址挠行^(qū)域,為字符區(qū)域分配更高的權(quán)重.與MPLAN相比,MPLANw/oLOCATION在數(shù)據(jù)集IIIT5K、SVT、IC13、IC15、SVT-P、CUTE上分別下降了0.7%,0.8%、1.5%、2.4%、3.7%、3.8%.因為Transformer中基于正余弦的位置編碼只學(xué)習(xí)特征的相對位置表征,無法隱式地學(xué)習(xí)序列特征的位置信息,相反,位置關(guān)模塊能在序列特征中順序捕獲相鄰字符間的位置信息,使得特征向量表達(dá)出空間位置特性,有助于提高序列特征與目標(biāo)字符的對齊準(zhǔn)確度.
表2 不同模塊對MPLAN性能影響Table 2 Effect of different modules on the performance of MPLAN
位置關(guān)聯(lián)模塊是本文提出的MPLAN模型的重要改進(jìn).為了進(jìn)一步驗證位置關(guān)聯(lián)模塊的有效性,本文在當(dāng)前最先進(jìn)的自然場景文本識別模型ASTER模型中添加位置關(guān)聯(lián)模塊,觀察位置關(guān)聯(lián)模塊對ASTER模型的性能影響.ASTER模型由文本矯正網(wǎng)絡(luò)和注意力識別網(wǎng)絡(luò)組成,在文本識別階段采用Bi-LSTM進(jìn)行序列建模.由于Bi-LSTM存在難以準(zhǔn)確識別字符有效區(qū)域的問題,因此在ASTER模型添加位置關(guān)聯(lián)模塊用于順序定位字符有效區(qū)域,在相同實驗參數(shù)設(shè)置下,實驗結(jié)果如表3所示.從實驗結(jié)果可以發(fā)現(xiàn),在不規(guī)則文本數(shù)據(jù)集IC15、SVT-P和CUTE上,添加了位置關(guān)聯(lián)模塊的ASTER+LOCATION模型相較ASTER模型在精度上分別提升了5.2%、1.7%與3.8%.上述實驗結(jié)果表明位置關(guān)聯(lián)模塊通過捕獲字符位置信息,能夠顯著提高序列特征與目標(biāo)字符的對齊準(zhǔn)確度,有效提高模型的識別性能,進(jìn)一步證明了位置關(guān)聯(lián)模塊的有效性.
表3 位置關(guān)聯(lián)模塊對ASTER模型的性能影響Table 3 Effect of location association module on the performance of ASTER
本節(jié)通過實驗分析MPLAN模型中的Transformer單元塊數(shù)量對MPLAN的性能影響.MPLAN在并行注意力模塊中,使用Transformer的處理單元并行編碼字符的全局語義信息,從而達(dá)到傳播字符上下文通信的作用.并行注意力模塊中Transformer單元塊的數(shù)量是影響MPLAN實驗效果的重要參數(shù).表4給出了相同實驗參數(shù)配置下,不同Transformer單元塊數(shù)量對MPLAN模型性能的影響.在包含常規(guī)文本、不規(guī)則文本在內(nèi)的6個測試數(shù)據(jù)集上,當(dāng)Transformer單元塊為2時,獲取全局語義信息的效果最佳,識別精度最高,且在CUTE數(shù)據(jù)集上顯著高于其余兩個參數(shù)實驗,表明模型的穩(wěn)定性還有待提高.當(dāng)Transformer單元塊為1時,存在無法有效捕獲長距離依賴關(guān)系,使序列特征缺少完整的全局語義信息.當(dāng)Transformer單元塊為4時,單元塊數(shù)過多導(dǎo)致引入了一些無關(guān)信息,賦予復(fù)雜背景過多的權(quán)重而錯誤識別為字符前景.上述實驗表明,在堆疊兩層Transformer處理單元時,模型的性能最佳.
表4 不同Transformer單元塊對MPLAN性能影響Table 4 Effect of different number of transformer unit blocks on the performance of MPLAN
本文認(rèn)為字符位置信息和全局語義信息對于自然場景下的文本識別是重要的.基于這一發(fā)現(xiàn),本文提出了一個并行位置關(guān)聯(lián)網(wǎng)絡(luò)用于解決文本識別問題.MPLAN將字符位置信息和全局語義信息相結(jié)合,從而獲得準(zhǔn)確的序列表征向量.為了有效定位字符的位置,MPLAN提出了一個位置關(guān)聯(lián)模塊來順序捕獲字符間的位置信息.在全局語義信息的獲取上,MPLAN采用了多路并行的思想,通過多通道并行獲取語義信息,有效建模目標(biāo)字符間的關(guān)聯(lián)信息.在包括規(guī)則文本和不規(guī)則文本在內(nèi)的6個公開數(shù)據(jù)集中,MPLAN都取得了最佳的識別精度效果,表明該算法明顯優(yōu)于現(xiàn)有算法.經(jīng)過驗證,本文所提出的MPLAN在針對不規(guī)則文本數(shù)據(jù)集上表現(xiàn)出了魯棒性.在未來工作中,本文將會擴(kuò)展該方法來處理無明顯上下文信息的文本識別問題,將字符位置信息同更深層次的序列建模相結(jié)合也是值得研究的一個方向.