摘 要:為了解決自然場景文本圖像因為遮擋、扭曲等原因難以識別的問題,提出基于多模態(tài)特征融合的場景文本識別網(wǎng)絡(luò)(multimodal scene text recognition,MMSTR)。首先,MMSTR使用共享權(quán)重內(nèi)部自回歸的排列語言模型實現(xiàn)多種解碼策略;其次,MMSTR在圖像編碼階段提出殘差注意力編碼器(residual attention encoder,REA-encoder)提高了對淺層特征捕獲能力,使得淺層特征能夠傳到更深的網(wǎng)絡(luò)層,有效緩解了vision Transformer提取圖像淺層特征不充分引起的特征坍塌問題;最后,針對解碼過程中存在語義特征與視覺特征融合不充分的問題,MMSTR構(gòu)建了決策融合模塊(decision fusion module,DFM),利用級聯(lián)多頭注意力機制提高語義與視覺的融合程度。經(jīng)過實驗證明,MMSTR在IIIT5K、ICDAR13等六個公共數(shù)據(jù)集上平均詞準確率達到96.6%。此外,MMSTR在識別遮擋、扭曲等難以識別的文本圖像方面相較于其他的主流算法具有顯著優(yōu)勢。
關(guān)鍵詞:場景文本;特征融合;語言模型;注意力機制;殘差網(wǎng)絡(luò)
中圖分類號:TP391"" 文獻標志碼:A""" 文章編號:1001-3695(2025)04-042-1274-07
doi: 10.19734/j.issn.1001-3695.2024.05.0250
Scene text recognition based on multimodal feature fusion
Cai Mingzhe, Wang Manli, Dou Zeya, Zhang Changsen
(School of Physics amp; Electronic Information Engineering, Henan Polytechnic University, Jiaozuo Henan 454003, China)
Abstract:Toward addressing the challenges posed by occlusions, distortions, and other impediments in recognizing text within natural scenes, this paper proposed a scene text recognition network MMSTR based on multi-modal feature fusion. Firstly, MMSTR employed a shared-weight internal autoregressive permutation language model to facilitate a variety of decoding strategies. Secondly, during the image encoding phase, MMSTR introduced a REA-Encoder, which enhanced the capability of capturing shallow features, allowing them to propagate to deeper network layers. This effectively alleviated the issue of feature collapse resulting from the inadequate extraction of shallow image features by vision Transformer. Finally, to address the insufficient fusion of semantic and visual features during the decoding process, MMSTR constructed a DFM . The DFM utilized a cascaded multi-head attention mechanism to enhance the integration of semantic and visual features. Experimental evidence confirms that MMSTR attains an average word accuracy rate of 96.6% across six public datasets, including IIIT5K and ICDAR13. Furthermore, MMSTR exhibits a significant advantage over other mainstream algorithms in the recognition of challenging text images that are obscured or distorted.
Key words:scene text; feature fusion; language model; attention mechanism; residual network
0 引言
隨著信息化與智能化時代的到來,場景文本識別的應(yīng)用越來越廣泛,如自動駕駛、道路標牌識別、自然場景翻譯等。自然界捕獲的文本圖像具有文本扭曲、字符分布不均勻、背景雜亂、字體多變等問題[1],基于圖像處理的傳統(tǒng)算法不足以勝任如此復(fù)雜的自然環(huán)境。早期基于深度學(xué)習(xí)的場景文本識別算法將識別任務(wù)當(dāng)作分類問題[2],首先利用圖像分割,分割出字符位置,再逐個識別圖像中的字符,并在最后階段連接成字符串。這類算法僅僅關(guān)注圖像視覺的信息,忽略了場景文本圖像中字符與字符之間的關(guān)聯(lián),因此它的性能在很大程度上受限于圖像的質(zhì)量。
場景圖像文本中蘊涵著語義知識,借助文本間的語義信息,人們可以更好地識別場景圖像中的文本內(nèi)容。受到自然語言處理領(lǐng)域的啟發(fā),現(xiàn)階段大多數(shù)場景文本識別算法學(xué)習(xí)圖像中字符之間的關(guān)系,將其作為潛在的語義信息[3],并將識別整個圖像的任務(wù)當(dāng)作一個序列預(yù)測處理。因此現(xiàn)有的場景文本識別算法大致可以分為非語義方法和語義方法兩大類。非語義的方法僅僅依靠視覺信息去預(yù)測圖像中的文本,缺乏語義推理能力。非語義方法對圖像質(zhì)量要求比較高,在視覺特征缺失的情況下(如遮擋),難以實現(xiàn)最優(yōu)的識別效果[4]。語義方法會挖掘圖像中詞匯、語法等信息作為上下文語義信息,接著利用語義信息和視覺信息聯(lián)合預(yù)測圖像中的文本,所以相較于非語義的方法,語義方法往往能取得更好的識別性能。視覺信息和語義信息屬于兩個模態(tài)的信息,并不能簡單地融合在一起,解決這個問題的一個常用方法是利用一個強大的視覺語言解碼器來融合從視覺編碼器和語言編碼器中獨立提取的特征。Qiao等人[5]將場景識別任務(wù)當(dāng)作跨模態(tài)任務(wù),并提出了一種語義增強的編解碼模型,但是難以做到實時識別。于是,Yu等人[6]提出了SRN,利用多路并行傳輸?shù)淖宰⒁饬W(wǎng)絡(luò)來學(xué)習(xí)語義信息,雖然有效提升了識別率,但是卻存在不同模態(tài)特征長度對齊的問題。Wang等人[7]提出了VisionLAN,在訓(xùn)練階段利用語言感知的視覺掩圖遮擋選定的字符區(qū)域,將視覺線索與語義知識相結(jié)合,提高了場景文本識別的性能。為了高效地融合視覺信息和語義信息,F(xiàn)ang等人[8]提出了ABINet網(wǎng)絡(luò)。ABINet將雙向自主語言建模與迭代學(xué)習(xí)結(jié)合,有效緩解了對齊異常的問題,但是難以識別任意形狀以及背景復(fù)雜的圖像。Bautista等人[9]利用排列語言建模學(xué)習(xí)一個具有共享權(quán)重的內(nèi)部自回歸語言模型,聯(lián)合處理上下文特征和圖像特征來執(zhí)行初始解碼和迭代細化,能夠有效地識別任意形狀的文本圖像,但是其推理速度不能令人滿意。Yang等人[10]將排列語言建模與掩碼語言建模統(tǒng)一在一個解碼架構(gòu)中隱式學(xué)習(xí)上下文,暫時實現(xiàn)了先進的識別性能,但算法存在復(fù)雜度過高的問題??紤]到上述算法存在的問題,為了進一步解決場景文本圖像模糊、字體扭曲等問題。本文在場景文本識別中利用文本的語義特征和圖像的視覺特征進行跨模態(tài)聯(lián)合訓(xùn)練來緩解文本圖像模糊、字體扭曲導(dǎo)致難以識別的問題。但是常規(guī)的多模態(tài)文本識別網(wǎng)絡(luò)存在參數(shù)量大、訓(xùn)練過程中算力資源消耗過多等問題。例如:MATRN[11]通過利用多模態(tài)增強代替語義增強,實現(xiàn)了視覺特征和語義特征的進一步交互,但是參數(shù)量過大導(dǎo)致識別效率低下[12]。Zhao等人[13]指出訓(xùn)練語言模型提取語義特征會為整個識別網(wǎng)絡(luò)的訓(xùn)練消耗掉大量的算力資源。受此啟發(fā),本文提出的MMSTR使用排列語言建模出不同的文本序列,避免了訓(xùn)練過程中巨大的資源消耗問題。總結(jié)本文貢獻主要分為以下三個方面:
a)提出了一個MMSTR場景文本識別網(wǎng)絡(luò)。經(jīng)過大量實驗證明,MMSTR在多個基準數(shù)據(jù)集中評估對比當(dāng)下主流算法均能達到最優(yōu)的識別效果。
b)設(shè)計了一個基于殘差注意力的圖像編碼器。利用殘差連接能夠緩解vision Transformer[14]在場景文本圖像編碼過程中因為淺層特征不足所引起的特征坍塌問題,從而更好地讓模型提取到具有全局信息和淺層信息的視覺特征。
c)提出了決策融合模塊。通過搭建多個級聯(lián)的多頭注意力機制,在解碼過程中將圖像視覺特征與不同層次的語義特征融合,提高了字符解碼準確率。
1 本文模型
本文提出的MMSTR網(wǎng)絡(luò)采用了編解碼器的框架,整體網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示,其中[B]和[P]代表序列開始和序列填充,[E]表示序列的結(jié)束。字符最大的長度T設(shè)置為25時會產(chǎn)生26個位置標記。位置編碼(Pq)是一個模型可學(xué)習(xí)的參數(shù),初始化為均值是0,標準差為0.02的正態(tài)分布。MMSTR主要由殘差注意力編碼器、決策融合解碼器兩部分組成??紤]到MMSTR的參數(shù)量和整體識別性能,本文將殘差注意力編碼器的層數(shù)設(shè)置為12,決策融合解碼器的層數(shù)設(shè)置為1。殘差注意力編碼器的輸入為文本圖像I∈Euclid Math TwoRAph×w×3,h、w分別為圖像的高度和寬度,3為圖像的通道數(shù)。文本圖像經(jīng)過殘差注意力編碼器編碼后的輸出是視覺特征If 。隨后視覺特征If 、位置編碼Pq、上下文輸入Ic,以及由排列語言生成的注意力掩碼序列Am被送進決策融合解碼器生成解碼特征。解碼特征最后經(jīng)過線性層產(chǎn)生MMSTR最終的識別結(jié)果。
1.1 殘差注意力編碼器
殘差注意力編碼器(REA-encoder)會將圖像分成多個圖像塊,其具體結(jié)構(gòu)如圖2所示。它的每個層由一個殘差注意力模塊(ReMHA)和一個多層感知機(multi-layer perceptron, MLP)組成,如圖3所示。ReMHA是本文基于ViT網(wǎng)絡(luò)提出的全新模塊,與常規(guī)的ViT網(wǎng)絡(luò)相比,最大的差異是ReMHA在多頭注意力中加入了注意力殘差學(xué)習(xí)。
ReMHA在注意力層中引入了一種新式殘差連接機制(圖3),該機制通過自適應(yīng)學(xué)習(xí)的門控變量來控制注意力在頭維度的快速擴展。該方法不僅保留了全局特征,還將淺層特征通過殘差連接傳遞至更深層,從而在深層網(wǎng)絡(luò)結(jié)構(gòu)中也保持了淺層信息的活性。因此ReMHA有效地增強了提取特征的多樣性,緩解了在深層網(wǎng)絡(luò)中常見的特征坍塌問題。REA-encoder通過這種策略,提升了模型的表達能力,增強了網(wǎng)絡(luò)的泛化性和魯棒性。
1.2 決策融合解碼器
決策融合解碼器由一個多頭注意力(multi-head attention, MHA)[16]、一個決策融合模塊,以及多層感知機構(gòu)成。由圖1可知,決策融合解碼器的輸入有三部分:a)位置查詢(Pq)是為了預(yù)測圖像中目標的位置,每一個都與輸出中的特定位置有直接對應(yīng)關(guān)系,這種參數(shù)化類似于雙流注意力[17]的查詢流,它將上下文與目標位置解耦,允許模型從排列語言建模中學(xué)習(xí);b)注意力掩碼(Am)是在模型訓(xùn)練過程中使用排列語言隨機生成的;c)上下文輸入(Ic)由文本圖像的真實標簽生成。決策融合模塊的結(jié)構(gòu)如圖4所示,If是殘差注意力編碼器輸出的視覺特征,Is是經(jīng)過語義信息融合后的語義特征 。
Pq、Ic和Am作為整個決策融合解碼器的語義信息,首先會經(jīng)過多頭注意力融合,其過程如式(5)所示。
Is=Pq+MHA(Pq,Ic,Ic,Am)
(5)
其中:Is為融合的語義特征,Is接下來會送給決策融合模塊。決策融合模塊的另一個輸入為If。在決策融合模塊中的融合過程如式(6)所示。
Of=MHA(MHA(Is,If,If)+Is,If,If)
Os=MHA(Is,If,If)+Is
(6)
其中:Of為DFM輸出的深融合特征;Os為輸出的淺融合特征。Of和Os隨后被進一步疊加融合,最后通過多層感知機和線性層生成每個字符的預(yù)測概率。
1.3 排列語言建模
排列語言建模(ermuted language modeling,PLM)屏蔽語言建模方式被廣泛應(yīng)用在預(yù)訓(xùn)練任務(wù),而近期學(xué)者已經(jīng)將其擴展應(yīng)用于基于Transformer的廣義序列模型[18]學(xué)習(xí),實現(xiàn)了多種解碼策略。本文所有實驗遵循文獻[9],將PLM應(yīng)用于場景文本識別。PLM可以是自回歸(autoregressive, AR)建模的一個廣義形式,其中采用PLM訓(xùn)練的模型可視為具有共享架構(gòu)和權(quán)重的AR模型的集合。通過動態(tài)地使用注意力掩碼來指定令牌之間的依賴關(guān)系[19],使得這類模型能夠?qū)W習(xí)并利用給定輸入上下文任意子集的條件字符概率,從而支持單調(diào)的AR解碼、并行的非AR解碼,以及迭代細化。利用PLM訓(xùn)練的多模態(tài)場景文本識別模型(MMSTR)是一個統(tǒng)一的場景文本識別模型,其結(jié)構(gòu)簡潔,能夠進行上下文感知推理[20],并實現(xiàn)利用雙向上下文的迭代細化[8]。
上下文感知的AR模型,如式(7)所示。
P(y|x)=∏Tt=1P(Yt|y<t,x)
(7)
迭代細化模型,如式(8)所示。
P(y|x)=∏Tt=1P(yt|y≠t,x)
(8)
1.4 損失函數(shù)
給定一張文本圖像,文本識別算法要最大化文本標簽yT=[y1,y2,…,yT-1,yT]的可能性。PLM將序列標簽的所有T!個子序列可能性分解,如式(9)所示。
log p(y|x)=Ez-ZT∑Tt=1log pθ(yzt|yzy<t,x)
(9)
其中:ZT是序列[1,2,…,T]的所有可能排列的集合;zt和zlt;t分別代表z的第T個元素和前T-1個元素。每個排列z指定了一種順序,這個順序?qū)?yīng)于可能性不同的因式分解。本文不用實際的文本排列標簽y,而是制作注意力掩碼圖強制生成z的順序。在實際的訓(xùn)練過程中考慮到計算的復(fù)雜度,MMSTR從T!中選取K個序列訓(xùn)練。所以MMSTR在訓(xùn)練過程中的損失函數(shù)如式(10)所示。
Loss=1K∑Kt=1Lce(yt,)
(10)
其中:Lce為交叉損失熵;K作為超參數(shù)設(shè)置為6;yt為第t個子序列;為預(yù)測的字符序列。
2 實驗結(jié)果與分析
本章首先介紹場景文本識別中的常用數(shù)據(jù)集以及評價指標,接著進行消融實驗分析和對比實驗分析,最后將MMSTR的識別結(jié)果進行可視化對比分析。通過大量的實驗分析論證了MMSTR具有較強的魯棒性和更高的識別精度。
2.1 數(shù)據(jù)集與評估指標
2.1.1 實驗數(shù)據(jù)集
現(xiàn)有的文本識別方法通常需要大規(guī)模的訓(xùn)練數(shù)據(jù),由于缺乏帶標注的真實文本圖像,這些方法大多采用計算機合成的圖像進行訓(xùn)練[21],即SynthText和MJSynth[22]。近年來,場景文本識別領(lǐng)域發(fā)布了大量的真實場景下的數(shù)據(jù)集,涵蓋了廣泛的真實場景[23]。有學(xué)者研究發(fā)現(xiàn)真實場景下的數(shù)據(jù)集有助于場景文本識別模型的訓(xùn)練。因此,本文的實驗中除了Synth- Text和MJSynth之外,還用到了大量的真實數(shù)據(jù),如RCTW17[24]、COCO-Text[25]、Uber[26]、Art[27]、LSVT[28]、MLT19[29]、ReCTS[30]、OPenVINO[31]和TextOCR[32]。
根據(jù)經(jīng)驗,實驗采用IIIT5K、CUTE80、SVT、SVTP、ICDAR2013(IC13)、ICDAR15(IC15)[33]作為基準數(shù)據(jù)集來評估模型的性能。對比實驗還在Art、COCO、Uber此類更具挑戰(zhàn)性的數(shù)據(jù)集上評估了MMSTR的模型,進一步論證MMSTR的魯棒性。本文中所用的數(shù)據(jù)集遵循文獻[9]標準,其簡要介紹如表1所示。
2.1.2 評估指標
為了對比公平,本文中的實驗所采用的評價指標為場景文本識別中常用的詞準確率(accuracy)和歸一化編輯距離(1-NED)。詞準確率的計算如式(11)所示。
accuracy=n/N
(11)
其式:n為預(yù)測正確的單詞個數(shù),如果預(yù)測單詞和標簽單詞完全相同,則可以視為正確;N為所要預(yù)測單詞的總數(shù)。
歸一化編輯距離(1-NED)是衡量兩個字符序列差異大小的方法。它的定義是一個序列通過編輯操作轉(zhuǎn)換成另一個序列的最小次數(shù),歸一化編輯距離經(jīng)常在評估場景文本識別模型的準確程度中用到。字符串sn與n的歸一化編輯距離計算如式(12)所示。
1-NED=1-1T∑Tn=1L(sn,n)/max(sn,n)
(12)
其中:L為萊溫斯特坦距離,代表sn與n的編輯距離;T是所有樣本數(shù);max(sn,n)為最長字符串的長度。
字符集的不同會導(dǎo)致模型推理性能發(fā)生變化,本文的實驗中分為36-char(10個數(shù)字和26個小寫字母)、62-char(10個數(shù)字和52個大小寫字母)和94-char(10個數(shù)字、52個大小寫字母和32個標點符號)三個字符集。另外不同的解碼方式也會影響模型推理的性能,本文所有實驗一律采用AR方式結(jié)合迭代細化解碼字符序列。
2.2 實驗環(huán)境與訓(xùn)練策略
2.2.1 實驗環(huán)境
本文實驗所用的系統(tǒng)軟件平臺為CentOS 7.6,Python版本為3.8,cudatoolkit的版本為11.6,深度學(xué)習(xí)框架為PyTorch 1.12。系統(tǒng)硬件平臺顯卡為兩張NVIDIA RTX 3090,CPU為XeonGold 6226R。
2.2.2 訓(xùn)練策略
本文實驗中的訓(xùn)練集分為合成訓(xùn)練集(SynthText和MJSynth,用S表示)、真實訓(xùn)練集(Art、COCO、LSVT、MLT19、RCTW17、Uber、OPenVINO、TesxtOCR、ReCTS,用R表示),在評估模型性能時分別將IC15、IC13分為兩部分(IC15-1811、IC15-2077、IC13-848、IC13-1015),所有模型的訓(xùn)練都使用混合精度。MMSTR與MMSTR-tiny的BatchSize分別為256和384。MMSTR訓(xùn)練采用Adam優(yōu)化器,訓(xùn)練輪數(shù)為40,學(xué)習(xí)率使用動態(tài)衰減的策略,其衰減過程與文獻[9]一致。
訓(xùn)練過程中,每迭代1 000次評估一次模型的性能。單幅文本圖像中的字符最大數(shù)T設(shè)置為25,對于字符數(shù)不足25的標簽使用[P]符號填充,送入網(wǎng)絡(luò)的圖像尺寸設(shè)置為32×128。
2.3 消融實驗
為了快速驗證MMSTR網(wǎng)絡(luò)的識別性能,消融實驗使用MMSTR-tiny結(jié)構(gòu),超參數(shù)設(shè)置如表2所示,分別用S與R訓(xùn)練MMSTR-tiny。其中actual-lr是實際學(xué)習(xí)率,patch為圖像塊的大小,dmodle代表輸入特征維度,h為MHA注意力頭的數(shù)量,dmlp代表中間特征維度,depth是編碼器的層數(shù)。Benchmark為MMSTR-tiny使用36-char在IIIT5K、SVT、IC13-1015、IC15-2077、CUTE80、SVTP上面的平均詞準確率,評估結(jié)果如表3所示。
分析表3中的數(shù)據(jù),在添加REA-encoder后使用S和R訓(xùn)練模型的平均詞準確率分別提高了0.9、0.4百分點,證明了無論在S還是R上加入了REA-encoder,不僅能提取全局特征,而且還能充分地提取圖像的淺層特征。REA-encoder從編碼階段緩解了利用常規(guī)的Vision Transformer在圖像編碼階段中存在的特征坍塌問題。此外,分析DFM模塊,僅加入DFM后訓(xùn)練S與R上,DFM對模型平均詞準確率的提升均為0.2百分點,這驗證了DFM在充分融合語義信息與圖像的視覺信息的同時,還不受訓(xùn)練數(shù)據(jù)的影響。進一步分析1-NED,從表3發(fā)現(xiàn),使用REA-Encoder后在S上1-NED提高了0.3百分點,在R上1-NED提高了0.2百分點。
MMSTR加入REA-Encoder和DFM訓(xùn)練S和R上,對比原始網(wǎng)絡(luò)的平均詞準確率均有1.2和0.5百分點的提升。
2.4 對比實驗
在對比實驗過程中,將MMSTR與當(dāng)下流行的算法分別在36-char、62-char、94-char進行對比實驗分析。為了公平公正地對比,實驗遵循Bautista的模型訓(xùn)練策略,對比的算法為Parseq[9]、ABINet[8]、TRBA[34]、ViTSTR[35]、CRNN[36],對比結(jié)果(對比算法中的平均詞準確率引用Bautista中的數(shù)據(jù))如表4所示。MMSTR在基準數(shù)據(jù)集評估的詞準確率詳細數(shù)據(jù)如表5所示。
由表4可知,MMSTR無論是使用R訓(xùn)練還是使用S訓(xùn)練,使用不同大小的字符集在基準數(shù)據(jù)集上評估的平均詞準確率都能取得不同幅度的提升。特別是在合成數(shù)據(jù)集上訓(xùn)練使用94-char評估,平均詞準確率相較于次優(yōu)算法有3.4百分點的提升。從表5可以發(fā)現(xiàn),MMSTR在所有的基準數(shù)據(jù)集上平均詞準確率都能取得最優(yōu)。
除此之外,本文還用36-char在Art、COCO、Uber這些難度更大的數(shù)據(jù)集上進行評估,分析MMSTR的性能表現(xiàn)。由表6的數(shù)據(jù)可以看出,MMSTR在這三個高難度的數(shù)據(jù)集上的評估表現(xiàn)依然是最優(yōu)的。MMSTR對比次優(yōu)算法ParseqA在S上有2.4百分點的提高,在R上有1.5百分點的提高。
為了驗證MMSTR算法識別不同方向文本圖像的魯棒性,將基準數(shù)據(jù)集分別旋轉(zhuǎn)90°、180°、270°,再次使用36-char進行評估,結(jié)果如表7所示?;鶞蕯?shù)據(jù)集旋轉(zhuǎn)后對比0°的平均下降率和平均精度,如圖5所示。
從表7可以看出,MMSTR在圖片旋轉(zhuǎn)不同的角度后,平均詞準確率領(lǐng)先于當(dāng)前的主流算法。從圖5分析,MMSTR在基準數(shù)據(jù)集旋轉(zhuǎn)后平均精度能達到最優(yōu)性能,從數(shù)值上看,旋轉(zhuǎn)后的平均精度達到了88.4%,領(lǐng)先次優(yōu)算法2.2百分點,對比旋轉(zhuǎn)0°的情況,平均下降僅為5.8百分點,比次優(yōu)算法低了1.8百分點。這驗證了MMSTR對于不同方向的文本圖像具有良好的魯棒性。
2.5 識別結(jié)果展示
為了直觀地分析MMSTR的識別優(yōu)勢,本文隨機挑選了8張極具挑戰(zhàn)性的文本圖像,這幾張圖像分別具有字體扭曲、色彩豐富、模糊程度嚴重、背景復(fù)雜、方向不一致等問題。本文將主流算法的識別結(jié)果可視化展示,如圖6所示。從圖6可以直觀地看到,8張圖像中MMSTR正確識別了7張,優(yōu)于其他識別算法。MMSTR對比ParseqA、CRNN、TRBA等主流算法在識別色彩豐富、扭曲嚴重、字體變化巨大的文本圖像具有更好的魯棒性。但是MMSTR與其他算法一樣對于模糊程度十分嚴重的圖像識別效果不夠理想,這是因為現(xiàn)在主流的場景文本識別算法沒有對模糊圖像進行特定的去模糊處理,直接從模糊圖像提取視覺特征信息導(dǎo)致視覺信息不足,從而對高模糊的圖像不能精準識別。
3 結(jié)束語
本文提出了MMSTR網(wǎng)絡(luò),利用文本的語義特征與圖像的視覺特征來解決場景文本識別中因為圖像扭曲、遮擋、模糊等原因難以識別的問題。為了提高MMSTR網(wǎng)絡(luò)的性能,本文提出了一個殘差注意力編碼器用來進一步提取圖像中的淺層特征,解決傳統(tǒng)vision Transformer中存在的特征坍塌問題。在解碼階段,為了增強語義特征與圖像視覺特征的融合,本文還提出一個DFM模塊,通過消融實驗證明了DFM在合成數(shù)據(jù)集和真實數(shù)據(jù)集上面訓(xùn)練都能充分融合不同層次的語義特征與圖像視覺特征。在對比實驗中得出了MMSTR在基準評估集上的平均詞準確率達到了96.6%,比次優(yōu)算法高出了0.6百分點。為了驗證MMSTR的方向魯棒性,將圖像旋轉(zhuǎn)不同的方向,其平均詞準確率下降僅為5.8百分點。從實驗結(jié)果看,MMSTR在方向魯棒性與識別精度方面均優(yōu)于當(dāng)下主流的場景文本識別算法。在實驗中還發(fā)現(xiàn)MMSTR與當(dāng)下主流的識別算法一樣、在面對更大的字符集時使用合成數(shù)據(jù)訓(xùn)練出的模型,在評估后平均詞準確率會急劇下降。這一發(fā)現(xiàn)對于具有大規(guī)模字符集的場景文本識別并不友好,因此如何讓場景文本識別算法更好地識別大字符集是下一步的研究方向。
參考文獻:
[1]Zheng Tianlun, Chen Zhineng, Fang Shancheng, et al. CDistNet: perceiving multi-domain character distance for robust text recognition [J]. International Journal of Computer Vision, 2024, 132(2): 300-318.
[2]Ali Chandio A, Asikuzzaman M, Pickering M R, et al. Cursive text recognition in natural scene images using deep convolutional recurrent neural network [J]. IEEE Access, 2022, 10: 10062-10078.
[3]Xue Chuhui, Huang Jiaxing, Zhang Wenqing, et al. Image-to-character-to-word Transformers for accurate scene text recognition [J]. IEEE Trans on Pattern Analysis and Machine Intelligence, 2023, 45(11): 12908-12921.
[4]Zhang Boqiang, Xie Hongtao, Wang Yuxin, et al. Linguistic more: taking a further step toward efficient and accurate scene text recognition [C]//Proc of the 32nd International Joint Conference on Artificial Intelligence. San Francisco: Morgan Kaufmann, 2023: 1704-1712.
[5]Qiao Zhi, Zhou Yu, Yang Dongbao, et al. SEED: semantics enhanced encoder-decoder framework for scene text recognition [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Re-cognition. Piscataway, NJ: IEEE Press, 2020: 13525-13534.
[6]Yu Deli, Li Xuan, Zhang Chengquan, et al. Towards accurate scene text recognition with semantic reasoning networks [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2020: 12110-12119.
[7]Wang Yuxin, Xie Hongtao, Fang Shancheng, et al. From two to one: a new scene text recognizer with visual language modeling network [C]// Proc of IEEE/CVF International Conference on Computer Vision. Piscataway, NJ: IEEE Press, 2021: 14174-14183.
[8]Fang Shancheng, Xie Hongtao, Wang Yuxin, et al. Read like humans: autonomous, bidirectional and iterative language modeling for scene text recognition [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2021: 7094-7103.
[9]Bautista D, Atienza R. Scene text recognition with permuted autoregressive sequence models [C]//Proc of European Conference on Computer Vision. Cham: Springer, 2022: 178-196.
[10]Yang Xiaomeng, Qiao Zhi, Wei Jin, et al. Masked and permuted implicit context learning for scene text recognition [J]. IEEE Signal Processing Letters, 2024, 31: 964-968.
[11]Na B, Kim Y, Park S. Multi-modal text recognition networks: interactive enhancements between visual and semantic features [C]//Proc of European Conference on Computer Vision. Cham: Springer, 2022: 446-463.
[12]曾凡智, 馮文婕, 周燕. 深度學(xué)習(xí)的自然場景文本識別方法綜述 [J]. 計算機科學(xué)與探索, 2024, 18(5): 1160-1181. (Zeng Fanzhi, Feng Wenjie, Zhou Yan. Survey on natural scene text recognition methods of deep learning [J]. Journal of Frontiers of Computer Science and Technology, 2024, 18(5): 1160-1181.)
[13]Zhao Zhen, Tang Jingqun, Lin Chunhui, et al. Multi-modal in-context learning makes an ego-evolving scene text recognizer [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2024: 15567-15576.
[14]Dosovitskiy A, Beyer L, Kolesnikov A, et al. An image is worth 16×16 words: Transformers for image recognition at scale [EB/OL]. (2021-06-03) . https://arxiv. org. abs/2010. 11929.
[15]Diko A, Avola D, Cascio M, et al. ReViT: enhancing vision Transformers with attention residual connections for visual recognition [EB/OL]. (2024-02-17) . https://arxiv. org/abs/2402. 11301.
[16]Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need [C]// Proc of the 31st International Conference on Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc., 2017: 6000-6010.
[17]石祥濱, 李怡穎, 劉芳, 等. T-STAM: 基于雙流時空注意力機制的端到端的動作識別模型 [J]. 計算機應(yīng)用研究, 2021, 38(4): 1235-1239, 1276. (Shi Xiangbin, Li Yiying, Liu Fang, et al. T-STAM: end-to-end action recognition model based on two-stream network with spatio-temporal attention mechanism [J]. Application Research of Computers, 2021, 38(4): 1235-1239, 1276.)
[18]黃文明, 任沖, 鄧珍榮. 基于多對抗訓(xùn)練的古詩生成方法 [J]. 計算機應(yīng)用研究, 2021, 38(1): 164-168. (Huang Wenming, Ren Chong, Deng Zhenrong. Chinese poetry generation model with multi-adversarial training [J]. Application Research of Compu-ters, 2021, 38(1): 164-168.)
[19]Zhang Ningyu, Ye Hongbin, Deng Shumin, et al. Contrastive information extraction with generative Transformer [J]. IEEE/ACM Trans on Audio, Speech, and Language Processing, 2021, 29: 3077-3088.
[20]張少偉, 李斌勇, 鄧良明. 基于上下文感知的自適應(yīng)訪問控制模型 [J]. 計算機應(yīng)用研究, 2024, 41(9): 2839-2845. (Zhang Shaowei, Li Binyong, Deng Liangming. Context-aware adaptive access control model [J]. Application Research of Computers, 2024, 41(9): 2839-2845.)
[21]Yang Mingkun, Liao Minghui, Lu Pu, et al. Reading and writing: discriminative and generative modeling for self-supervised text recognition [C]//Proc of the 30th ACM International Conference on Multimedia. New York: ACM Press, 2022: 4214-4223.
[22]Yang Mingkun, Yang Biao, Liao Minghui, et al. Class-aware mask-guided feature refinement for scene text recognition [J]. Pattern Recognition, 2024, 149: 110244.
[23]Jiang Qing, Wang Jiapeng, Peng Dezhi, et al. Revisiting scene text recognition: a data perspective [C]// Proc of IEEE/CVF International Conference on Computer Vision. Piscataway, NJ: IEEE Press, 2023: 20486-20497.
[24]Shi Baoguang, Yao Cong, Liao Minghui, et al. ICDAR2017 competition on reading Chinese text in the wild (RCTW-17) [C]// Proc of the 14th IAPR International Conference on Document Analysis and Recognition. Piscataway, NJ: IEEE Press, 2017: 1429-1434.
[25]Veit A, Matera T, Neumann L, et al. COCO-Text: dataset and benchmark for text detection and recognition in natural images [EB/OL]. (2016-06-19). https://arxiv.org/abs/1601.07140.
[26]Zhang Ying, Gueguen L, Zharkov I, et al. Uber-text: a large-scale dataset for optical character recognition from street-level imagery [C]// Proc of Scene Understanding Workshop. 2017: 5.
[27]Chng C K, Liu Yuliang, Sun Yipeng, et al. ICDAR2019 robust reading challenge on arbitrary-shaped text - RRC-ArT [C]// Proc of International Conference on Document Analysis and Recognition. Piscataway, NJ: IEEE Press, 2019: 1571-1576.
[28]Sun Yipeng, Ni Zihan, Chng C K, et al. ICDAR 2019 competition on large-scale street view text with partial labeling-RRC-LSVT [C]// Proc of International Conference on Document Analysis and Recognition. Piscataway, NJ: IEEE Press, 2019: 1557-1562.
[29]Nayef N, Patel Y, Busta M, et al. ICDAR2019 robust reading challenge on multi-lingual scene text detection and recognition-RRC-MLT-2019 [C]// Proc of International Conference on Document Analysis and Recognition. Piscataway, NJ: IEEE Press, 2019: 1582-1587.
[30]Zhang Rui, Zhou Yongsheng, Jiang Qianyi, et al. ICDAR 2019 robust reading challenge on reading Chinese text on signboard [C]// Proc of International Conference on Document Analysis and Recognition. Piscataway, NJ: IEEE Press, 2019: 1577-1581.
[31]Krylov I, Nosov S, Sovrasov V. Open images V5 text annotation and yet another mask text spotter [C]// Proc of Asian Conference on Machine Learning [S.I.]:PMIR, 2021: 379-389.
[32]Singh A, Pang Guan, Toh M, et al. TextOCR: towards large-scale end-to-end reasoning for arbitrary-shaped scene text [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2021: 8798-8808.
[33]Xie Xudong, Fu Ling, Zhang Zhifei, et al. Toward understanding WordArt: corner-guided Transformer for scene text recognition [C]// Proc of European Conference on Computer Vision. Cham: Springer, 2022: 303-321.
[34]Baek J, Kim G, Lee J, et al. What is wrong with scene text recognition model comparisons? Dataset and model analysis [C]// Proc of IEEE/CVF International Conference on Computer Vision. Pisca-taway, NJ: IEEE Press, 2019: 4714-4722.
[35]Atienza R. Vision Transformer for fast and efficient scene text recognition [C]// Proc of International Conference on Document Analysis and Recognition. Cham: Springer, 2021: 319-334.
[36]Shi Baoguang, Bai Xiang, Yao Cong. An end-to-end trainable neural network for image-based sequence recognition and its application to scene text recognition [J]. IEEE Trans on Pattern Analysis and Machine Intelligence, 2017, 39(11): 2298-2304.