周 燕,廖俊瑋,劉翔宇,周月霞,曾凡智
佛山科學(xué)技術(shù)學(xué)院 計算機(jī)系,廣東 佛山 528000
自然場景文本檢測在現(xiàn)實中具有廣泛應(yīng)用,如場景理解、智能導(dǎo)盲和自動駕駛等。近幾年,基于深度學(xué)習(xí)的場景文本檢測算法取得了很大的進(jìn)步,這些方法總體上可以分為兩類:基于回歸的方法和基于分割的方法[1]。
基于回歸的方法通常采用主流的目標(biāo)檢測器,如YOLO[2]和SSD[3]。這些方法可以直接預(yù)測文本實例的邊界框坐標(biāo),從而擺脫復(fù)雜的后處理算法。EAST[4]和文獻(xiàn)[5]將邊界框坐標(biāo)進(jìn)行像素級回歸,然后使用非極大值抑制對冗余框進(jìn)行過濾。RRD[6]將文本檢測分解為兩個任務(wù),分別使用旋轉(zhuǎn)不變特征進(jìn)行文本分類,使用旋轉(zhuǎn)敏感特征進(jìn)行文本定位。DMPNet[7]提出使用四邊形滑動窗口作為默認(rèn)錨點框來匹配多方向文本。然而,當(dāng)面對不規(guī)則形狀的文本時,由于點序列表示能力有限,其性能往往急劇下降。
基于分割的方法通常將文本檢測視為兩階段任務(wù),首先檢測文本行片段,然后將這些片段組合成最終輸出。PSENet[8]采用全卷積網(wǎng)絡(luò)結(jié)構(gòu)預(yù)測多尺度文本核,然后使用遞進(jìn)尺度擴(kuò)展算法生成最終預(yù)測并區(qū)分相鄰文本實例。SAE[9]通過學(xué)習(xí)文本像素到嵌入特征空間的映射,通過像素聚類得到輸出掩碼。DB[10]對文本區(qū)域閾值圖和概率圖進(jìn)行預(yù)測,通過可微二值化操作生成近似二值圖,駱文莉等人[11]、王延昭等人[12]基于DB[10]方法做了進(jìn)一步改進(jìn)。Zhu等人[13]提出了傅里葉空間嵌入方法FCENet,該網(wǎng)絡(luò)預(yù)測了分類圖和文本邊框點的傅里葉特征向量,然后在對應(yīng)區(qū)域上對向量進(jìn)行傅里葉逆變換操作,從而在圖像空間域中重建出文本輪廓。
然而,由于自然場景中文本的復(fù)雜性,基于分割方法的場景文本檢測器[8-10,13]在一些具有挑戰(zhàn)性的場景仍存在不足,例如CTW1500[14]數(shù)據(jù)集中圖片背景復(fù)雜出現(xiàn)的誤檢(圖1(b))、極端縱橫比和字符間距過大出現(xiàn)的過度分割(圖1(d))、彎曲文本檢測準(zhǔn)確性較差(圖1(f))等問題(圖1(a)、(c)、(e)為該圖片對應(yīng)的真值標(biāo)注),因此基于分割方法的場景文本檢測器性能仍有很大的改進(jìn)空間。
圖1 自然場景文本檢測中存在的問題Fig.1 Problems in scene text detection
以上兩類方法主要采用傳統(tǒng)特征金字塔網(wǎng)絡(luò)(FPN)做特征融合,骨干網(wǎng)絡(luò)輸出的每層特征表示和特征融合方式對檢測效果有著重要作用。CBAM[15]結(jié)合通道和空間注意力增強(qiáng)了特征表示。ECANet[16]利用卷積塊實現(xiàn)跨通道的特征交互,從而對特征進(jìn)行增強(qiáng)。PANet[17]通過自頂向下和自底向上的特征融合網(wǎng)絡(luò),提高了檢測性能。Dai等人[18]提出通過多尺度通道注意力模塊對不同尺度特征進(jìn)行權(quán)重分配,提高特征的融合效果。雖然基于分割的方法能夠檢測任意形狀文本,但仍存在許多挑戰(zhàn)。例如,由于場景文本圖像背景的復(fù)雜性,使得網(wǎng)絡(luò)對一些與文本區(qū)域紋理相似的區(qū)域非常敏感,從而導(dǎo)致文本誤檢;大尺度、極端縱橫比文本的漏檢問題;大間距文本的過度分割問題。相比于以上提到的相關(guān)工作,本文提出的方法結(jié)合了注意力特征融合模塊和多尺度殘差特征增強(qiáng)模塊進(jìn)一步提高了文本檢測性能。
針對復(fù)雜背景的誤檢、文本過度分割和彎曲文本檢測不準(zhǔn)確的問題,本文提出一種改進(jìn)FCENet[13](Fourier contour embedding network)的場景文本檢測算法,主要貢獻(xiàn)如下:
(1)針對復(fù)雜背景的誤檢問題,本文提出多尺度殘差特征增強(qiáng)模塊(multi-scale residual feature augmentation,MRFA),增強(qiáng)特征金字塔結(jié)構(gòu)自上而下的高層語義信息流動,充分利用骨干網(wǎng)絡(luò)高層語義信息,能有效實現(xiàn)不同尺度特征圖文本特征的交互,減少誤檢。
(2)針對極端縱橫比文本和大字符間距文本的過度分割問題和彎曲文本檢測精確性不佳問題,提出多尺度通道注意力特征融合模塊(multi-scale attention feature fusion module,MSAFF),更好地融合語義和尺度不一致的特征,從而使擁有不同感受野的特征能更精準(zhǔn)地融合,避免文本過度分割,提高彎曲文本的檢測能力。
(3)在多方向場景文本數(shù)據(jù)集(ICDAR2015[19])以及彎曲場景文本數(shù)據(jù)集(CTW1500[14]、Total-Text[20])上的實驗證明本文方法的有效性。
針對相關(guān)工作中基于分割的方法存在的問題,本文提出了一種改進(jìn)FCENet[13]的場景文本檢測算法,改進(jìn)點主要包括在原網(wǎng)絡(luò)的骨干網(wǎng)絡(luò)頂層引入多尺度殘差特征增強(qiáng)模塊以及采用多尺度注意力特征融合模塊代替原特征金字塔的側(cè)向連接融合方式。
網(wǎng)絡(luò)整體架構(gòu)如圖2 所示,主要由三個部分組成,即骨干網(wǎng)絡(luò)、特征增強(qiáng)與融合網(wǎng)絡(luò)、傅里葉輪廓嵌入及后處理模塊。本文骨干網(wǎng)絡(luò)采用包含DCN[21]模塊的ResNet50,其中C1~C5為ResNet50 網(wǎng)絡(luò)每一層的輸出特征,本文中選擇ResNet50輸出的C3、C4、C5層特征與特征金字塔網(wǎng)絡(luò)結(jié)合,分別對應(yīng)骨干網(wǎng)絡(luò)提取的大、中、小三種不同尺度特征,通過特征金字塔網(wǎng)絡(luò)進(jìn)行融合可以在基本不增加原有模型計算量的情況下提高多尺度目標(biāo)檢測性能;其中C5頂層特征的其中一個分支送入多尺度殘差特征增強(qiáng)模塊,減少因特征通道數(shù)減少造成的信息損失,改善頂層特征表示;并將C3、C4層特征送入多尺度注意力特征融合模塊與相鄰層特征進(jìn)行融合,更好地融合語義和尺度不一致的兩層特征,從而使擁有不同感受野的特征能更精準(zhǔn)地融合。最后,特征增強(qiáng)與融合網(wǎng)絡(luò)輸出三個不同尺度特征圖N3、N4、N5,送入傅里葉輪廓嵌入及后處理模塊,該模塊中的分類分支和回歸分支共享一個檢測頭,分別生成像素分類圖和對應(yīng)傅里葉特征向量,通過逆傅里葉變換(inverse Fourier transformation,IFT)和非極大值抑制生成文本檢測結(jié)果。
圖2 本文算法整體框架圖Fig.2 Overall framework of proposed algorithm
本文通過引入多尺度殘差特征增強(qiáng)模塊對頂層特征進(jìn)行增強(qiáng),為特征金字塔網(wǎng)絡(luò)提供更多的空間上下文信息;同時采用多尺度注意力特征融合模塊更好地融合不同特征層中語義和尺度不一致的特征,豐富了不同層級特征的空間上下文和全局信息。通過以上兩個模塊的引入,整體網(wǎng)絡(luò)能夠有效提高特征表示,減少信息損失,提高文本檢測的性能。
研究表明缺乏上下文信息的指導(dǎo)會造成誤報,F(xiàn)CENet[13]中采用的特征金字塔網(wǎng)絡(luò)僅通過1×1 卷積減少通道數(shù),骨干網(wǎng)絡(luò)輸出的最高層語義特征C5在減少通道數(shù)后直接自上而下傳遞,由于減少了特征通道而遭受信息損失,導(dǎo)致網(wǎng)絡(luò)未能完全利用骨干網(wǎng)絡(luò)提取的高層特征。因此本文方法在骨干網(wǎng)絡(luò)ResNet頂層特征輸出C5中新增一個MRFA殘差分支,通過該殘差分支對原始特征進(jìn)行增強(qiáng),并將多樣的空間上下文信息與原始分支結(jié)合,改善C5特征表示。
MRFA 模塊如圖3 所示,首先將C5層作為輸入,通過三個并行分支分別進(jìn)行不同比例的自適應(yīng)池化操作,產(chǎn)生三個不同尺度的上下文特征圖(Wk×Hk,k=1,2,3)。然后每個上下文特征圖通過1×1 卷積操作將特征圖的通道數(shù)降至256。最后,通過雙線性插值將它們上采樣到原輸入特征圖尺度上進(jìn)行后續(xù)融合。
圖3 多尺度殘差特征增強(qiáng)模塊Fig.3 Multi-scale residual feature enhancement module
MRFA模塊的計算過程如式(1)所示:
由于雙線性插值可能會帶來混疊效應(yīng),因此不能簡單地對特征進(jìn)行求和,本文利用自適應(yīng)空間融合模塊來自適應(yīng)地組合三個上下文特征,而不是簡單地進(jìn)行求和。自適應(yīng)空間融合模塊首先將三個上采樣后得到的特征進(jìn)行拼接,依次通過1×1卷積、3×3卷積、Sigmoid操作去自適應(yīng)地學(xué)習(xí)到每個特征對應(yīng)的空間權(quán)重圖,利用該權(quán)重圖與對應(yīng)特征進(jìn)行聚合,通過該方法可以自適應(yīng)地組合這些上下文特征,得到具有多尺度上下文信息的特征圖。
在各種特征金字塔結(jié)構(gòu)中,不同層次的特征往往采用簡單的求和或拼接操作來進(jìn)行特征融合,這樣的特征融合方式容易丟失部分不同層級特征的空間和全局信息。為了更好地融合語義和尺度不一致的特征,本文提出了多尺度通道注意力模塊,該模塊解決了融合不同尺度給出的特征時出現(xiàn)的問題,使擁有不同感受野的特征能更精準(zhǔn)地融合,豐富了不同層級特征的空間上下文和全局信息。多尺度注意力特征融合模塊如圖4 所示。多尺度注意力特征融合過程如公式(2)所示:
圖4 多尺度注意力特征融合模塊Fig.4 Multi-scale attention feature fusion module
其中,X代表底層特征,Y代表高層特征,MSRA 模塊使用尺度不同的兩個分支來提取通道注意力權(quán)重。其中一個分支先使用全局平均池化操作然后使用逐點卷積提取局部特征的通道注意力權(quán)重,另一個分支直接使用逐點卷積提取局部特征的通道注意力權(quán)重。MSCA(X?Y)表示注意力模塊MSCA生成的通道注意力權(quán)重值,實線表示權(quán)重MSCA(X?Y)與底層特征X進(jìn)行融合,虛線表示權(quán)重(1-MSCA(X?Y))與高層特征Y進(jìn)行融合,并將融合后的兩個特征相加,得到最后的融合特征Z。
MSCA模塊的計算過程如式(3)所示:
其中,L(X?Y)計算過程如式(4)所示:
任意形狀文本檢測的挑戰(zhàn)在于如何對形狀復(fù)雜多變的文本實例進(jìn)行建模,通過傅里葉變換將文本實例輪廓在傅里葉域進(jìn)行建??梢跃_地擬合極其復(fù)雜的形狀,因此通過傅里葉輪廓嵌入(Fourier contour embedding,F(xiàn)CE)的方式可以更好地對自然場景中高度彎曲文本進(jìn)行建模,高效且具有非常好的魯棒性,無需復(fù)雜后處理步驟。對任意封閉輪廓曲線,可將封閉曲線的參數(shù)方程嵌入到復(fù)數(shù)域,如式(5)所示:
輪廓曲線上的點可表示為(x(t),y(t)),f(t)通過點采樣和傅里葉變換可得到傅里葉系數(shù)ck,如式(6)所示:
其中,N為點采樣的次數(shù),k為頻率,c0表示該文本實例輪廓的中心點位置,通過將傅里葉系數(shù)ck拆分為實部和虛部,則輪廓可通過固定長度為2(2k+1)的實數(shù)向量進(jìn)行表示。
該部分處理流程如圖2 中傅里葉輪廓嵌入及后處理模塊部分所示,經(jīng)過特征增強(qiáng)與融合網(wǎng)絡(luò)輸出的特征N5、N4、N3分別在分類和回歸兩個分支上進(jìn)行預(yù)測。其中,分類分支預(yù)測文本區(qū)域圖和文本中心圖,然后對文本區(qū)域圖和文本中心圖的每個像素對應(yīng)相乘,得到文本像素分類圖;回歸分支預(yù)測每個文本像素對應(yīng)的傅里葉時域特征向量,基于傅里葉時域特征向量通過逆傅里葉變換(IFT)重建文本輪廓,結(jié)合分類分支得到的文本分類得分圖,通過非極大值抑制(NMS)獲得最后文本檢測結(jié)果。
對于分類任務(wù),本文采用Textdragon[22]的方法對文本進(jìn)行收縮,得到文本中心區(qū)域(text center region,TCR)掩碼,收縮因子為0.3,如圖5(來源于文獻(xiàn)[13])中的綠色區(qū)域。
圖5 傅里葉輪廓嵌入示例Fig.5 Illustration of fourier contour embedding
對于回歸任務(wù),本文通過傅里葉輪廓嵌入方法計算真實文本輪廓的傅里葉特征向量c,同一文本實例中的不同像素共享相同的傅里葉特征向量(c0除外)。
因此本文方法的總體損失函數(shù)可表示為式(7):
其中,Lcls和Lreg分別為分類分支和回歸分支的損失,λ為分類分支和回歸分支的平衡系數(shù),本文λ設(shè)為1。
分類分支損失Lcls由兩部分組成,如式(8)所示:
Ltr和Ltcr分別為文本區(qū)域(text region,TR)和文本中心區(qū)域(TCR)的交叉熵?fù)p失。為解決樣本不平衡問題,Ltr采用OHEM[23]方法,負(fù)樣本與正樣本的比例為3∶1。
對于回歸損失Lreg,可表示為式(9):
其中,l1為smooth-l1損失,F(xiàn)-1為逆傅里葉變換,T為文本區(qū)域像素索引集合,和分別為文本真值對應(yīng)的傅里葉特征向量和對像素i預(yù)測的傅里葉特征向量。N′表示文本輪廓上的采樣點數(shù),本文設(shè)置為50。
為驗證本文所提出算法的可行性和有效性,分別在三個國際基準(zhǔn)數(shù)據(jù)集上進(jìn)行了消融實驗、性能分析和對比實驗,采用文本檢測的主流評價指標(biāo)準(zhǔn)確率P、召回率R和F值來評估算法性能。
本文實驗中使用的數(shù)據(jù)集如下:
CTW1500[14]:由1 000 張訓(xùn)練圖片和500 張測試圖片組成的多語言彎曲場景文本數(shù)據(jù)集,每個文本區(qū)域為14個點標(biāo)注的多邊形,能充分描述彎曲文本的形狀。
ICDAR2015[19]:由1 000 張訓(xùn)練圖片和500 張測試圖片組成的純英文場景文本數(shù)據(jù)集,該數(shù)據(jù)集中每個文本區(qū)域的標(biāo)簽是四邊形標(biāo)注。
Total-Text[20]:由1 255 張訓(xùn)練圖片和300 張測試圖片組成的場景文本數(shù)據(jù)集,包含水平、多方向和彎曲等多種不同文本方向。
本文實驗中訓(xùn)練及測試的平臺為1×NVIDIA RTX 3090,CUDA11.1,Ubuntu18.04,網(wǎng)絡(luò)模型基于Pytorch1.8搭建。在訓(xùn)練過程中采用隨機(jī)裁剪、隨機(jī)旋轉(zhuǎn)、隨機(jī)水平翻轉(zhuǎn)、顏色抖動和對比度抖動五種數(shù)據(jù)增強(qiáng)方法來增強(qiáng)訓(xùn)練數(shù)據(jù),最后將每張圖像大小調(diào)整為800×800。訓(xùn)練每批次大小設(shè)置為8,網(wǎng)絡(luò)訓(xùn)練優(yōu)化采用隨機(jī)梯度下降(SGD)算法,權(quán)值衰減為0.001,動量衰減為0.9,初始學(xué)習(xí)率設(shè)置為0.001,在每個數(shù)據(jù)集上均進(jìn)行了1 500個epoch 的訓(xùn)練。圖6 為本文算法在CTW1500 數(shù)據(jù)集上進(jìn)行訓(xùn)練的損失曲線和F值曲線。從圖中可以看出,隨著訓(xùn)練epoch 的增加損失逐漸下降,F(xiàn) 值逐漸提高,在1 400個epoch之后逐漸收斂。
圖6 訓(xùn)練損失曲線和F值曲線Fig.6 Training loss curve and F-measure curve
測試過程中,對圖像大小調(diào)整如下:
CTW1500:將圖像的短邊調(diào)整為640,如果圖像長邊大于1 280,則長邊調(diào)整為1 280。
Total-Text:將圖像的短邊調(diào)整為960,如果圖像的長邊大于1 280,則將其調(diào)整為1 280。
ICDAR2015:將長邊調(diào)整到2 020,并保持原方向。
在1.1節(jié)中介紹了多尺度殘差特征增強(qiáng)模塊來改善骨干網(wǎng)絡(luò)的頂層特征表示。本文在CTW1500數(shù)據(jù)集上進(jìn)行了實驗,以驗證哪一組α取值最適合本文的多尺度殘差特征增強(qiáng)模塊。根據(jù)自然場景文本的尺度特性,本文共設(shè)置了五組不同的α取值進(jìn)行實驗,實驗結(jié)果如表1 所示,可以發(fā)現(xiàn)當(dāng)α1、α2、α3分別設(shè)定為0.1、0.2、0.3時,在CTW1500數(shù)據(jù)集上準(zhǔn)確率、召回率、F值均取得了最好的性能指標(biāo)。因此,在本文中的后續(xù)實驗均應(yīng)用該組α值作為不同比例的自適應(yīng)池化操作。
表1 MRFA模塊不同α 取值的實驗結(jié)果Table 1 Experimental results of MRFA module with different values of α
為驗證本文提出的多尺度注意力特征融合與多尺度殘差特征增強(qiáng)模塊的有效性,本文分別在ICDAR2015、CTW1500、Total-Text 數(shù)據(jù)集上進(jìn)行了各個模塊相關(guān)的消融實驗。其中骨干網(wǎng)絡(luò)均使用添加了可變形卷積(DCN[21])的ResNet50 網(wǎng)絡(luò),與其他的方法不同,本文方法的實驗均沒有經(jīng)過SynthText[24]和MLT[25]大規(guī)模數(shù)據(jù)集的預(yù)訓(xùn)練。表2 列出了CTW1500、Total-Text 和ICDAR2015數(shù)據(jù)集的消融實驗結(jié)果,其中第1行為原模型FCENet的實驗結(jié)果。
從表2 第2 行可以看出,通過加入MRFA 模塊,在CTW1500 數(shù)據(jù)集上,與原模型FCENet[13]相比準(zhǔn)確率和F 值分別提升了1 和0.6 個百分點;在Total-Text 數(shù)據(jù)集上準(zhǔn)確率、召回率和F 值分別提升了0.3、0.2 和0.3 個百分點;在ICDAR2015 數(shù)據(jù)集上,準(zhǔn)確率、召回率、F 值分別提升了0.1、0.6 和0.3 個百分點;消融實驗結(jié)果表明,MRFA 模塊通過三種不同比例的自適應(yīng)池化提取了多樣的上下文信息,作為殘差分支能夠減少特征金字塔中最高層特征的信息丟失,增強(qiáng)了頂層特征表示,可以提高文本像素的分類能力,減少誤檢現(xiàn)象的產(chǎn)生,從而使檢測準(zhǔn)確率P得到提升,代表綜合性能的F值也同步提高。
從表2 第3 行可以看出,通過加入MSAFF 模塊,在CTW1500數(shù)據(jù)集上與原模型FCENet[13]采用的特征金字塔側(cè)向連接的典型方法相比,準(zhǔn)確率、召回率和F 值分別提升了0.7、0.1和0.7個百分點;在Total-Text數(shù)據(jù)集上準(zhǔn)確率、召回率和F 值分別提升了0.1、0.7 和0.3 個百分點;在ICDAR2015 數(shù)據(jù)集上,準(zhǔn)確率和F 值分別提升了0.7和0.2個百分點;消融實驗結(jié)果證明,MSAFF模塊通過尺度不同的兩個分支提取全局特征與局部特征的通道注意力權(quán)重,在加強(qiáng)不同尺度文本特征的同時弱化非文本特征,更好地融合上下兩層語義和尺度不一致的特征,使擁有不同感受野的特征能更精準(zhǔn)地融合,避免文本過度分割,提高彎曲文本和大字符間距文本的定位能力,使準(zhǔn)確率P 在三個數(shù)據(jù)集上均得到提升;同時也減少了漏檢現(xiàn)象,在兩個彎曲文本數(shù)據(jù)集上召回率R也均有所提升,代表綜合性能的F值也同步提高。
從表2第4行可以看出,通過整合MRFA和MSAFF模塊,在CTW1500 數(shù)據(jù)集上,與原模型FCENet[13]相比準(zhǔn)確率、召回率和F 值分別提升了1.1、0.3 和1.1 個百分點;在Total-Text數(shù)據(jù)集上準(zhǔn)確率、召回率和F值分別提升了0.9、0.5 和0.7 個百分點;在ICDAR2015 數(shù)據(jù)集上,準(zhǔn)確率、召回率和F 值分別提升了0.5、0.8 和0.7 個百分點;消融實驗結(jié)果證明了通過結(jié)合兩個模塊,整體網(wǎng)絡(luò)能夠有效提高特征表示,減少信息損失,進(jìn)一步提升自然場景文本檢測的效果,減少了復(fù)雜背景和類文本圖案的誤檢現(xiàn)象,提升了彎曲文本和大字符間距文本檢測的魯棒性,同時減少了過度分割問題的產(chǎn)生,三個性能指標(biāo)均比原模型有顯著提升。
本文算法模型的參數(shù)量和計算量為分別為30.56 MB和37.62 GB,相對于原模型FCENet[13]分別增加了1.63 MB和0.71 GB,雖然參數(shù)和計算量有小幅增加,但有效提升了自然場景文本檢測的效果,在三個數(shù)據(jù)集上的性能指標(biāo)均有較大提升。在CTW1500 數(shù)據(jù)集訓(xùn)練1 500 個epoch 耗時約40 h,在該數(shù)據(jù)集的500 張測試集圖片上進(jìn)行測試,F(xiàn)PS達(dá)到了8.3,基本能夠滿足實時性場合的要求。
本文分別在多語言彎曲文本數(shù)據(jù)集CTW1500 和Total-Text 以及多方向長文本數(shù)據(jù)集ICDAR2015 上將本文方法的性能指標(biāo)與近年來的主流算法進(jìn)行了對比分析。
從表3 可以看出,在多語言彎曲文本數(shù)據(jù)集CTW1500上,本文方法在準(zhǔn)確率P和F值上均優(yōu)于現(xiàn)有方法,其中F值指標(biāo)達(dá)到了86.2%,相比于針對彎曲文本檢測的流行算法DRRG[26]、ContourNet[27]、FAN[28]分別提升了1.8、2.3、1.3個百分點,相比于當(dāng)前效果最好的算法DBNet++[29]提高了0.9個百分點。
表3 CTW1500數(shù)據(jù)集上相關(guān)方法的比較Table 3 Performance comparison on CTW1500 dataset
從表4 可以看出,在多語言彎曲文本數(shù)據(jù)集Total-Text 上,本文方法在準(zhǔn)確率P 和F 值上同樣優(yōu)于現(xiàn)有方法,其中F值指標(biāo)達(dá)到了86.5%,相比于針對彎曲文本檢測的流行算法DRRG[27]、ContourNet[27]、FAN[28]分別提升了0.8、1.1、1.7 個百分點,相比于當(dāng)前效果最好的算法DBNet++[29]提高了0.5個百分點。
表4 Total-Text數(shù)據(jù)集與相關(guān)方法比較Table 4 Performance comparison on Total-Text dataset
從表3 與表4 的對比實驗結(jié)果可知,即便本文方法未經(jīng)過大規(guī)模數(shù)據(jù)集的預(yù)訓(xùn)練,本文方法仍在多語言彎曲文本數(shù)據(jù)集CTW1500、Total-Text 取得了最為先進(jìn)的性能指標(biāo),充分證明了本文方法在自然場景文本檢測上的魯棒性,相較于同樣基于分割的方法DB[10]、DBNet++[29]、FAN[28],本文方法能夠減少復(fù)雜背景的誤檢及過度分割問題的產(chǎn)生,并提高了彎曲文本的檢測與定位能力。
在多方向長文本數(shù)據(jù)集ICDAR2015上的對比實驗結(jié)果如表5所示,由于該數(shù)據(jù)集中的圖片為行人佩戴的谷歌眼鏡所拍,存在抖動和漂移失真現(xiàn)象,導(dǎo)致數(shù)據(jù)集中的圖片較為模糊,對模型的訓(xùn)練造成一定的困難。本文方法在未經(jīng)過大規(guī)模數(shù)據(jù)集預(yù)訓(xùn)練的情況下仍取得了與當(dāng)前性能最佳的方法具有競爭力的性能指標(biāo),相較于原始方法FCENet[13]準(zhǔn)確率、召回率和F值分別提升了0.5、0.8 和0.7 個百分點,證明了本文方法在多方向長文本數(shù)據(jù)集中同樣具有較好的檢測性能。
表5 ICDAR2015數(shù)據(jù)集與相關(guān)方法比較Table 5 Performance comparison on ICDAR2015 dataset
為更直觀展示本文方法的文本檢測效果,圖7通過可視化的方式展示了本文方法和對比算法FCENet[13]在CTW1500數(shù)據(jù)集部分測試集圖片的測試結(jié)果。真值標(biāo)注圖中藍(lán)色邊界框為文本標(biāo)注框。從圖7(a)、(b)可以看出,本文方法能夠有效減少復(fù)雜背景干擾造成的誤檢問題;從圖7(b)可以看出,本文方法能夠避免大字符間距文本實例的過度分割;從圖7(c)可以看出,本文方法能夠準(zhǔn)確地檢測彎曲幅度較大的彎曲文本;從圖7(d)可以看出,本文方法對于豎直排列的文本也具有很好的檢測效果,魯棒性更強(qiáng)。以上四組圖片中分別存在著不同尺度以及彎曲文本,本文算法均能準(zhǔn)確地進(jìn)行檢測,證明了算法對不同尺度以及彎曲文本檢測等方面的優(yōu)勢。
圖7 CTW1500數(shù)據(jù)集可視化對比結(jié)果分析Fig.7 Analysis of visual comparison result on CTW1500 dataset
針對場景背景復(fù)雜、大字符間距、文本形狀彎曲多變所造成的文本檢測難題,本文提出了一種改進(jìn)FCENet的場景文本檢測算法。其中MRFA模塊增強(qiáng)特征金字塔結(jié)構(gòu)自上而下的高層語義信息流動,充分利用骨干網(wǎng)絡(luò)高層語義信息,提高文本像素的分類能力,減少誤檢現(xiàn)象發(fā)生;MSAFF 模塊使語義和尺度不一致的特征更精準(zhǔn)地融合,提高了不同尺度文本的定位能力,減少了過度分割現(xiàn)象的產(chǎn)生,并提高了彎曲文本檢測的準(zhǔn)確率。通過在三個國際基準(zhǔn)數(shù)據(jù)集上的實驗及對比分析,證明了本文方法的有效性。后續(xù)工作將針對模糊圖片的文本檢測及模型的輕量化設(shè)計進(jìn)一步展開研究,提升本文模型檢測的準(zhǔn)確性和速度。