摘" " 要: 針對商品包裝文本檢測任務中彎曲密集型文本導致的錯檢、漏檢問題,提出了一種由2個子網絡組成的基于鏈接關系預測的文本檢測框架(text detection network based on relational prediction, RPTNet)。在文本組件檢測網絡中,下采樣采用卷積神經網絡和自注意力并行的雙分支結構提取局部和全局特征,并加入空洞特征增強模塊(DFM)減少深層特征圖在降維過程中信息的丟失;上采樣采用特征金字塔與多級注意力融合模塊(MAFM)相結合的方式進行多級特征融合以增強文本特征間的潛在聯(lián)系,通過文本檢測器從上采樣輸出的特征圖中檢測文本組件;在鏈接關系預測網絡中,采用基于圖卷積網絡的關系推理框架預測文本組件間的深層相似度,采用雙向長短時記憶網絡將文本組件聚合為文本實例。為驗證RRNet的檢測性能,構建了一個由商品包裝圖片組成的文本檢測數據集(text detection dataset composed of commodity packaging, CPTD1500)。實驗結果表明:RPTNet不僅在公開文本數據集CTW-1500和Total-Text上取得了優(yōu)異的性能,而且在CPTD1500數據集上的召回率和F值分別達到了85.4%和87.5%,均優(yōu)于當前主流算法。
關鍵詞: 文本檢測;卷積神經網絡;自注意力;特征融合;圖卷積網絡;雙向長短時記憶網絡
中圖分類號: TP183" " " " " " 文獻標志碼: A" " " " " " " " 文章編號:" 1671-024X(2024)04-0050-11
Text detection of curved and dense products based on link relationship prediction
GENG Lei1,2," LI Jiachen 2,3," LIU Yanbei1,2, LI Yuelong4," LI Xiaojie1
(1. School of Life Sciences, Tiangong University, Tianjin 300387, China; 2. Tianjin Key Laboratory of Optoelectronic De-tection Technology, Tiangong University, Tianjin 300387, China; 3. School of Electronics and Information Engineering,Tiangong University, Tianjin 300387, China; 4. School of Computer Science and Technology, Tiangong University, Tianjin 300387, China)
Abstract: A detection framework consisting of two sub-networks, text detection network based on relational prediction(RPTNet) is proposed to solve the problem of error detection caused by curved and dense texts in the text detection task of commodity packaging images. In the text component detection network, local and global features are extracted using a parallel downsampling structure of convolutional neural network and self-attention. A dilated feature enhancement module (DFM) is added to the downsampling structure to reduce the information loss of the deep feature maps. The feature pyramid network is combined with the multi-level attention fusion module (MAFM) in upsampling structure to enhance the connections between different features and the text detector detects the text components from the upsampled feature maps. In the link relational prediction network, a relational reasoning framework based on graph convolutional network is used to predict the deep similarity between the text component and its neighbors, and a bi-directional long" short-term memory network is used to aggregate the text components into text instances. In order to verify" the detection performance of RPTNet, a text detection dataset CPTD1500 composed of commodity packaging images is constructed. The test results show that the effectiveness of the proposed RPTNet is verified by two publicly available text datasets, CTW-1500 and Total-Text. And the recall and F value of RPTNet on CPTD1500 are 85.4% and 87.5%, respectively, which are superior to current mainstream algorithms.
Key words: text detection; convolutional neural network; self-attention; feature fusion; graph convolutional network; bi-directional long short-term memory network
由于場景文本檢測具有較高的應用價值和廣闊的研究前景,近年來人們對其關注度越來越高。隨著深度學習的快速發(fā)展,人們對于具有線性、低密度的文本實例檢測已經實現(xiàn)了優(yōu)異的檢測效果[1-4]。但自然場景下的文本存在尺寸、形狀、密度、字體、透視等方面的多樣性,這導致在處理不規(guī)則文本實例時,傳統(tǒng)的檢測算法很難對其幾何屬性做出精確的判斷,無法達到預期的檢測效果。近年來,嘗試解決這類問題的方法大致可以分為基于回歸的方法和基于分割的方法。
基于回歸的文本檢測方法通常依賴于一般的物體檢測框架,如Faster R-CNN[5]和SSD[6]等。根據不同文字區(qū)域各自的特點,研究者在普通物體檢測方法的基礎上做了相應的修改,以此解決文本檢測中出現(xiàn)的問題。TextBoxes++[7]通過對TextBoxes[1]做出改進,即通過回歸四邊形而不是水平邊界框來實現(xiàn)多方向文本的檢測。Raisi等[8]用旋轉文本表征的方法優(yōu)化了DETR[9]的架構,可以更好的表示多方向文本區(qū)域。總體而言,上述方法對于傾斜角度較小的多方向文本檢測效果優(yōu)異,但由于矩形或四邊形邊界框不能足夠緊密的包圍彎曲文本,故這些方法不能很好地檢測彎曲文本。為了更好地適應任意形狀文本的檢測任務,LOMO[10]利用Mask-RCNN作為其基礎框架,并引入迭代細化和形狀表達模塊來細化不規(guī)則文本區(qū)域的邊界框,從而發(fā)揮了基于分割和回歸的架構優(yōu)勢。MOST[11]用文本特征對齊模塊(TFAM)完善了LOMO的架構,通過可變形卷積算子進行定位細化,實現(xiàn)了更高的精確率。FCENet[12]首先預測文本實例的緊湊傅里葉特征,然后采用反傅里葉變換(IFT)和非最大抑制(NMS)來重建任意形狀文本實例輪廓。
基于分割的文本檢測方法通常首先檢測文本組件,然后再將這些文本組件組合成文本實例。近些年來,基于分割的方法在處理任意文本檢測問題中被越來越多的研究者采用,根據單元表征的不同,此類方法可分為像素級方法和片段級方法。其中像素級方法通常將文本檢測問題作為語義分割或實例分割問題,以全卷積神經網絡(FCN)[13]作為框架來預測圖片的像素級別的分類圖,然后用不同的方法將這些像素組合成文本區(qū)域。Zhang等[14]采用FCN預測文本塊,然后通過MSER提取候選字符,最后使用分組策略來達到多方向文本檢測的目的。TextField[15]可以學習到一個深度方向場,此方向場與相鄰像素相連接,生成候選文本部分,學習到的方向信息將文本部分分組為文本實例。片段級方法首先檢測包含一部分單詞或者字符的文本片段,然后將同屬于一個文本區(qū)域的文本片段組合在一起。PSENet[16]用核去檢測每個文本實例,并通過漸進尺度擴展算法去逐漸擴展預定義的核,從而獲得最終的檢測結果。在CRAFT[17]中,用親和力判斷相鄰的字符之間是否屬于同一個文本實例,通過估計字符和字符間的親和力來檢測任意形狀文本。Seglink++[18]可以學習文本組件之間的吸引力和排斥力聯(lián)系,對最小生成樹算法改進后,通過實例感知組件,分組檢測任意形狀文本。DB[19]在分割網絡中進行了自適應二值化處理,簡化了后處理并提高了檢測性能。然而,上述方法往往無法精確分離圖像中密集相鄰的文本實例,而且檢測到的文本輪廓通常包含缺陷和噪聲。這是因為現(xiàn)有的基于分割方法的性能在很大程度上依賴于輪廓檢測框架的準確性,而忽略了輪廓的自適應調整。
針對上述問題,本文提出了基于鏈接關系預測的文本檢測框架RPTNet。首先通過文本特征并行采樣與多尺度特征融合相結合的方式,解決密集型文本實例間因特征信息提取不充分導致的粘連問題,同時受到Wang等[20]在人臉圖像聚類工作的啟發(fā),通過圖來表示非歐幾里得數據,使用圖卷積網絡(Graph Convolutional Network, GCN)推理文本組件間的深度鏈接關系。通過雙向長短時記憶網絡(Bi-directional Long Short-Term Memory Network, BiLSTM)[21],根據推理結果將文本組件自適應聚合為文本實例,從而實現(xiàn)了商品包裝圖像中彎曲密集型文本的精準檢測。為了證明RPTNet在檢測彎曲密集型商品外包裝文本實例的有效性,建立了一個由商品包裝圖片組成的包含大量彎曲密集型文本的文本檢測數據集CPTD1500。實驗證明,RPTNet在CPTD1500數據集和公開的曲面文本檢測數據集CTW-1500[22]及Total-Text[23]上取得了優(yōu)異的檢測效果。
1 研究方法
1.1 整體網絡架構
RPTNet的整體結構如圖1所示。
文本組件檢測網絡可以細分為特征提取和文本組件檢測兩部分。鏈接關系預測網絡可以細分為基于GCN的鏈接關系推理和基于BiLSTM的文本組件聚合兩部分。此外,本文還構建了文本組件圖來連接文本組件檢測網絡和鏈接關系預測網絡,實現(xiàn)RPTNet的端到端訓練。
1.2 特征提取
CNN擅長捕捉卷積感受野范圍內的局部特征,但對文本實例進行建模時,想要通過CNN捕捉全局依賴關系必須增加卷積層深度。理論上,ResNet[24]通過堆疊residual block可以實現(xiàn)感受野對文本實例的覆蓋,但目前的研究表明其感受野遠小于理論值,這對捕捉文本實例中的全局信息造成阻礙。同時,堆疊過深的卷積層也會增加模型參數量,進而引發(fā)模型過擬合問題。與CNN不同,自注意力擅長提取序列中長距離的全局信息,而Liu等提出的Swin Transformer[25]不僅具備關注全局信息建模的能力,而且可以通過滑動窗口做到跨窗口連接,使特征進行跨窗口交互,解決了卷積結構在捕捉文本實例特征時感受野不足的問題。但是自注意力結構缺少對于局部信息的關注,不能精確地提取文本實例中密集的細節(jié)特征。
對于彎曲密集型文本,對其進行特征提取時要求網絡同時具備2種能力:首先需要能捕捉到文本實例的輪廓特征,這也就要求網絡必須具有足夠大的感受野;其次還需要關注到彎曲密集型文本的細節(jié)信息,這要求網絡同時具備對于序列中局部特征的提取能力。通過上述分析,本文構建了一種將CNN與自注意力并聯(lián)的特征提取網絡,以學習到文本實例中的多尺度信息,結構設計如圖2所示。
在下采樣過程中,輸入圖像通過并行的ResNet-50和Swin Transformer來提取文本的局部和全局特征,ResNet-50和Swin Transformer的Block如圖3所示。同時,在ResNet-50的Res-Stage3、Res-Stage4之間及Res-Stage4、Res-Stage5之間加入空洞特征增強模塊(DFM),起到增大特征圖感受野、增強文本區(qū)域之間關聯(lián)性的作用。
在上采樣過程中,將ResNet-50的2-5層結構(Res-Stage2至Res-Stage5層)與Swin Transformer的1-4層結構(Swin-Stage1至Swin-Stage4層)進行多級特征融合,如圖2所示。具體來講,Res-Stage與Swin-Stage相同層之間的特征圖維度統(tǒng)一后,經過特征融合模塊,輸出結果依次為G4層、G3層、G2層和G1層,輸出維度大小依次為16×16×2 048、32×32×1 024、和128×128×256。
1.2.1 空洞特征增強模塊
對于ResNet-50網絡的Res-Stage1至Res-Stage5層:淺層特征圖尺度大,包含的空間信息較多,但包含的語義信息較少;深層的特征圖尺度小,包含的語義信息豐富,但包含的空間信息較少。為了增大特征圖的感受野,增加文本區(qū)域之間的關聯(lián)度,本文將空洞特征增強模塊(DFM)引入ResNet-50中??斩刺卣髟鰪娔K整體結構借鑒了Inception[26]的思想。DFM在Inception多分支卷積層結構的基礎上,引入了3個空洞卷積,從左至右空洞率分別為1、3、5,從而有效的增加了感受野,如圖4所示。
1.2.2 基于全局坐標注意力機制的多級特征融合模塊
為了最大限度保留文本實例中的全局特征和局部特征,本文提出了一種基于全局坐標注意力機制的多級特征融合模塊(MAFM),如圖5所示,在訓練過程中自動融合多級信息以增強網絡的表征學習。
通道注意力機制例如SE、SK等,雖然能夠充分考慮到通道間的聯(lián)系,實現(xiàn)特征圖不同通道間的權重分配,但是沒有反映位置間的相關性?;谕ǖ雷⒁饬C制的以上不足所提出的坐標注意力機制CA(coordi-nate attention)通過引入水平和垂直2個方向的注意力,將位置信息嵌入到通道注意力中,以捕捉特征位置間的相關性。但研究發(fā)現(xiàn),坐標注意力機制僅僅考慮到了各個通道特征圖中不同位置之間的聯(lián)系,沒有考慮全局信息對于輸出特征圖的影響。以此為出發(fā)點,對坐標注意力機制做出進一步優(yōu)化,提出了全局坐標注意力機制,其在關注不同位置間依賴關系的同時,還能捕捉到全局信息對于輸出特征圖的影響。基于全局坐標注意力機制的多級特征融合模塊由2部分組成:
(1) 第1部分和坐標注意力機制相同,在水平與垂直2個方向集成特征,生成方向相關特征圖。具體來講,輸入特征維度為H×W×C,首先在空間維度上分解成2個張量f h∈RR/r×H和f w∈RC/r×W,通過2個1×1卷積操作F h和F w,讓f h和f w 2個張量的通道數變?yōu)橐恢?,如式?)和式(2)所示:
式中:?滓表示Sigmoid激活函數。在上述工作的基礎上,將g h和g w分別作為注意力權重進行分配,得到坐標注意力機制的輸出zc,如式(3)所示:
式中:xc(i,j)表示第c個通道的高度坐標i與寬度坐標j位置特征圖的數值。
第二部分考慮了特征圖自身對于輸出的影響。將輸入特征圖送入到共享1×1卷積,之后進行標準化操作,最后采用額外的1×1卷積和Sigmoid激活,輸出與輸入相同維度的張量zn,如式(4)所示:
最終輸出得到的張量與輸入維度相同,如式(5)所示:
Z = zc + zn(5)
通過上述方法,該模塊不僅可以關注到位置信息間的相關性,還加權了輸入本身對于輸出的影響,在提高特征提取效率的同時,也加強了不同特征間的融合。
1.3 文本組件的檢測
由于DenseBox[27]在檢測小尺寸、遮擋嚴重、不規(guī)則的物體上具有突出的優(yōu)勢,因此本文通過借鑒Dense-Box的思想,從上采樣輸出的特征圖中檢測文本組件,如圖6所示。
首先用一個Ground-truth多邊形來表示任意形狀文本實例的邊界,在它的上和下2個長邊上有組上下對稱的錨點對(圖6(a));然后用條線來連接組上下對稱的錨點對(圖6(b)),求出這條線長度的平均值,作為此文本實例的尺度。
在訓練過程中,多邊形被分配到上采樣輸出的特征圖中。然后,使用特定比例的檢測模塊從特征圖中檢測文本實例所包含的文本組件。對原始文本圖像中的每一個Ground-truth多邊形,將其尺度按0.5的比例縮小,得到圖6(c)中的藍色區(qū)域,即文本中心區(qū)域;同時將Ground-truth多邊形的尺度按1.2的比例擴大,將大于0.5且小于1.2縮放比例的區(qū)域定義為文本邊界區(qū)域,如圖6(c)中的綠色區(qū)域;最后將縮放比例大于1.2的區(qū)域定義為背景區(qū)域。
在本文中,特征圖中的每一個像素都與原始文本圖像中的一個滑動點相映射。對于任何一個像素來講,如果與其相映射的那個滑動點位于Ground-truth多邊形的文本中心區(qū)域或邊界區(qū)域或背景區(qū)域,則該像素被貼上“文本”或“邊界”或“背景”的標簽。對于每一個被貼上“文本”標簽的像素,本文使用圖6(d)的方法來生成與其相對應的文本組件Ground-truth邊界框。具體來講,用p表示1個滑動點,l表示垂直于文本中心線且通過點p的線。與Ground-truth多邊形的2個長邊分別相交于p1和p2點。然后,本文將p1和p2分別沿著2個長邊向前和向后移動d個像素,最終得到文本組件中的4個頂點,由4個頂點所圍成的區(qū)域就是文本組件Ground-truth邊界框內的區(qū)域。在訓練過程中,取d = 2。檢測模塊用1個3×3卷積和2個1×1卷積來表示,分別用于文本/邊界/非文本分類和Ground-truth邊界框的回歸。同時,為了減少計算量和減小誤差,只保留得分高于預定閾值的標簽為“文本”的像素,本文將閾值設定為0.85。最后,在特征圖中使用標準的NMS算法,以0.6的交并比(IoU)閾值來刪除多余的文本組件。
1.3.1 損失函數
文本組件檢測損失由2部分組成,分別是文本/邊界/非文本的分類損失和Ground-truth邊界框的回歸損失。其中文本/邊界/非文本損失使用二元交叉熵計算取值像素的預測和Ground-truth標簽的損失并取其平均值,Ground-truth邊界框的回歸損失使用 計算取樣像素中正像素的預測值和Ground-truth值8-d歸一化坐標偏移的損失并取其平均值,方法如式(6)所示:
式中:N為取樣像素的數量;ck和c*k分別為第k個取樣像素的預測和Ground-truth標簽;Lcls(ck,c*k)為二元交叉熵的分類損失;Nps為取樣像素中正像素的數量,其中,Nps∈N,tl和t*l分別為第l個正取樣像素的預測值和Ground-truth值8-d歸一化坐標偏移;Lreg(tl,t*l)為Smooth-L1的回歸損失。
1.4 文本組件圖的構建
為了通過圖卷積網絡預測文本組件的深度相似性,將每一個文本組件用1個節(jié)點來表示。將所有的節(jié)點和節(jié)點間的連接線用1個集合來表示,記為A = {V,L}。其中,V = {V1,V1,…,Vi,…,VM}為所有節(jié)點(文本組件)的集合,Vi為第i個節(jié)點。L = {li→j = (Vi,Vj)|Vi,Vj∈V}為連接線的集合,li→j表示從節(jié)點Vi指向節(jié)點Vj的連接線。但是,如果本文考慮所有節(jié)點之間的連接線,那么計算量會十分巨大。受Wang等[11]工作的啟發(fā),只需要建立與每一個節(jié)點最相鄰近的k個節(jié)點的連接關系即可。在訓練過程中,設置k = 8。本文將2個節(jié)點之間的歐氏距離作為測量距離,以此來衡量2個節(jié)點間的鄰近關系。給定2個節(jié)點Vi、Vj,本文通過式(7)來判斷Vi是否有一條指向Vj的連接線。
式中:KNN(Vj)表示與Vj最相鄰的k個節(jié)點。如果Vi屬于與Vj最相鄰的k個節(jié)點,則li→j = 1,會有連接線從Vi指向Vj;如果Vi不屬于與Vj最相鄰的k個節(jié)點,則li→j = 0,不會有連接線從Vi指向Vj。
通過上述方法,將1個文本實例劃分為多個文本組件圖。每一個文本組件圖都由1個樞軸節(jié)點和k個鄰居節(jié)點組成。首先,本文將V中的每一個節(jié)點都作為樞軸節(jié)點構建文本組件圖,這樣本文共構建了M個文本組件圖。但是,為了避免在訓練過程中因出現(xiàn)很多相似文本組件圖而造成的梯度累積現(xiàn)象,本文以?孜為交并比(IoU)閾值來刪除多余的文本組件圖,如式(8)所示:
式中:Gm和Gn為2個文本組件圖,同屬于1個文本實例;Gm∩Gn為Gm和Gm各自k個鄰居節(jié)點的交集;Gm∪Gn為Gm和Gn各自k個鄰居節(jié)點的并集。在本文實驗中,?孜設置為0.8。通過這種方法,本文減少了相似文本組件圖的數量,達到了樣本平衡的目的。
1.5 基于GCN的鏈接關系預測
為了預測節(jié)點間鏈接的更多可能性,基于圖卷積網絡,在文本組件圖的基礎上進一步推理節(jié)點間的鏈接關系。圖通常表示為g(X,A),圖卷積網絡的輸入包括2部分,即特征矩陣X和鄰接矩陣A。
為了獲得節(jié)點特征,本文使用RoI-Align提取文本組件的特征。首先,將文本組件圖與上采樣后輸出的特征圖一起送入RoI-Align層,RoI-Align層的輸出Fr被作為節(jié)點特征;然后,對節(jié)點特征進行歸一化的操作。對于任意一個文本組件圖Gp,Vp為Gp中的樞軸節(jié)點,xp為樞軸節(jié)點Vp的特征;對文本組件圖Gp中的每一個節(jié)點的節(jié)點特征執(zhí)行減去xp的操作,目的是將中樞節(jié)點的特征編碼到文本組件圖中,可以使鏈接關系預測網絡更加充分地了解到樞軸節(jié)點與鄰居節(jié)點間的連接關系。通過式(9)計算得到Fp,令X = Fp,從而完成對文本組件圖中節(jié)點特征的歸一化。
式中:xq為文本組件圖Gp中節(jié)點Vq的節(jié)點特征。
使用鄰接矩陣Ap∈RN×N表示文本組件圖的拓撲結構,N為節(jié)點個數。在獲得特征矩陣X和鄰接矩陣A后,本文使用圖卷積網絡來推理節(jié)點之間的鏈接關系。圖卷積層可以表示為:
1.6 文本組件聚合
所有節(jié)點經過4個圖卷積層的推理預測后,通過雙向長短時記憶網絡(BiLSTM)動態(tài)地對各節(jié)點的特征信息進行聚合。圖卷積層的輸出表示為H = [h1,h2,…,hi,…,hn],其中hi表示第i個節(jié)點經過圖卷積層后輸出的隱藏向量。在本文中,BiLSTM中細胞單元的輸入為節(jié)點的隱藏向量,第j個細胞單元的運算過程如下:
2 實驗結果與分析
本文在Ubuntu 16.04操作系統(tǒng)下,通過PyTorch 1.2.0框架實現(xiàn)了RPTNet,并在2塊NVIDIA GeForce GTX 1080Ti的GPU上進行了實驗。
2.1 實驗數據
為了評估本文提出的RPTNet的性能,本文建立了一個由商品外包裝圖像組成的文本檢測數據集CPTD1500。其中,CPTD1500數據集的標注方式與基準數據集CTW-1500[22]相似。與CTW-1500數據集不同的是,CPTD1500數據集采用彎曲或密集型的商品包裝上的文本實例作為訓練集與測試集。本文建立此數據集的目的在于評估RPTNet在檢測彎曲、密集型的商品外包裝文本實例時的性能。為了更好地評估RPTNet的性能,本文分別在CPTD1500數據集和2個場景文本檢測基準數據集CTW-1500和Total-Text[23]上進行消融實驗和對比實驗。
CPTD1500數據集由1 000張訓練圖像和500張測試圖像組成,均為商品外包裝文本圖像。圖像中的文本實例以中文和英文為主。同時還包含少量日文和韓文,以驗證網絡檢測不同語言的泛化能力。在數據集統(tǒng)計過程中,將實物中文本實例彎曲弧度大于5度的歸類為彎曲文本,否則歸類為四邊形文本;將實物中文本實例間的間隙大于1 mm的2個文本實例歸類為密集文本,否則歸類為稀疏文本。對CPTD1500數據集中的文本實例類型進行統(tǒng)計,統(tǒng)計結果如表1所示。每個文本實例均通過14點多邊形進行標注。標注示例如圖7所示。數據集采用基于PASCAL VOC文本評測準則。
CTW-1500數據集由1 000張訓練圖像和500張測試圖像組成。每張圖像至少有一個彎曲的文本實例。該數據集存在很多的藝術體、模糊小文本和類似文本等干擾因素。圖像中的文本實例以英文為主,包含少數中文。每個文本實例均采用14點多邊形進行標注。
Total-Text數據集由1 255張訓練圖像和300張測試圖像組成。該數據集包含許多曲線和多方向文本實例。每一個文本實例用多邊形標注框標注在字符級別上。
在對比實驗中,模型在SynthText數據集上預訓練2個epoch,消融實驗部分沒有設置預訓練步驟。
在消融實驗和對比實驗中,分別在本文構建的數據集和基準數據集上做700個epoch的微調訓練,批次設置為4。同時,使用帶動量的SGD優(yōu)化器來訓練模型,動量設置為0.9,權重衰減設置為0.000 5,初始學習率設置為0.01,學習率衰減使用Poly策略。
為了提高訓練后模型的泛化能力,本文也采用隨機旋轉[-10°~10°]、隨機裁剪、隨機翻轉來對訓練圖像做數據擴充,最后將圖像調整成1 024 pixel×1 024 pixel大小送入網絡訓練。
2.2 評價指標
本文算法的性能由精確率P、召回率R、F值和檢測速率v共4個指標來衡量。其中精確率P、召回率R和F值的計算過程分別如式(19)—式(21)所示:
式中:TP、FP和FN分別為真陽性、假陽性和假陰性文本實例的數量;精確率P和召回率R分別反映了模型識別負樣本和正樣本的能力;F值為由精確率和召回率的平均值計算出的總體評價分數。
2.3 消融實驗
為了驗證文本組件檢測網絡和鏈接關系預測網絡的有效性,在CPTD1500數據集和Total-Text數據集上分別進行了消融實驗。實驗結果如表2所示。
由表2可以看出,在同樣加入DFM模塊、MAFM模塊、GCN鏈接關系預測網絡和BiLSTM聚合模塊的前提下,選取ResNet-50和Swin Transformer的多級特征融合網絡作為骨干網絡比單獨選取ResNet-50網絡作為骨干網絡時擁有更高的精確率、召回率和F值,三者在CPTD1500數據集上分別有1.89%、0.49%、1.15%的提升,在Total-Text數據集上分別有1.20%、1.26%、1.23%的提升。然后,在選取ResNet-50和Swin Transformer的多級特征融合網絡作為骨干網絡的前提下,分別加入DFM和MAFM模塊后,精確率和F值較之前分別有不同程度的提升。最后,在骨干網絡和各個模塊不變的前提下,添加GCN關系預測網絡和BiLSTM聚合模塊后,相較于添加前,在精確率、召回率和F值上均有較大幅度的提升。由此說明,在CPTD1500數據集和Total-Text數據集上的測試結果證實了上述各模塊的重要性。CPTD1500數據集下不同模型的損失曲線如圖8所示。
由圖8可知,在CPTD1500數據集中,3個模型在經過150 000次迭代之后,損失值逐漸變得平穩(wěn)。通過比較3個模型的損失曲線,在分別加入DFM模塊和MAFM模塊后,模型具有更快的收斂速度,同時在收斂之后損失值更加穩(wěn)定,曲線更加平滑。由此可以得出,DFM模塊和MAFM模塊的加入對于RPTNet具有重要作用。
2.4 對比實驗
CTW-1500和Total-Text是2個典型的彎曲和多方向的文本數據集,分別基于行級和字符級進行了注釋。在測試過程中,由于圖像的長寬比變化較大,首先把圖像的短邊統(tǒng)一為512,然后根據短邊的變化比例,對長邊做出相同比例的調整,以保證圖像的長寬比不變。RPTNet在CTW-1500數據集和CPTD1500數據集上的可視化檢測結果如圖9和圖10所示。
由圖9可以看出,RPTNet在檢測彎曲度很大的文本時具有較好的魯棒性,即使圖中有個別的文本實例存在多個彎曲方向,本文所提出的模型也能夠對其完成精準的檢測;CTW-1500數據集中包含大量的復雜場景圖像,RPTNet能夠準確區(qū)分出圖像中的背景和文本,取得了較好的檢測效果。
由圖10可以看出,RPTNet可以有效的處理任意形狀的密集型文本,雖然在商品說明區(qū)域中的文本實例存在彎曲、密集、字體小等檢測難點,但通過二值化分類圖可以看出,本文所提出的模型可以準確區(qū)分出相鄰文本實例,并未出現(xiàn)文本粘連的問題,由此可以說明,RPTNet在彎曲密集型小文本實例的檢測中有較好的魯棒性;CPTD1500數據集中包括多種語言、符號及數字表示,RPTNet均能夠正確的提取出相應的文本,有著較好的泛化性。
不同數據集上的對比實驗結果如表3所示。由表3可知,對于CTW-1500數據集而言,RPTNet的精確率、召回率、F值和檢測速率分別達到87.9%、84.1%、86.0%和12.7 fps,均優(yōu)于最新的方法。在Total-Text數據集中,RPTNet的召回率和F值分別達到86.1%和88.1%,取得了最優(yōu)的結果,同時RPTNet在精確率比ABPNet低0.6%的前提下,召回率和F值分別高出ABPNet 0.9%和0.2%,有著比ABPNet更均衡的綜合性能指標。在CTW-1500數據集和Total-Text數據集上的檢測結果驗證了RPTNet在處理行級和字符級彎曲文本時的優(yōu)勢。
在CPTD1500數據集上的測試結果驗證了RPTNet在檢測彎曲密集型商品外包裝文本的有效性。該方法在召回率、F值和檢測速率上均取得了最優(yōu)的結果。其中F值高達87.5%,相比于針對曲面密集型文本檢測任務的SegLink++提高了4.1%,相比于精確率最高的FCE提高了0.5%,從而驗證了本文所提出的RPTNet相較于其他最新方法,在彎曲密集型商品外包裝文本檢測任務中有著較大的競爭優(yōu)勢。
3 結 論
本文提出一種片段級文本檢測方法(RPTNet)來檢測彎曲密集型商品包裝文本。通過MAFM模塊和DFM的結合進行局部特征和全局特征的融合,以更好地檢測文本組件?;贕CN和BiLSTM的鏈接關系預測網絡可以有效推理文本組件間鏈接的更多可能性。在2個公開數據集和本文構建的CPTD1500數據集上的測試結果表明,RPTNet召回率為85.4%和 F值為87.5%,與最新的方法相比都有一定的提升。未來的研究中,將進一步優(yōu)化文本檢測算法,對模型的輕量化展開深入研究。同時,希望將RPTNet與文本識別算法相結合,設計一種端到端的針對任意形狀文本的文本識別網絡。
參考文獻:
[1]" " LIAO M H, SHI B G, BAI X, et al. TextBoxes: A fast text detector with a single deep neural network[C]//Proceedings of the Thirty-First AAAI Conference on Artificial Intelligence. San Francisco, USA:ACM, 2017: 4161-4167.
[2]" " ZHOU X Y, YAO C, WEN H, et al. EAST: An efficient and accurate scene text detector[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Honolulu, USA:IEEE, 2017: 2642-2651.
[3]" " MA J Q, SHAO W Y, YE H, et al. Arbitrary-oriented scene text detection via rotation proposals[J]. IEEE Transactions on Multimedia, 2018, 20(11): 3111-3122.
[4]" " HE W H, ZHANG X Y, YIN F, et al. Deep direct regression for multi-oriented scene text detection[C]//2017 IEEE International Conference on Computer Vision(ICCV). Venice, Italy:IEEE, 2017: 745-753.
[5]" " REN S Q, HE K M, GIRSHICK R, et al. Faster R-CNN: Towards real-time object detection with region proposal networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(6): 1137-1149.
[6]" " LIU W, ANGUELOV D, ERHAN D, et al. SSD: Single shot MultiBox detector[C]//European Conference on Computer Vision. Cham: Springer, 2016: 21-37.
[7]" " LIAO M H, SHI B G, BAI X. TextBoxes++: A single-shot oriented scene text detector[J]. IEEE Transactions on Image Processing: A Publication of the IEEE Signal Processing Society, 2018, 27(8): 3676-3690.
[8]" " RAISI Z, NAIEL M A, YOUNES G, et al. Transformer-based text detection in the wild[C]//2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops (CVPRW). Nashville, USA:IEEE, 2021: 3156-3165.
[9]" " CARION N, MASSA F, SYNNAEVE G, et al. End-to-end object detection with transformers[C]//Computer Vision - ECCV 2020: 16th European Conference. Glasgow, UK:ACM, 2020: 213-229.
[10]" ZHANG C Q, LIANG B R, HUANG Z M, et al. Look more than once: An accurate detector for text of arbitrary shapes[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Long Beach, USA:IEEE, 2019: 10544-10553.
[11]" HE M H, LIAO M H, YANG Z B, et al. MOST: A multi-oriented scene text detector with localization refinement[C]//2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Nashville, USA:IEEE, 2021: 8809-8818.
[12]" ZHU Y Q, CHEN J Y, LIANG L Y, et al. Fourier contour embedding for arbitrary-shaped text detection[C]//2021 IEEE/ CVF Conference on Computer Vision and Pattern Recognition (CVPR). Nashville, USA:IEEE, 2021: 3122-3130.
[13]" SHELHAMER E, LONG J, DARRELL T. Fully convolutional networks for semantic segmentation[C]//IEEE Transactions on Pattern Analysis and Machine Intelligence. [s.n.]:IEEE, 2017: 640-651.
[14]" ZHANG Z, ZHANG C Q, SHEN W, et al. Multi-oriented text detection with fully convolutional networks[C]//2016 IEEE Conference on Computer Vision and Pattern Recogni-tion (CVPR). Las Vegas, USA:IEEE, 2016: 4159-4167.
[15]" XU Y C, WANG Y K, ZHOU W, et al. TextField: Learning a deep direction field for irregular scene text detection[J]. IEEE Transactions on Image Processing: A Publication of the IEEE Signal Processing Society, 2019, 28(11): 5566-5579.
[16]" WANG W H, XIE E Z, LI X, et al. Shape robust text detec-tion with progressive scale expansion network[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Long Beach, CA, USA. IEEE, 2019: 9328-9337.
[17]" BAEK Y, LEE B, HAN D, et al. Character region awareness for text detection[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Long Beach, USA:IEEE, 2019: 9357-9366.
[18]" TANG J, YANG Z B, WANG Y P, et al. Seglink++: Detecting dense and arbitrary-shaped scene text by instance-aware component grouping[J]. Pattern Recognition, 2019, 96: 106954.
[19]" LIAO M H, WAN Z Y, YAO C, et al. Real-time scene text detection with differentiable binarization[J]. Proceedings of the AAAI Conference on Artificial Intelligence, 2020, 34(7): 11474-11481.
[20]" WANG Z D, ZHENG L, LI Y L, et al. Linkage based face clustering via graph convolution network[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CV-PR). Long Beach, USA:IEEE, 2019: 1117-1125.
[21]" KIPERWASSER E, GOLDBERG Y. Simple and accurate dependency parsing using bidirectional LSTM feature representations[J]. Transactions of the Association for Computational Linguistics, 2016, 4: 313-327.
[22] LIU Y L, JIN L W, ZHANG S T, et al. Curved scene text detection via transverse and longitudinal sequence connec-tion[J]. Pattern Recognition, 2019, 90(C): 337-345.
[23]" CH′NG C K, CHAN C S. Total-text: A comprehensive da-taset for scene text detection and recognition[C]//2017 14th IAPR International Conference on Document Analysis and Recognition (ICDAR). Kyoto, Japan:IEEE, 2017: 935-942.
[24]" HE K M, ZHANG X Y, REN S Q, et al. Deep residual learning for image recognition[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition(CVPR). Las Vegas, USA:IEEE, 2016: 770-778.
[25]" LIU Z, LIN Y T, CAO Y, et al. Swin Transformer: Hierarchical vision transformer using shifted windows[C]//2021 IEEE/CVF International Conference on Computer Vision (ICCV). Montreal, Canada:IEEE, 2021: 9992-10002.
[26]" SZEGEDY C, LIU W, JIA Y Q, et al. Going deeper with convolutions[C]//2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Boston, USA:IEEE, 2015: 1-9.
[27]" HUANG L C, YANG Y, DENG Y F, et al. DenseBox: Unifying landmark localization with end to end object detection[EB/OL]. [2015-09-15]. http://arxiv.org/abs/1509. 04874
[28]" XUE C H, LU S J, ZHANG W. MSR: Multi-scale shape regression for scene text detection[EB/OL]. [2019-01-19]. http://arxiv.org/abs/1901.02596
[29]" ZHANG S X, ZHU X B, YANG C, et al. Adaptive bounda-ry proposal network for arbitrary shape text detection[C]//2021 IEEE/CVF International Conference on Com-puter Vision (ICCV). Montreal, Canada:IEEE, 2021: 1285-1294.
[30]" LIU Y L, SHEN C H, JIN L W, et al. ABCNet v2: Adaptive bezier-curve network for real-time end-to-end text spot-ting[EB/OL]. [2021-05-21]. http://arxiv.org/abs/2105.03620
[31]" DAI P W, ZHANG S Y, ZHANG H, et al. Progressive con-tour regression for arbitrary-shape scene text detection[C]//2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Nashville, USA:IEEE, 2021: 7389-7398.
本文引文格式:
耿磊,李嘉琛,劉彥北,等. 基于鏈接關系預測的彎曲密集型商品文本檢測[J]. 天津工業(yè)大學學報,2024, 43(4): 50-59,74.
GENG L," LI J H," LIU Y B, et al. Text detection of curved and dense products based on link relationship prediction[J]. Journal of Tiangong University, 2024, 43(4): 50-60(in Chinese).
收稿日期: 2022-12-01
基金項目: 國家自然科學基金資助項目(61771340);天津市科技計劃資助項目(20YDTPJC00110)
第一作者: 耿" " 磊(1982—),男,博士,教授,主要研究方向為計算機視覺、機器學習等。E-mail:genglei@tiangong.edu.cn
通信作者: 劉彥北(1986—),男,博士,副教授,主要研究方向為機器學習、數據挖掘等。E-mail:liuyanbei@tiangong.edu.cn