• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于學習主動中心輪廓模型的場景文本檢測

    2022-03-12 05:56:30謝斌紅秦耀龍張英俊
    計算機工程 2022年3期
    關鍵詞:尺度權重特征

    謝斌紅,秦耀龍,張英俊

    (太原科技大學計算機科學與技術學院,太原 030024)

    0 概述

    場景文本檢測有助于場景內容信息的獲取、分析和理解,對于提高圖像檢索能力、工業(yè)自動化水平和場景理解能力等具有重要意義,可應用于自動駕駛、車牌票據識別、智能機器人、圖片檢索和大數據產業(yè)等場景。目前,場景文本檢測已成為計算機視覺與模式識別、文檔分析與識別領域的研究熱點[1-2]。相較于通用目標檢測,在同一張或不同自然場景圖片中文本尺度變化較大,最大文本與最小文本之間可以相差近230 倍[3]。因此,多尺度場景文本檢測網絡應運而生,多尺度場景文本檢測網絡通過多尺度多形式的特征提取和融合,以適應場景文本尺度的多變性,對于場景文本檢測的工業(yè)化應用具有十分重要的意義。

    早期多尺度場景文本檢測網絡采用傳統(tǒng)機器學習的方法,通過傳統(tǒng)的圖像處理方法和人工設計的特征檢測場景文本。如文獻[4]通過提取最大穩(wěn)定極值區(qū)域(MSER)找出候選字母,根據Hu 矩特征刻畫候選字母的幾何特征;然后通過單鏈接聚類得到候選文本,最后引入共生紋理特征篩選文本區(qū)域,該算法對文本尺度變化有一定的適應性。文獻[5]采用基于方向預分類的Gabor 小波變換特征提取方法,利用Gabor 函數良好的頻率選擇性和方向選擇性,同時考慮到筆畫相對位置的偏移,對筆畫變形和低分辨率字符具有較好的適應性。文獻[6]引入筆畫寬度變化(SWT)算法處理場景圖片提取不同尺度和不同方向的文本候選區(qū),采用手工特征和隨機森林(Random Forest,RF)算法過濾非文本區(qū)域,利用文本間的相似性連接成文本行。文獻[7]采用多尺度滑動窗口模型,針對文本的局部特征提出一種基于文本部件的樹形結構,該算法能很好地適應文本尺度的多變性。上述方法雖然在多尺度場景文本檢測領域取得了不錯的效果,但是傳統(tǒng)的機器學習方法在特征提取方面仍有許多不足:由于場景文本檢測的復雜性,人工設計特征難度高,需要消耗大量的時間和人力,成本較高;人工設計的特征會引入人為因素,可能造成文本特征的缺失甚至引入錯誤特征,檢測精度不高。

    近年來,隨著深度學習網絡的迅猛發(fā)展,涌現出一系列多尺度場景文本檢測網絡,其中典型方法是基于金字塔網絡,根據其網絡結構可分為單向金字塔網絡和雙向金字塔網絡。

    基于單向金字塔網絡的方法[8-11]通常只有自下而上的特征提取過程,即對原始輸入圖像通過卷積、池化等操作進行特征提取,在不同層的特征圖或者融合后的特征圖上進行文本檢測。根據網絡輸入不同大致可分為兩類:一類為單向特征金字塔網絡,其輸入為單一尺度場景圖片,在同一圖片不同層的特征圖或者不同層融合后的特征圖上進行文本檢測;另一類為單向圖片金字塔網絡,該類方法輸入不同尺度圖片,在不同圖片的不同尺度特征圖上進行檢測。如CTPN[8]為解決文本長度變化非常劇烈的問題,采用單向特征金字塔網絡,通過設定相同寬度不同高度的垂直文本候選框,使用長短期雙向記憶模型處理文字建議序列,進而計算多尺度文字區(qū)域外接框與置信度。R2CNN[9]使用Faster R-CNN 網絡提取特征,利用不同尺寸卷積核的ROI Pooling 處理特征圖,從而計算出文本目標的矩形包圍框檢測多尺度場景文 本。TextBoxss[10]基于SSD 框架,根據不同卷積層的多尺度特征檢測不同尺寸文本,通過設定不同縱橫比的默認文本候選框,提高了不同尺寸文本的檢測準確率。SSTD[11]基于SSD 框架,借鑒了GoogleNet[12]中的Inception 模塊,使用HIM(Hierarchical Inception Module)融合卷積特征以提高模型的性能。

    基于單向金字塔結構網絡雖然在多尺度場景文本檢測領域取得了較好的性能,但是單向特征金字塔網絡只包含自下而上的特征提取過程,可以提取到豐富高層語義特征,卻忽略了低層特征圖包含的文本邊界特征信息,造成文本邊界檢測不準確;而單向圖片金字塔網絡雖然通過對不同尺度圖片進行特征提取,有利于檢測不同尺度文本,但是增加了額外的計算開銷。因此,針對單向金字塔網絡的不足,研究人員提出了基于雙向金字塔結構的多尺度場景文本檢測網絡。

    基于雙向金字塔網絡的方法包括自下而上和自上而下兩個特征提取過程,首先在自上而下過程中融合同層次自下而上的特征圖,最后在不同尺度特征圖或融合后的特征圖上進行檢測,該類方法可以有效利用低層特征分辨率高和高層特征語義信息豐富的特點,其中低層特征語義信息少但分辨率高,有利于文本目標的定位,而高層特征分辨率低但包含語義信息豐富,有利于文本目標和非文本目標的分類。典型方法為基于FPN[13](Feature Pyramid Network)結構,如PSENet[14]引入FPN 結構,首先將文本區(qū)域收縮劃分為多級中心區(qū)域,然后進行像素級分類和預測多級中心區(qū)域,最后使用廣度優(yōu)先搜索算法逐級擴展為不同的文本區(qū)域,可以有效地檢測相距較近和尺度多變的文本實例。MSR[15]網絡使用FPN結構,輸入多個尺度原始圖像進行特征提取并在相同層對不同尺度圖片的特征進行融合,在最后融合后的特征圖上檢測多尺度的文本。CCTN[16]網絡基于VGG 框架,首先將文本劃分為文本區(qū)域和文本中心線區(qū)域,然后通過先粗略分類后精細分割的方式檢測多尺度文本。EAST[17]則基于PVANet,通過上采樣融合不同網絡層的特征計算出融合特征圖,在融合特征圖的基礎上回歸文本包圍框的相關屬性來檢測場景文 本。PixelLink[18]采用基 于VGG-16 的雙向特征金字塔網絡,通過預測像素類別和像素在空間特征上的連通性以區(qū)分不同文本。

    基于雙向金字塔網絡的方法雖然同時融合高層語義特征和低層包含的邊界特征,但其在自下而上的深層特征提取過程中,會通過下采樣來減小特征圖的分辨率以增大感受野來提取高層的語義特征,因此存在以下不足:大文本邊界回歸弱,雖然較深的特征圖有利于預測大文本,但隨著特征圖分辨率的減小和網絡層數的加深,大文本的邊界信息也會逐漸減少,因而不利于大文本的邊界回歸;小文本語義信息丟失。隨著特征圖分辨率的減小,小文本的語義特征會逐漸減少甚至丟失,導致出現漏檢情況;文本邊界檢測錯誤,隨著大文本邊界信息的減少和小文本語義特征的減弱,造成文本檢測框包含過多背景或部分包圍文本造成的邊界檢測識別錯誤,雖然該類方法在自上而下的過程中融合了同層次的自下而上的淺層特征圖以增強低層邊界特征,但是對于大文本而言,淺層特征圖的語義信息弱,沒有能力檢測大文本,而對于小文本而言,由于其語義特征已經丟失,即使融合特征,檢測效果也不會有明顯提升。

    針對金字塔結構由于下采樣減小特征圖分辨率而造成的性能次優(yōu)情況,本文采用多尺度特征權重融合(Multi-Scale Feature Weight Fusion,MSWF)模型在3 個分支上進行多尺度特征提取,以兼顧高層語義特征和低層邊界特征。由于不同分支特征之間的不一致性,本文在3 個分支加入可學習的權重,并針對多尺度場景文本邊界檢測錯誤的問題,提出學習主動中心輪廓(Learning Active Center Contour,LACC)模型用于多尺度場景文本邊界檢測。

    1 基于LACC 模型的場景文本檢測網絡

    1.1 場景文本檢測算法框架

    本文提出的基于學習主動中心輪廓模型的場景文本檢測網絡結構如圖1 所示。本文網絡使用ResNet[19]作為主干網,首先在其基礎上構建多尺度特征權重融合(MSWF)模型,在3 個不同分支上進行多尺度的特征提取和權重融合,然后借鑒FPN 結構提取自上而下特征圖,接著使用融合函數C對自上而下各層特征圖進一步融合計算出最終特征圖F,將融合后的特征圖輸入學習主動中心輪廓模型中進行中心點的定位和邊界框的回歸,最后得出預測結果。

    圖1 基于學習主動中心輪廓模型的場景文本檢測網絡Fig.1 Scene text detection network based on learning active center contour model

    1.2 文本檢測網絡特征提取

    本文網絡特征提取過程如圖1 所示,首先將增強后的場景文本圖片輸入到自下而上的主干網中,依次計算出3 個不同尺度的特征圖(C1,C2,C3),然后將C3輸入到2 個多尺度特征權重融合模型中,自上而下特征提取過程與FPN[13]相同,最后獲得5 個256通道的特征圖(P2,P3,P4,P5,P6),并使用連接函數C進一步融合不同層次的特征圖,得到具有1 280 通道的特征圖F,該函數定義如下:

    其中:“||”為連接(concatenation)操作;Up()為上采樣操作。特征圖F被輸入到可變形卷積網絡[20](DCNv2)中進一步提取特征并且將通道數降為64 通道,然后將其輸入到學習主動中心輪廓模型中進行中心點的定位和文本邊界的回歸,并計算出檢測結果。

    1.3 多尺度特征權重融合模型

    多尺度特征權重融合模型結構如圖2 所示,將圖1 所示特征圖C3輸入到多尺度特征權重融合模型中,該模型包含3 個分支(Branch1,Branch2,Branch3),各分支處理流程相同。以Branch1 分支為例,特征圖C3經過空洞卷積塊計算空洞卷積特征圖D1,該分支分為上下兩層,上層通過權重計算模塊計算出該分支的權重特征圖W1,下層輸出卷積特征圖D1,此時Branch1 分支輸出特征圖B1,滿足:

    圖2 多尺度特征權重融合模型示意圖Fig.2 Schematic diagram of multi-scale feature weight fusion model

    其中:⊙為Hadamard 乘積,按照上述流程依次計算出各分支輸出特征圖(B1,B2,B3),則MSWF Mode 輸出特征圖MF,滿足:

    相較于三叉戟網絡[21](Trident Network,TridentNet),本文網絡不同之處在于著重對3 個分支的融合過程進行改進,TridentNet 三分支卷積核參數權值共享,首先對訓練目標進行尺度劃分,然后根據劃分結果選擇分支進行訓練,最后使用第二分支進行推理,并經過NMS 后處理輸出推理結果。

    因此,MSWF Model 與TridentNet 存在以下不同之處:1)TridentNet 對訓練目標進行尺度劃分來選擇訓練分支,三分支卷積核參數權值共享,而本文采用三分支并行訓練,分別計算三分支權重;2)TridentNet 通過第二分支進行檢測,本文在權重融合后的特征圖上檢測文本;3)TridentNet 選擇某個分支進行訓練和檢測屬于硬注意力的一種,本文對三分支的特征基于權重融合屬于軟注意力。

    MSWF 模型各分支的空洞卷積[22]分別使用了不同空洞率(Dilate=1,Dilate=2,Dilate=3),采用三分支結構是為了在多個分支提取多種尺度特征,以適應場景文本的多尺度變化。相同分支則在同一尺度采用空洞卷積,既可以保持分辨率不變,又可以擴大感受野,以此取代特征金字塔下采樣提取文本特征的方法,提高了網絡對于大、小文本的檢測性能。

    圖2 中權重計算模塊結構如圖3 所示,D1、D2、D3分別經過1×1Conv 層、BN(Batch Normalization)層和ReLU(Rectified Linear Units)層生成特征圖(W1_t,W2_t,W3_t),然后使用cat(concatnate)函數將其拼接為特征圖Wt,再經過SoftMax 函數作歸一化處理得到可學習的權重特征圖(W1,W2,W3)。

    圖3 權重計算模塊結構Fig.3 Structure of the weight calculation block

    在具體計算權重時,令為l(l∈[1,3])分支經過空洞卷積模塊后產生的特征圖(D1,D2,D3)在(i,j)位置的特征向量,則有:

    其中:yij表示多尺度特征權重融合模型輸出的特征圖MF 在(i,j)位置的特征向量;αij、βij、γij分別表示三分支權重特征圖(W1,W2,W3)在(i,j)位置的特征向量。受文獻[23]的啟發(fā),本文令αij+βij+γij=1,且αij,βij,γij∈[0,1],如式(5)所示:

    其中:αij、βij、γij分別由 以作為控制參數的softmax 函數計算得出。

    1.4 MSWF 算法

    算法1MSWF 算法

    2 損失函數

    2.1 主動輪廓模型

    在眾多分割方法中,基于主動輪廓模型(ACM)或其變形模型是圖像分割中應用最廣泛的方法之一,取得了較好的性能。本文提出的學習主動中心輪廓模型即是受主動輪廓模型的啟發(fā)。1988 年,KASS 等[24]提出主動輪廓模型,將圖像分割問題轉換為求解能量泛函最小值問題,為圖像分割提供一種全新的思路。該模型的主要原理是通過構造能量泛函,在能量函數最小值驅動下,使用基于偏微分的方法最小化能量函數,使輪廓線朝著目標邊界的方向不斷演進,最終分割出目標。但由于實際圖像的背景是不均勻的,并且背景和目標的對比度往往比較低,僅依靠能量函數的最小值無法準確分割出目標,因此Chan-Vese 模型將曲線所圍的面積和曲線長度作為能量項引入到能量函數中。在過去若干年里,研究人員提出了很多基于ACM 的模型,如無邊緣主動輪廓模型(ACWE)和BRESSON 等[25]提出的快速全局最小化主動輪廓模型(FGM-ACM)。

    ACWE 模型的能量最小化問題可以表述為:

    其中:ds是歐幾里得長度;C是曲線的長度;f(x)是待分割圖像;Ωc是圖像f(x)在圖像域Ω上的閉合子集;c1是內部區(qū)域的平均灰度;c2是外部區(qū)域的平均灰度;λ是用于控制正則化過程中c1、c2之間平衡的參數(λ?0)。

    2.2 學習主動中心輪廓模型

    雖然基于主動輪廓模型的圖像分割取得了很好的效果,但還存在以下不足:1)采用無監(jiān)督的方法不需要從訓練數據中學習屬性,因此它們很難處理噪聲和遮擋;2)有許多參數是依據經驗設定的;3)多數方法都不能對自然場景圖片進行魯棒分割。顯然,基于主動輪廓模型的方法不適用于有監(jiān)督的機器學習來處理標記圖像,而且大多數基于深度學習的自然場景文本檢測方法缺乏整合目標先驗知識的機制。因此,有必要將基于深度學習的場景文本檢測與基于主動輪廓模型的方法結合起來,以便后者能夠提供足夠的先驗知識,以提高模型對于場景文本邊界的檢測性能。

    本文受主動輪廓模型ACWE 模型能量最小化問題的啟發(fā),提出一個整合了中心點、文本區(qū)域和文本檢測框長度信息的可用于深度神經網絡學習的新?lián)p失函數,將LACC Mode 的先驗知識用于神經網絡訓練,解決多尺度場景文本檢測框輪廓線能量全局最小化問題,進而精確檢測文本邊界。具體的損失函數如式(7)所示:

    其中:

    其中:center 中心點表示矩形文本框的中心點,采用Focal Loss[26]損失函數;為文獻[27]中的關鍵點熱力圖;α和β是文獻[27]中的超參數,根據文獻[27]設置α=2,β=4;N是輸入圖像中的關鍵點個數;length 表示矩形文本框的周長;region 表示矩形文本框的面積;ν,μ∈[0,1]m×n分別表示文本框標注值和預測值;和中 的和分別表示本文網絡在特征圖(i,j)位置的水平方向和垂直方向;ε(ε>0)是為了防止平方根為零而添加的參數,在訓練時,設ε為一個極小的正數即可;c1和c2分別表示內部和外部能量。

    c1和c2的定義如下:

    綜上,本文提出一種新?lián)p失函數,考慮了文本的中心點和邊界輪廓的長度以及文本區(qū)域的擬合度,具有以下優(yōu)點:1)將無監(jiān)督AC Model 能量最小化問題轉化為有監(jiān)督的深度學習損失函數最小化問題;2)將本文網絡提取特征和AC Model 的先驗知識相結合,解決了AC Model 過于依賴人工特征設計、魯棒性差和深度學習缺乏足夠先驗知識的問題;3)將AC Model 基于圖像像素信息檢測方式轉化為基于深度學習卷積特征圖像素信息檢測方式。

    2.3 學習主動中心輪廓模型算法

    算法2LACC 算法

    3 實驗結果與分析

    3.1 數據集

    MSRA-TD500[6]是一個文本尺度變化較大的中英文數據集,共包含500 張圖片,其中300 張用于訓練,200 張用于測試。

    ICDAR-2013(IC13)[28]是一種常用的多方向英文場景文本檢測數據集,共包含509 張圖片,其中258 張圖片用于訓練,251 張圖片用于測試。文本區(qū)域是由四邊形的左上、右下2 個頂點標注。

    ICDAR-2015(IC15)[29]是一種常用的多方向英文文本檢測數據集,共包含1 500張圖片,其中1 000張圖片用于訓練,500 張圖片用于測試。文本區(qū)域是由四邊形的4 個頂點標注。

    ICDAR-2017MLT(IC17-MLT)[30]是一個大規(guī)模的多方向多語言場景文本數據集,包括7 200 張訓練圖片、1 800 張驗證圖片和9 000 張測試圖片,由9 種自然語言組成,文本區(qū)域由四邊形的4 個頂點標注。

    3.2 實驗參數

    本文使 用ResNet50[19]在ImageNet[31]上的預訓練模型,并在其基礎上構建多尺度特征權重融合模型(MSWF Model)作為網絡的主干網,所有網絡都采用Adam[32]優(yōu)化器進行訓練。首先在IC17-MLT數據集上進行訓練,得出IC17-MLT 上的訓練模型并進行測試,然后加載該訓練模型為預訓練模型,在MSRA-TD500、IC13 和IC15 數據上分別繼續(xù)訓練網絡并進行測試。本文實驗在GTX1080Ti×2 個GPU上進行批量大小為8 的270K 次迭代。初始學習率設置為1×10-4,在90K 次和180K 次迭代時將學習率分別調整為1×10-5和1×10-6。

    在訓練時,忽略數據集中標注為“不用關注”的模糊文本區(qū)域。本文根據實驗結果,將損失函數的權重系數設定為:λc=1,λl=0.5,λr=0.5。采用以下方法對訓練集的數據進行增強:1)圖像按比例在[0.6,1.4]之間以步長為0.1 進行隨機縮放;2)圖像在[-10°,10°]范圍內隨機進行水平翻轉和旋轉;3)隨機裁剪,但裁剪尺寸大于原始圖像尺寸的1/2。

    3.3 評估指標

    本文使用準確率(P)、召回率(R)和F-measure(F)對算法進行評估,具體定義如下:

    其中:TP 表示將正樣本預測為正樣本數目;FP 表示將負樣本預測為正樣本的誤報數;FN 表示將正樣本預測為負樣本的漏報數目。準確率(P)與召回率(R)之間可能會出現矛盾的情況,其中一個測試指標較高,而另外一個測試指標較低。這時就需要綜合考慮兩者指標的情況,采取F-measure 評估方法。

    3.4 消融實驗

    3.4.1 多尺度特征權重融合模型的有效性

    為驗證多尺度特征權重融合模型對本文多尺度場景文字檢測網絡性能的影響,保持主干網為ResNet50 不變,通過對網絡添加和去除多尺度特征權重融合模型分別進行訓練。本文實驗在數據集IC13 和IC15 上分別進行了測試。實驗結果如表1 所示(粗體表示最優(yōu)值),在IC13 數據集上添加多尺度特征權重融合模型,相較于ResNet50+FPN 網絡F值提升2%,相較于TridentNet 網絡F值提升1%。在IC15 數據集上添加多尺度特征權重融合模型(MSWF Model),相較于ResNet50+FPN 網絡F值提升2%,相較于TridentNet 網絡F值提升1%。實驗結果表明多尺度特征權重融合模型有效提升了網絡的檢測性能。

    表1 多尺度特征權重融合模型的消融實驗結果Table 1 Ablation experiment result of multi-scale feature weight fusion model

    3.4.2 學習主動中心輪廓模型對網絡性能的影響

    研究實驗結果證明,更優(yōu)損失函數的使用可以提高大規(guī)模圖像分類和目標檢測的性能。為了更好地驗證本文提出網絡的檢測能力,本文實驗通過使用不同的損失函數,在MSRA-TD500 數據集上進行測試來驗證學習主動中心輪廓模型(LACC Model)對于網絡檢測能力的影響。保持網絡結構不變,使用不同的損失函數分別進行實驗,實驗結果如表2所示(粗體表示最優(yōu)值),使用學習主動中心輪廓模型相較 于L1 Loss 和SmoothL1 Loss,F值分別提升4%和2%,說明本文提出的學習主動中心輪廓模型可以更好地檢測場景文本的邊界,提高檢測性能。

    表2 學習主動中心輪廓模型的消融實驗結果Table 2 Ablation experiment result of learning active center contour model

    3.5 結果對比分析

    本文主要進行了以下方面的實驗:

    1)多尺度文本檢測實驗。本文在MSRA-TD500數據集上對本網絡進行了測試,以驗證其檢測多尺度文本的能力。本實驗分別在GTX1080Ti×2 個GPU上進行訓練和測試。將本文方法和其他方法進行比較,具體結果如表3 所示(粗體表示最優(yōu)值)。在MSRA-TD500 數據集上本文提出網絡相較于TextSnake 召回率分別提升5%;相較于Lyu et al 準確率提升2%;相較于最近方法MSR 和TridentNet 方法F值分別提升1%和1%。由此可以得出本文網絡準確率和召回率相較于大部分現有方法都有所提升,本文網絡綜合指標F值高于最新方法,證明了本文方法對于多尺度場景文本檢測的有效性。

    表3 在MSRA-TD500 數據集上的檢測結果Table 3 Detection results on MSRA-TD500 dataset

    2)多方向英文文本檢測實驗。本文在IC13 和IC15 數據集上對本文方法進行了測試,以驗證其檢測多方向英文文本的能力。實驗采用本文在IC17MLT 上的訓練模型作為預訓練模型,分別在GTX1080Ti×2 個GPU 上進行訓練和測試。將本文方法和其他方法進行比較,具體結果如表4 所示(粗體表示最優(yōu)值)。實驗結果表明,在IC13 數據集上本文提出網絡相較于CTPN、TextBoxss 和SSTD,召回率分別提升10%、10%和7%;相較于R2CNN,準確率提升6%;相較于最近方法PixelLink 和TridentNet 方法,F值分別提升2%和1%。由此可以得出本文方法召回率和準確率相較于大部分現有方法有所提升。但是本文方法準確率相較于CTPN 并沒有提升,原因在于:CTPN 方法使用了長短期雙向記憶模型處理文字建議序列,但本文方法綜合指標F值高于最新方法,證明了本文方法的有效性。在IC15 數據集上本文方法相較于CTPN 和SSTD,召回率分別提升12%和6%;相較于EAST 和R2CNN,準確率提升7%和7%;相較于最近方法TridentNet 和PSENet,F值分別提升1%和1%。由此可以得出:本文方法準確率和召回率相較于大部分現有方法有所提升,而且本文方法綜合指標F值高于最新方法,說明本文方法可以很好的檢測多方向英文場景文本。

    表4 在IC13 和IC15 數據集上的檢測結果Table 4 Detection results on IC13 and IC15 dataset

    3)多方向多語言文本檢測實驗。為了測試本文方法對多方向多語言場景文本檢測的魯棒性,本文實驗在IC17-MLT 基準數據集上對其進行了評估。在IC17MLT 上使用GTX1080Ti×2 個GPU 進行訓練和測試。與最新方法的對比如表5 所示(粗體表示最優(yōu)值),在IC17MLT 數據集上本文提出方法相較于SCUT_DLVClab1 和FOTS,召回率分別提升17%和14%;相較于AF_RPN,準確率分別提升1%;相較于最近方法TridentNet 和PSENet,F值分別提升1%和2%。由此可以得出:本文方法召回率相較于大部分現有方法有所提升,但是本文方法準確率相較于FOTS 并沒有提升,原因在于:本文方法對于場景圖片中的類文字元素,如欄桿、葉子、圖標等區(qū)分能力不夠高,存在誤檢,這也是本文下一步要改進的工作。但本文方法綜合指標F值高于最新方法,表明本文方法對多語言場景文本檢測的有效性,可以很好地檢測多方向多語言場景文本。

    表5 在IC17MLT 數據集上的測試結果Table 5 Detection results on IC17MLT dataset

    表6為本文方法與基于雙向特征金字塔結構的PixelLink 和三叉戟方法TridentNet 在各數據集上代表性檢測結果。從表6 可以看出:PixelLink 和TridentNet 方法對于某些大尺度的文本目標存在欠檢測,即大尺度文本檢測框不能完全包圍目標,小尺度文本目標漏檢的情況;而本文方法采用多尺度權重融合與學習主動中心輪廓模型相結合的方式,對于大尺度文本檢測效果更好,檢測框包圍更準確,進一步提高小目標檢測能力,有利于解決小目標漏檢的問題。

    表6 不同方法在各數據集上的代表性檢測結果Table 6 Representative detect results of different methods on each dataset

    4 結束語

    本文針對場景文本多尺度變化造成的小文本漏檢、大文本欠檢測以及場景文本邊界檢測錯誤問題,提出基于學習主動中心輪廓模型的場景文本檢測網絡。通過多尺度特征權重融合模型解決多尺度場景文本特征提取問題,基于學習主動中心輪廓模型解決場景文本邊界檢測錯誤的問題,并在4個公共數據集上驗證了本文網絡對于多尺度場景文本檢測的有效性。下一步擬將本文提出網絡用于彎曲場景文本檢測,以提高網絡的泛化性能,并研究本文網絡對于類文本元素的檢測能力,以增強網絡的魯棒性。

    猜你喜歡
    尺度權重特征
    財產的五大尺度和五重應對
    權重常思“浮名輕”
    當代陜西(2020年17期)2020-10-28 08:18:18
    如何表達“特征”
    不忠誠的四個特征
    當代陜西(2019年10期)2019-06-03 10:12:04
    為黨督政勤履職 代民行權重擔當
    人大建設(2018年5期)2018-08-16 07:09:00
    抓住特征巧觀察
    基于公約式權重的截短線性分組碼盲識別方法
    電信科學(2017年6期)2017-07-01 15:44:57
    宇宙的尺度
    太空探索(2016年5期)2016-07-12 15:17:55
    9
    線性代數的應用特征
    河南科技(2014年23期)2014-02-27 14:19:15
    石首市| 和静县| 托里县| 额济纳旗| 慈利县| 思茅市| 南川市| 凯里市| 洪湖市| 鲁山县| 紫云| 桐城市| 临漳县| 得荣县| 聂荣县| 望奎县| 常熟市| 辛集市| 名山县| 龙门县| 崇信县| 象山县| 郧西县| 丽水市| 东台市| 漾濞| 黄冈市| 奈曼旗| 都昌县| 墨玉县| 大姚县| 红河县| 双辽市| 金秀| 习水县| 江津市| 永济市| 江门市| 乌拉特后旗| 冀州市| 勐海县|