• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于FCN的多方向自然場景文字檢測方法

    2020-01-17 01:44:14楊劍鋒王潤民李秀梅錢盛友
    關(guān)鍵詞:矩形框像素卷積

    楊劍鋒,王潤民,何 璇,李秀梅,錢盛友

    1.湖南師范大學(xué) 信息科學(xué)與工程學(xué)院,長沙410081

    2.湖南師范大學(xué) 物理與電子科學(xué)學(xué)院,長沙410081

    1 引言

    文字相較其他的自然場景內(nèi)容具有高度的概括性與描述性,自然場景文字檢測技術(shù)在圖像/視頻檢索、智能手機(jī)或可穿戴式視覺系統(tǒng)等方面具有重要的應(yīng)用價值,目前自然場景文字檢測已成為計(jì)算機(jī)視覺與模式識別、文檔分析與識別領(lǐng)域的研究熱點(diǎn)。然而自然場景文字檢測有別于傳統(tǒng)的印刷文檔中的文字檢測,印刷文檔圖像中的文字字體規(guī)范且背景簡單,文字與背景之間具有明顯的差異性,從而背景信息對文字難以造成強(qiáng)烈的干擾。然而在自然場景圖像中,受文字本身及其他干擾因素的影響,文字與背景之間很難得到有效地分割,比如:文字與背景對比度低、光照不均勻等。此外,自然場景文字還存在大小尺寸、空間布局、顏色及排列方向的多變性,這些干擾因素均給文字檢測帶來巨大的挑戰(zhàn)。相比成熟的印刷文檔中的文字檢測問題,自然場景文字檢測仍具有較大的提升空間。

    基于自然場景文字檢測技術(shù)所具有的理論意義與應(yīng)用價值,該領(lǐng)域受到了研究者的廣泛關(guān)注并提出了大量有效的文字檢測方法?,F(xiàn)有的文字檢測方法主要采用了手工設(shè)計(jì)的特征(Handcraft Features)以及深度學(xué)習(xí)提取的特征來分類文字區(qū)域與背景區(qū)域。

    基于手工設(shè)計(jì)特征的傳統(tǒng)文字檢測方法[1-9]大致分為三類:基于滑動檢測窗方法、基于連通域分析方法以及混合方法?;跈z測窗的文字檢測方法[1-2]通常采用多尺度滑動窗口的方式對圖像進(jìn)行掃描以獲得文字候選區(qū)域,然后使用分類模型判斷候選區(qū)域是否是文字區(qū)域?;谶B通域分析的文字檢測方法[3-6]主要通過顏色聚類方法(Color Clustering)、文字筆畫寬度變換(Stroke Width Transform,SWT)、最大穩(wěn)態(tài)極值區(qū)域(Maximally Stable Extremal Regions,MSERs)等方法提取文字候選連通域,然后使用分類模型對文字候選連通域進(jìn)行判斷,最后設(shè)計(jì)一系列后續(xù)關(guān)聯(lián)組合和分詞手段來獲取最終文字區(qū)域?;旌戏椒╗7]結(jié)合了基于滑動檢測窗方法和基于連通域分析方法,利用這兩類方法的優(yōu)勢來提高文字檢測性能。盡管采用手工設(shè)計(jì)的特征方法可以取得不錯的表現(xiàn),但手工設(shè)計(jì)的特征無法有效地應(yīng)對復(fù)雜的自然場景情形,比如光照不均勻或者部分遮擋等。

    基于深度學(xué)習(xí)的文字檢測方法[10-17]相較于手工設(shè)計(jì)的特征方法在文字檢測性能上取得了很大的突破。在基于深度學(xué)習(xí)的自然場景文字檢測方法中,基于文字區(qū)域建議(Text region proposal)的方法和基于圖像分割的方法使用最為廣泛?;趨^(qū)域建議的文字檢測方法[10-13]一般先在圖像上提取很多個文字候選區(qū)域,然后訓(xùn)練一個分類器對文字候選區(qū)域分類篩選,最后對包含文字的候選區(qū)域的位置進(jìn)行精修?;谖淖謪^(qū)域建議的文字檢測方法對復(fù)雜的自然場景文字檢測具有很好的魯棒性,但提取多個文字候選區(qū)域往往很耗時?;趫D像分割的文字檢測方法[14-16]通常利用全卷積網(wǎng)絡(luò)(Fully Convolutional Networks,F(xiàn)CN)等方式來進(jìn)行像素級別的文字/背景標(biāo)注,該類方法可以較好地避免文字排列方向以及文字區(qū)域長寬比變化的影響,但其后續(xù)處理通常比較復(fù)雜。Zhang等人在文獻(xiàn)[14]中首次提出采用全卷積網(wǎng)絡(luò)從像素層面對圖像進(jìn)行處理,預(yù)測每個像素屬于文字的概率,進(jìn)而獲得文字顯著圖,最后基于顯著圖得到文字候選區(qū)域。

    為獲得最終的文字檢測結(jié)果,目前主要采用了文字邊界框回歸處理以及直接提取外接文字邊界框的方法。在文獻(xiàn)[15-16]中均采用了全卷積網(wǎng)絡(luò)輸出文字區(qū)域像素級檢測結(jié)果,然后回歸邊界點(diǎn)來確定候選文字邊界框的位置,最后采用非極大值抑制(Non-Maximum Suppression,NMS)去篩選出邊界框作為最終檢測結(jié)果。TextBoxes[10]、SegLink[18]、CTPN[11]在獲取文字邊界檢測框時同樣采用位置回歸方法,可以得到精確的文字邊界框,這類方法均取得不錯檢測效果,但往往以犧牲計(jì)算量為代價。在文獻(xiàn)[19]中直接通過實(shí)例分割處理來獲得文字位置信息而無需進(jìn)行文字邊界框回歸處理,結(jié)合文字與非文字預(yù)測和像素連接預(yù)測的信息來提取文字邊界框。直接提取外接文字邊界框的方法從整體上處理文字行,充分利用了預(yù)測文字候選區(qū)域的方向信息檢測多方向排列文字。本文受到文獻(xiàn)[19]方法啟發(fā),利用文字與非文字預(yù)測得分圖信息獲取外接文字邊界框,取得了更好的檢測效果。

    通常自然場景圖像中的一些文字間距非常近,使得在文字與非文字預(yù)測得到的文字候選區(qū)域會難以完全分隔開,在獲取外接文字邊界框時會導(dǎo)致多個文字被檢測到一個矩形邊界框中。為解決這個問題,在生成文字標(biāo)簽時放棄選擇標(biāo)注的文字區(qū)域,而是選擇標(biāo)注文字區(qū)域的縮進(jìn)區(qū)域。因此,在分割的得分圖上得到的邊界框區(qū)域會是真實(shí)文字的縮進(jìn)區(qū)域,為此本文設(shè)計(jì)了自適應(yīng)的加權(quán)擴(kuò)大函數(shù)對參考邊界框進(jìn)行補(bǔ)償擴(kuò)大處理,使得最終邊界框能完全包圍文字區(qū)域。

    本文創(chuàng)新點(diǎn)包括以下幾個方面:

    (1)全卷積網(wǎng)絡(luò)結(jié)合多特征層融合,通過像素級分類,取得了更有競爭力的結(jié)果。

    (2)設(shè)計(jì)簡單而高效的方法實(shí)現(xiàn)了多方向文字檢測。

    (3)縮進(jìn)的標(biāo)注文字區(qū)域生成得分圖,解決了單個邊界框檢測多個文字問題。

    2 基于FCN的多方向場景文字檢測方法

    本文所提出的文字檢測框架如圖1(a)所示,輸入待檢測圖像送入到已訓(xùn)練好的卷積神經(jīng)網(wǎng)絡(luò)模型中,提取圖像中的文字特征,結(jié)合全卷積網(wǎng)絡(luò)上采樣并逐層融合多層特征圖進(jìn)行像素分割,輸出得到每個像素的預(yù)測得分圖。預(yù)測得分圖采用雙線性插值擴(kuò)大和二值化處理后,直接獲取預(yù)測文字候選區(qū)域的外接文字邊界框作為參考文字邊界框,然后進(jìn)行加權(quán)補(bǔ)償處理來修正參考文字邊界框,最后通過篩選條件過濾掉非文字邊界框得到最終的文字檢測框。如圖1所示,本文算法僅僅由兩個步驟組成,全卷積網(wǎng)絡(luò)FCN 多尺度特征融合部分和生成并補(bǔ)償文字邊界框部分,相比文獻(xiàn)[11,14,20]中的算法更為簡單,去除了很多中間步驟,省略了多個處理環(huán)節(jié),避免了多個處理環(huán)節(jié)和組成部分可能局部最優(yōu)但整體未必最優(yōu)以及耗時的問題,任何環(huán)節(jié)的處理結(jié)果都將會影響系統(tǒng)的檢測性能。在圖1中,(b)為文獻(xiàn)[11]中提出方法,通過CTPN實(shí)現(xiàn)水平方向文字檢測;(c)為Yao等人在文獻(xiàn)[20]中提出的方法;(d)為文獻(xiàn)[14]中提出的方法。

    2.1 網(wǎng)絡(luò)結(jié)構(gòu)

    本文方法所提出的基于全卷積網(wǎng)絡(luò)的文字檢測模型如圖2 所示,該模型主要由三個部分組成:特征提取網(wǎng)絡(luò),特征融合部分和文字與非文字預(yù)測。首先把自然場景文字圖像送入模型中,使用特征提取網(wǎng)絡(luò)來提取圖像中的文字特征,然后結(jié)合全卷積網(wǎng)絡(luò)(FCN)語義分割的方法對圖像進(jìn)行像素級分類,預(yù)測每一個像素是否為文字區(qū)域,從而分割出文字區(qū)域提取出自然場景圖像中可能出現(xiàn)的文字位置。該模型采用U-Net[21]的思想融合淺層網(wǎng)絡(luò)與深層網(wǎng)絡(luò)的多層特征圖,綜合了精細(xì)信息及其高度抽象信息,用于檢測不同尺度的文字。

    2.1.1 特征提取網(wǎng)絡(luò)

    自然場景文字檢測作為一種典型的模式識別問題,文字描述特征分類性能的好壞將直接影響到最終的檢測結(jié)果。本文方法所采用的網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)如表1所示,特征提取網(wǎng)絡(luò)使用ResNet-50[22]作為基礎(chǔ)網(wǎng)絡(luò)來提取文字特征,其中Conv1,Res2,Res3,Res4,Res5均為ResNet-50中的操作,每一次操作后分別輸出的該層的特征圖,其尺寸大小分別為輸入圖像的1/2,1/4,1/8,1/16,1/32。

    表1 網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)

    圖1 本文文字檢測框架及其與其他算法的比較

    圖2 文字檢測網(wǎng)絡(luò)結(jié)構(gòu)圖

    2.1.2 特征融合網(wǎng)絡(luò)

    在特征融合部分,首先對Res5 操作后提取的特征圖進(jìn)行上采樣處理使得大小擴(kuò)大為輸入圖像的1/16,然后與Res4 操作提取的特征圖合并,特征圖合并后進(jìn)行1×1,3×3 不同尺度卷積核的卷積操作來融合特征圖和降低通道數(shù),本文中選擇依此方式逐層往上融合特征層,經(jīng)過多層的特征融合后的特征圖大小為輸入圖像的1/4。最后經(jīng)過卷積核為1×1 大小的卷積操作后輸出得到文字與非文字的預(yù)測得分圖。

    本文算法中獲取的文字與非文字預(yù)測得分圖為單一通道,相比文獻(xiàn)[13,16,19]等中所提出的算法,減少了通道數(shù)與計(jì)算量。

    2.2 生成得分圖

    本文方法中用于訓(xùn)練的文字區(qū)域得分圖的生成如圖3 所示,放棄選擇標(biāo)注的真實(shí)文字框來生成得分圖,而是選擇標(biāo)注的真實(shí)文字框的縮進(jìn)框,其目的有以下兩點(diǎn):(1)真實(shí)文字框包圍了文字區(qū)域的同時也會包圍一些非文字區(qū)域,而縮進(jìn)標(biāo)注真實(shí)文字框以保證全部包圍的為文字區(qū)域;(2)在文字與非文字預(yù)測時,如圖4所示獲取的得分圖中的候選文字區(qū)域間的間隔會變大,解決了得分圖中候選文字區(qū)域連接在一起從而被一個矩形框檢測的問題。

    圖3 得分圖的生成

    圖4 得分圖對比

    對于標(biāo)注的文字框四邊形Q(如圖3(a)黃色框所示),其中di(i=1,2,3,4)是四邊形左上頂點(diǎn)起順時針順序的頂點(diǎn)。為了縮小Q,首先計(jì)算每個頂點(diǎn)di的參考長度li,參考長度li,計(jì)算如下:

    其中L(di,dj)是頂點(diǎn)di與dj的L2 范數(shù),首先收縮一個四邊形Q 的兩個較長的邊。對于四邊形的兩對邊,通過比較它們的長度的平均值來確定較長的一對邊,然后收縮兩個較短的邊。對于每個邊,通過將它的兩個端點(diǎn)分別向內(nèi)移動0.3li和0.3l(imod4)+1來收縮文字框得到文字框四邊形Q′(如圖3(a)綠色框所示)。如圖3(a)所示,文字框四邊形Q 的頂點(diǎn)由di收縮到d′i生成四邊形Q′,然后由文字框四邊形Q′生成得分圖如圖3(b)所示。

    2.3 文字與非文字分類

    在經(jīng)過全卷積網(wǎng)絡(luò)后,輸出文字與非文字預(yù)測結(jié)果,對每一個像素進(jìn)行預(yù)測,每個像素預(yù)測產(chǎn)生一個預(yù)測值,代表該像素為文字區(qū)域的置信度,該值在0到1之間。像素預(yù)測置信度值越大則表示該像素越有可能為文字區(qū)域像素,置信度值越小,則代表該像素更可能位于非文字區(qū)域。考慮到輸出的文字與非文字預(yù)測得分圖為輸入圖像大小的1/4,為了使預(yù)測得分圖與輸入圖像的每一個像素有一一對應(yīng)的關(guān)系,本文將得分圖雙線性插值處理將其放大到與輸入圖像同樣大小。本文對測試集圖像中的文字置信度值的分布范圍進(jìn)行了統(tǒng)計(jì),在實(shí)驗(yàn)中發(fā)現(xiàn),在生成文字與非文字預(yù)測得分圖中的像素預(yù)測值呈現(xiàn)典型雙峰特點(diǎn),像素預(yù)測值絕大部分在0.8 至1 和0 至0.2 的區(qū)間內(nèi),特別時絕大部分的文字區(qū)域像素預(yù)測值明顯大于其周圍區(qū)域非文字區(qū)域的像素預(yù)測值?;谏鲜鎏攸c(diǎn)本文采用了自適應(yīng)閾值最大類間方差法(OTSU)對預(yù)測圖進(jìn)行二值化處理,通過OTSU二值化后的文字與非文字預(yù)測分類圖如圖5 所示。當(dāng)文字與非文字預(yù)測的像素預(yù)測值大于或等于該閾值則該像素值置為1,將其判定為文字區(qū)域,否則該像素值置為0,并將判定為非文字區(qū)域。

    圖5 原圖(上)和對應(yīng)文字與非文字預(yù)測分類圖(下)

    2.4 文字框提取及補(bǔ)償函數(shù)設(shè)計(jì)

    在文字與非文字分類的結(jié)果上,語義分割包含了文字的位置信息和邊緣信息,因此本文直接采用最小外接矩形邊界框粗糙地檢測出文字區(qū)域。文字與非文字預(yù)測得分圖在插值放大和二值化處理后利用OpenCV 中的minAreaRect()函數(shù)直接獲取圖像分割文字的檢測矩形框,該矩形框包含了預(yù)測文字區(qū)域的方向信息,可以檢測任意方向的文字。但由于在生成得分圖中,文字的得分圖由標(biāo)注四邊形的縮進(jìn)四邊形生成,所以在文字與非文字預(yù)測時,得分圖中的預(yù)測文字區(qū)域都是實(shí)際文字區(qū)域的縮小區(qū)域,所以提取到的文字檢測矩形框均小于實(shí)際文字區(qū)域包圍矩形框,文字區(qū)域不能完全被檢測框包圍住。因此在本文中設(shè)計(jì)了加權(quán)補(bǔ)償函數(shù)來對檢測框補(bǔ)償放大,使得檢測框能更好地檢測文字區(qū)域,增大檢測框與真實(shí)文字框的交并比(Intersection Over Union,IOU),來提升文字檢測性能。

    檢測矩形框做加權(quán)補(bǔ)償擴(kuò)大處理如圖6所示,檢測矩形框R′加權(quán)補(bǔ)償后得到矩形框R,加權(quán)補(bǔ)償擴(kuò)大函數(shù)設(shè)計(jì)如下。

    常數(shù)補(bǔ)償系數(shù):把標(biāo)注文字四邊形的縮進(jìn)的四邊形作為訓(xùn)練的真實(shí)文字區(qū)域,縮進(jìn)的長度為kli和k=0.3,同理,把矩形框R′放大到R,放大的長度為rl′i和rl′(imod4)+1,r 是補(bǔ)償系數(shù),其可按照公式(2)計(jì)算:

    假設(shè)p′i是檢測矩形框R′自左上頂點(diǎn)起順時針順序的矩形頂點(diǎn)。為了擴(kuò)大R′,為每個頂點(diǎn)p′i的參考長度,l′i的計(jì)算參考公式(1),k′為常數(shù)補(bǔ)償系數(shù),補(bǔ)償規(guī)則如下:

    (1)擴(kuò)大檢測矩形框R′的較短的對邊,如圖6中的h 與其對邊的各個頂點(diǎn)沿著h 方向向外延伸長度rl′i和。

    (2)擴(kuò)大檢測矩形框R′的較長的對邊,如圖6中的w 與其對邊的各個頂點(diǎn)沿著h 方向向外延伸長度rl′i和

    圖6 矩形邊界框做加權(quán)補(bǔ)償擴(kuò)大處理示意圖

    實(shí)驗(yàn)發(fā)現(xiàn),如果所有候選檢測矩形框均采用常數(shù)補(bǔ)償來擴(kuò)大矩形框,則小字符檢測矩形框不能完全包圍住文字區(qū)域,所以候選檢測矩形框min(w,h)越小,在擴(kuò)大補(bǔ)償處理時補(bǔ)償系數(shù)r 越大,由得分圖預(yù)測文字區(qū)域的特征和檢測矩形框的特點(diǎn)設(shè)計(jì)并對比了以下幾種自適應(yīng)加權(quán)補(bǔ)償函數(shù)。

    (1)線性補(bǔ)償函數(shù),其計(jì)算公式為:

    其中,hthreshold為檢測矩形框較短邊的閾值,hmin=min(w,h)。

    (2)三角非線性補(bǔ)償函數(shù),其計(jì)算公式為:

    (3)高斯非線性補(bǔ)償函數(shù),其計(jì)算公式為:

    2.5 矩形框過濾

    由于采用語義分割的方法得到文字與非文字預(yù)測得分圖時,將不可避免地出現(xiàn)少數(shù)非文字區(qū)域會獲得較高的預(yù)測值,從而導(dǎo)致在文字與非文字分類時會將這些非文字區(qū)域誤判定成文字區(qū)域,最終導(dǎo)致錯誤的檢測結(jié)果。為盡可能地減少錯誤檢測,有必要設(shè)計(jì)相應(yīng)的后處理算法以進(jìn)一步提高檢測準(zhǔn)確率。本文算法主要設(shè)計(jì)了如下兩種后處理算法:

    (1)在實(shí)驗(yàn)測試圖像中的文字區(qū)域大小絕大部分超過10 個像素和面積不低于300 個像素,所以將hmin<hthreshold=10 或者w×h <300 的候選檢測框?yàn)V除掉。

    (2)定義矩形框置信度,矩形框置信度為非線性插值得分預(yù)測圖中矩形框內(nèi)的所有像素預(yù)測值的均值,如果矩形框置信度小于某一閾值則被判斷為無效矩形框。

    2.6 損失函數(shù)

    本文方法中訓(xùn)練損失函數(shù)為Dice's 系數(shù),也稱作Dice 系數(shù),是一種集合相似度度量函數(shù),對于信息檢索中的關(guān)鍵字集合X 和Y ,系數(shù)可以定義為:

    Dice 系數(shù)和Jaccard 指數(shù)的方法相似,所以在本文中設(shè)計(jì)的損失函數(shù)計(jì)算公式如下:

    Sscore_map為得分圖,即文字非文字分類的語義分割區(qū)域,

    Sground_truth為標(biāo)注文字區(qū)域。

    3 實(shí)驗(yàn)結(jié)果與分析

    為了驗(yàn)證本文方法的有效性,在ICDAR 2013 與ICDAR 2015 自然場景文字檢測競賽數(shù)據(jù)集進(jìn)行了實(shí)驗(yàn),ICDAR 2015自然場景文字檢測競賽數(shù)據(jù)集共包含1 500張圖像(其中訓(xùn)練集1 000張,測試集500張),該數(shù)據(jù)集中的場景文字其排列方向是任意的,且包括了運(yùn)動模糊和低分辨率的問題。ICDAR 2013 自然場景文字檢測數(shù)據(jù)集包含了229 張訓(xùn)練圖像和233 張測試圖像,共462張圖像,該數(shù)據(jù)集圖像中的文字以水平方向排列為主,且涵蓋了復(fù)雜光照、模糊和低分辨率等各種極端情況。上述數(shù)據(jù)集作為基準(zhǔn)數(shù)據(jù)集在各類文字檢測算法的評估中被廣泛地使用。

    本文方法使用的模型采用自適應(yīng)矩估計(jì)(Adaptive Moment Eestimation,ADAM)優(yōu)化器進(jìn)行訓(xùn)練,為了加速學(xué)習(xí)過程,訓(xùn)練樣本均調(diào)整為512×512 大小,每執(zhí)行一步使用的batch數(shù)量為24。ADAM的學(xué)習(xí)率從0.000 1開始,衰減速率為0.94,最大執(zhí)行步數(shù)為100 000,每10 000執(zhí)行步數(shù)更新一次學(xué)習(xí)率,當(dāng)性能不再提高而停止訓(xùn)練。本文所采用的ResNet-50 與FCN 網(wǎng)絡(luò)都是基于深度學(xué)習(xí)框架TensorFlow并均為python實(shí)現(xiàn)。

    本文在ICDAR 2013 與ICDAR 2015 測試數(shù)據(jù)集中所獲得的檢測結(jié)果如圖7所示,可以看出本文方法能有效地應(yīng)對復(fù)雜的場景圖像中的多方向排列的文字檢測問題。

    3.1 實(shí)驗(yàn)結(jié)果與對比

    圖7 本文方法在ICDAR數(shù)據(jù)集的檢測效果

    圖8 一些檢測失敗的結(jié)果

    為進(jìn)一步驗(yàn)證本文方法的有效性,本文與最近的其他文字檢測方法進(jìn)行了對比,在ICDAR 2015 測試集實(shí)驗(yàn)結(jié)果的對比如表2 所示,本文方法利用設(shè)計(jì)的高斯補(bǔ)償函數(shù)在ICDAR 2015數(shù)據(jù)集上的Precision與Fmeasure 指標(biāo)上相對于其他補(bǔ)償函數(shù)取得了更好的效果,其中Precision 為0.803,F(xiàn)-measure 指標(biāo)為0.773。本文方法在Precision 指標(biāo)均高于表2 中其他方法,F(xiàn)measure指標(biāo)結(jié)果高于表2中絕大多數(shù)的方法,如SegLink[18]與CTPN[11]等。然而與方法RRPN[13]比較,本文方法在Recall、F-measure 指標(biāo)上還有進(jìn)一步提升的空間。本文方法利用設(shè)計(jì)的高斯補(bǔ)償函數(shù)與其他文字檢測方法在ICDAR 2013 測試集實(shí)驗(yàn)結(jié)果的對比如表3 所示,相對于I2R NUS[25]、Text[26]、Faster-RCNN[27]等方法,本文方法取得了更有競爭力的結(jié)果。

    表2 ICDAR 2015場景文字檢測競賽測試集實(shí)驗(yàn)結(jié)果

    表3 ICDAR 2013場景文字檢測競賽測試集實(shí)驗(yàn)結(jié)果

    3.2 算法存在的不足

    盡管本文方法取得了令人滿意的結(jié)果,但在實(shí)驗(yàn)中依然發(fā)現(xiàn)本文方法對如下一些特殊場景或者特殊文字的檢測效果有待進(jìn)一步改善:(1)對弧形排列的文字檢測效果不佳,這些文字只能被矩形邊界框檢測(如圖8(a)所示),原因在于本文選擇帶有方向信息的矩形框去提取文字區(qū)域,適用于文字單個方向的排列;(2)另外會錯誤地檢測一些和文字相類似的物體,如條紋狀圖形(如欄桿)、窗戶、符號等(如圖8(b)、(c)所示),這些物體與文字在紋理或形狀上都極為相似,以至于很難被區(qū)分開來;(3)一些文字尺寸太大導(dǎo)致無法被檢測(如圖8(d)所示)。

    4 結(jié)語

    本文提出一種基于全卷積網(wǎng)絡(luò)的多方向自然場景文字檢測方法,該方法利用深度卷積網(wǎng)絡(luò)提取文字特征,融合多層文字特征并采用語義分割方法分割文字區(qū)域,然后直接提取對應(yīng)文字區(qū)域的包含方向信息的外接矩形框。在生成得分圖時選擇了標(biāo)注文字區(qū)域的縮進(jìn)區(qū)域,進(jìn)行文字與非文字預(yù)測處理時,對外接矩形邊界框擴(kuò)大補(bǔ)償處理得到最后的文字邊界框。與其他一些最新方法相比,本文算法在ICDAR 13 和ICDAR 15 標(biāo)準(zhǔn)數(shù)據(jù)集上均取得了更具競爭力的結(jié)果。在實(shí)驗(yàn)中發(fā)現(xiàn)盡管本文所提出的自然場景文字檢測方法取得了不錯的性能,但仍然有不足之處,以下幾個方面是未來研究工作中所需要進(jìn)一步考慮的問題:(1)弧形方向排列的文字檢測;(2)多語種共存的文字檢測。

    猜你喜歡
    矩形框像素卷積
    趙運(yùn)哲作品
    藝術(shù)家(2023年8期)2023-11-02 02:05:28
    像素前線之“幻影”2000
    基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
    多模態(tài)卷積神經(jīng)網(wǎng)絡(luò)的物體抓取檢測
    “像素”仙人掌
    從濾波器理解卷積
    電子制作(2019年11期)2019-07-04 00:34:38
    一種汽車式起重機(jī)防傾翻方法的研究
    基于傅里葉域卷積表示的目標(biāo)跟蹤算法
    高像素不是全部
    CHIP新電腦(2016年3期)2016-03-10 14:22:03
    PowerPoint 2013圖片裁剪技巧兩則
    万山特区| 河北省| 武山县| 黄骅市| 辰溪县| 巴马| 东光县| 叶城县| 深泽县| 江永县| 邓州市| 洪雅县| 柞水县| 宁蒗| 长阳| 二手房| 柏乡县| 敖汉旗| 孟连| 财经| 仁布县| 金堂县| 津市市| 邻水| 崇义县| 临洮县| 沂源县| 龙游县| 鹤岗市| 赣榆县| 广宗县| 孝昌县| 龙川县| 赣州市| 馆陶县| 南澳县| 大丰市| 兴海县| 望奎县| 丽江市| 邢台县|