• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    改進(jìn)PSENet的自然場景文本檢測方法

    2022-06-21 19:15:59彭?xiàng)潱缊?,李盛達(dá),楊鵬
    計(jì)算機(jī)時(shí)代 2022年6期
    關(guān)鍵詞:多尺度語義分割

    彭?xiàng)?,支世堯,李盛達(dá),楊鵬

    摘? 要: 基于深度學(xué)習(xí)的檢測方法在文本形狀較規(guī)則的情況下,已經(jīng)取得較好的檢測結(jié)果,但對(duì)于傾斜以及彎曲的文本行仍有改進(jìn)空間。文章在漸進(jìn)式尺度擴(kuò)展網(wǎng)絡(luò)PSENet的基礎(chǔ)上,通過使用Res2Net模塊提取多尺度特征,并結(jié)合全局卷積網(wǎng)絡(luò)GCN進(jìn)行特征融合,來對(duì)原有模型進(jìn)行改進(jìn)。根據(jù)在SCUT-CTW1500和Total-Text數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果對(duì)比,證明改進(jìn)的算法有效可行。

    關(guān)鍵詞: 文本檢測; 語義分割; 多尺度; 全局卷積

    中圖分類號(hào):TP389.1? ? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A? ? ?文章編號(hào):1006-8228(2022)06-89-04

    Improved PSENet natural scene text detection method

    Peng Dong, Zhi Shiyao, Li Shengda, Yang Peng

    (School of Information Engineering,Nanjing Audit University, Nanjing, Jiangsu 211815, China)

    Abstract: The detection method based on deep learning has achieved good results in the case of regular text shape, but there is still an improved space for tilting and curved text. Based on the progressive scale expansion network PSENet, the original model is improved by using the Res2Net module to extract multi-scale features and combined with the global convolution network GCN. According to the comparison of experimental results in SCUT-CTW1500 and Total-Text data sets, the effectiveness of the improved algorithm is proved.

    Key words: text detection; semantic segmentation; multi-scale; global convolution

    0 引言

    近年來,隨著互聯(lián)網(wǎng)的發(fā)展和手機(jī)的普及,人們逐漸習(xí)慣于從生活場景中獲取圖片并進(jìn)行分享。文字作為信息傳遞的重要載體,如何從自然場景的圖片中準(zhǔn)確地提取出文字信息變得越來越重要。深度學(xué)習(xí)的興起,尤其是卷積神經(jīng)網(wǎng)絡(luò)在計(jì)算機(jī)視覺領(lǐng)域的廣泛應(yīng)用為自然場景下的文本識(shí)別帶來了發(fā)展契機(jī)。

    對(duì)圖片中的文本進(jìn)行識(shí)別前,需要預(yù)先進(jìn)行文本檢測以提取出文本所在的區(qū)域。高性能的文本檢測系統(tǒng)可以極大地剔除干擾信息,為文本識(shí)別奠定良好的基礎(chǔ)[1]。目前,基于深度學(xué)習(xí)的文本檢測方法在文字行形狀較規(guī)則的場景中已經(jīng)獲得較好的性能,但由于目標(biāo)檢測網(wǎng)絡(luò)感受野的限制,以及文本目標(biāo)表達(dá)方式的單一,對(duì)于文本形狀不規(guī)則的場景,檢測性能仍有提升的空間。

    本文在PSENet[2]網(wǎng)絡(luò)的基礎(chǔ)上,結(jié)合Res2Net[3]模塊和GCN[4]網(wǎng)絡(luò)對(duì)其進(jìn)行改進(jìn),并在標(biāo)準(zhǔn)文字?jǐn)?shù)據(jù)集上進(jìn)行實(shí)驗(yàn)結(jié)果分析以驗(yàn)證網(wǎng)絡(luò)的可行性。

    1 文本檢測網(wǎng)絡(luò)PSENet

    PSENet以殘差網(wǎng)絡(luò)(ResNet)和特征金字塔網(wǎng)絡(luò)(FPN)作為主干網(wǎng)絡(luò),可將底層紋理信息與高層語義信息相結(jié)合[5-7]。其實(shí)現(xiàn)流程如下。

    ⑴ 提取ResNet50的第二、三、四以及五階段的特征圖,并通過FPN側(cè)向連接和自頂向下的結(jié)構(gòu),得到四個(gè)256通道的特征圖[P2],[P3],[P4],[P5]。

    ⑵ 將特征圖([P2],[P3],[P4],[P5])通過函數(shù)[C]進(jìn)一步融合,得到1024通道的特征圖[F],融合公式為:

    [F=CP2,P3,P4,P5]

    [=P2||Up*2(P3)||Up*4(P4)||Up*8(P5)]? ⑴

    其中,[Up*2]、[Up*4]、[Up*8]分別代表2倍、4倍、8倍方式的上采樣,[||]代表連接操作。

    ⑶ 特征圖[F]作為輸入,傳遞到3[×]3的卷積-BN-ReLU層中,得到256通道的特征圖;該特征圖再通過n個(gè)1[×]1的卷積層并上采樣處理后,利用sigmoid函數(shù)生成n個(gè)圖像分割的輸出結(jié)果:[S1]到[Sn]。

    ⑷ 每個(gè)[Si]是具有不同比例的分割掩碼,從具有最小比例的分割結(jié)果[S1]開始,通過漸進(jìn)式尺度擴(kuò)展算法,將文本實(shí)例的內(nèi)核逐步擴(kuò)充到[Sn]中的最大形狀;在多個(gè)內(nèi)核擴(kuò)展的過程中,如果出現(xiàn)像素沖突的問題,則根據(jù)先到先服務(wù)的原則對(duì)沖突像素進(jìn)行分配。

    PSENet是一種基于分割的文本檢測方法,通過對(duì)輸入圖像進(jìn)行像素級(jí)別的檢測,可有效地處理傾斜或者彎曲文本的檢測問題,對(duì)于文本行距離較近的稠密場景也有較好的檢測性能。但該網(wǎng)絡(luò)模型仍存在小文本區(qū)域遺漏、類文字圖案誤判等問題,具有進(jìn)一步優(yōu)化的空間。

    2 改進(jìn)的PSENet

    2.1 Res2Net模塊

    Res2Net前向傳播的具體過程[8,9]如圖1所示。

    ⑴ 輸入特征圖經(jīng)過n通道1[×]1的卷積層后,將其劃分為s個(gè)w通道且空間大小相同的子集,并用[xi]進(jìn)行表示,其中,[i∈1,2,…,s],[ n=s×w]。

    ⑵ 考慮到減少參數(shù)與特征復(fù)用的因素,忽略[x1]的卷積層,其余的特征圖子集[xi]都有相對(duì)應(yīng)的w通道3[×]3卷積層[Ki(?)]。令[Ki(?)]的輸出為[yi],將[xi]與[yi-1]相加后作為輸入,傳遞到[Ki(?)]中處理,即

    [yi=xi? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?i=1Kixi? ? ? ? ? ? ? ? ? ? ? ? ? ? ?i=2Kixi+yi-1? ? ? ? ? ? ? ?2<i≤s]? ⑵

    ⑶ 經(jīng)過層內(nèi)分組與類殘差連接的處理后,[y1,y2,…,ys]中含有局部和全局信息,為了對(duì)不同尺度的信息進(jìn)一步融合,將其并聯(lián)拼接后輸入到n通道1[×]1的卷積層。

    Res2Net模塊所采取的分組-合并策略,通過調(diào)控特征圖被分成的組數(shù)s,在不顯著增加計(jì)算量與內(nèi)存消耗的前提下,使得單個(gè)的殘差塊可以更高效地提取特征信息,在細(xì)粒度的級(jí)別上增強(qiáng)網(wǎng)絡(luò)的多尺度表達(dá)能力,獲取不同尺寸的感受野。

    2.2 全局卷積網(wǎng)絡(luò)GCN

    GCN模型在使用ResNet作為特征提取網(wǎng)絡(luò)、FCN作為語義分割框架的基礎(chǔ)上,通過添加GCN和BR模塊,可同時(shí)解決分割任務(wù)中的分類與定位問題。在圖2的GCN模塊中,并沒有直接使用更大的卷積核,而是結(jié)合Inception V3[10]的思想,將其替換為k×1+1×k和1×k+k×1的卷積組合。在減少卷積核參數(shù)的同時(shí),通過調(diào)節(jié)k值來控制非對(duì)稱卷積核的大小,實(shí)現(xiàn)全局卷積。為了進(jìn)一步優(yōu)化物體邊界的定位,GCN網(wǎng)絡(luò)給出了圖3所示的BR模塊,通過殘差連接的形式,學(xué)習(xí)輸入與輸出間的誤差,并進(jìn)行邊界修正。

    GCN網(wǎng)絡(luò)在與ResNet各階段的特征圖形成遠(yuǎn)程連接的同時(shí),其內(nèi)部的類殘差結(jié)構(gòu)也形成較多的短程連接,極大地簡化了訓(xùn)練學(xué)習(xí)的過程,增強(qiáng)了信息前后向傳播的能力。

    2.3 改進(jìn)的網(wǎng)絡(luò)模型

    如圖4所示,本文在PSENet原有網(wǎng)絡(luò)模型的基礎(chǔ)上,進(jìn)行改進(jìn)以提高文本檢測性能。針對(duì)特征提取網(wǎng)絡(luò),在ResNet50的網(wǎng)絡(luò)結(jié)構(gòu)中集成Res2Net模塊,通過調(diào)整尺度維數(shù)s的取值,擴(kuò)展多尺度特征表達(dá)潛力。同時(shí),在特征融合網(wǎng)絡(luò)中,穿插GCN與BR模塊,在全卷積結(jié)構(gòu)的基礎(chǔ)上盡可能地使用大卷積核,達(dá)到分類與定位問題的平衡點(diǎn)。對(duì)于各階段的特征圖,依次利用反卷積進(jìn)行上采樣處理,用高分辨率的特征圖改善低分辨率的特征圖,得到精調(diào)特征圖F。最后結(jié)合漸進(jìn)式尺度擴(kuò)展算法,逐步生成文本檢測結(jié)果。

    3 實(shí)驗(yàn)與結(jié)果分析

    3.1 實(shí)驗(yàn)環(huán)境與評(píng)估指標(biāo)

    本文在配置NVIDIA GeForce GTX 1070顯卡的Ubuntu18.04.1系統(tǒng)下,選用PyTorch 1.2.0框架對(duì)模型進(jìn)行實(shí)現(xiàn)。為評(píng)估改進(jìn)后算法的效果,使用SCUT-CTW1500[11]和Total-Text[12]數(shù)據(jù)集進(jìn)行訓(xùn)練與測試。SCUT-CTW1500數(shù)據(jù)集包含1500張圖像,其中訓(xùn)練圖像1000張,測試圖像500張。該數(shù)據(jù)集的圖像不僅類型多樣,而且文本形狀不規(guī)則,具有一定的挑戰(zhàn)性。其注釋文件中,在行級(jí)別基礎(chǔ)上,通過14個(gè)點(diǎn)所形成的封閉多邊形對(duì)文本進(jìn)行標(biāo)記。而Total-Text是當(dāng)前檢測領(lǐng)域較為常用的彎曲文本行數(shù)據(jù)集,其訓(xùn)練集含有1255張圖像,測試集含有300張圖像,并基于單詞級(jí)別進(jìn)行標(biāo)注。

    為評(píng)判本文所改進(jìn)模型的好壞,采取文字檢測任務(wù)中常用的精確率(Precision)、召回率(Recall)以及F1分?jǐn)?shù)(F1-Score)作為評(píng)估指標(biāo)[13]。令TP代表真陽例(True Positive,預(yù)測為正樣本的正樣本),F(xiàn)P代表假陽例(FalsePositive,預(yù)測為正樣本的負(fù)樣本),F(xiàn)N代表假陰例(FalseNegative,預(yù)測為負(fù)樣本的正樣本),則:

    [Precision=TPTP+FP]? ⑶

    [Recall=TPTP+FN]? ⑷

    [F1Score=2*Precision*RecallPrecision+Recall]? ⑸

    3.2 實(shí)驗(yàn)結(jié)果分析

    本文在實(shí)驗(yàn)過程中,不使用額外數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練,并嚴(yán)格控制其他變量,均在ResNet50+FPN作為主干網(wǎng)絡(luò)的基礎(chǔ)上進(jìn)行改進(jìn)。訓(xùn)練次數(shù)共計(jì)600次,初始學(xué)習(xí)率為0.01,并在次數(shù)迭代至200以及400次時(shí),學(xué)習(xí)率動(dòng)態(tài)地衰減,以使網(wǎng)絡(luò)更好地收斂到最優(yōu)解。同時(shí),為了加快收斂速度,用mini-batch梯度下降法,并將batch size統(tǒng)一設(shè)置為4。

    在上述實(shí)驗(yàn)環(huán)境下,針對(duì)SCUT-CTW1500和Total-Text數(shù)據(jù)集進(jìn)行消融實(shí)驗(yàn),重新訓(xùn)練模型,并在測試集上評(píng)估模型性能。將原始的PSENet以及其他文本檢測算法與本文改進(jìn)后的模型效果進(jìn)行比較,結(jié)果如下:

    根據(jù)表1與表2中的實(shí)驗(yàn)數(shù)據(jù),本文模型在SCUT-CTW1500和Total-Text數(shù)據(jù)集上的各項(xiàng)評(píng)估指標(biāo)相較于原PSENet網(wǎng)絡(luò)皆有所提升。為更直觀地體現(xiàn)模型的可行性,對(duì)測試圖像生成效果對(duì)比圖,具體如圖5所示。對(duì)于圖5中的小文本區(qū)域,由于Res2Net模塊可提取多尺度的特征,使小區(qū)域也可以單獨(dú)檢測。另外,在GCN網(wǎng)絡(luò)中邊界精修模塊的影響下,文本行粘結(jié)問題也得到一定的緩解。

    4 總結(jié)

    文字作為信息的重要載體,如何從圖片中準(zhǔn)確地提取出文字信息是眾多科研學(xué)者重點(diǎn)關(guān)注的問題。而文本檢測作為文字識(shí)別技術(shù)的前提,高性能的檢測系統(tǒng)對(duì)識(shí)別效果起到促進(jìn)作用。本文針對(duì)自然場景下的文本檢測問題,在PSENet網(wǎng)絡(luò)的基礎(chǔ)上,結(jié)合Res2Net模塊與GCN網(wǎng)絡(luò)對(duì)其進(jìn)行優(yōu)化,以進(jìn)一步提高文本檢測能力。通過在SCUT-CTW1500和Total-Text數(shù)據(jù)集上的訓(xùn)練與測試,相較于原始的PSENet網(wǎng)絡(luò),本文模型在性能上有所提升,具有一定的有效性。但實(shí)驗(yàn)仍有優(yōu)化的空間,后續(xù)可從優(yōu)化損失函數(shù)以及簡化后處理操作等方面進(jìn)行改進(jìn)。

    參考文獻(xiàn)(References):

    [1] 梁柏榮.基于深度卷積神經(jīng)網(wǎng)絡(luò)的不規(guī)則形狀文字行檢測方法研究[D].廈門大學(xué),2019

    [2] Wang W, Xie E, Li X, et al. Shape Robust Text Detection with Progressive Scale? Expansion Network[J]. arXiv preprint arXiv:1903.12473,2019

    [3] Shang-Hua Gao, Ming-Ming Cheng, Kai Zhao, Xin-Yu Zhang,Ming-Hsuan Yang, Philip Torr. Res2Net:A New Multi-scaleBackbone Architecture.arXiv:1904.01169

    [4] Peng, Chao, et al. Large kernel matters-improve semantic segmentation by global convolutional network. Computer Vision and Pattern Recognition (CVPR),2017.7:4353-4361

    [5] 施漪涵,仝明磊.基于PSENet的自然場景文字檢測網(wǎng)絡(luò)改進(jìn)[J].上海電力大學(xué)學(xué)報(bào),2021,37(1):73-77

    [6] 趙龍,李飛,王偉峰.基于PSENet和CRNN的身份證識(shí)別[J].現(xiàn)代計(jì)算機(jī),2020(34):78-82

    [7] 王光軍.基于神經(jīng)網(wǎng)絡(luò)的自然場景中的字符識(shí)別算法的研究與實(shí)現(xiàn)[D].電子科技大學(xué),2020

    [8] 張芮.基于Res2Net的多任務(wù)網(wǎng)絡(luò)及應(yīng)用注意力機(jī)制的自動(dòng)作曲[D].吉林大學(xué),2020

    [9] 劉一群.基于Res2Net的重識(shí)別方法[D].吉林大學(xué),2020

    [10] Christian Szegedy et al. Rethinking the Inception Architecture for Computer Vision[J]. CoRR, 2015, abs/1512.00567

    [11] Yuliang L, Lianwen J, Shuaitao Z, et al. Detecting curve text in the wild: New dataset and new solution[J]. arXiv preprint arXiv:1712.02170,2017

    [12] Ch'ng C K, Chan C S. Total-Text: A comprehensive dataset for scene text detection and recognition[C]. In:201714th IAPR International Conference on Document Analysis and Recognition,2017.1:935-942

    [13] 付明輝.基于深度學(xué)習(xí)的自然場景文字檢測算法研究[D].北方工業(yè)大學(xué),2021

    猜你喜歡
    多尺度語義分割
    結(jié)合語義邊界信息的道路環(huán)境語義分割方法
    一種改進(jìn)迭代條件模型的遙感影像語義分割方法
    基于積神經(jīng)網(wǎng)絡(luò)的圖像著色方法研究
    基于全卷積網(wǎng)絡(luò)FCN的圖像處理
    基于語義分割的車道線檢測算法研究
    基于語義分割的增強(qiáng)現(xiàn)實(shí)圖像配準(zhǔn)技術(shù)
    基于多尺度融合插值算法的風(fēng)資源監(jiān)測方法
    海綿城市建設(shè)研究進(jìn)展與若干問題探討
    一種基于多尺度數(shù)學(xué)形態(tài)學(xué)的心電信號(hào)去噪方法
    多尺度高效用水評(píng)價(jià)
    临泉县| 南丹县| 社旗县| 城步| 平江县| 新河县| 贺兰县| 南汇区| 西乡县| 林甸县| 宣汉县| 台南县| 股票| 桓仁| 铜鼓县| 昌都县| 峨眉山市| 额敏县| 木兰县| 磐安县| 康定县| 汽车| 姚安县| 黄冈市| 宁化县| 仪征市| 鄂伦春自治旗| 凤台县| 本溪| 曲周县| 乌兰县| 许昌县| 天祝| 涟水县| 锦屏县| 克东县| 苍山县| 蕉岭县| 卓资县| 湖口县| 广河县|