• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    自然場(chǎng)景圖像中維吾爾文檢測(cè)算法

    2022-09-28 09:17:36王德青吾守爾斯拉木許苗苗
    關(guān)鍵詞:維吾爾文維吾爾語維吾爾

    王德青,吾守爾·斯拉木,2,許苗苗

    (1.新疆大學(xué)信息科學(xué)與工程學(xué)院,新疆 烏魯木齊 830046;2新疆大學(xué)新疆多語種信息技術(shù)重點(diǎn)實(shí)驗(yàn)室,新疆 烏魯木齊 830046)

    0 引言

    隨著深度學(xué)習(xí)和網(wǎng)絡(luò)技術(shù)的快速發(fā)展,具有豐富文字信息的圖像在信息傳遞中占據(jù)著越來越重要的地位,這些信息覆蓋面廣、數(shù)量龐大,如何在浩瀚的數(shù)據(jù)中獲得所需要的信息是當(dāng)今科技和社會(huì)所面臨的重要挑戰(zhàn).然而在復(fù)雜的圖像信息中,語義信息主要包含在文本中,所以準(zhǔn)確且全面的檢測(cè)出圖像中所包含的文字信息是十分必要的.當(dāng)前,學(xué)術(shù)界對(duì)于自然場(chǎng)景中維吾爾文字的檢測(cè)及識(shí)別等方面的研究仍不成熟,加強(qiáng)對(duì)自然場(chǎng)景長(zhǎng)維吾爾文字的識(shí)別技術(shù)研究有利于充分發(fā)揮維吾爾語信息化網(wǎng)絡(luò)監(jiān)管平臺(tái)的優(yōu)勢(shì),有利于促進(jìn)多民族文化、地域特色文化共同繁榮發(fā)展,有利于增強(qiáng)國(guó)家文化軟實(shí)力.維吾爾語是以阿拉伯字母為基礎(chǔ)書寫的,同時(shí)使用拉丁維文作為補(bǔ)充.維吾爾語共有32個(gè)字母,其中有8個(gè)元音,24個(gè)輔音,每個(gè)字母有2到8種形式,共有126種形式.[1-2]

    目前,傳統(tǒng)的光學(xué)字符識(shí)別技術(shù)主要用于文檔識(shí)別、票據(jù)識(shí)別、無人駕駛等領(lǐng)域.對(duì)于文檔分辨率較高,背景顏色單一的維吾爾文字場(chǎng)景可以使用傳統(tǒng)的OCR技術(shù).但是在自然場(chǎng)景中,由于圖像里的維吾爾文字背景復(fù)雜、對(duì)比度較低同時(shí)會(huì)受到光照、障礙物遮擋、字體豎直分布、彎曲、尺寸較小等影響,使得圖像中的維吾爾文字存在文字位置、角度變化、分辨率低等問題,同時(shí)目前缺乏相應(yīng)的維吾爾語文字?jǐn)?shù)據(jù)集,給維吾爾文字檢測(cè)研究造成了很大的困難.

    為了解決維吾爾語文字存在的字體彎曲、豎直分布、背景復(fù)雜、光照不均、分辨率低等問題,近年來學(xué)者們做了很多研究工作,大致可以分為兩類:一類為傳統(tǒng)的檢測(cè)方法;另一類為基于深度學(xué)習(xí)的檢測(cè)方法.

    李凱等[3]提出的基于邊緣和基線的檢測(cè)方法,采用多個(gè)方向的邊緣和基線特征結(jié)合對(duì)文本進(jìn)行定位檢測(cè);依再提古麗等[4]使用基于角點(diǎn)密集度的定位方法;姜志威等[5]提出共享維吾爾語之間的字符結(jié)構(gòu)信息方法;劉順[6]針對(duì)復(fù)雜背景下的維吾爾文字的特點(diǎn),通過使用一個(gè)通道增強(qiáng)MSERs算法實(shí)現(xiàn)檢測(cè);Tursun等[7]通過使用Harris角點(diǎn)[8]與形態(tài)學(xué)方法結(jié)合產(chǎn)生候選框,然后根據(jù)啟發(fā)式規(guī)則去除非文本區(qū)域,實(shí)現(xiàn)對(duì)維吾爾文進(jìn)行的檢測(cè);Zaravi等[9]通過高頻小波系數(shù)的分布的方法來確定區(qū)域是否含有文字,然后通過投影確定檢測(cè)位置等.該類方法處理過程復(fù)雜,對(duì)于小文本的檢測(cè)效果不好,對(duì)于復(fù)雜的自然場(chǎng)景文本檢測(cè)效果差.

    Fang等[10]使用卷積神經(jīng)網(wǎng)絡(luò)對(duì)復(fù)雜背景的維吾爾文字進(jìn)行檢測(cè);李路晶一[11]提出改進(jìn)YOLOV3[12]網(wǎng)絡(luò)的維吾爾文檢測(cè)方法;徐隱飛[13]提出了基于卷積神經(jīng)網(wǎng)絡(luò)的維吾爾文檢測(cè)等對(duì)自然場(chǎng)景維吾爾語檢測(cè)都取得了一定效果;彭勇等[14]提出利用改進(jìn)的單深層神經(jīng)網(wǎng)絡(luò)對(duì)輸入網(wǎng)絡(luò)的維吾爾語圖片進(jìn)行特征提取,然后將提取到的維吾爾語文字的特征輸入到文本檢測(cè)組件部分,最后進(jìn)行定位;姜文等[15]提出先將維吾爾語文字進(jìn)行濾波器處理,然后對(duì)該字符圖像進(jìn)行分塊,再次對(duì)實(shí)值Gabor能量值進(jìn)行提取,再將能量值構(gòu)成能量矩陣,同時(shí)通過降維得到特征向量,最后通過鄰近算法(KNN)識(shí)別分類器對(duì)字符進(jìn)行識(shí)別.

    本文首先在新疆烏魯木齊、喀什等地實(shí)際采集維吾爾文字街景、商店等圖像建立了維吾爾文數(shù)據(jù)集,然后改進(jìn)了DBNet網(wǎng)絡(luò)[2]算法用于檢測(cè)自然場(chǎng)景中的維吾爾文字.

    1 相關(guān)算法

    1.1 DBNet網(wǎng)絡(luò)

    DBNet網(wǎng)絡(luò)是為了解決利用閾值判斷前景和背景時(shí)操作不可微無法進(jìn)行端到端訓(xùn)練的問題而提出來的.對(duì)于含有彎曲文本的檢測(cè)任務(wù)來說,基于分割的算法效果比基于回歸的算法更優(yōu),但是基于分割的算法最后獲得的二值化概率圖都是通過使用固定的閾值來獲取的,并且閾值不同對(duì)性能影響較大.該算法是使用固定閾值來判斷前景和背景,但是這種操作是不可微的,使得在進(jìn)行訓(xùn)練時(shí)無法將該部分送入網(wǎng)絡(luò)進(jìn)行訓(xùn)練.

    1.2 ResNeSt網(wǎng)絡(luò)

    ResNeSt網(wǎng)絡(luò)[16]首先將網(wǎng)絡(luò)中的輸入圖像分成k個(gè)cardinal[16],其次將每個(gè)cardinal拆分成R個(gè)split,故一共有K*R個(gè)組,每個(gè)cardinal包含1*1和3*3的卷積,同時(shí)還有拆分注意力模塊(split-attention).在每個(gè)拆分注意力模塊中先將輸入特征經(jīng)過全局池化,然后經(jīng)過2層全連接層,以及經(jīng)過BN層和ReLU層,最后經(jīng)過Softmax層得到各個(gè)特征圖的運(yùn)算結(jié)果,再經(jīng)過1*1的卷積輸出.

    2 基于改進(jìn)的DBNet網(wǎng)絡(luò)

    由于一方面ResNeSt目前作為基礎(chǔ)網(wǎng)絡(luò)在圖像分割領(lǐng)域取得的效果最優(yōu),另一方面DBNet也是基于圖像分割的算法,所以本文采用ResNeSt對(duì)DBNet網(wǎng)絡(luò)的特征金字塔部分進(jìn)行了改進(jìn)(見圖1).

    2.1 算法思想

    本文對(duì)于每個(gè)cardinal輸入為

    (1)

    使用全局平均池化可以得到通道權(quán)重為

    (2)

    所以最后每個(gè)cardinal的輸出為

    (3)

    (3)式中aki(c)表示經(jīng)過Softmax層之后得到的權(quán)重為

    (4)

    然后利用concat操作將每個(gè)cardinal的輸出連接起來,得

    v=concat{V1,V2,V3,…,VK}.

    (5)

    最終的輸出特征圖為

    Y=V+τ(x).

    (6)

    其中τ(x)表示的是跳躍連接映射.

    2.2 算法實(shí)現(xiàn)過程

    首先圖像輸入ResNeSt50網(wǎng)絡(luò)進(jìn)行特征提取,進(jìn)行上采樣融合,再進(jìn)行concat操作得到特征圖F,用特征圖F預(yù)測(cè)獲得概率圖P,使用F預(yù)測(cè)出閾值圖T,將P和T通過DB操作得到近似二值圖,最后獲得檢測(cè)結(jié)果.

    本文借鑒了在中英文檢測(cè)中取得較好效果的DBNet網(wǎng)絡(luò),并將DBNet網(wǎng)絡(luò)中以ResNet18[17]為基礎(chǔ)的FPN[18]架構(gòu)進(jìn)行了改進(jìn),更換為ResNeSt50網(wǎng)絡(luò).如圖1所示,自底向上部分為ResNeSt50.

    圖1 基于改進(jìn)的DBNet網(wǎng)絡(luò)結(jié)構(gòu)

    從輸入圖像獲取特征圖的網(wǎng)絡(luò)分為三部分,自底向上、自上向下和橫向連接.其中在自底向上部分,輸入圖像首先經(jīng)過3個(gè)3×3的卷積層,然后進(jìn)行步長(zhǎng)為2的最大池化操作,再次進(jìn)入r個(gè)radix-group,進(jìn)入每個(gè)group里面的k個(gè)cardinal,經(jīng)過1×1的卷積和3×3的卷積,并將k個(gè)cardinal進(jìn)行concatenate,再進(jìn)行相加操作,進(jìn)行全局平均池化,通過2層全連接層,再通過BN層和ReLU層,并分成c個(gè)分支,最后通過r-Softmax層,得到輸入特征圖c2,c3,c4,c5分別為原圖的1/2,1/4,1/8,1/16,1/32.自上向下部分首先將c5經(jīng)過上采樣處理,然后經(jīng)過3×3的卷積操作消除因?yàn)樯喜蓸赢a(chǎn)生的混疊效應(yīng),得到輸出特征M5,c2,c3,c4,c5上采樣后與經(jīng)過1×1降維處理過的M4相加,再經(jīng)3×3卷積處理,得到M4.其余特征的產(chǎn)生過程與上述類似.在橫向連接部分,先通過1×1的卷積進(jìn)行降維,然后進(jìn)行連接.由此獲得語義信息和位置都非常準(zhǔn)確的特征圖送入DBNet網(wǎng)絡(luò)中進(jìn)行預(yù)測(cè)獲得概率圖P和閾值圖T,最后經(jīng)過可微二值化(DB)處理得到最終的圖像檢測(cè)結(jié)果.

    2.3 特征提取的網(wǎng)絡(luò)具體組成

    表1為ResNeSt50的具體結(jié)構(gòu).由表1可以看到該網(wǎng)絡(luò)借鑒了sknet[19]和ResNeXt[20]的思想,將每個(gè)輸入分為多個(gè)cardinal,每個(gè)cardinal里面又分為多個(gè)group,然后每個(gè)group里面又分為1*1和3*3的卷積,借鑒sknet里面的split attention思想,將特征輸入split attention模塊,在該模塊首先將各個(gè)輸入的group做融合,進(jìn)行全局池化處理,并經(jīng)過全連接層,通過rSoftMax層進(jìn)行concat連接操作獲得對(duì)應(yīng)圖片的特征圖.

    表1 ResNeSt50網(wǎng)絡(luò)具體結(jié)構(gòu)

    3 實(shí)驗(yàn)與分析

    使用的是在英文檢測(cè)領(lǐng)域取得較好效果基于圖像分割的算法,并進(jìn)行了改進(jìn),數(shù)據(jù)集格式為icdar2015格式.

    實(shí)驗(yàn)平臺(tái)是Ubuntu 18.04.3 LTS,GPU為GeForce RTX 1080 Ti,使用的是PyTorch框架,torch版本為1.6.0.改進(jìn)的DBNet訓(xùn)練中的參數(shù):實(shí)驗(yàn)動(dòng)量為0.9,初始學(xué)習(xí)率為0.006,權(quán)重參數(shù)decay為0.000 1,優(yōu)化器選擇的是隨機(jī)梯度下降.

    3.1 數(shù)據(jù)集與評(píng)價(jià)標(biāo)準(zhǔn)

    在深度學(xué)習(xí)領(lǐng)域,數(shù)據(jù)集是進(jìn)行研究的基礎(chǔ),由于目前學(xué)術(shù)界缺乏公開的維吾爾文字圖像數(shù)據(jù)集,所以我們采集得來的圖文數(shù)據(jù)集中包含街道、商店、宣傳欄、博物館物品、火車站、公交站牌、天橋等場(chǎng)景的圖像.在采集過程中因?yàn)榕臄z的角度、距離、時(shí)間等存在差異,所以圖像中的文本存在與中文英文混合,尺寸、字體、色澤、大小、位置等不一致,為了更好地進(jìn)行標(biāo)注和訓(xùn)練,本文的實(shí)驗(yàn)數(shù)據(jù)集圖像統(tǒng)一轉(zhuǎn)換尺寸大小為4 032*3 024像素的圖像.并用標(biāo)注精靈助手進(jìn)行了標(biāo)注,每張圖像的維吾爾文本的位置信息和內(nèi)容信息都被標(biāo)注出來,可以進(jìn)行維吾爾文字檢測(cè)和識(shí)別的訓(xùn)練及評(píng)估.本文數(shù)據(jù)集為3 170張,其中實(shí)驗(yàn)所用隨機(jī)選取訓(xùn)練樣本為90%,隨機(jī)選取測(cè)試樣本為10%.

    圖2 部分?jǐn)?shù)據(jù)集圖像示例

    實(shí)驗(yàn)采用目標(biāo)檢測(cè)領(lǐng)域常用的準(zhǔn)確率(P)、召回率(R)、F值為評(píng)價(jià)標(biāo)準(zhǔn).為了更好地進(jìn)行說明,現(xiàn)做如下定義:

    True positives:數(shù)據(jù)為正例,預(yù)測(cè)結(jié)果為正例;True Negative:數(shù)據(jù)為負(fù)例,預(yù)測(cè)結(jié)果為負(fù)例;False Positive:數(shù)據(jù)為負(fù)例,預(yù)測(cè)結(jié)果為正例;False Negative:數(shù)據(jù)為正例,預(yù)測(cè)結(jié)果為負(fù)例.

    所以計(jì)算公式為

    (7)

    (8)

    (9)

    3.2 結(jié)果與分析

    對(duì)本文的算法實(shí)驗(yàn)進(jìn)行分析對(duì)比,選取CTPN[21]網(wǎng)絡(luò)、R2CNN[22]網(wǎng)絡(luò)、DBNet網(wǎng)絡(luò)、改進(jìn)的DBNet網(wǎng)絡(luò)4個(gè)算法的不同模型的訓(xùn)練及測(cè)試進(jìn)行對(duì)比,如表2所示.表2中ctpn-ResNet18、ctpn-ResNet50分別表示ctpn算法中主干網(wǎng)絡(luò)為ResNet18和ResNet50.DBNet_td500_ResNet50、DBNet_synthtext_ResNet50、DBNet_ic15_ResNet50、DBNet_totaltext_ResNet50分別表示DBNet算法的主干網(wǎng)絡(luò)為td500_ResNet50、synthtext_ResNet50、ic15_ResNet50和totaltext_ResNet50.IOU表示的是交并比,即候選框與原始標(biāo)注框的重疊率,是目標(biāo)檢測(cè)中常用的評(píng)價(jià)標(biāo)準(zhǔn).

    由表2可知,在同樣的數(shù)據(jù)和訓(xùn)練平臺(tái)條件下,改進(jìn)的網(wǎng)絡(luò)效果最好,P為76.72%,R為59.45%,F(xiàn)為67.0%,ctpn-ResNet50的P次之,P為73.91%;DBNet_totaltext_ResNet50的R次之,R為51.04%,DBNet-td500_ResNet50的F次之,F(xiàn)為59.57%.對(duì)于DBNet算法而言,當(dāng)其主干網(wǎng)絡(luò)為td500_ResNet50時(shí)在本文的數(shù)據(jù)集上的檢測(cè)效果最好,P為73.56%;對(duì)于CTPN網(wǎng)絡(luò)來說,當(dāng)其主干網(wǎng)絡(luò)為ResNet50時(shí)的效果優(yōu)于ResNet18,其值為73.91%;另外ctpn-ResNet50網(wǎng)絡(luò)的性能優(yōu)于DBNet_td500_ResNet50,優(yōu)于R2CNN網(wǎng)絡(luò);R2CNN網(wǎng)絡(luò)的性能優(yōu)于ctpn-ResNet18;基于改進(jìn)的DBNet網(wǎng)絡(luò)效果性能優(yōu)于以上所有網(wǎng)絡(luò).而且IOU為0.5的時(shí)候評(píng)估結(jié)果優(yōu)于IOU為0.6的結(jié)果.綜合以上實(shí)驗(yàn)結(jié)果及對(duì)比性能,本文提出的算法對(duì)維吾爾文檢測(cè)具有很好的效果.

    表2 各算法在本文數(shù)據(jù)集的測(cè)試性能

    基于改進(jìn)的DBNet算法在實(shí)現(xiàn)檢測(cè)的過程中充分考慮了輸入圖像的高層語義信息和準(zhǔn)確的位置信息,故該網(wǎng)絡(luò)對(duì)于小文本檢測(cè)效果很好,圖3是對(duì)小文本的檢測(cè)結(jié)果,其中左側(cè)的黑白圖像經(jīng)過特征提取之后的效果圖,右側(cè)為檢測(cè)輸出的效果圖.由圖3可知,基于改進(jìn)的DBNet網(wǎng)絡(luò)對(duì)于光照不均、傾斜、文本較小等維吾爾文的檢測(cè)效果優(yōu)異.

    圖3 基于改進(jìn)的DBNet網(wǎng)絡(luò)對(duì)于小文本的檢測(cè)結(jié)果

    CTPN、R2CNN、基于改進(jìn)的DBNet網(wǎng)絡(luò)的檢測(cè)結(jié)果如圖4所示.由圖4可知CTPN網(wǎng)絡(luò)檢測(cè)效果圖為綠色框所示,能夠檢測(cè)到圖像中的一部分維吾爾文,R2CNN網(wǎng)絡(luò)沒有檢測(cè)到維吾爾文,基于改進(jìn)的DBNet網(wǎng)絡(luò)檢測(cè)結(jié)果為圖中紅色框所示,該網(wǎng)絡(luò)優(yōu)于加入了拆分注意力機(jī)制與特征金字塔網(wǎng)絡(luò),能夠?qū)z測(cè)的目標(biāo)進(jìn)行集中檢測(cè),也能夠?qū)D像中維吾爾文的水平文本、傾斜文本、彎曲文本、復(fù)雜背景文本等實(shí)現(xiàn)檢測(cè)且都具有優(yōu)異的檢測(cè)效果.

    圖4 CTPN、R2CNN、基于改進(jìn)的DBNet網(wǎng)絡(luò)檢測(cè)結(jié)果

    綜合表2的實(shí)驗(yàn)結(jié)果及圖3和4的檢測(cè)效果圖可知:基于改進(jìn)的DBNet算法具有準(zhǔn)確檢測(cè)自然場(chǎng)景中的維吾爾語小文本、傾斜彎曲文本、水平文本、復(fù)雜背景文本,檢測(cè)準(zhǔn)確率高,資源消耗較小等多種優(yōu)點(diǎn).

    4 結(jié)束語

    本文提出了改進(jìn)的DBNet網(wǎng)絡(luò)用于維吾爾文字檢測(cè).實(shí)驗(yàn)結(jié)果表明:該算法有效地提升了維吾爾文本檢測(cè)的感受野,同時(shí)使得特征提取的各個(gè)通道之間都有較好的聯(lián)系,應(yīng)用基于特征金字塔的ResNeSt網(wǎng)絡(luò)和較小的平均池化方法能夠更好地提取較為完整豐富的圖像文本信息,有效地提高了維吾爾文本檢測(cè)的性能.以后的工作重點(diǎn)將在以下2個(gè)方面進(jìn)行研究:(1)使用更加簡(jiǎn)便的網(wǎng)絡(luò)提高檢測(cè)性能,減少訓(xùn)練時(shí)間;(2)對(duì)網(wǎng)絡(luò)引入識(shí)別算法進(jìn)行訓(xùn)練,實(shí)現(xiàn)檢測(cè)識(shí)別一體化.

    猜你喜歡
    維吾爾文維吾爾語維吾爾
    四、準(zhǔn)噶爾對(duì)天山南北麓維吾爾人的統(tǒng)治
    西部少數(shù)民族語言對(duì)阿拉伯文獻(xiàn)的譯介及其特點(diǎn)
    統(tǒng)計(jì)與規(guī)則相結(jié)合的維吾爾語人名識(shí)別方法
    維吾爾醫(yī)治療卵巢囊腫40例
    維吾爾醫(yī)治療慢性盆腔炎30例臨床總結(jié)
    維吾爾語話題的韻律表現(xiàn)
    維吾爾語詞重音的形式判斷
    語言與翻譯(2015年4期)2015-07-18 11:07:45
    基于JAVAEE的維吾爾中介語語料庫開發(fā)與實(shí)現(xiàn)
    語言與翻譯(2015年4期)2015-07-18 11:07:45
    維吾爾文研究與Android維文閱讀器的實(shí)現(xiàn)?
    察合臺(tái)維吾爾文古籍的主要特點(diǎn)
    阳江市| 宁陵县| 肥城市| 祁连县| 杭锦旗| 贡山| 阜平县| 西乌珠穆沁旗| 武汉市| 台山市| 都江堰市| 临邑县| 济宁市| 明水县| 饶平县| 蒙山县| 古丈县| 临澧县| 辰溪县| 莱州市| 牡丹江市| 开鲁县| 德兴市| 肇州县| 永靖县| 钟祥市| 南木林县| 兴国县| 阜宁县| 天水市| 荣昌县| 温州市| 两当县| 高平市| 子洲县| 肇州县| 封丘县| 曲松县| 巴彦县| 信宜市| 河西区|