胡海洋,厲澤品,李忠金
(1. 杭州電子科技大學(xué)計(jì)算機(jī)學(xué)院,浙江 杭州 310018; 2. 浙江省腦機(jī)協(xié)同智能重點(diǎn)實(shí)驗(yàn)室,浙江 杭州 310018)
現(xiàn)實(shí)場(chǎng)景中文字承載的高級(jí)語義信息能夠幫助人們更好地理解周圍世界,場(chǎng)景文本檢測(cè)作為場(chǎng)景文本讀取的關(guān)鍵組成部分,一直是計(jì)算機(jī)視覺領(lǐng)域的熱門研究方向,例如工業(yè)自動(dòng)化、自動(dòng)駕駛和盲人輔助等。
早期的文字檢測(cè)技術(shù)使用傳統(tǒng)的模式識(shí)別方法,其主要分為兩種:一是以連通區(qū)域分析為核心技術(shù)的文字檢測(cè)方法[1-3],二是Minetto等[4]提出的以滑動(dòng)窗口為核心技術(shù)的文字檢測(cè)方法。傳統(tǒng)的模式識(shí)別方法一般包含4個(gè)步驟:字符候選區(qū)域生成;候選區(qū)域?yàn)V除;文本行構(gòu)造;文本行驗(yàn)證。然而煩瑣的檢測(cè)步驟導(dǎo)致文字檢測(cè)的實(shí)時(shí)性差,同時(shí)準(zhǔn)確率得不到保證。
隨著計(jì)算機(jī)視覺和模式識(shí)別領(lǐng)域的發(fā)展,卷積神經(jīng)網(wǎng)絡(luò)[5]開始嶄露頭角,逐步成為主流的目標(biāo)特征提取網(wǎng)絡(luò)。因此先從訓(xùn)練數(shù)據(jù)中提取有效的文本特征并建立模型,然后將模型運(yùn)用于實(shí)際環(huán)境,并通過文本檢測(cè)算法完成文本檢測(cè)任務(wù)的深度學(xué)習(xí)方式逐漸成為主流。
目前,基于深度學(xué)習(xí)的文本檢測(cè)方法可以分為兩類:一種是基于目標(biāo)檢測(cè)方法的回歸檢測(cè)算法,目標(biāo)檢測(cè)框架由SSD[6]、FasterRCNN[7]、ResNet[8]等進(jìn)行針對(duì)文字特性的改進(jìn)得到,這類方法的主要特點(diǎn)是通過回歸水平矩形框(anchor)、旋轉(zhuǎn)矩形框以及四邊形等形狀獲得文字檢測(cè)結(jié)果;另一種是基于文本分割方法進(jìn)行文本檢測(cè),此類方法主要借鑒語義分割的思路,將文本像素分到不同的實(shí)例中,并通過一些后處理方法獲得文本像素級(jí)別的定位結(jié)果,可以精確定位任意形狀的文字,該類方法主要有Liao等[9]提出的可微分二值化(2ifferentiable binarization,DB)后處理算法等。
與傳統(tǒng)文字檢測(cè)方法相比,深度學(xué)習(xí)的文字檢測(cè)[10]已經(jīng)簡(jiǎn)化了很多步驟,但是網(wǎng)絡(luò)的加深帶來了更大的計(jì)算量。ResNet50具有大約25.6 MB大小的參數(shù),以及需要4.1×109FLOPS(floating point operations per secon2,每秒浮點(diǎn)運(yùn)算次數(shù))的計(jì)算量處理一張2242pi× 2242pi 的圖像。因此,深度神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)的最新趨勢(shì)是探索可移植、高效、輕量的網(wǎng)絡(luò)架構(gòu),并為移動(dòng)設(shè)備提供可接受的性能。Han等[11]采用裁剪的方法,對(duì)不重要的權(quán)值進(jìn)行裁剪,以此提升網(wǎng)絡(luò)性能。Howar2等[12]利用深度卷積和逐點(diǎn)卷積相結(jié)合構(gòu)建了MobileNet輕量網(wǎng)絡(luò)架構(gòu),在與VGG16精度相同的情況下,參數(shù)量和計(jì)算量減少了2個(gè)數(shù)量級(jí)。ShuffleNet[13]改進(jìn)了通道的shuffle操作,增強(qiáng)了輕量網(wǎng)絡(luò)的性能。
工廠中的貨箱運(yùn)輸環(huán)境如圖1所示,其中,開發(fā)板、顯示器、攝像機(jī)部署在叉車上,叉車行駛的平均速度為3 m/s左右,攝像機(jī)拍攝貨箱編號(hào)。只有當(dāng)圖片的檢測(cè)幀率為12 f/s(frames per secon2,每秒傳輸幀數(shù))以上時(shí),顯示器才可以清楚地顯示每張圖片的檢測(cè)結(jié)果,而處于移動(dòng)端的文本檢測(cè),則需要達(dá)到更高的檢測(cè)幀率才能滿足要求,因此需要搭建輕量網(wǎng)絡(luò)架構(gòu),而與輕量網(wǎng)絡(luò)MobileNet、ShuffleNet文本檢測(cè)方法相比,工廠環(huán)境下的文本檢測(cè)有其復(fù)雜性和特殊性:它所處的運(yùn)輸環(huán)境背景混亂、光線變化頻繁、文本不規(guī)整等。因此在工廠環(huán)境下輕量網(wǎng)絡(luò)文本檢測(cè)方法無法在保證實(shí)時(shí)性的同時(shí),達(dá)到較高的準(zhǔn)確率。
圖1 工廠中的貨箱運(yùn)輸環(huán)境
針對(duì)在工廠貨箱運(yùn)輸場(chǎng)景中存在的問題,本文提出一種基于輕量級(jí)網(wǎng)絡(luò)的貨箱編號(hào)檢測(cè)方法。文本檢測(cè)模型如圖2所示,首先,使用ResNet18作為基礎(chǔ)網(wǎng)絡(luò)架構(gòu),用改進(jìn)的Ghost 模塊替換基礎(chǔ)殘差模塊,其中,Ghost 模塊嵌入文獻(xiàn)[14]中提出的輕量級(jí)特征增強(qiáng)技術(shù)Squeeze- an2-Excitation,對(duì)部分卷積后的特征進(jìn)行重標(biāo)定,提高重要特征的權(quán)重。其次,采用雙分支結(jié)構(gòu),第一分支使用文獻(xiàn)[15]中提出的特征金字塔增強(qiáng)模塊(feature pyrami2 enhancement mo2ule,F(xiàn)PEM)提取圖像高級(jí)和低級(jí)信息,第二分支利用本文提出的雙線性特征融合向量模塊融合不同尺度的特征向量,增強(qiáng)尺度多變的文本特征表達(dá)能力。而后特征融合模塊(feature fusion mo2ule,F(xiàn)FM)級(jí)聯(lián)所有特征向量。最后,采用DB語義分割算法獲得最終結(jié)果,其中,修改損失函數(shù)為文獻(xiàn)[16]中提出的DiceLoss和 MaskLoss。同時(shí)在推理階段采用自適應(yīng)閾值分割算法替換固定閾值,更能適應(yīng)工廠環(huán)境的光線變化。
圖2 文本檢測(cè)模型
為了能夠訓(xùn)練新型輕量網(wǎng)絡(luò)框架并評(píng)估它的優(yōu)勢(shì),本文創(chuàng)建了一個(gè)復(fù)雜工廠環(huán)境下的貨箱文字?jǐn)?shù)據(jù)集,數(shù)據(jù)集中包含了不同種類的貨箱,不同視角下、不同形狀的文字。實(shí)驗(yàn)表明,本文提出的新型輕量級(jí)網(wǎng)絡(luò)框架RGFFD(ResNet18+ GhostMo2ule+特征金字塔增強(qiáng)模塊(feature pyrami2 enhancement mo2ule,F(xiàn)PEM)+ 特征融合模塊(feature fusion mo2ule,F(xiàn)FM)+可微分二值化(2ifferenttiable binarization,DB ))在實(shí)時(shí)性和精確度方面都優(yōu)于其他的網(wǎng)絡(luò)框架。本文的主要貢獻(xiàn)為以下3點(diǎn)。
? 提出了新型的輕量網(wǎng)絡(luò)架構(gòu)解決實(shí)際工業(yè)場(chǎng)景中移動(dòng)設(shè)備的文字檢測(cè),并達(dá)到了可觀的精確度。
? 制作了一個(gè)貨箱文字?jǐn)?shù)據(jù)集對(duì)模型進(jìn)行訓(xùn)練和評(píng)估,并最終實(shí)現(xiàn)在線部署。
? 在自定義數(shù)據(jù)集上,本文的模型在識(shí)別精度和泛化能力上都超過了主流的文字檢測(cè)方法。
近年來,設(shè)計(jì)輕量高效的神經(jīng)網(wǎng)絡(luò)架構(gòu)一直是熱門的研究領(lǐng)域。VGGNets[17]模型表明,增加網(wǎng)絡(luò)的深度可以顯著提高網(wǎng)絡(luò)的學(xué)習(xí)特征的能力。同時(shí)Batch Normalization操作通過調(diào)整輸入每一層的分布,提升了深層網(wǎng)絡(luò)學(xué)習(xí)過程的穩(wěn)定性,產(chǎn)生了更平滑的優(yōu)化曲面。ResNet通過使用殘差模型構(gòu)建更深層次和更強(qiáng)大的網(wǎng)絡(luò)。而網(wǎng)絡(luò)的加深帶來了更大的計(jì)算量,Szege2y等[18]提出采用逐點(diǎn)卷積(1×1)減少參數(shù)計(jì)算量,并在同一層級(jí)利用不同大小的卷積核提取圖像不同維度的信息,在保證模型質(zhì)量的前提下,減少參數(shù)量。InceptionV2[19]則通過恰當(dāng)?shù)胤纸饩矸e與積極地正則化盡可能地利用有效的運(yùn)算。雖然網(wǎng)絡(luò)的計(jì)算成本得到了降低,但是仍無法在一些嵌入式的設(shè)備中運(yùn)行。MobileNet的提出使網(wǎng)絡(luò)的計(jì)算成本出現(xiàn)了大幅度的下降,其主要思想是對(duì)每個(gè)通道單獨(dú)利用卷積核進(jìn)行卷積操作,然后利用逐點(diǎn)卷積融合特征,有效替代傳統(tǒng)的卷積層,然而精確度卻無法得到保障。MobileNetV2[20]對(duì)此進(jìn)行了擴(kuò)展,引入線性瓶頸和反向殘差結(jié)構(gòu),主要思想是在深度卷積之前增加逐點(diǎn)卷積操作,使得特征提取能夠在高維運(yùn)行。Howar2等[21]提出MobileNetV3,其添加了輕量級(jí)注意力機(jī)制,將swish替換為h-swish,以更少的計(jì)算量獲得更好的性能。ShuffleNet提出逐點(diǎn)組卷積,有效地降低了因?yàn)橹瘘c(diǎn)卷積而形成的通道之間的約束,同時(shí)采用通道混洗方法提高了通道組之間的信息流通,提高了信息的表示能力。SqueezeNet廣泛使用1×1卷積,采用Squeeze-an2-Excitation模塊減少參數(shù)數(shù)量,提升網(wǎng)絡(luò)的特征提取能力。Lin等[22]提出了特征金字塔網(wǎng)絡(luò)(feature pyrami2 network,F(xiàn)PN),通過提取并融合上下文信息,使小物體的檢測(cè)更準(zhǔn)確,但由于網(wǎng)絡(luò)計(jì)算復(fù)雜,參數(shù)量大無法滿足實(shí)時(shí)性要求。Wang等[15]提出了FPEM,采用可分解卷積,降低網(wǎng)絡(luò)計(jì)算量,并通過級(jí)聯(lián)的方式完成高低級(jí)特征的提取,同時(shí)利用FFM特征融合模塊融合不同層次的特征,在保證精度的同時(shí)參數(shù)量?jī)H為FPN的1/5。
采用輕量網(wǎng)絡(luò)架構(gòu)提取圖像文本特征,最后利用文本檢測(cè)算法繪制文本框,文本檢測(cè)方法大致可以分為兩類:基于回歸的方法和基于分割的方法。
基于回歸的方法是直接回歸文本邊界框,準(zhǔn)確定位文本。Liao等[23]提出的TextBoxes基于SSD修改了anchor和卷積核的尺度,用于文本檢測(cè)。Liao等[24]提出的TextBoxes++應(yīng)用四邊形回歸來檢測(cè)多方向文本。Tian等[25]首次提出將文字區(qū)域分割成一系列小尺度的候選框,同時(shí)引入循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN),增加了檢測(cè)的精度,但只能檢測(cè)水平方向的文字。Shi等[26]采用角度概念,切割圖片為段,使用link檢測(cè)將屬于同一文本的段進(jìn)行連接,以處理長(zhǎng)文本實(shí)例。Liao等[27]通過使用旋轉(zhuǎn)不變特征進(jìn)行分類,使用旋轉(zhuǎn)敏感特征進(jìn)行回歸,將分類和回歸解耦,以便在多方向和長(zhǎng)文本實(shí)例上取得更好的效果。Zhou等[28]提出了全卷積操作,并直接生成預(yù)測(cè)文本框,利用局部感知非最大抑制(locality- aware non maximum suppression,LNMS)產(chǎn)生最終結(jié)果,實(shí)現(xiàn)端到端的文本檢測(cè)。然而這些方法都是為四邊形文本檢測(cè)而設(shè)計(jì)的,無法識(shí)別任意形狀的文本。
與基于回歸方法不同,基于分割的方法通常結(jié)合像素級(jí)預(yù)測(cè)和后處理算法得到邊界框,可以檢測(cè)不規(guī)則形狀的文本。Deng等[29]提出Pixel-Link概念,對(duì)輸入圖像執(zhí)行文本和非文本預(yù)測(cè)以及鏈接預(yù)測(cè),然后通過后處理以獲取文本框并過濾噪聲,分隔不同的文本實(shí)例。Wang等[30]通過分割具有不同規(guī)模內(nèi)核的文本實(shí)例,并使用漸進(jìn)式尺度擴(kuò)展算法獲得最終文本框。然而PSENet因網(wǎng)絡(luò)計(jì)算量大,網(wǎng)絡(luò)檢測(cè)文本的實(shí)時(shí)性大大降低。Wang等[15]引入特征金字塔增強(qiáng)模塊,并通過級(jí)聯(lián)的方式提取多級(jí)信息,而后采用特征融合模塊融合多尺度信息,最后通過像素聚合模塊預(yù)測(cè)相似性向量聚合文本像素,在不降低精度的情況下,減少網(wǎng)絡(luò)的計(jì)算量。DBNet提出了一個(gè)可微分二值化模塊預(yù)測(cè)收縮區(qū)域,并且收縮區(qū)域以恒定的膨脹率擴(kuò)張,最終獲得文本框。Tian等[31]提出了學(xué)習(xí)形狀感知嵌入(learning shape-aware embe22ing,LSAE)方法,將圖像像素映射到特征空間中,對(duì)屬于同一文本實(shí)例的像素進(jìn)行聚類,很好地分割相鄰的文本,并且可以檢測(cè)長(zhǎng)文本。
深層卷積神經(jīng)網(wǎng)絡(luò)中通常由大量的卷積操作組成,這就需要大量的計(jì)算量,大多數(shù)方法采用逐點(diǎn)卷積處理跨通道的特征,然后采用深度卷積處理空間信息,以此減少網(wǎng)絡(luò)的計(jì)算量。普通的卷積操作會(huì)產(chǎn)生大量的冗余信息,特征冗余如圖3所示,其中有部分是相似的,因此不需要一個(gè)接一個(gè)地生成這些冗余的帶有大量參數(shù)運(yùn)算的特征映射,而是將相似的特征映射通過某種簡(jiǎn)單的線性操作進(jìn)行獲取,以此減少計(jì)算量。
圖3 特征冗余
為了解決特征冗余的問題,避免不必要的卷積操作,本文采用改進(jìn)的Ghost模塊替換殘差網(wǎng)絡(luò)的基礎(chǔ)殘差3×3卷積模塊。常規(guī)Ghost模塊主要由兩種關(guān)鍵技術(shù)組成,分別是部分卷積和Chollet等[32]提出的DepthWise卷積。相較于常規(guī)卷積,部分卷積只有部分特征圖是利用卷積核生成的。Depthwise操作的一個(gè)卷積核只負(fù)責(zé)特征映射圖的一個(gè)通道,一個(gè)通道只與一個(gè)卷積核進(jìn)行卷積操作。最后將線性變換的特征圖與原先的特征圖進(jìn)行拼接操作,轉(zhuǎn)換為普通卷積操作后通道數(shù)相同的特征圖。
本文為了使網(wǎng)絡(luò)能夠在訓(xùn)練和測(cè)試階段獲得更加完整的文本圖像特征,且只提高少許網(wǎng)絡(luò)的復(fù)雜性,因此采用輕量級(jí)特征增強(qiáng)技術(shù)Squeeze-an2-Excitation,Squeeze-an2-Excitation模塊如圖4所示,通過顯式地建模卷積特征通道之間的相互依賴性提高網(wǎng)絡(luò)的性能。
圖4 Squeeze-an2-Excitation模塊
Ghost模塊改進(jìn)方法示意圖如圖5所示,其中改進(jìn)方法1將特征增強(qiáng)模塊Squeeze-an2-Excitation嵌入Ghost模塊中,在部分卷積之后進(jìn)行特征增強(qiáng)。改進(jìn)方法2選擇在部分卷積和DepthWise卷積后進(jìn)行特征增強(qiáng)。相較于方法2,方法1在進(jìn)行特征增強(qiáng)時(shí)所需要的網(wǎng)絡(luò)計(jì)算量更少,Ghost模塊部分卷積操作只產(chǎn)生通道數(shù)為N/2的特征圖,因此只需要對(duì)一半的特征圖進(jìn)行特征增強(qiáng)。而在工廠環(huán)境下,叉車運(yùn)行速度較快,需要網(wǎng)絡(luò)檢測(cè)圖片的速率達(dá)20 f/s以上,才可以清晰地顯示圖片。因此本文選擇改進(jìn)方法1,減少網(wǎng)絡(luò)計(jì)算量,提升網(wǎng)絡(luò)檢測(cè)速率。
圖5 Ghost模塊改進(jìn)方法示意圖
工廠環(huán)境復(fù)雜,在不同視角存在大量尺度不同的文本,因此為了融合不同尺度的文本特征,增強(qiáng)尺度多變的文本特征表達(dá)能力,本文提出了雙線性特征向量融合模塊。
長(zhǎng)短期記憶(long short-term memory,LSTM)[33]是特征向量融合模塊的核心成分,LSTM首先被應(yīng)用在文本識(shí)別。特征融合模塊細(xì)節(jié)如圖6所示,本文特征向量融合模塊僅由4個(gè)特征向量組合而成,因此本文舍棄了長(zhǎng)期記憶,采用簡(jiǎn)單的線性操作融合以前的輸入信息,將不同層次的特征向量依次輸入特征向量融合模塊中。其中,tanh網(wǎng)絡(luò)創(chuàng)建一個(gè)可以存儲(chǔ)的向量Ct,sigmoi2網(wǎng)絡(luò)層為此向量中的每個(gè)值輸出一個(gè)0~1的數(shù)值it,決定要存儲(chǔ)哪些狀態(tài)值,最后通過簡(jiǎn)單的線性操作進(jìn)行融合。通過訓(xùn)練,可以使最后一個(gè)特征向量對(duì)應(yīng)的輸出存儲(chǔ)了所有特征向量重要的信息。因?yàn)楸疚奶岢龅碾p線性特征向量融合模塊只需要經(jīng)過簡(jiǎn)單的線性操作,就可以完成不同尺度特征向量的融合,因此在不影響實(shí)時(shí)性的同時(shí),增加了網(wǎng)絡(luò)檢測(cè)的精確率。雙線性特征向量融合模塊公式化為:
圖6 特征融合模塊細(xì)節(jié)
其中 ,it為sigmoi2網(wǎng)絡(luò)層的輸出,Ct為tanh網(wǎng)絡(luò)層的輸出,σ為sigmoi2網(wǎng)絡(luò)層,ht-1為上一次的輸出,xt為第t次的輸入。Wi、WC、bi、bC為權(quán)重。
FPN采用特征金字塔模型,對(duì)高低層的語義信息進(jìn)行融合,提高網(wǎng)絡(luò)檢測(cè)不同尺度的目標(biāo)的精度,然而特征融合采用上采樣、逐個(gè)位相加、向量拼接技術(shù),大大增加了網(wǎng)絡(luò)計(jì)算量,無法保證網(wǎng)絡(luò)的實(shí)時(shí)性。FPEM能夠通過融合低級(jí)和高級(jí)信息增強(qiáng)不同尺度的特征。FPEM模塊細(xì)節(jié)如圖7所示,F(xiàn)PEM是可級(jí)聯(lián)的模塊,隨著級(jí)聯(lián)層數(shù)的增加,不同尺度的特征圖會(huì)得到更充分的融合,特征圖的感受野也隨之增大。此外,因?yàn)镕PEM是通過可分解卷積構(gòu)建的,其計(jì)算開銷非常小,僅為FPN的1/5左右。
圖7 FPEM模塊細(xì)節(jié)
FFM模塊示意圖如圖8所示,特征融合模塊FFM對(duì)FPEM級(jí)聯(lián)產(chǎn)生的不同層次的特征F1,F2,…,Fm進(jìn)行融合。為增強(qiáng)不同尺度文本的特征表達(dá)能力,本文對(duì)FFM進(jìn)行改進(jìn),將特征融合后的向量進(jìn)行上采樣并與原模型相級(jí)聯(lián),獲得通道數(shù)為5×128,大小為原圖1/4的最終特征圖。
圖8 FFM模塊示意圖
DBNet采用可微分二值化處理,使閾值在訓(xùn)練期間能隨著網(wǎng)絡(luò)一起優(yōu)化,同時(shí)基于閾值圖和概率圖獲取近似二值圖。DBNet提供的可微的二值化計(jì)算式為:
其中,Pi,j表示該區(qū)域有文字的概率,如果沒有文字區(qū)域,Pi,j為0;Ti,j是由網(wǎng)絡(luò)學(xué)習(xí)到的閾值圖;k表示放大系數(shù)。
總的損失函數(shù)L可以表示為概率圖的損失與二值圖的損失與閾值圖的損失的加權(quán)和:
其中,LS是概率圖的損失值,Lb是二值圖的損失值,Lt是閾值圖的損失。其中,α和β分別被設(shè)置為5和10。其中LS和Lb分別使用DiceLoss損失函數(shù)來進(jìn)行訓(xùn)練,DiceLoss常用于醫(yī)學(xué)圖像分割,其目的就是解決前景比例太小的問題。其計(jì)算式為:
DiceLoss損失函數(shù)特點(diǎn)就是收斂速度快,且收斂速度優(yōu)于交叉熵等分類損失函數(shù)。Lt采用Mask L1 Loss損失函數(shù)來進(jìn)行訓(xùn)練,通過掩模進(jìn)行Lt損失函數(shù)的計(jì)算。其計(jì)算式為:
其中,Lt損失為平均絕對(duì)差值,而后增加了mask掩模,對(duì)mask指定的區(qū)域進(jìn)行Lt損失函數(shù)的計(jì)算,n為膨脹后的圖像區(qū)域在mask掩模下需要進(jìn)行計(jì)算的數(shù)量總和。絕對(duì)值為預(yù)測(cè)文本框與標(biāo)簽的距離差值。
DB算法檢測(cè)不規(guī)整文本如圖9所示,本文采用自適應(yīng)閾值替換固定閾值獲取閾值圖。最終文本框的獲取有3個(gè)步驟。
圖9 DB算法檢測(cè)不規(guī)整文本
步驟1采用網(wǎng)絡(luò)輸出概率圖,其值范圍為[0,1],DBNet設(shè)定常數(shù)閾值(0.2)獲取閾值圖,本文不設(shè)定固定的閾值獲取閾值圖,而是通過設(shè)置九宮格掩模對(duì)概率圖進(jìn)行自適應(yīng)閾值計(jì)算獲得閾值圖,自適應(yīng)閾值計(jì)算式為:
其中,x、y為圖像中的坐標(biāo),fx,y是坐標(biāo)為(x,y)的像素值,t為自適應(yīng)閾值算法求得的閾值,px+i,y+j為原圖坐標(biāo)為(x+i,y+j) 的像素值,fx,y是坐標(biāo)為(x,y)的閾值。
步驟2從概率圖和閾值圖中獲取連接區(qū)域。
步驟3擴(kuò)大文本區(qū)域,進(jìn)行膨脹,擴(kuò)大的倍數(shù)為D’= (A′×r′) /L′,A′為多邊形的面積,L′為多邊形的面積,r′被設(shè)定為1.8。
利用本文的網(wǎng)絡(luò)RGFFD,在ICDAR2015、Total-text以及本文采集并設(shè)計(jì)的數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)和評(píng)估,具體如下。
? ICDAR2015數(shù)據(jù)集:主要面向自然場(chǎng)景的文本檢測(cè),有1000張訓(xùn)練圖片和500張測(cè)試圖片,其中圖片的像素大小為1280 2pi × 7202pi。
? 自定義數(shù)據(jù)集:針對(duì)復(fù)雜工廠環(huán)境下貨箱編碼檢測(cè)的問題而采集的數(shù)據(jù)集,包含了在不同形狀的木板箱子上從不同角度采集的3000多張的文本圖片,其中文本樣式各異,并且傾斜角度不同,文字背景信息復(fù)雜。文本框區(qū)域用矩形的4個(gè)坐標(biāo)點(diǎn)來進(jìn)行記錄。其中圖片的像素大小為1280 2pi×7202pi。
? Total-text數(shù)據(jù)集:包含各種形狀文本的數(shù)據(jù)集,包括水平、多方向和曲線文本實(shí)例,由1255張訓(xùn)練圖像和300張測(cè)試圖像組成,文本實(shí)例以單詞級(jí)標(biāo)注。
在本實(shí)驗(yàn)中,實(shí)驗(yàn)數(shù)據(jù)訓(xùn)練在64位的Win2ows系統(tǒng)上,內(nèi)存為16 GB,CPU是8核,顯卡為RTX2060。所有的實(shí)驗(yàn)都是通過PyTorch深度學(xué)習(xí)框架完成的,模型的循環(huán)次數(shù)(epoch)為500,學(xué)習(xí)率被設(shè)置為0.001,每次訓(xùn)練選取樣本數(shù)量為8。
實(shí)驗(yàn)檢測(cè)結(jié)果在開發(fā)板UP2 boar2中運(yùn)行,開發(fā)板具體配置為Win2ows10系統(tǒng),內(nèi)存為8 GB,容量大小為64 GB,處理器為N4200。
本實(shí)驗(yàn)的反向傳播選用的是A2am優(yōu)化算法,A2am優(yōu)化器是一個(gè)尋找全局最優(yōu)點(diǎn)的優(yōu)化算法,算法引入了二次梯度校正。
由于常規(guī)的視頻需要達(dá)到12 f/s,顯示器才可以清楚地顯示每張圖片,而處于移動(dòng)端的文本檢測(cè),叉車平均行駛速度為3 m/s,則需要更高的幀率才能滿足要求。經(jīng)實(shí)驗(yàn)可知,當(dāng)幀率達(dá)到20 f/s或以上時(shí),圖片可以流暢地顯示,因此本文算法的性能由精確率、召回率、幀率(檢測(cè)速度)(f/s)以及檢測(cè)速度與20的差值這4個(gè)指標(biāo)來衡量。
本文方法與近年出現(xiàn)的其他方法在多個(gè)數(shù)據(jù)集上進(jìn)行了對(duì)比,在公共數(shù)據(jù)集中算法的實(shí)驗(yàn)結(jié)果由算法作者提供,自定義數(shù)據(jù)集中算法的實(shí)驗(yàn)結(jié)果由本文作者實(shí)現(xiàn)。本文方法在ICDAR2015數(shù)據(jù)集中與不同文本檢測(cè)方法的比較見表1。由實(shí)驗(yàn)結(jié)果可知,TextFuseNet在ICDAR2015數(shù)據(jù)集中的檢測(cè)精確率和召回率已與SOTA相近,但是網(wǎng)絡(luò)復(fù)雜,計(jì)算參數(shù)量大,導(dǎo)致網(wǎng)絡(luò)的檢測(cè)速度較慢,無法滿足20 f/s的要求。PAN(pixel aggregation network)作為PSENet的改進(jìn)版,將精確率和檢測(cè)速度做到了很好的平衡,但是本文提出的RGFFD網(wǎng)絡(luò)同樣采用PAN的特征金字塔和特征融合模塊并進(jìn)行改進(jìn),在精確率上超過PAN 0.4%,同時(shí)在召回率上與PAN接近,且利用改進(jìn)的Ghost模塊替換常規(guī)卷積,在速度方面更是超過PAN 2.1 f/s,與其他網(wǎng)絡(luò)相比本文方法檢測(cè)速度達(dá)到最快。
表1 本文方法在ICDAR2015數(shù)據(jù)集成中 與不同文本檢測(cè)方法的比較
本文方法在Total-text數(shù)據(jù)集中與不同文本檢測(cè)方法的比較見表2,TextFuseNet在精確率和召回率上已和SOTA相近,但是檢測(cè)速度不滿足 要求,無法達(dá)到20 f/s,而PAN在精確率和召回率上與TextFuseNet相近,且速度更是達(dá)到39.9 f/s。本文提出的RGFFD網(wǎng)絡(luò)精確率與PAN相近,且檢測(cè)速度高于PAN 5.7 f/s。與其他網(wǎng)絡(luò)相比,本文方法檢測(cè)速度達(dá)到最快。
表2 本文方法在Total-text數(shù)據(jù)集中 與不同文本檢測(cè)方法的比較
本文方法在自定義數(shù)據(jù)集中與不同文本檢測(cè)方法的比較見表3,TextFuseNet的精確率和召回率都顯示出自己的優(yōu)勢(shì),但是由于網(wǎng)絡(luò)復(fù)雜、計(jì)算量大,網(wǎng)絡(luò)的檢測(cè)速度未能達(dá)到20 f/s。本文的方法RGFFD,精確率和召回率都與TextFuseNet相近,且檢測(cè)速度達(dá)到20 f/s的要求,并超出TextFuseNet 23.2 f/s。PAN雖然檢測(cè)速度也達(dá)到20 f/s的要求,但是精確率卻沒有RGFFD高,因此本文的方法RGFFD性能更優(yōu)異。
表3 本文方法在自定義數(shù)據(jù)集中與不同文本檢測(cè)方法的比較
針對(duì)復(fù)雜工廠環(huán)境,將訓(xùn)練好的網(wǎng)絡(luò)參數(shù)移植入開發(fā)板UP2 boar2進(jìn)行檢測(cè),開發(fā)板中不同方法的效果比較見表4。實(shí)驗(yàn)結(jié)果表明本文的方法檢測(cè)速度最快。
表4 開發(fā)板中不同方法效果比較
開發(fā)板檢測(cè)的文本效果如圖10所示,圖10(a)為MobileNetV3+DB網(wǎng)絡(luò)檢測(cè)的結(jié)果,圖10(b)為RGFFD的檢測(cè)結(jié)果??梢钥闯霰疚牡臋z測(cè)方法能夠精確檢測(cè)遠(yuǎn)處尺度較小的貨箱文本,且針對(duì)不同角度,RGFFD也能精確檢測(cè)。因此,RGFFD能夠在工廠環(huán)境下高效地完成文本檢測(cè)任務(wù)。
圖10 開發(fā)板檢測(cè)的文本效果
為了驗(yàn)證本文不同模塊在檢測(cè)過程中發(fā)揮作用,針對(duì)不同模塊設(shè)計(jì)了消融實(shí)驗(yàn),所有消融實(shí)驗(yàn)均在自定義數(shù)據(jù)集上進(jìn)行。
針對(duì)Ghost模塊,設(shè)計(jì)了3組實(shí)驗(yàn):第1組實(shí)驗(yàn)不對(duì)網(wǎng)絡(luò)嵌入任何模塊,第2組實(shí)驗(yàn)嵌入的Ghost模塊采用改進(jìn)方法1(如圖5所示),第3組實(shí)驗(yàn)嵌入的Ghost模塊采用改進(jìn)方法2(如圖5所示)。第1組實(shí)驗(yàn)、第2組實(shí)驗(yàn)與第3組實(shí)驗(yàn)形成對(duì)比,分別探究刪除、不同改進(jìn)方法對(duì)結(jié)果的影響,如果第2組實(shí)驗(yàn)結(jié)果優(yōu)于第1組實(shí)驗(yàn)、第3組實(shí)驗(yàn),則說明本文改進(jìn)的Ghost模塊在文本檢測(cè)流程中發(fā)揮了不可或缺的作用。
本文實(shí)驗(yàn)的運(yùn)行環(huán)境以及參數(shù)設(shè)置均與原實(shí)驗(yàn)相同。不同嵌入模塊的實(shí)驗(yàn)結(jié)果對(duì)比見表5。由實(shí)驗(yàn)結(jié)果可知:嵌入Ghost模塊之后,網(wǎng)絡(luò)的檢測(cè)速度得到了提升,這說明Ghost模塊為輕量級(jí)。而比較第2組實(shí)驗(yàn)、第3組實(shí)驗(yàn),可以發(fā)現(xiàn)改進(jìn)方法1相較于改進(jìn)方法2,計(jì)算的參數(shù)量更少,網(wǎng)絡(luò)的檢測(cè)速度高出0.8 f/s,且精確率兩者相接近,召回率高出0.8%,進(jìn)一步證明了方法1的有效性。
表5 不同嵌入模塊的實(shí)驗(yàn)結(jié)果對(duì)比
此外,本文設(shè)計(jì)了消融實(shí)驗(yàn)驗(yàn)證特征向量融合模塊的有效性。特征向量融合模塊效果比較見表6。由實(shí)驗(yàn)結(jié)果可知,嵌入特征向量融合模塊雖然降低了檢測(cè)速度,但是精確率和召回率得到了提升,相較于原來精確率提升了1.1%,召回率提升了0.3%。
表6 特征向量融合模塊效果比較
在推理階段,本文設(shè)計(jì)了消融實(shí)驗(yàn)驗(yàn)證自適應(yīng)閾值的DB算法的有效性。在自定義數(shù)據(jù)集中不同方法的檢測(cè)結(jié)果如圖11所示,實(shí)驗(yàn)結(jié)果表明采用自適應(yīng)閾值分割算法獲得的平均聯(lián)合交叉(intersection over union,IOU)值要較固定閾值(0.2)高出4%,而文本檢測(cè)獲得的IOU值越高,越能判定文本框的存在,因此真陽(yáng)率得到了5.2%的提升。因?yàn)楣S環(huán)境復(fù)雜、文本較小、光線變化頻繁等因素,直接使用全局閾值分割算法容易引入噪聲等不確定因素影響閾值,而自適應(yīng)閾值分割算法,只獲取像素點(diǎn)周圍九宮格內(nèi)的像素進(jìn)行閾值計(jì)算,更好地限制了不利因素,且適應(yīng)文本較小的情況。
圖11 在自定義數(shù)據(jù)集中不同方法的檢測(cè)結(jié)果
推理階段檢測(cè)結(jié)果如圖12所示,展示了采用自適應(yīng)閾值分割算法與固定閾值方法檢測(cè)文本的實(shí)驗(yàn)圖,圖12(a)為固定閾值(0.2)的檢測(cè)結(jié)果,圖12(b)為自適應(yīng)閾值分割算法的檢測(cè)結(jié)果??梢园l(fā)現(xiàn)在光照頻繁變化的情況下,自適應(yīng)閾值分割算法的判斷能力更好,固定閾值算法會(huì)發(fā)生很多誤判,因此自適應(yīng)閾值分割算法在文本檢測(cè)流程中發(fā)揮著不可或缺的作用。
圖12 推理階段檢測(cè)結(jié)果
本文提出的輕量級(jí)文本檢測(cè)網(wǎng)絡(luò)RGFFD,采用改進(jìn)的Ghost模塊大幅度降低計(jì)算量的同時(shí)嵌入特征增強(qiáng)模塊(SEBlock)提升Ghost模塊提取特征能力,而后連接特征金字塔(FPEM)融合圖像高低層語義信息,同時(shí)使用雙線性特征向量融合模塊,增強(qiáng)尺度多變的文本特征表達(dá)能力,而后采用特征融合模塊(FFM)融合各特征向量。實(shí)驗(yàn)結(jié)果表明,在工廠環(huán)境下,RGFFD網(wǎng)絡(luò)運(yùn)行在嵌入式設(shè)備UP2 板中,檢測(cè)速度最快且精度高,因此本文的網(wǎng)絡(luò)性能更優(yōu)異。而采用Dice Loss和Mask L1 Loss作為損失函數(shù)的DB算法,收斂效果更好。在推理階段,采用自適應(yīng)閾值分割算法來獲取閾值的方法比直接采用固定閾值的方法,更加能夠適應(yīng)各種環(huán)境變化,圖片檢測(cè)文本框的效果也更加精準(zhǔn)。