劉艷麗,王毅宏,張 恒,程晶晶
(1. 上海電機學(xué)院電子信息學(xué)院,上海 201306;2. 華東交通大學(xué)信息工程學(xué)院,江西 南昌 330000)
自然場景文本是指存在于任意自然情境下的文本內(nèi)容,例如廣告牌、商品包裝、商場指示牌等。近年來,基于深度學(xué)習(xí)的自然場景文本檢測與識別方法快速發(fā)展,廣泛應(yīng)用于智能機器人、無人駕駛等領(lǐng)域,并成為當下研究熱點。與文檔圖像中的文本不同,自然場景中的文本檢測與識別方法主要存在以下三方面挑戰(zhàn):①自然場景圖像背景復(fù)雜、存在類文本目標如窗戶或柵欄等;②圖像本文在字體大小、排列方向、文本稀疏程度等方面有很大的差異性;③自然場景圖像中文本上存在光照強度不均衡、拍照角度不統(tǒng)一等干擾因素。
為了應(yīng)對上述挑戰(zhàn),大量基于深度學(xué)習(xí)的自然場景文本識別方法被提出。其中,文本檢測與文本識別的研究大部分是分開處理的,文本檢測階段通過訓(xùn)練有素的檢測器從原始圖像中定位文本區(qū)域?,F(xiàn)有的文本檢測方法主要包括以下幾種:基于區(qū)域建議的方法、基于語義分割的方法、基于區(qū)域建議和語義分割的方法。如文獻[1]提出一種基于筆畫角度變換和寬度特征的自然場景文本檢測方法;文獻[2]提出了嵌入注意力機制的自然場景文本檢測方法。文獻[3]中提出通過語義分割檢測多方向場景文本。相比于水平或多方向場景的文本檢測,針對自然場景中的任意形狀文本的檢測方法不多。文本識別階段的主要任務(wù)是對定位好的文字區(qū)域進行識別,現(xiàn)有的文本識別技術(shù)主要包括以下幾種:基于樸素卷積神經(jīng)網(wǎng)絡(luò)的方法、基與時序特征分類的方法、基于編碼器和解碼器的方法。如文獻[4]中使用卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)對圖像特征提取,用連接時序分類(connectionist temporal classification,CTC)輸出識別的序列;文獻[5]中提出通過注意力機制的序列到序列模型來識別場景文本。
雖然基于文本檢測加文本識別的方法看似簡單有效,但檢測性能無法達到最佳,因為檢測和識別階段是高度相關(guān)的:檢測質(zhì)量的高低決定了識別的準確率、識別結(jié)果可以給檢測階段提供信息反饋,糾正檢測誤差。針對該問題,端到端的文本識別框架[6-8]被提出。如文獻[9,10]等將實例分割應(yīng)用于文本檢測與識別。
圖1 場景文本檢測與識別
基于實例分割的方法解決了圖像文本形式多樣的問題,并且可以從不同干擾因素下定位文本。但是檢測效果受到自然場景圖像背景復(fù)雜、各種噪聲的影響,極易導(dǎo)致文本檢測出現(xiàn)大量假陽性樣本和不完整檢測等,如圖1(c)所示。
在實例分割任務(wù)中,文本掩膜的質(zhì)量分數(shù)被量化為文本分類的置信度。然而真實文本掩膜的質(zhì)量分數(shù)為實例掩膜與其對應(yīng)的地面真值的IoU(Intersection over Union),通常與文本分類分數(shù)相關(guān)性不強。如圖1(d)所示,實例分割得到精確的文本框以及該文本框?qū)?yīng)的高分類置信度scls,然而文本分類置信度scls與文本掩膜置信度smask存在一定差異。使用文本分類的置信度來衡量文本掩膜的質(zhì)量是不恰當?shù)?,因為文本分類置信度僅用于區(qū)分文本類別,而不知道文本掩膜的實際質(zhì)量和完整性,從而在一定程度上導(dǎo)致自然場景文本檢測出現(xiàn)大量假陽性樣本。
為了解決文本檢測假陽性問題,本文提出嵌入重評分機制的自然場景文本檢測方法。該方法在實例分割網(wǎng)絡(luò)(Mask R-CNN)的基礎(chǔ)上進行改進,實現(xiàn)了對自然場景中多方向、不規(guī)則文本的檢測。具體來說,本文方法首先參考實例分割中利用預(yù)測的掩膜與地面真值之間的像素級別IoU來描述實例分割質(zhì)量,提出一種學(xué)習(xí)掩膜交并比網(wǎng)絡(luò);其次通過引入重評分機制,將文本語義類別信息與文本掩膜完整性信息相結(jié)合,矯正真實文本掩膜質(zhì)量與文本掩膜置信度之間的偏差,提高文本檢測與實例分割的精確性??傊?,本文的主要內(nèi)容如下:
1) 使用實例分割網(wǎng)絡(luò)檢測自然場景中的文本,兼顧自然場景中規(guī)則文本與不規(guī)則文本的檢測,并通過FPN融合深層、淺層CNN語義信息,兼顧小尺度文本與大尺度文本的檢測,提升召回率。
2) 設(shè)計重評分機制,通過學(xué)習(xí)預(yù)測掩膜的分數(shù),將預(yù)測得到的掩膜分數(shù)與文本分類分數(shù)相結(jié)合,重新評估文本掩模的質(zhì)量,提升實例分割的準確性,保證檢測文本的完整,進一步提高召回率。
3) 在三個文本檢測與識別模型常用的數(shù)據(jù)集ICDAR2013、ICDAR2015和Total-Text進行對比試驗從而分析、評估本文方法。
本文方法以Mask R-CNN[11]為基礎(chǔ)網(wǎng)絡(luò)架構(gòu),如圖2所示。包括:用于提取圖像特征的特征金字塔網(wǎng)絡(luò)FPN[12]、用于生成文本區(qū)域建議的區(qū)域建議網(wǎng)絡(luò)RPN[13]、用于邊界框回歸的Fast R-CNN[13]、用于文本分割和字符分割的Mask Head分支、用于字符掩膜評分的重評分模塊。
自然場景中的文本復(fù)雜多樣,存在不同的尺寸,而不同尺寸的文本對應(yīng)著不同的特征。低層特征的語義信息較少,但目標位置準確,有利于檢測小尺寸的文本框;高層的特征語義信息較為豐富,但是目標位置比較粗略,有利于檢測大尺度的文本框。針對該問題,本文在CNN特征提取模塊使用了FPN,以ResNet-101為骨干網(wǎng)絡(luò),如圖3所示。對于在單尺度的圖像輸入,F(xiàn)PN使用自頂向下的體系結(jié)構(gòu)來融合不同分辨率的特性。圖中{C2,C3,C4,C5}分別表示ResNet-101中的conv2_x、conv3_x、conv4_x、conv5_x層,經(jīng)過FPN處理計算得到特征層集合表示為fi={f2,f3,f4,f5,f6},計算公式如下所示
(1)
其中,Upsample(.)表示步長為2的上采樣,MaxPool(.)表示最大值池化計算;由于fi的每一層均會作為RPN的輸入并完成回歸與分類計算,所以Convi(.)為1×1卷積模板的卷積層,并約束fi的通道數(shù)為256。通過深層特征的上采樣與淺層特征進行融合,在顧及小尺度目標檢測的同時,增強對大尺度目標的感知,一定程度上提升文本檢測召回率。
圖2 本文方法流程圖
圖3 特征金字塔網(wǎng)絡(luò)
候選區(qū)域生成網(wǎng)絡(luò)(Region Proposal Network,RPN)為后續(xù)的Fast R-CNN和Mask分支生成文本候選區(qū)域(ROIs)起到關(guān)鍵的作用。針對自然場景中的文本大小不一致、方向不統(tǒng)一等問題,RPN網(wǎng)絡(luò)參考FPN[12],根據(jù)錨的大小在不同階段分配錨。具體來說,在{P2,P3,P4,P5,P6}五個階段把錨的面積分別設(shè)置為{322,642,1282,2562,5122}像素,其次參考文獻[13],在不同的階段把錨的長寬比設(shè)置為(0.5,1,2)。同樣的,本文方法采用RoI Align[11]對RPN生成的邊界框的特征進行統(tǒng)一表示,相比于RoI池化,RoI Align保留了更準確的位置信息,提升了生成掩膜的精度,這對于掩膜分支中的分割任務(wù)相當重要。
Fast R-CNN分支的輸入由RoI Align根據(jù)RPN提出的文本區(qū)域建議生成,主要任務(wù)包括:邊界框分類和邊界框回歸,其主要目的是為檢測到的文本區(qū)域提供更加準確的位置信息。Fast R-CNN將文本檢測視為分類問題,首先利用已經(jīng)獲得的建議區(qū)域?qū)?yīng)的深度特征,通過全連接層與Softmax函數(shù)計算得到每個區(qū)域建議屬于什么類別(文本、背景),輸出類別概率向量;其次通過回歸文本邊界框獲取文本區(qū)域建議的位置偏移量,用于回歸更加精確的文本檢測框。
一般情況下,經(jīng)過RPN生成的得分高的ROIs中存在大量非文本實例即負樣本。因而在對文本、非文本分類的同時,過濾更多的非文本區(qū)域,有助于提升正樣本的準確性,生成更準確的ROIs。本文方法將文本實例特征與其對應(yīng)的預(yù)測掩膜結(jié)合起來學(xué)習(xí),提出引入重評分機制的自然場景文本檢測方法,如圖4所示。
圖4 重評分機制
首先,在傳統(tǒng)實例分割任務(wù)中,雖然輸出結(jié)果是文本掩膜,但對掩膜打分卻是和文本邊界框檢測共享的,是針對文本區(qū)域分類置信度計算出來的分數(shù),該分數(shù)和文本分割掩膜的質(zhì)量未必一致,用來評價文本掩膜的質(zhì)量可能出現(xiàn)偏差。文本掩膜的質(zhì)量由文本預(yù)測的掩膜與該文本對應(yīng)的地面真值之間的像素IoU來描述,本文方法設(shè)計直接學(xué)習(xí)文本掩膜IoU的網(wǎng)絡(luò),通過將預(yù)測的文本掩膜分數(shù)與分類分數(shù)相乘,重新評估文本掩模置信度,最終文本掩模置信度將同時考慮文本語義類別信息與文本掩膜的完整性信息。
Smask表示文本掩膜置信度,理想的Smask量化為預(yù)測的文本掩膜和其對應(yīng)的地面真實掩膜的交并比。其中每一個文本掩膜只屬于一類,且Smask對有地面真值的類別只可能有正值,對于其它的類別的得分為零。本文方法將學(xué)習(xí)任務(wù)分為掩膜分類和MaskIoU回歸,所有對象類別表示為:Smask=Scls×Siou。其中Scls專注于掩膜分類,已在MaskHead分支階段的分類任務(wù)中完成,從而專注于掩膜交并比回歸的Siou將作為重評分模塊的主要任務(wù)。
圖5 Mask Head結(jié)構(gòu)圖
Mask Head分支主要負責(zé)三項任務(wù):文本實例分割、字符實例分割和文本序列識別,如圖5所示。輸入一個大小為16×64的ROI特征,連續(xù)經(jīng)過三個卷積層和一個反卷積層后,輸出38份概率圖,包括文本實例概率圖、字符(包含字符和數(shù)字)實例概率圖、字符背景概率圖。其中,文本概率圖用于預(yù)測矩形區(qū)域中的文本實例區(qū)域,不同的字符實例概率圖用于預(yù)測矩形區(qū)域中不同字符區(qū)域;字符背景概率圖用于預(yù)測矩形區(qū)域中非文本區(qū)域。
為了將預(yù)測的字符圖解碼為字符序列,文本采用像素投票算法首先對背景圖進行二值化,其值從0到1,閾值為0.75;然后根據(jù)二值化圖中的連接區(qū)域獲得所有字符區(qū)域;計算所有字符圖每個區(qū)域的平均值;平均值可以看作是區(qū)域的字符分類概率,它可以看作字符的置信度,平均值最大的字符類將分配給該區(qū)域。具體過程如算法1所示。然后,根據(jù)英語的書寫習(xí)慣將所有字符從左到右進行分組。
算法1 像素投票
輸入:背景B,字符圖C
1)在二值化背景圖上生成連通域R
2)S←?
3) for r in R do
4) score←?
5) for c in C do
6) mean=Average(c[r])
7) score←scores+mean
8) S←S+Argmax(scores)
9) return S
重評分模塊的主要任務(wù)是將預(yù)測的文本掩膜與其對應(yīng)真實文本掩膜之間IoU進行回歸。如圖6所示。
圖6 特征融合模塊
在重評分模塊中,將RoI Align層的特征和預(yù)測的掩膜連接起來作為該網(wǎng)絡(luò)的輸入。在連接時,使用卷積核大小為2、步長2的最大池化層使得預(yù)測的掩膜與RoI相同的空間尺寸。對于地面真值類,網(wǎng)絡(luò)中只選擇返回MaskIoU,而不是所有的類。重評分網(wǎng)絡(luò)由4個卷積層和3個全連接層組成。對于4個卷積層,將所有卷積層的核大小設(shè)置為3,濾波器個數(shù)設(shè)置為256。對于3個全連接層,前兩個全連接層的輸出設(shè)置為1024,最后一個全連接層的輸出設(shè)置為類別的數(shù)量。
本文方法在訓(xùn)練階段輸入圖像的地面真值由以下部分組成:P={p1,p2…pm}和C={C1=(cc1,cl1),C2=(cc2,cl2),…,Cn=(ccn,cln)},其中pi表示的是文本實例區(qū)域,由一個多邊形框構(gòu)成。ccj和clj分別代表了字符像素對應(yīng)的位置與類別。首先用最小的水平矩形來覆蓋多邊形,然后遵循Faster R-CNN中的方法為RPN網(wǎng)絡(luò)和Fast R-CNN網(wǎng)絡(luò)生成目標。其中地面真值P、C以及RPN提供的建議區(qū)域為Mask Head生成兩種類型的目標:用于預(yù)測矩形區(qū)域中文本實例區(qū)域的文本概率圖和用于預(yù)測矩形區(qū)域中不同字符區(qū)域的字符實例概率圖。給定建議區(qū)域r,Mask Head參考文獻[13]的匹配機制獲得最佳水平矩形,相應(yīng)的文本實例區(qū)域和字符區(qū)域進一步得到。然后將匹配的多邊形和字符框移動并調(diào)整大小來對齊建議區(qū)域,目標地圖的 的計算根據(jù)以下公式
Bx=(Bx0-min(rx))×W/(max(rx)-min(rx))
(2)
By=(By0-min(ry))×H/(max(ry)-min(ry))
(3)
其中(Bx,By)和(Bx0,By0)分別表示的是更新后的多邊形頂點和原始多邊形頂點。(rx,ry)是提議r的頂點。之后,在初始化為零的遮罩上規(guī)范化多邊形并填充多邊形區(qū)域值為1。字符實例的生成如下:通過固定字符邊界框的中心點并將其邊縮短到原始邊的四分之一來縮小所有字符邊界框,將縮小字符邊界框中的像素值設(shè)置為其相應(yīng)的類別索引,將縮小字符邊界框之外的像素值設(shè)置為0,如果沒有字符邊框批注,則所有值都設(shè)置為-1。
本文方法是多任務(wù)的,依據(jù)MaskR-CNN中損失函數(shù)的設(shè)計思路,本文方法加入全局文本實例分割損失和字符分割損失。損失函數(shù)如下
L=Lrpn+α1Lcls+α2Lbox+α3Lglobal+α4Lchar
(4)
其中Lrpn、Lcls和Lbox是RPN和FastR-CNN的損失函數(shù),Lglobal和Lchar參考文獻[9],表示實例分割損失和字符分割損失。
+(1-yn)×log(1-S(xn))]
(5)
對于Lglobal,N表示全局文本地圖的像素總數(shù),yn(yn∈(0,1))代表像素標簽,xn表示輸出N的像素。
(6)
(7)
對于Lchar,T表示類別數(shù),N表示每張地圖的像素數(shù),其中輸出的地圖X可以看作為一個N×T的矩陣。其中Y對應(yīng)于地面真值X,權(quán)重W用于平衡字符類和背景類的損失值,Nneg表示背景像素的數(shù)量,其權(quán)重可以通過式(7)計算得出。
了驗證本文方法的性能,該模型在ICDAR2013、ICDAR2015和Total-Text三個數(shù)據(jù)集上進行實驗。其中ICDAR2013和ICDAR2015是主要的線性文本檢測與識別數(shù)據(jù)集,Total-text為彎曲文本檢測與識別的重要數(shù)據(jù)集。
1)Synth-Text:該數(shù)據(jù)集是一個合成的數(shù)據(jù)集,包括大約80K張圖片。在數(shù)據(jù)集中大部分文本實例都是多方向的。
2)ICDAR2013:該數(shù)據(jù)集是2013年ICDAR 舉行的穩(wěn)健閱讀競賽(robust reading competition,簡稱RRC)所提供的公共數(shù)據(jù)集。數(shù)據(jù)集的圖片包含路標、書籍封面和廣告牌等清晰的場景文本(focused scene text)圖片,專注于水平文本的檢測與識別,如圖7所示。
3)ICDAR2015:該數(shù)據(jù)集是2015年ICDAR在RRC中增加的偶然場景文本(incidental scene text)閱讀競賽提供的公共數(shù)據(jù)集,數(shù)據(jù)集是由 Google Glass 在未聚焦的情況下隨機拍攝的街頭或者商場圖片,旨在幫助文本檢測和識別模型提高泛化性能,如圖8所示。
4)Total-Text:彎曲的文字是一個很容易被忽視的問題,Total-Text是一個針對曲線文本檢測的公開數(shù)據(jù)集,數(shù)據(jù)集圖片中包含商業(yè)標識、標志入口等現(xiàn)實生活場景中的彎曲文本。該與ICDAR數(shù)據(jù)集不同,該數(shù)據(jù)集有大量面向曲線的文本和多方向的文本,如圖9所示。
目前文本檢測性能主要包括3個評價指標:召回率(Recall,R)、準確率(Precision,P)和綜合評價指標(F-Measure,F(xiàn)),如式(8)(9)(10)。此外,利用表征檢測速度的參數(shù)即每秒傳輸幀數(shù)(Frames Per Second,F(xiàn)PS)作為效率參考標準。
(8)
(9)
(10)
其中TP、FP和FN分別代表的是命中框的數(shù)量、錯誤框的數(shù)量和遺漏框的數(shù)量。文本識別的評估方式分為兩類:End-to-End 和Word Spotting,其中End-to-End 表示檢測并識別圖像中的文本,Word Spotting 表示檢測并識別詞匯表單詞(將圖像中包含非法字符的文本視為無關(guān)文本)。與文本識別類似,端到端的文本識別任務(wù)提供3種不同的約束詞匯表:
1)Strong(S):每張圖像的強語境詞匯表(100個單詞),包括圖像中的所有單詞以及從訓(xùn)練或測試集的其余部分選擇的干擾詞。
2)Weak(W):包括訓(xùn)練和測試集中所有單詞的弱語境詞匯表。
3)Generic(G):源自Jaderberg等人的數(shù)據(jù)集,大約 90k 單詞的通用詞匯表。
文本識別的訓(xùn)練方法大多使用兩個不同的模塊來訓(xùn)練樣本即文本檢測與文本識別,或者使用交替訓(xùn)練的方式。本文方法的所有子網(wǎng)絡(luò)都以端到端的形式訓(xùn)練。整個訓(xùn)練步驟包括兩步:在Synth-Text數(shù)據(jù)集中與訓(xùn)練和在真實單詞數(shù)據(jù)集中調(diào)整。
在訓(xùn)練階中,首先采用小批量迭代法訓(xùn)練,mini-batch設(shè)置為8,并且將所有輸入圖像的短邊調(diào)整為800像素,同時保持圖片方向不變。其中RPN和Fast R-CNN的batch-size設(shè)置為256和512,每張圖片正負樣本比設(shè)為1:3。在Mask Head分支中batch-size設(shè)置為16。在微調(diào)階段,由于缺乏真實樣本,因此采用了數(shù)據(jù)擴充和多尺度訓(xùn)練技術(shù),具體地說,對于數(shù)據(jù)增強,將輸入的圖片隨機旋轉(zhuǎn)到某個角度范圍,然后加入一些其它增強技巧,如隨機修改色調(diào)、亮度、對比度等。在多尺度訓(xùn)練中,輸入圖像的短邊隨機調(diào)整為三個尺度600、800、1000。另外,使用額外的1162張來自文獻[14]的用于字符檢測的圖像作為訓(xùn)練樣本,mini-batch保持為8,且在每一個mini-batch中,Synth-Text、ICDAR2013、ICDAR2015、Total-Text和額外圖像的不同數(shù)據(jù)集的采樣比例分別設(shè)置為4:1:1:1:1。
使用SGD優(yōu)化本文模型,在預(yù)訓(xùn)練階段,訓(xùn)練模型進行180k次迭代,初始學(xué)習(xí)率為0.005,在120k次迭代時,學(xué)習(xí)率衰減到十分之一。在微調(diào)階段,初始學(xué)習(xí)率設(shè)置為0.001,在60k迭代時降低到0.0001,微調(diào)過程在80k迭代結(jié)束。
圖7 ICDAR2013數(shù)據(jù)集
圖8 ICDAR2015數(shù)據(jù)集
在測試階段,針對自然場景中的水平文本、多方向文本和不規(guī)則文本,本文方法分別在ICDAR2013、ICDAR2015和Total-Text數(shù)據(jù)集上評估它的性能,用準確率(P)、召回率(R)、綜合評價指標(F)和檢測時間(幀/秒,F(xiàn)PS)評價該方法的性能,S、W、G分別表示Strong、Weak、Generic三種不同的約束詞匯表,最優(yōu)結(jié)果用黑體加粗標注,實驗結(jié)果如圖(10-12)所示。
1)水平文本
針對水平文本,實驗中輸入圖像的短邊長度統(tǒng)一設(shè)置為1000像素,其次將本文模型與5個檢測器進行比較,包括Textboxes[15]、Deep TextSpotter[16]、Li et al.[17]、Mask TextSpotter[9],Text Perceptron[7],對比結(jié)果如表1和表2所示。
圖9 Total-text數(shù)據(jù)集
即使只是在單尺度上檢測,本文方法在準確率、召回率和綜合評價三個指標下均優(yōu)于之前提出的一些方法[7,9],達到了95.1%,90.9%,92.9%。尤其在召回率方面,超出最先進的檢測模型Mask TextSpotter1.4%,在保證檢測效果的同時,本文方法的時間損耗同樣良好,F(xiàn)PS為2.9。如表2所示,在數(shù)據(jù)集ICDAR2013的識別測試中,基于End-to-End的評估方式下,本文方法的文本識別性能在Strong、Weak、Generic三種不同的約束詞匯表中均優(yōu)于其它先進的模型,綜合指標分別達到了94.8%、92.1%、88.7%。
2)多方向文本
針對多方向文本,實驗中輸入圖像的短邊長度統(tǒng)一設(shè)置為1600像素,其次將本文方法與5個檢測器進行比較,包括TextSpotter[18]、StradVision[19]、Deep TextSpotter[16]、Mask TextSpotter[9]、Text Perceptron[7],對比結(jié)果如表1和表3所示。
表1 在數(shù)據(jù)集ICDAR2013和ICDAR2015上文本檢測結(jié)果
表2 ICDAR2013數(shù)據(jù)集評估結(jié)果
表3 ICDAR2015數(shù)據(jù)集評估結(jié)果
表4 Total-Text數(shù)據(jù)集上的評估結(jié)果
圖10 ICDAR 2013數(shù)據(jù)集上的文本檢測與識別可視化結(jié)果
圖11 ICDAR 2015數(shù)據(jù)集上的文本檢測與識別的可視化結(jié)果
圖12 Total-Text數(shù)據(jù)集上文本檢測與識別的可視化結(jié)果
在召回率方面,本文方法比最先進的Mask TextSpotter的87.3%還有所提升,召回率達到了90.6%。如表3所示,在數(shù)據(jù)集ICDAR2015的識別測試中,基于End-to-End的評估方式下,指標比之前的網(wǎng)絡(luò)都要優(yōu)秀,綜合指標達到了84.6%,78.9%和74.6%。
3)不規(guī)則文本
針對不規(guī)則文本,實驗中輸入圖像的短邊長度統(tǒng)一設(shè)置為1000像素,然后將本文方法與5個檢測器進行比較,包括Ch′Ng et al.[20]、Liao et al.[15]、Mask TextSpotter[9],Char-Net[21],TextDragon[8],對比結(jié)果如表4所示。結(jié)果表明本文方法在不規(guī)則文本的檢測與識別上表現(xiàn)更優(yōu)異,準確率、召回率、平均調(diào)和都有顯著性提高。雖然本文方法在檢測方面的性能次于最先進的文本檢測模型Char-Net[21],但是文中網(wǎng)絡(luò)的綜合指標是表現(xiàn)最好的網(wǎng)路之一,基于端到端的評估方式下,相較于Char-Net[21]提高了6.6%,比表現(xiàn)最優(yōu)的TextDragon[8]高出1%,綜合指標達到了75.8%。
為了說明本文方法設(shè)計的每個模塊對最終結(jié)果是否為正相關(guān),本文將進行消融實驗加以驗證。本文以Mask R-CNN為基礎(chǔ)框架,引入FPN以滿足適合各尺度文本檢測要求;針對自然場景中文本內(nèi)容檢測不完整、假陽性等問題,提出重評分機制。
消融實驗在Total-Text數(shù)據(jù)集進行,從Mask R-CNN開始逐步融合各個模塊并計算出對應(yīng)的準確率、召回率與F值,實驗結(jié)果如表5所示。實驗過程其它參數(shù)均保持一致。
通過表5發(fā)現(xiàn),F(xiàn)PN網(wǎng)路中加入{P6}層,使本文方法召回率和F值分別提高了3.2%和1.6%,但準確率下降了2.3%,經(jīng)分析由于{P6}層的增加擴大了模型的感受野,使得更多較大的文本得到檢測,但{P6}也會相對應(yīng)地增加干擾區(qū)域?qū)е聹蚀_率下降;最后完整地使用FPN網(wǎng)絡(luò)與特征融合網(wǎng)絡(luò),通過重新評估文本掩膜的質(zhì)量使得文本區(qū)域減少各種因素的干擾。準確率、召回率和F值分別達到72.3%、64.2%和68.0%。
表5 消融實驗結(jié)果
檢測結(jié)果與對比圖如圖13所示,可以發(fā)現(xiàn)本文方法可以完整地檢測到文本區(qū)域,且未出現(xiàn)漏檢;對比其它模型的檢測結(jié)果,本文檢測到的文本區(qū)域更加精確、更加貼合實際的文本邊界。綜上所述,可見文本檢測準確度的提高主要來源于更精確的定位輸出,即使用FPN結(jié)構(gòu)使得小文本得到一定程度檢測,而文本檢測召回率的提高主要來源于對字符掩膜的評分,正確的評分帶來更加準確的文本檢測。
圖13 消融實驗可視化結(jié)果
本文提出了嵌入重評分機制的自然場景文本檢測方法,一個用于自然場景文本檢測與識別的端到端網(wǎng)絡(luò)。它在復(fù)雜多變的背景下可以高效的檢測出文本并分割出字符。與近些提出的文本識別模型相比,本文模型訓(xùn)練簡單,識別速率快,且有能力檢測與識別自然場景中的不規(guī)則文本。在展開的實驗中,該模型在水平文本、多方向文本、不規(guī)則文本等數(shù)據(jù)集上都取得了優(yōu)異的表現(xiàn),提高了識別準確率的同時還大幅度降低了假陽性,在文本檢測和端到端識別方面展現(xiàn)出了高效率與魯棒性。在未來的工作中,將嘗試優(yōu)化該模型來提高文本檢測的速率以實現(xiàn)在現(xiàn)實生活中的應(yīng)用,其次,針對現(xiàn)階段該模型只能夠處理英文文本,探索中文文本的識別也是一項重要的工作。