施漪涵, 仝明磊
(上海電力大學(xué) 電子與信息工程學(xué)院, 上海 200090)
文字作為人類交流思想、傳承文化的重要媒介,從古至今一直發(fā)揮著重要的作用。利用文字所包含的高級語義,可以更有效地利用場景信息,提高文字檢測的精度。
現(xiàn)有的文字檢測方式主要分為3類:傳統(tǒng)區(qū)域建議方法、基于目標檢測方法以及基于圖像分割檢測方法[1]。傳統(tǒng)區(qū)域建議方法包括滑動窗口方法和連通域方法,在環(huán)境背景復(fù)雜和噪聲污染的情況下,效果較差。因此,相關(guān)學(xué)者將深度學(xué)習(xí)引入文字檢測領(lǐng)域,利用大量的數(shù)據(jù)進行學(xué)習(xí)訓(xùn)練,并通過不斷迭代和調(diào)整權(quán)重,提取更多有用的特征[2]?;谀繕藱z測方法的主要思路是將文字區(qū)域作為一項特殊的目標檢測,一般先在圖像上提取多個候選區(qū)域,然后再通過分類器對候選區(qū)域進行分類篩選,最后再對其進行精修。通常在提取多個候選區(qū)域時較為耗時?;谀繕藱z測的方法,在Faster R-CNN[3-4]后,SSD[5]和YOLO[6]等網(wǎng)絡(luò)結(jié)構(gòu)被相繼提出?;趫D像分割檢測方法通常利用卷積神經(jīng)網(wǎng)絡(luò)提取圖像中的特征,再對圖像進行像素級的文字/背景的標注,能較好地檢測傾斜文字及不規(guī)則文字,且避免受文字區(qū)域框長寬比變化的影響。ZHANG Z等人[7]將文字區(qū)域作為一個特殊的分割目標,首次提出利用全卷積網(wǎng)絡(luò)從像素層面對圖像進行處理,而后PixelLink[8],Inceptext[9],PSENet(Progressive Scale Expansion Network)[10]等基于實例分割的網(wǎng)絡(luò)結(jié)構(gòu)被相繼提出。
為了進一步優(yōu)化文字檢測領(lǐng)域的算法和網(wǎng)絡(luò),本文主要在學(xué)習(xí)PSENet網(wǎng)絡(luò)的基礎(chǔ)上,進一步優(yōu)化評判指標,將改進后的PSENet對自然場景中的文字進行檢測,通過標準文字數(shù)據(jù)集的實現(xiàn)對比進行結(jié)果分析,證明此算法的可行性。
在文字的特征提取過程中,低層網(wǎng)絡(luò)往往帶有較多對文字檢測有用的邊角位置信息,而高層網(wǎng)絡(luò)經(jīng)過了多層的卷積層后富含豐富的語義信息[11]。
FPN(Feature Pyramid Networks)融合算法由LIN T Y等人[12]提出后,得到了廣泛應(yīng)用,主要解決物體檢測中的多尺度問題,通過對簡單網(wǎng)絡(luò)的連接改變,在小幅增加原有模型計算量的情況下,大幅度提升了對小物體的特征檢測能力。其網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。
圖1 FPN網(wǎng)絡(luò)結(jié)構(gòu)
FPN網(wǎng)絡(luò)主要分為3個部分:自底向上的路徑、自頂向下的路徑以及中間的連接部分。第1部分網(wǎng)絡(luò)選用Resnet50中每個階段的最后一個殘差網(wǎng)絡(luò)輸出的特征,并將其表示為C2,C3,C4,C5;第2部分通過對包含最豐富語義信息的特征層進行上采樣來獲得更加具有高分辨率的特征,再通過側(cè)向連接自底向上的結(jié)構(gòu),使每個特征層的空間位置信息得到加強,加強融合特征表示為P2,P3,P4,P5;第3部分為減少上采樣的混疊響應(yīng),對每層輸出特征附加一個3×3卷積來生成最后的特征映射。
LI X等人[10]在PSENet網(wǎng)絡(luò)中使用的特征提取網(wǎng)絡(luò)為FPN融合算法。
本文對原始的特征融合網(wǎng)絡(luò)進行改進,利用在語義分割領(lǐng)域中效果較好的RefineNet[13]融合算法提高對圖片中特征的提取精度,以此提高后續(xù)操作對文字區(qū)域的分割和定位。RefineNet網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。
RefineNet網(wǎng)絡(luò)的一個特點是其使用了較多殘差連接,從而使網(wǎng)絡(luò)內(nèi)部形成了短程連接的同時,還與ResNet殘差模塊中的特征層形成了遠程連接,不僅提高了訓(xùn)練能力,還讓梯度能夠有效地進行短距離和長距離的殘差網(wǎng)絡(luò)傳播,實現(xiàn)有效的端到端訓(xùn)練。
圖2 RefineNet網(wǎng)絡(luò)結(jié)構(gòu)
RefineNet網(wǎng)絡(luò)選用ResNet50中的2~5層網(wǎng)絡(luò)特征圖作為輸入層,Pool5作為第1層輸入,目的是為了調(diào)整預(yù)訓(xùn)練網(wǎng)絡(luò)Resnet50中的第5層特征圖的權(quán)重,而后將Pool5經(jīng)過一次RefineNet網(wǎng)絡(luò)后的輸出與Pool4的輸入相加后,再經(jīng)過一次RefineNet融合,目的是為了使用具有高分辨的特征改善上一次輸入的低分辨率特征,同樣地,將剩余的Pool3和Pool2進行相同的操作。這樣通過RefineNet的層層融合后,得到精調(diào)特征圖。
RefineNet網(wǎng)絡(luò)主要分為3個部分:RCU(Residual Conv Unit),CR Pooling(Chained Residual Pooling),MRF(Multi-resolution Fusion)。RCU中包含兩次激活函數(shù)及兩次3×3卷積操作,主要目的是為了修整經(jīng)過預(yù)訓(xùn)練的ResNet的權(quán)重,每一個輸入層都將連續(xù)經(jīng)過2次RCU。在MRF操作過程中,每個輸入層經(jīng)過3×3卷積層以及上采樣操作后進行加和融合。CR Pooling模塊包含殘差結(jié)構(gòu)、池化層和卷積層,主要目的是為了針對較大的圖像區(qū)域提取上下文的背景信息。最后,再經(jīng)過一個RCU模塊,以平衡所有的權(quán)重,從而得到與輸入分辨率一致的分割結(jié)果。
實驗設(shè)備為配置TITANXPascal的Ubuntu16.04系統(tǒng),內(nèi)存12 G,訓(xùn)練與測試軟件平臺選用TensorFlow。為了驗證本文所提改進算法的有效性,采用公共數(shù)據(jù)集ICDAR2015。該數(shù)據(jù)集是ICDAR魯棒性閱讀比賽的官方數(shù)據(jù)集,包含1 000張訓(xùn)練圖片及500張測試圖片,圖片主要側(cè)重于自然場景中的傾斜文字,在場景文字區(qū)域檢測領(lǐng)域中較為流行,因此本文測試結(jié)果具有較強的參考意義。
在機器學(xué)習(xí)中,通常會有該領(lǐng)域相對應(yīng)的評價指標來評判一個模型的好壞,在文字檢測領(lǐng)域中,通常使用準確率、召回率和F_score作為評價指標[14]。
準確率是針對于預(yù)測結(jié)果而言的,表示預(yù)測為正的樣本中有多少是真正的正樣本。其定義為
(1)
式中:pT——正確判斷的正像素;
pF——錯誤判斷的正像素。
召回率是指可以與預(yù)測框匹配的真值框占所有真值框的比例,是針對于原來的樣本而言的,表示樣本中的正例有多少被正確預(yù)測了。其定義為
(2)
式中:nF——錯誤判斷的負像素。
F-score是兩者的綜合評判,該指標越高,則網(wǎng)絡(luò)模型越穩(wěn)定。其定義為
(3)
在相同的實驗環(huán)境和實驗平臺下,在同一種數(shù)據(jù)集上進行訓(xùn)練和測試。均僅采用ResNet50殘差網(wǎng)絡(luò)作為預(yù)訓(xùn)練模型,訓(xùn)練相同數(shù)量迭代次數(shù),對ICDAR2015數(shù)據(jù)集中的1 000張圖片進行訓(xùn)練,通過控制其他變量,僅改進特征融合部分。具體實驗數(shù)據(jù)如表1所示。
表1 PSENet網(wǎng)絡(luò)改進前后實驗數(shù)據(jù)對比單位:%
實驗結(jié)果表明,本文使用RefineNet融合算法相較于原PSENet網(wǎng)絡(luò)中的FPN融合算法,評價指標均有所提升。本文改進的模型,在準確率和召回率上提升7%和5%,綜合指標F-score提升7%。
通過生成測試圖片的預(yù)測效果圖,可以進一步對比兩種算法得到的實驗結(jié)果,更加直觀地看出改進后算法的有效性。具體如圖3和圖4所示。圖3的中央與右側(cè)區(qū)域,使用RefineNet融合算法得到的文字區(qū)域更為準確,能將較小區(qū)域中的單詞分別識別,檢測準確度較高。圖4中,第2行文字末端由于文字區(qū)域較傾斜,單詞間隙較小,產(chǎn)生粘連情況,使用RefineNet融合算法得到的文字區(qū)域能更好地解決文字粘連問題。
改進前使用FPN融合算法雖然也能較為準確地標記出圖片中的文字區(qū)域,但使用RefineNet融合算法對PSENet網(wǎng)絡(luò)進行改進,優(yōu)化特征提取網(wǎng)絡(luò),可以使自然場景下較小的文字區(qū)域得到正確識別,因此本文提出的算法有效可行。
圖3 測試圖1
圖4 測試圖2
針對自然場景下的文字區(qū)域檢測問題,本文提出改進PSENet網(wǎng)絡(luò)的RefineNet融合算法,將自然場景下拍攝的圖片作為輸入,通過對原PSENet網(wǎng)絡(luò)中特征提取部分FPN融合算法進行改進,優(yōu)化對文字區(qū)域的檢測能力。實驗結(jié)果證明,本文提出的算法有效可行。
但該算法仍有改進空間,后續(xù)將通過進一步優(yōu)化損失函數(shù),以及對文字區(qū)域進行尺度分類等方式,提高PSENet網(wǎng)絡(luò)對文字區(qū)域的檢測能力。