饒珣 王加勝
摘要:地圖注記是地圖的核心內(nèi)容之一,地圖注記提取是計算機智能讀取掃描地圖信息的重要步驟。中文掃描地圖注記由于字符多樣、線條復雜、方向多變,給中文掃描地圖注記矢量化帶來了困難,目前少有研究。文章提出了一種基于深度學習的中文掃描地圖注記提取方法,分為注記特征提取和空間重建兩個部分。結(jié)果顯示,該方法能夠?qū)崿F(xiàn)地圖中文注記的檢測、識別和空間重建。
關(guān)鍵詞:地圖注記:深度學習:矢量化:特征提取
中圖分類號:TP399
文獻標志碼:A
0 引言
地圖是地理信息重要可視化表達方法,能夠提供地理對象和地點的有關(guān)情況的可視化信息[1]。地理信息系統(tǒng)( CJeographic Informacion SysLem.GIS)技術(shù)是近些年迅速發(fā)展起來的一門空間信息分析技術(shù),在資源與環(huán)境應(yīng)用領(lǐng)域中,發(fā)揮著技術(shù)先導的作用。地圖仍然是目前GIS的重要數(shù)據(jù)來源,同時又是GIS產(chǎn)品輸出的主要形式。
地圖符號是地圖的重要組成部分,不僅能傳達空間信息,還能傳達對象的內(nèi)在意義[2],而地圖注記是地圖符號主要形式之一。因此,地圖注記的特征提取是計算機智能讀取地圖信息的重要步驟,其主要對象是地圖上的注記信息,將地圖圖像上的注記從計算機無法直接獲取的圖像形式轉(zhuǎn)化為計算機可讀的文本形式[3],并獲取其主要特征。本文主要提取注記的3種特征:文本特征、空間特征和類別特征。文本特征即地圖注記所包含的文本信息:空間特征即注記在地圖上的坐標信息:類別特征即注記在地圖上所代表的類別信息。在提取到地圖注記的各種特征后,將這些特征融合投影到新的圖像上,即地圖注記的空間重建。地圖注記的特征提取與空間重建的結(jié)合能夠?qū)崿F(xiàn)地圖注記信息的智能獲取。而注記特征提取又是空間重建的重要信息來源,因此如何有效完成地圖注記特征提取的任務(wù),對于實現(xiàn)地圖信息智能獲取具有重要意義。
本文提出了一種基于3個深度學習網(wǎng)絡(luò)融合的中文掃描地圖注記提取方法。
1 研究方法
本文將地圖注記矢量化分為注記特征提取和空間重建兩個部分,注記特征提取又主要分為注記檢測、注記識別和注記分類3個部分,流程如圖l所示。注記檢測主要用來提取注記的空間特征:注記識別主要用來提取注記的文本特征:注記分類主要是提取注記的類別特征,又分為注記分離和注記分類兩個部分??臻g重建主要工作是融合提取到的注記特征,并將這些特征投影到新的圖像或者坐標系上。
1.1 數(shù)據(jù)
本文從《2002年云南省地圖集》掃描得到5張掃描地圖。掃描得到的地圖尺寸均為8 160x6 064像素,由于原始地圖尺寸過大,不利于模型訓練學習,對原始圖像隨機裁剪為1 024xl 024像素圖像,得到最終樣本集。
1.2 基于AdvancedEAST的注記檢測模型
AdvancedEAST是一種檢測簡潔、高效、準確,并能實現(xiàn)多角度的文本行檢測模型,它是一種基于EAST改進的文本檢測算法[4]。在EAST的基礎(chǔ)上對EAST的長文本檢測缺陷進行了改進,在EAST網(wǎng)絡(luò)框架的基礎(chǔ)上巧妙地設(shè)計了基于文本邊界框的損失函數(shù),將長文本檢測的問題轉(zhuǎn)換為檢測文本頭部和尾部邊界區(qū)的問題,使得其在長文本檢測得到的結(jié)果更為準確。
在模型結(jié)構(gòu)上面,AdvancedEAST與EAST差別不大,都是由特征提取、特征融合、輸出3部分組成。特征提取部分,AdvancedEAST采用vgg16'5],而EAST在論文中采用PVANet[4].AdvancedEAST利用在ImageNet數(shù)據(jù)集上預(yù)訓練的卷積網(wǎng)絡(luò)參數(shù)初始化,在VGG16的4個階段輸出作為特征融合階段的輸入,其大小分別為輸入圖像的1/4. 1/8. 1/16和1/32。特征融合部分,AdvancedEAST沿用EAST結(jié)構(gòu),使用多尺度特征融合的辦法解決目標檢測中的難題即多尺寸目標檢測。將不同感受野的feature map進行融合,可以補充不同尺寸目標信息來實現(xiàn)對不同尺寸物體的檢測。輸出部分,是AdvancedEAST最大的改動地方,為了解決Easc感受野的問題,AdvancedEasc不再用所有的點預(yù)測頂點,而是用頭部元素預(yù)測左上、左下點,尾部元素預(yù)測右上、右下點。也就是說vertex geo的輸出只對頭部和尾部元素有意義,且根據(jù)預(yù)測出的頭/尾元素進行加權(quán)平均得到4個頂點。
本文將進行過預(yù)處理的地圖圖像輸入到預(yù)先訓練好的基于AdvancedEAST的注記檢測模型中,得到包含注記框坐標信息的文件,即提取到的注記空間特征。為方便后續(xù)模型的訓練與輸入,根據(jù)注記檢測模型得到的結(jié)果,將每一個注記從原圖像中裁剪出來得到獨立的注記圖像。
1.3 基于CRNN注記識別模型
CRNN是一種卷積循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)[6],用于解決基于圖像的序列識別問題.CRNN網(wǎng)絡(luò)實現(xiàn)了不定長驗證結(jié)合CNN和RNN網(wǎng)絡(luò)結(jié)構(gòu),使用雙向LSTM循環(huán)網(wǎng)絡(luò)進行時序訓練,并在最后引入CTC Loss實現(xiàn)端對端的不定長序列識別。
CRNN網(wǎng)絡(luò)主要可分為3個部分:其一,CNN(卷積層),使用深度CNN,對輸入圖像提取特征,得到特征圖;其二,RNN(循環(huán)層),使用雙向RNN(這里用的是BLSTM)對特征序列進行預(yù)測,對序列中的每個特征向量進行學習,并輸出預(yù)測標簽(真實值)分布;其三.CTC loss(轉(zhuǎn)錄層).使用CTC損失,把從循環(huán)層獲取的一系列標簽分布轉(zhuǎn)換成最終的標簽序列。
根據(jù)實際需要,本文將得到的標簽序列與中文字符建立映射關(guān)系,即將標簽序列轉(zhuǎn)化為目標中文字符內(nèi)容。將獨立的注記圖像輸入到預(yù)先訓練好的基于CRNN注記識別模型,得到每個注記圖像的文本內(nèi)容,即注記文本特征。
1.4 基于UNet++和kmeans的注記分類模型
考慮到不同地圖之間的類別數(shù)量和劃分存在很多差異,選用聚類的方法進行注記分類工作,以此提高整個方法的泛化性。但是聚類的方法能夠使用的特征較少(對于圖像來說主要使用顏色特征),導致背景會干擾到聚類結(jié)果。對此,本文在對注記分類之前,先對注記進行分離,將包含注記的所有像素點分離出來,在進行注記分類時只對這些像素點進行操作,以此盡可能地減少地圖背景對于注記分類結(jié)果的影響。
1.4.1 基于UNet++的注記分離模型
UNel++繼承了UNet的結(jié)構(gòu),同時又借鑒了Dens的稠密連接方式[7]。UNet++通過各層之間的稠密連接,互相連接起來,就像DenseNel那樣,前前后后每一個模塊互相作用,每一個模塊都能看到彼此,那對彼此互相熟悉,分割效果自然就會變好。在實際分割中,一次次地下采樣自然會丟掉一些細節(jié)特征,但這種稠密連接的方式,每一層都盡量多地保存這種細節(jié)信息和全局信息,一層層之間架起橋梁互相溝通,最后共享給最后一層,實現(xiàn)全局信息和局部信息的保留和重構(gòu)。
本文將獨立的注記圖像輸入到預(yù)先訓練好的基于UNec++的注記分離模型中,得到分離后的注記圖像。
1.4.2 基于kmeans的注記分類模型
kmeans算法又名k均值算法,kmeans算法中的k表示的是聚類為k個簇.means代表取每一個聚類中數(shù)據(jù)值的均值作為該簇的中心,或者稱為質(zhì)心,即用每一個類的質(zhì)心對該簇進行描述。其算法思想大致為:先從樣本集中隨機選取k個樣本作為“簇中心”,并計算所有樣本與這k個“簇中心”的距離,對于每一個樣本,將其劃分到與其距離最近的“簇中心”所在的簇中,對于新的簇計算各個簇的新的“簇中心”。
本文將得到的分離后的注記圖像輸入到基于kmeans的注記分類模型中,并根據(jù)原始地圖注記類別設(shè)置簇數(shù)量,就可以將輸入的圖像劃分到其對應(yīng)的類別中,即得到注記的類別特征。至此,就能夠得到注記的空間特征、文本特征以及類別特征。最后對注記特征提取所提取的特征進行融合,并將其可視化,投影到新的圖像上,得到空間重建結(jié)果。
2 實驗結(jié)果與分析
使用所提出的基于深度學習的地圖注記矢量化方法,得到的結(jié)果如圖2、圖3所示。由圖2可以看出,注記檢測模型能夠有效地檢測出注記所在位置,只出現(xiàn)了少量漏檢的情況。整體上本文使用的注記識別模型能夠正確識別注記的文本信息,但在地圖注記與地圖線要素交匯重疊的地方會出現(xiàn)注記識別錯誤的情況。
由圖3可以看出,空間重建結(jié)果有效地還原了注記在原始掃描地圖上的特征,對于注記的文本特征和空間特征都得到了較為準確的還原,對于注記類別特征雖然沒有達到預(yù)期效果,但是也基本能夠完成任務(wù)。
3 結(jié)語
本文針對中文掃描地圖注記矢量化的問題,提出了一種基于深度學習的地圖注記矢量化方法,該方法能夠提取到掃描地圖上注記的文本特征、空間特征和類別特征,并將這些特征融合,進行可視化的空間重建,最終完成對中文掃描地圖注記的矢量化。
參考文獻
[1]王光霞,游雄,於建峰,等.地圖設(shè)計與編繪(第二版)[M].北京:測繪出版社.2014.
[2]翁敏,黃謙,蘇世亮,等.基于皮爾斯符號三元觀的專題地圖符號設(shè)計[J].測繪地理信息,2021(1):44-47.
[3] PEZESHK A. TUTWILER R L.Extended charac-.terdefect model for recognition of text from maps[Cl.Austin: 2010 IEEE Southwest Symposium on ImageAnahsis&Inlerpretation( SSIAI) ,2010.
[4]ZHOU X Y, YAO C. WEN H, et al. EAST: AnEfficient and Accurate Scene Text Detector[ Jl. 30thIeee Conference on Computer Vision and PaUernRecognition ( CVPR 2017) , 2017: 2642-51.
[5lSIMONYAN K, ZISSERMAN A. Very deepconvolutional networks for large-scale image recognition[ C] . San Diego: International Conference on LearningRepresentations ( ICLR) .2015.
[6lSHI B, XIAN(; B, CON(; Y. An end - to -endtrainable neural network for image - based sequencerecognition and its application to scene text recognition[J] . IEEE Transactions on PaUern Analysis & MachineIntelligem-.e, 2016 ( 11) : 2298-304.
[7lZHOU Z, SIDDIQUEE M, TAJBAKHSH N, et al.UNet + +: redesigning skip connec-.rions to exploitmuhiscale features in image segmentation [ Jl IEEETransactions on Medical Imaging, 2020( 6) : 1856-67.
(編輯沈強 )