蘇桂昌,張瑞坤,劉祥鵬
(青島科技大學(xué) 數(shù)理學(xué)院,山東 青島 266061)
電離層垂測(cè)數(shù)據(jù)是各觀測(cè)站點(diǎn)通過(guò)垂直探測(cè)技術(shù)觀測(cè)的電離層物理特性參數(shù),對(duì)衛(wèi)星導(dǎo)航、通信、雷達(dá)定位等[1-2]諸多無(wú)線電信息系統(tǒng)有重要影響。目前,中國(guó)電波傳播研究所留存了自上世紀(jì)40年代以來(lái)國(guó)內(nèi)外諸多觀測(cè)站點(diǎn)的電離層垂測(cè)數(shù)據(jù),分為印刷體、手寫體、針式打印字體等。這些資料現(xiàn)已經(jīng)實(shí)現(xiàn)了紙質(zhì)數(shù)據(jù)的電子化掃描,但如何提取掃描圖片中的數(shù)據(jù)來(lái)保護(hù)這一戰(zhàn)略性資源是一項(xiàng)迫在眉睫的工作,這對(duì)電磁環(huán)境大數(shù)據(jù)前端數(shù)據(jù)提取與挖掘分析有重要的支撐作用。傳統(tǒng)的數(shù)據(jù)提取方式需要人工逐一輸入,而通過(guò)研究相關(guān)算法自動(dòng)識(shí)別提取這些垂測(cè)數(shù)據(jù)可以極大減輕工作量,提高數(shù)據(jù)錄入效率。該類型的算法研究屬于計(jì)算機(jī)文字識(shí)別領(lǐng)域,即光學(xué)字符識(shí)別[3](optical character recognition,OCR),是計(jì)算機(jī)視覺的重要研究方向之一。近年來(lái),深度學(xué)習(xí)的研究推動(dòng)了OCR 技術(shù)的發(fā)展,在自然場(chǎng)景文本識(shí)別、交通物流、卡證表格識(shí)別等[4]多個(gè)領(lǐng)域都有了成功應(yīng)用。
基于深度學(xué)習(xí)的OCR 技術(shù)本質(zhì)上是圖像識(shí)別,其包含文本檢測(cè)和文本識(shí)別兩大關(guān)鍵技術(shù)。在文本檢測(cè)方面,SHI等[5]在檢測(cè)到圖像中的最大穩(wěn)定極值區(qū)域(MSER)后,通過(guò)最大流/最小割算法將MSER 標(biāo)記為文本區(qū)域或非文本區(qū)域,實(shí)現(xiàn)文本檢測(cè)。TIAN 等[6]提出CTPN 算法,將文本檢測(cè)任務(wù)轉(zhuǎn)化為一連串小尺度文本框的檢測(cè)。TANG 等[7]提出的SegLink++算法在檢測(cè)小矩形區(qū)域的同時(shí),將同屬于一個(gè)文本區(qū)域的矩形相連,完成若干矩形區(qū)域的合并。BAEK 等[8]將文本實(shí)例劃分為若干個(gè)字符實(shí)例使用語(yǔ)義分割的框架來(lái)預(yù)測(cè)各個(gè)字符的位置以及相鄰置信度。ZHOU 等[9]提出的EAST 算法加入了對(duì)傾斜文本的建模,可靈活生成字符級(jí)或文本行的預(yù)測(cè)。LIAO 等[10]提出的DB算法則在后處理部分設(shè)定自適應(yīng)閾值得到二值化的分割圖。文本識(shí)別方面,WOJNA 等[11]提出了一種基于注意力的文本識(shí)別架構(gòu),能夠在識(shí)別過(guò)程中更加關(guān)注重要的圖像區(qū)域,提高識(shí)別準(zhǔn)確率。SHI等[12]提出CRNN 算法,將文本識(shí)別轉(zhuǎn)化成語(yǔ)音識(shí)別問題來(lái)處理。CHENG 等[13]采用ResNet網(wǎng)絡(luò)豐富場(chǎng)景文本圖像的深度表達(dá),解決了復(fù)雜圖像中特征區(qū)域和目標(biāo)之間無(wú)法精確對(duì)齊的問題。LUO 等[14]提出了一種用于場(chǎng)景文本識(shí)別的多目標(biāo)校正注意網(wǎng)絡(luò)MORAN,可以校正含有不規(guī)則文本的圖像,降低識(shí)別難度。YU 等[15]提出了基于語(yǔ)義推理網(wǎng)絡(luò)的場(chǎng)景文本識(shí)別框架,通過(guò)多路并行捕獲全局語(yǔ)義上下文。上述學(xué)者就文本檢測(cè)與識(shí)別提出的各類算法,應(yīng)用時(shí)還需根據(jù)實(shí)際業(yè)務(wù)背景進(jìn)行相應(yīng)的調(diào)整改進(jìn)。
本工作主要針對(duì)電離層垂測(cè)數(shù)據(jù)中的針式打印字體這一類型掃描圖片,提出了一種基于卷積循環(huán)神經(jīng)網(wǎng)絡(luò)(convolutional recurrent neural network,CRNN)深度學(xué)習(xí)框架的OCR 數(shù)據(jù)自動(dòng)提取技術(shù),顯著提高了識(shí)別準(zhǔn)確率。根據(jù)針式打印字體電離層垂測(cè)數(shù)據(jù)掃描圖片各類型特點(diǎn)以及檢測(cè)識(shí)別上的困難,設(shè)計(jì)圖像預(yù)處理的方法,有效提取文本區(qū)域,同時(shí)在投影分割中加入檢測(cè)候選框修正功能提高檢測(cè)精度,另外利用坐標(biāo)融合算法實(shí)現(xiàn)識(shí)別結(jié)果的標(biāo)準(zhǔn)化存儲(chǔ)。最后,將本工作所提方法與主流算法進(jìn)行了對(duì)比分析。
針式打印字體電離層垂測(cè)數(shù)據(jù)掃描圖片(以下簡(jiǎn)稱針式打印圖片,如圖1所示)包含表頭、觀測(cè)站點(diǎn)信息、觀測(cè)類型信息、文本區(qū)域、表格、電子濃度軌跡等內(nèi)容,其中,圖片內(nèi)的兩部分文本區(qū)域主要記錄的是電離層觀測(cè)的地球電離層的密度、高度、溫度等信息等數(shù)據(jù)信息,具有較高的研究和應(yīng)用價(jià)值,是本文自動(dòng)提取的重點(diǎn)。根據(jù)文本區(qū)域的行間距,可以將針式打印圖片分為3種類型:a)文本行與行之間有一定間距(行間距約20個(gè)像素點(diǎn));b)文本行與行之間間距較小(行間距約5個(gè)像素點(diǎn));c)文本行與行之間發(fā)生粘連(行間距約1個(gè)像素點(diǎn)或者直接相連)。
圖1 針式打印圖片數(shù)據(jù)類型Fig.1 Pin print picture data type
經(jīng)觀察分析,3種類型的針式打印圖片在自動(dòng)提取上存在如下困難,如:1)如何在圖片中定位需要提取的區(qū)域;2)行間距的減小,甚至粘連增加了文本檢測(cè)難度;3)3種類型的圖片字體存在區(qū)別,非統(tǒng)一字體,另外字體的像素偏低、字符像素不連通、字符組長(zhǎng)短各異、有獨(dú)立小字符等問題,也對(duì)文本識(shí)別造成影響,增加了識(shí)別的難度;4)還有像圖片的粉紅色底紋背景,拍攝光線、污漬、墨跡等外部干擾對(duì)自動(dòng)提取工作也帶來(lái)了一些困難。
針式打印字體電離層垂測(cè)數(shù)據(jù)掃描圖片自動(dòng)提取技術(shù)研究方案主要包括圖像預(yù)處理、文本檢測(cè)、序列文本識(shí)別和識(shí)別結(jié)果版面處理4個(gè)模塊,其流程圖如圖2所示,其中模板匹配、基于投影法的文本檢測(cè)、序列文本識(shí)別以及版面的處理是OCR 識(shí)別的關(guān)鍵。
圖2 針式打印圖片數(shù)據(jù)自動(dòng)提取流程圖Fig.2 Needle print picture data automatic extraction flow chart
鑒于上述針式打印圖片存在的客觀問題,在自動(dòng)提取前需要進(jìn)行圖像預(yù)處理,其預(yù)處理流程如圖3所示,首先采用圖像模板匹配的方法,將圖片中的兩部分目標(biāo)文本區(qū)域分別提取出來(lái),然后對(duì)目標(biāo)文本區(qū)域進(jìn)行降噪處理,以減少粉紅色底紋背景和噪聲點(diǎn)對(duì)提取的干擾。最后,計(jì)算處理后圖片的傾斜角度,實(shí)現(xiàn)目標(biāo)文本區(qū)域的傾斜矯正,以方便后續(xù)的檢測(cè)、識(shí)別、可視化標(biāo)記和存儲(chǔ)。
圖3 圖像預(yù)處理流程圖Fig.3 Image preprocessing flow chart
2.1.1 圖像模板匹配
由圖1可知,針式打印圖片的圖像尺寸較大,需要提取的文本區(qū)域沒有明顯特征標(biāo)記,且3種類型圖片面積各不相同,提取的文本區(qū)域大小不一,本工作采用圖像模板匹配的方法來(lái)檢測(cè)提取圖像中的文本區(qū)域。
模板匹配[16]是指通過(guò)模板圖像與待檢測(cè)圖像之間的比較,計(jì)算模板圖像與待檢測(cè)圖像中目標(biāo)的相似度,以找到待檢測(cè)圖像上與模板圖像相似的部分,具體步驟如下:
步驟1確定模板圖像。
通過(guò)比對(duì)3種類型的針式打印圖片,發(fā)現(xiàn)圖像中文本區(qū)域和下方的圖像區(qū)域均以數(shù)據(jù)類型注釋和數(shù)據(jù)單位作為起始位置,文本區(qū)域和圖像區(qū)域的分割線作為文本區(qū)域的結(jié)束位置,將這4部分圖像確定為模板圖像,選擇模板圖像定義為T,其寬度均為M,高度用Ni表示,i=1,2,3,4。
步驟2限制模板圖像尺寸。
由于3種類型針式打印圖片的尺寸,尤其是寬度差異較大,為避免模板圖像的寬度超過(guò)待檢測(cè)圖像,而導(dǎo)致無(wú)法匹配,需在匹配之前增加限制模板圖像尺寸的操作。
其中,m表示待檢測(cè)圖像的寬度。
步驟3計(jì)算相似度。
使用歸一化相關(guān)系數(shù)匹配法評(píng)估模板圖像(T)與待檢測(cè)圖像(I)中重疊部分的相似程度。將待檢測(cè)圖像從左上角開始按照模板圖像尺寸逐像素滑動(dòng),計(jì)算兩者之間的相關(guān)系數(shù),得到相關(guān)系數(shù)結(jié)果矩陣R。
在相關(guān)系數(shù)計(jì)算公式中,T'(i',j')和I'(i+i',j+j')的計(jì)算公式如下:
其中,0<i≤m-M+1,0<j≤n-N+1,0<i',i″≤M,0<j',j″≤N。
步驟4查找最佳匹配位置。
計(jì)算結(jié)束后,相關(guān)系數(shù)結(jié)果矩陣中最大值的位置即為最佳匹配位置,是待檢測(cè)圖像中與模板圖像相似度最高的位置,在待檢測(cè)圖像中兩部分模板圖像中間的區(qū)域即為所要提取的文本區(qū)域。圖像匹配結(jié)果如圖4所示。
圖4 圖像匹配示意圖Fig.4 Image matching diagram
2.1.2 降噪處理
因?yàn)樵技堎|(zhì)數(shù)據(jù)報(bào)表因存儲(chǔ)原因,存在豎紋、褶皺、蟲咬、墨跡模糊等問題,同時(shí)在掃描成圖片時(shí)受到光線等外界因素干擾,3種類型圖片都包含某種程度的噪聲,除此之外,粉紅色底紋背景擁有較多的椒鹽噪聲,這些都會(huì)給后續(xù)文本識(shí)別造成干擾。本文首先采用均值濾波技術(shù)進(jìn)行噪聲抑制或者去除,通過(guò)選擇3×3的卷積核,重新計(jì)算卷積核區(qū)域內(nèi)(i,j)位置的像素平均值pi,j。
然后采用加權(quán)平均法對(duì)濾波處理后的圖像進(jìn)行灰度化,將三通道的彩色圖像變?yōu)橐粋€(gè)通道的灰度圖像;再采用二值化算法將灰度圖像轉(zhuǎn)換成二值圖像。最后,使用圖像形態(tài)學(xué)腐蝕算法,進(jìn)一步消除噪聲點(diǎn),同時(shí)突出圖像中文本區(qū)域的邊界信息,為后續(xù)圖像的傾斜矯正做好準(zhǔn)備,處理效果如圖5所示。
圖5 降噪處理效果圖Fig.5 Noise reduction processing effect picture
2.1.3 傾斜矯正
因原始紙質(zhì)數(shù)據(jù)報(bào)表在電子掃描過(guò)程中難免出現(xiàn)傾斜,影響后續(xù)文本識(shí)別,以及結(jié)果可視化標(biāo)記和存儲(chǔ),因此需要對(duì)降噪處理后的圖片進(jìn)行傾斜矯正。由于模板匹配得到的文本區(qū)域目標(biāo)圖像內(nèi)沒有輔助標(biāo)志,區(qū)域外部也沒有邊框,缺乏矯正標(biāo)志,因此首先需要構(gòu)造與文本區(qū)域平行的橫向直線。
步驟1構(gòu)造標(biāo)志橫向直線。
在降噪處理階段,已經(jīng)通過(guò)圖像腐蝕操作突出了文本區(qū)域的邊界信息,而區(qū)域內(nèi)的字符以行形式排列,通過(guò)圖像邊緣輪廓檢測(cè)算法,可以找到圖像中文本行的矩形輪廓,以此作為標(biāo)志橫線運(yùn)用霍夫變換[17]進(jìn)行直線檢測(cè),從而判斷其傾斜角度。
步驟2計(jì)算傾斜角度。
在對(duì)匹配得到的目標(biāo)區(qū)域進(jìn)行形態(tài)學(xué)處理后,選擇文本輪廓直線作為檢測(cè)目標(biāo),記為L(zhǎng),以圖像左上角端點(diǎn)作為原點(diǎn)建立直角坐標(biāo)系,L任意一點(diǎn)的坐標(biāo)記為(xi,yi),i∈(1,2,…,l),l表示點(diǎn)的數(shù)量。原點(diǎn)到L的垂直距離記為ρ,垂線與X軸夾角記為θ,則直線L的極坐標(biāo)參數(shù)形式可表示為
為了過(guò)濾可能存在干擾的污點(diǎn)或者短直線,定義累加器S(ρ,θ),擁有相同參數(shù)(ρ,θ)的點(diǎn)通過(guò)S(ρ,θ)進(jìn)行累加,選擇S(ρ,θ)中最大值對(duì)應(yīng)的直線,可計(jì)算出直線傾斜角度α,
步驟3計(jì)算仿射變換矩陣。
得到傾斜角度α后,選擇圖像中心點(diǎn)作為旋轉(zhuǎn)中心,計(jì)算仿射變換矩陣M:
原始圖像旋轉(zhuǎn)之后,新圖像的尺寸會(huì)發(fā)生變化,同時(shí),圖像中心點(diǎn)發(fā)生了變化,可能會(huì)導(dǎo)致丟失部分圖像信息,因此需要計(jì)算圖像中心位置偏移量(Δx,Δy),以便對(duì)旋轉(zhuǎn)之后的圖像進(jìn)行平移操作。
利用圖像中心位置偏移量(Δx,Δy),重新計(jì)算仿射變換矩陣M':
步驟4旋轉(zhuǎn)矯正圖像。
利用式(10)變換矩陣M',對(duì)原始圖像中的點(diǎn)進(jìn)行仿射變換,求得旋轉(zhuǎn)之后的坐標(biāo)為
其中,(u,v)表示原始圖像中點(diǎn)(x,y)經(jīng)過(guò)仿射變換后得到的新坐標(biāo)。傾斜矯正結(jié)果如圖6所示,紅框區(qū)域即為矯正部分。
2.2.1 基于投影法的文本檢測(cè)
經(jīng)圖像預(yù)處理后的針式打印圖片便可進(jìn)行文本檢測(cè)操作,但因?qū)嶋H掃描的圖片中存在一些相鄰行之間出現(xiàn)粘連的現(xiàn)象,如圖1(c)所示,這樣無(wú)法有效實(shí)現(xiàn)整體文本檢測(cè),因此需要將檢測(cè)識(shí)別的文本區(qū)域進(jìn)行圖像分割。
由于文本區(qū)域的字符是以文本行的形式排列的,在經(jīng)過(guò)圖像預(yù)處理后,排版相對(duì)工整,因此本文采用投影法來(lái)實(shí)現(xiàn)圖像文本分割,通過(guò)對(duì)文本區(qū)域分別作橫向投影和縱向投影的方式,在水平方向和垂直方向上統(tǒng)計(jì)圖像內(nèi)的像素點(diǎn),根據(jù)統(tǒng)計(jì)結(jié)果判斷文本邊界,從而實(shí)現(xiàn)文本分割。具體實(shí)現(xiàn)過(guò)程如下:
步驟1垂直投影。
為避免數(shù)組被拆分,保持?jǐn)?shù)組完整性,對(duì)二值化處理后的圖像采用膨脹、腐蝕等形態(tài)學(xué)操作,然后對(duì)文本區(qū)域圖像進(jìn)行垂直投影,投影圖像的像素集中區(qū)域就是字符區(qū)域,統(tǒng)計(jì)投影圖像中的像素信息,根據(jù)像素點(diǎn)的峰值確定相鄰列文本之間分割位置(橫坐標(biāo)),設(shè)置閾值tx,當(dāng)像素峰值f(i)<tx時(shí),即可定位每一列文本中數(shù)組的橫坐標(biāo),實(shí)現(xiàn)文本區(qū)域的縱向分割,得到列文本。
步驟2水平投影。
對(duì)分割出來(lái)的列文本,采用閉運(yùn)算操作盡可能放大文本行之間的空隙,然后進(jìn)行水平投影,統(tǒng)計(jì)投影圖像中的像素信息,根據(jù)像素點(diǎn)的峰值確定相鄰行文本之間分割位置(縱坐標(biāo)),設(shè)置閾值ty,當(dāng)像素值f(j)<ty時(shí),即可定位每一行文本中數(shù)組的縱坐標(biāo),以字符組的形式為切割標(biāo)準(zhǔn),實(shí)現(xiàn)文本區(qū)域的橫向分割。
步驟3文本檢測(cè)候選框修正。
實(shí)際測(cè)試中,雖然經(jīng)過(guò)投影操作,基本實(shí)現(xiàn)了圖片中字符組的分割,但仍有部分粘連的文本區(qū)域未正確分割,因此可以通過(guò)圖像形態(tài)學(xué)處理、調(diào)整投影閾值等進(jìn)行優(yōu)化修正。修正流程為:首先,統(tǒng)計(jì)所有候選檢測(cè)框的尺寸,篩選出異常檢測(cè)框,然后增大投影操作中的閾值tx,ty,重復(fù)上述步驟1-步驟3的步驟。
同時(shí),統(tǒng)計(jì)正常檢測(cè)框的高度,取其平均值作為標(biāo)準(zhǔn)值,若修正后仍然存在異常檢測(cè)框,則按此標(biāo)準(zhǔn)值強(qiáng)制限制異常檢測(cè)框高度,對(duì)粘連的文本區(qū)域進(jìn)行分割。
通過(guò)上述方法流程,如圖7所示,可以獲得文本區(qū)域內(nèi)每一組字符的具體位置,以實(shí)現(xiàn)文本檢測(cè)。
圖7 投影分割文本檢測(cè)流程圖Fig.7 Projected split text detection flow chart
2.2.2 基于卷積循環(huán)神經(jīng)網(wǎng)絡(luò)(CRNN)的文本識(shí)別
因?yàn)榉指詈蟮尼樖酱蛴D片的字符數(shù)據(jù)長(zhǎng)度不一致,本文采用卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)加循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)的聯(lián)合深度學(xué)習(xí)框架,即卷積循環(huán)神經(jīng)網(wǎng)絡(luò)CRNN,這樣可以將分割后的文本識(shí)別問題轉(zhuǎn)化為序列學(xué)習(xí)問題。與傳統(tǒng)的CNN 神經(jīng)網(wǎng)絡(luò)模型相比,CRNN 可以實(shí)現(xiàn)對(duì)不定長(zhǎng)文本序列的識(shí)別,不用先對(duì)單個(gè)文字進(jìn)行切割標(biāo)注,并且對(duì)于序列對(duì)象的長(zhǎng)度無(wú)約束,只需要在訓(xùn)練階段和測(cè)試階段對(duì)高度進(jìn)行歸一化,適合解決圖像的序列識(shí)別問題,從而完成端到端的文字識(shí)別。
CRNN 網(wǎng)絡(luò)結(jié)構(gòu)如圖8 所示,包括卷積層,循環(huán)層和轉(zhuǎn)錄層三部分,各部分采取的架構(gòu)分別是卷積神經(jīng)網(wǎng)絡(luò)、雙向長(zhǎng)短期記憶網(wǎng)絡(luò)(bi-directional long short-term memory,BiLSTM)和連接機(jī)制時(shí)間分類(connectionist temporal classification,CTC)。
圖8 CRNN模型流程圖Fig.8 CRNN model flow chart
1) 卷積層。
該部分的作用是從輸入圖像中獲得特征圖序列,它通過(guò)對(duì)文本檢測(cè)后的針式打印圖片進(jìn)行7次卷積,4次最大池化操作,提取圖像的特征圖,因?yàn)樘卣鲌D中每個(gè)向量表示圖像上一定寬度的特征,按照從左到右的順序描述輸入圖像的局部區(qū)域,進(jìn)而轉(zhuǎn)化成特征序列作為循環(huán)層的輸入。
2) 循環(huán)層。
該部分的作用是利用BiLSTM 預(yù)測(cè)從卷積層獲取的特征序列的標(biāo)簽概率分布,作為后面轉(zhuǎn)錄層的輸入。這里使用BiLSTM 來(lái)代替?zhèn)鹘y(tǒng)的RNN(Recurrent Neural Network,循環(huán)神經(jīng)網(wǎng)絡(luò)),是因?yàn)樗鳛镽NN 的一種變體,相比于RNN 網(wǎng)絡(luò),可以防止訓(xùn)練時(shí)的梯度消失現(xiàn)象,同時(shí)增加網(wǎng)絡(luò)層數(shù)可以有效的提升識(shí)別準(zhǔn)確率。將文本識(shí)別問題轉(zhuǎn)化為序列學(xué)習(xí)問題,對(duì)圖像進(jìn)行文本序列識(shí)別,避免了CNN 等傳統(tǒng)算法中難度較高的字符切分和識(shí)別過(guò)程。另外文本區(qū)域的數(shù)組長(zhǎng)度不同并且某些電離層數(shù)據(jù)既和之前的信息有關(guān),也和后面的信息有關(guān),而BiLSTM 具有記憶性,能夠獲取上下文信息,為不定長(zhǎng)的數(shù)據(jù)提供有效建模能力,可以處理可變長(zhǎng)度的序列數(shù)據(jù)。
3) 轉(zhuǎn)錄層。
該部分的作用是利用CTC 將循環(huán)層得到的預(yù)測(cè)概率分布轉(zhuǎn)換成標(biāo)記序列,它實(shí)際上是模型的損失函數(shù),通過(guò)最小化損失函數(shù),訓(xùn)練由CNN 和BiLSTM 組成的網(wǎng)絡(luò)。輸入的針式打印圖片由于字符間隔、圖像變形等問題,可能會(huì)導(dǎo)致字符被重復(fù)識(shí)別多次,經(jīng)過(guò)卷積層和循環(huán)層得到的字符會(huì)大于實(shí)際的字符數(shù),而CTC的空白機(jī)制使用“-”符號(hào)將重復(fù)的字符分隔開,可以將循環(huán)層得到的概率分布進(jìn)行整合,去除空格和重復(fù),從而得到最終的識(shí)別結(jié)果。
實(shí)際工作中,檢測(cè)識(shí)別后的數(shù)據(jù)需按照垂測(cè)數(shù)據(jù)報(bào)表的標(biāo)準(zhǔn)格式存儲(chǔ),因?yàn)楸4娉蓸?biāo)準(zhǔn)化格式不僅可以更好的保護(hù)數(shù)據(jù)資料安全,而且將其存入歷史數(shù)據(jù)庫(kù)中對(duì)完善電波環(huán)境歷史數(shù)據(jù)以及后期的數(shù)字化管理和數(shù)據(jù)挖掘奠定重要基礎(chǔ),能更好發(fā)揮歷史觀測(cè)數(shù)據(jù)的科研價(jià)值。
針對(duì)本研究的針式打印圖片的特點(diǎn),雖然文本區(qū)域沒有表格線,但是字符文本呈現(xiàn)有規(guī)律的表格結(jié)構(gòu)排列,采用坐標(biāo)融合的方法完成整個(gè)版面的識(shí)別:對(duì)圖片預(yù)處理后得到的文本區(qū)域進(jìn)行文本檢測(cè)時(shí),提取每個(gè)檢測(cè)框的坐標(biāo)信息;然后統(tǒng)計(jì)文本區(qū)域內(nèi)所有字符文本的坐標(biāo)信息,得到文本區(qū)域內(nèi)的表格結(jié)構(gòu);每個(gè)檢測(cè)框和表格結(jié)構(gòu)一一對(duì)應(yīng),確定每組字符文本在圖片中的位置。具體過(guò)程如下:
首先,用rect(i,j)表示檢測(cè)矩形框的中心位置
其中,i=1,2,3,…,c;j=1,2,3,…,r;r和c(i2,j2)分別表示檢測(cè)矩形框rect(i,j)左上角和右分別表示文本區(qū)域內(nèi)的行和列;(i1,j1)和下角的坐標(biāo)。
然后,如果兩個(gè)檢測(cè)矩形框中心位置的坐標(biāo)滿足式(13)時(shí),就可以確定它們之間的相對(duì)位置。所有檢測(cè)框兩兩滿足式(13)后,進(jìn)而可以確定整個(gè)文本區(qū)域的表格結(jié)構(gòu)。經(jīng)過(guò)文本識(shí)別記錄了文本區(qū)域所有位置字符的識(shí)別結(jié)果,經(jīng)過(guò)坐標(biāo)融合,每組字符文本識(shí)別結(jié)果與表格結(jié)構(gòu)中的位置一一對(duì)應(yīng),將識(shí)別結(jié)果按照相應(yīng)位置寫入,處理結(jié)果如圖9所示。
圖9 版面結(jié)構(gòu)還原Fig.9 Layout structure restoration
其中,tc=i2-i1+i'2-i'1,表示文本區(qū)域相鄰列之間的間隔閾值,tr=j2-j1+j'2-j'1,表示文本區(qū)域相鄰行之間的間隔閾值。
本工作采用百度飛槳PaddlePaddle深度學(xué)習(xí)框架進(jìn)行實(shí)驗(yàn)測(cè)試,具體計(jì)算機(jī)設(shè)備的硬件配置和所搭建的軟件環(huán)境如表1所示。
表1 硬件配置及軟件環(huán)境Table 1 Hardware configuration and software environment
CRNN 算法的網(wǎng)絡(luò)結(jié)構(gòu)詳細(xì)參數(shù)如表2所示,其中W代表輸入圖像寬度,k代表卷積核的尺寸,s表示步幅,p表示填充尺寸,Windows表示池化窗口尺寸。
表2 CRNN網(wǎng)絡(luò)詳細(xì)參數(shù)Table 2 CRNN specifies network details
為驗(yàn)證本工作方法對(duì)電離層針式打印字體垂測(cè)歷史觀測(cè)數(shù)據(jù)掃描圖片的識(shí)別效果,采用中國(guó)電波傳播研究所留存的真實(shí)資料進(jìn)行訓(xùn)練測(cè)試。
考慮到3種類型針式打印圖片的差異,為保證訓(xùn)練時(shí)CRNN 深度學(xué)習(xí)模型有較高的泛化能力,各選取每種類型圖片28張,共計(jì)84張,經(jīng)本工作中給出的圖像預(yù)處理和文本檢測(cè)算法操作后,共分割得文本數(shù)據(jù)25 324張,如表3所示,對(duì)分割后的圖片采用PPOCRLabel來(lái)作標(biāo)簽標(biāo)記,得到對(duì)應(yīng)的字符串標(biāo)簽字典。然后從各類型圖片中隨機(jī)選擇65.47%(即,原始圖片55張,分割后的圖片16 670張)的圖片作為訓(xùn)練集用于訓(xùn)練模型以及確定參數(shù),16.67%(即,原始圖片14 張,分割后的圖片4 169張)的圖片作為驗(yàn)證集用于確定網(wǎng)絡(luò)結(jié)構(gòu)以及調(diào)整模型的超參數(shù),17.86%(即,原始圖片15張,分割后的圖片4 485張)的圖片作為測(cè)試集用于檢驗(yàn)?zāi)P偷姆夯芰?評(píng)估算法性能。為了結(jié)果分析時(shí)描述方便,這15張測(cè)試圖片使用a1-a5、b1-b5、c1-c5編號(hào),分別表示第一章節(jié)數(shù)據(jù)介紹中給出的3種類型針式打印圖片。
表3 數(shù)據(jù)集分配Table 3 Data set allocation
3.3.1 評(píng)價(jià)指標(biāo)
為評(píng)價(jià)算法的性能,本工作選用精確率P、召回率R以及綜合評(píng)價(jià)指標(biāo)F3個(gè)評(píng)價(jià)指標(biāo)進(jìn)行評(píng)估,其中F是綜合精確率P和召回率R這二者指標(biāo)的評(píng)估指標(biāo),用于綜合反映整體的指標(biāo)。
為驗(yàn)證本工作所提算法在3種類型針式打印圖片數(shù)據(jù)自動(dòng)提取的有效性,與其他精度較高的算法從文本檢測(cè)和文本識(shí)別兩個(gè)方面進(jìn)行了對(duì)比分析。
3.3.2 文本檢測(cè)結(jié)果分析
在文本檢測(cè)參數(shù)設(shè)定方面,由于針式打印圖片文本區(qū)域列間距較大,垂直投影閾值tx影響較小,而行間距較小易存在粘連情況,此時(shí)水平投影閾值ty取值對(duì)檢測(cè)結(jié)果影響較大。在圖10中,將文本檢測(cè)平均召回率繪制為水平投影閾值ty的函數(shù)。設(shè)置ty初始值為25,通過(guò)異常檢測(cè)候選框修正模塊,將ty增大到30,文本檢測(cè)平均召回率隨之升高,算法運(yùn)行時(shí)間也隨著ty增大而增加。隨著ty增大到35,水平投影閾值ty處于(25,35]區(qū)間內(nèi)的完整數(shù)組也會(huì)被分割,導(dǎo)致一些異常檢測(cè)候選框過(guò)度修正,因此檢測(cè)召回率有所下降,算法運(yùn)行時(shí)間也會(huì)增加。因此,在文本檢測(cè)異常候選框出現(xiàn)時(shí),將水平投影閾值ty設(shè)置為30。
圖10 5種水平投影閾值設(shè)定對(duì)比Fig.10 Comparison of 5 horizontal projection threshold settings
在文本檢測(cè)結(jié)果方面,本研究提出的基于投影分割的檢測(cè)算法與文獻(xiàn)[9]中的EAST 算法(efficient and accuracy scene text)、文獻(xiàn)[10]中的DB算法(differentiable binarization)在15張?jiān)紲y(cè)試圖片(4 485張分割后圖片)上的檢測(cè)召回率對(duì)比情況如圖11所示。
圖11 不同文本檢測(cè)算法平均召回率對(duì)比Fig.11 Comparison of average recall rates in different text detection algorithms
從圖11中可以看出:1)在a類型圖片中,本研究算法召回率接近100%,略優(yōu)于DB 算法,明顯高于EAST 算法;2)在b類型圖片中,本研究算法平均召回率95.79%,與DB 算法相比,優(yōu)勢(shì)較a類型圖片相比進(jìn)一步擴(kuò)大,而EAST 算法檢測(cè)性能進(jìn)一步下降;3)在c類型圖片中,對(duì)于相互粘連的針式打印圖片,EAST 算法和DB 算法均不能檢測(cè)出文本行,而由于提出的基于投影分割的文本檢測(cè)方法加入了檢測(cè)候選框的修正功能,所以對(duì)該類型圖片檢測(cè)效果顯著,平均召回率97.49%。通過(guò)對(duì)比3 種類型圖片的檢測(cè)效果,表明在文本檢測(cè)方面本研究算法具有一定的先進(jìn)性和普適性,在工程實(shí)踐中具有更好的泛化能力。
3.3.3 文本識(shí)別結(jié)果分析
在文本識(shí)別方面,統(tǒng)計(jì)結(jié)果分析包括兩種情況:①單個(gè)字符識(shí)別情況(即,以圖片文本區(qū)域內(nèi)的單個(gè)字符為統(tǒng)計(jì)單元,判定識(shí)別是否正確,包括小數(shù)點(diǎn));②整組字符識(shí)別情況(即,以一個(gè)數(shù)組為統(tǒng)計(jì)單元,如果數(shù)組內(nèi)有一個(gè)字符識(shí)別錯(cuò)誤,則整個(gè)數(shù)組判定為識(shí)別錯(cuò)誤)。本工作在15張?jiān)紲y(cè)試圖片(4 485張分割后圖片)上從精確率P、召回率R以及綜合評(píng)價(jià)指標(biāo)F3 個(gè)層面,對(duì)比分析了本研究所提CRNN 識(shí)別算法在DB 檢測(cè)算法[10]與本研究檢測(cè)算法基礎(chǔ)上的文本識(shí)別效果(記為:情形Ⅰ對(duì)比分析),結(jié)果如圖12、13所示,以及所提CRNN 識(shí)別算法和RARE識(shí)別算法[18]在本研究檢測(cè)算法基礎(chǔ)上的文本識(shí)別效果(記為:情形Ⅱ?qū)Ρ确治?,結(jié)果如圖14、15所示。
圖12 基于DB和本文檢測(cè)算法的單個(gè)字符識(shí)別平均F-Measure對(duì)比Fig.12 Average F-Measure comparison of character recognition based on DB and detection algorithm in this paper
1)情形Ⅰ對(duì)比分析。
從圖12就單個(gè)字符識(shí)別情況可以看出:①在a類型圖片中,DB 算法平均綜合評(píng)價(jià)指標(biāo)F為97.998%,本研究算法平均99.304%,相差1.306%,可見2種算法效果相似;②在b類型圖片中,DB算法平均綜合評(píng)價(jià)指標(biāo)F為91.48%,本算法平均96.316%,相差4.836%,可見本算法與DB算法相比,較a類型圖片,識(shí)別效果優(yōu)勢(shì)進(jìn)一步擴(kuò)大;③在c類型圖片中,因?yàn)镈B算法對(duì)于相互粘連的針式打印圖片不能檢測(cè)出文本行,所以就無(wú)法統(tǒng)計(jì)文本識(shí)別效果,而本研究提出的算法平均綜合評(píng)價(jià)指標(biāo)F為96.85%,識(shí)別效果性能優(yōu)異,可以滿足實(shí)際工程需求。
從圖13就整組字符識(shí)別情況可以看出:①在a類型圖片中,DB 算法平均綜合評(píng)價(jià)指標(biāo)F為95.374%,本工作算法平均97.506%,相差2.132%,均比單個(gè)字符識(shí)別情況有所降低;②在b類型圖片中,DB算法平均綜合評(píng)價(jià)指標(biāo)F為74.204%,本算法平均92.69%,相差18.486%,相比a類型圖片,DB算法降低幅度較大,本工作算法更穩(wěn)健,與DB算法相比,識(shí)別效果優(yōu)勢(shì)進(jìn)一步擴(kuò)大,識(shí)別效果良好;③在c類型圖片中,提出的算法平均綜合評(píng)價(jià)指標(biāo)F為94.146%,與單個(gè)字符識(shí)別情況相比僅下降了2.704%,整體性表現(xiàn)良好,算法識(shí)別效果顯著,完全可以勝任實(shí)際工程。
圖13 基于DB和本文檢測(cè)算法的整組字符識(shí)別平均F-Measure對(duì)比Fig.13 Average F-Measure comparison of array recognition based on DB and detection algorithm in this paper
對(duì)比實(shí)驗(yàn)表明,對(duì)于3種類型的針式打印圖片,本工作所提CRNN 識(shí)別算法在2.2.1小節(jié)文本檢測(cè)算法基礎(chǔ)上的識(shí)別效果明顯優(yōu)于DB檢測(cè)算法。
2)情形Ⅱ?qū)Ρ确治觥?/p>
從圖14就單個(gè)字符識(shí)別情況可以看出:①在a類型圖片中,RARE 算法平均綜合評(píng)價(jià)指標(biāo)F為98.74%,CRNN 算法平均 99.304%,相差0.564%,識(shí)別效果相似;②在b類型圖片中,RARE算法平均綜合評(píng)價(jià)指標(biāo)F為94.02%,CRNN 算法平均96.316%,相差2.296%;③在c類型圖片中,RARE算法平均綜合評(píng)價(jià)指標(biāo)F為91.386%,而CRNN 算法平均綜合評(píng)價(jià)指標(biāo)F為96.85%,相差5.464%。
從圖15就整組字符識(shí)別情況可以看出:①在a類型圖片中,RARE 算法平均綜合評(píng)價(jià)指標(biāo)F為95.108%,CRNN 算法平均 97.506%,相差2.398%;②在b類型圖片中,RARE 算法平均綜合評(píng)價(jià)指標(biāo)F為89.896%,CRNN 算法平均92.69%,相差2.794%;③在c類型圖片中,RARE算法平均綜合評(píng)價(jià)指標(biāo)F為91.574%,CRNN 算法平均綜合評(píng)價(jià)指標(biāo)F為94.146%,相差2.572%。較單個(gè)字符識(shí)別情況有所降低,但CRNN 表現(xiàn)出了更優(yōu)異的性能。
圖15 基于RARE和CRNN算法的整組字符識(shí)別平均F-Measure對(duì)比Fig.15 Average F-Measure comparison of array recognition based on RARE and CRNN algorithm
通過(guò)對(duì)比實(shí)驗(yàn)表明,對(duì)于3種類型的針式打印圖片,本工作所提CRNN 識(shí)別算法在2.2.1小節(jié)文本檢測(cè)算法基礎(chǔ)上的識(shí)別效果明顯優(yōu)于RARE 識(shí)別算法,可以應(yīng)用于實(shí)際工程。
針對(duì)3種類型的針式打印字體電離層垂測(cè)數(shù)據(jù)掃描圖片,提出了一種基于深度學(xué)習(xí)框架的數(shù)據(jù)自動(dòng)提取技術(shù)。首先,通過(guò)圖像模板匹配,準(zhǔn)確提取圖片中電離層物理特性的文本區(qū)域,然后利用霍夫變換直線檢測(cè)對(duì)降噪處理后的文本區(qū)域進(jìn)行傾斜矯正,在此基礎(chǔ)上采用基于投影法的文本檢測(cè)算法對(duì)圖像進(jìn)行分割,可有效解決針式打印字體電離層垂測(cè)數(shù)據(jù)掃描圖片相鄰行之間互相粘連的問題,最后對(duì)分割后的圖片利用CNN+RNN+CTC 構(gòu)成的CRNN 深度學(xué)習(xí)算法進(jìn)行文本識(shí)別,同時(shí)通過(guò)坐標(biāo)融合算法將識(shí)別后的數(shù)據(jù)存儲(chǔ)成Excel標(biāo)準(zhǔn)格式。實(shí)驗(yàn)結(jié)果表明,本工作提出的算法對(duì)于各種類型的針式打印圖片具有更好的檢測(cè)和識(shí)別效果,實(shí)用性和適應(yīng)性更強(qiáng),完全可滿足實(shí)際工程應(yīng)用需求。
青島科技大學(xué)學(xué)報(bào)(自然科學(xué)版)2024年1期