呂志剛,王洪喜,李亮亮,王 鵬,李曉艷,邸若海
(1.西安工業(yè)大學(xué) 機(jī)電工程學(xué)院,陜西 西安 710021; 2.西安工業(yè)大學(xué) 電子信息工程學(xué)院,陜西 西安 710021)
機(jī)械工藝卡是機(jī)械制造領(lǐng)域中指導(dǎo)生產(chǎn)的主要技術(shù)文件,是提高生產(chǎn)效率和產(chǎn)品質(zhì)量的重要保證。機(jī)械工藝卡中的主要因素包括表格、圖形、文字、特殊字符等,本文只研究表格元素。對(duì)機(jī)械工藝卡中的元素進(jìn)行光學(xué)字符識(shí)別(Optical Character Recognition, OCR)處理,是實(shí)現(xiàn)工藝卡數(shù)字化的重要研究?jī)?nèi)容。早期的表格元素存在縱向線段不連續(xù)、框線錯(cuò)位等不規(guī)則現(xiàn)象,目前傳統(tǒng)OCR算法無法識(shí)別該不規(guī)則表格,且存在高復(fù)雜度、高冗余度、難以實(shí)現(xiàn)數(shù)字化復(fù)現(xiàn)等問題。因此,開發(fā)一套可識(shí)別非規(guī)則表格、可離線軟件開發(fā)工具包(Software Development Kit, SDK)的表格OCR有效信息識(shí)別系統(tǒng)迫在眉睫。
實(shí)現(xiàn)紙質(zhì)文檔中表格信息的數(shù)字化,對(duì)于數(shù)據(jù)的可視化分析和長(zhǎng)久保存具有至關(guān)重要的意義,其中最關(guān)鍵的是表格元素的準(zhǔn)確定位識(shí)別。近幾年涌現(xiàn)出了眾多表格檢測(cè)算法,國內(nèi)外學(xué)者在傳統(tǒng)圖像處理和深度學(xué)習(xí)兩個(gè)方向上,都分別展開了相關(guān)研究。各算法的優(yōu)劣性對(duì)比分析如下:
傳統(tǒng)圖像處理方法主要有表格邊緣檢測(cè)、框線檢測(cè)聚類、投影以及最為基礎(chǔ)的形態(tài)學(xué)算子等。其中:鄺振等[1]、段露等[2]、王緒等[3]、XIAO等[4]、郝澤興等[5]、白偉等[6]、LIANG等[7]均采用傳統(tǒng)圖像處理方法,解決了選票等特定場(chǎng)合的表格定位識(shí)別,具有一定的實(shí)際可行性,但是均不能實(shí)現(xiàn)自適應(yīng)的表格定位處理,更不能很好地定位處理非規(guī)則表格。呂志剛等[8]提出一種圖像統(tǒng)計(jì)學(xué)聚類的非規(guī)則表格處理算法,在非規(guī)則表格定位識(shí)別中得到了較好的實(shí)驗(yàn)效果,但在表格識(shí)別前需要進(jìn)行不同程度的傾斜校正,且Harris角點(diǎn)檢測(cè)具有一定的局限性。隨著人工智能的不斷發(fā)展,部分學(xué)者采用生成對(duì)抗網(wǎng)絡(luò)[9](Generative Adversarial Network, GAN)、快速卷積神經(jīng)網(wǎng)絡(luò)[10](Faster Region—Convolutional Neural Network, Faster R-CNN)、一種目標(biāo)檢測(cè)算法[11-12](You Only Look Once, YOLO)等深度模型[13-17],能夠有效地解決文檔中規(guī)則表格的定位識(shí)別,相對(duì)傳統(tǒng)的表格布局分析方法,提高了檢測(cè)準(zhǔn)確率,但其算法的執(zhí)行過于依賴硬件設(shè)備的性能,且必須經(jīng)過大量數(shù)據(jù)集的前期訓(xùn)練,極大地限制了應(yīng)用的廣泛性。上述深度學(xué)習(xí)的方法均是針對(duì)規(guī)則表格進(jìn)行研究,對(duì)于縱向框線不連續(xù)、錯(cuò)位等現(xiàn)象的非規(guī)則表格研究依舊很欠缺。
本文研究的非規(guī)則表格指的是存在縱向線段不連續(xù)、框線錯(cuò)位、跨頁等現(xiàn)象的表格,部分非規(guī)則表格樣本如圖1所示。
圖1中:a類樣本(如圖1a)的縱向框線為不連續(xù)虛線,縱向框線細(xì)短,不易直接進(jìn)行縱向框線檢測(cè);b類樣本(如圖1b)第2~6條縱向框線存在不同程度的錯(cuò)位,同樣存在不易檢測(cè)的問題;c類(如圖1c)樣本存在跨頁現(xiàn)象,表格框線不閉合,且表格之間存在一定的上下文關(guān)聯(lián),需要對(duì)表格進(jìn)行上下拼接關(guān)聯(lián)處理,保證數(shù)據(jù)表的完整性。值得注意的是,跨頁表格僅存在于當(dāng)前頁面文檔的第一個(gè)表格和最后一個(gè)表格,例如:如果當(dāng)前頁的第一個(gè)表格或最后一個(gè)表格只有一條橫向框線,則該表格存在跨頁現(xiàn)象。
針對(duì)現(xiàn)有算法在非規(guī)則表格識(shí)別過程中,不能實(shí)現(xiàn)自適應(yīng)閾值和魯棒性欠佳的問題,本文提出一種融合局部圖像特征的非規(guī)則表格識(shí)別算法。通過制定分塊規(guī)則,計(jì)算區(qū)域自適應(yīng)基礎(chǔ)閾值,保證表格的自適應(yīng)魯棒性識(shí)別。
算法主要包括區(qū)域分塊閾值的求解、表格區(qū)域檢測(cè)預(yù)提取、區(qū)域重檢測(cè)定位輸出3部分。通過區(qū)域分塊,為頂部及底部區(qū)域縱向框線的準(zhǔn)確提取提供閾值;通過對(duì)中心區(qū)域進(jìn)行行距均值的求解,為后續(xù)圖像處理提供自適應(yīng)基礎(chǔ)閾值;對(duì)預(yù)提取的有效表格區(qū)域進(jìn)行區(qū)域重檢測(cè),保證輸出定位區(qū)域的可靠性;最后基于本算法,依托QT集成開發(fā)環(huán)境研發(fā)了離線OCR識(shí)別軟件系統(tǒng)。非規(guī)則表格識(shí)別處理的主算法流程圖如圖2所示。
綜上所述,本文的主要工作總結(jié)如下:
(1)針對(duì)本文研究的非規(guī)則表格的特征,提出一種基于區(qū)域分塊的自適應(yīng)基礎(chǔ)閾值求解算法,在提取分塊區(qū)域中頂部及底部的“細(xì)短”線段時(shí),保證了提取的準(zhǔn)確率。
(2)針對(duì)現(xiàn)有算法存在非規(guī)則表格識(shí)別效果不佳問題,提出一種融合局部特征的非規(guī)則表格定位檢測(cè)算法,為非規(guī)則表格的定位識(shí)別提供了一種可行性方案。
(3)對(duì)預(yù)提取的有效表格區(qū)域進(jìn)行重檢測(cè),進(jìn)一步提高定位區(qū)域內(nèi)表格檢測(cè)的可靠性。
(4)基于本算法,依托QT平臺(tái)研發(fā)了離線OCR識(shí)別軟件。
本文算法可視化流程如圖3所示。
源表格圖像經(jīng)過OSTU(大津法)二值化后,采用本文制定的區(qū)域分塊規(guī)則,對(duì)圖像進(jìn)行分塊提取,并最終得到分塊區(qū)域中的相關(guān)閾值。首先,對(duì)分塊區(qū)域采用形態(tài)學(xué)及霍夫重構(gòu)方法提取橫向線段;其次,對(duì)橫向直線的Y坐標(biāo)進(jìn)行聚類統(tǒng)計(jì),并求解行距均值;最后,將行距均值作為分塊區(qū)域中的動(dòng)態(tài)閾值,實(shí)現(xiàn)縱向框線的提取。
(1)制定區(qū)域分塊規(guī)則
設(shè)輸入源圖像高度為height,寬度為width,圖4為本文設(shè)計(jì)的區(qū)域分塊示意圖,其中P1~P9的坐標(biāo)如表1所示。
表1 分塊坐標(biāo)點(diǎn)
圖4中P1~P9為16等分輸入圖像直線的交叉點(diǎn);A0為點(diǎn)1、5、6、7組成的局部區(qū)域,A1為點(diǎn)10、11、12、16組成的局部區(qū)域,A0和A1用來進(jìn)行局部特征提取及融合處理;Acenter為線段2-P1、4-P3、13-P7、15-P9連線中點(diǎn)組成的局部區(qū)域,用于計(jì)算行距均值。
(2)提取區(qū)域Acenter內(nèi)的行距均值
設(shè)輸入圖像矩陣為X,圖像寬度為width,采用形態(tài)學(xué)預(yù)提取Acenter區(qū)域中的橫向線段。取腐蝕膨脹矩陣為S1=size(width/10,1),S2=size(3,3)。根據(jù)式(1)進(jìn)行一次腐蝕兩次膨脹操作,得到僅含有橫向線段的圖像矩陣Xhorizontal。
Xhorizontal=((XΘS1)⊕S1)⊕S2。
(1)
對(duì)Xhorizontal進(jìn)行Hough直線重構(gòu)處理,得到橫向線段縱坐標(biāo)集合YAcenter。根據(jù)式(2),進(jìn)行橫向線段聚類,得到集合YAcenter_h,該集合中存放著滿足聚類條件的橫向線段的縱坐標(biāo)集合[16-18]。
YAcenter_h=YAcenter(i+1)-YAcenter(i)<20,i≥0。
(2)
根據(jù)式(3),求同一聚類的均值坐標(biāo),得到行距均值MRL,為后續(xù)圖像處理提供的自適應(yīng)基礎(chǔ)閾值。
MRL=
(3)
其中:{YAcenter_h(i+1)/(i+1)}表示第i+1類直線的均值坐標(biāo),j表示直線數(shù)目。
(3)提取分塊區(qū)域A0和A1中的縱向線段
設(shè)輸入圖像矩陣為X,取腐蝕膨脹矩陣為S3=size(1,0.1×MRL),S4=size(10,25)。根據(jù)式(4),對(duì)A0和A1區(qū)域進(jìn)行一次腐蝕兩次膨脹操作,得到僅含有縱向線段圖像矩陣Xvertical。
Xvertical=((XΘS3)⊕S3)⊕S4。
(4)
經(jīng)上述處理后,A0和A1對(duì)應(yīng)的圖像矩陣分別為Xvertical(A0)和Xvertical(A1),即為對(duì)應(yīng)區(qū)域的待融合的局部特征。A0和A1區(qū)域中,縱向線段提取結(jié)果如圖5所示。
首先,根據(jù)自適應(yīng)基礎(chǔ)閾值構(gòu)造腐蝕矩陣,并對(duì)輸入的表格圖像進(jìn)行腐蝕,再進(jìn)行灰度及OSTU二值化處理;然后,采用自適應(yīng)基礎(chǔ)閾值進(jìn)行橫向線段提??;再采用行距閾值MRL進(jìn)行縱向線段提取;同時(shí),對(duì)分塊區(qū)域A0和A1進(jìn)行融合掩膜處理;最終,使用處理后的圖像對(duì)表格輪廓進(jìn)行預(yù)提取。主要步驟如下:
(1)腐蝕灰度OSTU二值化
采用形態(tài)學(xué)算子對(duì)輸入表格圖像進(jìn)行腐蝕,即對(duì)圖像的高亮部分的侵蝕。經(jīng)過腐蝕操作之后,圖像的高亮部分變少了,使得縱向上不連續(xù)線段變得更連續(xù)或者不連續(xù)間距減小。設(shè)輸入圖像矩陣為X,腐蝕矩陣為S5=size(0.25×MRL,0.25×MRL),根據(jù)式(5)進(jìn)行腐蝕處理,得到圖像矩陣XErode:
XErode=XΘS5。
(5)
再進(jìn)行灰度OSTU二值化后的圖像矩陣,記作XErode_OSTU。
(2)基于自適應(yīng)基礎(chǔ)閾值的形態(tài)學(xué)橫向線段提取
基于自適應(yīng)基礎(chǔ)閾值,采用形態(tài)學(xué)處理圖像XErode_OSTU中的橫向線段,該圖像寬度為width。取腐蝕膨脹矩陣為S6=size(0.05×width,1),根據(jù)式(6)進(jìn)行橫向線段提取,得到只包含橫向線段的圖像矩陣XErode_h:
XErode_h=((XErode_OTSUΘS6)⊕S6)⊕S4。
(6)
(3)基于行距閾值的形態(tài)學(xué)縱向線段提取
基于自適應(yīng)基礎(chǔ)閾值,采用形態(tài)學(xué)處理圖像XErode_OSTU中的縱向線段,該圖像高度為height。取腐蝕膨脹矩陣為S7=size(1,0.5×MRL)。根據(jù)式(7)進(jìn)行縱向線段提取,得到只包含縱向線段的圖像矩陣XErode_v。
XErode_v=((XErode_OTSUΘS7)⊕S7)⊕S4。
(7)
(4)基于縱向線段的分塊區(qū)域圖像融合
在獲取只包含縱向線段的圖像矩陣XErode_v過程中,由于第一個(gè)表格和最后一個(gè)表格可能存在跨頁現(xiàn)象,導(dǎo)致區(qū)域A0和A1中部分細(xì)小表格框線無法準(zhǔn)確提取。因此,設(shè)計(jì)了一種基于分塊區(qū)域圖像融合的縱向線段檢測(cè)方法。在分塊區(qū)域A0和A1中,輸入XErode_v、Xvertical(A0)、Xvertical(A1),設(shè)Xvertical(A0)、Xvertical(A1)在XErode_v中的對(duì)應(yīng)區(qū)域?yàn)閄A0和XA1。根據(jù)式(8),進(jìn)行圖像特征融合處理,將XA0和XA1取代XErode_v相應(yīng)部分,得到新的只包含縱向線段的圖像矩陣XErode_v2。
XErode_v2=a×XA0+b×Xvertical(A0)+c×XA10+
d×Xvertical(A10)+(XErode_v-XA0-XA10)。
(8)
其中,a,b,c,d為線性融合閾值,滿足a+b=1,c+d=1,本文設(shè)a=0,b=1,c=0,d=1。
(5)掩膜處理
根據(jù)式(9),對(duì)XErode_h和XErode_v2進(jìn)行掩膜處理,得到相應(yīng)的疊加圖矩陣XMask:
XMask=(XErode_v2/2+XErode_h/2)⊕S2。
(9)
(6)表格預(yù)提取
對(duì)XErode_h、XErode_v2和XMask作進(jìn)一步處理,設(shè)置最大輪廓提取規(guī)則:輪廓面積不能小于40且輪廓內(nèi)交點(diǎn)個(gè)數(shù)至少為4。
根據(jù)該規(guī)則,采用A0和A1區(qū)域內(nèi)的自適應(yīng)基礎(chǔ)閾值,提取縱向框線。融合A0和A1局部特征,查找閉合輪廓[19-20],即可預(yù)框選出表格區(qū)域,完成表格區(qū)域預(yù)定位提取。
針對(duì)非規(guī)則表格的預(yù)提取區(qū)域,進(jìn)行二次檢測(cè)。判斷預(yù)提取區(qū)域中是否存在直線,進(jìn)一步確定是否為表格區(qū)域。主要步驟如下:
(1)預(yù)提取區(qū)域圖像的灰度OTSU二值化;
(2)采用式(6)預(yù)提取區(qū)域中形態(tài)學(xué)橫向線段;
(3)預(yù)提取橫向線段的霍夫重構(gòu)處理;
(4)采用式(2)和式(3)進(jìn)行聚類行距均值求解,設(shè)為MRL2。同時(shí),判斷當(dāng)前區(qū)域是否存在直線,若存在至少一條直線,且滿足式(10),證明當(dāng)前區(qū)域?qū)儆诒砀駞^(qū)域。
|MRL-MRL2|<0.5×MRL。
(10)
圖6a為輸入的非規(guī)則表格樣本,樣本1為縱向框線不連續(xù)虛線且頂部跨頁(僅含有一條橫向框線),樣本2為縱向框線錯(cuò)位且底部跨頁;圖6b中紅色虛線處為融合的局部特征,便于后續(xù)表格提??;圖6c為表格區(qū)域提取后的處理結(jié)果,紅色框線為預(yù)提取到的表格區(qū)域。
這里需要進(jìn)一步說明,對(duì)于規(guī)則表格而言,僅有一條橫向框線并不能定義為表格區(qū)域。但是,由于研究的非規(guī)則表格的特殊性,將僅含有一條橫向框線且橫向框線與縱向框線輪廓內(nèi)交點(diǎn)大于等于4的區(qū)域,也定義為表格區(qū)域,即非規(guī)則表格中的跨頁表格。
算法在Window 10操作系統(tǒng)、Intel(R)Core(TM)CPU i7-8700HQ 3.20 GHz 8 G內(nèi)存電腦平臺(tái)開發(fā)測(cè)試,掃描設(shè)備為Alaris E1025和EPSON Perfect v19。使用QT5.9.8、MSVC 2015編譯器、配置Opencv 3.1 C++編程實(shí)現(xiàn)。
表2為本文研究的表格樣本的典型特性分析。
表2 表格樣本特性分析
通過對(duì)多分辨率的表格圖像進(jìn)行表格定位提取,在相同條件下通過對(duì)比傳統(tǒng)算法(Tradition)(應(yīng)用在規(guī)則表格提取的輪廓提取法)、Faster-RCNN、掩膜卷積神經(jīng)網(wǎng)絡(luò)(Mask Region-CNN, Mask R-CNN)[21]及本文算法進(jìn)行對(duì)比測(cè)試,結(jié)果如圖7所示。
實(shí)驗(yàn)結(jié)果表明:本文提出的算法在測(cè)試樣本中能夠基本實(shí)現(xiàn)100%的定位提?。粋鹘y(tǒng)算法只有正常表格及部分測(cè)試樣本能準(zhǔn)確定位提??;Faster-RCNN較Mask-RCNN有更好的識(shí)別效果,其中部分非規(guī)則表框線未檢測(cè),尤其頂部和底部存在跨頁的表格。由此,可明顯看出本文提出的算法在非規(guī)則表的識(shí)別中更具優(yōu)勢(shì)。
識(shí)別率計(jì)算定義如下:
(11)
通過不同算法對(duì)不同類樣本進(jìn)行迭代測(cè)試,統(tǒng)計(jì)各項(xiàng)指標(biāo)均值,不同算法平均準(zhǔn)確率及復(fù)雜度測(cè)試結(jié)果如表3所示。
表3 表格定位算法平均復(fù)雜度及準(zhǔn)確率測(cè)試
分析表10可知,本文提出的算法相對(duì)傳統(tǒng)算法及部分深度學(xué)習(xí)算法,在表格檢測(cè)方面更具優(yōu)勢(shì)。傳統(tǒng)算法在檢測(cè)非規(guī)則表格方面局限性較大;Faster-RCNN能夠很好地實(shí)現(xiàn)非規(guī)則表的定位識(shí)別,但是對(duì)于一些特殊的殘缺不全的表格,識(shí)別定位精度欠佳;Mask-RCNN相對(duì)Faster-RCNN準(zhǔn)確率較低,會(huì)有部分誤判斷。相對(duì)于常用的深度學(xué)習(xí)模型的檢測(cè)算法,本文提出的融合局部特征的非規(guī)則表格識(shí)別算法,能得到更好地檢測(cè)效果,從而更有效地解決了非規(guī)則表識(shí)別問題。
對(duì)現(xiàn)有246張?jiān)挤且?guī)則表格圖像,在不同分辨率(75 dpi~400 dpi)條件下進(jìn)行掃描處理,得到測(cè)試樣本集。抽取典型樣本,在網(wǎng)易、薪火、騰訊、百度、金銘、翔云、漢王、ABBYY等主流公司OCR軟件及主流表格OCR算法上分別進(jìn)行測(cè)試。測(cè)試結(jié)果表明,現(xiàn)有主流OCR軟件均不能很好地實(shí)現(xiàn)非規(guī)則表格的定位處理,而且算法復(fù)雜度較高,通常需要依托云服務(wù)平臺(tái)實(shí)現(xiàn)。其中ABBYY、騰訊(TableParser-tx)基本能夠?qū)崿F(xiàn)表格區(qū)域定位,而其他軟件無法實(shí)現(xiàn)檢測(cè)定位,因此只給出UNET、AlexNet、TableParser-tx、ABBYY及本文算法對(duì)應(yīng)的測(cè)試結(jié)果,如圖8所示。
實(shí)驗(yàn)結(jié)果表明:UNET算法的表格檢測(cè)效果較好,但是針對(duì)跨頁表格中頂部或者底部?jī)H存在一條框線的情況,檢測(cè)效果不佳;對(duì)于縱向框線錯(cuò)位的情況,出現(xiàn)較多的誤識(shí)別現(xiàn)象。AlexNet算法實(shí)驗(yàn)中,黃色部分為表格區(qū)域,其他顏色均為非表格區(qū)域,分析實(shí)驗(yàn)結(jié)果可知表格區(qū)域和非表格區(qū)域并未很好地分類,對(duì)于表格與表格間距較近時(shí),分類效果較差。ABBYY、騰訊(TableParser-tx)算法測(cè)試中,會(huì)增加額外的非規(guī)則表格區(qū)域,但是相對(duì)而言,TableParser-tx算法雖然對(duì)于縱向框線錯(cuò)位的表格框線處理效果不好,但是對(duì)于表格檢測(cè)的效果較好。分析典型樣本的實(shí)驗(yàn)測(cè)試結(jié)果可知,本文提出的算法在非規(guī)則表格的檢測(cè)效果明顯優(yōu)于現(xiàn)有算法,能夠較好地實(shí)現(xiàn)非規(guī)則表格的定位提取。實(shí)驗(yàn)結(jié)果表明,相對(duì)現(xiàn)有算法,本文的表格檢測(cè)算法在非規(guī)則表格識(shí)別上,具有較好的識(shí)別效果。
將表2中第1~5號(hào)樣本序列作為各算法的輸入,對(duì)應(yīng)的表格定位檢測(cè)準(zhǔn)確率(不包含表格內(nèi)部結(jié)構(gòu)重建的準(zhǔn)確率)均值如表4所示(對(duì)應(yīng)每個(gè)樣本,識(shí)別率最高的結(jié)果用加黑數(shù)字表示)。分析表4可知,本算法具有一定的先進(jìn)性,為非規(guī)則表格的提取提供了一種實(shí)際可行性方案。
表4 表格定位算法平均準(zhǔn)確率測(cè)試
現(xiàn)有246張測(cè)試樣本,共包含856個(gè)表格。對(duì)原始246張測(cè)試樣本進(jìn)行魯棒性測(cè)試,包含平移、旋轉(zhuǎn)處理等,部分測(cè)試樣本識(shí)別結(jié)果如圖9所示。其中:Translation(X)表示水平方向和豎直方向平移X像素,Rotate(Y)表示順時(shí)針/逆時(shí)針旋轉(zhuǎn)Y。
掃描分辨率為100dpi,在多種旋轉(zhuǎn)、平移條件下,測(cè)試樣本集中的表格識(shí)別準(zhǔn)確率的測(cè)試結(jié)果如表5所示。
表5 平均識(shí)別準(zhǔn)確率測(cè)試
通過表5分析,旋轉(zhuǎn)角度在±2°以內(nèi),未校正的非規(guī)則表識(shí)別效果較好;隨著旋轉(zhuǎn)角度的增大,表識(shí)別準(zhǔn)確率會(huì)相應(yīng)降低;平移處理后表格圖像的識(shí)別效果較好。圖9f中的表格未能準(zhǔn)確識(shí)別,原因在于表格圖像傾斜較大,導(dǎo)致無法提取縱向直線。
為了進(jìn)一步驗(yàn)證本文算法在非規(guī)則表格檢測(cè)中的有效性,增加消融實(shí)驗(yàn)。針對(duì)相同輸入樣本,分別采用融合/不融合局部特征、區(qū)域分塊自適應(yīng)/固定閾值等方法,進(jìn)行多次對(duì)比測(cè)試。
采用消融實(shí)驗(yàn)方法如表6所示(效果最好的結(jié)果用加黑數(shù)字表示),并給出了不同方法下,非規(guī)則表格識(shí)別準(zhǔn)確率和表格漏檢率的測(cè)試結(jié)果,其中正確檢測(cè)率和漏檢率總計(jì)為100%。分析表6的實(shí)驗(yàn)結(jié)果可知,本算法在非規(guī)則表格縱向框線檢測(cè)中具有較好的效果;相對(duì)于固定閾值在表格檢測(cè)率上,提升10個(gè)百分點(diǎn);局部特征融合主要完成頂部和底部跨頁表格細(xì)短框線的提取,局部特征的融合大大降低了表格的漏檢測(cè)率,漏檢測(cè)表格主要是頂部和底部的跨頁表格;區(qū)域重檢測(cè)主要實(shí)現(xiàn)預(yù)提取表格區(qū)域的二次確認(rèn),篩選出符合要求的有效表格(至少包含一條橫向長(zhǎng)直線和4個(gè)橫縱向輪廓交點(diǎn))。因此,在消融實(shí)驗(yàn)中增加區(qū)域重檢測(cè)的結(jié)果和不增加區(qū)域重檢測(cè)結(jié)果一樣。
表6 消融實(shí)驗(yàn)測(cè)試結(jié)果
本文針對(duì)傳統(tǒng)算法無法識(shí)別機(jī)械工藝卡中非規(guī)則表格元素的問題,提出一種融合局部圖像特征的檢測(cè)算法。該算法能夠解決縱向方向上線段不連續(xù)、縱向線段錯(cuò)位及跨頁表格的魯棒性檢測(cè)問題,對(duì)于未校正表格也有較好的識(shí)別效果。本文介紹了分塊處理、求解分塊處理的動(dòng)態(tài)閾值、分塊融合處理,表格準(zhǔn)確定位輸出等具體實(shí)現(xiàn)方法,解決了現(xiàn)有大多數(shù)表格OCR軟件不能離線處理非規(guī)則表格的問題。對(duì)在多種條件下生成的12 840張表格圖像進(jìn)行了測(cè)試,表格識(shí)別準(zhǔn)確率均值可達(dá)98.03%,具有一定的魯棒性。并依托QT平臺(tái),實(shí)現(xiàn)了快速可離線工作的OCR信息識(shí)別軟件,已成功應(yīng)用在某信息中心。然而,對(duì)于存在污漬、褶皺、缺損等情況的機(jī)械工藝卡,本文采用的傳統(tǒng)方法處理效果不佳,后續(xù)考慮使用深度學(xué)習(xí)的方法解決存在上述情況的工藝卡識(shí)別的問題。