張祥,秦毅,董志誠(chéng),黃琦麟,利節(jié)
(1.重慶科技學(xué)院 智能技術(shù)與工程學(xué)院,重慶 401331;2.西藏大學(xué) 信息科學(xué)技術(shù)學(xué)院,西藏 拉薩 850000)
印章作為一種具有法律效力的工具,廣泛應(yīng)用于政府文件、法律文件等各領(lǐng)域發(fā)布的文件中。印章可能存在模糊、褶皺等特征,這對(duì)基于深度學(xué)習(xí)的印章識(shí)別方法具有極大困難,該方法需要構(gòu)建網(wǎng)絡(luò)結(jié)構(gòu)、制作印章數(shù)據(jù)集以及訓(xùn)練網(wǎng)絡(luò)模型等多個(gè)步驟。此方法存在一定的局限性,受網(wǎng)絡(luò)模型的不可解釋性以及參數(shù)權(quán)重多等因素的影響,該方法檢測(cè)效果不好,時(shí)間周期長(zhǎng),魯棒性差,所以不適合對(duì)印章的檢測(cè)。
隨著計(jì)算機(jī)視覺(jué)的發(fā)展,印章識(shí)別技術(shù)越來(lái)越受到人們重視。姚敏[1]等人利用SIFT 描述子對(duì)尺度、旋轉(zhuǎn)、亮度具有不變性的特點(diǎn),采用SIFT 算法實(shí)現(xiàn)印章圖像的粗匹配,再通過(guò)RANSAC 算法根據(jù)一組包含異常數(shù)據(jù)的數(shù)據(jù)集計(jì)算數(shù)學(xué)模型參數(shù),從而達(dá)到印章的精確定位。馬麗霞[2]等人通過(guò)對(duì)已切除印章圖像進(jìn)行去噪、二值化、邊緣提取等圖像預(yù)處理操作,對(duì)污染而殘缺的部分進(jìn)行了修復(fù),實(shí)現(xiàn)了去除具有噪聲、劃痕、孔洞的印章圖像背景。肖進(jìn)勝[3]等人通過(guò)對(duì)印章圖像的顏色空間的轉(zhuǎn)換,利用帶角度信息的聯(lián)結(jié)文本提議網(wǎng)絡(luò)結(jié)合貝塞爾文本區(qū)域?qū)崿F(xiàn)了對(duì)印章區(qū)域的準(zhǔn)確檢測(cè)。趙勇濤[4]等人對(duì)采集的印章圖像構(gòu)建HIS 彩色模型,通過(guò)提取紅色分量的方法將印章分離出來(lái),然后進(jìn)行二值化、填充、去噪得到預(yù)處理圖像。該方法的優(yōu)點(diǎn)是速度快,能夠?qū)崟r(shí)處理請(qǐng)求。蔡亮[5]等人提出了基于外輪廓骨架線套位法,通過(guò)獲取不同印泥的形狀特征,實(shí)現(xiàn)了不同類型印章的快速檢測(cè)方法。
針對(duì)傾斜文本的檢測(cè)問(wèn)題,SegLink 算法[6]將文本拆分為兩個(gè)可局部檢測(cè)的元素,增加了角度的檢測(cè),對(duì)具有傾斜方向的文本行檢測(cè)表現(xiàn)出優(yōu)秀的效果。但是該網(wǎng)絡(luò)無(wú)法檢測(cè)間隔大、彎曲文本的圖像。
針對(duì)彎曲文本的檢測(cè)問(wèn)題,Zhang[7]等人通過(guò)文本組件建議網(wǎng)絡(luò)與深度關(guān)系推理圖網(wǎng)絡(luò)共享卷積特征,骨干網(wǎng)絡(luò)采用VGG-16 網(wǎng)絡(luò),將文本實(shí)例劃分為一系列矩形組件,用于估計(jì)組件的高度、寬度等幾何屬性,該方法對(duì)任意形狀文本檢測(cè)具有良好的性能。Zhu[8]等人提出了一種全新的傅里葉輪廓嵌入方法,并構(gòu)造了一個(gè)具有主干特征金字塔和后處理的傅里葉變換的卷積神經(jīng)網(wǎng)絡(luò),F(xiàn)CENet 可以以端到端方式進(jìn)行優(yōu)化,并且不需要任何復(fù)雜的后處理,經(jīng)實(shí)驗(yàn)證明該網(wǎng)絡(luò)對(duì)場(chǎng)景文本的輪廓具有優(yōu)秀的準(zhǔn)確性和魯棒性。Zhou[9]等人通過(guò)單一的卷積神經(jīng)網(wǎng)絡(luò),直接預(yù)測(cè)完整圖像中任意方向的四邊形文本,消除了不必要的中間步驟,比如文本區(qū)域的劃分和形成等,并且該網(wǎng)絡(luò)是全卷積神經(jīng)網(wǎng)絡(luò),可以對(duì)輸出的單詞或者文本的每一個(gè)像素進(jìn)行預(yù)測(cè)。Li[10]等人提出了一種漸近尺度擴(kuò)展網(wǎng)絡(luò),一種基于圖像分割的文本檢測(cè)模型,它可以實(shí)現(xiàn)對(duì)每個(gè)文本實(shí)例進(jìn)行預(yù)測(cè),通過(guò)具有最小尺度的內(nèi)核擴(kuò)展到具有最大和完整形狀的文本實(shí)例。由于內(nèi)核之間存在很大的幾何邊距,因此該方法對(duì)任意形狀具有良好的魯棒性。
針對(duì)文本識(shí)別問(wèn)題,Shi[11]等人基于圖像序列解決了場(chǎng)景文本識(shí)別的問(wèn)題,提出了一種新的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),該網(wǎng)絡(luò)可以進(jìn)行端到端訓(xùn)練,能夠自然處理任意長(zhǎng)度的文本序列,無(wú)需進(jìn)行字符分割或水平尺度歸一化處理。該方法集成了卷積神經(jīng)網(wǎng)絡(luò)和遞歸神經(jīng)網(wǎng)絡(luò)的優(yōu)點(diǎn)來(lái)完成文本識(shí)別問(wèn)題。此外,該方法的主干網(wǎng)絡(luò)放棄了傳統(tǒng)神經(jīng)網(wǎng)絡(luò)中的全連接層,成為了一個(gè)更加緊湊和高效的模型。并且該方法在光學(xué)音樂(lè)識(shí)別數(shù)據(jù)集上的效果同樣優(yōu)于其他網(wǎng)絡(luò)。
目前,無(wú)論是通過(guò)傳統(tǒng)圖像或者基于深度學(xué)習(xí)的印章識(shí)別算法很多,但是各種算法都存在相應(yīng)的局限性。比如基于傳統(tǒng)圖像通過(guò)字符切割對(duì)文本進(jìn)行識(shí)別,但是未考慮到文本彎曲程度大無(wú)法準(zhǔn)確切割的問(wèn)題?;谏疃葘W(xué)習(xí)的網(wǎng)絡(luò)模型需要大量數(shù)據(jù)集進(jìn)行訓(xùn)練,而印章與其他目標(biāo)對(duì)象不同,它是個(gè)人、公司的重要物品,因此無(wú)法公開印章數(shù)據(jù)集,這給基于卷積神經(jīng)網(wǎng)絡(luò)的印章文本檢測(cè)與識(shí)別帶來(lái)了困難。為了解決上述問(wèn)題,本文提出了一種印章特征增強(qiáng)結(jié)構(gòu)(Seal Feature Enhancement Structure,SFES),該結(jié)構(gòu)用于提取印章文本,并有利于在電子文檔場(chǎng)景下對(duì)中文印章進(jìn)行識(shí)別。
電子文檔圖像大多數(shù)是將紙質(zhì)文檔通過(guò)掃描儀器進(jìn)行掃描而產(chǎn)生的,掃描過(guò)程中會(huì)出現(xiàn)雜質(zhì)以及紙質(zhì)文檔氧化等情況,導(dǎo)致掃描后的電子文檔圖像會(huì)出現(xiàn)黑點(diǎn)、褶皺等噪聲。常見(jiàn)的圖像濾波算法包括均值濾波算法、雙邊濾波算法、高斯濾波算法等。
均值濾波是獲取窗口函數(shù)覆蓋的區(qū)域中的所有像素值的平均值,并代替窗口函數(shù)原先的所有像素值。該濾波算法計(jì)算速度快,但是在濾波的同時(shí)會(huì)丟失圖像的細(xì)節(jié)。中值濾波算法與上述算法的區(qū)別是通過(guò)獲取區(qū)域中像素值的中位數(shù)來(lái)代替原先的所有像素值,該算法對(duì)處理“胡椒鹽”類噪聲的效果好。
高斯濾波算法與均值濾波算法相似,返回濾波器窗口中的像素均值,可以對(duì)圖像平滑化。不同點(diǎn)在于窗口模板系數(shù),均值濾波算法的模板系數(shù)均為1,高斯濾波算法的系數(shù)與模板中心的距離成反比,服從二維正態(tài)分布的系數(shù)分配模式。式(1)為二維高斯分布公式。
其中x,y 為像素點(diǎn)坐標(biāo),在電子圖像中可以當(dāng)作整數(shù)來(lái)處理,σ 為標(biāo)準(zhǔn)差??梢酝ㄟ^(guò)該公式計(jì)算高斯核,再與圖像的像素值相乘疊加得到最終結(jié)果。
圖像飽和度是色彩中彩色成分和消色成分的占比,該比例決定多通道圖像中色彩的鮮艷程度。在多數(shù)電子文檔圖像中的印章均為紅色,并且印章與周圍像素值具有明顯的差值。
飽和度調(diào)整算法是將紅(R)、綠(G)和藍(lán)(B)組成的顏色空間轉(zhuǎn)換為色調(diào)(H)、飽和度(S)、明亮度(V)顏色空間,用來(lái)對(duì)飽和度S 進(jìn)行上下限控制,此處無(wú)需考慮色相H差異,當(dāng)增量小于0時(shí),R 可通過(guò)線性減弱方式調(diào)整;當(dāng)增量取-1時(shí),可直接采用線性方式調(diào)整。同時(shí)將飽和度調(diào)整過(guò)的RGB 進(jìn)行校驗(yàn),最終將RGB 的圖像輸出即可。
SFES(Seal Feature Enhancement Structure)的架構(gòu)如圖1所示,該結(jié)構(gòu)總體分為模塊一和模塊二。為了提高識(shí)別速度,模塊一通過(guò)漫水填充算法對(duì)灰度圖進(jìn)行處理,而不是直接對(duì)原圖進(jìn)行處理,從而將印章檢測(cè)問(wèn)題轉(zhuǎn)換為印章分割問(wèn)題,為了保證輪廓檢測(cè)的準(zhǔn)確性,再對(duì)圖像進(jìn)行二值化處理以達(dá)到印章檢測(cè)的目的。但是印章被切割后仍然無(wú)法識(shí)別印章中的文本。模塊二根據(jù)模塊一的輸出進(jìn)行極坐標(biāo)轉(zhuǎn)換,將印章中的彎曲文本轉(zhuǎn)換為矩形文本,方便后續(xù)進(jìn)行識(shí)別。
圖1 SFES 架構(gòu)圖
彩色圖像是通過(guò)(R,G,B)三通道來(lái)表征一幅圖像,在圖像處理過(guò)程中,算法更加關(guān)注圖像梯度信息,而不是彩色信息。三通道圖像的參數(shù)量會(huì)導(dǎo)致算法運(yùn)行緩慢等消極影響,為保證圖像梯度信息的同時(shí),也減少了參數(shù)量,印章識(shí)別過(guò)程采用單通道的灰度圖。灰度圖是只包含亮度信息,通常劃分0 至255 個(gè)級(jí)別,其中0 代表全黑,255 代表全白。彩色圖轉(zhuǎn)換為灰度圖公式如式(2)所示。
該式通過(guò)1×3 矩陣與3×1 矩陣相乘得到灰度值。
漫水填充算法是圖像預(yù)處理中常用的區(qū)域填充算法,該算法根據(jù)像素灰度值之間的差異尋找相同區(qū)域?qū)崿F(xiàn)圖像分割。圖2 為漫水填充原理圖。
圖2 漫水填充原理圖
該算法在處理過(guò)程中隨機(jī)選定初始種子點(diǎn)作為起始點(diǎn),向周圍像素點(diǎn)擴(kuò)散,將相似的像素值容納在內(nèi),得到一組無(wú)交集的連通區(qū)域,并將其填充新的像素值。同時(shí)需要設(shè)置掩碼圖像,要求比原圖片寬高各大兩個(gè)像素以防止邊緣被填充。具體算法步驟如下:
(1)在原圖中隨機(jī)標(biāo)記種子像素點(diǎn),標(biāo)記為(x,y)。
(2)搜索步驟(1)中的種子點(diǎn)的鄰域點(diǎn),如果該點(diǎn)未被遍歷過(guò)且滿足填充條件,則填充該位置。
(3)檢測(cè)已填充位置,繼續(xù)執(zhí)行步驟(2)。
(4)當(dāng)全部像素點(diǎn)被遍歷,則填充完成。
如圖1 中所示為電子文本圖像進(jìn)行漫水填充算法后的結(jié)果,印章像素值和周圍像素值差值更大,更方便尋找輪廓。
二值化是將圖像中像素點(diǎn)的灰度值設(shè)置為0 或者255。通過(guò)閾值法實(shí)現(xiàn)圖像二值化,將圖像所有像素點(diǎn)的像素值與某個(gè)臨界灰度值x 做對(duì)比,如果大于x 則設(shè)置為灰度最大值,反之則設(shè)置為灰度最小值。閾值的選取方式可以選擇基于平均值的方式、基于直方圖雙峰的方式、基于最大類間方差的方式。
基于平均值的方式的閾值取為圖像本身像素值的平均值。如果背景和物體的灰度值差異較大,則可以基于直方圖雙峰的方式進(jìn)行二值化。但是上述閾值的選取方式都具有本身的局限性,且直方圖包含低谷和不規(guī)則抖動(dòng),導(dǎo)致尋找準(zhǔn)確的極值點(diǎn)十分困難。故采用基于最大類間方差的方式進(jìn)行圖像二值化。方差可以評(píng)估灰度分布的均勻性,目標(biāo)物體和背景之間的類間方差越大,說(shuō)明兩部分的差距越大,當(dāng)部分目標(biāo)物體和背景之間的像素混淆時(shí)會(huì)引起類間差距減小,因此采用基于類間方差方式的閾值法進(jìn)行二值化會(huì)更加準(zhǔn)確。
輪廓檢測(cè)是在電子文本圖像中,忽略圖像背景以及紋理信息等噪聲的干擾,實(shí)現(xiàn)目標(biāo)輪廓提取的過(guò)程。輪廓檢測(cè)算法采用連通域思想進(jìn)行輪廓,存在兩個(gè)像素a1和a2,如果a1在a2的四鄰域中,稱兩個(gè)像素為四連通;如果a1在a2的八鄰域中,稱兩個(gè)像素為八連通,如圖3所示,其中P 代表當(dāng)前像素。
圖3 四連通和八連通
假設(shè)輸入圖像為F=f(i,j),其中i,j 為像素坐標(biāo),f(i,j)為在該點(diǎn)的像素值。確定邊界開始點(diǎn)i,j 進(jìn)行邊界追溯,按順時(shí)針?lè)较虿檎以擖c(diǎn)的四連通是否存在非0 像素點(diǎn),對(duì)像素值為1 的(i,j)點(diǎn)若與其四連通也存在某點(diǎn)的值是1,則兩點(diǎn)劃為同一物體,圖4 所示為四連通運(yùn)算結(jié)果。
圖4 四連通結(jié)果圖
如圖5 所示,可通過(guò)極坐標(biāo)轉(zhuǎn)換將坐標(biāo)軸中的圓形轉(zhuǎn)換為矩形。
圖5 極坐標(biāo)轉(zhuǎn)換
假設(shè)圓形圖片中的某個(gè)坐標(biāo)點(diǎn)Q(x,y),矩形中的某個(gè)坐標(biāo)點(diǎn)P(m,n),圓形半徑為R,矩形長(zhǎng)寬比為N:M,則圓形上任意點(diǎn)坐標(biāo)(x,y)和矩形內(nèi)任意點(diǎn)坐標(biāo)的轉(zhuǎn)換規(guī)則如式(3)所示。
其中縮放因子r=N/R,角度因子t=2π/M。
為了保證最終的文本識(shí)別率,通過(guò)判斷像素值把印章檢測(cè)結(jié)果中的黑色像素值剔除。具體算法步驟如下:
(1)讀取印章文本圖像,并獲取圖像的weight、high屬性。
(2)遍歷文本圖像像素,判斷當(dāng)前像素點(diǎn)是否滿足剔除條件。
(3)如果滿足條件則剔除像素,并賦予新的像素值;如果不滿足,則繼續(xù)判斷下一個(gè)像素點(diǎn),直到完成遍歷所有像素點(diǎn)。
CTW(Chinese Text in the Wild)[12]是一個(gè)自然場(chǎng)景下的中文數(shù)據(jù)集,包含30 000 多張街景圖片,并標(biāo)記了3 850萬(wàn)個(gè)漢字。該數(shù)據(jù)集自然場(chǎng)景種類多樣,包括平面文本、凸起文本、遮擋文本等場(chǎng)景。標(biāo)記格式不僅包含了字符以及邊界框,還具備環(huán)境復(fù)雜性,比如外觀、風(fēng)格等。本節(jié)所提及的文本檢測(cè)網(wǎng)絡(luò)的訓(xùn)練均在該數(shù)據(jù)集上進(jìn)行。
為了驗(yàn)證SFES 對(duì)中文印章識(shí)別的有效性,本實(shí)驗(yàn)制作了100 張包含中文印章文本圖像的電子文檔數(shù)據(jù)。
如圖6 所示,設(shè)直接輸入圖像為方法一,輸入圖像+模塊一為方法二,輸入圖像+模塊一+模塊二為方法三。
圖6 文本檢測(cè)模型數(shù)據(jù)對(duì)比
文本檢測(cè)網(wǎng)絡(luò)模型采用Craft[13]、ABCNet[14]、DRRG[7]、TextSnake[15]、FCENet[8]、PANet[16]、PSNet[10]網(wǎng)絡(luò)。實(shí)驗(yàn)數(shù)據(jù)表明,Craft 模型和ABCNet 模型通過(guò)方法二有顯著的檢測(cè)率上升的趨勢(shì)。DRRG、TextSnake、FCENet、PANet、PSNet網(wǎng)絡(luò)模型通過(guò)方法二和方法三均呈現(xiàn)上升的趨勢(shì)。
將上述實(shí)驗(yàn)的數(shù)據(jù)結(jié)果分析可得,在基礎(chǔ)的文本檢測(cè)網(wǎng)絡(luò)中的原始圖像輸入通過(guò)方法二、方法三更改后,印章文本的檢測(cè)都有明顯的提升,這是因?yàn)镾FES 填補(bǔ)了網(wǎng)絡(luò)模型對(duì)中文彎曲文本檢測(cè)的不足,即增強(qiáng)了原始圖像的文本特征,又為后續(xù)的文本識(shí)別準(zhǔn)備了充足的工作。
圖7 所示為文本檢測(cè)模型+模塊一的效果圖,不難發(fā)現(xiàn),文本檢測(cè)網(wǎng)絡(luò)對(duì)彎曲文本的檢測(cè)效果不佳,每個(gè)網(wǎng)絡(luò)的檢測(cè)結(jié)果都存在相應(yīng)的問(wèn)題。具體表現(xiàn)為:FCENet、PSNet 以及TextSnake 網(wǎng)絡(luò)無(wú)法檢測(cè)到“珠?!薄熬帧比齻€(gè)字;PANet 網(wǎng)絡(luò)無(wú)法檢測(cè)“珠”“局”兩個(gè)字;Craft 網(wǎng)絡(luò)無(wú)法準(zhǔn)確定位每個(gè)漢字的位置;ABCNet 無(wú)法識(shí)別到漢字字符;DRRG 網(wǎng)絡(luò)檢測(cè)“珠”字出現(xiàn)了定位不準(zhǔn)確的問(wèn)題。
圖7 文本檢測(cè)模型通過(guò)模塊一的數(shù)據(jù)
通過(guò)模塊一的檢測(cè)結(jié)果直接輸入到文本識(shí)別網(wǎng)絡(luò)模型是無(wú)法進(jìn)行準(zhǔn)確識(shí)別漢字的,所以需要通過(guò)模塊二進(jìn)行極坐標(biāo)轉(zhuǎn)換,將彎曲文本轉(zhuǎn)換為矩形文本。如圖8所示,可以看到極坐標(biāo)轉(zhuǎn)換后的結(jié)果極佳,只有PANet網(wǎng)絡(luò)出現(xiàn)字符漏檢情況。
圖8 文本檢測(cè)模型通過(guò)模塊一和模塊二的數(shù)據(jù)
與文本檢測(cè)網(wǎng)絡(luò)的任務(wù)不同,文本識(shí)別網(wǎng)絡(luò)更加專注于印章文本的內(nèi)容而不是印章文本的位置。因此設(shè)文本識(shí)別網(wǎng)絡(luò)+模塊一為方法一,文本識(shí)別網(wǎng)絡(luò)+模塊一+模塊二為方法二,圖9 所示為文本識(shí)別網(wǎng)絡(luò)融合SFES 所產(chǎn)生的實(shí)驗(yàn)結(jié)果。文本識(shí)別網(wǎng)絡(luò)采用PaddleOCR、SAR[17]、CRNN[11]。根據(jù)實(shí)驗(yàn)結(jié)果可以觀察到,方法一所展示的上述文本識(shí)別網(wǎng)絡(luò)針對(duì)彎曲文本的識(shí)別均未達(dá)到預(yù)期的效果,識(shí)別率均在40%以下。方法二的中文印章文本識(shí)別率得到了一定幅度的提升,證明了SFES 在中文印章文本識(shí)別的有效性。
圖9 文本識(shí)別網(wǎng)絡(luò)通過(guò)模塊一和模塊二的數(shù)據(jù)對(duì)比
本文提出了一種基于漫水填充算法的中文印章文本識(shí)別方法,該方法通過(guò)印章特征增強(qiáng)結(jié)構(gòu)完成印章圖像與掃描電子文檔的分割,以及將彎曲文本轉(zhuǎn)換為矩形文本。實(shí)驗(yàn)表明,文本檢測(cè)網(wǎng)絡(luò)與識(shí)別網(wǎng)絡(luò)融合SFES 后檢測(cè)率和識(shí)別率都得到了明顯提升。盡管該方法在實(shí)驗(yàn)中表現(xiàn)出優(yōu)異的性能,但是該方法在魯棒性上表現(xiàn)不佳,后續(xù)可通過(guò)傅里葉變換等方式進(jìn)行更加深入的研究。