季昊龍
(中國(guó)刑事警察學(xué)院 聲像資料檢驗(yàn)技術(shù)系,遼寧 沈陽(yáng) 110035)
圖像逐步成為不可或缺的信息載體,這是由于智能手機(jī)等數(shù)碼產(chǎn)品的普及,使得圖像的產(chǎn)生越發(fā)容易。并且互聯(lián)網(wǎng)的普及,網(wǎng)民數(shù)量日益攀升,網(wǎng)絡(luò)成為圖片傳播的重要途徑,使得圖片的數(shù)量爆炸式增長(zhǎng)。起初數(shù)字圖像處理重點(diǎn)處理圖像數(shù)據(jù)本身,如圖像的小波變換、壓縮、降噪等目的是提高圖像品質(zhì),降低儲(chǔ)存成本?,F(xiàn)在圖像處理結(jié)合人工神經(jīng)網(wǎng)絡(luò)、模糊邏輯等新理論方法,使圖像處理往更高層面發(fā)展,實(shí)現(xiàn)圖像處理的人工智能。
圖像含有大量?jī)?nèi)容,如人、建筑物以及文字等等。其中文字作為重要內(nèi)容之一包含大量潛在關(guān)鍵信息。如馬路標(biāo)識(shí)、店鋪名稱上面均含有文字,對(duì)于自然場(chǎng)景定位識(shí)別提供了重要線索。如圖1所示左邊是馬路標(biāo)識(shí),右邊是店鋪名稱。若實(shí)現(xiàn)對(duì)文字信息自動(dòng)定位識(shí)別,則接下來(lái)可以用于圖片檢索、計(jì)算機(jī)視覺(jué)、自動(dòng)巡航、無(wú)人汽車(chē)等,為人們生活提供便利。
圖1 馬路標(biāo)識(shí)與店鋪名稱
認(rèn)知自然場(chǎng)景文字是在對(duì)文字所處環(huán)境限制少的情況下,對(duì)文字進(jìn)行的定位和識(shí)別。先采集圖像,得到圖像后再進(jìn)行定位、分析,達(dá)到識(shí)別的目的。自然場(chǎng)景圖像文字與傳統(tǒng)掃描文檔的文字相比,具有表1所示的特點(diǎn)。
表1 自然場(chǎng)景圖像文字與傳統(tǒng)掃描文檔的文字特點(diǎn)對(duì)比
圖2 背景復(fù)雜條件
圖3 易受環(huán)境因素影響條件
圖4 文字樣式不統(tǒng)一
在文字定位中OCR應(yīng)用較普及,對(duì)于字符完整、背景單一的規(guī)則文字識(shí)別率高,但對(duì)有大量噪聲、形狀雜亂無(wú)章的文字識(shí)別率低。通過(guò)OCR測(cè)試,在任意的PDF文檔里選100個(gè)文字塊,識(shí)別準(zhǔn)確率為97%。而用OCR識(shí)別自然場(chǎng)景圖片的文字,該甚至無(wú)法區(qū)別非文字區(qū)域和文字區(qū)域,需要事先優(yōu)化,才能將自然場(chǎng)景的文字轉(zhuǎn)換成可被OCR識(shí)別的字符。因此,文字定位系統(tǒng)的性能十分重要,目前定位算法不具普適性,需迫切提高算法性能。正因?yàn)樽匀粓?chǎng)景文字定位具有定位價(jià)值,大量研究機(jī)構(gòu)致力開(kāi)發(fā)有效的文字定位系統(tǒng),代表性的有國(guó)際文檔分析和識(shí)別大會(huì)(ICDAR)文字比賽[1]。2017年舉行的ICDAR的中文檢測(cè)和識(shí)別比賽項(xiàng)目(RCTW)比賽包含兩項(xiàng)任務(wù),分為end-to-end文本識(shí)別和文本檢測(cè)。文本檢測(cè)以PR曲線、mAP、ROC曲線、F-score為評(píng)價(jià)標(biāo)準(zhǔn)。
PR曲線:該曲線是以查準(zhǔn)率(P)為縱坐標(biāo),以查全率(R)為橫坐標(biāo)。P關(guān)心的是正、反例子挑選出正例的問(wèn)題。R關(guān)心的是正例挑選出正例的問(wèn)題。
mAP:每種類(lèi)別均可繪制PR曲線,X軸與曲線下方之間的面積稱為AP,對(duì)AP再求mean,就是mAP。
ROC曲線:曲線的坐標(biāo)分為假正例率(FPR)與真正例率(TPR)。
F-score:PR曲線中R和P兩個(gè)指標(biāo)。
競(jìng)賽前五名如表2所示。
表 2 競(jìng)賽前五名信息
自然場(chǎng)景文字定位的方法分為基于紋理特征方法、基于連通域分析方法和基于邊緣特征方法。
對(duì)圖像的像素灰度級(jí)分布模式的表現(xiàn)被稱為紋理,紋理能反映物品粗糙程度、顆粒程度、光滑程度等質(zhì)地。背景不具備紋理特征,而文字可以看做是具有特殊性的紋理,所以背景區(qū)域和紋理區(qū)域的分離可以利用基于紋理特征的方法。下面是表示圖像紋理的方法。
3.1.1 頻譜分析法
頻譜分析法是以傅里葉變換為基礎(chǔ),根據(jù)傅里葉變換的波谷、波峰的分布對(duì)圖像進(jìn)行分類(lèi)。常用的參量有峰值的幅度、數(shù)量、峰值與峰值間的相差角、距離等。
3.1.2 統(tǒng)計(jì)分析法
統(tǒng)計(jì)分析法有紋理邊緣、自回歸模型、自相關(guān)函數(shù)、灰度空間共生概率等。
3.1.3 結(jié)構(gòu)分析法
結(jié)構(gòu)方法主要研究基元。基元是一種單元集合,這種單元集合因具有某種屬性(連通域的灰度、形狀),彼此相鄰。基元的空間關(guān)系包括基元的最近間隔和相鄰性等[2]。
基于紋理特征的方法對(duì)圖像中文字區(qū)域進(jìn)行文字信息提取,首先對(duì)圖像的紋理特征進(jìn)行檢測(cè),常用傅里葉變換、小波變換等,然后利用窗口掃描并分析該窗口是否含有文本,當(dāng)窗口內(nèi)含有文本時(shí)得到候選文本區(qū)塊,然后使用金字塔對(duì)字符大小不一的情況進(jìn)行分解,最后把候選文本區(qū)還原到原圖像進(jìn)行合并[3]。如使用窗口遍歷圖像,并在窗口圖像中提取紋理特征分別為窗口內(nèi)邊緣點(diǎn)的數(shù)量、提取窗口內(nèi)梯度的均值、提取窗口內(nèi)圖像邊緣點(diǎn)的直方圖以及提取窗口內(nèi)梯度的方差。再?gòu)牡玫降倪@幾類(lèi)紋理特征中利用信息熵選取出更有效的特征分類(lèi)子窗口。Mao等人針對(duì)圖像含有混合文本的檢測(cè),提出多尺度紋理分析的方法。先對(duì)圖像進(jìn)行小波變換,計(jì)算圖像局部能量差異,非文本區(qū)域局部能量差異小,文本區(qū)域局部能量差異大。對(duì)差異圖二值化處理并連通域分析,得到候選文本區(qū)域?qū)⒎俏谋緟^(qū)域排除。
基于紋理的方法能得到較高的檢測(cè)率,對(duì)于字符大小的尺寸不敏感。但該方法要先計(jì)算圖像紋理特征,當(dāng)遇到與文字紋理特征相似的圖像時(shí),易受干擾。并且計(jì)算過(guò)程中需要卷積運(yùn)算,計(jì)算復(fù)雜,耗時(shí)長(zhǎng)。
該方法利用場(chǎng)景圖片中同一區(qū)域文本色彩相似,寬高大小比相似,字符與背景有較高的對(duì)比度且邊緣明顯的特性。采用二值化分割或顏色聚類(lèi)得到連通區(qū)域,把得到的連通區(qū)域當(dāng)做文本候選區(qū)域,利用連通域大小、字符覆蓋率等先驗(yàn)知識(shí)為限制條件對(duì)上述的連通區(qū)域進(jìn)行篩選。最終將非文本區(qū)域去除從而得到文本區(qū)域。但是自然場(chǎng)景圖像中,顏色相對(duì)復(fù)雜,對(duì)分割的影響較大,可能會(huì)出現(xiàn)一個(gè)字符被分割到不同的連通區(qū)域中,與可能會(huì)出現(xiàn)字符和背景被分割到一個(gè)區(qū)域的情況。研究人員對(duì)此進(jìn)行相應(yīng)的改進(jìn),例如:在檢測(cè)自然場(chǎng)景中任意字符串的時(shí)候。Yi利用顏色均勻性和局部梯度特性首先對(duì)自然場(chǎng)景的圖像進(jìn)行分割,然后在分割好的圖像中找到含有文本字符的區(qū)域作為字符的候選區(qū)域[4]。依據(jù)文本字符大小差異、字符對(duì)齊以及字符與字符間距等結(jié)構(gòu)特征,在候選區(qū)中合并候選字符。并假設(shè)三個(gè)及三個(gè)以上的字符組成一個(gè)文本字符串,他們提出檢測(cè)字符串的兩種算法:一是文本行合并法,文本行合并法通過(guò)霍夫變換使文本行在候選區(qū)的中心處,表示出潛在的字符串方向。該算法提高了準(zhǔn)確性和效率,二是相鄰字符合并法。該方法的字符串片段是依靠計(jì)算字符的相鄰候選區(qū)得到,得到字符串片段后再對(duì)其進(jìn)行交叉合并從而得到文本字符串。
對(duì)于雜志、新聞圖像上的文本,Soo-chang Pei提出一種新方法來(lái)進(jìn)行檢測(cè)。首先對(duì)需要處理的圖像進(jìn)行彩色量化得到柱狀圖,挑出幾種候選顏色。然后設(shè)置閾值對(duì)選出的顏色進(jìn)行二值化,得到二值化圖像。再對(duì)二值子圖像進(jìn)行邊緣檢測(cè)、連通域分析得到文本區(qū)域,該算法誤報(bào)率低[5]。
以上兩種基于顏色特征進(jìn)行連通域分析法,在需要處理的圖像有噪聲或圖像中文本尺寸、方向變化的情況下,表現(xiàn)出較好的性能,適合根據(jù)圖像內(nèi)容進(jìn)行檢索的圖像系統(tǒng)。
因?yàn)樽匀粓?chǎng)景圖片中背景與字符對(duì)比度較高,字符的邊緣信息十分豐富,像素灰度值的變化很大,兩者之間邊緣明顯,適用于計(jì)算機(jī)辨別自然場(chǎng)景圖像中的文字?;谶吘壧卣鞯奈谋径ㄎ环椒ㄒ罁?jù)圖像中豐富的字符邊緣信息進(jìn)行檢測(cè)。常用的邊緣檢測(cè)算子如表3所示。
表3 常用的邊緣檢測(cè)算子
對(duì)于自然場(chǎng)景圖片進(jìn)行基于邊緣特征文本定位時(shí),灰度化處理待處理圖片,得到灰度圖像后通過(guò)邊緣檢測(cè)定位文字區(qū)域。例如:Hasan提出使用形態(tài)學(xué)技術(shù)的辦法,待處理圖片進(jìn)行灰度化處理并獲得對(duì)應(yīng)的邊緣圖,然后利用形態(tài)學(xué)運(yùn)算對(duì)邊緣圖進(jìn)行噪聲過(guò)濾、連接邊緣,最后根據(jù)顏色相似性進(jìn)行文本檢驗(yàn)。該方法受到傾斜、文字方向、噪聲的干擾小。但如果在自然場(chǎng)景圖像中背景與文本色彩差異很大,圖像灰度化處理后兩者的灰度值差異很小的情況,該方法無(wú)法有效處理。Smith提出先對(duì)圖像利用差分濾波器進(jìn)行過(guò)濾,得到文字垂直邊緣特征,之后對(duì)文字的相鄰連接邊緣、小邊緣進(jìn)行過(guò)濾,即可定位到文本區(qū)域 Agnihotri提出一種對(duì)視頻中的文本進(jìn)行定位方法,該方法流程如下:
Min Cai提出了一種利用邊緣密度、強(qiáng)度、水平分布等特征不變進(jìn)行檢測(cè)的辦法[6]。先提取圖像邊緣并設(shè)定閾值對(duì)圖像中非文本邊緣進(jìn)行過(guò)濾,設(shè)定閾值對(duì)比度低的文本進(jìn)行保持,而復(fù)雜且對(duì)比度高的文本進(jìn)行簡(jiǎn)化。利用增強(qiáng)算子強(qiáng)調(diào)邊緣密度高、強(qiáng)度高的區(qū)域。最后定位含有文本的區(qū)域。
上述利用邊緣檢測(cè)進(jìn)行文本定位,速度快,時(shí)間復(fù)雜性低。適用于簡(jiǎn)單背景且文本有豐富的邊緣信息的定位,但當(dāng)背景復(fù)雜時(shí),會(huì)檢測(cè)出大量非文本,虛警率比較高。
自然場(chǎng)景圖片中文字區(qū)域繁雜多樣,字符特征隨之變化。自然場(chǎng)景文字的定位方法對(duì)于不同類(lèi)型的文本文字需要選擇性。一種文字定位方法對(duì)于特定的文本具有良好的定位效果,但對(duì)于其他類(lèi)型的文本無(wú)法進(jìn)行有效定位。并且在自然場(chǎng)景中背景復(fù)雜,光照不均勻,文字的大小、樣式、排列方式的不統(tǒng)一使得文本問(wèn)題具有隨機(jī)性、多樣性以及挑戰(zhàn)性。由此可見(jiàn)僅僅選用某一類(lèi)處理方法和特征并不能取得良好的效果,現(xiàn)在都是基于多種方法和特征的組合利用進(jìn)行有效定位。
目前文字識(shí)別系統(tǒng)商業(yè)化的發(fā)展受到自然場(chǎng)景中文字定位系統(tǒng)的制約,國(guó)內(nèi)外大量的研究機(jī)構(gòu)和人員力求開(kāi)發(fā)出高識(shí)別性、高魯棒性、高準(zhǔn)確性、高召回率的文字識(shí)別定位系統(tǒng)。人工智能的利用配合多方法結(jié)合和全方位分析稱為自然場(chǎng)景文字定位系統(tǒng)的發(fā)展潮流。智能手機(jī)的迅速發(fā)展及廣泛應(yīng)用也對(duì)文字定位系統(tǒng)的運(yùn)行速度等方面提出了新要求。隨著人們對(duì)于技術(shù)探索的不斷深入和人工智能的快速發(fā)展,我們期待在
未來(lái)自然場(chǎng)景中文字定位技術(shù)一定會(huì)有巨大的飛躍。
[1]王 煒.基于角點(diǎn)和顏色的自然場(chǎng)景文字定位技術(shù)研究[D].西安:西安電子科技大學(xué),2011.
[2]周 易.基于關(guān)聯(lián)規(guī)則挖掘的圖像檢索[J].軟件,2012,33(4):28-30.
[3]陳 森.自然場(chǎng)景圖像中的文本定位方法及應(yīng)用研究[D].廣州:華南理工大學(xué),2011.
[4]柏宏飛.場(chǎng)景圖像文字提取方法研究與應(yīng)用[D].上海:復(fù)旦大學(xué),2009.
[5]歐文武,朱軍民,劉昌平.自然場(chǎng)景文本定位[J].中文信息學(xué)報(bào),2004,18(5):42-47.
[6]王 毅.基于內(nèi)容的新聞視頻摘要技術(shù)研究[D].鄭州:解放軍信息工程大學(xué),2010.