張開玉 邵康一 盧迪
摘 要:針對(duì)在自然場(chǎng)景中文本定位需要大量樣本訓(xùn)練導(dǎo)致算法運(yùn)行速度較慢且傾斜文本難以定位的問題,提出了一種基于最大穩(wěn)定極值區(qū)域(maximally stable extremal regions,MSER)結(jié)合層次聚類的快速自然場(chǎng)景傾斜文本定位算法。利用MSER橢圓擬合的方法對(duì)圖片進(jìn)行最大極值穩(wěn)定區(qū)域的選取,并根據(jù)擬合橢圓的自身特征和在圖像上的位置特征,過濾掉大部分的非文本區(qū)域,篩選出文本候選區(qū)域。運(yùn)用層次聚類的思想,快速對(duì)文本區(qū)域逐層聚類融合,最終將單個(gè)的文本區(qū)域合并成單詞區(qū)域,實(shí)現(xiàn)高效的傾斜場(chǎng)景文本定位。實(shí)驗(yàn)結(jié)果表明,與傳統(tǒng)的定位算法相比,該算法在沒有損失定位精度的情況下運(yùn)算速度有明顯的提升。
關(guān)鍵詞:場(chǎng)景文本;最大穩(wěn)定極值區(qū)域;層次聚類;橢圓擬合
DOI:10.15938/j.jhust.2019.02.012
中圖分類號(hào): TP391.41
文獻(xiàn)標(biāo)志碼: A
文章編號(hào): 1007-2683(2019)02-0081-08
Abstract:Aiming at the problem that text localization requires a large number of training samples in natural scenes, which leads to low speed of algorithm running and it is difficult to locate skewed text, a fast natural scene skewed text localization algorithm based on maximally stable extremal regions(MSER) with hierarchical clustering is proposed . The method of MSER ellipse fitting is used to select the maximally stable extremal regions of the images, and according to the characteristics of the fitting ellipse and its position on the images, the majority of nontext regions are filtered out and the text candidate regions are selected. By using the idea of hierarchical clustering, the text regions can be clustered gradually and merged into text regions rapidly. Finally the individual text regions are merged into word regions, which can achieve efficient localization of skewed scenes. Experimental results show that the speed of this algorithm has improved significantly without loss of locating accuracy compared with traditional positioning algorithms.
Keywords:scene text; maximally stable extremal regions; hierarchical clustering; ellipse fitting
收稿日期: 2017-04-20
基金項(xiàng)目: 黑龍江省自然科學(xué)基金(面上項(xiàng)目)(F2016022).
作者簡(jiǎn)介:
邵康一(1992—),男,碩士研究生;
盧 迪(1971—),女,博士后,教授.
通信作者:
張開玉(1978—),男,博士研究生,副教授,Email:gotoayun@126.com.
0 引 言
自然場(chǎng)景文本定位是一種利用計(jì)算機(jī)將自然場(chǎng)景圖像中的文本定位出來的方法,這種方法不僅要求定位的精度,還要求定位的速度。Ye等[1]將自然場(chǎng)景文本檢測(cè)的方法分為了兩大類:滑動(dòng)窗口法和基于連通的方法。在滑動(dòng)窗口法中Chen等[2]根據(jù)綜合平均密度特征、密度方差以及直方圖特征,通過Adaboost分類器定位。伊芳等[3]首先提取視頻圖像中的連通區(qū)域并分析視頻文本的5類特征,最后通過Adaboost強(qiáng)分類器取得正確的文本區(qū)域。但是此類方法比較復(fù)雜,需要對(duì)特征樣本進(jìn)行訓(xùn)練,花費(fèi)時(shí)間也比較長(zhǎng)。近年來,基于連通的方法逐漸體現(xiàn)出它的優(yōu)勢(shì),其中MSER算法較為突出。Koo[4]等使用結(jié)合MSER區(qū)域檢測(cè)子的文本定位方法,獲得了2011年ICDAR大賽的冠軍。Yin[5]等使用結(jié)合枝剪的MSER區(qū)域檢測(cè)子的文本定位方法,獲得了2013年ICDAR大賽的冠軍,這體現(xiàn)了MSER在當(dāng)前文本定位中的強(qiáng)大實(shí)力。而后的2015年的ICDAR文本定位大賽變得更加具有挑戰(zhàn)性,相較于水平排列文本類型較多的ICDAR2011[6]和ICDAR2013[7] 文字/字符圖像數(shù)據(jù)庫,ICDAR2015[8]數(shù)據(jù)庫更多包含的是大場(chǎng)景中多方向的傾斜文本信息。近幾年對(duì)于傾斜文本定位的研究也有一定的發(fā)展, Zhu[9]使用從像素級(jí),文本級(jí),文本行級(jí)三個(gè)層面來設(shè)計(jì)的基于卷積神經(jīng)網(wǎng)絡(luò)和支持向量機(jī)(SVM)的三層結(jié)構(gòu)場(chǎng)景文本定位算法對(duì)傾斜文本進(jìn)行定位,雖然效果優(yōu)秀,但是在算法中需要在文本級(jí)中利用卷積神經(jīng)網(wǎng)絡(luò)對(duì)紋理特征進(jìn)行提取與分類以及在文本行級(jí)利用SVM對(duì)HOG特征進(jìn)行分類,算法復(fù)雜程度較高且需要進(jìn)行樣本訓(xùn)練。受RANSAC(Random Sample Consensus)算法[10]啟發(fā),一種基于相似連通分量與直線擬合的文本區(qū)域提取算法被用于傾斜文本的定位,此算法根據(jù)相似樣本的聚類和直線擬合模型的檢驗(yàn)完成對(duì)傾斜文本的定位。雖然這種方法不需要進(jìn)行樣本訓(xùn)練,但是此方法會(huì)因?yàn)槲谋靖浇?xì)微的干擾影響整個(gè)文本區(qū)域的定位。
傳統(tǒng)的文本定位算法存在兩個(gè)方面的問題,一是對(duì)于傾斜文本的定位效果不佳,例如文[11]中采用的雙向投影算法,在只有水平方向文本的情況下定位效果不錯(cuò),但是對(duì)于傾斜文本定位效果就不是很理想。二是運(yùn)行花費(fèi)時(shí)間長(zhǎng),基于分類器的文本定位算法[2,3,9],需要花費(fèi)大量時(shí)間在樣本的處理與訓(xùn)練上,雖然定位精度高,但是耗時(shí)較長(zhǎng)。
基于上述兩個(gè)方面的問題,本文提出了一種基于MSER結(jié)合層次聚類的快速自然場(chǎng)景傾斜文本定位算法,運(yùn)用MSER快速地對(duì)圖像文本區(qū)域進(jìn)行定位,避免了樣本處理與訓(xùn)練耗時(shí)長(zhǎng)的問題,再利用層次聚類的思想,對(duì)傾斜方向的文本有效地進(jìn)行融合,以解決傾斜文本定位效果不佳的問題。
1 算法結(jié)構(gòu)
本研究設(shè)計(jì)的算法流程如圖1所示。
1)把需要處理的彩色圖像進(jìn)行灰度化處理,利用MSER橢圓擬合算法對(duì)灰度圖像上的MSER區(qū)域進(jìn)行快速提取。
2)通過粗過濾和細(xì)過濾對(duì)提取的MSER區(qū)域進(jìn)行過濾篩選,刪除非文本區(qū)域。
3)運(yùn)用層次聚類的思想進(jìn)行文本融合。通過字符間距粗分類、字符鏈條件過濾、相似度字符鏈合并和RGB均值單字符與字符鏈篩選4個(gè)步驟將分散的文本區(qū)域合并成單詞區(qū)域,最終達(dá)到所需要的效果。
2 MSER擬合橢圓場(chǎng)景文本定位算法
2.1 MSER擬合橢圓算法
最大極值穩(wěn)定區(qū)域(MSER)[12]因?yàn)槠渚哂蟹律洳蛔冃砸约皩?duì)文本區(qū)域較為敏感的特點(diǎn)[13-15],因此被廣泛應(yīng)用于自然場(chǎng)景圖像的文本定位。但MSER所提取的區(qū)域一般是不規(guī)則的,這樣的區(qū)域不利于進(jìn)行特征描述[4],因此本文所用的MSER橢圓擬合算法,利用結(jié)構(gòu)仿射不變的特性將不規(guī)則的MSER區(qū)域擬合成規(guī)則的橢圓度量區(qū)域,在MSER橢圓擬合算法中,每一個(gè)代替不規(guī)則 MSER區(qū)域的擬合橢圓都會(huì)有各自的編號(hào)記錄在matlab工作區(qū)(workspace)的MSERRegions中,MSERRegions{region1,region2,region3,…},在每一個(gè)region中記錄著對(duì)應(yīng)MSER區(qū)域擬合橢圓的豐富信息,其中包括了擬合橢圓長(zhǎng)軸與短軸的長(zhǎng)度(Axes)、中心點(diǎn)坐標(biāo)(Location)、擬合橢圓的方向,即長(zhǎng)軸的方向(Orientation)以及被擬合橢圓包圍的MSER區(qū)域中所有像素點(diǎn)的坐標(biāo)信息(PixelList)。非文本區(qū)域過濾的大致思路就是利用包含在擬合橢圓中的信息,設(shè)置多層條件過濾,將不符合條件的擬合橢圓從MSERRegions中刪除,而符合條件的保留其中,最終達(dá)到快速有效地刪除非文本區(qū)域的效果。
2.2 基于擬合橢圓特征的非文本區(qū)域過濾
對(duì)圖像進(jìn)行MSER區(qū)域提取之后,圖像上呈現(xiàn)著大量用擬合橢圓圈出的疑似文本區(qū)域,如圖4所示,其中包括文本區(qū)域與非文本區(qū)域,因此需要根據(jù)文本區(qū)域與非文本區(qū)域擬合橢圓之間的特征差異對(duì)非文本區(qū)域進(jìn)行刪除。
將非文本區(qū)域的過濾過程分為粗過濾過程與細(xì)過濾過程,粗過濾的作用為大范圍地過濾圖像中的非文本區(qū)域,為后續(xù)的細(xì)過濾減少不必要的運(yùn)算工作量。細(xì)過濾是在粗過濾的基礎(chǔ)上,對(duì)與文本區(qū)域特征較為相近的非文本區(qū)域進(jìn)行過濾,為后續(xù)的文本融合做好鋪墊。
2.2.1 非文本區(qū)域粗過濾
非文本區(qū)域的粗過濾過程是一個(gè)過濾自然場(chǎng)景圖像中較為明顯的非文本區(qū)域的過程。這些非文本區(qū)域可以通過擬合橢圓自身的特征和空間位置快速地大范圍地過濾,為非文本區(qū)域的細(xì)過濾過程做好鋪墊。通過對(duì)大量文本區(qū)域與非文本區(qū)域擬合橢圓的特征進(jìn)行觀察和比較,可以發(fā)現(xiàn)文本區(qū)域擬合橢圓的長(zhǎng)軸與短軸的比值通常在一定的范圍之內(nèi)且通常位于圖像的內(nèi)部,很少位于圖像的邊緣,通過這2個(gè)特征就可以大致確定文本區(qū)域的位置。將擬合橢圓的長(zhǎng)軸與短軸的比值記為α,經(jīng)過反復(fù)試驗(yàn)當(dāng)α的閾值設(shè)為7時(shí)過濾效果比較理想。當(dāng)疑似文本區(qū)域的α值小于7時(shí),這個(gè)區(qū)域就被視為非文本區(qū)域,從MSERRegions中刪除。接著通過擬合橢圓內(nèi)所包含的MSER像素信息就能快速地過濾位于圖像邊緣的非文本區(qū)域。當(dāng)擬合橢圓所對(duì)應(yīng)的MSER區(qū)域含有圖像邊界像素點(diǎn)時(shí),就可以判斷這個(gè)區(qū)域?yàn)榉俏谋緟^(qū)域,可以從MSERRegions中刪除。就此完成了非文本區(qū)域的粗過濾,粗過濾效果如圖5所示。為了更加直觀,剔除的部分與背景進(jìn)行了黑色填充處理。
2.2.2 非文本區(qū)域細(xì)過濾
經(jīng)過了非文本區(qū)域的粗過濾之后,圖像中非文本區(qū)域的數(shù)量大大降低,但還是存在著許多與文本區(qū)域擬合橢圓特征相似、重合嵌套的非文本區(qū)域,若不過濾這些區(qū)域不僅會(huì)使之后文本融合的運(yùn)算量大大增加,還會(huì)讓最后的定位結(jié)果大打折扣。MSER橢圓擬合算法是將不規(guī)則的MSER提取區(qū)域擬合成規(guī)則的橢圓形,擬合出的橢圓面積與實(shí)際的MSER面積存在一定的差異,而大多數(shù)的文本區(qū)域都是屬于比較松散的分布,因此文本區(qū)域的擬合橢圓面積與MSER像素面積的比值會(huì)比非文本區(qū)域更高,利用這個(gè)特征可以刪除一部分非文本區(qū)域。將擬合橢圓面積與MSER實(shí)際面積的比值記為 ,經(jīng)過反復(fù)實(shí)驗(yàn)測(cè)試,將β的閾值設(shè)置為2.5比較理想,當(dāng)疑似文本區(qū)域的β小于2.5時(shí),認(rèn)為此區(qū)域?yàn)榉俏谋緟^(qū)域。但是也存在一些特殊的情況,例如1、f、l,這些細(xì)長(zhǎng)的字符的β值通常小于2.5,非常容易造成誤刪除,因此需要在β的閾值判斷后增加一個(gè)補(bǔ)償判斷,若被刪除的區(qū)域中α值大于4且小于7,則不會(huì)被刪除,繼續(xù)保留在MSERRrgions中。在圖像中還存著許多重合嵌套的擬合橢圓,它們嚴(yán)格來說都是屬于文本區(qū)域,但是重合嵌套的擬合橢圓會(huì)影響后續(xù)程序的運(yùn)算速度和定位效果,因此最理想的效果就是每一個(gè)文本區(qū)域只對(duì)應(yīng)一個(gè)擬合橢圓。通過對(duì)重復(fù)嵌套橢圓的分析,發(fā)現(xiàn)嵌套類型大致可以分為兩種,第一種是同一個(gè)字符的擬合橢圓重復(fù)嵌套,擬合橢圓大部分重合或是近似完全重合;第二種情況是兩個(gè)字母或是連續(xù)的幾個(gè)字符被選定了MSER擬合橢圓區(qū)域,但在這個(gè)區(qū)域內(nèi)又選定了其中單個(gè)或多個(gè)字符的MSER擬合橢圓區(qū)域,這種情況中小的橢圓包含于大的橢圓或者是近似于包含于大的橢圓內(nèi)。對(duì)于上述2種情況,過濾的準(zhǔn)則為盡量選取較大的擬合橢圓,這樣不僅能使字符區(qū)域選取得更加完整,還能減少擬合橢圓的數(shù)量,加快運(yùn)算速度。在此設(shè)置一個(gè)重疊誤差,將重疊誤差記為OE(Overlaperror),其表達(dá)式為
3 基于層次聚類的文本區(qū)域合并
定位單個(gè)文本區(qū)域?qū)ξ谋咀R(shí)別是沒有意義的,因此需要將單個(gè)的文本區(qū)域合并成完整的單詞區(qū)域。不同于ICDAR2011與ICDAR2013數(shù)據(jù)庫,ICDAR2015數(shù)據(jù)庫越來越來趨向于大場(chǎng)景以及多角度的傾斜文本的定位,而略微傾斜的文本對(duì)于水平聚合效果的影響不是很大,但是對(duì)于傾斜角度較大的文本效果就非常的差了。為了解決上述問題,本文提出了一種運(yùn)用層次聚類的思想,先將文本區(qū)域中的字符通過距離閾值分類并連接成字符鏈,再通過計(jì)算字符鏈之間的相似度,將相似程度較高的字符鏈進(jìn)行合并,對(duì)于未被分類的單個(gè)字符或是未被合并的單個(gè)字符鏈,通過與已被合并的字符區(qū)域的RGB均值進(jìn)行比較,保留符合條件的單個(gè)字符和字符鏈,避免了單個(gè)字符和字符鏈的誤刪除,進(jìn)一步保證了文本的完整性,因此基于層次聚類的文本區(qū)域合并不僅僅是一個(gè)文本區(qū)域合并的過程,也是一個(gè)進(jìn)一步對(duì)非文本區(qū)域過濾的過程。這種自底向上的方法使文本合并更為準(zhǔn)確,保證了合并時(shí)單詞的完整性。
3.1 字符鏈
字符鏈不僅僅是簡(jiǎn)單的字符分類,而是一種高級(jí)的字符聚合。字符鏈將分類好的雜亂的單個(gè)字符按照?qǐng)D像中字符相鄰的順序連接成一個(gè)有順序的字符整體,從字符鏈中不但可以了解到最基本的字符個(gè)數(shù),而且因?yàn)樽址準(zhǔn)且粋€(gè)整體,可以從中觀察到單個(gè)字符中觀察不到的特征,利用這些特征能更加利于字符的融合。
3.2 字符鏈相似度因素的選擇
在基于層次聚類的文本區(qū)域合并中,最為重要的步驟就是通過計(jì)算字符鏈之間的相似度來合并字符鏈,因此字符鏈相似度因素的選擇就顯得十分重要。多數(shù)情況下,在同一個(gè)傾斜的文本中即使文本被分成了多個(gè)分散的字符鏈,字符鏈之間也有著相似的傾斜程度,并且這些字符鏈都有著相近的字符個(gè)數(shù),通過以上兩點(diǎn)特征就可以對(duì)字符鏈進(jìn)行合并。
3.3 具體步驟
基于層次聚類的文本合并具體可以分為4個(gè)步驟:第一步為字符間距粗分類,第二步為字符鏈條件過濾,第三步為根據(jù)字符鏈的相似度進(jìn)行字符鏈的合并,第四步為根據(jù)RGB均值對(duì)單獨(dú)的字符和字符鏈進(jìn)行篩選。
1)計(jì)算每個(gè)文本區(qū)域之間的歐式距離,即每個(gè)擬合橢圓中心點(diǎn)之間的歐式距離,再通過一個(gè)字符間距的閾值來進(jìn)行初步的分類。
經(jīng)過非文本區(qū)域的過濾,MSERRegions中還剩余i個(gè)MSER區(qū)域(region),將字符間距的閾值記為avgdis,通過式(2)計(jì)算出閾值avgdis,其中dis表示每個(gè)文本到其他文本的歐式距離中最小的2個(gè)值的平均值。通過這個(gè)閾值就初步得到在距離方面互相有關(guān)聯(lián)的字符組,在同一個(gè)字符組中相鄰的字符相連就能形成字符鏈。為了更加直觀地看出字符鏈,圖像中用細(xì)線連接字符來表示字符鏈,用灰色和白色的線來區(qū)分不同的字符鏈,效果如圖7所示。
2)判斷并篩選符合要求的字符鏈。計(jì)算字符個(gè)數(shù)大于3的字符組中第一個(gè)字符與其他字符連線的角度
3)對(duì)初步分類的字符鏈進(jìn)行進(jìn)一步的聚合。如果2條字符鏈至少共享一個(gè)相同字符的話,通過計(jì)算這2條字符鏈之間的相似程度來判斷這2條字符鏈?zhǔn)欠裥枰喜ⅰ?/p>
4)在文本區(qū)域合并的第一步中通過字符間距閾值分類后除了字符組之外還存在著未被分組的單個(gè)文本區(qū)域和在第三步中未被合并的單個(gè)字符鏈,單個(gè)的文本區(qū)域可能包含著1個(gè)字母或是數(shù)字,而單個(gè)的字符鏈可能是與整體文本距離較遠(yuǎn)的文本區(qū)域,因此不能直接刪除。在一張圖片中,文本區(qū)域的字符顏色通常都較為相近,因此這些文本區(qū)域的RGB均值也較為相近。通過計(jì)算比較這些區(qū)域的RGB均值來判斷這些區(qū)域是否需要?jiǎng)h除。RGB均值的定義為
在每個(gè)MSER區(qū)域所對(duì)應(yīng)的彩色圖像中包含著n個(gè)像素點(diǎn),而每個(gè)像素點(diǎn)都有其各自的R、G、B值,avgRGB即為每個(gè)像素點(diǎn)R、G、B三個(gè)數(shù)值的平均值,RGB均值即為這個(gè)區(qū)域中所有像素點(diǎn)avgRGB的平均值。計(jì)算每個(gè)未被分組的單個(gè)文本區(qū)域與未被合并的單個(gè)字符鏈區(qū)域的avgcolori(i表示未被分組的單個(gè)文本區(qū)域與未被合并的單個(gè)字符鏈區(qū)域的總個(gè)數(shù))與所有已被確定為文本的字符鏈區(qū)域的avgcolorall進(jìn)行比較
根據(jù)式(9)就能將不符合條件的區(qū)域刪除。處理效果如圖10所示。
最后計(jì)算并畫出每個(gè)字符鏈區(qū)域的最大外接矩形,就能完成對(duì)文本區(qū)域的選取。就此完成了非文本區(qū)域的過濾與文本區(qū)域的合并,最終得到需要的單詞區(qū)域,最終效果如圖11所示。
4 實(shí)驗(yàn)結(jié)果
本文的算法程序在CPU為i5、主頻為3.30GHZ、內(nèi)存為8G的64位win10計(jì)算機(jī)上的MATLAB2013進(jìn)行運(yùn)行,本文算法使用的圖像庫為2015年ICDAR大賽場(chǎng)景圖像文本定位比賽所使用的圖像數(shù)據(jù)集,該數(shù)據(jù)集中包含了1000幅圖像的訓(xùn)練用數(shù)據(jù)集以及包含了500幅圖像的測(cè)試用數(shù)據(jù)集,因?yàn)楸疚乃玫乃惴ú恍枰孪冗M(jìn)行樣本訓(xùn)練,所以在整個(gè)數(shù)據(jù)集中只使用測(cè)試用數(shù)據(jù)集。測(cè)試用數(shù)據(jù)集中的圖片是通過頭戴式相機(jī)拍攝得到的,其中文本內(nèi)容多為英文和阿拉伯?dāng)?shù)字,文本場(chǎng)景多為店鋪的廣告牌,商場(chǎng)指示牌,街道路牌以及街邊廣告,共500幅,圖像的分辨率均為1280×720。
ICDAR2015所用的自然場(chǎng)景文本圖像相較于前幾屆ICDAR難度有較大的提升,主要體現(xiàn)在圖像中的文本背景更加復(fù)雜多變以及圖像中多方向的文本信息。ICDAR大賽自ICDAR2003制定了新的評(píng)價(jià)機(jī)制[16],具體為用3個(gè)參數(shù)來衡量算法的定位結(jié)果,分別是召回率(recall),準(zhǔn)確率(Precision)和f值。召回率的定義為正確檢測(cè)到的文本數(shù)與真實(shí)文本總數(shù)的比值,準(zhǔn)確率的定義為正確檢測(cè)到的文本數(shù)與所有檢測(cè)到的文本數(shù)的比值,f值的定義為
本文算法通過ICDAR2015中的500幅測(cè)試圖像與ICDAR2015的多個(gè)優(yōu)秀算法以及文[11]的算法進(jìn)行比較,比較的內(nèi)容包括2個(gè)方面,一是用f值的大小來衡量算法的定位精度,二是用算法處理測(cè)試圖像的平均時(shí)間來衡量算法的運(yùn)算速度以及運(yùn)行時(shí)間的方差來衡量運(yùn)行速度的穩(wěn)定性。比較結(jié)果見表1和表2。
從表1中可以看出,本文算法因?yàn)槭褂脤?duì)文本區(qū)域較為敏感的MSER算法,召回率可以達(dá)到50.21%,但是相較與使用樣本特征訓(xùn)練的算法,例如BaiduIDL和SRCBTextProcessinglab,在準(zhǔn)確率方面有所欠缺,但還是在最終取得了45.59%的f值。從表2中可以看出本文算法以13.53s的平均運(yùn)行時(shí)間取得第一,并且運(yùn)行速度更加穩(wěn)定。綜合定位效果和運(yùn)算時(shí)間,本文算法在降低了運(yùn)行時(shí)間的同時(shí)也沒有損失定位精度。
再對(duì)比文[11]中的定位算法,如圖13與圖14所示,在左側(cè)幅圖像的對(duì)比中,由于本文算法在文本融合最后對(duì)單獨(dú)的文本區(qū)域和單獨(dú)的字符鏈區(qū)域做了RGB均值篩選,因此對(duì)于文[11]算法沒有刪除的非文本區(qū)域有著更好的過濾效果。如圖13左側(cè)圖像所示,經(jīng)過文[11]算法處理后遺留著一塊非文本區(qū)域,而本文算法在文本融合時(shí)通過比較兩塊區(qū)域的RGB均值(文本區(qū)域字體為藍(lán)色燈光,非文本區(qū)域?yàn)榧t色與白色的燈光),兩者的RGB均值相差大于25%,因此能夠刪除非文本區(qū)域。在右側(cè)第二幅圖像的對(duì)比中,由于文[11]中的雙向投影算法使用到了水平穿越線,而水平穿越線的插入位置為此文本區(qū)域橫向投影向量最大值的中點(diǎn)處。傾斜的文本區(qū)域與水平穿越線產(chǎn)生了一定的夾角,使得水平穿越線未能穿過文本區(qū)域中k字母的中心點(diǎn),導(dǎo)致k字母無法被定位到。而本文算法使用的是從部分到整體的文本融合方法,相較與整體融合方法,效果有明顯的提升。
5 結(jié) 論
針對(duì)現(xiàn)有算法定位速度較慢且難以定位傾斜文本的問題,提出了一種基于MSER結(jié)合層次聚類的快速自然場(chǎng)景傾斜文本定位算法,并從理論上以及MATLAB實(shí)驗(yàn)中證明了本文算法的可行性和合理性。使用MSER橢圓擬合的方法快速有效地刪除自然場(chǎng)景圖像中的非文本區(qū)域,降低了文本定位所需的時(shí)間。運(yùn)用層次聚類的思想,在有效定位傾斜文本的同時(shí)還能對(duì)殘留的非文本區(qū)域進(jìn)行進(jìn)一步的濾除。實(shí)驗(yàn)表明本文算法在有效降低運(yùn)行時(shí)間的同時(shí)沒有損失對(duì)傾斜文本的定位精度。
參 考 文 獻(xiàn):
[1] YE Q,DOERMANN D. Text Detection and Recognition in Imagery: A Survey[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2014, 37(7): 1480.
[2] CHEN XR, YUILLE A. Detering and Reading Text in Natural Scenes[C]// IEEE Computer Vision and Pattern Recognition,Washington,D.C.,USA,2004:366.
[3] 尹芳,鄭亮,陳田田.基于Adaboost的視頻文本定位[J]. 哈爾濱理工大學(xué)學(xué)報(bào), 2017, 22(1):103.
[4] KOO H, KIM D.Scene Text Detection Via Connected Component Clustering and Nontext Filtering[J]. IEEE Transactions on Image Processing A Publication of the IEEE Signal Processing Society, 2013,22(6): 2296.
[5] YIN X C,YIN X W,HUANGK Z,et al.Robust Text Detection in Natural Scene Images[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2014, 36(5): 970.
[6] SHAHAB A, SHAFAIT F, DENGEL A.ICDAR 2011 Robust Reading Competition Challenge 2:reading Text in Scene Image[C]// Proceeding of International Conference on Document Analysis and Recognition, IEEE, Beijing, China, 2011(1):1491.
[7] KARATZAS D, SHAFAIT F, UCHIDA S, et al.ICDAR 2013 Robust Reading Competiton[C]// Proceeding of International Conference on Document Analysis and Recognition, IEEE ,Washington, USA, 2013(1):1484.
[8] KARATZAS D, LU S, SHAFAIT F, et al. ICDAR 2015 Competition on Robust Reading[C]// International Conference on Document Analysis and Recognition, IEEE Computer Society, Tunis, Tunisia, 2015(1):1156.
[9] 朱安娜.基于卷積神經(jīng)網(wǎng)絡(luò)的場(chǎng)景文本定位及多方向字符識(shí)別研究[D].武漢:華中科技大學(xué),2016:26.
[10]FISCHLER M A, BOLLES R C. Random Sample Consensus:A Paradigm for Model Fitting with Applications to Image Analysis and Automated Cartography[J]. Communications of the acm, 1981, 24(6): 381.
[11]高士林,吉力新,李紹梅,等.基于MSER擬合橢圓的快速場(chǎng)景文本定位算法[J].計(jì)算機(jī)工程與設(shè)計(jì),2015(3):693.
[12]MATAS J, CHUM O, URBAN M, et al. Robust Widebaseline Stereo from Maximally Stable Extremal Regions[J]. Image & Vision Computing, 2004, 22(10): 761.
[13]NEUMANN L, MATAS J. Realtime Scene Text Localization and Recognition[C]// IEEE Conference on Computer Vision and Pattern Recognition, IEEE Computer Society, Providence, RI, USA, 2012(1):3538.
[14]姚聰. 自然圖像中文字檢測(cè)與識(shí)別研究[D]. 武漢:華中科技大學(xué), 2014: 24.
[15]ASIBA T, SHWETA A D. Text Detection Using MSER and Stroke Width Transform[C]// Communication Systems and Network Technologies, 2015 Fifth International Conference on, Gwalior, India, 2015(1): 568.
[16]LUCAS S M, PANARETOS A, SOSA L, et al. ICDAR 2003 Robust Reading Competitions[C]// International Conference on Document Analysis and Recognition, IEEE, Edinburgh, UK, 2003(1):682.
[17]HU H, ZHANG C, LUO Y,et al. WordSup: Exploiting Word Annotations for Character Based Text Detection[C]// International Conference on Computer Vision, IEEE, Venice, Italy, 2017(1): 4950.
[18]TIAN Z, HUANG W, HE T, et al. Detecting Text in Natural Image with Connectionist Text Proposal Network[C]// European Conference on Computer Vision. Springer, Cham, 2016(1): 56.
[19]ZHONG Z, JIN L, ZHANG S, et al. DeepText: A Unified Framework for Text Proposal Generation and Text Detection in Natural Images[J]. Architecture Science, 2016(12): 1.
[20]ZHANG C, YAO C, SHI B, et al. Automatic Discrimination Oftext and Nontext Natural Images[C]// International Conference on Document Analysis and Recognition, IEEE, Tunis, Tunisia, 2015(1): 886.
(編輯:王 萍)