楊高波,吳 瀟,張兆揚,朱寧波
(1.湖南大學(xué)信息科學(xué)與工程學(xué)院,湖南長沙 410082;
2.上海大學(xué)新型顯示技術(shù)及應(yīng)用集成教育部重點實驗室,上海 200072)
基于過渡像素的視頻圖像文本檢測與定位*
楊高波1?,吳 瀟1,張兆揚2,朱寧波1
(1.湖南大學(xué)信息科學(xué)與工程學(xué)院,湖南長沙 410082;
2.上海大學(xué)新型顯示技術(shù)及應(yīng)用集成教育部重點實驗室,上海 200072)
提出一種基于過渡像素的視頻流人工文本檢測與定位算法.該算法在水平和垂直方向上提取過渡像素點,生成過渡圖.通過塊濾波器抑制背景的過渡像素,采用基于密度的快速區(qū)域生長算法形成候選文本區(qū)域;再利用改進的局部二進制模型(LBP)驗證候選文本區(qū).仿真實驗結(jié)果表明,本文的改進算法相對于Kim算法,字符定位的準確率更高.
文本處理;視頻流;視頻文本檢測;過渡圖;區(qū)域生長;局部二進制模型
隨著視頻編輯技術(shù)的發(fā)展,越來越多的視頻在后期制作過程中嵌入文本字符,以幫助觀眾理解[1].通常,將出現(xiàn)在視頻中的文本分為2類:場景文本和人工文本.視頻文本檢測和定位是進行視頻文本識別、視頻內(nèi)容自動標注和基于內(nèi)容視頻檢索的關(guān)鍵.然而,由于視頻場景的背景復(fù)雜,文本顏色不確定以及字體大小多樣等因素,自動文本檢測和定位仍然是有待解決的難題.
目前,視頻文本檢測的方法可以歸納為3類主流技術(shù):基于連通域、基于邊緣梯度和基于紋理的方法.基于連通域的方法利用文本區(qū)域字符顏色相似性以及字符筆畫相互連通的特征.Jiang等[2]采用Niblack聚類算法把一幅輸入圖像分解成多尺度聯(lián)通分量,然后所有的聯(lián)通分量通過cascade分類器以及支持向量機(SVM)進行分類與驗證.該方法的通用性不夠,因為一些閾值需要根據(jù)經(jīng)驗確定.基于紋理的方法認為視頻幀的文本具有特殊的結(jié)構(gòu)且表現(xiàn)出不同的紋理特性.在利用Gabor濾波器[3]、DCT紋理能量[4]或者小波變換[5]計算圖像紋理特征的基礎(chǔ)上,再通過神經(jīng)網(wǎng)絡(luò)或者支持向量機等分類器劃分文本區(qū)和非文本區(qū).此類方法對于字體比較小,或者對比度比較低的文本時,定位效果不是很理想,而且比較耗時.基于邊緣梯度的方法則利用文本和背景之間具有較高對比度的特點進行文本定位.Wang等[6]提出在鏡頭分割的基礎(chǔ)上,每個鏡頭內(nèi)每隔30幀進行一次文本定位操作.它在文本定位前還結(jié)合進行多幀合成得到合成圖像,以提高整幅圖像的質(zhì)量.但是對于背景比較復(fù)雜,存在較多強邊緣的視頻圖像定位效果不是很理想.文獻[7]對復(fù)雜視頻場景下的疊加文本,提出了一種提取過渡圖進行文本檢測和定位的方法.相對于其他方法,該方法可以適應(yīng)不同對比度的視頻圖像以及不同國家的文字,同時對嵌入在復(fù)雜背景中的文本能夠進行更準確的定位.但從實驗結(jié)果看該方法在獲得過渡像素時文本區(qū)域像素稀疏,同時背景區(qū)也會產(chǎn)生比較多的噪點,給后續(xù)的處理操作增加難度.另外,該方法在形成候選文本區(qū)域時使用近似形態(tài)學(xué)操作的方法,使得許多非文本區(qū)域也形成連通區(qū)域.
本文針對文獻[7]的缺陷,提出一種改進的文本檢測和定位算法.它的主要依據(jù)是通過觀察發(fā)現(xiàn)在人工文本和相鄰的背景像素之間存在著過渡像素,可以輔助進行文本檢測和定位.在提取視頻幀過渡圖的基礎(chǔ)上,通過基于密度的區(qū)域生長算法得到候選文本區(qū)域,結(jié)合連通域分析以及改進的LBP模型對文本區(qū)進行判定,再使用過渡圖的水平和垂直映射精確地定位文本區(qū)域.
如圖1所示,通過觀察可以發(fā)現(xiàn)字符和相鄰的背景之間存在過渡像素.而且由于人工文本是后期制作工程中嵌入視頻中去的,所以字符區(qū)域一般具有較高的飽和度.
圖1 字符與背景間的過渡像素Fig.1 Transition pixels between texts and background
由圖1可知,當(dāng)文本區(qū)域的背景比較暗時,文本亮度一般比較高.這樣,字符和相鄰的背景之間存在像素損溢,使得字符和相鄰的背景之間產(chǎn)生了過渡像素,而且,相鄰的背景像素、過渡像素和字符像素的灰度值一般呈現(xiàn)出對數(shù)變化關(guān)系.
當(dāng)視頻圖像對比度比較低時,字符邊緣和背景之間的灰度變化比較小.為了能夠有效地檢測字符和背景間的過渡像素,采用計算像素飽和度的方法.
文獻[7]在計算像素灰度變化和飽和度變化時,只考慮了像素水平方向上的變化.缺點體現(xiàn)在:首先,會漏掉許多垂直方向的過渡像素,造成候選文本區(qū)過渡點稀疏;其次,當(dāng)文本區(qū)域包含諸“一、二”等水平筆畫較多的中文字符時無法檢測.此外,文獻[7]要對每個像素計算灰度和飽和度的變化,以判別是否為過渡像素,因此非常耗時.考慮到大多數(shù)視頻圖像的背景區(qū)域灰度變化并不像文本區(qū)域那樣明顯,因此沒有必要逐像素進行類似處理.為此,本文在文獻[7]基本思想的基礎(chǔ)上進行如下改進:
當(dāng)Blocki,(j)為1時,表示該塊可能含有過渡像素.由于同時考慮了文本區(qū)域的水平和垂直2個方向,雖然文本區(qū)域的像素密度增加了,但是背景區(qū)域的過渡點也會得到加強(如圖2(c)所示).它既可以提高算法的處理速度,也可以有效地抑制一些對比度較低的背景過渡點.
2)判別過渡像素I(x,y)的方向為:
因為字符像素、過渡像素和背景像素之間灰度以及飽和度的變化呈一種近似指數(shù)的變化關(guān)系,這種變化關(guān)系可以簡單描述為DH和DL之間有一個大小為TH的梯度變化.如果像素I(x,y)滿足式(12)的指數(shù)變化約束條件,那么該像素被認為是過渡像素.
使用一幅復(fù)雜背景的視頻圖像進行實驗比較,結(jié)果如圖2所示.由圖2可知,本文方法得到的過渡圖一方面背景過渡像素減少,同時文本區(qū)域邊緣更加清晰,從而可以有效地減少背景過渡像素對文本定位的干擾.
為了把過渡像素形成候選文本區(qū)域,文獻[7]采用了近似形態(tài)學(xué)操作方法.如果過渡圖中2個非零像素之間的間隙小于圖像寬度的5%,那么這些像素值為1.但是這樣的操作,使得相互靠近的像素不管是文本還是背景都會連接起來.
圖2 復(fù)雜視頻場景的過渡圖Fig.2 Transition map of complex video
文本區(qū)域是由許多筆畫組成的,在生成過渡圖時文本區(qū)域必然存在許多過渡像素.也就是說,文本區(qū)域具有很高的密度.因此,本文采用基于密度的區(qū)域生長算法,得到候選文本區(qū)域.如果一個像素P(x,y)在它的領(lǐng)域內(nèi)候選像素密度Dens(x,y)超過閾值TD,那么該像素就作為種子像素.本文中,根據(jù)經(jīng)驗TD取值為0.25,鄰域大小為11×15.具體算法描述如下:
1)如果像素P(x,y)的密度Dens(x,y)大于閾值TD,則該像素標記為種子點;
2)以此種子點為中心,將其大小為7×11領(lǐng)域內(nèi)的像素點標記為同一區(qū)域;
3)如果還存在未檢測的像素,則繼續(xù)尋找下一像素,并轉(zhuǎn)到步驟1).
不同方法得到的侯選文本區(qū)域的實驗效果如圖3所示.
圖3 候選文本區(qū)比較Fig.3 Comparison of candidate text region
連通域的四個角點(min_x,min_y),(max_x,min_y),(min_x,max_y)和(max_x,max_y)可以形成優(yōu)化的候選文本區(qū).接下來,采用一些規(guī)則去除一些虛檢的文本區(qū).當(dāng)連通域面積、長度或者寬度過小時被認為是虛假文本區(qū);閾值的選擇通過觀察人工文本的最小尺寸,根據(jù)經(jīng)驗選擇.但是對于背景比較復(fù)雜的視頻圖像就需要一個更優(yōu)的算法來減少虛檢發(fā)生的概率.我們發(fā)現(xiàn),由于文本區(qū)域結(jié)構(gòu)復(fù)雜,在過渡像素周圍的灰度變化比較劇烈,文獻[7-8]采用了局部二進制模型(LBP)算法描述過渡像素的這種紋理特征.本文在文獻[7]方法的基礎(chǔ)上對LBP算法進行了改進.傳統(tǒng)的LBP算法是通過比較當(dāng)前像素和周圍像素的大小關(guān)系得到一個二進制模型,即當(dāng)周圍像素的灰度大于當(dāng)前像素時則賦值為1,當(dāng)小于當(dāng)前像素灰度則賦值為0.但是傳統(tǒng)的算法僅僅考慮大小的方向,卻忽視了大小的程度.傳統(tǒng)的LBP算法如圖4所示.從圖中可以發(fā)現(xiàn)圖4(a)圓周像素和圓心像素之間的差值一般比較大,這就意味著其對應(yīng)背景邊緣信息比較豐富.而圖4(b)圓周上的像素和圓心像素差值比較小,意味著該像素所在區(qū)域相對比較平滑.但是圖4(a)LBP值卻小于圖4(b)的LBP值.
本文對傳統(tǒng)的LBP算法做2點改進.1)假定當(dāng)前像素灰度值為gc,圓周上某像素灰度為gi.當(dāng)|gi-gc|/gc小于閾值T時,則該像素的二進制值就賦為0,否則就賦為1.2)傳統(tǒng)的LBP算法是從圓周上一點開始逆時針方向旋轉(zhuǎn),把“0”“1”按照出現(xiàn)的順序排列得到一個二進制模型.假定通過上面方法得到2個二進制“011011”和“100000”,顯然“011011”小于“100000”,但是“011011”所對應(yīng)的區(qū)域灰度變化顯然又比“100000”所對應(yīng)的區(qū)域強烈.為了克服上述缺點,本文不再按照“0”和“1”在圓周上出現(xiàn)的順序排列,而是對得到的二進制模型重新排列組合.把所有“0”放在二進制的前面,而“1”放在后面.將上述2個二進制重新排列后得到的二進制分別為“001111”和“000001”,然后再通過式(14)轉(zhuǎn)化為十進制.
圖4 LBP算法流程圖Fig.4 Flowchart of LBP algorithm
計算人工文本區(qū)域的概率(POT):1)對候選文本區(qū)內(nèi)的每一個過渡像素進行LBP操作;2)計算所有過渡像素具有的不同LBP值的數(shù)量;3)當(dāng)一個LBP值所對應(yīng)的過渡像素數(shù)目過少時,我們認為這是噪聲引起的,應(yīng)將總的數(shù)量減1,并且從該區(qū)域中去除這部分過渡像素;4)wi為過渡像素密度,可以通過候選文本區(qū)域過渡像素數(shù)量除以候選區(qū)域面積得到.POT的計算為:
式中:N為候選文本區(qū)數(shù)量;NOLi為歸一化以后的不同LBP值的過渡像素數(shù)目.若候選文本區(qū)的POT值大于一個預(yù)先設(shè)定的閾值,則相應(yīng)的候選文本區(qū)就被判定為文本區(qū).這個閾值根據(jù)大量實驗數(shù)據(jù)設(shè)為0.05.
為了驗證本文提出的方法效果,實驗所需的數(shù)據(jù)來自不同類型以及不同背景復(fù)雜度的視頻.視頻大小從320×240到880×480不等,視頻格式為AVI格式.
將本文方法生成的過渡圖和文獻[7]提出方法的過渡圖進行比較.從圖2可以清楚地發(fā)現(xiàn),本文提出方法生成的過渡圖在文本區(qū)域含有豐富的過渡像素,同時背景區(qū)域檢測的過渡像素在很大程度上減少很多,故本文提出的方法在檢測文本區(qū)域時具有更高的效率.為了測量2種方法的優(yōu)劣,本文采用查全率(Recall)和查準率(Precision)2個指標來衡量:
式中:P為使用每一種方法檢測到的過渡像素集合;T為屬于文本像素的數(shù)量.具體實驗數(shù)據(jù)如表1所示.從表1可以看出,本文方法所生成的過渡圖精確度更高.這樣為后續(xù)的步驟比如基于密度的區(qū)域生長和采用LBP算法判別候選文本區(qū)等打下了一個良好的基礎(chǔ),同時在處理速度上也得到很大程度的改善,滿足了實時性的要求.
表1 2種方法得到的過渡圖數(shù)據(jù)比較Tab.1 Data comparison of two different algorithms
對本文提出的改進LBP算法進行評測.本文改進的算法可以保證文本區(qū)域具有較高的LBP值,而背景區(qū)域的LBP值比較低.兩者之間的距離可以用均值差來描述,若均值差越大則意味著文本和背景之間用LBP描述的紋理特征區(qū)別越明顯.
圖5給出了4組圖像,每一組都分別包含一幅文本圖像和一幅背景圖像.對4組圖像分別求其LBP均值以及差值.背景和文本區(qū)域的均值可以通過加總該區(qū)域內(nèi)的所有像素點的LBP值,然后再除以該區(qū)域面積獲得.本文以第1組圖像為例,給出實驗數(shù)據(jù)如表2所示.
圖5 測試圖片F(xiàn)ig.5 Test images
表2 LBP均值比較Tab.2 Comparison of LBP-mean
從表2可以看出,改進的LBP算法文本區(qū)和背景區(qū)均值之間的差值更大.圖6給出了4組圖像采用2種方法時的性能比較.從圖6中可以看出,本文算法得到的均值差明顯大于傳統(tǒng)方法獲得的均值差,故本文改進的LBP算法更能描述文本和背景的紋理特征.
對人工文本檢測結(jié)果進行測評,來自于不同復(fù)雜視頻場景的人工文本檢測結(jié)果如圖7所示.從圖7中可以看出,對于中英文字符的不同字體大小、尺寸、位置以及顏色都能夠很成功地實現(xiàn)定位.
圖6 2種LBP算法比較Fig.6 Comparison of two different LBP algorithms
圖7 文本檢測效果Fig.7 The results of text detection
本文的檢測方法是基于發(fā)現(xiàn)在人工文本和相鄰的背景之間存在著過渡顏色,在字符、過渡像素以及背景之間像素的灰度和飽和度滿足對數(shù)變化關(guān)系,從而得到過渡圖.基于密度區(qū)域生長算法生成候選文本區(qū),并進行邊緣平滑處理,改進的LBP算法對得到的候選區(qū)域進行判別.從實驗結(jié)果可以看出,本文方法具有更好的魯棒性.
[1] SNOEK C G M,WORRING M.Time interval maximum entropy based event indexing in soccer video[C]//International Conference on Multimedia and Expo,Baltimore:IEEE Press,2003,3:481-484.
[2] JIANG Ren-jie,QI Fei-hu,Li Xu,etal.A learning-based method to detect and segment text from scene images[J].Journal of Zhejiang University Science,2007,8(4):568-574.
[3] CHEN Xi-lin,YANG Jie,ZHANG Jing,etal.Automatic detection and recognition of signs from natural scenes[J].IEEE Transactions on Image Processing,2004,13(1):87-99.
[4] XU Jiang-bo,JIANG Xiu-hua,WANG Yu-xi.Caption text extraction using dct feature in MPEG compressed video[C]//WRI World Congress on Computer Science and Information Engineering.Los Angeles:IEEE Press,2009,6:431-434.
[5] 李念永,梁艷梅,張舒,等.基于BP神經(jīng)網(wǎng)絡(luò)的復(fù)雜彩色圖像文本定位[J].光子學(xué)報,2009,38(10):431-434.
LI Nian-yong,LIANG Yan-mei,ZHANG Shu,etal.Text location in complex color images based on BP neural network[J].Acta Photonica Sinica,2009,38(10):431-434.(In Chinese)
[6] WANG Rong-rong,JIN Wanjun,WU Li-de.A novel video caption detection approach using multi-frame integration[C]//Proceedings of the 17th International Conference on Pattern Recognition.Cambridge:IEEE CS Press,2004,1:449-452.
[7] KIM W,KIM C.A new approach for overlay text detection and extraction from complex video scene[J].IEEE Transactions on Image Processing,2009,18(2):401-411.
[8] OJALA T,PIERIKAINEN M,MAENPAA T.Multiresolution gray-scale and rotation invariant texture classification with local binary patterns[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2002,24(7):971-987.
A Transition Pixels Based Text Detection and Localization for Video Images
YANG Gao-bo1?,WU Xiao1,ZHANG Zhao-yang2,ZHU Ning-bo1
(1.College of Information Science and Engineering,Hunan Univ,Changsha,Hunan 410082,China;
2.Key Lab of Advanced Display and System Applications,Ministry of Education,Shanghai Univ,Shanghai 200072,China)
A transition pixel based detection and localization algorithm was proposed for the artificial texts in the video frame.The transition map was generated by extracting transition pixels in both horizontal and vertical directions.The transition pixels in the background were suppressed by block filtering,and candidate text regions were obtained by intensity based region growing.Finally,the candidate text regions were verified by improved local binary pattern(LBP).Experiment results have shown that,compared with Kim's work,the proposed approach can achieve more accurate text detection and localization.
text processing;video streaming;video character detection;transition map;region growing;local binary model
TP391
A
1674-2974(2011)06-0069-06*
2010-09-02
計算機信息處理江蘇省重點實驗室開放課題(KJS0921);圖像處理與圖像通信江蘇省重點實驗室開放課題(ZK207006);新型顯示技術(shù)及應(yīng)用集成教育部重點實驗室開放基金資助項目(P200801);湖南省青年骨干教師培養(yǎng)對象資助項目
楊高波(1974-),男,湖南岳陽人,湖南大學(xué)教授,博士
?通訊聯(lián)系人,E-mail:jt_gbyang@hnu.cn