任 通,程江華,金 陽(yáng),庫(kù)錫樹(shù)
(國(guó)防科技大學(xué)電子科學(xué)與工程學(xué)院,湖南長(zhǎng)沙410073)
隨著信息時(shí)代的到來(lái),信息量爆炸式增長(zhǎng),視頻節(jié)目數(shù)量劇增,由曾經(jīng)全國(guó)的幾十路頻道,發(fā)展到如今國(guó)、省、市、縣各級(jí)單位都有多路頻道,而且每天都在不間斷地播出,面對(duì)如此龐大的視頻數(shù)據(jù)量,必然出現(xiàn)對(duì)海量視頻數(shù)據(jù)進(jìn)行監(jiān)控的困難,其中字幕作為視頻畫(huà)面重要的組成部分,包含大量關(guān)鍵的客觀信息,所以對(duì)字幕的檢索是一項(xiàng)必要的工作。為實(shí)現(xiàn)對(duì)視頻字幕的機(jī)器自動(dòng)檢索,必須檢測(cè)定位出視頻流中的字幕圖像,然后將字幕圖像進(jìn)行分割,即把字符像素與本底背景像素分離,二值化為可供OCR軟件識(shí)別的字幕圖像。
對(duì)于字幕圖像分割算法的研究,由于一般視頻字幕都有本底背景復(fù)雜、對(duì)比度低的特點(diǎn),全局閾值的方法會(huì)使得二值圖像出現(xiàn)大量斷筆的現(xiàn)象和與本底像素粘連的現(xiàn)象,很難得到理想的分割效果。目前最常見(jiàn)的解決方法是局部自適應(yīng)的閾值分割算法,比如Lyu等的算法[1]和Bernsen算法[2]會(huì)使得二值字幕圖像在離字符筆劃像素較遠(yuǎn)的本底區(qū)域產(chǎn)生大量的噪聲,而Niblack算法[3]和Sauvola等的算法[4]會(huì)使得二值字幕圖像在本底背景與字符筆劃灰度相近時(shí)出現(xiàn)斷筆的現(xiàn)象。高華提出了一個(gè)基于形態(tài)學(xué)的字幕分割方法[5],先將字幕按線性插值的方法對(duì)字幕圖像增強(qiáng),獲得高分辨率,然后對(duì)字幕進(jìn)行灰度閾值分割,最后利用字符筆劃的形態(tài)學(xué)規(guī)律對(duì)本底背景像素濾除,此算法適合筆劃簡(jiǎn)單的英文字符,對(duì)漢文等筆劃繁雜的字符分割效果差。王一丁等人[6]提出了一種基于梯度增強(qiáng)的字幕分割算法,即使用圖像多方向梯度的加權(quán)之和替代圖像的方差,通過(guò)對(duì)各方向上權(quán)值的調(diào)節(jié)以加強(qiáng)某些方向的邊緣信息,與一些自適應(yīng)閾值分割算法相比,該算法不僅可以保留大部分筆劃,也能有效地減少斷筆像素問(wèn)題,但此算法的效果嚴(yán)重依賴于加權(quán)的調(diào)節(jié)作用,而且對(duì)不同字幕有不同要求?;谧帜恢凶址P劃顏色一致且能產(chǎn)生高密度邊緣的假設(shè),宋硯等人[7]采用基于邊緣點(diǎn)密度與顏色加權(quán)的方法對(duì)字幕圖像進(jìn)行改進(jìn)的K均值聚類(lèi)分割,獲得了品質(zhì)較好的二值字幕,但此方法是將顏色域的三維向量與邊緣點(diǎn)密度等比例的加權(quán),對(duì)于筆劃稀疏的字符(如漢字的“人”、“一”、“二”和英文字母的“f”、“l(fā)”等),不可能產(chǎn)生局部的高邊緣點(diǎn)密度,也就不能被正確聚類(lèi)了。同時(shí),對(duì)于在復(fù)雜背景的情況下,分割效果也不太明顯,因?yàn)閺?fù)雜的本底像素也能產(chǎn)生高密度點(diǎn)邊緣,加權(quán)后會(huì)導(dǎo)致復(fù)雜背景像素被誤分類(lèi)為字符筆劃像素。
為了克服字幕圖像分割中容易出現(xiàn)的過(guò)分割及欠分割現(xiàn)象,本文提出一種基于字幕區(qū)域和外擴(kuò)區(qū)域“白像素”數(shù)量增量比判決的分割算法,該算法通過(guò)逐步改變圖像分割閾值,并對(duì)結(jié)果進(jìn)行綜合分析,以分析結(jié)果作為反饋來(lái)判決當(dāng)前分割效果的好壞,從而確定最優(yōu)分割閾值。
首先,給出字幕區(qū)域及外擴(kuò)區(qū)域的概念:字幕區(qū)域是指圖像中同一行或緊鄰的若干行字幕像素的最大外接矩形區(qū)域;外擴(kuò)區(qū)域定義為僅包括背景而不包括字幕區(qū)域的矩形框。根據(jù)上述定義,若待處理的圖像區(qū)域用Ω表示,字幕區(qū)域和外擴(kuò)區(qū)域分別用Ωtext和Ωbck表示,則它們滿足
圖1給出了圖像中字幕區(qū)域與外擴(kuò)區(qū)域劃分的示意。
圖1 字幕區(qū)域與外擴(kuò)區(qū)域示意圖
為了簡(jiǎn)化算法描述過(guò)程同時(shí)又不失一般性,假設(shè)待處理的視頻字幕圖像呈現(xiàn)“亮字暗底”的現(xiàn)象,絕大多數(shù)字符像素的灰度值比背景像素的灰度值高,當(dāng)然,在實(shí)際應(yīng)用中如果出現(xiàn)“暗字亮底”的情況,可以對(duì)圖像灰度進(jìn)行翻轉(zhuǎn)即可轉(zhuǎn)化為“亮字暗底”的情況。
在圖像分割中,隨著分割閾值的變化,分割結(jié)果中字幕區(qū)域“白像素”的個(gè)數(shù)Ntext(是指分割的二值圖像中字幕區(qū)域像素值為1的像素的總數(shù)目)以及外擴(kuò)區(qū)域“白像素”的個(gè)數(shù)Nbck(是指分割結(jié)果中外擴(kuò)區(qū)域像素值為1的像素的總數(shù)目)都在發(fā)生變化,這里假設(shè)分割閾值由高到低逐漸變化,且圖像滿足“亮字暗底”條件,那么隨著閾值的變化,字幕區(qū)域“白像素”的個(gè)數(shù)Ntext以及外擴(kuò)區(qū)域“白像素”的個(gè)數(shù)Nbck都會(huì)增加,但是它們?cè)黾拥乃俣却嬖诤艽蟛町?,在閾值變化的初始階段,字幕區(qū)域“白像素”個(gè)數(shù)Ntext的增加速度明顯快于外擴(kuò)區(qū)域“白像素”個(gè)數(shù)Nbck的增加速度,隨著閾值的進(jìn)一步降低,Nbck的增加速度會(huì)越來(lái)越快(這是由于在低閾值下會(huì)有大量背景像素被分割出來(lái)),而Ntext的增加速度會(huì)逐漸降低(這是由于在高閾值下大部分字符像素已經(jīng)被分割出來(lái),閾值再降低對(duì)字符像素的影響也會(huì)逐步減弱)。
圖2a給出了一幅典型的檢測(cè)定位到的視頻字幕圖像,該圖像中除了字幕區(qū)域外,還包括外擴(kuò)區(qū)域。圖2b為該字幕圖像的灰度圖像,圖2c~圖2l為在不同閾值(Thr)下的分割結(jié)果。顯然,隨著分割閾值的逐步降低,字符像素逐步被分割出來(lái),但隨著分割閾值的進(jìn)一步降低,除了字符像素被分割出來(lái)以外,外擴(kuò)區(qū)域中的背景像素也被分割出來(lái),如圖2f~圖2l所示。
圖2 分割結(jié)果隨分割閾值的變化情況
圖3給出了字幕區(qū)域和外擴(kuò)區(qū)域“白像素”的數(shù)量隨分割閾值變化的曲線,從曲線中可以看出,無(wú)論是字幕區(qū)域還是外擴(kuò)區(qū)域,隨著分割閾值的降低,其“白像素”數(shù)量都在增加,但顯然在不同的閾值范圍內(nèi)它們?cè)黾拥乃俣仁遣灰恢碌?閾值較高時(shí),字幕區(qū)域白像素增加迅速,而外擴(kuò)區(qū)域“白像素”增加比較緩慢,表明大部分字符像素還未被分割出來(lái),需要進(jìn)一步降低閾值;隨著閾值的降低,字幕區(qū)域白像素增加趨于緩慢,而外擴(kuò)區(qū)域“白像素”數(shù)量快速增加,表明在此閾值下大部分字符像素已經(jīng)被分割出來(lái)了,再降低閾值只會(huì)導(dǎo)致大部分背景像素被分割出來(lái),從而導(dǎo)致欠分割現(xiàn)象的出現(xiàn)。
3 字幕區(qū)域及外擴(kuò)區(qū)域白像素?cái)?shù)量隨分割閾值的變化情況
以上分析表明:字幕區(qū)域和外擴(kuò)區(qū)域“白像素”增量的變化情況可以反映出在不同分割閾值下圖像分割效果的優(yōu)劣。這也意味著可以通過(guò)分析白像素增量的相對(duì)變化情況來(lái)獲取圖像分割的最優(yōu)閾值。
為了定量表達(dá)“白像素”增量的變化情況,本文定義了“白像素”增量比的概念:給定字幕圖像I(x,y),其字幕區(qū)域和外擴(kuò)區(qū)域分別用Ωtext和Ωbck表示,對(duì)該圖像分別采用閾值T1,T2進(jìn)行分割,得到2個(gè)分割結(jié)果B1,B2,分別統(tǒng)計(jì)B1,B2中字幕區(qū)域和外擴(kuò)區(qū)域的“白像素”數(shù)量,其中B1中字幕區(qū)域和外擴(kuò)區(qū)域“白像素”數(shù)量分別用和表示,而B(niǎo)2區(qū)域中字幕區(qū)域和外擴(kuò)區(qū)域“白像素”數(shù)量分別用和表示,則“白像素”增量比r定義為
式中:ΔNtext和ΔNbck分別稱為字幕區(qū)域“白像素”增量和外擴(kuò)區(qū)域“白像素”增量。
圖4a給出了圖2中的樣本字幕區(qū)域“白像素”增量和外擴(kuò)區(qū)域“白像素”增量隨分割閾值的變化情況,圖4b給出了相應(yīng)的“白像素”增量比隨分割閾值的變化情況,在實(shí)際應(yīng)用中,為了克服噪聲影響,使得算法更加魯棒,可以對(duì)“白像素”增量比進(jìn)行平滑處理,圖4b中實(shí)線表示的即為“白像素”增量比平滑的結(jié)果。
圖4 “白像素”增量比的變化
基于以上算法原理,下面給出本算法的具體實(shí)現(xiàn)步驟:
1)確定圖像I(x,y)的字幕區(qū)域Ωtext以及外擴(kuò)區(qū)域Ωbck;
2)設(shè)定閾值搜索范圍[Tmin,Tmax]、搜索步長(zhǎng)ΔT,以及白像素增量比閾值rT;
3)令初始閾值T(0)=Tmax,采用該閾值對(duì)圖像I(x,y)進(jìn)行初始分割;
4)更新閾值
5)采用新閾值T(i+1)對(duì)圖像I(x,y)進(jìn)行分割,分割結(jié)果用B(x,y|i+1)表示
6)在分割結(jié)果B(x,y|i+1)中,分別統(tǒng)計(jì)字幕區(qū)域Ωtext與外擴(kuò)區(qū)域Ωbck的“白像素”的個(gè)數(shù)Ntext(i+1)和Nbck(i+1),并分別計(jì)算字幕區(qū)域和外擴(kuò)區(qū)域“白像素”增量
則白像素增量比r(i+1)為
7)對(duì)白像素增量比r的大小進(jìn)行判決,如果r(i+1)<rT,則重復(fù)步驟4)~6),直到白像素增量比滿足r(i+1)≥rT或分割閾值滿足T(i+1)≤Tmin,此時(shí),T(i+1)即為最優(yōu)分割閾值,而B(niǎo)(x,y|i+1)即為最終分割結(jié)果。
為了驗(yàn)證算法性能,本文選取5幅典型視頻字幕圖像樣本進(jìn)行分割實(shí)驗(yàn)演示。由于簡(jiǎn)單背景的字幕圖像分割難度不大,無(wú)法體現(xiàn)出不同算法之間的差異,因此,本文所選樣本均為有一定難度的字幕圖像,分別為:
1)高對(duì)比度但背景復(fù)雜的字幕圖像,如圖5和圖6所示。
圖5 高對(duì)比度復(fù)雜背景字幕分割實(shí)驗(yàn)一
圖6 高對(duì)比度復(fù)雜背景字幕分割實(shí)驗(yàn)二
2)背景較復(fù)雜、且分辨率較低的字幕圖像,如圖7和圖8所示。
圖7 低分辨率字幕分割實(shí)驗(yàn)一
3)背景復(fù)雜的英文字幕圖像,存在與字符像素顏色非常相近的背景,如圖9所示。
圖9 復(fù)雜背景的英文字幕分割實(shí)驗(yàn)
實(shí)驗(yàn)中,給出采用OTSU算法、K均值聚類(lèi)算法的分割結(jié)果進(jìn)行對(duì)比。采用基于白像素增量比的算法分割時(shí),參數(shù)設(shè)置為:閾值搜索范圍為[50,255],搜索步長(zhǎng)ΔT=5,白像素增量比閾值rT=0.1。分析圖5~圖9中的實(shí)驗(yàn)結(jié)果,可得出如下結(jié)論:
1)OTSU算法對(duì)大多數(shù)字幕圖像分割有效,但是當(dāng)字幕中存在與字符像素顏色或灰度相近的背景時(shí),分割效果不佳,當(dāng)字符筆劃比較復(fù)雜時(shí),容易出現(xiàn)字符筆劃粘連的情況,這給后續(xù)的OCR識(shí)別帶來(lái)很大困難。
2)K均值算法的性能在很大程度上與OTSU算法相差無(wú)幾,這是由于本質(zhì)上講,K均值也是一種使得類(lèi)間方差最大化而類(lèi)內(nèi)方差最小化的算法。另外,K均值聚類(lèi)由于沒(méi)有利用字符像素灰度的先驗(yàn)知識(shí)(比如“亮字暗底”),往往會(huì)出現(xiàn)分割結(jié)果“反相”的問(wèn)題(也即分割結(jié)果中字符像素為黑色,而背景像素為白色),對(duì)此問(wèn)題,只需要在后處理中做相應(yīng)調(diào)整即可。
3)本文提出的基于白像素增量比的算法,其性能要優(yōu)于前述算法,從分割結(jié)果可以看出,該算法有2個(gè)顯著的優(yōu)勢(shì):第一,它能很好地剔除背景像素,無(wú)論是復(fù)雜背景下的字幕圖像還是低分辨率的圖像,該算法都能將背景像素很好地剔除,尤其從圖9d可以看出,其他幾種方法都無(wú)法將字幕圖像中的英文“We’ll”分割出來(lái),而只有基于白像素增量比的算法可以將該英文從背景中提取出來(lái),這顯示了該算法良好的分割性能;第二,該算法較好地解決了復(fù)雜筆劃的粘連問(wèn)題。
視頻字幕包含大量關(guān)鍵的客觀信息,對(duì)視頻內(nèi)容有最直接的描述與解釋,因此從視頻中提取字幕是實(shí)現(xiàn)視頻內(nèi)容檢索與理解的基礎(chǔ),研究字幕分割具有重要意義。為了克服字幕圖像分割中容易出現(xiàn)的過(guò)分割及欠分割現(xiàn)象,本文提出一種基于字幕區(qū)域和外擴(kuò)區(qū)域“白像素”數(shù)量增量比判決的分割算法。該算法的新穎之處在于采用一種閉環(huán)反饋及“白像素”增量比的方式來(lái)解決圖像分割中最優(yōu)閾值的選取問(wèn)題,有效克服了字幕圖像分割中容易出現(xiàn)的過(guò)分割及欠分割現(xiàn)象,實(shí)驗(yàn)結(jié)果表明此算法綜合性能要優(yōu)于傳統(tǒng)的OTSU以及K均值聚類(lèi)算法,說(shuō)明了它在解決字幕圖像分割的問(wèn)題上是可行的、有效的。
[1] LYU M R,SONG JQ,CAIM.Comprehensive method for multilingual video textdetection,localization,and extraction[J].IEEE Trans.Circuit and Systems for Video Technology,2005,15(2):243-255.
[2] BERNSEN J.Dynamic thresholding of grey-level images[C]//Proc.the 8th International Conference on Pattern Recognition.Paris,F(xiàn)rance:[s.n.],1986:1251-1255.
[3] NIBLACK W.An introduction to digital image processing[M].New Jersey:Prentice-Hall Press,1985.
[4] SAUVOLA J,PIETIKAINEN M.Adaptive document image binarization[J].Pattern Recognition,2000,33(2):225-236.
[5]高華.基于邊緣和灰度的視頻文字提取方法的研究與應(yīng)用[D].北京:北方工業(yè)大學(xué),2011.
[6]王一丁,蔣小森.基于梯度增強(qiáng)的新聞字幕分割算法[J].計(jì)算機(jī)輔助設(shè)計(jì)與圖形學(xué)學(xué)報(bào),2009,21(8):1170-1174.
[7]宋硯,劉安安,張勇東,等.基于聚類(lèi)的視頻字幕提取方法[J].通信學(xué)報(bào),2009,30(2):136-140.