吳 銳 杜慶安 張博宇 黃慶成
(*哈爾濱工業(yè)大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院 哈爾濱 150001) (**天津航天機(jī)電設(shè)備研究所 天津 300000)
?
一種基于筆畫(huà)寬度特征和半監(jiān)督多示例學(xué)習(xí)的文本區(qū)域鑒別方法①
吳 銳②*杜慶安**張博宇*黃慶成*
(*哈爾濱工業(yè)大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院 哈爾濱 150001) (**天津航天機(jī)電設(shè)備研究所 天津 300000)
考慮到文本區(qū)域鑒別在視頻文本檢測(cè)中的重要作用,提出了一種基于筆畫(huà)寬度特征的文本區(qū)域鑒別方法,該方法通過(guò)分析候選文本區(qū)域中筆畫(huà)寬度的分布,有效地區(qū)分文本和非文本區(qū)域。此外針對(duì)筆畫(huà)寬度信息提取過(guò)程中存在未知極性參數(shù)的問(wèn)題,提出了一種半監(jiān)督多示例學(xué)習(xí)(SS-MIL)算法,該算法可以充分利用訓(xùn)練樣本中不完整的監(jiān)督信息,提高文本區(qū)域分類器的性能?;谏鲜龇椒?,實(shí)現(xiàn)了一個(gè)完整的視頻文本檢測(cè)系統(tǒng),并在具有代表性的數(shù)據(jù)集上對(duì)其進(jìn)行了充分的實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明,基于筆畫(huà)寬度特征和SS-MIL的文本區(qū)域鑒別方法能夠有效地辨別文本區(qū)域,從而使該系統(tǒng)檢測(cè)視頻文本的綜合性能達(dá)到較高水平。
文本區(qū)域鑒別, 筆畫(huà)寬度, 半監(jiān)督學(xué)習(xí), 多示例學(xué)習(xí)(MIL)
在過(guò)去的數(shù)十年里,隨著視頻拍攝設(shè)備的廣泛普及和互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展,視頻數(shù)據(jù)的數(shù)量高速增長(zhǎng)。視頻服務(wù)提供商亟需有效的方法對(duì)海量的視頻數(shù)據(jù)進(jìn)行管理和存儲(chǔ)。視頻中的文本內(nèi)容包含著豐富的語(yǔ)義信息,這些信息是進(jìn)行視頻資料自動(dòng)注釋、檢索、壓縮的重要依據(jù)。從視頻圖像處理和文本檢測(cè)的研究角度出發(fā),目前已經(jīng)提出了一些視頻文本檢測(cè)方法[1]。這些方法大致可以分為三類:基于紋理的方法[2,3],基于連通組件(connect-component)的方法[4-6]以及基于邊緣的方法[7,8]。這些方法從文本區(qū)域的不同特性出發(fā),將前景(文本)從背景中剝離出來(lái),然后將獲得的前景組合成候選的文本區(qū)域。由于背景復(fù)雜多變、光照不均以及字體字形變化等原因,準(zhǔn)確地將文本和背景區(qū)分開(kāi)仍然比較困難。在檢測(cè)候選文本區(qū)域的過(guò)程中,不可避免地會(huì)產(chǎn)生誤報(bào)。目前大多數(shù)視頻文本檢測(cè)方法都需要在生成候選文本區(qū)域的基礎(chǔ)上進(jìn)行文本區(qū)域鑒別,因而大多數(shù)文本檢測(cè)方法都包含前景檢測(cè)、候選區(qū)域生成和文本區(qū)域鑒別三個(gè)階段。在文本區(qū)域鑒別階段,現(xiàn)有的文本檢測(cè)技術(shù)大多數(shù)通過(guò)檢測(cè)候選文本區(qū)域的幾何特性來(lái)發(fā)現(xiàn)上一階段產(chǎn)生的誤報(bào)。經(jīng)常使用的幾何特征包括位置、方向、長(zhǎng)寬比以及飽和度(候選區(qū)域前景與背景面積的比值)等。這些特征往往隨著應(yīng)用背景的變化而變化,在具體應(yīng)用中需要手動(dòng)進(jìn)行調(diào)整。例如,在視頻文本檢測(cè)中,當(dāng)檢測(cè)目標(biāo)的位置較為確定時(shí)(視頻下部的字幕區(qū)域),基于位置的判別準(zhǔn)則是有效的。但當(dāng)檢測(cè)目標(biāo)出現(xiàn)的位置具有較強(qiáng)隨機(jī)性時(shí)(嵌入文本區(qū)域或滾動(dòng)字幕),這一準(zhǔn)則就失去了意義。同理,基于區(qū)域方向、長(zhǎng)寬比等特征進(jìn)行文本區(qū)域鑒別時(shí)都需要提供目標(biāo)數(shù)據(jù)的先驗(yàn)知識(shí),因而不具有普遍意義,泛化能力較差。
本文提出了一種基于筆畫(huà)寬度特征的文本區(qū)域鑒別方法。該方法根據(jù)候選文本區(qū)域內(nèi)筆畫(huà)寬度的分布情況來(lái)判別當(dāng)前區(qū)域是否包含文本,其優(yōu)勢(shì)在于適用于大多數(shù)文本區(qū)域。在使用筆畫(huà)寬度特征進(jìn)行文本鑒別的過(guò)程中存在的一個(gè)難點(diǎn)是無(wú)法自動(dòng)地獲取文字前景與背景之間的亮度對(duì)比關(guān)系,而這一參數(shù)對(duì)于準(zhǔn)確地提取筆畫(huà)寬度信息來(lái)說(shuō)至關(guān)重要。本文使用多示例學(xué)習(xí)方法(multi-instance learning,MIL)來(lái)解決這一問(wèn)題。對(duì)于每一個(gè)樣本,基于可能的極性參數(shù)提取筆畫(huà)寬度特征,然后使用這些特征的集合來(lái)描述該樣本。其中每個(gè)特征稱為‘示例’,而特征的集合稱為‘示例包’。在此基礎(chǔ)上可以使用多示例學(xué)習(xí)方法訓(xùn)練有效的文本區(qū)域分類器。由于在分類器訓(xùn)練過(guò)程中使用的訓(xùn)練樣本集大多沒(méi)有提供極性參數(shù)。本文在多示例學(xué)習(xí)方法的基礎(chǔ)上提出了一種新的半監(jiān)督多示例學(xué)習(xí)(semi-supervised multi-instance learning,SS-MIL)方法來(lái)進(jìn)行文本區(qū)域分類器的訓(xùn)練。該方法結(jié)合多示例學(xué)習(xí)和半監(jiān)督學(xué)習(xí)方法的特點(diǎn),能夠充分利用訓(xùn)練樣本中不完整的監(jiān)督信息,在降低學(xué)習(xí)成本的同時(shí)改進(jìn)分類器的性能。
本文將上述文本區(qū)域鑒別方法與基于角點(diǎn)的文本區(qū)域檢測(cè)方法[9]相結(jié)合,實(shí)現(xiàn)了完整的視頻文本檢測(cè)系統(tǒng)并在具有代表性的數(shù)據(jù)集上進(jìn)行了充分的實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明本文提出的文本鑒別方法可以有效地辨別文本區(qū)域,使檢測(cè)系統(tǒng)的準(zhǔn)確率和召回率都達(dá)到了較高水平。
圖1示出了視頻文本檢測(cè)流程。在圖中的前景檢測(cè)和候選區(qū)域生成階段,不可避免地存在誤報(bào)的情況,需要采用有效的文本區(qū)域鑒別方法來(lái)排除誤報(bào)的文本區(qū)域。本文提出了一種基于區(qū)域內(nèi)筆畫(huà)寬度的特征來(lái)實(shí)現(xiàn)文本區(qū)域的鑒別。該特征通過(guò)描述文本區(qū)域中筆畫(huà)寬度的分布來(lái)反映區(qū)域的特性。相對(duì)于區(qū)域位置等幾何特征,筆畫(huà)寬度特征具有更好的泛化能力,適用于不同種類的文本。
圖1 視頻文本檢測(cè)流程
在絕大多數(shù)語(yǔ)言中,字符都是由筆畫(huà)構(gòu)成的。為了使字符具有可識(shí)別性,筆畫(huà)與背景區(qū)域之間需要明確的邊界。因此筆畫(huà)上的像素點(diǎn)都位于兩個(gè)具有相反梯度方向的邊緣點(diǎn)之間。這兩個(gè)邊緣點(diǎn)之間的距離為筆畫(huà)的寬度。利用這一特性,可以使用筆畫(huà)寬度變換[10]求出圖像中每個(gè)像素點(diǎn)的筆畫(huà)寬度。下面通過(guò)圖2簡(jiǎn)要敘述筆畫(huà)寬度變換的過(guò)程:
首先將所有像素點(diǎn)的筆畫(huà)寬度值設(shè)置為∞,然后使用邊緣檢測(cè)器(本研究使用Canny算子)進(jìn)行邊緣檢測(cè)。對(duì)于圖像中每一個(gè)邊緣點(diǎn)p,記其梯度方向?yàn)閐p。從點(diǎn)p沿其梯度方向dp的反方向(假定文本的亮度低于背景亮度)發(fā)射一條射線s=p+n×dp并沿該射線搜索,直到找到另外一個(gè)邊緣點(diǎn)q。如果點(diǎn)q的梯度方向dq與點(diǎn)p的梯度方向dp近似相反(|dp-dq|<15° ),則射線s上的線段[p,q]所經(jīng)過(guò)所有像素點(diǎn)的筆畫(huà)寬度值都設(shè)為線段[p,q]的長(zhǎng)度。相反,如果無(wú)法找到符合條件的點(diǎn)q,則放棄射線s,不更改s經(jīng)過(guò)像素點(diǎn)的筆畫(huà)寬度值。重復(fù)地對(duì)圖像中的每個(gè)邊緣點(diǎn)進(jìn)行上述步驟。如果對(duì)某一個(gè)像素點(diǎn)發(fā)現(xiàn)一個(gè)比當(dāng)前值更小的筆畫(huà)寬度值,則將這一點(diǎn)的筆畫(huà)寬度值更新為較小的值。當(dāng)字符中出現(xiàn)較為復(fù)雜的情況,如筆畫(huà)轉(zhuǎn)彎處等,會(huì)出現(xiàn)明顯錯(cuò)誤的、極大的筆畫(huà)寬度值。針對(duì)這種情況,算法使用中值抑制的方法來(lái)排除錯(cuò)誤。
(a)從筆畫(huà)上截取的一部分,其中每個(gè)方格表示一個(gè)像素點(diǎn),灰色方格表示筆畫(huà)上的點(diǎn),白色方格表示背景點(diǎn);(b)中灰色方格表示檢測(cè)
實(shí)驗(yàn)結(jié)果表明,筆畫(huà)寬度變換可以準(zhǔn)確地提取文本圖像中的筆畫(huà)寬度信息。通常情況下,同一行中的文字使用的筆畫(huà)寬度是大致相同的。因此,在文本區(qū)域鑒別問(wèn)題中,如果一個(gè)候選區(qū)域確實(shí)包含文本內(nèi)容,則其中落在字符上的像素點(diǎn)的數(shù)量在整個(gè)區(qū)域中應(yīng)該大于一定的比例。而這些像素點(diǎn)的筆畫(huà)寬度應(yīng)該基本相同或在一個(gè)較小范圍內(nèi)變化。基于這一特性,本文使用筆畫(huà)寬度分布直方圖作為特征來(lái)描述整個(gè)區(qū)域的特性。對(duì)于一個(gè)候選的文本區(qū)域r而言,其筆畫(huà)寬度特征的定義如下式所示:
(1)
其中sk表示候選區(qū)域中寬度值為k的像素點(diǎn)的個(gè)數(shù),n為使用的筆畫(huà)寬度的最大值。h和w分別為候選文本區(qū)域的高度和寬度,在保證候選文本區(qū)域?yàn)閱涡泻蛦瘟械那疤嵯拢晕淖指?寬)度可以有效地消除候選區(qū)域面積的影響。當(dāng)區(qū)域中不包含文本或只有少部分為文本區(qū)域的情況下,寬度信息的分布是不規(guī)律、較為雜亂的(圖3)。而當(dāng)候選區(qū)域確實(shí)包含文本時(shí),筆畫(huà)寬度信息在文本的真實(shí)筆畫(huà)寬度附近將出現(xiàn)一個(gè)較大的峰值(圖3(c))。
為了能夠準(zhǔn)確地提取筆畫(huà)寬度信息,需要指定候選文本區(qū)域中前景(文本)相對(duì)于背景的極性。然而在實(shí)際的應(yīng)用中這一參數(shù)是難以由算法自動(dòng)確定的。為了克服這一問(wèn)題,本文提出了文本區(qū)域分類的多示例模型。該模型對(duì)候選文本區(qū)域依據(jù)兩種可能的假設(shè)(前景亮度高于背景和前景亮度低于背景)分別進(jìn)行筆畫(huà)寬度變換(stroke width transform, SWT)。對(duì)于任意一個(gè)候選區(qū)域r,可以得到兩組筆畫(huà)寬度特征。其中一組能夠反映r中真實(shí)的寬度信息分布?;诓煌僭O(shè)提取的筆畫(huà)寬度信息如圖3所示。
傳統(tǒng)的實(shí)訓(xùn)內(nèi)容過(guò)于單一,會(huì)計(jì)教師只是教給學(xué)生簡(jiǎn)單的會(huì)計(jì)技巧,比如核對(duì)會(huì)計(jì)賬目、編繪財(cái)務(wù)報(bào)表等,這些技巧不能滿足當(dāng)前相關(guān)企業(yè)的需求。因此,會(huì)計(jì)教師要放棄傳統(tǒng)的教學(xué)方法,去尋找更加適合學(xué)生發(fā)展的教學(xué)方法,應(yīng)增加教學(xué)內(nèi)容,使其與企業(yè)財(cái)務(wù)部門(mén)的相關(guān)要求保持一致。
在上述條件下,可以基于示例級(jí)分類器構(gòu)建包級(jí)的分類器。候選區(qū)域的類別標(biāo)簽lr可以用式
(2)
計(jì)算,其中k為常數(shù)偏移量。
以式(2)為依據(jù),對(duì)于一個(gè)需要進(jìn)行鑒別的文本區(qū)域,只要其中基于不同假設(shè)提取的兩組特征中有一組具有符合要求的筆畫(huà)寬度分布,就認(rèn)為該區(qū)域通過(guò)了基于筆畫(huà)寬度特征的文本區(qū)域驗(yàn)證。
(a)檢測(cè)到的包含文本的候選文本區(qū)域;(b)基于使用筆畫(huà)寬度變換在假定前景亮度高于背景的條件下獲取的筆畫(huà)寬度信息繪制的圖像和小于50的筆畫(huà)寬度的分布,其中像素點(diǎn)的灰度值設(shè)為檢測(cè)到的筆畫(huà)寬度;(c)基于相反假設(shè)獲取的筆畫(huà)寬度信息和筆畫(huà)寬度分布;(d)在Pascal數(shù)據(jù)集中得到的不包含文本的候選文本區(qū)域;(e)和(f)分別為基于不同假設(shè)獲取的筆畫(huà)寬度灰度圖和相應(yīng)的筆畫(huà)寬度分布
本節(jié)給出了文本區(qū)域分類的多示例模型。為了獲得一個(gè)有效的基于hos特征的文本區(qū)域分類器,需要提供足夠的訓(xùn)練樣本。由于使用筆劃寬度變換(SWT)算法獲取筆畫(huà)寬度信息需要前景與背景之間的極性參數(shù)來(lái)判斷搜索的方向,而現(xiàn)有的數(shù)據(jù)集中提供的監(jiān)督信息往往只標(biāo)注當(dāng)前樣本屬于文本區(qū)域還是非文本區(qū)域,不提供極性參數(shù),因而對(duì)訓(xùn)練樣本中的每一個(gè)文本區(qū)域進(jìn)行手工標(biāo)注需要的人力消耗較大,這給分類器訓(xùn)練任務(wù)帶來(lái)了困難。
上述問(wèn)題可以使用多示例學(xué)習(xí)(MIL)方法來(lái)解決。對(duì)本文中的訓(xùn)練問(wèn)題而言,文本區(qū)域分類器的學(xué)習(xí)是一個(gè)特殊的多示例學(xué)習(xí)問(wèn)題,每個(gè)示例包中有且僅有兩個(gè)示例。
在多示例學(xué)習(xí)方法的基礎(chǔ)上,考慮到多示例學(xué)習(xí)算法的學(xué)習(xí)效果與監(jiān)督學(xué)習(xí)效果相差較大,希望通過(guò)引入少量具有完整監(jiān)督信息的訓(xùn)練樣本來(lái)提高分類器訓(xùn)練的效果。本文提出了一種半監(jiān)督多示例學(xué)習(xí)方法來(lái)訓(xùn)練的文本區(qū)域分類器。采用這一方法的主要目的是在降低消耗的同時(shí)充分利用樣本中不完整的監(jiān)督信息。該學(xué)習(xí)算法的具體流程見(jiàn)算法1。
該方法首先根據(jù)實(shí)驗(yàn)數(shù)據(jù)的實(shí)際標(biāo)注信息,將樣本分為正例集合P、反例集合N和無(wú)標(biāo)簽集合U。正例集合P中的樣本為真實(shí)的文本區(qū)域,而且極性參數(shù)是已知的。反例集合N中樣本為非文本區(qū)域,其中的兩組特征都不反映真實(shí)文本區(qū)域中的筆畫(huà)寬度,不需要提供極性參數(shù)。集合U中的樣本同樣是真實(shí)的文本區(qū)域,但其中的極性參數(shù)并未提供。在算法的最初階段進(jìn)行有監(jiān)督的學(xué)習(xí),使用集合P和N中的示例進(jìn)行分類器的訓(xùn)練。然后使用得到的分類器參數(shù)對(duì)集合U中的示例進(jìn)行標(biāo)注。進(jìn)而使用所有樣本再次進(jìn)行分類器的訓(xùn)練。算法循環(huán)地執(zhí)行上述步驟,直到集合U中示例的標(biāo)簽不再變化或達(dá)到預(yù)設(shè)的迭代次數(shù)為止。
算法1 半監(jiān)督多示例學(xué)習(xí)算法輸入:正例集合P(帶有示例標(biāo)簽),正例集合U(帶有包標(biāo)簽),反例集合N輸出:示例分類器F,其參數(shù)集合為θ 1:基于P和N訓(xùn)練分類器F,求解參數(shù)θ 2:利用θ計(jì)算集合U中每個(gè)樣本中兩個(gè)示例的標(biāo)簽l 3:基于P,U和N重新訓(xùn)練分類器,求解^θ 4:重新計(jì)算集合U中示例的標(biāo)簽^l 5:若^l≠l a. 令l=^l b. 基于P,U和N訓(xùn)練分類器,更新^θ c. 更新集合中示例的標(biāo)簽^l=F(^θ) 6:返回θ=^θ
值得注意的是,本文提出的半監(jiān)督多示例學(xué)習(xí)方法并不局限于某些特定的分類方法,能夠配合不同的分類器使用。當(dāng)訓(xùn)練樣本中同時(shí)存在有監(jiān)督樣本、無(wú)監(jiān)督樣本和半監(jiān)督樣本時(shí),使用本文提出的方法可以充分利用樣本中不完整的監(jiān)督信息,提高分類器的性能。
4.1 實(shí)驗(yàn)數(shù)據(jù)
使用的測(cè)試數(shù)據(jù)集包括Hua等[11]收集的微軟通用測(cè)試集(microsoft common test set,MCTS)。該數(shù)據(jù)集包括45幀包含文本內(nèi)容的視頻圖像,其中包含的文本區(qū)域都進(jìn)行了詳細(xì)的標(biāo)注,包括文字內(nèi)容、位置、對(duì)比度等信息。此外,為了使實(shí)驗(yàn)具有更強(qiáng)的說(shuō)服力,本文收集了一組新的視頻文本數(shù)據(jù)。這些數(shù)據(jù)的來(lái)源包括新聞、體育、演講、電影以及卡通等不同類型的視頻片段。其中包含457幀圖像,每一幀都包含有一個(gè)或多個(gè)文本區(qū)域,總的文本區(qū)域數(shù)量為1633個(gè)。本文的余下部分中將MSTS數(shù)據(jù)集記為‘MS’,本文收集的數(shù)據(jù)記為‘PIC’。
為了對(duì)文本區(qū)域鑒別方法進(jìn)行測(cè)試,首先要將文本區(qū)域從圖像中提取出來(lái)。對(duì)于正例樣本,可以比較容易地依據(jù)標(biāo)記信息從圖像中提取子圖像并根據(jù)監(jiān)督信息對(duì)這些圖像進(jìn)行歸類。實(shí)驗(yàn)使用MS數(shù)據(jù)集中包含的152個(gè)文本區(qū)域作為監(jiān)督信息完整的正例集合P,PIC數(shù)據(jù)集中包含的1633個(gè)文本區(qū)域作為半監(jiān)督正例集合U。為了獲取反例樣本,本文使用一種改進(jìn)的基于角點(diǎn)的視頻文本檢測(cè)算法[12]進(jìn)行候選文本區(qū)域檢測(cè)。該方法首先將視頻幀投影到尺度空間,然后在不同的尺度下進(jìn)行角點(diǎn)檢測(cè)并生成候選文本區(qū)域,最后將不同尺度下得到的候選文本區(qū)域合并。
具體地,本文使用Pascal VOC數(shù)據(jù)集[13]中的圖像樣本來(lái)生成反例。首先從該數(shù)據(jù)集中人工選擇一組不包含文本內(nèi)容的圖片(247張),然后使用上述檢測(cè)算法進(jìn)行文本區(qū)域檢測(cè)。由于上述圖像樣本中不包含任何文本內(nèi)容,算法得到714個(gè)不包含文本內(nèi)容的候選區(qū)域作為反例集合N。使用有效的文本檢測(cè)方法來(lái)獲取反例的好處在于得到的區(qū)域邊緣密度較大,與文本區(qū)域的相似程度更高。
4.2 文本區(qū)域鑒別
對(duì)4.1節(jié)中得到的文本區(qū)域樣本,使用SWT算法從上述樣本中提取筆畫(huà)寬度信息(基于兩種可能的極性參數(shù))。然后分別統(tǒng)計(jì)筆畫(huà)寬度信息的分布并利用區(qū)域?qū)挾扰c高度的最小值對(duì)該分布進(jìn)行歸一化,避免文本區(qū)域尺度對(duì)特征的影響。
實(shí)驗(yàn)考察指標(biāo)為文本區(qū)域分類的準(zhǔn)確率。準(zhǔn)確率的計(jì)算采用交叉驗(yàn)證的方式:對(duì)于每次實(shí)驗(yàn),將正例和反例樣本隨機(jī)地分成相等的兩部分。其中一部分作為訓(xùn)練樣本,另一部分作為測(cè)試樣本。最終的準(zhǔn)確率為將上述隨機(jī)過(guò)程重復(fù)十次的平均值。本文首先使用帶示例標(biāo)簽的正例集合P和反例集合N進(jìn)行有監(jiān)督的分類器訓(xùn)練。然后使用EM-DD[14]方法(改進(jìn)的MIL方法)基于全部正例U,P和反例集合N進(jìn)行多示例學(xué)習(xí)。最后使用本文提出的SS-MIL算法使用全部正例U,P和反例集合N訓(xùn)練分類器?;赟S-MIL算法的分類器訓(xùn)練過(guò)程如算法1所述。上述三種學(xué)習(xí)模式下,均使用基于徑向基函數(shù)(RBF)核的支持向量機(jī)(SVM)分類器[15]作為示例級(jí)的分類器,分類器的具體實(shí)現(xiàn)基于Libsvm[16]。三種不同學(xué)習(xí)模式得到的SVM分類器在相同的測(cè)試數(shù)據(jù)集上進(jìn)行測(cè)試,得到的結(jié)果如表1所示。
表1 文本區(qū)域分類精確度
實(shí)驗(yàn)結(jié)果證明,通過(guò)引入包含不完整監(jiān)督信息的樣本,使用本文提出的SS-MIL算法可以提高分類器的識(shí)別準(zhǔn)確率。而EM-DD方法訓(xùn)練的分類器由于無(wú)法利用示例級(jí)標(biāo)簽包含的信息,分類器的準(zhǔn)確率較低。
4.3 文本區(qū)域檢測(cè)
為了驗(yàn)證高性能的文本鑒別方法對(duì)整個(gè)文本檢測(cè)系統(tǒng)性能的影響?;诒疚奈谋捐b別方法,本小節(jié)實(shí)現(xiàn)了一個(gè)完整的視頻文本檢測(cè)系統(tǒng)。為了保證實(shí)驗(yàn)結(jié)果的準(zhǔn)確性,本研究在MS數(shù)據(jù)集和PIC數(shù)據(jù)集上分別進(jìn)行了文本區(qū)域檢測(cè)算法性能的系統(tǒng)測(cè)試。
在實(shí)驗(yàn)過(guò)程中,為了保證實(shí)驗(yàn)結(jié)果的可靠性,將
訓(xùn)練文本區(qū)域分類器的樣本與測(cè)試樣本分開(kāi)。首先從PIC數(shù)據(jù)集中選出138幀圖像,其中包含524個(gè)文本區(qū)域。然后從中隨機(jī)地選擇200個(gè)文本區(qū)域并為其手動(dòng)增加對(duì)比度參數(shù),即示例級(jí)的標(biāo)簽信息。這些樣本作為訓(xùn)練樣本的正例。從Pascal VOC數(shù)據(jù)集中獲取的714個(gè)不含文本的區(qū)域全部作為反例。分類器訓(xùn)練過(guò)程與4.2節(jié)相同。相應(yīng)地,測(cè)試數(shù)據(jù)包含MS數(shù)據(jù)集中的45幀圖像以及PIC數(shù)據(jù)集中剩余的319幀圖像。
在候選文本區(qū)域檢測(cè)階段,使用文獻(xiàn)[12]中提出的多尺度視頻文本檢測(cè)方法來(lái)獲取候選文本區(qū)域。實(shí)驗(yàn)中使用的滑動(dòng)窗口大小的變化范圍為10到40,步進(jìn)值為5。角點(diǎn)強(qiáng)度閾值t設(shè)為0.3(正規(guī)化到0至1之間),形態(tài)學(xué)操作的參數(shù)o=15。在區(qū)域融合階段,將重合區(qū)域大于0.80的區(qū)域融合成為一個(gè)區(qū)域。表2分別對(duì)‘MS’和‘PIC’兩組數(shù)據(jù)集統(tǒng)計(jì)了在進(jìn)行文本區(qū)域鑒別之前該方法在文本區(qū)域檢測(cè)任務(wù)中的性能。
在文本區(qū)域鑒別階段每個(gè)候選文本區(qū)域最終的標(biāo)簽由式(2)決定。為了提高算法的效率,除了使用筆畫(huà)寬度特征外,本文還使用區(qū)域大小和飽和度來(lái)過(guò)濾過(guò)小、明顯錯(cuò)誤的候選區(qū)域。區(qū)域大小的閾值設(shè)定為1000(像素點(diǎn)),飽和度的大小設(shè)置為0.6。本文將提出的方法與另外兩種典型方法進(jìn)行了對(duì)比試驗(yàn),文本區(qū)域檢測(cè)的召回率和精確度如表3所示。
表2 文本區(qū)域檢測(cè)召回率
表3中的結(jié)果顯示,本文中提出的算法可以有效地檢測(cè)不同類別視頻幀中的文本區(qū)域。算法的準(zhǔn)確率優(yōu)于對(duì)比方法,召回率也達(dá)到較高水平,其綜合性能(F值)優(yōu)于同類方法。結(jié)合表2和表3的結(jié)果來(lái)看,本文提出的文本區(qū)域鑒別方法顯著地提高了檢測(cè)的準(zhǔn)確率,從而提升了檢測(cè)系統(tǒng)的整體性能。
表3 基于SS-MIL的文本檢測(cè)系統(tǒng)在測(cè)試數(shù)據(jù)上的結(jié)果
本文針對(duì)視頻文本檢測(cè)問(wèn)題,提出了一種基于筆畫(huà)寬度特征的方法來(lái)實(shí)現(xiàn)更有效的文本區(qū)域鑒別。實(shí)驗(yàn)結(jié)果證明,該特征可以更有效地反映文本區(qū)域的特性,因此比目前大多數(shù)方法采用的幾何特征具有更好的普適性和魯棒性。此外,本文提出一種新的半監(jiān)督多示例學(xué)習(xí)算法來(lái)解決文本區(qū)域分類器訓(xùn)練過(guò)程中監(jiān)督信息不完整的問(wèn)題。該方法可以有效地利用訓(xùn)練樣本中不完整的監(jiān)督信息,在降低訓(xùn)練成本的同時(shí)提高分類器的性能。本文最終將上述方法與一種具有較高召回率的文本檢測(cè)方法相結(jié)合,實(shí)現(xiàn)了一個(gè)完整的視頻文本檢測(cè)系統(tǒng)。實(shí)驗(yàn)結(jié)果表明,該系統(tǒng)可以有效地檢測(cè)視頻中的文本區(qū)域,這一結(jié)果有力地證明了本文提出的文本區(qū)域鑒別方法的有效性。
[1] Sharma N, Pal U, Blumenstein M. Recent advances in video based document processing: a review. In: IAPR International Workshop on Document Analysis Systems, Gold Coast, Australia, 2012. 63-68
[2] Ye Q, Huang Q, Gao W, et al. Fast and robust text detection in images and video frames.ImageandVisionComputing, 2005, 23(6): 565-576
[3] Qian X, Wang H, Hou X. Video text detection and localization in intra-frames of H. 264/AVC compressed video.Multimediatoolsandapplications, 2014, 70(3): 1487-1502
[4] Koo H I, Kim D H. Scene text detection via connected component clustering and nontext filtering.IEEETransactionsonImageProcessing, 2013, 22(6): 2296-2305
[5] Yi C, Tian Y. Text string detection from natural scenes by structure-based partition and grouping.IEEETransactionsonImageProcessing, 2011, 20(9): 2594-2605
[6] Chen H, Tsai S S, Schroth G, et al. Robust text detection in natural images with edge-enhanced maximally stable extremal regions. In: Proceedings of the IEEE International Conference on Image Processing, Brussels, Belgium, 2011. 2609-2612
[7] Shivakumara P, Sreedhar R P, Trung Q P, et al. Multioriented Video Scene Text Detection Through Bayesian Classification and Boundary Growing.IEEETransactionsonCircuitsandSystemsforVideoTechnology, 2012, 22(8): 1227-1235
[8] Sharma N, Shivakumara P, Pal U, et al. A new method for arbitrarily-oriented text detection in video. In: IAPR International Workshop on Document Analysis Systems, Gold Coast, Australia, 2012. 74-78
[9] Zhao X, Lin K H, Fu Y, et al. Text from corners: a novel approach to detect text and caption in videos.IEEETransactionsonImageProcessing, 2011, 20(3): 790-799
[10] Epshtein B, Ofek E, Wexler Y. Detecting text in natural scenes with stroke width transform. In: IEEE Conference on Computer Vision and Pattern Recognition, Providence, USA, 2012. 2963-2970
[11] Hua X S, Wenyin L, Zhang H J. Automatic performance evaluation for video text detection. In: International Conference on Document Analysis and Recognition, Seattle, USA, 2001. 545-550
[12] Zhang B, Liu J F, Tang X L. Multi-scale video text detection based on corner and stroke width verification. In: Visual Communications and Image Processing, Kuching, Malaysia, 2013. 1-6
[13] Everingham M, Van Gool L, Williams C K I, et al. The pascal visual object classes (voc) challenge.Internationaljournalofcomputervision, 2010, 88(2): 303-338
[14] Zhang Q, Goldman S A. EM-DD: An improved multiple-instance learning technique. In: Advances in neural information processing systems, 2006. 1073-1080
[15] 張學(xué)工. 關(guān)于統(tǒng)計(jì)學(xué)習(xí)理論與支持向量機(jī). 自動(dòng)化學(xué)報(bào), 2000,(01): 36-46
[16] Chang C C, Lin C J. LIBSVM: A library for support vector machines.ACMTransactionsonIntelligentSystemsandTechnology, 2011, 2(3): 27
[17] Kim K I, Jung K, Kim J H. Texture-based approach for text detection in images using support vector machines and continuously adaptive mean shift algorithm.IEEETransactionsonPatternAnalysisandMachineIntelligence, 2003, 25(12): 1631-1639
A text region identification method based on stroke width features and semi-supervised multi-instance learning
Wu Rui*, Du Qingan**, Zhang Boyu*, Huang Qingcheng*
(*Department of Computer Science and Technology, Harbin Institute of Technology, Harbin 150001) (**Tianjin Institute of Aerospace Electrical Equipment, Tianjin 300000)
In consideration of the importance of text region identification to video text detection, a new text region identification method based on stroke width features was proposed. The proposed method can effectively distinguish text regions form non-text regions by analyzing the distribution of the stroke width information in candidate text regions. Moreover, a new semi-supervised multi-instance semi-supervised learning (SS-MIL) algorithm was given to solve the problem that the polar parameter is uncertain in the process of extracting stroke width feature information. The proposed SS-MIL algorithm can improve the performance of region classifier by utilizing incomplete sample labels in training data. A complete video text detection system was implemented based on the proposed methods, and it was tested thoroghty by using the typical data sets such as MCTS. The results showed that the text region identification based on stroke width features and SS-MIL was effective, so the video text detection system achieved the higher overall performance in video test detection.
text region verification, stroke width, semi-supervised learning, multi-instance learning (MIL)
10.3772/j.issn.1002-0470.2016.02.001
①國(guó)家自然科學(xué)基金(61370162,61440025)和中央高?;究蒲袠I(yè)務(wù)費(fèi)專項(xiàng)資金(HIT.NSRIF.2012048)資助項(xiàng)目。
2015-10-28)
②男,1976年生,博生,講師;研究方向:文本分析,模式識(shí)別,圖像處理;聯(lián)系人,E-mail: simple@hit.edu.cn