彭祥云,陳 黎
(1.湖北省智能信息處理與實(shí)時(shí)工業(yè)系統(tǒng)重點(diǎn)實(shí)驗(yàn)室,湖北 武漢 430081;2.武漢科技大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,湖北 武漢 430081)
隨著平安城市、智能交通、智慧城市等重點(diǎn)行業(yè)基礎(chǔ)設(shè)施和公共服務(wù)的持續(xù)建設(shè),對(duì)龐大的監(jiān)控視頻進(jìn)行統(tǒng)一的管理也顯得尤為重要。2019年以來,公安部通過“公安視頻圖像信息聯(lián)網(wǎng)應(yīng)用運(yùn)維管理平臺(tái)”,陸續(xù)啟動(dòng)了對(duì)省級(jí)公安及下級(jí)業(yè)務(wù)部門的視頻運(yùn)行情況考核。發(fā)現(xiàn)部分?jǐn)z像機(jī)存在時(shí)間信息與標(biāo)準(zhǔn)時(shí)間存在偏差的現(xiàn)象。而時(shí)間信息作為安防視頻圖像必備的內(nèi)容要素,一旦出現(xiàn)問題可能會(huì)使整個(gè)監(jiān)控系統(tǒng)存在極大的風(fēng)險(xiǎn)。如時(shí)間信息標(biāo)注錯(cuò)誤的監(jiān)控圖像甚至可能因?yàn)椴痪邆浞尚ЯΧ鵁o法作為證據(jù),不僅增加了公安部門的破案難度,還會(huì)引發(fā)人們對(duì)監(jiān)控系統(tǒng)存在意義與價(jià)值的質(zhì)疑。
隨著深度學(xué)習(xí)技術(shù)的快速發(fā)展,人工智能技術(shù)在安防領(lǐng)域的應(yīng)用不斷拓寬。因此,文中提出一種基于深度學(xué)習(xí)的視頻圖像時(shí)間戳同步檢測(cè)方法,能夠及時(shí)發(fā)現(xiàn)視頻監(jiān)控系統(tǒng)中與標(biāo)準(zhǔn)時(shí)間偏差程度超出容差閾值的監(jiān)控?cái)z像機(jī),以便輔助人工進(jìn)行校準(zhǔn)工作。其中,時(shí)間戳同步檢測(cè)的難點(diǎn)如下所述:
首先,時(shí)間戳區(qū)域檢測(cè)作為后續(xù)工作的基礎(chǔ),時(shí)間戳區(qū)域檢測(cè)結(jié)果的好壞將直接影響后續(xù)工作的好壞。因此,圖像時(shí)間戳區(qū)域的檢測(cè)要求輸出的時(shí)間戳區(qū)域的邊界框要完整且準(zhǔn)確。既不能出現(xiàn)檢測(cè)不完全的現(xiàn)象,也不能包含過多的背景信息。然而由于監(jiān)控設(shè)備的多樣,不同地區(qū)在標(biāo)注時(shí)間戳信息時(shí)沒有完全遵循《GA/T 751-2008視頻圖像文字標(biāo)注規(guī)范》標(biāo)準(zhǔn)。導(dǎo)致監(jiān)控視頻中的時(shí)間戳標(biāo)注出現(xiàn)多樣性與不規(guī)范的現(xiàn)象,如圖1所示。此外,在自然場(chǎng)景下還會(huì)有不均勻的光照、相似的紋理特征等因素的影響。這些都給時(shí)間戳的檢測(cè)任務(wù)帶來了巨大的挑戰(zhàn)。
圖1 時(shí)間戳標(biāo)注多樣性
其次,時(shí)間戳同步的判斷標(biāo)準(zhǔn)或流程。如果簡(jiǎn)單采用某一時(shí)段設(shè)備時(shí)間與標(biāo)準(zhǔn)時(shí)間是否相同作為判斷標(biāo)準(zhǔn),可能存在如下問題:第一,獲取數(shù)據(jù)是通過采集某一路監(jiān)控點(diǎn)位監(jiān)控設(shè)備的實(shí)時(shí)圖像,并記錄該點(diǎn)位圖像采集發(fā)起時(shí)刻作為標(biāo)準(zhǔn)時(shí)間,而視頻流采集圖像幀在網(wǎng)絡(luò)傳輸、設(shè)備響應(yīng)等各環(huán)節(jié)存在不確定延時(shí)現(xiàn)象,導(dǎo)致一些時(shí)間戳同步的設(shè)備誤報(bào)為不同步;第二,時(shí)間標(biāo)注字符在背景透明的自然場(chǎng)景圖像中,極易受到光線環(huán)境變化及關(guān)聯(lián)因素的干擾,可能在不同時(shí)間段的識(shí)別結(jié)果不同,使得同一監(jiān)控設(shè)備同時(shí)出現(xiàn)同步與不同步的矛盾情況。
針對(duì)目前時(shí)間戳同步檢測(cè)的問題與難點(diǎn),文中方法的主要貢獻(xiàn)如下:
(1)提出的CBAP方法融合了檢測(cè)與分割的優(yōu)點(diǎn)并在fpn網(wǎng)絡(luò)中加入文字特征增強(qiáng)模塊,提升模型對(duì)透明文字和文字與背景紋理特征相似等‘弱像素’文字區(qū)域的檢測(cè)效果。
(2)在模型的推理階段提出候選框誤差近鄰傳播連接的后處理方法,通過對(duì)檢測(cè)分支和分割分支的輸出做進(jìn)一步優(yōu)化,得到更加完整的檢測(cè)結(jié)果。
(3)提出一種基于圖像的時(shí)間戳同步判定方法,能有效地根據(jù)圖像判斷出監(jiān)控設(shè)備的時(shí)間與標(biāo)準(zhǔn)時(shí)間是否同步。
針對(duì)時(shí)間戳的檢測(cè)與識(shí)別,鮑復(fù)民等人[1]提出一種基于模板匹配的方法,但對(duì)于字體大小變化十分敏感。姚文杰等人[2]提出的方法需要對(duì)每個(gè)字符進(jìn)行標(biāo)注,需要耗費(fèi)大量人力去標(biāo)注訓(xùn)練樣本。都難以應(yīng)用到安防視頻時(shí)間戳的檢測(cè)與識(shí)別上。從大方向看,時(shí)間戳檢測(cè)與標(biāo)記牌文字檢測(cè)[3]、發(fā)票文字檢測(cè)[4]和車牌檢測(cè)[5]同屬于場(chǎng)景文字檢測(cè)范疇。而國(guó)內(nèi)外最新基于深度學(xué)習(xí)的場(chǎng)景文字檢測(cè)方法主要分為基于目標(biāo)檢測(cè)的方法和基于圖像分割的方法兩大類。
基于目標(biāo)檢測(cè)的方法一般是通過對(duì)R-CNN[6]、SSD[7]或yolo[8]等算法進(jìn)行改進(jìn),使之更符合場(chǎng)景文字檢測(cè)。DeepText[9]通過對(duì)Faster R-CNN[10]算法進(jìn)行改進(jìn),在RPN模塊后面加入Inception[11]模塊并且加入歧義文字這一類別,因此能更好地獲取文本區(qū)域。但對(duì)小區(qū)域的文本的檢測(cè)效果不佳。楊宏志等人[12]通過在Faster R-CNN算法中引入LSTM,可以更好地對(duì)長(zhǎng)文本進(jìn)行定位。龍言等人[13]采用分支結(jié)構(gòu)的特征提取方法,使得算法能夠感知到更加深層次的文本特征,從而提升算法檢測(cè)精度。Liao等人[14]提出的基于SSD的TextBoxes++算法不需要二次回歸并且可以檢測(cè)任意方向的文本。林泓等人[15]提出基于多路精細(xì)化特征融合的方法可以針對(duì)難樣本進(jìn)行檢測(cè)。
Zhang等人[16]首次將全卷積神經(jīng)網(wǎng)絡(luò)引入到場(chǎng)景文字檢測(cè),將文字視為一個(gè)需要分割的目標(biāo)。楊劍鋒等人[17]通過融合多尺度文字特征圖提出可以檢測(cè)任意方向的文字檢測(cè)算法。Yao等人[18]提出的整體嵌套邊緣檢測(cè)算法(holistically-nested edge detection,HED)通過將文字區(qū)域概率、字符概率和相鄰字符連接概率融和到一個(gè)網(wǎng)絡(luò)進(jìn)行學(xué)習(xí)。基于實(shí)例分割的PixelLink[19]算法從實(shí)例分割結(jié)果中獲取文本位置信息。該網(wǎng)絡(luò)通過預(yù)測(cè)每個(gè)像素文本、非文本分類和每個(gè)像素的8個(gè)方向是否連接這2個(gè)任務(wù),然后利用Opencv可以獲得不同大小的文本連通域,接著使用噪聲濾除操作,最后通過并查集合并出最終的文本框。PSENet[20]主要通過預(yù)測(cè)多個(gè)分割結(jié)果S1,S2,…,Sn,其中S1面積最小,Sn面積最大,再通過擴(kuò)張算法逐步擴(kuò)張成正常文本大小。
文中提出一種基于深度學(xué)習(xí)的視頻圖像時(shí)間戳同步檢測(cè)方法,首先通過深度學(xué)習(xí)方法得到時(shí)間戳區(qū)域與時(shí)間信息,再通過設(shè)計(jì)同步匹配方法得出設(shè)備時(shí)間戳是否與標(biāo)準(zhǔn)時(shí)間同步的結(jié)論。
由于安防視頻圖像時(shí)間戳標(biāo)注的多樣性,使得目前的文字檢測(cè)算法在應(yīng)用到安防視頻的時(shí)間戳區(qū)域檢測(cè)時(shí)往往無法取得令人滿意的檢測(cè)結(jié)果。主要存在以下問題:第一,時(shí)間戳區(qū)域檢測(cè)不完全。第二,檢測(cè)框過大,包含太多干擾信息。筆者認(rèn)為基于目標(biāo)檢測(cè)的方法對(duì)物體級(jí)別的Anchor進(jìn)行回歸與分類,獲得的信息多同時(shí)也會(huì)包含部分背景信息使得檢測(cè)結(jié)果包含過多背景。而基于分割的方法針對(duì)像素進(jìn)行分類,在邊緣處的分割效果往往不太理想,會(huì)出現(xiàn)檢測(cè)結(jié)果缺少字符的現(xiàn)象。因此文中提出的CBAP算法,同時(shí)融合了檢測(cè)與分割的優(yōu)點(diǎn),能更好地應(yīng)對(duì)復(fù)雜的自然場(chǎng)景。CBAP的網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示,主要分為兩個(gè)分支:檢測(cè)分支(detection branch)和分割分支(segmentation branch)。
圖2 CBAP網(wǎng)絡(luò)結(jié)構(gòu)
2.1.1 網(wǎng)絡(luò)結(jié)構(gòu)
檢測(cè)分支的設(shè)計(jì)過程中主要借鑒了CTPN[21]的網(wǎng)絡(luò)結(jié)構(gòu)。首先,將完整的時(shí)間戳區(qū)域劃分為包含部分時(shí)間戳區(qū)域小塊,將檢測(cè)任務(wù)轉(zhuǎn)變?yōu)閷?duì)小時(shí)間塊的檢測(cè),以此來解決長(zhǎng)文字行的檢測(cè)問題。其次,通過引入LSTM網(wǎng)絡(luò),獲取時(shí)間戳的上下文聯(lián)系,根據(jù)前后的時(shí)間塊序列來提取相互之間的關(guān)系特征,能有效地提升檢測(cè)的精度。
分割分支中的網(wǎng)絡(luò)構(gòu)建主要參考了FPN(feature pyramid network)的網(wǎng)絡(luò)結(jié)構(gòu)。FPN最早由Lin[22]等人提出用于解決目標(biāo)檢測(cè)中的多尺度問題。主要通過橫向連接將低層的低級(jí)細(xì)粒度特征與高層的高級(jí)語義信息融合,在不增加計(jì)算量的情況下大幅提升了對(duì)小物體的檢測(cè)性能。在近幾年的場(chǎng)景文字檢測(cè)的研究中,研究人員同樣采用FPN結(jié)構(gòu)在公共數(shù)據(jù)集上獲得了不錯(cuò)的檢測(cè)效果。但文中研究對(duì)象與公共數(shù)據(jù)集之間的差異較大,特別是對(duì)透明字體與文字背景混疊等困難樣本的時(shí)間戳區(qū)域的檢測(cè),這些樣本的文字與背景難以區(qū)分,目前的場(chǎng)景文字檢測(cè)算法難以準(zhǔn)確檢測(cè)出時(shí)間戳區(qū)域。因此,文中在FPN的橫向連接中加入了一組文字特征增強(qiáng)模塊,提升模型對(duì)文字像素的感知。其中,文字特征增強(qiáng)模塊主要參考了Dai等人[23]提出的可變形卷積的思想。Dai等人認(rèn)為固定幾何結(jié)構(gòu)的卷積對(duì)未知形變的建模存在固有的缺陷,這種缺陷來源于卷積單元對(duì)輸入特征圖的固定位置進(jìn)行采樣,為了解決這個(gè)缺陷,由此提出了可變形卷積,可以實(shí)現(xiàn)在當(dāng)前位置附近隨意采樣。而文中以整個(gè)時(shí)間戳區(qū)域?yàn)檠芯繉?duì)象,形狀固定為長(zhǎng)方形,水平方向的特征信息豐富。因此可以將卷積核固定為長(zhǎng)方形,在獲取文字特征信息的同時(shí)省去可變形卷積自適應(yīng)探索的過程?;诖?,文中設(shè)計(jì)的文字特征增強(qiáng)模塊具體結(jié)構(gòu)如圖3所示。首先,為了獲得足夠的感受野來應(yīng)對(duì)不同尺度的時(shí)間戳區(qū)域的檢測(cè)任務(wù),引入擴(kuò)張率為2、卷積核為3×3的空洞卷積獲得大感受野的特征圖;然后在大感受野特征圖上使用1×5卷積提取更多的橫向紋理特征,得到更多關(guān)于文字特征的特征圖;最后,將高層的特征圖上采樣后與之融合得到對(duì)文字特征加強(qiáng)后的金字塔特征圖。
圖3 文字特征增強(qiáng)模塊(FE)
2.1.2 候選框誤差近鄰傳播連接方法
在模型推理階段,文中通過設(shè)計(jì)候選框誤差近鄰信息傳播連接方法從網(wǎng)絡(luò)檢測(cè)分支與分割分支的結(jié)果中提煉出最終的檢測(cè)結(jié)果。具體步驟為:
(1)劃分集合:首先,對(duì)概率圖進(jìn)行二值化后得到文本與非文本二值圖并通過獲取連通域的最小外接矩形來得到分割分支的檢測(cè)結(jié)果。然后,對(duì)檢測(cè)分支的所有小檢測(cè)框,通過計(jì)算其與每個(gè)分割分支的檢測(cè)結(jié)果的水平距離與垂直重疊度確定小檢測(cè)框所屬于的文本實(shí)例。具體判斷方法為按照垂直重疊度從大到小依次選取分割結(jié)果直到滿足水平距離在50個(gè)像素內(nèi)的條件。如果所有的分割結(jié)果都不滿足條件,該小檢測(cè)框直接舍棄。最終,屬于同一個(gè)分割結(jié)果小檢測(cè)框集合用來預(yù)測(cè)相應(yīng)的文本行。其中,方框的水平距離計(jì)算方法為兩個(gè)方框的中心點(diǎn)的橫坐標(biāo)的差的絕對(duì)值減去兩個(gè)方框的寬的一半;方框的垂直重合度的計(jì)算方法為兩個(gè)方框在y軸投影的交集與兩個(gè)方框在y軸投影并集的比值。
(2)確定文本實(shí)例中心:對(duì)于(1)中得到的每一個(gè)小檢測(cè)框集合,將其中與對(duì)應(yīng)的分割分支的檢測(cè)結(jié)果有交集的小檢測(cè)框連接成基本的檢測(cè)框D,D即為文本實(shí)例中心。將與對(duì)應(yīng)的分割分支的檢測(cè)結(jié)果沒有交集的小檢測(cè)框記為集合C。
(3)計(jì)算吸引度s與可信度a:文本實(shí)例中心D對(duì)每個(gè)集合C中小檢測(cè)框會(huì)產(chǎn)生一個(gè)吸引度s,用來表示文本實(shí)例中心D認(rèn)為小檢測(cè)框包含文本實(shí)例的可能性。集合C中的每個(gè)小檢測(cè)框會(huì)擁有一個(gè)可信度a用來表示自身認(rèn)為包含文本實(shí)例的可能性。其中,可信度a的值為小檢測(cè)框在分割分支輸出的概率圖上的平均值。吸引度s的計(jì)算公式為:
s=max(0,1-ex-r)
(1)
其中,r是根據(jù)GA/T 751-2008《視頻圖像文字標(biāo)注規(guī)范》標(biāo)準(zhǔn)和時(shí)間戳字符數(shù)量計(jì)算得到,文中計(jì)算為19;x為文本實(shí)例中心D的長(zhǎng)寬比。
(4)獲取最終結(jié)果:一個(gè)小檢測(cè)框是否與文本實(shí)例中心D連接取決于它的最終概率P是否大于設(shè)定閾值,文中設(shè)定為0.5。P的計(jì)算公式如下:
P=λ*s+(1-λ)a
(2)
最終,將所有符合條件的小檢測(cè)框與文本實(shí)例中心D連接得到最終的檢測(cè)結(jié)果。
首先,針對(duì)同一監(jiān)控設(shè)備在多次檢測(cè)中可能出現(xiàn)同步與不同步并存的矛盾情況,文中設(shè)計(jì)了‘N-1命中’原則,基本思想為,在時(shí)間戳的多次識(shí)別中得到N個(gè)時(shí)間結(jié)果,對(duì)這N個(gè)結(jié)果依次執(zhí)行容差匹配,只要有一個(gè)匹配成功,就認(rèn)為這路設(shè)備時(shí)間同步并停止對(duì)剩余結(jié)果的匹配過程。如果N個(gè)結(jié)果全部匹配失敗,則會(huì)提示該路設(shè)備時(shí)間異常,需要人工修正。
其次,由于視頻流采集圖像幀在網(wǎng)絡(luò)傳輸、設(shè)備響應(yīng)等各個(gè)環(huán)節(jié)存在不確定的時(shí)延現(xiàn)象,文中使用了‘容差匹配’方法,其主要思想是依據(jù)一次識(shí)別結(jié)果時(shí)間差值是否滿足一定容差(Ω)進(jìn)行條件判斷,以盡可能減小視頻流采集圖像幀在網(wǎng)絡(luò)傳輸、設(shè)備響應(yīng)等各環(huán)節(jié)存在不確定延時(shí)現(xiàn)象對(duì)時(shí)間戳同步判斷的影響。具體計(jì)算方法為:從圖片中識(shí)別出的時(shí)間信息記為TA,應(yīng)用任務(wù)在發(fā)出圖片采集指令時(shí)的時(shí)間記為TB,容差值為Ω,計(jì)算:
|TA-TB| < Ω
(3)
如果上式成立,表示視頻監(jiān)控設(shè)備中圖像的時(shí)間信息符合標(biāo)準(zhǔn)時(shí)間的容差范圍(Ω),即為容差匹配。否則即為不匹配。
根據(jù)上述的‘N-1命中’原則與容差匹配方法,時(shí)間戳同步匹配的具體流程如圖4所示,分為以下幾個(gè)步驟:
步驟1:在某一時(shí)段,請(qǐng)求視頻監(jiān)控系統(tǒng)中一路監(jiān)控點(diǎn)位的攝像機(jī)的實(shí)時(shí)視頻碼流,并通過解碼得到視頻圖像。同時(shí),記錄請(qǐng)求指令發(fā)出時(shí)的系統(tǒng)時(shí)間T0;
步驟2:將采集的視頻圖像輸入基于深度學(xué)習(xí)的時(shí)間戳檢測(cè)識(shí)別算法,識(shí)別出時(shí)間值Ti并轉(zhuǎn)換為標(biāo)準(zhǔn)時(shí)間戳格式輸出,對(duì)于無法轉(zhuǎn)換為標(biāo)準(zhǔn)格式的統(tǒng)一輸出為“1999-01-01 00:00:00”;
步驟3:計(jì)算步驟1中的系統(tǒng)時(shí)間T0與步驟2中的識(shí)別時(shí)間Ti之間的差值ΔT,定義容差匹配的閾值Ω。如果ΔT<Ω,則該路攝像機(jī)時(shí)間同步,判定結(jié)束。否則進(jìn)入步驟4;
步驟4:判斷是否需要繼續(xù)匹配,如果繼續(xù)匹配,返回步驟1。否則該路攝像機(jī)時(shí)間不同步。判定結(jié)束。
圖4 時(shí)間戳同步匹配流程
文中實(shí)驗(yàn)中用于訓(xùn)練與測(cè)試的圖像數(shù)據(jù)均來自于校企合作,針對(duì)真實(shí)場(chǎng)景圖片進(jìn)行研究分析。數(shù)據(jù)集包含不同省份、不同時(shí)間段的市區(qū)、村鎮(zhèn)和高速公路等場(chǎng)景采集的真實(shí)圖像數(shù)據(jù)。根據(jù)不同任務(wù),文中將圖分為時(shí)間戳區(qū)域檢測(cè)數(shù)據(jù)集和時(shí)間戳同步數(shù)據(jù)集。
時(shí)間戳區(qū)域檢測(cè)數(shù)據(jù)集包括三個(gè)集合,TR-4625為訓(xùn)練集,包含4 625張圖片,選取全天候各個(gè)時(shí)段全國(guó)各地隨機(jī)抽取的圖像,包含透明字體、不同尺度文字和復(fù)雜背景下的文字;TS-2000為測(cè)試集,包含2 000張圖片,來源于湖北與廣東,選取的是白天時(shí)段且符合GA/T 751-2008《視頻圖像文字標(biāo)注規(guī)范》標(biāo)準(zhǔn);TS-6060為測(cè)試集,包含6 060張圖片,來源于湖南、江西與江蘇三個(gè)省份,時(shí)間段包括白天與夜晚,同時(shí)還出現(xiàn)透明字體、文字較小和復(fù)雜背景的現(xiàn)象。因此,相比于TS-2000集合,TS-6060的圖片復(fù)雜,檢測(cè)難度更大。
時(shí)間戳同步檢測(cè)包含一個(gè)測(cè)試集合SYN-2648,包含2 648張圖像,其中每張圖像的標(biāo)準(zhǔn)時(shí)間(服務(wù)器發(fā)出采集指令的時(shí)刻)包含在圖像名字中,然后通過人工對(duì)比設(shè)備時(shí)間(圖像上標(biāo)注時(shí)間)與標(biāo)準(zhǔn)時(shí)間的差值將集合SYN-2648分為差值在十秒內(nèi)和差值在十秒以上兩個(gè)文件。十秒為文中設(shè)置的容差匹配的容差值。
目前文本檢測(cè)的評(píng)價(jià)標(biāo)準(zhǔn)大多是基于目標(biāo)檢測(cè)評(píng)價(jià)標(biāo)準(zhǔn)的改變,沒有考慮到文本檢測(cè)任務(wù)的特殊性。文本檢測(cè)的目的是為了識(shí)別,如果只是以交并比IOU(intersection over union)來判斷文本是否被檢測(cè)出來或檢測(cè)框是否正確,無法體現(xiàn)出文本是否被檢測(cè)完全。因此,從實(shí)際應(yīng)用出發(fā),文中提出一種以應(yīng)用為驅(qū)動(dòng)的文本檢測(cè)的評(píng)價(jià)方法。該方法主要針對(duì)文本在實(shí)際應(yīng)用中出現(xiàn)文本檢測(cè)不完全但是交并比IOU卻達(dá)到要求,特別是在水平方向上會(huì)缺少字符的問題。
假定對(duì)于一幅含特定目標(biāo)區(qū)域的圖像,{Ai|i=1,2,…,N}和{Bj|j=1,2,…,M}分別為檢測(cè)框(prediction box)集合與目標(biāo)框(ground-truth box)集合。分別計(jì)算每個(gè)檢測(cè)框{Ai}和目標(biāo)框{Bi}的重疊比。計(jì)算方法如下:
(4)
(5)
MatchAB(i,j)=
(6)
其中,T1,T2取0.7,0.9。系數(shù)λ1、λ2設(shè)為0.5。
文中采用精準(zhǔn)率(Precision)、召回率(Recall)與F值對(duì)檢測(cè)性能進(jìn)行評(píng)價(jià),計(jì)算方法如下:
(7)
(8)
(9)
其中,TP、FP、FN、TN的計(jì)算方式如下:
(10)
時(shí)間戳同步檢測(cè)采用的評(píng)價(jià)指標(biāo)為準(zhǔn)確率(Accuracy,ACC),計(jì)算公式為:
(11)
其反映的是時(shí)間戳同步判斷正確的樣本占總樣本的比例。TP表示標(biāo)簽為同步,算法判定也為同步;TN表示標(biāo)簽為不同步,算法判定也為不同步;FP表示標(biāo)簽為不同步,算法判定為同步;FN表示標(biāo)簽為不同步,算法判定為同步。
首先,為了分析提出的文字增強(qiáng)模塊與候選框誤差近鄰傳播連接方法對(duì)算法性能的影響,在相同訓(xùn)練集與測(cè)試集上的對(duì)比結(jié)果如表1所示。
其中,D_Net為單獨(dú)使用檢測(cè)分支得到的檢測(cè)結(jié)果,S_Net為單獨(dú)使用分割分支得到的檢測(cè)結(jié)果,CBAP為使用候選框誤差近鄰傳播連接方法的檢測(cè)結(jié)果,CBAP+TE為使用候選框誤差近鄰傳播連接方法與文字增強(qiáng)模塊的檢測(cè)結(jié)果。從表中可以看出,對(duì)于測(cè)試集TS-2000,文中提出方法能在已經(jīng)比較好的結(jié)果上更進(jìn)一步。對(duì)于測(cè)試集TS-6060,由于測(cè)試集中包含透明字體、復(fù)雜背景等各種不符合標(biāo)注標(biāo)準(zhǔn)的樣本,檢測(cè)難度較大。單獨(dú)使用基于檢測(cè)或分割的方法很難在這種多模態(tài)測(cè)試集上取得較好的檢測(cè)效果。而文中提出的方法融合了檢測(cè)與分割的優(yōu)點(diǎn),能一定程度上提高模型對(duì)于這種多模態(tài)測(cè)試集的檢測(cè)效果。同時(shí),該方法在邊緣細(xì)節(jié)部分的表現(xiàn)更加優(yōu)秀,在文本區(qū)域的定位更加精確,能夠?yàn)樽R(shí)別任務(wù)提供更好的樣本。如圖5所示,文中方法能得到更完整的文本區(qū)域且包含更少的非文本區(qū)域,而單獨(dú)使用某一分支得到的檢測(cè)結(jié)果則出現(xiàn)缺少字符和檢測(cè)框過大的現(xiàn)象。
表1 改進(jìn)部分對(duì)性能的影響
圖5 不同方法結(jié)果對(duì)比
其次,為了驗(yàn)證文中方法的有效性,選取了基于分割的PSENet與文中方法進(jìn)行比較。得出的結(jié)果如表2所示??梢钥闯?,文中方法在TS-2000測(cè)試集上能達(dá)到目前最新文本檢測(cè)算法的效果。在TS-6060這個(gè)檢測(cè)難度更大的測(cè)試集中,文中方法在精準(zhǔn)率(precision)與F值上的表現(xiàn)更加優(yōu)異。
表2 與其他算法比較
文中用2 648張圖像測(cè)試了提出的時(shí)間戳同步判定方法,檢測(cè)結(jié)果如表3所示,
表3 時(shí)間戳同步檢測(cè)結(jié)果
從表中結(jié)果可以看出,時(shí)間戳同步判定的準(zhǔn)確率達(dá)到0.998,證明了提出的基于容差匹配的時(shí)間戳同步判定方法的合理性。在失敗的5組案例中,統(tǒng)計(jì)發(fā)現(xiàn)有3組是由于圖像本身時(shí)間戳存在缺陷或干擾導(dǎo)致識(shí)別算法輸出錯(cuò)誤的時(shí)間信息,影響了時(shí)間戳同步的判定。如圖6所示,a、b組時(shí)間戳文字由于存在缺失、重疊的現(xiàn)象影響了識(shí)別結(jié)果的準(zhǔn)確性,導(dǎo)致時(shí)間戳同步判定失敗。而c組時(shí)間戳周圍存在其他數(shù)字的干擾使得同步判定出錯(cuò)。
圖6 同步判定失敗圖像
文中提出了一種針對(duì)安防視頻監(jiān)控圖像的時(shí)間戳同步檢測(cè)方法,包括時(shí)間戳區(qū)域檢測(cè)與時(shí)間同步判定兩個(gè)部分。首先,相比于目前的場(chǎng)景文本檢測(cè)算法在檢測(cè)時(shí)間戳區(qū)域時(shí)會(huì)出現(xiàn)檢測(cè)框過大或檢測(cè)不完全的現(xiàn)象,提出的時(shí)間戳區(qū)域檢測(cè)算法針對(duì)安防視頻監(jiān)控圖像時(shí)間戳區(qū)域的文字特點(diǎn),能有效地檢測(cè)出完整的時(shí)間戳區(qū)域。在TS-2000數(shù)據(jù)集上取得了0.982的精準(zhǔn)率,在TS-6060數(shù)據(jù)集上取得0.82的精準(zhǔn)率。其次,提出的時(shí)間同步判定方法,在測(cè)試集SYN-2648上取得了0.998的準(zhǔn)確率,證明了該方法的合理性。