邢寶峻 殷 哲 王衛(wèi)星 彭曉明
(空軍預(yù)警學(xué)院 武漢 430019)
近年來,隨著軍事科技的不斷發(fā)展,越來越多的高技術(shù)裝備列裝部隊(duì),對(duì)部隊(duì)訓(xùn)練考核評(píng)估手段提出了更高的要求。對(duì)于航空兵來說,隨著實(shí)戰(zhàn)化訓(xùn)練深入推進(jìn),傳統(tǒng)的訓(xùn)練評(píng)估手段已無法滿足實(shí)戰(zhàn)化訓(xùn)練考核評(píng)估的要求,如何去精準(zhǔn)的評(píng)估飛行員的訓(xùn)練水平、發(fā)現(xiàn)薄弱環(huán)節(jié)、針對(duì)性制定訓(xùn)練計(jì)劃,成為提升航空兵部隊(duì)實(shí)戰(zhàn)化訓(xùn)練水平的關(guān)鍵。目前,世界各國主戰(zhàn)飛機(jī)普遍裝備了座艙視頻記錄設(shè)備,這類設(shè)備以視頻形式準(zhǔn)確記錄飛行人員操縱飛機(jī)平臺(tái)和火控、雷達(dá)、電子戰(zhàn)等裝備的流程、參數(shù)和效果,但目前主要依賴人工進(jìn)行視頻判讀,存在關(guān)鍵事件檢索困難、判讀時(shí)間長(zhǎng)、判讀效率低等問題,對(duì)飛行人員的視力健康也有一定影響。針對(duì)這些問題,本文提出一種基于機(jī)載視頻識(shí)別的飛行訓(xùn)練評(píng)估方法,通過對(duì)機(jī)載視頻進(jìn)行分析,自動(dòng)識(shí)別戰(zhàn)斗符號(hào)和參數(shù),建立關(guān)鍵事件索引,高效量化評(píng)估空中格斗和對(duì)地打擊效果,為航空兵部隊(duì)提供一種新的廣泛適用、高效便捷、客觀量化的飛行訓(xùn)練考核評(píng)估手段。
目前對(duì)視頻識(shí)別的研究一般分為基于圖像的視頻識(shí)別和基于時(shí)空信息的視頻識(shí)別?;趫D像的視頻識(shí)別是針對(duì)視頻中的每一幀畫面進(jìn)行識(shí)別,通過將視頻信息轉(zhuǎn)化為圖像信息,爾后利用端到端的自然場(chǎng)景識(shí)別方法[1~3]進(jìn)行識(shí)別,不考慮幀與幀之間的相互關(guān)系;而基于時(shí)空信息的視頻識(shí)別則是以跟蹤算法為基礎(chǔ),通過時(shí)空分析和多幀集成等方法從多個(gè)視頻幀中獲得時(shí)空信息并進(jìn)行識(shí)別[4~6],來提高識(shí)別的準(zhǔn)確性。本文主要采取基于圖像的視頻識(shí)別方法進(jìn)行研究。
一是較低的分辨率。機(jī)載雷達(dá)視頻通常采用H.263編碼模式,通過高精度運(yùn)動(dòng)補(bǔ)償實(shí)現(xiàn)精確預(yù)測(cè)[7]。但是H.263模式設(shè)計(jì)是用于低碼率視頻編碼,因此視頻分辨率比較低。
二是視頻圖像呈現(xiàn)二值化。為了使飛行員在戰(zhàn)斗中更容易在機(jī)載雷達(dá)視頻中快速定位和鎖定目標(biāo),視頻畫面以黑白兩色為主,使整體視頻畫面呈現(xiàn)二值化。
三是視頻中的字符或符號(hào)形式簡(jiǎn)單。為方便飛行員快速進(jìn)行識(shí)別,戰(zhàn)斗機(jī)機(jī)載雷達(dá)視頻畫面以幾何圖形、字符為主要形式,內(nèi)容普遍簡(jiǎn)捷易懂。
基于機(jī)載雷達(dá)視頻對(duì)飛行訓(xùn)練水平進(jìn)行評(píng)估,首先要完成對(duì)機(jī)載雷達(dá)視頻的識(shí)別。根據(jù)機(jī)載雷達(dá)視頻特點(diǎn),首先要對(duì)視頻進(jìn)行預(yù)處理,將視頻轉(zhuǎn)化為圖像,同時(shí)提高圖像質(zhì)量,以提升識(shí)別準(zhǔn)確率;其次,將得到的圖像輸入到CTPN網(wǎng)絡(luò)中,進(jìn)行文本檢測(cè);然后,利用光學(xué)字符識(shí)別網(wǎng)絡(luò)完成對(duì)文本區(qū)域字符的識(shí)別,同時(shí)將文本輸出。此外,根據(jù)機(jī)載雷達(dá)視頻內(nèi)容特點(diǎn),將機(jī)載雷達(dá)視頻區(qū)分為四個(gè)關(guān)鍵事件,建立關(guān)鍵事件索引,方便評(píng)估時(shí)進(jìn)行檢索。最后,根據(jù)得到的視頻中關(guān)鍵數(shù)據(jù)和關(guān)鍵事件對(duì)飛行訓(xùn)練水平進(jìn)行評(píng)估。
圖1 基于視頻識(shí)別的評(píng)估流程圖
為提升識(shí)別的速率和準(zhǔn)確率,首先對(duì)機(jī)載雷達(dá)視頻進(jìn)行預(yù)處理。由于機(jī)載雷達(dá)視頻中通常存在一定的冗余信息,為提升識(shí)別速率,對(duì)視頻進(jìn)行壓縮,去除冗余信息。其次,將視頻以幀為單位截取成圖像,將視頻信息轉(zhuǎn)化為圖像信息。然后通過圖像拼接技術(shù)來對(duì)轉(zhuǎn)化后的圖像進(jìn)行處理,從而提升識(shí)別效率。最后,由于拼接后的圖像分辨率較低,為提升識(shí)別準(zhǔn)確率,可利用形態(tài)學(xué)中圖像的開運(yùn)算,即先腐蝕后膨脹的操作,去除圖像中的噪點(diǎn),同時(shí)使字符表面更加平滑,便于進(jìn)行分析與識(shí)別。
圖2 預(yù)處理流程圖
CTPN[8](Connectionist Text Proposal Network,連接文本提議網(wǎng)絡(luò))是在ECCV在2016年提出的一種基于深度學(xué)習(xí)的文字檢測(cè)算法。CTPN結(jié)合了卷積神經(jīng)網(wǎng)絡(luò)(CNN)與長(zhǎng)短時(shí)記憶神經(jīng)網(wǎng)絡(luò)(LSTM),可以有效地檢測(cè)出復(fù)雜場(chǎng)景情況下的水平分布的字符[9]。CTPN創(chuàng)新性地提出了vertical anchor,運(yùn)用垂直錨的回歸機(jī)制,把文本檢測(cè)任務(wù)轉(zhuǎn)化為一系列小規(guī)模文本框檢測(cè)。同時(shí),CTPN還引入了BLSTM(雙向長(zhǎng)短時(shí)記憶神經(jīng)網(wǎng)絡(luò)),BLSTM可用于處理和預(yù)測(cè)序列數(shù)據(jù)[10],與CNN(卷積神經(jīng)網(wǎng)絡(luò))結(jié)合,能夠根據(jù)前后anchor的序列來提取字符間的排列關(guān)系特征,找到文本與文本之間的聯(lián)系,最終用文本線構(gòu)造法將各個(gè)anchor連接起來,得到文本行,以提升文本檢測(cè)效果。此外,針對(duì)文本檢測(cè)中文本邊緣容易因評(píng)分過低而被丟棄的問題,CTPN提出了利用邊界細(xì)化來提升文本框邊界的預(yù)測(cè)精準(zhǔn)度的方法,極大提升了文本檢測(cè)的精度。
戰(zhàn)斗機(jī)機(jī)載雷達(dá)視頻識(shí)別主要由Tesseract-OCR進(jìn)行。Tesseract是一個(gè)開源的OCR(Optical Character Recognition,光學(xué)字符識(shí)別)引擎,由惠普實(shí)驗(yàn)室在1985年~1995年間開發(fā)[11]。Tesseract-OCR屬開源系統(tǒng),且支持調(diào)用自定義字符庫進(jìn)行識(shí)別,它目前被公認(rèn)為是最好和最準(zhǔn)確的開源OCR系統(tǒng)。
Tesseract-OCR圖像識(shí)別體系結(jié)構(gòu)如圖所示。
對(duì)于輸入的圖像首先進(jìn)行頁面布局分析,提取出文本區(qū)域,之后利用識(shí)別引擎分析得到Blob區(qū)域,然后通過對(duì)區(qū)域中相鄰字符之間的垂直重疊關(guān)系可得到文本行,通過檢測(cè)字符之間的水平關(guān)系可以得到字符間隔,通過字符間隔劃分文本行可以得到單詞。經(jīng)過自適應(yīng)分類器兩次分析識(shí)別后對(duì)圖像中的模糊區(qū)域進(jìn)行改進(jìn),對(duì)作為備選分割點(diǎn)的字體形狀的幾何頂點(diǎn)進(jìn)行分割,然后根據(jù)識(shí)別置信度對(duì)字符進(jìn)行識(shí)別。如果失敗,則默認(rèn)字符已損壞并且不完整,那么該字符將被修復(fù)。然后利用A*算法搜索最優(yōu)字符組合,將識(shí)別結(jié)果輸出到文本中。
圖3 CTPN架構(gòu)圖
圖4 Tesseract的架構(gòu)[12]
雖然Tesseract-OCR提供了相應(yīng)的字符庫以滿足字符識(shí)別的需要,但發(fā)現(xiàn)直接調(diào)用字符庫進(jìn)行識(shí)別的精度達(dá)不到要求,這將影響相關(guān)數(shù)據(jù)的分析效果。由于Tesseract-OCR支持調(diào)用自定義字符庫進(jìn)行識(shí)別,且其自適應(yīng)分類器具有“學(xué)習(xí)能力”,因此可以將首先分析滿足條件的單詞作為訓(xùn)練樣本,以提高后續(xù)字符識(shí)別的準(zhǔn)確性。因此,可以通過訓(xùn)練字符庫來提高Tesseract-OCR字符識(shí)別的準(zhǔn)確性,并提高其將圖像轉(zhuǎn)換為文本的能力。具體方法如下:
圖5 Tesseract-OCR訓(xùn)練字符過程
字符庫的訓(xùn)練主要通過jTessBoxEditor進(jìn)行,最終形成traineddata數(shù)據(jù)包[13]。通過對(duì)比,調(diào)用訓(xùn)練的字符庫進(jìn)行識(shí)別,準(zhǔn)確率明顯提升。通過三段機(jī)載雷達(dá)視頻進(jìn)行識(shí)別,對(duì)比原視頻與識(shí)別結(jié)果,識(shí)別的準(zhǔn)確率達(dá)到86.25%,且通過不斷地學(xué)習(xí),準(zhǔn)確率會(huì)不斷提升。
通過機(jī)載雷達(dá)視頻識(shí)別模型可以對(duì)機(jī)載雷達(dá)視頻進(jìn)行識(shí)別,得出相關(guān)數(shù)據(jù)信息,并以文本的形式輸出,文本中包含雷達(dá)參數(shù)設(shè)置、目標(biāo)搜索、目標(biāo)截獲、導(dǎo)彈發(fā)射等數(shù)據(jù),將方本輸入評(píng)估系統(tǒng),根據(jù)雷達(dá)的狀態(tài)對(duì)數(shù)據(jù)進(jìn)行分類。通過對(duì)影響作戰(zhàn)效能的關(guān)鍵事件中的參數(shù)進(jìn)行分析,并與標(biāo)準(zhǔn)狀態(tài)進(jìn)行對(duì)比,可以得出飛行員對(duì)雷達(dá)操作在各個(gè)狀態(tài)下的操縱評(píng)分,從而評(píng)估出飛行員的雷達(dá)操縱水平。此外,在建立視頻識(shí)別模型時(shí),加入了關(guān)鍵事件的索引功能,通過對(duì)識(shí)別的字符與原視頻中的內(nèi)容進(jìn)行關(guān)聯(lián),評(píng)估人員可以快速定位關(guān)鍵事件發(fā)生的時(shí)段,同時(shí)通過對(duì)關(guān)鍵參數(shù)出現(xiàn)的時(shí)長(zhǎng)計(jì)算出關(guān)鍵事件發(fā)生時(shí)長(zhǎng),進(jìn)而判斷出飛行員對(duì)緊急情況的處置是否恰當(dāng)、是否及時(shí)做出正確反應(yīng),正確評(píng)估飛行員的雷達(dá)操縱熟練度。
本文通過建立機(jī)載雷達(dá)視頻識(shí)別模型,實(shí)現(xiàn)了對(duì)機(jī)載雷達(dá)視頻的自動(dòng)識(shí)別,通過對(duì)機(jī)載視頻進(jìn)行分析,自動(dòng)識(shí)別戰(zhàn)斗符號(hào)和參數(shù),建立關(guān)鍵事件索引,高效量化評(píng)估空中格斗和對(duì)地打擊效果,進(jìn)而評(píng)估飛行員的飛行訓(xùn)練情況,有利于發(fā)現(xiàn)飛行員在訓(xùn)練中的薄弱環(huán)節(jié),完成飛行訓(xùn)練復(fù)盤和飛行訓(xùn)練效果評(píng)估的需要,從而提高航空兵實(shí)戰(zhàn)化訓(xùn)練水平。該模型適用于所有裝備座艙視頻記錄器的飛機(jī),為航空兵部隊(duì)提供一種新的廣泛適用、高效便捷、客觀量化的飛行訓(xùn)練考核評(píng)估手段。