蔡玉寶,李德峰,王 寧,杜會盈,徐 聰
(中國電子科技集團公司第二十七研究所,河南 鄭州 450047)
近年來,我國軍貿(mào)指揮控制武器系統(tǒng)的出口面臨不同體制雷達的兼容問題。一些雷達偵測系統(tǒng)的通信接口不對外開放,且無法獲取其通信協(xié)議。如何快速獲取不同體制雷達實時偵測的情報信息,同時將多站點的情報信息融合并上傳至指揮中心,有以下兩種方式:1)對于可以直接獲取接口協(xié)議的雷達偵測系統(tǒng),通過設(shè)計接口轉(zhuǎn)換模塊,將不同格式的情報轉(zhuǎn)換為統(tǒng)一的情報格式,這種方式比較簡單、直接,且易于實現(xiàn);2)對有些接口協(xié)議不開放的雷達偵測系統(tǒng),可采取雷達圖像識別的方法,間接獲取雷達情報信息,這種方式適用于各型雷達偵測系統(tǒng),但需要同時滿足實時性和準確性的要求。
目前,雷達目標大多以坐標形式顯示,為了方便人員操作,往往會增加表格顯示內(nèi)容。表格因簡明扼要,信息豐富[1],被大量運用于現(xiàn)代雷達顯示系統(tǒng)。因此,如何高效地從雷達態(tài)勢圖像定位表格區(qū)域,同時有效地識別雷達態(tài)勢表格中的情報數(shù)據(jù),是采用圖像識別算法獲取雷達情報信息的核心問題之一。
雷達態(tài)勢圖像中表格內(nèi)容檢測與識別問題,可以轉(zhuǎn)化為自然場景下表格文本檢測與識別問題。雷達態(tài)勢圖像中顯示信息較多,如目標情報信息、控制信息、環(huán)境信息等,而目標情報信息可以從態(tài)勢圖像的表格中完整獲取。上述任務(wù)可分解為兩步:1)表格識別;2)文本識別。
Hu等人將表格識別分解為兩個任務(wù),即表格檢測與結(jié)構(gòu)識別[2]。表格識別可以采用傳統(tǒng)算法和深度學(xué)習(xí)算法。傳統(tǒng)算法大多基于啟發(fā)式規(guī)則進行識別。Chandran等人[3]設(shè)計了樹形式的表格識別系統(tǒng),Kieninger等人[4]基于連通分支分析提出了T-Recs系統(tǒng),Yildiz等人[5]提出了pdf2table方法,Koci等人[6]采用遺傳算法進行表格識別。
近年來,隨著深度學(xué)習(xí)目標檢測算法研究的深入,基于深度學(xué)習(xí)算法的表格識別系統(tǒng)逐漸分為三個研究方向:表格檢測、表格結(jié)構(gòu)識別和端到端表格檢測與識別[7]。表格檢測以基于候選區(qū)域的算法(Faster RCNN)[8]和基于回歸的算法(YOLO)[9]為典型代表。Sun等人[10]和Gilani等人[11]通過改進Faster RCNN網(wǎng)絡(luò)在通用表格檢測領(lǐng)域取得了不錯的效果。Huang等人[12]采用YOLOv3模型對表格進行檢測。Siddiqui等人[13]采用全卷積網(wǎng)絡(luò)(FCN),Tensmeyer等人[14]提出SPLERGE表格結(jié)構(gòu)識別模型進行表格結(jié)構(gòu)識別。此外,還有采用循環(huán)卷積網(wǎng)絡(luò)[15]和圖神經(jīng)網(wǎng)絡(luò)[16]的表格結(jié)構(gòu)識別模型。為克服單一模型級聯(lián)耗時問題,常采用端到端的表格檢測與識別模型,其中,以Schreiber等人[17]提出的DeepDeSRT系統(tǒng)和Paliwal等人[18]提出的基于圖像語義分割模型TableNet的端到端的表格檢測與識別算法為代表。
文本識別問題也可以分解為文本檢測和文本識別兩個步驟[19],在雷達態(tài)勢圖像中檢測到表格,并進行結(jié)構(gòu)識別,得到表格的物理結(jié)構(gòu),包含了文本檢測步驟。Goel等人[20]提出的傳統(tǒng)文本識別方法需要多步驟組合進行識別。基于深度學(xué)習(xí)的文本識別算法通常將文本識別分為文本特征提取和字符序列轉(zhuǎn)化[21],其中,特征提取常采用通用卷積神經(jīng)網(wǎng)絡(luò),如VGG、ResNet等[22];字符序列轉(zhuǎn)化常采用CTC[23]模型和Sequence-to-Sequence(Seq2Seq)模型[24]。
CRNN模型[25]采用CNN、RNN和CTC結(jié)構(gòu),是序列文本識別常用的算法。RARE模型[26]采用空間變換網(wǎng)絡(luò)(STN)和序列識別網(wǎng)絡(luò)(SRN),對扭曲變形文本支持較好。STAR-Net模型[27]采用空間變換網(wǎng)絡(luò)(STN)和CRNN模型,對扭曲變形的文本有較好的性能表現(xiàn)?;谡Z義推理網(wǎng)絡(luò)的SRN模型[28]采用CNN、并行視覺提取模塊(PVAM)、全局語義推理模塊(GSRM)和視覺語義融合解碼器(VSFD),對并行處理支持較好。
本文通過網(wǎng)絡(luò)攝像頭實時采集雷達態(tài)勢界面圖像,對態(tài)勢圖像中的表格和文本塊進行定位,再進行文本識別。最終獲取雷達目標信息,經(jīng)篩選組合發(fā)送至指揮中心,系統(tǒng)組成如圖1所示。
圖1 系統(tǒng)組成
1)表格識別
目前,基于深度學(xué)習(xí)的表格檢測與識別算法,在通用表格檢測與識別場景中已經(jīng)得到廣泛應(yīng)用。在某些特定場景中,如本文提出的雷達態(tài)勢圖像表格識別場景,為了提高識別準確率,需要對大量的自然場景圖像訓(xùn)練樣本進行訓(xùn)練,而在惡劣條件下(尤其是軍用環(huán)境),大量的圖像訓(xùn)練樣本往往難以獲取,且深度學(xué)習(xí)算法相對比較復(fù)雜,計算比較耗時。
通過分析特定雷達態(tài)勢界面表格風(fēng)格及布局,采用傳統(tǒng)算法進行表格檢測與識別,往往可以取得不錯的檢測結(jié)果,既保證了精度,又滿足了實時性要求,因此,本文基于數(shù)學(xué)形態(tài)學(xué)算法對雷達態(tài)勢圖像中的表格進行檢測與識別。
2)文本識別
文本識別一般可以分為文檔文本識別和自然場景文本識別,傳統(tǒng)文本識別算法在進行文檔文本識別時,可以取得較高的識別準確率,但應(yīng)用于自然場景時,其識別準確率較低。在自然場景文本識別領(lǐng)域,深度學(xué)習(xí)算法的應(yīng)用越來越廣泛。CRNN模型相對比較簡單,處理效率較高,采用了CTC損失函數(shù)進行解碼,對長文本序列有較好的識別效果;STAR-Net模型在CRNN模型的基礎(chǔ)上增加了空間變換網(wǎng)絡(luò),對扭曲變形的文本識別有較好的性能表現(xiàn),但對標準的文本識別效果相對差一些,且處理效率比CRNN更低;RARE模型同STAR-Net算法類似,支持扭曲變形文本和多向文本,算法同樣面臨處理效率低的問題;SRN模型充分利用了語義信息,提升了文本識別的準確率及魯棒性,對并行處理支持較好,同時該模型還支持扭曲的文本序列識別,但是網(wǎng)絡(luò)結(jié)構(gòu)比較復(fù)雜,若對并行處理支持不好時,其識別效率反而會降低。
在提取到雷達態(tài)勢圖像中的表格后,我們對整個表格進行了傾斜矯正。表格中的文本字體相對單一,本文充分考慮算法處理效率和識別準確率后,選擇基于CRNN模型的文本序列識別算法,該模型不僅簡單,且識別效率和準確率較高。
雷達界面數(shù)據(jù)更新速率一般不高,不需要對視頻的每一幀圖像進行處理。若每幀圖像都處理,會極大地浪費計算資源,且后端的處理速度也無法跟上。由于網(wǎng)絡(luò)攝像機采用RTSP協(xié)議且內(nèi)部有緩存,若后端處理耗時,就無法獲取最新的圖像幀,造成情報獲取滯后。為解決上述問題,通過信號量控制后端處理線程和視頻采集線程的同步,當后端線程處理完一幀圖像后,再處理視頻采集模塊采集到的最新一幀視頻圖像,就能保證每次獲取的圖像都是當前采集的最新圖像。
在自然場景中,尤其是軍用環(huán)境中,自然光、燈光及其他因素會干擾攝像頭的成像質(zhì)量,為了消除干擾及噪聲,需要對圖像進行二值化處理。
本文采用自適應(yīng)閾值算法對圖像進行二值化處理,首先遍歷整幅圖像,通過計算得到移動平均值,若該像素值低于平均值,則設(shè)置該像素為黑色,否則,設(shè)為白色。通過設(shè)置灰度圖像的鄰域塊大小,分別計算其平均值,再采用正向二值化設(shè)置像素值為
(1)
表格線一般為橫線和豎線,對二值化圖像進行開運算,可以檢測到表格線,其原理是對一幅圖像先進行腐蝕操作,再進行膨脹操作。
腐蝕算法的思路是設(shè)計一個核元素(類似模板),將其與圖像做交運算,當核元素與二值化圖像上對應(yīng)像素值完全相等時,保留該元素。其計算如下:
S=X?B={x,y|Bxy?X}
(2)
其中,S為腐蝕后的圖像,X為二值化圖像,B為核元素。
膨脹算法與腐蝕算法類似,當核元素與二值化圖像上對應(yīng)像素值至少有一個像素相等時,保留該元素。其計算方式如下:
S=X⊕B={x,y|Bxy∩X≠?}
(3)
通過構(gòu)建不同的核對二值化圖像進行開運算,可以檢測出圖像中的橫線和豎線。得到的圖像閉區(qū)域中存在較多的線條,可以設(shè)定合適的閾值過濾表格線,如果直線的長度大于閾值,則過濾,反之則保留,太小的直線可能是字符的筆劃,還有的可能是噪聲。
由于攝像機每次擺放位置不固定,其獲取的圖像可能存在傾斜現(xiàn)象,若直接處理整幅圖像,會浪費計算資源,可以先對圖像中表格內(nèi)容進行圖像切割,再依據(jù)表格的四個頂點坐標,對裁剪后的圖像進行矯正。
本文采用透視變換的方法對雷達表格圖像進行矯正,透視變換公式為
(4)
該變換是從二維空間變換到三維空間,而我們要得到的是二維圖像,故需要對坐標進行歸一化處理:
(5)
(6)
將坐標值代入公式(5)和(6),通過計算得到透視變換矩陣,利用透視變換完成圖像矯正。
在特定場景下,通過分析雷達態(tài)勢圖像中表格的布局與結(jié)構(gòu),采用連通域標記法進行字符塊定位,通過標記二值化圖像中的像素點,使連通區(qū)域形成獨立的被標識模塊,進一步得到這些區(qū)域的輪廓、質(zhì)心等幾何參數(shù)。計算每個區(qū)域的面積,若連通域的面積太小,可能是隨機噪聲;面積太大,可能是背景或者其他對象。保留面積在指定范圍內(nèi)的連通域,就可以完成字符塊定位。
為解決不定長文本識別問題,CRNN首先將輸入圖片進行縮放,使文本圖像的高度始終為32,寬度不定,然后將歸一化的圖像作為輸入,利用7層卷積神經(jīng)網(wǎng)絡(luò)(CNN)提取特征圖,再按列切分特征圖為1×512的特征序列,將特征序列輸入兩層雙向長短期記憶網(wǎng)絡(luò)(BLSTM)進行分類。在訓(xùn)練過程中,通過連接時間分類模型(CTC),實現(xiàn)字符位置與目標文本標簽的近似軟對齊,其網(wǎng)絡(luò)結(jié)構(gòu)如表1所示。
表1 CRNN網(wǎng)絡(luò)結(jié)構(gòu)
循環(huán)層輸出的是不定長的序列,進行分類任務(wù)時,會出現(xiàn)較多的冗余字符,但是某些詞語中可能存在兩個重復(fù)的字符,簡單地去掉冗余字符就不能得到完整單詞,而CTC采用blank機制(重復(fù)的字符之間插入特定符號“-”)解決了該問題。
在處理不定長文本序列時,可能存在多個不同組合可以映射為目標文本標簽路徑。設(shè)BLSTM網(wǎng)絡(luò)的輸入為x,那么輸出為l的概率為
p(l|x)=∑π∈B-1(l)p(π|x)
(7)
其中,B運算定義為目標標簽的映射,π∈B-1(l)表示可以合并成目標標簽l的所有路徑集合,通過B映射及所有候選路徑概率之和,使得CTC不用對輸入序列進行精準切分。
CTC的損失函數(shù)O定義為負最大似然函數(shù)的對數(shù):
(8)
CRNN網(wǎng)絡(luò)模型可以使用一些公開的數(shù)據(jù)集進行訓(xùn)練,如ICDAR、SVT和COCO-Text等,在進行自然場景文本識別時,通用性較強。應(yīng)用于雷達態(tài)勢圖像表格文本識別時,也能取得不錯的效果,但這些數(shù)據(jù)集一般比較大,模型收斂較慢,訓(xùn)練時間較長。在特定的場景下,使用自己構(gòu)造的訓(xùn)練數(shù)據(jù)集,可以減少訓(xùn)練時間,場景不復(fù)雜時,甚至可以提升識別準確率。
雷達態(tài)勢圖像中的目標信息往往以簡潔、直觀為主,那么,需要針對特定的雷達態(tài)勢圖像做語料收集和字體收集。以某型雷達為例,表格中的目標信息由英文字母、數(shù)字和小數(shù)點構(gòu)成,其字體相對固定,那么,可以構(gòu)造簡潔的數(shù)據(jù)集進行訓(xùn)練,這樣可以加快模型收斂速度,減少訓(xùn)練時間。
試驗所需的軟件平臺和硬件平臺要求如下:
操作系統(tǒng):Ubuntu 20.04;CPU:i9-11900K;GPU:RTX3090;內(nèi)存:64 GB;深度學(xué)習(xí)框架:tensorflow-2.2.0;圖像處理框架:opencv-4.2.0。
本文采用數(shù)學(xué)形態(tài)學(xué)算法進行雷達態(tài)勢圖像表格識別,在特定自然場景下,基于數(shù)學(xué)形態(tài)學(xué)算法的表格識別準確率可以達到100%,單幀圖像平均處理時間為0.16 s。
本文處理的雷達態(tài)勢表格中的目標數(shù)據(jù)為25行4列,表2是目前常用的幾種文本序列識別算法分別在SVT和SVT-50數(shù)據(jù)集下的識別準確率。雷達態(tài)勢圖像中表格經(jīng)傾斜矯正后,為標準文本識別,采用CRNN模型具有較高的識別準確率。
表2 文本識別準確率對比
表3列出了上述四種文本序列識別算法處理單幀圖像時的平均耗時。
表3 文本識別耗時對比
對于特定雷達圖像文本識別,由于其字體固定,語料簡潔,通過構(gòu)建合適的數(shù)據(jù)集,能有效提升識別準確率,在某些特殊的自然場景中,采用CRNN模型,其識別準確率可以達到99%,耗時也相對較少。
本文采用數(shù)學(xué)形態(tài)學(xué)算法檢測特定場景下的雷達態(tài)勢圖像中的表格,然后通過CRNN算法進行表格文本識別,平均單幀圖像處理的耗時小于500 ms(表格識別加文本識別的時間),識別準確率可以達到95%以上,滿足實時性和準確率的要求,可以應(yīng)用于特定場景下的雷達態(tài)勢圖像數(shù)字化轉(zhuǎn)換,同時也為無人值守信息采集平臺提供一種發(fā)展思路。
后期,針對雷達目標過多,表格內(nèi)容顯示不全的問題,增加雷達態(tài)勢極坐標下的目標檢測算法,并結(jié)合文本識別算法進行綜合分析,將會得到更加優(yōu)異的雷達圖像信息數(shù)字化轉(zhuǎn)換結(jié)果。