趙曉冬 張洵穎 車軍 陳法揚 張琳琳
摘要:針對目前精確制導武器末制導系統(tǒng)智能化發(fā)展面臨的挑戰(zhàn),結(jié)合智能目標識別算法在嵌入式硬件上的計算需求,選取針對小目標具有較好檢測效果的YOLOv3網(wǎng)絡進行優(yōu)化部署驗證。研究基于BatchNorm層的雙正則項神經(jīng)網(wǎng)絡裁剪優(yōu)化算法、基于TensorRT的INT8量化技術以及面向FPGA計算架構的INT8訓練與量化協(xié)同優(yōu)化算法。針對YOLOv3網(wǎng)絡結(jié)構,在三種典型嵌入式硬件平臺上進行優(yōu)化性能驗證,包括NVIDIA Jetson Xavier平臺、FPGA EC2實例平臺和Xilinx Ultrascale+ MPSoC ZCU104平臺。結(jié)果表明,本文提出的優(yōu)化算法可以在網(wǎng)絡識別精度與推理速度之間獲得較好的均衡。
關鍵詞:末制導目標識別;YOLOv3;神經(jīng)網(wǎng)絡優(yōu)化;Jetson Xavier;FPGA
中圖分類號:TP391.4文獻標識碼:ADOI:10.19452/j.issn1007-5453.2022.01.015
基金項目:航空科學基金(201907053005,2019ZC053018)
在現(xiàn)代戰(zhàn)爭中,精確制導武器越來越占據(jù)重要地位,它和隱身飛機被并列為美國及其西方盟國贏得冷戰(zhàn)競爭的主要手段[1]。精確制導技術的發(fā)展尤其是精確尋的末制導技術的發(fā)展是提升精確制導武器作戰(zhàn)性能的關鍵[2-3]。
在現(xiàn)代化戰(zhàn)爭中,作戰(zhàn)環(huán)境復雜性、目標特征變化性的不斷提高給精確制導系統(tǒng)帶來了新的挑戰(zhàn)[4-5]。復雜戰(zhàn)場環(huán)境下的目標自主識別與智能打擊已成為精確制導武器智能化的最顯著特征。近年來,基于深度學習的目標識別與跟蹤技術[6]已在人臉識別、自動駕駛等民用領域表現(xiàn)出卓越的性能,并成為解決自動目標自主識別問題的一種有效途徑。但是基于深度學習的機器視覺技術在精確制導武器彈道末端自主目標識別[7]與智能打擊等軍事應用中,仍需要解決三項關鍵問題,包括智能算法設計、嵌入式智能計算平臺和大規(guī)模目標數(shù)據(jù)集[8]。卷積神經(jīng)網(wǎng)絡(convolutional neural networks, CNN)通過訓練學習圖像的顏色、邊緣、紋理、形狀以及拓撲結(jié)構等特征,并對特征進行準確描述[9],基于CNN的結(jié)構廣泛適用于各類智能圖像處理算法?;谏疃葘W習的目標識別過程描述如下:建立深度網(wǎng)絡模型;在大規(guī)模分類數(shù)據(jù)集上進行算法模型的預訓練;基于預訓練結(jié)果,在目標識別數(shù)據(jù)集上訓練直至收斂;在嵌入式智能計算平臺上進行實時推理,在線生成信息情報。
當前,基于深度學習的目標識別算法[10]分為基于候選區(qū)域的算法和基于回歸的算法兩大類。前者以候選區(qū)域為前提,在圖像中首先提取候選區(qū)域,并在對其進行優(yōu)先搜索后進行分類。候選區(qū)域類算法的經(jīng)典算法包括R-CNN、Fast R-CNN[11]、Faster R-CNN[12]等?;貧w類算法不需要花費時間提取多余的候選區(qū)域,以回歸的方式對整個目標進行檢測,屬于端到端的算法?;貧w類算法主要包括SSD、YOLO算法系列[13]等。其中,YOLO系列算法推理速度快,既可以滿足實時性的要求,又可以獲得較為滿意的檢測精度,很多深度學習框架都可以很好地支持算法實現(xiàn)。考慮到末制導圖像可能包含多類型小目標的特點以及末制導過程對于實時性處理的強烈需求,本文以對小目標檢測能力較強的YOLOv3網(wǎng)絡[14]為研究對象,進行神經(jīng)網(wǎng)絡優(yōu)化算法研究;同時,以實測可見光和紅外數(shù)據(jù)集為訓練集,在三種類型的嵌入式計算平臺上,進行優(yōu)化后算法的識別效果驗證。
嵌入式智能計算平臺受限資源下的計算效能,與深度學習推理計算過程的復雜性相矛盾。通過神經(jīng)網(wǎng)絡優(yōu)化技術[15-16],可以將復雜度高、參數(shù)規(guī)模大、能耗高、推理速度慢、不適于嵌入式硬件實現(xiàn)的原始網(wǎng)絡模型,優(yōu)化為精度損失較小、模型復雜度低、能耗低、適于嵌入式硬件實現(xiàn)、推理速度滿足實時系統(tǒng)需求的輕量化網(wǎng)絡模型[17]。
本文首先選擇在精度和速度兩方面表現(xiàn)均衡并對小目標有較強檢測能力的YOLOv3目標識別網(wǎng)絡,作為神經(jīng)網(wǎng)絡優(yōu)化算法驗證的輸入;其次,提出基于BatchNorm層實現(xiàn)的雙正則項裁剪優(yōu)化算法、以及針對FPGA計算架構的INT8定點數(shù)據(jù)量化優(yōu)化算法,并詳細分析了基于TensorRT的INT8量化技術;最后,分別基于ARM+GPU結(jié)構的Jetson Xavier嵌入式平臺、FPGA EC2仿真實例平臺和Xilinx Ultrascale+MPSoC ZCU104平臺三種嵌入式計算平臺,進行目標識別效果驗證。
1 YOLOv3算法網(wǎng)絡結(jié)構
YOLOv3的網(wǎng)絡結(jié)構組成圖如圖1所示,具體由特征提取網(wǎng)絡(Darknet-53)和預測網(wǎng)絡兩部分組成。從結(jié)構上講,Darknet-53網(wǎng)絡引入了ResNet網(wǎng)絡中的殘差結(jié)構[18],由于深度加深,因此Darknet-53網(wǎng)絡的特征提取能力更強。
卷積正則激活組件(Conv2D-BN-Leaky relu,Conv)是YOLOv3網(wǎng)絡的基本構成部件,由卷積層Conv2D、歸一化層BatchNorm和Leaky Relu激活函數(shù)組成。
張量拼接Concat是YOLOv3網(wǎng)絡的構成特色之一。YOLOv3網(wǎng)絡通過張量拼接方式可以提取到深層特征和淺層特征,通過將不同倍率降采樣的張量特征與當前上采樣層的張量特征進行拼接,可以獲得高維度特征張量,進而更好地分析語義特征。
2神經(jīng)網(wǎng)絡裁剪算法
目前,針對神經(jīng)網(wǎng)絡進行裁剪的壓縮算法研究較多,其中較為基礎的是基于閾值方法對網(wǎng)絡權重進行整體裁剪的裁剪濾波器,其原理是針對每層中濾波器權重絕對值之和大于閾值的權重進行保留。該類型算法實現(xiàn)簡單,但不能將訓練過程與裁剪過程相結(jié)合,導致裁剪后的網(wǎng)絡精度較差。為了保持網(wǎng)絡模型結(jié)構裁剪后的識別精度,參考文獻[16]提出了一種針對CNN的通用化通道選擇裁剪算法,通過稀疏化尺度因子裁剪掉“不重要”的通道。本文在此基礎上,提出基于BatchNorm層及雙正則項優(yōu)化的改進型神經(jīng)網(wǎng)絡裁剪算法。
正則化[19]技術可以降低網(wǎng)絡模型復雜度,提高網(wǎng)絡穩(wěn)定程度,防止出現(xiàn)過擬合情況。在正則化框架中,目標函數(shù)同時考慮兩種基于不同正則化方式的縮放比例因子項。將基于L1正則項和L2正則項的BatchNorm層縮放因子,同時作為優(yōu)化約束正則項,并基于訓練獲得針對數(shù)據(jù)集最優(yōu)的正則項系數(shù)。目標函數(shù)如(1)所示:
本文提出的基于BatchNorm層的雙正則項裁剪優(yōu)化算法,是一種針對CNN不同網(wǎng)絡結(jié)構進行優(yōu)化的通用化神經(jīng)網(wǎng)絡壓縮算法。目標函數(shù)優(yōu)化策略描述如下:通過結(jié)合不同正則項的優(yōu)勢,將BN層的縮放因子作為雙正則項優(yōu)化約束策略,同時歸入目標函數(shù),進行稀疏化訓練,縮放因子與其對應通道的重要性成正相關關系。在訓練過程中,對不重要的通道進行自適應裁剪,從而壓縮網(wǎng)絡模型,加快推理速度。
網(wǎng)絡裁剪過程如圖2所示,網(wǎng)絡裁剪過程由稀疏化訓練、剪枝和微調(diào)網(wǎng)絡三部分組成,通過循環(huán)執(zhí)行對裁剪后的網(wǎng)絡進行迭代訓練,獲得更高的壓縮比,從而獲得滿足精度損失需求的網(wǎng)絡裁剪結(jié)果。
針對精確制導武器末制導目標識別算法對于圖像數(shù)據(jù)集的需求,選取實測可見光和紅外圖像作為兩種類型訓練數(shù)據(jù)集,并且均基于真實目標應用場景進行拍攝。兩種類型的數(shù)據(jù)集屬性描述如下:可見光數(shù)據(jù)集包含6834個訓練集和784個測試集;紅外數(shù)據(jù)集包含3070個訓練集和315個測試集。兩類數(shù)據(jù)集各自包含5個種類,分別是坦克、越野車、汽車、卡車和裝甲車。
參考文獻[16]中的裁剪算法和本文提出的裁剪算法,在可見光數(shù)據(jù)集和紅外數(shù)據(jù)集上的識別精度結(jié)果見表1。表1中的結(jié)果是多次推理計算后所統(tǒng)計出的最優(yōu)識別結(jié)果。
從表1的統(tǒng)計結(jié)果可以看出,基于訓練與裁剪同步的網(wǎng)絡裁剪算法,可以在網(wǎng)絡精度損失較小的情況下,有效壓縮網(wǎng)絡權重。相比參考文獻[16]中的裁剪算法,本文裁剪算法在權重壓縮比相同的情況下,在兩種數(shù)據(jù)集上的識別精度均優(yōu)于前者。
3神經(jīng)網(wǎng)絡量化算法
神經(jīng)網(wǎng)絡模型量化是影響目標識別網(wǎng)絡精度的重要因素。本節(jié)首先介紹基于ARM+GPU平臺的量化方法,然后提出基于ARM+FPGA平臺的量化算法。
3.1基于ARM+GPU平臺的量化方法
NVIDIA Jetson Xavier平臺是一種ARM+GPU異構計算平臺,TensorRT[20]量化方法是基于該類型平臺實現(xiàn)的較為成熟的量化方法。TensorRT將真實值直接映射到INT8上,為了避免簡單的量化方法造成位寬浪費,進而導致精度下降,TensorRT運用了飽和映射的量化方法,如圖3所示。飽和映射的主要思想是確定閾值|T|,在±| | T范圍內(nèi)的數(shù)據(jù)值,將被映射到±127范圍中。
TensorRT基于飽和映射技術進行量化,影響其精度的重要因素之一是如何選擇最優(yōu)閾值。TensorRT中使用真實數(shù)據(jù)對閾值T的選擇進行校準,并利用校準表來實現(xiàn)INT8的量化推理過程。經(jīng)過校準后的精度損失大大降低,能夠滿足要求,并且量化計算過程簡單,可以獲得較大的性能提升。
3.2基于ARM+FPGA平臺的量化算法
FPGA計算架構可以在同一時刻進行并行運算,有效提高資源的利用率。FPGA計算處理單元的結(jié)構圖如圖4所示,可以看出,在FPGA計算處理單元中,并行數(shù)據(jù)處理主要體現(xiàn)在輸入通道并行、卷積核核間并行、輸出通道并行三個方面。
在量化協(xié)同訓練過程中,根據(jù)經(jīng)驗閾值設定相應的量化步長和訓練參數(shù)。采取的具體策略包括:兩組相同權重同步訓練、每組組內(nèi)細分分組、組間對比逐步量化權重;對于每次未量化的權重部分,在量化過程當中進行新一輪的迭代求解,直到所有參數(shù)全部完成量化,從而獲得最優(yōu)的量化結(jié)果。經(jīng)過算法INT8定點量化后的網(wǎng)絡權重,可以在保持網(wǎng)絡精度的同時,以移位計算的方式在FPGA上獲得硬件加速,顯著提升執(zhí)行效率。
4仿真驗證
本文選取三種不同框架的計算平臺進行優(yōu)化算法驗證,包括基于ARM+GPU結(jié)構的嵌入式硬件平臺Jetson Xavier、FPGA EC2仿真硬件平臺和Xilinx Ultrascale+ MPSoC系列中基于ARM+FPGA結(jié)構的硬件平臺ZCU104。
4.1 Jetson Xavier平臺仿真驗證
NVIDIA Jetson Xavier是一種異構嵌入式平臺[21],硬件采用ARM+GPU設計結(jié)構。GPU架構可以為深度學習網(wǎng)絡提供高密集的計算CUDA核心。NVIDIA Jetson Xavier實物圖如圖5所示,其中紅色框內(nèi)為加速組件。
Jetson Xavier可以滿足優(yōu)化算法嵌入式硬件驗證研究所需的功能與性能需求。本文結(jié)合TensorRT INT8量化技術和網(wǎng)絡裁剪優(yōu)化技術共同實現(xiàn)目標識別優(yōu)化算法加速?;贘etson Xavier平臺進行驗證時,在圖像輸入尺寸為416px×416px時,YOLOv3算法在可見光數(shù)據(jù)集和紅外數(shù)據(jù)集上的識別結(jié)果統(tǒng)計情況見表2。表2中的結(jié)果是多次推理計算后所統(tǒng)計出的最優(yōu)識別結(jié)果。
驗證結(jié)果表明,YOLOv3網(wǎng)絡經(jīng)過本文提出的裁剪算法和TensorRT INT8定點數(shù)據(jù)量化算法優(yōu)化后,在Jetson Xavier平臺上推理部署時,運行速度有了顯著提高。針對不同數(shù)據(jù)集,裁剪后推理速度稍有差異,其原因在于網(wǎng)絡裁剪優(yōu)化結(jié)果與訓練數(shù)據(jù)集直接相關。
4.2 FPGA EC2仿真實例平臺驗證
FPGA EC2實例是一種借Web服務的方式,讓使用者付費使用云端服務器FPGA資源,進而驗證所開發(fā)FPGA系統(tǒng)的應用。FPGA EC2僅提供Web服務接口,用戶通過Linux系統(tǒng)調(diào)用相關FPGA資源服務實例,其FPGA平臺為多個Xilinx 16nm Virtex UltraScale+器件VU9P,并基于服務實例資源使用情況分時在多個VU9P上驗證。本文基于Developer AMI中的c5.large實例進行驗證,資源服務實例如圖6所示。
YOLOv3算法經(jīng)過本文提出的裁剪和FPGA INT8量化算法優(yōu)化后,在FPGA EC2仿真實例上的運行過程如下:建立EC2調(diào)用實例;調(diào)用FPGA仿真模塊;配置FPGA仿真頻率為75MHz?;贓C2實例接口進行調(diào)用的調(diào)用圖和配置圖如圖7所示。
基于FPGA EC2仿真實例進行驗證時,在圖像輸入尺寸為416px×416px時,YOLOv3算法在可見光數(shù)據(jù)集和紅外數(shù)據(jù)集上的識別結(jié)果統(tǒng)計情況見表3。表3中的結(jié)果是多次推理計算后所統(tǒng)計出的最優(yōu)識別結(jié)果。
驗證結(jié)果表明,YOLOv3網(wǎng)絡經(jīng)過本文提出的裁剪算法和FPGA INT8定點數(shù)據(jù)量化算法優(yōu)化后,在FPGA EC2仿真實例上推理部署時,能夠取得良好的加速效果。YOLOv3算法經(jīng)過裁剪和FPGA INT8量化后,運行速度有了顯著提高。
4.3 ZCU104硬件加速器平臺仿真驗證
ZCU104硬件加速器如圖8所示,其中紅色框內(nèi)為加速組件?;趯嶋H拍攝的可見光和紅外圖像數(shù)據(jù)集,在ZCU104平臺上,部署驗證本文所提出的末制導目標識別優(yōu)化算法效果。
針對可見光數(shù)據(jù)集,網(wǎng)絡結(jié)構裁剪及INT8量化前的目標識別結(jié)果如圖9所示,網(wǎng)絡結(jié)構裁剪0.3/0.6比例、同時經(jīng)過INT8定點數(shù)據(jù)量化后的識別結(jié)果如圖10~圖12所示。
針對紅外數(shù)據(jù)集,網(wǎng)絡結(jié)構裁剪及INT8量化前的目標識別結(jié)果如圖13所示,網(wǎng)絡結(jié)構裁剪0.3/0.6比例、同時經(jīng)過INT8定點數(shù)據(jù)量化后的識別結(jié)果如圖14~圖16所示。
基于ZCU104進行驗證時,在圖像輸入尺寸為416px×416px時,YOLOv3算法在可見光數(shù)據(jù)集和紅外數(shù)據(jù)集上的識別結(jié)果統(tǒng)計情況見表4。表4中的結(jié)果是多次推理計算后所統(tǒng)計出的最優(yōu)識別結(jié)果。
驗證結(jié)果表明,YOLOv3網(wǎng)絡經(jīng)過本文提出的裁剪算法和FPGA INT8定點數(shù)據(jù)量化算法優(yōu)化后,在Xilinx ZCU104平臺上推理部署時,可以在保持原始網(wǎng)絡識別精度的基礎上,獲得較高的推理幀頻。
5結(jié)論
為了解決嵌入式受限資源條件下智能算法的應用問題,提升精確制導武器末制導系統(tǒng)的目標智能識別性能,本文提出了基于裁剪和INT8定點數(shù)據(jù)量化的目標識別優(yōu)化算法。應用本文提出的神經(jīng)網(wǎng)絡裁剪算法以及TensorRT量化技術和本文提出的基于FPGA平臺的量化算法,對YOLOv3目標識別網(wǎng)絡進行裁剪量化優(yōu)化,并在Jetson Xavier、FPGA EC2仿真實例和ZCU104三種不同的嵌入式硬件平臺進行部署驗證。驗證結(jié)果表明,本文提出的基于裁剪和量化的神經(jīng)網(wǎng)絡優(yōu)化算法,針對YOLOv3目標識別網(wǎng)絡進行優(yōu)化時,在網(wǎng)絡精度與推理速度間獲得了較好的均衡。本文的優(yōu)化算法思想,為嵌入式受限資源下智能算法的應用問題提供了嶄新的思路。
下一步將進一步研究基于FPGA硬件加速器的軟硬件優(yōu)化[22-24]技術,探索性能更加優(yōu)越的神經(jīng)網(wǎng)絡優(yōu)化算法,為精確制導武器末制導目標識別系統(tǒng)提供更加智能的技術解決方案。
參考文獻
[1]范晉祥,侯文濤.防空反導精確尋的末制導技術的發(fā)展與思考[J].空天防御, 2020(3): 31-37. Fan Jinxiang, Hou Wentao. Development and thinking of precision homing terminal guidance technology for air and missile defense[J]. Air & Space Defense, 2020(3): 31-37. (in Chinese)
[2]殷希梅,康焰清.無人機載精確制導炸彈技術發(fā)展趨勢[J].兵工自動化, 2021, 40(9): 92-96. Yin Ximei, Kang Yanqing. Development trend of UAV-borne precision guided bomb technology[J]. Ordnance Industry Automation, 2021, 40(9): 92-96. (in Chinese)
[3]鄧平煜,裘旭益,姚子羽.航空軍事領域的人機混合智能技術[J].航空科學技術, 2020, 31(10): 3-6. Deng Pingyu, Qiu Xuyi, Yao Ziyu. Human-machine hybrid intelligencetechnologyinmilitaryaviationfield[J]. Aeronautical Science & Technology, 2020, 31(10): 3-6. (in Chinese)
[4]高曉冬,王楓,范晉祥.精確制導系統(tǒng)面臨的挑戰(zhàn)與對策[J].戰(zhàn)術導彈技術, 2017(6): 62-69, 75. Gao Xiaodong, Wang Feng, Fan Jinxiang. The challenges and development paths for precision guidance system[J]. Tactical Missile Technology, 2017(6): 62-69, 75. (in Chinese)
[5]武文峰,靳凌,周桃品.臨近空間高超聲速目標防御制導策略研究[J].航空科學技術, 2020, 31(3): 68-72. Wu Wenfeng, Jin Ling, Zhou Taopin. Research on defense and guidance strategy of hypersonic target in near-space[J]. Aeronautical Science & Technology, 2020, 31(3): 68-72. (in Chinese)
[6]張洵穎,趙曉冬,裴茹霞,等.無人車地面目標識別及其優(yōu)化技術研究[J].無人系統(tǒng)技術, 2020(6): 59-67. Zhang Xunying, Zhao Xiaodong, Pei Ruxia, et al. Research on ground target recognition and optimization technology of unmanned vehicle[J]. Unmanned Systems Technology, 2020(6): 59-67. (in Chinese)
[7]范晉祥,劉嘉.精確制導自動目標識別智能化的挑戰(zhàn)與思考[J].航空兵器, 2019, 26(1): 30-38. Fan Jinxiang, Liu Jia. Challenges and thinking for the precision guidance ATR intelligentization[J]. Aero Weaponry, 2019, 26(1): 30-38. (in Chinese)
[8]宋婷,賀豐收,程宇峰.深度學習技術在雷達目標檢測中的研究進展[J].航空科學技術, 2020, 31(10): 12-20. Song Ting, He Fengshou, Cheng Yufeng. Research progress of deeplearningtechnologyinradartargetdetection[J]. Aeronautical Science & Technology, 2020, 31(10): 12-20. (in Chinese)
[9]Yanagisawa H,Yamashita T,Watanabe H. A study on object detection method from manga images using CNN[C]//2018 International Workshop on Advanced Image Technology(IWAIT),2018:1-4.
[10]韓伊娜.基于深度學習的目標檢測與識別算法研究[D].西安:西安科技大學, 2020. Han Yina. Research on target detection and recognition algorithm based on deep learning[D]. Xi’an: Xi’an University of Science and Technology, 2020. (in Chinese)
[11]GirshickR.FastR-CNN[C]//2015IEEEInternational Conference on Computer Vision(ICCV),2015:1440-1448.
[12]Ren S Q,He K M,Girshick R,et al. Faster R-CNN:towards real-time object detection with region proposal networks[J]. IEEETransactionsonPatternAnalysisandMachine Intelligence,2017,39(6):1137-1149.
[13]Redmon J,Divvala S,Girshick R,et al. You only look once:unified,real-time object detection[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition(CVPR),2016:779-788.
[14]Redmon J,F(xiàn)arhadi A. YOLOv3:an incremental improvement[C]//IEEE Conference on Computer Vision and Pattern Recognition,2018.
[15]Huang J H,Sun W Z,Huang L. Deep neural networks compression learning based on multiobjective evolutionary algorithms[J]. Neurocomputing,2020,22:260-269.
[16]Liu Z,Li J G,Shen Z Q,et al. Learning efficient convolutional networks through network slimming[C]//2017 International Conference on Computer Vision,2017:2755-2763.
[17]Zhang P F,Ran H Y,Jia C Y,et al. A lightweight propagation path aggregating network with neural topic model for rumor detection[J]. Neurocomputing,2021,458(10):468-477.
[18]Zhang X L,Dong X P,Wei Q J,et al. Real-time object detection algorithm based on improved YOLOv3[J]. Journal of Electronic Imaging,2019,28(5):53022.
[19]Zhu D,Song X D,Yang J,et al. A bearing fault diagnosis method based on L1 regularization transfer learning and LSTM deep learning[C]//2021 IEEE International Conference on InformationCommunicationandSoftwareEngineering(ICICSE),2021:308-312.
[20]Tao L,Hong T,Guo Y C,et al. Drone identification based on CenterNet-TensorRT[C]//2020 IEEE International Symposium onBroadbandMultimediaSystemsandBroadcasting(BMSB),2020:1-5.
[21]Wang X J,Zhou Z G,Li Y. Design of moving target tracking system based on Jetson platform[C]//2020 IEEE International Conference on Artificial Intelligence and Information Systems(ICAIIS),2020:371-375.
[22]Li S C,Wen W,Wang Y,et al. An FPGA design framework for CNN sparsification and acceleration[C]//2017 IEEE 25th Annual International Symposium on Field-Programmable Custom Computing Machines(FCCM),2017:28.
[23]Han S,Kang J L,Mao H Z,et al. ESE:efficient speech recognition engine with sparse LSTM on FPGA[C]//Proceedings of the 2017 ACM/SIGDA International Symposium on Field- Programmable GateArrays,2017:75-84.
[24]Kim H,Choi K. Low power FPGA-SoC design techniques for CNN-based object detection accelerator[C]//2019 IEEE 10th AnnualUbiquitousComputing,Electronics&Mobile Communication Conference(UEMCON),2019:1130-1134.
Research on Optimization Algorithm of Terminal Guidance Target Recognition for Precision-Guided Weapons
Zhao Xiaodong1,Zhang Xunying1,Che Jun2,Chen Fayang2,Zhang Linlin1
1. Northwestern Polytechnical University,Xi’an 710072,China
2. National Key Laboratory of Science and Technology on Aircraft Control,AVIC Xi’an Flight Automatic Control Research Institute,Xi’an 710076,China
Abstract: In view of the challenges faced by the intelligent development of the precision-guided weapon terminal guidance system, combined with the computing requirements of intelligent target recognition algorithm on embedded hardware, the YOLOv3 network with good detection effect for small targets is selected for optimization and deployment verification. The paper studies the pruning algorithm of double regular terms based on BatchNorm layer, the INT8 quantization technology based on TensorRT, and the INT8 training and quantization collaborative optimization algorithm for FPGA computing architecture. Aiming at the YOLOv3 network structure, the optimization performance verification is carried out on three typical embedded hardware platforms, including NVIDIA Jetson Xavier platform, FPGA EC2 instance platform and Xilinx Ultrascale+MPoC ZCU104 platform. The results show that the optimization algorithm proposed in this paper can achieve a good balance between the network recognition accuracy and inference speed.
Key Words: terminal guidance target recognition; YOLOv3; neutral network optimization; Jetson Xavier; FPGA
3251500338290