摘" 要: 針對無人機在獲取海上艦船目標(biāo)影像時面臨的實時性與清晰度之間的矛盾,提出一種影像壓縮模糊重建方法。該方法利用改進的YOLOv8檢測模型和Real?ESRGAN網(wǎng)絡(luò),通過數(shù)據(jù)集構(gòu)建、網(wǎng)絡(luò)訓(xùn)練調(diào)試和部署運用等步驟,實現(xiàn)了在有限帶寬和計算資源環(huán)境下地面端高質(zhì)量艦船目標(biāo)影像的實時重建。首先利用改進的YOLOv8模型對影像中艦船目標(biāo)進行精準(zhǔn)檢測和定位,隨后通過Real?ESRGAN網(wǎng)絡(luò)對壓縮及模糊影像進行重建,以恢復(fù)影像的高分辨率和細(xì)節(jié)信息。實驗結(jié)果表明,該方法不僅顯著提升了影像的清晰度和檢測準(zhǔn)確性,還大幅減少了帶寬消耗,滿足了無人機艦船識別的高實時性要求,且在資源受限的情況下表現(xiàn)尤為突出。為無人機在海上艦船目標(biāo)監(jiān)測領(lǐng)域提供了一種有效的解決方案,不僅提高了無人機的監(jiān)測和識別能力,也為進一步推進無人機在海洋監(jiān)測中的廣泛應(yīng)用奠定了基礎(chǔ)。
關(guān)鍵詞: 無人機影像; 海面艦船; 雙向特征融合模型; Real?ESRGAN網(wǎng)絡(luò); 改進的YOLOv8檢測模型; 海上艦船目標(biāo)監(jiān)測
中圖分類號: TN911.73?34; TP751" " " " " " " " " "文獻標(biāo)識碼: A" " " " " " " " " 文章編號: 1004?373X(2025)01?0017?06
Super?resolution reconstruction of UAV maritime vessel target images
SUN Weiwei1, CUI Yaqi1, 2, 3, ZHANG Shaoqing2, 3, XIA Shutao1
(1. Naval Aeronautical University, Yantai 264000, China;
2. Shenyang Aircraft Design and Research Institute of Aviation Industry of China, Shenyang 110035, China;
3. Northwestern Polytechnical University, Xi’an 710072, China)
Abstract: A method for compressive and blurry image reconstruction has been proposed to get rid of the conflict between real?time requirements and image clarity during the acquisition of maritime vessel images by unmanned aerial vehicles (UAVs). By utilizing an improved YOLOv8 detection model and Real?ESRGAN network, this method achieves real?time reconstruction of high?quality vessel images at the ground station under limited bandwidth and computational resource constraints with the steps of dataset construction, network training, debugging and deployment. Initially, the improved YOLOv8 model is used for precise detection and localization of vessel within the images. Subsequently, the Real?ESRGAN network is used to reconstruct the compressive and blurry images to restore high?resolution and details of the image. Experimental results indicate that the method enhances image clarity and detection accuracy significantly while greatly reducing bandwidth consumption, meeting the high real?time requirements of UAV?based vessel recognition, particularly in resource?constrained scenarios. This method provides an effective solution for UAVs in the field of maritime vessel monitoring, enhancing their capabilities for surveillance and identification, and laying the groundwork for the broader application of UAVs in marine monitoring.
Keywords: UAV image; surface vessel; bidirectional feature fusion model; Real?ESRGAN network; improved YOLOv8 detection model; monitoring of maritime vessel target
0" 引" 言
無人駕駛飛機在民用和軍事應(yīng)用中都承擔(dān)著重要的任務(wù),為有效支撐海上艦船目標(biāo)發(fā)現(xiàn)識別任務(wù),要求無人機盡可能遠(yuǎn)地獲取艦船目標(biāo)高清影像[1]。然而由于通信帶寬的限制,地面站僅能獲取壓縮后的模糊影像[2],無法獲取高清無損影像,嚴(yán)重影響地面站影像分析判讀工作,海上目標(biāo)檢測識別作為無人機的重要應(yīng)用方向,實現(xiàn)無人機海上艦船目標(biāo)影像壓縮模糊重建需求迫切。
近年來,深度學(xué)習(xí)技術(shù)在計算機視覺領(lǐng)域取得了令人矚目的進展,特別是在圖像超分辨率重建這一挑戰(zhàn)性的任務(wù)上。超分辨率重建旨在從低分辨率圖像中恢復(fù)出高分辨率圖像,這一過程對于改善圖像質(zhì)量、提升視覺體驗以及滿足日益增長的圖像處理需求至關(guān)重要[3],深度學(xué)習(xí)算法因其強大的特征學(xué)習(xí)能力而在這方面發(fā)揮了重要作用。文獻[4?5]提出的SRCNN算法是早期將深度學(xué)習(xí)應(yīng)用于超分辨率重建的代表作之一,SRCNN通過使用深層卷積網(wǎng)絡(luò)和空間金字塔池化技術(shù),有效地學(xué)習(xí)低分辨率圖像到高分辨率圖像的映射[6]。文獻[7]進一步推進了這一領(lǐng)域的研究,提出了VDSR算法。VDSR采用了非常深的網(wǎng)絡(luò)結(jié)構(gòu),通過學(xué)習(xí)大量的樣本,能夠在圖像重建中恢復(fù)更多的細(xì)節(jié)和紋理信息[8]。文獻[9]提出的EDSR算法則是在網(wǎng)絡(luò)結(jié)構(gòu)上的進一步創(chuàng)新。EDSR使用了高效的殘差網(wǎng)絡(luò)結(jié)構(gòu),能夠在網(wǎng)絡(luò)較深時仍保持梯度的有效性,從而實現(xiàn)更高質(zhì)量的圖像重建[10]。文獻[11]提出的GAN算法,不僅在圖像生成領(lǐng)域引起了革命,也被應(yīng)用于超分辨率重建。GAN通過訓(xùn)練一個生成器和判別器之間的對抗性網(wǎng)絡(luò),能夠生成非常逼真的高分辨率圖像。
由于真實世界中很少存在成對的高低分辨率影像,現(xiàn)有方法主要通過對高分辨率影像進行退化以生成低分辨率影像,基于原始影像和退化影像形成數(shù)據(jù)集進行訓(xùn)練。數(shù)據(jù)集中低分辨率影像對高清影像進行退化獲取,具體采用例如模糊、下采樣、噪聲和JPEG壓縮等方法,但真實低分辨率影像退化更加復(fù)雜和多樣,簡單的退化組合難以模擬真實數(shù)據(jù),造成訓(xùn)練的模型泛化性不佳。由于無人機對海探測飛行過程中即可獲取實時回傳的低分辨率壓縮影像,也可事后獲取高分辨無損影像,因此可以綜合運用低分辨率壓縮影像和高分辨無損影像進行數(shù)據(jù)集構(gòu)建,以提高模型泛化性能。由于數(shù)據(jù)集構(gòu)建方式不同,導(dǎo)致現(xiàn)有方法難以直接應(yīng)用于無人機圖像超分辨率重建,需要進行優(yōu)化改進。
本文提出了一種適用于無人機海上目標(biāo)探測的超分辨率重建技術(shù),算法流程圖如圖1所示。首先使用改進YOLOv8目標(biāo)檢測網(wǎng)絡(luò)對包含地物目標(biāo)的原始影像進行快速篩選,準(zhǔn)確地篩選出所有包含目標(biāo)的圖像幀,并經(jīng)人工確認(rèn),形成海面艦船目標(biāo)數(shù)據(jù)集;進一步,利用海面艦船目標(biāo)數(shù)據(jù)集訓(xùn)練超分辨率Real?ESRGAN網(wǎng)絡(luò),將低分辨率圖像轉(zhuǎn)換為高清晰度的超分辨率圖像;最終,部署由YOLOv8和Real?ESRGAN聯(lián)合構(gòu)成的超分辨率重建網(wǎng)絡(luò)至無人機地面控制端,實現(xiàn)實時壓縮影像到高分辨率影像的轉(zhuǎn)換。
1" 艦船目標(biāo)數(shù)據(jù)集構(gòu)建
無人機執(zhí)行飛行任務(wù),實時對地物目標(biāo)進行拍攝。收集無人機多次任務(wù)數(shù)據(jù),包括無人機實時回傳的低分辨壓縮影像[X]和飛行結(jié)束卸載的高分辨無損影像[Z]。對無人機視頻影像數(shù)據(jù)利用改進的YOLOv8[12]檢測模型進行目標(biāo)檢測處理,構(gòu)建生成艦船目標(biāo)數(shù)據(jù)集。改進的YOLOv8檢測模型整體框架如圖2所示。整個網(wǎng)絡(luò)由三部分組成:特征提?。˙ackbone)、特征融合(Neck)、檢測頭(Head)。在YOLOv8基礎(chǔ)上采用雙向特征融合和注意力機制進行特征融合。
1.1" 特征提取網(wǎng)絡(luò)
特征提取網(wǎng)絡(luò)(Backbone)采用Darknet?53模型[13]。該模型是YOLO目標(biāo)檢測系統(tǒng)中的一款網(wǎng)絡(luò)結(jié)構(gòu),由文獻[14]設(shè)計。Darknet?53在設(shè)計上注重于速度與性能的平衡,相比于VGG16,它的層數(shù)較少,但每個卷積層通常會使用更大的卷積核(如7×7或5×5),并且在某些層之間加入殘差連接(Residual Connection),以幫助信息在不同層次間更好地流動。網(wǎng)絡(luò)結(jié)構(gòu)詳細(xì)信息如圖2右側(cè)所示,由Conv卷積模塊和Residual Block殘差塊串行疊加4次構(gòu)成。
研究結(jié)果表明,Darknet?53因為參數(shù)少,計算效率較高,適合用于需要實時處理大量圖片的目標(biāo)檢測任務(wù)。
1.2" 特征融合網(wǎng)絡(luò)
1.2.1" 雙向特征融合模型
特征融合網(wǎng)絡(luò)(Neck)采用雙向特征融合模型。CNN在特征提取過程中采用了一種層次化的方法。通常情況下,隨著網(wǎng)絡(luò)層數(shù)的增加,每個特征點能夠覆蓋的區(qū)域(即感受野)也隨之增大,從而可以提取出更高級別的抽象特征和更豐富的語義信息。相反,淺層特征更多地關(guān)注于捕獲一些較為簡單的細(xì)節(jié),例如輪廓和紋理。為了克服低層特征在語義信息方面的缺陷,采用雙向特征融合模塊,該模塊通過一種特殊的聚合和重用機制,有效地補充了高層特征中的信息。
具體的融合過程如圖3所示,將高層特征的語義信息與低層特征的細(xì)節(jié)信息進行有效整合,以提高目標(biāo)檢測的準(zhǔn)確性和效率。
1.2.2" 注意力機制
注意力機制通過評估特征的重要性對特征進行加權(quán),以此來優(yōu)化特征的表示。本文采用了兩種注意力機制,即通道注意力機制和空間注意力機制。這些機制的集成處理流程如圖4所示。
2" 基于Real?ESRGAN的影像重建
2.1" 生成網(wǎng)絡(luò)
Real?ESRGAN模型生成網(wǎng)絡(luò)是基于ESRGAN生成網(wǎng)絡(luò)來實現(xiàn)的,輸入的是低分辨壓縮影像,經(jīng)過生成網(wǎng)絡(luò)的處理,得到一個4倍分辨率放大的圖片。在處理2倍和1倍的放大時,通過pixel?unshuffle將影像尺寸進行縮小,影像的通道數(shù)會有所增加。將原來的像素分配到低分辨壓縮影像中,從而得到一個影像通道數(shù)增多,但分辨率降低的新影像。然后,這個處理后的圖片被輸入到生成網(wǎng)絡(luò)中(如圖5所示),經(jīng)過網(wǎng)絡(luò)的處理,可以得到一個2倍或1倍分辨率增大的圖片[y]。
2.2" 判別網(wǎng)絡(luò)
Real?ESRGAN模型的判別網(wǎng)絡(luò)采用的是U?Net網(wǎng)絡(luò)[15],由編碼下采樣部分和解碼上采樣部分組成,以區(qū)分生成的影像和真實的影像。輸入是生成的影像[y]或卸載的高分辨無損影像[z],輸出是對應(yīng)的影像是真實影像還是生成影像的概率。當(dāng)概率越接近0,影像被認(rèn)為是生成的,當(dāng)概率越接近1,影像被認(rèn)為是真實的。
2.3" 損失函數(shù)
Real?ESRGAN模型采用的損失函數(shù)由感知損失(Perceptual Loss)、對抗損失(GAN Loss)和像素級別損失(Pixel Loss)組成,具體表達(dá)式為:
[LG=Lpercep+λLRaG+ηL1] (1)
式中:[Lpercep]表示感知損失;[LRaG]表示對抗損失;[L1]表示像素級別損失;[λ]、[η]表示對抗損失和內(nèi)容損失的系數(shù)。
Real?ESRGAN模型進一步優(yōu)化了這一感知損失,通過利用激活層之前的特征進行計算,具體如式(2)所示。這種做法顯著增強了重建圖像在細(xì)節(jié)上的表現(xiàn),使得圖像更加接近原始的高質(zhì)量視覺內(nèi)容。
[Lpercep=?xi-?yi1] (2)
[LRaG]是生成器所產(chǎn)生的圖片與真實圖片之間的差異,即[Dxi]判別網(wǎng)絡(luò)的輸出,是一個概率值,具體表達(dá)式如下:
[LRaG=-yrilogDxi-1-yrilog1-Dxi" " =-yrilogDxi] (3)
[L1]為像素級別損失,具體表達(dá)式如下:
[L1=meanGxi-yi1] (4)
3" 實驗結(jié)果分析
3.1" 數(shù)據(jù)集
按照無人機視角自建艦船目標(biāo)數(shù)據(jù)集,含680張樣本,具體如圖6所示。
3.2" 初始無人機影像重建
首先將影像當(dāng)作一個整體,進行超分辨處理,具體過程如圖7所示。
通過圖7可以看出,對影像進行整體重建,整體分辨率有所改善,但是目標(biāo)船體的分辨率并未達(dá)到預(yù)期的效果。
3.3" 無人機艦船目標(biāo)影像重建
先對影像中的船體進行目標(biāo)檢測,再對目標(biāo)船體進行超分辨率處理,具體過程如圖8所示。
通過圖8可以看出,先對船體目標(biāo)進行檢測,再進行高分辨重建的艦船細(xì)節(jié)明顯高于對影像的整體重建。
4" 結(jié)" 語
本文針對無人機海上艦船目標(biāo)影像獲取面臨的實時與清晰之間的矛盾,考慮到現(xiàn)有方法由于數(shù)據(jù)集構(gòu)建方式不同,難以直接應(yīng)用于無人機圖像超分辨率重建,基于改進的YOLOv8檢測模型和Real?ESRGAN網(wǎng)絡(luò),提出了一種適用于無人機影像的壓縮模糊重建方法。
實驗結(jié)果顯示,本文處理方法可顯著改善艦船目標(biāo)影像清晰度。后續(xù)計劃結(jié)合實際裝備開展算法部署應(yīng)用研究。
注:本文通訊作者為崔亞奇。
參考文獻
[1] 徐曉婷,滕杰.無人機偵察圖像實時展示方法研究[J].科技創(chuàng)新與應(yīng)用,2024,14(5):137?140.
[2] 王鈺寧,劉曉霞,胡云冰.基于能效感知的無人機協(xié)助的視頻數(shù)據(jù)傳輸[J].彈箭與制導(dǎo)學(xué)報,2021,41(6):7?11.
[3] LI H B, JIA Y Y, ZHU H Z, et al. Multi?level feature extraction and reconstruction for 3D MRI image super?resolution [J]. Computers in biology and medicine, 2024, 171: 10815.
[4] DONG C, LOY C C, HE K M, et al. Image super?resolution using deep convolutional networks [EB/OL]. [2024?09?18]. http://arxiv.org/abs/1501.00092.
[5] LIU D L, ZHAO H N, CHEN B T, et al. THz time?domain spectral imaging enhancement based on an MLP?SRCNN composite network [J]. Optics and lasers in engineering, 2024, 176: 108101.
[6] LIU D L, ZHEN Z, DU Y F, et al. Super?resolution stress imaging for terahertz?elastic based on SRCNN [J]. Optics and photonics journal, 2022, 12(11): 253?268.
[7] KIM J, LEE J K, LEE K M. Accurate image super?resolution using very deep convolutional networks [EB/OL]. [2015?11?14]. https://arxiv.org/abs/1511.04587v1.
[8] CHEN X. Efficient?VDSR network for super?resolution [C]// Proceedings of 4th International Conference on Computer Engi?neering, Information Science and Internet Technology. [S.l.: s.n.], 2022: 9.
[9] LIM B, SON S, KIM H, et al. Enhanced deep residual networks for single image super?resolution [C]// 2017 IEEE Conference on Computer Vision and Pattern Recognition Workshops (CVPRW). New York: IEEE, 2017: 1132?1140.
[10] JENEFA A, KURIAKOSE M B K, NAVEEN V E, et al. EDSR: Empowering super?resolution algorithms with high?quality DIV2K images [J]. Intelligent decision technologies, 2023, 17(4): 1249?1263.
[11] GOODFELLOW I J, POUGET?ABADIE J, MIRZA M. Generative adversarial nets [C]// Advances in Neural Information Processing Systems 27: Annual Conference on Neural Information Processing Systems 2014. [S.l.: s.n.], 2014: 2672?2680.
[12] 張建東.融合深度監(jiān)督與改進YOLOv8的海上目標(biāo)檢測[J].南京信息工程大學(xué)學(xué)報,2024,16(4):482?489.
[13] 李冠,龐玉琳,田坤.基于YOLO和ConvLSTM混合神經(jīng)網(wǎng)絡(luò)的暴力視頻檢測[J].計算機應(yīng)用與軟件,2023,40(11):233?240.
[14] REDMON J, DIVVALA K S, GIRSHICK B R, et al. You only look once: Unified, real?time object detection [EB/OL]. [2018?08?13]. http://arxiv.org/abs/1506.02640.
[15] WANG X T, XIE L B, DONG C, et al. Real?ESRGAN: Training real?world blind super?resolution with pure synthetic data [EB/OL]. [2024?09?18]. https://arxiv.org/abs/2107.10833.
基金項目:國家自然科學(xué)基金項目(62171453)
作者簡介:孫煒瑋(1989—),女,山東棲霞人,碩士研究生,講師,研究方向為圖像處理、信息融合。
崔亞奇(1987—),男,河南西平人,博士研究生,副教授,研究方向為航跡關(guān)聯(lián)、信息融合。