吳 靖, 韓祿欣, 沈 英, 王 舒, 黃 峰
(福州大學(xué)機(jī)械工程及自動(dòng)化學(xué)院,福州 350000)
近年來(lái),隨著智能制造技術(shù)的不斷提升,在民用方面,越來(lái)越多的無(wú)人機(jī)應(yīng)用于城市交通監(jiān)管、電力巡檢、農(nóng)業(yè)保障工作等領(lǐng)域;在軍事上,無(wú)人機(jī)可用于戰(zhàn)場(chǎng)的偵察、監(jiān)視及目標(biāo)的搜索定位,為作戰(zhàn)提供有效信息的同時(shí)還能干擾敵方電子設(shè)備,從而大大降低傷亡率。然而,無(wú)人機(jī)由于航拍視場(chǎng)大、背景復(fù)雜多樣、目標(biāo)分布不均、尺度變化大且小目標(biāo)數(shù)量多,導(dǎo)致對(duì)目標(biāo)的檢測(cè)難度加大[1]。因此,快速準(zhǔn)確地識(shí)別航拍圖像是實(shí)現(xiàn)無(wú)人機(jī)融入社會(huì)發(fā)展的重要研究?jī)?nèi)容。
伴隨著計(jì)算機(jī)硬件設(shè)備性能的與日俱增,基于深度學(xué)習(xí)的目標(biāo)檢測(cè)技術(shù)發(fā)展的蒸蒸日上。目前,實(shí)際應(yīng)用較為廣泛的目標(biāo)檢測(cè)算法可分為兩類(lèi),一類(lèi)是雙階段檢測(cè)算法,另一類(lèi)是單階段檢測(cè)算法。其中,雙階段檢測(cè)算法先經(jīng)過(guò)候選區(qū)域(Region Proposal)提取目標(biāo)建議框,再進(jìn)行目標(biāo)的分類(lèi)及位置的預(yù)測(cè),它的優(yōu)點(diǎn)是檢測(cè)精度高,但是計(jì)算資源開(kāi)銷(xiāo)大,檢測(cè)速度較慢,較難達(dá)到目標(biāo)的實(shí)時(shí)檢測(cè)目的,如R-CNN[2],F(xiàn)ast R-CNN[3],F(xiàn)aster R-CNN[4]。而單階段檢測(cè)算法直接預(yù)測(cè)圖像中的目標(biāo)類(lèi)別及其位置信息,檢測(cè)精度較高,檢測(cè)速度快,適用于實(shí)時(shí)監(jiān)測(cè)的場(chǎng)景,如YOLO[5],YOLO9000[6],YOLOv3[7],YOLOv4[8],SSD[9]。不同于自然場(chǎng)景的檢測(cè),無(wú)人機(jī)航拍目標(biāo)檢測(cè)難度相對(duì)更高。呂曉君等[10]提出強(qiáng)化Faster R-CNN主干網(wǎng)絡(luò)底層特征提取能力,并改進(jìn)網(wǎng)絡(luò)特征層的融合規(guī)則以提升對(duì)小目標(biāo)的識(shí)別精度,但檢測(cè)速度達(dá)不到實(shí)時(shí)性的要求;劉英杰等[11]提出在Cascade R-CNN[12]網(wǎng)絡(luò)中加入并行的特征金字塔層的雙線(xiàn)性插值上采樣融合,強(qiáng)化其在無(wú)人機(jī)航拍目標(biāo)上的檢測(cè)能力,但在網(wǎng)絡(luò)結(jié)構(gòu)擴(kuò)展的同時(shí)檢測(cè)速度也降低了;劉芳等[13]提出一種基于多尺度特征,能夠自適應(yīng)無(wú)人機(jī)航拍圖像候選區(qū)域生成相應(yīng)錨框的網(wǎng)絡(luò),并且在實(shí)現(xiàn)網(wǎng)絡(luò)輕量化的同時(shí)提高了檢測(cè)精度,然而檢測(cè)速度相對(duì)于單階段網(wǎng)絡(luò)仍然存在較大差距,并且受限于無(wú)人機(jī)所能搭載的計(jì)算資源和硬件功耗,部署龐大的深層網(wǎng)絡(luò)是不符合實(shí)際的。
為了解決上述問(wèn)題,本文提出一種基于改進(jìn)YOLOv4-tiny的無(wú)人機(jī)航拍目標(biāo)檢測(cè)方法。首先,在YOLOv4-tiny的基礎(chǔ)上擴(kuò)大了檢測(cè)尺度范圍,并將深層特征和淺層特征信息自下而上進(jìn)行融合,以豐富小尺寸目標(biāo)的語(yǔ)義信息;其次,引入了注意力模塊,使每個(gè)尺度的特征信息經(jīng)過(guò)二次提取,過(guò)濾了冗余的信息,保留了重點(diǎn)關(guān)注區(qū)域的特征信息;最后,與YOLOv4-tiny進(jìn)行對(duì)比實(shí)驗(yàn),結(jié)果表明本文所提算法在保證實(shí)時(shí)檢測(cè)的前提下,提升了對(duì)無(wú)人機(jī)航拍目標(biāo)的檢測(cè)精度。
YOLOv4-tiny是YOLOv4的壓縮版,模型參數(shù)量是YOLOv4的1/10,檢測(cè)速度更快,其主干部分采用了CSPDarknet53-tiny結(jié)構(gòu),包含15個(gè)卷積層,由2個(gè)暗網(wǎng)基礎(chǔ)卷積(DBL)單元和3個(gè)ResBlock模塊構(gòu)成,如圖1(a)所示。其中,DBL單元由卷積層(Conv)、批歸一化處理(BN)和激活函數(shù)Leaky ReLU構(gòu)成,如圖1(b)所示。ResBlock模塊參照ResNet[14]和CSPNet[15]將4個(gè)DBL單元進(jìn)行殘差嵌套組合,再經(jīng)過(guò)最大池化處理,如圖1(c)所示。其目的是為了在增加網(wǎng)絡(luò)深度的同時(shí)解決網(wǎng)絡(luò)退化問(wèn)題,緩解梯度彌散,使數(shù)據(jù)傳遞更加通暢。
圖1 YOLOv4-tiny結(jié)構(gòu)Fig.1 Structure of YOLOv4-tiny
輸入的圖片通過(guò)CSPDarknet53-tiny分別經(jīng)過(guò)16倍和32倍下采樣輸出為特征層1和特征層2。其中,特征層2經(jīng)過(guò)特征再提取輸出小尺度特征信息,特征層1借鑒特征金字塔算法[16],通過(guò)上采樣和DBL單元將特征層2提取的高層語(yǔ)義信息與自身提取的低層語(yǔ)義信息自頂向下地融合,再經(jīng)過(guò)卷積變化輸出大尺度特征信息。將小尺度和大尺度特征信息分別傳遞至檢測(cè)頭1和檢測(cè)頭2兩個(gè)模塊中,并沿用YOLOv3的邊框回歸和分類(lèi)算法,在2個(gè)尺度上進(jìn)行大目標(biāo)和小目標(biāo)的檢測(cè)。
原始YOLOv4-tiny模型能實(shí)現(xiàn)對(duì)大、小目標(biāo)的檢測(cè),但檢測(cè)尺度范圍不廣闊,特征提取不精細(xì),不適合無(wú)人機(jī)航拍目標(biāo)小、數(shù)量多的檢測(cè)。因此,在擴(kuò)大檢測(cè)尺度范圍的同時(shí)融入特征金字塔算法保證獲取更豐富的特征信息,并引入注意力機(jī)制進(jìn)行信息過(guò)濾以實(shí)現(xiàn)對(duì)原始模型的改進(jìn)。
YOLOv4-tiny只依靠神經(jīng)網(wǎng)絡(luò)自發(fā)地傳遞特征信息,沒(méi)有經(jīng)過(guò)重點(diǎn)信息篩選,對(duì)于小目標(biāo)、部分遮擋目標(biāo)的信息會(huì)產(chǎn)生部分忽略。而引入注意力機(jī)制,能夠?qū)Ω信d趣區(qū)域的特征數(shù)據(jù)進(jìn)行動(dòng)態(tài)權(quán)重系數(shù)加權(quán),提高網(wǎng)絡(luò)對(duì)重點(diǎn)區(qū)域的關(guān)注,解決由小目標(biāo)、部分遮擋目標(biāo)引起的識(shí)別困難問(wèn)題。本文引入了卷積區(qū)域注意力模塊(Convolutional Block Attention Module,CBAM)[17],數(shù)據(jù)輸入后依次經(jīng)過(guò)通道注意力模塊和空間注意力模塊的獨(dú)立推斷,可描述為
(1)
(2)
I′=FC(I)?I
(3)
I″=FS(I′)?I′
(4)
CBAM結(jié)構(gòu)如圖2所示,其中,通道注意力模塊采用并行的方式分別將最大池化和平均池化提取的通道信息經(jīng)過(guò)卷積層壓縮過(guò)濾并融合,最后使用Sigmoid實(shí)現(xiàn)數(shù)據(jù)歸一化從而提高感興趣通道權(quán)重,降低非興趣通道權(quán)重??臻g注意力模塊則是并行過(guò)濾空間信息并融合,再通過(guò)卷積提取重要空間信息。兩個(gè)模塊相輔相成,實(shí)現(xiàn)感興趣區(qū)域通道和空間信息的提純。
YOLOv4-tiny模型只對(duì)輸出的2個(gè)尺度的特征圖進(jìn)行目標(biāo)檢測(cè),檢測(cè)范圍有限,這對(duì)于多數(shù)量目標(biāo)容易產(chǎn)生漏檢的問(wèn)題,并且16倍下采樣后的特征層1包含的空間信息較少,易造成對(duì)小目標(biāo)、部分遮擋目標(biāo)漏檢、錯(cuò)檢的發(fā)生。因此,為了獲取更大范圍的目標(biāo)信息及包含更多特征信息的特征圖,降低由目標(biāo)數(shù)量多、尺寸小和部分遮擋導(dǎo)致的漏檢、錯(cuò)檢的概率,在原網(wǎng)絡(luò)基礎(chǔ)上添加8倍下采樣處理后的特征圖進(jìn)行目標(biāo)檢測(cè),這樣不僅提升了檢測(cè)范圍,還能提供更豐富的淺層特征信息。
改進(jìn)后的AttYOLOv4-tiny網(wǎng)絡(luò)如圖3所示,在保持原始的主干網(wǎng)絡(luò)CSPDarknet53-tiny的前提下,為了得到更多的語(yǔ)義信息,將16倍下采樣的深層特征經(jīng)過(guò)2倍上采樣和特征提純后與8倍下采樣的淺層特征融合形成新的尺度進(jìn)行檢測(cè)。同時(shí),由主干網(wǎng)絡(luò)輸出的8倍、16倍、32倍下采樣特征均要經(jīng)過(guò)CBAM模塊進(jìn)行第1次重點(diǎn)信息篩選,并且在每個(gè)尺度檢測(cè)前要經(jīng)過(guò)由n個(gè)卷積核大小為1×1的DBL單元和2n個(gè)卷積核大小為3×3的DBL單元交替組成的6個(gè)DBL單元對(duì)特征信息再提純以及CBAM模塊實(shí)現(xiàn)第2次信息過(guò)濾,其結(jié)構(gòu)如圖4所示。
圖3 AttYOLOv4-tiny網(wǎng)絡(luò)Fig.3 AttYOLOv4-tiny network
圖4 DBL和CBAM組合Fig.4 Combination of DBL and CBAM
YOLOv4-tiny網(wǎng)絡(luò)預(yù)測(cè)時(shí),為每個(gè)尺度設(shè)置3種符合輸入圖像尺寸的預(yù)測(cè)錨框,這些錨框是由K-means算法對(duì)數(shù)據(jù)集中訓(xùn)練集目標(biāo)的寬高進(jìn)行聚類(lèi)得到,對(duì)模型的檢測(cè)精度有很大影響。由于AttYOLOv4-tiny網(wǎng)絡(luò)增加了1個(gè)檢測(cè)尺度,所以錨框個(gè)數(shù)由6增加到9,錨框大小隨著設(shè)定的標(biāo)準(zhǔn)化尺寸也發(fā)生改變,對(duì)VisDrone數(shù)據(jù)集[18]聚類(lèi)后得到9個(gè)錨框,分別為(2,4),(3,9),(5,16),(8,9),(9,23),(15,14),(16,38),(28,25),(45,59),與訓(xùn)練集中所有目標(biāo)大小的平均重疊率達(dá)到67.83%,相較于原始網(wǎng)絡(luò)6個(gè)錨框的平均重疊率62.73%有了顯著的提升,使模型預(yù)測(cè)時(shí)能更加接近目標(biāo)原始尺寸,進(jìn)而提升模型的檢測(cè)精度。
YOLOv4-tiny網(wǎng)絡(luò)參數(shù)少、結(jié)構(gòu)簡(jiǎn)單,是目前能較好地實(shí)現(xiàn)無(wú)人機(jī)實(shí)時(shí)檢測(cè)的標(biāo)志性算法。因此,將本文提出的AttYOLOv4-tiny網(wǎng)絡(luò)與YOLOv4-tiny網(wǎng)絡(luò)進(jìn)行對(duì)比實(shí)驗(yàn)。本文實(shí)驗(yàn)在Ubuntu18.04操作系統(tǒng)下,基于Tensorflow深度學(xué)習(xí)框架,配有Intel Xeon CPU Silver 4216,在搭載64 GiB內(nèi)存和單張NVIDIA RTX 2080Ti的工作站上運(yùn)行。
VisDrone數(shù)據(jù)集包括了14個(gè)不同城市的市區(qū)和郊區(qū)的拍攝圖像,是目前規(guī)模最大的無(wú)人機(jī)航拍目標(biāo)的視覺(jué)分析算法評(píng)估和研究的數(shù)據(jù)集。VisDrone數(shù)據(jù)集包含6471張訓(xùn)練集圖像,548張驗(yàn)證集圖像,1610張測(cè)試集圖像。訓(xùn)練集中平均每張圖像涵蓋53個(gè)目標(biāo),而測(cè)試集中平均每張圖像涵蓋71個(gè)目標(biāo),每個(gè)類(lèi)別的目標(biāo)還有不同程度的遮擋狀況。數(shù)據(jù)集中包含10類(lèi)對(duì)象,即Awn,Bicycle,Bus,Car,Motor,Pedestrian,People,Tricycle,Truck,Van,每個(gè)種類(lèi)在數(shù)據(jù)集中的數(shù)量如表1所示。
表1 VisDrone數(shù)據(jù)集中各類(lèi)目標(biāo)的數(shù)量Table 1 The number of various targets in VisDrone dataset
實(shí)驗(yàn)過(guò)程中,YOLOv4-tiny和AttYOLOv4-tiny設(shè)置相同參數(shù)進(jìn)行訓(xùn)練,訓(xùn)練分為2個(gè)階段,每個(gè)階段的動(dòng)量(momentum)和權(quán)重衰減(decay)分別為0.9和0.000 5、批量大小(batch size)設(shè)為16。第1階段,初始學(xué)習(xí)率(learning rate)為10-3,迭代次數(shù)(epoch)設(shè)置為100;第2階段,初始學(xué)習(xí)率為10-4,當(dāng)驗(yàn)證損失函數(shù)5次迭代沒(méi)有下降時(shí),學(xué)習(xí)率按照0.5的比例進(jìn)行縮小,迭代次數(shù)為200,當(dāng)?shù)?0次以?xún)?nèi)驗(yàn)證集的損失函數(shù)沒(méi)有降低則停止網(wǎng)絡(luò)的訓(xùn)練。
為了驗(yàn)證所提算法相比YOLOv4-tiny在實(shí)際場(chǎng)景中的識(shí)別效果,選取部分環(huán)境進(jìn)行定性分析。在VisDrone數(shù)據(jù)集上白晝和黑夜的檢測(cè)結(jié)果可視化分別如圖5和圖6所示(圖中左列為YOLOv4-tiny,右列為AttYOLOv4-tiny)。圖5(a)是包含沙地、草坪和道路的復(fù)雜背景下檢測(cè)結(jié)果對(duì)比,可以發(fā)現(xiàn),YOLOv4-tiny由于卡車(chē)部分被周?chē)矬w遮擋沒(méi)有檢測(cè)到,而AttYOLOv4-tiny則能夠正確識(shí)別出目標(biāo)從而避免漏檢。圖5(b)是在普通道路上的檢測(cè)結(jié)果對(duì)比,可以發(fā)現(xiàn),YOLOv4-tiny對(duì)汽車(chē)存在深色框的重復(fù)檢測(cè)以及未能識(shí)別到左上方的摩托,而AttYOLOv4-tiny能夠避免對(duì)目標(biāo)的錯(cuò)檢和漏檢。圖6(a)是包含高樓、樹(shù)木和道路的復(fù)雜背景下的檢測(cè)對(duì)比,圖6(b)是在較為黑暗的背景下的檢測(cè)對(duì)比。通過(guò)比較可以發(fā)現(xiàn),YOLOv4-tiny存在將面包車(chē)錯(cuò)檢為小汽車(chē)、小汽車(chē)識(shí)別不完全的問(wèn)題,而AttYOLOv4-tiny在黑夜依然能夠正確識(shí)別目標(biāo),減少對(duì)目標(biāo)的漏檢。
圖5 不同網(wǎng)絡(luò)在白晝的目標(biāo)檢測(cè)結(jié)果Fig.5 Target detection results of different networks in the daytime
圖6 不同網(wǎng)絡(luò)在黑夜的目標(biāo)檢測(cè)結(jié)果Fig.6 Target detection results of different networks at night
YOLOv4-tiny模型檢測(cè)時(shí)會(huì)對(duì)輸入的圖像進(jìn)行尺寸標(biāo)準(zhǔn)化,形成一個(gè)高寬比一致的圖像,將原始圖像進(jìn)行等比例的縮放,并對(duì)圖中未鋪滿(mǎn)的空間進(jìn)行灰色像素填充。尺寸設(shè)置越大,圖像分辨率越接近原始尺寸,平均精度均值(mean Average Precision,mAP)也會(huì)更高,但是檢測(cè)速度會(huì)有所下降。因此對(duì)輸入圖像的不同尺寸進(jìn)行對(duì)比實(shí)驗(yàn),結(jié)果如表2所示。綜合檢測(cè)精度和速度,當(dāng)設(shè)置輸入尺寸為832像素×832像素時(shí),仍能夠保持實(shí)時(shí)的檢測(cè)性能,因此選定圖像輸入后的設(shè)定尺寸為832像素×832像素。
表2 輸入不同尺寸圖像的平均精度均值和檢測(cè)速度Table 2 Mean average precision and detection speed of different sizes of input image
實(shí)驗(yàn)使用精準(zhǔn)率P和召回率R以定量分析目標(biāo)檢測(cè)網(wǎng)絡(luò)的錯(cuò)檢率和漏檢率,精準(zhǔn)率和召回率越高,表示檢測(cè)過(guò)程錯(cuò)檢率和漏檢率越低,并采用F1分?jǐn)?shù)作為衡量精準(zhǔn)率和召回率平衡度的評(píng)價(jià)標(biāo)準(zhǔn),F(xiàn)1分?jǐn)?shù)越接近1,說(shuō)明模型的綜合性能越好。評(píng)價(jià)指標(biāo)可分別描述為
(5)
(6)
(7)
式中:TP為目標(biāo)預(yù)測(cè)正確的數(shù)量;FP為目標(biāo)預(yù)測(cè)錯(cuò)誤的數(shù)量;FN為目標(biāo)沒(méi)被預(yù)測(cè)到的數(shù)量。
YOLOv4-tiny和AttYOLOv4-tiny對(duì)測(cè)試集中目標(biāo)預(yù)測(cè)的精準(zhǔn)率P、召回率R和F1分?jǐn)?shù),如表3所示。
表3 不同網(wǎng)絡(luò)目標(biāo)檢測(cè)的精準(zhǔn)率、召回率和F1分?jǐn)?shù)Table 3 Precision,recall and F1score of target detection with different networks
相較于YOLOv4-tiny,AttYOLOv4-tiny對(duì)目標(biāo)檢測(cè)的精準(zhǔn)率由53.96%提升至65.48%,增長(zhǎng)了11.52%,說(shuō)明改進(jìn)后的網(wǎng)絡(luò)對(duì)于目標(biāo)錯(cuò)檢有很大的改善;召回率由48.59%提升至54.36%,增長(zhǎng)了5.77%,說(shuō)明改進(jìn)后的網(wǎng)絡(luò)有助于減少目標(biāo)漏檢的發(fā)生;F1分?jǐn)?shù)由51.13%提升至59.40%,增長(zhǎng)了8.27%,說(shuō)明改進(jìn)后的網(wǎng)絡(luò)提高了目標(biāo)檢測(cè)的綜合性能。
對(duì)比YOLOv4-tiny與AttYOLOv4-tiny在數(shù)據(jù)集中各類(lèi)目標(biāo)的平均精度(Average Precision,AP)如表4所示??梢钥闯觯瑔晤?lèi)目標(biāo)的AP提升了2%~7%,各類(lèi)目標(biāo)的平均AP比原網(wǎng)絡(luò)提高了5.09%,其中,對(duì)于行人(Pedestrian)、相對(duì)靜止的人(People)、摩托(Motor)這幾類(lèi)小目標(biāo)的平均精度均有顯著的提高,表明所提算法在擴(kuò)大網(wǎng)絡(luò)檢測(cè)尺度的同時(shí)融合深層和淺層的語(yǔ)義信息,并利用注意力機(jī)制模塊過(guò)濾特征信息,在一定程度上加強(qiáng)了對(duì)小目標(biāo)特征的識(shí)別能力,進(jìn)而提升了對(duì)航拍目標(biāo)的檢測(cè)精度。
表4 數(shù)據(jù)集中各類(lèi)目標(biāo)的平均精度對(duì)比Table 4 Average precision of various kinds of targets in dataset %
實(shí)驗(yàn)通過(guò)與主流的目標(biāo)檢測(cè)算法在VisDrone數(shù)據(jù)集上的檢測(cè)結(jié)果進(jìn)行對(duì)比來(lái)驗(yàn)證本文所提算法的綜合性能。實(shí)驗(yàn)采用的評(píng)價(jià)指標(biāo)包括參數(shù)量、mAP和檢測(cè)速度,結(jié)果如表5所示。
表5 主流算法檢測(cè)結(jié)果對(duì)比Table 5 Comparison of detection results of mainstream algorithms
其中,參數(shù)量是衡量模型復(fù)雜程度的有效指標(biāo),參數(shù)量越大,模型所需的計(jì)算資源就越大,也就越難以在無(wú)人機(jī)上實(shí)現(xiàn)部署,而mAP和檢測(cè)速度是衡量算法總體性能的重要指標(biāo)。通過(guò)比較其他主流算法可以看出,AttYOLOv4-tiny的參數(shù)量較小,更有利于實(shí)現(xiàn)算法在無(wú)人機(jī)硬件上的應(yīng)用。在檢測(cè)精度上,AttYOLOv4-tiny的mAP達(dá)到了24.25%,雖然略低于Faster R-CNN,但優(yōu)于其他主流算法,這表明擴(kuò)大檢測(cè)及融合淺層和深層特征信息能夠豐富航拍目標(biāo)的特征,再通過(guò)注意力機(jī)制模塊實(shí)現(xiàn)冗余信息的過(guò)濾,能夠進(jìn)一步提升對(duì)航拍目標(biāo)的檢測(cè)能力。雖然在模型參數(shù)量上略高于YOLOv4-tiny,使得檢測(cè)速度有一定下降,但仍能達(dá)到61幀/s,滿(mǎn)足實(shí)時(shí)檢測(cè)的要求,遠(yuǎn)優(yōu)于Faster R-CNN,綜合檢測(cè)性能更優(yōu)。
針對(duì)無(wú)人機(jī)航拍圖像檢測(cè)中存在目標(biāo)小、數(shù)量多導(dǎo)致檢測(cè)困難的問(wèn)題,基于YOLOv4-tiny網(wǎng)絡(luò),擴(kuò)大目標(biāo)檢測(cè)尺度以充分利用淺層語(yǔ)義信息,并引入注意力機(jī)制對(duì)感興趣區(qū)域信息進(jìn)行二次提純,提出了一種適合無(wú)人機(jī)航拍目標(biāo)檢測(cè)的AttYOLOv4-tiny網(wǎng)絡(luò)。在無(wú)人機(jī)航拍數(shù)據(jù)集上進(jìn)行了相同的訓(xùn)練和測(cè)試,結(jié)果表明,相比于YOLOv4-tiny,AttYOLOv4-tiny在精準(zhǔn)率上提升了11.52%,召回率提升了5.77%,F(xiàn)1分?jǐn)?shù)提升了8.27%,mAP達(dá)到了24.25%,檢測(cè)速度維持在61幀/s,綜合性能得到提升。但是,在某些種類(lèi)目標(biāo)的識(shí)別上,由于目標(biāo)過(guò)小或數(shù)據(jù)不足導(dǎo)致精度還不夠高,離實(shí)際應(yīng)用還有些差距。在保證無(wú)人機(jī)實(shí)時(shí)檢測(cè)的基礎(chǔ)上提升網(wǎng)絡(luò)的綜合識(shí)別精度,降低模型復(fù)雜度并應(yīng)用在邊緣設(shè)備上是未來(lái)的重點(diǎn)研究?jī)?nèi)容。