楊嘉誠(chéng),石翠萍,苗隨悅,陳杰,劉雪微
光學(xué)遙感圖像的目標(biāo)檢測(cè)方法研究
楊嘉誠(chéng),石翠萍*,苗隨悅,陳杰,劉雪微
(齊齊哈爾大學(xué) 通信與電子工程學(xué)院,黑龍江 齊齊哈爾 161006)
如何利用獲取的高分辨率遙感圖像進(jìn)行精確的目標(biāo)檢測(cè),是目前需要解決的一個(gè)重要問題。提出以一種基于改進(jìn)YOLO算法的卷積神經(jīng)網(wǎng)絡(luò),給出的模型采用CSPDrakNet為基本網(wǎng)絡(luò),并融合Foucs網(wǎng)絡(luò)模塊以進(jìn)行光學(xué)遙感圖像的目標(biāo)檢測(cè),以提高目標(biāo)檢測(cè)精度。實(shí)驗(yàn)結(jié)果表明,提出網(wǎng)絡(luò)的平均檢測(cè)精度高達(dá)92.98%,比DrakNet53基本網(wǎng)絡(luò)提高了8.55%,且檢測(cè)時(shí)間低于YOLOv3,YOLOv4網(wǎng)絡(luò),具有更快的檢測(cè)速度。
目標(biāo)檢測(cè);光學(xué)遙感;深度學(xué)習(xí);卷積神經(jīng)網(wǎng)絡(luò);CSPDrakNet
近年來,隨著遙感技術(shù)在各個(gè)領(lǐng)域的需求日漸增長(zhǎng),領(lǐng)域內(nèi)應(yīng)用的遙感圖像分辨率也逐步提升,工作人員可以從遙感圖像中提取到更精確有效的圖像信息。遙感圖像和我們?nèi)粘I钪兴臄z的圖像十分類似,都是一種可以從圖像中獲取有效信息的載體。通過已獲得的遙感圖像,可以辨別出很多信息,如植被山地等。也可以分辨出較小的物體,如樹、人以及核酸檢測(cè)點(diǎn)的標(biāo)識(shí)線。與此同時(shí),新冠肺炎疫情以來遙感圖像的目標(biāo)檢測(cè)也得到了廣泛關(guān)注,許多的民用場(chǎng)合也應(yīng)用了遙感圖像技術(shù),如城市規(guī)劃、人群密集程度監(jiān)測(cè)等。
目標(biāo)檢測(cè)是計(jì)算機(jī)視覺的一個(gè)重要分支,其根本目的是對(duì)目標(biāo)進(jìn)行分類和定位。自卷積網(wǎng)絡(luò)的出現(xiàn),目標(biāo)檢測(cè)實(shí)現(xiàn)了質(zhì)的飛躍。基于深度學(xué)習(xí)的目標(biāo)檢測(cè)算法有兩種檢測(cè)方式。第一種是基于回歸問題的單階段(one-stage)檢測(cè)方式,以YOLO[1]系列、SSD[2]系列算法為代表;第二種是基于候選區(qū)域的雙階段(two-stage)檢測(cè)方式,以R-CNN[3]系列、SPPNet[4]、R-FCN[5]等算法為代表。單階段有著檢測(cè)速度快的優(yōu)點(diǎn),雙階段有著檢測(cè)精度高的優(yōu)點(diǎn)。兩者擁有各自優(yōu)點(diǎn)的同時(shí),其缺點(diǎn)也同樣明顯,單階段檢測(cè)的精度低,而雙階段的檢測(cè)速度慢。
隨著深度學(xué)習(xí)的發(fā)展,卷積神經(jīng)網(wǎng)絡(luò)提取到的深層次特征有著更強(qiáng)的語(yǔ)義表征能力和判別性,目標(biāo)檢測(cè)性能獲得了進(jìn)一步的提升。為了滿足目標(biāo)檢測(cè)任務(wù)的快速部署且有較高的檢測(cè)精度,盡量降低網(wǎng)絡(luò)模型復(fù)雜度。本文提出了一種基于改進(jìn)YOLO算法的卷積神經(jīng)網(wǎng)絡(luò)模型,并用于光學(xué)遙感圖像目標(biāo)檢測(cè)。在原網(wǎng)絡(luò)模型的基礎(chǔ)上加快了目標(biāo)檢測(cè)任務(wù)的部署,同時(shí)還提高了目標(biāo)檢測(cè)精度。本文其余部分安排如下,第2節(jié)概述了目標(biāo)檢測(cè),第3節(jié)詳細(xì)介紹了提出的主要方法,第4節(jié)給出了實(shí)驗(yàn)的結(jié)果與分析,第5節(jié)是結(jié)論及工作展望。
目標(biāo)檢測(cè)主要對(duì)輸入圖像中的目標(biāo)進(jìn)行識(shí)別和定位。圖1為遙感圖像目標(biāo)檢測(cè)樣例。圖中所示的目標(biāo)檢測(cè)結(jié)果由兩部分組成。第1部分為識(shí)別部分,用不同顏色的方形目標(biāo)邊界框代表目標(biāo)的所屬類別(樣例類別用藍(lán)色表示);第2部分為定位部分,輸入圖像中目標(biāo)的位置由方形目標(biāo)邊界框的尺寸和位置體現(xiàn)。
圖1 目標(biāo)檢測(cè)樣例
傳統(tǒng)的目標(biāo)檢測(cè)框架中包含了3個(gè)階段。因?yàn)檩斎雸D像中的目標(biāo)大小和位置隨機(jī)性高,所以傳統(tǒng)方法大多使用尺度不同的滑動(dòng)窗口對(duì)輸入圖像進(jìn)行遍歷來獲取大量的候選區(qū)[6-8],特征提取是第2個(gè)階段,該階段將感興趣區(qū)域中的圖像變?yōu)樘卣飨蛄?,以尺度不變特征(Scale invariant feature transform,SIFT)[9]、梯度直方圖特征(Histogram of oriented gradient, HOG)[10]等人工特征提取方法為代表。第三階段將獲得到的特征向量作為該階段的輸入,預(yù)測(cè)區(qū)域中目標(biāo)的所屬類由預(yù)訓(xùn)練的分類器進(jìn)行分類并輸出檢測(cè)結(jié)果。
圖2 傳統(tǒng)目標(biāo)檢測(cè)算法框架
傳統(tǒng)目標(biāo)檢測(cè)算法存在下面3個(gè)缺點(diǎn):(1)在獲取大量感興趣區(qū)域后,算法對(duì)這些區(qū)域進(jìn)行特征提取和分類計(jì)算開銷大,嚴(yán)重影響了算法運(yùn)行速度。(2)特征提取僅能得到圖像的低級(jí)特征。特征的有效性高度依賴具體任務(wù)。因低級(jí)特征的表達(dá)能力有著嚴(yán)重的不足,一旦檢測(cè)目標(biāo)有變動(dòng)就要重新設(shè)計(jì)算法;(3)人們通過對(duì)檢測(cè)目標(biāo)的熟悉程度和先驗(yàn)知識(shí)的了解來設(shè)計(jì)合適算法,而傳統(tǒng)算法將整個(gè)檢測(cè)流程割裂為三個(gè)獨(dú)立的部分,設(shè)計(jì)者找到全局最優(yōu)解將變得尤為困難。為了補(bǔ)足這些缺陷,設(shè)計(jì)者需要尋找更實(shí)用的方法,在保證算法實(shí)時(shí)性的同時(shí),滿足檢測(cè)算法的多元化,從而彌補(bǔ)人工提取特征表達(dá)能力不足的缺點(diǎn)。
數(shù)據(jù)是一個(gè)網(wǎng)絡(luò)運(yùn)行的基礎(chǔ),網(wǎng)絡(luò)的訓(xùn)練和測(cè)試需要一個(gè)高實(shí)用性的數(shù)據(jù)集。為了提高網(wǎng)絡(luò)模型的精準(zhǔn)度,在訓(xùn)練網(wǎng)絡(luò)之前,要對(duì)我們的數(shù)據(jù)集進(jìn)行合理的處理。數(shù)據(jù)處理可從數(shù)據(jù)增強(qiáng)和選取先驗(yàn)框兩個(gè)方面入手。數(shù)據(jù)增強(qiáng)在很大程度上減小了過擬合問題,提高了模型的泛化性,選取尺寸符合檢測(cè)目標(biāo)的大小的先驗(yàn)框可以增強(qiáng)網(wǎng)絡(luò)模型的檢測(cè)精度。
模型主要采用Mosaic方法進(jìn)行數(shù)據(jù)增強(qiáng),將四張圖像縮放拼接成一張圖,有利于小目標(biāo)的檢測(cè)。導(dǎo)致在常規(guī)的訓(xùn)練中小目標(biāo)的學(xué)習(xí)不太充分的原因在于數(shù)據(jù)集中小目標(biāo)的分布不均勻。使用Mosaic數(shù)據(jù)增強(qiáng)后,在遍歷每張圖像時(shí)包含四張具有小目標(biāo)圖像的可能性增大;同時(shí),將所有圖像在不同程度上縮小,即使沒有小目標(biāo),通過縮小圖像的目標(biāo)尺來獲得小目標(biāo),這對(duì)模型學(xué)習(xí)小目標(biāo)十分有利。為了減少過擬合的出現(xiàn),也使用了Cutout方法進(jìn)行數(shù)據(jù)增強(qiáng)。在訓(xùn)練中蓋住一個(gè)正方形區(qū)域,此區(qū)域只對(duì)卷積神經(jīng)網(wǎng)絡(luò)的第一層隱藏。雖然與隨機(jī)擦除非常相似,但是在遮擋中使用的是一個(gè)常數(shù)值。
本文提出了一種基于改進(jìn)YOLO算法的卷積神經(jīng)網(wǎng)絡(luò)(Convolutional neural network based on the improved YOLO, CNNIY),目的是提高YOLO在提取小目標(biāo)信息時(shí)的系統(tǒng)健壯性。網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示。
網(wǎng)絡(luò)的改進(jìn)包括兩個(gè)最主要的部分:第1是使用卷積注意模塊(Convolutional Block Attention Module)[11]的輔助網(wǎng)絡(luò),而不再使用擠壓與激發(fā)(Squeeze-and-Excitation module)[12]的注意模塊,此操作可以讓網(wǎng)絡(luò)更好地學(xué)習(xí)特定的目標(biāo)特征;其次,重新構(gòu)建了特征金字塔網(wǎng)絡(luò)(Feature Pyramid Networks, FPN),將不同形狀的特征層進(jìn)行特征融合來獲取到更好的特征。
本文提出的網(wǎng)絡(luò)模型還使用了空間金字塔池化(Spatial pyramid pooling,SPP)結(jié)構(gòu),通過不同大小的池化核的最大池化操作進(jìn)行特征提取,從而提高網(wǎng)絡(luò)的感受野。在YOLOv4中,SPP是用在FPN里面的,在CNNIY中,SPP模塊單獨(dú)存在并用在了主干特征提取網(wǎng)絡(luò)中。為了實(shí)現(xiàn)局部特征和全局特征的特征融合,SPP結(jié)構(gòu)的最大池化核要最大限度的接近需要池化的特征圖的大小,這樣可以極大程度地豐富最后需要的特征圖的表達(dá)能力,進(jìn)而提高網(wǎng)絡(luò)的檢測(cè)精度??臻g金字塔池化結(jié)構(gòu)如圖4所示。
圖3 提出的CNNIY主干特征提取網(wǎng)絡(luò)結(jié)構(gòu)圖
圖4 SPP結(jié)構(gòu)圖
圖5 Foucs模塊原理示意圖
網(wǎng)絡(luò)各組模塊由標(biāo)準(zhǔn)卷積層和CSP瓶頸層連接,標(biāo)準(zhǔn)卷積層由普通卷積、BN層、激活層依次連接構(gòu)成。并在圖像進(jìn)入骨干網(wǎng)絡(luò)前融入Foucs網(wǎng)絡(luò)模塊,將輸入圖像進(jìn)行切片,然后每隔一個(gè)像素取一個(gè)值,這樣就獲取到4張類似、互補(bǔ)的圖像,且沒有丟失信息。將W, H信息集中到通道空間,使輸入通道數(shù)擴(kuò)充4倍,這樣就獲得了12個(gè)通道的圖像(將RGB三通道擴(kuò)充為12個(gè)通道),最后將得到的新圖像經(jīng)過卷積操作,得到?jīng)]有信息丟失的2倍下采樣特征圖。CNNIY模型采用多特征層目標(biāo)檢測(cè)方法,通過主干特征提取網(wǎng)絡(luò)來獲得有效特征層2~4來進(jìn)行下一步特征金字塔網(wǎng)絡(luò)(Feature Pyramid Networks, FPN)的構(gòu)建。Foucs模塊如圖5所示。
有效特征層2~4分別位于主干特征提取網(wǎng)絡(luò)的中層,中下層和底層,當(dāng)輸入的圖像大小為(640,640,3)時(shí)三個(gè)特征層的圖像特征分別為(80, 80, 256), (40, 40, 512), (20, 20, 1024)。有效特征層4進(jìn)行一次1×1卷積調(diào)整通道后獲得特征P5,特征P5進(jìn)行上采樣(UpSampling2D)后與有效特征層3進(jìn)行結(jié)合,然后使用CSP瓶頸層進(jìn)行特征提取,獲得P5上采樣特征圖,此時(shí)獲得的特征層為(40, 40, 512)。將P5的上采樣特征圖的特征層進(jìn)行一次1×1卷積調(diào)整通道后獲得特征P4,特征P4進(jìn)行上采樣后與有效特征層2進(jìn)行結(jié)合,然后使用CSP瓶頸層進(jìn)行特征提取,獲得特征P3輸出,此時(shí)獲得的特征層為(80, 80, 256)。特征P3輸出的特征層進(jìn)行一次3×3卷積后進(jìn)行下采樣,下采樣后與特征P4進(jìn)行堆疊,然后使用CSP瓶頸層進(jìn)行特征提取來獲得特征P4輸出,此時(shí)獲得的特征層為(40, 40, 512)。P4輸出特征層進(jìn)行一次3×3卷積進(jìn)行下采樣,下采樣后與P5堆疊,然后使用CSP瓶頸層獲得特征P5輸出,此時(shí)獲得的特征層為(20, 20, 1024)。最后將P3輸出、P4輸出、P5輸出傳入通用檢測(cè)網(wǎng)絡(luò)進(jìn)行預(yù)測(cè)。圖6為特征金字塔網(wǎng)絡(luò)。
圖6 特征金字塔網(wǎng)絡(luò)構(gòu)建
激活函數(shù)是向卷積神經(jīng)網(wǎng)絡(luò)中添加一些非線性元素來提高模型的表達(dá)能力,并使卷積神經(jīng)網(wǎng)絡(luò)能夠更好地解決復(fù)雜問題。CNNIY模型使用了SiLU激活函數(shù),SiLU的原型為Sigmoid和ReLU函數(shù)。SiLU函數(shù)不單調(diào)且只有下界(無上界)。SiLU在深層模型上的效果優(yōu)于ReLU。可以看做是平滑的ReLU激活函數(shù)。函數(shù)圖像如圖7所示。其公式表示為
卷積注意模塊是將一個(gè)初步提取的特征圖,沿著通道和空間兩個(gè)維度順次推寫出所需的注意力權(quán)重,然后乘以原始特征圖來對(duì)特征進(jìn)行自適應(yīng)調(diào)整。
通道注意力模塊旨在輸入有意義的圖像,為了有效計(jì)算通道注意力,首先需要壓縮特征圖的空間維度,并采用全局平均池化(global pooling)和最大池化(max pooling)兩種方式來匯總空間特征??臻g注意力主要關(guān)注輸入圖像中的大量有效信息,空間注意力沿著通道維進(jìn)行平均池化和最大池化,然后將特征圖連接起來,生成一個(gè)有效的特征來計(jì)算空間注意力。
圖7 SiLU函數(shù)圖像
相比于擠壓與激發(fā)模塊只關(guān)注不同通道的像素的重要性,卷積注意模塊既考慮不同通道像素的重要性,又考慮了同一通道不同位置像素的重要性。本研究中使用的網(wǎng)絡(luò)是輔助網(wǎng)絡(luò)的形式。使用卷積塊注意模塊(CBAM)連接主干網(wǎng)絡(luò)和輔助網(wǎng)絡(luò),而不是使用擠壓和激發(fā)(SE)模塊。卷積注意模塊的結(jié)構(gòu)如圖8所示。
圖8 卷積注意模塊結(jié)構(gòu)圖
本次實(shí)驗(yàn)選取了AID30數(shù)據(jù)集上的圖像進(jìn)行了實(shí)驗(yàn),AID30數(shù)據(jù)集是一個(gè)遙感影像數(shù)據(jù)集,圖像像素大小為600×600,總包含30類場(chǎng)景圖像,每一類大概220~420張,共10000張。在實(shí)驗(yàn)中采用訓(xùn)練集∶測(cè)試集=7∶3進(jìn)行了模型的訓(xùn)練。圖像的一些示例樣本如圖9所示。
圖9 遙感圖像樣例
衡量模型的檢測(cè)能力最直觀的就是平均精確度均值(Mean Average Precision, mAP),mAP 值越大說明模型性能越好。本實(shí)驗(yàn)以平均精確度均值作為目標(biāo)檢測(cè)的主要評(píng)價(jià)指標(biāo)。求取mAP時(shí)會(huì)提前設(shè)置好交并比(Intersection of Union, IoU)的閾值,當(dāng)IoU值大于閾值時(shí)才視為檢測(cè)正確,所以mAP在很大程度上能夠同時(shí)體現(xiàn)模型的定位和分類能力。實(shí)際應(yīng)用中多采用檢測(cè)速度(Frames Per Second, FPS)和 mAP(或者 AP值,當(dāng)檢測(cè)目標(biāo)只有一個(gè)類別時(shí),mAP值也就變?yōu)榱薃P值)兩個(gè)值來同時(shí)評(píng)價(jià)一個(gè)模型的性能。
(1)交并比閾值(IoU Threshold):
交并比指兩個(gè)框的重合程度,常常指預(yù)測(cè)框和真實(shí)框之間的重疊率,用來衡量模型的框回歸能力。
(2)精確率(Precision)和召回率(Recall):
其中,為真陽(yáng)率(True Positive)表示正樣本被預(yù)測(cè)正確的數(shù)量、為假陽(yáng)率(False Positive)表示負(fù)樣本被預(yù)測(cè)為正樣本的數(shù)量、為假陰率(False Negative)表示背景被錯(cuò)誤檢測(cè)為正樣本的數(shù)量。
(3)1系數(shù)(精確率和召回率的調(diào)和均值)
(4)平均精確率(Average Precision,AP)
其中,()表示交并比閾值=時(shí)的精確率。
(5)平均精確率均值(Mean Average Precision,mAP)
(1)實(shí)驗(yàn)設(shè)備。CPU:Intel(R)Core(TM)i5-10200H,顯卡:GTX1650,RAM:16GB的一臺(tái)筆記本電腦。
(2)參數(shù)設(shè)置。初始學(xué)習(xí)率設(shè)置為0.01。訓(xùn)練時(shí)的動(dòng)量為0.8,批量大小設(shè)置為16。
通過實(shí)驗(yàn),比較了提出的模型CNNIY與基本網(wǎng)絡(luò)模型DrakNet53,CSPDrakNet53模型在AID30公共數(shù)據(jù)集上的1指標(biāo)和平均精度均值(mAP)。實(shí)驗(yàn)結(jié)果(表1)表明,所提方法的1系數(shù),mAP精度分別達(dá)到了92%,92.98%,分別比原基本網(wǎng)絡(luò)分別提高了2%,8.55%,并且均高于網(wǎng)絡(luò)DrakNet53,CSPDrakNet53,證明了該方法的有效性。
表1 DrakNet53,CSPDrakNet53與CNNIY方法在AID30公共數(shù)據(jù)集上的檢測(cè)精度表現(xiàn)
圖10給出了CNNIY與DrakNet53的Loss曲線,可以看出提出網(wǎng)絡(luò)相比于DrakNet53網(wǎng)絡(luò),模型訓(xùn)練過程中擬合效果更好,且震蕩幅度較小。由此看出,所提出的模型可以較好的提高檢測(cè)精度,表明了該方法的高效性。
圖9 CNNIY和DrakNet53兩種方法對(duì)比
本文提出了一種基于改進(jìn)YOLO算法的卷積神經(jīng)網(wǎng)絡(luò),并將其用于光學(xué)遙感圖像的目標(biāo)檢測(cè),并且實(shí)現(xiàn)了目標(biāo)檢測(cè)任務(wù)的快速布置,大大降低了模型訓(xùn)練開銷。受CSPDrakNet53網(wǎng)絡(luò)啟發(fā),以原始的CSPDrakNet網(wǎng)絡(luò)為骨干,在其中加入輔助網(wǎng)絡(luò)和Foucs網(wǎng)絡(luò)模塊來更好地學(xué)習(xí)特定的目標(biāo)特征,并獲取無信息損失的二倍采樣特征圖來提高檢測(cè)精度,探究了一種適合光學(xué)遙感圖像目標(biāo)檢測(cè)的網(wǎng)絡(luò)模型。在遙感圖像公共數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),證明了改進(jìn)的CNNIY網(wǎng)絡(luò)具有良好的目標(biāo)檢測(cè)性能。
下一步將繼續(xù)優(yōu)化提出的模型,繼續(xù)提升模型的檢測(cè)精度和優(yōu)化模型大小,以實(shí)現(xiàn)在較小網(wǎng)絡(luò)中獲取更好的檢測(cè)性能,且能夠快速有效的應(yīng)用在遙感圖像的目標(biāo)檢測(cè)中。
[1] J. REDMON, S. DIVVALA, R. GIRSHICK et al.You Only Look Once: Unified, Real-Time Object Detection)[C]. 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR. 2016, pp. 779-788, doi: 10.1109/CVPR.2016.91.
[2] L. BAZZANI, A. BERGAMO, D. ANGUELOV et al. Self-taught object localization with deep networks[C]. 2016 IEEE Winter
Conference on Applications of Computer Vision (WACV), 2016, pp. 1-9, doi: 10.1109/WACV.2016.7477688.
[3] R. GIRSHICK, J. DONAHUE, T. DARRELL, et al. Rich Feature Hierarchies for Accurate Object Detection and Semantic
Segmentation[C]. 2014 IEEE Conference on Computer Vision and Pattern Recognition, 2014, pp. 580-587, doi: 10.1109/CVPR.2014.81.
[4] K. HE, X. ZHANG, S. REN et al. Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition[C]. In IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 37, no. 9, pp. 1904-1916, 1 Sept. 2015, doi: 10.1109/TPAMI.2015.2389824.
[5] DAI J, LI Y, HE K, et al.R-fcn: Object detection via re-gion-based fully convolutional networks[C]//Advances in neural information processing systems. 2016: 379-387.
[6] VIOLA P , JONES M J . Robust Real-Time Face Detection[J]. International Journal of Computer Vision, 2004, 57(2):137-154.
[7] A. VEDALDI, V. GULSHAN, M. VARMA et al. Multiple kernels for object detection[C]. 2009 IEEE 12th International Conference on Computer Vision, 2009, pp. 606-613, doi: 10.1109/ICCV.2009.5459183.
[8] H. HARZALLAH, F. JURIE AND C. SCHMID. Combining efficient object localization and image classification[C]. 2009 IEEE 12th International Conference on Computer Vision, 2009, pp. 237-244, doi: 10.1109/ICCV.2009.5459257.
[9] LOW D G. Distinctive Image Features from Scale-Invariant Keypoints[J]. International Journal of Computer Vision, 2004(4): 569-576.
[10] H. L. KUANG, L. L. H. CHAN AND H. YAN. Multi-class fruit detection based on multiple color channels[C]. 2015 International Conference on Wavelet Analysis and Pattern Recognition (ICWAPR), 2015, pp. 1-7, doi: 10.1109/ICWAPR.2015.7295917.
[11] WOO S, PARK J, LEE J Y, et al. CBAM: Convolutional Block Attention Module[J]. Springer, Cham, 2018(1): 203-207.
[12] Q. XU, R. LIN, H. YUE, et al. Research on Small Target Detection in Driving Scenarios Based on Improved Yolo Network[C]. In IEEE Access, vol. 8, pp. 27574-27583, 2020, doi: 10.1109/ACCESS.2020.2966328.
Research on target detection method of optical remote sensing image
YANG Jia-cheng,SHI Cui-ping*,MIAO Sui-yue,CHEN Jie,LIU Xue-wei
(College of Communication and Electronical Engineering, Qiqihar University, Heilongjiang Qiqihar 161000, China)
The use of optical remote sensing images for target detection has a wide range of applications. How to use the acquired high-resolution remote sensing images for accurate target detection is an important problem that needs to be solved at present. In this paper, we propose a convolutional neural network based on the improved YOLO (CNNIY) algorithm. The proposed model uses CSPDrakNet as the basic network and fuses Foucs network modules for target detection of optical remote sensing images. to improve the target detection accuracy. The experimental results show that the average detection accuracy of the proposed network is up to 92.98%, which is 8.55% better than the DrakNet53 basic network, and the detection time is lower than that of YOLOv3 and YOLOv4 networks, which has faster detection speed.
target detection;optical remote sensing;deep learning;convolutional neural network;CSPDrakNet
2022-03-22
2021年省級(jí)一般大學(xué)生創(chuàng)新創(chuàng)業(yè)訓(xùn)練計(jì)劃資助項(xiàng)目(202110232047);黑龍江省省屬高等學(xué)?;究蒲袠I(yè)務(wù)費(fèi)科研項(xiàng)目(135509136);黑龍江省科學(xué)基金項(xiàng)目(LH2021D022);國(guó)家自然科學(xué)基金青年基金(41701479);2020年齊齊哈爾大學(xué)教育科學(xué)研究項(xiàng)目(GJZRYB202002)
楊嘉誠(chéng)(2002-),男,黑龍江綏化人,本科,主要從事遙感圖像應(yīng)用研究,2020132141@qqhru.edu.cn。
TN919
A
1007-984X(2022)05-0040-07