畢忠勤,單美靜,劉志斌,徐富強(qiáng)
(1.上海電力大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院, 上海 200090;2.華東政法大學(xué) 信息科學(xué)與技術(shù)系,上海 201620)
目標(biāo)檢測(cè)任務(wù)是計(jì)算機(jī)視覺(jué)領(lǐng)域最重要的任務(wù)之一,其研究主要用于人臉檢測(cè)、安全系統(tǒng)、行人檢測(cè)、自動(dòng)駕駛、車(chē)輛檢測(cè)以及醫(yī)療領(lǐng)域等[1]。在目前已知的研究領(lǐng)域中,要訓(xùn)練一個(gè)好的模型往往需要大量的數(shù)據(jù),而人工智能令人印象深刻的特征是能夠僅通過(guò)一個(gè)或幾個(gè)樣本就快速建立對(duì)新穎概念的認(rèn)知的能力。這意味著當(dāng)前的目標(biāo)檢測(cè)技術(shù)還有很大的發(fā)展空間。為了提高目標(biāo)檢測(cè)應(yīng)用的適用性,少樣本目標(biāo)檢測(cè)任務(wù)成了當(dāng)前研究的重點(diǎn)[2]。涉及到少樣本目標(biāo)檢測(cè)的研究起步較早,早期的檢測(cè)方法主要有基于模式匹配的方法,即使用小部分的樣本作為模板,使用該樣本在測(cè)試樣本中尋找目標(biāo),后來(lái)也出現(xiàn)過(guò)形狀匹配算法,即通過(guò)制定的標(biāo)準(zhǔn)來(lái)檢測(cè)目標(biāo)之間的相似性,然而傳統(tǒng)的目標(biāo)檢測(cè)算法往往運(yùn)算量大并且速度緩慢[3]。傳統(tǒng)方法的特點(diǎn)是候選區(qū)域幾何特征的選擇,直線(xiàn)特征識(shí)別是早期圖像目標(biāo)的基本特征之一,其檢測(cè)算法主要包括:標(biāo)準(zhǔn)霍夫變換(SHT)[4]、Burns[5]方法和LSD[6]方法等。由于霍夫變換對(duì)隨機(jī)噪聲和特征部分的遮擋具有較高魯棒性,該方法得到了廣泛的運(yùn)用。而多邊形特征識(shí)別是通過(guò)候選區(qū)域的各邊界端點(diǎn)的圖像二維坐標(biāo)來(lái)進(jìn)行描述,通過(guò)對(duì)各相鄰特征點(diǎn)連線(xiàn)即可恢復(fù)完整的多邊形信息。該方法的問(wèn)題是,由于空間環(huán)境問(wèn)題使得邊界特征不完整,從而造成邊界特征描述上的困難。傳統(tǒng)的目標(biāo)檢測(cè)算法取得了很大的進(jìn)展,但是仍然存在一些問(wèn)題,例如,基于滑動(dòng)窗口的區(qū)域選擇策略沒(méi)有針對(duì)性,時(shí)間復(fù)雜度高,窗口冗余,手工設(shè)計(jì)的特征對(duì)于環(huán)境多樣性的變化并沒(méi)有很好的魯棒性。
隨著深度學(xué)習(xí)的發(fā)展,基于深度學(xué)習(xí)的少樣本目標(biāo)檢測(cè)逐漸成為了研究熱點(diǎn)。根據(jù)監(jiān)督機(jī)制的不同,基于深度學(xué)習(xí)的少樣本目標(biāo)檢測(cè)算法主要分為有監(jiān)督少樣本目標(biāo)檢測(cè)、半監(jiān)督少樣本目標(biāo)檢測(cè)以及弱監(jiān)督少樣本目標(biāo)檢測(cè)。有監(jiān)督少樣本目標(biāo)檢測(cè)主要采用元學(xué)習(xí)方法、遷移學(xué)習(xí)方法或者數(shù)據(jù)增強(qiáng)方法。半監(jiān)督少樣本目標(biāo)檢測(cè)則主要基于自我訓(xùn)練或自我監(jiān)督兩種解決方案。弱監(jiān)督少樣本目標(biāo)檢測(cè)則主要包括基于主動(dòng)對(duì)抗的方法、多實(shí)例學(xué)習(xí)方法以及基于度量學(xué)習(xí)的方法。
該文對(duì)SSD[7]網(wǎng)絡(luò)運(yùn)用于少樣本目標(biāo)檢測(cè)任中存在的問(wèn)題進(jìn)行分析,優(yōu)化SSD網(wǎng)絡(luò),優(yōu)化后的模型不僅可以提高主干網(wǎng)絡(luò)的特征提取能力,還可以有效提升對(duì)少樣本數(shù)據(jù)集檢測(cè)的準(zhǔn)確性。首先將SSD網(wǎng)絡(luò)中的主干網(wǎng)絡(luò)替換成層數(shù)更深的ResNet-50,高層次的網(wǎng)絡(luò)模型有效地提高了特征提取能力,并且利用殘差單元避免了網(wǎng)絡(luò)退化問(wèn)題。其次,用FPN模塊替換了原模型中的兩個(gè)特征層,充分地融合了語(yǔ)義信息和位置信息。
SSD網(wǎng)絡(luò)是傳統(tǒng)的one stage目標(biāo)檢測(cè)算法,SSD的特點(diǎn)是生成的候選框都是相同尺寸,也是評(píng)分機(jī)制對(duì)候選框內(nèi)的目標(biāo)物體進(jìn)行預(yù)測(cè),最后使用非極大值抑制產(chǎn)生最終的檢測(cè)結(jié)果。
SSD網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。首先數(shù)據(jù)從輸入層輸入到模型中,接著由特征提取網(wǎng)絡(luò)提取數(shù)據(jù)特征。SSD的特征提取網(wǎng)絡(luò)是由原始的VGG16網(wǎng)絡(luò)和另外的五個(gè)卷積層構(gòu)成,增強(qiáng)了對(duì)復(fù)雜特征的提取能力。從圖中可以直觀(guān)看出這些層的尺寸不一樣,是為了實(shí)現(xiàn)在不同的尺度上對(duì)特征圖進(jìn)行預(yù)測(cè)。
圖1 SSD網(wǎng)絡(luò)模型
SSD算法中,提出了一個(gè)新的概念,即先驗(yàn)框,在特征提取網(wǎng)絡(luò)生成特征圖之后,以每個(gè)特征圖為中心都會(huì)產(chǎn)生一系列不同尺度的先驗(yàn)框,這些先驗(yàn)框與原圖一一對(duì)應(yīng),通過(guò)損失函數(shù)檢測(cè)先驗(yàn)框的位置與真實(shí)目標(biāo)框的位置的重疊度,從而分析出這個(gè)先驗(yàn)框內(nèi)目標(biāo)物體的類(lèi)別,而且通過(guò)檢測(cè),也會(huì)對(duì)先驗(yàn)框的形狀進(jìn)行調(diào)整,以使其大小和尺度與真實(shí)的目標(biāo)框更貼合。
先驗(yàn)框包含兩個(gè)參數(shù):尺度S和寬高比a。假設(shè)特征提取網(wǎng)絡(luò)總共產(chǎn)生m個(gè)特征圖,那么每個(gè)特征圖的先驗(yàn)框尺度的計(jì)算方式如公式(1)所示:
(1)
SSD算法對(duì)不同特征層生成特征圖的尺度制定了如下規(guī)則:先驗(yàn)框的尺寸隨著網(wǎng)絡(luò)層數(shù)不斷增加而增加,而特征圖尺寸逐漸減小,不同特征層生成特征圖的詳細(xì)尺寸及先驗(yàn)框的大小如表1所示。
表1 每個(gè)特征圖上的初始框尺度
對(duì)先驗(yàn)框的長(zhǎng)寬比采用公式(2)的設(shè)置方式:
(2)
每個(gè)特征圖上的初始框?qū)?、高可以用公?3)得出:
(3)
對(duì)于寬高比為1的初始框,又多增加了一個(gè)正方形的初始框,定義如公式(4)所示。
(4)
SSD所用到的特征圖及其大小如表2所示。
表2 SSD網(wǎng)絡(luò)所用到的特征圖及其大小
為了得到更好的檢測(cè)結(jié)果,SSD引入ground truth的概念,即那些預(yù)測(cè)正確的樣本。算法的關(guān)鍵是要搞清楚用哪個(gè)候選框進(jìn)行預(yù)測(cè),SSD的操作是用先驗(yàn)框和訓(xùn)練樣本中的ground truth進(jìn)行比對(duì),如果匹配成功,那與之對(duì)應(yīng)的候選框就負(fù)責(zé)預(yù)測(cè)它。所以先驗(yàn)框和ground truth的匹配規(guī)則是算法是否有效的關(guān)鍵因素。SSD的先驗(yàn)框與ground truth的匹配規(guī)則可以分成以下兩個(gè)步驟:
(1)對(duì)于圖片中的眾多候選目標(biāo),需要確定每個(gè)候選框?qū)?yīng)的ground truth,計(jì)算不同先驗(yàn)框和ground truth的IOU,找出其中的最大值。這樣就確定了一組匹配關(guān)系。因?yàn)镮OU總有最大值,所以這種方式可以保證每個(gè)ground truth都不會(huì)被遺漏。如果某個(gè)先驗(yàn)框和ground truth成功匹配,稱(chēng)之為正樣本。反之,該先驗(yàn)框?qū)?yīng)的候選框定位失敗,只能是負(fù)樣本。
(2)在第一輪篩選中剩余的先驗(yàn)框,不能全部舍棄,通過(guò)設(shè)定一個(gè)閾值,當(dāng)某個(gè)ground truth與先驗(yàn)框的IOU大于這個(gè)閾值,那么也能達(dá)成匹配。但是這可能導(dǎo)致某個(gè)ground truth與多個(gè)先驗(yàn)框匹配成功,這是可以的,但是一個(gè)先驗(yàn)框只能匹配一個(gè)ground truth。
SSD算法的訓(xùn)練已經(jīng)非常成熟,因?yàn)樗恍枰珊蜻x框并且簡(jiǎn)化了特征提取的過(guò)程。通過(guò)實(shí)驗(yàn)表明,SSD在VOC2007數(shù)據(jù)集上的檢測(cè)精度達(dá)到了74.3%,比目前最先進(jìn)的Faster R-CNN算法效果更好。與同類(lèi)型的one stage算法相比,檢測(cè)速度也更快。然而,SSD仍然存在可以?xún)?yōu)化的地方:首先,該模型提出的先驗(yàn)框概念雖然有助于訓(xùn)練,但是先驗(yàn)框的初始尺度和長(zhǎng)寬比需要手工設(shè)置,不能通過(guò)模型訓(xùn)練直接獲得。而且SSD網(wǎng)絡(luò)中每一層特征圖使用的先驗(yàn)框的尺寸都不同,增加了訓(xùn)練的難度。其次,與Faster R-CNN算法相比,SSD對(duì)小樣本的檢測(cè)效果還存在明顯的差距。因?yàn)镾SD的底層特征圖結(jié)構(gòu)簡(jiǎn)單,無(wú)法對(duì)小目標(biāo)的特征進(jìn)行充分的提取。針對(duì)這些問(wèn)題,該文對(duì)SSD算法進(jìn)行優(yōu)化,改進(jìn)后的網(wǎng)絡(luò)模型如圖2所示,而對(duì)SSD算法提出的改進(jìn)主要有:
(1)將SSD的特征網(wǎng)絡(luò)VGG替換成網(wǎng)絡(luò)層數(shù)更深的ResNet-50。增強(qiáng)對(duì)復(fù)雜特征的提取,并且利用殘差單元,避免了網(wǎng)絡(luò)層數(shù)加深帶來(lái)的退化問(wèn)題。
(2)將SSD結(jié)構(gòu)中Conv8_2和Conv9_2兩個(gè)特征層替換成FPN,更充分地融合不同層的語(yǔ)義信息,提升檢測(cè)效果。
圖2 改進(jìn)的SSD模型結(jié)構(gòu)示意圖
下面對(duì)圖2中的ResNet-50、FPN模塊以及損失函數(shù)進(jìn)行介紹。
ResNet[8](殘差網(wǎng)絡(luò))是由何凱明等提出的,解決了深層次網(wǎng)絡(luò)模型退化的問(wèn)題。ResNet模型是在VGG19模型的基礎(chǔ)上進(jìn)行了修改,該算法提出了殘差單元這個(gè)概念。殘差單元網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示。假設(shè)殘差網(wǎng)絡(luò)的輸入為X,將學(xué)習(xí)到的特征記為H(X),使殘差F(X)=H(X)-X,那么就會(huì)得到原始的特征為F(X)+X。當(dāng)殘差為0時(shí),即使使用多個(gè)網(wǎng)絡(luò)堆積到一起進(jìn)行訓(xùn)練,也能保證網(wǎng)絡(luò)性能不會(huì)下降,實(shí)際上殘差不可能為0,那么深層次的網(wǎng)絡(luò)結(jié)構(gòu)就可以繼續(xù)提取新的特征,從而擁有更好的性能。ResNet還有一個(gè)重要的訓(xùn)練原則:當(dāng)特征圖大小降低一半時(shí),它的數(shù)量增加一倍,保持了網(wǎng)絡(luò)層的復(fù)雜度。
傳統(tǒng)的Faster R-CNN[9]網(wǎng)絡(luò)集成了R-CNN系列算法的優(yōu)點(diǎn),逐步解決了R-CNN系列算法存在的問(wèn)題,但是該算法在小樣本檢測(cè)任務(wù)中表現(xiàn)不是很好,原因在于無(wú)論是RPN[10]網(wǎng)絡(luò)還是Fast R-CNN[11]網(wǎng)絡(luò),都是基于單個(gè)高層特征進(jìn)行任務(wù)提取,那么小目標(biāo)經(jīng)過(guò)多次卷積池化,特征層中的小目標(biāo)特征已經(jīng)所剩無(wú)幾。解決這種問(wèn)題的常用方法是采用圖像金字塔的方式在訓(xùn)練或測(cè)試階段對(duì)圖片進(jìn)行多尺度變化增強(qiáng),但是這樣帶來(lái)了極大的計(jì)算量。FPN主要解決的是物體檢測(cè)中的多尺度問(wèn)題,通過(guò)簡(jiǎn)單的網(wǎng)絡(luò)連接改變,在基本不增加原有模型計(jì)算量的情況下,大幅度提升了小物體檢測(cè)的性能。FPN[12]的提出是為了結(jié)合高層特征和低層特征,借鑒了ResNet的跳接結(jié)構(gòu),使得待檢測(cè)的特征圖中具有豐富的語(yǔ)義信息和位置信息。并且,該模型利用多尺度特征圖檢測(cè),較好地處理了目標(biāo)檢測(cè)中的多尺度變化問(wèn)題。
損失函數(shù)一般用來(lái)評(píng)價(jià)模型的預(yù)測(cè)值和真實(shí)值的誤差,對(duì)網(wǎng)絡(luò)學(xué)習(xí)速度的快慢及最終模型預(yù)測(cè)效果的好壞起著關(guān)鍵的作用。IOU[13]是目標(biāo)檢測(cè)中常用的指標(biāo),用來(lái)反映預(yù)測(cè)框和目標(biāo)框之間的檢測(cè)效果,其定義為:
(5)
SSD中用CIOU[14]代替原始的BBOX的回歸損失函數(shù)。對(duì)于目標(biāo)檢測(cè)來(lái)講,在獲得真實(shí)框之后需要先對(duì)真實(shí)框進(jìn)行編碼,將其轉(zhuǎn)化為預(yù)測(cè)框的形式,然后將真實(shí)框與網(wǎng)絡(luò)的預(yù)測(cè)結(jié)果進(jìn)行對(duì)比,對(duì)網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行優(yōu)化,使框的預(yù)測(cè)更準(zhǔn)確。CIOU是IOU的一個(gè)改進(jìn)版,公式如下:
(6)
式中,b、bgt分別表示預(yù)測(cè)框和真實(shí)框的中心點(diǎn);ρ2表示兩個(gè)中心點(diǎn)的歐氏距離;c表示能夠同時(shí)包含預(yù)測(cè)框和真實(shí)框的最小閉包區(qū)域的對(duì)角線(xiàn)距離。其中:
(7)
(8)
αν與真實(shí)框和預(yù)測(cè)框的框高有關(guān)系,二者越相近,αν的值越低,CIOU指的是真實(shí)框和預(yù)測(cè)框的偏離程度,則LOSS函數(shù)為:
該文采用FSOD數(shù)據(jù)集作為測(cè)試數(shù)據(jù)集。FSOD數(shù)據(jù)集是專(zhuān)為少樣本學(xué)習(xí)和評(píng)估新穎類(lèi)別模型的通用性而設(shè)計(jì)的,該模型包含1 000個(gè)類(lèi)別,分別用于訓(xùn)練和測(cè)試集的80/20分割,總共約66 000張圖像和182 000個(gè)候選框。該數(shù)據(jù)集包含83種父級(jí)語(yǔ)義,例如哺乳動(dòng)物、衣服、武器等,并進(jìn)一步劃分為1 000個(gè)葉子類(lèi)別。數(shù)據(jù)集包含對(duì)象大小和縱橫比差異很大的對(duì)象,由26.5%的圖像組成,其中測(cè)試集中的對(duì)象不少于3個(gè)。測(cè)試集包含大量未包含在標(biāo)簽系統(tǒng)中的類(lèi)別的候選框[15]。
該文進(jìn)行的實(shí)驗(yàn)是在Ubuntu16.04操作系統(tǒng)下完成的。實(shí)驗(yàn)所采用的硬件配置為:中央處理器(CPU):Intel Core i9-10900k;圖像處理器(GPU):NVIDIA GTX 3080獨(dú)立顯卡,10G顯存。使用的編程語(yǔ)言為Python3.6,機(jī)器學(xué)習(xí)開(kāi)發(fā)框架為Pytorch1.7。
實(shí)驗(yàn)步驟如下:
(1)搭建文中網(wǎng)絡(luò)。
(2)使用ResNet-50在Mini-ImageNet分類(lèi)數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練,得到預(yù)訓(xùn)練后的ResNet-50模型。
(3)進(jìn)行遷移學(xué)習(xí),去除ResNet-50模型的全連接層,加載其權(quán)重作為文中主干網(wǎng)絡(luò)的初始參數(shù),對(duì)類(lèi)別預(yù)測(cè)分支、位置預(yù)測(cè)分支使用kaiming分布進(jìn)行參數(shù)初始化,對(duì)其余部分參數(shù)隨機(jī)初始化。
(4)加載Mini-ImageNet訓(xùn)練集圖片,將圖片大小設(shè)置為224×224,使用隨機(jī)裁剪、縮放、翻轉(zhuǎn)等方法進(jìn)行數(shù)據(jù)增廣,輸入網(wǎng)絡(luò)進(jìn)行訓(xùn)練。
(5)使用隨機(jī)梯度下降法作為優(yōu)化器,初始學(xué)習(xí)率設(shè)置為0.001,batch_size大小設(shè)置為8,最大迭代次數(shù)設(shè)置為200。優(yōu)化器使用Adam,其參數(shù)為step_size=1,gamma=0.95。
(6)保存訓(xùn)練模型。
(7)加載訓(xùn)練完畢的模型,輸入Mini-ImageNet測(cè)試集圖片,輸出測(cè)試結(jié)果。
在目標(biāo)檢測(cè)領(lǐng)域,往往使用平均精度均值(mean Average Precision,mAP)、平均精度(Average Precision,AP)、精確率(Precision)以及召回率(Recall)來(lái)評(píng)估模型的檢測(cè)效果;使用每秒傳輸幀數(shù)(Frame Per Second,FPS)、每秒10億的浮點(diǎn)運(yùn)算次數(shù)(Giga Floating-point Operations Per Second,GigaFLOPS)來(lái)評(píng)估模型的檢測(cè)性能。該文采用FPS和mAP兩個(gè)指標(biāo)衡量改進(jìn)算法的效率。公式(9)和公式(10)為Precision和Recall的計(jì)算公式。
Precision=TP/(TP+FP)
(9)
Recall=TP/(TP+FN)
(10)
式中,TP代表模型認(rèn)為是正樣本且實(shí)際上是正樣本的輸入,FP代表模型認(rèn)為是正樣本但實(shí)際上不是正樣本的輸入,FN代表模型認(rèn)為是負(fù)樣本但實(shí)際上不是負(fù)樣本的輸入。
由Precision和Recall作為橫縱坐標(biāo)可以得到一條PR曲線(xiàn),PR曲線(xiàn)下的面積則被稱(chēng)為AP指標(biāo),對(duì)精確率和召回率的結(jié)果進(jìn)行了綜合評(píng)估。定義如下:
(11)
式中,p(k)為召回率變化點(diǎn)k對(duì)應(yīng)的精確率;Δr(k)為變化點(diǎn)k對(duì)應(yīng)的召回率的變化量;N為召回率變化點(diǎn)的數(shù)量;不同類(lèi)別AP不同,i為類(lèi)別的索引值。
mAP指標(biāo)則為所有的類(lèi)的AP值進(jìn)行求平均。定義如下:
(12)
式中,m為類(lèi)別數(shù)量。
(1)灰度世界算法是基于灰度世界假設(shè)的,灰度世界算法在物理上假設(shè)自然界物體光的平均反射值通常是一個(gè)固定值,它近似于灰色。采用色彩平衡方法將該假設(shè)應(yīng)用于訓(xùn)練集中的圖像,可以從圖像中消除環(huán)境光的影響,從而達(dá)到增強(qiáng)圖像的效果。
(2)通過(guò)對(duì)訓(xùn)練樣本旋轉(zhuǎn)來(lái)實(shí)現(xiàn)數(shù)據(jù)擴(kuò)增。旋轉(zhuǎn)包括水平旋轉(zhuǎn)、垂直旋轉(zhuǎn)、鏡像旋轉(zhuǎn),旋轉(zhuǎn)的角度范圍為+30°~-30°,并對(duì)新增樣本進(jìn)行篩選,去除劣質(zhì)樣本。
(3)數(shù)據(jù)集的制作。在經(jīng)過(guò)對(duì)圖像數(shù)據(jù)的預(yù)處理之后,得到的數(shù)據(jù)如表3所示,分為三類(lèi)。第一類(lèi)是原始圖像訓(xùn)練集,第二類(lèi)是經(jīng)過(guò)圖像增強(qiáng)后的訓(xùn)練集,第三類(lèi)是經(jīng)過(guò)樣本擴(kuò)增后的訓(xùn)練集。
表3 訓(xùn)練集數(shù)量
首先,為了驗(yàn)證提出的改進(jìn)算法的有效性,對(duì)改進(jìn)的SSD網(wǎng)絡(luò)模型與SSD網(wǎng)絡(luò)模型進(jìn)行實(shí)驗(yàn)對(duì)比。
如表4所示,改進(jìn)后的模型采用ResNet-50作為主干網(wǎng)絡(luò),經(jīng)過(guò)實(shí)驗(yàn),算法在Mini-ImageNet數(shù)據(jù)集上的mAP有了明顯的提升。這是因?yàn)镽esNet-50的網(wǎng)絡(luò)層數(shù)更深,加強(qiáng)了對(duì)復(fù)雜特征的提取,提高了檢測(cè)效果。
表4 改進(jìn)的算法和原始SSD算法的平均精度對(duì)比
表5展示了所提算法與SSD系列改進(jìn)算法DSOD、RSSD、DSSD、FSSD的詳細(xì)對(duì)比。從表中可以看出SSD300的FPS最高,達(dá)到了46。所提改進(jìn)算法在檢測(cè)速度上對(duì)比SSD300有所下降,但是在輸入圖像分辨率、準(zhǔn)確率這兩個(gè)指標(biāo)上達(dá)到了最優(yōu),改進(jìn)后的算法在速度沒(méi)有明顯降低的情況下mAP達(dá)到了79.8%。
表5 所提算法與SSD系列改進(jìn)算法的對(duì)比
該文提出了一種基于SSD算法的少樣本目標(biāo)檢測(cè)算法,針對(duì)SSD算法在少樣本目標(biāo)檢測(cè)中的問(wèn)題,提出了改進(jìn)思路。首先,用神經(jīng)網(wǎng)絡(luò)層數(shù)更深的ResNet-50替換原來(lái)的VGG,ResNet-50作為主干網(wǎng)絡(luò),可以對(duì)更加復(fù)雜的特征進(jìn)行提取,并且利用殘差單元避免了隨著網(wǎng)絡(luò)層數(shù)加深帶來(lái)的退化問(wèn)題;其次,用FPN替換SSD網(wǎng)絡(luò)中間的兩個(gè)特征層,充分融合不同層次的特征信息。通過(guò)實(shí)驗(yàn),改進(jìn)的SSD算法在Mini-ImageNet數(shù)據(jù)集的檢測(cè)結(jié)果中,mAP值達(dá)到了79.8%,高于原始的SSD算法及其系列的改進(jìn)算法,FPS也達(dá)到了38.3。實(shí)驗(yàn)結(jié)果表明提出的改進(jìn)算法是有效的,并且具有良好的魯棒性。另外,為了增強(qiáng)少樣本檢測(cè)的檢測(cè)效果,提出了一種圖像處理的方法,該方法會(huì)增加一定的計(jì)算量,如何設(shè)計(jì)出更理想的圖像處理方案或者引入更適合研究的少樣本數(shù)據(jù)集,這是后續(xù)研究值得考慮的問(wèn)題。