謝永明,王紅蕾
(貴州大學(xué) 電氣工程學(xué)院,貴州 貴陽 550025)
隨著視頻監(jiān)控覆蓋面積的逐步增大,行人出現(xiàn)的頻次也逐漸提高。對(duì)于成像較大且離攝像機(jī)距離較近的行人,檢測(cè)較簡單。但對(duì)遠(yuǎn)距離以及小尺寸的行人,由于其身體姿勢(shì),所處環(huán)境等特征的不明確,常常容易被監(jiān)控系統(tǒng)所忽略,導(dǎo)致無法檢測(cè)。行人檢測(cè)涉及智能交通[1]、安防系統(tǒng)等領(lǐng)域,故研究復(fù)雜背景下遠(yuǎn)距離及小尺寸行人的檢測(cè),具有重要的現(xiàn)實(shí)意義。
在早期,行人檢測(cè)的傳統(tǒng)算法主要有基于運(yùn)動(dòng)分析[2,3]的方法、基于模板匹配的方法[4]以及基于人體模型[5,6]的方法?;谶\(yùn)動(dòng)分析的方法雖然能檢測(cè)運(yùn)動(dòng)的物體,但其不能檢測(cè)靜止的對(duì)象;基于模板匹配的方法雖然可以根據(jù)模板判斷行人的具體姿勢(shì),但僅能利用有限的模板來描述目標(biāo)的形狀;基于人體模型的方法雖然精度高,但其難以檢測(cè)遠(yuǎn)距離的行人。
傳統(tǒng)的算法都有其局限性,在復(fù)雜背景下無法快速、準(zhǔn)確地檢測(cè)行人。隨著深度學(xué)習(xí)的發(fā)展,人們開始在行人檢測(cè)領(lǐng)域運(yùn)用深度學(xué)習(xí)方法。Girshick等[7]提出了一種基于區(qū)域的卷積神經(jīng)網(wǎng)絡(luò)R-CNN(region-CNN)。該方法首先使用選擇性搜索算法提取建議區(qū)域,然后將區(qū)域更改為統(tǒng)一大小,提取特征,最后,根據(jù)目標(biāo)的特征進(jìn)行分類。但R-CNN為多階段訓(xùn)練,會(huì)耗費(fèi)大量的時(shí)間。故在此基礎(chǔ)上,Girshick[8]提出了一種快速的基于區(qū)域的卷積神經(jīng)網(wǎng)絡(luò)Fast R-CNN,該方法僅需對(duì)圖像提取一次,提高了檢測(cè)的速度和精度。但前兩種方法提取建議區(qū)域都必須進(jìn)行選擇性搜索。為了進(jìn)一步提高速度,S.Ren等[9]提出了一種更快的基于區(qū)域的卷積神經(jīng)網(wǎng)絡(luò)Faster R-CNN,該方法用區(qū)域提議網(wǎng)絡(luò)RPN(region proposal network)代替了選擇性搜索,卷積層與其它組件共享,從而實(shí)現(xiàn)了整個(gè)網(wǎng)絡(luò)的端到端訓(xùn)練[10]。
在行人檢測(cè)領(lǐng)域,部分產(chǎn)品已經(jīng)落地使用。如智能交通系統(tǒng)中的車輛輔助駕駛系統(tǒng),它能使車輛自動(dòng)識(shí)別行人,在緊急情況下提醒司機(jī)或制動(dòng)。在安防系統(tǒng)中,通過對(duì)陌生人進(jìn)行監(jiān)控或抓拍,可以將陌生人的信息及時(shí)反饋給遠(yuǎn)程的房主,從而減少偷盜行為的發(fā)生。
雖然行人檢測(cè)技術(shù)在一些終端產(chǎn)品上逐步開始應(yīng)用,但仍有很多問題需要進(jìn)行考慮,包括目標(biāo)所處的背景、目標(biāo)的特征是否顯著等。這其中就包括在復(fù)雜背景下,對(duì)監(jiān)控系統(tǒng)中遠(yuǎn)距離及小尺寸行人的檢測(cè)。針對(duì)這一現(xiàn)狀,有不少學(xué)者在這方面開展了研究。Saghir Alfasly等[11],提出了一個(gè)基于卷積神經(jīng)網(wǎng)絡(luò)的自動(dòng)縮放框架,它能將輸入幀分為多個(gè)不重疊的圖塊來進(jìn)行縮放。Pang等[12],利用大尺度行人與相應(yīng)小尺度行人之間的關(guān)系,將小尺度行人的分辨率放大,以幫助恢復(fù)小尺度行人的詳細(xì)信息。Zhou等[10],提出一種基于Faster R-CNN架構(gòu)的級(jí)聯(lián)網(wǎng)絡(luò)結(jié)構(gòu),通過使用級(jí)聯(lián)網(wǎng)絡(luò)以及多尺度RoIAlign,能檢測(cè)具有不同大小比例和遮擋的對(duì)象。上述方法在行人檢測(cè)上,雖然相對(duì)于傳統(tǒng)方法有一定的優(yōu)勢(shì),且在一定程度上都能識(shí)別遠(yuǎn)距離或小尺寸物體,但這些方法都有一些不足之處。如文獻(xiàn)[12],文章并未考慮背景對(duì)行人的影響,當(dāng)行人與其背景相似時(shí),檢測(cè)性能會(huì)大大降低;如文獻(xiàn)[10],數(shù)據(jù)集中的圖像雖然有背景的存在,但這些背景都是靜態(tài)的,過于單一,且Faster R-CNN檢測(cè)的精度不高。因此,本文旨在復(fù)雜背景下,通過對(duì)傳統(tǒng)Faster R-CNN算法進(jìn)行改進(jìn),準(zhǔn)確地檢測(cè)詳細(xì)信息較少的遠(yuǎn)距離及小尺寸行人。本文的主要工作如下:
(1)因?yàn)楸粰z測(cè)目標(biāo)位于前景中,為了消除復(fù)雜背景對(duì)檢測(cè)目標(biāo)的干擾,采用混合高斯模型方法,將圖像的前景和背景進(jìn)行分離,再從得到的前景圖像中檢測(cè)行人。
(2)之所以難以檢測(cè)遠(yuǎn)距離及小尺寸行人,是因?yàn)檫@兩種類型的目標(biāo)所包含的信息少,且分辨率低。故使用雙線性二次插值方法提高圖像的分辨率,使用多尺度特征融合以使其包含更多信息,從而實(shí)現(xiàn)遠(yuǎn)距離及小尺寸行人的檢測(cè)。
Faster R-CNN在Fast R-CNN的基礎(chǔ)上加了一個(gè)區(qū)域提議網(wǎng)絡(luò)(RPN),從而使其可以生成高質(zhì)量的區(qū)域建議。卷積層對(duì)輸入圖像的大小沒有限制,生成的特征將傳輸給RPN和下一層卷積層。隨后,ROI(region of interest)池化層接收到高維特征和區(qū)域提議,并將之轉(zhuǎn)換為同一尺寸。最后,全連接層接收到ROI池化層的特征,通過回歸(reg)得到坐標(biāo),通過分類(cls)得到其分?jǐn)?shù)。其結(jié)構(gòu)如圖1所示。
圖1 Faster R-CNN的結(jié)構(gòu)
圖像前景提取的目的是將圖像的前景提取出來,從而去除圖像中背景對(duì)行人檢測(cè)的干擾。這樣,一方面,由于去除了背景,F(xiàn)aster R-CNN訓(xùn)練和收斂的速度更快;另一方面,F(xiàn)aster R-CNN能在圖像的前景中集中檢測(cè)行人。
圖像前景提取是圖像識(shí)別的一個(gè)重點(diǎn)研究方向,近年來,涌入了不少方法,如單高斯模型方法[13,14]、RPCA[15,16](robust principal component analysis)方法以及混合高斯模型[17-20]方法。考慮到視頻的背景可能會(huì)發(fā)生變化,故選擇混合高斯模型提取前景。
混合高斯模型的作用是將某一幀中的所有像素點(diǎn)分為前景點(diǎn)和背景點(diǎn)。針對(duì)幀中的一點(diǎn) (x,y), 其為前景或背景是由概率密度決定的,而概率密度可以根據(jù)K個(gè)高斯分布構(gòu)成的混合模型表示。Xm的概率密度函數(shù)為
(1)
高斯分布的概率密度函數(shù)η為
(2)
(3)
未匹配到的成分保持不變;匹配到的分布參數(shù)按下式進(jìn)行更新
μm=(1-ρ)μm-1+ρXm
(4)
(5)
將K個(gè)分布按照ω/σ2的值從大到小排列。選取前B個(gè)分布構(gòu)成新背景模型,B的取值如下
(6)
式中:T為背景閾值,表示背景成分所占整個(gè)概率分布的比例。由背景模型,按從大到小的順序?qū)m與高斯分布進(jìn)行匹配,能匹配則為背景點(diǎn),反之,則為前景點(diǎn)。重復(fù)執(zhí)行以上步驟,得到前景圖。
但混合高斯模型算法依舊會(huì)存在一些問題,如前景點(diǎn)與背景點(diǎn)之間的誤判,這主要是由更新速率引起的。更新速率太大,容易將噪聲引入模型中,這時(shí)運(yùn)動(dòng)目標(biāo)會(huì)移入背景;更新速率太小,模型不能適應(yīng)背景的變化,則容易將背景信息引入到前景。故在此,為了反映真實(shí)場(chǎng)景,引入了一個(gè)模型更新策略,其在視圖不同的區(qū)域有著不同的更新率。其區(qū)域主要指的是通過比較幀之間像素值的變化,將像素分為運(yùn)動(dòng)和靜止的區(qū)域。如下所示
式中:Pk為當(dāng)前幀的像素,Pk-1為背景模型像素,T1為閾值,Ad為運(yùn)動(dòng)變化區(qū)域,Aj為靜止區(qū)域。這主要是針對(duì)背景緩慢變化的情況。
而對(duì)背景突變的場(chǎng)景,若該差值在連續(xù)20幀都超過了閾值,那么此時(shí)需要增大背景更新速率,讓像素融入背景。否則則保持上個(gè)時(shí)刻的更新狀態(tài)。
綜上所述,可得
(7)
式中:i代表像素,k代表當(dāng)前幀,k-1代表前一幀,P代表圖像像素值,B代表背景模型的像素值,為像素差值的閾值,為更新速率,范圍為0.1-0.3。整個(gè)過程更新速率會(huì)隨場(chǎng)景和區(qū)域的變化進(jìn)而進(jìn)行動(dòng)態(tài)的改變。通過不斷地更新和匹配,在一定程度上能減少前景點(diǎn)與背景點(diǎn)之間的誤判,從而減少行人被誤判為背景點(diǎn)而被剔除的幾率。
將圖像的背景去除后,圖2可以看出,前景圖像只有行人的輪廓及姿態(tài),已經(jīng)不包含背景信息及行人的一些衣著信息,同時(shí)也去除了光照對(duì)行人檢測(cè)的影響。
圖2 混合高斯模型分離圖像效果
1.3.1 雙線性二次插值
在上采樣階段,由于遠(yuǎn)距離及小尺寸行人的信息缺失較多,故要提高圖像的分辨率,使其包含更多信息。這里,采用雙線性二次插值方法,通過內(nèi)插變量來提高圖像的分辨率,具體如圖3所示,也即求出點(diǎn)P的坐標(biāo)。
圖3 雙線性二次插值
圖中Q11、Q12、Q21、Q22的坐標(biāo)值已知,最終的結(jié)果與插值的順序無關(guān)。首先,在x方向上,Q11、Q21的線性插值為R1(x,y1),Q12、Q22的線性插值為R2(x,y2), 故可得
(8)
(9)
再根據(jù)f(R1)、f(R2) 的值得到y(tǒng)方向上的插值
(10)
因此,通過雙線性二次插值,已知某點(diǎn)周圍4個(gè)頂點(diǎn)的坐標(biāo),可以求得該點(diǎn)的坐標(biāo)。從另一層面來講,也即對(duì)圖像的分辨率進(jìn)行了放大,進(jìn)一步豐富了遠(yuǎn)距離及小尺寸行人的信息。
1.3.2 多尺度特征融合
根據(jù)卷積神經(jīng)網(wǎng)絡(luò)提取圖像特征的原理,網(wǎng)絡(luò)低層提取的一般是行人的輪廓信息,高層提取的一般是行人的姿態(tài)等更為細(xì)節(jié)性的特征。而隨著網(wǎng)絡(luò)的增加,每一層都會(huì)丟失一些信息,到最后提取更為細(xì)小特征的時(shí)候,例如遠(yuǎn)距離及小尺寸行人的信息,可能隨著一些細(xì)節(jié)信息的丟失而導(dǎo)致最后檢測(cè)結(jié)果的不準(zhǔn)確。而這時(shí),為了避免這個(gè)問題,且為了讓行人識(shí)別更準(zhǔn)確,就需進(jìn)行多尺度特征融合。
多尺度特征融合可以從兩個(gè)方向進(jìn)行考慮,一個(gè)是采用圖像金字塔,另一個(gè)是通過修改Faster R-CNN網(wǎng)絡(luò)完成。由于圖像金字塔的計(jì)算量大,故本文采用第二種方法。
如圖4所示,通過修改Faster R-CNN的結(jié)構(gòu),分別將Conv2_2、Conv4_3和Conv5_3卷積層提取的特征進(jìn)行融合(這里選擇Conv2_2的原因是因?yàn)槠浒男畔⑾鄬?duì)于Conv4_3和Conv5_3更為詳細(xì))。由于這三層卷積層的特征圖大小不同,最簡易的方法是將Conv2_2和Conv5_3統(tǒng)一為Conv4_3的大小(分別采用下采樣和上采樣完成)。這里的上采樣就可以運(yùn)用雙線性二次插值方法。圖4中,Conv為卷積層,Pooling為池化層,F(xiàn)C為全連接層,Concat表示級(jí)聯(lián)。
圖4 本文所提改進(jìn)算法的模型結(jié)構(gòu)
最后,將融合后得到的Concat層輸入到RPN,并與原始Faster R-CNN方法作比較。
本文采用平均精度AP、平均精度均值mAP以及每秒幀速率FPS來描述所提方法檢測(cè)行人的精度和速度。
平均精度的表達(dá)式如下
(11)
(12)
其中,Sp是預(yù)測(cè)框,Sgt是真實(shí)標(biāo)注框,Sp∩Sgt為預(yù)測(cè)框和真實(shí)標(biāo)注框交集的面積,Sp∪Sgt為預(yù)測(cè)框和真實(shí)標(biāo)注框并集的面積。
平均精度均值
(13)
其中,n表示類別的個(gè)數(shù),i表示某個(gè)類別。
FPS表示每秒處理幀的數(shù)量,以衡量算法的測(cè)試效果。
文中訓(xùn)練及測(cè)試的數(shù)據(jù)來自于香港中文大學(xué),名為CUHKSquare[21],一個(gè)約為60 min長的交通視頻序列。分辨率大小為720×576,總共為90 425幀,由固定攝像機(jī)拍攝,涵蓋了較多的遠(yuǎn)距離及小尺寸行人。為了減少訓(xùn)練樣本,每三幀采集一幀。將數(shù)據(jù)集進(jìn)行分類,分為一個(gè)訓(xùn)練集和兩個(gè)測(cè)試集。其中訓(xùn)練集和第一個(gè)測(cè)試集主要包含小尺寸行人,第二個(gè)測(cè)試集主要包括遠(yuǎn)距離行人。第一個(gè)測(cè)試集行人高度的中值為63,第二個(gè)測(cè)試集行人高度的中值為31。數(shù)據(jù)集的統(tǒng)計(jì)情況見表1。
表1 行人檢測(cè)數(shù)據(jù)集統(tǒng)計(jì)
本文實(shí)驗(yàn)平臺(tái)為Tensorflow,使用GPU(Nvidia GTX 1080 Ti)進(jìn)行運(yùn)算,系統(tǒng)為Ubuntu16.04,顯存容量為11 GB。本文首先將上述的訓(xùn)練集經(jīng)過混合高斯模型處理,去除視頻圖像的背景,得到視頻圖像的前景。然后再將前景圖像輸入到Faster R-CNN,經(jīng)過一系列的卷積池化,再將Conv2_2、Conv4_3和Conv5_3卷積層提取的特征進(jìn)行融合,將融合后的Concat輸入到RPN中,分別得到改進(jìn)后Faster R-CNN方法獲得的結(jié)果與原始Faster R-CNN獲得的結(jié)果。最后再對(duì)這兩種方法得到的圖像進(jìn)行對(duì)比。根據(jù)測(cè)試的平均精度AP、平均精度均值mAP以及測(cè)試時(shí)間綜合判定本文所提方法相對(duì)于原始Faster R-CNN的改進(jìn)程度。其模型結(jié)構(gòu)如圖4所示。
使用隨機(jī)梯度下降作為優(yōu)化器,動(dòng)量設(shè)置為0.9,權(quán)重衰減設(shè)置為0.001,學(xué)習(xí)速率設(shè)置為0.01,批量設(shè)置為8,迭代約為40 000次,分別對(duì)Faster R-CNN和改進(jìn)后的Faster R-CNN進(jìn)行訓(xùn)練。
分別將表1中的測(cè)試集1和測(cè)試集2用于測(cè)試。為了驗(yàn)證本文所提改進(jìn)算法的有效性,通過截取整段視頻中的兩個(gè)場(chǎng)景進(jìn)行對(duì)比分析。場(chǎng)景一包含較多的小尺寸行人,場(chǎng)景二包含較多的遠(yuǎn)距離行人,具體如圖5、圖6所示。在兩個(gè)場(chǎng)景中,圖(a)~圖(c)都有一些小尺寸行人和遠(yuǎn)距離行人未被檢出或準(zhǔn)確率較低的情況,圖6(a)無背景的檢測(cè)還將遠(yuǎn)距離的兩個(gè)行人檢測(cè)為了同一行人。針對(duì)場(chǎng)景一,分別對(duì)圖5(a)、圖5(b)、圖5(c)和圖5(d)進(jìn)行比較發(fā)現(xiàn),去除背景后行人檢測(cè)的準(zhǔn)確率提高。此外,通過雙線性二次插值及多尺度特征融合,同樣能提高行人檢測(cè)的準(zhǔn)確率。最后再對(duì)場(chǎng)景一和場(chǎng)景二進(jìn)行比較分析發(fā)現(xiàn),去除背景干擾并增加雙線性二次插值和多尺度特征融合的圖5(d)和圖6(d)在各自場(chǎng)景中的檢測(cè)效果最優(yōu)。
圖5 場(chǎng)景一改進(jìn)前后效果比較
圖6 場(chǎng)景二改進(jìn)前后效果比較
其次,為了更客觀地對(duì)檢測(cè)效果進(jìn)行評(píng)價(jià),再對(duì)上述場(chǎng)景中有無背景、有無雙線性二次插值、有無多尺度特征融合的mAP值和測(cè)試時(shí)間進(jìn)行對(duì)比分析。其在相同條件下的mAP值和測(cè)試時(shí)間分別見表2、表3。
表2 不同方法在相同條件下的mAP值對(duì)比
表3 不同方法在相同條件下的測(cè)試時(shí)間對(duì)比
首先對(duì)表2進(jìn)行分析,從這些數(shù)據(jù)可以看出,由于一開始沒有去除圖像背景,F(xiàn)aster R-CNN直接輸入圖像時(shí)模型檢測(cè)的mAP值較低,僅高于YOLO v2。另外,在Faster R-CNN的基礎(chǔ)上,僅去除背景干擾的效果比僅加雙線性二次插值和僅加多尺度特征融合的效果要好,mAP值相對(duì)后兩者分別高出了1.1%和1%,這是因?yàn)橥饨绛h(huán)境變化對(duì)行人檢測(cè)結(jié)果的干擾大于行人自身變化或模型參數(shù)的選擇對(duì)其的影響。通過分別對(duì)比場(chǎng)景一、場(chǎng)景二中的圖5(a)、圖5(b)、圖5(c)和圖6(a)、圖6(b)、圖6(c)也可以得到相同的結(jié)果。在準(zhǔn)確率方面,F(xiàn)aster R-CNN的效果要好于YOLO v2。除此以外,由表2可以看出,本文方法基于Faster R-CNN,通過混合高斯模型去除視頻圖像的背景,并由雙線性二次插值提高圖像分辨率、多尺度特征融合增加圖像的信息后,mAP值比原始Faster R-CNN(有背景)高7.3%。由于本文所提改進(jìn)算法在Faster R-CNN的基礎(chǔ)上加了雙線性二次插值以及多尺度特征融合,增加了算法的復(fù)雜度,因此,測(cè)試時(shí)間在一定程度上會(huì)有所增加,相應(yīng)每秒處理的幀數(shù)會(huì)降低。但通過對(duì)比發(fā)現(xiàn),由表3,測(cè)試時(shí)間為15.6幀/s,每秒處理的幀數(shù)僅略微降低了0.3。
消融實(shí)驗(yàn)的目的主要是探索引入混合高斯模型、雙線性二次插值以及多尺度特征融合對(duì)模型進(jìn)行行人檢測(cè)的影響。根據(jù)排列組合,將算法拆解成8個(gè)組分別進(jìn)行訓(xùn)練。在測(cè)試集中,根據(jù)表1的像素分類,將檢測(cè)目標(biāo)分類為小目標(biāo)(Small)、遠(yuǎn)距離目標(biāo)(Long distance)以及除此以外的正常目標(biāo)(Normal)。然后將8個(gè)訓(xùn)練的模型分別進(jìn)行測(cè)試,得出各自算法在3個(gè)分類上的mAP值。其結(jié)果見表4。
在表4中,總共有8組算法,第2~第4組為在第1組的基礎(chǔ)上加上一種算法。通過對(duì)比1~4這4組算法的測(cè)試結(jié)果,可以發(fā)現(xiàn),加上混合高斯模型后正常目標(biāo)提升的mAP值大于另外兩種類型,提升了4.7%。這是因?yàn)榛旌细咚鼓P腿コ吮尘?,從而提高了前景目?biāo)檢測(cè)的準(zhǔn)確率。但對(duì)遠(yuǎn)距離及小尺寸行人,由于其分辨率沒有提升,所以雖然其mAP值有些許提升,但效果不太明顯。而加上雙線性二次插值后,由于提高了遠(yuǎn)距離及小尺寸行人的分辨率,故其提升的mAP值大于正常目標(biāo)。同樣,加上多尺度特征融合后,增加了模型對(duì)圖像的采樣率,增加了圖像的信息,遠(yuǎn)距離及小尺寸行人提升的mAP值也大于正常目標(biāo)。
表4 消融實(shí)驗(yàn)中各種情況下的mAP值/%
第5~第7組為在第1組的基礎(chǔ)上加上了兩種算法。其展示了與第2~第4組幾乎相同的結(jié)果,即加上混合高斯模
型對(duì)正常目標(biāo)的檢測(cè)較顯著,加上雙線性二次插值和多尺度特征融合對(duì)遠(yuǎn)距離及小尺寸行人檢測(cè)較顯著。但與第2~第4組不同的是,通過運(yùn)用組合方法,效果會(huì)明顯好于單一方法。
第8組為在第1組的基礎(chǔ)上加上3種算法。通過對(duì)比可以發(fā)現(xiàn),引入這3種算法后,模型對(duì)正常目標(biāo)、遠(yuǎn)距離及小尺寸目標(biāo)這3種類別測(cè)試集的檢測(cè)效果都好于算法1~算法7,且檢測(cè)結(jié)果均為最優(yōu)。除此以外,加上這3組算法后,模型明顯增加了遠(yuǎn)距離及小尺寸行人的檢測(cè)精度,其提升的效果要好于正常目標(biāo)。因此說明本文提出的改進(jìn)算法引入混合高斯模型、雙線性二次插值以及多尺度特征融合是合理的。
本文基于Faster R-CNN,提出了一種在復(fù)雜背景下檢測(cè)遠(yuǎn)距離及小尺寸行人的改進(jìn)算法。首先將視頻圖像經(jīng)過混合高斯模型處理,去除視頻圖像的背景干擾信息,得到視頻圖像的有效前景信息。然后再將前景圖像輸入到Faster R-CNN,經(jīng)過一系列的卷積池化,將卷積層提取的特征經(jīng)過雙線性二次插值提升其分辨率,進(jìn)而進(jìn)行多尺度融合訓(xùn)練,增加圖像的信息,最后得到檢測(cè)模型。
實(shí)驗(yàn)在CUHKSquare數(shù)據(jù)集上進(jìn)行了驗(yàn)證,結(jié)果表明,本文所提改進(jìn)算法能去除復(fù)雜背景對(duì)行人檢測(cè)的干擾,能顯著地提高視頻圖像中待檢測(cè)的遠(yuǎn)距離及小尺寸行人的檢測(cè)精度。其mAP值比改進(jìn)前分別提升了8.1%、7.7%,每秒幀速率為15.6 幀/s,僅略微降低,驗(yàn)證了本文所提改進(jìn)算法的合理性。在未來的研究中,將進(jìn)一步優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu),在不同的數(shù)據(jù)集上進(jìn)行訓(xùn)練和測(cè)試,提升模型的檢測(cè)能力和檢測(cè)效率。