摘" 要:目前,基于深度學(xué)習(xí)的單步目標(biāo)檢測(cè)器已被廣泛用于實(shí)時(shí)目標(biāo)檢測(cè),但其對(duì)目標(biāo)的定位精度較差,并且存在目標(biāo)漏檢、誤檢等問(wèn)題。文章提出了一種用于復(fù)雜場(chǎng)景中準(zhǔn)確實(shí)時(shí)的人物識(shí)別算法。首先,使用高斯YOLOv3來(lái)估計(jì)預(yù)測(cè)框的坐標(biāo)和定位不確定性,然后,采用基于注意力機(jī)制的非極大值抑制方法去除冗余的檢測(cè)框,提高目標(biāo)檢測(cè)結(jié)果的準(zhǔn)確性。經(jīng)自建數(shù)據(jù)集訓(xùn)練并測(cè)試,改進(jìn)的高斯YOLOv3對(duì)人物的識(shí)別精度為83.1%,比YOLOv3提高了1.68%,檢測(cè)模型可以應(yīng)用于軍事戰(zhàn)場(chǎng)人物的識(shí)別和定位,為戰(zhàn)場(chǎng)態(tài)勢(shì)感知系統(tǒng)提供有效的技術(shù)支持。
關(guān)鍵詞:人物識(shí)別;高斯模型;注意力機(jī)制;高斯YOLOv3;非極大值抑制
中圖分類號(hào):TP391.4" " 文獻(xiàn)標(biāo)識(shí)碼:A" 文章編號(hào):2096-4706(2024)10-0046-05
Research on Accurate and Real-time Character Recognition Algorithms in Complex Scenes
YANG Jin1,2, JING Fei1,2, ZHANG Tongtong1,2, TU Yaxin3
(1.The 29th Research Institute of CETC, Chengdu" 610036, China; 2.Sichuan Province Engineering Research Center for Broadband Microwave Circuit High Density Integration, Chengdu" 610036, China; 3.Measurement Center of State Grid Sichuan Electric Power Company, Chengdu" 610045, China)
Abstract: Currently, single step object detectors based on Deep Learning have been widely used for real-time object detection, but their positioning accuracy for targets is poor, and there are problems such as missed detection and 1 detection of targets. This paper proposes an accurate and real-time character recognition algorithm for complex scenes. Firstly, this paper uses Gaussian YOLOv3 to estimate the coordinates and positioning uncertainty of the prediction box. Then, a Non-Maximum Suppression method based on Attention Mechanism is used to remove redundant detection boxes and improve the accuracy of target detection results. After self-built dataset training and testing, the improved Gaussian YOLOv3 has a character recognition accuracy of 83.1%, which is 1.68% higher than YOLOv3. The detection model can be applied to the recognition and positioning of military battlefield characters, providing effective technical support for battlefield situation awareness systems.
Keywords: character recognition; Gaussian model; Attention Mechanism; Gaussian YOLOv3; Non-Maximum Suppression
0" 引" 言
戰(zhàn)場(chǎng)態(tài)勢(shì)感知是對(duì)作戰(zhàn)和保障部隊(duì)的部署、武器裝備、戰(zhàn)場(chǎng)環(huán)境(地形、氣象、水文等)進(jìn)行實(shí)時(shí)感知的過(guò)程,在未來(lái)的信息戰(zhàn)中,提高戰(zhàn)場(chǎng)態(tài)勢(shì)感知能力可以有效地增強(qiáng)戰(zhàn)爭(zhēng)的整體控制能力。目前,軍事目標(biāo)的識(shí)別和定位是影響戰(zhàn)場(chǎng)態(tài)勢(shì)感知的關(guān)鍵技術(shù)[1]。因此,研究復(fù)雜環(huán)境下軍事目標(biāo)的自動(dòng)檢測(cè)技術(shù),對(duì)戰(zhàn)場(chǎng)態(tài)勢(shì)的生成和分析具有重要意義。在戰(zhàn)場(chǎng)偵察領(lǐng)域,視頻和圖像比文本和電報(bào)信息更直觀、更實(shí)用,是目前有效的偵察方法之一。因此,基于視頻和圖像的戰(zhàn)場(chǎng)態(tài)勢(shì)感知技術(shù)可以為指揮決策者提供相對(duì)豐富、生動(dòng)的戰(zhàn)場(chǎng)全局?jǐn)?shù)據(jù)[2]。
近年來(lái),學(xué)者們逐漸將基于深度學(xué)習(xí)的方法應(yīng)用于戰(zhàn)場(chǎng)態(tài)勢(shì)感知,可以有效解決當(dāng)前信息化戰(zhàn)場(chǎng)中復(fù)雜的戰(zhàn)場(chǎng)態(tài)勢(shì)生成和分析問(wèn)題。基于深度學(xué)習(xí)的多層人工神經(jīng)網(wǎng)絡(luò)模型具有較強(qiáng)的特征學(xué)習(xí)能力,大多數(shù)現(xiàn)有的基于深度學(xué)習(xí)的目標(biāo)檢測(cè)算法可以分類為兩級(jí)檢測(cè)器和一級(jí)檢測(cè)器。兩級(jí)檢測(cè)器由區(qū)域建議階段和分類階段組成。首先,在區(qū)域建議階段,通過(guò)許多區(qū)域建議策略產(chǎn)生候選框,然后,通過(guò)分類方法將這些候選框分為不同的類別,以實(shí)現(xiàn)目標(biāo)檢測(cè)。周華平[3]等在基于Faster R-CNN框架的基礎(chǔ)上提出了一種改進(jìn)其特征網(wǎng)絡(luò)ResNet-101的方法,算法平均檢測(cè)精度提高了5.1%。劉寅[4]在R-FCN網(wǎng)絡(luò)的基礎(chǔ)上采用自適應(yīng)非極大值抑制修正預(yù)測(cè)框置信度,利用在線難例學(xué)習(xí)方法并優(yōu)化候選框參數(shù),優(yōu)化后的R-FCN網(wǎng)絡(luò)對(duì)教室內(nèi)的人物目標(biāo)識(shí)別準(zhǔn)確率為89.52%。兩級(jí)檢測(cè)器可以實(shí)現(xiàn)相當(dāng)高的檢測(cè)精度,但檢測(cè)速度較低,難以應(yīng)用于實(shí)時(shí)檢測(cè)的場(chǎng)景。
相比之下,一級(jí)檢測(cè)器直接返回對(duì)象的分類概率和位置坐標(biāo),而不需要區(qū)域建議過(guò)程。例如,YOLO [5]將圖像分割成小網(wǎng)格,并同時(shí)預(yù)測(cè)每個(gè)區(qū)域的候選框概率和分類概率。與兩級(jí)探測(cè)器相比,YOLO實(shí)現(xiàn)了速度的顛覆性提高,但目標(biāo)檢測(cè)精度較低,其定位誤差源于對(duì)網(wǎng)格單元的處理。為了提高一級(jí)檢測(cè)器的性能,SSD [6]修改了深度學(xué)習(xí)網(wǎng)絡(luò),增加了多參考和多分辨率策略,以提高檢測(cè)精度。RefineDet [7]基于SSD網(wǎng)絡(luò)架構(gòu),使用ARM模塊和ODM模塊互連,以提高檢測(cè)速度和準(zhǔn)確性。與深度網(wǎng)絡(luò)的修改不同,RetinaNet [8]對(duì)其他策略進(jìn)行了微調(diào),并用焦點(diǎn)損失取代了YOLOv3 [9]中的交叉熵?fù)p失,以專注于難以分類的例子,并丟棄負(fù)例。Zheng等人[10]提出了一種CIoU損失函數(shù),與GIoU [11]損失和IoU [12]損失函數(shù)相比提高了網(wǎng)絡(luò)的檢測(cè)精度和收斂速度。高斯YOLOv3 [13]利用高斯函數(shù)來(lái)確定預(yù)測(cè)框的定位不確定性。此類檢測(cè)模型速度較快,但精度相對(duì)較低。
由于戰(zhàn)場(chǎng)態(tài)勢(shì)的高度動(dòng)態(tài)性,對(duì)軍事目標(biāo)的實(shí)時(shí)檢測(cè)提出了很高的要求。此外,在戰(zhàn)場(chǎng)環(huán)境中,軍事目標(biāo)經(jīng)常受到照明、目標(biāo)大小、偽裝和遮擋的影響,檢測(cè)算法需要能夠適應(yīng)復(fù)雜的戰(zhàn)場(chǎng)環(huán)境。高斯YOLOv3算法具有良好的實(shí)時(shí)性和檢測(cè)性能,因此本文選擇高斯YOLOv3作為檢測(cè)算法的基本結(jié)構(gòu)并對(duì)其進(jìn)行了改進(jìn)。為了準(zhǔn)確、實(shí)時(shí)地識(shí)別復(fù)雜場(chǎng)景中的人物,本文提出了一種用于復(fù)雜場(chǎng)景中準(zhǔn)確實(shí)時(shí)的人物識(shí)別算法。本文首先采用了改進(jìn)的高斯YOLOv3作為檢測(cè)算法的基礎(chǔ)結(jié)構(gòu),使用高斯函數(shù)來(lái)估計(jì)預(yù)測(cè)框的坐標(biāo)和定位不確定性,有效地提高復(fù)雜場(chǎng)景中人物的檢測(cè)精度。本文提出一種基于注意力機(jī)制的非極大值抑制算法,提高了非極大值抑制算法在消除多余候選框的準(zhǔn)確性,從而減少了冗余的候選框?qū)z測(cè)結(jié)果的影響,提高人物檢測(cè)結(jié)果的準(zhǔn)確性。
1" 高斯YOLOv3模型
1.1" 基礎(chǔ)網(wǎng)絡(luò)結(jié)構(gòu)
圖1給出了改進(jìn)的高斯YOLOv3框架的架構(gòu)(圖中最左列中的數(shù)字1、2、4和8表示重復(fù)的殘差分量數(shù)量),該框架由75個(gè)卷積層、23個(gè)快捷層、4個(gè)路由層、3個(gè)YOLO層和2個(gè)上采樣層組成。改進(jìn)的高斯YOLOv3生成三個(gè)大小分別為76×76、38×38和19×19的特征圖,輸入圖像大小設(shè)置為608×608。在改進(jìn)的高斯YOLOv3網(wǎng)絡(luò)中,“卷積”模塊用于預(yù)測(cè)對(duì)象的邊界框坐標(biāo)、對(duì)象置信度值和三個(gè)尺度的錨框的類概率。改進(jìn)的高斯YOLOv3使用“高斯建?!蹦K來(lái)估計(jì)預(yù)測(cè)框的坐標(biāo),從而可以確定預(yù)測(cè)框的定位不確定性。最后,比較了三種尺度的檢測(cè)結(jié)果,并使用一些閾值來(lái)確定最終結(jié)果。因此,改進(jìn)的高斯YOLOv3可以在保持實(shí)時(shí)檢測(cè)速度的同時(shí)提高檢測(cè)精度。
1.2" 高斯模型
YOLOv3輸出預(yù)測(cè)框坐標(biāo)、對(duì)象得分和類得分,并基于對(duì)象和類的置信度對(duì)對(duì)象進(jìn)行分類。然而,YOLOv3不能確定預(yù)測(cè)框的置信度,因此預(yù)測(cè)框的坐標(biāo)不確定性是未知的。因此,YOLOv3可能無(wú)法準(zhǔn)確地確定目標(biāo)人物的定位。
為了解決這個(gè)問(wèn)題,網(wǎng)絡(luò)引入高斯函數(shù)來(lái)估計(jì)預(yù)測(cè)框坐標(biāo)的不確定性,包括中心信息(即tx和ty)和預(yù)測(cè)框大小信息(即tw和th)。高斯模型將預(yù)測(cè)框坐標(biāo)的均值和方差函數(shù)作為輸入,因此改進(jìn)的高斯YOLOv3將YOLOv3中預(yù)測(cè)框的輸出數(shù)量從4個(gè)增加到8個(gè)。預(yù)測(cè)框的不確定性可以使用tx、ty、tw和th的每個(gè)單獨(dú)的高斯模型進(jìn)行建模。對(duì)于給定的測(cè)試輸入x,使用以下公式計(jì)算單個(gè)高斯模型的輸出y:
其中,μ(x)和" 分別表示預(yù)測(cè)框坐標(biāo)的均值和方差。
此外,高斯YOLOv3調(diào)整了網(wǎng)絡(luò)的損失函數(shù),因此,可以估計(jì)高斯YOLOv3中預(yù)測(cè)框的定位不確定性。tx的損失函數(shù)描述如下:
其中W和H分別表示水平和垂直網(wǎng)格的數(shù)量。K表示錨框的數(shù)量, 表示在(i,j)網(wǎng)格中的第k個(gè)錨框處的tx, 表示tx的不確定性, 是tx的GT。通過(guò)使用與tx相同的策略來(lái)計(jì)算ty、tw和th的損失函數(shù)。χ為對(duì)數(shù)函數(shù)的數(shù)值穩(wěn)定性指定值10-9。γijk表示權(quán)重懲罰系數(shù),其計(jì)算如下:
其中ωscale表示基于圖像中GT框的寬度和高度比計(jì)算,計(jì)算式為:
其中, 表示當(dāng)GT框和當(dāng)前錨框之間的CIoU損耗大于某個(gè)閾值時(shí)被設(shè)置為1,并且如果沒(méi)有合適的GT則" 等于零。
預(yù)測(cè)框坐標(biāo)的定位不確定性以及對(duì)象性得分和類得分被認(rèn)為是檢測(cè)標(biāo)準(zhǔn)??紤]定位不確定性的檢測(cè)標(biāo)準(zhǔn)如式(5)所示:
其中Cr表示高斯YOLOv3的檢測(cè)標(biāo)準(zhǔn),σ(Object)是對(duì)象性得分,σ(Classi)是第i類的得分。Uncertaintyaver指示預(yù)測(cè)框坐標(biāo)的平均不確定性。定位不確定性與預(yù)測(cè)框的置信度呈負(fù)相關(guān)。
2" 復(fù)雜場(chǎng)景中準(zhǔn)確實(shí)時(shí)的人物識(shí)別算法
2.1" 數(shù)據(jù)集
總所周知,數(shù)據(jù)在深度學(xué)習(xí)中占有重要地位,高質(zhì)量的數(shù)據(jù)集能夠提高模型訓(xùn)練的質(zhì)量和模型預(yù)測(cè)的準(zhǔn)確性。目前已有許多適用于目標(biāo)檢測(cè)的數(shù)據(jù)集,如COCO2017、PASCAL VOC [14]、ImageNet等。針對(duì)復(fù)雜環(huán)境下軍事人物檢測(cè)任務(wù),本文構(gòu)建了真實(shí)陸地戰(zhàn)場(chǎng)作戰(zhàn)環(huán)境中的軍事人物數(shù)據(jù)集。
數(shù)據(jù)集中包含了叢林、城市、雪地、沙漠等常見(jiàn)的陸地作戰(zhàn)場(chǎng)景,同時(shí)目標(biāo)包含來(lái)自不同國(guó)家的人物,并且考慮了影響目標(biāo)檢測(cè)結(jié)果的因素,例如前景遮擋、偽裝、煙霧、照明、目標(biāo)尺寸、成像視角等,部分圖像示例如圖2所示。數(shù)據(jù)集中共包含1 507張圖片,將數(shù)據(jù)集中的圖片6:2:2的比例劃分為訓(xùn)練集、驗(yàn)證集和測(cè)試集。數(shù)據(jù)集圖片中的人物目標(biāo)采用LabelImg標(biāo)記軟件進(jìn)行標(biāo)記,并與PASCAL VOC數(shù)據(jù)集中的標(biāo)簽格式保持一致。
2.2" 網(wǎng)絡(luò)結(jié)構(gòu)
如上所述,YOLOv3算法在直接應(yīng)用于檢測(cè)復(fù)雜場(chǎng)景人物時(shí),可能會(huì)產(chǎn)生不準(zhǔn)確的缺陷定位、漏檢、誤檢等問(wèn)題。因此,本文采用高斯YOLOv3作為基礎(chǔ)網(wǎng)絡(luò)架構(gòu),通過(guò)在YOLOv3網(wǎng)絡(luò)中引入高斯函數(shù),用于復(fù)雜場(chǎng)景的人物檢測(cè),如圖1所示?;诟咚购瘮?shù)的YOLOv3包括兩個(gè)模塊:基礎(chǔ)YOLOv3網(wǎng)絡(luò)和高斯建模模塊。首先,YOLOv3網(wǎng)絡(luò)提取缺陷特征,然后在YOLOv3中引入高斯函數(shù)來(lái)預(yù)測(cè)預(yù)測(cè)框的坐標(biāo),從而確定坐標(biāo)的定位不確定性。具體來(lái)說(shuō),將預(yù)測(cè)框的定位不確定性與對(duì)象性得分和類得分一起作為檢測(cè)標(biāo)準(zhǔn),可以提高檢測(cè)精度。此外,該模型用注意力機(jī)制的非極大值抑制算法代替了IoU損失函數(shù),進(jìn)一步提高了回歸精度和收斂速度。改進(jìn)的高斯YOLOv3使用特征金字塔在三個(gè)不同尺度的特征下進(jìn)行對(duì)象檢測(cè)。因此,改進(jìn)的高斯YOLOv3可以適應(yīng)各種不同大小的對(duì)象檢測(cè)任務(wù)。
2.3" 基于注意力機(jī)制的非極大值抑制算法
現(xiàn)有的目標(biāo)檢測(cè)網(wǎng)絡(luò)使用的非極大值抑制算法需手動(dòng)設(shè)置閾值,閾值設(shè)置不合理容易出現(xiàn)漏檢、誤檢等情況,并且評(píng)價(jià)方式不太合理,影響網(wǎng)絡(luò)的檢測(cè)精度?;谏鲜鰡?wèn)題,本文提出一種基于注意力機(jī)制的非極大值抑制算法。
基于注意力的置信度,其計(jì)算公式為:
候選邊界框集合B = {b1,…,bN},每個(gè)候選邊界框?qū)?yīng)的分類置信度集合S = {s1,…,sN};其中,si表示集合B中的第i個(gè)候選框的置信度值,CIoU是全交并比損失函數(shù)值,br和sr分別表示當(dāng)前候選框及其對(duì)應(yīng)的基于注意力的置信度值。
所述的基于注意力機(jī)制的置信度加權(quán)懲罰算法,其計(jì)算公式為:
bm表示當(dāng)前集合B中置信度最高的候選框,bi是集合B中的第i個(gè)候選框,si是式(6)計(jì)算得到的置信度值。
3" 實(shí)驗(yàn)結(jié)果及分析
3.1" 實(shí)驗(yàn)參數(shù)配置
本文涉及的各項(xiàng)訓(xùn)練及測(cè)試實(shí)驗(yàn)是在操作系統(tǒng)為Ubuntu18.04的服務(wù)器中進(jìn)行,圖形處理器為T(mén)ITAN RTX。為客觀分析算法性能,本文首先使用通用數(shù)據(jù)集PASCAL VOC預(yù)訓(xùn)練改進(jìn)的高斯YOLOv3模型,然后使用自建軍事人物數(shù)據(jù)集對(duì)其進(jìn)行微調(diào)。為了公平比較,各模型學(xué)習(xí)樣本的大小和學(xué)習(xí)率分別設(shè)置為128和0.000 5。
3.2" 檢測(cè)結(jié)果
本文從定性及定量?jī)蓚€(gè)維度全面評(píng)估算法的性能,首先定性的評(píng)估算法的漏檢、誤檢等情況,然后采用均值平均精度(mAP)定量的評(píng)估檢測(cè)算法的檢測(cè)精度。
本文首先在自建的數(shù)據(jù)集上對(duì)改進(jìn)的高斯YOLOv3和一些方法進(jìn)行了全面的定性評(píng)估,圖3給出了在自建數(shù)據(jù)集中對(duì)來(lái)自驗(yàn)證集的一些圖像的一些實(shí)驗(yàn)結(jié)果。從圖中可以發(fā)現(xiàn),當(dāng)使用高斯YOLOv3時(shí)存在漏檢(第1、4列)、錯(cuò)檢(第2列)等問(wèn)題。相反,本文提出的改進(jìn)的高斯YOLOv3可以從這些圖像中準(zhǔn)確地檢測(cè)所有人物。顯然,改進(jìn)的高斯YOLOv3比高斯YOLOv3人物識(shí)別準(zhǔn)確率高。
人物識(shí)別模型的檢測(cè)結(jié)果如表1所示,實(shí)驗(yàn)結(jié)果表明,高斯YOLOv3與改進(jìn)的高斯YOLOv3算法均具有較高的實(shí)時(shí)性,改進(jìn)的高斯YOLOv3對(duì)人物的識(shí)別精度為83.1%,比高斯YOLOv3提高了1.68%。
本文進(jìn)一步使用三個(gè)指標(biāo)對(duì)量種方法進(jìn)行了定量評(píng)估:假陰性(FN)、假陽(yáng)性(FP)和真陽(yáng)性(TP)。FN描述人物被漏檢,F(xiàn)P表示其他對(duì)象被錯(cuò)誤地識(shí)別位人物;TP表明人物被正確檢測(cè)和識(shí)別。顯然,一種優(yōu)秀的人物是被方法應(yīng)該具有高TP值和低FN和FP值。表2給出了高斯YOLOv3和改進(jìn)的高斯YOLOv3的對(duì)比情況。從表格可知,改進(jìn)的高斯YOLOv3獲得了最高的TP值和最低的FP和FN值,同時(shí),與高斯YOLOv3相比,F(xiàn)P、FN分別降低了60.00%、40.91%,增加了4.20%的TP。因此,所提出的算法優(yōu)于以往的研究,適合用于復(fù)雜場(chǎng)景的人物識(shí)別應(yīng)用。
4" 結(jié)" 論
本文提出了一種用于復(fù)雜場(chǎng)景中準(zhǔn)確實(shí)時(shí)的人物識(shí)別算法,網(wǎng)絡(luò)首先采用高斯函數(shù)對(duì)預(yù)測(cè)框的坐標(biāo)進(jìn)行建模,然后,采用基于注意力機(jī)制的非極大值抑制方法去除冗余的檢測(cè)框,提高目標(biāo)檢測(cè)結(jié)果的準(zhǔn)確性。在自建數(shù)據(jù)集上的定量和定性對(duì)比實(shí)驗(yàn)結(jié)果表明,所提出的改進(jìn)的高斯YOLOv3在保持實(shí)時(shí)性的同時(shí),提高了精度,增加了TP,并顯著降低了FP、FN,可以提高人物識(shí)別的準(zhǔn)確定。在某些情況下,本文算法性能的改善并不明顯。本文下一步將針對(duì)小目標(biāo)、目標(biāo)重疊的目標(biāo)檢測(cè)進(jìn)行研究,進(jìn)一步提高算法的識(shí)別準(zhǔn)確率。
參考文獻(xiàn):
[1] 于博文,呂明.改進(jìn)的YOLOv3算法及其在軍事目標(biāo)檢測(cè)中的應(yīng)用 [J].兵工學(xué)報(bào),2022,43(2):345-354.
[2] 蔣超,崔玉偉,王輝.基于圖像的無(wú)人機(jī)戰(zhàn)場(chǎng)態(tài)勢(shì)感知技術(shù)綜述 [J].測(cè)控技術(shù),2021,40(12):14-19.
[3] 周華平,殷凱,桂海霞,等.基于改進(jìn)的Faster R-CNN目標(biāo)人物檢測(cè) [J].無(wú)線電通信技術(shù),2020,46(6):712-716.
[4] 劉寅.基于R-FCN的教室內(nèi)人物識(shí)別 [J].科學(xué)技術(shù)創(chuàng)新,2021(30):88-90.
[5] REDMON J,DIVVALA S,GIRSHICK R. You Only Look Once: Unified, Real-Time Object Detection [C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).Las Vegas:IEEE,2016:779–788.
[6] LIU W,ANGUELOV D,ERHAN D,et al. SSD: Single Shot Multibox Detector [C]//in Lecture Notes in Computer Science(including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics).Amsterdam:Springer,2016:21–37.
[7] ZHANG S,WEN L,BIAN X,et al. Single-Shot Refinement Neural Network for Object Detection [C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition.Salt Lake City:IEEE,2018:4203–4212.
[8] LIN T Y,GOYAL P,GIRSHICK R,et al. Focal Loss for Dense Object Detection [C]//2017 IEEE International Conference on Computer Vision (ICCV) 2017.Venice:IEEE,2017:2999–3007.
[9] REDMON J,F(xiàn)ARHADI A. YOLOv3: An Incremental Improvement [J/OL].arXiv:1804.02767 [cs.CV](2018-04-08).https://arxiv.org/abs/1804.02767.
[10] ZHENG Z,WANG P,LIU W,et al. RenDistance-IoU Loss: Faster and Better Learning for Bounding Box Regression [J/OL].arXiv:1911.08287 [cs.CV].(2019-11-19).https://arxiv.org/abs/1911.08287.
[11] REZATOFIGHI H,TSOI N,GWAK J,et al. Generalized Intersection Over Union: A Metric and a Loss for Bounding Box Regression [C]//Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition.Long Beach:IEEE,2019:658–666.
[12] JIANG B,LUO R,MAO J,et al. Acquisition of Localization Confidence for Accurate Object Detection [C]//Computer Vision-ECCV 2018.Cham:Springer,2018:816–832.
[13] CHOI J,CHUN D,KIM H,et al. Gaussian YOLOv3: An Accurate and Fast Object Detector Using Localization Uncertainty for Autonomous Driving [C]//2019 IEEE/CVF International Conference on Computer Vision (ICCV). Seoul:IEEE,2019:502–511.
[14] EVERINGHAM M,GOOL L V,WILLIAMS C,et al. The PASCAL Visual Object Classes Challenge Workshop 2008 [J].International Journal of Computer Vision,2010,88(2):303-338.
作者簡(jiǎn)介:楊錦(1996.04—),男,漢族,四川成都人,工程師,碩士研究生,研究方向:機(jī)器視覺(jué)、深度學(xué)習(xí)。