中圖分類號:TP391 文獻標志碼:A
在計算機視覺研究中,行人檢測一直是一個備受關注且具有挑戰(zhàn)性的領域。隨著計算機視覺技術的不斷發(fā)展,行人檢測在人工智能領域中變得越來越重要。行人檢測要解決的問題是識別圖像或視頻中的行人并準確地將其標注出來。例如,交通監(jiān)控系統(tǒng)可以利用行人檢測來監(jiān)測交通流量和行人行為,以提供更安全和高效的交通環(huán)境[1]。當前的行人檢測算法主要集中在可見光圖像上,對于紅外圖像下的行人檢測問題仍然存在挑戰(zhàn)。紅外圖像在夜間和低光條件下具有獨特的優(yōu)勢,因此,在安防監(jiān)控[2]、自動駕駛[3]等領域具有廣泛的應用前景。然而,現(xiàn)有的紅外圖像行人檢測算法往往面臨著檢測困難、檢測精度低以及目標丟失等問題,這主要是由于紅外圖像的特殊性質以及環(huán)境條件的限制所導致的。因此,對于紅外圖像行人檢測技術仍然具有重要的研究意義。
目前,基于深度學習的目標檢測算法可大致分為兩類[45]:一類是單階段檢測算法,如 YOLO[6] 系列等,這些算法通過降低模型的計算復雜性來提高速度,但可能會犧牲一定的檢測精度;另一類是雙階段檢測算法,如R-CNN[7]、FastR-CNN[8]、FasterR-CNN[9]等,這些算法注重提高檢測精度,但這可能會導致模型變得更加復雜,從而降低檢測速度。
YOLOv5算法由Ultralytics團隊于2020年提出,是單階段目標檢測中的重要代表之一。該算法建立在YOLOv4基礎之上,引人了一系列新的改進方法,顯著提高了檢測速度和精度性能,可以應用在紅外圖像行人檢測中。王程等使用改進的YOLOv4算法對小目標行人進行檢測,雖降低模型參數(shù)量和計算量,提高檢測速度,但仍會存在漏檢的問題。李陽等[\"]對YOLOv5模型進行改進,用于檢測熱紅外道路車輛及行人,模型雖提高了檢測準確率,但也增加了模型的計算量,沒有實現(xiàn)模型的輕量化設計。代華等提出一種改進的YOLOv5模型,提高了對紅外弱小目標檢測準確率,但在檢測速度上仍有改進的空間。胡焱等[13]改進的YOLOv5算法提高了對低分辨率小目標的檢測能力,但在漏檢率方面仍有不足且未能實現(xiàn)模型的輕量化設計。
以上研究對于紅外圖像目標檢測都有重大意義,但其中部分算法考慮了檢測精度問題而忽略了模型的輕量化問題;部分算法雖降低了模型的計算量與參數(shù)量,但在檢測精度上卻提升不大。因此,為了提高紅外圖像行人檢測的準確性并實現(xiàn)模型輕量化,本文以YOLOv5s算法展開研究,提出一種輕量化紅外圖像行人檢測算法YOLOv5s-CSBS。
首先,該方法通過構建C3CA模塊、添加SimAM注意力機制模塊兩種方法,對其主干網(wǎng)絡進行改進,從而減少對行人錯檢、漏檢的情況;其次,引入加權雙向特征金字塔網(wǎng)絡(BiFPN)[14]到頸部網(wǎng)絡中,增強網(wǎng)絡特征表達能力,進一步提高對行人檢測的準確率;最后,為了降低模型的參數(shù)量與復雜性,引入包含GSConv的Slim-Neck設計范式,更好地平衡模型準確性和速度,實現(xiàn)輕量化。
1 YOLOv5s網(wǎng)絡模型與算法改進
1.1 YOLOv5s網(wǎng)絡模型介紹
YOLOv5s是YOLOv5系列中規(guī)模較小的一種模型,因其體積小,推理速度快等特點,能夠滿足紅外圖像行人檢測的要求。YOLOv5s網(wǎng)絡結構包括輸入端、主干網(wǎng)絡、頸部網(wǎng)絡和檢測端。輸人端主要負責輸入待檢測圖像;主干網(wǎng)絡采用CSPDark-net53結構形式,CSPDarknet53是一種輕量級網(wǎng)絡結構,結合了跨階段部分連接和殘差連接的特點,可以提取圖像特征,并將其用于目標檢測任務;頸部網(wǎng)絡在特征融合階段采用了 FPN+PAN[15-16] 結構,旨在整合來自不同層級特征圖的信息,以提高模型對各種尺度目標的檢測準確性;檢測端包含三個不同尺度的輸出層,分別專門用于檢測小、中、大尺度的目標。其網(wǎng)絡結構如圖1所示。
(1)Input為輸入端,主要包括固定的輸入圖像尺寸、數(shù)據(jù)預處理和數(shù)據(jù)增強等步驟,這些設定有助于模型有效地接收和處理輸入數(shù)據(jù),提高目標檢測的準確性和效率。
(2)Backbone為網(wǎng)絡結構中負責提取特征的主干部分,通常用于對輸入圖像進行特征提取和表示。其采用了CSPDarknet53作為主干網(wǎng)絡,通過一系列卷積層、池化層和殘差塊來提取圖像中的特征信息。上述層能夠逐漸減小特征圖的尺寸,并且在不同層次提取不同尺度的特征,有助于模型獲取目標的各種尺度信息。CBS模塊是用于特征提取的基本構建塊之一,由二維卷積、批量歸一化和激活函數(shù)組成。這些模塊通過卷積操作提取圖像特征、批量歸一化加速訓練過程、激活函數(shù)引入非線性,共同作用于提高模型的性能和準確性。其網(wǎng)絡結構如圖2所示。
C3 模塊是一種特殊的卷積模塊,具有跨階段部分連接和殘差連接的特點,有助于提高特征提取能力和網(wǎng)絡的表達能力。C3模塊主要由CBS模塊以及Bottleneck模塊組成。C3模塊的設計有助于加速信息傳遞、提高特征的表達能力,提供了強大的特征表示,有助于目標檢測任務,從而提升了模型的性能和效率。其網(wǎng)絡結構如圖3所示。
SPPF模塊是一種結合了空間金字塔池化和特征金字塔網(wǎng)絡的結構,用于提取不同尺度的特征并增強模型對于不同大小目標的檢測能力。這種設計有助于提升目標檢測的精準度,使得模型能夠更好地適應不同尺度的目標。其網(wǎng)絡結構如圖4所示。
(3)Neck部分負責特征融合,采用了FPN + PAN結構,通過路徑聚合、特征融合和上下文信息提取等操作,幫助提高模型對目標的檢測能力。
輸入 CBS MaxPoolingMaxPoolingMaxPooling Concat CBS 輸出 SPPFNeck部分的設計能夠有效整合主干網(wǎng)絡提取的特征,并為檢測頭部提供更具信息豐富性和語義理解能力的特征表示,從而提升目標檢測的準確性。
(4)Head部分是YOLOv5s網(wǎng)絡的最后部分,負責從主干網(wǎng)絡和Neck部分提取的特征中生成目標檢測的預測結果。Head部分主要由三個不同尺度的輸出層組成,用于檢測不同尺寸的目標。
1.2 YOLOv5s算法改進
為了解決當前紅外圖像行人檢測算法難以平衡檢測速度和檢測精度,導致檢測困難、檢測精度低、檢測目標丟失等問題,提出一種改進YOLOv5s的輕量化紅外圖像行人檢測算法YOLOv5s-CSBS,其網(wǎng)絡結構圖如圖5所示。本文主要研究工作如下:
1)建立本課題使用的紅外圖像行人數(shù)據(jù)集,從紅外圖像數(shù)據(jù)集KAIST中篩選出4000張夜間紅外圖像作為本文使用的實驗數(shù)據(jù)集,并采用CLAHE算法對圖像進行增強處理。
2)改進Backbone網(wǎng)絡,將Backbone網(wǎng)絡中的C3模塊全部替換成C3CA模塊,增加對行人的長距離檢測能力;同時,在Backbone網(wǎng)絡中的SPPF下一層添加SimAM注意力機制模塊,提高對不同深度特征信息的感知能力。
3)改進Neck網(wǎng)絡,在Neck網(wǎng)絡中引人BiF-PN,通過引人上下文信息和跨層鏈接來增強特征表達能力。
4)引入包含GSConv的Slim-Neck設計范式降低模型復雜性,更好地平衡模型準確性和速度。
1.2.1CA注意力機制模塊
注意力機制是近年來深度學習領域內的研究熱點,可以幫助模型更好地關注重要的特征,從而提高模型的性能。 SE[17] 、ECA、CBAM[18]、CA 等注意力機制成為目前廣泛采用的注意力機制。SE為通道注意力機制,只關注通道維度之間的相互依賴關系,忽略了空間維度特征;ECA在SE的基礎上進行改進,去除了原有的全連接層,通過在全局平均池化后的特征上應用 1×1 卷積,從而在保持性能的同時降低了計算復雜度。但ECA主要關注通道信息,相對忽略了空間信息;CBAM引入了大尺度的卷積核以捕捉空間特征,但僅僅能夠捕獲局部相關性,忽略了遠距離依賴問題;CA注意力機制不僅能夠得到方向與位置的感知信息,還可以捕獲通道間的信息,可以幫助模型更好地定位與識別目標。CA注意力機制模塊如圖6所示。
圖6中, c 為特征圖通道數(shù); H 代表輸人特征圖的高度; W 代表輸人特征圖的寬度; r 為通道壓縮率。
首先,將輸入尺寸為 C×H×W 的特征圖在寬度和高度兩個方向上進行分割;其次,分別對每個通道執(zhí)行沿寬度方向的全局平均池化與沿高度方向的全局平均池化;最后,分別會得到一個尺寸大小為 C×H×1 的特征圖與一個尺寸大小為 C×1 ×W 的特征圖。公式如下:
式(1)中: 代表第 c 通道在高度 h 處的輸出; xc(h,i) 表示水平方向第 c 通道的輸入。式(2)中: Zcw(w) 代表第 ∣c∣ 通道在寬度 w 處的輸出;xc(j,w) 表示垂直方向第 c 通道的輸入。
將得到的兩個特征圖進行拼接操作,得到尺寸大小為 的特征圖,接著利用卷積、批量歸一化與非線性激活函數(shù)獲得特征圖,公式如下:
f=δ(F1(zh,zw))
式中: F1 代表一個共享的 1×1 卷積轉換函數(shù)。
沿著空間維度,再將特征圖 f 進行split操作,獲得兩個尺寸大小分別為 C×H×1,C×1×W 的特征圖,然后分別利用 1×1 卷積進行升維操作,獲得了與原始特征圖具有相同通道數(shù)的特征圖 Fh 與Fw ,再利用激活函數(shù)分別計算得到高度方向和寬度方向上的注意力權重 gh 與 gw ,公式如下:
式中: σ 表示Sigmoid激活函數(shù)。
將得到的注意力權重與原始特征圖進行逐元素乘法和求和處理,來增強特征圖的表示能力,輸出加權后的特征圖 C×H×W ,公式如下:
在YOLOv5s的主干網(wǎng)絡中,通過在C3模塊中引入CA注意力機制,有助于增強主干網(wǎng)絡對遠距離行人檢測的特征提取能力。C3CA網(wǎng)絡結構如圖7所示。
1.2.2SimAM注意力機制
為了更好地準確捕捉到紅外圖像中的行人信息,有效提升模型性能,本文引入 SimAM[19] 注意力機制,在YOLOv5s主干網(wǎng)絡的SPPF下方添加Si-mAM注意力機制,以增強對多個深度特征的感知能力。
SimAM是一種三維無參數(shù)注意力機制,該注意力機制的提出來源于神經(jīng)科學空域抑制理論。在神經(jīng)科學領域,具有空域抑制效應的神經(jīng)元往往被認為更加重要,通過檢測目標神經(jīng)元與其他神經(jīng)元之間的線性可分性可以來辨別這些神經(jīng)元。因此,對每個神經(jīng)元定義一個能量函數(shù),通過使用二值標簽并添加正則化的方式,最終簡化得最小能量公式為
式中: ;
; M 為神經(jīng)元個數(shù); χt 為目標神經(jīng)元; xi 為同一通道內其他神經(jīng)元個數(shù); λ 為超參數(shù);
和
分別代表同一通道內其他神經(jīng)元的平均值與方差。
分析式(7)可知,能量函數(shù) et* 的值越低,表示目標神經(jīng)元與周圍神經(jīng)元的差異性越顯著,其重要性也越高。SimAM注意力機制實現(xiàn)方式如式(8)所示:
式中: E 為能量函數(shù); X 為輸入特征層; ? 為點積運算;能量函數(shù) E 經(jīng)過Sigmoid激活函數(shù)后,可實現(xiàn)注意力機制。
1.2.3加權雙向特征金字塔網(wǎng)絡
YOLOv5s模型在Neck部分采用PANet結構,其網(wǎng)絡結構圖如圖9(a)所示,它利用金字塔的形式對尺度不同的特征圖進行連接,融合高級和低級特征信息。但PANet結構只有一條自上而下和一條自下而上的路徑,在特征提取部分會導致一部分原始信息丟失,從而出現(xiàn)漏檢與誤檢的情況,影響檢測行人的準確性。
通過引人加權雙向特征金字塔(bi-directionalfeaturepyramidnetwork,BiFPN)實現(xiàn)更高效的多尺度特征融合,其網(wǎng)絡結構圖如圖9(b)所示。首先,由于只有一條輸入邊的節(jié)點在特征融合的過程中貢獻比較小,所以為了簡化雙向網(wǎng)絡,同時降低計算開銷,將此類節(jié)點去除;其次,當原始輸入節(jié)點與輸出節(jié)點處在相同的層級時,會在它們之間建立一條融合路徑,從而融合更多特征;最后,通過構造雙向通道,通過自上向下和自下向上的結構在不同尺度之間建立連接,將每個雙向路徑視為網(wǎng)絡中的一個特征層,并多次重復相同的層,以實現(xiàn)更高級別的特征整合,BiFPN通過上下兩個方向的信息傳遞,加強了特征金字塔網(wǎng)絡的特征提取能力,提高了對行人檢測的準確率。
1.2.4 Slim-Neck設計范式
考慮到行人檢測算法模型的復雜性,通常研究人員會通過使用深度可分離卷積層來構建輕量級模型,以減少參數(shù)量和降低計算負擔,但可能會降低模型的檢測精度,無法保持足夠的準確性。為了解決這一問題,本文引入GSConv卷積來代替Neck部分中的CBS模塊,以在降低模型復雜性的同時,也能夠保證模型檢測的精度。GSConv卷積結構如圖10所示。首先,對輸入特征圖進行標準卷積操作,然后將其與深度可分離卷積操作得到的特征圖進行拼接和混合操作,最終得到輸出的特征圖。
Slim-Neck設計方式范式是在GSConv的基礎上通過引入GSbottleneck與VoVGSCSP而提出的一種輕量化結構。GSbottleneck模塊由兩個GSConv層組成,其網(wǎng)絡結構如圖11(a)所示。VoVGSCSP模塊是在GSbottleneck基礎上使用一次性聚合方法設計的跨階段部分網(wǎng)絡模塊,在保持足夠的準確性的同時,簡化了模型的復雜性,其網(wǎng)絡結構如圖11(b)所示。
2 仿真實驗與結果分析
2. 1 實驗環(huán)境
實驗環(huán)境采用Windows10操作系統(tǒng),使用Py-Torch1.9深度學習框架,利用GPU加速軟件進行模型訓練,實驗配置環(huán)境如表1所示:
實驗超參數(shù)設置如表2所示:
2.2 數(shù)據(jù)集
數(shù)據(jù)集使用KAIST行人數(shù)據(jù)集。從該數(shù)據(jù)集中一一篩選出4000張場景差異較大,較為清晰且包含行人的夜間紅外圖像,建立本課題使用的紅外圖像數(shù)據(jù)集,按照 7:2:1 的比例劃分數(shù)據(jù)集,分別用于訓練、驗證和測試。對建立的紅外數(shù)據(jù)集進行預處理。鑒于紅外圖像低信噪比、低對比度、特征信息不夠豐富等特性,采用CLAHE算法對圖像進行增強處理。該方法通過對每個小區(qū)域應用對比度限制,有效地抑制了噪聲放大,從而有助于人工標注和算法訓練過程。對預處理后的數(shù)據(jù)集使用標注軟件LabelImg進行人工標注,標注標簽為per-son。
2.3 實驗評估指標
實驗評估指標使用平均準確率 fAP (averageprecision)IOU為0.5時的 fmAP 平均精度均值L mAP@0.5 )、計算量(GFLOPs)、參數(shù)量(Parame-ters)、每秒處理的幀數(shù)(FPS)作為指標,評估改進后的YOLOv5s模型性能。由于本文研究對象只有行人一個類別,因此 IAP 的值等于 fmAP 的值。 fAP 和fmAP 分別表示為:
式中: P 代表準確率; R 代表召回率; N 代表類別個數(shù)。
2.4 實驗結果與分析
為了驗證本文提出改進方法的有效性,分別對YOLOv5s主干網(wǎng)絡和頸部網(wǎng)絡進行改進,通過實驗對比各種改進方法的效果。實驗結果最優(yōu)數(shù)據(jù)用黑體標注,次優(yōu)數(shù)據(jù)用下劃線標注。
2.4.1注意力機制實驗
為了驗證CA注意力機制在紅外圖像行人檢測中的優(yōu)勢,在本課題建立的數(shù)據(jù)集上對比了SE、ECA、CBAM和CA4種注意力機制分別添加到主干網(wǎng)絡的C3模塊的實驗結果,實驗結果見表3。
由表3可知,在基準模型YOLOv5s的基礎上,分別將SE、ECA、CBAM和CA4種注意力機制融入C3模塊,其參數(shù)量、計算量與 fmAP@0.5 值均有不同程度的增加,F(xiàn)PS均有所下降。其中,將CA注意力機制融人C3 模塊時,其 fmAP@0.5 的值提升最大,提升 1.89% ,ECA、SE、CBAM3種注意力機制分別提升 1.33%.0.56%.0.33% ,驗證了在紅外圖像行人檢測中,將CA注意力機制融人C3模塊的優(yōu)勢。
2.4.2 消融實驗
為驗證本文提出的4種改進方法的有效性,在本課題建立的數(shù)據(jù)集上進行了8組不同的消融實驗,以確認它們的影響。消融實驗結果如表4所示。
由消融實驗結果可以看出,以YOLOv5s為基準模型分別引入C3CA、SimAM、BiFPN、Slim-Neck4 種改進方法,模型 fmAP@0.5 值分別提升 1.89% 、0.22%1.22%0.44% ,驗證了4種改進方法對行人檢測的有效性。
當以YOLOv5s為基準模型同時引人C3CA和BiFPN時 fmAP@0.5 值雖然提升 1.45% ,但模型的參數(shù)量與計算量分別增加了 6.7% 和 12% ,沒有實現(xiàn)模型的輕量化設計。
為了進一步實現(xiàn)模型輕量化,以YOLOv5s為基準模型同時引入C3CA、BiFPN和Slim-Neck,模型的參數(shù)量與計算量分別降低了 10.7% 和 18% ,但 fmAP@0.5 值只提升了 0.67% 。
因此,本研究將4種改進方法融合,提出了一種輕量級紅外圖像行人檢測算法模型YOLOv5s-CSBS,該模型在提高檢測精度的同時實現(xiàn)了輕量化設計,最終改進后的模型在 fmAP@0.5 方面比YOLOv5s模型提高了 2.22% ,同時參數(shù)量減少了10.7% ,計算量減少了 18% 。盡管FPS略有下降,但仍然滿足實時性要求。
2.4.3 對比實驗
在實驗環(huán)境及訓練參數(shù)一致的情況下,在本課題建立的數(shù)據(jù)集上,對本文改進的算法和YOLOv3、YOLOv5s、YOLOv7-tiny、YOLOv8s等主流算法進行了訓練和測試,以驗證本文提出的模型的有效性,具體實驗結果見表5。
從表5可得,在數(shù)據(jù)集、實驗環(huán)境及訓練參數(shù)一致的情況下,本文改進的模型YOLOv5s-CSBS與YOLOv3、YOLOv5s、YOLOv7-tiny、 ΥOLOv8s 算法相比 fmAP@0.5 的值分別高出 8.76% (20號 .2.22% 、19. 15% 、2.68% ,參數(shù)量少于YOLOv3、YOLOv5s、YOLOv8s,計算量少于YOLOv3、YOLOv5s、YOLOv7-tiny和YOLOv8s,盡管FPS略有下降但依然滿足算法實時性要求。
為了進一步驗證本文方法的優(yōu)越性,在公共紅外圖像數(shù)據(jù)集FLIR上進行對比實驗,具體實驗結果見表6。
由表6實驗結果可得,本文改進的模型YOLOv5s-CSBS在FLIR數(shù)據(jù)集上同樣取得了不錯的檢測效果。從 fmAP@0.5 上看,YOLOv5s-CSBS 的實驗結果為 91.7% ,比 ΥOLOv5s 提升了 1.78% ,同時參數(shù)量與計算量更低,具有高精度和低成本的優(yōu)勢,同時依然滿足算法實時性要求。綜合各項評價指標可得,本文提出的算法模型YOLOv5s-CSBS在輕量化的同時提高了檢測精度,滿足檢測紅外圖像行人的要求。
2.4.4檢測結果對比分析
為了更直觀地比較本文提出的算法YOLOv5s-
CSBS與YOLOv5s算法對紅外圖像行人的檢測效果,從測試集中挑選出不同場景下的行人進行檢測。
通過對比圖12(a)與圖13(a)圖12(b)與圖13(b)可知,本文所提出的算法模型YOLOv5s-CS-BS相比YOLOv5s算法模型檢測精度有所提升,驗證了本文所提出的算法對紅外圖像行人檢測的有效性。通過對比圖12(c)與圖13(c)可知,圖12(c)中只檢測出了5個行人目標,出現(xiàn)了漏檢的情況,而圖13(c)中檢測出了7個行人目標且檢測精度也有所提升。通過上述實驗結果表明,本文所提出的算法模型YOLOv5s-CSBS相比YOLOv5s算法模型在檢測精度上有所提高,同時解決了漏檢的問題,證明了改進模型的優(yōu)越性。
3結論
本文提出一種基于YOLOv5s改進的輕量化紅外圖像行人檢測算法YOLOv5s-CSBS,解決了YOLOv5s在紅外圖像行人檢測中存在的問題。首先,本文通過融合CA注意力機制,增加對行人的長距離檢測能力;其次,通過引入SimAM注意力機制,進一步提高模型對行人檢測精度;再次,基于加權雙向特征金字塔網(wǎng)絡重新構建了頸部網(wǎng)絡,增強網(wǎng)絡特征表達能力;最后,引入包含GSConv的Slim-Neck設計范式降低模型復雜性,進一步實現(xiàn)輕量化。實驗表明,與現(xiàn)有模型相比,改進后的YOLOv5s-CSBS在提高行人檢測精度的同時,實現(xiàn)模型的輕量化,滿足平衡檢測速度和檢測精度的要求,具有更好的實用價值。自前改進的算法對紅外圖像行人遮擋問題依然有改進的空間,下一步將針對紅外圖像行人的遮擋問題進行研究。
參考文獻:
[1]王清芳,胡傳平,李靜.面向交通場景的輕量級行人檢測算法[J].鄭州大學學報(理學版),2024(4):48-55.
[2]姜小強,陳騁,朱明亮.基于紅外傳感的視頻監(jiān)控行人檢測方法[J].煤炭技術,2022,41(10):223-225.
[3] ZHANG Y, ZHANG S, XIN D, et al. A small target pe-destrian detection model based on autonomous driving[J].Journal ofAdvanced Transportation,2O23(1):5349965.1-5349965.10.
[4]郭慶梅,劉寧波,王中訓,等.基于深度學習的目標檢測算法綜述[J].探測與控制學報,2023,45(6):10-20.
[5]章程軍,胡曉兵,牛洪超.基于改進YOLOv5的車輛目標檢測研究[J].四川大學學報(自然科學版),2022,59(5):79-87.
[6]WANG CY,BOCHKOVSKIYA,LIAO HY M. YOLOv7:trainable bag-of-freebies sets new state-of-the-art forreal-time object detectors[C]//Proceedings of the IEEE/CVFConference on Computer Vision and Pattern Recognition.Piscataway:IEEE,2023.
[7]GIRSHICKR,DONAHUEJ,DARRELLT,etal.Richfeature hierarchies for accurate objectdetection and se-mantic segmentation[C]//Proceedings of theIEEE Con-ference on Computer Visionand Pattern Recognition.Co-lumbus:IEEE,2014.
[8]GIRSHICK R.Fast R-CNN[C]//Proceedings of theIEEE International Conference on Computer Vision. Pis-cataway:IEEE,2015.
[9]RENSQ,HEK M,GIRSHICK R,et al.Faster R-CNN:towards real-time object detection with region pro-posal networks [J]. IEEE Transactions on Pattern Analy-sis and Machine Intelligence,2017,39(6):1137-1149.
[10]王程,劉元盛,劉圣杰.基于改進YOLOv4的小目標行人檢測算法[J].計算機工程,2023,49(2):296-302.
[11]李陽,趙娟,嚴運兵.基于改進型YoloV5s的熱紅外道路車輛及行人檢測方法[J].智能計算機與應用,2022,12(6): 33-38.
[12]代華,趙旭,李連鵬,等.基于改進YOLOv5的復雜背景紅外弱小目標檢測算法[J].紅外技術,2022,44(5): 504-512.
[13]胡焱,胡皓冰,趙宇航,等.紅外熱成像中低分辨率行人小目標檢測方法[J].紅外技術,2022,44(11):1146-1153.
[14]TANM,PANGR,LEQ.EfficientDet:scalable and ef-ficientobjectdetection[C]//IEEE/CVFConferenceonComputer Vision and Pattern Recognition(CVPR),Pis-cataway:IEEE,2020.
[15] LIN TY,DOLLAR P,GIRSHICK R,et al. Feature pyr-amidnetworksforobjectdetection[C]//Proceedingsof2017IEEE Conference on Computer Vision and PatternRecognition.Honolulu:IEEE,2017.
[16]LIU S,QI L,QIN H,et al. Path agregation network forinstance segmentation[C]//Procedings of the IEEE Con-ference on Computer Vision and Patern Recognition. SaltLake City:IEEE,2018.
[17]LIU S,QIL,QINH,etal.Path agregationnetwork forinstance segmentation [C]//Procedings of the IEEE Con-ference on Computer Visionand Patern Recognition.Pis-cataway:IEEE,2018.
[18]WOOS,PARKJ,LEEJY,etal.CBAM:convolution-al block attention module[C]//Proceedings of the 15thEuropean Conference on Computer Vision. Cham:Springer,2018.
[19]YANGL,ZHANG RY,LIL,et al. SimAM:asimple,parameterfree attention module for convolutional neuralnetworks[C]//International Conference on MachineLearning.New York:PMLR,2021.
(責任編輯:于慧梅)