蔡逢煌 張家翔 黃 捷
無人機憑借其高機動性已廣泛應用于各類遠距離或環(huán)境復雜的任務中.近年來,隨著深度學習的不斷發(fā)展,無人機目標檢測技術在城市交通、農(nóng)業(yè)監(jiān)測等領域取得重大突破[1].然而,無人機航拍圖像目標檢測技術面臨一系列特殊性挑戰(zhàn)[2]:視角和高度變化大、背景和環(huán)境復雜、數(shù)據(jù)處理規(guī)模大、實時性要求高等.由于目標在不同視角下可能呈現(xiàn)不同的外觀,導致目標的形狀、大小和特征在圖像中發(fā)生變化.并且無人機航拍的背景可能涉及復雜的環(huán)境,如密集的建筑物、樹木、車輛等.這種復雜的背景會使目標與周圍環(huán)境混淆,有時甚至會導致目標與背景融為一體,使檢測算法難以準確區(qū)分目標,導致誤檢或漏檢.因此需要更實時、準確的目標識別技術,為無人機的決策制定和行動執(zhí)行提供信息和數(shù)據(jù)支持[3].
目前常見的目標檢測算法主要包含:1)以YOLO(You Only Look Once)[4-5]、SSD(Single Shot Multi-Box Detector)[6]為代表的一階段目標檢測算法;2)以Faster R-CNN(Faster Region-Based Convolutional Neutral Network)[7]、Mask R-CNN(Mask Region-Based Convolutional Neutral Network)[8]為代表的二階段目標檢測算法.
相比一階段目標檢測算法,二階段目標檢測算法通常更復雜.因為它需要在第一階段生成候選框的基礎上進行第二階段的分類和位置回歸,涉及更多的網(wǎng)絡組件和計算步驟.并且由于需要進行兩個階段的處理,二階段目標檢測算法耗費計算資源更多、速度更慢.因此本文選擇一階段目標檢測算法中性能較優(yōu)的YOLOv5(YOLO Version 5)研究航拍目標檢測.
在目標檢測過程中,前向計算作為核心階段,直接影響檢測性能,尤其是對小目標的檢測效果.前向計算過程主要包括特征提取和特征融合兩部分.YOLO采用深度卷積網(wǎng)絡作為特征提取器,每個卷積層都執(zhí)行濾波操作,捕獲圖像中的不同特征,如邊緣、紋理、顏色等.此外,YOLO通過上采樣(Up-sam-pling)和特征級聯(lián)(Feature Concatenation)融合不同尺度的特征圖.通過加法、乘法、拼接等方式合并來自不同卷積層或網(wǎng)絡架構(gòu)的特征圖,獲得更豐富的信息以支持決策.并在YOLOv3(YOLO Version 3)[9]及以后的版本中采用一個特征金字塔網(wǎng)絡結(jié)構(gòu),整合來自不同分辨率的特征圖,每個特征圖都包含不同尺寸的目標信息,可更好地預測目標位置和類別.
雖然常用的目標檢測算法在COCO[10]、ImageNet[11]等數(shù)據(jù)集上表現(xiàn)優(yōu)異,但在背景復雜、小目標眾多的VisDrone[12]、UAVDT數(shù)據(jù)集上檢測性能較差.這是由于小目標通常具有較少的像素,因此包含的信息有限.常用的檢測模型難以從有限的像素中提取足夠的有用特征以準確檢測小目標.
因此,學者們提出各種針對小目標檢測的改進方法.Liu等[13]提出ALFNet(Asymptotic Localization Fitting Network),利用級聯(lián)網(wǎng)絡的思想,采用SSD作為框架,以ResNet-50作為基礎網(wǎng)絡,訓練多個定位模塊,不斷提高IoU(Intersection over Union)閾值以提升對小目標定位精度.Nayan等[14]針對小尺度目標在深層網(wǎng)絡中存在信息丟失的問題,提出一種實時檢測算法,采用上采樣和跳躍連接的方式,在學習任務中提取不同卷積級別上的多尺度特征,從而提升對小目標的檢測性能.Wang等[15]提出YOLO-D(YOLO-Based Detection Model),在YOLOv3的基礎上,建立CBAM(Convolutional Block Attention Mo-dule),增強模型對特征圖和上下文信息的使用,并將特征金字塔網(wǎng)絡替換為二次遞歸特征金字塔網(wǎng)絡,減少復雜背景帶來的影響,提高模型對海岸線附近航拍小目標的檢測性能.
然而各種改進方法往往致力于模型精度的提升,改進多采用增加網(wǎng)絡深度、引入更多參數(shù)等方式,使網(wǎng)絡復雜度提升,卻較少考慮對模型的輕量化處理及圖像淺層信息的應用[16-17].針對上述問題,本文提出基于圖像低維特征融合的航拍小目標檢測模型.引入CA(Coordinate Attention),改進MobileNetV3的反轉(zhuǎn)殘差塊,增加圖像空間維度信息的同時降低模型參數(shù)量.改進YOLOv5特征金字塔網(wǎng)絡結(jié)構(gòu),融合淺層網(wǎng)絡中的特征圖,增加模型對圖像低維有效信息的表達能力,進而提升對小目標檢測精度.同時為了降低航拍圖像中復雜背景帶來的干擾,引入無參平均注意力模塊,同時關注圖像的空間注意力與通道注意力;引入VariFocal Loss,降低負樣本在訓練過程中的權(quán)重占比.在VisDrone數(shù)據(jù)集上的實驗證實文中模型的有效性,該模型在有效提升檢測精度的同時明顯降低復雜度.
本文主要基于YOLOv5的網(wǎng)絡架構(gòu)進行研究,YOLOv5的主干網(wǎng)絡采用CSPDarknet53,這是一種改進的Darknet架構(gòu),結(jié)合CSPNet(Cross-Stage Par-tial Network)的思想,提高特征的表示能力.同時引入C3模塊,捕獲圖像中不同層次的特征,提取從低級到高級的語義信息.由于網(wǎng)絡結(jié)構(gòu)相對復雜,需要更多的計算資源,不利于模型的邊緣化部署,因此本文改進主干網(wǎng)絡的殘差結(jié)構(gòu),采用更輕量化的MobileNetV3[18]進行特征提取.
MobileNetV3是一種輕量級卷積神經(jīng)網(wǎng)絡架構(gòu),旨在計算資源受限的設備上實現(xiàn)高效的圖像識別任務.在MobileNetV3中引入倒殘差結(jié)構(gòu)(Inverted Residuals),通過一系列的卷積層和激活函數(shù)構(gòu)建網(wǎng)絡.
MobileNetV3倒殘差結(jié)構(gòu)如圖1所示.首先使用1×1卷積層擴展通道維度,豐富特征表達能力.然后在輸入和輸出之間使用深度可分離卷積層,深度可分離卷積的優(yōu)勢在于減少計算量和參數(shù)數(shù)量.在標準卷積中,每個卷積核在所有輸入通道上進行滑動操作,導致參數(shù)數(shù)量較多.而在深度可分離卷積中,首先進行深度卷積,每個輸入通道單獨應用一個卷積核,然后使用逐點卷積,將這些通道的輸出進行線性組合,從而減少參數(shù)量.同時由于深度卷積只進行空間上的卷積操作,未涉及跨通道的操作,因此相對標準卷積而言,計算量也大幅減少.并且逐點卷積是使用1×1的卷積核在通道維度上進行的,能在計算量相對較小的情況下促進不同通道之間的特征交互,提升特征的表達能力.最后,使用1×1卷積層將通道維度恢復到較小值,進一步減少模型的計算負載.
圖1 MobileNetV3倒殘差結(jié)構(gòu)
此外,MobileNetV3在倒殘差結(jié)構(gòu)中引入SE(Squeeze-and-Excitation)模塊,用于增強模型對輸入中特定區(qū)域的關注程度.如圖1虛線框內(nèi)所示,SE模塊的工作過程主要包括壓縮和激勵兩部分.首先,通過全局平均池化操作將特征圖在空間維度上進行壓縮,得到一個通道維度上的特征描述向量,然后通過一個小型的多層感知機結(jié)構(gòu),對特征描述向量進行學習,生成一個通道注意力權(quán)重向量.這個權(quán)重向量用于對原始特征圖中的每個通道進行加權(quán)求和,增強重要特征的表示能力.
由于SE模塊引入多層感知機結(jié)構(gòu),用于學習通道注意力權(quán)重,增加網(wǎng)絡的參數(shù)數(shù)量和計算量.同時SE模塊只在通道維度上對特征圖進行注意力加權(quán),忽略空間關系的建模,對于空間相關性較強的無人機航拍目標檢測任務不夠理想.
因此本文采用CA(Coordinate Attention)模塊[19]改進MobileNetV3中的SE模塊.如圖2所示,CA模塊通過兩個并行階段,將各通道上的輸入特征圖xc分別在寬度和高度方向進行全局平均池化操作,得到寬度和高度方向上的特征圖:
圖2 CA模塊結(jié)構(gòu)圖
將寬度和高度方向上的特征圖合并到同個維度后進行卷積和激活,獲得新的特征圖.將合并后的特征圖再次通過兩個并行階段,分離成寬度和高度方向的特征圖,然后利用1×1卷積調(diào)整通道數(shù)并應用sigmoid函數(shù)獲得注意力權(quán)重.這些權(quán)重經(jīng)過縮放和激活后,與原始特征圖逐通道相乘,以加權(quán)重要特征和抑制不重要特征,從而獲得具有空間注意力的特征圖.
相比SE模塊,CA模塊能同時關注通道和空間維度,幫助網(wǎng)絡捕捉無人機航拍圖像中的細微特征和局部信息,有助于對小尺寸目標或具有細微特征的目標進行更準確的檢測.通過在寬度和高度方向上分別計算注意力權(quán)重,更好地關注圖像中不同位置的特征,有助于提升模型的精確度和魯棒性.
本文重新構(gòu)建特征提取網(wǎng)絡,采用改進的MobileNetV3-CA殘差模塊以及由卷積層、批量歸一化和Hard Swish[18]激活函數(shù)構(gòu)成的Conv_BN_HSwish模塊,使網(wǎng)絡在保持高性能的同時有效降低參數(shù)量和計算量,存儲和部署更便捷,適合在資源受限的設備或網(wǎng)絡環(huán)境中使用.
由于無人機航拍視角和高度的特殊性,圖像中包含大量只占據(jù)整個圖像很小的一部分的目標[20],這類目標在圖像上的分辨率和尺度非常低,使目標的檢測和識別變得更困難.
為了進一步提高模型對無人機航拍目標的檢測性能,本文在MobileNetV3-CA模塊構(gòu)建特征提取網(wǎng)絡的基礎上,基于YOLOv5網(wǎng)絡架構(gòu)進行多尺度特征融合,改進后的網(wǎng)絡結(jié)構(gòu)如圖3所示.
圖3 改進后的網(wǎng)絡結(jié)構(gòu)
YOLOv5通過多尺度特征融合網(wǎng)絡整合不同層級的特征圖,使用一種特征金字塔結(jié)構(gòu)融合網(wǎng)絡底層到高層的特征,以此提供豐富的上下文信息和多尺度感知能力[21],并通過1/8、1/16、1/32三個比例尺度的檢測頭共同檢測不同尺度目標.
然而YOLO對航拍圖像中的大量小目標并不敏感,因為小目標通常具有較少的像素信息,在YOLO中經(jīng)過多次下采樣操作后丟失信息過多.深層網(wǎng)絡較大的感受野對小目標不敏感,而淺層網(wǎng)絡通常具有較小的感受野,可捕捉圖像中更細節(jié)化的信息.Zhu等[22]提出TPH-YOLO(Transformer Prediction Head YOLOv5),在YOLO中增加小目標檢測層,有效提高網(wǎng)絡對小目標的檢測能力,然而小目標檢測層的添加導致網(wǎng)絡復雜度和計算量增加,額外的上采樣操作使網(wǎng)絡丟失更多的細節(jié)信息.
因此本文改進YOLOv5網(wǎng)絡結(jié)構(gòu),減少網(wǎng)絡中的下采樣操作以減緩特征圖尺寸的下降速度.具體地,將主干網(wǎng)絡中最后一次步長為2的卷積操作修改為步長為1的卷積操作,并修改多尺度特征融合網(wǎng)絡結(jié)構(gòu),如圖3所示,在多尺度特征融合網(wǎng)絡中通過Concat模塊融合主干網(wǎng)絡中淺層特征圖信息,在保持網(wǎng)絡深度不變的情況下提高網(wǎng)絡獲取的特征圖尺度.本文在無人機航拍目標檢測數(shù)據(jù)集上的實驗發(fā)現(xiàn),當不斷降低YOLO中大尺度檢測頭及中尺度檢測頭獲取特征圖通道數(shù)時,對最終訓練好的模型精度并未產(chǎn)生較大影響,說明YOLO中的大尺度檢測頭甚至中尺度檢測頭在進行無人機航拍目標檢測時工作效率較低.而經(jīng)過本文對多尺度特征融合網(wǎng)絡的改進,原網(wǎng)絡中進行大、中、小三個尺度目標檢測的檢測頭現(xiàn)在將進行中、小、微小三個尺度的目標檢測,在提高網(wǎng)絡工作效率的同時使網(wǎng)絡能更好地捕捉小目標的細節(jié)信息.
網(wǎng)絡中下采樣操作的減少同時會導致網(wǎng)絡感受野的降低,可能會丟失一部分上下文信息.無人機航拍圖像中目標除了尺寸較小以外,還容易被復雜的背景干擾,如密集的建筑物、樹木、道路等,這些背景元素可能與小目標在顏色、紋理等方面相似.在某些場景中,小目標的分布還可能不均勻,可能會出現(xiàn)集中在某個區(qū)域的情況,這使目標檢測算法很難準確區(qū)分背景和小目標.
因此,本文引入PfAAM(Parameter-Free Average Attention Module)[23],增強目標的區(qū)分度,減少背景的干擾,提高目標檢測的準確性和定位精度.PfAAM包含空間注意力和通道注意力兩部分,空間注意力(Asp)與通道注意力(Ach)的計算公式如下:
其中xH×W、yC分別表示每個空間及通道上的元素.PfAAM的空間注意力部分沿輸入特征圖的每個通道進行平均計算,降低特征圖維度,生成特征圖的每個元素表示跨通道的平均值,從而突出高激活的空間區(qū)域并抑制低激活的空間區(qū)域.同理通道注意力部分沿特征圖的空間維度進行平均計算,突出檢測到特征的高激活值通道,抑制低激活通道帶來的影響,進一步增強網(wǎng)絡對特征的提取能力.
由于PfAAM僅基于輸入特征圖的平均計算改善網(wǎng)絡性能,因此并未引入其它可訓練參數(shù)或超參數(shù),符合本文對于網(wǎng)絡輕量化要求,通過實驗驗證,PfAAM可為航拍小目標檢測提供更好的性能.
IoU損失函數(shù)用于衡量預測的邊界框與實際目標邊界框之間的重疊度.IoU損失函數(shù)在訓練模型時起關鍵作用,有助于模型學習準確的邊界框位置.YOLOv5在訓練過程中采用CIoU(Complete IoU)損失函數(shù)衡量預測框和真實框之間的差異.相比傳統(tǒng)的IoU損失函數(shù),CIoU損失函數(shù)考慮預測框和真實框之間的位置偏移和尺寸偏移,能更準確地評估目標檢測的準確性.CIoU損失函數(shù)的公式如下:
其中,ρ2(b,bgt)為預測框與真實框之間的距離,v為兩框縱橫比影響因子,
wgt、hgt分別為真實框的寬和高,w、h分別為預測框的寬和高.然而當預測框與真實框的寬度和高度呈線性比例時,縱橫比影響因子v=0,此時縱橫比差異不會對回歸優(yōu)化產(chǎn)生影響,導致模型在優(yōu)化過程中無法充分學習并調(diào)整預測框的尺寸.因此本文采用EIoU(Efficient IoU)損失函數(shù)進行改進,并通過VariFocal Loss[24-25]機制聚焦優(yōu)質(zhì)錨框.EIoU的計算公式如下:
其中,cw、ch分別為預測框與真實框最小外接矩形的寬度和高度,即將CIoU中的縱橫比影響因子中寬度與高度分別進行計算,從而加快收斂速度,提升回歸精度.同時,由于航拍目標檢測中正負樣本不平衡,圖像中背景占大部分區(qū)域,導致訓練數(shù)據(jù)中負樣本數(shù)量過多.因此本文進一步引入VariFocal Loss,減少負樣本在計算損失過程中的貢獻,公式如下:
其中,p為IoU感知分類評分,q為目標得分,α為可調(diào)節(jié)的比例因子.由上式可見,VariFocal Loss減少負樣本(q=0)的損失貢獻,提升網(wǎng)絡訓練過程中對正樣本的敏感度.
本文選取VisDrone公開無人機目標檢測數(shù)據(jù)集[11]對模型進行訓練與測試.VisDrone數(shù)據(jù)集包含行人、人(非行走或站立狀態(tài))、自行車、汽車、貨車、卡車、三輪車、遮陽篷三輪車、公共汽車及摩托車共10類.訓練集包含6 471幅圖像,驗證集包含548幅圖像,測試集包含1 610幅圖像,均采用無人機平臺采集得到,小尺寸目標(小于32像素)眾多.VisDrone數(shù)據(jù)集上各實例的分布情況如圖4所示,YOLOv5s的混淆矩陣如圖5所示.
圖4 VisDrone數(shù)據(jù)集實例分布
圖5 YOLOv5s在VisDrone數(shù)據(jù)集上的混淆矩陣
從圖4和圖5可見,VisDrone數(shù)據(jù)集具有實例情況復雜、分布不均衡、類別混淆嚴重的特點,是一個十分具有挑戰(zhàn)性的數(shù)據(jù)集.
本文選取mAP@0.5與mAP@0.5∶0.95作為模型精度的評價指標,mAP@0.5指每個類別計算IoU閾值為0.5時的平均精度均值,而mAP@0.5∶0.95指每個類別計算IoU閾值為0.5到0.95之間步長為0.05的多個mAP平均值.mAP具體計算公式如下:
其中,P為精確率,R為召回率,AP為平均精度,TP為預測正確的正樣本,FP為預測錯誤的正樣本,FN為預測錯誤的負樣本.同時本文選取模型規(guī)模、模型參數(shù)量評價模型復雜程度.
本文模型訓練使用的操作系統(tǒng)為CentOS7,CPU為Intel Xeon Gold 6253CL@3.10 GHz,顯卡為Nvidia RTX 4090 24G,采用深度學習框架pytorch 2.0.1版本搭建模型,采用CUDA 12.0加速訓練.訓練過程中批次大小為16,初始學習率為0.01,訓練輪次為300,優(yōu)化器采用Adam,采用余弦退火算法調(diào)整學習率.
為了驗證本文選取MobileNetV3作為特征提取網(wǎng)絡的合理性與對MobileNetV3改進的有效性,選擇其它主流輕量化網(wǎng)絡模型在同等條件下進行對比實驗:YOLOv5s、MobileNetV3[18]、ShuffleNet V2[26]、GhostNet[27]、GSConv[28].
各模型對比實驗結(jié)果如表1所示.由表可見,ShuffleNetV2具有更少的參數(shù)量和計算量,但精度損失過大,不能達到本文對航拍目標檢測準確率的要求.GhostNet與GSConv性能相近,雖然平均精度高于MobileNetV3,但參數(shù)量與計算量下降較少,不能達到本文對網(wǎng)絡輕量化的要求.本文的研究目的在于提高網(wǎng)絡精度的同時對網(wǎng)絡進行輕量化處理.因此,選擇MobileNetV3作為新的主干網(wǎng)絡更符合本文平衡精度與輕量化的要求.同時,本文改進的MobileNetV3-CA的平均精度與模型復雜度均優(yōu)于MobileNetV3,可見本文對主干網(wǎng)絡的改進合理有效.
表1 各模型實驗結(jié)果對比
為了驗證本文提出的各個改進的有效性,以YOLOv5s為基線模型,在同等實驗條件下設計一組消融實驗,所有實驗均在VisDrone數(shù)據(jù)集上完成.
1)改進A.使用MobileNetV3-CA替換YOLOv5s的特征提取主干網(wǎng)絡.2)改進B.在改進A的基礎上,使用調(diào)整后的網(wǎng)絡結(jié)構(gòu)改進多尺度特征融合網(wǎng)絡.3)改進C.在網(wǎng)絡中引入PfAAM.4)改進D.使用VariFocal Loss替換CIoU損失函數(shù).
YOLOv5s添加不同改進后的消融實驗結(jié)果如表2所示.由表可見,使用改進的MobileNetV3-CA替換YOLOv5s主干網(wǎng)絡,雖然模型精度出現(xiàn)下降,但參數(shù)量和計算量均大幅減少.進一步改進模型網(wǎng)絡結(jié)構(gòu),使模型的平均精度提升9.6%,同時參數(shù)量也進一步下降,但計算量出現(xiàn)提升,這是因為網(wǎng)絡結(jié)構(gòu)的改進使網(wǎng)絡層數(shù)減少、深度降低,但同時導致網(wǎng)絡計算特征圖的尺度增加,從而影響計算量.PfAAM的引入和VariFocal Loss的改進均未帶來模型參數(shù)量和計算量的增加,分別使模型mAP@0.5提升0.9%和1.3%,表明引入PfAAM和VariFocal Loss的有效性.
本文模型和YOLOv5s的精度與定位損失曲線如圖6所示,由圖可見,本文模型對目標位置和大小的預測更準確,學習到更準確的邊界框信息.
(a)mAP@0.5 (b)定位損失(b)Positioning loss
總之,相比YOLOv5s,本文模型的mAP@0.5提升8.9%,參數(shù)量下降71.4%,計算量增加5.2 G.改進后模型精度與復雜度均得到有效改善,為模型在終端平臺的部署提供可行性.
為了進一步驗證本文模型的有效性,與當前主流一階段目標檢測算法及學者們針對VisDrone數(shù)據(jù)集的改進性YOLO進行對比.對比模型包括:SSD、YOLOv5s、TPH-YOLO[22]、YOLOv7-tiny[29]、YOLOv8n、YOLOv5sm+[30]、基于多尺度分割注意力的無人機航拍圖像目標檢測算法(Multi-scale Split Atten-tion-YOLO,MSA-YOLO)[31].
各模型在VisDrone數(shù)據(jù)集上的對比結(jié)果如表3所示.由表可見,相比YOLOv5s、YOLOv7-tiny、YO-LOv8n,本文模型雖然計算量分別提升5.2 G、7.7 G、12.9 G,但mAP@0.5分別提升8.9%、5.8%、9.6%,參數(shù)量分別下降71.4%、66.7%、33.3%,模型規(guī)模分別下降66.7%、61.0%、23.8%,具有檢測性能上的優(yōu)勢.
相比YOLOv5sm+、MSA-YOLO,本文模型的mAP@0.5分別提升5.7%、7.0%,計算量分別下降9.8 G、125.1 G.
相比目前針對VisDrone數(shù)據(jù)集的主流算法TPH-YOLO,本文模型的mAP@0.5提升2.5%,計算量下降238.0 G.由此可見,本文模型檢測性能整體上得到有效提高,更適合邊緣設備的部署.
為了對比本文模型與基線模型YOLOv5s的檢測效果,分別選取白天場景和夜晚場景的圖像進行檢測,結(jié)果如圖7所示.由圖可見,本文模型的漏檢率明顯減少,如(b1)左下方的黑色摩托車,在夜晚場景下特征模糊、邊界不清晰,導致YOLOv5s無法對其檢測.但在(b2)中可見,本文模型成功檢測到此目標,同時目標的檢測精度也普遍高于YOLOv5s,整體檢測效果得到有效提升,這進一步驗證本文模型的有效性.
(a1)YOLOv5s (a2)本文模型(a2)The proposed model
為了提高航拍目標檢測任務的準確性,為航拍目標檢測模型的邊緣化部署提供參考,本文提出基于圖像低維特征融合的航拍小目標檢測模型.設計MobileNetV3-CA殘差模塊,構(gòu)建特征提取骨干網(wǎng)絡,在保持網(wǎng)絡高性能的情況下減少網(wǎng)絡中不必要的參數(shù).調(diào)整網(wǎng)絡結(jié)構(gòu),改善網(wǎng)絡深度,降低網(wǎng)絡感受野,提高網(wǎng)絡對航拍圖像中大量小尺度目標的檢測能力.引入PfAAM,提高模型的魯棒性和定位精度,并使用VariFocal Loss,平衡負樣本對網(wǎng)絡訓練的不利影響,提高網(wǎng)絡泛化能力.在經(jīng)典航拍目標檢測數(shù)據(jù)集VisDrone上的實驗表明,本文模型具有較高的平均精度和較少的參數(shù)量.下一步工作的重點是對多尺度特征融合網(wǎng)絡中標準卷積模塊和C3模塊的改進,降低由于網(wǎng)絡中特征圖尺度增加帶來的模型計算量的提升.