張國生,馮 廣,李 東
(廣東工業(yè)大學(xué) 自動化學(xué)院,廣東 廣州 510006)
目標檢測是計算機視覺研究中的一項基礎(chǔ)性任務(wù),隨著近些年遙感技術(shù)和無人機巡航技術(shù)的快速發(fā)展,航空影像中的目標檢測也逐漸成為一項特定且極具挑戰(zhàn)的任務(wù)。由于復(fù)雜多變的視角,航空影像中的目標通常呈現(xiàn)出擁擠、聚集及旋轉(zhuǎn)等特點,對比于普通場景具有更高的檢測復(fù)雜度。相關(guān)研究[1]表明,用水平邊框來表示密集的旋轉(zhuǎn)目標,通常會覆蓋過多的背景或相鄰的目標區(qū)域,如圖1(a)和圖1(b)所示。然而,傳統(tǒng)目標檢測旨在檢測目標的水平邊框,并不能契合航空影像中的旋轉(zhuǎn)目標,因此面向航空影像的旋轉(zhuǎn)目標檢測也成為一個研究熱點。
傳統(tǒng)目標檢測方法可分為單階段和雙階段方法,雙階段方法能實現(xiàn)更高的檢測性能但需要更大的計算復(fù)雜度,而單階段方法雖然性能次之,但檢測速度更快,易于實現(xiàn)實時檢測。雙階段方法可以總結(jié)為RCNN(Regions with CNN Features)系列,第一階段生成一系列區(qū)域提案(Region Proposal),然后送入第二階段的分類和回歸網(wǎng)絡(luò)。例如,F(xiàn)ast RCNN[2]在特征圖上提取RoI (Region of Interest)來減小計算量;Faster RCNN[3]提出區(qū)域提案網(wǎng)絡(luò)(Region Proposal Network,RPN)和錨框(Anchor)機制進一步提高檢測效率和性能;Mask RCNN[4]用RoIAlign替換RoIPooling來解決邊框的量化誤差。不同于雙階段方法,單階段方法省略第一階段的提案網(wǎng)絡(luò),直接進行區(qū)域的分類和回歸。經(jīng)典的單階段方法包括有YOLO算法[5],將檢測問題直接轉(zhuǎn)化為分類和回歸問題,實現(xiàn)單階段實時檢測并得以實際應(yīng)用[6],但由于其稀疏監(jiān)督,對小目標檢測并不友好;RetinaNet算法[7]提出Focal Loss來解決單階段訓(xùn)練過程中正負樣本不平衡問題,在樣本極端不平衡情況下,依然有所局限。最近單階段方法嘗試利用檢測關(guān)鍵點的策略來實現(xiàn)目標檢測,并實現(xiàn)了能與雙階段方法媲美的檢測性能,如CenterNet[8]通過檢測目標的中心點,然后進一步在中心點處回歸邊框來實現(xiàn)單階段無錨框檢測,得益于其思路簡單與對小目標檢測友好等特點,逐漸成為一個熱點研究。
受益于傳統(tǒng)目標檢測算法,航空影像旋轉(zhuǎn)目標檢測也得到了相應(yīng)的研究進展。Ding等[9]在Faster RCNN基礎(chǔ)上提出RoI Transformer來回歸水平RoI和旋轉(zhuǎn)RoI的偏移,實現(xiàn)旋轉(zhuǎn)目標檢測;SCRDet[10]利用多維注意力機制(像素注意力和通道注意力)來應(yīng)對航空影像的復(fù)雜背景,并設(shè)計了IoU損失函數(shù)來進一步提升旋轉(zhuǎn)目標檢測的性能;Xu等[11]在水平邊框檢測基礎(chǔ)上,提出Gliding vertex的方法,通過回歸頂點在邊框方向的偏移比例實現(xiàn)旋轉(zhuǎn)目標檢測。雖然以上方法能實現(xiàn)不錯的性能,但是它們都是基于雙階段網(wǎng)絡(luò)的方法,需要更大計算代價,不利于實際應(yīng)用。為此,單階段的方法開始嘗試。RSDet提出了旋轉(zhuǎn)敏感度誤差(Rotation Sensitivity Error,RSE)的概念,針對性地設(shè)計了調(diào)制旋轉(zhuǎn)損失函數(shù),有效緩解角度所帶來的旋轉(zhuǎn)敏感度誤差問題[12];R3Net提出了可旋轉(zhuǎn)的區(qū)域提案網(wǎng)絡(luò),通過在特征圖上裁剪旋轉(zhuǎn)邊框區(qū)域來生成旋轉(zhuǎn)的RoI[13],以上2個單階段的方法基于單階段RetinaNet方法,依賴于對錨框的設(shè)計,在密集的小目標檢測問題上效果欠佳。DRN嘗試無錨框的檢測網(wǎng)絡(luò)的設(shè)計,在CenterNet的基礎(chǔ)上額外增加一個角度變量進行回歸,然而忽略了角度的周期性特點[14]。綜上所述,以上方法的不足可以總結(jié)為2點。(1) 在基于錨框的方法中,額外的角度變量意味著需要設(shè)計不同角度、尺度和寬長比的錨框,極大增加了錨框數(shù)量,提高模型計算復(fù)雜度,對于單階段方法,更多錨框則會帶來更嚴重的正負樣本不平衡問題。(2) 如圖1(c)所示,角度θ為矩形框長邊與水平的夾角,(x,y)為矩形框中心點坐標,h和w分別為矩形框的高和寬,角度變量具有周期性。在周期臨界點0和π 具有相似的幾何外觀,但回歸變量卻發(fā)生突變,臨界點的突變導(dǎo)致代價函數(shù)不連續(xù)[14],網(wǎng)絡(luò)訓(xùn)練不穩(wěn)定。
針對以上問題,本文提出了旋轉(zhuǎn)目標,基于關(guān)鍵點檢測的方法設(shè)計了單階段無錨框的旋轉(zhuǎn)目標檢測網(wǎng)絡(luò)。如圖1(d)所示,該網(wǎng)絡(luò)將旋轉(zhuǎn)目標表示為中心點和4個角點構(gòu)成的姿態(tài),通過檢測目標的中心點位置及回歸4個角點相對坐標來實現(xiàn)旋轉(zhuǎn)目標的檢測?;陉P(guān)鍵點的單階段無錨框網(wǎng)絡(luò)有效降低模型計算復(fù)雜度,而旋轉(zhuǎn)目標的姿態(tài)表示則巧妙避開周期性角度變量RSE[12]問題。為了進一步提高網(wǎng)絡(luò)性能和訓(xùn)練效率,提出了選擇性采樣來平衡訓(xùn)練樣本前景和背景的比例,緩解正負樣本不平衡問題。本文提出基于姿態(tài)表示的航空影像旋轉(zhuǎn)目標檢測網(wǎng)絡(luò),主要貢獻如下。
圖1 旋轉(zhuǎn)目標的表示方法Fig.1 Representation of oriented object
(1) 提出姿態(tài)表示的方法,將旋轉(zhuǎn)目標表示為中心點和4個頂點構(gòu)成的不同姿態(tài),有效避免周期性角度變量回歸問題,且能實現(xiàn)無錨框檢測。
(2) 使用了改進的自適應(yīng)融合的特征金字塔網(wǎng)絡(luò)(Adaptive Feature Pyramid Network,AFPN),利用可學(xué)習(xí)權(quán)重對不同尺度特征進行加權(quán)融合,以數(shù)據(jù)驅(qū)動的方式使網(wǎng)絡(luò)自動選擇更具判別性的尺度特征。
(3) 針對高分辨率的航空影像,提出選擇性采樣(Selective Sample,SS)策略,有效提高網(wǎng)絡(luò)的訓(xùn)練效率,同時緩解了訓(xùn)練過程中正負樣本不平衡問題,提高了模型的整體性能。
本文提出的旋轉(zhuǎn)目標檢測網(wǎng)絡(luò)整體結(jié)構(gòu)如圖2所示,首先利用HRNet[15]多路并行的高低分辨率分支網(wǎng)絡(luò)對圖像進行多尺度特征提取,相較于高-低-高的特征網(wǎng)絡(luò)能避免低-高上采樣過程空間信息的損失,保留更完整的空間信息,這將有效提高下游網(wǎng)絡(luò)對目標中心的定位的精度。然后設(shè)計了自適應(yīng)融合的特征金字塔網(wǎng)絡(luò),自底向上對高層語義特征不斷進行加權(quán)融合,得到了自適應(yīng)融合特征。最后2個分支網(wǎng)絡(luò)是本文提出的姿態(tài)表示的旋轉(zhuǎn)目標檢測網(wǎng)絡(luò),上分支用于目標中心的定位,下分支根據(jù)上分支定位中心進行回歸頂點偏移,從而實現(xiàn)旋轉(zhuǎn)目標的檢測。
圖2 本文網(wǎng)絡(luò)整體結(jié)構(gòu)Fig.2 The overview of proposed network
如圖1(c)所示,基于水平邊框和額外角度變量表示的方法會帶來周期臨界點混淆問題,即角度變量θ在0和π 具有相似的幾何外觀,但卻要求回歸不一致的角度值,所以難以直接進行線性回歸。本文提出利用絕對的中心坐標加相對的4個頂點坐標構(gòu)造的姿態(tài)圖來表示旋轉(zhuǎn)目標,巧妙避開了周期性角度變量。給定旋轉(zhuǎn)目標頂點的絕對像素坐標{ (xi,yi)|i=1,2,···,k},k為目標頂點數(shù)量。當目標為四邊形時k=4。為了統(tǒng)一表示旋轉(zhuǎn)目標絕對位置坐標,本方法額外計算目標的中心點,根據(jù)外接水平矩形的中心點來表示姿態(tài)的絕對位置,并以此作為每個旋轉(zhuǎn)目標頂點的參考坐標系原點,計算為
因此,如圖1(d)所示,根據(jù)中心點坐標,可以得到每個頂點的相對坐標,旋轉(zhuǎn)目標的姿態(tài)表示為pose=(v1,v2,v3,v4,p) ,其中vi=(xi-px,yi-py)。
如圖2所示,本文設(shè)計的姿態(tài)表示的旋轉(zhuǎn)目標檢測網(wǎng)絡(luò)包括中心點定位分支網(wǎng)絡(luò)和偏移回歸分支網(wǎng)絡(luò),前者輸出每個類別0~1分布的熱圖估計值Y? ∈[0,1]WHC,其中W,H,C分別表示熱圖的寬、高和類別數(shù)量。Yxyc=1表 示對應(yīng)位置為目標中心,Yxyc=0表示背景。定位分支網(wǎng)絡(luò)利用訓(xùn)練標簽得到的標簽熱圖Y∈[0,1]W×H×C進行監(jiān)督訓(xùn)練,使定位分支網(wǎng)絡(luò)實現(xiàn)中心的定位預(yù)測,其中標簽熱圖中的每個點由二維高斯圖和標簽中心計算得到,如式(2)、(3)所示。
其中 σ2p是與目標尺寸相關(guān)的標準差,Yxyc為Y的分量,同時原素圖像坐標會根據(jù)網(wǎng)絡(luò)的下采樣率d進行相應(yīng)縮放。最后利用改進的Focal Loss進行定位分支網(wǎng)絡(luò)的訓(xùn)練,代價函數(shù)Lcenter為
其中γ 為Focal Loss的超參數(shù),Y?xyc為Y?的分量,超參數(shù)α用于控制中心點附近的懲罰力度,T為目標總數(shù)量,本文實驗采用和CenterNet相同的設(shè)置, α =4,γ=2。Lregress為
最終本方法將2個分支網(wǎng)絡(luò)代價函數(shù)進行加權(quán)得到整體網(wǎng)絡(luò)的代價函數(shù)L為
其中 λregress回歸分支網(wǎng)絡(luò)代價函數(shù)的權(quán)重超參數(shù),本文實驗中設(shè)置 λregress=0.1。旋轉(zhuǎn)目標檢測網(wǎng)絡(luò)的2個分支網(wǎng)絡(luò)均由3 ×3的卷積層和ReLu函數(shù)構(gòu)成。
本方法利用HRNet作為特征提取網(wǎng)絡(luò),輸出多個不同分辨率且不同尺度的特征 {Fi|i=1,2,···,k},其中HRNet中k=4。深度網(wǎng)絡(luò)學(xué)習(xí)過程中,不同網(wǎng)絡(luò)深度的特征具有不同的感受野,淺層高分辨率特征偏向于學(xué)習(xí)低層次的紋理特征,而深層高寬度特征偏向于學(xué)習(xí)高層次語義特征,所以應(yīng)對尺度不一的目標檢測任務(wù)一般需要進行多尺度特征融合。傳統(tǒng)的特征金字塔網(wǎng)絡(luò)FPN[16]對低分辨率特征進行上采樣然后直接進行一致性相加融合。區(qū)別于一致性相加融合,本文提出假設(shè),認為不同尺度特征對融合特征具有不同的貢獻度,因此采用數(shù)據(jù)驅(qū)動的方式,使網(wǎng)絡(luò)在學(xué)習(xí)過程中利用可學(xué)習(xí)權(quán)重 βi∈[0,1]動態(tài)地學(xué)習(xí)不同尺度特征的重要性,自底向上對不同尺度特征進行加權(quán)融合,融合策略如式(8)。
其中U(·)表 示雙線性插值的上采樣操作,Mi為第i個融合特征,C onv(·)為卷積1×1操作。值得注意的是,當將可學(xué)習(xí)權(quán)重設(shè)置為常數(shù)0.5時,本文提出的自適應(yīng)特征金字塔網(wǎng)絡(luò)可以退化為一般形式的特征金字塔網(wǎng)絡(luò),可見本文提出的自適應(yīng)融合的特征金字塔網(wǎng)絡(luò)具有一般化特點。
為了推導(dǎo)采樣總數(shù)與上限重疊度m的關(guān)系,已知
將式(11)代入式(9)可得
圖3 滑動窗口均勻采樣Fig.3 Evenly sampling by sliding window
由此可見,這樣的滑動窗口均勻采樣策略會給網(wǎng)絡(luò)訓(xùn)練帶來2個問題。
(1) 如圖4所示,當滑動步長很小 (上限重疊度很大)時,滑動窗口采樣會得到大量的圖像塊,且其中大多數(shù)不包含任何目標,降低了網(wǎng)絡(luò)訓(xùn)練效率。
(2) 均勻樣策略生成大量包含極少目標的圖像塊,這些圖像塊大部分像素為背景,這會給前景背景分類網(wǎng)絡(luò)訓(xùn)練帶來正負樣本不平衡問題。
雖然本方法采用了Focal Loss來解決前景背景網(wǎng)絡(luò)正負樣本不均衡問題,但若訓(xùn)練樣本正負比例嚴重不平衡時效果也是有限的。因此,本文從原始訓(xùn)練數(shù)據(jù)的采樣策略著手,創(chuàng)新性地設(shè)計了選擇性采樣策略,根據(jù)訓(xùn)練樣本提供的標簽來提供選擇依據(jù)。具體算法流程如圖5所示,給定輸入?yún)?shù),首先同樣采用滑動窗口的形式生成一系列采樣候選區(qū)域,然后根據(jù)采樣候選區(qū)域中的標簽邊框總面積來為每個采樣候選區(qū)域設(shè)定分數(shù),最后根據(jù)給定的分數(shù)對所有采樣候選區(qū)域進行非極大值抑制(Non-Maximum Suppression,NMS),選取高分數(shù)的采樣候選區(qū)域作為最終的訓(xùn)練圖像塊。為了定量衡量采樣結(jié)果,定義了采樣區(qū)域的目標占有率 ρ來刻畫訓(xùn)練正負樣本比例,即采樣區(qū)域前景所占有像素面積的比例為
圖5 選擇性采樣算法流程圖Fig.5 Flow chart of selective sampling
其中D為采樣圖像塊的總數(shù),Di為 第i個采樣圖像塊Pi內(nèi)標簽邊框數(shù)量,Bj為 第j個邊框,a rea(·)為計算給定區(qū)域像素面積函數(shù)。如圖4所示,滑動窗口均勻采樣策略無論采樣密度(滑動步長或上限重疊度)多大,采樣區(qū)域目標占有率幾乎不變,這是因為均勻采樣等價于隨機抽樣過程,所以采樣區(qū)域目標占有率會等于原圖像的目標占有率。相反,選擇性采樣策略根據(jù)樣本的真實標簽進行選擇性采樣,可以通過調(diào)節(jié)采樣上限重疊度,得到更高的目標占有率,從而有效緩解訓(xùn)練樣本正負比例不均衡問題。
圖4 采樣方法對比Fig.4 Comparison of sampling methods
為了充分驗證方法的有效性,本文選用了2個航空影像數(shù)據(jù)集:遙感圖像數(shù)據(jù)集DOTA[1]和無人機航拍數(shù)據(jù)集VisDrone[17]進行實驗。
DOTA是航空影像目標檢測的基準數(shù)據(jù)集,包括有2 806張高分辨率遙感圖像(訓(xùn)練集有1 409張,驗證集548張,測試集有942張),高分辨率最大可達5 000 ×12 000。數(shù)據(jù)集有15個目標類別(類別簡稱對應(yīng):飛機-PL,棒球場-BD,田徑場-GTF,小型車-SV,大型車-LV,船舶-SH,網(wǎng)球場-TC,籃球場-BC,存儲罐-ST,足球場-SBF,環(huán)形路-RA,港口-HA,泳池-SP,直升機-HC),總共有188 282個標注實例,每個標注實例均為旋轉(zhuǎn)的四邊形。之前非姿態(tài)表示的方法均為假設(shè)四邊形為矩形,這個近似假設(shè)也會帶來精度損失。使用了選擇性采樣策略之后,在上限重疊度0.36下總共得到12 964個1 024 ×1 024圖像塊作為訓(xùn)練樣本。另外數(shù)據(jù)集的度量標準是采用經(jīng)典通用目標檢測數(shù)據(jù)集PASCAL VOC[18]一樣的度量標準。
VisDrone是一個大型的無人機航拍數(shù)據(jù)集,包括有10 209張航拍圖像(訓(xùn)練集6 471張,驗證集548張,測試集3 190張),航拍圖像目標高度擁擠和密集,總共包括有約46萬標注實例,甚至超過通用目標檢測基準數(shù)據(jù)集MS COCO數(shù)據(jù)集[19]。標注類別包括有行人車輛等10類。度量標準采用了MS COCO數(shù)據(jù)集計算平均精度(mean Average Precision, mAP)的標準,同時計算重疊閾值分別為50和75的精度(Average Precision, AP)AP50和AP75。
本文實驗的實現(xiàn)配置包括Python編程語言、PyTorch深度學(xué)習(xí)框架、單塊NVIDIA Tesla V100 32 GB GPU。對于采樣區(qū)域尺寸,DOTA(VisDrone)數(shù)據(jù)集圖像裁剪成1 024 ×1 024 (1 024 ×768)的圖像塊,網(wǎng)絡(luò)訓(xùn)練和測試時,為了減小計算量,進一步下采樣到768 ×768 (1 024× 768)大小。由于測試集沒有標簽,所以本文采用了512步長的滑動窗口均勻采樣的策略,最后將每個圖像塊的檢測結(jié)果合并到原來圖像上。網(wǎng)絡(luò)訓(xùn)練使用的數(shù)據(jù)增強包括隨機裁剪、隨機翻轉(zhuǎn)、隨機旋轉(zhuǎn)以及隨機對比度增強。本文骨架網(wǎng)絡(luò)HRNet加載了ImageNet預(yù)訓(xùn)練的權(quán)重,優(yōu)化器選擇了Adam優(yōu)化器,且總共迭代了8萬次,學(xué)習(xí)率開始設(shè)置為10-4,在4萬次迭代之后下降為原來的10%。最后本文將測試集檢測結(jié)果提交到數(shù)據(jù)集官方評測服務(wù)器進行評測,得到最終實驗結(jié)果。
本節(jié)將對所提方法在2個航空影像數(shù)據(jù)集的實驗結(jié)果進行對比分析,通過與現(xiàn)有方法對比發(fā)現(xiàn),所提的選擇目標檢測網(wǎng)絡(luò)實現(xiàn)了優(yōu)異性能。
表1展示了在DOTA數(shù)據(jù)集檢測的各類別詳細結(jié)果,本文方法平均精度達到74.9%,超過了現(xiàn)有大部分一階段方法及部分二階段的方法。同時可以發(fā)現(xiàn)本文方法在擁擠、聚集的類別上,如車輛、船舶等取得最佳檢測效果,這充分說明本文設(shè)計的基于關(guān)鍵點無錨框的方法能有效避免因錨框分布密度不足導(dǎo)致密集小目標漏檢的問題,證明了本方法對擁擠、聚集小目標檢測的友好性。值得強調(diào)的是,在直升機類別檢測中,雖然其樣本數(shù)量在整個訓(xùn)練樣本中最少,即處于嚴重類別不平衡情況,但本文方法依然能取得最好的檢測精度,說明其能很好應(yīng)對類別不平衡問題。
表1 DOTA 數(shù)據(jù)集檢測結(jié)果Table 1 Detection results on DOTA dataset %
如表2所示,在VisDrone數(shù)據(jù)集檢測中,本文方法在驗證集上平均精度達到33.81% 。本文實驗將VisDrone數(shù)據(jù)集標簽水平邊框視為特殊的旋轉(zhuǎn)四邊形(旋轉(zhuǎn)角均為0°),實驗結(jié)果也充分說明了本文方法在通用的航拍影像中也能實現(xiàn)極佳的檢測效果。圖6展示了在擁擠、旋轉(zhuǎn)等復(fù)雜場景下的檢測效果。
圖6 檢測結(jié)果可視化Fig.6 Visualization of Detection results
表2 VisDrone 數(shù)據(jù)集檢測結(jié)果Table 2 Detection results on VisDrone dataset %
為了驗證本文每個技術(shù)策略,在DOTA驗證集上做的一系列消融實驗,如表3所示,打勾代表使用了該方法,實驗結(jié)果證明了每個方法的有效性。
表3 消融分析實驗結(jié)果Table 3 Results of ablation studies
(1) 自適應(yīng)融合特征金字塔網(wǎng)絡(luò)(AFPN)。本文通過增加可學(xué)習(xí)的權(quán)重,將傳統(tǒng)的特征金字塔網(wǎng)絡(luò)改進為一般化形式,利用可學(xué)習(xí)權(quán)重,使融合網(wǎng)絡(luò)能夠動態(tài)地學(xué)習(xí)不同尺度特征的重要性。同時,融合特征在進行1× 1卷積之前根據(jù)式(3)進行歸一化。為了對比分析,先使用傳統(tǒng)金字塔特征網(wǎng)絡(luò)作為基準模型進行使用,然后再使用改進的自適應(yīng)特征圖融合網(wǎng)絡(luò)進行實驗,如表3所示,mAP從71.57% 提升到72.87%。為了進一步驗證,本文將自適應(yīng)特征融合網(wǎng)絡(luò)的學(xué)習(xí)權(quán)重重置為0.5,實驗發(fā)現(xiàn)性能有嚴重下降,這說明了不同尺度的特征對融合特征具有不同的貢獻度,學(xué)習(xí)到的權(quán)重能自動引導(dǎo)融合網(wǎng)絡(luò)選擇更具判別性的尺度特征。
(2) 選擇性采樣(Selective Sample)。本文選用滑動窗口均勻采樣策略作為對比基準,如表3所示,在使用選擇性采樣策略之后,網(wǎng)絡(luò)的整體檢測平均精度提升2.07%,結(jié)合自適應(yīng)特征融合網(wǎng)絡(luò)后,最終在驗證集上平均精度達到75.17%。同時,為了進一步驗證方法的有效性,本文通過開源代碼復(fù)現(xiàn)了R3Det的方法,在僅增加選擇性采樣策略之后,網(wǎng)絡(luò)檢測的平均精度提高了0.80%,說明選擇性采樣策略能無代價提升模型性能。
本文提出了一種單階段無錨框的航空影像旋轉(zhuǎn)目標檢測網(wǎng)絡(luò)。為了解決周期性旋轉(zhuǎn)角度難以表示問題,提出了旋轉(zhuǎn)目標姿態(tài)表示的方法,將旋轉(zhuǎn)目標視為一個中心點和4個頂點構(gòu)成的不同姿態(tài)。同時,本文創(chuàng)新性地使用了自適應(yīng)特征融合網(wǎng)絡(luò),能夠自動地選擇更具判別性的尺度特征。為了進一步提升網(wǎng)絡(luò)的訓(xùn)練效率和性能,提出了選擇性采樣策略。對比實驗證明了本文方法能有效實現(xiàn)良好的檢測效果。但在實驗中發(fā)現(xiàn)本方法在大尺度目標檢測上效果欠佳,通過分析認為是由于缺少錨框提供先驗信息,對頂點偏移的回歸存在較大誤差,特別是對大目標的回歸,因此在未來工作中,將進一步思考能否結(jié)合關(guān)鍵點和錨框來提升大尺度目標的檢測效果。