• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      一種傾斜矩形范圍框標注方式及遙感目標檢測應(yīng)用分析

      2021-03-31 09:25:34宋文龍劉宏潔
      關(guān)鍵詞:頂點像素向量

      宋文龍,唐 銳,楊 昆,劉宏潔

      (1.中國水利水電科學(xué)研究院 水利部防洪抗旱減災(zāi)工程技術(shù)研究中心,北京 100038;2.北京天地智繪科技有限公司, 北京 100192)

      1 研究背景

      卷積神經(jīng)網(wǎng)絡(luò)方法(CNN)使得目標檢測工作取得巨大進展[1-5],但是早期提出的基于正框(指邊平行于圖像像素行和列的矩形范圍框)的模型在檢測朝向各異、密集排布的目標時效果退化嚴重[6-9]。其主要原因是用正框圈定傾斜目標時不同實例間的交并比大,對訓(xùn)練時正例的選取以及檢測結(jié)果的極大值抑制產(chǎn)生了消極影響。朝向各異、密集排布目標在遙感影像上非常普遍,解決此類目標檢測問題具有重要意義,發(fā)展出了多種不同的傾斜范圍框(斜框)標注方式及CNN模型。

      最常用的斜框標注方式是在正框的基礎(chǔ)上加一個旋轉(zhuǎn)角度θ,其代數(shù)表示為(xc,yc,w,h,θ) ,其中(xc,yc)表示范圍框中心點坐標,(w,h)表示范圍框的寬和高[1-4]。對于該標注方式,如果將w和h的值互換,再將θ加上或者減去2kπ+π 2,就能夠表示同一個范圍框。由于同一個范圍框有多種不同的數(shù)值表示,會導(dǎo)致近似范圍框之間的數(shù)值差異有大大小小多種情況[10]。如果近似范圍框之間的數(shù)值差異大,對于基于監(jiān)督分類的方法來說,就是損失函數(shù)的取值異常[10-15],不利于模型訓(xùn)練。此標注方式還有一種變形,標注正框時不是記錄寬和高,而是記錄中心點到四邊的距離[11],但同樣會有損失異常的問題。

      記錄四個頂點的坐標也可以用于標注斜框。武大夏桂松和華科白翔團隊制作的DOTA[6]數(shù)據(jù)集以及中國科學(xué)院大學(xué)模式識別與智能系統(tǒng)開發(fā)實驗室標注的UCAS-AOD[11]數(shù)據(jù)集就采用了這種標注方式。由于可以從四個頂點中的任意一個開始記錄,此標注方式導(dǎo)致同一個范圍框有多種不同的數(shù)值表示,進而會導(dǎo)致?lián)p失異常,增加回歸難度,不利于模型訓(xùn)練。避免損失異常的現(xiàn)行方式是按照坐標值排序頂點,然后計算對應(yīng)坐標點之間的差異,這種處理方式存在的問題是對坐標值排序會改變數(shù)值維度間的對應(yīng)關(guān)系[15-16],在某次損失計算過程中預(yù)測向量的第一維對應(yīng)真值向量的第二維,在另外一次損失計算過程中第一維可能對應(yīng)第三維,這種對應(yīng)關(guān)系的隨機性同樣不利于模型訓(xùn)練。記錄四個頂點坐標的好處是可以表示任意四邊形,但是在表示矩形時會有三個冗余量。一種去除冗余的方式是按順時針順序記錄矩形四個頂點中的前兩個和第二個頂點到第三個頂點的距離[13],但是同樣會出現(xiàn)一個范圍框有多種不同的數(shù)值表示。

      還有一種斜框標注方式是記錄斜框的外接正框以及斜框四個頂點與正框四個頂點順時針方向的偏移量[17]。該標注方式同樣可以表示任意四邊形,如果只記錄斜框兩個頂點與正框兩個頂點順時針方向的偏移量就只能表示矩形框[18]。目前沒有用該標注方式標注樣本的,而是用于先預(yù)測正框再進一步預(yù)測真實的斜框,在預(yù)測正框時將錨點框向斜框的外接正框回歸。但是要想斜框預(yù)測得準確就要求正框也得預(yù)測準確,增加了預(yù)測目標數(shù)量,也就增加了回歸難度,同樣不利于模型訓(xùn)練。

      本文提出一種新的矩形斜框標注方式,可以用作樣本標注和模型的回歸目標。該標注方式?jīng)]有冗余量,同一個范圍框只有一種數(shù)值表示,作為回歸目標時不會出現(xiàn)損失異常,有利于模型訓(xùn)練。將此標注方式與多種其他傾斜范圍框標注方式在遙感影像目標檢測任務(wù)上進行效果對比,分析在朝向任意、密集排布的目標檢測工作中的適用性。

      2 一種傾斜矩形范圍框標注方式的提出

      2.1 標注方式 本文提出的斜框標注方式用于標注的量有“中心點C的坐標、中心點到任意一個頂點D的向量、C到D的一個相鄰頂點E的向量上的投影向量與 CD的比例系數(shù)”,代數(shù)表示為(xc,yc,u,v,ρ),其中(xc,yc)為中心點C的坐標,(u ,v )為向量的坐標, ρ為向量的比例系數(shù)。

      圖1中黑實線表示傾斜范圍框,X表示圖像行方向上的坐標軸,Y表示圖像列方向上的坐標軸,C表示范圍框的中心點,D、E為范圍框的某兩個頂點,P為上的投影點。

      圖1 用于標注范圍框的量

      如此一來,同一個范圍框只有兩種數(shù)值表示。也就是說,將向量CD取反,但保持其它值不變,仍然表示同一個范圍框。由于同一個范圍框的兩種表示之間只有向量是相反的,可以引入一個量s表示的兩個分量是同正負的還是一正一負的(后文將稱之為同號或異號,可見s只有兩種取值),那么可以用(| u |,|v |,s) 表 示和。同號時,分別為(|u |,|v | )和(- |u|,-|v | );異號時,和分別為(- |u|,|v|)和(| u |,-|v | )。此時就可以將同一個范圍框的數(shù)值表示減少到一個,其代數(shù)表示為(xc,yc, |u|,|v|,s,ρ)。

      2.2 求解頂點坐標和邊長 在給定標注數(shù)值(xc,yc, |u|,|v |,s,ρ)時,向量 CD就是已知的,向量可以表示為。那么要獲得范圍框四個頂點的坐標,將引入的外部約束用方程進行表示,通過求解以下方程組的實現(xiàn)。

      式中:wb是范圍框的短邊長度;hb是范圍框的長邊長度。

      2.3 損失函數(shù) 當從特征向量直接預(yù)測目標框時,xc,yc,|u|,|v|,ρ的損失可以采用回歸的方式計算,也就是直接計算數(shù)值之間的差異,如Smooth L1、L2等。s的損失可以采用分類的方式計算,讓模型為s輸出兩個值,分別表示取同號和異號的可能性,代表同號的值大就是同號,否則就是異號,具體的損失值則可以用Corss Entropy、L2等。

      當用特征向量預(yù)測錨點框到目標框的回歸參數(shù)時,可以直接人為規(guī)定同號的錨點框向同號的目標框回歸,異號的錨點框向異號的目標框回歸。那么就不用計算s的損失。從錨點框到目標框的回歸參數(shù)可以用如下公式定義?;貧w參數(shù)的損失可以用Smooth L1、L2等。

      2.4 正方形范圍框 在范圍框是正方形時,即使?jié)M足前述約束條件,仍然有兩種數(shù)值表示。取任意一個頂點作為參考向量,中心點到其順時針或逆時針方向的相鄰頂點的向量在上的投影總是0。如果 ρ的取值不允許為0,就不能表示正方形范圍框。

      2.5 s的損失平滑 圖2中實線和虛線范圍框的s值不同,但是它們卻是非常近似的范圍框。因此s值的差異不能真實體現(xiàn)范圍框之間的差異。容易看出,與坐標軸的夾角越小,s的差異越是不能真實體現(xiàn)范圍框之間的差異。

      圖2 s值差異大的兩個近似范圍框

      其中|u|,|v |分別是 CD的兩個分量的模??梢奷iff的取值范圍為[0 , 1],當|u|,|v|相等時取零,當其中一個為0時取1。在式(4)中采用了平方函數(shù),實際應(yīng)用中,為了加快計算速度推薦使用求絕對值函數(shù)。然后將diff代入反Sigmoid函數(shù)求出s損失的權(quán)重。

      3 遙感影像目標檢測實驗與效果分析

      3.1 實驗設(shè)計 提出的新的傾斜矩形范圍框標注方式的主要特點在于同一個范圍框只有一種數(shù)值表示,在作為回歸目標時不會出現(xiàn)損失異常,有利于模型訓(xùn)練。實驗的目的在于驗證本斜框標注方式相較于其他斜框標注方式作為回歸目標時的優(yōu)勢。

      當前提出的斜框標注方式有“正框+傾斜角”式、四點式、“外接正框+偏移量”式,“正框+傾斜角”式、四點式各有一個變種。范圍框最廣泛的應(yīng)用場景在于目標檢測,因此在目標檢測任務(wù)當中對比這幾種斜框標注方式作為回歸目標的有效性。

      當前召回率較高的目標檢測方法,都采用了從錨點框向目標框回歸的方式預(yù)測范圍框。其為特征圖的每一個像素都預(yù)設(shè)一些錨點框,然后讓網(wǎng)絡(luò)預(yù)測錨點框到目標框的回歸參數(shù)以及回歸之后的錨點框存在目標的可能性值(得分)。之所以這么做有效,是因為普通圖像的景深大,在鏡頭主光軸方向上會出現(xiàn)較多目標堆疊在一起的情況。堆疊在一起的目標經(jīng)過卷積操作之后,其中心點很可能落在特征圖同一個像素上。而用特征圖上包含目標中心點的像素預(yù)測目標的范圍更加準確。

      對于遙感影像上的目標檢測,衛(wèi)星影像或者無人機航拍影像,其景深相對于物距來說很小。影像上主要被關(guān)注的目標如飛機、輪船、汽車、體育場等很少存在相互壓蓋的情況,所以從錨點框回歸目標框不是必要的。也為了不給對比實驗帶來過多干擾,設(shè)計了一種簡單的無錨點框的目標檢測網(wǎng)絡(luò),并將目標檢測網(wǎng)絡(luò)輸出向量的范圍框部分設(shè)置為上述六種標注方式分別進行訓(xùn)練和驗證。

      對比 DOTA-v1.5(https://captain-whu.github.io/DOAI2019/dataset.html)和 UCAS-AOD (http://www.ucassdl.cn/resource.asp)這兩個常用的斜框目標檢測數(shù)據(jù)集,前者包含16個類別,近40萬個標注的實例,2806張圖像,后者僅含汽車和飛機兩種類別,14596個標注的實例,1510張圖像,因此DOTA-v1.5包含的類別數(shù)量、圖像數(shù)量、標注的對象數(shù)量都遠超后者,應(yīng)用該數(shù)據(jù)集執(zhí)行驗證實驗。該數(shù)據(jù)集為光學(xué)遙感影像,主要來自于Google Earth、吉林1號、高分2號等數(shù)據(jù)源。

      3.2 目標檢測網(wǎng)絡(luò) 為了盡量讓大小目標都能夠被檢測出來,在ResNet[19]作為骨干網(wǎng)絡(luò)的基礎(chǔ)上采用了特征金字塔網(wǎng)絡(luò)(FPN)[20]。

      將目標分配給特征金字塔的機制是該目標檢測網(wǎng)絡(luò)的關(guān)鍵,因為在這個目標檢測網(wǎng)絡(luò)中實現(xiàn)無錨點框結(jié)構(gòu)的方式是通過讓特征圖上的一個像素只負責(zé)預(yù)測一個目標。所以需要保證每一個目標都能對應(yīng)特征圖上的不同像素。為了達到這個要求,規(guī)定特征圖只負責(zé)識別短邊長大于其網(wǎng)格對角線長度的目標。

      圖3中的虛線網(wǎng)格代表特征圖上的像素,紅色矩形框表示背景圖像中的目標范圍框。當目標短邊長度大于特征圖網(wǎng)格對角線長度時,密集排布目標的中心也會落在不同的特征圖像素上。

      圖3 范圍框及特征圖像素網(wǎng)格

      又因為讓特征圖去識別遠超其網(wǎng)格寬度的目標時會出現(xiàn)特征不足的問題,所以還應(yīng)該為特征圖負責(zé)識別的目標邊長設(shè)置一個上限。通過感受野(直接或者間接參與計算得出特征圖像素值的輸入圖像像素的范圍)分析和實驗發(fā)現(xiàn),可以讓特征圖負責(zé)識別的目標短邊長處于[1 . 5wg,4.5wg]中,目標長邊長度則不予限定。但是當長寬比過大時,不宜使用預(yù)測目標范圍框的方式識別目標。

      在實際檢測任務(wù)中,統(tǒng)計出所有樣本的短邊長度范圍,然后規(guī)劃特征金字塔的層數(shù)和圖像縮放比例使得每層特征圖負責(zé)識別的目標短邊長度滿足要求。

      由于特征圖上的一個像素只預(yù)測一個目標,從而可以按照圖4所示的方式確定網(wǎng)絡(luò)最終輸出向量的結(jié)構(gòu)。圖4中xc,yc,|u|,|v|,ρ為范圍框的數(shù)值部分;s-為異號的可能性;s+為同號的可能性;score為本范圍框中有目標的可能性;n clases為本范圍框內(nèi)是n個類別中每一個的可能性。該輸出的維度為5+2+1+n。如果只需要檢測一個類別,就可以不要n classes部分,此時輸出的維度是5+2+1。在驗證其他傾斜范圍框時直接替換輸出向量中范圍框部分即可。

      圖4 最終輸出向量中類別和范圍框的分布

      設(shè)特征圖每一個像素對應(yīng)原圖上的網(wǎng)格寬度為wg,那么最終輸出向量中的中心點坐標可以用下式確定[2]:

      此式可以將范圍框中心點限制在特征向量對應(yīng)的網(wǎng)格范圍內(nèi),避免了預(yù)測范圍框全圖跑的問題,并且的取值范圍為[0 , 1)。將|u|,|v|按照圖像寬高進行歸一化后,最終輸出的取值范圍都在[0 , 1],子結(jié)構(gòu)的最后一層可以采用Sigmoid作為激活函數(shù)。

      3.3 檢測大圖幅遙感影像 針對遙感影像的較大圖幅,需要對樣本圖像進行切塊,檢測時也要分塊。

      假設(shè)特征金字塔有三層,特征圖網(wǎng)格寬度分別為wg,2wg,4wg,那么可以檢測的目標短邊長度范圍分別為[1 . 5wg,4.5wg]、[3 wg,9wg]、[6 wg,18wg]。如果最小短邊長度小于1.5wg,說明應(yīng)該用更高分辨率的圖像檢測這些目標。通常情況下,可以保證目標的最小短邊長度略大于或等于1.5wg。如果目標短邊長度最大值wbmax超過了18wg,可以在特征金字塔頂部再增加一層特征圖,或者讓某些目標在縮小后的圖像上檢測[21]。

      如果不增加特征金字塔的層數(shù),需要確定切塊樣本時圖像的縮小比例。首先將圖像寬高縮小scale倍,然后判斷wbmax/scale是否小于18wg,如果不小于則還需繼續(xù)縮小,直到wbmax/scalen小于18wg。為了不遺漏范圍框,要求scale<(1 8 wg1.5wg)。最終切塊時需要的縮小倍率有1、20scale、21scale等。如果處理的是帶有空間分辨率的遙感影像,則在空間單位下進行上述計算和切塊。所切圖像塊的邊長(像素)應(yīng)大于各縮小倍率下目標長邊長度(像素)的最大值Hbmax。

      在對大圖幅圖像進行檢測時也應(yīng)該按照和訓(xùn)練圖塊相同的尺寸和縮放比率進行分塊。為了避免目標被切分到不同圖塊且每個圖塊中的部分都無法支持目標被檢出,則所分圖塊必須具有一定的重疊度(overlap)。

      假設(shè)訓(xùn)練圖像切塊時,目標范圍框處在圖像塊內(nèi)的部分達到α?xí)r這個目標就保留,那么所分圖塊的重疊度由下式確定。

      式中Hbmax是以像素為單位的各縮小倍率下目標長邊長度的最大值。如圖5所示,某個目標在切線1左側(cè)的部分占,如果讓該目標在切線2的右側(cè)也占,就能保證至少一個切塊可能檢測出該目標。

      圖5 分塊重疊,實框表示目標范圍框

      可見,如果圖塊的邊長只是稍微大于Hbmax,會導(dǎo)致大量重復(fù)檢測,進而拖慢檢測速度。另外由于有效感受野的原因,長寬接近圖塊邊長的目標的檢測效果會變差。因此在內(nèi)存和顯存允許的條件下圖像塊的邊長越大越好。

      在各個縮小倍率下切塊檢測完畢后,將所有得分符合條件的范圍框一起進行NMS得到最終檢測結(jié)果。

      3.4 實驗參數(shù)配置 實驗用的目標檢測網(wǎng)絡(luò)相當于為yolov1[3]加上了FPN。由于遙感影像上目標的尺寸范圍很大,如果直接用yolov1驗證范圍框標注方式的有效性,就必須為圖像建立金字塔并在圖像金字塔的各層上進行檢測,相當消耗時間。又因為有FPN,必須要有將目標分配給FPN的機制。因此沒有執(zhí)行消融實驗來驗證網(wǎng)絡(luò)各組件有效性的需求。

      實驗中目標檢測網(wǎng)絡(luò)的骨干網(wǎng)絡(luò)采用ResNet50,特征金字塔有3層,特征圖的網(wǎng)格寬度分別是8、16、32。從而可以檢測的目標短邊長度至少為12個像素,小目標檢測不是本網(wǎng)絡(luò)的目標,因此直接將短邊長小于12個像素的目標排除。樣本圖像裁剪和分塊檢測時,對原始圖像的縮小倍率有1、9、18。類別和范圍框預(yù)測子結(jié)構(gòu)用3個1×1的卷積層。訓(xùn)練和檢測時將圖像塊邊長設(shè)定為608個像素。

      3.5 實驗結(jié)果分析 如表1所示,在最終輸出向量中采用本文提出的新的標注方式的目標檢測實驗在驗證集上得到的平均準確率為0.7752,優(yōu)于在最終輸出向量中采用其它斜框標注方式的結(jié)果。

      表1 使用六種標注方式的目標檢測精度結(jié)果

      4 結(jié)論

      (1)在對比分析現(xiàn)有正框及斜框標注方式及其優(yōu)劣特征基礎(chǔ)上,提出了一種新的傾斜矩形范圍框標注方式,即采用“傾斜范圍框中心點C的坐標、中心點到任意一個頂點D的向量、C到D的一個相鄰頂點E的向量在上的投影向量與的比例系數(shù)”來標注傾斜范圍框。

      (2)傾斜矩形范圍框與正框相比能夠更準確的定位目標范圍,尤其是朝向任意且狹長的目標,新提出的傾斜矩形范圍框標注方式在給定約束下實現(xiàn)了一個范圍框只有一種數(shù)值表示的特性,避免了數(shù)值表示的多義性,解決了機器學(xué)習(xí)類目標檢測算法中范圍框多義性導(dǎo)致的損失異常問題,有利于實現(xiàn)模型回歸訓(xùn)練。

      (3)基于DOTA-v1.5光學(xué)遙感影像公共數(shù)據(jù)集,對新提出的標注方式及多種其他傾斜范圍框標注方式做了目標檢測效果驗證實驗與對比分析,結(jié)果表明正框+傾斜角1、四點式、外接正框+偏移量、正框+傾斜角2、四點式2、文中新提出的標注方式在驗證集上得到的平均準確率分別為0.7237、0.5595、0.6614、0.7209、0.5644和0.7752,該斜矩形范圍框標注方式對于朝向任意、密集排布的目標檢測更具優(yōu)勢。在基于遙感影像的朝向任意、密集排布的目標檢測時具有應(yīng)用價值。

      猜你喜歡
      頂點像素向量
      趙運哲作品
      藝術(shù)家(2023年8期)2023-11-02 02:05:28
      像素前線之“幻影”2000
      向量的分解
      過非等腰銳角三角形頂點和垂心的圓的性質(zhì)及應(yīng)用(下)
      聚焦“向量與三角”創(chuàng)新題
      “像素”仙人掌
      關(guān)于頂點染色的一個猜想
      向量垂直在解析幾何中的應(yīng)用
      高像素不是全部
      CHIP新電腦(2016年3期)2016-03-10 14:22:03
      向量五種“變身” 玩轉(zhuǎn)圓錐曲線
      隆昌县| 饶平县| 峨边| 英吉沙县| 株洲市| 乌兰县| 宁阳县| 安岳县| 同心县| 乾安县| 兖州市| 台东市| 介休市| 沙洋县| 宁海县| 古蔺县| 包头市| 怀来县| 图们市| 普兰店市| 芮城县| 徐水县| 墨江| 湟源县| 华亭县| 陇川县| 农安县| 耿马| 古丈县| 霍林郭勒市| 鄢陵县| 陈巴尔虎旗| 共和县| 林西县| 清水县| 八宿县| 鹰潭市| 南雄市| 恩平市| 商城县| 仁寿县|