• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      融合雙通道特征學(xué)習(xí)機(jī)制的圖像鉛垂方向識別

      2023-09-24 05:33:04施泓羽杜韻琦
      現(xiàn)代計(jì)算機(jī) 2023年13期
      關(guān)鍵詞:類別預(yù)處理物體

      施泓羽,杜韻琦,賀 智,2*

      (1. 中山大學(xué)地理科學(xué)與規(guī)劃學(xué)院,廣州 510275;2. 南方海洋科學(xué)與工程廣東省實(shí)驗(yàn)室(珠海),珠海 519082)

      0 引言

      近年來,圖像鉛垂方向(image vertical direction,IVD)識別的應(yīng)用場景和需求與日俱增[1-2],而各類傳感器的高速發(fā)展使得圖像數(shù)據(jù)呈指數(shù)級增長,IVD 識別因此具有更加重要的研究價值和更廣闊的應(yīng)用前景:例如,在智能駕駛領(lǐng)域,通過對IVD 的正確識別有利于更好地矯正圖像畸變,提高對道路線和地平線的識別精度[3-4];在無人設(shè)備領(lǐng)域,無人機(jī)、無人車等的迅猛發(fā)展也對設(shè)備姿態(tài)自動調(diào)整有了新的需求,識別IVD有助于準(zhǔn)確調(diào)整設(shè)備姿態(tài)[5]。但目前尚無可用的圖像的觀察垂直方向與IVD 一致的數(shù)據(jù)集與成熟的IVD 識別方法,因此IVD 的識別是一項(xiàng)具有挑戰(zhàn)性的任務(wù)。

      傳統(tǒng)可用于檢測IVD 的算法(如Hough 變換[6]、SIFT 變換[7]等),當(dāng)圖像較為復(fù)雜時,難以僅依據(jù)圖像自身特征實(shí)現(xiàn)高精度IVD 識別。近年來,深度學(xué)習(xí)技術(shù)獲得了快速發(fā)展,已有大量研究聚焦于自然語言處理[8]、目標(biāo)檢測[9]、圖像分類[10]和姿態(tài)估計(jì)[11]等領(lǐng)域。且其中很多方法都引入了角度,可大致將其歸納分為三類:①在數(shù)據(jù)預(yù)處理階段引入角度,通過多次旋轉(zhuǎn)圖像達(dá)到擴(kuò)增數(shù)據(jù)集的目的[12-13],使網(wǎng)絡(luò)模型更好地學(xué)習(xí)數(shù)據(jù)集的旋轉(zhuǎn)不變特征。該類方法在測試類別相同但姿態(tài)各異的圖像時,能獲得更好的泛化能力,但由于其數(shù)據(jù)擴(kuò)增數(shù)量有限,學(xué)習(xí)到的旋轉(zhuǎn)不變特征不夠完整;②在模型預(yù)訓(xùn)練階段引入角度[14-15],通過旋轉(zhuǎn)角度分類任務(wù)將經(jīng)過隨機(jī)旋轉(zhuǎn)的圖像輸入網(wǎng)絡(luò),由自監(jiān)督學(xué)習(xí)提取結(jié)構(gòu)或語義信息,從而在圖像檢測和分割等任務(wù)中獲得更快的收斂速度和更高的訓(xùn)練精度。該類研究證明了圖像分類算法在IVD識別方面的可行性,但僅識別少數(shù)幾個角度(如0°、90°、180°、270°等),因而IVD 識別范圍有限;③在網(wǎng)絡(luò)模型中引入角度[16-18],典型的如目標(biāo)檢測[16],通過引入角度來旋轉(zhuǎn)并最小化目標(biāo)框。但其使用的研究數(shù)據(jù)為俯拍的遙感影像,只存在觀察方向而丟失IVD,所以其研究成果難以遷移至IVD 的識別上??傊?,已有研究對IVD 的識別具有局限性,無法滿足精確識別IVD的任務(wù)需求。

      針對上述問題,本文提出融合雙通道特征學(xué)習(xí)機(jī)制的網(wǎng)絡(luò)模型(double channel feature learning model,DouCFL)的IVD 識別方法,主要貢獻(xiàn)如下:①據(jù)筆者所知,目前尚無專門進(jìn)行IVD 識別的研究,本文首次提出一種準(zhǔn)確識別IVD 的方法。DouCFL 由數(shù)據(jù)預(yù)處理模塊、特征學(xué)習(xí)模塊以及IVD 識別模塊三個模塊組成,并創(chuàng)新性地提出隨機(jī)旋轉(zhuǎn)組合的數(shù)據(jù)增廣方法、“特征復(fù)用+特征生成”的雙通道特征學(xué)習(xí)方法和顧及物體類別識別與IVD 識別的損失函數(shù),使網(wǎng)絡(luò)模型能夠有效識別圖像內(nèi)容并學(xué)習(xí)其旋轉(zhuǎn)不變特征。②針對用于IVD 識別的數(shù)據(jù)集缺失的問題,創(chuàng)建了一個新數(shù)據(jù)集RotData。本文從ImageNet-1k 數(shù)據(jù)集[19]中提取了近70000 張正直圖像(即圖像的觀察垂直方向與IVD 一致),創(chuàng)建了一個名為RotData 的圖像數(shù)據(jù)集,并公開了下載網(wǎng)址,便于相關(guān)領(lǐng)域的研究者進(jìn)行模型訓(xùn)練和測試。

      1 RotData數(shù)據(jù)集構(gòu)建

      ImageNet 數(shù)據(jù)集是深度學(xué)習(xí)領(lǐng)域中圖像分類、檢測、定位的最常用數(shù)據(jù)集之一[19]。但是,當(dāng)深度學(xué)習(xí)任務(wù)轉(zhuǎn)變成識別IVD 時,ImageNet數(shù)據(jù)集中的某些圖像并不適用。例如,從頂部或底部觀察的物體,或圖像物理環(huán)境信息過少的,如圖1(a)所示,這些圖像是模糊的(即只可確定圖像的觀察垂直方向而無法確定IVD),利用它們進(jìn)行模型訓(xùn)練會嚴(yán)重影響深度學(xué)習(xí)模型對圖像特征的理解與學(xué)習(xí)。所以,本文以ILSVRC2012(ImageNet Large-Scale Visual Recognition Challenge 2012)為基礎(chǔ)數(shù)據(jù)集,該數(shù)據(jù)集共有1000 個類別,每類約有1000 張圖像。本文從ILSVRC2012 數(shù)據(jù)集中挑選了383 個較易確定圖像是否正直的物體類別(圖1(b)為部分示例),并在這些類的約1000 張圖像中分別挑選170 張正直圖像和10 張模糊圖像,組成了一個由約70000 張圖像組成的旋轉(zhuǎn)數(shù)據(jù)集RotData,將其用于模型訓(xùn)練和測試。RotData 已公開于https://doi.org/10.6084/m9.figshare.c.6085845.v2。

      圖1 ILSVRC2012中模糊圖像和正直圖像示例

      2 基于DouCFL的IVD識別方法

      2.1 整體方法架構(gòu)

      DouCFL 的整體架構(gòu)如圖2 所示。首先,在數(shù)據(jù)預(yù)處理模塊中對輸入的原始圖像進(jìn)行預(yù)處理,將大小不一的原始圖像統(tǒng)一成尺寸為384×384像素的輸入圖像,然后對輸入圖像分別進(jìn)行0~359°角度范圍內(nèi)的隨機(jī)逆時針旋轉(zhuǎn),并添加圓形掩膜,以防止模型忽略主體對象特征而學(xué)習(xí)圖像的邊緣信息。在模型訓(xùn)練的每一次迭代中,該預(yù)處理操作都會重復(fù),且在每個Epoch中,RotData 數(shù)據(jù)集也將重新隨機(jī)打亂,通過該“隨機(jī)旋轉(zhuǎn)組合”操作來擴(kuò)增數(shù)據(jù)集,模型能更全面地學(xué)習(xí)到圖像的旋轉(zhuǎn)不變特征,從而更好地識別IVD。其次,將預(yù)處理后的數(shù)據(jù)輸入至特征學(xué)習(xí)模塊,經(jīng)過特征復(fù)用通道和特征生成通道的“雙通道”操作,輸出長度為360的角度特征向量以及長度為383 的類別特征向量。最后,在IVD 識別模塊中,輸入角度特征向量、類別特征向量、旋轉(zhuǎn)角度標(biāo)簽和物體類別標(biāo)簽,通過同時識別IVD 的偏離角度與物體類別來計(jì)算模型的旋轉(zhuǎn)損失(rotation loss,RotLoss)。

      圖2 DouCFL模型架構(gòu)

      2.2 特征學(xué)習(xí)模塊

      為使模型更全面地學(xué)習(xí)旋轉(zhuǎn)不變特征,DouCFL Net 采用如圖3 所示的結(jié)構(gòu),將預(yù)處理后的圖像輸入Stage 1、Stage 2、Stage 3、Stage 4、Stage 5 和Output六個模塊后得到輸出長度為743特征向量。其中,Stage 1~Stage 5模塊以DouCFL Block 為基礎(chǔ)結(jié)構(gòu),Conv 代表卷積層,Maxpool代表最大池化層,通道數(shù)后圓括號內(nèi)的數(shù)字為DouCFL Block 中特征生成通道的通道數(shù)。

      圖3 DouCFL Net網(wǎng)絡(luò)結(jié)構(gòu)

      DouCFL Block 的結(jié)構(gòu)如圖4 所示,其通過“雙通道”(即特征復(fù)用通道和特征生成通道)來提升對旋轉(zhuǎn)不變特征的學(xué)習(xí)能力。假定xi為DouCFL Net 的第i個DouCFL Block 的輸入特征圖,首先對xi進(jìn)行通道降維(1×1卷積層);然后通過卷積提取圖像特征(3×3卷積層),并利用分組卷積壓縮模型參數(shù);其次將提取到的圖像特征進(jìn)行投影以與xi保持維度的一致(1×1 卷積層),得到特征圖(xi)in;再通過通道分裂操作將(xi)in分裂成和,分別作為輸入特征圖輸入至特征復(fù)用通道與特征生成通道,得到復(fù)用特征和新生成特征;最后通過通道聯(lián)結(jié)操作將特征圖和合并,得到輸出特征圖xi+1,即第i+ 1 個DouCFL Block 的輸入特征圖。其中,特征復(fù)用通道通過殘差相加來強(qiáng)調(diào)對初始特征xi的復(fù)用,以防止特征退化;而特征生成通道則保留了3×3 卷積層中新提取的圖像特征,以跳脫復(fù)用特征而尋找新特征。

      圖4 DouCFL Block結(jié)構(gòu)(以Stage 2為例)

      另外,在特征復(fù)用通道與特征生成通道中引入通道注意力模塊SE(squeeze-and-excitation)Block[20],它可以對特征圖進(jìn)行重標(biāo)定, 對每個特征圖學(xué)習(xí)一個對應(yīng)的權(quán)重,以篩選出復(fù)用特征和新生成特征中的有效信息,達(dá)到突出重要特征的作用。而為確保DouCFL Block 的輸入和輸出維度相同,增加了一個卷積核大小為1×1 的卷積層,將該Block 的輸入特征xi映射到更低的維度上,進(jìn)而使DouCFL Block 在不改變輸入輸出特征維度的基礎(chǔ)上學(xué)習(xí)圖像新特征。

      具體而言,假定xi為DouCFL Net 的第i個DouCFL Block 的輸入與輸出數(shù)據(jù),則xi+1可由以下計(jì)算過程得到:

      其中:Split(· ) 代表通道分裂操作;Θi(· ) 代表SE Block 的注意力函數(shù);Φ( ·) 代表轉(zhuǎn)換函數(shù),用于將DouCFL Block 的輸入特征x映射到更低的維度;Concat(· ) 代表通道聯(lián)結(jié)操作。

      DouCFL Net 中各模塊的具體結(jié)構(gòu)參數(shù)見表1。其中,分組卷積的分組數(shù)量為32,圓括號內(nèi)部數(shù)字表示每個DouCFL Block 中特征生成通道的通道數(shù)。

      表1 DouCFL Net結(jié)構(gòu)參數(shù)

      2.3 IVD識別模塊

      對圖像內(nèi)容(即圖像中物體類別)的正確識別可以幫助模型更好地尋找圖像的旋轉(zhuǎn)不變特征[14-15]。為使模型能更有效地學(xué)習(xí)該特征,本文在IVD 識別模塊中加入物體類別識別部分,構(gòu)建同時識別IVD 的偏離角度與物體類別的損失函數(shù)RotLoss。假定給定一個預(yù)處理后的訓(xùn)練集(Xj為S中第j個圖像的矩陣表達(dá),N為樣本數(shù)目),則RotLoss可以表示為

      其中:θ代表DouCFL Net中IVD偏離角度識別部分的可被學(xué)習(xí)的模型參數(shù);代表DouCFL Net中物體類別識別部分的可被學(xué)習(xí)的模型參數(shù);α為權(quán)重系數(shù);Loss(· ) 為分類損失函數(shù);c為旋轉(zhuǎn)角度標(biāo)簽;z為物體類別標(biāo)簽;而分類損失函數(shù)Loss(· ) 可以表示為

      其中:τ代表DouCFL Net 中可被學(xué)習(xí)的模型參數(shù);label為Xj的真實(shí)標(biāo)簽;β是用以平滑分類損失的權(quán)重;M為類別總數(shù);Pk(Xj|τ)代表模型在參數(shù)為τ的條件下,識別Xj的類別為k的概率值。

      3 實(shí)驗(yàn)

      3.1 實(shí)驗(yàn)環(huán)境

      本文深度學(xué)習(xí)框架為PyTorch,操作系統(tǒng)為Ubuntu 18.04 LTS,硬件設(shè)備為4 張24 GB 顯存的NVIDIA RTX A5000 GPU 和56 張Intel(R)Xeon(R)Gold 6330 CPU。

      3.2 實(shí)驗(yàn)數(shù)據(jù)

      以RotData 為實(shí)驗(yàn)數(shù)據(jù)集,將該數(shù)據(jù)集以7∶1.5∶1.5 的比例劃分為訓(xùn)練集、驗(yàn)證集和測試集。

      3.3 實(shí)驗(yàn)參數(shù)設(shè)置

      本文實(shí)驗(yàn)參數(shù)設(shè)置如下:BatchSize為20(即全局BatchSize 為80);Epoch 為200;使用SGD(stochastic gradient descent)優(yōu)化器,初始學(xué)習(xí)率為0.01,優(yōu)化器動量設(shè)置為0.9;學(xué)習(xí)率調(diào)整策略選用Cosine Annealing 和Warm Restart[21],并設(shè)置每50 個Epoch 進(jìn)行一次重啟;RotLoss的參數(shù)α設(shè)為0.75,β設(shè)為0.1。

      在模型測試過程中,選取角度特征向量最大值對應(yīng)的類別索引作為預(yù)測的IVD 偏離角度,并與旋轉(zhuǎn)角度標(biāo)簽一起輸入角度均方誤差(angle mean square error,AngleMSE)和準(zhǔn)確率(accuracy,AC)來評估模型的效果。模型的測試精度取在測試集上連續(xù)進(jìn)行六次效果評估(測試集在每次效果評估過程中都經(jīng)過“隨機(jī)旋轉(zhuǎn)組合”預(yù)處理)的平均值。

      3.4 評價標(biāo)準(zhǔn)

      本文使用角度均方誤差A(yù)ngleMSE和準(zhǔn)確率AC作為指標(biāo)來對算法的效果進(jìn)行衡量,其公式如下:

      其中:n表示樣本數(shù)量,Yl表示第l個樣本的旋轉(zhuǎn)角度標(biāo)簽,表示第l個樣本的預(yù)測的IVD 偏離角度。AngleMSE相較于均方誤差(mean square error,MSE),考慮了預(yù)測的IVD 偏離角度和旋轉(zhuǎn)角度標(biāo)簽之間的類間關(guān)系。例如,真實(shí)旋轉(zhuǎn)角度標(biāo)簽1°和預(yù)測的IVD 偏離角度359°之間實(shí)際偏差為2°,而非358°。

      3.5 實(shí)驗(yàn)結(jié)果

      為了驗(yàn)證DouCFL 模型的有效性,本文選取了5種圖像分類中的流行深度學(xué)習(xí)方法與其對比,分別是AlexNet[22]、ResNet-152[23]、DPN-107[24]、ConvNeXt-B[25]和Swin-B[26],并使用相同的數(shù)據(jù)預(yù)處理模塊和IVD識別模塊完成IVD識別任務(wù)。

      首先,RotData 數(shù)據(jù)集上不同網(wǎng)絡(luò)模型的對比實(shí)驗(yàn)結(jié)果如表2 所示。從表2 可以看出:DouCFL 在IVD 識別任務(wù)上優(yōu)于目前流行的深度學(xué)習(xí)方法。DouCFL 在測試集上的AngleMSE為256.85,即對測試集中圖像偏離鉛垂方向的角度的預(yù)測誤差約為16°,且在測試集上的AC達(dá)到了97.68%,其對IVD 有較高的識別精度。此外,DouCFL 的AngleMSE低于基礎(chǔ)模型AlexNet 和ResNet-152。與同等參數(shù)量的深度學(xué)習(xí)方法(即DPN-107、ConvNeXt-B 和Swin-B)相比,DouCFL的AngleMSE至少降低了45,AC至少提升了約0.5%,這說明在同等參數(shù)量的條件下,DouCFL具有更強(qiáng)的旋轉(zhuǎn)不變特征學(xué)習(xí)能力。

      表2 RotData數(shù)據(jù)集上不同網(wǎng)絡(luò)模型的對比實(shí)驗(yàn)

      其次,不同損失函數(shù)的對比實(shí)驗(yàn)結(jié)果如表3所示。從表3 可以看出:本文提出的損失函數(shù)RotLoss能有效提升模型對IVD 的識別效果。將損失函數(shù)RotLoss和不關(guān)注物體類別的損失函數(shù)Loss(即將RotLoss的參數(shù)α 設(shè)為1)進(jìn)行對比,對于不同的深度學(xué)習(xí)方法,RotLoss都能有效降低模型的AngleMSE。對于基礎(chǔ)模型AlexNet 和ResNet-152,RotLoss能使模型的AngleMSE分別降低18.02%和8.37%。對于同等參數(shù)量的深度學(xué)習(xí)方法(即DPN-107、ConvNeXt-B、Swin-B 和DouCFL),RotLoss能使其AngleMSE至少降低8.05%(DPN-107:12.30%,ConvNeXt-B:11.78%,Swin-B:8.05%,DouCFL:23.64%)。

      表3 不同損失函數(shù)的對比實(shí)驗(yàn)

      為了進(jìn)一步解釋RotLoss對于降低模型AngleMSE的效果,對模型學(xué)習(xí)到的圖像旋轉(zhuǎn)不變特征進(jìn)行了可視化,圖5 展示了DouCFL Net最后一層特征圖的反向傳播圖[27]。其中,第1列為原圖像,第2 和第5 列為預(yù)處理后的圖像,第3 和第6 列為采用RotLoss損失函數(shù)訓(xùn)練的DouCFL Net 的反向傳播圖,第4和第7列為采用Loss損失函數(shù)訓(xùn)練的DouCFL Net 的反向傳播圖。由圖5(a)、(c)和(d)可知,對于包含多個物體的圖像,引入RotLoss可以使模型更加聚焦于物體類別標(biāo)簽所對應(yīng)的物體,并能準(zhǔn)確學(xué)習(xí)到它的旋轉(zhuǎn)不變特征,如熊貓的五官、燈塔的塔身、狗的五官和身體。由圖5(b)可知,對于只包含單個物體的圖像,引入RotLoss可以使模型準(zhǔn)確聚焦于圖像中物體的顯著旋轉(zhuǎn)不變特征,如車頭、前輪和車牌號。而對于采用Loss損失函數(shù)訓(xùn)練的DouCFL Net,其反向傳播圖關(guān)注的特征分布廣泛且分散,且關(guān)注了較多環(huán)境中的干擾信息。這也證明,對圖像內(nèi)容即物體類別的正確識別,可以幫助模型更有效地學(xué)習(xí)圖像的旋轉(zhuǎn)不變特征,從而提升對IVD的識別效果。

      圖5 DouCFL Net最后一層特征圖的反向傳播激活圖(續(xù))

      圖5 DouCFL Net最后一層特征圖的反向傳播激活圖

      最后,通過消融實(shí)驗(yàn)進(jìn)一步驗(yàn)證DouCFL Block 中各組成部分的有效性。如表4 所示,在DouCFL Net中去除特征生成通道與SE Block(即為加入分組卷積的ResNet-152)后,與ResNet-152相比精度基本保持不變,但是參數(shù)量減少29 M;在加入SE Block 后,模型精度(305.48)有所提升;在加入了特征生成通道后,模型精度(274.63)進(jìn)一步提升;同時加入SE Block 和特征生成通道后,模型精度最終提升到了256.85,與只加入特征生成通道相比提升了近18。總之,SE Block和特征生成通道的引入能夠有效提升模型在IVD識別任務(wù)上的效果。

      表4 DouCFL Block中各組成部分的對比實(shí)驗(yàn)

      4 結(jié)語

      本文提出了一種基于DouCFL 的圖像鉛垂方向識別方法,其由數(shù)據(jù)預(yù)處理模塊、特征學(xué)習(xí)模塊以及IVD 識別模塊三個模塊組成,并通過隨機(jī)旋轉(zhuǎn)組合的數(shù)據(jù)增廣方法、“特征復(fù)用+特征生成”的雙通道特征學(xué)習(xí)方法和顧及物體類別識別與IVD 識別的損失函數(shù),使模型能夠有效識別圖像內(nèi)容并學(xué)習(xí)其旋轉(zhuǎn)不變特征。

      本文根據(jù)ILSVRC2012 創(chuàng)建了用于IVD 識別的正直圖像數(shù)據(jù)集,并利用該數(shù)據(jù)集訓(xùn)練提出的IVD 識別方法。實(shí)驗(yàn)結(jié)果表明,本文方法對IVD 識別具有一定的可行性,且識別正確率優(yōu)于當(dāng)前流行的深度學(xué)習(xí)方法。此外,對損失函數(shù)的對比實(shí)驗(yàn)結(jié)果表明,本文的損失函數(shù)能有效提升各類模型對物體旋轉(zhuǎn)角度的識別效果,證明了對圖像內(nèi)容的正確識別可以幫助模型更有效地學(xué)習(xí)圖像的旋轉(zhuǎn)不變特征。下一步將對圖像的旋轉(zhuǎn)不變特征進(jìn)行系統(tǒng)化地解釋,并結(jié)合實(shí)際應(yīng)用需求創(chuàng)建規(guī)模更大、類別更加豐富的數(shù)據(jù)集進(jìn)行訓(xùn)練和測試。

      猜你喜歡
      類別預(yù)處理物體
      深刻理解物體的平衡
      我們是怎樣看到物體的
      基于預(yù)處理MUSIC算法的分布式陣列DOA估計(jì)
      淺談PLC在預(yù)處理生產(chǎn)線自動化改造中的應(yīng)用
      服務(wù)類別
      新校長(2016年8期)2016-01-10 06:43:59
      絡(luò)合萃取法預(yù)處理H酸廢水
      為什么同一物體在世界各地重量不一樣?
      基于自適應(yīng)預(yù)處理的改進(jìn)CPF-GMRES算法
      論類別股東會
      商事法論集(2014年1期)2014-06-27 01:20:42
      中醫(yī)類別全科醫(yī)師培養(yǎng)模式的探討
      茶陵县| 彭山县| 正阳县| 股票| 来安县| 宝丰县| 柞水县| 宁陵县| 察隅县| 临颍县| 定日县| 黄浦区| 清水县| 漳州市| 东方市| 津南区| 南江县| 长沙市| 海原县| 商都县| 济宁市| 柯坪县| 云霄县| 长垣县| 唐河县| 海淀区| 壶关县| 达拉特旗| 淮南市| 洛阳市| 虹口区| 浦县| 杭州市| 建阳市| 巴中市| 肃宁县| 乳源| 绿春县| 兰溪市| 澜沧| 辽宁省|