摘" 要: 先前工作在雙分支網(wǎng)絡(luò)利用蒸餾的方式使具有較高語義信息的語義分支引導(dǎo)空間分支學(xué)習(xí),但是由于語義分支和空間分支之間仍然存在差異性,在部分?jǐn)?shù)據(jù)集上效果不理想。為了解決該問題,文中提出范圍松弛匹配學(xué)習(xí)策略,通過松弛匹配方式使學(xué)生模型不用費(fèi)力匹配教師的精準(zhǔn)輸出結(jié)果,從而減小空間分支和語義分支之間的差異。相較于之前精準(zhǔn)知識傳遞方式,采用范圍松弛匹配方式,避免出現(xiàn)精準(zhǔn)匹配對空間分支學(xué)習(xí)過于苛刻的現(xiàn)象,也避免了線性匹配出現(xiàn)過于松弛導(dǎo)致學(xué)習(xí)過程中梯度爆炸的現(xiàn)象。為了驗(yàn)證文中方法的有效性和泛化性,將在BiSeNetV1、BiSeNetV2、STDC三個雙分支網(wǎng)絡(luò)上進(jìn)行驗(yàn)證,凸顯該方法的有效性。通過實(shí)驗(yàn)結(jié)果表明文中方法較基線網(wǎng)絡(luò)、雙分支共享引導(dǎo)式學(xué)習(xí)、松弛匹配等方法,在UVAid和UDD兩個數(shù)據(jù)集上都有提升效果,體現(xiàn)出范圍松弛匹配的泛化性。通過對比實(shí)驗(yàn)表明文中改進(jìn)后的方法較其他方法有一定的競爭力。
關(guān)鍵詞: 深度學(xué)習(xí); 語義分割; 無人機(jī)場景; 雙分支網(wǎng)絡(luò); 范圍松弛匹配; 精準(zhǔn)匹配
中圖分類號: TN919?34; TP751" " " " " " " " " "文獻(xiàn)標(biāo)識碼: A" " " " " " " " " " " 文章編號: 1004?373X(2024)23?0181?06
Semantic segmentation dual?branch range relaxation matching learning
for unmanned aerial vehicles
MAI Chaoyun, WU Yibo, ZHANG Hongyi, WANG Qianwen, HONG Xiaochun, KE Xiaopeng
(School of Electronics and Information Engineering, Wuyi University, Jiangmen 529020, China)
Abstract: In previous research, a distillation method was utilized in a dual?branch network to facilitate spatial branch learning by incorporating a semantic branch with richer semantic information. However, these performance results were unsatisfactory on a part of datasets due to inherent differences between the semantic and spatial branches. In view of this, this paper introduces a learning strategy called range relaxation matching. This strategy enables the student model to closely approximate the teacher′s accurate output with minimal effort, effectively minimizing the discrepancy between the semantic and spatial branches. In contrast to the previous method involving precise knowledge transfer, this paper employs a range relaxation matching technique to alleviate the rigid requirement of precise matching in spatial branch learning. This method prevents excessive relaxation caused by linear matching, which can lead to gradient explosion during the learning process. Validation experiments are conducted on three dual?branch networks named BiSeNetV1, BiSeNetV2 and STDC to assess the effectiveness and generalization performance of the proposed method. These experiments serve to highlight the efficacy of the proposed method. Experimental results show that the method is better than those methods of baseline networks, dual?branch shared?guidance learning and relaxation matching on the two datasets of UAVid and UDD, demonstrating the generalizability of the range relaxation matching. Comparative experiments demonstrate the competitive nature of the proposed method in comparison with the other methods.
Keywords: deep learning; semantic segmentation; unmanned aerial vehicle scenario; dual?branch network; range relaxation matching; accurate matching
0" 引" 言
近年來,由于無人機(jī)遙感較衛(wèi)星遙感和航空遙感具備更高的分辨率、特定區(qū)域內(nèi)信息詳細(xì)、拍攝靈活等特點(diǎn),無人機(jī)相關(guān)領(lǐng)域逐漸成為廣泛關(guān)注的熱點(diǎn)之一。無人機(jī)圖像已廣泛應(yīng)用于各個領(lǐng)域,如:應(yīng)急檢測方面[1]重點(diǎn)研究了無人機(jī)應(yīng)急響應(yīng)和檢測應(yīng)用,提出了一個輕量級網(wǎng)絡(luò)EmergencyNet對建筑物倒塌、洪水、火災(zāi)等航空影像進(jìn)行應(yīng)急檢測。在精準(zhǔn)農(nóng)業(yè)方面[2]針對向日葵倒伏,通過融合可見光圖像和增強(qiáng)的多光譜圖像獲取具備豐富空間分辨率的多光譜圖像,并提出了一種基于無人機(jī)遙感圖像的深度語義分割向日葵倒伏識別方法。通過日益增長的無人機(jī)相關(guān)領(lǐng)域研究,體現(xiàn)了無人機(jī)應(yīng)用場景有巨大潛力。
語義分割是無人機(jī)后續(xù)研究的基礎(chǔ),因此好的語義分割方法對后續(xù)研究尤為重要。在先前工作中,針對雙分支網(wǎng)絡(luò)存在的問題,利用知識蒸餾的方法引導(dǎo)空間分支學(xué)習(xí)空間信息,促進(jìn)兩個分支之間的信息交互。但是之前的工作在部分?jǐn)?shù)據(jù)集上表現(xiàn)不理想。通過分析發(fā)現(xiàn)語義分支和空間分支之間存在信息差異,因此語義分支傳遞給空間分支的知識難以理解,尤其是在經(jīng)過強(qiáng)訓(xùn)練策略后,語義分支和空間分支之間的差異增大,導(dǎo)致先前方法不適用。
針對雙分支之間的差異,本文提出了一種范圍松弛匹配學(xué)習(xí)的雙分支知識交互方式。利用范圍松弛匹配替代先前工作知識蒸餾的精準(zhǔn)匹配,從而避免對學(xué)生模型過于嚴(yán)苛。在雙分支網(wǎng)絡(luò)上驗(yàn)證其有效性,在兩個無人機(jī)數(shù)據(jù)集上驗(yàn)證了本文方法的泛化性。
1" 工作回顧
1.1" DBCG網(wǎng)絡(luò)
雙分支網(wǎng)絡(luò)通過額外的分支學(xué)習(xí)空間信息,彌補(bǔ)U型網(wǎng)絡(luò)通過跳躍連接產(chǎn)生的空間信息丟失問題。經(jīng)典的雙分支網(wǎng)絡(luò)與本文改進(jìn)的雙分支網(wǎng)絡(luò)如圖1所示。本文先前工作通過回顧雙分支網(wǎng)絡(luò)的缺點(diǎn):空間分支對高分辨率圖像空間信息提取有限;雙分支間訓(xùn)練時,分支之間相互獨(dú)立,限制模型的信息交流;雙分支輸入圖像一致缺乏對比多樣性。針對以上問題,對雙分支網(wǎng)絡(luò)進(jìn)行改進(jìn)。
對于空間分支和上下文分支之間應(yīng)當(dāng)采用不同的學(xué)習(xí)策略,最后再通過融合進(jìn)行對比校準(zhǔn)。因此,提出了SCEFM模塊。該模塊首先對給定圖像進(jìn)行轉(zhuǎn)變,轉(zhuǎn)變的目的是使空間分支和上下文分支獲取不同噪聲情況下的空間特征。
轉(zhuǎn)變的過程描述見公式(1):
[x'=IFFTFFT(x)×DM] (1)
式中:[x]表示原始圖像特征;[x']表示處理后的具有不同噪聲情況的圖像特征。通過快速傅里葉變換將圖像特征轉(zhuǎn)變到頻域與轉(zhuǎn)換矩陣[DM]相乘之后,經(jīng)過快速傅里葉逆變換獲取轉(zhuǎn)換后的圖像特征[x']。
轉(zhuǎn)換矩陣的主要作用是濾除邊緣噪聲,經(jīng)過濾除后獲取不同噪聲情況下的特征輸入。構(gòu)造矩陣見公式(2)和式(3):
[DM=11+Ldisd2n] (2)
[Ldis=(Ci-xi)+(Cj-xj)] (3)
式中:[d]和[n]表示超參數(shù);[Ldis]表示每個點(diǎn)到中心點(diǎn)的距離,即歐氏距離;[C]表示中心點(diǎn)值;[xi]和[xj]表示其他點(diǎn)的值。
對獲取的圖像特征[x']設(shè)計不同于語義分支的學(xué)習(xí)策略。首先,由于原始圖像在空間上高度冗余,因此需要對圖像[x']進(jìn)行壓縮,通過初始化操作獲取初始化特征圖[xinit],再通過空洞卷積得到特征圖[x'e];然后將[x'e]與語義分支經(jīng)過第一層卷積輸出的特征圖[xs1]進(jìn)行拼接,得到特征圖[xspa];再經(jīng)過激活函數(shù),最后獲得空間信息特征[xssp]。整個過程描述如公式(4)所示:
[xssp=σConcatconvFinit(x'),xs1] (4)
1.2" 共享雙分支引導(dǎo)式學(xué)習(xí)
共享雙分支引導(dǎo)學(xué)習(xí)損失函數(shù)網(wǎng)絡(luò)如圖2所示,用于提取深度語義特征的語義分支,具有相較于空間分支更為復(fù)雜的結(jié)果和更多的先驗(yàn)知識。
因此,通過在線的方式將語義分支看作是教師模型,將空間分支看作學(xué)生模型,利用蒸餾將語義分支知識進(jìn)行精煉壓縮,引導(dǎo)空間分支學(xué)習(xí)。因此,整體損失函數(shù)可以描述為:
[?=?oral(pd,gd)+λ?KD(pc,ps)] (5)
式中:[?oral(?)]表示模型原始損失函數(shù);[pd]表示模型最終預(yù)測結(jié)果;[gd]表示真實(shí)標(biāo)簽;[λ]為超參數(shù);[pc]和[ps]分別表示上下文分支輸出層結(jié)果經(jīng)過“softmax”轉(zhuǎn)變后的類別概率,見公式(6),表示蒸餾的損失函數(shù)。通常采用KL散度作為損失函數(shù),具體見公式(7)。
[pi=exp(zi τ)jexp(zj τ)] (6)
[?KD=KLpcps=i=1Cpcilogpcipsi] (7)
2" 范圍松弛匹配學(xué)習(xí)
在不同訓(xùn)練策略的情況下,教師模型和學(xué)生模型之間的差異會增大。差異較大時,采用嚴(yán)苛的蒸餾方式即精準(zhǔn)蒸餾會干擾學(xué)生的判斷。此時,采用較為松弛的蒸餾方式更容易匹配教師和學(xué)生之間的關(guān)系。
用[d(a,b)]表示實(shí)現(xiàn)的匹配方式,例如,在傳統(tǒng)知識蒸餾中表示KL散度。因此,精準(zhǔn)匹配通過該方式可以表示為當(dāng)[a=b]時,[d(a,b)=0]。其中,[a]和[b]可以表示為兩個分支產(chǎn)生的結(jié)果[Y(s)i,:]和[Y(t)i,:],具體表示見公式(8)。文獻(xiàn)[3]提出了線性匹配的方式,表示為式(9)。
[Y(s)i,:=softmax(zsi,:τ)Y(t)i,:=softmax(zti,:τ)] (8)
[dφ(a),φ(b)=d(a,b)," " ?a,b] (9)
式中[φ(?)]表示匹配方式。
文獻(xiàn)[3]中選擇正線性匹配,即[φ(?)=m1a+n1]。該匹配方式可以表示為:
[d(m1a+n1,m2b+n2)=d(a,b)] (10)
然而經(jīng)過分析得出,線性匹配的松弛范圍會導(dǎo)致出現(xiàn)過度松弛的情況,直接放入到雙分支之間反而限制了模型的效果。為了解決該問題就需要另一種有限制的匹配方式,在保持松弛匹配的情況下,避免出現(xiàn)松弛范圍過大。因此,本文提出了范圍松弛匹配的方式,即將原匹配方式[φ(?)=m1a+n1]更改為新的匹配方式,即:[φr(?)=m11-a2],其中[m1]表示比例系數(shù)。式(10)則可以表示為:
[dm11-a2,m21-b2=d(a,b)] (11)
為了滿足式(11),采用廣泛的皮爾遜相關(guān)系數(shù)替代共享雙分支引導(dǎo)學(xué)習(xí)中的KL散度,具體見式(12)、式(13)。
[dp(u,v)=1-ρ(u,v)] (12)
式中:[u]和[v]代表匹配后特征,[u=m11-a2],[v=m21-b2]。
[ρp=Cov(u,v)Std(u)Std(v)=i=1B(u-u)(v-v)i=1B(ui-u)2j=1C(vj-v)2] (13)
式中:[Cov]表示協(xié)方差;[Std]表示標(biāo)準(zhǔn)差。通過一種松弛的方式保持教師和學(xué)生之間的有限制匹配關(guān)系,稱為范圍松弛類間匹配,表示為式(14),同時還需要考慮范圍松弛類內(nèi)匹配,見公式(15)。
[Linter=1Bi=1Bdp(Y(s)i,:,Y(t)i,:)] (14)
[Lintra=1Cj=1Cdp(Y(s):, j,Y(t):, j)] (15)
因此,整體的損失函數(shù)可以表示為:
[?=?oral(pd,gd)+λ?inter(pc,ps)+β?intra(pc,ps)] (16)
式中:[λ]和[β]表示超參數(shù)。
3" 實(shí)驗(yàn)結(jié)果
3.1" 數(shù)據(jù)集
實(shí)驗(yàn)將在兩個公開數(shù)據(jù)集上進(jìn)行驗(yàn)證,兩個數(shù)據(jù)集分別是UDD、UAVid。
為了方便訓(xùn)練,將兩個數(shù)據(jù)集的原始圖像剪切為512×512大小的圖像。UDD數(shù)據(jù)集中3 880張圖片作為訓(xùn)練集,1 280張圖片作為驗(yàn)證集。UAVid數(shù)據(jù)集用3 456張圖片作為訓(xùn)練集,2 016張圖片作為驗(yàn)證集。
3.2" 評估指標(biāo)
訓(xùn)練網(wǎng)絡(luò)時,采用Ubuntu 20.04操作系統(tǒng),基于mmsegmentation,Python 3.11.5,RTX GeForce 3080,PyTorch 2.1.2,CUDA 11.8,CuDNN 8.7。使用SGD優(yōu)化器,學(xué)習(xí)率設(shè)置為0.01,動量設(shè)置為0.9,最小學(xué)習(xí)率為1×10-4,訓(xùn)練周期為300epoch。
評價指標(biāo)采用mIoU(Mean Intersection over Union)。mIoU具體見公式(17),類別平均像素準(zhǔn)確率(mAP)具體見式(18)。
[mIoU=1ki=1kTPFN+FP+TP] (17)
[mAP=1k+1i=0kTPTP+FP] (18)
式中:TP表示真正例,模型預(yù)測為實(shí)例,實(shí)際為實(shí)例;FP表示假正例,模型預(yù)測為正例,實(shí)際為反例;FN表示假反例,模型為反例,實(shí)際為反例。
3.3" 消融實(shí)驗(yàn)
對本文所提出方法進(jìn)行消融實(shí)驗(yàn),旨在驗(yàn)證所提出方法的有效性,消融實(shí)驗(yàn)將分別在BiSeNetV1[4]、BiSeNetV2[5]、STDC[6]上進(jìn)行驗(yàn)證。通過將范圍松弛匹配嵌入到三個網(wǎng)絡(luò)中,對基線網(wǎng)絡(luò)進(jìn)行對比,從而驗(yàn)證本文方法的有效性。測試的具體效果如表1所示。
表中前四行為BiSeNetV1上的消融實(shí)驗(yàn),其中SGL表示共享雙分支引導(dǎo)式學(xué)習(xí),DIST表示原線性松弛匹配,RRM表示范圍松弛匹配。在UDD數(shù)據(jù)集上,范圍松弛匹配效果最佳,達(dá)到了82.1%,mAP達(dá)到了88.8%,較基線BiSeNetV1的mIoU提升了3.4%,較SGL提升1.5%,較DIST提升3%。值得注意的是,更改為DIST之后較之前工作SGL提升效果較差,從而可以表現(xiàn)出經(jīng)過DIST改進(jìn)后的提升效果。在UAVid數(shù)據(jù)集上,SGL、DIST可以看出提升效果不佳,且DIST較原來有減少。而經(jīng)過改進(jìn)后的范圍松弛匹配提升效果明顯。較BiSeNetV1mIoU提升了2.2%。
其次是范圍松弛匹配在BiSeNetV2上的效果,從表1中整體可以看出,RRM在BiSeNetV2上的提升效果明顯。首先是UDD數(shù)據(jù)集上的消融實(shí)驗(yàn),從表中可以看出,本文方法mIoU達(dá)到了78.3%,mAP達(dá)到了86.1%。RRM較基線提升了3.6%,較SGL提升了1.1%,較DIST提升了1.5%,mAP較基線提升2.9%。在UDD數(shù)據(jù)集上,整體可以看出較基線及SGL和RRM有提升。后四行為STDC數(shù)據(jù)集上的消融實(shí)驗(yàn)。整體較基線方法提升效果明顯。在UDD數(shù)據(jù)集上mIoU達(dá)到了85.8%,mAP達(dá)到了91.8%。在UAVid數(shù)據(jù)集上mIoU達(dá)到了73.8%,mAP達(dá)到了82.1%。
3.4" 對比實(shí)驗(yàn)
在UDD和UAVid數(shù)據(jù)集上的對比實(shí)驗(yàn)見表2和表3。對比實(shí)驗(yàn)的主要目的是通過將經(jīng)過改進(jìn)后的方法與現(xiàn)有其他方法進(jìn)行對比,體現(xiàn)出本文方法相較于大部分方法的競爭力。
表2為UDD數(shù)據(jù)集上的對比效果,從整體上看本文方法較其他方法效果要好。其中mIoU達(dá)到了85.8%。在Veg.和Roof類別達(dá)到了最高,F(xiàn)ac.和Roa.接近最高,與最高相差0.1。在Veh.方面精度較低。但從整體可以看出本文方法有一定競爭力。表3為UAVid數(shù)據(jù)集上的對比實(shí)驗(yàn),從對比實(shí)驗(yàn)中可以看出本文較大部分方法效果要好,從而體現(xiàn)出了本文方法的優(yōu)勢。
4" 結(jié)" 語
本文提出了一種用于雙分支語義分割網(wǎng)絡(luò)之間的范圍松弛匹配方式。通過范圍松弛匹配學(xué)習(xí)提高了模型的性能,避免了之前精準(zhǔn)匹配導(dǎo)致的空間分支與語義分支之間存在差異導(dǎo)致部分?jǐn)?shù)據(jù)集性能不理想的問題,且避免了線性匹配在雙分支之間出現(xiàn)過于松弛而導(dǎo)致的梯度爆炸,從而使空間分支有效地學(xué)習(xí)到語義分支凝練的知識,且在知識蒸餾過程中,知識凝練必然會導(dǎo)致部分信息丟失,通過精準(zhǔn)匹配會導(dǎo)致學(xué)習(xí)到錯誤信息,范圍松弛匹配可以避免該問題。本文通過實(shí)驗(yàn)驗(yàn)證了范圍松弛匹配的有效性和泛化性,并且在UDD數(shù)據(jù)集上mIoU達(dá)到了85.8%,在UAVid數(shù)據(jù)集上mIoU達(dá)到了73.8%,較基線網(wǎng)絡(luò)都有提升,較其他語義分割網(wǎng)絡(luò)有一定的優(yōu)勢。
注:本文通訊作者為麥超云。
參考文獻(xiàn)
[1] KYRKOU C, THEOCHARIDES T. EmergencyNet: Efficient aerial image classification for drone?based emergency monitoring using atrous convolutional feature fusion [J]. IEEE journal of selected topics in applied earth observations and remote sensing, 2020, 13: 1687?1699.
[2] SONG Z S, ZHANG Z T, YANG S Q, et al. Identifying sunflower lodging based on image fusion and deep semantic segmentation with UAV remote sensing imaging [J]. Computers and electronics in agriculture, 2020, 179: 105812.
[3] HUANG T, YOU S, WANG F, et al. Knowledge distillation from a stronger teacher [C]// Advances in Neural Information Processing Systems 35: Annual Conference on Neural Information Processing Systems 2022. [S.l.: s.n.], 2022: 33716?33727.
[4] YU C Q, WANG J B, PENG C, et al. BiSeNet: Bilateral segmentation network for real?time semantic segmentation [C]// Proceedings of the European Conference on Computer Vision (ECCV). Heidelberg: Springer, 2018: 334?349.
[5] YU C Q, GAO C X, WANG J B, et al. BiSeNet V2: Bilateral network with guided aggregation for real?time semantic segmentation [J]. International journal of computer vision, 2021, 129(11): 3051?3068.
[6] FAN M Y, LAI S Q, HUANG J S, et al. Rethinking BiSeNet for real?time semantic segmentation [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2021: 9716?9725.
[7] ZHENG S X, LU J C, ZHAO H S, et al. Rethinking semantic segmentation from a sequence?to?sequence perspective with transformers [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2021: 6881?6890.
[8] ZHANG Y M, HSIEH J W, LEE C C, et al. SFPN: Synthetic FPN for object detection [C]// 2022 IEEE International Conference on Image Processing (ICIP). New York: IEEE, 2022: 1316?1320.
[9] KIRILLOV A, WU Y X, HE K M, et al. Pointrend: Image segmentation as rendering [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2020: 9796?9805.
[10] POUDEL R P K, LIWICKI S, CIPOLLA R. Fast?SCNN: Fast semantic segmentation network [EB/OL]. [2021?02?03]. http://arxiv.org/abs/1902.04502.
[11] LIU Z, MAO H Z, WU C Y, et al. A ConvNet for the 2020s [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2022: 11966?11976.
[12] CHEN L C, ZHU Y K, PAPANDREOU G, et al. Encoder?decoder with atrous separable convolution for semantic image segmentation [C]// Proceedings of the European Conference on Computer Vision (ECCV). Heidelberg: Springer, 2018: 833?851.
[13] ZHU Z, XU M D, BAI S, et al. Asymmetric non?local neural networks for semantic segmentation [C]// Proceedings of the IEEE/CVF International Conference on Computer Vision. New York: IEEE, 2019: 593?602.
[14] FU J, LIU J, TIAN H J, et al. Dual attention network for scene segmentation [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2019: 3146?3154.
[15] WU H K, ZHANG J G, HUANG K Q, et al. FastFCN: Rethinking dilated convolution in the backbone for semantic segmentation [EB/OL]. [2019?04?02]. http://arxiv.org/abs/1903.11816.
[16] ZHAO H S, QI X J, SHEN X Y, et al. ICNet for real?time semantic segmentation on high?resolution images [C]// Proceedings of the European Conference on Computer Vision (ECCV). Heidelberg: Springer, 2018: 418?434.
[17] HE J J, DENG Z Y, ZHOU L, et al. Adaptive pyramid context network for semantic segmentation [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2019: 7519?7528.
[18] ROMERA E, ALVAREZ J M, BERGASA L M, et al. ERFNet: Efficient residual factorized ConvNet for real?time semantic segmentation [J]. IEEE transactions on intelligent transportation systems, 2018, 19(1): 263?272.
[19] ZHANG H, DANA K J, SHI J P, et al. Context encoding for semantic segmentation [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2018: 7151?7160.
[20] HOWARD A, SANDLER M, CHU G, et al. Searching for MobileNetV3 [EB/OL]. [2021?05?27]. http://arxiv.org/abs/1905.02244.
[21] YUAN Y H, CHEN X L, WANG J D. Object?contextual representations for semantic segmentation [C]// Proceedings of 16th European Conference on Computer Vision. Heidelberg: Springer, 2020: 173?190.
[22] CHEN Y, WANG Y, LU P, et al. Large?scale structure from motion with semantic constraints of aerial images [C]// Proceedings of First Chinese Conference on Pattern Recognition and Computer Vision. Heidelberg: Springer, 2018: 347?359.
[23] XIE E Z, WANG W H, YU Z D, et al. SegFormer: Simple and efficient design for semantic segmentation with transformers [C]// Advances in Neural Information Processing Systems 34: Annual Conference on Neural Information Processing Systems 2021. [S.l.: s.n.], 2021: 12077?12090.
[24] ZHAO H S, ZHANG Y, LIU S, et al. PSANet: Point?wise spatial attention network for scene parsing [C]// Proceedings of the European Conference on Computer Vision (ECCV). Heidelberg: Springer, 2018: 270?286.
作者簡介:麥超云(1989—),男,廣東江門人,博士研究生,副教授,研究方向?yàn)樾盘柵c信息處理。
吳易博(1997—),男,河南洛陽人,碩士研究生,研究方向?yàn)榈涂沼驘o人機(jī)語義分割。
張洪燚(1999—),男,河南洛陽人,碩士研究生,研究方向?yàn)閳D像處理。
王倩文(2001—),女,安徽阜陽人,碩士研究生,研究方向?yàn)閳D像處理。
洪曉純(1999—),女,廣東潮州人,碩士研究生,研究方向?yàn)閳D像處理。
柯曉鵬(2000—),男,廣東汕頭人,碩士研究生,研究方向?yàn)樾盘柼幚怼?/p>