張志文,劉天歌,聶鵬舉
(燕山大學(xué)信息科學(xué)與工程學(xué)院,河北秦皇島 066000)
語義分割的目的是為每個(gè)圖像像素分配密集標(biāo)簽[1],是計(jì)算機(jī)視覺的一項(xiàng)重要任務(wù),在自動(dòng)駕駛、視頻監(jiān)控、機(jī)器人傳感等領(lǐng)域具有許多潛在的應(yīng)用前景[2,3].隨著全卷積神經(jīng)網(wǎng)絡(luò)(Fully Convolutional Networks,F(xiàn)CN)[4]的提出,以FCN 為基礎(chǔ)的網(wǎng)絡(luò)[5~8]不斷地提高著語義分割的性能.然而在實(shí)際應(yīng)用中,如何在保持高效推理速度的同時(shí),保證分割結(jié)果的精確性,仍亟待解決.
現(xiàn)有高精度分割算法很難滿足街景圖像實(shí)時(shí)性的要求.比如殘差網(wǎng)絡(luò)(Residual Networks,ResNet38)[9]和金字塔場景解析網(wǎng)絡(luò)(Pyramid Scene Parsing Networks,PSPNet)[10]等方法,在Nvidia 1080Ti GPU 上預(yù)測(cè)一張1 024×2 048 分辨率圖像需要大約1 s 的時(shí)間.圖像級(jí)聯(lián)網(wǎng)絡(luò)(Image Cascade Neworks,ICNet)[11]設(shè)計(jì)了一種圖像級(jí)聯(lián)網(wǎng)絡(luò),使用級(jí)聯(lián)圖像輸入(即低、中、高分辨率圖像),其中低分辨率分支用來獲取語義信息,中、高分辨率分支進(jìn)行粗糙預(yù)測(cè)的恢復(fù)和細(xì)化.SwiftNet[12]提出了一種基于共享參數(shù)的分辨率金字塔來增加深度模型感受野的新方法,通過一個(gè)帶有橫向連接的輕量級(jí)編碼器,有效提高了預(yù)測(cè)的準(zhǔn)確性.但上述兩種方法的推理速度仍難以滿足實(shí)時(shí)性要求.其他一些方法[13~15]通過降低分辨率和減少特征通道,降低計(jì)算成本來滿足實(shí)時(shí)性,但卻導(dǎo)致了網(wǎng)絡(luò)性能的下降.
另一方面,由于街景圖像具有光照變化明顯、目標(biāo)遮擋嚴(yán)重、類別分布不均衡等特點(diǎn),因此整體分割精度不高,小物體的分割尤為明顯.然而,小目標(biāo)(例如交通燈、交通標(biāo)志等)在街景圖像分割任務(wù)中通常十分重要.以上問題一定程度上阻礙了街景圖像實(shí)時(shí)分割的可應(yīng)用性,因此,對(duì)街景圖像分割技術(shù)的進(jìn)一步研究具有非常重要的現(xiàn)實(shí)意義.
為了解決以上問題,本文建立了一個(gè)快速的語義分割網(wǎng)絡(luò),該網(wǎng)絡(luò)由細(xì)節(jié)路徑和空間路徑組成,網(wǎng)絡(luò)還包括兩個(gè)特有模塊:圖像預(yù)處理模塊和條狀注意力細(xì)化模塊,同時(shí),本文設(shè)計(jì)了基于小目標(biāo)重組的數(shù)據(jù)增強(qiáng)算法來提升分割結(jié)果.本文的主要貢獻(xiàn)如下:
(1)提出了基于小目標(biāo)重組的數(shù)據(jù)增強(qiáng)方法,通過在一張街景圖像上選取合適的小目標(biāo),利用對(duì)應(yīng)標(biāo)簽復(fù)制小目標(biāo),并在另一張圖像中,根據(jù)語義信息選取合適位置粘貼復(fù)制的小目標(biāo),同時(shí)利用直方圖匹配來解決小目標(biāo)和背景光照不一致的問題,該算法可以提升分割結(jié)果2%的平均交并比(mIoU).
(2)設(shè)計(jì)了一種新型的雙路徑實(shí)時(shí)語義分割網(wǎng)絡(luò),分為細(xì)節(jié)路徑和空間路徑,與其他雙路徑網(wǎng)絡(luò)不同,本文網(wǎng)絡(luò)的兩條路徑不是相互獨(dú)立的,而是將細(xì)節(jié)路徑產(chǎn)生的不同分辨率的特征圖作為空間路徑輸入的一部分,實(shí)現(xiàn)不同尺度信息的交流和融合,更好地獲取圖像中的語義信息.
(3)設(shè)計(jì)了基于不同光照程度的圖像預(yù)處理模塊,并把它嵌入到網(wǎng)絡(luò)中,通過可訓(xùn)練參數(shù)來調(diào)控輸入圖像的亮度和對(duì)比度,使不同光照的街景圖像在RGB 通道上分別具有亮度和對(duì)比度的一致性.
(4)設(shè)計(jì)了一個(gè)條狀注意力細(xì)化模塊,該模塊同時(shí)包含全局池化和條狀池化,其中全局池化獲取全局信息,條狀池化增強(qiáng)細(xì)長形物體的特征表示,把全局信息和局部條狀信息結(jié)合起來,使用該模塊,可以提升結(jié)果3%的mIoU.
多尺度信息:由于圖像中的物體大小不同,所以多尺度信息對(duì)分割結(jié)果起到十分重要的作用.圖像分割網(wǎng)絡(luò)Deeplab-V3[16]利用空洞卷積來控制感受野.PSPNet[10]直接采用不同大小的池化操作來獲取多尺度信息.但是上述方法依賴于計(jì)算量,不適用于實(shí)時(shí)語義分割.Inception[17~19]系列設(shè)計(jì)了4 個(gè)并行的具有不同卷積核的分支結(jié)構(gòu),最后對(duì)4 個(gè)通道進(jìn)行組合,但同時(shí)也增加了計(jì)算量.深層特征聚合網(wǎng)絡(luò)(Deep Feature Aggregation Networks,DFANet)[20]提出了一個(gè)具有多次連接結(jié)構(gòu)的語義分割模塊來最大化多尺度感受野.雙邊網(wǎng)絡(luò)BiSeNetV2[21]提出了一種雙分支分割網(wǎng)絡(luò),利用細(xì)節(jié)分支獲取細(xì)節(jié)信息,空間分支擴(kuò)大感受野,并有效融合二者.HyperSeg[22]設(shè)計(jì)了一種嵌套的U 型網(wǎng)絡(luò)用于獲取多尺度語義信息.上述3 種算法只適用于低分辨率街景圖像,當(dāng)輸入的街景圖像分辨率較大時(shí),推理速度會(huì)明顯下降.
注意力機(jī)制:注意力機(jī)制可以利用高層信息來指導(dǎo)前饋網(wǎng)絡(luò),凍結(jié)激活網(wǎng)絡(luò)(Squeeze-and-Excitation Networks,SENet)[23]對(duì)特征圖作Squeeze 和Excitation 操作從而對(duì)不同通道特征圖加權(quán).條狀池化網(wǎng)絡(luò)(Strip Pooling Networks,SPNet)[24]則利用了條狀注意力模塊來提高捕獲遠(yuǎn)程空間依賴關(guān)系和利用通道間依賴項(xiàng)的能力.全局信息和局部信息對(duì)于語義分割同等重要,但上述注意力模塊均未同時(shí)考慮二者.
數(shù)據(jù)增強(qiáng):利用合成數(shù)據(jù)集進(jìn)行數(shù)據(jù)增強(qiáng)在近年來得到了廣泛的關(guān)注.在文獻(xiàn)[25,26]中,合成圖像是通過從真實(shí)世界的圖像中復(fù)制對(duì)象并簡單地粘貼在前者中而生成的,在目標(biāo)檢測(cè)方面取得了好的結(jié)果.在文獻(xiàn)[27]中,作者利用已知的真實(shí)標(biāo)簽來增加小物體到城市場景中,使用類似的“復(fù)制粘貼”策略,同時(shí)指出過多或者過少的小目標(biāo)都不能最大限度地提升分割結(jié)果.但是該策略沒有考慮到圖像之間的光照程度不同的問題,導(dǎo)致粘貼的小物體與背景不匹配,引入了大量噪聲.
本文通過“復(fù)制粘貼”小目標(biāo)來對(duì)數(shù)據(jù)集進(jìn)行增強(qiáng),本文對(duì)小目標(biāo)(如CityScapes 數(shù)據(jù)集中的欄桿、交通燈等)均進(jìn)行數(shù)據(jù)增強(qiáng),從而使訓(xùn)練集中的圖像擴(kuò)充一倍,同時(shí)可以有效增加小目標(biāo)在訓(xùn)練集中所占的比例,從而提升了網(wǎng)絡(luò)的分割結(jié)果準(zhǔn)確性.
基于小目標(biāo)重組算法的數(shù)據(jù)增強(qiáng)算法如圖1 所示.其中h代表小目標(biāo)最低點(diǎn)在圖像中的縱坐標(biāo),h+10 與h-10 是待插入?yún)^(qū)域的最高與最低點(diǎn)縱坐標(biāo),圖1 左半部分展示了直接將小目標(biāo)物體插入到待插入圖像中的算法流程圖,圖1 右半部分展示了將原圖與待插入圖像直方圖匹配后插入小目標(biāo)物體的算法流程圖.
圖1 基于小目標(biāo)重組算法的數(shù)據(jù)增強(qiáng)算法示意圖
本文算法將共同出現(xiàn)的小目標(biāo)(如交通燈和電線桿等)同時(shí)提取.同時(shí),將小目標(biāo)粘貼到合適位置,如電線桿粘貼在人行道上,確保插入后符合語義信息.數(shù)據(jù)增強(qiáng)算法如算法1所示.
基于小目標(biāo)重組算法的數(shù)據(jù)增強(qiáng)算法結(jié)果如圖2所示,圖中分別展示了待插入圖像、小目標(biāo)所在圖像、直方圖匹配后的小目標(biāo)所在圖像、僅使用復(fù)制粘貼算法所生成的結(jié)果,以及使用本文算法所生成的結(jié)果.圖中紅色框標(biāo)識(shí)的為插入小目標(biāo),由圖2 可以看到,使用本文算法與僅使用復(fù)制粘貼算法[26]相比,插入小目標(biāo)后的街景圖像更自然.
圖2 基于小目標(biāo)重組算法的數(shù)據(jù)增強(qiáng)算法結(jié)果展示
本文的網(wǎng)絡(luò)整體架構(gòu)如圖3所示,網(wǎng)絡(luò)骨干部分由細(xì)節(jié)路徑和空間路徑組成;網(wǎng)絡(luò)中還包含圖像預(yù)處理模塊,注意力細(xì)化模塊和特征融合模塊,其中特征融合模塊為BiSeNetV2[21]所設(shè)計(jì)的特征融合模塊,故之后不做詳細(xì)介紹.本文還在空間路徑每個(gè)卷積塊的輸出位置加入了輔助損失函數(shù).
圖3 網(wǎng)絡(luò)結(jié)構(gòu)
3.2.1 光照預(yù)處理模塊
由于街景圖像的光照變化明顯,同時(shí)訓(xùn)練集有限,所以網(wǎng)絡(luò)在實(shí)際預(yù)測(cè)時(shí)結(jié)果往往很差,其部分原因是圖像預(yù)處理通常使用z-score 歸一化,但訓(xùn)練集與預(yù)測(cè)圖像的分布有一定差異.針對(duì)這一問題,本文設(shè)計(jì)了一個(gè)預(yù)處理模塊,對(duì)圖像作線性和非線性變化,優(yōu)化了街景圖像光照不同的問題,同時(shí),該模塊隨神經(jīng)網(wǎng)絡(luò)一起,實(shí)現(xiàn)了端到端訓(xùn)練.該模塊的步驟如算法2所示.
通過觀察圖4街景圖像的直方圖發(fā)現(xiàn),光照程度越強(qiáng)的圖像在直方圖上數(shù)值越大,所以預(yù)處理模塊首先使用伽馬變換改變圖像的直方圖分布,γ代表直方圖的偏移量,γ<1 時(shí),直方圖右移;γ>1 時(shí),直方圖左移.本文用圖像在每個(gè)通道上的均值代替γ,經(jīng)過伽馬變換后,不同光照的街景圖像在直方圖上的分布趨于一致,但圖像均值和方差仍有很大差異,因此本文引入線性變化控制圖像均值和方差.
圖4 街景圖像直方圖
此外,本文引入了可訓(xùn)練參數(shù)α,β來控制l和d,使RGB 三個(gè)通道的信息相互交流,其中α為對(duì)比度調(diào)節(jié)因子,β為亮度調(diào)節(jié)因子,如式(1)所示.
圖像預(yù)處理模塊詳細(xì)設(shè)計(jì)如圖5所示.通過1×1卷積實(shí)現(xiàn)α,β的訓(xùn)練,從而對(duì)l和d起到調(diào)控作用,又可以加強(qiáng)RGB 三通道的信息交互.不同光照的街景圖像經(jīng)過預(yù)處理模塊后保持亮度和對(duì)比度的一致性.同時(shí),圖像預(yù)處理模塊的運(yùn)算量可以忽略.
圖5 光照預(yù)處理模塊
3.2.2 特征融合
BiSeNetV2[21]提出的雙分支分割網(wǎng)絡(luò),其兩個(gè)分支相互獨(dú)立,只通過特征融合模塊融合了兩個(gè)分支的最終特征.如圖3 所示,本文網(wǎng)絡(luò)采用橫向連接方式將細(xì)節(jié)路徑的信息不斷傳向空間路徑,并利用特征融合模塊融合兩條路徑的信息.同時(shí),本文在空間路徑設(shè)計(jì)了空間多尺度模塊,利用不同大小的卷積核獲取并融合不同特征.這些設(shè)計(jì)使得網(wǎng)絡(luò)可以更好地融合不同的特征.
考慮到運(yùn)行時(shí)間,本文的細(xì)節(jié)路徑只包含3×3 卷積,如表1 所示,網(wǎng)絡(luò)的細(xì)節(jié)路徑包含4 個(gè)階段,其中第2~4 階段所產(chǎn)生的特征圖將送到空間路徑.本文細(xì)節(jié)路徑在第一個(gè)階段使用兩個(gè)步長為2 的3×3 卷積降低圖像分辨率,節(jié)省推理時(shí)間,同時(shí)保留一定的細(xì)節(jié)信息.細(xì)節(jié)路徑的作用在于獲取細(xì)節(jié)信息,以及為空間路徑提供高質(zhì)量特征圖.
表1 細(xì)節(jié)路徑
相對(duì)于細(xì)節(jié)路徑,網(wǎng)絡(luò)的空間路徑設(shè)計(jì)的更為復(fù)雜,其利用細(xì)節(jié)路徑提供的1/8,1/16和1/32的特征圖去獲取多尺度信息,以此來緩解信息丟失的問題.空間路徑的詳細(xì)設(shè)計(jì)如表2所示.
表2 空間路徑
本文空間路徑由空間多尺度模塊(Space Multiscale Module,SMM)組成,圖6中詳細(xì)展示了SMM 模塊,其中圖6(a)和圖6(b)是空間路徑的基礎(chǔ)模塊,當(dāng)步長為1時(shí),使用圖6(a)模塊;當(dāng)步長為2時(shí),使用圖6(b)模塊.圖6(a)和圖6(b)中的MGConv,即圖6(c)模塊,是SMM 模塊的核心組成,多尺度卷積在圖6(c)中完成,考慮到推理時(shí)間的要求,該模塊中的卷積為分組卷積[28],分組數(shù)為輸入特征圖的數(shù)量,相當(dāng)于分別在每張?zhí)卣鲌D上做卷積,而不進(jìn)行通道間的信息交互.分組卷積的擴(kuò)展比為6,即輸出特征圖是分組數(shù)的6倍.該模塊首先將特征圖按照1∶2∶1的比例分成三部分,分別用1×3、3×3和3×1卷積核進(jìn)行分組卷積,之后將分組卷積得到的特征圖疊加,該模塊很好地獲取了多尺度信息,同時(shí),相比只使用3×3分組卷積,計(jì)算量減少了2/3.
圖6 空間多尺度模塊(SMM)
3.2.3 注意力模塊
在注意力模塊中,本文利用全局池化來捕捉全局信息,同時(shí)計(jì)算一個(gè)注意力向量來對(duì)通道級(jí)的特征進(jìn)行加權(quán),指導(dǎo)特征學(xué)習(xí).本文采用條形池化來獲取條狀信息,并將其與全局注意力進(jìn)行結(jié)合,增強(qiáng)如欄桿等條狀物體的特征表示.
該模塊如圖7所示,包含一個(gè)全局池化和兩個(gè)條狀池化,條狀池化的大小分別為(1×W)和(H×1),其中(H,W)是輸入特征圖的尺寸,該模塊可由式(2)表示:
圖7 注意力細(xì)化模塊
其中,fin和fout代表輸入和輸出特征,ki是可訓(xùn)練參數(shù),對(duì)于全局注意力來說mean()代表全局均值,而對(duì)于條狀注意力來說,mean()代表?xiàng)l狀均值,即特征圖的行或者列均值.本文提出的注意力模塊實(shí)現(xiàn)了對(duì)通道級(jí)信息和局部條狀信息的選取和組合.
3.2.4 損失函數(shù)
除了網(wǎng)絡(luò)最終的預(yù)測(cè)損失,本文還引入多個(gè)輔助損失來監(jiān)督網(wǎng)絡(luò)訓(xùn)練,增強(qiáng)網(wǎng)絡(luò)的特征表示,如圖3 所示,本文在每個(gè)空間路徑卷積塊之后插入輔助損失.
如式(3)所示,網(wǎng)絡(luò)的損失函數(shù)是最終的分割損失和輔助損失的總和.其中p和q分別是輔助損失和最后損失的系數(shù),本文在訓(xùn)練網(wǎng)絡(luò)時(shí),將p和q設(shè)為1.
其中,loss1為分割損失,loss2為輔助損失,二者計(jì)算方法相同,均如式(4)所示,為交叉熵?fù)p失與mIoU 損失之和.該公式的前半部分為交叉熵?fù)p失函數(shù),解決mIoU損失的訓(xùn)練不穩(wěn)定的問題;后半部分為mIoU 損失,一定程度上解決正負(fù)樣本不平衡問題.
其中,N代表類別數(shù),輔助損失函數(shù)中,ytrue表示對(duì)應(yīng)分辨率標(biāo)簽,ypred表示空間路徑的預(yù)測(cè)概率值;最終預(yù)測(cè)損失函數(shù)中,ytrue為真實(shí)標(biāo)簽,ypred為網(wǎng)絡(luò)最后的預(yù)測(cè)概率值.
本文分析了不同優(yōu)化器之間的優(yōu)缺點(diǎn),采用文獻(xiàn)[29]提出的方法,即隨機(jī)梯度下降法(Stochastic Gradient Descent,SGD)和Adam 配合使用,前期使用Adam 快速收斂,后期切換到SGD,避免Adam 所產(chǎn)生的振蕩問題.
對(duì) 于CityScapes[30]數(shù)據(jù)集的前40 000 次迭代 和CamVid[31]數(shù)據(jù)集的前20 000 次迭代,本文使用Adam優(yōu)化器,初始學(xué)習(xí)率為1e-3,bata_1 為0.9,beta_2 為0.999.對(duì)于CityScapes 數(shù)據(jù)集的最后10 000 次迭代和CamVid 數(shù)據(jù)集的最后5 000 次迭代,使用SGD 優(yōu)化器,動(dòng)量為0.9,權(quán)重衰減為1e-5,使用“poly”學(xué)習(xí)率策略,初始學(xué)習(xí)率設(shè)為1e-2.對(duì)于CityScapes 數(shù)據(jù)集,批處理大小為10,對(duì)于CamVid數(shù)據(jù)集,批處理大小為16.在數(shù)據(jù)增強(qiáng)方面,本文使用隨機(jī)水平翻轉(zhuǎn)、隨機(jī)縮放和隨機(jī)裁剪策略,隨機(jī)縮放尺度在[0.75,2]范圍內(nèi).CityScapes裁剪分辨率大小為1 024×2 048,CamVid 裁剪分辨率大小為720×960.
本文不采用任何可以提升分割準(zhǔn)確率的評(píng)估技巧,比如圖像翻轉(zhuǎn)和多尺度測(cè)試.對(duì)于1 024×2 048 分辨率大小的圖像,本文只使用一張1080Ti 卡來測(cè)量推理時(shí)間,并重復(fù)1 000 次迭代,以減小誤差.同時(shí),本文采用mIoU來衡量分割精度.
在這一小節(jié)中,本文詳細(xì)研究了框架中每個(gè)模塊的影響.在下面的實(shí)驗(yàn)中,使用相同的網(wǎng)絡(luò)結(jié)構(gòu),且網(wǎng)絡(luò)中的訓(xùn)練策略完全一致,分別對(duì)添加各個(gè)模塊前后的網(wǎng)絡(luò)在CityScapes[30]和CamVid[31]數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)和評(píng)估,對(duì)于CityScapes 數(shù)據(jù)集,本文用驗(yàn)證集進(jìn)行評(píng)估.
4.2.1 數(shù)據(jù)增強(qiáng)
為了驗(yàn)證數(shù)據(jù)增強(qiáng)算法的有效性,本文在CityScapes 數(shù)據(jù)集上做了相關(guān)實(shí)驗(yàn),統(tǒng)計(jì)了每個(gè)類別的分割結(jié)果,實(shí)驗(yàn)結(jié)果如表3所示.
由表3 可以看出,與不使用數(shù)據(jù)增強(qiáng)算法相比,使用本文數(shù)據(jù)增強(qiáng)算法的8 類小目標(biāo)的IoU 全部得到了提升,同時(shí),由于本文算法可以有效擴(kuò)充訓(xùn)練數(shù)據(jù),其他未使用數(shù)據(jù)增強(qiáng)的類別結(jié)果也得到了提升.本文算法的mIoU 比不使用數(shù)據(jù)增強(qiáng)的算法的mIoU 提升了2%,比只“復(fù)制粘貼”算法[26]的mIoU 提升了1.1%.本文的數(shù)據(jù)增強(qiáng)算法同樣適用于其他街景圖像分割網(wǎng)絡(luò).
表3 數(shù)據(jù)增強(qiáng)實(shí)驗(yàn)結(jié)果
圖8 展示了CityScapes 數(shù)據(jù)集的可視化分割結(jié)果,其中第一列為街景圖像原圖,第二列為圖像標(biāo)簽,第三列為不使用數(shù)據(jù)增強(qiáng)算法所得到的結(jié)果,第四列為使用本文算法所得到的結(jié)果.圖中紅框標(biāo)識(shí)的為不使用數(shù)據(jù)增強(qiáng)算法所產(chǎn)生的錯(cuò)分區(qū)域,可以看出,錯(cuò)分區(qū)域得到了明顯改善.
圖8 數(shù)據(jù)增強(qiáng)結(jié)果展示
4.2.2 預(yù)處理模塊
為了驗(yàn)證圖像預(yù)處理模塊的有效性,本文在Cam-Vid 數(shù)據(jù)集和CityScapes 數(shù)據(jù)集做了相關(guān)實(shí)驗(yàn),如表4所示.
表4 預(yù)處理模塊結(jié)果
預(yù)處理模塊能夠有效提升CamVid 數(shù)據(jù)集分割效果,但對(duì)于CityScapes 數(shù)據(jù)集基本沒有提升.其原因在于CamVid 數(shù)據(jù)集包含圖像較少,且光線變化強(qiáng)烈.相比之下,CityScapes 數(shù)據(jù)集只包含白天的街景圖像,而且訓(xùn)練集足夠大.因此本文只對(duì)CamVid 數(shù)據(jù)集使用圖像預(yù)處理模塊.
4.2.3 注意力模塊
為了驗(yàn)證本文條狀注意力細(xì)化模塊的作用,本文在CityScapes數(shù)據(jù)集上進(jìn)行了以下實(shí)驗(yàn).實(shí)驗(yàn)結(jié)果如表5所示.
表5 注意力模塊結(jié)果
圖9 展示了3 個(gè)實(shí)驗(yàn)在CityScapes 數(shù)據(jù)集上的可視化結(jié)果,其中第一列為街景圖像原圖,第二列為圖像標(biāo)簽,第三列為不使用注意力模塊所得到的分割結(jié)果,第四列為使用注意力模塊所得到的分割結(jié)果.圖中紅框標(biāo)識(shí)的為不使用數(shù)據(jù)增強(qiáng)算法所產(chǎn)生的錯(cuò)分區(qū)域,使用本文的注意力模塊后,錯(cuò)分區(qū)域得到了明顯改善.
圖9 注意力細(xì)化模塊結(jié)果展示
4.2.4 空間多尺度模塊
本文在空間路徑中設(shè)計(jì)了空間多尺度模塊,本文在CityScapes 數(shù)據(jù)集和CamVid 數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),統(tǒng)計(jì)了每秒處理幀數(shù)(FPS)和mIoU,實(shí)驗(yàn)結(jié)果如表6所示.
表6 空間多尺度聚合模塊
在推理速度方面,空間多尺度模塊對(duì)輸入圖像尺寸敏感,隨著輸入圖像尺寸增大,其對(duì)推理速度影響減小.在推理準(zhǔn)確度方面,空間多尺度模塊具有比較穩(wěn)定的提升,該模塊可提升同一數(shù)據(jù)集mIoU約1%.
在本節(jié)中,本文將上述最佳模型與2個(gè)基準(zhǔn)數(shù)據(jù)集的其他先進(jìn)的方法進(jìn)行比較.
CitysSapes:CityScapes 數(shù)據(jù)集的輸入尺寸分為512×1 024[20~22,32~36]和1 024×2 048[4,10~12,37~43]兩組,本文網(wǎng)絡(luò)針對(duì)高分辨率圖像,故主要與其余輸入為1 024×2 048的模型進(jìn)行對(duì)比.如表7所示.
表7 CityScapes實(shí)驗(yàn)結(jié)果
由表7 可以看出,對(duì)于高分辨率的街景圖像,本文所提出方法的推理速度明顯優(yōu)于最先進(jìn)方法,同時(shí)保持了較高的分割精度準(zhǔn)確性.對(duì)于CityScapes 數(shù)據(jù)集,對(duì)比1 024×2 048 的輸入,本文方法同樣達(dá)到了最快的推理速度,比其余方法中最快的SwiftNet[12]要快58 FPS,是其速度的2倍以上.綜上所述,本文的方法在分割速度上取得了現(xiàn)有領(lǐng)先水平,同時(shí)保持了高精度的分割.
CamVid:CamVid 數(shù)據(jù)集的輸入尺寸為720×960,本文與其他實(shí)時(shí)分割網(wǎng)絡(luò)[11,15,20,21,31,40]進(jìn)行比較,比較的指標(biāo)包括FPS和mIoU.如表8所示.
表8 CamVid實(shí)驗(yàn)結(jié)果
本文方法在CamVid 數(shù)據(jù)集上達(dá)到了65.7%的mIoU 和208 FPS,在對(duì)比算法中是唯一一個(gè)超過200 FPS 的,與ENet[15]、DFANetA[20]、DFANetB[20]、RefineNet[40]、BiSeNetV1[36]相比,本文方法在mIoU 和FPS上都取得了領(lǐng)先地位;與ICNet[11]、SwiftNet[12]等網(wǎng)絡(luò)相比,本文方法雖然在mIoU 上相對(duì)落后,但推理速度比ICNet[11]快180 FPS,比BiSeNetV1-L[36]快92 FPS,比BiSeNetV2[21]快83.5 FPS,比BiSeNetV2-L[21]快175 FPS.在CamVid 數(shù)據(jù)集上與現(xiàn)有方法相比,本文方法在推理速度上取得了極大的領(lǐng)先,同時(shí)保持了較高的分割精度.同時(shí)本文的參數(shù)數(shù)量只有3.4 M,只比ENet[15]的參數(shù)量多.
本文提出了一種新的雙路徑分割網(wǎng)絡(luò),極大提升了街景圖像實(shí)時(shí)語義分割的性能.本文設(shè)計(jì)了光照預(yù)處理模塊來處理不同光照的圖像,提升了不同光照?qǐng)D像的分割精度;本文設(shè)計(jì)了特殊的注意力模塊,同時(shí)對(duì)全局和局部特征進(jìn)行組合;本文設(shè)計(jì)了基于小目標(biāo)重組的圖像增強(qiáng)算法,有效擴(kuò)充數(shù)據(jù)集,使mIoU提升了1.8%.最后,本文驗(yàn)證了所提算法在CityScapes 和CamVid 基準(zhǔn)數(shù)據(jù)集上的有效性.對(duì)于輸入尺寸為1 024×2 048 的CityScapes數(shù)據(jù)集,F(xiàn)PS和mIoU分別達(dá)到了98和70.1%;對(duì)于輸入尺寸為720×960 的CamVid 數(shù)據(jù)集,F(xiàn)PS 和mIoU分別達(dá)到了208和65.7%.結(jié)果顯示本文方法在速度上取得極大提升的同時(shí)保持了分割精度.