西安石油大學 王小南
本文主要針對OCRNet能夠增強上下文表征的優(yōu)點進行了增強研究,使用了圖卷積推理模塊,以及Lovasz SoftmaxLoss損失函數(shù)。在第二節(jié)進行了詳細的網絡結構敘述,包括了Backbone,圖推理模塊,OCRNet模塊,然后給出了實驗過程的數(shù)據(jù)可視化和實驗結果,效果令人滿意。同時對比了其他經典語義分割網絡,本文網絡依舊表現(xiàn)出強勁的競爭力。
語義分割一直是CV(Computer Vision)領域研究的難點和重點。
傳統(tǒng)語義分割方法例如聚類分割等[1]大部分都是基于閾值、邊緣檢測以及區(qū)域的分割方法[2]。這些早期的方法由于計算機能力有限以及沒有數(shù)據(jù)處理等手段,只能處理少量灰度圖,且僅僅得到的是低級語義圖像,并不能很好地明確得知分割出來的圖像是什么類別。
隨著深度學習、GPU(Graphic Processing Unit)等技術的發(fā)展,出現(xiàn)了許多新的方法。這些新的基于深度學習的語義分割方法在這一領域取得了許多重大的成果。此前已經有相關方面的工作對此進行了探究。比如Beyond grids[3]為輸入的二維圖像或特征圖學習一個圖表征,并學習該圖所有節(jié)點進行消息傳遞,使模型能利用全局信息,然后將學習到的圖表征投影回二維空間。GloRe[4]提出一種新的全局推理方法,將坐標空間(Coordinate Space)的像素級特征聚合投影到交互空間(Interaction Space),然后進行有效的關系推理、最后將具有關系屬性的特征反投影回原始的坐標空間。GInet[5]沿著前面研究的思路,提出了一種新的更高難度的圖交互單元(Graph Interaction Unit),其利用基于數(shù)據(jù)集的語義知識進一步促進視覺圖表征的上下文推理。
在本文中,為了更為方便落地實際應用,我們更希望同時追求推理的準確與效率,由此本文充分結合了圖推理單元在捕捉全局上下文的優(yōu)勢與優(yōu)化后的OCRNet[6]網絡的推理高效性,使新的網絡模型在準確性和速度上都有更進一步優(yōu)異的表現(xiàn)。
本文所涉及網絡主要包括三個部分:Backbone,圖推理單元,OCR模塊。數(shù)據(jù)經過Backbone計算得到粗略的特征,然后將特征輸入到圖推理單元對其進行加權全局池化實現(xiàn)特征空間到節(jié)點空間的投影,在節(jié)點空間通過圖卷積對特征進行關系推理,最后在將新的表征反投影到特征空間。最后將含有更多全局上下文信息的特征輸入到OCR模塊當中,最后便能夠得到顯著提高的語義分割結果。網絡結構如圖1所示。
圖1 網絡結構圖Fig.1 Network structure diagram
Backbone采用高分辨率網絡HRNet[7]。目前大多數(shù)網絡都是將分辨率從高到低的卷積串行連接,然后從低分辨率表征中恢復高分辨率表征。這樣的網絡并不適合區(qū)域層次和像素層次的問題,因為學到的特征本質上具有低分辨率的特點。而HRNet則是在整個過程中始終保持高分辨率表征,逐步引入低分辨率卷積,并將不同分辨率的卷積并行連接。
圖推理單元主要分為三個步驟:從坐標空間到交互空間,在交互空間用圖卷積進行推理,從交互空間反投影到坐標空間。
從坐標空間到交互空間:映射輸入特征圖X∈RL×C為交互空間的表征V=f(X)∈RL×C,其公式如下:
其中B=[b1,…,bn∈RL×C]是可學習的投影矩陣。
圖卷積推理:建模任意區(qū)域之間的關系轉換為學習交互空間中節(jié)點的交互其推理公式為:
其中I為單位矩陣,Ag為領接矩陣,Wg為可學習的參數(shù)矩陣。
從交互空間到坐標空間:將新的圖表征反投影到坐標空間,使得整個圖推理單元能夠即插即用,其反投影公式為:
Y=BTZ+X
圖推理單元總體結構示意圖如圖2所示:
圖2 圖推理單元結構圖Fig.2 Graph reasoning unit structure diagram
從圖推理單元得到的特征表示,估測一個簡單粗略的語義分割結果作為OCR模塊的輸入,即為軟物體區(qū)域,將此區(qū)域和網絡最深層輸入的特征表示計算出K組向量,即物體區(qū)域表示,其中每一個向量對應一個語義類別的特征表示。然后計算網絡最深層輸入的像素特征表示與計算得到的物體區(qū)域特征表示之間的關系矩陣,然后根據(jù)每個像素和物體區(qū)域特征表示在關系矩陣中的數(shù)值把物體區(qū)域特征加權求和,得到最后的物體上下文特征表示OCR(Object Contextual Representation)。最后將OCR與網絡最深層輸入的特征表示進行拼接作為上下文信息增強的特征表示,過程如圖3。
圖3 OCR模塊結構圖Fig.3 OCR module structure diagram
在開源深度學習平臺PP飛槳AI Studio上使用四核CPU,32G內存,單卡GPU:Tesla V100的實驗結果為mIoU:0.77,Acc:0.88,Kappa系數(shù)為0.83。訓練結果可視化如圖4所示。
圖4 訓練過程可視化Fig.4 Visualize the training process
同樣條件下,本文網絡比原OCRNet漲點明顯,且推理速度相差無幾。同時,對比了其他分割網絡,如ICNet、PSPNet、PSPNet、GloRe等網絡,本文網絡在準確度和速度上面都表現(xiàn)得更加優(yōu)異。
通過實驗表明,在添加了圖推理模塊,并將原損失函數(shù)CrossEntropyLoss改為了CrossEntropyLoss+Lovasz SoftmaxLoss[8]之后,網絡表現(xiàn)優(yōu)于原網絡,并相較于其他常用語義分割網絡同樣表現(xiàn)良好。
引用
[1] 景莊偉,管海燕,彭代峰,等.基于深度神經網絡的圖像語義分割研究綜述[J].計算機工程,2020,46(10):1-17.
[2] 袁銘陽,黃宏博,周長勝.全監(jiān)督學習的圖像語義分割方法研究進展[J].計算機工程與應用,2021,57(4):43-54.
[3] Li Y,Gupta A.Beyond grids:learning graph representations for visual recognition[C].2018.
[4] Chen Y,Rohrbach M,Yan Z,et al.Graph-Based Global Reasoning Networks[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).IEEE,2020.
[5] Wu T,Lu Y,Zhu Y,et al.GINet:Graph Interaction Network for Scene Parsing[C]//2020.
[6] Yuan Y,Chen X,Wang J.Object-Contextual Representations for Semantic Segmentation[C]//European Conference on Computer Vision.Springer,Cham,2020.
[7] Sun K,Xiao B,Liu D,et al.Deep High-Resolution Representation Learning for Human Pose Estimation[C]//arXiv e-prints.arXiv,2019.
[8] Berman M,Triki A R,Blaschko M B.The Lovasz-Softmax Loss:A Tractable Surrogate for the Optimization of the Intersection-Over-Union Measure in Neural Networks[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR).IEEE,2018.