徐 俊,杜宣萱,宋俊鋒,陸佳煒,程振波,肖 剛
1(浙江工業(yè)大學 計算機科學與技術(shù)學院,杭州 310023) 2(麗水學院 工學院,浙江 麗水 323000)
近年來,傾斜攝影三維重建被廣泛應用于城市規(guī)劃、古建筑信息保護、大比例尺三維地形圖測繪以及虛擬環(huán)境創(chuàng)造等領(lǐng)域.通過無人機快速收集高分辨率圖形數(shù)據(jù),能夠在短時間內(nèi)利用很少的人員和設(shè)備資源來創(chuàng)建目標區(qū)域的三維點云和網(wǎng)格[1].然而基于無人機傾斜攝影測量技術(shù)的三維重建方法所生成的底層點云數(shù)據(jù)并不包含用于區(qū)分對象的語義信息.因此,分割和識別原始點云中不同類型的對象,并在生成的虛擬環(huán)境中分配實際的物理屬性,是創(chuàng)建真實模擬和實現(xiàn)各種分析的前提.
傳統(tǒng)的點云處理方法大多是在對點云數(shù)據(jù)進行特定人為定義的特征提取的基礎(chǔ)上,結(jié)合隨機森林(Random Forest,RF)、支持向量機(SupportVector Machine,SVM)等分類機,通過訓練一組特征分類器來完成點云數(shù)據(jù)的語義分類和分割任務(wù).特別是對于攝影測量點云的處理,目前大多數(shù)還是以傳統(tǒng)的多視角攝影測量影像分類算法為主、攝影測量點云為輔對地物進行提取或分類.例如,Rau等[2]將傾斜航空影像和邊緣圖像結(jié)合起來,利用多分辨率分割技術(shù)和區(qū)域增長的尺度因子來提取圖像對象,再根據(jù)相應的對象高度圖像以進行三維體素分割.這類傳統(tǒng)方法通常都比較復雜,且這種人工定義特征依賴閾值,無法完全適用于所有語義分割場景.
三維點云分類和分割的深度學習是目前一個活躍的研究領(lǐng)域,可以在短時間內(nèi)取代傳統(tǒng)的方法.然而,點云模型是對物理世界三維幾何形狀的低分辨率重采樣,僅包含一組描述物體表面信息的非結(jié)構(gòu)化空間離散點,具有信息有限性、表征稀疏性、數(shù)據(jù)無序性等特征,無形中破壞了深度卷積神經(jīng)網(wǎng)絡(luò)應用的前提.Chapmi[3]等擴展了二維圖像的像素(Pixel)概念,將原始點云數(shù)據(jù)轉(zhuǎn)換為體素(Voxel),也就是三維像素的表示,然而這種方法會消耗過多的內(nèi)存,并且很難捕獲高分辨率和細粒度的特征;Boulch[4]等將點云投影到一組合成的二維圖像上,然后使用投影在多個二維圖像上的像素的預測分數(shù)來識別每個點的標簽,但通過投影降維的方法會不可避免丟失一些空間信息,對于復雜三維點云來說,會更容易得到一個很糟糕的結(jié)果.
最新的深度神經(jīng)網(wǎng)絡(luò)設(shè)計思路是一種直接以點云作為輸入的方法,不需要對點云進行拓撲結(jié)構(gòu)的轉(zhuǎn)換.Qi等提出的PointNet[5]是一種開創(chuàng)性的端到端網(wǎng)絡(luò),它通過共享的多層感知器(Multilayer Perceptron MLP)層和變換網(wǎng)絡(luò)(T-Net)學習單點特征,但該方法僅通過一個最大池化操作聚合所有點特征來表示點云的全局特征,沒有考慮點云的局部關(guān)系,限制了對精細場景的識別和復雜場景的泛化能力;為了解決上述模型對點云局部信息分析不足的問題,Qi等進一步提出PointNet++[6],通過一些下采樣的算法來獲取點云的一組采樣空間位置,然后提取關(guān)鍵點的局部區(qū)域特征;為捕捉點云的空間關(guān)系,Wang等提出了一個模型DGCNN[7],通過邊緣卷積構(gòu)造動態(tài)局部鄰域圖來建立點的鄰域關(guān)系,并遞歸地更新每個點的表示,但該模型無法證明適用于大規(guī)模室外點云的分割任務(wù);另外還有的方法將規(guī)則格網(wǎng)與點相結(jié)合[8,9],利用規(guī)則格網(wǎng)的空間拓撲信息來表示局部信息,但該方法需要對每個點的進行特征提取以及合并規(guī)則格網(wǎng),計算復雜度太高不適用于大型室外點云的語義分割;Wu[10]等設(shè)計了一個PDE模塊來學習一組關(guān)鍵點,這些關(guān)鍵點是對應于有意義區(qū)域的幾何和語義代表;Hu等提出的RandLA-Net[11]是一種高效、輕量級的網(wǎng)絡(luò),其最大的貢獻是開發(fā)了一個局部特征聚合模塊來彌補隨機采樣的特征丟失,同時這個模塊也能實現(xiàn)逐層增大接受場并學習復雜局部特征.
值得一提的是,將上述激光掃描點云的處理方法直接用到攝影測量點云上的效果并不好,細粒度語義分割對于高分辨率攝影測量點云來說還是一個挑戰(zhàn),這也使得無人機攝影測量建模的應用普遍存在著無法進行用戶級和系統(tǒng)級交互的瓶頸問題.
鑒于此,本文擬建立一種端到端的深度神經(jīng)網(wǎng)絡(luò)模型來實現(xiàn)在復雜的城市場景中,完成對攝影測量點云的分割,具體包括以下兩個方面:
1)局部鄰域信息分層提?。嚎紤]全局空間特征和動態(tài)局部空間兩種關(guān)系,提出使用局部鄰域信息分層融合的EdgeConv++方法以動態(tài)的捕捉點云局域間的空間關(guān)系,以及利用一個融合語義與細節(jié)的特征增強機制來更有效的學習復雜的局部結(jié)構(gòu).
2)通道注意池(Channel Attentive Pooling,CAP)模塊:將空間信息顯式嵌入到特征通道,使用注意力策略來學習不同通道間的非線性關(guān)系,提高模型的表現(xiàn)能力.
本文提出的圖注意模塊(Graph Attention Module,GAB),是一種基于深度神經(jīng)網(wǎng)絡(luò)的方法,其將語義分割問題看作對每一個點進行多分類的問題,采用監(jiān)督學習得到一種融合動態(tài)圖和通道注意力的點云分割網(wǎng)絡(luò)(Dynamic Graph Channel Attention Network,DGCA-Net).DGCA-Net直接接受原始點云,并為每個點輸出一個分類標簽,直接完成語義分割,是一種端到端的方法.從結(jié)構(gòu)上來說,DGCA-Net具有如下特點:為捕捉更加細粒度的空間信息,通過使用一個新的EdgeConv++模塊動態(tài)更新局部點云結(jié)構(gòu)來實現(xiàn)上下文信息的提?。淮送?,還引入通道注意池模塊以自適應學習通道權(quán)重.
本文提出的DGCA-Net是以DGCNN為原型的改進,如圖1所示,分割模型以N×6的空間和顏色信息為輸入.從權(quán)衡效率和效果的角度出發(fā),網(wǎng)絡(luò)去掉了PointNet和DGCNN用到的空間轉(zhuǎn)換網(wǎng)絡(luò)Spatial T-Net,可以發(fā)現(xiàn)的是,當數(shù)據(jù)集數(shù)量足夠的情況下,Spatial T-Net效果并不明顯,去除這個單元從結(jié)果上來看并不影響模型的效果,同時使模型更加輕量化.
圖1 DGCA-Net網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 DGCA-Net network structure
上述的前向傳播過程是處處可微的,本文使用隨機梯度下降法(Stochastic Gradient Descent,SGD)來求解訓練數(shù)據(jù)集上語義分割任務(wù)的最優(yōu)模型,將每一個點看作一個多分類問題,目標函數(shù)表示為:
(1)
其中ynm是指示變量,取0或1,如果該類別m和樣本n的類別相同就是1,否則是0.求最優(yōu)化參數(shù)的算法使用隨機梯度下降法的變體Adam,具體細節(jié)見本文第3節(jié).
特征融合是語義分割中常用的手段.低層次特征和高層次特征本質(zhì)上是互補的,低層次特征有更豐富的空間細節(jié)信息,但缺乏語義信息,包含更多噪聲,高層特征具有更強的語義信息,但是分辨率很低,對細節(jié)的感知能力較差[12].所以從經(jīng)驗上講,特征融合可以通過將更多的語義概念引入低級特征或?qū)⒏嗟目臻g信息嵌入高級特征來增強.如在二維圖像的語義分割中,卷積神經(jīng)網(wǎng)絡(luò)CNN就是一種典型的高低層次特征融合方式:卷積核匯聚圖片的低層次特征并輸入到下一層的輸入中去,從而不僅考慮了某一像素點周圍的特征信息,還自動地將高低層信息匯聚起來,得到了更好的特征表示.由此啟發(fā),本文提出EdgeConv++來關(guān)注某點的鄰域點,將跨層點描述與上下文特征結(jié)合起來并逐層匯聚,以此獲得更好的特征表示.
(2)
(3)
(4)
本文所定義的g包含了兩個尺度參數(shù),其中α被初始化為0,β被初始化為1,由式(4)可以看出頂點特征更新是基于一個加權(quán)的串聯(lián)操作,反映的是逐漸學會為頂點特征和局部特征分配適當權(quán)重的過程.因此,它在一定程度上保留了細節(jié)描述,并根據(jù)動態(tài)圖選擇性地聚合上下文信息.這些頂點特征更新實現(xiàn)了相互增益,使其對位置識別中的噪聲具有魯棒性.
如圖2所示,采用EdgeConv++模塊,隨著層數(shù)的增加,每一個點的感受野逐步增大,因而逐漸包含了該點周圍的上下文信息,從而使得每個點都能表示復雜的點云結(jié)構(gòu)信息.
圖2 頂點特征更新示意圖Fig.2 Schematic diagram of vertex feature update
本文提出的EdgeConv++模塊最大的貢獻在于采用了一個可學習的頂點特征更新函數(shù),從而將上層頂點的細節(jié)信息融合進來.而在EdgeConv模塊中,這一函數(shù)被簡單的max函數(shù)代替.雖然max函數(shù)具有置換不變性,但是它將頂點特征和邊特征放在一個集合里進行平等處理,造成了較大的信息損失,而且隨著網(wǎng)絡(luò)深度的增加,將逐漸失去細節(jié)感知能力.本文提出的方法則有效地捕捉了上一層的細節(jié)信息,且ψ的輸出對輸入eij是排列不變的.
文獻[3,5-7]直接利用最大池化(Max Pooling)操作來聚合鄰域點的信息,然而這無法權(quán)衡鄰域不同特征的重要性,忽略了特征信息的優(yōu)先級問題.為了提高網(wǎng)絡(luò)的表現(xiàn)力,最近的一些方法[13,14]嘗試了加強空間編碼來表示并取得了有益效果.注意力可以廣泛地看作是一種工具,將可用處理資源的分配偏向于輸入信號中信息最豐富的組件[15].而對于一定尺度的事物,特征具有不同程度的判別,其中一些特征可能導致預測虛假標簽.因此,有必要選擇具有鑒別性和有效性的特征.本文通過建立一個通道注意池模塊,將局部空間信息壓縮(Squeeze)成一個通道描述器,然后顯式的建模網(wǎng)絡(luò)卷積特征的通道之間的動態(tài)、非線性依賴關(guān)系以自適應的提高特征的可辨性,最后加權(quán)聚合每個通道表示來獲得局部通道結(jié)構(gòu)信息.
通道注意池模塊旨在改變每個階段特征的權(quán)重,以增強一致性.對于特征矩陣F∈RK×C,其中K是鄰域點的數(shù)目,C是特征通道的數(shù)目,使用局部平均池化(Average Pooling)來獲得擠壓局部信息描述符,分別從C個通道的K維空間計算向量χ所有元素:
(5)
圖3 通道注意池Fig.3 Channel attentive pooling
如圖3所示,經(jīng)過擠壓操作的通道1×C描述對局部特征映射具有表現(xiàn)力,接著進行自適應權(quán)重校準,使用兩個完全連接層來生成通道依賴關(guān)系:
s=Ex(χ,W1,W2)=σ(δ(χ,W1),W2)
(6)
其中s=(s1,s2,…,sC),W1為降維層參數(shù),W2為增維層參數(shù).式 (6)中的兩個函數(shù)應該滿足兩個標準:首先它應該具備捕捉通道之間的非線性相互作用關(guān)系的能力,其次它必須能夠在多個通道經(jīng)過多次激活函數(shù)情況下學習多個通道之間非互斥關(guān)系.這里δ采用ReLU函數(shù),使一部分神經(jīng)元的輸出為0,由此可以獲得稀疏的輸出,從而減少過于復雜的相互依存而起到正則化的效果,緩解過擬合問題;第2個激活函數(shù)σ使用sigmoid函數(shù),將χc映射為0到1之間.公式(6)輸出的通道權(quán)重就是每一個通道對于局部信息的重要性表示,即局部信息對于各個通道的依賴關(guān)系的一種預測.為了將該預測的依賴關(guān)系顯式的注入至網(wǎng)絡(luò)中,uc被進一步更新:
(7)
本文的通道注意池模塊在計算上是輕量級的,不限于特定的數(shù)據(jù)集或任務(wù),它在不同深度上發(fā)揮的作用適應了網(wǎng)絡(luò)的需要,在效率和有效性上也可以滿足大規(guī)模點云的處理,并且它可以較為簡單的集成到現(xiàn)有的網(wǎng)絡(luò)架構(gòu)中來有效的增強特征表示.一個值得注意的實現(xiàn)細節(jié)是,在本文中,通道注意力池化模塊并非作為一個獨立的旁支模塊被直接插入,而是被設(shè)計為與EdgeConv++模塊結(jié)合,處理時起到相互加強的作用.
為了驗證DGCA-Net網(wǎng)絡(luò)模型的性能,本文在兩個公開的室外基準數(shù)據(jù)集上進行了評估,包括一個航空激光掃描點云數(shù)據(jù)集Vaihingen[16]和一個攝影測量點云數(shù)據(jù)集Campus3D[17].
本文實驗的硬件環(huán)境為Intel Core i7-9700KF + GTX 1080 8GHg+32GB RAM,軟件環(huán)境為Ubuntu18.04 x64+CUDA9.0+cuDNN7.1+pytorch1.5+Python3.7.各數(shù)據(jù)集實驗參數(shù)設(shè)置如表1所示.
表1 實驗參數(shù)設(shè)置Table 1 Experimental parameter settings
3.1.1 評價指標
本文用平均交并比(mean Intersection over Union, mIoU)、平均類準確率(mean class Accuracy, mAcc)和總體準確率(Overall Accuracy, OA)3個指標對實驗結(jié)果進行定量評估并與其他方法進行對比.假設(shè)共有k個類別,定義cii表示類別i的預測標簽等于真實標簽的個數(shù),cij表示類別i的標簽預測為類別j的個數(shù).
平均交并比(Mean Intersection over Union, MIoU)為語義分割的標準度量.其計算各類的平均交并比,每個類都對應兩個集合,在語義分割的問題中,這兩個集合分別表示的是真實值(Ground Truth)和預測值(Predicted Segmentation).計算公式如下:
(8)
總體準確率(Overall Accuracy, OA)定義為預測正確的數(shù)目比上樣本集合的數(shù)目:
(9)
平均類準確率(mean class Accuracy, mAcc)定義為對各類的準確率取平均值:
(10)
3.1.2 基于Vaihingen數(shù)據(jù)集的定量評估
Vaihingen數(shù)據(jù)集是在500米航高、45°視場角的條件下,由航空機載激光掃描獲取的,平均密度為4 points/m2.數(shù)據(jù)集共標記了9類分別為電力線、低植被、地面、汽車、圍欄、屋頂、立面、灌木和樹木.
由于該數(shù)據(jù)集較小,為防止過擬合現(xiàn)象,因此本文利用數(shù)據(jù)增強來提升網(wǎng)絡(luò)的泛化能力[18].本文使用的數(shù)據(jù)增強方法按目的分類有兩種:一是數(shù)據(jù)標準化,數(shù)據(jù)標準化的目的是使全體數(shù)據(jù)都滿足某種標準,如坐標點為正值,地面總是在x-y平面上等;二是數(shù)據(jù)擴增,這一類方法的目的是使得數(shù)據(jù)具有更加豐富的特征,從而對抗過擬合.本文具體的數(shù)據(jù)增強從以下5步進行.原始的點云表示為P0={pj}j∈J0?R3,其中J0是所有點的下標集合,R3代表三維實數(shù)空間.
Step 1.將坐標原點歸于(0,0,0),計算正值坐標,得到P1={pj}j∈J0?R3;
Step 2.對數(shù)據(jù)集中所有點做主成分分析(PCA)后變換坐標,保證z軸向上,并由此得到P2={pj}j∈J0?R3;
Step 3.對所有點以隨機角度繞z軸旋轉(zhuǎn)r次,得到P3={pj}j∈J1?R3,其中|J1|=r|J0|;
Step 5.訓練時實時隨機采樣得到集合S={oi?R3,i=1,2,…,H},選擇3個尺度分別隨機取n個點.
其中,Step 4中的前3項歸整到0和1之間,有利于模型學習空間信息,同時絕對尺寸保存在后3項中,并未丟失,這樣便實現(xiàn)了信息解耦;Step 5中的下采樣方法是一種多尺度的隨機采樣,也可以提高數(shù)據(jù)的泛化能力,另外本文選擇隨機采樣是因為它具有顯著的計算效率,在計算復雜度上與數(shù)據(jù)點的規(guī)模無關(guān),而且也不需要額外的內(nèi)存來計算,符合大規(guī)模室外點云的處理需求.
為了驗證本文方法對點云空間幾何結(jié)構(gòu)的學習能力,在本實驗中,將僅以空間坐標信息作為網(wǎng)絡(luò)模型的輸入,這樣方法便獨立于用于捕獲點云的系統(tǒng),即不加區(qū)分激光掃描點云和攝影測量點云.同時選擇4種具有代表性的端到端語義分割方法,并在表2列出了與本文方法的定量結(jié)果對比.
表2 不同方法在Vaihingen數(shù)據(jù)集上的定量結(jié)果Table 2 Quantitative results of different methods on the Vaihingen dataset
1)PointNet 將點云通過多層感知器進行高維空間映射,并用最大池化解決了點云的無序性,是直接操作無序點云的開創(chuàng)性方法.
2)PointNet++是為解決PointNet對點云局部信息分析不足的問題而做的進一步優(yōu)化,其采用分層結(jié)構(gòu)來處理局部特征.
3)DGCNN在ECC動態(tài)邊緣卷積方法的基礎(chǔ)上考慮點的空間位置以及鄰域點間的距離信息,構(gòu)造三維有向圖來捕捉局部特征.
4)RandLA-Net提出一種新的局部特征聚合模塊,以逐步增加每個點的感受野,從而保留有效的空間幾何細節(jié).該方法是大型點云端到端語義分割的最新工作,在Sematic3D集上排名第一.
由表2可見,在僅依賴幾何信息的前提下,本文方法在Vaihingen數(shù)據(jù)集上的平均交并比(mIoU)、總體準確率(OA)和平均準確率(mAcc)分別為38.4%、69.2%、51.3%,達到了較好的性能,且在空間幾何結(jié)構(gòu)的學習能力上明顯優(yōu)于以上幾種端到端的語義分割方法.雖然RandLA-Net在Semantic3D數(shù)據(jù)集上表現(xiàn)出最優(yōu)越的效果,但在Vaihingen數(shù)據(jù)集上的效果卻相反,表現(xiàn)得很差.分析由于RandLA-Net在局部空間編碼模塊中對每個中心采樣點使用了KNN(K-Nearest?Neighbor)的鄰近點搜索算法,而這種算法對點云分布密度比較敏感,當點云分布稀疏且密度不均時,所獲取的鄰域點可能全部來自采樣點的同一個方向,此時捕捉的鄰域點不能準確反映采樣點的局部結(jié)構(gòu),因此其對Vaihingen數(shù)據(jù)集的空間幾何結(jié)構(gòu)變化不夠敏感.
為進一步驗證局部結(jié)構(gòu)捕獲能力及空間特征學習能力,本文將Edgecov++和CAP替換并集成到DGCNN中,而不使用任何特征轉(zhuǎn)換,得到每個類別的IoU繪制如圖4所示的對比曲線(其中汽車類別由于點數(shù)過少被忽略).由圖4可以看出,總體上DGCA-Net相比DGCNN有顯著的性能提升,特別是地面類別的IoU提高了近兩倍;基于Edgecov的DGCNN無法識別出電力線和圍欄類別,在替換了Edgecov++之后,IoU分別提高了35%和12%;而DGCNN+CAP對于低植被、地面和屋頂3個類別IoU的提升效果更好,分析其原因可能是在網(wǎng)絡(luò)中堆疊的CAP使來自網(wǎng)絡(luò)的全局接收字段的信息能夠被其下層所利用,同時因為促進了特征重要性的學習,使一些分布廣且數(shù)據(jù)量大的類別能被更好的分割出來.
圖4 Vaihingen數(shù)據(jù)集上每個類別的IoUFig.4 IoU for each category on the Vaihingen dataset
3.1.3 基于Campus3D數(shù)據(jù)集的定量評估
Campus3D數(shù)據(jù)集是一個基于無人機影像,利用多視角立體視覺的運動結(jié)構(gòu)技術(shù)(SFM-MVS)構(gòu)建的三維攝影測量點云.無人機航拍捕捉的豐富的真實紋理,使Campus3D包含了復雜城市結(jié)構(gòu)的真實顏色信息.該數(shù)據(jù)集被標記為5級標簽樹,其中每個層次結(jié)構(gòu)中的標簽可以完全劃分整個數(shù)據(jù)集,即每個點都對應著5個并行的語義標簽.為了執(zhí)行實際訓練,本文在原始點云上以0.15米的采樣大小獲取實驗數(shù)據(jù),將FASS、PGP、RA、UCC和YIH共5個區(qū)域作為訓練集,F(xiàn)OE區(qū)域作為測試集,并在表3給出了這6個區(qū)域點云的詳細信息.
表3 各區(qū)域點云的詳細信息Table 3 Detailed information of the point cloud in each area
本實驗將以點云的空間坐標信息和真實顏色信息作為網(wǎng)絡(luò)模型的輸入,并為每個粒度級別分別訓練了一個獨立的分割分類器以驗證本文方法對攝影測量點云分割的有效性.在去除帶有“未分類”(未標記)的地物真實標簽的點后,計算5個粒度級別上的每個類IoU和mIoU.由表4可知,隨著粒度級別從C1到C5,逐漸出現(xiàn)幾何模糊現(xiàn)象,分割性能以不同程度降低,這表明問題的難度隨著標簽實例變小且分布稀疏而增加.
表4 DGCA-Net在Campus3D數(shù)據(jù)集上的測試結(jié)果Table 4 Test results of DGCA-Net on the Campus3D dataset
為評價算法的性能,將本文方法與PointNet++進行實驗對比,分析其在不同粒度級別上的總體準確率,其中PointNet++相關(guān)實驗結(jié)果摘自文獻[17].此外,本文還進一步在多分類器的基礎(chǔ)上應用了一個分層集合(Hierarchical Ensemble, HE).HE是一種用于初始預測結(jié)果的后處理方法,它計算樹T中所有根到葉路徑上的似然分數(shù)的加權(quán)和,與最大分數(shù)相關(guān)的路徑即最終的預測解,定義為:
(11)
其中,ph(·)是在類集合Ch上預測的似然分布,ψFC是所有解決方案的集合,包括了樹T中從根到葉節(jié)點的所有路徑.
分析表5可知,本文方法在Campus3D數(shù)據(jù)集的5個粒度級別上的總體準確率都顯著高于PointNet++,證明了本文方法具有較強的分割能力;各個方法的分割總體準確率隨著標簽粒度的細化而逐漸降低;在應用HE后,分割性能在各個粒度級別上都得到了提升,表明HE可以通過強制維持等級關(guān)系來提高表現(xiàn).
表5 不同方法在Campus3D數(shù)據(jù)集上的測試結(jié)果(OA%)Table 5 Test results of DGCA-Net on the Campus3D dataset
為了更直觀的展示DGCA-Net網(wǎng)絡(luò)模型的語義分割效果,本文將帶有標簽的點云在航空掃描點云數(shù)據(jù)集和攝影測量點云數(shù)據(jù)集上分別進行了可視化分析.
圖5展示了Vaihingen數(shù)據(jù)集的Ground-truth和不同方法下的分割結(jié)果(由于目標區(qū)域內(nèi)電力線點數(shù)過少,本文未在圖中標出),由圖可知,PointNet在地面和灌木區(qū)分上表現(xiàn)不佳,容易將地面分割為灌木,而地面點和灌木點在空間分布上相近,這說明PointNet 對空間細節(jié)的學習能力不好,這與模型本身忽視了局部特征關(guān)系有關(guān),特別是其在共享的多層感知機后直接使用全局最大池化操作,丟失了空間信息;PointNet++基本無法區(qū)分除地面以外的地物對象,其提出的MSG(Muti-Scale Grouping)和MRG(Muti-Resolution Grouping)方法在Vaihingen地物幾何識別上效果并不好;RandLA-Net受灌木和地面的干擾嚴重,對建筑物屋頂對象的識別效果不好,易將樹木點錯分為屋頂點;DGCNN 在植被和建筑物間的分割結(jié)果呈模糊狀,特別是對于植被,DGCNN 幾乎無法從植被群點與建筑物點中學習到有效的信息;相比其他4種方法,本文方法的分割結(jié)果更貼近于場景的真實標記,可以區(qū)分大部分建筑物和地面,而且能夠從植被群點和建筑物點中學到有效的鑒別信息.
圖5 Vaihingen數(shù)據(jù)集上的語義分割對比Fig.5 Comparison of semantic segmentation on Vaihingen dataset
本文選取了C1、C3、C5這3個級別進行可視化分析,在圖6中直觀展示了DGCA-Net在Campus3D數(shù)據(jù)集上的語義分割效果.可以發(fā)現(xiàn),本文方法對地面、建筑物和樹木這3類地物分割效果相對更好,對車輛、路燈和人工景觀等地物的分割效果相對較差,不同類別之間存在顯著的性能差距.這是因為對城市地區(qū)中不同地物的分類性能的優(yōu)劣取決于對應地物用于訓練的數(shù)據(jù)量大小及其低層次特征和其他地物的相似程度,模型會傾向于與主要類別相適應,更難學習到次要類別的魯棒特征.雖然在更細粒度的C5級別中,由于地面和屋頂在幾何上很相似,建筑物屋頂點部分被錯誤的識別為地面點,但從總體上看,隨著標簽粒度的逐層細化,本文方法仍能保持較優(yōu)的分割效果.
圖6 DGCA-Net在Campus3D數(shù)據(jù)集上的語義分割效果Fig.6 Semantic segmentation effects of DGCA-Net on Campus3D dataset
本文針對現(xiàn)存的攝影測量點云地物分割處理環(huán)節(jié)多、特征提取復雜等問題,將端到端的卷積神經(jīng)網(wǎng)絡(luò)引入攝影測量點云的語義分割中,同時分析了現(xiàn)有的卷積神經(jīng)網(wǎng)絡(luò)存在的局部細粒度特征捕捉不夠和特征通道之間關(guān)系缺失問題,提出一種融合圖注意力的攝影測量點云語義分割方法.首先提出EdgeConv++,通過融合其跨層點描述和上下文特征來豐富每個點的表示;其次,提出了一個通道注意池模塊,顯式的建模網(wǎng)絡(luò)卷積特征的通道之間的動態(tài)、非線性依賴關(guān)系以自適應的提高特征的可辨性,以進一步與局部細粒度特征進行優(yōu)勢互補.在兩個公開的室外基準數(shù)據(jù)集上進行了定量和可視化實驗,證明了本文提出的攝影測量點云語義分割方法能夠顯著提升網(wǎng)絡(luò)對局部拓撲特征信息的學習能力,且對復雜場景點云語義分割具有良好的泛化能力.然而本文對于分層標記的數(shù)據(jù),沒有考慮其跨粒度級別的相互關(guān)系,只為每個粒度級別訓練了獨立的分割分類器,如何利用標簽層之間的內(nèi)在關(guān)系,捕獲額外的幾何信息以提高語義分割的性能,是下一步研究工作的重點.