賈 洋 李升甫 周城宇 南 軻 許瀕支
(1. 四川省公路規(guī)劃勘察設(shè)計研究院有限公司, 四川 成都 610041;2. 西南交通大學 地球科學與環(huán)境工程學院, 四川 成都 611756)
激光點云語義分割是一種根據(jù)點云數(shù)據(jù)的視覺內(nèi)容將其中的每一個點歸類為其所屬對象的語義類別的技術(shù)。隨著越來越多應用需求的出現(xiàn),點云語義分割已成為三維場景理解和分析的關(guān)鍵步驟,也是場景單體信息化的重要基礎(chǔ)。在智慧交通行業(yè)應用中,高速公路路面實體要素信息的綜合利用是公路工程建管養(yǎng)多階段數(shù)字化綜合業(yè)務(wù)應用的重要體現(xiàn)。多平臺激光掃描設(shè)備可以快速完整地獲取高速公路路域范圍的三維激光點云數(shù)據(jù),如何高效利用點云數(shù)據(jù)快速、精準識別路面及其他典型公路要素成為研究熱點[1-7]。
現(xiàn)有的點云語義分割方法大多是采集點云的強度信息、輻射信息和回波信息,以及幾何屬性分布,通過先驗經(jīng)驗設(shè)置各項閾值,建立分類器,構(gòu)建判別模型,采用支持向量機、隨機森林、馬爾可夫隨機場和條件隨機場等方法進行點云分類。此類傳統(tǒng)方法需要經(jīng)驗知識,固定的閾值不適用于多個場景,且原始點云雜亂無序,噪聲會對結(jié)果有隨機性的干擾[8]。深度學習語義分割起源于二維圖形,隨著深度學習的發(fā)展,更多學者嘗試用深度學習方法對點云語義分割。當前基于深度學習的點云分割方法主要分為基于多視圖、基于體素和基于點云的方法[9-10],其中,基于多視圖的語義分割方法將點云數(shù)據(jù)轉(zhuǎn)化為若干個二維圖像的過程通常較為復雜,存在著關(guān)鍵的三維空間信息丟失、語義分割結(jié)果易受所選投影角度影響的問題[11];基于體素的語義分割方法較好地解決了點云非結(jié)構(gòu)化的問題,但由于該類算法計算量較大,且存在信息丟失的問題,導致其針對大場景點云語義識別的實用性較,仍有巨大的發(fā)展空間[12];基于多視圖和體素的方法都存在著一定的局限性,為了更好地對點云數(shù)據(jù)的特性加以利用,很多研究者開始對基于點云的語義分割方法進行研究,這類方法直接對點云數(shù)據(jù)進行處理,逐點輸出標簽,這類方法可以處理任意的非結(jié)構(gòu)化的點云,且識別精度及計算效率綜合表現(xiàn)較好。目前,基于點云的方法以其較好的分割效果吸引著越來越多的學者對其進行研究,以深度學習點云語義分割算法PointNet[13]、PointNet++[14]及RandLA-Net[15]等網(wǎng)絡(luò)模型為代表。文章將對具有代表性的激光點云深度學習神經(jīng)網(wǎng)絡(luò)模型在計算效率、識別精度等方面進行對比分析,優(yōu)選一種適用于高速公路典型要素激光點云語義分割的模型方法。
本文主要針對高速公路路面、護欄、綠化帶植被、車輛、車道標線、桿狀交安設(shè)施及面狀交安設(shè)施等典型要素語義識別問題,分別使用PointNet、PointNet++及RandLA-Net三個激光點云深度學習模型進行1 km路段的信息識別性能測試,通過優(yōu)選后的模型,進行差異性路段更長距離公路要素識別的魯棒性實驗。具體過程為:①構(gòu)建樣本集;②1 km路段模型比選測試;③長距離路線魯棒性實驗,如圖1所示。
圖1 技術(shù)流程
高速公路場景激光點云數(shù)據(jù)包含三維空間坐標(XYZ)信息及相應的附加信息如強度、全球?qū)Ш叫l(wèi)星系統(tǒng)(global navigation satellite system,GNSS)授時、回波數(shù)、影像光譜(red green blue,RGB)信息等。使用激光數(shù)據(jù)處理軟件TerraSolid對整段高速公路點云數(shù)據(jù)進行分段,然后對每段數(shù)據(jù)單獨進行濾波去噪。文章選擇使用半徑濾波器進行濾波操作,具體操作如下:對于任意一個點,設(shè)定半徑r為0.05 m,若在該點半徑r內(nèi)的鄰近點數(shù)小于10,則認為該點為噪聲點。由于選定的高速公路基礎(chǔ)要素集中于路面范圍以內(nèi),為便于進行深度學習網(wǎng)絡(luò)的訓練和驗證,濾波后還需利用行車軌跡去除路面以外的點云。圖2為高速公路點云數(shù)據(jù)預處理前后對比。
(a)預處理前點云數(shù)據(jù) (b)預處理后點云數(shù)據(jù)
點云樣本數(shù)據(jù)集的構(gòu)建是以人工標注為主。使用TerraSolid的框選工具和剖面選擇工具對預處理后的高速公路點云數(shù)據(jù)手動標注每個點的類別,共分為7類,分別是路面、護欄、植被、車輛、桿狀物、車道線、面狀物。
本節(jié)利用標注好的高速公路場景車載激光點云數(shù)據(jù)集訓練PointNet、PointNet++及RandLA-Net,并在測試數(shù)據(jù)集上對上述深度學習網(wǎng)絡(luò)的語義分割效果進行了對比測試,經(jīng)調(diào)參實驗后最高精度的網(wǎng)絡(luò)模型實驗設(shè)置如下。
PointNet使用每個點的XYZ及歸一化后的xyz和歸一化后的強度信息組成9維的特征作為網(wǎng)絡(luò)輸入。PointNet采用塊狀的點云輸入(本節(jié)實驗中設(shè)定塊邊長為3 m×3 m,若該塊內(nèi)總點數(shù)小于1 000則舍去,點數(shù)位于1 000~8 192,則隨機復制部分點至總點數(shù)到8 192,若大于8 192,則隨機選擇8 192個點),先將整個場景劃分為規(guī)則平面體,再通過固定長寬的矩形框進行搜索。而公路場景呈長條形,會劃分為較多的塊狀,搜索效率極低,多段數(shù)據(jù)累計處理時間較長。輸入點云數(shù)為8 192,訓練輪數(shù)設(shè)置為50,指數(shù)衰減初始學習率為0.001,每批數(shù)據(jù)量(batchsize)為24,使用自適應矩估計(adaptive moment estimation,Adam)優(yōu)化器。
PointNet++在PointNet上做出改進,采用最遠點采樣方法逐級下采樣,增加鄰域信息的利用,有效地使用了上下文語義信息,再通過最鄰近算法(K-nearest neighbor,KNN)內(nèi)插將傳遞至原輸入點云上。PointNet++同樣需要塊狀點云輸入(與PointNet的數(shù)據(jù)預處理方式相同),為了公平比較,使用和PointNet同樣的輸入點云。輸入點云數(shù)為8192,訓練輪數(shù)設(shè)置為50,指數(shù)衰減初始學習率為0.001,batchsize為24,使用Adam優(yōu)化器。
RandLA-Net使用隨機采樣替代最遠點采樣,可一次性輸入65 536個點,極大地提高了效率,配合局部空間編碼模塊和自注意力機制取得了良好的分割效果。數(shù)據(jù)預處理中,體素尺寸設(shè)置為0.06 m,輸入點云數(shù)為65 536,訓練輪數(shù)為50,初始學習率為0.01,每輪減少5%,batchsize為5,使用Adam優(yōu)化器。
模型比選測試評價指標:本文采用交并比(intersection over union,IoU)評估神經(jīng)網(wǎng)絡(luò),如式(1)所示。
(1)
式中,IoU表示交并比,可以更好地評估語義分割結(jié)果。tp、fp和fn函數(shù)分別為語義標注正確的目標個數(shù)、錯誤標注的目標個數(shù)和錯誤識別的正樣本目標個數(shù)。
測試數(shù)據(jù)集在PointNet、PointNet++、RandLA-Net上的語義分割實驗結(jié)果如表1所示。
表1 模型測試結(jié)果
通過對實驗結(jié)果進行分析可以發(fā)現(xiàn),PointNet使用兩個張量網(wǎng)絡(luò)(tensor network,T-net)結(jié)構(gòu)使得網(wǎng)絡(luò)具備旋轉(zhuǎn)不變性,并結(jié)合了全局特征和單點特征,但是PointNet沒有考慮點云的鄰域信息,造成語義信息缺失,同時基于塊狀的輸入方式會造成數(shù)據(jù)準備大量耗時的問題,導致效率極低。PointNet++雖然通過半徑搜索的方式利用了每個點的鄰域點特征,但最遠點采樣會隨著點云數(shù)量的增加而變得效率低下,并不適合用于高速公路大場景點云語義分割。RandLA-Net中采用的隨機采樣方法的時間復雜度不會隨著點云數(shù)量的增加而變化,是高速公路大場景點云語義分割的首選網(wǎng)絡(luò)。因此,優(yōu)選RandLA-Net進入高速公路點云語義分割魯棒性實驗。
長距離路線魯棒性實驗路段為雅西高速中長約6 km的一段高速公路,通過車載激光掃描設(shè)備獲取激光點云數(shù)據(jù),最終得到了1,1 102,3 233個點的原始點云,大小為3.51 GB,如圖3所示。將原始點云分為12塊通過Terrsoild工具進行人工標注(圖4),分為7類,分別是路面、護欄、植被、車輛、桿狀物、車道線、面狀物。
圖3 雅西高速激光點云掃描
圖4 分塊處理點云數(shù)據(jù)
文章采用深度學習框架TensorFlow 1.13.1實現(xiàn)具體RandLA-Net模型的訓練和語義分割實驗。實驗軟硬件環(huán)境見表2、表3。
表2 實驗硬件配置
表3 實驗軟件配置
數(shù)據(jù)集共包含12段數(shù)據(jù)。數(shù)據(jù)包括訓練集、驗證集、測試集。其中訓練集為第1、2、4、7、9段,驗證集為第3、8、11段,測試集為第5、6、10、12。段訓練批次為5,迭代100輪,初始學習率為0.01,每輪下降95%。網(wǎng)絡(luò)模型通過Adam優(yōu)化器對網(wǎng)絡(luò)的權(quán)重和偏置進行更新。每輪訓練完成后進行驗證,選取在驗證集的平均交并比(mean intersection over union,MIoU)值最高的模型作為最終測試的網(wǎng)絡(luò)模型。
實驗結(jié)果見表4。從表中可以看出,七類要素的整體精度達到90.53%,其中,路面的分割結(jié)果精度最高,車道線的分割結(jié)果精度最低,為79.14%,這是由于車道線長期受車輛碾壓,存在污損、缺失等現(xiàn)象??傮w來看,RandLA-Net模型可以較好地實現(xiàn)高速公路場景的激光點云語義分割。
表4 實驗結(jié)果
針對高速公路路面、護欄、綠化帶植被、車輛、車道標線、桿狀交安設(shè)施及面狀交安設(shè)施等典型要素語義識別問題,文章對比評估了PointNet、PointNet++及RandLA-Net三大主流深度學習點云語義分割網(wǎng)絡(luò)模型在高速公路場景下的語義分割性能和效果,最后選擇性能最優(yōu)的RandLA-Net網(wǎng)絡(luò)模型進行長距離(>5 km)高速公路基礎(chǔ)要素的語義分割實驗,結(jié)果表明,RandLA-Net網(wǎng)絡(luò)模型可以較好地實現(xiàn)高速公路場景的激光點云語義分割,總體精度達90.53%,能夠滿足高速公路場景數(shù)字化應用的信息識別精度要求。
雖然本文通過實驗研究得到RandLA-Net在同類點云語義分割算法中更適用于高速公路線性帶狀場景的目標識別計算,但當前主流的幾種基于深度學習的點云語義分割算法均需要大量人工標記樣本數(shù)據(jù)進行訓練學習,這無疑將增加大量前期工作。提高樣本標記效率、提出弱樣本依賴的語義分割方法等是未來高速公路線性帶狀場景目標要素自動識別的研究方向。