佟國峰 劉永旭 彭 浩 邵瑜淵
近年來,三維點云處理成為計算機視覺和人工智能領(lǐng)域比較重要的任務(wù)之一.該任務(wù)統(tǒng)籌語義分割、物體分類和實例分割等.其中語義分割最具有挑戰(zhàn)性,這主要得益于深度學(xué)習(xí)的發(fā)展.隨著激光雷達傳感器的發(fā)展,大規(guī)模點云有效語義分割成為實時智能系統(tǒng)中必不可少的能力[1-4].點云數(shù)據(jù)通常是不規(guī)則、稀疏和無序的,盡管卷積神經(jīng)網(wǎng)絡(luò)(Convo-lutional Neural Network, CNN)在圖像視覺中表現(xiàn)良好,但無法直接應(yīng)用于不規(guī)則的數(shù)據(jù),如何處理點云語義分割仍是一個非常重要的任務(wù).
目前,具有開創(chuàng)性的工作PointNet[5]已經(jīng)成為直接對點云進行處理的一種主流方法,它利用多層感知器逐層提取特征,并使用最大池化獲取全局信息,但無法獲得局部上下文信息.Qi等[6]提出PointNet++,建議將點云分組采樣,每層都有小型PointNet提取特征,卻忽略局部的細致特征.逐點多層感知機(Multilayer Perceptron, MLP)適合處理大場景點云,由此Hu等[7]提出RandLA-Net,使用隨機采樣的方法,加快網(wǎng)絡(luò)進程,降低計算量,但丟失部分點云信息.為了彌補上述缺陷,學(xué)者們開始使用局部特征融合方法,仍無法獲取全局依賴性和局部依賴性.Thomas等[8]提出KPConv(Kernel Point Convo-lution),Xu等[9]提出PAConv(Position Adaptive Convolution),都致力于學(xué)習(xí)有效的核,更適合點云幾何,但內(nèi)存消耗巨大.還有一些基于圖的方法[10-12],結(jié)合卷積算子和圖結(jié)構(gòu),提取點云特征,卻容易丟失空間結(jié)構(gòu).
針對大場景點云,空間結(jié)構(gòu)信息對于點云分割分類非常重要,尤其是點云處于相似類別時.盡管上述工作[5-7]嘗試捕捉有效的點云空間結(jié)構(gòu)信息,但仍然處在丟失點云局部特征信息的問題中.這主要有如下3個原因.1)在局部特征提取上缺乏完整性,難以靈活表征.2)著重考慮局部點云信息的獲取,缺少局部依賴性和全局依賴性.3)缺乏對場景每個點的解釋,導(dǎo)致輸出特征圖不足以進行細粒度的語義分割,匱乏不同尺度的信息.
針對點云的不規(guī)則性、稀疏性和無序性,如何學(xué)習(xí)點云特征是一個具有挑戰(zhàn)性的問題.傳統(tǒng)方法通常依靠手工制作特征的方法從3D點云中提取特征信息,目前基于學(xué)習(xí)的方法主要包括基于體素化的方法、基于點的方法和基于投影的方法.
1)基于體素化的方法[13-15].由于點云不像圖像那樣具有固定的特征值,故不能對點云直接進行三維卷積.一些研究者設(shè)計基于體素化的方法,首先將點云體素化為網(wǎng)格,再使用3DCNN進行操作.利用體素化的方法會消耗大量的內(nèi)存,因此學(xué)者們設(shè)計基于稀疏卷積的方法,在體素化的過程中會產(chǎn)生很多空的體素.為了避免卷積層在此消耗的內(nèi)存,稀疏卷積的方法會大幅提升網(wǎng)絡(luò)的速度.例如,Rieger等[16]提出OctNet,使用具有分層分區(qū)的不平衡八叉樹.關(guān)于稀疏卷積的方法,卷積核只在有體素的地方進行操作,大幅減少計算量和消耗內(nèi)存.但是將點云體素化到網(wǎng)格之上,仍會丟失點云的空間結(jié)構(gòu)信息.
(2)基于點的方法[17-19].對于體素化的方法而言,網(wǎng)絡(luò)對點云進行體素化時需要耗費大量的時間和內(nèi)存,往往會限制網(wǎng)絡(luò)的訓(xùn)練時間.直接將點云輸入網(wǎng)絡(luò)中,可減少一定的計算量和時間.PointNet是第一個直接輸入點云的網(wǎng)絡(luò),解決點云的無序性問題.針對PointNet沒有針對性地學(xué)習(xí)局部點云空間關(guān)系問題,PointNet++設(shè)計SA(Set Abstraction)層的結(jié)構(gòu),用于提升網(wǎng)絡(luò)對局部幾何結(jié)構(gòu)的敏感性.目前,針對大場景點云分割效率問題,直接以點云為輸入的RandLA-Net取得較優(yōu)效果.
(3)基于投影的方法[20-22].由于點云的結(jié)構(gòu)是不規(guī)則的,一些網(wǎng)絡(luò)將其表達為規(guī)則的表示后送入網(wǎng)絡(luò)中.基于2DCNN在圖像分割中的成功應(yīng)用,研究人員將三維點云有規(guī)則地進行多視圖投影,利用2DCNN對其進行特征提取,再采取多視圖融合的方法對其提取的特征進行最后的輸出表示,取得一定的成功.基于投影的方法有一個較大的弊端:點云的部分幾何信息在投影的過程中被折疊,而且三維點云也存在遮擋問題,故投影到二維平面時,都會影響分割的準確率.
在真實場景下,大規(guī)模的點云通常包含數(shù)百萬個點,很難直接進行處理.像RandLA-Net使用有效的隨機采樣方法,而不是PointNet++采取的更復(fù)雜的最遠點采樣,大幅縮減點云數(shù)目.由于Transfor-mer[23]的成功使用,在三維點云方面,大多數(shù)方法類似于二維圖像框架.
在網(wǎng)絡(luò)性能和速度權(quán)衡之下,并且受鄰域特征提取取得成功的啟發(fā),本文設(shè)計基于編碼特征學(xué)習(xí)的3D點云語義分割網(wǎng)絡(luò)(3D Point Cloud Semantic Segmentation Network Based on Coding Feature Lear-ning, CFL-Net).網(wǎng)絡(luò)設(shè)計如下4種模塊.1)引入角度信息的局部特征編碼器(Local Feature Encoder, LFE),在增強網(wǎng)絡(luò)旋轉(zhuǎn)魯棒性的同時對點云原始特征進行注意力增強.2)混合池化聚合模塊(Mixed Pooling Polymerization, MPP),在網(wǎng)絡(luò)學(xué)習(xí)中降低點云數(shù)目,保證點云的排序不變性,高效聚合點云特征.3)擴張感受野模塊(Dilated Receptive Field Block, DRFB),擴大局部區(qū)域內(nèi)點云感受野,在獲取精確特征信息的同時引入全局特征.4)多尺度融合模塊(Multi-Scale Fusion Module, MSFM),融合多層次編碼信息,從不同角度解釋點的表征,獲取精細特征地圖,高效完成語義分割.在兩個大型基準數(shù)據(jù)集S3DIS和SemanticKITTI上的實驗表明文中網(wǎng)絡(luò)的優(yōu)越性.
本文提出基于編碼特征學(xué)習(xí)的3D點云語義分割網(wǎng)絡(luò)(CFL-Net),直接以原始點云作為輸入,同時設(shè)計局部特征編碼器(LFE)、混合池化聚合模塊(MPP)、擴張感受野模塊(DRFB)和多尺度融合模塊(MSFM).
隨機采樣導(dǎo)致網(wǎng)絡(luò)丟失一定信息,為了學(xué)習(xí)局部點云空間信息特征,設(shè)計局部特征編碼器(LFE),利用位置表示和角度信息,提升空間角度旋轉(zhuǎn)魯棒性,并利用空間距離,通過注意力增強原始特征,可以學(xué)習(xí)到較完整的點云空間結(jié)構(gòu)特征信息,解釋區(qū)域內(nèi)不同物體的區(qū)別.
尋找鄰域范圍內(nèi)的質(zhì)心,質(zhì)心的計算為鄰域內(nèi)點坐標的平均值,減去質(zhì)心和中心點之間的水平方向角和垂直方向角,對上述的角度進行更新,得到更新后的相對水平方向角和垂直方向角:
其中,θi、γi表示局部點云內(nèi)質(zhì)心和中心點之間的水平方向角和垂直方向角.
(1)
圖1 局部點云之間相對角度表示示意圖
其中,f(i)表示第i個點的輸入特征向量,f(k)表示第k個點的輸入特征向量,|·|表示L1范數(shù),mean(·)表示平均值,exp(·)表示負指數(shù)函數(shù).
利用共享函數(shù)g(·)學(xué)習(xí)注意力得分,函數(shù)g(·)由一個共享MLP和一個Softmax組成.學(xué)習(xí)的注意力打分
其中W表示共享MLP中可以學(xué)習(xí)的權(quán)重.
(2)
在由式(1)得到局部位置編碼特征和由式(2)得到基于注意力的鄰域特征后,拼接二者,得到增強后的局部特征:
圖2 局部特征編碼器框架
原始數(shù)據(jù)集點云數(shù)目較龐大,需要通過特征學(xué)習(xí)聚合原始點云,實現(xiàn)一點代替多點的作用,網(wǎng)絡(luò)學(xué)習(xí)中點云數(shù)目的減少可有效降低內(nèi)存開銷和節(jié)約時間成本,因此,本文設(shè)計混合池化聚合模塊(MPP),聚合經(jīng)過LFE模塊后的特征,降低點云數(shù)目.
其中,max(·)表示最大池化操作,avg(·)表示平均池化操作.
得到的特征進行拼接后,經(jīng)過一個共享的MLP,得到一個較豐富的特征向量:
MPP模塊框架如圖3所示.
圖3 混合池化聚合模塊框架
目前在點云分割中使用最多的采樣方法為最遠點采樣(Farthest Point Sampling, FPS)和隨機采樣(Random Sampling, RS).FPS的采樣時間和消耗內(nèi)存都高于RS,會導(dǎo)致采樣不均勻.RS則會導(dǎo)致局部出現(xiàn)稀疏甚至丟失點云信息的情況,但時間和消耗內(nèi)存都遠小于其它算法,因此可以利用局部特征聚合的方法彌補上述缺點.本文在編碼層采用RS采樣方式.
解碼層網(wǎng)絡(luò)需要將聚合的點云特征還原到初始尺度的點云,針對點云數(shù)據(jù)集上點云數(shù)量較龐大的問題,本文采用最近鄰插值進行上采樣.
大場景點云分割中一些同類別物體往往多是鄰近的,網(wǎng)絡(luò)在經(jīng)過一次編碼之后,如果可以盡可能使用一個或多個點信息代替更多點的信息,對于提升區(qū)域內(nèi)感受野將是非常有效的.
為了實現(xiàn)上述目的,本文設(shè)計擴張感受野模塊(DRFB),擴大點云感受野.在1.1節(jié)和1.2節(jié)中提取的特征即是點云場景中的局部特征,為了自動增強鄰域有用特征,本文利用殘差塊引入全局特征.該方式不僅在三維點云語義分割中使用,在二維圖像分割中也是一個常見的處理操作.
本文采用的采樣方式為隨機采樣,會導(dǎo)致點云大幅減少.DRFB模塊的核心是LFE模塊和MPP模塊的擴展使用.經(jīng)多次實驗和經(jīng)驗證實,兩次的擴展效果最好.
DRFB模塊框架如圖4所示.圖5為局部區(qū)域內(nèi)點云感受野擴大演示圖,圖中彩點表示聚合特征.
圖4 擴張感受野模塊框架
圖5 點云感受野擴大示意圖
大場景點云分割中常用的插值方法是最近鄰插值,還有類似的插值方法(雙線性插值、雙三次插值等)[24].最近鄰插值是較簡單的一種插值方法.當利用插值的方法還原原始點云的特征圖時,常會出現(xiàn)標簽丟失或分配錯誤的情況.很多算法利用跳躍拼接的方法將編碼層相同尺度的特征信息進行拼接,同時結(jié)合編碼層信息,缺點是忽略不同尺度的點云信息,導(dǎo)致場景內(nèi)個別點云錯分割的情況.
本文設(shè)計多尺度融合模塊(MSFM),采用類似于金字塔的結(jié)構(gòu)進行解碼,與插值方法不同的是,MSFM模塊沒有采用自適應(yīng)融合方式,而是在解碼層將不同層次編碼層特征利用近鄰插值方式進行上采樣,再通過MLP達到相同的維度,然后融合獲取的不同的尺度特征,保證在基本概括每個點的同時降低網(wǎng)絡(luò)的計算量.解碼層的輸出為
MSFM模塊覆蓋解碼層和編碼層,融合不同尺度層次信息,較全面概括場景點云.該模塊具體框架如圖6所示.
圖6 多尺度融合模塊框架
CFL-Net的網(wǎng)絡(luò)架構(gòu)如圖7所示,由編碼塊和解碼塊組成.
1)編碼塊.大小為N×din(N表示點數(shù),din表示維度)的點云首先送入一個全連接層中,用于轉(zhuǎn)換通道維度.接下來編碼層通過DRFB模塊逐層提取局部上下文特征和全局上下文特征,編碼塊分別具有32、128、256、512個輸出通道,輸入點云的個數(shù)按照下降率為4的隨機采樣減少.
2)解碼塊.解碼塊主要通過MSFM模塊進行操作,本文沒有使用像RandLA-Net一樣跳躍連接的方式.在編碼層將不同尺度的點云特征分別利用最近鄰插值完成上采樣,還原到相同原始點云數(shù)目后再進行拼接融合,送入分類器中進行打分,利用softmax函數(shù)預(yù)測N×nclass(N表示點數(shù),nclass表示類數(shù)量)語義標簽.此外,使用交叉熵損失訓(xùn)練網(wǎng)絡(luò),學(xué)習(xí)率為0.01.
圖7 CFL-Net架構(gòu)圖
本節(jié)通過實驗驗證CFL-Net的先進性和有效性,實驗環(huán)境如下:Ubuntu18.04,CUDA為9.0,CUDNN為8.0.1.
本文選用S3DIS[25]、SemanticKITTI[26]數(shù)據(jù)集進行實驗.
S3DIS數(shù)據(jù)集由6個大區(qū)域的272個房間組成,采集方式是使用Matterport相機收集數(shù)據(jù),以數(shù)據(jù)為基礎(chǔ)生成額外的RGB-D數(shù)據(jù),并對網(wǎng)格進行采樣制作成點云.為了評估CFL-Net的語義分割性能,在實驗中使用標準的6倍交叉驗證.網(wǎng)絡(luò)設(shè)置的批尺寸大小為4,由于每個場景的點云數(shù)目各不相同,對于不同的場景本文給予不同的點云輸入,輸入點數(shù)大致為30 000~38 000,使用學(xué)習(xí)率為0.01的Adam(Adaptive Moment Estimation)優(yōu)化器,每個場景(Area1-Area6)都經(jīng)歷100個迭代周期的訓(xùn)練.
SemanticKITTI數(shù)據(jù)集由43 552個密集注釋的激光雷達掃描組成,有22個序列.每次掃描都是一個帶有105個點的大型點云.正式來說,序列00~07和09~10(19 130次掃描)用于訓(xùn)練,序列08(4 071次掃描)用于驗證,序列11~21(20 351次掃描)用于在線測試.原始三維點只有三維坐標,無顏色信息.
本文采用總體精確度(Overall Accuracy, OA)、平均類別準確度(Mean Accuracy, mAcc)和類別平均交并比(Mean Intersection over Union, mIoU)作為評價指標.假設(shè)實驗中的類別一共有k類,定義pii表示類別i的預(yù)測標簽等于真實標簽的個數(shù),pij表示類別i的預(yù)測標簽為j的個數(shù),那么mIoU指標可以表示為
mAcc可以表示為
OA可以表示為
為了驗證CFL-Net的先進性和有效性,選擇如下對比網(wǎng)絡(luò):PointNet[5]、RandLA-Net[7]、KPConv[8]、SSP+SPG(Supervized SuperPoint+Superpoint Gra- phs)[11]、RSNet(Recurrent Slice Network)[27]、SPG (Superpoint Graph)[28]、PointCNN[29]、Point-Web[30]、ShellNet[31]、PointASNL[32]、SCF-Net[33]、 CBL(Contras- tive Boundary Learning)[34]、RangeNet++[35]、Polar- Net[36]、STPC(Spatial Transformer Point Convolu- tion)[37]、MPF(Multi-projection Fusion)[38].
在S3DIS數(shù)據(jù)集上使用6折交叉驗證的方法.各網(wǎng)絡(luò)對S3DIS數(shù)據(jù)集上13個類別物體的性能對比如表1所示,各網(wǎng)絡(luò)在S3DIS數(shù)據(jù)集上的指標值對比如表2所示,表中黑體數(shù)字表示最優(yōu)值.表1中mIoU表示每個類別在6折交叉驗證得到的平均交并比,表2中mIoU表示13個類別平均后得到的6折交叉驗證結(jié)果.
由表1和表2可看出,CFL-Net的mIoU值在每個類別上并不都是最高的,但是對于結(jié)構(gòu)相似復(fù)雜和較小的物體(Sofa、Beam和Chair等),CFL-Net表現(xiàn)出較優(yōu)性能,這也表明CFL-Net的有效性.
表1 各網(wǎng)絡(luò)在S3DIS數(shù)據(jù)集13個類別上的mIoU對比
表2 各網(wǎng)絡(luò)在S3DIS數(shù)據(jù)集上的指標值對比
為了驗證CFL-Net的可靠性,在S3DIS數(shù)據(jù)集內(nèi)比較具有挑戰(zhàn)性的場景5(Area5)上進行單獨的對比實驗,各網(wǎng)絡(luò)指標值對比如表3所示,表中黑體數(shù)字表示最優(yōu)值.
由表3可看出,CLF-Net基本領(lǐng)先于其它對比網(wǎng)絡(luò),即使在mIoU值上未超過CBL,但是在mAcc值上遠高于CBL.
表3 各網(wǎng)絡(luò)在S3DIS數(shù)據(jù)集內(nèi)區(qū)域5上的指標值對比
由于SemanticKITTI數(shù)據(jù)集的場景和點云數(shù)量都多于S3DIS數(shù)據(jù)集,分割類別種類也多,原始點云還不包含顏色信息,所以更加具有挑戰(zhàn)性.本文在SemanticKITTI數(shù)據(jù)集上進行相應(yīng)的分割測試,各網(wǎng)絡(luò)具體mIoU值對比如表4所示,各類別的mIoU值對比如表5和表6所示,表中黑體數(shù)字表示最優(yōu)值.表4的mIoU表示各網(wǎng)絡(luò)對19個類別的平均交并比,表5和表6的mIoU表示19個類別平均后的交并比結(jié)果.
表4 各網(wǎng)絡(luò)在SemanticKITTI數(shù)據(jù)集上的mIoU值對比
由表4可知,CFL-Net性能較優(yōu),由此說明CFL-Net的有效性.
對于一些復(fù)雜較小的物體,CFL-Net表現(xiàn)出較優(yōu)性能,這主要得益于CFL-Net局部編碼器精煉位置信息和角度信息,并且對特征進行增強,對于局部特征提取的魯棒性較優(yōu).
對于一些較稀疏和龐大的物體,分割性能一般,主要是由于在全局特征和局部特征關(guān)聯(lián)上提取不充足.雖然CFL-Net的最優(yōu)表現(xiàn)較少,但是大多數(shù)接近于較優(yōu).
實驗對比說明,CFL-Net的實驗結(jié)果優(yōu)于一些先進的網(wǎng)絡(luò),這也間接驗證CFL-Net設(shè)計的有效性.
表5 各網(wǎng)絡(luò)在SemanticKITTI數(shù)據(jù)集9個類別上的mIoU值對比
表6 各網(wǎng)絡(luò)在SemanticKITTI數(shù)據(jù)集另10個類別上的mIoU值對比
針對模型參數(shù)計算量大小問題,本文選擇Point-Net、KPConv、RandLA-Net、SCF-Net、CBL作為對比網(wǎng)絡(luò).
各網(wǎng)絡(luò)參數(shù)量和mIoU直觀對比如圖8所示,通過對比圖也可以看出,CFL-Net在復(fù)雜度和精度上基本都是最優(yōu)的.
各網(wǎng)絡(luò)在S3DIS、SemanticKITTI數(shù)據(jù)集上的復(fù)雜性分析如表7和表8所示,表中黑體數(shù)字表示最優(yōu)值.
(a)S3DIS
表7 各網(wǎng)絡(luò)在S3DIS數(shù)據(jù)集上的語義復(fù)雜性分析
表8 各網(wǎng)絡(luò)在SemanticKITTI數(shù)據(jù)集上的語義復(fù)雜性分析
CFL-Net參數(shù)計算量雖然略高于RandLA-Net,但是相比RandLA-Net,mIoU值在S3DIS數(shù)據(jù)集上提高3.2%,在SemanticKITTI數(shù)據(jù)集上提高1.8%,而且CFL-Net的計算量小于SCF-Net,因此效果也更優(yōu).
為了驗證CFL-Net每個模塊設(shè)計的必要性及有效性,本文針對每個模塊在S3DIS數(shù)據(jù)集的Area5上進行單獨的訓(xùn)練和測試,具體消融實驗如下.
為了驗證加入水平方向角和垂直方向角的有效性,在位置編碼特征信息中選取不同的組合,具體如下表示.
1)組合1.
2)組合2.
3)組合3.
4)組合4(CFL-Net).
5)組合5.
6)組合6.
各組合在S3DIS數(shù)據(jù)集上的mIoU值對比如表9所示,表中黑體數(shù)字表示最優(yōu)值.由表可見,添加方向角比一些網(wǎng)絡(luò)使用相對直角坐標位置更有效.
表9 不同編碼組合對算法的影響
RandLA-Net只將編碼的局部位置信息和鄰域點特征拼接組成局部特征編碼模塊,CFL-Net利用注意力機制對特征進行加權(quán)學(xué)習(xí).RandLA-Net和CFL-Net在S3DIS數(shù)據(jù)集上的mIoU值對比如表10所示.由表可見,注意力機制可提升網(wǎng)絡(luò)的有效性.
表10 注意力機制對算法的影響
很多網(wǎng)絡(luò)在聚合特征模塊使用自注意力池化,而CFL-Net使用最大池化和平均池化組合的方式.各種池化方式的mIoU值對比如表11所示,表中黑體數(shù)字表示最優(yōu)值.由表可見,最大池化+平均池化會降低網(wǎng)絡(luò)的計算量.如果將兩種池化單獨使用會導(dǎo)致很多信息丟失,效果不佳.刪除平均池化,網(wǎng)絡(luò)的mIoU值下降約4%,刪除最大池化,網(wǎng)絡(luò)的mIoU值下降約3%,都大幅降低算法效果.使用平均池化的方法在理論上也聚合局部特征,提取模塊學(xué)習(xí)的特征,但是從宏觀上看,沒有最大池化概括總體特征,也會導(dǎo)致分割精度不高.
表11 池化方式對算法的影響
搜索鄰域點常使用搜索方式是鄰域搜索(KNN)和球查詢(Ball Query).球查詢不用針對每個點,利用歐氏距離搜索的方式進行搜索,而是劃定一個球域且選擇其內(nèi)的點,在計算量方面略小于KNN搜索.為了保證網(wǎng)絡(luò)獲取點云的均勻性和一致性,本文采取的方式為KNN搜索.針對K值的選擇,在S3DIS、Seman-ticKITTI數(shù)據(jù)集上進行對比實驗,具體mIoU值如表12所示,表中黑體數(shù)字表示最優(yōu)值.由表可見,K=16時CFL-Net性能最優(yōu).
表12 不同K值對算法的影響
點云語義分割過程中遇到相似或者緊密連接的物體,可能會誤判為同種類別.針對此問題,分別使用下采樣和多尺度融合,具體mIoU值如表13所示.
表13 下采樣和多尺度融合對算法的影響
由表13可看出,將編碼層和解碼層同尺度的點云特征信息進行連接,可提升分割效果.但由于分割過程中點云下采樣的跨步較大,一次隨機采樣會導(dǎo)致丟失很多點,故利用多尺度還原特征進行尺度拼接可有效解決大量信息丟失的問題.
S3DIS數(shù)據(jù)集覆蓋超過6 000 m2,包含約70 000個RGB圖像,以及相應(yīng)的深度、表面法線、語義注釋等信息,但其室內(nèi)空間狹小、形狀類似以及環(huán)境擺放雜亂程度都會影響語義分割精度,因此具有挑戰(zhàn)性.本文針對比較典型的場景房間進行可視化測試.
CFL-Net在具有挑戰(zhàn)性的Area5上的俯瞰語義分割結(jié)果如圖9所示.由圖可看出,CFL-Net在幾十個房間的語義分割結(jié)果還是較為接近基準真值,側(cè)面說明CFL-Net的有效性.
CFL-Net和RandLA-Net在S3DIS數(shù)據(jù)集上的定性結(jié)果如圖10所示.由圖中紅色標注的部分可看出,CFL-Net在語義分割上更優(yōu).
SemanticKITTI數(shù)據(jù)集是由德國波恩大學(xué)開發(fā)的基于汽車Lidar大型戶外數(shù)據(jù)集,使用先進的光探測和測距傳感器,不受照明影響距離的精確測量.由于數(shù)據(jù)集上點數(shù)稠密、類別豐富、幾何信息更精確,因此具有挑戰(zhàn)性.
本文經(jīng)過測試后對其點云幀序列進行可視化,語義分割可視化結(jié)果如圖11所示.
(a)輸入點云 (b)基準真值 (c)CFL-Net預(yù)測結(jié)果
(a)輸入點云
(a)輸入點云
本文主要關(guān)注于學(xué)習(xí)有效局部特征信息,用于保持大場景點云語義分割的空間結(jié)構(gòu),由此提出基于編碼特征學(xué)習(xí)的3D點云語義分割網(wǎng)絡(luò)(CFL-Net).具體來說,設(shè)計一個學(xué)習(xí)點云空間結(jié)構(gòu)編碼器(LFE)和高效的聚合點云特征模塊(MPP),針對不同尺度點云同步學(xué)習(xí),設(shè)計擴張感受野模塊(DRFB)和多尺度融合模塊(MSFM).在2個公共基準數(shù)據(jù)集S3DIS和SemanticKITTI上,CFL-Net取得出色表現(xiàn).本文還通過消融實驗分析每個模塊的有效性.CFL-Net缺點在于學(xué)習(xí)鄰域特征時著重關(guān)注局部特征,忽略全局特征的依賴性.因此,今后可進一步探索高效的網(wǎng)絡(luò),提取局部和全局之間的相互關(guān)系,高效應(yīng)用于大場景點云語義分割.