許嘉麟,姚 雙,張蕊華,許 浩,沈 洋,
(1.寧波大學 信息科學與工程學院,浙江 寧波 325211;2.麗水學院 工學院,浙江 麗水 323000)
三維點云模型研究是計算機圖形學、計算機視覺與模式識別領域共同關注的熱點話題之一。二維圖像丟失了現(xiàn)實世界中2 個或多個物體間的深度信息,不適用于需要深度信息和定位信息的領域,如機器人、自主駕駛等。為了用深度信息捕捉三維世界,早期常見的方法是使用立體視覺技術,即用2 個或更多校準的數(shù)碼相機來提取三維信息。點云是圍繞場景中物體曲面采樣的三維數(shù)據(jù)點集,可以由點的X、Y、Z坐標表示,也可以加入諸如曲面法線、RGB 值等附加特性,可見點云是一種用于表示三維幾何體的基礎數(shù)據(jù)結構。
保證特征旋轉不變是計算機視覺與模式識別領域的重要技術之一,例如在處理圖像時提取的特征要保證旋轉不變。不同于圖像的二維平面結構,點云的結構為三維空間,進行點云數(shù)據(jù)處理要保證其繞X、Y、Z這3 個坐標軸旋轉時所提取的特征不變,因此點云空間旋轉不變性的實現(xiàn)比二維圖像實現(xiàn)旋轉不變性更具挑戰(zhàn)。點云數(shù)據(jù)是一個包含三維坐標信息的無序點集合,對數(shù)據(jù)順序不敏感,相同的一個點云數(shù)據(jù)模型完全可以有多種不同的存儲順序,這意味著處理點云數(shù)據(jù)時需要保持數(shù)據(jù)的不同排列不變性,即點云的置換不變性。處理點云無序性的一般方法包括用對稱函數(shù)來保證置換不變性、將無序的數(shù)據(jù)進行重新排序及對數(shù)據(jù)的所有排列進行數(shù)據(jù)增強后使用RNN 模型。
本文提出一種基于親疏度矩陣的點云置換不變特征提取方法,在M-Conv 模型第1 層輸入時將點坐標映射到曲率特征空間以實現(xiàn)空間旋轉不變性?;跉W式內積構建K鄰域內的親疏度矩陣,以反映點之間的親疏關系。根據(jù)親疏度矩陣計算得到變換矩陣,對輸入的數(shù)據(jù)進行變換以實現(xiàn)置換不變性。此外,采用代數(shù)計算的方式獲取變換矩陣,提高模型訓練的效率,并在常規(guī)卷積神經(jīng)網(wǎng)絡的基礎上,設計一套用于處理點云空間旋轉不變性和置換不變性問題的框架。
針對點云空間旋轉不變性和置換不變性問題,研究人員已提出諸多方法,總體而言可以分為基于多視圖的方法[1-3]、基于體素的方法[4-5]和基于點的深度學習方法?;诙嘁晥D的方法將點云投影到多視圖表示來學習特征,基于體素的方法將點云放入體素網(wǎng)格中進行處理,但這些方法的計算量和內存占用非常龐大,無法很好地應用到密集的3D 數(shù)據(jù)中?;邳c的深度學習方法包括點對點MLP 網(wǎng)絡[6-8]、基于卷積的網(wǎng)絡[9-11]、基于圖的網(wǎng)絡[12-13]及基于數(shù)據(jù)索引的網(wǎng)絡[14-15],這些方法會對點進行特征學習。除此之外,還有一些方法如基于徑向基函數(shù)的DeepRBFNet[16]、將膠囊網(wǎng)絡引入到點云中的3DPointCapsNet[17]、使用自注意力模塊的RMFPDNN[18]等。
針對點云空間旋轉不變性問題,PointNet[6]通過訓練T-Net 得到K×K矩陣,并對輸入進行空間對齊以保證空間旋轉不變性。文獻[9]提出3D 球面卷積神經(jīng)網(wǎng)絡Spherical CNN 來學習3D 形狀的旋轉不變性,其以多值球面函數(shù)為輸入,通過在球形諧波域中使用錨點對頻譜進行參數(shù)化來獲得局部卷積濾波器。借鑒于Spherical CNN,文獻[10]介紹了構建球面CNN 的基本要素,其卷積定義為在球形互相關上使用通用快速傅里葉變換算法實現(xiàn)。SRINet[19]首先投影1 個點云以獲得旋轉不變表示,然后利用基于PointNet 的主干來提取全局特征,并利用基于圖的聚合來提取局部特征,但先進行投影的方式會大幅增加計算量。文獻[20]提出張量場網(wǎng)絡,將點卷積運算定義為可學習的徑向函數(shù)和球諧函數(shù)的乘積,其局部等價于點的3D 旋轉、平移和置換。SPHNet[21]通過在體積函數(shù)的卷積過程中合并球形諧波核來實現(xiàn)旋轉不變性。ConvPoint[22]將卷積核分為空間和特征兩部分,從單位球體中隨機選擇空間部分的位置,并使其通過簡單的MLP 學習加權函數(shù)。這些基于球形卷積的方法同樣會增加計算量,其學習方式也無法很好地被應用于非監(jiān)督性方法中。本文方法將點坐標映射到曲率特征空間,以實現(xiàn)空間旋轉不變性。
關于如何解決點云置換不變性問題,PointNet 使用最大池化對稱函數(shù)來提取數(shù)據(jù)的特征,但基于最大池化的方法忽略了點之間的局部結構信息。QI等[7]在PointNet 的基礎上提出層次網(wǎng)絡PointNet++來捕獲每個點附近的幾何結構,取得了更好的結果。ZAHEER 等[8]從理論上證明實現(xiàn)置換不變性的關鍵是對所有表示求和的應用進行非線性變換,他們還為包括形狀分類在內的各種應用設計了一種基本架構DeepSets。PointCNN[11]通過學習的方式獲得一個變換矩陣,對無序的數(shù)據(jù)進行變換使之轉變?yōu)橛行蜉斎?。文獻[17]提出一種無監(jiān)督的自動編碼器3DPointCapsNet 用于3D 點云的通用表示,使用逐點MLP 和卷積層學習點獨立特征,并使用多個最大池化層提取全局特征。文獻[23]提出的RS-CNN 以RS-Conv 為核心層,將某個點周圍的局部點子集作為輸入,然后通過學習映射并使用MLP 進行卷積,將低級關系(例如歐氏距離和相對位置)轉換為局部子集中點之間的高級關系來獲得變換矩陣。PointConv[24]中的卷積定義為蒙特卡洛估計,這是一個關于重要性采樣的連續(xù)3D 卷積,卷積核由權重函數(shù)(通過MLP 層學習)和密度函數(shù)(通過核化密度估計和MLP 層學習)組成。WU 等[25]提出的RCNet 利用標準的RNN 和2D CNN 來構建用于3D 點云處理的置換不變網(wǎng)絡,先將點云劃分為平行波束,并沿特定維度進行分類,然后將每個波束送入共享的RNN中進行處理,再將所學習的特征進一步反饋并送到2D CNN 中進行分層特征聚合。本文方法將基于點與點之間的歐式內積構建親疏度矩陣,計算并得到相應的變換矩陣,對輸入進行變換,使之從無序狀態(tài)轉變?yōu)橛行驙顟B(tài)。
本文將基于點與點之間的歐式內積構建K鄰域內的親疏度矩陣,并計算親疏度矩陣特征值,對其進行排序后將對應的特征向量矩陣作為變換矩陣M,對輸入的數(shù)據(jù)進行變換使無序輸入轉變?yōu)橛行蜉斎?。此外,進行M-Conv 操作,即通過卷積操作提取置換不變的特征,通過代數(shù)計算獲取變換矩陣,減少額外的參數(shù),并加快模型的迭代及訓練。
本文方法的輸入是一系列點與特征的集合F1={(p1,i,f1,i):i=1,2,…,N1},其中:{p1,i}是點的集合;{f1,i:f1,i∈C1}是每個點對應的特征;N1是點與對應特征數(shù)量;C1為特征通道數(shù)量。和基于網(wǎng)格卷積神經(jīng)網(wǎng)絡相同,本文對F1使用M-Conv 操作獲得更高級的表示:F2={(p2,i,f2,i):f2,i∈C2,i=1,2,…,N2},其中{p2,i}是{p1,i}的一系列代表點,F(xiàn)2與F1相比,代表點數(shù)量減少,但是特征通道數(shù)量增大,即N2
其中:Q是卷積核;M是變換矩陣。輸入的點與特征的集合被M-Conv 處理,點的數(shù)量變少(9→5→2),但是特征卻越來越豐富(如圖1 所示)。
圖1 M-Conv 分層卷積Fig.1 Hierarchical convolution of M-Conv
通過M-Conv 的處理,代表點{p2,i}成為系列信息更豐富的點。在本文實驗中,它們通過最遠點采樣從{p1,i}中采樣而來,該采樣方法能使采樣點均勻分布在數(shù)據(jù)模型的各個角落,以保證每次M-Conv 操作均能獲取充足的特征信息。
為保證置換不變性的實現(xiàn),本文通過找出與代表點最近的K個點形成K鄰域,根據(jù)K鄰域內點的相對關系構建1 個K×K的親疏度矩陣L,再計算親疏度矩陣L的特征值,對其進行排序后將對應的特征向量矩陣作為變換矩陣,并對輸入的數(shù)據(jù)進行變換來解決置換不變性問題。在親疏度矩陣L的構建過程中,本文采用兩點之間的歐氏內積來反映點之間的親疏關系,定義親疏度矩陣L的表達式如式(2)所示:
其中:p1,p2,…,pK是K鄰域中的各個點;*代表內積運算;K是鄰域大小??梢钥吹?,親疏度矩陣L依賴于點之間的內積關系,與各點之間的位置狀態(tài)沒有關系,因此親疏度矩陣L是空間旋轉不變的。
交換點與點之間的存儲順序是點云無序性的重要體現(xiàn),但并不改變其本質歸屬。2.2 節(jié)基于歐式內積構建了K×K的親疏度矩陣L,并取親疏度矩陣L的絕對值得到矩陣L',以此來計算特征值與特征向量。特征值及特征向量的計算式如式(3)所示:
計算矩陣L'的K個特征值(λ1,λ2,…,λK)及對應的K個特征向量(x1,x2,…,xK),將特征值從小到大進行排序,同時將每個特征值對應的特征向量按對應順序排列組成變換矩陣M。例如某三階矩陣L'的3 個特征值分別為λ1、λ2、λ3,其對應的特征向量為x1、x2、x3,且λ2<λ3<λ1,則對應的特征向量組合而成的變換矩陣為:
根據(jù)親疏度矩陣計算得到的變換矩陣M是空間旋轉不變的,同時也是置換不變的,證明如下:
在式(2)中交換pi與pj的位置順序,親疏度矩陣L變?yōu)長1,如式(5)所示:
交換L1的第i行和第j行得到,交換的第i列和第j列得到,且有,即:
L1可由矩陣初等變換轉變?yōu)長,則L1與L的特征值與特征向量相同,因此在K鄰域內交換點之間的順序,始終會得到相同的變換矩陣M。對特征值按照從小到大的順序進行排序,并將對應的特征向量組成變換矩陣M,在卷積之前對輸入數(shù)據(jù)進行變換,如式(1)所示,以此來獲得置換不變的特征。
M-Conv 是本文處理點云數(shù)據(jù)方法的核心操作。本小節(jié)將介紹M-Conv 操作的整體算法流程,并解釋其基本原理。
在算法1 中:Q是卷積核;p是代表點;P是無序的點集;Fp是P對應的特征集合。和基于網(wǎng)格的卷積神經(jīng)網(wǎng)絡類似,為利用空間局部相關性,在局部區(qū)域內進行M-Conv 操作。由于其輸出的特征與代表點{p2,i}相關聯(lián),M-Conv 將它們在點{p1,i}(即P)中的鄰域點及相關特征作為輸入進行卷積操作。代表點{p2,i}是從上一層的代表點{p1,i}采樣而來,以{p2,i}中的每一個點為中心,找出其在{p1,i}中最鄰近的K個點形成K鄰域,在卷積K鄰域內的點及相關特征中得到輸出,采用一般化的公式來表示M-Conv 操作,如式(7)所示:
進一步可得:
其中:MLPα()是一個多層感知機,與PointCNN 類似,將多層感知機應用于每個點;Cal_L()是構建親疏度矩陣的操作;Cal_M()是計算變換矩陣的操作。值得注意的是,M-Conv 的第1 層輸入與后面不相同,因為第1 層無法拼接來自上一層的特征。為保證點云的空間旋轉不變性,第1 層輸入時將點坐標映射到曲率特征空間,且不用變換矩陣M對其進行變換,第1 層的M-Conv 操作可以表示為:
其中:Cal_C()是將點坐標映射到曲率特征空間的操作,詳細過程請參考2.6 節(jié)細節(jié)補充。
算法1 的第3 行~第5 行是M-Conv 的關鍵操作,能夠保證其實現(xiàn)置換不變的特性。M-Conv 是在局部區(qū)域工作的,其輸出不需要依賴于p及鄰域點的絕對位置,僅依賴于其相對位置。圖2 所示為局部坐標系建立,本文將局部坐標系的原點定位在每個代表點處,將鄰域點的信息匯聚到代表點處,其局部坐標及相關特征定義了代表點的輸出特征。
圖2 局部坐標系建立Fig.2 Establishment of local coordinate system
本文參考PointCNN,通過逐點MLPα()將點坐標提升為特征要素。不同的是,PointCNN 通過監(jiān)督學習的方式獲得變換矩陣,并對輸入進行變換。而本文方法通過M-Conv 操作完成這一過程,M-Conv會根據(jù)輸入點的順序計算并得到變換矩陣M及排列Fβ,將無序的數(shù)據(jù)進行變換從而解決點云置換不變性問題。對于沒有任何附加特征的輸入(即Fp為空),為保證實現(xiàn)點云空間旋轉不變性,在第1 層輸入時將點坐標映射到曲率特征空間,僅使用MLPα()對其進行處理且不拼接來自上一層的特征,如式(9)所示。因此,本文的方法可以穩(wěn)健有效地處理附帶有或不附帶有特征的點云。關于MLPα()及Cal_C(),可參考2.6 節(jié)的細節(jié)補充。
基于網(wǎng)格的卷積神經(jīng)網(wǎng)絡的Conv 層和M-Conv層在特征提取的局部區(qū)域(K×K的局部塊和代表點周圍的K鄰域)以及局部區(qū)域特征學習方式(Conv 和M-Conv)2 個方面有所不同。總體來說,使用M-Conv 搭建深度網(wǎng)絡的過程與使用卷積神經(jīng)網(wǎng)絡搭建網(wǎng)絡模型的過程非常相似。
圖3 所示為一個簡單的由M-Conv 組成的網(wǎng)絡模型,其中:H代表點數(shù)量;C是輸出特征通道數(shù)量。該模型能夠將輸入點(附帶有或不附帶有特征)轉換為更少的代表點,每個代表點都將聚合來自上一層自身鄰域點的特征,因此自身所附帶的特征會變得更加豐富,感受野也逐步擴大。由最后一層M-Conv 處理得到的特征F依舊是無序的,本文方法將對其使用變換矩陣M進行變換,使之轉變?yōu)橛行驙顟B(tài)。隨后連接完全連接層,然后是計算損失并優(yōu)化,用于訓練網(wǎng)絡模型。在完全連接層之后,應用Dropout 層以減少過擬合現(xiàn)象的產(chǎn)生。測試時,來自多個代表點的輸出在softmax 之前被平均化,以進行穩(wěn)定的預測,該設計類似于Network in Network[26]。
圖3 M-Conv 網(wǎng)絡模型的結構Fig.3 M-Conv network model structure
在訓練模型時,對于特定的代表點,以相同的順序連續(xù)使用相同的一組鄰近點顯然沒有任何好處,因此隨機采樣并打亂點的輸入順序,代表點的鄰近點集和順序就會因批次而異,如此可以加強模型穩(wěn)定性。實驗發(fā)現(xiàn),經(jīng)最后一層M-Conv 處理所得到的特征依舊是無序的,因此連接完全連接層之前,將最后一層的特征進行變換,可以得到更好的結果。算法1 的第1 行實現(xiàn)了MLPα(),它由2 個完全連接層組成,每一個完全連接層后面都連接ELU 激活函數(shù)和批歸一化(Batch Normalization,BN),即FC(3,Cα)→ELU→BN→FC(Cα,Cα)→ELU→BN。式(9)實現(xiàn)了Cal_C(),具體步驟如下:
1)在代表點K鄰域內組成K×3 的矩陣A;
2)對矩陣A進行中心化,減去每一列的均值得到矩陣;
4)計算協(xié)方差矩陣C的特征根。
使用MLPα()對協(xié)方差矩陣C的特征根進行處理,并獲取特征要素,將其作為第1 層的輸入,使點坐標映射到曲率特征空間中實現(xiàn)空間旋轉不變性。
經(jīng)過實驗研究,得到M-Conv 模型最優(yōu)參數(shù)如表1 所示,其中K、P、C分別表示鄰域大小、代表點數(shù)量及輸出特征通道數(shù)量。本文采用表1 所示的M-Conv 最優(yōu)參數(shù)模型結構,在公開的數(shù)據(jù)集ModelNet40 上進行分類實驗,并與其他方法所得結果進行比較。ModelNet40 數(shù)據(jù)集是一個包含40 個類別三維點云模型數(shù)據(jù)集,共9 840 個訓練模型,2 468 個測試模型。實驗平臺為搭載GeForce RTX 3090 GPU 的服務器,配置環(huán)境為Python3.8 及Tensorflow2.4-GPU。
表1 M-Conv 最優(yōu)參數(shù)模型結構Table 1 M-Conv optimal parameter model structure
使用ModelNet40 數(shù)據(jù)集及M-Conv 最優(yōu)參數(shù)模型結構進行實驗,使用總體準確率和類別平均準確率兩大指標進行表征,結果如表2 所示,本文方法在這2 個指標上均有一定提高??傮w準確率雖只略高于PointCNN 及RS-CNN,但與其他方法相比有較大提升。在類別平均準確率的比較上,本文方法有明顯提升,可見該方法在每個類別的識別上均具有較強的能力,針對不同類別物體所提取的特征更準確,能更好地區(qū)分與識別不同物體所帶有的不同特征信息。
表2 ModelNet40 數(shù)據(jù)集實驗結果對比Table 2 Comparison of experimental results of ModelNet40 dataset %
與其他現(xiàn)有的方法相比,本文方法具有其獨特的優(yōu)勢?,F(xiàn)有方法在變換矩陣的獲取上一般采用監(jiān)督學習的方式,例如PointCNN、RS-CNN 等,其采用學習的方式得到變換矩陣,因此產(chǎn)生額外的參數(shù),并占用大量資源如CPU、GPU 等。本文方法不需要通過學習獲得變換矩陣,而是直接根據(jù)所構建的親疏度矩陣計算得到所需要的變換矩陣,這種方式不會產(chǎn)生額外的參數(shù),因此在同等情況下,本文方法的參數(shù)更少,占用資源更少,訓練更快捷迅速且達到相同準確率所需的迭代次數(shù)更少。設置數(shù)據(jù)集批次大小128,在GeForceRTX 3090 GPU 上進行實驗時,本文的方法訓練一個批次只需0.33 s,明顯快于PointCNN 訓練一個批次所需的0.43 s。
為進一步證明M-Conv 方法的有效性及穩(wěn)定性,本文在MNIST 和CIFAR10 數(shù)據(jù)集上進行實驗驗證,實驗結果如表3 所示。在總體準確率的比較上,本文方法展現(xiàn)出了與其他方法相當?shù)哪芰?,可見該方法不僅適用于點云的識別與分類,而且適用于圖像處理。
表3 MNIST 和CIFAR10 數(shù)據(jù)集實驗結果比較Table 3 Comparison of experimental results between MNIST and CIFAR10 datasets %
3.3.1 參數(shù)K,P,C對實驗結果的影響
本文旨在保持網(wǎng)絡結構深度的同時,使更深的代表點能表達整個形狀的更大部分。為探究各參數(shù)對實驗結果造成的影響,本文在ModelNet40 數(shù)據(jù)集上進行了一系列對比實驗。
保持M-Conv 模型前5 層最優(yōu)參數(shù)值及第6 層P、C值不變,設置第6 層的K值分別為8、10、12、14、16 進行對比實驗,結果如圖4 所示。研究發(fā)現(xiàn),當?shù)? 層K值為12 時會取得最好的實驗結果。當K值選取小于12 的值時,總體準確率和類別平均準確率均呈現(xiàn)上升趨勢,當K值選取大于12 的值時,總體準確率和類別平均準確率均呈現(xiàn)下降趨勢。因此最終選取12 作為本層K值,前5 層K值亦通過此方法得出,第1 層~第5 層的K值分別為8、16、8、8、8。
圖4 M-Conv 模型第6 層參數(shù)K 值對實驗結果的影響Fig.4 Influence of the K value of the sixth layer of M-Conv model on experimental results
保持M-Conv 模型前5 層最優(yōu)參數(shù)值及第6 層K、C值不變,設置第6 層P值分別為12、18、24、30、36進行對比實驗,結果如圖5 所示。研究發(fā)現(xiàn),當?shù)? 層P值為24 時會取得最好的實驗結果。當P值選取小于24 的值時,總體準確率呈現(xiàn)上升趨勢,類別平均準確率在P值為12~18 時呈下降趨勢,在P值為18~24 處呈上升趨勢,但總體呈現(xiàn)上升趨勢。當P值選取小于24 的值時,總體準確率和類別平均準確率均呈現(xiàn)下降趨勢。最終選取24 作為本層P值,前5 層的P值亦通過此方法得出,第1 層~第5 層的P值分別為1 024、512、256、128、72。
圖5 M-Conv 模型第6 層參數(shù)P 值對實驗結果的影響Fig.5 Influence of the P value of the sixth layer of M-Conv model on experimental results
保持M-Conv 模型前5 層最優(yōu)參數(shù)值及第6 層K、P值不變,設置第6 層的C值分別為384×3、448×3、512×3、576×3、640×3 進行對比實驗,結果如圖6 所示。研究發(fā)現(xiàn),當?shù)? 層的C值為512×3 時會取得最好的實驗結果。當C值選取小于512×3 的值時,總體準確率和類別平均準確率均呈現(xiàn)上升趨勢;當C值選取大于512×3 的值時,總體準確率呈現(xiàn)下降趨勢,類別平均準確率在576×3~640×3 處略微上升,但總體呈現(xiàn)下降趨勢。最終選取512×3作為本層C值,前5層的C值亦通過此方法得出,第1 層~第5 層的C值分別為16×3、64×3、96×3、128×3、256×3。
圖6 M-Conv 模型第6 層參數(shù)C 值對實驗結果的影響Fig.6 Influence of the C value of the sixth layer of M-Conv model on experimental results
3.3.2 模型調整
為解決點云空間旋轉不變的問題,本文方法在第1 層輸入時將點坐標映射到曲率特征空間,這會比單純地將X、Y、Z坐標作為輸入更有效。最后一層M-Conv 處理所得到的特征依舊是無序的,現(xiàn)有的方法不會在連接完全連接層之前將卷積得到的特征進行變換,而本文方法在連接完全連接層之前會對最后一層的特征再做一次變換,使之由無序狀態(tài)轉變?yōu)橛行驙顟B(tài)。表4 所示為模型調整實驗結果,表4 中的M代表輸入時將點坐標映射到曲率特征空間,X代表輸入時使用點云三維坐標,T代表對最后一層M-Conv 處理后得到的特征進行變換。在使用本文核心方法M-Conv 的基礎上,在輸入時將點坐標映射到曲率特征空間,并對最后一層M-Conv 處理得到的特征進行變換,以取得更好的效果。若直接將點云X、Y、Z坐標作為輸入,總體準確率和類別平均準確率均有小幅下降。若輸入時將點坐標映射到曲率特征空間,但不對最后一層M-Conv 處理得到的特征進行變換,總體準確率和類別平均準確率均有較大幅度的下降,類別平均準確率更是下降1 個百分點以上,可見對最后一層的特征進行變換可以使準確率得到有效提升。
表4 模型調整實驗結果Table 4 Experimental results of model adjustment %
零部件分割是點云形狀分析中一項具有挑戰(zhàn)性的任務,為驗證M-Conv 模型針對分割任務的有效性及可行性,本文在ShapeNet 數(shù)據(jù)集上進行了分割實驗。ShapeNet 數(shù)據(jù)集是點云零部件分割數(shù)據(jù)集,包含16 個類別和50 個分割實例,每個對象有2~6 個零部件標簽,例如飛機的機翼。在16 881 個點云模型中,將14 007 個模型用于訓練,另外2 874 個模型用于測試。
使用ShapeNet 數(shù)據(jù)集進行零部件分割實驗,結果如表5 所示,其中IoU 代表總體交并比。由表5 可知,M-Conv 模型的實驗結果與其他方法的水平相當,甚至在某些類別上實現(xiàn)了超越。表5 列舉了每個類別的交并比,M-Conv 模型在帽子、耳機、刀、電腦、杯子、火箭及滑板7 個類別上均取得了最佳結果。圖7 展示了上述7 個類別的分割效果,其中第1行為M-Conv 模型分割預測結果的可視化圖,第2 行為真實結果可視化圖
表5 ShapeNet 數(shù)據(jù)集實驗結果對比Table 5 Comparison of experimental results of ShapeNet dataset %
圖7 ShapeNet 數(shù)據(jù)集分割實例Fig.7 ShapeNet dataset segmentation example
表6 總結了M-Conv 模型的時間復雜度和空間復雜度。M-Conv 模型的參數(shù)數(shù)量略多于其他方法,但浮點運算數(shù)指標遠勝于其他方法,展示了其巨大的優(yōu)勢及潛力。
表6 不同方法的復雜度對比Table 6 Complexity comparison of different methods
本文提出一種基于卷積神經(jīng)網(wǎng)絡的模型,利用點云數(shù)據(jù)的空間局部相關性,將點云坐標映射到曲率特征空間以提取旋轉不變的特征。使用K鄰域內的點集合構建基于歐式內積的親疏度矩陣,對親疏度矩陣特征值進行排序后,將對應的特征向量組成變換矩陣,從而對特征進行變換,以實現(xiàn)置換不變性。實驗結果表明,該方法在分類任務和分割任務上均取得了較好的結果。但該方法在鄰域點的選擇上采用了KNN 算法,并不能很好地計算三維物體表面點與點之間的真實距離。下一步考慮把一些在幾何處理上表現(xiàn)良好的方法如Deep Points[28]、Deep Geodesic Networks[29]等與本文方法相結合,并在鄰域點的選擇上進行優(yōu)化,從而得到更好的分類及分割效果。