王 濤,王文舉,蔡 宇
上海理工大學(xué),上海 200093
三維點(diǎn)云的語(yǔ)義分割是指通過(guò)將原始點(diǎn)云數(shù)據(jù)劃分成若干區(qū)域,按照相關(guān)的功能定義對(duì)相同屬性和不同屬性的數(shù)據(jù)點(diǎn)進(jìn)行分割,并用標(biāo)簽標(biāo)記被分割的區(qū)域,從而得到每個(gè)三維點(diǎn)的語(yǔ)義類(lèi)別[1]。在生產(chǎn)制造領(lǐng)域,如智能包裝,三維點(diǎn)云的語(yǔ)義分割技術(shù)可以使機(jī)器代替人眼對(duì)目標(biāo)進(jìn)行精準(zhǔn)的測(cè)量、判斷和控制,從而實(shí)現(xiàn)機(jī)械手臂的智能包裝裝配[2]。此外,隨著3D傳感技術(shù)的飛速發(fā)展,雷達(dá)、激光掃描儀、深度掃描儀、Kinect等硬件三維掃描、攝像設(shè)備的不斷涌現(xiàn),點(diǎn)云數(shù)據(jù)采集獲取變得日益便利、精準(zhǔn),并且點(diǎn)云具有將物體原始的幾何信息完整地保留在三維空間上的重要特性。因此,三維點(diǎn)云的語(yǔ)義分割技術(shù)在計(jì)算機(jī)視覺(jué)[3-5]、語(yǔ)音識(shí)別[6]、人臉識(shí)別[7]、全息成像[8]、生物醫(yī)學(xué)分割[9]、自動(dòng)駕駛汽車(chē)[10]等領(lǐng)域上得到了廣泛的應(yīng)用。但是由于點(diǎn)云數(shù)據(jù)的物體對(duì)象形狀多樣性、密度不均勻性和采樣不規(guī)則性[11]等特點(diǎn),使得在三維空間中數(shù)據(jù)點(diǎn)的分布非常不均勻,不同物體之間可能存在著相互遮擋,匹配信息可能會(huì)出現(xiàn)錯(cuò)誤,這些都將直接影響語(yǔ)義分割方法的準(zhǔn)確性,阻礙了智能包裝、智能自動(dòng)駕駛技術(shù)等應(yīng)用場(chǎng)景前進(jìn)的步伐。
第一個(gè)將三維模型用被標(biāo)記數(shù)據(jù)集的方法來(lái)訓(xùn)練是由馬薩諸塞大學(xué)的Kalogerakis等人[12]采用,并提出了用于3D網(wǎng)標(biāo)記分割的監(jiān)督方法。該方法代表監(jiān)督學(xué)習(xí)方法的早期實(shí)驗(yàn),所以有些局限性,比如說(shuō)該方法不能區(qū)分上/下或者左/右(如左臂/右臂),所以需要提供信息的幾何特征更多,而且該方法訓(xùn)練的時(shí)間過(guò)長(zhǎng),對(duì)大型數(shù)據(jù)而言,訓(xùn)練的時(shí)間甚至超過(guò)了幾十個(gè)小時(shí)。2006年,深度學(xué)習(xí)(deep learning)的概念由Hinton等人[13]在Science上提出。2015年,在英國(guó)著名雜志Nature期刊上,深度學(xué)習(xí)[14]被正式地廣泛定義。在深度學(xué)習(xí)技術(shù)推動(dòng)下,點(diǎn)云語(yǔ)義分割方法的研究不斷地迅速地向前發(fā)展,點(diǎn)云語(yǔ)義分割處理相關(guān)的各種問(wèn)題擁有了越來(lái)越多的解決方法[15-18]。
圖1 三維點(diǎn)云語(yǔ)義分割相關(guān)數(shù)據(jù)集Fig.1 Related datasets of point cloud semantic segmentation
然而,對(duì)深度學(xué)習(xí)技術(shù)下的點(diǎn)云語(yǔ)義分割方法系統(tǒng)性綜述文章還比較少。在文獻(xiàn)[1]中以二維圖像和三維點(diǎn)云為研究對(duì)象,且僅對(duì)基于語(yǔ)義分割的精確邊界恢復(fù)進(jìn)行了相關(guān)方法介紹,并沒(méi)有詳細(xì)闡述點(diǎn)云語(yǔ)義分割的相關(guān)進(jìn)展。為了引導(dǎo)研究者對(duì)點(diǎn)云更深層次的研究,本文對(duì)近些年基于深度學(xué)習(xí)的點(diǎn)云語(yǔ)義分割有關(guān)方法進(jìn)行回顧和整理,并討論了相關(guān)方法的國(guó)內(nèi)外研究現(xiàn)狀,以及探討了相關(guān)方法的未來(lái)發(fā)展方向。
由于3D傳感技術(shù)的飛速發(fā)展,三維掃描、攝像設(shè)備的不斷涌現(xiàn),點(diǎn)云數(shù)據(jù)的采集獲取日益便利、精準(zhǔn),極大地促進(jìn)了三維點(diǎn)云的語(yǔ)義分割發(fā)展。本文認(rèn)真整理出一些典型的用于三維點(diǎn)云語(yǔ)義分割框架的三維數(shù)據(jù)集,其中包括ModelNet[19]、SceneNet[20]、SceneNN[21]、Shapenet[22]以及S3DIS[23]、ScanNet[24]、Semantic3D[25]等,如圖1所示。
基于深度學(xué)習(xí)技術(shù)的三維點(diǎn)云語(yǔ)義分割方法按數(shù)據(jù)的表現(xiàn)形式可分為間接基于點(diǎn)云的方法(包括基于投影的方法、基于體素的方法、基于多視圖的方法)和直接基于點(diǎn)云的方法見(jiàn)圖2。其中,間接方法是一種將不規(guī)則點(diǎn)云轉(zhuǎn)化為規(guī)則結(jié)構(gòu),然后輸入到網(wǎng)絡(luò)中進(jìn)行分割的方法。該類(lèi)方法可以很好地彌補(bǔ)卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)不能應(yīng)用在點(diǎn)云的缺陷,但在轉(zhuǎn)換的過(guò)程中會(huì)不可避免丟失一些重要的信息特征。而直接方法則是一種不需要轉(zhuǎn)換形式,直接將點(diǎn)云輸入到網(wǎng)絡(luò)中實(shí)現(xiàn)分割的方法。該類(lèi)方法能夠充分利用點(diǎn)云數(shù)據(jù)的特性,降低網(wǎng)絡(luò)計(jì)算的復(fù)雜度,提高語(yǔ)義分割的精度。
圖2 基于深度學(xué)習(xí)的三維點(diǎn)云語(yǔ)義分割方法的可視化表示Fig.2 Visual representation of deep learning-based semantic segmentation methods for 3D point cloud
為了實(shí)現(xiàn)快速準(zhǔn)確的點(diǎn)云語(yǔ)義分割,Wu等人[26]利用輕量級(jí)的CNN提出了一種端到端的網(wǎng)絡(luò)模型框架(Squeezeseg)。該方法首先將點(diǎn)云經(jīng)過(guò)球面投影,得到前視圖,然后利用SqueezeNet[27]的CNN對(duì)輸入的圖像進(jìn)行特征提取與分割,最后對(duì)分割結(jié)果進(jìn)行優(yōu)化。隨后基于Squeezeseg研究出一種改進(jìn)模型SqueezesegV2[28],該方法使得點(diǎn)云的噪聲去除更具有魯棒性,從而提高了不同類(lèi)別的精度。在此框架中,使用一個(gè)領(lǐng)域自適應(yīng)訓(xùn)練方法,顯著地減少了模擬數(shù)據(jù)和實(shí)際數(shù)據(jù)之間的差距分布。Imad等人[29]開(kāi)發(fā)了一種基于遷移學(xué)習(xí)的點(diǎn)云語(yǔ)義分割方法,該方法主要是將原始點(diǎn)云數(shù)據(jù)映射到特定視域內(nèi),然后將2D分類(lèi)任務(wù)的知識(shí)遷移到基于2D對(duì)象的語(yǔ)義分割,最后再反投影到3D中。該方法通過(guò)鳥(niǎo)瞰場(chǎng)景,提高了模型的學(xué)習(xí)能力,減少了對(duì)大規(guī)模訓(xùn)練數(shù)據(jù)的需求,因此降低了訓(xùn)練所需的時(shí)間。
基于投影的方法主要是通過(guò)投影縮小點(diǎn)云的維度和計(jì)算成本,來(lái)實(shí)現(xiàn)精度和計(jì)算成本之間的權(quán)衡,但是不可避免地會(huì)出現(xiàn)一些問(wèn)題,比如離散化誤差和遮擋等,使其造成空間信息的損失。
一些點(diǎn)云語(yǔ)義分割的工作處理是將不規(guī)則點(diǎn)云轉(zhuǎn)化為規(guī)則的體素格式。例如,天津科技大學(xué)的Wang等人[30]提出的基于八叉樹(shù)結(jié)構(gòu)的網(wǎng)絡(luò)模型(Octree-based Convolutional Neural Networks,O-CNN)。該模型首先對(duì)點(diǎn)云數(shù)據(jù)進(jìn)行體素化,然后構(gòu)建出八叉樹(shù)結(jié)構(gòu),利用八叉樹(shù)結(jié)構(gòu)的優(yōu)勢(shì),將稀疏離散的法向量信息存儲(chǔ)在每一個(gè)八叉樹(shù)結(jié)構(gòu)的葉子結(jié)點(diǎn)上。通過(guò)卷積和池化等操作,將信息進(jìn)行向上傳遞,每次卷積和池化操作作為基礎(chǔ)的單元。接著添加超結(jié)點(diǎn)來(lái)構(gòu)建出一個(gè)大型的八叉樹(shù)結(jié)構(gòu),將多個(gè)八叉樹(shù)結(jié)構(gòu)存儲(chǔ)的信息一次性送入進(jìn)行運(yùn)算。該模型可以節(jié)省開(kāi)銷(xiāo)和運(yùn)算的內(nèi)存,但是非常依賴(lài)于邊界點(diǎn)云,并未涉及到局部幾何結(jié)構(gòu),導(dǎo)致分割精度的有所損失。
為了提高語(yǔ)義分割的精度,Tchapmi等人[31]提出了一種三維點(diǎn)云分割的端到端框架(Segmentation of Point Clouds,SEGCloud)。該方法通過(guò)引入三線(xiàn)性插值法將三維全卷積神經(jīng)網(wǎng)絡(luò)的粗體素預(yù)測(cè)轉(zhuǎn)化為原始的三維點(diǎn),通過(guò)引入完全連通條件隨機(jī)場(chǎng)(Fully Connected Conditional Random Fields,F(xiàn)C-CRF)增強(qiáng)了全局點(diǎn)的類(lèi)別標(biāo)簽的空間一致性,并提供了點(diǎn)上的細(xì)粒度語(yǔ)義。Dai等人[32]介紹了一種可以對(duì)不完整的掃描場(chǎng)景進(jìn)行補(bǔ)全,并且能夠同時(shí)進(jìn)行語(yǔ)義分割的網(wǎng)絡(luò)框架。該框架選擇使用全卷積網(wǎng)絡(luò)(Full Convolution Network,F(xiàn)CN[33]),可以接受任意尺寸的輸入圖像,因此,允許在訓(xùn)練測(cè)試時(shí)擁有不同大小的尺寸。此外,該框架能夠保持網(wǎng)絡(luò)的卷積核大小不變,計(jì)算高效。在訓(xùn)練時(shí),將訓(xùn)練的場(chǎng)景裁剪成固定大小的塊作為輸入;而在測(cè)試時(shí),對(duì)場(chǎng)景大小則沒(méi)有要求。該方法采用了分級(jí)的策略,保持了局部信息細(xì)節(jié)和大尺度的結(jié)構(gòu)信息。為了進(jìn)一步地提高精度,還采用了自回歸的策略。
體素表示點(diǎn)云本質(zhì)上是稀疏的。因此,將CNN應(yīng)用于空間稀疏的體素?cái)?shù)據(jù)時(shí),效率往往較低,分割效果并不優(yōu)。為了解決這個(gè)問(wèn)題,Le等人[34]提出了一種三維形狀理解的深層混合網(wǎng)絡(luò)框架(PointGrid)。該框架集成點(diǎn)與網(wǎng)格進(jìn)行表示,從而有效地處理點(diǎn)云。在每一個(gè)嵌入的體素單元網(wǎng)格中,都采樣恒定的數(shù)量點(diǎn),使得網(wǎng)絡(luò)框架可以使用3D卷積來(lái)提取幾何細(xì)節(jié)。通過(guò)實(shí)驗(yàn)對(duì)比,該框架展示出的分割性能較先進(jìn)。Meng等人[35]展示了一種新的點(diǎn)云分割算法,該算法首先將非規(guī)則化的點(diǎn)云轉(zhuǎn)換為規(guī)則結(jié)構(gòu)的體素網(wǎng)格,隨后使用一個(gè)插值自動(dòng)編碼器來(lái)編碼每個(gè)體素內(nèi)的局部空間幾何,接著利用徑向基函數(shù)來(lái)計(jì)算每個(gè)體素內(nèi)的局部連續(xù)表示,有效地處理了點(diǎn)的分布稀疏性和不均勻性。實(shí)驗(yàn)結(jié)果顯示,該算法擁有不錯(cuò)的分割精度。
基于體素的方法主要是在點(diǎn)云預(yù)處理的時(shí)候,將點(diǎn)云轉(zhuǎn)化為體素格式,這樣能夠?qū)c(diǎn)云空間的信息進(jìn)行清晰的編碼。與投影方法相比,信息丟失少,擁有著不錯(cuò)的效果。但是由于點(diǎn)云分區(qū)的不同會(huì)引起體素的粒度以及邊界的模糊等嚴(yán)重限制,因此會(huì)使得分割精度損失。
該類(lèi)方法中最具有代表性的是Su等人[36]提出一種將同一件三維形狀渲染成不同視角下的二維圖,然后結(jié)合CNN提取視圖特征的算法(Multi-View Convolutional Neural Network,MVCNN)。該算法能夠利用2D圖像的深度學(xué)習(xí)CNN框架的成熟度、速度等優(yōu)勢(shì)來(lái)進(jìn)行3D物體形狀識(shí)別。但是該方法并沒(méi)有將多視圖之間的特征關(guān)系有效地結(jié)合利用起來(lái),這也會(huì)在一定程度上限制最后融合特征的可區(qū)分力,使得精度并不是很理想。
受MVCNN的啟發(fā),Jiang等人[37]開(kāi)發(fā)出一種多環(huán)視圖卷積神經(jīng)網(wǎng)絡(luò)框架(Multi-Loop-View Convolutional Neural Network,MLVCNN)。該框架對(duì)每個(gè)視圖都循環(huán)生成循環(huán)級(jí)特征,并且考慮了同一循環(huán)中不同視圖的內(nèi)在關(guān)聯(lián)。Tatarchenko等人[38]介紹了一種使用深度卷積網(wǎng)絡(luò)進(jìn)行語(yǔ)義場(chǎng)景分析的方法。該方法是一種基于切線(xiàn)卷積的三維數(shù)據(jù)的卷積網(wǎng)絡(luò)結(jié)構(gòu),可以直接作用于曲面幾何。值得注意的是,該網(wǎng)絡(luò)適用于非結(jié)構(gòu)化的點(diǎn)云和其他噪聲的真實(shí)數(shù)據(jù),可以有效地處理計(jì)算具有數(shù)百萬(wàn)個(gè)點(diǎn)的大規(guī)模點(diǎn)云。因此,能夠應(yīng)用在具有挑戰(zhàn)性的室內(nèi)外的三維環(huán)境數(shù)據(jù)集上。最終的實(shí)驗(yàn)結(jié)果表明,該方法在對(duì)大型三維場(chǎng)景進(jìn)行詳細(xì)語(yǔ)義分析時(shí),具有較優(yōu)的性能。
為了使多視圖的特征更好地融合,Yu等人[39]研究出一種多視圖協(xié)調(diào)雙線(xiàn)性網(wǎng)絡(luò)框架(Multi-view Harmonized Bilinear Network,MHBN)。該框架充分利用了多項(xiàng)式核與雙線(xiàn)性池之間的關(guān)系,通過(guò)對(duì)雙線(xiàn)性池聚合進(jìn)行局部卷積特征,得出一種有效的三維物體表示方法,該方法更具有區(qū)分性。Li等人[40]利用卷積神經(jīng)網(wǎng)絡(luò)的圖像語(yǔ)義分割方法,繪制出激光雷達(dá)與攝像機(jī)信息融合的三維語(yǔ)義圖,從而開(kāi)發(fā)出一種點(diǎn)云的語(yǔ)義標(biāo)記框架,解決了傳統(tǒng)視圖的應(yīng)用范圍小等缺點(diǎn)。此外,采用一種高階三維全連接條件隨機(jī)場(chǎng)的方法對(duì)語(yǔ)義映射進(jìn)行優(yōu)化,進(jìn)一步提高了語(yǔ)義圖的分割準(zhǔn)確性。
基于多視圖的方法主要是利用多視角下的每個(gè)視圖來(lái)表示三維模型,通常表現(xiàn)為可以用較少的計(jì)算需求達(dá)到較好的分割精度需求。但目前該類(lèi)算法的精度還不是很高,并且對(duì)視圖的選取非常敏感。因此,依然具有較大的提升空間。此外,用多視圖表示模型不能完整地保留3D數(shù)據(jù)的幾何和結(jié)構(gòu)屬性也是一個(gè)難以解決的問(wèn)題。
間接基于點(diǎn)云的方法存在著一些缺點(diǎn),為了充分利用點(diǎn)云數(shù)據(jù)的屬性,降低空間的信息損失,研究者逐漸提出了直接基于點(diǎn)云的方法。最具有代表性的是斯坦福大學(xué)的Qi提出的PointNet[11]和PointNet++[41]。PointNet主要是由空間轉(zhuǎn)換網(wǎng)絡(luò)模塊、循環(huán)神經(jīng)網(wǎng)絡(luò)模塊以及對(duì)稱(chēng)函數(shù)模塊三個(gè)組成。空間轉(zhuǎn)換網(wǎng)絡(luò)模塊能夠?qū)⑺袛?shù)據(jù)處理成一種規(guī)范形式,循環(huán)神經(jīng)網(wǎng)絡(luò)模塊能夠以連續(xù)信號(hào)形式進(jìn)行訓(xùn)練,對(duì)稱(chēng)函數(shù)模塊能夠匯總點(diǎn)云中所有點(diǎn)的信息。通過(guò)這三個(gè)模塊處理使得點(diǎn)云具有旋轉(zhuǎn)不變性、序列不變性,成功地解決了點(diǎn)云的無(wú)序性。但是由于PointNet中每個(gè)點(diǎn)的特征都是獨(dú)立學(xué)習(xí)的,因此無(wú)法捕獲點(diǎn)之間的局部特征來(lái)提取細(xì)粒度特征。為了解決這一問(wèn)題,在PointNet的基礎(chǔ)上,PointNet++方法以層次結(jié)構(gòu)特征來(lái)學(xué)習(xí)點(diǎn)云的特征,通過(guò)加深網(wǎng)絡(luò)層,使得局部特征更加精確,但是由于自身體系結(jié)構(gòu)復(fù)雜,所以運(yùn)算復(fù)雜度過(guò)高。
為了簡(jiǎn)化訓(xùn)練過(guò)程,Ren等人[42]構(gòu)建出一種基于區(qū)域的快速卷積網(wǎng)絡(luò)目標(biāo)檢測(cè)方法(Fast Region-based Convolutional Neural Network,F(xiàn)ast R-CNN)。該方法主要是利用一種單階段的訓(xùn)練算法,簡(jiǎn)化了目標(biāo)檢測(cè)器訓(xùn)練的過(guò)程,并且改善了目標(biāo)的空間位置。Klokov等人[43]提出基于K-d樹(shù)結(jié)構(gòu)的深度網(wǎng)絡(luò)(KD-Net)。該模型是在ModelNet[19]數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)。首先利用K-d樹(shù)結(jié)構(gòu)創(chuàng)建一定的順序的點(diǎn)云,然后共享不同樹(shù)結(jié)構(gòu)的權(quán)重屬性,按照自下而上的方法,計(jì)算得到根結(jié)點(diǎn)的特征,最后再將整個(gè)點(diǎn)云送到全連接層預(yù)測(cè)分類(lèi)。該方法是一種經(jīng)典深度學(xué)習(xí)面向點(diǎn)云的方法,并且實(shí)現(xiàn)了部分點(diǎn)云的分割,但是該方法也存在以下不足:對(duì)噪聲比較敏感,并且對(duì)輸入的每個(gè)點(diǎn)云來(lái)說(shuō)都需要訓(xùn)練一個(gè)新模型,所以造成了計(jì)算和訓(xùn)練的一定難度。Thomas等人[44]提出了一種新的適用于點(diǎn)云的擴(kuò)張卷積網(wǎng)絡(luò)(Kernel Point Convolution,KPConv),通過(guò)使用一系列的局部3d卷積核實(shí)現(xiàn),不同于網(wǎng)格卷積,卷積核是一系列帶有權(quán)重的核點(diǎn)組成的,每個(gè)核點(diǎn)都有一個(gè)影響距離,并且核點(diǎn)的數(shù)量不是固定不變的,這樣使得KPConv比固定網(wǎng)格卷積更具有靈活性。
為了加強(qiáng)點(diǎn)云之間的特征聯(lián)系,Engelmann等人[45]在PointNet[11]的研究基礎(chǔ)上,開(kāi)發(fā)出一種將點(diǎn)云塊分組處理的方法。該方法主要是通過(guò)一組點(diǎn)云塊之間的上下文信息共享,讓模型的感受野在3D場(chǎng)景中得以增大,從而讓模型可以處理更大尺度的看見(jiàn)場(chǎng)景。同時(shí)還設(shè)計(jì)了多尺度塊和網(wǎng)格塊,用以獲得輸入級(jí)上下文,然后將PointNet提取的塊級(jí)特征依次輸入到合并單元(Consolidation Units,CU)或周期性合并單元(Recurrent Consolidation Units,RCU)中,獲得輸出級(jí)上下文。該方法證實(shí)了融合點(diǎn)云的空間信息對(duì)于提高分割的效果非常重要。
利用圖卷積網(wǎng)絡(luò)性質(zhì)可以有效地獲取點(diǎn)云的空間幾何結(jié)構(gòu)。為此,亞琛工業(yè)大學(xué)的Engelmann等人[46]提出了一種新的三維語(yǔ)義分割方法(Multi-Proposal Aggregation for 3D Semantic Instance Segmentation,3DMPA)。該方法的核心思想也是混合自頂向下和自下而上的優(yōu)點(diǎn)。首先,使用一種以對(duì)象為中心的基于稀疏體主干的投票方案,用以產(chǎn)生許多提案;然后通過(guò)一個(gè)圖卷積網(wǎng)絡(luò)進(jìn)行特性交互,用以提供較低層次的點(diǎn)特征以及較高層次的特征學(xué)習(xí);其次是根據(jù)圖之間的關(guān)系結(jié)果以及方案的特征相似度來(lái)對(duì)方案進(jìn)行聚合特征,使其獲得一個(gè)最終目標(biāo)的檢測(cè)和語(yǔ)義實(shí)例。相比先前的,該方法在對(duì)3D物體對(duì)象的檢測(cè)和語(yǔ)義分割方面上都取得的較高的性能。類(lèi)似地,Landrieu等人[47]設(shè)計(jì)出一種基于深度學(xué)習(xí)框架的大規(guī)模點(diǎn)云表示方式。該方法能夠利用簡(jiǎn)單形狀的內(nèi)在聯(lián)系將圖像語(yǔ)義分割的超級(jí)像素進(jìn)行遷移。這種結(jié)構(gòu)可以被屬性有向圖(Super-Point Graph,SPG)捕獲。因此,具有豐富的鄰近關(guān)系的特征描述。在此基礎(chǔ)上,Landrieu和Boussaha[48]構(gòu)建出一種新的有監(jiān)督的框架。該方法用于將點(diǎn)云過(guò)度分割為純超點(diǎn),嵌入計(jì)算使用輕量級(jí)神經(jīng)網(wǎng)絡(luò)可以在點(diǎn)的局部鄰域上進(jìn)行操作。但是在廣義最小分塊問(wèn)題的求解上沒(méi)有最優(yōu)方法。
此外,Reading等人[49]展示了一種完全可微的端到端聯(lián)合深度估計(jì)方法。該方法能夠準(zhǔn)確地從對(duì)象和場(chǎng)景等線(xiàn)索中推斷出對(duì)象深度,并且可以將豐富的上下文特征信息映射到三維空間中的適當(dāng)深度間隔。最終的實(shí)驗(yàn)證明了該方法中深度估計(jì)的重要性。Qiu等人[50]構(gòu)建出一種基于雙向增強(qiáng)和自適應(yīng)融合的點(diǎn)云場(chǎng)景語(yǔ)義分割框架,首先利用雙向結(jié)構(gòu)中的幾何特征和語(yǔ)義特征來(lái)增加局部語(yǔ)境,然后采用自適應(yīng)融合方法來(lái)表示特征圖,實(shí)現(xiàn)了準(zhǔn)確的語(yǔ)義分割,最后通過(guò)消融實(shí)驗(yàn)以及可視化圖驗(yàn)證出該框架的有效性。該框架能夠在大規(guī)模點(diǎn)云數(shù)據(jù)上進(jìn)行語(yǔ)義分割。
在上述直接基于點(diǎn)云方法中,代表了國(guó)外目前三維點(diǎn)云語(yǔ)義分割方法研究的最新方向,國(guó)內(nèi)對(duì)于點(diǎn)云語(yǔ)義分割方法的研究相比國(guó)外較晚,基于深度學(xué)習(xí)技術(shù)的三維點(diǎn)云語(yǔ)義分割方法研究仍處于起步階段。
受到文獻(xiàn)[11]和[41]設(shè)計(jì)思路的啟發(fā),2018年,遼寧工程技術(shù)大學(xué)的Jiang等人[51]提出了一種深度網(wǎng)絡(luò)模型。該模型基于尺度不變特征變換算法(Scale-Invariant Feature Transform,SIFT),用以解決點(diǎn)云語(yǔ)義分割任務(wù)。該網(wǎng)絡(luò)首先構(gòu)建一個(gè)定向編碼和尺度感知模塊,將八個(gè)重要方向的信息通過(guò)一個(gè)定向編碼單元進(jìn)行編碼,然后通過(guò)堆疊多個(gè)尺度下的方向編碼單元獲得尺度不變性。盡管精度提高了許多,但是效率和速度卻很低。同年,國(guó)內(nèi)山東大學(xué)學(xué)者李揚(yáng)彥等人[52]提出一種稱(chēng)為X-變換的方法,并以此開(kāi)發(fā)出一種簡(jiǎn)單的通用的點(diǎn)云特征學(xué)習(xí)框架PointCNN。X-變換方法首先是從輸入點(diǎn)學(xué)習(xí)到的一組權(quán)值X,這組權(quán)值可以對(duì)各點(diǎn)相關(guān)聯(lián)的特征進(jìn)行重新加權(quán)和排列。在經(jīng)過(guò)X-變換之后的特征上進(jìn)行直接卷積能夠極大提高卷積核的利用率,從而提高卷積操作在無(wú)序數(shù)據(jù)上提取特征的能力。該方法在多個(gè)具有挑戰(zhàn)性的基準(zhǔn)數(shù)據(jù)集和任務(wù)上,獲得了與同期方法相當(dāng)或更好的性能,但框架分割的精確性仍有待提高。
為此,北京大學(xué)Sun等人[53]在2019年提出嚴(yán)格旋轉(zhuǎn)不變網(wǎng)絡(luò)(Strictly Rotation Invariant Network,SRINET)框架。該網(wǎng)絡(luò)采用點(diǎn)投影運(yùn)算得到旋轉(zhuǎn)不變的特征,然后使用PointNet[11]的骨干網(wǎng)來(lái)提取全局信息,并將圖形聚合應(yīng)用于局部形狀特征的挖掘進(jìn)行點(diǎn)云數(shù)據(jù)分類(lèi)。但是該方法需要進(jìn)一步研究如何選取更穩(wěn)定的軸,以降低將三維坐標(biāo)轉(zhuǎn)換為點(diǎn)投影特征時(shí)的損失,從而提高分割精度。針對(duì)點(diǎn)與點(diǎn)之間關(guān)系的建模,Yang等人[54]提出了一種分組注意力的方法,該方法具有排列不變、容易區(qū)分的性質(zhì)。但這種方法對(duì)異常值較敏感,因此可以根據(jù)特征去選擇點(diǎn)云的不同局部子集。
此外,Hu等人[55]提出了一種基于端到端的二維和三維聯(lián)合推理的雙向網(wǎng)絡(luò)框架,該框架擁有對(duì)稱(chēng)結(jié)構(gòu)的2D和3D子網(wǎng)絡(luò),通過(guò)雙向模塊可以連接互補(bǔ)的2D和3D信息,可以在多個(gè)體系結(jié)構(gòu)層次上達(dá)到相互交互的作用。并且能夠有效地結(jié)合2D和3D兩個(gè)視覺(jué)領(lǐng)域的優(yōu)勢(shì),同時(shí)對(duì)2D和3D場(chǎng)景的理解識(shí)別。Chen等人[56]介紹了一種用于點(diǎn)云分析的等變網(wǎng)絡(luò),通過(guò)引入注意力機(jī)制來(lái)有效地利用等變特征的表示能力。當(dāng)與網(wǎng)絡(luò)聯(lián)合訓(xùn)練時(shí),注意力機(jī)制層可以導(dǎo)出特征空間中的內(nèi)在局部組織,并生成可集成到不同對(duì)齊任務(wù)中的注意向量。實(shí)驗(yàn)表明,在形狀對(duì)齊的任務(wù)中,該方法明顯優(yōu)于非等變網(wǎng)絡(luò)。
直接基于點(diǎn)云的方法是對(duì)點(diǎn)云直接處理,使得空間信息損失最小化。但是由于點(diǎn)云密度的不均勻性,造成目前還不能夠完美地解決適應(yīng)非均勻點(diǎn)采樣密度的三維點(diǎn)云分割問(wèn)題,因此該類(lèi)方法分割精度有待提高。此外,該類(lèi)方法無(wú)法確定離散對(duì)象定位詳盡的性質(zhì)也是一個(gè)很大的瓶頸問(wèn)題。
基于1.1節(jié)至1.4節(jié)的內(nèi)容,總結(jié)出各類(lèi)點(diǎn)云語(yǔ)義分割方法的優(yōu)點(diǎn)、缺點(diǎn)、適用范圍和應(yīng)用場(chǎng)景,目的是為了更直觀地對(duì)基于投影、體素、多視圖的間接方法以及直接基于點(diǎn)云的方法進(jìn)行比較,具體比較內(nèi)容如表1所示。
表1 各類(lèi)點(diǎn)云語(yǔ)義分割方法的比較Table 1 Comparison of semantic segmentation methods for point clouds
投影技術(shù)是一種數(shù)據(jù)的處理形式,利用投影技術(shù)可以將原始的三維點(diǎn)云數(shù)據(jù)處理成一種具有特定功能的二維形式。投影的數(shù)據(jù)可以將原始的數(shù)據(jù)信息的某些關(guān)鍵屬性進(jìn)行封裝,雖然增加了深度信息用來(lái)輔助實(shí)現(xiàn)語(yǔ)義切分,但也存在一些影響切分準(zhǔn)確性的問(wèn)題,比如離散化誤差和遮擋等,使其造成空間信息的損失。在未來(lái)的研究方向上,可以直接在投影之后的點(diǎn)云中進(jìn)行搜索,這樣能夠使離散化錯(cuò)誤和推斷模糊這類(lèi)問(wèn)題得以解決。例如Milioto等人[57]提出一種基于投影的二維CNN處理輸入點(diǎn)云,并利用每個(gè)激光掃描的距離圖像表示來(lái)進(jìn)行語(yǔ)義推理的方法。該方法是一種快速的、支持GPU的、k近鄰(k-Nearest Neighbors,kNN)的方法,它可以直接在投影之后的點(diǎn)云中進(jìn)行搜索,可以使離散化錯(cuò)誤和推斷模糊這類(lèi)問(wèn)題得以解決。
一些工作在三維點(diǎn)云預(yù)處理的時(shí)候,將點(diǎn)云轉(zhuǎn)化為體素表示。體素格式的本質(zhì)是稀疏的,并且是規(guī)范化數(shù)據(jù)形式,具有較好的可伸縮性,不但可以對(duì)三維點(diǎn)云的鄰域架構(gòu)進(jìn)行保留,而且能夠在標(biāo)準(zhǔn)的三維卷積中適應(yīng)操作。然而由于點(diǎn)云分區(qū)的不同會(huì)引起體素的粒度以及邊界的模糊等嚴(yán)重限制,這使得分割精度會(huì)有所損失。未來(lái)可以在實(shí)踐中找出合適的點(diǎn)云分區(qū),從而進(jìn)行選擇。例如Graham等人[58]介紹的一種子流形稀疏卷積網(wǎng)絡(luò)框架(Submanifold Sparse Convolutional Networks,SSCN)。該框架能夠更有效地處理空間的稀疏數(shù)據(jù),并用其來(lái)構(gòu)造空間稀疏的卷積神經(jīng)網(wǎng)絡(luò)。通過(guò)使用池化操作或者使用跨步卷積操作的卷積網(wǎng)絡(luò),成功地解決了網(wǎng)絡(luò)中隱藏層可能無(wú)法接收到它們對(duì)輸入數(shù)據(jù)進(jìn)行分類(lèi)所需的所有信息。
近年來(lái),基于二維圖像的語(yǔ)義分割取得了很大進(jìn)展。在二維圖像語(yǔ)義分割成熟技術(shù)的推動(dòng)下,將三維點(diǎn)云數(shù)據(jù)轉(zhuǎn)換成二維視圖,使得三維點(diǎn)云數(shù)據(jù)處理的快速發(fā)展。如圖3所示的多視圖的卷積神經(jīng)網(wǎng)絡(luò)框架圖[36],該方法成功地將CNN應(yīng)用在非結(jié)構(gòu)化的點(diǎn)云數(shù)據(jù)中,有效地解決了點(diǎn)云的分割任務(wù)。但是該方法忽略了對(duì)象與對(duì)象中間的空間關(guān)系,因此只適合單個(gè)對(duì)象的語(yǔ)義分割。由于二維圖像的語(yǔ)義分割技術(shù)已經(jīng)相當(dāng)成熟,因此在未來(lái)的發(fā)展中,可以將二維圖像與三維點(diǎn)云進(jìn)行融合來(lái)提高語(yǔ)義分割的效果。在未來(lái)的研究過(guò)程中,可以考慮該方法下對(duì)象與對(duì)象中間的空間關(guān)系,從而使該方法不會(huì)僅限制于單個(gè)對(duì)象,也能適合復(fù)雜場(chǎng)景的語(yǔ)義分割。例如Dai等人[59]提出的一種利用三維多視點(diǎn)聯(lián)合預(yù)測(cè)網(wǎng)絡(luò)進(jìn)行室內(nèi)RGB-D掃描的三維語(yǔ)義分割的網(wǎng)絡(luò)框架(3D-Multi-View,3DMV)。該框架是一種端到端的聯(lián)合網(wǎng)絡(luò)框架,該方法首先從得到的RGB圖像中提取出特征映射,然后使用可微后向投影層將這些特征映射到3D網(wǎng)絡(luò)的體素特征網(wǎng)格中,最后使用多視圖池化方法來(lái)處理數(shù)量不同的RGB輸入視圖。該方法通過(guò)聯(lián)合2D-3D網(wǎng)絡(luò)架構(gòu)學(xué)習(xí)到的RGB和幾何特征,得到的結(jié)果具有較優(yōu)的性能。
圖3 多視圖下的卷積神經(jīng)網(wǎng)絡(luò)(MVCNN)框架圖Fig.3 Framework of Multi-View Convolutional Neural Network(MVCNN)
間接基于點(diǎn)云方法的語(yǔ)義分割模型在前面的敘述中根據(jù)自身的不足之處列出了一些研究展望。為了充分利用三維點(diǎn)云數(shù)據(jù)的特點(diǎn),降低語(yǔ)義分割網(wǎng)絡(luò)的計(jì)算復(fù)雜度,研究者逐漸構(gòu)建出直接基于點(diǎn)云的模型框架。如圖4、圖5所示的基于深度學(xué)習(xí)的直接在非結(jié)構(gòu)化點(diǎn)云上來(lái)處理點(diǎn)云的分類(lèi)與分割[11,41]。該方法對(duì)點(diǎn)云的分割效果雖然達(dá)到了很不錯(cuò)的理想狀態(tài),但是由于它沒(méi)有考慮點(diǎn)與局部的鄰域信息的距離以及方向之間的關(guān)系,仍然處理比較集中的點(diǎn),因此在實(shí)際應(yīng)用中,特別是處理大規(guī)模場(chǎng)景下的點(diǎn)云分割時(shí),會(huì)丟失一些關(guān)鍵的信息,所以分割效果仍然有待提升。在未來(lái)的研究過(guò)程中,希望能夠有效地學(xué)習(xí)輪廓的結(jié)構(gòu)信息,并為輪廓回歸定點(diǎn)偏移量進(jìn)行回歸。例如在2020年,浙江大學(xué)的Peng等人[60]開(kāi)發(fā)的一種新的基于輪廓的深度蛇形分割方法。該方法使用基于學(xué)習(xí)的方法來(lái)實(shí)現(xiàn)蛇算法的經(jīng)典思想。與傳統(tǒng)的圖卷積相比,能夠有效地學(xué)習(xí)輪廓的結(jié)構(gòu)信息,并為輪廓回歸定點(diǎn)偏移量進(jìn)行回歸。并且該方法超越了對(duì)象邊界,因此不需要進(jìn)行后續(xù)處理(例如上采樣)。此外,在KINS[61]和SBD[62]的城市景觀數(shù)據(jù)集上都取得了良好的效果。但是由于遮擋會(huì)使一些對(duì)象被分成幾個(gè)部分,而一個(gè)輪廓只能勾勒出一個(gè)部分。因此,需要對(duì)每個(gè)部分進(jìn)行分割,然后合并分割結(jié)果,這是不靈活的,計(jì)算代價(jià)也是昂貴的。未來(lái)可以在研究中尋找出一種更靈活的方法,例如先將被遮擋的對(duì)象進(jìn)行點(diǎn)云補(bǔ)全,然后進(jìn)行分割。雖然已經(jīng)出現(xiàn)了一些有關(guān)點(diǎn)云補(bǔ)全的方法,但仍處于探索階段,而且沒(méi)有應(yīng)用到語(yǔ)義分割中。如何有效地利用點(diǎn)云補(bǔ)全等方法進(jìn)一步地提高分割的性能,是一個(gè)有待解決的問(wèn)題。
圖4 PointNet框架中提取的點(diǎn)云分類(lèi)和分割圖Fig.4 Framework of PointNet for point cloud classification and segmentation
圖5 PointNet++框架中提取的點(diǎn)云分類(lèi)和分割圖Fig.5 Framework of PointNet++for point cloud classification and segmentation
本文基于深度學(xué)習(xí)技術(shù)對(duì)三維點(diǎn)云的語(yǔ)義分割方法進(jìn)行了詳細(xì)的綜述。首先,介紹了一些與點(diǎn)云語(yǔ)義分割相關(guān)的常用的數(shù)據(jù)集;接著,按點(diǎn)云的數(shù)據(jù)表現(xiàn)形式,將點(diǎn)云語(yǔ)義分割方法分為基于投影、體素、多視圖的間接基于點(diǎn)云的方法和對(duì)點(diǎn)云數(shù)據(jù)直接處理的直接基于點(diǎn)云的方法,并整理出相關(guān)方法的最新進(jìn)展;然后對(duì)各類(lèi)方法的優(yōu)點(diǎn)、缺點(diǎn)、適用范圍和應(yīng)用場(chǎng)景進(jìn)行比較;最后,討論了點(diǎn)云的語(yǔ)義分割相關(guān)方法的研究展望,并對(duì)未來(lái)的研究方向做出了自己的見(jiàn)解。通過(guò)對(duì)本文的閱讀,期望可以為學(xué)者、研究者對(duì)于三維點(diǎn)云語(yǔ)義分割研究方面上提供深入的了解和認(rèn)知,促進(jìn)智能制造、自動(dòng)駕駛、智能機(jī)器人等行業(yè)的研究與應(yīng)用。