李維剛,陳婷,田志強(qiáng)
基于孿生自適應(yīng)圖卷積算法的點(diǎn)云分類與分割
李維剛1,2,陳婷1*,田志強(qiáng)1
(1.武漢科技大學(xué) 信息科學(xué)與工程學(xué)院,武漢 430081; 2.武漢科技大學(xué) 冶金自動(dòng)化與檢測技術(shù)教育部工程研究中心,武漢 430081)( ? 通信作者電子郵箱chenting_myself@163.com)
點(diǎn)云數(shù)據(jù)具有稀疏性、不規(guī)則性和置換不變性,缺乏拓?fù)湫畔?,?dǎo)致它的特征難以被提取,為此,提出一種孿生自適應(yīng)圖卷積算法(SAGCA)進(jìn)行點(diǎn)云分類與分割。首先,構(gòu)建特征關(guān)系圖挖掘不規(guī)則、稀疏點(diǎn)云特征間的拓?fù)潢P(guān)系;其次,引入共享卷積學(xué)習(xí)權(quán)重的孿生構(gòu)圖思想,保證點(diǎn)云的置換不變性,使拓?fù)潢P(guān)系表達(dá)更準(zhǔn)確;最后,采用整體、局部兩種結(jié)合方式,將SAGCA與各種處理點(diǎn)云數(shù)據(jù)的深度學(xué)習(xí)網(wǎng)絡(luò)相結(jié)合,增強(qiáng)網(wǎng)絡(luò)的特征提取能力。分別在ScanObjectNN、ShapeNetPart和S3DIS數(shù)據(jù)集上進(jìn)行分類、對象部件分割和場景語義分割實(shí)驗(yàn)的結(jié)果表明,相較于PointNet++基準(zhǔn)網(wǎng)絡(luò),基于同樣的數(shù)據(jù)集和評價(jià)標(biāo)準(zhǔn),SAGCA分類實(shí)驗(yàn)的類別平均準(zhǔn)確率(mAcc)提高了2.80個(gè)百分點(diǎn),對象部件分割實(shí)驗(yàn)的總體類別平均交并比(IoU)提高了2.31個(gè)百分點(diǎn),場景語義分割實(shí)驗(yàn)的類別平均交并比(mIoU)提高了2.40個(gè)百分點(diǎn),說明SAGCA能有效增強(qiáng)網(wǎng)絡(luò)的特征提取能力,適用于多種點(diǎn)云分類分割任務(wù)。
點(diǎn)云數(shù)據(jù);拓?fù)潢P(guān)系;孿生;自適應(yīng)圖卷積;分類;分割
隨著激光雷達(dá)、深度相機(jī)等掃描設(shè)備的普及與發(fā)展[1],獲取3D點(diǎn)云數(shù)據(jù)越來越便捷,分析和處理3D點(diǎn)云數(shù)據(jù)可以幫助計(jì)算機(jī)更好地理解真實(shí)世界[2],在機(jī)器人、虛擬現(xiàn)實(shí)、自動(dòng)駕駛、智慧城市等應(yīng)用領(lǐng)域[3-4]具有十分重要的研究價(jià)值。近年來,隨著深度學(xué)習(xí)技術(shù)的不斷發(fā)展,基于深度學(xué)習(xí)的3D點(diǎn)云數(shù)據(jù)處理方法越來越流行,在分類[5-8]、對象部件分割[9-11]和場景語義分割[12-13]等任務(wù)上均取得了不錯(cuò)的進(jìn)展。
基于深度學(xué)習(xí)的點(diǎn)云數(shù)據(jù)處理方法大致分為三種,分別為基于體素、基于多視圖與基于點(diǎn)的方法。2018年Zhou等[14]提出了基于體素的VoxelNet,通過將3D點(diǎn)云劃分為體素后進(jìn)行處理;然而轉(zhuǎn)換后的數(shù)據(jù)離散運(yùn)算量較大,分辨率偏低,導(dǎo)致計(jì)算復(fù)雜度高、內(nèi)存開銷大等問題。2022年Sheshappanavar等[15]提出了基于多視圖的MVTN(Multi-View Transformation Network)+SimpleView++,使用鄰域投影和對象投影來學(xué)習(xí)更細(xì)小的結(jié)構(gòu)信息;然而將點(diǎn)云投影得到多視圖圖像的過程中易丟失一些真實(shí)點(diǎn)云對象的相對位置信息,存在幾何信息丟失的問題。Qi等[16]首次提出了基于點(diǎn)的PointNet,直接使用不規(guī)則的點(diǎn)云數(shù)據(jù)作為輸入,能保持點(diǎn)云的結(jié)構(gòu)完好無損,打破了以上兩種方法的局限性,為后續(xù)基于點(diǎn)的點(diǎn)云處理研究提供了理論支撐。在此基礎(chǔ)上,Qi等[17]又提出層次網(wǎng)絡(luò)PointNet++,將3D點(diǎn)云劃分為多組鄰域,再逐層提取點(diǎn)云的局部信息,解決了PointNet無法提取局部特征的問題,但未充分獲取局部特征。為了更好地提取局部特征,DGCNN(Dynamic Graph Convolutional Neural Network)[18]采用了一種新穎的EdgeConv算法,通過聚合每個(gè)點(diǎn)及其個(gè)鄰域點(diǎn)的特征來提取局部特征,側(cè)重于學(xué)習(xí)采樣中心點(diǎn)與其鄰域點(diǎn)間的特征關(guān)系,但忽略了鄰域點(diǎn)相互結(jié)構(gòu)特征的學(xué)習(xí)。雖然上述網(wǎng)絡(luò)在點(diǎn)云的分類、分割任務(wù)上都取得了不錯(cuò)的成績,但它們均忽略了以下兩種潛在的拓?fù)潢P(guān)系,進(jìn)而限制了它們提取點(diǎn)云有效特征的能力:1)忽略了鄰域內(nèi)點(diǎn)間的拓?fù)潢P(guān)系,缺乏對局部上下文信息的充分探索;2)忽略了鄰域與鄰域間的拓?fù)潢P(guān)系,對整體鄰域間關(guān)系的把握也不夠充分。針對這些問題,本文的主要工作如下:
1)提出自適應(yīng)圖卷積算法(Adaptive Graph Convolutional Algorithm, AGCA),通過構(gòu)圖,將稀疏、不規(guī)則點(diǎn)云數(shù)據(jù)的點(diǎn)與點(diǎn)相互連接起來,用圖結(jié)構(gòu)表示點(diǎn)云間潛在的拓?fù)潢P(guān)系,解決稀疏性導(dǎo)致的信息丟失以及不規(guī)則性帶來的特征提取困難問題;
2)引入共享卷積學(xué)習(xí)權(quán)重的孿生構(gòu)圖思想,保證點(diǎn)云的置換不變性,提出了一種新的孿生自適應(yīng)圖卷積算法(Siamese Adaptive Graph Convolutional Algorithm, SAGCA),確保特征關(guān)系圖的對稱性,更準(zhǔn)確地表達(dá)點(diǎn)云數(shù)據(jù)特征間的拓?fù)潢P(guān)系,消除不考慮點(diǎn)云置換不變性對特征提取帶來的不良影響;
3)采用局部、整體兩種結(jié)合方式,將SAGCA與現(xiàn)有基于點(diǎn)的深度學(xué)習(xí)網(wǎng)絡(luò)相結(jié)合,深入挖掘上述忽略的兩種拓?fù)潢P(guān)系,從而增強(qiáng)網(wǎng)絡(luò)的特征提取能力,以便更好地完成點(diǎn)云分類、對象部件分割以及場景語義分割任務(wù)。
近些年,越來越多的深度學(xué)習(xí)網(wǎng)絡(luò)嘗試基于點(diǎn)直接處理3D點(diǎn)云,其中最具代表性的是PointNet++,通過下采樣和分組將點(diǎn)云數(shù)據(jù)劃分為多組鄰域,再遞歸處理每組鄰域,并簡單地使用最大池化層聚合本地特征;然而,它在局部鄰域內(nèi)單獨(dú)處理每個(gè)點(diǎn),因此沒有充分探討點(diǎn)與點(diǎn)之間的拓?fù)潢P(guān)系。Qian等[19]在2022年重新審視PointNet++后,提出了一種新的點(diǎn)云訓(xùn)練框架,即將PointNet++與Transformer[20]相結(jié)合,提出了PointNeXt,有效提升了網(wǎng)絡(luò)的性能。但是,Transformer的引入會(huì)產(chǎn)生巨大的計(jì)算負(fù)荷,對設(shè)備要求極高,為了避免超大的計(jì)算負(fù)荷,同年Ran等[21]提出了RepSurf網(wǎng)絡(luò),使用三角面和傘面構(gòu)建一種新的點(diǎn)云表示方法,在有效簡化計(jì)算過程的同時(shí),增強(qiáng)了網(wǎng)絡(luò)的表征提取能力。然而,以上方法仍沒有充分挖掘點(diǎn)云數(shù)據(jù)特征間潛在的拓?fù)潢P(guān)系,筆者認(rèn)為:構(gòu)建點(diǎn)云特征間的拓?fù)潢P(guān)系是解決難以提取點(diǎn)云有效特征問題的關(guān)鍵。
對于無序不規(guī)則的數(shù)據(jù),傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)難以構(gòu)建數(shù)據(jù)間的拓?fù)潢P(guān)系,但不規(guī)則數(shù)據(jù)仍存在許多潛在的關(guān)系,且大多可以用圖結(jié)構(gòu)表示,由此,Scarselli等[22]提出了圖神經(jīng)網(wǎng)絡(luò)(Graph Neural Network, GNN),解決了CNN無法處理無序數(shù)據(jù)的問題。但對于較復(fù)雜的圖結(jié)構(gòu),難以構(gòu)造有效的深層圖神經(jīng)網(wǎng)絡(luò),于是Kipf等[23]將圖與CNN相結(jié)合,提出了圖卷積神經(jīng)網(wǎng)絡(luò)(Graph Convolutional neural Network, GCN),利用切比雪夫多項(xiàng)式逼近算法,使得雙線性模型近似代替圖卷積操作,從而能夠構(gòu)造有效的深層GCN。自此,GCN被廣泛應(yīng)用于不同領(lǐng)域[18,24]。Shi等[25]提出自適應(yīng)圖卷積層,根據(jù)不同的人體骨骼樣本生成相對有效的圖模型,解決了固定圖模型泛化能力差的問題。本文受到文獻(xiàn)[25]工作的啟發(fā),并考慮到點(diǎn)云數(shù)據(jù)的無序性、不規(guī)則性以及置換不變性,提出了一種新的孿生自適應(yīng)圖卷積算法SAGCA,以構(gòu)建點(diǎn)云特征間的關(guān)系連通圖,充分挖掘點(diǎn)云潛在的拓?fù)潢P(guān)系,避免丟失稀疏點(diǎn)的特征信息,從而增強(qiáng)網(wǎng)絡(luò)的特征提取能力。
圖1 SAGCA的結(jié)構(gòu)及其與現(xiàn)有網(wǎng)絡(luò)結(jié)合的框架
圖2 有向的特征關(guān)系圖
進(jìn)一步地,將式(5)寫成卷積操作的形式:
圖3 無向的特征關(guān)系圖
其中:表示整體特征關(guān)系圖,表示局部特征關(guān)系圖,分別對應(yīng)圖4(a)、圖4(b)。
本文分別從整體、局部兩個(gè)角度將SAGCA與現(xiàn)有網(wǎng)絡(luò)相結(jié)合,以檢驗(yàn)算法的有效性。根據(jù)式(9),可得到整體、局部兩種結(jié)合方式下的輸出矢量:
本文通過將SAGCA與現(xiàn)有網(wǎng)絡(luò)的每一個(gè)特征提取層相結(jié)合,挖掘整體/局部特征間的拓?fù)潢P(guān)系,通過特征間的自適應(yīng)加權(quán)融合運(yùn)算,增強(qiáng)網(wǎng)絡(luò)的特征提取能力。
為了驗(yàn)證SAGCA的有效性與通用性,在3個(gè)公開數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),使用ScanObjectNN數(shù)據(jù)集[26]進(jìn)行三維物體分類實(shí)驗(yàn),使用ShapeNetPart數(shù)據(jù)集[27]進(jìn)行對象部件分割實(shí)驗(yàn),使用S3DIS數(shù)據(jù)集[28]進(jìn)行場景語義分割實(shí)驗(yàn)。實(shí)驗(yàn)均在PyTorch[29]深度學(xué)習(xí)框架上進(jìn)行,所用GPU為NVIDIA GeForce RTX 2080 Ti。為保證實(shí)驗(yàn)的公平性,本文實(shí)驗(yàn)的訓(xùn)練參數(shù)均與基準(zhǔn)網(wǎng)絡(luò)的訓(xùn)練參數(shù)相同。
采用香港科技大學(xué)提出的ScanObjectNN進(jìn)行點(diǎn)云分類實(shí)驗(yàn)。該數(shù)據(jù)集包括15個(gè)類、15 000個(gè)室內(nèi)真實(shí)物體的掃描對象,本文使用文獻(xiàn)[26]中劃分好的訓(xùn)練集和測試集。
本文算法在網(wǎng)絡(luò)RepSurf-U?、PointNet++上分別采用局部和整體兩種結(jié)合方式,形成局部孿生自適應(yīng)圖卷積算法(Local Siamese Adaptive Graph Convolutional Algorithm, LSAGCA)和整體孿生自適應(yīng)圖卷積算法(Global Siamese Adaptive Graph Convolutional Algorithm, GSAGCA),使用每個(gè)類別的平均準(zhǔn)確率(mean Accuracy, mAcc)和所有類別的整體準(zhǔn)確率(Overall Accuracy, OA)作為評價(jià)指標(biāo),并使用每秒10億次的浮點(diǎn)運(yùn)算數(shù)(Giga FLoating-point Operations Per Second, GFLOPs)衡量模型的復(fù)雜度,以每秒處理樣本數(shù)(sample/s)衡量網(wǎng)絡(luò)推理速度。輸入點(diǎn)數(shù)均為1 024(看作一組樣本)。RepSurf-U?批處理大小為64,epoch為250;PointNet++批處理大小則為24,epoch為200。實(shí)驗(yàn)對比對象為SpiderCNN[5]、PointCNN[6]、DRNet(Dense-Resolution Network)[7]、MVTN+SimpleView++[15]、PointNet、PointNet++、DGCNN、RepSurf-U?、Point-MAE(Mean Absolute Error)[30]和PointMLP(MultiLayer Perceptron)[31],實(shí)驗(yàn)結(jié)果如表1所示。由表1可知:
1)兩種結(jié)合方式均能提升PointNet++、RepSurf-U?的分類精度。對于PointNet++,兩種拓?fù)潢P(guān)系均未充分挖掘,但對于無需上采樣的分類任務(wù),未充分探究鄰域內(nèi)點(diǎn)與點(diǎn)之間的拓?fù)潢P(guān)系,相較于未探索鄰域間拓?fù)潢P(guān)系影響更大,故LSAGCA效果更佳;對于RepSurf-U?,局部點(diǎn)云已使用三角面或傘面表征方法表示,已構(gòu)建鄰域內(nèi)點(diǎn)間拓?fù)潢P(guān)系,而忽略了挖掘鄰域間潛在的拓?fù)潢P(guān)系,故SAGCA效果更佳。
2)LSAGCA-PointNet++學(xué)習(xí)構(gòu)建了局部特征關(guān)系圖,充分挖掘了鄰域內(nèi)點(diǎn)間特征的拓?fù)潢P(guān)系,故相較于PointNet++,能更好地捕獲局部特征的上下文關(guān)系,OA和mAcc指標(biāo)分別提升了1.99和2.80個(gè)百分點(diǎn)。
3)LSAGCA、GSAGCA均采用了圖卷積操作,與網(wǎng)絡(luò)相結(jié)合,均增加了網(wǎng)絡(luò)的卷積核數(shù)量以及網(wǎng)絡(luò)的卷積乘運(yùn)算復(fù)雜程度,故兩種結(jié)合方式均會(huì)增大PointNet++、RepSurf-U?的GFLOPs,而LSAGCA卷積核大小比GSAGCA大,導(dǎo)致乘運(yùn)算更復(fù)雜,故與LSAGCA結(jié)合后的網(wǎng)絡(luò)GFLOPs更大。
4)網(wǎng)絡(luò)模型越復(fù)雜,推理速度便越慢,即每秒處理樣本數(shù)與GFLOPs成反相關(guān),兩種結(jié)合方式均會(huì)造成推理變慢,但相較于分類效果的提升,速度的降低幅度在合理范圍內(nèi),且測試模型預(yù)測速度受使用設(shè)備影響較大。
5)GSAGCA-RepSurf-U?融合了組與組全部的鄰域特征信息,充分挖掘了鄰域間潛在的拓?fù)潢P(guān)系,增強(qiáng)了網(wǎng)絡(luò)對整體特征的學(xué)習(xí)能力,OA和mAcc指標(biāo)高達(dá)86.50%和85.69%,比RepSurf-U?分別提升了0.50和2.59個(gè)百分點(diǎn),與對比網(wǎng)絡(luò)相比,性能保持最優(yōu)。
6)本文算法適用于不同網(wǎng)絡(luò),兩種方式均能構(gòu)建點(diǎn)云特征的拓?fù)潢P(guān)系圖,獲取更顯著的上下文特征信息,增強(qiáng)網(wǎng)絡(luò)對點(diǎn)云的分類能力,證明了本文算法具有通用性,在分類任務(wù)上是可行、有效的。
點(diǎn)云對象部件分割是一項(xiàng)比點(diǎn)云分類更困難的任務(wù),本文在普林斯頓大學(xué)等構(gòu)建的ShapeNetPart數(shù)據(jù)集[27]上進(jìn)行對象部件分割實(shí)驗(yàn)。該數(shù)據(jù)集包含16個(gè)類,每個(gè)類別2~6個(gè)部件,共有50個(gè)部件標(biāo)簽;共16 881個(gè)樣本,其中訓(xùn)練集12 137個(gè),驗(yàn)證集1 870個(gè),測試集2 874個(gè)。
分別采用整體、局部兩種方式與基準(zhǔn)網(wǎng)絡(luò)PointNet++結(jié)合,使用總體類別的平均交并比(mean Intersection over Union, mIoU)和所有實(shí)例平均IoU作為評價(jià)指標(biāo),并使用GFLOPs衡量模型的復(fù)雜度,以每秒處理樣本數(shù)衡量網(wǎng)絡(luò)推理速度。網(wǎng)絡(luò)輸入點(diǎn)數(shù)為2 048(將1 024個(gè)點(diǎn)看作一組樣本),批處理大小為16,epoch為251。實(shí)驗(yàn)對比對象為SpiderCNN、SPLATNet(SParse LAttice Network) 3D[9]、SSCNN(Synchronized Spectral Convolutional Neural Networks)[10]、Point-PlaneNet[11]、PointNet、PointNet++(msg)[17]、DGCNN和3D-GCN[24],實(shí)驗(yàn)結(jié)果如表2所示。
表1 ScanObjectNN數(shù)據(jù)集上不同方法的分類性能對比
注:由于官方的PointNet++和RepSurf?U?并未給出推理速度的實(shí)驗(yàn)結(jié)果,表1中帶*數(shù)據(jù)為本文復(fù)現(xiàn)結(jié)果。
表2 ShapeNetPart數(shù)據(jù)集上不同方法的對象部件分割性能對比
注:由于官方的PointNet++(msg)[17]沒有給出GFLOPs、推理速度的實(shí)驗(yàn)結(jié)果,表2中帶*數(shù)據(jù)為本文復(fù)現(xiàn)結(jié)果。
由表2可知:
1)兩種結(jié)合方式均能提升PointNet++(msg)[17]的對象部件分割精度,由于GSAGCA構(gòu)建了整體組間的拓?fù)浣Y(jié)構(gòu)圖,相較于LSAGCA構(gòu)建的局部特征關(guān)系圖,GSAGCA學(xué)習(xí)到的語義信息更強(qiáng),故效果更佳;
2)GSAGCA-PointNet++充分挖掘了鄰域間潛在的拓?fù)潢P(guān)系,學(xué)習(xí)到的整體上下文信息更豐富,使類別平均IoU(class average IoU)提高了2.31個(gè)百分點(diǎn),雖然實(shí)例平均IoU (instance average IoU)提高并不明顯,但兩種指標(biāo)與表中列舉的其他方法相比,性能保持最優(yōu);
3)本文方法可以更好地分割物體對象的連接點(diǎn),對類別信息之間的關(guān)系更敏感,故類別平均IoU指標(biāo)提高更明顯;
4)由于LSAGCA卷積核大小比GSAGCA大,導(dǎo)致網(wǎng)絡(luò)模型卷積乘運(yùn)算更復(fù)雜,故與GSAGCA結(jié)合后的網(wǎng)絡(luò)GFLOPs更小,網(wǎng)絡(luò)推理速度更大,且GSAGCA-PointNet++分割效果更好,兩種算法相比,PointNet++(msg)與GSAGCA相結(jié)合更適合對象部件分割任務(wù);
5)兩種結(jié)合方式均降低了基準(zhǔn)網(wǎng)絡(luò)的推理速度,但與提高的分割性能相比,速度的降低程度在合理范圍內(nèi)。
圖5給出了ShapeNetPart[27]數(shù)據(jù)集中耳機(jī)(Earphone)、吉他(Guitar)和摩托車(Motorbike)3個(gè)類別的對象部件分割可視化結(jié)果。由圖中圓圈部分可知,基準(zhǔn)網(wǎng)絡(luò)忽略了點(diǎn)云數(shù)據(jù)特征之間的拓?fù)潢P(guān)系,對于類別對象細(xì)小部件的識別不夠敏感,采用LSAGCA、GSAGCA均可以更好地分割物體部件的連接點(diǎn),得到與原始數(shù)據(jù)更加接近的分割結(jié)果。
圖5 ShapeNetPart數(shù)據(jù)集上的對象部件分割可視化結(jié)果
大型室內(nèi)場景點(diǎn)云數(shù)據(jù)的復(fù)雜程度高,且存在異常值和噪聲,因此,場景語義分割任務(wù)更具挑戰(zhàn)性。為了驗(yàn)證本文算法在此任務(wù)上的有效性,使用斯坦福大學(xué)構(gòu)建的大規(guī)模場景數(shù)據(jù)集S3DIS[28],在PointNet++基準(zhǔn)網(wǎng)絡(luò)上分別采用兩種結(jié)合方式進(jìn)行實(shí)驗(yàn)。該數(shù)據(jù)集包含13類對象、11個(gè)場景,按文獻(xiàn)[28]的方式使用Area-5作為測試場景,以便更好地衡量本文方法的泛化能力,其他區(qū)域均用于訓(xùn)練。
采用類別mIoU作為評價(jià)指標(biāo),并使用GFLOPs衡量模型的復(fù)雜度,以每秒處理樣本數(shù)衡量網(wǎng)絡(luò)推理速度。網(wǎng)絡(luò)輸入點(diǎn)數(shù)為4 096(將1 024個(gè)點(diǎn)看作一組樣本),批處理大小為16,epoch為32。實(shí)驗(yàn)對比對象為SegCloud[12]、PointNet、PointNet++(msg)、3D-GCN和DeepGCN[25],實(shí)驗(yàn)結(jié)果如表3所示。
由表3可知:
1)兩種結(jié)合方式均能提升網(wǎng)絡(luò)的場景語義分割精度,但由于場景點(diǎn)云數(shù)據(jù)包含點(diǎn)量龐大,且對象類別較多,整體點(diǎn)云特征的拓?fù)潢P(guān)系對場景語義分割任務(wù)影響更大,故GSAGCA效果更佳;
2)與基準(zhǔn)網(wǎng)絡(luò)相比,GSAGCA-PointNet++學(xué)習(xí)獲取整體組間的特征關(guān)系圖,學(xué)習(xí)到的整體上下文信息更豐富,對于稀疏部分的點(diǎn),構(gòu)圖能夠更好地避免信息丟失,增強(qiáng)了網(wǎng)絡(luò)對整體特征的學(xué)習(xí)能力,mIoU指標(biāo)提高了2.40個(gè)百分點(diǎn);
3)兩種結(jié)合方式均降低了基準(zhǔn)網(wǎng)絡(luò)的推理速度,但均在合理范圍內(nèi),兩種算法相比,GSAGCA-PointNet++的GFLOPs更小,網(wǎng)絡(luò)推理速度更大,更適合場景語義分割任務(wù);
4)本文算法具有較強(qiáng)的描述能力和自主學(xué)習(xí)能力,對大型場景點(diǎn)云數(shù)據(jù)集也有不錯(cuò)的效果。
表3 S3DIS-Area5數(shù)據(jù)集上不同方法的場景語義分割性能對比
注:由于官方的PointNet++[17]并沒有給出S3DIS?Area5[28]實(shí)驗(yàn)結(jié)果,也沒有給出GFLOPs、推理速度的實(shí)驗(yàn)結(jié)果,表3中帶*數(shù)據(jù)為本文復(fù)現(xiàn)結(jié)果。
圖6從正面(Front)、反面(Reverse)兩個(gè)角度,依次給出了測試區(qū)域Area-5中WC1場景輸入原始圖、真實(shí)語義分割結(jié)果圖以及場景語義分割的可視化結(jié)果圖。由圖中圓圈部分可知,PointNet++[17]基準(zhǔn)網(wǎng)絡(luò)對于部分區(qū)域的識別不準(zhǔn)確,使用本文算法后,由于構(gòu)建了點(diǎn)云特征間的拓?fù)潢P(guān)系圖,增強(qiáng)了網(wǎng)絡(luò)對于不規(guī)則的點(diǎn)云數(shù)據(jù)和分布稀疏的部分?jǐn)?shù)據(jù)特征提取能力,可以更好地識別對象類別,得到與原始數(shù)據(jù)更加接近的分割結(jié)果,驗(yàn)證了本文算法的有效性。
為了驗(yàn)證本文將孿生構(gòu)圖思想引入自適應(yīng)圖卷積算法(AGCA)的合理性,以PointNet++為基礎(chǔ)網(wǎng)絡(luò),在S3DIS[28]數(shù)據(jù)集上進(jìn)行場景語義分割實(shí)驗(yàn),分別設(shè)計(jì)了局部點(diǎn)間的自適應(yīng)圖卷積算法(Local Adaptive Graph Convolutional Algorithm, LAGCA)和整體組間的自適應(yīng)圖卷積算法(Global Adaptive Graph Convolutional Algorithm, GAGCA),根據(jù)是否添加孿生(Siamese)思想,即是否共享卷積的權(quán)重矩陣,對AGCA進(jìn)行消融實(shí)驗(yàn)。用Area-5作為測試場景,實(shí)驗(yàn)結(jié)果如表4所示。
表4 S3DIS-Area5數(shù)據(jù)集上的消融實(shí)驗(yàn)結(jié)果 單位: %
注:由于官方的PointNet++并沒有給出S3DIS?Area5實(shí)驗(yàn)結(jié)果,表4中帶*數(shù)據(jù)為本文復(fù)現(xiàn)結(jié)果。
由表4可知:
1)非孿生LAGCA的mIoU指標(biāo)降低了0.40個(gè)百分點(diǎn),非孿生GAGCA的mIoU指標(biāo)僅提高了0.76個(gè)百分點(diǎn),可見構(gòu)建有向的特征關(guān)系圖,不能準(zhǔn)確描述無序點(diǎn)云特征間的拓?fù)潢P(guān)系,分割效果提高不明顯甚至可能起到反效果;
2)引入孿生構(gòu)圖思想后兩種算法的mIoU指標(biāo)分別提高了2.06和2.40個(gè)百分點(diǎn),故LAGCA、GAGCA搭配孿生構(gòu)圖思想,分割效果均更佳;
3)本文提出的孿生自適應(yīng)圖卷積算法SAGCA通過引入共享卷積學(xué)習(xí)權(quán)重的孿生構(gòu)圖思想,能更好地學(xué)習(xí)表達(dá)點(diǎn)云數(shù)據(jù)特征間的拓?fù)潢P(guān)系,因此引入孿生構(gòu)圖思想是合理的。
圖6 S3DIS-Area5數(shù)據(jù)集上的場景語義分割可視化結(jié)果
本文引入共享卷積學(xué)習(xí)權(quán)重的孿生構(gòu)圖思想,提出了一種新的孿生自適應(yīng)圖卷積算法,通過整體、局部兩種方式與多種網(wǎng)絡(luò)的各個(gè)特征提取層相結(jié)合,從而學(xué)習(xí)構(gòu)建無序點(diǎn)云特征間的自適應(yīng)特征關(guān)系圖,增強(qiáng)網(wǎng)絡(luò)對特征的提取能力。將本文算法從整體、局部兩個(gè)角度與基準(zhǔn)網(wǎng)絡(luò)結(jié)合,分別構(gòu)建得到兩種特征關(guān)系圖,在網(wǎng)絡(luò)提取特征方面均能發(fā)揮正面作用。針對三個(gè)公開數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果表明,點(diǎn)云數(shù)據(jù)的分類、對象部件分割及場景語義分割精度均能得到提高。
由于兩種特征關(guān)系圖發(fā)揮作用的機(jī)制有所不同,今后可將兩種方式同時(shí)與現(xiàn)有網(wǎng)絡(luò)相結(jié)合,對兩者的結(jié)合方式進(jìn)行深入研究,并對更大的點(diǎn)云數(shù)據(jù)集或更具有挑戰(zhàn)性的任務(wù)開展實(shí)驗(yàn),進(jìn)一步測試本文算法的有效性。
[1] 李朝,蘭海,魏憲. 基于注意力的毫米波-激光雷達(dá)融合目標(biāo)檢測[J]. 計(jì)算機(jī)應(yīng)用, 2021, 41(7): 2137-2144.(LI C, LAN H, WEI X. Attention-based object detection with millimeter wave radar-lidar fusion[J]. Journal of Computer Applications, 2021, 41(7): 2137-2144.)
[2] 付豪,徐和根,張志明,等. 動(dòng)態(tài)場景下基于語義和光流約束的視覺同步定位與地圖構(gòu)建[J]. 計(jì)算機(jī)應(yīng)用, 2021, 41(11): 3337-3344.(FU H, XU H G, ZHANG Z M, et al. Visual simultaneous localization and mapping based on semantic and optical flow constraints in dynamic scenes[J]. Journal of Computer Applications, 2021, 41(11): 3337-3344.)
[3] FAN T, ZHANG R. Research on automatic lane line extraction method based on onboard lidar point cloud data[C]// Proceedings of the SPIE 12306, 2nd International Conference on Digital Signal and Computer Communications. Bellingham, WA: SPIE, 2022: No.123060P.
[4] MIRZAEI K, ARASHPOUR M, ASADI E, et al. 3D point cloud data processing with machine learning for construction and infrastructure applications: a comprehensive review[J]. Advanced Engineering Informatics, 2022, 51: No.101501.
[5] XU Y, FAN T, XU M, et al. SpiderCNN: deep learning on point sets with parameterized convolutional filters[C]// Proceedings of the 2018 European Conference on Computer Vision, LNCS 11212. Cham: Springer, 2018: 90-105.
[6] LI Y, BU R, SUN M, et al. PointCNN: convolution on-transformed points[C]// Proceedings of the 32nd International Conference on Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc., 2018: 828-838.
[7] QIU S, ANWAR S, BARNES N. Dense-resolution network for point cloud classification and segmentation[C]// Proceedings of the 2021 IEEE Winter Conference on Applications of Computer Vision. Piscataway: IEEE, 2021: 3812-3821.
[8] 史怡,魏東,宋強(qiáng),等. 基于動(dòng)態(tài)圖卷積和離散哈特萊轉(zhuǎn)換差異性池化的點(diǎn)云數(shù)據(jù)分類分割網(wǎng)絡(luò)[J]. 計(jì)算機(jī)應(yīng)用, 2022, 42(S1): 292-297.(SHI Y, WEI D, SONG Q, et al. Point cloud data classification and segmentation network based on dynamic graph convolution and discrete Hartley transform different pooling[J]. Journal of Computer Applications, 2021, 42(S1): 292-297.)
[9] SU H, JAMPANI V, SUN D, et al. SPLATNet: sparse lattice networks for point cloud processing[C]// Proceedings of the 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2018: 2530-2539.
[10] YI L, SU H, GUO X, et al. SyncSpecCNN: synchronized spectral CNN for 3D shape segmentation[C]// Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2017: 6584-6592.
[11] PEYGHAMBARZADEH S M M, AZIZMALAYERI F, KHOTANLOU H, et al. Point-PlaneNet: plane kernel based convolutional neural network for point clouds analysis[J]. Digital Signal Processing, 2020, 98: No.102633.
[12] TCHAPMI L, CHOY C, ARMENI I, et al. SEGCloud: semantic segmentation of 3D point clouds[C]// Proceedings of the 2017 International Conference on 3D Vision. Piscataway: IEEE, 2017: 537-547.
[13] LIN Z H, HUANG S Y, WANG Y C F. Convolution in the cloud: learning deformable kernels in 3D graph convolution networks for point cloud analysis[C]// Proceedings of the 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2020: 1897-1806.
[14] ZHOU Y, TUZEL O. VoxelNet: end-to-end learning for point cloud based 3D object detection[C]// Proceedings of the 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2018: 4490-4499.
[15] SHESHAPPANAVAR S V, KAMBHAMETTU C. SimpleView++: neighborhood views for point cloud classification[C]// Proceedings of the IEEE 5th International Conference on Multimedia Information Processing and Retrieval. Piscataway: IEEE, 2022: 31-34.
[16] QI C R, SU H, MO K, et al. PointNet: deep learning on point sets for 3D classification and segmentation[C]// Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2017: 77-85.
[17] QI C R, YI L, SU H, et al. PointNet++: deep hierarchical feature learning on point sets in a metric space[C]// Proceedings of the 31st International Conference on Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc., 2017: 5105-5114.
[18] WANG Y, SUN Y, LIU Z, et al. Dynamic graph CNN for learning on point clouds[J]. ACM Transactions on Graphics, 2019, 38(5): No.146.
[19] QIAN G, LI Y, PENG H, et al. PointNeXt: revisiting PointNet++ with improved training and scaling strategies[EB/OL]. (2022-10-12) [2022-12-29].https://arxiv.org/pdf/2206.04670.pdf.
[20] VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need[C]// Proceedings of the 31st International Conference on Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc., 2017: 6000-6010.
[21] RAN H, LIU J, WANG C. Surface representation for point clouds[C]// Proceedings of the 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2022: 18942-18952.
[22] SCARSELLI F, GORI M, TSOI A C, et al. The graph neural network model[J]. IEEE Transactions on Neural Networks, 2008, 20(1): 61-80.
[23] KIPF T N, WELLING M. Semi-supervised classification with graph convolutional networks[EB/OL]. (2017-02-22) [2022-08-24].https://arxiv.org/pdf/1609.02907.pdf.
[24] LI G, MüLLER M, QIAN G, et al. DeepGCNs: making GCNs go as deep as CNNs[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2023, 45(6): 6923-6939.
[25] SHI L, ZHANG Y, CHENG J, et al. Non-local graph convolutional networks for skeleton-based action recognition[EB/OL]. [2022-08-24].https://arxiv.org/pdf/1805.07694v2.pdf.
[26] UY M A, PHAM Q H, HUA B S, et al. Revisiting point cloud classification: a new benchmark dataset and classification model on real-world data[C]// Proceedings of the 2019 IEEE/CVF International Conference on Computer Vision. Piscataway: IEEE, 2019: 1588-1597.
[27] CHANG A X, FUNKHOUSER T, GUIBAS L, et al. ShapeNet: an information-rich 3D model repository[EB/OL]. [2022-08-25].https://arxiv.org/pdf/1512.03012.pdf.
[28] ARMENI I, SENER O, ZAMIR A R, et al. 3D semantic parsing of large-scale indoor spaces[C]// Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2016: 1534-1543.
[29] PASZKE A, GROSS S, CHINTALA S, et al. Automatic differentiation in PyTorch[EB/OL]. [2023-01-01].https://openreview.net/pdf?id=BJJsrmfCZ.
[30] PANG Y, WANG W, TAY F E H, et al. Masked autoencoders for point cloud self-supervised learning[C]// Proceedings of the 2022 European Conference on Computer Vision, LNCS 13662. Cham: Springer, 2022: 604-621.
[31] MA X, QIN C, YOU H, et al. Rethinking network design and local geometry in point cloud: a simple residual MLP framework[EB/OL]. [2023-01-01].https://arxiv.org/pdf/2202.07123.pdf.
Point cloud classification and segmentation based on Siamese adaptive graph convolution algorithm
LI Weigang1,2, CHEN Ting1*, TIAN Zhiqiang1
(1,,430081,;2(),430081,)
Point cloud data has sparsity, irregularity, and permutation invariance, and lacks topological information, which makes it difficult to extract features of point cloud. Therefore, a Siamese Adaptive Graph Convolution Algorithm (SAGCA) was proposed for point cloud classification and segmentation. Firstly, the topological relationships between irregular and sparse point cloud features were mined by constructing feature relationship graph. Then, the Siamese composition idea of sharing convolution learning weights was introduced to ensure the permutation invariance of point cloud data and make the topological relationship expression more accurate. Finally, SAGCA was combined with various deep learning networks for processing point cloud data by both global and local combination methods, thereby enhancing the feature extraction ability of the network. Comparison results with PointNet++ benchmark network of the classification, object part segmentation and scene semantic segmentation experiments on ScanObjectNN, ShapeNetPart and S3DIS datasets, respectively, show that, based on the same dataset and evaluation criteria, SAGCA has the class mean Accuracy (mAcc) of classification increased by 2.80 percentage points, the overall class average Intersection over Union (IoU) of part segmentation increased by 2.31 percentage points, and the class mean Intersection over Union (mIoU) of scene semantic segmentation increased by 2.40 percentage points, verifying that SAGCA can effectively enhance the feature extraction ability of the network and is suitable for multiple point cloud classification and segmentation tasks.
point cloud data; topological relationship; Siamese; adaptive graph convolution; classification; segmentation
1001-9081(2023)11-3396-07
10.11772/j.issn.1001-9081.2022101552
2022?10?20;
2023?02?03;
湖北省重點(diǎn)研發(fā)計(jì)劃項(xiàng)目(2020BAB098)。
李維剛(1977—),男,湖北咸寧人,教授,博士,主要研究方向:工業(yè)過程控制、人工智能、機(jī)器學(xué)習(xí); 陳婷(1999—),女,湖北孝感人,碩士研究生,主要研究方向:深度學(xué)習(xí)、模式識別、點(diǎn)云數(shù)據(jù)處理; 田志強(qiáng)(1996—),男,湖北武漢人,博士研究生,主要研究方向:計(jì)算機(jī)視覺。
TP391.4
A
2023?02?08。
This work is partially supported by Key Research and Development Program of Hubei Province (2020BAB098).
LI Weigang, born in 1977, Ph. D., professor. His research interests include industrial process control, artificial intelligence, machine learning.
CHEN Ting, born in 1999, M. S. candidate. Her research interests include deep learning, pattern recognition, point cloud data processing.
TIAN Zhiqiang, born in 1996, Ph. D. candidate. His research interests include computer vision.