邢艷秋,蔡碩,汪獻(xiàn)義,2
(1.東北林業(yè)大學(xué) 森林作業(yè)與環(huán)境研究中心,哈爾濱 150040;2.長沙智能駕駛研究院,長沙 410000)
激光雷達(dá)是以發(fā)射激光束探測目標(biāo)的位置、速度等特征量的雷達(dá)系統(tǒng),依據(jù)搭載平臺的不同可分為星載雷達(dá)、機(jī)載雷達(dá)、車載雷達(dá)、地面激光雷達(dá)等多種類別,這些激光雷達(dá)在相應(yīng)的應(yīng)用場景中都具有特定的優(yōu)勢[1]。相較而言,地面激光雷達(dá)(terrestrial laser scanning,TLS)能夠獲取掃描目標(biāo)的高精度三維信息,被大量應(yīng)用于眾多三維建模的逆向工程中[2]。在林業(yè)研究中,有較多研究者基于地面激光雷達(dá)展開林業(yè)參數(shù)提取[3]、樹干提取[4]與建模[5-6]、單木分割[7]等研究,將點云快速地分為地面、樹干與枝葉可為上述研究奠定基礎(chǔ),所以研究林分點云分類具有重要意義。
現(xiàn)階段點云分類多分為逐點分類、基于分割的分類與基于多實體的分類。逐點分類需要遍歷點計算特征,在大場景分類過程中這種特征計算方式的效率較為低下[8];基于多實體的分類方式多應(yīng)用于機(jī)載點云分類的研究[9-10],且過程較為復(fù)雜?;诜指畹姆诸愑谢诜指蠲嫫o助的點云分類與基于體素分割的點云分類。Zhang等[11]研究了基于分割面片輔助的點云分類,其在分類過程中首先采用區(qū)域生長法將點云分割成相對獨立的面片,然后計算這些面片關(guān)于幾何特性、輻射強(qiáng)度特性、回波特性與拓?fù)潢P(guān)系的一系列特征訓(xùn)練支持向量機(jī)實現(xiàn)點云分類[12]。這種分割方式多適用于面特征比較多的城市場景中,林地中局部點云形狀多不規(guī)則,使用基于分割面片的分割方式往往不能達(dá)到較好的分割效果,且在大場景中面片分割效率較低。基于體素分割的方式過程較為簡單且能夠兼顧算法效率,如Wang等[13]研究了基于體素分割的城市建筑分類,其在分類過程中先將點云分割到相對獨立的體素中,然后設(shè)計了相關(guān)先驗信息定義這些體素的垂直與水平特性,并依據(jù)垂直與水平特性將這些體素融合為一個個體素群,最終通過計算這些體素群的線度、面度與球度實現(xiàn)城市建筑群的分類。分析分類結(jié)果發(fā)現(xiàn),這種分割方式基本能夠完全識別高大建筑群,而對一些相對低矮的建筑識別率僅為86.3%,這主要是由于高大建筑面特性明顯,低矮建筑形狀大多較為復(fù)雜,并不是規(guī)則的線狀、面狀或球狀。相較于城市建筑,林地目標(biāo)形狀多不規(guī)則,實現(xiàn)點云分類挑戰(zhàn)更大。
綜上所述,本研究提出一種基于多尺度近鄰體素特征的地基激光雷達(dá)林分點云分類方法。在分類過程中,基于特征選擇獲得了能夠滿足與本研究分類場景的六個特征,然后通過多尺度分割點云并分別計算相應(yīng)尺度下的每個體素與九個近鄰體素構(gòu)成的局部點的特征獲得高維特征,最終利用該特征訓(xùn)練LightGBM(light gradient boosting machine)獲得分類器模型,并將其應(yīng)用于測試集實現(xiàn)點云分類。在大場景分類過程中,特征的計算效率尤為重要,為此本研究實現(xiàn)了兩種特征估計方式,分別為基于分割的近鄰體素特征與基于分割的近鄰體素重心特征。
本研究的地面激光雷達(dá)設(shè)備為徠卡Scanstation C10,具體儀器參數(shù)見表1。
表1 三維激光掃描儀技術(shù)參數(shù)
本研究的數(shù)據(jù)采集自東北林業(yè)大學(xué)實驗林場的蒙古櫟(quercusmongolica)人工林(圖1)。該樣地地形簡單平坦,林下灌木較少,單木間隔約為3 m,單木胸徑與樹高均值分別為13.55 cm與9.98 m。數(shù)據(jù)采集時間為2016年6月,樣地尺寸為20 m×20 m,在掃描過程中共架設(shè)五個掃描站,即A1~A5站(圖2),A1~A4站分別架設(shè)在方形樣地的四個角點,A5站為樣地中心,掃描角度為360°,其余測站為定向掃描。
圖1 蒙古櫟人工林
圖2 掃描站布設(shè)
訓(xùn)練分類器過程中需要用到訓(xùn)練樣本、驗證樣本與測試樣本。訓(xùn)練樣本用于訓(xùn)練分類器,驗證樣本用于判斷分類器訓(xùn)練過程中是否出現(xiàn)過擬合或欠擬合。鑒于五個掃描站掃描數(shù)據(jù)屬于一塊樣地,數(shù)據(jù)相似,掃描站A5的數(shù)據(jù)量更大,所以訓(xùn)練樣本與驗證樣本從A5掃描站數(shù)據(jù)中隨機(jī)抽取10%,掃描站A1~A4中選擇一個站作為測試樣本。
1)點云特征。點云特征是點云分類任務(wù)的關(guān)鍵,好的特征對不同的類別區(qū)分度較高[14]。在目前的研究中,大多數(shù)研究者是根據(jù)經(jīng)驗盡可能多地構(gòu)造特征訓(xùn)練分類器[15-16]。本研究數(shù)據(jù)量較大且需要計算不同尺度下的點云特征,若構(gòu)造較多的經(jīng)驗特征對運(yùn)行內(nèi)存要求較高且對分類器訓(xùn)練效率影響較大[17]。針對這一問題,在處理某一固定場景下的分類任務(wù)時較多研究者往往通過特征選擇實現(xiàn)特征降維,這樣在避免盲目構(gòu)造特征的同時又能夠兼顧分類器性能。本研究先構(gòu)造19個經(jīng)驗特征,然后使用xgboost特征選擇技術(shù)實現(xiàn)特征降維[17],在保證分類器性能的前提下在特征選擇過程中保留了六個特征,其定義如式(1)所示。
(1)
式中:Pz表示當(dāng)前點Z坐標(biāo);NDSM表示歸一化數(shù)字表面模型;Gz表示當(dāng)前點地面投影點Z坐標(biāo)估計值;V表示垂直度;Oλ表示全向方差;λ1>λ2>λ3>0為近鄰點主成分分析對應(yīng)的歸一化特征值;ΔZk-NN表示臨近點的Z坐標(biāo)最大差值,其中k-NN表示快速最近鄰搜索;Zmax與Zmin表示對應(yīng)臨近點的最大最小Z坐標(biāo)值;λ1,2D與λ2,2D表示近鄰點在二維XY平面上XY軸坐標(biāo)值的主成分分析對應(yīng)的特征值。
2)多尺度體素分割構(gòu)造特征。點云搜索方式是構(gòu)造特征效率的關(guān)鍵??紤]到在局部較小空間中的點數(shù)據(jù)多屬于同一類別,點特征基本相同,所以有研究者考慮使用體素分割進(jìn)行點云分類。那么在計算特征的過程中每個體素只需要計算一次特征即可,這樣既可以有效克服數(shù)據(jù)冗余又可以提升特征的計算效率。同時,在分割過程中要考慮分割尺度,小尺度的點云分割能夠分離出空間分布相對緊密的類別,大尺度的點云分割可以將連通域較寬的類別分割成相同的體素。所以,使用單一尺度分割點云很難兼顧點云的局部類別與整體分布。采用點云的多尺度分割不僅可以解決上述問題,而且能增加特征維數(shù),有利于提高分類器的性能。
在點云分割過程中會存在兩種情況。情況一是單一體素數(shù)據(jù)較少,無法完成特征計算,這主要由孤立點或局部點集密度較為稀疏造成;情況二是單一體素會將部分連通區(qū)域分割開來,造成估計的特征穩(wěn)定性降低,比如某10 cm厚度的樹干可能被分割到兩個10 cm×10 cm×10 cm的體素中?;谏鲜隹紤],本研究在每個分割尺度中遍歷體素中心,搜索九個近鄰體素內(nèi)的點集參與計算當(dāng)前體素點特征,這樣既能克服單個體素數(shù)據(jù)較少的情況又能兼顧局部點集的連通性。同時,考慮到近鄰體素的重心能夠近似局部點集的分布,為了提升特征計算效率,用近鄰體素點云計算當(dāng)前體素點特征的同時還實現(xiàn)了使用近鄰體素重心估計當(dāng)前體素特征。
本研究的體素分割基于八叉樹實現(xiàn)[18]。考慮到林地單木間平均間隔與局部連通區(qū)域的樹干長度,分割尺度為2×3ncm(n∈0,1,2,3),即4個分割尺度,最小最大體素邊長分別為2 cm×2 cm×2 cm與54 cm×54 cm×54 cm。基于特征選擇獲得的六個特征中特征Z與NDSM不需要通過近鄰關(guān)系構(gòu)造,所以僅有剩下的四個特征參與多尺度分割。在遍歷四個尺度分割計算特征之后,每個點使用18個特征表示。
3)LightGBM分類器。LightGBM[19]是一種輕量級改進(jìn)的梯度提升決策樹(gradient boosted decision trees,GBDT)[20],且通過計算樣本在每個決策樹的得分和來估計類別。現(xiàn)階段眾多基于決策樹的分類器都能夠較好地完成分類任務(wù),比如經(jīng)典的隨機(jī)森林[21]或者被較多機(jī)器學(xué)習(xí)研究者視為baseline的xgboost[22]。但在大數(shù)據(jù)集分類任務(wù)中,這些分類器訓(xùn)練效率往往較慢。針對這一問題,LightGBM中引入了數(shù)據(jù)壓縮與特征降維技術(shù),以減少很小的精度為代價提高算法效率。特征降維是將數(shù)據(jù)集中的稀疏互斥特征合并為一個特征。本研究沒有稀疏特征,所以不使用LightGBM的特征降維技術(shù)。
在訓(xùn)練決策樹過程中,葉子節(jié)點的分裂方式非常關(guān)鍵,LightGBM通過信息增益來控制節(jié)點分裂。信息增益指決策樹在某一節(jié)點按某一特征將樣本分配到左右子節(jié)點對目標(biāo)函數(shù)的貢獻(xiàn),信息增益越大表示按照這種分裂方式的置信度越高。在訓(xùn)練過程中,LightGBM要先遍歷特征計算使信息增益達(dá)到最大的分裂點,最終依據(jù)特征索引與使信息增益達(dá)到的最大的分裂點將樣本分配到左右子節(jié)點中。本研究在訓(xùn)練LightGBM時使用100個梯度決策樹,每個決策樹最大葉子節(jié)點數(shù)量設(shè)置為64個。
在完成分類之后,需要采用一定的準(zhǔn)則定性分析分類器的精度。衡量分類器性能,分別從分類器的準(zhǔn)確率、查準(zhǔn)率、召回率、F1分?jǐn)?shù)與F1均值(MF1)進(jìn)行評估。準(zhǔn)確率用于分類器表現(xiàn)直觀估計,查準(zhǔn)率與召回率用于評價分類器在某類上的表現(xiàn)。由于難以用兩個量衡量分類器在某一類別上的表現(xiàn),研究者引入F1。通常還采用MF1衡量分類器的總體表現(xiàn),其值越大表示分類器分類效果越好。
本研究分別實現(xiàn)了基于多尺度近鄰體素點云特征與基于多尺度近鄰體素重心點特征的林分點云分類研究。本節(jié)就基于不同特征的分類器性能及分類性能較好的分類結(jié)果展開分析。
表2統(tǒng)計了多尺度近鄰體素點特征與多尺度近鄰體素重心特征的特征計算性能,其中涉及到占比的部分均為相應(yīng)特征計算方式中測試集與訓(xùn)練集的比值;效率提升表示基于近鄰體素重心的特征計算方式關(guān)于測試集與訓(xùn)練集節(jié)約的特征計算時間與基于近鄰體素點特征計算方式所用時間的比值;體素數(shù)量表示四個體素分割尺度下得到體素數(shù)量的和;特征估計用時表示相應(yīng)數(shù)據(jù)集特征計算耗時。仔細(xì)分析在對應(yīng)的計算方式中兩種數(shù)據(jù)集的特征估計用時比值與點云數(shù)量的比值近似,與體素分割數(shù)量占比差異較大,表明兩種特征計算方式下特征計算效率與點云的數(shù)量正相關(guān)。由表2易知,基于近鄰體素重心的方式特征計算效率明顯提高,在訓(xùn)練集與測試集中基于近鄰中心計算特征的方式特征計算效率分別提高22.22%與22.58%,效率提升的幅度相近,說明特征計算效率提升程度也與點云數(shù)量正相關(guān)。
表2 不同特征計算性能分析
表3統(tǒng)計了兩種特征計算方式下LightGBM關(guān)于測試集的分類結(jié)果,基于近鄰體素點與近鄰體素重心點特征的分類器準(zhǔn)確率與MF1分別為0.968 4、0.972 3與0.964 6、0.969 3。兩種分類器的性能相近,同時容易發(fā)現(xiàn)基于這兩種特征訓(xùn)練分類器均能夠較好地實現(xiàn)林分點云分類任務(wù)。在本研究中,以特征選擇獲得的六個特征為基礎(chǔ)進(jìn)行多尺度體素分割計算獲得的特征幾乎能夠正確識別所有的地面點,錯誤識別樹干與枝葉的點數(shù)量占比均為0.05。表4統(tǒng)計了基于兩種特征分類器應(yīng)用于測試樣本的混淆矩陣與錯估統(tǒng)計。其中,錯估總占比表示錯估數(shù)量與測試樣本數(shù)據(jù)總量的比值。不難發(fā)現(xiàn),分類器能夠識別大多的地面點云,錯估大多來自于枝葉與樹干類別,部分地面與樹干產(chǎn)生錯誤估計。
表3 不同特征的分類器性能
綜合2.1節(jié)分析發(fā)現(xiàn),基于近鄰體素點特征訓(xùn)練的分類器性能略優(yōu)于基于近鄰體素重心點特征的分類器,所以此處僅針對基于前者特征的分類器表現(xiàn)展開探討。圖3分別展示了本研究的訓(xùn)練樣本(圖3(a))與分類器關(guān)于測試集的分類結(jié)果(圖3(b)),圖中灰色、紅色與綠色分別表示地面、樹干與枝葉。圖4給出了部分分類結(jié)果的細(xì)節(jié)圖(黑框表示錯分類別區(qū)域),顏色表示的類別與圖3相同。
圖3 訓(xùn)練樣本與分類結(jié)果
由圖3(b)易知,分類器基本正確識別了大多地面、樹干與枝葉三個類別的點云。由表4易知,大多錯分來自樹干與枝葉,在地面與樹干間也存在部分錯分的狀況。結(jié)合圖4(a)發(fā)現(xiàn),錯分的地面與樹干主要來自于兩個類別在空間的交匯處。由于掃描儀的垂直視場有限,距離掃描儀較近的單木多沒有樹冠數(shù)據(jù),結(jié)合圖4(c)發(fā)現(xiàn),在沒有樹冠且附近枝葉較多的單木頂部容易將樹干標(biāo)記為枝葉點,在附近沒有枝葉數(shù)據(jù)的單木頂部則能夠正確識別樹干(圖4(b))。在樹干產(chǎn)生枝干處,分類器也容易將部分枝葉點標(biāo)記為樹干點(圖4(d)),這主要由于部分枝干點特征與樹干相近造成。同時分析圖4的細(xì)節(jié)圖容易發(fā)現(xiàn),基于分割特征的分類器標(biāo)記的點云類別間能夠保證較好的連通性。
表4 測試樣本的混淆矩陣與錯估統(tǒng)計
圖4 分類結(jié)果細(xì)節(jié)圖
本研究通過計算不同分割尺度下近鄰體素點集構(gòu)造18維特征訓(xùn)練LightGBM分類器實現(xiàn)了林分地基激光雷達(dá)點云的分類。在特征計算過程中,為了盡量提高特征計算效率,實現(xiàn)了基于近鄰體素點與基于近鄰體素重心的兩種特征計算方式,得到以下結(jié)論。
1)基于多尺度分割計算的近鄰特征能夠有效應(yīng)用于大場景的林分點云分類任務(wù)。本研究分類準(zhǔn)確率MF1分別達(dá)到96.84%與96.23%,地面點識別率接近100%,錯分類主要集中在樹干與枝葉間。
2)基于多尺度分割計算點云特征效率較高,同時使用對應(yīng)分割尺度下近鄰體素重心近似體素點參與特征計算可有效提高特征計算效率。本研究的訓(xùn)練集與測試集數(shù)據(jù)量分別為3 521 927與2 024 875,基于多尺度近鄰體素點計算特征用時分別為54 s與31 s,每秒可以穩(wěn)定完成65 000點特征計算;基于多尺度近鄰體素重心計算計算特征用時分別為42 s與24 s,每秒可以近似完成84 000個點特征的估計。
3)基于本研究構(gòu)造的特征訓(xùn)練分類器在類別間的空間交匯處容易產(chǎn)生錯誤估計。結(jié)合圖4的錯分細(xì)節(jié)圖易知,本研究錯誤分類多集中于類別間空間存在交集處。
相較于Wang等城市建筑目標(biāo)分類研究,本研究點云分類方式過程簡單,特征計算過程中引入?yún)?shù)較少。同時,人為建筑場景中,大多目標(biāo)局部空間呈現(xiàn)狀或面狀分布,本研究林分點云分類的場景變化較大需要考慮的因素多,點云分類任務(wù)穩(wěn)定性較高,分類準(zhǔn)確率穩(wěn)定,居于0.96以上。本研究在特征計算過程中僅需要引入分割尺度及搜索對應(yīng)尺度搜索近鄰體素數(shù)量,在運(yùn)行成本允許的情況下可以構(gòu)造較多尺度特征,兼顧了點云的局部與整體分布。同時,引入的近鄰體素重心近似局部點云分布計算特征的方式可有效提高特征計算效率,在分類過程中基于其訓(xùn)練的分類器準(zhǔn)確率與MF1為0.964 6與0.969 3,分類器性能相較于基于近鄰體素點特征的分類器僅降低了千分級,在大數(shù)據(jù)集大場景的點云分類任務(wù)中具有一定的借鑒意義。
同時,本研究的基于分割計算特征過程中需要考慮近鄰體素搜索數(shù)量,這個參數(shù)對分類器性能與特征計算效率均有較大的影響。一般而言,這個值相對獲取的大點集多計算的特征較為穩(wěn)定,然而太大則容易降低特征計算效率。所以,為了兼顧特征計算效率與分類器性能,本研究近鄰搜索值設(shè)置為9。相對而言,這只是一個經(jīng)驗值,本研究并沒有設(shè)計實驗探究其最優(yōu)值。本研究的錯分類多集中于類別間空間交匯處,在后續(xù)的研究中,將從特征搜索方式及構(gòu)造更好的特征方面展開探究,以期進(jìn)一步提高點云分類準(zhǔn)確率。