蔡文郁,劉一博,吳培鵬,盛慶華
(杭州電子科技大學(xué),電子信息學(xué)院,浙江 杭州 310018)
近年來,我國電網(wǎng)的基礎(chǔ)建設(shè)取得了迅速發(fā)展,電力巡檢的一項(xiàng)重要任務(wù)是檢測架空輸電線路的安全距離,巡檢常用的方法有激光測距[1-3]、圖像識別[4-5]等。 文獻(xiàn)[6-7]在巡檢無人機(jī)上使用圖像處理技術(shù)進(jìn)行目標(biāo)檢測和缺陷識別,但對于復(fù)雜環(huán)境或自然缺陷[8]樣本的識別較差。 文獻(xiàn)[9-10]通過GPS 定位獲得機(jī)載的位置后使用激光測距技術(shù)精確定位輸電線故障點(diǎn)位置,定位偏差約為0.1 m ~0.4 m。 由于激光測距具有精度高、測距時(shí)間快、測量結(jié)果直觀等特性,因此在線路巡檢量測中應(yīng)用最為廣泛。
雖然目前激光測距的研究已較為成熟,但在遠(yuǎn)距離電力巡檢等復(fù)雜環(huán)境下,易受到環(huán)境干擾,例如光學(xué)鏡頭引入的背景噪聲,天氣環(huán)境的影響,被測目標(biāo)的反射面情況,這些因素仍會影響測距精度。 由于電線圓柱體的特性,電線表面上不同位置對應(yīng)的反射角度不同,因此激光光斑打在電線反射面的不同位置,將導(dǎo)致回波信號強(qiáng)度和上升沿速度與墻目標(biāo)存在差異。 文獻(xiàn)[11-14]研究了被測目標(biāo)的距離、反射面,環(huán)境的光強(qiáng)、濕度等外部因素對激光測距誤差的影響。 文獻(xiàn)[15-17]使用了雙閾值時(shí)刻鑒別法、高通阻容時(shí)間鑒別法和多延遲觸發(fā)等方法消除回波強(qiáng)度變化引起的時(shí)間漂移誤差。 近年來,深度學(xué)習(xí)技術(shù)在激光測距領(lǐng)域有較多應(yīng)用,胡善江等[18]使用LeNet 模型解算回波時(shí)刻,Xu 等[19]使用CNN 模型自動學(xué)習(xí)回波信號的特征,但其真實(shí)環(huán)境下數(shù)據(jù)集的建立以及泛化能力仍值得探討。 因此,可以發(fā)現(xiàn),大小不同的測量目標(biāo)特征對測距結(jié)果有明顯的影響,必須進(jìn)行區(qū)分處理。 雖然上述研究對激光測距回波信號的反射特征進(jìn)行了初步研究,但是并沒有對以墻為典型的大目標(biāo)、以線為典型的小目標(biāo)實(shí)現(xiàn)目標(biāo)自動分類。
為了提高激光測距系統(tǒng)在電力巡檢場景下測量不同目標(biāo)物體的精度,本文研究了數(shù)據(jù)預(yù)處理濾波和統(tǒng)計(jì)機(jī)器學(xué)習(xí)分析方法,提出了一種基于機(jī)器學(xué)習(xí)的激光測距墻線目標(biāo)分類方法。 通過建立XGBoost+LR 墻線分類模型,使用XGBoost 模型進(jìn)行特征組合重構(gòu)訓(xùn)練集,使用RF 模型對稀疏訓(xùn)練集進(jìn)行特征篩選降低維度,最后采用LR 模型進(jìn)行線性區(qū)分,實(shí)現(xiàn)墻線等大小目標(biāo)的自動分類。
為了實(shí)現(xiàn)遠(yuǎn)距離測距,本文采用脈沖飛行時(shí)間(Time of Flight,TOF)激光測距技術(shù),并且引入多閾值誤差擬合修正方法[20]和自動增益控制電路[21]以提高測距精度和測距量程。 本文所研究的激光測距系統(tǒng)模型如圖1 所示。
圖1 激光測距系統(tǒng)模型
圖1 所示的數(shù)據(jù)采集模塊從激光測距儀硬件中獲得測量數(shù)據(jù),主要原理是控制電路觸發(fā)激光管發(fā)射脈沖并標(biāo)定為起始時(shí)刻tstart,自動增益控制電路根據(jù)回波信號幅值自動調(diào)整接收電路增益q,使其滿足大于閾值電壓V1的條件,而且標(biāo)定此時(shí)為停止時(shí)刻tend,時(shí)間測量模塊計(jì)算激光脈沖的飛行時(shí)間tend-tstart計(jì)算出離被測目標(biāo)的距離dist =c×(tendtstart)/2,式中c為光在真空中傳播速度3×108m/s。如圖1 所示,設(shè)定閾值電壓V2、V3,假設(shè)V2對應(yīng)時(shí)刻為t2,定義閾值時(shí)間差Δt用于修正補(bǔ)償距離,計(jì)算公式如下:
Δt值越小,波形上升沿時(shí)間越短,即更加接近于理想的高斯脈沖信號。 定義飽和度g用于判定波形是否飽和,當(dāng)波形幅值達(dá)到閾值電壓V3,判定為波形飽和,反之判定為波形不飽和。
因此,激光測距儀數(shù)據(jù)即為分類模塊的輸入樣本空間T{x1,x2,…,xN},每個(gè)樣本xi包含增益q、測量距離dist、閾值時(shí)間差Δt和飽和度g四個(gè)變量值。 由于系統(tǒng)固有的干擾和噪聲具有隨機(jī)不確定性,因此必須進(jìn)行數(shù)據(jù)預(yù)處理。 本文采用自適應(yīng)k-Means 算法,從含有噪聲的數(shù)據(jù)中聚類出有效數(shù)據(jù)作為新的樣本空間T′。
測量墻面等大目標(biāo)時(shí),回波信號幅值較大;測量電線等小目標(biāo)時(shí),回波信號幅值較小且上升沿緩慢[22]。 雖然墻線不同目標(biāo)的激光測距回波數(shù)據(jù)分布存在著差異,但是回波信號的差異經(jīng)過自適應(yīng)放大調(diào)理后,已經(jīng)無法直觀顯示不同測量目標(biāo)的區(qū)別。僅僅依靠電路增益、測量距離、閾值時(shí)間差等變量無法完全區(qū)分出測量目標(biāo),因此本文從樣本空間T′中計(jì)算了新的11 維特征向量f{X1,X2,…,X11},綜合使用XGBoost+LR 機(jī)器學(xué)習(xí)模型訓(xùn)練由J個(gè)特征向量f構(gòu)成的特征空間F{f1,f2,…,fJ},從而得到墻線二分類模型。 通過上述過程,輸出樣本空間T′和該樣本空間對應(yīng)的測量目標(biāo)標(biāo)簽y,最終對墻和線不同測量目標(biāo)進(jìn)行不同的修正處理方法。
經(jīng)實(shí)際數(shù)據(jù)測試與分析可以發(fā)現(xiàn),墻和線目標(biāo)主要存在以下差異:
①測量近距離墻等大目標(biāo)時(shí),回波信號基本飽和,即在較低增益下就可以得到較多的測距結(jié)果,測量出錯(cuò)次數(shù)較少,距離、閾值時(shí)間差等波動較小且穩(wěn)定。
②當(dāng)測量目標(biāo)為線等小目標(biāo)時(shí),回波信號幅值受實(shí)際測量距離、對準(zhǔn)等因素影響,電路增益較高,測距結(jié)果數(shù)量較少,測量出錯(cuò)次數(shù)相對較多。
根據(jù)以上測量差異,本文從樣本空間T′中提取出以下11 維數(shù)據(jù)特征,如表1 所示。
表1 特征數(shù)據(jù)
以下為各個(gè)特征數(shù)據(jù)在不同測試環(huán)境下的分布情況,圓形標(biāo)注的數(shù)據(jù)為測量目標(biāo)為線目標(biāo)的實(shí)際測量數(shù)據(jù),叉形標(biāo)注的數(shù)據(jù)為測量目標(biāo)為墻目標(biāo)時(shí)的實(shí)測測量數(shù)據(jù)。 圖2 表明在不同維度特征下不同測量目標(biāo)分布情況存在一定差異,但是單獨(dú)使用某一個(gè)維度特征無法完全實(shí)現(xiàn)墻線等目標(biāo)的自動分類。
圖2 墻目標(biāo)和線目標(biāo)的不同特征測試數(shù)據(jù)
云霧、雨滴、粉塵等對回波信號產(chǎn)生散射效應(yīng),同時(shí)太陽光中包含了測距激光所在波長段的能量干擾。 這些散射噪聲具有隨機(jī)性和不確定性,因此本文提出了一種自適應(yīng)k-Means 聚類算法,用以激光測距中噪聲數(shù)據(jù)的篩選與剔除。 圖3 為測試集1(100 m 測距情況)的閾值時(shí)間差數(shù)據(jù)分布情況,橫坐標(biāo)為距離dist 值,縱坐標(biāo)為閾值時(shí)間差Δt。 有效數(shù)據(jù)(label0,圖中圓形標(biāo)注)的測試結(jié)果較多且密集度高,由云霧、雨滴、粉塵等因素引起噪聲(如label1,圖中下三角標(biāo)注)的分布表現(xiàn)為局部密集,但數(shù)據(jù)量少于正常數(shù)據(jù),由太陽光等因素引起的噪聲,分布表現(xiàn)為空間范圍內(nèi)零散隨機(jī)出現(xiàn)。
圖3 測試集1(100 m 測距)數(shù)據(jù)分布圖
本文提出了一種自適應(yīng)k-Means 聚類算法,從含有噪聲的樣本空間中提取出干凈的有效樣本,主要步驟如下所示:
①通過計(jì)算樣本空間的密度參數(shù)來確定初始的聚類中心位置,避免因隨機(jī)選取初始聚類中心而造成的震蕩。
②以最快降低誤差平方和(Sum of Squared Error,SSE)為目的,自適應(yīng)調(diào)整聚類中心個(gè)數(shù),降低離群點(diǎn)對迭代過程的影響。 具體地,算法首先使用RobustScaler 方法[23]對樣本空間T{x1,x2,…,xN}進(jìn)行標(biāo)準(zhǔn)化處理,計(jì)算公式如下:
式中:Q(index)為數(shù)據(jù)x中索引index 的分位數(shù),Q(50)表示數(shù)據(jù)x的中位數(shù),Q(75)-Q(25)表示x的四分位距。 RobustScaler 方法相較于Min-Max 歸一化方法[24]降低了離群值對標(biāo)準(zhǔn)化的影響,相比ZScore 中心化方法[24]最大限度地保留了離群值特征。
③定義樣本xi局部密度函數(shù)Density(xi),其值為5 個(gè)最近鄰樣本距離xi的歐氏距離平均值。 將樣本空間中最密集點(diǎn)定義為第一個(gè)聚類中心C1,將最稀疏點(diǎn)定義為第二個(gè)聚類中心C2。
④迭代過程同K-Means,計(jì)算樣本xi與每個(gè)聚類中心的相似度(歐氏距離),并將樣本歸于最近的聚類中心Ck。 如果最大SSE 樣本的誤差大于設(shè)定閾值,則將該樣本定義為新的聚類中心,并更新此樣本的近鄰點(diǎn),以快速降低SSE 并減少離群點(diǎn)對聚類效果的影響。
⑤重復(fù)迭代過程,直到聚類中心不再更新或滿足迭代條件,輸出樣本最多的簇作為新的樣本空間T′。
本文使用XGBoost+LR 機(jī)器學(xué)習(xí)算法建立多特征融合的墻線分類模型,以解決墻線目標(biāo)之間的量化誤差問題和學(xué)習(xí)特征組合必要性的問題。 由于LR 模型對于特征組合上存在學(xué)習(xí)局限性,而GBDT模型正好可以用來挖掘特征之間的關(guān)聯(lián),將回歸樹中每個(gè)節(jié)點(diǎn)的分裂看作是自然的特征選擇過程,多層節(jié)點(diǎn)的結(jié)構(gòu)對特征進(jìn)行了有效的自動組合。GBDT+LR 結(jié)合模型[25]將LR 和GBDT 兩個(gè)模型相結(jié)合完善分類模型,GBDT 進(jìn)行特征組合,將數(shù)據(jù)高維化,使其變得線性可分,帶正則項(xiàng)的LR 線性模型對于高維的稀疏矩陣有很好的處理能力,并不容易過擬合。 XGBoost 使用牛頓法進(jìn)行梯度更新,對損失函數(shù)進(jìn)行了二階泰勒公式展開并加入了正則項(xiàng),獲得了比GBDT 更優(yōu)的運(yùn)算速度和精度。 本文以XGBoost模型代替GBDT+LR 結(jié)合模型中的GBDT 模型,同時(shí),由于XGBoost 輸出的特征組合向量高度稀疏,因此在LR 模型前加入一層RF 特征選擇層,以降低模型復(fù)雜度,圖4 為XGBoost+LR 結(jié)合模型框架。
圖4 XGBoost+LR 墻線分類模型
圖4 中XGBoost 模型對含有J個(gè)樣本的數(shù)據(jù)集T{(f1,y1),(f2,y2),…,(fJ,yJ)}進(jìn)行訓(xùn)練,得到含有M棵CART 決策樹的分類模型。 將樣本xi落在第m棵決策樹Tm的葉節(jié)點(diǎn)位置標(biāo)記為1,其余葉節(jié)點(diǎn)標(biāo)記為0,則可得到該棵樹的稀疏向量lm,組合M棵樹的稀疏向量構(gòu)成該樣本xi特征組合向量(li1,li2,…,liM),最終組合所有樣本點(diǎn)獲得新的訓(xùn)練數(shù)據(jù)集T{(l1,y1),(l2,y2),…,(lJ,yJ)}。
由上可知,對于復(fù)雜度(決策樹個(gè)數(shù))為complexity,深度(決策樹大小)為depth 的XGBoost 模型,其最大葉結(jié)點(diǎn)個(gè)數(shù)為complexity×2depth,其中標(biāo)記為1 的個(gè)數(shù)為complexity,構(gòu)成的新訓(xùn)練集高度稀疏,且這種稀疏程度受模型復(fù)雜度和深度影響,過大的特征維度將導(dǎo)致LR 分類器參數(shù)更新緩慢且易過擬合。 因此,在LR 分類模型訓(xùn)練前,本文使用隨機(jī)森林RF 算法對特征組合向量l進(jìn)行重要度評估,篩選出重要程度較高的部分特征,篩選閾值定義為:
篩選后的數(shù)據(jù)集縮小為T′,送入LR 分類器進(jìn)行訓(xùn)練得到墻線目標(biāo)二分類模型。
為衡量自適應(yīng)k-Means 算法相較k-Means、k-Means++對于激光測距對噪聲數(shù)據(jù)的剔除性能,本文使用輪廓系數(shù)Silhouette 和調(diào)整互信息AMI[26]作為評價(jià)指標(biāo)。 Silhouette 為內(nèi)部指標(biāo),反映了聚類內(nèi)緊湊程度和聚類外分散程度的差異。 AMI 為外部指標(biāo),計(jì)算預(yù)測標(biāo)簽和真實(shí)標(biāo)簽的互信息分?jǐn)?shù)來衡量相似程度。
表2 為三種k-Means 算法對3 個(gè)測試數(shù)據(jù)集聚類效果比較結(jié)果。k-Means++和自適應(yīng)k-Means 相較于k-Means 算法有更快的運(yùn)行時(shí)間,k-Means 采用隨機(jī)方式選取初始聚類中心位置,迭代后的聚類中心位置也存在一定隨機(jī)性,即陷入局部最優(yōu),這也造成了k-Means 算法在三個(gè)測試集下的調(diào)整互信息(準(zhǔn)確率)最低。 自適應(yīng)k-Means 相較于k-Means++能夠自適應(yīng)地確定最優(yōu)化的k值,從而調(diào)整聚類中心個(gè)數(shù),同時(shí)聚類中心的選取以快速下降SSE 為目的,因此對離群噪聲有更好的處理效果。
表2 三種k-Means 算法聚類效果比較
圖5 為三種k-Means 算法對測試集1(100 m 測距情況)的聚類效果比較,圖5(d)中自適應(yīng)k-Means設(shè)定了21 個(gè)聚類中心,因此同樣設(shè)定k-Means 和k-Means++的k值為21,另外增加了k值為10 的k-Means++對照組。 圖5(a)中k-Means 算法將有效數(shù)據(jù)(label0)分裂為多個(gè)簇,這與其隨機(jī)選取聚類中心有關(guān),初始聚類中心大概率選取在密集處。k-Means++相較于k-Means,初始聚類中心設(shè)置更加合理,但是k值無法自主確定:選取較小k值(k=10)時(shí)(如圖5(b)所示),噪聲數(shù)據(jù)被歸為有效數(shù)據(jù)集;選取較大k值(k=21)時(shí)(如圖5(c)所示),能較好地將有效數(shù)據(jù)分離出來,但是k值需要依靠人工經(jīng)驗(yàn)確定。 自適應(yīng)k-Means 算法在迭代中自動調(diào)整聚類中心個(gè)數(shù),彌補(bǔ)了k-Means 和k-Means++算法的缺陷,同時(shí)對離群噪聲點(diǎn)有很好的處理效果。
圖5 三種k-Means 算法對測試集1(100 m 測距)聚類效果
為了驗(yàn)證XGBoost+LR 分類器在線墻目標(biāo)分類的性能,本文通過k-Fold 交叉驗(yàn)證方式[27],將數(shù)據(jù)劃分成k份,其中1 份作為測試集,其余k-1 分用于訓(xùn)練模型。 分別使用邏輯回歸(Logistic Regression,LR)、隨機(jī)森林(Random Forest,RF)、梯度提升決策樹(Gradient Boosting Decision Tree,GBDT)、梯度提升決策樹+邏輯回歸(GBDT+LR)這4 種模型作為對比模型。
對于二分類問題,利用模型預(yù)測值和真實(shí)值計(jì)算混淆矩陣[28],以評價(jià)模型的性能,墻線二分類問題中混肴矩陣的描述如表3 所示。
表3 二分類問題判決表
評價(jià)二分類模型性能的指標(biāo)常采用準(zhǔn)確率Accuracy 和F1_Score 值[27],計(jì)算公式如下:
式中:Accuracy 表示預(yù)測的準(zhǔn)確率,即預(yù)測正確的樣本占總樣本的比例。 F1_Score 是對精確度Precision和召回率進(jìn)行綜合考慮得出的指標(biāo)。
ROC 曲線是分類器性能直觀的評價(jià)工具[28],以假陽性率(FPR)為橫坐標(biāo),真陽性率(TPR)為縱坐標(biāo),將預(yù)測為陽性的概率作為閾值,通過遍歷所有預(yù)測的概率,得到多組FPR 和TPR 的坐標(biāo)值,該曲線越靠近左上角延伸即曲線下方的面積AUC 值越大,表明分類器性能越好。 圖6 為不同模型對應(yīng)的一次ROC 曲線,LR 模型的AUC 為最低的0.918,說明單一學(xué)習(xí)器模型的性能遠(yuǎn)低于集成學(xué)習(xí)器模型。GBDT 模型相較于RF 模型,在建模策略上串行地?cái)M合上一決策樹的殘差,因此它的損失函數(shù)在每次迭代中局部降低,能更好地提高模型精度。 GBDT+LR和XGBoost+LR 模型的AUC 曲線面積最大,分別為0.993 和0.999,驗(yàn)證了在GBDT 或XGBoost 基礎(chǔ)上疊加LR 模型比僅使用GBDT 或XGBoost 模型獲得了更好的性能。
圖6 不同模型的ROC 曲線圖
表4 是不同模型的準(zhǔn)確率Accuracy、精確度Precision、召回率Recall、F1_Score 值和AUC 的對比結(jié)果。 從表4 可以看出,XGBoost+LR 模型的分類效果總體上優(yōu)于其他4 種模型,準(zhǔn)確率達(dá)到了98.3%,召回率Recall 和F1_Score 值分別達(dá)到了98.1%和98.2%,說明此模型具有很好的預(yù)測性能。 LR 模型的5 項(xiàng)指標(biāo)都最低,準(zhǔn)確率僅為85.8%,證明單憑線性系統(tǒng)無法完全區(qū)分測距數(shù)據(jù)集。 GBDT+LR、XGBoost+LR 的結(jié)合模型將數(shù)據(jù)引向高維化,使其變得線性可分,一定程度上提高了分類模型性能。 同時(shí)本文使用XGBoost 替代GBDT+LR 中的GBDT 模型進(jìn)行特征組合,并使用RF 篩選出重要的特征組合送入LR 分類器進(jìn)行訓(xùn)練,以期望提高模型精度和運(yùn)算速度。
表4 不同模型評價(jià)指標(biāo)對比
圖7 比較了GBDT+LR 和XGBoost+LR 模型的訓(xùn)練時(shí)間開銷與最大葉節(jié)點(diǎn)數(shù)量(模型復(fù)雜程度)關(guān)系曲線。 由圖7 可知,XGBoost+LR 模型的運(yùn)算速度優(yōu)于GBDT+LR 模型,而且隨著模型復(fù)雜程度的提升愈加明顯。 其一是因?yàn)閄GBoost 使用牛頓法二階逼近損失函數(shù)最優(yōu),獲得了更快的收斂速度,其二是使用RF 模型進(jìn)行特征組合的篩選,很大程度降低了XGBoost 模型輸出的稀疏矩陣維度,當(dāng)葉節(jié)點(diǎn)數(shù)為3 043 時(shí),經(jīng)RF 模型篩選后僅保留了64 維特征,LR 分類器也獲得了更快的收斂速度。
圖7 兩種模型的最大葉節(jié)點(diǎn)個(gè)數(shù)與時(shí)間開銷關(guān)系曲線
為驗(yàn)證墻線目標(biāo)自動分類方法對激光測距系統(tǒng)精度的影響,本文以TruPulse200 型號激光測距儀[29]為標(biāo)準(zhǔn),對比有無自動目標(biāo)分類時(shí)的測量誤差。 本文選取不同測試環(huán)境和天氣下的2 067 個(gè)樣本,其中1 056 個(gè)樣本被分類為線目標(biāo),1 011 個(gè)樣本被分為墻目標(biāo),線目標(biāo)樣本的測試范圍為20 m~120 m,墻目標(biāo)樣本的測試范圍為0 ~1 000 m,測試環(huán)境如圖8 所示。
圖8 實(shí)際測試場景
本文使用最小二乘法擬合距離、增益、閾值時(shí)間差關(guān)于真實(shí)距離(TruPulse200 激光測距儀結(jié)果)的曲線,通過測試得到2 067 個(gè)樣本的標(biāo)準(zhǔn)差曲線如圖9 所示。
圖9 有無墻線分類時(shí)激光測距的標(biāo)準(zhǔn)差曲線圖
圖9(a)為未進(jìn)行墻線分類時(shí)的測距標(biāo)準(zhǔn)差曲線,1 000 m 距離段的標(biāo)準(zhǔn)差維持在0 ~0.35 之間,圖9(b)和圖9(c)分別為進(jìn)行本文提出的墻線目標(biāo)自動分類方法后歸類為墻和線的測距標(biāo)準(zhǔn)差曲線,歸類為墻目標(biāo)時(shí)前100 m 的標(biāo)準(zhǔn)差在0 ~0.1 之間,100 m~900 m 的標(biāo)準(zhǔn)差在0 ~0.2 之間,歸類為線目標(biāo)時(shí)120 m 范圍內(nèi)標(biāo)準(zhǔn)差在0.05~0.25 之間。 通過對比有無使用墻線分類方法時(shí)的標(biāo)準(zhǔn)差,可以發(fā)現(xiàn)本文提出的墻線自動分類方法能有效提高測距精度,減小測量誤差,同時(shí)一定程度上降低了測量的數(shù)據(jù)抖動。 墻線自動分類方法能根據(jù)測量數(shù)據(jù)自動區(qū)分出測量目標(biāo)為墻或線,對墻目標(biāo)和線目標(biāo)采用不同的數(shù)據(jù)擬合方式,經(jīng)測試測量目標(biāo)為墻時(shí),標(biāo)準(zhǔn)差低于0.2 m,測量目標(biāo)為線時(shí)標(biāo)準(zhǔn)差低于0.25 m。
為了提高激光測距系統(tǒng)在電力巡檢場景下測量不同目標(biāo)物體的精度,本文提出了一種基于機(jī)器學(xué)習(xí)的激光測距墻線目標(biāo)分類方法。 針對散射噪聲問題,在數(shù)據(jù)預(yù)處理階段提出了一種自適應(yīng)k-Means聚類算法,基于密度確定初始聚類中心并在迭代過程自適應(yīng)調(diào)整k值,實(shí)驗(yàn)驗(yàn)證本方法能較好處理離群噪聲數(shù)據(jù),篩選出有用數(shù)據(jù)。 針對墻線目標(biāo)分類問題,本文了建立了XGBoost+LR 墻線分類模型,使用XGBoost 模型進(jìn)行特征組合重構(gòu)訓(xùn)練集,使用RF模型對稀疏訓(xùn)練集進(jìn)行特征篩選,降低維度,最后使用LR 模型進(jìn)行線性區(qū)分。 經(jīng)測試驗(yàn)證,XGBoost+LR 墻線自動分類的準(zhǔn)確率達(dá)到98.2%,較GBDT+LR 模型提高了1.3%,運(yùn)算速度提升明顯。