溫亞楠,張志華,慕號(hào)偉,田德宇,王筱宇
(1.蘭州交通大學(xué) 測(cè)繪與地理信息學(xué)院,甘肅 蘭州 730070; 2.地理國(guó)情監(jiān)測(cè)技術(shù)應(yīng)用國(guó)家地方聯(lián)合工程研究中心,甘肅 蘭州 730070;3.甘肅省地理國(guó)情監(jiān)測(cè)工程實(shí)驗(yàn)室,甘肅 蘭州 730070; 4.中科院西北生態(tài)環(huán)境資源研究院,甘肅 蘭州 730000)
滑坡是世界范圍內(nèi)發(fā)生的最主要的地質(zhì)災(zāi)害,其嚴(yán)重威脅著人類的生命財(cái)產(chǎn)安全[1]?;略谥袊?guó)廣泛分布,僅在2019年全國(guó)共發(fā)生滑坡4 220起,占地質(zhì)災(zāi)害總數(shù)的68.27%,造成了巨大的破壞[2]。及時(shí)發(fā)布滑坡預(yù)警信息有助于疏散民眾,從而減少由此造成的生命財(cái)產(chǎn)損失。為了降低滑坡災(zāi)害對(duì)人類的威脅,相關(guān)國(guó)家和組織通過(guò)響應(yīng)《2015-2030年仙臺(tái)減少災(zāi)害風(fēng)險(xiǎn)框架》和《2030年可持續(xù)發(fā)展議程》,共同推進(jìn)構(gòu)建自然災(zāi)害風(fēng)險(xiǎn)防范協(xié)同機(jī)制[3],積極開展滑坡預(yù)測(cè)預(yù)警研究,及時(shí)采取相應(yīng)的防災(zāi)減災(zāi)措施。
在20世紀(jì)60年代滑坡時(shí)間預(yù)測(cè)[4]被提出后的10年間,國(guó)內(nèi)外專家學(xué)者開始將滑坡預(yù)測(cè)研究方向由時(shí)間預(yù)測(cè)擴(kuò)展到空間預(yù)測(cè),并且取得了較好的成果?;驴臻g預(yù)測(cè)分為確定性預(yù)測(cè)和非確定性預(yù)測(cè)。確定性預(yù)測(cè)是通過(guò)力學(xué)計(jì)算模型結(jié)合基礎(chǔ)地理信息預(yù)測(cè)滑坡災(zāi)害,但只適用于小范圍預(yù)測(cè)[5]。非確定性預(yù)測(cè)是通過(guò)結(jié)合歷史滑坡數(shù)據(jù)與滑坡誘發(fā)因子來(lái)預(yù)測(cè)不同尺度區(qū)域的滑坡災(zāi)害,具體分為滑坡知識(shí)驅(qū)動(dòng)模型和滑坡數(shù)據(jù)驅(qū)動(dòng)模型[6]。相關(guān)研究通過(guò)GIS技術(shù)分別結(jié)合知識(shí)驅(qū)動(dòng)模型中的層次分析法[7]以及數(shù)據(jù)驅(qū)動(dòng)模型中的CF多元回歸和神經(jīng)網(wǎng)絡(luò)模型[8],綜合多種滑坡誘發(fā)因子對(duì)滑坡災(zāi)害敏感區(qū)域進(jìn)行空間預(yù)測(cè)。對(duì)比這兩種方法,數(shù)據(jù)驅(qū)動(dòng)方法可以更好地通過(guò)定量方式預(yù)測(cè)不同等級(jí)的滑坡敏感區(qū)域,取得了較好的預(yù)測(cè)結(jié)果。此外,海量多源數(shù)據(jù)結(jié)合數(shù)據(jù)驅(qū)動(dòng)中的BP神經(jīng)網(wǎng)絡(luò)方法提取了滑坡誘發(fā)因子,滑坡易發(fā)性等級(jí)評(píng)價(jià)較準(zhǔn)確,滑坡空間預(yù)測(cè)精度較高[9-10]。支持向量機(jī)、隨機(jī)森林、回歸樹等機(jī)器學(xué)習(xí)方法結(jié)合多源數(shù)據(jù)在滑坡空間預(yù)測(cè)中同樣表現(xiàn)出較為準(zhǔn)確的預(yù)測(cè)性能[11-13]。隨著物聯(lián)網(wǎng)和傳感器技術(shù)的快速發(fā)展,多學(xué)科領(lǐng)域與多途徑聯(lián)合探索及動(dòng)態(tài)觀測(cè)為滑坡預(yù)測(cè)預(yù)警提供了動(dòng)態(tài)多源觀測(cè)數(shù)據(jù),主要包含了滑坡發(fā)生過(guò)程的復(fù)雜時(shí)空變化信息、滑坡誘發(fā)因素,同時(shí)可以反映滑坡形變表現(xiàn)。天空地協(xié)同觀測(cè)數(shù)據(jù)驅(qū)動(dòng)模擬分析方法,可以實(shí)現(xiàn)復(fù)雜地形地質(zhì)條件下滑坡災(zāi)害模擬分析[14]。地質(zhì)災(zāi)害自動(dòng)檢測(cè)預(yù)警系統(tǒng),通過(guò)結(jié)合多源數(shù)據(jù)和數(shù)據(jù)驅(qū)動(dòng)方法成功預(yù)測(cè)了黑方臺(tái)陳家6#滑坡[15]。另外,基于全球定位導(dǎo)航技術(shù)與合成孔徑雷達(dá)干涉技術(shù)總結(jié)了高精度空間檢測(cè)技術(shù)并且在2019年10月5日成功預(yù)報(bào)了黑方臺(tái)突發(fā)性黃土滑坡[16]。
本文從數(shù)據(jù)驅(qū)動(dòng)的角度進(jìn)行滑坡空間預(yù)測(cè)研究,基于谷歌地球引擎平臺(tái)(GEE)的動(dòng)態(tài)多源遙感數(shù)據(jù),結(jié)合支持向量機(jī)(SVM)、隨機(jī)森林(RF)分類算法以及主成分分析(PCA)數(shù)據(jù)降維算法、特征遞歸消除(RFE)數(shù)據(jù)篩選算法,提出了一種動(dòng)態(tài)多源遙感數(shù)據(jù)驅(qū)動(dòng)模式下的滑坡預(yù)測(cè)模型,然后計(jì)算對(duì)比兩種分類器以及數(shù)據(jù)降維、數(shù)據(jù)篩選后兩種分類器的預(yù)測(cè)精度和泛化能力,并且通過(guò)受試者工作特征曲線(ROC曲線)的曲線下面積量化值(AUC值)評(píng)價(jià)預(yù)測(cè)模型,選出最優(yōu)滑坡預(yù)測(cè)模型。
為了確保研究數(shù)據(jù)的真實(shí)性和科學(xué)性,試驗(yàn)數(shù)據(jù)來(lái)自國(guó)家自然資源部地質(zhì)災(zāi)害災(zāi)情險(xiǎn)情報(bào)告,并獲取了2016年6月到2019年8月間全國(guó)(不包含港澳臺(tái)地區(qū))175個(gè)樣本數(shù)據(jù),包含75個(gè)滑坡樣本和100個(gè)非滑坡樣本,其中西南地區(qū)71個(gè)樣本,西北地區(qū)25個(gè)樣本,中南東南地區(qū)68個(gè)樣本,西北地區(qū)5個(gè)樣本,其它地區(qū)6個(gè)樣本。另外,非滑坡樣本參考滑坡樣本發(fā)生地點(diǎn)選取,同時(shí)試驗(yàn)對(duì)獲取數(shù)據(jù)的經(jīng)緯度坐標(biāo)進(jìn)行了地理編碼處理。如圖1所示,試驗(yàn)將地理編碼處理后的經(jīng)緯度坐標(biāo)輸入GEE平臺(tái),動(dòng)態(tài)獲取需要時(shí)間范圍內(nèi)的影像以及篩選相應(yīng)的波段。關(guān)于GEE平臺(tái)的詳細(xì)內(nèi)容可以查詢其官網(wǎng)。
考慮不同誘發(fā)因子對(duì)滑坡的影響[17-18],試驗(yàn)參考樣本數(shù)據(jù)選擇災(zāi)前和無(wú)災(zāi)的動(dòng)態(tài)多源遙感數(shù)據(jù)集,其中將離滑坡災(zāi)害發(fā)生日期最近的災(zāi)前遙感影像作為災(zāi)前遙感數(shù)據(jù)。如表1,每個(gè)樣本點(diǎn)包含了災(zāi)前16景遙感影像,共92個(gè)波段,滑坡點(diǎn)選取災(zāi)前影像,非滑坡點(diǎn)參考滑坡發(fā)生地選取某一無(wú)災(zāi)日期前的影像,數(shù)據(jù)集共選取了2 800景遙感影像。因此,試驗(yàn)將原始數(shù)據(jù)集構(gòu)建成175×92的特征向量,并將其按照7∶3的比例隨機(jī)劃分為訓(xùn)練集和驗(yàn)證集。
注:本圖制作基于國(guó)家自然資源部標(biāo)準(zhǔn)地圖服務(wù)網(wǎng)站下載的國(guó)家標(biāo)準(zhǔn)地圖,審圖號(hào)為GS(2019)1815號(hào),底圖未作修改。
表1 誘發(fā)因子Table 1 Inducing factors
其中,Sentinel-1幅寬干涉模式的VH極化波段和VV極化波段,可以廣泛地應(yīng)用于地表形變監(jiān)測(cè)。Sentinel-2的多光譜數(shù)據(jù)可以有效檢測(cè)地表反射條件和植被覆蓋信息,同時(shí)也包含了云掩膜信息,為滑坡預(yù)測(cè)提供有效參考。降水是導(dǎo)致滑坡災(zāi)害最大的外在因素[19],GPM降水?dāng)?shù)據(jù)產(chǎn)品每30分鐘進(jìn)行一次觀測(cè),每3小時(shí)提供一次全球雨雪觀測(cè),可以及時(shí)提供降水信息。MCD12Q1土地覆蓋類型數(shù)據(jù)和SRTM DEM數(shù)據(jù)產(chǎn)品可以充分表達(dá)出地形地貌條件,在一定程度上體現(xiàn)了滑坡點(diǎn)的內(nèi)部地質(zhì)結(jié)構(gòu)。此外,試驗(yàn)還把地表晝夜溫度、土壤濕度和土壤溫度等因素加入滑坡誘發(fā)因子。需要注意的是,試驗(yàn)選擇的動(dòng)態(tài)多源遙感數(shù)據(jù)在GEE平臺(tái)進(jìn)行預(yù)處理,如Sentinel-2多光譜影像是經(jīng)過(guò)GEE預(yù)處理的一級(jí)產(chǎn)品,所選影像產(chǎn)品可以直接進(jìn)入模型計(jì)算。考慮滑坡影響的地理范圍,試驗(yàn)在GEE平臺(tái)上通過(guò)構(gòu)建半徑為10公里的圓形緩沖區(qū)對(duì)不同來(lái)源的遙感影像進(jìn)行裁剪,并取其平均值作為試驗(yàn)的數(shù)據(jù)集。本研究將所有數(shù)據(jù)的分辨率采樣至10 m,保證將所有數(shù)據(jù)的分辨率統(tǒng)一至其最高分辨率,并通過(guò)GEE平臺(tái)內(nèi)置算法統(tǒng)一坐標(biāo)系,保證每個(gè)像素代表相同的地表范圍。
基于動(dòng)態(tài)多源數(shù)據(jù)驅(qū)動(dòng)模式進(jìn)行滑坡空間預(yù)測(cè)的基本思路是通過(guò)對(duì)比分析全國(guó)區(qū)域內(nèi)未發(fā)生滑坡和發(fā)生滑坡前的動(dòng)態(tài)多源遙感數(shù)據(jù)像素值,通過(guò)機(jī)器學(xué)習(xí)特征優(yōu)選算法和分類算法歸納出其中的像素值差異并進(jìn)一步構(gòu)建滑坡預(yù)測(cè)模型。試驗(yàn)流程圖如圖2所示,主要由數(shù)據(jù)獲取(滑坡和非滑坡點(diǎn)數(shù)據(jù)、動(dòng)態(tài)多源遙感數(shù)據(jù))、特征優(yōu)選、滑坡分類預(yù)測(cè)和精度評(píng)價(jià)4個(gè)部分構(gòu)成。
圖2 試驗(yàn)流程圖Fig.2 Experimental flow chart
本文滑坡和非滑坡數(shù)據(jù)由92個(gè)維度構(gòu)成,其中包括噪聲和相關(guān)性較差的特征,因此試驗(yàn)選用PCA算法和RFE算法對(duì)研究中的數(shù)據(jù)集分別進(jìn)行降維和篩選處理。PCA算法從高維度數(shù)據(jù)保留最重要的一系列特征,去除噪聲和相關(guān)性較差的特征,保留前N個(gè)主成分,使其累計(jì)貢獻(xiàn)率滿足一定要求,形成新的特征。這些特征既能代表原始數(shù)據(jù)集的絕大多數(shù)信息,又互不相關(guān),并且可以代替原始數(shù)據(jù)進(jìn)一步統(tǒng)計(jì)分析[20]。試驗(yàn)最終保留了累計(jì)貢獻(xiàn)率前90%的主成分,共15個(gè),其中PC1-PC15的貢獻(xiàn)度分別為23.58%、12.34%、10.14%、8.56%、7.07%、5.47%、4.30%、3.89%、3.12%、2.49%、2.08%、1.76%、1.73%、1.50%和1.31%。RFE算法的目標(biāo)是通過(guò)遞歸計(jì)算權(quán)重最小的特征,該過(guò)程在數(shù)據(jù)集上遞歸地運(yùn)行,消除模型中可能存在的依賴關(guān)系和共線性,直到達(dá)到所需要選擇的特征數(shù)量。試驗(yàn)通過(guò)設(shè)置篩選特征閾值,最終在保留30個(gè)特征時(shí)RFE算法效果最好。
SVM分類器將原始非線性數(shù)據(jù)映射到高維空間,尋找一個(gè)滿足分類要求的全局最優(yōu)分類超平面,以最優(yōu)分類超平面將滑坡數(shù)據(jù)和非滑坡數(shù)據(jù)進(jìn)行區(qū)分,并保證得到最大分類間隔[20]。在實(shí)際運(yùn)算中,還需要通過(guò)核函數(shù)解決高維空間中非線性不可分問(wèn)題。而RF分類器是一個(gè)基于決策樹的集成學(xué)習(xí)模型,其基本組成單元是相互獨(dú)立的決策樹,這樣更穩(wěn)定、泛化能力更好[21],在森林構(gòu)建完成后,將帶有滑坡和非滑坡標(biāo)簽的數(shù)據(jù)集輸入森林時(shí),需對(duì)森林中的每一棵決策樹進(jìn)行判斷,預(yù)測(cè)出數(shù)據(jù)集中的樣本是滑坡數(shù)據(jù)還是非滑坡數(shù)據(jù)。與其它分類器相比,這兩種分類器更加適用高維數(shù)據(jù)處理,并且均可以有效防止過(guò)擬合。眾多專家學(xué)者將SVM分類器和RF分類器廣泛地應(yīng)用于不同方向的分類和回歸研究[22-24]。最后,與特征優(yōu)選模型相結(jié)合,分別構(gòu)建各自的訓(xùn)練模型。
為了對(duì)滑坡預(yù)測(cè)的結(jié)果進(jìn)行綜合評(píng)價(jià),確定預(yù)測(cè)精度的可靠性,本研究采用了ROC曲線對(duì)滑坡預(yù)測(cè)結(jié)果進(jìn)行精度驗(yàn)證。
ROC曲線是一個(gè)綜合指標(biāo),能夠反映靈敏性和特異性連續(xù)變量的相互關(guān)系,可用于二分類模型的評(píng)價(jià)。靈敏度表示實(shí)際是滑坡災(zāi)害且預(yù)測(cè)模型判斷為滑坡災(zāi)害的概率;特異度表示實(shí)際是非滑坡災(zāi)害且預(yù)測(cè)模型判斷為非滑坡災(zāi)害的概率。AUC值是量化ROC曲線的指標(biāo),可通過(guò)計(jì)算ROC曲線下的面積衡量ROC曲線[25]。AUC值與滑坡預(yù)測(cè)結(jié)果對(duì)應(yīng)關(guān)系如表2所示。
表2 AUC值與滑坡預(yù)測(cè)結(jié)果的對(duì)應(yīng)關(guān)系Table 2 Correspondence between AUC values and landslide prediction results
本研究中動(dòng)態(tài)多源觀測(cè)數(shù)據(jù)共選擇了7種遙感影像,從中選擇需要的波段,并把這些波段看作特征。試驗(yàn)數(shù)據(jù)分為滑坡與非滑坡兩類,為了驗(yàn)證數(shù)據(jù)集的可分性,對(duì)兩類數(shù)據(jù)進(jìn)行了歸一化處理,計(jì)算每個(gè)特征的歸一化指數(shù)均值,從而得到滑坡與非滑坡兩條歸一化均值曲線。兩條曲線存在重疊區(qū)域,為了能夠區(qū)分重疊曲線,試驗(yàn)放大了相關(guān)區(qū)域。如圖3所示,曲線在特征1-31間表現(xiàn)出明顯的差異性,滑坡數(shù)據(jù)集從特征1-特征29在不同程度上都要高于非滑坡數(shù)據(jù)集,而在特征30-31上則相反,這些特征來(lái)源于Sentinel-2多光譜數(shù)據(jù)、MCD12Q1土地覆蓋數(shù)據(jù)、MOD11A1地表晝夜溫度數(shù)據(jù);曲線在特征32-35和特征36-39上分別表現(xiàn)為非滑坡數(shù)據(jù)集高于滑坡數(shù)據(jù)集以及滑坡數(shù)據(jù)集高于非滑坡數(shù)據(jù)集,具有明顯的差異性,這些特征分別來(lái)源于FLDAS數(shù)據(jù)的土壤濕度和土壤溫度數(shù)據(jù);曲線在特征41-92上也表現(xiàn)出較好的差異性,滑坡數(shù)據(jù)集在變化趨勢(shì)上都要低于非滑坡數(shù)據(jù)集,這些特征來(lái)源于Sentinel-1雷達(dá)數(shù)據(jù)、GPM降水?dāng)?shù)據(jù)和SRTM坡度數(shù)據(jù)。綜合分析,兩類數(shù)據(jù)集在歸一化特征均值曲線上表現(xiàn)出了較好的差異性,這表明試驗(yàn)數(shù)據(jù)集是可分的,可以應(yīng)用于滑坡預(yù)測(cè)預(yù)警研究。
圖3 滑坡與非滑坡數(shù)據(jù)集的歸一化均值特征曲線Fig.3 Normalized mean characteristic curve of landslide dataset and non-landslide dataset
3.2.1 滑坡特征相對(duì)重要性與模型選擇
試驗(yàn)通過(guò)隨機(jī)森林算法對(duì)PCA降維數(shù)據(jù)和RFE篩選的30個(gè)特征數(shù)據(jù)進(jìn)行分析,將得到的特征相對(duì)重要性來(lái)描述特征變量的影響權(quán)重,從而確定PCA降維數(shù)據(jù)和RFE篩選的30個(gè)特征數(shù)據(jù)中影響滑坡預(yù)測(cè)的特征相對(duì)重要性排序。圖4分別表示:(a)PCA降維數(shù)據(jù)中PC1-PC15特征相對(duì)重要性排序;(b)RFE方法篩選的前30個(gè)特征相對(duì)重要性排序。從圖4(a)中可以看出,PCA降維數(shù)據(jù)中第一主成分的相對(duì)重要性最高,并且遠(yuǎn)大于其它主成分,對(duì)滑坡分類影響最大。圖4(b)中進(jìn)一步分析具體特征,從RFE保留的30個(gè)特征數(shù)據(jù)中可以發(fā)現(xiàn)對(duì)滑坡預(yù)測(cè)影響較大的因子是GPM降水?dāng)?shù)據(jù),其它滑坡預(yù)測(cè)影響因子還包括FLDAS土壤濕度數(shù)據(jù)、Sentinel-2多光譜數(shù)據(jù)、FLDAS土壤溫度數(shù)據(jù)、SRTM4 DEM數(shù)據(jù),而MCD12Q1土壤覆蓋類型數(shù)據(jù)、MOD11A1地表晝夜溫度數(shù)據(jù)和Sentinel-1雷達(dá)數(shù)據(jù)未出現(xiàn)在前30個(gè)特征中。從而可以得出,PCA降維數(shù)據(jù)中第一主成分的特征相對(duì)重要性最大,與主成分分析理論相符合,而其它主成分的特征相對(duì)重要性卻與主成分排序不一致。另外,從RFE算法篩選的前30個(gè)特征的特征相對(duì)重要性排序結(jié)果中可以發(fā)現(xiàn)降雨是滑坡預(yù)測(cè)最重要的因子,這也與2014-2018年我國(guó)地質(zhì)災(zāi)害統(tǒng)計(jì)相吻合,我國(guó)84.3%的滑坡是由降雨直接誘發(fā)或與降雨有關(guān)[19]。
圖4 特征相對(duì)重要性排序Fig.4 Ranking of feature relative importance
模型選擇是調(diào)整分類器超參數(shù)的過(guò)程,經(jīng)過(guò)格網(wǎng)搜索確定了SVM分類器正則化系數(shù)為10,核函數(shù)選擇線性核函數(shù),并確定RF分類器樹的棵數(shù)為50。在確定好超參數(shù)后,試驗(yàn)會(huì)根據(jù)所有模型的預(yù)測(cè)精度確定最優(yōu)模型。
3.2.2 原始數(shù)據(jù)的滑坡空間預(yù)測(cè)
為了對(duì)比SVM和RF分類器在本研究數(shù)據(jù)中哪一個(gè)具有更好的預(yù)測(cè)效果,試驗(yàn)首先未使用PCA數(shù)據(jù)降維方法和RFE數(shù)據(jù)篩選方法,而是只使用SVM和RF分類器對(duì)原始數(shù)據(jù)進(jìn)行滑坡分類與預(yù)測(cè)。具體步驟為將訓(xùn)練數(shù)據(jù)輸入SVM和RF分類器訓(xùn)練得到訓(xùn)練模型,然后將驗(yàn)證集輸入到訓(xùn)練模型中計(jì)算預(yù)測(cè)精度。表3顯示了2種分類器的滑坡預(yù)測(cè)結(jié)果,從中可以發(fā)現(xiàn)RF滑坡預(yù)測(cè)模型比SVM滑坡預(yù)測(cè)模型具有更好、更穩(wěn)定的預(yù)測(cè)結(jié)果,預(yù)測(cè)精度分別為0.7777和0.6402。試驗(yàn)除了計(jì)算驗(yàn)證集的預(yù)測(cè)精度外,還計(jì)算了訓(xùn)練集的預(yù)測(cè)精度,通過(guò)對(duì)比訓(xùn)練集和驗(yàn)證集的預(yù)測(cè)精度差值,比較兩種滑坡預(yù)測(cè)模型的泛化能力。
表3 試驗(yàn)精度量化結(jié)果Table 3 Quantification results of experimental accuracy
從表3中的2種預(yù)測(cè)精度差值可以發(fā)現(xiàn),SVM和RF滑坡預(yù)測(cè)模型的訓(xùn)練集和驗(yàn)證集差值均為正值,這表明:2種滑坡預(yù)測(cè)模型的訓(xùn)練集預(yù)測(cè)精度都大于驗(yàn)證集預(yù)測(cè)精度;但SVM滑坡預(yù)測(cè)模型的2種預(yù)測(cè)精度差值為0.1971,而RF滑坡預(yù)測(cè)模型的兩種預(yù)測(cè)精度差值為0.0625,表明RF滑坡預(yù)測(cè)模型泛化能力較好。
此外,試驗(yàn)還計(jì)算了2種滑坡預(yù)測(cè)模型訓(xùn)練集和驗(yàn)證集的靈敏度和特異度,將靈敏度作為縱坐標(biāo),將特異度作為橫坐標(biāo),把訓(xùn)練集和驗(yàn)證集的預(yù)測(cè)結(jié)果分別導(dǎo)入python的scikit-learn模塊中進(jìn)行分析并繪制相應(yīng)的ROC曲線以及計(jì)算各自的AUC值,從而定量地評(píng)價(jià)兩種滑坡預(yù)測(cè)模型的預(yù)測(cè)結(jié)果。如圖5所示,SVM和RF訓(xùn)練集和驗(yàn)證集的ROC曲線展現(xiàn)出了分類器的細(xì)微變化,其中RF滑坡預(yù)測(cè)模型表現(xiàn)較好,AUC值分別為0.8995和0.8389,而SVM預(yù)測(cè)模型表現(xiàn)較差,AUC值分別為0.9291和0.6951。這表明RF滑坡預(yù)測(cè)模型相比于SVM滑坡預(yù)測(cè)模型,其預(yù)測(cè)結(jié)果的準(zhǔn)確度更高,模型泛化能力更好。
圖5 SVM和RF預(yù)測(cè)模型訓(xùn)練集和驗(yàn)證集的ROC曲線Fig.5 ROC curves of training dataset and validation dataset in the SVM and RF prediction models
由此可見(jiàn),綜合考慮兩種滑坡預(yù)測(cè)模型的預(yù)測(cè)精度、訓(xùn)練集和驗(yàn)證集預(yù)測(cè)精度差值以及訓(xùn)練集和驗(yàn)證集的AUC值,表明相較于SVM訓(xùn)練模型,RF訓(xùn)練模型精度更高,泛化能力也更好,更適于本研究。
3.2.3 特征優(yōu)選數(shù)據(jù)的滑坡空間預(yù)測(cè)
在對(duì)原始數(shù)據(jù)進(jìn)行滑坡預(yù)測(cè)研究后,試驗(yàn)采用PCA算法和RFE算法對(duì)原始數(shù)據(jù)分別進(jìn)行了降維和篩選處理,得到了PCA數(shù)據(jù)和RFE篩選30個(gè)特征的數(shù)據(jù)。之后分別將PCA數(shù)據(jù)和RFE篩選30個(gè)特征的數(shù)據(jù)與SVM和RF分類器進(jìn)行交叉組合,分別進(jìn)行滑坡預(yù)測(cè)研究,得到了PCA-SVM、PCA-RF、RFE-SVM和RFE-RF共4種滑坡預(yù)測(cè)模型。訓(xùn)練集和驗(yàn)證集的預(yù)測(cè)結(jié)果如表4所示,經(jīng)過(guò)PCA和RFE方法處理后2種分類器的預(yù)測(cè)精度都有了一定的提升,尤其是SVM分類器提升較高。PCA和RFE方法處理后,SVM驗(yàn)證集的預(yù)測(cè)精度分別提升了0.1489和0.1030,而RF分類器驗(yàn)證集的預(yù)測(cè)精度分別提升了0.0171和0.0399。對(duì)比四種滑坡預(yù)測(cè)模型的預(yù)測(cè)精度,RFE-RF模型的訓(xùn)練集和驗(yàn)證集的預(yù)測(cè)精度都最高,分別為0.8314和0.8176;PCA-RF模型次之,預(yù)測(cè)精度分別為0.8115和0.7948;預(yù)測(cè)精度較差的是PCA-SVM模型,預(yù)測(cè)精度分別為0.8201和0.7891;預(yù)測(cè)精度最差的是RFE-SVM模型,預(yù)測(cè)精度分別為0.9144和0.7432。試驗(yàn)進(jìn)一步評(píng)價(jià)4種滑坡預(yù)測(cè)模型的泛化能力,對(duì)比4種模型的訓(xùn)練集和驗(yàn)證集預(yù)測(cè)精度差值,可以發(fā)現(xiàn)RFE-SVM模型2種預(yù)測(cè)精度間的差值為0.1712,泛化能力最差;PCA-SVM模型2種預(yù)測(cè)精度的差值為0.0310,模型泛化能力居中;PCA-RF和RFE-RF的兩種預(yù)測(cè)精度差值分別為0.0167和0.0138,模型泛化能力較好。
表4 特征優(yōu)選后預(yù)測(cè)精度及AUC值Table 4 Prediction accuracy and AUC value after feature optimization
同樣,試驗(yàn)計(jì)算了4種滑坡預(yù)測(cè)模型驗(yàn)證集的靈敏度和特異度,將靈敏度作為縱坐標(biāo),把特異度作為橫坐標(biāo),繪制了4種滑坡預(yù)測(cè)模型驗(yàn)證集的ROC曲線并計(jì)算其AUC值。從圖6中可以看出,RFE-RF滑坡預(yù)測(cè)模型的ROC曲線下面積最大,表明該模型的AUC值最高,模型評(píng)價(jià)最好。結(jié)合表4具體分析,RFE-RF滑坡預(yù)測(cè)模型表現(xiàn)最好,AUC值分別為0.8901和0.8751;PCA-RF滑坡預(yù)測(cè)模型的預(yù)測(cè)結(jié)果次之,AUC值分別為0.9047和0.7963;而PCA-SVM滑坡預(yù)測(cè)模型的預(yù)測(cè)結(jié)果最差,AUC值分別為0.8729和0.7928。
圖6 特征優(yōu)選后四種預(yù)測(cè)模型的ROC曲線Fig.6 ROC curve of four prediction models after feature optimization
綜合分析4種滑坡預(yù)測(cè)模型的預(yù)測(cè)精度、預(yù)測(cè)精度訓(xùn)練集和驗(yàn)證集差值以及AUC值可以看出:RFE方法的篩選效果要優(yōu)于PCA方法的降維效果;4種滑坡預(yù)測(cè)模型中RFE-RF訓(xùn)練模型的曲線下面積最大、表現(xiàn)最好,并表現(xiàn)出最好的泛化能力;RFE-RF預(yù)測(cè)模型為滑坡預(yù)測(cè)提供了一種新的思路。同時(shí)從4種訓(xùn)練模型驗(yàn)證集的預(yù)測(cè)精度和AUC值中可以發(fā)現(xiàn)兩者具有相同的排序,這驗(yàn)證了預(yù)測(cè)模型精度的可信性。
數(shù)據(jù)量不夠,數(shù)據(jù)維度太高,都是造成預(yù)測(cè)精度低的原因。本文由于試驗(yàn)數(shù)據(jù)獲取途徑單一,并且國(guó)家自然資源部地質(zhì)災(zāi)害災(zāi)情險(xiǎn)情報(bào)告滑坡數(shù)據(jù)量也較少,短時(shí)間內(nèi)無(wú)法提高數(shù)據(jù)量,因此采用數(shù)據(jù)降維和數(shù)據(jù)篩選來(lái)優(yōu)化特征,繼而提高模型的預(yù)測(cè)精度。數(shù)據(jù)降維和數(shù)據(jù)篩選可以提高算法可用性,其更深層的意義在于提取綜合有效的信息以及剔除相關(guān)性較差的信息。本文滑坡預(yù)測(cè)模型與現(xiàn)在常用的實(shí)時(shí)綜合監(jiān)測(cè)滑坡的方法相比,應(yīng)用范圍更加廣泛,更加節(jié)省資源。雖然基于動(dòng)態(tài)多源遙感數(shù)據(jù)的滑坡預(yù)測(cè)模型對(duì)于滑坡預(yù)測(cè)有較高的精度,但錯(cuò)分現(xiàn)象卻無(wú)法避免。為了進(jìn)一步提高和穩(wěn)定試驗(yàn)精度,未來(lái)的研究應(yīng)著重于提高數(shù)據(jù)量以及通過(guò)優(yōu)化決策樹結(jié)構(gòu)來(lái)改進(jìn)RF分類器,并且與深度學(xué)習(xí)方法相結(jié)合。同時(shí),在優(yōu)化降水特征的基礎(chǔ)上,還應(yīng)考慮加入紋理特征,以進(jìn)一步提高模型的預(yù)測(cè)精度。
本文針對(duì)近些年全國(guó)發(fā)生的滑坡災(zāi)害,在GEE遙感大數(shù)據(jù)平臺(tái)的基礎(chǔ)上結(jié)合多種經(jīng)典機(jī)器學(xué)習(xí)算法進(jìn)行滑坡空間預(yù)測(cè)研究。其中用到的分類算法包括SVM和RF,考慮到試驗(yàn)數(shù)據(jù)維度過(guò)高會(huì)影響預(yù)測(cè)精度,試驗(yàn)引入PCA數(shù)據(jù)降維算法和RFE數(shù)據(jù)篩選算法,將分類算法和數(shù)據(jù)降維算法、數(shù)據(jù)篩選算法優(yōu)化組合分類,建立了針對(duì)全國(guó)滑坡進(jìn)行預(yù)測(cè)的機(jī)器學(xué)習(xí)模型,并通過(guò)AUC指數(shù)評(píng)價(jià)模型精度。
通過(guò)上述研究,得出如下結(jié)論:
(1)試驗(yàn)在所構(gòu)建的動(dòng)態(tài)多源遙感數(shù)據(jù)集上計(jì)算了特征相對(duì)重要性,發(fā)現(xiàn)降水特征對(duì)預(yù)測(cè)結(jié)果起到了至關(guān)重要的作用。
(2)通過(guò)PCA和RFE兩種方法分別進(jìn)行數(shù)據(jù)降維和數(shù)據(jù)篩選試驗(yàn),有效地提高了滑坡預(yù)測(cè)精度。在本文所有滑坡預(yù)測(cè)模型中,RFE-RF模型的訓(xùn)練集預(yù)測(cè)精度較高、驗(yàn)證集預(yù)測(cè)精度和AUC值最高,滑坡預(yù)測(cè)性能最好。
(3)基于先驗(yàn)知識(shí)和機(jī)器學(xué)習(xí)算法完成模型訓(xùn)練,選擇精度達(dá)到了81.76%的RFE-RF作為滑坡預(yù)測(cè)模型。在此基礎(chǔ)上對(duì)存在的滑坡隱患災(zāi)害區(qū)域進(jìn)行持續(xù)觀測(cè),通過(guò)GEE平臺(tái)實(shí)時(shí)獲取相應(yīng)的動(dòng)態(tài)多源遙感數(shù)據(jù)并將其輸入RFE-RF模型,最后根據(jù)模型輸出結(jié)果判斷滑坡隱患區(qū)未來(lái)是否會(huì)發(fā)生災(zāi)害,以此達(dá)到預(yù)測(cè)的目的。