李得立,李小磊,梁 元,3,辜俊瑩,3
(1.成都理工大學管理科學學院,四川 成都 610059; 2.中國地質環(huán)境監(jiān)測院, 北京 100081; 3.數(shù)學地質四川省重點實驗室(成都理工大學),四川 成都 610059)
Studyonevaluationmethodofgeologicalenvironmentcarryingcapacitybasedonmachinelearningalgorithm
LI Deli1,LI Xiaolei2,LIANG Yuan1,3,GU Junying1,3
(1.College of Management Science,Chengdu University of Technology,Chengdu 610059,China; 2.China Institute of Geo-Environment Monitoring,Beijing 100081,China; 3.Geomathematics Key Laboratory of Sichuan Province, Chengdu University of Technology,Chengdu 610059,China)
Abstract:With the increasing attention paid by the state to the construction of ecological civilization,people have been paying more attention to the bearing capacity of the geological environment in the area they live in,and new requirements have been put forward for the evaluation methods of bearing capacity of geological environment.This paper introduces machine learning method,and based on the evaluation theory of geological environment bearing capacity,puts forward the evaluation method of geological environment bearing capacity based on machine learning algorithm.By analyzing geological environment evaluation at home and abroad related results,analyzing various evaluation factors of geological environment and refining the main controlling factors that affect the bearing capacity of geological environment,based on this,the evaluation index system of the bearing capacity of geological environment suitable for machine learning is established,and combined with machine learning methods,build the bearing capacity of geological environment evaluation model based on machine learning algorithms,evaluate the regional geological environmental bearing capacity,taking Pengshan district of Meishan city as an example,carrying capacity evaluation is carried out,which provides a demonstration and evaluation method for the evaluation of the bearing capacity of the geological environment in other regions.
Keywords:geological environment bearing capacity;index system;machine learning algorithm;CART
地質環(huán)境承載力是指在一定時期、一定范圍內、一定自然條件下,環(huán)境系統(tǒng)所能承受的人類活動總的閥值。生態(tài)地質環(huán)境承載力研究從20世紀90年代起步,目前已成為可持續(xù)發(fā)展和國家安全戰(zhàn)略研究的基礎研究之一。杜蕾等[1]通過對城市地質環(huán)境承載力評價不同階段的指標特定性、承載力閾值相對性及承載力評價的復雜性等關鍵特性進行研究,分析了各個階段的評價方法和評價指標體系,闡述了承載力評價需要注意的問題。汪宙峰等[2]提出地質生態(tài)環(huán)境影響因素的分析和研究,采用層次分析法,計算各種相關權重系數(shù),展示地質生態(tài)環(huán)境的脆弱性變化的影響因素,確立從宏觀到中觀到微觀的聯(lián)動評價的方式。李念春[3]提出GIS疊加分析評價方法,是應用層次分析法確定評價指標權重,借助GIS軟件的可視化功能,對已選的各指標層進行加權疊加,再進行各種地質環(huán)境要素的評價,最后獲得研究區(qū)地質環(huán)境承載力評價結果。李小磊等[4]研究針對縣域資源環(huán)境承載力評價的問題,從本底和狀態(tài)兩個角度出發(fā),構建承載力評價指標體系,并運用指標權重法、GIS空間分析法等方法,對研究區(qū)地質環(huán)境承載能力進行了評價,得到地質環(huán)境的風險性評價結果,研究成果可對成渝經(jīng)濟區(qū)內其他縣(區(qū))地質環(huán)境承載力研究起到示范作用。王念秦等[5]通過建立量化綜合評價模型,對西安市臨潼區(qū)驪山鎮(zhèn)不同時間段的地質環(huán)境承載力進行評價,獲得各評價時間地質環(huán)境承載力分區(qū)圖,研究成果可為研究區(qū)發(fā)展規(guī)劃提供參考依據(jù)。張茂省等[6]研究提出基于風險的地質環(huán)境承載力評價方法,通過將承載力狀態(tài)分成三個等級進行判別,發(fā)展了地質環(huán)境承載力理論,為地質環(huán)境承載力評價提供新的理論與關鍵技術,為國土空間開發(fā)“三條紅線”劃定提供了依據(jù)。王子紅等[7]在貴州省地質環(huán)境承載力宏觀評估及分區(qū)研究中,利用“模糊層次綜合評估”法進行評價,為貴州省地質環(huán)境保護和可持續(xù)利用提供依據(jù)。朱月琴等[8-9]通過利用大數(shù)據(jù)的分析評價方法,構建智能學習的知識圖譜和地質環(huán)境的承載力網(wǎng)絡架構,進行大數(shù)據(jù)的承載力評價方法研究。鄭嬌玉等[10]提出從地質環(huán)境、生態(tài)環(huán)境和社會環(huán)境3個方面出發(fā),運用層次分析法、加權綜合評價法,進行柵格尺度的綜合評價,得到評價結果。大數(shù)據(jù)技術的發(fā)展,一方面促進了數(shù)據(jù)采集技術的更新,另一方面也促使著地質環(huán)境承載力方法的進步,尤其是人工智能技術應用,徹底改變了傳統(tǒng)的評價方法。唐斌[11]通過利用ID3算法構建決策樹,訓練出評價指標和權重的機器學習模型,再通過模型進行地質災害易發(fā)性的合理性評價。都平平[12]通過提出支持向量機(SVM)理論和方法,對地質采礦因素和地質環(huán)境因素進行分析,進而構建綜合地質環(huán)境質量評價及預測非線性模型,并通過實例進行研究論證,達到了很好的研究效果。李云霞[13]提出用核K-means聚類分析算法對地質環(huán)境承載力進行分析評價,借助GIS分析功能,進行分析處理,得到地質環(huán)境承載力分布圖。
本文引入機器學習方法,以地質環(huán)境承載力的評價理論為基礎,提出了基于機器學習算法的地質環(huán)境承載力評價方法。通過梳理國內外地質環(huán)境評價相關成果,分析地質環(huán)境的各種評價要素,提煉出影響地質環(huán)境承載力的主控因素,在此基礎上建立適合于機器學習的地質環(huán)境承載力評價指標體系,再結合機器學習方法,構建基于機器學習算法的地質環(huán)境承載力評價模型,對區(qū)域地質環(huán)境承載力進行評價,并以眉山市彭山區(qū)為例,進行承載力評價,為其他區(qū)域的地質環(huán)境承載力評價提供應用示范和評價方法。
彭山區(qū)位于川西平原南緣、岷江中游,屬四川省眉山市所轄。區(qū)內由于低山、丘陵地帶的地形切割劇烈,地層巖性多為砂泥巖互層或夾層,導致地層結構面軟弱,地質災害時有發(fā)生。尤其是在“5·12”汶川大地震和“4·20”大地震之后,次生地質災害發(fā)育頻度及廣度有所增加。從地質災害類型來看,主要以滑坡為主,崩塌與不穩(wěn)定斜坡次之,泥石流發(fā)育最少。
1) 降水及地下水。區(qū)內河流比較多,受河流的影響比較嚴重,由于河流沖刷和切割,導致河岸成為了高陡臨空的地形,經(jīng)常出現(xiàn)崩塌、滑坡等地質災害。尤其是在河水浸潤的地方,地質災害更是嚴重。
2) 地形地貌。區(qū)內由于地形呈低山到深丘的走勢,地形起伏比較大,高陡和斜坡密布,從而導致發(fā)生地質災害頻繁。在彭山區(qū)境內,駝脊狀丘陵區(qū)有13處,緩坡丘陵區(qū)有27處,圓頂丘陵區(qū)有3處,堆積臺地區(qū)有10處,平原區(qū)見有3處,從地質災害發(fā)生的地形來看,地質災害點發(fā)生與地形地貌關系是密切的,地形地貌陡峭的地方,地質災害容易發(fā)生,平原地帶,發(fā)生比較少。
3) 地層巖性。地層巖性是指構成巖層的巖石構造,由于區(qū)內的巖層受風化嚴重,導致砂和泥巖風化嚴重,上硬下軟,在重力和裂縫的作用下,發(fā)育成崩塌。
4) 地質構造和新構造運動。地質構造是指地球的內、外應力作用,巖層或巖體發(fā)生變形或位移而遺留下來的形態(tài)。主要是通過地形地貌和巖層來影響地質災害的發(fā)生,主要表現(xiàn)在地質構造發(fā)生斷層、裂縫等現(xiàn)象,從而促進了地質災害的發(fā)育,為坡體的下滑和移動創(chuàng)造了條件,同時為地層地下水的運動提供了運動通道。
新構造運動主要是由于地殼的升降運動,導致地形地貌發(fā)生劇烈變化,引起河流的整體下切,邊岸臨空面高度增加,降低巖土體的穩(wěn)定性,從而導致地質災害的發(fā)生。
5) 地震作用。彭山區(qū)地處龍泉山斷裂帶,當?shù)卣鸢l(fā)生時,地殼內部的原始應力發(fā)生改變,巖土結構隨之變化,導致坡體失去平衡,誘發(fā)崩塌和滑坡的地質災害發(fā)生。
6) 人類工程經(jīng)濟活動。人類工程經(jīng)濟活動對原有的生態(tài)環(huán)境造成了巨大的破壞,并且給當?shù)鼐用裨斐闪藝乐負p失和巨大威脅。彭山區(qū)由于所處位置是在經(jīng)濟欠發(fā)達與發(fā)達相交地區(qū),城鎮(zhèn)建設、水利水電建設、道路建設、礦產(chǎn)開發(fā)等人類工程活動比較頻繁,破壞了邊坡的穩(wěn)定性,導致地質災害的發(fā)生。
通過研究地質環(huán)境承載力評價和機器學習的相關文獻,提煉相關評價方法;多渠道(包括野外)收集地質環(huán)境等相關資料[14],系統(tǒng)整理地質環(huán)境評價信息,在此基礎上分析影響地質環(huán)境的主控因素,并進行指標分級,構建地質環(huán)境承載力綜合評價指標體系;抽取相關地質環(huán)境歷史數(shù)據(jù),進行機器學習,生成地質環(huán)境承載力評價的規(guī)則庫,構建地質環(huán)境承載力評價的機器學習模型,再通過模型對評價數(shù)據(jù)進行評價,得到評價結果[15]。基于機器學習算法的地質環(huán)境承載力評價流程,如圖1所示。
圖1 基于機器學習算法的地質環(huán)境承載力評價的流程
通過對地質災害的主要誘發(fā)因素進行研究,系統(tǒng)梳理地質環(huán)境、經(jīng)濟、社會等多種要素,提煉出地質環(huán)境承載力評價的主控因素,通過定性分析與定量分析相結合的方式,對地質環(huán)境承載力評價指標進行篩選和科學性檢驗,建立地質環(huán)境承載力評價指標體系。在建立指標體系過程中,一方面要考慮單地質環(huán)境要素下的承載力水平,另一方面要考慮多種資源環(huán)境要素疊加交叉作用下的地質環(huán)境承載力水平。指標體系包括以下幾個方面。①崩塌、滑坡、泥石流易發(fā)程度。評價的主要因素和指標包括地形地貌、地質構造、工程巖土性質、斜坡結構和斜坡水文地質條件。②構造穩(wěn)定性。綜合考慮斷裂活動性、地震動峰值加速度。③地面塌陷。地面塌陷易發(fā)程度綜合考慮碳酸鹽巖類型、巖溶發(fā)育程度、土地利用程度要素。④社會經(jīng)濟方面的指標。包括人口數(shù)量指數(shù)、素質水平、經(jīng)濟發(fā)展水平指數(shù)(表1)。
表1 地質環(huán)境承載力評價指標
機器學習是一門多領域交叉學科,涉及數(shù)學、統(tǒng)計學、計算機等相關知識,機器學習算法包含的算法比較多,例如深度學習算法、人工智能算法、回歸算法、決策樹算法、貝葉斯算法、聚類算法等都屬于機器學習算法。針對地質環(huán)境承載力評價,采用決策樹算法來進行地質環(huán)境承載力評價,決策樹算法是屬于有監(jiān)督學習的分類,通過將不同數(shù)據(jù)源匯集到一起,建立相關的數(shù)據(jù)池,對已知分類的數(shù)據(jù)進行機器學習,訓練出相關模型。該分類器其實是一種非參數(shù)的分類器,能夠處理非線性問題,并且對數(shù)據(jù),尤其是數(shù)值型數(shù)據(jù)有比較好的處理效果,而且該分類器對缺失數(shù)據(jù)不是很敏感,具有較好的魯棒性。
2.4.1 CART(classification and regression tree)評價模型
2.4.1.1 基尼指數(shù)的計算
基尼指數(shù)的計算公式為式(1)。
(1)
若樣本集合D根據(jù)特征A是否取某一可能值a被分割為D1和D2兩部分,也就是式(2)。
D1={(x,y)∈D|A(x)=a},
D2=D-D1
(2)
集合D的基尼指數(shù)計算公式為式(3)。
(3)
2.4.1.2 決策樹CART模型的訓練學習
1) 設結點的訓練數(shù)據(jù)集為D,計算特征的基尼指數(shù),然后根據(jù)特征A的每一個值a,進行測試,根據(jù)樣本點對A=a的測試為“是”或者“否”,將D分割為D1和D2兩部分,再計算A=a的基尼指數(shù)。
2) 針對特征A和切分點a,選擇基尼指數(shù)最小的特征及其對應的切分點作為最優(yōu)特征與最優(yōu)切分點,進行切分,生成新的兩個子節(jié)點,再將數(shù)據(jù)集特征分配到兩個子節(jié)點中去。
3) 對兩個子結點遞歸地調用第一步和第二步,直至滿足停止條件。
4) 生成CART決策樹。
2.4.2 ID3評價模型
2.4.2.1 計算信息增益
1) 計算數(shù)據(jù)集D的經(jīng)驗熵H(D)為式(4)。
(4)
2) 計算特征A對數(shù)據(jù)集D的經(jīng)驗條件熵H(D|A)為式(5)。
(5)
3) 計算信息增益為式(6)。
g(D,A)=H(D)-H(D|A)
(6)
2.4.2.2 決策樹ID3模型的訓練學習
ID3評價模型算法,根據(jù)“最大信息熵增益”原則來進行劃分,遞歸構建評價決策樹的過程。算法流程如下所述。
1) 計算信息增益,如果最大信息增益小于閾值,將其置為葉子節(jié)點。
2) 選擇信息增益最大的特征進行分裂。
3) 重復第一步和第二步,直至分類完成。
2.4.3 C4.5評價模型
2.4.3.1 計算信息增益比率
1) 先計算分裂信息(Split Information)),計算公式為式(7)。
(7)
2) 再計算信息增益比率(Gain Ratio),計算公式為式(8)。
(8)
2.4.3.2 決策樹C4.5模型的訓練學習
C4.5評價模型算法,根據(jù)“最大信息熵增益率”原則來進行劃分,遞歸構建評價決策樹的過程。算法流程如下所述。
1) 計算信息增益率,如果最大信息增益率小于閾值,將其置為葉子節(jié)點。
2) 選擇信息增益率最大的特征進行分裂。
3) 重復第一步和第二步,直至分類完成。
通過研究機器學習算法,尤其是決策樹算法,在地質環(huán)境承載力評價中的探索式應用,構建地質環(huán)境承載力評價的決策樹模型。對地質環(huán)境的相關樣本進行學習和訓練,根據(jù)一定規(guī)則,構建由決策點、策略點(事件點)及結果構成的樹形決策樹模型。在訓練的過程中,根據(jù)給與的指標和樣本樹,進行適當?shù)恼{整,要考慮誤差修正,最終建立基于機器學習的決策樹模型。
混淆矩陣和系數(shù)法是判斷分類好壞程度的方法之一。首先構造混淆矩陣,矩陣中每一列代表了分類預測的類別,而每一列的總數(shù),則表示預測為該類別的所有數(shù)目之和;矩陣中的每一行代表了分類數(shù)據(jù)的真實歸屬類別,而每一行的總數(shù),則表示該類別的數(shù)據(jù)所有數(shù)目之和,對角線上則是被正確分類的樣本數(shù)目。針對地質環(huán)境承載力評價,選用混淆矩陣方法和系數(shù)法用于分類精度的評價分析。
2.5.1 混淆矩陣
1) 生產(chǎn)者精度(PA):指某一類別的正確分類數(shù)占總抽樣點中該類別總數(shù)的比例。其計算式如式(9)所示。
(9)
2) 用戶精度(UA):指某一類別的正確分類數(shù)占分為該類總數(shù)的比例。其計算公式為式(10)。
(10)
3) 總體精度(OA):指總分類正確數(shù)占總抽樣數(shù)的比例,它反映了分類結果總的正確程度。即式(11)。
(11)
2.5.2 Kappa系數(shù)
總體精度、用戶精度等指標一般依賴于采樣樣本,需要采用一種更客觀的指標來分析分類的質量。Kappa分析常用于遙感分類與參考數(shù)據(jù)之間一致性或精度的方法。為了便于分析決策樹的分類精度,在混淆矩陣基礎上,結合Kappa分析方法,來分析。其計算公式為式(12)。
(12)
式中:mii為試驗區(qū)內應屬于i類的被分到類中去的總數(shù);n為類別數(shù);mi+和m+i分別為分類混淆矩陣的行總和和列總和;N為總的用于精度評價的數(shù)量。
根據(jù)彭山區(qū)自然地理特點,結合其地形地貌和行政區(qū)劃,對評價單元進行劃分,得到評價單元。通過查閱相關資料,系統(tǒng)收集了彭山區(qū)等基礎數(shù)據(jù)資料,并針對該區(qū)的地質環(huán)境等相關數(shù)據(jù),借助相關公益性項目,收集相關數(shù)據(jù),通過整理得出這次評價數(shù)據(jù)。
數(shù)據(jù)的預處理方法,與其他預處理方法差不多,目的是消除數(shù)據(jù)集中錯誤、冗余的數(shù)據(jù),減少數(shù)據(jù)噪音,一般采用填補遺漏的數(shù)據(jù)值、平滑有噪聲數(shù)據(jù)、識別或除去異常值等方法進行處理,使不同的、不兼容的各種數(shù)據(jù)集按照一定的規(guī)則一致起來,減少數(shù)據(jù)在機器學習過程中可能出現(xiàn)相互矛盾的情況。評價數(shù)據(jù)預處理之后,見表2。
表2 地質環(huán)境承載力部分樣本
續(xù)表2
地貌單元鄉(xiāng)鎮(zhèn)B1B2B3B4B5B6B7B8B9B10B11B12B13Result7-1鳳鳴鎮(zhèn)AlluvialplainErosion andaccumulationhardCompoundslopeLowriskstrongmid-highlimestonestronghighbasicsuitablebasicsuitablebasicunsuitablebalance6-2公義鎮(zhèn)moraineErosion andaccumulationsoftConvexslopemidriskweakhighDolomitelittleweakhighbasicunsuitablebasicunsuitablebasicunsuitableoverload8-2公義鎮(zhèn)ice-wateraccumulationErosion andaccumulationlesshardCompoundslopeLowriskweaklowDolomiticlimestoneweakhighbasicsuitablebasicsuitablebasicsuitablebalance1-2公義鎮(zhèn)LowmountainErodedtectonic terrainhardCompoundslopeLowriskweakmiddleDolomitelittleweakhighunsuitablebasicunsuitableunsuitableoverload4-2公義鎮(zhèn)DeephillockErodedtectonic terrainlesshardConcaveslopeLowriskstrongmid-highDolomiticlimestonestronghighunsuitableunsuitableunsuitableoverload…………………………………………
圖2 生成的機器學習的CART決策樹模型
圖3 生成的機器學習的ID3決策樹模型
利用整理的相關評價數(shù)據(jù),以CART算法和ID3算法為例,進行訓練,得出決策樹的分類模型,模型如圖2和圖3所示。
對CART決策樹分類進行精度評價時,混淆矩陣、總體分類精度、生產(chǎn)者精度、用戶精度Kappa系數(shù)、錯分誤差、漏分誤差等是其影響因子?;煜仃囉糜诜诸惤Y果與真實值之間比較,評價結果見表3。
同樣的樣本,使用決策樹的ID3算法進行實現(xiàn),評價結果見表4。
表3 CART決策樹算法分類精度評價
注:其分類總精度為93.87%,Kappa系數(shù)=0.8480。
表4 ID3決策樹算法分類精度評價
注:其分類總精度為91.84%,Kappa系數(shù)=0.7661。
本研究通過選取基于機器學習算法的地質環(huán)境承載力評價模型對彭山區(qū)進行地質環(huán)境承載力綜合評價,通過篩選出:地形地貌指數(shù)、斜坡水文地質條件指數(shù)、巖溶發(fā)育程度指數(shù)、地質構造指數(shù)、斷裂活動性指數(shù)、土地利用程度指數(shù)、工程巖土性質指數(shù)、地震動峰值加速度指數(shù)、人口數(shù)量指數(shù)、斜坡結構指數(shù)、碳酸鹽巖類型指數(shù)、素質水平、經(jīng)濟發(fā)展水平指數(shù)等指標,作為綜合承載能力的評價指標;按照機器學習算法的地質環(huán)境承載力評價方法,對現(xiàn)有的樣本進行訓練,獲得機器學習算法的評價模型,再運用模型進行評價分類。對比CART算法模型和ID3模型,CART算法模型的分類總精度為93.87%,ID3算法91.84%,兩者相差2.03%;CART算法模型的Kappa系數(shù)為0.8480,ID3算法的Kappa系數(shù)為0.7661,CART算法比ID3算法高0.0819,CART算法的評價分類效果好于ID3算法。
生態(tài)地質環(huán)境是構建生態(tài)文明體系的基礎,良好的生態(tài)地質環(huán)境有助于建立良性循環(huán)的生態(tài)環(huán)境,因此,加強地質環(huán)境的管控,就要加強生態(tài)地質環(huán)境評價,有必要了解每一塊地域的生態(tài)地質環(huán)境承載力,可以承載多少人口,可以承載多大地質環(huán)境災害破壞;還需要加強生態(tài)地質環(huán)境評價方法上的創(chuàng)新,實現(xiàn)生態(tài)地質環(huán)境承載力評價過程的白箱化;借助大數(shù)據(jù)技術、云計算技術技術、人工智能技術,實現(xiàn)生態(tài)地質環(huán)境承載力評價智能化。傳統(tǒng)的承載力評價,基本上是先建立指標評價指標體系和評價標準,然后通過評價方法進行評價?;跈C器學習的地質環(huán)境承載力評價,采取機器學習的方法,訓練數(shù)據(jù)獲得評價的分類模型,通過調參優(yōu)化之后,得到最終的評價模型。