何昕宇,田文翀,張智宇,廖振良
(同濟(jì)大學(xué)環(huán)境科學(xué)與工程學(xué)院,上海 200092)
每年洪水泛濫都對人們的生命安全和社會正常運轉(zhuǎn)造成了巨大的威脅,阻礙了社會經(jīng)濟(jì)的可持續(xù)發(fā)展[1]。洪水具有突發(fā)性強(qiáng)、頻率高、預(yù)測預(yù)防難度大、危害性強(qiáng)的特點[2-3]。隨著人口、經(jīng)濟(jì)、城市的不斷發(fā)展對孕災(zāi)環(huán)境的改變及全球變暖帶來的降水影響,洪水帶來的風(fēng)險會繼續(xù)增加[4]。為了減少洪水帶來的人員傷亡和經(jīng)濟(jì)損失,許多研究人員把目光聚集在了洪水的空間預(yù)測,通過預(yù)測模型來規(guī)劃洪澇風(fēng)險,對脆弱區(qū)域進(jìn)行管理。
洪澇災(zāi)害的發(fā)生、發(fā)展過程極其復(fù)雜,洪水風(fēng)險評估基于洪水的形成機(jī)制,收集地形數(shù)據(jù)和歷史洪水位置數(shù)據(jù),對空間上的點發(fā)生洪水的可能性進(jìn)行預(yù)測,繪制洪水風(fēng)險圖識別出易發(fā)生洪水的敏感區(qū)域,可以為人們主動應(yīng)對洪水災(zāi)害預(yù)留時間,并為可持續(xù)的洪水風(fēng)險管理提供有效的技術(shù)決策支撐[5-6]。根據(jù)使用的方法不同,洪水風(fēng)險評估可以分為機(jī)理模型方法、知識驅(qū)動方法和數(shù)據(jù)驅(qū)動方法3類[7]。機(jī)理模型針對不同頻率的降雨過程,利用水動力學(xué)模型及洪水淹沒模型模擬推求可能的淹沒范圍,但在實際應(yīng)用中存在水動力模型求解時間長數(shù)據(jù)精度要求高、洪水淹沒模型數(shù)據(jù)需求量大等[8-9]不可忽視的問題。知識驅(qū)動方法運用領(lǐng)域?qū)<业睦碚摵徒?jīng)驗知識選取和洪水成因有關(guān)的洪水風(fēng)險的指標(biāo)并對權(quán)重的定量化取值,其代表性方法有層次分析法[10-13]、網(wǎng)絡(luò)分析過程(ANP)[14-15]、TOPSIS(Technique for Order Preference by Similarity to Ideal Solution)[16]等,但由專家主觀判斷造成的不確定性仍未有詳細(xì)的解決和分析方法。
數(shù)據(jù)驅(qū)動方法指的是通過數(shù)據(jù)驅(qū)動模型,參考?xì)v史洪水的位置數(shù)據(jù)和與洪水環(huán)境特征相關(guān)的數(shù)據(jù)來預(yù)測區(qū)域上發(fā)生洪災(zāi)的空間概率,主要可以分為統(tǒng)計分析方法和機(jī)器學(xué)習(xí)方法[17]。與定性的分析方法相比,數(shù)據(jù)驅(qū)動方法可以客觀地反映影響因子和洪水已發(fā)性之間的關(guān)系,需要更少的數(shù)據(jù)并且縮短了風(fēng)險評估所需時間[18]。對于研究人員來說,數(shù)據(jù)驅(qū)動方法可以從研究結(jié)果了解輸入數(shù)據(jù)的質(zhì)量和所用方法的弱點,對不同研究區(qū)域做對比研究。對于風(fēng)險管理者來說,數(shù)據(jù)驅(qū)動方法為風(fēng)險管理措施的優(yōu)先級排序和相關(guān)資源的分配提供了基礎(chǔ)[19]。在遙感圖像識別泛洪區(qū)域的技術(shù)不斷發(fā)展[20]以及GIS系統(tǒng)強(qiáng)大的空間分析能力[21]的驅(qū)動下,最近使用數(shù)據(jù)驅(qū)動方法進(jìn)行洪水風(fēng)險分析的英文文章數(shù)量不斷增加,文章的主要內(nèi)容主要集中于特定模型的應(yīng)用和模型之前的比較[22-23],中文文章還處于初步應(yīng)用階段。面對層出不窮的新的數(shù)據(jù)驅(qū)動方法的應(yīng)用,有必要對其進(jìn)行較為全面的概述,為水利水務(wù)相關(guān)研究者及管理部門提供學(xué)術(shù)研究和業(yè)務(wù)應(yīng)用的方法論參考。
統(tǒng)計分析的方法被廣泛地用于風(fēng)險評估的研究當(dāng)中,其優(yōu)點是建模過程和所得結(jié)果易于理解并且花費時間較少,缺點是在使用之前進(jìn)行了嚴(yán)格的假設(shè),在單獨使用時具有一定的局限性[24]。統(tǒng)計分析方法可以分為兩大類:二元統(tǒng)計分析(Bivariate Statistics Analysis,BSA)和多元統(tǒng)計分析(Multivariate Statistics Analysis,MSA)。
1.1.1二元統(tǒng)計分析
在洪水風(fēng)險評估研究中,二元統(tǒng)計分析的方法用于評價各等級評價因子對洪水發(fā)生之間的關(guān)聯(lián)性[24],二元統(tǒng)計分析方法可以單獨使用,也可以作為構(gòu)建機(jī)器學(xué)習(xí)模型的前處理步驟,排除關(guān)聯(lián)性較弱的評價因子以保證預(yù)測模型的準(zhǔn)確性。代表方法有頻率比(Frequency Ratio,F(xiàn)R)、證據(jù)權(quán)(Weight of Evidence,WofE)和信息量法[25]。
頻率比是一種實現(xiàn)簡單、易于理解的二元統(tǒng)計方法,通過計算得到的頻率比值,頻率比的值越大,洪水的發(fā)生與評價因子之間的關(guān)聯(lián)性越強(qiáng),比較不同評價因子頻率比值的大小可以識別出貢獻(xiàn)最大的因子。Samanta等[26]使用FR模型對印度Subarnarekha河下游進(jìn)行洪水風(fēng)險評估,選取11個可能的評價因子進(jìn)行分析,認(rèn)為強(qiáng)降水、農(nóng)業(yè)用地、較低高程和沖擊土壤類型是影響該地區(qū)洪水發(fā)生的主要影響因素。頻率比方法也被指出其缺點是忽略了變量之間有可能存在的線性關(guān)系[27]。
證據(jù)權(quán)方法已廣泛應(yīng)用于洪水[15]、滑坡[28]和山火[29]風(fēng)險評估研究,是一種基于貝葉斯概率模型的二元統(tǒng)計方法[30]。Costache等[31]選擇12個指標(biāo)對羅馬尼亞Izvorul Dorului河流域洪水爆發(fā)可能性進(jìn)行評估,并采用證據(jù)權(quán)法指出主要的地貌影響因素。多項研究對比了頻率比方法與證據(jù)權(quán)方法得到的權(quán)重,發(fā)現(xiàn)2種二元分析方法在識別主要風(fēng)險因素上得到的結(jié)果有很大的相似性[32-33]。
1.1.2多元統(tǒng)計分析
Logistic回歸是一種常用的多元統(tǒng)計分析方法,其原理是基于概率論及其參數(shù)值采用最大似然估計的方法進(jìn)行估計。該方法的優(yōu)點是數(shù)據(jù)不需要呈正態(tài)分布,并且影響因子的數(shù)據(jù)可以是連續(xù)的或離散的,也可以是2種類型的組合[34]。Logistic回歸模型在風(fēng)險評估問題中被用來確定各個因子對洪水形成的影響以及因子之間的相關(guān)性。Tehrany等[17]用FR-Logistic回歸集成模型對馬來西亞Kelantan地區(qū)進(jìn)行洪水風(fēng)險評估,F(xiàn)R模型作為二元統(tǒng)計分析工具獲取每個因子每級的權(quán)重,將得到的權(quán)重歸一化處理后作為Logistic回歸模型的輸入,利用Logistic回歸模型獲取每個因子和洪水事件之間的關(guān)系。曾忠平等[35]從互聯(lián)網(wǎng)媒體報告和公眾分享數(shù)據(jù)提取歷史洪災(zāi)數(shù)據(jù),采用Logistic回歸模型進(jìn)行洪澇災(zāi)害評價。
隨著機(jī)器學(xué)習(xí)理論的發(fā)展,機(jī)器學(xué)習(xí)技術(shù)與GIS空間分析技術(shù)耦合進(jìn)行洪水風(fēng)險評估已取得了較好的成果。與傳統(tǒng)的統(tǒng)計分析方法相比,機(jī)器學(xué)習(xí)模型能更準(zhǔn)確地表達(dá)洪水發(fā)生與環(huán)境因子之間的非線性關(guān)系,并且不要求環(huán)境因子呈正態(tài)分布,更適合在大面積區(qū)域使用[36]。運用到洪水風(fēng)險評估的主流方法有人工神經(jīng)網(wǎng)絡(luò)(ANN)、自適應(yīng)神經(jīng)模糊推理系統(tǒng)(ANFIS)、支持向量機(jī)(SVM)和決策樹(DT)等。
1.2.1機(jī)器學(xué)習(xí)建模評估洪水風(fēng)險概述
利用機(jī)器學(xué)習(xí)技術(shù)進(jìn)行洪水風(fēng)險評估的基本流程見圖1,可以大致分為數(shù)據(jù)準(zhǔn)備、機(jī)器學(xué)習(xí)模型的構(gòu)建、模型評估和風(fēng)險圖繪制等步驟。模型的輸入數(shù)據(jù)包括歷史洪水清單地圖和洪水影響因子等。歷史洪水清單地圖記錄了歷史洪水發(fā)生的空間位置、發(fā)生日期等信息,可以取自遙感衛(wèi)星影像[37]、機(jī)載激光雷達(dá)[38]、政府公報和報紙[39]等來源。為了訓(xùn)練機(jī)器學(xué)習(xí)模型并評估模型的預(yù)測和泛化能力,歷史洪水點位數(shù)據(jù)集還包括與洪水事件數(shù)量相同的非洪水事件數(shù)據(jù),其中洪水發(fā)生的數(shù)據(jù)由1表示,1的值表示存在,非洪水的位置由0表示,并按照一定的比例隨機(jī)分為訓(xùn)練數(shù)據(jù)集和驗證數(shù)據(jù)集。
在數(shù)據(jù)準(zhǔn)備過程中,選擇合適的影響因子是風(fēng)險評估的關(guān)鍵步驟。造成洪水的自然、社會因素多種多樣,目前沒有統(tǒng)一的選擇標(biāo)準(zhǔn),應(yīng)結(jié)合當(dāng)?shù)貙嵉乜疾烨闆r和專家意見決定。機(jī)器學(xué)習(xí)方法中主要采用的影響因子可以分為以下幾類:地形因素(海拔、坡度、高程、坡度角、曲率、巖性、與河流的距離等)、氣象因素(三日內(nèi)最大降雨量、風(fēng)暴潮頻率等)、人為因素(與主路的距離、植被覆蓋率、排水管網(wǎng)密度等)[39-41]。
圖1 機(jī)器學(xué)習(xí)建模評估洪水風(fēng)險流程
為了評估所用機(jī)器學(xué)習(xí)模型的精度,比較不同機(jī)器學(xué)習(xí)方法性能,常用的方法有統(tǒng)計參數(shù)計算、ROC曲線(Receiver Operating Characteristic)、ROC曲線下面積值(Area Under the Curve,AUC)等方法[42-43]。ROC曲線可以直觀地反映模型性能,ROC曲線是評估二分類機(jī)器學(xué)習(xí)模型性能的常用工具[23,44],以敏感性(真陽率)為橫坐標(biāo)、1-準(zhǔn)確率(假陽率)為縱坐標(biāo)繪制的,ROC曲線下面積AUC是直觀反映當(dāng)前機(jī)器學(xué)習(xí)模型準(zhǔn)確度的指標(biāo),AUC的值越大,說明模型的效果越好。
1.2.2人工神經(jīng)網(wǎng)絡(luò)
人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network,ANN)是模擬人類大腦神經(jīng)網(wǎng)絡(luò)設(shè)計的一種模型,它與生物神經(jīng)元類似,由多個節(jié)點(人工神經(jīng)元)互相連接而成,可以用來對數(shù)據(jù)之間的復(fù)雜關(guān)系進(jìn)行建模。ANN模型在水質(zhì)預(yù)測[45]、河流流量預(yù)測[46]、降雨徑流模型[47]等相關(guān)領(lǐng)域有著廣泛的應(yīng)用。
最早發(fā)明的簡單神經(jīng)網(wǎng)絡(luò)稱為前饋神經(jīng)網(wǎng)絡(luò),有時也被稱為多層感知器(Multi-layer Perceptron,MLP)[48],由輸入層、隱藏層和輸出層組成,輸入層輸入的是洪水的影響因子,輸出層為洪水發(fā)生或未發(fā)生網(wǎng)格單元,隱藏層將輸入轉(zhuǎn)為輸出。MLP模型常使用反向傳播算法(Back Propagation,BP)調(diào)整網(wǎng)絡(luò)的結(jié)構(gòu),算法最開始隨機(jī)選擇神經(jīng)元之間的初始權(quán)重,通過比較網(wǎng)絡(luò)計算輸出值與真實值之間的偏差,重新調(diào)整權(quán)重至獲得最小偏差。Costache等[49]比較了MLP模型和梯度提升樹模型在洪水空間預(yù)測上的準(zhǔn)確性,通過分析結(jié)果指出是因為MLP模型這種不斷試錯獲取最小偏差的方法使其獲得更高的預(yù)測準(zhǔn)確率。
深度學(xué)習(xí)起初是人工神經(jīng)網(wǎng)絡(luò)的隱藏層從結(jié)構(gòu)上向多層進(jìn)行拓展,在之后的發(fā)展中逐漸衍生出卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)、循環(huán)神經(jīng)網(wǎng)絡(luò)等等算法,在語音識別、數(shù)字圖像處理和自然語言處理等其他科學(xué)領(lǐng)域有著廣泛應(yīng)用[50]。以卷積神經(jīng)網(wǎng)絡(luò)為代表的深度學(xué)習(xí)算法可以直接對圖像形式數(shù)據(jù)進(jìn)行處理,提前將洪水歷史清單和影響因子圖像堆疊在一起合成一張“多通道圖像”,CNN可以直接從圖像中提取有用的信息。Wang等[51]采用一維、二維、三維3種數(shù)據(jù)表現(xiàn)形式結(jié)合卷積神經(jīng)網(wǎng)絡(luò)對江西上猶縣繪制了洪水風(fēng)險圖。其次,在面對大量數(shù)據(jù)集的問題時,深度學(xué)習(xí)模型占有很大的優(yōu)勢,Khosravi等[52]收集了伊朗2 769場洪水的空間點位數(shù)據(jù),采用CNN模型繪制全國范圍內(nèi)的洪水風(fēng)險圖,取得了較好的效果。
1.2.3自適應(yīng)神經(jīng)模糊推理系統(tǒng)
自適應(yīng)神經(jīng)模糊推理系統(tǒng)(Adaptive Neuro-Fuzzy Inference System,ANFIS)于1993年提出,是洪水風(fēng)險評估中很受歡迎的一種方法,它通過將人工神經(jīng)網(wǎng)絡(luò)和模糊邏輯相結(jié)合,提供了更高的學(xué)習(xí)能力,并且快速簡便易于實現(xiàn)[53]。盡管ANFIS在ANN的基礎(chǔ)上進(jìn)行了改進(jìn),但它的缺點是無法找到最佳參數(shù),容易陷入局部最小值[42]。針對這一缺陷,近期的研究通常采用優(yōu)化算法尋找最佳參數(shù),對ANFIS算法進(jìn)行改進(jìn)。Hong等[54]運用差分進(jìn)化算法和遺傳算法對ANFIS模型進(jìn)行改進(jìn),研究了江西橫峰縣的洪水危險性,分析發(fā)現(xiàn)ANFIS和差分進(jìn)化算法結(jié)合得到結(jié)果更快,洪水危險性區(qū)劃結(jié)果的準(zhǔn)確性更高。Wang等[55]使用BBO(Biogeograpgy Based Optimization)算法和ICA(Imperialistic Competitive Algotirhm)算法分別與ANFIS算法進(jìn)行結(jié)合,將贛州定南縣的洪水風(fēng)險區(qū)劃分為5級,研究結(jié)果顯示集成方法相較ANFIS在預(yù)測的準(zhǔn)確度上有很大提高。
1.2.4支持向量機(jī)
支持向量機(jī)(Support Vector Machine,SVM)是基于統(tǒng)計學(xué)習(xí)理論開發(fā)機(jī)器學(xué)習(xí)方法,其基本思想是將原始數(shù)據(jù)集從輸入空間映射到高維甚至無限維的特征空間,使分類問題在特征空間中變得更加簡單,通過學(xué)習(xí)已發(fā)生洪災(zāi)和未發(fā)生洪災(zāi)2類樣本,在高維特征空間尋找最優(yōu)分類超平面,將2類數(shù)據(jù)正確分開[56]。SVM算法的性能與核函數(shù)的選擇及參數(shù)取值緊密相關(guān)[57],常用的核函數(shù)有4種:線性(Linear)核函數(shù)、多項式(Polynomial)核函數(shù)、徑向基(Radial Basis Function,RBF)核函數(shù)和S型(Sigmoid)核函數(shù),見表1。Tehery等[58]選取馬來西亞Kuala Terengganu盆地作為風(fēng)險評估研究區(qū)域比較了上述4種不同核函數(shù)的支持向量機(jī)模型的預(yù)測效果,結(jié)果表明SVM-Sigmoid模型和訓(xùn)練集的擬合程度最好,而SVM-RBF的預(yù)測準(zhǔn)確率最高。
表1 常用的支持向量機(jī)核函數(shù)
支持向量機(jī)參數(shù)中的核函數(shù)參數(shù)及懲罰系數(shù)C一般使用交叉驗證的方法選取。傳統(tǒng)的參數(shù)估計方法耗時較長,因此Panahi等[59]采用元啟發(fā)式算法對參數(shù)搜索過程進(jìn)行改進(jìn),將方法用于伊朗西北部的Qazvin平原地區(qū),得到的區(qū)劃結(jié)果優(yōu)于傳統(tǒng)方法。SVM模型雖然泛化能力強(qiáng),缺點是很難識別出重要的變量。針對這一問題,有研究使用二元統(tǒng)計分析模型如FR、WoE等排除與洪水發(fā)生關(guān)聯(lián)性很小的影響因子降低模型輸入的不確定性,以求獲得更好的預(yù)測效果。Zhao等[39]認(rèn)為以前的研究工作對樣本點之外的數(shù)據(jù)集利用不足,導(dǎo)致在高度空間異質(zhì)化的城市地區(qū)使用效果不夠理想,因此提出采用半監(jiān)督式模型——弱標(biāo)記支持向量機(jī)對北京地區(qū)的易澇地區(qū)進(jìn)行識別,與其他模型對比發(fā)現(xiàn)弱標(biāo)記支持向量機(jī)的區(qū)劃結(jié)果展現(xiàn)出更多的街區(qū)和道路細(xì)節(jié),區(qū)劃結(jié)果更加合理。支持向量機(jī)是一種適用小樣本訓(xùn)練集的學(xué)習(xí)方法,在研究區(qū)域很大的情況下,訓(xùn)練集的數(shù)據(jù)量增大,SVM模型訓(xùn)練需要花費的時間成本會增加,可能在預(yù)測的準(zhǔn)確率上也會下降[60]。
1.2.5決策樹
決策樹(Decision Tree,DT)是由一些內(nèi)部決策節(jié)點和終端樹葉組成的樹結(jié)構(gòu)機(jī)器學(xué)習(xí)模型[61],在洪水風(fēng)險空間預(yù)測問題中,通常選取一定數(shù)量發(fā)生洪水的歷史事件和不發(fā)生洪水的隨機(jī)點位作為訓(xùn)練樣本,按照一定的屬性選擇度量逐級遞歸分割,直到每個節(jié)點只有一種類型或記錄數(shù)低于某個閾值,從而構(gòu)建起決策樹。決策樹模型的特點是簡單易于使用,離散和連續(xù)的數(shù)據(jù)均能進(jìn)行處理,且輸入數(shù)據(jù)不需標(biāo)準(zhǔn)化[62];其另一特點是可以在模型訓(xùn)練過程中找到對洪水是否發(fā)生產(chǎn)生關(guān)鍵性影響的因素,并且隨著樹自上而下移動,影響因素的重要性依次降低[17]。Wang等[63]使用決策樹的算法之一——分類回歸樹模型對江西鄱陽12個洪水風(fēng)險因素進(jìn)行識別,根據(jù)分類回歸樹的訓(xùn)練結(jié)果,與該地區(qū)洪水發(fā)生最相關(guān)的3個地理因素分別是坡度、高程和土壤種類。
隨機(jī)森林(Random Forest,RF)是另外一個洪水風(fēng)險評估常用的決策樹衍生模型,其實質(zhì)是將許多決策樹合并在一起,提高了模型的預(yù)測精度,并且能處理數(shù)據(jù)量較大的訓(xùn)練集。Zhao等[64]在中國大尺度范圍內(nèi)進(jìn)行了山區(qū)洪水風(fēng)險評估,對RF、ANN、SVM算法進(jìn)行了對比,結(jié)果發(fā)現(xiàn)RF模型表現(xiàn)出最佳的性能。吳小君等[65]從觸發(fā)因子、下墊面孕災(zāi)環(huán)境和承災(zāi)體角度選取9個評價指標(biāo)識別出了江西省的山洪高發(fā)區(qū)域,隨機(jī)森林算法在研究中表現(xiàn)出較好的預(yù)測準(zhǔn)確性。
對洪水風(fēng)險評估中的數(shù)據(jù)驅(qū)動方法做了綜述性回顧,將其分為統(tǒng)計分析方法和機(jī)器學(xué)習(xí)方法,探討了不同方法下優(yōu)化發(fā)展方向,比較了各種方法的優(yōu)點及局限性。筆者認(rèn)為以下幾個問題還需要深入解決。
a)確定評價指標(biāo)之間的線性關(guān)系及其影響。洪水事件受多方面的因素的影響,根據(jù)研究區(qū)域的不同地理特征和數(shù)據(jù)的獲取情況,評價指標(biāo)的選擇具有地區(qū)差異性。一個評價指標(biāo)可能對特定區(qū)域的洪水具有高影響性,對另外一地區(qū)影響甚微。因此在研究中對評價指標(biāo)的相對重要性作分析是很重要的步驟,主要方法有信息增益[49]、頻率比、隨機(jī)森林[66]和SWARA法[67]。值得注意的是,有文章觀察到增加指標(biāo)數(shù)量有助于模型精確度的提高[64],但指標(biāo)之間還會存在多重線性的關(guān)系,其線性關(guān)系對于模型精確度的影響還有待探討。
b)遙感識別技術(shù)與風(fēng)險評估模型的進(jìn)一步集成。遙感圖像識別模型與風(fēng)險評估評估模型的集成也有待進(jìn)一步擴(kuò)展。洪水風(fēng)險評估依賴于較高精度的數(shù)據(jù)高程模型數(shù)據(jù)(DEM),而新的衛(wèi)星發(fā)射帶來了更好的傳感器,更短的返回周期,更快的圖像采集和處理,讓更高質(zhì)量和更高分辨率的遙感數(shù)據(jù)變得更容易獲取[68]。已有機(jī)器學(xué)習(xí)算法如決策樹模型用于從數(shù)據(jù)中提取更準(zhǔn)確、更大量的信息,這為洪水風(fēng)險管理提供更廣闊的空間[24]。拓展遙感圖像識別的模型與洪水風(fēng)險評估模型集成,將有利于快速評估災(zāi)害狀況和需求,有利于災(zāi)情的快速分析和管理。
c)離散化處理和尺度效應(yīng)的影響。在洪水風(fēng)險分析影響因子中,有土地利用類型、土壤類型等離散型數(shù)據(jù)和坡度、坡向等大量連續(xù)性數(shù)據(jù),空間分析柵格化時需要對這些連續(xù)數(shù)據(jù)進(jìn)行離散化處理。連續(xù)數(shù)據(jù)的離散化處理過程中造成的圖層信息損失以及不同尺度的柵格給預(yù)測結(jié)果帶來的影響需要進(jìn)一步的分析。
d)拓展機(jī)器學(xué)習(xí)模型方法。數(shù)據(jù)驅(qū)動方法應(yīng)用的更新存在以下幾個趨勢:一是不同機(jī)器學(xué)習(xí)方法聯(lián)合使用,相較于單一模型,集成模型從泛化能力、求解速度和預(yù)測準(zhǔn)確性方面都具有顯著的優(yōu)越性;二是機(jī)器學(xué)習(xí)模型和模糊系統(tǒng)、統(tǒng)計方法集成;三是機(jī)器學(xué)習(xí)模型與尋優(yōu)算法集成。數(shù)據(jù)驅(qū)動方法在不斷增多,不同的研究區(qū)域和不同規(guī)模的樣本和數(shù)據(jù)集,模型的性能表現(xiàn)有所不同。但從現(xiàn)有的文章來看,還沒有哪個模型在各種研究區(qū)域都擁有絕對的優(yōu)勢,更高質(zhì)量的集成模型仍有待進(jìn)一步探索。