劉振男 周靖楠 陸之洋 徐桂弘
摘 要:徑流預(yù)測(cè)對(duì)合理利用有限的水資源至關(guān)重要?;诔梢蚍治龇?、主成分分析法(PCA法)、核主成分分析法(KPCA法)分別構(gòu)建3種不同的模型輸入方案,并采用自適應(yīng)模糊推論系統(tǒng)(ANFIS模型)對(duì)河南省北汝河汝州水文站月徑流量進(jìn)行預(yù)測(cè),依據(jù)均方根誤差與相關(guān)系數(shù)對(duì)預(yù)測(cè)精度進(jìn)行評(píng)價(jià),從而明晰不同變量選擇方法在徑流預(yù)測(cè)當(dāng)中的應(yīng)用效果。結(jié)果表明:ANFIS模型適用于研究區(qū)的徑流預(yù)測(cè)。PCA法、KPCA法分別構(gòu)建的模型輸入方案與成因分析法得到的方案相比,不但變量數(shù)目大幅減少,而且徑流預(yù)測(cè)精度亦有大幅度的提高。與此同時(shí),PCA法較KPCA法更適合重建研究區(qū)的徑流預(yù)測(cè)變量方案。另外發(fā)現(xiàn),模型運(yùn)行時(shí)間與輸入方案中的變量個(gè)數(shù)關(guān)系緊密,即變量個(gè)數(shù)越少,運(yùn)行時(shí)間越短。
關(guān)鍵詞:徑流預(yù)測(cè);主成分分析法;核主成分分析法;自適應(yīng)模糊推論系統(tǒng);預(yù)測(cè)因子
中圖分類號(hào):TP391.9 文獻(xiàn)標(biāo)志碼:A
doi:10.3969/j.issn.1000-1379.2021.07.008
引用格式:劉振男,周靖楠,陸之洋,等.不同輸入方案對(duì)徑流預(yù)測(cè)精度的影響研究[J].人民黃河,2021,43(7):41-44.
Abstract: Runoff prediction is very important for rational utilization of limited water resources. Based on the cause analysis method, PCA, KPCA and ANFIS model, the monthly runoff of RuzhouHydrology Station on the Beiru River in Henan Province was predicted. By means of root-mean-square error and correlation coefficient, the influence of different input schemes selected by different variable selection methods on runoff prediction accuracy was studied. The results show that the ANFIS model is suitable for runoff prediction in the study area. Compared with the schemes obtained by cause analysis, the input schemes constructed by PCA and KPCA respectively not only have a sharp decrease in the number of variables, but also greatly improve the accuracy of runoff prediction. Meanwhile, PCA is more suitable to reconstruct the runoff prediction variable scheme than that of KPCA. In addition, it is found that the running time of the model is closely related to the number of variables in the input scheme, that is, the smaller the number of variables, the shorter the running time.
Key words: runoff forecast; PCA; KPCA; ANFIS; forecasting factor
隨著我國(guó)經(jīng)濟(jì)快速發(fā)展,各行各業(yè)對(duì)水資源的需求量越來(lái)越大,因此合理有效地利用水資源至關(guān)重要,而徑流的準(zhǔn)確預(yù)測(cè)對(duì)于高效地分配有限的水資源具有重要的現(xiàn)實(shí)意義[1]。眾所周知,大量不確定因素會(huì)對(duì)徑流量的多少產(chǎn)生影響,給徑流預(yù)測(cè)工作帶來(lái)諸多挑戰(zhàn),如何有效地提高徑流預(yù)測(cè)精度已成為水文預(yù)報(bào)研究領(lǐng)域的熱點(diǎn)。傳統(tǒng)的預(yù)測(cè)方法主要是根據(jù)河川徑流自身存在的連續(xù)性、周期性等特點(diǎn)進(jìn)行預(yù)測(cè),如成因分析法、數(shù)理統(tǒng)計(jì)法以及時(shí)間序列法[2]。上述方法雖然能夠較好地完成徑流預(yù)測(cè)任務(wù),但對(duì)資料質(zhì)量要求較高且需要進(jìn)行較為深入的物理成因分析,增加了徑流預(yù)測(cè)的工作量。為了簡(jiǎn)化徑流預(yù)測(cè)工作流程、提高預(yù)測(cè)精度,模糊數(shù)學(xué)法、混沌理論以及人工神經(jīng)網(wǎng)絡(luò)等方法被廣泛應(yīng)用[3]。實(shí)踐證明,以上新興方法不但能夠提高徑流預(yù)測(cè)精度,而且不用過(guò)多地進(jìn)行物理成因分析,從而達(dá)到簡(jiǎn)化徑流預(yù)測(cè)工作流程的目的。王佳等[4]基于集合經(jīng)驗(yàn)?zāi)B(tài)分解法與人工神經(jīng)網(wǎng)絡(luò)法提出了一種新的預(yù)測(cè)模型(EEMD-ANN),并成功應(yīng)用于黃河龍羊峽水庫(kù)的月徑流預(yù)測(cè)當(dāng)中;張瀟等[5]基于奇異譜分析和ARIMA模型對(duì)青弋江西河鎮(zhèn)站月徑流進(jìn)行了預(yù)測(cè),較單一的ARIMA模型精度有了大幅度提高;張敬平等[6]基于經(jīng)驗(yàn)?zāi)B(tài)分解與徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)提出了一種預(yù)測(cè)模型,且完成了徑流預(yù)測(cè)任務(wù)。綜上可知,研究人員主要將精力集中在預(yù)測(cè)模型的改進(jìn)工作中,往往忽略了客觀存在的事實(shí),即模型的輸入方案亦會(huì)對(duì)預(yù)測(cè)精度產(chǎn)生顯著影響。優(yōu)選高效的變量作為模型輸入,不但能夠提升模型運(yùn)行效率,而且對(duì)提高模型預(yù)測(cè)精度亦為關(guān)鍵。
目前,常用的模型輸入變量篩選方法主要有以下兩種:一是成因分析法,即借助氣象學(xué)、水文學(xué)等理論知識(shí),從徑流形成的物理機(jī)制入手,深入研究相關(guān)氣象、下墊面等因素對(duì)徑流形成的直接作用,從而篩選出對(duì)徑流具有顯著影響的因素作為預(yù)測(cè)因子,該方法的優(yōu)勢(shì)在于能夠給出徑流量多少的合理解釋,但其內(nèi)在規(guī)律很難被完全揭示;二是數(shù)理統(tǒng)計(jì)法,即運(yùn)用統(tǒng)計(jì)學(xué)等理論知識(shí),基于數(shù)據(jù)挖掘理念,以相關(guān)分析等方法為手段,篩選與徑流存在顯著統(tǒng)計(jì)關(guān)系的因素作為預(yù)測(cè)因子。為了進(jìn)一步簡(jiǎn)化模型輸入方案、提高預(yù)測(cè)精度,在相關(guān)分析的基礎(chǔ)上,主成分分析法能夠有效地對(duì)預(yù)測(cè)變量進(jìn)行降維,進(jìn)而達(dá)到減少模型輸入因子數(shù)量的目的,但是該方法主要是對(duì)原有預(yù)測(cè)變量進(jìn)行線性降維,而徑流與其影響因素間或多或少摻雜著非線性關(guān)系,顯然需要一種能夠處理非線性關(guān)系的降維方法,核主成分分析法就是典型代表方法之一。
主成分分析法與核主成分分析法在徑流預(yù)測(cè)因子篩選中的應(yīng)用研究還鮮有報(bào)道,因此有必要系統(tǒng)地展開(kāi)相關(guān)研究。筆者以北汝河的水文數(shù)據(jù)為基礎(chǔ),基于自適應(yīng)模糊推論系統(tǒng),就主成分分析法與核主成分分析法選擇的不同輸入變量對(duì)徑流(月均流量)預(yù)測(cè)精度的影響展開(kāi)研究,既可以完成研究區(qū)的徑流預(yù)測(cè)工作,又可以探明適用于研究區(qū)的徑流預(yù)測(cè)輸入變量選擇方法,以期為當(dāng)?shù)氐乃Y源合理規(guī)劃提供參考。
1 研究方法
1.1 主成分分析法
主成分分析法(Principal Component Analysis,PCA)是一種數(shù)學(xué)降維方法,即將大量的具有一定線性相關(guān)性的變量重新組合,形成一組具有較少個(gè)數(shù)的互不相關(guān)的新變量并取代原有變量,詳細(xì)原理可以參見(jiàn)文獻(xiàn)[7]。具體計(jì)算步驟可簡(jiǎn)述如下:①計(jì)算原變量的相關(guān)系數(shù)矩陣;②求出相關(guān)系數(shù)矩陣的特征值以及相應(yīng)的正交化單位特征向量;③選擇主成分;④計(jì)算主成分得分;⑤確定最終新變量。
1.2 核主成分分析法
核主成分分析法(Kernel Principal Component Analysis,KPCA)是一種經(jīng)典的多元統(tǒng)計(jì)方法,是在PCA的基礎(chǔ)上改進(jìn)而來(lái)的一種能夠處理非線性關(guān)系的降維方法,其改進(jìn)思想為將原有的多個(gè)變量通過(guò)核方法(非線性)映射到高維特征空間,從而在高維空間上進(jìn)行主成分分析以達(dá)到數(shù)據(jù)降維的目的,最終確定能夠取代原有變量的少數(shù)新變量,詳細(xì)原理可以參見(jiàn)文獻(xiàn)[8]。具體計(jì)算步驟可簡(jiǎn)述如下:①計(jì)算原變量的核矩陣;②執(zhí)行核矩陣中心化操作;③計(jì)算核矩陣的特征值和特征向量;④數(shù)據(jù)重建;⑤確定最終新變量。
1.3 自適應(yīng)模糊推論系統(tǒng)
自適應(yīng)模糊推論系統(tǒng)(Adaptive Network-Based Fuzzy Inference System,ANFIS)是由Jang于1993年提出來(lái)的一種耦合模型[9],該模型集成了模糊邏輯與神經(jīng)網(wǎng)絡(luò)的優(yōu)點(diǎn),采用反向傳播算法與最小二乘法對(duì)初始參數(shù)進(jìn)行優(yōu)化調(diào)整,從而自動(dòng)產(chǎn)生If-Then規(guī)則。事實(shí)上,ANFIS是一種基于Takagi-Sugeno(T-S)模型的模糊推理系統(tǒng),一階T-S模糊推論系統(tǒng)的ANFIS模型流程如圖1所示。其中:x與y為輸入;A1、A2、B1、B2為模糊集合;λ與k為ANFIS的前件參數(shù),是調(diào)整隸屬度函數(shù)的關(guān)鍵參數(shù);∏代表模糊規(guī)則;N代表歸一化規(guī)則;w1與w2為模糊規(guī)則的可信度;1與2為可信度的歸一化形式;h1 與h2為規(guī)則結(jié)論;h為最終輸出。
顯然,ANFIS是一個(gè)多層前饋網(wǎng)絡(luò)模型。其中:第1層為輸入的隸屬函數(shù)層,第2層為規(guī)則的強(qiáng)度釋放層,第3層為規(guī)則強(qiáng)度的歸一化層,第4層為自適應(yīng)節(jié)點(diǎn)層,第5層為計(jì)算輸出層。
2 徑流預(yù)測(cè)及影響分析
2.1 研究區(qū)概述
北汝河位于河南省境內(nèi),是潁河水系的主要支流,干流長(zhǎng)約250 km,流域面積約5 670 km2。該流域?qū)俅箨懶约撅L(fēng)氣候區(qū),多年平均氣溫約14 ℃,多年平均水面蒸發(fā)量1 000 mm,多年平均降水量750 mm,春冬兩季干燥少雨,夏季炎熱多雨,降水時(shí)空分布不均,年際、年內(nèi)變化較大,汛期降水約占總降水量的62%,受季風(fēng)影響易出現(xiàn)特大暴雨。由于北汝河支流較多,干流上無(wú)控制性水利工程,流域洪水主要由暴雨導(dǎo)致,中上游河道坡度較大,匯流速度較快,易發(fā)生突發(fā)性洪澇災(zāi)害,因此對(duì)北汝河開(kāi)展徑流預(yù)測(cè)研究對(duì)當(dāng)?shù)胤篮闇p災(zāi)工作具有重要的現(xiàn)實(shí)意義。
2.2 數(shù)據(jù)處理
研究所用資料為1985—2016年汝州水文站逐月降水量、土壤含水量、蒸發(fā)量以及徑流量數(shù)據(jù),數(shù)據(jù)來(lái)源可靠。由產(chǎn)匯流理論可知,徑流量與前期降水量、土壤含水量以及蒸發(fā)量之間存在一定的物理成因關(guān)系,因此前期降水量、土壤含水量以及蒸發(fā)量對(duì)徑流量的影響作用具有一定的滯后性。基于降水量、土壤含水量以及蒸發(fā)量,選用12個(gè)月為最大提前期,初步建立了含有36(12×3)個(gè)變量的徑流預(yù)測(cè)待選因子集。預(yù)測(cè)待選因子具體描述如下:降水預(yù)測(cè)因子為P(t-i)(t代表時(shí)間),土壤含水量因子為S(t-i),蒸發(fā)量因子為E(t-i)。其中,i(i=1,2,…,12)表示提前期,例如P(t-1)代表提前一個(gè)月的降水量數(shù)據(jù),其余的依此類推。
2.3 輸入方案的確定
為了全方位比較不同方法確定的模型輸入方案對(duì)預(yù)測(cè)精度產(chǎn)生的影響,基于成因分析法、PCA法與KPCA法設(shè)計(jì)了3種不同的模型輸入方案。
(1)由成因分析法可知,含有36個(gè)待選預(yù)測(cè)變量的因子集中的每個(gè)因子均與徑流存在一定的關(guān)系,因此第1種模型輸入方案為待選預(yù)測(cè)因子集中的全部變量,即輸入方案1含有36個(gè)變量。
(2)應(yīng)用PCA法對(duì)變量進(jìn)行降維之前需要對(duì)變量間的相關(guān)性進(jìn)行分析。若變量間的相關(guān)性較強(qiáng),則有必要運(yùn)用PCA法對(duì)原有變量進(jìn)行主成分提取;否則,不存在使用PCA法對(duì)原有變量進(jìn)行降維的基礎(chǔ)。為此,計(jì)算得到了36個(gè)待選變量間的相關(guān)系數(shù)矩陣,其表明,大多數(shù)變量間存在顯著的線性相關(guān)性,除了自相關(guān)以外,正相關(guān)系數(shù)最大值為0.667 7,負(fù)相關(guān)系數(shù)最小值為-0.499 1。顯然,可用PCA法對(duì)36個(gè)變量進(jìn)行降維操作,故采用MATLAB軟件編程對(duì)上述變量執(zhí)行PCA操作,累計(jì)貢獻(xiàn)率設(shè)置為0.9,最終形成含有7個(gè)變量的模型輸入方案2。
(3)在36個(gè)變量的基礎(chǔ)上直接運(yùn)用KPCA法執(zhí)行降維操作,同樣借助MATLAB軟件編程,累計(jì)貢獻(xiàn)率同樣設(shè)置為0.9,最終重組形成含有8個(gè)變量的模型輸入方案3。
為了提高模型運(yùn)行效率,對(duì)3種輸入方案中的預(yù)測(cè)變量以及徑流數(shù)據(jù)按照式(1)統(tǒng)一進(jìn)行了歸一化處理。
式(1)為正向變量(降水量、土壤含水量)的歸一化公式,需補(bǔ)充反向變量(蒸發(fā)量)的歸一化公式?
式中:xnor為歸一化數(shù)據(jù);x為原始數(shù)據(jù);xmax與xmin分別為原始數(shù)據(jù)中的最大值與最小值。
通過(guò)上述歸一化方法,可將原始數(shù)據(jù)控制在[-1,1]之間。模型計(jì)算后,再將輸出結(jié)果進(jìn)行反歸一化處理,得到最終預(yù)測(cè)結(jié)果。
2.4 模型構(gòu)建
根據(jù)ANFIS模型原理,應(yīng)用MATLAB軟件編程。其中,采用genfis3函數(shù)生成ANFIS的初始結(jié)構(gòu),模型迭代代數(shù)為300,隸屬函數(shù)為高斯函數(shù),其數(shù)目設(shè)置為10。模型訓(xùn)練期為1985—2012年,測(cè)試期為2013—2016年。預(yù)測(cè)效果的評(píng)價(jià)指標(biāo)采用均方根誤差(RMSE)和相關(guān)系數(shù)(CORR)。RMSE的值越接近0且CORR的值越接近1,說(shuō)明預(yù)測(cè)精度越高。
式中:pi為預(yù)測(cè)值;qi為實(shí)測(cè)值;為預(yù)測(cè)平均值;為實(shí)測(cè)平均值。
考慮到模型運(yùn)行的不穩(wěn)定性,3種輸入方案結(jié)合ANFIS分別運(yùn)行10次,最終計(jì)算RMSE與CORR的平均值對(duì)徑流預(yù)測(cè)精度進(jìn)行評(píng)價(jià)。
2.5 結(jié)果分析
基于輸入方案1~3,結(jié)合ANFIS模型對(duì)北汝河的徑流情況進(jìn)行預(yù)測(cè),精度評(píng)價(jià)情況見(jiàn)表1。由表1可知,ANFIS模型具有良好的泛化能力,即模型訓(xùn)練期的評(píng)價(jià)指標(biāo)RMSE與CORR優(yōu)于測(cè)試期的,且ANFIS模型適用于研究區(qū)的徑流預(yù)測(cè),預(yù)測(cè)結(jié)果具有較高的可靠性。同時(shí)發(fā)現(xiàn),模型運(yùn)行時(shí)間與模型輸入方案中變量數(shù)目有關(guān),即輸入方案中變量數(shù)目越大,模型運(yùn)行時(shí)間越長(zhǎng)。應(yīng)用不同輸入方案時(shí),模型的運(yùn)行時(shí)間從長(zhǎng)到短的順序?yàn)椋悍桨?(36個(gè)變量)>方案3(8個(gè)變量)>方案2(7個(gè)變量)。預(yù)測(cè)精度由高到低的順序?yàn)椋悍桨?>方案3>方案1。
為了評(píng)價(jià)不同輸入方案對(duì)預(yù)測(cè)模型運(yùn)行穩(wěn)定性的影響,采用箱線圖進(jìn)行評(píng)價(jià),圖中箱體越短表示預(yù)測(cè)模型運(yùn)行的穩(wěn)定性越高。ANFIS模型基于3種不同輸入方案分別運(yùn)行了10次,因此分別繪制了ANFIS模型基于不同輸入方案運(yùn)行結(jié)果的箱線圖,如圖2所示。整體上來(lái)看,RMSE表現(xiàn)出來(lái)的穩(wěn)定性不及CORR。測(cè)試期,3種方案的穩(wěn)定性能大體一致;訓(xùn)練期,由PCA法與KPCA法構(gòu)建的方案2與方案3的運(yùn)行穩(wěn)定性明顯優(yōu)于未進(jìn)行任何改進(jìn)的方案1的運(yùn)行穩(wěn)定性。
為了直觀地比較ANFIS模型結(jié)合不同輸入方案所得預(yù)測(cè)結(jié)果的精度,圖3給出了基于不同輸入方案所得預(yù)測(cè)結(jié)果與實(shí)測(cè)值的對(duì)比。顯然,ANFIS模型結(jié)合方案2與方案3所得的預(yù)測(cè)結(jié)果較結(jié)合方案1所得的預(yù)測(cè)結(jié)果更加接近實(shí)測(cè)值。
以上結(jié)果說(shuō)明:由PCA法與KPCA法重建的模型輸入方案不但能夠有效提高徑流預(yù)測(cè)精度,而且還有助于提高模型運(yùn)行的穩(wěn)定性。與此同時(shí),由于原始預(yù)測(cè)變量間存在較為顯著的線性相關(guān)關(guān)系,因此由PCA法重建的方案2的徑流預(yù)測(cè)精度又高于由KPCA法重建的方案3的。
3 結(jié) 論
以北汝河水文數(shù)據(jù)為研究基礎(chǔ),基于PCA法與KPCA法重建了徑流預(yù)測(cè)模型輸入方案,結(jié)合預(yù)測(cè)模型ANFIS,分析了不同輸入方案對(duì)徑流預(yù)測(cè)精度產(chǎn)生的影響。結(jié)果表明:ANFIS模型適用于研究區(qū)的徑流預(yù)測(cè)工作,由成因分析法、PCA法及KPCA法組建的3種模型輸入方案均能得到較為滿意的徑流預(yù)測(cè)結(jié)果。其中,由PCA法與KPCA法組建的輸入方案的預(yù)測(cè)精度較成因分析法組建的輸入方案的預(yù)測(cè)精度有大幅度提高,模型運(yùn)行時(shí)間也有了相應(yīng)的縮短。與此同時(shí),由于原始預(yù)測(cè)變量間存在較為顯著的線性相關(guān)性,因此PCA法較KPCA法更適合重建研究區(qū)的徑流預(yù)測(cè)因子。
參考文獻(xiàn):
[1] 張金萍,李紅賓,肖宏林,等.基于誤差修正模型的黃河源區(qū)年徑流預(yù)測(cè)[J].人民黃河,2020,42(7):5-8.
[2] 王文,馬駿.若干水文預(yù)報(bào)方法綜述[J].水利水電科技進(jìn)展,2005,25(1):56-60.
[3] 桑宇婷,趙雪花,祝雪萍,等.基于CEEMD-BP模型的汾河上游月徑流預(yù)測(cè)[J].人民黃河,2019,41(8):1-5.
[4] 王佳,王旭,王浩,等.基于EEMD與ANN混合方法的水庫(kù)月徑流預(yù)測(cè)[J].人民黃河,2019,41(5):47-50.
[5] 張瀟,夏自強(qiáng),黃峰,等.基于SSA-ARIMA模型的青弋江干流徑流預(yù)測(cè)[J].中國(guó)農(nóng)村水利水電,2015(3):6-9.
[6] 張敬平,黃強(qiáng),趙雪花.經(jīng)驗(yàn)?zāi)B(tài)分解和RBF網(wǎng)絡(luò)在徑流預(yù)測(cè)中的應(yīng)用[J].干旱區(qū)資源與環(huán)境,2014(6):118-123.
[7] WOLD S, ESBENSEN K, GELADI P. Principal Component Analysis[J].Chemometrics and Intelligent Laboratory Systems,1987,2(1-3):37-52.
[8] SCHOLKOPF B, SMOLA A, MULLER K R. Kernel Principal Component Analysis[C]//International Conference on Artificial Neural Networks. Heidelberg, Berlin: Springer, 1997:583-588.
[9] JANG J S R. ANFIS: Adaptive-Network-Based Fuzzy Inference System[J].IEEE Transactions on Systems, Man, and Cybernetics,1993,23(3):665-685.
【責(zé)任編輯 張 帥】