王曉鵬
(遼寧省水利水電勘測(cè)設(shè)計(jì)研究院有限責(zé)任公司,遼寧 沈陽(yáng) 110006)
泥沙淤積現(xiàn)已成為多數(shù)已建水庫(kù)正常運(yùn)用的制約條件,尤其對(duì)于北方水庫(kù),天然徑流量年內(nèi)分布極不均勻,大部分來(lái)水幾乎都集中在汛期,而汛期的來(lái)沙量也占到全年來(lái)沙量的80%以上。多泥沙河流水庫(kù)的入庫(kù)沙量主要是由汛期洪水?dāng)y帶入庫(kù),因此,入庫(kù)洪量和沙量的相關(guān)關(guān)系,對(duì)于研究發(fā)揮水庫(kù)綜合效益與排沙之間的矛盾是非常有意義的。入庫(kù)沙量的預(yù)報(bào)具有影響因素多、不確定性強(qiáng)等特點(diǎn)。由于下墊面對(duì)降雨復(fù)雜的作用機(jī)制,對(duì)于不同的下墊面條件,即使降雨量和降雨過(guò)程相同,產(chǎn)沙量也相差甚遠(yuǎn);而對(duì)于相同的下墊面條件,降雨量、降雨過(guò)程等降雨特征也直接決定了產(chǎn)沙量的大小。
本文通過(guò)統(tǒng)計(jì)分析鬧德海水庫(kù)的入庫(kù)水量、沙量資料,以鬧德海水庫(kù)所在的柳河流域?yàn)檠芯繉?duì)象,對(duì)比分析柳河流域的不同支流流域下墊面情況,對(duì)水庫(kù)入庫(kù)沙量的影響因子進(jìn)行離散化處理,利用決策樹(shù)數(shù)據(jù)挖掘技術(shù),建立各項(xiàng)因素之間的關(guān)系,達(dá)到預(yù)測(cè)水庫(kù)入庫(kù)沙量的目的。
決策樹(shù)技術(shù)是一種被廣泛應(yīng)用的邏輯方法,利用大數(shù)據(jù)原理,在看似不存在相關(guān)關(guān)系的樣本數(shù)據(jù)中,對(duì)數(shù)據(jù)進(jìn)行分類(lèi)、歸納和總結(jié),分析出一種決策樹(shù)式的相關(guān)關(guān)系規(guī)則。決策樹(shù)技術(shù)建立了由上至下的遞歸的形式,決策樹(shù)形式中的每一個(gè)節(jié)點(diǎn)代表了一個(gè)屬性,該屬性以屬性增量或者遞增率作為啟發(fā)信息,對(duì)樣本數(shù)據(jù)進(jìn)行離散;決策樹(shù)中的分支則表示著屬性的輸出。
決策樹(shù)技術(shù)主要包括ID3算法和C4.5算法。ID3算法是一種較為基礎(chǔ)的算法,目前使用較為廣泛的算法大部分以ID3算法作為基礎(chǔ)。C4.5算法以ID3算法為基礎(chǔ),并進(jìn)行了一定改進(jìn)。C4.5算法與ID3算法一樣采用增量最大的屬性作為決策樹(shù)結(jié)構(gòu)的結(jié)點(diǎn),但是卻改善了ID3算法偏向于取值多的屬性缺點(diǎn),本文中將采用較為先進(jìn)的C4.5算法進(jìn)行分析建模研究。
分析降雨產(chǎn)沙量首先需要找到影響降雨產(chǎn)沙量的因素,然后利用歷史降雨及產(chǎn)沙量資料建立模型,擬合水庫(kù)入庫(kù)水沙關(guān)系。
本次研究選取降雨中心分布、降雨過(guò)程分布值a、最大3h降雨量、前期影響雨量Pa、水庫(kù)入庫(kù)輸沙量5個(gè)因素作為模型的影響因子。降雨中心分布的差異直接體現(xiàn)了不同下墊面的宏觀(guān)差異,對(duì)降雨產(chǎn)沙量影響較大;降雨過(guò)程分布值a,反映了單次降雨的過(guò)程和降雨強(qiáng)度,是影響產(chǎn)沙量的另一個(gè)重要因素;最大3h降雨量,對(duì)于北方降雨基本可以反映單次降雨的總降雨量,宏觀(guān)上決定了水量和沙量的關(guān)系;前期影響雨量Pa,根據(jù)產(chǎn)流原理,蓄滿(mǎn)產(chǎn)流的前期影響雨量決定了單次降雨的徑流量。
各個(gè)影響因子有n個(gè)數(shù)據(jù)樣本,水庫(kù)入庫(kù)沙量為模型輸出因子,降雨中心分布、降雨過(guò)程分布值a、最大3h降雨量、前期影響雨量Pa為輸入因子。輸出因子存在m個(gè)樣本數(shù)值,定義m個(gè)Pi(i=1,2,…,m)。任意一個(gè)樣本數(shù)據(jù)的期望值為
假設(shè)輸入因子I有p個(gè)不同取值{a1,a2,…,ak},可用因子I將指定數(shù)據(jù)集合S分為P個(gè)子集合{C1,C2,…,Ck}。假設(shè)I為影響因子,則由P集合衍生的分支與該子集為對(duì)應(yīng)關(guān)系。假設(shè)子集Ci中Pi的樣本數(shù)為pij,那么I子集的熵為
根據(jù)上述公式,對(duì)于特定的子集Cj的期望值為
期望值和熵值可獲得信息增率,對(duì)于輸入因子I上的分支,可以由Gain(A)=I(p1,p2,…,pm)-E(A)得到,則信息增率公式為
以該分支的集合增率繼續(xù)分解樣本,直到劃分完所有因子為止,從而得到水庫(kù)入庫(kù)沙量這個(gè)輸出因子的決策樹(shù)模型。
決策樹(shù)技術(shù)模擬單次降雨的輸沙量,需要對(duì)各項(xiàng)輸入因子進(jìn)行離散處理,處理后的輸入因子作為決策樹(shù)的節(jié)點(diǎn),并以此繼續(xù)進(jìn)行向下分支,以該分支的數(shù)據(jù)對(duì)樣本進(jìn)行持續(xù)劃分,直到劃分完所有因子為止(見(jiàn)圖1)。
圖1 決策樹(shù)分類(lèi)示意圖
選取降雨中心分布、降雨過(guò)程分布值a、最大3h降雨量、前期影響雨量Pa這4個(gè)因素作為模型的輸入因子,水庫(kù)入庫(kù)輸沙量作為模型的輸出因子,分別對(duì)各項(xiàng)因子進(jìn)行離散處理。離散分級(jí)情況見(jiàn)表1。
表1 因子的離散分級(jí)情況
本文選擇遼寧省鬧德海水庫(kù)進(jìn)行決策樹(shù)入庫(kù)沙量模擬,以最大3h降雨量為決策樹(shù)模型的主要輸入因子,降雨中心分布作為次要輸入因子建立決策樹(shù)模型(見(jiàn)圖2)。
圖2 鬧德海水庫(kù)降雨輸沙量預(yù)報(bào)決策樹(shù)模型
若最大3h降雨量為1~2級(jí),降雨中心主要分布在石門(mén)子流域,則入庫(kù)輸沙量為1~3級(jí),降雨過(guò)程分布值a越大,輸沙量越大,若降雨中心分布屬于均勻分布,則入庫(kù)輸沙量為3級(jí);若最大3h降雨量為3級(jí),降雨中心主要分布在石門(mén)子流域,則入庫(kù)輸沙量為2~4級(jí),降雨過(guò)程分布值a越大,輸沙量越大,若降雨中心分布屬于均勻分布,則入庫(kù)輸沙量為4級(jí);若最大3h降雨量為4級(jí),則入庫(kù)輸沙量為6級(jí)。
以本文選擇的決策樹(shù)模型,對(duì)鬧德海水庫(kù)歷史25場(chǎng)洪水進(jìn)行模擬預(yù)報(bào),其中1990年的第二場(chǎng)洪水預(yù)報(bào)誤差偏小了4個(gè)等級(jí),1998年、2000年、2002年、2004年洪水預(yù)報(bào)誤差偏大1~2個(gè)等級(jí)。能夠準(zhǔn)確預(yù)報(bào)出水庫(kù)入庫(kù)輸沙量的洪水達(dá)到20場(chǎng)次,準(zhǔn)確率達(dá)到80%(見(jiàn)表2)。
表2 分級(jí)預(yù)報(bào)入庫(kù)輸沙量結(jié)果
本文采用決策樹(shù)數(shù)據(jù)挖掘技術(shù),以柳河流域鬧德海水庫(kù)為例,選取降雨中心分布、降雨過(guò)程分布值a、最大3h降雨量、前期影響雨量Pa這4個(gè)因素作為模型的輸入因子,水庫(kù)入庫(kù)輸沙量作為模型的輸出因子,進(jìn)行了決策樹(shù)建模和模擬。模擬的25場(chǎng)歷史洪水中,準(zhǔn)確預(yù)報(bào)出水庫(kù)入庫(kù)輸沙量的為20場(chǎng),準(zhǔn)確率達(dá)到了80%,在泥沙預(yù)報(bào)領(lǐng)域內(nèi),屬于較高水平。利用該模型對(duì)多泥沙河流水庫(kù)的入庫(kù)沙量進(jìn)行預(yù)報(bào),對(duì)水庫(kù)水沙調(diào)度有一定的指導(dǎo)意義,有利于多泥沙河流水庫(kù)實(shí)現(xiàn)沖淤平衡,從而更好地發(fā)揮水庫(kù)綜合效益。