王 雪
(河北省唐山水文水資源勘測局,河北 唐山 063000)
唐山市多年平均水資源28.5億m3,其中地表徑流量為14.62億m3,地下水資源量達(dá)13.69億m3,而人均占有水資源量僅有385m3,為典型缺水城市。唐山為我國重要的重工業(yè)城市,工業(yè)生產(chǎn)使得區(qū)域水環(huán)境遭受破壞。以唐山為研究區(qū),采用隨機(jī)森林算法對(duì)區(qū)域水質(zhì)取樣、分析,以期為區(qū)域水資源管理、保護(hù)利用提供參考。
水質(zhì)是不連續(xù)的時(shí)空變異體,不同位置上水體質(zhì)量存在差異,為了便于了解全局水質(zhì)分布,應(yīng)用Kriging插值法進(jìn)行無偏估計(jì)。Kriging插值的公式如下[2]:
(1)
式中,Z(x0),Z(xi)—分別表示表示變量在x0,xi處的估計(jì)值、實(shí)測值;λ—臨近點(diǎn)對(duì)其影響程度,即空間權(quán)值。
隨機(jī)森林為Breiman等發(fā)展了分類回歸樹模型并提出組合樹構(gòu)成的監(jiān)督學(xué)習(xí)算法[3-4]。其基于隨機(jī)子空間(random subspace)和自助聚集(Bootstrap aggregating)理論,從原始m個(gè)訓(xùn)練樣本中抽取n個(gè)訓(xùn)練集(n 第一步:基于bootstrap抽樣理論隨機(jī)抽取K個(gè)訓(xùn)練集Θ1,Θ2,…,Θk,并產(chǎn)生的K棵回歸樹{h(x,Θi),i=1,2,…,k}(x為輸入向量),其序列模型為{h1(x),h2(x),…,hk(x)}。 第二步:將各訓(xùn)練子集不予剪枝處理,在樹節(jié)點(diǎn)處從M個(gè)特征中隨機(jī)抽取m個(gè)特征作為節(jié)點(diǎn)分裂的屬性,然后從節(jié)點(diǎn)處分裂,直至節(jié)點(diǎn)屬性純度最小。 第三步:單棵樹預(yù)測值為葉節(jié)點(diǎn)l(x,Θ)的觀測平均值,公式為: (2) (3) 式中,ωi—權(quán)值,其和為1;Yi(i=1,2,…,k)—因變量觀測值。 第四步:通過決策樹權(quán)重ωi(x,Θt)(t=1,2,…,k)取其均值,得到每個(gè)觀測值的權(quán)值: (4) 則其最終預(yù)測結(jié)果為: (5) 在布設(shè)水質(zhì)斷面時(shí)綜合考慮了土地利用類型、徑流量、人口分布等背景環(huán)境,水質(zhì)斷面主要位于河流匯流處、湖泊、地下水水源地。于2017年9—10月晴朗時(shí)分進(jìn)行取樣,在斷面10m范圍內(nèi)采集8個(gè)分樣品,混合均勻后分裝在干燥玻璃瓶中,并應(yīng)用GPS儀記錄水體斷面坐標(biāo),共計(jì)有效樣點(diǎn)43個(gè)。按照《地表水環(huán)境標(biāo)準(zhǔn)》對(duì)水質(zhì)進(jìn)行檢測[6],其中溶解氧(DO)以硫酸鉀濕氧化法測定,高錳酸鉀指數(shù)(K2MnO4)、化學(xué)需氧量(COD)以草酸鈉法測定,生化需氧量(BOD)、總磷(TP)采用碳酸氫鈉浸提-鉬銻抗比色法,總鋅(Zn)以半微量凱氏法測定,氨氮(NH)以納氏劑分光光度法測定[1]。 該研究以唐山市水質(zhì)為研究對(duì)象,涉及到的水質(zhì)數(shù)據(jù)分析主要包含多元統(tǒng)計(jì)分析、GIS空間分析與水質(zhì)綜合評(píng)價(jià)。先以3+δ方法剔除水質(zhì)數(shù)據(jù)中的異常值,使其符合正態(tài)分布特性,再應(yīng)用SPSS19.0軟件的描述統(tǒng)計(jì)分析、主成分分析工具解析其均值、變異系數(shù)、標(biāo)準(zhǔn)差、極值等統(tǒng)計(jì)量和水質(zhì)的影響因素。將含有地理坐標(biāo)的水質(zhì)斷面數(shù)據(jù)導(dǎo)入ArcGIS平臺(tái)上,生成區(qū)域水質(zhì)斷面分布圖,并應(yīng)用Spatial Analysis模塊的Geostatistics功能將水質(zhì)綜合評(píng)價(jià)結(jié)果進(jìn)行空間可視化表達(dá)[5]。隨機(jī)森林建模與水質(zhì)綜合評(píng)價(jià)則在開源軟件Rstudio1.1平臺(tái)上完成。 唐山市43個(gè)水質(zhì)斷面監(jiān)測指標(biāo)如圖1所示。就Zn含量而言,河流、湖泊水體中含量較高,達(dá)1.683mg/L,1.482mg/L,地下水中含量最低,為0.612mg/L,根據(jù)GB 3838—2002《地表水環(huán)境質(zhì)量標(biāo)準(zhǔn)》,河流水體屬于III類,水庫、湖泊、地下水均為II類。氨氮含量介于0.232~0.956mg/L之間,其中地下水屬于I類,湖泊和水庫屬于II類,河流水屬于III類。溶解氧是維持水體生命機(jī)能的重要成分,其含量與溫度、水生生物等密切相關(guān),以河流水體的溶解氧最高,為6.56mg/L,屬于II類水質(zhì);地下水達(dá)3.667g/L,為III類;湖泊和水庫水體均屬于II類。化學(xué)需氧量是指在一定條件下,以高錳酸鉀為氧化劑,處理水樣時(shí)所消耗的氧化劑的量,是水環(huán)境質(zhì)量的重要影響因素。此次調(diào)查顯示,地下水的化學(xué)需氧量含量最高,達(dá)到33mg/L,湖泊水次之,屬III類水質(zhì),河流和水庫水體的化學(xué)需氧量較低,達(dá)到I類。磷素是植物生長所需的有機(jī)營養(yǎng)物質(zhì),其在水體中富集往往引發(fā)水藻滋長,并誘發(fā)水污染。各類型水體中湖泊中的磷素含量最高,達(dá)到0.82mg/L,屬于III類水質(zhì)標(biāo)準(zhǔn),地下水水體中總磷含量最低,僅為0.08mg/L,水質(zhì)較優(yōu)為I類,而河流和水庫水體中總磷含量屬于II類。 圖1 唐山市水質(zhì)統(tǒng)計(jì)特征 通常水質(zhì)指標(biāo)性相關(guān)性越高,表明其同源的可能性越大,這能夠幫助我們分析污染物的來源。Person相關(guān)分析表明,唐山市水體中的化學(xué)需氧量與溶解氧之間呈正相關(guān)關(guān)系,相關(guān)系數(shù)為0.69,在5%水平上達(dá)到顯著性。氨氮、總磷和生化需氧量與化學(xué)需氧量均呈顯著正相關(guān)關(guān)系,通過了0.05水平的檢驗(yàn),相關(guān)系數(shù)依次為0.79,0.84,0.85。而氨氮的含量與總磷、生化需氧量的相關(guān)性達(dá)到0.72和0.75,達(dá)到統(tǒng)計(jì)顯著水平(p<0.05)。見表1。 表2為唐山市水質(zhì)主成分分析結(jié)果。依表可知,大于1的特征根有2個(gè),4個(gè)主成分包含了87.13%的解釋方差,能夠很好地反映水質(zhì)獨(dú)立信息。其中,第一主成分的可解釋方差最大,達(dá)51.15%,第二主成分占22.32%,第三主成分為9.7%,第四主成分僅占3.96%。經(jīng)旋轉(zhuǎn)后得到其因子荷載矩陣??芍?,第一主成分與溶解氧、化學(xué)需氧量的關(guān)系密切,荷載值達(dá)到0.801,0.759,反應(yīng)的是水體自凈能力。氨氮、總磷在第二主成分上有較大荷載,表明氮素、磷素等有機(jī)物污染是唐山市水污染的重要因素之一。第三主成分上荷載值較大的是鋅,第四主成分上荷載值較大的為生化需氧量與高錳酸鉀指數(shù),荷載值依次為0.819,0.905,0.751。綜合來看,溶解氧與化學(xué)需氧量對(duì)唐山市水體污染貢獻(xiàn)值最大,其次為氮磷等有機(jī)物,鋅和高錳酸鉀指數(shù)等貢獻(xiàn)程度較低。 表1 唐山市水質(zhì)指標(biāo)相關(guān)性矩陣 注:*為在0.05水平上達(dá)到顯著性。 表2 水質(zhì)斷面主成分分析 4.4.1 評(píng)價(jià)流程 應(yīng)用隨機(jī)森林算法實(shí)施水質(zhì)綜合評(píng)價(jià)的關(guān)鍵在于依據(jù)水質(zhì)評(píng)價(jià)分級(jí)標(biāo)準(zhǔn)構(gòu)建其與指標(biāo)系統(tǒng)中的單一指標(biāo)間的隸屬規(guī)則,在Rstuido環(huán)境下其具體流程如下: 步驟1:依據(jù)GB 3838—2002,應(yīng)用R軟件中的runif函數(shù)在各等級(jí)標(biāo)準(zhǔn)區(qū)間隨機(jī)內(nèi)插生成200組樣本數(shù)據(jù),5個(gè)評(píng)價(jià)等級(jí)共計(jì)樣本1000組;并將其中的15項(xiàng)指標(biāo)樣本進(jìn)行歸一化處理,以剔除量綱、噪聲影響。公式如下: 正向指標(biāo):yij=(xij-xj)/(maxxj-minxj) (6) 負(fù)向指標(biāo):yij=(maxxj-xij)/(maxxj-minxj) (7) 式中,x—指標(biāo)原始數(shù)據(jù);i—行政區(qū)序列;j—指標(biāo)項(xiàng)目序列;maxxj和minxj—分別表示第j個(gè)指標(biāo)中最大值和最小值;y—標(biāo)準(zhǔn)化值。 步驟2:樣本設(shè)置。從1000組樣本數(shù)據(jù)中隨機(jī)選取700組作為訓(xùn)練樣本,另外300組為檢測樣本;樣本中15個(gè)參評(píng)因子數(shù)據(jù)為輸入向量,5個(gè)目標(biāo)值為輸出向量,通過Randomforest函數(shù)進(jìn)行建模訓(xùn)練。 步驟3:參數(shù)優(yōu)選與模型精度評(píng)價(jià)。模型中的出包錯(cuò)誤率(Out of bag error rate,OOB)為模型精度的衡量,對(duì)于敏感參數(shù)mtry和ntree的選擇,可通過tunefit函數(shù)進(jìn)行優(yōu)化。參數(shù)mtry最優(yōu)值一般為變量的方根值,該研究中其適宜值為4;對(duì)于ntree值的搜索如圖2所示,可知當(dāng)ntree為1200左右時(shí),OOB值較小而趨于穩(wěn)定[6]。由于訓(xùn)練樣本、檢測樣本選取均為隨機(jī),并且回歸樹集成為森林過程中子結(jié)點(diǎn)的選取也呈隨機(jī)性,故而以20次運(yùn)行結(jié)果的平均值表征模型性能,其精度參量技術(shù)可通過Metrices程序包進(jìn)行,結(jié)果見表3。結(jié)果顯示其訓(xùn)練精度、檢測精度均較高,模型學(xué)習(xí)能力好、可靠性強(qiáng),可用于試驗(yàn)區(qū)水資源承載力評(píng)價(jià)。 圖2 模型精度隨樹數(shù)量的變化 表3 隨機(jī)森林模型實(shí)驗(yàn)結(jié)果 步驟4:閥值設(shè)定。根據(jù)檢驗(yàn)樣本的實(shí)際輸出向量可獲得不同評(píng)價(jià)等級(jí)區(qū)間的臨界值,取多次運(yùn)行產(chǎn)生的臨界值平均值作為閥值,分別為:I類(0,1.5210]、II類(1.5210,2.3712]、III類(2.3712,3.4283]、IV類(3.4283,4.4688]、V類(4.4688,5.5217]。該閥值作為水質(zhì)分級(jí)依據(jù)。 步驟5:模型應(yīng)用。將訓(xùn)練好的模型應(yīng)用于目標(biāo)數(shù)據(jù)樣本,以測評(píng)唐山市水質(zhì)狀況,并依據(jù)閥值進(jìn)行分級(jí)評(píng)價(jià)。 4.4.2 評(píng)價(jià)結(jié)果 基于前述方法,對(duì)唐山市43個(gè)水質(zhì)斷面進(jìn)行綜合評(píng)價(jià),結(jié)果如圖3所示?;陂y值劃分水質(zhì)等級(jí),I類水質(zhì)主要分布于市域北部和東部邊緣地區(qū),該地區(qū)水資源涵養(yǎng)條件好、水環(huán)境質(zhì)量高且地廣人稀,水資源承載壓力較小,水質(zhì)受人為影響較小。II類水質(zhì)呈帶狀分布于市域中部,該地區(qū)是唐山市農(nóng)業(yè)、生態(tài)用地、園地核心區(qū),水體受到一定污染。III類水質(zhì)呈斑狀聚集性分布于西南和南部地區(qū),該地為唐山市人口、工業(yè)密集區(qū),污染排放較多且人為破壞程度大。統(tǒng)計(jì)顯示,I類水質(zhì)分布面積最小,占區(qū)域總面積的27.31%,II和III類水質(zhì)分布廣泛,依次占34.14%,38.55%。綜合來看,唐山市水質(zhì)呈空間聚集性分布,對(duì)此應(yīng)對(duì)加強(qiáng)水資源保護(hù)與空間調(diào)配。 圖3 唐山市水質(zhì)綜合評(píng)價(jià)結(jié)果 唐山市水體質(zhì)量分屬I~I(xiàn)II類,II和III類水質(zhì)分布于市域中南部核心區(qū),這對(duì)區(qū)域經(jīng)濟(jì)發(fā)展、民生安全造成不利。該市水資源可能存在的污染類別主要是溶解氧、氮素和磷素,對(duì)此應(yīng)予以積極防控。在GIS平臺(tái)上運(yùn)用Kriging插值法對(duì)全市水質(zhì)質(zhì)量進(jìn)行空間可視化表達(dá),直觀反映了水質(zhì)等級(jí)漸進(jìn)變化及其空間格局,為區(qū)域水資源管理提供了有利手段。隨機(jī)森林機(jī)器學(xué)習(xí)算法將水質(zhì)綜合評(píng)價(jià)轉(zhuǎn)化為多重非線性模式識(shí)別問題,通過組合樹的根節(jié)點(diǎn)與葉節(jié)點(diǎn)模擬水質(zhì)指標(biāo)與水質(zhì)量級(jí)間的關(guān)系,經(jīng)過充分訓(xùn)練獲得水質(zhì)等級(jí)識(shí)別能力,評(píng)價(jià)過程客觀。3 唐山市水質(zhì)斷面分布及數(shù)據(jù)處理
3.1 水質(zhì)斷面分布
3.2 數(shù)據(jù)處理
4 結(jié)果與分析
4.1 水質(zhì)描述統(tǒng)計(jì)分析
4.2 水體指標(biāo)相關(guān)性分析
4.3 水質(zhì)主成分分析
4.4 基于隨機(jī)森林的唐山市水質(zhì)綜合評(píng)價(jià)
5 結(jié)論