謝殿榮
(福建省閩東南地質(zhì)大隊(duì),福建 泉州 362011)
中國人均水資源量僅為世界水平的四分之一,全國600個(gè)城市中有400個(gè)城市缺水或嚴(yán)重缺水,尤其是在華北和西北地區(qū),水資源短缺的問題尤為突出。全國以地下水為飲用水源的城市占比約為61%,近70%人口飲用地下水。隨著我國經(jīng)濟(jì)社會(huì)的快速發(fā)展,地下水資源開發(fā)利用量呈迅速增長態(tài)勢,地下水占全國總供水量的比例在30年間增長了1倍[1]。由于人類活動(dòng)加強(qiáng),預(yù)計(jì)地下水質(zhì)量的提升將會(huì)面臨越來越大的壓力。近年來的研究表明,大多數(shù)地下水的大規(guī)模污染與地質(zhì)成因有關(guān),地下水與含水層礦物的相互作用可能會(huì)導(dǎo)致地質(zhì)成因污染物的釋放[2]。
本研究在系統(tǒng)收集整理寧夏地下水中氟化物濃度樣本數(shù)據(jù)以及地質(zhì)氣候、土壤等相關(guān)空間變量數(shù)據(jù)的基礎(chǔ)上,利用人工神經(jīng)網(wǎng)絡(luò)方法對寧夏地下水中氟化物濃度與對應(yīng)的預(yù)測變量進(jìn)行建模,并根據(jù)建立的高氟地下水人工神經(jīng)網(wǎng)絡(luò)預(yù)測模型生成了寧夏高氟地下水(地下水中氟化物濃度>1.5 mg/L)空間分布預(yù)測圖,進(jìn)而確定影響寧夏地下水中氟化物富集的關(guān)鍵參數(shù)。本研究結(jié)果可為寧夏飲用水氟暴露風(fēng)險(xiǎn)的防控提供指導(dǎo),為地下水的合理開發(fā)與利用和保障居民飲水安全提供科學(xué)依據(jù)。
本文從已發(fā)表的文獻(xiàn)[16-22]中收集了寧夏333個(gè)地下水中氟化物濃度數(shù)據(jù),其中99個(gè)地下水中氟化物濃度(29.7%)超過1.5 mg/L。雖然數(shù)據(jù)來源不同,但由于所有數(shù)據(jù)均來自經(jīng)同行評(píng)審的文獻(xiàn),因此認(rèn)為收集的數(shù)據(jù)質(zhì)量是可靠的。
在寧夏北部、中部以及南部均選取了地下水中氟化物濃度樣本數(shù)據(jù),其數(shù)據(jù)點(diǎn)分布見圖1。地下水樣本采樣時(shí)間從2007年至今,采樣深度在300 m以內(nèi),地下水樣中氟化物濃度最高為7 mg/L。一般來說,地下水中元素的濃度在時(shí)間上是相對穩(wěn)定的,在幾十年的時(shí)間尺度內(nèi)基本沒有變化或者變化很小,因此選取的樣本數(shù)據(jù)包含幾十年的氟化物濃度是合理的[26-28]。理想情況下,地下水溶質(zhì)濃度的預(yù)測模型應(yīng)基于反映溶質(zhì)遷移轉(zhuǎn)化關(guān)鍵特征的三維參數(shù)。然而,在缺乏含水層條件和深度的三維空間連續(xù)數(shù)據(jù)庫的情況下,全球和區(qū)域可用的(二維)表面參數(shù)可作為溶質(zhì)富集的代理指標(biāo)[29]。根據(jù)已有的關(guān)于地下水中氟化物釋放和積累的研究文獻(xiàn)以及數(shù)據(jù)可獲取性[2,14,23,25],本文選擇15個(gè)預(yù)測變量用于建立地下水中氟化物濃度預(yù)測模型(表1),主要包括地質(zhì)、土壤和氣候等預(yù)測變量數(shù)據(jù),由于分辨率、數(shù)據(jù)格式和投影的差異,先將所有預(yù)測變量的分辨率轉(zhuǎn)換為0.5弧分,以保持預(yù)測變量之間的統(tǒng)一性;然后以1.5 mg/L為閾值將地下水中氟化物濃度數(shù)據(jù)轉(zhuǎn)化為二分變量,其中地下水中氟化物濃度>1.5 mg/L為1,地下水中氟化物濃度≤1.5 mg/L為0;再將地下水中氟化物濃度數(shù)據(jù)與對應(yīng)的預(yù)測變量編譯為完整的數(shù)據(jù)集;最后將上述數(shù)據(jù)集隨機(jī)拆分為訓(xùn)練(70%)、驗(yàn)證(15%)和測試(15%)數(shù)據(jù)集用于建模。
圖1 寧夏地下水中氟化物濃度數(shù)據(jù)點(diǎn)分布圖
表1 用于建模的預(yù)測變量
1.2.1 人工神經(jīng)網(wǎng)絡(luò)預(yù)測模型的建立
本文利用訓(xùn)練數(shù)據(jù)集和15個(gè)預(yù)測變量建立了寧夏高氟地下水人工神經(jīng)網(wǎng)絡(luò)預(yù)測模型。人工神經(jīng)網(wǎng)絡(luò)(ANN)是一種自適應(yīng)系統(tǒng),通過在類似于人腦的分層結(jié)構(gòu)中使用相互連接的節(jié)點(diǎn)或神經(jīng)元進(jìn)行學(xué)習(xí),從而可以建立變量之間的復(fù)雜關(guān)系。具有單個(gè)隱藏層的ANN模型能夠作為通用擬合器,2N+1個(gè)隱藏神經(jīng)元足以滿足具有N個(gè)輸入的預(yù)測任務(wù)[30]。因此,本文使用網(wǎng)格法從2-31(2×15+1)中搜索得到的最佳神經(jīng)元數(shù)量為10。隱藏層與輸出層之間使用Softmax傳遞函數(shù),其他層之間使用雙曲切線傳遞函數(shù)連接[30],采用均方誤差作為性能函數(shù)。
1.2.2 模型性能評(píng)估
將預(yù)測模型在測試集上的準(zhǔn)確性、敏感性、特異性、陽性預(yù)測值和陰性預(yù)測值以及受試者工作特征曲線下的面積(AUC)作為預(yù)測模型性能的評(píng)估指標(biāo)。此外,將預(yù)測模型的不確定性也作為評(píng)估標(biāo)準(zhǔn)。本文采用Bootstrap (100個(gè)Bootstrap數(shù)據(jù)集)預(yù)測值的標(biāo)準(zhǔn)差作為預(yù)測模型不確定性的衡量標(biāo)準(zhǔn),標(biāo)準(zhǔn)差越低代表模型不確定性越低[24]。
1.2.3 預(yù)測變量重要性分析
本文采用上述ANN預(yù)測模型和排列重要性[24,31]來評(píng)估選取的預(yù)測變量的重要性。排列重要性基于一個(gè)直觀的概念,即通過計(jì)算預(yù)測變量置換后模型預(yù)測誤差的增加來衡量預(yù)測變量的重要性。具體操作為:隨機(jī)排列數(shù)據(jù)中所選定預(yù)測變量的數(shù)值,并計(jì)算這種隨機(jī)排列所造成的預(yù)測準(zhǔn)確率的降低,預(yù)測變量的重要性與預(yù)測準(zhǔn)確率的降低成正比。本文對每個(gè)預(yù)測變量執(zhí)行50次排列重要性計(jì)算,以預(yù)測準(zhǔn)確率降低值的均值作為預(yù)測變量重要性的度量值。
對建立的高氟地下水人工神經(jīng)網(wǎng)絡(luò)預(yù)測模型進(jìn)行訓(xùn)練及其性能評(píng)估,其結(jié)果見圖2和圖3。
圖2 模型訓(xùn)練過程中性能的變化
圖3 模型在訓(xùn)練集和測試集上的混淆矩陣以及在測試集上的AUC值
由圖2和圖3可以看出:
(1) 模型訓(xùn)練開始后,訓(xùn)練集、驗(yàn)證集和測試集的均方誤差迅速降低(圖2),并在Epoch=86時(shí),驗(yàn)證集均方誤差達(dá)到最低值0.06,達(dá)到了驗(yàn)證提前停止條件,模型訓(xùn)練停止。
(2) 最終的人工神經(jīng)網(wǎng)絡(luò)模型在訓(xùn)練集和測試集上的準(zhǔn)確率分別為97.6%[圖3(a)]和93.5%[圖3(b)],具有良好的泛化性能,幾乎不存在過擬合。
(3) 相比于訓(xùn)練集,模型在測試集上的性能直接體現(xiàn)了模型的預(yù)測能力。當(dāng)截?cái)喔怕蕿?.5時(shí),模型在測試集上的敏感性(模型識(shí)別高氟地下水的準(zhǔn)確性)和特異性(模型識(shí)別低氟地下水的準(zhǔn)確性)分別為98.3%、87.8%[見3(b)]。
(4)AUC可以顯示模型在不同截?cái)喔怕氏聦τ^測結(jié)果的區(qū)分程度。AUC的取值范圍為0.5~1,當(dāng)AUC=0.5時(shí),表示模型無分辨能力;當(dāng)AUC>0.80時(shí),表示模型具有較好的分辨能力。本文所建立的人工神經(jīng)網(wǎng)絡(luò)模型的AUC值為0.93[圖3(c)],表明該人工神經(jīng)網(wǎng)絡(luò)模型具有較高的預(yù)測能力。
圖4為模型預(yù)測概率及其對應(yīng)的標(biāo)準(zhǔn)偏差和占比。越低的預(yù)測概率標(biāo)準(zhǔn)偏差,表示模型預(yù)測的確定性越高,即模型能夠以更高的可靠性來判斷地下水中氟化物濃度是否大于閾值1.5 mg/L。
圖4 模型預(yù)測概率及其對應(yīng)的標(biāo)準(zhǔn)偏差和占比
由圖4可知:模型預(yù)測概率與相應(yīng)的標(biāo)準(zhǔn)偏差之間的關(guān)系呈拋物線型,即預(yù)測概率為0.5時(shí)預(yù)測概率的標(biāo)準(zhǔn)偏差最大,而低預(yù)測概率和高預(yù)測概率的標(biāo)準(zhǔn)偏差較小。分析認(rèn)為這種拋物線結(jié)構(gòu)非常符合預(yù)期,原因在于響應(yīng)變量為二進(jìn)制變量,人工神經(jīng)網(wǎng)絡(luò)的輸出為樣本屬于高氟地下水的概率,而預(yù)測概率在0.5附近時(shí)表明模型不能判斷樣本是否屬于高氟地下水,也就是模型預(yù)測具有不確定性,因此預(yù)測概率的標(biāo)準(zhǔn)偏差較高;但同時(shí),模型預(yù)測概率值在0.4~0.6之間的占比僅約為總體的4.1%,說明本文建立的人工神經(jīng)網(wǎng)絡(luò)預(yù)測模型對絕大多數(shù)樣本預(yù)測都具有較高的確定性。
如前所述,本文所建立的ANN預(yù)測模型同時(shí)具有較高的敏感性、特異性和確定性,因此利用該模型能夠很好地預(yù)測高氟地下水,同時(shí)避免對非高氟地下水的的誤報(bào)。基于本文所建立的高氟地下水人工神經(jīng)網(wǎng)絡(luò)預(yù)測模型生成了寧夏高氟地下水風(fēng)險(xiǎn)空間分布預(yù)測圖(見圖5),圖中顯示了寧夏地下水中氟化物濃度大于1.5 mg/L的預(yù)測概率,其中預(yù)測概率大于0.95的高氟地下水高風(fēng)險(xiǎn)區(qū)約占寧夏全域28.7%的區(qū)域。
圖5 寧夏高氟地下水風(fēng)險(xiǎn)空間分布預(yù)測圖
由圖5可見:寧夏高氟地下水高風(fēng)險(xiǎn)區(qū)主要集中分布在吳忠市和中衛(wèi)市,總體上沿西南-東北呈帶狀分布,其余高風(fēng)險(xiǎn)區(qū)呈零散分布。Amini等[23]首次給出了包括中國在內(nèi)的分辨率為5弧分的全球高氟地下水風(fēng)險(xiǎn)空間分布預(yù)測圖,但其訓(xùn)練集數(shù)據(jù)中僅有呼和浩特盆地的25個(gè)樣本來自中國。相較于已有的寧夏高氟地下水風(fēng)險(xiǎn)空間分布預(yù)測圖,本文生成的預(yù)測圖基于更大的訓(xùn)練樣本,分辨率提升了2個(gè)數(shù)量級(jí)。此外,《中國生活飲用水地圖集(1988)》中顯示,寧夏高氟地下水主要分布在北部沿黃兩岸以及由中衛(wèi)市、吳忠市和固原市圍城的區(qū)域,這與本文預(yù)測的分布結(jié)果一致。
本文利用ANN模型和排列重要性方法量化了預(yù)測變量的重要性,其結(jié)果見圖6。
圖6 基于ANN模型和排列重要性方法的預(yù)測變量重要性分析結(jié)果
由圖6可知:15個(gè)預(yù)測變量中有12個(gè)預(yù)測變量能夠?qū)е翧NN模型預(yù)測的準(zhǔn)確性降低超過10%,其中降水、潛在蒸散發(fā)(PET)、實(shí)際蒸散發(fā)(AET)、地形濕度指數(shù)(TWI)和土壤陽離子交換容量(CEC)是影響最大的5個(gè)預(yù)測變量,因此氣候預(yù)測變量是寧夏高氟地下水最重要的預(yù)測因子。
氣候?qū)Φ叵滤蟹餄舛鹊挠绊懼饕獊碜杂诮邓畬Φ叵滤a(bǔ)給和流動(dòng)的影響。在降水較多的地區(qū),如潮濕的熱帶地區(qū),由于稀釋作用,地下水中氟化物的濃度通常較低[25,32]。相比之下,在干旱和半干旱環(huán)境中,長期的水-巖相互作用增強(qiáng)了礦物的溶解,導(dǎo)致地下水中氟化物的濃度較高[7],而強(qiáng)烈的蒸發(fā)作用也增強(qiáng)了以碳酸鹽形式存在的鈣離子的沉淀,從而降低了地下水中鈣離子的濃度,因此氟的富集很難通過螢石的溶解/沉淀來控制[4,6]。此外,氣候?qū)Φ叵滤蟹餄舛鹊挠绊懸部赡苁怯捎诟珊岛桶敫珊淡h(huán)境有較高的pH值所致。土壤pH值的升高有利于含氟礦物如螢石、冰晶石的溶解,從而增強(qiáng)了這些礦物中氟化物從富氟巖石中溶解出來[33-34]。此外,由于相同的電荷和幾乎相同的半徑,氟離子和氫氧根離子可能在礦物結(jié)構(gòu)的八面體薄片中發(fā)生交換[35],在堿性條件下,氫氧根離子可以替換吸附在礦物上的氟離子,從而增加地下水中氟化物的濃度[36]。因此,土壤pH值也是ANN預(yù)測模型中重要的預(yù)測因子。
土壤CEC和土壤粒徑變量的重要性可能來自于其可以反映黏土和有機(jī)質(zhì)含量。一般來說,細(xì)粒土壤比砂土含有更高水平的黏土和氫氧化物,因此通常比粗粒土壤保留更多的氟化物[32]。此外,土壤有機(jī)碳密度通常與降水呈正相關(guān)關(guān)系,因此土壤有機(jī)碳密度也可以作為氣候的一個(gè)指標(biāo)。
本文利用人工神經(jīng)網(wǎng)絡(luò)方法建立了性能優(yōu)良的寧夏高氟地下水預(yù)測模型,其中氣候變量是寧夏高氟地下水最重要的預(yù)測因子?;陬A(yù)測模型生成的寧夏高氟地下水風(fēng)險(xiǎn)空間分布預(yù)測圖顯示,吳忠市和中衛(wèi)市是主要的高氟地下水高風(fēng)險(xiǎn)區(qū)。本研究生成的高氟地下水風(fēng)險(xiǎn)空間分布預(yù)測圖對潛在的高氟地下水區(qū)域提供了準(zhǔn)確可靠的判斷,能夠有效助力當(dāng)?shù)叵嚓P(guān)部門改水降氟工程的實(shí)施。但考慮到地下水系統(tǒng)的高度非均質(zhì)性,本研究生成的高氟地下水風(fēng)險(xiǎn)空間分布預(yù)測圖并不能代替實(shí)際測試工作,而只能為地下水檢測與風(fēng)險(xiǎn)管控提供指導(dǎo)。