朱 華, 陳 倩, 劉宏舒, 孫大鵬, 周 慧, 池 遼, 龐 亮
(1.四川省地質(zhì)工程勘察院集團(tuán)有限公司, 四川 成都 610072; 2.四川省天晟源環(huán)保股份有限公司,四川 成都 610072; 3.四川省天晟源信息技術(shù)有限公司, 四川 成都 610072; 4.鞍鋼股份有限公司,遼寧 鞍山 114033; 5.鞍山鋼鐵集團(tuán)有限公司, 遼寧 鞍山 114033)
隨著城市化進(jìn)程加快以及產(chǎn)業(yè)結(jié)構(gòu)調(diào)整,冶煉、焦化、化工、油氣開采等重點(diǎn)行業(yè)場(chǎng)地及周邊地區(qū)土壤污染物超標(biāo)率36.3%, 與冶煉化工相關(guān)的工業(yè)廢棄地等場(chǎng)地所在的大面積土壤遭到污染。 由于土壤中的污染物質(zhì)向地下水中遷移造成地下水污染,并且由于地下水的徑流、排泄以及地下水位的波動(dòng),地下水中的污染物浸潤土壤,造成雙重污染,對(duì)周邊居民食品和飲用水安全、生態(tài)環(huán)境、經(jīng)濟(jì)社會(huì)可持續(xù)發(fā)展帶來了巨大危害[1-2]。因此,開展污染場(chǎng)地的污染監(jiān)測(cè)響應(yīng)、調(diào)查評(píng)估、風(fēng)險(xiǎn)預(yù)測(cè)管控和修復(fù)是十分急切和有必要的。
場(chǎng)地污染風(fēng)險(xiǎn)預(yù)測(cè)和管控首先要對(duì)待測(cè)場(chǎng)地的土壤和地下水的污染狀況開展調(diào)查, 接著需要采集相應(yīng)的場(chǎng)地樣本,進(jìn)行初步以及詳細(xì)采樣分析,并從中獲得大量的污染數(shù)據(jù)樣本。 通過物聯(lián)網(wǎng)技術(shù)采集的數(shù)據(jù)的樣本數(shù)量大、監(jiān)測(cè)項(xiàng)目多,結(jié)構(gòu)復(fù)雜包含大量的特征信息和關(guān)系信息[3]。那么如何利用這些數(shù)據(jù)提取有價(jià)值的信息并應(yīng)用于場(chǎng)地污染風(fēng)險(xiǎn)模擬和評(píng)估就成了一個(gè)極為重要的問題。 目前采取的傳統(tǒng)數(shù)據(jù)分析方法有主成分分析(PCA)、因子分析(FA)、判別分析(DA),層次聚類分析(HCA)等[4-7]。 但由于這些數(shù)據(jù)分析方法在處理像污染場(chǎng)地?cái)?shù)據(jù)這種復(fù)雜的大數(shù)據(jù)集時(shí),會(huì)有較大局限性,且當(dāng)數(shù)據(jù)結(jié)構(gòu)不滿足線性條件時(shí),這類數(shù)據(jù)分析方法結(jié)果可能會(huì)不準(zhǔn)確。近年來人們開始通過提高環(huán)境監(jiān)測(cè)的監(jiān)測(cè)精度、優(yōu)化數(shù)據(jù)分析方法來提高分析結(jié)果的準(zhǔn)確性。 SAHU等[8]將納米材料、電子器件和微流控系統(tǒng)的混合使用,并進(jìn)一步改進(jìn)了設(shè)計(jì),使現(xiàn)場(chǎng)檢測(cè)具有更高的靈敏度。 至于數(shù)據(jù)分析方面,夏文文等[9]利用內(nèi)梅羅指數(shù)法和多元統(tǒng)計(jì)分析方法對(duì)洪澤湖水質(zhì)情況水質(zhì)進(jìn)行評(píng)價(jià)分析。
隨著計(jì)算機(jī)科學(xué)與技術(shù)的快速發(fā)展, 神經(jīng)網(wǎng)絡(luò)(NN) 因?yàn)槠鋼碛休^高的準(zhǔn)確性和客觀性開始活躍于各個(gè)科研領(lǐng)域和實(shí)際應(yīng)用中[10-11]。由于神經(jīng)網(wǎng)絡(luò)在處理非線性問題時(shí)具有較大的優(yōu)勢(shì), 在處理場(chǎng)地污染等大量復(fù)雜關(guān)系數(shù)據(jù)時(shí)可利用神經(jīng)網(wǎng)絡(luò)模擬非線性工程問題來了解輸入和輸出特征間的關(guān)系。 本文將在上述背景下, 著重討論神經(jīng)網(wǎng)絡(luò)在場(chǎng)地污染模擬和評(píng)估方面的應(yīng)用。
神經(jīng)網(wǎng)絡(luò)是對(duì)人腦若干基本特性的一種抽象和模擬的模型,由大量神經(jīng)元組成,并且可以通過調(diào)整各神經(jīng)元之間的關(guān)系來達(dá)到處理信息的目的。 它具有良好的容錯(cuò)性與聯(lián)想記憶功能, 以及較強(qiáng)的自適應(yīng)與自學(xué)習(xí)功能。1943 年MCCULLOCH 等[12]將閾值函數(shù)作為計(jì)算神經(jīng)元的主要特性, 將邏輯演算作為神經(jīng)計(jì)算架構(gòu), 由此提出了神經(jīng)網(wǎng)絡(luò)的概念。 近年來,神經(jīng)網(wǎng)絡(luò)被廣泛應(yīng)用于各個(gè)領(lǐng)域之中。
神經(jīng)網(wǎng)絡(luò)一般由輸入層、隱含層、輸出層等多層節(jié)點(diǎn)組成[13-15]。輸入特征信息由輸入層進(jìn)入,通過隱含層的計(jì)算后進(jìn)入到輸出層, 并且層與層之間通過權(quán)重和閾值來調(diào)節(jié)。整個(gè)過程一般先將數(shù)據(jù)經(jīng)過預(yù)處理,然后將處理后的數(shù)據(jù)分為訓(xùn)練、驗(yàn)證、測(cè)試3 個(gè)部分,每個(gè)部分均根據(jù)需要設(shè)定一定的比例, 并初始化閾值和權(quán)重, 當(dāng)訓(xùn)練數(shù)據(jù)從輸入層通過隱含層至輸出層之后,計(jì)算網(wǎng)絡(luò)預(yù)測(cè)值和目標(biāo)值的誤差[16-17]。
隨著HINTON 等[18]于2006 年在《Science》上發(fā)文,引出深度學(xué)習(xí)這一新的研究方向,神經(jīng)網(wǎng)絡(luò)再次成為各大領(lǐng)域的研究熱點(diǎn)。 深度學(xué)習(xí)淺義上可解釋為層數(shù)較多的人工神經(jīng)網(wǎng)絡(luò), 實(shí)質(zhì)上是一種對(duì)數(shù)據(jù)資料進(jìn)行表征學(xué)習(xí)的算法。 深度學(xué)習(xí)便強(qiáng)調(diào)從結(jié)構(gòu)中連續(xù)的層中進(jìn)行學(xué)習(xí)數(shù)據(jù)資料的相關(guān)特征, 進(jìn)而完成學(xué)習(xí)任務(wù)。 卷積神經(jīng)網(wǎng)絡(luò)(CNN)等模型則是其中學(xué)習(xí)效率很高的深度學(xué)習(xí)模型。傳統(tǒng)CNN 結(jié)構(gòu)包括輸入層、卷積層、池化層、全連接層和輸出層,結(jié)構(gòu)見圖1。
圖1 卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
幾種應(yīng)用較廣泛的卷積神經(jīng)網(wǎng)絡(luò)模型如下。
(1)LeNet-5
LeNet-5 神經(jīng)網(wǎng)絡(luò)模型是最早出現(xiàn)的卷積神經(jīng)網(wǎng)絡(luò)模型之一, 共有7 層結(jié)構(gòu), 并且使用多個(gè)卷積核, 卷積核權(quán)值共享的方式既降低了網(wǎng)絡(luò)中的連接數(shù), 又使得整個(gè)模型更加簡(jiǎn)潔和利于計(jì)算。 通常來說,LeNet-5 被應(yīng)用于手寫字符或者文檔的識(shí)別。
傳統(tǒng)LeNet-5 的效率并不理想, 單通道的網(wǎng)絡(luò)結(jié)構(gòu)在進(jìn)行特征提取時(shí), 取得的結(jié)果并不完整且收斂速度達(dá)不到想要的效果。針對(duì)這一問題,YAO 等[19]提出了均勻憶阻器交叉陣列的制造來提網(wǎng)絡(luò)的性能, 還構(gòu)建了一個(gè)基于五層憶阻器的CNN 來用于MNIST 圖像識(shí)別, 該CNN 系統(tǒng)比最先進(jìn)的圖形處理單元能夠高出2 個(gè)數(shù)量級(jí)以上, 且擁有更強(qiáng)的拓展性。
(2)VGG-5
VGG 模型主要是使用很小的卷積核(3×3)構(gòu)建各種深度的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu), 并對(duì)這些網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行了評(píng)估,最終證明16~19 層的網(wǎng)絡(luò)深度,能夠取得較好的識(shí)別精度。VGG 整個(gè)網(wǎng)絡(luò)由卷積層和全連接層疊加而成,和AlexNet 不同的是,VGG 中使用的都是小尺寸的卷積核。VGG 模型雖然具有更簡(jiǎn)單的結(jié)構(gòu), 但GPU 數(shù)少的情況下可能會(huì)需要訓(xùn)練很久,以及其由于權(quán)重過多導(dǎo)致文件體積過大。
(3)GoogleNet
GoogLeNet 擁有網(wǎng)絡(luò)小、參數(shù)較少,性能相對(duì)優(yōu)越等優(yōu)勢(shì),GoogLeNet 使用的是Inception 網(wǎng)絡(luò)結(jié)構(gòu),通常要提升CNN 的性能, 一般會(huì)選擇增大網(wǎng)絡(luò),但這種方式會(huì)導(dǎo)致過擬合的概率增加且計(jì)算量會(huì)變大, 而GoogleNet 引入的Inception 模塊則可避免這些問題, 既可以維持網(wǎng)絡(luò)稀疏性又可以減少參數(shù)保證高計(jì)算性能,同時(shí)還能提升網(wǎng)絡(luò)的寬度和深度。
(4)DenseNet
密集卷積網(wǎng)絡(luò)(DenseNet)的特點(diǎn)在于密集卷積塊, 不同密集卷積塊則用卷積層和池化層連接,該稠密連接方式由于采取的不是特征相加而是特征拼接,加強(qiáng)了特征和梯度的傳遞,采用全局平均池化層來降低參數(shù), 最終再用線性分類器來進(jìn)行分類。 在密集卷積塊中,當(dāng)前層之前的所有層的輸出都會(huì)參與到該層的輸入, 通過該方法可以有效的利用之前層的所有信息, 同時(shí)縮短了前層和后層之間的連接, 有效地解決了隨著網(wǎng)絡(luò)的加深而產(chǎn)生的梯度消失問題。
主流的幾種經(jīng)典卷積網(wǎng)絡(luò)模型的優(yōu)、 缺點(diǎn)對(duì)比結(jié)果見表1。
表1 各類卷積網(wǎng)絡(luò)模型對(duì)比
通常情況下, 場(chǎng)地是否受到污染需要根據(jù)污染評(píng)估來判定,但通過傳統(tǒng)方法成本較高,且擁有一定的滯后性。 近年來,在環(huán)境污染評(píng)估和預(yù)測(cè)領(lǐng)域,相關(guān)專家和學(xué)者開始把神經(jīng)網(wǎng)絡(luò)中的各種模型投入到環(huán)境評(píng)估和預(yù)測(cè)的實(shí)際應(yīng)用中, 相較于傳統(tǒng)的方法有了更強(qiáng)的準(zhǔn)確性和時(shí)效性。 下面將從以下幾個(gè)角度分別綜述神經(jīng)網(wǎng)絡(luò)在場(chǎng)地污染領(lǐng)域中的發(fā)展現(xiàn)狀和趨勢(shì)。
土壤質(zhì)量評(píng)價(jià)是改善土壤生態(tài)環(huán)境質(zhì)量、 完善管理體系、保持土壤生產(chǎn)力可持續(xù)發(fā)展的有效途徑。SHAO 等[20]提出了基于BP 神經(jīng)網(wǎng)絡(luò)的土壤質(zhì)量綜合評(píng)價(jià)SHM-BP 模型,將土壤樣品中的重金屬濃度輸入經(jīng)訓(xùn)練和驗(yàn)證的SHM-BP 模型,得到土壤樣本的分類結(jié)果,該模型的準(zhǔn)確率超過97%。 KEBONYE等[21]將自組織映射神經(jīng)網(wǎng)絡(luò)(SeOM-ANNs)與條件高斯模擬相結(jié)合來識(shí)別漫灘土壤中的潛在有毒元素(PTE)熱點(diǎn)。 利用其將包含PTE 和土壤要素的158個(gè)土壤樣本進(jìn)行可視化分類, 對(duì)其用k-means 進(jìn)一步分類,該聚類產(chǎn)生了總共5 個(gè)聚類。隨后結(jié)合CGS來可視化研究區(qū)域的PTE 濃度,最終對(duì)研究區(qū)域的土壤質(zhì)量進(jìn)行評(píng)價(jià)。
神經(jīng)網(wǎng)絡(luò)在土壤質(zhì)量評(píng)價(jià)方面取得了較好的效果,相較于傳統(tǒng)的評(píng)價(jià)手段時(shí)間更短,準(zhǔn)確率更高,可以有效的促進(jìn)土地的評(píng)估和監(jiān)測(cè)。
由于各種工業(yè)活動(dòng)產(chǎn)生的廢氣、 廢液和廢渣排放及泄漏導(dǎo)致大量重金屬進(jìn)入土壤環(huán)境, 造成土壤污染,并且重金屬具有性質(zhì)穩(wěn)定、難降解和毒性強(qiáng)的特點(diǎn),容易被土壤吸附并不斷累積,進(jìn)而威脅人類健康[22]。 土壤中重金屬含量與土壤污染的控制直接相關(guān), 但由于人力物力的限制, 很難對(duì)其進(jìn)行詳細(xì)檢測(cè), 因此通常需要根據(jù)現(xiàn)有數(shù)據(jù)預(yù)測(cè)未知區(qū)域的土壤重金屬含量, 所以近年來各種神經(jīng)網(wǎng)絡(luò)模型被用于解決該類問題。
郭飛等[23]首先用主成分分析法提取高光譜數(shù)據(jù)中的主成分作為特征變量,然后選擇ANN 模型以及其他三個(gè)模型構(gòu)建經(jīng)篩選過后的特征變量和Cd 含量的關(guān)系,接著再用決定系數(shù)、均方根誤差和RPD評(píng)價(jià)模型的擬合精度。結(jié)果表明,該神經(jīng)網(wǎng)絡(luò)模型取得了較好的擬合效果。 同樣利用高光譜遙感結(jié)合神經(jīng)網(wǎng)絡(luò)模型的還有王雪梅等[24],以不同變換處理下的特征波段反射率作為自變量, 土壤鉻含量為因變量,采用多元線性逐步回歸、偏最小二乘回歸、BP 神經(jīng)網(wǎng)絡(luò)和隨機(jī)森林回歸方法構(gòu)建土壤重金屬鉻含量的高光譜估測(cè)模型, 并對(duì)最優(yōu)估測(cè)結(jié)果進(jìn)行克里格空間插值。 在該研究中,通過與其余模型進(jìn)行對(duì)比,經(jīng)處理后的BP 神經(jīng)網(wǎng)絡(luò)模型估測(cè)精度和穩(wěn)定性高于其他模型, 可作為研究區(qū)土壤重金屬鉻含量的最優(yōu)估測(cè)模型。
任加國等[25]將研究區(qū)域選擇在某金屬加工廠中受到污染侵蝕的場(chǎng)地, 運(yùn)用多元統(tǒng)計(jì)方法分析土壤樣品中重金屬和多環(huán)芳烴之間的關(guān)聯(lián)性, 并以此為基礎(chǔ),利用已知數(shù)據(jù)樣本訓(xùn)練BP 神經(jīng)網(wǎng)絡(luò)模型,預(yù)測(cè)缺失土壤樣本中重金屬和PAHs 的含量。 結(jié)果顯示, 區(qū)域的土壤重金屬和PAHs 含量有一定的超標(biāo)現(xiàn)象, 該研究建立的BP 神經(jīng)網(wǎng)絡(luò)模型對(duì)污染物濃度預(yù)測(cè)結(jié)果獲得較為理想的數(shù)值, 再次證明了BP神經(jīng)網(wǎng)絡(luò)對(duì)土壤中重金屬含量預(yù)測(cè)效果較好。
在土壤重金屬含量預(yù)測(cè)方面, 神經(jīng)網(wǎng)絡(luò)模型依舊表現(xiàn)出了較好的效果, 擁有較強(qiáng)的穩(wěn)定性和預(yù)測(cè)精度。不足之處在于對(duì)于訓(xùn)練數(shù)據(jù)集的要求較高。綜合上述文獻(xiàn), 整理相應(yīng)的改進(jìn)神經(jīng)網(wǎng)絡(luò)模型對(duì)土壤重金屬含量估測(cè)結(jié)果見表2。
表2 文獻(xiàn)中模型估測(cè)結(jié)果
地下水系統(tǒng)作為一個(gè)開放系統(tǒng), 與外界因素有著密切而復(fù)雜的關(guān)系,特別是在污染遷移過程中,土壤中的污染物質(zhì)向地下水中遷移,造成地下水污染。并且由于地下水的徑流、排泄以及地下水位的波動(dòng),污染物質(zhì)又反過來浸潤土壤。因此,地下水污染風(fēng)險(xiǎn)評(píng)價(jià)是一個(gè)復(fù)雜的問題, 同時(shí)地下水污染風(fēng)險(xiǎn)模擬是防治地下水污染的重要手段。 開展地下水污染評(píng)價(jià), 不僅可以全面探討地下水污染與人類社會(huì)實(shí)踐的關(guān)系,還可以及時(shí)確定地下水污染的重點(diǎn)區(qū)域,能夠?yàn)榈叵滤Y源的管理和保護(hù)提供科學(xué)依據(jù)[26]。
在地下水污染評(píng)價(jià)這方面,袁瑞強(qiáng)等[27]采用綜合指數(shù)法、主成分分析(PCA)法和BP 神經(jīng)網(wǎng)絡(luò)法對(duì)地下水雨、旱季水質(zhì)進(jìn)行了綜合評(píng)價(jià),結(jié)果表明,BP神經(jīng)網(wǎng)絡(luò)法適合整體水質(zhì)評(píng)價(jià), 評(píng)價(jià)結(jié)果最合理。GAD 等[28]在多元分析、人工神經(jīng)網(wǎng)絡(luò)模型和地理信息系統(tǒng)技術(shù)的支持下,使用指數(shù)化方法(如飲用水質(zhì)量指數(shù)(DWQI)和健康指數(shù)(HI)),對(duì)El Kharga 綠洲努比亞砂巖含水層(SSA)的地下水質(zhì)量進(jìn)行了評(píng)估。結(jié)果顯示,ANN-SC-13 是最準(zhǔn)確的評(píng)估模型,因?yàn)樗@示了其特性與DWQI 之間最強(qiáng)的相關(guān)性,該模型的13 個(gè)特征對(duì)于評(píng)估DWQI 非常重要。
地下水污染對(duì)飲用水安全和生態(tài)環(huán)境構(gòu)成威脅。由于地下水污染的隱蔽性和復(fù)雜性,地下水修復(fù)方案的設(shè)計(jì)、風(fēng)險(xiǎn)評(píng)估和污染責(zé)任識(shí)別非常困難。因此, 研究地下水污染源的反演識(shí)別和地下水污染的擴(kuò)散預(yù)測(cè)具有重要意義。 同樣有很多學(xué)者利用神經(jīng)網(wǎng)絡(luò)模型進(jìn)行了地下水污染的溯源和模擬。
PAN 等[29]以撫順市某煤矸石堆放場(chǎng)為研究區(qū),根據(jù)研究區(qū)的實(shí)際條件建立地下水污染質(zhì)運(yùn)移模擬模型,模擬地下水污染質(zhì)未來時(shí)空變化特征,對(duì)地下水污染源源強(qiáng)及場(chǎng)地的滲透系數(shù)進(jìn)行反演識(shí)別。 研究表明, 應(yīng)用BP 神經(jīng)網(wǎng)絡(luò)方法建立替代模型的輸出結(jié)果平均相對(duì)誤差為1.5%, 利用BP 神經(jīng)網(wǎng)絡(luò)模型對(duì)污染源源強(qiáng)和滲透系數(shù)進(jìn)行同步識(shí)別精度可以滿足實(shí)際需求。
ALKINDI 等[30]使用貝葉斯方法(如貝葉斯廣義線性模型(BGLM)和貝葉斯嶺回歸(BRR))來模擬地下水硝酸鹽污染,用11 個(gè)地下水硝酸鹽調(diào)節(jié)因子來作為模型的輸入?yún)?shù)。結(jié)果表明,該研究的地下水硝酸鹽模型比其他模型更有效, 并且鉀在模型中的重要性最高,其次是降雨量、海拔、地下水深度和距居民區(qū)的距離。 該研究結(jié)果可為控制和減少硝酸鹽污染源提供決策支持。
近年來, 神經(jīng)網(wǎng)絡(luò)結(jié)合環(huán)境污染模擬和評(píng)估進(jìn)行數(shù)據(jù)分析的研究成為熱點(diǎn), 神經(jīng)網(wǎng)絡(luò)模型在土壤質(zhì)量評(píng)價(jià)、土壤重金屬含量預(yù)測(cè)、地下水污染評(píng)價(jià)、地下水污染源溯源和擴(kuò)散模擬等多領(lǐng)域中展示出超強(qiáng)的數(shù)據(jù)挖掘和分析能力, 能夠在保證數(shù)據(jù)精度的同時(shí),減少相應(yīng)的實(shí)驗(yàn)成本,并且擁有較為理想的模擬精度和污染評(píng)估效果。 本文首先對(duì)神經(jīng)網(wǎng)絡(luò)原理和應(yīng)用較為廣泛的幾個(gè)模型進(jìn)行了介紹, 然后著重從各應(yīng)用方面對(duì)神經(jīng)網(wǎng)絡(luò)在場(chǎng)地污染的模擬和評(píng)估領(lǐng)域的相關(guān)改進(jìn)模型的應(yīng)用進(jìn)行了介紹。 神經(jīng)網(wǎng)絡(luò)在場(chǎng)地污染領(lǐng)域或者更大環(huán)境污染的模擬和評(píng)估領(lǐng)域還有巨大的開發(fā)和應(yīng)用空間, 目前可以總結(jié)為以下幾個(gè)方面:
(1)在使用神經(jīng)網(wǎng)絡(luò)模型對(duì)地下水污染進(jìn)行反演識(shí)別時(shí),隨著變量靈敏度的增加,精確度也隨之受到影響而增加。 并且觀測(cè)井的位置對(duì)地下水反演識(shí)別的精度也有一定的影響, 在以后的反演識(shí)別研究應(yīng)重點(diǎn)關(guān)注位置對(duì)于檢測(cè)精度的影響。
(2)目前各文獻(xiàn)均顯示神經(jīng)網(wǎng)絡(luò)模型在場(chǎng)地污染領(lǐng)域取得了較好的效果, 但是如果模型受到外界環(huán)境因素干擾的話, 或者獲取的污染樣本不太理想的話,均會(huì)導(dǎo)致模型精度不高。 因此,用相關(guān)模型去處理實(shí)際的應(yīng)用問題還存在一定的差距, 即神經(jīng)網(wǎng)絡(luò)泛化能力還有所欠缺, 今后可從該方面展開相關(guān)研究。
(3)目前改進(jìn)神經(jīng)網(wǎng)絡(luò)模型的角度均著眼于拓展模型深度和寬度, 但如果局限于具體的污染評(píng)估需求時(shí),則不能取得理想的效果,未來的研究方向可以針對(duì)污染物的特征做區(qū)分的模塊化結(jié)構(gòu), 構(gòu)建更加符合實(shí)際需求的模型。