于子望,鄭天琪,程鈺翔
1.吉林大學(xué)建設(shè)工程學(xué)院,長春 130026
2.地下水資源與環(huán)境教育部重點實驗室(吉林大學(xué)), 長春 130021
3.地?zé)豳Y源開發(fā)技術(shù)與裝備教育部工程研究中心(吉林大學(xué)), 長春 130021
隨著全球能源需求不斷增長,能源匱乏已經(jīng)成為全球性問題。城市化進程、化石燃料燃燒和溫室氣體排放加劇了環(huán)境問題的惡化。近年來,淺層地?zé)崮茏鳛橐环N可再生能源引起了越來越多的關(guān)注,它可以替代一些化石燃料,在減輕城市熱島效應(yīng)和緩解環(huán)境污染方面發(fā)揮作用。此外,淺層地?zé)崮苓€可以作為備用能源,提供解決能源安全問題的方案。因此,探查和利用淺層地?zé)崮芤呀?jīng)變得至關(guān)重要[1-4]。
淺層地?zé)崮艿母拍钭钤缬扇鹗垦芯空逪einric Zolley于1912年提出。這種熱能通常源于地球內(nèi)部的熱力學(xué)過程,如斷裂活動、火山噴發(fā)和地殼內(nèi)部的熱傳導(dǎo)[5]。淺層地?zé)崮茉谌蚍秶鷥?nèi)廣泛分布,并廣泛用于地?zé)岚l(fā)電和地?zé)峁┡?。在冰島、匈牙利、中國、意大利和美國等國家,淺層地?zé)崮鼙恢苯踊蜷g接用于氣候控制,居民住宅供暖及溫室大棚等空間供暖[6]。這種淺層地?zé)崮艿睦梅绞綖槿藗兲峁┝丝沙掷m(xù)的能源選擇,有助于減少對傳統(tǒng)化石燃料的依賴,實現(xiàn)能源多樣化,推動可持續(xù)發(fā)展。
原則上,淺層地?zé)崮苁瞧毡榇嬖诘牡責(zé)豳Y源,但其開發(fā)和利用受到技術(shù)和經(jīng)濟因素的制約。地?zé)徙@孔由于成本較高,需要進行前期調(diào)查研究以降低項目成本[7-8]。詳細的地質(zhì)考察、野外調(diào)查、數(shù)據(jù)收集和審查對確定地?zé)岬讓訙囟戎陵P(guān)重要。同時,這些任務(wù)需要專用設(shè)備、儀器和方法,并需投入大量時間和經(jīng)濟成本。另外,地?zé)岬讓訙囟鹊姆治龊湍M也是一項復(fù)雜的工作。
機器學(xué)習(xí)方法可以自動從數(shù)據(jù)中提取有用信息并建立預(yù)測模型,有效解決前期調(diào)研成本問題。通過使用機器學(xué)習(xí)算法,可以利用現(xiàn)有的地?zé)釘?shù)據(jù)來訓(xùn)練模型并預(yù)測和估計地?zé)岬讓訙囟取_@種方法可以顯著減少調(diào)查成本,提高效率,并為決策者提供可靠的方案。因此,機器學(xué)習(xí)技術(shù)在淺層地?zé)崮艿目碧胶烷_發(fā)中具有巨大潛力,可為相關(guān)研究和項目提供更實用、更經(jīng)濟的選擇[6,9]。
近年來,淺層地?zé)崮苁菣C器學(xué)習(xí)廣泛跨學(xué)科應(yīng)用的眾多領(lǐng)域之一。如:Kalogirou等[10]使用人工神經(jīng)網(wǎng)絡(luò)(artificial neural network,ANN)預(yù)測塞浦路斯50 m和100 m深處的地下溫度;Assouline等[11]使用隨機森林(random forest, RF)算法預(yù)測瑞士極淺層地下溫度分布、地?zé)釋?dǎo)率和熱擴散系數(shù); Bourhis等[12]利用極限梯度提升(extreme gradient boosting,XGB)算法預(yù)測瑞士的地下溫度和地?zé)釋?dǎo)率; Mudunuru等[13]使用非負矩陣/張量分解提出了一種無監(jiān)督機器學(xué)習(xí)方法,用于預(yù)測新墨西哥州可能存在的地?zé)豳Y源;Shahdi等[14]通過3種機器學(xué)習(xí)方法進行探索性分析,研究美國東北部的地下溫度和地?zé)崽荻菼shitsuka等[15-16]利用日本地?zé)崽飻?shù)據(jù),采用神經(jīng)網(wǎng)絡(luò)方法和貝葉斯估計成功預(yù)測了地下溫度。這些研究表明,在淺層地?zé)崮芊矫?機器學(xué)習(xí)技術(shù)具有廣泛的應(yīng)用。機器學(xué)習(xí)方法有助于預(yù)測和研究淺層地?zé)崮芤约捌渌嚓P(guān)參數(shù),為地?zé)豳Y源的使用和開發(fā)提供可靠的輔助和指導(dǎo)。
基于元啟發(fā)式方法的混合機器學(xué)習(xí)模型在多個領(lǐng)域得到了成功應(yīng)用,其是通過在大數(shù)據(jù)集的相關(guān)任務(wù)上通過元啟發(fā)式算法進行預(yù)訓(xùn)練的方式更新原學(xué)習(xí)器的參數(shù),以達到提升原模型精度的目的[17]。粒子群優(yōu)化(particle swarm optimization, PSO)是一種兼具有效性和靈活性的元啟發(fā)式優(yōu)化算法。就其應(yīng)用來說:PSO-SVR(PSO support vector regression)已成功用于預(yù)測碳酸鹽礫巖的力學(xué)性質(zhì),其通過優(yōu)化支持向量回歸(SVR)模型的參數(shù),提高了模型的準確性和泛化能力[18];PSO-XGBoost、PSO-LightGBM和PSO-CatBoost模型已經(jīng)成功預(yù)測了地震導(dǎo)致的液化引起側(cè)向蔓延的發(fā)生[19];PSO-BP(back propagation)模型被用于預(yù)測隧道施工期間的地面沉降,通過優(yōu)化BP神經(jīng)網(wǎng)絡(luò)模型的權(quán)重和偏置,提高了預(yù)測的準確性和模型的穩(wěn)定性;PSO-XGB模型被用于預(yù)測堅硬巖石條件下的隧道掘進速度,通過優(yōu)化XGB模型的超參數(shù),提高了預(yù)測的準確性和模型的有效性[20]。
這些應(yīng)用實例表明,將PSO等元啟發(fā)式算法與機器學(xué)習(xí)模型相結(jié)合,可以提高它們的性能,并產(chǎn)生良好的預(yù)測結(jié)果。元啟發(fā)式優(yōu)化方法為機器學(xué)習(xí)模型提供了更好的參數(shù)調(diào)整和優(yōu)化策略,提高了其準確性、穩(wěn)健性和泛化能力。
本研究以中國吉林省長春市為例,考慮地形、地下水等地質(zhì)條件以及地?zé)醿訙囟?利用機器學(xué)習(xí)方法預(yù)測地下溫度。基于元啟發(fā)式的機器學(xué)習(xí)混合模型能夠明顯在精度和擬合情況上優(yōu)于單一機器學(xué)習(xí)模型,故本文除傳統(tǒng)的機器學(xué)習(xí)算法,包括K近鄰(K-nearest neighbors,KNN)、支持向量回歸、隨機森林和極限梯度提升外,還使用了基于粒子群優(yōu)化的極限梯度提升混合模型(PSO-XGB)。
本文研究區(qū)域位于中國吉林省長春市,介于 125°06′E--125°30′E, 43°42′N--44°03′N之間。研究區(qū)地形以低山丘陵地貌為主,屬于溫帶季風(fēng)氣候區(qū)。主要構(gòu)造類型為活動斷層。共采集了54個地?zé)徙@孔的數(shù)據(jù)樣本。
地?zé)嵯到y(tǒng)的形成機制和成因模式非常復(fù)雜,與地形、氣候和地質(zhì)等多種因素密切相關(guān)。這些條件對地下結(jié)構(gòu)溫度等參數(shù)起著至關(guān)重要的作用,具有不可替代性。本文通過查閱文獻,選擇出一系列訓(xùn)練特征,包括經(jīng)緯度坐標、區(qū)內(nèi)地質(zhì)結(jié)構(gòu)、年降平均雨量、年平均氣溫、高程,及與斷裂距離,地下溫度是需要預(yù)測的目標變量。
首先,通過去除異常值和處理缺失值對數(shù)據(jù)進行預(yù)處理。然后采用克里金插值法將數(shù)據(jù)集擴大到149組以滿足機器學(xué)習(xí)算法需要的大量數(shù)據(jù)。最后,使用皮爾遜相關(guān)系數(shù)檢驗訓(xùn)練樣本之間的相關(guān)性,創(chuàng)建熱力圖(圖1)。
圖1 樣本相關(guān)性熱力圖
圖1分析結(jié)果表明,經(jīng)度坐標與斷裂距離之間存在較強的相關(guān)性(-0.95),而年平均氣溫與年平均降雨量之間存在中等程度的相關(guān)性(-0.18)。因此,本研究選擇經(jīng)度坐標、年平均降雨量、年平均氣溫和與斷裂距離作為訓(xùn)練特征來建立數(shù)據(jù)集。為保證在不同方法下使用相同的樣本順序進行模型訓(xùn)練和測試,數(shù)據(jù)集被隨機分成訓(xùn)練集(70%)和測試集(30%)。
本研究采用5種機器學(xué)習(xí)模型來預(yù)測地下溫度,分別為:KNN、SVR、RF、XGB和PSO-XGB。
KNN是一種基于距離測量的算法。具體來說,先根據(jù)一定的度量標準,在訓(xùn)練集中找出c個最近的樣本,然后利用這些最近樣本的信息進行預(yù)測。在本研究中,K為超參數(shù),使用的距離計算方法是歐氏方程[21]。
(1)
式中:Ei,j為距離;h為空間維度;xic與xjc為數(shù)據(jù)點坐標。
SVR是一種基于支持向量機的回歸算法。它使用核函數(shù)將數(shù)據(jù)映射到一個高維空間,旨在找到一個最佳超平面,盡可能地將樣本點分開。與分類問題不同,SVR 的目標是獲得一個回歸模型,使訓(xùn)練樣本盡可能靠近超平面,以預(yù)測新的數(shù)據(jù)點[20,22]。分隔樣本點的超平面的表達式為
f(x)=wφ(x)+b。
(2)
式中:w為權(quán)重;b為偏差;φ(x)為將變量x映射到更高維度空間的核函數(shù)。通過引入拉格朗日乘法器和 Karush-Kuhn-Tucker條件來優(yōu)化回歸函數(shù),可以用下面的公式來描述:
(3)
RF是一種基于集合學(xué)習(xí)的算法,它使用多棵決策樹進行預(yù)測,并對預(yù)測結(jié)果求平均值,從而得出最終預(yù)測結(jié)果。其使用一種稱為引導(dǎo)的技術(shù),從原始訓(xùn)練數(shù)據(jù)集中隨機選擇幾個不同的訓(xùn)練子集。對于每個訓(xùn)練子集,節(jié)點被隨機劃分為預(yù)定數(shù)量的特征。每個訓(xùn)練子集都會生成一棵具有所選特征的決策樹。在隨機森林中,每棵決策樹獨立預(yù)測輸入樣本,最終預(yù)測結(jié)果由每棵決策樹結(jié)果的平均值得出[23]。
XGB是一種高效且廣泛使用的監(jiān)督機器學(xué)習(xí)方法。它是一種基于樹算法的集合算法,類似于GBDT(gradient boosting decision tree)[24-25]。XGB將梯度提升樹與正則化技術(shù)相結(jié)合,因此性能和準確性都非常出色。它通過迭代建立多個弱學(xué)習(xí)器,并通過集合方法進行預(yù)測。在每次迭代中,XGB會根據(jù)上一輪的預(yù)測計算樣本殘差,并將這些殘差作為新的目標來訓(xùn)練新的弱學(xué)習(xí)器。每一次迭代,新的弱學(xué)習(xí)器都旨在糾正前一個學(xué)習(xí)器的不準確性,從而逐步提高整體性能。對于回歸問題,最終預(yù)測結(jié)果由所有弱學(xué)習(xí)器的結(jié)果匯總得出。決策樹通常被用作弱學(xué)習(xí)器[26-28]。預(yù)測的數(shù)學(xué)表達式如下:
(4)
(5)
(6)
(7)
式中:u為迭代次數(shù);q為粒子數(shù);d為搜索方向;m為粒子總數(shù);D為空間維度數(shù);w為權(quán)重;c1和c2為學(xué)習(xí)因子;r1和r2為在[0,1]范圍內(nèi)均勻分布的隨機數(shù)[30]。
在這個過程中,每個粒子都會與其他粒子一起工作,以提高其適應(yīng)周圍環(huán)境的能力,并在復(fù)雜的空間中尋找最佳的復(fù)雜解。PSO-XGB 是 XGB 訓(xùn)練階段粒子群優(yōu)化的超參數(shù)。平均平方誤差被用作衡量性能的適應(yīng)度函數(shù)。由于 XGB 的結(jié)構(gòu),所選參數(shù)也會隨著每次迭代變得更適合預(yù)測模型,從而導(dǎo)致每次迭代的均方誤差減小[28,31]。PSO-XGB 的基本流程見圖2。
圖2 PSO-XGB基本原理流程圖
模型創(chuàng)建過程中的重要步驟包括模型驗證和評估。在創(chuàng)建模型后,必須對模型的性能質(zhì)量進行審查,并確定所選模型是否能為預(yù)期目的提供正確的結(jié)果。本研究中的預(yù)測模型使用訓(xùn)練集進行訓(xùn)練,生成的模型使用測試集進行驗證。
本研究使用均方根誤差(ERMS)、平均絕對誤差(EMA)、決定系數(shù)(R2)和均方誤差(EMS)作為評估指標來解釋預(yù)測值與實際值之間的關(guān)系,以評估模型的可靠性。EMS表示測量值與真實值之間的平均平方差。ERMS是EMS的平方根,它調(diào)整了誤差的大小,能更直觀地衡量模型的預(yù)測誤差。R2的值表示模型可以解釋的目標變量變化的百分比。EMA表示預(yù)測值與真實值之間的平均絕對差值[32-34]。
(8)
(9)
(10)
(11)
在本研究中,本文采用了 KNN、SVR、RF、XGB 和 PSO-XGB 等5種機器學(xué)習(xí)模型,利用經(jīng)緯度坐標、年平均降雨量、年平均氣溫和與斷裂距離等特征來預(yù)測地下100 m深處的溫度。
在參數(shù)設(shè)置方面,KNN 采用了歐氏距離算法,超參數(shù)K值設(shè)為 4。SVR 通過導(dǎo)入 SVM 模型來實現(xiàn),其核函數(shù)RBF(radial basis function)多項式poly函數(shù)維度為3,懲罰系數(shù)C=1。RF使用 n_estimators=50 和 max_depth=7 作為超參數(shù)。XGB 的超參數(shù)設(shè)置為max_depth=6、n_estimators=200和 learning_rate=0.3。在 PSO-XGB 中,粒子數(shù)設(shè)為 20,最大迭代次數(shù)設(shè)為 200,使用的回歸函數(shù)為 reg:linear。PSO 被用于優(yōu)化 XGB 中的3個參數(shù),即 learning_rate、n_estimators 和max_depth。
本研究考慮了這些機器學(xué)習(xí)模型及其各自的參數(shù)設(shè)置,以準確預(yù)測地下100 m深處的溫度。通過訓(xùn)練數(shù)據(jù)集對模型進行訓(xùn)練,得到了具有不同預(yù)測能力的模型。這些模型在訓(xùn)練過程中表現(xiàn)良好,因為訓(xùn)練數(shù)據(jù)點的分布接近最佳擬合線(圖3)。評估指標中EMS、ERMS和EMA越小,R2越大,模型的效果越好[34-36]。
a. KNN;b. SVR;c. RF;d. XGB;e. PSO-XGB。
通過模型在不同指標上的表現(xiàn)按順序?qū)δP瓦M行評分。表1提供了這5個模型的性能評分和排名系統(tǒng)。通過圖3和表1綜合來看,RF模型表現(xiàn)最佳,其ERMS值為 0.059 4,EMA值為 0.038 2,R2值為 0.983 3,EMS值為 0.003 5(圖3c)。其次是 PSO-XGB 模型,其ERMS值為0.065 5,EMA值為0.047 0,R2值為 0.973 4,EMS值為 0.004 3(圖3e)。再次是 KNN 模型,其ERMS值為 0.099 9,EMA值為 0.060 5,R2值為 0.972 5,EMS值為 0.011 0(圖3a)。然后是XGB 模型,ERMS值為 0.077 9,EMA值為 0.047 3,R2值為 0.955 6,EMS值為 0.006 1(圖3d)。SVR 模型的表現(xiàn)最差,ERMS值為 0.108 2,EMA值為 0.071 7,R2值為 0.944 4,EMS值為 0.011 7(圖3b)。所有這些機器學(xué)習(xí)模型的R2值都高于 0.940 0,表明訓(xùn)練效果良好。
表1 不同模型性能評分比較
模型訓(xùn)練完成后,使用測試數(shù)據(jù)集進行驗證評估。通過圖4觀察測試數(shù)據(jù)集中預(yù)測值與實際值之間的相關(guān)性和誤差,可以看出測試樣本的分布在一定程度上接近完全擬合線。根據(jù)表1看出預(yù)測性能的排名,5個模型從高到低排列為: PSO-XGB、KNN、SVR、XGB 和 RF。通過比較 XGB 和 PSO-XGB 的性能,可以得出結(jié)論:PSO-XGB在預(yù)測淺層地下溫度方面具有更大的優(yōu)勢,可獲得更好的預(yù)測性能。
a. KNN;b. SVR;c. RF;d. XGB;e. PSO-XGB。
整理每個模型的性能信息,并制作相應(yīng)的圖表,以便進一步比較和研究這些模型的預(yù)測性能。圖5用更易于理解的堆疊圖顯示了總體排名結(jié)果。圖6疊加訓(xùn)練和測試結(jié)果,直觀地表現(xiàn)了5個模型4個評估指標的綜合評分。綜合結(jié)果表明,每個模型在訓(xùn)練和測試過程中的表現(xiàn)各不相同。5個模型預(yù)測性能由高到低的排名為:PSO-XGB、RF、KNN、XGB、SVR。與其他模型相比,PSO-XGB 混合模型具有更好的學(xué)習(xí)和預(yù)測能力。
圖5 模型評價指標折線圖
圖6 模型綜合排名直觀顯示柱狀圖
1)綜合分析結(jié)果表明,與其他傳統(tǒng)機器學(xué)習(xí)模型相比,PSO-XGB 在預(yù)測淺層地下溫度方面表現(xiàn)出更好的能力,并能有效地幫助 XGB 進行超參數(shù)調(diào)整。5個模型預(yù)測性能由高到低的排名為: PSO-XGB、RF、KNN、XGB、SVR。
2)基于元啟發(fā)式算法對于預(yù)測類似問題性能明顯高于單一機器學(xué)習(xí)模型。后續(xù)研究可對利用同一模型不同場地進行實驗驗證模型的泛化性,也可以選擇多種不同元啟發(fā)式算法如灰狼算法等對類似問題進行分析比較,找尋精度最高的地?zé)釢摿︻A(yù)測方法。值得注意的是,由于模型參數(shù)是根據(jù)主觀選擇的特征進行調(diào)整的,因此本研究提出的模型建議在類似條件下使用。此外,本文提出的模型可作為挖掘前估算地?zé)峋疂摿Φ膮⒖脊ぞ摺?/p>