戴亮亮,聶小力,郭 軍,鞏 浩,吳歡歡,張 濤,湯媛媛,毛 聰,彭志剛,賀 燦
(1.中國地質(zhì)調(diào)查局 長沙自然資源綜合調(diào)查中心,湖南 長沙 410600;
2.中國地質(zhì)調(diào)查局 西安礦產(chǎn)資源調(diào)查中心,陜西 西安 710000)
隨著計算機(jī)技術(shù)和人工智能算法的進(jìn)步,大數(shù)據(jù)在傳統(tǒng)行業(yè)獲得了巨大成功,并形成了“互聯(lián)網(wǎng)+”的經(jīng)濟(jì)社會發(fā)展新形態(tài)[1]。相比于其他傳統(tǒng)領(lǐng)域,大數(shù)據(jù)在地學(xué)領(lǐng)域特別是地球化學(xué)領(lǐng)域研究相對滯后,相關(guān)研究成果缺乏[2]。在中國知網(wǎng)檢索“地球化學(xué)”關(guān)鍵詞(2021年5月18日)可以得到將近17萬條文獻(xiàn)記錄,而以“大數(shù)據(jù)+地球化學(xué)”為關(guān)鍵詞檢索,僅能得到約160條文獻(xiàn)記錄,相比于2018年4月20日增加了120篇文獻(xiàn)[3],文獻(xiàn)增量相對較少,在國際主要數(shù)據(jù)庫進(jìn)行類似檢索結(jié)果也相差無幾,這表明擁有海量定量數(shù)據(jù)的地球化學(xué)領(lǐng)域?qū)Υ髷?shù)據(jù)的研究屈指可數(shù),急需加強(qiáng)大數(shù)據(jù)的相關(guān)研究。
大數(shù)據(jù)是基于數(shù)據(jù)的科學(xué)[4],從數(shù)據(jù)本身出發(fā),通過對這些含有意義的數(shù)據(jù)進(jìn)行專業(yè)化處理,挖掘數(shù)據(jù)間的規(guī)律和相關(guān)關(guān)系,進(jìn)而發(fā)現(xiàn)傳統(tǒng)科學(xué)方法難以發(fā)現(xiàn)的新認(rèn)識和新規(guī)律[5]。近兩年,隨著地質(zhì)信息化建設(shè)和大數(shù)據(jù)智能地球科學(xué)的快速發(fā)展[6],大數(shù)據(jù)正在成為地球科學(xué)領(lǐng)域新的爆發(fā)點(diǎn),取得了一系列新的成果與認(rèn)識[7-8],如基于大數(shù)據(jù)分析的大地構(gòu)造環(huán)境的判別[9-15],基于大數(shù)據(jù)和機(jī)器學(xué)習(xí)地球化學(xué)異常信息的提取和對比研究[16-17],基于機(jī)器學(xué)習(xí)的微量元素定量預(yù)測[3,18],大數(shù)據(jù)在礦產(chǎn)資源預(yù)測與評價領(lǐng)域中的應(yīng)用[19-23],由此可見大數(shù)據(jù)對于地球科學(xué)的核心價值就在于分類和預(yù)測。我國自1999年開始實(shí)施土地質(zhì)量地球化學(xué)調(diào)查工作以來[24-25],在巖石、土壤、農(nóng)作物和灌溉水方面積累了大量的定性定量數(shù)據(jù)[26],但受限于調(diào)查的尺度,土壤樣品分析測試的指標(biāo)有很大的差異,1∶250 000土地質(zhì)量地球化學(xué)調(diào)查要求分析表層土壤樣品54項指標(biāo),主要服務(wù)于農(nóng)業(yè)種植、生態(tài)環(huán)境和礦產(chǎn)資源等方面[27],但調(diào)查的精度無法精細(xì)化指導(dǎo)礦產(chǎn)勘查工作,1∶50 000土地質(zhì)量地球化學(xué)調(diào)查在1∶250 000的基礎(chǔ)上開展工作,但測試的指標(biāo)以服務(wù)農(nóng)業(yè)種植和生態(tài)環(huán)境為主[28],由于經(jīng)費(fèi)的限制,很少涉及金屬礦產(chǎn)元素,進(jìn)而導(dǎo)致了大比例尺的表層土壤調(diào)查出現(xiàn)了一定的礦產(chǎn)元素數(shù)據(jù)缺失。同一區(qū)域的1∶250 000表層土壤樣品和1∶50 000表層土壤樣品具有相同的采樣介質(zhì)、成土母質(zhì)背景和表生地球化學(xué)過程,因此我們希望以同一區(qū)域1∶250 000測試指標(biāo)建立一個預(yù)測模型,對1∶50 000大比例尺表層土壤未測元素指標(biāo)含量進(jìn)行空間預(yù)測,來補(bǔ)全1∶50 000土地質(zhì)量地球化學(xué)調(diào)查數(shù)據(jù)庫中缺少的礦產(chǎn)元素含量,服務(wù)于礦產(chǎn)資源勘查。
本文將以羅山地區(qū)表層土壤地球化學(xué)元素指標(biāo)為研究對象,運(yùn)用機(jī)器學(xué)習(xí)隨機(jī)森林方法,立足對表層土壤地球化學(xué)元素間相關(guān)關(guān)系的挖掘,重點(diǎn)探討由表層土壤的已知元素含量預(yù)測Rb元素含量的過程和結(jié)果,為機(jī)器學(xué)習(xí)算法在地球化學(xué)元素空間預(yù)測和進(jìn)一步拓展土地質(zhì)量地球化學(xué)數(shù)據(jù)的服務(wù)應(yīng)用維度提供借鑒。
本文研究的羅山地區(qū)1∶250 000表層土壤數(shù)據(jù)(2 548組數(shù)據(jù))來源于全國地質(zhì)資料館,具有54項指標(biāo)含量值,該樣品基本采樣密度為1個點(diǎn)/km2,采樣深度為0~20 cm,4 km2內(nèi)的4個子樣組合成1個分析樣,樣品元素含量的測定均由具有相關(guān)測試資質(zhì)的實(shí)驗室完成,嚴(yán)格按照《DZ/T 0258—2014多目標(biāo)區(qū)域地球化學(xué)調(diào)查規(guī)范(1∶250 000)》[27]進(jìn)行質(zhì)量控制。羅山地區(qū)1∶5萬表層土壤數(shù)據(jù)為2020年實(shí)測(1 761組數(shù)據(jù)),具有17項指標(biāo)含量值,采樣深度為0~20 cm,樣品空間分布相對均勻,平均采樣密度為9個點(diǎn)/km2,樣品采集充分考慮地塊代表性,在每個樣點(diǎn)的20~50 m范圍內(nèi)采集4~6個子樣,充分混勻后采用四分法獲取約1.5 kg土壤裝入樣品袋中,待樣品自然風(fēng)干后過2 mm(10目)尼龍篩,均勻獲取500 g送實(shí)驗室分析測試,樣品野外處理及加工嚴(yán)格執(zhí)行《DZ/T 0296—2016土地質(zhì)量地球化學(xué)評價規(guī)范》[28]。
1∶5萬表層土壤具有17種元素指標(biāo)(Se、B、As、Hg、V、Cr、Mn、Co、Ni、Cu、Zn、Mo、Cd、Pb、pH、K、P)的數(shù)據(jù),由于預(yù)測變量較多,為了提高預(yù)測的精度,防止過擬合,需要根據(jù)每個預(yù)測變量對預(yù)測結(jié)果的重要程度來對預(yù)測變量進(jìn)行優(yōu)選,確定最佳的預(yù)測變量集。變量的漏選會導(dǎo)致關(guān)鍵信息丟失,降低模型的準(zhǔn)確度,使模型無法準(zhǔn)確描述變量間的復(fù)雜關(guān)系,而多余的預(yù)測變量又會增加模型的復(fù)雜度和學(xué)習(xí)難度,同時也會將噪聲引入建模過程中,進(jìn)而導(dǎo)致模型過擬合,降低泛化能力[29-31]。因此需通過變量的重要性度量對變量進(jìn)行優(yōu)選,留下對預(yù)測結(jié)果影響最大的變量集,隨機(jī)森林中常用的變量重要性度量計算方式主要有基于基尼指數(shù)(GI)和袋外數(shù)據(jù)錯誤率(OOB)[32-33],本文選擇基尼指數(shù)來計算出所有變量的重要性評分,因為其在評價地球化學(xué)元素含量這種連續(xù)性變量時具有更好的穩(wěn)定性[34]。本文變量遴選的方法主要分為兩步,第一步對所有變量進(jìn)行變量重要性度量并進(jìn)行排序,第二步采用機(jī)器學(xué)習(xí)中常用的學(xué)習(xí)曲線來確定最優(yōu)的預(yù)測變量數(shù)量,其原理是根據(jù)預(yù)測變量的重要性度量從高至低累計選取預(yù)測變量進(jìn)行建模,對模型的擬合優(yōu)度和均方根誤差進(jìn)行對比,進(jìn)而確定最優(yōu)的預(yù)測變量數(shù)量。
隨機(jī)森林算法是一種用隨機(jī)方式建立的,以決策樹為基學(xué)習(xí)器構(gòu)建的集成學(xué)習(xí)算法[35],且每個決策樹之間都是相互獨(dú)立的,其輸出的結(jié)果是由每個決策樹輸出結(jié)果的眾數(shù)(分類)或整體平均(回歸)而定[36-37],使得整體模型的結(jié)果具有較高的精確度和泛化性能。近些年,隨機(jī)森林算法由于其強(qiáng)大的性能,已經(jīng)成功地應(yīng)用到各領(lǐng)域的多種預(yù)測模型之中,被譽(yù)為“代表集成學(xué)習(xí)技術(shù)水平的方法”[38-39]。相比于其他機(jī)器學(xué)習(xí)建模算法,隨機(jī)森林算法具有一些明顯的優(yōu)勢[40-41],主要體現(xiàn)在:①實(shí)現(xiàn)簡單,訓(xùn)練可以高度并行化,特別是對于大樣本的地球化學(xué)海量數(shù)據(jù)具有明顯的速度優(yōu)勢;②能處理高維數(shù)據(jù)(多個元素指標(biāo)),具有較強(qiáng)的抗過擬合能力;③通過訓(xùn)練,可以準(zhǔn)確獲取元素間的相互關(guān)系,給出各個特征對于輸出的重要性度量;④隨機(jī)采樣的過程,使訓(xùn)練出的模型的方差小,泛化能力強(qiáng);⑤對數(shù)據(jù)集的適應(yīng)能力強(qiáng),既能處理離散型數(shù)據(jù),也能處理連續(xù)型數(shù)據(jù),數(shù)據(jù)集無需規(guī)范化[42]。因此,把隨機(jī)森林算法應(yīng)用于地球化學(xué)元素空間預(yù)測研究具有很好的契合性。如前面所述,隨機(jī)森林模型是由一棵棵決策樹組成,一般來說決策樹的數(shù)量越多,建模的結(jié)果往往越好,但當(dāng)決策樹數(shù)量達(dá)到一定值后,隨機(jī)森林模型的精確性往往不再上升而是開始上下波動,并且決策樹越多,模型會越復(fù)雜,訓(xùn)練時間也會越長。為了平衡建模效果和模型復(fù)雜度,本文通過構(gòu)建學(xué)習(xí)曲線來擬合決策樹數(shù)量和建模效果的關(guān)系(圖1)。如圖1所示,當(dāng)決策樹數(shù)量為150棵時,模型具有較低的復(fù)雜度,同時也具有較好的建模效果。
圖1 隨機(jī)森林決策樹的數(shù)量對模型擬合優(yōu)度和均方根誤差的影響Fig.1 The influence of the number of random forest decision trees on the model’s goodness of fit and root mean square error
圖2 預(yù)測變量數(shù)量對模型擬合優(yōu)度和均方根誤差的影響Fig.2 The influence of the number of predictors of the model on the goodness of fit and the root mean square error
本文用于變量遴選的學(xué)習(xí)曲線是一條預(yù)測變量數(shù)作為橫坐標(biāo)、預(yù)測模型的擬合優(yōu)度和均方根誤差作為縱坐標(biāo)的曲線(圖2),其中對全部數(shù)據(jù)(2 548組)進(jìn)行變量重要性度量是利用Python隨機(jī)森林模塊的內(nèi)置函數(shù)實(shí)現(xiàn)。由圖2可知,當(dāng)預(yù)測變量在4個以下時,模型的效果隨著預(yù)測變量的增加有著巨大提升,說明此時模型處于欠擬合狀態(tài),當(dāng)選取重要性度量最高的8個預(yù)測變量時,模型既可以具有較好的擬合優(yōu)度和較低的均方根誤差,又具有較低的模型復(fù)雜度,具有較高的計算效率,因此本文選取變量重要性最高的K、B、Ni、V、Zn、As、Co和Cu作為預(yù)測因子(圖3)。
圖3 基于隨機(jī)森林算法的預(yù)測變量重要性度量Fig.3 The importance of predictor variables based on the random forest algorithm
圖4 隨機(jī)森林模型對訓(xùn)練數(shù)據(jù)(a)和測試數(shù)據(jù)(b)的回歸結(jié)果Fig.4 The regression results of the random forest model on training data and test data
在自然界中Rb沒有自己的獨(dú)立礦物,由于離子半徑等地球化學(xué)性質(zhì)與K相近,Rb常以類質(zhì)同象的形式賦存于鉀長石和云母等含鉀礦物晶格中,因此Rb的含量與K具有密切的正相關(guān)關(guān)系[43]。 B為不相容元素,離子半徑小,在內(nèi)生作用過程中,常在巖漿作用的晚期富集,同Rb一樣,從超基性巖、基性巖到中性巖和酸性巖B含量逐漸增加,大部分 B分散在造巖礦物中,主要以進(jìn)入鉀長石等長石類礦物為主,巖石風(fēng)化成土過程中,B和Rb均容易被黏土礦物吸附,較為相似的內(nèi)生和表生作用可能使Rb和B具有一定的相關(guān)性[44]。Rb與Ni、V、Zn、As和Co等元素的關(guān)系可能與有機(jī)質(zhì)和黏土礦物的選擇性吸附有關(guān)[45]。
本文隨機(jī)森林建模是通過Python語言中的sklearn庫實(shí)現(xiàn),采用研究區(qū)1∶250 000表層土壤數(shù)據(jù)的80%(2 038組)作為訓(xùn)練數(shù)據(jù)集,用來建立隨機(jī)森林預(yù)測模型,20%數(shù)據(jù)(510組)用來對建立的模型進(jìn)行驗證。首先通過K、B、Ni、V、Zn、As、Co、Cu和Rb的含量,建立隨機(jī)森林模型,如圖4(a)所示,縱坐標(biāo)表示預(yù)測值,橫坐標(biāo)表示實(shí)際值,中分線表示實(shí)際值與預(yù)測值相等,模型對訓(xùn)練數(shù)據(jù)的擬合優(yōu)度高達(dá)0.983 2,說明隨機(jī)森林模型對該訓(xùn)練數(shù)據(jù)的訓(xùn)練效果較好。再用劃分的20%表層土壤的K、B、Ni、V、Zn、As、Co和Cu的含量數(shù)據(jù)作為預(yù)測變量輸入到建立的隨機(jī)森林模型中得到預(yù)測的Rb元素含量,并將預(yù)測值與實(shí)際值進(jìn)行對比,隨機(jī)森林模型對測試數(shù)據(jù)的預(yù)測結(jié)果如圖4(b)所示,圖中的點(diǎn)密度基本上分布在中分線附近,預(yù)測結(jié)果的擬合優(yōu)度為0.895 6,說明該模型很好地預(yù)測了Rb元素的含量,也進(jìn)一步表明根據(jù)本文方法篩選出的預(yù)測變量是有效的。
為了更直觀地對比測試數(shù)據(jù)的實(shí)際值和預(yù)測值,本文利用GeoIPAS軟件分別制作了實(shí)際值和預(yù)測值的地球化學(xué)圖(圖5)。從圖5中可知,預(yù)測圖能夠準(zhǔn)確地反映Rb元素的空間含量特征,預(yù)測圖的高、低值區(qū)域與實(shí)際圖具有很好的套合關(guān)系,僅有一些微小的差異,這說明建模的過程是可靠的,預(yù)測的結(jié)果也是可信的。
圖5 測試數(shù)據(jù)Rb地球化學(xué)圖:實(shí)際圖(a)和預(yù)測圖(b)Fig.5 Rb geochemical map of test data: actual map (a) and predicted map (b)
圖6 預(yù)測表層土壤Rb元素地球化學(xué)圖(a)和成土母質(zhì)圖(b)Fig.6 Predicted surface soil Rb element geochemical map (a) and soil parent material map (b)
通過上述1∶250 000表層土壤數(shù)據(jù)建立的模型,將1∶50 000表層土壤的K、B、Ni、V、Zn、As、Co和Cu的含量數(shù)據(jù)作為輸入變量導(dǎo)入模型中,得到預(yù)測的Rb元素含量,并利用GeoIPAS軟件繪制了Rb元素地球化學(xué)圖(圖6(a)),通過與研究區(qū)的成土母質(zhì)背景(圖6(b))對比可知,預(yù)測結(jié)果比較符合實(shí)際特征:①Rb元素含量的高值區(qū)與花崗巖出露區(qū)高度套合,這是因為自然界Rb通常以伴生狀態(tài)賦存于花崗巖或花崗偉晶巖中[43];②Rb元素含量的低值區(qū)與第四系全新統(tǒng)沖積物分布密切相關(guān),其原因為Rb離子半徑較大,水化能(離子被水分子包圍的牢固程度)小,陽離子易被帶負(fù)電的膠體黏土礦物吸附在原地,不易隨水流遷移[46],因此在第四系沖積物中含量相對較低,出現(xiàn)低值區(qū);③已發(fā)現(xiàn)螢石礦的周圍往往都有Rb元素含量高值區(qū),因為螢石礦常常有鋰銣云母伴生[47]。
本研究立足土地質(zhì)量地球化學(xué)調(diào)查出現(xiàn)的小比例尺調(diào)查元素多而大比例尺調(diào)查元素少的現(xiàn)狀,旨在對大比例尺缺失的礦產(chǎn)元素進(jìn)行空間預(yù)測,通過大量數(shù)據(jù)的訓(xùn)練和學(xué)習(xí),以稀有金屬Rb元素為例,定量探索土地質(zhì)量地球化學(xué)數(shù)據(jù)之間的關(guān)系。以同一地區(qū)1∶250 000表層土壤元素含量數(shù)據(jù)建立隨機(jī)森林模型,在1∶50 000尺度Rb元素的空間預(yù)測取得了良好的效果,Rb元素預(yù)測值與地質(zhì)背景和表生地球化學(xué)過程保持較高的一致性,可視化結(jié)果較好地展現(xiàn)了表層土壤Rb元素的空間分布主要受地質(zhì)背景和表生地球化學(xué)作用控制。主要結(jié)論如下:①在構(gòu)建隨機(jī)森林模型時,采用變量重要性度量排序和構(gòu)建學(xué)習(xí)曲線的組合方法進(jìn)行預(yù)測變量的優(yōu)選,模型對訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)的擬合優(yōu)度分別達(dá)到0.983 2和0.895 6,說明預(yù)測變量的優(yōu)選方法是有效的;②由變量重要性度量結(jié)果可知,表層土壤中Rb元素含量與K、B含量具有很強(qiáng)的相關(guān)性;③通過對大比例尺Rb元素空間預(yù)測結(jié)果的佐證,表明將大數(shù)據(jù)機(jī)器學(xué)習(xí)算法引入表層土壤地球化學(xué)元素含量的空間定量預(yù)測具有可行性。
土地質(zhì)量地球化學(xué)調(diào)查近些年積累了海量數(shù)據(jù),立足數(shù)據(jù)的特點(diǎn),本文僅以Rb元素為例,介紹了小比例尺建模、大比例尺預(yù)測的方法,展示了該算法變量優(yōu)選的過程和預(yù)測的能力。首次嘗試把大數(shù)據(jù)機(jī)器學(xué)習(xí)算法運(yùn)用到土地質(zhì)量地球化學(xué)數(shù)據(jù)定量預(yù)測中來,并在大比例尺的礦產(chǎn)元素空間定量預(yù)測中取得了較好的效果,對預(yù)測的結(jié)果進(jìn)行了相關(guān)的佐證,具有廣闊的應(yīng)用推廣前景,進(jìn)一步拓展了土地質(zhì)量地球化學(xué)數(shù)據(jù)的服務(wù)應(yīng)用維度。隨著新時代地質(zhì)調(diào)查事業(yè)“三大轉(zhuǎn)變”的大力推進(jìn),每一名地質(zhì)調(diào)查人員都應(yīng)當(dāng)積極向科技創(chuàng)新和信息化建設(shè)轉(zhuǎn)變,運(yùn)用新技術(shù)新方法充分挖掘數(shù)據(jù)潛力,提升數(shù)據(jù)服務(wù)水平,全面提高地質(zhì)調(diào)查成果的服務(wù)能力。