劉嘉情 ,鐘世華,* ,李三忠 ,豐成友 ,戴黎明 ,索艷慧 ,郭廣慧 ,牛警徽 ,薛梓萌 ,黃宇
(1. 中國海洋大學,深海圈層與地球系統(tǒng)教育部前沿科學中心,山東 青島 266100;2. 中國海洋大學,海底科學與探測技術(shù)教育部重點實驗室,山東 青島 266100;3. 中國海洋大學海洋地球科學學院,山東 青島 266100;4. 青島海洋科學與技術(shù)國家實驗室,海洋礦產(chǎn)資源評價與探測技術(shù)功能實驗室,山東 青島 266100;5. 中國地質(zhì)科學院勘探技術(shù)研究所,河北 廊坊 065000)
祁漫塔格成礦帶作為東昆侖造山帶的重要組成部分,東起烏圖美仁鄉(xiāng)一帶,西至阿爾金斷裂,北與柴達木盆地相鄰,西南與庫木庫里盆地相接,東西長約為550 km(豐成友等,2010;鐘世華等,2018;Zhong et al.,2021a;張向飛等,2023)。區(qū)內(nèi)巖漿活動強烈,持續(xù)時間長,巖性從超基性巖到中酸性巖均有出露,但以花崗巖類巖體為主(Mao et al.,2014;Zhong et al.,2018,2021a;田龍等,2023)。長期以來,對祁漫塔格成礦帶花崗巖類的研究是人們關(guān)注的焦點,這是由于花崗巖類作為陸殼的最重要組成部分,花崗巖類的研究對認識該地區(qū)陸殼生長方式、查明青藏高原地質(zhì)演化規(guī)律均具有重要意義(Yu et al.,2017a;Chen et al.,2018)。此外,更為重要的是,祁漫塔格成礦帶是中國西北地區(qū)著名的銅鉬鐵鉛鋅多金屬成礦帶,發(fā)育了卡爾卻卡、野馬泉、維寶、鴨子溝等一大批斑巖-矽卡巖多金屬礦床(李世金等,2008;豐成友等,2011;高永寶等,2012;鐘世華等,2017),而這些礦床的形成與該地區(qū)中酸性巖漿活動密切相關(guān)(Zhong et al.,2018,2021a)。因此,深入開展花崗巖成因研究、查明花崗巖成礦潛力,已經(jīng)成為實現(xiàn)該地區(qū)金屬礦產(chǎn)儲量增長的重要突破口。
大量的研究顯示,形成斑巖-矽卡巖礦床的中酸性成礦巖體與貧礦巖體(又稱為非成礦巖體)具有顯著不同的地球化學特征(Rezeau et al.,2019;Rezeau et al.,2020;Pizarro et al.,2020)。研究發(fā)現(xiàn),能夠成礦的中酸性巖體通常具有高氧逸度和富水的特征(Richards,2011;Sun et al.,2013;Rezeau et al.,2020),這是由于高氧逸度、富水的巖漿可以確保深部金屬不會過早達到飽和,而以硫酸鹽相形式被遷移至淺部成礦系統(tǒng)(Ballard et al.,2002)。基于對成礦巖體的這些認識,大量用于識別斑巖系統(tǒng)成礦巖漿的地球化學勘查指標被提出,如基于全巖成分的Sr、Y、La、Yb以及Sr/Y和La/Yb等(Richards,2011;Chiaradia et al.,2012)。這些地球化學指標的提出和建立,極大豐富了全球斑巖系統(tǒng)成礦巖漿的識別方法與找礦勘查理論,推動了該類型礦床的成因研究(Hedenquist et al.,1998;Du et al.,2020)。然而,僅基于少數(shù)巖漿特征及對應(yīng)的元素含量或比值建立的地球化學勘查方法也容易受到熱液蝕變、結(jié)晶分異、巖漿同化混染等其他因素干擾,從而導致誤判。例如,普朗斑巖銅礦的成礦巖漿由于巖漿混合和同化混染,使巖漿氧逸度發(fā)生了劇烈震蕩(Leng et al.,2018)。此外,隨著測試手段和分析儀器的持續(xù)進步以及人類生產(chǎn)和科研活動的不斷實踐,斑巖系統(tǒng)成礦巖體的數(shù)據(jù)數(shù)量正在以可見的速度增加。然而,如何利用如此豐富“海量”的地球化學數(shù)據(jù)獲取更多的成礦信息,傳統(tǒng)的地質(zhì)數(shù)據(jù)處理方法已顯得捉襟見肘(Petrelli et al.,2016;Nathwani et al.,2022)。因此,急需采用新的技術(shù)方法,通過充分利用地質(zhì)大數(shù)據(jù),查明成礦巖漿特征,建立識別成礦巖漿新方法,指導找礦勘查和深化礦床成因研究。
因此,在系統(tǒng)收集祁漫塔格成礦帶典型斑巖-矽卡巖多金屬礦床的成礦巖體和非成礦巖體的全巖主量和微量元素數(shù)據(jù)基礎(chǔ)上,選取28種常見的全巖地球化學特征,借助最常用的機器學習算法之一——隨機森林,開展機器學習模型訓練,建立能夠識別成礦巖體(斑巖-矽卡巖多金屬礦床)和非成礦巖體的新方法。研究結(jié)果可以為該地區(qū)斑巖-矽卡巖多金屬礦床的找礦勘查提供有效方法,從而更好的服務(wù)新一輪找礦突破戰(zhàn)略行動。
東昆侖造山帶是一條位于青藏高原北部的巨型構(gòu)造巖漿巖帶,其東西長約為1 500 km。造山帶北起柴達木盆地南緣,南至巴顏喀拉-松潘甘孜板塊,東起秦嶺-大別造山帶,西至阿爾金造山帶(許志琴等,2012;潘彤,2017),并大致以烏圖美仁鄉(xiāng)為界分為東西兩段。東昆侖造山帶經(jīng)歷了前寒武紀、早古生代、晚古生代—早中生代和晚中生代—新生代旋回4個造山旋回(莫宣學等,2007;董連慧等,2015;田龍等2023)。這些旋回記錄了原特提斯洋、古特提斯洋以及新特提斯洋的形成、擴張與消亡過程(Zhong et al.,2017)。除了晚中生代—新生代旋回外,其他造山旋回都伴隨著大量的巖漿活動,其中以晚古生代和早中生代(特別是三疊紀)的巖漿活動最為激烈(莫宣學等,2007)。
祁漫塔格成礦帶主體位于東昆侖西段,東西長約為550 km,橫跨青海和新疆,總體呈西寬東窄的楔形,北西向延伸展布(許長坤等,2012;Zhong et al.,2017)。祁漫塔格地區(qū)出露地層時代跨度大、分布零散,且大都經(jīng)歷了不同程度的后期改造(景寶盛等,2013;潘彤,2017)。已有研究證實,中元古界長城系小廟組和狼牙山組、奧陶系灘間山群以及石炭系締敖蘇組和大干溝組與區(qū)域斑巖-矽卡巖礦化關(guān)系密切,是主要的賦礦地層(豐成友等,2010,2011;高永寶,2013)。長城系小廟組主要為片巖和大理巖等,與區(qū)域鎢錫礦化關(guān)系密切(高永寶等,2011;許長坤等,2012);薊縣系狼牙山組主要由變質(zhì)碎屑巖和碳酸鹽巖組成,夾少量火山巖(豐成友等,2011;趙一鳴等,2013);灘間山群又被稱為祁漫塔格群,為一套海相火山-沉積組合(張曉飛等,2012;莊玉軍等,2023);大干溝組和締敖蘇組均是一套主要由灰?guī)r組成的碎屑巖-碳酸鹽建造(豐成友等,2010,2012)。祁漫塔格成礦帶區(qū)域構(gòu)造活動十分劇烈,NW向、NNW向、壓扭性斷裂組成了區(qū)域主體構(gòu)造骨架(舒曉峰等,2012),不同級別和序次的斷裂構(gòu)造交匯聚合位置,往往是成巖成礦的有利部位,而NE向和SN向斷裂大多為成礦后構(gòu)造(鐘世華等,2017)。研究區(qū)巖漿巖分布十分廣泛,時代上從前寒武紀到早中生代均有分布,但以志留紀—泥盆紀(435~370 Ma)和中晚三疊世—早侏羅世花崗巖(245~196 Ma)最為發(fā)育(豐成友等,2012;Zhong et al.,2021b),主要形成于早古生代旋回和晚生代-早中生代旋回的(后)碰撞階段。
祁漫塔格成礦帶是近幾年查明的有較大找礦遠景的斑巖-矽卡巖型銅鉬鐵鉛鋅多金屬成礦帶(毛景文等,2012),分布有20余處大中型金屬礦床,礦化類型多樣(圖1),成礦元素豐富,代表性礦床有維寶、尕林格、虎頭崖、野馬泉、卡爾卻卡、四角羊、肯德可克等(豐成友等,2011;Yu et al.,2017b;高永寶等,2018;Zhong et al., 2021b)。來自輝鉬礦Re-Os和熱液白云母Ar-Ar等的年齡結(jié)果證實,這些礦床的形成大都與三疊紀花崗巖類有關(guān)(李世金等,2008;豐成友等,2011;田承盛等,2013;于淼等,2015;Xia et al., 2015)。近些年,隨著勘查和研究工作的深入,在祁漫塔格許多銅鉬鐵鉛鋅多金屬礦區(qū)發(fā)現(xiàn)了含礦化的泥盆紀花崗巖體,證實在該地區(qū)存在兩期斑巖-矽卡巖多金屬礦化(Zhong et al.,2021a,2021b)。除這些與花崗巖類有關(guān)的礦床外,與基性-超基性巖有關(guān)的銅鎳硫化物礦床是該地區(qū)另一種重要的礦床類型,以夏日哈木超大型銅鎳硫化物礦床為代表(楊興科等,2016;許駿等,2021)。
文中共收集來自東昆侖祁漫塔格地區(qū)的582條成礦巖體與非成礦巖體的主微量元素數(shù)據(jù),包括246條成礦巖體的全巖數(shù)據(jù)和336條非成礦巖體的全巖數(shù)據(jù)(表1)。其中,246條成礦巖體數(shù)據(jù)來自以下4種類型礦床:斑巖鉬礦(17條)、斑巖銅礦(23條)、矽卡巖銅鉛鋅礦床(87條)、矽卡巖鐵礦床(119條)。雖然矽卡巖鎢錫礦床和矽卡巖鉛鋅礦床在祁漫塔格成礦帶也十分發(fā)育,但是文中沒有使用來自這些礦床類型的成礦巖體數(shù)據(jù)。這是由于已有研究表明,來自這些礦床的成礦巖體特征與文中使用的4種礦床類型的成礦巖體特征具有顯著差異。例如,斑巖鉬礦、斑巖銅礦、矽卡巖銅鉛鋅礦床、矽卡巖鐵礦床的成礦巖體通常具有較高的氧逸度特征,而矽卡巖鎢錫礦床的成礦巖體氧逸度則較低。
對于每一條全巖數(shù)據(jù),選擇28種特征用于機器學習模型訓練,其中包括7種主量元素(Si、Al、Fe、Mg、Ca、Na、K)、14種稀土元素(La、Ce、Pr、Nd、Sm、Eu、Gd、Tb、Dy、Ho、Er、Tm、Yb、Lu)、5種微量元素(Ba、Rb、Nb、Sr、Y)以及由以上微量元素派生的2個比值(Sr/Y、La/Yb)。選擇以上元素特征用于機器學習模型訓練是由于已有的研究表明這些元素在成礦巖體與非成礦巖體類型判別上具有重要意義(Nathwani et al.,2022)。
文中匯編了成礦巖體和非成礦巖體全巖地球化學數(shù)據(jù)庫中各個特征的統(tǒng)計學規(guī)律(表2,圖2)。盡管成礦巖體和非成礦巖體的許多特征的分布范圍存在重疊,但是一些特征也表現(xiàn)出顯著的差異,如Nb、Sm、Eu、Gd、Dy、Y等(表2,圖2)。成礦巖體Nb含量為3.1×10-6~59.0×10-6,平均值為13.9×10-6;非成礦巖體Nb含量為0.5×10-6~89.7×10-6,平均值為16.6×10-6。成礦巖體Sm含量為1.5×10-6~14.8×10-6,平均值為4.9×10-6;非成礦巖體Sm含量為1.4×10-6~22.6×10-6,平均值為7.2×10-6。來自成礦巖體Eu含量為0~2.3×10-6,平均值為0.8×10-6;非成礦巖體Eu含量為0.1×10-6~6.8×10-6,平均值為1.2×10-6。成礦巖體Gd含量為1.2×10-6~14.3×10-6,平均值為4.4×10-6;非成礦巖體Gd含量為1.3×10-6~20.6×10-6,平均值為6.6×10-6。成礦巖體Dy含量為1.1×10-6~23.0×10-6,平均值為4.0×10-6;非成礦巖體Dy含量為0.7×10-6~24.5×10-6,平均值為6.1×10-6。成礦巖體Y含量為6.8×10-6~164.8×10-6,平均值為24.2×10-6;非成礦巖體Y含量為3.7×10-6~157.0×10-6,其平均值遠大于成礦巖體,為32.4×10-6。
圖2 文中使用的成礦巖體和非成礦巖體的28種全巖特征箱狀圖Fig. 2 Box illustrations of the 28 features of the mineralized and barren magmatic rocks used in this study
文中采用隨機森林(Random Forest,簡稱RF)對成礦巖體和非成礦巖體進行識別。采用隨機森林的原因包括:①該算法訓練過程簡單,已被廣泛用于解決地質(zhì)學中的分類問題(李蒼柏等,2020)。②預研究也證實,隨機森林也是常見的機器學習算法中對識別成礦巖體和非成礦巖體全巖地球化學數(shù)據(jù)最有效的方法。隨機森林算法是由Breiman提出的一種強大的集合學習方法,是一種結(jié)合了“Bagging”思想與隨機特征選取技術(shù)的有監(jiān)督機器學習算法(圖3)。算法的基本思想是使用有放回的抽樣方法(Booststrap)從原始訓練樣本中有放回地重復隨機抽取N組訓練樣本,建立一個具有N棵決策樹的隨機森林模型(Breiman,2001)。具體來說,該算法首先利用bootstrap抽樣從原始訓練集抽取k個樣本,每個樣本的樣本容量都與原始訓練集一樣。然后,對這k個樣本分別建立k個決策樹模型,從而得到k種分類的結(jié)果。最后,根據(jù)k種分類結(jié)果再對每個記錄結(jié)果進行投票表決決定其最終分類。大量的理論和實證研究都表明隨機森林模型具有很高的預測準確率,對異常值和噪聲具有很好的容忍度,且不容易出現(xiàn)過擬合,被廣泛應(yīng)用于成礦預測(李慧,2022)、巖體類型識別(王子燁,2020)等。隨機森林模型具有以下常用的超參數(shù):分類器的個數(shù)n_estimators(即樹的數(shù)量)、決策樹選擇的最大特征數(shù)目max_features、決策樹的最大深度max_depth(溫博文等,2018),不同的超參數(shù)組合對模型分類性能具有不同的影響(劉曉生等,2019;袁穎等,2019)。為獲得模型最優(yōu)的分類性能,筆者使用網(wǎng)格搜索(grid search)對模型進行進行參數(shù)優(yōu)化。對于成礦巖體與非成礦巖體數(shù)據(jù)庫當n_estimators值為91,max_features值為14,max_depth值為11時,模型獲得最高準確率。
圖3 隨機森林模型原理圖Fig. 3 Random Forest model diagram
在使用隨機森林模型對數(shù)據(jù)庫進行訓練前,首先將數(shù)據(jù)庫中582條數(shù)據(jù)以8∶2的比例隨機劃分為訓練集與測試集。且為消除量綱和數(shù)量級的影響,同時降低模型訓練時長,筆者使用Standard Scale數(shù)據(jù)標準化方法對數(shù)據(jù)庫中的數(shù)據(jù)進行特征縮放,使數(shù)據(jù)庫中的數(shù)據(jù)變換到均值為0、標準差為1的范圍。此外,考慮到成礦巖體與非成礦巖體的數(shù)據(jù)數(shù)量具有一定的不平衡現(xiàn)象(比例約為3∶2),而數(shù)據(jù)不平衡會影響模型訓練結(jié)果(Kotsiantis et al.,2006;Chawla,2009)。因此,文中采用過采樣方法(SMOTE)使數(shù)據(jù)庫達到平衡后再進行機器學習訓練。此外,筆者模型訓練過程中對訓練集數(shù)據(jù)還進行了五倍交叉驗證,目的是減少由于單一訓練集可能產(chǎn)生的高偏差。使用參數(shù)優(yōu)化后的隨機森林模型對測試集中的數(shù)據(jù)進行判別,獲得隨機森林模型的最終分類表現(xiàn)得分。
在文中采用準確率與受試者特征曲線(Receiver Operating Characteristic Curve,簡稱ROC曲線)綜合評價隨機森林模型的分類性能。準確率表示預測結(jié)果中被預測是正確的比率。受試者特征曲線是對機器學習模型的分類性能進行評價的指標,是以假陽性率(False Positive Rate,簡稱FPR)為橫坐標,真陽性率(True Positive Rate,簡稱TPR)為縱坐標,在[0,1]范圍內(nèi)畫出曲線。其中,假陽性率是預測的正例中實際上為負的,在所有負例中的占比;真陽性率是預測的正例中實際上也為正的,在所有正例中的占比。假陽性率越低、真陽性率越高,模型分類性能越好。AUC值(Area Under Curve,曲線下的面積)指前文提到的ROC曲線與坐標軸圍成的面積。AUC值能夠量化反映分類模型的性能,取值范圍為[0,1],并且越接近1時,模型分類效果越好(潘北斗等,2022)。當AUC值在0.5~0.7時,分類模型具有較低的準確性;AUC值在0.7~0.9時,分類模型有一定的準確性;AUC值在0.9以上時,分類模型有較高的準確性(Lv et al.,2011)。
式中:TP(True Positive),即實際為正例且被劃分為正例的樣本數(shù);FN(False Negative),即實際為正例但被劃分為負例的樣本數(shù);FP(False Positive),即實際為負例但被劃分為正例的樣本數(shù);TN(True Negative),即實際為負例且被劃分為負例的樣本數(shù)。
使用訓練好的隨機森林模型對測試集中成礦巖體與非成礦巖體進行預測,其結(jié)果見表3和圖4??偟膩碚f,模型的分類準確率較高,為0.90,證明文中訓練得到的隨機森林模型能夠有效地識別祁漫塔格成礦帶成礦巖體和非成礦巖體。此外,文中訓練得到的模型在識別成礦巖體時的準確率為0.84,而在識別非成礦巖體時的準確率則高達0.94(表3)。這表明,該模型在預測成礦巖體時的表現(xiàn)略低于在預測非成礦巖體時的表現(xiàn)。根據(jù)ROC曲線,也可以獲得類似的結(jié)果。AUC值為0.93,大于0.90,說明模型在預測成礦巖體和非成礦巖體時的準確率高。
表3 隨機森林模型分類結(jié)果表Tab. 3 Classification results of Random Forest model
圖4 訓練的隨機森林模型對測試集的評價圖Fig. 4 Classification result for the test set using the trained of Random Forest model
機器學習作為人工智能的一個子集,其目標是利用計算機模擬或?qū)崿F(xiàn)人類的學習行為,以獲取新的知識或技能(Jordan et al.,2015;Bergen et al.,2019)。與傳統(tǒng)方法相比,機器學習優(yōu)勢顯著:①機器學習更加注重從數(shù)據(jù)中提取新知識,因此機器學習模型的訓練和使用對先驗知識的依賴大幅降低(Lin et al.,2020;Wang et al.,2021)。②自動獲得輸入-輸出之間的規(guī)律,幾乎不需人工干預,這樣即節(jié)省了大量的專家手工標定時間,同時避免了人為因素所引入的誤差(Petrelli et al.,2016)。③在保證準確性的前提下,大大提高了分析效率,因此在處理、分析海量數(shù)據(jù)時更具(Zhong et al.,2023)優(yōu)勢。④與傳統(tǒng)分類方法僅能關(guān)注少數(shù)幾個特征不同(如根據(jù)二元圖解),用于機器學習模型訓練的特征數(shù)量、種類不受限,因此能夠更充分的挖掘數(shù)據(jù)背后的復雜關(guān)系(Zhong et al.,2023)。近些年,針對斑巖-矽卡巖礦床成礦巖體的研究呈爆發(fā)性增長,積累了豐富的地球化學資料,這為從大數(shù)據(jù)角度開展成礦巖漿識別方法研究提供了可能。最近,一些學者也在該領(lǐng)域做出了一些有益嘗試。Nathwani等(2022)利用匯編的全球斑巖銅礦床成礦巖體和非成礦巖體的全巖主量和微量元素數(shù)據(jù),提出了基于全巖成分的成礦巖漿機器學習識別方法;Zhou等(2022)和Zou等(2022)則通過匯編全球斑巖銅礦床成礦巖體和非成礦巖體的鋯石微量元素數(shù)據(jù),建立了基于鋯石成分數(shù)據(jù)區(qū)分巖體成礦能力的機器學習分類器;利用秘魯Quellaveco斑巖銅礦區(qū)的鋯石陰極發(fā)光(CL)圖像,Nathwani等(2023)提出了基于鋯石形態(tài)特征識別成礦巖體的機器學習方法。這些研究開創(chuàng)了基于人工智能技術(shù)開展巖體成礦潛力研究的先河,為建立斑巖銅礦床地球化學找礦勘查新方法、從更深層次窺探斑巖銅礦床成因機制提供了新的思路。文中用于機器學習訓練的成礦巖體數(shù)據(jù)來自多種礦床類型:除斑巖銅礦床外,還包含斑巖鉬礦、斑巖銅礦、矽卡巖銅鉛鋅礦床和矽卡巖鐵礦床。文中獲得的模型準確率與AUC值,2個模型性能評價指標均不低于0.90,表明機器學習模型不但對識別斑巖銅礦床成礦巖體有效,對識別其他斑巖-矽卡巖礦床的成礦巖體也同樣表現(xiàn)優(yōu)異。為了進一步顯示機器學習方法在區(qū)分成礦巖體和非成礦巖體時的優(yōu)勢,圖5展示了傳統(tǒng)研究廣泛使用的全巖Yb-La/Yb和Y-Sr/Y圖解在祁漫塔格地區(qū)的表現(xiàn)情況??梢钥闯?,來自祁漫塔格地區(qū)的成礦巖體數(shù)據(jù)和非成礦巖體數(shù)據(jù)在2個圖解上高度重合,顯示出至少對于祁漫塔格地區(qū)斑巖-矽卡巖多金屬礦床,傳統(tǒng)的地球化學方法難以有效區(qū)分它們的成礦巖體和非成礦巖體。
圖5 祁漫塔格地區(qū)成礦巖體和非成礦巖體全巖密度圖解Fig. 5 Whole-rock density diagrams for the mineralized and barren rocks from the Qimantagh metallogenic belt
由于測試集中的花崗巖數(shù)據(jù)可能與訓練集中的部分數(shù)據(jù)來源于同一地區(qū),因此基于測試集得到的模型準確率存在高估的可能,無法真實地反映分類模型的好壞。為此,筆者選取了36條新數(shù)據(jù)用于外部獨立驗證(圖6),包括19條成礦巖體全巖數(shù)據(jù)(Guo et al.,2022;Xu et al.,2023)、17條非成礦巖體全巖數(shù)據(jù)(Ren et al.,2023)。這些全巖數(shù)據(jù)來自祁漫塔格周邊地區(qū),因此均沒有出現(xiàn)在訓練數(shù)據(jù)庫中。運用文中獲得的隨機森林模型對這些花崗巖數(shù)據(jù)進行判別,結(jié)果顯示分類準確率為0.92。其中,對成礦巖體分類準確率為0.90(圖6a),對非成礦巖體分類準確率為0.94(圖6b)。結(jié)果證明,文中提出的隨機森林模型對識別東昆侖祁漫塔格成礦帶及周邊地區(qū)的成礦花崗巖體和非成礦花崗巖體十分有效。為便于研究人員使用,文中訓練得到的隨機森林模型代碼已經(jīng)上傳至https://github.com/ShihuaZhong/2023-Qimantagh-RF-whole-rock-classifier。
圖6 外部獨立驗證數(shù)據(jù)集的分類結(jié)果圖Fig. 6 Plot of classification results for external independent validation dataset
綜上所述,文中訓練的隨機森林模型在識別祁漫塔格成礦帶及周邊地區(qū)的成礦巖體和非成礦巖體時,具有較高的準確率。此外,與傳統(tǒng)方法相比,機器學習模型也可極大提高找礦效率,節(jié)省人力和物理成本。因此,將文中訓練的模型用于該地區(qū)找礦勘查,將具有廣闊的應(yīng)用前景。不過,為獲得真實可靠的預測結(jié)果,在運用文中模型評估巖體成礦潛力時需要注意其應(yīng)用前提。
(1)文中是基于祁漫塔格成礦帶的成礦巖體和非成礦巖體數(shù)據(jù)訓練得到的機器學習模型,因此該模型主要適用于祁漫塔格成礦帶及其周邊地區(qū),而將該模型應(yīng)用于其他地區(qū)時需謹慎。同時,用于訓練的數(shù)據(jù)庫也僅包含了來自該地區(qū)斑巖銅礦、斑巖鉬礦、矽卡巖銅鉛鋅礦床以及矽卡巖鐵礦床的成礦巖體數(shù)據(jù),因此該模型無法準確識別祁漫塔格成礦帶其他礦床(如矽卡巖鎢錫礦床、矽卡巖鉛鋅礦床)的成礦巖體。
(2)全巖地球化學成分極易受到后期熱液蝕變的影響,會對預測結(jié)果產(chǎn)生影響。對斑巖成礦系統(tǒng),熱液蝕變通常發(fā)育在巖體周邊甚至內(nèi)部,導致許多成礦巖體的成分因受熱液事件的改造,已經(jīng)不能代表其原始成礦信息。這可能可以解釋為何文中得到的機器學習模型在預測成礦巖體時的準確率低于非成礦巖體。因此,為提高預測準確率,用于成礦潛力評價的花崗巖體應(yīng)該盡可能新鮮。
(3)考慮到全巖成分易受其他因素干擾,未來可探索利用鋯石、磷灰石等巖漿副礦物成分取代全巖成分或者綜合使用副礦物和全巖成分,開展機器學習模型訓練。這不僅是由于鋯石、磷灰石等副礦物在花崗巖類巖石中廣泛存在,更重要的原因是相比于全巖成分,副礦物(特別是鋯石)成分穩(wěn)定,形成后幾乎不受后期熱液活動的影響??梢灶A見,綜合鋯石等副礦物微量元素特征得到的機器學習模型將能夠進一步提高成礦巖體和非成礦巖體預測的準確性。相較于花崗巖中常見的鋯石、磷灰石等副礦物,花崗巖在固結(jié)成巖之后全巖的地球化學成分易受到熱液活動與變質(zhì)作用的影響,地球化學成分發(fā)生較大的改變,已不能完全記錄花崗巖成礦信息。因此,為建立更加準確的成礦巖體與非成礦巖體的機器學習模型,應(yīng)嘗試使用副礦物地球化學成分與全巖地球化學成分相結(jié)合的地球化學數(shù)據(jù)庫,共同對成礦巖體與非成礦巖體進行判別。
(1)文中匯編了來自祁漫塔格成礦帶成礦巖體和非成礦巖體的28種常見全巖地球化學特征,結(jié)合隨機森林算法,提出了一個用于識別該地區(qū)斑巖-矽卡巖型多金屬礦床成礦巖體和非成礦巖體的機器學習分類模型。
(2)模型評價指標顯示,文中訓練得到的機器學習模型的準確率為0.90,表明該模型能夠有效識別來自祁漫塔格(及周邊)地區(qū)花崗巖的成礦潛力。與傳統(tǒng)成礦預測方法相比,該方法能夠大大降低成礦預測的人力和物力成本,提高找礦效率。
(3)該模型僅適用于預測花崗巖類能否形成斑巖銅礦、斑巖鉬礦、矽卡巖銅鉛鋅礦床或矽卡巖鐵礦床;同時,將該模型應(yīng)用于祁漫塔格以外地區(qū)時也需謹慎。此外,考慮到花崗巖全巖成分易受熱液蝕變等因素干擾,為提高成礦預測準確率,應(yīng)盡可能選擇新鮮花崗巖用于預測。