許 娜,黃 斌,李 強,朱 偉,王志瑋,汪 茹
(中國礦業(yè)大學(xué)(北京) 地球科學(xué)與測繪工程學(xué)院,北京 100083)
研究煤中元素的賦存狀態(tài)有助于準(zhǔn)確評價有害元素對環(huán)境的影響,推斷煤中元素的賦存狀態(tài),為從煤和煤灰中回收關(guān)鍵金屬元素提供技術(shù)指導(dǎo),從而提高煤的高效加工和利用效率;同時,可以幫助理解泥炭沉積和煤化作用過程,對煤中礦物質(zhì)的富集成因解釋也有重要意義。然而,煤的物質(zhì)組成來源和成煤過程復(fù)雜,導(dǎo)致煤中元素賦存狀態(tài)多樣,給賦存狀態(tài)的精準(zhǔn)確定造成很大困難。
研究煤中元素賦存狀態(tài)的方法可分為直接方法和間接方法,直接方法主要包括光學(xué)顯微鏡、各種顯微探針方法(電子、離子和X射線探針)、掃描電鏡+能譜、透射電鏡+能譜、穆斯堡爾譜(價態(tài))、同步輻射X射線熒光和譜學(xué)方法(如X射線吸收精細結(jié)構(gòu)譜方法)等;間接方法包括數(shù)理統(tǒng)計方法、浮沉試驗方法和化學(xué)方法(如逐級化學(xué)提取試驗方法)。常用的統(tǒng)計學(xué)方法有相關(guān)分析、聚類分析、因子分析和多元判別分析等,其中相關(guān)分析是基于灰分、常量元素質(zhì)量分?jǐn)?shù)與微量元素質(zhì)量分?jǐn)?shù)的相關(guān)性來判斷元素的賦存狀態(tài)(如計算煤的灰分與煤中元素質(zhì)量分?jǐn)?shù)之間的相關(guān)系數(shù)),但是該方法在判別煤中元素賦存狀態(tài)時有諸多問題,例如不同基準(zhǔn)下(全煤基和灰基)煤中元素之間相關(guān)性有時表現(xiàn)不一致,據(jù)此推斷的賦存狀態(tài)有較大差異。由于煤中元素的質(zhì)量分?jǐn)?shù)是成分?jǐn)?shù)據(jù),屬于非歐式空間,常用的數(shù)據(jù)轉(zhuǎn)換算法有非對稱對數(shù)比轉(zhuǎn)換方法、對稱對數(shù)比轉(zhuǎn)換方法、等距對數(shù)比轉(zhuǎn)換方法、樞軸坐標(biāo)方法和加權(quán)對稱的樞軸坐標(biāo)方法;數(shù)據(jù)點間距離的計算方法有歐式距離和皮爾遜相關(guān)系數(shù);層次聚類常用的算法有平均鏈接、全鏈接、單鏈接和質(zhì)心鏈接,不同的層次聚類算法在判別煤中元素的賦存狀態(tài)時也會有諸多問題,例如不同的層次聚類算法可能會導(dǎo)致煤中元素賦存狀態(tài)的結(jié)果不同。一些學(xué)者也指出了上述存在的述問題,但是尚未找到根本的解決方法。隨著人工智能的出現(xiàn),尤其是機器學(xué)習(xí)的發(fā)展為上述問題的解決提供了可能。筆者討論上述問題存在的原因、機器學(xué)習(xí)解決上述的方案;同時,機器學(xué)習(xí)在煤中關(guān)鍵金屬和有害元素地球化學(xué)中研究中也表現(xiàn)出了良好的應(yīng)用前景,筆者以機器學(xué)習(xí)算法預(yù)測了在運用四級桿電感耦合等離子體質(zhì)譜方法測試煤中微量元素過程中鋇(Ba)對關(guān)鍵金屬元素銪(Eu)干擾的臨界值,以及確定了基于CART算法確定煤中放射性核素鈾對環(huán)境和人體健康輻射危害的安全閾值為例。
煤中元素質(zhì)量分?jǐn)?shù)的表達方法有2種基準(zhǔn),灰基(ash basis)和全煤基(whole coal basis)?;一父邷鼗业幕鶞?zhǔn)(如815 ℃)。煤中元素的質(zhì)量分?jǐn)?shù)可以在全煤基和灰基之間實現(xiàn)互相轉(zhuǎn)換:[]=([]×灰分)。雖然煤中元素質(zhì)量分?jǐn)?shù)在2種基準(zhǔn)下能夠?qū)崿F(xiàn)互相轉(zhuǎn)換,但是當(dāng)質(zhì)譜分析并非通過煤的高溫灰化進行,2種不同基準(zhǔn)下元素與灰分的相關(guān)系數(shù)可能會不一致,例如,內(nèi)蒙古大青山煤田阿刀亥煤中AlO質(zhì)量分?jǐn)?shù)和灰分的相關(guān)系數(shù)在全煤基準(zhǔn)下為0.89,但在灰分基準(zhǔn)下為-0.3。這2種基準(zhǔn)下的相關(guān)性分析,雖然已經(jīng)被眾多煤地質(zhì)學(xué)家所采用,然而2種基準(zhǔn)下元素之間、元素和灰分之間的相關(guān)性不一致的問題給煤中元素賦存狀態(tài)和富集成因的解釋帶來困擾,甚至?xí)贸鲥e誤的解釋。雖然之前的很多研究都對此問題進行了闡述,但尚未得到很好的解決。為了解決該問題,提出改進的非對稱對數(shù)比轉(zhuǎn)換方法。由于煤中元素含量是成分?jǐn)?shù)據(jù),屬于非歐式空間,導(dǎo)致了不同基準(zhǔn)(全煤基和灰基)下的煤中元素相關(guān)性不一致。
為解決不一致性的問題,需將成分?jǐn)?shù)據(jù)從非歐式空間轉(zhuǎn)換至歐式空間,其中應(yīng)用最廣泛的成分?jǐn)?shù)據(jù)轉(zhuǎn)換方法有非對稱對數(shù)比轉(zhuǎn)換方法(alr)、對稱對數(shù)比轉(zhuǎn)換方法(clr)和等距對數(shù)比轉(zhuǎn)換方法(ilr)。
(1)非對稱對數(shù)比轉(zhuǎn)換方法(alr)的表達式為
(1)
其中,為一個樣本中元素的數(shù)量;為第個元素的質(zhì)量分?jǐn)?shù);為任意元素的質(zhì)量分?jǐn)?shù),其中的選擇具有很強的主觀性,需要根據(jù)實際情況選擇。為了消除這種主觀性,對稱對數(shù)比轉(zhuǎn)換方法和等距對數(shù)比轉(zhuǎn)換方法被提出。
(2)對稱對數(shù)比轉(zhuǎn)換方法(clr)是在alr轉(zhuǎn)換方法的基礎(chǔ)上提出的,其分母用幾何平均值來表示,表達式為
(2)
(3)等距對數(shù)比轉(zhuǎn)換方法(ilr)是根據(jù)成分?jǐn)?shù)據(jù)的幾何結(jié)構(gòu)提出的轉(zhuǎn)換方法,其核心是用標(biāo)準(zhǔn)正交基定義新數(shù)據(jù),表達式為
(3)
筆者提出改進的非對稱對數(shù)比轉(zhuǎn)換方法(ialr)是將alr轉(zhuǎn)換方法中的用比其他元素更加穩(wěn)定的常量元素Al和微量元素Zr替代,煤中常量元素的轉(zhuǎn)換表達式為
(4)
煤中微量元素的轉(zhuǎn)換表達式為
(5)
以內(nèi)蒙古大青山煤田大炭豪煤礦和阿刀亥煤礦晚古生代主采煤層的樣品(共106個)為例,對該算法進行了性能驗證,結(jié)果如圖1,2所示。
改進的非對稱對數(shù)比變換模型比常用的非對稱對數(shù)比變換、中心化對數(shù)比變換、等距對數(shù)比變換以及穩(wěn)定性在煤中元素賦存狀態(tài)的預(yù)測結(jié)果方面更為準(zhǔn)確,尤其是在稀土元素(REE)、常量元素(Ca,Mg,Mn和Fe)、微量元素(Sr和Ba,Nb和Ta)、Cd和Zn元素的聚合性能更好,有效解決了煤和煤灰不同基準(zhǔn)下元素之間、元素和灰分之間相關(guān)性不一致的問題。
運用傳統(tǒng)的數(shù)理統(tǒng)計方法(如計算煤灰分與煤中元素質(zhì)量分?jǐn)?shù)之間的相關(guān)性)所推斷煤中元素賦存狀態(tài),幾乎都是采用全部樣本一并進行統(tǒng)計,從而得出單個相關(guān)系數(shù)。但是,煤中灰分變化范圍寬(1%~50%),很多元素在不同灰分的煤中的賦存狀態(tài)變化很大,其賦存載體不一,因此眾多樣本一并統(tǒng)計,可能會出現(xiàn)賦存狀態(tài)推斷的偏差。同時,不同灰分的煤中元素特定的賦存狀態(tài),可能指示其物質(zhì)來源或保存環(huán)境。因此,根據(jù)煤中灰分的動態(tài)變化來推斷元素的賦存狀態(tài),可以避免因為灰分變化范圍大而造成賦存狀態(tài)推斷的偏差,同時還可以提供元素來源和富集保存的有用信息。
(6)
圖1 大炭豪煤礦煤炭元素的聚類分析Fig.1 Cluster analysis for coal element data from the Datanhao Mine
圖2 阿刀亥煤礦煤炭元素的聚類分析Fig.2 Cluster analysis for coal element data from the Adaohai Mine
(7)
以內(nèi)蒙古哈爾烏素露天礦晚古生代主采煤層為例,應(yīng)用兩段式聚類算法判別出煤中元素不同來源的臨界點為9%,如圖3所示。其中,該樣本組被選擇的原因是:① 煤中含有相對簡單的礦物組合,以高嶺石和勃姆石為主,含有少量的方解石、黃鐵礦和石英;相對簡單的礦物組合為精準(zhǔn)確定煤中元素的賦存狀態(tài)提供了可能;② 礦物來源單一,主要礦物高嶺石和勃姆石主要以碎屑或溶液形式來源于蝕源區(qū);③ 通過直接方法,如X射線衍射分析、帶能譜儀的掃描電子顯微鏡和光學(xué)顯微鏡對礦物進行賦存狀態(tài)研究并進行了交叉驗證,確定了煤中大部分元素的賦存狀態(tài);④ 用X射線熒光光譜和電感耦合等離子體質(zhì)譜測定了煤中常量元素和微量元素的含量,其結(jié)果與礦物學(xué)結(jié)果一致,表明了地球化學(xué)分析和礦物學(xué)分析的可靠性;⑤ 該煤的灰分范圍大(3.66%~46.56%),為不同灰分下的煤中元素賦存狀態(tài)的漸變分析提供了可能。
圖3 部分元素與灰分相關(guān)系數(shù)[25]Fig.3 Correlation coefficient of some elements and ash yield[25]
通過研究分析發(fā)現(xiàn):① 以煤灰分9%為臨界點劃分的高灰分和低灰分煤中元素的賦存狀態(tài)差異明顯;低灰分煤中大部分元素以有機態(tài)為主,高灰分煤中相應(yīng)的元素以礦物態(tài)為主。② 以煤灰分9%為臨界點,低灰分煤中的元素主要來源是成煤植物本身和沉積環(huán)境,高灰分煤中元素的主要來源為蝕源區(qū)(陰山古陸以及盆地北緣隆起的風(fēng)化殼鋁土礦)。
層次聚類算法是機器學(xué)習(xí)最常用的方法之一,應(yīng)用不同的層次聚類算法會顯示不同的煤中元素的組合。為分析不同層次聚類算法的有效性,筆者對煤中元素的層次聚類算法的有效性進行了對比分析。
轉(zhuǎn)換算法有樞軸坐標(biāo)(Pivot Coordinates,PC)和加權(quán)對稱的樞軸坐標(biāo)(Weighted Symmetric Pivot Coordinates,WSPC)。4種常見的層次聚類算法有平均鏈接(Average-Linkage)、全鏈接(Complete-Linkage)、單鏈接(Single-Linkage)和質(zhì)心鏈接(Centroid-Linkage)。數(shù)據(jù)點間距離計算方法有歐式距離(Euclidean distance)和基于皮爾遜相關(guān)系數(shù)的距離。根據(jù)轉(zhuǎn)換算法、簇間距離和數(shù)據(jù)點之間距離計算方法的不同,可以組合得出不同的層次聚類算法(表1)。
等距對數(shù)比坐標(biāo)(isometric log-ratio coordinates,olr)可以將數(shù)據(jù)從單純形空間映射到歐幾里德空間。對olr坐標(biāo)的一種特殊的基準(zhǔn)選擇產(chǎn)生了樞軸坐標(biāo)(PC),其定義如下:
(8)
式中,含義同,表示枚舉;為的范圍上限。
表1 不同組合的層次聚類算法
(9)
(10)
以研究程度較高的內(nèi)蒙古大青山煤田大炭豪礦和阿刀亥礦的晚石炭世煤中元素為例,驗證不同的層次聚類算法對元素進行聚類并由此進行賦存狀態(tài)分析。可以得出:
(1)在對原始數(shù)據(jù)、樞軸坐標(biāo)轉(zhuǎn)換后的數(shù)據(jù)和加權(quán)對稱樞軸坐標(biāo)轉(zhuǎn)換后的數(shù)據(jù)的層次聚類分析中,相關(guān)性距離都要比歐氏距離好,如圖4,5所示。
(2)對于使用相關(guān)性距離的層次聚類結(jié)果,加權(quán)對稱的樞軸坐標(biāo)轉(zhuǎn)換比樞軸坐標(biāo)轉(zhuǎn)換略好,且比原始數(shù)據(jù)轉(zhuǎn)換要好,如圖5~7所示。
圖4 使用歐式距離對阿刀亥礦數(shù)據(jù)(樞軸坐標(biāo))的聚類結(jié)果Fig.4 Clustering result of Adaohai data (pivot coordinates)with Euclidean distance
圖5 使用Pearson相關(guān)對阿刀亥礦數(shù)據(jù)(樞軸坐標(biāo))進行聚類Fig.5 Clustering result of Adaohai data (pivot coordinates) with Pearson correlation
圖6 用Pearson相關(guān)對阿刀亥礦數(shù)據(jù)(加權(quán)對稱坐標(biāo)) 進行聚類Fig.6 Clustering result of Adaohai data (WSPC) with Pearson correlation
(3)單鏈接、全鏈接、平均鏈接和質(zhì)心鏈接的4種常見的分層聚類算法具有相近的聚類性能,但是平均鏈接算法的效果相對要好,因為它可以更好地揭示元素的地球化學(xué)特征,如圖4~7所示。結(jié)果表明,在基于原始數(shù)據(jù)和轉(zhuǎn)換后數(shù)據(jù)的聚類分析中,基于皮爾遜相關(guān)系數(shù)的距離度量都要比歐幾里德距離好。一般來說,基于樞軸坐標(biāo)進行轉(zhuǎn)換后的數(shù)據(jù)優(yōu)于原始數(shù)據(jù),而加權(quán)對稱的樞軸坐標(biāo)又優(yōu)于樞軸坐標(biāo)。
機器學(xué)習(xí)在解決上述傳統(tǒng)數(shù)理統(tǒng)計方法展現(xiàn)出了明顯的優(yōu)勢,同時,機器學(xué)習(xí)在煤中關(guān)鍵金屬和有害元素地球化學(xué)中研究中也表現(xiàn)出了良好的應(yīng)用前景,以煤中稀土元素的檢測和煤中鈾的危害為例進行討論。
Eu測定過程中Ba的干擾
Eu是煤中最重要的稀土元素之一,不僅經(jīng)濟價值高,而且根據(jù)煤中Eu的異常,可以判定煤中礦物質(zhì)的來源和煤層所經(jīng)受的地質(zhì)作用,由此可以提供區(qū)域地質(zhì)歷史演化的煤地球化學(xué)方面的信息。檢測煤和煤燃燒產(chǎn)物中的稀土元素(包括Eu)的試驗方法包括X射線熒光光譜、儀器中子活化分析、電感耦合等離子體質(zhì)譜和激光誘導(dǎo)擊穿光譜。在這些試驗方法中,四級桿電感耦合等離子體質(zhì)譜(ICP-MS)已經(jīng)被廣泛用于煤中稀土元素和其他微量元素的測試。然而,四級桿ICP-MS測定煤和煤灰樣品中稀土元素Eu的質(zhì)量分?jǐn)?shù)經(jīng)常受到Ba的氧化物和氫氧化物等干擾,導(dǎo)致Eu的測定結(jié)果可能偏高,進而會導(dǎo)致煤中稀土元素開發(fā)利用評估以及煤中礦物質(zhì)來源推斷的偏差。判斷ICP-MS檢測過程中Eu質(zhì)量分?jǐn)?shù)是否受到Ba的干擾以及干擾程度是困擾煤地球化學(xué)家的難題之一,而實驗室內(nèi)去除Ba從而避免Ba對Eu干擾的方法復(fù)雜、耗時長,因此Ba對Eu干擾閾值對精準(zhǔn)評估煤中稀土元素的質(zhì)量分?jǐn)?shù),以及根據(jù)Eu的異常判定煤中元素的來源具有重要的理論和現(xiàn)實意義。YAN等提出利用陽離子交換樹脂方法分離Ba和Eu,從而避免Ba對煤、煤燃燒產(chǎn)物和沉積巖中的Eu的干擾。YAN等和LOGES等在進行Ba和Eu質(zhì)量分?jǐn)?shù)、Ba/Eu質(zhì)量分?jǐn)?shù)比、Ba對Eu干擾的試驗數(shù)據(jù)分析基礎(chǔ)上,發(fā)現(xiàn)當(dāng)樣品中的Ba/Eu質(zhì)量分?jǐn)?shù)比大于1 000時,如果不進行Ba和Eu的分離,樣品中的Ba會對Eu的測試結(jié)果造成影響,從而會導(dǎo)致樣品中Eu的測試結(jié)果出現(xiàn)錯誤。
圖7 用Pearson相關(guān)對阿刀亥礦數(shù)據(jù)進行聚類Fig.7 Clustering result of Adaohai data with Pearson correlation
機器學(xué)習(xí)算法預(yù)測Ba對關(guān)鍵金屬元素Eu干擾的臨界值
由于Ba對Eu干擾的臨界值1 000是根據(jù)經(jīng)驗得出的估計值,為了準(zhǔn)確實現(xiàn)Ba對Eu干擾的臨界值,XU等應(yīng)用機器學(xué)習(xí)算法預(yù)測Ba對Eu干擾的臨界值。通過分析Ba,Eu,Ba/Eu和目標(biāo)變量Ba對Eu的干擾,筆者發(fā)現(xiàn)它們之間的關(guān)系是復(fù)雜且非線性的,應(yīng)用線性回歸的方法構(gòu)建預(yù)測模型會有困難,因此采用樹回歸的方法構(gòu)建預(yù)測模型。Ba對Eu干擾臨界值的預(yù)測模型構(gòu)建過程如下:
(1)構(gòu)建Ba,Eu,Ba/Eu和Ba對Eu的干擾臨界值的訓(xùn)練數(shù)據(jù)集,并分析特征。
(11)
式中,為一個算法運算過程中計算得到的量,且隨著算法的進行會更新;,為被劃分出來的相關(guān)量的數(shù)量。
(3)性能分析。128個煤樣品(包括內(nèi)蒙古、云南臨滄、云南鎮(zhèn)雄縣熱水河)被用于驗證該閾值的準(zhǔn)確性并進行比較,發(fā)現(xiàn)預(yù)測閾值363比Ba對Eu的干擾經(jīng)驗閾值1 000更為準(zhǔn)確。
煤炭中的放射性核素在燃燒后會在煤灰中發(fā)生富集。當(dāng)含有放射性核素鈾(U)、釷(Th)及其衰變子元素的煤在燃燒后產(chǎn)生的煤灰被用于建筑材料中時,會對人體產(chǎn)生危害。根據(jù)聯(lián)合國原子輻射效應(yīng)科學(xué)委員會報告,評價室內(nèi)放射性核素對人體的影響的指標(biāo)是鐳當(dāng)量濃度(Ra)。
(Ra)=(Ra)+143(Th)+0077(K)
(12)
其中,(Ra),(Th),(K)為對應(yīng)的3種放射性核素的放射性活度,Bq/kg。當(dāng)Ra當(dāng)量濃度超過370 Bq/kg時,建筑材料中所含有的U和Th及其衰變產(chǎn)生的放射性核素所散發(fā)出的伽馬射線會對室內(nèi)的居民產(chǎn)生潛在的健康風(fēng)險。
在評估對人體危害程度的研究中,LAUER等收集了中國的8個富鈾煤礦的相關(guān)煤樣數(shù)據(jù),計算得出當(dāng)原煤中鈾的質(zhì)量分?jǐn)?shù)超過10 mg/kg時,其燃燒產(chǎn)生的煤灰被用作建筑材料時會對居民身體健康產(chǎn)生影響,但是由于其研究所用煤樣本少,得出的結(jié)果精確度不高,不具有代表性。
獲得U在原煤中的質(zhì)量分?jǐn)?shù)閾值后,經(jīng)分析得出東北地區(qū),只有內(nèi)蒙古自治區(qū)烏蘭圖加煤田的U質(zhì)量分?jǐn)?shù)超過閾值。西藏滇西地區(qū)臨滄煤田的U平均質(zhì)量分?jǐn)?shù)為59.01 mg/kg,西藏滇西地區(qū)祿勸煤田的U平均質(zhì)量分?jǐn)?shù)為34.05 mg/kg。北部地區(qū)的煤中平均U質(zhì)量分?jǐn)?shù)為5.68~27.50 mg/kg,遠低于南部地區(qū)。與北部地區(qū)相比,南部地區(qū)煤中的U質(zhì)量分?jǐn)?shù)顯著增加。南部地區(qū)U平均質(zhì)量分?jǐn)?shù)為7.50~303.04 mg/kg。該區(qū)U質(zhì)量分?jǐn)?shù)超標(biāo)的煤主要分布在重慶、貴州、廣西和云南東部。在所有這些煤田中,有3個煤田的U平均質(zhì)量分?jǐn)?shù)超過100 mg/kg。重慶磨心坡煤田煤中的U質(zhì)量分?jǐn)?shù)最高,約為303.4 mg/kg。
(1)非對稱對數(shù)比轉(zhuǎn)換方法,有效解決了煤和煤炭不同基準(zhǔn)下元素之間、元素和灰分之間相關(guān)性不一致的問題。
(2)在4種常見的分層聚類算法中,平均鏈接算法的效果相對要好,在基于原始數(shù)據(jù)和轉(zhuǎn)換后數(shù)據(jù)的聚類分析中,基于皮爾遜相關(guān)系數(shù)的距離度量都要比歐幾里德距離好, 基于樞軸坐標(biāo)進行轉(zhuǎn)換后的數(shù)據(jù)優(yōu)于原始數(shù)據(jù),而加權(quán)對稱的樞軸坐標(biāo)又優(yōu)于樞軸坐標(biāo)。
(3)經(jīng)分析,Ba對關(guān)鍵金屬元素Eu影響的閾值為363,128個煤樣品(包括內(nèi)蒙古、云南臨滄、云南鎮(zhèn)雄縣熱水河)被用于驗證該閾值的準(zhǔn)確性,并與干擾經(jīng)驗閾值1 000進行比較,發(fā)現(xiàn)預(yù)測閾值363比干擾經(jīng)驗閾值1 000更為準(zhǔn)確。
(4)經(jīng)分析得出在灰分小于20%,Ra當(dāng)量濃度超過370 Bq/kg時,U在原煤中的質(zhì)量分?jǐn)?shù)閾值為5.28 mg/kg。在灰分大于20%,Ra的值超過370 Bq/kg時,U在原煤中的質(zhì)量分?jǐn)?shù)閾值為7.98 mg/kg。