劉 曙,張 博,2,閔 紅,安雅睿,朱志秀,李 晨*
1. 上海海關(guān)工業(yè)品與原材料檢測技術(shù)中心,上海 200135 2. 上海理工大學(xué)理學(xué)院化學(xué)系,上海 200093
鐵礦石是鋼鐵工業(yè)的重要原材料,我國近90%的鐵礦石依賴進(jìn)口[1],2018年進(jìn)口量約10.38億噸,居世界第一位。澳大利亞、巴西、南非、哈薩克斯坦、印度是我國鐵礦石最主要的進(jìn)口國,涉及國際大型礦業(yè)集團(tuán)數(shù)十種品牌鐵礦石。海關(guān)對(duì)進(jìn)口鐵礦石的檢驗(yàn)包括放射性檢驗(yàn)、外來夾雜物檢疫、固體廢物屬性鑒別、品質(zhì)檢驗(yàn)、有害元素監(jiān)測等,主要目標(biāo)為預(yù)防進(jìn)口鐵礦石中涉及安全、衛(wèi)生、環(huán)保、欺詐等方面的風(fēng)險(xiǎn)。原產(chǎn)地、品名等是鐵礦石入境報(bào)關(guān)時(shí)的申報(bào)信息,對(duì)進(jìn)口鐵礦石的產(chǎn)地及品牌進(jìn)行符合性驗(yàn)證,可以快速篩選摻雜、摻假、以次充好等現(xiàn)象,支撐進(jìn)口鐵礦石的風(fēng)險(xiǎn)管理,保障貿(mào)易便利化。
X射線熒光光譜具有制樣簡單、無損分析、靈敏度高、穩(wěn)定性好等優(yōu)點(diǎn),能實(shí)現(xiàn)固體樣品中主次元素的測定。判別分析是一種多變量統(tǒng)計(jì)分析方法,當(dāng)變量間相關(guān)系數(shù)較大時(shí),逐步判別分析能剔除不合適的變量,實(shí)現(xiàn)有效的變量篩選。X射線熒光光譜與判別分析相結(jié)合,能實(shí)現(xiàn)樣品原產(chǎn)地及類別的識(shí)別,如: 姬建飛[2]利用波長色散-X射線熒光光譜結(jié)合Fisher判別分析實(shí)現(xiàn)對(duì)5種火山巖(玄武巖、英安巖、流紋巖、粗面巖、安山巖)巖性的識(shí)別; Hondrogiannis[3]利用波長色散-X射線熒光光譜結(jié)合判別分析實(shí)現(xiàn)了對(duì)4種孜然產(chǎn)地(中國、印度、敘利亞、土耳其)的識(shí)別; Nganvongpanit[4]利用手持式X射線熒光光譜結(jié)合判別分析實(shí)現(xiàn)了對(duì)4類物種(人類、大象、狗、海豚)骨骼的識(shí)別。課題組前期工作中[5],針對(duì)澳大利亞、南非、巴西3個(gè)國家、14個(gè)品牌的236份進(jìn)口鐵礦石樣品,運(yùn)用波長色散-X射線熒光光譜無標(biāo)樣分析法結(jié)合逐步Fisher判別建立了包含10種有效變量的判別模型,實(shí)現(xiàn)了對(duì)研究樣品產(chǎn)地及品牌的識(shí)別。
本文是前期研究工作的應(yīng)用拓展,研究對(duì)象拓展到澳大利亞、巴西、南非、哈薩克斯坦、印度5個(gè)國家的21種品牌鐵礦石共422批進(jìn)口鐵礦石代表性樣品,考察了波長色散-X射線熒光光譜無標(biāo)樣分析方法的準(zhǔn)確度,對(duì)比了未檢出元素缺失值處理方式對(duì)模型準(zhǔn)確度的影響,運(yùn)用基于剩余方差的F檢驗(yàn)進(jìn)行了異常值剔除,考察了特征元素對(duì)分類識(shí)別模型的貢獻(xiàn),分析了誤判品牌鐵礦石的元素特征。總結(jié)出進(jìn)口鐵礦石產(chǎn)地及品牌判別分析模型的整體數(shù)據(jù)處理流程。
根據(jù)GB/T 10322.1—2014《鐵礦石取樣和制樣方法》,從我國主要的鐵礦石進(jìn)口口岸采集并制備來自澳大利亞、巴西、南非、哈薩克斯坦、印度5個(gè)國家的21個(gè)品牌422批次進(jìn)口鐵礦石化學(xué)分析樣品,樣品容量大、種類豐富,基本包含了海關(guān)口岸日常檢測中的鐵礦石的主要類別。所述21個(gè)品牌鐵礦石包括津布巴混合粉鐵礦、巴西鐵礦石精粉、皮爾巴拉混合塊、紐曼混合塊鐵礦、國王粉鐵礦、皮爾巴拉混合粉、澳大利亞球團(tuán)礦、楊迪粉鐵礦、哈楊粉鐵礦、紐曼混合粉鐵礦、南非鐵礦石精粉、澳大利亞鐵礦石精粉、弗特斯克混合粉、卡拉加斯鐵礦石、哈薩克斯坦球團(tuán)礦、哈薩克斯坦鐵礦粉、昆巴標(biāo)準(zhǔn)礦粉、超特粉鐵礦、麥克粉鐵礦、昆巴標(biāo)準(zhǔn)塊、印度球團(tuán)礦。剔除異常值之后的樣品共419批,信息如表1所示。
表1 鐵礦石樣品信息Table 1 The information of iron ore samples
將采集樣品分裝到玻璃廣口瓶中于105 ℃下烘干4 h。采用壓片機(jī)對(duì)烘干樣品壓片,壓片前用乙醇清洗模具,使用聚乙烯環(huán)使粉末樣品聚攏,壓制樣品在30 t壓力下維持30~60 s。檢查壓制樣品表面均勻且無裂紋、脫落現(xiàn)象,測量前用洗耳球吹去樣品表面浮粉。
使用德國布魯克公司S4 Pioneer波長色散-X射線熒光光譜儀中的無標(biāo)樣分析方法檢測鐵礦石中元素的含量。檢測中使用銠靶光管、四個(gè)分析儀晶體(LiF200,XS-55,PET和Ge)、流氣計(jì)數(shù)器(FC)、閃爍計(jì)數(shù)器(SC)等元件。
1.3.1 整體數(shù)據(jù)處理流程
整體數(shù)據(jù)處理流程如圖1所示,首先收集樣品的X射線熒光光譜(XRF)無標(biāo)樣分析數(shù)據(jù),然后依次進(jìn)行缺失值處理、異常數(shù)據(jù)剔除,對(duì)剩余數(shù)據(jù)劃分訓(xùn)練集與測試集,采用逐步判別法提取特征變量,建立Fisher判別分析模型,通過建模樣品驗(yàn)證、交叉驗(yàn)證、測試集樣品驗(yàn)證評(píng)價(jià)模型的準(zhǔn)確度。
1.3.2 異常數(shù)據(jù)剔除
分別對(duì)不同品牌鐵礦石的測量數(shù)據(jù)做主成分分析,根據(jù)主成分貢獻(xiàn)度選擇合適的主成分?jǐn)?shù),再根據(jù)式(1)和式(2)分別計(jì)算樣品剩余方差、模型剩余方差,用樣品剩余方差除以模型剩余方差得到F統(tǒng)計(jì)量[式(3)],再查詢F0.01檢驗(yàn)臨界值表,通過比較判斷該樣品是否在99%置信區(qū)間內(nèi)為異常值。
圖1 數(shù)據(jù)處理流程圖Fig.1 Data processing flow chart
樣品剩余方差公式
(1)
模型剩余方差公式
(2)
F統(tǒng)計(jì)量計(jì)算公式
(3)
1.3.3 逐步判別-費(fèi)舍爾判別分析
逐步判別分析屬于有監(jiān)督的分類方式,先對(duì)已知的樣品進(jìn)行分類來建立模型,再對(duì)未知樣品進(jìn)行預(yù)測分類,其判別函數(shù)的建立利用了方差分析的思想[6]。判別時(shí)將一未知樣品的變量代入判別式,根據(jù)判別函數(shù)和組質(zhì)心處坐標(biāo)函數(shù),計(jì)算每個(gè)樣品坐標(biāo)與質(zhì)心的距離,與哪個(gè)類別的質(zhì)心最近,該樣品就判定為哪個(gè)類別。
在逐步判別分析中通過費(fèi)舍爾分?jǐn)?shù)(F-score)算法[7]進(jìn)行變量評(píng)估和特征選擇,F(xiàn)-score值為組間均方與總平方和的比,F(xiàn)-score值越大說明該變量在組間差異越大,對(duì)判別的貢獻(xiàn)度越大。具體描述如給定訓(xùn)練樣本集Xk∈Rm,K=1, 2, …,n,其中正類和負(fù)類的樣本數(shù)分別為n+和n-,則訓(xùn)練樣本第i個(gè)特征的F-score值定義為[式(4)]
(4)
對(duì)于所建立的判別模型使用判別準(zhǔn)確率[式(5)]對(duì)模型進(jìn)行評(píng)價(jià)。
(5)
式(5)中,N為樣品總數(shù),E為判別錯(cuò)誤樣品數(shù)量。
根據(jù)GB/T 6379.1—2004《測量方法與結(jié)果的準(zhǔn)確度(正確度與精密度) 第1部分: 總則與定義》,準(zhǔn)確度是指測試結(jié)果與接受參照值之間的一致程度,由正確度和精密度組成。正確度指由大量測試結(jié)果得到的平均數(shù)與接受參照值之間的一致程度,精密度指在規(guī)定條件下獨(dú)立測試結(jié)果間的一致程度。波長色散-X射線熒光光譜無標(biāo)樣分析方法的基本思路是由儀器和軟件制造商測定校準(zhǔn)樣品,儲(chǔ)存元素譜線強(qiáng)度和校準(zhǔn)曲線,然后將這些數(shù)據(jù)轉(zhuǎn)到用戶的X射線熒光分析系統(tǒng)中,并用參考樣品校正儀器的漂移,考慮到實(shí)際樣品與校準(zhǔn)樣品的基體差異,無標(biāo)樣分析法只能是一種半定量方法,準(zhǔn)確度很難達(dá)到定量分析的要求。選取紐曼混合塊鐵礦、津布巴混合粉鐵礦的化學(xué)分析樣,采用波長色散-X射線熒光光譜無標(biāo)樣分析方法分別進(jìn)行3次獨(dú)立測量,進(jìn)一步考察了方法的精密度,見表2。結(jié)果表明Fe,Si,Al,P,Mn和Ti的相對(duì)標(biāo)準(zhǔn)偏差在0.25%~2.43%之間,S,Ca和Mg三個(gè)元素含量的平均值在0.010%~0.044%之間,相對(duì)標(biāo)準(zhǔn)偏差在1.08%~9.93%之間。除紐曼混合塊鐵礦中S和Mg、津布巴混合粉鐵礦中Ca外,其余元素的相對(duì)標(biāo)準(zhǔn)偏差皆滿足GB 27417—2017《合格評(píng)定化學(xué)分析方法確認(rèn)和驗(yàn)證指南》對(duì)實(shí)驗(yàn)室內(nèi)變異系數(shù)的要求,說明采用同一臺(tái)儀器在固定的條件下檢測,無標(biāo)樣分析方法的精密度基本能達(dá)到定量分析的要求。這也是X射線熒光光譜無標(biāo)樣分析方法檢測結(jié)果結(jié)合判別分析能建立產(chǎn)地識(shí)別模型的原因。
表2 無標(biāo)樣分析方法測量結(jié)果Table 2 Measurement results without standard analysis method
數(shù)據(jù)缺失是實(shí)驗(yàn)中不可避免的問題,數(shù)據(jù)缺失會(huì)使整個(gè)系統(tǒng)丟失一部分有價(jià)值的信息,增加了系統(tǒng)在使用過程中的不確定性,影響了最終輸出的準(zhǔn)確性。在大部分研究中,都將其作為無效數(shù)據(jù)刪除,即使不人為刪除,在諸如SPSS,SAS,Stata和R的很多統(tǒng)計(jì)軟件的數(shù)據(jù)處理中,也會(huì)默認(rèn)刪除缺失值從而使整個(gè)數(shù)據(jù)處理過程能流暢進(jìn)行[9]。
針對(duì)采集的422個(gè)鐵礦石樣品,采用波長色散-X射線熒光光譜無標(biāo)樣分析可以檢測到Fe,O,Si,Ca,Al,Mn,Tb,Ti,Mg,P,Na,Cr,K,Sr,S,Zr,Zn,V,Cu,Gd,Ba,Cl,Ni,Co,Mo和Pb共26共種元素的含量,其中Na,Cr,K,Sr,S,Zr,Zn,V,Cu,Gd,Ba,Cl,Ni,Co,Mo和Pb共16個(gè)元素含量存在未檢出的情況。對(duì)于未檢出的元素含量,對(duì)比了4種缺失值處理方式: (1)缺失值用0替代; (2)缺失值用檢測限替代; (3)缺失值用檢測限替代,并增加一組邏輯變量,元素檢出標(biāo)記為1,未檢出標(biāo)記為0; (4)刪除存在缺失值的元素。4種方式所建立的國家與品牌判別模型中建模驗(yàn)證準(zhǔn)確率、交叉驗(yàn)證準(zhǔn)確率、測試驗(yàn)證準(zhǔn)確率如表3所示。結(jié)果表明,方式2與方式3所建立的判別模型準(zhǔn)確率相差不大,考慮到增加邏輯變量會(huì)使數(shù)據(jù)處理過程復(fù)雜,選取用第2種缺失值處理方式。
表3 四種缺失值處理方式比較Table 3 Comparison of four missing value processing methods
一批數(shù)據(jù)中有部分?jǐn)?shù)據(jù)與其余數(shù)據(jù)相比明顯不一致的稱為異常值,或稱離群值。實(shí)驗(yàn)過程中采集異常數(shù)據(jù)的可能來源包括: 樣品測試過程被污染、樣品信息、檢測結(jié)果采集錯(cuò)誤等。異常數(shù)據(jù)會(huì)使樣本均值與樣本方差產(chǎn)生明顯偏差,因此尋找合適的方法來發(fā)現(xiàn)和處理這些異常數(shù)據(jù)十分重要。本文使用Pirouette多元數(shù)據(jù)分析軟件基于剩余方差的F檢驗(yàn)進(jìn)行異常值的剔除。皮爾巴拉混合塊、紐曼混合塊鐵礦、紐曼混合粉鐵礦各有一組數(shù)據(jù)計(jì)算得出的F統(tǒng)計(jì)量大于F0.01檢驗(yàn)臨界值,如表4所示,認(rèn)為這3組數(shù)據(jù)為異常值,因此將這3組數(shù)據(jù)剔除,剩余419組數(shù)據(jù)用于后續(xù)分析。
表4 異常樣品的樣品剩余方差、模型剩余方差、F統(tǒng)計(jì)量、臨界值、自由度
分析來自我國主要鐵礦石進(jìn)口口岸的21個(gè)品牌共計(jì)419個(gè)鐵礦石樣品,建模過程中選取318個(gè)樣品作為訓(xùn)練集,101個(gè)樣品作為驗(yàn)證集檢驗(yàn)?zāi)P偷臏?zhǔn)確性。訓(xùn)練樣品及測試樣品的選取如表1所示。鐵礦石生產(chǎn)國家判別模型中,經(jīng)過逐步判別分析篩選出Ca,K,O,V,Mg,Sr,Na,Zn,Al,Ti,Ni,Pb,P,Cr,Cu,Mo,Mn,S,Ba,F(xiàn)e和Si共21個(gè)元素含量作為特征變量(F-score值>3.84)保留在模型中,Zr,Tb,Cl,Gd和Co等元素含量因未通過F檢驗(yàn)(F-score值<2.71)而從模型中剔除。鐵礦石品牌的判別模型中,經(jīng)過逐步判別分析篩選出V,Ca,K,Al,O,Ti,Mn,Mo,Ni,P,Mg,Cu,Pb,Si,S,Na,Cl,Zn,Ba,Cr,F(xiàn)e,Sr和Zr共23個(gè)元素含量作為特征變量(F-score值>3.84)保留在模型中,Gd和Co因未通過F檢驗(yàn)(F-score值<2.71)而從模型中剔除。從地質(zhì)成因上看,Ca,O,K和Na等元素反映了海相沉積背景,V,Ti和Ni等元素反映出巖漿活動(dòng)、深部流體活動(dòng),篩選出的特征變量也說明地質(zhì)成因差異是建立鐵礦石產(chǎn)地和品牌判別分析模型的原因。
2.5.1 進(jìn)口鐵礦石生產(chǎn)國家判別模型
使用了2.4中選擇的21個(gè)元素作為特征變量,建立澳大利亞、巴西、南非、哈薩克斯坦、印度產(chǎn)鐵礦石的費(fèi)舍爾判別模型,包括4個(gè)判別函數(shù),5個(gè)國家的組質(zhì)心處的坐標(biāo)可以通過計(jì)算得到。對(duì)于測試樣品的預(yù)測,可以將該樣品21個(gè)元素含量分別代入4個(gè)判別函數(shù),分別計(jì)算4維坐標(biāo)與5個(gè)國家組質(zhì)心坐標(biāo)的距離,最近距離對(duì)應(yīng)的國家,即為該樣品生產(chǎn)國家的預(yù)測結(jié)果。建模樣品驗(yàn)證、交叉驗(yàn)證、測試樣品驗(yàn)證的結(jié)果如表5所示,模型判別準(zhǔn)確率分別為99.1%,98.4%和100%。使用前期工作[5]建立的判別模型計(jì)算本實(shí)驗(yàn)數(shù)據(jù),判別準(zhǔn)確率分別為96.3%,94.4%和91.1%,可以看出增加特征變量的數(shù)量,再經(jīng)過缺失值的處理與異常值的剔除,可以明顯提高生產(chǎn)國家判別模型的準(zhǔn)確率。不同國家鐵礦石的類型、品位、成因以及分布情況存在一定的差異,如: 澳大利亞鐵90%礦石集中在皮爾巴拉地區(qū)[10],大部分含磷低、埋藏淺、品位較高,鐵含量一般在56%~62%左右; 巴西鐵礦主要由赤鐵礦組成,具有高鐵、中硅、低鋁的特點(diǎn); 南非鐵礦石主要分布在開普省北部賽申地區(qū)和德蘭士瓦的西部,多屬于赤鐵礦,品位高、雜質(zhì)少,含有較高的鉀、鈉; 哈薩克斯坦的鐵礦屬于富礦,其中約60%為富礦和易選礦,鐵精礦含量可達(dá)65%左右; 印度擁有豐富的鐵礦資源且多為優(yōu)質(zhì)鐵礦,主要為赤鐵礦和磁鐵礦,赤鐵礦礦石鐵品位均在58%以上,磁鐵礦礦石品位較低。圖2為2.4節(jié)特征變量選擇過程中F-score值排名前十元素含量平均值的條形圖,從圖2可以看出元素含量在不同國家間有較大的差異,因此可以利用不同國家鐵礦石間元素含量的差異進(jìn)行鐵礦石產(chǎn)地國家的判別。
表5 國家判別模型具體判別結(jié)果Table 5 National discriminant model specific discriminant results
2.5.2 進(jìn)口鐵礦石品牌判別模型
品牌判別模型使用2.4節(jié)選擇的23個(gè)元素作為特征變量,建立了21種品牌鐵礦石的費(fèi)舍爾判別模型,包括20個(gè)判別函數(shù)。建模樣品驗(yàn)證、交叉驗(yàn)證、測試樣品驗(yàn)證的結(jié)果如表6所示,模型判別準(zhǔn)確率分別為96.2%,93.1%和95.0%。使用前期工作[5]建立的判別模型計(jì)算本次實(shí)驗(yàn)數(shù)據(jù),模型判別準(zhǔn)確率分別為95.3%,92.5%和91.1%,可以看出增加特征變量的數(shù)量,再經(jīng)過缺失值的處理與異常值的剔除,可以提高品牌判別模型的準(zhǔn)確率。鐵礦石品牌判別模型對(duì)測試樣品進(jìn)行分類時(shí),有5個(gè)樣品判別錯(cuò)誤,其中1個(gè)楊迪粉鐵礦錯(cuò)分為哈楊粉鐵礦、3個(gè)弗特斯克混合粉錯(cuò)分為皮爾巴拉混合粉、1個(gè)超特粉鐵礦錯(cuò)分為弗特斯克混合粉。選擇2.4節(jié)特征變量選擇過程中F-score值排名前10的元素,作前2個(gè)主成分的散點(diǎn)圖(如圖3所示,橫坐標(biāo)為主成分1,縱坐標(biāo)為主成分2)。從二維散點(diǎn)圖中可以看出,分類錯(cuò)誤的品牌與其被誤判的品牌,在二維散點(diǎn)圖中部分樣品位置接近,甚至重疊,說明這些品牌中部分樣品元素間含量比較接近,X射線熒光光譜無標(biāo)樣分析方法所建立的判別模型對(duì)這些品牌鐵礦石存在誤判的可能。
圖2 不同國家元素含量條形圖Fig.2 Bar chart of elemental content in different countries
表6 品牌判別模型具體判別結(jié)果Table 6 Brand discriminant model specific discriminant results
這些誤判品牌鐵礦石均來自澳大利亞皮爾巴拉克拉通的哈默斯利成礦省,成礦類型為受變質(zhì)沉積改造型鐵礦床[14]。楊迪粉鐵礦與哈楊粉鐵礦均來自西澳皮爾巴拉地區(qū)的楊迪礦山,分別由必和必拓與力拓公司開采,由于來自相同的礦山,礦床成因一致,元素含量差異很??; 弗特斯克混合粉是澳大利亞FMG公司的產(chǎn)品,由位于湯姆普利斯的所羅門樞紐生產(chǎn)。皮爾巴拉混合粉為澳大利亞力拓公司產(chǎn)品,主要由布魯克曼2、布魯克曼4、霍普唐斯4、湯姆普利斯、帕拉伯杜共5個(gè)地區(qū)的鐵礦石混合而成,其中布魯克曼2、布魯克曼4、湯姆普利斯礦區(qū)與弗特斯克混合粉產(chǎn)區(qū)所羅門樞紐十分接近; 超特粉鐵礦與弗特斯克混合粉均為澳大利亞FMG公司產(chǎn)品,通過調(diào)查了解到,兩種品牌鐵礦石在元素含量方面差異比較接近。對(duì)于這幾類品牌鐵礦的識(shí)別,存在誤判的可能,如需準(zhǔn)確識(shí)別,需進(jìn)一步提高分析方法的準(zhǔn)確度,或借助其他分析技術(shù)或手段。
圖3 分類錯(cuò)誤品牌與其被誤判品牌散點(diǎn)圖Fig.3 Classification error brand and its misjudged brand scatter plot
本文是前期研究的應(yīng)用拓展,研究對(duì)象為澳大利亞、巴西、南非、哈薩克斯坦、印度5個(gè)國家的21種品牌鐵礦石共422批進(jìn)口鐵礦石代表性樣品,經(jīng)過對(duì)比選擇用檢測限替代檢測結(jié)果中的缺失值,運(yùn)用基于剩余方差的F檢驗(yàn)剔除了3組異常數(shù)據(jù),利用逐步判別分析選擇特征變量,建立了鐵礦石產(chǎn)地與品牌的費(fèi)舍爾判別模型,最后分析了特征元素對(duì)分類識(shí)別模型的貢獻(xiàn)以及誤判品牌鐵礦石的元素特征。判別模型的判別結(jié)果表明增加特征變量的數(shù)量,再經(jīng)過缺失值的處理與異常值的剔除,可以提高模型判別準(zhǔn)確率。在此基礎(chǔ)上,總結(jié)出進(jìn)口鐵礦石產(chǎn)地及品牌判別分析模型的整體數(shù)據(jù)處理流程。形成固定的方法經(jīng)驗(yàn)之后,可以進(jìn)一步增加鐵礦石樣品數(shù)量,提高模型普適性,實(shí)現(xiàn)對(duì)更多國家、品牌鐵礦石的識(shí)別。使用X射線熒光無標(biāo)樣分析法測量元素的含量將大大縮短分析時(shí)間,結(jié)合已建立的判別模型,可以對(duì)鐵礦石品牌及產(chǎn)地進(jìn)行快速的溯源分類,有利于保障貿(mào)易安全、提高通關(guān)效率。