張 潔,劉石華,李鴻鎮(zhèn),初曉鳳,任雅麗,余先川
(1.北京師范大學(xué)信息科學(xué)與技術(shù)學(xué)院,北京 100875;2.廣東省地勘局722地質(zhì)大隊(duì),廣東 汕頭 440500)
礦產(chǎn)預(yù)測(cè)是指結(jié)合地質(zhì)學(xué)、數(shù)學(xué)、信息學(xué)以及計(jì)算機(jī)等技術(shù)與理論,通過(guò)分析成礦地質(zhì)數(shù)據(jù),深入研究礦產(chǎn)與礦化信息和成礦規(guī)律,預(yù)測(cè)成礦區(qū)域并對(duì)之作出評(píng)價(jià)。許多學(xué)者對(duì)此進(jìn)行了大量的研究工作(成秋明,2000,2001;趙鵬大,2000;余先川等,2011),其中,利用地質(zhì)、礦產(chǎn)、遙感、地球物理和地球化學(xué)等多種信息進(jìn)行資源評(píng)價(jià)的綜合信息礦產(chǎn)資源定量預(yù)測(cè)(王世稱(chēng),2002)是目前礦產(chǎn)資源預(yù)測(cè)的主流方法。如何從海量地質(zhì)礦產(chǎn)數(shù)據(jù)中提取有效致礦信息是礦場(chǎng)預(yù)測(cè)的一個(gè)關(guān)鍵環(huán)節(jié)。但由于地質(zhì)數(shù)據(jù)具有復(fù)雜性且致礦異常具有稀疏性。使用傳統(tǒng)的數(shù)據(jù)處理方法如多元統(tǒng)計(jì)分析、線性空間信息統(tǒng)計(jì)、空間多元統(tǒng)計(jì)分析成分?jǐn)?shù)據(jù)分析以及成分分析等,往往具有一定的局限性,這使得從海量礦產(chǎn)數(shù)據(jù)中有效提取屬于“弱信息”的找礦信息非常困難,數(shù)據(jù)挖掘效果不理想,不能很好地表征礦產(chǎn)特征。例如,主成分分析方法只考慮了數(shù)據(jù)的低階統(tǒng)計(jì)特性,沒(méi)有考慮高階統(tǒng)計(jì)特性(Lee et al,2000),對(duì)于復(fù)雜的礦產(chǎn)預(yù)測(cè)數(shù)據(jù)不能很好地表征礦產(chǎn)資源特征。
非負(fù)矩陣分解(NMF)(Lee et al,1999)是一種數(shù)據(jù)處理方法,不僅保留了原始數(shù)據(jù)矩陣的非負(fù)性,并且有降維和稀疏的特征。筆者用NMF方法對(duì)礦產(chǎn)預(yù)測(cè)數(shù)據(jù)進(jìn)行處理,以廣東新寮崠銅多金屬礦區(qū)數(shù)據(jù)為研究對(duì)象,通過(guò)R型聚類(lèi)分析研究變量間的相關(guān)關(guān)系,對(duì)相關(guān)性較高的聚類(lèi)結(jié)果進(jìn)行NMF分解,討論基向量和原變量以及基向量之間的相互關(guān)系。實(shí)驗(yàn)結(jié)果表明,在不同特征值和在稀疏度相似的條件下,NMF的基向量形態(tài)基本穩(wěn)定,將NMF應(yīng)用于礦產(chǎn)數(shù)據(jù)處理不僅實(shí)現(xiàn)了對(duì)原始數(shù)據(jù)的稀疏化,同時(shí)還有效地保留了屬于“弱信息”的找礦信息。實(shí)驗(yàn)結(jié)果證明NMF對(duì)于礦產(chǎn)預(yù)測(cè)有重要的實(shí)際意義。
非負(fù)矩陣分解是最近十幾年新提出的一種矩陣分解算法。該算法在分解過(guò)程中加入了所涉及矩陣及其元素均為非負(fù)的約束條件,從而實(shí)現(xiàn)了完全不同的矩陣分解結(jié)果。Paatero等于1994年發(fā)表的論文中首次提出了非負(fù)矩陣分解的思想,Lee等于1999年在《Nature》上首次提出NMF的概念,隨后又對(duì)NMF進(jìn)行了改進(jìn)(Lee et al,2001)。隨后,NMF成為信息領(lǐng)域的研究熱點(diǎn)之一,廣大研究者又推廣和改進(jìn)了 NMF 方法(Guillamet et al,2001;Hoyer,2004;Pauca et al,2006;Rutkowski et al,2007;Xue et al,2006)。
下面是NMF理論的數(shù)學(xué)模型。
V為原始非負(fù)矩陣,W和H為分解后得到的非負(fù)矩陣,W是數(shù)據(jù)矩陣V線性逼近的一組基,而H則是樣本集的投影系數(shù),且:
其中,對(duì)于給定的n維向量集合n為變量個(gè)數(shù),m為集合中的數(shù)據(jù)樣本個(gè)數(shù),r為基向量的個(gè)數(shù),原始數(shù)據(jù)矩陣V可以分解為基矩陣W和權(quán)重系數(shù)矩陣H的乘積與誤差矩陣E之和。為簡(jiǎn)單起見(jiàn),不考慮誤差的因素,模型可簡(jiǎn)化為:
其中,V是非負(fù)矩陣V中的元素,Wik和Hkj是因子矩陣W和H中的元素。一般情況下,應(yīng)滿足r≤m,n且(n+m)r<nm,這樣就實(shí)現(xiàn)了數(shù)據(jù)的壓縮模型。NMF就是要找到較好的基向量組,用較少數(shù)據(jù)表示海量數(shù)據(jù),并得到數(shù)據(jù)的潛在關(guān)系,從而使得到的壓縮數(shù)據(jù)模型對(duì)原始數(shù)據(jù)稀疏化的同時(shí),有較好的逼近效果。
以廣東新寮崠銅多金屬礦區(qū)為研究區(qū)域,實(shí)際勘查區(qū)域如圖1所示藍(lán)色邊框部分。廣東省地勘局722地質(zhì)隊(duì)在該區(qū)域做了大比例尺的礦產(chǎn)勘查工作。樣本數(shù)據(jù)包括1 066個(gè)樣本,共15種元素,實(shí)驗(yàn)中采用紅色邊框數(shù)據(jù)。鉆孔樣品分析區(qū)域如圖2所示,坑探揭露探槽8條,共1 765.18 m3;鉆孔4個(gè),別是 ZK2-1、ZK5-1、ZK5-2、ZK4-1,數(shù)據(jù)分析了 Cu、Pb、Zn、Sn、Ag、Mo 6 種元素,數(shù)據(jù)格式如表1。
圖1 廣東省新寮崠銅多金屬礦區(qū)地形地質(zhì)圖
圖2 廣東省新寮崠銅多金屬礦區(qū)采樣圖
表1 樣品分析結(jié)果表
研究區(qū)為廣東新寮崠銅多金屬礦區(qū),調(diào)查區(qū)內(nèi)地層和巖漿巖自老—新分別為:下侏羅紀(jì)長(zhǎng)埔組:主要有2個(gè)巖性段,上段是泥質(zhì)砂巖、粉砂質(zhì)泥巖夾長(zhǎng)石石英砂巖),下段是粉砂巖、泥質(zhì)粉砂巖夾長(zhǎng)石石英砂巖質(zhì)頁(yè)巖)。礦區(qū)的侵入巖主要分為燕山三期、四期、五期侵入巖、此外還有時(shí)代不明的輝綠巖和英安玢巖。燕山三期侵入巖的巖性是黑云母花崗巖),燕山四期侵入巖的巖性是石英閃長(zhǎng)巖)、燕山五期侵入巖的巖性是花崗閃長(zhǎng)巖()。第四系蓮下組是礫石、礫砂及巖質(zhì)黏土(Ql)。礦區(qū)內(nèi)以斷裂構(gòu)造為主,其走向是北東向斷裂和南北向斷裂。
以研究區(qū)域?yàn)槔紨?shù)據(jù)元素變量按照順序依次為 Au、Pb、Mo、Sn、Cu、Ag、Zn、Cr、Ti、Ni、As、Sb、Bi、W、Be,首先對(duì)原始數(shù)據(jù)進(jìn)行極值化處理,然后采用逐步成群聚類(lèi)分析,按照變量相似度(實(shí)驗(yàn)中采用相關(guān)系數(shù))對(duì)變量進(jìn)行分類(lèi),直至生成新的點(diǎn)群,所得連接對(duì)相關(guān)系數(shù)表如表2所示。根據(jù)表2,得到R型聚類(lèi)分析譜系圖(圖3)。
表2 連接點(diǎn)對(duì)順序表
圖3 廣東省新寮崠銅多金屬礦區(qū)R型聚類(lèi)結(jié)果圖
基于相關(guān)聚類(lèi)分析結(jié)果及實(shí)際勘測(cè)區(qū)域分析元素,實(shí)驗(yàn)中選擇了 Au、Mo、Sn、Cu、As、Sb 6 種元素,用基于歐氏距離的NMF進(jìn)行處理分析,變量及基向量的相關(guān)性見(jiàn)表3。
由表3中數(shù)據(jù)可知,在相似稀疏條件下,對(duì)于不同的特征值r,第一個(gè)基向量之間相關(guān)性很大,其中W21與W1的相關(guān)性為0.902,W31與W21間的相關(guān)性達(dá)0.920,W32與W22的相似度達(dá)0.975。將處理完的基向量進(jìn)行極值化處理,把數(shù)據(jù)統(tǒng)一到[0,10],生成克里格柵格圖(圖4)。圖4表明,在相似稀疏條件下,基于不同的特征值r對(duì)礦產(chǎn)數(shù)據(jù)進(jìn)行NMF分解,所得基向量基本穩(wěn)定??梢?jiàn),用NMF方法可以有效地稀疏原始礦產(chǎn)數(shù)據(jù),同時(shí)保留原屬于“弱信息”的找礦信息,處理后的數(shù)據(jù)對(duì)于原始數(shù)據(jù)具有較好的逼近效果。
表3 新寮崠銅多金屬礦區(qū)變量及基向量的相關(guān)性
圖4 廣東省新寮崠銅多金屬礦區(qū)基向量對(duì)應(yīng)的柵格圖
討論了非負(fù)矩陣分解方法的基向量與原變量以及基向量之間的關(guān)系,并將該方法用于礦產(chǎn)預(yù)測(cè)數(shù)據(jù)處理。在廣東新寮崠銅多金屬礦區(qū)數(shù)據(jù)上的實(shí)驗(yàn)結(jié)果表明,在不同特征值和相似稀疏度條件下,非負(fù)矩陣分解方法的基向量形態(tài)基本穩(wěn)定,用該方法對(duì)礦產(chǎn)數(shù)據(jù)進(jìn)行處理,可以在有效保留屬于“弱信息”的找礦信息的同時(shí),實(shí)現(xiàn)對(duì)原始地質(zhì)數(shù)據(jù)的稀疏化。NMF方法對(duì)于礦產(chǎn)預(yù)測(cè)具有重要的實(shí)際意義。
成秋明.2000.多重分形理論與地球化學(xué)元素分布規(guī)律[J].地球科學(xué):中國(guó)地質(zhì)大學(xué)學(xué)報(bào),25(3):311-318.
成秋明.2001.多重分形與地質(zhì)統(tǒng)計(jì)學(xué)方法用于勘查地球化學(xué)異??臻g結(jié)構(gòu)和奇異性分析[J].地球科學(xué):中國(guó)地質(zhì)大學(xué)學(xué)報(bào),26(2):161-168.
王世稱(chēng).2002.綜合信息礦產(chǎn)預(yù)測(cè)理論與方法[M].北京:科學(xué)出版社.
余先川,胡丹.2011.盲源分離理論與應(yīng)用[M].北京:科學(xué)出版社.
趙鵬大.2002.“三聯(lián)式”資源定量預(yù)測(cè)與評(píng)價(jià)——數(shù)字找礦理論與實(shí)踐探討[J].地球科學(xué):中國(guó)地質(zhì)大學(xué)學(xué)報(bào),27(5):482-489.
GUILLAMET D,BRESSAN M,VITRIà J.2001.A weighted non-negative matrix factorization for local representation[C].Proc of Comp Vision and Pattern Recog.Los Alamitos,California,USA:IEEE,I:942-947.
HOYER P O.2004.Non-negative matrix factorization with sparseness constraints[J].Journal of Machine Learning Research,5(9):1457-1469.
LEE D,SEUNG H S.1999.Learning the parts of objects by non-negative matrix factorization[J].Nature,401:788-791.
LEE T W,GIROLAMI M,BELL A J,et al.2000.A unifying information-theoretic framework for independent component analysis[J].Computers and Mathematics with Applications,39:1-21.
PAATERO P,TAPPER U.1994.Positive matrix factorization:non-negative factor model with optimal utilization of error estimates of data values [J].Environmetrics,5:111-126.
PAUCA P,PIPER J,PLEMMONS R.2006.Nonnegative matrix factorization for spectral data analysis[J].Linear Algebra Application,416(1):29-47.
RUTKOWSKI T M,ZDUNEK R,CICHOCKI A.2007.Multichannel EEG brain activity pattern analysis in time-frequency domain with nonnegative matrix factorization support[J].International Congress Series,(1301):266-269.
XUE YUN,TONG CHONGSZE,CHEN WENSHENG,et al.2006.A modified non-negative matrix factorization algorithm for face recognition[C]//18th International Conference on Pattern Recognition(ICPR'06)Washington D C,USA:IEEE Computer Society,3:495-498.