陳軍林,閆 巖,彭潤(rùn)民
(中國(guó)地質(zhì)大學(xué) (北京) 地球科學(xué)與資源學(xué)院, 北京 100083)
隨著地學(xué)數(shù)據(jù)的不斷積累,地質(zhì)學(xué)進(jìn)入了大數(shù)據(jù)時(shí)代。大數(shù)據(jù)的重要價(jià)值在于能夠從中發(fā)現(xiàn)有用的知識(shí)。地學(xué)大數(shù)據(jù)中包含豐富的有用信息,對(duì)這些數(shù)據(jù)進(jìn)行挖掘,從中發(fā)掘出有價(jià)值的規(guī)律,對(duì)于找礦勘查、認(rèn)識(shí)礦床具有重要意義(周永章等, 2018a)。近年來(lái)關(guān)于大數(shù)據(jù)在地學(xué)中的應(yīng)用進(jìn)展迅速,相關(guān)的論文也是逐年增加。大數(shù)據(jù)給地質(zhì)學(xué)這個(gè)古老的學(xué)科帶來(lái)了新鮮的血液,正在引發(fā)地球科學(xué)領(lǐng)域一場(chǎng)深刻的革命(張旗等, 2017)。
大數(shù)據(jù)方法的一個(gè)重要思想就是對(duì)于關(guān)聯(lián)關(guān)系的重視(羅建民等, 2019),關(guān)聯(lián)規(guī)則挖掘就是這種思維下的一類(lèi)大數(shù)據(jù)挖掘算法(Agrawaletal., 1993),其目的是要從數(shù)據(jù)中挖掘歸納出有用的規(guī)則。關(guān)聯(lián)規(guī)則在地質(zhì)學(xué)當(dāng)中已有一些應(yīng)用(王賢敏等, 2008; Ereneretal., 2016; Adam, 2016; 常力恒等, 2018; 劉心怡等, 2019),如劉心怡等(2019)對(duì)區(qū)域化探數(shù)據(jù)進(jìn)行了關(guān)聯(lián)規(guī)則分析,找出了不同元素不同含量區(qū)間之間的關(guān)聯(lián)關(guān)系。關(guān)聯(lián)規(guī)則處理的是離散的類(lèi)別數(shù)據(jù),巖石、礦石的礦物組成數(shù)據(jù)就屬于這類(lèi)數(shù)據(jù)。另外,頻繁模式挖掘和網(wǎng)絡(luò)分析也是常用的離散數(shù)據(jù)挖掘方法。通過(guò)頻繁模式可以從離散數(shù)據(jù)集中找出頻繁出現(xiàn)的模式、高頻次共同出現(xiàn)的離散對(duì)象組合,挖掘出的頻繁對(duì)象組合往往代表著有意義的模式。網(wǎng)絡(luò)分析用來(lái)挖掘離散數(shù)據(jù)集中個(gè)體之間的關(guān)聯(lián)和其中的社團(tuán)結(jié)構(gòu)。網(wǎng)絡(luò)分析包括一系列強(qiáng)大的量化分析和可視化方法,這些方法在不同技術(shù)和科學(xué)領(lǐng)域的大數(shù)據(jù)展示和解釋中得到了大量應(yīng)用(Newman, 2013; 張子柯, 2014; Kolaczyk and Csárdi, 2014),比如輿情傳播分析、疾病傳播網(wǎng)絡(luò)、社交媒體用戶(hù)之間的聯(lián)系、恐怖組織的結(jié)構(gòu)以及研究合作者之間的聯(lián)系等不同主題的數(shù)據(jù)(劉小鵬, 2010; 吳磊, 2014; 董靖巍, 2016; 喬建琴, 2018)。在這些網(wǎng)絡(luò)分析應(yīng)用中,對(duì)數(shù)據(jù)的建模、分析和可視化揭示了復(fù)雜系統(tǒng)中以前未被認(rèn)識(shí)的模式和行為。Morrison等(2017)等利用網(wǎng)絡(luò)分析方法對(duì)全球當(dāng)前已發(fā)現(xiàn)的礦物進(jìn)行了大數(shù)據(jù)分析,得到了很多有趣的發(fā)現(xiàn),為尋找缺失礦物提供了重要方法。通過(guò)網(wǎng)絡(luò)分析能夠?qū)﹄x散數(shù)據(jù)集中不同個(gè)體之間的關(guān)系進(jìn)行可視化,但是要對(duì)隱藏在網(wǎng)絡(luò)中由不同個(gè)體構(gòu)成的社團(tuán)結(jié)構(gòu)進(jìn)行進(jìn)一步的挖掘,就需要用到社團(tuán)檢測(cè)算法。社團(tuán)檢測(cè)是建立在網(wǎng)絡(luò)分析基礎(chǔ)上的,其目的是為了發(fā)現(xiàn)網(wǎng)絡(luò)圖中存在的社團(tuán)結(jié)構(gòu)。這些由特定離散個(gè)體構(gòu)成的社團(tuán)往往能夠反映一些重要信息。
無(wú)論是在巖石、沉積物、隕石還是礦床中,礦物都是以共存集合體的形式存在的。這些共同出現(xiàn)的礦物,并不是隨機(jī)的,而是按照特定的規(guī)律出現(xiàn)在一起,特定類(lèi)型的礦物總是頻繁相伴出現(xiàn),比如雌黃和雄黃、橄欖石和輝石、方鉛礦和閃鋅礦等。礦物的共伴生規(guī)律可以指示尋找特定的礦產(chǎn),如果A、B、C 這3種礦物頻繁共伴生,那么當(dāng)一個(gè)礦床中出現(xiàn)A、B時(shí),則有很大可能找到C。
以往,對(duì)于礦物的共伴生規(guī)律,都是通過(guò)有限的認(rèn)識(shí)總結(jié)得出,或者是通過(guò)地球化學(xué)反應(yīng),從相平衡的角度去研究(陳正, 1984; 裴榮富等, 1995; 錢(qián)漢東等, 2000),更多考慮的是因果關(guān)系,沒(méi)有從大數(shù)據(jù)的角度去研究過(guò)礦物組成數(shù)據(jù)??偨Y(jié)出的規(guī)律也是一種定性規(guī)律,缺乏定量描述。大數(shù)據(jù)方法更多著眼于其中的關(guān)聯(lián)性而非因果性,經(jīng)常能夠發(fā)現(xiàn)數(shù)據(jù)中隱藏的傳統(tǒng)方法不容易發(fā)現(xiàn)的規(guī)律。本文就是從大數(shù)據(jù)的角度來(lái)研究礦石中的主要組成礦物之間的關(guān)系,試圖從礦石的礦物組合當(dāng)中發(fā)現(xiàn)有用的礦物共伴生規(guī)律,并對(duì)這種規(guī)律進(jìn)行可視化。
本文主要著眼于礦石中組成礦物之間的關(guān)系,而非所有的巖石,目的是想找出與成礦有關(guān)的礦物共伴生規(guī)律。數(shù)據(jù)來(lái)源于美國(guó)地質(zhì)調(diào)查局的全球礦產(chǎn)資源數(shù)據(jù)系統(tǒng)(MRDS),數(shù)據(jù)多達(dá)30多萬(wàn)條,收錄了來(lái)自于世界各地的各種礦床資源數(shù)據(jù),其中就包含了大量的礦石礦物成分?jǐn)?shù)據(jù)。對(duì)這些數(shù)據(jù)進(jìn)行大數(shù)據(jù)挖掘的研究目前還很少,通過(guò)本研究希望能發(fā)揮這些數(shù)據(jù)的價(jià)值,從中發(fā)現(xiàn)有價(jià)值的規(guī)律。
傳統(tǒng)上礦物之間的共生關(guān)系,指的是成礦過(guò)程發(fā)育的某一階段共同生成的礦物組合。本文所用的數(shù)據(jù)當(dāng)中的礦物組成是沒(méi)有按照成礦階段劃分的,僅指共同產(chǎn)出在同一礦石中的所有礦物的組合,不涉及成礦階段的討論。
本文要處理的是離散的礦物組分?jǐn)?shù)據(jù),即礦石中包含哪些礦物,不是礦物含量數(shù)據(jù),目的是要從這些離散數(shù)據(jù)中找出不同礦物之間的關(guān)系。大數(shù)據(jù)挖掘當(dāng)中,離散數(shù)據(jù)的挖掘常用的方法有頻繁模式、關(guān)聯(lián)規(guī)則、網(wǎng)絡(luò)分析、社團(tuán)檢測(cè)等。下面對(duì)這些方法做簡(jiǎn)要介紹。
頻繁模式是指數(shù)據(jù)集當(dāng)中出現(xiàn)頻率不低于用戶(hù)指定閾值的項(xiàng)目集、子序列或子結(jié)構(gòu)(Zimeketal., 2014)。例如,在購(gòu)物數(shù)據(jù)集中,牛奶和面包等一組物品頻繁地共同出現(xiàn),它們就是一個(gè)頻繁物品集。頻繁模式挖掘是數(shù)據(jù)科學(xué)中的一個(gè)重要研究領(lǐng)域,應(yīng)用于許多方面,如推薦系統(tǒng)、生物信息學(xué)、商務(wù)決策等。
關(guān)聯(lián)規(guī)則挖掘也屬于頻繁模式挖掘的范疇,但關(guān)聯(lián)規(guī)則的目的是從數(shù)據(jù)集中找出頻繁出現(xiàn)的規(guī)則,而不僅僅是頻繁出現(xiàn)的對(duì)象集合(Woonetal., 2002)。關(guān)聯(lián)規(guī)則是大數(shù)據(jù)挖掘中一類(lèi)常用的算法,用于發(fā)現(xiàn)隱藏在大數(shù)據(jù)中的有用規(guī)則以及未知關(guān)系,其基本思想是根據(jù)數(shù)據(jù)集中其他項(xiàng)的出現(xiàn)來(lái)識(shí)別預(yù)測(cè)一個(gè)或多個(gè)項(xiàng)的出現(xiàn)的規(guī)則,是一種無(wú)監(jiān)督的機(jī)器學(xué)習(xí)方法(周永章等, 2018b)。
關(guān)聯(lián)規(guī)則挖掘所找到的規(guī)則,可以概括為簡(jiǎn)單的If/Then語(yǔ)句。比如: 如果客戶(hù)購(gòu)買(mǎi)面包,那么他有70%的可能性購(gòu)買(mǎi)牛奶。規(guī)則可以用X?Y(其中X,Y?I和X∩Y=φ)的形式表示,X表示if的部分,稱(chēng)為規(guī)則前件(LHS);Y表示then的部分,稱(chēng)為規(guī)則后件(RHS)。前件是在數(shù)據(jù)中找到的項(xiàng),后件是與前項(xiàng)結(jié)合起來(lái)發(fā)現(xiàn)的一個(gè)項(xiàng)目。
為了說(shuō)明關(guān)聯(lián)規(guī)則涉及到的幾個(gè)基本概念,這里舉一個(gè)購(gòu)物的例子。設(shè)某商店某次有3個(gè)顧客進(jìn)行了消費(fèi),A顧客同時(shí)購(gòu)買(mǎi)了牛奶、黃油和面包; B顧客購(gòu)買(mǎi)了牛奶、黃油、啤酒; C顧客購(gòu)買(mǎi)了面包、啤酒、牛奶。則此次被購(gòu)買(mǎi)物品的集合I={牛奶,面包,黃油,啤酒}稱(chēng)為項(xiàng)集,項(xiàng)集中的牛奶、面包、黃油、啤酒分別是這個(gè)項(xiàng)目集中的項(xiàng),長(zhǎng)度為k的項(xiàng)集稱(chēng)為k-項(xiàng)集。一名顧客的一次購(gòu)物記錄稱(chēng)為一個(gè)事務(wù)。設(shè)從中提取了一個(gè)規(guī)則:{牛奶,面包}?{黃油},則意味著如果購(gòu)買(mǎi)了牛奶和面包,那么顧客也會(huì)購(gòu)買(mǎi)黃油。為了從所有可能的規(guī)則集合中選擇有意義的規(guī)則,需要定義一些興趣度度量指標(biāo)。最常用的興趣度度量指標(biāo)有支持度、置信度、提升度、奇異率等。
支持度: 定義為項(xiàng)目集X在總項(xiàng)目集里出現(xiàn)的概率,即: supp(X)=num(X)/num(I)。置信度: 定義為含有X的項(xiàng)目集中,含有Y的可能性,可以解釋為概率P(Y|X)的估計(jì),即: conf(X?Y)=supp(X∪Y)/supp(X)。提升度: 定義為在含有X的條件下,同時(shí)含有Y的概率與Y總體發(fā)生的概率之比,即: lift (X?Y)=supp(X∪Y)/[supp(X)·supp (Y)]。提升度反映了關(guān)聯(lián)規(guī)則中的X與Y的相關(guān)性、依賴(lài)性,大于1的程度越高表明正相關(guān)性越高,小于1且越低表明負(fù)相關(guān)性越高,等于1表明沒(méi)有相關(guān)性。相比于上面3個(gè)指標(biāo),奇異率應(yīng)用較少,它表示在包含Y的事務(wù)中找到X的幾率除以在不包含Y的事務(wù)中找到X的幾率,范圍:[0.tif,+∞], 1表示Y不與X關(guān)聯(lián)。
關(guān)聯(lián)規(guī)則的常見(jiàn)算法有Apriori(Agrawal and Srikant, 1994)和FP-growth(Hanetal., 2000)等。Apriori算法中最基本的概念是頻繁項(xiàng)集,指的是關(guān)聯(lián)規(guī)則分析中經(jīng)常出現(xiàn)在一起的物品的集合。Apriori算法的原理可以概括為:頻繁的項(xiàng)集,其子集也是頻繁的;反之,一個(gè)非頻繁的項(xiàng)集,其超集也是非頻繁的?;谶@個(gè)原理,就可以在當(dāng)前k個(gè)頻繁項(xiàng)集的基礎(chǔ)上通過(guò)迭代方法擴(kuò)展生成k+1個(gè)頻繁項(xiàng)集。關(guān)聯(lián)規(guī)則是由頻繁項(xiàng)集生成的,因此算法分為兩大步驟,首先是生成頻繁項(xiàng)集,之后從頻繁項(xiàng)集中找出關(guān)聯(lián)規(guī)則。
通過(guò)Apriori算法生成的規(guī)則,并不是每個(gè)都有用,需要用興趣度度量指標(biāo)和相關(guān)的領(lǐng)域知識(shí)來(lái)篩選,才能從中找到真正新穎的、有意義的規(guī)則。
網(wǎng)絡(luò)分析(汪小帆等, 2006),也稱(chēng)為社交網(wǎng)絡(luò)分析、復(fù)雜網(wǎng)絡(luò)分析,是當(dāng)前數(shù)據(jù)科學(xué)、復(fù)雜科學(xué)以及物理學(xué)等學(xué)科當(dāng)中的研究熱點(diǎn),在大數(shù)據(jù)挖掘和數(shù)據(jù)可視化中有廣泛的應(yīng)用。它是通過(guò)一系列的節(jié)點(diǎn)和連邊來(lái)構(gòu)建網(wǎng)絡(luò)圖,利用圖來(lái)可視化展示和分析事物個(gè)體之間關(guān)系的方法,可以為一個(gè)集合中要素之間復(fù)雜的關(guān)系提供直觀的可視化,從而發(fā)現(xiàn)復(fù)雜群體中個(gè)體之間的關(guān)系,發(fā)現(xiàn)復(fù)雜群體結(jié)構(gòu)中隱含的有趣模式和社團(tuán)結(jié)構(gòu)。
社團(tuán)結(jié)構(gòu)挖掘(也稱(chēng)為社團(tuán)檢測(cè)或社團(tuán)發(fā)現(xiàn))是網(wǎng)絡(luò)分析的一個(gè)重要應(yīng)用,是一種在網(wǎng)絡(luò)中找出關(guān)系密切結(jié)點(diǎn)集合(社團(tuán))的技術(shù)。社團(tuán)檢測(cè)算法可以把網(wǎng)絡(luò)分割為多個(gè)子集團(tuán),集團(tuán)內(nèi)的連邊較多,內(nèi)部結(jié)構(gòu)致密;而集團(tuán)與集團(tuán)之間連邊較少,結(jié)構(gòu)松散。一般把分割出的集團(tuán)稱(chēng)為社團(tuán),同一社團(tuán)內(nèi)的節(jié)點(diǎn)之間關(guān)系緊密。常用的社團(tuán)檢測(cè)算法有Louvain(Blondeletal., 2008)、Infomap(Rosvall and Bergstrom, 2008)、標(biāo)簽傳播(Zhu and Ghahramani, 2002)等。本文所采用的社團(tuán)檢測(cè)算法是Infomap算法。
Infomap算法(基于節(jié)點(diǎn)鏈接關(guān)系隨機(jī)游走的社團(tuán)檢測(cè)算法)是一種基于信息論的網(wǎng)絡(luò)聚類(lèi)算法,該算法將尋找圖的最優(yōu)聚類(lèi)問(wèn)題描述為尋找圖上隨機(jī)游走的最小信息的描述問(wèn)題,通過(guò)最小化成本函數(shù)來(lái)找到一個(gè)可接受的最優(yōu)解的近似值,從而分割網(wǎng)絡(luò),得到社團(tuán)。
本文網(wǎng)絡(luò)分析和社團(tuán)檢測(cè)所用的軟件為Gephi(Bastianetal., 2009)和R語(yǔ)言的igraph包(Csardi and Nepusz, 2006),頻繁模式和關(guān)聯(lián)規(guī)則挖掘使用R語(yǔ)言的arules包(Hahsleretal., 2018)。
數(shù)據(jù)來(lái)源于美國(guó)地質(zhì)調(diào)查局(USGS)網(wǎng)站公開(kāi)發(fā)布的全球礦產(chǎn)資源數(shù)據(jù)系統(tǒng)-MRDS(https://mrdata.usgs.gov/mrds/)。MRDS數(shù)據(jù)系統(tǒng)所收錄的數(shù)據(jù)來(lái)自于世界各地,包括金屬和非金屬礦產(chǎn)數(shù)據(jù),數(shù)據(jù)集不斷更新,目前共包含304 633條數(shù)據(jù)。其中描述的內(nèi)容包括所收集的礦床(點(diǎn))數(shù)據(jù)的位置、產(chǎn)出礦產(chǎn)類(lèi)型、礦物組成、賦礦圍巖等基本信息。本文關(guān)注的是每條數(shù)據(jù)中礦石的礦物組成,包括礦石礦物和脈石礦物,將脈石礦物和礦石礦物合并起來(lái),代表礦石的每條數(shù)據(jù)中的礦物組成。這些數(shù)據(jù)來(lái)源復(fù)雜,數(shù)據(jù)質(zhì)量不一,因此,為了提高關(guān)聯(lián)規(guī)則挖掘的準(zhǔn)確性,要對(duì)這些數(shù)據(jù)進(jìn)行數(shù)據(jù)預(yù)處理,剔除錯(cuò)誤數(shù)據(jù)、冗余數(shù)據(jù)、無(wú)效數(shù)據(jù)。
(1) 從MRDS數(shù)據(jù)庫(kù)中提取其中的礦石礦物和脈石礦物數(shù)據(jù),將二者合并得到礦石礦物成分?jǐn)?shù)據(jù),如表1。
表 1 礦物組成數(shù)據(jù)示例Table 1 Example of mineral composition data
(2)本文不探討能源、建材類(lèi)的礦產(chǎn),因此,對(duì)于原始數(shù)據(jù)中的這類(lèi)數(shù)據(jù)進(jìn)行篩選剔除,剩下181 003條數(shù)據(jù)。
(3)對(duì)這些數(shù)據(jù)中存在礦物名稱(chēng)錯(cuò)誤的、只有單個(gè)礦物的、不是礦物的詞組混進(jìn)礦物組成數(shù)據(jù)的等等各種錯(cuò)誤的礦物組成數(shù)據(jù)進(jìn)行剔除。
(4)對(duì)數(shù)據(jù)中的標(biāo)點(diǎn)符號(hào)進(jìn)行替換處理,形成詞組,方便算法進(jìn)行處理。
(5)將以上處理過(guò)的數(shù)據(jù)轉(zhuǎn)換為逗號(hào)分隔的txt文件,作為大數(shù)據(jù)挖掘的輸入數(shù)據(jù)。
對(duì)經(jīng)過(guò)預(yù)處理的數(shù)據(jù)進(jìn)行了詞頻統(tǒng)計(jì),結(jié)果顯示預(yù)處理之后的數(shù)據(jù)集中囊括的礦物共包括652種,其分布呈現(xiàn)出指數(shù)分布規(guī)律(圖1,圖中橫坐標(biāo)是按照數(shù)據(jù)庫(kù)中的礦物統(tǒng)計(jì)頻次排名的名次,縱坐標(biāo)為出現(xiàn)次數(shù)),說(shuō)明少數(shù)礦物在各類(lèi)巖石礦石中廣泛存在(如石英),大部分礦物則只出現(xiàn)在特定的巖石和礦石中,分布比較局限和稀少。為便于從整體上觀察數(shù)據(jù)集當(dāng)中的礦物分布情況,對(duì)詞頻統(tǒng)計(jì)結(jié)果可視化就得到了詞云圖(圖2)。詞云圖中字體越大代表出現(xiàn)在各種礦石中的頻次越多。從圖2中可以看出,詞云圖基本符合了我們對(duì)于金屬礦床主要礦物組合的認(rèn)識(shí),最多出現(xiàn)的是石英,其次是自然金、黃鐵礦、黃銅礦、方鉛礦等等,比較罕見(jiàn)的礦物出現(xiàn)的頻次較低,在詞云圖中不顯著。
圖 1 礦物出現(xiàn)頻次統(tǒng)計(jì)Fig. 1 Frequency of minerals in ores
圖 2 詞云圖Fig. 2 Word cloud
通過(guò)R語(yǔ)言的arules包來(lái)進(jìn)行頻繁模式和關(guān)聯(lián)規(guī)則挖掘,主要用到兩個(gè)函數(shù)eclet和aporior。前者用來(lái)找出頻繁項(xiàng)集,后者用來(lái)找出關(guān)聯(lián)規(guī)則。表2列出了出現(xiàn)頻次排名前15的頻繁項(xiàng)集。
從表2可以看出,出現(xiàn)次數(shù)較多的礦物組合基本都是由黃鐵礦、黃銅礦、閃鋅礦、方鉛礦、石英、方解石這幾種礦物中的幾個(gè)組合而成。這幾種礦物在大多數(shù)金屬礦床中都是主要的組成礦物,且往往都是以礦物組合的方式出現(xiàn)的,這與金屬礦床的礦物組成規(guī)律是相符的。
僅僅通過(guò)頻繁模式,只能找出所有礦物組合當(dāng)中頻繁出現(xiàn)的那些,這樣得到的只是一些礦物組合。而通過(guò)關(guān)聯(lián)規(guī)則,則可以找到礦物組合規(guī)則。這里的規(guī)則,指的是一種if?then形式的推導(dǎo)規(guī)則,即如果一個(gè)礦石中出現(xiàn)A礦物,那么有多大可能性也出現(xiàn)B礦物。這種規(guī)則相比于前面的礦物組合更有意義,更實(shí)用。
表 2 頻繁模式排序列表Table 2 Frequent items sorted by support
這里的關(guān)聯(lián)規(guī)則挖掘使用aporior函數(shù),設(shè)置參數(shù)為:最小支持度0.001,最小置信度0.75,最小規(guī)則長(zhǎng)度2,最大規(guī)則長(zhǎng)度5。計(jì)算結(jié)果顯示,共找到6 728條規(guī)則。如此多的規(guī)則,如果逐個(gè)檢查找出有用規(guī)則,工作量會(huì)非常大,因此要利用興趣度度量指標(biāo),結(jié)合地質(zhì)學(xué)知識(shí)去篩選出有用的規(guī)則。這里我們主要用支持度、置信度、提升度、奇異率幾個(gè)指標(biāo)來(lái)對(duì)規(guī)則進(jìn)行排序和篩選,先按照提升度進(jìn)行排序,選擇排序靠前且有地質(zhì)意義的規(guī)則若干,結(jié)果見(jiàn)表3。
從表3中可以看出,{雌黃}?{雄黃}這條規(guī)則的提升度最大,是一條強(qiáng)關(guān)聯(lián)規(guī)則,說(shuō)明雌黃和雄黃存在很強(qiáng)的共生關(guān)系,這與人們通常的認(rèn)識(shí)是一致的。還有{綠纖石}?{綠簾石}等等規(guī)則,也符合自然界當(dāng)中礦物的共伴生規(guī)律。這說(shuō)明通過(guò)關(guān)聯(lián)規(guī)則算法提取出的規(guī)則經(jīng)過(guò)興趣度篩選,能夠找出有用的礦物共伴生規(guī)律。
另外按照另一個(gè)重要的綜合性指標(biāo)——奇異率進(jìn)行了排序,選擇一部分奇異率大且有地質(zhì)意義的規(guī)則,結(jié)果見(jiàn)表4。表4中的很多規(guī)則,也同時(shí)出現(xiàn)在表3中,這說(shuō)明較強(qiáng)的關(guān)聯(lián)規(guī)則在提升度和奇異率兩種興趣度度量指標(biāo)上都得分較高。在選擇有用關(guān)聯(lián)規(guī)則的時(shí)候,可以結(jié)合多種興趣度度量指標(biāo)以及實(shí)際地質(zhì)規(guī)律進(jìn)行篩選。
表 3 據(jù)提升度排序篩選的規(guī)則列表Table 3 Rules sorted by lift
表 4 根據(jù)奇異率排序篩選的規(guī)則列表Table 4 Rules sorted by odd sratio
由上可見(jiàn),通過(guò)關(guān)聯(lián)規(guī)則挖掘篩選出來(lái)的規(guī)則符合礦物學(xué)規(guī)律,反映了礦物共伴生的客觀規(guī)律。比如常見(jiàn)的{雌黃?雄黃}、{水銀?辰砂}這些規(guī)則已廣為人們熟知,但除了這些廣為人們熟知的規(guī)則之外,還有很多有用的規(guī)則,限于篇幅只在本文列出了其中興趣度較大的一部分。這些規(guī)則對(duì)于認(rèn)識(shí)礦物的共伴生規(guī)律很有意義,可以用來(lái)指導(dǎo)尋找特定的礦產(chǎn)資源。如{赤鐵礦,黑硬綠泥石}?{菱鐵礦}這條規(guī)則,當(dāng)在巖石中看到赤鐵礦和黑硬綠泥石的時(shí)候,就說(shuō)明找到菱鐵礦的可能性很大,通過(guò)這條規(guī)則可以幫助尋找菱鐵礦。
通過(guò)經(jīng)驗(yàn)總結(jié)出的礦物共伴生規(guī)律是定性的規(guī)律總結(jié),而通過(guò)關(guān)聯(lián)規(guī)則挖掘出的共伴生規(guī)則,則是一種定量化的規(guī)則,通過(guò)興趣度度量指標(biāo)能夠定量地表征規(guī)則的強(qiáng)弱。經(jīng)驗(yàn)總結(jié)的礦物共生規(guī)則只是一個(gè)礦物共生集合,但基于關(guān)聯(lián)規(guī)則找出的規(guī)則,則是一種推理規(guī)則,能夠根據(jù)規(guī)則前件推導(dǎo)出規(guī)則后件。總的來(lái)說(shuō),基于關(guān)聯(lián)規(guī)則從礦石礦物組分大數(shù)據(jù)中挖掘出的規(guī)則更加定量化和精細(xì)化。
構(gòu)建網(wǎng)絡(luò)的基本要素是節(jié)點(diǎn)和邊。在礦石礦物網(wǎng)絡(luò)分析當(dāng)中,網(wǎng)絡(luò)的節(jié)點(diǎn)為單個(gè)礦物類(lèi)型,網(wǎng)絡(luò)的邊則為礦物兩兩之間的關(guān)聯(lián)指標(biāo),在這里用前面關(guān)聯(lián)規(guī)則中計(jì)算的提升度作為關(guān)聯(lián)性度量指標(biāo)。具體構(gòu)建網(wǎng)絡(luò)的方法為:利用關(guān)聯(lián)規(guī)則算法找出所有長(zhǎng)度為2的規(guī)則,剔除掉這些規(guī)則當(dāng)中支持度太小的(支持度太小說(shuō)明這些規(guī)則不具有普遍意義),利用這些規(guī)則的提升度作為網(wǎng)絡(luò)圖連邊的權(quán)重來(lái)構(gòu)建網(wǎng)絡(luò),最終得到一個(gè)由315個(gè)節(jié)點(diǎn)和8 872條邊構(gòu)成的復(fù)雜網(wǎng)絡(luò)。為了突出重要關(guān)聯(lián),對(duì)網(wǎng)絡(luò)的邊利用邊權(quán)重設(shè)置閾值進(jìn)行過(guò)濾,得到一個(gè)簡(jiǎn)化的網(wǎng)絡(luò)。之后利用ForceAtlas2力導(dǎo)向算法(Jacomyetal., 2014)重構(gòu)網(wǎng)絡(luò)布局,該算法可以根據(jù)網(wǎng)絡(luò)節(jié)點(diǎn)屬性和邊的權(quán)重調(diào)整網(wǎng)絡(luò)結(jié)構(gòu),使得相互關(guān)系較近的節(jié)點(diǎn)彼此靠近,關(guān)系疏遠(yuǎn)的節(jié)點(diǎn)相互疏遠(yuǎn),從而對(duì)網(wǎng)絡(luò)中節(jié)點(diǎn)之間的關(guān)系進(jìn)行可視化,結(jié)果如圖3所示(因要素太多,圖中僅展示局部)。
通過(guò)上面構(gòu)建的網(wǎng)絡(luò)圖可以對(duì)礦石中主要成分礦物之間的關(guān)系進(jìn)行可視化。這些礦物節(jié)點(diǎn)在網(wǎng)絡(luò)中的聚集分散模式在一定程度反映了自然界中礦物之間的相似性和共伴生規(guī)律。比如正長(zhǎng)石、奧長(zhǎng)石、微斜長(zhǎng)石3種礦物差別小,相似度高,在網(wǎng)絡(luò)圖(圖3)中彼此靠近。再比如伊利石、蒙脫石、高嶺石均屬于粘土礦物,經(jīng)常共生在一起,因此在網(wǎng)絡(luò)圖(圖3)中彼此靠近。橄欖石與高嶺石等粘土礦物相似度低,不存在共伴生關(guān)系,所以在網(wǎng)絡(luò)圖中相距較遠(yuǎn)。礦物在網(wǎng)絡(luò)圖上的這種親疏模式,主要受它們的成因、晶體結(jié)構(gòu)類(lèi)型、化學(xué)成分、礦物形成條件等的控制。
從網(wǎng)絡(luò)圖中還可以看出其中存在明顯的社團(tuán)結(jié)構(gòu),特定的礦物傾向于聚集在一起形成社團(tuán)(即那些局部緊密連接的區(qū)域),如圖3b中的{鋁土礦、三水鋁石、一水軟鋁石、銳鈦礦}這個(gè)礦物組合社團(tuán)。同一社團(tuán)內(nèi)的礦物距離較近,連邊較密集,相比于社團(tuán)外的礦物具有更密切的聯(lián)系;不同的社團(tuán)之間則彼此距離較遠(yuǎn),連邊稀疏,聯(lián)系不密切。這些社團(tuán)不是隨機(jī)組合的,每個(gè)社團(tuán)內(nèi)部的礦物成員具有一定的相似性和共性,代表特定的礦物組合。
雖然從網(wǎng)絡(luò)圖中能夠直觀看到存在社團(tuán)結(jié)構(gòu),但僅通過(guò)觀察網(wǎng)絡(luò)去發(fā)現(xiàn)社團(tuán)效率很低,難以處理較復(fù)雜的網(wǎng)絡(luò),而且不夠準(zhǔn)確。為了更好地找出網(wǎng)絡(luò)中的社團(tuán),利用前文提到的Infomap算法對(duì)前面構(gòu)建的網(wǎng)絡(luò)進(jìn)行社團(tuán)檢測(cè),得到的典型社團(tuán)如表5所示。Infomap算法屬于聚類(lèi)算法,其結(jié)果可用聚類(lèi)譜系圖的形式來(lái)可視化(圖4)。本文涉及的礦物多,限于篇幅,表5和圖4中僅展示了部分結(jié)果。
從表5和圖4中可以看出,這些社團(tuán)反映了自然界中礦物之間的相似性和共伴生關(guān)系。同一個(gè)社團(tuán)內(nèi)的礦物往往具有共同的成因(比如鋁土礦中的主要含鋁礦物),或者相近的化學(xué)成分(比如紅柱石、藍(lán)晶石、夕線石),或者相近的形成條件(比如鉀鹽、芒硝、光鹵石、巖鹽等礦物組合),或者屬于同一共伴生組合(比如雌黃、雄黃)。
這里要注意,雖然同一社團(tuán)內(nèi)的礦物之間存在密切聯(lián)系,但一個(gè)礦物社團(tuán)并不一定就是一個(gè)礦物共伴生組合。社團(tuán)結(jié)構(gòu)指的是網(wǎng)絡(luò)中一組連接緊密的節(jié)點(diǎn)所組成的團(tuán)體,社團(tuán)里面的礦物連邊更多,聯(lián)系更密切,但并不是礦物兩兩之間都具有連邊。而共伴生組合其實(shí)表現(xiàn)在網(wǎng)絡(luò)圖中是一個(gè)各個(gè)成員全連接的子網(wǎng)絡(luò)結(jié)構(gòu),即所謂的團(tuán),要求這個(gè)組合中的成員兩兩之間都具有大于閾值權(quán)重的連邊,比如圖3中橄欖石、輝石、尖晶石三者互相連接,形成共生組合。
以上網(wǎng)絡(luò)分析和社團(tuán)挖掘結(jié)果說(shuō)明,通過(guò)網(wǎng)絡(luò)分析可以對(duì)礦石中主要礦物之間的關(guān)系和共伴生規(guī)律進(jìn)行可視化,通過(guò)社團(tuán)檢測(cè)可以找出哪些礦物之間存在密切聯(lián)系。
圖 3 礦石中主要礦物組分構(gòu)成的復(fù)雜網(wǎng)絡(luò)(a)及其網(wǎng)絡(luò)局部放大(b)Fig. 3 Complex network of major mineral components in ore deposit (a) and local enlarging graph (b)
表 5 社團(tuán)檢測(cè)發(fā)現(xiàn)的部分礦物社團(tuán)Table 5 Some mineral communities found by community detection
本文提出了礦石礦物成分共伴生關(guān)系的大數(shù)據(jù)挖掘方法,利用全球礦產(chǎn)資源數(shù)據(jù)系統(tǒng)MRDS進(jìn)行了數(shù)據(jù)挖掘,結(jié)果顯示:
(1) 通過(guò)頻繁模式和關(guān)聯(lián)規(guī)則挖掘可以找出隱藏在礦物成分大數(shù)據(jù)集中的頻繁礦物組合,對(duì)于找礦勘查和認(rèn)識(shí)礦物之間的關(guān)系有積極作用。
(2) 關(guān)聯(lián)規(guī)則是一種有效的離散數(shù)據(jù)知識(shí)發(fā)現(xiàn)方法,其發(fā)現(xiàn)的規(guī)則是一種定量化的推理規(guī)則,通過(guò)興趣度度量指標(biāo)能夠定量地表征規(guī)則的強(qiáng)弱,這種規(guī)則相比于經(jīng)驗(yàn)總結(jié)的規(guī)律更加定量化和精細(xì)化,實(shí)用性更強(qiáng)。
圖 4 礦物關(guān)系譜系圖(部分展示)Fig. 4 Tree diagram of mineral relationship (partial display)
(3) 通過(guò)網(wǎng)絡(luò)分析能夠?qū)ΦV石中主要礦物之間的關(guān)系和共伴生規(guī)律進(jìn)行可視化,再結(jié)合社團(tuán)檢測(cè)可以從礦石礦物數(shù)據(jù)集中發(fā)現(xiàn)存在密切聯(lián)系的礦物社團(tuán)。
(4) 礦物的共伴生組合受成因條件的制約,如果能把形成條件加入到礦物成分大數(shù)據(jù)分析中,應(yīng)該能挖掘出更多的有用規(guī)律,但由于目前沒(méi)有搜集到足夠的數(shù)據(jù),還有待后面進(jìn)一步研究。