汪 濤
(甘肅省地質(zhì)礦產(chǎn)勘查開發(fā)局水文地質(zhì)工程地質(zhì)勘察院,甘肅 張掖 734000)
大數(shù)據(jù)是在二十世紀(jì)八十年代由全球知名咨詢公司麥肯錫在研究報告中首次提出,在該研究報告中定義大數(shù)據(jù)為通過網(wǎng)絡(luò)技術(shù)對數(shù)據(jù)進(jìn)行獲取、處理、分析,從中提取到海量的有價值的交易數(shù)據(jù)或傳感數(shù)據(jù)[1]。
麥肯錫在研究報告中指出,大數(shù)據(jù)已經(jīng)滲透到各行各業(yè)中,逐漸成為重要的生產(chǎn)因素,預(yù)示大數(shù)據(jù)時代即將到來。隨著網(wǎng)絡(luò)技術(shù)的快速發(fā)展,大數(shù)據(jù)技術(shù)正在逐漸成熟,國內(nèi)外相關(guān)研究中又對大數(shù)據(jù)有了新的定義,是從大量的網(wǎng)絡(luò)數(shù)據(jù)中提取出有用的數(shù)據(jù)進(jìn)行處理,并且提取到的數(shù)據(jù)具有一定的關(guān)聯(lián)關(guān)系和分析價值。
大數(shù)據(jù)因具有處理效率快、存儲安全性高、分析精度高等優(yōu)點,已經(jīng)被廣泛應(yīng)用到各個領(lǐng)域中,其中就包括地質(zhì)礦產(chǎn)。大數(shù)據(jù)在地質(zhì)礦產(chǎn)中的應(yīng)用,有效提高了地質(zhì)礦產(chǎn)勘查數(shù)字化水平,使地質(zhì)礦產(chǎn)行業(yè)邁向了一個新的階段,為此提出大數(shù)據(jù)在地質(zhì)礦產(chǎn)中的應(yīng)用探究。
地質(zhì)礦產(chǎn)勘查從數(shù)據(jù)化到信息化轉(zhuǎn)變的過程,離不開數(shù)據(jù)處理、存儲、分析,本文主要對大數(shù)據(jù)在地質(zhì)礦產(chǎn)數(shù)據(jù)處理、存儲及分析三方面的應(yīng)用進(jìn)行詳細(xì)研究。
圖1 基于大數(shù)據(jù)的地質(zhì)礦產(chǎn)數(shù)據(jù)清洗路徑圖
大數(shù)據(jù)對礦產(chǎn)地質(zhì)數(shù)據(jù)處理主要分為數(shù)據(jù)清洗、數(shù)據(jù)降維兩部分,其中大數(shù)據(jù)技術(shù)對地質(zhì)礦產(chǎn)數(shù)據(jù)清洗主要體現(xiàn)在以下兩個方面:一是利用大數(shù)據(jù)技術(shù)檢查并消除異常數(shù)據(jù);二是利用大數(shù)據(jù)技術(shù)檢查并消除比較相似的數(shù)據(jù)。大數(shù)據(jù)對于地質(zhì)礦產(chǎn)數(shù)據(jù)清洗處理過程如下:首先將地質(zhì)礦產(chǎn)數(shù)據(jù)導(dǎo)入到大數(shù)據(jù)處理工具中,如果地質(zhì)礦產(chǎn)數(shù)量達(dá)到千萬級以上,可以使用大數(shù)據(jù)處理軟件中的Python操作處理。在Python操作界面中可以觀察到元數(shù)據(jù)屬性,查看到格式、內(nèi)容、邏輯錯誤的數(shù)據(jù)。對于該類數(shù)據(jù)清洗處理的方式有兩種,一種是直接將其刪除,另一種是對其進(jìn)行修改。兩種處理方法應(yīng)當(dāng)根據(jù)數(shù)據(jù)的重要性進(jìn)行選擇,如果出現(xiàn)錯誤的地質(zhì)礦產(chǎn)數(shù)據(jù)對后續(xù)地質(zhì)礦產(chǎn)分析不造成影響,可以選擇第一種;如果出現(xiàn)錯誤的地質(zhì)礦產(chǎn)數(shù)據(jù)對后續(xù)地質(zhì)礦產(chǎn)分析結(jié)果造成直接影響,選擇第二種處理方式,采用插補的方式對殘缺和錯誤的數(shù)據(jù)進(jìn)行補全完整,選取與殘缺數(shù)據(jù)相同屬性的一組數(shù)據(jù),計算出該組數(shù)據(jù)的均值、眾數(shù)以及中間數(shù),然后使用該屬性的計算值對殘缺數(shù)據(jù)進(jìn)行插補,圖1為基于大數(shù)據(jù)的地質(zhì)礦產(chǎn)數(shù)據(jù)清洗路徑圖。
對于清洗過后的地質(zhì)礦產(chǎn)數(shù)據(jù)還需要利用大數(shù)據(jù)技術(shù)對其進(jìn)行降維處理,降維處理的目的是為了簡化地質(zhì)礦產(chǎn)數(shù)據(jù)屬性,為后續(xù)地質(zhì)礦產(chǎn)數(shù)據(jù)存儲提供方便。大數(shù)據(jù)技術(shù)對地質(zhì)礦產(chǎn)數(shù)據(jù)降維處理具體操作為:首先將一個大型地質(zhì)礦產(chǎn)數(shù)據(jù)集劃分為多個不同的小數(shù)據(jù)集,然后建立一個目標(biāo)數(shù)據(jù)特征子集模型,假設(shè)地質(zhì)礦產(chǎn)數(shù)據(jù)中包含了F個特征信息,通過特征選擇選出H個最具有代表性的特征構(gòu)成新的特征矢量D,在進(jìn)行特征選擇的過程中,不會丟失掉單個重要信息的特征,但若需要較小一部分的特征子集,且在原始的地質(zhì)礦產(chǎn)數(shù)據(jù)特征又不相同的情況下,應(yīng)當(dāng)選擇不會造成信息丟失的特征[2]。為了避免地質(zhì)礦產(chǎn)數(shù)據(jù)在降維處理過程中丟失,當(dāng)原始的地質(zhì)礦產(chǎn)數(shù)據(jù)特征不相同時,需要利用大數(shù)據(jù)特征提取技術(shù)進(jìn)行降維處理,大數(shù)據(jù)特征提取是利用映射函數(shù)將特征從原始的數(shù)據(jù)空間映射到新的特征子空間當(dāng)中。提取的特征矢量可表示為K,K經(jīng)過變換函數(shù)變換降維后得到新的特征矢量。特征提取能夠在不丟失原始數(shù)據(jù)特征空間信息的情況下,減小原始大數(shù)據(jù)特征空間的規(guī)模,從而達(dá)到降低特征維度的目的。當(dāng)利用大數(shù)據(jù)技術(shù)對復(fù)雜屬性地質(zhì)礦產(chǎn)數(shù)據(jù)進(jìn)行降維處理時,要根據(jù)地質(zhì)礦產(chǎn)數(shù)據(jù)的特征選用適當(dāng)?shù)姆椒?,若地質(zhì)礦產(chǎn)數(shù)據(jù)中的特征是相互獨立的個體,則選用大數(shù)據(jù)特征選擇技術(shù)更加方便快捷;若地質(zhì)礦產(chǎn)數(shù)據(jù)中的特征之間具有關(guān)聯(lián)性、不獨立,則應(yīng)選用大數(shù)據(jù)特征提取技術(shù)對礦山地質(zhì)數(shù)據(jù)進(jìn)行降維處理,通過執(zhí)行特征的函數(shù)變換,消除特征之間的相關(guān)性。在進(jìn)行數(shù)據(jù)降維時也可將兩者綜合利用,首先進(jìn)行特征選擇,將選出的一部分具有代表性的特征施加數(shù)學(xué)映射變換,其次,再將原始數(shù)據(jù)空間映射到新的子空間中,達(dá)到雙重降維處理的效果,完成大數(shù)據(jù)技術(shù)對地質(zhì)礦產(chǎn)數(shù)據(jù)處理。
大數(shù)據(jù)對礦產(chǎn)地質(zhì)數(shù)據(jù)主要采取分類存儲的方式,將處理過后的礦產(chǎn)地質(zhì)數(shù)據(jù)進(jìn)行分類。首先將處理后的地質(zhì)礦產(chǎn)數(shù)據(jù)進(jìn)行排序,對于排序的準(zhǔn)則函數(shù)設(shè)定一個閾值,方便后續(xù)的分類篩查工作。在排列好的地質(zhì)礦產(chǎn)數(shù)據(jù)中,將對應(yīng)的屬性特征集合定義如下:
公式(1)中,D1、D2表示降維處理數(shù)據(jù)的特征矢量值。通過改變設(shè)定的數(shù)據(jù)準(zhǔn)則閾值,篩選出與其相符合的數(shù)據(jù)。然后根據(jù)設(shè)定的判斷閾值對數(shù)據(jù)樣本的特征進(jìn)行合理的排序,并以此作為分類依據(jù),將處理后的地質(zhì)礦產(chǎn)數(shù)據(jù)進(jìn)行分類,將統(tǒng)一屬性的數(shù)據(jù)整合到一個文件中。地質(zhì)礦產(chǎn)數(shù)據(jù)主要分為地質(zhì)礦石數(shù)據(jù)、地質(zhì)化學(xué)數(shù)據(jù)、地質(zhì)三維數(shù)據(jù)、地質(zhì)影像數(shù)據(jù)以及地質(zhì)圖像數(shù)據(jù)五種,將地質(zhì)礦山數(shù)據(jù)文件設(shè)定為CFH類型;將地質(zhì)化學(xué)數(shù)據(jù)設(shè)定為CFHL類型;將地質(zhì)三維數(shù)據(jù)文件類型設(shè)定為DID類型;將地質(zhì)影像數(shù)據(jù)文化類型設(shè)定為SDIR;將地質(zhì)圖像數(shù)據(jù)文件類型設(shè)定為DIDI類型,將分類的數(shù)據(jù)以表格的形式存儲到大數(shù)據(jù)分布式數(shù)據(jù)庫中,下表為基于大數(shù)據(jù)的地質(zhì)礦產(chǎn)數(shù)據(jù)分類存儲表。
表1 基于大數(shù)據(jù)的地質(zhì)礦產(chǎn)數(shù)據(jù)分類存儲表
大數(shù)據(jù)在地質(zhì)礦產(chǎn)數(shù)據(jù)分析中的應(yīng)用,主要利用大數(shù)據(jù)中的三維建模及可視化技術(shù),利用該兩種大數(shù)據(jù)技術(shù)建立地質(zhì)礦產(chǎn)三維可視化模型,并對模型進(jìn)行分析,其過程如下:首先調(diào)取大數(shù)據(jù)分布式數(shù)據(jù)庫中的礦產(chǎn)地質(zhì)三維數(shù)據(jù),運用HIGGV6.4軟件對三維地質(zhì)數(shù)據(jù)進(jìn)行網(wǎng)格化,生成網(wǎng)格化數(shù)據(jù)集,網(wǎng)格化具體過程為:采用自然鄰點法進(jìn)行網(wǎng)格化,步長設(shè)定為250m;當(dāng)網(wǎng)絡(luò)小格數(shù)據(jù)大于或等于2時,用平均值對該小格進(jìn)行賦值;將每個網(wǎng)絡(luò)小格各元素的含量值歸網(wǎng)至該小格中心點處,由此可以得到地質(zhì)礦產(chǎn)三維模型。然后再將地質(zhì)礦石數(shù)據(jù)、地質(zhì)化學(xué)數(shù)據(jù)輸入到建立好的三維模型中,對礦產(chǎn)地質(zhì)數(shù)據(jù)進(jìn)行曲線反演。通常做法是先做已知剖面或剖面已知地段的反演,總結(jié)出反演的原則和方法,再對未知區(qū)域進(jìn)行反演,以此可以清楚的觀看到礦產(chǎn)分布情況、礦床實際情況,推斷出礦產(chǎn)具有分布位置,為后續(xù)礦產(chǎn)開采、確定靶區(qū)提供準(zhǔn)確依據(jù),實現(xiàn)基于大數(shù)據(jù)地質(zhì)礦產(chǎn)數(shù)據(jù)分析,完成大數(shù)據(jù)在地質(zhì)礦產(chǎn)中的應(yīng)用探究。
本文根據(jù)大數(shù)據(jù)在地質(zhì)礦產(chǎn)中應(yīng)用現(xiàn)狀,著重對大數(shù)據(jù)技術(shù)在地質(zhì)礦產(chǎn)數(shù)據(jù)處理、存儲及分析中的應(yīng)用進(jìn)行了詳細(xì)研究,有利于推廣大數(shù)據(jù)技術(shù)在地質(zhì)礦產(chǎn)中的應(yīng)用,提高地質(zhì)礦產(chǎn)勘查數(shù)字化、信息化、智能化水平,為地質(zhì)礦產(chǎn)勘查技術(shù)及方法創(chuàng)新和開采提供理論依據(jù),并且最重要的是可以促進(jìn)地質(zhì)礦產(chǎn)行業(yè)發(fā)展突破。大數(shù)據(jù)在地質(zhì)礦產(chǎn)領(lǐng)域中的應(yīng)用非常廣泛,不僅僅只包含此次研究的內(nèi)容,在地質(zhì)礦產(chǎn)數(shù)據(jù)采集方面也具有良好的應(yīng)用,今后會對大數(shù)據(jù)在地質(zhì)礦產(chǎn)數(shù)據(jù)采集中的應(yīng)用進(jìn)行探究。