秦飛龍 成和平 成亞麗 周昕悅 胡涵勁
摘要:合理的數(shù)學(xué)地質(zhì)方法模型可以預(yù)測(cè)到深部礦產(chǎn)資源富集位置,礦產(chǎn)資源數(shù)據(jù)格式多樣,傳統(tǒng)的方法難以進(jìn)行有效處理,并且處理方式大多基于單機(jī)上進(jìn)行,處理速度慢。因此,建立大數(shù)據(jù)分布式并行化Hadoop平臺(tái),對(duì)實(shí)際礦產(chǎn)資源數(shù)據(jù)進(jìn)行分布式并行化處理,結(jié)果發(fā)現(xiàn)在Hadoop平臺(tái)下不僅能夠完成各類數(shù)據(jù)處理,并且處理速度為單機(jī)串行算法處理速度的2 400倍,提高了數(shù)據(jù)處理有效率,有利于礦產(chǎn)預(yù)測(cè)。
關(guān)鍵詞:Hadoop平臺(tái);并行化;礦產(chǎn)資源;大數(shù)據(jù)
中圖分類號(hào):P628文獻(xiàn)標(biāo)志碼:A
文章編號(hào):2095-5383(2019)04-0050-05
Research on the Parallel Processing of Big Data of
Deep Mineral Resources based on the Hadoop Platform
QIN Feilong, CHEN Heping, CHEN Yali, ZHOU Xinyue, HU Hanjin
(School of Big Data and Artificial Intelligence, Chengdu Technological University, Chengdu 611730, China)
Abstract:The enrichment location of deep mineral resources can be predicted though establishing a reasonable method with mathematical geological method. However, traditional methods are difficult to deal with the data of mineral resources because the formats of it are various. Besides, the processing methods are mostly based on single computer, which results in slow processing speed. Therefore, a big data platform named Hadoop platform which has the distributed and parallel processing functions was established in this paper. At lastly, the platform was used for the actual data of mineral resources, and the results show that the platform not only can process the different types of data, but also the processing speed is 2 400 times faster than the serial algorithm in single-computer. So, the platform can improve the efficiency of data processing, which is advantageous to mineral prediction.
Keywords:Hadoop platform; parallelization; mineral resources; big data
礦產(chǎn)是國家向前發(fā)展的重要能源基礎(chǔ)。然而,隨著人們對(duì)礦產(chǎn)資源不斷開采、過度索取,地球表面及淺部礦產(chǎn)將近枯竭,以至人們?cè)絹碓诫y以發(fā)現(xiàn)礦產(chǎn)、識(shí)別礦產(chǎn)、利用礦產(chǎn),礦產(chǎn)勘探面臨“三難”問題[1]。向地球第二空間(地球表面500 m以下)尋求深部礦產(chǎn)已成為目前找礦的熱點(diǎn)[2]。近年來人們不斷進(jìn)行深部礦產(chǎn)預(yù)測(cè)研究以此誕生了眾多找礦方法,主要集中為地球化學(xué)找礦方法[3-4]、地球物理找礦方法[5-6]、遙感技術(shù)找礦方法[7-8]。這些成果的不斷積累,為我國預(yù)測(cè)深部盲礦提供了寶貴經(jīng)驗(yàn)。然而礦產(chǎn)資源成礦極具復(fù)雜性,應(yīng)用各種方法預(yù)測(cè)礦產(chǎn)資源時(shí),依據(jù)的地質(zhì)數(shù)據(jù)量較大,數(shù)據(jù)種類繁多,如非結(jié)構(gòu)化數(shù)據(jù)、結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)等[9],難以進(jìn)行統(tǒng)一處理,即使能處理,處理速度慢,效率也極低[10],從而需要對(duì)各類型地質(zhì)數(shù)據(jù)進(jìn)行分布式并行化處理,基于地質(zhì)大數(shù)據(jù)的高性能并行計(jì)算平臺(tái)能夠以高擴(kuò)展性、高容錯(cuò)性、高效性、高可靠性地完成數(shù)據(jù)的處理和分析,尤其是分布式Hadoop平臺(tái)能夠讓用戶輕松架構(gòu)和使用,對(duì)不同類型的地質(zhì)大數(shù)據(jù)數(shù)進(jìn)行高效化,分布式處理、有效解決上述問題[11]。本文以礦產(chǎn)資源數(shù)據(jù)為背景,構(gòu)建礦產(chǎn)資源大數(shù)據(jù)分布式并行化平臺(tái),進(jìn)行礦產(chǎn)資源數(shù)據(jù)處理。
1 礦產(chǎn)資源大數(shù)據(jù)Hadoop平臺(tái)
Hadoop是Aapche公司為大數(shù)處理設(shè)計(jì)的一個(gè)開源項(xiàng)目,具有分布大數(shù)據(jù)并行式計(jì)算,大數(shù)據(jù)分布式存儲(chǔ)(數(shù)據(jù)量為GB~PB)、可擴(kuò)展性、高效率、高可靠性等特征[12]。目前,有3種模式進(jìn)行Hadoop平臺(tái)搭建:?jiǎn)螜C(jī)模式,偽分布模式以及全分布模式。單機(jī)用于調(diào)試MapReduce程序,偽分布模式在單機(jī)情況下增加了代碼調(diào)試和HDFS分布存儲(chǔ),全分布模式則通過集群進(jìn)行分布式存儲(chǔ)和高性能并行計(jì)算。結(jié)合礦產(chǎn)資源數(shù)據(jù)屬性,本文設(shè)計(jì)的礦產(chǎn)資源大數(shù)據(jù)Hadoop平臺(tái)主要包括應(yīng)用層、處理層、資源層模塊,見圖1,該平臺(tái)能支持每秒1 000條數(shù)據(jù)插入,支持億條級(jí)數(shù)據(jù)存儲(chǔ)和管理。礦產(chǎn)資源數(shù)據(jù)主要通過MapReduce進(jìn)行高性能并行化計(jì)算,通過HDFS完成分布公式存儲(chǔ)。其中,MapReduce主要有Map和Reduce的兩個(gè)階段工作程序,首先將礦產(chǎn)資源數(shù)分解成若干小塊數(shù)據(jù),對(duì)各小塊數(shù)據(jù)使用Map處理,再對(duì)Map處理的數(shù)據(jù)結(jié)果進(jìn)行歸并,在此基礎(chǔ)上采用Reduce對(duì)歸并后的數(shù)據(jù)進(jìn)行處理,將所得結(jié)果輸出到相應(yīng)目錄文件中。HDFS利用Master/Slave結(jié)構(gòu)形式進(jìn)行數(shù)據(jù)控制,它有多個(gè)數(shù)據(jù)節(jié)點(diǎn)Data Node和共用名字節(jié)點(diǎn)Name Node組成。名字節(jié)點(diǎn)對(duì)數(shù)據(jù)進(jìn)行統(tǒng)一分配,映射各類數(shù)據(jù)到相應(yīng)的數(shù)據(jù)節(jié)點(diǎn)上,可以進(jìn)行打開、創(chuàng)建、重命名、刪除文件等工作,數(shù)據(jù)節(jié)點(diǎn)負(fù)責(zé)處理數(shù)據(jù)的讀寫請(qǐng)求,定時(shí)為名字節(jié)點(diǎn)上報(bào)數(shù)據(jù)。
2 算法并行改造
由于礦產(chǎn)資源數(shù)據(jù)處理算法種類較多,因此本文選取主成分算法進(jìn)行研究[13],其他礦產(chǎn)資源數(shù)據(jù)處理算法作類似處理即可,設(shè)礦產(chǎn)資源原始數(shù)據(jù)X′=(xij)mn,并行化改造步驟如下:
為變量。再將結(jié)果存入文件TF5中進(jìn)行輸出。從而礦產(chǎn)資源數(shù)據(jù)并行化處理手段為:
1)數(shù)據(jù)準(zhǔn)備,不同類型的地質(zhì)數(shù)據(jù)均可接入;
2)數(shù)據(jù)在Hadoop平臺(tái)HDFS下實(shí)施分布式處理,客戶端對(duì)Name Node發(fā)出數(shù)據(jù)寫入的要求,并將數(shù)據(jù)分解為多個(gè)小塊,依次將各小塊數(shù)據(jù)分配到各個(gè)數(shù)據(jù)節(jié)點(diǎn)Data Node中;
3)在各個(gè)節(jié)點(diǎn)Data Node上,用戶編寫Map數(shù)據(jù)處理算法函數(shù),并確定運(yùn)行的相關(guān)參數(shù),輸入和輸出的路徑,并將目標(biāo)數(shù)據(jù)分解為大小相等的若干小塊,方便多個(gè)Map同時(shí)操作,各個(gè)Map函數(shù)處理一個(gè)節(jié)點(diǎn)Data Node上的數(shù)據(jù)。數(shù)據(jù)的輸入和輸出將存儲(chǔ)在文件系統(tǒng)中;
4)Map函數(shù)對(duì)輸入的數(shù)據(jù)
5)客戶端再對(duì)HDFS上的Name Node發(fā)起數(shù)據(jù)讀取的請(qǐng)求,從而Name Node將存儲(chǔ)的數(shù)據(jù)信息返回給客戶端,進(jìn)而讀取Name Node上的數(shù)據(jù),流程詳見圖2。
3 實(shí)際數(shù)據(jù)處理
為體現(xiàn)設(shè)計(jì)的礦產(chǎn)資源大數(shù)據(jù)分布式并行化Hadoop平臺(tái)處理效果,將其進(jìn)行數(shù)據(jù)處理研究。數(shù)據(jù)來源于湖北省大冶市銅綠山20萬水系數(shù)據(jù),選取其中的Au、Ag、Cu
元素含量進(jìn)行主成分析研究,主成分可以提取地質(zhì)變量的綜合信息,有利于地質(zhì)評(píng)價(jià)。通過大數(shù)據(jù)平臺(tái)計(jì)算得出元素的主成分結(jié)果如表1所示,特征向量見式(3)。
由表1可知,前2個(gè)主成分的特征值累計(jì)貢獻(xiàn)率為0.90>0.85,從而選取前兩個(gè)主成分就能滿足要求。通過式(3)可以評(píng)價(jià)出第一主成分Ag、Cu
利用分形算法[14-15]結(jié)合Hadoop平臺(tái)得出
Au、Ag、Cu 3種元素異常下限值分別4.50、44.73、30.86,從而得出
元素含量異常分帶(見圖3)和第一,二主成分綜合異常分帶(見圖4)。由圖3、圖4可知,第一主成分異常分帶區(qū)域綜合反映了單元素異常含量分帶區(qū)域,第二主成分異常分帶區(qū)域綜合反映了單元素異常含量分帶區(qū)域,與主成分評(píng)價(jià)結(jié)果吻合,從而設(shè)計(jì)的大數(shù)據(jù)礦產(chǎn)數(shù)據(jù)處理平臺(tái)具有合理性。
將礦產(chǎn)資源大數(shù)據(jù)分布式并行化Hadoop平臺(tái)與單機(jī)串行處理時(shí)間進(jìn)行加速比對(duì)比分析(加速比指的是大數(shù)據(jù)平臺(tái)處理相同數(shù)據(jù)與單機(jī)串行處理形同數(shù)據(jù)所用時(shí)間比),隨著數(shù)據(jù)量越大,平臺(tái)處理速度較串行處理速度越快,當(dāng)數(shù)據(jù)量達(dá)到20萬個(gè)數(shù)據(jù)時(shí),處理速度為串行的2 400倍,見圖5。
4 結(jié)論
本文以礦產(chǎn)資源數(shù)據(jù)為背景設(shè)計(jì)了礦產(chǎn)資源大數(shù)據(jù)分布式并行化Hadoop平臺(tái),具有如下結(jié)論:
1)設(shè)計(jì)了深部礦產(chǎn)資源大數(shù)據(jù)分布式并行化Hadoop平臺(tái),并在平臺(tái)中將礦產(chǎn)資源處理算法進(jìn)行并行化改造,具有國內(nèi)先進(jìn)處理水平;
2)大數(shù)據(jù)平臺(tái)對(duì)實(shí)際礦產(chǎn)資源數(shù)據(jù)能夠進(jìn)行合理處理,利用分形算法和主成分方法提取的綜合異常區(qū)域與主成分評(píng)價(jià)結(jié)果完全吻合;
3)大數(shù)據(jù)并行化處理平臺(tái)比單機(jī)串行處理礦產(chǎn)資源數(shù)據(jù)速度更快,數(shù)據(jù)越大,效率越高,當(dāng)數(shù)據(jù)量達(dá)到20萬時(shí),處理速度是單機(jī)的2 400倍。
參考文獻(xiàn):
[1]趙鵬大. 成礦定量預(yù)測(cè)與深部找礦[J]. 地學(xué)前緣, 2007, 14(5): 1-10.
[2]秦飛龍. 原生暈地球化學(xué)和巖心高光譜粗糙集耦合建模與深部礦產(chǎn)預(yù)測(cè)研究[D]. 成都: 成都理工大學(xué), 2017.
[3]CHENG Q M. Singularity analysis of magmatic flare-ups caused by India-Asia collisions? [J].Journal of? Geochemical Exploration, 2018, 189: 25-31.
[4]QIN F L, LIU B L, GUO K. Using EVT for geological anomaly design and its application in identifying anomalies in mining areas [J]. Mathematical Problems in Engineering, 2016: 1-11.
[5]QIN F L, LIU J, YAN W Y. The improved ICA algorithm and its application in the seismic data denoising [J]. Journal of Chongqing University (English Edition), 2018, 17(4): 162-170.
[6]李玉錄, 邢利娟, 拜占紅, 等. 綜合物探方法在青海省躍進(jìn)山鐵礦勘查中的應(yīng)用[J]. 物探與化探, 2018, 42(5): 889-895.
[7]劉原麟, 馬嘉翌, 潘蔚. 高光譜巖心掃描數(shù)據(jù)庫及其應(yīng)用軟件的設(shè)計(jì)與實(shí)現(xiàn)[J]. 鈾礦地質(zhì), 2018, 34(3): 186-192.
[8]盧燕. 高光譜礦物填圖技術(shù)在金屬礦產(chǎn)和油氣勘查中的應(yīng)用研究[D]. 北京: 中國地質(zhì)大學(xué), 2018.
[9]吳永亮, 賈志杰, 陳建平. 基于大數(shù)據(jù)智能的找礦模型構(gòu)建與預(yù)測(cè)[J]. 中國礦業(yè), 2017, 26(9): 79-84.
[10]王亮. 地質(zhì)調(diào)查信息化中大數(shù)據(jù)平臺(tái)研究[D]. 武漢: 長(zhǎng)江大學(xué), 2014.
[11]任曉霞, 喻孟良, 張鳴之, 等. 基于Hadoop分布式系統(tǒng)的地質(zhì)環(huán)境大數(shù)據(jù)框架探討[J]. 中國地質(zhì)災(zāi)害與防治學(xué)報(bào), 2018, 29(1): 130-134,142.
[12]何迪. 基于Hadoop的大數(shù)據(jù)網(wǎng)絡(luò)安全實(shí)體識(shí)別方法[J]. 電子技術(shù)與軟件工程, 2019(5): 204.
[13]朱家明, 程倩倩, 朱海龍. 基于主成分分析法土地儲(chǔ)備風(fēng)險(xiǎn)的定量評(píng)估[J]. 成都工業(yè)學(xué)院學(xué)報(bào), 2015, 18(1): 22-25.
[14]秦飛龍, 劉劍, 李琦, 等. 分線性方法C-A在地球化學(xué)異常提取中的研究[J].云南化工, 2018, 45(2): 84-85.
[15]秦飛龍, 王茜. 多種地球化學(xué)異常算法對(duì)比研究及其應(yīng)用[J]. 科技展望, 2016, 26(24): 178.
收稿日期:2019-04-20
基金項(xiàng)目:四川省科技廳計(jì)劃項(xiàng)目(2019YJ0375);成都工業(yè)學(xué)院博士基金項(xiàng)目(2018RC022);數(shù)學(xué)地質(zhì)四川省重點(diǎn)實(shí)驗(yàn)室開放基金資助項(xiàng)目(scsxdz2018yb03);成都工業(yè)學(xué)院實(shí)驗(yàn)室開放基金項(xiàng)目(2018ZH10)
第一作者簡(jiǎn)介:秦飛龍(1983—),男,講師,博士,研究方向:數(shù)學(xué)地質(zhì)。
通信作者簡(jiǎn)介:成和平(1964—),男,教授,碩士,研究方向:應(yīng)用數(shù)學(xué),電子郵箱:820948193@qq.com。