• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      地質(zhì)大數(shù)據(jù)分析與應(yīng)用模式研究

      2016-01-27 05:25:09李朝奎嚴(yán)雯英肖克炎趙亞楠
      地質(zhì)學(xué)刊 2015年3期
      關(guān)鍵詞:數(shù)據(jù)挖掘

      李朝奎, 嚴(yán)雯英, 肖克炎, 趙亞楠

      (1.湖南科技大學(xué)地理空間信息技術(shù)國(guó)家地方聯(lián)合工程實(shí)驗(yàn)室,湖南湘潭411201; 2.中國(guó)地質(zhì)科學(xué)院礦產(chǎn)資源研究所,北京100037)

      地質(zhì)大數(shù)據(jù)分析與應(yīng)用模式研究

      李朝奎1, 嚴(yán)雯英1, 肖克炎2, 趙亞楠1

      (1.湖南科技大學(xué)地理空間信息技術(shù)國(guó)家地方聯(lián)合工程實(shí)驗(yàn)室,湖南湘潭411201; 2.中國(guó)地質(zhì)科學(xué)院礦產(chǎn)資源研究所,北京100037)

      摘要:大數(shù)據(jù)時(shí)代下地質(zhì)數(shù)據(jù)的獲取方式多種多樣,數(shù)據(jù)量十分龐大,數(shù)據(jù)格式復(fù)雜多樣。從地質(zhì)大數(shù)據(jù)的存儲(chǔ)管理、數(shù)據(jù)挖掘技術(shù)、可視化技術(shù)等方面闡述了其分析應(yīng)用的關(guān)鍵點(diǎn)。介紹了大數(shù)據(jù)不同于傳統(tǒng)數(shù)據(jù)的分析思維,強(qiáng)調(diào)注重?cái)?shù)據(jù)本身的重要性。大數(shù)據(jù)的分析與應(yīng)用方法處在不斷創(chuàng)新中,同時(shí)也面臨巨大挑戰(zhàn),如何保證地質(zhì)大數(shù)據(jù)的質(zhì)量、如何高效地搭建云平臺(tái)等都是需要解決的難題。指出了地質(zhì)大數(shù)據(jù)的開(kāi)發(fā)對(duì)礦產(chǎn)資源預(yù)測(cè)、城鎮(zhèn)選址等具有十分重要的意義。

      關(guān)鍵詞:地質(zhì)大數(shù)據(jù);存儲(chǔ)管理;數(shù)據(jù)挖掘;可視化;云平臺(tái)

      doi:10.3969/j.issn.1674-3636.2015.03.352

      中圖分類(lèi)號(hào):P628+.2

      文獻(xiàn)標(biāo)識(shí)碼:A

      文章編號(hào):1674-3636(2015)03-0352-06

      收稿日期:2015-06-12;修回日期:2015-06-21;編輯:侯鵬飛

      基金項(xiàng)目:國(guó)家自然科學(xué)基金項(xiàng)目“集群環(huán)境下大范圍三維復(fù)雜場(chǎng)景的并行繪制機(jī)理及算法實(shí)現(xiàn) ”(41271390)、國(guó)土資源部公益性行業(yè)科研專(zhuān)項(xiàng)“地質(zhì)大數(shù)據(jù)技術(shù)研究與應(yīng)用試點(diǎn)”(201511079-04)、中國(guó)地質(zhì)調(diào)查局地質(zhì)礦產(chǎn)調(diào)查評(píng)價(jià)專(zhuān)項(xiàng)“全國(guó)重要礦種成礦區(qū)劃部署研究”(12120114051501)、湖南科技大學(xué)創(chuàng)新基金基礎(chǔ)研究項(xiàng)目“地質(zhì)空間數(shù)據(jù)挖掘方法及其應(yīng)用基礎(chǔ)研究”(S140038)聯(lián)合資助

      作者簡(jiǎn)介:李朝奎(1967—),男,教授,博士,地理信息工程專(zhuān)業(yè),主要從事三維地理信息理論方法及技術(shù)應(yīng)用研究工作,E-mail:chklhn@163.com

      0引言

      我國(guó)地質(zhì)行業(yè)自20世紀(jì)60年代以來(lái),開(kāi)展了礦產(chǎn)資源勘查、地球科學(xué)研究、海洋地質(zhì)勘察等工作。隨著科技的進(jìn)步,地質(zhì)調(diào)查工作的方式趨向數(shù)字化、信息化、智能化。GPS、RS大大提高了地質(zhì)數(shù)據(jù)的獲取能力, GIS、數(shù)字地質(zhì)調(diào)查系統(tǒng)空間數(shù)據(jù)庫(kù)的建庫(kù)技術(shù)等改善了地質(zhì)數(shù)據(jù)的應(yīng)用水平(孫磊等,2010)。近年來(lái),在空載熱輻射與反射成像技術(shù)高光譜反射技術(shù)、新型激光3D制圖技術(shù)(Zebedee系統(tǒng))等的推動(dòng)下,地質(zhì)數(shù)據(jù)的數(shù)量迅速增加,形式也多種多樣,傳統(tǒng)的一些技術(shù)方法越來(lái)越不能滿(mǎn)足不斷豐富的服務(wù)內(nèi)容,地質(zhì)行業(yè)已到了“地質(zhì)大數(shù)據(jù)”時(shí)代。

      作為不同地史時(shí)期下地質(zhì)作用信息的載體,地質(zhì)數(shù)據(jù)主要用于研究地質(zhì)歷史進(jìn)程的恢復(fù)以及對(duì)未來(lái)地質(zhì)演化的推測(cè)。為了從地質(zhì)數(shù)據(jù)中獲得更為全面的有用信息,以便深刻地了解和認(rèn)識(shí)地質(zhì)體、地質(zhì)現(xiàn)象和地質(zhì)過(guò)程,更好地利用和保護(hù)地質(zhì)資源,地質(zhì)工作越來(lái)越多地求助于數(shù)學(xué)方法和地質(zhì)信息技術(shù)。各種物化探異常的正、反演理論方法(趙鵬大,2012;陰江寧等,2013)和各種地球動(dòng)力學(xué)理論方法(李四光,1973;於崇文等,1993)的提出和完善,都是這方面的重要成果,對(duì)地質(zhì)學(xué)定量化和地礦勘查信息化進(jìn)程起到了重要的推動(dòng)作用。地質(zhì)行業(yè)應(yīng)該借鑒大數(shù)據(jù)的思維,解決地質(zhì)大數(shù)據(jù)的問(wèn)題。

      1地質(zhì)大數(shù)據(jù)分析思路

      自2008年以來(lái),Nature、Science、麥肯錫、達(dá)沃斯論壇等相繼發(fā)表了專(zhuān)門(mén)的大數(shù)據(jù)研究報(bào)告,美國(guó)政府也于2012年3月發(fā)表了《大數(shù)據(jù)研究和發(fā)展倡議》,作為信息科學(xué)領(lǐng)域又一重大舉措(Executive Office of the President,2012)。研究證明,有效地管理與使用大數(shù)據(jù)能給企業(yè)提供更多增強(qiáng)生產(chǎn)能力和競(jìng)爭(zhēng)能力的機(jī)會(huì),并能帶來(lái)巨大的潛在商業(yè)價(jià)值(Manyika et al,2011)。2012年10月,中國(guó)計(jì)算機(jī)學(xué)會(huì)和中國(guó)通信學(xué)會(huì)各自成立了大數(shù)據(jù)專(zhuān)家委員會(huì),從行業(yè)學(xué)會(huì)的層面組織和推動(dòng)大數(shù)據(jù)的相關(guān)產(chǎn)學(xué)研用活動(dòng)。從研究?jī)?nèi)容看,尚處于應(yīng)用探討與展望階段。

      1.1 從數(shù)據(jù)角度思考

      過(guò)去信息相對(duì)貧乏,任意一個(gè)數(shù)據(jù)點(diǎn)的測(cè)量情況都會(huì)對(duì)結(jié)果至關(guān)重要,對(duì)地質(zhì)數(shù)據(jù)進(jìn)行分析前必須盡量保證每個(gè)數(shù)據(jù)點(diǎn)的精確性,才不會(huì)導(dǎo)致結(jié)果的偏差。如今,高精密的儀器能夠保證數(shù)據(jù)的大趨勢(shì)正確,也大大增強(qiáng)了數(shù)據(jù)處理能力,數(shù)據(jù)分析不再通過(guò)隨機(jī)采樣的方式進(jìn)行,而是使用全部數(shù)據(jù)。

      全國(guó)礦產(chǎn)資源潛力評(píng)價(jià)數(shù)據(jù)集成管理應(yīng)用平臺(tái)(DipMopa)系統(tǒng)采用將傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù)管理系統(tǒng)和列式數(shù)據(jù)庫(kù)相結(jié)合的方式,對(duì)多源地學(xué)非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行存儲(chǔ)(何翠云,2013)(表1),并結(jié)合有關(guān)應(yīng)用軟件實(shí)現(xiàn)對(duì)全國(guó)礦產(chǎn)資源潛力評(píng)價(jià)數(shù)據(jù)的高效管理。大數(shù)據(jù)解決方案架構(gòu)下的數(shù)據(jù)庫(kù)HBase可以很好地按列存儲(chǔ)數(shù)據(jù)。HBase是一個(gè)分布式、面向列的開(kāi)源數(shù)據(jù)庫(kù),它不同于一般的關(guān)系數(shù)據(jù)庫(kù),適合于非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)。

      表1 全國(guó)礦產(chǎn)資源潛力評(píng)價(jià)數(shù)據(jù)庫(kù)分類(lèi)

      2007年,吉姆·格雷(Jim Gray)在他最后一次演講中描繪了數(shù)據(jù)密集型科學(xué)研究的“第四范式”(The Fourth Paradigm)(劉光鼎,2002),把數(shù)據(jù)密集型科學(xué)從計(jì)算科學(xué)中單獨(dú)分出來(lái),這意味著從數(shù)據(jù)中直接查找或挖掘所需要的信息、知識(shí)和智慧,甚至無(wú)需直接接觸需研究的對(duì)象?!暗谒姆妒健辈粌H是科研方式的轉(zhuǎn)變,也是人們思維方式的大變化。

      地質(zhì)大數(shù)據(jù)本身所包含的規(guī)律客觀存在,人們一直將理論應(yīng)用到實(shí)踐中來(lái)分析和理解這些規(guī)律。在大數(shù)據(jù)數(shù)時(shí)代,應(yīng)著重關(guān)注數(shù)據(jù)本身,在很多情況下,與致力于避免錯(cuò)誤相比,對(duì)錯(cuò)誤的包含會(huì)帶來(lái)更多的好處。

      1.2 數(shù)據(jù)非理性效果

      目前大數(shù)據(jù)在商業(yè)方面運(yùn)用較為成熟,Google 公司通過(guò)大規(guī)模集群和MapReduce 軟件,每月處理的數(shù)據(jù)量超過(guò)400 PB;百度每天大約要處理幾十PB 數(shù)據(jù);Facebook 注冊(cè)用戶(hù)超過(guò)10億,每月上傳的照片超過(guò)10億張,每天生成300 TB 以上的日志數(shù)據(jù);淘寶網(wǎng)會(huì)員超過(guò)3.7億,在線(xiàn)商品超過(guò) 8.8億,每天交易數(shù)千萬(wàn)筆,產(chǎn)生約20 TB數(shù)據(jù)(李國(guó)杰等, 2012)。

      隨著全球工業(yè)化和城市化的推進(jìn),自然資源開(kāi)發(fā)引起了一系列地質(zhì)環(huán)境變化,全球水土污染不斷加重,突發(fā)性的地質(zhì)災(zāi)害頻發(fā),引發(fā)了區(qū)域性地質(zhì)環(huán)境的重大變化。資源、環(huán)境、生態(tài)問(wèn)題相互交織,這些問(wèn)題產(chǎn)生的原因來(lái)自于多方面,單純通過(guò)數(shù)學(xué)計(jì)算和現(xiàn)有的理論很難全面掌握問(wèn)題的根源(雷志強(qiáng),2011)。大數(shù)據(jù)由于考慮了數(shù)據(jù)的全面性與相關(guān)性,在研究中往往會(huì)得到事先難以預(yù)測(cè)的因素。

      地質(zhì)大數(shù)據(jù)存在著多源異構(gòu)、綜合利用難度大等問(wèn)題,決定了其數(shù)據(jù)分析算法有別于普通情況,不再追求高精確、復(fù)雜的計(jì)算,往往簡(jiǎn)單的算法比基于小數(shù)據(jù)的復(fù)雜算法更加有效。同時(shí),數(shù)據(jù)分析將不再熱衷于尋找因果關(guān)系,利用基礎(chǔ)算法對(duì)大數(shù)據(jù)進(jìn)行相關(guān)關(guān)系分析,突破傳統(tǒng)思維模式,進(jìn)行技術(shù)創(chuàng)新,才能有效地挖掘出地質(zhì)大數(shù)據(jù)中隱藏的信息,獲得其地質(zhì)應(yīng)用價(jià)值?,F(xiàn)階段基于大數(shù)據(jù)的數(shù)據(jù)分析模式主要還是基于統(tǒng)計(jì)方法的關(guān)聯(lián)性分析,缺乏邏輯推導(dǎo)過(guò)程(Agrawal et al,1996;Cheung et al,1996)。對(duì)于理論邏輯層次清晰的地質(zhì)行業(yè),大數(shù)據(jù)的統(tǒng)計(jì)學(xué)方法不足以支撐地質(zhì)行業(yè)的知識(shí)發(fā)現(xiàn),需要在數(shù)據(jù)分析過(guò)程中插入中間環(huán)節(jié),完善推導(dǎo)過(guò)程,協(xié)助新理論、新方法的研究(繆謹(jǐn)勵(lì),2014)。

      1.3 大數(shù)據(jù)面臨的問(wèn)題

      大數(shù)據(jù)的相關(guān)技術(shù)正在不斷影響和改變地質(zhì)行業(yè),從數(shù)據(jù)的采集到存儲(chǔ)管理再到應(yīng)用服務(wù),傳統(tǒng)思維習(xí)慣也將逐漸變化。地質(zhì)大數(shù)據(jù)中所蘊(yùn)藏的信息,等待著大數(shù)據(jù)技術(shù)來(lái)“開(kāi)采”。但是大數(shù)據(jù)技術(shù)目前還不完善,許多問(wèn)題等待解決。例如,礦產(chǎn)資源預(yù)測(cè)的關(guān)鍵在于有效地獲取礦產(chǎn)資源信息、正確認(rèn)識(shí)礦床模型和成礦條件、正確刻畫(huà)礦產(chǎn)資源的時(shí)空分布規(guī)律,運(yùn)用大數(shù)據(jù)技術(shù),對(duì)于勘查難度大、未發(fā)現(xiàn)礦產(chǎn)資源多的地區(qū)能夠進(jìn)行信息綜合和建模,有效降低成本,輔助勘探?jīng)Q策,但是不能保證結(jié)果的正確性,在地質(zhì)研究過(guò)程中,不論是地質(zhì)災(zāi)害預(yù)測(cè),或是礦產(chǎn)資源勘測(cè)都講究對(duì)結(jié)果進(jìn)行驗(yàn)證,以提高模型的準(zhǔn)確性。因此,大數(shù)據(jù)不是萬(wàn)能的:(1)歷史數(shù)據(jù)不能準(zhǔn)確預(yù)測(cè)未來(lái);(2)預(yù)測(cè)模式中存在不確定因素;(3)各種模式操作過(guò)程中存在偏頗以及不符合實(shí)際的預(yù)測(cè)。

      地質(zhì)大數(shù)據(jù)提供了海量數(shù)據(jù)源,但是這些數(shù)據(jù)包含的數(shù)據(jù)價(jià)值密度相對(duì)較低,可能造成挖掘結(jié)果的謬誤。要以辯證的觀點(diǎn)看待大數(shù)據(jù)帶來(lái)的創(chuàng)新技術(shù),不能完全棄用以往的方法經(jīng)驗(yàn),應(yīng)該根據(jù)實(shí)際問(wèn)題,將新技術(shù)與過(guò)去的方法相結(jié)合,相輔相成,才能有效保證結(jié)果的正確性。

      2地質(zhì)大數(shù)據(jù)應(yīng)用關(guān)鍵技術(shù)

      2.1 存儲(chǔ)管理技術(shù)

      地質(zhì)大數(shù)據(jù)種類(lèi)繁多,關(guān)系復(fù)雜,有結(jié)構(gòu)化數(shù)據(jù)如關(guān)系數(shù)據(jù)庫(kù)的統(tǒng)計(jì)數(shù)據(jù)、表格表單數(shù)據(jù)等,也有非結(jié)構(gòu)化數(shù)據(jù)如矢量數(shù)據(jù)、文本數(shù)據(jù)、影像數(shù)據(jù)、圖片等。

      基于傳統(tǒng)的關(guān)系數(shù)據(jù)庫(kù)查詢(xún)方法已經(jīng)不能滿(mǎn)足要求,對(duì)地質(zhì)大數(shù)據(jù)進(jìn)行統(tǒng)一組織和存儲(chǔ),實(shí)現(xiàn)多源異構(gòu)數(shù)據(jù)的集成,是地質(zhì)大數(shù)據(jù)信息化的基礎(chǔ)。

      地質(zhì)數(shù)據(jù)種類(lèi)繁多,通過(guò)分析與抽象,主要可以分為圖件、文檔、表格3種實(shí)體性數(shù)據(jù)和報(bào)告,2種概念型數(shù)據(jù)(表2)。

      表2 地質(zhì)數(shù)據(jù)分類(lèi)

      地質(zhì)大數(shù)據(jù)由于數(shù)據(jù)量龐大,數(shù)據(jù)類(lèi)型復(fù)雜多樣,進(jìn)行數(shù)據(jù)粒度分析會(huì)涉及到多種粒度數(shù)據(jù)的混合處理,需要根據(jù)相關(guān)業(yè)務(wù)要求,利用粗粒度與細(xì)粒度間的內(nèi)部聯(lián)系,有機(jī)統(tǒng)一起來(lái)進(jìn)行管理,根據(jù)粒度進(jìn)行數(shù)據(jù)庫(kù)層次化部署。在已有數(shù)據(jù)庫(kù)的基礎(chǔ)上,制定相應(yīng)的數(shù)據(jù)更新機(jī)制,以確保能夠存儲(chǔ)同一數(shù)據(jù)不同時(shí)態(tài)的數(shù)據(jù),為支持?jǐn)?shù)據(jù)時(shí)態(tài)對(duì)比、歷史數(shù)據(jù)演變等提供必要的信息支撐。

      地質(zhì)大數(shù)據(jù)查詢(xún)檢索技術(shù)主要有4種方式:(1) 基于文件名查詢(xún);(2) 基于范圍和分辨率查詢(xún);(3) 基于范圍和格網(wǎng)數(shù)查詢(xún);(4) 基于內(nèi)容查詢(xún)。其主要構(gòu)架在地質(zhì)大數(shù)據(jù)云存儲(chǔ)系統(tǒng)設(shè)計(jì)的基礎(chǔ)上,能夠快速定位并獲取所需的數(shù)據(jù)。

      目前,數(shù)據(jù)庫(kù)領(lǐng)域中最常用的數(shù)據(jù)模型是關(guān)系模型,基于此模型的數(shù)據(jù)庫(kù)管理系統(tǒng)(DBMS)產(chǎn)品較多,有Oracle、SQL Server、DB2等,在大數(shù)據(jù)解決方案架構(gòu)下,以Google的GFS(Google File System)和Hadoop的HDFS(Hadoop Distributed File System)為代表,HDFS是GFS的開(kāi)源實(shí)現(xiàn),它們均采用分布式存儲(chǔ)方式存儲(chǔ)數(shù)據(jù),用冗余存儲(chǔ)的模式保證數(shù)據(jù)可靠性,不同于一般的關(guān)系數(shù)據(jù)庫(kù),是一個(gè)適合于非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)的數(shù)據(jù)庫(kù)。

      在地學(xué)大數(shù)據(jù)技術(shù)研究實(shí)驗(yàn)平臺(tái)GeoBDA實(shí)驗(yàn)中,作者通過(guò)對(duì)比實(shí)驗(yàn)得出大數(shù)據(jù)平臺(tái)的對(duì)比:Hadoop架構(gòu)中沒(méi)有提供完善的檢索解決方案,如果要在數(shù)據(jù)挖掘方面滿(mǎn)足特定的需求,需要投入較大的開(kāi)發(fā)力量,這與Hadoop作為Apache項(xiàng)目的發(fā)展歷程有關(guān)(繆謹(jǐn)勵(lì),2014)。Oracle架構(gòu)中,Intermedia支持直接搜索,Oracle各種組件功能強(qiáng)大,產(chǎn)品化、成熟度高,不過(guò)價(jià)格比較高。

      2.2 數(shù)據(jù)挖掘技術(shù)

      數(shù)據(jù)庫(kù)知識(shí)發(fā)現(xiàn) (KDD) 是從數(shù)據(jù)集中識(shí)別出有效、新穎、潛在有用的以及最終可理解的模式的非平凡過(guò)程(圖1),數(shù)據(jù)挖掘是數(shù)據(jù)庫(kù)知識(shí)發(fā)現(xiàn)過(guò)程中應(yīng)用數(shù)據(jù)分析和發(fā)現(xiàn)算法的一個(gè)步驟,在可接受的計(jì)算效率的局限性之內(nèi),在數(shù)據(jù)上產(chǎn)生一種特殊的列舉模式(或模型)(李德仁等,2002)。

      圖1 知識(shí)發(fā)現(xiàn)流程示意圖Fig.1 Schematic diagram showing the process of knowledge discovery

      從數(shù)量上來(lái)說(shuō),可能需要處理數(shù)量級(jí)達(dá)到TB 級(jí)乃至PB級(jí)的數(shù)據(jù),另外還有高維數(shù)據(jù)、各種噪聲數(shù)據(jù)以及動(dòng)態(tài)數(shù)據(jù)等,選擇合適的算法及并行策略來(lái)完成任務(wù)是關(guān)鍵。另外,算法的設(shè)計(jì)、參數(shù)的調(diào)節(jié)都會(huì)直接影響到最終的結(jié)果,數(shù)據(jù)挖掘過(guò)程中可能會(huì)存在許多不明確性,進(jìn)行數(shù)據(jù)挖掘的目的就是要將這些不明確性帶來(lái)的影響降到最低。這些不明確性包括對(duì)數(shù)據(jù)挖掘任務(wù)描述的不明確性、進(jìn)行數(shù)據(jù)采集和預(yù)處理時(shí)會(huì)出現(xiàn)的不明確性、數(shù)據(jù)挖掘方法選擇和最終結(jié)果的不明確以性及對(duì)如何評(píng)價(jià)數(shù)據(jù)挖掘結(jié)果的不明確性等。數(shù)據(jù)挖掘算法將直接影響到所發(fā)現(xiàn)知識(shí)的結(jié)果。

      多個(gè)發(fā)達(dá)國(guó)家早已將SOA(Service Oriented Architecture,基于面向服務(wù)的體系結(jié)構(gòu))、并行計(jì)算、虛擬化等技術(shù)融入到地質(zhì)調(diào)查信息化建設(shè)中,建立了在線(xiàn)編圖等采用“一站式”工作模式服務(wù)的應(yīng)用系統(tǒng)(表3)。雖然我國(guó)目前在這方面的技術(shù)相對(duì)落后,但是許多科研團(tuán)隊(duì)對(duì)多元、異構(gòu)的地學(xué)數(shù)據(jù)集成與共享也已經(jīng)進(jìn)行了深入研究與探討。

      提供地理空間信息的查詢(xún)?cè)L問(wèn)有助于信息的共享和獲取。對(duì)全球8萬(wàn)余次地震發(fā)生的分布圖(圖2)進(jìn)行簡(jiǎn)單的數(shù)據(jù)挖掘,可以發(fā)現(xiàn)地震活躍帶和板塊構(gòu)造中各板塊的邊緣比較吻合,從圖中可以看到通過(guò)空間數(shù)據(jù)挖掘的計(jì)算結(jié)果和經(jīng)驗(yàn)判斷基本相符(繆謹(jǐn)勵(lì),2014)。

      表3 部分國(guó)家的地質(zhì)空間數(shù)據(jù)挖掘技術(shù)系統(tǒng)

      圖2 大數(shù)據(jù)研究實(shí)驗(yàn)平臺(tái)實(shí)驗(yàn)效果(據(jù)繆謹(jǐn)勵(lì),2014)Fig.2 Experimental results of the experimental big data platform(after Miao, 2014)

      2.3 地質(zhì)大數(shù)據(jù)可視化技術(shù)

      數(shù)據(jù)可視化是進(jìn)行大數(shù)據(jù)分析的一個(gè)很重要的手段,可視化的目標(biāo)是通過(guò)可視的方法提供新的洞察力以影響現(xiàn)有的科學(xué)方法(McCormick et al,1987)。可視化思維是個(gè)人通過(guò)探索數(shù)據(jù)的內(nèi)在關(guān)系來(lái)揭示新問(wèn)題,形成新觀點(diǎn),進(jìn)而產(chǎn)生新的綜合,找到新的答案并加以確認(rèn),而可視化交流是向公眾表達(dá)已經(jīng)形成的結(jié)論和觀點(diǎn)。

      大數(shù)據(jù)有利于簡(jiǎn)化模型設(shè)計(jì),豐富的數(shù)據(jù)為直接基于數(shù)據(jù)的建模提供了可能性,甚至有可能實(shí)現(xiàn)基于每個(gè)時(shí)空實(shí)體構(gòu)建局部的實(shí)時(shí)、動(dòng)態(tài)模型。地質(zhì)體、地質(zhì)現(xiàn)象及地質(zhì)過(guò)程的可視化是為了更加直觀和真實(shí)的表達(dá)。對(duì)于專(zhuān)業(yè)人員,這有利于地質(zhì)現(xiàn)象分析、科學(xué)計(jì)算、評(píng)價(jià)決策、工程設(shè)計(jì)等操作;對(duì)于普通人員,有利于理解晦澀難懂的專(zhuān)業(yè)知識(shí)(陳建國(guó)等,2012)。由于地質(zhì)大數(shù)據(jù)的特殊性,其可視化的關(guān)鍵在于:(1) 海量三維數(shù)據(jù)體的存儲(chǔ)和快速調(diào)度;(2) 三維地質(zhì)體數(shù)字化的快速建模技術(shù);(3) 三維數(shù)字地質(zhì)體的快速自由矢量剪切技術(shù);(4) 三維數(shù)字地質(zhì)體的局部快速動(dòng)態(tài)更新技術(shù);(5) 三維數(shù)字地質(zhì)體的多樣化空間分析技術(shù)(吳沖龍,2011)。

      目前,已有一些比較完善的三維地質(zhì)建模軟件能夠?qū)崿F(xiàn)多種數(shù)據(jù)三維綜合建模、顯示和分析等功能,如國(guó)外的 GOCAD、MVS、MicroStation、Surpac 等,國(guó)內(nèi)的如QuantyView(GeoView)、GeoMo3D、Titan 3DM等。但這些建模方式仍然是靜態(tài)交互的,在大數(shù)據(jù)時(shí)代下的可視化技術(shù)將朝著自動(dòng)化和交互性方向邁進(jìn)。

      3地質(zhì)大數(shù)據(jù)面臨的挑戰(zhàn)

      3.1 數(shù)據(jù)質(zhì)量問(wèn)題

      高質(zhì)量的數(shù)據(jù)是大數(shù)據(jù)發(fā)揮效能的前提和基礎(chǔ),對(duì)大數(shù)據(jù)進(jìn)行有效分析的前提是必須保證數(shù)據(jù)的質(zhì)量。隨著整體數(shù)據(jù)量增加,其中含有誤差的噪聲數(shù)據(jù)量也隨之增加,如何制定地質(zhì)大數(shù)據(jù)質(zhì)量的標(biāo)準(zhǔn)要從無(wú)數(shù)次的經(jīng)驗(yàn)總結(jié)而來(lái)。數(shù)據(jù)質(zhì)量問(wèn)題貫穿始終,數(shù)據(jù)的來(lái)源、處理及使用,都應(yīng)該隨時(shí)把握數(shù)據(jù)質(zhì)量。在數(shù)據(jù)獲取階段,要保證數(shù)據(jù)定義的一致性、元數(shù)據(jù)定義的統(tǒng)一性;在處理階段,噪聲數(shù)據(jù)的去除、目標(biāo)數(shù)據(jù)的最大化保留是實(shí)現(xiàn)高水平數(shù)據(jù)質(zhì)量的基本保障;在存儲(chǔ)階段,應(yīng)該根據(jù)地質(zhì)大數(shù)據(jù)的特殊組成與結(jié)構(gòu),合理地設(shè)計(jì)數(shù)據(jù)存儲(chǔ)和使用規(guī)則,以方便對(duì)數(shù)據(jù)進(jìn)行快速讀取。

      我國(guó)對(duì)于地質(zhì)大數(shù)據(jù)的研究水平還不高,對(duì)數(shù)據(jù)質(zhì)量的重要性意識(shí)還比較淡薄,大數(shù)據(jù)方案的建設(shè)及應(yīng)用在我國(guó)還不夠完善成熟,對(duì)于地質(zhì)大數(shù)據(jù)存儲(chǔ)分析技術(shù)、數(shù)據(jù)管理方案等各項(xiàng)配套設(shè)施和制度還不完善,保證大數(shù)據(jù)的質(zhì)量應(yīng)該受到越來(lái)越多的關(guān)注。

      3.2 云平臺(tái)搭建

      地質(zhì)行業(yè)的專(zhuān)業(yè)性較強(qiáng),在數(shù)據(jù)量相對(duì)較少的情況下,數(shù)據(jù)的收集、存儲(chǔ)管理、算法研究等由專(zhuān)業(yè)人員進(jìn)行即可,但在大數(shù)據(jù)時(shí)代,則需要多方面的協(xié)作,除了需要地質(zhì)專(zhuān)業(yè)研究人員,還應(yīng)配備高端的專(zhuān)業(yè)數(shù)據(jù)庫(kù)設(shè)計(jì)和開(kāi)發(fā)人員、程序員、數(shù)學(xué)和統(tǒng)計(jì)學(xué)家,相互協(xié)作才能完成。在數(shù)據(jù)挖掘過(guò)程中,數(shù)據(jù)挖掘算法、系統(tǒng)設(shè)計(jì)工程、資源分配等是重點(diǎn),但這多適合于專(zhuān)業(yè)技術(shù)人員,阻礙了數(shù)據(jù)挖掘的廣泛應(yīng)用。地質(zhì)大數(shù)據(jù)應(yīng)用總體框架如圖3所示。云計(jì)算作為一種新興的計(jì)算模式,它隱藏了計(jì)算資源以及計(jì)算的執(zhí)行過(guò)程,用戶(hù)不用考慮內(nèi)部計(jì)算架構(gòu),就能通過(guò)瀏覽器或者應(yīng)用程序界面提交計(jì)算任務(wù)或者服務(wù)請(qǐng)求,這大大增加了地質(zhì)數(shù)據(jù)的使用效率,使地質(zhì)數(shù)據(jù)攜帶的信息在相關(guān)應(yīng)用領(lǐng)域創(chuàng)造更多價(jià)值。

      圖3 地質(zhì)大數(shù)據(jù)應(yīng)用總體框架示意圖Fig.3 Sketch of overall framework for the application of geological big data

      建設(shè)云計(jì)算平臺(tái)是一個(gè)涉及軟件資源、硬件資源管理、優(yōu)化、分配等復(fù)雜的系統(tǒng)化工程。為了搭建地質(zhì)云計(jì)算平臺(tái),至少需要解決如下關(guān)鍵問(wèn)題:(1) 明確地質(zhì)大數(shù)據(jù)的應(yīng)用目的;(2) 在已有軟硬件資源的基礎(chǔ)上,基于虛擬化技術(shù)研究并搭建云存儲(chǔ)模式,實(shí)現(xiàn)地質(zhì)大數(shù)據(jù)的合理組織;(3) 搭建服務(wù)虛擬化的地質(zhì)云計(jì)算平臺(tái),給出服務(wù)管理、搜索調(diào)用機(jī)制;(4) 通過(guò)不同粒度的數(shù)據(jù)服務(wù)和計(jì)算服務(wù)來(lái)實(shí)現(xiàn)對(duì)地質(zhì)大數(shù)據(jù)的訪(fǎng)問(wèn),并發(fā)布這些服務(wù)。

      目前,ESRI、GIS Cloud等已經(jīng)開(kāi)始研究將GIS遷移到云計(jì)算環(huán)境中,初步形成了提供GIS數(shù)據(jù)和服務(wù)的云GIS平臺(tái)。

      4結(jié)論

      我國(guó)幅員遼闊,地質(zhì)環(huán)境復(fù)雜,地質(zhì)數(shù)據(jù)量巨大。有效地利用這些數(shù)據(jù)成為越來(lái)越重要的問(wèn)題。隨著大數(shù)據(jù)時(shí)代的來(lái)臨,應(yīng)積極尋求解決問(wèn)題的方法,使其適應(yīng)信息化社會(huì)和知識(shí)經(jīng)濟(jì)時(shí)代的要求,發(fā)揮地質(zhì)大數(shù)據(jù)潛在知識(shí)的價(jià)值,提升新時(shí)期地質(zhì)行業(yè)的創(chuàng)新服務(wù)能力。作為當(dāng)今最受矚目的對(duì)象,大數(shù)據(jù)的出現(xiàn)并不是一蹴而就的。數(shù)據(jù)量由GB增長(zhǎng)到TB、ZB……是人類(lèi)需求不斷增加的結(jié)果。在這些蘊(yùn)藏著規(guī)律的海量數(shù)據(jù)中,價(jià)值無(wú)法估量。

      地質(zhì)大數(shù)據(jù)對(duì)于城市規(guī)劃、建設(shè)、安全等方面有著十分重要的意義,對(duì)于城市環(huán)境和防災(zāi)減災(zāi)工作十分重要,利用地質(zhì)基礎(chǔ)數(shù)據(jù)能夠進(jìn)行選址適宜分析、地下空間分析等,動(dòng)態(tài)監(jiān)測(cè)數(shù)據(jù)提供了自然變化和人為工程對(duì)地質(zhì)環(huán)境影響的監(jiān)測(cè)結(jié)果,模擬分析數(shù)據(jù)可以客觀模擬災(zāi)害發(fā)生時(shí)的情景,預(yù)警案例數(shù)據(jù)則可以為防災(zāi)減災(zāi)預(yù)警工作提供數(shù)據(jù)支撐(王少勇, 2014)。

      在大數(shù)據(jù)時(shí)代,從海量地質(zhì)數(shù)據(jù)的存儲(chǔ)管理到地質(zhì)知識(shí)發(fā)現(xiàn),并通過(guò)智能化處理平臺(tái)服務(wù)于用戶(hù),滿(mǎn)足用戶(hù)日益增長(zhǎng)的需求,對(duì)于地質(zhì)大數(shù)據(jù)的管理應(yīng)用將發(fā)生深刻變化。地質(zhì)數(shù)據(jù)的數(shù)字化是基礎(chǔ),最終是為了實(shí)現(xiàn)信息化,創(chuàng)新開(kāi)展知識(shí)管理和知識(shí)服務(wù),發(fā)揮地質(zhì)大數(shù)據(jù)潛在的知識(shí)價(jià)值,提升新時(shí)期地質(zhì)大數(shù)據(jù)管理水平與創(chuàng)新服務(wù)能力,這也是適應(yīng)當(dāng)今信息化社會(huì)和數(shù)字化時(shí)代的必然要求。

      參考文獻(xiàn):

      陳建國(guó),肖敦輝,梁玉輝,等.2012.重磁三維可視化反演系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J].地質(zhì)學(xué)刊,36(3):250-255.

      何翠云.2013.廣西礦產(chǎn)資源潛力評(píng)價(jià)數(shù)據(jù)特征[J].地質(zhì)學(xué)刊,37(3):451-455.

      李四光.1973.地質(zhì)力學(xué)概論[M].北京:科學(xué)出版社.

      李德仁,王樹(shù)良.2002.論空間數(shù)據(jù)挖掘和知識(shí)發(fā)現(xiàn)的理論與方法[J].武漢大學(xué)學(xué)報(bào):信息科學(xué)版,27(3):221-233.

      劉光鼎.2002.回顧與展望:21世紀(jì)的固體地球物理[J].地球物理學(xué)進(jìn)展,17(2):191-197.

      雷志強(qiáng).2011.加強(qiáng)地質(zhì)災(zāi)害防治,構(gòu)建生態(tài)城市環(huán)境[J].地質(zhì)學(xué)刊,35(1):104-108.

      李國(guó)杰,程學(xué)旗.2012.大數(shù)據(jù)研究:未來(lái)科技及經(jīng)濟(jì)社會(huì)發(fā)展的重大戰(zhàn)略領(lǐng)域:大數(shù)據(jù)的研究現(xiàn)狀與科學(xué)思考[J].中國(guó)科學(xué)院院刊,27(6):647-657.

      繆謹(jǐn)勵(lì).2014.地學(xué)大數(shù)據(jù)技術(shù)研究實(shí)驗(yàn)平臺(tái)GeoBDA[J].地理信息世界,21(6):48-52.

      孫磊,張彥杰,李豐丹,等.2010.數(shù)字地質(zhì)調(diào)查系統(tǒng)空間數(shù)據(jù)庫(kù)建庫(kù)技術(shù)方法應(yīng)用:以1∶5萬(wàn)瑤里幅地質(zhì)圖空間數(shù)據(jù)庫(kù)制作為例[J].地質(zhì)學(xué)刊,34(3):260-270.

      吳沖龍.2011.地質(zhì)數(shù)據(jù)三維可視化的屬性、分類(lèi)和關(guān)鍵技術(shù)[J].地質(zhì)通報(bào),30(5):642-649.

      王少勇.2014-12-22.迎接地質(zhì)大數(shù)據(jù)時(shí)代[N].中國(guó)國(guó)土資源報(bào),(1).

      於崇文,岑況,鮑征宇,等.1993.熱液成礦動(dòng)力學(xué)[M].湖北武漢:中國(guó)地質(zhì)大學(xué)出版社.

      陰江寧,肖克炎,汪新慶,等.2013.中國(guó)稀土礦產(chǎn)資源定量分析與預(yù)測(cè)[J].地質(zhì)學(xué)刊,37(3):378-381.

      趙鵬大.2012.數(shù)字地質(zhì)與礦產(chǎn)資源評(píng)價(jià)[J].地質(zhì)學(xué)刊,36(3):225-228.

      AGRAWAL R, SHARFER J.1996.Prarallel mining of association rules[J].IEEE Trans on Knowledge and Data Engineering, 8(6):962-969.

      CHEUNG D W , NG V T,FU A W, et al.1996.Efficient mining of association rules in distributed database[J].IEEE Trans on Knowledge and Data Engineering, 8(6):911-922.

      Executive Office of the President.2012-03-29.Big data across the federal government[EB/OL].http://www.whitehouse.gov/sites/default/files/microsites/ostp/big_data_fact_sheet_final_1.pdf.

      MCCORMICK B H, DEFANTI T A, BROWN M D.1987.Visualization in scientific computing[J]. Computer Graphics,12(6):1103-1109.

      MANYIKA J,CHUI M,BROWN B, et al.2011.Big Data:the Next Frontier for Innovation, Competition, and Productivity[R].Washington,DC,USA: McKinsey Global Institute.

      Analysis and application mode of geological big data

      LI Chao-kui1, YAN Wen-ying1, XIAO Ke-yan2, ZHAO Ya-nan1

      (1. National-Local Joint Engineering Laboratory of Geo-Spatial Information Technology, Hunan University of Science and Technology, Xiangtan 411201, Hunan, China; 2. Institute of Mineral Resources,Chinese Academy of Geological Sciences, Beijing 100037, China)

      Abstract:In the era of big data, there are many ways to obtain geological data. The amount of data is very large, and the formats are complex and diverse. This paper illustrates the key points of analysis and application from the aspects of the storage and management of geological data, data mining technology and visualization technology. We also introduce the different analysis thinking of big data, and emphasize the importance of focusing on the data. In the technology innovation, there are also challenges, such as how to ensure the accuracy of geological big data, and how to build a cloud platform. The development of geological big data is of great significance for the prediction of mineral resources and selection of urban location.

      Keywords:geological big data; storage management; data mining; visualization; cloud platform

      猜你喜歡
      數(shù)據(jù)挖掘
      探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
      基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
      電力與能源(2017年6期)2017-05-14 06:19:37
      數(shù)據(jù)挖掘技術(shù)在中醫(yī)診療數(shù)據(jù)分析中的應(yīng)用
      一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
      數(shù)據(jù)挖掘的分析與探索
      河南科技(2014年23期)2014-02-27 14:18:43
      基于GPGPU的離散數(shù)據(jù)挖掘研究
      象山县| 麟游县| 射阳县| 北安市| 兴隆县| 广灵县| 中西区| 屏东市| 阿拉善左旗| 甘德县| 慈溪市| 铜川市| 静安区| 潞西市| 景东| 延川县| 阳朔县| 许昌市| 福建省| 华蓥市| 五寨县| 随州市| 寻甸| 河间市| 如皋市| 永城市| 新巴尔虎左旗| 尼玛县| 武城县| 中西区| 鄂尔多斯市| 镇坪县| 普定县| 潞城市| 兴业县| 镇远县| 嘉义县| 渝北区| 蒙自县| 信阳市| 嘉兴市|