• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      大數據研究綜述

      2018-01-31 08:31:34鄭強高群
      科技視界 2018年30期
      關鍵詞:數據處理數據挖掘大數據

      鄭強 高群

      【摘 要】隨著移動互聯網、無線傳感網等技術的的發(fā)展,新興應用不斷涌現,數據成爆炸式增長。大數據成為重要的生產要素,蘊含著巨大的知識價值。本文介紹了了大數據的定義和面臨的技術挑戰(zhàn),歸納了大數據集成與預處理技術、數據分析與挖掘技術、數據展現技術,最后總結了大數據的發(fā)展趨勢,為大數據的研究提供有益參考。

      【關鍵詞】大數據;數據處理;數據挖掘

      中圖分類號: TP311.13 文獻標識碼: A 文章編號: 2095-2457(2018)30-0179-002

      DOI:10.19694/j.cnki.issn2095-2457.2018.30.078

      0 引言

      隨著無線傳感網、移動互聯網的普及,21世紀以來數據量呈現出指數級增長,社會已經步入大數據時代?!洞髷祿r代》一書的作者英國牛津大學教授維克托指出,大數據正在改變人們的工作和生活方式,并且更多的改變正在悄然發(fā)生。大數據已在網絡通信、金融市場、氣象預報等諸多領域得到廣泛應用[1]。大數據背后蘊含著巨大的價值,尤其是通過數據集成、分析與挖掘之后,其所表現出價值已經遠遠超過傳統的數據。大數據研究成為經濟和社會發(fā)展以及科技進步的重要推動力量。

      本文歸納和總結了大數據的定義、發(fā)展現狀和面臨的挑戰(zhàn)及其關鍵技術。首先闡述了大數據概念及其發(fā)展現狀、數據處理面臨的問題及挑戰(zhàn),然后分析了大數據技術,最后是全文總結并對大數據研究進行展望。

      1 大數據的概念

      著名咨詢公司麥肯錫給出的大數據定義:大數據指的是體量超出常規(guī)的數據庫工具獲取、存儲、管理和分析能力的數據集。并強調,并非一定要超過TB級的數據才可以稱作大數據[2]。《Science》雜志在2008年出版的??卸x大數據為“代表著人類認知過程的進步,數據集的規(guī)模是無法在可容忍的時間內用目前的技術、方法和理論去獲取、管理、處理的數據”。Gartner公司也給出了大數據的定義:大數據是高容量、高生成速率、種類繁多的信息價值,同時需要新的處理形式去確保判斷的作出、洞察力的發(fā)現和處理的優(yōu)化[3]。維基百科對大數據的定義則簡單明了:大數據是指利用常用軟件工具捕獲、管理和處理數據所耗時間超過可容忍時間的數據集。

      一般而言,大家比較認可關于大數據從早期的3V,4V說法到現在的5V。大數據的5V是指Volume,Velocity,Variety,Varacity,Value[4]。Volume:數據體量巨大;Velocity:數據生成速率高,時效要求高;Variety:數據類型繁多,既包括結構化數據,也包括半結構化和非結構化數據;Veracity:數據真實且準確;Value:數據潛在價值密度低,但價值高。

      2 大數據的現狀

      隨著數據科學的深入發(fā)展,歐美等眾多發(fā)達國家都意識到作為國家戰(zhàn)略資產的數據的重要性,分別發(fā)布了大數據發(fā)展戰(zhàn)略。美國于2012年頒布了《大數據研究和發(fā)展計劃》,包括約150余個項目類別,計劃項目涵蓋國防、衛(wèi)生、能源等諸多領域。我國也把大數據技術也提到了國家的戰(zhàn)略發(fā)展日程。2013年,國內多位院士聯合建議設立國家專項,開展大數據技術研究。事實上,大數據技術已經應用在互聯網、商業(yè)智能、金融業(yè)以及醫(yī)療、零售等行業(yè),并對社會、經濟產生了巨大的影響[5]。

      3 大數據面臨的挑戰(zhàn)

      不同于與傳統數據,大數據來源廣泛、種類繁多、動態(tài)增長,以上特點使得大數據技術面臨新的挑戰(zhàn),以下幾個方面尤其值得關注:

      3.1 數據異構性和不完整性

      據統計,目前半結構化和非結構化數據占當前社會數據總量的80%以上,已有的傳統的數據結構已經無法準確的描述它們。因此,將數據組織成易于處理的結構,進行數據集成是大數據處理面臨的一個重要難題。不完整性是指在大數據常常包含一些屬性值缺失的和錯誤的數據。在進行大數據分析處理之前,必須對數據的不完整性進行有效處理才能分析出有價值的信息。

      3.2 數據處理的實時性

      大數據有著很強的時效性,隨著時間的推移,數據背后所隱藏的的知識價值也會很快地降低。因此,大數據需要以較高的速率進行分析處理。

      3.3 數據安全與隱私保護

      大數據的隱私保護不僅僅涉及技術層面的問題同時也涉及到社會學倫理問題。相比于傳統的數據安全,大數據時代的數據安全變得尤為復雜,面臨著來自各方面的挑戰(zhàn)。因此在大數據環(huán)境下,如何保證數據共享的安全性以及怎樣為用戶提供精細可靠地的數據共享控制策略等問題的研究顯得越發(fā)重要。

      3.4 高能耗問題

      隨著大數據體量的爆炸式增長,數據中心規(guī)模的日漸擴大,高能耗制約大數據發(fā)展的問題已日益加重。針對降低能耗、提高數據中心可靠性問題,常見措施包括:冗余配置、云計算技術和分布式計算技術。在存儲時,首先要對數據進行分類,然后進行數據過濾和去重操作,來減少數據體量,同時建立多級索引以方便日后的查詢操作。

      3.5 大數據易用性問題

      易用性的挑戰(zhàn)突出體現在兩個方面:首先大數據的體量巨大,價值密度低,這使得分析過程更加復雜,而且輸出結果形式更加多樣化;其次,大數據展現技術也是易用性的一個重要方面。

      4 大數據技術

      大數據技術包含數據預處理、大數據存儲、大數據分析與挖掘、大數據展示技術及大數據安全等幾個方面。

      4.1 大數據預處理

      大數據最典型的特征是多源異構。原始數據中會包含一些“臟數據”,比如離群點,值缺失等狀況。因此首先需要進行數據的預處理和集成,為將來的數據分析和挖掘提供方便處理的數據集。目前市面上常見的方法大體可分為4類:基于物化或ETL引擎方法、基于聯邦數據庫或中間件方法、基于數據流引擎方法以及基于搜索引擎方法。

      4.2 大數據存儲與管理

      數據壓縮技術雖然能減少數據量和提高存儲效率,但同時也加重了計算結點的數據處理負擔??紤]到存儲空間和數據的性質,針對不同的數據采取不同的存儲方式。核心業(yè)務數據依舊采用傳統的并行數據倉庫進行存儲;時效性要求高的數據則采用實時數據庫或內存數據庫;對大量的累積數據和無結構數據則采用分布式文件系統。

      4.3 大數據分析與挖掘

      人們希望如何從海量的數據中迅速的提煉出關鍵信息,為社會和企業(yè)帶來價值。大數據分析的主要方法分為:統計數據分析方法、基于機器學習的分析方法、基于圖的分析方法和自然語言中的分析方法。大數據的挖掘包括關聯規(guī)則、分類分析、聚類分析等。常用的數據挖掘工具有:R語言、RapidMiner、免費的Weka、KNIME以及Prange等。最典型的挖掘平臺包括基于Hadoop的平臺和基于Spark的平臺。

      4.4 大數據展示技術

      作為最重要的展示技術,可視化技術可迅速有效地提煉數據流,幫助用戶迅速的從大量的數據中篩選出新的發(fā)現。大數據可視化技術包括:高維數據可視化、文本數據可視化、網絡數據可視化、時空數據可視化等。在大數據可視化分析領先的公司是Tableau Software公司,該公司致力于讓不懂可視化技術的特定行業(yè)領域知識專家也能方便地進行實時數據分析展示。其他可視化工具包括:文本可視化工具Wordle、網絡可視化工具Gephi以及Data-Dirven Documents。

      4.5 大數據隱私與安全

      面對日益嚴峻的大數據安全形勢,目前主流的安全解決方法包括:經典的文件訪問控制技術、設備加密技術、匿名保護技術、加密保護技術、數據水印技術等。同時提出利用大數據技術本身用作大數據安全防護的實現方法,增強大數據時代的信息安全防護性能。

      5 大數據發(fā)展趨勢

      隨著大數據應用的日益廣泛,新的問題也不斷涌現。大數據研究的方向大體如下[6]:

      (1)傳統的關系型數據庫與日益壯大的非關系數據庫的集成

      (2)采集的數據的不確定性與數據質量

      (3)跨領域數據集成方法的可移植性

      (4)利用大數據進行預測

      6 結束語

      大數據關系到到國防軍事、社會生活、經濟金融和科學技術等多方面的問題,大數據已經成為推動社會經濟發(fā)展的強進動力。本文首先闡述了大數據的概念和大數據技術面臨的挑戰(zhàn),然后介紹了大數據集成技術、數據分析與挖掘技術、數據展現技術,最后總結了大數據研究的重點方向。如何高效、合理地利用大數據為社會服務,還需要進一步地探索發(fā)現新技術。

      【參考文獻】

      [1]維克托·邁爾-舍恩伯格,肯尼思·庫克耶,ViktorMayer-Schonberger,等.大數據時代:生活、工作與思維的大變革[M].浙江人民出版社,2013.

      [2]孫勤紅,沈鳳仙.大數據時代的數據挖掘及應用[J].電子技術與軟件工程,2016(6):204-204.

      [3]Ji C,Li Y,Qiu W,et al.Big Data Processing in Cloud Computing Environments[C].International Symposium on Pervasive Systems,Algorithms and Networks.IEEE,2013:17-23.

      [4]方巍,鄭玉,徐江.大數據:概念、技術及應用研究綜述[J]. 南京信息工程大學學報,2014(5):405-419.

      [5]涂新莉,劉波,林偉偉.大數據研究綜述[J].計算機應用研究,2014,31(6):1612-1616.

      [6]中國計算機學會大數據專家委員會.中國大數據技術與產業(yè)發(fā)展白皮書[R].2013.

      猜你喜歡
      數據處理數據挖掘大數據
      認知診斷缺失數據處理方法的比較:零替換、多重插補與極大似然估計法*
      心理學報(2022年4期)2022-04-12 07:38:02
      ILWT-EEMD數據處理的ELM滾動軸承故障診斷
      水泵技術(2021年3期)2021-08-14 02:09:20
      探討人工智能與數據挖掘發(fā)展趨勢
      基于并行計算的大數據挖掘在電網中的應用
      電力與能源(2017年6期)2017-05-14 06:19:37
      基于大數據背景下的智慧城市建設研究
      科技視界(2016年20期)2016-09-29 10:53:22
      一種基于Hadoop的大數據挖掘云服務及應用
      基于希爾伯特- 黃變換的去噪法在外測數據處理中的應用
      基于GPGPU的離散數據挖掘研究
      基于POS AV610與PPP的車輛導航數據處理
      湘潭县| 剑阁县| 阜南县| 铜梁县| 临安市| 丰镇市| 文安县| 潮州市| 渝北区| 广宗县| 广饶县| 白朗县| 朝阳市| 临澧县| 辰溪县| 九龙县| 鄯善县| 巴中市| 区。| 伊通| 怀安县| 延吉市| 平度市| 伊川县| 繁昌县| 安丘市| 东源县| 桂林市| 宣恩县| 平阳县| 舟山市| 奉化市| 宜宾县| 防城港市| 微山县| 交口县| 麦盖提县| 丹凤县| 金阳县| 彭泽县| 河间市|