• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于QingStor對象存儲的數(shù)據(jù)湖解決方案

      2019-03-23 06:02:29青云QingCloud
      智能制造 2019年9期
      關鍵詞:數(shù)據(jù)倉庫結構化機器

      一、數(shù)據(jù)湖

      數(shù)據(jù)湖在學術上的定義是一種在系統(tǒng)或者存儲庫以自然格式存儲的方法。它有助于存儲各種模式和結構形式的數(shù)據(jù),通常是對象塊或者文件。

      為什么現(xiàn)在會提出新的自然存儲格式方法?以前如何存儲數(shù)據(jù)?在使用數(shù)據(jù)倉庫時需調動處理大量的數(shù)據(jù)。正是因為大數(shù)據(jù)的產生,提出了數(shù)據(jù)湖的概念。

      大數(shù)據(jù)來了,它就像水一樣,我們無法把水存在傳統(tǒng)的倉庫里。一是它太大了,二是它很廉價,三是它的形態(tài)不一樣了。大數(shù)據(jù)速度大快,就像洪水一樣,在使用過程中沒法做減庫、入庫的操作,要快速以自然的格式存儲。因此,傳統(tǒng)數(shù)據(jù)倉庫存的是結構化數(shù)據(jù),數(shù)據(jù)湖里存的是非結構化、半結構化的數(shù)據(jù)。

      二、數(shù)據(jù)湖實踐報告

      采用數(shù)據(jù)湖存儲數(shù)據(jù)的原因,一方面是現(xiàn)階段及未來需要處理大量非結構化的數(shù)據(jù),另一方面是為了機器學習和人工智能的分析使用。數(shù)據(jù)湖的產生會把數(shù)據(jù)倉庫的一部分功能移植到數(shù)據(jù)湖中,數(shù)據(jù)湖的成本比數(shù)據(jù)倉庫的成本更低廉。

      經過使用調研,近一半的人認為企業(yè)使用數(shù)據(jù)湖已經迫在眉睫,四分之一的人認為已經部署了數(shù)據(jù)湖,另外四分之一的人會在一年內部署數(shù)據(jù)湖。

      很多人把傳統(tǒng)數(shù)據(jù)放在數(shù)據(jù)湖里,數(shù)據(jù)湖不光有原始數(shù)據(jù),它也有大量的數(shù)據(jù)加工處理工作。它的數(shù)據(jù)量在不斷增加,逐步邁向PB級。

      從數(shù)據(jù)管理來說,數(shù)據(jù)湖還是由傳統(tǒng)的數(shù)據(jù)倉庫團隊管理和IT部門管理,業(yè)務部門只占少數(shù)。大部分是工程師、架構師和分析師在用數(shù)據(jù)湖,業(yè)務員和非技術人員用得比較少。

      從架構和平臺的采納方面來說,目前數(shù)據(jù)湖以Hadoop為多,傳統(tǒng)數(shù)據(jù)可以采用關系型數(shù)據(jù)湖,二者結合使用的也很好。

      三、HashData云端數(shù)據(jù)湖解決方案

      在青云QingCloud上的數(shù)據(jù)湖包括存儲、分析和搜索幾個模塊。存儲用的是QingStor對象存儲;分析用的是HashData V2版本計算引擎;數(shù)據(jù)攝取用的是QingMR,結合Kalka做存儲;機器學習除了配有QingMRSteaming和SparkMR,還有SQL機器學習的工具。

      在存儲方面,大家對數(shù)據(jù)湖的需求是數(shù)據(jù)湖要存得住、存得起。對象存儲支持海量的數(shù)據(jù)存儲,可以無限擴展,存大數(shù)據(jù)沒問題。存得起,就要我們提供一個經濟實用的存儲。從存儲角度來看,如果使用對象存儲,會大幅降低數(shù)據(jù)湖的存儲成本。

      存儲成本降下來了,如何保證你的計算性能?從計算層面,HashData采用了V2架構。

      (1)物聯(lián)網客戶使用實例

      HashDataV1版本在塊存儲磁盤上,大概有2萬IoT傳感器設備,每時每刻都在不斷地產生數(shù)據(jù),數(shù)據(jù)膨脹得非常厲害。如何按照客戶需求降低成本?通過青云的測試分級存儲機制,實現(xiàn)了既大幅降低了存儲成本,又保證了查詢性能的目標。

      HashDataV2的架構繼承了GreenPlum體系,用SQL解決問題,這簡化了數(shù)據(jù)湖的使用。

      (2)大數(shù)據(jù)工具

      大數(shù)據(jù)應用對實時性要求比較高。目前用得比較多的三個工具:Storm、Spark Steaming和FLink。對比Spark Steaming和Storm:

      實時性:Spark Steaming從計算模型來看是準實時;Storm是實時的,數(shù)據(jù)進入后便實時進行處理。

      延時性:Storm達到毫秒級,Spark Steaming達到秒級。

      存儲量:Spark Steaming更3<-點,它更符合大數(shù)據(jù)的處理需求,實現(xiàn)秒級接受可滿足一般應用場景需要。若產生幾萬條乃至10萬條數(shù)據(jù)方可批量寫入,不需要逐條寫。

      HashData標配是采用SparkSteaming做實時數(shù)據(jù)的攝取。

      機器學習分析Spark MLab是通用的,更多的是做MADlib,MADlib是Apache的頂級開源項目,只在PostgreSQL和GreenPlum體系里可以用。它的特點是基于SQL,以前用Spark做機器學習,用Python、Skyline或R。SQL大部分工程師都會用,學一兩周就能簡單上手。Spark能做的具體功能,它也可以做。它也是InDatabase的數(shù)據(jù)分析,數(shù)據(jù)湖就在其所屬的平臺上,如果要采用另外的工具分析,這里有大量的數(shù)據(jù)交換。它在Base里減少數(shù)據(jù)交換,并且可以充分利用HashData的并行計算,可以保證其性能。

      四、云端數(shù)據(jù)治理和數(shù)據(jù)安全

      前面談到數(shù)據(jù)治理和數(shù)據(jù)安全。HashData秉承PostgreSQL和GreenPlum完整的權限管理功能,如Table、Database和Funtcion等。

      在元數(shù)據(jù)管理上,存到HashData里的表和字段,除了存到數(shù)據(jù)節(jié)點上之外,還會把元數(shù)據(jù)存到GlobalCatalog上,這時數(shù)據(jù)治理工具或者DPU管理員可清楚地知道存到數(shù)據(jù)湖里有哪些數(shù)據(jù)、什么時候存的、數(shù)據(jù)有多大都可一目了然,數(shù)據(jù)治理非常方便。

      HashData主要應用場景就有工業(yè)數(shù)據(jù)湖。工業(yè)數(shù)據(jù)湖IoT有大量的數(shù)據(jù)需要做分析、預測性維修等。一部分是電信用戶行為分析、日志分析;還有交通大數(shù)據(jù)處理工作,例如卡口信息,在工作范圍內大量拍照,拍照后人工智能攝像頭可以很方便地把牌照信息進行結構化處理解析出來,結構化數(shù)據(jù)的存到HashData上,如牌照、車牌顏色等都存在數(shù)據(jù)庫里,并進一步分析其流量、高速公路繳費信息等。

      總結來說,HashData的優(yōu)勢是把它放在對象存儲的成本降下來了,同時保證性能不變。HashData也繼承了云的特點,通過鼠標操作就可以在幾分鐘內把集群起起來,不需要花一兩天的工夫安裝部署。技術生態(tài)秉承了原來GreenPlum、PostgreSQL這種用SQL解決問題的思路。在彈性方面,HashData支持在線擴容。

      猜你喜歡
      數(shù)據(jù)倉庫結構化機器
      機器狗
      機器狗
      促進知識結構化的主題式復習初探
      結構化面試方法在研究生復試中的應用
      計算機教育(2020年5期)2020-07-24 08:53:00
      基于數(shù)據(jù)倉庫的住房城鄉(xiāng)建設信息系統(tǒng)整合研究
      未來機器城
      電影(2018年8期)2018-09-21 08:00:06
      分布式存儲系統(tǒng)在液晶面板制造數(shù)據(jù)倉庫中的設計
      電子制作(2016年15期)2017-01-15 13:39:15
      探析電力系統(tǒng)調度中數(shù)據(jù)倉庫技術的應用
      基于數(shù)據(jù)倉庫的數(shù)據(jù)分析探索與實踐
      基于圖模型的通用半結構化數(shù)據(jù)檢索
      計算機工程(2015年8期)2015-07-03 12:20:35
      息烽县| 安岳县| 长白| 舒城县| 龙南县| 江口县| 大埔区| 桓仁| 兴业县| 甘泉县| 定远县| 博兴县| 蚌埠市| 云和县| 贵州省| 弥渡县| 兰西县| 永定县| 康马县| 太谷县| 锦屏县| 华阴市| 星座| 绥江县| 内丘县| 阜新市| 临汾市| 岚皋县| 临潭县| 凤城市| 滨海县| 玉林市| 泾源县| 扎囊县| 沿河| 平遥县| 措勤县| 塔河县| 安义县| 贵州省| 库车县|