• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    大數(shù)據(jù)技術(shù)發(fā)展的十個前沿方向(上)

    2015-03-17 02:10:24吳甘沙
    大數(shù)據(jù) 2015年2期
    關(guān)鍵詞:內(nèi)存數(shù)據(jù)庫

    大數(shù)據(jù)技術(shù)發(fā)展的十個前沿方向(上)

    Ten Fronties for Big Data Technologies (Part A)

    吳甘沙,男,現(xiàn)任英特爾中國研究院院長。2000年加入英特爾,先后在編程系統(tǒng)實驗室與嵌入式軟件實驗室承擔(dān)了技術(shù)與管理職位,期間參與或主持的研究項目有受控運行時、XScale微架構(gòu)、眾核架構(gòu)、數(shù)據(jù)并行編程及高生產(chǎn)率嵌入設(shè)備驅(qū)動程序開發(fā)工具等。2011年晉升為首席工程師,共同領(lǐng)導(dǎo)了公司的大數(shù)據(jù)中長期技術(shù)規(guī)劃,主持大數(shù)據(jù)方面的研究,工作重點為大數(shù)據(jù)內(nèi)存分析與數(shù)據(jù)貨幣化。在英特爾工作期間,發(fā)表了10余篇學(xué)術(shù)論文,有23項美國專利(10余項成為國際專利),14項專利進(jìn)入審核期。

    1 引言

    “大數(shù)據(jù)”的發(fā)展與IT產(chǎn)業(yè)其他領(lǐng)域的發(fā)展相輔相成,近年來互聯(lián)網(wǎng)、移動互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、云計算和高性能計算等方面的高速發(fā)展從內(nèi)涵上不斷推動大數(shù)據(jù)的技術(shù)演進(jìn),從外延上不斷延展大數(shù)據(jù)的應(yīng)用范圍。

    多年來,筆者有幸接觸國內(nèi)外學(xué)術(shù)界和工業(yè)界的大數(shù)據(jù)研究,2014年底受清華數(shù)據(jù)科學(xué)研究院之邀,把所見、所得、所思總結(jié)為《大數(shù)據(jù)的十個技術(shù)前沿》的演講。這次得到《大數(shù)據(jù)》雜志邀請,將其改為綜述文章,并分為3期刊出,分別為:膨脹宇宙、巴別之難、數(shù)據(jù)有價;軟硬兼施、多快好省、天下三分、分久必合;精益求精、人機(jī)消長、智能之爭。筆者嘗試從廣度視角介紹大數(shù)據(jù)發(fā)展前沿的一些技術(shù)趨勢和實踐。限于篇幅,論述可能不夠嚴(yán)密,介紹可能不夠深入,唯愿拋磚引玉,激發(fā)同仁的思考和討論。

    2 十大前沿方向綜述

    大數(shù)據(jù)的根本出發(fā)點是指數(shù)思維方式。美國未來研究院(Institute of the Future)的發(fā)起人Roy Amara提出的Amara法則[1]認(rèn)為人們往往會高估技術(shù)的短期影響力,而低估技術(shù)的長期影響力。數(shù)據(jù)總量的積累正是如此,在經(jīng)歷很長時間的緩慢增長之后,增長斜率會突然在一個臨界點后急劇增加,變?yōu)楸ㄊ皆鲩L。人們常說:“最近兩年產(chǎn)生的數(shù)據(jù)量相當(dāng)于人類歷史上產(chǎn)生的數(shù)據(jù)量總和的90%”、“現(xiàn)在產(chǎn)生的數(shù)據(jù)總量每兩年翻一番”。所有這些橋段都指向同一個現(xiàn)象——指數(shù)增長效應(yīng)。

    在過去50年里,指數(shù)效應(yīng)的主要驅(qū)動力是摩爾定律。英特爾的聯(lián)合創(chuàng)始人之一戈登·摩爾(Gordon Moore)預(yù)言:每過18個月,晶體管數(shù)量翻一番,相應(yīng)地中央處理器(central processing unit,CPU)性能翻番,成本折半,功耗折半。這種指數(shù)增長以鏈?zhǔn)椒磻?yīng)的方式波及各個方面,如磁介質(zhì)機(jī)械硬盤的容量增長以及主干網(wǎng)帶寬的增長,甚至是每美元能夠買到的數(shù)碼相機(jī)的像素數(shù)都呈現(xiàn)了指數(shù)級的增長效應(yīng)。最后,帶來了數(shù)據(jù)的摩爾定律。

    大數(shù)據(jù)發(fā)展的拐點已經(jīng)到來,目前正在逐漸成為經(jīng)濟(jì)活動的主要承載者。數(shù)據(jù)被稱為資產(chǎn)、原油、原材料、貨幣,無論哪種形容的方法都不過分。據(jù)IDC預(yù)測:2020年,70億人的數(shù)據(jù)化生存以及500億個互聯(lián)設(shè)備的感知、互聯(lián)和智能,將產(chǎn)生35 ZB的數(shù)據(jù)。1 ZB相當(dāng)于1 000 EB,目前谷歌公司的數(shù)據(jù)量級為數(shù)十EB,這就意味著,一年將產(chǎn)生相當(dāng)于1 000個谷歌公司的數(shù)據(jù)量。

    從數(shù)據(jù)中提取出價值,海量數(shù)據(jù)才有存在的意義。大數(shù)據(jù)的生命周期和價值鏈條通??梢苑殖?個階段:數(shù)據(jù)生成、獲取、存儲和分析。目前主流的大數(shù)據(jù)技術(shù)基本上是為了解決這4個問題。本文提到的10個技術(shù)前沿,基本上都落到這4個需求里,但總體來看又可以分成三大類。

    ● 解決數(shù)據(jù)本身的問題。分別為膨脹宇宙、巴別之難、數(shù)據(jù)有價。

    ● 解決大量的數(shù)據(jù)前提下,如何能夠?qū)崟r計算的問題。這里涉及技術(shù)手段與范式變遷,分為軟硬兼施、多快好省、天下三分、分久必合。

    ● 分析如何能夠提取更好、更精確的價值問題。分別為精益求精、人機(jī)消長、智能之爭。

    本期主要介紹膨脹宇宙、巴別之難、數(shù)據(jù)有價3個技術(shù)前沿。

    3 前沿方向一:膨脹宇宙

    面對數(shù)據(jù)量的爆炸,IDC創(chuàng)造了一個名詞——數(shù)據(jù)宇宙(data universe)。現(xiàn)在單機(jī)硬盤的容量已在TB級別,而商業(yè)公司的數(shù)據(jù)存儲量級從PB到EB再到ZB,甚至再到下一步Y(jié)B(美國國家安全局已經(jīng)在猶他規(guī)劃YB級別的數(shù)據(jù)中心)。與之對應(yīng)的是存儲技術(shù)的突飛猛進(jìn):存儲介質(zhì)技術(shù)發(fā)展、單服務(wù)器設(shè)計突破、分布式文件系統(tǒng)創(chuàng)新以及形形色色的分布式數(shù)據(jù)庫爆發(fā)。

    3.1 不斷涌現(xiàn)的新存儲介質(zhì)

    近年來,新的存儲介質(zhì)不斷涌現(xiàn),在性能和成本上都取得了長足的進(jìn)步,構(gòu)成了大數(shù)據(jù)發(fā)展的基礎(chǔ)。

    首先,磁介質(zhì)的機(jī)械硬盤技術(shù)快速發(fā)展,單碟容量在TB級別翻倍增長。

    其次,固態(tài)硬盤(solid state drives,SSD)獲得了廣泛普及,對革新存儲體系結(jié)構(gòu)起到畫龍點睛的作用,例如SAP HANA[2]架構(gòu)。又如AWS的SSD存儲I2,Databricks用它在2014年的Daytona Gray類Sort Benchmark奪魁(并列)。

    第三,PCIe SSD和閃存存儲(flash storage)更為激進(jìn)。從特立獨行的Fusion-io到眾望所歸的NVMe,以其輕量級棧、低CPU開銷、直接閃存訪問帶來高吞吐量和高IOPS(input/output operations per second,每秒進(jìn)行讀寫(I/O)操作的次數(shù))。

    第四,包含閃存和磁盤的混合存儲或聯(lián)合存儲是對軟硬件協(xié)同設(shè)計的創(chuàng)新。谷歌公司的Janus智能地把數(shù)據(jù)在閃存和磁盤之間進(jìn)行分配和遷移,閃存只存放1%的數(shù)據(jù),卻能服務(wù)28%的讀操作。

    第五,下一代非易失性隨機(jī)訪問存儲器(non-volatile random access memory,NVRAM)也將漸漸走上舞臺中央,它的特點包括訪問性能接近動態(tài)隨機(jī)存取存儲器(dynamic random access memory,DRAM)(最短時延為DRAM的2倍)、容量大、數(shù)據(jù)不易失、字節(jié)尋址(閃存只能塊訪問)等。這些特性將改寫整個存儲體系結(jié)構(gòu)的版圖,必將帶來內(nèi)存空間和文件系統(tǒng)的融合。

    第六,磁帶在超大規(guī)模數(shù)據(jù)備份和管理上仍有一席之地。谷歌公司作為世界上最大的磁帶機(jī)買家,利用磁帶對EB級別的數(shù)據(jù)進(jìn)行備份和管理,并通過位置隔離、應(yīng)用層問題隔離、存儲問題隔離、存儲介質(zhì)問題隔離等多種混合手段保證數(shù)據(jù)的可用性。

    3.2 不斷突出的單服務(wù)器的存儲極限

    在新存儲介質(zhì)層出不窮的同時,單服務(wù)器的存儲極限也在不斷突破。從2008年到2014年,主流單服務(wù)器內(nèi)存從8 GB發(fā)展到現(xiàn)在的96~192 GB。貨架產(chǎn)品里,單服務(wù)器最高內(nèi)存容量可達(dá)48 TB。在硬盤方面,從2008年到2014年,主流單服務(wù)器磁盤容量從1 TB發(fā)展到48 TB。

    2014年9月,英特爾開發(fā)者峰會展示了2U服務(wù)器可以容納1.5 TB內(nèi)存和100 TB硬盤,使高密度部署更上臺階。微軟公司在同年10月份宣布推出的Azure G系列虛擬機(jī),能夠提供單虛擬機(jī)448 GB內(nèi)存。這不但推動了大數(shù)據(jù)“內(nèi)存計算[2,3]”的普及,而且模糊了內(nèi)存和磁盤的邊界,越來越多內(nèi)存被用于緩存,甚至當(dāng)成RAM Disk使用[4]。

    3.3 創(chuàng)新的分布式文件系統(tǒng)

    大數(shù)據(jù)技術(shù)的發(fā)展起始于分布式文件系統(tǒng)(distributed file system,DFS)。當(dāng)前,分布式文件系統(tǒng)以Apache HDFS為主,但用戶需求在持續(xù)變化。一方面,數(shù)據(jù)中心的資源開始統(tǒng)一管理調(diào)度,分離的小集群被轉(zhuǎn)換成統(tǒng)一的大集群,對存儲系統(tǒng)的容量上限、存儲的空間效率、訪問控制和數(shù)據(jù)安全有了更高的要求。另一方面,存儲系統(tǒng)的使用模式由周期性的批處理應(yīng)用變成了交互式的查詢和實時流式應(yīng)用。

    下面簡單描述分布式文件系統(tǒng)的幾個最新發(fā)展。

    首先,HDFS(Hodoop Distributed File System, Hadoop分布式文件系統(tǒng))新實現(xiàn)的HDFS緩存功能允許用戶把某些常用數(shù)據(jù)塊保留在堆外內(nèi)存中,一方面可以增加數(shù)據(jù)帶寬,減少時延;另一方面,可以用于不同應(yīng)用之間的高速數(shù)據(jù)共享。

    第二,支持分層的存儲設(shè)備。數(shù)據(jù)中心一般都有內(nèi)存、SSD和硬盤等存儲設(shè)備,新型非易失存儲器(nonvolatile memory,NVM)也呼之欲出,還有各類傳統(tǒng)存儲系統(tǒng),如SAN(存儲區(qū)域網(wǎng)絡(luò))、NAS(網(wǎng)絡(luò)附屬存儲)和NETFS(網(wǎng)絡(luò)文件系統(tǒng))。因此,HDFS推出新功能heterogeneous storages(HDFS-2832)以支持異構(gòu)的存儲設(shè)備,適用不同應(yīng)用的存儲需求。

    第三,加密文件系統(tǒng)?,F(xiàn)在的典型部署是一個大集群容納所有用戶,由此帶來的問題就是數(shù)據(jù)安全。HDFS的新功能——加密式文件系統(tǒng)(HADOOP-10150),使用AES-CTR加密算法,能夠透明地對HDFS上的文件塊加密、解密,并且只有很小的性能損失。

    第四,內(nèi)存文件系統(tǒng),如RAMCloud[6]。它是由成千上萬臺普通服務(wù)器的主存組成的大規(guī)模存儲系統(tǒng),所有信息都存儲在這些快速的DRAM中,內(nèi)存取代了傳統(tǒng)系統(tǒng)中的硬盤,而硬盤只作為備份使用。其目標(biāo)是同時實現(xiàn)大規(guī)模(100~1 000 TB)和低時延(5~10 ms),比目前系統(tǒng)快100~1 000倍。在Spark[4]軟件棧中也加入了內(nèi)存文件系統(tǒng)Tachyon,特別適合迭代式的計算需求以及多應(yīng)用共享數(shù)據(jù)。

    最后值得一提的是糾刪碼(erasure coding),它最早應(yīng)用于通信領(lǐng)域,通過編碼機(jī)制實現(xiàn)傳輸過程中容錯甚至糾錯,如今它也被用到了大數(shù)據(jù)方向。英特爾公司和Cloudera公司一起推出了一種新的糾刪碼實現(xiàn)。

    3.4 蓬勃發(fā)展的NoSQL數(shù)據(jù)庫

    同時,基于DFS技術(shù)和MapReduce技術(shù)的演進(jìn),發(fā)展出品類豐富的NoSQL數(shù)據(jù)庫技術(shù)[3,6~12]。NoSQL數(shù)據(jù)庫摒棄了關(guān)系模型的約束,弱化了一致性的要求,從而獲得水平擴(kuò)展能力,支持更大規(guī)模的數(shù)據(jù)。其模式自由(schema free),不再堅持SQL查詢語言,因此催生了多種多樣的數(shù)據(jù)庫類型,目前被廣為接受的如下。

    (1)類表結(jié)構(gòu)數(shù)據(jù)庫

    類表結(jié)構(gòu)數(shù)據(jù)庫是最早出現(xiàn)且在模式上也是最接近于傳統(tǒng)數(shù)據(jù)庫的NoSQL數(shù)據(jù)庫,但多采用列存儲。其源頭是谷歌公司的BigTable[7],并且在此之上發(fā)展出HBase、Hypertable、Cassandra和著重安全的Accumulo(美國國家安全局使用)。

    (2)文檔數(shù)據(jù)庫

    數(shù)據(jù)保存載體是XML或JSON文件,從而能夠支持靈活豐富的數(shù)據(jù)模型。一般文檔數(shù)據(jù)庫可以通過鍵值或內(nèi)容進(jìn)行查詢。MongoDB是典型的文檔數(shù)據(jù)庫,也是DB Engines數(shù)據(jù)庫排行榜中排名最前的NoSQL數(shù)據(jù)庫(前10名當(dāng)中只有兩個NoSQL數(shù)據(jù)庫,另一個是Cassandra)。

    (3)鍵—值存儲

    因其易用性和普適性形成了NoSQL家族中最大的一支。鍵—值是最簡單的一種數(shù)據(jù)模型,在此之上可以實現(xiàn)更豐富的數(shù)據(jù)模型。目前,基于不同一致性和存儲介質(zhì)(內(nèi)存、SSD或硬盤)形成了很多選擇。比如,亞馬遜Dynamo[9]以最終一致性為主,而Berkeley DB[10]則保證串行一致性;Memcached[11]和Redis是基于主內(nèi)存的,而BigTable一族則是基于磁盤的。

    除了上面3種數(shù)據(jù)庫類型外,值得一提的是圖數(shù)據(jù)庫,將數(shù)據(jù)存儲在高效的圖結(jié)構(gòu)中,典型代表是Neo4j。另一個案例,由谷歌公司工程師開發(fā)的開源圖數(shù)據(jù)庫Cayley針對Linked Data和圖數(shù)據(jù)(如語義網(wǎng)絡(luò)和社交網(wǎng)絡(luò))。

    在NoSQL的蓬勃發(fā)展中,其重要理論支持“CAP(consistency,availability,partition tolerance)理論”也在演進(jìn)。傳統(tǒng)上CAP必須保證P(partition tolerance,分區(qū)容錯性),而在C(consistency,一致性)、A(availability,可用性)中取舍。Eric Brewer在名為《CAP理論十二周年回顧:“規(guī)則”變了》[12]一文中指出:CAP理論的3選2這一結(jié)論太過簡單化,實際情況要更復(fù)雜。首先,在同一數(shù)據(jù)中心,分區(qū)的情況很少出現(xiàn),意味著在系統(tǒng)不存在分區(qū)的情況下未必要犧牲C或A;其次,C和A之間的取舍可以在同一系統(tǒng)內(nèi)以非常細(xì)小的顆粒度反復(fù)發(fā)生,其取決于特定的操作、數(shù)據(jù)或用戶;再者,這3種性質(zhì)都不是非黑即白的,每個屬性都有多種度量。在這個前提下,CAP理論的應(yīng)用會更加復(fù)雜。Eric提出:CAP要在大部分時候允許完美的C和A;當(dāng)分區(qū)存在或者可以感知時,需要定義一種策略來探知其存在,并根據(jù)CAP理論的指導(dǎo)對其進(jìn)行處理。換句話說,創(chuàng)建一個CAP全都有的系統(tǒng)是可能的。

    NoSQL一般損失強(qiáng)一致性以換取性能,而抽樣方法允許用戶犧牲精度,以加快大規(guī)模數(shù)據(jù)集上查詢的響應(yīng)速度。其代表為BlinkDB,主要思想包括兩個方面:一個是自適應(yīng)優(yōu)化框架,從原始數(shù)據(jù)中建立和維護(hù)一個多維度的采樣集合;另一個是動態(tài)采樣策略,根據(jù)查詢的精度和響應(yīng)時間要求,決定采樣數(shù)據(jù)的規(guī)模。在VLDB 2012的展示上,BlinkDB使用100個Amazon EC2節(jié)點組成的機(jī)群處理17 TB的數(shù)據(jù),能夠在2 s之內(nèi)響應(yīng)一系列的查詢,速度是Hive的200倍,而錯誤率也被控制在2%~10%。

    在NoSQL提出近4年后,來自The 451 Group的Matthew Aslett在2011年提出了NewSQL[13]數(shù)據(jù)庫的概念。NewSQL既能提供近似NoSQL的性能和可擴(kuò)展性,又能提供類似于傳統(tǒng)關(guān)系數(shù)據(jù)庫那樣的關(guān)系模型、事務(wù)和SQL語言接口。從架構(gòu)或者實現(xiàn)角度來看,NewSQL系統(tǒng)可以分成三大類。

    (1)使用全新的架構(gòu)

    該類又可以分成兩類:第一類系統(tǒng)一般使用shared-nothing(無共享)架構(gòu),所有的節(jié)點都具有處理事務(wù)的能力,系統(tǒng)具有近似線性的擴(kuò)展能力,其可以是通用的數(shù)據(jù)庫(如Google Spanner[3])或者為某種特定場合設(shè)計的數(shù)據(jù)庫(如VoltDB[14]);第二類系統(tǒng)則使用主從架構(gòu),有專門的節(jié)點進(jìn)行事務(wù)處理,這種設(shè)計使得系統(tǒng)的擴(kuò)展能力會受到一定限制。

    (2)各種MySQL存儲引擎

    MySQL是一個高度可擴(kuò)展的架構(gòu),可以根據(jù)特定的應(yīng)用場景為MySQL編寫各種存儲引擎,比較出名和成熟的有TokuDB、MemSQL、ScaleDB等。最新版本的MySQL 6.5既支持傳統(tǒng)的關(guān)系數(shù)據(jù)模型,又支持鍵值對數(shù)據(jù)模型,此外還支持Memcached的訪問協(xié)議。

    (3)透明數(shù)據(jù)分區(qū)技術(shù)

    與Cobar很相似,能夠自動地對數(shù)據(jù)分區(qū),并進(jìn)行分布式事務(wù)管理,如dbShards、Scalearc和ScaleBase等。

    作為NewSQL的一種主流,內(nèi)存數(shù)據(jù)庫以其優(yōu)越性能成為新寵,主要包括兩類:一類是傳統(tǒng)數(shù)據(jù)庫加上內(nèi)存選項,如Oracle 12c[15](包括Exalytics和Exadata)、IBM DB2帶BLU加速以及微軟SQL Server 2014等;另一類是完全重起爐灶設(shè)計的新型數(shù)據(jù)庫,包括Altibase、MemSQL、VoltDB、EXASOL、H20和SAP HANA等。不斷增加的內(nèi)存容量也為商業(yè)數(shù)據(jù)分析帶來了新的可能:hybrid transaction/analytical processing(HTAP)在同一片內(nèi)存中完成事務(wù)性的數(shù)據(jù)存取與分析過程,消除了數(shù)據(jù)ETL的代價。

    Hadoop不支持ACID事務(wù)限制了其應(yīng)用場景,如刪除舊的記錄、更新表格中任意一項等均無法在Hadoop生態(tài)圈的工具中完成。因此,Hadoop最新推出的特性也體現(xiàn)了NewSQL的影響。首先是Hive,從0.14版本開始能夠在給定的限制下支持NewSQL操作;隨后HBase也開始支持Transaction操作。

    針對執(zhí)行時間較長的操作,Hive推出了LLAP優(yōu)化。其包括如下特性:有效降低啟動開銷;充分利用JIT優(yōu)化引擎;對于向量算子采用多線程執(zhí)行,并在這些線程之間共享元數(shù)據(jù);異步I/O。這些優(yōu)化與Tez等執(zhí)行引擎相互獨立,協(xié)同工作,以加快Hive的查詢速度。被認(rèn)為是Hadoop接班人的Spark也啟動了稱為Tungsten的項目,對Spark的核心引擎進(jìn)行加速。Tungsten專注于改善Spark對內(nèi)存和CPU的利用情況,主要包括以下3個改動:使用程序語義以改善JVM的對象模型和垃圾收集功能;設(shè)計cache-aware的算法和數(shù)據(jù)結(jié)構(gòu),以更好地利用層次存儲體系(memory hierarchy);利用代碼生成(code generation),以更好地發(fā)揮現(xiàn)代編譯器和CPU的能力。

    谷歌公司仍然推動著超大規(guī)模廣域數(shù)據(jù)庫研究的前沿,連續(xù)推出Metastore、Spanner和F1。尤其值得一提的是Spanner,可擴(kuò)展到幾百萬個機(jī)器節(jié)點,跨越成百上千個數(shù)據(jù)中心,具備幾萬億個數(shù)據(jù)庫行的規(guī)模。在最高抽象層面,Spanner就是一個數(shù)據(jù)庫,把數(shù)據(jù)分片存儲在許多Paxos狀態(tài)機(jī)上,這些機(jī)器位于遍布全球的數(shù)據(jù)中心內(nèi),通過復(fù)制技術(shù)實現(xiàn)全球可用性和地理局部性,保證即使面對大范圍的自然災(zāi)害時數(shù)據(jù)依然可用(它的開源克隆CockroachDB名字取自蟑螂,寓指其超強(qiáng)的生存能力)。與Spanner同時現(xiàn)身的是新一代的谷歌文件系統(tǒng)Colossus,它們將取代BigTable和上一代谷歌文件系統(tǒng)的核心地位。F1是建筑在Spanner之上的關(guān)系數(shù)據(jù)庫。在上述的NoSQL/NewSQL數(shù)據(jù)庫上衍生出很多針對特定用途的數(shù)據(jù)庫。如OpenTSDB和KairosDB是基于HBase和Cassandra的時間序列數(shù)據(jù)庫。

    傳統(tǒng)上,比較“小眾”的科學(xué)計算數(shù)據(jù)庫也開始向大數(shù)據(jù)融合,主要體現(xiàn)為并行數(shù)組數(shù)據(jù)庫(array DBMS)。目前得到最多關(guān)注的是SciDB,其作為開源的科學(xué)領(lǐng)域數(shù)據(jù)庫,設(shè)計初衷旨在提供多維數(shù)據(jù)管理,更好地支持具有科學(xué)計算特點的分析,比如它使用數(shù)組數(shù)據(jù)模型,允許行列交換,支持查詢語言和數(shù)學(xué)計算,性能上比傳統(tǒng)RDBMS快兩個數(shù)量級。另一個相關(guān)工作是TileDB,作為一個針對數(shù)組數(shù)據(jù)做優(yōu)化分塊(tiling)策略的存儲管理器,也將發(fā)展成為完整的分布式DBMS。它針對物理世界數(shù)據(jù)的高度skew和稀疏性,實現(xiàn)了非規(guī)則分塊的策略,從而達(dá)到更高效的存儲和負(fù)載均衡。

    4 前沿方向二:巴別之難

    圣經(jīng)里有一個巴別寓言:在人類文明初期,曾經(jīng)是“天下人用同一種口音語言說話”,人類語言相同,因而能夠高效地合作。于是他們聚在一起要造“一座城和一座塔,塔頂通天”。但是,神不容許人類破壞神所定的綱紀(jì),所以一夜之間擾亂了人類的口音和語言,讓人類溝通困難,最終放棄建造工程,從而分布到不同的地方去。那個城叫巴別城,塔叫巴別塔。自此以后,“大一統(tǒng)”成為人類的夢想,但是語言障礙是最大的阻礙。

    數(shù)據(jù)世界也面臨同樣的問題。不同來源、不同地方的數(shù)據(jù)用不同語言(格式)表示,即使相同格式,其語意和度量衡也可能不同。這些因素極大地阻礙了數(shù)據(jù)共享,限制了數(shù)據(jù)使用的范圍。另一方面,數(shù)據(jù)可能是不完備的,甚至是相互之間矛盾的,這樣導(dǎo)致了一個問題,即沒有辦法利用更多的數(shù)據(jù)產(chǎn)生更好的價值。

    為解決這些問題,Data Curation1https://www. ideals.illinois.edu/ handle/2142/3493應(yīng)運而生,中文可譯為“數(shù)據(jù)治理”。其原意是指在科學(xué)計算中的數(shù)據(jù)抽取、轉(zhuǎn)換、保存和復(fù)用。后來逐漸擴(kuò)展,數(shù)據(jù)治理包含在科學(xué)、人文、社會、教育所有領(lǐng)域,對數(shù)據(jù)進(jìn)行發(fā)現(xiàn)、獲取、質(zhì)保、增值、重用的活動。在這里強(qiáng)調(diào)的是數(shù)據(jù)治理中與數(shù)據(jù)分享相關(guān)的技術(shù)——data munging / data wrangling(數(shù)據(jù)再加工)2http://www. quora.com/ What-is-datamunging。數(shù)據(jù)再加工是指把數(shù)據(jù)從原始格式中抽取出來,然后向其他格式轉(zhuǎn)化的過程。以前這個過程以手工為主,現(xiàn)在將逐漸變?yōu)榘胱詣雍妥詣舆^程。這是一個很難的題目,參考NP困難的提法,將其稱為DB困難。

    數(shù)據(jù)再治理技術(shù)希望打破數(shù)據(jù)的語義隔閡。新科圖靈獎得主Michael Stonebraker目前就在做data wrangling。他的goby.com項目(如圖1https://www. ideals.illinois.edu/ handle/2142/3493所示),根據(jù)某些條件返回與suicide six相關(guān)的幾個選項,如何甄別這幾個選項是否代表著同一個東西。Stonebraker開發(fā)的Data Tamer系統(tǒng)能夠模擬人的推理思路,從不同的選項里面發(fā)現(xiàn)不同的線索。首先比較這些選項的源網(wǎng)站,接著進(jìn)入選項所指的網(wǎng)頁,分析數(shù)據(jù)的異同。通過對數(shù)據(jù)進(jìn)一步發(fā)掘,發(fā)現(xiàn)數(shù)據(jù)描述的主體有很多特征,以這些這些特征為基礎(chǔ),發(fā)現(xiàn)相似特征。通過證據(jù)的不斷疊加,發(fā)現(xiàn)數(shù)據(jù)與數(shù)據(jù)之間的關(guān)聯(lián)性。

    圖1 數(shù)據(jù)發(fā)現(xiàn)示例

    Data Tamer技術(shù)的關(guān)鍵在于通過自動化的學(xué)習(xí)方式,發(fā)現(xiàn)數(shù)據(jù)中的規(guī)律和關(guān)聯(lián)。首先是在文本這種典型的非結(jié)構(gòu)化數(shù)據(jù)中發(fā)現(xiàn)結(jié)構(gòu);其次是發(fā)現(xiàn)重要的實體(entity)。而這一切都希望能夠通過自動化學(xué)習(xí)來完成。同樣在這個領(lǐng)域發(fā)力的還有Trifacta,該公司提出了“l(fā)ive in visualizations, not code”的口號,致力于讓用戶通過可視化完成data wrangling的工作。其基礎(chǔ)是專門針對data wrangling任務(wù)設(shè)計的DSL,追求靈活和擴(kuò)展的用戶也可以在Trifacta提供的DSL上編寫自己的腳本。

    Data Wrangling下一步希望從半結(jié)構(gòu)化或者多結(jié)構(gòu)化的數(shù)據(jù)進(jìn)一步擴(kuò)展到完全非結(jié)構(gòu)化的數(shù)據(jù),如圖片和語音。

    數(shù)據(jù)治理完畢和數(shù)據(jù)質(zhì)量提升以后,就是數(shù)據(jù)組織問題。

    在今天的許多商業(yè)場景下,傳統(tǒng)數(shù)據(jù)庫和數(shù)據(jù)倉庫在數(shù)據(jù)治理上暴露出難以操作和缺乏彈性的缺點。Schroeder認(rèn)為Data Agility的重要性將不斷上升,其關(guān)鍵在于組織數(shù)據(jù)。數(shù)據(jù)組織的復(fù)雜性使得數(shù)據(jù)很難被及時利用,更遑論進(jìn)行實時更新,這極大地提高了數(shù)據(jù)使用成本3http://www. cio.com/article/ 2862014/bigdata/5-bigdata-technologypredictions-for-2015.html。

    主流的大數(shù)據(jù)處理框架紛紛提升其數(shù)據(jù)描述和組織的靈活性。Spark在1.4版本中引入了稱為DataFrame的新API。一個DataFrame就是許多列數(shù)據(jù)的集合,每一列都是被命名的??梢詫⑵淇醋鹘Y(jié)構(gòu)化數(shù)據(jù)中的表格或R/Python中的data frame,不同之處在于其支持許多優(yōu)化算子。DataFrame可由多種來源構(gòu)成,如結(jié)構(gòu)化數(shù)據(jù)文件、Hive表格、外部數(shù)據(jù)庫或者RDD結(jié)構(gòu)。而GraphLab在圖數(shù)據(jù)之外,也開始支持表結(jié)構(gòu)SFrame。

    另一個值得關(guān)注的數(shù)據(jù)組織工具是Apache的UIMA。IBMWatson在知識競賽jeopardy中戰(zhàn)勝了兩個此項目的前世界冠軍,其組織多種形態(tài)數(shù)據(jù)的基礎(chǔ)就是UIMA,它的優(yōu)點是組織數(shù)據(jù)以便于后期的分析。

    5 前沿方向三:數(shù)據(jù)有價

    數(shù)據(jù)作為未來經(jīng)濟(jì)的石油,自身必須有一個特性——價值。

    數(shù)據(jù)的物理實質(zhì)是記錄在介質(zhì)上的比特。比特是可以低成本無限復(fù)制的,這就和物品稀缺性矛盾了。物品失去了稀缺性后,其價值也就趨近于零。所以,數(shù)據(jù)有價首先要確保數(shù)據(jù)的權(quán)利。

    為了確保數(shù)據(jù)的權(quán)利,先要保證數(shù)據(jù)的安全。大數(shù)據(jù)的安全本身又分為大數(shù)據(jù)系統(tǒng)的安全、數(shù)據(jù)本身的安全以及數(shù)據(jù)使用中的安全。

    有了數(shù)據(jù)權(quán)利和保障數(shù)據(jù)權(quán)利的數(shù)據(jù)安全,數(shù)據(jù)才能進(jìn)行定價。

    5.1 數(shù)據(jù)權(quán)利

    在互聯(lián)網(wǎng)和物聯(lián)網(wǎng)時代,數(shù)據(jù)的存在形式已經(jīng)變得非常復(fù)雜。在整個價值鏈條中,有數(shù)據(jù)源頭、數(shù)據(jù)收集者、數(shù)據(jù)存儲者、數(shù)據(jù)使用者等。在多數(shù)商業(yè)場景下,他們都是不同客體。所以整個價值鏈中,權(quán)利的定義是一個重要的技術(shù)、商業(yè)和法律的課題。

    如圖2所示,筆者初步認(rèn)為有如下5個基本權(quán)利。

    ● 擁有權(quán)。必須明確數(shù)據(jù)的擁有權(quán),像其他的物理財產(chǎn)一樣,擁有權(quán)可以出現(xiàn)變更和分割。

    ● 數(shù)據(jù)隱私權(quán)。即明確什么數(shù)據(jù)能夠披露、什么數(shù)據(jù)不能披露、披露到什么樣的粒度。

    圖2 數(shù)據(jù)的權(quán)利

    ● 數(shù)據(jù)許可權(quán)。哪些人在什么時間有權(quán)利看數(shù)據(jù),是有約束的,比如今天允許給某個人看數(shù)據(jù),明天就不允許。這個權(quán)利是可撤銷的,也是可轉(zhuǎn)移的。

    ● 數(shù)據(jù)審計權(quán)。監(jiān)督用戶按照某個規(guī)范許可使用數(shù)據(jù)。需要有一種審計機(jī)制,確保用戶按照約定的許可規(guī)范使用數(shù)據(jù)。

    ● 數(shù)據(jù)分紅權(quán)?;跀?shù)據(jù)外部性,獲得數(shù)據(jù)使用許可的一方在反復(fù)使用數(shù)據(jù)中會產(chǎn)生新的價值,那么數(shù)據(jù)擁有者有沒有可能得到分紅?

    5.2 數(shù)據(jù)安全

    保障數(shù)據(jù)權(quán)利的核心是數(shù)據(jù)的安全問題。既有傳統(tǒng)的信息系統(tǒng)安全問題,也有復(fù)雜的數(shù)據(jù)內(nèi)容安全問題。

    信息系統(tǒng)安全主要是大數(shù)據(jù)系統(tǒng)的安全控制,正在迅速地發(fā)展成熟。以Hadoop為例,加入了基于Kerberos的用戶和服務(wù)鑒權(quán)、HDFS文件和數(shù)據(jù)塊權(quán)限控制。比如Apache Accumulo是一個開源數(shù)據(jù)庫,美國國家安全局幾十個PB的數(shù)據(jù)存在這里,它采用了一種基于標(biāo)簽(label)的非常靈活的訪問控制機(jī)制。在HBase里面也利用coprocessor的機(jī)制實現(xiàn)了類似的訪問控制。

    數(shù)據(jù)內(nèi)容安全超越了訪問控制和數(shù)據(jù)加密,更加復(fù)雜,可以稱為“動態(tài)數(shù)據(jù)安全”。動態(tài)數(shù)據(jù)安全是大數(shù)據(jù)安全特有的新問題。

    動態(tài)數(shù)據(jù)安全產(chǎn)生的原因是在監(jiān)控和審計數(shù)據(jù)使用的過程中,不能簡單地使用“允許/不允許”的靜態(tài)策略來管理數(shù)據(jù)訪問。數(shù)據(jù)一定要能被訪問,否則數(shù)據(jù)就不能流動。關(guān)鍵是要在數(shù)據(jù)被訪問和被加工的過程中動態(tài)地對數(shù)據(jù)流動方向、數(shù)據(jù)使用范圍、數(shù)據(jù)使用粒度進(jìn)行跟蹤和監(jiān)控。

    數(shù)據(jù)監(jiān)控主要分以下幾個步驟完成。

    (1)在數(shù)據(jù)產(chǎn)生的源頭進(jìn)行監(jiān)控和規(guī)劃

    首先,個人對數(shù)據(jù)的控制?,F(xiàn)在個人用戶對自己的數(shù)據(jù)有了一定的控制能力,比如do not track功能可以防止互聯(lián)網(wǎng)服務(wù)商根據(jù)cookie不斷地跟蹤用戶行為,可以避免廣告的retargeting,比如在京東商城上看中一雙鞋,到了淘寶上它的廣告還是跟著消費者這種情況。

    另外,個人數(shù)據(jù)的刪除。目前可以要求一些互聯(lián)網(wǎng)的服務(wù)提供商把個人的數(shù)據(jù)刪掉。值得一提的是MIT的創(chuàng)新項目OpenPDS(open personal data store),允許個人對自己的數(shù)據(jù)進(jìn)行收集和控制,在保護(hù)隱私的前提下向第三方提供數(shù)據(jù),并且獲得價值。

    (2)對數(shù)據(jù)分享的粒度進(jìn)行控制

    數(shù)據(jù)脫敏或匿名化是目前數(shù)據(jù)安全中最熱的一個研究領(lǐng)域。如何保證開放數(shù)據(jù)里不泄露個人的隱私信息,是一個重大課題。在歷史上很多的數(shù)據(jù)開放都導(dǎo)致了這樣的問題。比如美國在線開放的匿名搜索數(shù)據(jù),有人把這個跟美國選舉公開信息進(jìn)行了匹配,使得某些個人的隱私被暴露出來。

    傳統(tǒng)的脫敏方法是去標(biāo)識符。比如一張表有姓名、年齡、性別、郵編和疾病幾列,姓名是可以唯一標(biāo)識個人的,叫做標(biāo)識符。針對隱私的攻擊方式還有很多。比如多數(shù)據(jù)源的相互匹配,Netflix嘗試在去標(biāo)識后開放了一些數(shù)據(jù),但是有人把去標(biāo)識后的數(shù)據(jù)跟IMDB做了匹配,把一些有同性戀傾向的人找了出來,這就是多數(shù)據(jù)源的攻擊。而研究表明,根據(jù)年齡、性別和郵編的信息,有90%以上的概率可以定位個人,這些屬性叫準(zhǔn)標(biāo)識符,而這種攻擊基于數(shù)據(jù)概率分布。

    要防止這些隱私攻擊,現(xiàn)在推出了很多技術(shù),如K-anonymity[16]。K的意思是在所有準(zhǔn)標(biāo)識符都相同的組別里(比如,在上述的數(shù)據(jù)表例子中,年齡、性別和郵編都相同的所有數(shù)據(jù)記錄)保證至少有k個相同的記錄,從而提高單個記錄被多數(shù)據(jù)源交叉定位的難度。后續(xù)發(fā)展出了L-diversity[17]和T-Closeness[18],繼續(xù)對跨組別敏感信息的統(tǒng)計分布提出更高的可區(qū)分度的要求。

    2006年提出的差分隱私(differential privacy)[8]是近幾年最熱門的匿名化方法。這項技術(shù)提出,在數(shù)據(jù)中人為地插入噪聲,同時通過精確模型設(shè)定保證噪音的程度不足以干擾各種數(shù)據(jù)分析算法(已經(jīng)實際展示的有決策樹、分類、聚類等),這樣可以實現(xiàn)數(shù)據(jù)價值(信息粒度)和數(shù)據(jù)安全的平衡。

    (3)建立數(shù)據(jù)使用的安全框架

    未來,數(shù)據(jù)使用能夠做到可用但不可見,相交但不相識。因為在幾乎所有的大數(shù)據(jù)場景下,真正重要的數(shù)據(jù)分析結(jié)果,其實原始數(shù)據(jù)不是必須被公開或者傳遞的。為了實現(xiàn)這個目標(biāo),牽扯到以下幾種技術(shù)。

    ● 同態(tài)加密。典型的是CryptDB/ Monomi[19],能夠在加密的數(shù)據(jù)庫上運行正常的SQL查詢,而不用擔(dān)心數(shù)據(jù)的明文被泄露,谷歌、SAP等公司都采用或借鑒了CryptDB的技術(shù)。

    ● 基于加密協(xié)議的多方安全計算。圖靈獎得主姚期智先生1982年開始研究這個問題,叫做“百萬富翁的窘境”:兩個百萬富翁要比誰更有錢,但是誰都不愿意說出自己的財富數(shù)值,這就是典型一種保護(hù)隱私下的多方安全計算場景。

    ● 基于可信計算環(huán)境的多方安全計算。前兩種需要涉及晦澀難懂的加密算法,而基于可信計算環(huán)境的多方安全計算對數(shù)據(jù)計算的改變最小,也最有前途。當(dāng)然,可信計算環(huán)境需要一些硬件支持。英特爾平臺上開發(fā)了TXT、TPM、VT-d,目的都是保證應(yīng)用計算環(huán)境是可信、可溯源的,計算中的數(shù)據(jù)被隔離保護(hù)。即將推出的下一個技術(shù)叫SGX[20],它保證數(shù)據(jù)在磁盤和內(nèi)存里面都是加密的,只有載入CPU里面進(jìn)行計算的時候才是明文,更進(jìn)一步隔離了磁盤和內(nèi)存的物理攻擊機(jī)會。

    (4)區(qū)塊鏈與零知識證明、多方安全計算等融合

    在未來高度分布、去中心化場景下,可能會發(fā)展出各個數(shù)據(jù)實體之間不存在單個核心節(jié)點的安全控制機(jī)制。最典型的就是比特幣所依賴的區(qū)塊鏈(block chain)4http://www. bitcoin.org/ bitcoin.pdf, 2012技術(shù)被廣泛看好,將承擔(dān)全球規(guī)模的去中心化金融系統(tǒng)中事務(wù)記錄、支付、數(shù)據(jù)資產(chǎn)管理和交易、智能合約等業(yè)務(wù),以太坊(Ethereum)5http:// ethereum.org/ ethereum. html, 2013是實現(xiàn)這些業(yè)務(wù)的開放應(yīng)用開發(fā)環(huán)境。區(qū)塊鏈技術(shù)也將被應(yīng)用于個人數(shù)據(jù)控制(如上述OpenPDS的下一代Open Mustard Seed框架)和分布式數(shù)據(jù)存儲(如MaidSafe)。區(qū)塊鏈與零知識證明、多方安全計算等融合,將有可能成為下一代互聯(lián)網(wǎng)基礎(chǔ)設(shè)施平臺。

    5.3 數(shù)據(jù)審計監(jiān)管的技術(shù)

    系統(tǒng)安全、數(shù)據(jù)安全、使用安全都需要審計作為保證。所謂審計就是給出一個數(shù)據(jù)使用的條款,按照條款監(jiān)控數(shù)據(jù)的使用。設(shè)計條款必須有形式化的描述,其目的在于讓非IT的專業(yè)領(lǐng)域人員編寫這些條款,如企業(yè)法務(wù)。如果一個企業(yè)的數(shù)據(jù)要開放給另外一個企業(yè),需要法律人士給出邏輯嚴(yán)格的使用條例,條例的內(nèi)容本質(zhì)上不是IT范疇。同時,因為條例規(guī)范是形式化的,IT技術(shù)方案也可以據(jù)此對數(shù)據(jù)的使用進(jìn)行必要的審計監(jiān)控。

    5.4 數(shù)據(jù)定價的技術(shù)

    數(shù)據(jù)定價是最具挑戰(zhàn)性的研究方向,尚無成熟的研究成果。目前數(shù)據(jù)的定價有兩個依據(jù):一是根據(jù)效用,二是根據(jù)稀缺性。數(shù)據(jù)效用簡單來說,就是數(shù)據(jù)使用的頻率,也可以理解為從分析結(jié)果逆推數(shù)據(jù)的淵源(lineage),從而量化各方數(shù)據(jù)對結(jié)果的貢獻(xiàn)度。稀缺性則是根據(jù)數(shù)據(jù)價值的密度以及歷史價格的稀缺性進(jìn)行定價。

    5.5 數(shù)據(jù)咖啡館

    基于上述這些前沿技術(shù),英特爾中國研究院開發(fā)了一個數(shù)據(jù)分享原型平臺——數(shù)據(jù)咖啡館??Х瑞^的寓意是讓不同的人能夠聚在一起進(jìn)行思想的碰撞,產(chǎn)生新的價值。數(shù)據(jù)咖啡館希望能夠讓不同方的數(shù)據(jù)碰在一起,產(chǎn)生新的價值。

    許多獨立垂直電商或者線下行業(yè)用戶,僅靠其自身收集的消費者數(shù)據(jù)不足以對消費者建立精準(zhǔn)的營銷模型。因此,他們需要彼此間開放數(shù)據(jù),甚至從通信、地圖等專業(yè)數(shù)據(jù)源持續(xù)地購買數(shù)據(jù)服務(wù)。

    另一個案例是癌癥的研究和治療。癌癥是一個長尾病癥,過去50年癌癥的治愈率只提升了8%,在所有的疑難雜癥中是提升最少的,很大的原因是不同研究機(jī)構(gòu)癌癥的基因組樣本非常有限。但是,共享基因組樣本受到嚴(yán)格的隱私法律的限制。英特爾中國研究院希望通過技術(shù)創(chuàng)新把這些數(shù)據(jù)匯聚到一起,加速癌癥研究的技術(shù)突破?,F(xiàn)在,英特爾中國研究院跟美國幾家研究機(jī)構(gòu)有一個愿景:在2020年前,一天之內(nèi)一個癌癥患者來到醫(yī)院能夠完成全基因組測序,同時分析出致癌的基因,并且給出個性化的治療方案。

    數(shù)據(jù)咖啡館的目標(biāo)就是幫助這樣的場景能夠持續(xù)、高效、低成本地運作。其創(chuàng)新點包括:集成了分布式云環(huán)境下的可信任大數(shù)據(jù)計算環(huán)境;形式化地描述數(shù)據(jù)使用規(guī)范;探索基于數(shù)據(jù)使用規(guī)范的程序檢查器,包括對代碼的靜態(tài)檢查以及對結(jié)果的動態(tài)檢查。

    未來數(shù)據(jù)咖啡館的應(yīng)用場景:企業(yè)的數(shù)據(jù)擁有方是一方,但是沒有分析能力;具有分析能力的獨立的數(shù)據(jù)使用者又是一方。數(shù)據(jù)擁有方的IT人員準(zhǔn)備了數(shù)據(jù)存儲和數(shù)據(jù)格式,商務(wù)和法務(wù)人員編寫數(shù)據(jù)使用規(guī)范。將數(shù)據(jù)格式和數(shù)據(jù)使用規(guī)范提交到數(shù)據(jù)咖啡館云。數(shù)據(jù)使用方的分析師們編寫分析代碼,并提交到云上。云首先對代碼進(jìn)行檢查,把它拆成預(yù)處理和全局分析兩部分,其中預(yù)處理部分在數(shù)據(jù)擁有方的防火墻內(nèi)執(zhí)行。發(fā)送前,在云內(nèi)先運行一個靜態(tài)的檢查器,根據(jù)數(shù)據(jù)使用規(guī)范檢查代碼的合法性。只有通過合法性檢查的代碼才會被送到數(shù)據(jù)提供方進(jìn)行計算。然后,把階段性的處理結(jié)果送回云。在送回前,由動態(tài)檢查器對結(jié)果進(jìn)行審計檢查。只有完全符合數(shù)據(jù)使用規(guī)范,全局分析部分才能收到預(yù)處理結(jié)果,并在云里面完成最后的計算。這個架構(gòu)可以自然地衍生到多方的數(shù)據(jù)計算。

    這個架構(gòu)創(chuàng)新點在于:數(shù)據(jù)的提供方和數(shù)據(jù)使用方實現(xiàn)了可控的隔離。原始數(shù)據(jù)和核心分析算法作為參與各方的核心資產(chǎn),在計算過程中得到保護(hù),并且計算過程不受保護(hù)措施干擾。英特爾中國研究院愿意與各位同仁在這一領(lǐng)域共同開展前沿研究。

    [1] Amara R, Lipinski A J. Business Planning for AnUncertain Future: Scenarios & Strategies. New York: Pergamon Press, 1983

    [2] F?rber F, Cha S K, Primsch J,et al. SAP HANA database: data management for modern business applications. ACM Sigmod Record, 2012, 40(4): 45~51

    [3] Corbett J C, Dean J, Epstein M,et al. Spanner: Google’s globally distributed database. ACM Transactions on Computer Systems, 2013, 31(3)

    [4] Zaharia M, Chowdhury M, Das T,et al. Resilient distributed datasets: a faulttolerant abstraction for in-memory cluster computing. Proceedings of the 9th USENIX Conference on Networked Systems Design and Implementation, San Jose, CA, USA, 2012

    [5] Li H, Ghodsi A, Zaharia M,et al.Tachyon: reliable, memory speed storage for cluster computing frameworks.Proceedings of the ACM Symposium on Cloud Computing, Seattle, Washington, USA, 2014: 1~15

    [6] Ousterhout J, Agrawal P, Erickson D,et al. The case for RAMClouds: scalable high-performance storage entirely in DRAM. ACM SIGOPS Operating Systems Review, 2010, 43(4): 92~105

    [7] Chang F, Dean J, Ghemawat S,et al. Bigtable: a distributed storage system for structured data. ACM Transactions on Computer Systems, 2008, 26(2)

    [8] Dwork, Cynthia. Encyclopedia of Cryptography and Security. New York: Springer US, 2011

    [9] DeCandia G, Hastorun D, Madan J,et al. Dynamo: amazon’s highly available key-value store.ACM SIGOPS Operating Systems Review,2007, 41(6)

    [10] OlsonM A, Keith B, Seltzer M I.Berkeley DB. Proceedings of USENIX Annual Technical Conference,Monterey, CA, USA, 1999

    [11] Jose J, Subramoni H, Luo M,et al. Memcached design on high performance rdma capable interconnects. Proceeding of IEEE International Conference on Parallel Processing (ICPP), Taipei,China, 2011

    [12] Brewer E. CAP twelve years later: how the“rules” have changed. Computer, 2012, 45(2): 23~29

    [13] Moniruzzaman A B M. NewSQL: towards next-generation scalable RDBMS for online transaction processing (OLTP) for big data management. arXiv Preprint, 2014, arXiv:1411.7343

    [14] Stonebraker M, Weisberg A. The VoltD Bmain memory DBMS. IEEE Data Engineering Bulletin, 2013, 36(2): 21~27

    [15] Greenwald R, Stackowiak R, Stern J. Oracle Essentials: Oracle Database 12c. Sebastopol: O’Reilly Media Inc, 2013

    [16] Sweeney L. K-anonymity: a model for protecting privacy. International Journal of Uncertainty, Fuzziness and Knowledge-Based Systems, 2002, 10(5): 557~570

    [17] Machanavajjhala A, Kifer D, Gehrke J,et al. l-diversity: privacy beyond k-anonymity. ACM Transactions on Knowledge Discovery from Data, 2007, 1(1)

    [18] Li N H, Li T C, Venkatasubramanian S. T-closeness: privacy beyond k-anonymity and L-diversity. Proceedings of the 23rd International Conference on Data Engineering, Istanbul, Turkey,2007

    [19] Popa R A, Redfield C M S, Zeldovich N,et al. CryptDB: protecting confidentiality with encrypted query processing.Proceedings of the 23rd ACM Symposium on Operating Systems Principles,Cascais, Portugal, 2011

    [20] McKeen F,Alexandrovich L, Berenzon A,et al. Innovative instructions and software model for isolated execution. Proceedings of the 2nd International Workshop on Hardware and Architectural Support for Security and Privacy, New York, NY, USA, 2013 □

    猜你喜歡
    內(nèi)存數(shù)據(jù)庫
    外部高速緩存與非易失內(nèi)存結(jié)合的混合內(nèi)存體系結(jié)構(gòu)特性評測
    “春夏秋冬”的內(nèi)存
    數(shù)據(jù)庫
    財經(jīng)(2017年15期)2017-07-03 22:40:49
    數(shù)據(jù)庫
    財經(jīng)(2017年2期)2017-03-10 14:35:35
    數(shù)據(jù)庫
    財經(jīng)(2016年15期)2016-06-03 07:38:02
    數(shù)據(jù)庫
    財經(jīng)(2016年3期)2016-03-07 07:44:46
    數(shù)據(jù)庫
    財經(jīng)(2016年6期)2016-02-24 07:41:51
    內(nèi)存搭配DDR4、DDR3L還是DDR3?
    基于內(nèi)存的地理信息訪問技術(shù)
    數(shù)據(jù)庫
    財經(jīng)(2010年20期)2010-10-19 01:48:32
    夜夜爽天天搞| a级毛片在线看网站| av国产免费在线观看| 日本免费一区二区三区高清不卡| 一a级毛片在线观看| 男人舔女人下体高潮全视频| 五月玫瑰六月丁香| 亚洲中文av在线| 夜夜爽天天搞| 久久性视频一级片| 毛片女人毛片| 久久久国产成人精品二区| 99热这里只有精品一区 | 免费av不卡在线播放| 午夜影院日韩av| 亚洲,欧美精品.| a级毛片a级免费在线| 麻豆av在线久日| 狂野欧美白嫩少妇大欣赏| 国产aⅴ精品一区二区三区波| 亚洲国产欧美网| 国产精品1区2区在线观看.| 1000部很黄的大片| 1024香蕉在线观看| 舔av片在线| 麻豆国产av国片精品| 亚洲国产中文字幕在线视频| 99久久99久久久精品蜜桃| 久久精品91蜜桃| 国产一区在线观看成人免费| 麻豆国产97在线/欧美| 日日干狠狠操夜夜爽| 精品欧美国产一区二区三| 欧美极品一区二区三区四区| 欧美丝袜亚洲另类 | 午夜成年电影在线免费观看| 一级毛片女人18水好多| 老熟妇乱子伦视频在线观看| 日韩欧美 国产精品| 中文字幕人成人乱码亚洲影| 日韩三级视频一区二区三区| 90打野战视频偷拍视频| or卡值多少钱| 91在线精品国自产拍蜜月 | 欧美xxxx黑人xx丫x性爽| 国产欧美日韩一区二区精品| 桃色一区二区三区在线观看| 国产v大片淫在线免费观看| 亚洲男人的天堂狠狠| 国产欧美日韩精品一区二区| 免费看光身美女| 亚洲精品在线美女| 亚洲精品在线观看二区| 亚洲片人在线观看| 日韩三级视频一区二区三区| 欧美zozozo另类| 欧美色视频一区免费| 国产单亲对白刺激| xxx96com| www日本在线高清视频| 亚洲自拍偷在线| 免费大片18禁| svipshipincom国产片| 国产精品一区二区三区四区免费观看 | 国产一级毛片七仙女欲春2| 美女黄网站色视频| 给我免费播放毛片高清在线观看| 可以在线观看毛片的网站| 欧美一区二区精品小视频在线| 亚洲国产欧美人成| 免费看日本二区| 一个人看视频在线观看www免费 | cao死你这个sao货| 亚洲国产精品久久男人天堂| 亚洲熟女毛片儿| 日韩欧美三级三区| 很黄的视频免费| 亚洲国产日韩欧美精品在线观看 | 偷拍熟女少妇极品色| 亚洲成a人片在线一区二区| 亚洲无线观看免费| 人人妻人人澡欧美一区二区| 天天躁日日操中文字幕| 国内精品久久久久精免费| 每晚都被弄得嗷嗷叫到高潮| 免费看美女性在线毛片视频| 国内久久婷婷六月综合欲色啪| 一个人看的www免费观看视频| 草草在线视频免费看| a级毛片在线看网站| 国产人伦9x9x在线观看| 日韩免费av在线播放| 久久久久久久午夜电影| 中出人妻视频一区二区| 精品不卡国产一区二区三区| 国产精品九九99| 欧美色视频一区免费| 一区二区三区国产精品乱码| 99re在线观看精品视频| 天天躁日日操中文字幕| 一级毛片精品| 巨乳人妻的诱惑在线观看| 国产精品久久久久久人妻精品电影| www.精华液| 三级男女做爰猛烈吃奶摸视频| 国产精品,欧美在线| 亚洲色图 男人天堂 中文字幕| 国产综合懂色| 老熟妇乱子伦视频在线观看| 哪里可以看免费的av片| 久久精品国产99精品国产亚洲性色| 日本熟妇午夜| 波多野结衣高清作品| 精品熟女少妇八av免费久了| 亚洲国产日韩欧美精品在线观看 | 91老司机精品| 午夜免费成人在线视频| 日韩欧美免费精品| 国产成人啪精品午夜网站| 黄色成人免费大全| 天堂√8在线中文| 非洲黑人性xxxx精品又粗又长| 国产伦一二天堂av在线观看| 最新中文字幕久久久久 | 一本综合久久免费| 国产精品香港三级国产av潘金莲| 精品一区二区三区视频在线 | 国产精品久久久久久亚洲av鲁大| 我要搜黄色片| 淫妇啪啪啪对白视频| 日本免费一区二区三区高清不卡| 日韩av在线大香蕉| 国产探花在线观看一区二区| 国产又色又爽无遮挡免费看| 午夜福利视频1000在线观看| 欧美日本视频| 亚洲自偷自拍图片 自拍| 国产精品av视频在线免费观看| 久久久久九九精品影院| 在线观看舔阴道视频| 五月伊人婷婷丁香| 一本一本综合久久| 超碰成人久久| 男女做爰动态图高潮gif福利片| 一本久久中文字幕| 国产精品亚洲美女久久久| 亚洲片人在线观看| 久久这里只有精品19| 免费看光身美女| 欧美午夜高清在线| 成年免费大片在线观看| 激情在线观看视频在线高清| 国产亚洲欧美在线一区二区| 欧美国产日韩亚洲一区| 国产精品久久久久久亚洲av鲁大| 国模一区二区三区四区视频 | 搡老妇女老女人老熟妇| 伦理电影免费视频| 欧美一区二区精品小视频在线| 精品国产乱码久久久久久男人| svipshipincom国产片| 免费在线观看日本一区| 亚洲精品在线观看二区| 欧美xxxx黑人xx丫x性爽| 日日夜夜操网爽| 午夜影院日韩av| 久久精品91无色码中文字幕| 99久久99久久久精品蜜桃| 日本 av在线| 精品欧美国产一区二区三| 香蕉久久夜色| 国产成年人精品一区二区| 精品无人区乱码1区二区| 欧美不卡视频在线免费观看| 欧美一区二区国产精品久久精品| 无人区码免费观看不卡| 观看免费一级毛片| 人人妻人人澡欧美一区二区| 这个男人来自地球电影免费观看| 欧美乱色亚洲激情| 精品久久久久久,| 成在线人永久免费视频| 午夜激情欧美在线| 少妇的逼水好多| 三级国产精品欧美在线观看 | av中文乱码字幕在线| 噜噜噜噜噜久久久久久91| 国内精品久久久久久久电影| 久久人妻av系列| 亚洲中文字幕日韩| 波多野结衣高清作品| 狂野欧美白嫩少妇大欣赏| 亚洲中文日韩欧美视频| ponron亚洲| or卡值多少钱| 欧美日韩亚洲国产一区二区在线观看| 91九色精品人成在线观看| 日韩 欧美 亚洲 中文字幕| 亚洲五月天丁香| svipshipincom国产片| 久久久久国产精品人妻aⅴ院| 亚洲熟女毛片儿| 十八禁网站免费在线| 男人的好看免费观看在线视频| 制服人妻中文乱码| 每晚都被弄得嗷嗷叫到高潮| 亚洲精品粉嫩美女一区| a级毛片在线看网站| 久久国产精品人妻蜜桃| 日本黄大片高清| 亚洲无线在线观看| 日本黄色片子视频| 国产精品99久久久久久久久| 午夜免费成人在线视频| 成人午夜高清在线视频| 首页视频小说图片口味搜索| 亚洲国产欧美网| 国产av在哪里看| 日韩欧美免费精品| 熟女人妻精品中文字幕| 国产探花在线观看一区二区| 91字幕亚洲| 欧美一区二区国产精品久久精品| 欧美成狂野欧美在线观看| 国产精品一区二区免费欧美| 99视频精品全部免费 在线 | 首页视频小说图片口味搜索| 日韩国内少妇激情av| 国产高清激情床上av| 男人的好看免费观看在线视频| 日韩大尺度精品在线看网址| 久久久久久九九精品二区国产| 久久久精品欧美日韩精品| 午夜激情欧美在线| 又黄又粗又硬又大视频| 美女免费视频网站| 日日干狠狠操夜夜爽| 99久国产av精品| 精品福利观看| 亚洲成人久久性| 国产欧美日韩一区二区三| 18美女黄网站色大片免费观看| 亚洲欧洲精品一区二区精品久久久| 又紧又爽又黄一区二区| 国产精品,欧美在线| 给我免费播放毛片高清在线观看| 精品国内亚洲2022精品成人| 两个人的视频大全免费| 久久香蕉国产精品| 18禁黄网站禁片午夜丰满| 国产亚洲精品一区二区www| 18禁黄网站禁片免费观看直播| 母亲3免费完整高清在线观看| 亚洲天堂国产精品一区在线| 全区人妻精品视频| 一二三四社区在线视频社区8| 国产精品美女特级片免费视频播放器 | 国产精品亚洲美女久久久| 久久精品人妻少妇| 成人特级av手机在线观看| 最新在线观看一区二区三区| 国产精品乱码一区二三区的特点| 五月伊人婷婷丁香| www.www免费av| 国产激情欧美一区二区| av天堂在线播放| 免费看美女性在线毛片视频| 亚洲av电影不卡..在线观看| 黑人巨大精品欧美一区二区mp4| 亚洲熟妇熟女久久| 国内精品久久久久久久电影| 亚洲最大成人中文| 男女下面进入的视频免费午夜| 69av精品久久久久久| 国内久久婷婷六月综合欲色啪| av在线蜜桃| 中文字幕熟女人妻在线| 久久久国产成人精品二区| 免费av不卡在线播放| 国产欧美日韩精品亚洲av| 97超级碰碰碰精品色视频在线观看| 免费看光身美女| 国产精品一及| 亚洲色图 男人天堂 中文字幕| 在线观看舔阴道视频| 欧美在线黄色| 午夜免费激情av| 成人精品一区二区免费| av国产免费在线观看| 国产精品久久久久久人妻精品电影| 日韩欧美国产在线观看| 97碰自拍视频| 搡老妇女老女人老熟妇| 伦理电影免费视频| 色哟哟哟哟哟哟| 制服丝袜大香蕉在线| 亚洲在线自拍视频| 日韩欧美精品v在线| 国产亚洲精品久久久com| 黑人操中国人逼视频| 免费电影在线观看免费观看| 中文字幕精品亚洲无线码一区| 欧美日韩瑟瑟在线播放| 天堂动漫精品| 欧美成人免费av一区二区三区| 白带黄色成豆腐渣| 亚洲精品美女久久久久99蜜臀| 亚洲成av人片免费观看| 欧美精品啪啪一区二区三区| 99在线人妻在线中文字幕| 久久精品国产99精品国产亚洲性色| 一个人看视频在线观看www免费 | 国产爱豆传媒在线观看| 国产成人福利小说| 中亚洲国语对白在线视频| 99在线视频只有这里精品首页| 精品久久蜜臀av无| 国产成人av激情在线播放| 日韩精品中文字幕看吧| 久久久久久人人人人人| 国产伦精品一区二区三区视频9 | 级片在线观看| 成人永久免费在线观看视频| 黄色 视频免费看| 国产伦精品一区二区三区视频9 | 欧美日韩瑟瑟在线播放| 国产爱豆传媒在线观看| 欧美午夜高清在线| 日本a在线网址| 可以在线观看的亚洲视频| 久久久久精品国产欧美久久久| 国产成+人综合+亚洲专区| 悠悠久久av| 一进一出好大好爽视频| 两个人视频免费观看高清| 精品一区二区三区视频在线 | 别揉我奶头~嗯~啊~动态视频| 国产成人一区二区三区免费视频网站| 超碰成人久久| 人人妻人人澡欧美一区二区| 99久久99久久久精品蜜桃| 亚洲中文日韩欧美视频| 国产不卡一卡二| a级毛片在线看网站| 午夜久久久久精精品| 九九在线视频观看精品| 欧美av亚洲av综合av国产av| 一个人免费在线观看电影 | 国产亚洲av高清不卡| or卡值多少钱| 性欧美人与动物交配| 首页视频小说图片口味搜索| 国产亚洲精品综合一区在线观看| 亚洲成人中文字幕在线播放| 免费观看的影片在线观看| 欧美最黄视频在线播放免费| 成人av一区二区三区在线看| 宅男免费午夜| aaaaa片日本免费| 激情在线观看视频在线高清| 日韩成人在线观看一区二区三区| 天天添夜夜摸| 久久久久国产一级毛片高清牌| 亚洲va日本ⅴa欧美va伊人久久| 两性午夜刺激爽爽歪歪视频在线观看| 亚洲成人精品中文字幕电影| 国产成人影院久久av| 日本三级黄在线观看| 97碰自拍视频| 亚洲aⅴ乱码一区二区在线播放| 久久这里只有精品19| 国产亚洲精品av在线| 国内少妇人妻偷人精品xxx网站 | 午夜久久久久精精品| 老司机在亚洲福利影院| 亚洲熟妇熟女久久| 亚洲精品色激情综合| 婷婷丁香在线五月| 亚洲 国产 在线| 日韩高清综合在线| 亚洲中文日韩欧美视频| 国产又色又爽无遮挡免费看| 午夜精品在线福利| 久久久久精品国产欧美久久久| 欧美不卡视频在线免费观看| 久久久国产欧美日韩av| 亚洲狠狠婷婷综合久久图片| 可以在线观看的亚洲视频| 啦啦啦韩国在线观看视频| 亚洲成人免费电影在线观看| 黄色女人牲交| 欧美黑人巨大hd| 亚洲第一欧美日韩一区二区三区| 在线观看舔阴道视频| 久久久国产欧美日韩av| 亚洲人成电影免费在线| 网址你懂的国产日韩在线| 国产成人福利小说| 国产 一区 欧美 日韩| 日本与韩国留学比较| tocl精华| 亚洲专区国产一区二区| 日日干狠狠操夜夜爽| 麻豆一二三区av精品| 免费电影在线观看免费观看| 国产成人啪精品午夜网站| 国产av在哪里看| 午夜精品在线福利| 国产亚洲av高清不卡| а√天堂www在线а√下载| 99国产精品99久久久久| 天堂动漫精品| 国产aⅴ精品一区二区三区波| 超碰成人久久| 99精品在免费线老司机午夜| 色综合站精品国产| 成人18禁在线播放| 久久精品影院6| 成人精品一区二区免费| 色尼玛亚洲综合影院| 一二三四在线观看免费中文在| 18美女黄网站色大片免费观看| 久久精品91蜜桃| 成人av在线播放网站| 大型黄色视频在线免费观看| 两人在一起打扑克的视频| 色在线成人网| 日本三级黄在线观看| 亚洲,欧美精品.| 夜夜躁狠狠躁天天躁| 亚洲av日韩精品久久久久久密| x7x7x7水蜜桃| 91av网一区二区| 日本三级黄在线观看| 亚洲av美国av| 亚洲av中文字字幕乱码综合| 一夜夜www| 免费av不卡在线播放| 给我免费播放毛片高清在线观看| 国产三级中文精品| 久久久久国产一级毛片高清牌| 男女做爰动态图高潮gif福利片| 观看免费一级毛片| 亚洲无线在线观看| 99国产精品一区二区三区| 亚洲五月天丁香| 国产极品精品免费视频能看的| 亚洲人与动物交配视频| 97人妻精品一区二区三区麻豆| 日本三级黄在线观看| 亚洲18禁久久av| 一区二区三区国产精品乱码| 国产精品 欧美亚洲| 两个人的视频大全免费| av片东京热男人的天堂| 久久精品aⅴ一区二区三区四区| 国产高清三级在线| 国产精品日韩av在线免费观看| 国产精品亚洲美女久久久| 夜夜爽天天搞| 免费在线观看影片大全网站| 国产视频内射| 国产精品久久久人人做人人爽| 怎么达到女性高潮| 精品国产乱码久久久久久男人| 精品福利观看| 久久久久国内视频| 国产精品综合久久久久久久免费| www.www免费av| www日本在线高清视频| 精品免费久久久久久久清纯| av天堂中文字幕网| 在线观看免费午夜福利视频| www日本黄色视频网| 一本精品99久久精品77| 亚洲av成人av| 国产亚洲精品av在线| 母亲3免费完整高清在线观看| 黑人操中国人逼视频| 成人午夜高清在线视频| 成年女人看的毛片在线观看| xxxwww97欧美| 丰满的人妻完整版| 美女被艹到高潮喷水动态| 少妇裸体淫交视频免费看高清| 国产精品1区2区在线观看.| 国产欧美日韩一区二区精品| 国产成人系列免费观看| 国产精品一区二区免费欧美| 久久久精品欧美日韩精品| 日本熟妇午夜| 欧美乱码精品一区二区三区| 天堂√8在线中文| 亚洲无线观看免费| 天天躁日日操中文字幕| 精品电影一区二区在线| 日本黄色视频三级网站网址| 国产成人精品久久二区二区91| 亚洲 欧美 日韩 在线 免费| 国内精品久久久久久久电影| 婷婷六月久久综合丁香| 99国产精品99久久久久| 欧美黑人巨大hd| 老熟妇仑乱视频hdxx| 狂野欧美激情性xxxx| 在线免费观看的www视频| 少妇的逼水好多| 啪啪无遮挡十八禁网站| 日韩免费av在线播放| 老司机午夜福利在线观看视频| 亚洲,欧美精品.| 好看av亚洲va欧美ⅴa在| 嫩草影院入口| 日韩免费av在线播放| 成人亚洲精品av一区二区| 长腿黑丝高跟| 又黄又爽又免费观看的视频| 后天国语完整版免费观看| 日韩欧美精品v在线| 九色国产91popny在线| 99国产综合亚洲精品| 99视频精品全部免费 在线 | 好男人电影高清在线观看| 蜜桃久久精品国产亚洲av| 女生性感内裤真人,穿戴方法视频| 国内精品一区二区在线观看| 别揉我奶头~嗯~啊~动态视频| 搡老岳熟女国产| 久久久精品大字幕| а√天堂www在线а√下载| 国内精品美女久久久久久| 亚洲精品456在线播放app | 久久精品国产综合久久久| 18美女黄网站色大片免费观看| 国产三级中文精品| 伦理电影免费视频| 在线观看美女被高潮喷水网站 | 一本精品99久久精品77| 综合色av麻豆| 一二三四在线观看免费中文在| 欧美日韩福利视频一区二区| 色噜噜av男人的天堂激情| 成人欧美大片| 母亲3免费完整高清在线观看| 91字幕亚洲| 国产久久久一区二区三区| 九九热线精品视视频播放| 欧美激情久久久久久爽电影| 熟女人妻精品中文字幕| 久久精品国产亚洲av香蕉五月| 丁香六月欧美| 欧美黑人巨大hd| 此物有八面人人有两片| 亚洲天堂国产精品一区在线| 香蕉丝袜av| 亚洲一区二区三区色噜噜| 老司机福利观看| 国产三级黄色录像| 一二三四在线观看免费中文在| 免费在线观看亚洲国产| 丰满人妻一区二区三区视频av | 国产亚洲av高清不卡| 成年免费大片在线观看| 国产高清视频在线观看网站| 成人高潮视频无遮挡免费网站| 欧美色视频一区免费| 男女下面进入的视频免费午夜| 一级毛片高清免费大全| 国产成人影院久久av| 天天躁狠狠躁夜夜躁狠狠躁| 99热这里只有是精品50| 日日干狠狠操夜夜爽| 日本免费一区二区三区高清不卡| 国内久久婷婷六月综合欲色啪| 久久久久久大精品| 日韩中文字幕欧美一区二区| 国产v大片淫在线免费观看| 九色成人免费人妻av| 亚洲欧美精品综合一区二区三区| 两人在一起打扑克的视频| 亚洲18禁久久av| 手机成人av网站| 99热6这里只有精品| 日韩欧美三级三区| 欧美日韩瑟瑟在线播放| 美女 人体艺术 gogo| 免费av毛片视频| 亚洲专区字幕在线| 久久久国产成人免费| 久久婷婷人人爽人人干人人爱| 欧美乱码精品一区二区三区| 真人一进一出gif抽搐免费| 一a级毛片在线观看| 精品久久久久久久人妻蜜臀av| 久久精品91无色码中文字幕| 亚洲成人精品中文字幕电影| 成人永久免费在线观看视频| 久久亚洲真实| 日本免费一区二区三区高清不卡| 天堂影院成人在线观看| 我要搜黄色片| 美女脱内裤让男人舔精品视频| 日韩 亚洲 欧美在线| 97人妻精品一区二区三区麻豆| 亚洲av中文字字幕乱码综合| 亚洲精品国产av成人精品| 五月伊人婷婷丁香| 小蜜桃在线观看免费完整版高清| 能在线免费看毛片的网站| 日本色播在线视频| 赤兔流量卡办理| 毛片女人毛片| 婷婷六月久久综合丁香| 欧美激情国产日韩精品一区| 国产精品美女特级片免费视频播放器|