• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    科學(xué)大數(shù)據(jù)管理:概念、技術(shù)與系統(tǒng)

    2017-02-22 04:31:38黎建輝沈志宏孟小峰
    關(guān)鍵詞:流水線(xiàn)數(shù)據(jù)管理科學(xué)

    黎建輝 沈志宏 孟小峰

    1(中國(guó)科學(xué)院計(jì)算機(jī)網(wǎng)絡(luò)信息中心 北京 100190)2 (中國(guó)人民大學(xué)信息學(xué)院 北京 100872) (lijh@cnic.cn)

    科學(xué)大數(shù)據(jù)管理:概念、技術(shù)與系統(tǒng)

    黎建輝1沈志宏1孟小峰2

    1(中國(guó)科學(xué)院計(jì)算機(jī)網(wǎng)絡(luò)信息中心 北京 100190)2(中國(guó)人民大學(xué)信息學(xué)院 北京 100872) (lijh@cnic.cn)

    近年來(lái),隨著越來(lái)越多的大科學(xué)裝置的建設(shè)和重大科學(xué)實(shí)驗(yàn)的開(kāi)展,科學(xué)研究進(jìn)入到一個(gè)前所未有的大數(shù)據(jù)時(shí)代.大數(shù)據(jù)時(shí)代科學(xué)研究是一個(gè)大科學(xué)、大需求、大數(shù)據(jù)、大計(jì)算、大發(fā)現(xiàn)的過(guò)程,研發(fā)一個(gè)支持科學(xué)大數(shù)據(jù)全生命周期的數(shù)據(jù)管理系統(tǒng)具有重要的意義.分析了研發(fā)科學(xué)大數(shù)據(jù)管理系統(tǒng)的背景,闡述了科學(xué)大數(shù)據(jù)的概念和三大特征,通過(guò)對(duì)科學(xué)數(shù)據(jù)資源發(fā)展和科學(xué)數(shù)據(jù)管理系統(tǒng)的研究進(jìn)展進(jìn)行綜述分析,提出了滿(mǎn)足科學(xué)數(shù)據(jù)管理全生命周期的科學(xué)大數(shù)據(jù)管理框架,并從數(shù)據(jù)融合、數(shù)據(jù)實(shí)時(shí)分析、長(zhǎng)期存儲(chǔ)、云服務(wù)體系以及數(shù)據(jù)開(kāi)放共享機(jī)制5個(gè)方面分析了科學(xué)大數(shù)據(jù)管理系統(tǒng)中的關(guān)鍵技術(shù).最后,結(jié)合科學(xué)研究領(lǐng)域展望了科學(xué)大數(shù)據(jù)管理系統(tǒng)的應(yīng)用前景.

    科學(xué)數(shù)據(jù);大數(shù)據(jù);數(shù)據(jù)流水線(xiàn);數(shù)據(jù)全生命周期

    大規(guī)模巡天望遠(yuǎn)鏡、大型粒子加速器、高通量基因測(cè)序儀等源源不斷產(chǎn)生巨量科學(xué)數(shù)據(jù),使得全球科技創(chuàng)新進(jìn)入一個(gè)前所未有的科學(xué)大數(shù)據(jù)時(shí)代.科學(xué)大數(shù)據(jù)已成為科學(xué)發(fā)現(xiàn)的新型戰(zhàn)略資源,一個(gè)國(guó)家的科學(xué)研究水平將直接取決于其在科學(xué)大數(shù)據(jù)的優(yōu)勢(shì)以及將數(shù)據(jù)轉(zhuǎn)換為知識(shí)的能力.

    面向大規(guī)模的科學(xué)數(shù)據(jù)管理,以及科學(xué)大數(shù)據(jù)應(yīng)用,往往需要突破當(dāng)今所有數(shù)據(jù)管理系統(tǒng)的極限,才能實(shí)現(xiàn)高效的科學(xué)知識(shí)發(fā)現(xiàn),這也成為當(dāng)下科學(xué)界和數(shù)據(jù)管理領(lǐng)域攜手攻堅(jiān)的“難題”.概括起來(lái),科學(xué)大數(shù)據(jù)管理面臨的主要問(wèn)題和挑戰(zhàn)包括:1)超大規(guī)模關(guān)系數(shù)據(jù)管理.如天文領(lǐng)域多個(gè)數(shù)據(jù)中心千億乃至萬(wàn)億行天文星表數(shù)據(jù)的管理.2)多源數(shù)據(jù)關(guān)聯(lián)和知識(shí)發(fā)現(xiàn).如全球開(kāi)放生物資源、文獻(xiàn)、序列和疾病等萬(wàn)種數(shù)據(jù)源100億級(jí)關(guān)聯(lián)數(shù)據(jù)的知識(shí)發(fā)現(xiàn),需6步以上關(guān)聯(lián)挖掘.3)實(shí)時(shí)的高效數(shù)據(jù)處理.如引力波科學(xué)發(fā)現(xiàn)中,16 MHz 采樣頻率10 000信道數(shù)據(jù)需要近似零延遲數(shù)據(jù)處理.

    1 科學(xué)大數(shù)據(jù)概念與特性

    1.1 科學(xué)大數(shù)據(jù)概念

    科學(xué)數(shù)據(jù)是科研活動(dòng)的輸入、輸出和資產(chǎn).但究竟“什么是科學(xué)數(shù)據(jù)?”,如何給“科學(xué)數(shù)據(jù)”一個(gè)確切的定義?迄今為止,還在困擾著學(xué)術(shù)界.Greenberg在其最近出版的著作《大數(shù)據(jù),小數(shù)據(jù),沒(méi)數(shù)據(jù)》[1]中,列舉了學(xué)術(shù)界對(duì)數(shù)據(jù)各種不同的認(rèn)識(shí)和理解,“在自然科學(xué)、社會(huì)科學(xué)和人文科學(xué)領(lǐng)域,學(xué)者們創(chuàng)造、使用、分析和解釋數(shù)據(jù),但往往不知道這些數(shù)據(jù)的真正含義.”

    科學(xué)數(shù)據(jù)是對(duì)所研究的客觀(guān)對(duì)象的某些現(xiàn)象的描述.這種描述,一般是指在領(lǐng)域或?qū)W科知識(shí)指導(dǎo)下,對(duì)客觀(guān)對(duì)象進(jìn)行科學(xué)抽象和概念化后,就其中的某些現(xiàn)象進(jìn)行系統(tǒng)地、有目的地觀(guān)測(cè)、調(diào)查、實(shí)驗(yàn)所形成的實(shí)體.因此,數(shù)據(jù)不是客觀(guān)事物,數(shù)據(jù)不是帶有自身特征的自然對(duì)象,數(shù)據(jù)只是對(duì)學(xué)術(shù)研究的客觀(guān)對(duì)象中某些可觀(guān)測(cè)到的現(xiàn)象的描述.這些描述會(huì)因人而異、因地而異和因時(shí)而異.把一些事物概念化為數(shù)據(jù),本身就是一種學(xué)術(shù)研究活動(dòng).

    科學(xué)數(shù)據(jù)是以科學(xué)證據(jù)形式存在的事實(shí),它至少應(yīng)該包括科學(xué)觀(guān)測(cè)與監(jiān)測(cè)的數(shù)據(jù)、實(shí)驗(yàn)數(shù)據(jù)、計(jì)算與模型模擬輸出的數(shù)據(jù)、對(duì)情景或現(xiàn)象的描述數(shù)據(jù)、對(duì)行為的觀(guān)測(cè)或定性描述數(shù)據(jù)、用于管理或者商業(yè)目的統(tǒng)計(jì)數(shù)據(jù)等,以及描述數(shù)據(jù)的元數(shù)據(jù).它們通常是科研活動(dòng)的輸入,是證實(shí)、證偽科學(xué)發(fā)現(xiàn)、科學(xué)觀(guān)點(diǎn)的事實(shí)與證據(jù),或者是論證推理的基礎(chǔ).

    科學(xué)數(shù)據(jù)從歷史上非自動(dòng)化的“手工采集”的方式,逐漸地過(guò)度到自動(dòng)化的“機(jī)器采集”.非自動(dòng)“手工采集”的數(shù)據(jù),其產(chǎn)生的速度較慢,數(shù)據(jù)量與復(fù)雜度不高,但數(shù)據(jù)的價(jià)值密度高.而通過(guò)大型儀器設(shè)備、大科學(xué)裝置、大規(guī)模傳感器網(wǎng)絡(luò)等自動(dòng)化采集的數(shù)字化數(shù)據(jù),其產(chǎn)生的速度快,數(shù)據(jù)量和復(fù)雜性高,存在著不確定性和噪聲.對(duì)這些數(shù)據(jù)進(jìn)行存儲(chǔ)、分析和應(yīng)用需要新技術(shù)與更強(qiáng)的基礎(chǔ)設(shè)施環(huán)境支持.科學(xué)大數(shù)據(jù)主要是指這種通過(guò)“機(jī)器”自動(dòng)化快速采集、規(guī)模化存儲(chǔ)與分析處理、具有較高維度和復(fù)雜關(guān)聯(lián)的數(shù)據(jù)及其衍生產(chǎn)品.

    隨著越來(lái)越多的諸如500 m口徑球面射電望遠(yuǎn)鏡(five-hundred-meter aperture spherical radio telescope, FAST)、中國(guó)散裂中子源(China spallation neutron source, CSNS)等大科學(xué)裝置的建設(shè)和重大科學(xué)實(shí)驗(yàn)的開(kāi)展,以及無(wú)所不在的科學(xué)傳感器和傳感器網(wǎng)絡(luò)廣泛應(yīng)用于天空、陸地和海洋,對(duì)自然環(huán)境進(jìn)行全方位的探測(cè)、監(jiān)測(cè),源源不斷產(chǎn)生的科學(xué)數(shù)據(jù)將科學(xué)研究快速推進(jìn)到一個(gè)前所未有的大數(shù)據(jù)時(shí)代.科學(xué)大數(shù)據(jù)將改變?nèi)祟?lèi)幾個(gè)世紀(jì)以來(lái)科學(xué)研究主要在于理解相對(duì)簡(jiǎn)單、未耦合或弱耦合系統(tǒng)這一局面,增強(qiáng)我們?cè)敿?xì)表征和描述復(fù)雜性的能力,以及分析高度耦合復(fù)雜系統(tǒng)的動(dòng)態(tài)行為的能力,催生如希格斯粒子和引力波等重大科學(xué)發(fā)現(xiàn).可以這樣比喻,科學(xué)大數(shù)據(jù)為科學(xué)發(fā)現(xiàn)提供了一種新型的“望遠(yuǎn)鏡”和“顯微鏡”,在宏觀(guān)上大大擴(kuò)展了我們對(duì)復(fù)雜系統(tǒng)整體性進(jìn)行研究的能力,在微觀(guān)上,讓我們的視線(xiàn)可以深入到復(fù)雜系統(tǒng)內(nèi)部細(xì)微的行為和動(dòng)態(tài)變化.

    1.2 科學(xué)大數(shù)據(jù)的特征

    相較于其他類(lèi)型的大數(shù)據(jù),科學(xué)大數(shù)據(jù)除了具有明顯的“4V”特征[2-4]之外,還具有多層次逐級(jí)演化、全生命周期以及流水線(xiàn)處理和應(yīng)用等特征.

    1.2.1 多層次演化特征

    科學(xué)大數(shù)據(jù)具有多層次逐級(jí)演化的顯著特征.如圖1所示,由大型儀器設(shè)備、大科學(xué)裝置和計(jì)算模擬等產(chǎn)生的海量原始數(shù)據(jù),經(jīng)過(guò)校對(duì)、刻度、特征提取等處理形成具有科學(xué)意義的實(shí)例對(duì)象數(shù)據(jù),并與相關(guān)的數(shù)據(jù)關(guān)聯(lián)融合,形成知識(shí)網(wǎng)絡(luò).典型例子如美國(guó)航空航天局(NASA)地球觀(guān)測(cè)系統(tǒng)(earth observing system, EOS)[5]衛(wèi)星獲取的數(shù)據(jù)按照其不斷加工和演化過(guò)程,區(qū)分為0級(jí)、1A級(jí)、1B級(jí)、2級(jí)、3級(jí)、4級(jí)6個(gè)不同的級(jí)別.根據(jù)科學(xué)應(yīng)用和目標(biāo)的不同,科學(xué)家可以直接使用精加工的4級(jí)數(shù)據(jù),也可以使用1A級(jí),甚至0級(jí)數(shù)據(jù).

    Fig. 1 Characteristics of multi-level progressive evolution of scientific big data圖1 科學(xué)大數(shù)據(jù)具有多層次逐級(jí)演化的顯著特性

    1.2.2 全生命周期特征

    科學(xué)大數(shù)據(jù)具有明顯的涉及“采集與實(shí)時(shí)分析—存儲(chǔ)與處理—發(fā)布與共享—再分析與重用—?dú)w檔與長(zhǎng)期保存”全過(guò)程的全生命周期特征.其中,采集與實(shí)時(shí)分析階段主要完成科學(xué)實(shí)驗(yàn)裝置、儀器設(shè)備、觀(guān)測(cè)臺(tái)站等數(shù)據(jù)的采集,并實(shí)現(xiàn)數(shù)據(jù)的實(shí)時(shí)篩選、處理和分析;存儲(chǔ)與處理階段主要完成對(duì)采集篩選的數(shù)據(jù)的持久化存儲(chǔ),同時(shí)通過(guò)批量分析任務(wù),完成初步的科學(xué)分析和科學(xué)發(fā)現(xiàn);發(fā)布與共享階段主要按照特定的主題,對(duì)科學(xué)數(shù)據(jù)進(jìn)行組織管理,形成系列的數(shù)據(jù)集產(chǎn)品,通過(guò)Web等方式對(duì)科研界發(fā)布,提供數(shù)據(jù)共享與交換服務(wù);再分析與重用階段主要支持用戶(hù)對(duì)發(fā)布的數(shù)據(jù)集進(jìn)行二次整合分析,實(shí)現(xiàn)進(jìn)一步的科學(xué)發(fā)現(xiàn);歸檔與長(zhǎng)期保存階段主要完成歷史數(shù)據(jù)的歸檔,通過(guò)采用持久的存儲(chǔ)設(shè)備,實(shí)現(xiàn)海量歷史數(shù)據(jù)的長(zhǎng)期保存.整個(gè)流程如圖2所示.

    在如上不同階段中,對(duì)科學(xué)數(shù)據(jù)的操作方式具有不同的特征,如表1所示.

    Fig. 2 Full life cycle of scientific big data圖2 科學(xué)大數(shù)據(jù)全生命周期

    StagesDataOperationDataAnalysisDetailsCollection&RealTimeAnalysisFastInsert&OnlineAnalysisRTAPCollection,StreamProcessing,RealTimeExtractingandTransformingStoring&ProcessingOfflineAnalysis(SCAN)ofLargeScaleDataOLAPDatabase,Index,Collection,BatchAnalysis,ETLPublish&SharingFastQueryOLTPLinking,Integration,OnlineQuery,WebServiceReanalysis&ReuseOnlineVisualAnalysisOLTPOLAPOnlineAnalysisModel,VisualizationArchiving&LongTermStorageReliableStorageAnalysisisnotinvolvedArchivingstrategy,media,datacopyandmigration

    1.2.3 流水線(xiàn)處理特征

    科學(xué)大數(shù)據(jù)具有“流水線(xiàn)處理和應(yīng)用”的特征.以GWAC(The ground-based wide-angle camera array)為例,GWAC是中法合作伽瑪暴探測(cè)天文衛(wèi)星SVOM的關(guān)鍵地面設(shè)備,一個(gè)GWAC相機(jī)每15 s產(chǎn)生一個(gè)大小為32 MB的天區(qū)圖,圖像的點(diǎn)源提取和接下來(lái)的光變曲線(xiàn)處理流程應(yīng)該在一幀的15 s內(nèi)快速處理完.這個(gè)實(shí)時(shí)處理約束是由于很多短時(shí)標(biāo)的光變,例如微引力透鏡事件,需要通過(guò)對(duì)光變曲線(xiàn)數(shù)據(jù)實(shí)時(shí)分析才能得以發(fā)現(xiàn).這個(gè)過(guò)程就是一個(gè)典型的數(shù)據(jù)流水線(xiàn),包括天區(qū)圖采集、圖像處理、點(diǎn)源提取、交叉證認(rèn)、光變曲線(xiàn)處理等步驟[6],如圖3所示.為了滿(mǎn)足特定的科學(xué)目標(biāo),科學(xué)數(shù)據(jù)流水線(xiàn)一般對(duì)數(shù)據(jù)處理的精度或者對(duì)數(shù)據(jù)處理的速度等方面會(huì)有明確而苛刻的要求,從而為預(yù)期的科學(xué)目標(biāo)或者科學(xué)發(fā)現(xiàn)提供保證.

    Fig. 3 Collecting and analyzing pipeline of astronomic data圖3 天文數(shù)據(jù)采集分析流水線(xiàn)

    科學(xué)數(shù)據(jù)流水線(xiàn)具有如下特點(diǎn):

    1) 一條流水線(xiàn)通常會(huì)涉及到科學(xué)數(shù)據(jù)采集、存儲(chǔ)、分析等不同環(huán)節(jié).如:從GWAC望遠(yuǎn)鏡獲取到天區(qū)圖,就是一個(gè)海量數(shù)據(jù)采集步驟,圖像處理則是一個(gè)數(shù)據(jù)分析的過(guò)程.因此,除了需要提供數(shù)據(jù)分析的支持,還需要考慮到數(shù)據(jù)的采集等管理功能的支持.

    2) 一條流水線(xiàn)會(huì)涉及到多元的大數(shù)據(jù)管理與處理系統(tǒng).為了達(dá)到高效的科學(xué)發(fā)現(xiàn)目標(biāo),往往需要組合不同的數(shù)據(jù)管理系統(tǒng),如高吞吐的消息隊(duì)列系統(tǒng)、高效交互式查詢(xún)的SQL數(shù)據(jù)庫(kù)系統(tǒng)、高可靠的HDFS管理系統(tǒng)等.同時(shí),根據(jù)任務(wù)的不同特征,也會(huì)組合用到不同時(shí)效性要求的計(jì)算框架,如流計(jì)算框架、實(shí)時(shí)計(jì)算框架、離線(xiàn)計(jì)算框架等.

    3) 完整的科學(xué)發(fā)現(xiàn)過(guò)程往往需要多個(gè)流水線(xiàn)并行執(zhí)行,因此需要考慮CPUGPU、內(nèi)存、存儲(chǔ)等資源的共享和分配問(wèn)題.

    2 發(fā)展現(xiàn)狀

    科學(xué)大數(shù)據(jù)已成為科學(xué)發(fā)現(xiàn)的新型戰(zhàn)略資源,為了搶占科技競(jìng)爭(zhēng)的至高點(diǎn),世界各國(guó)已紛紛把科學(xué)大數(shù)據(jù)納入國(guó)家戰(zhàn)略,并開(kāi)始重點(diǎn)部署.美國(guó)國(guó)立衛(wèi)生研究院2013年啟動(dòng)了“從大數(shù)據(jù)到知識(shí)” (BD2K)計(jì)劃[7],總投資達(dá)到6.56億美元.歐盟“地平線(xiàn)2020”計(jì)劃[8]將科學(xué)大數(shù)據(jù)關(guān)鍵技術(shù)和基礎(chǔ)設(shè)施列為了重點(diǎn)支持領(lǐng)域.歐盟宣布,將投資65億歐元用于建設(shè)“歐洲開(kāi)放科學(xué)云”(Europe Open Science Cloud)[9],重點(diǎn)支持大數(shù)據(jù)驅(qū)動(dòng)的科學(xué)發(fā)現(xiàn).在我國(guó)發(fā)布的《促進(jìn)大數(shù)據(jù)發(fā)展行動(dòng)綱要》中,首次將科學(xué)大數(shù)據(jù)上升到國(guó)家戰(zhàn)略層面,明確提出“發(fā)展科學(xué)大數(shù)據(jù)”的戰(zhàn)略目標(biāo).中國(guó)科學(xué)院在“十三五”信息化發(fā)展規(guī)劃中,也明確提出將實(shí)施科學(xué)大數(shù)據(jù)工程,全面提升大數(shù)據(jù)驅(qū)動(dòng)的科技創(chuàng)新能力.

    2.1 國(guó)際科學(xué)大數(shù)據(jù)資源發(fā)展趨勢(shì)

    大規(guī)模巡天望遠(yuǎn)鏡、大型粒子加速器、高通量基因測(cè)序儀等大科學(xué)裝置,使得科學(xué)大數(shù)據(jù)呈幾何級(jí)數(shù)增長(zhǎng)態(tài)勢(shì).在天文學(xué)領(lǐng)域,人類(lèi)正在設(shè)計(jì)和制造各種大型巡天望遠(yuǎn)鏡,試圖實(shí)現(xiàn)對(duì)宇宙多波段、多時(shí)域等數(shù)字化全覆蓋,實(shí)現(xiàn)其“虛擬天文臺(tái)”的偉大構(gòu)想.如斯隆數(shù)字巡天(SDSS)、“泛星計(jì)劃”(Pan-STARRS)、大型巡天望遠(yuǎn)鏡LSST(Large Synoptic Survey Telescope)等[10].LSST[11]將每3天完成對(duì)南半球的天空巡天1次,每15 s記錄3幅10億像素圖像(每幅圖像包含百萬(wàn)個(gè)天體),每晚需對(duì)30 TB原始數(shù)據(jù)準(zhǔn)實(shí)時(shí)的分析,同時(shí)對(duì)轉(zhuǎn)瞬即逝的千萬(wàn)級(jí)突發(fā)天體事件,需在60 s之內(nèi)完成數(shù)據(jù)分析、插入和分發(fā),并向全世界發(fā)出預(yù)警[12-13].

    在生命科學(xué)領(lǐng)域,第二代測(cè)序技術(shù)使得基因組數(shù)據(jù)發(fā)生了爆炸式的增長(zhǎng).相比于2000年,2010年的基因組數(shù)據(jù)產(chǎn)量增大了8個(gè)數(shù)量級(jí).僅華大基因這一個(gè)基因組研究機(jī)構(gòu)每天就產(chǎn)生約15 TB數(shù)據(jù)[14].世界著名的三大基因序列數(shù)據(jù)庫(kù)GenBank,EMBL,DDBJ收錄了70 000多種生物的核苷酸序列[15-16],其數(shù)據(jù)量以指數(shù)形式增長(zhǎng),核酸堿基數(shù)目大概每14個(gè)月就翻一倍.再以腦科學(xué)為例,用電子顯微鏡重建大腦中的突觸網(wǎng)絡(luò),1 mm3大腦的圖像數(shù)據(jù)就超過(guò)了1 PB[17].

    在高能物理領(lǐng)域,位于歐洲核子研究組織CERN的大型強(qiáng)子對(duì)撞器LHC每年將產(chǎn)生有15 PB左右的原始數(shù)據(jù),利用原始數(shù)據(jù)進(jìn)行事例重建以及物理分析所產(chǎn)生的數(shù)據(jù)規(guī)模更大.以其中的ATLAS實(shí)驗(yàn)[18]為例,僅2011年產(chǎn)生的總數(shù)據(jù)就達(dá)40 PB.

    在對(duì)地觀(guān)測(cè)領(lǐng)域,剛剛退役的Landsat 5[19]衛(wèi)星保持在每天67 GB的觀(guān)測(cè)數(shù)據(jù)獲取量,而2012年發(fā)射的ZY3衛(wèi)星,每天的觀(guān)測(cè)數(shù)據(jù)獲取量可以達(dá)到10 TB以上,類(lèi)似能力的傳感器現(xiàn)已大量部署在衛(wèi)星、飛機(jī)等飛行平臺(tái)上,未來(lái)10年全球部署的對(duì)地觀(guān)測(cè)平臺(tái)的數(shù)據(jù)獲取能力將超過(guò)10 PB/d.

    各個(gè)不同的領(lǐng)域都在講述著一個(gè)類(lèi)似的故事,那就是爆炸式增長(zhǎng)的數(shù)據(jù).這種增長(zhǎng)超出了我們創(chuàng)造機(jī)器和軟件工具的速度,甚至超出了我們的想象.

    2.2 我國(guó)科學(xué)大數(shù)據(jù)資源現(xiàn)狀

    我國(guó)從20世紀(jì)80年代就持續(xù)進(jìn)行數(shù)據(jù)資源的積累.1982年,中國(guó)科學(xué)院正式提出科學(xué)數(shù)據(jù)庫(kù)及其應(yīng)用系統(tǒng)建設(shè)項(xiàng)目.經(jīng)過(guò)30余年的持續(xù)發(fā)展,截止十二五“科技數(shù)據(jù)資源整合與共享工程”項(xiàng)目驗(yàn)收[20],該項(xiàng)目系統(tǒng)地整合了58家單位的1 340個(gè)科學(xué)數(shù)據(jù)庫(kù),數(shù)據(jù)下載量累計(jì)達(dá)175 TB.國(guó)家科技基礎(chǔ)條件平臺(tái)持續(xù)資助了林業(yè)科學(xué)數(shù)據(jù)平臺(tái)、地球系統(tǒng)科學(xué)數(shù)據(jù)共享平臺(tái)、人口與健康科學(xué)數(shù)據(jù)共享平臺(tái)、農(nóng)業(yè)科學(xué)數(shù)據(jù)共享中心、地震科學(xué)數(shù)據(jù)共享中心、氣象科學(xué)數(shù)據(jù)共享中心等.

    以中國(guó)科學(xué)院為例,中國(guó)科學(xué)院在生命與健康領(lǐng)域、地球與空間領(lǐng)域、基礎(chǔ)與前沿領(lǐng)域積累了豐富的數(shù)據(jù)資源.其中生物多樣性與生物資源數(shù)據(jù)比較完善,已建成3類(lèi)資源體系:生物多樣性與生物資源、組學(xué)、醫(yī)藥與健康.在地球與空間領(lǐng)域已建成的數(shù)據(jù)資源體系包括:固體地球、陸地表層和空間天文等.其中陸地表層又分為地形地貌、氣象、水文、生態(tài)、自然資源、海洋等內(nèi)容.此外,在基礎(chǔ)與前沿領(lǐng)域已建成的數(shù)據(jù)資源體系包括物理、化學(xué)、能源、材料、腦科學(xué)、信息科學(xué)等.各領(lǐng)域積累的數(shù)據(jù)資源如表2所示:

    Table 2 Typical Scientific Data Resources

    2.3 科學(xué)大數(shù)據(jù)管理系統(tǒng)

    針對(duì)科學(xué)數(shù)據(jù),不同科研機(jī)構(gòu)相繼研發(fā)了科學(xué)數(shù)據(jù)管理系統(tǒng),包括SRB[21-22],iRODS[23-25],SciDB[26-35],Hama[36-39],SkyServer[40-41]等.美國(guó)圣地亞哥超算中心(San Diego Supercomputer Center, SDSC)為了解決復(fù)雜海量科學(xué)數(shù)據(jù)的方便、高效、透明、統(tǒng)一的數(shù)據(jù)管理和訪(fǎng)問(wèn),研發(fā)了融合資源保存代理(storage resource broker, SRB)系統(tǒng),在數(shù)據(jù)網(wǎng)格、數(shù)字圖書(shū)館、永久保存和實(shí)時(shí)數(shù)據(jù)系統(tǒng)中得到了較好的應(yīng)用,并繼而推出了開(kāi)源分布式數(shù)據(jù)管理系統(tǒng)iRODS(Integrated Rule-Oriented Data System).結(jié)合科學(xué)研究所產(chǎn)生的數(shù)據(jù)特征,Stonebraker等人在列存儲(chǔ)的基礎(chǔ)上,研發(fā)了一套開(kāi)源的數(shù)據(jù)管理系統(tǒng)SciDB.SciDB不同于傳統(tǒng)的關(guān)系數(shù)據(jù)庫(kù)管理系統(tǒng),它是一個(gè)數(shù)據(jù)管理和分析軟件系統(tǒng),側(cè)重于科學(xué)數(shù)據(jù)的分析操作,設(shè)計(jì)目標(biāo)是與R,MATLAB以及IDL等科學(xué)分析軟件結(jié)合來(lái)分析管理科學(xué)數(shù)據(jù).Hama作為Hadoop項(xiàng)目的大規(guī)模計(jì)算子項(xiàng)目,利用Hadoop強(qiáng)大的分布式存儲(chǔ)與處理性能,針對(duì)部分科學(xué)問(wèn)題的計(jì)算提供基于整體同步并行計(jì)算(bulk synchronous parallel, BSP)模型及graph模型的計(jì)算框架.針對(duì)SDSS的數(shù)據(jù),Gray主導(dǎo)研發(fā)了SkyServer天文數(shù)據(jù)管理系統(tǒng),實(shí)現(xiàn)TB量級(jí)天文數(shù)據(jù)的管理與探索.由于現(xiàn)有數(shù)據(jù)庫(kù)管理在處理像LSST 這樣100~200 PB量級(jí)的數(shù)據(jù)時(shí)依然顯得力不從心,因此LSST啟動(dòng)研發(fā)了可管理百億級(jí)天文對(duì)象的數(shù)據(jù)庫(kù)Qserv[42],借助多數(shù)據(jù)中心、大規(guī)模分布式并行數(shù)據(jù)庫(kù)等技術(shù),實(shí)現(xiàn)更加強(qiáng)大的數(shù)據(jù)管理、訪(fǎng)問(wèn)和共享的能力.

    這些科學(xué)數(shù)據(jù)管理系統(tǒng)在功能、原理以及特色上的差異如表3所示,可以看出,目前的科學(xué)數(shù)據(jù)管理系統(tǒng)僅關(guān)注科學(xué)數(shù)據(jù)全生命周期的某個(gè)環(huán)節(jié),還缺乏面向大數(shù)據(jù)的、涉及全生命周期的、與分析系統(tǒng)緊密集成的科學(xué)數(shù)據(jù)管理系統(tǒng).

    表3 現(xiàn)有科學(xué)數(shù)據(jù)管理系統(tǒng)對(duì)比分析

    我國(guó)在科學(xué)數(shù)據(jù)管理技術(shù)與平臺(tái)軟件方面也有一些工作在展開(kāi),典型的如中國(guó)科學(xué)院通過(guò)信息化專(zhuān)項(xiàng)項(xiàng)目在“十二五”期間率先建成了“科學(xué)數(shù)據(jù)云”,形成了52 PB云存儲(chǔ)和上萬(wàn)個(gè)虛擬機(jī)的云計(jì)算環(huán)境,研發(fā)部署了科學(xué)數(shù)據(jù)管理軟件TeamDR、數(shù)據(jù)發(fā)布與集成軟件VisualDB/VDBCloud[43-44]、數(shù)據(jù)服務(wù)注冊(cè)系統(tǒng)RSR、可視化服務(wù)平臺(tái)DVIZ[45]等20余項(xiàng)軟件工具.

    面對(duì)源源不斷快速產(chǎn)生的大量數(shù)據(jù)文件以及從中分析生成的千億級(jí)科學(xué)對(duì)象的管理,我們還面臨著一系列的挑戰(zhàn),包括EB級(jí)文件和萬(wàn)億行關(guān)系數(shù)據(jù)的高效率、低成本、一體化存儲(chǔ)和管理,科學(xué)大數(shù)據(jù)快速索引,以支持大規(guī)模、交互式的查詢(xún)和處理;海量多源、多學(xué)科數(shù)據(jù)的自動(dòng)關(guān)聯(lián)與融合;瞬時(shí)產(chǎn)生的海量數(shù)據(jù)實(shí)時(shí)或準(zhǔn)實(shí)時(shí)的高效分析;以流水線(xiàn)的方式實(shí)現(xiàn)海量數(shù)據(jù)資源與科學(xué)模型的快速融合與并行處理等.

    3 全域科學(xué)大數(shù)據(jù)管理系統(tǒng)框架

    科學(xué)大數(shù)據(jù)數(shù)據(jù)管理的目的是最大限度提高科學(xué)發(fā)現(xiàn)的速度和能力,因此管理必須與科學(xué)發(fā)現(xiàn)的過(guò)程有機(jī)融合,要實(shí)現(xiàn)科學(xué)數(shù)據(jù)的采集、存儲(chǔ)、分析處理、發(fā)布與關(guān)聯(lián)融合、歸檔等全域管理,支持?jǐn)?shù)據(jù)按需快速流動(dòng),支持各種類(lèi)型的科學(xué)數(shù)據(jù)流水線(xiàn)的動(dòng)態(tài)集成與調(diào)度.此外,要充分考慮到科學(xué)數(shù)據(jù)類(lèi)型多樣性,應(yīng)用需求多樣性和計(jì)算框架的多樣性,能以開(kāi)放架構(gòu)實(shí)現(xiàn)系統(tǒng)的按需擴(kuò)展和動(dòng)態(tài)演進(jìn).

    為此,本文提出全域科學(xué)大數(shù)據(jù)管理框架,具體如圖4所示:

    Fig. 4 Scientific big data management system圖4 科學(xué)大數(shù)據(jù)管理系統(tǒng)

    主要組成部件包括科學(xué)大數(shù)據(jù)基礎(chǔ)平臺(tái)、科學(xué)大數(shù)據(jù)統(tǒng)一采集與匯聚框架、科學(xué)大數(shù)據(jù)管理與分析引擎、科學(xué)大數(shù)據(jù)流水線(xiàn)管理與調(diào)度系統(tǒng),以及科學(xué)大數(shù)據(jù)應(yīng)用環(huán)境.

    科學(xué)大數(shù)據(jù)基礎(chǔ)平臺(tái)旨在構(gòu)建大數(shù)據(jù)存儲(chǔ)與計(jì)算的云服務(wù)平臺(tái),對(duì)存儲(chǔ)和計(jì)算資源進(jìn)行管理及優(yōu)化,提供基礎(chǔ)的大數(shù)據(jù)存儲(chǔ)和并行計(jì)算能力.同時(shí)配置大數(shù)據(jù)軟件部署與管理工具,實(shí)現(xiàn)Impala[46],HBase[47],Solr[48],TITAN[49],Cassandra[50]等大數(shù)據(jù)集群的按需部署與配置化管理,實(shí)現(xiàn)集群的橫向擴(kuò)展,并通過(guò)提供運(yùn)行監(jiān)控界面,實(shí)現(xiàn)資源狀態(tài)可視化和及時(shí)告警.

    科學(xué)大數(shù)據(jù)統(tǒng)一采集與匯聚框架是一個(gè)可擴(kuò)展的、高容錯(cuò)的、高吞吐量的科學(xué)大數(shù)據(jù)采集框架,實(shí)現(xiàn)科學(xué)大裝置、實(shí)驗(yàn)觀(guān)測(cè)、臺(tái)站網(wǎng)絡(luò)等各類(lèi)科學(xué)數(shù)據(jù)的統(tǒng)一接入,同時(shí)提供包括morphine轉(zhuǎn)換、正則轉(zhuǎn)換、模板轉(zhuǎn)換等靈活的數(shù)據(jù)轉(zhuǎn)換能力.針對(duì)各領(lǐng)域科學(xué)數(shù)據(jù)的采集的不同需求,提供個(gè)性化的學(xué)科領(lǐng)域大數(shù)據(jù)采集軟件,如天文巡天圖像數(shù)據(jù)采集、實(shí)驗(yàn)觀(guān)測(cè)數(shù)據(jù)采集、臺(tái)站網(wǎng)絡(luò)觀(guān)測(cè)數(shù)據(jù)采集等.

    科學(xué)大數(shù)據(jù)管理與分析引擎旨在支持海量分布式科學(xué)數(shù)據(jù)文件的索引和管理、萬(wàn)億級(jí)事例數(shù)據(jù)的在線(xiàn)查詢(xún)與提取、高吞吐的觀(guān)測(cè)實(shí)驗(yàn)流數(shù)據(jù)的在線(xiàn)分析與管理,以及大規(guī)模關(guān)聯(lián)圖的管理與分析計(jì)算.該引擎通過(guò)統(tǒng)一的查詢(xún)語(yǔ)言,實(shí)現(xiàn)對(duì)多元數(shù)據(jù)管理模型的統(tǒng)一訪(fǎng)問(wèn)和查詢(xún),包括對(duì)關(guān)系型數(shù)據(jù)、圖數(shù)據(jù)、KeyValue數(shù)據(jù)、列數(shù)據(jù),以及文件系統(tǒng)的查詢(xún).同時(shí)通過(guò)統(tǒng)一的編程式查詢(xún)分析一體化操作語(yǔ)言,實(shí)現(xiàn)對(duì)科學(xué)數(shù)據(jù)的大批量寫(xiě)入與分析,通過(guò)函數(shù)式編程語(yǔ)言的特性,支持用戶(hù)在操作語(yǔ)句中自定義數(shù)據(jù)的轉(zhuǎn)換和分析算法.

    科學(xué)大數(shù)據(jù)流水線(xiàn)管理與調(diào)度系統(tǒng)通過(guò)對(duì)數(shù)據(jù)的采集、存儲(chǔ)、查詢(xún)和分析過(guò)程的封裝,形成科學(xué)大數(shù)據(jù)流水線(xiàn)的軟件表達(dá)模型.通過(guò)流水線(xiàn)管理模塊,實(shí)現(xiàn)各領(lǐng)域數(shù)據(jù)流水線(xiàn)的統(tǒng)一集成管理.同時(shí),基于大數(shù)據(jù)計(jì)算環(huán)境,實(shí)現(xiàn)數(shù)據(jù)流水線(xiàn)任務(wù)的轉(zhuǎn)換和運(yùn)行調(diào)度,支持?jǐn)?shù)據(jù)流水線(xiàn)任務(wù)的啟停、再放與回溯.針對(duì)各領(lǐng)域科學(xué)數(shù)據(jù)的分析處理的不同特征,集成個(gè)性化的學(xué)科領(lǐng)域大數(shù)據(jù)流水線(xiàn)處理軟件,如天體交叉證認(rèn)流水線(xiàn)、生物信息關(guān)聯(lián)發(fā)現(xiàn)流水線(xiàn)、高能物理事件抽取流水線(xiàn)等.

    4 關(guān)鍵技術(shù)

    針對(duì)科學(xué)大數(shù)據(jù)的管理需求與特點(diǎn),我們可將其涉及到的關(guān)鍵技術(shù)歸納為:科學(xué)大數(shù)據(jù)的融合、實(shí)時(shí)分析、長(zhǎng)期存儲(chǔ)、云服務(wù)技術(shù)、開(kāi)放共享機(jī)制等.

    4.1 科學(xué)大數(shù)據(jù)融合

    大數(shù)據(jù)時(shí)代人們面臨的最根本挑戰(zhàn)是從數(shù)據(jù)中凝練可領(lǐng)悟的知識(shí)[51-52].大數(shù)據(jù)融合的概念[53]是指聚合數(shù)據(jù)間、信息間、知識(shí)片斷間多維度、多粒度的關(guān)聯(lián)關(guān)系實(shí)現(xiàn)更多層面的知識(shí)交互,已廣泛應(yīng)用于各個(gè)領(lǐng)域.比如商業(yè)領(lǐng)域中IBM Watson[54]利用大數(shù)據(jù)融合的關(guān)鍵技術(shù)輔助認(rèn)知商業(yè)發(fā)展;生命科學(xué)利用Bio2RDF[55],Neurocommons[56]等知識(shí)圖譜做問(wèn)答和決策等.

    大數(shù)據(jù)融合不同于傳統(tǒng)數(shù)據(jù)庫(kù)領(lǐng)域的數(shù)據(jù)集成技術(shù)[57-59],也不同于傳統(tǒng)人工智能與認(rèn)知科學(xué)中的知識(shí)融合技術(shù)[60-61].數(shù)據(jù)融合需要用動(dòng)態(tài)的方式統(tǒng)一不同的數(shù)據(jù)源,將離散的數(shù)據(jù)轉(zhuǎn)化為統(tǒng)一的知識(shí)資源.知識(shí)融合是將數(shù)據(jù)融合階段獲得的籠統(tǒng)的知識(shí)轉(zhuǎn)化為可領(lǐng)悟知識(shí),面向需求提供知識(shí)服務(wù).它需要挖掘隱含知識(shí),尋找潛在知識(shí)關(guān)聯(lián),進(jìn)而實(shí)現(xiàn)知識(shí)的深層次理解,以便更好地解釋數(shù)據(jù).

    以微生物領(lǐng)域?yàn)槔热绾蠡蚪M時(shí)代的系統(tǒng)生物學(xué)把生物系統(tǒng)內(nèi)不同性質(zhì)的構(gòu)成要素以及系統(tǒng)內(nèi)各個(gè)不同層次整合在一起進(jìn)行研究[62].那么首先勢(shì)必要將基因、mRNA、蛋白質(zhì)、生物小分子,以及從基因到細(xì)胞、到組織、再到每個(gè)水平的有機(jī)體等不同來(lái)源的數(shù)據(jù)進(jìn)行融合.這個(gè)過(guò)程分4步完成:

    1) 需要從不同數(shù)據(jù)源(如Taxonomy,Genbank,Gene,UniProt,PDB,KEGG,Pfam,GO等)抽取相關(guān)的實(shí)體和關(guān)系,或者從現(xiàn)存知識(shí)庫(kù)(如Neuroco-mmons,Bio2RDF)中直接轉(zhuǎn)化數(shù)據(jù),這一過(guò)程中,隨著數(shù)據(jù)體量、種類(lèi)、來(lái)源等動(dòng)態(tài)變化,需要對(duì)構(gòu)建的知識(shí)庫(kù)進(jìn)行動(dòng)態(tài)更新;

    2) 識(shí)別出相同實(shí)體,并進(jìn)行實(shí)體鏈接,比如識(shí)別出Bt蛋白與蘇云金桿菌蛋白是同一個(gè)蛋白,并且它們與知識(shí)庫(kù)中的實(shí)體Bt蛋白進(jìn)行鏈接;

    3) 在進(jìn)行實(shí)體關(guān)聯(lián)時(shí)可能會(huì)存在歧義、沖突的情況,比如BT既可以表示蘇云金桿菌,也可以表示螞蟻磁力鏈接搜索引擎,這就需要沖突解決技術(shù)消除歧義;

    4) Bt蛋白屬于晶體蛋白,如果我們?yōu)锽t蛋白構(gòu)建了本體——晶體蛋白,那么也可以加速融合的效率,比如中國(guó)科學(xué)院微生物研究所構(gòu)建Speices taxonomy,Protein(uniprot),Gene,Pathway(Kegg),Genome,Enzyme Reaction Data(Kegg)六個(gè)本體用于促進(jìn)生物大數(shù)據(jù)的融合.

    經(jīng)過(guò)上述數(shù)據(jù)融合,我們僅僅使碎片化的數(shù)據(jù)相聯(lián)系、將分散的數(shù)據(jù)相集中,形成表層知識(shí),即微生物知識(shí)資源;但是為了更好地探究生物數(shù)據(jù)之間繁雜的邏輯關(guān)系和特征,就要使隱性知識(shí)顯性化,使表層知識(shí)上升為普適機(jī)理.這個(gè)過(guò)程分4步完成:

    1) 根據(jù)數(shù)據(jù)的分布規(guī)律歸納出數(shù)據(jù)的結(jié)構(gòu)規(guī)則進(jìn)而抽象出數(shù)據(jù)之間的關(guān)聯(lián)模式來(lái)表示知識(shí),即要對(duì)微生物知識(shí)進(jìn)行抽象與建模,比如把“蘇云金桿菌是產(chǎn)生Bt蛋白質(zhì)的土壤細(xì)菌”這一知識(shí)用RDF三元組〈蘇云金桿菌,產(chǎn)生,Bt蛋白質(zhì)〉和〈蘇云金桿菌,屬于,土壤細(xì)菌〉表示或者用低維向量的形式表示.

    2) 通過(guò)關(guān)系推演技術(shù)顯性化隱性知識(shí),比如中科院微生物研究所融合了36個(gè)不同的數(shù)據(jù)源約830萬(wàn)個(gè)數(shù)據(jù),從約4 000萬(wàn)個(gè)顯示關(guān)聯(lián)關(guān)系中推演得到約1.4億個(gè)隱式關(guān)聯(lián)關(guān)系.

    3) 除了隱性知識(shí),還有更重要的深度知識(shí),包括高階多元關(guān)系和隱含語(yǔ)義關(guān)系,比如魚(yú)類(lèi)中的掠食者在食物富集時(shí)運(yùn)動(dòng)軌跡呈布朗運(yùn)動(dòng),微生物菌群共生體系中可能存在基因共振現(xiàn)象,而單個(gè)培養(yǎng)的微生物中沒(méi)有共振現(xiàn)象[63].這種知識(shí)一般需要通過(guò)領(lǐng)域理論,運(yùn)用數(shù)學(xué)、物理等工具,進(jìn)行理論建模、解析、邏輯演繹、公式推演和證明獲得,如采用統(tǒng)計(jì)分析和深度學(xué)習(xí)的方法.

    4) 人的智力能透過(guò)現(xiàn)象看到本質(zhì),只有發(fā)現(xiàn)大數(shù)據(jù)所呈現(xiàn)出的普遍現(xiàn)象背后的普適原理才能對(duì)客觀(guān)世界產(chǎn)生更大的影響.比如,社會(huì)網(wǎng)絡(luò)中社群的消失現(xiàn)象,他們背后的普適原理是生物進(jìn)化論[64];增長(zhǎng)和擇優(yōu)機(jī)制在復(fù)雜網(wǎng)絡(luò)自組織演化中具有普遍性,它們使網(wǎng)絡(luò)在宏觀(guān)上具有冪律度分布的普適現(xiàn)象[65].這就搭建起了龐大復(fù)雜的人類(lèi)社會(huì)與渺小精細(xì)的微生物群落之間的關(guān)聯(lián).

    從上述案例我們也可以看出,微生物大數(shù)據(jù)融合的數(shù)據(jù)融合用于“喂飽”人類(lèi)對(duì)微生物知識(shí)的需求,而知識(shí)融合“反哺”生態(tài)系統(tǒng)的和諧發(fā)展.二者相互協(xié)調(diào)啟發(fā)才能最大限度地提升微生物大數(shù)據(jù)的價(jià)值.

    4.2 科學(xué)大數(shù)據(jù)實(shí)時(shí)分析

    科學(xué)領(lǐng)域已進(jìn)入一個(gè)信息豐富的大數(shù)據(jù)時(shí)代,數(shù)據(jù)量正以TB級(jí)甚至PB級(jí)的速度增長(zhǎng).科學(xué)大數(shù)據(jù)的分析正在從傳統(tǒng)的批量處理向?qū)崟r(shí)分析快速發(fā)展.

    以天文領(lǐng)域GWAC全天短時(shí)標(biāo)觀(guān)測(cè)系統(tǒng)為例,整個(gè)天區(qū)由40個(gè)GWAC相機(jī)陣同時(shí)監(jiān)控,一個(gè)GWAC相機(jī)每15 s產(chǎn)生一個(gè)大約32 MB的天區(qū)圖,通過(guò)點(diǎn)源提取該天區(qū)圖將生成1.7×106條星表記錄.每副圖片的點(diǎn)源提取和星表記錄與模板表的交叉證認(rèn)時(shí)間之和需小于15 s的延遲,這是一個(gè)典型的實(shí)時(shí)分析的應(yīng)用場(chǎng)景.

    天文大數(shù)據(jù)具有產(chǎn)生速度快、數(shù)據(jù)量大、周期時(shí)間長(zhǎng)等特點(diǎn),需要設(shè)計(jì)可快速入庫(kù)的緩存機(jī)制或消息隊(duì)列,提高數(shù)據(jù)的存儲(chǔ)能力和消息隊(duì)列的吞吐率.并采用分布式多級(jí)緩存機(jī)制或可擴(kuò)展的消息隊(duì)列實(shí)現(xiàn)科學(xué)數(shù)據(jù)的快速存儲(chǔ)和傳輸.

    為滿(mǎn)足高速數(shù)據(jù)采集下的實(shí)時(shí)分析,一般分為針對(duì)批量外存數(shù)據(jù)的大規(guī)模并行處理(massively parallel processing, MPP)技術(shù)和基于流式內(nèi)存數(shù)據(jù)的數(shù)據(jù)流查詢(xún)處理技術(shù).為便于快速查詢(xún)和實(shí)時(shí)分析內(nèi)外存數(shù)據(jù),可設(shè)計(jì)同時(shí)進(jìn)行批量處理和流式處理的查詢(xún)適配器,通過(guò)統(tǒng)一的查詢(xún)接口實(shí)現(xiàn)不同數(shù)據(jù)類(lèi)型的全量查詢(xún)結(jié)果.

    此外,隨著數(shù)據(jù)量的累積和維度的增加,以及查詢(xún)和分析復(fù)雜度的不斷增長(zhǎng),實(shí)時(shí)返回用戶(hù)查詢(xún)結(jié)果越來(lái)越成為科學(xué)大數(shù)據(jù)系統(tǒng)的一個(gè)重要挑戰(zhàn).目前,學(xué)術(shù)界和工業(yè)界的一個(gè)研究重點(diǎn)就是如何在科學(xué)大數(shù)據(jù)系統(tǒng)中支持交互式的數(shù)據(jù)查詢(xún).這里的交互性體現(xiàn)在處理用戶(hù)查詢(xún)過(guò)程中系統(tǒng)及時(shí)不斷地提供反饋,這樣使得用戶(hù)能夠快速地做出反應(yīng)和根據(jù)反饋結(jié)果更改或優(yōu)化下一步的查詢(xún)條件,以找到最相關(guān)和最有意義的查詢(xún)結(jié)果.因此,交互性查詢(xún)分析也是實(shí)時(shí)分析的一個(gè)重要研究方向.

    4.3 科學(xué)大數(shù)據(jù)長(zhǎng)期存儲(chǔ)

    現(xiàn)代科學(xué)大數(shù)據(jù)需要花費(fèi)成百上千萬(wàn)美元產(chǎn)生數(shù)據(jù),通常會(huì)積累幾年到十幾年的數(shù)據(jù),這些數(shù)據(jù)該如何有效地保存和利用一致是科學(xué)數(shù)據(jù)面臨的重大問(wèn)題.大數(shù)據(jù)時(shí)代數(shù)據(jù)產(chǎn)生的速度更快,產(chǎn)生的量更大,如何長(zhǎng)期存儲(chǔ)這些數(shù)據(jù)并提供高效的處理,或者說(shuō)如何決定保存哪些數(shù)據(jù)淘汰哪些數(shù)據(jù)成為了當(dāng)務(wù)之急.

    以GWAC為例,根據(jù)天文數(shù)據(jù)的獨(dú)特要求,為了滿(mǎn)足對(duì)短期數(shù)據(jù)的快速實(shí)時(shí)查詢(xún)以及對(duì)數(shù)據(jù)的長(zhǎng)期存儲(chǔ),設(shè)計(jì)使用了正三角和倒三角模型對(duì)數(shù)據(jù)進(jìn)行處理分析(如圖5所示).在數(shù)據(jù)的底層存儲(chǔ)中,通過(guò)使用HDFS對(duì)數(shù)據(jù)按照文件的方式進(jìn)行存儲(chǔ).將每一個(gè)星的數(shù)據(jù)保存成一個(gè)文件.單個(gè)星的文件隨著時(shí)間的積累不斷增加,而文件總數(shù)卻始終保持在百萬(wàn)級(jí).而HDFS面對(duì)海量小文件時(shí)的處理應(yīng)對(duì)能力較弱,因此我們使用三角模型對(duì)數(shù)據(jù)進(jìn)行處理.隨著時(shí)間的增加,將海量小文件逐步合并,越久遠(yuǎn)的數(shù)據(jù)合并率越高,而近期的數(shù)據(jù)則保持不變,不進(jìn)行合并.同時(shí),隨著文件的合并,文件大小也會(huì)有所變化,當(dāng)久遠(yuǎn)的數(shù)據(jù)合并后,單一文件大小會(huì)不斷增大.通過(guò)這樣的方法,在文件個(gè)數(shù)和文件大小之間尋找平衡以滿(mǎn)足對(duì)數(shù)據(jù)的有效管理.

    Fig. 5 Counts and sizes of long term stored scientific data圖5 科學(xué)大數(shù)據(jù)長(zhǎng)期存儲(chǔ)文件數(shù)目與大小

    總之,長(zhǎng)期存儲(chǔ)系統(tǒng)的目標(biāo)可以歸為3個(gè):1)設(shè)計(jì)一個(gè)簡(jiǎn)單一致的解決方案,計(jì)算與存儲(chǔ)資源混合在同一節(jié)點(diǎn)上,使其具備獨(dú)立運(yùn)行能力;2)完成可擴(kuò)張的和輕便的設(shè)計(jì),以便能夠?qū)⑺性O(shè)計(jì)布置到位于全球任何地方的合作單位;3)集安全性和適應(yīng)性于一體,對(duì)于磁盤(pán)或結(jié)點(diǎn)丟失應(yīng)具有健壯性,所有后備成員具備完全獨(dú)立性.

    4.4 科學(xué)大數(shù)據(jù)云服務(wù)技術(shù)

    隨著云服務(wù)提供給大數(shù)據(jù)管理和分析的質(zhì)量得到不斷提高,云服務(wù)的多樣性也在穩(wěn)步增長(zhǎng).科學(xué)大數(shù)據(jù)的管理與分析正好可以借助云服務(wù)的進(jìn)步來(lái)更好地為科學(xué)研究提供助力,將計(jì)算資源和數(shù)據(jù)資源合理高效地整合到云端,更好地為科技工作者提供服務(wù)和幫助.

    科學(xué)大數(shù)據(jù)云存儲(chǔ)服務(wù)不同于普通云存儲(chǔ),其主要是面向大數(shù)據(jù)分析的超大規(guī)模存儲(chǔ)庫(kù),一般要求能存儲(chǔ)非結(jié)構(gòu)化和結(jié)構(gòu)化數(shù)據(jù)且能提高分析性能的大吞吐量.由于受到傳統(tǒng)分析體系結(jié)構(gòu)(例如架構(gòu)的預(yù)定義)的限制,需要事先定義數(shù)據(jù)模式.為應(yīng)對(duì)這一挑戰(zhàn),引入數(shù)據(jù)湖概念,將它作為存儲(chǔ)在單一位置收集的各種類(lèi)型數(shù)據(jù)的企業(yè)級(jí)存儲(chǔ)庫(kù).出于科學(xué)探索分析目的,可在定義架構(gòu)之前,所有類(lèi)型的數(shù)據(jù)都可以存儲(chǔ)在數(shù)據(jù)湖中.因此當(dāng)面對(duì)某種分析時(shí),動(dòng)態(tài)的創(chuàng)建數(shù)據(jù)模式是未來(lái)的主要挑戰(zhàn).

    科學(xué)領(lǐng)域的數(shù)據(jù)分析往往需要深度定制自身分析流程.科研人員需要調(diào)用基本API編程,但不同系統(tǒng)的API差異很大(如Spark和Hadoop的編程接口差異),導(dǎo)致程序移植性差.因此云分析服務(wù)面臨的基本挑戰(zhàn)是解耦底層數(shù)據(jù)分析系統(tǒng)和分析API直接的聯(lián)系,從而實(shí)現(xiàn)同樣的分析程序可在不同的大數(shù)據(jù)系統(tǒng)之間輕松移植,從而減輕科研人員的工作壓力.

    4.5 科學(xué)大數(shù)據(jù)開(kāi)放共享

    數(shù)據(jù)只有在不斷的使用中才能產(chǎn)生價(jià)值,而且,數(shù)據(jù)資源天然具有可重復(fù)使用的特征.開(kāi)放科學(xué)數(shù)據(jù)可確??茖W(xué)研究結(jié)論的真實(shí)性和可重現(xiàn)性,可確保公共財(cái)政投入獲取的公共資源,能最大限度地產(chǎn)生價(jià)值,可支持?jǐn)?shù)據(jù)跨領(lǐng)域、跨學(xué)科的融合和重復(fù)使用,從而加快科學(xué)發(fā)現(xiàn)的進(jìn)程.世界經(jīng)濟(jì)合作與發(fā)展組織OECD提出了科學(xué)數(shù)據(jù)開(kāi)放的基本原則[66],F(xiàn)orce11明確了有效開(kāi)放的“FAIR”(findable,accessible,interoperable,reusable)標(biāo)準(zhǔn)[67-68],國(guó)際科學(xué)聯(lián)合會(huì)ICSU發(fā)布了“大數(shù)據(jù)時(shí)代開(kāi)放數(shù)據(jù)公約”,明確了在數(shù)據(jù)開(kāi)放過(guò)程中各利益相關(guān)方的責(zé)任.

    科學(xué)大數(shù)據(jù)開(kāi)放共享一個(gè)基本的共識(shí)是,研究項(xiàng)目及其相關(guān)數(shù)據(jù)收集完成時(shí),公共財(cái)政支持產(chǎn)生的數(shù)據(jù)應(yīng)可公開(kāi)訪(fǎng)問(wèn)及最大限度地再利用.如生命科學(xué)領(lǐng)域的基因序列數(shù)據(jù)庫(kù)GenBank,通過(guò)和國(guó)際著名學(xué)術(shù)期刊合作,強(qiáng)制要求學(xué)術(shù)論文作者在提交論文時(shí),必須先將數(shù)據(jù)提交到GenBank數(shù)據(jù)庫(kù)中,為全人類(lèi)積累了一個(gè)龐大的基因序列數(shù)據(jù)庫(kù).再如,Sloan數(shù)字巡天項(xiàng)目SDSS,已經(jīng)先后向全世界發(fā)布了13版的巡天數(shù)據(jù).

    概括起來(lái),科學(xué)大數(shù)據(jù)開(kāi)放共享方式主要包括:

    1) 通過(guò)國(guó)際合作項(xiàng)目或合作網(wǎng)絡(luò)驅(qū)動(dòng)的開(kāi)放共享,典型的如GEOSS[69],GBIF[70], WDCM[71]等.這種方式要求所有參與者按照大家共同認(rèn)可的規(guī)則開(kāi)放數(shù)據(jù)和使用數(shù)據(jù).

    2) 通過(guò)學(xué)術(shù)期刊驅(qū)動(dòng)的開(kāi)放共享,典型的如基因序列數(shù)據(jù)庫(kù)EMBL/GenbankDDBJ.

    3) 通過(guò)公共存儲(chǔ)庫(kù)和公共服務(wù)驅(qū)動(dòng)的開(kāi)放共享,典型的如SDSS,Dryad[72],F(xiàn)ig share[73]等.這種方式通過(guò)建立一個(gè)領(lǐng)域內(nèi)或者跨領(lǐng)域的公共數(shù)據(jù)庫(kù)或公共數(shù)據(jù)存儲(chǔ)平臺(tái),以服務(wù)的方式來(lái)匯聚和開(kāi)放數(shù)據(jù)資源.

    4) 數(shù)據(jù)出版和引用機(jī)制,典型的如Nature旗下的Scientific Data[74]、ESSD[75]、《中國(guó)科學(xué)數(shù)據(jù)》[76]等,通過(guò)數(shù)據(jù)論文的發(fā)表和引用來(lái)激勵(lì)科研人員開(kāi)放數(shù)據(jù),并提高數(shù)據(jù)的可理解性和可重用性.此外,以數(shù)據(jù)交易的形式提供服務(wù)的數(shù)據(jù)集市機(jī)制,也開(kāi)始有一些嘗試,但是其是否適合于科學(xué)數(shù)據(jù),還有待進(jìn)一步觀(guān)察.

    在科學(xué)數(shù)據(jù)的開(kāi)放共享中,不同的學(xué)科、不同的數(shù)據(jù)、不同的組織乃至國(guó)家,其采用的機(jī)制、模式等可能均不同,不能一概而論,也不存在“One size fits all”的解決方案.但在任何一種機(jī)制的設(shè)計(jì)中,必須首先明確參與數(shù)據(jù)開(kāi)放共享的各相關(guān)方的利益和訴求,要通過(guò)建立有效的激勵(lì)機(jī)制、利益分配機(jī)制和評(píng)估評(píng)價(jià)機(jī)制等來(lái)有序推進(jìn),而且其中數(shù)據(jù)權(quán)屬的問(wèn)題、隱私問(wèn)題、安全問(wèn)題,也不可忽視.

    5 總結(jié)和展望

    大數(shù)據(jù)時(shí)代科學(xué)研究是一個(gè)大科學(xué)、大需求、大數(shù)據(jù)、大計(jì)算、大發(fā)現(xiàn)的過(guò)程.數(shù)據(jù)密集型科學(xué)發(fā)現(xiàn)已經(jīng)成為繼實(shí)驗(yàn)科學(xué)、理論推演、計(jì)算機(jī)仿真這3種科研范式相輔相成的科學(xué)研究第四范式.先進(jìn)的科學(xué)大數(shù)據(jù)管理和處理可以為各學(xué)科領(lǐng)域的新發(fā)現(xiàn)提供堅(jiān)實(shí)的技術(shù)基礎(chǔ),能夠加速具有國(guó)際影響力的科技成果的產(chǎn)出過(guò)程,具有重要的科學(xué)價(jià)值.

    然而,為了更好地促進(jìn)科學(xué)研究,科學(xué)大數(shù)據(jù)的管理還存在著較大的技術(shù)挑戰(zhàn),包括EB級(jí)文件和千億行關(guān)系數(shù)據(jù)的高效率、低成本、一體化存儲(chǔ)和管理,科學(xué)大數(shù)據(jù)快速索引,以支持大規(guī)模、交互式的查詢(xún)和處理;海量多源、多學(xué)科數(shù)據(jù)的自動(dòng)關(guān)聯(lián)與融合;瞬時(shí)產(chǎn)生的海量數(shù)據(jù)實(shí)時(shí)或準(zhǔn)實(shí)時(shí)的高效分析;以流水線(xiàn)的方式實(shí)現(xiàn)海量數(shù)據(jù)資源與科學(xué)模型的快速融合與并行處理等.

    為此,我們需突破科學(xué)大數(shù)據(jù)管理與分析的關(guān)鍵問(wèn)題,研發(fā)一體化全流程科學(xué)大數(shù)據(jù)管理系統(tǒng),成為大數(shù)據(jù)時(shí)代重大科技創(chuàng)新活動(dòng)必要的“使能利器”,也成為廣大科研人員“軍械庫(kù)”中的“殺手锏”,幫助他們從大數(shù)據(jù)中高效、快速地發(fā)現(xiàn)新知識(shí),取得新的突破.

    [1]Greenberg J. Big data, little data, no data: Scholarship in the networked world[J]. Leonardo, 2016, 49(1): 91-92

    [2]Barwick H. The “four Vs” of Big Data, Implementing Information Infrastructure Symposium[EB/OL]. North Sydney NSW: IDG Communications Pty Ltd. (2012-10-02) [2016-10-10]. http://www.computerworld.com.au/article/396198/iiis_four_vs_big_data/

    [3]IBM. What is big data? [EB/OL].Armonk, NY: IBM Corporation. (2012-10-02) [2016-10-12]. http://www-01.ibm.com/software/data/bigdata/

    [4]Wikimedia. Big data[EB/OL]. 2016 [2016-10-02]. http://en.wikipedia.org/wiki/Big_data

    [5]Kaufman Y J, Justice C, Flynn L, et al. Monitoring global fires from EOS-MODIS[J]. Journal of Geo-Physical Research, 1998, 103(D24): 32215-32238

    [6]Wan Meng, Wu Chao, Wang Jing, et al. Column store for GWAC: A high-cadence, high-density, large-scale astronomical light curve pipeline and distributed shared-nothing database[J]. Publications of the Astronomical Society of the Pacific, 2016, 128(969): 114501-114516

    [7]Bourne P E, Bonazzi V, Dunn M, et al. The NIH big data to knowledge (BD2K) initiative[J]. Journal of the American Medical Informatics Association, 2015, 22(6): 1114-1114

    [8]Chen Guangren, Zhu Yu, Su Qing. Science programs lead to the future[J]. Science Technology Review, 2014, 32(31): 15-28 (in Chinese)(陳廣仁, 朱宇, 蘇青. 引領(lǐng)未來(lái)的科學(xué)計(jì)劃[J]. 科技導(dǎo)報(bào), 2014, 32(31): 15-28)

    [9]Jones B. Towards the open European science cloud[C] // Digital Era Forum. Zenodo, 2015: 1-21

    [11]LSST. LSST Public Website Sitemap[OL]. Tucson, AZ. LSST Corporation. [2016-10-02]. http://www.lsst.org/lsst/science/scientist_transient

    [12]Ivezic Z, Tyson J A, Abel B, et al. LSST: From science drivers to reference design and anticipated data products[J]. American Astronomical Society, 2008, 41: 366

    [13]Becla J, Szalay A, Gray J. Designing a multi-petabyte database for LSST[C] //Proc of SPIE Astronomical Telescopes+ Instrumentatio. Bellingham: WASPIE Publica-tions, 2006: 62700R-62700R

    [14]Mao Daowei, Su Xia. The initial progress of the model reforming, the characteristics of the cultivating talents-Students fromthe Beijing Genomics Institute (BGI) frequently publish works in Science and Nature[J]. Guangdong Science & Technology, 2010, 19(11): 15-18 (in Chinese)(毛道偉, 孫俠. 模式改革初顯成效人才培養(yǎng)漸成特色——華工-華大基因組科學(xué)創(chuàng)新班學(xué)生《Science》、《Nature》頻亮相引關(guān)注[J]. 廣東科技, 2010, 19(11): 15-18)

    [15]Brooksbank C, Cameron G, Thornton J. The European Bioinformatics Institute’s data resources: Towards systems biology[J]. Nucleic Acids Research, 2005, 33(Suppl 1): 46-53

    [16]Rao Dongmei. NCBI data base and its resource access[J]. Science & Technology Vision, 2013 (7): 53-54 (in Chinese)(饒冬梅. NCBI數(shù)據(jù)庫(kù)及其資源的獲取[J]. 科技視界, 2013 (7): 53-54)

    [17] Li Guojie. The recognition of big data[J]. Big Data, 2015, 1(1): 1-9 (in Chinese)(李國(guó)杰. 對(duì)大數(shù)據(jù)的再認(rèn)識(shí)[J]. 大數(shù)據(jù), 2015, 1(1): 1-9)

    [18]Andreeva J, Campana S, Fanzago F, et al. High-energy physics on the grid: The ATLAS and CMS experience[J]. Journal of Grid Computing, 2008, 6(1): 3-13

    [19]Chen J, Wang W, Li Z Y, et al. Landsat 5 satellite overview[J]. Remote Sensing Information, 2007, 43(3): 85-89

    [20]The results summary of the information special project “integration and share of data resources” in Chinese Academy of Science. Science and Technology Daily[N]. Beijing: Science and Technology Daily Press, 2016-04-05 (in Chinese)(中科院“十二五”信息化專(zhuān)項(xiàng)科技數(shù)據(jù)資源整合與共享工程成果概述. 科技日?qǐng)?bào)[N]. 北京: 科技日?qǐng)?bào)社, 2016-04-05)

    [21]Moore R, Chen S Y, Schroeder W, et al. Production storage resource broker data grids[C] //Proc of IEEE Int Conf on E-Science & Grid Computing. Los Alamitos, CA: IEEE Computer Society, 2006: 147

    [22]Manandhar A, Dam K K V, Berrisford P, et al. Deploying a distributed data storage system for grid applications on the National Grid Service using federated SRB[C] //Proc of the UK e-Science All Hands Meeting. Edinburgh. UK: National e-Science Centre, 2004

    [23]Hedges M, Hasan A, Blanke T. Management and preser-vation of research data with iRODS.[C] //Proc of the 16th ACM Conf on Information and Knowledge Management, Workshop on Cyberinfrastructure: Information Management in Escience (CIMS 2007, CIKM 2007). New York: ACM, 2007: 17-22

    [24]Conway M, Moore R, Rajasekar A, et al. Demonstration of policy-guided data preservation using iRODS[C] //Proc of IEEE Int Symp on Policies for Distributed Systems and Networks. Los Alamitos, CA: IEEE Computer Society, 2011: 173-174

    [25]Antunes G, Barateiro J. Securing the iRODS metadata catalog for digital preservation[M] //Research and Advanced Technology for Digital Libraries. Berlin: Springer, 2009: 412-415

    [26]Cudre-Mauroux P, Kimura H, Lim K T, et al. A demons-tration of SciDB: A science-oriented DBMS[J]. VLDB, 2009, 2(2): 1534-1537

    [27]Stonebraker M. SciDB: An open-source DBMS for scientific data[J]. ERCIM News, 2012, 89: 13

    [28]Stonebraker M, Becla J, Dewitt D J, et al. Requirements for science data bases and SciDB[C] //Proc of the Conf of CIDR. New York: ACM, 2009: 173-184

    [29]Hammami R, Zouhir A, Naghmouchi K, et al. SciDBMaker: New software for computer-aided design of specialized biological databases[J]. BMC Bioinformatics, 2008, 9(1): 1-6

    [30]Stonebraker M, Brown P, Becla J, et al. SciDB: A database management system for applications with complex analytics[J]. Computing in Science & Engineering, 2013, 15(3): 54-62

    [31]Cudré-Mauroux P, Kimura H, Lim K T, et al. A demonstration of SciDB: A science-oriented DBMS[J]. VLDB Endowment, 2009, 2(2): 1534-1537

    [32]Stonebraker M, Duggan J, Battle L, et al. SciDB DBMS research at MIT[J]. IEEE Data Engineering Bulletin, 2013, 36(4): 21-30

    [33]Paul G Brown. Overview of SciDB: Large scale array storage, processing and analysis[C] //Proc of Conf of SIGMOD. New York: ACM, 2010: 963-968

    [34]Stonebraker M, Brown P, Poliakov A, et al. The architecture of SciDB[C] // Proc of Scientific and Statistical Data Management Conf. Berlin: Springer, 2011: 1-16

    [35]Becla J, Lim K T. Report from the SciDB workshop[J]. Data Science Journal, 2008, 7: 88-95

    [36]Seo S, Yoon E J, Kim J, et al. HAMA: An efficient matrix computation with the MapReduce framework[C] //Proc of Cloud Computing Technology and Science (CloudCom). Piscataway, NJ: IEEE, 2010: 721-726

    [37]Luo S, Liu L, Wang H, et al. Implementation of a parallel graph partition algorithm to speed up BSP computing[C] //Proc of Fuzzy Systems and Knowledge Discovery (FSKD). Piscataway, NJ: IEEE, 2014: 740-744

    [38]Suchanek F M, Weikum G. Knowledge bases in the age of big data analytics[J]. VLDB Endowment, 2014, 7(13): 1713-1714

    [39]Suchanek F, Weikum G. Knowledge harvesting in the big-data era[C] //Proc of ACM SIGMOD Int Conf on Management of Data. New York: ACM, 2013: 933-938

    [40]Szalay A S, Gray J, Thakar A R, et al. The SDSS SkyServer, public access to the sloan digital sky server data[C] //Proc of SIGMOD. New York: ACM, 2002: 570-581

    [41]Raddick M J, Szalay A S, Gray J N, et al. Two years of SkyServer: Education and outreach with sloan digital sky survey data[J]. Bulletin of the American Astronomical Society, 2003, 35(3): 718

    [42]Wang D L, Monkewitz S M, Lim K T, et al. Qserv: A distributed shared-nothing database for the LSST catalog[C] //Proc of High Performance Computing, Networking, Storage and Analysis. New York: ACM, 2011: 1-11

    [43]Shen Z, Li J, Li C, et al. VisualDB: Managing and publishing scientific data on the Web[C] //Proc of Int Conf on Cyber-Enabled Distributed Computing and Knowledge Discovery, Cyberc. Piscataway, NJ: IEEE, 2011: 399-404

    [44]Huo D M, Li S, Xu C. Service system of the South China Sea science data products based on VisualDB[J]. Journal of Tropical Oceanography, 2012, 31(2): 118-122

    [45]Du Yi, Guo Danhuai, Chen Xi, et al. Model-driven visualization generation system[J].Journal of Software, 2016, 27(5): 1199-1211 (in Chinese)(杜一, 郭旦懷, 陳昕, 等. 一種模型驅(qū)動(dòng)的可視化生成系統(tǒng)[J]. 軟件學(xué)報(bào), 2016, 27(5): 1199-1211)

    [46]Taft D K. Cloudera Impala 1.0 Brings SQL to Hadoop for Real-Time Queries[EB/OL]. Foster City, CA: Eweek, (2013-05-12) [2016-10-10]. http://www.eweek.com/database/cloudera-impala-1.0-brings-sql-to-hadoop-for-real-time-queries

    [47]Vora M N. Hadoop-HBase for large-scale data[C] //Proc of Int Conf on Computer Science and Network Technology. Piscataway, NJ: IEEE, 2011: 601-605

    [48]Abdelouarit K A, Sbihi B, Aknin N. Solr, lucene and Hadoop: Towards a complete solution to improve research in big data environment (Case of the UAE)[C] //Proc of the Mediterranean Congress of Telecommunications. Los Alamitos, CA: IEEE Computer Society, 2016: 363-367

    [49]Jouili S, Vansteenberghe V. An empirical comparison of graph databases[C] //Proc of Int Conf on Social Computing. Piscataway, NJ: IEEE, 2013: 708-715

    [50]Lakshman A, Malik P. Cassandra: A decentralized structured storage system[J]. AcmSigops Operating Systems Review, 2010, 44(2): 35-40

    [51]Suchanek F M, Weikum G. Knowledge bases in the age of big data analytics[J]. Proceedings of the VLDB Endowment, 2014, 7(13): 1713-1714

    [52]Suchanek F, Weikum G. Knowledge harvesting in the big-data era[C] //Proc of the 2013 ACM SIGMOD Int Conf on Management of Data. New York: ACM, 2013: 933-938

    [53]Meng Xiaofeng, Du Zhijuan. Research on the big data fusion: Issues and challenges[J]. Journal of Computer Research and Development, 2016, 53(2): 231-246 (in Chinese)(孟小峰, 杜治娟. 大數(shù)據(jù)融合研究: 問(wèn)題與挑戰(zhàn)[J]. 計(jì)算機(jī)研究與發(fā)展, 2016, 53(2): 231-246)

    [54]IBM. Shop hardware, software and services from IBM and our partners[OL]. IBM Watson. 2016[2016-10-13]. http://www-31.ibm.com/ibm/cn/cognitive/outthink/

    [55]Belleau F, Nolin M A, Tourigny N, et al. Bio2RDF: Towards a mashup to build bioinformatics knowledge systems[J]. Journal of Biomedical Informatics, 2008, 41(5): 706-716

    [56]Lenzerini M. Data integration: A theoretical perspective[C] //Proc of the 21st ACM SIGMOD-SIGACT-SIGART Symp on Principles of Database Systems. New York: ACM, 2002: 233-246

    [57] Meng Xiaofeng, Liu Wei, Jiang Fangjiao, et al. Web Data Management Principle and Technology[M]. Beijing: Tsinghua University Press, 2014 (in Chinese)(孟小峰, 劉偉, 姜芳艽, 等. Web數(shù)據(jù)管理:概念與技術(shù)[M].北京: 清華大學(xué)出版社, 2014)

    [58]Dong X L, Srivastava D. Big data integration[C] //Proc of Int Conf on Data Engineering (ICDE). Piscataway, NJ: IEEE, 2013: 1245-1248

    [59]Dong X, Gabrilovich E, Heitz G, et al. Knowledge vault: A Web-scale approach to probabilistic knowledge fusion[C] //Proc of SIGKDD. New York: ACM, 2014: 601-610

    [60]Jan M. Linked data integration[D]. Progue: Charles University in Prague, 2013

    [61]Samarati P, Sweeney L. Generalizing data to provide anonymity when disclosing information (abstract)[C] //Proc of PODS. New York: ACM, 1998: 188

    [62]Zieglg?nsberger W, Toile T R. The pharmacology of pain signalling[J]. Current Opinion in Neurobiology, 1993, 3(4): 611-618

    [63]Chen Y, Kim J K, Hirning A J, et al. Emergent genetic oscillations in a synthetic microbial consortium[J]. Science, 2015, 349(6251): 986-989

    [64] Givan M, Newman M E J. Community structure in social and biological networks[C] //Proc of the National Academy of Sciences of the United States of America. Los Gatos, CA: HighWire Press, 2001: 7821-7826

    [65]Barabási A L, Albert R. Emergence of scaling in random networks[J]. Science, 1999, 286(5439): 509-512

    [66]Pilat D, Fukasaku Y. OECD principles and guidelines for access to research data from public funding[J]. Data Science Journal, 2007, 6: OD4-OD11

    [67]Wilkinson M D, Dumontier M, Aalbersberg I J J, et al. The FAIR guiding principles for scientific data management and stewardship[J]. Scientific Data, 2016, 3: 1-9

    [68]Force11. Guiding principles for findable, accessible, interoperable and re-usable data publishing version b1.0 [EB/OL]. [2016-09-10]. https://www.force11.org/fairprinciples

    [69]Wikimedia. GEO.GEOSS: The Global Earth Observation System of Systems. [EB/OL]. [2016-09-10]. http://www.earthobser vations.org/geoss.shtml

    [70] GBIF(Global biodiversity information facility). Free and Open Access to Biodiversity Data|GBIF.org[EB/OL]. [2016-09-10]. http://www.gbif.org/

    [71]Sun Q, Li L, Wu L, et al. Web resources for microbial data[J]. Genomics Proteomics Bioinformatics, 2015, 42(1): 69-72

    [72]Dryad. Submission integration[EB/OL]. [2016-09-10]. http://datadryad.org/

    [73] Hahnel M. Exclusive: Figshare a new open data project that wants to change the future of scholarly publishing[EB/OL]. 2012 [2016-09-10]. https://core.ac.uk/download/pdf/16380431.pdf

    [74]Nature. Scientific Data[EB/OL]. [2016-09-10]. http://www.nature.com/sdata/

    [75]ESSD. Earth System Science Data[EB/OL]. [2016-09-10]. http://www.earth-system-science-data.net/

    [76] CSData. Chinese Science Data[EB/OL]. [2016-09-10]. http://www.csdata.org/ (in Chinese)(CSData.中國(guó)科學(xué)數(shù)據(jù)(中英文網(wǎng)絡(luò)版)[EB/OL]. [2016-09-10]. http://www.csdata.org/)

    Li Jianhui, born in 1973. PhD, professor. His main research interests include open data policy and practice, large scale distributed data integration and data cloud service, big data management, big data computing and analysis for science discovery.

    Shen Zhihong, born in 1977. PhD, professor. His main research interests include scientific data management and integration, linked data and big data management.

    Meng Xiaofeng, born in 1964. PhD, professor at Renmin University of China. CCF fellow. His main research interests include data fusion and knowledge fusion, big data management for new hardware, big data real time and interactive analysis, and big data privacy management.

    Scientific Big Data Management: Concepts, Technologies and System

    Li Jianhui1, Shen Zhihong1, and Meng Xiaofeng2

    1(ComputerNetworkInformationCenter,ChineseAcademyofSciences,Beijing100190)2(SchoolofInformation,ReminUniversityofChina,Beijing100872)

    In recent years, as more and more large-scale scientific facilities have been built and significant scientific experiments have been carried out, scientific research has entered an unprecedented big data era. Scientific research in big data era is a process of big science, big demand, big data, big computing, and big discovery. It is of important significance to develop a full life cycle data management system for scientific big data. In this paper, we first introduce the background of the development of scientific big data management system. Then we specify the concepts and three key characteristics of scientific big data. After an review of scientific data resource development projects and scientific data management systems, a framework is proposed aiming at the full life cycle management of scientific big data. Further, we introduce the key technologies of the management framework including data fusion, real-time analysis, long termstorage, cloud service, and data opening and sharing. Finally, we summarize the research progress in this field, and look into the application prospects of scientific big data management system.

    scientific data; big data; data pipeline; full life cycle of data

    2016-11-15;

    2017-01-14

    國(guó)家重點(diǎn)研發(fā)計(jì)劃項(xiàng)目(2016YFB1000600) This work was supported by the National Key Research Program of China (2016YFB1000600).

    TP391

    猜你喜歡
    流水線(xiàn)數(shù)據(jù)管理科學(xué)
    Gen Z Migrant Workers Are Leaving the Assembly Line
    企業(yè)級(jí)BOM數(shù)據(jù)管理概要
    定制化汽車(chē)制造的數(shù)據(jù)管理分析
    海洋環(huán)境數(shù)據(jù)管理優(yōu)化與實(shí)踐
    CTCS-2級(jí)報(bào)文數(shù)據(jù)管理需求分析和實(shí)現(xiàn)
    流水線(xiàn)
    科學(xué)大爆炸
    科學(xué)
    報(bào)廢汽車(chē)拆解半自動(dòng)流水線(xiàn)研究
    科學(xué)拔牙
    黑人高潮一二区| 欧美区成人在线视频| 观看免费一级毛片| 亚洲图色成人| 一个人免费在线观看电影| 国产精品一及| 看免费成人av毛片| 日本一本二区三区精品| 亚洲国产色片| av女优亚洲男人天堂| 午夜精品在线福利| 免费观看无遮挡的男女| 欧美性猛交╳xxx乱大交人| 乱人视频在线观看| 国产成人福利小说| 国产精品日韩av在线免费观看| 最后的刺客免费高清国语| 99热全是精品| 亚洲人成网站在线观看播放| 日韩欧美 国产精品| 亚洲欧洲国产日韩| 色综合站精品国产| 在线免费十八禁| 直男gayav资源| 久久久久久久久久成人| 日韩人妻高清精品专区| 免费不卡的大黄色大毛片视频在线观看 | 两个人的视频大全免费| 免费不卡的大黄色大毛片视频在线观看 | 国产精品嫩草影院av在线观看| 国产中年淑女户外野战色| 真实男女啪啪啪动态图| 亚洲av二区三区四区| 国产极品天堂在线| 男女国产视频网站| 少妇人妻精品综合一区二区| 久久久久久久大尺度免费视频| 99久久精品一区二区三区| 国产老妇女一区| 97人妻精品一区二区三区麻豆| 国产一区二区亚洲精品在线观看| 国产在视频线精品| 狠狠精品人妻久久久久久综合| 午夜免费男女啪啪视频观看| 国产黄色免费在线视频| 777米奇影视久久| 亚洲精品影视一区二区三区av| 国产视频内射| kizo精华| 国产精品国产三级专区第一集| xxx大片免费视频| 美女内射精品一级片tv| 欧美成人午夜免费资源| 十八禁网站网址无遮挡 | av国产久精品久网站免费入址| www.色视频.com| 免费大片黄手机在线观看| 午夜免费男女啪啪视频观看| 亚洲精品乱码久久久v下载方式| 最近的中文字幕免费完整| 免费黄色在线免费观看| 久久99热6这里只有精品| 又爽又黄无遮挡网站| 久久久久久久国产电影| 高清在线视频一区二区三区| 午夜久久久久精精品| 国产日韩欧美在线精品| 亚洲三级黄色毛片| 成人欧美大片| 黄色配什么色好看| 国产一级毛片七仙女欲春2| 永久网站在线| 亚洲国产欧美在线一区| 五月天丁香电影| 国产乱人偷精品视频| 搞女人的毛片| 欧美bdsm另类| 性插视频无遮挡在线免费观看| 欧美3d第一页| 久久久久久久久久成人| 91午夜精品亚洲一区二区三区| 国产精品一及| 精品欧美国产一区二区三| 中文字幕免费在线视频6| 中文字幕久久专区| 天天躁夜夜躁狠狠久久av| 亚洲18禁久久av| 欧美精品国产亚洲| 久久久久久伊人网av| 成年版毛片免费区| 亚洲av成人精品一区久久| 午夜精品国产一区二区电影 | 狂野欧美激情性xxxx在线观看| 亚洲高清免费不卡视频| 亚洲av电影在线观看一区二区三区 | 最近中文字幕2019免费版| av福利片在线观看| 人人妻人人澡欧美一区二区| 神马国产精品三级电影在线观看| 亚洲av国产av综合av卡| 中文欧美无线码| 国产精品一区二区三区四区久久| 69人妻影院| 在线 av 中文字幕| 亚洲av在线观看美女高潮| 欧美高清成人免费视频www| 亚洲人成网站在线观看播放| 麻豆成人av视频| 大话2 男鬼变身卡| 亚洲国产精品sss在线观看| 亚洲一级一片aⅴ在线观看| 免费大片18禁| 2021少妇久久久久久久久久久| 麻豆av噜噜一区二区三区| 日日啪夜夜爽| 天堂av国产一区二区熟女人妻| 秋霞伦理黄片| h日本视频在线播放| 亚洲欧美日韩无卡精品| 国产成人91sexporn| 久久韩国三级中文字幕| av女优亚洲男人天堂| 亚洲三级黄色毛片| 国产黄片美女视频| 成人亚洲欧美一区二区av| 日韩欧美精品v在线| 国产精品爽爽va在线观看网站| 国产在视频线精品| 亚洲不卡免费看| 可以在线观看毛片的网站| 高清午夜精品一区二区三区| 男人舔女人下体高潮全视频| 亚洲av.av天堂| 一区二区三区乱码不卡18| 内地一区二区视频在线| 黄色配什么色好看| 亚洲欧洲国产日韩| 免费大片18禁| 好男人在线观看高清免费视频| 日本一本二区三区精品| 亚洲国产高清在线一区二区三| 国产精品福利在线免费观看| 亚洲av一区综合| 人妻少妇偷人精品九色| 欧美成人午夜免费资源| 伊人久久精品亚洲午夜| 亚洲激情五月婷婷啪啪| 久久久精品94久久精品| 人妻系列 视频| 久久久久久久久久成人| av福利片在线观看| 天天躁夜夜躁狠狠久久av| 天堂√8在线中文| 久久97久久精品| 在线观看美女被高潮喷水网站| 久久99蜜桃精品久久| 国内少妇人妻偷人精品xxx网站| 最近最新中文字幕免费大全7| 在线免费观看的www视频| 青春草亚洲视频在线观看| 激情五月婷婷亚洲| 一个人观看的视频www高清免费观看| 非洲黑人性xxxx精品又粗又长| 国产乱人偷精品视频| 欧美+日韩+精品| 亚洲av日韩在线播放| 国产 一区精品| 国产成年人精品一区二区| 一级二级三级毛片免费看| 天天躁日日操中文字幕| 丝瓜视频免费看黄片| 晚上一个人看的免费电影| 国产成人一区二区在线| 在线免费观看的www视频| 午夜爱爱视频在线播放| 成人美女网站在线观看视频| 国产黄色免费在线视频| 久久精品久久精品一区二区三区| 最近最新中文字幕大全电影3| 国产免费一级a男人的天堂| 久久久久久国产a免费观看| 亚洲三区欧美一区| 精品国产乱码久久久久久男人| 亚洲精品国产色婷婷电影| 自线自在国产av| 永久免费av网站大全| 久久人人爽av亚洲精品天堂| 欧美97在线视频| 国产精品偷伦视频观看了| 久久午夜福利片| 日韩一区二区视频免费看| 一区在线观看完整版| 99久国产av精品国产电影| 久久亚洲国产成人精品v| 五月伊人婷婷丁香| 亚洲五月色婷婷综合| 色94色欧美一区二区| 中文精品一卡2卡3卡4更新| 韩国高清视频一区二区三区| 最近最新中文字幕大全免费视频 | 国产极品天堂在线| 久久 成人 亚洲| 久久人人97超碰香蕉20202| 香蕉丝袜av| 男女边吃奶边做爰视频| 久久久久久人妻| 精品国产露脸久久av麻豆| 成人18禁高潮啪啪吃奶动态图| 国产一级毛片在线| 免费在线观看完整版高清| 夫妻性生交免费视频一级片| 久久久久久久久免费视频了| 在线观看免费高清a一片| 午夜福利视频精品| 国产精品久久久久成人av| 老汉色∧v一级毛片| 秋霞伦理黄片| av网站免费在线观看视频| av网站在线播放免费| 国产精品嫩草影院av在线观看| 日本91视频免费播放| 免费高清在线观看日韩| av片东京热男人的天堂| 一区二区三区乱码不卡18| 午夜福利视频在线观看免费| 狠狠婷婷综合久久久久久88av| 亚洲一级一片aⅴ在线观看| 不卡av一区二区三区| 新久久久久国产一级毛片| 亚洲av在线观看美女高潮| 一区二区三区乱码不卡18| 亚洲av综合色区一区| 考比视频在线观看| 叶爱在线成人免费视频播放| 少妇人妻 视频| 黄色怎么调成土黄色| 国产精品嫩草影院av在线观看| 午夜福利视频在线观看免费| 欧美日韩一区二区视频在线观看视频在线| 菩萨蛮人人尽说江南好唐韦庄| 黄色毛片三级朝国网站| 妹子高潮喷水视频| 少妇的逼水好多| 成人毛片60女人毛片免费| 中文字幕色久视频| 一本久久精品| 九九爱精品视频在线观看| 在线天堂中文资源库| 国产亚洲一区二区精品| 春色校园在线视频观看| 亚洲精品成人av观看孕妇| 女的被弄到高潮叫床怎么办| 尾随美女入室| 日韩中文字幕视频在线看片| 国产乱人偷精品视频| 街头女战士在线观看网站| 婷婷色综合www| 在线天堂中文资源库| 黑人猛操日本美女一级片| 男女午夜视频在线观看| 国产精品偷伦视频观看了| 午夜老司机福利剧场| 考比视频在线观看| 又粗又硬又长又爽又黄的视频| 18禁观看日本| 黄片无遮挡物在线观看| 国产日韩欧美视频二区| 欧美日韩一区二区视频在线观看视频在线| 99久久综合免费| 高清视频免费观看一区二区| 久久久久国产一级毛片高清牌| 国产爽快片一区二区三区| 交换朋友夫妻互换小说| 久久国产亚洲av麻豆专区| 一区福利在线观看| 99热国产这里只有精品6| a级毛片黄视频| 欧美激情极品国产一区二区三区| av片东京热男人的天堂| 婷婷色综合www| 精品人妻熟女毛片av久久网站| 亚洲内射少妇av| 男女午夜视频在线观看| 日韩精品有码人妻一区| 纯流量卡能插随身wifi吗| freevideosex欧美| 在线免费观看不下载黄p国产| 夫妻性生交免费视频一级片| 日韩成人av中文字幕在线观看| 十八禁高潮呻吟视频| 一级片免费观看大全| av卡一久久| 亚洲精华国产精华液的使用体验| xxx大片免费视频| 欧美 日韩 精品 国产| 国产精品av久久久久免费| 在线观看国产h片| 精品亚洲乱码少妇综合久久| 超色免费av| 超碰成人久久| 国产成人精品福利久久| 日韩av免费高清视频| 成人二区视频| 国产成人精品在线电影| 国产成人av激情在线播放| 精品一区二区三卡| 日韩中文字幕视频在线看片| 久久精品国产a三级三级三级| 亚洲精品,欧美精品| 丝袜脚勾引网站| 久久国产精品大桥未久av| 午夜久久久在线观看| 午夜影院在线不卡| 日韩一卡2卡3卡4卡2021年| 在线观看www视频免费| 一级片免费观看大全| 啦啦啦视频在线资源免费观看| 久久婷婷青草| 国产精品 欧美亚洲| 少妇精品久久久久久久| 可以免费在线观看a视频的电影网站 | 国产男女内射视频| 亚洲欧美色中文字幕在线| 国产成人91sexporn| 国产精品久久久久久精品古装| 最近最新中文字幕大全免费视频 | 国产精品 国内视频| 精品卡一卡二卡四卡免费| 久热这里只有精品99| 最新中文字幕久久久久| 少妇人妻精品综合一区二区| 亚洲欧美精品自产自拍| 热re99久久国产66热| 日韩在线高清观看一区二区三区| 精品久久蜜臀av无| 极品少妇高潮喷水抽搐| 美女主播在线视频| 在线观看www视频免费| 亚洲精品aⅴ在线观看| 王馨瑶露胸无遮挡在线观看| 国产毛片在线视频| 欧美另类一区| 久久狼人影院| 99久久中文字幕三级久久日本| 国产精品久久久久久精品古装| 在线看a的网站| 看免费av毛片| 人人妻人人爽人人添夜夜欢视频| 日韩中文字幕视频在线看片| www.自偷自拍.com| 国产精品国产三级专区第一集| 99久国产av精品国产电影| 久久鲁丝午夜福利片| 国产97色在线日韩免费| 亚洲精品一区蜜桃| 欧美bdsm另类| 国产精品蜜桃在线观看| 中文欧美无线码| 在线 av 中文字幕| 欧美日韩综合久久久久久| 亚洲,一卡二卡三卡| 国产精品不卡视频一区二区| 日韩av免费高清视频| 国产爽快片一区二区三区| 欧美精品一区二区大全| 午夜福利影视在线免费观看| 久久久国产精品麻豆| 久久久久久久精品精品| 国产精品国产av在线观看| www.精华液| 国产日韩欧美在线精品| xxx大片免费视频| 国产野战对白在线观看| 久久久精品国产亚洲av高清涩受| 久久久久久人妻| 欧美日韩视频精品一区| 一本久久精品| 精品国产一区二区三区久久久樱花| 久久97久久精品| 宅男免费午夜| 色吧在线观看| 少妇熟女欧美另类| 亚洲av电影在线进入| 国产男女内射视频| 女的被弄到高潮叫床怎么办| 国产不卡av网站在线观看| 日韩伦理黄色片| 亚洲成人手机| 国产一区有黄有色的免费视频| 免费高清在线观看视频在线观看| 99九九在线精品视频| 亚洲,欧美,日韩| 色哟哟·www| www.自偷自拍.com| 只有这里有精品99| av女优亚洲男人天堂| 国产精品.久久久| 国产成人精品婷婷| 久久精品久久久久久久性| 性高湖久久久久久久久免费观看| 国产亚洲午夜精品一区二区久久| 久久久a久久爽久久v久久| 香蕉国产在线看| 天堂俺去俺来也www色官网| 男的添女的下面高潮视频| 亚洲av免费高清在线观看| 夫妻性生交免费视频一级片| 日本av手机在线免费观看| 天天影视国产精品| 可以免费在线观看a视频的电影网站 | 9热在线视频观看99| 国产av精品麻豆| 大片免费播放器 马上看| 五月开心婷婷网| 天美传媒精品一区二区| 日本黄色日本黄色录像| 啦啦啦中文免费视频观看日本| 1024香蕉在线观看| 十分钟在线观看高清视频www| 建设人人有责人人尽责人人享有的| 国产高清不卡午夜福利| 美女xxoo啪啪120秒动态图| 日韩制服丝袜自拍偷拍| 视频在线观看一区二区三区| 91久久精品国产一区二区三区| 少妇 在线观看| 99re6热这里在线精品视频| 亚洲成国产人片在线观看| 一区二区三区激情视频| 久久人妻熟女aⅴ| 亚洲国产精品一区三区| 亚洲国产毛片av蜜桃av| 午夜日本视频在线| 少妇猛男粗大的猛烈进出视频| 久久精品aⅴ一区二区三区四区 | 国产高清国产精品国产三级| 免费黄频网站在线观看国产| 美女主播在线视频| 国产免费一区二区三区四区乱码| 一区二区日韩欧美中文字幕| 69精品国产乱码久久久| 日本欧美国产在线视频| 亚洲欧美成人精品一区二区| 99热网站在线观看| 亚洲精品第二区| 午夜福利在线免费观看网站| 激情五月婷婷亚洲| 天天躁夜夜躁狠狠躁躁| 久久精品久久久久久噜噜老黄| 纯流量卡能插随身wifi吗| 少妇被粗大猛烈的视频| 中文字幕制服av| 26uuu在线亚洲综合色| 狠狠精品人妻久久久久久综合| 欧美日韩一级在线毛片| 晚上一个人看的免费电影| 观看av在线不卡| 国产爽快片一区二区三区| 亚洲欧洲国产日韩| 97在线人人人人妻| 欧美国产精品一级二级三级| 欧美老熟妇乱子伦牲交| 日本av手机在线免费观看| 亚洲精品美女久久av网站| 亚洲精品自拍成人| 久久久精品区二区三区| 黄片无遮挡物在线观看| 在线亚洲精品国产二区图片欧美| 街头女战士在线观看网站| 国产精品久久久久久精品古装| 2022亚洲国产成人精品| 妹子高潮喷水视频| 日本色播在线视频| 女人高潮潮喷娇喘18禁视频| 大码成人一级视频| 国产成人精品一,二区| 少妇人妻 视频| 伊人久久国产一区二区| 亚洲国产av新网站| 一个人免费看片子| 色哟哟·www| 亚洲精品一二三| 欧美日韩视频高清一区二区三区二| 女性生殖器流出的白浆| 日日摸夜夜添夜夜爱| 久久久国产精品麻豆| videossex国产| 蜜桃在线观看..| 国产综合精华液| 黄色配什么色好看| 午夜91福利影院| 天天躁夜夜躁狠狠久久av| 在线免费观看不下载黄p国产| 久久精品亚洲av国产电影网| 天天躁夜夜躁狠狠躁躁| 色吧在线观看| 久久婷婷青草| 制服人妻中文乱码| 亚洲在久久综合| 久久 成人 亚洲| 丝袜美腿诱惑在线| 老司机影院成人| 男女边摸边吃奶| 国产精品久久久久久精品古装| 欧美人与性动交α欧美精品济南到 | 乱人伦中国视频| 成人黄色视频免费在线看| 18禁动态无遮挡网站| 免费播放大片免费观看视频在线观看| 亚洲少妇的诱惑av| 有码 亚洲区| 亚洲男人天堂网一区| 啦啦啦中文免费视频观看日本| 亚洲av电影在线进入| 欧美国产精品va在线观看不卡| 国产精品 国内视频| 日本欧美国产在线视频| 精品国产一区二区三区久久久樱花| av国产精品久久久久影院| 国产精品麻豆人妻色哟哟久久| 日本午夜av视频| 又黄又粗又硬又大视频| 中文字幕人妻丝袜一区二区 | 成人毛片60女人毛片免费| 国产免费一区二区三区四区乱码| 亚洲成av片中文字幕在线观看 | 久久精品久久精品一区二区三区| 少妇被粗大的猛进出69影院| av片东京热男人的天堂| 国产精品蜜桃在线观看| 日韩av在线免费看完整版不卡| 少妇 在线观看| 青草久久国产| 国产精品熟女久久久久浪| 国产精品一二三区在线看| 亚洲色图 男人天堂 中文字幕| 天天躁夜夜躁狠狠躁躁| 香蕉国产在线看| 女的被弄到高潮叫床怎么办| 久久久久精品久久久久真实原创| 精品亚洲乱码少妇综合久久| 国产精品人妻久久久影院| 免费少妇av软件| 午夜激情久久久久久久| 亚洲精品久久成人aⅴ小说| 欧美另类一区| 亚洲第一青青草原| 日韩成人av中文字幕在线观看| 亚洲国产日韩一区二区| 热re99久久国产66热| 精品国产乱码久久久久久男人| 欧美国产精品va在线观看不卡| 久久久久久久久久久久大奶| 久久精品夜色国产| 国产黄频视频在线观看| 美女视频免费永久观看网站| 亚洲欧美成人综合另类久久久| 新久久久久国产一级毛片| 在线观看三级黄色| 日韩欧美一区视频在线观看| 亚洲欧洲精品一区二区精品久久久 | 久久久久视频综合| 久久国产精品男人的天堂亚洲| 国产精品欧美亚洲77777| 久久毛片免费看一区二区三区| 观看美女的网站| 久久久久久久久久久免费av| 卡戴珊不雅视频在线播放| 国产精品一区二区在线观看99| 美女福利国产在线| 在线天堂最新版资源| 久久久久网色| 视频在线观看一区二区三区| 一区二区av电影网| 天天躁狠狠躁夜夜躁狠狠躁| 午夜激情久久久久久久| 宅男免费午夜| 国产免费视频播放在线视频| 一级毛片黄色毛片免费观看视频| 五月天丁香电影| 亚洲人成电影观看| 三上悠亚av全集在线观看| av免费在线看不卡| 秋霞伦理黄片| 观看美女的网站| 老司机影院毛片| 在线 av 中文字幕| 欧美日韩成人在线一区二区| 狠狠精品人妻久久久久久综合| 亚洲一级一片aⅴ在线观看| 久久这里有精品视频免费| 成人漫画全彩无遮挡| 国产有黄有色有爽视频| 18禁动态无遮挡网站| 国产视频首页在线观看| 欧美xxⅹ黑人| 欧美成人午夜免费资源| 两个人看的免费小视频| 午夜福利网站1000一区二区三区| 亚洲图色成人| 青青草视频在线视频观看| 成人毛片a级毛片在线播放| 十八禁高潮呻吟视频| 精品少妇久久久久久888优播| 天天躁夜夜躁狠狠久久av| 老女人水多毛片| 日日摸夜夜添夜夜爱| 欧美亚洲 丝袜 人妻 在线| 国产色婷婷99| 免费观看无遮挡的男女| 免费高清在线观看视频在线观看| 国产免费又黄又爽又色| 丝袜美足系列| 男人操女人黄网站| 国产午夜精品一二区理论片|