• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      自然科學與人文科學大數(shù)據(jù)
      ——第六屆中德前沿探索圓桌會議綜述*

      2016-10-18 02:03:57郭華東陳潤生徐志偉孫建軍王力哲駱健俊沈華偉顧東曉棟沈文慶HansWolfgangSpiessThomasLengauer中國科學院遙感與數(shù)字地球研究所北京0009中國科學院生物物理研究所北京000中國科學院計算技術研究所北京0090南京大學南京00中國科學院上海分院上海000MaxPlanckInstituteforPolymerResearchMainzMaxPlanckInstituteforInformaticsSa
      中國科學院院刊 2016年6期
      關鍵詞:社會科學人文領域

      郭華東 陳潤生 徐志偉 孫建軍 畢 軍 王力哲 駱健俊 沈華偉 顧東曉 梁 棟沈文慶 張 旭 Hans Wolfgang Spiess Thomas Lengauer 中國科學院遙感與數(shù)字地球研究所 北京 0009 中國科學院生物物理研究所 北京 000 中國科學院計算技術研究所 北京 0090 南京大學 南京 00 中國科學院上海分院 上海 000 Max Planck Institute for Polymer Research Mainz 8 Max Planck Institute for In formatics Saarbrü cken 

      自然科學與人文科學大數(shù)據(jù)
      ——第六屆中德前沿探索圓桌會議綜述*

      郭華東1陳潤生2徐志偉3孫建軍4畢軍4王力哲1駱健俊2沈華偉3顧東曉4梁棟1沈文慶5張旭5Hans Wolfgang Spiess6Thomas Lengauer7
      1中國科學院遙感與數(shù)字地球研究所北京100094
      2中國科學院生物物理研究所北京100101
      3中國科學院計算技術研究所北京100190
      4南京大學南京210023
      5中國科學院上海分院上海200031
      6Max Planck Institute for Polymer ResearchMainz55128
      7Max Planck Institute for In formaticsSaarbrü cken66123

      大數(shù)據(jù)是知識經(jīng)濟時代的戰(zhàn)略高地,是國家和全球的新型戰(zhàn)略資源。作為思維的革命性創(chuàng)新,大數(shù)據(jù)為科學研究帶來了新的方法論。第六屆中德前沿探索圓桌會議以“自然科學與人文科學大數(shù)據(jù)”為主題,在“生物醫(yī)藥大數(shù)據(jù)”、“物理、化學與地球科學領域大數(shù)據(jù)”、“人文與社會科學領域大數(shù)據(jù)”和“大數(shù)據(jù)處理技術與方法”4個領域進行研討,總結了大數(shù)據(jù)對于科學發(fā)現(xiàn)的重要作用、意義以及面臨的重大問題,形成了關于發(fā)展科學大數(shù)據(jù)研究的相關建議。

      大數(shù)據(jù),科學大數(shù)據(jù),生命科學,地球科學,人文科學,社會科學,計算機技術,中德前沿探索圓桌會議

      新一輪信息技術革命與人類社會活動交匯融合,引發(fā)了數(shù)據(jù)爆炸式增長,數(shù)據(jù)類型繁多且復雜,已經(jīng)超越了傳統(tǒng)數(shù)據(jù)管理系統(tǒng)和處理模式的能力范圍,“大數(shù)據(jù)”概念也應運而生。2014 年 4 月,國際數(shù)據(jù)公司(IDC)發(fā)布的第 7 份數(shù)字宇宙研究報告中指出,全球數(shù)據(jù)量將以超過每兩年翻一番的速度持續(xù)增長,2013 年全球被創(chuàng)建和被復制的數(shù)據(jù)總量已達 4.4 ZB(Zettabyte,澤字節(jié),1 ZB=1021B),預計到 2020 年將增至 44 ZB[1]。我國擁有的全球數(shù)據(jù)量比例預計也將由 2012 年的13% 提升至 21%[2]。大數(shù)據(jù)已對全球生產、流通、分配與消費模式產生重要影響,正在改變人們生產生活方式、經(jīng)濟運行機制和國家治理模式。大數(shù)據(jù)作為知識經(jīng)濟時代的一項戰(zhàn)略使能技術,是各國的一種新型戰(zhàn)略資源。不久的將來,圍繞大數(shù)據(jù)引起的競爭不僅將決定國際信息產業(yè)格局,還將深刻影響經(jīng)濟發(fā)展、國家安全、科技進步和綜合競爭力[3]。

      大數(shù)據(jù)為分析和推理方法的創(chuàng)新提供了一個全新的、極富前景的路徑,同時也為自然科學與人文社會科學的研究提供了新的契機??茖W大數(shù)據(jù)作為大數(shù)據(jù)的分支體系已成為繼實驗、理論和計算模式之后的數(shù)據(jù)密集型科研范式的典型代表,正在從模型驅動模式向數(shù)據(jù)驅動模式進行轉化,帶來了科研方法論的創(chuàng)新。科學大數(shù)據(jù)由各學科產生或收集的規(guī)模巨大且多源異構的數(shù)據(jù)組成,例如生命科學中的基因組數(shù)據(jù)、地球科學中的觀測和模擬數(shù)據(jù)、化學和材料科學中的測量數(shù)據(jù)以及數(shù)字化的人文歷史數(shù)據(jù)。這些數(shù)據(jù)亟需在全球科技界實現(xiàn)共享,以實現(xiàn)其價值的充分利用。同時,如何保證數(shù)據(jù)的可持續(xù)性使用也是當前面臨的一個嚴峻挑戰(zhàn)。隨著數(shù)據(jù)產生變得日益便捷,數(shù)據(jù)分析開始成為瓶頸。眾所周知,大數(shù)據(jù)中充斥著偏差和噪聲。從大數(shù)據(jù)中析取知識涉及統(tǒng)計分析和機器學習等技術,然而從數(shù)據(jù)中得到的往往只是關聯(lián)關系而非因果關系。對因果關系的探究超出了統(tǒng)計學的能力范疇,至今沒有系統(tǒng)化的解決方案。此外,如何讓基于統(tǒng)計方法的預測看上去更合理,也是一項重大挑戰(zhàn)。

      基于以上背景,以“自然科學與人文科學大數(shù)據(jù)”為主題的第六屆中德前沿探索圓桌會議于 2015 年 11月19—21日在中科院上海交叉學科研究中心召開。40 余位中外學者圍繞會議主題,秉承前沿領域、交叉學科、自由探索的宗旨進行了深入的探討和前瞻。會議共設 4 個議題,分別為“生物醫(yī)藥大數(shù)據(jù)”“物理、化學與地球科學領域大數(shù)據(jù)”“人文與社會科學領域大數(shù)據(jù)”和“大數(shù)據(jù)處理技術與方法”,共 21位專家作了會議報告。在與會專家積極探討交流以及中德青年科學家小組的努力工作下,會議達成初步共識,認為:大數(shù)據(jù)作為改變人類生活及理解世界的新方式,正驅動著科學研究范式的轉化,推動著科學發(fā)展;應科學地認知大數(shù)據(jù)對于科學發(fā)現(xiàn)的重要作用、意義以及面臨的重大問題;在建立科學大數(shù)據(jù)中心方面進行交流和合作;組建科學大數(shù)據(jù)工作組開展大數(shù)據(jù)熱點問題的研究;注重大數(shù)據(jù)青年科學家的培養(yǎng)等。

      1 大數(shù)據(jù)在不同學科領域的發(fā)展現(xiàn)狀及挑戰(zhàn)

      大數(shù)據(jù)的特征在于:(1)海量數(shù)據(jù);(2)數(shù)據(jù)以高度動態(tài)的方式持續(xù)產生;(3)數(shù)據(jù)的高度異質性;(4)數(shù)據(jù)質量存在噪聲、不完整和偏見方面的嚴重問題。這些特征在各科學領域都普遍存在,而在各科學領域相對于大數(shù)據(jù)研究的需求卻又有很大的不同。

      1.1 生物醫(yī)藥大數(shù)據(jù)發(fā)展現(xiàn)狀及挑戰(zhàn)

      20 世紀 90 年代初國際上開始人類基因組計劃研究,從此開啟了人類認識自身遺傳密碼的劃時代的航程。隨著人類基因組圖譜工作的完成,人類基因組的數(shù)據(jù)變得更加完善與準確。以近年來增長最快的數(shù)據(jù),人類的單核苷酸多態(tài)性(SNP)數(shù)據(jù)為例,它代表著不同人種以及正常人和某些病人基因組中堿基的差異,已有 100 135 281 個人類非冗余并被確認的 SNP 位點被數(shù)據(jù)庫收錄。這表明人的基因組中平均每幾十個堿基就有 1 個堿基差異。但在已知 SNP 中,僅有不到 1% 的 SNP 造成蛋白的變化。GenBank 中的 dbEST 數(shù)據(jù)庫收錄了大約 870 多萬條代表著人類基因表達小片段的表達序列標簽(EST)序列,覆蓋了人類基因的 95%,冗余度已遠超過 10。隨著對基因組數(shù)據(jù)的不斷挖掘,科學家發(fā)現(xiàn)了一些重要事實:DNA 上編碼蛋白質的區(qū)域,也就是基因,只占人類基因組的一小部分,不會超過整個基因組的 3%,其余占人類基因組 97% 左右的“非編碼 DNA”序列仍不大清楚其功能,但卻蘊涵著生物體復雜性的信息、具有重要的生物學功能,且與人類疾病相關,迄今為止,我們對這些非編碼序列以及相關的非編碼基因和非編碼 RNA 的功能只有很少的了解[4]。《人類基因組計劃》的完成和深入發(fā)展為生命科學積累了大量的數(shù)據(jù)和資料,這將有可能從更深層次上了解人體生長、發(fā)育、正常生理活動,同時也可能了解各種疾病的病因,并提出防治途徑。

      現(xiàn)今,已經(jīng)存在著包含不同種類組學,如基因組、轉錄組、蛋白質組、代謝組、表觀遺傳組等大數(shù)據(jù)的多個大型國際共享平臺。獲取組學數(shù)據(jù)的方法與技術已日漸成熟,關鍵是數(shù)據(jù)挖掘。與組學數(shù)據(jù)的海量特征相比,組學數(shù)據(jù)的復雜特征則更具有挑戰(zhàn)性。組學數(shù)據(jù)復雜性的本質是源于生物體的結構和功能以及生命活動過程本身的多樣性和復雜性。為此必須使用信息科學領域正在發(fā)展的解析大數(shù)據(jù)內涵的一系列理論、方法與技術,必須將當前國際上兩大前沿領域“組學”與“大數(shù)據(jù)”融合。臨床上,組學大數(shù)據(jù)的挖掘可得到大量不同人以及正常人與病人之間在分子水平的差異,關鍵問題是這些差異中哪些是與疾病直接相關的、相關的程度如何?只有找到了這種聯(lián)系,才能得到表征特定疾病的分子標記,才能發(fā)現(xiàn)藥物設計的分子靶標,才能實現(xiàn)轉化,將組學分析獲取的知識用于臨床。因此,生物大數(shù)據(jù)在醫(yī)藥領域應用的前提是建立代表分子水平差異的基因型與代表疾病特征的表現(xiàn)型之間的橋梁。為此,需要發(fā)展生物信息學、系統(tǒng)生物學,包括生物網(wǎng)絡研究的大量理論、方法與技術,建立并完善基因型與表型的關聯(lián)。

      1.2 地球大數(shù)據(jù)發(fā)展現(xiàn)狀及挑戰(zhàn)

      伴隨著對地觀測技術的不斷發(fā)展,在空間觀測、地球物理、地球化學、地質勘探和地面?zhèn)鞲衅骶W(wǎng)絡等領域產生著龐大的數(shù)據(jù),其具有海量、多源、異構、多時態(tài)、多尺度、高維度、高復雜性、非平穩(wěn)和非結構化等特性,為實現(xiàn)地球科學領域的數(shù)據(jù)密集型知識發(fā)現(xiàn)提供了有利支撐[5]。以全球變化研究和數(shù)字地球為例,全球變化研究對地球系統(tǒng)化、綜合化觀測的需求帶動了對地觀測技術的高速發(fā)展,全球已建立準實時、全天候的地球數(shù)據(jù)獲取能力,形成了高空間、高時間、高光譜分辨率的天空地一體化對地觀測系統(tǒng),作為面向全球可持續(xù)發(fā)展的多學科挑戰(zhàn)性的關鍵問題,全球變化研究主要包括全球變化過程的監(jiān)測、全球變化的模擬分析、全球變化響應策略研究等,而這些研究都依賴于地球大數(shù)據(jù),如長時間序列多時空尺度的對地觀測數(shù)據(jù),精確的、連續(xù)的地面臺站觀測和試驗數(shù)據(jù),基于有科學依據(jù)的理論推測與估算數(shù)據(jù)等。因此地球大數(shù)據(jù)可為全球變化研究發(fā)展提供新的解決思路。數(shù)字地球作為多學科交叉的研究領域,其目標是呈現(xiàn)一個基于海量、多類型、多源、多分辨率、多時空尺度的虛擬地球,不僅涵蓋大氣、地理、地質、環(huán)境、生態(tài)、資源等地球科學各個學科的數(shù)據(jù),也與信息科學、空間科學、人文社會科學密切相關,具有地球大數(shù)據(jù)的主要特征。數(shù)字地球的發(fā)展高度依賴地球大數(shù)據(jù),從而實現(xiàn)對地球系統(tǒng)進行描述、分析、模擬和預測[6]。

      地球大數(shù)據(jù)為地球科學帶來了新的動力,但在傳輸、存儲、處理、分析、管理、共享和知識發(fā)現(xiàn)等方面也帶來了巨大的技術挑戰(zhàn)。為應對這些挑戰(zhàn),科學家們正致力于研發(fā)面向地球大數(shù)據(jù)的計算平臺、算法和軟件系統(tǒng)等,如基于高性能平臺系統(tǒng)、大規(guī)模存儲技術、全流程自動化處理技術、高效化計算技術、數(shù)據(jù)共享與服務系統(tǒng)等。雖然這些技術帶來一些革新,但大數(shù)據(jù)技術引入地球科學領域的時間尚短,且地球大數(shù)據(jù)與互聯(lián)網(wǎng)大數(shù)據(jù)的行業(yè)特點具有明顯差異,還存在一系列關鍵技術亟需攻克,如大規(guī)模多元數(shù)據(jù)集成與挖掘技術,大規(guī)模并發(fā)任務、數(shù)據(jù)、算法的多層次混合并行計算技術,數(shù)據(jù)、網(wǎng)絡、計算多資源動態(tài)協(xié)同處理技術等。另一值得關注的方面是地球大數(shù)據(jù)的密集型科學發(fā)現(xiàn)。地球大數(shù)據(jù)的知識發(fā)現(xiàn),不僅僅是信息提取,還有挖掘隱含的、非顯見的模式、規(guī)律和知識。針對地球大數(shù)據(jù)規(guī)模龐大、維度超高但信息密度低的問題,科學家正探索通過人工智能方法簡化數(shù)據(jù)量與數(shù)據(jù)維度,使大數(shù)據(jù)變小后再進行后續(xù)研究。此外,數(shù)據(jù)的極大豐富使得知識發(fā)現(xiàn)由“模型驅動”逐漸轉變?yōu)椤皵?shù)據(jù)驅動”成為可能。但是,高效挖掘地球大數(shù)據(jù)所蘊藏知識仍處于起步階段,亟需發(fā)展面向地球大數(shù)據(jù)的知識發(fā)現(xiàn)創(chuàng)新理論與方法,如適應地球大數(shù)據(jù)的認知模型、面向全體數(shù)據(jù)的數(shù)據(jù)挖掘與知識發(fā)現(xiàn)方法等[3]。

      1.3 人文與社會科學大數(shù)據(jù)發(fā)展現(xiàn)狀及挑戰(zhàn)

      在人文和社會科學領域,大數(shù)據(jù)也正在成為熱門話題,它為人文社會科學研究與發(fā)展帶來了新的歷史性機遇與挑戰(zhàn)。當前,人文社會科學領域產生了大量的數(shù)據(jù),如文化遺產大數(shù)據(jù)、金融大數(shù)據(jù)、商業(yè)大數(shù)據(jù)、網(wǎng)絡輿情大數(shù)據(jù)、醫(yī)療與健康大數(shù)據(jù)等,數(shù)據(jù)的規(guī)模和信息的完整性都是以往無法比擬的。政府、工業(yè)界、高校和研究機構越來越多的數(shù)據(jù)對社會開放,極大降低了數(shù)據(jù)的獲取成本,同時數(shù)據(jù)充裕帶來了研究機遇的質變,以往不可研究、不能研究的問題在大數(shù)據(jù)環(huán)境下成為可能。黨的十八屆五中全會提出實施國家大數(shù)據(jù)戰(zhàn)略和推進數(shù)據(jù)資源開放共享,為人文社會科學研究打開了“另一扇窗子”[7]。

      在大數(shù)據(jù)環(huán)境下,人們不僅關心數(shù)據(jù)建模、分析、管理、復用和建立大數(shù)據(jù)基礎設施,還關心如何構造和利用基于數(shù)據(jù)的、開放協(xié)同的研究與創(chuàng)新模式[8,9]。當前,在人文社會科學研究領域,以“人文計算”、復雜網(wǎng)絡分析、大規(guī)模數(shù)據(jù)分析為特征的研究方法逐漸被采納,涌現(xiàn)出了越來越多基于現(xiàn)實數(shù)據(jù)分析的定量化研究成果,人文社會科學的“科學性”顯著增強[8]。不僅如此,人文社會科學研究中大數(shù)據(jù)分析方法的使用,還提高了人文社會科學研究者的研究能力,開啟了人文社會科學研究的新局面。網(wǎng)絡輿情管理、互聯(lián)網(wǎng)金融、宏觀經(jīng)濟分析、圖書情報知識服務、歷史文獻管理、電子商務、新聞與數(shù)字出版、旅游管理、健康管理與養(yǎng)老服務等許多人文社會科學領域大數(shù)據(jù)研究成果不斷涌現(xiàn)[10-12],所關注的內容不僅包括針對人文社會科學特定領域和問題情景下的大數(shù)據(jù)建模與處理方法,還包括大數(shù)據(jù)資源管理與利用方法,以及大數(shù)據(jù)環(huán)境下的信息共享服務、安全、隱私保護等。例如:W lodarczak等人[13]基于社交大數(shù)據(jù)進行觀點挖掘與情感分析,Kim 與 Jeong 等人[14]采用基于觀點的大數(shù)據(jù)挖掘進行股票漲跌預測。

      人文社會科學領域大數(shù)據(jù)研究在面臨著巨大機遇的同時,也存在一系列現(xiàn)實問題,不僅大數(shù)據(jù)分析的“注重關聯(lián),不關注因果”、“過擬合”等問題在人文社會科學研究領域同樣存在,且已有研究成果總體上偏重于大數(shù)據(jù)應用分析,針對人文社會科學特定問題情境的大數(shù)據(jù)理論和建模方法研究和創(chuàng)新不足[15-17]。此外,人文社會科學大數(shù)據(jù)研究目前還面臨 4 個方面的問題。

      (1)科研資料總量的快速增加和數(shù)據(jù)質量問題給人文社會科學研究帶來了巨大挑戰(zhàn)。當前人文社會科學研究者在各自研究領域都面臨大量數(shù)據(jù)資料的處理問題[8],研究范式的轉變也使得人文社會科學研究越來越依賴高質量的數(shù)據(jù),迫切需要構建人文社會科學數(shù)據(jù)的質量保障機制,以及研究新的計算機處理模式和分析方法以支持人文社會領域科學家對知識的獲取、標注、比較、取樣、闡釋與表現(xiàn)。

      (2)資料數(shù)字化帶來的挑戰(zhàn)。資料數(shù)字化改變了傳統(tǒng)人文社會科學的資料類型,數(shù)字資源的采集、加工和處理對高水平研究成果的獲得作用日益顯著[8]。以“大數(shù)據(jù)”為代表的數(shù)據(jù)資源在數(shù)據(jù)粒度、碎片化、結構多元化、信息質量等方面具有更高的復雜度,對資料的匯集、保存和綜合利用更加依賴計算機的輔助,人文社會科學家進行數(shù)據(jù)處理分析也越來越需要依賴信息技術手段,迫切需要開發(fā)可用于人文社會科學大數(shù)據(jù)采集、清洗、分析處理和可視化的工具和方法。傳統(tǒng)人文社會科學學者對信息處理分析工具與技巧的缺失將影響該領域高水平研究成果的產出。

      (3)數(shù)據(jù)出版和共享方面的挑戰(zhàn)。缺乏能夠應用于大數(shù)據(jù)研究實踐成果和學術著作快速出版的開放工具和平臺,也是一個重要挑戰(zhàn)。目前亟需可用于不同學科、不同制度下的數(shù)據(jù)出版(有適當標準和授信)和數(shù)據(jù)共享的集成化平臺,以及多數(shù)據(jù)集成化出版。

      (4)大數(shù)據(jù)資源管理、知識產權、安全與隱私方面的挑戰(zhàn)。大數(shù)據(jù)運用不僅帶來了更多問題的解決方法,也帶來了數(shù)據(jù)資源管理、公民知識產品、數(shù)據(jù)安全與用戶隱私等方面的一系列問題,這在人文社會科學領域顯得尤為突出。大數(shù)據(jù)資源管理的公共政策,大數(shù)據(jù)資源與產業(yè)的深度融合,以及大數(shù)據(jù)商業(yè)價值的挖掘與知識產權、數(shù)據(jù)安全和用戶隱私保護之間關系的研究方興未艾,尚待取得突破性的進展,值得進一步的探索。

      1.4 大數(shù)據(jù)處理技術與方法發(fā)展現(xiàn)狀及挑戰(zhàn)

      大數(shù)據(jù)在數(shù)據(jù)規(guī)模、數(shù)據(jù)增速、數(shù)據(jù)類型、數(shù)據(jù)質量、數(shù)據(jù)價值等方面的特性給大數(shù)據(jù)處理技術與方法提出了新的科學技術挑戰(zhàn)[9]。主要體現(xiàn)在 5 個方面:

      (1)數(shù)據(jù)存儲管理方面。數(shù)據(jù)產生過程和數(shù)據(jù)分析過程的分離,使得傳統(tǒng)面向數(shù)據(jù)查詢需求的關系數(shù)據(jù)庫不再適用,亟需面向數(shù)據(jù)分析需求的大規(guī)模數(shù)據(jù)倉庫和 NoSQL 數(shù)據(jù)庫[18];(2)數(shù)據(jù)分析方法方面。數(shù)據(jù)的產生和獲取過程不再有嚴格的控制,相關性分析代替因果性分析逐漸成為數(shù)據(jù)分析的主要方式,問題驅動的研究方式逐漸被數(shù)據(jù)驅動的研究方式所代替[19];(3)模型和算法方面。半結構化和非結構化數(shù)據(jù)的處理需求成為主流,傳統(tǒng)基于特征工程(feature engineering)的方法逐漸被基于特征學習(feature learning)的方法超越并取代[20];(4)計算體系結構方面。新型存儲器件和計算器件(例如 GPU 等)不斷涌現(xiàn),使得通用處理器和單一體系結構逐漸過渡為專用處理器和異構體系結構[21];(5)計算和服務方面。對于計算資源的高可靠性和高易用性的需求日增,以互聯(lián)網(wǎng)為媒介的云計算模式和數(shù)據(jù)中心逐漸成為大數(shù)據(jù)處理的新型模式[22]。

      近幾年,大數(shù)據(jù)分析處理技術和方法有了長足的發(fā)展。Hadoop 分布式文件系統(tǒng)、Map-Reduce 和 Spark 分布式計算框架、銜接高性能計算和大數(shù)據(jù)的 DataMPI、云計算技術、深度學習技術等新技術深刻影響和改變著大數(shù)據(jù)的分析處理。一方面,計算能力和計算模式的變革為大數(shù)據(jù)分析處理提供了高易用性、高可靠性和低熵的計算資源;另一方面,人類社會活動的信息化和數(shù)字化程度達到了空前的水平,日益豐富的大數(shù)據(jù)構成了人、機、物三元世界的詳實數(shù)字記錄,形成了前所未有的數(shù)據(jù)資源。計算資源和數(shù)據(jù)資源的結合,為人工神經(jīng)網(wǎng)絡的復興和深度學習技術的發(fā)展提供了前所未有的契機,共同催生了人工智能新的春天。無論是圖形圖像處理和自然語言理解等基礎研究方面,還是無人駕駛和智能機器人等具體應用方面,以深度學習技術和大數(shù)據(jù)分析引擎為代表的大數(shù)據(jù)分析和處理技術都帶來了質的進步,產生了深遠影響。相應地,為深度學習設計和開發(fā)的新型計算框架和專用計算芯片近年來也取得了很大的進步。另外,各類體現(xiàn)互聯(lián)網(wǎng)思維的“互聯(lián)網(wǎng)+”應用,也在推動著大數(shù)據(jù)分析和處理技術的進步,以“眾包”為代表的群智計算在很多應用場景(例如借助互聯(lián)網(wǎng)進行的眾包光學字符識別系統(tǒng) reCAPTCHA[23])中發(fā)揮了重要作用,解決了傳統(tǒng)計算模式無法或難以解決的問題,是大數(shù)據(jù)分析和處理技術的一個新方向。

      2 科學大數(shù)據(jù)發(fā)展建議

      2.1 生物醫(yī)藥大數(shù)據(jù)

      在生命科學領域,獲取組學數(shù)據(jù)的方法與技術已日漸成熟,關鍵是數(shù)據(jù)挖掘。對占人類基因組 97% 左右的非編碼序列信息的積累與挖掘也已引起國際上的廣泛關注,預示著這一領域將取得突破。如何從海量復雜的組學數(shù)據(jù)中獲取生命活動的知識已成為了基因組及相關研究的關鍵。當前的困難主要包括計算量大、樣本量小、有效事件頻率低、存在共同與特異的變化等。今后發(fā)展的目標包括需要增大計算資源與樣本數(shù)目,發(fā)展與完善統(tǒng)計、分析、建模等方法,并構建動態(tài)的、雙色(含蛋白質及 RNA)的復雜網(wǎng)絡。當下,最為活躍的研究熱點包括整合分析來源成分復雜的數(shù)據(jù),在確保病人隱私不受侵犯的前提下,更有效地整合來自生物學與臨床醫(yī)學的數(shù)據(jù)以用于診斷、治療等方面的研究。更長遠的研究目標,則是基于數(shù)據(jù)的進一步演繹,如,闡明基因型與表型的關系。雖然目前已經(jīng)存在著包含不同種類組學大數(shù)據(jù)的多個大型國際共享平臺,為了擴大國家在生物醫(yī)藥大數(shù)據(jù)方面的影響力,更多數(shù)據(jù)應同時對整個科學界開放(涉及諸如病人隱私的數(shù)據(jù)除外)。比較好的做法是將數(shù)據(jù)存放在領域內已建立的全球數(shù)據(jù)存儲中心。如有必要,建立國家大型計算機中心或生物醫(yī)學權威數(shù)據(jù)庫以方便數(shù)據(jù)的采集、處理以及共享。

      2.2 地球大數(shù)據(jù)

      地球大數(shù)據(jù)的誕生,使人類對地球系統(tǒng)的認知從傳統(tǒng)的經(jīng)驗資料搜集、理論推導、局部物理過程理解和模擬轉化到利用地球大數(shù)據(jù)進行信息挖掘與知識發(fā)現(xiàn),從而探索地球系統(tǒng)中關鍵信息和各子系統(tǒng)及各生物物理變量之間的相互關聯(lián)和作用。因此,建議在3個層面發(fā)展地球大數(shù)據(jù),使其更好地服務知識發(fā)現(xiàn)。(1)地球大數(shù)據(jù)為地球科學,尤其是地球系統(tǒng)科學的研究提供了全新的方法論?;谔炜盏匾惑w化的地球觀測大數(shù)據(jù),結合地球科學領域的數(shù)據(jù)挖掘與知識發(fā)現(xiàn)的模型、算法,發(fā)展地球大數(shù)據(jù)知識發(fā)現(xiàn)的理論與方法是地球科學領域亟待解決的重大科學問題。(2)地球大數(shù)據(jù)傳輸、存儲、管理、處理、計算與共享高度依賴于大數(shù)據(jù)技術,結合互聯(lián)網(wǎng)領域大數(shù)據(jù)技術和云計算的最新研究成果,研發(fā)面向地球大數(shù)據(jù)的平臺系統(tǒng)、數(shù)據(jù)的高效組織與集成、算法的并行計算技術、大規(guī)模數(shù)據(jù)挖掘、資源調度與優(yōu)化、信息共享與服務方法等關鍵技術,發(fā)展以大數(shù)據(jù)技術和云計算為核心的地球大數(shù)據(jù)處理與應用綜合服務平臺,是地球科學領域大數(shù)據(jù)發(fā)展的前提和基礎。(3)加強地球科學領域與各相關領域的協(xié)同合作研究,推進大數(shù)據(jù)與跨學科領域大數(shù)據(jù)的交叉和融合,推動地球科學的創(chuàng)新發(fā)展。例如,數(shù)字地球科學作為多學科交叉的研究領域,其學科發(fā)展依賴于不同學科大數(shù)據(jù)的綜合集成的解決方法。

      2.3 人文與社會科學領域大數(shù)據(jù)

      大數(shù)據(jù)的運用有助于形成人文社會科學研究新思維,進一步推動研究數(shù)據(jù)有序開放、跨學科深度協(xié)作,以及人文社會科學與自然科學及工程技術學科的融合,從而開啟人文社會科學研究新局面[8]。為推動人文社會科學大數(shù)據(jù)學科發(fā)展,提出 4 方面建議:(1)推動構建人文社會科學大數(shù)據(jù)質量評估標準與共建共享。制定人文社會科學大數(shù)據(jù)質量評估標準和實現(xiàn)大數(shù)據(jù)資源共建共享是推動人文社會科學領域大數(shù)據(jù)發(fā)展的基礎性工作。為此,建議制定人文社會科學大數(shù)據(jù)質量評估標準,構建人文社會科學大數(shù)據(jù)共享平臺,積極開展人文社會科學大數(shù)據(jù)共建共享機制與管理方法的探索與創(chuàng)新,為推動大數(shù)據(jù)滿足人文社會科學領域研究人員的信息服務需求提供重要保障。(2)推動通過跨學科研究與合作開發(fā)人文社會科學大數(shù)據(jù)分析模型及公共服務平臺。應鼓勵國內外計算機信息科學與人文社會科學領域的學者和技術人員開展跨學科的研究與合作,突破學科壁壘,開發(fā)面向人文社會科學領域大數(shù)據(jù)分析處理需要的計算方法以及工具性軟件平臺,為人文社會科學大數(shù)據(jù)研究提供技術手段支持。(3)積極推動具有中國特色的人文社會科學領域大數(shù)據(jù)理論研究與大數(shù)據(jù)技術產業(yè)化應用實踐。進一步開展面向中國經(jīng)濟社會發(fā)展重大現(xiàn)實需求、具有中國特色的人文社會科學大數(shù)據(jù)理論研究,將大數(shù)據(jù)分析方法與我國人文社會科學具體實踐有機融合,促進大數(shù)據(jù)分析在我國互聯(lián)網(wǎng)金融、網(wǎng)絡輿情管理、數(shù)字出版、電子商務、健康管理與養(yǎng)老服務、物流管理、旅游管理、智慧城市與交通管理等重點領域的研究與實踐;進一步推動人文社會科學大數(shù)據(jù)研究與大數(shù)據(jù)產業(yè)的融合發(fā)展。進一步開展具有中國特色的大數(shù)據(jù)資源管理公共政策,大數(shù)據(jù)資源管理領導力(即首席數(shù)據(jù)執(zhí)行官),大數(shù)據(jù)商業(yè)價值,大數(shù)據(jù)知識產權、數(shù)據(jù)安全與用戶隱私保護等核心問題的研究與實踐。(4)加強人文社會科學領域青年學者、博士生與研究生大數(shù)據(jù)分析方法教育與能力培養(yǎng),鼓勵他們更多地參與大數(shù)據(jù)領域的國際學術交流與合作。在人文社會科學相關院系,開設大數(shù)據(jù)分析與建模課程;利用科研院所、高等學校、工業(yè)界和海外的各種相關數(shù)據(jù)、平臺和人才資源,對人文社會科學領域科研人員進行大數(shù)據(jù)分析與處理技術培訓,增強我國人文社會科學研究人員利用大數(shù)據(jù)分析方法解決人文社會領域科學問題的能力,大力培養(yǎng)人文社會科學領域青年大數(shù)據(jù)科學家和大數(shù)據(jù)分析師,推動我國人文社會科學研究人員在國際高水平乃至頂級期刊發(fā)表更多體現(xiàn)中國特色的人文社會科學大數(shù)據(jù)研究成果;為人文社會科學領域研究人員特別是青年學者參與大數(shù)據(jù)研究領域的國際學術交流和合作提供更多機會,進一步擴大我國人文社會科學領域科學家在國際學術界的影響。

      2.4 大數(shù)據(jù)處理技術與方法

      大數(shù)據(jù)處理技術與方法方面,建議重點發(fā)展3個方向。(1)深度學習技術。深度學習技術已經(jīng)在許多非結構化數(shù)據(jù)的處理方面——特別是在表達學習方面,展現(xiàn)出了其強大的生命力,但仍面臨著計算代價大、模型訓練慢、可解釋性差等突出問題,未來仍需探索如何在深度學習的模型方面整合人的先驗知識或抽象能力,在降低對大量訓練數(shù)據(jù)的依賴性的同時提高模型的可解釋性[24]。(2)低熵計算框架。計算作為一種資源需要以一種低熵的方式為大數(shù)據(jù)分析處理提供服務,即降低計算資源在使用過程中的損耗,并提高易用性和可靠性,這需要云計算技術、新型計算器件、數(shù)據(jù)中心網(wǎng)絡等多個方面的技術進步。同時,設計安全可靠、可信易用的數(shù)據(jù)共享模式,降低數(shù)據(jù)使用過程的頻繁搬遷及數(shù)據(jù)一致性約束,也是促進低熵計算實現(xiàn)需要努力的方向[25]。(3)數(shù)據(jù)使能的社會智能。大數(shù)據(jù)是銜接人、機、物三元世界的紐帶,蘊含了關于人類活動和社會智能的知識[26],如何利用這些數(shù)據(jù)探索社會智能涌現(xiàn)的機理并構建數(shù)據(jù)使能的社會計算模式,是未來大數(shù)據(jù)分析處理和人工智能的重要探索方向,以互聯(lián)網(wǎng)為媒介的人機互動的人計算是可能的一種嘗試形式[27],未來期待更為柔性和易用的促使社會智能涌現(xiàn)的計算模型出現(xiàn)。

      致謝:感謝張鳳、吳艷、章文峻、王東瑤、蔣芳、薛芳、滕曉龍為會議的籌備、組織所付出的辛勤勞動。

      1 Turner V, Gantz J F, Reinsel D, et al. The Digital Universe of Opportunities: Rich Data and the Increasing Value of the Internet of Things. Framingham: IDC Analyze the Future, 2014.

      2 Gantz J F, Reinsel D. The Digital Universe in 2020: Big Data,Bigger Digital Shadows, and Biggest Grow th in the Far East. Fram ingham: IDC Analyze the Future, 2012.

      3 Guo H D, Wang L Z, Liang D. Big Earth Data from space: a new engine for Earth science. Science Bulletin, 2016, 61(7):505-513.

      4 Consortium E P. An integrated encyclopedia of DNA elements in the human genome. Nature, 2012, 489(7414): 57-74.

      5 何國金, 王力哲, 馬燕, 等. 對地觀測大數(shù)據(jù)處理: 挑戰(zhàn)與思考.科學通報, 2015, 60(5-6): 470-478.

      6 Guo H D, Wang L Z, Chen F, et al. Scientific big data and Digital Earth. Chinese Science Bulletin, 2014, 59(35): 5066-5073.

      7 孫建軍. 大數(shù)據(jù)時代人文社會科學如何發(fā)展. 光明日報, 2014-07-07.

      8 孫建軍. 大數(shù)據(jù)使社科研究不再“望數(shù)興嘆”. 人民日報,2016-02-18.

      9 李國杰, 程學旗. 大數(shù)據(jù)研究: 未來科技及經(jīng)濟社會發(fā)展的重大戰(zhàn)略領域——大數(shù)據(jù)的研究現(xiàn)狀與科學思考. 中國科學院院刊, 2012, 27(6): 647-657.

      10 馮芷艷, 郭迅華, 曾大軍, 等. 大數(shù)據(jù)背景下商務管理研究若干前沿課題. 管理科學學報, 2013, 16(1): 1-9.

      11 俞立平. 大數(shù)據(jù)與大數(shù)據(jù)經(jīng)濟學. 中國軟科學, 2013, 2013, (7):177-183.

      12 M cA fee A, Brynjolfsson E. Big data: the management revolution. Harvard Business Review, 2012, 90(10): 60-66, 68, 128.

      13 W lodarczak P, Soar J, Ally M. Reality M ining in eHealth. Health Information Science, Cham: Springer International Publishing,2015: 1-6.

      14 Kim Y, Jeong M, Jeong S R. Using big data opinion m ining topredict rises and falls in the stock price index. Handbook of Research on Organizational Transformations Through Big Data Analytics. Hershey: IGI Global, 2016.

      15 Sandra G B. Social science in the era of big data. Po licy & Internet. 2013, 5(2): 147-160.

      16 M orozov E. To Save Every thing, C lick Here: the fo lly of technological solutionism. New York: Public A ffairs, 2013.

      17 Lazer D, Kennedy R, King G, et al. The parable of Google flu:traps in big data analysis. Science, 2014, 343: 1203-1205.

      18 Leavitt N. W ill NoSQL databases live up to their prom ise? IEEE Computer, 2010, 43(2): 12-14.

      19 Hey T, Tansley S, Tolle K. The fourth paradigm: data-Intensive scientific discovery. Microsoft Research, 2009.

      20 Bengio Y, Courville A, Vincent P. Representation learning: a review and new perspectives. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2013, 38(8): 1798-1828.

      21 Liu D, Chen T, Liu S, et al. PuDianNao: A polyvalent machine learning accelerator // Proceedings of the 20th international conference on architectural support for programm ing languages and operating system s (ASPLOS 2015). New York: ACM, 2015:369-381.

      22 A rmbrust M, Fox A, Griffith R, et al. A view of cloud com puting. Communications of the ACM, 2010, 53(4): 50-58.

      23 von Ahn L, M aurer B, M cM illen C, et al. reCAPTCHA: humanbased character recognition via web security measures. Science,2008, 321(5895): 1465-1468.

      24 LeCun Y, Bengio Y, Hinto G. Deep learning. Nature, 2015,521(7553): 436-444.

      25 Lu X, Liang F, Wang B, et al. DataMPI: Extending MPI to hadoop-like big data com puting // Proceedings of the 28th IEEE international parallel and distributed processing symposium(IPDPS 2014). Phoenix: IEEE, 2014: 829-838.

      26 Shen H W, Barabási A L. Collective credit allocation in science. PNAS, 2014, 111(34): 12325-12330.

      27 M ichelucci P, Dickinson J L. The pow er of crow ds. Science,2016, 351(6268): 32-33.

      郭華東中科院遙感與數(shù)字地球所研究員。中科院院士、發(fā)展中國家科學院院士、國際歐亞科學院院士。現(xiàn)擔任國際數(shù)字地球學會(ISDE)主席及 ISDE 中國國家委員會主席、國科聯(lián)(ICSU)國際科技數(shù)據(jù)委員會(CODATA)前主席及中國國家代表、災害風險綜合研究計劃(IRDR)科學委員會委員及 IRDR 中國委員會主席、《國際數(shù)字地球學報》主編等職。主要從事遙感科學與應用研究,在遙感信息機理、雷達對地觀測、數(shù)字地球科學等方面取得系列成果。發(fā)表論文 400 余篇,出版專著和主編著作 16 部,獲國家和省部級科技獎勵 13 項。E-mail: hdguo@radi.ac.cn

      Guo HuadongProfessor of Institute of Remote Sensing and Digital Earth (RADI), the Chinese Academy of Sciences (CAS), an Academ ician of CAS, a Fellow of The World Academy of Sciences for the advancement of science in developing countries (TWAS), and an Academicianof the International Eurasian Academy of Sciences (IEAS). He presently serves as President of the International Society for Digital Earth (ISDE),Past-President of the ICSU Committee on Data for Science and Technology (CODATA), Science Comm ittee Member of the Integrated Research on Disaster Risk (IRDR) programme co-sponsored by ICSU, ISSC, and UNISDR, Editor-in-Chief of the International Journal of Digital Earth,and Chairman of the Chinese National Committee for ISDE and China Comm ittee for IRDR. He specializes in theremote sensing science and its applications, and has conducted ground-breaking research on the information mechanisms of remote sensing, radar for Earth observation,and digital Earth science. Prof. Guo has published more than 400 papers and sixteen books, and is the principal awardee of thirteen national and CAS prizes. E-mail: hdguo@radi.ac.cn

      Big Data in Natural Sciences, Humanities and Social Sciences——Review of the 6th Exploratory Round Table Conference

      Gou Huadong1Chen Runsheng2Xu Zhiwei3Sun Jianjun4Bi Jun4Wang Lizhe1Luo Jianjun2Shen Huawei3Gu Dongxiao4Liang Dong1Shen Wenqing5Zhang Xu5Hans Wolfgang Spiess6Thomas Lengauer7

      (1Institute of Remote Sensing and Digital Earth, Chinese Academy of Sciences, Beijing 100094, China;2Institute of Biophysics, Chinese Academy of Sciences, Beijing 100101, China;
      3Institute of Computing Technology, Chinese Academy of Sciences , Beijing 100190, China;4Nanjing University , Nanjing 210023, China;5Shanghai Branch of Chinese Academy of Sciences, Shanghai 200031, China;6M ax Planck Institute for Polymer Research, M ainz 55128, Germany;7Max Planck Institute for Informatics, Saarbrücken 66123, Germany)

      Big data has begun to significantly influence global production, circulation, distribution, and consum ption patterns. It is changing humankind's production methods, lifestyles, mechanisms of econom ic operation, and country governance models. It is a strategic enablingtechnology in the era of know ledge-driven econom ies, and also a new type of strategic resource for nations and the world. It offers a prom ising new route for innovative methods of analysis and inference, and provides new opportunities for natural sciences, humanities and social sciences. Ubiquitous in the discussion of today's technology, the colorful and not clearly delineated term “big data” is on people's m inds,regarding both its immense potential and its actual and perceived risks. The 6thExploratory Round Table Conference (ERTC 2015) under the theme of “Big Data in the Natural Sciences and Humanities” was successfully held in Shanghai in November 2015. It was a joint project of the Chinese Academ y of Sciences (CAS) and M ax Planck Society (MPG), focused on topics that are only just beginning to emerge in the scientific community. Scientists from CAS and MPG met together w ith experts around China and the world to review the status of research and technology regarding and using big data and to discuss how it can and should be harnessed for furthering science. Big data is characterized by(1) highly accessible generation of large volumes of data which (2) are generated continuously in a highly dynam ic fashion, and which feature(3) high data heterogeneity and (4) serious issues of data quality regarding noise, incompleteness, and biases. The status and requirements of big data research differ substantially among individual scientific domains. In the life sciences, the field has large, internationally shared repositories of highly diverse om ics data. Current activities include bringing together biological and medical (patient) data for research on diagnosis and therapy and making patient data accessible while preserving patient privacy. In the Earth sciences, various Earth observation methods, for example, remote sensing, ground sensor networks, geophysics, geochemistry, and geological surveys, have afforded huge volumes of data, so called big Earth data. Exciting themes include global change and digital Earth science. The concept of digital Earth is a virtual representation of our planet constructed w ith massive, multi-resolution, multi-temporal Earth observation, and socioeconomic data of different types. This multi-disciplinary challenge relies on big data. Big data is also emerging for the humanities and social sciences. High-resolution 3D-imaging, for exam ple, has led to the generation of large amounts of data for digital reproductions of cultural heritage artifacts that require large processing capabilities for filtering and reassembly. The key problem in social sciences is that the vast majority of data is still only available as images, texts, or websites, w ithout appropriate metadata to enable discovery and analysis. M ethodologies based on big data pose a number of challenges. (1) In order to gain trust in the data and learned predictive models, the predictions must be interpretable by a human.(2) Another challenge is the resulting loss of privacy: in some settings, complex predictive models are able to recoup partial information from different databases, and effectively deanonym ize seemingly anonymous data. (3) A t the infrastructure level, energy- and cost-efficient solutions are becom ing a grow ing necessity. (4) Furthermore, the software deployed on such infrastructure must deal transparently and resiliently w ith the noise and heterogeneity inherent to big data. In the three-day conference, a prelim inary consensus was proposed that big data, as a new way of human life and understanding the world, is driving the transformation of scientific research paradigms and promoting scientific development. It should be scientifically cognized how big data is playing a critical role for scientific discovery, what the significance is, and what major challenges are being faced. The conference also recommended establishing a Scientific Data Center in communication and cooperation, to form a scientific working group to research big data issues, and to enhance cultivation of young scientists in the realm of big data.

      big data, scientific big data, life sciences, earth sciences, humanities, social sciences, computing technology, Exploratory Round Table Conference

      10.16418/j.issn.1000-3045.2016.06.014

      *資助項目:中科院規(guī)劃與戰(zhàn)略研究專項

      修改稿收到日期:2016 年4月29日

      猜你喜歡
      社會科學人文領域
      人文
      北京紀事(2024年1期)2024-01-03 03:16:55
      《云南社會科學》征稿征訂啟事
      《河北農業(yè)大學(社會科學版)》2021年喜報
      領域·對峙
      青年生活(2019年23期)2019-09-10 12:55:43
      人文紹興
      中國三峽(2017年3期)2017-06-09 08:14:59
      人文社科
      全國新書目(2016年5期)2016-06-08 08:54:10
      數(shù)學在社會科學中的應用
      讓人文光輝照耀未來
      新常態(tài)下推動多層次多領域依法治理初探
      肯定與質疑:“慕課”在基礎教育領域的應用
      毕节市| 双峰县| 张家界市| 湖州市| 临武县| 泗洪县| 县级市| 逊克县| 新津县| 潜山县| 冕宁县| 鄂托克前旗| 钟祥市| 通渭县| 古交市| 莱州市| 大足县| 容城县| 浠水县| 罗平县| 马边| 肥乡县| 瓦房店市| 无为县| 齐河县| 武穴市| 万源市| 伊宁县| 特克斯县| 白银市| 鲁山县| 固阳县| 双柏县| 桓台县| 云南省| 宁都县| 林芝县| 苍南县| 宜良县| 平凉市| 上栗县|