文/梁娜 曾燕
中國科學(xué)院國家科學(xué)圖書館北京100190
推進(jìn)數(shù)據(jù)密集科學(xué)發(fā)現(xiàn)提升科技創(chuàng)新能力:新模式、新方法、新挑戰(zhàn)*
——《第四范式:數(shù)據(jù)密集型科學(xué)發(fā)現(xiàn)》譯著出版
文/梁娜 曾燕
中國科學(xué)院國家科學(xué)圖書館北京100190
海量科學(xué)數(shù)據(jù)正日益成為科學(xué)研究的有力工具及知識基礎(chǔ)。文章從《第四范式:數(shù)據(jù)密集型科學(xué)發(fā)現(xiàn)》一書出發(fā),通過地球與環(huán)境科學(xué)、生命與健康科學(xué)、數(shù)字信息基礎(chǔ)設(shè)施和數(shù)字化學(xué)術(shù)信息交流等方面基于海量數(shù)據(jù)的科研活動的生動實例,揭示了這種數(shù)據(jù)密集型科學(xué)發(fā)現(xiàn)的新范式對科學(xué)研究帶來的新模式、新方法,最后從科學(xué)數(shù)據(jù)的管理、互操作、數(shù)據(jù)權(quán)益管理、數(shù)據(jù)素養(yǎng)等方面提出了駕馭第四范式的挑戰(zhàn)。
第四范式,科學(xué)數(shù)據(jù),數(shù)據(jù)管理,知識服務(wù)
由微軟公司副總裁Tong Hey等撰寫、中科院潘教峰等翻譯的《第四范式:數(shù)據(jù)密集型科學(xué)發(fā)現(xiàn)》(The Fourth Paradigm: Data-intensive Scientific Discovery,以下簡稱《第四范式》)已由科學(xué)出版社出版。這是國際上第一本系統(tǒng)描述大數(shù)據(jù)現(xiàn)象、深刻揭示其對科學(xué)研究的革命性影響的著作,對我們?nèi)绾卫斫夂徒M織科學(xué)研究、科研管理以及科研知識服務(wù),具有重要意義。
隨著信息網(wǎng)絡(luò)和信息技術(shù)的發(fā)展,科學(xué)研究的知識基礎(chǔ)發(fā)生了革命性的變化。通過各類觀察、感知、計算、仿真、模擬、傳播等,海量的科學(xué)數(shù)據(jù)(被稱為“大數(shù)據(jù)”——Big Data)正迅速產(chǎn)生、廣泛傳播和有效組織保存,成為科學(xué)研究的有力工具、甚至新的基礎(chǔ)。
科技界一直就很重視科學(xué)數(shù)據(jù),很早就建立了大規(guī)模的科學(xué)數(shù)據(jù)中心,例如由國際科學(xué)聯(lián)合會理事會建立的世界數(shù)據(jù)中心(World Data System)和它的遍及全球的數(shù)據(jù)中心體系,英國的JISC國家數(shù)據(jù)中心網(wǎng)絡(luò)(JISC National Data Centers),以及美國校際社會科學(xué)數(shù)據(jù)共享聯(lián)盟(ICPSR)等等。隨著技術(shù)和網(wǎng)絡(luò)的發(fā)展,科學(xué)數(shù)據(jù)的數(shù)量迅速增加,科技界開始高度關(guān)注這種大數(shù)據(jù)趨勢對科技以及社會的影響。2005年美國科學(xué)理事會(NSB)發(fā)表《支持21世紀(jì)科學(xué)和教育的可持續(xù)數(shù)據(jù)集合》(Long-lived Digital Data Collections: Enabling Research and Education in the 21st Century),分析組織和維護(hù)大規(guī)模數(shù)據(jù)來支持科學(xué)研究的需要;2006年微軟公司出版了《科學(xué)2020》(Towards Science 2020),探討了網(wǎng)絡(luò)環(huán)境下如何運(yùn)用科學(xué)數(shù)據(jù)開展科學(xué)研究的趨勢和要求;2007年美國國家科學(xué)基金會(NSF)提出了《21世紀(jì)科學(xué)的網(wǎng)絡(luò)技術(shù)設(shè)施》(Cyberinfrastructure Vision for the 21st Century Science),探討如何通過海量數(shù)據(jù)及其網(wǎng)絡(luò)化計算來支持科學(xué)研究;2009年美國國家科學(xué)技術(shù)理事會(NSTC)發(fā)布了《為21世紀(jì)而駕馭科學(xué)數(shù)據(jù)潛力》(Harnessing the Power of Digital Data for the 21st Century);歐盟委員會科學(xué)數(shù)據(jù)高級專家組也在2010年發(fā)布《駕馭趨勢:歐洲如何從科學(xué)數(shù)據(jù)的迅速漲潮中獲益》(Riding the Wave:How Europe Can Gain from the Rising Tide of Scientific Data)??茖W(xué)媒體和大眾媒體也關(guān)注到大數(shù)據(jù)的興起和影響。《經(jīng)濟(jì)學(xué)家》在2010年2月27日當(dāng)期專門以“數(shù)據(jù)洪水”(Data Deluge)為封面文章,探討了科學(xué)數(shù)據(jù)對科學(xué)和社會的影響。著名的Wired雜志甚至在2008年還提出,數(shù)據(jù)洪水可能意味著“理論的終結(jié)”(End of Theory)[1]。
各國科技界已積極行動起來。例如,美國NSF在2007年啟動了Data Net項目[2],匯集網(wǎng)絡(luò)基礎(chǔ)設(shè)施、計算機(jī)與信息科學(xué)、圖書館學(xué)、檔案學(xué)和領(lǐng)域?qū)W科專家的能力和創(chuàng)新,探索建立支持科學(xué)與工程數(shù)據(jù)保存、獲取、集成、建立和分析的長期能力,建立可根據(jù)科研需要和技術(shù)發(fā)展動態(tài)調(diào)整這些能力的機(jī)制,示范可互操作的數(shù)據(jù)保存與獲取網(wǎng)絡(luò)。NSF于2008年啟動Cluster Exploratory-CluE項目[3],支持若干大學(xué)探索數(shù)據(jù)密集型計算的創(chuàng)新方法,不僅要促進(jìn)計算機(jī)科學(xué)在數(shù)據(jù)挖掘利用上推出新理論、新模型、新方法,而且要促進(jìn)這種新的計算機(jī)科學(xué)模式更好地支持科學(xué)研究和教育。歐盟、英國等也通過e-Science和e-Infrastructure等計劃在積極推進(jìn)科學(xué)數(shù)據(jù)的建設(shè)與利用。
盡管科學(xué)界一直在與數(shù)據(jù)打交道,但“大數(shù)據(jù)”的洪流也在改變著人們對數(shù)據(jù)及其作用的認(rèn)識。當(dāng)數(shù)據(jù)海量化、泛在化、開放化、網(wǎng)絡(luò)化和計算化時,它的作用也在發(fā)生革命性的變化。正如SUN公司的Martien Quwens指出,“‘多’不僅僅是數(shù)量增多,‘多’會帶來本質(zhì)的不同”(More is different)[4]。在大數(shù)據(jù)時代,科學(xué)家不僅通過對廣泛的數(shù)據(jù)實時、動態(tài)地監(jiān)測與分析來解決難以解決或不可觸及的科學(xué)問題,更可把數(shù)據(jù)作為科學(xué)研究的對象和工具,基于數(shù)據(jù)來思考、設(shè)計和實施科學(xué)研究。數(shù)據(jù)不再僅僅是科學(xué)研究的結(jié)果,而且變成科學(xué)研究的活的基礎(chǔ)和工具;人們不僅關(guān)心數(shù)據(jù)建模、描述、組織、保存、訪問、分析、復(fù)用和建立科學(xué)數(shù)據(jù)基礎(chǔ)設(shè)施,更關(guān)心如何利用泛在網(wǎng)絡(luò)及其內(nèi)在的交互性、開放性,利用海量數(shù)據(jù)的知識對象化、可計算化,構(gòu)造基于數(shù)據(jù)的知識發(fā)現(xiàn)和協(xié)同研究,因此誕生了數(shù)據(jù)密集型的知識發(fā)現(xiàn),即科學(xué)研究的第四范式。對這一趨勢的系統(tǒng)揭示,正是《第四范式》的意義所在。
《第四范式》一書以吉姆·格雷提出科學(xué)研究第四范式的著名演講開篇,邀請國際多個領(lǐng)域的著名科學(xué)家對數(shù)據(jù)密集型科學(xué)發(fā)現(xiàn)的理念、應(yīng)用和影響進(jìn)行深入探討,明確提出了數(shù)據(jù)密集型科學(xué)發(fā)現(xiàn)范式,并將其作為與實驗科學(xué)、理論推演、計算機(jī)仿真3種科研范式平行的科學(xué)研究即第四范式。該書通過地球與環(huán)境科學(xué)、生命與健康科學(xué)、數(shù)字信息基礎(chǔ)設(shè)施和數(shù)字化學(xué)術(shù)信息交流等方面基于海量數(shù)據(jù)的科研活動的生動實例,揭示了這種新范式帶來的革命性變化。
該書第一部分中,Dan Fay等人介紹了地球、環(huán)境、海洋、空間等領(lǐng)域的大數(shù)據(jù)環(huán)境與科學(xué)應(yīng)用。在這些領(lǐng)域中,新型傳感器實時獲得上天入海、隨時隨地的海量數(shù)據(jù),各種網(wǎng)絡(luò)傳輸系統(tǒng)和數(shù)據(jù)保存與分析設(shè)施幫助科學(xué)家獲得和分析這些數(shù)據(jù),從而具有了超越傳統(tǒng)科研環(huán)境很多倍的“史上最強(qiáng)”觀察能力、分析能力甚至實驗?zāi)芰Α@?,海洋科學(xué)研究中的“全球生命維持系統(tǒng)——海洋”項目,通過有線纜海洋觀測站,超過1 200公里的海底電纜將為眾多海底觀察節(jié)點提供電力保障和數(shù)據(jù)傳輸能力,這些節(jié)點以24×7×365的不間斷方式持續(xù)20—30年觀察海洋,并以每秒25億—100億字節(jié)的數(shù)據(jù)帶寬與互聯(lián)網(wǎng)連接,通過可信賴的數(shù)據(jù)庫加以保存和整理,形成全時制全球化的觀察數(shù)據(jù)集,而且通過將岸基設(shè)備與海底高清影像設(shè)施、捕獲機(jī)器人甚至現(xiàn)場分析設(shè)施集合起來,可構(gòu)造起實時的海洋觀察網(wǎng)和交互的海洋實驗室,供全球的科學(xué)家、學(xué)生、教師和公眾進(jìn)行觀察和開展實驗。該方式將徹底改變科學(xué)家、公眾以及政策制定者與動態(tài)的全球海洋之間相互作用的方式,使自然界、互聯(lián)網(wǎng)和海量數(shù)據(jù)集共同構(gòu)成最強(qiáng)大的海洋研究工具。作者們提出,傳感器件的微型化、嵌入化、智能化以及與互聯(lián)網(wǎng)的充分鏈接,使我們對自然界的感知速度、廣度和精度大幅度提高,但如何有效挖掘這種感知能力帶來的海量數(shù)據(jù)中的科學(xué)現(xiàn)象和規(guī)律,如何支持科學(xué)家大范圍地、交互協(xié)同地對這些現(xiàn)象進(jìn)行研究,如何提高基于充分信息、可靠證據(jù)和科學(xué)方法上的科研洞察力和科學(xué)決策力,還需要改進(jìn)認(rèn)識科學(xué)研究的視角和科學(xué)工具與方法,才能保證“科研智能”能跟上“感知能力”。
該書第二部分中,Simon Mercer等人分析了醫(yī)學(xué)、認(rèn)知科學(xué)、生物系統(tǒng)、醫(yī)療服務(wù)等領(lǐng)域的數(shù)據(jù)密集型科學(xué)發(fā)現(xiàn)。書中舉例,一個在發(fā)展中國家部署的醫(yī)療知識和數(shù)據(jù)的采集、分析與傳播系統(tǒng),通過手機(jī)界面支持醫(yī)護(hù)人員在現(xiàn)場記載了每位患者的各類病癥、治療、效果以及身份、歷史、位置、家族等信息,并及時傳輸?shù)街行拇鎯εc分析系統(tǒng)。該中央系統(tǒng)又與海量醫(yī)學(xué)文獻(xiàn)系統(tǒng)鏈接,利用大量診治實例和科研結(jié)果進(jìn)行循證醫(yī)學(xué)的實時診斷,而且還與醫(yī)學(xué)專家網(wǎng)絡(luò)鏈接,在必要時引入專家智能提高分析能力。該系統(tǒng)不僅能對緊急或特殊病患做出快速反應(yīng),指導(dǎo)鄉(xiāng)村醫(yī)護(hù)人員準(zhǔn)確診治,而且還能根據(jù)疾病爆發(fā)、治病因素分布、有效療法所需時間等,提高應(yīng)對速度和預(yù)見力,針對性地調(diào)配醫(yī)療資源,更準(zhǔn)更快地消滅疾病。進(jìn)一步地,這種機(jī)制可基于廣泛、持續(xù)、實時的數(shù)據(jù)來挖掘引起疾病發(fā)生發(fā)展的因素與規(guī)律,充實和調(diào)整醫(yī)學(xué)知識庫,形成虛擬的以證據(jù)為基礎(chǔ)的醫(yī)學(xué)專家大腦,大幅度提高疾病診斷與治療的準(zhǔn)確性,更不用說,這種全球性的診斷和數(shù)據(jù)系統(tǒng),對于加強(qiáng)發(fā)展中國家醫(yī)療防治能力,保證生命和生存的公平,具有非常重要的意義。當(dāng)然,僅僅‘?dāng)?shù)據(jù)多’還不夠,這些醫(yī)學(xué)數(shù)據(jù)還可加載到那些編碼了生物系統(tǒng)基本邏輯的可執(zhí)行模型上,不僅可用以描述有機(jī)體的行為,還能預(yù)測其未來狀況或?qū)Υ碳さ姆磻?yīng)。比如,在神經(jīng)科學(xué)方面,這些模型能幫助我們了解大腦如何思考;在醫(yī)療記錄方面,能幫助我們了解疾病機(jī)理和治療方法。不過,這需要深化對各種可能關(guān)聯(lián)因素以及關(guān)聯(lián)機(jī)制的理解、揭示和描述,才能讓海量數(shù)據(jù)真正發(fā)揮作用。
該書第三部分中,Daron Green等人分析了適應(yīng)大數(shù)據(jù)時代的科學(xué)信息與科學(xué)計算基礎(chǔ)設(shè)施面臨的挑戰(zhàn)。數(shù)據(jù)密集型計算不僅僅提供更大規(guī)模的數(shù)據(jù)傳輸、保存的能力,而且能迅速提供普遍的個人化的低成本、高容量、高效率的存儲與計算能力,使得在可預(yù)見的不久,個人有可能擁有幾年前只有超級計算中心才可能的計算能力、存儲能力甚至個性化的計算云。不僅如此,計算機(jī)領(lǐng)域正在開發(fā)新的能力,從互聯(lián)網(wǎng)開源信息、海量科學(xué)數(shù)據(jù)和隱藏在社群交互交流信息中進(jìn)行知識的發(fā)現(xiàn)、獲取、組織、分析、關(guān)聯(lián)、解釋和推理。科技界也正在迅速建立傳播、管理和處理全球知識的基礎(chǔ)設(shè)施,構(gòu)建將知識的交換、共享和處理作為所有應(yīng)用和服務(wù)的核心的“知識即服務(wù)”(Knowledge as a Service)機(jī)制。這樣的知識基礎(chǔ)設(shè)施需要提供恰當(dāng)?shù)姆?wù)集合,不僅要支持知識內(nèi)容的豐富語義化,支持語義化訪問,還要提供對全球知識進(jìn)行操作的計算服務(wù),并要提供支持科學(xué)家們從領(lǐng)域問題出發(fā),發(fā)現(xiàn)假說、探查解決路徑、“試驗”解決方案、預(yù)測解決方案對其他因素或在其他應(yīng)用環(huán)境下的可能影響等。數(shù)據(jù)變成實驗室,而且是更真實、更全面的實驗室,“數(shù)據(jù)實驗”變成科學(xué)的必要部分。
該書第四部分中,Lee Dirks等人對數(shù)據(jù)密集型科學(xué)發(fā)現(xiàn)對學(xué)術(shù)信息交流帶來的深刻變化做了描述。這時,人們以計算可操作的方式創(chuàng)造和傳播學(xué)術(shù)記錄,把數(shù)據(jù)集整合進(jìn)學(xué)術(shù)記錄,把學(xué)術(shù)信息交流中產(chǎn)生的各類知識整合起來形成新的“超級”學(xué)術(shù)記錄。原來僅能依賴個人一篇一篇閱讀科學(xué)文章或者分析科學(xué)數(shù)據(jù)的情況被迅速打破,人們可以一次就對數(shù)千篇文章進(jìn)行“閱讀”分析,找出其中的結(jié)構(gòu)、演變與疑難,支持發(fā)現(xiàn)那些隱藏在大量結(jié)果中的現(xiàn)象關(guān)系和科學(xué)規(guī)律。還可以將閱讀、分析與對科學(xué)知識的注釋、討論、檢驗、擴(kuò)展結(jié)合起來,把個人“閱讀”與群體“閱讀”結(jié)合起來,打破知識在微觀上的靜態(tài)局限和個人或小組的認(rèn)知限制。這樣,單篇文章向由數(shù)字文獻(xiàn)庫與科學(xué)數(shù)據(jù)庫組合成的“超級”科學(xué)記錄轉(zhuǎn)移,將實現(xiàn)該書第三部分提到的知識實驗室。而且,科技知識的出版、傳播走向開放獲取,科學(xué)家乃至社會公眾能迅速獲取全社會產(chǎn)生的科學(xué)知識,還能參與到協(xié)同創(chuàng)新中去創(chuàng)造知識,支持跨學(xué)科領(lǐng)域、跨知識創(chuàng)新價值鏈各環(huán)節(jié)、跨科研與政策、社會行為等各層次的協(xié)同化知識發(fā)現(xiàn)和應(yīng)用。
我們已經(jīng)看到,科學(xué)研究第四范式,確實將帶來科學(xué)研究的革命。當(dāng)科研人員可以方便地從宏觀到微觀、從自然到社會獲得海量的實時的觀察或?qū)嶒灁?shù)據(jù),當(dāng)這些海量數(shù)據(jù)普遍地可網(wǎng)絡(luò)獲取、可計算、可開放關(guān)聯(lián),當(dāng)對這些數(shù)據(jù)進(jìn)行分析、更新、擴(kuò)展的方法和技術(shù)成為科學(xué)家和公眾的普惠的工具,知識成為可以被及時更新、廣泛連接、靈活計算的活的生命體,可個性化地、動態(tài)地、交互地、智能化地嵌入到我們的研究、學(xué)習(xí)、管理和生活中。許多激動人心的潛力將被進(jìn)一步開發(fā),許多未知的領(lǐng)域和方向?qū)⒊尸F(xiàn)在我們面前。我們期待著科學(xué)研究第四范式繼續(xù)對科學(xué)研究和社會發(fā)展做出巨大貢獻(xiàn)。
第四范式展示的能力和潛力已得到科技界和社會的高度認(rèn)可,許多國家正在啟動各種相關(guān)的計劃和措施,例如美國白宮2012年宣布大數(shù)據(jù)資助計劃(White House Big Data Initiative)[5],歐盟委員會提出駕馭大數(shù)據(jù)浪潮的戰(zhàn)略思路(Riding the Wave:How Europe can gain from the rising of scientific data)[6],日本剛發(fā)布《面向2020的ICT綜合戰(zhàn)略》,提出要構(gòu)造豐富的數(shù)據(jù)基礎(chǔ)。但我們也要清醒地看到,充分利用大數(shù)據(jù)機(jī)會、駕馭第四范式提供的能力,還存在許多挑戰(zhàn)。除了《第四范式》已提出的海量數(shù)據(jù)計算方法、分布式數(shù)據(jù)存儲與管理等挑戰(zhàn)外,這里著重討論幾個常被忽略的挑戰(zhàn)。
第一是如何可靠地管理科學(xué)數(shù)據(jù)[7]。數(shù)據(jù)是否被系統(tǒng)、客觀、準(zhǔn)確、精確地采集,數(shù)據(jù)以及采集技術(shù)、方法與環(huán)境是否準(zhǔn)確描述,數(shù)據(jù)是否被全面、準(zhǔn)確記載,數(shù)據(jù)在處理環(huán)節(jié)之間計算或轉(zhuǎn)換時是否失真、是否能可靠溯源,數(shù)據(jù)在整個項目生命周期中的處理、轉(zhuǎn)換、修改、保存、發(fā)布、刪除等的規(guī)則和責(zé)任體系是否建立,數(shù)據(jù)及其各個“版本”在項目結(jié)束后是否可公共獲取,等等,這些都直接決定數(shù)據(jù)最后成為垃圾還是科學(xué)知識。目前,相當(dāng)多科研項目所產(chǎn)生的數(shù)據(jù)(尤其是占項目絕大多數(shù)的“小項目”產(chǎn)生的科學(xué)數(shù)據(jù))沒有得到詳細(xì)描述和完整保存,甚至很快就蹤影全無。因此,必須將科學(xué)數(shù)據(jù)的管理作為科研管理的重要環(huán)節(jié)。自2011年,NSF提出數(shù)據(jù)管理與共享要求[8],要求項目申請者必須提出數(shù)據(jù)管理與共享計劃,作為項目審查內(nèi)容之一。英國經(jīng)濟(jì)與社會科學(xué)研究理事會在2010年制定了數(shù)據(jù)管理政策[9],要求申請者說明項目數(shù)據(jù)的質(zhì)量控制、共享與保存、知識產(chǎn)權(quán)管理等,并由英國政府資助數(shù)據(jù)管理中心(Data Curation Center)[10]來系統(tǒng)地研究和提出科學(xué)數(shù)據(jù)管理的政策、指南和最佳實踐。
第二是科學(xué)數(shù)據(jù)的互操作[11]。我們現(xiàn)在有太多的科學(xué)數(shù)據(jù)格式,甚至在同一領(lǐng)域中對同一類數(shù)據(jù),也因為種種原因有若干不同的數(shù)據(jù)格式;但我們對科學(xué)數(shù)據(jù)的描述又往往缺乏細(xì)致的元數(shù)據(jù),尤其是對科學(xué)數(shù)據(jù)采集、處理、轉(zhuǎn)換、轉(zhuǎn)移過程,幾乎沒有可靠的元數(shù)據(jù)進(jìn)行描述,對科學(xué)數(shù)據(jù)的權(quán)屬、權(quán)利轉(zhuǎn)讓、管理要求、使用許可等就更缺乏規(guī)范的計算機(jī)可讀的元數(shù)據(jù);對于數(shù)據(jù)單元和數(shù)據(jù)集的標(biāo)識和引用,缺乏廣泛認(rèn)可和可互操作的唯一標(biāo)識符體系和引用規(guī)范;對于科學(xué)數(shù)據(jù)的各種復(fù)雜使用的規(guī)范的規(guī)則才開始建設(shè)……。要實現(xiàn)第四范式的潛力,上述障礙必須打破?!犊茖W(xué)》雜志2012年刊文[12],提出健全支持科學(xué)數(shù)據(jù)廣泛共享和利用的開放標(biāo)準(zhǔn)體系;英國聯(lián)合信息系統(tǒng)委員會要求重建數(shù)據(jù)驅(qū)動的基礎(chǔ)設(shè)施體系[13],支持?jǐn)?shù)據(jù)的可靠保存、交換和利用;有關(guān)科研團(tuán)體提出了開放數(shù)據(jù)協(xié)議[14],希望提供科學(xué)數(shù)據(jù)庫的開放檢索標(biāo)準(zhǔn)接口;CODATA專門建立了數(shù)據(jù)引用標(biāo)準(zhǔn)和實踐工作組[15],希望建立數(shù)據(jù)集標(biāo)識和引用的公認(rèn)規(guī)則。
第三是科學(xué)數(shù)據(jù)本身及其共享的權(quán)益管理??茖W(xué)數(shù)據(jù)的權(quán)益管理涉及兩個問題,一是科技界和社會對科學(xué)數(shù)據(jù)的獲取、使用和保存的權(quán)利。OECD早在2007年就發(fā)布了《關(guān)于公共資助研究獲得科學(xué)數(shù)據(jù)的開放獲取的原則與指南》[16],指出多數(shù)由公共資金資助的科學(xué)研究,應(yīng)促進(jìn)整個科技界、企業(yè)和公眾對其數(shù)據(jù)的獲?。挥始覍W(xué)會2012年發(fā)表了《科學(xué)是一個開放的事業(yè)》報告[17],提出科學(xué)結(jié)果的可靠審查、重復(fù)驗證、可靠利用、擴(kuò)展應(yīng)用等都依賴科學(xué)數(shù)據(jù)的開放獲取。美國白宮2012年連續(xù)推出數(shù)據(jù)開放利用計劃,支持企業(yè)和社會創(chuàng)新[18]。但是,科學(xué)數(shù)據(jù)又是通過大量投入和復(fù)雜過程才獲得的,有時甚至是長期工作積累起來的重要科研成果,涉及到研究者和投資者在科技競爭、經(jīng)濟(jì)利用、長期研究需要等方面的利益,可能還涉及到隱私和保密問題,涉及到誰有權(quán)利決定在什么范圍以什么形式共享和使用數(shù)據(jù)。另一個常被遺忘的問題是,數(shù)據(jù)采集者、處理者、保存維護(hù)者是否在科學(xué)論文和科研評價中得到認(rèn)可和激勵。在前述OECD和英國皇家學(xué)會的報告中,對如何保護(hù)公共利益和保護(hù)研究者利益提出了原則性的規(guī)則,NSF和英國研究理事會等已提出了科學(xué)數(shù)據(jù)管理與共享的原則和規(guī)則,歐盟等也在組織對科學(xué)數(shù)據(jù)的著作權(quán)和使用權(quán)的研究。人們還提出開放數(shù)據(jù)共用許可[19]的建議,借鑒創(chuàng)作共用協(xié)議(Creative Commons Licenses)提出了一系列可采用的規(guī)范權(quán)益管理協(xié)議。美國科學(xué)院召開研討會討論科學(xué)數(shù)據(jù)的貢獻(xiàn)形式和署名機(jī)制[20]。其實,國際科學(xué)出版規(guī)范從來就要求,將在研究項目的數(shù)據(jù)采集和處理中做出實質(zhì)貢獻(xiàn)者作為共同作者,而且《自然》、《科學(xué)》等著名期刊已將研究項目專門負(fù)責(zé)采集、處理、分析數(shù)據(jù)的人員作為作者,并在作者貢獻(xiàn)(Author contribution)中予以說明。當(dāng)然,如何承認(rèn)、評價和激勵數(shù)據(jù)長期監(jiān)護(hù)和公共數(shù)據(jù)服務(wù),仍是一個常被忽視的問題。
第四是數(shù)據(jù)素養(yǎng)(Data Literacy)問題。在數(shù)據(jù)密集型科學(xué)發(fā)現(xiàn)時代,要能可靠和有效地設(shè)計數(shù)據(jù)采集、管理和共享計劃,要掌握好數(shù)據(jù)采集、處理、轉(zhuǎn)換、傳播、保存等的方法、政策與工具,顯然是個嚴(yán)峻的挑戰(zhàn)?!豆鹕虡I(yè)評論》2012年發(fā)文指出[21],僅僅有好的數(shù)據(jù)不一定就導(dǎo)致好的決策。多數(shù)人或者對數(shù)據(jù)盲目信任,或者習(xí)慣性忽略數(shù)據(jù)及其構(gòu)成的證據(jù)鏈,只有少數(shù)“知情批判主義者”(informed skeptics)才有可能充分受益于大數(shù)據(jù)的潛力。英國《衛(wèi)報》甚至對Wired雜志提出的大數(shù)據(jù)導(dǎo)致“理論的終結(jié)”提出質(zhì)疑[22],認(rèn)為僅僅依靠數(shù)據(jù)還不能幫助我們深刻理解自然和社會現(xiàn)象的本質(zhì)規(guī)律,而且仍嚴(yán)重存在的數(shù)字鴻溝、不同人群的行為習(xí)慣、不同領(lǐng)域或國家的信息習(xí)慣與政策等等都會扭曲數(shù)據(jù)。不過,無論我們相信還是反對“理論的終結(jié)”,要在大數(shù)據(jù)時代可靠地開展科學(xué)研究,必須具備可靠的數(shù)據(jù)素養(yǎng)。歐盟委員會聯(lián)合研究中心對數(shù)字素養(yǎng)進(jìn)行了分析[23],認(rèn)為其覆蓋了技術(shù)、工具、媒介、內(nèi)容創(chuàng)作、知識管理、社交網(wǎng)絡(luò)、對信息與知識的批判性認(rèn)知、溝通、協(xié)作、法律等方面的了解和能力。這雖然不是直接針對數(shù)據(jù)素養(yǎng),但它所揭示的技能與知識的廣度顯然提示我們要重視數(shù)據(jù)素養(yǎng),并將其作為科研素養(yǎng)和科學(xué)教育的有機(jī)組成部分?!豆鹕虡I(yè)評論》甚至提出,數(shù)據(jù)科學(xué)家將擁有21世紀(jì)“最性感”的工作[24],因為他們將是實現(xiàn)大數(shù)據(jù)和第四范式潛力的關(guān)鍵,但培養(yǎng)足夠的和足夠水平的數(shù)據(jù)科學(xué)家(或者數(shù)據(jù)圖書館員)并不斷激勵和支持他們,也是一個重大的挑戰(zhàn)。
感謝《第四范式》讓我們看到了科學(xué)發(fā)現(xiàn)和社會進(jìn)步的巨大機(jī)遇,而且科學(xué)革命還在提速,大數(shù)據(jù)及其革命化影響還在深化。我們也充分意識到必須融匯來自科技領(lǐng)域、計算機(jī)與網(wǎng)絡(luò)、圖書館與知識管理等各方面的力量協(xié)同創(chuàng)新,突破面臨的重要障礙,才能抓住機(jī)遇、乘風(fēng)而上,讓第四范式成為普遍而成功的科學(xué)春天。
1 The End of Theory:The Data Deluge Makes the Scientific Method Obsolete.
2 Chris Anderson,http://www.wired.com/science/discoveries/magazine/16-07/pb_theory Sustainable Digital Data Preservation and Access Network Partners(DataNet)http://www.nsf.gov/funding/ pgm_summ.jsp?pims_id=503141.
3 NSF.Cluster Exploratory CluE 2008.http://www.nsf.gov/pubs/ 2008/nsf08560/nsf08560.htm.
4 Martien Ouwens.The Petabyte Age:More Isn't Just More—More Is Different http://www.ncg.knaw.nl/Studiedagen/09 PointClouds/presentations/PointCloud_15_MartienOuwens.pdf.
5 Obama.Administration Unveils"Big Data"Initiative:Announces $200 Million in New R&D Investments.March 29,2012.http:// www.whitehouse.gov/sites/default/files/microsites/ostp/big_ data_press_release_final_2.pdf.
6 Riding the Wave:How Europe can gain from the rising tide of scientific data.2010.http://cordis.europa.eu/fp7/ict/einfrastructure/docs/hlg-sdi-report.pdf.
7 Christine L Borgman.The conundrum of sharing research data. Journal of the American Society for Information Science and Technology,2012,63(6):1 059-1 078.
8 NSF.Data management plan requirements(2011)http://www.nsf. gov/bfa/dias/policy/dmp.jsp.
9 ESRC Research Data Policy,September 2010.http://www.esrc. ac.uk/_images/Research_Data_Policy_2010_tcm8-4595.pdf. 10 Data Curation Center.http://www.dcc.ac.uk/.
11 Pasquale Pagano.Data Interoperability.GRDI 2020 Conference. October,2011.http://www.grdi2020.eu/Repository/FileScaricati/ c4fb6ab0-d83b-49ae-ab14-6d8030fc2422.pdf.
12 Haak L L et al.Standards and Infrastructure for Innovation Data Exchange.Science,2012,338:(6 104):196-197.
13 Max Hammond.Preparing for Data-driven Infrastructure.JISC Observatory TechWatch Report.September 2012.http://observatory.jisc.ac.uk/docs/data-driven-infrastructure.pdf.
14 Open Data Protocol.http://www.odata.org/.
15 CODATA.Data Citation Standards and Practices Task Group.http://www.codata.org/taskgroups/ TGdatacitation/.
16 OECD.Principles and Guidelines for Access to Research Data from Public Funding.2007.http://www.oecd.org/ science/scienceandtechnologypolicy/38500813.pdf.
17 The Royal Society.The Science as an open enterprise.21 June 2012.http://royalsociety.org/policy/projects/sciencepublic-enterprise/report/.
18 White House Fueling American Entrepreneurship With Open Data http://www.whitehouse.gov/blog/2012/10/ 03/fueling-american-entrepreneurship-open-data.
19 Open Data Commons.Legal tools for open data.http:// opendatacommons.org/.
20 The Board on Research Data and Information.National Academies of Science.For Attribution:Developing Data Attribution and Citation Practices and Standards,2011. http://sites.nationalacademies.org/PGA/brdi/PGA_ 064019.
21 Good Data Won't Guarantee Good Decisions.by Shvetank Shah,Andrew Horne,and Jaime Capellá.Harvard Business Review.April 2012.
22 Mark Graham.Big data and the end of theory?The Guardian.March 9,2012.http://www.guardian.co.uk/ news/datablog/2012/mar/09/big-data-theory.
23 Joint Research Contre.Digital Competence in Practice: An Analysis of Frameworks.http://ftp.jrc.es/EURdoc/ JRC68116.pdf.
24 Thomas H Davenport and Patil D J.Data Scientist:The Sexiest Job of the 21st Century.Harvard Business Review,October,2012.
梁娜中科院國家科學(xué)圖書館業(yè)務(wù)處項目主管,博士。分別于2001、2004年獲四川大學(xué)管理學(xué)學(xué)士、碩士學(xué)位,2007年獲中科院管理博士學(xué)位。多年從事數(shù)字圖書館、標(biāo)準(zhǔn)規(guī)范等方面的研究,發(fā)表論文10余篇,參與專著3本。E-mail:liangna@mail.las.ac.cn
曾燕中科院國家科學(xué)圖書館副研究館員、業(yè)務(wù)處副處長。1994年獲武漢大學(xué)圖書情報學(xué)院文學(xué)學(xué)士學(xué)位,2003年獲中科院研究生院管理學(xué)碩士學(xué)位。多年從事文獻(xiàn)資源建設(shè)、文摘/索引數(shù)據(jù)庫建設(shè),發(fā)表論文10余篇。E-mail:zengy@mail.las.ac.cn
Promote Data-intensive Scientific Discovery,Enhance Scientific and Technological
Innovation Capability:New Model,New Method,and New Challenges Comments on“The Fourth Paradigm:Data-intensive Scientific Discovery”
Liang Na,Zeng Yan
(National Science Library,Chinese Academy of Sciences,Beijing 100190,China)
The mass data of scientific research is increasingly becoming a powerful tool of scientific research and knowledge base.Starting from the book“The Fourth Paradigm:Data-intensive Scientific Discovery”,this paper illustrates the vivid research activities based on big data in the fields of Earth and environmental science, life and health sciences,digital information infrastructure and digitization of academic information exchange, reveals the models and new methods of the data-intensive scientific discovery paradigm.Finally,the paper presents the challenges of the fourth paradigm from the scientific data management,interoperability,data rights management,and data literacy.
The fourth paradigm,scientific data,data management,knowledge service
10.3969/j.issn.1000-3045.2013.01.011
*修改稿收到日期:2012年11月2日