白云樸 李 果
(1.南京郵電大學(xué)管理學(xué)院 南京 210093;2.南京航空航天大學(xué)經(jīng)濟(jì)與管理學(xué)院 南京 211106)
如今科學(xué)數(shù)據(jù)開放共享已成為世界各國推進(jìn)科技創(chuàng)新、提高國家核心競爭力的重要舉措。已有文獻(xiàn)從多學(xué)科視角對科學(xué)數(shù)據(jù)共享研究領(lǐng)域展開了大量系統(tǒng)的研究,主要集中于科學(xué)數(shù)據(jù)共享的影響因素[1-2]、共享機(jī)制與模式[3-4]、共享政策[5-6]、共享中的數(shù)據(jù)治理和管理[7-8]等方面。隨著科學(xué)數(shù)據(jù)共享重要性的日益凸顯,相關(guān)研究文獻(xiàn)爆發(fā)式增長,少部分學(xué)者對當(dāng)前科學(xué)數(shù)據(jù)共享研究領(lǐng)域的相關(guān)文獻(xiàn)進(jìn)行了系統(tǒng)梳理,如:張靜蓓等(2014)從制度因素、技術(shù)因素與個(gè)人因素3個(gè)方面對國外科學(xué)數(shù)據(jù)共享影響因素的相關(guān)文獻(xiàn)進(jìn)行梳理和總結(jié)[9]。黃如花和邱春艷(2013)從科學(xué)數(shù)據(jù)共享的動(dòng)力和障礙、共享帶來的實(shí)質(zhì)性影響、不同主體的認(rèn)知態(tài)度與責(zé)任、相關(guān)政策法規(guī)等方面綜述了國外科學(xué)數(shù)據(jù)共享研究的現(xiàn)狀[10]。馬慧萍(2020)利用文獻(xiàn)計(jì)量分析方法對近10年國內(nèi)圖書館科學(xué)數(shù)據(jù)共享的研究成果進(jìn)行歸納與總結(jié)[11]。總體來說,國內(nèi)對科學(xué)數(shù)據(jù)共享文獻(xiàn)進(jìn)行梳理的研究多以定性分析和主觀綜述為主,在文獻(xiàn)梳理的系統(tǒng)性和客觀性方面有所不足,而且涵蓋內(nèi)容不夠全面。此外,現(xiàn)有為數(shù)不多的定量分析文獻(xiàn)以關(guān)鍵詞共現(xiàn)研究為主,對研究路徑演進(jìn)和文獻(xiàn)內(nèi)容分析有所欠缺。如今,科學(xué)數(shù)據(jù)共享領(lǐng)域的研究文獻(xiàn)時(shí)空范圍不斷擴(kuò)大,研究主題也更加豐富,鑒于此,本文采用文獻(xiàn)計(jì)量學(xué)的研究方法,對科學(xué)數(shù)據(jù)共享領(lǐng)域研究文獻(xiàn)進(jìn)行系統(tǒng)、科學(xué)的梳理,挖掘該研究領(lǐng)域的知識基礎(chǔ),探索該領(lǐng)域的研究熱點(diǎn),厘清科學(xué)數(shù)據(jù)共享研究的演化路徑及其階段特征,為促進(jìn)國內(nèi)相關(guān)理論研究與實(shí)踐發(fā)展提供參考。
本研究數(shù)據(jù)來源于2001—2020年期間Web of Science核心數(shù)據(jù)庫的社會科學(xué)索引,以TS=“scientific data sharing”為檢索關(guān)鍵詞,文獻(xiàn)類型為“Article and Review”,語種為“English”,一共檢索到4567篇,通過剔除條件不符的(包括會議摘要、會議論文等)文獻(xiàn),最終篩選得到有效文獻(xiàn)3 816篇。
本研究運(yùn)用科學(xué)知識圖譜法,科學(xué)知識圖譜法是將某研究領(lǐng)域的科學(xué)知識進(jìn)行可視化從而展示某研究領(lǐng)域的知識基礎(chǔ)、研究熱點(diǎn)、演化路徑的一種分析方法。通過使用Citespace軟件對科學(xué)數(shù)據(jù)共享相關(guān)文獻(xiàn)進(jìn)行關(guān)鍵詞共現(xiàn)和文獻(xiàn)共被引分析,以探索科學(xué)數(shù)據(jù)共享研究領(lǐng)域的文獻(xiàn)產(chǎn)出情況、研究熱點(diǎn)、知識基礎(chǔ)以及研究演化歷程。
論文發(fā)文量反映了學(xué)者對于科學(xué)數(shù)據(jù)共享研究領(lǐng)域關(guān)注的變化。為了解全球科學(xué)數(shù)據(jù)共享研究領(lǐng)域的發(fā)文量變化趨勢,以時(shí)間為橫軸,以每年發(fā)表論文的篇數(shù)為縱軸,繪制出近20年的發(fā)文量變化趨勢圖(圖1)。從年度論文發(fā)表數(shù)量來看,2001—2020年期間,科學(xué)數(shù)據(jù)共享研究領(lǐng)域發(fā)文量總體呈上升趨勢。由于科學(xué)數(shù)據(jù)的開放共享離不開政策的支持和推動(dòng),因此,本文按照文獻(xiàn)發(fā)表的年度變化趨勢和世界主要國家的數(shù)據(jù)開放共享政策制訂的關(guān)鍵事件,將近20年科學(xué)數(shù)據(jù)共享研究分為三個(gè)時(shí)期,即“起步探索期”、“快速發(fā)展期”和“高速爆發(fā)期”。
圖1 年文獻(xiàn)發(fā)表數(shù)量
“起步探索期”是2001—2008年。此階段國內(nèi)外科學(xué)數(shù)據(jù)開放共享處于起步階段,發(fā)文量雖然較少,但呈逐年上升趨勢。自1991年7月美國總統(tǒng)行政辦公廳科技政策辦公室發(fā)布《全球變化研究數(shù)據(jù)管理政策聲明》要求實(shí)行“完全與開放”的科學(xué)數(shù)據(jù)共享以來,學(xué)術(shù)界和科學(xué)界逐漸認(rèn)識到了科學(xué)數(shù)據(jù)共享對科學(xué)研究的重要性,世界各國政府、資助機(jī)構(gòu)和出版機(jī)構(gòu)也開始積極出臺一系列推動(dòng)數(shù)據(jù)開放共享的政策。2001年,我國提出了“實(shí)施科學(xué)數(shù)據(jù)共享工程”的建議,并于2002年11月正式啟動(dòng)“科學(xué)數(shù)據(jù)共享工程”[12]。2003年11月,歐盟議會最終通過了《公共部門信息再利用指令》;2006年12月,經(jīng)合組織(OECD)頒布了《OECD獲取公共資助的研究數(shù)據(jù)的原則與指南》,開啟了國際組織科學(xué)數(shù)據(jù)開放共享政策制定的先例。
“快速發(fā)展期”是2009-2012年。2009年是一個(gè)重要的轉(zhuǎn)折點(diǎn),隨著數(shù)據(jù)開放獲取的推進(jìn)和科學(xué)數(shù)據(jù)潛在價(jià)值的挖掘和重視,科學(xué)數(shù)據(jù)共享相關(guān)文獻(xiàn)發(fā)文量突破一百。同時(shí),美國總統(tǒng)奧巴馬于1月簽署了《開放透明政府備忘錄》,要求建立更加開放透明、參與合作的政府,體現(xiàn)了美國政府對開放數(shù)據(jù)的重視。同年,美國政府?dāng)?shù)據(jù)門戶網(wǎng)站Data.gov于5月上線,美國行政管理和預(yù)算局向白宮提交的《開放政府令》于12月獲得批準(zhǔn),“開放政府?dāng)?shù)據(jù)”(Open Government Data,OGD)運(yùn)動(dòng)在全球范圍內(nèi)迅速興起。此后,2011年9月20日,巴西、印度尼西亞、墨西哥、挪威、菲律賓、南非、英國、美國等8個(gè)國家聯(lián)合簽署《開放數(shù)據(jù)聲明》,進(jìn)一步推動(dòng)了“開放數(shù)據(jù)”運(yùn)動(dòng)的快速發(fā)展。
“高速爆發(fā)期”是2013-2020年。隨著國際“開放數(shù)據(jù)”運(yùn)動(dòng)的迅猛發(fā)展,學(xué)術(shù)界對科學(xué)數(shù)據(jù)共享研究日益活躍,每年的文獻(xiàn)發(fā)表數(shù)量持續(xù)攀升。2013年也是一個(gè)重要的轉(zhuǎn)折點(diǎn)??茖W(xué)數(shù)據(jù)共享相關(guān)文獻(xiàn)發(fā)文量突破兩百。同年6月,八國集團(tuán)首腦在北愛爾蘭峰會上簽署了《G8開放數(shù)據(jù)憲章》(G8 Open Data Charter),法國、美國、英國、德國、日本、意大利、加拿大和俄羅斯承諾,在2013年年底前,制定開放數(shù)據(jù)行動(dòng)方案,此舉成為開放數(shù)據(jù)運(yùn)動(dòng)的標(biāo)志性事件[13]。2013年5月,美國總統(tǒng)奧巴馬發(fā)布了具有歷史意義的《開放數(shù)據(jù)并讓機(jī)器可讀》(Making Open and Machine Readable the New Default for Government Information)行政令,具有法規(guī)性質(zhì)。此外,美國白宮建立了一個(gè)名為開放數(shù)據(jù)項(xiàng)目(Project Open Data,POD)的開源項(xiàng)目。自從2013年以來,越來越多的國家政府、科研資助機(jī)構(gòu)和出版期刊等利益相關(guān)者機(jī)構(gòu)等開始大量密集的頒布科學(xué)數(shù)據(jù)共享政策來促進(jìn)科學(xué)數(shù)據(jù)的開放共享。比如國家層面:美國政府于2014年頒布了《美國開放數(shù)據(jù)行動(dòng)計(jì)劃》(U.S. Open Data Action Plan);英國于2016年制定了《英國開放數(shù)據(jù)行動(dòng)計(jì)劃》(Concordat on Open Research Data);中國國務(wù)院辦公廳于2018年4月頒布《科學(xué)數(shù)據(jù)管理辦法》,這是我國確立大數(shù)據(jù)國家戰(zhàn)略以來,首個(gè)從國家層面制定的明確以推動(dòng)科學(xué)數(shù)據(jù)管理與開放共享的政策??蒲袡C(jī)構(gòu)和出版期刊層面:Nature期刊將“開放獲取S計(jì)劃”列入“2019年十大科學(xué)事件”;PLOS ONE于2014年發(fā)布了新的開放數(shù)據(jù)政策,要求作者在提交論文的同時(shí)提交支持論文結(jié)論的數(shù)據(jù)。資助機(jī)構(gòu)層面:歐洲研究理事會(ERC)在2017年發(fā)布《科學(xué)出版物與科學(xué)數(shù)據(jù)開放獲取實(shí)施指南》;美國國家科學(xué)基金會(NSF)在2015年發(fā)布《NSF公共獲取計(jì)劃》;歐盟委員會(EC)在2016年發(fā)布《2020計(jì)劃框架下的FAIR數(shù)據(jù)管理指南》等政策。
通過對2000-2020年期間科學(xué)數(shù)據(jù)共享研究熱點(diǎn)進(jìn)一步分析,提取top15的高頻關(guān)鍵詞:data sharing(數(shù)據(jù)共享)、data management(數(shù)據(jù)管理)、system(系統(tǒng))、framework(框架)、big data(大數(shù)據(jù))、information(信息)、knowledge(知識)、database(數(shù)據(jù)庫)、challenge(挑戰(zhàn))、citizen science(公民科學(xué))、health care(健康醫(yī)療)、network(網(wǎng)絡(luò))、ecology(生態(tài)學(xué))、open science(開放科學(xué))、technology(技術(shù))等(見表1),這些關(guān)鍵詞不是孤立存在和發(fā)展的,而是相互聯(lián)系,相互影響,共同反映了國外科學(xué)數(shù)據(jù)共享的兩大研究熱點(diǎn),即數(shù)據(jù)共享的技術(shù)研究和行業(yè)應(yīng)用研究,其中關(guān)鍵詞“system”“framework”“database”“technology”“network”反映了科學(xué)數(shù)據(jù)共享的技術(shù)研究,“management”“information”“knowledge”“ecology”“health care”反映了數(shù)據(jù)共享的應(yīng)用研究。
表1 國外科學(xué)數(shù)據(jù)共享研究領(lǐng)域的高頻關(guān)鍵詞列表(TOP15)
自開放數(shù)據(jù)運(yùn)動(dòng)在全世界范圍內(nèi)興起后,眾多學(xué)者就開始探討如何開發(fā)技術(shù)以支持科學(xué)數(shù)據(jù)的安全共享。迄今為止,支持科學(xué)數(shù)據(jù)共享的基礎(chǔ)技術(shù)主要有兩種。一是語義網(wǎng)技術(shù)。語義網(wǎng)技術(shù)提供了一種數(shù)據(jù)集成和共享的方法,可用于廣泛分布在網(wǎng)絡(luò)上的各種數(shù)據(jù)資源,這種方法特別適用于從公共領(lǐng)域的大量數(shù)據(jù)中獲利的科學(xué)領(lǐng)域。Zhang、Li和Zhao(2007)提出利用地理空間語義網(wǎng)技術(shù)解決地理空間數(shù)據(jù)共享問題[14]。Machado等人(2015)提出將語義網(wǎng)技術(shù)運(yùn)用到轉(zhuǎn)化醫(yī)學(xué)中,形成一個(gè)共享數(shù)據(jù)的解決方案網(wǎng)絡(luò),以便將新的科研成果更快地應(yīng)用于臨床實(shí)踐中[15]。二是區(qū)塊鏈技術(shù)。區(qū)塊鏈作為最廣泛使用的分布式賬本技術(shù)之一,能夠降低數(shù)據(jù)泄露的風(fēng)險(xiǎn),近年來被廣泛應(yīng)用于金融領(lǐng)域和醫(yī)療健康領(lǐng)域。Zheng等人(2019)提出將區(qū)塊鏈技術(shù)與物聯(lián)網(wǎng)技術(shù)相結(jié)合建立健康數(shù)據(jù)共享系統(tǒng),以解決醫(yī)療健康數(shù)據(jù)共享中的數(shù)據(jù)安全和隱私問題[16]。Sultana等人(2020)基于零信任原則和區(qū)塊鏈技術(shù)提出了一種防止醫(yī)療健康數(shù)據(jù)泄漏的安全醫(yī)療圖像共享系統(tǒng),提高了醫(yī)療衛(wèi)生數(shù)據(jù)傳輸?shù)陌踩訹17]。同時(shí),由于區(qū)塊鏈技術(shù)也有一些缺點(diǎn),比如,固有的交易速率限制、交易費(fèi)用高、算力門檻高等,使它不能用作物聯(lián)網(wǎng)數(shù)據(jù)共享的通用平臺。
通過對科學(xué)數(shù)據(jù)共享研究的相關(guān)文獻(xiàn)進(jìn)行領(lǐng)域共現(xiàn)分析,得到領(lǐng)域共現(xiàn)圖譜(見圖2),發(fā)現(xiàn)科學(xué)數(shù)據(jù)共享涵蓋諸多學(xué)科,其中主要包括計(jì)算機(jī)科學(xué)、生態(tài)環(huán)境科學(xué)、生物科學(xué)和健康醫(yī)療科學(xué)等。
圖2 領(lǐng)域共現(xiàn)圖譜
a.計(jì)算機(jī)科學(xué)領(lǐng)域。計(jì)算機(jī)科學(xué)作為實(shí)現(xiàn)數(shù)據(jù)共享的技術(shù)基礎(chǔ),被廣泛的應(yīng)用于構(gòu)建科學(xué)數(shù)據(jù)共享基礎(chǔ)設(shè)施中。Schuchardt等人(2007)提出了基集交換(BSE)體系結(jié)構(gòu),BSE提供一個(gè)共享的、網(wǎng)絡(luò)可訪問的環(huán)境,用以跨組織管理數(shù)據(jù)和在用戶社區(qū)之間共享知識[18]。Shifeng Fang等人(2014)提出了一種將物聯(lián)網(wǎng)、云計(jì)算、地理信息學(xué)(遙感、地理信息系統(tǒng)、全球定位系統(tǒng))和環(huán)境監(jiān)測與管理電子科學(xué)相結(jié)合的新型信息集成系統(tǒng),用于地理環(huán)境信息和數(shù)據(jù)的采集、存儲、共享等[19]。美國學(xué)者Paul A.Harris等人(2019)為采用研究電子數(shù)據(jù)集數(shù)據(jù)管理軟件(REDCap)的任何學(xué)術(shù)、非盈利機(jī)構(gòu)或政府機(jī)構(gòu)創(chuàng)建了更廣泛的數(shù)據(jù)共享和支持模型,REDCap作為一個(gè)安全可靠的web應(yīng)用程序,用于構(gòu)建和管理在線調(diào)查和數(shù)據(jù)庫,旨在支持研究機(jī)構(gòu)之間的研究數(shù)據(jù)共享[20]。
b.生態(tài)環(huán)境科學(xué)領(lǐng)域。隨著環(huán)境觀測系統(tǒng)和環(huán)境傳感器網(wǎng)絡(luò)用于實(shí)地研究和監(jiān)測的迅速增長,以及公民科學(xué)項(xiàng)目的不斷推進(jìn),生態(tài)學(xué)和環(huán)境科學(xué)進(jìn)入一個(gè)數(shù)據(jù)密集型科學(xué)時(shí)代。生態(tài)環(huán)境學(xué)家越來越多地生成和共享大量的數(shù)據(jù),這些數(shù)據(jù)不僅可用于學(xué)科領(lǐng)域內(nèi)的科學(xué)研究,如元分析和研究再現(xiàn)性等,還被用于學(xué)科研究范圍之外,包括決策、自然資源管理、教育等。Michener(2015)基于生態(tài)學(xué)數(shù)據(jù)共享的歷史,研究生態(tài)數(shù)據(jù)共享的社會障礙,資助者、期刊出版商以及網(wǎng)絡(luò)基礎(chǔ)設(shè)施在數(shù)據(jù)共享中的作用,并總結(jié)了一套共享生態(tài)數(shù)據(jù)的最佳實(shí)踐[21]。Kervin等人(2014)通過研究發(fā)現(xiàn)雖然大多數(shù)環(huán)境和生態(tài)科學(xué)家愿意共享他們的數(shù)據(jù),但他們將面臨數(shù)據(jù)管理經(jīng)驗(yàn)不足,缺乏有效和易于使用的元數(shù)據(jù)管理工具、數(shù)據(jù)管理的機(jī)構(gòu)支持和資源較少等一系列挑戰(zhàn)[22]。Hampton(2015)認(rèn)為思維方式的轉(zhuǎn)變是數(shù)據(jù)共享的基礎(chǔ),比如考慮數(shù)據(jù)管理而不是數(shù)據(jù)所有權(quán),在數(shù)據(jù)生命周期和項(xiàng)目持續(xù)時(shí)間內(nèi)保持透明度,以及愿意在公開場合接受批評等[23]。
c.生物科學(xué)領(lǐng)域。目前,全球生物數(shù)據(jù)分散在相互獨(dú)立的不同數(shù)據(jù)庫中,生物科學(xué)界正通過一些科研項(xiàng)目致力于實(shí)現(xiàn)不同數(shù)據(jù)庫之間的共享。數(shù)據(jù)共享和再利用在現(xiàn)代生物多樣性研究中尤為重要。Goddard等人(2011)通過回顧生物多樣性數(shù)據(jù)存儲的現(xiàn)狀,討論了影響數(shù)據(jù)共享的技術(shù)和社會障礙[24]。Candela等人(2015)提出用于支撐生物數(shù)據(jù)共享的基礎(chǔ)設(shè)施D4Science,該設(shè)施可用于共享實(shí)踐的兩個(gè)關(guān)鍵階段,即數(shù)據(jù)采集和數(shù)據(jù)準(zhǔn)備,研究人員可以直接使用該設(shè)施共享生物數(shù)據(jù)[25]。Kim和Burns(2016)利用制度理論和計(jì)劃行為理論模型研究制度環(huán)境(資助機(jī)構(gòu)、期刊出版商等)對生物科學(xué)家共享規(guī)范、行為和態(tài)度的影響程度[26]。
d.健康醫(yī)療領(lǐng)域。物聯(lián)網(wǎng)的快速發(fā)展正在推動(dòng)醫(yī)療保健從數(shù)字化向智能化發(fā)展。由智能設(shè)備產(chǎn)生的大量健康數(shù)據(jù),大多分散在不同的醫(yī)療保健系統(tǒng)和公共或私人數(shù)據(jù)庫中,安全地共享這些健康數(shù)據(jù),既可以使所有利益相關(guān)者受益,還可改善公共衛(wèi)生保健系統(tǒng)。Xueping Liang等人(2017)提出了一個(gè)以用戶為中心的健康數(shù)據(jù)共享解決方案,該方案利用一個(gè)分散化的許可區(qū)塊鏈來保護(hù)隱私,并采用會員制度加強(qiáng)身份管理[27]。Rankin等人(2020)提出可以使用完全合成的數(shù)據(jù)替代真實(shí)數(shù)據(jù)進(jìn)行共享,合成數(shù)據(jù)是從真實(shí)數(shù)據(jù)中模擬出來的,通過使用真實(shí)數(shù)據(jù)的基本統(tǒng)計(jì)特性來生成具有相同統(tǒng)計(jì)特性的合成數(shù)據(jù)集,這能夠避免患者真實(shí)信息和敏感數(shù)據(jù)的泄露[28]。神經(jīng)影像學(xué)作為醫(yī)學(xué)的一個(gè)重要分支,其領(lǐng)域內(nèi)的數(shù)據(jù)共享近年來呈指數(shù)級遞增趨勢。Poline等人(2012)等人通過分析神經(jīng)影像數(shù)據(jù)共享的現(xiàn)狀、技術(shù)障礙和社會倫理障礙,指出未來神經(jīng)影像學(xué)的研究將取決于多種類型數(shù)據(jù)的整合,研究將傾向于知識管理,而不是數(shù)據(jù)管理[29]。
為獲取科學(xué)數(shù)據(jù)共享研究領(lǐng)域的知識基礎(chǔ)、研究前沿及其發(fā)展趨勢等有價(jià)值的信息,對文獻(xiàn)進(jìn)行共被引分析,形成科學(xué)數(shù)據(jù)共享研究演化圖譜(見圖3)。根據(jù)科學(xué)數(shù)據(jù)共享研究的三個(gè)發(fā)展階段(起步探索期、快速發(fā)展期、高速爆發(fā)期)劃分為三個(gè)相應(yīng)的知識群,然后分析每個(gè)知識群基礎(chǔ)知識網(wǎng)絡(luò)架構(gòu)的關(guān)鍵節(jié)點(diǎn)文獻(xiàn)、具有影響力的文獻(xiàn)及高頻關(guān)鍵詞,揭示該研究領(lǐng)域在近20年來的研究演化趨勢和每個(gè)階段特征。
通過對2001-2008年期間科學(xué)數(shù)據(jù)共享研究領(lǐng)域所發(fā)表文獻(xiàn)的參考文獻(xiàn)進(jìn)行文獻(xiàn)共被引分析,發(fā)現(xiàn)此階段該研究領(lǐng)域知識基礎(chǔ)網(wǎng)絡(luò)中一共有3篇關(guān)鍵的節(jié)點(diǎn)文獻(xiàn),這些節(jié)點(diǎn)文獻(xiàn)的中心度較高,被引頻次較多,是科學(xué)數(shù)據(jù)共享研究領(lǐng)域早期的奠基之作,如表2所示。1995年發(fā)表的《自然科學(xué)期刊的共享授權(quán)政策》(Mandating Sharing: Journal Policies in the Natural Science)探討了期刊出版商所出臺的各項(xiàng)數(shù)據(jù)共享政策,指出期刊在數(shù)據(jù)共享中發(fā)揮了“把關(guān)人”的作用[30]。1994年發(fā)表的題名為《從倫理、制度、法律和專業(yè)視角探究生物醫(yī)學(xué)和健康科學(xué)的統(tǒng)計(jì)數(shù)據(jù)共享》(Sharing Statistical Data in the Biomedical and Health Sciences: ethical, institutional, legal, and professional dimensions)的文獻(xiàn),該文基于國家統(tǒng)計(jì)委員會在1985年發(fā)布的一份關(guān)于共享研究數(shù)據(jù)的報(bào)告,從倫理、制度、法律和專業(yè)角度分析了生物醫(yī)學(xué)和健康科學(xué)中的研究數(shù)據(jù)共享[31]。這兩篇文章都研究的是制度環(huán)境對科學(xué)家共享數(shù)據(jù)的影響,是制度理論的應(yīng)用,這表明此階段數(shù)據(jù)共享研究理論部分受到了制度理論的影響。1988年發(fā)表的《科學(xué)家對數(shù)據(jù)共享的態(tài)度》(Scientists’ attitude toward Data sharing)就數(shù)據(jù)共享問題對來自不同領(lǐng)域的研究人員進(jìn)行調(diào)查,研究發(fā)現(xiàn)大部分研究人員表示他們的同事不愿意共享研究數(shù)據(jù),其原因眾多,并根據(jù)不同的研究領(lǐng)域有所不同[32]。通過研究態(tài)度來解釋科學(xué)家數(shù)據(jù)共享行為的合理性,是計(jì)劃行為理論的觀點(diǎn),這表明此階段的科學(xué)數(shù)據(jù)共享研究領(lǐng)域還受到了計(jì)劃行為理論的影響??傮w而言,通過對本階段科學(xué)數(shù)據(jù)共享研究領(lǐng)域的知識基礎(chǔ)共被引關(guān)鍵節(jié)點(diǎn)文獻(xiàn)分析,可以獲知此階段科學(xué)數(shù)據(jù)共享研究領(lǐng)域受到了制度理論和計(jì)劃行為理論的影響。
圖3 科學(xué)數(shù)據(jù)共享研究領(lǐng)域文獻(xiàn)共被引時(shí)區(qū)知識圖譜
表2 2001-2008年期間知識基礎(chǔ)共被引關(guān)鍵節(jié)點(diǎn)文獻(xiàn)(中心度大于0.1)
本階段數(shù)據(jù)共享研究領(lǐng)域一共發(fā)表了468篇相關(guān)文獻(xiàn),其中有6篇文獻(xiàn)在該領(lǐng)域具有較大的影響力,如表3所示?!禩averna: Lessons in Creating a Workflow Environment for the Life Sciences》介紹了一個(gè)用于生物學(xué)研究領(lǐng)域的科學(xué)工作流系統(tǒng)Taverna[33]。該文的引用頻次是326次(谷歌檢索被引頻次是992次),是本階段引用頻次最高的文獻(xiàn)?!禟nowledge Sharing Behavior of Physicians in Hospitals》首次基于理性行為理論和計(jì)劃行為理論探討影響醫(yī)院醫(yī)生知識共享行為的因素[34]。《Data withholding in Academic Genetics - Evidence from a National Survey》詳細(xì)、系統(tǒng)、定量地描述了遺傳學(xué)研究領(lǐng)域中的數(shù)據(jù)保留現(xiàn)象[35]?!禩he New Bioinformatics: Integrating Ecological Data from the Gene to the Biosphere》詳細(xì)描述了信息學(xué)框架,提出將信息學(xué)與自動(dòng)數(shù)據(jù)集成技術(shù)和科學(xué)工作流系統(tǒng)相結(jié)合應(yīng)用于生態(tài)學(xué)數(shù)據(jù)的收集和管理[36]?!禔 Taxonomy of Data Grids for Distributed Data Sharing, Management, and Processing》研究了科學(xué)數(shù)據(jù)共享模式數(shù)據(jù)網(wǎng)格概念特征,并將其與其他數(shù)據(jù)共享和分發(fā)模式進(jìn)行了比較[37]。《Sharing Neuroimaging Studies of Human Cognition》研究了功能磁共振成像數(shù)據(jù)的共享現(xiàn)狀和動(dòng)機(jī)等[38],引起了神經(jīng)影像學(xué)界的廣泛關(guān)注,也是本階段最具有影響力的文獻(xiàn)之一。
表3 2001-2009年期間發(fā)表的最具有影響力的6篇文獻(xiàn)(被引頻次大于100)
提取本階段科學(xué)數(shù)據(jù)共享研究領(lǐng)域出現(xiàn)的高頻關(guān)鍵詞,如表4所示。通過對高頻關(guān)鍵詞以及背后的文獻(xiàn)內(nèi)容進(jìn)行分析,發(fā)現(xiàn)此階段科學(xué)數(shù)據(jù)共享研究領(lǐng)域的研究熱點(diǎn)有:科學(xué)數(shù)據(jù)共享平臺尤其是科學(xué)數(shù)據(jù)庫的研究、科學(xué)數(shù)據(jù)共享技術(shù)研究和科學(xué)數(shù)據(jù)共享模式研究。其中科學(xué)數(shù)據(jù)共享平臺包括數(shù)據(jù)網(wǎng)格、對等網(wǎng)絡(luò)和分布式數(shù)據(jù)庫等,科學(xué)數(shù)據(jù)共享技術(shù)有數(shù)據(jù)網(wǎng)格技術(shù)、語義web技術(shù)等。
表4 2001-2008年期間發(fā)表文獻(xiàn)的高頻關(guān)鍵詞(Top10)
綜上所述,通過對本階段科學(xué)數(shù)據(jù)共享研究領(lǐng)域最具有影響力的文獻(xiàn)進(jìn)行分析和高頻關(guān)鍵詞挖掘,發(fā)現(xiàn)此階段學(xué)術(shù)界的研究熱點(diǎn)有科學(xué)工作流系統(tǒng)研究、科學(xué)數(shù)據(jù)共享平臺研究、科學(xué)數(shù)據(jù)共享技術(shù)和科學(xué)數(shù)據(jù)共享模式研究。此外,學(xué)科領(lǐng)域主要集中在生物信息學(xué)、神經(jīng)影像學(xué)和生態(tài)學(xué),這與生物學(xué)和醫(yī)學(xué)數(shù)據(jù)的暴增以及生態(tài)科學(xué)的學(xué)科屬性是分不開的。
通過對2009-2012年期間科學(xué)數(shù)據(jù)共享研究領(lǐng)域所發(fā)表的文獻(xiàn)進(jìn)行文獻(xiàn)共被引分析,得到本階段該研究領(lǐng)域知識基礎(chǔ)網(wǎng)絡(luò)中4篇關(guān)鍵的節(jié)點(diǎn)文獻(xiàn),如表5所示?!禖yberinfrastructure for E-science》研究了英國e-science項(xiàng)目中如何應(yīng)用網(wǎng)絡(luò)基礎(chǔ)結(jié)構(gòu)來實(shí)現(xiàn)科學(xué)家之間的協(xié)作式研究,共享信息和數(shù)據(jù)[39]。該文的被引頻次為11,中心度為0.16,是科學(xué)共享研究領(lǐng)域知識基礎(chǔ)網(wǎng)絡(luò)中最重要的一篇文獻(xiàn)?!禖yberinfrastructure: Empowering a “Third Way” in Biomedical Research》提出了信息基礎(chǔ)設(shè)施可以實(shí)現(xiàn)在虛擬社區(qū)中儲存、管理、訪問和共享生物醫(yī)學(xué)數(shù)據(jù)的文獻(xiàn)[40]?!禗ata Sharing in Genomics — re-shaping Scientific Practice》研究了當(dāng)前機(jī)構(gòu)(包括資助機(jī)構(gòu)和期刊)所采取的各種數(shù)據(jù)共享政策以及其對科學(xué)實(shí)踐的影響[41]。《Data Sharing by Scientists: Practices and Perceptions》通過調(diào)查研究了科學(xué)家數(shù)據(jù)共享的現(xiàn)狀,以及他們影響科學(xué)數(shù)據(jù)共享的因素[42]。通過分析這四篇關(guān)鍵節(jié)點(diǎn)文獻(xiàn),可以發(fā)現(xiàn)此階段科學(xué)數(shù)據(jù)共享研究領(lǐng)域受到了英國e-science計(jì)劃和虛擬組織理論的影響,其中e-science計(jì)劃是英國研究理事會科技辦公室主任約翰·泰勒(John Taylor)博士在2000年提出并宣布實(shí)施,是為了應(yīng)對當(dāng)時(shí)各學(xué)科研究領(lǐng)域所面臨問題的空前復(fù)雜化,利用新一代網(wǎng)絡(luò)技術(shù)和廣域分布式高性能計(jì)算環(huán)境建立的一種全新科學(xué)研究模式,即在信息化基礎(chǔ)設(shè)施支持下的科學(xué)研究活動(dòng)。
表5 2009-2012年期間知識基礎(chǔ)共被引關(guān)鍵節(jié)點(diǎn)文獻(xiàn)(中心度大于0.1)
在本階段科學(xué)數(shù)據(jù)共享研究領(lǐng)域一共發(fā)表了535篇文獻(xiàn),其中有6篇文獻(xiàn)在該領(lǐng)域最具影響力,如表6所示?!禩he Conundrum of Sharing Research Data》探討了當(dāng)前討論的熱點(diǎn)、“數(shù)據(jù)”本身存在的問題、支持?jǐn)?shù)據(jù)共享的政策措施、利益相關(guān)者的不同觀點(diǎn)以及研究數(shù)據(jù)的相關(guān)倫理和認(rèn)識論方面[43]。《The Global Index of Vegetation-Plot Databases (GIVD): a new resource for vegetation science》提出由于使用新的方法和信息技術(shù),使得個(gè)體研究人員和團(tuán)隊(duì)能夠收集前所未有的大量觀測數(shù)據(jù),科學(xué)的“長尾”變得更加數(shù)據(jù)密集[44]?!禩he Tension Between Data Sharing and the Protection of Privacy in Genomics Research》提出在基因組學(xué)研究中需要改進(jìn)現(xiàn)有的研究治理體系,使之既能保護(hù)研究參與者的個(gè)人隱私,又能確保有效的數(shù)據(jù)共享[45]。通過對科學(xué)數(shù)據(jù)共享研究領(lǐng)域最具有影響力的5篇文獻(xiàn)進(jìn)行分析,發(fā)現(xiàn)基因組學(xué)領(lǐng)域、神經(jīng)影像學(xué)領(lǐng)域是數(shù)據(jù)共享的先行者,學(xué)術(shù)界給予了充分的關(guān)注。此外,學(xué)術(shù)界的研究是基于阻礙數(shù)據(jù)共享的因素和激勵(lì)數(shù)據(jù)共享的政策展開。
表6 2009-2012年期間發(fā)表的最具有影響力的6篇文獻(xiàn)(被引用頻次大于100)
通過對2009-2012年期間科學(xué)數(shù)據(jù)共享領(lǐng)域出現(xiàn)的高頻關(guān)鍵詞及其背后的文獻(xiàn)內(nèi)容進(jìn)行分析,如表7所示。發(fā)現(xiàn)除傳統(tǒng)的關(guān)鍵詞外,該領(lǐng)域在本階段出現(xiàn)許多新的高頻關(guān)鍵詞,比如“Ecology”“Biodiversity”“Policy”“Impact”“Collaboration”等。高頻關(guān)鍵詞“Biodiversity”和“Ecology”的出現(xiàn),說明本階段學(xué)術(shù)界日益關(guān)注生物多樣性科學(xué)和生態(tài)學(xué)的數(shù)據(jù)共享問題。
表7 2009-2012年所發(fā)表文獻(xiàn)出現(xiàn)的高頻關(guān)鍵詞(Top10)
原因在于生物多樣性科學(xué)和生態(tài)學(xué)作為一門數(shù)據(jù)密集型科學(xué),需要解決的問題涵蓋了時(shí)間和空間尺度。
綜上所述,通過對本階段科學(xué)數(shù)據(jù)共享研究領(lǐng)域最具有影響力的文獻(xiàn)進(jìn)行分析和高頻關(guān)鍵詞挖掘,發(fā)現(xiàn)此階段學(xué)術(shù)界的研究熱點(diǎn)有科學(xué)數(shù)據(jù)共享政策、科學(xué)數(shù)據(jù)共享數(shù)據(jù)庫建設(shè)和科學(xué)數(shù)據(jù)共享模式。此外,學(xué)科領(lǐng)域主要集中在生物學(xué)、基因?qū)W、生態(tài)學(xué)領(lǐng)域。
通過對2013-2020年期間科學(xué)數(shù)據(jù)共享研究領(lǐng)域所發(fā)表的文獻(xiàn)進(jìn)行文獻(xiàn)共被引分析,得到本階段該研究領(lǐng)域知識基礎(chǔ)網(wǎng)絡(luò)中4篇最關(guān)鍵的節(jié)點(diǎn)文獻(xiàn),如表8所示。2012年所發(fā)表的《Ecoinformatics: Supporting Ecology as a Data-intensive Science》基于數(shù)據(jù)生命周期,提出了將生態(tài)信息學(xué)納入主流生態(tài)學(xué)研究中的觀點(diǎn)[46]。該文的被引頻次是35次,中心度是0.22,是此階段科學(xué)數(shù)據(jù)共享研究領(lǐng)域基礎(chǔ)知識網(wǎng)絡(luò)中的重要節(jié)點(diǎn)文獻(xiàn)。2011年所發(fā)表的題名為《Data Sharing by Scientists: Practices and Perceptions》[47],該文被引用81次,在谷歌搜索頻次高達(dá)1033次,中心度為0.11,也是此階段科學(xué)數(shù)據(jù)共享研究領(lǐng)域基礎(chǔ)知識網(wǎng)絡(luò)中的一篇重要節(jié)點(diǎn)文獻(xiàn)。2013年發(fā)表的題為《If We Share Data, Will Anyone Use Them? Data Sharing and Reuse in the Long Tail of Science and Technology》研究指出科技長尾中的數(shù)據(jù)共享是由需求驅(qū)動(dòng)的[48]。通過對2013-2020年期間科學(xué)數(shù)據(jù)共享研究領(lǐng)域的4篇知識基礎(chǔ)文獻(xiàn)分析,發(fā)現(xiàn)這4篇的研究思想都是基于數(shù)據(jù)生命周期研究科學(xué)家數(shù)據(jù)共享實(shí)踐過程以及對數(shù)據(jù)共享的態(tài)度,并從政策、技術(shù)層面提出建議,表明本階段的數(shù)據(jù)共享研究受到數(shù)據(jù)生命周期理論的影響。同時(shí),此階段的研究范圍從“大科學(xué)”數(shù)據(jù)拓展到“長尾”科學(xué)數(shù)據(jù),表明此階段該領(lǐng)域還受到“長尾”理論的影響。
表8 2013-2020年期間知識基礎(chǔ)共被引關(guān)鍵節(jié)點(diǎn)文獻(xiàn)(中心度大于0.1)
此階段科學(xué)數(shù)據(jù)共享研究領(lǐng)域總共發(fā)表了2 815篇文獻(xiàn),表9列出了該領(lǐng)域最具有影響力的8篇文獻(xiàn)。其中被引次數(shù)最高的文獻(xiàn)是2016年Kidwell等人在PLos One期刊上發(fā)表題名為《Badges to Acknowledge Open Practices: A Simple, Low-Cost, Effective Method for Increasing Transparency》的文獻(xiàn),該文研究了期刊《心理科學(xué)》采取的促進(jìn)開放實(shí)踐的激勵(lì)措施[49]?!禜ow Open Science Helps Researchers Succeed》從出版、資助、資源管理和共享、研究人員的職業(yè)發(fā)展四個(gè)方面探討開放科學(xué)實(shí)踐,并為學(xué)術(shù)界實(shí)施開放科學(xué)提供建議[50]?!禡aterials Science with Large-scale Data and Informatics: Unlocking New Opportunities》研究了材料科學(xué)領(lǐng)域利用信息學(xué)技術(shù)分析材料數(shù)據(jù)的現(xiàn)狀,探討了與數(shù)據(jù)密集型材料研究相關(guān)的挑戰(zhàn)和機(jī)遇,并提出未來材料科學(xué)領(lǐng)域中材料信息學(xué)的發(fā)展方向[51]?!禡aking Data Sharing Work: The FCP/INDI Experience》提出神經(jīng)影像學(xué)界開放存取模式下共享數(shù)據(jù)的關(guān)鍵在于:尊重參與者的隱私和保密性、數(shù)據(jù)共享的平臺保障以及長期可持續(xù)性[52]?!禖hanges in Data Sharing and Data Reuse Practices and Perceptions among Scientists Worldwide》研究了科學(xué)家之間的數(shù)據(jù)共享、重用感知和實(shí)踐的現(xiàn)狀,以及在不同年齡、地理區(qū)域和學(xué)科之間的差異[53]?!禬hat Drives Academic Data Sharing?》提出了數(shù)據(jù)共享的概念框架,并分析了每個(gè)類別中的子類別以及數(shù)據(jù)共享的阻礙因素和促成因素[54]。《Big Data from Small Data: Data-sharing in the 'long tail' of Neuroscience》研究了由單個(gè)神經(jīng)科學(xué)家產(chǎn)生的小數(shù)據(jù)集共享的問題,即所謂的長尾數(shù)據(jù)共享[55]。
通過對2013-2020年期間科學(xué)數(shù)據(jù)共享研究領(lǐng)域出現(xiàn)的高頻關(guān)鍵詞進(jìn)行篩選分析,如表10所示,發(fā)現(xiàn)一些高頻詞如“Data sharing”“Model”“Impact”“System”等仍然出現(xiàn),這說明數(shù)據(jù)共享的基礎(chǔ)設(shè)施系統(tǒng)、數(shù)據(jù)共享的影響仍然是重要議題。關(guān)鍵詞“Management”在本階段中出現(xiàn)的頻次尤為突出,表明各學(xué)科領(lǐng)域中的數(shù)據(jù)管理是本階段的重點(diǎn)研究熱點(diǎn)。高頻關(guān)鍵詞“Framework”的出現(xiàn),表明數(shù)據(jù)共享基礎(chǔ)設(shè)施成為研究熱點(diǎn),因?yàn)殡S著工程技術(shù)和科學(xué)技術(shù)的進(jìn)步,研究人員利用云計(jì)算等信息技術(shù)實(shí)現(xiàn)數(shù)據(jù)安全可靠的數(shù)據(jù)傳輸、共享和訪問。關(guān)鍵詞“Knowledge”“Information”說明了學(xué)術(shù)界已經(jīng)開始由數(shù)據(jù)共享逐漸拓展到信息共享和知識共享,并將三者結(jié)合起來研究。此外,“Citizen science”的高頻出現(xiàn),是因?yàn)榻陙?,公民科學(xué)變得越來越流行,在全球范圍內(nèi),數(shù)千個(gè)公民科學(xué)項(xiàng)目吸引了數(shù)以百萬計(jì)的公民參與其中,公民科學(xué)項(xiàng)目被當(dāng)作一種非常高效的工具,已經(jīng)被廣泛地用于生物學(xué)領(lǐng)域和生態(tài)環(huán)境科學(xué)領(lǐng)域。在本階段學(xué)術(shù)界對數(shù)據(jù)共享的研究日益活躍,研究熱點(diǎn)多元化。
表10 2013-2020年所發(fā)表文獻(xiàn)出現(xiàn)的高頻關(guān)鍵詞(top10)
總之,通過對在本階段科學(xué)數(shù)據(jù)共享研究領(lǐng)域最具有影響力的8篇文獻(xiàn)和高頻關(guān)鍵詞進(jìn)行分析,發(fā)現(xiàn)本階段該領(lǐng)域的主要研究熱點(diǎn)包括:科學(xué)數(shù)據(jù)存儲庫、科學(xué)數(shù)據(jù)管理、數(shù)據(jù)共享基礎(chǔ)設(shè)施建設(shè)、長尾科學(xué)數(shù)據(jù)共享。此外,學(xué)科領(lǐng)域主要集中在材料科學(xué)和神經(jīng)影像學(xué)領(lǐng)域。
本文運(yùn)用科學(xué)知識圖譜法對Web of Science核心數(shù)據(jù)庫所收錄的2001-2020年間科學(xué)數(shù)據(jù)共享領(lǐng)域3816篇文獻(xiàn)進(jìn)行了全面梳理和總結(jié),對其研究發(fā)展階段、研究熱點(diǎn)及其研究路徑演化展開深入剖析,較為清晰地展現(xiàn)出了科學(xué)數(shù)據(jù)共享研究的發(fā)展脈絡(luò)和演化過程,為該領(lǐng)域后續(xù)研究者把握該領(lǐng)域的研究熱點(diǎn)、新動(dòng)態(tài)、新方向提供了基礎(chǔ)參考。
本文研究的主要貢獻(xiàn)有:一是對科學(xué)數(shù)據(jù)共享研究領(lǐng)域的研究熱點(diǎn)進(jìn)行分析和總結(jié)。從總體上看,科學(xué)數(shù)據(jù)共享研究領(lǐng)域的研究熱點(diǎn)主要集中在技術(shù)研究和應(yīng)用研究兩大方面。技術(shù)研究主要是利用語義網(wǎng)技術(shù)和區(qū)塊鏈技術(shù)實(shí)現(xiàn)科學(xué)數(shù)據(jù)共享技術(shù)難關(guān)突破。應(yīng)用研究涉及到在計(jì)算機(jī)科學(xué)、生態(tài)環(huán)境科學(xué)、生物科學(xué)和健康醫(yī)療科學(xué)等領(lǐng)域的科學(xué)數(shù)據(jù)共享的應(yīng)用。二是對科學(xué)數(shù)據(jù)共享研究階段進(jìn)行劃分。按照科學(xué)數(shù)據(jù)共享研究文獻(xiàn)發(fā)表的年度變化趨勢和世界主要國家的數(shù)據(jù)開放共享政策制訂的關(guān)鍵事件,將近20年科學(xué)數(shù)據(jù)共享研究分“起步探索期”“快速發(fā)展期”和“高速爆發(fā)期”三個(gè)階段。三是科學(xué)數(shù)據(jù)共享研究的演化路徑分析?;趯茖W(xué)數(shù)據(jù)共享研究階段的劃分,對每個(gè)階段所發(fā)表的文獻(xiàn)進(jìn)行共被引分析,挖掘該研究領(lǐng)域在各個(gè)發(fā)展階段的知識基礎(chǔ)網(wǎng)絡(luò)結(jié)構(gòu)和研究熱點(diǎn)?!捌鸩教剿髌凇钡南嚓P(guān)研究受到制度理論和計(jì)劃行為理論的深刻影響。研究熱點(diǎn)集中在科學(xué)工作流系統(tǒng)研究、科學(xué)數(shù)據(jù)共享平臺研究、科學(xué)數(shù)據(jù)共享技術(shù)和科學(xué)數(shù)據(jù)共享模式研究,學(xué)科領(lǐng)域主要集中在生物信息學(xué)、神經(jīng)影像學(xué)和生態(tài)學(xué)領(lǐng)域。“快速發(fā)展期”的相關(guān)研究受到英國e-science計(jì)劃和虛擬組織理論的較深影響。其研究熱點(diǎn)集中在科學(xué)數(shù)據(jù)共享政策、科學(xué)數(shù)據(jù)共享數(shù)據(jù)庫建設(shè)和科學(xué)數(shù)據(jù)共享模式,學(xué)科領(lǐng)域主要集中在生物學(xué)、基因?qū)W、生態(tài)環(huán)境學(xué)領(lǐng)域?!案咚俦l(fā)期”的相關(guān)研究受到數(shù)據(jù)生命周期理論和長尾理論的深刻影響,其研究熱點(diǎn)主要集中在科學(xué)數(shù)據(jù)管理、數(shù)據(jù)共享基礎(chǔ)設(shè)施建設(shè)、科學(xué)數(shù)據(jù)存儲庫、長尾科學(xué)數(shù)據(jù)共享,學(xué)科領(lǐng)域主要集中在材料科學(xué)和神經(jīng)影像學(xué)領(lǐng)域。
隨著我國科技的快速發(fā)展,中國已經(jīng)發(fā)展成為國際上推動(dòng)科學(xué)數(shù)據(jù)資源建設(shè)與發(fā)展的重要參與者,越來越重視提升科學(xué)數(shù)據(jù)的管理能力,推動(dòng)科學(xué)數(shù)據(jù)的開放共享。但我國目前仍面臨諸如對科學(xué)數(shù)據(jù)共享的重視度不夠、科學(xué)數(shù)據(jù)主權(quán)流失、科學(xué)數(shù)據(jù)共享技術(shù)不成熟、科學(xué)數(shù)據(jù)共享范圍不廣等問題[56]。根據(jù)對國外科學(xué)數(shù)據(jù)共享的研究,首先發(fā)現(xiàn)國外科學(xué)數(shù)據(jù)共享是由國家政府、資助機(jī)構(gòu)、出版期刊等多方利益相關(guān)者共同推動(dòng)的結(jié)果。而我國對科學(xué)數(shù)據(jù)共享的重視程度不夠,無論從國家層面還是其他利益相關(guān)者層面頒布的政策較少,政策力度不夠,對科學(xué)數(shù)據(jù)的分級分類開放也沒有詳細(xì)的操作指南。因此,我國要促進(jìn)科學(xué)數(shù)據(jù)共享的深度和廣度,就要加快構(gòu)建科學(xué)數(shù)據(jù)共享開放的政策體系,充分調(diào)動(dòng)科學(xué)數(shù)據(jù)多方利益相關(guān)者的共享積極性,尤其是我國出版期刊的積極性,將科學(xué)數(shù)據(jù)主權(quán)掌握在我們自己手中。其次,科學(xué)數(shù)據(jù)的有效保存和積累是實(shí)現(xiàn)數(shù)據(jù)共享的前提。國外從20世紀(jì)初就已經(jīng)開始科學(xué)數(shù)據(jù)共享平臺和科學(xué)數(shù)據(jù)庫的建設(shè),以及科學(xué)數(shù)據(jù)管理軟件的開發(fā)和應(yīng)用,并貫穿至整個(gè)科學(xué)數(shù)據(jù)共享演化歷程。我國雖然已經(jīng)在多學(xué)科領(lǐng)域建設(shè)了一批科學(xué)數(shù)據(jù)中心和科學(xué)數(shù)據(jù)庫,但在國際上具有知名度和較高權(quán)威優(yōu)勢的科學(xué)數(shù)據(jù)中心和科學(xué)數(shù)據(jù)庫還很少,其根本還是我國科學(xué)數(shù)據(jù)共享技術(shù)不成熟,尚未形成系統(tǒng)的科學(xué)數(shù)據(jù)管理體系。最后,進(jìn)一步拓展科學(xué)數(shù)據(jù)國際合作方式和渠道。目前,我國在國際上科學(xué)數(shù)據(jù)共享實(shí)踐中以交流為主,缺乏深入的國家合作實(shí)踐??茖W(xué)數(shù)據(jù)的共享需要加強(qiáng)國際合作與交流,國際上已經(jīng)存在一些科學(xué)數(shù)據(jù)合作組織和計(jì)劃,比如歐盟委員會、美國國家科學(xué)基金會和美國國家標(biāo)準(zhǔn)與技術(shù)研究院、澳大利亞創(chuàng)新部等于2013年共同組建的科學(xué)數(shù)據(jù)聯(lián)盟(RDA)。