彭媛媛,劉靜羽,黃金霞
(1.中國(guó)科學(xué)院文獻(xiàn)情報(bào)中心,北京 100190;2.中國(guó)科學(xué)院大學(xué),北京 100049)
國(guó)外出版機(jī)構(gòu)開放數(shù)據(jù)政策研究*
彭媛媛1,2,劉靜羽1,黃金霞1,2
(1.中國(guó)科學(xué)院文獻(xiàn)情報(bào)中心,北京 100190;2.中國(guó)科學(xué)院大學(xué),北京 100049)
在密集型數(shù)據(jù)環(huán)境下,本研究選取國(guó)外較有代表性的8家出版機(jī)構(gòu)為研究對(duì)象,以出版商平臺(tái)、期刊網(wǎng)站、re3data.org數(shù)據(jù)倉(cāng)儲(chǔ)目錄系統(tǒng)為數(shù)據(jù)來源,將出版機(jī)構(gòu)的數(shù)據(jù)政策內(nèi)容,按照呈繳政策、存儲(chǔ)政策和利用政策三個(gè)方面進(jìn)行總結(jié)分析,并基于現(xiàn)有政策內(nèi)容對(duì)科研數(shù)據(jù)政策未來仍需改進(jìn)之處進(jìn)行討論,以期為出版界制定統(tǒng)一、完備的開放數(shù)據(jù)政策提供參考借鑒。
科研數(shù)據(jù);開放數(shù)據(jù);數(shù)據(jù)政策;出版機(jī)構(gòu)
科研數(shù)據(jù)是數(shù)字信息時(shí)代從事科學(xué)研究必不可少的戰(zhàn)略資源,產(chǎn)生于資料收集、分析實(shí)驗(yàn)、科研產(chǎn)出等過程,是具有重要科研價(jià)值的數(shù)據(jù)集合,是科學(xué)、技術(shù)、醫(yī)學(xué)等領(lǐng)域知識(shí)構(gòu)建的基礎(chǔ)與支撐。自2001年12月《布達(dá)佩斯開放存取計(jì)劃》提出以來[1],開放獲取運(yùn)動(dòng)如火如荼,科研數(shù)據(jù)的開放共享也逐步為人們所推崇;2003年10月,德國(guó)馬普學(xué)會(huì)提出《關(guān)于自然科學(xué)與人文科學(xué)資源的開放獲取的柏林宣言》,倡導(dǎo)學(xué)術(shù)論文、教育資源、科研數(shù)據(jù)的開放共享,呼吁各科研機(jī)構(gòu)將科學(xué)資源開放獲取[2];2006年,經(jīng)濟(jì)合作與發(fā)展組織倡議提升公共資助科研數(shù)據(jù)的及時(shí)性、易獲取性與網(wǎng)絡(luò)互聯(lián)性等[3];英國(guó)皇家學(xué)會(huì)于2012年5月發(fā)布《科學(xué)·開放的事業(yè)》報(bào)告,指出對(duì)科學(xué)理論及具體實(shí)驗(yàn)數(shù)據(jù)的即時(shí)發(fā)布是他人了解、判斷該研究的基礎(chǔ),是證偽和創(chuàng)新的依據(jù)[4]。開放數(shù)據(jù)是數(shù)字網(wǎng)絡(luò)環(huán)境中數(shù)據(jù)信息資源共享的一種新方式和新理念[5]。
為完善科研數(shù)據(jù)開放獲取制度,國(guó)內(nèi)外政府部門、國(guó)際組織、資助教育機(jī)構(gòu)等利益共同體陸續(xù)出臺(tái)科研數(shù)據(jù)管理與共享政策,以確??蒲袛?shù)據(jù)的可獲取、可共享、可重用,并期許通過科研數(shù)據(jù)的開放共享實(shí)現(xiàn)更廣泛的學(xué)術(shù)交流與科研融合,實(shí)現(xiàn)科學(xué)研究中的嶄新突破。2011年4月,英國(guó)研究理事會(huì)發(fā)布《RCUK數(shù)據(jù)政策通用原則》[6],規(guī)范研究數(shù)據(jù)的使用規(guī)則;美國(guó)白宮科技政策辦公室[7]于2013年2月發(fā)布的政府科研數(shù)據(jù)開放政策指出“涉及受聯(lián)邦資助的科研項(xiàng)目,所產(chǎn)生的數(shù)字形式的科研數(shù)據(jù)都需存儲(chǔ)起來,并提供搜索、檢索和使用等的公共訪問、共享”;美國(guó)也透過G8會(huì)議頒布政府開放數(shù)據(jù)憲章,英國(guó)、日本、法國(guó)等成員國(guó)積極響應(yīng),加拿大、印度、新西蘭等國(guó)政府分別發(fā)布開放數(shù)據(jù)的聲明,澳大利亞、巴西和智利出臺(tái)數(shù)據(jù)開放和保護(hù)的相關(guān)政策法規(guī);中國(guó)科學(xué)院制定的《科學(xué)數(shù)據(jù)庫(kù)數(shù)據(jù)共享辦法(試行)》規(guī)范了其與建立數(shù)據(jù)庫(kù)的各單位在數(shù)據(jù)收益分配、產(chǎn)權(quán)歸屬等方面的問題;復(fù)旦大學(xué)社會(huì)科學(xué)研究中心應(yīng)用哈佛大學(xué)Dataverse網(wǎng)絡(luò)平臺(tái),建立中國(guó)社會(huì)科研數(shù)據(jù)共享中心;北京大學(xué)根據(jù)科研數(shù)據(jù)開放共享機(jī)制建立北京大學(xué)開放數(shù)據(jù)研究平臺(tái)以及管理科學(xué)數(shù)據(jù)中心等。
作為開放獲取運(yùn)動(dòng)的利益相關(guān)者、科研數(shù)據(jù)交流與傳播的重要媒介,出版行業(yè)也先后推出科研數(shù)據(jù)開放共享的相關(guān)政策。Science與Nature期刊明確提出,作者在提交文章的同時(shí),必須將與文章結(jié)論相關(guān)的研究數(shù)據(jù)一并上傳,或存儲(chǔ)于公共數(shù)據(jù)倉(cāng)儲(chǔ),文章正式發(fā)表后將研究數(shù)據(jù)完全開放共享;PNAS要求作者在投稿時(shí),與研究相關(guān)的科研數(shù)據(jù)要同時(shí)提交、存儲(chǔ),并對(duì)數(shù)據(jù)的可用性限制進(jìn)行說明;開放獲取期刊出版商PLOS、BMC也針對(duì)其出版的期刊推出數(shù)據(jù)共享政策。從單個(gè)期刊提出數(shù)據(jù)政策,到出版集團(tuán)從整體的角度推出數(shù)據(jù)共享方案,可見出版界也逐漸掀起數(shù)據(jù)政策的浪潮,力求構(gòu)建一種與出版物相關(guān)聯(lián)、高質(zhì)量、適宜重用的數(shù)據(jù)管理與共享模式,通過驗(yàn)證數(shù)據(jù)的真實(shí)性以增強(qiáng)出版物的可信度,從而提升出版物的學(xué)術(shù)價(jià)值,并為開放科學(xué)事業(yè)的發(fā)展貢獻(xiàn)一份力量。因此,本研究以探析目前開放數(shù)據(jù)的政策內(nèi)容與未來發(fā)展情況為出發(fā)點(diǎn),對(duì)國(guó)外出版機(jī)構(gòu)開放數(shù)據(jù)政策進(jìn)行調(diào)研,從中選取5家傳統(tǒng)期刊出版集團(tuán)與3家開放獲取期刊出版機(jī)構(gòu),將其數(shù)據(jù)政策按照呈繳政策、存儲(chǔ)政策、利用政策三部分內(nèi)容進(jìn)行分類梳理,并對(duì)其未來發(fā)展趨勢(shì)進(jìn)行討論,為完善出版界數(shù)據(jù)政策,推動(dòng)科研數(shù)據(jù)的自由獲取、重發(fā)布與再利用提供參考借鑒。
本研究參考國(guó)際科學(xué)、技術(shù)與醫(yī)學(xué)出版商協(xié)會(huì)發(fā)布的出版商成員機(jī)構(gòu)排名[8]、2016年度世界排名前52位的圖書出版機(jī)構(gòu)分析報(bào)告[9]、2015年GoOA期刊排行榜中開放獲取期刊出版商排名,結(jié)合出版機(jī)構(gòu)是否制定科研數(shù)據(jù)政策內(nèi)容等因素,最終選取Springer Nature、Elsevier、Wiley、Taylor & Francis Group、Oxford University Press(OUP)、Hindawi、Public Library of Science(PLOS)、BioMedCentral(BMC)8家出版機(jī)構(gòu)推出的開放數(shù)據(jù)政策為研究分析對(duì)象。BMC雖于2008年被Springer出版社收購(gòu),但其始終致力于開放獲取出版行業(yè)。由此,本研究將兩者分別列為傳統(tǒng)出版機(jī)構(gòu)與開放獲取出版機(jī)構(gòu),從兩個(gè)角度進(jìn)行比較研究。
本研究數(shù)據(jù)主要來源于8家出版機(jī)構(gòu)的官方網(wǎng)站、提供科研數(shù)據(jù)倉(cāng)儲(chǔ)列表的Scientific Data數(shù)據(jù)期刊、收錄數(shù)據(jù)倉(cāng)儲(chǔ)較全面的注冊(cè)和目錄系統(tǒng)re3data.org,并結(jié)合文獻(xiàn)調(diào)研對(duì)內(nèi)容進(jìn)行補(bǔ)充,調(diào)研截至2017年4月25日。以下根據(jù)各出版機(jī)構(gòu)的科研數(shù)據(jù)共享與管理政策,分別對(duì)具體政策內(nèi)容要素、未來發(fā)展與改善情況進(jìn)行詳細(xì)闡述。
在8家出版機(jī)構(gòu)中,Springer Nature、Elsevier制定的數(shù)據(jù)政策內(nèi)容較詳盡;PLOS、BMC提出數(shù)據(jù)政策的時(shí)間雖然較早,但政策條款較少且寬泛;Wiley、OUP的數(shù)據(jù)政策針對(duì)部分開放獲取期刊進(jìn)行試點(diǎn);Taylor &Francis Group與Hindawi的數(shù)據(jù)政策處于建設(shè)初期,形成部分條款與整體框架。本研究根據(jù)各出版商的數(shù)據(jù)政策內(nèi)容,總結(jié)其內(nèi)容要素,從呈繳、審查與存儲(chǔ)、利用政策進(jìn)行更細(xì)致的分析。
出版商科研數(shù)據(jù)呈繳政策主要集中于數(shù)據(jù)的可選性/強(qiáng)制性提交、數(shù)據(jù)提交方式、提交時(shí)所規(guī)定的數(shù)據(jù)類型,以及數(shù)據(jù)的格式要求[10]。
Springer Nature將其收錄的所有期刊劃分為四個(gè)類別,對(duì)期刊的科研數(shù)據(jù)分為可選性與強(qiáng)制性提交,可在“作者指南”“編輯須知”“數(shù)據(jù)政策”模塊中查看具體要求[11],根據(jù)提交數(shù)據(jù)的不同特征內(nèi)容共分為強(qiáng)制性、推薦可選性、無(wú)特殊要求三種情況(見表1)。四類政策中,有三類政策希望/要求作者在向期刊提交文章與數(shù)據(jù)集時(shí)附帶數(shù)據(jù)有效性聲明,以說明支撐文章結(jié)論的數(shù)據(jù)可在何處找到相關(guān)信息,研究期間分析或生成的公開發(fā)布的數(shù)據(jù)集鏈接地址。此外,數(shù)據(jù)有效性聲明還應(yīng)明確以下內(nèi)容:(1)研究期間產(chǎn)生或進(jìn)行分析的數(shù)據(jù)集可在哪個(gè)知識(shí)庫(kù)中獲得;(2)如果研究期間產(chǎn)生或進(jìn)行分析的數(shù)據(jù)集不可公開,那么須有原因說明(如涉及機(jī)密數(shù)據(jù));(3)研究期間產(chǎn)生或進(jìn)行分析得到的數(shù)據(jù)集可按照作者提出的哪些合理性要求后提供;(4)數(shù)據(jù)共享政策如果不適用于提交的文章,則需要說明原因(如研究期間沒有生成或分析數(shù)據(jù)集);(5)研究期間生成或進(jìn)行分析的所有數(shù)據(jù)是否均包含在文章及其補(bǔ)充信息文件中。同時(shí),Springer Nature要求作者上傳數(shù)據(jù)的方式與類型主要分為三類:(1)鼓勵(lì)作者盡量將研究數(shù)據(jù)上傳到適宜的公共數(shù)據(jù)倉(cāng)儲(chǔ)中,無(wú)需隨文章一同提交期刊;(2)文章原始文稿中的描述性材料需隨文章一并提交期刊,并鼓勵(lì)作者將數(shù)據(jù)集存儲(chǔ)于公共數(shù)據(jù)倉(cāng)儲(chǔ);(3)向期刊提供與文章結(jié)論相關(guān)的所有數(shù)據(jù)集,并在文章進(jìn)行同行評(píng)議前將數(shù)據(jù)集存儲(chǔ)于公共數(shù)據(jù)倉(cāng)儲(chǔ),作為文章的補(bǔ)充材料[12]。
Elsevier認(rèn)為科研數(shù)據(jù)是建立科學(xué)、技術(shù)和醫(yī)學(xué)知識(shí)的基礎(chǔ),但在其訪問和共享方面存在挑戰(zhàn)。根據(jù)《布魯塞爾宣言》,Elsevier設(shè)想未來可輕松、有效地存儲(chǔ)、共享、發(fā)現(xiàn)和使用數(shù)據(jù),以支持研究人員工作,并促進(jìn)科學(xué)與健康發(fā)展。然而,在科研數(shù)據(jù)的訪問、共享方面存在挑戰(zhàn)[13]。Elsevier應(yīng)對(duì)可能存在的挑戰(zhàn)制定相應(yīng)的推薦性科研數(shù)據(jù)政策,并于2015年實(shí)行開放數(shù)據(jù)發(fā)布與共享的試點(diǎn)計(jì)劃,鼓勵(lì)作者上傳原始研究數(shù)據(jù)至Mendeley Data[14],并將其鏈接到所屬ScienceDirect文章。Wiley對(duì)旗下13種期刊開通開放共享數(shù)據(jù)服務(wù),且13種期刊各有其數(shù)據(jù)政策,若想詳細(xì)了解每種期刊的數(shù)據(jù)政策情況,需在投稿時(shí)根據(jù)期刊主頁(yè)面相關(guān)指南進(jìn)行操作[15]。這13種期刊的數(shù)據(jù)文件無(wú)強(qiáng)制性上傳要求,將其定義為可選性的數(shù)據(jù)共享協(xié)定,數(shù)據(jù)集無(wú)格式要求,也無(wú)需隨文章一并提交。OUP與Wiley的呈繳政策類似,但OUP強(qiáng)調(diào)需要提供文章的數(shù)據(jù)有效性聲明,且聲明中需明確數(shù)據(jù)的有效性與具體應(yīng)用,數(shù)據(jù)集需存儲(chǔ)于公共數(shù)據(jù)倉(cāng)儲(chǔ),并獲得相應(yīng)的登記號(hào)[16]。Taylor &Francis Group僅要求提供數(shù)據(jù)源的URL[17]。Hindawi、PLOS、BMC強(qiáng)調(diào)數(shù)據(jù)有效性聲明的提交[18],且BMC明確指出數(shù)據(jù)文獻(xiàn)的類型應(yīng)為XML、CSV、XLS/XLSX、RDF[19],以便于統(tǒng)一管理與進(jìn)一步數(shù)據(jù)挖掘和文本內(nèi)容分析。
表1 Springer Nature四類數(shù)據(jù)政策縱向區(qū)分
本研究選取的8家出版機(jī)構(gòu)對(duì)提交數(shù)據(jù)集的審查機(jī)制尚不完善,Elsevier將原始研究數(shù)據(jù)作為補(bǔ)充材料,供編輯與審閱者共同審校;Springer Nature僅部分期刊制定審查機(jī)制,其余期刊均遵守對(duì)選定期刊的數(shù)據(jù)集及數(shù)據(jù)有效性聲明進(jìn)行同行評(píng)議,以考察作者是否遵守Springer Nature關(guān)于科研數(shù)據(jù)有效性聲明所提出的政策要文章求,同行評(píng)議者有權(quán)要求對(duì)其底層數(shù)據(jù)(或代碼)進(jìn)行訪問,以便對(duì)文章學(xué)術(shù)水平進(jìn)行評(píng)估。數(shù)據(jù)有效性聲明的審閱者需要考察[20]的內(nèi)容有:讀者是否可以查看數(shù)據(jù);在DAS中提供的鏈接,是否可以正常使用;在數(shù)據(jù)訪問受限時(shí),限制訪問的條件是否合理;數(shù)據(jù)的描述內(nèi)容以及手稿或補(bǔ)充信息文件中的描述內(nèi)容,是否準(zhǔn)確。對(duì)于數(shù)據(jù)文件,審閱者應(yīng)該考慮:數(shù)據(jù)是否存儲(chǔ)于最合適的數(shù)據(jù)倉(cāng)儲(chǔ);數(shù)據(jù)是否以嚴(yán)謹(jǐn)?shù)姆椒ㄕ摦a(chǎn)生;數(shù)據(jù)及元數(shù)據(jù)是否符合學(xué)術(shù)界的文本格式與報(bào)告標(biāo)準(zhǔn);作者存儲(chǔ)的數(shù)據(jù)文檔是否完整,與稿件的描述是否相符;數(shù)據(jù)集中是否包括個(gè)人信息、敏感信息或不當(dāng)信息。Elsevier數(shù)據(jù)審閱者主要針對(duì)數(shù)據(jù)的完整性與可用性進(jìn)行審定,而對(duì)數(shù)據(jù)集具體內(nèi)容與價(jià)值不作評(píng)判。
在出版商數(shù)據(jù)存儲(chǔ)政策中,絕大多數(shù)學(xué)科類型的數(shù)據(jù),其數(shù)據(jù)倉(cāng)儲(chǔ)的選擇可由作者自行決定,如Figshare、Dryad等綜合性通用數(shù)據(jù)倉(cāng)儲(chǔ),或?qū)W科專用類數(shù)據(jù)倉(cāng)儲(chǔ)。Springer Nature參照Scientific Data,對(duì)生命科學(xué)類期刊提供推薦性數(shù)據(jù)倉(cāng)儲(chǔ)列表[21],作者可根據(jù)喜好或需求進(jìn)行選擇。Elsevier要求但不強(qiáng)制作者將數(shù)據(jù)集添加到Mendeley Data數(shù)據(jù)管理空間中,數(shù)據(jù)集可在Mendeley Data上根據(jù)作者選擇的許可協(xié)議被他人使用,并獲得相應(yīng)DOI與ScienceDirect上的文章相關(guān)聯(lián),讀者可以通過文章訪問數(shù)據(jù)集[22]。其他各出版機(jī)構(gòu)未規(guī)定數(shù)據(jù)倉(cāng)儲(chǔ)或提及推薦倉(cāng)儲(chǔ),憑作者自由選擇即可。
Springer Nature、BMC規(guī)定數(shù)據(jù)利用需遵從CC0割免協(xié)定,具體的使用許可依據(jù)數(shù)據(jù)集存儲(chǔ)的數(shù)據(jù)倉(cāng)儲(chǔ)為準(zhǔn);Elsevier中的數(shù)據(jù)文件遵循CCBY許可協(xié)議;Wiley對(duì)上傳數(shù)據(jù)的使用許可采用CC0協(xié)定,并允許進(jìn)行數(shù)據(jù)挖掘以及大規(guī)模的元分析工作。其他出版商在其官網(wǎng)沒有明確說明數(shù)據(jù)文檔的使用許可,需參照數(shù)據(jù)集所屬文章、倉(cāng)儲(chǔ)的使用許可限制后,再行利用。
開放科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)的產(chǎn)生與發(fā)展反映了人們對(duì)開放科學(xué)數(shù)據(jù)利用的需求增加。開放科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)的建設(shè)主體有單一的高校、科研院所、出版商等,也有跨組織、跨地區(qū)的合作(如CESSDA Dada Portal)。數(shù)據(jù)來源主要有兩種,一是強(qiáng)制要求科研人員提交研究涉及的研究數(shù)據(jù)(如Springer Nature),二是鼓勵(lì)或建議科研人員提交相關(guān)科學(xué)數(shù)據(jù)(如PLOS One)。由于龐雜的數(shù)據(jù)存儲(chǔ)庫(kù)使研究人員較難發(fā)現(xiàn)并選擇所需數(shù)據(jù)來源,因而出現(xiàn)數(shù)據(jù)倉(cāng)儲(chǔ)的注冊(cè)和目錄系統(tǒng),如OAD開放獲取倉(cāng)儲(chǔ)、re3data.org、Databib等。
Scientific Data作為較早發(fā)行的數(shù)據(jù)期刊,所涉及的數(shù)據(jù)倉(cāng)儲(chǔ)較權(quán)威、規(guī)范,且re3data.org中收錄的數(shù)據(jù)倉(cāng)儲(chǔ)數(shù)量大,學(xué)科分類細(xì)致、學(xué)科主題多。因而,以Scientific Data、re3data.org為數(shù)據(jù)來源,比較分析數(shù)據(jù)倉(cāng)儲(chǔ)中科研數(shù)據(jù)的使用許可。Scientific Data推薦的開放數(shù)據(jù)倉(cāng)儲(chǔ)涵蓋學(xué)科較多,且這些數(shù)據(jù)倉(cāng)儲(chǔ)也作為Springer Nature旗下期刊接收文章時(shí),向作者推薦的開放數(shù)據(jù)存儲(chǔ)共享平臺(tái),同時(shí)也受到其他各出版商的推崇。近年來re3data.org平臺(tái)中收錄的倉(cāng)儲(chǔ)數(shù)量呈逐年遞增趨勢(shì),倉(cāng)儲(chǔ)類型主要分為國(guó)家類、政府類、機(jī)構(gòu)類以及出版商自建的數(shù)據(jù)倉(cāng)儲(chǔ),其建設(shè)主體包括高校、科研院所、出版商,旨在促進(jìn)數(shù)據(jù)開放共享,提供科研數(shù)據(jù)管理工具。但也存在數(shù)據(jù)共享交換協(xié)議各有差異、學(xué)科分布不均(生命科學(xué)領(lǐng)域數(shù)據(jù)倉(cāng)儲(chǔ)體量較大)等一系列問題。本文將數(shù)據(jù)來源中的倉(cāng)儲(chǔ)進(jìn)行統(tǒng)計(jì),目前約2 000個(gè)數(shù)據(jù)倉(cāng)儲(chǔ)被記錄,且這些被記錄數(shù)據(jù)倉(cāng)儲(chǔ)在re3data.org中所對(duì)應(yīng)的數(shù)據(jù)許可和數(shù)據(jù)(倉(cāng)儲(chǔ))庫(kù)許可[23]主要分為三類(見圖1)。
(1)數(shù)據(jù)獲取/數(shù)據(jù)庫(kù)獲取。數(shù)據(jù)/數(shù)據(jù)庫(kù)的開放程度主要分為四種情況:開放、存在一定限制(需要注冊(cè)、身份認(rèn)證)、被禁止獲?。ㄖ蛔x性)、完全不可見(僅限機(jī)構(gòu)內(nèi)部或項(xiàng)目工作組的人員使用)。對(duì)平臺(tái)標(biāo)引的數(shù)據(jù)倉(cāng)儲(chǔ)、數(shù)據(jù)倉(cāng)儲(chǔ)中對(duì)應(yīng)數(shù)據(jù)的開放情況進(jìn)行統(tǒng)計(jì),倉(cāng)儲(chǔ)中的數(shù)據(jù)可完全開放獲取的占數(shù)據(jù)庫(kù)總數(shù)的56.4%;獲取具有一定限制的數(shù)據(jù)占總數(shù)的32.0%;不可獲取的占比11.6%。數(shù)據(jù)庫(kù)的開放程度主要分為三種情況,開放型數(shù)據(jù)庫(kù)占比94.5%,具有限制的數(shù)據(jù)庫(kù)占比5.0%,不開放的占比0.5%。其中,部分開放型數(shù)據(jù)庫(kù)中并非所有數(shù)據(jù)都可完全開放獲取,故具體的數(shù)據(jù)權(quán)限與數(shù)據(jù)庫(kù)權(quán)限存在一定差異。
(2)數(shù)據(jù)獲取受限/數(shù)據(jù)庫(kù)獲取受限。數(shù)據(jù)/數(shù)據(jù)庫(kù)開放受限的原因主要分為四種情況:需注冊(cè)、機(jī)構(gòu)成員、需付費(fèi)、其他。其中,數(shù)據(jù)/數(shù)據(jù)庫(kù)受限的原因主要是需要注冊(cè)后開放獲?。簧贁?shù)屬于機(jī)構(gòu)倉(cāng)儲(chǔ),機(jī)構(gòu)成員才可瀏覽、使用;部分原因還未知。
(3)數(shù)據(jù)許可/數(shù)據(jù)庫(kù)許可。主要是版權(quán)限制,其次是遵循CC許可協(xié)議,其中CC0占有的比重較大,說明再利用的限制較低。其他許可還包括Apache License 2.0、開源許可協(xié)議(Berkeley Software Distribution,BSD)、開放數(shù)據(jù)協(xié)議(Open Data Commons,ODC)、開放許可(Open General License,OGL)、公有領(lǐng)域、其他。
國(guó)外諸多出版商都開始重視科研數(shù)據(jù)的管理,在推動(dòng)科研數(shù)據(jù)管理與共享方面做出新嘗試。在開放科學(xué)運(yùn)動(dòng)的推動(dòng)下,也不斷鼓勵(lì)作者開放研究成果中的數(shù)據(jù)。從調(diào)研中可知,Springer Nature、BMC、PLOS[24]已制定數(shù)據(jù)共享協(xié)議;Elsevier數(shù)據(jù)政策主要服務(wù)于科研數(shù)據(jù)管理,開放共享政策需針對(duì)不同期刊的具體情況進(jìn)一步分析,Elsevier的態(tài)度是鼓勵(lì)作者開放數(shù)據(jù),由此進(jìn)行了開放數(shù)據(jù)的“試點(diǎn)項(xiàng)目”,但并不強(qiáng)制數(shù)據(jù)開放;Wiley、OUP針對(duì)部分期刊,推出數(shù)據(jù)共享的政策規(guī)定;作為完全開放期刊出版商,Hindawi將制定開放數(shù)據(jù)政策作為2017年的一項(xiàng)重要工作。依據(jù)現(xiàn)有數(shù)據(jù)政策的制定與推行趨勢(shì),出版商開放數(shù)據(jù)政策更將日益完善。
然而,目前建立的各種政策主要以推薦、鼓勵(lì)性政策為主,為規(guī)范科研數(shù)據(jù)的管理與共享制度,可考慮逐步修訂為強(qiáng)制性政策,并將數(shù)據(jù)引用問題納入規(guī)定范圍。數(shù)據(jù)期刊的興起,為科研數(shù)據(jù)的出版、分享與傳播開啟同行評(píng)議機(jī)制,相應(yīng)在科研數(shù)據(jù)作為文章附件、補(bǔ)充材料、數(shù)據(jù)支撐時(shí),也需建立同行評(píng)議過程以認(rèn)定其作為學(xué)術(shù)成果的價(jià)值。同時(shí),科研數(shù)據(jù)的開放存儲(chǔ)與利用模式也尚未明確,未來可從數(shù)據(jù)的存儲(chǔ)與管理關(guān)聯(lián)、一體化,數(shù)據(jù)的深度挖掘與元數(shù)據(jù)分析方面做進(jìn)一步探究。
圖1 許可限制間的比較
科研數(shù)據(jù)的呈繳政策是科研數(shù)據(jù)開放共享的第一步,也是數(shù)據(jù)實(shí)現(xiàn)關(guān)聯(lián)與檢索發(fā)現(xiàn)的基礎(chǔ)。因此,為推動(dòng)科研數(shù)據(jù)開放獲取與共享的腳步,出版機(jī)構(gòu)應(yīng)逐步趨于數(shù)據(jù)集、數(shù)據(jù)說明文檔等相關(guān)研究輔助材料的強(qiáng)制性上傳機(jī)制,參照PLOS對(duì)所有投稿執(zhí)行的統(tǒng)一規(guī)定,已發(fā)布數(shù)據(jù)的存儲(chǔ)格式、引用格式、存儲(chǔ)位置及使用許可等問題。通過數(shù)據(jù)有效性聲明進(jìn)一步完善在數(shù)據(jù)呈繳時(shí)需明確的事宜,并指出一旦違反相關(guān)政策條款,即使文章出版也將對(duì)其進(jìn)行相應(yīng)的懲處措施(如撤銷已發(fā)表的文章)。
建立科研數(shù)據(jù)的同行評(píng)議體系是保證高質(zhì)量產(chǎn)出、驗(yàn)證學(xué)術(shù)成果科研價(jià)值的一種方法。同行評(píng)議過程應(yīng)指定所采取的技術(shù)、標(biāo)準(zhǔn)、數(shù)據(jù)集的匹配性、實(shí)驗(yàn)環(huán)境與實(shí)驗(yàn)結(jié)論完全相符,即保證數(shù)據(jù)集的完整性與一致性、滿足相關(guān)的標(biāo)準(zhǔn)、具備適宜的軟件等;對(duì)于科學(xué)質(zhì)量與價(jià)值則交予審議者、研究人員、實(shí)踐團(tuán)體,通過成果驗(yàn)證、研究參考等實(shí)踐應(yīng)用后再進(jìn)行評(píng)估。
科研數(shù)據(jù)的同行評(píng)議也可與主要數(shù)據(jù)管理者(數(shù)據(jù)中心和知識(shí)庫(kù))進(jìn)行合作。由于后者是科研數(shù)據(jù)內(nèi)容的主要持有者,為使用者提供科研數(shù)據(jù)獲取的鏈接;又可對(duì)科研數(shù)據(jù)的技術(shù)質(zhì)量、安全管理與保存提供一定保障,當(dāng)文章和數(shù)據(jù)間的關(guān)聯(lián)度不斷增加時(shí),可以考慮通過數(shù)據(jù)管理者進(jìn)行科研數(shù)據(jù)的質(zhì)量控制,以保證高質(zhì)量數(shù)據(jù)的獲取與長(zhǎng)期保存。
數(shù)據(jù)倉(cāng)儲(chǔ)的數(shù)量逐年增加,學(xué)科、機(jī)構(gòu)以及綜合性三大類數(shù)據(jù)倉(cāng)儲(chǔ)的數(shù)量較多,如生物科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)、美國(guó)國(guó)家空間科學(xué)數(shù)據(jù)中心。對(duì)眾多數(shù)據(jù)倉(cāng)儲(chǔ)訪問、檢索后發(fā)現(xiàn),存儲(chǔ)特定學(xué)科的科研數(shù)據(jù)倉(cāng)儲(chǔ)將更易于用戶對(duì)倉(cāng)儲(chǔ)數(shù)據(jù)進(jìn)一步分析。因此,出版商在規(guī)定數(shù)據(jù)共享政策時(shí),可針對(duì)適于期刊學(xué)科主題的數(shù)據(jù)倉(cāng)儲(chǔ)進(jìn)行推薦,便于相關(guān)數(shù)據(jù)集間的發(fā)現(xiàn)、管理與互聯(lián)。同時(shí),數(shù)據(jù)倉(cāng)儲(chǔ)自身的建設(shè)情況也不盡相同,如re3data.org數(shù)據(jù)知識(shí)庫(kù)注冊(cè)系統(tǒng)中數(shù)據(jù)的開放程度存在差異,需要同時(shí)關(guān)注倉(cāng)儲(chǔ)與數(shù)據(jù)集自身的開放使用條件,且每個(gè)數(shù)據(jù)倉(cāng)儲(chǔ)的數(shù)據(jù)引用格式也存在差異。致力于數(shù)據(jù)引用實(shí)踐的國(guó)際組織DataCite提出一套數(shù)據(jù)引用規(guī)范[25],但各數(shù)據(jù)倉(cāng)儲(chǔ)會(huì)自行推薦或不加以說明。由此,數(shù)據(jù)倉(cāng)儲(chǔ)在開放程度與引用規(guī)范方面應(yīng)加以限定,出版商在選擇推薦倉(cāng)儲(chǔ)時(shí),也應(yīng)從這些方面進(jìn)行考量,以便于資源互通、內(nèi)容共享。
不同數(shù)據(jù)倉(cāng)儲(chǔ)對(duì)現(xiàn)有開放數(shù)據(jù)集的獲取、利用有不用的標(biāo)準(zhǔn),除上文提到的數(shù)據(jù)/數(shù)據(jù)庫(kù)許可外,在數(shù)據(jù)交換、共享使用時(shí)也存在FTP、REST、OAI-PMH、SOAP、NetCDF、OpenDAP、SWORD、SPAPOL等協(xié)議進(jìn)行傳輸?shù)姆绞?。這些對(duì)數(shù)據(jù)的傳播、流通與再利用帶來不便。進(jìn)一步促進(jìn)科研數(shù)據(jù)的再利用,首要任務(wù)是明確數(shù)據(jù)集的再利用方式和限制。在科研數(shù)據(jù)的利用階段,為數(shù)據(jù)生產(chǎn)者或上傳者提供明確的數(shù)據(jù)引用政策,使其給出數(shù)據(jù)所屬的許可信息(如Open Data Commons協(xié)議);為使用者提供明確的指導(dǎo),告知科研數(shù)據(jù)的用途與使用規(guī)范。涉及隱私、機(jī)密、生物遺傳規(guī)律等的科研數(shù)據(jù)集,再利用的方式與具體規(guī)范應(yīng)更具有針對(duì)性,對(duì)這部分?jǐn)?shù)據(jù)的管理也應(yīng)嚴(yán)格限定,可使用的條件要明確詳細(xì)。如初次提供數(shù)據(jù)集時(shí)只提交部分?jǐn)?shù)據(jù)單元,不將全部?jī)?nèi)容予以公開。對(duì)于敏感數(shù)據(jù)的安全性保護(hù)與管理也是促進(jìn)開放數(shù)據(jù)發(fā)展的重要環(huán)節(jié),而對(duì)于基礎(chǔ)科研數(shù)據(jù)則應(yīng)盡量制定普適性、通用性的使用規(guī)范。同時(shí),可嘗試建立文本與數(shù)據(jù)挖掘的許可政策,根據(jù)作者提供的數(shù)據(jù)使用許可,結(jié)合出版機(jī)構(gòu)、數(shù)據(jù)所存儲(chǔ)的數(shù)據(jù)倉(cāng)儲(chǔ)的規(guī)定,為用戶挖掘數(shù)據(jù)底層的關(guān)聯(lián)信息,盡可能為用戶提供深層次的數(shù)據(jù)服務(wù)。
本文以出版機(jī)構(gòu)的開放數(shù)據(jù)政策作為研究切入點(diǎn),通過調(diào)研國(guó)外主流開放獲取期刊的出版機(jī)構(gòu)并分析其目前提出的數(shù)據(jù)政策,在總結(jié)政策內(nèi)容的基礎(chǔ)上對(duì)開放數(shù)據(jù)政策未來有待拓展的方面進(jìn)行系統(tǒng)性討論(如制定強(qiáng)制性數(shù)據(jù)呈繳制度、建立科研數(shù)據(jù)同行評(píng)議體系、規(guī)范開放數(shù)據(jù)倉(cāng)儲(chǔ)內(nèi)容等),以期為今后學(xué)術(shù)出版界制定更完善、全面的開放數(shù)據(jù)政策提供參考與借鑒。然而,本研究選取的出版機(jī)構(gòu)數(shù)量有限,未能對(duì)眾多出版機(jī)構(gòu)展開更廣泛與深入的調(diào)研,未來需繼續(xù)跟蹤其他出版機(jī)構(gòu)的政策進(jìn)展。
[1]Budapest Open Access Initiative[EB/OL].[2017-08-01].http://www.budapestopenaccessinitiative.org/.
[2]Berlin Declaration on open access to knowledge in the sciences and humanities[EB/OL].[2017-08-01].http://oa.mpg.de/openaccessberlin/berlindeclaration.html.
[3]OECD.Principles and guidelines for access to research data from public funding[EB/OL].[2017-08-01].http://www.oecd.org/dataoecd/9/61/385008 13.pdf.
[4]The Royal Society.Final report-science as an open enterprise[EB/OL].[2017-08-01].http://royalsociety.org/policy/projects/science-publicenterprise/report/.
[5]黃永文,張建勇,黃金霞,等.國(guó)外開放科學(xué)數(shù)據(jù)研究綜述[J].現(xiàn)代圖書情報(bào)技術(shù),2013,233(5):21-27.
[6]RCUK.Rcuk common principles on data policy[EB/OL].[2017-08-01].http://www.rcuk.ac.uk/research/datapolicy/.
[7]董坤,顧立平.若干國(guó)家科研數(shù)據(jù)開放政策框架研究[J].中國(guó)科技資源導(dǎo)刊,2016,48(3):51-57.
[8]STM.Memberslist[EB/OL].[2017-04-10].http://www.stm-assoc.org/membership/our-members/.
[9]MILLIOT J.The world’s 52 largest book publishers,2016[EB/OL].[2017-08-01].https://www.publishersweekly.com/pw/by-topic/international/international-book-news/article/71268-the-world-s-52-largest-book-publishers-2016.html.
[10]Research data policies and services[EB/OL].[2017-04-10].http://www.springernature.com/gp/group/data-policy/.
[11]Research data policy types[EB/OL].[2017-04-10].http://www.springernature.com/gp/group/data-policy/policy-types.
[12]Over 600 Springer Nature journals commit to new data sharing policies[EB/OL].[2017-08-01].http://www.springernature.com/br/group/media/press-releases/over-600-springer-nature-journalscommit-to-new-data-sharing-policies/11111248.
[13]Elsevier.Research data[EB/OL].[2017-08-01].https://www.elsevier.com/about/open-science/research-data.
[14]Make your research data citable[EB/OL].[2017-04-10].https://data.mendeley.com/.
[15]Wiley’s data sharing service[EB/OL].[2017-04-10].https://authorservices.wiley.com/author-resources/Journal-Authors/licensing-and-open-access/open-access/data-sharing.html.
[16]When do we share information?[EB/OL].[2017-04-10].https://www.oup.com.au/privacy-policy.
[17]The open data movement:international consolidation[EB/OL].[2017-07-14].http://blog.scielo.org/en/2014/07/14/the-open-datamovement-international-consolidation/#.WPOvArglG00.
[18]FAUST T.Dataavailability at Hindawi[EB/OL].[2017-04-10].https://about.hindawi.com/opinion/data-availability-at-hindawi/.
[19]BioMedCentral.Opendata[EB/OL].[2017-04-10].https://www.biomedcentral.com/about/policies/open-data.
[20]Research data policies FAQs[EB/OL].[2017-04-10].http://www.springernature.com/gp/group/data-policy/faq.
[21]Recommended repositories[EB/OL].[2017-04-10].http://www.springernature.com/gp/group/data-policy/repositories.
[22]Elsevier.Opendata[EB/OL].[2017-04-10].https://www.elsevier.com/authors/author-services/research-data/open-data.
[23]Data access[EB/OL].[2017-04-10].http://www.re3data.org/search?query=.
[24]PLOS data policy prior to March 3 2014[EB/OL].[2017-03-03].http://journals.plos.org/plosone/s/file?id=c4aa/PLOSONE_data_pol icy_before_2014March.pdf.
[25]Data Citation[EB/OL].[2017-08-01].https://www.datacite.org/citeyour-data.html.
Research on Open Scientific Data Policy of Foreign Publishing Institutions
PENG YuanYuan1,2, LIU JingYu1, HUANG JinXia1,2
(1. National Science Library Chinese Academy of Sciences, Beijing 100190, China; 2. University of Chinese Academy of Sciences, Beijing 100049, China)
In the environment of intensive research data, the paper selected 8 famous, mainstream and representative publishing institutions as research object, and took publishing platforms, journal websites and ‘re3data.org’ as data source, from the three aspects of open scientific data submission policy, storage policy to summary and analysis the publishing institutions. Based on the existing policy content of scientific data policy, exploring the future still need to enhance the discussion, in order to provide reference for the publishing industry to develop unified and complete open data policies.
Scientific Data; Open Data; Data Policy; Publishing Institutions
G250
10.3772/j.issn.1673-2286.2017.09.003
* 本研究得到中國(guó)科學(xué)院項(xiàng)目“糧食安全與國(guó)民營(yíng)養(yǎng)”專題文獻(xiàn)數(shù)據(jù)庫(kù)研究(編號(hào):院1724-5)資助。
彭媛媛,女,1993年生,碩士研究生,研究方向:開放資源建設(shè)、數(shù)據(jù)評(píng)價(jià),E-mail:pengyuanyuan@mail.las.ac.cn。
劉靜羽,女,1989年生,碩士,助理館員,研究方向:開放資源建設(shè),E-mail:liujy@mail.las.ac.cn。
黃金霞,女,1972年生,博士,副研究館員,研究方向:信息資源組織與建設(shè)、開放資源建設(shè),E-mail:huangjx@mail.las.ac.cn。
2017-08-09)