■高瑜蔚 朱艷華 孔麗華 胡良霖* 周建設(shè) 李 坤
1)首都師范大學(xué)中國語言智能研究中心,北京市海淀區(qū)西三環(huán)北路105號 100048 2)中國科學(xué)院計算機網(wǎng)絡(luò)信息中心,北京市海淀區(qū)東升南路2號 100083 3)國家基礎(chǔ)學(xué)科公共科學(xué)數(shù)據(jù)中心,北京市海淀區(qū)東升南路2號 100083
隨著開放科學(xué)蓬勃發(fā)展[1]以及數(shù)據(jù)密集型科學(xué)發(fā)現(xiàn)的科研第四范式到來,數(shù)據(jù)成為科研和創(chuàng)新的基礎(chǔ)驅(qū)動力,科學(xué)數(shù)據(jù)對科學(xué)研究的重要價值日益凸顯。科研成果的開放共享,尤其是科學(xué)數(shù)據(jù)的開放共享,是科研結(jié)果可驗證、可分享、可重現(xiàn)的基礎(chǔ)支撐[2]。數(shù)據(jù)出版是激勵數(shù)據(jù)傳播、促進數(shù)據(jù)共享的重要方式之一[3],數(shù)據(jù)論文出版的作用和價值也日益受到重視。近年來國際學(xué)術(shù)出版界在開放共享學(xué)術(shù)研究過程產(chǎn)生的數(shù)據(jù)上也逐步達成共識[4-5],越來越多的出版機構(gòu)在混合型期刊(Overlay Journal)、純數(shù)據(jù)期刊(Pure Data Journal)[6]等載體上以同時發(fā)布數(shù)據(jù)論文(Data Paper)和科學(xué)數(shù)據(jù)集的方式[7]進行科學(xué)數(shù)據(jù)出版?;跀?shù)據(jù)論文出版的新型學(xué)術(shù)出版形態(tài)已初步形成。
我國鼓勵關(guān)聯(lián)數(shù)據(jù)論文的科學(xué)數(shù)據(jù)出版。政策方面,《科學(xué)數(shù)據(jù)管理辦法》[8]提出“應(yīng)積極推動科學(xué)數(shù)據(jù)出版”,《中國科學(xué)院科學(xué)數(shù)據(jù)管理與開放共享辦法》[9]提出 “鼓勵有條件的科研機構(gòu)創(chuàng)辦數(shù)據(jù)論文期刊”。在期刊管理方面,國家新聞出版署和中國科學(xué)技術(shù)協(xié)會近年陸續(xù)采取舉措,將論文關(guān)聯(lián)數(shù)據(jù)平臺建設(shè)[10]、論文關(guān)聯(lián)數(shù)據(jù)匯交[11]、科學(xué)數(shù)據(jù)開放共享標(biāo)準(zhǔn)研制[12]納入重點工作。傳統(tǒng)出版機構(gòu)對數(shù)據(jù)出版的關(guān)注與日俱增,如《中國科技術(shù)語》雜志社[13]等陸續(xù)通過與數(shù)據(jù)存儲平臺合作啟動數(shù)據(jù)論文形式的科學(xué)數(shù)據(jù)出版。但是關(guān)于如何實現(xiàn)該工作,業(yè)界尚無公開成熟的標(biāo)準(zhǔn)可供參考。具體實踐方面,我國數(shù)據(jù)論文出版起步較晚但發(fā)展較快。2015年起《中國科學(xué)數(shù)據(jù)(中英文網(wǎng)絡(luò)版)》(以下簡稱《中國科學(xué)數(shù)據(jù)》)、《全球變化數(shù)據(jù)學(xué)報(中英文)》(以下簡稱《全球變化數(shù)據(jù)學(xué)報》)、BigEarthData[14]、GigaScience等數(shù)據(jù)期刊相繼創(chuàng)立,將數(shù)據(jù)論文和關(guān)聯(lián)數(shù)據(jù)集在互聯(lián)網(wǎng)上進行關(guān)聯(lián)發(fā)布,實現(xiàn)公開檢索。目前,各個出版機構(gòu)的數(shù)據(jù)信息描述及平臺運行模式差異較大,相關(guān)國家標(biāo)準(zhǔn)和行業(yè)標(biāo)準(zhǔn)缺乏,有些數(shù)據(jù)并未遵循國家要求取得中國科技資源標(biāo)識(China Science and Technology Resource,CSTR)、運用中文描述、落實科學(xué)數(shù)據(jù)引用規(guī)范。這不僅阻礙我國科學(xué)數(shù)據(jù)出版工作總體進展,還不利于未來數(shù)據(jù)期刊管理、數(shù)據(jù)互操作及數(shù)據(jù)共享再利用等。
隨著20個國家科學(xué)數(shù)據(jù)中心正式成立[15]和中國科學(xué)院科學(xué)數(shù)據(jù)中心體系建設(shè)[16],越來越多的科學(xué)數(shù)據(jù)管理機構(gòu)啟動數(shù)據(jù)期刊建設(shè),數(shù)據(jù)論文形式的數(shù)據(jù)出版工作迎來大發(fā)展,標(biāo)準(zhǔn)化需求愈發(fā)急迫。在此背景下,筆者團隊基于實踐,總結(jié)前期國內(nèi)外相關(guān)工作,對數(shù)據(jù)論文及其關(guān)聯(lián)科學(xué)數(shù)據(jù)集出版元數(shù)據(jù)標(biāo)準(zhǔn)開展研究,擬提出切實可行的標(biāo)準(zhǔn)方案,以期為創(chuàng)辦和運行數(shù)據(jù)期刊、推動傳統(tǒng)科技期刊落實數(shù)據(jù)論文出版工作提供規(guī)范化指導(dǎo)。此外,在此工作基礎(chǔ)上,筆者團隊牽頭制定的國家標(biāo)準(zhǔn)《數(shù)據(jù)論文出版元數(shù)據(jù)》(GB/T 42813—2023)于2023年8月正式發(fā)布[17],這對于我國數(shù)據(jù)論文出版標(biāo)準(zhǔn)化工作具有重要意義。
目前學(xué)界尚未明確數(shù)據(jù)出版的概念,對于數(shù)據(jù)出版內(nèi)涵等認識主要來源于對實踐的歸納和提煉,本文在此基礎(chǔ)上初步梳理核心概念。
(1)數(shù)據(jù)出版。數(shù)據(jù)出版是指通過一定的公共機制發(fā)布科學(xué)數(shù)據(jù)集,使得公眾根據(jù)一定規(guī)則發(fā)現(xiàn)、獲取、評價和應(yīng)用這些數(shù)據(jù)的過程,其中數(shù)據(jù)論文出版是得到廣泛認可的重要形式。作為復(fù)雜的系統(tǒng)工程,數(shù)據(jù)出版既有傳統(tǒng)學(xué)術(shù)出版的特點,又有由發(fā)布數(shù)據(jù)且與數(shù)據(jù)論文關(guān)聯(lián)等帶來的新需求。
(2)數(shù)據(jù)論文。國外學(xué)者先后對數(shù)據(jù)論文概念進行定義[18-19],強調(diào)描述科學(xué)數(shù)據(jù)集的收集方式、特征等,而不關(guān)注數(shù)據(jù)處理分析過程和學(xué)術(shù)創(chuàng)新。Candela等[20]認為數(shù)據(jù)論文至少包含2個具體信息對象——數(shù)據(jù)集和數(shù)據(jù)論文本身。具體來說,數(shù)據(jù)論文是通過網(wǎng)絡(luò)在線方式出版的一種學(xué)術(shù)出版物[21],其目的是讓科研群體更好地發(fā)現(xiàn)、獲取、理解與復(fù)用數(shù)據(jù),從而促進科研創(chuàng)新[22]。一般情況下,數(shù)據(jù)論文發(fā)表在數(shù)據(jù)期刊上, 而科學(xué)數(shù)據(jù)存儲在數(shù)據(jù)知識庫中, 但數(shù)據(jù)論文須與其描述的公開發(fā)布的科學(xué)數(shù)據(jù)鏈接, 這個鏈接通常是URL或由數(shù)據(jù)知識庫分配給數(shù)據(jù)集的DOI[23]。
(3)數(shù)據(jù)期刊。數(shù)據(jù)期刊是指出版數(shù)據(jù)論文的期刊,已成為一種重要的出版形態(tài)[24]。習(xí)妍等[25]基于相關(guān)學(xué)者的研究統(tǒng)計發(fā)現(xiàn)目前全球出版的數(shù)據(jù)期刊數(shù)量在160種以上,其中純數(shù)據(jù)期刊(即出版的數(shù)據(jù)論文占比在50%以上)有20余種。
筆者團隊較早開始研究數(shù)據(jù)論文出版問題,胡良霖等[26]、孔麗華等[27]先后給出定義和實踐方法。相關(guān)學(xué)者在同行評議方法方面開展研究[28]。關(guān)聯(lián)研究方面,陳帥印等[29]基于元數(shù)據(jù)研究特定領(lǐng)域數(shù)據(jù)論文與期刊論文的關(guān)聯(lián)關(guān)系。技術(shù)標(biāo)準(zhǔn)方面,我國學(xué)者多聚焦傳統(tǒng)學(xué)術(shù)成果和相關(guān)科學(xué)數(shù)據(jù)集的關(guān)聯(lián)分析[30-32],目前暫時沒有面向數(shù)據(jù)論文及其關(guān)聯(lián)科學(xué)數(shù)據(jù)集一體化出版的元數(shù)據(jù)標(biāo)準(zhǔn)實踐。筆者認為,數(shù)據(jù)論文是指對科學(xué)數(shù)據(jù)集進行規(guī)范化描述并按照學(xué)術(shù)規(guī)范在線聯(lián)合出版的文章,一般由出版系統(tǒng)管理和發(fā)布。關(guān)聯(lián)數(shù)據(jù)集一般由獨立的科學(xué)數(shù)據(jù)存儲庫管理,并通過下載鏈接、標(biāo)識和引用方式與數(shù)據(jù)論文實現(xiàn)關(guān)聯(lián)。
調(diào)研分析和實踐表明,數(shù)據(jù)論文出版能夠解決我國科學(xué)數(shù)據(jù)共享的五大問題:一是缺乏明確的激勵機制,作為數(shù)據(jù)生產(chǎn)者的科研人員及數(shù)據(jù)工作者缺乏開放共享數(shù)據(jù)的內(nèi)生動力;二是知識產(chǎn)權(quán)模糊,將公共資助產(chǎn)生的數(shù)據(jù)置于公共領(lǐng)域而不保留任何權(quán)利的做法也并不能有效促進高質(zhì)量數(shù)據(jù)共享和應(yīng)用;三是數(shù)據(jù)來源和質(zhì)控措施不清晰,數(shù)據(jù)質(zhì)量無法保證;四是科學(xué)數(shù)據(jù)溯源困難,不完善、不規(guī)范的數(shù)據(jù)描述信息為理解和重用帶來阻礙;五是缺乏持久性的標(biāo)識和訪問支持,數(shù)據(jù)難以在學(xué)術(shù)論文中規(guī)范引用。作為一種數(shù)據(jù)期刊出版形式,數(shù)據(jù)論文起到重要的描述作用,同時也是將數(shù)據(jù)轉(zhuǎn)為傳統(tǒng)意義學(xué)術(shù)成果的重要手段。但由于已發(fā)布的數(shù)據(jù)期刊數(shù)據(jù)論文出版標(biāo)準(zhǔn)不統(tǒng)一,加上科學(xué)數(shù)據(jù)具有抽象性和大規(guī)模性,用戶很難根據(jù)數(shù)據(jù)內(nèi)容實現(xiàn)對科學(xué)數(shù)據(jù)的查詢和定位,這影響了科學(xué)數(shù)據(jù)的精準(zhǔn)發(fā)現(xiàn)與再利用。因此,制定數(shù)據(jù)論文及關(guān)聯(lián)科學(xué)數(shù)據(jù)集出版元數(shù)據(jù)規(guī)范是指導(dǎo)數(shù)據(jù)期刊規(guī)范化出版數(shù)據(jù)論文、促進科研人員實現(xiàn)數(shù)據(jù)再利用的主要途徑。
通過文獻分析和網(wǎng)絡(luò)調(diào)研,以期刊網(wǎng)站和數(shù)據(jù)平臺發(fā)布的信息為主要依據(jù)進行內(nèi)容對比分析和歸納總結(jié),梳理研究對象的要素信息和關(guān)聯(lián)關(guān)系。數(shù)據(jù)期刊方面,基于對我國科研工作者發(fā)文量和認可度的調(diào)研結(jié)果,主要調(diào)研ScientificData、EarthSystemScienceData(ESSD)、GeoscienceDataJournal(GDJ)、BiodiversityDataJournal(BDJ)、DatainBrief、GigaScience、《地質(zhì)科學(xué)數(shù)據(jù)專輯》《全球變化數(shù)據(jù)學(xué)報》《中國科學(xué)數(shù)據(jù)》等數(shù)據(jù)期刊,分析數(shù)據(jù)期刊出版數(shù)據(jù)論文的流程與特征。數(shù)據(jù)論文出版要素方面,重點分析數(shù)據(jù)論文在數(shù)據(jù)期刊出版平臺上的要素信息,并充分考慮我國對在線數(shù)據(jù)出版的政策及標(biāo)準(zhǔn)要求(如須依據(jù)CSTR、科學(xué)數(shù)據(jù)引用方面國家標(biāo)準(zhǔn))。數(shù)據(jù)集出版要素方面,考慮到通用性和代表性,選取受數(shù)據(jù)期刊ScientificData認可的6個通用數(shù)據(jù)存儲庫進行關(guān)聯(lián)數(shù)據(jù)集要素的調(diào)研分析,主要包括Dryad Digital Repository、Figshare、Harvard Dataverse、Open Science Framework、Zenodo、Science Data Bank。標(biāo)準(zhǔn)研究方面,具體采用《科技平臺 元數(shù)據(jù)標(biāo)準(zhǔn)化基本原則與方法》(GB/T 30522—2014)規(guī)定的摘要表示的方式定義和描述元數(shù)據(jù)屬性等。應(yīng)用實踐方面,結(jié)合《中國科學(xué)數(shù)據(jù)》實踐給出標(biāo)準(zhǔn)應(yīng)用實例,驗證標(biāo)準(zhǔn)有效性。作為一種面向多學(xué)科領(lǐng)域科學(xué)數(shù)據(jù)出版的學(xué)術(shù)期刊,《中國科學(xué)數(shù)據(jù)》致力于科學(xué)數(shù)據(jù)的開放、共享和引用,推進科學(xué)數(shù)據(jù)的長期保存與數(shù)據(jù)資產(chǎn)管理,探索科學(xué)數(shù)據(jù)工作的有效評價機制,推動數(shù)據(jù)科學(xué)的發(fā)展,促進科學(xué)數(shù)據(jù)的可發(fā)現(xiàn)、可訪問、可互操作、可重用[33],目前已經(jīng)成為中國科學(xué)引文數(shù)據(jù)庫(Chinese Science Citation Database,CSCD)核心庫來源期刊。
目前出版科學(xué)數(shù)據(jù)還只是各期刊出版單位或數(shù)據(jù)存儲中心(庫)的單獨行動,對領(lǐng)域之間乃至全社會各類數(shù)據(jù)資源的統(tǒng)一有效檢索和關(guān)聯(lián)使用尚未實現(xiàn)[34]。而要達到此目標(biāo),則有必要進一步規(guī)范科學(xué)數(shù)據(jù)出版過程中的出版規(guī)范和引用標(biāo)準(zhǔn),以使數(shù)據(jù)能夠互聯(lián)互通,像學(xué)術(shù)論文那樣廣泛傳播、檢索、閱讀和引用。
元數(shù)據(jù)是推進科學(xué)數(shù)據(jù)共享、實現(xiàn)數(shù)據(jù)出版、支持數(shù)據(jù)可發(fā)現(xiàn)和利用的重要基礎(chǔ)[35-37]。建設(shè)元數(shù)據(jù)標(biāo)準(zhǔn)規(guī)范是完成數(shù)據(jù)集成整合、實現(xiàn)數(shù)據(jù)檢索與使用的關(guān)鍵環(huán)節(jié)[38]。目前,國際上已有一些通用標(biāo)準(zhǔn),如《都柏林核心元數(shù)據(jù)集》[39]、W3C DCAT[40]、《機器可讀目錄》(Machine-Readable Cataloging,MARC)、《地球空間數(shù)據(jù)資產(chǎn)元數(shù)據(jù)》(美國國家標(biāo)準(zhǔn))、《政府信息資源元數(shù)據(jù)》(Government Information Locater Service,GILS)等。我國也啟動相關(guān)標(biāo)準(zhǔn)研制工作,先后發(fā)布了《科技平臺 資源核心元數(shù)據(jù)》(GB/T 30523—2014)、《科技平臺 服務(wù)核心元數(shù)據(jù)》(GB/T 31073—2014)、《土壤科學(xué)數(shù)據(jù)元數(shù)據(jù)》(GB/T 32739—2016)。一些學(xué)者也在科學(xué)數(shù)據(jù)場景下對元數(shù)據(jù)標(biāo)準(zhǔn)適用性進行了比較研究[41-42]。總體上現(xiàn)有元數(shù)據(jù)標(biāo)準(zhǔn)不能有效規(guī)范當(dāng)前數(shù)據(jù)論文及其關(guān)聯(lián)數(shù)據(jù)集出版,無法厘清數(shù)據(jù)論文出版特征、數(shù)據(jù)論文和科學(xué)數(shù)據(jù)集的關(guān)聯(lián)關(guān)系。
從實踐分析來看,目前的數(shù)據(jù)出版平臺(如Figshare)數(shù)據(jù)的元數(shù)據(jù)僅按《都柏林核心元數(shù)據(jù)集》創(chuàng)建[43],由作者進行核查和修改[44],元數(shù)據(jù)過于簡單,并不能很好地支持對數(shù)據(jù)的深度揭示與利用,也無法描述數(shù)據(jù)論文這一新形態(tài)出版物。此外,科學(xué)數(shù)據(jù)有實驗數(shù)據(jù)、測量數(shù)據(jù)、統(tǒng)計數(shù)據(jù)、觀察數(shù)據(jù)、調(diào)查數(shù)據(jù)等,各個學(xué)科數(shù)據(jù)的特點不盡相同,數(shù)據(jù)種類和格式存在多樣性和復(fù)雜性,這給數(shù)據(jù)出版平臺設(shè)計和數(shù)據(jù)共享與利用帶來挑戰(zhàn)[45]。為了使數(shù)據(jù)更易于獲取、互連和發(fā)現(xiàn),需要獲取高質(zhì)量的元數(shù)據(jù)來幫助理解和使用[46],并定義數(shù)據(jù)論文和其關(guān)系。因此,在相關(guān)元數(shù)據(jù)標(biāo)準(zhǔn)制定方面,需要提出一套通用方案,再擴展更為專業(yè)的元數(shù)據(jù)標(biāo)準(zhǔn),借助工具和技術(shù)實現(xiàn)對大規(guī)模數(shù)據(jù)的標(biāo)引,最終實現(xiàn)科學(xué)數(shù)據(jù)的高質(zhì)量出版和有效應(yīng)用。
基于上述分析,本文以數(shù)據(jù)論文和其關(guān)聯(lián)的科學(xué)數(shù)據(jù)集為主要規(guī)范對象,通過分析和提煉特征要素定義二者在互聯(lián)網(wǎng)平臺上的出版狀態(tài)和關(guān)聯(lián)關(guān)系,實現(xiàn)標(biāo)準(zhǔn)研究。對國內(nèi)外的主要數(shù)據(jù)期刊的學(xué)科領(lǐng)域覆蓋、數(shù)據(jù)共享協(xié)議、數(shù)據(jù)庫關(guān)聯(lián)情況、數(shù)據(jù)引用規(guī)范等進行調(diào)研和對比分析,分析數(shù)據(jù)論文及其關(guān)聯(lián)數(shù)據(jù)集出版元數(shù)據(jù)特征,見表1。
表1 國內(nèi)外主要數(shù)據(jù)期刊數(shù)據(jù)論文及關(guān)聯(lián)數(shù)據(jù)集出版情況
根據(jù)調(diào)研可以看出,數(shù)據(jù)期刊在出版方面和傳統(tǒng)期刊具有一定的相似性。一般數(shù)據(jù)期刊面向特定學(xué)科領(lǐng)域,擁有ISSN,經(jīng)過同行評議對數(shù)據(jù)論文和數(shù)據(jù)內(nèi)容進行質(zhì)量控制,有明確的論文引用規(guī)范,并收取一定出版費用。目前有兩種數(shù)據(jù)期刊出版模式:一是數(shù)據(jù)期刊獨立出版模式,數(shù)據(jù)期刊建設(shè)統(tǒng)一的出版平臺并發(fā)布數(shù)據(jù)論文及其關(guān)聯(lián)科學(xué)數(shù)據(jù)集,如《全球變化數(shù)據(jù)學(xué)報》;二是“數(shù)據(jù)期刊+數(shù)據(jù)存儲庫”合作模式,以ScientificData為例,數(shù)據(jù)論文在其期刊出版平臺發(fā)布,數(shù)據(jù)集在其認可的存儲庫中在線發(fā)布,《中國科學(xué)數(shù)據(jù)》也采取類似模式,指定 Science Data Bank為其數(shù)據(jù)集在線發(fā)布平臺[47]。因為大多數(shù)期刊并不具備存儲數(shù)據(jù)的技術(shù)條件,采用后者的數(shù)據(jù)期刊數(shù)量較多[48]。一般情況下,數(shù)據(jù)期刊出版平臺是數(shù)據(jù)論文的發(fā)布與共享平臺,處理數(shù)據(jù)論文的收集、評審和出版等。科學(xué)數(shù)據(jù)存儲庫收集、長期存儲、在線展示數(shù)據(jù),原則上支持多種數(shù)據(jù)格式,并提供科學(xué)數(shù)據(jù)歸檔、獲取、認證和引用服務(wù)。本文主要基于通用概念提出元數(shù)據(jù)的標(biāo)準(zhǔn)化建議,數(shù)據(jù)期刊可以根據(jù)自身情況選擇上述兩種模式。
數(shù)據(jù)論文出版的不同之處在于在線出版發(fā)布、論文關(guān)聯(lián)實體數(shù)據(jù)、期刊與關(guān)聯(lián)數(shù)據(jù)存儲庫合作、遵循數(shù)據(jù)共享協(xié)議等。數(shù)據(jù)論文出版以數(shù)據(jù)為核心,內(nèi)容包括數(shù)據(jù)加工、數(shù)據(jù)整理、質(zhì)量控制等。其在借鑒傳統(tǒng)學(xué)術(shù)文獻出版流程基礎(chǔ)上,充分體現(xiàn)了數(shù)據(jù)在線發(fā)布和服務(wù)特征,通過唯一標(biāo)識等關(guān)聯(lián)關(guān)系構(gòu)建數(shù)據(jù)論文和實體數(shù)據(jù)關(guān)系,為數(shù)據(jù)追溯和增值服務(wù)奠定基礎(chǔ)。具體流程見圖1。
圖1 數(shù)據(jù)論文及其關(guān)聯(lián)科學(xué)數(shù)據(jù)集出版一般流程
2.2.1 數(shù)據(jù)論文出版要素分析
通過對部分數(shù)據(jù)論文及關(guān)聯(lián)數(shù)據(jù)集出版元數(shù)據(jù)要素進行調(diào)研和對比分析,總結(jié)通用元數(shù)據(jù)要素,并構(gòu)建數(shù)據(jù)論文和數(shù)據(jù)集實體間的關(guān)聯(lián)關(guān)系,見表2。從表2中可以看出,一般數(shù)據(jù)論文及關(guān)聯(lián)數(shù)據(jù)集出版都包含了數(shù)據(jù)論文作者信息、內(nèi)容信息、出版信息和服務(wù)信息。
表2 國內(nèi)外主要數(shù)據(jù)期刊的數(shù)據(jù)論文出版元數(shù)據(jù)要素對比分析
2.2.2 關(guān)聯(lián)數(shù)據(jù)集出版要素分析
一般情況下,數(shù)據(jù)期刊會通過認定第三方獨立數(shù)據(jù)存儲庫或自建存儲庫的方式為用戶提交的數(shù)據(jù)提供關(guān)聯(lián)、保存和共享服務(wù)。作為最有影響力的數(shù)據(jù)期刊之一,Springer Nature旗下的ScientificData認可了6個通用存儲庫和30多個學(xué)科領(lǐng)域數(shù)據(jù)存儲庫作為其關(guān)聯(lián)數(shù)據(jù)存儲平臺[49]。考慮到通用性和代表性,選取6個通用存儲庫進行關(guān)聯(lián)數(shù)據(jù)集出版元數(shù)據(jù)要素調(diào)研分析,主要包括Dryad Digital Repository、Figshare、Harvard Dataverse、Open Science Framework、Zenodo、Science Data Bank,見表3??茖W(xué)數(shù)據(jù)存儲庫通常在發(fā)布數(shù)據(jù)集過程中提供作者信息、描述/服務(wù)信息和出版信息,用戶可以通過相關(guān)元數(shù)據(jù)快速檢索和認知數(shù)據(jù)內(nèi)涵,并按照數(shù)據(jù)協(xié)議獲取數(shù)據(jù)。需要說明的是,作為2個獨立實體,數(shù)據(jù)集和數(shù)據(jù)論文通常會被分配不同的唯一標(biāo)識,通過標(biāo)識、數(shù)據(jù)引用和頁面鏈接實現(xiàn)強關(guān)聯(lián)。同時,數(shù)據(jù)集和數(shù)據(jù)論文的作者信息、服務(wù)信息可能存在差異(有的數(shù)據(jù)集作者并非數(shù)據(jù)論文撰寫者),因此須單獨定義。此外,相關(guān)存儲庫采用了多種數(shù)據(jù)標(biāo)準(zhǔn)及機器可讀格式以提升可讀性和互操作性。
表3 數(shù)據(jù)論文關(guān)聯(lián)數(shù)據(jù)集出版元數(shù)據(jù)要素對比分析
數(shù)據(jù)論文出版元數(shù)據(jù)以描述具有一定主題的科學(xué)數(shù)據(jù)集為核心,融合學(xué)術(shù)論文出版特征、描述在線出版過程要素,能夠反映其來源、加工方式、質(zhì)量控制和使用方法等信息,可實現(xiàn)規(guī)范引用和跟蹤統(tǒng)計服務(wù),為我國數(shù)據(jù)期刊的創(chuàng)辦提供標(biāo)準(zhǔn)化指導(dǎo)。根據(jù)分析與實踐,數(shù)據(jù)論文及其關(guān)聯(lián)數(shù)據(jù)集出版元數(shù)據(jù)應(yīng)滿足如下要求。(1)描述性:能夠依據(jù)系列準(zhǔn)則來描述數(shù)據(jù)論文和其關(guān)聯(lián)數(shù)據(jù)集出版狀態(tài)的關(guān)鍵特征,實現(xiàn)對數(shù)據(jù)論文出版的標(biāo)準(zhǔn)化管理。(2)復(fù)雜性:既滿足國家戰(zhàn)略需要,又與現(xiàn)行國家標(biāo)準(zhǔn)協(xié)調(diào)一致,同時符合實際應(yīng)用場景,根據(jù)數(shù)據(jù)論文出版階段按需使用。(3)多層次性:能夠以數(shù)據(jù)論文及其關(guān)聯(lián)數(shù)據(jù)集描述和關(guān)聯(lián),可規(guī)范數(shù)據(jù)期刊編輯部、數(shù)據(jù)論文出版平臺、科學(xué)數(shù)據(jù)存儲庫、數(shù)據(jù)用戶等多方職責(zé)。(4)擴展性:具備強描述力和高可擴展性,以滿足不同的學(xué)科領(lǐng)域應(yīng)用場景和出版機構(gòu)實際工作需要。
數(shù)據(jù)論文出版的主要標(biāo)準(zhǔn)化對象包括數(shù)據(jù)論文及關(guān)聯(lián)數(shù)據(jù)集,其出版元數(shù)據(jù)主要包括數(shù)據(jù)論文出版元數(shù)據(jù)和數(shù)據(jù)集出版元數(shù)據(jù)兩部分。本文提出數(shù)據(jù)論文及其關(guān)聯(lián)數(shù)據(jù)集出版元數(shù)據(jù)架構(gòu)(圖2),以滿足我國科學(xué)數(shù)據(jù)出版管理實際需要,同時面向國際通用交換共享服務(wù)的需要充分融合FAIR原則(可發(fā)現(xiàn)、可訪問、可交互和可重用)思想。具體采用《科技平臺 元數(shù)據(jù)標(biāo)準(zhǔn)化基本原則與方法》(GB/T 30522—2014)規(guī)定的摘要表示的方式定義和描述元數(shù)據(jù),使用以下9個屬性進行定義:中文名稱、英文名稱、短名、定義、類型、值域、可選性、最大出現(xiàn)次數(shù)、注釋。受限于篇幅,僅列舉其中關(guān)鍵內(nèi)容,并兼容其他國家標(biāo)準(zhǔn)規(guī)定。數(shù)據(jù)集出版元數(shù)據(jù)主要包括數(shù)據(jù)集描述信息、數(shù)據(jù)集出版信息和數(shù)據(jù)集服務(wù)信息,數(shù)據(jù)論文出版元數(shù)據(jù)主要包括數(shù)據(jù)論文內(nèi)容信息、出版信息、服務(wù)信息,并支持領(lǐng)域擴展。
圖2 數(shù)據(jù)論文及其關(guān)聯(lián)數(shù)據(jù)集出版元數(shù)據(jù)標(biāo)準(zhǔn)架構(gòu)
3.1.1 數(shù)據(jù)集描述信息
數(shù)據(jù)論文出版的核心是數(shù)據(jù)集,因此對數(shù)據(jù)集的描述既要與數(shù)據(jù)論文描述一致,又要反映豐富的數(shù)據(jù)描述信息,以便用戶檢索和精準(zhǔn)獲取。數(shù)據(jù)集描述信息詳見表4,主要包括唯一標(biāo)識符、數(shù)據(jù)集標(biāo)題、摘要、范圍、數(shù)據(jù)集作者等。其中,為滿足我國科技資源管理實際需要,保障數(shù)據(jù)安全,標(biāo)識符應(yīng)符合《科技資源標(biāo)識》(GB/T 32843—2016)規(guī)定,出版機構(gòu)也可根據(jù)實際需要采取雙標(biāo)識或多標(biāo)識并兼容國際標(biāo)識(如DOI等),但須保證標(biāo)識符在每類標(biāo)識系統(tǒng)中永久唯一。
3.1.2 數(shù)據(jù)集出版信息
數(shù)據(jù)集出版信息是數(shù)據(jù)集元數(shù)據(jù)的重要組成部分,主要定義數(shù)據(jù)集的發(fā)布日期、發(fā)表期刊和版本信息,可以全面呈現(xiàn)其出版過程關(guān)鍵信息,見表5。具體使用方式遵照數(shù)據(jù)出版機構(gòu)的流程要求。
表5 數(shù)據(jù)集出版信息
3.1.3 數(shù)據(jù)集服務(wù)信息
數(shù)據(jù)論文提交至數(shù)據(jù)期刊的同時,關(guān)聯(lián)的科學(xué)數(shù)據(jù)存儲庫須為數(shù)據(jù)集分配資源唯一標(biāo)識符、列明引用格式等,并為論文作者提供獲取服務(wù),服務(wù)信息定義詳見表6。資源唯一標(biāo)識符主要賦予數(shù)據(jù)論文關(guān)聯(lián)數(shù)據(jù)唯一標(biāo)識編碼,支持永久在線解析、安全服務(wù)和關(guān)聯(lián)發(fā)現(xiàn)。作者能夠通過數(shù)據(jù)署名保護數(shù)據(jù)自主知識產(chǎn)權(quán),他人應(yīng)遵循共享協(xié)議和期刊政策利用公開出版的數(shù)據(jù),同時以規(guī)范形式明確引用數(shù)據(jù)實體,如遵循國家標(biāo)準(zhǔn)《信息技術(shù) 科學(xué)數(shù)據(jù)引用》(GB/T 35294—2017)[50]。此外,數(shù)據(jù)期刊應(yīng)在國家數(shù)據(jù)安全分類分級要求下出版數(shù)據(jù),遵循開放共享協(xié)議(如CC0、CC BY等)或數(shù)據(jù)期刊獨立的數(shù)據(jù)政策,明確數(shù)據(jù)在線獲取和下載使用過程中應(yīng)遵循的基本規(guī)則。
表6 數(shù)據(jù)集服務(wù)信息
3.2.1 數(shù)據(jù)論文內(nèi)容信息
與傳統(tǒng)學(xué)術(shù)論文不同,數(shù)據(jù)論文的首要目的是描述數(shù)據(jù)及其生成、收集條件,一般不包括學(xué)術(shù)論文中的假設(shè)分析和結(jié)論成果[51]。數(shù)據(jù)論文內(nèi)容信息結(jié)合傳統(tǒng)期刊論文結(jié)構(gòu)化描述模式,對具有科學(xué)價值的某類或某個數(shù)據(jù)集進行規(guī)范化描述,使數(shù)據(jù)符合FAIR原則。數(shù)據(jù)論文內(nèi)容信息主要包括標(biāo)題、摘要、數(shù)據(jù)論文作者等,見表7。其中,引言、數(shù)據(jù)采集和處理方法、數(shù)據(jù)樣本描述、數(shù)據(jù)質(zhì)量控制和評估、數(shù)據(jù)使用方法和建議體現(xiàn)了數(shù)據(jù)論文的核心內(nèi)容特征。數(shù)據(jù)期刊可根據(jù)實際需要定義擴展內(nèi)容,如ScientificData建議數(shù)據(jù)論文描述“軟件可用性聲明”等。唯一標(biāo)識符單獨為數(shù)據(jù)論文分配,且根據(jù)我國科技資源管理需要,使用《科技資源標(biāo)識》(GB/T 32843—2016)編碼方式。此外,需要說明的是,數(shù)據(jù)論文作者可能與數(shù)據(jù)集作者有差異,因此須單獨定義。
表7 數(shù)據(jù)論文內(nèi)容信息
3.2.2 數(shù)據(jù)論文出版信息
數(shù)據(jù)論文出版流程的規(guī)范性和嚴謹性通過豐富的出版信息體現(xiàn),見表8。主要通過科技期刊數(shù)據(jù)論文出版系統(tǒng)完成收稿日期、錄用日期、出版日期等信息的記錄,同時也對數(shù)據(jù)論文的同評日期、版本信息進行記錄和發(fā)布,以提高評審?fù)该餍院凸妳⑴c度,提升用戶對數(shù)據(jù)的檢索和利用效率。
表8 數(shù)據(jù)論文出版信息
3.2.3 數(shù)據(jù)論文服務(wù)信息
數(shù)據(jù)論文服務(wù)信息建立在傳統(tǒng)科技期刊要素基礎(chǔ)上,通過數(shù)據(jù)論文下載地址、關(guān)聯(lián)數(shù)據(jù)集訪問地址、共享許可協(xié)議等體現(xiàn),見表9。
表9 數(shù)據(jù)論文服務(wù)信息
基于元數(shù)據(jù)標(biāo)準(zhǔn)建議架構(gòu),通過獲取公開數(shù)據(jù)論文及關(guān)聯(lián)數(shù)據(jù)集信息給出元數(shù)據(jù)應(yīng)用示例,說明數(shù)據(jù)論文及其關(guān)聯(lián)數(shù)據(jù)集出版元數(shù)據(jù)的描述方法,驗證該架構(gòu)的可行性和有效性。圖3所示為數(shù)據(jù)集元數(shù)據(jù)示例,圖4所示為數(shù)據(jù)論文元數(shù)據(jù)示例,其中部分文字和圖表受限于篇幅略去。通過示例可以看出,該架構(gòu)提供了支持數(shù)據(jù)論文出版平臺信息描述的最小子集,能夠?qū)崿F(xiàn)定義和描述,并可構(gòu)建數(shù)據(jù)論文和數(shù)據(jù)集的關(guān)聯(lián)關(guān)系。數(shù)據(jù)出版機構(gòu)或數(shù)據(jù)管理機構(gòu)可以根據(jù)數(shù)據(jù)期刊定位或出版平臺建設(shè)需要進行元數(shù)據(jù)擴展。
注:示例僅為說明數(shù)據(jù)論文及其關(guān)聯(lián)數(shù)據(jù)集出版元數(shù)據(jù)的描述方法,具體情況以實際為準(zhǔn)。圖3 數(shù)據(jù)集元數(shù)據(jù)示例
注:示例僅為說明數(shù)據(jù)論文及其關(guān)聯(lián)數(shù)據(jù)集出版元數(shù)據(jù)的描述方法,具體情況以實際為準(zhǔn)。圖4 數(shù)據(jù)論文元數(shù)據(jù)示例
數(shù)據(jù)論文是被國際科研界認可的數(shù)據(jù)出版形式。在我國,《中國科學(xué)數(shù)據(jù)》《全球變化數(shù)據(jù)學(xué)報》等數(shù)據(jù)期刊迅速發(fā)展,傳統(tǒng)期刊紛紛開展數(shù)據(jù)論文出版工作,這說明數(shù)據(jù)論文形式出版工作受到廣泛關(guān)注。但各個出版機構(gòu)的數(shù)據(jù)信息描述及平臺運行模式差異較大,相關(guān)國家標(biāo)準(zhǔn)和行業(yè)標(biāo)準(zhǔn)缺乏,這不僅阻礙工作進展,也不利于未來數(shù)據(jù)期刊管理、數(shù)據(jù)互操作及數(shù)據(jù)共享再利用。建設(shè)數(shù)據(jù)論文及其關(guān)聯(lián)科學(xué)數(shù)據(jù)集出版元數(shù)據(jù)標(biāo)準(zhǔn)規(guī)范是完成數(shù)據(jù)集成整合、實現(xiàn)數(shù)據(jù)檢索與使用的關(guān)鍵環(huán)節(jié),因此亟需制定通用的元數(shù)據(jù)標(biāo)準(zhǔn)方案。
本文在梳理核心概念基礎(chǔ)上,通過文獻分析和網(wǎng)絡(luò)調(diào)研,以期刊網(wǎng)站和數(shù)據(jù)平臺發(fā)布的信息為主要依據(jù)進行內(nèi)容對比分析和歸納總結(jié),梳理研究對象的要素信息和關(guān)聯(lián)關(guān)系。重點分析了數(shù)據(jù)論文及科學(xué)數(shù)據(jù)出版元數(shù)據(jù)研究與實踐,分析數(shù)據(jù)論文出版特點。根據(jù)國家政策和標(biāo)準(zhǔn)要求,提出適應(yīng)我國實際的數(shù)據(jù)論文及關(guān)聯(lián)數(shù)據(jù)集出版元數(shù)據(jù)標(biāo)準(zhǔn),明確元數(shù)據(jù)要素定義和實踐方法,推動數(shù)據(jù)論文及其關(guān)聯(lián)數(shù)據(jù)集出版元數(shù)據(jù)標(biāo)準(zhǔn)化,為科技期刊開展相關(guān)創(chuàng)新實踐提供參考,以期推進我國科學(xué)數(shù)據(jù)產(chǎn)權(quán)保護,促進科學(xué)數(shù)據(jù)開放共享,充分釋放數(shù)據(jù)生產(chǎn)要素的深層次價值。
數(shù)據(jù)論文形式的科學(xué)數(shù)據(jù)出版作為創(chuàng)新數(shù)據(jù)共享模式,與傳統(tǒng)的文字出版物相比對技術(shù)要求較高。隨著2021年《中華人民共和國網(wǎng)絡(luò)安全法》[52]、《中華人民共和國數(shù)據(jù)安全法》[53]、《中華人民共和國個人信息保護法》[54]、《數(shù)據(jù)出境安全評估辦法(征求意見稿)》[55]等法律法規(guī)陸續(xù)發(fā)布,科學(xué)數(shù)據(jù)安全儲存、有序共享服務(wù)將面臨基礎(chǔ)設(shè)施建設(shè)、軟件技術(shù)升級、政策機制保障等方面的新挑戰(zhàn)。應(yīng)根據(jù)不同學(xué)科領(lǐng)域,建立更符合數(shù)據(jù)倫理規(guī)范和數(shù)據(jù)使用習(xí)慣的數(shù)據(jù)政策;在激勵機制建設(shè)方面,進一步提倡用戶在學(xué)術(shù)成果中規(guī)范引用數(shù)據(jù)論文;在人員方面,遴選一批有數(shù)據(jù)處理經(jīng)驗和科研能力的外審專家,全面推進數(shù)據(jù)論文聯(lián)合出版工作。