浦燕妮,劉琪,耿騫
(北京師范大學政府管理學院,北京 100875)
通用型科學元數(shù)據(jù)標準研究
浦燕妮,劉琪,耿騫
(北京師范大學政府管理學院,北京 100875)
科學數(shù)據(jù)在科學研究第四范式的研究時代被視為具有重要的科研價值,科學元數(shù)據(jù)在數(shù)據(jù)管理生命周期中的重要作用也逐漸受到重視。大量的科學數(shù)據(jù)亟需專門且具有統(tǒng)一標準的元數(shù)據(jù)進行組織和管理。國外的通用型科學元數(shù)據(jù)標準已經(jīng)發(fā)展較為成熟,而國內(nèi)的相關(guān)標準還處于建設(shè)之中。本文分析國外較為成熟的元數(shù)據(jù)標準的建設(shè)目的、功能構(gòu)成,以及主要標準元素等內(nèi)容,為國內(nèi)建設(shè)通用型科學元數(shù)據(jù)標準提供可參考的建議。
科學元數(shù)據(jù);元數(shù)據(jù)標準;通用型元數(shù)據(jù)標準
自數(shù)據(jù)密集型科學出現(xiàn)以來,科學數(shù)據(jù)成為繼科學文獻之后重要的研究資源,對科學數(shù)據(jù)的有效管理成為促進和保障科學研究和交流活動的重要內(nèi)容,并由此引發(fā)科學數(shù)據(jù)管理的研究和實踐熱潮。
科學數(shù)據(jù)來源于對科學研究活動的事實記錄(包括數(shù)值、文本記錄、圖像和聲音等形式),是被科學團體所共同接受的、對研究結(jié)果有用的數(shù)據(jù)[1],是科學界普遍認同的能對研究成果進行驗證的必要材料[2]。科學數(shù)據(jù)既包括在科學研究過程中產(chǎn)生的、能存貯在計算機中的任何數(shù)據(jù),也包括能轉(zhuǎn)換成數(shù)字形式的非數(shù)字形式數(shù)據(jù)[3]。如傳感器讀取的數(shù)據(jù)、遙感勘測數(shù)據(jù)、調(diào)研結(jié)果、神經(jīng)圖像、實驗數(shù)據(jù)及來自測試模型的仿真數(shù)據(jù)等[4]。作為描述科學數(shù)據(jù)的工具,科學元數(shù)據(jù)(Scientific Metadata)在數(shù)據(jù)發(fā)現(xiàn)、數(shù)據(jù)使用和數(shù)據(jù)重利用及存儲等關(guān)鍵環(huán)節(jié)有重要作用,元數(shù)據(jù)標準為科學數(shù)據(jù)的存儲、整序、組織、索引以及檢索等一系列關(guān)鍵問題提供解決方案。
科學元數(shù)據(jù)是一系列詮釋科學數(shù)據(jù)的文件,提供必要的輔助信息來發(fā)現(xiàn)、解釋、理解、評估和使用數(shù)據(jù)[5]。在很大程度上,科學元數(shù)據(jù)基本是對與研究相關(guān)的所有信息的描述,這些描述以重用和解釋數(shù)據(jù)為目的[6]。數(shù)據(jù)用戶群體的學科背景往往是小而專,其來自某一個特定的學科或者研究領(lǐng)域。因此,制定科學元數(shù)據(jù)標準通常需要特定的專業(yè)知識[7],這導(dǎo)致科學元數(shù)據(jù)多以描述對象所處的專業(yè)領(lǐng)域進行劃分。目前,應(yīng)用比較廣泛的劃分方式是將其劃分為學科領(lǐng)域元數(shù)據(jù)標準和通用型元數(shù)據(jù)標準[3,5]。例如,英國數(shù)字監(jiān)護中心收集6種不同學科的元數(shù)據(jù)標準。據(jù)統(tǒng)計,77%的科學元數(shù)據(jù)標準是特定學科領(lǐng)域元數(shù)據(jù)標準或指向統(tǒng)計、行為描述等特定領(lǐng)域的元數(shù)據(jù)[8]。盡管存在豐富的元數(shù)據(jù)標準,科研人員的使用情況卻不樂觀。Tenopir等的調(diào)查顯示,56%的研究人員未使用過元數(shù)據(jù)標準,22%的研究者僅用過實驗室的元數(shù)據(jù)標準[9]。由此可見,學科領(lǐng)域內(nèi)復(fù)雜的元數(shù)據(jù)標準體系雖然豐富,但實用性不強。隨著科學數(shù)據(jù)管理的不斷推進,不同標準的使用也會造成數(shù)據(jù)交換和統(tǒng)一管理的困難。因此,實現(xiàn)跨學科或者不受學科限制使用的通用型元數(shù)據(jù)標準備受重視。對比單一學科的元數(shù)據(jù)標準,通用型元數(shù)據(jù)標準可以涵蓋多個學科的數(shù)據(jù)特點,覆蓋學科范圍廣、適應(yīng)性強,有利于進行數(shù)據(jù)交換。
目前,國外通用型科學元數(shù)據(jù)標準已經(jīng)從標準制定發(fā)展到實際應(yīng)用階段。英國、美國等國家的多個數(shù)據(jù)管理機構(gòu)已開始使用自身研制的通用型元數(shù)據(jù)標準。在國內(nèi),研究者對通用型科學元數(shù)據(jù)標準在理論研究和技術(shù)應(yīng)用等方面進行研究[10-11]。胡芳[12]、趙華等[13]分析國外典型科學元數(shù)據(jù)標準以及科學數(shù)據(jù)倉儲中應(yīng)用的元數(shù)據(jù)方案,為國內(nèi)元數(shù)據(jù)標準建設(shè)提供建議;劉峰等在對6種典型的學科類型元數(shù)據(jù)標準進行概述、分析和統(tǒng)計的基礎(chǔ)上,進一步構(gòu)建通用型元數(shù)據(jù)規(guī)范[14];常穎聰?shù)葒L試以植物學基因表達實驗為例進行科學實驗數(shù)據(jù)元數(shù)據(jù)模型研究[15];徐坤等通過研究科學數(shù)據(jù)的元數(shù)據(jù)模型,構(gòu)建科學數(shù)據(jù)本體,將數(shù)據(jù)組織置于知識環(huán)境中[3];周波提出針對高??茖W數(shù)據(jù)的通用元數(shù)據(jù)設(shè)計原則[16]。不過,以上研究基本是基于國外成熟學科元數(shù)據(jù)標準,進一步明確科學元數(shù)據(jù)標準建設(shè)的規(guī)范和功能,尚未對通用型元數(shù)據(jù)標準進行直接地分析探討。本文重點對國外通用型科學元數(shù)據(jù)標準進行研究,為國內(nèi)相應(yīng)的元數(shù)據(jù)標準建設(shè)提供建議。
通用型科學元數(shù)據(jù)標準在適用范圍和內(nèi)容元素等方面與學科元數(shù)據(jù)標準存在差異。在適用范圍上,通用型科學元數(shù)據(jù)標準不受學科領(lǐng)域限制,可以對不同學科的科學數(shù)據(jù)進行描述和組織,可以被眾多綜合性的數(shù)據(jù)倉儲機構(gòu)和數(shù)據(jù)檢索平臺所使用,不局限于特定學科的數(shù)據(jù)存儲庫。
在元素設(shè)置上,通用型科學元數(shù)據(jù)標準建設(shè)的目標是可擴展性、彈性、模塊化和可移植性等,滿足數(shù)據(jù)的記錄、交換、檢索和存檔等功能需求。Huang等的調(diào)查顯示,研究人員使用元數(shù)據(jù)標準側(cè)重于其綜合性、充分性、簡易性和抽象性[17],而諸多學科元數(shù)據(jù)元素以及大量的、多樣化的標準和廣泛而差異的命名規(guī)則,在一定程度上阻礙元數(shù)據(jù)標準的推廣使用[18]。Boyd基于分類和組織內(nèi)容提出科學元數(shù)據(jù)標準內(nèi)容的三個層次:第一層次是元數(shù)據(jù)標準的元素集合,如Dublin Core、CKAN等;第二層次是反應(yīng)科學環(huán)境元數(shù)據(jù)(Contextual Metadata),涉及基本實體有project、person、organization unit、result、publication、patent、product;第三層次是描述性元數(shù)據(jù),提供更細粒度的、詳細的信息[19]。這些詳細的信息應(yīng)涵蓋數(shù)據(jù)狀態(tài)、數(shù)據(jù)管理權(quán)限、地理、空間信息引用和版本說明等[20]。例如,英國中央實驗室研究理事會研發(fā)的核心科學元數(shù)據(jù)模型(Core Scientific MetaData Model)將組成元素分為主題、研究描述、數(shù)據(jù)獲取條件、數(shù)據(jù)描述、數(shù)據(jù)定位和相關(guān)資源等六個方面,從而方便以統(tǒng)一的形式實現(xiàn)科學數(shù)據(jù)的組織和獲取[8]。
3.1 國外通用型元數(shù)據(jù)標準
在科學數(shù)據(jù)管理周期中,元數(shù)據(jù)標準處于核心地位。國外諸多科學數(shù)據(jù)管理模型,如ICPSR社會科學數(shù)據(jù)存檔生命周期模型、DataONE科學數(shù)據(jù)生命周期管理模型,以及英國數(shù)據(jù)存檔數(shù)據(jù)生命周期管理模型等都十分重視數(shù)據(jù)歸檔和階段管理規(guī)范化[21]。元數(shù)據(jù)標準是每個數(shù)據(jù)管理機構(gòu)必須重視的規(guī)范化文件之一。2012年,NISO/DCMI聯(lián)合研討會更是以“科學研究數(shù)據(jù)管理元數(shù)據(jù)”為主題,對元數(shù)據(jù)標準進行系統(tǒng)地研討[22]。
目前,國外科學元數(shù)據(jù)標準十分豐富,不僅研制學科性質(zhì)的元數(shù)據(jù)標準,而且在制定和使用通用型科學元數(shù)據(jù)標準。本研究調(diào)查了英國數(shù)字監(jiān)護中心(DCC)[23]、Research Data Alliance(RDA)[24]以及都柏林核心元數(shù)據(jù)[25]等科學元數(shù)據(jù)使用和管理平臺,對目前國外通用型元數(shù)據(jù)標準進行初步統(tǒng)計,相關(guān)情況如表1所示。
除此之外,還有一些關(guān)于編碼、控制語言等方面科學數(shù)據(jù)描述的標準。
(1)Data Catalog Vocabulary(DCAT)。利用DCAT可以描述數(shù)據(jù)目錄中的數(shù)據(jù)集。統(tǒng)一的描述使得應(yīng)用程序更容易從多個目錄中獲取元數(shù)據(jù)。該標準有利于將分散出版的目錄集成在網(wǎng)站中,從而進行聯(lián)合數(shù)據(jù)集搜索。聚集的DCAT元數(shù)據(jù)可以作為一個數(shù)字保存清單。
(2)RDF Data Cube Vocabulary。該標準為在網(wǎng)絡(luò)發(fā)布多維數(shù)據(jù)(如統(tǒng)計數(shù)據(jù))提供了一種方式。通過該標準和W3C的RDF(資源描述框架)標準,可以將數(shù)據(jù)鏈接到相關(guān)數(shù)據(jù)集和概念實體。模型支撐數(shù)據(jù)方體(Data Cube)的詞匯和立方體模型,并與SDMX(Statistical Data and Metadata Exchange)的數(shù)據(jù)模型兼容。
(3)Data Package是一個數(shù)據(jù)交換的通用包裝格式。雖然支持任意的元數(shù)據(jù),但該格式定義了數(shù)據(jù)包作為一個整體必備的、推薦的和可選的字段,以及所包含的相關(guān)資源。
表1 國外通用型元數(shù)據(jù)標準情況調(diào)查表
在科學數(shù)據(jù)元數(shù)據(jù)標準發(fā)展過程中,諸多數(shù)據(jù)存儲機構(gòu)也參與到標準的制定中。一些大規(guī)模的數(shù)據(jù)存儲服務(wù)提供者認為目前很多元數(shù)據(jù)標準并不能滿數(shù)據(jù)庫的使用,所以按需制定了元數(shù)據(jù)描述要求和規(guī)則[26]。這些存儲機構(gòu)很多都是專業(yè)領(lǐng)域內(nèi)涵蓋具體學科數(shù)據(jù)的數(shù)據(jù)庫,有大量的專業(yè)數(shù)據(jù),所以其制定的元數(shù)據(jù)更專注于特定的數(shù)據(jù)(如基因數(shù)據(jù)、GIS數(shù)據(jù)等)。
國外通用型元數(shù)據(jù)標準適用于綜合性的科學數(shù)據(jù)管理平臺,基于效率以及管理的角度,其重要程度應(yīng)得到足夠的重視。但是,迄今為止美國和ISO沒有發(fā)布通用的元數(shù)據(jù)標準。國際元數(shù)據(jù)標準中,僅有都柏林核心元素集(15個描述元素)在科學數(shù)據(jù)管理中被應(yīng)用,而且這一標準并不可以完全覆蓋科學數(shù)據(jù)管理周期的所有要求。元數(shù)據(jù)管理者更多地依賴專業(yè)領(lǐng)域內(nèi)的元數(shù)據(jù)標準或者是利用第三方數(shù)據(jù)庫服務(wù)(如datacite進行數(shù)據(jù)發(fā)現(xiàn))[27]。通用型元數(shù)據(jù)標準并沒有得到統(tǒng)一的制定和使用,僅處于機構(gòu)和聯(lián)盟內(nèi)部標準階段。
3.2 國內(nèi)科學元數(shù)據(jù)標準
隨著科學數(shù)據(jù)管理的興起,國內(nèi)開始逐漸重視元數(shù)據(jù)標準發(fā)展問題。我國自2002年開始實施國家科學數(shù)據(jù)共享工程,并制定數(shù)據(jù)共享工程的核心元數(shù)據(jù)標準;2005年,科技部提出建立國家科學數(shù)據(jù)共享工程技術(shù)標準,并發(fā)布《國家科學數(shù)據(jù)共享工程核心元數(shù)據(jù)內(nèi)容》和《科學數(shù)據(jù)共享元數(shù)據(jù)標準(試行稿)》?!犊茖W數(shù)據(jù)共享元數(shù)據(jù)標準(試行稿)》提供了科學數(shù)據(jù)共享元數(shù)據(jù)內(nèi)容標準框架,定義科學數(shù)據(jù)共享核心元數(shù)據(jù)、公共元數(shù)據(jù)和參考元數(shù)據(jù)[28]。中國科學院也先后發(fā)布《中國科學院科學數(shù)據(jù)庫核心元數(shù)據(jù)標準》《人地系統(tǒng)主題數(shù)據(jù)庫元數(shù)據(jù)標準》《土壤科學數(shù)據(jù)庫元數(shù)據(jù)標準》等一系列學科數(shù)據(jù)庫元數(shù)據(jù)標準。2011年,“國家科技基礎(chǔ)條件平臺建設(shè)基礎(chǔ)科學數(shù)據(jù)共享網(wǎng)項目”發(fā)布《數(shù)據(jù)集核心元數(shù)據(jù)標準》。
目前,我國主要存在三項有關(guān)科學數(shù)據(jù)元數(shù)據(jù)的國家標準:GB/T 20533—2006《生態(tài)科學數(shù)據(jù)元數(shù)據(jù)》、GB/T 19710—2005《地理信息元數(shù)據(jù)》和GB/T 26499.3—2011《機械 科學數(shù)據(jù) 第3部分:元數(shù)據(jù)》。另外,部分行業(yè)的元數(shù)據(jù)標準也陸續(xù)推出。
國內(nèi)元數(shù)據(jù)標準建設(shè)側(cè)重于單個學科或部分行業(yè),科學元數(shù)據(jù)發(fā)展呈現(xiàn)不均衡狀態(tài),通用型科學元數(shù)據(jù)標準還在研制中,社會科學領(lǐng)域的科學元數(shù)據(jù)標準也尚未發(fā)展成型,元數(shù)據(jù)標準發(fā)展較為緩慢。在元數(shù)據(jù)標準應(yīng)用階段,國內(nèi)科學數(shù)據(jù)管理平臺應(yīng)用的元數(shù)據(jù)標準基本是國外已有的元數(shù)據(jù)標準或平臺建設(shè)軟件提供的元數(shù)據(jù)。
3.3 典型通用型科學元數(shù)據(jù)標準
3.3.1 《都柏林核心元數(shù)據(jù)元素集》
作為目前唯一的通用型元數(shù)據(jù)國際標準,《都柏林核心元數(shù)據(jù)元素集》(Dublin Core Metadata Element Set,DC)被廣泛認可,其15個DC元素得到廣泛傳播[29]。我國與其對應(yīng)的標準是GB/T 25100—2010。很多科學元數(shù)據(jù)標準以DC為基礎(chǔ)進行擴展,例如:Dryad Metadata Application Profile[30](用于描述同行評議的科學和醫(yī)學文獻等多學科數(shù)據(jù))、ANZLIC Metadata Profile(方便有效地訪問信息資源,特別是地理或空間數(shù)據(jù))和AGLS Metadata Standard[31](澳大利亞政府定位服務(wù)元數(shù)據(jù)標準,適用于網(wǎng)絡(luò)資源的可視性和可用性)等。
科學數(shù)據(jù)和科研過程極大地影響科學元數(shù)據(jù)的功能??茖W元數(shù)據(jù)在很大程度上是對與具體研究相關(guān)的所有信息的描述,包括對數(shù)據(jù)資源語境[相關(guān)性、質(zhì)量、限制(權(quán)利、成本)]變化的記錄以及相關(guān)軟件和計算機資源的參數(shù)數(shù)據(jù),最終可以根據(jù)元數(shù)據(jù)記錄創(chuàng)建虛擬的研究環(huán)境。相對于其他科學元數(shù)據(jù)標準,DC元數(shù)據(jù)缺少必備的元素對科學數(shù)據(jù)產(chǎn)生過程中的信息進行全面地記錄和描述,所以DC中的15個必備元素需要一定地擴展和補充[32]。
3.3.2 《數(shù)據(jù)文件倡議》
《數(shù)據(jù)文件倡議》(Data Documentation Initiative,DDI)是一個應(yīng)用廣泛的項目,很多科學數(shù)據(jù)管理機構(gòu)(如英國數(shù)據(jù)服務(wù)中心、英國數(shù)據(jù)檔案、美國ICPSR等)都采用該標準進行數(shù)據(jù)管理。DDI可以描述社會、經(jīng)濟、行為和健康科學領(lǐng)域內(nèi)的觀測方法得到的數(shù)據(jù),并進行文檔發(fā)現(xiàn)和互操作。DDI是描述社會和行為科學數(shù)據(jù)文檔的標準,該標準提供內(nèi)容交換和信息保存的格式標準進而可以促進文檔間的共同操作(見表2)。目前,DDI有兩個擴展版本。
(1)DDI Codebook(DDIversion 2)是比較簡單的版本,用于記錄簡單的調(diào)查類型數(shù)據(jù),可以進行交換或歸檔。DDI Codebook可以創(chuàng)建目錄記錄,分為兩種:study-level descriptions和codebook-type variable-level descriptions。這樣的記錄層次降低調(diào)查類的數(shù)據(jù)記錄粒度,使得問卷中的問題可以被描述和重利用。
表2 DDI元素
(2)DDI Lifecycle(DDIversion 3)是比較豐富的版本,可用于描述處于數(shù)據(jù)生命周期任一階段的數(shù)據(jù),涵蓋從概念產(chǎn)生、發(fā)布和數(shù)據(jù)重用。它是模塊化和可擴展的。DDI Lifecycle可以對復(fù)雜數(shù)據(jù)進行層次性和縱向性的描述,創(chuàng)建元數(shù)據(jù)驅(qū)動的調(diào)查設(shè)計(如問卷設(shè)計);DDI Lifecycle的描述可以使整個數(shù)據(jù)生命周期的任意階段數(shù)據(jù)得到重用,如可變編碼階段、數(shù)據(jù)收集工具使用階段等;同時,DDI Lifecycle創(chuàng)建問題/概念/變量存儲、組織/個人的登記表等。DDI標準采用XML組織, 由國際數(shù)據(jù)文檔倡議聯(lián)盟組織(DDIA)負責開發(fā)[33]。
3.3.3 《科學數(shù)據(jù)共享核心元數(shù)據(jù)標準》
科技部為滿足科學數(shù)據(jù)共享工程對元數(shù)據(jù)內(nèi)容的基本需求制定《科學數(shù)據(jù)共享核心元數(shù)據(jù)標準》(見表3),其目的是方便科學數(shù)據(jù)共享數(shù)據(jù)集的管理,提高數(shù)據(jù)庫建庫質(zhì)量,促進數(shù)據(jù)加工的規(guī)范化、標準化,實現(xiàn)數(shù)據(jù)交流與共享。該標準主要采用或參考ISO 19115《地理信息——元數(shù)據(jù)》和《都柏林核心元數(shù)據(jù)元素集》。該標準定義三個層次的元數(shù)據(jù)集合:科學數(shù)據(jù)共享核心元數(shù)據(jù)(22個元素)、公共元數(shù)據(jù)(156個元數(shù)據(jù)元素和實體)和參考元數(shù)據(jù)(388個元素)。三個層次的元數(shù)據(jù)集合在內(nèi)容上是包含關(guān)系,又同時分別滿足整個工程、各個領(lǐng)域以及具體應(yīng)用層面的需求。核心元數(shù)據(jù)面對不同領(lǐng)域、不同類型的數(shù)據(jù)資源展開統(tǒng)一描述,而公共元數(shù)據(jù)和參考元數(shù)據(jù)對于制定領(lǐng)域元數(shù)據(jù)標準和領(lǐng)域?qū)S迷獢?shù)據(jù)標準起著很重要的作用。
表3 《科學數(shù)據(jù)共享核心元數(shù)據(jù)標準》
3.3.4 《中國科學院科學數(shù)據(jù)庫核心元數(shù)據(jù)標準》
2005年,中國科學院計算機網(wǎng)絡(luò)信息中心和科學數(shù)據(jù)庫中心聯(lián)合推出《中國科學院科學數(shù)據(jù)庫核心元數(shù)據(jù)標準》。該標準參考都柏林核心元數(shù)據(jù)標準、RSLP資源集合描述標準、生態(tài)學元數(shù)據(jù)語言、數(shù)字地理空間元數(shù)據(jù)內(nèi)容標準。《中國科學院科學數(shù)據(jù)庫核心元數(shù)據(jù)標準》包括《數(shù)據(jù)集元數(shù)據(jù)》和《服務(wù)元數(shù)據(jù)》兩個主要部分。
《數(shù)據(jù)集元數(shù)據(jù)》是一個面向數(shù)據(jù)集層次的科學數(shù)據(jù)資源的元數(shù)據(jù)標準,定義一組通用的元數(shù)據(jù)模塊和元素,包括數(shù)據(jù)集描述信息、數(shù)據(jù)質(zhì)量信息、數(shù)據(jù)集分發(fā)信息、元數(shù)據(jù)參考信息、服務(wù)參考信息以及結(jié)構(gòu)描述信息等六個主要復(fù)合元素模塊,還包括范圍信息和聯(lián)系信息輔助模塊。用戶在遵循擴展機制的基礎(chǔ)上,基于此標準開發(fā)滿足特定學科或主題領(lǐng)域的元數(shù)據(jù)應(yīng)用方案。
《服務(wù)元數(shù)據(jù)》是一個面向科學數(shù)據(jù)庫系統(tǒng)中各種服務(wù)的元數(shù)據(jù)標準,定義一個通用的服務(wù)描述模型,并基于此模型為所需要的五類服務(wù)分別定義描述元素。這五類服務(wù)是數(shù)據(jù)集連接服務(wù)、中間件服務(wù)、網(wǎng)格服務(wù)、WWW服務(wù)和FTP服務(wù)。通用描述模型抽象了所有服務(wù)的描述模式,任何新的服務(wù)均可依據(jù)該模型來定義其元數(shù)據(jù)元素。
3.3.5 《數(shù)據(jù)集核心元數(shù)據(jù)標準》
2011年3月,國家科技基礎(chǔ)條件平臺建設(shè)基礎(chǔ)科學數(shù)據(jù)共享網(wǎng)項目發(fā)布《數(shù)據(jù)集核心元數(shù)據(jù)標準》。該標準規(guī)定各種需求層次的元數(shù)據(jù)應(yīng)用所需要的最小元數(shù)據(jù)元素(簡稱“核心元數(shù)據(jù)”),以及對元數(shù)據(jù)進行擴展和制定元數(shù)據(jù)應(yīng)用方案的規(guī)則和方法,以滿足各學科領(lǐng)域的特殊需求。該標準適用于科學數(shù)據(jù)庫的編目和描述、組織管理,也可用于數(shù)據(jù)資源的交換、集成和服務(wù)[34]。
核心元數(shù)據(jù)面向數(shù)據(jù)集層次的科學數(shù)據(jù)資源,主要分為3個模塊:描述信息、元數(shù)據(jù)參考信息和聯(lián)系信息。
(1)描述信息。主要包括數(shù)據(jù)集的名稱、簡介、創(chuàng)建日期、創(chuàng)建者等基本信息,著重描述數(shù)據(jù)資源的基本屬性,且與DC、Content Standard for Digital Geospatial Metadata等國際上主要的元數(shù)據(jù)標準的相應(yīng)元素基本一一對應(yīng)(共22個標準元素)。
(2)元數(shù)據(jù)參考信息。提供數(shù)據(jù)集依據(jù)的元數(shù)據(jù)標準名稱和版本、有關(guān)元數(shù)據(jù)創(chuàng)建日期和元數(shù)據(jù)創(chuàng)建及維護者的聯(lián)系方式等方面的重要信息。數(shù)據(jù)集用戶可以了解到與元數(shù)據(jù)記錄的建立有關(guān)的信息,將有助于元數(shù)據(jù)維護人員進行元數(shù)據(jù)的修改與維護。
(3)聯(lián)系信息。作為該標準的輔助模塊,供其他模塊的特定元素在需要的時候進行引用。聯(lián)系信息分為六個方面:聯(lián)系人姓名(與數(shù)據(jù)集有關(guān)的聯(lián)系人員名稱)、單位、地址、傳真、電話以及電子郵件地址。
此外,《數(shù)據(jù)集核心元數(shù)據(jù)標準》還提供擴展和應(yīng)用說明,為元數(shù)據(jù)的互操作性奠定基礎(chǔ)。
我國的科學數(shù)據(jù)管理尚處于起步階段,目前國內(nèi)外尚未形成比較完備的管理標準,特別是通用型元數(shù)據(jù)標準,標準建設(shè)不完善。雖然有對科技平臺資源進行描述的標準,但是還不能完全滿足科學數(shù)據(jù)的管理需求。
國外科學數(shù)據(jù)管理發(fā)展迅速,眾多的數(shù)據(jù)管理機構(gòu)推出科學元數(shù)據(jù)標準,再加上已存在的學科領(lǐng)域的數(shù)據(jù)標準,最終形成復(fù)雜多樣的科學元數(shù)據(jù)標準。管理者自主制定的標準導(dǎo)致數(shù)據(jù)互操作性以及共享性受到很大影響。隨著數(shù)據(jù)的流動和開放數(shù)據(jù)共享的發(fā)展,標準的差異將會帶來更繁雜的數(shù)據(jù)整合工作。大量的科學數(shù)據(jù)的產(chǎn)生必然需要高效規(guī)范的管理。
國內(nèi)相關(guān)標準還在研制中,不斷出現(xiàn)的數(shù)據(jù)倉儲和管理平臺迫切需要比較成熟的元數(shù)據(jù)標準進行管理。目前國內(nèi)的管理者都是各自選擇國外的元數(shù)據(jù)標準,國外的標準大多也還處于行業(yè)和機構(gòu)標準的水平,這不利于數(shù)據(jù)交換和統(tǒng)一管理??茖W數(shù)據(jù)的管理將會面臨大儲量、多學科、規(guī)范性等問題。為達到數(shù)據(jù)分享和統(tǒng)一管理等目的,通用型元數(shù)據(jù)標準的使用是解決這些問題的一個有效方法。因此,國內(nèi)相關(guān)標準創(chuàng)建可以借鑒國外已有經(jīng)驗,縮短探索過程。
(1)整合已有科學元數(shù)據(jù)標準元素,創(chuàng)建統(tǒng)一的元素集合。國內(nèi)標準在制定時,多采用國際應(yīng)用范圍較廣的元數(shù)據(jù)標準。國外也是如此,如:Dataverse Network符合DDI Codebook、DC、CSDGM、MARC LOCKSS、OAI等標準創(chuàng)建;Dryad的元數(shù)據(jù)服務(wù)也同時符合DC、Darwin Core、Bibliographic Ontology、METS/MODS等元數(shù)據(jù)標準。Willis等通過對16個元數(shù)據(jù)標準、4 400多個獨特的元素進行統(tǒng)計分析,發(fā)現(xiàn)描述類元素數(shù)量較大而且與DC元素存在重復(fù)[35]。所以對比國內(nèi)外的標準發(fā)現(xiàn),在元素設(shè)計上,很多標準可以繼續(xù)整合提取,創(chuàng)建涵蓋科學數(shù)據(jù)管理周期的元素集合。
(2)擴展元數(shù)據(jù)描述層次,涵蓋數(shù)據(jù)生命周期。國內(nèi)目前的元數(shù)據(jù)標準設(shè)計主要有3類信息:描述數(shù)據(jù)集、元數(shù)據(jù)參考信息和數(shù)據(jù)責任方信息。描述對象集中于數(shù)據(jù)集合,以及對數(shù)據(jù)集層面的關(guān)聯(lián)信息,缺少數(shù)據(jù)集層次以下的數(shù)據(jù)描述和組織。科學元數(shù)據(jù)描述范圍應(yīng)該涵蓋數(shù)據(jù)產(chǎn)生到引用的全過程,如DDI涵蓋從項目到變量的多層次數(shù)據(jù),建立較深層的數(shù)據(jù)索引。
(3)以科學數(shù)據(jù)共享元數(shù)據(jù)為藍本進行標準制定,建立通用型元數(shù)據(jù)標準??茖W數(shù)據(jù)共享元數(shù)據(jù)在覆蓋信息范圍、元素設(shè)計層次以及建立實體關(guān)聯(lián)等方面領(lǐng)先于國內(nèi)其他的元數(shù)據(jù)標準;而且在元素設(shè)計層次上,考慮到核心元數(shù)據(jù)集合與各領(lǐng)域內(nèi)元數(shù)據(jù)集合的關(guān)聯(lián),在框架結(jié)構(gòu)上起到通用型標準的作用,這也是國外標準未實現(xiàn)的功能。因此,可以此標準為藍本進行進一步的設(shè)計和擴展。在數(shù)據(jù)標識、名稱的權(quán)限控制,關(guān)聯(lián)數(shù)據(jù),本體和詞匯,以及數(shù)據(jù)引用標準等方面進行規(guī)范[36],特別是擴展描述性元數(shù)據(jù)支持資源發(fā)現(xiàn)和保存的功能。這也是科學元數(shù)據(jù)與傳統(tǒng)元數(shù)據(jù)標準的不同之處。將不同學科的數(shù)據(jù)通過統(tǒng)一元數(shù)據(jù)標準進行關(guān)聯(lián),加強數(shù)據(jù)索引的深度和廣度,為下一步的科學發(fā)現(xiàn)和合作做好準備。
大多數(shù)的科學元數(shù)據(jù)標準為特定學科的元數(shù)據(jù)標準或特定領(lǐng)域的元數(shù)據(jù)標準,通用型元數(shù)據(jù)標準建設(shè)不足,廣泛認可的國際標準缺乏。國內(nèi)正處于標準建設(shè)期,可從建設(shè)初期制定國家標準,避免標準發(fā)展的混亂,將會極大地促進科學數(shù)據(jù)管理的發(fā)展。
[1] OECD.OECD Principles and Guidelines for access to research data from public funding[EB/OL].(2007-04)[2016-09-09].http://www.oecd.org/science/sci-tech/oecdprinciplesandguidelinesforaccesstoresearchdatafro mpublicfunding.htm.
[2] NIH.NIH Grants Policy Statement[EB/OL].(2011-10-20)[2016-09-09]. http://grants.nih.gov/grants/policy/nihgps_2011/nihgps_ch2.htm.
[3] 徐坤,蔚曉慧,畢強.基于數(shù)據(jù)本體的科學數(shù)據(jù)語義化組織研究[J].圖書情報工作,2015(17):120-126.
[4] 李曉輝.圖書館科研數(shù)據(jù)管理與服務(wù)模式探討[J].中國圖書館學報,2011(5):46-52.
[5] DAVENHALL C.Scientific Metadata[EB/OL].[2016-09-09].http://www. dcc.ac.uk/resources/curation-reference-manual/chapters-production/scientific-metadata.
[6] Australian National Data Service.Metadata[EB/OL].[2016-09-09].http://www.ands.org.au/working-with-data/metada.
[7] Australian National Data Service.Metadata: Working level[EB/OL].[2016-09-09]. http://www.ands.org.au/guides/metadata-working#4.4.
[8] MATTHEWS B,SUFI S,FLANNERY D,et al.Using a core scientific metadata model in large-scale facilities[J].International Journal of Digital Curation,2010,5(1):106-118.
[9] TENOPIR C,ALLARD S,DOUGLASS K,et al.Data sharing by scientists: practices and perceptions[J].PLos ONE,2011,6(6):1-21.
[10] 周波,錢鵬.我國科學數(shù)據(jù)元數(shù)據(jù)研究綜述[J].圖書館學研究,2013(2):7-10.
[11] 黃如花,邱春艷.國內(nèi)外科學數(shù)據(jù)元數(shù)據(jù)研究進展[J].圖書與情報,2014(6):102-108.
[12] 胡芳.國外典型科學數(shù)據(jù)倉儲實施的元數(shù)據(jù)方案及啟示[J].圖書與情報,2015(1):117-121.
[13] 趙華,王健.國內(nèi)外科學數(shù)據(jù)元數(shù)據(jù)標準及內(nèi)容分析[J].情報探索,2015(2):21-24,30.
[14] 劉峰,張曉林.科學數(shù)據(jù)元數(shù)據(jù)標準述評及其通用化設(shè)計研究[J].現(xiàn)代圖書情報技術(shù),2015(12):3-12.
[15] 常穎聰,何琳.科學實驗數(shù)據(jù)元數(shù)據(jù)模型構(gòu)建研究——以植物學基因表達實驗為例[J].圖書情報工作,2015(13):117-125.
[16] 周波.高??茖W數(shù)據(jù)元數(shù)據(jù)方案初探[J].圖書館學研究,2012(1):45-49,53.
[17] HUANG H,QIN J.Understanding metadata functional requirements in genome curation work[J].Proceedings of the American Society for Information Science and Technology,2013,50(1):1-4.
[18] QIN J,LI K.How portable are the metadata standards for scientific data?A proposal for a metadata infrastructure[EB/OL].[2016-09-07]. http://jianqin.metadataetc.org/wp-content/uploads/2013/08/DC2013-metadatad-portability.pdf.
[19] BOYD D.CERIF tutorial and UK data surgery[EB/OL].(2012-02-16) [2016-09-07].http://data.blogs.ilrt.org/2012/02/16/cerif-tutorial-and-uk-datasurgery/.
[20] Metadata for managing scientific research data NISO/DCMI webinar[EB/OL]. [2016-09-07].http://www.slideshare.net/BaltimoreNISO/metadata-formanaging-scientific-research-data.
[21] 丁寧,馬浩琴.國外高??茖W數(shù)據(jù)生命周期管理模型比較研究及借鑒[J].圖書情報工作,2013(6):18-22.
[22] Metadata for managing scientific research data[EB/OL].[2016-08-10]. http://www.niso.org/news/events/2012/dcmi/scientific_data/#about.
[23] Digital Curation Centre[EB/OL].[2016-08-10].http://www.dcc.ac.uk.
[24] RDA:Metadata directory[EB/OL].[2016-08-14].https://www.rd-alliance.org/.
[25] Dublin Core Metadata.Announcements[EB/OL].[2016-08-10].http://dublincore.org/.
[26] Repository-Developed metadata schemas[EB/OL].[2016-08-10].http://rdalliance.github.io/metadata-directory/standards/repository-developedmetadata-schemas.html.
[27] Metadata for research data management[EB/OL].[2016-08-10].http://hangingtogether.org/?p=5616.
[28] 吳丹.近五年國內(nèi)外元數(shù)據(jù)研究進展[M]//陳傳夫.圖書館學研究進展.武漢:武漢大學出版社,2010.
[29] Dublin Core Metadata. Metadata basics[EB/OL].[2016-08-10].http://dublincore.org/metadata-basics/.
[30] Dryad Metadata Application Profile(Schema)[EB/OL].[2016-08-10]. http://wiki.datadryad.org/Metadata_Profile.
[31] AGLS Metadata standard[EB/OL].[2016-08-10].http://www.agls.gov.au/.
[32] DRYAD.Metadata profile[EB/OL].[2016-08-10].https://rd-alliance.org/metadata-principles-and-their-use.html.
[33] DDI-Community[EB/OL].[2016-09-10].http://www.ddial-liance.org/alliance.
[34] 數(shù)據(jù)集核心元數(shù)據(jù)標準[EB/OL].(2012-04-13)[2016-08-10].http://wenku. baidu.com/link?url=uhRqBPEyaX2F_8Ba8lARkyn3bkts-Dz60PgfH8CXdL2 jvrqGvCuaksFFfDCRGkb8GtNABBYmToBEXwqOt_BsAeEMIdNRx ku8SnClR2cWub_.
[35] WILLIS C,GREENBERG J,WHITE H.Analysis and synthesis of metadata goals for scientific data[J].Journal of the American Society for Information Science and Technology,2012,63(8):1505-1520.
[36] Scientific data application profile scoping study[EB/OL].[2016-09-10]. http://www.ukoln.ac.uk/projects/sdapss/.
Research on General Scientifi Metadata Standards
PU YanNi, LIU Qi, GENG Qian
(School of Government, Beijing Normal University, Beijing 100875, China)
Scientific data is regarded as an important scientific research value in the fourth paradigm of science time. The important role of scientific metadata has been paid more and more attention in the life cycle of data management.Especially in the field of social science, a large number of scientific data is in urgent need of specialized and unified metadata standards for the organization and management.Foreign comprehensive scientific metadata standards have developed more mature, while domestic metadata standards are still in the construction.This paper analyzes the construction purpose, function and main standard elements of the foreign metadata standards, and provides a reference for the domestic construction of comprehensive scientific metadata standards.
Scientific Metadata; Metadata Standards; General Metadata Standards
G201
10.3772/j.issn.1673-2286.2016.12.006
浦燕妮,女,1991年生,碩士研究生,研究方向:科研數(shù)據(jù)管理,E-mail:puyanni@163.com。
劉琪,女,1992年生,碩士研究生,研究方向:信息檢索、科研數(shù)據(jù)管理,E-mail:bnuliuqi@126.com。
耿騫,男,1965年生,教授,研究方向:信息檢索、網(wǎng)絡(luò)信息管理、管理信息系統(tǒng),E-mail:gengqian@bnu.edu.cn。
2016-10-11)