邱春艷 陳可睿
(曲阜師范大學(xué)傳媒學(xué)院,日照 276826)
隨著科學(xué)研究的不斷深入,數(shù)據(jù)體量迅速增長,數(shù)據(jù)內(nèi)容不斷豐富,科學(xué)研究呈現(xiàn)出數(shù)據(jù)密集型的特點(diǎn)??茖W(xué)數(shù)據(jù)已經(jīng)成為最有價(jià)值的戰(zhàn)略資源之一,是科技創(chuàng)新的關(guān)鍵要素[1],也是全球科學(xué)體系基礎(chǔ)設(shè)施的重要組成部分。2020年9月,英國政府為實(shí)現(xiàn)數(shù)據(jù)驅(qū)動(dòng)型創(chuàng)新領(lǐng)導(dǎo)者的目標(biāo)發(fā)布《國家數(shù)據(jù)戰(zhàn)略》(National Data Strategy),提出四項(xiàng)核心能力和數(shù)據(jù)領(lǐng)域的五個(gè)優(yōu)先任務(wù)[2]。美國國立衛(wèi)生研究院(National Institutes of Health,NIH)于2020年10月發(fā)布《NIH數(shù)據(jù)管理和共享最終政策》(Final NIH Policy for Data Management and Sharing),確立了最大限度公開和共享由NIH資助或開展的科研項(xiàng)目所產(chǎn)生的科研數(shù)據(jù)[3]。無論是數(shù)據(jù)創(chuàng)新驅(qū)動(dòng)、數(shù)據(jù)開放共享還是開放科學(xué)建設(shè),都離不開科學(xué)數(shù)據(jù)資源的支撐,這就需要對科學(xué)數(shù)據(jù)開展更高效的組織和管理??茖W(xué)元數(shù)據(jù),一些學(xué)者亦稱之為科學(xué)數(shù)據(jù)元數(shù)據(jù),它是對科學(xué)數(shù)據(jù)外部特征和內(nèi)部特征的詳細(xì)描述[4],能夠?qū)茖W(xué)數(shù)據(jù)的識(shí)別、追蹤、獲取等提供線索,為科學(xué)數(shù)據(jù)共享提供支撐。科學(xué)元數(shù)據(jù)標(biāo)準(zhǔn)的構(gòu)建和應(yīng)用,應(yīng)當(dāng)滿足領(lǐng)域內(nèi)的存儲(chǔ)要求、資源特點(diǎn)以及用戶需求。本文通過網(wǎng)絡(luò)調(diào)查和文獻(xiàn)調(diào)研,對當(dāng)前不同學(xué)科領(lǐng)域的典型科學(xué)元數(shù)據(jù)標(biāo)準(zhǔn)進(jìn)行對比分析,歸納總結(jié)當(dāng)前不同領(lǐng)域科學(xué)元數(shù)據(jù)標(biāo)準(zhǔn)使用現(xiàn)狀與特點(diǎn),以期為進(jìn)一步推動(dòng)我國科學(xué)數(shù)據(jù)的開放共享提供參考。
元數(shù)據(jù)(Metadata)是描述信息資源或數(shù)據(jù)對象的數(shù)據(jù),其最本質(zhì)、最抽象的定義就是關(guān)于數(shù)據(jù)的數(shù)據(jù)(Data about Data)[5-7]。而元數(shù)據(jù)標(biāo)準(zhǔn)是構(gòu)建元數(shù)據(jù)體系的重要環(huán)節(jié),是評價(jià)管理數(shù)字資源的結(jié)構(gòu)化數(shù)據(jù),集數(shù)字資源的屬性、圖形、數(shù)值、影像等多種元數(shù)據(jù)元素,用于對數(shù)字資源進(jìn)行生產(chǎn)管理和加工處理,記錄數(shù)據(jù)處理過程所產(chǎn)生的數(shù)據(jù)參數(shù)[8]。
英國數(shù)據(jù)策展中心(Digital Curation Centre,DDC)指出科學(xué)元數(shù)據(jù)“是一系列詮釋科學(xué)數(shù)據(jù)的文件,提供必要的輔助信息來發(fā)現(xiàn)、解釋、理解、評估和使用數(shù)據(jù)”[9]。黃如花等[10]認(rèn)為科學(xué)元數(shù)據(jù)“以科學(xué)數(shù)據(jù)為描述對象的元數(shù)據(jù),是對科學(xué)數(shù)據(jù)開展描述、組織、出版等工作的重要工具”。李善青等[11]認(rèn)為科學(xué)元數(shù)據(jù)“是對科學(xué)數(shù)據(jù)的用途、結(jié)構(gòu)、過程和環(huán)境的規(guī)范化描述,使科學(xué)數(shù)據(jù)更容易被發(fā)現(xiàn)、解釋、理解、評估和共享使用”。由此看出,科學(xué)元數(shù)據(jù)很大程度上是對研究數(shù)據(jù)的描述,是聚焦于具體學(xué)科實(shí)踐的一種元數(shù)據(jù),其構(gòu)建需要特定的學(xué)科領(lǐng)域知識(shí)作為支撐。因此,科學(xué)元數(shù)據(jù)標(biāo)準(zhǔn)是一系列詮釋科學(xué)數(shù)據(jù)的結(jié)構(gòu)化數(shù)據(jù)集,提供必要的信息線索來發(fā)現(xiàn)、解釋、理解、評估和使用科學(xué)數(shù)據(jù),是對科學(xué)數(shù)據(jù)展開描述、組織和揭示等工作的重要工具,以科學(xué)數(shù)據(jù)重用和解釋為目的。
通過對上述科學(xué)元數(shù)據(jù)標(biāo)準(zhǔn)概念的解讀,本文認(rèn)為凡是用于科學(xué)數(shù)據(jù)資源描述、組織、管理和揭示的元數(shù)據(jù)標(biāo)準(zhǔn)均屬于科學(xué)元數(shù)據(jù)標(biāo)準(zhǔn)的范疇。對既有的科學(xué)元數(shù)據(jù)標(biāo)準(zhǔn)實(shí)踐進(jìn)行調(diào)查可知,目前科學(xué)元數(shù)據(jù)標(biāo)準(zhǔn)主要有兩種情形:一種為將通用領(lǐng)域的元數(shù)據(jù)標(biāo)準(zhǔn)用于科學(xué)數(shù)據(jù)資源,以綜合性數(shù)據(jù)資源平臺(tái)為主;另一種為科學(xué)數(shù)據(jù)資源管理與共享實(shí)踐中新制定或生成的元數(shù)據(jù)標(biāo)準(zhǔn),以學(xué)科領(lǐng)域數(shù)據(jù)資源平臺(tái)為代表。
此外,目前對于科學(xué)元數(shù)據(jù)標(biāo)準(zhǔn)的分類,應(yīng)用較為廣泛的是將其劃分為通用元數(shù)據(jù)標(biāo)準(zhǔn)和學(xué)科領(lǐng)域元數(shù)據(jù)標(biāo)準(zhǔn)[12,13]。通用元數(shù)據(jù)標(biāo)準(zhǔn)可以對一般研究數(shù)據(jù)進(jìn)行描述,不針對特定學(xué)科領(lǐng)域的科學(xué)數(shù)據(jù),如Dublin Core、DataCite Metadata Schema等標(biāo)準(zhǔn)。面向?qū)W科領(lǐng)域的元數(shù)據(jù)標(biāo)準(zhǔn)是針對某一特定學(xué)科領(lǐng)域內(nèi)科學(xué)數(shù)據(jù)特點(diǎn)構(gòu)建的具有較強(qiáng)專指性的元數(shù)據(jù)標(biāo)準(zhǔn),如生物科學(xué)領(lǐng)域的Darwin Core、地球科學(xué)領(lǐng)域的ISO 19115等。因此,本文將科學(xué)元數(shù)據(jù)標(biāo)準(zhǔn)的類型劃分為通用元數(shù)據(jù)標(biāo)準(zhǔn)和學(xué)科領(lǐng)域元數(shù)據(jù)標(biāo)準(zhǔn)兩類。
科學(xué)技術(shù)的迭代更新帶來科學(xué)數(shù)據(jù)體量的快速膨脹,1991年Diederich等[14]提出倡議要求針對不同學(xué)科領(lǐng)域的特點(diǎn)構(gòu)建面向?qū)W科領(lǐng)域的元數(shù)據(jù)標(biāo)準(zhǔn),以便于科研人員更加精準(zhǔn)、高效地查找信息??茖W(xué)元數(shù)據(jù)標(biāo)準(zhǔn)逐漸呈現(xiàn)學(xué)科領(lǐng)域多、研究視角廣的趨勢。本文主要對DDC[15]、Re3Data.org[16]以及FAIRSharing[17]中收錄的生物科學(xué)、地球科學(xué)、物理科學(xué)和人文社會(huì)科學(xué)等不同學(xué)科領(lǐng)域的科學(xué)元數(shù)據(jù)標(biāo)準(zhǔn)進(jìn)行多角度對比分析,相關(guān)標(biāo)準(zhǔn)如表1所示。
表1 不同學(xué)科領(lǐng)域科學(xué)元數(shù)據(jù)標(biāo)準(zhǔn)
續(xù)表
2.1.1 科學(xué)元數(shù)據(jù)標(biāo)準(zhǔn)的學(xué)科領(lǐng)域分布
面向?qū)W科領(lǐng)域的科學(xué)元數(shù)據(jù)標(biāo)準(zhǔn)是根據(jù)學(xué)科領(lǐng)域特點(diǎn)和所屬學(xué)科科研人員實(shí)際研究需要構(gòu)建的,主要涉及可以產(chǎn)生大量數(shù)據(jù)集的自然科學(xué)領(lǐng)域,如物理化學(xué)、生物科學(xué)、地球科學(xué)、農(nóng)學(xué)林學(xué)等學(xué)科。而在社會(huì)科學(xué)和人文學(xué)科領(lǐng)域的科學(xué)元數(shù)據(jù)標(biāo)準(zhǔn)數(shù)量相對較少,調(diào)查發(fā)現(xiàn)主要涉及檔案學(xué)、統(tǒng)計(jì)學(xué)、社會(huì)行為、經(jīng)濟(jì)學(xué)等學(xué)科。
2.1.2 科學(xué)元數(shù)據(jù)標(biāo)準(zhǔn)的開發(fā)組織分布
科學(xué)元數(shù)據(jù)標(biāo)準(zhǔn)的構(gòu)建和發(fā)展離不開國際組織的支持。如制定DataCite Metadata Schema[18]的DataCite國際聯(lián)盟(the DataCite Metadata Consortium),開發(fā)DDI[19]的國際數(shù)據(jù)文檔倡議聯(lián)盟組織(Data Document Initiative Alliance,DDIA)等,這類機(jī)構(gòu)通常是某一行業(yè)的權(quán)威國際組織,對行業(yè)內(nèi)數(shù)據(jù)的描述和操作進(jìn)行規(guī)范。能夠在保證行業(yè)內(nèi)部數(shù)據(jù)互操作的同時(shí),便于不同行業(yè)間的數(shù)據(jù)互訪問。
除了國際組織對所屬學(xué)科領(lǐng)域科學(xué)數(shù)據(jù)描述的規(guī)范,政府部門、研究機(jī)構(gòu)和高校在科學(xué)數(shù)據(jù)描述的標(biāo)準(zhǔn)化和一致性進(jìn)程中也發(fā)揮著不可替代的作用。例如,構(gòu)建目錄交換格式(Directory Interchange Format,DIF)標(biāo)準(zhǔn)[20]的美國國家航空和宇宙航行局(National Aeronautics and Space Administration,NASA),建立Dryad科學(xué)數(shù)據(jù)倉儲(chǔ)元數(shù)據(jù)標(biāo)準(zhǔn)的美國國家進(jìn)化分析中心等機(jī)構(gòu)[21]等。隨著數(shù)據(jù)共享觀念的普及,越來越多來自不同領(lǐng)域、不同組織的科研人員加入科學(xué)元數(shù)據(jù)標(biāo)準(zhǔn)的構(gòu)建中。
通用科學(xué)元數(shù)據(jù)標(biāo)準(zhǔn)在元素的描述、結(jié)構(gòu)和約束性等方面的一致性要求為跨領(lǐng)域科學(xué)數(shù)據(jù)共享奠定了基礎(chǔ),而當(dāng)前大多數(shù)科學(xué)元數(shù)據(jù)標(biāo)準(zhǔn)的建設(shè)實(shí)踐主要圍繞特定獨(dú)立學(xué)科領(lǐng)域展開,且科學(xué)元數(shù)據(jù)的具體應(yīng)用場景和建設(shè)機(jī)構(gòu)存在用途與目的的差異,因此其設(shè)計(jì)需求和應(yīng)用目標(biāo)大不相同,使得不同標(biāo)準(zhǔn)所包含元素存在明顯差異。但從語義層面,不同科學(xué)元數(shù)據(jù)標(biāo)準(zhǔn)的元素存在相通性,為基于元數(shù)據(jù)的數(shù)據(jù)共享提供可能。
2.2.1 通用元數(shù)據(jù)標(biāo)準(zhǔn)的元素設(shè)置
通用元數(shù)據(jù)標(biāo)準(zhǔn)的元素設(shè)置多從科學(xué)數(shù)據(jù)資源的生命周期揭示與數(shù)據(jù)來源追溯、數(shù)據(jù)資源的重用性以及互操作性等多個(gè)角度綜合考慮,較為典型的當(dāng)屬DC元數(shù)據(jù)和DataCite Metadata Schema(以下簡稱DataCite)。1995年制定的DC元數(shù)據(jù)包含15個(gè)元素,能夠?qū)崿F(xiàn)對不同學(xué)科領(lǐng)域科學(xué)數(shù)據(jù)的描述,并在其發(fā)展過程中引入了限定詞的概念,進(jìn)一步細(xì)化對科學(xué)數(shù)據(jù)元數(shù)據(jù)的描述[22];最新的DataCite 4.4版本[23]明確10個(gè)必備元素、6個(gè)推薦元素以及8個(gè)可選元素,并使用永久性唯一標(biāo)識(shí)符(DOI)輔助科學(xué)數(shù)據(jù)的檢索、共享和重用等。英國考古數(shù)據(jù)服務(wù)(UK Archeology Data Service,UK ADS)和中國科學(xué)院國家科學(xué)數(shù)字圖書館均使用DC元數(shù)據(jù)對數(shù)據(jù)進(jìn)行收集、描述、編目和保存等,從數(shù)據(jù)描述的基礎(chǔ)層保障了不同學(xué)科背景和應(yīng)用目的的研究人員對數(shù)據(jù)資源的操作。
同為通用型元數(shù)據(jù)標(biāo)準(zhǔn),DC元數(shù)據(jù)與DataCite均包含Title、Creator、Subject、Publisher、Contributor、Date、Format、Identifier、Rights、Language、Description、Type等12個(gè)元素,重合率為37.5%(見表2),涵蓋對科學(xué)數(shù)據(jù)資源的描述、權(quán)限、管理等多個(gè)方面。除此之外,DC的Type元素和DataCite的Resource Type元素,是對科學(xué)數(shù)據(jù)類型的不同描述,即相同語義在兩個(gè)標(biāo)準(zhǔn)中呈現(xiàn)為相近但不同的元素名稱。
表2 典型通用元數(shù)據(jù)標(biāo)準(zhǔn)元素一覽表
2.2.2 面向?qū)W科領(lǐng)域科學(xué)元數(shù)據(jù)標(biāo)準(zhǔn)的元素差異
面向?qū)W科領(lǐng)域的科學(xué)元數(shù)據(jù)標(biāo)準(zhǔn)受學(xué)科性質(zhì)影響,元素設(shè)置既具有一致性,又存在較為明顯的差異。從元素?cái)?shù)量上看,生物科學(xué)領(lǐng)域最新版本的Darwin Core包含記錄級(jí)元數(shù)據(jù)、發(fā)生信息、材料樣品、事件、位置、地理上下文、標(biāo)識(shí)、分類和補(bǔ)充詞匯等不同類型共172項(xiàng)元素;地理科學(xué)領(lǐng)域ISO 19115包含元數(shù)據(jù)包數(shù)據(jù)字典和數(shù)據(jù)類型信息409項(xiàng)元素,共計(jì)13個(gè)元數(shù)據(jù)包;物理科學(xué)領(lǐng)域AVM包含55個(gè)元數(shù)據(jù)元素;人文社會(huì)科學(xué)領(lǐng)域DDI包含復(fù)合元素、簡單類型、元素組和屬性組共1 181個(gè)元素。由此可見,元數(shù)據(jù)元素?cái)?shù)量設(shè)置從幾十到上千個(gè)不等,而元素?cái)?shù)量的多少與科學(xué)元數(shù)據(jù)標(biāo)準(zhǔn)所要描述對象的詳細(xì)程度密切相關(guān)。
除了元素?cái)?shù)量上的明顯差異,相同語義內(nèi)涵的元素表示也存在差異。以對時(shí)間的描述為例,生物科學(xué)領(lǐng)域Darwin Core使用Event Date元素描述事件發(fā)生的日期時(shí)間,形式為YYYY-MM-DDThh:mm;地理科學(xué)領(lǐng)域ISO 19115利用title元素的時(shí)間子元素描述時(shí)間,形式為DD/MM/YYYY;物理科學(xué)領(lǐng)域AVM使用YYYYMM-DD形式的Date元素描述日期;人文社會(huì)科學(xué)領(lǐng)域MIDAS-Heritage使用DD-MM-YYYY形式描述與日期相關(guān)的Date元素。由此可見,科學(xué)元數(shù)據(jù)標(biāo)準(zhǔn)在具體的語義約束上具有明顯差異。
特定學(xué)科領(lǐng)域的科學(xué)元數(shù)據(jù)標(biāo)準(zhǔn)存在與其他學(xué)科領(lǐng)域標(biāo)準(zhǔn)不同的特有描述元素項(xiàng),從而更為明顯地體現(xiàn)學(xué)科主題和研究內(nèi)容特征。如生物科學(xué)領(lǐng)域ABCD、Darwin Core以及EML都使用Taxon元素記錄描述對象所屬的生物學(xué)類群;地球科學(xué)領(lǐng)域的ISO 19115和DIF均使用Platform元素描述支撐傳感器的結(jié)構(gòu);物理科學(xué)領(lǐng)域的AVM和CSMD均使用Facility元素描述實(shí)驗(yàn)過程所使用的工具;而人文社會(huì)科學(xué)領(lǐng)域MIDASHeritage和EDA均使用Archival元素描述對象地理位置、來源和類型等相關(guān)信息。
由于相同領(lǐng)域不同元數(shù)據(jù)標(biāo)準(zhǔn)建立的角度和描述目的不同,其元素之間也存在差異。生物科學(xué)領(lǐng)域,ABCD從生物多樣性角度構(gòu)建用于訪問和交換有關(guān)標(biāo)本和觀察的數(shù)據(jù)[24],Darwin Core基于分類群通過提供標(biāo)識(shí)符、標(biāo)簽和定義來促進(jìn)生物多樣性信息的共享[25]。由于標(biāo)準(zhǔn)之間描述的側(cè)重點(diǎn)不同,相較于ABCD,Darwin Core在測量角度包含measurement ID、measurement Remarks、measurement Type、measurement Unit等元素,對測量分類群進(jìn)行更加深入的描述。
關(guān)聯(lián)開放數(shù)據(jù)的提倡者Tim Berners Lee在2010年5月提出開放數(shù)據(jù)五星評價(jià)標(biāo)準(zhǔn)。該標(biāo)準(zhǔn)又稱為數(shù)據(jù)復(fù)用的馬斯洛金字塔,第一層是指基本需求的滿足,而后逐層深入,第五層表示數(shù)據(jù)開放的最佳狀態(tài)[26]。其中,一星標(biāo)準(zhǔn)指數(shù)據(jù)以任何格式存在于Web上;二星指數(shù)據(jù)的形式為結(jié)構(gòu)化數(shù)據(jù);三星是以非專有的數(shù)據(jù)開放格式,如CVS;四星是指使用URI標(biāo)識(shí)指向信息標(biāo)的;五星是指使用數(shù)據(jù)鏈接其他數(shù)據(jù)并提供上下文信息。根據(jù)上述標(biāo)準(zhǔn),JSON、RDF、LOD等格式能夠使用URI表示信息,可以提供數(shù)據(jù)鏈接到其他數(shù)據(jù),滿足四星甚至五星的數(shù)據(jù)開放要求,是元數(shù)據(jù)文件格式中較好的實(shí)踐。
調(diào)查可知元數(shù)據(jù)文件格式中以RDF、XML格式為主,部分提供JSON格式,均符合較高水平的數(shù)據(jù)開放文件格式(見表3)。元數(shù)據(jù)的文件格式隨著科學(xué)數(shù)據(jù)共享、復(fù)用的需求不斷豐富,例如DCAT從支持XML、RDF格式到支持各種特殊格式[27]。
表3 元數(shù)據(jù)標(biāo)準(zhǔn)的元數(shù)據(jù)文件格式一覽
科學(xué)數(shù)據(jù)往往由組織機(jī)構(gòu)通過科學(xué)數(shù)據(jù)倉儲(chǔ)完成存儲(chǔ)、管理、檢索和共享,由于學(xué)科背景及數(shù)據(jù)屬性的不同,科學(xué)數(shù)據(jù)多為異構(gòu)資源,眾多科學(xué)元數(shù)據(jù)標(biāo)準(zhǔn)也存在很大差異?,F(xiàn)階段倉儲(chǔ)庫主要分為結(jié)構(gòu)異構(gòu)和語義異構(gòu)兩種類型。前者多是由于存儲(chǔ)結(jié)構(gòu)不同導(dǎo)致的,后者主要是由于相同概念在不同倉儲(chǔ)庫所使用的數(shù)據(jù)結(jié)構(gòu)不同導(dǎo)致的,也可以理解為不同倉儲(chǔ)庫使用不同的數(shù)據(jù)結(jié)構(gòu)表達(dá)同一概念[28-29]。語義異構(gòu)是數(shù)據(jù)共享中要重點(diǎn)解決的問題,而映射關(guān)系則是解決這一困難的有效工具。
科學(xué)元數(shù)據(jù)標(biāo)準(zhǔn)能夠保證科學(xué)數(shù)據(jù)在所屬倉儲(chǔ)庫中的一致性,通過映射關(guān)系科研人員能夠?qū)崿F(xiàn)不同倉儲(chǔ)庫科學(xué)數(shù)據(jù)的互操作。經(jīng)調(diào)查,DDI使用DataCite和DC元數(shù)據(jù)兩種標(biāo)準(zhǔn)進(jìn)行映射,能夠?qū)崿F(xiàn)通用學(xué)科領(lǐng)域、生物領(lǐng)域和人文社會(huì)科學(xué)領(lǐng)域三個(gè)不同學(xué)科領(lǐng)域倉儲(chǔ)庫中科學(xué)數(shù)據(jù)的互操作,增強(qiáng)跨領(lǐng)域的學(xué)科交流。DDI與DataCite的相互映射更是極大地方便了科研人員使用通用元數(shù)據(jù)標(biāo)準(zhǔn)對專業(yè)學(xué)科領(lǐng)域科學(xué)數(shù)據(jù)的訪問(見表4)。
表4 元數(shù)據(jù)標(biāo)準(zhǔn)映射關(guān)系一覽
當(dāng)前數(shù)據(jù)共享以自然科學(xué)領(lǐng)域?yàn)橹?,社?huì)科學(xué)領(lǐng)域也越來越重視數(shù)據(jù)共享。這與學(xué)科研究及輸出結(jié)果的形式有關(guān),自然科學(xué)多通過定量研究產(chǎn)生數(shù)據(jù)資源,社會(huì)科學(xué)更多使用定性研究或者定性與定量相結(jié)合的方式獲取研究數(shù)據(jù)。通過上述調(diào)查得知,面向?qū)W科領(lǐng)域的科學(xué)元數(shù)據(jù)標(biāo)準(zhǔn)主要涉及產(chǎn)生大量數(shù)據(jù)的自然科學(xué)領(lǐng)域,如物理化學(xué)、生物科學(xué)、地球科學(xué)、農(nóng)學(xué)林學(xué)等。調(diào)查所涉及的元數(shù)據(jù)標(biāo)準(zhǔn)共47種,面向?qū)W科領(lǐng)域的元數(shù)據(jù)標(biāo)準(zhǔn)共37種,約占78.7%,其中基于自然學(xué)科的元數(shù)據(jù)標(biāo)準(zhǔn)共30種,約占元數(shù)據(jù)標(biāo)準(zhǔn)總數(shù)的63.8%。受學(xué)科性質(zhì)影響,自然科學(xué)領(lǐng)域研究多為量化研究,研究成果多以數(shù)據(jù)形式呈現(xiàn),形成大量數(shù)據(jù)集合,且自然科學(xué)各研究領(lǐng)域之間差異大,對數(shù)據(jù)粒度有一定要求,因此自然科學(xué)領(lǐng)域科學(xué)元數(shù)據(jù)標(biāo)準(zhǔn)元素項(xiàng)數(shù)量大、描述維度豐富。與此類似,社會(huì)科學(xué)與人文學(xué)科領(lǐng)域科學(xué)元數(shù)據(jù)標(biāo)準(zhǔn)多存在于經(jīng)濟(jì)學(xué)、統(tǒng)計(jì)學(xué)等以數(shù)據(jù)為核心研究工具和產(chǎn)出結(jié)果、定量研究特點(diǎn)明顯的學(xué)科領(lǐng)域。
科研人員受學(xué)科知識(shí)背景以及研究手段的影響,產(chǎn)生不同的數(shù)據(jù)共享需求。進(jìn)而對描述科學(xué)數(shù)據(jù)所使用的元數(shù)據(jù)標(biāo)準(zhǔn)元素設(shè)置進(jìn)行規(guī)范和約束。通用元數(shù)據(jù)標(biāo)準(zhǔn)不局限于某一學(xué)科的科學(xué)數(shù)據(jù)存儲(chǔ)機(jī)構(gòu)庫,應(yīng)用范圍廣,可擴(kuò)展性強(qiáng)。面向?qū)W科領(lǐng)域的科學(xué)元數(shù)據(jù)標(biāo)準(zhǔn)受學(xué)科性質(zhì)及實(shí)際研究需要的影響,專指性強(qiáng),應(yīng)用面窄,元素受適用對象控制明顯,與其他領(lǐng)域科學(xué)數(shù)據(jù)建立映射關(guān)系比較困難。生物科學(xué)、地球科學(xué)、物理科學(xué)和人文社會(huì)科學(xué)4個(gè)學(xué)科領(lǐng)域的科學(xué)元數(shù)據(jù)標(biāo)準(zhǔn)所包含元素差異較大。在相同學(xué)科領(lǐng)域,由于科學(xué)元數(shù)據(jù)標(biāo)準(zhǔn)的描述對象、涉及的研究領(lǐng)域、科學(xué)研究的過程和方法不同,其所包含的元素也存在明顯的差異。如同為生物學(xué)領(lǐng)域科學(xué)元數(shù)據(jù)標(biāo)準(zhǔn),ABCD比Genome Metadata的描述對象范圍更為寬泛,Genome Metadata的描述對象更為具體,因此其元素大多數(shù)不一致。不同學(xué)科領(lǐng)域科學(xué)元數(shù)據(jù)描述角度的差異,使得不同學(xué)科領(lǐng)域數(shù)據(jù)資源在基礎(chǔ)特征描述、上下文環(huán)境以及附加信息方面無法統(tǒng)一,為跨學(xué)科領(lǐng)域科學(xué)數(shù)據(jù)共享帶來了一定阻礙。
數(shù)據(jù)共享多以科研人員研究需求為導(dǎo)向,所以科學(xué)元數(shù)據(jù)標(biāo)準(zhǔn)的制定往往針對某一研究過程或者某一專門領(lǐng)域的數(shù)據(jù)存儲(chǔ)庫,具有較強(qiáng)的實(shí)際應(yīng)用性。例如,DDC列舉的源于開放檔案信息系統(tǒng)參考模型的PREMIS數(shù)據(jù)字典,包含關(guān)于蛋白質(zhì)、核酸、復(fù)雜裝配體的3D結(jié)構(gòu)信息的檔案庫和高分子晶體信息框架的PDBx/mmCIF,用于歸檔天文數(shù)據(jù)的SDAC,在檔案和手稿存儲(chǔ)庫中使用XML對文檔查找進(jìn)行輔助編碼的EAD等,都表現(xiàn)出科學(xué)元數(shù)據(jù)標(biāo)準(zhǔn)與具體科研實(shí)踐相結(jié)合的特點(diǎn)。
除此之外,數(shù)據(jù)共享行為可以發(fā)生在數(shù)據(jù)產(chǎn)生到再利用全過程的任意一個(gè)或幾個(gè)階段。根據(jù)科學(xué)數(shù)據(jù)生命周期所含五個(gè)階段[30]發(fā)現(xiàn),現(xiàn)有的科學(xué)元數(shù)據(jù)標(biāo)準(zhǔn)很少覆蓋整個(gè)科學(xué)數(shù)據(jù)生命周期,往往針對某一個(gè)或某幾個(gè)階段構(gòu)建。例如,CERIF是歐盟向其成員國推薦用于記錄研究活動(dòng)信息的標(biāo)準(zhǔn),Data Package是一種用于交換數(shù)據(jù)的通用包裝格式,QuDEx用于數(shù)據(jù)歸檔和交換的定性數(shù)據(jù)交換模型等??茖W(xué)數(shù)據(jù)共享不只涉及科學(xué)研究完成之后的數(shù)據(jù)共享,更加注重對數(shù)據(jù)的溯源,要求實(shí)現(xiàn)數(shù)據(jù)資源的完整、一致和可追溯??茖W(xué)元數(shù)據(jù)標(biāo)準(zhǔn)如果不能實(shí)現(xiàn)對數(shù)據(jù)完整生命周期的揭示與記錄,則難以支持研究過程的完整性和流暢性,也給科研人員的數(shù)據(jù)操作帶來一定的困難。
數(shù)據(jù)開放共享要求科學(xué)數(shù)據(jù)擁有更高的可訪問性和互操作性,因此越來越多的組織機(jī)構(gòu)注重科學(xué)元數(shù)據(jù)標(biāo)準(zhǔn)的擴(kuò)展和改進(jìn)。DCC列舉的4類面向?qū)W科領(lǐng)域的元數(shù)據(jù)標(biāo)準(zhǔn)中,生物科學(xué)擁有擴(kuò)展標(biāo)準(zhǔn)14種,地球科學(xué)擁有18種,物理科學(xué)擁有6種,人文社會(huì)科學(xué)領(lǐng)域擁有4種?;赬ML的ABCD模式,主要用于發(fā)布豐富的自然歷史收藏標(biāo)本數(shù)據(jù),試圖全面且高度結(jié)構(gòu)化地支持來自各種數(shù)據(jù)庫的數(shù)據(jù)[31],并在實(shí)踐中衍生出3種擴(kuò)展標(biāo)準(zhǔn),擴(kuò)展DNA數(shù)據(jù)的ABCDDNA、擴(kuò)展地球科學(xué)數(shù)據(jù)的ABCDEFG以及對植物標(biāo)本數(shù)據(jù)存儲(chǔ)和運(yùn)輸?shù)腍ISPID。
此外,元數(shù)據(jù)的復(fù)用即復(fù)用一個(gè)或多個(gè)其他元數(shù)據(jù)標(biāo)準(zhǔn)中的元素來共同描述復(fù)雜資源,能夠提高不同學(xué)科之間元數(shù)據(jù)的可比性、互訪問性和可轉(zhuǎn)換性[32],不僅能夠擴(kuò)大元數(shù)據(jù)標(biāo)準(zhǔn)的使用范圍,而且能夠?yàn)樵獢?shù)據(jù)標(biāo)準(zhǔn)的互操作性提供可行基礎(chǔ)。例如,DatA Tag Suite對DataCite、W3C HCLS Dataset Description、CommonMetadata Elements for Cataloging Biomedical Datasets等多個(gè)標(biāo)準(zhǔn)中的元素進(jìn)行復(fù)用;W3C HCLS Dataset Description對Data Catalog、Dublin Core Metadata Types、PROV Ontology等標(biāo)準(zhǔn)中的元素進(jìn)行復(fù)用。
隨著科學(xué)技術(shù)不斷發(fā)展,各領(lǐng)域數(shù)據(jù)量急劇增多,新的科學(xué)數(shù)據(jù)共享平臺(tái)和科學(xué)數(shù)據(jù)集不斷涌現(xiàn),需要應(yīng)用發(fā)展成熟的元數(shù)據(jù)標(biāo)準(zhǔn)對科學(xué)數(shù)據(jù)進(jìn)行管理,以提高科學(xué)數(shù)據(jù)的可訪問性、互操作性和重用性。機(jī)構(gòu)自定義元數(shù)據(jù)標(biāo)準(zhǔn)存在應(yīng)用局限,不利于科學(xué)數(shù)據(jù)的可發(fā)現(xiàn)和可獲取性。因此,正如哈佛-麻省理工數(shù)據(jù)中心(Harvard-MIT Data Center)以DDI數(shù)據(jù)標(biāo)準(zhǔn)為基礎(chǔ)進(jìn)行改進(jìn)擴(kuò)展來建設(shè)的Dataverse[33]一樣,組織機(jī)構(gòu)可首先明確自身科學(xué)數(shù)據(jù)描述的目標(biāo),根據(jù)現(xiàn)有科學(xué)元數(shù)據(jù)標(biāo)準(zhǔn)的優(yōu)缺點(diǎn)和可擴(kuò)展性選擇適合自身特點(diǎn)和需求的科學(xué)元數(shù)據(jù)標(biāo)準(zhǔn),以便科研人員更快更好地接納和利用,提高元數(shù)據(jù)的認(rèn)可度,推動(dòng)數(shù)據(jù)共享體系的完善。
通過Tenopir等[34]的調(diào)查結(jié)果得知,學(xué)科領(lǐng)域內(nèi)豐富的元數(shù)據(jù)標(biāo)準(zhǔn)應(yīng)用率較低。專指性強(qiáng)的元數(shù)據(jù)標(biāo)準(zhǔn)使得不同數(shù)據(jù)集之間元數(shù)據(jù)字段差異較大,共有核心字段數(shù)量不足會(huì)對數(shù)據(jù)質(zhì)量和數(shù)據(jù)獲取造成一定影響,也會(huì)給未來的數(shù)據(jù)整合帶來不便。構(gòu)建通用型元數(shù)據(jù)標(biāo)準(zhǔn)為解決標(biāo)準(zhǔn)之間的差異化提供了思路。
根據(jù)劉峰等[35]關(guān)于科學(xué)元數(shù)據(jù)標(biāo)準(zhǔn)通用化設(shè)計(jì)研究中對地學(xué)、生物、物理、空間和社會(huì)與人文等多個(gè)學(xué)科領(lǐng)域共22種元數(shù)據(jù)標(biāo)準(zhǔn)中的元素進(jìn)行統(tǒng)計(jì),得出通用元數(shù)據(jù)項(xiàng)33個(gè),可以根據(jù)不同學(xué)科領(lǐng)域的科學(xué)研究需要對通用元數(shù)據(jù)項(xiàng)進(jìn)行選擇性應(yīng)用。除此之外,還可以通過受控詞表對元數(shù)據(jù)標(biāo)準(zhǔn)中元數(shù)據(jù)項(xiàng)所含的詞語進(jìn)一步規(guī)范化處理,以提高不同領(lǐng)域內(nèi)科學(xué)數(shù)據(jù)的可比性、共享性和互操作性。與此同時(shí),可以選擇使用DC或DCAT等認(rèn)可度高、流通性強(qiáng)的元數(shù)據(jù)標(biāo)準(zhǔn)進(jìn)行映射關(guān)系的構(gòu)建,使不同領(lǐng)域的科學(xué)數(shù)據(jù)能夠更好地互通。
此外,還需要對元數(shù)據(jù)標(biāo)準(zhǔn)的文件格式進(jìn)行規(guī)范,使文件格式能夠更加符合開放數(shù)據(jù)五星評價(jià)標(biāo)準(zhǔn),盡可能選擇互操作性強(qiáng)的格式,并且盡可能支持更豐富的文件格式,以支持與其他科學(xué)數(shù)據(jù)資源在文件格式層面的可關(guān)聯(lián)性,對數(shù)據(jù)共享過程進(jìn)行優(yōu)化,滿足不同科研人員的需求,最大程度地釋放科學(xué)數(shù)據(jù)的價(jià)值。
科學(xué)元數(shù)據(jù)標(biāo)準(zhǔn)的構(gòu)建應(yīng)當(dāng)考慮數(shù)據(jù)資源的完整生命周期,以保證科學(xué)數(shù)據(jù)從研究到利用過程的連貫性和科學(xué)數(shù)據(jù)描述的一致性。根據(jù)調(diào)查,英國研究委員會(huì)中央實(shí)驗(yàn)室委員會(huì)(Council for the Central Laboratory of the Research Council,CCLRC)構(gòu)建的CSMD是一種以研究數(shù)據(jù)為導(dǎo)向的模型[36],它涉及分析物質(zhì)結(jié)構(gòu)并且支持跨學(xué)科通用[37],還可以在整個(gè)科學(xué)研究流程中收集數(shù)據(jù)。收集到的數(shù)據(jù)可以根據(jù)元數(shù)據(jù)標(biāo)準(zhǔn)中的規(guī)范建立深層次、多角度的科學(xué)數(shù)據(jù)特征標(biāo)識(shí),以提高科學(xué)數(shù)據(jù)描述的準(zhǔn)確性以及檢索查詢的效率。由此,同一項(xiàng)目中的科研人員可打破不同研究階段的數(shù)據(jù)共享壁壘,提升研究連貫性和流暢性,形成良好的研究循環(huán)。
元數(shù)據(jù)標(biāo)準(zhǔn)是科學(xué)數(shù)據(jù)開放共享必不可少的支撐,對科學(xué)數(shù)據(jù)的高質(zhì)量描述利于提高科學(xué)數(shù)據(jù)互操作性、整體性和重用性。隨著數(shù)據(jù)量的增加,科學(xué)元數(shù)據(jù)標(biāo)準(zhǔn)的開發(fā)和應(yīng)用越來越受到重視。通過對國內(nèi)外科學(xué)元數(shù)據(jù)標(biāo)準(zhǔn)進(jìn)行調(diào)研發(fā)現(xiàn),科學(xué)元數(shù)據(jù)標(biāo)準(zhǔn)多面向以定量研究為主的學(xué)科領(lǐng)域,且多局限于科學(xué)研究或數(shù)據(jù)管理的某一階段,所含元素差異明顯,在實(shí)際應(yīng)用中多通過開發(fā)衍生標(biāo)準(zhǔn)或元素復(fù)用擴(kuò)寬適用范圍。語義網(wǎng)技術(shù)、關(guān)聯(lián)技術(shù)、本體技術(shù)等技術(shù)在元數(shù)據(jù)標(biāo)準(zhǔn)領(lǐng)域發(fā)揮的積極影響有利于更好改進(jìn)現(xiàn)有元數(shù)據(jù)標(biāo)準(zhǔn)在新興領(lǐng)域的應(yīng)用,也有助于進(jìn)一步構(gòu)建更為通用的元數(shù)據(jù)標(biāo)準(zhǔn)。為了順應(yīng)科學(xué)數(shù)據(jù)開放共享的趨勢,推動(dòng)更加透明化、科學(xué)化、互操作性強(qiáng)的科學(xué)數(shù)據(jù)生態(tài)體系的構(gòu)建,可以從開放科學(xué)建設(shè)、數(shù)據(jù)共享實(shí)際需求、科學(xué)研究整體性等多個(gè)角度綜合考慮進(jìn)行科學(xué)元數(shù)據(jù)標(biāo)準(zhǔn)的設(shè)計(jì)和實(shí)踐應(yīng)用。