胡芳
(1.中國科學(xué)院文獻情報中心 北京 100190)
(2.首都師范大學(xué)圖書館 北京 100089)
國外典型科學(xué)數(shù)據(jù)倉儲實施的元數(shù)據(jù)方案及啟示
胡芳
(1.中國科學(xué)院文獻情報中心 北京 100190)
(2.首都師范大學(xué)圖書館 北京 100089)
元數(shù)據(jù)方案是建立科學(xué)數(shù)據(jù)倉儲需考慮的核心問題之一。文章從功能目標、元數(shù)據(jù)元素和元數(shù)據(jù)方案特點三個維度,分析四個國外典型的科學(xué)數(shù)據(jù)倉儲(DataCite、GBIF、DataStaR和OTA)的元數(shù)據(jù)方案。結(jié)果表明:四個科學(xué)數(shù)據(jù)倉儲元數(shù)據(jù)方案各有特點,其元數(shù)據(jù)元素各不相同,但都以用戶需求為中心構(gòu)建方案。我國制定科學(xué)數(shù)據(jù)倉儲元數(shù)據(jù)方案,需從考慮功能定位、應(yīng)用現(xiàn)有元數(shù)據(jù)標準及相關(guān)框架及以用戶為中心等方面對方案進行評估。
科學(xué)數(shù)據(jù)倉儲;元數(shù)據(jù)方案;DataCite;GBIF;DataStaR;OTA
在大數(shù)據(jù)時代和E-science背景下,科學(xué)數(shù)據(jù)作為一種學(xué)術(shù)交流資源,其作用日益凸顯,有必要建立科學(xué)數(shù)據(jù)倉儲對科學(xué)數(shù)據(jù)進行組織、保存和再利用,對科學(xué)數(shù)據(jù)實施數(shù)據(jù)監(jiān)護。其中,元數(shù)據(jù)是建立科學(xué)數(shù)據(jù)倉儲需考慮的核心問題之一。如何根據(jù)已有的元數(shù)據(jù)標準,并結(jié)合本機構(gòu)特點,構(gòu)建能滿足用戶存儲、檢索、復(fù)用和分享科學(xué)數(shù)據(jù)等需求的元數(shù)據(jù)框架方案,是建立科學(xué)數(shù)據(jù)倉儲和實施數(shù)據(jù)監(jiān)護需要考慮的一個重要問題。
國外對科學(xué)數(shù)據(jù)倉儲的研究比較早,早在2009年,期刊《Cataloging&Classification Quarterly》策劃了一個專輯:《Metadata and Open Access Repositories》專門探討元數(shù)據(jù)與開放存儲庫問題。國外關(guān)于該問題的研究內(nèi)容主要包括:科學(xué)數(shù)據(jù)倉儲元數(shù)據(jù)實施案例研究;用戶信息行為研究;元數(shù)據(jù)質(zhì)量;圖書館的角色??梢妼iT針對科學(xué)數(shù)據(jù)倉儲的元數(shù)據(jù)標準和方案的比較研究還不太多,研究者注重個案研究。
國內(nèi)直接研究科學(xué)數(shù)據(jù)倉儲元數(shù)據(jù)問題的文獻較少,主要介紹了Dryad和UKDA的元數(shù)據(jù)管理問題;提出了高??茖W(xué)數(shù)據(jù)設(shè)計的原則,并在都柏林核心元數(shù)據(jù)的基礎(chǔ)上,提出了具體的元數(shù)據(jù)方案。其它相關(guān)研究包括對科學(xué)數(shù)據(jù)監(jiān)護的研究,對科學(xué)數(shù)據(jù)監(jiān)護的研究主要體現(xiàn)在:國外數(shù)據(jù)監(jiān)護總體介紹及啟示;國外數(shù)據(jù)監(jiān)護崗位設(shè)置;圖書館的角色;國內(nèi)科研人員調(diào)查??梢园l(fā)現(xiàn)研究以介紹國外科學(xué)數(shù)據(jù)項目進展的文獻比較多,對已有的元數(shù)據(jù)標準以及適用性分析還不夠,而這恰恰是本文重點研究的內(nèi)容。
2.1 典型科學(xué)數(shù)據(jù)倉儲的選取及簡介
根據(jù)數(shù)據(jù)倉儲注冊系統(tǒng)Databib統(tǒng)計,目前數(shù)據(jù)倉儲建設(shè)數(shù)量比較多的國家集中在美國、英國和加拿大。在學(xué)科分布上,數(shù)量占比較高的學(xué)科是:生物、環(huán)境、地球科學(xué)、多學(xué)科科學(xué)等。從隸屬類型上分析,隸屬于政府和機構(gòu)的數(shù)據(jù)倉儲比較多,少數(shù)隸屬商業(yè)公司。為體現(xiàn)不同類型數(shù)據(jù)倉儲的元數(shù)據(jù)建設(shè)方案特點,本文選擇了DataCite、GBIF、DataStaR和OTA四個倉儲作為典型案例進行分析。這四個倉儲分別來自多國合作、美國和英國,體現(xiàn)了目前數(shù)據(jù)倉儲建設(shè)的主要國家分布。在學(xué)科上也包括綜合和具體小學(xué)科,分別選取了生命科學(xué)和語言文學(xué),一方面可以體現(xiàn)自然科學(xué)和人文科學(xué)各自的特點,另一方面根據(jù)Databib的統(tǒng)計分析,生物科學(xué)是目前數(shù)據(jù)倉儲分布數(shù)量比較集中的一個自然科學(xué),而語言文學(xué)是人文社會科學(xué)中數(shù)量分布比較集中的一個學(xué)科。在機構(gòu)上選取了兩個單機構(gòu)和兩個多機構(gòu)的數(shù)據(jù)倉儲,體現(xiàn)了不同的特點(見表1)。
表1 四個典型倉儲的基本信息
2.2 DataCite元數(shù)據(jù)方案
2.2.1 DataCite目標
DataCite是由加州大學(xué)數(shù)字圖書館、德國國家科技圖書館、大英圖書館、蘇黎世聯(lián)邦理工學(xué)院圖書館、法國科技信息研究所、丹麥國家技術(shù)信息中心、荷蘭代爾夫特理工大學(xué)圖書館、加拿大科技信息研究所、澳大利亞國家數(shù)據(jù)服務(wù)中心和普渡大學(xué)合作完成的項目,該項目于2010年1月1日正式啟動。
DataCite的目標是“促進科學(xué)研究數(shù)據(jù)的網(wǎng)絡(luò)便捷獲取、提升科學(xué)數(shù)據(jù)的引用價值,并支持數(shù)據(jù)存儲,以利于未來研究中的證實和復(fù)用?!币虼耍珼ataCite的元數(shù)據(jù)方案也主要支持科學(xué)數(shù)據(jù)的引用和發(fā)現(xiàn)。具體而言,包括如下四個功能:第一,基于少量的必備元素,制定數(shù)據(jù)的標準引用格式;第二,提供與其他元數(shù)據(jù)方案,尤其是領(lǐng)域有關(guān)的方案之間的互操作;第三,通過一些可選元素對資源進行靈活描述(與其它資源的關(guān)系、同一資源的其它版本等),促進對數(shù)據(jù)的發(fā)現(xiàn);第四,通過建立可控詞表,以便未來提供深層次服務(wù)(如發(fā)現(xiàn)服務(wù))。
2.2.2 DataCite元數(shù)據(jù)元素
DataCite的必備元素(核心元素)包括:識別符(Identifier)、創(chuàng)作者(Creator)、題名(Title)、出版者(Publisher)、出版年(Publication Year)。其中識別符是DOI,創(chuàng)作者是指制作數(shù)據(jù)的主要人員,出版者是指將數(shù)據(jù)發(fā)布給研究社區(qū)的機構(gòu)。
DataCite的可選元素包括:主題(Subject)、貢獻者(Contributor)、日期(Data)、語言(Language)、資源類型(ResourceType)、其它識別符(AlternateIdentifier)、相關(guān)識別符(RelatedIdentifier)、大小(Size)、格式(Format)、版本(Version)、Rights(權(quán)利)、描述(Description)。其中,其它識別符、相關(guān)識別符和版本這三個元素主要用來描述對象之間和對象內(nèi)部之間的復(fù)雜關(guān)系。DataCite在元數(shù)據(jù)方案中對相關(guān)識別符的具體屬性進行了限定,包括:被引(IsCitedBy)、引用(Cites)、部分(IsSupplementTo)等18種關(guān)系值。
2.2.3 DataCite元數(shù)據(jù)特點
DataCite的元數(shù)據(jù)方案呈現(xiàn)如下特點:第一,必備元素比較少,只有五項;第二,可選元素中突出對描述對象之間的復(fù)雜關(guān)系的元素,并設(shè)置了多種復(fù)雜的值,方便對科學(xué)數(shù)據(jù)的引用和發(fā)現(xiàn);第三,設(shè)置專人管理元數(shù)據(jù)。DataCite在成立之初就組建了專門的元數(shù)據(jù)工作小組,負責元數(shù)據(jù)方案規(guī)劃和制定。該工作小組認為由于DataCite成員來自10個國家的11個圖書館和研究機構(gòu),分布廣泛,其需求可能不一致,需要不斷更新元數(shù)據(jù)方案。因此,DataCite任命了一名來自TIB的專職人員負責元數(shù)據(jù)監(jiān)管(Metadata Supervisor)。
2.3 GBIF元數(shù)據(jù)方案
2.3.1 GBIF目標
GBIF(Global Biodiversity Information Facility)是由全球多個國家和組織機構(gòu)合作建設(shè)的一個數(shù)據(jù)倉儲平臺。GBIF的愿景是:為促進科學(xué)、社會和未來的可持續(xù)發(fā)展,讓公眾可自由地、普及性地獲取生物多樣性信息??梢娖淠繕耸牵和ㄟ^國際互聯(lián)網(wǎng),讓全世界的生物多樣性數(shù)據(jù)在全球任何范圍內(nèi)面向任何人都可免費獲取。當前,GBIF可提供來自1000多個機構(gòu)的四億多條記錄,是最大的生物多樣性數(shù)據(jù)庫。
2.3.2 GBIF元數(shù)據(jù)元素
GBIF元數(shù)據(jù)方案是在生態(tài)元數(shù)據(jù)語言框架(Ecological Metadata Language,EML)的基礎(chǔ)上完善擴展而成的。GBIF的必備元素只有5項,包括:題名(title)、元數(shù)據(jù)提供者(metadataProvider)、語種(language)、發(fā)布日期(pubDate)、摘要(abstract)。其中,摘要是對數(shù)據(jù)集的簡單描述。題名是對提交資源的區(qū)別性描述,以便能區(qū)分出類似資源,可提供多個標題。
GBIF的可選元素很多,一共有53項,包括:基金(funding)、方法(methods)、地理位置(geographicCoverage)、知識產(chǎn)權(quán)(intellectualRights)、關(guān)鍵詞(keyword)、生存時間(livingTimePeriod)、機構(gòu)名稱(organization name)、目的(purpose)、項目(project)、質(zhì)量控制(qualityControl)等。
2.3.3 GBIF元數(shù)據(jù)特點
GBIF的元數(shù)據(jù)方案呈現(xiàn)如下特點:第一,必備元素少,但可選元素數(shù)量龐大,達50多項,除一些常規(guī)的通用元素外,還包括一些獨特的與學(xué)科領(lǐng)域有關(guān)的元素,如:地理位置、生存時間等;第二,提供一些工具,自動生成元數(shù)據(jù)元素。包括:集成發(fā)布工具包、元數(shù)據(jù)編輯器(Integrated Publishing Toolkit metadata editor)、達爾文核心元數(shù)據(jù)模版(Darwin Core Spreadsheet template metadata form)等。
2.4 DataStaR元數(shù)據(jù)方案
2.4.1 DataStaR目標
DataStaR(Data Staging Repository)是由康奈爾大學(xué)Albert R.Mann Library負責實施的一項美國國家科學(xué)基金項目。自2007年開始實施,2010年正式完成。DataStaR的功能是為康奈爾大學(xué)的學(xué)者提供一個本地的階段性(staging)存儲庫,包括兩個目標:一是支持研究過程中的合作與共享;二是為科學(xué)數(shù)據(jù)在永久性的學(xué)科或者機構(gòu)存儲庫中進行發(fā)布提供支持。該項目關(guān)注的焦點是具體的“小科學(xué)”(small science)數(shù)據(jù),不需要超大存儲容量但卻具有持久學(xué)術(shù)價值的小型數(shù)據(jù)。
2.4.2 DataStaR元數(shù)據(jù)元素
DataStaR的必備元素包括:所有者(Owner)、創(chuàng)建者(Originator)、題名(Title)、識別符(Identifier)、元數(shù)據(jù)與數(shù)據(jù)獲取許可(Metadata and data access permissions)、擬發(fā)布存儲庫(Publication repository)、擬發(fā)布/刪除日期(Target data for publication or deaccessioning)、文件級元數(shù)據(jù)(field-level metadata)。其中創(chuàng)作者是指數(shù)據(jù)創(chuàng)建的登錄人員,由系統(tǒng)自動生成。文件級元數(shù)據(jù)是指和文件自身有關(guān)的元數(shù)據(jù),包括:文件名稱、文件格式、上傳時間等,由系統(tǒng)自動生成。
DataStaR的可選元素包括:聯(lián)系人員(Contact person)、與研究小組的關(guān)系(Relationship to research group)、與其它資源的關(guān)系(Relationship to other resources)、引文(Citing Publication)、摘要(Abstract)、時間范圍(Temporal coverage)、地理范圍(Geographic coverage)、使用權(quán)利(Usage rights)、主題(Subject)等,所有的可選元素都由作者自行提供。
2.4.3 DataStaR元數(shù)據(jù)特點
DataStar的元數(shù)據(jù)方案呈現(xiàn)如下特點:第一,需用戶自行輸入或選擇的元素少,只有四個,包括:創(chuàng)建者、題名、元數(shù)據(jù)與數(shù)據(jù)獲取許可和擬發(fā)布存儲庫,其余元素都由系統(tǒng)自動填寫或者具備缺省值;第二,元數(shù)據(jù)方案體現(xiàn)了語義網(wǎng)特征,可支持信息資源的自動發(fā)現(xiàn)和互操作;第三,將元數(shù)據(jù)視為語句集合(a collection of statements),方便用戶對元數(shù)據(jù)的復(fù)用。如:當用戶利用同樣的研究方法或者研究網(wǎng)站時,對元數(shù)據(jù)的復(fù)用可節(jié)省用戶時間。
2.5 OTA元數(shù)據(jù)方案
2.5.1 OTA目標
OTA(University of Oxford Text Archive)是牛津大學(xué)于1976年實施的一個數(shù)據(jù)倉儲,得到了英國聯(lián)合信息系統(tǒng)委員會(JISC)和英國藝術(shù)與人文研究委員會(AHRC)的支持。OTA的目標是:為促進科研和教學(xué),對原始數(shù)字資源進行采集、編目、保存和傳播。其學(xué)科范圍是:與英國高等教育有關(guān)的高質(zhì)量語言文學(xué)類。其資源的采集不局限于牛津大學(xué)內(nèi)部,而是來自更廣泛的社區(qū)。OTA目前收錄25種以上不同語種的文本資源。
2.5.2 OTA元數(shù)據(jù)元素
OTA元數(shù)據(jù)元素不區(qū)分必備元素和可選擇元素,一共包括21項,主要有:第一,涉及數(shù)據(jù)內(nèi)容的元素:題名(Title of Resource)、其它題名(Alternative Titles)、項目摘要(Project Summary)、資源摘要(Resource Abstract)、資源類型(Purpose Resource Type)、相關(guān)數(shù)字資源(Related Digital Resources)、學(xué)科關(guān)鍵詞(Subject Keywords);第二,與版權(quán)有關(guān)的元素:責任人(Creators)、出版者(Publisher)、其它責任人(Other Acknowledgements)、版權(quán)(Copyright)、數(shù)據(jù)保護法(Registration under the Data Protection Act);第三,其它元素:識別符(Identifiers)、基金(Funding)、數(shù)字資源創(chuàng)建時間(Date Digital Resource Created)、語種(Language)、數(shù)字化細節(jié)(Details of Digitization)、來源出版物(Sources)、出版物(Publications)、地理信息(Geographical coverage)、時間覆蓋(Temporal coverage)。
2.5.1 OTA元數(shù)據(jù)特點
OTA元數(shù)據(jù)方案呈現(xiàn)如下特點:第一,不區(qū)分必備元素和非必備元素,元素比較多,對每一個元素的具體內(nèi)容都有詳盡的說明;第二,注重版權(quán)。21個元素中有5項與版權(quán)有關(guān),全面揭示數(shù)字資源的版權(quán)歸屬。
如前所述,四個典型數(shù)據(jù)倉儲因功能目標不同,呈現(xiàn)不同的元數(shù)據(jù)方案,其中有共性也有差異(見表2)。
表2 四個典型倉儲的元數(shù)據(jù)方案
3.1 國內(nèi)科學(xué)數(shù)據(jù)倉儲元數(shù)據(jù)建設(shè)的發(fā)展現(xiàn)狀
我國對科學(xué)數(shù)據(jù)的元數(shù)據(jù)研究和實踐已經(jīng)取得了一定成果。2002年,我國科技部開始實施科學(xué)數(shù)據(jù)共享工程,并制定了數(shù)據(jù)共享工程的核心元數(shù)據(jù)標準,主要包括:元數(shù)據(jù)基本信息、數(shù)據(jù)集引用信息和數(shù)據(jù)集負責方。之后,又陸續(xù)啟動了氣象、測繪等科學(xué)數(shù)據(jù)共享中心的建設(shè)與共享服務(wù)試點。
由于核心元數(shù)據(jù)標準都是與學(xué)科無關(guān)的元素,不能滿足具體學(xué)科用戶的使用。在此基礎(chǔ)上,各學(xué)科制定了相應(yīng)的元數(shù)據(jù)標準,包括:《生態(tài)科學(xué)數(shù)據(jù)元數(shù)據(jù)》(GB/T 20533-2006)、《地理信息元數(shù)據(jù)》(GB/T 19710-2005)、《水利地理空間信息元數(shù)據(jù)標準》(SL420-2007)等。各自包括的內(nèi)容有共同之處,但更體現(xiàn)了各自不同的學(xué)科特點。如:《生態(tài)科學(xué)數(shù)據(jù)元數(shù)據(jù)》包括七個模塊:標識信息、實體信息、場地信息、方法信息、數(shù)據(jù)質(zhì)量信息、項目信息和分發(fā)信息。而《地理信息元數(shù)據(jù)》包括十類子集:標識信息、限制信息、數(shù)據(jù)質(zhì)量信息、維護信息、空間信息、參照系信息、內(nèi)容信息、圖示表達類目參照信息、分發(fā)信息、元數(shù)據(jù)擴展信息。
我國目前直接面向科學(xué)倉儲建設(shè)和服務(wù)的學(xué)科數(shù)據(jù)元數(shù)據(jù)標準還有待進一步探索和實踐,可結(jié)合科學(xué)倉儲的特殊功能需求和用戶使用需求,對學(xué)科領(lǐng)域的數(shù)據(jù)元數(shù)據(jù)標準進行部分吸收,并進行擴展,用于科學(xué)倉儲的元數(shù)據(jù)建設(shè)。如:地球系統(tǒng)科學(xué)數(shù)據(jù)共享網(wǎng)的建設(shè)就提供了基于XML Schema的元數(shù)據(jù)建模擴展機制。
3.2 制定科學(xué)數(shù)據(jù)倉儲元數(shù)據(jù)方案需考慮的問題
3.2.1 功能定位
制定科學(xué)數(shù)據(jù)倉儲元數(shù)據(jù)方案首先需要考慮該倉儲的功能定位,確定科學(xué)數(shù)據(jù)倉儲的組織和管理機構(gòu)(單一機構(gòu)還是多機構(gòu)合作)、服務(wù)對象(本機構(gòu)內(nèi)部還是所有網(wǎng)絡(luò)用戶,或者特定學(xué)科群體用戶)、服務(wù)內(nèi)容(是否需要滿足對科學(xué)數(shù)據(jù)的檢索、獲取、傳遞、存儲、復(fù)用等)。
國外四個典型科學(xué)數(shù)據(jù)倉儲實施的元數(shù)據(jù)方案表明:功能定位的不同,其元數(shù)據(jù)元素和特點也不同。如:DataCite主要用于支持科學(xué)數(shù)據(jù)的引用和發(fā)現(xiàn),其元數(shù)據(jù)方案中可選元素重點突出描述對象之間的復(fù)雜關(guān)系,并設(shè)置了多種復(fù)雜的值;GBIF的目的是讓公眾可方便地獲取生物多樣性信息,其元數(shù)據(jù)方案體現(xiàn)了一些獨特的與生物多樣性學(xué)科領(lǐng)域有關(guān)的元素,如:地理位置、生存時間等;DataStaR主要用于支持康奈爾大學(xué)研究人員對項目在研期間數(shù)據(jù)的共享以及數(shù)據(jù)向最終存儲庫的發(fā)布,其元數(shù)據(jù)方案考慮了科研人員對語義網(wǎng)的應(yīng)用需求,利用了語義網(wǎng)技術(shù);OTA主要用于保存原始的語言文學(xué)類資源,版權(quán)歸屬相對復(fù)雜,其元數(shù)據(jù)方案重視版權(quán)保護。
3.2.2 現(xiàn)有元數(shù)據(jù)標準及相關(guān)框架的應(yīng)用
國內(nèi)外相關(guān)機構(gòu)都制定了一些各領(lǐng)域的元數(shù)據(jù)框架(Metadata Scheme),較為知名的有:通用領(lǐng)域的都柏林元數(shù)據(jù)框架(Dublin Core)、用于生命科學(xué)領(lǐng)域的達爾文核心元數(shù)據(jù)(Darwin Core)、用于教育領(lǐng)域的IEEE學(xué)習(xí)對象元數(shù)據(jù)框架(IEEE Learning Object Metadata)等。
我國可根據(jù)本機構(gòu)或者本項目用戶需求,對已有的元數(shù)據(jù)框架進行調(diào)整,刪除或者新增部分元數(shù)據(jù)元素和值。如:DataCite元數(shù)據(jù)方案依據(jù)德國國家科技圖書館之前所采用的元數(shù)據(jù)框架,由工作組成員討論而逐步完善;GBIF元數(shù)據(jù)方案借鑒了生態(tài)元數(shù)據(jù)語言框架(Ecological Metadata Language,EML),在此基礎(chǔ)上擴充了部分元素;DataStar借鑒了都柏林元數(shù)據(jù)框架(Dublin Core)、生態(tài)元數(shù)據(jù)語言本體(EML Ontology)、Fedora屬性(Fedora properties for Vitro)、FOAF本體(Friend of Friend Ontology)等已有的框架,建立了DataStaR核心本體(DataStaR core ontology)。利用現(xiàn)有的元數(shù)據(jù)框架或相關(guān)標準,一方面可提高科學(xué)數(shù)據(jù)倉儲元數(shù)據(jù)的共享性和通用性,另一方面,也可節(jié)省制定科學(xué)數(shù)據(jù)倉儲元數(shù)據(jù)方案的時間。
3.2.3 元數(shù)據(jù)方案評估
如前所述,四個國外典型科學(xué)數(shù)據(jù)倉儲DataCite、GBIF、DataStaR和OTA的用戶需求和項目目標功能不同,其元數(shù)據(jù)方案各自呈現(xiàn)出不同特點,它們各自包含的元素和賦值也各不相同。那么,應(yīng)該如何評價面向科學(xué)數(shù)據(jù)倉儲的元數(shù)據(jù)方案呢?
綜合考慮四個科學(xué)數(shù)據(jù)倉儲的元數(shù)據(jù)方案特點,可以發(fā)現(xiàn)它們存在一個共同之處:都以用戶為中心來構(gòu)建其元數(shù)據(jù)方案。首先,盡可能幫助用戶,以節(jié)約用戶建立記錄的時間。DataCite和GBIF的必備元素只有四五項;DataStaR的必備元素雖然多,但多數(shù)元素都可以計算機自動生成;OTA不區(qū)分是否必備元素,但每一項元素都有詳盡的說明,以幫助用戶理解。其次,考慮各自用戶的實際需求。如:DataCite重點考慮用戶對科學(xué)數(shù)據(jù)的引用和復(fù)用;GBIF突出對已有工具包的利用;DataStaR考慮科研用戶對關(guān)聯(lián)數(shù)據(jù)的應(yīng)用;OTA突出對原始數(shù)據(jù)版權(quán)的梳理和保護。因此,面向科學(xué)數(shù)據(jù)倉儲的元數(shù)據(jù)方案應(yīng)以具體用戶的需求為出發(fā)點和重心,滿足用戶對科學(xué)數(shù)據(jù)的查找與發(fā)現(xiàn)、識別與選擇、獲取與分享等不同的功能需求。
在數(shù)據(jù)驅(qū)動科學(xué)時代,為了滿足科研用戶對科學(xué)數(shù)據(jù)的存儲、檢索、復(fù)用和分享等各種需求,國內(nèi)外相關(guān)機構(gòu)都構(gòu)建了一些科學(xué)數(shù)據(jù)倉儲,其元數(shù)據(jù)方案是構(gòu)建科學(xué)數(shù)據(jù)倉儲需重點考慮的問題之一。根據(jù)科學(xué)數(shù)據(jù)倉儲的功能目標、用戶需求特點,我國可借鑒已有的元數(shù)據(jù)框架或相關(guān)標準,制定符合需要的科學(xué)數(shù)據(jù)倉儲元數(shù)據(jù)方案。
[1]Greenberg,J.,White,H.C.,Carrier,S.,&Scherle,R.A Metadata Best Practice for a Scientific Data Repository[J].Journal of Library Metadata,2009,9(3-4):194-212.
[2]Dietrich,D.Metadata Management in a Data Staging Repository[J].Journal of Library Metadata,2010,10(2-3):79-98.
[3]White,H.C.Descriptive Metadata for Scientific Data Repositories:A Comparison of Information Scientist and Scientist Organizing Behaviors[J].Journal of Library Metadata,2014,14(1):24-51.
[4]Windnagel,A.The Usage of Simple Dublin Core Metadata in Digital Math and Science Repositories[J].Journal of Library Metadata.2014,14(2),77-102.
[5]Heidorn,P.B.The Emerging Role of Libraries in Data Curation and E-science[J].Journal of Library Administration,2011,51(7-8):662-672.
[6]黃如花,邱春艷.Dryad數(shù)據(jù)倉儲的元數(shù)據(jù)管理[J].圖書館雜志,2014(1):68-73.
[7]周波.高??茖W(xué)數(shù)據(jù)元數(shù)據(jù)方案初探[J].圖書館學(xué)研究,2012(1):45-49.
[8]王芳,慎金花.國外數(shù)據(jù)管護(Data Curation)研究與實踐進展[J].中國圖書館學(xué)報,2014(4):118-130.
[9]葉蘭.國外圖書館數(shù)據(jù)監(jiān)護崗位的設(shè)置與需求分析[J].大學(xué)圖書館學(xué)報,2013(5):5-12.
[10]樊俊豪.圖書館在科學(xué)數(shù)據(jù)管理中的角色定位研究[J].圖書情報工作,2014(3):27-41.
[11]張晉朝.高??蒲腥藛T科學(xué)數(shù)據(jù)獲取意愿研究[J].情報雜志,2013(6):70-75.
[12]劉峰,張曉林,孔麗華.科研數(shù)據(jù)知識庫研究述評[J].現(xiàn)代圖書情報技術(shù),2014(2):25-31.
[13]Starr,J.,&Gastl,A.isCitedBy:A Metadata Scheme for DataCite[J/OL].[2014-09-23].http://www.dlib.org/dlib/ january11/starr/01starr.html.
[14]Chavan,V,&Penev,L.The data paper:a mechanism to incentivize data publishing in biodiversity science[J].BMC Bioinformatics,2011,12(Suppl 15):S2.
[15]University of Oxford.University of Oxford Text Archive[EB/OL].[2014-09-23].http://ota.ahds.ac.uk/.
[16]吳彬.生態(tài)科學(xué)數(shù)據(jù)元數(shù)據(jù)及其標準研究[J].中南林業(yè)科技大學(xué)學(xué)報,2010(12):5-79.
[17]蔣景瞳,劉若梅,周旭,等.國家標準《地理信息元數(shù)據(jù)》研制與實現(xiàn)若干問題[J].地理信息世界,2003(10):2-5.
[18]崔麗美,謝佳節(jié),楊聯(lián)安,等.基于XML Schema地球系統(tǒng)科學(xué)數(shù)據(jù)的元數(shù)據(jù)擴展機制[J].測繪學(xué)報,2005(3):246-251.
Metadata Practice in Typical Scientific Data Repositories Abroad
Metadata design is one of the core questions of building a scientific data repository.This paper analyzes in details the four typical scientific data repositories abroad including DataCite,GBIF,DataStaR and OTA,in terms of aims,elements and features.The results show that three metadata practice present different features and elements,but they are all usercentered.Finally some suggestions are put forward for designing metadata for scientific data repositories in China,including considering the functions and aims,adopting the current metadata schemas and evaluating the metadata in a user-centered approach.
scientific data repository;metadata design;DataCite;GBIF;DataStaR;OTA
G250.74
A
10.11968/tsygb.1003-6938.2015021
胡芳(1984-),女,中國科學(xué)院文獻情報中心博士研究生,首都師范大學(xué)圖書館館員。
2015-01-27;責任編輯:魏志鵬