完顏鄧鄧
摘 要 論文選取DataCite、Harvard Datavers、3TU.Datacentrum等8個(gè)國(guó)外科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ),主要采用網(wǎng)絡(luò)調(diào)查、案例分析法,從元數(shù)據(jù)標(biāo)準(zhǔn)選擇、元數(shù)據(jù)元素設(shè)置、元數(shù)據(jù)創(chuàng)建方式、元數(shù)據(jù)質(zhì)量控制4個(gè)方面調(diào)查分析國(guó)外科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)的元數(shù)據(jù)實(shí)踐,在此基礎(chǔ)上得出對(duì)我國(guó)的啟示:根據(jù)元數(shù)據(jù)類(lèi)型與數(shù)據(jù)倉(cāng)儲(chǔ)的功能需求選擇元數(shù)據(jù)標(biāo)準(zhǔn),根據(jù)數(shù)據(jù)資源特征與用戶需求設(shè)置元數(shù)據(jù)元素,發(fā)展自動(dòng)元數(shù)據(jù)創(chuàng)建方式,制訂元數(shù)據(jù)質(zhì)量控制措施。
關(guān)鍵詞 科學(xué)數(shù)據(jù) 數(shù)據(jù)倉(cāng)儲(chǔ) 元數(shù)據(jù)
分類(lèi)號(hào) G254.364
DOI 10.16810/j.cnki.1672-514X.2016.05.019
Metadata Practice Investigation and Enlightenment in Scientific Data Repositories Abroad
Wanyan Dengdeng
Abstract This paper selects 8 scientific data repositories abroad including DataCite, Harvard Datavers, 3TU.Datacentrum, etc.,and utilizes the methods of network investigation and case analysis mainly to research the metadata practice of foreign scientific data repositories from selecting metadata standard, setting metadata element, creating metadata and its quality control. Based on the analysis of foreign practice, it obtains some enlightenments to our country: metadata standard should be chosen according to the requirement of metadata types and function of data repositories; metadata elements be set should according to the characteristics of data resources and users needs; development of automatic metadata creation method; formulation of quality control measures for metadata.
Keywords Scientific data. Data repositories. Metadata.
科學(xué)數(shù)據(jù)(或研究數(shù)據(jù))是指在科技活動(dòng)(實(shí)驗(yàn)、觀測(cè)、探測(cè)、調(diào)查等)中或通過(guò)其他方式所獲取的反映客觀世界的本質(zhì)、特征、變化規(guī)律等原始基本數(shù)據(jù),以及根據(jù)不同科技活動(dòng)需要,進(jìn)行系統(tǒng)加工整理的各類(lèi)數(shù)據(jù)集[1]。元數(shù)據(jù)已經(jīng)成為各個(gè)領(lǐng)域信息資源的組織方式,利用元數(shù)據(jù)的組織功能,對(duì)資源的組織整合起到規(guī)范作用,實(shí)現(xiàn)對(duì)資源集合的有序化和保存,并以提供利用為目標(biāo)[2]??茖W(xué)數(shù)據(jù)倉(cāng)儲(chǔ)是為科學(xué)數(shù)據(jù)提供存儲(chǔ)空間,以促進(jìn)數(shù)據(jù)集開(kāi)放訪問(wèn)和利用的平臺(tái),元數(shù)據(jù)是科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)建設(shè)的關(guān)鍵問(wèn)題之一。本文通過(guò)調(diào)查分析國(guó)外科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)的元數(shù)據(jù)實(shí)踐現(xiàn)狀與典型案例,總結(jié)國(guó)外實(shí)踐經(jīng)驗(yàn),以期對(duì)我國(guó)相關(guān)實(shí)踐以啟示。
1 調(diào)查對(duì)象與內(nèi)容
根據(jù)科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)建設(shè)主體的國(guó)別、收錄數(shù)據(jù)的學(xué)科類(lèi)型,選擇國(guó)外8個(gè)科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ),綜合性和學(xué)科性數(shù)據(jù)倉(cāng)儲(chǔ)各4個(gè),如表1所示。登錄各數(shù)據(jù)倉(cāng)儲(chǔ)網(wǎng)站,從元數(shù)據(jù)標(biāo)準(zhǔn)選擇、元數(shù)據(jù)元素設(shè)置、元數(shù)據(jù)創(chuàng)建方式、元數(shù)據(jù)質(zhì)量控制4個(gè)方面調(diào)查各數(shù)據(jù)倉(cāng)儲(chǔ)的元數(shù)據(jù)實(shí)踐。
表1 調(diào)查對(duì)象
2 調(diào)查結(jié)果
2.1 元數(shù)據(jù)標(biāo)準(zhǔn)的選擇
2.1.1 根據(jù)元數(shù)據(jù)標(biāo)準(zhǔn)的類(lèi)型選擇
從描述對(duì)象的學(xué)科領(lǐng)域進(jìn)行劃分,現(xiàn)有的科學(xué)數(shù)據(jù)元數(shù)據(jù)標(biāo)準(zhǔn)可分為綜合性和學(xué)科性元數(shù)據(jù)[3]103。綜合性的科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)由于包含多學(xué)科數(shù)據(jù),一般使用與學(xué)科無(wú)關(guān)、可擴(kuò)展可移植的綜合性元數(shù)據(jù),形成較固定的元數(shù)據(jù)描述標(biāo)準(zhǔn),元數(shù)據(jù)描述元素除了主題外不反映學(xué)科特征。DC是一個(gè)與學(xué)科無(wú)關(guān)的通用元數(shù)據(jù)標(biāo)準(zhǔn),易于理解和實(shí)施,可以方便地根據(jù)需求進(jìn)行擴(kuò)展,應(yīng)用范圍廣泛,因而受到綜合性科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)青睞。
特定學(xué)科的數(shù)據(jù)倉(cāng)儲(chǔ)根據(jù)其數(shù)據(jù)資源的特征與需求選擇使用學(xué)科元數(shù)據(jù),滿足具體學(xué)科對(duì)全面準(zhǔn)確描述本學(xué)科數(shù)據(jù)要求。英國(guó)數(shù)據(jù)監(jiān)護(hù)中心(Data Curation Center,DCC)網(wǎng)站列出生物學(xué)、地球科學(xué)、物理科學(xué)、社會(huì)科學(xué)與人文科學(xué)4個(gè)學(xué)科的共34個(gè)元數(shù)據(jù)標(biāo)準(zhǔn),如社會(huì)科學(xué)與人文科學(xué)領(lǐng)域的DDI,地球科學(xué)領(lǐng)域的FGDC,生物科學(xué)領(lǐng)域的Darwin Core,物理科學(xué)領(lǐng)域的CSMD等,這些學(xué)科元數(shù)據(jù)標(biāo)準(zhǔn)已經(jīng)被超過(guò)94個(gè)不同學(xué)科的數(shù)據(jù)倉(cāng)儲(chǔ)采用[4]。被調(diào)查的4個(gè)學(xué)科數(shù)據(jù)倉(cāng)儲(chǔ)中有3個(gè)采用了學(xué)科元數(shù)據(jù)標(biāo)準(zhǔn),SND采用了DDI,NCDC采用了FGDC,ALA采用了Darwin Core。
2.1.2 根據(jù)科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)的功能需求選擇
制定科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)元數(shù)據(jù)方案首先需要考慮該倉(cāng)儲(chǔ)的功能定位[5]。由于每個(gè)科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)的目標(biāo)定位與功能不同,對(duì)元數(shù)據(jù)標(biāo)準(zhǔn)的需求也不同。因此,在科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)功能需求分析的基礎(chǔ)上選擇元數(shù)據(jù)標(biāo)準(zhǔn)尤為重要。特定的科學(xué)數(shù)據(jù)項(xiàng)目和倉(cāng)儲(chǔ)等需要在建設(shè)前期對(duì)元數(shù)據(jù)功能需求進(jìn)行調(diào)查和分析,為設(shè)定合理的科學(xué)元數(shù)據(jù)方案奠定基礎(chǔ)[3]103。
國(guó)外科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)選擇元數(shù)據(jù)標(biāo)準(zhǔn)時(shí)進(jìn)行功能需求分析,針對(duì)數(shù)據(jù)的屬性特征,結(jié)合元數(shù)據(jù)標(biāo)準(zhǔn)的特點(diǎn)與優(yōu)劣選擇出適當(dāng)?shù)脑獢?shù)據(jù)標(biāo)準(zhǔn),以此保證元數(shù)據(jù)標(biāo)準(zhǔn)的適用性。ADS在元數(shù)據(jù)標(biāo)準(zhǔn)的選擇與制定前分析了元數(shù)據(jù)制訂的原因和過(guò)程、考古數(shù)據(jù)對(duì)元數(shù)據(jù)的需求,認(rèn)為用于描述或發(fā)現(xiàn)資源的元數(shù)據(jù)的主要目的是對(duì)數(shù)據(jù)進(jìn)行全面的描述并易于檢索。選擇DC元數(shù)據(jù)作為描述標(biāo)準(zhǔn),是其標(biāo)準(zhǔn)中集中包含了一些描述和發(fā)現(xiàn)資源的核心元素,而分析考古數(shù)據(jù)特征,元數(shù)據(jù)類(lèi)型方面與考古項(xiàng)目相關(guān)的三類(lèi)元數(shù)據(jù)是項(xiàng)目級(jí)元數(shù)據(jù)、資源級(jí)元數(shù)據(jù)和文件級(jí)元數(shù)據(jù),因此,確立了包含項(xiàng)目元數(shù)據(jù)、資源元數(shù)據(jù)、文件元數(shù)據(jù)的三級(jí)元數(shù)據(jù)體系[6]。ALA的大部分?jǐn)?shù)據(jù)來(lái)源于標(biāo)本館、博物館、其他生物館藏、國(guó)家保護(hù)機(jī)構(gòu)等,每個(gè)機(jī)構(gòu)采用的元數(shù)據(jù)標(biāo)準(zhǔn)不同,面臨的挑戰(zhàn)之一是整合元數(shù)據(jù)標(biāo)準(zhǔn)各異的生物多樣性數(shù)據(jù)[7]。
2.2 元數(shù)據(jù)元素的設(shè)置
元數(shù)據(jù)標(biāo)準(zhǔn)確定后,要決定從元數(shù)據(jù)標(biāo)準(zhǔn)中選擇哪些元數(shù)據(jù)元素。國(guó)外科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)的元數(shù)據(jù)元素是在元數(shù)據(jù)標(biāo)準(zhǔn)確定的情況下,根據(jù)數(shù)據(jù)倉(cāng)儲(chǔ)的目標(biāo)定位、數(shù)據(jù)資源特征與用戶需求制訂元數(shù)據(jù)元素,以實(shí)用性為目的對(duì)元數(shù)據(jù)標(biāo)準(zhǔn)進(jìn)行拓展與恰當(dāng)?shù)牧6葎澐?,既具備滿足數(shù)據(jù)描述需要的元素內(nèi)容,使數(shù)據(jù)被準(zhǔn)確地描述,又使用戶易于理解和使用。RDA、SND分別作為綜合性和學(xué)科性科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ),其元數(shù)據(jù)元素的制定在支持?jǐn)?shù)據(jù)倉(cāng)儲(chǔ)目標(biāo)的實(shí)現(xiàn)、資源特征、用戶需求等方面具有典型性,本文以其為案例就其元數(shù)據(jù)元素進(jìn)行分析(見(jiàn)表1)。
RDA是一個(gè)綜合性的科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ),提供了澳大利亞100多個(gè)組織、政府機(jī)構(gòu)、文化機(jī)構(gòu)的科學(xué)數(shù)據(jù),其目標(biāo)是幫助研究人員發(fā)現(xiàn)、獲取、再利用科學(xué)數(shù)據(jù),其元數(shù)據(jù)描述元素的設(shè)置從目標(biāo)定位出發(fā),包括發(fā)現(xiàn)(discovery)、獲?。╝ccess)、決定(decision)、再利用(re-use)四個(gè)方面的內(nèi)容。RDA考慮到數(shù)據(jù)來(lái)源、類(lèi)型、格式等的復(fù)雜性,其元數(shù)據(jù)方案采用了基于ISO 2146的RIF-CS schema作為元數(shù)據(jù)標(biāo)準(zhǔn),RIF-CS schema提供了一個(gè)靈活的結(jié)構(gòu)以適應(yīng)不同模式、不同標(biāo)準(zhǔn)的數(shù)據(jù)描述,而且支持不同數(shù)據(jù)倉(cāng)儲(chǔ)的互操作[8]。RDA的元數(shù)據(jù)元素由21個(gè)組成,區(qū)分必備和可選,大多數(shù)元素是可重復(fù)的。
SND是瑞典的一個(gè)人文社科與健康科學(xué)的數(shù)據(jù)服務(wù)平臺(tái),其目標(biāo)是組織、維護(hù)、傳播社會(huì)科學(xué)、人文科學(xué)和健康科學(xué)的研究數(shù)據(jù),幫助研究人員與研究團(tuán)體發(fā)現(xiàn)、獲取數(shù)據(jù),為整個(gè)研究過(guò)程提供支持。因此,選擇人文社科領(lǐng)域、支持?jǐn)?shù)據(jù)生命周期管理的DDI作為元數(shù)據(jù)標(biāo)準(zhǔn)。SND根據(jù)用戶需求與人文社科領(lǐng)域科學(xué)數(shù)據(jù)的特征設(shè)置元數(shù)據(jù)描述元素,在此基礎(chǔ)上對(duì)DDI進(jìn)行調(diào)整,針對(duì)需求增加與刪減了一些描述元素,精減了元素的粒度劃分,形成24個(gè)元素,旨在通過(guò)這些元數(shù)據(jù)元素使科學(xué)數(shù)據(jù)可以被用戶理解、二次分析和再利用[9]。元數(shù)據(jù)元素由3部分組成:項(xiàng)目描述、研究說(shuō)明和變量描述,分為必備元素和可選元素,僅標(biāo)題、訪問(wèn)級(jí)別、主要調(diào)查者為必備元素,其他均為可選元素,具備缺省值。
對(duì)上述2個(gè)科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)元數(shù)據(jù)元素的對(duì)比分析,發(fā)現(xiàn)二者既有共同特點(diǎn)又有區(qū)別。2個(gè)科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)的目標(biāo)定位、數(shù)據(jù)特征不同,選擇了不同的元數(shù)據(jù)標(biāo)準(zhǔn),元數(shù)據(jù)元素的設(shè)置有差異,二者的相同點(diǎn)是元數(shù)據(jù)元素的分類(lèi)與設(shè)置均體現(xiàn)了自身的目標(biāo)定位與用戶需求,元數(shù)據(jù)元素豐富,區(qū)分必備和可選,注重設(shè)置有助于數(shù)據(jù)發(fā)現(xiàn)與再利用的元素。RDA的元數(shù)據(jù)元素的特色是用于“決定”“獲取”和“再利用”數(shù)據(jù)的元素,如數(shù)據(jù)的質(zhì)量和相關(guān)性描述、研究人員、組織和項(xiàng)目的聲譽(yù)、聯(lián)系方式、權(quán)利、許可采樣方法、儀器設(shè)置等,體現(xiàn)出從用戶需求出發(fā),幫助用戶快速判斷出數(shù)據(jù)的價(jià)值,提供從數(shù)據(jù)生產(chǎn)者的獲取途徑,使科學(xué)數(shù)據(jù)得到最大程度地利用。SND的元素中有詳細(xì)的對(duì)研究說(shuō)明、項(xiàng)目描述、數(shù)據(jù)研究方法與過(guò)程的描述,用于研究說(shuō)明和項(xiàng)目描述的元素非常豐富,便于數(shù)據(jù)發(fā)現(xiàn),用戶可以通過(guò)用于項(xiàng)目描述的元數(shù)據(jù)元素,發(fā)現(xiàn)該項(xiàng)目的其他數(shù)據(jù);用于變量描述的元數(shù)據(jù)元素針對(duì)人文社科與健康科學(xué)的數(shù)據(jù)屬性和特征,支持?jǐn)?shù)據(jù)二次分析與再利用;詳盡的訪問(wèn)級(jí)別設(shè)置幫助用戶了解某一項(xiàng)數(shù)據(jù)的可獲取性與獲取方式。
表2 RDA、SND的元數(shù)據(jù)元素
2.3 元數(shù)據(jù)創(chuàng)建方式
元數(shù)據(jù)創(chuàng)建方式有手動(dòng)創(chuàng)建和自動(dòng)創(chuàng)建兩種。調(diào)查發(fā)現(xiàn)目前國(guó)外科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)主要采取用戶手動(dòng)的方式創(chuàng)建元數(shù)據(jù),由科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)提供元數(shù)據(jù)文件模版或元數(shù)據(jù)生成工具,用戶按照模版或在元數(shù)據(jù)生成軟件中填寫(xiě)。如SND、NCDC的元數(shù)據(jù)文件都采用了元數(shù)據(jù)文件模版的自行創(chuàng)建方式,DataCite采用了元數(shù)據(jù)生成軟件,用戶在軟件中填寫(xiě)或在下拉列表中選擇。隨著科學(xué)數(shù)據(jù)數(shù)量的增長(zhǎng),為了減輕用戶創(chuàng)建的負(fù)擔(dān),國(guó)外一些科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)開(kāi)始探索自動(dòng)和半自動(dòng)創(chuàng)建的方式,使元數(shù)據(jù)的創(chuàng)建與提交智能化。RDA提供手動(dòng)創(chuàng)建和自動(dòng)創(chuàng)建兩種方式,自動(dòng)創(chuàng)建采用OAI-PMH協(xié)議自動(dòng)、定期地收割元數(shù)據(jù),用戶只需在系統(tǒng)中輸入元數(shù)據(jù)配置文件,收割機(jī)即可對(duì)元數(shù)據(jù)元素進(jìn)行自動(dòng)抽取和賦值,系統(tǒng)可以對(duì)元數(shù)據(jù)配置文件進(jìn)行格式轉(zhuǎn)換,支持多種收割方式,用戶可自行選擇[10]。Harvard Dataverse采用元數(shù)據(jù)數(shù)據(jù)模版復(fù)用的方式減輕用戶的手動(dòng)輸入,在Dataverse 4.0中用戶可自由創(chuàng)建、復(fù)制、修改、刪除元數(shù)據(jù)模版,當(dāng)用戶有多個(gè)相同領(lǐng)域的數(shù)據(jù)集與相似的元數(shù)據(jù)標(biāo)引時(shí),可以復(fù)制元數(shù)據(jù)模版,在模版中修改必要的元數(shù)據(jù)標(biāo)引,而不必重新創(chuàng)建[11]。
2.4 元數(shù)據(jù)質(zhì)量控制
國(guó)外科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)在元數(shù)據(jù)的質(zhì)量控制方面一是為用戶制訂元數(shù)據(jù)創(chuàng)建指南或最佳實(shí)踐,詳細(xì)說(shuō)明創(chuàng)建流程,元數(shù)據(jù)格式、各元素的標(biāo)引要求等,提供標(biāo)引詞表的鏈接,便于用戶了解與選擇恰當(dāng)?shù)脑~,從用戶創(chuàng)建之始提高元數(shù)據(jù)質(zhì)量,確保元數(shù)據(jù)的規(guī)范性;二是用戶提交元數(shù)據(jù)文件后,由科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)安排專人進(jìn)行檢查,評(píng)估元數(shù)據(jù)質(zhì)量,通過(guò)審核才能正式提交。目前,國(guó)外科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)的元數(shù)據(jù)質(zhì)量控制主要是從完整性、充分性、一致性、準(zhǔn)確性等方面提高元數(shù)據(jù)的質(zhì)量,減少輸入錯(cuò)誤與不規(guī)范,還沒(méi)有制定出系統(tǒng)的質(zhì)量控制機(jī)制;主要采用人工方式進(jìn)行審核評(píng)估,還沒(méi)有應(yīng)用自動(dòng)化的評(píng)估和控制技術(shù)。
SND的元數(shù)據(jù)文件采用電子表單形式,每項(xiàng)元素旁有該元素的解釋說(shuō)明或提供DDI控制詞表的鏈接,點(diǎn)擊即可展開(kāi)查看,鼓勵(lì)數(shù)據(jù)提交者盡可能詳細(xì)地提供元數(shù)據(jù)信息,元數(shù)據(jù)文件填寫(xiě)完成后提交到SND,工作人員進(jìn)行審核,審核通過(guò)后通知提交者上傳數(shù)據(jù)文件。RDA制訂的元數(shù)據(jù)原則第5條指出,好的質(zhì)量、準(zhǔn)確性和及時(shí)更新的元數(shù)據(jù)有利于科學(xué)數(shù)據(jù)的長(zhǎng)期獲取和利用,應(yīng)該加強(qiáng)元數(shù)據(jù)記錄的質(zhì)量控制過(guò)程[12]。RDA為用戶提供元數(shù)據(jù)描述的最佳實(shí)踐,解釋說(shuō)明每一個(gè)元數(shù)據(jù)元素并指導(dǎo)用戶如何標(biāo)引每個(gè)元素,用戶完成元數(shù)據(jù)文件后,工作人員幫助評(píng)估元數(shù)據(jù)的質(zhì)量。NCDC制訂了元數(shù)據(jù)指南草案(DRAFT Guidelines for NCDC Metadata),指南草案中規(guī)定了元數(shù)據(jù)必須維護(hù),必須進(jìn)行審查與更新,通過(guò)兩次評(píng)審保證元數(shù)據(jù)的質(zhì)量,用戶創(chuàng)建完元數(shù)據(jù)文件后應(yīng)該邀請(qǐng)一個(gè)同行從元數(shù)據(jù)的準(zhǔn)確性、充分性和完整性方面進(jìn)行初步評(píng)審,提交到系統(tǒng)后再由專業(yè)人員進(jìn)行最終評(píng)審,評(píng)審員將評(píng)審結(jié)果反饋給用戶,用戶重新修改,直到滿足質(zhì)量要求[13]。
3 對(duì)我國(guó)的啟示
通過(guò)上述調(diào)查分析,結(jié)合我國(guó)科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)元數(shù)據(jù)實(shí)踐的現(xiàn)狀,國(guó)外在以下幾方面值得我國(guó)借鑒。
3.1 根據(jù)元數(shù)據(jù)類(lèi)型與倉(cāng)儲(chǔ)功能需求分析選擇元數(shù)據(jù)標(biāo)準(zhǔn)
已通過(guò)評(píng)審的23個(gè)國(guó)家科技基礎(chǔ)條件平臺(tái)的科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)的元數(shù)據(jù)標(biāo)準(zhǔn)選擇與元數(shù)據(jù)元素設(shè)置,主要依據(jù)科學(xué)數(shù)據(jù)共享工程技術(shù)標(biāo)準(zhǔn)《科學(xué)數(shù)據(jù)共享元數(shù)據(jù)內(nèi)容》、國(guó)家質(zhì)量監(jiān)督檢驗(yàn)檢疫總局和國(guó)家標(biāo)準(zhǔn)化管理委員會(huì)發(fā)布的《科技平臺(tái)資源核心元數(shù)據(jù)》、數(shù)據(jù)資源的特征與專家知識(shí),對(duì)科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)的功能需求、目標(biāo)定位、元數(shù)據(jù)標(biāo)準(zhǔn)類(lèi)型的考慮還有欠缺。因此,我國(guó)科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)在選擇元數(shù)據(jù)標(biāo)準(zhǔn)時(shí)需要進(jìn)行元數(shù)據(jù)類(lèi)型、數(shù)據(jù)倉(cāng)儲(chǔ)功能需求的分析,結(jié)合元數(shù)據(jù)標(biāo)準(zhǔn)的特點(diǎn)與優(yōu)劣選擇出適當(dāng)元數(shù)據(jù)標(biāo)準(zhǔn)。此外,科研基礎(chǔ)設(shè)施之間的互操作是一個(gè)發(fā)展趨勢(shì),科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)在選擇元數(shù)據(jù)標(biāo)準(zhǔn)時(shí)要注意其共享性和通用性。
3.2 以數(shù)據(jù)特征和用戶需求為中心設(shè)置元數(shù)據(jù)元素
我國(guó)科學(xué)數(shù)據(jù)共享工程制訂了核心元數(shù)據(jù)標(biāo)準(zhǔn),包含各學(xué)科數(shù)據(jù)涉及的共同元素,由于學(xué)科數(shù)據(jù)的差異性,核心元數(shù)據(jù)標(biāo)準(zhǔn)不能滿足具體學(xué)科的需求。我國(guó)科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)在使用核心元數(shù)據(jù)、結(jié)合需求進(jìn)行擴(kuò)展時(shí),應(yīng)考慮數(shù)據(jù)倉(cāng)儲(chǔ)的目標(biāo)定位,分析數(shù)據(jù)的學(xué)科類(lèi)別、數(shù)據(jù)特征與用戶需求,以數(shù)據(jù)特征和用戶需求為中心,設(shè)置適用的元數(shù)據(jù)元素,促進(jìn)科學(xué)數(shù)據(jù)的有效管理與共享。
3.3 發(fā)展自動(dòng)元數(shù)據(jù)創(chuàng)建方式
國(guó)外為用戶提供元數(shù)據(jù)文件模版或元數(shù)據(jù)生成工具,用戶按照模版或在元數(shù)據(jù)生成軟件中填寫(xiě),積極探索與實(shí)踐自動(dòng)、半自動(dòng)的元數(shù)據(jù)文件創(chuàng)建與提交方式。半自動(dòng)、自動(dòng)的元數(shù)據(jù)創(chuàng)建方式可以減輕數(shù)據(jù)提交者手動(dòng)創(chuàng)建的負(fù)擔(dān),特別是對(duì)于元數(shù)據(jù)素養(yǎng)不高的提交者而言自動(dòng)提交的方式能夠保證元數(shù)據(jù)的規(guī)范性。我國(guó)科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)應(yīng)該為用戶提供元數(shù)據(jù)文件模版,發(fā)展自動(dòng)元數(shù)據(jù)創(chuàng)建方式,減少用戶錄入,為用戶提交元數(shù)據(jù)提供便利,提高用戶提交與共享數(shù)據(jù)的積極性。
3.4 制訂元數(shù)據(jù)質(zhì)量控制措施
在元數(shù)據(jù)互操作、數(shù)據(jù)共享的環(huán)境下,如何保證元數(shù)據(jù)的質(zhì)量是一個(gè)關(guān)鍵問(wèn)題,是用戶提交數(shù)據(jù)過(guò)程中必不可少的一項(xiàng)措施。借鑒國(guó)外,我國(guó)的科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)應(yīng)從以下兩方面加強(qiáng)元數(shù)據(jù)質(zhì)量控制:一是在提交者創(chuàng)建元數(shù)據(jù)文件之前,著手元數(shù)據(jù)質(zhì)量控制方案的制訂,例如為提交者制訂元數(shù)據(jù)創(chuàng)建指南、制訂最佳實(shí)踐、提供標(biāo)引詞表的鏈供提交者查看等;二是建立元數(shù)據(jù)質(zhì)量評(píng)估指標(biāo),提交后由專業(yè)人員進(jìn)行審核和評(píng)估,并加強(qiáng)專業(yè)人員對(duì)元數(shù)據(jù)質(zhì)量控制素養(yǎng)的培訓(xùn)。隨著科學(xué)數(shù)據(jù)量的增長(zhǎng),采用人工評(píng)估的效率低,自動(dòng)評(píng)估技術(shù)的應(yīng)用有助于減輕人力,提高評(píng)估效率,增強(qiáng)評(píng)估的客觀性,可以預(yù)見(jiàn)自動(dòng)評(píng)估將是未來(lái)科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)元數(shù)據(jù)質(zhì)量控制的主要方式。
參考文獻(xiàn):
[ 1 ] 司莉,邢文明.國(guó)外科學(xué)數(shù)據(jù)管理與共享政策調(diào)查及對(duì)我國(guó)的啟示[J].情報(bào)資料工作,2013(1):61-66.
[ 2 ] 凌云,徐革,李一平,等.特色數(shù)據(jù)庫(kù)建設(shè)中的元數(shù)據(jù)標(biāo)準(zhǔn)選擇[J].情報(bào)雜志,2006(1):131-133.
[ 3 ] 黃如花,邱春艷.國(guó)內(nèi)外科學(xué)數(shù)據(jù)元數(shù)據(jù)研究進(jìn)展[J].圖書(shū)與情報(bào),2014(6):102-108.
[ 4 ] Disciplinary metadata[EB/OL].[2015-08-02].http://www.dcc.ac.uk/resources/metadata-standards.
[ 5 ] 胡芳.國(guó)外典型科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)實(shí)施的元數(shù)據(jù)方案及啟示[J].圖書(shū)與情報(bào),2015(1):117-121.
[ 6 ] Project metadata[EB/OL].[2015-08-03].http://guides.archaeologydataservice.ac.uk/g2gp/CreateData_1-2.
[ 7 ] The different challenges of integrating data from many sources[EB/OL].[2015-09-07].http://www.ala.org.au/blogs-news/data/the-many-and-varied-challenges-of-integrating-data-from-different-sources/.
[ 8 ] Research data australia content providers guide:RDAbest practices[EB/OL].[2015-08-05].http://guides.ands.org.au/rda-cpg/rdabestprac.
[ 9 ] Metadata profile[EB/OL].[2015-08-06].http://snd.gu.se/en/deposit-data/documentation.
[10] Research data Australia content providers guide:Intr-oduction to metadata harvesting[EB/OL].[2015-08-05].http://guides.ands.org.au/rda-cpg/harvestintro.
[11] Dataverse management[EB/OL].[2015-08-05].http://guides.dataverse.org/en/latest/user/dataverse-manage-ment.html#dataset-templates.
[12] Metadata content requirements[EB/OL].[2015-08-05].http://ands.org.au/resource/metadata-content-require-ments.html.
[13] DRAFT guidelines for NCDC metadata National Clim-atic Data Center(NCDC)[EB/OL[20150810].http://www.ncdc.noaa.gov/oa/metadata/metadataresources.html
#ds.