湯子鈺 歐石燕
(南京大學(xué)信息管理學(xué)院,南京 210023)
在e-Science和大數(shù)據(jù)環(huán)境下,數(shù)據(jù)密集型科學(xué)研究正在成為當(dāng)代科學(xué)研究的主流范式,科研活動(dòng)逐步轉(zhuǎn)向以科學(xué)數(shù)據(jù)為中心,但同時(shí)面臨著數(shù)據(jù)量大、數(shù)據(jù)類型繁多、數(shù)據(jù)價(jià)值密度低等諸多困難。數(shù)據(jù)監(jiān)護(hù)將數(shù)據(jù)管理由靜態(tài)、消極的保存上升到動(dòng)態(tài)、積極的監(jiān)護(hù),極大地提升了數(shù)據(jù)的應(yīng)用價(jià)值,受到學(xué)術(shù)界、企業(yè)界和政府等各方面的廣泛關(guān)注,國(guó)外相繼涌現(xiàn)了大批數(shù)據(jù)監(jiān)護(hù)平臺(tái)。數(shù)據(jù)監(jiān)護(hù)平臺(tái)是為數(shù)據(jù)監(jiān)護(hù)服務(wù)提供載體的基礎(chǔ)設(shè)施平臺(tái),是數(shù)據(jù)監(jiān)護(hù)由理論走向?qū)嵺`的重要支撐。本文對(duì)國(guó)外代表性數(shù)據(jù)監(jiān)護(hù)平臺(tái)的技術(shù)規(guī)范、組件、軟件工具、功能等各方面進(jìn)行全面調(diào)研、分析和比較,旨在為我國(guó)數(shù)據(jù)監(jiān)護(hù)平臺(tái)的開(kāi)發(fā)與建設(shè)提供參考。
數(shù)據(jù)監(jiān)護(hù)萌生于20世紀(jì)90年代中期的數(shù)字資源長(zhǎng)期保存研究與實(shí)踐。隨著研究的深入,研究者們的關(guān)注重點(diǎn)從確保數(shù)據(jù)的完整、真實(shí)逐步轉(zhuǎn)變?yōu)閷?duì)數(shù)字資源的積極利用[1]。2001年,數(shù)字保存聯(lián)盟(Digital Preservation Coalition)與英國(guó)國(guó)家空間中心(British National Space Centre)在倫敦聯(lián)合舉辦了“Digital Curation:Digital Archives,Libraries and e-Science Seminar”國(guó)際研討會(huì),首次提出數(shù)字監(jiān)護(hù)(Digital Curation)和數(shù)據(jù)監(jiān)護(hù)(Data Curation)概念[2]。這兩個(gè)概念雖然前者多用于人文社科領(lǐng)域,后者多用于自然科學(xué)領(lǐng)域[3-4],但并沒(méi)有本質(zhì)區(qū)別,都是指主動(dòng)管理處于生命周期中的科學(xué)數(shù)據(jù),從而促進(jìn)數(shù)字資源共享的活動(dòng)[5],在很大程度上可以互用。因此,在本文中我們統(tǒng)一使用數(shù)據(jù)監(jiān)護(hù)一詞。
數(shù)據(jù)監(jiān)護(hù)與原有的數(shù)據(jù)保存(Data Preservation)和數(shù)據(jù)存檔(Data Archiving)這兩個(gè)概念既有區(qū)別又有聯(lián)系。英國(guó)數(shù)字?jǐn)?shù)據(jù)監(jiān)護(hù)任務(wù)組(Digital Data Curation Taskforce)認(rèn)為,數(shù)據(jù)保存是數(shù)據(jù)存檔的一個(gè)方面,而數(shù)據(jù)存檔則是數(shù)據(jù)監(jiān)護(hù)的基礎(chǔ)和前提[6];英國(guó)數(shù)字監(jiān)護(hù)中心(Digital Curation Center,DCC)認(rèn)為,與數(shù)據(jù)保存相比,數(shù)據(jù)監(jiān)護(hù)在確保數(shù)據(jù)長(zhǎng)期可用的同時(shí),能夠?yàn)閿?shù)據(jù)創(chuàng)建者和用戶帶來(lái)即時(shí)價(jià)值[7];英國(guó)聯(lián)合信息系統(tǒng)委員會(huì)(Joint Information Systems Committee,JISC)認(rèn)為,數(shù)據(jù)監(jiān)護(hù)活動(dòng)包含了數(shù)據(jù)存檔和數(shù)據(jù)保存,存檔和保存只是數(shù)據(jù)監(jiān)護(hù)多種活動(dòng)中的一部分,更為重要的是數(shù)據(jù)監(jiān)護(hù)對(duì)數(shù)據(jù)進(jìn)行增值活動(dòng)以生成新的信息和知識(shí)[8];國(guó)內(nèi)學(xué)者楊鶴林[9]認(rèn)為,數(shù)據(jù)存檔從內(nèi)容層面保證數(shù)據(jù)的再利用,而數(shù)據(jù)保存從數(shù)據(jù)監(jiān)護(hù)的技術(shù)層面確保數(shù)據(jù)的長(zhǎng)期可用性;張智雄等[10]認(rèn)為,數(shù)據(jù)保存是消極被動(dòng)的,而數(shù)據(jù)監(jiān)護(hù)則是一項(xiàng)積極主動(dòng)的活動(dòng)。綜合上述觀點(diǎn)可以看出,數(shù)據(jù)監(jiān)護(hù)更強(qiáng)調(diào)數(shù)據(jù)的生命周期管理,是貫穿數(shù)據(jù)整個(gè)生命周期過(guò)程的持續(xù)性數(shù)據(jù)管理活動(dòng),目標(biāo)是數(shù)據(jù)的價(jià)值增值,因此在數(shù)據(jù)管理活動(dòng)中具有更積極的意義[11]。
數(shù)據(jù)監(jiān)護(hù)的實(shí)施離不開(kāi)數(shù)據(jù)監(jiān)護(hù)平臺(tái)的支撐。目前,有關(guān)數(shù)據(jù)監(jiān)護(hù)平臺(tái)的研究在歐美國(guó)家相對(duì)成熟和系統(tǒng),理論與實(shí)踐結(jié)合緊密。理論研究主要集中在數(shù)據(jù)管理、數(shù)據(jù)生命周期模型、平臺(tái)基礎(chǔ)設(shè)施和平臺(tái)架構(gòu)4個(gè)方面。如Bishoff等[12]選取并分析了182個(gè)數(shù)據(jù)管理規(guī)劃的具體內(nèi)容,得出數(shù)據(jù)管理規(guī)劃能夠提高數(shù)據(jù)服務(wù)質(zhì)量的結(jié)論;Pej?a等[13]以地震工程學(xué)數(shù)據(jù)監(jiān)護(hù)平臺(tái)NEES為例,構(gòu)建了適合地震工程學(xué)領(lǐng)域的數(shù)據(jù)模型;Kerrien等[14]從數(shù)據(jù)監(jiān)護(hù)政策、數(shù)據(jù)類型、數(shù)據(jù)描述、項(xiàng)目合作、平臺(tái)界面等方面,剖析了IntAct平臺(tái)框架。在實(shí)踐方面,國(guó)外數(shù)據(jù)監(jiān)護(hù)平臺(tái)實(shí)例眾多、發(fā)展成熟,如美國(guó)的考古學(xué)平臺(tái)tDAR[15]、英國(guó)的海洋學(xué)平臺(tái)MEDIN[16]、澳大利亞的綜合性數(shù)據(jù)監(jiān)護(hù)平臺(tái)ANDS[17]等。
相較國(guó)外,我國(guó)針對(duì)數(shù)據(jù)監(jiān)護(hù)平臺(tái)的相關(guān)研究多數(shù)停留在理論層面,主要包括數(shù)據(jù)生命周期模型、數(shù)字資源倉(cāng)儲(chǔ)系統(tǒng)和國(guó)外代表性數(shù)據(jù)監(jiān)護(hù)平臺(tái)調(diào)研等方面。如殷沈琴等[18]對(duì)DSpace、Fedora、Dataverse 3款數(shù)字資源倉(cāng)儲(chǔ)系統(tǒng)進(jìn)行分析,評(píng)估各軟件的基本功能、高級(jí)功能、使用的元數(shù)據(jù)規(guī)范和在線分析功能;楊鶴林[19]分析了康奈爾大學(xué)DataStaR平臺(tái)的運(yùn)作模型,提出我國(guó)數(shù)據(jù)監(jiān)護(hù)平臺(tái)的構(gòu)建應(yīng)學(xué)習(xí)DataStaR的創(chuàng)新模式,以提高數(shù)據(jù)服務(wù)質(zhì)量。實(shí)踐方面,國(guó)內(nèi)雖然也開(kāi)發(fā)構(gòu)建了一些數(shù)據(jù)監(jiān)護(hù)平臺(tái),但數(shù)量較少,僅有北京大學(xué)開(kāi)放研究數(shù)據(jù)平臺(tái)、復(fù)旦大學(xué)社會(huì)科學(xué)數(shù)據(jù)平臺(tái)、中山大學(xué)社會(huì)科學(xué)調(diào)查中心、中國(guó)科學(xué)院數(shù)據(jù)云等,且主要依賴于國(guó)外數(shù)字資源倉(cāng)儲(chǔ)系統(tǒng)(如哈佛大學(xué)的Dataverse[20]、MIT和HP實(shí)驗(yàn)室的DSpace[21])進(jìn)行支撐。
總體來(lái)看,國(guó)內(nèi)數(shù)據(jù)監(jiān)護(hù)平臺(tái)在理論研究和實(shí)踐研究方面都與國(guó)外存在較大差距。因此,國(guó)內(nèi)平臺(tái)的開(kāi)發(fā)與構(gòu)建亟需學(xué)習(xí)國(guó)外較為成熟的理論與實(shí)踐經(jīng)驗(yàn)。
為保證調(diào)研樣本的代表性和調(diào)研結(jié)果的可靠性,我們根據(jù)領(lǐng)域覆蓋面廣、學(xué)科多樣性強(qiáng)、平臺(tái)詳細(xì)技術(shù)信息可獲得、數(shù)據(jù)存儲(chǔ)量大的原則,本文選取了20個(gè)有代表性數(shù)據(jù)監(jiān)護(hù)平臺(tái),分別來(lái)自英國(guó)、美國(guó)、澳大利亞、歐盟等國(guó)家或組織,涵蓋人文社會(huì)科學(xué)、地球科學(xué)、物理科學(xué)、生物醫(yī)學(xué)等學(xué)科領(lǐng)域。這些平臺(tái)或是全球性的服務(wù)平臺(tái),抑或是所在國(guó)家或領(lǐng)域比較權(quán)威的數(shù)據(jù)監(jiān)護(hù)平臺(tái),具有知名度高、用戶界面友好、服務(wù)功能完善、管理制度和構(gòu)建技術(shù)成熟等特點(diǎn)。表1列舉了所調(diào)研的數(shù)據(jù)監(jiān)護(hù)平臺(tái)的基本信息。
數(shù)據(jù)監(jiān)護(hù)平臺(tái)與傳統(tǒng)數(shù)據(jù)存儲(chǔ)系統(tǒng)的最大區(qū)別在于,數(shù)據(jù)監(jiān)護(hù)平臺(tái)對(duì)數(shù)據(jù)整個(gè)生命周期的各個(gè)階段都進(jìn)行管理,從而保持?jǐn)?shù)據(jù)的長(zhǎng)期可用與價(jià)值增值;而傳統(tǒng)數(shù)據(jù)存儲(chǔ)系統(tǒng)主要是以數(shù)據(jù)檢索與發(fā)現(xiàn)為目的,對(duì)數(shù)據(jù)進(jìn)行簡(jiǎn)單描述和一次性靜態(tài)存儲(chǔ),很少或根本不提供數(shù)據(jù)處理、數(shù)據(jù)分析等數(shù)據(jù)增值功能。
數(shù)據(jù)生命周期模型是規(guī)劃監(jiān)護(hù)活動(dòng)并抽象描述數(shù)據(jù)監(jiān)護(hù)活動(dòng)各個(gè)階段的概念框架[22]。數(shù)據(jù)生命周期模型提供了在項(xiàng)目或機(jī)構(gòu)中組織數(shù)據(jù)管理相關(guān)任務(wù)和活動(dòng)的結(jié)構(gòu)。不同組織機(jī)構(gòu)根據(jù)需要提出不同的數(shù)據(jù)生命周期模型,從不同角度描述了數(shù)據(jù)從產(chǎn)生、收集、描述、存儲(chǔ)、發(fā)現(xiàn)、分析到再利用的整個(gè)生命周期。本文調(diào)研的20個(gè)平臺(tái)中,80%的平臺(tái)都是基于數(shù)據(jù)生命周期模型進(jìn)行數(shù)據(jù)管理,主要采用的模型有4個(gè),具體介紹如表2所示。
(1)DCC生命周期模型。該模型由英國(guó)數(shù)據(jù)監(jiān)護(hù)中心于2008年提出[23],用于規(guī)劃特定研究項(xiàng)目、組織或聯(lián)盟內(nèi)的數(shù)據(jù)管理活動(dòng),以確保按照正確的順序管理科研資源[24]。DCC模型將數(shù)據(jù)生命周期劃分為6個(gè)主要階段:概念化,創(chuàng)建和接收數(shù)據(jù),評(píng)測(cè)和選擇數(shù)據(jù),長(zhǎng)期保存和存儲(chǔ),訪問(wèn)、使用和重用,以及轉(zhuǎn)換[25]。
(2)OAIS(Open Archival Information System)模型。該模型是由美國(guó)國(guó)家航空航天局(NASA)和美國(guó)空間數(shù)據(jù)系統(tǒng)咨詢委員會(huì)(CCSDS)于1999年聯(lián)合制定的標(biāo)準(zhǔn)[26],其目的在于規(guī)范數(shù)字資源長(zhǎng)期保存的概念和模型[27],包括功能模型、信息模型和互操作模型[28]。其中,功能模型涵蓋數(shù)據(jù)收集、歸檔存儲(chǔ)、數(shù)據(jù)管理、管理、保存規(guī)劃、訪問(wèn)6個(gè)實(shí)體;信息模型用于解釋數(shù)字保存系統(tǒng)中信息對(duì)象的結(jié)構(gòu)和種類。三者共同作用,描述整個(gè)數(shù)據(jù)管理過(guò)程中不同信息對(duì)象的內(nèi)容和結(jié)構(gòu)[29]。
(3)DDI(Data Documentation Initiative)生命周期模型。該模型由數(shù)據(jù)文獻(xiàn)計(jì)劃聯(lián)盟構(gòu)建,是一個(gè)以社會(huì)科學(xué)數(shù)據(jù)為服務(wù)對(duì)象的線性模型。它將數(shù)據(jù)生命周期劃分為概念研究、數(shù)據(jù)采集、數(shù)據(jù)處理、數(shù)據(jù)存檔、數(shù)據(jù)發(fā)布、數(shù)據(jù)發(fā)現(xiàn)、數(shù)據(jù)分析和數(shù)據(jù)重用8個(gè)階段[30],旨在對(duì)整個(gè)生命周期中的科學(xué)數(shù)據(jù)進(jìn)行管理和監(jiān)護(hù)。
表1 調(diào)研的數(shù)據(jù)監(jiān)護(hù)平臺(tái)基本信息
續(xù)表
(4)UKDA(UK Data Archive)生命周期模型。該模型由英國(guó)數(shù)據(jù)檔案組織構(gòu)建,旨在保存高質(zhì)量的研究數(shù)據(jù)以供分析和再利用[31]。UKDA模型將數(shù)據(jù)生命周期劃分為6個(gè)階段:數(shù)據(jù)創(chuàng)建、數(shù)據(jù)加工、數(shù)據(jù)分析、數(shù)據(jù)保存、數(shù)據(jù)訪問(wèn)和數(shù)據(jù)再利用[32]。
根據(jù)上述調(diào)研可以看出,DCC模型、OAIS模型、DDI模型和UKDA模型雖然在具體結(jié)構(gòu)和細(xì)節(jié)上有所區(qū)別,但有關(guān)數(shù)據(jù)生命周期階段的劃分是有相通之處的。4個(gè)模型定義的數(shù)據(jù)生命周期大致包括數(shù)據(jù)管理規(guī)劃、數(shù)據(jù)采集、數(shù)據(jù)處理、數(shù)據(jù)保存、數(shù)據(jù)訪問(wèn)、數(shù)據(jù)分析與利用這6個(gè)階段。因此,本文以科學(xué)數(shù)據(jù)的生命周期管理為切入點(diǎn),對(duì)數(shù)據(jù)監(jiān)護(hù)平臺(tái)在數(shù)據(jù)生命周期各個(gè)階段采用的協(xié)議規(guī)范、技術(shù)實(shí)現(xiàn)方式,以及提供的功能等方面進(jìn)行調(diào)研分析。
表2 數(shù)據(jù)生命周期模型基本信息
為保證科研項(xiàng)目的順利進(jìn)行和科學(xué)數(shù)據(jù)的可追溯、可重用,越來(lái)越多的基金會(huì)和其他研究資助者要求無(wú)論是在投標(biāo)準(zhǔn)備階段還是資金獲得后,科研人員和團(tuán)隊(duì)都應(yīng)明確如何對(duì)科學(xué)數(shù)據(jù)進(jìn)行收集、處理和生成。數(shù)據(jù)管理規(guī)劃,是概要介紹科研項(xiàng)目進(jìn)行中以及結(jié)束后科學(xué)數(shù)據(jù)將如何被有效處理的正式文檔[33]。數(shù)據(jù)管理規(guī)劃制定于科學(xué)數(shù)據(jù)生命周期管理的起始階段(即在科學(xué)數(shù)據(jù)產(chǎn)生前),但它不是固定不變的,通常在項(xiàng)目的生命周期中被不斷充實(shí)和細(xì)化完善[34]。數(shù)據(jù)管理規(guī)劃對(duì)開(kāi)展數(shù)據(jù)監(jiān)護(hù)工作具有指導(dǎo)和驅(qū)動(dòng)意義。
為滿足科學(xué)數(shù)據(jù)管理的“FAIR”原則[35],即可尋找(findable)、可訪問(wèn)(accessible)、可交互(interoperable)、可再用(re-usable),英國(guó)數(shù)據(jù)監(jiān)護(hù)中心提出數(shù)據(jù)管理規(guī)劃應(yīng)包含5項(xiàng)信息,分別是數(shù)據(jù)創(chuàng)建規(guī)范、數(shù)據(jù)組織管理的標(biāo)準(zhǔn)、道德規(guī)范和知識(shí)產(chǎn)權(quán)問(wèn)題、數(shù)據(jù)共享和訪問(wèn)計(jì)劃,以及長(zhǎng)期保存策略[36]。
基金組織為數(shù)據(jù)監(jiān)護(hù)平臺(tái)開(kāi)展或支持的科研活動(dòng)提供資助,科研人員或團(tuán)隊(duì)為獲得贊助,必須保證科研產(chǎn)出的質(zhì)量滿足相應(yīng)的要求。不同的基金組織對(duì)數(shù)據(jù)管理規(guī)劃的要求不一樣,如表3所示。本文調(diào)研的6個(gè)基金組織均要求在數(shù)據(jù)管理規(guī)劃中明確數(shù)據(jù)創(chuàng)建規(guī)范,部分基金組織未對(duì)道德規(guī)范與知識(shí)產(chǎn)權(quán)、數(shù)據(jù)歸檔和保存的相關(guān)內(nèi)容做要求。數(shù)據(jù)管理規(guī)劃一方面能夠幫助研究人員明確資助者的具體要求,同時(shí)也為數(shù)據(jù)生命周期不同階段的管控提供明確的指導(dǎo),保證科研項(xiàng)目的產(chǎn)出質(zhì)量。
表3 不同基金組織對(duì)數(shù)據(jù)管理規(guī)劃內(nèi)容的整體要求
數(shù)據(jù)采集是數(shù)據(jù)生命活動(dòng)的起點(diǎn),在該階段,數(shù)據(jù)監(jiān)護(hù)平臺(tái)為采集到的數(shù)據(jù)集提供元數(shù)據(jù)描述,為后續(xù)的數(shù)據(jù)管理和利用提供基礎(chǔ)[37]。元數(shù)據(jù)在科學(xué)數(shù)據(jù)的組織、存儲(chǔ)、檢索、引用、共享等生命周期的各個(gè)環(huán)節(jié)都起到至關(guān)重要的作用。在不同的學(xué)科領(lǐng)域,根據(jù)其數(shù)據(jù)特點(diǎn),通常使用不同的元數(shù)據(jù)規(guī)范。如ABCD(Access to Biological Collections Data)元數(shù)據(jù)規(guī)范主要用于描述活生物體標(biāo)本等初級(jí)生物多樣性數(shù)據(jù)[38];DIF(Directory Interchange Format)規(guī)范用于描述地球科學(xué)領(lǐng)域的相關(guān)項(xiàng)目中,數(shù)據(jù)捕獲儀器、數(shù)據(jù)時(shí)間和空間特性等元素;CIF(Crystallographic Information Framework)是物理科學(xué)領(lǐng)域主要用于描述晶體結(jié)構(gòu)測(cè)定的數(shù)據(jù)。本研究所調(diào)研的20個(gè)數(shù)據(jù)監(jiān)護(hù)平臺(tái)涉及不同的學(xué)科,主要使用11種元數(shù)據(jù)規(guī)范,如表4所示。
在所調(diào)研的20個(gè)數(shù)據(jù)監(jiān)護(hù)平臺(tái)中,應(yīng)用最廣泛的是DC元數(shù)據(jù)規(guī)范,有7個(gè)平臺(tái)使用,占比35%;其次是DDI規(guī)范,有3個(gè)平臺(tái)使用,占比15%。DC屬于通用元數(shù)據(jù)規(guī)范,可擴(kuò)展性強(qiáng),廣泛用于各學(xué)科領(lǐng)域[45];而DDI是DC的延伸與擴(kuò)展,在人文社會(huì)科學(xué)領(lǐng)域應(yīng)用廣泛[46]。Darwin Core與DDI一脈相承,是DC元數(shù)據(jù)在生物學(xué)領(lǐng)域的擴(kuò)展。FGDC/CSDGM由美國(guó)聯(lián)邦地理數(shù)據(jù)委員會(huì)(Federal Geographic Data Committee,F(xiàn)GDC)頒布,是最廣泛描述地理空間數(shù)據(jù)的標(biāo)準(zhǔn)。除此之外,為滿足部分學(xué)科數(shù)據(jù)描述的特殊要求,很多數(shù)據(jù)監(jiān)護(hù)平臺(tái)融合采用多種規(guī)范或自行定義合適的元數(shù)據(jù)框架。譬如,除Darwin Core外,GBIF為描述紙質(zhì)地圖等非數(shù)字資源采用了EML規(guī)范;蛋白質(zhì)數(shù)據(jù)銀行開(kāi)發(fā)了PDBx/mmCIF規(guī)范,用于準(zhǔn)確描述蛋白質(zhì)、核酸3D結(jié)構(gòu)信息和大分子晶體信息。這些方式有利于提高元數(shù)據(jù)標(biāo)準(zhǔn)針對(duì)性,快速滿足科研項(xiàng)目實(shí)踐的需求。
除學(xué)科因素外,科學(xué)數(shù)據(jù)所處的生命周期階段也會(huì)影響到元數(shù)據(jù)規(guī)范的選擇。在不同階段,通常選擇全部用蛋白質(zhì)數(shù)據(jù)銀行不同的元數(shù)據(jù)規(guī)范描述數(shù)據(jù)以達(dá)到不同的目的。如美國(guó)普渡大學(xué)研究資料庫(kù)(PURR)為兼顧數(shù)據(jù)描述、發(fā)現(xiàn)、可追蹤和保存等各個(gè)階段的數(shù)據(jù)管理需求,將幾個(gè)元數(shù)據(jù)標(biāo)準(zhǔn)整合到一起,形成一整套PURR的元數(shù)據(jù)解決方案[47]。在數(shù)據(jù)創(chuàng)建階段,METS(Metadata Encoding and Transmission Standard)標(biāo)準(zhǔn)表示數(shù)據(jù)集文件的結(jié)構(gòu)和層次;在數(shù)據(jù)保存階段,MODS描述了數(shù)據(jù)集的訪問(wèn)權(quán)限,PREMIS(Preservation Metadata Implementation Strategies)標(biāo)準(zhǔn)記錄每個(gè)數(shù)據(jù)集經(jīng)歷的保存事件;在數(shù)據(jù)利用階段,采用DC元數(shù)據(jù)以支持?jǐn)?shù)據(jù)的檢索和發(fā)現(xiàn)[48]。
為幫助科研人員準(zhǔn)確描述資源信息,數(shù)據(jù)監(jiān)護(hù)平臺(tái)通過(guò)發(fā)布指導(dǎo)性文件和要求用戶提交表格或制定元數(shù)據(jù)管理工具等方式提供元數(shù)據(jù)創(chuàng)建服務(wù)。ICPSR平臺(tái)發(fā)布文檔《元數(shù)據(jù)創(chuàng)建最佳實(shí)踐》(Best Practice in Creating Metadata),推薦科研用戶使用DDI標(biāo)準(zhǔn)來(lái)創(chuàng)建元數(shù)據(jù),還補(bǔ)充設(shè)置了資金來(lái)源、項(xiàng)目描述、數(shù)據(jù)加權(quán)等十多個(gè)元數(shù)據(jù)項(xiàng)目;DataShare在《儲(chǔ)戶用戶指南》(Edinburgh Datashare:Depositor'sUser Guide)中描述了提供元數(shù)據(jù)的具體步驟,包括數(shù)據(jù)項(xiàng)名稱、創(chuàng)建者信息、數(shù)據(jù)類型、項(xiàng)目基金等。Dyrad和Dataverse Network平臺(tái)通過(guò)用戶提交表格的形式創(chuàng)建元數(shù)據(jù)。Dyrad要求數(shù)據(jù)創(chuàng)建者上傳短視頻,闡述表格內(nèi)容的填寫(xiě)原因和過(guò)程;Dataverse Network結(jié)合元數(shù)據(jù)標(biāo)準(zhǔn)體系和用戶需求,設(shè)置下拉菜單為用戶提供準(zhǔn)確的選擇。目前,應(yīng)用較為廣泛的元數(shù)據(jù)創(chuàng)建工具包括英國(guó)數(shù)據(jù)監(jiān)護(hù)中心制定的DMPtools、美國(guó)聯(lián)邦地理數(shù)據(jù)委員會(huì)提供的地理空間科學(xué)元數(shù)據(jù)編輯器EME(EPA Metadata Editor)等。
表4 數(shù)據(jù)監(jiān)護(hù)平臺(tái)中使用的科學(xué)數(shù)據(jù)集元數(shù)據(jù)規(guī)范[39]
在數(shù)據(jù)處理階段,數(shù)據(jù)監(jiān)護(hù)平臺(tái)主要負(fù)責(zé)數(shù)據(jù)審核和格式管理的工作。
數(shù)據(jù)審核主要是指通過(guò)審核數(shù)據(jù)價(jià)值、元數(shù)據(jù)、數(shù)據(jù)格式等來(lái)保障科研數(shù)據(jù)的質(zhì)量、可獲得性和兼容性。UKDA平臺(tái)在從數(shù)據(jù)的攝入到保存、再到數(shù)據(jù)發(fā)布過(guò)程中提供格式轉(zhuǎn)換和轉(zhuǎn)化質(zhì)量檢查的功能[49];ICPSR平臺(tái)對(duì)科研項(xiàng)目是否處于核心研究領(lǐng)域、是否優(yōu)化現(xiàn)有工具、科研數(shù)據(jù)定量或定性等方面都有評(píng)估要求。格式管理是指轉(zhuǎn)化并規(guī)范科學(xué)數(shù)據(jù)格式。有的監(jiān)護(hù)平臺(tái)還支持將存儲(chǔ)的數(shù)據(jù)轉(zhuǎn)換為更加易讀的格式供用戶下載。
調(diào)研發(fā)現(xiàn),數(shù)據(jù)監(jiān)護(hù)平臺(tái)對(duì)數(shù)據(jù)上傳格式的要求通常有3種,分別是上傳格式無(wú)限制、上傳指定格式的數(shù)據(jù)和上傳格式符合特定標(biāo)準(zhǔn)。上傳格式無(wú)限制的數(shù)據(jù)監(jiān)護(hù)平臺(tái)通常提供格式轉(zhuǎn)換工具,能夠?qū)ι蟼鞯臄?shù)據(jù)進(jìn)行處理,將其轉(zhuǎn)換為平臺(tái)支持的存儲(chǔ)格式。如OCTOPUS是SeaDataNet平臺(tái)提供的一種多重樣式檢測(cè)、轉(zhuǎn)化和拆分工具,它將給定SeaDataNet格式的文件轉(zhuǎn)換為另一種SeaDataNet格式。SeaDataNet平臺(tái)還提供NEMO工具,可以將數(shù)據(jù)在ASCII和自有格式ODV4之間相互轉(zhuǎn)化。上傳指定格式的數(shù)據(jù)是指數(shù)據(jù)監(jiān)護(hù)平臺(tái)只支持規(guī)定格式數(shù)據(jù)的上傳。如GBIF平臺(tái)只支持上傳文本、關(guān)系型數(shù)據(jù)表和XML格式的數(shù)據(jù)[50];有的數(shù)據(jù)監(jiān)護(hù)平臺(tái)雖然沒(méi)有規(guī)定上傳數(shù)據(jù)的具體格式,但是要求數(shù)據(jù)格式必須要滿足特定標(biāo)準(zhǔn),如Protein Data Bank平臺(tái)規(guī)定上傳數(shù)據(jù)需符合PDBx/mmCIF標(biāo)準(zhǔn)[51-52]。
大部分?jǐn)?shù)據(jù)監(jiān)護(hù)平臺(tái)的數(shù)據(jù)存儲(chǔ)格式和下載格式基本相同,主要為文本、圖像、關(guān)系型數(shù)據(jù)表等格式,且經(jīng)過(guò)數(shù)據(jù)處理和格式轉(zhuǎn)換流程之后,比數(shù)據(jù)最初的上傳格式更加規(guī)范。為了滿足管理特定類型數(shù)據(jù)的需求且達(dá)到資源共享的目的,有些數(shù)據(jù)監(jiān)護(hù)平臺(tái)支持視頻、音頻、關(guān)系型數(shù)據(jù)庫(kù)、元數(shù)據(jù)(XML、RDF)、程序代碼、GIS等小眾格式。如ADS平臺(tái)能夠通過(guò)VR(Virtual Reality)格式存儲(chǔ)考古文物的信息,通過(guò)GIS格式定位考察地點(diǎn);tDAR平臺(tái)還支持遙感和3D掃描格式的數(shù)據(jù);有些數(shù)據(jù)平臺(tái)則要求按照ASCII、netCDF、HDF等標(biāo)準(zhǔn)存儲(chǔ)數(shù)據(jù)。
在數(shù)據(jù)保存階段,數(shù)據(jù)監(jiān)護(hù)平臺(tái)的工作主要涉及數(shù)據(jù)資源的永久性標(biāo)識(shí)和數(shù)據(jù)倉(cāng)儲(chǔ)軟件。
永久標(biāo)識(shí)符是對(duì)數(shù)字資源進(jìn)行唯一標(biāo)識(shí)的工具,在數(shù)字資源的可獲得性和重復(fù)利用方面發(fā)揮重要作用。目前,具有代表性的數(shù)字資源標(biāo)識(shí)符有數(shù)字對(duì)象標(biāo)識(shí)符(Digital Object Identifier,DOI)、永久統(tǒng)一資源定位符(Persistent Uniform Resource Locators,PURL)和句柄系統(tǒng)(Handle System)3種。在所調(diào)研的20個(gè)數(shù)據(jù)監(jiān)護(hù)平臺(tái)中,15個(gè)平臺(tái)采用DOI標(biāo)識(shí)符,5個(gè)平臺(tái)采用PURL標(biāo)識(shí)符,僅有Dataverse Network平臺(tái)同時(shí)采用了DOI標(biāo)識(shí)符和句柄系統(tǒng)。PURL基于標(biāo)準(zhǔn)的Web資源地址URL,具有易推廣的優(yōu)勢(shì);而DOI則具有較強(qiáng)的兼容性和語(yǔ)義互操作性,管理機(jī)制發(fā)展完善,解析系統(tǒng)也較為成熟,同時(shí)不斷推出CrossRef Search等增值服務(wù)[53]。目前,DOI在數(shù)字資源標(biāo)識(shí)中的應(yīng)用最為廣泛。除這3種通用的數(shù)字資源標(biāo)識(shí)符,數(shù)據(jù)監(jiān)護(hù)平臺(tái)在積極探求更好的數(shù)據(jù)標(biāo)引方式。如Dataverse Network平臺(tái)提供的數(shù)據(jù)引用功能,在永久性標(biāo)識(shí)符的基礎(chǔ)上附加了基于每項(xiàng)數(shù)據(jù)集內(nèi)容的通用數(shù)字指紋,以應(yīng)對(duì)數(shù)字資源格式變化帶來(lái)的問(wèn)題。
數(shù)字資源倉(cāng)儲(chǔ)系統(tǒng)是構(gòu)建數(shù)據(jù)監(jiān)護(hù)平臺(tái)的基礎(chǔ),負(fù)責(zé)對(duì)數(shù)據(jù)監(jiān)護(hù)平臺(tái)中的數(shù)據(jù)進(jìn)行倉(cāng)儲(chǔ)管理。主流的倉(cāng)儲(chǔ)系統(tǒng)有Fedora、Eprints和Dataverse 3款,皆為免費(fèi)開(kāi)源軟件。在所調(diào)研的20個(gè)數(shù)據(jù)監(jiān)護(hù)平臺(tái)中,絕大部分平臺(tái)都采用自主研發(fā)軟件,因?yàn)槎ㄖ栖浖芴峁┚哂嗅槍?duì)性的數(shù)據(jù)服務(wù)并具有專業(yè)化的管理能力。如BODC平臺(tái)利用Linux、Microsoft Access、C++、Oracle SQL等自行開(kāi)發(fā)倉(cāng)儲(chǔ)平臺(tái)。僅有4個(gè)平臺(tái)選擇了開(kāi)源軟件,其中ADS和FishNet平臺(tái)采用Fedora軟件,Dataverse Network平臺(tái)采用Dataverse軟件,UKDA平臺(tái)采用Eprints系統(tǒng)來(lái)管理機(jī)構(gòu)的數(shù)據(jù)資源。采用免費(fèi)開(kāi)源軟件的優(yōu)勢(shì)是簡(jiǎn)單易行,對(duì)數(shù)據(jù)機(jī)構(gòu)的經(jīng)費(fèi)需求和技術(shù)要求都比較低。
數(shù)據(jù)監(jiān)護(hù)平臺(tái)的一個(gè)重要功能是提供對(duì)所有存儲(chǔ)的數(shù)據(jù)集的檢索與訪問(wèn),為實(shí)現(xiàn)跨平臺(tái)檢索與訪問(wèn),數(shù)據(jù)監(jiān)護(hù)平臺(tái)往往通過(guò)數(shù)字資源互操作協(xié)議來(lái)實(shí)現(xiàn)不同平臺(tái)間的互操作。
數(shù)字資源互操作協(xié)議是為了實(shí)現(xiàn)不同機(jī)構(gòu)與系統(tǒng)之間數(shù)字資源共享所制定的協(xié)議標(biāo)準(zhǔn),為數(shù)據(jù)監(jiān)護(hù)平臺(tái)之間的互操作提供了支持。目前,具有代表性的數(shù)字資源互操作協(xié)議有Z39.50和OAI-PMH協(xié)議兩種。在所調(diào)研的20個(gè)數(shù)據(jù)監(jiān)護(hù)平臺(tái)中,19個(gè)平臺(tái)遵循OAI-PMH協(xié)議,僅有ADS平臺(tái)同時(shí)遵循OAI-PMH和Z39.50兩種協(xié)議。由此可見(jiàn),OAI-PMH協(xié)議在數(shù)據(jù)監(jiān)護(hù)平臺(tái)中的應(yīng)用遠(yuǎn)超Z39.50協(xié)議,其原因是:一方面,Z39.50起源于圖書(shū)館界,主要應(yīng)用于書(shū)目數(shù)據(jù)共享領(lǐng)域,雖然具有豐富的語(yǔ)義和強(qiáng)大的數(shù)據(jù)處理功能,但是結(jié)構(gòu)復(fù)雜、數(shù)據(jù)處理效率低,不適于描述數(shù)字資源;而OAIPMH協(xié)議起源于數(shù)字出版界,用于電子文檔共享,基于跨學(xué)科的DC元數(shù)據(jù)規(guī)范,更加靈活通用[54];另一方面,2001年美國(guó)數(shù)字圖書(shū)館聯(lián)盟(Digital Library Federation)實(shí)施了采用OAI-PMH協(xié)議的通用網(wǎng)關(guān)計(jì)劃,并獲得美國(guó)安德魯·梅隆基金會(huì)的大量經(jīng)費(fèi)支持,從而促進(jìn)了該協(xié)議在美國(guó)和歐洲的推廣。目前看來(lái),OAI-PMH協(xié)議正獲得越來(lái)越廣泛的應(yīng)用,同時(shí)圖書(shū)館領(lǐng)域也在開(kāi)發(fā)基于XML編碼規(guī)則的新一帶代Z39.50協(xié)議Zing(Z39.50 International:Next Generation),以期拓寬其適用范圍。
數(shù)據(jù)監(jiān)護(hù)平臺(tái)檢索項(xiàng)的設(shè)置關(guān)系到利用數(shù)據(jù)資源時(shí)的查全率和查準(zhǔn)率。在20個(gè)數(shù)據(jù)監(jiān)護(hù)平臺(tái)中有6個(gè)平臺(tái)只提供一個(gè)通用的文本檢索框,不區(qū)分檢索內(nèi)容的類型。我們一共總結(jié)出14個(gè)數(shù)字資源檢索項(xiàng),其中10個(gè)是單一檢索項(xiàng),4個(gè)是復(fù)合檢索項(xiàng)。20個(gè)調(diào)研平臺(tái)中,各檢索項(xiàng)的出現(xiàn)頻次如圖1所示。其中,70%提供標(biāo)題和人物檢索項(xiàng),近50%提供關(guān)鍵詞和時(shí)間檢索項(xiàng),部分平臺(tái)還提供機(jī)構(gòu)/國(guó)家、描述/摘要/注釋、主題、數(shù)據(jù)類型、全文、來(lái)源、地點(diǎn)、數(shù)據(jù)庫(kù)/數(shù)據(jù)集合、項(xiàng)目、儀器/設(shè)備等檢索項(xiàng)。
圖1 數(shù)據(jù)監(jiān)護(hù)平臺(tái)檢索項(xiàng)的頻次統(tǒng)計(jì)
數(shù)據(jù)分析是數(shù)據(jù)監(jiān)護(hù)平臺(tái)實(shí)現(xiàn)數(shù)據(jù)價(jià)值增值的重要手段。在調(diào)研的20個(gè)平臺(tái)中,主流的數(shù)據(jù)分析軟件包括Nesstar、SDA和Dataverse。Nesstar統(tǒng)計(jì)功能較簡(jiǎn)單,易用性強(qiáng),能夠處理調(diào)查數(shù)據(jù)、列聯(lián)表及文本資源,對(duì)數(shù)據(jù)進(jìn)行統(tǒng)計(jì)描述、列聯(lián)表、相關(guān)分析和回歸分析,數(shù)據(jù)結(jié)果能夠以表格、直方圖、條形圖等方式展示。SDA是一款功能全面、統(tǒng)計(jì)專業(yè)性強(qiáng)的在線分析軟件,主要包括頻數(shù)與交互列表、均值比較、相關(guān)矩陣、相關(guān)性檢驗(yàn)、多元回歸、Logit/Probit回歸等分析功能,結(jié)果以表格、直方圖、條形圖等形式展現(xiàn)。Dataverse的在線分析功能提供描述性分析和高級(jí)統(tǒng)計(jì)分析,科研人員在瀏覽器窗口即可進(jìn)行分析工作,無(wú)須下載整個(gè)數(shù)據(jù)。Dataverse還提供數(shù)據(jù)格式自動(dòng)轉(zhuǎn)化功能,將數(shù)據(jù)資源轉(zhuǎn)化為.tab格式再進(jìn)行分析處理,分析結(jié)果顯示為各類圖表、時(shí)間序列分析、GraphML等。
除上述3種通用的數(shù)據(jù)分析工具外,數(shù)據(jù)監(jiān)護(hù)平臺(tái)根據(jù)學(xué)科屬性和科研項(xiàng)目需求,提供特定的數(shù)據(jù)分析工具。譬如,SeaDataNet平臺(tái)采用開(kāi)源的ODV(Ocean Data View)軟件包作為數(shù)據(jù)分析和可視化軟件。ODV具有非常豐富的交互功能,提供海洋學(xué)和其他地理參考剖面或序列數(shù)據(jù)的交互式探索,并且支持各種各樣的繪圖類型;CCDC平臺(tái)開(kāi)發(fā)了Python的API接口,允許用戶直接導(dǎo)入數(shù)據(jù),并通過(guò)Python強(qiáng)大的工具進(jìn)行數(shù)據(jù)分析;UKCCSRC平臺(tái)服務(wù)于地球科學(xué)領(lǐng)域的科研項(xiàng)目,不僅采用Nesstar,還開(kāi)發(fā)了GIS地理可視化服務(wù)。數(shù)據(jù)監(jiān)護(hù)平臺(tái)定制數(shù)據(jù)分析工具,學(xué)科和項(xiàng)目針對(duì)性更強(qiáng),處理數(shù)據(jù)更加高效可行。
基于對(duì)20個(gè)數(shù)據(jù)監(jiān)護(hù)平臺(tái)各組件及其支撐技術(shù)與規(guī)范協(xié)議的調(diào)研結(jié)果,我們提出一個(gè)整體的數(shù)據(jù)監(jiān)護(hù)平臺(tái)框架,如圖2所示。該框架以科學(xué)數(shù)據(jù)的生命周期為切入點(diǎn),圍繞數(shù)據(jù)管理規(guī)劃、數(shù)據(jù)采集、數(shù)據(jù)處理、數(shù)據(jù)保存、數(shù)據(jù)訪問(wèn)、數(shù)據(jù)分析與利用6個(gè)核心階段,設(shè)計(jì)數(shù)據(jù)監(jiān)護(hù)平臺(tái)的各項(xiàng)功能及其相應(yīng)的支撐組件。
圖2 數(shù)據(jù)監(jiān)護(hù)平臺(tái)框架
數(shù)據(jù)管理規(guī)劃是數(shù)據(jù)監(jiān)護(hù)平臺(tái)特有的階段之一,對(duì)管理整個(gè)生命周期中的數(shù)據(jù)起到綱領(lǐng)性作用。通過(guò)制定數(shù)據(jù)管理規(guī)劃,研究人員一方面能夠明確外部政策,即資助者的具體要求;另一方面也滿足了科研需要,為數(shù)據(jù)生命周期不同階段的管控提供指導(dǎo)。
在數(shù)據(jù)采集階段,數(shù)據(jù)監(jiān)護(hù)平臺(tái)提供數(shù)據(jù)創(chuàng)建和數(shù)據(jù)發(fā)布兩項(xiàng)基本功能。在數(shù)據(jù)創(chuàng)建時(shí)可根據(jù)所屬學(xué)科選擇合適的元數(shù)據(jù)規(guī)范來(lái)描述數(shù)據(jù)。創(chuàng)建元數(shù)據(jù)時(shí)不僅要考慮學(xué)科背景,還要結(jié)合科研項(xiàng)目的特殊要求以及科學(xué)數(shù)據(jù)所處的生命周期等因素,制定元數(shù)據(jù)管理工具;與此同時(shí),可以通過(guò)發(fā)布指導(dǎo)性文件、要求用戶提交表格或制定元數(shù)據(jù)管理工具等方式指導(dǎo)用戶進(jìn)行操作。相應(yīng)的,數(shù)據(jù)監(jiān)護(hù)平臺(tái)應(yīng)配備有元數(shù)據(jù)創(chuàng)建工具、數(shù)據(jù)發(fā)布軟件等基礎(chǔ)設(shè)施以支撐這兩項(xiàng)功能的實(shí)現(xiàn)。
在數(shù)據(jù)處理階段,數(shù)據(jù)監(jiān)護(hù)平臺(tái)應(yīng)提供數(shù)據(jù)審核和數(shù)據(jù)格式轉(zhuǎn)換的工具。數(shù)據(jù)審核是指對(duì)數(shù)據(jù)內(nèi)容和格式、數(shù)據(jù)集大小、元數(shù)據(jù)質(zhì)量等方面的評(píng)估。數(shù)據(jù)格式轉(zhuǎn)換工具應(yīng)用于科學(xué)數(shù)據(jù)生命周期的多個(gè)階段,從數(shù)據(jù)上傳到數(shù)據(jù)存儲(chǔ),再?gòu)臄?shù)據(jù)保存到數(shù)據(jù)瀏覽和下載。在數(shù)據(jù)上傳過(guò)程中,如果對(duì)用戶上傳的數(shù)據(jù)無(wú)格式要求,則平臺(tái)應(yīng)在數(shù)據(jù)處理階段對(duì)資源進(jìn)行格式轉(zhuǎn)換;如果平臺(tái)在用戶上傳數(shù)據(jù)時(shí)就做出要求,如上傳指定格式的數(shù)據(jù),則數(shù)據(jù)格式轉(zhuǎn)換工具不是必需的。
在數(shù)據(jù)保存階段,數(shù)據(jù)監(jiān)護(hù)平臺(tái)的主要工作是對(duì)科學(xué)數(shù)據(jù)進(jìn)行標(biāo)引和構(gòu)建數(shù)據(jù)倉(cāng)儲(chǔ)系統(tǒng)。數(shù)字資源永久性標(biāo)識(shí)符保證了科研數(shù)據(jù)的長(zhǎng)期可獲得、可應(yīng)用,目前主流的標(biāo)識(shí)符包括DOI、PURL和句柄系統(tǒng),數(shù)據(jù)監(jiān)護(hù)平臺(tái)也在積極探求更好的數(shù)據(jù)標(biāo)引方式,以應(yīng)對(duì)數(shù)字對(duì)象格式或內(nèi)容的變化。數(shù)字資源倉(cāng)儲(chǔ)系統(tǒng)對(duì)科研數(shù)據(jù)進(jìn)行倉(cāng)儲(chǔ)管理,是構(gòu)建數(shù)據(jù)監(jiān)護(hù)平臺(tái)的基礎(chǔ)。主流的免費(fèi)開(kāi)源軟件簡(jiǎn)單易行,包括Fedora、Eprints和Dataverse等,但大部分平臺(tái)選擇采用自主研發(fā)軟件,能提供更具有針對(duì)性和專業(yè)性的數(shù)據(jù)服務(wù)。相應(yīng)的,數(shù)據(jù)監(jiān)護(hù)平臺(tái)應(yīng)配備數(shù)據(jù)庫(kù)管理工具、數(shù)據(jù)備份工具、數(shù)據(jù)倉(cāng)儲(chǔ)軟件等基礎(chǔ)設(shè)施以支撐這兩項(xiàng)功能的實(shí)現(xiàn)。
在數(shù)據(jù)訪問(wèn)階段,數(shù)據(jù)監(jiān)護(hù)平臺(tái)的主要工作是提供數(shù)據(jù)檢索和數(shù)據(jù)互操作。目前具有代表性的數(shù)字資源互操作協(xié)議有Z39.50和OAI-PMH協(xié)議兩種,其中OAI-PMH協(xié)議起源于數(shù)字出版界且基于跨學(xué)科的DC元數(shù)據(jù)規(guī)范,更加靈活通用。數(shù)據(jù)監(jiān)護(hù)平臺(tái)檢索項(xiàng)的設(shè)置關(guān)系到利用數(shù)據(jù)資源時(shí)的查全率和查準(zhǔn)率。通過(guò)調(diào)研發(fā)現(xiàn),數(shù)據(jù)監(jiān)護(hù)平臺(tái)的數(shù)據(jù)集檢索項(xiàng)可分為3類,即基本檢索項(xiàng)、推薦檢索項(xiàng)和參考檢索項(xiàng)?;緳z索項(xiàng)包括標(biāo)題和人物2項(xiàng),是必須提供的檢索內(nèi)容項(xiàng);推薦檢索項(xiàng)包括關(guān)鍵詞、時(shí)間、機(jī)構(gòu)/國(guó)家、描述/摘要/注釋、主題、數(shù)據(jù)類型、全文7項(xiàng),是科學(xué)數(shù)據(jù)集的通用屬性,但是區(qū)分度不夠高,因此筆者推薦數(shù)據(jù)監(jiān)護(hù)平臺(tái)提供這些檢索項(xiàng),但是不做必須要求;參考檢索項(xiàng)包括來(lái)源、地點(diǎn)、數(shù)據(jù)庫(kù)/數(shù)據(jù)集合、項(xiàng)目、儀器/設(shè)備5項(xiàng),屬于科學(xué)數(shù)據(jù)集的非通用屬性,只針對(duì)某些學(xué)科領(lǐng)域的部分科學(xué)數(shù)據(jù),特定領(lǐng)域的數(shù)據(jù)監(jiān)護(hù)平臺(tái)可參照?qǐng)?zhí)行。
數(shù)據(jù)分析與利用主要提供數(shù)據(jù)的價(jià)值增值,是數(shù)據(jù)生命周期的核心階段之一。目前主流的數(shù)據(jù)分析軟件包括Nesstar、Dataverse和SDA。部分?jǐn)?shù)據(jù)監(jiān)護(hù)平臺(tái)也會(huì)根據(jù)學(xué)科屬性和科研項(xiàng)目需求,開(kāi)發(fā)特定的數(shù)據(jù)分析工具。
本文首先界定了數(shù)據(jù)監(jiān)護(hù)和數(shù)據(jù)監(jiān)護(hù)平臺(tái)的相關(guān)概念,然后以數(shù)據(jù)生命周期為切入點(diǎn),調(diào)研分析了國(guó)外20個(gè)有代表性的數(shù)據(jù)監(jiān)護(hù)平臺(tái),得出如下結(jié)論。
目前國(guó)內(nèi)外有關(guān)數(shù)據(jù)監(jiān)護(hù)平臺(tái)的研究差距較大。歐美國(guó)家開(kāi)展數(shù)據(jù)監(jiān)護(hù)工作較早,理論與實(shí)踐結(jié)合緊密;國(guó)內(nèi)關(guān)于數(shù)據(jù)監(jiān)護(hù)平臺(tái)的理論與實(shí)踐研究尚處于起步階段,主要停留在數(shù)據(jù)生命周期模型、數(shù)字資源倉(cāng)儲(chǔ)系統(tǒng)和國(guó)外代表性數(shù)據(jù)監(jiān)護(hù)平臺(tái)調(diào)研等方面。因此,主動(dòng)學(xué)習(xí)國(guó)外成熟平臺(tái)的構(gòu)建和管理經(jīng)驗(yàn),對(duì)我國(guó)數(shù)據(jù)監(jiān)護(hù)平臺(tái)的發(fā)展具有重要價(jià)值。
目前,數(shù)據(jù)監(jiān)護(hù)平臺(tái)建設(shè)仍面臨一些問(wèn)題和挑戰(zhàn)。數(shù)據(jù)管理規(guī)劃的內(nèi)容和結(jié)構(gòu)尚未形成統(tǒng)一規(guī)范,數(shù)據(jù)評(píng)估審核工作尚未完全落實(shí);由于學(xué)科、領(lǐng)域、科研項(xiàng)目等多方面原因,數(shù)據(jù)監(jiān)護(hù)平臺(tái)的元數(shù)據(jù)規(guī)范、永久性資源標(biāo)識(shí)符、互操作協(xié)議等尚未達(dá)成一致標(biāo)準(zhǔn),嚴(yán)重影響跨學(xué)科、跨平臺(tái)的數(shù)據(jù)互操作;特殊格式的數(shù)字資源缺乏完善的存儲(chǔ)機(jī)制;目前,數(shù)據(jù)管理工具開(kāi)發(fā)尚未成熟,元數(shù)據(jù)無(wú)法自動(dòng)抽取、數(shù)據(jù)無(wú)法自存檔等問(wèn)題也為科研工作的開(kāi)展帶來(lái)了不便。統(tǒng)一數(shù)據(jù)監(jiān)護(hù)工作的相關(guān)標(biāo)準(zhǔn),同時(shí)完善數(shù)據(jù)管理工具,才能保證數(shù)據(jù)監(jiān)護(hù)平臺(tái)更好地為科研人員提供服務(wù),發(fā)揮科學(xué)數(shù)據(jù)更大的科研和社會(huì)價(jià)值。