周雷
摘 要 數(shù)據(jù)管理計(jì)劃是科研數(shù)據(jù)管理服務(wù)的第一步和基礎(chǔ),對(duì)良好的數(shù)據(jù)管理具有重要指導(dǎo)作用。文章以數(shù)據(jù)管理計(jì)劃工具RDMO為研究對(duì)象,從開(kāi)發(fā)目標(biāo)、服務(wù)模式到設(shè)計(jì)方案進(jìn)行分析,發(fā)現(xiàn)該工具以訪談形式為輸入,屬性為核心元素構(gòu)建信息組織關(guān)系,在應(yīng)用上采用機(jī)構(gòu)分散部署的方式,涵蓋整個(gè)數(shù)據(jù)生命周期,對(duì)于圖書(shū)館/信息機(jī)構(gòu)開(kāi)發(fā)相關(guān)工具具有較高的參考價(jià)值。
關(guān)鍵詞 科研數(shù)據(jù) 數(shù)據(jù)管理計(jì)劃 RDMO
分類(lèi)號(hào) G250.7
DOI 10.16810/j.cnki.1672-514X.2021.09.008
Abstract The data management plan is the first step and foundation of scientific research data management services, and it has an important guiding role for good data management. The article takes the data management planning tool RDMO as the research object, and analyzes from the development goal, service mode to the design plan. It is found that the tool takes the form of interviews as input and attributes as the core elements to build information organization relationships, adopts a decentralized deployment of organizations in applications, and covers the entire data life cycle. It has a high reference value for the development of related tools for libraries / information institutions.
Keywords Research data. Data management plan. RDMO.
0 引言
數(shù)據(jù)管理計(jì)劃(Data Management Plan,簡(jiǎn)稱DMP)作為科研數(shù)據(jù)管理的第一步,是由科研人員撰寫(xiě),描述科研項(xiàng)目中如何管理、描述、分析和存儲(chǔ)可能獲取或生成的數(shù)據(jù),以及項(xiàng)目結(jié)束后如何共享和保存這些數(shù)據(jù)的正式文檔[1-2]。由于科研數(shù)據(jù)管理的后續(xù)步驟都包含在數(shù)據(jù)管理計(jì)劃之中,且數(shù)字管理計(jì)劃是科研數(shù)據(jù)生命周期全流程管理的出發(fā)點(diǎn),所以良好的數(shù)據(jù)管理計(jì)劃是增強(qiáng)數(shù)據(jù)質(zhì)量、提升數(shù)據(jù)共享水平的基礎(chǔ)保障,也是后續(xù)數(shù)據(jù)存儲(chǔ)、組織等工作的落腳點(diǎn)和指南[3]?,F(xiàn)階段,作為參與數(shù)據(jù)管理的重要工具,幾乎所有開(kāi)展科研數(shù)據(jù)管理服務(wù)的圖書(shū)館都提供該服務(wù)[4]。數(shù)據(jù)管理計(jì)劃工具就是在此背景下,提供完善的數(shù)據(jù)管理計(jì)劃參考信息,并指導(dǎo)科研人員創(chuàng)建符合資助單位或是開(kāi)放科學(xué)要求的工具。因此,設(shè)計(jì)、開(kāi)發(fā)數(shù)據(jù)管理計(jì)劃工具是圖書(shū)館提升科研數(shù)據(jù)管理服務(wù)水平的重要任務(wù),對(duì)于數(shù)據(jù)管理工作具有重要的指導(dǎo)意義。
目前,數(shù)據(jù)管理計(jì)劃工具主要包括:由Digital Curation Center(DCC)開(kāi)發(fā)運(yùn)行的DMPOnline[5]、加利福尼亞大學(xué)數(shù)字圖書(shū)館監(jiān)管中心(CDL)的DMP Tool[6]、德國(guó)比勒菲爾德大學(xué)數(shù)據(jù)管理計(jì)劃工具Online Tool[7]、柏林工業(yè)大學(xué)(TU Berlin)TUP-DMP[8]和德國(guó)生物數(shù)據(jù)學(xué)會(huì)GFBio開(kāi)發(fā)的GFBio DMP Tool[9]。其中最為常用的為DMPOnline和DMPTool。DMPTool的設(shè)計(jì)開(kāi)發(fā)工作始于2011年,由5家美國(guó)高校圖書(shū)館、2家科學(xué)數(shù)據(jù)組織和1家博物館共同研制,目前共有268家機(jī)構(gòu),46 911個(gè)用戶。DMPOnline最初由格拉斯哥大學(xué)的人文技術(shù)信息研究所按照DCC模型開(kāi)發(fā),目前有203家機(jī)構(gòu),近18 000個(gè)用戶。目前,DCC和CDL聯(lián)合開(kāi)發(fā)版本DMPRoadmap也已經(jīng)上線。由于使用相對(duì)廣泛,所以針對(duì)數(shù)據(jù)管理計(jì)劃工具的研究普遍也以這兩種工具為主。
1 文獻(xiàn)綜述
對(duì)于數(shù)據(jù)管理工具的相關(guān)研究成果方面,馬建玲等注意到國(guó)外圖書(shū)館在科研數(shù)據(jù)管理工具開(kāi)發(fā)方面的工作,并介紹了數(shù)據(jù)管理計(jì)劃創(chuàng)建工具DMPTool[10];王凱等從開(kāi)發(fā)路線、服務(wù)方式與需求建議的角度比較了DMPTool與DMP Online二者的區(qū)別[11];王璞則分別介紹了DMP Online和DMPTool的發(fā)展和目標(biāo),并指出盡管兩個(gè)工具有所差異,但都以集成式的DMP撰寫(xiě)工具來(lái)促進(jìn)數(shù)據(jù)管理的最佳實(shí)踐,已發(fā)展成為國(guó)際普及的數(shù)據(jù)管理計(jì)劃工具[12];吳海茹認(rèn)為DMPTool可以加速科研人員創(chuàng)建數(shù)據(jù)管理計(jì)劃,更加熟悉科研資助單位的數(shù)據(jù)要求[13]。
目前,針對(duì)現(xiàn)有科研數(shù)據(jù)管理計(jì)劃工具的研究還較少,主要集中在應(yīng)用方式方法層面,對(duì)于開(kāi)發(fā)的依據(jù)、設(shè)計(jì)理念的研究還有所欠缺。在實(shí)際使用層面,DMPTool與DMP Online主要針對(duì)英美兩國(guó)科研環(huán)境,所關(guān)聯(lián)的機(jī)構(gòu)數(shù)據(jù)要求也以本國(guó)為主。雖然機(jī)構(gòu)在使用上述工具時(shí)可以進(jìn)行個(gè)性化配置,但對(duì)于我國(guó)這樣的科研大國(guó),開(kāi)發(fā)自己的工具尤為重要。而RDMO工具開(kāi)發(fā)時(shí)參考了相關(guān)工具的不足,并進(jìn)行了德國(guó)科研的個(gè)性化開(kāi)發(fā),所以研究該工具,對(duì)于我國(guó)開(kāi)展相關(guān)軟件工具的開(kāi)發(fā)具有重要參考價(jià)值。
2 RDMO工具概述
隨著開(kāi)放科學(xué)的普及,科研數(shù)據(jù)已經(jīng)成為重要戰(zhàn)略資源,作為科研工作的基本保障,良好的數(shù)據(jù)管理計(jì)劃已經(jīng)成為大部分資助機(jī)構(gòu)的要求,無(wú)論科研人員本身還是所在機(jī)構(gòu)都需要利用有效工具進(jìn)行科研數(shù)據(jù)管理。在此背景下,RDMO(Research Data Management Organiser科研數(shù)據(jù)管理組織工具)的開(kāi)發(fā),由德意志研究聯(lián)合會(huì)(DFG)資助,波茨坦萊布尼茨天文物理研究所、波茨坦應(yīng)用技術(shù)大學(xué)和卡爾斯魯厄大學(xué)圖書(shū)館共同完成,第一階段從2015至2017年,第二階段從2017至2020年。
如同DMPOnline和DMPTool,RDMO也是一款基于網(wǎng)頁(yè)的數(shù)據(jù)管理計(jì)劃軟件。RDMO的開(kāi)發(fā)基于科研數(shù)據(jù)的全生命周期,所以適用于科研數(shù)據(jù)管理中涉及的所有參與者。同時(shí),由于框架采用Python-Django和AngularJS,代碼開(kāi)源(GitHub)[14],因此,RDMO可由科研機(jī)構(gòu)或大學(xué)獨(dú)立安裝,并且易于補(bǔ)充特定學(xué)科或機(jī)構(gòu)個(gè)性化的內(nèi)容。RDMO的安裝主要分為三部分,即rdmo-app、rdmo軟件包和數(shù)據(jù)庫(kù)。其中rdmo-app主要存儲(chǔ)本機(jī)構(gòu)的所有設(shè)置、自定義選項(xiàng);rdmo軟件包則是由RDMO項(xiàng)目團(tuán)隊(duì)集中維護(hù)的程序包;數(shù)據(jù)庫(kù)主要用于存儲(chǔ)用戶的科研數(shù)據(jù)管理計(jì)劃等機(jī)構(gòu)實(shí)際使用信息,數(shù)據(jù)庫(kù)管理系統(tǒng)可支持sqlite3、MySQL或PostgreSQL[15]。從使用形式上看與DMPOnline和DMPTool也較為類(lèi)似,如面向科研人員,通過(guò)結(jié)構(gòu)化問(wèn)題進(jìn)行數(shù)據(jù)管理計(jì)劃的填寫(xiě),并可以選擇使用機(jī)構(gòu)模板;而對(duì)于機(jī)構(gòu)工作人員,也可以進(jìn)行相關(guān)內(nèi)容審查、模板編輯功能。
數(shù)據(jù)管理計(jì)劃主要是滿足科研項(xiàng)目申請(qǐng)階段的要求,一般在項(xiàng)目執(zhí)行階段前完成。所以,針對(duì)數(shù)據(jù)管理計(jì)劃的工具主要基于管理機(jī)構(gòu)、資助方模板建立一份科研數(shù)據(jù)使用的備忘錄,并沒(méi)有發(fā)揮數(shù)據(jù)管理計(jì)劃在科研數(shù)據(jù)全生命周期中的功能。而且在實(shí)際使用中,無(wú)論DMPOnline還是DMPTool,其主要圍繞各自國(guó)家資助機(jī)構(gòu)相關(guān)數(shù)據(jù)政策,并且采用集中管理模式,存在科研方向、研究?jī)?nèi)容等敏感信息的泄露風(fēng)險(xiǎn)。因此,開(kāi)發(fā)本國(guó)數(shù)據(jù)管理計(jì)劃工具具有重要現(xiàn)實(shí)意義。
目前,RDMO已經(jīng)在德國(guó)科研機(jī)構(gòu)廣泛使用或試用。從機(jī)構(gòu)類(lèi)別上看,主要包括三類(lèi):大型科研項(xiàng)目,如德國(guó)聯(lián)邦食品及農(nóng)業(yè)部畜牧業(yè)減排項(xiàng)目、德國(guó)聯(lián)邦教研部區(qū)域高校聯(lián)盟科研數(shù)據(jù)項(xiàng)目、德意志研究聯(lián)合會(huì)(DFG)研究數(shù)據(jù)生命周期中的分子數(shù)據(jù)管理項(xiàng)目等;科研機(jī)構(gòu)/高校圖書(shū)館/計(jì)算中心日常數(shù)據(jù)管理計(jì)劃服務(wù),共26家,包括尤里希研究中心、馬克斯普朗克數(shù)字圖書(shū)館、亥姆霍次材料能源中心等7家國(guó)家科研院所和17所高校;聯(lián)邦州科研數(shù)據(jù)基礎(chǔ)設(shè)施,如黑森州研究數(shù)據(jù)基礎(chǔ)設(shè)施聯(lián)盟、北威州數(shù)字高校研究數(shù)據(jù)基礎(chǔ)設(shè)施先導(dǎo)行動(dòng)等。由于結(jié)構(gòu)化問(wèn)題源自需求,又是良好實(shí)踐經(jīng)驗(yàn)的總結(jié),因此,依托這些科研機(jī)構(gòu),RDMO可以提升學(xué)科適應(yīng)性,豐富結(jié)構(gòu)化問(wèn)題。以德國(guó)的畜牧業(yè)減排項(xiàng)目(EmiMin)為例,服務(wù)團(tuán)隊(duì)按照項(xiàng)目要求,設(shè)計(jì)工作流程,并根據(jù)各方的任務(wù)角色,建立與農(nóng)業(yè)技術(shù)相適應(yīng)的問(wèn)題模板,開(kāi)發(fā)出項(xiàng)目用數(shù)據(jù)管理計(jì)劃工具定制版RDMO4Life。下一步RDMO團(tuán)隊(duì)將基于此,擴(kuò)展相關(guān)問(wèn)題,建立起適合農(nóng)業(yè)科學(xué)的RDMO。目前,RDMO在其GitHub平臺(tái)上共享了8份結(jié)構(gòu)化問(wèn)題模板,包括DFG項(xiàng)目模板、經(jīng)濟(jì)學(xué)項(xiàng)目模板、教育科學(xué)模板、社會(huì)學(xué)模板、機(jī)械工程模板等。
3 RDMO工具服務(wù)模式
RDMO主要面向數(shù)據(jù)管理計(jì)劃使用者,包括創(chuàng)建者即科研人員,以及數(shù)據(jù)管理計(jì)劃服務(wù)的管理者,即一般組織機(jī)構(gòu)的圖書(shū)館。相應(yīng)地,所使用的服務(wù)方式也有所區(qū)別。
3.1 面向科研人員服務(wù)模式
科研人員服務(wù)模式如圖1所示。與DMPOnline和DMPTool最大的不同是,RDMO首先通過(guò)結(jié)構(gòu)化問(wèn)題模板的方式引導(dǎo)科研人員完成科研數(shù)據(jù)在項(xiàng)目全周期各環(huán)節(jié)處理辦法的填寫(xiě),而非直接利用資助者或者相關(guān)機(jī)構(gòu)的數(shù)據(jù)管理計(jì)劃模板進(jìn)行。這樣的好處在于,數(shù)據(jù)管理計(jì)劃不拘泥于某個(gè)具體模板,而是切實(shí)在科研過(guò)程中管理數(shù)據(jù)的內(nèi)容。問(wèn)題模板選擇之后,科研人員按照問(wèn)題進(jìn)行相關(guān)內(nèi)容的填寫(xiě),過(guò)程中既可以按順序填寫(xiě)各部分內(nèi)容,也可以跳過(guò)部分內(nèi)容或自由跳轉(zhuǎn),或以個(gè)人喜好的順序填寫(xiě)各部分內(nèi)容。
RDMO的另一個(gè)特點(diǎn)是在預(yù)覽階段,已填寫(xiě)的內(nèi)容信息可以自動(dòng)映射到具體資助機(jī)構(gòu)的數(shù)據(jù)管理計(jì)劃模板,減少了科研人員的重復(fù)勞動(dòng)。此外,科研人員還可以在線存儲(chǔ)數(shù)據(jù)管理計(jì)劃,填寫(xiě)完成后導(dǎo)出數(shù)據(jù)管理計(jì)劃或提交至所在組織機(jī)構(gòu)以待審查。
服務(wù)的最后一步是用戶信息的添加和編輯,一個(gè)項(xiàng)目可能涉及多種用戶身份,RDMO設(shè)立4種身份供選擇,分別是項(xiàng)目負(fù)責(zé)人、項(xiàng)目經(jīng)理、組員和訪客。從訪問(wèn)權(quán)限上看,項(xiàng)目負(fù)責(zé)人和項(xiàng)目經(jīng)理具有幾乎相同的編寫(xiě)加工權(quán)限,區(qū)別只在于項(xiàng)目負(fù)責(zé)人可以添加/刪除項(xiàng)目,而組員具有讀和寫(xiě)權(quán)限,訪客只有讀的權(quán)限。
3.2 面向組織機(jī)構(gòu)的服務(wù)模式
對(duì)于組織機(jī)構(gòu),RDMO最重要的服務(wù)是問(wèn)題模板的編輯以及計(jì)劃模板的添加。機(jī)構(gòu)管理員可以以現(xiàn)有問(wèn)題模板為參考,增加/刪減機(jī)構(gòu)層面特有/無(wú)關(guān)的問(wèn)題,而在數(shù)據(jù)管理計(jì)劃預(yù)覽階段,也可以添加本機(jī)構(gòu)或特定資助機(jī)構(gòu)的數(shù)據(jù)管理計(jì)劃模板,具備了較強(qiáng)的擴(kuò)展特性。此外,RDMO對(duì)于機(jī)構(gòu)的服務(wù)還有面向軟件平臺(tái)的權(quán)限更改和配置,如用戶權(quán)限、賬戶信息等常規(guī)管理員功能。
4 RDMO工具數(shù)據(jù)模型及要點(diǎn)
RDMO的數(shù)據(jù)模型如圖2所示。對(duì)于用戶而言,結(jié)構(gòu)化問(wèn)題是RDMO中最明顯的部分。層級(jí)從高到低使用目錄、部分、子部分、問(wèn)題集和問(wèn)題進(jìn)行配置。單個(gè)RDMO可以配置多個(gè)目錄,創(chuàng)建新項(xiàng)目時(shí),用戶可以選擇要用于該項(xiàng)目的目錄。目錄包含多個(gè)部分和子部分,這些部分本身具有問(wèn)題集,而具體問(wèn)題可以直接添加到問(wèn)題集中。問(wèn)題為文本格式,顯示給用戶,并輔助一個(gè)可選的幫助文本。
“域”模型是數(shù)據(jù)模型的核心部分,其功能是將訪談中的問(wèn)題與用戶輸入聯(lián)系起來(lái),并按照樹(shù)狀結(jié)構(gòu)組織。用戶項(xiàng)目中每條信息都由一個(gè)屬性表示,并采用目錄組織的形式,因此,這些屬性可以看作是“域”模型樹(shù)上的葉子,組織它們所代表的不同實(shí)體之間的聯(lián)系。如項(xiàng)目開(kāi)始日期為帶有路徑的屬性project/schedule/project_start,該屬性本身鍵值為project_start,并位于屬性schedule中,而schedule本身又位于project中?!皸l件”與問(wèn)題集相關(guān)聯(lián),并確定所控制的問(wèn)題集在當(dāng)前環(huán)境下是否有效。如果問(wèn)題集無(wú)效,則不會(huì)顯示給用戶?!耙晥D”是允許在RDMO中使用的DMP模板,每一個(gè)模板都對(duì)應(yīng)一個(gè)“視圖”,該視圖可以使用基于HTML的Django進(jìn)行編輯。在“視圖”中,管理人員可以人為的添加標(biāo)題和幫助文本,并顯示在項(xiàng)目之中,幫助科研人員回答相關(guān)科研數(shù)據(jù)管理的問(wèn)題。待結(jié)構(gòu)化問(wèn)題填寫(xiě)完成后,RDMO將根據(jù)用戶的回答提供跟進(jìn)“任務(wù)”?!叭蝿?wù)”具有標(biāo)題和文本,通常情況下,“任務(wù)”與“條件”相關(guān)聯(lián),以確定特定項(xiàng)目是否需要。此外,由于“任務(wù)”本身具有“datetime”等時(shí)間屬性值,可以使用諸如項(xiàng)目開(kāi)始或結(jié)束的答案來(lái)計(jì)算任務(wù)的時(shí)間范圍,因此便于進(jìn)行時(shí)序管理。
4.1 RDMO屬性結(jié)構(gòu)
從上節(jié)可以看出,每個(gè)問(wèn)題所對(duì)應(yīng)的屬性是RDMO希望提取的核心元素,是整個(gè)數(shù)據(jù)組織的骨架。同時(shí),屬性又是RDMO的信息基礎(chǔ),是數(shù)據(jù)管理計(jì)劃中信息顆粒度的重要指標(biāo)。因此分析RDMO的屬性設(shè)計(jì)是理清工具功能的基礎(chǔ)。RDMO的屬性無(wú)外乎就是如何組織串聯(lián)每個(gè)任務(wù)和所包含的具體信息,所以,首先要明確科研數(shù)據(jù)管理的任務(wù)劃分和流程??蒲袛?shù)據(jù)管理主要由6個(gè)科研數(shù)據(jù)生命周期的獨(dú)立任務(wù),包括:計(jì)劃/創(chuàng)建、選擇/評(píng)估、獲取/接收、存儲(chǔ)/IT、保存手段以及訪問(wèn)/使用,以及5個(gè)貫穿于全周期且交叉的管理任務(wù)組成,分別為:管理/政策、法律/道德、財(cái)務(wù)/資助、元數(shù)據(jù)和標(biāo)識(shí)[16]。而RDMO的基本屬性結(jié)構(gòu),可以從其GitHub上的文檔得到,如表1所示(由于篇幅的原因,四級(jí)鍵值有所歸并和簡(jiǎn)略)。
從內(nèi)容上看,RDMO屬性包括funder、costs、legal_aspect、dataset等交叉管理任務(wù),而dataset中又包含creation、data collection等數(shù)據(jù)生命周期獨(dú)立任務(wù),涵蓋了所有科研數(shù)據(jù)管理任務(wù)元素,具有較為全面的特點(diǎn)。從結(jié)構(gòu)上看,科研數(shù)據(jù)的基礎(chǔ)單位是項(xiàng)目,因此屬性以project為最高級(jí)。在二級(jí)中,除research_field、schedule等項(xiàng)目概述值外,主要包括:additional rdm_policy、coordinator、partner、funder、costs、legal_aspect、dataset等,而三級(jí)則主要是二級(jí)值對(duì)應(yīng)的各個(gè)方面,四級(jí)以此類(lèi)推。特點(diǎn)主要表現(xiàn)在:首先,以科研數(shù)據(jù)管理模型中具有交叉特點(diǎn)的管理任務(wù)為屬性結(jié)構(gòu)的主線(二級(jí)),而數(shù)據(jù)生命周期獨(dú)立任務(wù)則主要處于第三級(jí),并融入相應(yīng)的二級(jí)指標(biāo)中。這樣的好處在于,數(shù)據(jù)管理計(jì)劃的核心是管理,因此以管理實(shí)體,如科研人員、組織機(jī)構(gòu)、伙伴機(jī)構(gòu)劃分,可以明確主要干系人的任務(wù)/信息區(qū)塊,避免了管理實(shí)體交叉帶來(lái)的任務(wù)不清;其次,增加時(shí)間維度指標(biāo),在數(shù)據(jù)生命周期中任務(wù)步驟,如data collection、data cleaning、data analysis等方面增加了執(zhí)行的起始和結(jié)束時(shí)間,明確了數(shù)據(jù)管理計(jì)劃的計(jì)劃性、動(dòng)態(tài)性特征;最后,增加了責(zé)任人,如在機(jī)構(gòu)合作層面的coordinator和partner中明確了contact_person、name,在數(shù)據(jù)周期任務(wù)中,也出現(xiàn)如creator,owner,responsible或responsible_person等需要確立的相關(guān)責(zé)任人元素。
4.2 互操作性
互操作性是RDMO與其他工具軟件或科研數(shù)據(jù)基礎(chǔ)設(shè)施信息共享的基礎(chǔ)。由于結(jié)構(gòu)化問(wèn)題是唯一輸入,所以,RDMO互操作性的基礎(chǔ)是上節(jié)所述“域”內(nèi)問(wèn)題——屬性與目標(biāo)系統(tǒng)之間的有效映射。目前,RDMO互操作性主要針對(duì)DataCite的15個(gè)強(qiáng)制屬性和5個(gè)推薦屬性,具體如表1所示。從表中不難發(fā)現(xiàn),在映射時(shí),RDMO非常注意問(wèn)題——屬性和DataCite之間語(yǔ)義的對(duì)應(yīng)。如在“Publisher -> dataset/preservation/repository”中,DataCite主要使用“Publisher”表明數(shù)據(jù)來(lái)源,所以在RDMO結(jié)構(gòu)化問(wèn)題中,使用“stored or archived after the end of the project”(在項(xiàng)目結(jié)束后存儲(chǔ)或歸檔),既明確了時(shí)間為“項(xiàng)目結(jié)束后”,在用詞上使用“stored or archived”,區(qū)別于一般概念上的“Publish”;再如“creatorName -> project/dataset/creator_name”中,“creatorName”在DateCite中指數(shù)據(jù)建立者的姓名,格式為“姓,名”,在RDMO中,首先區(qū)別了creator和creatorName,前者可以為人或機(jī)構(gòu),而后者為DataCite所指的主要研究人員,并且在問(wèn)題中給出了明確的解釋。
4.3 服務(wù)體系
本研究的服務(wù)體系指RDMO軟件的使用者社區(qū)建設(shè)。類(lèi)似其他需求驅(qū)動(dòng)型開(kāi)源軟件,完整的開(kāi)發(fā)者和使用者的生態(tài)體系建設(shè)是成果的關(guān)鍵。在DMPTool和DMPOnline的開(kāi)發(fā)設(shè)計(jì)時(shí)就考慮了這種互動(dòng)關(guān)系。其主要原因有:(1)技術(shù)因素。單獨(dú)的數(shù)據(jù)管理計(jì)劃軟件本身是“空”的,結(jié)構(gòu)化問(wèn)題和域內(nèi)的屬性元素需要不同機(jī)構(gòu)在使用過(guò)程中才能反復(fù)優(yōu)化,才能提高應(yīng)用性和適用性;(2)組織因素??蒲袛?shù)據(jù)價(jià)值的提升在于大規(guī)模匯集,因此,建立使用者-開(kāi)發(fā)者社區(qū)建設(shè)是開(kāi)放科學(xué)下科研數(shù)據(jù)共享的要求。由于RDMO在設(shè)計(jì)之初就考慮到了數(shù)據(jù)的隱私性,所以,RDMO社區(qū)建設(shè)的核心方針是,使分布在各地的不同RDMO使用機(jī)構(gòu)能夠在技術(shù)上“自給自足”,并以此方式進(jìn)一步發(fā)展RDMO整體社區(qū)。因此,RDMO社區(qū)建設(shè)通過(guò)多種渠道開(kāi)展雙方的交流,而RDMO團(tuán)隊(duì)針對(duì)這些問(wèn)題和需求進(jìn)行再優(yōu)化。
RDMO社區(qū)建設(shè)模式主要包括:(1)傳統(tǒng)的宣傳和培訓(xùn)。在RDMO官網(wǎng)上有技術(shù)幫助文件的文本、視頻文件供下載,如快速使用手冊(cè)、如何生成、編輯結(jié)構(gòu)化問(wèn)題等。(2)技術(shù)文檔解決方案。在RDMO網(wǎng)站內(nèi),開(kāi)發(fā)者公開(kāi)了技術(shù)文檔手冊(cè)包括安裝、部署、配置,在涉及科研數(shù)據(jù)管理的內(nèi)容上,也有相應(yīng)的問(wèn)題-屬性等核心字段。(3)RDMO在機(jī)構(gòu)數(shù)據(jù)基礎(chǔ)設(shè)施的整合服務(wù)。一方面協(xié)助機(jī)構(gòu)進(jìn)行RDMO的整合,如RDMO與不同專(zhuān)業(yè)學(xué)科、不同機(jī)構(gòu)展開(kāi)合作,建立適用不同專(zhuān)業(yè)或特定機(jī)構(gòu)的的數(shù)據(jù)管理計(jì)劃工具版本。另一方面,RDMO還積極融入到現(xiàn)有科研基礎(chǔ)設(shè)施中,特別是一些德國(guó)參與建設(shè)的平臺(tái),如re3data(全球科研數(shù)據(jù)知識(shí)庫(kù)注冊(cè)系統(tǒng))、RADAR(通用科研數(shù)據(jù)知識(shí)庫(kù))。(4)交流平臺(tái),如GitHub、建立聊天群組、郵件列表等。(5)使用者大會(huì)。從2018年開(kāi)始,每年召開(kāi)一次使用者大會(huì),在大會(huì)上,RDMO服務(wù)團(tuán)隊(duì)及用戶就軟件的使用、問(wèn)題和需求開(kāi)展一些列講座和研討。
5 RDMO工具特點(diǎn)
5.1 以模板為驅(qū)動(dòng)轉(zhuǎn)變?yōu)橐越M織為核心
隨著科研數(shù)據(jù)愈發(fā)重要,數(shù)據(jù)管理計(jì)劃逐漸成為科研機(jī)構(gòu)或是資助者在項(xiàng)目執(zhí)行前所提供的必需材料。從目前主要數(shù)據(jù)管理計(jì)劃工具看,資助者模板是計(jì)劃的最初驅(qū)動(dòng)。在完成數(shù)據(jù)管理計(jì)劃時(shí),基本與科研機(jī)構(gòu)或資助機(jī)構(gòu)的數(shù)據(jù)管理要求相關(guān)聯(lián),而對(duì)于沒(méi)有現(xiàn)成模板的情況,結(jié)構(gòu)化的問(wèn)題則相對(duì)簡(jiǎn)單,如DCC基礎(chǔ)模板,對(duì)于未來(lái)實(shí)際科研數(shù)據(jù)管理指導(dǎo)性、操作性不強(qiáng)。而RDMO使用一般化的問(wèn)題,依管理任務(wù)進(jìn)行切分,內(nèi)容涵蓋整個(gè)科研數(shù)據(jù)管理流程,又在相關(guān)步驟中明確責(zé)任人,可以依照不同角色安排任務(wù)。在技術(shù)上,模板中的每個(gè)問(wèn)題與屬性相對(duì)應(yīng),便于進(jìn)行信息的提取-交互,也便于融入到其他工具和系統(tǒng)之中,從而形成一份可執(zhí)行、可擴(kuò)展的數(shù)據(jù)管理計(jì)劃。
5.2 分布式部署
當(dāng)前的數(shù)據(jù)管理計(jì)劃工具多為集中管理方式,這種方式存在數(shù)據(jù)安全和機(jī)構(gòu)/國(guó)別適應(yīng)性方面的問(wèn)題。而RDMO允許進(jìn)行機(jī)構(gòu)/項(xiàng)目/聯(lián)盟等多種方式的分布式部署,既保證了科研項(xiàng)目/科研數(shù)據(jù),特別是一些敏感信息的安全性,在應(yīng)用層面又便于使用方按照機(jī)構(gòu)特點(diǎn)或?qū)W科特征進(jìn)行編輯和優(yōu)化,具備了較強(qiáng)的擴(kuò)展能力。由于RDMO的組成結(jié)構(gòu)較為簡(jiǎn)單,主要包含rdmo-app、rdmo package和database3個(gè)部分,因此,從安裝到配置都較為簡(jiǎn)單,且源代碼在GitHub上公開(kāi)。對(duì)于軟件更新的問(wèn)題,則主要通過(guò)建立技術(shù)社區(qū)、收集問(wèn)題、工具軟件包更新的方式進(jìn)行。
5.3 互操作的擴(kuò)展特性
目前,如DataCite、re3data等基礎(chǔ)設(shè)施在科研數(shù)據(jù)領(lǐng)域,已經(jīng)成為科研數(shù)據(jù)的必要組成。因此,數(shù)據(jù)管理計(jì)劃作為科研數(shù)據(jù)管理的基礎(chǔ)和出發(fā)點(diǎn),互操作性是與其他軟件/基礎(chǔ)設(shè)施一起工作并共享信息的保證。在RDMO中,所有結(jié)構(gòu)化問(wèn)題都對(duì)應(yīng)了一個(gè)屬性,同時(shí)一些關(guān)鍵詞匯也來(lái)自RDMO內(nèi)部的規(guī)范詞匯表。因此,互操作性既是軟件內(nèi)部問(wèn)題——模板的自動(dòng)關(guān)聯(lián),實(shí)現(xiàn)自動(dòng)提取,降低科研人員工作量的重要保障,又是與外部一些科研數(shù)據(jù)常用基礎(chǔ)設(shè)施進(jìn)行信息共享的基礎(chǔ)。如上文所述,RDMO已經(jīng)與DataCite中的20個(gè)強(qiáng)制屬性和可選屬性進(jìn)行了映射。目前,RDMO正在通過(guò)開(kāi)發(fā)相應(yīng)模塊和元數(shù)據(jù)模型來(lái)實(shí)現(xiàn)與其他系統(tǒng)的信息共享,以及與機(jī)構(gòu)本身科研管理相關(guān)聯(lián)的功能,如將RDMO鏈接到科研信息系統(tǒng)(FIS),實(shí)現(xiàn)元數(shù)據(jù)的接口和標(biāo)識(shí)符系統(tǒng),采集科研數(shù)據(jù)成果。
5.4 建立多維度社區(qū)服務(wù)
通過(guò)建立社區(qū)實(shí)現(xiàn)開(kāi)發(fā)者與用戶之間的交流是開(kāi)源工具軟件持續(xù)優(yōu)化的保障。在RDMO中,這種信息交互是多維度的。從內(nèi)容上看,既有傳統(tǒng)媒介的宣傳和培訓(xùn),又有目前開(kāi)發(fā)人員使用較為廣泛的GitHub、Slack、Twitter等,通過(guò)多種渠道建立聯(lián)系,廣泛收集問(wèn)題和需求,實(shí)現(xiàn)反復(fù)優(yōu)化迭代;從組織上看,有學(xué)科、機(jī)構(gòu)、聯(lián)盟等不同合作模式,一方面可以推廣工具軟件的使用,另一方面可以擴(kuò)展軟件在學(xué)科和使用環(huán)境的適用特性,為衍生出不同版本的RDMO提供了基礎(chǔ)。
6 對(duì)我國(guó)科研數(shù)據(jù)管理的啟示
縱觀我國(guó)科研數(shù)據(jù)管理研究,主要從服務(wù)的范疇和任務(wù)(如內(nèi)容、參與者)、治理(如機(jī)構(gòu)科研數(shù)據(jù)政策)、執(zhí)行(圖書(shū)館在科研數(shù)據(jù)管理服務(wù)的作用)和實(shí)踐(科研數(shù)據(jù)管理服務(wù)平臺(tái)建設(shè))開(kāi)展,并取得了大量研究成果,但具體工具軟件卻較少。而數(shù)據(jù)管理計(jì)劃作為科研數(shù)據(jù)管理的服務(wù)的首要內(nèi)容,其工具軟件的開(kāi)發(fā)設(shè)計(jì),對(duì)于我國(guó)圖書(shū)館/信息機(jī)構(gòu)開(kāi)展相關(guān)服務(wù)都具有重要參考價(jià)值。
6.1 開(kāi)發(fā)我國(guó)自己的數(shù)據(jù)管理計(jì)劃工具
數(shù)據(jù)管理計(jì)劃工具是規(guī)范科研數(shù)據(jù)管理,增強(qiáng)數(shù)據(jù)質(zhì)量以及提升數(shù)據(jù)共享意愿的重要工具軟件,也是發(fā)揮圖書(shū)館/信息機(jī)構(gòu)在數(shù)據(jù)治理中作用的重要手段。2018年,我國(guó)科研機(jī)構(gòu)和高校各類(lèi)研究與試驗(yàn)發(fā)展項(xiàng)目接近120萬(wàn)項(xiàng)[17],僅國(guó)家層面的自然科學(xué)和社會(huì)科學(xué)基金2019年就達(dá)到50 000余項(xiàng)[18-19],這還不算數(shù)量更為巨大的省市系統(tǒng)基金資助項(xiàng)目。一方面,若使用國(guó)外相關(guān)工具,在適用性上無(wú)法保證,另一方面,還有泄露重要科研敏感信息的風(fēng)險(xiǎn)。德國(guó)作為科研大國(guó)和強(qiáng)國(guó),從2015年開(kāi)始開(kāi)發(fā)自己的數(shù)據(jù)管理計(jì)劃工具RDMO,保障自身科研需要。2018年4月國(guó)務(wù)院辦公廳印發(fā)《科學(xué)數(shù)據(jù)管理辦法》,旨在進(jìn)一步加強(qiáng)和規(guī)范科學(xué)數(shù)據(jù)管理,保障科學(xué)數(shù)據(jù)安全,提高開(kāi)放共享水平[20]。因此,開(kāi)發(fā)我國(guó)自己的數(shù)據(jù)管理計(jì)劃工具,具有重要現(xiàn)實(shí)意義。
6.2 注重可執(zhí)行性
科研數(shù)據(jù)管理計(jì)劃并不只是為了滿足資助方的數(shù)據(jù)管理要求,不能局限在一個(gè)靜態(tài)的文檔,其目的是增強(qiáng)數(shù)據(jù)在全生命周期的有效管理,保障科研數(shù)據(jù)的質(zhì)量,增強(qiáng)可復(fù)用性。因此,數(shù)據(jù)管理計(jì)劃工具在開(kāi)發(fā)過(guò)程中應(yīng)在以下方面注重可執(zhí)行性??蓤?zhí)行性的基礎(chǔ)就是參與者可以找到自己所需要的信息。具體來(lái)看,應(yīng)注重問(wèn)題顆粒度設(shè)計(jì)和相關(guān)方需求的辨析。首先,數(shù)據(jù)管理計(jì)劃的結(jié)構(gòu)化輸入應(yīng)盡量明確,以科研數(shù)據(jù)管理中的必要元素為核心設(shè)計(jì)問(wèn)題模板,引導(dǎo)科研人員做出盡量標(biāo)準(zhǔn)、規(guī)范的回答,收集到所需信息;其次,科研數(shù)據(jù)管理涉及多方共同協(xié)作,包括數(shù)據(jù)生產(chǎn)方(科研人員)、服務(wù)提供方(圖書(shū)館/技術(shù)中心)、科研數(shù)據(jù)基礎(chǔ)設(shè)施以及項(xiàng)目資助者,所以,數(shù)據(jù)管理計(jì)劃應(yīng)滿足不同角色的使用需要,如對(duì)于科研人員,類(lèi)似項(xiàng)目的DMP案例、元數(shù)據(jù)的使用規(guī)范是其正確填寫(xiě)的基礎(chǔ),而對(duì)于資助方,可能來(lái)自科研人員未來(lái)數(shù)據(jù)的存儲(chǔ)方式、地點(diǎn)和成本回答是最為重要的信息。
6.3 注重互操作性
互操作性是可執(zhí)行性的重要基礎(chǔ)?;ゲ僮餍灾饕譃?個(gè)維度:(1)工具軟件內(nèi)的信息可以充分交互。如在RDMO中,結(jié)構(gòu)化的輸入與不同數(shù)據(jù)管理計(jì)劃模板相關(guān)聯(lián),便于信息的提取,此外,對(duì)于一些具備唯一性的實(shí)體也應(yīng)當(dāng)進(jìn)行標(biāo)記,以便不斷完善數(shù)據(jù)管理計(jì)劃數(shù)據(jù)庫(kù)內(nèi)容,為科研人員撰寫(xiě)數(shù)據(jù)管理計(jì)劃提供良好的幫助和指導(dǎo)。(2)與其他數(shù)據(jù)基礎(chǔ)設(shè)施的互操作。其他數(shù)據(jù)基礎(chǔ)設(shè)施主要指包括如DataCite、re3data等在內(nèi)的數(shù)據(jù)索引、知識(shí)庫(kù)登記系統(tǒng)。這些系統(tǒng)是科研數(shù)據(jù)發(fā)布、再利用的重要保障。(3)數(shù)據(jù)管理計(jì)劃與科研信息系統(tǒng)的互操作。一方面,數(shù)據(jù)管理計(jì)劃中諸如項(xiàng)目信息、資助信息來(lái)自科研信息系統(tǒng),另一方面,科研信息系統(tǒng)也需要在數(shù)據(jù)管理計(jì)劃中提取如大型儀器的使用、成果數(shù)據(jù)進(jìn)行相關(guān)領(lǐng)域的評(píng)估。在開(kāi)發(fā)階段,應(yīng)著重從方案語(yǔ)義和持久標(biāo)識(shí)符兩個(gè)方面考慮。方案語(yǔ)義是不同信息相互映射的基礎(chǔ)。在數(shù)據(jù)管理計(jì)劃工具的數(shù)據(jù)模型設(shè)計(jì)中,可按照不同系統(tǒng)方案中的語(yǔ)義,通過(guò)注釋信息或向用戶提供標(biāo)準(zhǔn)描述列表來(lái)實(shí)現(xiàn)和規(guī)范,如RDMO就使用如注釋信息來(lái)解釋creatorName,利用問(wèn)題中store和archive來(lái)解釋publish在不同方案的含義。而對(duì)于持久標(biāo)識(shí)符,應(yīng)從人-機(jī)構(gòu)進(jìn)行標(biāo)識(shí),如學(xué)者身份ID、知識(shí)庫(kù)標(biāo)識(shí)、資助者標(biāo)識(shí)、項(xiàng)目計(jì)劃標(biāo)識(shí)。
6.4 注重用戶社區(qū)建設(shè)
建設(shè)完善的用戶社區(qū)是數(shù)據(jù)管理計(jì)劃軟件成功的關(guān)鍵。首先,數(shù)據(jù)管理計(jì)劃本身由于可能涉及各機(jī)構(gòu)的敏感數(shù)據(jù),技術(shù)上一般需采用分布式部署,滿足自有數(shù)據(jù)的獨(dú)立性;其次,對(duì)于軟件的輸入-結(jié)構(gòu)化問(wèn)題必須不斷優(yōu)化,因此,又需要為工具軟件不斷進(jìn)行核心功能的迭代和升級(jí)。而內(nèi)容上,只有盡可能豐富來(lái)源,才能建立起更為貼近實(shí)際的問(wèn)題輸入,以及更為全面的語(yǔ)義方案,從而提升工具軟件的可執(zhí)行性和互操作性。在具體工作中,用戶社區(qū)建設(shè)的關(guān)鍵在于多維度,多維度應(yīng)包括機(jī)構(gòu)、學(xué)科、形式三個(gè)方面。機(jī)構(gòu)上,包括項(xiàng)目執(zhí)行機(jī)構(gòu)(如高校、科研機(jī)構(gòu))和項(xiàng)目資助機(jī)構(gòu),并盡可能廣泛推廣;學(xué)科上,應(yīng)注意學(xué)科領(lǐng)域分類(lèi)或科研數(shù)據(jù)類(lèi)型范圍,盡量將研究領(lǐng)域相近、元數(shù)據(jù)類(lèi)似的學(xué)科整合在一起,構(gòu)建適用于機(jī)構(gòu)和學(xué)科領(lǐng)域?qū)用娴臄?shù)據(jù)管理計(jì)劃工具;同時(shí),形式上,建立以開(kāi)源形式的技術(shù)文檔庫(kù)為核心,以網(wǎng)絡(luò)社區(qū)、聊天群組為主要交流形式,輔之以定期的培訓(xùn)和用戶大會(huì)等多方面、多角度的培訓(xùn)。
參考文獻(xiàn):
Wikipedia. Data Management Plan[EB/OL].[2020-05-07].http://en.wikipedia.org/wiki/Data_management_plan.
王丹丹.科學(xué)數(shù)據(jù)管理計(jì)劃評(píng)價(jià)量表分析[J].圖書(shū)情報(bào)工作,2017,61(18):35-41.
劉瓊,劉桂鋒.高校圖書(shū)館科學(xué)數(shù)據(jù)管理計(jì)劃服務(wù)框架構(gòu)建與解析[J].國(guó)家圖書(shū)館學(xué)刊,2019,28(4):21-31.
王繼娜.國(guó)外高校圖書(shū)館科學(xué)數(shù)據(jù)管理服務(wù)的調(diào)研與思考[J].情報(bào)理論與實(shí)踐,2019,42(8):159-167.
DCC. DMPOnline[EB/OL].[2020-05-07]https://dmponline.dcc.ac.uk/.
University of California Curation Center. DMPTool[EB/OL].[2020-05-07]https://dmptool.org/.
University of Bielefied. Data-management-plan[EB/OL].[2020-05-07]https://www.uni-bielefeld.de/ub/forschungsdaten/de/data-management-plan.
KLAR J. DMP für das TU eigene Repository Deposit Once[EB/OL].[2020-05-07]http://oa.helmholtz.de/fileadmin/user_upload/redakteur/Workshops/helmholtz_datenwebinar27_kuberek.pdf.
GFBio Consortium. GFBio Data Management Plan Tool[EB/OL].[2020-05-07]https://www.gfbio.org/plan.
馬建玲,曹月珍.研究數(shù)據(jù)管理工具發(fā)展研究[J].圖書(shū)館學(xué)研究,2014(15):40-47.
王凱,彭潔,屈寶強(qiáng).國(guó)外數(shù)據(jù)管理計(jì)劃服務(wù)工具的對(duì)比研究[J].情報(bào)雜志,2014,33(12):203-206,169.
王璞.英美兩國(guó)制定數(shù)據(jù)管理計(jì)劃的政策、內(nèi)容與工具[J].圖書(shū)與情報(bào),2015(3):103-109.
吳海茹.加州數(shù)字圖書(shū)館數(shù)據(jù)管理計(jì)劃工具研究及思考[J].新世紀(jì)圖書(shū)館,2015(5):69-72.
RDMO Team. RDMO[EB/OL].[2020-05-08]https://github.com/rdmorganiser.
RDMO Team.English documentation for RDMO[EB/OL].[2020-05-04]https://github.com/rdmorganiser/rdmo-docs-en.
ENKE H, LUDWIG J. Leitfaden zum Forschungsdaten-management[M].Glückstadt:Verlag Werner Hülsbusch,2013.
國(guó)家統(tǒng)計(jì)局.國(guó)家統(tǒng)計(jì)數(shù)據(jù)[EB/OL].[2020-05-08].http://data.stats.gov.cn/easyquery.htm?cn=C01.
全國(guó)哲學(xué)社會(huì)科學(xué)工作辦公室. 國(guó)家社科基金項(xiàng)目數(shù)據(jù)庫(kù)[EB/OL].[2020-05-08].http://fz.people.com.cn/skygb/sk/.
郝紅全,鄭知敏,李志蘭,等.2019年度國(guó)家自然科學(xué)基金項(xiàng)目申請(qǐng)、評(píng)審與資助工作綜述[J].中國(guó)科學(xué)基金,2020,34(1):46-49.
國(guó)務(wù)院辦公廳. 國(guó)務(wù)院辦公廳關(guān)于印發(fā)科學(xué)數(shù)據(jù)管理辦法的通知[EB/OL].[2020-05-07].http://www.gov.cn/zhengce/content/2018-04/02/content_5279272.htm.
周 雷 北京市科學(xué)技術(shù)情報(bào)研究所、北京科技戰(zhàn)略決策咨詢中心助理研究員。 北京,100044。
(收稿日期:2020-07-04 編校:陳安琪,左靜遠(yuǎn))