李詩恬
(上海體育學(xué)院圖書館,上海200438)
計(jì)算機(jī)和網(wǎng)絡(luò)技術(shù)已經(jīng)成為信息時(shí)代開展科研活動(dòng)必不可少的基礎(chǔ),科研過程信息化導(dǎo)致科學(xué)數(shù)據(jù)數(shù)字化程度不斷提高,科學(xué)數(shù)據(jù)的格式日趨多樣化。機(jī)構(gòu)庫(IR)是收錄、存儲(chǔ)和開發(fā)學(xué)術(shù)機(jī)構(gòu)科研產(chǎn)出的機(jī)制,它為科研人員學(xué)術(shù)交流與知識(shí)共享提供新的平臺(tái)[1]。
當(dāng)代科學(xué)研究正在向數(shù)據(jù)密集型轉(zhuǎn)變,以數(shù)字形式存在的科研數(shù)據(jù)逐漸成為學(xué)術(shù)交流的基本元素[2],隨著科研工作網(wǎng)絡(luò)化、科學(xué)數(shù)據(jù)數(shù)字化,機(jī)構(gòu)庫對(duì)科研成果和科學(xué)數(shù)據(jù)的長期存儲(chǔ)和開放獲取工作顯得格外重要。機(jī)構(gòu)庫自2002 年誕生以來,迅速在全球范圍內(nèi)得到了推廣[3],機(jī)構(gòu)庫的建設(shè)也成為各國圖情領(lǐng)域研究和關(guān)注的新熱點(diǎn)。西方發(fā)達(dá)國家對(duì)機(jī)構(gòu)知識(shí)庫建設(shè)尤為重視,發(fā)展的速度、規(guī)模、質(zhì)量一直處于領(lǐng)先地位。機(jī)構(gòu)庫被引入我國至今一直備受圖情等領(lǐng)域?qū)W者的關(guān)注,近年來我國部分大學(xué)和科研機(jī)構(gòu)對(duì)機(jī)構(gòu)庫的建設(shè)進(jìn)行了實(shí)踐,逐步建設(shè)了一批機(jī)構(gòu)庫,但是與西方發(fā)達(dá)國家之間還存在著巨大的差距。截至2020 年7月,開放存取知識(shí)庫名錄(The Direct of Open Ac?cess Repositories,OpenDOAR)在冊(cè)機(jī)構(gòu)庫為5389個(gè),美國、英國和日本的機(jī)構(gòu)庫數(shù)量占了近三分之一,我國大陸地區(qū)注冊(cè)的機(jī)構(gòu)庫數(shù)量為57個(gè)[4]。以中國科學(xué)院為代表的機(jī)構(gòu)在機(jī)構(gòu)庫的建設(shè)方面取得不錯(cuò)的成績(jī),但是我國機(jī)構(gòu)庫的普及發(fā)展仍然不容樂觀,用戶參與度不高、法律問題、服務(wù)模式等問題成為機(jī)構(gòu)庫向前發(fā)展的攔路虎。
機(jī)構(gòu)庫的用戶主要是資源提供者和資源獲取者。資源的提供者希望通過機(jī)構(gòu)庫使自己的學(xué)術(shù)成就為人所知,進(jìn)而提高自己在相關(guān)科研領(lǐng)域的學(xué)術(shù)聲譽(yù)。目前機(jī)構(gòu)庫大都以機(jī)構(gòu)為主線,沒有突出學(xué)者這一機(jī)構(gòu)庫的主角[5]。機(jī)構(gòu)庫的建設(shè)機(jī)構(gòu)往往將機(jī)構(gòu)的利益凌駕于資源提供者的利益之上,忽略了他們對(duì)于學(xué)術(shù)聲譽(yù)和學(xué)術(shù)地位的追求。國內(nèi)科研機(jī)構(gòu)、高校各種職稱考核,均以商業(yè)數(shù)據(jù)庫中的數(shù)據(jù)為依據(jù)[6],資源提供者在機(jī)構(gòu)庫發(fā)布的科研成果對(duì)其獲取實(shí)際利益并沒有直接關(guān)系,直接導(dǎo)致機(jī)構(gòu)內(nèi)部學(xué)者向機(jī)構(gòu)庫提交資源的意愿下降,引發(fā)機(jī)構(gòu)庫資源匱乏的危機(jī),資源的獲取者從機(jī)構(gòu)庫中難以找到滿足科研需求的資源,訪問機(jī)構(gòu)庫的頻率下降,這樣就導(dǎo)致了機(jī)構(gòu)庫用戶參與度低的惡性循環(huán)。
資源版權(quán)問題是機(jī)構(gòu)庫建設(shè)過程中最為復(fù)雜的問題之一。根據(jù)OpenDOAR 網(wǎng)站的調(diào)查統(tǒng)計(jì),全球機(jī)構(gòu)庫存儲(chǔ)的資源類型較為繁雜,版權(quán)歸屬較為混亂(如圖1)。機(jī)構(gòu)庫中資源并非所有版權(quán)都?xì)w機(jī)構(gòu)庫所有,機(jī)構(gòu)庫、版權(quán)所有者、用戶之間的權(quán)利關(guān)系錯(cuò)綜復(fù)雜,資源提供者向機(jī)構(gòu)庫提交的各種資源既包括公開發(fā)表的論文、著作,也有私人教學(xué)材料,機(jī)構(gòu)庫對(duì)發(fā)表資源進(jìn)行存放并沒有經(jīng)過任何授權(quán),用戶獲取資源也沒有任何可以明確版權(quán)關(guān)系和法律關(guān)系的文件,使得兩者都要承擔(dān)較大的法律風(fēng)險(xiǎn)。
當(dāng)前,國內(nèi)外機(jī)構(gòu)庫主要有3種資源提交服務(wù)模式:分布式、半分布式、集中式。分布式模式完全由資源提供者上傳管理資源;半分布模式將資源提交給機(jī)構(gòu)庫所在專門機(jī)構(gòu),再由這些機(jī)構(gòu)上傳到機(jī)構(gòu)庫;集中模式直接由機(jī)構(gòu)內(nèi)部幫助上傳并管理資源[7]。這些模式都是建立在資源提供者自愿提交的基礎(chǔ)之上,提供者通過軟件或者機(jī)構(gòu)庫建設(shè)機(jī)構(gòu)提交到機(jī)構(gòu)庫[8]。建立在提供者自我意愿基礎(chǔ)之上的模式,無法保證資源來源的充足性,尤其當(dāng)機(jī)構(gòu)庫不能保證其學(xué)術(shù)利益的情況下,資源提供者主動(dòng)貢獻(xiàn)自己擁有的資源的意愿更低。機(jī)構(gòu)庫中的資源多數(shù)是以靜態(tài)的方式存在,機(jī)構(gòu)庫的管理機(jī)構(gòu)對(duì)機(jī)構(gòu)庫中存放的各種數(shù)據(jù)開發(fā)不足,難以提供個(gè)性化和更深層次的數(shù)據(jù)服務(wù)。
圖1 版權(quán)歸屬示意
數(shù)據(jù)監(jiān)管(Data Curation)是一種在科研、教育中,對(duì)數(shù)據(jù)進(jìn)行全生命周期的持續(xù)性管理的活動(dòng),通過這項(xiàng)活動(dòng)可以增加數(shù)據(jù)的價(jià)值,提高數(shù)據(jù)的質(zhì)量,讓數(shù)據(jù)更易被發(fā)現(xiàn)和檢索,提高數(shù)據(jù)長期復(fù)用率[9]。針對(duì)日益興起的數(shù)據(jù)監(jiān)管服務(wù),普渡大學(xué)開發(fā)了Data Curation Profile Toolkit(DCPT),DCP描述的是數(shù)據(jù)集合的概況,目的是為了解研究人員的特定數(shù)據(jù)需求,促進(jìn)圖書館員和其他人員進(jìn)行數(shù)據(jù)方面的合作。研究人員提供和開放上游數(shù)據(jù)的可能性形成了DCP 與相關(guān)的工具包(data cu?ration profile toolkit,DCPT)。DCPT 可提供一系列服務(wù)來支持?jǐn)?shù)據(jù)監(jiān)管記錄,方便了圖書館員與研究人員的溝通,為更好地監(jiān)管科研成果、為科學(xué)數(shù)據(jù)或者數(shù)字文件進(jìn)行動(dòng)態(tài)管理和存儲(chǔ)提供了便利[10],其通過標(biāo)準(zhǔn)化的流程對(duì)目標(biāo)科學(xué)數(shù)據(jù)進(jìn)行特征描述,與數(shù)據(jù)生產(chǎn)者緊密結(jié)合共同對(duì)科學(xué)數(shù)據(jù)進(jìn)行監(jiān)管,可以為機(jī)構(gòu)庫在數(shù)據(jù)監(jiān)管服務(wù)方面提供新的啟示。
DCPT 是普渡大學(xué)于2010 年構(gòu)建的用于圖書館館員和科研人員討論科研數(shù)據(jù)的工具集,是幫助圖書館員和其他專業(yè)信息人員進(jìn)行數(shù)據(jù)訪談,確定科研人員數(shù)據(jù)管理、共享和監(jiān)管需求的工具。它實(shí)質(zhì)上是一個(gè)訪談提綱,旨在捕獲科研人員在其數(shù)據(jù)生命周期中創(chuàng)建或管理的特定數(shù)據(jù)集的信息,探索科研人員及其實(shí)驗(yàn)室當(dāng)前如何管理和使用數(shù)據(jù),以及未來打算如何處置數(shù)據(jù),最終的成果是形成數(shù)據(jù)監(jiān)管檔案(Data Curation Profile,DCP)。
DCP 是用數(shù)據(jù)生產(chǎn)者的語言描述自己對(duì)數(shù)據(jù)監(jiān)管需求的文件,數(shù)據(jù)監(jiān)管者可以了解目標(biāo)數(shù)據(jù)集全生命周期的發(fā)展和科研人員的管理活動(dòng)[11]。
DCPT是數(shù)據(jù)監(jiān)管的輔助工具,并非具體實(shí)施數(shù)據(jù)監(jiān)管的系統(tǒng)軟件,其目標(biāo)是構(gòu)建數(shù)據(jù)監(jiān)管者和數(shù)據(jù)生產(chǎn)者之間的協(xié)作橋梁,從數(shù)據(jù)生產(chǎn)者角度來描述數(shù)據(jù)和數(shù)據(jù)監(jiān)管的需求,為數(shù)據(jù)監(jiān)管提供方向指導(dǎo)從而促進(jìn)數(shù)據(jù)共享。
2.1.1 多學(xué)科數(shù)據(jù)的標(biāo)準(zhǔn)化描述隨著E-Science 的發(fā)展、跨學(xué)科交流和跨機(jī)構(gòu)的分布協(xié)同研究的趨勢(shì)日益明顯,解決學(xué)科之間、機(jī)構(gòu)之間數(shù)據(jù)結(jié)構(gòu)和表現(xiàn)差異成為推動(dòng)科研合作數(shù)據(jù)監(jiān)管者的任務(wù)之一。DCPT 通過標(biāo)準(zhǔn)化的流程對(duì)目標(biāo)數(shù)據(jù)集進(jìn)行探索,并將最終數(shù)據(jù)探索結(jié)果形成DCP。DCP 是由各學(xué)科科研數(shù)據(jù)的共同擁有的屬性構(gòu)成的集合,它可以實(shí)現(xiàn)對(duì)多學(xué)科數(shù)據(jù)進(jìn)行統(tǒng)一的描述,減小跨學(xué)科研究之間數(shù)據(jù)理解的差異,有益于實(shí)現(xiàn)多學(xué)科研究之間數(shù)據(jù)的共享和復(fù)用。
2.1.2 科學(xué)數(shù)據(jù)全生命周期的展示
不同階段的科學(xué)數(shù)據(jù)緊密相連直接反映了科研工作的進(jìn)展,為后續(xù)科研人員提供相關(guān)數(shù)據(jù)處理方法指導(dǎo),利用這些數(shù)據(jù)可以對(duì)已有的科研成果進(jìn)行重現(xiàn)性驗(yàn)證,保證科研成果的可靠性。在DCPT 中將科學(xué)數(shù)據(jù)的生命周期分為原始、處理、分析、完成4個(gè)階段,并且提供對(duì)生命周期的拓展,強(qiáng)調(diào)對(duì)科學(xué)數(shù)據(jù)各個(gè)階段的詳細(xì)狀態(tài)進(jìn)行紀(jì)錄,為科學(xué)數(shù)據(jù)全生命周期的監(jiān)管提供方向。
2.1.3 以數(shù)據(jù)生產(chǎn)者為出發(fā)點(diǎn)
科學(xué)數(shù)據(jù)主要來源于科研人員或者科研團(tuán)隊(duì),他們對(duì)自己生產(chǎn)的數(shù)據(jù)有著更加透徹的了解。DCPT 為數(shù)據(jù)生產(chǎn)者和數(shù)據(jù)監(jiān)管者提供了溝通渠道,了解數(shù)據(jù)生產(chǎn)者在數(shù)據(jù)監(jiān)管方面的需求,讓數(shù)據(jù)監(jiān)管者從數(shù)據(jù)生產(chǎn)者角度出發(fā),了解他們對(duì)于數(shù)據(jù)監(jiān)管的需求和建議。
2.1.4 沖破科學(xué)數(shù)據(jù)共享的阻礙
科學(xué)數(shù)據(jù)共享可以充分體現(xiàn)科學(xué)數(shù)據(jù)的價(jià)值,但是由于所有權(quán)問題、訪問和存儲(chǔ)條件等問題,科學(xué)數(shù)據(jù)的全面開放共享并沒有實(shí)現(xiàn)。DCPT試圖通過明晰數(shù)據(jù)所有權(quán),告知數(shù)據(jù)存儲(chǔ)和訪問條件的方式來跨越科學(xué)數(shù)據(jù)共享過程的桎梏。
DCPT 由4 個(gè)部分構(gòu)成,每個(gè)部分承擔(dān)著不同的任務(wù),缺一不可、緊密相連。
用戶使用指導(dǎo):用戶使用指導(dǎo)是DCPT 的“快照”,以整個(gè)工具及其他組成因素的使用和構(gòu)成為核心,將DCPT的使用生命周期劃分為不同的階段和模塊進(jìn)行描述,為新用戶提供迅速掌握和使用該工具的系統(tǒng)說明,同時(shí)也為經(jīng)驗(yàn)豐富的用戶提供結(jié)構(gòu)和流程優(yōu)化的藍(lán)圖。
訪談表格:訪談表格是一種填空式的調(diào)查問卷,涉及目標(biāo)數(shù)據(jù)集的描述、版權(quán)、共享等主要問題,由采訪者在訪談開始之前發(fā)放給數(shù)據(jù)生產(chǎn)者或者數(shù)據(jù)提供者,在整個(gè)訪談過程中采訪者根據(jù)數(shù)據(jù)生產(chǎn)者在表格中的信息反饋,確定所需要進(jìn)一步了解的細(xì)節(jié)信息,它與訪談手冊(cè)在功能和內(nèi)容上相互補(bǔ)充。
訪談手冊(cè):訪談手冊(cè)包含了在訪談過程中可能涉及的各方面與目標(biāo)數(shù)據(jù)集相關(guān)的問題,采訪者了解數(shù)據(jù)生產(chǎn)者在訪談表格中反饋信息之后,提出相應(yīng)的問題、獲取相應(yīng)的信息。它監(jiān)管訪談中既可以作為無訪談經(jīng)驗(yàn)監(jiān)管人員的臺(tái)本,也可以為經(jīng)驗(yàn)豐富的監(jiān)管人員提供線索性的指導(dǎo)[12]。
DCP 模版:DCP 是為最終形成的數(shù)據(jù)描述文件提供一個(gè)框架,將對(duì)數(shù)據(jù)監(jiān)管各種信息按不同的章節(jié)進(jìn)行匯總,每個(gè)章節(jié)對(duì)所需信息做了簡(jiǎn)要的定義,數(shù)據(jù)監(jiān)管人員從訪談表格和訪談手冊(cè)提取相關(guān)信息。
數(shù)據(jù)監(jiān)管人員通過DCPT 向數(shù)據(jù)生產(chǎn)者獲取目標(biāo)數(shù)據(jù)集的相關(guān)信息,形成數(shù)據(jù)集描述文件。整個(gè)過程涉及主題選取、科研數(shù)據(jù)集確定、了解數(shù)據(jù)集基本現(xiàn)狀等多個(gè)環(huán)節(jié),這些環(huán)節(jié)可以劃分為4個(gè)階段。
準(zhǔn)備階段:DCPT要和那些確定有數(shù)據(jù)且對(duì)自己的數(shù)據(jù)集有一定監(jiān)管期望和需求的研究人員合作使用[13]。數(shù)據(jù)監(jiān)管主要面向的是科學(xué)數(shù)據(jù),選定目標(biāo)數(shù)據(jù)集是使用DCPT的前提條件,數(shù)據(jù)的發(fā)展階段、數(shù)據(jù)的狀態(tài)以及目前已經(jīng)采取的管理方法,關(guān)系到后續(xù)訪談的進(jìn)行,在準(zhǔn)備階段通過檢索與目標(biāo)數(shù)據(jù)有關(guān)的出版物、科研項(xiàng)目介紹了解數(shù)據(jù)的狀態(tài)和數(shù)據(jù)產(chǎn)生的背景信息,分析目標(biāo)數(shù)據(jù)集所在的學(xué)科領(lǐng)域中數(shù)據(jù)監(jiān)管存在的問題和進(jìn)展程度,進(jìn)而為正式訪談提供方向和重點(diǎn)。數(shù)據(jù)監(jiān)管者應(yīng)當(dāng)盡量選取處在成熟階段的科學(xué)研究項(xiàng)目作為目標(biāo),盡量避免數(shù)據(jù)集相關(guān)信息與已經(jīng)生成的DCP發(fā)生沖突,影響DCP的可靠性和真實(shí)性。
訪談階段:訪談階段是一個(gè)交互的過程,采訪者了解目標(biāo)數(shù)據(jù)集的信息,數(shù)據(jù)生產(chǎn)者表達(dá)數(shù)據(jù)監(jiān)管的需求,整個(gè)過程以目標(biāo)數(shù)據(jù)集為核心,以訪談表格和訪談手冊(cè)為工具對(duì)所需信息進(jìn)行充分采集。
完成DCP 階段:本階段需要對(duì)準(zhǔn)備階段和訪談階段獲取的信息進(jìn)行重新組織,按照DCP 模板中的章節(jié)和模塊填入相關(guān)的信息,最終形成一份關(guān)于目標(biāo)數(shù)據(jù)的草案,草案經(jīng)過數(shù)據(jù)生產(chǎn)者正式確認(rèn)之后形成正式的DCP。
出版和共享階段:DCP 可以通過多種形式進(jìn)行發(fā)布,相關(guān)機(jī)構(gòu)可以出版相關(guān)的紙質(zhì)文檔,也可以通過網(wǎng)絡(luò)平臺(tái)共享。普渡大學(xué)通過DCPT 官網(wǎng)對(duì)最新的DCP 文件進(jìn)行發(fā)布,讓其他用戶能夠便捷的獲取,Wiki 平臺(tái)也為獲取DCP 并對(duì)其進(jìn)行評(píng)價(jià)提供了便利[14]。
建設(shè)機(jī)構(gòu)庫的主要目的是開放存取本機(jī)構(gòu)內(nèi)部的科研成果。開發(fā)DCPT 是為了描述需要監(jiān)管的科學(xué)數(shù)據(jù),從而促進(jìn)科學(xué)數(shù)據(jù)的共享、增加科學(xué)數(shù)據(jù)的價(jià)值。DCPT 和機(jī)構(gòu)庫有很好的契合點(diǎn),DCPT可以為機(jī)構(gòu)庫進(jìn)行數(shù)據(jù)監(jiān)管提供指導(dǎo),使機(jī)構(gòu)庫更好地實(shí)現(xiàn)開放存取。
圖書館和檔案館是傳統(tǒng)文獻(xiàn)和資料保管的場(chǎng)所,也是機(jī)構(gòu)庫建設(shè)的主要力量,然而隨著E-Sci?ence 和E-Research 的發(fā)展,傳統(tǒng)的文獻(xiàn)管理服務(wù)已經(jīng)受到了挑戰(zhàn),創(chuàng)新機(jī)構(gòu)庫的建設(shè)變得更加重要。DCPT的應(yīng)用效果和使用DCPT人員經(jīng)驗(yàn)有著直接關(guān)系,圖書館和檔案館的工作人員長期從事與信息管理相關(guān)的工作,對(duì)信息管理的流程有著深刻的了解,能夠準(zhǔn)確地了解目標(biāo)數(shù)據(jù)集的信息和數(shù)據(jù)生產(chǎn)者對(duì)數(shù)據(jù)監(jiān)管的要求。圖書館和檔案館作為傳統(tǒng)的數(shù)據(jù)管理中心,對(duì)數(shù)據(jù)管理有著系統(tǒng)成熟的流程和合理規(guī)范的規(guī)章制度,科學(xué)數(shù)據(jù)監(jiān)管是傳統(tǒng)數(shù)據(jù)管理的一種新模式,傳統(tǒng)的管理流程和規(guī)章制度有大量值得借鑒之處。
計(jì)算機(jī)技術(shù)和網(wǎng)絡(luò)技術(shù)是機(jī)構(gòu)庫建設(shè)的技術(shù)基礎(chǔ)。據(jù)OpenDOAR 統(tǒng)計(jì),截至2020 年DSpace 占據(jù)全球機(jī)構(gòu)庫系統(tǒng)軟件使用市場(chǎng)的40%。DSpace等系統(tǒng)軟件性能完善,功能齊全,實(shí)現(xiàn)了知識(shí)資源的“收集——保存——發(fā)布”的一般過程,并可以進(jìn)行拓展,能較好地滿足機(jī)構(gòu)庫建設(shè)需求[15]。機(jī)構(gòu)庫系統(tǒng)軟件的應(yīng)用為DCP的監(jiān)管要求提供了軟件保障。隨著互聯(lián)網(wǎng)和多媒體技術(shù)的發(fā)展,機(jī)構(gòu)庫的建設(shè)機(jī)構(gòu)可以構(gòu)建網(wǎng)絡(luò)平臺(tái),DCPT的流程完全可以在網(wǎng)絡(luò)平臺(tái)上進(jìn)行。
建設(shè)機(jī)構(gòu)庫是為了存儲(chǔ)本機(jī)構(gòu)的研究成果、管理數(shù)字資源,長期保存數(shù)字資源、教學(xué)資源保管、圖書期刊資源收藏。科學(xué)數(shù)據(jù)是科學(xué)研究的驅(qū)動(dòng)力和創(chuàng)新的重要來源,其重要性日益受到各學(xué)科領(lǐng)域關(guān)注,隨著計(jì)算機(jī)和網(wǎng)絡(luò)技術(shù)的發(fā)展,科研數(shù)據(jù)狀態(tài)也在不斷變化,機(jī)構(gòu)庫不能滿足研究人員對(duì)于數(shù)據(jù)服務(wù)的需求,機(jī)構(gòu)庫的建設(shè)機(jī)構(gòu)基于Data Curation 提出新的建設(shè)思路勢(shì)在必行,DCPT能夠?yàn)闄C(jī)構(gòu)庫進(jìn)行數(shù)據(jù)監(jiān)管提供思路(如圖2)。
圖2 DCPT工作流程
機(jī)構(gòu)庫中存放的資源是由機(jī)構(gòu)內(nèi)部科研人員自愿提交,這種方式的主動(dòng)權(quán)完全掌握在科研人員手中,科研人員在提交數(shù)據(jù)資源過程中需要考慮數(shù)據(jù)格式、數(shù)據(jù)大小等問題,這些問題進(jìn)一步增加了數(shù)據(jù)提交的復(fù)雜度,影響科研人員提交數(shù)據(jù)資源的積極性,這對(duì)機(jī)構(gòu)庫資源內(nèi)容建設(shè)十分不利。數(shù)據(jù)監(jiān)管者使用DCPT 需要主動(dòng)去檢索需要收錄、監(jiān)管的數(shù)據(jù),數(shù)據(jù)監(jiān)管者需要關(guān)注本機(jī)構(gòu)內(nèi)的科研人員的科研進(jìn)展,確定目標(biāo)科研項(xiàng)目之后需要主動(dòng)和相關(guān)研究人員溝通科研數(shù)據(jù)收集的問題。數(shù)據(jù)監(jiān)管者主動(dòng)搜集數(shù)據(jù)資源的方式,通過溝通交流可以使科研人員機(jī)構(gòu)庫的數(shù)據(jù)監(jiān)管工作更加人性化,提高科研人員在機(jī)構(gòu)庫建設(shè)中的參與度,保證機(jī)構(gòu)庫建設(shè)工作的可持續(xù)發(fā)展[16]。
機(jī)構(gòu)庫中包含多學(xué)科數(shù)據(jù)資源,每個(gè)學(xué)科各具特點(diǎn),導(dǎo)致各個(gè)學(xué)科的科學(xué)數(shù)據(jù)包含的屬性也各不相同,每個(gè)學(xué)科對(duì)數(shù)據(jù)都有一套描述方式,在機(jī)構(gòu)庫中難以做到統(tǒng)一和標(biāo)準(zhǔn)化的描述和管理,對(duì)科學(xué)數(shù)據(jù)開放存取有較大阻礙。統(tǒng)一多學(xué)科科學(xué)數(shù)據(jù)描述需要建立新的元數(shù)據(jù)標(biāo)準(zhǔn),通過統(tǒng)一的元數(shù)據(jù)標(biāo)準(zhǔn)可以加強(qiáng)數(shù)據(jù)的共享性,促進(jìn)科學(xué)數(shù)據(jù)跨學(xué)科流動(dòng)。DCPT 最終的成果是關(guān)于數(shù)據(jù)監(jiān)管的描述文件(DCP),DCP將各個(gè)學(xué)科的數(shù)據(jù)劃分成13 個(gè)大的模塊分別進(jìn)行描述,其中包括數(shù)據(jù)集摘要、數(shù)據(jù)集生命周期、數(shù)據(jù)集共享、數(shù)據(jù)集訪問、數(shù)據(jù)集轉(zhuǎn)換等,這些可以作為元數(shù)據(jù)標(biāo)準(zhǔn)的參考模型,幫助機(jī)構(gòu)庫更好的完成多學(xué)科的數(shù)據(jù)監(jiān)管活動(dòng)。科學(xué)數(shù)據(jù)編目工作可以方便科研人員迅速檢索到需要的數(shù)據(jù),并通過分類找到大批關(guān)聯(lián)數(shù)據(jù),這樣既方便了對(duì)科學(xué)數(shù)據(jù)集有序管理,也可以提高科研人員的檢索效率。DCPT 將每個(gè)科學(xué)數(shù)據(jù)集都建立了獨(dú)立的DCP,每個(gè)獨(dú)立的DCP 文件分配一個(gè)唯一DOI,這樣結(jié)合元數(shù)據(jù)標(biāo)準(zhǔn)就可以完成對(duì)科學(xué)數(shù)據(jù)的編目工作。
數(shù)據(jù)監(jiān)管人員的對(duì)多學(xué)科數(shù)據(jù)進(jìn)行科學(xué)有效的管理,幫助用戶便捷地發(fā)現(xiàn)和獲取相關(guān)的數(shù)據(jù)信息。由于數(shù)據(jù)監(jiān)管人員專業(yè)知識(shí)的局限性,并不能對(duì)所有學(xué)科的特點(diǎn)進(jìn)行深入的了解,導(dǎo)致在科學(xué)數(shù)據(jù)的處理和管理方面存在許多不完善的地方。特定學(xué)科關(guān)于數(shù)據(jù)存儲(chǔ)的格式不盡相同,對(duì)數(shù)據(jù)支持的軟件和出版方式也不一樣,數(shù)據(jù)監(jiān)管者需要全盤考慮所有相關(guān)影響因素,在精力上較難實(shí)現(xiàn)[17]。DCPT這種模式勾勒了一種雙向管理機(jī)制,數(shù)據(jù)監(jiān)管的主體不再由數(shù)據(jù)監(jiān)管者一方擔(dān)當(dāng),數(shù)據(jù)生產(chǎn)者也參與到數(shù)據(jù)監(jiān)管的過程中,為數(shù)據(jù)監(jiān)管者提供所需的數(shù)據(jù)信息。機(jī)構(gòu)庫對(duì)科學(xué)數(shù)據(jù)的收集和管理是一個(gè)拋棄的過程,對(duì)科學(xué)數(shù)據(jù)的收集集中在數(shù)據(jù)生命周期的末端這部分?jǐn)?shù)據(jù),科研過程中其他階段的數(shù)據(jù)被忽視??蒲惺〉臄?shù)據(jù)中包含失敗的原因,對(duì)科研工作成功開展具有方向性作用,各個(gè)階段對(duì)于推演科研成果進(jìn)行再創(chuàng)新起到的作用不可忽視。利用DCPT 可以對(duì)各階段數(shù)據(jù)進(jìn)行紀(jì)錄,實(shí)現(xiàn)數(shù)據(jù)全生命周期管理。
信息孤島現(xiàn)象廣泛存在于當(dāng)前機(jī)構(gòu)庫的建設(shè)過程中,每一個(gè)機(jī)構(gòu)庫是一個(gè)數(shù)據(jù)和信息的集合點(diǎn),但是各個(gè)機(jī)構(gòu)庫之間的聯(lián)系是割裂和孤立的,阻礙了各個(gè)機(jī)構(gòu)之間的數(shù)據(jù)共享和交流。單一機(jī)構(gòu)的數(shù)據(jù)資源有限,難以保證機(jī)構(gòu)庫內(nèi)容的豐富性和多樣性。各機(jī)構(gòu)之間確立合作協(xié)議建立跨機(jī)構(gòu)合作聯(lián)盟,跨機(jī)構(gòu)合作既可以突出本機(jī)構(gòu)強(qiáng)勢(shì)學(xué)科,提高機(jī)構(gòu)、機(jī)構(gòu)內(nèi)部科研人員學(xué)術(shù)聲譽(yù),彌補(bǔ)弱勢(shì)學(xué)科數(shù)據(jù)短缺的問題。DCP將某一個(gè)科研成果相關(guān)數(shù)據(jù)所有者信息和版權(quán)所有者進(jìn)行了紀(jì)錄,建設(shè)機(jī)構(gòu)可以根據(jù)DCP 與各個(gè)機(jī)構(gòu)確立合作協(xié)議和版權(quán)共享協(xié)議,構(gòu)建機(jī)構(gòu)庫網(wǎng)絡(luò)體系,實(shí)現(xiàn)機(jī)構(gòu)庫之間數(shù)據(jù)資源共享,解決機(jī)構(gòu)庫信息孤島問題。
科學(xué)數(shù)據(jù)的價(jià)值來源于共享和復(fù)用??蒲腥藛T在訪問機(jī)構(gòu)庫數(shù)據(jù)時(shí)無法了解其他相關(guān)使用者使用方法和方向,對(duì)數(shù)據(jù)存在的疑問無法反饋和交流,一定程度上限制了用戶復(fù)用數(shù)據(jù)。DCPT形成最終DCP 之前需要數(shù)據(jù)生產(chǎn)者的反饋和確認(rèn),并對(duì)反饋?zhàn)鞒鱿鄳?yīng)的修改,DCP 也可以通過Wiki平臺(tái)進(jìn)行訪問和討論,建立起長效的反饋機(jī)制將大大提高用戶復(fù)用數(shù)據(jù),促進(jìn)機(jī)構(gòu)庫內(nèi)數(shù)據(jù)資源共享。
隨著科學(xué)的發(fā)展,各個(gè)學(xué)科之間的界限越來越模糊,跨學(xué)科交流成為科研領(lǐng)域一種不可忽視的趨勢(shì),與此同時(shí)E-Science 的發(fā)展促進(jìn)了分布式和協(xié)同式科研工作的開展,學(xué)科之間的交融、科研機(jī)構(gòu)之間的協(xié)作必然伴隨著數(shù)據(jù)的交互,但是各學(xué)科科研數(shù)據(jù)和各機(jī)構(gòu)的數(shù)據(jù)特點(diǎn)存在著明顯的差異,造成科學(xué)數(shù)據(jù)和成果共享困難。機(jī)構(gòu)庫面臨新的發(fā)展形勢(shì),數(shù)據(jù)共享和開發(fā)獲取的職能愈發(fā)重要,DCPT對(duì)機(jī)構(gòu)庫在數(shù)據(jù)監(jiān)管、服務(wù)模式、數(shù)據(jù)描述等多方面的創(chuàng)新有著重要的借鑒作用,將有益于機(jī)構(gòu)庫長期可持續(xù)發(fā)展。