劉 楊
科學數(shù)據(jù)在科研中的作用顯著,科研過程可以抽象為一個數(shù)據(jù)的生命周期管理過程。數(shù)據(jù)生命周期是指從數(shù)據(jù)產(chǎn)生,經(jīng)數(shù)據(jù)加工和發(fā)布,最終實現(xiàn)數(shù)據(jù)再利用的循環(huán)過程,實質(zhì)是依據(jù)科研過程來管理數(shù)據(jù)[1]。英國數(shù)字監(jiān)管中心DCC(Digital Curation Centre)認為,Data Curation(簡稱DC)是指貫穿數(shù)字化研究數(shù)據(jù)整個生命周期的維護、保存與增值活動,通過主動管理來降低科研數(shù)據(jù)過時與研究價值降低的危險[2]。嚴格說,DC 生命周期管理是宏觀DC 研究的一部分,重點是研究如何在科學數(shù)據(jù)生命周期各個階段采用適當?shù)牟呗詠韺?shù)據(jù)進行管理,其目的主要是延長科學數(shù)據(jù)的生命周期。研究對象除數(shù)據(jù)外,還包括數(shù)據(jù)的生產(chǎn)、服務、使用和內(nèi)外部環(huán)境、技術(shù)政策支持等方面[3]。本文以基于生命周期理論的DC 管理作為研究對象,收集國內(nèi)外關(guān)于DC生命周期管理的文獻,通過對比研究方法,找出我國與國外的差距。
通過對EBSCO 和Google 進行檢索(截止日期為2014 年6 月25 日),分別以data curation lifecycle、digitalcuration lifecycle 等為關(guān)鍵詞和題名,獲得有效文獻550 篇,其中Available in Library Collection238 篇。利用noteexpress 軟件進行時間、作者和主題等統(tǒng)計分析。
國外DC 生命周期管理研究始于2006 年,2010 年開始形成規(guī)?;鲩L,所以統(tǒng)計從2010年開始。如表1 所示,2010- 2013 年文獻呈遞增趨勢。由于2014 年統(tǒng)計到2014 年6 月,所以文獻量相對較少。
表1 國外DC 生命周期管理文獻年度分布表
發(fā)文篇數(shù)在6 篇以上的學者7 位,Palmer,Carole L 發(fā)文量最多,總數(shù)是10 篇;Carlson,Jake R 發(fā)文量7 篇;其他4 位發(fā)文量均為6 篇,其中Dietrich,Dianne 作為第一作者發(fā)文3 篇,是以第一作者發(fā)文數(shù)最多的學者,從發(fā)文時間看,幾乎每年都有研究成果發(fā)表,說明該作者持續(xù)研究DC。
通過EBSCO Discovery service 進行檢索,6 家出版機構(gòu)囊括DC 領(lǐng)域近40%的發(fā)文量,taylor&francis ltd(泰勒- 弗朗西斯出版集團)、emerald group publishing limited(英國愛墨瑞得出版社)是DC 研究的主導機構(gòu)。如表2 所示。
表2 國外DC 生命周期管理研究成果主要出版機構(gòu)
國外對DC 生命周期的研究主要集中在五個方面,見表3。其中DC 生命周期管理綜述這個主題所占比重最大。
表3 國外DC 生命周期管理文獻主題
1.4.1 DC 生命周期管理
英國數(shù)字監(jiān)管中心DCC 認為Data Curation是持續(xù)的過程,需要在整個數(shù)據(jù)生命周期中進行操作和管理,要投入大量的精力、時間及資源。Panos Constantopoulos 等在DCC 提出的DC生命周期模型基礎(chǔ)上,提出DC 生命周期的擴展模型,將DC 功能模塊及行為由內(nèi)向外分為七層,以圖形化的形式概括基于生命周期的DC 管理過程[4]。Jack R C 總結(jié)了DC 生命周期管理的四個典型模型,指出各個模型存在的問題[5]。
1.4.2 DC 技術(shù)應用
國外關(guān)于DC 生命周期研究的文獻大多數(shù)是實踐后總結(jié)性論文,涉及具體實用。Maria S 全面總結(jié)考古機構(gòu)在DC 方面的實踐,強調(diào)考古機構(gòu)如何實現(xiàn)從簡單、單獨的項目數(shù)據(jù)存儲轉(zhuǎn)變?yōu)殚L期的、可持續(xù)、有生命力的機構(gòu)數(shù)據(jù)資源中心,以實現(xiàn)數(shù)據(jù)共享、再利用和開放獲取[6]。
1.4.3 數(shù)字化保存和歸檔
多數(shù)學者認為數(shù)字化保存(Digital reservation)和數(shù)字歸檔(Digital archiving)可劃為DC 生命周期管理中的某一環(huán)節(jié)。學者們通過討論數(shù)字圖書館中的數(shù)字保存、檔案科學和方法論等基礎(chǔ)問題,借薦產(chǎn)品生命周期管理中的長期保存經(jīng)驗,提出數(shù)字圖書館的價值在于將文化和科學知識傳達給未來的能力,要做這一點,須解決數(shù)字化保存和管理的挑戰(zhàn)。
1.4.4 高校圖書館的DC 研究
高校圖書館對DC 的研究比較多。Robert F指出高校圖書館在DC 中的責任,認為不僅要對上級組織負責,還應對將來要使用這些數(shù)據(jù)的科研人員負責[7]。Michael J G 提出高校圖書館是數(shù)據(jù)質(zhì)量的中心,討論高校圖書館在DC 中的地位和作用,強調(diào)curation 優(yōu)先于creation,高校圖書館要鞏固數(shù)據(jù)中心的地位,就須在新的科研產(chǎn)生前就嵌入科研進程中[8]。
1.5.1 DCP 項目
2004 年3 月英國DCC 中心發(fā)起DCP(Data Curation Profile)項目,開發(fā)了關(guān)于Data Curation的工具包。工具包主要是幫助圖書館員為科研工作者提供DC 服務,包含用戶指南、采訪者手冊、采訪工作表、DC 文件模板等四個模塊。
1.5.2 DataNet 計劃
DataNet 計劃是指美國國家科學基金(NSF)用5 年時間資助5 項重點研究課題的計劃,該計劃于2009 年全額資助由新墨西哥大學圖書館開展的DataONE 項目和約翰·霍普金斯大學圖書館開展的Data Conservancy 項目。DataONE 項目專門針對地球科學開發(fā),構(gòu)建能提供準確清晰的地球觀測數(shù)據(jù)的平臺。Data Conservancy 項目開發(fā)面向跨學科觀測數(shù)據(jù)的數(shù)據(jù)管理基礎(chǔ)架構(gòu)。
1.5.3 DigCCurr 項目
為培養(yǎng)DC 專業(yè)人員,2006 年北卡羅來納大學設(shè)立數(shù)字化監(jiān)護課程項目DigCCurr,課程內(nèi)容設(shè)置涵蓋碩士研究生和博士研究生。該項目在全球產(chǎn)生廣泛影響,為其他教育或科研機構(gòu)實施類似的教育項目提供了很好的實踐模型,推動了DC 教育的發(fā)展。
通過檢索CNKI,在文獻分類目錄導航中選擇圖書情報與數(shù)字圖書館,通過主題檢索途徑輸入“Data Curation+ 周期”,“數(shù)據(jù)管理+ 生命周期”,共檢索出12 篇相關(guān)核心文章(截止日期為2014 年12 月10 日)。其研究論文主要發(fā)表在核心期刊上,可見研究者對此相當重視。
我國DC 生命周期管理研究始于2011 年,有文獻3 篇。2013 年和2014 年形成高峰期。
在我國進行DC 生命周期管理研究的學者較少,成果不集中,師榮華、劉細文兩位學者最先開始此項課題的研究。武漢大學信息管理學院等大學的一些學者也是DC 研究的先行者。
我國對DC 生命周期的研究集中在DC 的生命周期管理綜述、DC 生命周期管理模型研究、圖書館DC 服務、圖書館員角色研究、科學數(shù)據(jù)共享研究等主題,見表4。
表4 我國DC 生命周期管理文獻主題
2.3.1 圖書館DC 服務
圖書館DC 服務是我國學者研究較多的主題,說明在e- science 背景下,圖書情報領(lǐng)域的學者意識到DC 服務的新趨勢。師榮華、劉細文基于數(shù)據(jù)生命周期的理論提出圖書館科學數(shù)據(jù)服務模式[9],是我國研究數(shù)據(jù)生命周期的經(jīng)典文獻。馬曉亭構(gòu)建基于生命周期理論的圖書館大數(shù)據(jù)監(jiān)護系統(tǒng),定義了圖書館數(shù)據(jù)監(jiān)護的含義,指出圖書館在讀者大數(shù)據(jù)閱讀服務過程中,應根據(jù)數(shù)據(jù)生命周期發(fā)展規(guī)律,對大數(shù)據(jù)資源進行DC 管理,以確保數(shù)據(jù)未來被再發(fā)現(xiàn)和再利用[10]。
2.3.2 DC 生命周期管理綜述
DC 的主要內(nèi)容是如何將處于生命周期中的數(shù)據(jù)通過管理活動生成新數(shù)據(jù)、元數(shù)據(jù)和知識,并在研究人員需要時提供完整性、相關(guān)性和訪問性的服務,包括及時維護不同版本數(shù)據(jù)之間的鏈接,保障數(shù)據(jù)源的可信性及管理與操作、解釋數(shù)據(jù)相關(guān)性。學者們通過對國內(nèi)外DC 研究現(xiàn)狀與熱點分析,從數(shù)據(jù)生命周期視角闡述DC 的作用,構(gòu)建了科學數(shù)據(jù)生命周期示意圖。
2.3.3 DC 生命周期管理模型研究
關(guān)于DC 生命周期模型問題,丁寧、馬浩琴專門研究國外高校DC 生命周期管理模型,并進行比較,提出我國高??茖W數(shù)據(jù)生命周期管理需要借鑒的經(jīng)驗[11]。王芳、慎金花提出細化的DC生命周期模型,強調(diào)DC 是主動、持續(xù)地貫穿數(shù)據(jù)生命周期的管理活動[12]。
2.3.4 圖書館員角色研究
把握數(shù)據(jù)生命周期,圖書館根據(jù)科研人員對科學數(shù)據(jù)的要求,結(jié)合自身實際拓展服務,成功擺脫研究型圖書館在科學數(shù)據(jù)管理中角色定位的局限性。任樹懷等參照DC 生命周期的擴展模型,提出學科館員作為Data curator 所擔任的角色及履行的職責可以貫穿于DC 生命周期的各個環(huán)節(jié)中,并從十方面將學科館員可以參與的工作映射到模型中進行論述[13]。
2.3.5 科學數(shù)據(jù)共享研究
科學數(shù)據(jù)的共享或公共獲取已成為科學研究整個流程的利益相關(guān)者(包括管理機構(gòu)、資助機構(gòu)、期刊、個人研究者)都密切關(guān)注的問題??茖W數(shù)據(jù)共享是DC 生命周期管理的最終目的,科學數(shù)據(jù)共享的認可程度和實踐程度越高,越能為科研人員和機構(gòu)乃至國家間科研合作提供良好契機。
2.4.1 科學數(shù)據(jù)共享工程
科學數(shù)據(jù)共享工程自2001 年底啟動第一個試點——氣象科學數(shù)據(jù)共享試點以來,在資源環(huán)境、農(nóng)業(yè)、人口與健康、基礎(chǔ)與前沿等領(lǐng)域共24 個部門開展了科學數(shù)據(jù)共享工作,初具規(guī)模。我國已啟動9 個科學數(shù)據(jù)共享試點,開展科學數(shù)據(jù)共享政策法規(guī)和技術(shù)標準體系的調(diào)研工作,提供在線服務的科學數(shù)據(jù)資源超過100TB[14]。
2.4.2 科技信息資源內(nèi)容監(jiān)測與分析服務平臺
中國科學技術(shù)信息研究所和韓國科技情報院合作研發(fā)“科技信息資源內(nèi)容監(jiān)測與分析服務平臺”,該平臺融合本體技術(shù)、關(guān)聯(lián)數(shù)據(jù)、機器學習、數(shù)據(jù)挖掘和文本聚類處理等技術(shù),可提供的服務包括領(lǐng)域深層主題揭示,作者、機構(gòu)和團隊研究興趣演化分析,論文和專利資源領(lǐng)域深層主題關(guān)聯(lián)分析,技術(shù)生命周期分析及預測,競爭對手及合作伙伴分析,機構(gòu)技術(shù)路線圖分析等[15]。
國內(nèi)外研究的相同點是論文數(shù)量集中爆發(fā)于2011 年,DC 成為信息學和圖書館學領(lǐng)域內(nèi)新的研究熱點。國內(nèi)外研究的不同主要體現(xiàn)在五個方面。
2005 年9 月第一屆“Digital Curation”會議在英國巴斯大學召開,標志著國外DC 研究時代的來臨。我國DC 研究始于2005 年,DC 生命周期的研究始于2011 年,相對滯后。
從研究成果數(shù)量看,國外2010- 2014 年為550 篇,我國為12 篇。刨除對國外數(shù)據(jù)庫檢索存在的誤差,范圍和主題比較寬泛的因素,差距仍然顯而易見。從研究成果的形式看,國外研究形式多樣化,有學術(shù)論文、專利、會議論文、專著等;我國主要是學術(shù)論文和專著,實踐應用方面的論文明顯少于國外,相關(guān)的機構(gòu)和政策支持力度弱。
國外有專門的研究機構(gòu)如DCC,出版集團公司參與較多,研究者有大型數(shù)據(jù)公司的技術(shù)人員、高??蒲腥藛T和大學圖書館的工作人員。我國主要集中在高校的信息管理學院和大學圖書館員,這說明我國科研人員對科學數(shù)據(jù)的整理、共享、再利用、增值的價值認識不夠,科研合作意識不夠普及。
國外的研究主題寬泛,涉及信息管理、數(shù)據(jù)庫管理、數(shù)字圖書館和數(shù)字保存,更關(guān)注在DC管理中引入生命周期管理和相關(guān)技術(shù)的應用方式,采用調(diào)查和實證模型分析的方式進行研究,注重研究過程的實踐性,研究內(nèi)容更加深入。我國研究局限于個體范圍,更多以理論分析為基礎(chǔ),對DC 生命周期模型研究停留在翻譯和模仿階段,創(chuàng)新少;大多數(shù)學者提出來的是概念模型,缺乏實踐應用認證,這與我國科研人員的科學數(shù)據(jù)管理意識薄弱、缺乏數(shù)據(jù)管理培訓有關(guān),研究需深入。從研究項目說,差距更明顯,國外政府和高校都較重視,部分重點大學、美國國家自然科學基金會等都成立科學數(shù)據(jù)生命周期管理小組,研究項目數(shù)量多,形式豐富多樣,走在我們前面。
歐美高校和科研機構(gòu)更注重對數(shù)據(jù)管理的基礎(chǔ)設(shè)施建設(shè),研究從單一學科的元數(shù)據(jù)標準開發(fā)和架構(gòu)建設(shè)轉(zhuǎn)向藝術(shù)人文科學及交叉學科的出版物、數(shù)據(jù)及語境信息的有效交聯(lián)方面;不僅強調(diào)科學數(shù)據(jù)的重要性,更重視其數(shù)據(jù)持久性、數(shù)據(jù)及元數(shù)據(jù)質(zhì)量、可信度及審計問題;無論從機構(gòu)視角還是從國家視角,都給予DC 建設(shè)足夠的重視。據(jù)不完全統(tǒng)計,至少有20 所歐美高校和政府機構(gòu)、美國航空航天局、美國國家檔案和文件管理局等都開設(shè)DC 課程或培訓,涉及碩士、博士及職業(yè)培訓[16]。我國DC 研究剛剛起步,多數(shù)學者還在討論Data Curation 這個外來詞的中文名稱,可見缺乏有力的管理政策支持,對科研機構(gòu)的數(shù)據(jù)監(jiān)管工作沒有約束力,學者也缺乏投身DC 建設(shè)的積極性。由此,統(tǒng)一DC 概念認識,研究及界定DC 工作的邊界和主要研究內(nèi)容,加強DC 工作實踐,包括普及培訓、課程教育、崗位設(shè)置和業(yè)績考核等是我國DC 發(fā)展的瓶頸。
目前國內(nèi)外對DC 的核心部分研究都不夠深入,缺乏對數(shù)據(jù)對象價值的評估和測度、沒有對數(shù)據(jù)生命周期變化規(guī)律的定量分析。如何進行DC 生命周期各階段時間長度的劃分、各階段數(shù)據(jù)對象價值的確定、各階段數(shù)據(jù)對象的變化規(guī)律、何時進行數(shù)據(jù)遷移和歸檔,以及用定量的方式進行研究都應該是當前研究的重點。
大數(shù)據(jù)時代,海量數(shù)據(jù)的保存、整合、挖掘和再利用是研究熱點。應從DC 的生命周期管理角度,通過對元數(shù)據(jù)的結(jié)構(gòu)化規(guī)范控制,形成完整的科學數(shù)據(jù)元數(shù)據(jù)規(guī)范,利用本體術(shù)語層次結(jié)構(gòu)擴展元數(shù)據(jù)的標準化關(guān)鍵詞檢索,再利用關(guān)聯(lián)數(shù)據(jù)技術(shù)將數(shù)據(jù)對象組織為科學數(shù)據(jù)集進行管理和發(fā)布,規(guī)范數(shù)據(jù)的開放獲取協(xié)議,簡化復雜技術(shù)在實際使用中帶給用戶的負擔。
一直以來DC 生命周期的研究百花齊放,科研機構(gòu)和Data Curator 的合作多是隨性而為,缺乏政策引導和法律規(guī)范,角色劃分也不明確。研究者應遵循生命周期規(guī)律,拓寬DC 的應用領(lǐng)域,將航空航天、生命科學等自然學科中總結(jié)出的經(jīng)驗啟示應用到歷史、人文等社會學科和交叉學科領(lǐng)域。同時加強參與DC 生命周期管理一系列活動的工作人員四種角色的分配和合作,分別是數(shù)據(jù)創(chuàng)造者(data creator)、數(shù)據(jù)科學家(data scientist)、數(shù)據(jù)管理者(data manager) 和數(shù)據(jù)館員(data librarian),逐漸形成分級托管和存儲外包的規(guī)范格局。
[1][9]師榮華,劉細文.基于數(shù)據(jù)生命周期的圖書館科學數(shù)據(jù)服務研究[J].圖書情報工作,2011(1):39- 42.
[2] DCC.What isdigitalcuration?[EB/OL].[2014- 07- 12].http://www.dcc.ac.uk/digital- curation/what- digitalcuration.
[3][11]丁寧,馬浩琴.國外高??茖W數(shù)據(jù)生命周期管理模型比較研究及借鑒[J].圖書情報工作,2013(6):18- 22.
[4] Panos Constantopoulos,Costis Dallas et al. DCC&U:An Extended Digital Curation Lifecycle Model[J/OL].The International Journal of Digital Curation,2009,4(1):34- 45[2014- 03- 23]. http://www. ijdc. net/index.php/ijdc/article/view/100.
[5] Jake R C.How Do ResearchersDefine Their Data Lifecycle and What Can We Learn from Their Definitions?[EB/OL]. [2014- 02- 15]. http://docs.lib.purdue.edu/lib_fspres/46.
[6] Simbulan M. Transitioning from Data Storage to Data Curation: The Challenges Facing an Archaeological Institution[J].in Proceedingsof the Informing Science and Information Technology Education Conference,2013.
[7] Robert F. The art and science of data curation[J].OCLC Systems&Services,2013,29(4):195- 199.
[8] Michael JG,Academic LibrariesasData Quality Hubs[J].Journal of Librarianship and Scholarly Communication,2012,12(13):1- 10.
[10] 馬曉亭.圖書館大數(shù)據(jù)監(jiān)護系統(tǒng)的構(gòu)建—以生命周期理論為視角[J].圖書館建設(shè),2014(12):31- 38.
[12][16]王芳,慎金花.國外數(shù)據(jù)管護(data curation) 研究與實踐進展[J].中國圖書館學報,2014(7):1- 15.
[13] 任樹懷,時婉璐.論數(shù)據(jù)策管環(huán)境下學科館員的角色定位[J].圖書館雜志,2014(9):48- 53.
[14] 科學數(shù)據(jù)共享工程[EB/OL].[2014- 06- 25].http://baike.baidu.com/view/1047817.htm.
[15] 徐碩,喬曉東.科技信息資源內(nèi)容監(jiān)測與分析服務平臺概況[C]// 數(shù)字圖書館論壇2010 年年會論文集.北京:國家科技圖書文獻中心,2011:211- 220.