●王艷翠,李書寧,李愛紅編譯(.聊城大學(xué)圖書館,山東 聊城 5059;.北京師范大學(xué)圖書館,北京 00875)
研究數(shù)據(jù)聯(lián)盟
——建立全球數(shù)據(jù)共享和數(shù)據(jù)交換的基礎(chǔ)架構(gòu)
●王艷翠1,李書寧2,李愛紅1編譯
(1.聊城大學(xué)圖書館,山東聊城252059;2.北京師范大學(xué)圖書館,北京100875)
[關(guān)鍵詞]數(shù)據(jù)共享和交流;研究數(shù)據(jù)聯(lián)盟;焦點(diǎn)區(qū)域
[摘要]為了滿足全球日益增長的對于數(shù)據(jù)基礎(chǔ)設(shè)施的需求,研究數(shù)據(jù)聯(lián)盟作為一個全球性的、團(tuán)體驅(qū)動的組織于2013年計劃并推出(簡稱RDA)。本文對RDA的著眼點(diǎn)和使命、出現(xiàn)及快速發(fā)展、運(yùn)轉(zhuǎn)機(jī)制、焦點(diǎn)區(qū)域、建立數(shù)據(jù)共享和交流的技術(shù)基礎(chǔ)設(shè)施和社會基礎(chǔ)設(shè)施以及開展的一系列工作進(jìn)行了介紹。
今天的技術(shù)能夠?qū)σ郧盁o法想象的大量數(shù)據(jù)進(jìn)行收集和分析。通過新方法、新應(yīng)用以及新服務(wù)的開發(fā),這類數(shù)據(jù)正在改變著私人的、公共的、學(xué)術(shù)的等方方面面。無處不在的數(shù)據(jù)不僅僅改變“是什么”,它正在改變“將是什么”——致力于基礎(chǔ)工作從而推動新的創(chuàng)新的出現(xiàn)。從這個意義上說,研究領(lǐng)域?qū)Υ偈箶?shù)字化數(shù)據(jù)改變的需求最迫切。目前,越來越多的問題需要使用復(fù)雜的模型和新方法對來自各個不同科學(xué)領(lǐng)域的數(shù)據(jù)進(jìn)行綜合分析,而研究人員具備共享和綜合關(guān)鍵數(shù)據(jù)集的能力是基礎(chǔ)。只有具備了這樣的基礎(chǔ),才能開發(fā)出解決問題的新方法。
數(shù)據(jù)共享和數(shù)據(jù)交流使我們能夠揭示那些以前未連接過的事物之間的連通性。例如,為了研究大都市地區(qū)的哮喘病風(fēng)險,就要結(jié)合健康學(xué)、環(huán)境、人口和其他數(shù)據(jù)等進(jìn)行研究;這就需要有支持獲取、使用、重復(fù)使用、管理、協(xié)調(diào)以及相關(guān)數(shù)據(jù)集管理的基礎(chǔ)框架。對于這類數(shù)據(jù)的相關(guān)共享和闡述來說,僅僅提供可用數(shù)據(jù)是遠(yuǎn)遠(yuǎn)不夠的。為了使研究更具挑戰(zhàn)性,不同的研究團(tuán)體都有各自不同的數(shù)據(jù)標(biāo)準(zhǔn)、政策和實(shí)踐。因此,正如同今天的互聯(lián)網(wǎng)需要新的技術(shù)基礎(chǔ)設(shè)施和共同的協(xié)議來實(shí)現(xiàn)計算機(jī)網(wǎng)絡(luò)的連接一樣,需要有足以能夠支持技術(shù)和社會基礎(chǔ)設(shè)施整合來自不同群體的數(shù)據(jù)集并能在這些群體中實(shí)現(xiàn)合作的組織。
為了滿足全球日益增長的對于數(shù)據(jù)基礎(chǔ)設(shè)施的需求,研究數(shù)據(jù)聯(lián)盟(以下簡稱RDA)作為一個全球性的、團(tuán)體驅(qū)動的組織于2013年計劃并推出。它的著眼點(diǎn)是研究者和創(chuàng)新者們跨技術(shù)、學(xué)科以及國界公開共享數(shù)據(jù),從而解決全社會面臨的巨大挑戰(zhàn)。它的使命是建立能夠使數(shù)據(jù)實(shí)現(xiàn)共享的社會橋梁和技術(shù)橋梁。這些都是通過創(chuàng)造、采納并應(yīng)用社會、組織以及必要的技術(shù)基礎(chǔ)設(shè)施來降低數(shù)據(jù)共享和數(shù)據(jù)交流的壁壘而完成的。在實(shí)踐中,RDA成員不僅致力于數(shù)據(jù)共享和數(shù)據(jù)交流的技術(shù)基礎(chǔ)設(shè)施(包括其基本的)結(jié)構(gòu)和組成要素(持續(xù)的數(shù)字標(biāo)識符,共享的元數(shù)據(jù)框架等)方面的研究,還致力于團(tuán)體合作所需要的社會基礎(chǔ)設(shè)施(公共政策和組織實(shí)踐、統(tǒng)一的標(biāo)準(zhǔn)、數(shù)據(jù)獲取和保存的通用方法等)方面的研究。
對于研究人員、數(shù)據(jù)科學(xué)家和各種團(tuán)體組織來說,RDA是一個新興的、快速發(fā)展的國際化組織。這是一個成員驅(qū)動的組織,任何個人只要愿意接受RDA的開放、協(xié)商決策、技術(shù)中立、均衡代表各方利益等基本原則,就可以免費(fèi)加入聯(lián)盟。其他組織也可以以機(jī)構(gòu)成員(具有投票權(quán))或合作組織成員加入RDA。各類組織也可以作為組織成員(在組織內(nèi)有投票權(quán)的)或合作組織成員加入RDA。
RDA是由選舉產(chǎn)生的九名資深人員組成的委員會領(lǐng)導(dǎo)的。RDA委員會與RDA成員——選舉產(chǎn)生的技術(shù)咨詢委員會和組織成員與分支機(jī)構(gòu)密切合作,用以
鼓勵和支持重點(diǎn)工作組和更廣泛的興趣組。RDA由工作組、興趣組和合作組組成。工作組和興趣組是RDA的核心。工作組致力于在12~18個月的短期時間內(nèi)在多個機(jī)構(gòu)內(nèi)實(shí)現(xiàn)特定的工具、代碼、最好的實(shí)踐、標(biāo)準(zhǔn)等的實(shí)施;興趣組則具備更寬廣的范圍和更長的時間,他們工作的目的是確定常見問題及興趣,而這些工作最終導(dǎo)致更多的焦點(diǎn)工作組的創(chuàng)立。截止到2013年秋天,RDA形成了36個研討課題范圍更廣泛的興趣組和工作組。目前,工作組和興趣組的數(shù)量繼續(xù)高速增長。合作組包括RDA的主要管理和行政機(jī)構(gòu),負(fù)責(zé)聯(lián)盟日常管理,并為工作組和興趣組提供支持和鼓勵。
RDA的組織和運(yùn)作一直以來都是由美國、歐盟和澳大利亞的政府機(jī)構(gòu)組成的國際指導(dǎo)委員會指導(dǎo)。美國的參與是由美國國家科學(xué)基金會的RDA學(xué)術(shù)報告會發(fā)起的;歐盟的參與是通過歐洲委員會的資助;澳大利亞的參與是由于獲得澳大利亞政府通過澳大利亞國家數(shù)據(jù)服務(wù)中心的資助;其他還包括查爾姆斯理工大學(xué)、美國國家標(biāo)準(zhǔn)技術(shù)與研究所;微軟研究院對RDA的全體會議提供了額外的支持。
圖 RDA的組織機(jī)構(gòu)
數(shù)據(jù)團(tuán)體和國際機(jī)構(gòu)尋求加速研究創(chuàng)新以及數(shù)字化研究數(shù)據(jù)前所未有的增長使得數(shù)據(jù)基礎(chǔ)設(shè)施的開發(fā)成為可能是RDA出現(xiàn)最根本的原因。2011年和2012年,美國國家科學(xué)基金會、美國國家標(biāo)準(zhǔn)和技術(shù)委員會、歐洲委員會、澳大利亞政府以及許多其他機(jī)構(gòu)就加快世界范圍的研究數(shù)據(jù)共享和交流而建設(shè)更加有效的基礎(chǔ)設(shè)施進(jìn)行了多次磋商討論。這些討論以及日益增長的開發(fā)和協(xié)調(diào)全球研究數(shù)據(jù)基礎(chǔ)設(shè)施的需求,通過數(shù)據(jù)訪問及互操作性任務(wù)小組(DAITF)的探索和“數(shù)據(jù)網(wǎng)絡(luò)論壇”白皮書的總結(jié)加以揭示。許多機(jī)構(gòu)認(rèn)識到需要更寬泛的努力加快高?;A(chǔ)設(shè)施的開發(fā)和應(yīng)用,從而促使美、歐、澳的組織者們提出國際化開發(fā)研究數(shù)據(jù)聯(lián)盟的設(shè)想。研究數(shù)據(jù)聯(lián)盟可以實(shí)現(xiàn)和擴(kuò)展DAITF的設(shè)想和“數(shù)據(jù)網(wǎng)絡(luò)論壇”的概念;推動基礎(chǔ)設(shè)施的開發(fā)、應(yīng)用及使用,從而加快開放存取研究數(shù)據(jù)的全球共享和交流。2012年8月,RDA最初的組委會聚集到一起對這個新生的組織進(jìn)行了規(guī)劃和組織。
2012年至2013年,RDA巨大的群體興趣和增長遠(yuǎn)遠(yuǎn)超過了預(yù)期。2013年3月RDA在瑞典哥德堡舉行了第一次全體會議,有來自31個國家的240多人參加。2013年9月在華盛頓舉行第二次全體會議,有來自53個國家和地區(qū)的大約1300多人參加了RDA論壇。2014年3月在都柏林舉行第三次全體會議。
RDA的工作是由他的工作組和興趣組來執(zhí)行的。當(dāng)一個相關(guān)的團(tuán)體圍繞一個主題發(fā)展的時候就會形成一個群,而且這個主題具備良好定義的問題、共同的目標(biāo)、并有機(jī)會創(chuàng)造一個及時行動的框架。工作組和興趣組圍繞同一個主題及該主題的快速發(fā)展而協(xié)同開發(fā)。工作組根據(jù)書面的案例陳述提出一個新的問題范圍,然后研究數(shù)據(jù)聯(lián)盟與工作群密切合作,確保其成果可在12~18個月內(nèi)提交至框架,并確保該成果是可以操作實(shí)施的。興趣組則經(jīng)常召開會議,讓各個團(tuán)體圍繞工作群的短期目標(biāo)進(jìn)行時間分配。一年的時間里,工作組和興趣組的活動主要集中在:克服研究數(shù)據(jù)共享障礙、克服出版障礙、克服引用障礙和歸檔障礙以及開發(fā)必要的基礎(chǔ)設(shè)施來支持這些任務(wù)上面。為了促進(jìn)工作組和興趣組的成功運(yùn)轉(zhuǎn),技術(shù)咨詢委員會代表RDA團(tuán)體進(jìn)行工作。技術(shù)咨詢委員會是RDA的技術(shù)路線圖,負(fù)責(zé)發(fā)現(xiàn)和解決差距。短期(12~18個月)工作組聚集到一起解決下列問題:①為一個特定的但又真實(shí)存在的目標(biāo)社區(qū)創(chuàng)建能夠促進(jìn)數(shù)據(jù)共享和交流的基礎(chǔ)設(shè)施的具體部分;②在目標(biāo)社區(qū)內(nèi)應(yīng)用該基礎(chǔ)設(shè)施;③使用該基礎(chǔ)設(shè)施加快數(shù)據(jù)驅(qū)動創(chuàng)新。工作組的焦點(diǎn)在于其可交付成果的影響和可實(shí)施性。興趣組在主體范疇方面提供了論壇,使得工作組作為基礎(chǔ)設(shè)施的必需部分而獲得支持。
目前,RDA工作組和興趣組的活動可以分為以下五個方面,這五個方面僅僅是一直以來新的團(tuán)體不斷涌現(xiàn)、新的組織快速發(fā)展的快照。
(1)科學(xué)領(lǐng)域。參與RDA團(tuán)體的成員往往是圍繞
著某一科學(xué)領(lǐng)域,在相對狹窄的學(xué)科領(lǐng)域內(nèi),通過RDA克服技術(shù)障礙和社會障礙而實(shí)現(xiàn)數(shù)據(jù)共享。通過共享數(shù)據(jù)模型來實(shí)現(xiàn)這種共享。以生物學(xué)為例,共享詞匯或分類系統(tǒng),或就材料數(shù)據(jù)管理來說,實(shí)現(xiàn)跨境協(xié)議連接。目前,RDA科學(xué)領(lǐng)域的工作主要集中在四個方面:生物學(xué)、農(nóng)業(yè)、社會科學(xué)(尤其是數(shù)字化歷史和人種學(xué))、工程(尤其是材料科學(xué))。
(2)數(shù)據(jù)歸檔和出版。該領(lǐng)域目前有五個工作組處理面臨著把倉儲/檔案集作為擴(kuò)展數(shù)據(jù)集的關(guān)鍵性問題。這些小組普遍追求方法共享、工具共享,并著眼于降低運(yùn)營成本。具體活動包括最常見的通過數(shù)據(jù)生命周期表示數(shù)據(jù)源;對于正在認(rèn)證中的倉儲數(shù)據(jù)實(shí)現(xiàn)開放的、低成本高效益運(yùn)轉(zhuǎn)并且共享標(biāo)準(zhǔn);文獻(xiàn)計量;為長尾理論研究需求提供服務(wù);更好地管理數(shù)據(jù)出版費(fèi)用等。
(3)在科學(xué)研究和教育實(shí)踐活動中數(shù)據(jù)的共享和重復(fù)利用的需求。RDA中有部分固定的小組使用有針對性的方法來更好地捕捉研究數(shù)據(jù)用戶群體的需求,這些是通過配置文件以及通過有針對性的努力(如專注于發(fā)展中國家在云計算中的教育材料)來實(shí)現(xiàn)的。
(4)數(shù)據(jù)引用參考。當(dāng)目標(biāo)是研究數(shù)據(jù)的重復(fù)利用時,全球數(shù)據(jù)共享就遇到了諸多壁壘。該領(lǐng)域的三個小組對不同的壁壘進(jìn)行了調(diào)查研究。研究發(fā)現(xiàn),在某一出版物中引用的數(shù)據(jù),整體作為時間序列數(shù)據(jù)來說,可能是更大的一部分而且時間是模糊的,引用這類數(shù)據(jù)的子集部分應(yīng)當(dāng)對引用方式作出約定,RDA的一個小組正試圖對約定引用方式達(dá)成協(xié)議。目前,數(shù)字化數(shù)據(jù)客體被描述成多種語言,而RDA正在力圖用單一語言編碼來對數(shù)字化數(shù)據(jù)客體進(jìn)行闡述。最后,跨國界的數(shù)據(jù)共享遇到了諸多的法律壁壘,這也是RDA小組共同面臨的一個難題。
(5)基礎(chǔ)設(shè)施。RDA中有八個工作組和興趣組致力于基礎(chǔ)設(shè)施的研究方面。基礎(chǔ)設(shè)施被劃分成具體范疇和詳細(xì)范疇兩大類。前者的成果是通過服務(wù)水平驅(qū)動代碼予以演示,后者實(shí)際上是建設(shè)框架。目前,具體范疇的分類活動包括:①對于建立可互操作性的工具來說,參考數(shù)據(jù)模型和隨之而來的詞匯都是最基本的需求;②對倉儲管理共享可控政策,一旦通過了確認(rèn),可以簡化認(rèn)證并提高倉儲及檔案文件的透明度;③元數(shù)據(jù)標(biāo)準(zhǔn)目標(biāo)和數(shù)據(jù)類型注冊表合并在一起,有助于一旦發(fā)掘出數(shù)據(jù)目標(biāo),能夠迅速對其作出解釋說明。而大數(shù)據(jù)分析的精細(xì)組則建立了美國國家標(biāo)準(zhǔn)及技術(shù)研究所大數(shù)據(jù)工作組。聯(lián)合識別認(rèn)證管理正在尋求推進(jìn)國際聯(lián)合識別認(rèn)證。
(6)RDA的相關(guān)活動。下表列出了RDA成立一年來的五大類活動。
表3 RDA一年的活動
受到快速增長的激發(fā)后,RDA目前正致力于開發(fā)一個高效組織,這個組織能滿足并適應(yīng)RDA的任務(wù),并且作為一個支持模型至少可以覆蓋五年的時間,而這五年的時間對于組織來說是證明其影響力是否成功的關(guān)鍵時期。這一時期衡量組織是否成功的重點(diǎn)在于:①一個持續(xù)的、不斷擴(kuò)大的
數(shù)據(jù)基礎(chǔ)設(shè)施通道的開發(fā),通過社區(qū)的應(yīng)用和利用加速數(shù)據(jù)共享和交流;②隨著數(shù)據(jù)團(tuán)體對數(shù)據(jù)基礎(chǔ)設(shè)施的潛在影響越來越大,在整個數(shù)據(jù)團(tuán)體中,提高RDA作為“獨(dú)立空間”用于協(xié)調(diào)組織間、個人間及組織和個人間的合作的效能;③開發(fā)一種靈活的、精干的、高效的組織用以支持?jǐn)?shù)據(jù)團(tuán)體在全球及區(qū)域間的擴(kuò)展以及越來越多的合作?;谘芯繑?shù)據(jù)在科研中發(fā)揮的作用越來越大,而且不同機(jī)構(gòu)對于研究數(shù)據(jù)共享的需求也越來越強(qiáng)烈,國內(nèi)相關(guān)機(jī)構(gòu)和研究人員也應(yīng)該密切關(guān)注RDA組織的發(fā)展態(tài)勢,并爭取機(jī)會參與其中,以加強(qiáng)合作,實(shí)現(xiàn)國內(nèi)相關(guān)研究數(shù)據(jù)的共享。
[編譯文獻(xiàn)來源]
[1]http://dlib.org/dlib/january14/parsons/01parsons.html.
[2]http://dlib.org/dlib/january14/01guest_editorial.html.
[3]http://dlib.org/dlib/january14/plale/01plale.html.
[4]https://rd-alliance.org/.
[收稿日期]2014-04-29 責(zé)任編輯]邵晉蓉
[作者簡介]王艷翠(1973-),女,碩士,聊城大學(xué)圖書館副研究館員,已發(fā)文數(shù)篇;李書寧(1976-),男,博士,北京師范大學(xué)圖書館副研究館員;李愛紅(1970-),女,本科,聊城大學(xué)圖書館館員。
[文章編號]1005-8214(2015)01-0052-03
[文獻(xiàn)標(biāo)志碼]A
[中圖分類號]G250.73