越來越多的學術機構將產出的科研數據存放在機構知識庫中。盡管科研數據機構知識庫可作為保存、共享科研數據的選擇,但所收集的數據資源僅來源于本機構,共享范圍僅限于機構內部??蒲袛祿芾砻媾R的挑戰(zhàn)與日俱增,任何學術機構均難以憑借自身有限的力量獨自應對。因此,由個體獨立的“機構知識庫孤島”逐漸走向協(xié)同一體的機構知識庫聯(lián)盟,是科研數據機構庫發(fā)展的必然趨勢,也是科研數據共享的內在要求??蒲袛祿Y源是機構科研數據知識庫聯(lián)盟存在與運行的基礎,也是聯(lián)盟各項工作的基本對象,系機構科研數據知識庫聯(lián)盟建設的最基本要素。其收集管理方式對于聯(lián)盟的組織管理形式具有實質性影響,因而從根本上決定著聯(lián)盟的建設模式。國內外機構知識庫聯(lián)盟主要采用集中采集管理(保存)資源與分布采集管理(保存)資源兩大方式[1-4]。機構科研數據知識庫聯(lián)盟就其本質而言是一種機構知識庫聯(lián)盟,因此在建設中可在對數據實施集中采集管理、分布采集管理的基礎上,構建相應的聯(lián)盟組織與管理機制,進而形成兩種聯(lián)盟建設模式——集中式建設模式與分布式建設模式。實踐中,芬蘭Doria等機構知識庫聯(lián)盟同時采用集中采集、分布采集加元數據收割這兩種資源收集方式[4]。由此可見,綜合集中式與分布式模式之長,形成融兩者特點于一體的聯(lián)盟建設模式也應可行,筆者將其稱為混合式建設模式。
由參與機構共建、共用一個集中式的機構知識庫是構建機構知識庫聯(lián)盟的途徑之一,其稱為共享型機構庫聯(lián)盟[5]。集中式建設模式是指多所學術機構組成一個聯(lián)合體,只建立一個科研數據平臺,各機構的內部成員將元數據與數據提交至該機構數據管理部門,再由其提交至該平臺;或直接將元數據與數據提交到該平臺,然后通過統(tǒng)一的用戶界面為成員機構和/或聯(lián)合體外部用戶提供服務,所構建的科研數據平臺實際上是聯(lián)合體的科研數據機構庫。從數據提交到數據開放使用的全過程,所有的數據管理與維護實行集中管理,每個聯(lián)盟成員遵循相同的數據開放獲取協(xié)議。聯(lián)盟設有中樞管理負責機構,由能力較強的成員主導聯(lián)盟構建和管理,其余成員安排聯(lián)絡人員,就自身的需求進行溝通,協(xié)調,保障科研數據平臺的統(tǒng)一管理與運行。模式架構見圖1。
圖1 集中式建設模式架構圖
1.2.1 優(yōu)勢
(1)各參與機構的成本低,避免重復性投入,易于產生數據管理與共享的規(guī)模效應。
(2)集中力量對提交的數據進行系統(tǒng)的篩選和組織、加工,協(xié)力解決數據管理與保存中的難題,從而提高數據資源建設與管理的質量。
(3)由于應用統(tǒng)一的技術標準,便于科研數據元數據的管理與開放乃至平臺與外部數據平臺的互操作,也有助于實現(xiàn)服務的標準化。
(4)對建設條件欠缺且無法獨立地保存科研數據的成員機構,通過實施該模式可以快速實現(xiàn)科研數據的有效管理與安全保存,并在共建過程中提升建設能力,最終有益于保障數據的長期再利用。
1.2.2 不足
(1)聯(lián)盟政策制定困難。為使聯(lián)盟政策盡可能兼顧各成員的利益,須高度依賴成員機構間的反復協(xié)調和聯(lián)盟管理中心的統(tǒng)籌規(guī)劃,但成員的特殊訴求仍不易滿足,統(tǒng)籌協(xié)調過多會降低管理效率。
(2)較難處理成員間的利益平衡。一方面聯(lián)盟只建立一個科研數據平臺,其或以某一核心機構徽標為標識,或以聯(lián)盟徽標為標識,不能展示各成員的身份;對外宣傳時無法詳加說明每個成員機構的貢獻與付出,因而使多數成員不易得到外界的認可與關注,缺少歸屬感,從而挫傷其積極性,最終可能削弱其提交數據的意愿。另一方面,當聯(lián)盟成員對聯(lián)盟所作貢獻與從中所得大不相稱,投入與回報差距較懸殊時,易引發(fā)聯(lián)盟行政管理層面的問題,誘發(fā)成員間的矛盾,甚至導致貢獻大的成員退出聯(lián)盟。
(3)聯(lián)盟數據平臺的使用與推廣有所受限。成員機構均沒有自己專屬的科研數據機構庫,而由于各成員內部的相關系統(tǒng)(如教師成果系統(tǒng)、實驗室管理系統(tǒng)、科研管理信息系統(tǒng))在接口、標準規(guī)范、協(xié)議、體系結構等方面存在差異,聯(lián)盟的科研數據平臺較難與這些系統(tǒng)進行有機集成,使科研數據平臺不易嵌入研究人員的日??蒲协h(huán)境中,從而對其使用和宣傳推廣造成不利影響。
(4)建立大規(guī)模的機構科研數據知識庫聯(lián)盟時存在較多困難。為保障海量數據的長期安全保存,并及時響應、處理來自各方的數據操作與服務請求,科研數據平臺必須具備優(yōu)異的效能。依托一個科研數據管理系統(tǒng)/平臺支撐聯(lián)盟的運行,即使在其建設和維護上予以大量投入,科研數據管理與保存的風險仍可能隨著時間的推移而不斷增大,用戶服務也將面臨巨大壓力。
(1)科研數據的總量較小或數據的增長速度較慢。集中式模式下,聯(lián)盟僅僅依靠一個數據管理共享系統(tǒng)/平臺擔負管理、保存所有成員的科研數據與提供各類服務的重任,對平臺的效能、可靠性要求很高。因此,若數據量過大或者數據持續(xù)激增,平臺在數據管理、存儲、檢索等方面的性能也必須隨之迅速提高。平臺如不能及時地更新升級,將很可能難堪重負。
(2)各成員機構之間具備良好的合作歷史或具有共同的隸屬關系。加入集中式聯(lián)盟往往意味著將數據資源托付給數據管理經驗豐富的機構代管,這顯然要求聯(lián)盟成員對彼此間的情況較為熟悉,且對代管機構具有較強的信任。還需要各成員在事關科研數據管理與共享的重大問題上保持一致,且成員間無明顯的利益沖突。因此,如果成員機構具有共同的隸屬關系或彼此間的交往與合作較密切,則更為適用該模式。
(3)成員機構遵循統(tǒng)一的標準協(xié)議。一方面,實行數據的集中采集、管理與存儲必然要求各成員依據一致的數據選擇標準、組織加工標準和統(tǒng)一的數據管理規(guī)程開展相應工作。另一方面,成員機構都通過同一個平臺/系統(tǒng)獲取科研數據,因而也必須遵循統(tǒng)一的數據開放使用協(xié)議才能保證各成員在共享、利用數據時享有平等的權利、義務,以維系聯(lián)盟內部關系的和諧。
(4)成員機構對科研數據共享持開放態(tài)度。采用集中式模式的聯(lián)盟對科研數據實施集中管控,或由少數實力較雄厚的成員代為履行數據保管職能,或另辟存儲空間,實行成員機構共管,因此參與成員愿意將數據置于外部空間保管。如成員機構大力支持科研數據共享,則往往并不過分在意數據存儲的位置(機構內或機構外)。所以成員機構對科研數據共享的態(tài)度積極與否也是聯(lián)盟是否選擇集中式建設模式的影響因素。
(5)數據的來源學科較單一,種類較少。當集中保管成員機構的所有科研數據時,原則上應依照統(tǒng)一的元數據標準進行描述。然而,科研數據的類型、格式極為繁多。尤其在自然科學領域,不同學科甚至同一學科內不同研究領域的數據的屬性都差異顯著,難以使用一種元數據標準進行描述。只有數據來自同一學科或若干鄰近學科,選用統(tǒng)一的元數據標準才較為可行。
從各成員的機構知識庫中收割數據,構建集成檢索平臺,使用戶經由統(tǒng)一檢索界面訪問和獲取資源是構建機構知識庫聯(lián)盟的另一策略。中國農業(yè)科學院機構知識庫采取的“集中揭示、分布部署”的“院-研究所”兩級建設模式即是上述策略的具體應用[6]。據此,機構科研數據知識庫聯(lián)盟的分布式建設模式是指成員機構根據共同的數據交互標準,分別建立物理空間獨立的科研數據機構庫,使數據資源呈離散式分布。同時在實現(xiàn)各機構庫中資源獨立搜索的基礎上,收割各庫中數據的元數據并匯集到一個元數據倉儲中或向其中分別導入元數據文檔,通過建立統(tǒng)一檢索平臺的方式為用戶提供聯(lián)盟中所有科研數據機構庫內資源的一站式檢索。該元數據倉儲實際上成為聯(lián)盟數據資源集成共享的紐帶。成員機構仍遵循統(tǒng)一的數據開放獲取協(xié)議(但某機構內部人員訪問、利用本機構科研數據機構庫時可能執(zhí)行與此不同的開放獲取協(xié)議)。聯(lián)盟的管理組織架構相對松散,可能不必設置中樞管理機構,僅訂立合作協(xié)議或章程。模式架構如圖2所示。
圖2 分布式建設模式架構圖
2.2.1 優(yōu)勢
(1)易于宣傳各成員及其科研數據機構庫。建立的多個科研數據機構庫構成科研數據資源節(jié)點網絡,一旦形成整體性的科研數據共享聲譽、品牌,個體科研數據機構庫便可展現(xiàn)出自身價值。借助網絡效應,在更高層次和更大范圍內幫助本機構提升學術形象和擴大影響。
(2)成員機構能較好地保持自主性。作為相對獨立的節(jié)點,成員機構在數據資源采集和組織加工方面所受的限制與約束較小,便于實現(xiàn)數據資源建設的連續(xù)性和特色性。各成員不僅參與聯(lián)盟開展的各項公共服務,還可以根據自身的戰(zhàn)略規(guī)劃和內部人員的數據管理需求開發(fā)和拓展本地化和個性化的功能、服務,從而提升聯(lián)盟服務的層次性和多樣性。
(3)利于深化和拓展成員間的合作。成員機構在建設的過程中都可能遇到有關機構庫管理政策框架、數據保存技術、數據管理與服務系統(tǒng)、知識產權保護等方面的相同或類似問題。通過聯(lián)盟的紐帶作用,各成員很容易建立和形成更多聚焦科研數據機構庫建設的社群,利于科研數據機構庫的推廣普及,同時也為成員間凝聚共識提供了條件,有利于促進整個聯(lián)盟的協(xié)同可持續(xù)發(fā)展。
(4)建設難度較低。OAI-PMH、OAI-ORE等開放互操作標準在包括科研數據平臺在內的數字化知識庫系統(tǒng)的開發(fā)中得到普遍應用,并已基本成為一種默認標準??茖W數據云,尤其是領域科學數據云的發(fā)展顯著優(yōu)化了分布式科研數據中心的資源存儲、聚合、檢索與共享。機構科研數據知識庫聯(lián)盟分布式建設模式實現(xiàn)的技術難度由此大大降低。
2.2.2 不足
(1)各成員選用的數據管理軟件/系統(tǒng)可能相異。該模式強調聯(lián)盟成員的高度自治性,并不強制其采用同一軟件,只是推薦使用某種軟件/系統(tǒng),或自主開發(fā)原型系統(tǒng)供成員選擇。這固然有助于使各成員較好地滿足自身的實際應用需求,但不利于主流科研數據管理系統(tǒng)工具的推廣應用,系統(tǒng)間的互操作也面臨挑戰(zhàn)。聯(lián)盟成員不便分享系統(tǒng)運行、維護、更新等方面的經驗或教訓,某個成員遇到有關系統(tǒng)開發(fā)與維護的疑難時也難以向其他成員尋求解決方案。
(2)使用的元數據標準可能不一致。該模式的實現(xiàn)建立在對各聯(lián)盟成員本地科研數據機構庫元數據的采集基礎之上,而各成員采用的數據管理軟件的不同以及對數據描述與組織的要求相異決定了各個機構庫應用的元數據標準也有所差別。這就需要專門設計元數據互操作解決方案,在統(tǒng)一跨庫檢索時完成元數據間的互操作,否則將會降低數據檢索的檢全率、檢準率。
(3)制定的政策不盡相同。每個成員自主管理本地數據機構庫,聯(lián)盟管理層或領導機構盡管可通過編制宏觀性的數據管理政策指南以明確成員機構政策的編制原則和基本框架,但并不統(tǒng)一規(guī)定各成員的數據管理共享政策與方式。這種彈性管理增加了成員在行動上保持一致的難度。例如,數據采集政策的區(qū)別可能導致不同機構庫中數據資源的種類有所差異,影響數據收集的完整性以及數據的整合效果。成員制定的數據加工處理或質量控制標準不同,也會使各機構庫中數據的質量參差不齊,削弱聯(lián)盟數據的整體質量。
(4)可能引發(fā)數據資源的重復建設。由于科研合作行為的普遍存在,多個機構、人員可能擁有同一科研數據(集)。由于各成員使用的元數據標準不同,多條元數據記錄可能指向同一數據對象,因此,分頭獨立建設科研數據機構庫時難以避免對數據資源的重復收集,且不易及時發(fā)現(xiàn)。由此不僅額外耗費建庫人員的時間和精力,還造成數據一站式檢索時的檢索結果的去重問題,增加了系統(tǒng)平臺的處理負擔,降低了檢索質量。
(1)聯(lián)盟成員的實力均較為雄厚。實施分布式建設模式的前提是所有成員都建有科研數據機構庫,且該模式下聯(lián)盟運行中主要依靠成員的自身力量負責各機構庫的長期管理和維護,這必然要求成員均具備相應的技術能力,并能為機構庫的建設提供穩(wěn)定充足的人力、物力和財力投入。
(2)聯(lián)盟成員的來源面廣。當聯(lián)盟成員來源較廣時(如成員中既有高校,又有科研院所和其他學術性組織),其在機構性質、科研活動特征等方面差異明顯。這種差異使不同機構中科研人員的科研數據管理與保存方式、習慣各具特點,對科研數據管理與服務的需求隨之多元化、個性化。為滿足這些需求,由各成員分頭建立科研數據機構庫,在向聯(lián)盟提交元數據或允許收割元數據以使外部用戶獲取、利用數據的同時,也專為該機構用戶提供一定的個性化定制服務較為合適。
(3)成員機構對科研數據共享的態(tài)度較謹慎。若研究機構相對謹慎地看待科研數據共享,往往顧慮數據的安全性,擔心自身的數據保存在本機構外部將容易丟失、毀壞,造成無可挽回的損失。因此更希望數據保存于該機構內。而一般情況下,采用分布式模式的聯(lián)盟的數據存儲空間均位于各機構的網絡防火墻以內,由各成員獨立監(jiān)管維護。
(4)數據來自多個學科,類型多樣。由于對科研數據實施分布式存儲,不同機構可以根據數據特征與自身需求,采用不同的分類編碼標準和元數據標準進行描述、組織。這就為聯(lián)盟管理和保存眾多學科、類型的研究數據奠定了基礎,更容易構建內容全面、綜合性強的機構科研數據知識庫聯(lián)盟。
從資源聚合方式看,兼具集中提交和元數據收割兩種方式的機構庫聯(lián)盟即為混合式機構庫聯(lián)盟。對機構科研數據知識庫聯(lián)盟,混合式模式是指在建設機構科研數據知識庫聯(lián)盟時,部分有條件的機構分別建立自己的科研數據機構庫,其余機構共建單個或多個科研數據倉儲,組成若干集中式機構科研數據知識庫聯(lián)盟;在此基礎上形成一個科研數據機構庫群,分別采集各機構庫/倉儲中數據的元數據并將之存儲到一個集中的元數據倉儲中,通過統(tǒng)一的科研數據檢索平臺查找聚合后的元數據,實現(xiàn)對所有成員機構數據資源的一站式檢索。采用混合式模式的機構科研數據知識庫聯(lián)盟在建設中同時采用了集中式模式與分布式模式。其管理與組織形式相對靈活多樣,既可實行集中式統(tǒng)籌管理,也可采取自愿協(xié)議式管理。模式架構如圖3所示。
圖3 混合式建設模式架構圖
混合式模式的最大優(yōu)點在于不同規(guī)模、能力水平的成員可以選擇適合自身狀況的模式,較好地滿足其科研數據管理與共享需求;也能在更大范圍內實現(xiàn)聯(lián)盟成員的資源共享,聯(lián)盟的包容性和可擴展性較好。已建成的科研數據機構庫也可得到保留,不致造成人、財、物等資源的不必要浪費。部分成員采用集中式模式共建共管科研數據機構庫,有利于在數據采集和管理、數據服務、數據平臺開發(fā)等領域積累協(xié)作經驗,為優(yōu)化聯(lián)盟整體的管理及服務提供借鑒。不足之處是集中式機構科研數據知識庫聯(lián)盟與各分布式科研數據機構庫所采用的政策、標準、規(guī)范與協(xié)議的差異增加了數據整合的難度。采用不同建設模式的聯(lián)盟成員間的管理與協(xié)調也面臨更多風險。當部分成員具備相應能力時,可能會單獨創(chuàng)建自己的科研數據機構庫而退出集中式聯(lián)盟,由此可能影響聯(lián)盟的穩(wěn)定運行,這一點尤為值得注意。
混合式模式可以在一定程度上兼顧不同規(guī)模的成員機構的需求。對于小型學術機構來說,加入已有的集中式機構科研數據知識庫聯(lián)盟能省去開發(fā)自身的科研數據管理系統(tǒng)和服務平臺的開銷,不失為節(jié)約數據管理成本的理想選擇,并可從中學習和汲取關于數據管理與服務的知識、經驗與技能。而對于大型學術機構而言,則可單獨創(chuàng)建本機構的科研數據共享平臺,形成科研數據資源節(jié)點,并與已有的集中式聯(lián)盟簽訂科研數據共享協(xié)議,允許聯(lián)盟對其科研數據的元數據進行采集收割。由此,可在滿足其內部人員的個性化數據資源與服務需求,激發(fā)自主創(chuàng)新能力,宣揚自身學術成果和實力的同時,積極探索不同情境下科研數據機構庫的最佳實施策略,推進科研數據機構庫建設的推廣普及。
建立較大范圍(如全國或跨國范圍)內的機構科研數據知識庫聯(lián)盟時,鑒于成員數量眾多、來源廣泛,在機構規(guī)模、研究領域、學術交流(數據共享)習慣及認知、科研數據資源現(xiàn)狀與管理能力等方面差異大,對聯(lián)盟的建設模式較難形成共識,如一部分成員已建立科研數據機構庫/平臺,宜選擇混合式模式。這樣可在尊重各成員的實情及意愿的基礎上,保留已有的科研數據機構庫/平臺,加快實現(xiàn)聯(lián)盟成員的數據資源共享。
在數字化科研與數據密集型研究范式興起的環(huán)境下,構建機構科研數據知識庫聯(lián)盟對促進科研數據管理與共享事業(yè)的意義無可置疑。通過對國外機構庫聯(lián)盟管理運行機制以及科研數據機構庫建設要素的分析,筆者認為機構科研數據知識庫聯(lián)盟的建設可實行集中式模式、分布式模式與混合式模式。三種模式各有優(yōu)勢和不足,分別適用于一定的環(huán)境??偨Y各模式的適用情境可知,成員擁有科研數據的現(xiàn)狀(數量、種類、分布)、思想觀念(對科研數據開放共享的看法)、科研數據管理基礎與能力、聯(lián)盟的參與規(guī)模是確定機構科研數據知識庫聯(lián)盟建設模式的主要考量因素。有意于組建此類聯(lián)盟的各類學術機構應在充分剖析、研判上述因素的基礎上,秉承協(xié)商一致的原則,審慎選擇符合實際的建設模式。