●孫清玉 梁美宏 張友華
(河海大學 南京 210098)
科學數(shù)據(jù)是科研工作開展的重要基礎資源,也是科研人員的重要學術(shù)產(chǎn)物。有效管理科學數(shù)據(jù),可以在一定程度上降低科學研究的重復性成本,提高科研產(chǎn)出效益,推動科學進步,收獲更多生產(chǎn)力。目前,提供科學數(shù)據(jù)管理已成為高校圖書館的重要發(fā)展方向和服務趨勢之一。2017年《地平線報告:圖書館版》指出,隨著開放出版和數(shù)據(jù)收集的增加,圖書館在科學數(shù)據(jù)管理中的作用進一步鞏固[1]??茖W數(shù)據(jù)管理需要以數(shù)據(jù)存儲庫為平臺,實現(xiàn)數(shù)據(jù)的有效管理、公開共享、規(guī)范引用和出版?zhèn)鞑?。機構(gòu)知識庫作為重要的數(shù)據(jù)管理平臺,在數(shù)字資源存儲與管理方面有著重要作用[2]。許多高校、研究機構(gòu)已經(jīng)建設機構(gòu)知識庫用于本單位研究出版物的存儲,因此技術(shù)基礎設施可以在無須開發(fā)或購買全新軟件平臺的情況下進行功能擴展。在國家出臺一系列有關數(shù)據(jù)管理、數(shù)據(jù)共享的綱要和辦法的大環(huán)境下[3-4],機構(gòu)知識庫除了承擔成果存儲中心的功能外,也應成為科學數(shù)據(jù)管理中心。
2016年FORCE11 組織(The future of research communication and e-scholarship)正式提出在科學數(shù)據(jù)管理領域引入FAIR原則。同年,F(xiàn)AIR指導性原則正式稿發(fā)表在《科學數(shù)據(jù)》第3期上[5],F(xiàn)AIR原則包含可發(fā)現(xiàn)(Findable)、可訪問(Accessible)、可互操作(Interoperable)及可重用(Reusable)四項內(nèi)容,明確了科學數(shù)據(jù)管理的目標。河海大學圖書館基于機構(gòu)知識庫構(gòu)建科學數(shù)據(jù)管理平臺,在平臺架構(gòu)設計中實踐FAIR原則,具備采集、標引、分類、保存、檢索科學數(shù)據(jù)的組織功能,具備實現(xiàn)原始數(shù)據(jù)、中間數(shù)據(jù)、結(jié)果數(shù)據(jù)的利用和數(shù)據(jù)挖掘服務功能。
科學數(shù)據(jù)管理的具體內(nèi)容包括數(shù)據(jù)創(chuàng)建、數(shù)據(jù)存儲、數(shù)據(jù)檢索、數(shù)據(jù)安全、數(shù)據(jù)保存、數(shù)據(jù)共享和數(shù)據(jù)再利用等方面。
河海大學機構(gòu)知識庫是以本校學者公開產(chǎn)出的各種文獻數(shù)據(jù)為主構(gòu)建的集元數(shù)據(jù)采集、存儲、清洗、展示和自主維護于一體的數(shù)據(jù)管理平臺。目前存儲的資源主要包括已公開發(fā)表或已申請的學術(shù)論文、圖書著作、學位論文、會議文獻、專利等。此外,為突出機構(gòu)知識庫科研成果全面、數(shù)據(jù)類型豐富的特色,圖書館在機構(gòu)知識庫建設之初,就為平臺設置了廣泛的成果類型,除了上述已有的文獻類型外,還包括報紙、標準、研究報告、科學數(shù)據(jù)集、課件、教學視頻、系統(tǒng)軟件、演講稿、實驗報告、設計圖紙、工作文稿等,這些都為科學數(shù)據(jù)管理提供了基礎保障。
基于機構(gòu)知識庫構(gòu)建的科學數(shù)據(jù)管理平臺的目標是實現(xiàn)科學數(shù)據(jù)的開放、共享和引用,推動科學數(shù)據(jù)的長期保存與數(shù)據(jù)資產(chǎn)管理[6]。學者可以隨時向平臺添加相關數(shù)據(jù)及文獻,平臺可以為用戶提供檢索和瀏覽功能,并通過權(quán)限設置實現(xiàn)數(shù)據(jù)共享。
基于機構(gòu)知識庫構(gòu)建的科學數(shù)據(jù)管理平臺從邏輯框架結(jié)構(gòu)角度分為數(shù)據(jù)底層、管理層和服務層,如圖1所示。其中數(shù)據(jù)底層為科學數(shù)據(jù)資源池;管理層用于管理各種元數(shù)據(jù)及各級機構(gòu)、學者、科研成果的對照關系;服務層展示各種成果數(shù)據(jù),并提供數(shù)據(jù)分析及共享服務。
圖1 基于機構(gòu)知識庫的科學數(shù)據(jù)管理平臺
(1)科學數(shù)據(jù)提交及存儲模塊??茖W數(shù)據(jù)提交及存儲模塊基于底層數(shù)據(jù)而設計。FAIR原則中數(shù)據(jù)可發(fā)現(xiàn)(Findable)子原則意在指出科學數(shù)據(jù)共享的前提是數(shù)據(jù)能夠被用戶及時發(fā)現(xiàn),可發(fā)現(xiàn)原則為后續(xù)數(shù)據(jù)訪問、操作和重用提供了條件[7]??砂l(fā)現(xiàn)原則要求數(shù)據(jù)擁有一個唯一并且能永久存在的標識符(DOI),但是科學數(shù)據(jù)具有類型繁雜、量大且變化快、分布式異構(gòu)多源等特征,較難進行準確描述。元數(shù)據(jù)作為數(shù)據(jù)的數(shù)據(jù),可以有效地解決這一問題,能夠?qū)?shù)據(jù)資源的內(nèi)容、質(zhì)量、條件、特性等相關描述性信息進行充分描述。
科學數(shù)據(jù)管理平臺可依據(jù)元數(shù)據(jù)規(guī)則設置精準、完整、豐富的描述字段及字段內(nèi)容要求,包括數(shù)據(jù)產(chǎn)生背景、樣本描述、采集流程、質(zhì)量評估方法、使用規(guī)則等,從而規(guī)范數(shù)據(jù)生產(chǎn)者、發(fā)布者上傳數(shù)據(jù)資源的流程,避免科學數(shù)據(jù)因來源、格式等不同造成無序管理,無法利用。由于元數(shù)據(jù)的描述完整豐富且具有可擴展性,即使數(shù)據(jù)缺少唯一標識符,也可以在平臺中被著錄或標引,用戶可以通過瀏覽、檢索等方式方便地獲得平臺公開的數(shù)據(jù)資源。底層數(shù)據(jù)可存儲本??蒲腥藛T的實驗數(shù)據(jù)、調(diào)查數(shù)據(jù)、分析數(shù)據(jù)、測量數(shù)據(jù)、統(tǒng)計數(shù)據(jù)等數(shù)據(jù)資源,并可對科技成果、專利、論文等文獻的科學數(shù)據(jù)進行抽取和存儲。具體提交、存儲的流程為:科研人員通過平臺設定的元數(shù)據(jù)要求,建立新的數(shù)據(jù)項目,上傳數(shù)據(jù),或由平臺對科學數(shù)據(jù)進行抽取和存儲。數(shù)據(jù)上傳之后進入到數(shù)據(jù)池中;相關管理員訪問數(shù)據(jù)池,對上傳數(shù)據(jù)進行校核與審查。圖書館數(shù)據(jù)館員根據(jù)可讀性、完整性等原則檢查數(shù)據(jù)、元數(shù)據(jù)和文檔,最終實現(xiàn)科學數(shù)據(jù)的順利提交與有效存儲。
(2)科學數(shù)據(jù)訪問及檢索模塊。FAIR原則中數(shù)據(jù)的可訪問(Accessible)原則是指用戶可以通過檢索功能找到科學數(shù)據(jù)。對于科學數(shù)據(jù)管理服務平臺,數(shù)據(jù)的訪問和使用是最重要的目標之一,可確保數(shù)據(jù)無論位于何處,都能被查找和獲取??茖W數(shù)據(jù)訪問及檢索模塊提供簡單檢索、高級檢索、二次檢索等多種檢索方式,從而實現(xiàn)科學數(shù)據(jù)的可訪問(Accessible)。該模塊的檢索界面、結(jié)果展示等設置均基于文獻檢索系統(tǒng),檢索字段包括題名、作者、機構(gòu)、來源、出版日期、關鍵詞、摘要等,檢索結(jié)果以文本、表格、XML等形式展示。
科學數(shù)據(jù)類型多種多樣,而不同類型數(shù)據(jù)的格式不同,對應的檢索字段也不同。為滿足不同類型數(shù)據(jù)的存儲、檢索、展示與利用,基于機構(gòu)知識庫的科學數(shù)據(jù)管理平臺將每個元數(shù)據(jù)項作為獨立一行,并且不展示空元數(shù)據(jù)項。該方法能夠靈活便捷地展示復雜多樣的數(shù)據(jù)[8]。
基于機構(gòu)知識庫構(gòu)建的高校科學數(shù)據(jù)管理平臺制定了訪問數(shù)據(jù)資源的協(xié)議規(guī)則,包括訪問入口、身份驗證、訪問權(quán)限等方面。根據(jù)科學數(shù)據(jù)來源及內(nèi)容,可將訪問級別分為:管理員級別,這一級別的使用者為圖書館數(shù)據(jù)館員,對發(fā)布的數(shù)據(jù)有認領、審核、修訂、編輯等權(quán)限;數(shù)據(jù)擁有者或數(shù)據(jù)發(fā)布者級別,可以撤回、修訂、編輯數(shù)據(jù),可免費下載使用相關專業(yè)數(shù)據(jù);數(shù)據(jù)使用者級別,這一級別的用戶可以檢索、瀏覽數(shù)據(jù),但在下載數(shù)據(jù)時,需向管理員提交下載申請,經(jīng)審核通過后,用戶可下載獲得數(shù)據(jù)[9]。
(3)科學數(shù)據(jù)共享及分析模塊。FAIR原則中數(shù)據(jù)的可互操作(Interoperable)原則的總要求是通過使用標準定義、通用數(shù)據(jù)元素等描述數(shù)據(jù),實現(xiàn)數(shù)據(jù)間的互操作??芍赜?Reusable)原則指的是數(shù)據(jù)與數(shù)據(jù)集應有明確的使用許可,同時包含準確的數(shù)據(jù)源信息??茖W數(shù)據(jù)在具備互操作性的基礎上,可以實現(xiàn)不同類型數(shù)據(jù)的組織加工、分析處理、共享利用等功能??茖W數(shù)據(jù)的開放共享可以實現(xiàn)研究人員引用或重現(xiàn)實驗,有助于避免不必要的重復實驗操作,縮短研究周期,加快整個領域的研究進程。所以科學數(shù)據(jù)唯有通過充分而廣泛的共享,才能最大程度地發(fā)揮價值,實現(xiàn)整體增值,減少重復投入。
在科學數(shù)據(jù)共享管理中,數(shù)據(jù)發(fā)布者或數(shù)據(jù)管理員可以選擇項目組內(nèi)分享、二級單位內(nèi)分享、二級單位間分享、校內(nèi)分享及校外分享等,并可對分享的資源進行互操作,例如,評分、點贊、推薦等,系統(tǒng)可以根據(jù)全部歷史用戶的評價結(jié)果,對共享學術(shù)資源進行質(zhì)量評定并進行排名等操作[10]。
河海大學圖書館基于機構(gòu)知識庫構(gòu)建科學數(shù)據(jù)管理平臺,通過設置管理元數(shù)據(jù)、規(guī)范描述數(shù)據(jù)等過程,實現(xiàn)了科學數(shù)據(jù)的結(jié)構(gòu)化、流程化、數(shù)字化保存,能夠有效避免數(shù)據(jù)的丟失、無序等問題,確保數(shù)據(jù)準確、完整、可復用;基于數(shù)據(jù)的結(jié)構(gòu)化保存,設置相應的檢索字段與檢索瀏覽功能,實現(xiàn)了科學數(shù)據(jù)如同圖書、期刊、專利等結(jié)構(gòu)化數(shù)據(jù)一樣被檢索與發(fā)現(xiàn),從而得以有效利用,提高數(shù)據(jù)價值。同時,基于機構(gòu)知識庫的科學數(shù)據(jù)管理平臺通過集成DataCite,進一步促進數(shù)據(jù)被發(fā)現(xiàn)與被引用。
數(shù)據(jù)參考咨詢服務是針對用戶在遇到特定的數(shù)據(jù)管理相關問題時,圖書館所提供的決策支持、定制解決方案等人工服務,其目的是為用戶提供個性化的數(shù)據(jù)管理服務。例如,當用戶在科學數(shù)據(jù)管理平臺中提交上傳數(shù)據(jù)時,相關數(shù)據(jù)館員會及時收到該項操作的提示信息,此時數(shù)據(jù)館員可直接與用戶聯(lián)系,幫助其解決在上傳、發(fā)布、管理數(shù)據(jù)中遇到的問題,同時了解用戶及其研究團隊的相關研究,發(fā)掘與其開展進一步合作的機會,例如,可以合作開展數(shù)據(jù)密集型研究[11]。用戶也可通過平臺聯(lián)系到相關館員或?qū)<?,協(xié)助其解決在數(shù)據(jù)管理過程中所遇到的各種問題,還可以根據(jù)自身需求,提出定制化、個性化的數(shù)據(jù)管理支持服務。
河海大學圖書館將基于機構(gòu)知識庫構(gòu)建的科學數(shù)據(jù)管理平臺納入到參考咨詢服務框架中?;谠撈脚_,圖書館可為用戶提供館員咨詢、技術(shù)專家咨詢等多種咨詢渠道,以滿足其不同層面的科學數(shù)據(jù)需求。其中數(shù)據(jù)館員可以利用自身專業(yè)知識和業(yè)務技能幫助用戶有效檢索、發(fā)現(xiàn)、利用科學數(shù)據(jù)平臺中已有的數(shù)據(jù)資源及相關服務;技術(shù)專家可以為用戶提供科學數(shù)據(jù)平臺中關于數(shù)據(jù)訪問、元數(shù)據(jù)創(chuàng)建等方面的技術(shù)知識和相關技能。
基于已構(gòu)建的科學數(shù)據(jù)管理平臺,河海大學圖書館通過線上、線下的不同方式,為不同層面的對象定期開展數(shù)據(jù)素養(yǎng)培訓服務。培訓服務的具體課程有數(shù)據(jù)素養(yǎng)課程、數(shù)據(jù)管理課程、實踐操作課程等。
針對館員的數(shù)據(jù)素養(yǎng)培訓內(nèi)容主要包括以下兩個方面:一是提高館員的數(shù)據(jù)管理服務意識。館員作為科學數(shù)據(jù)管理平臺的管理者、服務者,需注重自身對于數(shù)據(jù)管理的內(nèi)在意識,積極主動了解用戶需求,并提供相關服務。二是強化館員的數(shù)據(jù)管理能力。館員應結(jié)合本學科專業(yè)知識,將本學科相關科學數(shù)據(jù)納入館藏、教學和咨詢工作,了解學科專業(yè)知識,不斷學習開展數(shù)據(jù)管理的先進技術(shù)、手段,創(chuàng)新服務內(nèi)容。
針對用戶的數(shù)據(jù)素養(yǎng)培訓內(nèi)容主要包括以下三個方面:第一,培養(yǎng)用戶,尤其是科研人員的數(shù)據(jù)管理意識,使其了解國家、相關機構(gòu)對于科學數(shù)據(jù)管理的政策要求,充分認識到科學數(shù)據(jù)對于學科發(fā)展、科研工作、履行義務等方面的重要性,同時提高其對于數(shù)據(jù)所有權(quán)、隱私權(quán)、知識產(chǎn)權(quán)的保護意識,以及數(shù)據(jù)開放獲取的共享意識。第二,提高用戶數(shù)據(jù)管理操作技能,包括科學數(shù)據(jù)的元數(shù)據(jù)描述方法、上傳要求、發(fā)現(xiàn)方法、檢索策略等方面的知識與技能,幫助用戶了解科學數(shù)據(jù)提交、獲取、使用、評價等方面的數(shù)據(jù)素養(yǎng)能力。第三,提高用戶數(shù)據(jù)管理能力,例如,通過一小時講座的形式開展數(shù)據(jù)分析、數(shù)據(jù)管理、數(shù)據(jù)可視化等各類型數(shù)據(jù)分析軟件的培訓課程,面向不同需求和不同層次的用戶開展針對性、個性化、持續(xù)性的數(shù)據(jù)素養(yǎng)講座、培訓,促進用戶更好地進行科研數(shù)據(jù)管理工作。
FAIR原則對于數(shù)據(jù)管理平臺規(guī)范數(shù)據(jù)管理流程具有重要意義。一方面,在圍繞科學數(shù)據(jù)的產(chǎn)生、管理和發(fā)布的各個環(huán)節(jié),明確各方的責任與義務,建立符合FAIR原則的規(guī)范、流程、評價標準,并不斷建設支撐這些管理措施實施的技術(shù)環(huán)境;另一方面,通過FAIR原則的實施,建設可重用的科學數(shù)據(jù),實現(xiàn)科學數(shù)據(jù)價值的最大化。
河海大學圖書館在FAIR原則指導下,基于機構(gòu)知識庫構(gòu)建科學數(shù)據(jù)管理平臺,基于都柏林元數(shù)據(jù)等標準收集、組織、存儲數(shù)據(jù),并在平臺中集成ORCID、DataCite 等數(shù)據(jù)共享工具,為河海大學科研人員提供了一個開展數(shù)據(jù)管理的專業(yè)平臺,該平臺不僅滿足用戶對科學數(shù)據(jù)的提交、發(fā)布、存儲和檢索等需求,同時還支持用戶進行在線合作研究。在協(xié)助河海大學科研人員申請項目、協(xié)作科研、開展數(shù)據(jù)管理等方面發(fā)揮了重要作用,并且已在用戶群體中產(chǎn)生了一定影響。
但是,基于機構(gòu)知識庫構(gòu)建的科學數(shù)據(jù)管理平臺在元數(shù)據(jù)支持、用戶體驗等方面尚存在一些問題,有待今后不斷改進完善。例如,平臺現(xiàn)有的元數(shù)據(jù)標準主要采用的是DCMI基礎元數(shù)據(jù),不足以支持影音、地圖等特殊類型的數(shù)據(jù)描述,后續(xù)可結(jié)合本機構(gòu)科學數(shù)據(jù)的具體特征、用戶需求等綜合情況進一步完善。