許正鑫,王 齊
(揚州大學,江蘇 揚州 225009)
開放科學基于自由、開放、合作、平等、共享等理念,目的在于形成更加開放、高效、民主和透明的科學研究范式[1],推動知識的創(chuàng)造與傳播,在拓寬科學界交互融合,提升科研成果附加值等方面具有重要價值。在這種科學范式發(fā)生改變的背景下,各領(lǐng)域研究人員都面臨著許多數(shù)據(jù)管理的挑戰(zhàn)、難題和需求。國際圖聯(lián)在評論《UNESCO開放科學建議書》時認為,開放科學與圖書館發(fā)展密切相關(guān),能夠在很大程度上推動圖書館事業(yè)建設(shè)進程,同時圖書館也將對開放科學的推進產(chǎn)生積極效果[1]。
由于該背景下研究范式的轉(zhuǎn)變,高校圖書館科研數(shù)據(jù)的管理過程無可避免迎來了一定的沖擊和挑戰(zhàn),相關(guān)領(lǐng)域?qū)<颐鞔_提出對圖書館等機構(gòu)而言,提供優(yōu)質(zhì)高效的科研數(shù)據(jù)服務(wù)的同時必須遵守科學數(shù)據(jù)生命周期的規(guī)律。因此,高校圖書館必須積極開展館內(nèi)科研數(shù)據(jù)基于數(shù)據(jù)生命周期的管理模式的創(chuàng)新型探索,通過營造開放科學環(huán)境與氛圍,探索高??蒲袛?shù)據(jù)的最佳管理模式以確保高校圖書館科研數(shù)據(jù)管理在開放科學環(huán)境下也能有的放矢,助力開放科學環(huán)境下高校圖書館科研數(shù)據(jù)價值的高效實現(xiàn)。
數(shù)據(jù)的產(chǎn)生、組織、保存、發(fā)布以及再利用的過程為數(shù)據(jù)生命周期,而以科研過程為基礎(chǔ)進行管理數(shù)據(jù)的過程就是科研數(shù)據(jù)生命周期。對科研人員而言,最優(yōu)的數(shù)據(jù)管理模式就是以數(shù)據(jù)生命周期理論為指導思想,數(shù)據(jù)管理部門將對數(shù)據(jù)從產(chǎn)生、重組到發(fā)布的全生命過程進行全程把控,能夠最大限度地促成數(shù)據(jù)的循環(huán)再利用。由此可見,高校圖書館應(yīng)該基于科研數(shù)據(jù)的生命周期來完善其管理模式,以此增強科研人員與科研數(shù)據(jù)的黏性,促進高校圖書館科研數(shù)據(jù)生態(tài)體系的構(gòu)建。目前,國外很多高校圖書館在進行科研數(shù)據(jù)管理活動時,已經(jīng)開始引入科研數(shù)據(jù)生命周期理論以引領(lǐng)實踐。例如,哈佛大學圖書館為了鼓勵支持教學與學術(shù)研究,除了提供科學數(shù)據(jù)管理服務(wù)(RDM),還提供圍繞科研數(shù)據(jù)生命周期開展的科研數(shù)據(jù)管理服務(wù),如醫(yī)學院RDM服務(wù)、法學院實證RDM服務(wù)以及商學院商業(yè)案例RDM服務(wù)等。國內(nèi)外已有諸多高?;跀?shù)據(jù)增值的生命過程形成了具有自身特點的科研數(shù)據(jù)生命周期一般過程(見表1)。
表1 國內(nèi)外高校形成的科研數(shù)據(jù)生命周期一般過程
由上述國內(nèi)外重點高??蒲袛?shù)據(jù)管理過程可以發(fā)現(xiàn),雖然各個生命周期模型所適用的領(lǐng)域以及在操作上的細節(jié)有一定的區(qū)別,但都擁有數(shù)據(jù)的產(chǎn)生、組織、保存、發(fā)布以及再利用這些共同要素。本文通過總結(jié)各高校劃分的共性特征,主要將高??蒲袛?shù)據(jù)生命周期劃分為數(shù)據(jù)的產(chǎn)生與獲取、組織與描述、分析與加工、保存與歸檔、發(fā)布與共享以及再利用六個階段。
數(shù)據(jù)產(chǎn)生與獲取階段是指通過各種數(shù)據(jù)源,基于各種數(shù)據(jù)平臺、網(wǎng)站或文獻資源收集所需數(shù)據(jù)的過程。數(shù)據(jù)組織與描述階段需要對數(shù)據(jù)進行處理,如數(shù)據(jù)清洗和格式轉(zhuǎn)換等以獲得有用數(shù)據(jù),并選擇合適的元數(shù)據(jù)標準對收集的數(shù)據(jù)進行描述。數(shù)據(jù)分析與加工階段是通過可視化分析工具及軟件來開展數(shù)據(jù)分析,并且通過加工向特定對象提供個性化數(shù)據(jù),以滿足使用者多樣化利用需求。數(shù)據(jù)保存與歸檔階段主要通過形成完整的科學數(shù)據(jù)保存、備份與歸檔體系,構(gòu)建數(shù)據(jù)存儲平臺,來確??蒲袛?shù)據(jù)的有效備份和協(xié)同共享。數(shù)據(jù)發(fā)布與共享階段需要在獲得創(chuàng)作者同意且充分保護科研人員隱私信息及敏感數(shù)據(jù)、確保數(shù)據(jù)安全的基礎(chǔ)上,于期刊、數(shù)據(jù)平臺或存儲機構(gòu)公開和發(fā)表研究成果。數(shù)據(jù)再利用階段是指以原始研究數(shù)據(jù)基礎(chǔ)來解決新問題的研究過程,或者在解決原始問題的過程中使用新的數(shù)據(jù)分析方法[2]。
數(shù)據(jù)生態(tài)鏈的提出起源于信息生態(tài)鏈,依據(jù)信息生態(tài)鏈中對信息人的分類,可以將在科研數(shù)據(jù)生命周期各個階段承擔不同任務(wù)的對象大致分為數(shù)據(jù)生產(chǎn)者、數(shù)據(jù)傳遞者、數(shù)據(jù)使用者3類[2]。在高校圖書館科研數(shù)據(jù)生命周期中,數(shù)據(jù)生產(chǎn)者主要是指從事一線科學研究活動的科研人員,如各學科領(lǐng)域科研人員、高校師生等以及團隊及高校信息服務(wù)部門;數(shù)據(jù)傳遞者基本由科研人員、高校信息服務(wù)部門以及出版機構(gòu)承擔;數(shù)據(jù)使用者則多為科研人員、高校信息服務(wù)部門、校方領(lǐng)導決策機構(gòu)以及社會用戶(見表2)。
表2 高校科研數(shù)據(jù)生態(tài)鏈中不同任務(wù)對象的角色定位及其科研數(shù)據(jù)生命周期階段
在科研數(shù)據(jù)生命周期中,數(shù)據(jù)生產(chǎn)者既能夠生產(chǎn)數(shù)據(jù),同時也是數(shù)據(jù)的主要使用者,他們參與數(shù)據(jù)產(chǎn)生、處理、組織、保存以及發(fā)布的全部階段,貫穿于科研數(shù)據(jù)生命的全周期;對數(shù)據(jù)傳遞者而言,其主要工作是對科研數(shù)據(jù)的傳遞、儲存和管理,參與數(shù)據(jù)處理與描述、保存或歸檔以及數(shù)據(jù)的發(fā)布或共享階段;數(shù)據(jù)使用者主要是科研人員、高校信息服務(wù)部門、校方領(lǐng)導決策機構(gòu)以及社會用戶。
筆者以“高??蒲袛?shù)據(jù)管理”為檢索詞,對中國知網(wǎng)收錄的核心期刊進行篩選,共獲得結(jié)果124條。根據(jù)可視化分析可知,研究成果自2014年起呈波段上升狀,截至2021年12月已達22篇,其中,以圖書情報與數(shù)字圖書館、高等教育、新聞與傳媒三大領(lǐng)域?qū)W科分布為主。對這124條結(jié)果做關(guān)鍵詞的社區(qū)聚類圖可以發(fā)現(xiàn),科研數(shù)據(jù)管理與高校圖書館之間的聯(lián)系強度最高,并在開放科學參與高校圖書館建設(shè)以及數(shù)據(jù)生命周期參與高校圖書館科研數(shù)據(jù)管理過程方面已有研究成果(見圖1)。
就研究成果的具體內(nèi)容來看,目前,學界對“高??蒲袛?shù)據(jù)管理”領(lǐng)域的研究主要集中于開放科學環(huán)境中高校圖書館的作為、高校圖書館科研數(shù)據(jù)管理流程研究以及高校圖書館科研數(shù)據(jù)管理模式探究等。除了上述主題,還涉及包括數(shù)據(jù)治理及資源優(yōu)化配置研究等方面的數(shù)據(jù)質(zhì)量管控、管理工具應(yīng)用以及人才培養(yǎng)等研究。其中,在開放科學領(lǐng)域,任萍萍[3]、王舒波[4]研究開放科學視閾下高校圖書館科研數(shù)據(jù)治理路徑以及合理建議;張劭君[5]、張俊等[1]和劉敬儀等[6]分別針對開放科學背景下高校圖書館需要拓展的學科服務(wù)內(nèi)容,探索變革科學數(shù)據(jù)服務(wù)模式和合作機制。在高校圖書館科研數(shù)據(jù)管理流程研究中,李菲等[7]、周淑云等[8]和李錚[9]均以數(shù)據(jù)生命周期理論為基點,分別對高校圖書館科研智庫管理模式和數(shù)據(jù)監(jiān)護流程進行分析;魏悅等[10]和賈玉文等[11]則以實際調(diào)研為依據(jù),深入剖析國內(nèi)外高校的科研數(shù)據(jù)管理政策和資源整合情況。最后就管理模式的研究成果來看,有學者或從數(shù)據(jù)策展角度,或從多維數(shù)據(jù)融合角度,提出高校圖書館科研管理模式的構(gòu)建策略[12—14];也有學者基于國內(nèi)外高校圖書館科研數(shù)據(jù)管理模式實踐,通過總結(jié)現(xiàn)有經(jīng)驗提出面向研究數(shù)據(jù)管理的高校圖書館學科服務(wù)模式[15—17]。
綜上可知,雖然目前學界對于在開放科學環(huán)境中開展高校圖書館科研數(shù)據(jù)管理的研究已有涉及,但仍未將開放科學的內(nèi)核與高校圖書館科研數(shù)據(jù)全生命周期管理流程進行有效結(jié)合,尚未形成統(tǒng)一健全的科研數(shù)據(jù)生命階段劃分體系以及明確的科研數(shù)據(jù)系統(tǒng)管理模式,也未曾基于開放科學的核心要義,從數(shù)據(jù)生命周期視角對科研數(shù)據(jù)生命鏈的各參與主體進行深入闡述與剖析。在此背景下,本文嘗試基于數(shù)據(jù)生命周期視角,構(gòu)建一個明確任務(wù)對象、清晰劃分任務(wù)的高校圖書館科研數(shù)據(jù)生態(tài)鏈,并對每一鏈下相關(guān)任務(wù)對象所涉及的任務(wù)進行詳細闡述,構(gòu)建出開放科學視域下高校圖書館科研數(shù)據(jù)“多鏈交互”管理模式。
對高??蒲袛?shù)據(jù)進行收集與獲取是開展高校科學研究的第一步,也是促進科研創(chuàng)新的前提和保障,數(shù)據(jù)生產(chǎn)者、傳遞者與使用者必須統(tǒng)籌協(xié)調(diào),共同參與到該過程當中。具體來說,高校圖書館可以加強與研究性圖情機構(gòu)以及“智庫”“知識庫”等社會網(wǎng)絡(luò)企業(yè)力量的合作聯(lián)系,與數(shù)據(jù)利用的多元主體建立廣泛的科研數(shù)據(jù)獲取伙伴關(guān)系,同時加強與校內(nèi)其他相關(guān)服務(wù)部門的合作,建立起基于學科生態(tài)系統(tǒng)的學科聯(lián)絡(luò)以及協(xié)同支持的科研合作體系,從而為建立面向本校學者的數(shù)據(jù)階段型存儲庫做好數(shù)據(jù)積累與儲備。
數(shù)據(jù)處理與描述階段的主要參與者是數(shù)據(jù)生產(chǎn)者與數(shù)據(jù)傳遞者,在進行高??蒲袛?shù)據(jù)描述與處理時二者必須遵循統(tǒng)一的操作要求。數(shù)據(jù)生產(chǎn)者要在生產(chǎn)數(shù)據(jù)時保持與數(shù)據(jù)傳遞者的及時溝通與反饋,以此來確保數(shù)據(jù)描述的一致性。數(shù)據(jù)傳遞者如高校信息服務(wù)部門需要按照元數(shù)據(jù)標準處理數(shù)據(jù)生產(chǎn)者提供的數(shù)據(jù)或成果,同時向校內(nèi)科研人員及團隊明確元數(shù)據(jù)創(chuàng)建數(shù)據(jù)文檔的使用方法、數(shù)據(jù)文件格式的標準與命名規(guī)范以及如何基于數(shù)據(jù)間邏輯關(guān)系分類創(chuàng)建使用模板等數(shù)據(jù)處理操作。
數(shù)據(jù)分析與加工階段主要是通過數(shù)據(jù)生產(chǎn)者運用信息組織、語義分析與文本挖掘、資源語義互聯(lián)以及關(guān)聯(lián)數(shù)據(jù)等新興技術(shù)手段與識別方法,對數(shù)據(jù)使用者的學術(shù)專長進行用戶畫像,進而開展個性化學術(shù)文獻引文推薦的信息組織。作為數(shù)據(jù)使用者,高校信息服務(wù)部門在此階段也需要對科研論文的學術(shù)價值進行測量,形成以科學創(chuàng)造力、創(chuàng)新為導向的學術(shù)影響力評價模型,以及跨學科的創(chuàng)新型信息資源組織機制,以求促進復雜網(wǎng)絡(luò)視角下科學文獻的知識融合,充分實現(xiàn)高??鐚W科的知識共享與知識再利用。
高校圖書館進行科研數(shù)據(jù)管理的最終目標是實現(xiàn)高校的數(shù)據(jù)從業(yè)者、學科專家、服務(wù)及資源提供者之間的高度耦合,確保各學科研究數(shù)據(jù)可獲取性、可訪問性、可互操作性和可重用性,那么數(shù)據(jù)的保存與歸檔就相當重要。在這一階段中,作為數(shù)據(jù)生產(chǎn)者的高??蒲腥藛T及團隊等需要對數(shù)據(jù)進行前端控制,根據(jù)既定的保存策略及要求進行數(shù)據(jù)存儲,高校信息服務(wù)部門以及出版機構(gòu)等數(shù)據(jù)傳遞者需要為數(shù)據(jù)保存與歸檔提供格式規(guī)范與技術(shù)指導,并確保數(shù)據(jù)在傳遞過程中不被篡改或污染,同時還必須充分考慮到期刊或平臺的要求、數(shù)據(jù)文件格式、數(shù)據(jù)版權(quán)、數(shù)據(jù)的隱私和敏感性、共享方式等問題。而數(shù)據(jù)使用者則需要在使用過程中保證數(shù)據(jù)的完整與安全,以確保數(shù)據(jù)保存與歸檔格式的一致性與延續(xù)性。
對高校圖書館科研數(shù)據(jù)的發(fā)布與共享階段來說,只有基于群體參與視角,并以公眾獲得感為導向,鼓勵數(shù)據(jù)的生產(chǎn)者、傳遞者與使用者協(xié)同開展信息行為,才能實現(xiàn)高??蒲袛?shù)據(jù)的有效傳遞與利用。具體來說,科研人員及團隊作為主要的數(shù)據(jù)生產(chǎn)者必須獲得可擴展的研究數(shù)據(jù)服務(wù)和資源以及數(shù)字素養(yǎng)教育和培訓,同時定期與數(shù)據(jù)使用者開展雙向信息溝通與交流,確保數(shù)據(jù)使用者提供項目評估監(jiān)管以及指導等反饋途徑暢通,以便數(shù)據(jù)處理者能夠及時改進管理方法。高校信息部門等作為數(shù)據(jù)傳遞者則要為數(shù)據(jù)生產(chǎn)者提供數(shù)據(jù)發(fā)布與共享的技術(shù)指導與咨詢服務(wù),同時為數(shù)據(jù)使用者提供定期推送,以幫助使用者時刻了解科研數(shù)據(jù)管理最新消息。而對數(shù)據(jù)使用者來說,必須明確使用需求和目標對象,以此為數(shù)據(jù)的發(fā)布與共享提供精準的用戶導向。
開放科學的最終目標就是促進數(shù)據(jù)再利用,高校圖書館必須從數(shù)據(jù)監(jiān)管人員維度以及技術(shù)維度兩方面對這一階段進行科學管控。具體來說,數(shù)據(jù)生產(chǎn)者需要通過對數(shù)據(jù)生產(chǎn)過程進行嚴格的質(zhì)量管控,確保數(shù)據(jù)的可信性與可靠性,以提高高??蒲袛?shù)據(jù)二次使用的易用性;數(shù)據(jù)傳遞者如高校信息服務(wù)部門需要及時記錄描述信息以免數(shù)據(jù)丟失,并向數(shù)據(jù)使用者提供及時、便利的數(shù)據(jù)訪問,提高數(shù)據(jù)二次利用的可行性及效率;數(shù)據(jù)使用者必須積極主動發(fā)揮主觀能動性,根據(jù)要求及標準對數(shù)據(jù)進行深入挖掘。
此外,為建立一個完善的高校圖書館科研數(shù)據(jù)“多鏈交互”管理模式(見圖2),外部保障也必不可少。首先,要完善高??蒲袛?shù)據(jù)管理計劃,規(guī)范科研數(shù)據(jù)管理秩序。數(shù)據(jù)管理第一步是制訂數(shù)據(jù)管理計劃(DMP),有序管理科研項目數(shù)據(jù),滿足高??蒲袛?shù)據(jù)的管理與共享要求。其次,要明確規(guī)則制度,維護科研數(shù)據(jù)倫理。具體來說,高校圖書館要收集、評估不同需求和利益關(guān)系,提供科研數(shù)據(jù)管理服務(wù)和資源、相關(guān)法律政策、數(shù)據(jù)標準。最后,要加大技術(shù)投入確保科研數(shù)據(jù)安全。通過開發(fā)支持數(shù)據(jù)驅(qū)動研究的軟件工具,為科研數(shù)據(jù)管理服務(wù)實踐、數(shù)據(jù)長期獲取以及知識再利用等創(chuàng)造最佳的技術(shù)環(huán)境。
圖2 開放科學背景下高校圖書館科研數(shù)據(jù)“多鏈交互”管理模式
隨著開放科學的不斷發(fā)展,科學將更加具有合作性、可計算性和數(shù)據(jù)密集性,科研創(chuàng)新對于海量、系統(tǒng)、高可信度數(shù)據(jù)的依賴性將會提高。作為數(shù)據(jù)管理的重要基礎(chǔ)理論之一,數(shù)據(jù)生命周期理論十分重視科學數(shù)據(jù)管理流程中數(shù)據(jù)的可流動性和生命性。因此,高校圖書館作為開放科學的重要參與者,必須深度融入開放科學全過程,牢牢把握開放科學這一特殊時代背景,在面對各種不確定因素的沖擊時,立足于高校科研數(shù)據(jù)生命周期全過程,開展科研數(shù)據(jù)“多鏈交互”管理模式探索,以實現(xiàn)學術(shù)網(wǎng)絡(luò)視域下圖書館跨學科支撐與服務(wù)能力的提升,從而全面助力開放科學背景下高??鐚W科融合與協(xié)同創(chuàng)新。