[摘 要]e-Research環(huán)境為圖書館科研數(shù)據(jù)服務提供了新的發(fā)展需求,圖書館應建立一套體系完整、靈活適配的科研數(shù)據(jù)選擇標準來支撐科研數(shù)據(jù)服務的開展。本文分析當前科研數(shù)據(jù)服務的需求特征,闡明科研數(shù)據(jù)選擇的必要性與基本原則,基于DAF框架搭建圖書館科研數(shù)據(jù)選擇的標準流程框架與科研數(shù)據(jù)的三級篩選標準,以期為圖書館的科研數(shù)據(jù)管理提供實踐參考。
[關鍵詞]e-Research;科研數(shù)據(jù);標準;圖書館
[中圖分類號]G251[文獻標志碼]A[文章編號]1005-6041(2023)01-0061-05
e-Research源于20世紀末的英國,其概念起源于e-Science,本質上是一種運用高階運算思維的科學研究的系統(tǒng)性方法[1]。英國基于網(wǎng)格技術創(chuàng)建了e-Research基礎架構,進而通過相關基礎設施的完善與技術應用,整合利用遍布全國的資源與計算能力,實現(xiàn)了資源共享與協(xié)同研究,為新時期科學研究的跨學科、泛融合變化帶來了新的發(fā)展契機。國外世界一流大學圖書館在科研數(shù)據(jù)的管理服務方面起步較早,并已逐漸形成系統(tǒng)化的科研數(shù)據(jù)管理模式與管理體系[2]。國外一些高校圖書館在數(shù)字科研環(huán)境下提供了數(shù)字學術空間、數(shù)字人文服務、科學數(shù)據(jù)服務、數(shù)字學術研討與培訓、數(shù)字科研工具等多元化的科研數(shù)據(jù)利用服務[3]。與國外相比,我國圖書館在科研數(shù)據(jù)服務上仍處于起步階段,只有北京大學、同濟大學等部分高校圖書館提供了相對具體的科研服務支持項目[4]。此外,通過對國內一些高校圖書館的科研數(shù)據(jù)開放利用服務進行的網(wǎng)絡調研結果表明,國內高校開放科研數(shù)據(jù)服務的政策制訂、服務內容、標準體系構建等方面還有待進一步完善[5]。因此,圖書館應充分發(fā)揮專業(yè)所長,搭建一套科學完整的科研數(shù)據(jù)選擇標準,推動科研數(shù)據(jù)的共享利用,從而為圖書館科研數(shù)據(jù)服務提供有效支撐。
1 e-Research環(huán)境對圖書館科研數(shù)據(jù)服務的新需求
1.1 泛在的科研協(xié)作支持
隨著學術領域以及工業(yè)研究領域的不斷發(fā)展,對跨學科、多協(xié)作、異空間的科學研究需求逐漸增加,并逐漸演變成新的科研模式。傳統(tǒng)的將所有科研數(shù)據(jù)與科研過程集中在同一空間、同一平臺的研究方法逐漸被跨界協(xié)作、異地溝通、共享交流的新協(xié)作科研模式所替代。與此同時,數(shù)據(jù)密集型科研范式使學者們越來越重視科研數(shù)據(jù)的利用,科研成果的產出也離不開科研數(shù)據(jù)的有效支撐[6]。在e-Research環(huán)境下,科研不再僅是單一領域的科研,也不再是單一空間維度的科研,科研協(xié)作已成為科研質量提升和科學知識增長的重要因素之一。通過網(wǎng)格計算、云計算、可視化技術的支持,科研數(shù)據(jù)可以實現(xiàn)跨空間流轉,為科研協(xié)作提供有效支撐。圖書館是信息資源的重要存儲基地,不僅擁有資源選擇、處理、整合、利用的豐富經驗,而且在資源服務方面也已成體系,因此更應抓住新科研環(huán)境下科研用戶群體的新需求方向,為其科研協(xié)作提供更靈活、泛在的研究支持。
1.2 綜合集成的科研數(shù)據(jù)支撐
信息技術的快速發(fā)展使海量科研數(shù)據(jù)的存儲與共享成為可能,特別是云存儲、云計算以及可視化技術的快速發(fā)展極大地提高了科研數(shù)據(jù)的可訪問性。新技術環(huán)境下,科研合作呈現(xiàn)出的一個關鍵特征便在于對海量數(shù)據(jù)集合、大規(guī)模計算資源以及個性定制化的高性能可視化需求的產生。e-Research作為一個新的科學研究范式,不僅可以適用于自然科學、社會科學以及人文科學的多領域科學合作與研究,而且能夠囊括科研過程的方方面面,涵蓋從科研數(shù)據(jù)搜集、數(shù)據(jù)整合與分析、數(shù)據(jù)可視化、數(shù)據(jù)共享等科研數(shù)據(jù)生命周期的全流程(見圖1)[7]。e-Research的出現(xiàn)為科研人員提供了一個更高效、集成的科研協(xié)作環(huán)境,使科研人員獲得更加綜合、集成的科研數(shù)據(jù)支撐服務成為可能。e-Research作為一種新技術環(huán)境下的科研范式,依托于基礎設施與相關技術應用,為科研工作者、高校、企業(yè)多方之間搭建一個綜合集成的數(shù)據(jù)樞紐與研究平臺,為科學研究提供數(shù)據(jù)資源向知識資源轉換的工具,有效促進科研數(shù)據(jù)的流轉利用的最大化,提高科研的整體效率與成果質量。
2 e-Research環(huán)境下圖書館科研數(shù)據(jù)選擇的必要性與原則
2.1 圖書館科研數(shù)據(jù)選擇的必要性
科研數(shù)據(jù)的共享利用可以促進科學研究質量與科研效率的提高,促進學科之間的知識轉移與數(shù)據(jù)流動,為跨學科的科研創(chuàng)新研究提供契機。實驗科學、計算科學、理論科學以及其他數(shù)據(jù)密集型科學會產生大量科研數(shù)據(jù),且數(shù)據(jù)類型、結構化程度以及冗余度各不相同,若不進行科研數(shù)據(jù)篩選與質量控制,將極大降低科研數(shù)據(jù)的可檢索性、可用性以及易用性。與此同時,隨著數(shù)據(jù)智能時代的到來,科研數(shù)據(jù)體量增長愈發(fā)快速,更需要建立一套完備的數(shù)據(jù)篩選標準保證歸檔科研數(shù)據(jù)的質量,控制科研數(shù)據(jù)的標準化、結構化,實現(xiàn)有價值的科研數(shù)據(jù)共享,從而真正推動科研工作的高質量、可承續(xù)發(fā)展。
2.2 圖書館科研數(shù)據(jù)選擇的基本原則
科研數(shù)據(jù)體量的快速增長已成為未來的必然趨勢。圖書館要想發(fā)揮科研數(shù)據(jù)“指揮官”的作用,就必須守住科研數(shù)據(jù)管理的第一道防線,做好科研數(shù)據(jù)篩選工作,這樣才能保證科研數(shù)據(jù)的存儲即價值,共享即可用??蒲袛?shù)據(jù)的篩選即是對科研數(shù)據(jù)的評估過程,必須要滿足系統(tǒng)性、科學性與客觀性的科研數(shù)據(jù)篩選原則[8]。
系統(tǒng)性原則要求在進行科研數(shù)據(jù)篩選時,需要綜合考察科研數(shù)據(jù)的所有權、科研數(shù)據(jù)的基本信息、共享利用的數(shù)據(jù)權限等,從而系統(tǒng)地了解科研數(shù)據(jù)的存儲價值與后續(xù)的可用性??茖W性原則要求在進行科研數(shù)據(jù)篩選時建立一套科學、完整的指標體系作為科研數(shù)據(jù)的篩選依據(jù),通過綜合指標對科研數(shù)據(jù)的價值進行科學評估,減少無用或者不可用的科研數(shù)據(jù)對存儲空間的浪費??陀^性原則是針對科研數(shù)據(jù)篩選評估人員的基本要求,科研數(shù)據(jù)篩選人員需如實按照科研數(shù)據(jù)的篩選標準進行選擇數(shù)據(jù)選擇,同時篩選人員需要具備一定的專業(yè)素養(yǎng),可以有效進行數(shù)據(jù)分類,以便后續(xù)的共享利用。
3 e-Research環(huán)境下圖書館科研數(shù)據(jù)的選擇標準
3.1 基于DAF的圖書館科研數(shù)據(jù)選擇的標準流程框架
在e-Research環(huán)境下,通過建立一套科學、系統(tǒng)的科研數(shù)據(jù)篩選標準可以為圖書館科研數(shù)據(jù)管理服務的初期階段提供指導性實施方案,保證后期科研數(shù)據(jù)的流轉暢通與可檢易用。英國在數(shù)據(jù)資產的管理應用方面具有完備的實踐經驗,提出數(shù)據(jù)審計框架(Data Audit Framework,DAF)用以幫助高校與學院對數(shù)據(jù)搜集、數(shù)據(jù)管理和保存的實踐流程進行審計評估。無論是理論方法層面還是實踐管理工具層面都已經形成一套具有示范與應用價值的標準體系框架[9]。因此,以英國數(shù)據(jù)資產評估框架為基礎,搭建圖書館科研數(shù)據(jù)篩選標準不僅嚴謹,而且能保障評估方法的科學性與可操作性?;贒AF框架的圖書館科研數(shù)據(jù)選擇標準能夠幫助圖書館明確科研數(shù)據(jù)的來源、責任人與管理平臺,幫助圖書館在受控環(huán)境下促進科研數(shù)據(jù)的共享與利用。
一般而言,高校圖書館的科研數(shù)據(jù)來源基本分為三個主要部分。一是高校內部科研數(shù)據(jù)集合,包括專家學者以及高校學生在內的科研工作者在科研活動中產生的科研數(shù)據(jù)、來源于教學課程中的科研數(shù)據(jù)以及大學圖書館/檔案館等存儲的科研數(shù)據(jù)等。二是外部來源科研數(shù)據(jù)集合,包括國際/國家水平的科研項目數(shù)據(jù)庫以及以學科為中心的科研數(shù)據(jù)中心。三是一些科研數(shù)據(jù)開放合作平臺,如維基百科等。為了保證圖書館科研數(shù)據(jù)的服務效果,需要從數(shù)據(jù)來源層面保證科研數(shù)據(jù)儲備健全完整,因此這三種數(shù)據(jù)來源都需要圖書館予以考量。
基于DAF的圖書館科研數(shù)據(jù)選擇的標準流程框架(見圖2)具體涵蓋四個階段。第一階段是科研數(shù)據(jù)篩選計劃的制訂。圖書館可以從科研數(shù)據(jù)主題、科研數(shù)據(jù)來源等多角度組織開展數(shù)據(jù)篩選工作,一般可以以高校的優(yōu)勢重點學科或數(shù)據(jù)密集型學科為依托進行主題與數(shù)據(jù)來源的確定??蒲袛?shù)據(jù)篩選工作需要專業(yè)人員對計劃篩選的數(shù)據(jù)集進行調研與預判,以保證數(shù)據(jù)篩選工作的可執(zhí)行性。第二階段是科研數(shù)據(jù)的篩選與分類。在獲得科研數(shù)據(jù)文檔后,圖書館數(shù)據(jù)選擇專業(yè)團隊通過半結構化訪談、問卷調查等形式獲取有關科研數(shù)據(jù)的基本信息,如數(shù)據(jù)類型、存儲空間、用于分析的軟件、數(shù)據(jù)價值、存儲要求等,進一步建立科研數(shù)據(jù)清單,根據(jù)科研數(shù)據(jù)的特點與使用價值等進行評估、分類。第三階段是科研數(shù)據(jù)的綜合評估??蒲袛?shù)據(jù)經過一次分類后,實現(xiàn)了對數(shù)據(jù)主題、數(shù)據(jù)使用價值的初步判斷,考慮到科研數(shù)據(jù)生命周期對科研數(shù)據(jù)復用價值的影像,對那些初判具有重要使用價值的科研數(shù)據(jù)可進行二次評估,并對數(shù)據(jù)賦予元數(shù)據(jù)標識,便于科研數(shù)據(jù)重用。第四階段是科研數(shù)據(jù)篩選報告的發(fā)布。報告不僅可以從宏觀角度揭示科研數(shù)據(jù)選擇的階段性成果,同時可為后續(xù)圖書館科研數(shù)據(jù)服務提供參考。
3.2 基于DAF的圖書館科研數(shù)據(jù)選擇標準
筆者基于DAF構建了圖書館科研數(shù)據(jù)的多級篩選標準(見圖3)。從科研數(shù)據(jù)重用角度出發(fā),根據(jù)科研數(shù)據(jù)的可用性、易用性與價值性,將科研數(shù)據(jù)篩選標準分為三級。在進行科研數(shù)據(jù)選擇之前,首先需要了解預選數(shù)據(jù)的基本情況??蒲袛?shù)據(jù)元數(shù)據(jù)是關于數(shù)據(jù)的數(shù)據(jù),可以實現(xiàn)對科研數(shù)據(jù)外顯結構、形式特征與內部屬性特征的最佳描述[10],同時也是評估科研數(shù)據(jù)的重要手段。DAF框架中關于數(shù)據(jù)管理的元數(shù)據(jù)集合為描述科研數(shù)據(jù)提供了重要參考。一般而言,描述科研數(shù)據(jù)的元數(shù)據(jù)可分為核心元數(shù)據(jù)集和可選的擴展元數(shù)據(jù)集。參考基于DAF的科研數(shù)據(jù)元數(shù)據(jù)的核心元素與字段說明(見表1)。該核心元數(shù)據(jù)集涵蓋了科研數(shù)據(jù)的描述、所有權、溯源以及后續(xù)的存儲與管理等信息,是對科研數(shù)據(jù)的多維度與通用性描述。對于高??蒲袛?shù)據(jù)服務而言,還需依托高校自身的學科建設重點方向進行科研數(shù)據(jù)領域元數(shù)據(jù)的元素擴展。例如,武漢大學目前已基于Dspace構建了科研數(shù)據(jù)平臺,并提出了領域元數(shù)據(jù)標準——蝎物種與毒素數(shù)據(jù)庫元數(shù)據(jù)標準[11]。
基于DAF的圖書館科研數(shù)據(jù)選擇標準為三級標準。其中,第三級標準適用于對科研數(shù)據(jù)的初次評估,圍繞科研數(shù)據(jù)是否可用,具體就數(shù)據(jù)的法律、倫理與商業(yè)問題以及數(shù)據(jù)主題和所有權問題進行科研數(shù)據(jù)評估。第二級標準適用于對科研數(shù)據(jù)的二次評估與分類,圍繞科研數(shù)據(jù)是否易用,考察數(shù)據(jù)的規(guī)模性與復雜性以及科研數(shù)據(jù)結構、數(shù)據(jù)格式、元數(shù)據(jù)完備性等指標。一級標準適用于對重要科研數(shù)據(jù)的綜合評估,主要圍繞科研數(shù)據(jù)的價值性進行考察,包括科研數(shù)據(jù)的使用價值以及該數(shù)據(jù)集與現(xiàn)存數(shù)據(jù)集之間的關聯(lián)價值,該指標可以為圖書館提供數(shù)據(jù)服務提供重要的參考,同時也是圖書館科研數(shù)據(jù)服務需要重點維護的數(shù)據(jù)集合。通過對預選科研數(shù)據(jù)的三層篩選,可以從重要性角度將科研數(shù)據(jù)分為至關重要、重要與次要三個層級。具體而言,至關重要的科研數(shù)據(jù)需滿足數(shù)據(jù)仍處于持續(xù)更新中;數(shù)據(jù)支持科研復制(如可進行再驗證);數(shù)據(jù)可在研究中發(fā)揮關鍵作用;或該數(shù)據(jù)具有商用價值,可向外部機構或合作團體提供支撐服務等。重要科研數(shù)據(jù)需滿足數(shù)據(jù)仍具有使用價值,但使用頻率相對較低;數(shù)據(jù)可支持研究,但已不再更新;數(shù)據(jù)或具備向外部機構提供支撐的潛在商用價值。次要科研數(shù)據(jù)包括那些可移交專業(yè)第三方機構代為保管的一般性科研數(shù)據(jù),此類科研數(shù)據(jù)或受限于數(shù)據(jù)特性或質量原因使用頻次更低,或是那些不受控的、無法獲取科研數(shù)據(jù)所有權的其他數(shù)據(jù)。科研數(shù)據(jù)的分級分類是多維度且緊密圍繞圖書館科研數(shù)據(jù)服務的,因此,科研數(shù)據(jù)的風險性與可靠性問題十分重要,并會直接影響圖書館后期科研數(shù)據(jù)的維護。
4 e-Research環(huán)境下圖書館科研數(shù)據(jù)的創(chuàng)新利用
4.1 e-Research環(huán)境下圖書館科研數(shù)據(jù)平臺的建設
科研服務平臺是圖書館提供科研數(shù)據(jù)服務的重要基礎設施,同時也是e-Research環(huán)境下,圖書館創(chuàng)新科研數(shù)據(jù)服務的重要抓手。隨著科研數(shù)字化進程的加快,科研人員對科研數(shù)據(jù)服務的要求日益提高,但當前高??蒲蟹盏钠脚_建設卻仍處于起步階段。通過對國內一些重點高校圖書館的科研服務平臺情況進行調研發(fā)現(xiàn),高校普遍具有良好的資源服務體系,但僅有北京大學、中山大學、同濟大學、復旦大學等少數(shù)高校具備獨立的科研數(shù)據(jù)平臺。例如,北京大學基于哈佛大學DataVerse架構開發(fā)的開放數(shù)據(jù)研究平臺,可以實現(xiàn)對科研數(shù)據(jù)的檢索、在線瀏覽、在線分析以及下載引用等功能,用戶可在該平臺創(chuàng)建自己的數(shù)據(jù)空間進行數(shù)據(jù)發(fā)布,并可以自由選擇是否公開分享數(shù)據(jù)。臺灣大學采用Dspace作為基礎架構建設了e-Research系統(tǒng),采用彈性化、分等級的數(shù)據(jù)存儲方法,此外還建立了科研數(shù)據(jù)導引方便檢索。
4.2 e-Research環(huán)境下圖書館科研數(shù)據(jù)的創(chuàng)新利用
目前,美國、英國以及澳大利亞等國家已在e-Research環(huán)境建設上取得了重要進展,依托其先進的科研數(shù)字化、信息化環(huán)境,成功實現(xiàn)了對廣域數(shù)據(jù)資源的整合利用以及跨學科、跨空間的大規(guī)??蒲袛?shù)據(jù)協(xié)同應用。牛津大學成立了e-Research研究中心,旨在促進全國甚至全球范圍內的跨學科研究工作。例如,“SKA平方公里矩陣”項目,憑借牛津大學e-Research研究中心支持的高性能計算以及數(shù)據(jù)處理技術實現(xiàn)了對超規(guī)模觀測數(shù)據(jù)的處理與計算分析,從而實現(xiàn)對宇宙星系變化的復雜物理過程的研究。澳大利亞昆士蘭大學研究計算中心依托其全國性的超規(guī)模計算能力與領先的研究設施,幫助科研人員實現(xiàn)了跨學科協(xié)作科研,同時提供各種計算基礎設施與數(shù)字研究工具,有效促進了本校多學科的協(xié)同發(fā)展。
5 結 語
隨著跨學科研究的不斷發(fā)展,科學研究對科研數(shù)據(jù)的多元、融合、可獲取、易檢索、可利用的要求也日益提高。e-Research代表著創(chuàng)新科研模式的發(fā)展,同時也是應對數(shù)據(jù)密集型科研、跨學科與跨空間的協(xié)同科研發(fā)展趨勢的必然選擇。因此,做好科研數(shù)據(jù)的有效選擇與合理保存是促進科研數(shù)據(jù)高效共享、提高科研數(shù)據(jù)利用價值的前提與必要保證。但目前國內高校圖書館對于獨立的e-Research系統(tǒng)平臺建設仍未普及,在科研數(shù)據(jù)的選擇標準上也仍未達成統(tǒng)一共識。因此,需要圖書館承擔起科研數(shù)據(jù)選擇標準的建設任務,這也將對高??蒲蟹崭镄聨碇匾绊憽?/p>
[參考文獻]
[1]章惠娟,高林杰.高校圖書館科研數(shù)據(jù)管理服務體系研究[J].河南圖書館學刊,2022,42(8):62-65.
[2]安源,冷雪卓,王楊.e-Research環(huán)境下的高校圖書館科研數(shù)據(jù)管理服務探究[J].河北科技圖苑,2021,34(2):49-55.
[3]胥文彬.國外高校圖書館數(shù)字學術服務調查分析[J].情報雜志,2021,40(6):187-192,186.
[4]司莉,曾粵亮.世界一流高校圖書館科研支持服務調查與分析[J].圖書情報工作,2018,62(8):30-41.
[5]曹筱涵.開放數(shù)據(jù)環(huán)境下高校圖書館科研數(shù)據(jù)服務模式構建[D].上海:華東師范大學,2022.
[6]黃鑫,鄧仲華.國外高校圖書館科學數(shù)據(jù)的元數(shù)據(jù)服務研究[J].圖書與情報,2017(2):84-90.
[7]GUPTA S,MLLER-BIRN C.A Study of e-Research and Its Relation with Research Data Life Cycle:A Literature Perspective[J].Benchmarking,2018,25(6):1656-1680.
[8]李孟秋.論科學數(shù)據(jù)管理對數(shù)字科研檔案管理的啟示[J].浙江檔案,2022(6):31-35.
[9]陸穎,胡佳琪,史繼強,等.面向科研數(shù)據(jù)管理的高校圖書館學科服務研究[J].圖書館工作與研究,2021(3):41-48.
[10]DAFD Final Report[R/OL].[2022-10-21].http:∥www.data-audit.eu/docs/DAFDfinalreport.pdf.
[11]趙華,王健.國內外科學數(shù)據(jù)元數(shù)據(jù)標準及內容分析[J].情報探索,2015(2):21-24,30.
[收稿日期]2022-11-06
[作者簡介]陳 長(1978—),男,本科,館員,佛山市南海區(qū)圖書館。