孟祥保?高冕
摘 要 數(shù)據(jù)資源建設(shè)是大數(shù)據(jù)時代圖書館信息資源建設(shè)的延伸和拓展。數(shù)據(jù)資源建設(shè)源于數(shù)值資源觀、特色資源觀和數(shù)據(jù)資源觀三種觀念,與傳統(tǒng)數(shù)字信息資源建設(shè)既有聯(lián)系也有區(qū)別。數(shù)據(jù)資源建設(shè)具有豐富圖書館學(xué)理論、提升圖書館核心競爭力、延伸學(xué)科服務(wù)范圍與深度、融入科研數(shù)據(jù)生態(tài)等價值。論文提出建立以需求為導(dǎo)向的數(shù)據(jù)資源建設(shè)模式,重點關(guān)注數(shù)據(jù)資源建設(shè)內(nèi)涵、發(fā)展政策、數(shù)據(jù)館員、數(shù)據(jù)資源使用與評價。
關(guān)鍵詞 數(shù)據(jù)資源建設(shè);數(shù)據(jù)館藏;數(shù)據(jù)采訪;數(shù)據(jù)素養(yǎng)
分類號 G253
DOI 10.16810/j.cnki.1672-514X.2023.05.008
Library Data Resources Construction: Connotation, Value and Approach
Meng Xiangbao, Gao Mian
Abstract Data resources construction is an extension and expansion of traditional information resource construction. Library data resources construction is derived from the three concepts of numerical resource view, characteristic resource view and data resource view. The content of data resources construction is related to and different from the construction of traditional digital resources. Data resources construction has the positive value of enriching the theory of library science, enhancing the core competitiveness of the library, extending the scope and depth of subject services, and integrating into the research data ecosystem. This paper proposes to establish a demand-oriented data resources construction model, focusing on the connotation of data resources construction, data collection development policies, data librarians, and data resource usage and evaluation.
Keywords Data resources construction. Data collection. Data acquisitions. Data literacy.
0 引言
數(shù)據(jù)資源既是國家戰(zhàn)略資源,也是科學(xué)研究的基石和保障,已經(jīng)逐步成為圖書館館藏資源體系的有機組成部分。比如,北京大學(xué)圖書館、加州大學(xué)伯克利分校圖書館已經(jīng)在數(shù)字資源導(dǎo)航中設(shè)置了“統(tǒng)計/研究數(shù)據(jù)”“統(tǒng)計與數(shù)值數(shù)據(jù)”等資源類型,表明數(shù)據(jù)資源的采購、組織、評價和使用開始得到學(xué)術(shù)圖書館的重視。2017年,美國俄亥俄州立大學(xué)圖書館開始探索數(shù)據(jù)采購項目,分析不同學(xué)科數(shù)據(jù)集的規(guī)模、格式、存儲方式、許可協(xié)議、可發(fā)現(xiàn)性和成本問題[1]。從學(xué)術(shù)角度而言,信息流動從期刊文章轉(zhuǎn)向數(shù)據(jù),對圖書館經(jīng)費預(yù)算、館藏采訪與評價、采購談判與許可協(xié)議帶來了深刻影響[2]。由此,圍繞“數(shù)據(jù)”所展開的信息資源建設(shè)實踐與理論研究,將不斷拓展“十四五”期間信息資源建設(shè)的研究邊界與研究內(nèi)容[3]。探索包括數(shù)據(jù)資源發(fā)展政策、采訪標準、使用評價等在內(nèi)的基本問題,將是未來一段時期內(nèi)圖書館信息資源建設(shè)的重要議題。
1 圖書館數(shù)據(jù)資源建設(shè)的觀念和內(nèi)涵
1.1 數(shù)據(jù)資源建設(shè)的三種觀念
圖書館數(shù)據(jù)資源建設(shè)觀念是一個逐步發(fā)展的過程,與科研支持服務(wù)、資源共享、技術(shù)發(fā)展緊密聯(lián)系。從目前可掌握的文獻來看,最早可追溯至1964年,菲利普·E·匡威提出建立行為科學(xué)數(shù)據(jù)存儲合作網(wǎng)絡(luò),為數(shù)據(jù)再利用提供服務(wù)[4]。1974年,美國加州大學(xué)伯克利分校霍華德·達爾比·懷特在其博士學(xué)位論中全面闡述了社會科學(xué)數(shù)據(jù)服務(wù)相關(guān)問題[5]。1988年,加州大學(xué)館員丹尼爾·C·曾較為詳細地梳理了高校圖書館數(shù)字數(shù)據(jù)館藏發(fā)展歷史及其相關(guān)問題[6]。2007年,楊從科借鑒信息資源管理和信息資源建設(shè)思想,界定了農(nóng)業(yè)科學(xué)數(shù)據(jù)資源建設(shè)的內(nèi)涵[7]。綜合現(xiàn)有文獻,數(shù)據(jù)資源建設(shè)觀念可分為數(shù)值資源觀、特色資源觀和數(shù)據(jù)資源觀三種。
(1)數(shù)值資源觀。側(cè)重數(shù)值型數(shù)據(jù)的采訪、組織與服務(wù)研究與實踐。1999年,美國康奈爾大學(xué)圖書館威廉·H·沃爾特斯較為系統(tǒng)地討論了數(shù)值數(shù)據(jù)資源識別、評價與選擇策略[8]。2001年,北美研究圖書館協(xié)會(Association of Research Libraries, ARL)的報告《數(shù)值數(shù)據(jù)產(chǎn)品與服務(wù)》調(diào)查了66個成員館的數(shù)值數(shù)據(jù)產(chǎn)品集合、機器可讀數(shù)據(jù)產(chǎn)品的可訪問性、人員配備、經(jīng)費預(yù)算、數(shù)字數(shù)據(jù)收集與服務(wù)的評價等基本情況[9],宏觀描述了北美研究型圖書館數(shù)值資源分布狀況。地理空間數(shù)據(jù)是數(shù)值數(shù)據(jù)館藏的典型,伊菲根尼亞·瓦爾達科斯塔和薩蘭托斯·卡皮達基較為全面系統(tǒng)調(diào)查了全球高校圖書館地理空間數(shù)據(jù)發(fā)展政策、技術(shù)基礎(chǔ)設(shè)施、地理信息系統(tǒng)(Geographic Information System, GIS)服務(wù)、遠程服務(wù)、用戶培訓(xùn)和開源軟件利用情況[10]。此外,相關(guān)實證還表明,圖書館所購買的數(shù)值型商業(yè)數(shù)據(jù)庫對會計、金融領(lǐng)域的科研人員尤為重要[11],證明了數(shù)值數(shù)據(jù)資源建設(shè)持續(xù)進行的必要性。
(2)特色資源觀。從特色資源建設(shè)角度論述數(shù)據(jù)資源的關(guān)鍵問題。蓋爾芬德將數(shù)據(jù)集視為灰色文獻的一種,并提出相應(yīng)的發(fā)展政策[12]。胡安-何塞·博特從特藏建設(shè)角度系統(tǒng)分析了數(shù)據(jù)集的分布與格式類型、兼容性,圖書館數(shù)字化數(shù)據(jù)的采訪、安全性、監(jiān)護、質(zhì)量審計、數(shù)據(jù)集獲取、權(quán)限管理與科研利用、互操作和可發(fā)現(xiàn)性、數(shù)字保存等一系列重要問題[13]。由此可見,特色資源觀是將數(shù)據(jù)資源視為特色館藏的有機組成部分,給予了數(shù)據(jù)資源重點關(guān)注,但是也存在對其價值認識深度不足、建設(shè)方法不完善等問題。
(3)數(shù)據(jù)資源觀。從文獻資源建設(shè)角度探討科研數(shù)據(jù)相關(guān)問題。2013年,在國際社會科學(xué)信息服務(wù)與技術(shù)聯(lián)合會(International Association for Social Science Information Service and Technology, IASSIST)上,黑利·穆尼較為系統(tǒng)介紹了數(shù)據(jù)館藏發(fā)展政策與模式[14]。2015年,凱倫·哈根布姆和米歇爾·海斯萊特通過問卷調(diào)查和深度訪談數(shù)據(jù)館員,總結(jié)出高校圖書館小數(shù)據(jù)收集與管理的三個關(guān)鍵問題:數(shù)據(jù)館藏發(fā)展、訪問和評估[15]。2010年,UIUCL開始數(shù)據(jù)集購買試點工作,由數(shù)字與空間數(shù)據(jù)館員負責(zé)。圖書館事先向全校師生征集數(shù)據(jù)購買申請計劃,申請人原則上每年不不超過5000美元,且需要解釋研究數(shù)據(jù)意義,并能夠在全校范圍內(nèi)使用。雖然申請人對該計劃反饋總體滿意,但是這一購買計劃需要建立在申請人較為熟悉數(shù)據(jù)基礎(chǔ)之上,并要求圖書館縮短采購時間、有針對性地進行用戶培訓(xùn)和多渠道營銷[16]。2019年,安妮塔·福斯特(Anita K.Foster)介紹了俄亥俄州立大學(xué)圖書館(Ohio State University Libraries,OSUL)數(shù)據(jù)集采購項目實施過程及其經(jīng)驗[1]。2007年,OSUL建立數(shù)據(jù)管理興趣小組,開展前期探索,并在2014年設(shè)立數(shù)據(jù)館員崗位,積極嘗試數(shù)據(jù)服務(wù)工作,實施了前期環(huán)境掃描與用戶需求調(diào)查。2017年,OSUL探索實施數(shù)據(jù)采購項目,由館藏發(fā)展專家和學(xué)科館員討論了校內(nèi)用戶數(shù)據(jù)購買申請,確定了13種擬購數(shù)據(jù)集,最終購買7種[1]。由此可見,數(shù)據(jù)資源建設(shè)有其自身的獨特性和價值性。
綜上所述,本文認為數(shù)據(jù)資源建設(shè)包括數(shù)值資源建設(shè),并與特色資源建設(shè)存在交集,具體如圖1所示。三者關(guān)系的相同點在于:無論是數(shù)值資源建設(shè),還是特色資源建設(shè),或者是數(shù)據(jù)資源建設(shè)觀,都把數(shù)據(jù)作為圖書館的重要資源,最終目的都是建立符合自身需求的數(shù)據(jù)館藏體系。三者關(guān)系的不同點在于:一是資源形態(tài)不同,數(shù)值型資源建設(shè)僅考慮到統(tǒng)計數(shù)據(jù)、GIS數(shù)據(jù)等數(shù)值型數(shù)據(jù),而數(shù)據(jù)資源建設(shè)和特色資源建設(shè)還包括文本、圖片、視頻等,資源范圍更為廣泛、類型更為復(fù)雜;二是建設(shè)方式不同,特色資源建設(shè)主要以“訪”為主,采用一般的文獻資源建設(shè)方式,而數(shù)值資源建設(shè)和數(shù)據(jù)資源建設(shè)主要是采購或者自建;三是建設(shè)重點不同,特色資源建設(shè)追求的是特色性,數(shù)值型資源建設(shè)和數(shù)據(jù)資源建設(shè)追求的是服務(wù)價值。
1.2 圖書館數(shù)據(jù)資源建設(shè)的主要內(nèi)涵
(1)數(shù)據(jù)資源建設(shè)的定義。數(shù)據(jù)資源是一類能夠反映人類世界活動的信息資源,具有復(fù)雜性、有用性、稀缺性、可重復(fù)性和動態(tài)性,還具有多種潛在的價值[17]?!墩憬?shù)字經(jīng)濟促進條例》將數(shù)據(jù)資源界定為“以電子化形式記錄和保存的具備原始性、可機器讀取、可供社會化再利用的數(shù)據(jù)集合,包括公共數(shù)據(jù)和非公共數(shù)據(jù)。”[18]
借鑒信息資源建設(shè)定義[19],本文將數(shù)據(jù)資源建設(shè)定義為:圖書館對各種來源、各種類型的數(shù)據(jù)進行選擇、采集、組織和保存等活動,使之形成可資利用的信息資源體系,從而為科研與教學(xué)、文化建設(shè)提供保障,促進學(xué)術(shù)交流。從這個定義出發(fā),數(shù)據(jù)資源建設(shè)內(nèi)涵包括三個方面。一是數(shù)據(jù)資源建設(shè)的起點是用戶需求,建設(shè)的目標仍然是保障科研、教學(xué)和文化建設(shè),滿足用戶不斷增長的數(shù)據(jù)資源采集、組織、保存、出版、共享、再利用、保密等各類需求。二是數(shù)據(jù)資源建設(shè)流程規(guī)范化,建設(shè)流程仍然符合文獻資源建設(shè),尤其是數(shù)字資源建設(shè)的基本流程,即選擇、采集、組織和保存等環(huán)節(jié),但存在部分差異。三是建設(shè)來源主要包括采購和機構(gòu)數(shù)據(jù)。采購的數(shù)據(jù)應(yīng)注重需求性和協(xié)調(diào)性,以滿足教學(xué)科研為主要原則,并注重與其他資源的匹配度。機構(gòu)數(shù)據(jù)應(yīng)注重特色性,重點收藏,例如中國人民大學(xué)的CGSS調(diào)查數(shù)據(jù),東南大學(xué)的全國道德國情調(diào)查數(shù)據(jù)。
(2)數(shù)據(jù)資源建設(shè)的影響因素。圖書館數(shù)據(jù)資源建設(shè)考慮因素主要包括范圍、相關(guān)性、質(zhì)量、成本、存儲要求、數(shù)據(jù)文檔、使用條款[20]。①范圍與相關(guān)性。數(shù)據(jù)集的普遍適用性、與學(xué)校的教學(xué)科研需要保持一致性、及時性,歷史數(shù)據(jù)的價值、地理范圍、數(shù)據(jù)集的未來價值性都是需要考慮的內(nèi)容。例如,UIUC圖書館數(shù)據(jù)集采購時候,在處理用戶數(shù)據(jù)采購需求時候,需要研究人員能夠清晰解釋數(shù)據(jù)的研究意義,從而幫助館員更為準確地判斷數(shù)據(jù)價值及購買決策[16]。②格式。數(shù)據(jù)應(yīng)考慮統(tǒng)計分析軟件的可讀性,如Excel、Stata、SPSS、SAS 和 ArcGIS,并以標準格式提供。例如,圖片是TIFF格式,運動圖像是MOV格式,結(jié)構(gòu)化數(shù)據(jù)是XML格式,文件采用PDF格式等。③質(zhì)量。綜合考慮數(shù)據(jù)本身和數(shù)據(jù)出版商,以保證數(shù)據(jù)的可靠性和長期訪問性。數(shù)據(jù)是最新的,不需要頻繁或者高成本更新。④成本??紤]所購買的數(shù)據(jù)集的使用人數(shù)、投入產(chǎn)出效益,條件允許的情況下可與其他單位共同購買。⑤存儲要求??紤]圖書館數(shù)據(jù)庫存儲功能,機密數(shù)據(jù)訪問所需要的特殊存儲和訪問要求。⑥數(shù)據(jù)文檔。數(shù)據(jù)集附有適當(dāng)?shù)奈臋n和相關(guān)元數(shù)據(jù)信息,編目容易程度及語種因素。⑦使用條款。所有教師和學(xué)生都可以訪問所購買的數(shù)據(jù)集,條款應(yīng)與圖書館購買的其它電子資源的條款一致,考慮合理使用和學(xué)者對數(shù)據(jù)衍生品的權(quán)利。
此外,還應(yīng)考慮學(xué)科領(lǐng)域數(shù)據(jù)的特殊性,例如在健康數(shù)據(jù)領(lǐng)域,有八種類型數(shù)據(jù)不應(yīng)該長期保存和公開,即:敏感或保密數(shù)據(jù),具有知識產(chǎn)權(quán)的數(shù)據(jù),不好的元數(shù)據(jù),測試、臨時或中間數(shù)據(jù),不良或垃圾數(shù)據(jù),由于各種原因而無法被他人使用的數(shù)據(jù),未使用且沒有明顯的文化或歷史價值的舊數(shù)據(jù)[21]。
例如,UCLA圖書館的數(shù)據(jù)資源采訪考慮的主要因素是:①數(shù)據(jù)具有重要的教育意義,并符合學(xué)??蒲?、教學(xué)需求;②數(shù)據(jù)是開源、許可或購買的;③訪問條款允許將數(shù)據(jù)提供給學(xué)校師生(包括臨時用戶);④可以通過圖書館目錄系統(tǒng)和發(fā)現(xiàn)系統(tǒng)來組織、描述和訪問數(shù)據(jù);⑤數(shù)據(jù)格式符合標準且適合保存;⑥數(shù)據(jù)必須是公共版本,不包含個人標識;⑦成本必須合理,充分體現(xiàn)資源價值。另外,數(shù)據(jù)還應(yīng)是最新的,不需頻繁購買更新,必須附有適當(dāng)?shù)臄?shù)據(jù)文檔[22]。
2 圖書館數(shù)據(jù)資源建設(shè)價值
2.1 豐富圖書館學(xué)理論
隨著科學(xué)數(shù)據(jù)管理領(lǐng)域的不斷發(fā)展,迫切需要相應(yīng)的理論來指導(dǎo)圖書館組織與管理數(shù)據(jù)資源。傳統(tǒng)上,圖書館信息資源建設(shè)理論體系主要由基礎(chǔ)理論、文獻信息資源建設(shè)、數(shù)字信息資源建設(shè)、信息資源共建共享構(gòu)成[19]。數(shù)據(jù)資源建設(shè)理論主要探討數(shù)據(jù)資源的類型、特征與來源,以及數(shù)據(jù)資源建設(shè)的內(nèi)涵、數(shù)據(jù)資源采選流程與方法、數(shù)據(jù)資源評價、數(shù)據(jù)資源組織方法、數(shù)據(jù)資源發(fā)展政策等基本理論問題,既與傳統(tǒng)信息資源建設(shè)一脈相承,也具有自身的時代性、特色性,從而推動信息資源建設(shè)理論進一步發(fā)展。
數(shù)據(jù)資源建設(shè)理論進一步拓展了圖書館學(xué)五定律在大數(shù)據(jù)時代的新內(nèi)涵。首先,數(shù)據(jù)資源建設(shè)的根本目的是為了滿足用戶的需求,這與“書是為了用的”相一致。其次,數(shù)據(jù)資源建設(shè)具有開放性,是保障用戶能夠平等獲取數(shù)據(jù)資源,維護用戶的數(shù)據(jù)權(quán)利,如FAIR原則,這與“每個讀者有其書”相一致。再者,圖書館的數(shù)據(jù)素養(yǎng)教育、精準化服務(wù)、智能化服務(wù)的目的是為人找“數(shù)”,為“數(shù)”找人,這與“每本書有其讀者”相一致。另外,圖書館提供數(shù)據(jù)索引、開放數(shù)據(jù)門戶,如科睿唯安的數(shù)據(jù)引文索引數(shù)據(jù)庫產(chǎn)品、DataCite的服務(wù)平臺,這與“節(jié)省讀者的時間”相一致。最后,數(shù)據(jù)資源本身就是一個數(shù)據(jù)生態(tài)系統(tǒng),圖書館系統(tǒng)是其中的一環(huán),這與“圖書館是一個生長著的有機體”相一致。
2.2 提升圖書館核心競爭力
數(shù)據(jù)資源建設(shè)是圖書館特色資源的一個體現(xiàn)。數(shù)字化時代,普通數(shù)字資源出現(xiàn)同質(zhì)化現(xiàn)象。機構(gòu)數(shù)據(jù)的組織與管理是自身特色發(fā)展的一個重要途徑,如愛丁堡大學(xué)數(shù)據(jù)圖書館建設(shè)項目內(nèi)容包括數(shù)據(jù)統(tǒng)計分析支持服務(wù)、在線數(shù)據(jù)管理培訓(xùn)項目MANTRA、愛丁堡數(shù)據(jù)審計框架、數(shù)據(jù)支持教學(xué)項目、英國數(shù)據(jù)信息專家委員會數(shù)據(jù)共享工程(DISC-UK DataShare),在數(shù)據(jù)資源建設(shè)、數(shù)據(jù)素養(yǎng)教育、數(shù)據(jù)共享工程、數(shù)據(jù)服務(wù)、數(shù)據(jù)管理方面全方位實施和推進,體現(xiàn)了獨特的發(fā)展特色。
“數(shù)據(jù)即服務(wù)”,數(shù)據(jù)組織、數(shù)據(jù)服務(wù)、數(shù)據(jù)政策、數(shù)據(jù)管理、數(shù)據(jù)館員等將全方位推動圖書館轉(zhuǎn)型[23]。數(shù)據(jù)資源建設(shè)要聚焦上述問題,在數(shù)據(jù)組織、數(shù)據(jù)分析、數(shù)據(jù)發(fā)現(xiàn)、數(shù)據(jù)引用、數(shù)據(jù)共享、數(shù)據(jù)評價等方面提升圖書館服務(wù)能力。數(shù)據(jù)發(fā)現(xiàn)服務(wù)也是圖書館新的社會職能,采集、組織、保存、傳播和共享數(shù)據(jù),能夠促進學(xué)術(shù)交流系統(tǒng)發(fā)展,保存人類數(shù)據(jù)文明成果和數(shù)字記憶。
2.3 延伸學(xué)科服務(wù)范圍與深度
隨著決策支持服務(wù)、情報服務(wù)的深入發(fā)展,ESI數(shù)據(jù)、Incites等數(shù)據(jù)資源及數(shù)據(jù)分析軟件的價值日益凸顯,數(shù)據(jù)已經(jīng)成為館藏資源的重要形態(tài)。隨著“雙一流”建設(shè)的深入推進,學(xué)科服務(wù)、決策支持服務(wù)、數(shù)據(jù)素養(yǎng)教育等不斷涌現(xiàn), 數(shù)據(jù)資源建設(shè)拓展了學(xué)科服務(wù)的范圍。例如,浙江大學(xué)圖書館利用ESI、Web of Science數(shù)據(jù)資源及數(shù)據(jù)分析工具,分析了全球科技發(fā)展態(tài)勢,揭示了學(xué)術(shù)增長點,為學(xué)校科研創(chuàng)新布局提供決策參考[24]。科學(xué)研究不斷走向大科學(xué)時代,數(shù)據(jù)驅(qū)動科學(xué)發(fā)現(xiàn)、科學(xué)數(shù)據(jù)共享成為研究范式。學(xué)科服務(wù)需要瞄準科學(xué)范式的變化,為科研人員提供數(shù)據(jù)資源、數(shù)據(jù)出版支持,數(shù)據(jù)管理計劃成為學(xué)科服務(wù)的新高地。
2.4 融入科研數(shù)據(jù)生態(tài)系統(tǒng)
科研數(shù)據(jù)生態(tài)系統(tǒng)是以多類型科研數(shù)據(jù)為核心,具有數(shù)據(jù)生命特征的動態(tài)、復(fù)雜的生態(tài)化系統(tǒng),包括各類型科研數(shù)據(jù),還包括與生命周期相關(guān)的環(huán)境、人員[25]。圖書館先后歷經(jīng)文獻資源建設(shè)、信息資源建設(shè)再到數(shù)據(jù)資源建設(shè),自身就是一個生態(tài)進化過程。在科研數(shù)據(jù)生態(tài)系統(tǒng)中,圖書館通過數(shù)據(jù)資源采訪、組織、評價及學(xué)科數(shù)據(jù)素養(yǎng)教育等,與科研人員建立緊密聯(lián)系。同時,圖書館還積極建立科研數(shù)據(jù)知識庫、開發(fā)數(shù)據(jù)管理工具、開展數(shù)據(jù)出版服務(wù)等,全面融入科研數(shù)據(jù)生態(tài)系統(tǒng)。例如,美國普渡大學(xué)圖書館先后建立了普渡大學(xué)科研知識庫(Purdue University Research Repository, PURR),本科生數(shù)據(jù)管理、數(shù)據(jù)共享和出版、數(shù)據(jù)科學(xué)、GIS數(shù)據(jù)、數(shù)據(jù)集存儲等Libguides,并開設(shè)《數(shù)據(jù)生命周期管理概論》《數(shù)據(jù)科學(xué)與社會:倫理、法律、社會問題》《地理信息系統(tǒng)概論》《信息和數(shù)據(jù)科學(xué)專題》等系列數(shù)據(jù)素養(yǎng)課程,在資源建設(shè)、課程開發(fā)、平臺建設(shè)等方面多維度融入學(xué)校數(shù)據(jù)科學(xué)教育生態(tài)[26]。
3 圖書館數(shù)據(jù)資源建設(shè)路徑
3.1 聚焦需求,凝練數(shù)據(jù)資源建設(shè)內(nèi)涵
數(shù)據(jù)資源建設(shè)首先需要明確數(shù)據(jù)資源的內(nèi)涵,聚焦用戶的科研和學(xué)習(xí)需求、機構(gòu)發(fā)展的決策數(shù)據(jù)需求、大型項目的數(shù)據(jù)支持需求等,建立用戶需求驅(qū)動和用戶生成的數(shù)據(jù)資源集,以及開放數(shù)據(jù)資源集。一是用戶需求驅(qū)動的數(shù)據(jù)資源建設(shè),要以滿足用戶數(shù)據(jù)資源利用為起點,采購國內(nèi)外數(shù)據(jù)集。數(shù)據(jù)密集型科研范式下,研究人員對數(shù)字數(shù)據(jù),尤其是一些大型調(diào)查項目數(shù)據(jù)的需求將會與日俱增,如澳大利亞數(shù)據(jù)檔案(Australian Data Archive)、聯(lián)合國糧農(nóng)組織的全球地理信息系統(tǒng)(FAO GeoNetwork)、中國國家統(tǒng)計局數(shù)據(jù)、中國資訊行搜數(shù)網(wǎng)。二是用戶生成驅(qū)動的數(shù)據(jù)資源建設(shè),要滿足本機構(gòu)數(shù)據(jù)保存的需求,起到機構(gòu)知識庫的作用。近些年,越來越多大學(xué)圖書館意識到機構(gòu)數(shù)據(jù)資源的價值,開始自建科研數(shù)據(jù)知識庫,如北京大學(xué)開放數(shù)據(jù)研究平臺、復(fù)旦大學(xué)社會科學(xué)數(shù)據(jù)平臺。三是開放數(shù)據(jù)資源建設(shè),要滿足用戶查找、定位和獲取全球范圍內(nèi)的開放數(shù)據(jù)知識庫、數(shù)據(jù)期刊、數(shù)據(jù)論文、數(shù)據(jù)集相關(guān)資源的需求。
3.2 瞄準需求,制定數(shù)據(jù)資源發(fā)展政策
部分高校圖書館制定了圖書館數(shù)據(jù)資源發(fā)展政策[19],明確和規(guī)范數(shù)據(jù)資源建設(shè)目標、范圍與流程。從調(diào)研結(jié)果來看,僅有少數(shù)的圖書館發(fā)布了要素完備、內(nèi)容充實的數(shù)據(jù)資源發(fā)展政策(詳見表1),主要體現(xiàn)在保持與館藏發(fā)展政策的一致性,遵循圖書館文獻資源建設(shè)的基本思路與方法之上。同時,還具備了數(shù)據(jù)資源的特殊性,表現(xiàn)在對資源類型、格式、存儲要求、讀取軟件、數(shù)據(jù)文檔等方面的規(guī)定。
數(shù)據(jù)資源發(fā)展政策也逐步進入研究視野。克里斯·艾克提出了數(shù)字科研數(shù)據(jù)集的選擇政策,并建立數(shù)據(jù)采訪決策流程[35]。帕特里克·弗洛倫斯探討了GIS數(shù)據(jù)館藏發(fā)展政策制訂,應(yīng)考慮圖書館既有的館藏發(fā)展政策、GIS用戶社區(qū)的需求、學(xué)校GIS服務(wù)及圖書館的基礎(chǔ)設(shè)施[36]。參照文獻資源發(fā)展政策的定義[37],本文將數(shù)據(jù)資源發(fā)展政策定義為:以書面形式系統(tǒng)確定圖書館數(shù)據(jù)資源發(fā)展政策及具體實施規(guī)范,實現(xiàn)數(shù)據(jù)資源與紙本資源、數(shù)字資源的有機銜接,實現(xiàn)科研數(shù)據(jù)的有效管理和最大效益。數(shù)據(jù)資源發(fā)展政策作為數(shù)據(jù)資源建設(shè)的指導(dǎo)性文件,具有規(guī)范和指引數(shù)據(jù)資源建設(shè)的作用,應(yīng)給予足夠的重視。
3.3 服務(wù)需求,培育數(shù)據(jù)資源建設(shè)團隊
數(shù)據(jù)資源建設(shè)需要專業(yè)化團隊運作,團隊一般由數(shù)據(jù)館員、學(xué)科館員、采訪館員、財務(wù)人員等組成。例如,馬里蘭大學(xué)圖書館采訪與數(shù)據(jù)服務(wù)組由組長、訂購/服務(wù)主管、技術(shù)支持人員、學(xué)科館員、付款與收款經(jīng)理、財務(wù)助理、學(xué)生助理等人員構(gòu)成[38]。訂單處理、商務(wù)談判和經(jīng)費管理等工作需要采訪館員實施,數(shù)據(jù)資源需求處理、數(shù)據(jù)資源評價等則需要學(xué)科館員或數(shù)據(jù)館員的專業(yè)知識與技能。例如,加州大學(xué)伯克利分校的數(shù)據(jù)科學(xué)不斷發(fā)展,對數(shù)據(jù)資源需求日益強烈,學(xué)科館員負責(zé)處理用戶數(shù)據(jù)資源采購需求[39]。此外,數(shù)據(jù)分析軟件、數(shù)據(jù)存儲還需要技術(shù)館員的參與。因此,圖書館既需要加強館員數(shù)據(jù)素養(yǎng)教育,讓館員熟悉科研數(shù)據(jù)資源的分布特征及相關(guān)屬性、數(shù)據(jù)統(tǒng)計分析軟件的性能和使用方法、數(shù)據(jù)管理的知識與技能,又需要優(yōu)化組織結(jié)構(gòu)、工作流程與方法,為數(shù)據(jù)資源建設(shè)提供組織保障。
3.4 立足需求,建立數(shù)據(jù)資源評價機制
數(shù)據(jù)資源的使用績效評估,一般可以從數(shù)據(jù)影響力、數(shù)據(jù)引用和數(shù)據(jù)使用三個方面進行定量分析。數(shù)據(jù)影響力主要是針對開放數(shù)據(jù)集,數(shù)據(jù)引用主要是事后評價方法,而資源采購決策由于存在時間延遲,因此數(shù)據(jù)使用統(tǒng)計分析要具有可操作性,合理收集機構(gòu)用戶瀏覽、下載和標注數(shù)據(jù)集的行為,以此作為評價數(shù)據(jù)資源的重要依據(jù)。2018年,《研究數(shù)據(jù)使用統(tǒng)計實施規(guī)范》(第1版)推出,遵循COUNTER第5版標準,從總數(shù)據(jù)集調(diào)查量、數(shù)據(jù)集調(diào)查量、總數(shù)據(jù)集請求量、數(shù)據(jù)集請求量四個方面規(guī)范了數(shù)據(jù)使用統(tǒng)計指標[40],具有數(shù)據(jù)統(tǒng)計的特殊性。此外,定性評價作為重要評價方法,在數(shù)據(jù)購買需求調(diào)查時要進行深度訪談。數(shù)據(jù)資源選擇評價時,也要綜合考慮數(shù)據(jù)集與教學(xué)科研的相關(guān)性、價值性、稀缺性、文檔層次性、配置性、脆弱性和經(jīng)濟可行性等因素[41]。
4 結(jié)語
數(shù)據(jù)資源建設(shè)是大數(shù)據(jù)時代圖書館信息資源建設(shè)的深化與拓展,也是圖書館核心功能在數(shù)智時代的體現(xiàn)。本文從信息資源建設(shè)角度初步探討了數(shù)據(jù)資源建設(shè)的內(nèi)涵、價值與實施建議,為圖書館發(fā)展提供有益的參考。對于數(shù)據(jù)資源建設(shè)與數(shù)據(jù)治理的互動、數(shù)據(jù)資源建設(shè)與科研數(shù)據(jù)管理協(xié)同、科研數(shù)據(jù)資源建設(shè)績效評價等方面還需要進一步討論。
參考文獻:
FOSTER A K, RINEHART A K, SPRINGS G E. Piloting the purchase of research data sets as collections: navigating the unknowns [J]. Portal: Libraries and the Academy, 2019, 19(2): 315-328.
DAVIS H M, VICKERY J N. Datasets, a shift in the currency of scholarly communication: implications for library collections and acquisitions [J]. Serials Review, 2007, 33(1): 26-32.
肖希明,石慶功,劉奕.信息資源建設(shè):“十三五”回望與“十四五”前瞻[J].圖書情報工作,2021,65(1):55-63.
CONVERSE P E. A network of data archives for the behavioral sciences [J]. Public Opinion Quarterly, 1964, 28(2): 273-286.
WHITE H D. Social science data sets: a study for librarians [D]. Berkeley:University of California,? 1974.
TSANG D C. Academic libraries and collection development of nonbibliographic machine-readable data files[J]. IASSIST Quarterly, 1988,12(3):26-29.
楊從科.中國農(nóng)業(yè)科學(xué)數(shù)據(jù)資源建設(shè)研究[D].北京:中國農(nóng)業(yè)科學(xué)院,2007:39.
WALTERS W H. Building and maintaining a numeric data collection [J]. Journal of Documentation,1999, 55(3): 271-287.
COOK M N, HERNANDEZ J J, NICHOLSON S. SPEC Kit 263: Numeric data products and services [M]. Washington D.C.: Association of Research Libraries, 2001.
VARDAKOSTA I, KAPIDAKIS S. Geospatial data collection policies, technology and open source in websites of academic libraries worldwide [J]. Journal of Academic Librarianship,2016,42(4):319-328.
REITER L. Commercial data in academic business research: a study on use and access [J]. Journal of Business & Finance Librarianship, 2020, 25(3-4): 244-260.
GELFAND J M. Academic libraries and collection development implications for grey literature [J]. Publishing Research Quarterly, 1997, 13(2): 15-23.
BOTé J-J. Dataset management as a special collection [J]. Collection Management, 2019,44(2-4):259-276.
MOONEY H. Strategies and models for data collection development [EB/OL]. [2021-07-22]. https://iassistdata.org/downloads/2013/2013_c2_mooney_etal.pdf.
HOGENBOOM K, HAYSLETT M. Pioneers in the wild west: managing data collections [J]. Portal: Libraries and the Academy, 2017, 17(2): 295-319.
SHEEHAN B, HOGENBOOM K. Assessing a patron-driven, library-funded data purchase program [J]. The Journal of Academic Librarianship, 2017, 43(1): 49-56.
楊善林,周開樂.大數(shù)據(jù)中的管理問題:基于大數(shù)據(jù)的資源觀[J].管理科學(xué)學(xué)報,2015(5):1-8.
浙江省人民代表大會常務(wù)委員會.浙江省數(shù)字經(jīng)濟促進條例[EB/OL].[2021-12-29].https://www.zjrd.gov.cn/dflf/fggg/202012/t20201224_90483.html.
肖希明.信息資源建設(shè):概念、內(nèi)容與體系[J].中國圖書館學(xué)報,2006(5):5-8.
YOUNG S. What to do about data: an overview of guidelines and policies for dataset collection development[EB/OL]. [2021-07-22]. https://doi.org/10.13028/9hk9-p212.
KUNG J Y C, CAMPBELL S. What not to keep: notall data have future research value [J]. Journal of the Canadian Health Libraries Association, 2016, 37(2): 53-57.
Principles of data acquisition [EB/OL]. [2021-08-11]. https://www.library.ucla.edu/about/collections/collection-development-initiatives/principles-data-acquisition.
楊國立,周鑫.“數(shù)據(jù)即服務(wù)”背景下圖書情報機構(gòu)科學(xué)數(shù)據(jù)服務(wù)的發(fā)展機遇[J].情報學(xué)報,2017,36(8):772-780.
浙江大學(xué).浙江大學(xué)發(fā)布《重大領(lǐng)域交叉前沿方向2021》報告[EB/OL].[2021-12-01].https://www.zju.edu.cn/2021/0916/c32862a2422047/pagem.htm.
豐佰恒,佟澤華,馮曉,等.科研大數(shù)據(jù)生態(tài)系統(tǒng):構(gòu)成要素及關(guān)聯(lián)關(guān)系[J].情報理論與實踐,2021,44(9): 14-22, 32.
楊習(xí)超,張煒.高校數(shù)據(jù)科學(xué)教育生態(tài)系統(tǒng)建構(gòu):以美國普渡大學(xué)為例[J].比較教育研究,2021,43(2): 98-104.
University of Virginia Library. Data collection development policy [EB/OL]. [2020-05-12]. https://www.library.virginia.edu/services/data-purchase-program/data-collection-development-policy/.
Brown University library. Social sciences data collection development policy [EB/OL]. [2021-05-12]. http://libguides.brown.edu/socscidata.
James Madison University Library. Data collection development policy [EB/OL]. [2021-05-12]. https://www.lib.jmu.edu/policies/data-collection-development/.
Michigan State University Library. Collection development policy statement: digital research data [EB/OL]. [2021-05-12]. https://libguides.lib.msu.edu/c.php?g=139267.
University of North Texas Library. Collection development policy for general collection research data [EB/OL]. [2021-05-12]. https://library.unt.edu/policies/general-collection-research-data/.
University of California, Santa Barbara. Collection development policy for social sciences data [EB/OL]. [2021-05-12]. https://www.library.ucsb.edu/collection-development/collection-development-policy-social-science-data.
Ontario Tech University. Data collection development guidelines [EB/OL]. [2021-05-12]. https://ontariotechu.ca/sites/library/about/library-policy/data-collection-development-guidelines.php.
Carleton College Library. Collection development policy for data and data-related products [EB/OL].[2021-05-12]. https://apps.carleton.edu/campus/library/assets/DataCollectionDevelopmentPolicy_2015.pdf.
EAKER C. Selection and appraisal of digital research datasets[M]// KELLAM L, THOMPSON K. Databrarianship: the academic data librarian in theory and practice . Chicago, Illinois: Association of College and Research Libraries,2016:245-258.
FLORANCE P. GIS Collection development within an academic library [J]. Library Trends 2006, 55(2): 222-235.
戴龍基.文獻資源發(fā)展政策研究[M].北京:北京大學(xué)出版社,2007:3.
CS acquisitions and data services [EB/OL]. [2021-10-01]. https://www.lib.umd.edu/binaries/content/assets/public/collections/acquisitionsanddataservices_orgchart_202006pdf.pdf.
Data acquisition and access program: UC Berkeley Library [EB/OL]. [2021-08-11]. https://guides.lib.berkeley.edu/data.
林偉明,葉蘭.研究數(shù)據(jù)使用統(tǒng)計新標準及其應(yīng)用案例研究[J].圖書情報工作,2019,63(16):32-42.
EAKER C. Selection and appraisal of digital research datasets[M]// KELLAM L, THOMPSON K. Databrarianship: the academic data librarian in theory and practice . Chicago, Illinois: Association of College and Research Libraries,2016:245-258.