李 翹
(天津商業(yè)大學(xué)圖書館,天津 300134)
隨著計算機(jī)技術(shù)的普及和網(wǎng)絡(luò)科技的興起,圖書館館藏文獻(xiàn)逐漸向數(shù)字化和信息化過渡,與此同時,借助互聯(lián)網(wǎng)平臺的優(yōu)勢,圖書館數(shù)據(jù)服務(wù)趨向“互聯(lián)網(wǎng)+”模式,數(shù)據(jù)的傳遞和共享突破了傳統(tǒng)館際或地域限制,開放數(shù)據(jù)的概念應(yīng)運(yùn)而生。就信息數(shù)據(jù)本身而言,圖書館的開放數(shù)據(jù)整合需要經(jīng)過數(shù)據(jù)收集與分類、數(shù)據(jù)挖掘與處理及數(shù)據(jù)檢索和咨詢服務(wù)等環(huán)節(jié),這些環(huán)節(jié)構(gòu)成了圖書館開放數(shù)據(jù)整合的全生命周期。隨著圖書館開放數(shù)據(jù)的不斷完善和豐富,圖書館不僅要保證數(shù)據(jù)內(nèi)容的專業(yè)化和多元化,還要保證數(shù)據(jù)整合的持續(xù)性和有效管理[1]。因此,基于全生命周期理論視閾下圖書館開放數(shù)據(jù)整合模式的研究,對于開放數(shù)據(jù)的數(shù)據(jù)層處理、技術(shù)層的共享創(chuàng)新及服務(wù)層的個性化推送具有深遠(yuǎn)的意義。
開放數(shù)據(jù)理念的出現(xiàn)拓展和延伸了圖書館的服務(wù)范圍,繼目前二次信息廣泛共享之后,開放數(shù)據(jù)是以信息文獻(xiàn)為代表的一次共享模式,被納入圖書館資源共享的范疇,數(shù)據(jù)開放整合與共享成為當(dāng)代圖書館發(fā)展的新方向[2]。在這樣的背景下,基于全生命周期理論的開放數(shù)據(jù)包括編目數(shù)據(jù)、科學(xué)數(shù)據(jù)、圖書館用戶數(shù)據(jù)和特色資源整合形成的數(shù)據(jù)等四個類型。
編目數(shù)據(jù)是指圖書館提供服務(wù)的核心數(shù)據(jù),也是開放數(shù)據(jù)構(gòu)成中最重要的一個類型。一般來說,圖書館的編目數(shù)據(jù)具有更新速度緩慢、生命周期較長等特點(diǎn)。編目數(shù)據(jù)從數(shù)據(jù)獲取到數(shù)據(jù)分類、數(shù)據(jù)挖掘環(huán)節(jié),在實(shí)踐過程中往往會出現(xiàn)數(shù)據(jù)資源無法共享,或同一書目在不同館內(nèi)被重復(fù)編目等情況[3]。因此,全生命周期理論視閾理論下圖書館對編目數(shù)據(jù)進(jìn)行整合,不僅可以有效避免重復(fù)勞動,還有利于提高館藏資源的利用率。
圖書館開放數(shù)據(jù)中的科學(xué)數(shù)據(jù)是指圖書館在參與科研活動的過程中形成的原始資料,如各類圖書活動的統(tǒng)計分析數(shù)據(jù)、調(diào)查數(shù)據(jù)和實(shí)驗數(shù)據(jù)等。我國公共圖書館從單一的文化資源交流中心功能定位不斷向創(chuàng)新型、科研型轉(zhuǎn)變,因此,越來越多的圖書館積極創(chuàng)新服務(wù)模式和服務(wù)內(nèi)容,為用戶提供科研服務(wù),進(jìn)而產(chǎn)生了大量的科學(xué)數(shù)據(jù)。如果這些科學(xué)數(shù)據(jù)沒有及時被保存和妥善處理,就會給圖書館的科學(xué)研究工作及用戶帶來嚴(yán)重的后果。全生命周期理論下的科學(xué)開放數(shù)據(jù)整合主要通過建立和提交數(shù)據(jù)存檔的方式,實(shí)現(xiàn)數(shù)據(jù)整合的完整流程,建立豐富的科學(xué)數(shù)據(jù)倉儲,推動圖書館功能定位的轉(zhuǎn)型[4]。
圖書館用戶數(shù)據(jù)是指用戶在使用圖書館主頁進(jìn)行注冊、登錄、檢索、咨詢的過程中產(chǎn)生的瀏覽痕跡,如數(shù)據(jù)資源和數(shù)據(jù)鏈接的查找痕跡。我國大多數(shù)圖書館都建立了自己的主頁和社交賬號,用戶只要登錄主頁,就可以進(jìn)行自助式操作。全生命周期理論視閾下圖書館可全面了解用戶的個人信息和閱讀偏好,將用戶使用圖書館的行為形成大數(shù)據(jù)庫,以便今后為其提供更具針對性的服務(wù),以及有效解決目前圖書館服務(wù)存在的采訪單一化和價值密度低等問題[5]。但是,由于圖書館用戶數(shù)據(jù)涉及用戶的隱私,圖書館在開放數(shù)據(jù)整合過程中應(yīng)注意保護(hù)讀者隱私。
由于地域和歷史的不同,圖書館往往館藏有大量特色資源,基于特色資源整合形成的數(shù)據(jù)是提高圖書館開放數(shù)據(jù)整合區(qū)分度的關(guān)鍵。如:2016年,上海圖書館計劃將館藏的17余萬種盛宣懷檔案資料進(jìn)行數(shù)據(jù)整理和加工,并利用互聯(lián)網(wǎng)為用戶提供數(shù)字人文服務(wù)[6]。圖書館可充分利用大數(shù)據(jù)挖掘技術(shù)及可視化等交互式數(shù)據(jù)處理技術(shù),實(shí)現(xiàn)數(shù)據(jù)的重組和開發(fā),清晰展現(xiàn)圖書館數(shù)據(jù)資源的優(yōu)勢。全生命周期理論視閾下圖書館構(gòu)建的特色開放數(shù)據(jù)庫不僅有利于滿足用戶的閱讀需求,還能進(jìn)一步推動個性化推送服務(wù)的完善。
圖書館開放數(shù)據(jù)的整合與構(gòu)建受多方面因素的制約和影響,全生命周期理論視閾下圖書館開展開放數(shù)據(jù)整合工作,對其基礎(chǔ)設(shè)施、軟件技術(shù)、工作人員等都提出了較高的要求,強(qiáng)調(diào)數(shù)據(jù)整合組織結(jié)構(gòu)的可靠性和完善性[7]。
全生命周期理論視閾下圖書館開放數(shù)據(jù)整合模式結(jié)構(gòu)中的數(shù)據(jù)層包括編目數(shù)據(jù)、科學(xué)數(shù)據(jù)、網(wǎng)頁數(shù)據(jù)、讀者用戶數(shù)據(jù)和特色數(shù)據(jù)等,在軟件系統(tǒng)和硬件設(shè)備的支持下,圖書館將這些數(shù)據(jù)整合到圖書館數(shù)據(jù)庫中,并與機(jī)構(gòu)外的數(shù)據(jù)系統(tǒng)進(jìn)行互聯(lián)。圖書館還可根據(jù)元數(shù)據(jù)、原始數(shù)據(jù)、推導(dǎo)數(shù)據(jù)等編目規(guī)則,對這些數(shù)據(jù)進(jìn)行分類整合,并利用數(shù)據(jù)挖掘和關(guān)聯(lián)技術(shù),深度挖掘開放數(shù)據(jù)的內(nèi)在聯(lián)系,將兩個或兩個以上類別開放數(shù)據(jù)產(chǎn)生的直接或潛在的信息推送給用戶,進(jìn)而提高其開放數(shù)據(jù)整合的精準(zhǔn)度和共享程度[8]。
全生命周期理論視閾下圖書館開放數(shù)據(jù)整合模式的技術(shù)層主要指對數(shù)據(jù)內(nèi)容的獲取、挖掘、歸類等操作。在數(shù)字化時代,數(shù)據(jù)信息繁多,圖書館只有規(guī)范有序地對它們進(jìn)行整合,才能發(fā)揮它們的實(shí)際作用。實(shí)際上,數(shù)據(jù)的高速緩存器是提高圖書館開放數(shù)據(jù)整合效率的關(guān)鍵。圖1是全生命周期理論應(yīng)用于圖書館開放數(shù)據(jù)整合技術(shù)層面的示意圖,從圖中可以看出,圖書館數(shù)據(jù)庫是對外共享的,當(dāng)圖書館收集開放數(shù)據(jù)時,應(yīng)對數(shù)據(jù)進(jìn)行初步的挖掘和檢索,尋找數(shù)據(jù)內(nèi)部的有效信息,形成數(shù)據(jù)間顯性或隱性的聯(lián)系。圖書館還應(yīng)對開放數(shù)據(jù)進(jìn)行標(biāo)注和分析,評價數(shù)據(jù)的價值,并對開放數(shù)據(jù)進(jìn)行歸檔和儲存。圖書館可利用Open API服務(wù)器和開放數(shù)據(jù)倉庫技術(shù),形成統(tǒng)一、開放的數(shù)據(jù)檢索平臺,以滿足讀者的檢索和閱讀需求[9]。
圖1 開放數(shù)據(jù)整合技術(shù)層面示意圖
圖書館開放數(shù)據(jù)整合的服務(wù)層是全生命周期理論的終端環(huán)節(jié),是數(shù)據(jù)從初始狀態(tài)轉(zhuǎn)變?yōu)槌墒鞝顟B(tài)的體現(xiàn)。圖書館建立開放的數(shù)據(jù)共享平臺,為用戶提供多元化的數(shù)據(jù)采集、編目、轉(zhuǎn)換、存儲和更新的生命周期服務(wù),這也是開放數(shù)據(jù)平臺進(jìn)行數(shù)據(jù)維護(hù)和替換的過程。圖書館會根據(jù)實(shí)際情況調(diào)整數(shù)據(jù)生命周期的長短,如:美國霍普金斯大學(xué)圖書館為了提高數(shù)據(jù)應(yīng)用的時效性和效率,為該校用戶提供20GB的數(shù)據(jù)儲存空間,針對個人用戶的數(shù)據(jù)清空生命周期為5年,圖書館數(shù)據(jù)庫的學(xué)科數(shù)據(jù)更新率則保證每年不低于3%[10]。目前,我國圖書館的開放數(shù)據(jù)服務(wù)主要集中在數(shù)據(jù)挖掘和數(shù)據(jù)關(guān)聯(lián)等方面,關(guān)于開放數(shù)據(jù)的傳輸服務(wù)、存儲年限等還沒有形成統(tǒng)一標(biāo)準(zhǔn),需要圖書館工作人員在實(shí)踐中不斷探索和完善。
目前,我國各級圖書館已經(jīng)逐漸意識到開放數(shù)據(jù)整合的重要性及全生命周期理論應(yīng)用的適用性,且開始在開放數(shù)據(jù)的整合過程中進(jìn)行實(shí)踐與創(chuàng)新。全生命周期理論為圖書館開放數(shù)據(jù)整合模式帶來了新的機(jī)遇和發(fā)展方向,可提高開放數(shù)據(jù)的利用率,促進(jìn)圖書館開放數(shù)據(jù)的功能轉(zhuǎn)型。
全生命周期理論強(qiáng)調(diào)技術(shù)交易過程的生動、完整和鮮活,在全生命周期的各個階段,所需要的配置和外界條件都是不盡相同的。全生命周期理論視閾下圖書館在進(jìn)行開放數(shù)據(jù)整合工作前,需要與相關(guān)組織和研究人員進(jìn)行協(xié)商,構(gòu)建科學(xué)的開放數(shù)據(jù)整合機(jī)制,制訂完整的開放數(shù)據(jù)整合計劃,只有在做好前期準(zhǔn)備工作的前提下,才能有條不紊地進(jìn)行開放數(shù)據(jù)整合工作。
圖書館是開放數(shù)據(jù)的管理機(jī)構(gòu),應(yīng)對其進(jìn)行有效管理。圖書館應(yīng)按照開放數(shù)據(jù)的整合計劃和標(biāo)準(zhǔn),利用相關(guān)技術(shù)對數(shù)據(jù)進(jìn)行組織和信息挖掘,完成相應(yīng)的開放數(shù)據(jù)信息挖掘與關(guān)聯(lián)環(huán)節(jié)。全生命周期理論視閾下圖書館還需要加強(qiáng)開放數(shù)據(jù)整合技術(shù)層的建設(shè),由館員根據(jù)開放數(shù)據(jù)整合的實(shí)際情況,制定開放數(shù)據(jù)的保存策略和倉庫建設(shè)標(biāo)準(zhǔn),以保證后期開放數(shù)據(jù)的有效儲存與共享[11]。
在數(shù)字化高度發(fā)達(dá)的時代,數(shù)據(jù)信息時刻處于動態(tài)的變化中,圖書館的開放數(shù)據(jù)整合工作不是一蹴而就的,而是要遵循全生命周期理論規(guī)律,緊跟信息時代發(fā)展的步伐,逐步完成開放數(shù)據(jù)整合的新陳代謝。目前,隨著我國技術(shù)水平的不斷提高,緩存器讀寫速率不再是限制開放數(shù)據(jù)整合的瓶頸,開放數(shù)據(jù)的保存措施也日趨完善,數(shù)據(jù)安全得到了保障。為了進(jìn)一步提高開放數(shù)據(jù)的再利用率,圖書館應(yīng)制定開放數(shù)據(jù)的長期保存規(guī)則,為開放數(shù)據(jù)的可持續(xù)發(fā)展奠定良好基礎(chǔ)。同時,圖書館還應(yīng)避免開放數(shù)據(jù)的重復(fù)整合,促進(jìn)開放數(shù)據(jù)的再次利用,不僅可節(jié)省人力、物力,還有助于新舊數(shù)據(jù)的銜接和信息關(guān)聯(lián)的深層次挖掘[12]。
在全生命周期理論中,一個階段工作的結(jié)束意味著下一個階段工作的開始,也為下一個階段工作積累了經(jīng)驗教訓(xùn)。每一個階段的數(shù)據(jù)是否準(zhǔn)確、數(shù)據(jù)信息挖掘是否完善都關(guān)系著開放數(shù)據(jù)整合的質(zhì)量,也影響科研活動的進(jìn)展,因此,圖書館應(yīng)對開放數(shù)據(jù)的整合過程進(jìn)行實(shí)時監(jiān)控。由于開放數(shù)據(jù)整合并不是靜態(tài)的,當(dāng)圖書館的開放數(shù)據(jù)庫每增加或減少一條數(shù)據(jù)信息時,相關(guān)的數(shù)據(jù)挖掘和數(shù)據(jù)關(guān)聯(lián)都會產(chǎn)生變化,這給館員及時準(zhǔn)確地評估數(shù)據(jù)參數(shù)帶來困難。因此,館員只有具備較高的數(shù)據(jù)素養(yǎng)和專業(yè)的管理知識,才能及時有效地解決問題。
圖書館的開放數(shù)據(jù)是在開放獲取運(yùn)動的實(shí)踐過程中應(yīng)運(yùn)而生的,開放數(shù)據(jù)是信息共享的新形式,也是圖書館文獻(xiàn)資源建設(shè)的新趨勢。因此,圖書館應(yīng)該抓住時代機(jī)遇,順應(yīng)開放數(shù)據(jù)整合和共享的趨勢,結(jié)合全生命周期理論創(chuàng)新變革服務(wù)模式,積極應(yīng)對來自多方面的困難和挑戰(zhàn)。