西安石油大學 李 緋
運用大數(shù)據(jù)構(gòu)建數(shù)字圖書館
西安石油大學 李 緋
信息化社會正迎來大數(shù)據(jù)時代,文章在簡要探析大數(shù)據(jù)技術(shù)及數(shù)字圖書館內(nèi)涵與關(guān)系的基礎(chǔ)上,提出了運用大數(shù)據(jù)構(gòu)建數(shù)字圖書館的思路與舉措,以期實現(xiàn)數(shù)字圖書館更好地為用戶服務(wù)的目標。
大數(shù)據(jù);數(shù)字圖書館;數(shù)字資源建設(shè)
大數(shù)據(jù)對于推動泛在信息社會進步意義重大,其帶給圖書情報學領(lǐng)域的變革更是引人矚目,運用大數(shù)據(jù)構(gòu)建數(shù)字圖書館,將使得圖書館工作由表及里翻開新的篇章。
1.1 大數(shù)據(jù)技術(shù)
大數(shù)據(jù)即巨量數(shù)據(jù)集合,是指需要新處理模式才能具有更強的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力來適應(yīng)海量、高增長率和多樣化的信息資產(chǎn)。(1)目前的軟件工具無法在一定時間內(nèi)處理整合為有效利用的巨量信息群。
大數(shù)據(jù)具有“5V+1C”的特性:數(shù)量巨大(Volume)、更新高速(Velocity)、種類多樣(Variety)、價值密度低(Value)、真實準確(Veracity),以及處理繁復(fù)。
大數(shù)據(jù)技術(shù)的戰(zhàn)略意義不僅止于對浩瀚數(shù)據(jù)信息的掌握,更在于對海量信息數(shù)據(jù)進行專業(yè)化的挖掘,以提高處理數(shù)據(jù)的能力,使龐大的海量數(shù)據(jù)經(jīng)技術(shù)處理后實現(xiàn)“增值”。大數(shù)據(jù)技術(shù)將促進信息技術(shù)的應(yīng)用與信息產(chǎn)業(yè)的進步,最終推動科技革命進而提高核心競爭力。
1.2 數(shù)字圖書館
數(shù)字圖書館是傳統(tǒng)圖書館在信息時代的變革與延伸,是全新的科學技術(shù)。數(shù)字圖書館是使用數(shù)字技術(shù)處理存儲各類信息的數(shù)字化管理系統(tǒng),是傳統(tǒng)圖書館的虛擬化(2)。
數(shù)字圖書館具有超大規(guī)模信息儲量、分布式、使用便利性、無時空限制、遠程傳遞性、跨庫無縫鏈接、智能檢索等特點。基于數(shù)字圖書館的特點,任何用戶在任何時間、地點,利用任何網(wǎng)絡(luò)、技術(shù)與圖書館服務(wù),可獲取任何資源與任何服務(wù)。收藏文獻信息是數(shù)字圖書館的基本屬性,提供服務(wù)則是數(shù)字圖書館的社會職能。
當前的信息環(huán)境中數(shù)據(jù)分為結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化三類數(shù)據(jù),以數(shù)據(jù)庫、文本、音頻、視頻等非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)為主,二者占數(shù)據(jù)總量近90%。并且數(shù)據(jù)總量在持續(xù)增長中,規(guī)模龐大至以TB,甚至PB級計量。據(jù)相關(guān)資料統(tǒng)計,每天新建首頁導(dǎo)航需提供的數(shù)據(jù)超過1.5億PB,而迄今為止人類全部的印刷型資料數(shù)據(jù)量僅為200PB[3]。數(shù)字圖書館涉及的大數(shù)據(jù)類型繁多,包括圖書館館藏、館員等基本情況數(shù)據(jù),書目、數(shù)據(jù)庫等館藏數(shù)據(jù),讀者基本情況數(shù)據(jù),此三類數(shù)據(jù)屬結(jié)構(gòu)化數(shù)據(jù),另外,還有大量涉及文獻信息建立、使用、提供服務(wù)的半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),是數(shù)字圖書館進行數(shù)據(jù)挖掘管理的重點。數(shù)字圖書館需要收集和使用這些數(shù)量龐大且不斷增長的數(shù)據(jù),利用大數(shù)據(jù)技術(shù)數(shù)字圖書館可以有效減少資金和人力資源的投入、縮短研發(fā)時間、提供更為精準的信息,以滿足用戶的個性化需求。
圖書館工作隨信息技術(shù)進步而改變,在信息環(huán)境中的數(shù)字圖書館亦應(yīng)積極變革,適應(yīng)科學技術(shù)快速發(fā)展和高信息素質(zhì)用戶對圖書館信息服務(wù)更高的要求,建立全新的數(shù)據(jù)收集、處理、利用的科學化的大數(shù)據(jù)思維,提升業(yè)務(wù)水平,構(gòu)建符合時代發(fā)展要求和用戶文獻需求的全新的數(shù)字圖書館。
3.1 拓寬數(shù)字資源選擇范疇
館藏資源建設(shè)是圖書館工作重心,以圖書、期刊、報紙、論文、數(shù)據(jù)庫為收藏主體,輔以標準、專利等結(jié)構(gòu)化信息,而通過大數(shù)據(jù)技術(shù)的運用,可以將館藏文獻在傳統(tǒng)收藏范圍基礎(chǔ)上增加至所有網(wǎng)絡(luò)信息,以及用戶搜索和使用數(shù)字圖書館信息,再加工的數(shù)據(jù)信息等半結(jié)構(gòu)化、非結(jié)構(gòu)化信息,建設(shè)成為分布式資源平臺。館藏資源選擇范疇由此擴大,但不必也不可能將所有資源都進行數(shù)字化處理,而是應(yīng)當有重點有步驟地優(yōu)先開發(fā)數(shù)字圖書館的優(yōu)勢與特色資源。3.2 加強大數(shù)據(jù)資源整合、保存及合理配置工作
數(shù)字資源,特別是非結(jié)構(gòu)化數(shù)據(jù)的整合及保存,將傳統(tǒng)優(yōu)勢結(jié)構(gòu)化信息——文獻信息與半結(jié)構(gòu)化、非結(jié)構(gòu)化信息——網(wǎng)絡(luò)信息、讀者檢索利用信息等進行整合,能夠直接為用戶提供解決問題,尤其是復(fù)雜問題的方案,而不是將許多分散無關(guān)聯(lián)的資料的簡單呈現(xiàn),并且選擇合適的存儲介質(zhì)對館藏數(shù)字資源加以長期備份保存。將數(shù)字資源進行合理配置,館藏與非館藏信息資源加工分析內(nèi)在關(guān)系,建立語義關(guān)聯(lián),構(gòu)建大數(shù)據(jù)技術(shù)支撐的面向社會的大資源平臺。
3.3 改進數(shù)字化服務(wù)方式
通過聚類技術(shù)、語義技術(shù)和信息分析技術(shù)的運用,建立無序的海量信息間的聯(lián)系,進而進行知識挖掘,數(shù)字圖書館除提供文獻服務(wù)等基礎(chǔ)服務(wù)外,還將提供再生信息服務(wù),以及音頻、視頻服務(wù)。通過用戶行為分析,提供用戶真正需要的個性化服務(wù),實現(xiàn)知識發(fā)現(xiàn)。
3.4 非數(shù)字化保障因素
非數(shù)字化保障因素包括確保資金支持與提升館員技能。大數(shù)據(jù)技術(shù)的運用與數(shù)字圖書館工作的開展離不開資金支持,而資金投入不足是自傳統(tǒng)圖書館時代起就存在的制約圖書館發(fā)展的瓶頸。圖書館服務(wù)屬公益性無償服務(wù),在大數(shù)據(jù)時代的數(shù)字圖書館中,資金的充足持續(xù)提供更為關(guān)鍵,政府等撥款應(yīng)形成機制,另外,還可借鑒國外吸收社會資金的先進做法,優(yōu)化投資結(jié)構(gòu),加大投資力度,有力促進數(shù)字圖書館的發(fā)展。數(shù)字圖書館也應(yīng)加大合作共享范圍,開展成本管理,高效利用有限的資金提升服務(wù)效益。
大數(shù)據(jù)技術(shù)、數(shù)字圖書館等涉及許多圖書情報學領(lǐng)域以外的學科領(lǐng)域,如計算機技術(shù)、網(wǎng)絡(luò)技術(shù)、云計算等等,圖書館館員必須加強學習,掌握相關(guān)技術(shù),能夠熟練運用,才能更好地為用戶服務(wù)。
4.1 規(guī)避知識產(chǎn)權(quán)風險
數(shù)字圖書館應(yīng)重視知識產(chǎn)權(quán)問題,自覺宣傳、保護知識產(chǎn)權(quán)。國家應(yīng)建立相應(yīng)的政策法規(guī),確保數(shù)字圖書館合理合法地無償使用數(shù)字化資源,研究探討版權(quán)唯一性與信息共享機制的雙贏之道。數(shù)字圖書館應(yīng)努力研發(fā)具有自主知識產(chǎn)權(quán)的資源平臺,同時通過防火墻技術(shù)、加密技術(shù)、數(shù)字水印技術(shù)、認證技術(shù)、身份識別技術(shù)等切實維護知識產(chǎn)權(quán)。
4.2 保障用戶信息安全
大數(shù)據(jù)帶給數(shù)字圖書館無限便利的同時帶來的負面影響是用戶的個人信息安全的保障問題。數(shù)字圖書館對此應(yīng)有足夠的認識,從硬件和軟件兩方面著手大力防范網(wǎng)絡(luò)信息泄密情況的發(fā)生,采用最新互聯(lián)網(wǎng)安全防護技術(shù),設(shè)置專門人才搭建并維護安全防護系統(tǒng),將安全防護工作作為數(shù)字圖書館的日常重要工作之一常抓不懈,保證數(shù)字圖書館健康有序地開展服務(wù),特別是個性化服務(wù)工作,真正將用戶的利益放在第一位。
大數(shù)據(jù)技術(shù)的應(yīng)用為數(shù)字圖書館的進一步發(fā)展插上了翅膀,數(shù)字圖書館應(yīng)乘勢而為,提供知識應(yīng)用服務(wù),提升服務(wù)能力與水平,完成數(shù)字圖書館的創(chuàng)新使命。
[1]百度百科.大數(shù)據(jù)[EB/OL]. http://baike.baidu.com/link?url=o3FPj RJopzaSC1gxVKLexcsfcgyun-9ZAeCpB2qhmGxpg7IBEfZi9jpJLePNb1z_ Zmh3NmHPCfT-65hZEH05q4bfQW-Ia-s0LuMCL39qjAfJgnXj1MvJK Ql8A5saA2UW[2016-09-18].
[2]百度百科.數(shù)字圖書館[EB/OL].http://baike.baidu.com/link?url= u2YaBxZVcV4b2l8SFnXj_ge3eUDxkPYHuNrfvqyCeJbJxpZvwBinilc732g2M8eKHXV8Yvm4_LC62llb_q9I0Yy5KrPHj8YxJ8-seI9LnIUh3CREMWKYkASl__ vwuVpUCo8haldCqG-VR5L8doGIK[2016-09-18].
[3]盧艷蘭.數(shù)字圖書館的大數(shù)據(jù)信息接入和管理問題研究[J].圖書情報導(dǎo)刊2016(7).