周彥
摘 要:隨著數字圖書館的建設發(fā)展,各類型數據急劇增長,正朝著海量數據方向發(fā)展,數字圖書館面臨著數字資源長期保存、資源整合、信息安全以及服務創(chuàng)新等多方面的挑戰(zhàn)。大數據系統(tǒng)建設正是解決上述問題、全面提升服務能力的有效途徑。
關鍵詞:大數據;數字圖書館;創(chuàng)新應用
大數據作為繼云計算、物聯(lián)網之后信息技術的又一重大突破,必將深刻影響人們的日常生活。特別是在數字圖書館的建設發(fā)展方面的作用不容小覷。本文研究分析了在數字圖書館建設領域大數據建設的重要意義、面臨挑戰(zhàn)、主要應用,對數字圖書館大數據系統(tǒng)建設進行了有益思考。
一、大數據概述
(一)大數據定義
對于“大數據”,研究機構Gartner給出了這樣的定義。大數據是需要新處理模式才能具有更強的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產。大數據是一個體量特別大、數據類別特別多的數據集,并且這樣的數據集無法用傳統(tǒng)數據庫工具對其內容進行抓取、管理和處理,具有體量巨大、類型繁多、時效性強、價值密度低四個基本特征。大數據技術是數據采集、數據存取、云存儲和分布式文件存儲、各類統(tǒng)計分析、數據挖掘、模型預測、結果呈現(xiàn)等數據處理技術的統(tǒng)稱,可以為決策乃至個人生活帶來便利。
(二)大數據研究的發(fā)展
大數據研究熱潮剛一興起,就得到了眾多發(fā)達國家和IT廠商的支持。2012年,美國宣布投資2億美元用于大數據研究。市場咨詢公司IDC、Gartner、麥肯錫等,均展開了大數據專項業(yè)務和服務支持;IBM等硬件廠商紛紛推出大數據從存儲到分析的全套方案。我國于2015年出臺了《促進大數據發(fā)展行動綱要》,這從政府到民生全方位規(guī)劃部署了大數據產業(yè)的發(fā)展戰(zhàn)略。對大數據的研究逐漸從理論到實踐、從硬件到軟件配套、從企業(yè)行為到國家戰(zhàn)略。今年3月5日,在第十二屆全國人民代表大會第三次會議上,李克強總理提出制定“互聯(lián)網+”行動計劃。所謂“互聯(lián)網+”,實際上是創(chuàng)新2.0下的互聯(lián)網發(fā)展新形態(tài)、新業(yè)態(tài),是知識社會創(chuàng)新2.0推動下的互聯(lián)網形態(tài)演進。它不僅僅是互聯(lián)網移動了、泛在了、應用于傳統(tǒng)行業(yè)了,更會同無處不在的計算、數據、知識,造就了無處不在的創(chuàng)新,推動了知識社會以用戶創(chuàng)新、開放創(chuàng)新、大眾創(chuàng)新、協(xié)同創(chuàng)新為特點的創(chuàng)新2.0。這勢必對廣泛應用互聯(lián)網、云計算、大數據技術的數字圖書館領域產生深遠的影響。
(三)數字圖書館與大數據技術
數字圖書館管理與服務數據具有規(guī)模海量、種類繁多、價值挖掘難度大的特點,這恰恰與大數據的特征是相契合,并且大數據比海量數據結構更復雜、價值密度更低、分析更為深度廣度、使用價值更大。因此我們可以考慮能否通過大數據技術解決巨大的甚至是海量的圖書信息存儲壓力、過大的資源和用戶需求數據分析和過高的系統(tǒng)建設管理要求,從而提高數字圖書館的核心競爭力。
二、數字圖書館建設發(fā)展面臨的挑戰(zhàn)
隨著大數據時代的來臨,數字圖書館建設發(fā)展面臨著很多新的挑戰(zhàn)。
(一)傳統(tǒng)數據存儲模式應對數據海量增加的挑戰(zhàn)。一是計算能力、存儲能力的增強遠遠落后于數據量的增長及數據復雜性的變化。數字圖書館管理與服務數據類型除傳統(tǒng)結構化文本數據外,還包括網絡日志、圖片、音頻、視頻、讀者地理位置信息等非結構化數據,且非結構化數據占據數據總量的65%以上。二是物聯(lián)網、傳感網、云計算等信息技術的飛速發(fā)展,知識服務應用領域不斷擴展,服務類型、數量、應用高速增長,基數巨大,使大量非結構化數據廣泛交互移動,為知識管理及信息服務模式提出更高的要求。
(二)傳統(tǒng)數據分析向廣度深度發(fā)展的挑戰(zhàn)。高可靠性、高可擴展性的數據分析技術成為亟待解決的問題。大數據技術不僅可以通過數據了解用戶的行為、信息需求、知識應用能力,更可以利用數據對與用戶的交互知識服務過程進行分析預測,如進行讀者流失分析及價值分析,從而應對圖書館未來所面對的生存危機。
(三)總結數字圖書管理經驗規(guī)律的挑戰(zhàn)。各類現(xiàn)行數字圖書管理軟件統(tǒng)計記錄了大量重復的管理信息,管理者很難從這些重復的信息中理出頭緒,總結出有價值的管理經驗和規(guī)律。造成末端管理員需求很難影響頂層設計決策,至上而下的管理方式無法滿足數字圖書管理精確化、實時性、全過程的管理需求。
(四)有效規(guī)避知識產權風險的挑戰(zhàn)。隨著數字圖書館應用平臺越發(fā)廣泛,目前已由互聯(lián)網向移動通信網、廣播電視網、移動網絡等平臺延伸,任何人都可通過數字圖書館獲取所需的知識,但如何保護知識產權這一難題,不僅要從立法許可方面著手,也需從技術上進行限制規(guī)避,最大限度的實現(xiàn)版權的排他性與信息共享之間平衡。
三、大數據技術在數字圖書館建設中的應用
從大數據中分析和挖掘出數字圖書館建設發(fā)展的特點規(guī)律,促進知識服務的智能輔助決策能力提高,是在新起點上推動數字圖書館服務創(chuàng)新發(fā)展的必然選擇。大數據技術在數字圖書館建設中主要有以下應用:
(一)進行數字資源整合。以用戶需求為導向,以保證信息資源質量為目標,建立超大型元數據倉儲,構建數據資源目錄體系和交換體系,從而實現(xiàn)資源的統(tǒng)一聚合與一站式檢索,將云服務與關聯(lián)數據結合起來實現(xiàn)數字館藏的組織與聚合,構建“資源—用戶”關系模型的思路展開工作。面向各項業(yè)務應用主題建立數據倉庫,按照統(tǒng)一定義的格式提取數據,再通過清洗、轉換、集成后進入數據倉庫,形成面向主題、單一、完整和一致的數據存儲,實現(xiàn)數據共享和“一數一源”。大數據環(huán)境下,既要對多種異質文檔進行管理,又要支持多媒體文檔的存儲、檢索和管理,并且對原生資源進行有系統(tǒng)、有組織地開發(fā)整理,以便將資源數據長期保存,充分發(fā)揮數字圖書館的規(guī)模效益。
(二)實現(xiàn)資源合理配置。通過開展數據資源流向、流量和流速分析,測算數字圖書的需求量和服務能力,對數字圖書館服務資源“先手”投子布勢,合理安排投向和投量,展開館際區(qū)域合作和資源實時共享。同時,對用戶滿意度、資源利用分布及趨勢發(fā)展等知識服務應用情況作出深度解析和跟蹤,并通過信息回路及時進行反饋,為科學進行信息導航、圖書推薦、讀者互動、知識鏈接等服務提供技術支撐,從而實現(xiàn)數據主導型的知識服務,提升數字圖書館服務效益。
(三)深度分析和調用資源?;诖髷祿臄底謭D書館資源平臺通過資源的整合和統(tǒng)一調度,不僅可以解決資源共享的問題,而且還可將各個專業(yè)性局部性的資源作為整體綜合性資源的一部分,歸納提煉用戶觀察數據、分析數據的不同維度,并按照這些維度為用戶在后臺構建多維的數據立方體,實現(xiàn)知識發(fā)現(xiàn)和預測等深度應用,極大提升了資源的利用價值。比如,讀者可以整個平臺的資源為研究對象,對同一主題的各種不同數據進行綜合計算,在因果關系之外,發(fā)現(xiàn)數據間的相關性,獲得新的知識和信息,使得讀者對單個或全體數據的分析和預測成為可能。
(四)有效規(guī)避知識風險。在大數據時代,數字圖書館必須重視知識產權的保護,在技術上進行有效規(guī)避。按照國家統(tǒng)一的技術體制和標準要求,研發(fā)具有完全自主知識產權的系統(tǒng)平臺,規(guī)定各類數字圖書館的法定許可權,通過訪問控制技術、數字水印技術、身份識別技術等手段對數字資源及用戶權進行限制,并對信息資源建設、傳播和利用進行合法授權,從而實現(xiàn)版權的排他性與信息共享之間的平衡,最大限度地維護數字圖書館的合法權益。
長期以來,傳統(tǒng)圖書館都在一個“供應文獻”的狀態(tài)下。隨著大數據技術的發(fā)展和廣泛應用,數字圖書館建設必須一改以往的狀態(tài)和思路,在大數據技術的廣泛應用和支持下,進一步加大各類資源的揭示力度,加大數據實時共享,加大用戶數據分析,提供多樣化的知識應用服務,全面提升數字圖書館服務效益,更好地實現(xiàn)數字圖書館的服務使命,為每一名讀者帶來更好的用戶體驗。
(作者單位:深圳少年兒童圖書館)
參考文獻:
[1] 李白楊,張心源.數字圖書館建設中大數據問題初探[J].情報科學,2013(11):26-29