摘 要 隨著大數(shù)據(jù)的關(guān)聯(lián)和交叉,圖書館的數(shù)據(jù)特征和實際應(yīng)用需求都發(fā)生了變化,如何利用多源大數(shù)據(jù)的融合實現(xiàn)大數(shù)據(jù)價值最大化,是圖書館當(dāng)下亟待解決的重要問題。論文分析了圖書館多源大數(shù)據(jù)的特征,討論了大數(shù)據(jù)融合可能帶來的挑戰(zhàn)和問題,并且構(gòu)建了大數(shù)據(jù)環(huán)境下圖書館的多源大數(shù)據(jù)融合與服務(wù)決策框架模型,有助于實現(xiàn)圖書館的信息資源整合。
關(guān)鍵詞 圖書館 多源大數(shù)據(jù) 大數(shù)據(jù)融合
分類號 G255.76
DOI 10.16810/j.cnki.1672-514X.2017.01.007
Research on the Multi-source Big Data Fusion for Libraries:Issues and
Challenges
Ma Xiaoting
Abstract Data characteristics and practical application requirements have changed in libraries because of the link and crossover of big data. The immediate problem to be solved in library is how to use the multi-source big data fusion to achieve the maximum value of big data. This paper analyzes the features of multi-source big data in library, and discusses the challenges that may be caused by multi-source big data fusion. Also, a model of the multi-source big data fusion and service decisions for libraries under the big data environment is proposed, which will help the library to realize the information resource integration.
Keywords Library. Multi-source big data. Big data fusion.
0 前言
當(dāng)前,世界已進(jìn)入大數(shù)據(jù)時代。MGI(麥肯錫全球研究院)和麥肯錫商業(yè)技術(shù)辦公室的研究報告指出,“當(dāng)今世界的信息量已呈現(xiàn)爆炸式增長態(tài)勢,分析大型數(shù)據(jù)集——即所謂的大數(shù)據(jù),將成為競爭、引發(fā)新一輪生產(chǎn)力增長、創(chuàng)新及消費者剩余的關(guān)鍵基礎(chǔ)之一”[1]。近年來,隨著大數(shù)據(jù)技術(shù)的發(fā)展,大數(shù)據(jù)已成為圖書館發(fā)現(xiàn)讀者需求、預(yù)測服務(wù)模式變革、評估服務(wù)收益率和提升服務(wù)生產(chǎn)力的重要依據(jù)。但是,伴隨大數(shù)據(jù)技術(shù)在圖書館界應(yīng)用的深入,圖書館的大數(shù)據(jù)環(huán)境呈現(xiàn)出“4V+1C”的特點,分別是數(shù)據(jù)體量巨大(Volume)、數(shù)據(jù)類型繁多(Variety)、價值密度低(Value)、處理速度快(Velocity)和具有較強(qiáng)的復(fù)雜性(Complexity),導(dǎo)致圖書館難以在海量、復(fù)雜和多類型的大數(shù)據(jù)環(huán)境中有效挖掘數(shù)據(jù)價值,大幅降低了大數(shù)據(jù)分析與決策的科學(xué)性、可靠性和可用性。因此,如何科學(xué)整合大數(shù)據(jù)資源,實現(xiàn)不同區(qū)域、行業(yè)和部門的大數(shù)據(jù)融合,是圖書館提升自身大數(shù)據(jù)應(yīng)用水平和服務(wù)保障力應(yīng)重點關(guān)注的問題。
我國從“八五”規(guī)劃開始,把數(shù)據(jù)融合技術(shù)列為發(fā)展計算機(jī)技術(shù)的關(guān)鍵技術(shù)之一,眾多科研機(jī)構(gòu)和不同領(lǐng)域?qū)<?,開始了信息綜合處理和數(shù)據(jù)智能化融合的研究[2]。隨著云計算技術(shù)、傳感器網(wǎng)絡(luò)與數(shù)據(jù)存儲技術(shù)的發(fā)展,大數(shù)據(jù)的采集、傳輸和存儲等問題,已不再是制約圖書館大數(shù)據(jù)應(yīng)用有效性的關(guān)鍵問題,如何科學(xué)構(gòu)建數(shù)學(xué)模型,并對所采集的大數(shù)據(jù)進(jìn)行自動化探測、互聯(lián)、相關(guān)、估計和融合處理,已經(jīng)成為當(dāng)前圖書館界的研究熱點。
1 圖書館多源大數(shù)據(jù)融合的問題與挑戰(zhàn)
1.1 圖書館多源大數(shù)據(jù)呈現(xiàn)新的特征屬性
伴隨圖書館服務(wù)模式的變革與讀者閱讀需求的提升,圖書館數(shù)據(jù)除保留原有的“4V+1C”大數(shù)據(jù)特點外,還呈現(xiàn)出新的特征屬性。首先,圖書館大數(shù)據(jù)除多源、多類型外,還具有在時間、空間、語義和底層屬性上的多維度特征,并且其蘊藏的知識范疇的“粒度”多樣,圖書館難以對數(shù)據(jù)進(jìn)行識別和標(biāo)準(zhǔn)化處理。其次,圖書館在大數(shù)據(jù)的采集中,同一數(shù)據(jù)源產(chǎn)生的數(shù)據(jù)是隨著時間、空間、作用對象和解釋方法的變化而演變的,圖書館難以保證數(shù)據(jù)在多空間上的一致性,也不能有效控制數(shù)據(jù)知識的動態(tài)演化性[3]。第三,圖書館對所采集大數(shù)據(jù)的標(biāo)準(zhǔn)化處理和知識表達(dá)方式的多樣性,以及大數(shù)據(jù)關(guān)系的動態(tài)演化和不確定性,增加了數(shù)據(jù)融合的復(fù)雜度和不可控性。第四,伴隨大數(shù)據(jù)總量和數(shù)據(jù)關(guān)系復(fù)雜度的增長,大數(shù)據(jù)之間的隱性關(guān)聯(lián)更加緊密,如何通過數(shù)據(jù)融合有效挖掘大數(shù)據(jù)關(guān)聯(lián)中隱匿的知識,是圖書館大數(shù)據(jù)應(yīng)用面臨的挑戰(zhàn)。
1.2 圖書館多源大數(shù)據(jù)融合面臨的挑戰(zhàn)
1.2.1 圖書館大數(shù)據(jù)具有多源異構(gòu)的特性
大數(shù)據(jù)時代,讀者的閱讀活動呈現(xiàn)出移動性、高帶寬、多模式和多終端的特點[4]。因此,圖書館采集的大數(shù)據(jù)呈現(xiàn)出海量、多源和多類型的特點,信息資源在組織上表現(xiàn)為非線性化和異構(gòu)的特性,大數(shù)據(jù)的價值難以被發(fā)現(xiàn)和利用。
多源異構(gòu)數(shù)據(jù)呈現(xiàn)分散采集和分類管理的狀態(tài),這些分別存儲于不同的系統(tǒng)、節(jié)點和數(shù)據(jù)庫的數(shù)據(jù)以數(shù)據(jù)孤島的形式存在,增加了圖書館統(tǒng)一數(shù)據(jù)標(biāo)準(zhǔn)、統(tǒng)一管理平臺、統(tǒng)一存儲系統(tǒng)和統(tǒng)一數(shù)據(jù)接口的難度。此外,非結(jié)構(gòu)化數(shù)據(jù)占據(jù)圖書館大數(shù)據(jù)總量的85%以上,如何跨越圖書館不同的部門、系統(tǒng)和對象,實現(xiàn)圖片、視頻、音頻數(shù)據(jù)、文本數(shù)據(jù)等多結(jié)構(gòu)數(shù)據(jù)的關(guān)聯(lián),也是圖書館大數(shù)據(jù)整合應(yīng)重點關(guān)注的問題。
1.2.2 實時大數(shù)據(jù)增加了大數(shù)據(jù)的融合復(fù)雜度
伴隨圖書館大數(shù)據(jù)采集終端數(shù)量和實時數(shù)據(jù)總量的激增,實時數(shù)據(jù)之間隱含的知識關(guān)系、特征將更加復(fù)雜,如何通過噪聲過濾、價值提取等方法有效控制大數(shù)據(jù)的融合規(guī)模,是確保圖書館大數(shù)據(jù)融合結(jié)果可控、可用應(yīng)重點關(guān)注的問題。
此外,傳感器網(wǎng)絡(luò)和物聯(lián)網(wǎng)技術(shù)在有效感知讀者需求的同時,也對圖書館實時數(shù)據(jù)流的傳輸、處理、存儲和管理能力有了新的要求。如何在高效處理歷史大數(shù)據(jù)的同時,完成實時數(shù)據(jù)的動態(tài)檢測和實時分析,實現(xiàn)歷史大數(shù)據(jù)與實時大數(shù)據(jù)的查詢、融合和迭代分析,是圖書館提升大數(shù)據(jù)決策科學(xué)性和即時性的關(guān)鍵[5]。
實時大數(shù)據(jù)產(chǎn)生的速度和數(shù)據(jù)流量的快速增長,對圖書館數(shù)據(jù)庫的存儲、管理和維護(hù)能力提出了新的挑戰(zhàn)。大數(shù)據(jù)融合過程如何動態(tài)、透明地統(tǒng)一數(shù)據(jù)源,實現(xiàn)大數(shù)據(jù)庫對異構(gòu)數(shù)據(jù)的索引和更新,并依據(jù)大數(shù)據(jù)類型和知識表示模式的變化而不斷更新策略,是圖書館完全、即時發(fā)現(xiàn)實時大數(shù)據(jù)中隱匿的知識和數(shù)據(jù)關(guān)系的重要保證。
1.2.3 大數(shù)據(jù)融合系統(tǒng)對傳感器系統(tǒng)的功能性需求
圖書館大數(shù)據(jù)融合系統(tǒng)是一個多源的信息重構(gòu)框架,通過對多信息源、多媒體和多格式信息的挖掘與重構(gòu),生成完整、準(zhǔn)確、及時和有效的綜合信息,其中多傳感器系統(tǒng)是圖書館數(shù)據(jù)融合的硬件基礎(chǔ),而多源信息是數(shù)據(jù)融合的對象,協(xié)調(diào)優(yōu)化和綜合處理是數(shù)據(jù)融合的核心。圖書館傳感器系統(tǒng)可全面感知與獲取讀者行為、特征、服務(wù)器參數(shù)、運行日志等數(shù)據(jù),其數(shù)據(jù)感知與獲取的科學(xué)性與覆蓋面,關(guān)系到大數(shù)據(jù)融合系統(tǒng)運行的效率、經(jīng)濟(jì)性與結(jié)果可用性。
圖書館大數(shù)據(jù)融合系統(tǒng)對傳感器系統(tǒng)有較高的功能性需求。大數(shù)據(jù)融合系統(tǒng)的構(gòu)建,應(yīng)重點加強(qiáng)融合系統(tǒng)在時間、空間、語義和底層屬性上對大數(shù)據(jù)多維度特征的覆蓋,保證系統(tǒng)完全、高效地發(fā)現(xiàn)大數(shù)據(jù)關(guān)系并融合數(shù)據(jù)價值[6]。其次,如何有效實現(xiàn)讀者特征數(shù)據(jù)、閱讀行為數(shù)據(jù)、服務(wù)數(shù)據(jù)和服務(wù)器參數(shù)的多傳感器采集,不斷提升傳感器所采集大數(shù)據(jù)的準(zhǔn)確性和價值密度,是確保圖書館大數(shù)據(jù)融合系統(tǒng)運行高效、精確和容錯的前提。第三,傳感器系統(tǒng)應(yīng)實現(xiàn)對所采集對象多個不同特征的綜合描述,通過對傳感器所采集數(shù)據(jù)多特征信息的互補(bǔ),有效增強(qiáng)傳感器系統(tǒng)采集數(shù)據(jù)的正確性。此外,如何降低傳感器系統(tǒng)的建設(shè)和部署成本,也是圖書館有效提升大數(shù)據(jù)融合效率和降低數(shù)據(jù)融合成本應(yīng)關(guān)注的問題。
1.2.4 大數(shù)據(jù)開放與安全之間的矛盾
為了提升大數(shù)據(jù)的價值總量和價值密度,圖書館通常會采用傳感器、視頻監(jiān)控系統(tǒng)、服務(wù)器監(jiān)控設(shè)備和讀者管理信息系統(tǒng)等,全方位、多角度、不間斷地采集服務(wù)數(shù)據(jù)和讀者特征數(shù)據(jù)。此外,圖書館還可通過與第三方大數(shù)據(jù)共享的方式,避免數(shù)據(jù)庫的重復(fù)建設(shè)和大數(shù)據(jù)資源的重復(fù)采集。這些大數(shù)據(jù)中,有部分?jǐn)?shù)據(jù)是涉及國家機(jī)密、企業(yè)秘密和讀者隱私的敏感數(shù)據(jù),如何快速識別敏感數(shù)據(jù)并劃分?jǐn)?shù)據(jù)的安全級別,依據(jù)數(shù)據(jù)的安全級別制定和執(zhí)行相應(yīng)的大數(shù)據(jù)存儲、融合安全策略,關(guān)系著圖書館大數(shù)據(jù)融合的安全性和可靠性。
其次,圖書館內(nèi)部不同部門、服務(wù)系統(tǒng)、第三方服務(wù)商之間,缺少統(tǒng)一的數(shù)據(jù)規(guī)劃、采集和存儲標(biāo)準(zhǔn),導(dǎo)致許多大數(shù)據(jù)以“信息孤島”的形式存在,較低的數(shù)據(jù)開放程度嚴(yán)重影響了大數(shù)據(jù)融合的效率和可用性[7]。因此,圖書館通過數(shù)據(jù)類型標(biāo)準(zhǔn)化和數(shù)據(jù)庫共享全面開放大數(shù)據(jù)的同時,保證讀者對自身小數(shù)據(jù)的知情和控制,是圖書館個性化服務(wù)可信度和讀者閱讀滿意度的關(guān)鍵。
2 圖書館多源大數(shù)據(jù)融合管理架構(gòu)圖與管理策略
2.1 圖書館多源大數(shù)據(jù)融合管理與服務(wù)決策系統(tǒng)的組織架構(gòu)
根據(jù)圖書館大數(shù)據(jù)呈現(xiàn)出的“4V+1C”特點,本文設(shè)計的圖書館大數(shù)據(jù)融合管理與服務(wù)決策系統(tǒng)如圖1所示。
該系統(tǒng)主要由大數(shù)據(jù)存儲私有云、大數(shù)據(jù)融合系統(tǒng)、大數(shù)據(jù)處理與存儲管理系統(tǒng)、大數(shù)據(jù)決策服務(wù)接口4部分組成[8]。大數(shù)據(jù)存儲私有云按照大數(shù)據(jù)的結(jié)構(gòu)特征和應(yīng)用價值,分為非結(jié)構(gòu)化大數(shù)據(jù)存儲庫、結(jié)構(gòu)化大數(shù)據(jù)存儲庫和實時動態(tài)大數(shù)據(jù)庫3部分,可為結(jié)構(gòu)化數(shù)據(jù)與非結(jié)構(gòu)化數(shù)據(jù)、實時數(shù)據(jù)與歷史數(shù)據(jù)的融合提供數(shù)據(jù)存儲服務(wù)。大數(shù)據(jù)融合系統(tǒng)通過數(shù)據(jù)噪聲過濾、價值密度提升和數(shù)據(jù)標(biāo)準(zhǔn)化處理,在有效降低大數(shù)據(jù)融合的復(fù)雜度和成本后,經(jīng)過大數(shù)據(jù)的估計與組合、數(shù)據(jù)時間序列處理和相關(guān)性分析等操作,實現(xiàn)大數(shù)據(jù)的融合和數(shù)據(jù)標(biāo)準(zhǔn)化處理。大數(shù)據(jù)處理與存儲系統(tǒng)主要通過大數(shù)據(jù)存儲管理、語義增強(qiáng)、關(guān)聯(lián)分析、大數(shù)據(jù)分析與轉(zhuǎn)換等,完成融合大數(shù)據(jù)價值的二次發(fā)現(xiàn),為大數(shù)據(jù)決策提供可靠的數(shù)據(jù)支持[9]。大數(shù)據(jù)決策服務(wù)基于底層大數(shù)據(jù)處理與存儲系統(tǒng)的支持,為圖書館IT服務(wù)系統(tǒng)管理、讀者閱讀需求感知、服務(wù)策略制定、服務(wù)質(zhì)量的評估與優(yōu)化提供可靠的大數(shù)據(jù)決策依據(jù)。
2.2 圖書館多源大數(shù)據(jù)的融合管理策略
2.2.1 實現(xiàn)圖書館內(nèi)外部大數(shù)據(jù)的統(tǒng)一融合
加強(qiáng)多傳感器數(shù)據(jù)、不同業(yè)務(wù)部門數(shù)據(jù)、第三方服務(wù)商數(shù)據(jù)的融合,是圖書館增強(qiáng)大數(shù)據(jù)融合和數(shù)據(jù)價值二次挖掘有效性的關(guān)鍵。
隨著傳感器制造成本的大幅下降,圖書館會在多個位置放置更多的傳感器,以此提升對讀者閱讀需求和服務(wù)有效性感知的敏感度與精確性。多傳感器數(shù)據(jù)在提升大數(shù)據(jù)總價值量和可用性的同時,也存在著數(shù)據(jù)價值密度下降和冗余的缺點,嚴(yán)重影響大數(shù)據(jù)融合與數(shù)據(jù)價值二次發(fā)現(xiàn)的效率。為了提升多傳感器大數(shù)據(jù)融合的可用性,圖書館應(yīng)對多傳感器采集的數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,有效統(tǒng)一大數(shù)據(jù)的類型和結(jié)構(gòu),并以數(shù)據(jù)采集對象為索引,實現(xiàn)大數(shù)據(jù)采集對象在特征向量和物理屬性上的集合與分類。當(dāng)圖書館進(jìn)行大數(shù)據(jù)決策時,可根據(jù)決策應(yīng)用需求在大數(shù)據(jù)集中選取恰當(dāng)?shù)奶卣飨蛄亢臀锢韺傩詳?shù)據(jù),通過數(shù)據(jù)的實時融合來提升數(shù)據(jù)決策的可用性和針對性。比如在讀者閱讀需求的預(yù)測上,可以將讀者歷史閱讀數(shù)據(jù)、閱讀終端實時數(shù)據(jù)、讀者閱讀需求數(shù)據(jù)等進(jìn)行實時融合,而不需要將讀者位置信息、移動路徑數(shù)據(jù)、讀者閱讀關(guān)系等無關(guān)大數(shù)據(jù)融合[10]。
此外,應(yīng)實現(xiàn)圖書館內(nèi)部不同業(yè)務(wù)部門之間,以及圖書館和第三方服務(wù)商之間大數(shù)據(jù)的融合。數(shù)據(jù)孤島是嚴(yán)重影響圖書館大數(shù)據(jù)關(guān)系發(fā)現(xiàn)和數(shù)據(jù)價值二次挖掘的重要問題,圖書館應(yīng)在確保數(shù)據(jù)安全和讀者隱私的前提下,實現(xiàn)內(nèi)部不同業(yè)務(wù)部門、第三方服務(wù)商和政府相關(guān)部門間的數(shù)據(jù)公開與共享。社交網(wǎng)絡(luò)、移動互聯(lián)網(wǎng)、信息化企業(yè)、電信運營商等都是海量數(shù)據(jù)的制造者,圖書館將第三方大數(shù)據(jù)與自身大數(shù)據(jù)進(jìn)行融合,可有效提升圖書館大數(shù)據(jù)的價值總量、決策科學(xué)性和大數(shù)據(jù)應(yīng)用經(jīng)濟(jì)性[11]。
2.2.2 增強(qiáng)無線傳感器數(shù)據(jù)融合的實時性
無線傳感器數(shù)據(jù)融合通過對多個無線傳感器數(shù)據(jù)進(jìn)行處理,組合出具有更少數(shù)據(jù)總量、更高價值密度和可用性的數(shù)據(jù)。無線傳感器網(wǎng)絡(luò)具有安裝便捷、使用靈活、經(jīng)濟(jì)節(jié)約和易于擴(kuò)展的特點,已成為圖書館讀者行為數(shù)據(jù)和用戶服務(wù)數(shù)據(jù)采集的主要模式。為了保證大數(shù)據(jù)采集全面、準(zhǔn)確,圖書館無線傳感器網(wǎng)絡(luò)通常由多個傳感器共同完成大數(shù)據(jù)的感知和采集,然后將采集的大數(shù)據(jù)經(jīng)噪聲過濾和融合后,傳輸至圖書館大數(shù)據(jù)庫進(jìn)行存儲。這種利用無線傳感器冗余配置,來提升移動大數(shù)據(jù)監(jiān)測和采集可靠性的方式,在提升圖書館無線感知敏感性和準(zhǔn)確性的同時,也產(chǎn)生大量的冗余數(shù)據(jù)[12]。因此,提升數(shù)據(jù)的價值密度和減少數(shù)據(jù)總量,是圖書館確保大數(shù)據(jù)決策實時性的關(guān)鍵。
首先,圖書館應(yīng)通過數(shù)據(jù)噪聲過濾,增強(qiáng)所采集大數(shù)據(jù)的相關(guān)性,在確保大數(shù)據(jù)精確性的前提下,清除位于同一監(jiān)測區(qū)域的多傳感器采集的相同或相似數(shù)據(jù),有效降低擬融合的數(shù)據(jù)總量。其次,為防止無線傳感器在數(shù)據(jù)融合中丟失重要的細(xì)節(jié)信息或者降低數(shù)據(jù)質(zhì)量,圖書館應(yīng)對融合前后的大數(shù)據(jù)價值總量、數(shù)據(jù)融合與應(yīng)用層數(shù)據(jù)語義的關(guān)系、數(shù)據(jù)融合操作的深度進(jìn)行評估,不能因數(shù)據(jù)的過度融合而降低無線大數(shù)據(jù)的價值總量、相關(guān)性和可用性。
2.2.3 大數(shù)據(jù)融合應(yīng)以讀者個性化服務(wù)需求為依據(jù)
提升圖書館對讀者需求的感知、保障和服務(wù)能力,是圖書館大數(shù)據(jù)融合的根本目標(biāo)。
圖書館對讀者大數(shù)據(jù)個體的融合應(yīng)堅持以讀者的身份ID為索引,實現(xiàn)圖書館內(nèi)部多業(yè)務(wù)部門、多服務(wù)商數(shù)據(jù)、線上與線下數(shù)據(jù)的融合[13]。通過對這些相關(guān)融合大數(shù)據(jù)的分析,在保護(hù)讀者隱私的前提下,完成讀者在時間、地理位置、閱讀行為和語義特征上的四維度感知,激發(fā)讀者潛在的服務(wù)需求。其次,服務(wù)時效性是關(guān)系讀者個性化閱讀滿意度和圖書館服務(wù)效率的關(guān)鍵因素。圖書館應(yīng)通過數(shù)據(jù)融合來提升對讀者需求的感知力,精確預(yù)測讀者閱讀需求的時間、內(nèi)容和模式,并在恰當(dāng)?shù)臅r間完成圖書館個性化服務(wù)的精確推送,增強(qiáng)讀者閱讀的愉悅感和滿意度。此外,通過大數(shù)據(jù)的融合、分析來預(yù)測圖書館服務(wù)負(fù)載的變化趨勢,也是圖書館合理調(diào)配服務(wù)系統(tǒng)資源和預(yù)防服務(wù)擁塞的重要依據(jù)。
2.2.4 大數(shù)據(jù)融合應(yīng)確保大數(shù)據(jù)安全和讀者隱私
圖書館通過將讀者個體數(shù)據(jù)與其它相關(guān)大數(shù)據(jù)的融合、分析,可以精確發(fā)現(xiàn)讀者的閱讀需求、模式、習(xí)慣和社會關(guān)系,但對讀者特征大數(shù)據(jù)的過度融合和數(shù)據(jù)關(guān)聯(lián)性的發(fā)掘,則可能會導(dǎo)致讀者的隱私泄露。因此,圖書館應(yīng)通過對大數(shù)據(jù)敏感度的評估,以及大數(shù)據(jù)融合過程的監(jiān)督與控制,來保證大數(shù)據(jù)融合的數(shù)據(jù)安全和讀者隱私。
圖書館大數(shù)據(jù)融合的根本目的是增強(qiáng)數(shù)據(jù)的關(guān)聯(lián)性,有效提升大數(shù)據(jù)的價值總量和價值密度。為了防范大數(shù)據(jù)融合過程可能發(fā)生的數(shù)據(jù)侵犯和隱私泄露問題,圖書館應(yīng)構(gòu)建大數(shù)據(jù)敏感度與大數(shù)據(jù)融合過程的風(fēng)險評估機(jī)制,依據(jù)大數(shù)據(jù)敏感度執(zhí)行動態(tài)的數(shù)據(jù)風(fēng)險預(yù)警和安全防范策略。同時,在大數(shù)據(jù)融合過程中還應(yīng)采用數(shù)據(jù)溯源技術(shù),支持圖書館逆向發(fā)現(xiàn)大數(shù)據(jù)的融合風(fēng)險及其產(chǎn)生的原因。此外,圖書館應(yīng)根據(jù)大數(shù)據(jù)的安全管理和讀者隱私保護(hù)需要,判斷大數(shù)據(jù)的字段名稱、字段類型、字段長度和賦值的敏感性。對于涉及圖書館安全、管理、運營與讀者隱私重要數(shù)據(jù),則可通過匿名、替換、加入隨機(jī)噪聲、順序、時滯和取消等方式,在保留大數(shù)據(jù)價值、準(zhǔn)確性和易用性的前提下取出敏感信息[14]。
3 結(jié)語
當(dāng)前,圖書館大數(shù)據(jù)的采集從傳感器網(wǎng)絡(luò)的感知層到讀者閱讀活動的應(yīng)用層,涉及圖書館日常運作的所有環(huán)節(jié),這些環(huán)節(jié)產(chǎn)生的大數(shù)據(jù)總量以指數(shù)級增長,傳統(tǒng)的提升IT設(shè)備數(shù)據(jù)處理能力的方式,已不能滿足圖書館大數(shù)據(jù)處理的需求。因此,科學(xué)、高效地融合、挖掘和智能處理海量大數(shù)據(jù),已成為關(guān)系圖書館發(fā)現(xiàn)大數(shù)據(jù)價值和確保大數(shù)據(jù)決策科學(xué)性的重要因素[15]。
為了保證大數(shù)據(jù)融合過程安全、高效、經(jīng)濟(jì)和可控,圖書館應(yīng)遵循大數(shù)據(jù)的生命周期規(guī)律,重點加強(qiáng)大數(shù)據(jù)在采集、噪聲過濾、傳輸和存儲過程中的質(zhì)量管理,確保大數(shù)據(jù)具有較高的數(shù)據(jù)價值密度和可用性。此外,還應(yīng)不斷增強(qiáng)圖書館大數(shù)據(jù)融合系統(tǒng)在硬件平臺、應(yīng)用軟件和數(shù)據(jù)融合策略上的相關(guān)性,處理好數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)相關(guān)、態(tài)勢數(shù)據(jù)庫、融合推理和融合損失等關(guān)鍵問題,為圖書館管理和讀者服務(wù)提供可靠的大數(shù)據(jù)決策支持。
參考文獻(xiàn):
[ 1 ] Nature. Big data[EB/OL].[2013-06-17].http://www.nature.com/news/specials/bigdata/index.html.
[ 2 ] 郭春霞.大數(shù)據(jù)環(huán)境下高校圖書館非結(jié)構(gòu)化數(shù)據(jù)融合分析[J].圖書館學(xué)研究,2015(5):30-34.
[ 3 ] 鐘聲.大數(shù)據(jù)驅(qū)動的高校圖書館數(shù)據(jù)監(jiān)護(hù)探究[J].情報資料工作,2014(3):103-106.
[ 4 ] 李建中,劉顯敏.大數(shù)據(jù)的一個重要方面:數(shù)據(jù)可用性[J].計算機(jī)研究與發(fā)展,2016,53(2):1-16.
[ 5 ] 唐曉波,朱娟,楊豐華.大數(shù)據(jù)環(huán)境下的知識融合框架模型研究[J].圖書館學(xué)研究,2016(1):32-35,18.
[ 6 ] 孟小峰,杜治娟.大數(shù)據(jù)融合研究:問題與挑戰(zhàn)[J].計算機(jī)研究與發(fā)展,2016(2):231-246.
[ 7 ] FISCH D,KALKOWSKI E,SICK B. Knowledge fusion for probabilistic generative classifiers with data mining applications[J].IEEE Transactions on Knowledge and Data Engineering,2014(3):652-666.
[ 8 ] 沈旺,李亞峰,侯昊辰.數(shù)字參考咨詢知識融合框架研究[J].圖書情報工作,2013(19):139-143.
[ 9 ] SMIRNOV A,LEVASHOVA T,SHILOV N. Patterns for context-based knowledge fusion in decision support systems[J].Information Fusion,2015(21):114-129.
[10] 廖龍龍,葉強(qiáng),路紅.面向移動感知服務(wù)的數(shù)據(jù)隱私保護(hù)技術(shù)研究[J].計算機(jī)工程與設(shè)計,2013,34(6):1951-1955.
[11] PAPADAKIS G,KOUTRIKA G,PA-
LPANAS T,et al. Metablocking:taking entity resolution to the next level[J].IEEE Trans on Kno-
wledge and Data Engineering,2014,26(8):1946-1960.
[12] 陳茜,史殿習(xí),楊若松.多維數(shù)據(jù)特征融合的用戶情緒識別[J].計算機(jī)科學(xué)與探索,2015(10):1-11.
[13] 維克托·邁爾·舍恩伯格,肯尼思·庫克耶.大數(shù)據(jù)時代:生活、工作與思維的大變革[M].盛楊燕,周濤,譯.杭州:浙江人民出版社,2012.
[14] 馬曉亭.開放環(huán)境下圖書館敏感大數(shù)據(jù)保護(hù)研究[J].高校圖書館工作,2015,35(5):33-363.
[15] 唐曉波,魏巍.知識融合:大數(shù)據(jù)時代知識服務(wù)的增長點[J].圖書館學(xué)研究,2015(5):8-14.