馬曉亭
(蘭州財經(jīng)大學(xué)a.信息工程學(xué)院,b.電子商務(wù)綜合實(shí)驗(yàn)室)
隨著高速移動互聯(lián)網(wǎng)、物聯(lián)網(wǎng)和云計算等技術(shù)的快速發(fā)展,以及這些技術(shù)在智慧圖書館中的廣泛應(yīng)用,圖書館建設(shè)重心已轉(zhuǎn)變?yōu)榇髷?shù)據(jù)環(huán)境下以滿足讀者需求為中心的智慧圖書館構(gòu)建與讀者個性化智慧QoS(Quality of Service,服務(wù)質(zhì)量)保障。
大數(shù)據(jù)環(huán)境下,圖書館數(shù)據(jù)中心的IT基礎(chǔ)設(shè)施設(shè)備、讀者閱讀終端設(shè)備、傳感器網(wǎng)絡(luò)、視頻監(jiān)控器、網(wǎng)絡(luò)傳輸設(shè)備、服務(wù)管理與監(jiān)控器等不間斷地產(chǎn)生海量數(shù)據(jù),并具有海量(Volume)、多樣(Variety)、快速 (Velocity)、真實(shí) (Veracity) 和低價值密度(Value)的5V特征。[1]在復(fù)雜、多變的數(shù)據(jù)環(huán)境中,圖書館如何通過科學(xué)的大數(shù)據(jù)可視化分析方法,將海量、多類型、枯燥和潛邏輯的數(shù)據(jù)映射為圖書館員可感知的圖形、顏色、符號等,是實(shí)現(xiàn)圖書館員人腦智能與計算機(jī)智能深度耦合,科學(xué)高效地構(gòu)建智慧圖書館和提升圖書館個性化智慧服務(wù)能力,以及館員智慧、個體實(shí)踐經(jīng)驗(yàn)和大數(shù)據(jù)價值有效融合的關(guān)鍵。
目前,圖書館服務(wù)保障的重點(diǎn)已從傳統(tǒng)的以業(yè)務(wù)能力建設(shè)為中心,轉(zhuǎn)移到以滿足讀者閱讀需求為核心的QoS保證中。因此,如何從海量的大數(shù)據(jù)中挖掘數(shù)據(jù)價值,并將數(shù)據(jù)價值與圖書館員經(jīng)驗(yàn)相結(jié)合,有效提升讀者閱讀服務(wù)的智慧性、實(shí)時性和個性化水平,關(guān)系著圖書館智慧服務(wù)質(zhì)量與讀者閱讀活動的滿意度。
首先,隨著計算機(jī)存儲與數(shù)據(jù)處理技術(shù)的快速發(fā)展,大數(shù)據(jù)的海量存儲與實(shí)時高速計算已不再是影響圖書館大數(shù)據(jù)應(yīng)用的關(guān)鍵問題,如何通過對圖書館海量、多維度、多類型和多來源的大數(shù)據(jù)進(jìn)行可視化展示與分析,實(shí)現(xiàn)計算機(jī)高速計算性能和圖書館員知識感知能力的融合,實(shí)時、全面地洞悉隱匿在大數(shù)據(jù)中的信息、知識與智慧,是提升智慧圖書館構(gòu)建與智慧服務(wù)能力的關(guān)鍵。[2]其次,讀者的閱讀需求、數(shù)據(jù)中心IT服務(wù)系統(tǒng)運(yùn)行環(huán)境和QoS評估標(biāo)準(zhǔn)等是隨著時間的推移而動態(tài)變化的,利用大數(shù)據(jù)可視化表現(xiàn)與分析展示,圖書館可構(gòu)建出讀者需求與IT服務(wù)系統(tǒng)運(yùn)行仿真環(huán)境,能夠支持圖書館決策層通過對可視化分析系統(tǒng)的動態(tài)瀏覽、交互與分析,有效提升大數(shù)據(jù)決策的科學(xué)性、可靠性和可執(zhí)行性。
如何在海量、多類型的復(fù)雜大數(shù)據(jù)環(huán)境中發(fā)現(xiàn)非結(jié)構(gòu)化數(shù)據(jù)之間的相關(guān)性,并將數(shù)據(jù)之間的相關(guān)性、交互性和數(shù)據(jù)關(guān)系發(fā)展過程以可視化的方式自動呈現(xiàn)出來,是圖書館動態(tài)挖掘大數(shù)據(jù)中蘊(yùn)藏的數(shù)據(jù)價值,并將數(shù)據(jù)價值轉(zhuǎn)化為知識運(yùn)用到圖書館的管理、服務(wù)中,有效提升圖書館的管理科學(xué)性、效率和運(yùn)營經(jīng)濟(jì)性的關(guān)鍵。
在讀者個性化閱讀活動中,讀者的閱讀需求和滿意度評估標(biāo)準(zhǔn)是隨著圖書館服務(wù)環(huán)境、服務(wù)技術(shù)水平的變化而動態(tài)變化的,如果圖書館在大數(shù)據(jù)價值發(fā)現(xiàn)和服務(wù)決策中有較大的時間延遲,將會導(dǎo)致大數(shù)據(jù)決策結(jié)果的科學(xué)性、適用性和個性化服務(wù)水平下降。因此,只有提升大數(shù)據(jù)可視化分析的自動化水平,才能使圖書館決策科學(xué)性隨著服務(wù)環(huán)境和讀者閱讀需求的變化而動態(tài)調(diào)整,才能確保決策過程智慧化、自動化和個性化。此外,在保證大數(shù)據(jù)可視化分析科學(xué)性、效率、準(zhǔn)確性和實(shí)時性的前提下,通過和云服務(wù)商簽署云服務(wù)租賃協(xié)議的方式將大數(shù)據(jù)可視化分析遷移到云端,可進(jìn)一步提升圖書館可視化分析和決策活動的投資收益率,是關(guān)系圖書館可視化分析結(jié)果科學(xué)和廣泛實(shí)踐應(yīng)用的重要因素。[3]同時,圖書館可視化分析具有涉及圖書館各業(yè)務(wù)部門、數(shù)據(jù)中心IT基礎(chǔ)設(shè)施不同設(shè)備和敏感大數(shù)據(jù)廣泛的特點(diǎn),因此,在可視化分析過程中如何保證圖書館各項(xiàng)管理業(yè)務(wù)、IT設(shè)備和敏感數(shù)據(jù)安全,是保證圖書館IT系統(tǒng)安全性和服務(wù)可信度應(yīng)重點(diǎn)關(guān)注的問題。
圖書館大數(shù)據(jù)環(huán)境具有5V特征,且在采集、傳輸、存儲、處理和分析大數(shù)據(jù)的過程中會融入一定數(shù)量的噪聲信號。因此,如何構(gòu)建高效、實(shí)時、經(jīng)濟(jì)和可控的大數(shù)據(jù)可視化分析系統(tǒng),是確保圖書館在海量、復(fù)雜、高維度和動態(tài)變化的大數(shù)據(jù)信號中發(fā)現(xiàn)數(shù)據(jù)價值和知識的必要前提。而且,圖書館大數(shù)據(jù)的采集對象廣泛,采集的數(shù)據(jù)總量呈指數(shù)級遞增且主要以流式數(shù)據(jù)形式存在,傳統(tǒng)的靜態(tài)、平面圖片展示方式不能表現(xiàn)出蘊(yùn)藏在海量流式數(shù)據(jù)中的數(shù)據(jù)關(guān)系與價值,如何通過并行可視化算法將復(fù)雜的流式數(shù)據(jù)分解為多個簡單問題,并將數(shù)據(jù)分析結(jié)果以動態(tài)和可視化方式展示出來,是保證圖書館海量流式大數(shù)據(jù)動態(tài)發(fā)現(xiàn)、可讀和實(shí)時決策的關(guān)鍵。[4]此外,在多噪聲環(huán)境中,人類大腦對數(shù)據(jù)的處理和分析能力不能完全應(yīng)對大數(shù)據(jù)海量、復(fù)雜和快速增長的挑戰(zhàn)。因此,如何通過可視化分析大幅提升圖書館員對復(fù)雜數(shù)據(jù)關(guān)系的可讀性,是將圖書館員人腦智能分析能力與超級計算機(jī)數(shù)據(jù)處理性能關(guān)聯(lián)起來的重要舉措。
人類獲取外界信息的方式有視覺、聽覺、觸覺、嗅覺、味覺等多種方法,但從信息獲取的效率和數(shù)量上看,大約有80%以上來自于視覺系統(tǒng)。因此,可視化分析依然是圖書館員從大數(shù)據(jù)中發(fā)現(xiàn)價值和獲取知識的最主要途徑。[5]圖書館大數(shù)據(jù)采集具有數(shù)據(jù)來源廣泛、結(jié)構(gòu)復(fù)雜多樣和總量以指數(shù)級增長的特點(diǎn),多樣化的數(shù)據(jù)采集方式必然導(dǎo)致海量數(shù)據(jù)物理信息空間構(gòu)造的極度復(fù)雜性,這些數(shù)據(jù)除具有5V特征外,還具有數(shù)據(jù)動態(tài)產(chǎn)生、關(guān)系異構(gòu)、多噪聲和可用性易變等特點(diǎn),增加了圖書館大數(shù)據(jù)可視化分析的復(fù)雜度和難度。[6]此外,隨著圖書館業(yè)務(wù)類型和服務(wù)對象多樣化的發(fā)展,大數(shù)據(jù)可視化分析需求呈現(xiàn)出從決策層向管理層、用戶服務(wù)層快速延伸的趨勢,如何實(shí)現(xiàn)圖書館各業(yè)務(wù)部門、服務(wù)系統(tǒng)和用戶終端大數(shù)據(jù)的整合和共享,以及大數(shù)據(jù)在PC機(jī)、移動終端、物聯(lián)網(wǎng)設(shè)備上的可視化分析與顯示,是圖書館將大數(shù)據(jù)復(fù)雜關(guān)系和蘊(yùn)藏價值以可視化方式展示,以及將數(shù)據(jù)可視化分析與決策結(jié)果運(yùn)用于圖書館實(shí)時管理與讀者個性化服務(wù)的重要途徑。
圖書館大數(shù)據(jù)具有多類型和非結(jié)構(gòu)化的特點(diǎn),非結(jié)構(gòu)化數(shù)據(jù)占據(jù)大數(shù)據(jù)總量的85%以上,且隨著大數(shù)據(jù)總量的高速增長,非結(jié)構(gòu)化數(shù)據(jù)在大數(shù)據(jù)總量中的占比將進(jìn)一步提升。[7]圖書館非結(jié)構(gòu)化數(shù)據(jù)由視頻、音頻、圖像、表格、文本等組成,經(jīng)大數(shù)據(jù)可視化分析系統(tǒng)的即時處理與分析,為圖書館決策提供動態(tài)的科學(xué)數(shù)據(jù)決策支持。因此,圖書館大數(shù)據(jù)可視化分析算法應(yīng)具備將一個復(fù)雜難點(diǎn)問題分解為若干個可同時運(yùn)行的獨(dú)立簡單問題的能力,支持將復(fù)雜分析結(jié)果以多維度方式顯示,并完全表現(xiàn)出大數(shù)據(jù)隱匿的價值和相關(guān)性。[8]
圖書館的不同部門、系統(tǒng)和用戶產(chǎn)生的大數(shù)據(jù)具有強(qiáng)相關(guān)特性,可視化分析系統(tǒng)必須尋找出這些數(shù)據(jù)間的關(guān)系并以可視化方式呈現(xiàn),數(shù)據(jù)分析師在數(shù)據(jù)關(guān)系發(fā)現(xiàn)過程中難以剝離數(shù)據(jù)之間的關(guān)系而單獨(dú)顯示單一數(shù)據(jù)。此外,如果通過降低數(shù)據(jù)維度和相關(guān)性的方式來降低大數(shù)據(jù)可視化分析的復(fù)雜度,則會導(dǎo)致大數(shù)據(jù)中隱匿的部分信息、知識和數(shù)據(jù)價值丟失,最終影響圖書館大數(shù)據(jù)決策的科學(xué)性和可信度。
鑒于圖書館大數(shù)據(jù)的復(fù)雜特性和數(shù)據(jù)決策的實(shí)際需求,圖書館大數(shù)據(jù)可視化分析系統(tǒng)應(yīng)堅持科學(xué)、實(shí)時、易用、可控、多種數(shù)據(jù)集成方式和多類型顯示模式的原則,完成對大數(shù)據(jù)的處理、融合、分析和顯示,并最終將數(shù)據(jù)特征轉(zhuǎn)換為圖形圖像,實(shí)現(xiàn)人機(jī)的智慧交互。[9]
首先,在圖書館大數(shù)據(jù)可視化分析系統(tǒng)的功能設(shè)計中,應(yīng)確??梢暬治鱿到y(tǒng)能夠?qū)崿F(xiàn)對圖書館IT系統(tǒng)運(yùn)行現(xiàn)狀、系統(tǒng)資源使用效率和讀者服務(wù)需求宏觀實(shí)際的動態(tài)顯示,支持以三維動畫、圖像、圖表和語音等多媒體方式,實(shí)時展示圖書館的管理、運(yùn)營與服務(wù)現(xiàn)狀,有效地提升圖書館決策層和普通館員決策、管理的科學(xué)性。[10]其次,大數(shù)據(jù)可視化分析系統(tǒng)運(yùn)行應(yīng)堅持科學(xué)、高效和全面的原則,對大數(shù)據(jù)進(jìn)行融合分析,準(zhǔn)確發(fā)現(xiàn)圖書館管理與服務(wù)的特點(diǎn)、規(guī)律和趨勢,提升圖書館員的洞察力和系統(tǒng)資源管控能力,并能夠依據(jù)讀者閱讀需求和IT服務(wù)系統(tǒng)資源使用現(xiàn)狀完成系統(tǒng)資源的部署、調(diào)度。再次,可視化分析系統(tǒng)應(yīng)支持圖書館決策層、管理層和業(yè)務(wù)層的科學(xué)決策與應(yīng)用服務(wù)需求,滿足圖書館不同部門的大數(shù)據(jù)查閱、分析、共享和人機(jī)交互操作需要,并將大數(shù)據(jù)分析結(jié)果以大屏、多屏等多模式操控方式顯示。
大數(shù)據(jù)時代,圖書館數(shù)據(jù)環(huán)境除具有數(shù)據(jù)總量以指數(shù)級快速遞增和數(shù)據(jù)相關(guān)性低的特點(diǎn),傳統(tǒng)的數(shù)據(jù)可視化工具已不能滿足圖書館可視化決策對大數(shù)據(jù)庫快速抽取、準(zhǔn)確篩選、科學(xué)分析、系統(tǒng)歸納和清晰展示的需求。大數(shù)據(jù)商業(yè)應(yīng)用第一人維克托·邁爾·舍恩伯格在其名著《大數(shù)據(jù)時代》中描述“隨著大數(shù)據(jù)技術(shù)成為我們生活的一部分,我們應(yīng)該開始從一個比以前更大、更全面的角度來理解事物”。[11]因此,圖書館在數(shù)據(jù)決策中應(yīng)改變傳統(tǒng)的從有限數(shù)據(jù)中攫取小量精準(zhǔn)數(shù)據(jù)的做法,而采用從海量大數(shù)據(jù)中全面獲取巨量相關(guān)數(shù)據(jù)的方式,全方面、多維度地解釋和表現(xiàn)圖書館大數(shù)據(jù)關(guān)系,并以可視化的方式動態(tài)顯示出來,不斷提升圖書館大數(shù)據(jù)決策的科學(xué)性、準(zhǔn)確性和可用性。
數(shù)據(jù)可視化是指圖書館有效發(fā)現(xiàn)大數(shù)據(jù)之間的關(guān)系和挖掘數(shù)據(jù)價值,并將其以圖書館員可理解、識別的圖形、圖像等形式顯示,將其轉(zhuǎn)換成知識來支持圖書館不同業(yè)務(wù)部門、人員進(jìn)行科學(xué)決策、管理和服務(wù)的過程。在圖書館大數(shù)據(jù)可視化分析系統(tǒng)的構(gòu)建中,應(yīng)堅持以大數(shù)據(jù)價值發(fā)現(xiàn)完全性和圖書館決策科學(xué)性保證為目的,分析主題的數(shù)據(jù)相關(guān)性,實(shí)現(xiàn)多個相關(guān)視圖的整合和多模式交互聯(lián)動的顯示,有效揭示海量多維度大數(shù)據(jù)之間蘊(yùn)藏的復(fù)雜相關(guān)性,并以高分辨率的主從屏聯(lián)動、多屏聯(lián)動、自動翻屏等大屏模式顯示出來。本文設(shè)計的圖書館大數(shù)據(jù)可視化分析系統(tǒng)的組織結(jié)構(gòu)與運(yùn)行管理流程見下圖。
圖 圖書館大數(shù)據(jù)可視化分析系統(tǒng)
依據(jù)系統(tǒng)功能劃分,大數(shù)據(jù)可視化分析系統(tǒng)組織主要由源數(shù)據(jù)層、數(shù)據(jù)處理與質(zhì)量管理、大數(shù)據(jù)計算、數(shù)據(jù)建模與挖掘、數(shù)據(jù)可視化分析、圖像可視化顯示、人類視覺與思維系統(tǒng)7部分組成。① 源數(shù)據(jù)層是初始大數(shù)據(jù)的采集層,主要實(shí)現(xiàn)對視頻監(jiān)控數(shù)據(jù)、傳感器網(wǎng)絡(luò)數(shù)據(jù)、圖書館運(yùn)營數(shù)據(jù)、閱讀終端數(shù)據(jù)、讀者行為數(shù)據(jù)、服務(wù)器日志數(shù)據(jù)、監(jiān)控服務(wù)器數(shù)據(jù)的采集、臨時存儲、一級過濾和遠(yuǎn)程傳輸?shù)炔僮鳌"?數(shù)據(jù)處理與質(zhì)量管理層通過大數(shù)據(jù)抽取、數(shù)據(jù)噪聲過濾與清洗、數(shù)據(jù)標(biāo)準(zhǔn)化處理、大數(shù)據(jù)融合等操作,提升圖書館大數(shù)據(jù)的相關(guān)性、價值密度和決策可用性,為大數(shù)據(jù)計算提供高質(zhì)量與標(biāo)準(zhǔn)化的數(shù)據(jù)質(zhì)量支持。③ 大數(shù)據(jù)計算主要依據(jù)大數(shù)據(jù)類型和決策目的的差別,劃分為流計算、批量計算、內(nèi)存計算和查詢計算等幾部分,圖書館可依據(jù)大數(shù)據(jù)流的特點(diǎn)、數(shù)據(jù)決策對象和決策實(shí)時性需求等選擇正確的計算方式,在保證大數(shù)據(jù)決策科學(xué)性、高效性、實(shí)時性和經(jīng)濟(jì)性的前提下,完成系統(tǒng)計算資源和效率的最優(yōu)化配置。[12]④ 數(shù)據(jù)建模與挖掘?qū)油ㄟ^定義、分析數(shù)據(jù)的要求和信息系統(tǒng),確定大數(shù)據(jù)庫需要管轄的范圍和數(shù)據(jù)的組織形式等,并對數(shù)據(jù)庫里的有關(guān)數(shù)據(jù)項(xiàng)進(jìn)行定義,在將數(shù)據(jù)庫中的數(shù)據(jù)定義為明確的圖書館業(yè)務(wù)含義名稱后,進(jìn)行大數(shù)據(jù)的價值挖掘和深度知識發(fā)現(xiàn)。⑤ 大數(shù)據(jù)可視化分析層基于數(shù)據(jù)建模與挖掘?qū)又С?,依次開展數(shù)據(jù)分析對象的主題與內(nèi)容選擇、數(shù)據(jù)搜索與選擇、可視化分析控件管理、可視化數(shù)據(jù)分析模型構(gòu)建、大數(shù)據(jù)多維度分析、分析結(jié)果的輸出與管理等操作,并將結(jié)果傳輸至可視化顯示系統(tǒng)。⑥ 圖像可視化顯示系統(tǒng)對上一層的分析結(jié)果進(jìn)行視頻展示,展示過程必須具備直觀、實(shí)時和與決策者交互的特點(diǎn)。⑦ 人類視覺與思維系統(tǒng)通過對可視化顯示系統(tǒng)結(jié)果的識別、分析、判斷與決策,將從大數(shù)據(jù)中挖掘的數(shù)據(jù)價值、館員經(jīng)驗(yàn)與知識、館員智慧決策能力相融合,為圖書館的宏觀戰(zhàn)略決策、管理與運(yùn)營、讀者服務(wù)提供科學(xué)的大數(shù)據(jù)決策服務(wù)。此外,圖書館管理員還可依據(jù)可視化分析對象的變化、可視化分析流程與模式構(gòu)造特點(diǎn)、可視化顯示模式需求、可視化分析有效性等,對數(shù)據(jù)建模、數(shù)據(jù)價值挖掘、可視化分析流程、可視化顯示方式等進(jìn)行反饋控制,不斷提升大數(shù)據(jù)可視化分析流程的科學(xué)性、知識發(fā)現(xiàn)效率和決策可用性。
3.3.1 提升大數(shù)據(jù)的價值密度與可視化決策可用性
如何在大數(shù)據(jù)中發(fā)現(xiàn)價值,并將其中隱匿的數(shù)據(jù)關(guān)系和價值以可視化方式呈現(xiàn)出來,是圖書館員將大數(shù)據(jù)價值轉(zhuǎn)換為知識,并與自身的經(jīng)驗(yàn)和智慧思維科學(xué)結(jié)合的關(guān)鍵步驟。[13]因此,在大數(shù)據(jù)可視化分析中,針對圖書館大數(shù)據(jù)多源和非結(jié)構(gòu)化特點(diǎn),如何實(shí)現(xiàn)大數(shù)據(jù)的交互、融合和動態(tài)展示是可視化分析應(yīng)重點(diǎn)關(guān)注的問題。
在大數(shù)據(jù)可視化分析中,圖書館應(yīng)與云服務(wù)商簽署云服務(wù)租賃協(xié)議,將大數(shù)據(jù)的存儲和計算遷移到云端,既可確保圖書館可視化分析系統(tǒng)具有較強(qiáng)的系統(tǒng)資源使用率和功能擴(kuò)展性,又能依據(jù)圖書館數(shù)據(jù)決策需要實(shí)時顯示分析結(jié)果。此外,應(yīng)由圖書館業(yè)務(wù)人員和大數(shù)據(jù)分析人員共同管理數(shù)據(jù),根據(jù)圖書館可視化分析對大數(shù)據(jù)質(zhì)量的要求而選擇、過濾和整合數(shù)據(jù),不斷增強(qiáng)大數(shù)據(jù)的價值密度、可用性和可視化分析相關(guān)性,并降低大數(shù)據(jù)的維度,剔除數(shù)據(jù)離群值,提升數(shù)據(jù)可視化分析的精確性和決策實(shí)踐相關(guān)性。
3.3.2 可視化分析顯示系統(tǒng)應(yīng)具備實(shí)時、動態(tài)和多屏顯示的功能
如何從大數(shù)據(jù)中挖掘數(shù)據(jù)價值,并以實(shí)時、動態(tài)和多屏的方式顯示出來,是有效提升圖書館員對數(shù)據(jù)知識的認(rèn)知能力,并將數(shù)據(jù)知識與自身經(jīng)驗(yàn)和智慧決策能力相結(jié)合,實(shí)現(xiàn)圖書館管理和運(yùn)營實(shí)時可視化科學(xué)決策的關(guān)鍵。
實(shí)時性決策是圖書館即時發(fā)現(xiàn)讀者閱讀需求變化趨勢,并通過制定動態(tài)的用戶服務(wù)策略來提升讀者閱讀收益和滿意度的有效措施,然而大數(shù)據(jù)環(huán)境大幅度增加了圖書館實(shí)時可視化分析的復(fù)雜度。因此,必須通過數(shù)據(jù)噪聲過濾、非相關(guān)性數(shù)據(jù)刪除、排序、壓縮和融合等方法,在減少大數(shù)據(jù)總體量的前提下提升數(shù)據(jù)相關(guān)性和價值密度,實(shí)時、快捷地揭示出大數(shù)據(jù)之間的關(guān)聯(lián)性和價值屬性,以此增強(qiáng)圖書館員對大數(shù)據(jù)可視化分析視圖知識獲取的直觀性和有效性。此外,大數(shù)據(jù)除具有空間和時間上的多維度特性外,還存在多變量、多模態(tài)、多類型和多模型的特點(diǎn)。因此,在大數(shù)據(jù)可視化分析中,圖書館除通過主屏顯示數(shù)據(jù)全體價值和關(guān)系分布外,還必須利用多屏聯(lián)動和自動翻屏等方式顯示數(shù)據(jù)關(guān)系的具體細(xì)節(jié),并支持用戶對分析內(nèi)容的自助查詢、關(guān)聯(lián)分析、切換和縮放,有效提升圖書館員數(shù)據(jù)知識的獲取能力。
3.3.3 分析系統(tǒng)應(yīng)具備強(qiáng)相關(guān)性數(shù)據(jù)選擇和多視覺數(shù)據(jù)交互的能力
確??梢暬瘺Q策結(jié)果與決策對象有較高的相關(guān)性,是增強(qiáng)圖書館大數(shù)據(jù)決策科學(xué)、可用的一個關(guān)鍵問題。首先,圖書館在可視化分析模型的構(gòu)建中,應(yīng)在海量、復(fù)雜和低相關(guān)性的數(shù)據(jù)中搜索和決策對象強(qiáng)相關(guān)性的數(shù)據(jù)。諸如在讀者閱讀需求預(yù)測和個性化服務(wù)內(nèi)容的定制中,讀者的閱讀時間、內(nèi)容、閱讀評價反饋、行為路徑、閱讀社會關(guān)系等高相關(guān)數(shù)據(jù),大數(shù)據(jù)分析師既要在讀者的閱讀總體時序中刻畫出它們的數(shù)據(jù)關(guān)系網(wǎng)絡(luò)結(jié)構(gòu),又要分析出單一類型數(shù)據(jù)在讀者閱讀需求趨勢發(fā)展中的相關(guān)性,并為不同類型數(shù)據(jù)在可視化分析模型計算中動態(tài)分配影響因子,確保計算結(jié)果依據(jù)讀者閱讀興趣的發(fā)展而實(shí)時動態(tài)變化,不斷增強(qiáng)可視化分析結(jié)果的決策科學(xué)性和實(shí)踐實(shí)時相關(guān)性。其次,將復(fù)雜的可視化多維視圖降低維度和實(shí)現(xiàn)多視圖整合,是有效降低可視化視圖復(fù)雜度和增強(qiáng)知識發(fā)現(xiàn)效率的關(guān)鍵。大數(shù)據(jù)分析師應(yīng)依據(jù)圖書館可視化分析目的和應(yīng)用對象,將高維度海量數(shù)據(jù)劃分為若干個可視化決策相關(guān)數(shù)據(jù)群,以及將可視化分析需求在多個角度下形成若干個可視化分析結(jié)果,依據(jù)可視化決策高相關(guān)性的原則,通過大數(shù)據(jù)決策需求與視圖相關(guān)性完成若干個單一視圖的整合,最終實(shí)現(xiàn)高維度復(fù)雜視圖向多個低維度視圖的轉(zhuǎn)換,有效降低圖書館員在可視化視圖中知識發(fā)現(xiàn)的復(fù)雜度。再次,高效的可視化分析視圖的融合與關(guān)聯(lián)分析,是圖書館員完全挖掘數(shù)據(jù)知識和實(shí)現(xiàn)1+1>2的重要途徑。因此,圖書館應(yīng)以大數(shù)據(jù)科學(xué)決策為中心,支持高相關(guān)數(shù)據(jù)在不同維度視圖和維度指標(biāo)體系下的交流互動,從不同角度、層面清晰地發(fā)現(xiàn)大數(shù)據(jù)關(guān)系和蘊(yùn)藏的知識,為圖書館決策提供可靠的可視化數(shù)據(jù)支持。
3.3.4 應(yīng)依據(jù)大數(shù)據(jù)結(jié)構(gòu)選擇正確的可視化分析方法
圖書館大數(shù)據(jù)的采集來源、方式具有復(fù)雜多樣性的特點(diǎn),導(dǎo)致其數(shù)據(jù)在結(jié)構(gòu)上具有異構(gòu)和非結(jié)構(gòu)化的特點(diǎn),當(dāng)前,非結(jié)構(gòu)化數(shù)據(jù)占據(jù)圖書館大數(shù)據(jù)總量的85%以上,且隨著圖書館數(shù)據(jù)結(jié)構(gòu)類型和數(shù)據(jù)環(huán)境復(fù)雜性的增長,非結(jié)構(gòu)化數(shù)據(jù)占據(jù)圖書館大數(shù)據(jù)總量將快速遞增。[14]圖書館的非結(jié)構(gòu)化數(shù)據(jù)主要由傳感器采集數(shù)據(jù)、IT設(shè)備運(yùn)行數(shù)據(jù)、監(jiān)控服務(wù)器采集數(shù)據(jù)、視頻監(jiān)控數(shù)據(jù)、讀者閱讀行為數(shù)據(jù)、讀者社會關(guān)系數(shù)據(jù)、閱讀終端采集設(shè)備等組成,對非結(jié)構(gòu)化數(shù)據(jù)噪聲過濾和標(biāo)準(zhǔn)化處理后,可依據(jù)非結(jié)構(gòu)化數(shù)據(jù)與可視化分析的相關(guān)性,在數(shù)據(jù)總體時間序列軸上對高相關(guān)性數(shù)據(jù)進(jìn)行選擇和抽取,并在可視化分析中重點(diǎn)關(guān)注大數(shù)據(jù)之間的時序行為趨勢、關(guān)系網(wǎng)絡(luò)結(jié)構(gòu)、決策對象的相關(guān)性等關(guān)聯(lián)信息。
對于強(qiáng)時效性流數(shù)據(jù)的可視化分析,應(yīng)將重點(diǎn)放在對流數(shù)據(jù)空間、時間維度的變化趨勢和相關(guān)性分析上,完全挖掘出流數(shù)據(jù)中隱匿的數(shù)據(jù)價值以及知識隨著時間變化的趨勢,實(shí)現(xiàn)流數(shù)據(jù)的實(shí)時處理和可視化分析結(jié)果的動態(tài)決策運(yùn)用,防止流數(shù)據(jù)的價值總量隨著時間的推移而減少或者消亡。此外,流數(shù)據(jù)產(chǎn)生的數(shù)量和順序會隨著圖書館服務(wù)在時間軸上的推移而動態(tài)變化,隨機(jī)產(chǎn)生的流數(shù)據(jù)分析結(jié)果會導(dǎo)致圖書館服務(wù)決策對IT系統(tǒng)資源需求和使用量具有極強(qiáng)的不可預(yù)見性。因此,圖書館必須將大部分流數(shù)據(jù)存儲于大數(shù)據(jù)庫中,而將與圖書館實(shí)時決策相關(guān)性較強(qiáng)的流數(shù)據(jù)傳輸至可視化分析系統(tǒng)中,在確保可視化分析系統(tǒng)具有較低的IT系統(tǒng)資源使用量的前提下,大幅提升流數(shù)據(jù)決策的效率、速度、準(zhǔn)確性和實(shí)時可用性。