陳臣 馬曉亭
圖書館大數(shù)據(jù)分析:挑戰(zhàn)、設(shè)計(jì)和展望
陳臣 馬曉亭
大數(shù)據(jù)分析始終是圖書館服務(wù)的重要環(huán)節(jié),與傳統(tǒng)的圖書館數(shù)據(jù)分析相比,大數(shù)據(jù)分析具有數(shù)據(jù)海量、多樣、快速、真實(shí)的特點(diǎn)。論文提出了圖書館大數(shù)據(jù)分析領(lǐng)域數(shù)據(jù)存儲(chǔ)、弱可用性、數(shù)據(jù)建模、資源調(diào)度和個(gè)人隱私保護(hù)等五大關(guān)鍵性挑戰(zhàn)問(wèn)題,最后,設(shè)計(jì)了一種大數(shù)據(jù)分析模型。該大數(shù)據(jù)分析模型明顯提高圖書館對(duì)海量數(shù)據(jù)的處理能力,能夠發(fā)現(xiàn)大數(shù)據(jù)之間存在的關(guān)系和規(guī)則,可有效預(yù)測(cè)圖書館服務(wù)未來(lái)的發(fā)展趨勢(shì),從而增強(qiáng)圖書館服務(wù)決策的準(zhǔn)確性和科學(xué)性。
圖書館大數(shù)據(jù)分析設(shè)計(jì)
DOI 10.16810/j.cnki.1672-514x.2016.03.011
當(dāng)前,隨著圖書館服務(wù)模式的變革與發(fā)展,圖書館數(shù)據(jù)環(huán)境呈現(xiàn)出海量(Volume)、多樣性(Variety)、快速(Velocity)、真實(shí)性(Veracity)的大數(shù)據(jù)4“V”特征,圖書館已跨入大數(shù)據(jù)時(shí)代。
大數(shù)據(jù)分析是圖書館在海量數(shù)據(jù)環(huán)境下,對(duì)復(fù)雜數(shù)據(jù)關(guān)系的重新定義和深度價(jià)值挖掘,是通過(guò)對(duì)海量、多類型、快速增長(zhǎng)和高價(jià)值的數(shù)據(jù)進(jìn)行分析,從中發(fā)現(xiàn)可以指導(dǎo)圖書館進(jìn)行發(fā)展變革、服務(wù)模式構(gòu)建、服務(wù)系統(tǒng)運(yùn)行和讀者QOS(服務(wù)質(zhì)量)保障等決策活動(dòng)所需的數(shù)據(jù)隱藏知識(shí)、相關(guān)關(guān)系和其他有用信息的過(guò)程。大數(shù)據(jù)分析在有效提示圖書館內(nèi)部各要素之間相互關(guān)系、個(gè)體差異和隱藏知識(shí)的同時(shí),也存在著數(shù)據(jù)采集與處理誤差、數(shù)據(jù)產(chǎn)生的異母體性、高計(jì)算成本、噪音干擾累積疊加、假相關(guān)性、外生性等問(wèn)題[1]。因此,如何基于圖書館復(fù)雜數(shù)據(jù)環(huán)境和大數(shù)據(jù)決策需求實(shí)際,探索科學(xué)、高效、精確和經(jīng)濟(jì)的大數(shù)據(jù)分析方法,是關(guān)系圖書館運(yùn)用大數(shù)據(jù)進(jìn)行決策,以及將大數(shù)據(jù)分析結(jié)果有效轉(zhuǎn)化為圖書館服務(wù)決策的重要步驟。
1.1 大數(shù)據(jù)呈現(xiàn)較強(qiáng)的弱可用性
大數(shù)據(jù)可用性通常由數(shù)據(jù)一致性、準(zhǔn)確性、完成性、時(shí)效性、可控性和開放性等六個(gè)部分組成,是有效評(píng)估大數(shù)據(jù)可用性的重要標(biāo)準(zhǔn)。大數(shù)據(jù)時(shí)代,圖書館大數(shù)據(jù)呈現(xiàn)多數(shù)據(jù)采集源、多類型、結(jié)構(gòu)復(fù)雜和低價(jià)值密度的特性,大數(shù)據(jù)經(jīng)采集、處理、傳輸和存儲(chǔ)后,通常以雜亂無(wú)序的方式呈現(xiàn)給圖書館,給圖書館的大數(shù)據(jù)分析師帶來(lái)極大的不便和挑戰(zhàn),因此,大數(shù)據(jù)的可用性成為決定圖書館大數(shù)據(jù)分析有效性的一個(gè)重要因素[2]。
為了保證大數(shù)據(jù)具有較強(qiáng)的可用性,要求圖書館在海量復(fù)雜數(shù)據(jù)環(huán)境下,能夠?qū)崿F(xiàn)對(duì)數(shù)據(jù)源大數(shù)據(jù)采集真實(shí)性、時(shí)效性的自動(dòng)檢測(cè)與修復(fù),保證大數(shù)據(jù)采集真實(shí)、準(zhǔn)確、客觀和有效。此外,還需要對(duì)所采集、存儲(chǔ)的大數(shù)據(jù)進(jìn)行噪聲過(guò)濾、數(shù)據(jù)整合、價(jià)值提取等操作,保證大數(shù)據(jù)具有較高的價(jià)值屬性和密度,并具有全面、可控、準(zhǔn)確和易操作的特性。其次,還應(yīng)通過(guò)翔實(shí)的大數(shù)據(jù)描述框架和數(shù)據(jù)日志,對(duì)重要大數(shù)據(jù)源、大數(shù)據(jù)采集的方法和內(nèi)容、大數(shù)據(jù)的結(jié)構(gòu)及語(yǔ)義復(fù)雜性、大數(shù)據(jù)時(shí)限和數(shù)據(jù)完整性進(jìn)行準(zhǔn)確描述,大幅提升關(guān)鍵大數(shù)據(jù)的價(jià)值、可控性和可用性。第三,圖書館在大數(shù)據(jù)分析中,如何對(duì)海量和在時(shí)間序列上離散、不相關(guān)的大數(shù)據(jù)進(jìn)行聚合、多層次、多維度的分析,并準(zhǔn)確發(fā)現(xiàn)不相關(guān)大數(shù)據(jù)之間隱匿的關(guān)聯(lián)性和知識(shí),是圖書館進(jìn)一步挖掘大數(shù)據(jù)隱藏價(jià)值和規(guī)律,確保大數(shù)據(jù)分析科學(xué)、實(shí)時(shí)、精確和可用的關(guān)鍵[3]。第四,圖書館還應(yīng)通過(guò)對(duì)底層大數(shù)據(jù)的抽象、凝煉,以及對(duì)海量、多源碎片化大數(shù)據(jù)的整合,提升圖書館大數(shù)據(jù)分析過(guò)程中數(shù)據(jù)挖掘的精度和深度,并將大數(shù)據(jù)分析結(jié)果以可視化的模式表現(xiàn)出來(lái),不斷提升大數(shù)據(jù)分析結(jié)果的決策支持力。
1.2 圖書館大數(shù)據(jù)分析環(huán)境復(fù)雜
圖書館大數(shù)據(jù)具有較強(qiáng)的復(fù)雜性和不穩(wěn)定性。當(dāng)前,圖書館大數(shù)據(jù)采集源、采集方法和采集內(nèi)容呈現(xiàn)多樣化特點(diǎn),且數(shù)據(jù)的類型與模式繁多、結(jié)構(gòu)不穩(wěn)定、關(guān)聯(lián)關(guān)系繁雜、質(zhì)量參差不齊,導(dǎo)致圖書館在大數(shù)據(jù)檢索、知識(shí)發(fā)現(xiàn)、語(yǔ)義和情感分析上變得異常復(fù)雜、困難。因此,如何定量、定性地對(duì)圖書館大數(shù)據(jù)復(fù)雜性、產(chǎn)生機(jī)理、價(jià)值本質(zhì)、度量標(biāo)準(zhǔn)準(zhǔn)確定義,是圖書館簡(jiǎn)化大數(shù)據(jù)復(fù)雜性和獲得數(shù)據(jù)知識(shí),構(gòu)建科學(xué)大數(shù)據(jù)計(jì)算、分析模型和算法的前提。其次,圖書館大數(shù)據(jù)具有較強(qiáng)的計(jì)算、分析復(fù)雜性[4]。圖書館大數(shù)據(jù)資源具有海量、多源異構(gòu)、不穩(wěn)定、價(jià)值密度分布不均衡和可控性低的特點(diǎn),傳統(tǒng)的機(jī)器學(xué)習(xí)、信息檢索、數(shù)據(jù)挖掘和數(shù)據(jù)分析算法,不能有效支持復(fù)雜大數(shù)據(jù)環(huán)境下數(shù)據(jù)的處理、計(jì)算、分析和決策活動(dòng)。因此,圖書館需要對(duì)大數(shù)據(jù)的復(fù)雜性、可計(jì)算性、算法科學(xué)性和計(jì)算可控性重新研究、定義,通過(guò)廣泛采集海量大數(shù)據(jù)、過(guò)濾數(shù)據(jù)噪聲、簡(jiǎn)化數(shù)據(jù)關(guān)系,以及堅(jiān)持以大數(shù)據(jù)價(jià)值為驅(qū)動(dòng)的新型數(shù)據(jù)計(jì)算、分析模式,不斷提高大數(shù)據(jù)計(jì)算、分析的安全性和效率。第三,海量、異構(gòu)、低價(jià)值密度和快速計(jì)算的大數(shù)據(jù)4“V”特點(diǎn),對(duì)圖書館大數(shù)據(jù)計(jì)算、分析系統(tǒng)的系統(tǒng)架構(gòu)、計(jì)算框架、處理方法、運(yùn)行效率和系統(tǒng)能耗提出了新的要求。要求大數(shù)據(jù)計(jì)算、分析系統(tǒng)具有較高的大數(shù)據(jù)計(jì)算能力、數(shù)據(jù)吞吐率、內(nèi)部網(wǎng)絡(luò)傳輸效率、數(shù)據(jù)并行處理能力和計(jì)算精度,并有較低的系統(tǒng)結(jié)構(gòu)復(fù)雜度、作業(yè)單位能耗和實(shí)際負(fù)載,可滿足圖書館大數(shù)據(jù)實(shí)時(shí)計(jì)算、分析和決策的需求[5]。
1.3 圖書館大數(shù)據(jù)的存儲(chǔ)、建模與分析難度快速增長(zhǎng)
隨著讀者服務(wù)模式與保障方法的變革,圖書館大數(shù)據(jù)總量快速增長(zhǎng)(從TB級(jí)快速上升到PB、EB'級(jí)),數(shù)據(jù)存儲(chǔ)任務(wù)也從傳統(tǒng)簡(jiǎn)單的系統(tǒng)管理與運(yùn)行數(shù)據(jù)、讀者服務(wù)數(shù)據(jù)、服務(wù)器監(jiān)控?cái)?shù)據(jù)等存儲(chǔ),轉(zhuǎn)變?yōu)橐詧D書館服務(wù)系統(tǒng)管理與運(yùn)行數(shù)據(jù)、讀者服務(wù)數(shù)據(jù)、讀者閱讀內(nèi)容與行為數(shù)據(jù)、讀者特征數(shù)據(jù)與社會(huì)關(guān)系數(shù)據(jù)、圖書館監(jiān)控等其它相關(guān)大數(shù)據(jù)為中心的,包含數(shù)據(jù)噪聲過(guò)濾、數(shù)據(jù)價(jià)值發(fā)現(xiàn)與提取、數(shù)據(jù)整合、數(shù)據(jù)存儲(chǔ)分析等在內(nèi)的大數(shù)據(jù)存儲(chǔ)活動(dòng)。此外,數(shù)據(jù)存儲(chǔ)也從傳統(tǒng)的靜態(tài)存儲(chǔ),轉(zhuǎn)變?yōu)橐源髷?shù)據(jù)生命周期規(guī)律為依據(jù)的動(dòng)態(tài)大數(shù)據(jù)存儲(chǔ)、增減、刪除和修改等操作,要求大數(shù)據(jù)存儲(chǔ)具有海量的存儲(chǔ)能力、高度容錯(cuò)性、支持異構(gòu)環(huán)境、可開放性和可擴(kuò)展性,并具有較低的存儲(chǔ)分析與寫入延遲[6]。
大數(shù)據(jù)分析建模是圖書館科學(xué)分析大數(shù)據(jù)統(tǒng)計(jì)和語(yǔ)義特征,精確發(fā)現(xiàn)數(shù)據(jù)之間的關(guān)系和價(jià)值,并將大數(shù)據(jù)價(jià)值與數(shù)據(jù)關(guān)系轉(zhuǎn)化為客觀知識(shí)的數(shù)據(jù)分析模式,是為數(shù)據(jù)分析提供科學(xué)依據(jù)的重要步驟。當(dāng)前,隨著大數(shù)據(jù)環(huán)境復(fù)雜度的增大和可控性的降低,圖書館數(shù)據(jù)分析模式已從若干個(gè)簡(jiǎn)單分析模型組合,轉(zhuǎn)變?yōu)橛纱罅糠治瞿P徒M成綜合分析模型庫(kù)的方式,統(tǒng)一完成復(fù)雜大數(shù)據(jù)的分析與決策。大數(shù)據(jù)環(huán)境下,讀者閱讀行為具有較強(qiáng)的突發(fā)性,且讀者的閱讀習(xí)慣和需求也在快速變化,對(duì)大數(shù)據(jù)分析系統(tǒng)的實(shí)時(shí)性、準(zhǔn)確性、自主學(xué)習(xí)能力和自動(dòng)數(shù)據(jù)修正提出了較高要求。要求分析系統(tǒng)能夠通過(guò)大數(shù)據(jù)分析,快速找到圖書館服務(wù)模式和保障方式存在的瓶頸問(wèn)題,通過(guò)優(yōu)化服務(wù)策略和資源二次分配,來(lái)滿足讀者閱讀的個(gè)性化差異需求。
圖書館在大數(shù)據(jù)分析中,對(duì)內(nèi)部不同部門的服務(wù)業(yè)務(wù)、讀者個(gè)性化內(nèi)容需求、讀者閱讀行為和社會(huì)關(guān)系、圖書館服務(wù)與市場(chǎng)競(jìng)爭(zhēng)發(fā)展趨勢(shì)等不同的分析算法具有不同的復(fù)雜度、效率和分析成本。因此,要求圖書館建立基于大數(shù)據(jù)分析效率與成本的計(jì)算資源彈性調(diào)度策略,并通過(guò)分析效率與成本的評(píng)估結(jié)果,反饋控制完成對(duì)計(jì)算資源的動(dòng)態(tài)組合和優(yōu)化,確保大數(shù)據(jù)分析過(guò)程安全、高效、準(zhǔn)確和經(jīng)濟(jì)。
1.4 大數(shù)據(jù)分析要求構(gòu)建安全、高效的云數(shù)據(jù)中心
與傳統(tǒng)數(shù)據(jù)環(huán)境相比較,圖書館大數(shù)據(jù)環(huán)境具有數(shù)據(jù)海量、處理快速、多類型、難辨識(shí)、高價(jià)值、低價(jià)值密度和不可預(yù)測(cè)的特點(diǎn)。此外,大數(shù)據(jù)分析結(jié)果的可視化表現(xiàn)、數(shù)據(jù)挖掘算法的科學(xué)性、預(yù)測(cè)性分析能力、對(duì)語(yǔ)義知識(shí)的準(zhǔn)確發(fā)現(xiàn)、大數(shù)據(jù)價(jià)值管理的有效性等,是關(guān)系大數(shù)據(jù)分析科學(xué)、準(zhǔn)確、高價(jià)值和可用的幾個(gè)關(guān)鍵要素。因此,海量、級(jí)速增長(zhǎng)的大數(shù)據(jù)對(duì)圖書館數(shù)據(jù)中心的數(shù)據(jù)計(jì)算、存儲(chǔ)、高速傳輸和快速響應(yīng)能力提出了較高的需求,要求數(shù)據(jù)中心的構(gòu)建必須堅(jiān)持IaaS(基礎(chǔ)設(shè)施即服務(wù))的原則,不斷完善、優(yōu)化系統(tǒng)結(jié)構(gòu),保證數(shù)據(jù)中心的功能、資源可隨圖書館大數(shù)據(jù)分析需求進(jìn)行二次調(diào)整。同時(shí),在保證大數(shù)據(jù)分析資源需求的前提下,大數(shù)據(jù)分析系統(tǒng)具有較高的可用性、可控性和較低運(yùn)營(yíng)成本,具有最優(yōu)化的云計(jì)算資源使用效率和大數(shù)據(jù)分析投資收益率[7]。其次,圖書館大數(shù)據(jù)分析要求對(duì)客戶和市場(chǎng)有清晰、準(zhǔn)確的洞察,能夠?qū)ψx者個(gè)性化閱讀需求、讀者群價(jià)值屬性、閱讀模式轉(zhuǎn)變、精準(zhǔn)營(yíng)銷、產(chǎn)品推薦、服務(wù)風(fēng)險(xiǎn)和欺詐、服務(wù)市場(chǎng)競(jìng)爭(zhēng)環(huán)境變化等有準(zhǔn)確、實(shí)時(shí)、快速和全方位的分析、判斷。此外,要求圖書館可根據(jù)讀者群分布和數(shù)據(jù)分析負(fù)荷,建立多個(gè)位于不同地域的子數(shù)據(jù)中心,保證數(shù)據(jù)中心和子數(shù)據(jù)中心間具有T級(jí)的高速網(wǎng)絡(luò)互聯(lián)??稍诮档驮茢?shù)據(jù)中心系統(tǒng)結(jié)構(gòu)復(fù)雜度和不確定性的前提下,實(shí)現(xiàn)大數(shù)據(jù)分析過(guò)程中云計(jì)算架構(gòu)、云資源和大數(shù)據(jù)分析負(fù)載的最優(yōu)化匹配。
2.1 圖書館大數(shù)據(jù)分析平臺(tái)的系統(tǒng)架構(gòu)
圖書館大數(shù)據(jù)環(huán)境除具有數(shù)據(jù)海量、類型多樣、處理快速和高價(jià)值的4“V”特征外,還存在著大數(shù)據(jù)采集來(lái)源廣泛、非結(jié)構(gòu)化數(shù)據(jù)為主體、數(shù)據(jù)價(jià)值密度低、數(shù)據(jù)噪聲大、實(shí)時(shí)性要求高和可控性不強(qiáng)等問(wèn)題。因此,要求圖書館大數(shù)據(jù)分析平臺(tái)必須堅(jiān)持系統(tǒng)分層和功能化模塊構(gòu)建的原則,在保證每一層中的組件保持內(nèi)聚性的同時(shí),與相臨各層間保持較松散的耦合性,確保大數(shù)據(jù)分析平臺(tái)安全、高效、開放、經(jīng)濟(jì)和可控。
本文設(shè)計(jì)的圖書館大數(shù)據(jù)分析平臺(tái)系統(tǒng)架構(gòu)如圖1所示。
該大數(shù)據(jù)分析系統(tǒng)主要由大數(shù)據(jù)采集層、大數(shù)據(jù)存儲(chǔ)層、大數(shù)據(jù)分析層、大數(shù)據(jù)分析控制層、大數(shù)據(jù)分析結(jié)果表現(xiàn)層5個(gè)部分組成。(1)大數(shù)據(jù)采集層主要由圖書館視頻采集設(shè)備、系統(tǒng)監(jiān)控服務(wù)器、傳感器網(wǎng)絡(luò)、讀者管理信息系統(tǒng)、閱讀終端和第三方大數(shù)據(jù)庫(kù)組成,負(fù)責(zé)圖書館相關(guān)大數(shù)據(jù)的采集、噪聲初級(jí)過(guò)濾、存儲(chǔ)和傳輸?shù)热蝿?wù)。(2)大數(shù)據(jù)存儲(chǔ)層負(fù)責(zé)將由大數(shù)據(jù)采集層傳輸來(lái)的數(shù)據(jù),經(jīng)過(guò)分布式緩存設(shè)備的一級(jí)緩存后存儲(chǔ)入大數(shù)據(jù)庫(kù),通過(guò)對(duì)數(shù)據(jù)存儲(chǔ)過(guò)程的監(jiān)控、存儲(chǔ)優(yōu)化、存儲(chǔ)資源調(diào)度和反饋控制,確保存儲(chǔ)過(guò)程安全、高效、經(jīng)濟(jì)和便捷。(3)大數(shù)據(jù)分析層基于大數(shù)據(jù)存儲(chǔ)層的支持,完成大數(shù)據(jù)的挖掘、價(jià)值發(fā)現(xiàn)、關(guān)聯(lián)分析、聯(lián)機(jī)分析處理、分析層系統(tǒng)的自主學(xué)習(xí)等。(4)大數(shù)據(jù)分析控制層負(fù)責(zé)對(duì)大數(shù)據(jù)分析過(guò)程進(jìn)行監(jiān)控、管理與安全預(yù)警、系統(tǒng)資源調(diào)度、系統(tǒng)分析的優(yōu)化和實(shí)時(shí)分析管理等操作,并通過(guò)反饋控制來(lái)保證大數(shù)據(jù)分析層整體效率和分析結(jié)果最優(yōu)。(5)大數(shù)據(jù)分析結(jié)果表現(xiàn)層基于底層服務(wù)的支持,完成圖書館大數(shù)據(jù)分析結(jié)果的處理與統(tǒng)計(jì)、可視化表現(xiàn)建模、可視化表現(xiàn)、分析結(jié)果的有效性評(píng)估,以及通過(guò)評(píng)估結(jié)果完成對(duì)分析控制層的反饋控制,實(shí)現(xiàn)大數(shù)據(jù)分析平臺(tái)系統(tǒng)運(yùn)行的資源投入收益與評(píng)估結(jié)果整體最優(yōu)化[8]。
2.2 圖書館大數(shù)據(jù)分析平臺(tái)系統(tǒng)的應(yīng)用策略
2.2.1 確保圖書館大數(shù)據(jù)資源分析結(jié)果高價(jià)值和可用
圖書館大數(shù)據(jù)的內(nèi)容除了傳統(tǒng)的讀者特征數(shù)據(jù)、用戶服務(wù)數(shù)據(jù)、服務(wù)器日志和服務(wù)器監(jiān)控?cái)?shù)據(jù)外,還包含了讀者閱讀行為的監(jiān)控?cái)?shù)據(jù)、讀者社會(huì)關(guān)系數(shù)據(jù)、讀者個(gè)體地理位置信息、閱讀終端配置與運(yùn)行數(shù)據(jù)、圖書館管理與服務(wù)系統(tǒng)運(yùn)營(yíng)日志、用戶身份與訪問(wèn)數(shù)據(jù)、應(yīng)用系統(tǒng)數(shù)據(jù)、業(yè)務(wù)信息和外部市場(chǎng)競(jìng)爭(zhēng)環(huán)境數(shù)據(jù)等,這些大數(shù)據(jù)具有不穩(wěn)定、快速流動(dòng)、相互關(guān)系復(fù)雜和可控性差的特點(diǎn),嚴(yán)重影響了圖書館大數(shù)據(jù)資源的價(jià)值發(fā)現(xiàn)、提取和應(yīng)用。
為了確保圖書館大數(shù)據(jù)資源具有較高的價(jià)值屬性和可用性,大數(shù)據(jù)采集終端首先應(yīng)對(duì)所采集的數(shù)據(jù)進(jìn)行初級(jí)篩選、標(biāo)準(zhǔn)化處理和整合等操作,然后按照數(shù)據(jù)采集對(duì)象、類型和作用對(duì)象進(jìn)行劃分,將數(shù)據(jù)傳輸至大數(shù)據(jù)采集端初級(jí)數(shù)據(jù)庫(kù),進(jìn)行簡(jiǎn)單的預(yù)存儲(chǔ)、查詢、處理和噪聲過(guò)濾工作,在降低數(shù)據(jù)采集端負(fù)載和減少采集端大數(shù)據(jù)總量的前提下,提升圖書館大數(shù)據(jù)的價(jià)值密度和可用性[9]。其次,應(yīng)將由多個(gè)數(shù)據(jù)采集端采集、處理后的大數(shù)據(jù)傳輸至圖書館大數(shù)據(jù)存儲(chǔ)庫(kù)。大數(shù)據(jù)存儲(chǔ)庫(kù)應(yīng)具備海量數(shù)據(jù)存儲(chǔ)能力和分布式集群運(yùn)行的工作方式,可對(duì)大數(shù)據(jù)進(jìn)行存儲(chǔ)優(yōu)化、快速清洗和預(yù)處理等操作,具備復(fù)雜大數(shù)據(jù)的快速查詢、調(diào)度和計(jì)算能力,可有效保障圖書館管理與服務(wù)的適時(shí)分析、決策需求。第三,圖書館還應(yīng)利用大數(shù)據(jù)的分析程序,對(duì)存儲(chǔ)的大數(shù)據(jù)進(jìn)行類型分析、分類匯總、分類存儲(chǔ)等操作,在大數(shù)據(jù)存儲(chǔ)庫(kù)中完成大數(shù)據(jù)的初級(jí)預(yù)測(cè)、分類、價(jià)值挖掘和數(shù)據(jù)融合。
2.2.2 大數(shù)據(jù)分析應(yīng)以讀者閱讀需求和QOS保證為中心
大數(shù)據(jù)時(shí)代,圖書館大數(shù)據(jù)分析面臨著管理與服務(wù)系統(tǒng)體系架構(gòu)日趨復(fù)雜、分析數(shù)據(jù)海量多樣、傳統(tǒng)的分析平臺(tái)與方法不可用、數(shù)據(jù)關(guān)系復(fù)雜和知識(shí)發(fā)現(xiàn)困難等問(wèn)題。為了確保大數(shù)據(jù)分析科學(xué)、可用、經(jīng)濟(jì)和可控,圖書館必須以讀者閱讀需求和QOS保證為中心,不斷提升大數(shù)據(jù)分析對(duì)圖書館服務(wù)模式與方法變革的支持力。
行為大數(shù)據(jù)是圖書館分析讀者行為隨機(jī)模式、挖掘行為價(jià)值和明確讀者需求的基礎(chǔ)數(shù)據(jù)。讀者行為大數(shù)據(jù)主要有個(gè)性化閱讀內(nèi)容定制、搜索、瀏覽、點(diǎn)評(píng)、取消、移動(dòng)閱讀路徑、個(gè)體地理位置、閱讀社交活動(dòng)、服務(wù)評(píng)價(jià)等,以及在第三方服務(wù)平臺(tái)上開展的與閱讀活動(dòng)相關(guān)的行為數(shù)據(jù)。圖書館必須對(duì)讀者行為數(shù)據(jù)的類型、格式進(jìn)行準(zhǔn)確的規(guī)范性定義,并實(shí)施即時(shí)、動(dòng)態(tài)、快速和便捷的大數(shù)據(jù)價(jià)值提取、分析和決策策略,才能確保圖書館服務(wù)決策隨著讀者閱讀需求的變化而動(dòng)態(tài)變化,才能保證具有較高的讀者閱讀滿意度[10]。其次,圖書館應(yīng)基于讀者閱讀活動(dòng)質(zhì)量與滿意度評(píng)估結(jié)果,對(duì)圖書館的業(yè)務(wù)流程進(jìn)行修改和完善。在可視化分析技術(shù)的支持下,幫助管理員查找出關(guān)系圖書館業(yè)務(wù)流程效率的關(guān)鍵因素,發(fā)現(xiàn)業(yè)務(wù)流程與讀者閱讀忠誠(chéng)度之間的關(guān)系,通過(guò)提升關(guān)系圖書館服務(wù)有效性的關(guān)鍵業(yè)務(wù)收益和應(yīng)用系統(tǒng)效率,來(lái)提高圖書館服務(wù)的綜合收益率和讀者滿意度。第三,圖書館應(yīng)依據(jù)對(duì)讀者閱讀需求和QOS保障有效性的分析結(jié)果,科學(xué)預(yù)測(cè)出圖書館服務(wù)理念轉(zhuǎn)化、服務(wù)模式變革、讀者閱讀需求變化、管理與服務(wù)系統(tǒng)IT基礎(chǔ)設(shè)施架構(gòu)發(fā)展的趨勢(shì),確保圖書館在發(fā)展戰(zhàn)略決策制定、服務(wù)模式變革、管理與服務(wù)的IT系統(tǒng)建設(shè)和市場(chǎng)競(jìng)爭(zhēng)環(huán)境分析中,具有安全、科學(xué)、開放、低風(fēng)險(xiǎn)和低投入的優(yōu)勢(shì)。并可根據(jù)大數(shù)據(jù)的決策支持,對(duì)未來(lái)用戶服務(wù)模式變革和讀者服務(wù)需求科學(xué)、任意和可控地?cái)U(kuò)展。
2.2.3 圖書館大數(shù)據(jù)分析應(yīng)基于多維度動(dòng)態(tài)的分析方法
非結(jié)構(gòu)化數(shù)據(jù)占據(jù)圖書館數(shù)據(jù)總量的85%以上,主要由視頻監(jiān)控?cái)?shù)據(jù)、服務(wù)器運(yùn)行日志數(shù)據(jù)、服務(wù)器與閱讀終端配置數(shù)據(jù)、讀者閱讀行為數(shù)據(jù)、讀者閱讀社交數(shù)據(jù)、讀者個(gè)體位置信息,以及來(lái)自設(shè)備或者其它數(shù)據(jù)庫(kù)的流數(shù)據(jù)等組成。如何制定科學(xué)的大數(shù)據(jù)分析機(jī)制,把非結(jié)構(gòu)化數(shù)據(jù)統(tǒng)一標(biāo)準(zhǔn)、類型和分析流程,是圖書館多角度挖掘非結(jié)構(gòu)化數(shù)據(jù)的價(jià)值和發(fā)現(xiàn)相關(guān)知識(shí)的前提。
當(dāng)前,傳統(tǒng)的OLAP(聯(lián)機(jī)分析處理)方式存在的最主要問(wèn)題是伴隨服務(wù)模式、業(yè)務(wù)的發(fā)展與變革,所構(gòu)造的圖書館業(yè)務(wù)模型和數(shù)據(jù)分析模式也經(jīng)常發(fā)生變化。數(shù)據(jù)分析師在依據(jù)圖書館業(yè)務(wù)維度和度量的變化對(duì)分析多維立方體重新定義和生成時(shí),會(huì)導(dǎo)致數(shù)據(jù)分析的穩(wěn)定性、可靠性和可用性下降。因此,圖書館可利用諸如Hadoop分布式系統(tǒng)基礎(chǔ)架構(gòu),在不需了解分布式底層細(xì)節(jié)的情況下,支持大數(shù)據(jù)分析師充分利用高速運(yùn)算和存儲(chǔ)集群,將圖書館采集的大量冗余維度信息整合到事實(shí)表中,確保在冗余維度下靈活地改變大數(shù)據(jù)分析的角度。此外,還可利用Hadoop的強(qiáng)大并行化處理能力,保證大數(shù)據(jù)OLAP分析的開銷不隨分析維度的增加而大幅增長(zhǎng)。大數(shù)據(jù)分析師通過(guò)對(duì)維度和度量精確定義后,可根據(jù)圖書館各部門的業(yè)務(wù)需求和變化將維度任意地劃分和重組,將業(yè)務(wù)的維度和度量直接翻譯成MapReduce運(yùn)行并生成報(bào)表,為不同部門、層次的人員在圖書館發(fā)展變革、管理和服務(wù)過(guò)程中,提供大數(shù)據(jù)的分析與決策支持[11]。
圖書館基于多維度動(dòng)態(tài)的大數(shù)據(jù)分析,還應(yīng)注重提升將大數(shù)據(jù)匯聚成單一的信息邏輯集和可視化處理的能力,在分析時(shí)通過(guò)對(duì)結(jié)構(gòu)化或非結(jié)構(gòu)化物理數(shù)據(jù)的底層結(jié)構(gòu)進(jìn)行去耦合,來(lái)提高大數(shù)據(jù)分析的靈活性。特別要滿足大數(shù)據(jù)分析師、各部門業(yè)務(wù)人員、業(yè)務(wù)流程分析程序、關(guān)鍵性應(yīng)用程序?qū)χ匾髷?shù)據(jù)的實(shí)時(shí)獲取、更新需求,并利用圖書館獲得的第三方相關(guān)數(shù)據(jù),對(duì)大數(shù)據(jù)的分析方法、分析流程和結(jié)果進(jìn)行修正、完善后,將大數(shù)據(jù)分析結(jié)果與圖書館相關(guān)部門、人員的決策流程進(jìn)行綁定,提高圖書館大數(shù)據(jù)分析、決策和結(jié)果修正的智能自動(dòng)化水平。
2.2.4 確保大數(shù)據(jù)分析模型和方法科學(xué)、高效
圖書館在大數(shù)據(jù)分析中,大數(shù)據(jù)質(zhì)量、管理有效性、數(shù)據(jù)挖掘算法科學(xué)性、分析結(jié)果可預(yù)測(cè)性、語(yǔ)義分析引擎可用性、分析結(jié)果可視化表現(xiàn)等因素,是大數(shù)據(jù)分析模型運(yùn)行和分析結(jié)果呈現(xiàn)科學(xué)性應(yīng)重點(diǎn)關(guān)注的幾個(gè)問(wèn)題。
《信號(hào)與噪聲》的作者Nate Silver在書中描述道:“更多的數(shù)據(jù)意味著更多的噪聲。信號(hào)是真相,而噪聲卻使我們離真相越來(lái)越遠(yuǎn)。”指出大數(shù)據(jù)只是數(shù)據(jù)分析的基礎(chǔ)和前提,而如何構(gòu)建科學(xué)的大數(shù)據(jù)分析模型和采用有效的數(shù)據(jù)分析算法,則是決定大數(shù)據(jù)分析科學(xué)、可用的關(guān)鍵因素[12]。在現(xiàn)實(shí)的圖書館大數(shù)據(jù)分析中,數(shù)據(jù)分析師會(huì)習(xí)慣性地采用傳統(tǒng)的固定分析方式,對(duì)大數(shù)據(jù)進(jìn)行分析、價(jià)值挖掘、解釋和預(yù)測(cè),這些方式難以將噪聲信號(hào)從大數(shù)據(jù)中有效地分離出來(lái),會(huì)影響大數(shù)據(jù)分析結(jié)果的真實(shí)性和可用性。因此,大數(shù)據(jù)分析模型應(yīng)利用層次化的架構(gòu)描述,明確大數(shù)據(jù)在不同層次上的表達(dá),幫助圖書館挖掘出復(fù)雜數(shù)據(jù)關(guān)系中蘊(yùn)涵的價(jià)值和決策過(guò)程中復(fù)雜抽象的問(wèn)題。此外,圖書館還應(yīng)對(duì)大數(shù)據(jù)分析所依賴的知識(shí)庫(kù)動(dòng)態(tài)地添加、修改、刪除和更新,重點(diǎn)關(guān)注關(guān)系知識(shí)庫(kù)可用性的知識(shí)概念、實(shí)例、屬性和關(guān)系等。
大數(shù)據(jù)分析結(jié)果的可視化表現(xiàn),是關(guān)系圖書館能否全面、有效地獲取大數(shù)據(jù)分析結(jié)果中的隱含知識(shí),以及依據(jù)分析知識(shí)做出正確決策的重要問(wèn)題。圖書館大數(shù)據(jù)可視化分析面臨的挑戰(zhàn)是分析對(duì)象的海量、高維度、多來(lái)源和動(dòng)態(tài)變化,以及分析結(jié)果的真實(shí)、即時(shí)和全面可視化表現(xiàn)等問(wèn)題。因此,圖書館對(duì)分析結(jié)果的可視化表現(xiàn),應(yīng)重點(diǎn)加強(qiáng)對(duì)大數(shù)據(jù)流的壓縮和冗余信息的刪除,以此降低大數(shù)據(jù)計(jì)算、分析和表現(xiàn)的復(fù)雜度,從多尺度、多層次和多方向上實(shí)現(xiàn)分析結(jié)果的科學(xué)表現(xiàn)和知識(shí)的可視化展示。
目前,圖書館已進(jìn)入大數(shù)據(jù)時(shí)代,如何有效地采集、處理、存儲(chǔ)和挖掘大數(shù)據(jù),并安全、科學(xué)、經(jīng)濟(jì)和可視化地分析大數(shù)據(jù),成為影響圖書館發(fā)展決策科學(xué)性、服務(wù)模式變革有效、QOS保證和讀者閱讀滿意度的重要問(wèn)題。為了保證大數(shù)據(jù)分析過(guò)程科學(xué)、可用、可控和經(jīng)濟(jì),大數(shù)據(jù)分析結(jié)果能夠有效地支持圖書館管理層決策和各業(yè)務(wù)部門的讀者日常服務(wù)工作,圖書館必須將大數(shù)據(jù)分析全面融入到圖書館的變革、管理和服務(wù)全程,改變圖書館管理層與館員傳統(tǒng)的直覺、經(jīng)驗(yàn)分析決策模式,并在大數(shù)據(jù)分析中重點(diǎn)關(guān)注可視化分析、數(shù)據(jù)挖掘算法、預(yù)測(cè)性分析能力、語(yǔ)義引擎、數(shù)據(jù)質(zhì)量和管理、用戶隱私保護(hù)等六個(gè)方面的問(wèn)題,才能確保圖書館大數(shù)據(jù)分析科學(xué)、可用,才能為圖書館變革與服務(wù)提供可靠的大數(shù)據(jù)分析、決策支持[13]。
[1]何非,何克清.大數(shù)據(jù)及其科學(xué)問(wèn)題與方法的探討[J].武漢大學(xué)學(xué)報(bào)(理學(xué)版),2014,60(1):1-12.
[2]官思發(fā),孟璽,李宗潔,等.大數(shù)據(jù)分析研究現(xiàn)狀、問(wèn)題與對(duì)策[J].情報(bào)雜志,2015,34(5):98-104.
[3]張春磊,楊小牛.大數(shù)據(jù)分析(BDA)及其在情報(bào)領(lǐng)域的應(yīng)用[J].中國(guó)電子科學(xué)研究院學(xué)報(bào),2013,8(1):18-22.
[4]覃雄派,王會(huì)舉,杜小勇,等.大數(shù)據(jù)分析:R DBMS與Map R educe的競(jìng)爭(zhēng)與共生[J].軟件學(xué)報(bào),2012,23(1):32-45.
[5]李晨暉,崔建明,陳超泉.大數(shù)據(jù)知識(shí)服務(wù)平臺(tái)構(gòu)建關(guān)鍵技術(shù)研究[J].情報(bào)資料工作,2013(2):29-34.
[6]BELAUD J,NEGNY S,DUPROS F.Collaborative simulation and scientific big data analysis:Illustration for sustainability in natural hazards management and chemicalprocess engineering[J].Computers in Industry,2014,65(3):521-535.
[7]王意潔,孫偉東,周松,等.云計(jì)算環(huán)境下的分布存儲(chǔ)關(guān)鍵技術(shù)[J].軟件學(xué)報(bào),2012,23(4):962-986.
[8]DURSUN D,HALUK D.Data,information and analytics asservices[J].Decision SupportSystems,2013,55(1):359-363.
[9]李廣健,化柏林.大數(shù)據(jù)分析與情報(bào)分析關(guān)系辨析[J].中國(guó)圖書館學(xué)報(bào),2014,40(5):14-22.
[10]李建中,劉顯敏.大數(shù)據(jù)的一個(gè)重要方面[J].計(jì)算機(jī)研究與發(fā)展,2013,50(6):1147-1162.
[11]IBM accelerators for big data[EB/OL].[2015-07-02].http: public.dhe.ibm.com/common/ssi/ecm/en/imd144 14usen/IMD14414USEN.PDF
[12]王珊,王會(huì)舉,覃雄派,等.架構(gòu)大數(shù)據(jù):挑戰(zhàn)、現(xiàn)狀與展望[J].計(jì)算機(jī)學(xué)報(bào),2011,34(10):1741-1752.
[13]孫大為,張廣艷,鄭緯民.大數(shù)據(jù)流式計(jì)算:關(guān)鍵技術(shù)及系統(tǒng)實(shí)例[J].軟件學(xué)報(bào),2014,25(4):839-862.
陳臣蘭州財(cái)經(jīng)大學(xué)信息中心副教授。甘肅蘭州,730020。
馬曉亭蘭州財(cái)經(jīng)大學(xué)信息工程學(xué)院副教授。甘肅蘭州,730020。
Big Data Analysis of Library:Challenges,Designs and Forecasts
Chen Chen,Ma Xiaoting
Big data analysis is always an important part of library services.Compared with traditional data analysis of library, big data analysis is volume,variety,velocity and veracity.This paper comes up with five key challenges in big data analysis of library,such as data storage,weak data usability,data modeling,resource distribution and personal privacy preservation.At last,it designs a big data analytical model which can greatly improve the processing capability of mass data of library,find the relationship and rule between big data,predict the future trend of library services,and improve veracity and scientificity of the decision-making in library services.
Library.Big data analysis.Design.
G250.76
2015-08-06 編校:劉明)