●徐 強(qiáng),楊 佳(上海圖書館·上??茖W(xué)技術(shù)情報研究所系統(tǒng)網(wǎng)絡(luò)中心,上海 200031)
閱讀大數(shù)據(jù)——圖書館聯(lián)合體的創(chuàng)新型數(shù)據(jù)服務(wù)探索
●徐強(qiáng),楊佳(上海圖書館·上??茖W(xué)技術(shù)情報研究所系統(tǒng)網(wǎng)絡(luò)中心,上海200031)
[關(guān)鍵詞]數(shù)據(jù)分析;數(shù)據(jù)挖掘;數(shù)據(jù)可視化;圖書館聯(lián)合體;數(shù)據(jù)倉庫;智慧城市 圖12013熱門
[摘要]大數(shù)據(jù)是人們獲得新知,創(chuàng)造新價值的源泉。圖書館聯(lián)合體如何利用自身信息系統(tǒng)內(nèi)的閱讀大數(shù)據(jù)資源、通過數(shù)據(jù)分析挖掘產(chǎn)生新的效益,開啟圖書館轉(zhuǎn)型發(fā)展的新方向,重塑讀者與圖書館,讀者與書,圖書館與內(nèi)容供應(yīng)者之間的關(guān)系。本文介紹了上海圖書館利用數(shù)據(jù)可視化方法展現(xiàn)圖書館聯(lián)合體的大數(shù)據(jù)資源,藉此進(jìn)行智慧型數(shù)據(jù)創(chuàng)新服務(wù)實踐,并幫助圖書館洞察運營情況和未來發(fā)展趨勢。
對于“大數(shù)據(jù)”(Big data),研究機(jī)構(gòu)Gartner給出了這樣的定義,“大數(shù)據(jù)”是需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)。大數(shù)據(jù)技術(shù)的戰(zhàn)略意義不在于掌握龐大的數(shù)據(jù)信息,而在于對這些含有意義的數(shù)據(jù)進(jìn)行專業(yè)化處理。換言之,如果把大數(shù)據(jù)比作一種產(chǎn)業(yè),那么這種產(chǎn)業(yè)實現(xiàn)盈利的關(guān)鍵在于提高對數(shù)據(jù)的“加工能力”,通過“加工”實現(xiàn)數(shù)據(jù)的“增值”。[1]目前,業(yè)界將大數(shù)據(jù)歸納為4個“V”——Volume(大量)、Variety(多樣)、Velocity(高速)、Value(價值)。2012年3月,美國政府發(fā)布了《大數(shù)據(jù)研究和發(fā)展倡議》(BigData Researchand DevelopmentInitiative),此項帶有2億美元推動資金的倡議,旨在通過推動和改善與大數(shù)據(jù)相關(guān)的收集、組織和分析工具及技術(shù),提升從海量和復(fù)雜的數(shù)據(jù)集中獲取知識和洞察分析的能力,美國已將大數(shù)據(jù)作為國家級的戰(zhàn)略。由此可見,在大數(shù)據(jù)時代,圖書館對其賴以生存的兩大基石“讀者”和“資源”應(yīng)該作出新審視,為閱讀創(chuàng)造前所未有可量化的維度,使閱讀大數(shù)據(jù)將“讀者”、“資源”和“圖書館”緊密聯(lián)系在一起,從而為提升圖書館服務(wù)價值提供新的強(qiáng)大動力。
圖書館的變革實際上早已開始,從“為書找人”到“為人找書”,從“圖書館數(shù)字化”到“數(shù)字化圖書館”,從傳統(tǒng)圖書館向復(fù)合型圖書館轉(zhuǎn)型,但是大數(shù)據(jù)時代開啟了重大的時代轉(zhuǎn)型,如果把大數(shù)據(jù)作為一種新技術(shù),也必然要經(jīng)歷Gartner技術(shù)成熟度曲線的萌芽期、膨脹期、谷底期、爬坡期和穩(wěn)定期等階段。而圖書館始終關(guān)心的“以讀者為中心”的服務(wù)創(chuàng)新在大數(shù)據(jù)時代遇到前所未有的挑戰(zhàn),雖然眾多圖書館都希望知道自己的讀者從哪里來、希望到哪里去、究竟他們在看哪些書、想看哪些書、關(guān)注哪些內(nèi)容信息、對哪些圖書館的閱讀環(huán)境和服務(wù)有好感、經(jīng)常去哪些圖書館、希望圖書館如何改進(jìn)服務(wù)等,但是,圖書館坐擁大量文獻(xiàn)資源和信息系統(tǒng),卻不知如何利用自身信息系統(tǒng)內(nèi)的數(shù)據(jù)資源、通過數(shù)據(jù)分析挖掘產(chǎn)生新的效益,從而為讀者提供新的服務(wù)內(nèi)容和服務(wù)形式。
作為單體圖書館的上海圖書館擁有大量的文獻(xiàn)資源和讀者群,但對于讀者在圖書館的借閱行為缺乏深入了解,也沒有相關(guān)的系統(tǒng)記錄和讀者行為分析以改善和提升圖書館的服務(wù)品質(zhì)。隨著上海地區(qū)圖書館聯(lián)合體建設(shè)的推進(jìn),上海市中心圖書館“一卡通”服務(wù)體系的完善,自2008年開始,上海圖書館對圖書館聯(lián)合體提供核心支撐的圖書館集成管理系統(tǒng)開始記錄讀者所有的借閱行為和流通歷史記錄。隨著數(shù)據(jù)大規(guī)模的累積,如何充分利用這些數(shù)據(jù)為讀者服務(wù),進(jìn)而對圖書館的資源配置、館藏建設(shè)、讀者服務(wù)、運營狀態(tài)和發(fā)展趨勢作出相應(yīng)的預(yù)測和反饋是擺在我們面前的一大課題。
上海市中心圖書館是在不改變各參與圖書館的行政隸屬、人事和財政關(guān)系的情況下,以上海圖書館為總館,其他區(qū)(縣)公共圖書館、高校圖書館以及專業(yè)圖書館等為分館,以計算機(jī)網(wǎng)絡(luò)為基礎(chǔ),以知識導(dǎo)
航為動力,以文獻(xiàn)資源共享為目標(biāo),以提高讀者服務(wù)水平為目的,組建的一種新穎的圖書館聯(lián)合體。[2]在聯(lián)合體中的圖書館能實行統(tǒng)一的借閱制度,實現(xiàn)文獻(xiàn)異地通借通還“一卡通”服務(wù)。2013年,上海圖書館作為上海市中心圖書館總館,同時支撐著總館和中心圖書館253家區(qū)縣和街鎮(zhèn)“一卡通”圖書館分館的運營(中心圖書館“一卡通”成員館主要有上海圖書館總館1個,上海少年兒童圖書館1個、服務(wù)網(wǎng)點數(shù)1個,區(qū)縣分館23個、服務(wù)網(wǎng)點數(shù)46個,街道鄉(xiāng)鎮(zhèn)服務(wù)點213個、服務(wù)網(wǎng)點數(shù)236個,其他服務(wù)點10個、服務(wù)網(wǎng)點數(shù)10個,高校分館1個,專業(yè)分館4個,服務(wù)網(wǎng)點299個),其中“少兒一卡通”成員館機(jī)構(gòu)數(shù)148個,上海市中心圖書館服務(wù)網(wǎng)點總量達(dá)299個,分揀中心1個,總讀者群逾210萬,全年書刊通借通還流通量達(dá)4432萬冊次(2009年1887萬,2010年2349萬,2011年3053萬,2012年3071萬)。海量的讀者數(shù)據(jù)、讀者信息行為產(chǎn)生的數(shù)據(jù)在系統(tǒng)中沉睡,等待發(fā)揮它們的價值。在保障用戶隱私的基礎(chǔ)上,上海圖書館一直在嘗試激活系統(tǒng)中沉睡的海量讀者數(shù)據(jù)、讀者信息行為數(shù)據(jù),發(fā)揮它們應(yīng)有的價值。
2.1數(shù)據(jù)可視化的概念、作用與特性
數(shù)據(jù)可視化致力于創(chuàng)建那些以直觀方式傳達(dá)抽象信息的手段和方法。[3]可視化的表達(dá)形式與交互技術(shù)則是利用人類眼睛通往心靈深處的廣闊帶寬優(yōu)勢,使得用戶能夠目睹、探索并理解大量的信息。[4]視覺是人類最重要的感知,人腦所能接受的外界信息90%以上源于人眼的視覺感知,[5]高質(zhì)量的信息圖能比文字更快速地被理解。因此,利用可視化技術(shù)將經(jīng)過整序后的復(fù)雜數(shù)據(jù)集合以精簡的圖形、文字、數(shù)字相結(jié)合的方式展現(xiàn),可以使得觀眾快速了解數(shù)據(jù)所想展現(xiàn)的內(nèi)容以及洞察關(guān)鍵。
2.2數(shù)據(jù)可視化在圖書館的應(yīng)用
西雅圖公共圖書館(Seattle Public Library,SPL)改建建筑空間時提出,利用信息技術(shù)將圖書管理視作數(shù)據(jù),將圖書館視作數(shù)據(jù)交換中心,利用可視化手段展現(xiàn)數(shù)據(jù)。SPL與交互媒體設(shè)計George Legrady合作的名為“Making Visible the Invisible”的項目計劃在十年間將采集的圖書流通量以小時為單位進(jìn)行分析,并利用可視化技術(shù)將分析結(jié)果展現(xiàn)在6個LCD的屏幕上,該屏幕位于改建后的SPL主要咨詢臺上方,背后即為SPL的一個大型開放式信息檢索、研究閱覽室。[6]
3.1應(yīng)用案例
2013年度,上海圖書館和上海市中心圖書館“一卡通”系統(tǒng)總流通量4432萬冊次,同比增長17.5%。流通讀者數(shù)60.5萬,年平均外借量26.06冊,一半以上的讀者年外借量超過14冊。這個“閱讀大數(shù)據(jù)”的發(fā)布,既是為了通過數(shù)據(jù)分析了解讀者喜好,反映讀者閱讀傾向,更是為了合理配置館藏采購,更好地貼合讀者的實際需求,提供更好的讀者服務(wù)。
通過對2013年度的流通數(shù)據(jù)進(jìn)行分析,尋找熱點分類、熱門作者、熱門出版社,發(fā)掘各類圖書中的閱讀熱點(見圖1)。通過比較成人與少兒不同類型圖書的區(qū)別,力圖敘述熱點背后的故事。如:成人讀者的閱讀選擇主要呈現(xiàn)的特點是“諾獎熱”、“時事熱”;少兒讀者的閱讀選擇更加多樣化,但總體偏愛繪畫型寓教于樂的繪本、百科全書等科普類讀物。
結(jié)合讀者年齡、性別等屬性,分析不同讀者群的閱讀傾向。2013年度,圖書館聯(lián)合體的流通讀者中,總體以青年人為主,其中年輕讀者群中,女性的占比略高,年老讀者中,男性的占比略高。在政治法律、軍事、數(shù)理化工業(yè)技術(shù)各個方面,男性的外借量都明顯大于女性,女性偏向文化、教育、語言等類型的圖書。
3.2數(shù)據(jù)分析維度
在沒有閱讀大數(shù)據(jù)積累的過去,圖書館大部分依靠讀者調(diào)查和反饋來獲取一手的讀者意見,其統(tǒng)計方法以抽樣調(diào)查為主,即使有信息系統(tǒng)數(shù)據(jù)支撐,其數(shù)據(jù)量和數(shù)據(jù)管理也難以有效支撐閱讀大數(shù)據(jù)的分析,結(jié)果相關(guān)性和針對性不足,統(tǒng)計效率和實時性也較差。新的閱讀大數(shù)據(jù)分析以全數(shù)據(jù)代替抽樣,以大數(shù)據(jù)高效率分析取代抽樣精確性分析,以尋找閱讀關(guān)聯(lián)性結(jié)果為閱讀因果分析提供依據(jù)。因此,閱讀數(shù)據(jù)分析就以讀者最感興趣的圖書流通數(shù)據(jù)為主要采集對象,從人、書、地三個實體理解數(shù)據(jù)。人,是訪問圖
書館的讀者,他們借閱書刊、檢索數(shù)據(jù)庫、獲取新知。不同的人具有不同的性別、年齡、學(xué)歷、職業(yè)等屬性,影響他們不同的閱讀習(xí)慣和偏好。書,是圖書館提供借閱服務(wù)的根本,經(jīng)過編目人員的專業(yè)加工,具有書名、著者、出版社、分類號、封面等各種屬性。地,是由上海圖書館和上海市中心圖書館聯(lián)合體的性質(zhì)決定的,具有層級、區(qū)縣等屬性。
4.1數(shù)據(jù)采集與分析
在人、書、地三個實體的基礎(chǔ)上,加上時間信息,構(gòu)成的一次借還行為即為數(shù)據(jù)采集的一條原始信息行為。這樣一條簡單的信息,并不足以支撐數(shù)據(jù)服務(wù)的設(shè)計表現(xiàn),為了能記敘性、比喻性、聯(lián)合性地將數(shù)據(jù)設(shè)計以圖形化信息呈現(xiàn),需要將流通信息結(jié)合各個實體的不同屬性,通過借出/歸還的單一事件驅(qū)動,加之以地點信息,表現(xiàn)出系統(tǒng)的特征。因此,在流通數(shù)據(jù)的基礎(chǔ)上,數(shù)據(jù)采集的范圍包括圖書館自動化管理系統(tǒng)、讀者信息管理系統(tǒng)。由于系統(tǒng)內(nèi)的圖書編目不涉及封面,為了可視化呈現(xiàn)有更具體、直觀的效果,還需與第三方機(jī)構(gòu)合作,獲取圖書封面,通過開放接口(API)的方式進(jìn)行數(shù)據(jù)交換。
大數(shù)據(jù)分析面臨的一個問題就是隱私性,在綜合考慮數(shù)據(jù)安全性、讀者隱私的前提下,上海圖書館采用自主研發(fā)方式,利用系統(tǒng)自動采集,隱去讀者標(biāo)識,在統(tǒng)計分析的基礎(chǔ)上,通過提供webservice接口方式,形成一套標(biāo)準(zhǔn)的數(shù)據(jù)輸出。每天采集流通信息12萬冊次以上,每分鐘采集一次數(shù)據(jù),每天的數(shù)據(jù)采集完畢后,進(jìn)入歷史庫,以日期為單位進(jìn)行切片保存。
圖2 以流通行為觸發(fā)的數(shù)據(jù)流示意圖
4.2數(shù)據(jù)輸出
經(jīng)過整序處理的數(shù)據(jù),通過標(biāo)準(zhǔn)的webservice接口輸出,數(shù)據(jù)接口同時提供XML、JSON兩種格式的輸出結(jié)果。由于XML的結(jié)構(gòu)規(guī)范要求嚴(yán)格,而書名等文字信息中可能包含一些特殊的字符格式,這些字符可能會導(dǎo)致程序無法正確解析整個XML文件,因此,采取JSON返回方式具有更高的穩(wěn)定性。JSON是一種輕量級的數(shù)據(jù)交換格式,文件不具有明顯的強(qiáng)結(jié)構(gòu)特征。
圖書館聯(lián)合體要展現(xiàn)流通數(shù)據(jù)的可視化,需要呈現(xiàn)出圖書館即時服務(wù)的情況,時間、地點維度是較易被考慮到的展現(xiàn)方面,不同地區(qū)的圖書館由于服務(wù)范圍、區(qū)域用戶的不同,服務(wù)量有所差別;不同的日期、同一天內(nèi)的不同時間,圖書館服務(wù)量都會有所不同。
圖3 某館某日外借冊數(shù)
據(jù)統(tǒng)計,雙休日的到館讀者數(shù)一般為工作日的1.5~2倍。由圖3可以看出每天流通發(fā)生有兩個高峰,分別在上午10點至11點和下午14點至16點,不僅讀者可以從中獲取信息,規(guī)避等候時間;圖書館的工作量安排也能根據(jù)該分布更趨合理。
在經(jīng)濟(jì)類圖書中,最受讀者歡迎的為財政、金融、經(jīng)濟(jì)計劃與管理以及貿(mào)易經(jīng)濟(jì)類圖書(見表)。在信息時代,電子商務(wù)不斷挑戰(zhàn)傳統(tǒng)銷售行業(yè)。讀者在本大類比較關(guān)注的熱點話題是銷售與電子商務(wù)。
表 成人外借F大類圖書流通分類分布
對圖書館閱讀流通數(shù)據(jù)的分析可以預(yù)測讀者群體性的偏好,也可以為圖書館資源建設(shè)、館藏采選等提供全面詳實的依據(jù),同時也可以為讀者的個性化服務(wù)提供相關(guān)圖書推薦。美國亞馬遜曾經(jīng)有一支業(yè)界
評價極高的書評團(tuán)隊,負(fù)責(zé)為亞馬遜銷售圖書撰寫書評和推薦新書,經(jīng)過亞馬遜使用的大數(shù)據(jù)分析之后,亞馬遜發(fā)現(xiàn)機(jī)器根據(jù)讀者原有購買圖書的歷史和偏好來推薦圖書,其銷售成功率遠(yuǎn)高于書評團(tuán)隊對讀者的群體性推薦。因此,除了書評之外,其推薦圖書改由系統(tǒng)進(jìn)行大數(shù)據(jù)分析后進(jìn)行推薦,這些做法現(xiàn)已在電子商務(wù)的B2C領(lǐng)域被廣泛應(yīng)用。目前,上海圖書館也聯(lián)合了中心圖書館“一卡通”的各成員館通過“我的圖書館”個性化服務(wù)系統(tǒng)為讀者推薦圖書,根據(jù)其歷年來的閱讀偏好有針對性地推薦到館新書,并直接提供借閱鏈接和圖書封面、書評等,此項服務(wù)推出后深受讀者歡迎。
5.1數(shù)據(jù)可視化的敘事性
以上海圖書館到館讀者的即時展現(xiàn)屏為例,最醒目的右側(cè)的圓圈內(nèi),顯示的今日到館總?cè)舜蔚臄?shù)字(見圖5),該數(shù)字不斷跳躍上升,展示了陣地服務(wù)的熱度。而左下角區(qū)域又利用上海圖書館樓層平面圖的形狀,展現(xiàn)不同樓層今日進(jìn)入讀者數(shù)的變化。
5.2數(shù)據(jù)可視化的熱點變化
以圖書館聯(lián)合體書刊流通數(shù)據(jù)的即時展現(xiàn)屏為例(見圖4),該屏以服務(wù)時間為橫軸,每5分鐘采集匯總的借還數(shù)據(jù)的柱狀圖表達(dá)流通量隨時間流逝的變化情況,配色采用對比強(qiáng)烈的綠色和橙色,在冷色調(diào)的藍(lán)色背景上,躍動效果感強(qiáng),而襯底的灰色圖形則顯示前一日的流通情況,低調(diào)的灰色即不會奪走對當(dāng)日借還數(shù)據(jù)的關(guān)注,又起到了對比的作用,可謂一目了然。
圖4 今日到館
5.3數(shù)據(jù)可視化的視覺體驗
以上海圖書館和上海市中心圖書館“一卡通”館今日借出/歸還圖書封面屏為例(圖略),該屏呈現(xiàn)的是當(dāng)前正在外借/歸還書刊的封面,不斷向外擴(kuò)散/向內(nèi)聚集的圖書封面,極具視覺沖擊力。
由于每個數(shù)據(jù)集都有其獨特的特性,[7]可視化能夠最大化地展現(xiàn)這個特性。根據(jù)數(shù)據(jù)特點,數(shù)據(jù)可視化展示效果靈活、豐富,風(fēng)格統(tǒng)一簡潔。作為領(lǐng)悟閱讀大數(shù)據(jù)的新含義、探索提升閱讀服務(wù)體驗的一種方法,通過這種即時信息圖形展現(xiàn)圖書館聯(lián)合體各個圖書館的服務(wù)情況,既方便圖書館了解自身服務(wù)運營狀態(tài),又能吸引讀者關(guān)注的興趣;讀者可邊享受視覺盛宴邊學(xué)習(xí)知識,求知欲亦能被大大激發(fā)。
圖5 即時數(shù)據(jù)屏
閱讀大數(shù)據(jù)的分析、設(shè)計、展示的主要目的是借助數(shù)據(jù)分析挖掘和數(shù)據(jù)可視化的手段,更高效和清晰地交流、展現(xiàn)數(shù)據(jù)背后的真實信息,但這并不意味著數(shù)據(jù)圖表會因?qū)嵱枚菰?,因華美而繁復(fù)。通過了解業(yè)務(wù),理解數(shù)據(jù),把握設(shè)計與功能之間的平衡,透視閱讀數(shù)據(jù)背后的意義,即能夠為讀者提供更高效便捷的服務(wù),提升圖書館聯(lián)合體的服務(wù)效能,使讀者在數(shù)字之外有所啟發(fā)。[8]數(shù)據(jù)分析展示不僅是一項簡單的創(chuàng)新服務(wù),同時也是很好的閱讀推廣手段,可以重塑讀者與圖書館、讀者與書、圖書館與內(nèi)容供應(yīng)者之間的關(guān)系,開啟圖書館轉(zhuǎn)型發(fā)展的新方向。
[參考文獻(xiàn)]
[1]維克托·邁爾-舍恩伯格,肯尼斯·庫克耶.大數(shù)據(jù)時代[M].杭州:浙江人民出版社,2013.
[2]上海圖書館.覆蓋城鄉(xiāng)的公共圖書館服務(wù)體系:上海市中心圖書館建設(shè)十周年[M].上海:上海社會科學(xué)院出版社,2010.
[3]周寧.《信息可視化及應(yīng)用》專題序[J].現(xiàn)代圖書情報技術(shù),2010(7/8):1-2.
[4]James J Thomas,Kristin A Cook.A Visual Analytics Agenda[EB/OL].[2014-02-17].IEEE Computer Graphics and Application,2006(1/2).http://zaphod.mindlab.umd.edu/docsemi-
[5]楊俊.圖像數(shù)據(jù)的視覺顯著性檢測技術(shù)及其應(yīng)用[D].長沙:國防科技技術(shù)大學(xué),2007.
[6]Legrady,G.Making Visiblethe Invisible:Seattle Library Data Flow Visualization[C/OL].[2014-03-02].http://www.museumsandtheweb.com/biblio/making_visible_the_invisible_seattle_library_data_flo.html.
[7]Ben Fry.Visualizing Data:Exploring and Explaining Data with the Processing Environment[M].O'Reilly Media,2008.
[8]Alison Circle. Telling Your Story With Visual Power[EB/OL].[2014-03-12].http://lj.libraryjournal. com/2012/01/marketing/telling-your-story-with-visual -power/.
[收稿日期]2014-12-02 [責(zé)任編輯]王崗
[作者簡介]徐強(qiáng)(1969-),男,上海圖書館系統(tǒng)網(wǎng)絡(luò)中心主任,副研究館員,研究方向:數(shù)字圖書館情報信息化;楊佳(1982-),女,上海圖書館系統(tǒng)網(wǎng)絡(luò)中心數(shù)據(jù)資源部副主任,工程師,研究方向:圖書館數(shù)字資源管理,大數(shù)據(jù)。
[文章編號]1005-8214(2015)05-0001-04
[文獻(xiàn)標(biāo)志碼]A
[中圖分類號]G250.7