摘 要:隨著計(jì)算機(jī)行業(yè)的不斷發(fā)展,滋生出了數(shù)據(jù)挖掘這個(gè)行業(yè)新領(lǐng)域,數(shù)據(jù)挖掘可以給圖書(shū)館帶來(lái)更多的新應(yīng)用、新服務(wù)。簡(jiǎn)述大數(shù)據(jù)及數(shù)據(jù)挖掘的概念,結(jié)合圖書(shū)館大數(shù)據(jù)的來(lái)源,探討了數(shù)據(jù)挖掘在圖書(shū)館日常業(yè)務(wù)中的應(yīng)用場(chǎng)景,以期為讀者提供更優(yōu)質(zhì)的個(gè)性化服務(wù)。
關(guān)鍵詞:大數(shù)據(jù);圖書(shū)館;數(shù)據(jù)挖掘
中圖分類號(hào):G251.4 " 文獻(xiàn)標(biāo)志碼:A " 文章編號(hào):1002-2589(2015)16-0211-02
近年來(lái),隨著物聯(lián)網(wǎng)和云計(jì)算的興起,“大數(shù)據(jù)”已然成為當(dāng)下最時(shí)髦的詞匯。從IT界到金融界,再到物流界、營(yíng)銷界,乃至醫(yī)療界、教育界……無(wú)論是業(yè)內(nèi)業(yè)外人士幾乎都已快形成“言必談大數(shù)據(jù)”的繁榮景象,大數(shù)據(jù)的研究正如火如荼,圖書(shū)館界也不例外。我們面臨一個(gè)尷尬的境地:數(shù)據(jù)豐富,信息匱乏。隨著計(jì)算機(jī)行業(yè)的不斷發(fā)展,滋生出了數(shù)據(jù)挖掘這個(gè)行業(yè)新領(lǐng)域,數(shù)據(jù)挖掘可以給圖書(shū)館帶來(lái)更多的新應(yīng)用、新服務(wù)。
一、認(rèn)識(shí)大數(shù)據(jù)
(一)大數(shù)據(jù)的概念
大數(shù)據(jù)并不是一個(gè)嚴(yán)格的專業(yè)術(shù)語(yǔ),至今還沒(méi)有一個(gè)統(tǒng)一的定義。目前大數(shù)據(jù)方面的文獻(xiàn)大多聚焦在它的四個(gè)“V”上,即數(shù)據(jù)容量、數(shù)據(jù)多樣性、隱藏的價(jià)值及訪問(wèn)速度上。第一個(gè)“V”就是它的實(shí)際規(guī)模(volume),從早先的KB到TB,一直到后來(lái)的PB、EB,數(shù)據(jù)的量在不斷地增加,這是一個(gè)表面的現(xiàn)象。第二個(gè)“V”是多樣的數(shù)據(jù)類型(variety),尤其是里面包含了大量的非結(jié)構(gòu)化的數(shù)據(jù)。第三個(gè)“V”講的是價(jià)值(value),有兩點(diǎn):一個(gè)是價(jià)值大,未來(lái)大數(shù)據(jù)的產(chǎn)業(yè)規(guī)模將會(huì)至少以萬(wàn)億美元來(lái)進(jìn)行衡量,大數(shù)據(jù)將會(huì)給信息技術(shù)領(lǐng)域帶來(lái)一個(gè)新的增長(zhǎng)點(diǎn);另外一個(gè)比較重要的是,它雖然量很大、價(jià)值也很大,但是密度很低。第四個(gè)“V”就是動(dòng)態(tài)數(shù)據(jù)的快速處理(velocity),由于數(shù)據(jù)的多樣化和巨量化,要求對(duì)數(shù)據(jù)進(jìn)行實(shí)時(shí)快速的處理,才能了解迅速變化的環(huán)境并做出反應(yīng),才能快速制定出合理準(zhǔn)確的應(yīng)對(duì)策略。
(二)圖書(shū)館的大數(shù)據(jù)
經(jīng)過(guò)多年數(shù)字圖書(shū)館的建設(shè),圖書(shū)館擁有大量的數(shù)字化資源,包括各種數(shù)據(jù)庫(kù)、電子書(shū)、音頻、視頻和紙本圖書(shū)加工的數(shù)字資源。隨著圖書(shū)館自身的發(fā)展需要,各種資源的量呈逐漸上升的趨勢(shì)。當(dāng)前,由于互聯(lián)網(wǎng)的發(fā)展和智能終端(智能手機(jī)、pad)的普及應(yīng)用,人們已經(jīng)進(jìn)入虛擬社交的時(shí)代。以微信、微博、個(gè)人空間為載體的新興社交平臺(tái),更多的讀者信息散落在社交網(wǎng)絡(luò)上,這些數(shù)據(jù)量大散亂、價(jià)值密度低,資源總量很大,且數(shù)據(jù)結(jié)構(gòu)多樣,給圖書(shū)館服務(wù)提升提出了艱巨的挑戰(zhàn)。如何利用數(shù)據(jù)挖掘,發(fā)掘更多有用、創(chuàng)新的潛在數(shù)據(jù),成為圖書(shū)館發(fā)展的必然要求。
二、數(shù)據(jù)挖掘
(一)什么是數(shù)據(jù)挖掘
數(shù)據(jù)挖掘是隨著計(jì)算機(jī)行業(yè)的發(fā)展而衍生出的一個(gè)新領(lǐng)域,涉及人工智能、機(jī)器學(xué)習(xí)、數(shù)據(jù)庫(kù)和可視化等多學(xué)科知識(shí)。運(yùn)用計(jì)算機(jī)方法、技術(shù),尋找隱藏在數(shù)據(jù)中的信息(趨勢(shì)、特征及相關(guān)性)的過(guò)程,就叫作數(shù)據(jù)挖掘[1]。
(二)數(shù)據(jù)挖掘的方法論
數(shù)據(jù)挖掘的過(guò)程或者步驟有很多。然而,每一個(gè)步驟從方法論上來(lái)說(shuō)沒(méi)有太大的區(qū)別。許多研究機(jī)構(gòu)和公司結(jié)合自身的數(shù)據(jù)挖掘工具,提出數(shù)據(jù)挖掘過(guò)程模型,目前最流行的兩種基于數(shù)據(jù)挖掘工具的方法論是由SAS公司提出的SEMMA過(guò)程模型和SPSS公司提出的5A過(guò)程模型[2]。整個(gè)數(shù)據(jù)挖掘是一個(gè)反復(fù)迭代的過(guò)程,一般都需要通過(guò)多輪迭代才能獲得最終結(jié)果。
SAS公司提出的SEMMA過(guò)程模型,其實(shí)是數(shù)據(jù)挖掘工具EnterpriseMiner進(jìn)行數(shù)據(jù)挖掘分析時(shí)的5個(gè)步驟即Sample、Explore、Modify、Model、Assess的首字母縮寫,在進(jìn)行數(shù)據(jù)挖掘時(shí)通常按照以下5個(gè)步驟進(jìn)行。
(1)Sample——取樣:理解應(yīng)用的領(lǐng)域,提出有意義的問(wèn)題陳述,指定相關(guān)性變量,從目標(biāo)數(shù)據(jù)集中抽取與問(wèn)題有關(guān)的數(shù)據(jù)子集;
(2)Explore——探索:數(shù)據(jù)收集取樣后的分布是未知的,探索數(shù)據(jù)的樣本分布;
(3)Modify——調(diào)整:從目的數(shù)據(jù)中作預(yù)處理,去除異常的數(shù)據(jù);
(4)Model——建模:通過(guò)數(shù)據(jù)挖掘的技術(shù)建立模型,從中選擇最好的模型;
(5)Access——評(píng)價(jià):評(píng)價(jià)數(shù)據(jù)挖掘結(jié)果的有效性和可靠性。
基于數(shù)據(jù)挖掘軟件ClementineSPSS公司提出了5A(Assess、Assess、Analyze、Act、Automate)過(guò)程模型,在方法論上與SEMMA相似,同樣要經(jīng)過(guò)陳述問(wèn)題、搜集信息、預(yù)處理、數(shù)據(jù)挖掘及評(píng)價(jià)結(jié)果的過(guò)程。
三、圖書(shū)館數(shù)據(jù)挖掘的應(yīng)用
數(shù)據(jù)是對(duì)事物的客觀存在的一種描述、表現(xiàn),信息則賦予了數(shù)據(jù)一種環(huán)境,而知識(shí)則是經(jīng)過(guò)實(shí)踐證明的、可以用來(lái)決策和行動(dòng)的,從數(shù)據(jù)到知識(shí)發(fā)現(xiàn),數(shù)據(jù)挖掘承擔(dān)了重要角色,根據(jù)行業(yè)性質(zhì),企業(yè)和組織都在努力探尋數(shù)據(jù)挖掘的應(yīng)用方式并從中獲得豐厚的收益。下面是一些數(shù)據(jù)挖掘在商業(yè)、營(yíng)銷、體育等方面的應(yīng)用類型:在財(cái)務(wù)金融方面,預(yù)測(cè)市場(chǎng)動(dòng)向,防范犯罪欺詐;在銷售數(shù)據(jù)中,發(fā)掘顧客的消費(fèi)習(xí)性;在NBA球賽數(shù)據(jù)中,找出球員的強(qiáng)弱點(diǎn)……數(shù)據(jù)挖掘在商業(yè)、營(yíng)銷、體育等各方面已嶄露頭角,成為企業(yè)或組織重要的策略性計(jì)劃?;趫D書(shū)館的數(shù)據(jù),圖書(shū)館員應(yīng)該嘗試用數(shù)據(jù)挖掘再現(xiàn)業(yè)務(wù)背后隱藏的規(guī)律,不斷探索優(yōu)化業(yè)務(wù)途徑,提升服務(wù)形象。結(jié)合圖書(shū)館自身的業(yè)務(wù),數(shù)據(jù)挖掘主要有三個(gè)方面的應(yīng)用,分別是讀者關(guān)系管理、推薦系統(tǒng)以及輔助決策分析。
(一)讀者關(guān)系管理
“客戶是上帝”,如果企業(yè)或組織無(wú)法對(duì)客戶提供更高價(jià)值或更好的服務(wù),企業(yè)或組織就失去了存在的價(jià)值,從廣義上講凡是單位或機(jī)構(gòu)所服務(wù)的對(duì)象都應(yīng)該稱為“客戶”,對(duì)于圖書(shū)館來(lái)說(shuō)讀者就是我們的客戶[2]。隨著人們閱讀方式的改變,人們開(kāi)始接受網(wǎng)絡(luò)上的碎片化閱讀,同時(shí)智能終端的普及也在擴(kuò)充人們獲取知識(shí)的方式。圖書(shū)館的整體業(yè)務(wù)環(huán)境發(fā)生了變化,紙質(zhì)圖書(shū)借閱量每年呈一定比例在下降成為每個(gè)圖書(shū)館必須面對(duì)的現(xiàn)實(shí)。面對(duì)學(xué)校成千上萬(wàn)的師生,如何提升服務(wù)來(lái)留住原來(lái)的讀者和尋找新的讀者成為圖書(shū)館人首要考慮的問(wèn)題。在硬件方面很多圖書(shū)館已經(jīng)做得很好了,設(shè)置了總服務(wù)咨詢臺(tái)和讀者連線專區(qū),不過(guò)在讀者關(guān)系管理方面還有很多工作要做。
圖書(shū)館是典型的服務(wù)部門,很多有價(jià)值的服務(wù)活動(dòng)都必須通過(guò)館員參與提供,典型的顧客關(guān)系存在于館員與讀者之間。傳統(tǒng)的讀者關(guān)系管理,主要靠館員與讀者的點(diǎn)對(duì)點(diǎn)的聯(lián)系,而現(xiàn)在加入了很多信息科技的因素,數(shù)據(jù)集挖掘就是一個(gè)典型的技術(shù)應(yīng)用,通過(guò)數(shù)據(jù)挖掘收集和讀者有關(guān)數(shù)據(jù)做分析,找出他們的特征,把原始數(shù)據(jù)轉(zhuǎn)換成新服務(wù)策略,利用這些特征尋找潛在讀者,有針對(duì)性地進(jìn)行資源推介,學(xué)科服務(wù)就是一個(gè)很好的例子。學(xué)科服務(wù)指的是基于學(xué)科信息為讀者提供個(gè)性化服務(wù),設(shè)立學(xué)科館員,可以為科研人員提供所需文獻(xiàn)信息服務(wù),包括科技查新和文獻(xiàn)計(jì)量分析;與學(xué)科館員密切聯(lián)系,為開(kāi)展學(xué)科服務(wù)提供指導(dǎo)意見(jiàn);為學(xué)科館員進(jìn)入院系服務(wù)提供便利。
(二)推薦系統(tǒng)
全世界推薦系統(tǒng)做得做好的就是亞馬遜,據(jù)說(shuō)亞馬遜銷售額的三分之一都是來(lái)自于它的個(gè)性化推薦系統(tǒng)。在國(guó)內(nèi)的電子商務(wù)平臺(tái)當(dāng)當(dāng)網(wǎng)、京東商城、淘寶網(wǎng)上買過(guò)東西的顧客,都有相似的感受,當(dāng)我們?cè)俅蔚卿浘W(wǎng)站時(shí),網(wǎng)站上及時(shí)推薦了與之前搜索或購(gòu)買過(guò)商品類似的物品,我們不禁驚嘆系統(tǒng)怎會(huì)如此精準(zhǔn)的把握消費(fèi)者的喜好和需求,這就是推薦系統(tǒng):知道是什么就夠了,沒(méi)必要知道為什么。推薦系統(tǒng)用在圖書(shū)館領(lǐng)域可以這樣理解:利用算法,通過(guò)對(duì)讀者的行為、興趣等分析,將讀者的個(gè)性化需求與系統(tǒng)的服務(wù)平臺(tái)結(jié)合起來(lái),為每個(gè)讀者提供更有針對(duì)性的服務(wù),提高圖書(shū)資源的利用效率[3]。
根據(jù)推薦對(duì)象的內(nèi)容和特點(diǎn),目前廣泛應(yīng)用的有兩種類型的推薦系統(tǒng),一種是以網(wǎng)頁(yè)為推薦對(duì)象的搜索系統(tǒng),主要采用Web數(shù)據(jù)挖掘的方法與技術(shù),為用戶推薦符合其興趣愛(ài)好的網(wǎng)頁(yè),如百度、Google等;另一種是電子商務(wù)環(huán)境下以商品為推薦對(duì)象的個(gè)性化推薦系統(tǒng),為用戶推薦符合興趣愛(ài)好的商品,如圖書(shū)、音像等。就圖書(shū)館而言,讀者就是消費(fèi)者,圖書(shū)就是我們?yōu)橄M(fèi)者提供的商品,只有把合適的資源推介給需要的人,才實(shí)現(xiàn)了圖書(shū)流通的最大價(jià)值?!白吭降牟湃A并不依賴于數(shù)據(jù)”但這只適用于像喬布斯那樣的天才,喬布斯有一句經(jīng)典的話:“消費(fèi)者沒(méi)有義務(wù)去了解自己想要什么”,對(duì)于更多的產(chǎn)品還是要需求來(lái)引導(dǎo)市場(chǎng)。圖書(shū)館個(gè)性化推薦系統(tǒng),根據(jù)讀者興趣愛(ài)好、研究方向?yàn)槠渫扑]圖書(shū)、報(bào)紙和期刊,甚至還可以推薦具有相同興趣和研究領(lǐng)域的其他讀者,創(chuàng)建一種讀者之間的興趣聯(lián)系[4]。
(三)輔助決策分析
圖書(shū)館存儲(chǔ)空間與紙本文獻(xiàn)增長(zhǎng)的矛盾日益凸顯,對(duì)圖書(shū)館館藏建設(shè)提出了嚴(yán)峻考驗(yàn)。圖書(shū)管理系統(tǒng)每天都會(huì)產(chǎn)生大量的統(tǒng)計(jì)數(shù)據(jù)、日志和表單,通過(guò)數(shù)據(jù)挖掘手段找出圖書(shū)借閱流通量與讀者需求內(nèi)在隱含的關(guān)聯(lián)信息,深入院系開(kāi)展學(xué)科服務(wù),指導(dǎo)相關(guān)學(xué)科的文獻(xiàn)資源建設(shè)及館藏調(diào)整方向,積極推動(dòng)圖書(shū)館與院系合作購(gòu)買文獻(xiàn)信息資源,為建設(shè)科學(xué)化、規(guī)范化、現(xiàn)代化的館藏結(jié)構(gòu)體系提供參考意見(jiàn),確保有限的圖書(shū)經(jīng)費(fèi)發(fā)揮出更大的作用[5]。
大數(shù)據(jù)背景下,各圖書(shū)館相繼采用了各種信息化手段優(yōu)化服務(wù)模式和提升服務(wù)質(zhì)量,不過(guò)在書(shū)庫(kù)管理上還存在較大挑戰(zhàn),圖書(shū)頻繁倒架和高丟失率一直困擾著圖書(shū)館工作人員,數(shù)據(jù)挖掘?yàn)榻鉀Q這一難題提供了有效的決策支持:通過(guò)對(duì)歷年圖書(shū)借閱量和圖書(shū)種類的關(guān)聯(lián)分析,對(duì)圖書(shū)種類借閱量做出預(yù)測(cè)趨勢(shì)分析,在圖書(shū)上架時(shí)預(yù)留架位;通過(guò)對(duì)圖書(shū)進(jìn)行盤點(diǎn),統(tǒng)計(jì)分析出圖書(shū)丟失率,查找出圖書(shū)丟失的原因,為圖書(shū)館人員管理和制度建設(shè)提供建議[6]。
四、結(jié)語(yǔ)
數(shù)據(jù)挖掘只是一種手段,它能發(fā)現(xiàn)數(shù)據(jù)中的潛在有用知識(shí),解釋數(shù)據(jù)背后隱含的規(guī)律。結(jié)合圖書(shū)館現(xiàn)有的數(shù)據(jù),文章分析了數(shù)據(jù)挖掘在圖書(shū)館的應(yīng)用場(chǎng)景,但具體的數(shù)據(jù)建模過(guò)程、最優(yōu)算法比較及分析結(jié)果展示等問(wèn)題,尚有待進(jìn)一步研究。數(shù)據(jù)挖掘可以描述現(xiàn)象、預(yù)測(cè)結(jié)果,它提供的只是參考答案,不是最終答案,這也提醒我們?cè)谑褂眠@個(gè)工具的時(shí)候,應(yīng)當(dāng)懷有謙恭之心,且思且行。
參考文獻(xiàn):
[1][美]Mehmed Kantardzic.數(shù)據(jù)挖掘——概念、模型、方法和算法[M].閃四清,等譯.北京:清華大學(xué)出版社,2003.
[2]謝邦昌.數(shù)據(jù)挖掘Clementine應(yīng)用實(shí)務(wù)[M].北京:機(jī)械工業(yè)出版社,2008:3.
[3]侯蕾.基于借閱數(shù)據(jù)分析的讀者閱讀傾向及服務(wù)對(duì)策[J].圖書(shū)館學(xué)刊,2012(12).
[4]趙衛(wèi)軍.數(shù)據(jù)挖掘技術(shù)在高校圖書(shū)館中的應(yīng)用[J].圖書(shū)館論壇,2007(4).
[5]周佳麗.借閱數(shù)據(jù)分析背景下的館藏結(jié)構(gòu)調(diào)整建議——以江蘇技術(shù)師范學(xué)院為例[J].圖書(shū)館學(xué)刊,2009(7).
[6]何少卓.淺談數(shù)據(jù)挖掘及其在圖書(shū)館的應(yīng)用[J].圖書(shū)館界,2004,9(3).