馮 磊
(山西大學(xué)商務(wù)學(xué)院圖書館,山西 太原 030031)
大數(shù)據(jù)挖掘(Data Mining)作為處理海量數(shù)據(jù)的技術(shù)手段,得到越來(lái)越多人的重視。它可以從大量、無(wú)規(guī)則、有噪聲、模糊的數(shù)據(jù)源中去挖掘隱藏其中、不易為人所知的有價(jià)值的信息[1]。傳統(tǒng)數(shù)據(jù)往往以EXCEL表格來(lái)進(jìn)行存儲(chǔ),之后借助數(shù)學(xué)統(tǒng)計(jì)分析軟件(如SPSS、STADA、SAS、DPS 等)進(jìn)行深入分析。隨著信息時(shí)代的發(fā)展,高校圖書館產(chǎn)生的數(shù)據(jù)往往不能以傳統(tǒng)結(jié)構(gòu)化手段進(jìn)行存儲(chǔ)保存,它往往具有多維特點(diǎn),數(shù)據(jù)不單單以普通的數(shù)字來(lái)表示,更多地以視頻、音頻、圖像、日志等形式來(lái)體現(xiàn),給數(shù)據(jù)分析帶來(lái)極大難度。而且這些數(shù)據(jù)具有低價(jià)值密度,隱藏于背后的內(nèi)在邏輯不容易被挖掘,給數(shù)據(jù)分析帶來(lái)困難。與此同時(shí),高校圖書館面向的服務(wù)對(duì)象為上萬(wàn)名學(xué)校師生,只有提供個(gè)性化服務(wù)才能讓資源得到最大化利用,才能充分節(jié)省師生的寶貴時(shí)間,讓他們能夠在最短的時(shí)間內(nèi)找到所需要的圖書資源。因此,在當(dāng)下高校當(dāng)中有必要將大數(shù)據(jù)挖掘引入到圖書館個(gè)性化服務(wù)當(dāng)中,充分提高圖書館的運(yùn)行效率。
圖書館個(gè)性化服務(wù)中包括以下幾個(gè)方面:①圖書館文獻(xiàn)參閱使用狀況,館藏圖書的流通情況,對(duì)目標(biāo)圖書或文獻(xiàn)的實(shí)際需求;②對(duì)文獻(xiàn)查閱者信息登記、信息搜索記錄的保存、師生獲取目標(biāo)圖書的所需時(shí)間;③圖書館師生借閱圖書的時(shí)間、空間分布情況,圖書基本情況的反映與掌握;④圖書館針對(duì)師生實(shí)際需求的圖書推薦、新上架圖書的推送、圖書服務(wù)的優(yōu)化升級(jí)。通過(guò)對(duì)這些信息的獲取,圖書館個(gè)性化服務(wù)才能獲取基礎(chǔ)數(shù)據(jù),為大數(shù)據(jù)挖掘奠定堅(jiān)實(shí)的數(shù)據(jù)基礎(chǔ)。借助Hadoop 分布式系統(tǒng)基礎(chǔ)架構(gòu),通過(guò)HDFS 和mapReduce 為海量數(shù)據(jù)提供存儲(chǔ)和分布式運(yùn)算。其中,為更好地實(shí)現(xiàn)對(duì)數(shù)據(jù)的挖掘與獲取,采用大數(shù)據(jù)常用的數(shù)據(jù)算法,可以高效地完成數(shù)據(jù)信息獲取與挖掘。最后,根據(jù)得出的結(jié)論為全校師生提供最為優(yōu)質(zhì)的個(gè)性化服務(wù)方案。
對(duì)高校圖書館個(gè)性化服務(wù)的挖掘,必須要形成數(shù)據(jù)挖掘的科學(xué)體系結(jié)構(gòu),獲取最終個(gè)性化服務(wù)的目標(biāo)。
在進(jìn)行大數(shù)據(jù)挖掘之前,首先要確定數(shù)據(jù)挖掘的業(yè)務(wù)問題,確定好數(shù)據(jù)挖掘的目的[2]。例如,圖書館要想獲取全校師生對(duì)圖書文獻(xiàn)類型的需求情況,就需要給大數(shù)據(jù)挖掘提供館藏圖書的幾個(gè)大類,讓大數(shù)據(jù)從中挖掘出符合自己需求的結(jié)論。這樣,大數(shù)據(jù)挖掘才更有針對(duì)性,使挖掘出的內(nèi)容更好地服務(wù)最終需求。
全校師生使用圖書館的基本信息都可以借助圖書系統(tǒng)來(lái)完成。首先,師生在使用圖書館時(shí),通過(guò)RFID 技術(shù)將個(gè)人信息反映在系統(tǒng)當(dāng)中。同時(shí),師生在圖書館參閱圖書或者文獻(xiàn)時(shí),耗費(fèi)時(shí)間、查閱圖書類型、借閱圖書科目、讀者的專業(yè)、身份證明(學(xué)號(hào)、身份證號(hào)、教師編號(hào))、距離上次借閱圖書間隔等等多維度的信息都可以獲取。具體信息如圖1所示。
圖1 圖書館個(gè)性化服務(wù)的信息獲取與目標(biāo)實(shí)現(xiàn)
在獲取完整的數(shù)據(jù)信息以后,就需要借助大數(shù)據(jù)挖掘算法對(duì)數(shù)據(jù)進(jìn)行深入挖掘[3]。首先,在大數(shù)據(jù)挖掘算法中選擇面向?qū)傩缘臍w納算法對(duì)數(shù)據(jù)進(jìn)行分類,獲取所有屬性的數(shù)據(jù)集合。例如,在高校圖書館個(gè)性化服務(wù)中產(chǎn)生的數(shù)據(jù)可以分為用戶數(shù)據(jù)集合、圖書文獻(xiàn)數(shù)據(jù)集合、借閱檢索圖書記錄數(shù)據(jù)集合等,這樣有效降低大數(shù)據(jù)的維度與數(shù)據(jù)挖掘的難度。其次,要對(duì)分類好的數(shù)據(jù)集合剔除異常數(shù)據(jù),可以降低數(shù)據(jù)挖掘的難度和挖掘結(jié)果的不準(zhǔn)確性。最后,要利用大數(shù)據(jù)算法來(lái)對(duì)不同數(shù)據(jù)需求進(jìn)行深入挖掘,提高大數(shù)據(jù)挖掘的速率和效率。
高校圖書館個(gè)性化服務(wù)最重要的一環(huán)就是圖書文獻(xiàn)的使用狀況,涉及內(nèi)容有圖書借閱、圖書歸還、某類圖書被借閱的頻率、借閱圖書的時(shí)間等信息。因此,大數(shù)據(jù)挖掘需要對(duì)這類數(shù)據(jù)資源進(jìn)行深入挖掘,把握?qǐng)D書使用的內(nèi)在邏輯[4],根據(jù)實(shí)際需求來(lái)制定個(gè)性化服務(wù)的決策信息,優(yōu)化圖書館的服務(wù)質(zhì)量。
首先,圖書借閱情況的挖掘。在圖書館數(shù)據(jù)庫(kù)當(dāng)中,通過(guò)SQL 語(yǔ)句獲取某類圖書的借閱情況。例如Select*from book where book=“類型”group by User.professor,這樣圖書館可以將數(shù)據(jù)庫(kù)保存的所有該類圖書的借閱情況返回給數(shù)據(jù)挖掘?qū)ο?。在查詢出?duì)象按照用戶的專業(yè)進(jìn)行統(tǒng)一排列。接著,我們要建立借閱圖書與借閱時(shí)間的關(guān)系,清晰地掌握讀者在利用圖書館集中的時(shí)間段,便于及時(shí)調(diào)整圖書館開放時(shí)間和增添圖書管理者的決策,為讀者提供更為優(yōu)質(zhì)的服務(wù)。通過(guò)用戶的id、圖書編號(hào)id 和該類圖書編號(hào)id 來(lái)建立“用戶-時(shí)間”“圖書-時(shí)間”的關(guān)系,通過(guò)系統(tǒng)記錄的開始時(shí)間與歸還時(shí)間、應(yīng)需歸還時(shí)間來(lái)記錄該圖書在某位讀者保留的時(shí)間。并且用戶可以借閱多本圖書,這些圖書在讀者的使用時(shí)間狀況同樣可以記錄下來(lái)。這樣,我們就以時(shí)間為基準(zhǔn)來(lái)判斷某個(gè)專業(yè)、某位學(xué)生對(duì)圖書的使用情況,進(jìn)而可以對(duì)圖書借閱產(chǎn)生的數(shù)據(jù)進(jìn)行深入挖掘。圖書借閱情況的挖掘如圖2所示。
圖2 圖書借閱情況挖掘?qū)崿F(xiàn)流程
其次,確定圖書館個(gè)性化服務(wù)的挖掘方向。在獲取到圖書借閱、文獻(xiàn)搜索、使用時(shí)間等數(shù)據(jù)后,為更好地提供個(gè)性化的服務(wù),需要我們確定數(shù)據(jù)挖掘的方向:①以專業(yè)、性別、年級(jí)來(lái)建立數(shù)據(jù)挖掘的體系架構(gòu),掌握該類學(xué)生對(duì)個(gè)性化服務(wù)的需求;②通過(guò)對(duì)用戶搜索、借閱圖書過(guò)程中產(chǎn)生數(shù)據(jù)集的挖掘,明確讀者需求的分布特性,更好地指導(dǎo)圖書館決策信息的制定;③建立以時(shí)間尺度為變量的數(shù)據(jù)集合,確定用戶需求高的時(shí)間階段,從而調(diào)整圖書館開閉時(shí)間的規(guī)律。這樣,通過(guò)對(duì)個(gè)人、時(shí)間和圖書3 個(gè)維度的挖掘,讓圖書館個(gè)性化服務(wù)有了科學(xué)的方向,更好地為讀者提供優(yōu)質(zhì)的服務(wù)。圖書館個(gè)性化服務(wù)的挖掘方向如圖3所示。
圖3 圖書館個(gè)性化服務(wù)的挖掘方向
數(shù)據(jù)挖掘技術(shù)只有在高校圖書館中得到充分應(yīng)用,才能更好地滿足圖書的個(gè)性化服務(wù)的需求,讓圖書服務(wù)更為貼心、優(yōu)質(zhì)。在數(shù)據(jù)挖掘算法當(dāng)中,筆者通過(guò)總結(jié)分析讀者對(duì)圖書館的需求,提出應(yīng)用決策樹算法來(lái)高效處理海量的數(shù)據(jù)信息,以KMeans 算法合理劃分讀者,讓服務(wù)覆蓋更多的讀者群體;以SVM支持向量機(jī)算法深入挖掘不同讀者的個(gè)性需求,實(shí)現(xiàn)對(duì)讀者未來(lái)圖書需求的科學(xué)預(yù)測(cè),從而指明圖書館服務(wù)的方向。
高校圖書館產(chǎn)生的海量數(shù)據(jù)具備低價(jià)值密度的特性,給決策信息制定造成很大難度。如何從海量、低價(jià)值密度數(shù)據(jù)中把握讀者實(shí)際所需,更好地為他們提供服務(wù),是我們當(dāng)下圖書館服務(wù)者需要充分考慮的。解決這一問題,決策樹算法優(yōu)勢(shì)突出,能夠用計(jì)算機(jī)對(duì)數(shù)據(jù)進(jìn)行處理。決策樹算法處理海量數(shù)據(jù)如圖4所示。
圖4 決策樹算法對(duì)大數(shù)據(jù)處理流程
首先對(duì)海量的數(shù)據(jù)進(jìn)行離散化處理,將繁復(fù)錯(cuò)亂的數(shù)據(jù)集合劃分成若干子集合。這樣,讓連續(xù)的集合轉(zhuǎn)變?yōu)橛?jì)算機(jī)能進(jìn)行分析的數(shù)據(jù)。接著,子集合以某個(gè)特征屬性來(lái)相互區(qū)分的,特征值相互之間可能存在相同或者相似的特性,需要利用決策樹的剪枝功能來(lái)對(duì)數(shù)據(jù)進(jìn)行剪枝,將一些無(wú)效或者相同的數(shù)據(jù)集合進(jìn)行整合,以有效降低數(shù)據(jù)挖掘的難度。再經(jīng)過(guò)決策樹算法對(duì)數(shù)據(jù)的處理,顯著降低數(shù)據(jù)的維度,提高數(shù)據(jù)挖掘的效率,能夠準(zhǔn)確把握住當(dāng)下所有讀者對(duì)圖書的整體需求。利用決策樹算法服務(wù)讀者主要體現(xiàn)在兩個(gè)方面:第一,能夠全面海量地獲取讀者個(gè)性化服務(wù)的信息,并且將這些內(nèi)容精簡(jiǎn)化,剔除無(wú)效數(shù)據(jù)量,讓挖掘樣本更能體現(xiàn)出整體讀者的需求。例如,決策樹算法圖書屬性、用戶屬性、時(shí)間屬性等數(shù)據(jù)集合M分裂成N個(gè)子集,接著通過(guò)信息增益方法將子集的樣本信息進(jìn)行增益,豐富大數(shù)據(jù)挖掘的內(nèi)容與信息。此時(shí),圖書館可以準(zhǔn)確地把握讀者的實(shí)際所需,對(duì)某些潛藏著的、不顯著的內(nèi)在規(guī)律挖掘出來(lái),讓這些表面看似毫無(wú)規(guī)律的數(shù)據(jù)進(jìn)行排列組合,轉(zhuǎn)變成有內(nèi)在聯(lián)系的數(shù)據(jù)集合。第二,有針對(duì)性地提煉有效信息。數(shù)據(jù)挖掘是將有用信息挖掘出來(lái),顯著改變大數(shù)據(jù)低價(jià)值密度的特性,提高數(shù)據(jù)挖掘的準(zhǔn)確度。而決策樹算法剪枝技術(shù),正好將決策樹低于0.5的枝剪去,保留高價(jià)值密度的數(shù)據(jù)集分支。通過(guò)不斷剪枝最終形成科學(xué)的數(shù)據(jù)集合,讓數(shù)據(jù)挖掘更為準(zhǔn)確。
每位讀者由于其專業(yè)、學(xué)科、個(gè)人喜好、空暇時(shí)間的差異性,對(duì)圖書需求也就存在差異性。要想讓圖書館更好地為每位讀者服務(wù),就需要做到“專職服務(wù)”。K-means 算法恰好可以做到“按人服務(wù)”的目標(biāo),它圍繞某個(gè)或者某類讀者群體來(lái)進(jìn)行數(shù)據(jù)挖掘,歸納出他們之間所具備的共同點(diǎn)和相似之處,從而得出每個(gè)讀者的具體圖書需求,指導(dǎo)圖書館按需提供服務(wù)。K-means算法挖掘讀者個(gè)體需求的流程如圖5所示。
圖5 K-means算法挖掘讀者個(gè)體需求
K-means 算法基于均值“中心對(duì)象”為目標(biāo),通過(guò)不斷地聚類和計(jì)算均值,讓標(biāo)測(cè)度函數(shù)(該函數(shù)判定數(shù)據(jù)集是否可繼續(xù)劃分)逐漸收斂,最終得到具體的數(shù)據(jù)集合,明確這些讀者對(duì)哪類圖書的需求等。K-means算法優(yōu)勢(shì)在于其對(duì)數(shù)據(jù)集合進(jìn)行深度聚類,讓數(shù)據(jù)群體不可再分,這樣該類數(shù)據(jù)集合具備的特征正是我們數(shù)據(jù)挖掘所要得到的內(nèi)容。例如,在對(duì)讀者搜索記錄、借還書記錄、專業(yè)、年級(jí)和同等專業(yè)學(xué)生數(shù)據(jù)的挖掘時(shí),借助K-means 算法,參照方差最小的原則,計(jì)算每位讀者組內(nèi)的均值及各數(shù)據(jù)距離均值的距離L,參照L 最小原則來(lái)將初始化的分類數(shù)據(jù)進(jìn)行重新細(xì)化,通過(guò)不斷的迭代累積計(jì)算直至函數(shù)收斂并滿足方差最小的原則,最終將圖書需求劃分為不可分割的集中類型。這樣,我們就能明確哪類讀者對(duì)哪些圖書有需求,他們?cè)谑裁礌顩r下會(huì)借閱圖書。同時(shí),K-means 算法可以合理劃分需求級(jí)別,明確不同類型讀者對(duì)某項(xiàng)圖書需求的程度,從而針對(duì)各類讀者推送與之相適應(yīng)的圖書,真正做到為每位讀者個(gè)體來(lái)提供有針對(duì)性的圖書服務(wù)。
圖書館個(gè)性化服務(wù)不僅僅要服務(wù)于當(dāng)下,同時(shí)還要建立長(zhǎng)遠(yuǎn)的服務(wù)機(jī)制,通過(guò)科學(xué)合理的數(shù)據(jù)預(yù)測(cè)來(lái)獲取讀者未來(lái)的圖書需求,及時(shí)調(diào)整和改善服務(wù)策略,從而滿足未來(lái)讀者的個(gè)性化需求。SVM支持向量機(jī)是有監(jiān)督的學(xué)習(xí)模型,它凸出優(yōu)化問題,將符合整體特征的數(shù)據(jù)集合進(jìn)行回歸分析,建立合理預(yù)測(cè)未來(lái)讀者需求的數(shù)學(xué)模型。這樣,通過(guò)輸入時(shí)間序列函數(shù),就能達(dá)到對(duì)讀者需求的科學(xué)預(yù)測(cè),指導(dǎo)圖書服務(wù)方向的變革。SVM 支持向量機(jī)預(yù)測(cè)讀者個(gè)性化服務(wù)的流程如圖6所示。
圖6 SVM支持向量機(jī)預(yù)測(cè)讀者個(gè)性化需求
SVM 支持向量機(jī)對(duì)讀者預(yù)測(cè)主要通過(guò)Linearly Separable SVM將兩個(gè)數(shù)據(jù)分離開來(lái),選擇合適的支持向量和構(gòu)造分割面,以各數(shù)據(jù)點(diǎn)最近原則來(lái)處理數(shù)據(jù),最終得到的結(jié)論更好地符合其內(nèi)在邏輯。例如,在高校圖書館個(gè)性化服務(wù)中分析哪類專業(yè)的人才對(duì)《統(tǒng)計(jì)學(xué)》需求程度高時(shí),通過(guò)SVM 根據(jù)Kernel原理將原始數(shù)據(jù)投射到高緯度特征空間,將線性不可分的數(shù)據(jù)集合,這樣能夠快速確定各專業(yè)在該類圖書中所在比重,并且可以將需求定位到個(gè)人,以根據(jù)師生未來(lái)圖書需求制定科學(xué)的決策。這樣,只有把握未來(lái)讀者的所需,才能讓圖書館個(gè)性化服務(wù)更具人性化、科學(xué)化和高效化,促進(jìn)圖書館的服務(wù)優(yōu)化升級(jí)。
大數(shù)據(jù)挖掘在高校個(gè)性化服務(wù)中占據(jù)著重要地位,它以科學(xué)的手段來(lái)指導(dǎo)圖書館讀者服務(wù),以師生需求作為出發(fā)點(diǎn)來(lái)進(jìn)行數(shù)據(jù)分析,提高師生使用圖書館的體驗(yàn)。在大數(shù)據(jù)挖掘當(dāng)中,C4.5機(jī)器學(xué)習(xí)決策樹算法、K-Means 算法、SVM 支持向量機(jī)算法,會(huì)讓大數(shù)據(jù)挖掘出更有價(jià)值的內(nèi)容,促進(jìn)高校圖書館管理水平的提高。