晏 青
(汕頭市圖書(shū)館,廣東 汕頭 515041)
大數(shù)據(jù)時(shí)代,圖書(shū)館的數(shù)據(jù)信息來(lái)源更加廣泛,信息類(lèi)型也變得多樣化,信息內(nèi)容更為豐富。就信息載體而言,以往圖書(shū)館主要是一些紙質(zhì)文獻(xiàn),如圖書(shū)、報(bào)紙等。隨著信息技術(shù)的快速發(fā)展與革新,數(shù)字化數(shù)據(jù)信息所占的比例不斷增加。數(shù)字圖書(shū)館和手機(jī)圖書(shū)館建設(shè)工作的不斷推進(jìn),使圖書(shū)館的信息資源逐漸朝著多元化的方向發(fā)展。因此,圖書(shū)館應(yīng)更加重視對(duì)用戶(hù)行為數(shù)據(jù)信息的梳理與分析,盡可能挖掘出數(shù)據(jù)信息中隱藏的潛在價(jià)值,充分應(yīng)用大數(shù)據(jù)技術(shù),不斷革新圖書(shū)館服務(wù)模式,確保讀者能夠獲得優(yōu)質(zhì)的個(gè)性化服務(wù)。
要利用大數(shù)據(jù)信息挖掘與分析技術(shù),數(shù)據(jù)信息只有達(dá)到特定的儲(chǔ)存量級(jí),才能獲得較為理想的信息挖掘效果。在互聯(lián)網(wǎng)和社交網(wǎng)絡(luò)快速發(fā)展的過(guò)程中,圖書(shū)館也開(kāi)通了微博賬號(hào)、微信公眾號(hào)以及讀者論壇等,在圖書(shū)館與讀者進(jìn)行溝通與交流的過(guò)程中會(huì)產(chǎn)生海量的數(shù)據(jù)信息。另外,讀者在登錄圖書(shū)館網(wǎng)站時(shí)形成的一些行為信息均被記錄與儲(chǔ)存起來(lái),這些數(shù)據(jù)信息的數(shù)量也是非常巨大的。因此,圖書(shū)館在個(gè)性化服務(wù)系統(tǒng)構(gòu)建過(guò)程中,利用大數(shù)據(jù)信息挖掘技術(shù)具有較高的可行性。
圖書(shū)館要想為讀者提供更為優(yōu)質(zhì)的個(gè)性化服務(wù),首先應(yīng)當(dāng)掌握讀者的個(gè)性化信息需求。要想全面掌握讀者的個(gè)性化需求,圖書(shū)館只有對(duì)讀者的行為信息加以深入分析,才能提取到更為準(zhǔn)確的用戶(hù)需求信息[1]。圖書(shū)館的讀者群體較多,不同時(shí)間段內(nèi)讀者對(duì)于信息的需求也會(huì)發(fā)生較大變化,如何更加及時(shí)地了解讀者的個(gè)性化信息需求,確保圖書(shū)館能夠?yàn)樽x者提供實(shí)時(shí)的信息支持,是圖書(shū)館開(kāi)展個(gè)性化服務(wù)工作中的關(guān)鍵問(wèn)題。利用大數(shù)據(jù)技術(shù),圖書(shū)館能夠?qū)ψx者的行為信息,如檢索信息、瀏覽信息等進(jìn)行實(shí)時(shí)跟蹤,再采用大數(shù)據(jù)分析技術(shù)挖掘出用戶(hù)潛在的信息需求,確保圖書(shū)館能夠?yàn)樽x者提供有針對(duì)性的信息服務(wù),從而有效改善圖書(shū)館的個(gè)性化服務(wù)水平[2]。
根據(jù)圖書(shū)館現(xiàn)有的信息資源以及網(wǎng)絡(luò)平臺(tái),同時(shí)結(jié)合大數(shù)據(jù)自身特征,筆者認(rèn)為圖書(shū)館個(gè)性化服務(wù)模型應(yīng)當(dāng)包含以下功能模塊:讀者接口功能模塊、數(shù)據(jù)檢索功能模塊、數(shù)據(jù)過(guò)濾功能模塊、信息集成功能模塊、信息規(guī)范化功能模塊、信息分析功能模塊、信息匹配功能模塊、數(shù)據(jù)推送功能模塊、讀者評(píng)價(jià)功能模塊以及讀者數(shù)據(jù)庫(kù)功能模塊等,具體功能模型如圖1所示。
圖1 基于大數(shù)據(jù)理論的圖書(shū)館個(gè)性化服務(wù)功能模型圖
該模塊的主要功能是連接讀者設(shè)備端和圖書(shū)館系統(tǒng)。讀者登錄圖書(shū)館個(gè)性化服務(wù)系統(tǒng)時(shí),需要在該功能模塊中輸入正確的賬戶(hù)以及密碼,以完成讀者身份驗(yàn)證。讀者也可以通過(guò)接口輸入需要檢索的信息,系統(tǒng)會(huì)依照用戶(hù)需求完成信息檢索,并結(jié)合讀者信息庫(kù)中的信息,為讀者提供精準(zhǔn)的、有針對(duì)性的信息服務(wù)。讀者還能通過(guò)該接口對(duì)圖書(shū)館個(gè)性化服務(wù)進(jìn)行反饋,為圖書(shū)館和讀者之間搭建一座交流與溝通的橋梁。
讀者經(jīng)由讀者接口功能模塊完成系統(tǒng)注冊(cè)以后,系統(tǒng)會(huì)要求讀者輸入相應(yīng)的個(gè)人信息,這些數(shù)據(jù)信息屬于結(jié)構(gòu)化信息,系統(tǒng)會(huì)將其儲(chǔ)存至讀者信息庫(kù)中。另外,讀者在使用圖書(shū)館個(gè)性化服務(wù)系統(tǒng)過(guò)程中所提供的一些反饋信息同樣也會(huì)被儲(chǔ)存至讀者信息庫(kù)中。因此,圖書(shū)館就能通過(guò)對(duì)這些數(shù)據(jù)信息的分析,更加全面地掌握讀者信息需求,主動(dòng)向讀者提供有較強(qiáng)針對(duì)性以及精準(zhǔn)性的個(gè)性化服務(wù)。
當(dāng)讀者輸入相應(yīng)的檢索信息以后,系統(tǒng)就能夠根據(jù)讀者的信息需求,利用智能檢索方法自動(dòng)為讀者檢索圖書(shū)館信息資源。當(dāng)完成信息檢索以后,系統(tǒng)會(huì)把得到的數(shù)據(jù)信息反饋到該功能模塊中,如果未能檢索到符合要求的數(shù)據(jù)信息,系統(tǒng)會(huì)在網(wǎng)絡(luò)中繼續(xù)進(jìn)行信息檢索,再將尋找到的數(shù)據(jù)信息添加至圖書(shū)館數(shù)據(jù)信息庫(kù)中,并把得到的數(shù)據(jù)信息反饋到該功能模塊。
在數(shù)據(jù)信息檢索完成以后,所得到的數(shù)據(jù)信息將被輸送至數(shù)據(jù)過(guò)濾功能模塊。在該功能模塊中,系統(tǒng)會(huì)完成對(duì)數(shù)據(jù)信息的篩選,并結(jié)合讀者提供的檢索信息,對(duì)收集到的數(shù)據(jù)信息按照相關(guān)度進(jìn)行排除,從而獲得與讀者檢索信息具有更高相關(guān)性的信息資源。
圖書(shū)館讀者群體成員構(gòu)成具有一定的復(fù)雜性,讀者的行為信息也分別儲(chǔ)存于圖書(shū)館的各個(gè)系統(tǒng)之中,同時(shí),圖書(shū)館自身的資源系統(tǒng)也相對(duì)較多,如讀者行為數(shù)據(jù)信息庫(kù)、電子資源信息數(shù)據(jù)庫(kù)以及網(wǎng)絡(luò)日志數(shù)據(jù)庫(kù)等。因此,要想確保讀者能夠獲得更為全面的數(shù)據(jù)信息資源,圖書(shū)館只有把上述不同來(lái)源、不同格式、不同含義的數(shù)據(jù)信息進(jìn)行邏輯層面上的集成,才能確保讀者能夠獲得范圍更廣以及更精準(zhǔn)的數(shù)據(jù)信息。
通過(guò)大數(shù)據(jù)處理技術(shù),圖書(shū)館能夠更加深入地挖掘用戶(hù)行為信息的潛在價(jià)值。而在這個(gè)過(guò)程中,圖書(shū)館應(yīng)當(dāng)確保數(shù)據(jù)信息在格式方面的一致性。由于信息集成功能模塊所得到的數(shù)據(jù)信息來(lái)源非常廣泛,信息的屬性也會(huì)存在較大差異。數(shù)據(jù)信息規(guī)范化處理過(guò)程主要包含四個(gè)不同工序,其流程示意圖如圖2所示。
圖2 大數(shù)據(jù)技術(shù)中數(shù)據(jù)信息規(guī)范化處理流程示意圖
該功能模塊承擔(dān)的主要任務(wù)是對(duì)信息規(guī)范化模塊傳輸過(guò)來(lái)的數(shù)據(jù)信息加以分析與處理。由于圖書(shū)館的數(shù)據(jù)信息包含非常多的半結(jié)構(gòu)化以及非結(jié)構(gòu)化數(shù)據(jù)信息,因此圖書(shū)館只有利用信息分析功能模塊完成對(duì)數(shù)據(jù)信息的分析,才能確保數(shù)據(jù)信息匹配的準(zhǔn)確性,使讀者能夠獲得更為優(yōu)質(zhì)的個(gè)性化服務(wù)。
在得到讀者信息資源需求模型以后,系統(tǒng)也完成了數(shù)據(jù)信息的規(guī)范化處理。該功能模塊會(huì)把得到的讀者信息資源需求模型和檢索的數(shù)據(jù)信息進(jìn)行匹配處理,對(duì)檢索的數(shù)據(jù)信息進(jìn)行更深層次的篩選,選擇具有更高相關(guān)性的數(shù)據(jù)信息并傳輸至數(shù)據(jù)推送功能模塊,將匹配好的數(shù)據(jù)信息反饋給讀者。
該功能模塊通過(guò)對(duì)智能代理技術(shù)的應(yīng)用,依照不同讀者的差異性信息需求,把一些讀者感興趣的信息資源經(jīng)由讀者接口功能模塊主動(dòng)推送至讀者客戶(hù)端。如:系統(tǒng)依照讀者行為信息的挖掘與分析結(jié)果,在讀者進(jìn)行信息檢索的過(guò)程中,主動(dòng)為讀者提供與檢索有關(guān)的信息內(nèi)容,或者推送讀者沒(méi)有意識(shí)到的一些潛在信息。數(shù)據(jù)推送功能模塊還會(huì)依照讀者定制的內(nèi)容,實(shí)時(shí)向讀者推送相關(guān)信息資源。
系統(tǒng)會(huì)將一些信息資源推送至讀者客戶(hù)端,讀者在收到這些推送信息以后,能夠經(jīng)由讀者評(píng)價(jià)功能模塊對(duì)圖書(shū)館所提供的信息服務(wù)加以評(píng)價(jià),而讀者做出的評(píng)價(jià)信息同樣會(huì)被儲(chǔ)存在讀者信息數(shù)據(jù)庫(kù)中。對(duì)讀者評(píng)價(jià)數(shù)據(jù)信息進(jìn)行分析與挖掘,能夠?yàn)闃?gòu)建讀者需求模型提供更加精準(zhǔn)的參考,同時(shí)還能作為圖書(shū)館提供個(gè)性化服務(wù)的重要參考,確保圖書(shū)館個(gè)性化服務(wù)能夠滿(mǎn)足讀者的信息需求。
圖書(shū)館在應(yīng)用大數(shù)據(jù)技術(shù)開(kāi)展讀者行為數(shù)據(jù)挖掘與分析工作時(shí),能夠獲得讀者信息資源需求模型。但是,要想確保得到的模型具有較高的可靠性,圖書(shū)館就應(yīng)當(dāng)具備大量的樣本數(shù)據(jù)信息,同時(shí)也應(yīng)達(dá)到數(shù)據(jù)挖掘的技術(shù)要求,不同數(shù)據(jù)信息應(yīng)當(dāng)存在相應(yīng)的耦合度,只有這樣才能確保得出的結(jié)果更加準(zhǔn)確與可靠[3]?,F(xiàn)階段圖書(shū)館獲得的讀者數(shù)據(jù)信息基本上都是從圖書(shū)館所構(gòu)建的系統(tǒng)中采集的,而系統(tǒng)外部讀者的一些行為信息是缺失的,這將導(dǎo)致信息挖掘與分析得出的結(jié)果的準(zhǔn)確性偏低。針對(duì)這一問(wèn)題,圖書(shū)館應(yīng)當(dāng)加強(qiáng)與移動(dòng)、聯(lián)通和電信等運(yùn)營(yíng)商之間的合作,確保圖書(shū)館能夠獲取更為全面的行為信息,打破圖書(shū)館信息來(lái)源受限的局面,從而保障所建立的讀者需求信息模型更為精準(zhǔn)。
圖書(shū)館在利用大數(shù)據(jù)處理技術(shù)的過(guò)程中,要完成對(duì)海量數(shù)據(jù)信息的存儲(chǔ)以及分析,因此應(yīng)當(dāng)具備較高容量以及較快運(yùn)算速度的軟件與硬件設(shè)施[4]。受到政策以及經(jīng)濟(jì)發(fā)展水平的影響,圖書(shū)館在軟件與硬件設(shè)施上和大數(shù)據(jù)的技術(shù)要求存在較大差異。圖書(shū)館要想更好地利用大數(shù)據(jù)技術(shù),就需要購(gòu)入先進(jìn)的軟件以及硬件設(shè)備,但是這需要大量的資金,一般圖書(shū)館很難承受。圖書(shū)館可以與大數(shù)據(jù)技術(shù)企業(yè)合作,如:廈門(mén)大學(xué)圖書(shū)館采用阿里云服務(wù)重構(gòu)站內(nèi)的搜索體系,不僅能夠利用企業(yè)擁有的先進(jìn)大數(shù)據(jù)技術(shù),還可以減小硬件設(shè)施的資金投入。圖書(shū)館可通過(guò)這類(lèi)合作實(shí)現(xiàn)更多功能,滿(mǎn)足讀者的個(gè)性化信息需求。