黎 偉
(西南政法大學(xué)圖書館,重慶 401120)
隨著大數(shù)據(jù)技術(shù)快速發(fā)展,全球進(jìn)入大數(shù)據(jù)時代。微軟亞洲研究中心和微軟信息技術(shù)商業(yè)服務(wù)公司數(shù)據(jù)研究報告指出,當(dāng)今全球數(shù)據(jù)以指數(shù)級增長,數(shù)據(jù)總量快速擴(kuò)大,對數(shù)據(jù)融合模式及數(shù)據(jù)分析技術(shù)的研究將引領(lǐng)新一輪的社會創(chuàng)新熱潮,進(jìn)一步推動知識數(shù)據(jù)服務(wù)創(chuàng)新。多源數(shù)據(jù)融合成為圖書館預(yù)測讀者知識需求、閱讀習(xí)慣、行為習(xí)慣、引導(dǎo)數(shù)據(jù)服務(wù)方式變革、評估用戶滿意度及提高知識服務(wù)能力的支持技術(shù)。伴隨著多源數(shù)據(jù)融合技術(shù)在圖書館領(lǐng)域的廣泛應(yīng)用,數(shù)字圖書館知識環(huán)境呈現(xiàn)“4V+1C”特征:數(shù)據(jù)量巨大(Volume)、數(shù)據(jù)種類多樣(Variety)、價值密度低(Value)、運(yùn)算速度快(Velocity)和數(shù)據(jù)結(jié)構(gòu)復(fù)雜(Complexity)。該特征導(dǎo)致圖書館難以在結(jié)構(gòu)復(fù)雜、種類多樣的數(shù)據(jù)環(huán)境中有效聚集高價值的信息數(shù)據(jù),提高了數(shù)據(jù)融合的難度,影響了圖書館數(shù)據(jù)資源的利用效率。由此,如何針對不同來源數(shù)據(jù)實(shí)現(xiàn)有效融合,從不同種類、不同結(jié)構(gòu)、復(fù)雜多樣的數(shù)據(jù)中提取出有價值的信息成為衡量數(shù)字圖書館提高自身知識服務(wù)能力的重要標(biāo)準(zhǔn)[1]。我國學(xué)者從上世紀(jì)80年代開始關(guān)注多源數(shù)據(jù)融合技術(shù)的發(fā)展,并在政府、高校、科研機(jī)構(gòu)的支持下將多源數(shù)據(jù)融合技術(shù)納入為計(jì)算機(jī)科學(xué)領(lǐng)域的重點(diǎn)建設(shè)項(xiàng)目,眾多圖書館學(xué)、信息學(xué)、情報學(xué)、數(shù)學(xué)領(lǐng)域的學(xué)者開始了多源數(shù)據(jù)融合技術(shù)的研究與實(shí)踐。
多源數(shù)據(jù)融合(Multisource data fusion)是指利用不同的算法工具及數(shù)據(jù)技術(shù)在有效搜集、整理、調(diào)查、分析相關(guān)數(shù)據(jù)類型、結(jié)構(gòu)、價值的基礎(chǔ)上,使多種來源的數(shù)據(jù)融合在一起,對多種類型數(shù)據(jù)進(jìn)行科學(xué)客觀的評價與分析,最終獲取高價值的信息資源的過程。多源數(shù)據(jù)融合的目的是將不同種類、不同結(jié)構(gòu)、不同內(nèi)容的數(shù)據(jù)進(jìn)行綜合優(yōu)化處理,發(fā)揮不同來源數(shù)據(jù)的優(yōu)勢,從海量數(shù)據(jù)中提取出具有統(tǒng)一結(jié)構(gòu)特征,比單一數(shù)據(jù)更可靠、更有價值、更科學(xué)的數(shù)據(jù),滿足決策管理需要,使服務(wù)用戶的數(shù)據(jù)更具科學(xué)性[2]。
結(jié)合目前研究來看,多源數(shù)據(jù)融合技術(shù)是一種針對多種來源數(shù)據(jù)進(jìn)行綜合分析、計(jì)算、挖掘及管理的數(shù)據(jù)處理技術(shù),通過對數(shù)據(jù)資源的全面挖掘、分析、整合使數(shù)據(jù)成為互相聯(lián)系的有機(jī)整體,便于信息分析人員對數(shù)據(jù)全面掌握?;诙嘣磾?shù)據(jù)融合技術(shù)產(chǎn)生的多源數(shù)據(jù)融合系統(tǒng)在信息情報機(jī)構(gòu)得到了廣泛應(yīng)用。該系統(tǒng)由兩部分組成,分別為數(shù)據(jù)分布式處理模塊和數(shù)據(jù)識別模塊。數(shù)據(jù)分布式處理模塊的功能是針對多種結(jié)構(gòu)及類型數(shù)據(jù)進(jìn)行分布式處理及融合重構(gòu),使用算法工具對多元數(shù)據(jù)進(jìn)行深入挖掘,生產(chǎn)出客觀準(zhǔn)確、科學(xué)有效,滿足決策服務(wù)需求的高價值的信息數(shù)據(jù)[3]。數(shù)據(jù)識別模塊是多源數(shù)據(jù)融合系統(tǒng)的核心模塊,主要功能是對數(shù)據(jù)全面感知,分析數(shù)據(jù)結(jié)構(gòu),確定數(shù)據(jù)類型。數(shù)據(jù)識別系統(tǒng)能對傳感器傳遞的用戶行為數(shù)據(jù)感知,記錄讀者的行為數(shù)據(jù),分析用戶使用系統(tǒng)的日志信息,確定用戶的服務(wù)需求。需要注意的是,數(shù)據(jù)識別系統(tǒng)數(shù)據(jù)感知的精準(zhǔn)度、知識獲取的科學(xué)性及數(shù)據(jù)搜集范圍,會影響系統(tǒng)運(yùn)行效率。
多源數(shù)據(jù)融合技術(shù)滿足了人們多渠道獲取數(shù)據(jù)、多元化使用數(shù)據(jù)的需求,是信息技術(shù)發(fā)展的實(shí)踐成果。圖書情報部門經(jīng)過不斷探索與有益嘗試,證明了多源數(shù)據(jù)融合技術(shù)的可靠性及其優(yōu)勢,也彰顯出多源數(shù)據(jù)融合作為新技術(shù)的應(yīng)用價值。這種數(shù)據(jù)融合技術(shù)與傳統(tǒng)的數(shù)據(jù)使用方式有著本質(zhì)的不同,借助數(shù)據(jù)分布式處理系統(tǒng)、數(shù)據(jù)識別系統(tǒng)能精準(zhǔn)識別多種數(shù)據(jù)源,并針對不同數(shù)據(jù)源數(shù)據(jù)的結(jié)構(gòu)、類型分析、評價進(jìn)行數(shù)據(jù)融合[4]。在社會實(shí)踐中,多源數(shù)據(jù)融合技術(shù)能幫助人們挖掘數(shù)據(jù)價值,發(fā)現(xiàn)數(shù)據(jù)的變化規(guī)律,掌握數(shù)據(jù)的內(nèi)部關(guān)聯(lián)[4]。
目前,很多數(shù)字圖書館就多源數(shù)據(jù)融合技術(shù)進(jìn)行了研究,并將其應(yīng)用到情景化推薦中,力求對多源數(shù)據(jù)有效搜集、分析、統(tǒng)計(jì),提高知識服務(wù)的有效性,更好地滿足用戶的個性化需求。
數(shù)字圖書館作為基于互聯(lián)網(wǎng)、計(jì)算機(jī)系統(tǒng)建立的數(shù)字化知識服務(wù)系統(tǒng),數(shù)據(jù)來源更為多樣,包括外部數(shù)據(jù)源和內(nèi)部數(shù)據(jù)源兩部分。外部數(shù)據(jù)源包括外部傳感器數(shù)據(jù)、環(huán)境信息采集數(shù)據(jù)、社會環(huán)境數(shù)據(jù)、用戶信息數(shù)據(jù)等,內(nèi)部數(shù)據(jù)源包括互聯(lián)網(wǎng)數(shù)據(jù)、內(nèi)部傳感器數(shù)據(jù)、用戶行為數(shù)據(jù)、用戶反饋數(shù)據(jù)、數(shù)據(jù)庫文獻(xiàn)、互聯(lián)網(wǎng)日志記錄及采購的電子文獻(xiàn)數(shù)據(jù)等。數(shù)字圖書館針對不同來源數(shù)據(jù)聚合、分解、挖掘、分析,獲得比單一數(shù)據(jù)源更可靠的數(shù)據(jù)。
多源數(shù)據(jù)的典型特征是種類、結(jié)構(gòu)多樣化,在數(shù)字環(huán)境中由于異構(gòu)化數(shù)據(jù)的碎片性和非結(jié)構(gòu)性,數(shù)字圖書館需要對多源數(shù)據(jù)進(jìn)行實(shí)時分析??赏诰蚍治龅臄?shù)據(jù)的共同特征是用戶的行為數(shù)據(jù)或用戶訪問的日志記錄,也有可能是某一學(xué)科同一主題的數(shù)據(jù)。數(shù)據(jù)具有互補(bǔ)性,不同來源數(shù)據(jù)在日志記錄及字段上具有互補(bǔ)性,以保障數(shù)據(jù)結(jié)構(gòu)的完整。數(shù)據(jù)分析分為3 個環(huán)節(jié):數(shù)據(jù)拆分、數(shù)據(jù)記錄、數(shù)據(jù)統(tǒng)計(jì),每個步驟涉及不同的處理技術(shù)和具體的處理標(biāo)準(zhǔn)。在數(shù)據(jù)分析中,一段數(shù)據(jù)可能包括多個主題,這時要對數(shù)據(jù)進(jìn)行拆分,對數(shù)據(jù)主題歸類。數(shù)據(jù)記錄是指數(shù)據(jù)分析過程中很多字段表達(dá)相同含義,但說法不同,要選擇同一字段代替。如“多源數(shù)據(jù)信息環(huán)境”與“多源數(shù)據(jù)融合環(huán)境”,雖然這兩個字段的表達(dá)方式不同,但都可以將主題確定為“多源數(shù)據(jù)環(huán)境”,也可以歸類為“多源數(shù)據(jù)”??梢允褂肊xcel 表格工具對多源數(shù)據(jù)進(jìn)行記錄,并對主題數(shù)據(jù)進(jìn)行統(tǒng)計(jì),從統(tǒng)計(jì)數(shù)據(jù)中分析某一時間段用戶行為變化趨勢及主要需求,調(diào)整服務(wù)方式。
目前,數(shù)字圖書館在多源數(shù)據(jù)的情景化推薦方面取得了初步成效,如面向用戶提供數(shù)字閱讀服務(wù)的數(shù)字閱覽室都根據(jù)用戶知識獲取情景安裝了識別軟件,移動閱讀器,用戶數(shù)字服務(wù)系統(tǒng)也安裝了多種情景推薦工具,初步實(shí)現(xiàn)了數(shù)字化情景推薦服務(wù)。在讀者情景管理方面普遍實(shí)現(xiàn)了讀者借閱情景分析、情景需求分析,根據(jù)讀者需求為讀者提供滿足其個性化需求的閱讀材料。借助多源數(shù)據(jù)技術(shù)在數(shù)字服務(wù)中達(dá)到科學(xué)化、流程化、數(shù)字化分析用戶情景,并根據(jù)用戶情景推薦知識的目的。多源數(shù)據(jù)融合技術(shù)應(yīng)用于數(shù)字圖書館用戶服務(wù)、科研、管理及圖書管理員工作生活各個領(lǐng)域,使數(shù)字圖書館更能精準(zhǔn)地感知用戶需求,使圖書館工作人員及時掌握閱讀文獻(xiàn)動態(tài)。同時,數(shù)字圖書館“數(shù)字服務(wù)體系”建設(shè)使數(shù)字網(wǎng)絡(luò)規(guī)??焖贁U(kuò)大,傳統(tǒng)的數(shù)據(jù)架構(gòu)已經(jīng)無法滿足數(shù)字圖書館多源數(shù)據(jù)處理需求,多源數(shù)據(jù)融合技術(shù)更容易使傳感器針對用戶情景抓取各類型、各結(jié)構(gòu)數(shù)據(jù)形成實(shí)時、科學(xué)有效的融合分析機(jī)制,對用戶需求精準(zhǔn)定位。多源數(shù)據(jù)融合技術(shù)使數(shù)字圖書館用戶服務(wù)情景中各類數(shù)據(jù)關(guān)聯(lián)性越來越強(qiáng),借助元數(shù)據(jù)解析數(shù)據(jù)主題、含義,并開展自動的挖掘分析和深度融合,對數(shù)字圖書館過去、現(xiàn)在、未來讀者服務(wù)提供有價值的數(shù)據(jù)支持,更有效地滿足讀者的個性化需求[5]。
3.1.1 情景的含義
根據(jù)多源數(shù)據(jù)融合技術(shù)、數(shù)字圖書館的特點(diǎn)及用戶的知識需求,筆者將數(shù)字圖書館的情景定義為多源數(shù)據(jù)推薦的用戶即時數(shù)據(jù)需求的時間、地點(diǎn)、環(huán)境,如用戶使用數(shù)字圖書館的環(huán)境、知識偏好、閱讀習(xí)慣、使用數(shù)字圖書館的地點(diǎn)、時間等。
3.1.2 情景的分類
根據(jù)情景的基本定義和用戶使用數(shù)字圖書館的基本情況,數(shù)字圖書館的情景可以分為用戶情景、位置情景、時間情景、環(huán)境情景和設(shè)備情景,在用戶使用數(shù)字圖書館的不同環(huán)節(jié)呈現(xiàn)出來。
(1)用戶情景
用戶情景指用戶使用數(shù)字圖書館產(chǎn)生的情景信息及使用數(shù)字系統(tǒng)獲取知識時的行為狀態(tài)及閱讀偏好。如用戶使用數(shù)字圖書館是學(xué)習(xí)還是工作,用戶休息時喜歡運(yùn)動還是游戲,在運(yùn)動或游戲時會怎么做出選擇等。這些情景要素都會影響用戶的注意力、時間分配、行為選擇,是影響數(shù)字圖書館情景化推薦的重要變量因素。
(2)位置情景
位置情景是指用戶使用數(shù)字圖書館時所處的位置,對用戶所處的位置進(jìn)行情景描述,所產(chǎn)生的情景信息與用戶的位置有關(guān)。如用戶使用數(shù)字圖書館時是在學(xué)校、還是家里及與所處位置相關(guān)的信息等,包括用戶所在的城市、所處的位置類型(家里、學(xué)校、社交場所等),用戶所處周圍人員情況等。
(3)時間情景
時間主要描述用戶使用圖書館時間段及使用數(shù)字圖書館所消耗的時間,用時間情景描述用戶的習(xí)慣及行為偏好,如用戶使用平板電腦瀏覽數(shù)字網(wǎng)站的時間(早、中、晚不同的時間段),用戶在不同的時間段對數(shù)字信息有著不同的需求,在休息日關(guān)注休閑娛樂,在工作時間更加關(guān)注與專業(yè)相關(guān)的書籍。
(4)環(huán)境情景
環(huán)境情景是指用戶在使用數(shù)字圖書館情景推薦系統(tǒng)時所處的環(huán)境,描述用戶的環(huán)境信息,包括溫度、自然景物、天氣、濕度等要素。數(shù)字圖書館用戶經(jīng)常處于不同的環(huán)境中,情景化推薦系統(tǒng)的設(shè)計(jì)時要多角度考慮環(huán)境要素,了解用戶使用數(shù)字推薦系統(tǒng)的真實(shí)狀況、閱讀需求及其變化情況。
(5)設(shè)備情景
設(shè)備情景是指數(shù)字圖書館用戶獲取知識資源的數(shù)字移動設(shè)備,如智能手機(jī)、智能平板電腦、移動閱讀終端。設(shè)備情景主要描述兩個方面:一是硬件設(shè)備信息,如數(shù)字設(shè)備的信息顯示方式、設(shè)備形態(tài);二是設(shè)備的網(wǎng)絡(luò)信息,包括硬件設(shè)備的聯(lián)網(wǎng)方式、網(wǎng)絡(luò)顯卡、網(wǎng)絡(luò)傳輸效率大小、網(wǎng)絡(luò)型號等,精準(zhǔn)定位用戶需求,以數(shù)字信息的方式將設(shè)備情景信息共享給用戶。
目前,對用戶個性化情景研究以用戶使用圖書館的整體情景作為研究對象,對用戶個性化情境研究的不足,造成了情景推薦結(jié)果與用戶的個性化需求存在一定偏差。在數(shù)字信息推薦過程中,情景信息推薦需要根據(jù)用戶所處時間、環(huán)境、地點(diǎn)確定。有些學(xué)者認(rèn)為上述這些要素都重要,有些用戶卻認(rèn)為不重要,還有的用戶只認(rèn)為時間、地點(diǎn)等要素重要。在筆者看來,能從用戶的全部情景要素中幫助每位用戶做出選擇,可以減輕情景推薦系統(tǒng)運(yùn)行負(fù)荷,精準(zhǔn)確定用戶的個性化情景,使情景化推薦效果更加顯著[6]。
目前,數(shù)字圖書館情景化推薦系統(tǒng)大多是基于用戶整體情景感知開展的信息推薦活動,忽視了對用戶個性化情景的分析。由此,數(shù)字圖書館情景化推薦應(yīng)在深入分析用戶個性化情景的基礎(chǔ)上構(gòu)建情景推薦模型(如圖1所示),精準(zhǔn)定位用戶的情景需求,為用戶提供適合的情景信息。
圖1 基于多源數(shù)據(jù)融合的數(shù)字圖書館情景化推薦模型
該模塊主要功能是從用戶全部情景信息中,找到對用戶數(shù)字閱讀影響最大的情景要素,即對用戶的個性化情景進(jìn)行針對性分析,找到用戶當(dāng)前情景的需求點(diǎn),并對用戶的個性化情景信息進(jìn)行總結(jié),精準(zhǔn)判定用戶的興趣偏好。對用戶當(dāng)前情景的感知可依靠數(shù)字圖書館系統(tǒng)內(nèi)部的傳感器、RFID技術(shù)實(shí)現(xiàn)。多源數(shù)據(jù)融合系統(tǒng)對獲取的用戶信息多角度進(jìn)行融合,并使用數(shù)據(jù)庫對用戶使用系統(tǒng)的日志記錄存儲,對用戶行為數(shù)據(jù)及情景信息做出評價,數(shù)據(jù)評價標(biāo)準(zhǔn)首先從用戶、數(shù)字信息、情景信息各個角度找到信息共性,再結(jié)合存儲的用戶情景數(shù)據(jù)組成多維情景歷史評價數(shù)據(jù)鏈實(shí)現(xiàn)對用戶需求的精準(zhǔn)感知與分析,多個角度判定用戶行為偏好和閱讀習(xí)慣。該模塊是數(shù)字圖書館情景化推薦模型用戶情景感知與需求分析的基礎(chǔ),也是多源數(shù)據(jù)融合的重要數(shù)據(jù)來源,是數(shù)字圖書館情景化推薦模型建立的依據(jù)。
多源數(shù)據(jù)推薦模塊是數(shù)字圖書館情景化推薦模型最重要的組成部分。該模塊首先針對用戶使用數(shù)字圖書館的情景精準(zhǔn)感知,從多種情景信息中分析出用戶的個性化情景,得到基于用戶個性化情景的多源數(shù)據(jù),然后使用算法工具對用戶的個性化需求精準(zhǔn)分析,圍繞用戶的情景需求進(jìn)行多源數(shù)據(jù)推送,這些多源數(shù)據(jù)有基于用戶個性化情景的時間信息、位置信息、環(huán)境信息,也有根據(jù)用戶情景為用戶推薦的信息,包括數(shù)字圖書館的日志記錄、高頻詞匯信息,也有最新的數(shù)據(jù)資源信息等,最大程度上滿足用戶的個性化需求,實(shí)現(xiàn)多源數(shù)據(jù)融合推薦。
用戶與多源數(shù)據(jù)推薦系統(tǒng)交互模塊是數(shù)字圖書館情景化推薦模型不可缺少的一部分。數(shù)字圖書館用戶是多元數(shù)據(jù)推薦系統(tǒng)的服務(wù)對象,用戶在使用數(shù)字圖書館過程中向多元數(shù)據(jù)推薦系統(tǒng)發(fā)出指令,系統(tǒng)根據(jù)用戶的情景信息向用戶精準(zhǔn)推送多源數(shù)據(jù),用戶當(dāng)前接受服務(wù)情節(jié)與用戶對系統(tǒng)推薦結(jié)果的評分及時上傳到多源數(shù)據(jù)倉儲中,實(shí)現(xiàn)數(shù)字圖書館用戶服務(wù)情景與評分的動態(tài)更新。用戶與多源數(shù)據(jù)推薦系統(tǒng)交互模塊的功能設(shè)置,助力數(shù)字圖書館實(shí)時把握用戶動態(tài),精準(zhǔn)分析用戶需求,時刻檢驗(yàn)系統(tǒng)服務(wù)評價結(jié)果。
基于多源數(shù)據(jù)融合對數(shù)字圖書館情景化推薦模型展開研究,有助于彌補(bǔ)當(dāng)前數(shù)字圖書館針對用戶整體情景分析的不足,從多元情景中確定用戶的個性化情景,基于多源數(shù)據(jù)融合技術(shù)對用戶情景信息進(jìn)行分析,精準(zhǔn)定位用戶需求,基于用戶情景使用算法工具為用戶推薦多源融合數(shù)據(jù),促進(jìn)用戶對情景化推薦模型的實(shí)時評價,注重動態(tài)反饋,實(shí)時把握用戶動態(tài)及情景變化。