●張為江(天津圖書(shū)館,天津300201)
基于用戶(hù)需求分析的數(shù)字圖書(shū)館知識(shí)發(fā)現(xiàn)系統(tǒng)研究
●張為江(天津圖書(shū)館,天津300201)
知識(shí)發(fā)現(xiàn);用戶(hù)需求;數(shù)字圖書(shū)館
知識(shí)發(fā)現(xiàn)系統(tǒng)是數(shù)字圖書(shū)館個(gè)性化信息服務(wù)的實(shí)現(xiàn)手段之一,本文以用戶(hù)需求為中心,從知識(shí)服務(wù)平臺(tái)、用戶(hù)知識(shí)行為分析平臺(tái)、知識(shí)發(fā)現(xiàn)平臺(tái)、數(shù)字圖書(shū)館資源等方面對(duì)數(shù)字圖書(shū)館知識(shí)發(fā)現(xiàn)系統(tǒng)進(jìn)行了論述。
在數(shù)字圖書(shū)館服務(wù)中,如何提高資源系統(tǒng)的利用率以及如何進(jìn)行更加人性化的主動(dòng)知識(shí)服務(wù)一直是信息行業(yè)研究的重點(diǎn)課題,許多信息服務(wù)機(jī)構(gòu)推出了從研究資源或知識(shí)本身的邏輯關(guān)系出發(fā),進(jìn)一步結(jié)合用戶(hù)的部分檢索需求構(gòu)建的主動(dòng)服務(wù)的知識(shí)發(fā)現(xiàn)系統(tǒng),雖然在一定程度上解決了用戶(hù)在浩如煙海的信息資源中獲取信息困難的問(wèn)題,卻沒(méi)有從根本上從用戶(hù)需求的角度出發(fā),深入研究和分析用戶(hù)的使用習(xí)慣、知識(shí)取向,從而無(wú)法真正完全保證用戶(hù)獲取到信息的準(zhǔn)確性,更談不上在對(duì)用戶(hù)的知識(shí)內(nèi)涵進(jìn)行分析的基礎(chǔ)上開(kāi)展個(gè)性化的主動(dòng)知識(shí)服務(wù),用戶(hù)仍然在大量信息超載的情況下面臨選擇困難。[1]因此,在信息爆炸的時(shí)代,研究基于用戶(hù)需求分析的新一代數(shù)字圖書(shū)館知識(shí)發(fā)現(xiàn)系統(tǒng),幫助用戶(hù)擺脫信息超載困境是數(shù)字圖書(shū)館知識(shí)服務(wù)的必然選擇。
1.1 概念
知識(shí)發(fā)現(xiàn)(KnowledgeDiscoveruom Database,Kdd)是確定數(shù)據(jù)中有效的、新穎的、有潛在應(yīng)用價(jià)值的、基本可理解的模式的高級(jí)處理過(guò)程。知識(shí)發(fā)現(xiàn)對(duì)大量的數(shù)據(jù)進(jìn)行處理、分析和挖掘,尋找各類(lèi)數(shù)據(jù)間潛在的關(guān)聯(lián)和規(guī)律,把用戶(hù)對(duì)數(shù)據(jù)的利用從簡(jiǎn)單的檢索查詢(xún)提升到幫助用戶(hù)發(fā)現(xiàn)潛藏在數(shù)據(jù)背后的信息與知識(shí)。[2]尤其重要的是,知識(shí)發(fā)現(xiàn)通過(guò)數(shù)據(jù)關(guān)聯(lián),幫助用戶(hù)在數(shù)據(jù)海洋中發(fā)現(xiàn)了無(wú)法找到的和無(wú)法知道的知識(shí)。
1.2 知識(shí)發(fā)現(xiàn)的功能
(1)概念描述就是對(duì)某類(lèi)對(duì)象的內(nèi)涵進(jìn)行描述,明確概括出對(duì)象的特征,可分為特征性描述和區(qū)別性描述。特征性描述要求指出描述對(duì)象的共同特征;區(qū)別性描述要求指出不同類(lèi)對(duì)象之間的區(qū)別。(2)關(guān)聯(lián)分析指發(fā)現(xiàn)數(shù)據(jù)間的相關(guān)程度,從某一數(shù)據(jù)推斷出另一數(shù)據(jù),發(fā)現(xiàn)其重復(fù)出現(xiàn)的知識(shí)模式。(3)聚類(lèi)分析是依據(jù)物以類(lèi)聚的原則,將本身沒(méi)有類(lèi)別的數(shù)據(jù)聚合成不同的類(lèi),由此導(dǎo)出規(guī)律和典型模式。聚類(lèi)的目的是使屬于同一類(lèi)的數(shù)據(jù)盡量相似,不同類(lèi)的數(shù)據(jù)差別盡可能大。(4)自動(dòng)預(yù)測(cè)趨勢(shì)與行為就是對(duì)數(shù)據(jù)進(jìn)行掃描,尋找潛在的預(yù)測(cè)信息,發(fā)現(xiàn)其隱藏的模式,以便對(duì)未知數(shù)據(jù)進(jìn)行歸類(lèi)。(5)偏差檢測(cè)就是對(duì)數(shù)據(jù)庫(kù)中一些帶有偏差的異常記錄進(jìn)行描述,如:分類(lèi)中的反常實(shí)例,不滿(mǎn)足規(guī)則的特例等。
1.3 知識(shí)發(fā)現(xiàn)的過(guò)程
知識(shí)發(fā)現(xiàn)過(guò)程雖然有多種描述,但只是在組織和表達(dá)方式上有所不同,在內(nèi)容上并沒(méi)有本質(zhì)區(qū)別,主要包括以下步驟:(1)確定知識(shí)發(fā)現(xiàn)的挖掘?qū)ο?、目?biāo)和任務(wù);(2)搜集、提取數(shù)據(jù),建立關(guān)鍵性指標(biāo)數(shù)據(jù)庫(kù);(3)根據(jù)知識(shí)發(fā)現(xiàn)任務(wù),對(duì)數(shù)據(jù)進(jìn)行合法性檢查與清理,去除掉與知識(shí)發(fā)現(xiàn)無(wú)關(guān)的數(shù)據(jù);(4)根據(jù)知識(shí)發(fā)現(xiàn)的目標(biāo)和任務(wù)選擇數(shù)據(jù)挖掘的算法;(5)將知識(shí)發(fā)現(xiàn)的結(jié)果用可視化的形式表示,并讓專(zhuān)家和用戶(hù)進(jìn)行評(píng)價(jià)。以上步驟需要經(jīng)過(guò)多次反復(fù)和修改,以便最終形成高效可用的知識(shí)發(fā)現(xiàn)結(jié)果。
知識(shí)發(fā)現(xiàn)系統(tǒng)是數(shù)字圖書(shū)館個(gè)性化信息服務(wù)的實(shí)現(xiàn)手段之一,雖然國(guó)內(nèi)外有很多類(lèi)似的知識(shí)發(fā)現(xiàn)服務(wù)系統(tǒng),但這些系統(tǒng)大多是以資源為核心研究對(duì)象。例如:Series Solution公司的“資源發(fā)現(xiàn)系統(tǒng)Summon”和超星公司的“學(xué)術(shù)發(fā)現(xiàn)系統(tǒng)”,就是以文獻(xiàn)資源為基礎(chǔ),進(jìn)行數(shù)據(jù)處理和分析展現(xiàn)給讀者。文獻(xiàn)資源雖然是揭示各信息資源關(guān)聯(lián)關(guān)系的立體知識(shí)體系,卻忽略了對(duì)用戶(hù)需求行為的深度分析。
除了以資源為研究對(duì)象的系統(tǒng)外,也有以用戶(hù)為中心設(shè)計(jì)的知識(shí)發(fā)現(xiàn)服務(wù)系統(tǒng),但這類(lèi)系統(tǒng)對(duì)用戶(hù)的分析要么局限于用戶(hù)最初注冊(cè)時(shí)的自我需求定制,要么局限于一些簡(jiǎn)單的統(tǒng)計(jì)數(shù)據(jù)。例如:登錄次數(shù)、下載頁(yè)數(shù)、瀏覽次數(shù)等,這類(lèi)分析遠(yuǎn)遠(yuǎn)不能精確地、動(dòng)態(tài)地分析出用戶(hù)的知識(shí)結(jié)構(gòu)和使用習(xí)慣,從而影響到知識(shí)發(fā)現(xiàn)系統(tǒng)提供信息的準(zhǔn)確性。
基于用戶(hù)需求分析的數(shù)字圖書(shū)館知識(shí)發(fā)現(xiàn)系統(tǒng)則是采用追蹤用戶(hù)對(duì)各個(gè)數(shù)據(jù)庫(kù)的使用過(guò)程的方式,記錄用戶(hù)使用數(shù)據(jù)庫(kù)的關(guān)鍵信息和閱讀軌跡,以用戶(hù)使用數(shù)字圖書(shū)館的行為軌跡作為主要研究對(duì)象,通過(guò)挖掘各類(lèi)數(shù)據(jù)庫(kù)與用戶(hù)行為之間的立體關(guān)系,分析和歸納用戶(hù)自身的特點(diǎn),如不同的知識(shí)背景、知識(shí)取向和使用習(xí)慣等,據(jù)此建立以用戶(hù)需求為關(guān)聯(lián)的知識(shí)體系,從而發(fā)現(xiàn)用戶(hù)獲取知識(shí)的規(guī)律,以便用最有效的方式為用戶(hù)提供系統(tǒng)發(fā)現(xiàn)的知識(shí)信息。[3]
由此可以得出,數(shù)字圖書(shū)館知識(shí)發(fā)現(xiàn)系統(tǒng)以獨(dú)特的視角將用戶(hù)行為分析和知識(shí)發(fā)現(xiàn)兩個(gè)并行的研究方向有機(jī)地結(jié)合起來(lái),統(tǒng)一到主動(dòng)的知識(shí)服務(wù)上面來(lái),是完全根據(jù)用戶(hù)的需求對(duì)數(shù)字圖書(shū)館的資源進(jìn)行揭示、組織和聚類(lèi),主動(dòng)知識(shí)發(fā)現(xiàn)的服務(wù)平臺(tái)。
3.1 有效提高數(shù)字圖書(shū)館資源利用率和用戶(hù)使用效果
數(shù)字圖書(shū)館知識(shí)發(fā)現(xiàn)系統(tǒng)通過(guò)全程記錄用戶(hù)利用數(shù)字圖書(shū)館的知識(shí)行為軌跡,如:檢索關(guān)鍵詞、關(guān)鍵詞出現(xiàn)頻率、用戶(hù)登錄頻率、檢索頻率、下載頁(yè)數(shù)、瀏覽時(shí)長(zhǎng)等指標(biāo),建立用戶(hù)知識(shí)行為數(shù)據(jù)庫(kù),運(yùn)用分類(lèi)、聚類(lèi)、關(guān)聯(lián)分析等方法,研究出用戶(hù)的需求,如使用習(xí)慣、知識(shí)背景及知識(shí)取向,據(jù)此采用知識(shí)關(guān)聯(lián)對(duì)知識(shí)進(jìn)行組織、管理。具體地講,就是在把知識(shí)A推送給用戶(hù)的同時(shí),將與之相關(guān)的知識(shí)B推送給用戶(hù),不僅有效地提高知識(shí)B的利用率,而且更重要的是讓用戶(hù)發(fā)現(xiàn)了所需要的知識(shí)B。這種以數(shù)據(jù)驅(qū)動(dòng)的服務(wù)理念提供的知識(shí)無(wú)疑將有效地提高數(shù)字資源的利用率和用戶(hù)的滿(mǎn)意度。
3.2 實(shí)現(xiàn)信息服務(wù)到知識(shí)服務(wù)的飛越
數(shù)字圖書(shū)館知識(shí)發(fā)現(xiàn)系統(tǒng)通過(guò)分析圖書(shū)館用戶(hù)的知識(shí)行為數(shù)據(jù)庫(kù),發(fā)現(xiàn)其知識(shí)結(jié)構(gòu)和利用知識(shí)的規(guī)律,將此規(guī)律作為數(shù)字圖書(shū)館資源的智能化聚類(lèi)和關(guān)聯(lián)的規(guī)則,利用知識(shí)發(fā)現(xiàn)技術(shù)在顯性和隱性的資源中對(duì)可用知識(shí)進(jìn)行收集、選擇、關(guān)聯(lián)和升值,使知識(shí)發(fā)現(xiàn)系統(tǒng)提供的服務(wù)不僅僅是面向數(shù)據(jù)庫(kù)的簡(jiǎn)單檢索、查詢(xún)和調(diào)用,而是實(shí)現(xiàn)個(gè)性化的主動(dòng)的知識(shí)發(fā)現(xiàn)和推送。同時(shí),通過(guò)大量分析用戶(hù)的知識(shí)行為數(shù)據(jù)庫(kù),發(fā)現(xiàn)用戶(hù)共有的需求特性及其之間的相互關(guān)聯(lián)規(guī)則,進(jìn)而還可利用已有的數(shù)據(jù)對(duì)用戶(hù)未來(lái)的活動(dòng)進(jìn)行預(yù)測(cè),發(fā)現(xiàn)今后的閱讀趨勢(shì),從而引領(lǐng)用戶(hù)獲得更有用的知識(shí),以滿(mǎn)足用戶(hù)的實(shí)際和期望需要,實(shí)現(xiàn)從獲取信息到知識(shí)的飛躍。[2]
3.3 進(jìn)一步推動(dòng)信息資源和數(shù)據(jù)庫(kù)的建設(shè)
通過(guò)分析用戶(hù)利用數(shù)字圖書(shū)館的知識(shí)行為,發(fā)現(xiàn)用戶(hù)的知識(shí)行為規(guī)律,將此規(guī)律應(yīng)用于知識(shí)發(fā)現(xiàn)平臺(tái),最終使用戶(hù)獲得隱藏于數(shù)據(jù)背后的具有新穎性的、潛在的、有價(jià)值的知識(shí)。整個(gè)過(guò)程既包括用戶(hù)知識(shí)行為的規(guī)律,又包括知識(shí)被發(fā)現(xiàn)的規(guī)律,這兩個(gè)規(guī)律完全以用戶(hù)為中心,聚焦用戶(hù)需求,相輔相成,不僅對(duì)今后數(shù)據(jù)庫(kù)的構(gòu)建提供理論支持,而且對(duì)數(shù)字圖書(shū)館的資源組織、建設(shè)具有很強(qiáng)的現(xiàn)實(shí)意義和指導(dǎo)意義,促使海量的數(shù)字圖書(shū)館信息轉(zhuǎn)變成能最大限度滿(mǎn)足用戶(hù)需求的資源。
數(shù)字圖書(shū)館知識(shí)發(fā)現(xiàn)系統(tǒng)是以資源檢索為目標(biāo)的資源服務(wù)系統(tǒng)轉(zhuǎn)變?yōu)橥耆嫦蛴脩?hù)需求的、主動(dòng)發(fā)現(xiàn)和推送知識(shí)的系統(tǒng)。它主要由四部分構(gòu)成,即知識(shí)服務(wù)平臺(tái)、用戶(hù)知識(shí)行為分析平臺(tái)、知識(shí)發(fā)現(xiàn)平臺(tái)和數(shù)字圖書(shū)館資源。見(jiàn)圖。
圖 數(shù)字圖書(shū)館知識(shí)發(fā)現(xiàn)系統(tǒng)框架
4.1 知識(shí)服務(wù)平臺(tái)
知識(shí)服務(wù)平臺(tái)是數(shù)字圖書(shū)館知識(shí)發(fā)現(xiàn)系統(tǒng)的入口,用戶(hù)通過(guò)它訪(fǎng)問(wèn)數(shù)字圖書(shū)館資源以達(dá)到檢索、定制、獲取信息與知識(shí)的目的,同時(shí)通過(guò)廣泛深入采集用戶(hù)的瀏覽、檢索軌跡,生成用戶(hù)利用數(shù)字圖書(shū)館的知識(shí)行為數(shù)據(jù)庫(kù)。知識(shí)服務(wù)平臺(tái)集成了圖書(shū)館多種信息技術(shù)手段,如集成檢索、個(gè)性化推送、數(shù)字參考咨詢(xún)、知識(shí)交流等服務(wù),它更能體現(xiàn)用戶(hù)參與交互的特征,是圖書(shū)館提供知識(shí)服務(wù)的人機(jī)交互平臺(tái)。
在數(shù)字圖書(shū)館知識(shí)發(fā)現(xiàn)系統(tǒng)框架中,人機(jī)交互平臺(tái)是用戶(hù)與知識(shí)發(fā)現(xiàn)系統(tǒng)之間通信的接口,其設(shè)計(jì)占據(jù)非常重要的地位。以滿(mǎn)足用戶(hù)需求為基礎(chǔ)的交互是在充分考慮用戶(hù)的體驗(yàn)及感受的前提下設(shè)計(jì)的,它嚴(yán)格以用戶(hù)為中心,不只關(guān)注形式和內(nèi)容,更多的是通過(guò)記錄用戶(hù)利用數(shù)字圖書(shū)館的過(guò)程,來(lái)準(zhǔn)確描述用戶(hù)需求,從而以最有效的方式向用戶(hù)推送知識(shí)信息。[4]對(duì)用戶(hù)而言,人機(jī)交互平臺(tái)必須是一個(gè)簡(jiǎn)潔、易操作、且操作界面相對(duì)友好的平臺(tái),并可將用戶(hù)的問(wèn)題定義及知識(shí)發(fā)現(xiàn)結(jié)果以可視化的方式展示給用戶(hù)。
4.2 用戶(hù)知識(shí)行為分析平臺(tái)
用戶(hù)知識(shí)行為數(shù)據(jù)庫(kù)包括用戶(hù)個(gè)人信息庫(kù)和用戶(hù)知識(shí)行為記錄庫(kù)。用戶(hù)個(gè)人信息庫(kù)是指用戶(hù)的注冊(cè)信息和系統(tǒng)預(yù)設(shè)的用戶(hù)需求定制等數(shù)據(jù)。用戶(hù)知識(shí)行為記錄庫(kù)用于記錄大量用戶(hù)的檢索、閱讀的知識(shí)行為,這部分記錄利用數(shù)字圖書(shū)館日志、用戶(hù)cookie進(jìn)行提取和收集。
然而,并不是所有的用戶(hù)行為數(shù)據(jù)對(duì)知識(shí)發(fā)現(xiàn)都是有用的,用戶(hù)知識(shí)行為分析平臺(tái)主要負(fù)責(zé)分析用戶(hù)知識(shí)行為數(shù)據(jù)庫(kù),通過(guò)統(tǒng)計(jì)學(xué)分析用戶(hù)知識(shí)行為指標(biāo),對(duì)大量用戶(hù)閱讀習(xí)慣進(jìn)行聚類(lèi),然后根據(jù)聚類(lèi)得到的各類(lèi)指標(biāo)的相關(guān)性、邏輯性,對(duì)數(shù)據(jù)進(jìn)行過(guò)濾,去除無(wú)效數(shù)據(jù),保留一些能夠體現(xiàn)用戶(hù)對(duì)資源感興趣的信息,從而發(fā)現(xiàn)用戶(hù)知識(shí)行為的內(nèi)在聯(lián)系和普遍規(guī)律,研究發(fā)現(xiàn)能夠表現(xiàn)用戶(hù)知識(shí)行為規(guī)律的關(guān)鍵功能指標(biāo),如檢索關(guān)鍵詞、加入收藏等,由此就可以推斷出該用戶(hù)在某一段時(shí)間的瀏覽偏好,并將用戶(hù)對(duì)數(shù)據(jù)庫(kù)需求的分析結(jié)果發(fā)送到知識(shí)發(fā)現(xiàn)平臺(tái)。
在整個(gè)系統(tǒng)模型中,用戶(hù)可以對(duì)信息需求和推送的知識(shí)進(jìn)行選擇和修改,這一過(guò)程將被記錄生成新的用戶(hù)知識(shí)行為數(shù)據(jù)庫(kù),用戶(hù)知識(shí)行為分析平臺(tái)也將重新進(jìn)行分析、定位用戶(hù)的現(xiàn)實(shí)與潛在需求,經(jīng)過(guò)如此反復(fù)地反饋、修改、再反饋、再修改,用戶(hù)知識(shí)行為規(guī)律將更加貼近用戶(hù)要求。用戶(hù)知識(shí)行為數(shù)據(jù)庫(kù)的建立要經(jīng)過(guò)必要的修整與調(diào)節(jié)過(guò)程,使數(shù)據(jù)庫(kù)趨于科學(xué)合理,同時(shí)只有經(jīng)過(guò)比較長(zhǎng)時(shí)間數(shù)據(jù)積累的用戶(hù)知識(shí)行為數(shù)據(jù)庫(kù)才能真實(shí)反映用戶(hù)的知識(shí)背景、知識(shí)取向和使用習(xí)慣等,對(duì)其進(jìn)行采集、處理是知識(shí)發(fā)現(xiàn)的基礎(chǔ)。
4.3 知識(shí)發(fā)現(xiàn)平臺(tái)
知識(shí)發(fā)現(xiàn)平臺(tái)是數(shù)字圖書(shū)館知識(shí)發(fā)現(xiàn)系統(tǒng)的核心,以各類(lèi)結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)為底層,利用數(shù)據(jù)倉(cāng)儲(chǔ)、數(shù)據(jù)挖掘和搜索引擎等技術(shù)手段,全面揭示數(shù)字圖書(shū)館中各種文獻(xiàn)之間的內(nèi)在關(guān)系。眾所周知,各類(lèi)數(shù)據(jù)不是孤立的,數(shù)據(jù)間存在著千絲萬(wàn)縷的聯(lián)系,這些聯(lián)系就是知識(shí)關(guān)聯(lián)的基礎(chǔ),知識(shí)關(guān)聯(lián)就是在海量數(shù)據(jù)中發(fā)現(xiàn)數(shù)據(jù)項(xiàng)之間的關(guān)系。通過(guò)知識(shí)關(guān)聯(lián),用戶(hù)可以獲得更多信息,直到發(fā)現(xiàn)用戶(hù)真正需要的知識(shí),知識(shí)關(guān)聯(lián)是知識(shí)發(fā)現(xiàn)和知識(shí)創(chuàng)造的起點(diǎn)。
知識(shí)發(fā)現(xiàn)的結(jié)果不僅取決于知識(shí)結(jié)點(diǎn)之間的邏輯關(guān)系,取決于知識(shí)之間的有機(jī)關(guān)聯(lián),更取決于用戶(hù)對(duì)知識(shí)的需求和利用規(guī)律。知識(shí)發(fā)現(xiàn)平臺(tái)依據(jù)用戶(hù)知識(shí)行為的分析結(jié)果,建立以用戶(hù)需求為關(guān)聯(lián)的知識(shí)體系,并深入挖掘大量數(shù)據(jù)資源背后的信息,以便發(fā)現(xiàn)用戶(hù)需要的、有效的知識(shí)。知識(shí)發(fā)現(xiàn)是數(shù)字圖書(shū)館服務(wù)的更高層次,是主動(dòng)信息服務(wù)的基礎(chǔ)。
4.4 數(shù)字圖書(shū)館資源
數(shù)字圖書(shū)館資源是知識(shí)發(fā)現(xiàn)系統(tǒng)最基礎(chǔ)的設(shè)施,位于整個(gè)系統(tǒng)的最底層,主要包括圖書(shū)館各種不同類(lèi)型、不同地域的數(shù)字資源和未挖掘的知識(shí),它們是為用戶(hù)提供信息服務(wù)和知識(shí)發(fā)現(xiàn)的基礎(chǔ)。
[1]曹樹(shù)金.基于用戶(hù)需求的圖書(shū)館用戶(hù)滿(mǎn)意實(shí)證研究[J].中國(guó)圖書(shū)館學(xué)報(bào),2013(5):60-72.
[2]劉建濤.?dāng)?shù)字圖書(shū)館用戶(hù)行為研究[D].武漢:武漢理工大學(xué),2007.
[3]彭春紅.基于用戶(hù)體驗(yàn)價(jià)值的高校圖書(shū)館服務(wù)創(chuàng)新[J].情報(bào)探索,2011(9):108-110.
[4]景衛(wèi)紅.?dāng)?shù)字圖書(shū)館個(gè)性化信息服務(wù)研究[J].圖書(shū)情報(bào)工作,2010(S1):160-161,183.
G250.76;G252.0
A
1005-8214(2014)09-0083-03
張為江(1969-),女,情報(bào)學(xué)碩士,天津圖書(shū)館副研究館員,發(fā)表論文數(shù)篇。
2014-06-26[責(zé)任編輯]王崗
本文系2014年度文化部科技創(chuàng)新項(xiàng)目(項(xiàng)目編號(hào):2014k jcxxm05)的研究成果之一。