張智剛,郭淑艷
(吉林大學(xué)農(nóng)學(xué)部圖書館,吉林長(zhǎng)春 130062)
隨著信息技術(shù)的不斷發(fā)展和普及,圖書館作為一個(gè)信息情報(bào)資源中心,積累了大量的數(shù)據(jù)。以一個(gè)中小型圖書館為例,其館藏圖書量大約是50萬冊(cè),電子書刊可能接近5~10T,信息數(shù)量可以達(dá)到幾千萬條。由于數(shù)據(jù)庫(kù)技術(shù)的日臻成熟,在如此海量的數(shù)據(jù)庫(kù)中查找讀者所需的資料已經(jīng)不是什么問題。可我們的數(shù)據(jù)庫(kù)是在不斷更新的,每天都會(huì)有大量的圖書和電子期刊到館入庫(kù)。怎么才能讓讀者及時(shí)地了解到圖書館的最新資料?如何判斷這些新資料會(huì)不會(huì)成為某些讀者的需要?我們研究的目的是:建立一條讀者與海量資源的橋梁,滿足不同讀者的不同需求,實(shí)現(xiàn)信息利用的通暢和最大化。
數(shù)據(jù)挖掘技術(shù)為我們指明了解決這一問題的方向。自從1989年第11屆國(guó)際聯(lián)合人工智能學(xué)術(shù)會(huì)議上首次提出K DD這一概念以來,信息挖掘技術(shù)日益受到人們的關(guān)注,并己經(jīng)成為當(dāng)前計(jì)算機(jī)領(lǐng)域的一大熱點(diǎn),其研究的重點(diǎn)也逐漸從發(fā)現(xiàn)方法轉(zhuǎn)移到系統(tǒng)應(yīng)用,并且注意多種發(fā)現(xiàn)策略和技術(shù)的集成以及多學(xué)科之間的相互滲透?,F(xiàn)今,數(shù)據(jù)挖掘的應(yīng)用領(lǐng)域越來越廣泛,從早期的商業(yè)應(yīng)用,發(fā)展到科學(xué)研究、電子商務(wù)、產(chǎn)品控制、金融行業(yè)、教育教學(xué)等多個(gè)領(lǐng)域。我們可以利用數(shù)據(jù)挖掘相關(guān)方法和理論,對(duì)讀者信息進(jìn)行分析和處理,對(duì)讀者需求作出一個(gè)量化的定義。根據(jù)這一定義去搜索圖書館的海量資源,將符合讀者需求的資源提取出來推送給讀者,實(shí)現(xiàn)上述我們的理想目標(biāo)。
根據(jù)設(shè)想,我們從讀者信息著手分析。在傳統(tǒng)的圖書館中,讀者信息比較簡(jiǎn)單直白,包括姓名、性別、年齡、單位、聯(lián)系方式等信息。這些信息只能反映出讀者的自然情況以及讀者和圖書之間的借還關(guān)系。為了更好地表達(dá)出讀者的需求和特點(diǎn),在這里我們引入讀者信息域的概念。其定義為:能夠表述讀者特征的主題詞的多維集合。
首先,信息域是一個(gè)集合,只要是能體現(xiàn)讀者特點(diǎn)的主題詞均可加入該集合,包括讀者的自然情況屬性。世界上的信息紛繁復(fù)雜,數(shù)量極其龐大,我們不可能將所有的信息點(diǎn)均用于表達(dá)讀者的特點(diǎn),而應(yīng)將龐大的信息群按照某種規(guī)則進(jìn)行分類,提取每個(gè)類或者其子類的主題詞。根據(jù)主題詞出現(xiàn)的頻度和類目的深度,有計(jì)劃地將主題詞填充到信息域中,用以表達(dá)讀者的特征狀態(tài)。
其次,集合中存在多維結(jié)構(gòu),每一維體現(xiàn)出讀者的一個(gè)特點(diǎn)。一個(gè)讀者的興趣特點(diǎn)可能是多方面的,我們不可能將表達(dá)讀者興趣的關(guān)鍵詞一律添加到信息域中去,而應(yīng)將關(guān)鍵詞以某種形式組織起來添加到集合中去,以免引起集合中的關(guān)鍵詞的混亂。這里我們?cè)O(shè)計(jì)了一種放射性的樹形多維組織形式,如圖1所示:
圖1 信息域結(jié)構(gòu)
每個(gè)特征興趣方向均可以看作是一“維”,它是由一棵關(guān)鍵詞樹組成的,表達(dá)讀者對(duì)該方向的詳細(xì)興趣點(diǎn)。
最后,“維”與“維”之間不存在交叉,“維”具有權(quán)重屬性。信息域中每個(gè)關(guān)鍵詞存在唯一性和代表性。為了不產(chǎn)生歧義和提高效率,我們不能將重復(fù)或意義相近的關(guān)鍵詞添加進(jìn)來??梢姟熬S”與“維”之間一定是不存在交叉的。一個(gè)人的興趣是多方面的,而每個(gè)興趣的濃厚程度顯然不是完全一樣的。我們?yōu)槊恳粋€(gè)維設(shè)定一個(gè)權(quán)重值,用來表示讀者對(duì)該特征興趣方向的重視程度。體現(xiàn)出讀者對(duì)哪些方面的內(nèi)容更感興趣。
信息域可以看成是主題詞表的子集。既然是集合的一種,我們可以對(duì)信息域進(jìn)行邏輯運(yùn)算?!芭c”表示取兩個(gè)讀者的共同特點(diǎn),“或”表示取兩個(gè)讀者的所有特點(diǎn),“非”表示讀者不感興趣的信息??梢酝ㄟ^設(shè)定“維”的限制關(guān)系,來對(duì)讀者進(jìn)行分類、篩選等更為復(fù)雜的邏輯運(yùn)算。如:可以設(shè)定“心理學(xué)興趣方向”為限制條件,通過查詢會(huì)很容易將興趣相近的讀者統(tǒng)計(jì)出來。圖書館工作者可以組織讀者聯(lián)誼活動(dòng),為興趣愛好相同或相似的讀者提供交流促進(jìn)的機(jī)會(huì),也可以統(tǒng)計(jì)出讀者群興趣度列表,根據(jù)興趣度的高低,來指導(dǎo)圖書館資源的擺放順序、新資源采購(gòu)的側(cè)重點(diǎn)。
讀者信息這里主要指讀者行為記錄。作為一個(gè)數(shù)字圖書館,其管理系統(tǒng)應(yīng)對(duì)讀者行為進(jìn)行詳實(shí)的記錄。如:讀者出入館時(shí)間、借閱記錄、期刊查閱記錄、論文下載閱讀記錄等。顯然,這些記錄是海量的,從某種角度說是雜亂無章的。我們的目的就是從這些海量的看似雜亂無章的數(shù)據(jù)中提取出讀者的興趣特點(diǎn),把這些特點(diǎn)填充到讀者的信息域當(dāng)中去。
從海量記錄中提取讀者特征的過程就是數(shù)據(jù)挖掘的過程,或者說是發(fā)現(xiàn)知識(shí)的過程。借鑒數(shù)據(jù)挖掘的相關(guān)理論方法,我們可以按照以下步驟進(jìn)行:
首先,進(jìn)行“數(shù)據(jù)清洗”。讀者行為記錄中難免有些錯(cuò)誤或冗余的記錄,這些記錄進(jìn)入挖掘流程勢(shì)必會(huì)影響結(jié)果的準(zhǔn)確度。如:借還間隔只有幾分鐘,說明讀者可能拿錯(cuò)了書;幾分鐘內(nèi)下載了多次相同的文獻(xiàn),顯然這會(huì)產(chǎn)生多條冗余的行為記錄。針對(duì)上述的錯(cuò)誤數(shù)據(jù)、冗余數(shù)據(jù),我們應(yīng)當(dāng)編寫一種“清洗”算法將他們過濾掉。
其次,進(jìn)行數(shù)據(jù)格式上的統(tǒng)一調(diào)整,生成數(shù)據(jù)倉(cāng)庫(kù)。由于各類讀者行為記錄格式不盡相同,借還記錄可能只有圖書編號(hào)、讀者編號(hào)、借還時(shí)間等,下載記錄可能會(huì)有下載編號(hào)、讀者編號(hào)、時(shí)間等。為了適應(yīng)統(tǒng)一的挖掘算法,必須將原數(shù)據(jù)進(jìn)行格式上的調(diào)整,生成標(biāo)準(zhǔn)的數(shù)據(jù)格式,存儲(chǔ)于數(shù)據(jù)倉(cāng)庫(kù)中。
最后,設(shè)計(jì)挖掘算法,進(jìn)行挖掘計(jì)算,得到讀者特征值并填寫到讀者信息域中。挖掘算法是系統(tǒng)的關(guān)鍵。國(guó)內(nèi)外對(duì)文本信息的挖掘算法很多,我們可以選取其中比較成熟的算法作為核心算法,后面適當(dāng)調(diào)整輸出知識(shí)的形式,填寫到信息域中。
通過以上信息處理和挖掘過程,讀者信息域建立完畢。下面我們來討論讀者信息域的開發(fā)利用及修正。
為了建立讀者和海量資源的快速通道,現(xiàn)在讀者的特征已經(jīng)數(shù)字化,而某條信息資源也有自己的關(guān)鍵詞集合。我們拿讀者域和關(guān)鍵詞集合進(jìn)行基于關(guān)聯(lián)規(guī)則的運(yùn)算,就能得到一個(gè)反映相關(guān)度的數(shù)值I。根據(jù)I的大小判定該讀者對(duì)這條信息資源的興趣程度。我們可以把I的值域劃分成若干等級(jí),不同等級(jí)采取不同的服務(wù)方式。若I值非常大,我們可以采用即時(shí)通信的辦法將該信息資源立即推送給讀者;若值比較大,我們可以發(fā)送郵件等方法將資源推送給讀者。這樣圖書館的服務(wù)模式就發(fā)生了質(zhì)的轉(zhuǎn)變,從原來的被動(dòng)等待讀者尋找資源,轉(zhuǎn)變?yōu)橘Y源主動(dòng)尋找讀者,實(shí)現(xiàn)了資源利用的最大化。
讀者信息域不是一成不變的,它應(yīng)該根據(jù)讀者興趣的轉(zhuǎn)移而發(fā)生相應(yīng)的變化。這就必須設(shè)定一套信息域的修正方案。最簡(jiǎn)單的辦法是,以權(quán)值W作為衡量讀者對(duì)某個(gè)興趣方向的重視程度。影響數(shù)值大小的因素應(yīng)該包括:讀者訪問次數(shù)、近期訪問頻度、讀者自定義等。讀者訪問某類資源的次數(shù)越多,證明對(duì)該資源的感興趣程度越濃。近期訪問量也是衡量讀者興趣變化方向的重要指標(biāo)。雖然總的訪問量可以證明讀者的興趣濃厚,但也許是該位讀者幾年前的興趣所在。這就要求我們還應(yīng)該統(tǒng)計(jì)近期讀者的訪問情況,適當(dāng)修改W數(shù)值,體現(xiàn)出讀者興趣的最新變化情況。
為了系統(tǒng)的優(yōu)化考慮,信息域必須具有“減肥”能力。任憑信息域集合的不斷壯大和發(fā)展,勢(shì)必產(chǎn)生過時(shí)的數(shù)據(jù)。當(dāng)某個(gè)“維”在某個(gè)時(shí)間范圍內(nèi)讀者都沒有訪問過,我們就可以認(rèn)定讀者已經(jīng)失去對(duì)該方向的興趣,可以作出刪除處理。通過修正方案的定期執(zhí)行,我們就能基本上跟蹤掌握讀者的最新動(dòng)態(tài),從而為讀者服務(wù)提供更強(qiáng)大的支持。
讀者和數(shù)字圖書館資源是一對(duì)矛盾。圖書館人應(yīng)當(dāng)從讀者角度考慮問題,創(chuàng)造性地開展新業(yè)務(wù)、新服務(wù),解決好這一矛盾。本文從規(guī)范化、標(biāo)準(zhǔn)化的角度考慮讀者服務(wù)模型,力求建立一套數(shù)字圖書館讀者信息挖掘平臺(tái)。目前針對(duì)讀者信息挖掘的方法、算法很多,但各類系統(tǒng)互不兼容。希望統(tǒng)一格式的讀者信息表達(dá)模塊——信息域能夠起到相互聯(lián)絡(luò)、共享信息的作用,以利于各系統(tǒng)的互補(bǔ),提高讀者服務(wù)能力和圖書館建設(shè)水平。
[1]雷剛.個(gè)性化數(shù)字圖書館研究[D].成都:四川大學(xué),2008.
[2]劉璇.數(shù)字圖書館的個(gè)性化知識(shí)服務(wù)研究[D].大連:遼寧師范大學(xué),2008.
[3]王創(chuàng)新.關(guān)聯(lián)規(guī)則提取中對(duì)Apriori算法的一種改進(jìn)[J].計(jì)算機(jī)工程與應(yīng)用,2004(34).
[4]李康順,李元香,滕沖.遺傳算法在數(shù)據(jù)挖掘中的應(yīng)用[J].計(jì)算機(jī)工程與應(yīng)用,2005(9).