童 浪 裴勝玉(廣西財經(jīng)學(xué)院,廣西 南寧 530003)
?
聚類分析在圖書館管理中的應(yīng)用研究
童 浪 裴勝玉
(廣西財經(jīng)學(xué)院,廣西 南寧 530003)
摘 要:聚類分析是數(shù)據(jù)挖掘中的一種非監(jiān)督分類技術(shù)。聚類分析作為輔助技術(shù)在圖書館管理中發(fā)揮了巨大的作用。本文在介紹聚類分析的基礎(chǔ)上,分析了聚類分析在圖書館管理中的應(yīng)用研究,指出當前聚類分析算法存在的不足,提出新的聚類分析方法。
關(guān)鍵詞:聚類分析;數(shù)據(jù)挖掘;非監(jiān)督學(xué)習(xí);圖書館管理
高等學(xué)校圖書館作為高校信息服務(wù)中心,提供高等學(xué)校教學(xué)和科學(xué)研究服務(wù),是培養(yǎng)人才和開展科學(xué)研究的重要基地之一,在高校發(fā)揮著舉足輕重的作用。隨著大學(xué)教育的發(fā)展,高校圖書館的藏書量大幅度增長,隨著計算機技術(shù)的普及和信息資源的日益增長,高校數(shù)字圖書館數(shù)據(jù)呈幾何倍數(shù)增長。面對這些海量數(shù)據(jù),為更好地推動高校圖書館管理,學(xué)者們相繼提出了各自的聚類分析算法,聚類分析也成為高校圖書館管理中的重要研究技術(shù)之一。
本文結(jié)合圖書館管理中的應(yīng)用,概述聚類分析的基礎(chǔ)上,對聚類分析在圖書館管理中的應(yīng)用研究進行分析,指出當前聚類分析算法存在的不足,提出新的聚類分析方法,從而推進聚類分析在圖書館管理中技術(shù)研究。
需求是發(fā)明之母。20世紀70年代初,數(shù)據(jù)挖掘成為了慢慢興起的數(shù)據(jù)智能分析技術(shù),引起專家學(xué)者們的極大關(guān)注,主要源于存在大量數(shù)據(jù),而這些數(shù)據(jù)也迫切需要轉(zhuǎn)換成有用的信息和知識。在這一歷史發(fā)展階段,聚類分析是數(shù)據(jù)挖掘研究領(lǐng)域的重點課題。
1.1 聚類分析概念
數(shù)據(jù)挖掘(Data Mining,DM)又譯為資料探斟,它是數(shù)據(jù)庫知識發(fā)現(xiàn)中的一個步驟。數(shù)據(jù)挖掘一般是指從大量的、隨機的、不完全的、模糊的、有噪聲的數(shù)據(jù)中通過算法搜索隱藏于其中信息的過程。數(shù)據(jù)挖掘的任務(wù)主要包含關(guān)聯(lián)分析、聚類分析、分類、預(yù)測、時序模式和偏差分析等。聚類分析(Clustering analysis)正是數(shù)據(jù)挖掘中的一項重要任務(wù)。聚類分析以“物以類聚”作為劃分依據(jù),將按相似性將數(shù)據(jù)歸納成若干類別,相同類別的數(shù)據(jù)相似,不相同類別的數(shù)據(jù)彼此相異,聚類過程中劃為一組的稱為一個類(Cluster)。于是可以得出聚類分析的數(shù)學(xué)表達方式:
對于數(shù)據(jù)集合V{vi|i=1,2,...,n},這里,vi為數(shù)據(jù)對象,依據(jù)數(shù)據(jù)對象之間的相近程度將數(shù)據(jù)集合V劃分成k組,滿足以下條件
這一過程稱為聚類分析,Ci(i=1,2,...,n)稱為類(或簇)。
1.2 聚類分析原理
用有序?qū)Γ▁,s)或(x,d)表示輸入,s和d表示聚類樣本數(shù)據(jù)之間的相似程度和相異程度標準。x={G1,G2,...,Gk}作為輸出,其中Gk(k=1,2,...,N)為x的子集,即滿足以下條件
圖1 聚類分析算法分類及代表算法
子集G1,G2,...,Gk稱為類,這些子集都是通過一些關(guān)鍵特征進行描述的。通常,可以通過這些樣本集合的重心或類(簇)中關(guān)系的點來表示n維空間的一類;或借助聚類樹的方式用于表示一類;或通過樣本點屬性的邏輯表達式表示一類。
1.3 聚類分析算法
聚類分析有許多種不同的方法,主要包含以下幾種:層次聚類方法、劃分聚類方法、基于密度的聚類、基于網(wǎng)格的算法和基于模型的算法。以下給出聚類分析算法的分類及代表算法。
伴隨著計算機網(wǎng)絡(luò)技術(shù)的快速發(fā)展,高校圖書館的藏書量大幅度增長,高校圖書館在人才培養(yǎng)和科學(xué)研究中所占的位置也日益提升,除了傳統(tǒng)模式的圖書館管理外,數(shù)字圖書館也迅速在高校推廣起來。
2.1 聚類分析在圖書管理系統(tǒng)中的應(yīng)用
在圖書管理中,運用聚類分析技術(shù)主要體現(xiàn)在以下幾個方面。比如,從樣本數(shù)據(jù)中分析出讀者的閱讀傾向。如孫凌云在論文中分析了高校學(xué)生讀者的閱讀傾向,以及給出圖書館的相關(guān)對策;吳志強在論文中應(yīng)用了聚類分析來研究讀者閱讀傾向問題;孫銳等在論文中以重慶大學(xué)圖書館作為研究背景,通過圖書預(yù)約數(shù)據(jù)對讀者閱讀傾向展開研究。另外,運用聚類分析算法創(chuàng)建圖書推薦系統(tǒng)。如孫彥超在其論文中,將讀者“查找”圖書轉(zhuǎn)變?yōu)橄蜃x者“推薦”圖書,運用聚類分析來向讀者更好地推薦;王家勝在論文中提出了基于SPSS Clementine的聚類模型,并用于對讀者群體進行細分。聚類分析技術(shù)應(yīng)用于圖書館管理系統(tǒng)中,不僅能充分了解到讀者的興趣和需求,還可以為圖書管理部門開展圖書采購計劃提供及時可靠的數(shù)據(jù)依據(jù)。從而將傳統(tǒng)管理系統(tǒng)中的被動服務(wù)轉(zhuǎn)化為主動服務(wù),更好地發(fā)揮圖書館的功能。
2.2 聚類分析在數(shù)字圖書館中的應(yīng)用
相比傳統(tǒng)圖書館管理模式,隨著時間的遷移,高校數(shù)字圖書館數(shù)據(jù)呈幾何倍數(shù)增長。面對這些海量數(shù)據(jù),為更好地推動高校圖書館管理,學(xué)者們運用聚類分析算法也提出了相應(yīng)的改革措施。如潘旭武等在論文中提出運用數(shù)據(jù)挖掘技術(shù)對數(shù)字圖書館進行結(jié)構(gòu)挖掘、內(nèi)容挖掘和用戶使用記錄的挖掘。張付志等在論文中提出一種基于聚類技術(shù)的數(shù)字圖書館個性推薦算法。無論在傳統(tǒng)圖書管理系統(tǒng),還是對于數(shù)字圖書管理,從這些文獻統(tǒng)計中,聚類分析扮演著越來越重要的角色,承擔起越來越重要的功能作用。
綜上所述,這些聚類算法均為單一聚類算法,均為基于傳統(tǒng)聚類分析基礎(chǔ)上的算法。聚類問題的不同也決定了需要使用不同的最優(yōu)化準則,不同的最優(yōu)化策略和不同的聚類準則,因此將產(chǎn)生許多不同的聚類分析方法。目前,關(guān)于圖書館管理中所應(yīng)用的聚類分析方法均只是對一個目標函數(shù)進行優(yōu)化。單目標聚類算法通常在檢測有意義的現(xiàn)實樣本數(shù)據(jù)集合時,因?qū)嶋H樣本數(shù)據(jù)為高維的、稀疏的數(shù)據(jù)而失效。因此,考慮到單目標算法的這些缺點,本文將提出基于多目標優(yōu)化的聚類分析算法用于解決圖書館管理中的問題。
3.1 基于多目標優(yōu)化的聚類分析
基于多目標優(yōu)化的聚類算法已提出許多種。K. Suresh,D. Kundu等在文獻[12]中提出了基于差分進化的自動多目標聚類分析算法;K. S. N. Ripon,C. H. Tsang等在文獻[13]中提出了可變長實數(shù)跳轉(zhuǎn)基因的多目標進化遺傳聚類分析方法;K. S. N. Ripon和M. N. H. Siddique在文獻[14]中提出了基于多目標進化聚類分析算法用于重疊聚類檢測;S. Saha和S. Bandyopadhyay在文獻[15]中提出了對稱的多目標自動聚類分析算法。通過調(diào)查分析,圖書館管理中所遇到的問題中,樣本數(shù)據(jù)集合大多為多特征、多因素、多目標優(yōu)化問題,因此基于多目標優(yōu)化的聚類分析算法更適合求解此類問題。
參考文獻
[1] Oded Maimon, Lior Rokach(Eds.). Data Mining and Knowledge Discovery Handbook[M]. Springer, 2005: 321-352.
[2]張云濤,龔玲.數(shù)據(jù)挖掘原理與技術(shù)[M].北京:電子工業(yè)出版社,2004:49.
[3]孫凌云.高校學(xué)生讀者的淺閱讀傾向及圖書館對策[J].圖書情報工作,2010,54(3):85-88.
[4]孫彥超.基于聚類分析算法的圖書推薦系統(tǒng)的研究[J].數(shù)字圖書館,2015(5):76-795.
[5]吳志強.基于聚類分析的讀者閱讀傾向研究[J].圖書館工作研究,2011(15):82-84.
[6]孫銳,楊新涯.利用圖書預(yù)約數(shù)據(jù)進行讀者閱讀傾向研究——以重慶大學(xué)圖書館為例[J].圖書館建設(shè),2011(1):31-34.
[7]王家勝.聚類分析在高校圖書館讀者群體細分中的應(yīng)用[J].農(nóng)業(yè)圖書情報學(xué)刊,2011,23(9):15-42.
[8]孫吉貴,劉杰,趙連宇.聚類算法研究[J].軟件學(xué)報,2008(1):46-150.
[9]賀玲,吳玲達,蔡益朝.數(shù)據(jù)挖掘中的聚類算法綜述[J].計算機應(yīng)用研究,2007(1).
[10]潘旭武,陳玲洪.數(shù)據(jù)挖掘在數(shù)字圖書中的應(yīng)用研究[J].浙江高校圖書情報工作,2007,1(81):36-55.
[11]張付志,姜志英.一種基于聚類技術(shù)的數(shù)字圖書館個性化推薦算法[J].計算機應(yīng)用與軟件,2008,7(25):84-99.
[12] K.Suresh, D.K.S.G.Automatic Clustering with Multi-objective Differential Evolution Algorithms[C].IEEE Congress on Evolutionary Computation, 2009: 2590-2597.
[13] K.S.N.Ripon, C.H.T.S. Multi-objective evolutionary clustering using variable-length real jumping genes genetic algorithm[C]. Proceeding of the 18th International Conference on Pattern Recognition, 2006: 1200-1203.
[14] K.S.N.Ripon, M.N.H.S.Evolutionary multi-objective clustering for overlapping clusters detection[C].IEEE Congress on Evolutionary Computation, 2009: 976-982.
[15] S.Saha, S.B.A symmetry based multiobjective clustering technique for evolution of clusters[J].Pattern Recognition,2010, 43(3): 738-751.
中圖分類號:G25
文獻標識碼:A