賴思銀(廣東石油化工學院圖書館,廣東茂名525000)
?
國內(nèi)圖書情報領域基于圖書推薦的共詞聚類分析*
賴思銀
(廣東石油化工學院圖書館,廣東茂名525000)
[摘要]選取CNKI數(shù)據(jù)庫中收錄的圖書情報領域以“圖書推薦”為主題的文獻為數(shù)據(jù)來源,運用SATI進行詞頻的統(tǒng)計構建相關矩陣,基于共詞分析法,借助SPSS軟件進行聚類分析和多維尺度分析,結果表明目前國內(nèi)圖書情報領域圖書推薦的研究熱點主要集中于4個方面,即讀者借閱興趣模型構建、數(shù)據(jù)挖掘與處理、圖書推薦服務與閱讀推廣、圖書推薦系統(tǒng)應用與推廣,并對研究主題進行了詳細解析,為國內(nèi)圖書情報領域圖書推薦的研究提供參考。
[關鍵詞]圖書館學情報學圖書推薦共詞分析SPSS
圖書館館藏資源作為科學情報傳遞工作的物質(zhì)基礎條件,擁有著海量的優(yōu)質(zhì)資源,這些資源是人類長期積累的一種智力資源。近年隨著計算機信息技術的高速發(fā)展,這些傳統(tǒng)的智力資源也在向數(shù)字化、網(wǎng)絡化方向發(fā)展,推動了圖書館服務的時空延伸性。然而在海量的資源面前,讀者卻很難從中發(fā)現(xiàn)自己感興趣的信息資源,或者說很難呈現(xiàn)讀者真正想要的資源,這與信息化發(fā)展過程中的個性化、智能化等特點相悖。以讀者檢索圖書文獻為例,當讀者在檢索系統(tǒng)輸入關鍵詞進行檢索時,服務端被動接受讀者提交的數(shù)據(jù)進行反饋,這個過程并沒有結合讀者以往的歷史記錄等信息進行綜合考慮讀者需求的興趣或個性偏好,導致這種服務模式顯得過于單一與低效,同時也降低了圖書文獻的利用率。針對這一問題,在當代圖書館發(fā)展過程中關于服務個性化、智能化的問題探討越來越多,個性化、智能化的圖書推薦服務正成為圖書館界一個研究熱點,在此背景下,筆者基于共詞分析法對國內(nèi)圖書情報領域關于“圖書推薦”的研究主題進行了整理分析,借助SPSS軟件進行數(shù)據(jù)的分析與展顯,以期為國內(nèi)圖書情報領域的圖書推薦研究提供參考。
筆者所使用的數(shù)據(jù)來源于CNKI數(shù)據(jù)庫,設定檢索字段為“圖書推薦”,檢索學科類別設定為“圖書情報與數(shù)字圖書館”,檢索時間為2015年10月10日,共檢索出179條記錄,借助Excel、SATI3.2等軟件進行關于“圖書推薦”為主題的高頻關鍵詞進行抽取和構建共現(xiàn)矩陣、相關矩陣和相異矩陣,通過SPSS軟件進行聚類分析和多維尺度分析,其結果可為國內(nèi)圖書情報領域關于“圖書推薦”的研究提供一定的參考。
3.1詞頻統(tǒng)計分析
共詞分析法是一種常用的內(nèi)容分析方法,其原理是統(tǒng)計一組文獻的主題詞兩兩之間在同一篇文獻出現(xiàn)的頻率,便可形成一個由這些詞對關聯(lián)所組成的共詞網(wǎng)絡,根據(jù)網(wǎng)絡內(nèi)節(jié)點之間的遠近便可以反映主題內(nèi)容的親疏關系,通過研究文獻主題詞對象,利用應力系數(shù)、聚類分析等統(tǒng)計分析方法,把眾多分析對象之間錯綜復雜的共詞網(wǎng)狀關系簡化為以數(shù)值、圖形直觀地表示出來的過程[1]。關鍵詞是一系列主題詞的邏輯組合,常用于科技論文、科技報告和學術論文的文獻主題思想內(nèi)容表達,是文獻主題概念實際意義的自然語言詞匯,其主要功能是便于讀者查閱和檢索文獻[2]。對關鍵詞的詞頻統(tǒng)計和共詞分析能夠客觀反映國內(nèi)關于“圖書推薦”研究的發(fā)展情況。
運用SATI3.2軟件對CNKI中圖書情報領域中檢索出的關于“圖書推薦”的文獻進行關鍵詞抽取并進行頻次統(tǒng)計,在檢索到的179篇文獻中共含關鍵詞2363個,經(jīng)過合并意思相近、去除無實際意義關鍵詞等數(shù)據(jù)處理手段后,最后選擇了頻次統(tǒng)計≥7的21個高頻關鍵詞進行分析研究,如表1所示。
表1 國內(nèi)圖書情報領域“圖書推薦”研究論文高頻關鍵詞
通過對高頻關鍵詞進行兩兩統(tǒng)計,統(tǒng)計選取的21個關鍵詞在文獻中出現(xiàn)的總次數(shù),構建一個21*21的共詞矩陣。由于共詞矩陣在表現(xiàn)各關鍵詞之間頻率高低的時候存在單一性,為了消除這種單一性,更好地體現(xiàn)各關鍵詞之間的內(nèi)在聯(lián)系,將共詞矩陣轉(zhuǎn)換為相關矩陣[3]。相關矩陣也叫相關系數(shù)矩陣,由矩陣各列間的相關系數(shù)構成。經(jīng)轉(zhuǎn)換后的相關矩陣數(shù)值在[0,1]區(qū)間,數(shù)值越接近1,表示兩關鍵詞之間的相似度越大,距離越近。數(shù)值越接近0,表示兩關鍵詞之間相似度越小,距離越遠。由于在統(tǒng)計的過程中存在較大的誤差,相關矩陣中的稀疏性明顯,為了進一步減少誤差,更好地進行下一步的分析研究,將相關矩陣轉(zhuǎn)化為相異矩陣。相關矩陣如表2所示,相異矩陣如表3所示。
表2 相關矩陣(截取部分)
表3 相異矩陣(截取部分)
3.2聚類分析
聚類分析(Cluster Analysis)是一個將數(shù)據(jù)集中的所有數(shù)據(jù),按照相似性劃分為多個類別(Cluster,簇:相似數(shù)據(jù)的集合)的過程。聚類分析要求同一個簇中的對象有很大的相似性,而不同簇間的對象有很大的相異性。從統(tǒng)計學的觀點看,聚類分析是通過數(shù)據(jù)建模簡化數(shù)據(jù)的一種方法。將表3相異矩陣導入SPSS軟件,采用系統(tǒng)聚類中的Ward法進行聚類分析,Ward聚類方法的思想是同類內(nèi)離差平方和較小,不同類之間偏差平方和較大。設定聚類距離為歐氏距離,分別得到聚類凝聚表和聚類樹狀圖,聚類凝聚表如表4所示。
表4 層次聚類分析的凝聚狀態(tài)
通過觀察高頻關鍵詞層次聚類分析的凝聚狀態(tài)表可知,第一步由關鍵詞15(決策樹)21(興趣模型)聚成一類,然后在第14步和關鍵詞12(個性化圖書推薦)聚成一類,關鍵詞12又在第6步和關鍵詞16(聚類)聚成一類,接下來就是關鍵詞15和關鍵詞21聚成的類與關鍵詞12和關鍵詞16聚成的類再進行聚合形成新的聚類,其他聚合過程依此類推,其聚類結果可見聚類樹狀圖2。
圖2 高頻關鍵詞層次聚類分析樹狀圖
觀察高頻關鍵詞層次聚類分析的凝聚狀態(tài)表和高頻關鍵詞層次聚類分析的樹狀圖可以發(fā)現(xiàn):國內(nèi)圖書情報領域“圖書推薦”研究熱點主要集中于“讀者借閱興趣模型構建”“數(shù)據(jù)挖掘與處理”“圖書推薦服務與閱讀推廣”“圖書推薦系統(tǒng)應用與推廣”4個主題,具體分析筆者將在后文進行闡述。
3.3多維尺度分析
多維尺度分析(MDS),是基于研究對象之間的相似性或距離,將研究對象在一個低維(二維或三維)的空間形象地表示出來,進行聚類或維度分析的一種圖示法。通過多維尺度分析所呈現(xiàn)的空間定位圖,能簡單明了地說明各研究對象之間的相對關系[4]。
將表3的高頻關鍵詞相異矩陣輸入SPSS進行多維尺度分析,選擇PROXSCAL分析模型,擬合結果如表5所示。其中標準化初始應力系數(shù)(Stess)為0.12612,效果為好;離散所占比例(D.A.F.)為0.87388,擬合程度效果較好。
多維尺度分析的變量二維分布圖可以根據(jù)各高頻關鍵詞之間的距離遠近較全面地反映出各高頻關鍵詞之間的聯(lián)系,如圖3所示。通過觀察圖3變量二維分布圖的結果,可以看出圖中反映的結果和聚類分析中凝聚狀態(tài)表和樹狀圖反映的結果比較符合。
表5 多維尺度分析的擬合度結果
圖3 多維尺度分析的變量二維分布圖
4.1I類:讀者借閱興趣模型構建
讀者借閱興趣模型是指讀者在某個時間周期內(nèi)相對穩(wěn)定的圖書借閱信息需求的形式化描述,反映了讀者在一段時間內(nèi)的興趣傾向。讀者借閱興趣模型構建是個性化圖書推薦服務的關鍵所在,可以對服務系統(tǒng)產(chǎn)生直接的影響,近年來讀者借閱的興趣模型構建受到越來越多的研究者重視。馬華[5]在研究了某高校圖書館的讀者數(shù)據(jù)后利用數(shù)據(jù)挖掘中的決策樹方法,對不同的讀者進行了閱讀興趣的分類,構建了基于數(shù)據(jù)挖掘技術中決策樹算法的讀者閱讀興趣模型,為讀者提供了個性化的圖書推薦服務。
4.2II類:數(shù)據(jù)挖掘與處理
數(shù)據(jù)挖掘技術是指通過算法從大量數(shù)據(jù)中深層挖掘其中隱藏的共性規(guī)律的過程,并通過建立個性化的推薦系統(tǒng)為用戶提供主動的信息推薦服務。由于數(shù)據(jù)挖掘具有強大的信息整理與分析能力,越來越多的商業(yè)用戶把數(shù)據(jù)挖掘技術用于知識發(fā)現(xiàn)上面。數(shù)據(jù)挖掘技術應用于圖書館則是利用了圖書館現(xiàn)有的業(yè)務數(shù)據(jù)庫里的讀者借閱數(shù)據(jù),通過對這些數(shù)據(jù)進行挖掘與分析,可以發(fā)現(xiàn)讀者借閱圖書的興趣偏好與共性,進而在讀者的個人數(shù)字圖書館頁面進行書目推薦。周玲元[6]提出了一種改進的Apriori算法在高校圖書推薦服務中的應用方法,通過改進的數(shù)據(jù)挖掘算法,把數(shù)據(jù)庫里潛在的聯(lián)系轉(zhuǎn)化成顯性知識進行推薦服務,提高了服務質(zhì)量。
4.3III類:圖書推薦服務與閱讀推廣
在信息高速發(fā)展的推動下,讀者對于信息和閱讀的需求也越來越趨于向個性化、多元化的方向發(fā)展,圖書館應該通過深入調(diào)查讀者的內(nèi)在需求,充分了解讀者對于圖書偏好等信息,制定符合讀者的書目推薦服務,有的放矢地開展圖書館的圖書推薦服務和閱讀推廣服務。
4.4IV類:圖書推薦系統(tǒng)應用與推廣
圖書推薦系統(tǒng)的構建主要是基于關聯(lián)規(guī)則的數(shù)據(jù)挖掘,利用讀者借閱數(shù)據(jù),將讀者的借閱數(shù)據(jù)轉(zhuǎn)化成適合個性化需求的讀者數(shù)據(jù),并在圖書推薦系統(tǒng)中進行可視化的技術應用。圖書推薦系統(tǒng)的技術應用可以為讀者提供圖書借閱的主動引導,提高借閱效率,具有重要的研究意義。我國比較成熟的圖書推薦系統(tǒng)主要包括:國家科技圖書文獻中心系統(tǒng)(NSTL)、中國高等教育文獻保障系統(tǒng)(CALIS)、國家科學數(shù)字圖書館(CSDL)。
通過對國內(nèi)圖書情報領域圖書推薦的高頻關鍵詞進行聚類分析、多維尺度分析,筆者發(fā)現(xiàn)國內(nèi)圖書情報領域關于圖書推薦的研究集中于“讀者借閱興趣模型構建”“數(shù)據(jù)挖掘與處理”“圖書推薦服務與閱讀推廣”“圖書推薦系統(tǒng)應用與推廣”4個方面??傮w來說,國內(nèi)圖書情報領域?qū)τ趫D書推薦的研究側重于理論探討,而在技術和實踐應用方面的研究有所欠缺。另外研究力度不均衡,個別主題存在較多重復研究,而在應用推廣、圖書借閱信息的數(shù)據(jù)挖掘應用等主題上,研究內(nèi)容不夠深入。國內(nèi)圖書情報領域的學者應加強對圖書推薦的創(chuàng)新性和持續(xù)性研究,開拓新的研究主題,重點探討圖書推薦的計算機技術手段的應用及閱讀推廣方法的有效推廣等方面的應對策略。
參考文獻:
[1]馮璐,冷伏海.共詞分析方法理論進展[J].中國圖書館學報,2006(2):88-92.
[2]劉濤,劉玉英,杜亮.近5年圖書館學研究熱點分析基于共詞分析視角[J].圖書館學刊,2012(10):122-125.
[3]郭春俠,葉繼元.基于共詞分析的國外圖書情報學研究熱點[J].圖書情報工作,2011(20):19-22.
[4]翁勝斌.CNKI數(shù)據(jù)源的關鍵詞共現(xiàn)分析與多維尺度分析的現(xiàn)實方法[J].現(xiàn)代情報,2013(4):27-38.
[5]馬華,等.決策樹分類算法在個性化圖書推薦中的應用[J].軟件,2012(8):100-104.
[6]周玲元,段隆振.改進的Apriori算法在高校圖書推薦服務中的應用研究[J].圖書館學研究,2013(2):89-91.
賴思銀男,1978年生。碩士,館員。研究方向:數(shù)據(jù)庫、數(shù)據(jù)分析、數(shù)字圖書館。
(由稿日期:2015-12-03;責編:楊新寬。)
[分類號]G252.1
*本文系廣東省茂名市科技計劃項目“多維度高校圖書館數(shù)據(jù)倉庫構建研究”(項目編號:20150350);廣東石油化工學院青年創(chuàng)新人才培育項目“基于數(shù)據(jù)挖掘的圖書館信息推送系統(tǒng)研究”(項目編號:512102)成果之一。