關(guān)鍵字:知識圖譜;數(shù)據(jù)挖掘;共被引分析;CiteSpace
摘要:文章以從CSSCI下載的有關(guān)“數(shù)據(jù)挖掘在圖書館中的應(yīng)用”的題錄信息為研究對象,使用CiteSpace從機構(gòu)、作者、共被引文獻、關(guān)鍵詞等角度分別繪制了相關(guān)聚類視圖和共被引網(wǎng)絡(luò)視圖,以可視化圖譜的形式來展示國內(nèi)圖書館數(shù)據(jù)挖掘的知識譜系,分析機構(gòu)群特征、作者群特征、知識基礎(chǔ)、研究熱點和趨勢,以期對該領(lǐng)域研究達到全面、整體的認識與把握。
中圖分類法:G251文獻標(biāo)識碼:A文章編號:1003-1588(2014)11-0118-03
收稿日期:2014-08-01
作者簡介:廖文果(1982-),阿壩師范高等??茖W(xué)校圖書館館員。
*本文系四川省教育廳課題“基于數(shù)據(jù)挖掘的圖書館個性化服務(wù)研究”階段性成果之一,編號:13SB0070。知識圖譜始現(xiàn)于20世紀(jì)90年代末,其融合了信息技術(shù)、可視化技術(shù)及文獻計量學(xué)等多種學(xué)科,在21世紀(jì)初得到了快速發(fā)展,現(xiàn)已成為計量學(xué)領(lǐng)域研究新方向[1]。知識圖譜提供了理順知識脈絡(luò)的可視化體系網(wǎng)絡(luò),借以了解某個知識領(lǐng)域的動態(tài)、熱點,預(yù)測和把握知識發(fā)展的前沿[2]。筆者利用知識圖譜對有關(guān)數(shù)據(jù)挖掘在圖書館中應(yīng)用等相關(guān)文獻進行分析,旨在全面把握該領(lǐng)域研究的現(xiàn)狀、發(fā)展、特點和規(guī)律。
1數(shù)據(jù)來源及研究方法
中文社會科學(xué)索引(CSSCI)是國內(nèi)人文社會科學(xué)研究方面的專業(yè)性和權(quán)威性的數(shù)據(jù)庫,有著廣泛的影響和極高的聲望。在中文社會科學(xué)引文索引來源數(shù)據(jù)庫按“篇名=數(shù)據(jù)挖掘or 關(guān)鍵詞=數(shù)據(jù)挖掘”并限定學(xué)科類別為圖書、情報和文獻學(xué),文獻類型為“論文”,檢索1998年到2013年所有文獻共648條記錄。選擇陳超美博士的軟件CiteSpace3.8可視化分析工具,從機構(gòu)(Institution)、作者(Author)、共被引文獻(Cited Reference)、關(guān)鍵詞(Keyword)等角度分析期間“數(shù)據(jù)挖掘在圖書館中的應(yīng)用”相關(guān)文獻的機構(gòu)群特征、作者群特征、知識基礎(chǔ)、研究熱點和趨勢,繪制相關(guān)聚類視圖和共被引網(wǎng)絡(luò)視圖,以可視化圖譜的形式來展示國內(nèi)圖書館數(shù)據(jù)挖掘的知識譜系,以期對該領(lǐng)域研究達到全面、整體的認識與把握。
2可視化分析與結(jié)果
2.1機構(gòu)群、作者群特征
2.1.1機構(gòu)群特征
對來源機構(gòu)研究不但可以了解該領(lǐng)域的研究力量分布,核心機構(gòu)的分布,而且為科學(xué)研究的文獻搜集方向提供有效的依據(jù)[3]。筆者發(fā)現(xiàn)發(fā)文機構(gòu)圖譜中圓點越大表示所屬機構(gòu)發(fā)文越多,排在前五位的分別是南京大學(xué)信息管理系、武漢大學(xué)信息管理學(xué)院、武漢大學(xué)信息資源研究中心、吉林大學(xué)管理學(xué)院、廈門大學(xué)經(jīng)濟學(xué)院,發(fā)文量均達到十篇以上,顯示該領(lǐng)域較強的研究力量。節(jié)點之間的直線表示兩機構(gòu)之間的合作關(guān)系,各機構(gòu)之間聯(lián)系比較稀疏,說明合作較少。
2.1.2作者群特征
筆者從作者的網(wǎng)絡(luò)圖譜中統(tǒng)計出謝邦昌、張玉峰、朱建平貢獻最大,達到十篇以上,是本領(lǐng)域的核心作者。從聚點可以看出,存在以謝邦昌、張玉峰、朱東華、潘有能、邱長波為中心幾個較大的聚類簇,表明行成以該幾名作者為中心的團隊,團隊成員合作成果較多。
2.2知識基礎(chǔ)分析
領(lǐng)域內(nèi)的知識基礎(chǔ)一般是由該領(lǐng)域內(nèi)的早期奠基性文獻和來源于共被引頻次和中心性都比較高的關(guān)鍵文獻組成[4]。繪制共被引網(wǎng)絡(luò)圖譜用來描述知識領(lǐng)域的基本構(gòu)成和研究動態(tài),是CiteSpace用來展示學(xué)科的知識基礎(chǔ)與研究前沿的重要方法。節(jié)點類型(Node Types)選擇共被引文獻(Cited Reference),設(shè)置合適的閾值參數(shù)(Threshold Interpolation),其他策略不變,運行軟件后得到共被引奠基性文獻的時間序列圖譜。
共被引奠基性文獻的時間序列圖譜中每個圓形的節(jié)點代表一篇共被引文獻,節(jié)點的大小與共被引用頻次正相關(guān),節(jié)點不同顏色的年環(huán)表示不同年份共被引的引文時間,年環(huán)厚度與該年份的共被引次數(shù)成正比。筆者從圖譜中發(fā)現(xiàn)該領(lǐng)域研究從1980年代開始出現(xiàn),一直是研究的熱點,早期的文獻基本上都來自國外。一篇奠基性文獻是QUINLAN,J.R.于1986在Machine Learning(機器學(xué)習(xí))第一期上發(fā)表的Induction of Decision Trees(決策樹介紹)。通過引文歷史(Citation History)折線圖,得到該文的歷史被引軌跡。該文在2005年和2008年分別達到4次。
一個研究領(lǐng)域的知識基礎(chǔ)與研究熱點會隨著時間的變化而不斷地演化遞進,在每個時間段行成不同的高被引文獻簇,代表著一個學(xué)科的核心文獻集合。圖譜中每個圓形的節(jié)點代表一篇共被引文獻,節(jié)點的大小與引用頻次成正比,年環(huán)的不同顏色代表不同的被引時間,其厚度與該年份被引次數(shù)成正比。通過共引文獻分析,位列前茅的是Han JiaWei,中文名為韓家煒,其所著為《數(shù)據(jù)挖掘:概念與技術(shù)》第二版是本領(lǐng)域的核心著作。
點的中心性是一個用以量化點在網(wǎng)絡(luò)中地位重要性的圖論概念。中間中心性是常用來進行中心性測度的指標(biāo),它是指網(wǎng)絡(luò)中經(jīng)過某點并連接這兩點的最短路徑占這兩點之間的最短路徑線總數(shù)之比[5]。中間中心性高的點往往位于連接兩個不同聚類的路徑上。表1選取是被引頻率較高,中心較高的幾種文獻或著作。中心性最高的是邵峰晶的2003年中國水利水電出版社出版的專著《數(shù)據(jù)挖掘原理與算法》,該文獻在系統(tǒng)闡述數(shù)據(jù)挖掘產(chǎn)生歷史、相關(guān)概念、原理、基本方法的基礎(chǔ)上,對關(guān)聯(lián)、分類、聚類、序列等數(shù)據(jù)挖掘算法和技術(shù)進行了剖析,并結(jié)合自己的實際研究,分類論述數(shù)據(jù)挖掘的應(yīng)用問題[6]。中心性排在第二位趙丹群在現(xiàn)代圖書情報技術(shù)2000年第6期上發(fā)表的論文《數(shù)據(jù)挖掘:原理、方法及其應(yīng)用》,文中首先介紹了數(shù)據(jù)挖掘的基本概念和處理過程,然后分別分析了數(shù)據(jù)挖掘所發(fā)現(xiàn)的主要知識類型和使用的技術(shù)方法,最后對基于Web的幾個數(shù)據(jù)挖掘應(yīng)用系統(tǒng)進行了較為細致的剖析,并指出數(shù)據(jù)挖掘技術(shù)和搜索引擎技術(shù)的結(jié)合對網(wǎng)絡(luò)信息的發(fā)現(xiàn)、搜集和管理、利用具有巨大的發(fā)展前景[7]。廖文果:知識圖譜視角下數(shù)據(jù)挖掘在圖書館中的應(yīng)用分析*廖文果:知識圖譜視角下數(shù)據(jù)挖掘在圖書館中的應(yīng)用分析*表1中心性排在前幾位的共被引文獻endprint
FreqCentralityAuthor題名來源130.59邵峰晶數(shù)據(jù)挖掘原理與算法中國水利水電出版社,2003年50.5趙丹群數(shù)據(jù)挖掘:原理、方法及其應(yīng)用現(xiàn)代圖書情報技術(shù),2000年第6期50.48林杰斌數(shù)據(jù)挖掘與OLAP理論與務(wù)實清華大學(xué)出版社,2003年50.48Kantardzic Mehmed數(shù)據(jù)挖掘——概念、模型、方法和算法清華大學(xué)出版,2003年80.47晏創(chuàng)業(yè)智能檢索中的網(wǎng)絡(luò)數(shù)據(jù)挖掘技術(shù)探索中國圖書館學(xué)報,2002年第3期230.46Han JiaWei90.45韓家煒數(shù)據(jù)挖掘:概念與技術(shù)機械工業(yè)出版社,2001年60.33王實Web數(shù)據(jù)挖掘計算機科學(xué),2000年第4期2.3研究熱點和前沿分析
“研究前沿”用它來描述研究領(lǐng)域熱點的隨時間變化的演進過程,是通過被引用的文章的關(guān)鍵詞來體現(xiàn)的。文獻題錄中的關(guān)鍵詞是對主題的高度概括和集中描述,可以用于確定某領(lǐng)域的研究熱點和主流方向,出現(xiàn)頻次較高的關(guān)鍵詞在可視化圖譜中顯示為較大的節(jié)點。
FreqKeywordFreqKeyword879數(shù)據(jù)挖掘30數(shù)據(jù)挖掘技術(shù)76關(guān)聯(lián)規(guī)則29web挖掘52數(shù)據(jù)倉庫28電子商務(wù)50數(shù)字圖書館27web數(shù)據(jù)挖掘47知識發(fā)現(xiàn)26競爭情報44客戶關(guān)系管理26信息服務(wù)38圖書館22個性化服務(wù)38聚類分析18神經(jīng)網(wǎng)絡(luò)32決策樹17個性化信息服務(wù)31知識管理17文本挖掘表2顯示的是高頻關(guān)鍵詞共現(xiàn)的聚類數(shù)據(jù)。每個關(guān)鍵詞代表一個研究熱點,出現(xiàn)的頻次越大,即該節(jié)點的受關(guān)注度越高。“數(shù)據(jù)挖掘”“關(guān)聯(lián)規(guī)則”“數(shù)據(jù)倉庫”“知識發(fā)現(xiàn)”“數(shù)字圖書館”“客戶關(guān)系管理”“圖書館”“聚類分析”“決策樹”“知識管理”“電子商務(wù)”“數(shù)據(jù)挖掘技術(shù)”“web挖掘”“信息服務(wù)”“web數(shù)據(jù)挖掘”“個性化服務(wù)”“競爭情報”“個性化信息服務(wù)”“神經(jīng)網(wǎng)絡(luò)”“文本挖掘”受關(guān)注度高,是研究的熱點。其中,“數(shù)據(jù)挖掘”是通用的概念,幾乎每篇有關(guān)數(shù)據(jù)挖掘的文章都有該關(guān)鍵詞,因此詞頻最高。而“關(guān)聯(lián)規(guī)則”“聚類分析”“決策樹”“神經(jīng)網(wǎng)絡(luò)”是指應(yīng)用的數(shù)據(jù)挖掘技術(shù),表明是在圖書館應(yīng)用的最常見的數(shù)據(jù)挖掘方法。“數(shù)據(jù)倉庫”“web挖掘”“競爭情報”“電子商務(wù)”“客戶關(guān)系管理”“文本挖掘”“數(shù)字圖書館”或者“圖書館”是指數(shù)據(jù)挖掘技術(shù)的應(yīng)用領(lǐng)域,說明可以常對這些對象或領(lǐng)域進行數(shù)據(jù)挖掘?!爸R管理”“個性化服務(wù)”“個性化信息服務(wù)”是指數(shù)據(jù)挖掘技術(shù)的應(yīng)用目的是提高圖書館的知識管理、信息服務(wù)水平和個性化服務(wù)。從高頻關(guān)鍵詞解讀出數(shù)據(jù)挖掘技術(shù)在圖書館應(yīng)用非常廣泛,重點是采用“關(guān)聯(lián)規(guī)則”“聚類分析”“決策樹”“神經(jīng)網(wǎng)絡(luò)”等多種挖掘技術(shù),用于提高圖書館的知識管理水平,提供更個性化的服務(wù)。
3結(jié)論
通過機構(gòu)分析、作者分析、文獻共被引分析、關(guān)鍵詞聚類分析,筆者以知識圖譜的方式展示了“數(shù)據(jù)挖掘在圖書館中的應(yīng)用”的研究力量分布、學(xué)術(shù)代表人物、重要學(xué)術(shù)文獻分布、熱點和前沿趨勢,并得出以下結(jié)論。從機構(gòu)分布來看,南京大學(xué)信息管理系、武漢大學(xué)信息管理學(xué)院、武漢大學(xué)信息資源研究中心、吉林大學(xué)管理學(xué)院、廈門大學(xué)經(jīng)濟學(xué)院是研究該領(lǐng)域的中堅力量,展現(xiàn)較強的科研實力。但機構(gòu)間合作有待加強。從作者分布來看,謝邦昌、張玉峰、朱建平發(fā)文量較大,且各自行成了合作網(wǎng)絡(luò)。其他作者比較分散。從共被引文獻來看,奠基性文獻主要來自國外。Han JiaWei,中文名為韓家煒,其專著《數(shù)據(jù)挖掘:概念與技術(shù)》共被引最大。邵峰晶的《數(shù)據(jù)挖掘原理與算法》,趙丹群的《數(shù)據(jù)挖掘:原理、方法及其應(yīng)用》等國內(nèi)文獻的被引量和中心性都很高,構(gòu)成了該領(lǐng)域的核心文獻。④從研究熱點和前沿分析來看,研究熱點可概括為三方面:一是以“關(guān)聯(lián)規(guī)則”“聚類分析”“決策樹”“神經(jīng)網(wǎng)絡(luò)”等為主的數(shù)據(jù)挖掘技術(shù);二是以“數(shù)據(jù)倉庫”“web”“競爭情報”“電子商務(wù)”“客戶關(guān)系管理”“數(shù)字圖書館”為主的數(shù)據(jù)挖掘?qū)ο?;三是以“知識管理”“個性化服務(wù)”“個性化信息服務(wù)”為主的數(shù)據(jù)挖掘目的。從研究趨勢為看,“個性化服務(wù)”“xml”“聚類分析”“競爭情報”“神經(jīng)網(wǎng)絡(luò)”“社會網(wǎng)絡(luò)分析”“數(shù)據(jù)處理”是近年來研究的方向和前沿。
參考文獻:
[1]廖勝姣.基于文獻計量的科學(xué)知識圖譜繪制研究[D].北京:中科院研究生院,2009:1-7.
[2]劉則淵,王賢文,陳超美.科學(xué)知識圖譜方法及其在科技情報中的應(yīng)用[J].數(shù)字圖書館論 壇,2009(10):14-34.
[3]徐瑾,楊思洛.基于知識圖譜的數(shù)字圖書館研究現(xiàn)狀與趨勢分析[J].圖書館,2011(6):41-44,51.
[4]趙蓉英,王菊.圖書館學(xué)知識圖譜分析[J].中國圖書館學(xué)報,2011(2):42-52.
[5]陳超美.CiteSpace II:科學(xué)文獻中新趨勢與新動態(tài)的識別與可視化[J].情報學(xué)報,2009(3):401-402.
[6]邵峰晶.數(shù)據(jù)挖掘原理與算法[M].北京:中國水利水電出版社,2003.
[7]趙丹群.數(shù)據(jù)挖掘:原理、方法及其應(yīng)用.現(xiàn)代圖書情報技術(shù)[J].2000(6):41-44.
(編校:嚴(yán)真)endprint
FreqCentralityAuthor題名來源130.59邵峰晶數(shù)據(jù)挖掘原理與算法中國水利水電出版社,2003年50.5趙丹群數(shù)據(jù)挖掘:原理、方法及其應(yīng)用現(xiàn)代圖書情報技術(shù),2000年第6期50.48林杰斌數(shù)據(jù)挖掘與OLAP理論與務(wù)實清華大學(xué)出版社,2003年50.48Kantardzic Mehmed數(shù)據(jù)挖掘——概念、模型、方法和算法清華大學(xué)出版,2003年80.47晏創(chuàng)業(yè)智能檢索中的網(wǎng)絡(luò)數(shù)據(jù)挖掘技術(shù)探索中國圖書館學(xué)報,2002年第3期230.46Han JiaWei90.45韓家煒數(shù)據(jù)挖掘:概念與技術(shù)機械工業(yè)出版社,2001年60.33王實Web數(shù)據(jù)挖掘計算機科學(xué),2000年第4期2.3研究熱點和前沿分析
“研究前沿”用它來描述研究領(lǐng)域熱點的隨時間變化的演進過程,是通過被引用的文章的關(guān)鍵詞來體現(xiàn)的。文獻題錄中的關(guān)鍵詞是對主題的高度概括和集中描述,可以用于確定某領(lǐng)域的研究熱點和主流方向,出現(xiàn)頻次較高的關(guān)鍵詞在可視化圖譜中顯示為較大的節(jié)點。
FreqKeywordFreqKeyword879數(shù)據(jù)挖掘30數(shù)據(jù)挖掘技術(shù)76關(guān)聯(lián)規(guī)則29web挖掘52數(shù)據(jù)倉庫28電子商務(wù)50數(shù)字圖書館27web數(shù)據(jù)挖掘47知識發(fā)現(xiàn)26競爭情報44客戶關(guān)系管理26信息服務(wù)38圖書館22個性化服務(wù)38聚類分析18神經(jīng)網(wǎng)絡(luò)32決策樹17個性化信息服務(wù)31知識管理17文本挖掘表2顯示的是高頻關(guān)鍵詞共現(xiàn)的聚類數(shù)據(jù)。每個關(guān)鍵詞代表一個研究熱點,出現(xiàn)的頻次越大,即該節(jié)點的受關(guān)注度越高?!皵?shù)據(jù)挖掘”“關(guān)聯(lián)規(guī)則”“數(shù)據(jù)倉庫”“知識發(fā)現(xiàn)”“數(shù)字圖書館”“客戶關(guān)系管理”“圖書館”“聚類分析”“決策樹”“知識管理”“電子商務(wù)”“數(shù)據(jù)挖掘技術(shù)”“web挖掘”“信息服務(wù)”“web數(shù)據(jù)挖掘”“個性化服務(wù)”“競爭情報”“個性化信息服務(wù)”“神經(jīng)網(wǎng)絡(luò)”“文本挖掘”受關(guān)注度高,是研究的熱點。其中,“數(shù)據(jù)挖掘”是通用的概念,幾乎每篇有關(guān)數(shù)據(jù)挖掘的文章都有該關(guān)鍵詞,因此詞頻最高。而“關(guān)聯(lián)規(guī)則”“聚類分析”“決策樹”“神經(jīng)網(wǎng)絡(luò)”是指應(yīng)用的數(shù)據(jù)挖掘技術(shù),表明是在圖書館應(yīng)用的最常見的數(shù)據(jù)挖掘方法?!皵?shù)據(jù)倉庫”“web挖掘”“競爭情報”“電子商務(wù)”“客戶關(guān)系管理”“文本挖掘”“數(shù)字圖書館”或者“圖書館”是指數(shù)據(jù)挖掘技術(shù)的應(yīng)用領(lǐng)域,說明可以常對這些對象或領(lǐng)域進行數(shù)據(jù)挖掘。“知識管理”“個性化服務(wù)”“個性化信息服務(wù)”是指數(shù)據(jù)挖掘技術(shù)的應(yīng)用目的是提高圖書館的知識管理、信息服務(wù)水平和個性化服務(wù)。從高頻關(guān)鍵詞解讀出數(shù)據(jù)挖掘技術(shù)在圖書館應(yīng)用非常廣泛,重點是采用“關(guān)聯(lián)規(guī)則”“聚類分析”“決策樹”“神經(jīng)網(wǎng)絡(luò)”等多種挖掘技術(shù),用于提高圖書館的知識管理水平,提供更個性化的服務(wù)。
3結(jié)論
通過機構(gòu)分析、作者分析、文獻共被引分析、關(guān)鍵詞聚類分析,筆者以知識圖譜的方式展示了“數(shù)據(jù)挖掘在圖書館中的應(yīng)用”的研究力量分布、學(xué)術(shù)代表人物、重要學(xué)術(shù)文獻分布、熱點和前沿趨勢,并得出以下結(jié)論。從機構(gòu)分布來看,南京大學(xué)信息管理系、武漢大學(xué)信息管理學(xué)院、武漢大學(xué)信息資源研究中心、吉林大學(xué)管理學(xué)院、廈門大學(xué)經(jīng)濟學(xué)院是研究該領(lǐng)域的中堅力量,展現(xiàn)較強的科研實力。但機構(gòu)間合作有待加強。從作者分布來看,謝邦昌、張玉峰、朱建平發(fā)文量較大,且各自行成了合作網(wǎng)絡(luò)。其他作者比較分散。從共被引文獻來看,奠基性文獻主要來自國外。Han JiaWei,中文名為韓家煒,其專著《數(shù)據(jù)挖掘:概念與技術(shù)》共被引最大。邵峰晶的《數(shù)據(jù)挖掘原理與算法》,趙丹群的《數(shù)據(jù)挖掘:原理、方法及其應(yīng)用》等國內(nèi)文獻的被引量和中心性都很高,構(gòu)成了該領(lǐng)域的核心文獻。④從研究熱點和前沿分析來看,研究熱點可概括為三方面:一是以“關(guān)聯(lián)規(guī)則”“聚類分析”“決策樹”“神經(jīng)網(wǎng)絡(luò)”等為主的數(shù)據(jù)挖掘技術(shù);二是以“數(shù)據(jù)倉庫”“web”“競爭情報”“電子商務(wù)”“客戶關(guān)系管理”“數(shù)字圖書館”為主的數(shù)據(jù)挖掘?qū)ο螅蝗且浴爸R管理”“個性化服務(wù)”“個性化信息服務(wù)”為主的數(shù)據(jù)挖掘目的。從研究趨勢為看,“個性化服務(wù)”“xml”“聚類分析”“競爭情報”“神經(jīng)網(wǎng)絡(luò)”“社會網(wǎng)絡(luò)分析”“數(shù)據(jù)處理”是近年來研究的方向和前沿。
參考文獻:
[1]廖勝姣.基于文獻計量的科學(xué)知識圖譜繪制研究[D].北京:中科院研究生院,2009:1-7.
[2]劉則淵,王賢文,陳超美.科學(xué)知識圖譜方法及其在科技情報中的應(yīng)用[J].數(shù)字圖書館論 壇,2009(10):14-34.
[3]徐瑾,楊思洛.基于知識圖譜的數(shù)字圖書館研究現(xiàn)狀與趨勢分析[J].圖書館,2011(6):41-44,51.
[4]趙蓉英,王菊.圖書館學(xué)知識圖譜分析[J].中國圖書館學(xué)報,2011(2):42-52.
[5]陳超美.CiteSpace II:科學(xué)文獻中新趨勢與新動態(tài)的識別與可視化[J].情報學(xué)報,2009(3):401-402.
[6]邵峰晶.數(shù)據(jù)挖掘原理與算法[M].北京:中國水利水電出版社,2003.
[7]趙丹群.數(shù)據(jù)挖掘:原理、方法及其應(yīng)用.現(xiàn)代圖書情報技術(shù)[J].2000(6):41-44.
(編校:嚴(yán)真)endprint
FreqCentralityAuthor題名來源130.59邵峰晶數(shù)據(jù)挖掘原理與算法中國水利水電出版社,2003年50.5趙丹群數(shù)據(jù)挖掘:原理、方法及其應(yīng)用現(xiàn)代圖書情報技術(shù),2000年第6期50.48林杰斌數(shù)據(jù)挖掘與OLAP理論與務(wù)實清華大學(xué)出版社,2003年50.48Kantardzic Mehmed數(shù)據(jù)挖掘——概念、模型、方法和算法清華大學(xué)出版,2003年80.47晏創(chuàng)業(yè)智能檢索中的網(wǎng)絡(luò)數(shù)據(jù)挖掘技術(shù)探索中國圖書館學(xué)報,2002年第3期230.46Han JiaWei90.45韓家煒數(shù)據(jù)挖掘:概念與技術(shù)機械工業(yè)出版社,2001年60.33王實Web數(shù)據(jù)挖掘計算機科學(xué),2000年第4期2.3研究熱點和前沿分析
“研究前沿”用它來描述研究領(lǐng)域熱點的隨時間變化的演進過程,是通過被引用的文章的關(guān)鍵詞來體現(xiàn)的。文獻題錄中的關(guān)鍵詞是對主題的高度概括和集中描述,可以用于確定某領(lǐng)域的研究熱點和主流方向,出現(xiàn)頻次較高的關(guān)鍵詞在可視化圖譜中顯示為較大的節(jié)點。
FreqKeywordFreqKeyword879數(shù)據(jù)挖掘30數(shù)據(jù)挖掘技術(shù)76關(guān)聯(lián)規(guī)則29web挖掘52數(shù)據(jù)倉庫28電子商務(wù)50數(shù)字圖書館27web數(shù)據(jù)挖掘47知識發(fā)現(xiàn)26競爭情報44客戶關(guān)系管理26信息服務(wù)38圖書館22個性化服務(wù)38聚類分析18神經(jīng)網(wǎng)絡(luò)32決策樹17個性化信息服務(wù)31知識管理17文本挖掘表2顯示的是高頻關(guān)鍵詞共現(xiàn)的聚類數(shù)據(jù)。每個關(guān)鍵詞代表一個研究熱點,出現(xiàn)的頻次越大,即該節(jié)點的受關(guān)注度越高?!皵?shù)據(jù)挖掘”“關(guān)聯(lián)規(guī)則”“數(shù)據(jù)倉庫”“知識發(fā)現(xiàn)”“數(shù)字圖書館”“客戶關(guān)系管理”“圖書館”“聚類分析”“決策樹”“知識管理”“電子商務(wù)”“數(shù)據(jù)挖掘技術(shù)”“web挖掘”“信息服務(wù)”“web數(shù)據(jù)挖掘”“個性化服務(wù)”“競爭情報”“個性化信息服務(wù)”“神經(jīng)網(wǎng)絡(luò)”“文本挖掘”受關(guān)注度高,是研究的熱點。其中,“數(shù)據(jù)挖掘”是通用的概念,幾乎每篇有關(guān)數(shù)據(jù)挖掘的文章都有該關(guān)鍵詞,因此詞頻最高。而“關(guān)聯(lián)規(guī)則”“聚類分析”“決策樹”“神經(jīng)網(wǎng)絡(luò)”是指應(yīng)用的數(shù)據(jù)挖掘技術(shù),表明是在圖書館應(yīng)用的最常見的數(shù)據(jù)挖掘方法?!皵?shù)據(jù)倉庫”“web挖掘”“競爭情報”“電子商務(wù)”“客戶關(guān)系管理”“文本挖掘”“數(shù)字圖書館”或者“圖書館”是指數(shù)據(jù)挖掘技術(shù)的應(yīng)用領(lǐng)域,說明可以常對這些對象或領(lǐng)域進行數(shù)據(jù)挖掘。“知識管理”“個性化服務(wù)”“個性化信息服務(wù)”是指數(shù)據(jù)挖掘技術(shù)的應(yīng)用目的是提高圖書館的知識管理、信息服務(wù)水平和個性化服務(wù)。從高頻關(guān)鍵詞解讀出數(shù)據(jù)挖掘技術(shù)在圖書館應(yīng)用非常廣泛,重點是采用“關(guān)聯(lián)規(guī)則”“聚類分析”“決策樹”“神經(jīng)網(wǎng)絡(luò)”等多種挖掘技術(shù),用于提高圖書館的知識管理水平,提供更個性化的服務(wù)。
3結(jié)論
通過機構(gòu)分析、作者分析、文獻共被引分析、關(guān)鍵詞聚類分析,筆者以知識圖譜的方式展示了“數(shù)據(jù)挖掘在圖書館中的應(yīng)用”的研究力量分布、學(xué)術(shù)代表人物、重要學(xué)術(shù)文獻分布、熱點和前沿趨勢,并得出以下結(jié)論。從機構(gòu)分布來看,南京大學(xué)信息管理系、武漢大學(xué)信息管理學(xué)院、武漢大學(xué)信息資源研究中心、吉林大學(xué)管理學(xué)院、廈門大學(xué)經(jīng)濟學(xué)院是研究該領(lǐng)域的中堅力量,展現(xiàn)較強的科研實力。但機構(gòu)間合作有待加強。從作者分布來看,謝邦昌、張玉峰、朱建平發(fā)文量較大,且各自行成了合作網(wǎng)絡(luò)。其他作者比較分散。從共被引文獻來看,奠基性文獻主要來自國外。Han JiaWei,中文名為韓家煒,其專著《數(shù)據(jù)挖掘:概念與技術(shù)》共被引最大。邵峰晶的《數(shù)據(jù)挖掘原理與算法》,趙丹群的《數(shù)據(jù)挖掘:原理、方法及其應(yīng)用》等國內(nèi)文獻的被引量和中心性都很高,構(gòu)成了該領(lǐng)域的核心文獻。④從研究熱點和前沿分析來看,研究熱點可概括為三方面:一是以“關(guān)聯(lián)規(guī)則”“聚類分析”“決策樹”“神經(jīng)網(wǎng)絡(luò)”等為主的數(shù)據(jù)挖掘技術(shù);二是以“數(shù)據(jù)倉庫”“web”“競爭情報”“電子商務(wù)”“客戶關(guān)系管理”“數(shù)字圖書館”為主的數(shù)據(jù)挖掘?qū)ο?;三是以“知識管理”“個性化服務(wù)”“個性化信息服務(wù)”為主的數(shù)據(jù)挖掘目的。從研究趨勢為看,“個性化服務(wù)”“xml”“聚類分析”“競爭情報”“神經(jīng)網(wǎng)絡(luò)”“社會網(wǎng)絡(luò)分析”“數(shù)據(jù)處理”是近年來研究的方向和前沿。
參考文獻:
[1]廖勝姣.基于文獻計量的科學(xué)知識圖譜繪制研究[D].北京:中科院研究生院,2009:1-7.
[2]劉則淵,王賢文,陳超美.科學(xué)知識圖譜方法及其在科技情報中的應(yīng)用[J].數(shù)字圖書館論 壇,2009(10):14-34.
[3]徐瑾,楊思洛.基于知識圖譜的數(shù)字圖書館研究現(xiàn)狀與趨勢分析[J].圖書館,2011(6):41-44,51.
[4]趙蓉英,王菊.圖書館學(xué)知識圖譜分析[J].中國圖書館學(xué)報,2011(2):42-52.
[5]陳超美.CiteSpace II:科學(xué)文獻中新趨勢與新動態(tài)的識別與可視化[J].情報學(xué)報,2009(3):401-402.
[6]邵峰晶.數(shù)據(jù)挖掘原理與算法[M].北京:中國水利水電出版社,2003.
[7]趙丹群.數(shù)據(jù)挖掘:原理、方法及其應(yīng)用.現(xiàn)代圖書情報技術(shù)[J].2000(6):41-44.
(編校:嚴(yán)真)endprint