趙蓉英 余波
〔摘 要〕為全面了解國際圖書情報學(xué)數(shù)據(jù)挖掘領(lǐng)域的研究熱點和前沿趨勢,以Web of Science數(shù)據(jù)庫收錄的2007-2016年數(shù)據(jù)領(lǐng)域的文獻(xiàn)數(shù)據(jù)為研究對象,通過CiteSpace軟件,結(jié)合文獻(xiàn)計量學(xué)和可視化方法,從年度分布、期刊分布、研究力量分布、重要文獻(xiàn)、研究熱點以及前沿等方面進(jìn)行分析。研究發(fā)現(xiàn),國際數(shù)據(jù)挖掘研究出現(xiàn)了網(wǎng)絡(luò)與計算機(jī)技術(shù)、數(shù)據(jù)挖掘方法、數(shù)據(jù)挖掘與管理、數(shù)據(jù)挖掘與應(yīng)用四大聚類。研究前沿探測出3個發(fā)展時期,每個時期的熱點都有特色。根據(jù)上述研究繪制該領(lǐng)域知識圖譜,對國際數(shù)據(jù)挖掘的研究現(xiàn)狀和發(fā)展趨勢進(jìn)行分析和總結(jié),為我國數(shù)據(jù)挖掘研究提供參考。
〔關(guān)鍵詞〕數(shù)據(jù)挖掘;熱點;前沿;可視化分析;知識圖譜
DOI:10.3969/j.issn.1008-0821.2018.06.020
〔中圖分類號〕G250.252 〔文獻(xiàn)標(biāo)識碼〕A 〔文章編號〕1008-0821(2018)06-0128-10
〔Abstract〕In order to understand the progress of Date Mining research,published articles on Date Mining during 2007-2016,which were recorded in the database of WOS,were chosen to be analyzed in this paper.By applying the method of bibliometric and Visualization,the paper analyzed the research status in this area according to the time,journals,disciplines,the research power,important literatures,research focus and frontiers through Cite Space.The study found that there are four clusters of international data mining research:network and computer technology,data mining method,data mining and management,data mining and application.Research front detected three development periods,each period had its own hot spots.Based on the knowledge map,the research status and development of international Date Mining were analyzed and summarized,which in order to provide reference for the researching about the Date Mining in our country.
〔Key words〕data mining;hotspot;frontier;visualization analysis;knowledge mapping
隨著計算機(jī)軟件、硬件技術(shù)、數(shù)據(jù)搜集以及數(shù)據(jù)存儲技術(shù)的高速發(fā)展,數(shù)據(jù)庫應(yīng)用的規(guī)模不斷增加,大量的數(shù)據(jù)和信息給人們帶來了數(shù)據(jù)過剩、信息爆炸、信息安全、信息不對稱等現(xiàn)象。目前人們?nèi)绾螐暮A康男畔⒅蝎@取有價值的知識和信息成了一種挑戰(zhàn)。數(shù)據(jù)挖掘正是在這種挑戰(zhàn)中應(yīng)運而生的,并在不同領(lǐng)域得到了廣泛的應(yīng)用。人們對數(shù)據(jù)挖掘的開發(fā)、應(yīng)用和研究興趣主要源于超大規(guī)模數(shù)據(jù)庫的出現(xiàn)、先進(jìn)的計算機(jī)技術(shù)、對海量數(shù)據(jù)庫的快速反應(yīng)和統(tǒng)計方法在數(shù)據(jù)處理中的應(yīng)用[1]。
國內(nèi)外學(xué)者對數(shù)據(jù)挖掘研究開展了較廣泛的研究,這些研究主要集中在某一主題或一些應(yīng)用領(lǐng)域。如Guizani S利用移動數(shù)據(jù)挖掘的K-Means集群安全框架,提出了一種能夠收集信息并實時生成警報的系統(tǒng)框架,以確定該方案的有效性和準(zhǔn)確性[2];Sumba X使用語義和數(shù)據(jù)挖掘技術(shù)檢測類似的知識領(lǐng)域,提出了一種新的架構(gòu),通過本體、詞匯表和關(guān)聯(lián)數(shù)據(jù)技術(shù)的結(jié)合,確定共同的研究領(lǐng)域和潛在的協(xié)作網(wǎng)絡(luò),從而豐富一個基礎(chǔ)數(shù)據(jù)模型[3];Keramati A利用數(shù)據(jù)挖掘技術(shù),從組織數(shù)據(jù)庫中收集數(shù)據(jù),認(rèn)為數(shù)據(jù)挖掘為從海量數(shù)據(jù)中提取知識提供了強大的工具,最后通過應(yīng)用決策樹技術(shù)構(gòu)建了預(yù)測模型[4];Khalkhali HR通過分類和回歸樹(CART)應(yīng)用于乳腺癌數(shù)據(jù)庫,通過十倍交叉驗證實驗,測量了回歸樹的大小的分類誤差,建立模型準(zhǔn)確性、敏感性和特異性的性能評價標(biāo)準(zhǔn)[5]。宋韜等分析了基于數(shù)據(jù)倉庫的數(shù)據(jù)挖掘技術(shù),對數(shù)據(jù)挖掘在稅務(wù)稽查中的應(yīng)用進(jìn)行了探討,認(rèn)為在稅務(wù)稽查選案中應(yīng)用人工神經(jīng)網(wǎng)絡(luò)來實現(xiàn)稽查選案[6]。石冰等介紹了信息檢索中的數(shù)據(jù)挖掘技術(shù),結(jié)合挖掘過程重點討論了基于知識規(guī)則挖掘的分類方法,并以關(guān)聯(lián)規(guī)則發(fā)現(xiàn)算法為例探討了數(shù)據(jù)挖掘在數(shù)據(jù)庫系統(tǒng)中的使用[7]。朱麗萍等匯總了網(wǎng)嵊泗縣供電公司各生產(chǎn)專業(yè)數(shù)據(jù),形成“生產(chǎn)經(jīng)營統(tǒng)計一套表”,運用數(shù)據(jù)挖掘進(jìn)行全面分析,探討了數(shù)據(jù)挖掘?qū)ιa(chǎn)經(jīng)營管理和綜合計劃統(tǒng)籌及電網(wǎng)科學(xué)發(fā)展[8]。目前,國內(nèi)對數(shù)據(jù)挖掘領(lǐng)域的計量文獻(xiàn)研究較少,鑒于此,本文基于采用文獻(xiàn)計量學(xué)和可視化分析方法,對國際數(shù)據(jù)挖掘研究領(lǐng)域的現(xiàn)狀和趨勢進(jìn)行了多角度計量和可視化展示,以期為相關(guān)領(lǐng)域的研究人員提供參考。
1 數(shù)據(jù)來源與研究方法
1.1 數(shù)據(jù)來源
本研究選擇Web of Science數(shù)據(jù)庫為數(shù)據(jù)來源,檢索策略為主題=“Data Mining”進(jìn)行檢索(檢索時間:2017年12月2日),學(xué)科限定在圖書情報學(xué)。檢索年限為2007-2016年。共獲取535篇有效論文作為本文的數(shù)據(jù)樣本。
1.2 研究方法
本文主要采用最新的CiteSpace 5.1可視化軟件,利用文獻(xiàn)計量分析方法,從文獻(xiàn)的年代分布、期刊、研究力量分布、重要文獻(xiàn)、研究熱點及前沿等方面進(jìn)行多角度計量與可視化展示,從而全面地展現(xiàn)國際數(shù)據(jù)挖掘領(lǐng)域的研究熱點方向以及發(fā)展現(xiàn)狀。
2 研究結(jié)果分析
2.1 年度分布
文獻(xiàn)的年度變化趨勢與文獻(xiàn)知識量的增長有著較為密切的關(guān)系,能揭示該領(lǐng)域研究發(fā)展趨勢。因此,文獻(xiàn)的數(shù)量是衡量文獻(xiàn)研究熱點的重要指標(biāo)之一[9]。通過分析國外近10年數(shù)據(jù)挖掘研究領(lǐng)域的文獻(xiàn)數(shù)量,可大致分析出該領(lǐng)域文獻(xiàn)的應(yīng)用程度,進(jìn)一步較全面地掌握國外數(shù)據(jù)挖掘研究領(lǐng)域的發(fā)展速度和理論水平。如圖1所示,從圖中可看出,2007-2016年間,國外有關(guān)數(shù)據(jù)挖掘的研究文獻(xiàn)增長趨勢大致可分為3個階段:第一階段為2007-2010年,該階段是數(shù)據(jù)挖掘研究正由高峰時期開始轉(zhuǎn)向下降趨勢,2007年發(fā)文量高達(dá)71篇,占總發(fā)文量的13.2%,到2010年下降至42篇,表明該階段數(shù)據(jù)挖掘研究的熱度開始減弱;第二階段2011-2013年為緩慢發(fā)展時期,2011年發(fā)現(xiàn)發(fā)文量降到了最低,僅為32篇,占發(fā)文總量的5.98%,從2012年開始,該領(lǐng)域發(fā)文量再次開始增長,在一定的范圍波動,總體發(fā)文量較穩(wěn)定;第三階段2014-2016年為持續(xù)發(fā)展時期,發(fā)文量從46篇增至67篇,2016年總發(fā)文量占比12.52%和2007年占比13.2%比較接近,這充分表明了近年對數(shù)據(jù)挖掘的研究熱度再次升溫,發(fā)文量上升趨勢顯著。文獻(xiàn)量變化的趨勢可能與數(shù)據(jù)開發(fā)和利用的政策有關(guān),也可能與信息、網(wǎng)絡(luò)和計算機(jī)技術(shù)的發(fā)展有關(guān)。
2.2 期刊分布
大部分文獻(xiàn)期刊在刊載文獻(xiàn)時,都有各自期刊載文的側(cè)重點,即不同的期刊有不同的刊載領(lǐng)域。考察某一學(xué)科領(lǐng)域研究文獻(xiàn)的來源期刊,有利于進(jìn)一步了解該領(lǐng)域文獻(xiàn)的空間分布現(xiàn)狀,對開展該領(lǐng)域文獻(xiàn)調(diào)研也具有重要意義。為此,在軟件中選取Cited Journal為分析對象,在Cite Space中設(shè)置一定的閾值,運行Citespace軟件得到數(shù)據(jù)挖掘領(lǐng)域共現(xiàn)圖譜,如圖2所示。表1中展示的是數(shù)據(jù)挖掘研究領(lǐng)域的高被引期刊。從頻次上看,該領(lǐng)域高被引期刊最高的是LECT NOTES COMPUT SC,高達(dá)91次,其次是COMMUN ACM(76次)、EXPERT SYST APPL(74次)、DECIS SUPPORT SYST(65次)和INFORM PROCESS MANAG(63次)等。
通過節(jié)點的中心性可以衡量網(wǎng)絡(luò)中不同位置的節(jié)點的重要性[10]?;诖耍瑢υ擃I(lǐng)域的高被引頻次頻次>20期刊和中心性較高的期刊進(jìn)行了統(tǒng)計,表1所示。上述高被引期刊中有6個期刊的中心性大于0.1,分別是“DATA MIN KNOWL DISC”、“INFORM PROCESS MANAG”、“ACM COMPUT SURV”、“COMMUN ACM”、“MACH LEARN”、“IEEE T KNOWL DATA EN”,其中心性依次是0.2、0.18、0.18、0.16、0.14、0.11,這表明了這些期刊在數(shù)據(jù)挖掘領(lǐng)域是比較重要期刊,是該領(lǐng)域?qū)W術(shù)交流的重要載體,其載文質(zhì)量較高,是該領(lǐng)域?qū)W者關(guān)注的焦點。同時,結(jié)合表和圖譜還發(fā)現(xiàn)信息科學(xué)領(lǐng)域的期刊對該領(lǐng)域的研究關(guān)注度最高。
2.3 研究力量分布
2.3.1 國家和地區(qū)分布
研究國家分布,我們可以快速地掌握不同國家和地區(qū)在該領(lǐng)域的研究實力情況。在軟件中選取Country為分析對象,在軟件中繪制數(shù)據(jù)挖掘研究領(lǐng)域的國家和地區(qū)分布圖譜,如圖3所示。
圖中的節(jié)點代表國家和地區(qū),節(jié)點大小表示發(fā)文量的多少。從發(fā)文量來看,數(shù)據(jù)挖掘領(lǐng)域發(fā)文最多的國家是美國,發(fā)文高達(dá)201篇。其次是中國大陸發(fā)文106篇,位居第二。另外,數(shù)據(jù)挖掘領(lǐng)域高產(chǎn)的國家和地區(qū)還包括中國臺灣地區(qū)(37篇)、英格蘭(26篇)、西班牙(20篇)、德國(17篇)、加拿大(15篇)、韓國(14篇)、意大利(13篇)、法國(11篇),說明這些國家和地區(qū)對數(shù)據(jù)挖掘領(lǐng)域研究的關(guān)注度較高,并在該領(lǐng)域取得一定的研究成果。從中心度來看,數(shù)據(jù)挖掘領(lǐng)域中心度較高的國家有英國(0.41)、美國(0.24)、中國大陸(0.21)、中國臺灣地區(qū)(0.09)、意大利(0.09)等,這表明這些國家和地區(qū)在數(shù)據(jù)挖掘研究領(lǐng)域處于領(lǐng)先和主導(dǎo)地位。
節(jié)點之間的連線代表了國家和地區(qū)之間的合作情況,連線的粗細(xì)則說明了國家和地區(qū)之間的合作緊密情況。由圖3可知,在數(shù)據(jù)挖掘領(lǐng)域,合作較為密切的國家和地區(qū)主要是美國和英國等為主的歐洲國家和地區(qū)。同時,也說明了該領(lǐng)域之間國際之間的合作和交流較少,需要進(jìn)一步加強以促進(jìn)該領(lǐng)域研究的發(fā)展。
2.3.2 機(jī)構(gòu)分布
通過研究機(jī)構(gòu)分布情況,有利于掌握不同機(jī)構(gòu)的研究重點和合作狀況。在軟件中選取Institution為分析對象,設(shè)置合適的閾值,運行軟件得到數(shù)據(jù)挖掘研究領(lǐng)域的機(jī)構(gòu)分布圖譜(見圖4)。節(jié)點大小與該機(jī)構(gòu)的發(fā)文量成正正比,節(jié)點之間的連線代表了機(jī)構(gòu)之間的合作關(guān)系。
由圖4可知,數(shù)據(jù)挖掘領(lǐng)域研究機(jī)構(gòu)數(shù)量眾多,但機(jī)構(gòu)之間的合作較為稀疏,只有較少的機(jī)構(gòu)之間存在合作關(guān)系。從中心性來看,圖中機(jī)構(gòu)在網(wǎng)絡(luò)圖譜中的中心性均趨近0,表明機(jī)構(gòu)間合作文獻(xiàn)較少,在整個網(wǎng)絡(luò)中的連接作用很小。從發(fā)文量來看,排名靠前的機(jī)構(gòu)分別是Beijing Normal Univ、East China Jiaotong Univ、Gachon Univ、Bucharest Univ Econ Studies、Old Dominion Univ、Stanford Univ、Acad Econ Studies、Natl Univ Ireland Univ Coll Dublin、New Jersey Inst Technol、Virginia Tech。從機(jī)構(gòu)類型來看,高校及科研院所是數(shù)據(jù)挖掘研究的主要力量,高校所占比重最大。其中在我國科研機(jī)構(gòu)中,中國科學(xué)院及北京師范大學(xué)的發(fā)文量位居前列,表明這兩所院校在數(shù)據(jù)挖掘領(lǐng)域具有較強的科研實力。
2.4 作者分布
科學(xué)研究成果通常以科學(xué)論文等重要形式表現(xiàn)出來,在軟件中選取作者(Author)為分析對象,設(shè)置合適的閾值,運行軟件得到數(shù)據(jù)挖掘領(lǐng)域研究的作者分布圖譜,如圖5所示。圖中節(jié)點代表發(fā)文作者,節(jié)點大小代表作者的發(fā)文量,節(jié)點越大,表明該作者發(fā)文量越多。節(jié)點之間的連線代表作者之間存在合作關(guān)系。
由圖5可知,數(shù)據(jù)挖掘研究領(lǐng)域發(fā)文量位居前10的作者分別是Chen Y(4篇)、Li N(4篇)、Kim C(3篇)、Dan Z(2篇)、Zhang D(2篇)、Li XM(2篇)、Ji ZH(2篇)、Holzinger A(2篇)、Chalaris M(2篇)、Tzima FA(2篇)。從合作角度看,該領(lǐng)域作者之間的合作相對比較分散,2~4人的小團(tuán)體較多。在這些作者中形成的最大的合作網(wǎng)絡(luò)是由Li N、Ji ZH等組成的4人網(wǎng)絡(luò),這些學(xué)者主要涉及數(shù)據(jù)挖掘技術(shù)方面的研究。從中心性來看,圖中作者的中心性趨近為0,僅有Li N的中心性為0.01,這表明網(wǎng)絡(luò)中該作者處于核心地位。
2.5 引文分析
引文分析是文獻(xiàn)計量學(xué)的重要組成部分之一,高被引論文對該領(lǐng)域的研究具有重要的價值和意義,也是該領(lǐng)域研究的基礎(chǔ)。通過Citespace軟件可分析文獻(xiàn)被引頻次的高低及其中心性,被引頻次的大小和中性度的高低能反映其文獻(xiàn)的影響力和價值。通常情況下,單篇文獻(xiàn)的被引頻次越高,說明該文獻(xiàn)在研究領(lǐng)域中的學(xué)術(shù)價值和影響力越大。節(jié)點文獻(xiàn)的中心性也體現(xiàn)文獻(xiàn)在學(xué)科領(lǐng)域的重要程度。在軟件中選取Cited Reference為分析對象,并選擇圖譜類型為聚類視圖,運用可視化軟件可得到數(shù)據(jù)挖掘研究文獻(xiàn)的共被引圖譜,共獲得有效期刊114種,如圖6所示。
選取被引頻次位居前列,且中心性均不低于1.0的文獻(xiàn)作為數(shù)據(jù)挖掘領(lǐng)域的重要文獻(xiàn),共有3篇重要文獻(xiàn),分別為DATA MINING PRACTICA、DATA MINING CONCEPTS和J COMPUT SCI-NETH??梢?,這3種期刊在數(shù)據(jù)挖掘領(lǐng)域占有重要的地位。
通過對高被引期刊和文獻(xiàn)的研究,我們發(fā)現(xiàn)這些高被引文獻(xiàn)主要體現(xiàn)在數(shù)據(jù)挖掘的技術(shù)應(yīng)用領(lǐng)域,如在數(shù)字圖書館領(lǐng)域,數(shù)據(jù)挖掘技術(shù)應(yīng)用在數(shù)字圖書館推薦服務(wù)中,有效地利用有意義的信息來提高數(shù)字圖書館的服務(wù)質(zhì)量是圖書館服務(wù)的重要目標(biāo),使用的數(shù)據(jù)挖掘過程關(guān)聯(lián)規(guī)則和聚類方法生成一個推薦系統(tǒng)促進(jìn)數(shù)字圖書館服務(wù);人工神經(jīng)網(wǎng)絡(luò)(ANN)和數(shù)據(jù)挖掘(DM)技術(shù)是一個很好的方法來滿足圖書館用戶的需求[11]。在商業(yè)應(yīng)用領(lǐng)域,商業(yè)智能(BI)是一個過程,對企業(yè)的業(yè)務(wù)操作、戰(zhàn)術(shù)和戰(zhàn)略有積極影響。BI在企業(yè)計算環(huán)節(jié)中,智能系統(tǒng)的部署使商業(yè)智能更有效[12]。在基于互聯(lián)網(wǎng)的電子商務(wù)環(huán)境中,大多數(shù)業(yè)務(wù)數(shù)據(jù)分布呈現(xiàn)異構(gòu)和私有的特征,為了實現(xiàn)真正的商業(yè)智能,挖掘大量的分布式數(shù)據(jù)是必要的,通過分布式數(shù)據(jù)挖掘(DDM)電子商務(wù)系統(tǒng),將現(xiàn)代DDM系統(tǒng)分為3類具有代表性的樣本解決這些識別問題[13]?;诖耍梢泽w現(xiàn)出國外數(shù)據(jù)挖掘技術(shù)在各個領(lǐng)域的應(yīng)用較為廣泛。
2.6 研究熱點探測
關(guān)鍵詞是對文章主題的高度概括和提煉,也是文章的核心和精髓。因此,高頻關(guān)鍵詞通常被用來確定某一個研究領(lǐng)域的熱點問題。運用可視化軟件Cite Space繪制數(shù)據(jù)挖掘領(lǐng)域的關(guān)鍵詞聚類知識圖譜,對熱點關(guān)鍵詞進(jìn)行聚類分析來探測學(xué)科領(lǐng)域的研究熱點。在軟件中設(shè)定相應(yīng)的參數(shù),選擇探索關(guān)鍵詞的路徑算法(Pathfinder),Pathfinder是一種較小的生成樹算法,通過算法經(jīng)過模型運算來剪切網(wǎng)絡(luò)中大部分不重要的關(guān)聯(lián)節(jié)點,只保留重要的關(guān)聯(lián)節(jié)點,保留所有原節(jié)點不動,從最大程度上將原網(wǎng)絡(luò)簡化為一個最小值網(wǎng)絡(luò)[14-15]。國際數(shù)據(jù)挖掘研究領(lǐng)域熱點聚類圖,如圖7所示。圖譜中每個節(jié)點代表對應(yīng)的關(guān)鍵詞,節(jié)點越大說明關(guān)鍵詞頻次越大。表2是由Citespace統(tǒng)計得出的部分高頻關(guān)鍵詞和中心性較高的關(guān)鍵詞。
在圖7和表2,可以看出該領(lǐng)域出現(xiàn)頻次最高的關(guān)鍵詞是Data Mining(數(shù)據(jù)挖掘),頻次高達(dá)215次。高頻關(guān)鍵詞反映出的數(shù)據(jù)挖掘領(lǐng)域的研究熱點還包括System(系統(tǒng))、Model(模型)、Classification(分類)、Big Data(大數(shù)據(jù))、Algorithm(算法)、Text Mining(文本挖掘)、Information(信息)、Web(網(wǎng)絡(luò))、Information Retrieval(信息檢索)、Clustering(聚類)、Neural Network(神經(jīng)網(wǎng)絡(luò))、Knowledge(知識)和Association Rule(關(guān)聯(lián)規(guī)則)等同時,從中心性角度來看,中心性大于0.06的關(guān)鍵詞包括Data Mining(數(shù)據(jù)挖掘)、System(系統(tǒng))、Information(信息)、Model(模型)、Behavior(行為)、Text Mining(文本挖掘)、Algorithm(算法)、Classification(分類)和Network(網(wǎng)絡(luò))等。將高頻關(guān)鍵詞與高中心性關(guān)鍵詞進(jìn)行比較可知,兩者大體上保持一致,因此,可以確定這些關(guān)鍵詞在一定程度上能夠表示數(shù)據(jù)挖掘研究的熱點。
為了進(jìn)一步更深層次地了解該領(lǐng)域的熱點研究,利用軟件繪制了該領(lǐng)域的聚類知識圖譜。通過數(shù)據(jù)挖掘領(lǐng)域聚類圖譜分析發(fā)現(xiàn),國際數(shù)據(jù)挖掘研究主要有4大聚類:網(wǎng)絡(luò)與計算機(jī)技術(shù)、數(shù)據(jù)挖掘方法、數(shù)據(jù)挖掘與管理、數(shù)據(jù)挖掘與應(yīng)用,對應(yīng)圖中的A、B、C、D 4個聚類??梢钥闯鰢鈹?shù)據(jù)挖掘?qū)τ嬎銠C(jī)技術(shù)及在不同領(lǐng)域的廣泛應(yīng)用普及度較高。
2.6.1 網(wǎng)絡(luò)與計算機(jī)技術(shù)
A聚類是反映了網(wǎng)絡(luò)與計算機(jī)技術(shù)的熱點詞匯,包括Model(模型)、Network(網(wǎng)絡(luò))、Database(數(shù)據(jù)庫)、Data Stream(數(shù)據(jù)流)、Web(網(wǎng)絡(luò))、Twitter(推特)、Visualization(可視化)、Cluster Analysis(聚類分析)、Citation Analysis(引用分析)、Science(科學(xué))、Machine Learning(機(jī)器學(xué)習(xí))、Information(信息)等,這些熱點詞匯分別涵蓋了數(shù)據(jù)挖掘的基礎(chǔ)理論,互聯(lián)網(wǎng)和計算機(jī)技術(shù)是數(shù)據(jù)挖掘領(lǐng)域中必要的組成部分。隨著互聯(lián)網(wǎng)和計算機(jī)技術(shù)的普及,數(shù)據(jù)挖掘領(lǐng)域的可視化數(shù)據(jù)挖掘技術(shù)、數(shù)據(jù)庫和網(wǎng)站數(shù)據(jù)挖掘技術(shù)的發(fā)展越來越快。在大數(shù)據(jù)背景下,國外數(shù)據(jù)挖掘研究正在不斷的發(fā)展中。隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,業(yè)務(wù)數(shù)據(jù)的數(shù)量增加很快。知識提取與數(shù)據(jù)挖掘需使用分布式云計算之類的環(huán)境進(jìn)行多個節(jié)點之間共享存儲和處理[16]。
2.6.2 數(shù)據(jù)挖掘方法
B聚類反映了不同的數(shù)據(jù)挖掘方法,包括Information Retrieval(信息檢索)、Text Mining(文本挖掘)、Knowledge Discovery(知識發(fā)現(xiàn))、Spatial Data Mining(空間數(shù)據(jù)挖掘)、Social Network(社會網(wǎng)絡(luò))等,這些關(guān)鍵詞表明了數(shù)據(jù)挖掘方法從不同的層面深入,挖掘更深層次的信息和知識。數(shù)據(jù)挖掘的目的與決策和用戶息息相關(guān),在這個聚類中,我們還發(fā)現(xiàn)與之相關(guān)的關(guān)鍵詞,如Decision Tree(決策樹)、Strategy(決策)、User(用戶)、Behavior(行為)等關(guān)鍵詞。通過對以上聚類關(guān)鍵詞可以發(fā)現(xiàn),國外數(shù)據(jù)挖掘方法在不斷地發(fā)展和創(chuàng)新,綜合考慮數(shù)據(jù)挖掘方法與模型和應(yīng)用的關(guān)聯(lián)[17]。
2.6.3 數(shù)據(jù)挖掘與管理
C聚類反映了數(shù)據(jù)挖掘與管理相關(guān)的關(guān)鍵詞,包括Management(管理)、Knowledge(知識)、Digital Divide (數(shù)據(jù)分類)、Expert System(專家系統(tǒng))、Information System(信息系統(tǒng))、E-learning(學(xué)習(xí)管理)、Performance(績效)、Motivation(動力)、Knowledge Management(知識管理)、Neural Network(神經(jīng)網(wǎng)絡(luò))、Prediction(預(yù)測)、Impact(影響)、Framework(框架)等,這些熱點關(guān)鍵詞體現(xiàn)了與管理相關(guān)的各個方面,涵蓋了與管理相關(guān)的主要因素。國外數(shù)據(jù)挖掘與管理應(yīng)用在體育知識管理中,在體育知識管理中發(fā)揮著重要的作用[18]。
2.6.4 數(shù)據(jù)挖掘與應(yīng)用
D聚類反映了數(shù)據(jù)挖掘技術(shù)的應(yīng)用層面,主要是大數(shù)據(jù)和云計算環(huán)境下與數(shù)據(jù)玩家相關(guān)的實踐應(yīng)用層。包括Business Intelligence(商務(wù)智能)、Electronic Health Record(電子健康記錄、Digital Library (數(shù)字圖書館)、Big Data(大數(shù)據(jù))、System(系統(tǒng))、Classification(分類)、Cloud Computing(云計算)、Design(設(shè)計)、Feature Selection(特征選擇)、Association Rule(關(guān)聯(lián)規(guī)則)等,從這些熱點關(guān)鍵詞中能體現(xiàn)出國外數(shù)據(jù)挖掘在商業(yè)、醫(yī)療和數(shù)據(jù)圖書館領(lǐng)域應(yīng)用較突出。在國外醫(yī)療應(yīng)用領(lǐng)域,人們認(rèn)為挖掘電子健康記錄數(shù)據(jù)就像發(fā)現(xiàn)金塊一樣,可見數(shù)據(jù)挖掘在醫(yī)學(xué)領(lǐng)域應(yīng)用的重要性[19]。在圖書館應(yīng)用領(lǐng)域,國外學(xué)者認(rèn)為文本和數(shù)據(jù)挖掘是尋找埋藏知識的寶庫[20]。
2.7 研究前沿分析
研究某學(xué)科的前沿可及時掌握學(xué)科最新研究動態(tài),且能預(yù)測學(xué)科的發(fā)展方向和未來研究的熱點問題。探測研究前沿可利用Cite Space軟件的膨脹詞探測算法,通過詞頻的時間分布,將詞頻的熱點從主題中探測出來,根據(jù)詞頻的變化趨勢,來探測該領(lǐng)域的研究前沿及其演化趨勢[21]。在參數(shù)設(shè)置選擇Keyword(關(guān)鍵詞)作為節(jié)點,通過調(diào)整相關(guān)參數(shù),結(jié)果以Time Zone(時間區(qū)域)方式顯示,運行軟件繪制出國際數(shù)據(jù)挖掘研究領(lǐng)域的前沿與知識圖譜,如圖8所示。圖中的每一個結(jié)點代表一個熱點關(guān)鍵詞,結(jié)點大小表示關(guān)鍵詞出現(xiàn)頻次的高低。
表3列出了2007-2016年國際數(shù)據(jù)挖掘研究前沿術(shù)語及其頻次,結(jié)合圖8可知,該領(lǐng)域研究大致經(jīng)歷了3個時期:即2007-2010年的繁榮期,2011-2013年的穩(wěn)定探索期,2014-2016年的新一輪繁榮期。
2.7.1 數(shù)據(jù)挖掘的繁榮期(2007-2010年)
從表3和圖8中可以發(fā)現(xiàn),大量的高頻關(guān)鍵詞集中于這個時期,如2007年,System(系統(tǒng))、Classification(分類)、Algorithm(算法)、Text Mining(文本挖掘)等,到 2008年,Model(模式)、Information Retrieval(信息檢索)、Management(管理)、Knowledge(知識),2009年的熱點前沿詞為Information(信息)、Internet(因特網(wǎng))、Ontology(本體)等;2010年Web(網(wǎng)絡(luò))、Behavior(行為)、Prediction(預(yù)測)、Feature Selection(特性選擇)、User(用戶);這一時期體現(xiàn)了國際挖掘領(lǐng)域技術(shù)與管理的完美結(jié)合。
2.7.2 數(shù)據(jù)挖掘的穩(wěn)定探索期(2011-2013年)
這一時期熱點關(guān)鍵詞開始下降,說明該時期正在進(jìn)行探索和創(chuàng)新階段。2011年為Network(網(wǎng)絡(luò))、Framework(框架)、Impact(影響)、Data Analysis(數(shù)據(jù)分析);2012年為Business Intelligence(商務(wù)智能)、Cluster Analysis(聚類分析)、Pattern(模型),2013年為Electronic Health Record(電子健康記錄)、Science(科學(xué))、Twitter(推特)。這時期可以看出數(shù)據(jù)挖掘研究正在不同的領(lǐng)域探索其應(yīng)用范圍。如商業(yè)領(lǐng)域和醫(yī)療領(lǐng)域。Patterncluster Analysis(聚類分析)、Expert System(專家系統(tǒng))。
2.7.3 新一輪繁榮期(2014-2016年)
2014年為Big Data(大數(shù)據(jù))、Retrieval(檢索)、Data Mining(大數(shù)據(jù)挖掘),2015年為Cloud Computing(云計算)、Discovery(發(fā)現(xiàn))、Support(支持)、Technology(技術(shù));2016年為Time(時間)。這一時期受大數(shù)據(jù)、云計算的影響,數(shù)據(jù)挖掘的空間和廣度更大,導(dǎo)致再次繁榮和發(fā)展。
由以上熱點關(guān)鍵詞我們預(yù)測,該領(lǐng)域研究學(xué)者們在不斷探索新的技術(shù)與方法,將系統(tǒng)、算法、文本挖掘、商務(wù)智能、本體、云計算、可視化分析、空間計量等相關(guān)理論、技術(shù)和方法綜合應(yīng)用到數(shù)據(jù)挖掘的開發(fā)和實踐中,以促進(jìn)數(shù)據(jù)挖掘在不同領(lǐng)域的應(yīng)用和發(fā)展。
3 結(jié) 語
本文選取了Web of Science數(shù)據(jù)庫中圖書情報學(xué)科收錄的數(shù)據(jù)挖掘研究領(lǐng)域相關(guān)文獻(xiàn)為數(shù)據(jù)來源,國際采用文獻(xiàn)計量學(xué)理論和可視化方法,利用可視化軟件Cite Space,以對2007-2016年國際數(shù)據(jù)挖掘領(lǐng)域研究現(xiàn)狀、熱點和前沿進(jìn)行可視化分析,通過相關(guān)統(tǒng)計數(shù)據(jù)和知識圖譜得出以下結(jié)論:
1)通過文獻(xiàn)發(fā)文了解該領(lǐng)域發(fā)文趨勢和變化情況,得知國際數(shù)據(jù)挖掘領(lǐng)域的研究處于穩(wěn)定和不斷的深入研究階段,在這些時期數(shù)據(jù)挖掘的發(fā)展也面臨著新的發(fā)展機(jī)遇和挑戰(zhàn);通過期刊分布發(fā)現(xiàn)該領(lǐng)域的高被引期刊和高中心性期刊為《COMMUN ACM》;通過對研究力量分布可以發(fā)現(xiàn)該領(lǐng)域發(fā)文最多的國家是美國、中國大陸等國家;發(fā)文機(jī)構(gòu)較多,但機(jī)構(gòu)間的合作較少;另外,高校及科研院所是數(shù)據(jù)挖掘研究的主要力量,高校所占比重最大;通過對作者分析發(fā)現(xiàn)該領(lǐng)域作者合作度不高,作者分布較稀疏,表明作者之間的合作度有待進(jìn)一步加強;通過引文分析可以發(fā)現(xiàn),該領(lǐng)域高被引文獻(xiàn)的研究價值和意義及對該領(lǐng)域的貢獻(xiàn)。
2)在數(shù)據(jù)挖掘研究熱點探測中,國際數(shù)據(jù)挖掘熱點研究主要有:網(wǎng)絡(luò)與計算機(jī)技術(shù)、數(shù)據(jù)挖掘方法、數(shù)據(jù)挖掘與管理、數(shù)據(jù)挖掘與應(yīng)用4大聚類。主要體現(xiàn)在理論、技術(shù)、方法和應(yīng)用層面。數(shù)據(jù)挖掘技術(shù)、方法和應(yīng)用都在不斷多深入和拓展,特別是在大數(shù)據(jù)環(huán)境下,數(shù)據(jù)挖掘技術(shù)正在不斷地發(fā)展和創(chuàng)新,其研究重點不局限于某個技術(shù)方法層面,而是與數(shù)據(jù)挖掘的管理和應(yīng)用層完美結(jié)合。
3)通過對研究前沿分析,筆者發(fā)現(xiàn)國際圖書情報學(xué)科對數(shù)據(jù)挖掘研究在不斷地深入和加強。在時期研究前沿時區(qū)視圖上呈現(xiàn)3個階段,并且每個階段都體現(xiàn)出新的研究方向。
第一個時期是該領(lǐng)域的繁榮期,大量的熱點前沿都集中在這一時區(qū),其中技術(shù)、管理是這一時期的熱點。第二個時期是穩(wěn)定探索期,表明國外數(shù)據(jù)挖掘領(lǐng)域在不斷地探索該領(lǐng)域新的發(fā)展空間。第三個時期是新一輪的繁榮期,在大數(shù)據(jù)、互聯(lián)網(wǎng)和云計算等背景下,該領(lǐng)域研究正在醞釀一種新的研究浪潮。
以上的研究表明,國際數(shù)據(jù)挖掘熱點研究和研究前沿可視化分析對于我國的相關(guān)領(lǐng)域問題的研究具有重要的參考價值。從研究熱點趨勢而言,在大數(shù)據(jù)和互聯(lián)網(wǎng)技術(shù)背景下,數(shù)據(jù)挖掘涉及的領(lǐng)域在不斷地深入。同時,通過該領(lǐng)域的熱點研究前沿探測分析可以預(yù)測數(shù)據(jù)安全將成為未來數(shù)據(jù)挖掘領(lǐng)域人們越來越關(guān)注的焦點。此外,值得關(guān)注的是,我國數(shù)據(jù)挖掘領(lǐng)域的研究成果有待提升國際知名度和競爭力,加強國際科學(xué)技術(shù)交流與合作,從而提高我國數(shù)據(jù)挖掘研究領(lǐng)域的國際競爭力。
參考文獻(xiàn)
[1]蔣勝益.數(shù)據(jù)挖掘原理與實踐[M],北京:電子工業(yè)出版社,2011:4-5.
[2]Guizani S.A K-Means Clustering-Based Security Framework for Mobile Data Mining[J].Wireless Communications & Mobile Computing,2016,16(18):3449-3454.
[3]Sumba X.Detecting Similar Areas of Knowledge Using Semantic and Data Mining Technologies[J].Electronic Notes in Theoretical Computer Science,2016,329:149-167.
[4]Keramati A.Developing a Prediction Model for Customer Churn from Electronic Banking Services Using Data Mining[J].Efinancial Innovation,2016,2(1):14-16.
[5]Khalkhali HR.Applying Data Mining Techniques to Extract Hidden Patterns about Breast Cancer Survival in an Iranian Cohort Study[J].Journal of Research in Health Sciences,2016,16(1):31-35.
[6]宋韜,張琦,陳麗秋.數(shù)據(jù)挖掘及其在稅務(wù)系統(tǒng)中的應(yīng)用[J].計算機(jī)工程,1997,(S1):92-94.
[7]石冰,鄭燕峰.信息檢索中的數(shù)據(jù)挖掘技術(shù)[J].情報學(xué)報,1999,(S1):108-111.
[8]朱麗萍,林淑英.數(shù)據(jù)挖掘在生產(chǎn)經(jīng)營中的應(yīng)用與實踐[J].企業(yè)管理,2016,(12):288-289.
[9]邱均平.信息計量學(xué)[M].武漢:武漢大學(xué)出版社,2007:44-45.
[10]Chen Chaomei.CiteSpaceⅡ:Detecting and Visualizing Emerging Trends and Transient Patterns in Scientific Literature[J].Journal of the American Society for Information Science and Technology,2006,57(3):359-377.
[11]Chen CC.Using Data Mining Technology to Provide a Recommendation Service in the Digital Library[J].Electronic Library,2007,25(6):711-724.
[12]Zeng L.Business Intelligence in Enterprise Computing Environment[J].Information Technology & Management,2012,13(4):297-310.
[13]Liu B.Distributed Data Mining for E-Business[J].Information Technology & Management,2011,12(2):67-79.
[14]Borner K,Chen C,Boyack K.Visualizing Knowledge Domains[J].Annual Review of Information Science and Technology,2003,37:179-255.
[15]Chen C.Visualizing Scientific Paradigms:An Introduction[J].Journal of the American Society for Information Science and Technology,2003,54(5):392-399.
[16]Dahmani D.Improving the Performance of Data Mining by Using Big Data in Cloud Environment[J].Journal of Information & Knowledge Management,2016,15(4):12-19.
[17]Gilbert C.XML Data Mining:Models,Methods,and Applications[J].Australian Library Journal,2013,62(3):252-253.
[18]Schumaker RP.Sports Knowledge Management and Data Mining[J].Annual Review of Information Science and Technology,2010,44(3):115-157.
[19]Ohno-Machado L.Mining Electronic Health Record Data:Finding the Gold Nuggets[J].Journal of the American Medical Informatics Association,2015,22(5):937-937.
[20]Dyas-Correia.Text and Data Mining:Searching for Buried Treasures[J].Serials Review,2014,40(3):210-216.
[21]欒春娟,侯海燕,王賢文.國際科技政策研究熱點與前沿的可視化分析[J].科學(xué)學(xué)研究,2009,27(2):240-243.
(責(zé)任編輯:孫國雷)