柯健 李超
〔摘要〕以1998-2009年間CSSCI數(shù)據(jù)庫(kù)中收錄的數(shù)據(jù)挖掘研究論文作為統(tǒng)計(jì)分析的數(shù)據(jù)源,從文獻(xiàn)時(shí)間分布、期刊分布、作者分布、單位分布、基金資助分布、學(xué)科分布、關(guān)鍵詞分布等角度進(jìn)行文獻(xiàn)計(jì)量分析。結(jié)果表明,我國(guó)社科界數(shù)據(jù)挖掘研究已從初步探索轉(zhuǎn)為發(fā)展階段,并開(kāi)始向其它學(xué)科滲透,形成了一些核心作者和領(lǐng)軍研究單位,各級(jí)單位對(duì)數(shù)據(jù)挖掘研究的重視程度在增加,數(shù)據(jù)挖掘研究的學(xué)科分布也越來(lái)越廣,最后,通過(guò)文獻(xiàn)的關(guān)鍵詞分析指出社科領(lǐng)域數(shù)據(jù)挖掘研究的趨勢(shì)。
〔關(guān)鍵詞〕數(shù)據(jù)挖掘;文獻(xiàn)計(jì)量;CSSCI;社會(huì)科學(xué)
收稿日期:2011-03-28
基金項(xiàng)目:安徽省高校省級(jí)自然科學(xué)資金項(xiàng)目“基于自組織數(shù)據(jù)挖掘方法的安徽省經(jīng)濟(jì)預(yù)警研究”(KJ2008B138)。
作者簡(jiǎn)介:柯 ?。?982-),女,講師,碩士,研究方向:數(shù)據(jù)分析、信息資源管理。
DOI:10.3969/j.issn.1008-0821.2011.06.027
〔中圖分類號(hào)〕G250.252 〔文獻(xiàn)標(biāo)識(shí)碼〕A 〔文章編號(hào)〕1008-0821(2011)06-0102-05
Bibliometric Analysis of Research on Data Mining
in the Field of Social Science in China
Ke Jian Li Chao
(1.School of Management Science and Engineering,Anhui University of Finance and Economics,
Bengbu 233030,China;
2.School of Statistics and Mathematics,Zhongnan University of Economics and Law,Wuhan 430073,China)
〔Abstract〕This paper selected those theses of data mining recorded in CSSCI during the course of 1998 to 2009,made bibliometric analysis from the angle of year distribution,journal distribution,author distribution,institution distribution,fund projects distribution,subject distribution,keywords distribution etc.As it concluded,the research on data mining in social science area has become a developing stage from initial exploration,and has been infiltrating into other subjects.Now,some of nuclear authors and leading research institutions have been coming.All kinds of institutions attach more importance to data mining research,and the subject distribution of data mining was becoming wider more and more.At last,the paper pointed out data mining research trends in social science area with the method of keywords analysis.
〔Key words〕data mining;bibliometric analysis;CSSCI;social science
1995年在加拿大蒙特利爾召開(kāi)的第一屆知識(shí)發(fā)現(xiàn)和數(shù)據(jù)挖掘國(guó)際會(huì)議上,“數(shù)據(jù)挖掘”概念第一次由Usama Fayaad提出[1],在其后不到20年的時(shí)間里,數(shù)據(jù)挖掘由于其所具有的廣闊應(yīng)用前景而備受關(guān)注,大量有關(guān)數(shù)據(jù)挖掘的研究論文在國(guó)內(nèi)外相關(guān)期刊中發(fā)表。本文依據(jù)CSSCI即“中文社會(huì)科學(xué)引文索引”,選擇CSSCI數(shù)據(jù)庫(kù)中1998-2009年的文獻(xiàn)進(jìn)行檢索分析,檢索字段為“關(guān)鍵詞”,檢索詞為“數(shù)據(jù)挖掘”,共得到685篇有關(guān)數(shù)據(jù)挖掘研究的論文,以此為統(tǒng)計(jì)數(shù)據(jù)源,并從文獻(xiàn)時(shí)間分布、期刊分布、作者分布、單位分布、基金資助分布、學(xué)科分布、關(guān)鍵詞分布等多個(gè)角度進(jìn)行綜合分析。
1 數(shù)據(jù)挖掘研究文獻(xiàn)的時(shí)間分布
某一時(shí)期發(fā)文的增加速度和數(shù)量,在一定程度上可以說(shuō)明這一領(lǐng)域研究的理論水平和發(fā)展速度。1998-2009年間被CSSCI收錄的有關(guān)數(shù)據(jù)挖掘的論文時(shí)間分布情況如圖1所示。
圖1 數(shù)據(jù)挖掘研究文獻(xiàn)的時(shí)間分布
圖1表明,數(shù)據(jù)挖掘作為一門數(shù)據(jù)智能分析技術(shù)在20世紀(jì)末才剛剛興起,因此1998-1999年在我國(guó)研究論文發(fā)文量較少,且研究?jī)?nèi)容主要表現(xiàn)為概念的引進(jìn)與描述、綜述以及一些研究方法的探討與數(shù)據(jù)挖掘技術(shù)的初步應(yīng)用。2000年以后,數(shù)據(jù)挖掘研究與應(yīng)用迅猛發(fā)展,新的或改進(jìn)的算法不斷出現(xiàn),所考察的數(shù)據(jù)類型日趨豐富,應(yīng)用領(lǐng)域逐漸擴(kuò)大,數(shù)據(jù)挖掘領(lǐng)域迎來(lái)了一個(gè)創(chuàng)新的黃金時(shí)代[2],從圖1可以看出,2000-2005年間,我國(guó)社會(huì)科學(xué)領(lǐng)域數(shù)據(jù)挖掘發(fā)文量呈指數(shù)增長(zhǎng)趨勢(shì),數(shù)據(jù)挖掘作為數(shù)據(jù)庫(kù)、統(tǒng)計(jì)學(xué)、人工智能等學(xué)科的交叉學(xué)科正在蓬勃興起。而2006年以后,發(fā)文量基本趨于平穩(wěn),這也說(shuō)明我國(guó)社會(huì)科學(xué)領(lǐng)域數(shù)據(jù)挖掘的研究與應(yīng)用已過(guò)渡到學(xué)科發(fā)展期。
2 數(shù)據(jù)挖掘研究領(lǐng)域文獻(xiàn)的期刊分布
統(tǒng)計(jì)發(fā)現(xiàn),CSSCI收錄的685篇數(shù)據(jù)挖掘論文分布在109種期刊上,其中發(fā)文10篇以上的刊物有14種,如表1所示。14種期刊刊載數(shù)據(jù)挖掘論文共計(jì)439篇,占總發(fā)文量的64.09%,相對(duì)較為集中。其中《情報(bào)雜志》等9種期刊載文量最大,均在20篇以上。表1還顯示:圖書情報(bào)類期刊載文量301篇,是發(fā)表數(shù)據(jù)挖掘論文最多的刊物類別,其次是統(tǒng)計(jì)類期刊載文量84篇。說(shuō)明在社會(huì)科學(xué)領(lǐng)域關(guān)注數(shù)據(jù)挖掘研究的學(xué)科主要是圖書館學(xué)、情報(bào)學(xué)與統(tǒng)計(jì)學(xué),圖書情報(bào)類和統(tǒng)計(jì)類期刊是我國(guó)數(shù)據(jù)挖掘研究領(lǐng)域文獻(xiàn)的主要載體。
表1 刊載數(shù)據(jù)挖掘論文10篇以上的期刊及載文量分年統(tǒng)計(jì)
由表1還可以看出,2003年前,數(shù)據(jù)挖掘的研究論文基本上都是以圖書情報(bào)類期刊為載體,說(shuō)明社會(huì)科學(xué)領(lǐng)域數(shù)據(jù)挖掘的研究基礎(chǔ)是信息領(lǐng)域。尤其在數(shù)據(jù)挖掘研究的早期探索階段,《情報(bào)學(xué)報(bào)》率先刊載相關(guān)論文;在數(shù)據(jù)挖掘研究的基礎(chǔ)奠定階段,《情報(bào)學(xué)報(bào)》的載文量也是最大的。說(shuō)明《情報(bào)學(xué)報(bào)》作為我國(guó)圖書情報(bào)類的權(quán)威期刊,能夠及時(shí)跟蹤和反映新的學(xué)科內(nèi)容,取得了質(zhì)量較高的研究成果。
表1還表明,自2003年以后,統(tǒng)計(jì)類、科技管理類期刊也逐漸連續(xù)性地刊載數(shù)據(jù)挖掘研究論文,且發(fā)文量增長(zhǎng)速度甚至趕超圖書情報(bào)類期刊,這說(shuō)明,隨著研究基礎(chǔ)的日漸深厚,統(tǒng)計(jì)學(xué)、科技管理等領(lǐng)域的學(xué)者都從數(shù)據(jù)挖掘中獲得了廣闊的研究發(fā)展空間。因?yàn)椋瑪?shù)據(jù)挖掘是一個(gè)多學(xué)科交叉的領(lǐng)域,一方面,數(shù)據(jù)挖掘以計(jì)算機(jī)的發(fā)展為首要條件,數(shù)據(jù)的有效組織和大量計(jì)算算法的支持是其發(fā)展和應(yīng)用的基礎(chǔ),但另一方面,即使數(shù)據(jù)得到了有效組織,計(jì)算算法足夠先進(jìn),要想發(fā)現(xiàn)海量數(shù)據(jù)中隱藏的有用信息,還必須綜合利用統(tǒng)計(jì)學(xué)、模式識(shí)別、人工智能、機(jī)器學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)等學(xué)科的專業(yè)知識(shí)。比如,數(shù)據(jù)挖掘使用的分析方法,有相當(dāng)大比重是靠高等統(tǒng)計(jì)學(xué)中的多元分析來(lái)支撐的,一般定義為數(shù)據(jù)挖掘技術(shù)的CART、CHAID或模糊計(jì)算等理論方法,也都是由統(tǒng)計(jì)理論發(fā)展衍生的[3]。
3 數(shù)據(jù)挖掘研究領(lǐng)域文獻(xiàn)的作者分布
3.1 論文合作情況分析
研究論文的合作情況,一方面可以反映研究論文的深度和廣度以及該研究領(lǐng)域的學(xué)科性質(zhì)和研究方法等,另一方面有助于弄清合作的特點(diǎn)及影響合作的主要因素,也有助于組織合作研究[4]。文獻(xiàn)計(jì)量學(xué)通常用論文合著率和合作度兩項(xiàng)指標(biāo)來(lái)衡量論文的合作情況。合著率是合著文獻(xiàn)占文獻(xiàn)總數(shù)的比例,合作度則是指每篇文章的平均作者數(shù)。統(tǒng)計(jì)發(fā)現(xiàn),685篇論文中,只有1位作者的文獻(xiàn)有233篇,占了總數(shù)的34%;2位作者的有422篇,占了總數(shù)的62%;3位及3位以上作者的有10篇,占了總數(shù)的4%。685篇論文涉及到1 140位作者,合作度為1.66,合作率為66%。由此分析可以看出,社會(huì)科學(xué)領(lǐng)域較高質(zhì)量的數(shù)據(jù)挖掘論文是以合作研究為主的。
3.2 核心作者發(fā)文統(tǒng)計(jì)分析
對(duì)作者發(fā)文進(jìn)行統(tǒng)計(jì)分析,可以反映出文獻(xiàn)作者與文獻(xiàn)量的關(guān)系,不僅能預(yù)測(cè)和揭示研究人員的研究能力,分析出發(fā)文量多,影響力比較大的核心作者,還對(duì)進(jìn)一步了解數(shù)據(jù)挖掘研究領(lǐng)域的現(xiàn)狀和發(fā)展趨勢(shì)起到很重要的參考意義[5]。
表2給出了1998-2009年間發(fā)文量在10篇以上的作者發(fā)文量數(shù)據(jù)。張玉峰和朱東華各發(fā)表了15篇有關(guān)數(shù)據(jù)挖掘研究的論文,戴穩(wěn)勝和朱建平各發(fā)表了13篇,這4人都是我國(guó)數(shù)據(jù)挖掘研究領(lǐng)域的核心領(lǐng)軍人物。表2還給出了4位作者的主要數(shù)據(jù)挖掘論文題目。可以看出,高產(chǎn)作者關(guān)于數(shù)據(jù)挖掘的研究比較系統(tǒng),即有數(shù)據(jù)挖掘技術(shù)的理論研究,也有數(shù)據(jù)挖掘技術(shù)在商業(yè)、網(wǎng)絡(luò)、圖書館、科技管理、金融、財(cái)務(wù)、心理學(xué)等諸多領(lǐng)域的應(yīng)用研究。他們的研究拓展了我國(guó)社科領(lǐng)域數(shù)據(jù)挖掘理論研究的深度和應(yīng)用研究的廣度。
表2 核心作者發(fā)文量及主要文獻(xiàn)列表
續(xù)表2
4 數(shù)據(jù)挖掘研究領(lǐng)域文獻(xiàn)的單位分布
對(duì)685篇文獻(xiàn)的第一作者單位進(jìn)行分析,發(fā)現(xiàn)這685篇文獻(xiàn)來(lái)源于257家單位。表3給出了發(fā)文量10篇以上的單位及其各年發(fā)文量統(tǒng)計(jì)情況。從表3可以看出,南京大學(xué)關(guān)于數(shù)據(jù)挖掘研究的連續(xù)性最強(qiáng),從1999年起,除了2000年,每年都有數(shù)據(jù)挖掘論文發(fā)表,而武漢大學(xué)、四川大學(xué)、北京大學(xué)次之,從2005-2009年每年都有論文發(fā)表。此外,西安交通大學(xué)、四川大學(xué)、華中科技大學(xué)在一定時(shí)間內(nèi)都保持著很好的數(shù)據(jù)挖掘研究連續(xù)性。
表3還表明,武漢大學(xué)12年來(lái)共發(fā)表了31篇論文,居全國(guó)之首,其次是南京大學(xué)發(fā)表了27篇,這兩所高校不僅關(guān)于數(shù)據(jù)挖掘的論文產(chǎn)出量最多,研究的連續(xù)性最強(qiáng),而且也是最早開(kāi)始社會(huì)科學(xué)領(lǐng)域數(shù)據(jù)挖掘研究的院校。這與數(shù)據(jù)挖掘的理論基礎(chǔ)有密切關(guān)系,數(shù)據(jù)挖掘是以信息領(lǐng)域?yàn)榛A(chǔ)的綜合多學(xué)科知識(shí)的交叉學(xué)科,而武漢大學(xué)和南京大學(xué)的信息管理系在國(guó)內(nèi)高校中享有盛譽(yù),兩所高校確實(shí)發(fā)揮了在專長(zhǎng)領(lǐng)域的領(lǐng)軍作用。
表3 總發(fā)文量10篇以上的單位分年統(tǒng)計(jì)列表
續(xù)表3
5 數(shù)據(jù)挖掘研究領(lǐng)域文獻(xiàn)的基金資助分布
對(duì)數(shù)據(jù)挖掘研究基金資助論文的數(shù)量和基金級(jí)別進(jìn)行統(tǒng)計(jì)分析,在一定程度上可以反映我國(guó)社會(huì)科學(xué)界數(shù)據(jù)挖掘研究的新成果、新趨勢(shì),有利于專業(yè)研究人員掌握最新、最有價(jià)值的專業(yè)情報(bào),同時(shí)也可以透視社科界數(shù)據(jù)挖掘研究的學(xué)術(shù)水平和質(zhì)量,反映國(guó)家乃至地方對(duì)該領(lǐng)域的重視程度。表4給出了歷年受到各級(jí)基金資助發(fā)表的文獻(xiàn)數(shù)量??梢钥闯?,從1999年開(kāi)始,國(guó)家級(jí)基金、省級(jí)基金、校級(jí)基金資助的論文總量在逐年攀升,由1999年和2000年的1篇省級(jí)基金資助論文到2001年的5篇國(guó)家級(jí)基金資助論文。2003年,數(shù)據(jù)挖掘研究基金資助論文分別為國(guó)家級(jí)資助8篇,省級(jí)資助4篇以及校級(jí)資助2篇,以后各年獲得的資助都有新的提高,從國(guó)家到高校,都加大了資助力度,研究人員持續(xù)性研究的積極性得到提高,我國(guó)社科界數(shù)據(jù)挖掘研究的持續(xù)性得到更好的保障。
表4 歷年受到各級(jí)基金資助發(fā)表的文獻(xiàn)數(shù)量
6 數(shù)據(jù)挖掘研究領(lǐng)域文獻(xiàn)的學(xué)科分布
統(tǒng)計(jì)發(fā)現(xiàn),社科界數(shù)據(jù)挖掘研究涉及表5所示的11個(gè)學(xué)科,其中,圖書館、情報(bào)與文獻(xiàn)學(xué)發(fā)文量最多,達(dá)323篇,經(jīng)濟(jì)學(xué)、管理學(xué)次之。說(shuō)明數(shù)據(jù)挖掘研究主體是立足基礎(chǔ)理論,集中在圖書館、情報(bào)與文獻(xiàn)學(xué)、經(jīng)濟(jì)管理等基礎(chǔ)性學(xué)科上。另一方面,數(shù)據(jù)挖掘研究的學(xué)科分布也越來(lái)越廣泛,甚至涉及到哲學(xué)、政治學(xué)、法學(xué)、語(yǔ)言學(xué)這些貌似與數(shù)據(jù)挖掘并無(wú)關(guān)聯(lián)的學(xué)科,說(shuō)明數(shù)據(jù)挖掘的研究正在積極探索新領(lǐng)域,不斷拓展綜合性交叉學(xué)科的應(yīng)用廣度。
表5 數(shù)據(jù)挖掘研究領(lǐng)域文獻(xiàn)的學(xué)科分布統(tǒng)計(jì)表
7 數(shù)據(jù)挖掘研究領(lǐng)域文獻(xiàn)的關(guān)鍵詞統(tǒng)計(jì)分析
7.1 關(guān)鍵詞數(shù)量統(tǒng)計(jì)分析
關(guān)鍵詞的研究有助于我們了解數(shù)據(jù)挖掘研究的主題。經(jīng)過(guò)統(tǒng)計(jì),選出出現(xiàn)頻次高于3次的關(guān)鍵詞,如表6所示。通過(guò)分析可以了解到,1998-2009年間數(shù)據(jù)挖掘領(lǐng)域的研究熱點(diǎn)既有數(shù)據(jù)倉(cāng)庫(kù)、關(guān)聯(lián)規(guī)則、聚類、決策樹(shù)、神經(jīng)網(wǎng)絡(luò)等基礎(chǔ)理論,也有如客戶關(guān)系、數(shù)字圖書館、知識(shí)管理、web挖掘、電子商務(wù)、金融等應(yīng)用領(lǐng)域的熱點(diǎn)。因此,通過(guò)查閱相關(guān)文獻(xiàn)資料,結(jié)合當(dāng)前社科界數(shù)據(jù)挖掘研究文獻(xiàn)的關(guān)鍵詞統(tǒng)計(jì),可以將數(shù)據(jù)挖掘研究?jī)?nèi)容劃分為基礎(chǔ)研究和應(yīng)用研究?jī)纱箢悾?],其中基礎(chǔ)研究包括:數(shù)據(jù)挖掘的概念、功能、算法、技術(shù)等。應(yīng)用研究主要有:(1)數(shù)據(jù)挖掘在商業(yè)(金融業(yè)、零售業(yè)、電信業(yè)等)、科研等領(lǐng)域的應(yīng)用研究;(2)數(shù)據(jù)挖掘系統(tǒng)和特定領(lǐng)域的數(shù)據(jù)挖掘應(yīng)用軟件建設(shè)研究;(3)數(shù)據(jù)挖掘與其它學(xué)科的交叉滲透研究,如統(tǒng)計(jì)學(xué)數(shù)據(jù)挖掘等。
表6 數(shù)據(jù)挖掘文獻(xiàn)關(guān)鍵詞統(tǒng)計(jì)表
7.2 關(guān)鍵詞逐年排序統(tǒng)計(jì)分析
按論文出版年份對(duì)每一年的關(guān)鍵詞進(jìn)行統(tǒng)計(jì),可以反映數(shù)據(jù)挖掘領(lǐng)域研究熱點(diǎn)的變化。通過(guò)表7的整理可以看出:(1)“數(shù)據(jù)倉(cāng)庫(kù)、關(guān)聯(lián)規(guī)則、客戶關(guān)系管理、數(shù)字圖書館、知識(shí)管理”等一直是該領(lǐng)域的研究熱點(diǎn),且這些關(guān)鍵詞反映了社科界數(shù)據(jù)挖掘的研究一直立足于基礎(chǔ)理論的不斷完善和典型應(yīng)用領(lǐng)域應(yīng)用研究的不斷深化。(2)越來(lái)越多的新關(guān)鍵詞出現(xiàn)說(shuō)明了學(xué)者們研究視角的轉(zhuǎn)變及數(shù)據(jù)挖掘研究應(yīng)用領(lǐng)域的擴(kuò)展。如,隨著電子商務(wù)和電子營(yíng)銷成為零售業(yè)的主流環(huán)境,數(shù)據(jù)挖掘在商業(yè)方面的探索將會(huì)繼續(xù)擴(kuò)展,而且,數(shù)據(jù)挖掘越來(lái)越多地用于新領(lǐng)域的探索,如,體育、電力、教學(xué)、科研管理、生物醫(yī)藥甚至考古、犯罪偵查等領(lǐng)域。
表7 關(guān)鍵詞逐年排序統(tǒng)計(jì)
續(xù)表7
參考文獻(xiàn)
[1](意)Paolo Giudici.實(shí)用數(shù)據(jù)挖掘[M].袁方,王煜,王麗娟,譯.北京:電子工業(yè)出版社,2004.
[2](加)Jiawei Han,Micheline Kamber.數(shù)據(jù)挖掘概念與技術(shù)[M].范明,孟小峰,譯.北京:機(jī)械工業(yè)出版社,2007.
[3](美)Michael J.A.Berry,Gordon S.Linoff.數(shù)據(jù)挖掘——客戶關(guān)系管理的科學(xué)與藝術(shù)[M].袁衛(wèi),譯.北京:中國(guó)財(cái)政經(jīng)濟(jì)出版社,2004.
[4]林良夫.中國(guó)農(nóng)村經(jīng)濟(jì)研究狀況淺析——基于對(duì)《中國(guó)農(nóng)村經(jīng)濟(jì)》(1995-1999年)載文的統(tǒng)計(jì)[J].中國(guó)農(nóng)村經(jīng)濟(jì),2000,(12):71-75.
[5]李小敏,范帆.我國(guó)知識(shí)地圖研究文獻(xiàn)計(jì)量分析[J].情報(bào)科學(xué),2010,(4):550-553.
[6]員巧云,程剛.近年來(lái)我國(guó)數(shù)據(jù)挖掘研究綜述[J].情報(bào)學(xué)報(bào),2005,(2):250-256.