李遠(yuǎn)明 胡魁菊 祝方林 周勁
〔摘要〕高校圖書館依托文獻(xiàn)資源優(yōu)勢(shì),結(jié)合業(yè)務(wù)工作特點(diǎn),采用文獻(xiàn)計(jì)量的方法,從文獻(xiàn)的角度對(duì)高??茖W(xué)研究事業(yè)進(jìn)行合理的評(píng)價(jià),是高校圖書館開展信息服務(wù)、創(chuàng)新服務(wù)領(lǐng)域的重要形式之一。本文以湖北民族學(xué)院十一五期間發(fā)表的科研論文為研究對(duì)象,采用頻次統(tǒng)計(jì)和聚類分析方法對(duì)提取出的樣本數(shù)據(jù)進(jìn)行了定量分析,并藉此為高??茖W(xué)研究事業(yè)的健康發(fā)展提供數(shù)據(jù)支撐和理論支持。
〔關(guān)鍵詞〕文獻(xiàn)計(jì)量;聚類分析;頻次統(tǒng)計(jì);信息服務(wù)
收稿日期:2011-03-28
作者簡(jiǎn)介:李遠(yuǎn)明(1969-),男,副研究館員,碩士,研究方向:信息檢索與服務(wù)、信息計(jì)量分析等,發(fā)表論文數(shù)篇。
DOI:10.3969/j.issn.1008-0821.2011.06.029
〔中圖分類號(hào)〕G250.252 〔文獻(xiàn)標(biāo)識(shí)碼〕A 〔文章編號(hào)〕1008-0821(2011)06-0113-05
Quantitative Analysis Based on Document Clustering for University Research
Li Yuanming Hu Kuiju Zhu Fanglin Zhou Jin
(Library,Hubei University for Nationalities,Enshi 445000,China)
〔Abstract〕Reasonable evaluation for university scientific research cause is one of the important forms for university library to perform information services and innovative services,relying on the literature library resources,combining with features of professional work,using bibliometric methods from the perspective of the literature.This paper analysed the sample data extracted from the scientific papers published during the Eleventh Five of Hubei University for Nationalities,using the methods of frequency statistics and cluster analysis,and provided data and theoretical support for the healthy development of scientific research cause of Hubei University for Nationalities.
〔Key words〕bibliometrics;cluster analysis;frequency statistics;information services
科研工作是高等學(xué)校的中心工作之一,科研水平的高低,科研能力的強(qiáng)弱,是構(gòu)成高校綜合實(shí)力的重要條件??蒲姓撐氖强茖W(xué)研究活動(dòng)的主要產(chǎn)出形式,其數(shù)量和質(zhì)量反映了科學(xué)研究的成果和效率,其內(nèi)容反映了高校的研究特色與研究方向。因此,通過對(duì)高??蒲腥藛T所發(fā)表論文的計(jì)量分析,可準(zhǔn)確獲知該校在某一研究領(lǐng)域或某一給定的時(shí)限內(nèi)的科研概況。
本文利用中國(guó)知網(wǎng)(CNKI)的中國(guó)學(xué)術(shù)期刊網(wǎng)絡(luò)出版總庫,依據(jù)文獻(xiàn)計(jì)量學(xué)方法,對(duì)湖北民族學(xué)院(以下簡(jiǎn)稱該校)2006-2010年(即十一五期間)的科學(xué)研究活動(dòng)進(jìn)行評(píng)價(jià),以期對(duì)該??茖W(xué)研究事業(yè)的健康發(fā)展提供數(shù)據(jù)支撐和理論支持。
1 數(shù)據(jù)來源和分析方法
1.1 數(shù)據(jù)來源及樣本的選取
選擇中國(guó)知網(wǎng)(CNKI)的中國(guó)學(xué)術(shù)期刊網(wǎng)絡(luò)出版總庫為數(shù)據(jù)來源,該庫收錄了7 579種學(xué)術(shù)期刊,文獻(xiàn)來源覆蓋率達(dá)到了99%。檢索時(shí)間限定為2006.1.1-2010.12.31,作者單位以“湖北民族學(xué)院”為檢索詞,以模糊匹配方式進(jìn)行檢索,共得到記錄4 149條,去掉1條無用數(shù)據(jù),共得到數(shù)據(jù)4 148條,并以其作為樣本進(jìn)行分析。
1.2 數(shù)據(jù)分析方法
根據(jù)文獻(xiàn)計(jì)量學(xué)原理,采用頻次排序技術(shù),將被統(tǒng)計(jì)分析的對(duì)象(如樣本數(shù)據(jù)中的期刊、作者和關(guān)鍵詞等要素)按照它們出現(xiàn)的頻次從高到低排序,以SPSS17.0和BICOMB等軟件為統(tǒng)計(jì)分析工具,對(duì)該校十一五期間發(fā)文期刊頻次、關(guān)鍵詞頻次進(jìn)行統(tǒng)計(jì)分析,并以關(guān)鍵詞共現(xiàn)聚類分析方法來揭示該校十一五期間科學(xué)研究的重點(diǎn)領(lǐng)域及研究趨勢(shì)。
2 結(jié)果與分析
2.1 概 況
中國(guó)知網(wǎng)(CNKI)的中國(guó)學(xué)術(shù)期刊網(wǎng)絡(luò)出版總庫中共收錄該校十一五期間所發(fā)表論文4 148篇(見表1)??梢钥闯?,中國(guó)學(xué)術(shù)期刊網(wǎng)絡(luò)出版總庫中2006-2007年收錄該校發(fā)表論文總篇數(shù)占到了十一五期間該庫中收錄該校論文總篇數(shù)的47.3722%,為1 965篇。2008-2010年共2 183篇,占52.6278%,且這3年每年的篇數(shù)基本持平。
表1 2006-2010年中國(guó)學(xué)術(shù)期刊網(wǎng)絡(luò)出版總庫檢出文獻(xiàn)
2.2 發(fā)文期刊分布
樣本數(shù)據(jù)中4 148篇論文共分布在970種期刊中,平均載文量4.3篇,本文將期刊頻次閾值大于11的期刊在表2中列出,共49種期刊。
表2 期刊頻次統(tǒng)計(jì)表(頻次閾值12以上)
續(xù)表2
該刊2006.1.1-2010.12.31載文總數(shù)該校作者2006.1.1-2010.12.31在該刊的載文率
從樣本統(tǒng)計(jì)數(shù)據(jù)看出,有516種期刊僅登載該校作者的1篇文獻(xiàn),占發(fā)文期刊總種數(shù)的53.2%,除該校學(xué)報(bào)外,登載該校作者論文2篇以上的期刊有451種2 625篇,占期刊總種數(shù)的46.5%。5年中該校有1 007篇文獻(xiàn)發(fā)表在該校學(xué)報(bào)上,占樣本數(shù)據(jù)中文獻(xiàn)總篇數(shù)的24.3%,由此可見,該校學(xué)報(bào)是該??蒲姓撐漠a(chǎn)出的搖籃。從該校作者發(fā)表文獻(xiàn)的空間分布來看,呈現(xiàn)分散的特點(diǎn),涉及期刊多而廣,且核心期刊載文率偏低。表2中部分期刊5年載文總數(shù)偏高,其學(xué)術(shù)性值得商榷。本文認(rèn)為,單純的論文產(chǎn)出不能代表高??蒲腥藛T的論文能力,提高論文產(chǎn)出能力應(yīng)該注意將學(xué)術(shù)論文按學(xué)科相對(duì)集中地發(fā)表到高層次的期刊上,并關(guān)注論文的被引率。
2.3 關(guān)鍵詞分析
2.3.1 關(guān)鍵詞樣本數(shù)據(jù)的抽取
主題詞和關(guān)鍵詞作為一種檢索語言和標(biāo)識(shí)語言,集中反映了文獻(xiàn)數(shù)據(jù)庫中論文內(nèi)容的主要觀點(diǎn)?;谖墨I(xiàn)計(jì)量領(lǐng)域著名的齊普夫定律,通過觀察主題詞和關(guān)鍵詞在數(shù)量上的變化,可以了解某一學(xué)科或?qū)I(yè)領(lǐng)域的發(fā)展階段和發(fā)展動(dòng)向[1]。因此對(duì)其匯總和統(tǒng)計(jì)分析,即可直接反映出某一學(xué)科、某一領(lǐng)域或某一學(xué)術(shù)團(tuán)體科學(xué)研究的結(jié)構(gòu)和趨勢(shì)。
本文從樣本數(shù)據(jù)中提取了關(guān)鍵詞共17 818個(gè),頻次2次以上的關(guān)鍵詞占關(guān)鍵詞總數(shù)的50.1%,只出現(xiàn)1次的關(guān)鍵詞占49.9%,關(guān)鍵詞離散程度較大。關(guān)鍵詞詞頻統(tǒng)計(jì)及排序結(jié)果顯示,該校十一五期間科學(xué)研究?jī)?nèi)容豐富,特色明顯?,F(xiàn)將關(guān)鍵詞出現(xiàn)頻次10次(共109個(gè))以上,且去除對(duì)策、發(fā)展、現(xiàn)狀、問題等無實(shí)際標(biāo)識(shí)意義的關(guān)鍵詞共25個(gè)后,剩下84個(gè)關(guān)鍵詞,列于表3。
表3 關(guān)鍵詞列表
2.3.2 高頻關(guān)鍵詞聚類分析
僅僅對(duì)關(guān)鍵詞按照出現(xiàn)頻次由高到低的排列還不能表現(xiàn)出這些高頻關(guān)鍵詞之間的聯(lián)系,因此我們采用共現(xiàn)分析的技術(shù)來進(jìn)一步挖掘這些關(guān)鍵詞之間的聯(lián)系。關(guān)鍵詞的共現(xiàn)分析是根據(jù)關(guān)鍵詞在同一篇論文中共同出現(xiàn)的次數(shù)來表示關(guān)鍵詞之間的聯(lián)系。一般認(rèn)為,如果兩個(gè)關(guān)鍵詞頻繁在同一篇論文中同時(shí)出現(xiàn),往往表明這兩個(gè)關(guān)鍵詞之間具有比較密切的聯(lián)系,這就是共現(xiàn)分析的理論基礎(chǔ)。由此,我們對(duì)這些高頻關(guān)鍵詞的共現(xiàn)次數(shù)進(jìn)行兩兩統(tǒng)計(jì),并進(jìn)行聚類分析,可以對(duì)當(dāng)前某學(xué)科領(lǐng)域或某一學(xué)術(shù)團(tuán)體的科學(xué)研究情況進(jìn)行歸類,從而發(fā)現(xiàn)當(dāng)前研究的熱點(diǎn)與趨勢(shì)[2]。
本文采用BICOMB軟件對(duì)樣本數(shù)據(jù)中4 188篇文獻(xiàn)中的關(guān)鍵詞進(jìn)行了分析,并生成了表3中84個(gè)高頻關(guān)鍵詞的84×84共現(xiàn)關(guān)系矩陣,矩陣片斷見圖1。
圖1 關(guān)鍵詞共現(xiàn)矩陣片斷
將此矩陣導(dǎo)入SPSS17.0中進(jìn)行聚類分析。采用分層聚類的方法,聚類開始時(shí)把參與聚類的每個(gè)關(guān)鍵詞視為一類[3],根據(jù)兩類之間的距離(歐氏距離平方)逐步合并,直到合并為一個(gè)大類為止,聚類分析結(jié)果見圖2聚類樹形圖(片斷)。
通過對(duì)聚類樹形圖的觀察,并結(jié)合各類關(guān)鍵詞之間的語義關(guān)系,得出該校十一五期間科學(xué)研究的熱點(diǎn)主要包括以下幾個(gè)方面:第1類,厚樸酚及和厚樸酚的提取方法,其含量的測(cè)定方法,厚樸酚及和厚樸酚的應(yīng)用等;第2類,以藤茶為研究對(duì)象,研究藤茶中黃酮的提取及分離純化工藝,研究藤茶中多糖和硒多糖的抗氧化性、穩(wěn)定性及活性;第3類,以科學(xué)發(fā)展觀為指導(dǎo),探索恩施州內(nèi)新農(nóng)村建設(shè)及和諧社會(huì)的構(gòu)建,從循環(huán)經(jīng)濟(jì)建設(shè)的角度尋求可持續(xù)發(fā)展;第4類,竹節(jié)人參的抗炎鎮(zhèn)痛研究;第4類,以魔芋和玉米為研究對(duì)象,研究硒多糖的賦存形態(tài)和藥理作用;第5類,糖尿病的診斷與治療;第6類,研究番石榴葉、長(zhǎng)葉胡頹子、黃連等中藥成分對(duì)大鼠結(jié)腸炎的療效;第7類,研究鄧小平理論對(duì)構(gòu)建社會(huì)主義的普遍指導(dǎo)意義;第8類,研究五鶴續(xù)斷的提取工藝;第9類;病人并發(fā)癥的護(hù)理及其健康教育;第9類,研究民族地區(qū)、土家族聚集地區(qū)文化內(nèi)涵的建設(shè);第10類,研究高校大學(xué)生心理健康問題;第11類,以土家族及其語言為研究對(duì)象,深入研究其文化變遷過程;第12類,研究白術(shù)、黨參、天麻、麥冬、何首烏、地茶等中藥成分的抗氧化酶作用。另外還有近30個(gè)關(guān)鍵詞的聚類結(jié)果不明顯,說明這些領(lǐng)域的科研合力還有待進(jìn)一步加強(qiáng)。
3 結(jié) 語
基于文獻(xiàn)計(jì)量原理,運(yùn)用頻次統(tǒng)計(jì)和共現(xiàn)聚類分析方法對(duì)高??茖W(xué)研究事業(yè)進(jìn)行定量分析和評(píng)價(jià),是高校圖書館開展信息服務(wù)、創(chuàng)新服務(wù)領(lǐng)域的重要形式,對(duì)高校正確制訂科學(xué)研究發(fā)展規(guī)劃、加強(qiáng)學(xué)科建設(shè)、構(gòu)建和完善以質(zhì)量為導(dǎo)向的高??蒲性u(píng)價(jià)指標(biāo)體系與管理模式等方面具有重要意義。應(yīng)該看到,由于樣本數(shù)據(jù)總量較大,本研究在
圖2 聚類樹形圖(片斷)
頻次閾值的取值上相對(duì)較大,造成部分論文被排除在外,也許有部分研究熱點(diǎn)未顯現(xiàn)出來??梢?,研究對(duì)象的選擇、樣本數(shù)據(jù)的規(guī)范化處理、閾值的確定、聚類方法的選擇和統(tǒng)計(jì)的誤差等方面都可能會(huì)影響到分析結(jié)果的客觀性,這也是今后研究中值得推敲的關(guān)鍵所在。
參考文獻(xiàn)
[1]查先進(jìn).信息分析與預(yù)測(cè)[M].武漢:武漢大學(xué)出版社,2000:179-180.
[2]崔雷.當(dāng)年高被引論文的主題詞鏈聚類分析及其在情報(bào)預(yù)測(cè)中的應(yīng)用[J].情報(bào)學(xué)報(bào),1995,(5):368-373.
[3]盧紋岱.SPSS for Windows 統(tǒng)計(jì)分析(第二版)[M].北京:電子工業(yè)出版社,2002:338-374