邵燕霞 張文忠
【摘要】本文采用科學(xué)計量學(xué)的出版物統(tǒng)計、著者統(tǒng)計、詞頻分析等研究方法對CNKI收錄的查收查引研究文獻(xiàn)進(jìn)行計量分析并可視化呈現(xiàn),計量分析并可視化功能使用Python語言開發(fā)實現(xiàn)。闡述了查收查引研究現(xiàn)狀及研究內(nèi)容,確定了我校圖書館開發(fā)查收查引軟件的開發(fā)方案。
【關(guān)鍵詞】查收查引;CNKI;科學(xué)計量學(xué);計量分析;Python
查收查引服務(wù)是國內(nèi)圖書館提供信息服務(wù)工作的一項重要內(nèi)容,為團(tuán)體或個人提供論文收錄引用的檢索分析,并出具檢索收錄報告??蒲腥藛T在科研課題申報立項、基金資助、成果鑒定、獎勵申請、職稱評定等方面均需要提供論文檢索報告,檢索報告成為評測團(tuán)體或個人科研產(chǎn)出和水平的重要評價指標(biāo)。為了提高查收查引服務(wù)質(zhì)量和服務(wù)效率,國內(nèi)圖書館在查收查引服務(wù)的相關(guān)方面進(jìn)行了積極的探索研究和實踐,在網(wǎng)絡(luò)化、信息化和數(shù)字化的基礎(chǔ)上實現(xiàn)查收查引服務(wù)工作的高效高質(zhì)。華北電力大學(xué)圖書館為了更好地為用戶提供查收查引服務(wù),對查收查引研究現(xiàn)狀進(jìn)行了調(diào)研和分析,通過檢索CNKI數(shù)據(jù)庫有關(guān)查收查引方面的文獻(xiàn),利用Python語言對文獻(xiàn)進(jìn)行計量分析并可視化呈現(xiàn),確定查收查引服務(wù)的研究方向和研究內(nèi)容。
一、數(shù)據(jù)資源的獲取
利用CNKI中國知網(wǎng)數(shù)據(jù)庫期刊全文子庫的高級檢索,檢索策略為(主題詞:查收查引)OR(關(guān)鍵詞:代查代檢OR代檢代查OR代檢代查服務(wù)系統(tǒng)),共檢索到77篇文獻(xiàn),以Refworks格式導(dǎo)出46條題錄數(shù)據(jù),保存為*.xls文件,樣本時間為2003年至2018年。
根據(jù)題目、關(guān)鍵詞等信息內(nèi)容清洗數(shù)據(jù)后得到相關(guān)性較高的46篇論文,為了提高計量分析的準(zhǔn)確性,需要對關(guān)鍵詞字段內(nèi)容進(jìn)行消歧。由于WOK檢索平臺Web of Science引文數(shù)據(jù)庫包括SCI(Science Citation Index,科學(xué)引文索引)、SSCI(Social Science Citation Index,社會科學(xué)引文索引)、CPCI-S(科學(xué)技術(shù)會議索引,原ISTP)、CPCI-SSH(社會科學(xué)及人文科學(xué)會議索引,原ISSHP),因此,SCI、SSCI、CPCI-S、ISTP、CPCI-SSH、ISSHP均替換為WOS;EI Village、工程索引替換為EI;代檢代查替換為代查代檢。
由于受查收查引主題的限制,檢索到的數(shù)據(jù)量非常小,利用現(xiàn)有辦公軟件以及文獻(xiàn)管理軟件Word、Excel、EndNote、NoteExpress等即可以完成對數(shù)據(jù)進(jìn)行處理和統(tǒng)計。這里采用Python對文獻(xiàn)進(jìn)行分析,僅是對我校圖書館開發(fā)的查收查引科學(xué)計量分析可視化工具軟件的一個功能應(yīng)用的展示。
CNKI提供的Refworks格式題錄信息包含了論文收錄的基本信息,Python對文獻(xiàn)進(jìn)行計量分析從CNKI提供的Refworks格式題錄信息中提取了9個字段,題錄字段含義見表1。
二、開發(fā)環(huán)境
開發(fā)環(huán)境選擇64bit Anaconda for Windows Python2.7,Anaconda是一個軟件包管理器。Anaconda集成了超過1500個Python/R數(shù)據(jù)計算相關(guān)的包,可以節(jié)省很多安裝第三方包的時間;集成了Spyder作為Python語言的集成開發(fā)環(huán)境,可以高效地開發(fā)代碼。盡管用腳本模式比圖形用戶界面(GUI)更具挑戰(zhàn)性,但它強(qiáng)大的標(biāo)準(zhǔn)庫還是非常有吸引力的,而且編寫少量代碼即可實現(xiàn)對文獻(xiàn)的計量分析并以直觀的可視化圖形方式呈現(xiàn)給用戶。Python和R均是開放源代碼的通用語言,簡單易學(xué),代碼易于閱讀,具有解釋型、面向?qū)ο?、動態(tài)數(shù)據(jù)類型等特點,并且有龐大的標(biāo)準(zhǔn)庫支持,且?guī)椭臋n完備,在數(shù)據(jù)分析和數(shù)據(jù)挖掘方面都有比較專業(yè)和全面的模塊,很多常用的功能,如文本挖掘、計量統(tǒng)計、自然語言處理、網(wǎng)絡(luò)分析、可視化分析都有相應(yīng)的標(biāo)準(zhǔn)庫提供。基于Python開發(fā)的科學(xué)計量分析工具包metaknowledge和基于R開發(fā)的科學(xué)計量分析工具包Bibliometrix提供了科學(xué)計量分析的腳本參考,對使用Python實現(xiàn)科學(xué)計量分析解決工作中實際需求非常具有參考價值。
三、研究方法
由于CNKI數(shù)據(jù)庫沒有提供文獻(xiàn)的參考文獻(xiàn)及施引文獻(xiàn)數(shù)據(jù)下載渠道,提供的題錄數(shù)據(jù)字段內(nèi)容有限,因此采用科學(xué)計量學(xué)的出版物統(tǒng)計、著者統(tǒng)計、詞頻分析等研究方法對樣本數(shù)據(jù)進(jìn)行簡單的計量分析。由于選擇的“查收查引”主題范圍過小, 沒有采用科學(xué)計量學(xué)的共現(xiàn)分析方法對關(guān)鍵詞進(jìn)行共現(xiàn)分析,文中出現(xiàn)的關(guān)鍵詞共現(xiàn)表及共現(xiàn)圖僅表示關(guān)鍵詞之間共同出現(xiàn)的表面特征。計量分析的內(nèi)容包括題錄數(shù)據(jù)的出版年份頻次統(tǒng)計,作者數(shù)量統(tǒng)計及合作分析,關(guān)鍵詞頻次統(tǒng)計及共現(xiàn)分析。使用我校圖書館基于Python開發(fā)的查收查引科學(xué)計量分析可視化工具軟件對46條樣本題錄數(shù)據(jù)進(jìn)行計量統(tǒng)計并可視化呈現(xiàn)。
四、計量分析可視化
(一)年度發(fā)文量。2003-2018年發(fā)表的46篇文獻(xiàn)從提高工作效率及檢索質(zhì)量的實際工作需求出發(fā),在提高論文檢索質(zhì)量、利用現(xiàn)有工具提高查收查引服務(wù)效率、開發(fā)查收查引工具軟件、查收查引服務(wù)平臺及查收查引系統(tǒng)軟件等方面進(jìn)行了積極的探索研究和實踐,見表2。對查收查引的研究主要有四個方面,查收查引服務(wù)、開發(fā)系統(tǒng)軟件、開發(fā)檢索平臺、開發(fā)工具軟件,另外還涉及集體成果預(yù)測、數(shù)據(jù)庫檢索技巧、機(jī)構(gòu)知識庫建設(shè)等方面的研究內(nèi)容。2003-2013年發(fā)文量較少,2014-2018年發(fā)文量相對增加,其中2015年最多,2018年呈現(xiàn)上升趨勢。隨著用戶對查收查引的服務(wù)質(zhì)量和服務(wù)效率需求的進(jìn)一步提升,預(yù)測未來開發(fā)集成服務(wù)平臺和工具軟件模塊功能的查收查引服務(wù)全流程自動化系統(tǒng)軟件將成為查收查引研究的發(fā)展趨勢。
(二)作者合作關(guān)系。通過對46篇文獻(xiàn)題錄中作者字段的統(tǒng)計得到作者共93人,其中2人出現(xiàn)3次,9人出現(xiàn)2次,其余出現(xiàn)一次。7人與他人合作兩次,其他合作均為一次,生成作者合作關(guān)系表和合作關(guān)系圖,見表3和圖2。從作者合作關(guān)系表及關(guān)系圖可以看出,對查收查引研究的作者合作程度低,網(wǎng)絡(luò)結(jié)構(gòu)松散,作者之間溝通稀疏,沒有形成查收查引研究聯(lián)系廣泛、密切的合作模式,導(dǎo)致對查收查引研究成果相對分散。
(三)關(guān)鍵詞詞頻。消歧后對46篇文獻(xiàn)題錄中關(guān)鍵詞字段的統(tǒng)計得到關(guān)鍵詞123個,其中“查收查引”出現(xiàn)33次,
“高校圖書館”出現(xiàn)6次,“WOS”出現(xiàn)5次,“圖書館”出現(xiàn)4次。出現(xiàn)3次的有7個詞,出現(xiàn)2次的有11個詞,其余均出現(xiàn)一次,生成的關(guān)鍵詞詞云圖見圖3。從對關(guān)鍵詞詞云圖分析可以得出對查收查引的研究集中在高校圖書館及圖書館等機(jī)構(gòu);檢索的引文數(shù)據(jù)庫主要是WOS和EI;利用現(xiàn)有辦公軟件和文獻(xiàn)管理軟件以及開發(fā)查收查引軟件受到的關(guān)注度較高。關(guān)鍵詞中有一個“可視化分析”出現(xiàn),通過閱讀文獻(xiàn)了解到該文獻(xiàn)是對論文查收查引服務(wù)的研究文獻(xiàn)進(jìn)行可視化分析,并不是對查收查引檢索結(jié)果進(jìn)行可視化分析。關(guān)鍵詞中沒有出現(xiàn)其他有關(guān)對查收查引檢索結(jié)果可視化呈現(xiàn)的關(guān)鍵詞,因此,我校圖書館在開發(fā)查收查引工具軟件的功能實現(xiàn)中設(shè)計了對查收查引檢索結(jié)果可視化呈現(xiàn)的功能模塊,軟件實現(xiàn)了查收查引中需要整合數(shù)據(jù)、自引他引統(tǒng)計等重復(fù)性工作的自動完成,為查收查引報告提供了基礎(chǔ)數(shù)據(jù),并以可視化形式呈現(xiàn)收錄論文中用戶關(guān)心的關(guān)鍵信息。
(四)關(guān)鍵詞共現(xiàn)。通過對46篇文獻(xiàn)題錄中關(guān)鍵詞字段的統(tǒng)計得到關(guān)鍵詞123個,其中“查收查引”與“高校圖書館”
“圖書館”共現(xiàn)4次,與“引證檢索”“WOS”共現(xiàn)3次,生成關(guān)鍵詞共現(xiàn)表和共現(xiàn)圖,見表4和圖4。通過關(guān)鍵詞共現(xiàn)表及共現(xiàn)圖可以看出查收查引服務(wù)工作與高校圖書館與圖書館密切相關(guān);引文數(shù)據(jù)庫、文獻(xiàn)管理軟件、辦公軟件、開發(fā)語言、數(shù)據(jù)庫平臺等方面的關(guān)鍵詞與開發(fā)查收查引系統(tǒng)、工具軟件、服務(wù)平臺的研究有關(guān),查收查引工作流程自動化研究產(chǎn)生了多個研究流。
五、小結(jié)
通過對查收查引服務(wù)研究文獻(xiàn)的計量分析和可視化呈現(xiàn),揭示了查收查引服務(wù)的研究現(xiàn)狀,確定了我校圖書館開發(fā)查收查引工具軟件的研究方向和研究內(nèi)容。得出的結(jié)論主要有以下幾點:(1)年度發(fā)文量顯示查收查引研究文獻(xiàn)數(shù)量呈增長態(tài)勢,受到的關(guān)注度呈上升趨勢。(2)作者合作網(wǎng)絡(luò)結(jié)構(gòu)松散,作者之間溝通稀疏,揭示了查收查引研究合作空間很大,蘊(yùn)含著進(jìn)一步擴(kuò)大合作范圍、加強(qiáng)合作強(qiáng)度的潛能。(3)關(guān)鍵詞詞頻統(tǒng)計顯示對查收查引的研究集中在高校圖書館及圖書館等機(jī)構(gòu)。(4)關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò)顯示開發(fā)查收查引系統(tǒng)、工具軟件、服務(wù)平臺研究的關(guān)鍵詞與查收查引密切聯(lián)系,查收查引工作流程自動化研究產(chǎn)生了多個研究流。(5)目前沒有針對查收查引檢索結(jié)果可視化呈現(xiàn)的文獻(xiàn)。
綜上所述,隨著信息技術(shù)、網(wǎng)絡(luò)技術(shù)、計算機(jī)技術(shù)的發(fā)展查收查引的服務(wù)質(zhì)量和服務(wù)效率會進(jìn)一步提升,查收查引服務(wù)流程自動化程度會越來越高,人工承擔(dān)的繁瑣重復(fù)性工作逐漸被軟件系統(tǒng)替代,預(yù)測未來開發(fā)查收查引服務(wù)全流程自動化的系統(tǒng)軟件將成為查收查引研究的發(fā)展趨勢。
【參考文獻(xiàn)】
[1]梁紅妮,胡小飛.論文查收查引服務(wù)的分析與探討[J].情報理論與實踐,2009,32(04):96-99.
[2]李曉東,盧振波.論文查收查引工具軟件的設(shè)計與實現(xiàn)[J].大學(xué)圖書館學(xué)報,2005(01):49-50+62.
[3]McLevey John,McIlroy-Young Reid.metaknowledge Software for computational research in information science, network analysis, and science of science[J].JOURNAL OF INFORMETRICS.2017,11(1):176-197.
[4]Aria Massimo,Cuccurullo Corrado.bibliometrix:An R-tool for comprehensive science mapping analysis[J].JOURNAL OF INFORMETRICS.2017,11(4):959-975.
[5]邱均平,趙蓉英,董克等.科學(xué)計量學(xué)[M].北京:科學(xué)出版社,2016.
[6]賀穎,賀玢.我國查收查引服務(wù)研究可視化分析[J].電腦知識與技術(shù),2018,14(05):9-12.