許潔 梁國(guó)慶 杜化榮
〔摘 要〕本文以年度外文電子資源建設(shè)評(píng)價(jià)為目標(biāo),以SCI文獻(xiàn)的引文分析為切入點(diǎn),以數(shù)據(jù)庫(kù)技術(shù)、爬蟲技術(shù)、SQL語(yǔ)言為基礎(chǔ),以.NET架構(gòu)的C#開發(fā)構(gòu)建了基于WOS引文分析的定向自動(dòng)挖掘分析系統(tǒng),并測(cè)試運(yùn)行,所得數(shù)據(jù)準(zhǔn)確,對(duì)分析用時(shí)和易用性較DDA或Citespace方式有一定優(yōu)勢(shì)。本研究在一定程度上解決了專業(yè)分析人員及經(jīng)費(fèi)不足所帶來(lái)的問(wèn)題,使非專業(yè)人員也能快速獲取基本分析數(shù)據(jù)。
〔關(guān)鍵詞〕引文分析;引文挖掘;數(shù)據(jù)挖掘;SQL;爬蟲技術(shù);C#開發(fā);分析系統(tǒng);資源建設(shè)評(píng)價(jià)
DOI:10.3969/j.issn.1008-0821.2018.06.015
〔中圖分類號(hào)〕G254 〔文獻(xiàn)標(biāo)識(shí)碼〕A 〔文章編號(hào)〕1008-0821(2018)06-0099-07
〔Abstract〕This paper aimed at the evaluation of the construction of the librarys foreign language electronic resources,took the citation analysis of SCI literature as the breakthrough point,based on the database technology,SQL language,and the C# development of the.NET framework,constructing a directional automatic mining analysis system based on WOS citation analysis.And test ran.The Results were accurate,the time of analysis and the intensity of work were greater than that of DDA or Citespace,to a certain extent.This was a good solution to the problems of professional analysts and lack of funds.It also enabled non professionals to quickly obtain basic analytical data.
〔Key words〕citation analysis;citation mining;data mining;SQL;crawler technology;C# development;analysis system;resources construction evaluation
作為一所現(xiàn)代教育體制下的中醫(yī)類高校,在建設(shè)“雙一流”以及地方高水平大學(xué)的政策驅(qū)動(dòng)下,在基于論文和課題的科研績(jī)效考核體系下,圖書館資源建設(shè)只有和學(xué)科服務(wù)緊密結(jié)合,才可能對(duì)專業(yè)文獻(xiàn)資源有相當(dāng)?shù)牧私庖约皩?duì)國(guó)內(nèi)外的最新學(xué)術(shù)動(dòng)向和科研成果予以關(guān)注[1]。因此,要提升本校的科研實(shí)力,就必須要對(duì)圖書館的資源做出梳理和優(yōu)化。
那么,如何梳理和優(yōu)化呢?一般來(lái)說(shuō),首先要對(duì)圖書館現(xiàn)有資源建設(shè)做出一個(gè)科學(xué)的評(píng)價(jià)。而評(píng)價(jià)的本質(zhì)就在于,用戶的需求是否得到滿足。而利用引文分析法進(jìn)行用戶研究是了解用戶需求的一種重要途徑[2-3],而用戶滿意度的實(shí)質(zhì),就在于2個(gè)核心數(shù)值,一是科研中的文獻(xiàn)保障率;二是資源的有效利用率。
這兩個(gè)數(shù)值的獲取,就需要對(duì)學(xué)校歷年的論文進(jìn)行基于參考文獻(xiàn)(引文)的梳理、統(tǒng)計(jì)、以及分析。目前,論文的挖掘分析基本基于2種模式:一是利用數(shù)據(jù)庫(kù)平臺(tái)所提供的一些固有的統(tǒng)計(jì)分析功能,再加上人工篩選和分析。例如Web of Science平臺(tái)引文分析主要是對(duì)檢索結(jié)果中的作者、國(guó)家/地區(qū)、文獻(xiàn)類型、基金資助機(jī)構(gòu)、機(jī)構(gòu)擴(kuò)展、出版年、研究方向、來(lái)源出版物、Web of Science類別等多個(gè)分析指標(biāo)進(jìn)行統(tǒng)計(jì)分析[4],而如果要基于每個(gè)學(xué)校的不同狀況,不同的目的,進(jìn)行個(gè)性化分析時(shí),就顯得力不從心了;二是人工借助一些自動(dòng)化軟件進(jìn)行,比如人工數(shù)據(jù)篩選和清洗,外加一些數(shù)據(jù)分析軟件,例如CiteSpace、Bicomb或者DDA等,進(jìn)行自定義分析。
很多情況下,這樣確實(shí)能獲得所需要的數(shù)據(jù)。但是,這種解決方案卻存在著兩個(gè)問(wèn)題:第一,通用數(shù)據(jù)分析軟件,對(duì)個(gè)性化分析要求較高,一般只有情報(bào)學(xué)專業(yè)或有一定數(shù)據(jù)分析基礎(chǔ)的專業(yè)學(xué)科館員才能操作。對(duì)于中醫(yī)院校而言,這樣的學(xué)科館員并不像綜合性大學(xué)那樣普遍,在人手不夠的情況下,這樣的工作往往來(lái)不及做,其他館員愛莫能助;第二,每年需要的數(shù)據(jù)采樣、噪聲處理、數(shù)據(jù)加工,乃至最后所生成的結(jié)果數(shù)據(jù)往往都是相對(duì)固定的。對(duì)于學(xué)科館員來(lái)說(shuō),每年要花大量的時(shí)間重復(fù)這樣的一系列動(dòng)作去獲取一些基礎(chǔ)分析數(shù)據(jù),在某種情況下,是對(duì)其專業(yè)能力的一種浪費(fèi),他們應(yīng)該花更多的時(shí)間和精力去基于這些基礎(chǔ)數(shù)據(jù)做一些深層次的分析、預(yù)測(cè)以及報(bào)告。
在這種情況下,將一些對(duì)專業(yè)要求不高的數(shù)據(jù)采集工作交由普通館員,再將一系列重復(fù)的動(dòng)作剝離出來(lái),使采集數(shù)據(jù)的清理、基礎(chǔ)分析、統(tǒng)計(jì)、以及報(bào)表輸出工作以編程技術(shù)加以自動(dòng)化實(shí)現(xiàn),是一種較好的解決方式。
這種系統(tǒng)旨在最大限度地減少人工參與,提高工作效率[5],即在獲得標(biāo)準(zhǔn)輸入的情況下(比如每年從數(shù)據(jù)庫(kù)商處獲得的年度期刊列表),就能將每年圖書館需要的個(gè)性化數(shù)據(jù)和分析結(jié)果進(jìn)行文本或圖表輸出,進(jìn)而為學(xué)科館員的進(jìn)一步分析或者高層決策提供基礎(chǔ)支持。
1 理論及模型研究
如緒論所言,對(duì)圖書館資源建設(shè)評(píng)價(jià)的目的,就是對(duì)館藏資源的梳理和優(yōu)化,其實(shí)質(zhì)就是通過(guò)引文分析,獲取科研中的文獻(xiàn)保障率以及資源的有效利用率。
以SCI發(fā)文的引文分析為例,以這兩個(gè)值為核心,在分析中可以得到期刊的引用排名,由此可以得到高頻被引期刊及所占百分比,再由此可以獲得其SCI占比、ESI學(xué)科分布、SCI分區(qū)分布、年份分布等基礎(chǔ)分析數(shù)據(jù)。
要實(shí)現(xiàn)以上目標(biāo)的自動(dòng)化統(tǒng)計(jì)分析,首先要對(duì)科研文獻(xiàn)保障率以及資源有效利用率這兩個(gè)核心數(shù)值進(jìn)行概念定義并建立數(shù)學(xué)模型。
1.1 科研文獻(xiàn)保障率模型的建立
科研文獻(xiàn)保障率,一般包括兩層含義。
一是能在我校數(shù)據(jù)庫(kù)獲取到全文的論文引文所在期刊的數(shù)量,和論文引文所在的所有期刊數(shù)量的比值,一般稱之為引文期刊保障率。
二是能在我校數(shù)據(jù)庫(kù)獲取到全文的論文引文次數(shù),和論文引文總次數(shù)的比值,一般稱之為引次保障率。常用的是引文期刊保障率,這里用d表示,推導(dǎo)過(guò)程如下:
設(shè)一篇論文引文數(shù)量為C,能在某一全文型數(shù)據(jù)庫(kù)中(設(shè)為DB)獲取的引文數(shù)為c,這篇論文在DB中的文獻(xiàn)保障率就是d1=c/C。
如果設(shè)年度發(fā)文量為n,那么,DB對(duì)機(jī)構(gòu)論文發(fā)文的年度保障率d2就是:
由于不可能去手動(dòng)查詢每一篇引文獲取與否,以上概念經(jīng)適當(dāng)變換,基于現(xiàn)有的條件,可以將引文所在期刊的列表和我校數(shù)據(jù)庫(kù)所提供的期刊列表進(jìn)行一一匹配,經(jīng)過(guò)計(jì)算,同樣能獲取這一值。
這樣,對(duì)引文文獻(xiàn)保障率描述就能等效變換為:
能在某一全文數(shù)據(jù)庫(kù)獲取到全文的論文引文所在期刊的數(shù)量,和論文引文所在的所有期刊數(shù)量的比值,即引文期刊保障率。
基于以上變換,設(shè)單一全文型數(shù)據(jù)庫(kù)的期刊集合為DBJ,我校所有全文型數(shù)據(jù)庫(kù)所含期刊集合為UDBJ,機(jī)構(gòu)所有全文型數(shù)據(jù)庫(kù)數(shù)量為k,那么:
進(jìn)而,引文期刊保障率即:
其中JQ為引文所在的所有期刊的集合。
1.2 館藏電子期刊資源利用率的模型建立
該指標(biāo)能有效反映我校數(shù)據(jù)庫(kù)對(duì)論文引文獲取的貢獻(xiàn)效率,即我校數(shù)據(jù)庫(kù)所收錄的期刊里面真正對(duì)科研論文發(fā)文有效的是否多,我校購(gòu)買數(shù)據(jù)庫(kù)所付出的,和所得到的是否具有性價(jià)比。該指標(biāo)越高,說(shuō)明該數(shù)據(jù)庫(kù)的利用率就越高、越具有性價(jià)比。
同樣,由于不可能去手動(dòng)查詢每一篇引文獲取與否,以上概念經(jīng)適當(dāng)變換,基于現(xiàn)有的條件,可以將引文所在期刊的列表和我校的全文數(shù)據(jù)庫(kù)所提供的期刊列表進(jìn)行一一匹配,經(jīng)過(guò)計(jì)算,同樣能獲取這一值。
這樣,對(duì)館藏電子期刊利用率的描述就能等值變換為:能在某一數(shù)據(jù)庫(kù)獲取到全文的論文引文所在期刊的數(shù)量,和該數(shù)據(jù)庫(kù)所含所有期刊數(shù)量的比值。
基于以上變換,一般情況下以SCI發(fā)文為例建立“館藏資源有效利用率”的模型:
同1.2章節(jié)一樣,這里的UDBJ是全校每一個(gè)全文數(shù)據(jù)庫(kù)期刊列表的并集,JQ為引文所在的所有期刊的集合。
1.3 其他基礎(chǔ)分析數(shù)據(jù)模型的引入
要完整的評(píng)價(jià)館藏資源的結(jié)構(gòu),僅依靠科研文獻(xiàn)保障率以及資源有效利用率這兩個(gè)核心數(shù)據(jù)模型是遠(yuǎn)遠(yuǎn)不夠的。在分析過(guò)程中,以此2項(xiàng)為核心,需要建立起一整套評(píng)價(jià)數(shù)據(jù)體系。
從實(shí)際需求出發(fā),在分析中需要引入論文引文期刊的引用排名數(shù)據(jù),得出引入高頻被引期刊及所占百分比,再由此可以獲得高頻被引期刊的SCI占比、ESI學(xué)科分布、SCI分區(qū)分布、引用年份分布、ESI學(xué)科分布,以及基于ESI學(xué)科的科研文獻(xiàn)保障率等基礎(chǔ)分析數(shù)據(jù)。
其中,期刊引用的排名對(duì)圖書館電子資源的采購(gòu)有以下作用:排名很靠前,同時(shí)又屬于圖書館收錄范圍但卻沒有購(gòu)買的期刊,應(yīng)仔細(xì)考察,分析沒有購(gòu)買的原因;排名非常靠后,但卻被圖書館收藏的期刊,應(yīng)慎重考察,這類期刊的利用率可能比較低,為了提高經(jīng)費(fèi)的利用率,經(jīng)調(diào)研之后看是否有必要繼續(xù)訂購(gòu)這類期刊[6]。
而引文量是指論文引用的參考文獻(xiàn)篇次數(shù),它能從側(cè)面反映作者對(duì)他人科研成果的吸收情況和論文質(zhì)量[7]。對(duì)引文年代進(jìn)行統(tǒng)計(jì)分析有助于了解期刊老化規(guī)律及利用的最佳時(shí)期,能夠?yàn)榇_定期刊保存年限、調(diào)整館藏期刊布局提供重要依據(jù)[8]。在高被引期刊分析中,一般將被引量在5次以上(含5次)的期刊列為高被引期刊[7]。而被引期刊的SCI占比從某種程度上反映了在領(lǐng)域內(nèi)的研究層次。
2 數(shù)據(jù)挖掘及分析自動(dòng)機(jī)的實(shí)現(xiàn)
以上章節(jié)論述了對(duì)電子資源評(píng)價(jià)的思路,以及在評(píng)價(jià)過(guò)程中所運(yùn)用到的基于引文分析的研究方法。進(jìn)而在這個(gè)方法中分析了所需的若干基礎(chǔ)數(shù)據(jù)模型及其意義和算法。
基于這些數(shù)據(jù)模型和算法,就能運(yùn)用編程技術(shù)將其挖掘和統(tǒng)計(jì)過(guò)程實(shí)現(xiàn)自動(dòng)化。從而在圖書館資源建設(shè)的評(píng)價(jià)、梳理和優(yōu)化的實(shí)施過(guò)程中達(dá)到本文開始所希望的兩個(gè)目的:1)將一部分基礎(chǔ)的數(shù)據(jù)收集工作分配給普通館員甚至學(xué)生,并使這些非專業(yè)的人員能夠方便地使用本軟件,在短時(shí)間內(nèi)獲得引文分析的基礎(chǔ)數(shù)據(jù)。2)將專業(yè)學(xué)科館員從繁瑣的重復(fù)勞動(dòng)中間解放出來(lái),把更多的精力投入對(duì)以上這些基礎(chǔ)數(shù)據(jù)的深層分析中去。
本文以館藏外文期刊數(shù)據(jù)庫(kù)以及上年度我校SCI發(fā)文為基礎(chǔ),構(gòu)建基于我校SCI發(fā)文的引文分析自動(dòng)機(jī)系統(tǒng)。
2.1 整體設(shè)計(jì)
根據(jù)需求,系統(tǒng)界面設(shè)計(jì)要適合非專業(yè)人員使用,因此盡量以簡(jiǎn)潔的扁平化區(qū)塊分布,并以CS架構(gòu)構(gòu)建Windows桌面應(yīng)用程序。
系統(tǒng)以Windows Server 2016為服務(wù)端,以SQL SERVER 2012為服務(wù)端數(shù)據(jù)庫(kù),客戶端軟件環(huán)境只需Windows XP以上操作系統(tǒng),具備校內(nèi)網(wǎng)絡(luò)條件即可。
在編程上,系統(tǒng)使用.NET架構(gòu),基于C#,以爬蟲技術(shù)、統(tǒng)計(jì)算法配合SQL,實(shí)現(xiàn)系統(tǒng)的大部分功能、算法以及數(shù)據(jù)的輸入輸出。
根據(jù)目標(biāo)用戶的界定,以目標(biāo)用戶為視角,系統(tǒng)的業(yè)務(wù)流程如圖1所示:
根據(jù)業(yè)務(wù)流程,整個(gè)自動(dòng)機(jī)系統(tǒng)分為3個(gè)模塊,分別是數(shù)據(jù)采集整理模塊、數(shù)據(jù)分析模塊以及結(jié)果導(dǎo)出模塊。如圖2。
2.2 數(shù)據(jù)庫(kù)設(shè)計(jì)
數(shù)據(jù)庫(kù)基于SQLServer構(gòu)建,將導(dǎo)入原始數(shù)據(jù)分別設(shè)計(jì)成四張?jiān)紨?shù)據(jù)表,分別為wostable、jcrtable、esitable以及dbtable?;谶@4張基礎(chǔ)表,通過(guò)SQL對(duì)其進(jìn)行整理、合并、噪聲處理,由此生成3張進(jìn)一步分析數(shù)據(jù)所需衍生表,基于這3張衍生表,和之前4個(gè)基礎(chǔ)表的不同組合,通過(guò)SQL的設(shè)計(jì)以及算法,進(jìn)行多表多維度數(shù)據(jù)分析,可以獲取本文所需的所有基礎(chǔ)分析數(shù)據(jù)以及數(shù)據(jù)視圖。數(shù)據(jù)庫(kù)建模和相互關(guān)系圖如圖3。
2.3 實(shí)現(xiàn)邏輯和算法
根據(jù)2.1章節(jié)論述,整個(gè)自動(dòng)機(jī)系統(tǒng)包括3個(gè)模塊,分別是數(shù)據(jù)采集導(dǎo)入模塊、數(shù)據(jù)整理分析模塊,以及結(jié)果導(dǎo)出模塊。下面分別就3個(gè)模塊的功能及其實(shí)現(xiàn)的算法、SQL查詢及技術(shù)難點(diǎn)進(jìn)行論述。
2.3.1 數(shù)據(jù)挖掘?qū)肽K。
該模塊是系統(tǒng)的輸入模塊,需要引導(dǎo)用戶輸入4個(gè)基礎(chǔ)數(shù)據(jù),分別為WOS的全記錄及參考文獻(xiàn)數(shù)據(jù)、JCR的期刊全稱簡(jiǎn)稱以及分區(qū)數(shù)據(jù)、ESI的期刊學(xué)科類型數(shù)據(jù)以及現(xiàn)有館藏資源數(shù)據(jù)。
其中,前3項(xiàng)可以在相應(yīng)的網(wǎng)站通過(guò)特定鏈接下載獲取,而第4項(xiàng)館藏電子資源數(shù)據(jù),則需要基于各個(gè)數(shù)據(jù)庫(kù)廠商所提供的期刊列表,根據(jù)給定Excel格式合并而成。
對(duì)于需要由數(shù)據(jù)庫(kù)商提供期刊列表并經(jīng)人工合并而導(dǎo)入的數(shù)據(jù),系統(tǒng)需要給出標(biāo)準(zhǔn)格式引導(dǎo)用戶按給定格式制作數(shù)據(jù)表;而需要由網(wǎng)站,經(jīng)過(guò)人工過(guò)濾而下載獲取的標(biāo)準(zhǔn)化數(shù)據(jù),則可以經(jīng)過(guò)瀏覽器的開發(fā)工具對(duì)檢索和下載過(guò)程中的Post和Get通信數(shù)據(jù)流進(jìn)行截取和抓包,分析其表頭、Cookie、請(qǐng)求表單、響應(yīng)數(shù)據(jù)后,通過(guò)爬蟲技術(shù)將這一過(guò)程自動(dòng)化。
爬蟲以HttpWebRequest為基類,構(gòu)建數(shù)據(jù)訪問(wèn)層DAL的操作類RequestHelper。以RequestHelper類構(gòu)建實(shí)體Request,在Request中構(gòu)造請(qǐng)求表單、Cookie,再以Post方法提交給遠(yuǎn)端服務(wù)器,獲得服務(wù)器302響應(yīng)后,將數(shù)據(jù)流合并寫入文件。調(diào)用專用文件操作類,打開文件逐條讀取后,調(diào)用DAL層的數(shù)據(jù)庫(kù)操作類,寫入數(shù)據(jù)庫(kù)表備用。
由此,本文認(rèn)為在自動(dòng)機(jī)所需要獲取的4張基礎(chǔ)表中,除了已購(gòu)數(shù)據(jù)庫(kù)期刊表dbtable之外,其余3張基礎(chǔ)數(shù)據(jù)表都可以通過(guò)爬蟲一鍵獲取后直接導(dǎo)入數(shù)據(jù)庫(kù)。其中,WOS的爬取關(guān)鍵在于http數(shù)據(jù)流的分析以及sid(會(huì)話識(shí)別號(hào))、qid(查詢識(shí)別號(hào))的識(shí)別和獲?。籎CR爬取的關(guān)鍵是期刊分區(qū)信息的重復(fù)性,以及在基于issn的去重的同時(shí)進(jìn)行分區(qū)信息的合并。
爬蟲技術(shù)的運(yùn)用,極大的減少了數(shù)據(jù)采集和整理的工作強(qiáng)度和專業(yè)難度,使得非專業(yè)的圖書館館員,甚至勤工助學(xué)的學(xué)生,在不經(jīng)過(guò)專門培訓(xùn)的情況下,也可以方便的幫助學(xué)科館員采集整理基礎(chǔ)數(shù)據(jù)。系統(tǒng)界面如圖4。
2.3.2 數(shù)據(jù)整理和分析模塊
數(shù)據(jù)分析和統(tǒng)計(jì)模塊是本自動(dòng)機(jī)系統(tǒng)的核心模塊,所有的數(shù)據(jù)模型都在該模塊通過(guò)統(tǒng)計(jì)、分析、計(jì)算,最終得出結(jié)論。
系統(tǒng)首先要將在模塊一中所獲得的wostable中的數(shù)據(jù)進(jìn)行初步的歸集和整理,以獲得自動(dòng)機(jī)所需要的格式化的、歸一化的引文刊次信息和引文期刊信息。
第一步,讀取數(shù)據(jù)庫(kù)wostable表中的CR字段,分析字符串后,以“;”分割所有引用次數(shù),形成有若干個(gè)元素的一維String數(shù)組,設(shè)為Cite1[i]。對(duì)Cite1[i]進(jìn)行循環(huán),對(duì)其每個(gè)元素再以“,”再分割成若干個(gè)元素的一維String數(shù)組,設(shè)為Cite2[j]。再對(duì)Cite2[j]循環(huán)匹配,獲得期刊名和引用年份后調(diào)用DAL層的數(shù)據(jù)庫(kù)操作類,寫入數(shù)據(jù)庫(kù)表citetable備用。將此過(guò)程在Helper類中定義為CreateCitetable()方法。
第二步,對(duì)citetable、jcrtable、esitable進(jìn)行多表組合查詢,以citetable為基礎(chǔ),將jcrtable中的期刊全稱fulljname、issn以及分區(qū)信息Q進(jìn)行整合,形成引用刊次詳情表citedetail。其SQL語(yǔ)句如下:
insert into citedetail(jname,citeyear,year) select jname,citeyear,year from citetable;
update citedetail set citedetail.fulljname=jcrtable.fulljname,citedetail.issn=jcrtable.issn,citedetail.Q=jcrtable.Q,citedetail.[IF]=jcrtable.[IF]from citedetail,jcrtable where citedetail.jname=jcrtable.jname;
update citedetail set citedetail.type=esitable.type from citedetail,esitable where citedetail.issn=esitable.issn;
此過(guò)程中,并不是所有記錄都能匹配到issn以及fulljname的,原因在于并不是所有的引文期刊都被SCI和JCR收錄,即凡是匹配到issn的期刊,都是SCI和JCR收錄期刊。此過(guò)程在Helper類中定義為CreateCitedetail()方法。
第三步,對(duì)citedetail表,基于jname分組統(tǒng)計(jì)后獲得基于jname的頻次數(shù)據(jù),并對(duì)jname去重,由此形成引用期刊信息表cjtable。其SQL語(yǔ)句如下:
Insert into cjtable(jname,fulljname,issn,Q,type,times,[IF],year) select jname,fulljname,issn,Q,type,count(jname) as times,[IF],year from citedetail group by jname,fulljname,issn,Q,type,[IF],year;
此過(guò)程在Helper類中定義為CreateCjtable()方法。
由此,所有的基礎(chǔ)表、中間表均已完備,數(shù)據(jù)整理完成,接下來(lái),基于以上的數(shù)據(jù)表進(jìn)行組合分析查詢獲取中間數(shù)據(jù),再經(jīng)由程序算法處理,獲取目標(biāo)數(shù)據(jù)。
例1:如需要獲得所有SCI引刊在我校已購(gòu)?fù)馕臄?shù)據(jù)庫(kù)的收錄和未收錄情況匯總,這種情況下,就需要進(jìn)行cjtable和dbtable的多表聯(lián)合查詢,SQL語(yǔ)句為:
select case when dbname is null then‘nullelse dbname end,count(case when dbname is null then‘noelse dbname end) as 收錄量 from(Select distinct cjtable.jname,fulljname,dbtable.ISSN,[IF],[Q],dbname from cjtable left join dbtable on cjtable.issn=dbtable.issn where cjtable.issn is not null) as t group by dbname;
程序獲取該查詢表后,在datagrid容器顯示,或經(jīng)由導(dǎo)出模塊導(dǎo)出成Excel文檔或者柱狀圖,供學(xué)科館員參考分析。
例2:以cjtable和dbtable為基礎(chǔ),進(jìn)行組合查詢,獲取文獻(xiàn)保障率和資源利用率。根據(jù)第1.1章節(jié)所述,SCI文獻(xiàn)保障率UD。
UD=JQ∩UDBJJQ×100%
其中JQ為引文期刊的總集合,即cjtable表;UDBJ為學(xué)校所購(gòu)?fù)馕臄?shù)據(jù)庫(kù)期刊總集合,即dbtable表。于是,JQ∩UDBJ的SQL為:
Select count(id) as cjq from cjtable where issn in(select issn from dbtable) and issn<>″;
接下來(lái),JQ,就是在cjtable中有issn的,即引文期刊為sci期刊的數(shù)量,其SQL為:
Select count(*) from cjtable where issn<>″;
程序獲得這兩個(gè)數(shù)值后進(jìn)行計(jì)算并進(jìn)行字符串格式化,并將百分比顯示在客戶端界面。
進(jìn)一步的,由文獻(xiàn)保障率的計(jì)算,可以引申出一系列周邊數(shù)據(jù)的獲取,如:被引用較多但在我校尚未購(gòu)買的期刊,其SQL為:
Select* from cjtable where issn not in(select dbtable.issn from cjtable,dbtable where cjtable.issn=dbtable.issn) and times>=5 order by times desc;
由以上可知,幾乎所有的分析統(tǒng)計(jì)功能通過(guò)SQL輔以程序計(jì)算,都能獲得結(jié)果,因此,將這些SQL語(yǔ)句和算法封裝成Helper類中的靜態(tài)方法,并在Winform窗體中的按鈕點(diǎn)擊事件中進(jìn)行不同的組合調(diào)用,即能實(shí)現(xiàn)所需要的引文分析的各項(xiàng)數(shù)據(jù)結(jié)果。如圖5。
2.3.3 結(jié)果導(dǎo)出模塊
在本系統(tǒng)中,結(jié)果一般以3種形式呈現(xiàn):文本、列表、圖。
一般而言,文本輸出以事先編輯好的格式化文本內(nèi)容為基礎(chǔ),在內(nèi)容中以變量替代數(shù)據(jù),運(yùn)行時(shí)結(jié)合實(shí)時(shí)分析數(shù)據(jù)合并成統(tǒng)計(jì)結(jié)果概要輸出。如圖5所示。
列表以DataGrid數(shù)據(jù)容器綁定分析函數(shù)返回的Datatable數(shù)據(jù)類后顯示。如圖6。
圖表以Chart控件綁定分析函數(shù)返回的Datatable數(shù)據(jù)類后,輔以chart屬性對(duì)應(yīng)datatable值后,以不同形式顯示在chart控件的area中。如圖7。
而導(dǎo)出一般針對(duì)表格或圖形數(shù)據(jù),導(dǎo)出形式一般為基于Excel的圖表。實(shí)現(xiàn)方式上,系統(tǒng)引用了Excel Library組件作為Excel讀寫的基礎(chǔ)。在顯示窗體上外加導(dǎo)出按鈕,在按鈕點(diǎn)擊事件中調(diào)用Excel Library的方法生成目標(biāo)文件。
3 軟件測(cè)試及結(jié)論
以下文字主體由本系統(tǒng)根據(jù)實(shí)時(shí)統(tǒng)計(jì)結(jié)果自動(dòng)生成。部分出于論文論述需要稍加整理或添加得出:
以上海中醫(yī)藥大學(xué)、2016年兩個(gè)條件使自動(dòng)機(jī)爬取SCIe發(fā)文全記錄及參考文獻(xiàn),共589篇SCI文獻(xiàn);又以2016年為條件,爬取JCR分區(qū)信息和影響因子,合并4個(gè)文件共14 254條記錄,以issn去重的同時(shí)合并分區(qū)信息后共11 483條記錄;再爬取ESI期刊學(xué)科信息共11 520條記錄。這里可以看出,SCI、JCR、ESI的記錄數(shù)總體是相差不大的。最后將我校所購(gòu)買的Medline、Springer、ScinceDriect、OVID等外文數(shù)據(jù)庫(kù)合并后獲得5 968條期刊信息。
在此基礎(chǔ)上,獲取了589篇SCI論文的22 513次引用,涉及期刊4 237種,其中SCI及JCR收錄期刊為2 356種,4 237種期刊中高頻引用(引用次數(shù)≥5)期刊848種,其中高頻SCI期刊784種。高頻SCI期刊中我校數(shù)據(jù)庫(kù)未涵蓋310種,高頻SCI期刊保障率為60.5%。
784種高頻SCI引刊中,引用次數(shù)最多的是PLOS ONE、J BIOL CHEM,引次分別達(dá)到407次、324次;310種未購(gòu)買的高頻SCI引刊中,引次最多的是J BIOL CHEM和P NATL ACAD SCI USA,引次分別達(dá)到324次、253次。
所有22 513次引用中,涉及學(xué)科21種,ESI學(xué)科引次分布圖見圖7,其中非ESI期刊引用為3 210次。最多引用學(xué)科為CLINICAL MEDICINE(臨床醫(yī)學(xué)),達(dá)到6 573次。
所有引用中,最早引用為1816年,引用最多在2013年和2014年,分別達(dá)到2 164次和2 339次。
最后涉及引用的SCI及JCR期刊數(shù)量為2 356種,我校數(shù)據(jù)庫(kù)可獲取的有1 397種,總的SCI引文期刊保障率為59.3%。另外,由于存在1個(gè)期刊被多個(gè)數(shù)據(jù)庫(kù)收錄的情況,將5 968條信息去重處理后,我校所有外文期刊購(gòu)買量為5 154種,外文電子期刊的資源利用率為27.1%。
以上為本系統(tǒng)試運(yùn)行分析結(jié)果數(shù)據(jù),對(duì)標(biāo)同樣以相關(guān)數(shù)據(jù)在DDA(原TDA)中分析結(jié)果來(lái)看,相關(guān)數(shù)據(jù)偏差率低于1%,數(shù)據(jù)結(jié)果基本準(zhǔn)確可信,但使用本系統(tǒng),使得學(xué)科館員的工作時(shí)間強(qiáng)度大大縮減,重要的是,由于本系統(tǒng)友好極簡(jiǎn)的操作界面,簡(jiǎn)易的使用難度,高效的運(yùn)算效率,使得非專業(yè)人員也能快速掌握相關(guān)統(tǒng)計(jì)數(shù)據(jù),在專業(yè)學(xué)科館員數(shù)量緊缺的中醫(yī)類院校乃至其他專業(yè)類小型機(jī)構(gòu),顯得更具價(jià)值。
參考文獻(xiàn)
[1]曹進(jìn)軍.學(xué)科服務(wù)視角下資源評(píng)價(jià)與資源建設(shè)聯(lián)動(dòng)模式研究[J].現(xiàn)代情報(bào),2017,37(4):103-107.
[2]邱均平.信息計(jì)量學(xué)[M].武漢:武漢大學(xué)出版社,2007.
[3]李峰,涂文波.基于重點(diǎn)學(xué)科引文分析的我國(guó)高校人文社會(huì)科學(xué)外文文獻(xiàn)保障率研究[J].圖書情報(bào)工作,2013,57(2):64-69.
[4]穆亞鳳,都平平,齊近圖,等.基于引文分析工具的學(xué)科發(fā)展態(tài)勢(shì)研究[J].現(xiàn)代情報(bào),2017,37(3):126-131.
[5]張素芳,宋虎.論文引文檢索與分析自動(dòng)化系統(tǒng)的構(gòu)建[J].數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn),2014,30(1):92-96.
[6]張?jiān)?,高彥靜,謝智敏.基于引文分析法的外文電子期刊館藏結(jié)構(gòu)優(yōu)化研究[J].圖書情報(bào)導(dǎo)刊,2014,(20):1-3.
[7]李海霞.基于引文分析的圖書館期刊資源建設(shè)策略研究——以哈爾濱工程大學(xué)圖書館為例[J].圖書館建設(shè),2011,(8):43-45.
[8]馬建華.引文分析在圖書館文獻(xiàn)采集中的作用:北京大學(xué)有機(jī)化學(xué)專業(yè)博士論文的文獻(xiàn)計(jì)量研究[J].大學(xué)圖書館學(xué)報(bào),2003,(3):70-73.
(實(shí)習(xí)編輯:陳 媛)