摘? 要:為研究高校各二級(jí)單位對(duì)ESI某學(xué)科的貢獻(xiàn)度,需對(duì)近十年來(lái)SCI和SSCIS收錄論文(Article和Review)的地址字段信息進(jìn)行自動(dòng)化分析處理,以統(tǒng)計(jì)各學(xué)院機(jī)構(gòu)的發(fā)文及被引頻次情況。文章提出了一種基于Matlab的WOS地址字段提取與分析方法,可以高效快速地地檢索WOS地址字段,篩選屬于本校的地址字段,從中提取論文所屬的二級(jí)單位英文名稱并匹配所屬首單位,進(jìn)而分析計(jì)算各二級(jí)單位在不同學(xué)科下的論文貢獻(xiàn)度。
關(guān)鍵詞:ESI;Matlab;WOS地址字段
中圖分類號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):2096-4706(2021)17-0065-04
Abstract: In order to study the contribution of each secondary unit in colleges to a discipline of ESI, it is necessary to automatically analyze and process the address field information of papers included in SCI and SSCIS (Article and Review) in recent ten years, so as to make statistics on the document issuance and citation frequency of colleges and institutions. This paper proposes a WOS address field extraction and analysis method based on Matlab, which can efficiently and quickly retrieve the WOS address field, screen the address field belonging to the college, extract the English name of the secondary unit to which the paper belongs and match the first unit, and then analyze and calculate the paper contribution of each secondary unit in different disciplines.
Keywords: ESI; Matlab; WOS address field
0? 引? 言
WOS(Web of Science)是美國(guó)科學(xué)情報(bào)研究(ISI)于1997年推出的基于網(wǎng)絡(luò)的引文索引數(shù)據(jù)庫(kù),它將SCI、SSCI、AHCL這3個(gè)引文數(shù)據(jù)庫(kù)集成在1個(gè)平臺(tái)上,具備多數(shù)據(jù)庫(kù)同時(shí)檢索的功能[1]。ESI(Essential Science Indicator)又稱為基本科學(xué)指標(biāo)數(shù)據(jù)庫(kù),是科睿唯安公司推出的對(duì)科研機(jī)構(gòu)研究成果及學(xué)科發(fā)展態(tài)勢(shì)定量分析和評(píng)價(jià)的工具,也是“雙一流”建設(shè)中對(duì)一流學(xué)科評(píng)價(jià)的極為重要的參考依據(jù)[2]。
ESI和WOS數(shù)據(jù)庫(kù)是衡量科學(xué)研究績(jī)效,跟蹤科學(xué)發(fā)展趨勢(shì),評(píng)價(jià)高校、學(xué)術(shù)機(jī)構(gòu)、國(guó)家/地區(qū)國(guó)際學(xué)術(shù)水平及影響力的重要評(píng)價(jià)工具[3],目前國(guó)內(nèi)各高校都將學(xué)科是否進(jìn)入ESI全球前1%以及ESI高被引論文的數(shù)量作為衡量高校學(xué)科發(fā)展的重要指標(biāo)。高校圖書館是學(xué)校的學(xué)術(shù)性服務(wù)機(jī)構(gòu),為ESI學(xué)科建設(shè)服務(wù)已成為當(dāng)前各高校圖書館發(fā)展的重要任務(wù)和研究課題[4]。
為了統(tǒng)計(jì)分析高校各二級(jí)單位在不同學(xué)科下的ESI發(fā)文總數(shù)及總被引頻次數(shù)據(jù),本文利用WOS數(shù)據(jù)庫(kù)中的ESI期刊,選用近十年來(lái)Article和Review的論文,選取論文的地址字段作為分析的對(duì)象。從WOS數(shù)據(jù)庫(kù)下載的論文信息的地址字段中包含作者姓名、學(xué)校英文縮寫名稱、學(xué)院機(jī)構(gòu)英文名稱等信息,為了準(zhǔn)確快速地獲取論文所屬首機(jī)構(gòu)的信息,需要對(duì)WOS地址字段進(jìn)行數(shù)據(jù)清洗,檢索匹配提取,進(jìn)而分析計(jì)算各學(xué)院機(jī)構(gòu)在不同學(xué)科下論文貢獻(xiàn)度。何春建提出了一種從WOS地址字段提取二級(jí)機(jī)構(gòu)數(shù)據(jù)的半自動(dòng)數(shù)據(jù)清洗方法[5],劉賢玉介紹了利用WOS快速統(tǒng)計(jì)學(xué)校(學(xué)院)論文的技巧[6],謝群提出了一種在WOS中準(zhǔn)確進(jìn)行中文機(jī)構(gòu)檢索的方法[7]。為了保證數(shù)據(jù)的準(zhǔn)確性,通常都是人工進(jìn)行數(shù)據(jù)統(tǒng)計(jì)分析,但是工作量十分繁瑣,工作效率極低;而上述提及的半自動(dòng)清洗方法雖然提高了工作效率,但準(zhǔn)確性較差。為了減少在數(shù)據(jù)處理過(guò)程中出現(xiàn)的人工誤差并且提高工作效率,本文設(shè)計(jì)實(shí)現(xiàn)了一種基于MATLAB的WOS地址字段數(shù)據(jù)提取與分析方法(MW),可以快速高效的對(duì)大量論文的WOS地址字段數(shù)進(jìn)行讀取、檢索匹配、分割提取、去重合并及計(jì)算分析,大大方便了日常工作。
1? MW方法介紹
1.1? 函數(shù)表達(dá)
在本文中,主要利用了MATLAB的xlsread、writetable函數(shù)對(duì)文檔進(jìn)行讀寫操作,strcmp、strfind函數(shù)對(duì)數(shù)據(jù)進(jìn)行檢索匹配,regexp(A, a,' split')正則表達(dá)式對(duì)數(shù)據(jù)進(jìn)行分割提取,unique、strcat函數(shù)對(duì)數(shù)據(jù)進(jìn)行去重合并,.etc最后對(duì)得到的數(shù)據(jù)進(jìn)行分析計(jì)算。
1.2? 程序設(shè)計(jì)思路
首先讀取包含本校近十年來(lái)SCI和SSCI(Article和Review)論文的Excel文檔,該文檔中的論文信息不包含地址字段信息,因此需要根據(jù)論文的WOS號(hào)從WOS數(shù)據(jù)庫(kù)下載的論文信息中檢索匹配提取對(duì)應(yīng)的地址字段信息,再截取地址字段信息中所需的學(xué)??s寫名稱及學(xué)院機(jī)構(gòu)英文名稱形成新的地址字段信息,按截取順序?yàn)槠錁?biāo)序。在查詢過(guò)程中發(fā)現(xiàn)有地址缺省的情況,對(duì)該種情況的論文進(jìn)行人工查詢,并將該篇論文的WOS號(hào)與其屬于本校的首機(jī)構(gòu)及序號(hào)信息一一對(duì)應(yīng),記錄存儲(chǔ)成如表1所示形式的“WOS號(hào)對(duì)應(yīng)表.xlsx”Excel文檔,以便以后查詢。
由于漢語(yǔ)拼音的因素帶來(lái)英譯重名及別稱、俗稱等情況[4],有的存在英文字符拼寫錯(cuò)誤的情況,學(xué)校縮寫英文名稱存在多種形式,本文統(tǒng)計(jì)的形式就有12種,將其匯總在如表2所示的“school.xlsx”Excel文檔中,使用~ isempty(strfind(raw1, school))函數(shù)篩選屬于本校的地址字段信息及序號(hào)。
由于各學(xué)院機(jī)構(gòu)和其包含的眾多下屬院系及機(jī)構(gòu)存在眾多英文名稱,且存在英文字符拼寫錯(cuò)誤的情況,為了匹配篩選后屬于本校的地址字段信息中包含的學(xué)院機(jī)構(gòu)英文名稱對(duì)應(yīng)的中文學(xué)院機(jī)構(gòu)名稱,圖書館信息戰(zhàn)略研究部的工作人員通過(guò)平時(shí)的積累記錄形成了如表3所示形式的“學(xué)院機(jī)構(gòu)匹配表.xlsx”excel文檔(目前統(tǒng)計(jì)記錄了31個(gè)學(xué)院機(jī)構(gòu))。
然后對(duì)篩選后得到的屬于本校的地址字段信息進(jìn)行處理,該地址字段信息包含需要查詢的學(xué)院機(jī)構(gòu)英文名稱,通過(guò)isempty()函數(shù)從學(xué)院機(jī)構(gòu)匹配表中檢索匹配得到該篇論文所屬的學(xué)院機(jī)構(gòu)中文名稱及其序號(hào)。針對(duì)一篇論文存在多個(gè)所屬學(xué)院機(jī)構(gòu)的問(wèn)題,根據(jù)機(jī)構(gòu)序號(hào)提取該篇論文的首學(xué)院機(jī)構(gòu)信息,最后根據(jù)“Timesited”字段計(jì)算得到各學(xué)院機(jī)構(gòu)的論文貢獻(xiàn)度,將處理后的EXCEL文檔輸出并繪制相關(guān)餅狀圖。
程序設(shè)計(jì)流程圖如圖1所示。
2? MW方法設(shè)計(jì)
2.1? 文檔讀寫模塊
使用xlsread函數(shù)對(duì)待處理的EXCEL文檔進(jìn)行讀操作:
[~,~,raw1]=xlsread(filename1);
使用cell2table函數(shù)將數(shù)據(jù)轉(zhuǎn)化為表格形式,再使用Writetable函數(shù)將處理后的數(shù)據(jù)輸出為EXCEL文檔:
T=cell2table(raw1);
Writetable(T,filename1,'WriteVariableNames',false)
2.2? 數(shù)據(jù)檢索匹配分割提取模塊
為了獲取本校近十年來(lái)SCI和SSCI(Article和Review)論文所屬的學(xué)院機(jī)構(gòu)信息,需獲取地址字段信息,地址字段信息中包含該篇論文的學(xué)院機(jī)構(gòu)英文名稱。但是本校近十年來(lái)SCI和SSCI論文文檔中的論文信息不包含地址字段信息,因此需要首先通過(guò)strcmp函數(shù)從WOS數(shù)據(jù)庫(kù)下載的論文庫(kù)中檢索匹配論文的WOS號(hào),根據(jù)WOS號(hào)一一對(duì)應(yīng)提取出對(duì)應(yīng)的地址字段,再通過(guò)strfind函數(shù)及regexp(A,a,'split')正則表達(dá)式分割提取得到的地址字段,截取所需的學(xué)??s寫名稱及學(xué)院機(jī)構(gòu)英文名稱形成新的地址字段信息,并按截取順序?yàn)槠錁?biāo)序,那么A論文的地址字段截取成以下三段:1.[Nanjing Univ Sci & Technol, Sch Chem Engn];2.[Beijing Jiaotong Univ, Minist Educ, Key Lab Luminescence & Opt Informat];3.[Nanjing Univ Sci & Technol, MIIT Key Lab Adv Solid Laser]。該模塊的核心代碼由以下程序?qū)崿F(xiàn):
#檢索匹配提取地址字段信息
If ( strcmp (raw1 {row_j , col1}, raw2{row_i , col2}))
test (row_j , 1) = row_j;
test (row_j , 2) = row_i;
raw1 {row_j, col1} = raw2{row_i , col2};
#分割地址
Address = regexp ( raw1{ row_j , col1 }, '; [', 'split' );#分割從WOS庫(kù)中檢索得到的地址字段
count = size (Address , 2);#分割的段數(shù)即總的通訊地址數(shù)
disp ( ['通訊地址數(shù)量:' , num2str ( count ) ]);
#對(duì)每個(gè)段進(jìn)行分割
提取并形成新的地址字段添加到raw1中
if ~isempty(strfind(Address{1,y},'] '))
address=regexp(Address{1,y}, '] ', 'split');
raw1{row_j,col+y+1}= address{1,2};
else
raw1{row_j,col+y+1}=Address{1,y};
end
#通訊地址的序號(hào)
raw1{1,col+y+1}=y;
end
2.3? 查詢?nèi)ブ睾喜⒛K
首先通過(guò)isempty()及strfind()函數(shù)對(duì)截取的每一段地址字段信息進(jìn)行篩選,得到屬于本校的地址字段信息及序號(hào)。A論文屬于本校的地址字段信息及序號(hào)為:1.[Nanjing Univ Sci & Technol, Sch Chem Engn];3.[Nanjing Univ Sci & Technol, MIIT Key Lab Adv Solid Laser]。然后讀取學(xué)院機(jī)構(gòu)匹配表的excel文檔,使用isempty()及strfind()函數(shù)對(duì)地址字段中的學(xué)院機(jī)構(gòu)英文名稱逐一查詢,檢索到匹配項(xiàng)則返回該論文所屬的學(xué)院機(jī)構(gòu)中文名稱及其序號(hào),由于有的地址字段包含多個(gè)學(xué)院機(jī)構(gòu)英文名稱,返回的學(xué)院機(jī)構(gòu)數(shù)據(jù)存在重復(fù)的情況,因此再使用unique()、strcat()函數(shù)對(duì)程序返回的學(xué)院機(jī)構(gòu)數(shù)據(jù)進(jìn)行去重合并操作,得到每篇論文所屬的學(xué)院機(jī)構(gòu)中文名稱及序號(hào),A論文的所屬學(xué)院機(jī)構(gòu)為[化工學(xué)院1,電子工程與光電技術(shù)學(xué)院3]。最后,使用writetable函數(shù),將待查論文的所屬學(xué)院機(jī)構(gòu)信息數(shù)據(jù)輸出成excel文檔形式,該模塊的核心代碼由以下程序?qū)崿F(xiàn):
#篩選獲取屬于本校的地址字段信息
If ~isempty(strfind(raw1{row_j,col+y+1},school{1,s}))
#查詢所屬學(xué)院機(jī)構(gòu)
If ~isempty(strfind(raw1{row_j,col+y+1},raw4{1,i}))
if isempty(raw1{row_j,raw1_col+y})
raw1{row_j,raw1_col+y}=
string([raw4{2,i},num2str(y)]);
else
raw1{row_j,raw1_col+y}=[raw1{row_j,raw1_col+y},string([raw4{2,i},num2str(y)])];
end
#去重及合并
raw1{I ,raw1_col+j}=unique
(raw1{i ,raw1_col+j});
count =size(raw1{i ,raw1_col+j},2);
if count >1
for c=2: count
raw1{i,raw1_col+j}(1)=strcat(raw1{i,
raw1_col+j}(1),',',raw1{i,raw1_col+j}(c));
end
raw1{i,raw1_col+j}=raw1{i,raw1_col+j}(1);
end
if ~isempty(raw1{i ,raw1_col+j})
raw1{i ,col1}=strcat(raw1{i,col1},',',
raw1{i,raw1_col+j});
end
2.4? 提取首學(xué)院機(jī)構(gòu)模塊
由于一篇論文可能存在多個(gè)通訊地址的情況,為了便于統(tǒng)計(jì),本文選用論文所屬的首機(jī)構(gòu)信息作為統(tǒng)計(jì)各二級(jí)機(jī)構(gòu)在不同學(xué)科下論文貢獻(xiàn)度的標(biāo)準(zhǔn)。在3.2節(jié)中已經(jīng)獲取了本校近十年來(lái)SCI和SSCI(Article和Review)論文所屬的機(jī)構(gòu)信息及序號(hào)信息。
在本節(jié)中,首先通過(guò)isempty()函數(shù)獲得每篇論文通訊地址中所有機(jī)構(gòu)字段的序號(hào),再通過(guò)regexp(A,a,'split')正則表達(dá)式分割提取得到首機(jī)構(gòu)序號(hào),最后得到每篇論文所屬的首機(jī)構(gòu)信息,A論文的所屬首機(jī)構(gòu)為化工學(xué)院。該模塊的核心代碼由以下程序?qū)崿F(xiàn):
#獲取所有學(xué)院機(jī)構(gòu)字段的序號(hào)
if ~isempty(txt1{i,j})
raw1{i ,col1}=strcat(raw1{i,col1},',',
num2str(raw1{1,j}));
end
#分割提取首序號(hào)
if ~isempty(strfind(raw1{I ,col1},','))
address = regexp(raw1{i, col1}, ',', 'split');
raw1{i,col1}=address{1,1};
end
2.5? 學(xué)科劃分模塊
為了模擬本校各二級(jí)單位在不同學(xué)科下的ESI發(fā)文總數(shù)及總被引頻次數(shù)據(jù),需要將近十年來(lái)WOS數(shù)據(jù)庫(kù)中的ESI期刊論文(僅選取Article 和 Review)按學(xué)科進(jìn)行劃分(ESI下設(shè)22個(gè)學(xué)科),使用strcmp函數(shù)將3.4節(jié)獲取的raw1中存儲(chǔ)的數(shù)據(jù)信息按學(xué)科進(jìn)行劃分,得到22個(gè)學(xué)科每個(gè)學(xué)科下的各機(jī)構(gòu)發(fā)表的論文信息。該模塊的核心代碼由以下程序?qū)崿F(xiàn):
#按22個(gè)學(xué)科進(jìn)行劃分
j =2;
for i =2:row
if strcmp(raw1{i , Area_col1},'subject')
raw3(j,:)=raw1(i ,:);
j=j+1;
end
end
2.6? 數(shù)據(jù)計(jì)算分析模塊
若該篇論文的首機(jī)構(gòu)數(shù)目為n,引用次數(shù)為m,則每個(gè)首機(jī)構(gòu)的該篇論文被引頻次為m/n,該篇論文的占比為1/n。
最后計(jì)算每個(gè)學(xué)科下各二級(jí)單位的論文數(shù)N,被引頻次M(N篇論文的引用次數(shù)和),得到篇均被引頻次M/N。
本節(jié)以某學(xué)科為例,用表格和餅狀圖的形式分別直觀的展示不同二級(jí)單位在論文數(shù)貢獻(xiàn)度以及被引頻次貢獻(xiàn)度情況,如表4、圖2、圖3所示。
3? 結(jié)? 論
隨著“雙一流”建設(shè)步伐的加速,各高校對(duì)ESI學(xué)科建設(shè)日益重視。圖書館可通過(guò)模擬分析研究本校各學(xué)院機(jī)構(gòu)對(duì)ESI不同學(xué)科的論文貢獻(xiàn)度,作為評(píng)估學(xué)院及學(xué)校教師科研水平的重要指標(biāo),對(duì)學(xué)校潛力學(xué)科的挖掘及學(xué)院自身學(xué)術(shù)科研水平的發(fā)展有很大的指導(dǎo)意義。
本文主要設(shè)計(jì)實(shí)現(xiàn)了一種基于MATLAB的WOS地址字段數(shù)據(jù)提取與分析方法,通過(guò)分析本校各二級(jí)單位在ESI不同學(xué)科下的發(fā)表論文數(shù)貢獻(xiàn)度及被引頻次貢獻(xiàn)度,以圖表形式對(duì)比展示,了解某ESI潛力學(xué)科在不同二級(jí)單位的科研產(chǎn)出情況。
參考文獻(xiàn):
[1] 桑萊絲.SCI論文在科研水平評(píng)價(jià)中的地位和作用 [J].統(tǒng)計(jì)與決策,2007(15):59-60.
[2] 張寧,梁盟.高校圖書館服務(wù)ESI潛力學(xué)科建設(shè)探索——以山東農(nóng)業(yè)大學(xué)圖書館為例 [J].圖書館學(xué)刊,2021,43(5):55-59.
[3] 畢玲玲,孫海燕,李延剛,等.基于ESI和InCites的高校潛力學(xué)科發(fā)展預(yù)測(cè)——以中國(guó)海洋大學(xué)為例 [J].內(nèi)蒙古科技與經(jīng)濟(jì),2021(12):113-116.
[4] 劉勇.“雙一流”建設(shè)背景下高校圖書館服務(wù)ESI學(xué)科建設(shè)的內(nèi)容與策略 [J].圖書情報(bào)工作,2017,61(9):53-58.
[5] 何春建.從WOS地址字段提取二級(jí)機(jī)構(gòu)數(shù)據(jù)的半自動(dòng)數(shù)據(jù)清洗方法 [J].新世紀(jì)圖書館,2017(8):56-58+70.
[6] 劉賢玉,周小東.基于WebofScience快速統(tǒng)計(jì)學(xué)校(學(xué)院)論文的技巧 [J].圖書情報(bào)工作,2013,57(S2):210-212+207.
[7] 謝群.在WebofScience中準(zhǔn)確進(jìn)行中文機(jī)構(gòu)檢索的方法研究 [J].圖書館論壇,2011,31(1):155-157+154.
作者簡(jiǎn)介:顏斌(1996.02—),女,漢族,江蘇省淮安人,助理館員,碩士研究生,研究方向:圖書館、計(jì)算機(jī)。