江文華 徐健 李綱 李陽
摘 要:[目的/意義]從學者研究興趣視角出發(fā),探究圖書館領域研究現(xiàn)狀,分析該領域社群結構。[方法/過程]從CSSCI數(shù)據(jù)庫中下載“中圖分類號=G250”的所有論文,通過Java程序處理數(shù)據(jù),利用“機器+人工”進行作者消歧。使用普萊斯定理識別圖書館領域核心作者,利用學者科研成果提取作者的研究興趣,構建該領域核心作者研究興趣相似性網絡,使用Louvain方法對該領域研究者進行社群劃分。計算各社群研究興趣模型,并計算各個社群間的研究興趣相似性。[結果/結論]研究發(fā)現(xiàn):1)圖書館學作者發(fā)文頻次與核心作者研究興趣相似性服從冪律分布;2)圖書館學領域核心作者按研究興趣可分為6個社群;3)C1-C2、C2-C3、C3-C4社群間存在強相似性,C6社群與其他社群相似性較低。
關鍵詞:研究興趣;相似性網絡;圖書館學;研究社群
DOI:10.3969/j.issn.1008-0821.2019.09.003
〔中圖分類號〕G250.1 〔文獻標識碼〕A 〔文章編號〕1008-0821(2019)09-0021-07
Abstract:[Purpose/Significance]From the perspective of scholars' research interests,this paper explored the research status of the library science and analyzes the community structure in this field.[Method/Process]This paper firstly downloaded all the papers of“CLC=G250”from the CSSCI database,processed the data using Java program,and used“machine & manual”method for author disambiguation.Using the Price Law to identify the core authors in the library field,using the scholars' scientific research outputs to extract the author's research interest,construct the core interest research similarity network in this field,and use the Louvain method to divide the researchers into the community.Then,this paper calculated the interest model of each community research and the similarity of research interests among different communities.[Result/Conclusion]The study found that(1)the frequency of anthor with different output level and the similarity of research interest between co-authors in library science obeyed power law distribution;(2)the core authors of the library science could be divided into 6 communities according to their research interests;(3)C1-C2,C2- C3 and C3-C4 community dyads were more similar than other dyads,and the C6 community was little similar with other communities.
Key words:research interest;network of similarity;library science;research community
圖書館作為搜集、加工、存儲圖書資料的文化機構,具有保存與分享知識與文化的職能,對人類科技發(fā)展與社會進步具有重要的作用。圖書館學(Library Science)是研究圖書館的發(fā)生發(fā)展、組織管理,以及圖書館工作規(guī)律的科學,其研究成果對圖書館未來進一步發(fā)展具有重要的指導作用。圖書館學研究領域的知識結構與社群分布是廣大圖書館研究人員普遍關注的問題,對于其學科認知、研究問題與方法的尋找、研究現(xiàn)狀的掌握等都具有重要的意義。直觀來看,領域專家的研究興趣對其研究內容和方向具有重要影響。因此,從研究興趣視角出發(fā),對圖書館學領域核心作者進行社群劃分,可以把握其領域分布、知識結構及未來發(fā)展方向,對該領域科研活動的管理、組織與協(xié)調都具有重要意義。
本文首先從CSSCI數(shù)據(jù)庫中下載中圖分類號為G250所有的論文,使用程序對這些數(shù)據(jù)進行字段提取處理,利用普萊斯定律識別出該領域的核心作者。在此基礎上,構建核心作者研究興趣表示模型,并計算任意兩位作者之間相似性,據(jù)此構建圖書館學領域核心作者研究興趣相似性網絡。在此基礎上,使用社群識別方法分析該領域作者的社群結構,并對社群間關系進行分析。希望通過上述研究為相關研究提供借鑒與參考。
1 相關研究
1.1 圖書館學領域結構研究
關于圖書館領域結構的研究存在兩種思路:定性歸納和定量研究。前者依靠領域專家對學科整體研究情況的把握,重點關注學科發(fā)展歷史[1-2]、理論體系[3]、圖書館精神[4]等學科問題,這類研究多依靠專家經驗形成觀點,往往缺乏實證支持。后者則更多利用文獻計量、社會網絡分析等方法挖掘圖書館學學科領域結構與社群關系,使用可視化、直觀的方式進行結果解讀。例如,張蔓蒂等[5]使用同被引分析方法對圖書館學情報學進行聚類、多維尺度和因子分析,將這些雜志分為4類。劉濤等[6]使用共詞分析的方法將圖書館學研究內容分為數(shù)字圖書館建設、著作權問題、圖書館創(chuàng)新服務、知識管理與服務、元數(shù)據(jù)等10個研究領域。程大帥[7]利用共詞知識圖譜的方式將圖書館領域的研究熱點分為信息資源建設、古籍保護、信息檢索與組織、圖書館法律法規(guī)、圖書館用戶需求與服務5類。伍若梅[8]利用作者共被引的方式對圖書館學領域的核心作者進行社群識別,將其劃分為圖書館和圖書館學理論、圖書館建設、信息資源管理、目錄學與文獻學和文獻標引與編目五大流派。
上述研究多使用專家經驗、計量學等方法來分析圖書館領域結構,多利用共詞網絡、合著網絡、共被引網絡等從學科整體層面識別社群與研究主題。較少有從研究興趣角度出發(fā)開展領域結構識別的研究,更鮮有研究分析各社群間的關聯(lián)關系。
1.2 研究興趣及其度量研究
興趣是一類心理現(xiàn)象,對人們實踐與認知均有重要的影響。在學術活動中,學者的研究興趣會影響其領域和課題的選擇。因此,從整體層面分析作者研究興趣的分布有助于把握學科領域研究現(xiàn)狀與未來發(fā)展方向。當前研究興趣有關的研究主要可分為研究興趣現(xiàn)象、研究興趣表示與相似性計算兩方面。
在研究興趣現(xiàn)象研究方面,Jia T等[9]利用海灘游走(Seashore Walk)模型解釋作者研究興趣演化的內在規(guī)律與演化特性,研究提出作者研究興趣演化的異質性、新近效應、主題相似性。關鵬等[10]對鋰電池領域作者研究興趣演化模式進行分析,發(fā)現(xiàn)作者研究興趣與相應主題在演化過程中如能取得一致性,則能夠引領該主題的發(fā)展。徐健等[11]對學者研究興趣的模糊隸屬問題進行研究,發(fā)現(xiàn)各社群作者對各自所述的社群隸屬度與其他社群隸屬度均處于0.5~0.6和0.1~0.2之間,各社群作者在社群模糊隸屬上差異較小。李綱等[12]分析研究興趣相似性與作者合著的關系,描繪了合著作者對研究興趣相似性頻率分布模式,發(fā)現(xiàn)不同學科間研究興趣頻率分布模式具有相似性。
在研究興趣表示與相似性計算方法方面,Steyvers等[13]對原始主題模型進行修改,提出作者主題模型(Author Topic)用于揭示作者研究興趣,并探索該模型在主題演變趨勢分析、作者主題關聯(lián)分析、作者異常論文檢測等方面的應用。李樹青等[14]以VSM為學者興趣表達模型,并使用時間片震蕩算法發(fā)現(xiàn)學者的主要研究興趣,以此開展便攜式個性化服務研究。劉萍等[15]通過向量空間模型計算關鍵詞間關聯(lián),并利用P-Rank算法計算兩個作者關鍵詞網絡的結構相似度。李綱等[16]使用詞袋模型表示作者研究興趣,使用Jaccard和Cosine等方式計算兩個作者之間研究興趣的相似性。巴志超等[17]引入Word2vec模型對作者關鍵詞矩陣進行語義建模,計算兩個作者研究興趣矩陣的JS距離作為其興趣的相似性。
當前多數(shù)研究集中在學者研究興趣表示模型和相似性計算上,相關研究為本文提供了理論基礎和重要借鑒,較少有學者選擇一個學科領域對其核心作者研究興趣相似性網絡的特性進行探究。
2 研究方法
2.1 研究過程
本文研究過程如圖1所示,包括數(shù)據(jù)來源、數(shù)據(jù)處理、網絡構建、社群識別4個過程。
其中本文選擇的數(shù)據(jù)來源是CSSCI數(shù)據(jù)庫,檢索條件為G=250,檢索日期為2018年12月9日,共包含1998-2018年圖書館學領域文獻21 417篇。下載這些題錄數(shù)據(jù),并使用Java程序對這些數(shù)據(jù)進行解析,存儲在MySQL數(shù)據(jù)庫中。
為保證數(shù)據(jù)分析的準確性,本文使用“機器+人工”消歧的方式對同名作者進行消歧。首先,根據(jù)“作者+一級單位”的方式對每一個賦予不同的ID號碼。對相同姓名不同ID的作者結合實際情況進行合并。由于本文后期只關注核心作者的研究興趣,而且對發(fā)文一次的ID進行考慮會使得作者消歧工作比較繁重,本文選擇了發(fā)文量大于3的ID進行同名消歧,共消除80對同名不同單位的作者。在消歧過程中,本文發(fā)現(xiàn)機構名稱變更、作者單位更換是導致前文“作者+一級單位”方法未能正確消歧的兩種情況。需要說明的是,針對同單位同姓名卻不同人的情況,本文使用的方法無法有效識別出不同作者。該定律衡量了各個學科領域文獻作者分布規(guī)律,常被用于選擇學科領域的核心作者,本文亦采用該方法。
2.2 核心作者研究興趣相似性網絡構建
核心作者研究興趣相似性網絡構建主要包括研究興趣相似性計算、相似性篩選、研究興趣相似性網絡構建3步。本文使用“詞袋模型”(如公式所示)作為作者研究興趣表示方法,各個詞項的權重使用TF-IDF方法計算,其中IDF計算方法如公式所示。
本文使用兩個詞袋之間的余弦相似度來衡量作者研究興趣之間的相似性。核心作者研究興趣相似性網絡是一種以某領域核心作者為節(jié)點,研究興趣相似性數(shù)值為邊權重的網絡。若兩作者間研究興趣相似性大于0,則兩節(jié)點間存在1條邊,相似性越高,則邊越粗。否則,若相似性為0,則兩節(jié)點間不存在邊。
上述過程生成的網絡有可能存在過于稠密的情況,導致網絡社群結構不是很明顯。本文使用的相似性計算指標是依據(jù)關鍵詞計算的,取值為0~1之間。只有兩個作者從未使用過同一個關鍵詞,相似性取值才會為0。因此,在實際社群劃分前,需要剪除權重較低的邊,僅保留相似性較強的邊。
2.3 領域社群劃分與社群關系計算
社群結構是復雜網絡的普遍特征,社群內部節(jié)點與節(jié)點間連接緊密,而社群間連接比較稀疏。社群劃分主要用于發(fā)現(xiàn)網絡中的社群結構,可以看作一種聚類算法??傮w來說,社群劃分算法可分為凝聚算法和分裂算法兩類算法,本文使用Louvain算法[18]進行圖書館領域核心作者研究興趣相似性指標劃分。該方法是一種基于模塊度增益計算的方法,具有快速和非監(jiān)督的特點,比較適合有權網絡社群劃分。在社群劃分完成后,可對歸屬于該社群的作者的研究興趣進行累積,生成社群層面的研究興趣表示模型。此時,可通過計算兩個社群研究興趣間的相似性來表征兩個社群間的相關關系。
3 研究結果
3.1 基礎數(shù)據(jù)表示與核心作者識別
經統(tǒng)計,文本所搜集的數(shù)據(jù)集共包含文獻21 108,累計作者頻次35 288,篇均作者1.67位。
經上文作者消歧步驟后,共識別出圖書館學領域作者19 198位。對這些作者發(fā)文量進行統(tǒng)計,圖3對發(fā)文量和作者數(shù)目都進行了對數(shù)處理,發(fā)現(xiàn)其大致呈直線分布。說明本領域發(fā)文頻次的作者數(shù)目同樣符合冥率分布。在本數(shù)據(jù)集中,發(fā)文量最多的是中國科學院文獻情報中心的張曉林教授,在該領域共計發(fā)文75篇。按照普萊斯定律(如公式所示),核心作者為該數(shù)據(jù)集中發(fā)文量大于7的作者,圖書館學領域共有567位作者被選擇為本研究的目標群體。
3.2 研究興趣相似性網絡指標與邊權重分布
本文構建的研究興趣相似性網絡節(jié)點數(shù)目為567,邊數(shù)目為103 014。此時網絡密度高達0.643,此時整體網絡為混沌的一體,模塊度為0.223。一般認為,模塊度在0.3~0.7之間的極大值具有較明晰的模塊結構[19]。因此,本文考慮剪除相似性較弱的邊,也就是給定一個閾值剪除所有小于該數(shù)值的邊。表1列出了選擇不同相似性強度閾值時,研究興趣相似性網絡的網絡指標。從表1可以發(fā)現(xiàn),當閾值為0.0時,也就是未刪減任何邊的情況下,網絡的模塊度為0.223,此時網絡的社群結構不明顯。而當閾值為0.2及以上時,網絡的模塊度均大于0.94。此時,網絡是由較多獨立節(jié)點構成,最大聯(lián)通圖的規(guī)模也較小。
圖4是圖書館學領域核心作者研究興趣相似性網絡邊權重的頻率分布圖。理論上,相似性取值是0~1之間的連續(xù)值,因此要對該數(shù)值進行離散化操作,本文將相似性取值從0~1劃分為100組,組距為0.01。在圖書館學領域,研究興趣相似性最高的兩位作者是南開大學的李超和董潔兩位學者,兩位學者均側重于研究圖書館員工作行為。
在此,本文采用二八定律,僅保留權重前20%的邊,也就是保留103 014條邊中權值較大的20%條邊。經過排序,選取權重倒序前20%的邊,形成最終的研究興趣相似性網絡。
3.3 圖書館學領域社群劃分結果
本文使用Gephi軟件對剪枝后的圖書館學領域核心作者研究興趣相似性網絡進行社群劃分,模塊度為0.329,從文獻[19]中可知,模塊度在0.3~0.7時會出現(xiàn)較清晰的社群結構。調整參數(shù)Resolution取值,觀察其不同取值時社群數(shù)目與模塊度,具體見表2。從中可以看出,當參數(shù)設置為1.05時,社群劃分結果的模塊度取得最大值,使用該參數(shù)值對網絡進行社群劃分,劃分結果如圖5所示。
3.4 圖書館學領域各社群間關聯(lián)分析
為進一步探究各社群作者的興趣特征,本文分別繪制6個社群高頻關鍵詞共詞網絡,如圖6所示:
從圖6中可以看出,各部分研究并非完全孤立,截然分開的,相互之間存在重疊與交叉部分。筆者認為,這主要是兩方面原因:首先,圖書館學領域內各研究主體彼此關聯(lián),存在領域間交叉的灰色領域;其次,學者研究興趣具有多樣性和演化性,在某領域學者的研究生涯中,其關注點并不局限于某單個領域,而是隨著時代和學科發(fā)展也會有所變化。
各社群研究主題雖有聯(lián)系與相似之處,卻各自有各自的研究側重點。C1社群作者研究各類圖書館,包括高校圖書館、移動圖書館、數(shù)字圖書館等。該領域共有作者93人,代表作者有祝忠明,李書寧等。C2社群研究圖書館領域內的信息組織與存儲問題,包括元數(shù)據(jù)、關聯(lián)數(shù)據(jù)、互操作等主題,代表作者有張曉林、畢強等,該社群是圖書館領域規(guī)模最大的社群,共有156位研究學者,是圖書館領域的主流研究群體。C3社群主要研究信息資源問題,包括數(shù)據(jù)庫構建、館藏建設和資源建設等,共有作者68人,代表作者有盛小平、索傳軍等。C4社群以整體圖書館學為研究對象,重點研究圖書館領域理論、教育與歷史等宏觀整體問題,代表作者有肖希明、王知津等,該社群也是圖書館學領域的較大社群,約占核心作者總數(shù)的27%。C5社群主要采用文獻計量、社會網絡分析的方法研究圖書館學各類研究狀況,代表作者有邱均平、趙蓉英等。C6社群是圖書館學領域規(guī)模最小的社群,僅有8人,該社群主要研究主題標引、文獻編目和信息檢索等問題,該社群研究內容屬于圖書館學與情報學交叉的部分,代表作者有張琪玉、侯漢清等。上文得到的社群結構間并非完全隔絕與孤立,本文進一步計算各社群研究主題之間的相似性。表3給出了各社群研究社群相似性的取值,從中可以看出,各社群間相似性居于0.021~0.363之間。從表中可以看出,C1-C2、C2-C3、C3-C4社群之間存在較強的相似關系,C6社群與其他社群相似性都較低,這與圖5中各社群間的親疏關系比較吻合。
4 結 論
本文從圖書館學的學者研究興趣視角出發(fā),探究圖書館領域社群結構。首先從CSSCI數(shù)據(jù)庫中以“中圖分類號=G250”為檢索條件,通過作者消歧基于普萊斯定律選擇本領域核心作者。對這些學者研究興趣進行建模,并計算兩兩之間的相似性構建初始研究興趣相似性網絡。剪除80%權重較低的邊,對最終的網絡進行社群結構劃分,識別各社群研究興趣并對社群間關系進行計算。研究發(fā)現(xiàn):1)圖書館學作者發(fā)文頻次與核心作者研究興趣相似性服從冪率分布;2)圖書館學領域核心作者按研究興趣可分為6個社群;3)C1-C2、C2-C3、C3-C4社群間存在強相似性,C6社群與其他社群相似性較低。
需要注意的是,本文研究受制于CSSCI數(shù)據(jù)收錄的局限,未收集到1998年前的數(shù)據(jù)。同時,作者消歧與社群劃分方法也存在一定不足。未來將朝以下方向繼續(xù)開展研究:1)現(xiàn)有研究興趣表示方法改進,本文使用的方法并未考慮詞匯之間語義關聯(lián),未對近義詞等語言現(xiàn)象做處理,同時探索作者的多源研究興趣表示;2)探索更加準確的社群識別方法,本文使用的相似性權值篩選方法缺乏方法論根據(jù);3)將時間因素考慮到研究興趣的表示中,在微觀層面分析圖書館學領域作者研究興趣的演化問題。
參考文獻
[1]韓永進.關于中國圖書館史研究的幾點思考[J].中國圖書館學報,2015,41(4):4-13.
[2]楊文祥.21世紀理論圖書館學的理論起點、歷史任務和研究思路[J].中國圖書館學報,2003,29(2):26-30.
[3]葉鷹.圖書館學基礎理論的抽象建構[J].中國圖書館學報,1998,24(3):86-88.
[4]程煥文.實在的圖書館精神與圖書館精神的實在——《圖書館精神》自序[J].大學圖書館學報,2006,(4):2-14.
[5]張蔓蒂,胡吉明.基于同被引分析的我國圖書館學情報學期刊關系與結構研究[J].情報理論與實踐,2011,34(1):31-33,38.
[6]劉濤,劉玉英,杜亮.近5年圖書館學研究熱點分析——基于共詞分析視角[J].圖書館學刊,2012,34(10):122-125.
[7]程大帥.基于共詞知識圖譜的我國圖書館學研究熱點及趨勢分析[J].圖書館學刊,2017,39(1):136-142.
[8]伍若梅.基于作者共被引和元分析的我國圖書館學范式研究[D].長春:東北師范大學,2010.
[9]Jia T,Wang D,Szymanski B K.Quantifying Patterns of Research-interest Evolution[J].Nature Human Behaviour,2017,1(4):0078.
[10]關鵬,王曰芬.學科領域生命周期中作者研究興趣演化分析[J].圖書情報工作,2016,60(19):116-124.
[11]徐健,毛進,葉光輝,等.基于核心作者研究興趣相似性網絡的社群隸屬研究——以國內情報學領域為例[J].圖書情報工作,2018,62(12):57-64.
[12]李綱,徐健,毛進,等.合著作者研究興趣相似性分布研究[J].圖書情報工作,2017,61(6):92-98.
[13]Steyvers M,Smyth P,Rosen M,et al.Probabilistic Author-topic Models for Information Discovery[C]//Proceedings of the Tenth ACM SIGKDD International Conference on Knowledge Discovery and Data mining.New York:ACM,2004:306-315.
[14]李樹青,孫穎.一種基于Web請求訪問模式和時間片震蕩算法的便攜式個性化服務框架[J].情報學報,2014,33(3):228-238.
[15]劉萍,郭月培,郭怡婷.利用作者關鍵詞網絡探測作者相似性[J].現(xiàn)代圖書情報技術,2013,29(12):62-69.
[16]李綱,李嵐鳳,毛進.作者合著網絡中研究興趣相似性實證研究[J].圖書情報工作,2015,59(2):75-81.
[17]巴志超,李綱,朱世偉.基于語義網絡的研究興趣相似性度量方法[J].現(xiàn)代圖書情報技術,2016,32(4):81-90.
[18]Blondel V D,Guillaume J L,Lambiotte R,et al.Fast Unfolding of Communities in Large Networks[J].Journal of Statistical Mechanics:Theory and Experiment,2008,2008(10):0-12.
[19]唐磊,劉歡,文益民,等.社會計算:社區(qū)發(fā)現(xiàn)和社會媒體挖掘[M].北京:機械工業(yè)出版社,2012.
(責任編輯:郭沫含)