袁 潤 李 瑩 王 琦 王婧怡(江蘇大學科技信息研究所,江蘇 鎮(zhèn)江 212013)
網(wǎng)絡是相互連接的事物的集合。為了科學地研究網(wǎng)絡,數(shù)學家利用圖(Graph)這一術語來形式化地描述網(wǎng)絡,從而派生了網(wǎng)絡分析理論。網(wǎng)絡分析的萌芽可以追溯到1735年歐拉對著名的柯尼斯堡七橋問題的求解。此后,網(wǎng)絡分析便在很多領域得到了應用和發(fā)展。科尼希系統(tǒng)地奠定了網(wǎng)絡分析的數(shù)學基礎;基爾霍夫利用網(wǎng)絡分析解決了復雜電路的計算和分析難題;凱萊借助網(wǎng)絡分析理論開展了分子結構的研究工作[1]。與此同時,社會學家利用網(wǎng)絡展現(xiàn)社會群體中的互動關系,運用網(wǎng)絡分析量化研究社會結構問題,從此產(chǎn)生了社會網(wǎng)絡分析這一獨特的學術領域。
20世紀90年代以來,由于統(tǒng)計學和計算機科學兩個領域研究者的推動,復雜網(wǎng)絡分析和建模得到快速發(fā)展。統(tǒng)計學家提出了“復雜系統(tǒng)”這個概念,網(wǎng)絡分析成為解決復雜系統(tǒng)問題的重要途徑。計算機科學家的研究解決了網(wǎng)絡分析中的概念化問題,提出了有效的解決大型網(wǎng)絡的計算、存儲、可視化等問題的理論和方法,在互聯(lián)網(wǎng)和社交網(wǎng)絡的開發(fā)和應用當中發(fā)揮了關鍵作用。
網(wǎng)絡分析在很多不同領域的復雜系統(tǒng)問題的研究中都被證明是有效的。例如,計算生物學對基因、蛋白質、化合物相互作用系統(tǒng)的研究;工程學研究如何更好地部署傳感器網(wǎng)絡;金融學利用網(wǎng)絡模型分析銀行之間的相互影響;營銷領域運用“疾病的傳播”模型推銷產(chǎn)品;神經(jīng)科學利用網(wǎng)絡分析探索與癲癇有關的腦電變化規(guī)律;政治學研究一個群體的投票偏好在面對內(nèi)外部影響時如何變化;公共衛(wèi)生領域借助于網(wǎng)絡模型研究傳染病在人群中的蔓延,以及如何最有效地進行傳染病控制。
網(wǎng)絡分析在文獻計量學中也有著廣泛的應用。邱均平等[2]運用網(wǎng)絡分析法研究博客之間的社會網(wǎng)絡關系;袁潤等[3]利用社會網(wǎng)絡分析方法研究了圖書館學論文的合著現(xiàn)象;趙麗娟[4]介紹了社會網(wǎng)絡分析的基本理論及其在情報學中的應用;趙蓉英等[5]開展了基于社會網(wǎng)絡分析方法的國內(nèi)外信息計量比較研究,從文獻計量和社會網(wǎng)絡分析的視角對社會化推薦研究進展與發(fā)展趨勢演化進行了研究;陳揚森[6]等基于關鍵詞共現(xiàn)網(wǎng)絡分析了國內(nèi)外社交媒體研究熱點。網(wǎng)絡分析可以發(fā)現(xiàn)隱藏在真實關系網(wǎng)背后的關系,它對于了解一個研究主題的成熟度、知識結構、研究規(guī)模等狀況具有十分重要的意義[7]。
本文運用社會網(wǎng)絡分析理論,借鑒關鍵詞共現(xiàn)分析方法,采用R語言編程創(chuàng)建了關鍵詞集共現(xiàn)網(wǎng)絡,繪制了期刊關鍵詞集共現(xiàn)網(wǎng)絡圖,開展了基于關鍵詞集的知識發(fā)現(xiàn)探索性研究。
關鍵詞源于英文“Keyword”,最初特指單個媒體在制作使用索引時所用到的詞匯。關鍵詞是學術論文不可缺少組成部分,是論文主要內(nèi)容的濃縮,是作者精煉出的概括論文主題的詞匯,通過“關鍵詞”讀者可以迅速地了解論文的主要內(nèi)容。關鍵詞是表達文獻主題概念的自然語言詞匯,在正式發(fā)表的學術論文中一般都附有關鍵詞。一篇學術論文的關鍵詞一般有3~8個,這些關鍵詞既反映了研究成果的核心內(nèi)容,又提供了重要的檢索途徑[8]。
關鍵詞集是關鍵詞集合的簡稱。為了開展文獻計量研究,通常按照一定的原則收集關鍵詞,從而形成關鍵詞集合。關鍵詞集是一定數(shù)量文獻的所有關鍵詞的集合,是這些文獻精華的濃縮。李文蘭等[9]在《中國情報學期刊論文關鍵詞詞頻分析》一文中認為,“學術研究領域較長時域內(nèi)的大量學術研究成果的關鍵詞的集合,可以揭示研究成果的總體內(nèi)容特征、研究內(nèi)容之間的內(nèi)在聯(lián)系、學術研究的發(fā)展脈絡與發(fā)展方向等”,關鍵詞集值得深入研究。
已有學者在學術論文中將一定數(shù)量的關鍵詞定義為關鍵詞集,并利用關鍵詞集開展相關研究。例如,閔超等[10]在《基于關鍵詞交集的學科交叉研究熱點分析——以圖書情報學和新聞傳播學為例》一文中將兩個學科的核心期刊論文規(guī)范化的關鍵詞的交集定義為1個關鍵詞集,從該關鍵詞集中獲取兩個學科的高頻交叉關鍵詞及其共詞矩陣,在此基礎上通過詞頻分析和社會網(wǎng)絡分析探討兩個學科交叉研究熱點領域的整體特征。蘇新寧等[11]在《2000-2009年我國數(shù)字圖書館研究主題領域分析——基于CSSCI關鍵詞統(tǒng)計數(shù)據(jù)》一文中將2000-2009年數(shù)字圖書館研究論文的關鍵詞集合成1個關鍵詞集,并進行了聚類分析。李綱等[12]將兩個作者關鍵詞集合的交集稱為作者合作關鍵詞集,除去合作關鍵詞集,稱為作者私有關鍵詞集。可以看出,關鍵詞集是某一特定時間內(nèi),依據(jù)檢索條件得到的文獻全部關鍵詞的集合,反映了該檢索條件下得到的文獻內(nèi)容的總和。
目前,學術界對關鍵詞集并沒有明確的定義。為了便于討論,本文將關鍵詞集定義為某一特定檢索條件下得到文獻的全部關鍵詞的集合。隨著檢索策略、檢索路徑、檢索時間等的不同,所得到的關鍵詞集也有所區(qū)別。為此,本文對該定義作進一步推論,即以某一作者為檢索條件,該作者的全部學術論文的關鍵詞集合稱為作者關鍵詞集;以某一期刊名稱作為檢索條件,該期刊的全部學術論文的關鍵詞集合稱為期刊關鍵詞集;以某一研究機構作為檢索條件,該研究機構的全部學術論文的關鍵詞集合稱為該研究機構的關鍵詞集;以某一學科為檢索條件,該學科的全部學術論文的關鍵詞集合就是該學科的關鍵詞集。
關鍵詞集對知識發(fā)現(xiàn)而言應該具有特別的信息價值。例如,在電子商務活動中,消費者的購物信息關鍵詞可以從某一方面表征該消費者的興趣特征[13]。此外,在推薦系統(tǒng)應用方面,用戶的行為信息關鍵詞有助于發(fā)現(xiàn)用戶興趣[14]。同理,表征學科領域信息的關鍵詞集也可以表征該學科的研究熱點和發(fā)展趨勢等。巴志超等[15]在《基于語言網(wǎng)絡的研究興趣相似度量方法》一文中敘述了基于關鍵詞的分析更能直觀地反映出文獻內(nèi)容和作者的研究興趣,利用作者發(fā)表文獻的關鍵詞集可以揭示作者的研究興趣。
關鍵詞集比較全面的、客觀的揭示出研究領域的微觀結構以及研究主題發(fā)展的歷史脈絡、研究熱點,知識結構等。在科學研究領域,學者的研究成果在一定程度上揭示了該學者的研究興趣[16],因此作者關鍵詞集最能代表該作者的主要研究內(nèi)容,期刊關鍵詞集則能夠反映該期刊的載文偏好,機構關鍵詞集可以揭示該研究機構的研究特色,學科關鍵詞集應該可以表征該學科領域研究的總體內(nèi)容特征、研究內(nèi)容之間的內(nèi)在聯(lián)系、學術研究的發(fā)展脈絡與發(fā)展方向等許多重要課題。因此,開展關鍵詞集知識發(fā)現(xiàn)探索研究,對發(fā)展文獻計量理論和方法及其在知識發(fā)現(xiàn)中的應用具有重要意義。
本文按照“學科—期刊—論文—關鍵詞”的邏輯關系采集關鍵詞集。以圖書情報學科的18種CSSCI源刊為研究對象,采集近10年以來的數(shù)據(jù),每一種期刊每一年的全部載文題錄保存為一張Excel表格,共計得到180張表格,這是開展關鍵詞集分析的第一步,采集數(shù)據(jù)。
第二步,封裝數(shù)據(jù)。在R語言編程環(huán)境(RStudio Version 1.1.453)下通過編寫R程序自動讀取Excel表格,將全部數(shù)據(jù)封裝成數(shù)據(jù)框(paper.dat),關鍵代碼如下:
library(readxl) #加載貢獻包(package)
InFilesPath<-c(″D:/KWSet/Journal/″) #設置輸入文件存放路徑
OutFilePath<-c(″D:/KWSet/Journal/″) #設置輸出文件存放路徑
code_Journals<-read_excel(″D:/KWSet/Journal/code_Journals.xlsx″) #數(shù)據(jù)文件的名稱代碼表
paper.dat<-data.frame() #定義數(shù)據(jù)框
for(k in 1:nrow(code_Journals)){ #循環(huán)讀取數(shù)據(jù)
infile<-code_Journals$FilesName[k]
infile<-paste(InFilesPath, infile, sep=″″)
infile<-paste(infile,″xlsx″,sep=″.″)
mydata<-read_excel(infile)
mydata<-cbind(mydata,FI=code_Journals$FilesName[k])
paper.dat<-rbind(paper.dat,data.cleaning(mydata))
}
names(paper.dat)<-c(″TI″,″AU″,″OR″,″JN″,″KY″,″FD″,″YE″,″FI″)
save(paper.dat,file=″paper_dat.RData″)
第三步,提取數(shù)據(jù)子集。根據(jù)分析目的,可以從數(shù)據(jù)集paper.dat當中方便地提取作者關鍵詞集、期刊關鍵詞集、機構關鍵詞集或主題關鍵詞集,R代碼如下:
retrieve<-c(″中國圖書館學報″)
mydata<-subset(paper.dat,grepl(retrieve,(paper.dat$JN)))
第四步,拆分關鍵詞。題錄數(shù)據(jù)包含Title-題名、Author-作者、Organ-單位、Source-文獻來源、Keyword-關鍵詞、Fund-基金、Year-年7個字段,其中關鍵詞字段中的多個詞由“;”區(qū)分開來,因此,需要通過如下代碼將其拆分。
kws<-data.frame(unlist(strsplit(mydata$KY,″;″,fixed=TRUE)))
第五步,創(chuàng)建網(wǎng)絡。將關鍵詞視為網(wǎng)絡節(jié)點,同一篇論文當中的多個關鍵詞視為共現(xiàn)關系,使用igraph package當中的函數(shù)可以十分方便地創(chuàng)建網(wǎng)絡,在此基礎上開展網(wǎng)絡分析。
本文分析的數(shù)據(jù)集概況如表1所示。
表1 CSSCI收錄的圖書情報學科的18種期刊載文情況
表1(續(xù))
igraph是一個特別有用的網(wǎng)絡分析的R語言擴展包(Package),包含了一系列數(shù)據(jù)類型和函數(shù),能夠方便地創(chuàng)建網(wǎng)絡,執(zhí)行各種算法并實現(xiàn)網(wǎng)絡數(shù)據(jù)可視化。在igraph中,可以用鄰接列表、邊列表、鄰接矩陣3種方法創(chuàng)建網(wǎng)絡。
邊列表(Edge List)是一個簡單的兩列列表,給出了所有的邊連接的節(jié)點對。關鍵詞節(jié)點對通過拆分關鍵詞再兩兩配對生成。
除了邊列表創(chuàng)建網(wǎng)絡之外,本文還嘗試了另外一種關鍵詞共現(xiàn)網(wǎng)絡的創(chuàng)建方式,稱之為增量式創(chuàng)建網(wǎng)絡,該方法的基本思路是,將一篇學術論文中的若干關鍵詞用graph.full()函數(shù)創(chuàng)建一個全網(wǎng)絡,不限制3~8個關鍵詞,這也是與邊列表創(chuàng)建網(wǎng)絡的最大區(qū)別。接下來,通過for循環(huán)執(zhí)行graph.union(g1,g2)指令處理n篇論文的關鍵詞。用該方法創(chuàng)建網(wǎng)絡最大的優(yōu)勢是可以動態(tài)觀察網(wǎng)絡圖的變化。
為了便于開展研究工作,本文將創(chuàng)建關鍵詞共現(xiàn)網(wǎng)絡及其可視化功能用R語言編寫成函數(shù),取名make.keyword.igraph()和plot.keyword.igraph()(限于篇幅,代碼省略)。
創(chuàng)建關鍵詞共現(xiàn)網(wǎng)絡使用函數(shù)graph_from_data_frame(d,directed=TRUE,vertices=NULL),該函數(shù)需要給出邊列表(d)和網(wǎng)絡節(jié)點(vertices)。
為了不失一般性,本文將數(shù)據(jù)集定義為R語言的數(shù)據(jù)框結構,包括題名(TI)、作者(AU)、單位(OR)、期刊(JN)、關鍵詞(KY)、基金(FD)、年份(YE)等字段內(nèi)容。其中,關鍵詞字段(KY)包含若干個(3~8)關鍵詞,由“;”分隔,因此,需要將這些關鍵詞拆分,拆分結果用矩陣保存,再將矩陣的列兩兩配對構成邊列表。
函數(shù)make.keyword.igraph()在創(chuàng)建網(wǎng)絡的同時,還完成了相關計算,例如,計算了全部關鍵詞(節(jié)點)的詞頻、詞長、點度中心度、中介中心度、接近中心度、網(wǎng)絡密度、網(wǎng)絡直徑、網(wǎng)絡平均路徑長度、網(wǎng)絡聚集系數(shù)等,這些參數(shù)作為網(wǎng)絡屬性被保存下來,再通過函數(shù)plot.keyword.igraph()繪制網(wǎng)絡圖時一同輸出。
函數(shù)make.keyword.igraph()需要提供4個參數(shù),其中,參數(shù)mydata是包含關鍵詞字段的數(shù)據(jù)框,也就是分析對象(數(shù)據(jù)集),參數(shù)pos=5表示取數(shù)據(jù)框第5列數(shù)據(jù)(關鍵詞),參數(shù)main=c(″Graph Titel″)是關鍵詞共現(xiàn)網(wǎng)絡的圖名(變量),myfile=c(″Graph File name″)是關鍵詞共現(xiàn)網(wǎng)絡的圖文件名(變量)。
繪圖函數(shù)plot.keyword.igraph()用jpeg()指令將關鍵詞共現(xiàn)網(wǎng)絡圖以JPEG格式輸出到指定文件夾目錄,這樣,循環(huán)調(diào)用該函數(shù)可以批量輸出圖文件。
運行結果如圖1和圖2所示。圖中信息分為以下7個部分:1)圖名信息,位于圖的中間頂部;2)以不同大小和顏色表示節(jié)點及其聚類分布的網(wǎng)絡關系圖,位于圖的中央;3)帶有標號的節(jié)點信息位于圖的左邊;4)節(jié)點中心性參數(shù)位于圖的右邊;5)節(jié)點縮放比例、網(wǎng)絡密度和網(wǎng)絡聚集系數(shù)位于圖的左上角;6)R語言版本、硬件環(huán)境和計算時間等信息位于圖的右上角;7)關鍵詞聚類信息位于圖的底部。
圖1實現(xiàn)了關鍵詞集的主題聚類,反映了期刊載文的主題信息。類似地,還可以創(chuàng)建作者關鍵詞集網(wǎng)絡(如圖2所示)、機構關鍵詞集網(wǎng)絡、主題關鍵詞集網(wǎng)絡等。
從圖1中可以清晰地發(fā)現(xiàn),“數(shù)據(jù)分析”是2016年度《中國圖書館學報》載文的主題。該年度共計刊載論文52篇,涉及數(shù)據(jù)分析的大約有12篇,主要關鍵詞有開放數(shù)據(jù)、大數(shù)據(jù)、關聯(lián)數(shù)據(jù)、科研數(shù)據(jù)、數(shù)據(jù)管理、數(shù)據(jù)共享、數(shù)據(jù)館員、數(shù)據(jù)獲取、數(shù)據(jù)加值服務、數(shù)據(jù)治理數(shù)據(jù)重用等,這些關鍵詞相互之間關聯(lián)形成了一個聚類,反映了研究內(nèi)容的相關性。
點度中心度較大的節(jié)點有術語服務、圖書館等,這兩個關鍵詞的接近中心度和中介中心度也比較大。術語服務并非是一個常用的關鍵詞,為什么具有如此高的中心性?分析發(fā)現(xiàn),涉及該關鍵詞的論文有2篇,這兩篇論文分別設置了7和8個關鍵詞,它們兩兩結合導致其具有了較高的中心度。
從圖2中可以發(fā)現(xiàn)一些更有價值的信息,即那些連接兩個或多個聚類的節(jié)點關鍵詞,由于其詞頻不高,所以通常的詞頻分析方法很難發(fā)現(xiàn)這類關鍵詞。例如,圖2當中的19號節(jié)點(公共文化服務),26號節(jié)點(公共數(shù)字文化資源整合)等,表明肖希明教授在多個研究方向涉及該主題。深入研究表明,這一現(xiàn)象具有一定的普遍性,本文將這類關鍵詞稱為核心關鍵詞,這是關鍵詞集共現(xiàn)網(wǎng)絡分析的一個重要結論,對發(fā)展中頻關鍵詞計量分析理論具有一定的學術價值。
雖然圖1的網(wǎng)絡密度較低,但其聚類系數(shù)較高,且不同年度的期刊關鍵詞網(wǎng)絡呈現(xiàn)出一定的規(guī)律。表2是按年度計算的18種期刊關鍵詞集網(wǎng)絡密度,可以看出,有些期刊的關鍵詞集網(wǎng)絡密度和聚類系數(shù)呈現(xiàn)逐年增長的趨勢,反映期刊論文主題更為集中或者更為突出,這一點也許可以表明學術期刊的"核心期刊"特征,但尚需進一步作較大樣本的深入研究。
表2 按年度計算的期刊關鍵詞集網(wǎng)絡密度
表3是按年度計算的18種期刊關鍵詞集聚類系數(shù),可以反映期刊載文主題的聚類情況。一般而言,主題越突出,聚類系數(shù)越大。
表3 按年度計算的期刊關鍵詞集聚類系數(shù)
表3(續(xù))
關鍵詞共現(xiàn)分析的思想來源于文獻計量學的引文耦合與共被引,當兩個或兩個以上的關鍵詞同時出現(xiàn)在同一篇文獻中時,則稱這兩個或兩個以上的關鍵詞之間存在共現(xiàn)關系。
本文將邏輯上相關的若干文獻的全部關鍵詞的集合稱為關鍵詞集。關鍵詞集在時空域上具有封閉特征,也就是說,研究對象是某一學科領域(空間域)在某一段時間范圍(時間域)內(nèi)的全體,這一點有別于傳統(tǒng)的文獻計量分析。根據(jù)這一思路,本文按照"學科-期刊-論文-關鍵詞"的邏輯關系收集整理數(shù)據(jù)集,研究步驟主要包括:采集期刊論文題錄數(shù)據(jù)、封裝數(shù)據(jù)集、提取數(shù)據(jù)子集、分析數(shù)據(jù)子集、可視化分析結果、對分析結果做必要的討論。
關鍵詞集共現(xiàn)網(wǎng)絡分析是一件非常復雜的工作,本文采用R語言編程實現(xiàn)了關鍵詞集網(wǎng)絡的創(chuàng)建和可視化,相較于常用的文獻分析工具而言更加靈活,能滿足多種算法的數(shù)據(jù)挖掘、知識發(fā)現(xiàn)、文獻計量、網(wǎng)絡計量等分析研究工作的需要。
關鍵詞集網(wǎng)絡揭示了關鍵詞集的分布、聚類和關系特征,可以更為直觀的揭示分析對象的主題內(nèi)容及其關聯(lián)關系,量化的網(wǎng)絡特征參數(shù)對進一步的數(shù)據(jù)挖掘和知識發(fā)現(xiàn)具有一定的參考價值,這一點尚有待更為深入和系統(tǒng)的研究。