陳瓊 朱慶華 閔華 劉周穎
作者簡介:陳瓊(1998-),女,碩士,研究方向:網(wǎng)絡(luò)信息資源管理。朱慶華(1963-),男,教授,博士生導(dǎo)師,研究方向:網(wǎng)絡(luò)信息資源管理,用戶信息行為。閔華(1969-),女,副教授,研究方向:語義網(wǎng)、健康信息學(xué)。 劉周穎(1994-),女,博士研究生,研究方向:網(wǎng)絡(luò)信息資源管理、社會化媒體。
摘 要:[目的/意義]為了更加精準地探究學(xué)科交叉規(guī)律,本研究構(gòu)建一個基于領(lǐng)域主題的學(xué)科交叉特征識別框架以識別學(xué)科交叉主題、交叉態(tài)勢以及交叉結(jié)構(gòu)。[方法/過程]對WOS數(shù)據(jù)庫中醫(yī)學(xué)信息學(xué)領(lǐng)域2000—2020年發(fā)表的45 546篇文獻進行實證研究,首先基于LDA主題模型劃分領(lǐng)域主題,然后引入Div指標(biāo)分析比較學(xué)科交叉態(tài)勢,最后構(gòu)建學(xué)科共現(xiàn)網(wǎng)絡(luò)并結(jié)合中介中心性分析學(xué)科邊緣—核心子群結(jié)構(gòu)。[結(jié)果/結(jié)論]本研究共劃分9個子主題,分別為心臟信號傳感系統(tǒng)、電子健康技術(shù)、電子病歷系統(tǒng)、健康app和使用行為、醫(yī)療護理電子系統(tǒng)、隨機治療實驗、圖像分割和聚類、基于機器學(xué)習(xí)的特征識別以及癌癥治療風(fēng)險評估,其中前5個主題的學(xué)科交叉程度在近5年呈現(xiàn)波動上升的趨勢;學(xué)科結(jié)構(gòu)方面,交叉程度較深的主題大多以工程學(xué)和計算機科學(xué)為核心學(xué)科。本研究有助于科研管理部門以及科研人員制定相關(guān)政策、優(yōu)化資源配置、識別學(xué)科前沿等。[局限]由于早期期刊文獻引文信息不全面,一定程度上會影響學(xué)科交叉程度計算的精確度。
關(guān)鍵詞:學(xué)科交叉;領(lǐng)域主題;LDA模型;特征;識別;醫(yī)學(xué)信息學(xué)
DOI:10.3969/j.issn.1008-0821.2022.04.002
〔中圖分類號〕G201 〔文獻標(biāo)識碼〕A 〔文章編號〕1008-0821(2022)04-0011-14
Abstract:[Purpose/Signficance]In order to explore the interdisciplinary rule more accurately,the study constructs a framework to recognize the interdisciplinary features based on domain topics,which helps to identify interdisciplinary topics,interdisciplinary situation and interdisciplinary structure.[Method/Process]45546 articles in the field of medical informatics in WOS database from 2000—2020 were used for empirical research.Firstly,domain topics were divided based on LDA topic model.Then,Div index was introduced to compare and analyze the interdisciplinary situation.Finally,the disciplinary edge-core subgroup structure was analysed based on co-occurrence network and betweeness centrality.[Result/Conclusion]There are nine sub topics divided,including heart signal sensing system,electronic health technology,electronic medical record system,health app and use behavior,medical care electronic system,randomized treatment experiment,image segmentation and clustering,feature recognition based on machine learning,and cancer treatment risk assessment.Among them,the interdisciplinary degree of the first five subjects shows a fluctuating upward trend in recent five years;In terms of discipline structure,engineering and computer science are the core subjects with deep interdisciplinary degree.This study is helpful for scientific research administrations and researchers to formulate relevant policies,optimize resource allocation,and identify the frontier of disciplines.[Limitations]Due to the incomplete citation information of early journals,the accuracy of interdisciplinary degree calculation would be affected to a certain extent.
Key words:interdisciplinary;domain topic;features;recognize;LDA models;medical informatics
隨著大科學(xué)時代的到來,“交叉”已經(jīng)成為現(xiàn)今科學(xué)發(fā)展的關(guān)鍵詞。自20世紀中后期,學(xué)科間的交叉融合活動越來越頻繁,不斷碰撞衍生出新的學(xué)科,形成錯綜復(fù)雜的學(xué)科網(wǎng)絡(luò)。目前,在5 500多個較為成熟的學(xué)科領(lǐng)域中,有近一半的學(xué)科具有交叉融合的特征[1],例如生物化學(xué)、人工智能、生態(tài)經(jīng)濟學(xué)等。
學(xué)科間的交叉融合既是知識發(fā)展、技術(shù)創(chuàng)新的重要源泉,也是人類社會實踐的迫切需求。一方面,學(xué)科交叉點往往可能就是新的科學(xué)生長點、新的科學(xué)前沿,最有可能產(chǎn)生重大的科學(xué)突破,使科學(xué)發(fā)生革命性的變化[2],如DNA雙螺旋結(jié)構(gòu)、人類基因組測序、載人空間飛行等重大科研成就都是學(xué)科間合作的成果;另一方面,人類社會中許多復(fù)雜重大的問題已經(jīng)無法在單一學(xué)科的研究范式和思維模式下解決,多學(xué)科交叉合作大勢所趨。學(xué)界與產(chǎn)業(yè)界積極呼吁不同學(xué)科領(lǐng)域間的知識共享和協(xié)作,交叉科學(xué)研究(Interdisciplinary Research,IDR)應(yīng)運而生。
在此背景下,教育部、財政部和國家發(fā)改委提出“雙一流”高校要積極創(chuàng)新學(xué)科組織模式,促進基礎(chǔ)學(xué)科之間的交叉融合,組建學(xué)科聯(lián)盟,搭建學(xué)科交流平臺[3]。北京大學(xué)、南方科技大學(xué)、北京理工大學(xué)等多所高校先后成立前沿交叉科學(xué)研究院,致力打造一流的多學(xué)科交叉融合學(xué)術(shù)發(fā)展平臺。2019年,國家自然科學(xué)基金申請中增設(shè)了“共性導(dǎo)向、交叉融通”類科學(xué)問題屬性[4],鼓勵發(fā)展具有學(xué)科交叉背景的研究項目。2020年11月,國家自然科學(xué)基金委員會正式成立交叉科學(xué)部,負責(zé)統(tǒng)籌國家自然科學(xué)基金交叉科學(xué)領(lǐng)域整體資助等工作[5],進一步推動學(xué)科間交流、打破學(xué)科壁壘、促進學(xué)科創(chuàng)新。學(xué)科設(shè)置方面,2021年教育部宣布“交叉學(xué)科”成為第14個學(xué)科門類[6],強調(diào)經(jīng)濟社會發(fā)展對高層次復(fù)合型人才的迫切需求,學(xué)科交叉深度融合勢不可擋。
目前,學(xué)科交叉活動已經(jīng)廣泛深入到各個研究領(lǐng)域,大數(shù)據(jù)背景下學(xué)科交叉方式朝著多樣化、大跨度和深層次的方向發(fā)展。識別學(xué)科交叉特征,即探索學(xué)科間的交叉規(guī)律,宏觀上是學(xué)科交叉的形成和發(fā)展態(tài)勢,從國家、機構(gòu)等維度對未來學(xué)科發(fā)展趨勢進行把控;微觀上則是從主題粒度甚至是篇章粒度識別學(xué)科交叉點,探索學(xué)科重點發(fā)展方向。探索學(xué)科間的交叉規(guī)律、認識學(xué)科交叉知識形成和發(fā)展過程、識別學(xué)科交叉點對于交叉科學(xué)研究有著重要的意義??茖W(xué)計量視角下的交叉科學(xué)研究多屬于信息科學(xué)和圖書館學(xué)領(lǐng)域,近年來成為圖書情報領(lǐng)域十分重要的研究方向[7],主要包括交叉科學(xué)測度指標(biāo)、交叉科學(xué)研究評價、交叉科學(xué)可視化研究等方面。目前,圖書情報領(lǐng)域的交叉科學(xué)研究主要存在以下幾個問題:研究維度上,主要側(cè)重于關(guān)注學(xué)科交叉的演化態(tài)勢,從整體學(xué)科的層面探究學(xué)科交叉結(jié)構(gòu)變化以及國家機構(gòu)特征,而基于微觀層面的交叉特征研究還較少[7];數(shù)據(jù)來源上,現(xiàn)有學(xué)科交叉主題研究中涉及的數(shù)據(jù)量較小,不利于識別真正的學(xué)科增長點;研究方法上,已有研究以關(guān)鍵詞分析和單一的測度指標(biāo)為主,在交叉特征識別上不夠準確;研究內(nèi)容上,交叉主題的研究還不夠深入,缺乏進一步對主題進行交叉態(tài)勢分析。因此,本研究提出基于領(lǐng)域主題的學(xué)科交叉特征識別的研究方法,結(jié)合LDA主題模型、社會網(wǎng)絡(luò)分析、引文分析等研究方法,在引文內(nèi)容的基礎(chǔ)上構(gòu)建基于領(lǐng)域主題的學(xué)科交叉特征識別研究框架,并以醫(yī)學(xué)信息學(xué)領(lǐng)域為例,識別學(xué)科交叉主題、交叉態(tài)勢以及交叉結(jié)構(gòu)。
1 國內(nèi)外研究現(xiàn)狀
1.1 學(xué)科交叉測度指標(biāo)
學(xué)科交叉測度指標(biāo)可以分為兩大類——多樣性指標(biāo)和凝聚性指標(biāo)[7],前者主要是從學(xué)科的豐富性、平衡性和差異性衡量學(xué)科交叉程度,后者則是基于社會網(wǎng)絡(luò)分析的方法衡量學(xué)科交叉融合的緊密程度。已有研究中所使用的學(xué)科交叉測度指標(biāo)如表1所示。
雖然研究人員意識到學(xué)科交叉測度難以利用單一的標(biāo)準進行客觀的評價,需要嘗試融合多指標(biāo)進行研究,但現(xiàn)有研究中多指標(biāo)融合傾向在同一維度內(nèi)進行,少有研究考慮結(jié)合多樣性和凝聚性不同維度的指標(biāo)進行研究。少數(shù)的綜合性指標(biāo),如全局Φ指標(biāo)的使用較少[19],科學(xué)性也有待進一步考證。另外,現(xiàn)有的學(xué)科交叉測度指標(biāo)更多是用于宏觀層面學(xué)科交叉演化過程,但在微觀主題的研究中,尤其是不同主題交叉程度的比較上,可行性和有效性尚未得到充分的驗證。因此,本研究試圖引入新的學(xué)科交叉測度指標(biāo),并基于多維指標(biāo)構(gòu)建基于領(lǐng)域主題的學(xué)科交叉特征識別的研究框架,為學(xué)科交叉特征研究提供新的思路。
1.2 學(xué)科交叉主題識別
學(xué)科交叉主題主要是指學(xué)科交叉程度較強的研究主題,學(xué)科交叉主題往往可能是研究前沿或知識生長點,因此,識別學(xué)科交叉主題是交叉科學(xué)研究中的一個關(guān)鍵問題?,F(xiàn)有學(xué)科交叉研究中主要是從宏觀層面分析學(xué)科交叉態(tài)勢,針對微觀層面下學(xué)科交叉主題的識別和態(tài)勢分析還較少。已有研究中主要是基于關(guān)鍵詞、引文分析以及文本挖掘3個視角進行學(xué)科交叉主題的識別。
1)基于關(guān)鍵詞的學(xué)科交叉主題識別
關(guān)鍵詞是知識組成的基本單元,是反映文獻主題并進行學(xué)科知識分析的最直接、便捷的方式。通過分析學(xué)科間關(guān)鍵詞的交叉情況,不僅能夠快速了解學(xué)科交叉的發(fā)展,而且可以提取具體的交叉內(nèi)容[20]。閔超等基于關(guān)鍵詞共現(xiàn)進行聚類分析提取研究主題,并引入戰(zhàn)略坐標(biāo)圖探討了學(xué)科交叉研究主題的內(nèi)在聯(lián)系和發(fā)展脈絡(luò)[21]。李長玲等基于關(guān)鍵詞圍繞學(xué)科交叉主題進行一系列相關(guān)的研究,先后通過重疊社群網(wǎng)絡(luò)的可視化分析、關(guān)鍵詞共現(xiàn)矩陣以及時序關(guān)鍵詞聚類分析等方法識別交叉主題[22-24]。杜德慧等對跨學(xué)科參考文獻的關(guān)鍵詞進行分析,構(gòu)建學(xué)科相關(guān)新穎性指數(shù),計算跨學(xué)科引文關(guān)鍵詞與目標(biāo)學(xué)科的新穎且相關(guān)程度,識別與目標(biāo)學(xué)科具有較大合作潛力的跨學(xué)科知識[25]。Xu H等提出TI指標(biāo)來挖掘?qū)W科交叉主題,并以圖書情報學(xué)為例驗證TI值和Bet值能夠很好地識別外部學(xué)科和內(nèi)部主題的交集[26]。Dong K等綜合共現(xiàn)網(wǎng)絡(luò)分析、高TI術(shù)語分析和突發(fā)監(jiān)測等研究方法,從多維角度識別圖書情報學(xué)領(lǐng)域的學(xué)科交叉主題,以期獲得更為全面和準確的結(jié)果[27]。整體來看,關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò)是現(xiàn)有學(xué)科交叉主題研究中較為常用的研究方法,在此基礎(chǔ)上結(jié)合社會網(wǎng)絡(luò)分析、時序分析、聚類分析、多維尺度分析等方法展開研究。
2)基于引文分析的學(xué)科交叉主題識別
引文分析通常是指基于文獻間的引用關(guān)系,包括縱向繼承的引用/被引關(guān)系、橫向聯(lián)系的共引/共被引關(guān)系來構(gòu)建相應(yīng)的引文網(wǎng)絡(luò)?;趯W(xué)科的引文網(wǎng)絡(luò)可以識別學(xué)科結(jié)構(gòu)、主題子群、核心節(jié)點、橋梁節(jié)點等關(guān)鍵知識節(jié)點,并結(jié)合測度指標(biāo)來識別學(xué)科交叉主題。除了文獻間的引用關(guān)系,不同學(xué)科間互引網(wǎng)絡(luò)的共同研究內(nèi)容也可以代表跨學(xué)科交叉研究主題[28]。因此,引文分析方法也可用于學(xué)科交叉主題識別的研究。Chi R等基于共被引網(wǎng)絡(luò)分析,進行探索性網(wǎng)絡(luò)分析和內(nèi)容分析,識別研究主題的發(fā)展以及相互之間的關(guān)系[29]。Rafols I等以生物納米科學(xué)領(lǐng)域為例,構(gòu)建文獻耦合網(wǎng)絡(luò),結(jié)合多樣性和連貫性分析學(xué)科交叉主題的出現(xiàn)和擴散[16]。章成志等從引文內(nèi)容的視角分析學(xué)科交叉類別、檢測多學(xué)科交叉現(xiàn)象,對改進傳統(tǒng)的學(xué)科多樣性測度具有重要參考價值[43-44]。相較于文獻計量學(xué)的其他研究領(lǐng)域,引文分析在學(xué)科交叉主題識別中應(yīng)用較少,主要原因可能是引文分析具有一定滯后性,無法及時準確地識別新興的學(xué)科生長點。
3)基于文本挖掘的學(xué)科交叉主題識別
隨著文本挖掘技術(shù)的興起,研究人員開始關(guān)注文本挖掘算法在學(xué)科交叉知識發(fā)現(xiàn)上的應(yīng)用,綜合考慮語法、語義信息的運用。商憲麗基于多模主題網(wǎng)絡(luò),構(gòu)建學(xué)科—對象—方法三模網(wǎng)絡(luò),識別交叉學(xué)科知識組合模式[30]。韓正琪等使用Rao-Stirling指標(biāo)篩選學(xué)科交叉文獻,再基于LDA主題模型識別學(xué)科交叉主題[31]。張斌結(jié)合LDA模型和桑基圖,對管理信息系統(tǒng)學(xué)科及相關(guān)的基礎(chǔ)學(xué)科進行主題劃分,并對主題詞進行共現(xiàn)分析學(xué)科之間的關(guān)系[32]。Raimbault J將語義分析與引文網(wǎng)絡(luò)相結(jié)合,構(gòu)建地理學(xué)領(lǐng)域的大規(guī)模數(shù)據(jù)集揭示學(xué)科交叉主題[33]。基于文本挖掘的學(xué)科交叉知識發(fā)現(xiàn)將成為未來交叉科學(xué)研究的趨勢,在數(shù)據(jù)來源、數(shù)據(jù)規(guī)模、識別準確性等方面存在更為廣闊的應(yīng)用空間。
2 研究設(shè)計
LDA主題模型是一種文檔主題生成模型,該模型算法基于概率主題分布的方法進行文本語義分析并從中抽取出有價值的潛在主題信息[34]。LDA主題模型假設(shè)存在一組潛在的主題,每個主題由不同出現(xiàn)概率的主題詞組成,每篇文章也是由不同主題根據(jù)不同概率所組合而成[35]。LDA主題模型在大規(guī)模語料識別和潛在隱藏主題發(fā)現(xiàn)上存在一定的優(yōu)勢,例如一個主題詞可以出現(xiàn)在多個主題中,基于摘要或全文而不僅僅是關(guān)鍵詞等,一定程度上彌補了關(guān)鍵詞分析和引文分析方法的不足,能夠?qū)崿F(xiàn)內(nèi)容主題層面的文獻數(shù)據(jù)分析和影響力評價。因此,本研究采用LDA主題模型對醫(yī)學(xué)信息學(xué)領(lǐng)域主題進行劃分。
針對前人研究的不足,本研究提出基于領(lǐng)域主題的學(xué)科交叉特征識別研究框架,主要分為3個階段,如圖1所示。首先,從WOS數(shù)據(jù)庫篩選文獻,進行數(shù)據(jù)清洗并構(gòu)建語料庫,利用LDA對醫(yī)學(xué)信息學(xué)領(lǐng)域進行主題劃分。然后,使用引文分析方法構(gòu)建文獻—參考文獻學(xué)科類別文獻矩陣,利用Div等學(xué)科交叉多樣性指標(biāo)對各主題的學(xué)科交叉程度進行探測,利用時序性分析方法對各個領(lǐng)域主題的學(xué)科交叉態(tài)勢和未來發(fā)展進行展望。最后,使用Gephi軟件繪制各領(lǐng)域主題的學(xué)科共現(xiàn)網(wǎng)絡(luò),使用Louvain聚類算法進行學(xué)科子群的分類,基于中介中心性等凝聚性指標(biāo)識別核心學(xué)科子群和邊緣學(xué)科子群,探索各領(lǐng)域主題的學(xué)科交叉結(jié)構(gòu)。
2.1 數(shù)據(jù)來源與處理
醫(yī)學(xué)信息學(xué)是聚焦于對醫(yī)學(xué)信息的處理、實踐與教育的一門交叉學(xué)科,它所涉及的學(xué)科范圍較廣,學(xué)科交叉程度較高,且交叉對象較為復(fù)雜,學(xué)科前沿與學(xué)科交叉主題的關(guān)系更為密切,因此了解不同領(lǐng)域主題下的學(xué)科交叉特征更有利于相關(guān)從業(yè)人員、研究者更好地把握研究動態(tài)、選擇研究方向并進行有效的資源配置。本研究以醫(yī)學(xué)信息學(xué)領(lǐng)域英文文獻為研究對象,選擇Web of Science(WOS)核心數(shù)據(jù)集作為來源數(shù)據(jù)庫,設(shè)定學(xué)科類別為醫(yī)學(xué)信息學(xué),即“WC=medical informatics”為檢索式進行檢索,設(shè)定文獻類型為論文(Article),檢索年限為2000—2020年,實施檢索得到45 546條數(shù)據(jù)。從WOS下載所有相關(guān)文獻的全記錄信息,包括論文檢索號、標(biāo)題、摘要、關(guān)鍵詞、參考文獻、作者、來源期刊等信息。為了對醫(yī)學(xué)信息學(xué)領(lǐng)域中具有一定代表性的研究性文獻進行學(xué)科交叉性研究,筆者對文獻進行自動篩選。首先剔除沒有摘要、參考文獻不完整或參考文獻數(shù)量較少的文獻,共3 350篇;然后筆者又刪去被引次數(shù)為0和1的文獻,共7 653篇。通過篩選,最終確定34 543篇文獻題錄數(shù)據(jù)作為研究數(shù)據(jù)集。
目前,構(gòu)建文本語料庫的形式包括關(guān)鍵詞、摘要、標(biāo)題+摘要、關(guān)鍵詞+摘要等。傳統(tǒng)的共詞分詞方法多使用關(guān)鍵詞作為語料,而在主題模型的實踐中,許多研究選擇的是摘要、標(biāo)題+摘要的形式,相較于關(guān)鍵詞,摘要和標(biāo)題融合下所提取的主題準確度較高、語義信息混亂程度較低且主題粒度較細[40]。因此,本研究通過抽取文獻題錄數(shù)據(jù)中的標(biāo)題和摘要,并將這兩個字段合并作為文獻內(nèi)容字段,經(jīng)過一系列數(shù)據(jù)預(yù)處理操作生成文本語料。數(shù)據(jù)預(yù)處理主要分為3個步驟:第一步,對文本內(nèi)容進行分詞;第二步,去除停用詞,本研究使用的停用詞表除一般的英文停用詞表外,還融入了馮佳針對醫(yī)學(xué)信息學(xué)文本選取的停用詞表[40],在剔除停用詞的基礎(chǔ)上過濾掉文本中的標(biāo)點符號、語氣助詞、副詞、介詞等沒有實際含義的詞匯;第三步,通過Python語言中的Porter Stemmer包進行詞形歸并和詞根提取,最終生成包含65 477個詞匯的語料庫。
2.2 Div交叉測度指標(biāo)
Stirling A認為,學(xué)科交叉多樣性測度主要包括3個特征:豐富性(Variety)、平衡性(Balance)和差異性(Disparity)[36]。為了能夠更加清晰地描繪學(xué)科交叉特征,學(xué)者們通常將這3種特征融合在一起,如廣泛使用的學(xué)科交叉測度指標(biāo)Rao-Stirling[12]。Rao-Stirling指標(biāo)使用辛普森指數(shù)(Simpson Index)將豐富性和平衡性結(jié)合在一起,然后再融入代表差異性的學(xué)科相似度。研究人員開始意識到Rao-Stirling指標(biāo)并不夠準確,利用辛普森指數(shù)來替代豐富性和平衡性可能會影響這兩個指標(biāo)在最終結(jié)果中的權(quán)重,平衡性通常在計算過程中被弱化了甚至根本不存在[37]。因此,Leydesdorff L等提出將多樣性、平衡性以及差異性獨立開來再互相融合的測度指標(biāo)Div交叉測度指標(biāo)[38],該指標(biāo)被初步運用在期刊層面的學(xué)科交叉測度。并且實證研究發(fā)現(xiàn),相較于Rao-Stirling指標(biāo),它能夠更加準確全面地反映學(xué)科交叉特征。本研究借鑒這一思想,將其運用于領(lǐng)域主題的學(xué)科交叉測度并試圖驗證該指標(biāo)的可行性。Div計算公式如下所示:
n表示該主題所屬的學(xué)科數(shù)量,N表示學(xué)科總數(shù)量,Re_Variety表示相對多樣性;Gini_Co即基尼系數(shù),用于衡量平衡性,xi表示學(xué)科i出現(xiàn)的次數(shù),基尼系數(shù)越大說明該主題文獻的學(xué)科分布越不平衡,因此,1-Gini_Co可以體現(xiàn)該主題的平衡性;dij表示學(xué)科間的距離,本文采用余弦相似度來表示學(xué)科間的距離。
2.3 學(xué)科邊緣—核心子群分析
本研究將基于學(xué)科共現(xiàn)網(wǎng)絡(luò)進行學(xué)科交叉結(jié)構(gòu)
的分析,識別學(xué)科邊緣—核心子群。通過Louvain聚類算法對學(xué)科共現(xiàn)網(wǎng)絡(luò)進行聚類分析,劃分學(xué)科子群。Louvain聚類算法是一個包含兩階段的反復(fù)迭代過程[39],它在計算時間和準確性上都有良好的表現(xiàn)。目前,它已經(jīng)廣泛用于知識科學(xué)分析,著名知識圖譜軟件Gephi與Pajek都是基于此算法對網(wǎng)絡(luò)進行社團劃分;另外,它基于模塊度的自我優(yōu)化過程不需要提前確立聚類的數(shù)量,可以避免由于主觀設(shè)立聚類數(shù)量而帶來的誤差。根據(jù)Blondel V D等的研究,該算法的有效性在于模塊度的增加ΔQ是可以通過將孤立節(jié)點不斷合并入其他的社區(qū)得到的[39],其計算公式如下:
在劃分學(xué)科子群的基礎(chǔ)上,再結(jié)合中介中心性指標(biāo)識別核心學(xué)科、邊緣學(xué)科、核心學(xué)科子群以及邊緣學(xué)科子群。中介中心性的計算方式如表1所示,在學(xué)科共現(xiàn)網(wǎng)絡(luò)中,中介中心性較強的學(xué)科可以劃分為核心學(xué)科,包含較多核心學(xué)科的學(xué)科子群可以劃分為核心學(xué)科子群。
3 基于LDA主題模型的領(lǐng)域主題劃分
本研究采用LDA主題模型抽取醫(yī)學(xué)信息學(xué)領(lǐng)域潛在的主題分布,其中劃分的主題數(shù)量K是決定LDA主題模型質(zhì)量的關(guān)鍵參數(shù)。困惑度是對概率模型預(yù)測樣本的量化評估,能夠作為評估LDA主題模型的量化指標(biāo),以幫助確定最有的K值[45]。初步設(shè)定選取20以內(nèi)的主題數(shù)量,設(shè)定K值從1開始取值,步長為1,進行反復(fù)運算,并繪制困惑度的變化曲線,如圖2所示。如圖中曲線所示,當(dāng)K值為9時,模型的困惑度處于極小值,且K值隨后波動開始明顯變小,因此,本文確定最終的主題數(shù)量K為9個。隨后對語料庫進行LDA主題建模,主題抽取結(jié)果如表2所示。本研究列舉每個主題下概率最高的10個詞匯,以描繪各主題內(nèi)容。
最后,需要根據(jù)提取的主題進行文獻的分類,Mann G S等認為,如果一篇文獻中超過10%的概率是由某一主題生成的,則認為這篇文獻屬于該主題,基于次構(gòu)建文獻和主題之間的映射,將一個主題和一組文獻構(gòu)建關(guān)系[41]。因此,本文設(shè)定0.1的閾值,即如果一篇文獻由某一主題生成的概率不小于0.1,則認為這篇文獻屬于該主題。
4 數(shù)據(jù)分析
4.1 基于多樣性維度的學(xué)科交叉態(tài)勢分析
本研究基于引文分析進行學(xué)科交叉主題的識別。對初始數(shù)據(jù)源中的參考文獻進行學(xué)科分類,需要將參考文獻依據(jù)其期刊簡稱映射到相應(yīng)的學(xué)科上。首先,從JCR下載1997—2019年的期刊簡稱和期刊全稱對照表,基于該表將參考文獻所屬的期刊簡稱轉(zhuǎn)化為全稱;然后在WOS Group網(wǎng)站下載2020年更新的期刊—學(xué)科類別映射表,基于此表可以將轉(zhuǎn)換為全稱的期刊名稱投射到其所屬的WOS學(xué)科類目中。但是,僅僅依靠上述方法無法將一部分已經(jīng)被JCR剔除、停止出版以及書寫不規(guī)范的期刊和會議簡稱進行轉(zhuǎn)換,因此,本研究還利用爬蟲技術(shù),將這部分期刊和會議簡稱通過WOS的期刊名稱檢索功能,爬取其所屬的相應(yīng)的WOS學(xué)科類目。得到初始數(shù)據(jù)源中發(fā)表在被WOS收錄的期刊上的、有期刊—學(xué)科映射關(guān)系的有效數(shù)據(jù)為864 970條。統(tǒng)計每個學(xué)科類目下的文獻數(shù)量用于進行醫(yī)學(xué)信息學(xué)學(xué)科交叉性分析,考慮到JCR中部分期刊被歸屬到多個學(xué)科類目,發(fā)表在這些期刊上的文獻在其所對應(yīng)的所有學(xué)科分類上均有計數(shù),表3為參考文獻—學(xué)科類別映射表。
基于Python構(gòu)建醫(yī)學(xué)信息學(xué)領(lǐng)域文獻引文學(xué)科分布矩陣,本研究利用R語言編寫程序語言,利用Chavarro D等所構(gòu)建的WOS學(xué)科類別相似矩陣[42],計算醫(yī)學(xué)信息學(xué)領(lǐng)域各主題的相對多樣性、基尼指數(shù)、信息熵、差異性、Rao-Stirling指數(shù)和Div指數(shù),表4為計算結(jié)果。經(jīng)計算,Div指數(shù)和Rao-Stirling指數(shù)的相關(guān)性系數(shù)為0.96(p<0.001),因此,Div指數(shù)可以有效刻畫領(lǐng)域主題的學(xué)科交叉程度。如表4所示,主題3(心臟信號傳感系統(tǒng))、主題8(基于機器學(xué)習(xí)的特征識別)、主題6(圖像分割和聚類)以及主題5(電子健康技術(shù))的學(xué)科交叉程度較高,可被視為醫(yī)學(xué)信息學(xué)領(lǐng)域的學(xué)科交叉主題。
針對各個主題近10年(2010—2019)的文獻,計算每一年的學(xué)科交叉測度指標(biāo)Div以研究學(xué)科交叉發(fā)展態(tài)勢,結(jié)果如圖3所示??傮w來看,醫(yī)學(xué)信息學(xué)的學(xué)科交叉程度呈隨時間上升的趨勢,但具體來看,不同主題的上升窗口期不盡相同。主題3(心臟信號傳感系統(tǒng))、主題5(電子健康技術(shù))、主題7(電子病歷系統(tǒng))、主題4(健康A(chǔ)pp和使用行為)、主題2(醫(yī)療護理電子系統(tǒng))的學(xué)科交叉程度在近5年呈現(xiàn)波動上升的趨勢,而同時段主題1(隨機治療實驗)、主題9(癌癥治療風(fēng)險評估)、主題8(基于機器學(xué)習(xí)的特征識別)、主題6(圖像分割和聚類)的學(xué)科交叉程度都已經(jīng)趨向平緩。學(xué)科交叉程度的不斷增長表明該主題受到研究學(xué)者的廣泛關(guān)注,更多研究領(lǐng)域被引入,推動該主題進一步發(fā)展,是潛在的學(xué)科熱點和前沿主題;而當(dāng)學(xué)科交叉程度趨向平緩,說明該主題的研究逐漸成熟,選擇的跨學(xué)科合作對象種類和研究路徑趨于穩(wěn)定,形成了較為完善的研究體系。
4.2 基于凝聚性維度的學(xué)科交叉結(jié)構(gòu)分析
基于各個主題的文獻—參考文獻學(xué)科類別矩陣,將其轉(zhuǎn)換為學(xué)科共現(xiàn)矩陣,計算兩兩學(xué)科在同一文獻中同時出現(xiàn)的次數(shù),然后將矩陣導(dǎo)入Gephi軟件進行繪圖,利用Louvain聚類算法進行聚類分析,劃分為不同的學(xué)科群體。為了更加清晰地展示聚類結(jié)果以及該主題下的核心學(xué)科,本研究根據(jù)邊的權(quán)重以及節(jié)點的加權(quán)度,過濾掉權(quán)重較低的節(jié)點和邊,同時依據(jù)中介中心性大小設(shè)定節(jié)點大小繪制學(xué)科共現(xiàn)網(wǎng)絡(luò),主題進行學(xué)科群體劃分的結(jié)果如圖4~圖12所示,然后再通過計算各個節(jié)點的中介中心性評價各個學(xué)科在該主題的影響程度,表5~表13展示了每個主題的中介中心性TOP5的學(xué)科信息。
1)主題1:隨機治療實驗
學(xué)科群體①——以公共衛(wèi)生、環(huán)境衛(wèi)生與職業(yè)衛(wèi)生、醫(yī)學(xué)信息學(xué)、衛(wèi)生保健及服務(wù)等醫(yī)學(xué)學(xué)科為主;學(xué)科群體②——以計算機信息系統(tǒng)、計算機交叉科學(xué)等計算機學(xué)科為主;學(xué)科群體③——以精神病學(xué)、心理學(xué)、兒科等學(xué)科為主。雖然學(xué)科群體①包含的學(xué)科數(shù)量是最少的(21.7%),但是從圖4可以看出學(xué)科群體①所包含的核心學(xué)科是最多的,是該主題的核心學(xué)科子群,相較而言,學(xué)科群體②(49.06%)和學(xué)科群體③(29.25%)所包含的學(xué)科數(shù)量較多,其中的核心學(xué)科數(shù)量卻較少,是該主題的邊緣學(xué)科子群。該主題的學(xué)科交叉程度較弱,個別核心學(xué)科控制了整個學(xué)科群體中學(xué)科之間的交流。
2)主題2:醫(yī)療護理電子系統(tǒng)
主題2可以劃分為3個學(xué)科群體,分別為學(xué)科群體①——以計算機交叉科學(xué)、計算機信息系統(tǒng)、電子電氣學(xué)等與計算機科學(xué)和工程學(xué)相關(guān)的學(xué)科組成;學(xué)科群體②——以醫(yī)學(xué)信息學(xué)、健康護理學(xué)等醫(yī)學(xué)相關(guān)學(xué)科組成;學(xué)科群體③——以醫(yī)學(xué)研究與實驗、外科學(xué)等相關(guān)學(xué)科組成。學(xué)科群體①和學(xué)科群體②都屬于本主題的核心學(xué)科子群,存在重大影響力的學(xué)科很多,節(jié)點間的聯(lián)系也更為緊密,交叉學(xué)科程度和豐富度都很明顯,尤其是學(xué)科群體①和②之間的聯(lián)系非常緊密,這體現(xiàn)出醫(yī)療護理電子系統(tǒng)主題下學(xué)者們主要利用計算機和工程學(xué)技術(shù)來解決醫(yī)學(xué)信息學(xué)的相關(guān)問題。
3)主題3:心臟信號傳感系統(tǒng)
主題3可以劃分為:學(xué)科群體①——以計算機交叉科學(xué)、數(shù)學(xué)與計算生物學(xué)、電子與電氣等計算機科學(xué)與工程學(xué)相關(guān)學(xué)科組成;學(xué)科群體②——以普內(nèi)科、神經(jīng)學(xué)、心臟和心臟系統(tǒng)學(xué)等學(xué)科組成;學(xué)科群體③——多學(xué)科交叉科學(xué)和醫(yī)學(xué)實驗與研究等學(xué)科組成。整體上看,每個學(xué)科群體中都存在中介中心性很強的學(xué)科,相較而言,學(xué)科群體①包含的核心學(xué)科數(shù)量最多,體現(xiàn)了該主題中計算機科學(xué)和工程學(xué)的重要地位。同時,該主題中多學(xué)科交叉科學(xué)也處在很重要的位置,體現(xiàn)了該主題多學(xué)科融合性。與其他主題不同的是,該主題下各學(xué)科中介中心性值沒有特別高的,排名前5的學(xué)科的中介中心度都比較均衡,這體現(xiàn)了“心臟信號傳感系統(tǒng)”主題中學(xué)科互相融合、互相衍生的特征。
4)主題4:健康A(chǔ)pp和使用行為
可以分為3個學(xué)科群體,學(xué)科群體①——以健康服務(wù)、健康政策以及公共健康等為主;學(xué)科群體②——主要包括外科、神經(jīng)科學(xué);學(xué)科群體③——以計算機信息系統(tǒng)和交叉學(xué)科為主。學(xué)科群體①為核心學(xué)科子群,節(jié)點的內(nèi)外部連線都非常豐富,而學(xué)科群體②和學(xué)科群體③的內(nèi)部連接較少,大多是依附于學(xué)科群體①。另外,該主題中介中心性排名前5的學(xué)科都屬于醫(yī)學(xué)大類,這體現(xiàn)了該主題下對其他非醫(yī)學(xué)類學(xué)科的融合較弱。
5)主題5:電子健康技術(shù)
學(xué)科子群①和學(xué)科子群②為核心學(xué)科,學(xué)科子群①中除了醫(yī)學(xué)信息學(xué)、衛(wèi)生護理和服務(wù)等醫(yī)學(xué)學(xué)科,還融入了管理學(xué)、運籌管理科學(xué)、商業(yè)等社會學(xué)相關(guān)學(xué)科;學(xué)科子群②以工程學(xué)學(xué)科和計算機學(xué)科為主。學(xué)科子群①和學(xué)科子群②之間交流十分緊密,體現(xiàn)了該主題學(xué)科合作緊密,學(xué)科應(yīng)用廣泛的特征。
6)主題6:圖像分割和聚類
學(xué)科子群①——以計算機信息系統(tǒng)、計算機交叉學(xué)科、電子電氣工程、生物工程等工程計算機學(xué)科為主;學(xué)科子群②——以醫(yī)學(xué)信息學(xué)、普內(nèi)科等醫(yī)學(xué)相關(guān)學(xué)科為主;學(xué)科子群③——以生物化學(xué)、生物工程等生物學(xué)相關(guān)學(xué)科為主。每個學(xué)科子群都有影響程度較大的學(xué)科子群,整體而言,核心學(xué)科數(shù)量較多,分布較為均勻,學(xué)科交叉結(jié)構(gòu)比較豐富。
7)主題7:電子病歷系統(tǒng)
學(xué)科子群①——以醫(yī)學(xué)信息學(xué)、衛(wèi)生護理和服務(wù)等學(xué)科為主,另外,圖書情報學(xué)科也處在核心學(xué)科的位置;學(xué)科子群②——邊緣學(xué)科子群,主要以管理學(xué)為主;學(xué)科子群③——核心學(xué)科數(shù)量最多,主要是計算機科學(xué)和工程學(xué)相關(guān)學(xué)科。該主題下計算機學(xué)科和工程類學(xué)科的影響顯著,尤其是與計算機科學(xué)相關(guān)的理論和方法在該主題的相關(guān)研究中被廣泛使用。
8)主題8:基于機器學(xué)習(xí)的特征識別
學(xué)科子群①——以計算機科學(xué)和工程學(xué)相關(guān)學(xué)科為主,還包括一些計算機和醫(yī)學(xué)生物學(xué)的交叉學(xué)科,是數(shù)量最多、影響最大的學(xué)科子群;學(xué)科子群②——主要包括普內(nèi)科等醫(yī)學(xué)學(xué)科;學(xué)科子群③——主要是生物學(xué)相關(guān)的交叉學(xué)科;學(xué)科子群④——則是以神經(jīng)科學(xué)為主。該主題主要是以計算機學(xué)科和工程學(xué)學(xué)科知識為主導(dǎo),研究其在各種醫(yī)學(xué)、生物學(xué)領(lǐng)域的作用。
9)主題9:癌癥治療風(fēng)險評估
學(xué)科子群①——以醫(yī)學(xué)信息學(xué)、統(tǒng)計學(xué)與概率論、生物學(xué)為主;學(xué)科子群②——以計算機交叉科學(xué)、交叉科學(xué)、生物工程等學(xué)科為主;學(xué)科子群③——以普內(nèi)科、衛(wèi)生護理和服務(wù)以及健康政策和服務(wù)相關(guān)學(xué)科有關(guān)。該主題相關(guān)研究還是以醫(yī)學(xué)學(xué)科為主,各學(xué)科子群中都存在醫(yī)學(xué)、生物學(xué)相關(guān)的學(xué)科。
5 結(jié) 語
隨著科學(xué)研究逐漸轉(zhuǎn)向基于數(shù)據(jù)密集型的第四范式,學(xué)術(shù)研究的知識發(fā)現(xiàn)模式也在不斷革新,越尖端、前沿的研究越需要突破單一學(xué)科的限制,多學(xué)科交叉的研究范式受到學(xué)者們的廣泛關(guān)注。學(xué)科合作與交流有助于拓寬現(xiàn)有的學(xué)科研究邊界,提出創(chuàng)新性的研究問題,提供更多元的理論基礎(chǔ)和視角。
本研究在梳理前人研究的基礎(chǔ)上,提出基于領(lǐng)域主題的學(xué)科交叉特征識別方法。研究維度上,目前圖書情報領(lǐng)域的交叉科學(xué)研究主要側(cè)重于關(guān)注學(xué)科交叉的演化態(tài)勢,而基于微觀層面的交叉特征研究還較少[7],本研究著眼于學(xué)科交叉研究的微觀層面,補充相關(guān)研究的空白;數(shù)據(jù)來源上,現(xiàn)有學(xué)科交叉主題研究中涉及的數(shù)據(jù)量較小,不利于識別真正的學(xué)科增長點,本研究獲取的數(shù)據(jù)量相較而言較為全面、翔實,能夠提供有利的數(shù)據(jù)支撐;研究方法上,綜合考慮學(xué)科交叉測度的多樣性和凝聚性維度,分為學(xué)科交叉態(tài)勢分析和學(xué)科交叉結(jié)構(gòu)兩階段,能夠更加全面地識別學(xué)科交叉特征,彌補過去研究中單一維度的不足;研究內(nèi)容上,深入學(xué)科交叉主題的態(tài)勢分析,試圖解決以往研究中對學(xué)科交叉點不夠深入的問題。
在學(xué)科交叉態(tài)勢分析上,本研究引入Div學(xué)科交叉測度指標(biāo)以解決Rao-Stirling指標(biāo)的不足,并通過實證研究證明其在領(lǐng)域主題層面的學(xué)科交叉測度的可行性?;贒iv指標(biāo)的時序性分析,發(fā)現(xiàn)主題3(心臟信號傳感系統(tǒng))、主題5(電子健康技術(shù))、主題7(電子病歷系統(tǒng))、主題4(健康A(chǔ)pp和使用行為)、主題2(醫(yī)療護理電子系統(tǒng))的學(xué)科交叉程度在近5年呈現(xiàn)波動上升的趨勢,可能為醫(yī)學(xué)信息學(xué)領(lǐng)域未來的研究熱點和潛在的研究前沿。在學(xué)科交叉結(jié)構(gòu)分析上,繪制學(xué)科共現(xiàn)網(wǎng)絡(luò),使用Louvain聚類算法劃分學(xué)科子群并結(jié)合中介中心性測度指標(biāo)分析不同主題的學(xué)科交叉結(jié)構(gòu),幫助研究人員進一步把握不同主題的學(xué)科交叉動態(tài)。
本研究存在一定局限性,基于引文信息構(gòu)建參考文獻—學(xué)科類別映射表存在一定誤差,年份較早的期刊文獻可能不在WOS期刊映射表,可能會導(dǎo)致早期期刊文獻的學(xué)科交叉程度計算偏小,未來研究可以考慮在引文信息基礎(chǔ)上再融合期刊信息進行學(xué)科類別映射;在學(xué)科交叉結(jié)構(gòu)分析上缺乏對動態(tài)結(jié)構(gòu)的分析,未來研究可以進一步從不同角度完善該研究框架;另外,微觀層面的學(xué)科交叉研究不局限于領(lǐng)域主題,未來研究可以在本研究基礎(chǔ)上繼續(xù)聚焦更加細粒度的交叉特征識別。
參考文獻
[1]光明網(wǎng).設(shè)置交叉學(xué)科:打破科學(xué)割據(jù),作徹底聯(lián)合的努力[EB/OL].https://news.gmw.cn/2021-02/27/content_34647253.htm,2021-05-01.
[2]路甬祥.學(xué)科交叉與交叉科學(xué)的意義[J].中國科學(xué)院院刊,2005,(1):58-60.
[3]中華人民共和國中央人民政府.三部門印發(fā)《關(guān)于高等學(xué)校加快“雙一流”建設(shè)的指導(dǎo)意見》的通知[EB/OL].http://www.gov.cn/xinwen/2018-08/27/content_5316809.htm,2021-05-01.
[4]國家自然科學(xué)基金委員會.關(guān)于2019年度國家自然科學(xué)基金項目申請與結(jié)題等有關(guān)事項的通告[EB/OL].http://nsfc.gov.cn/publish/portal0/tab434/info74695.htm,2021-05-01.
[5]國家自然科學(xué)基金委員會.學(xué)部簡介[EB/OL].http://dids.nsfc.gov.cn/index.html,2021-05-01.
[6]中華人民共和國中央人民政府.國務(wù)院學(xué)位委員會 教育部關(guān)于設(shè)置“交叉學(xué)科”門類、“集成電路科學(xué)與工程”和“國家安全學(xué)”一級學(xué)科的通知[EB/OL].http://www.moe.gov.cn/srcsite/A22/yjss_xwgl/xwgl_xwsy/202101/t20210113_509633.html,2021-05-01.
[7]顧秀麗,黃穎,孫蓓蓓,等.圖書情報領(lǐng)域中的交叉科學(xué)研究:進展與展望[J].情報學(xué)報,2020,39(5):478-491.
[8]Shannon C E.A Mathematical Theory of Communication[J].Bell System Technical Journal,1948,27(3):379-423.
[9]侯海燕,王亞杰,梁國強,等.基于期刊學(xué)科分類的學(xué)科交叉特征識別方法——以生物醫(yī)學(xué)工程領(lǐng)域為例[J].中國科技期刊研究,2017,28(4):350-357.
[10]Brillouin L,Hellwarth R W.Science and Information Theory[J].Physics Today,1956,9(12):39-40.
[11]Porter A L,Chubin D E.An Indicator of Cross-disciplinary Research[J].Scientometrics,1985,8(3):161-176.
[12]Stirling A.A General Framework for Analysing Diversity in Science,Technology and Society[J].Journal of the Royal Society Interface,2007,4(15):707-719.
[13]Zhang L,Rousseau R,Glnzel W.Diversity of References as an Indicator of the Interdisciplinarity of Journals:Taking Similarity Between Subject Fields Into Account[J].Journal of the Association for Information Science and Technology,2016,67(5):1257-1265.
[14]Leydesdorff L.On the Normalization and Visualization of Author Co-citation Data:Saltons Cosine Versus the Jaccard Index[J].Journal of the American Society for Information Science and Technology,2008,59(1):77-85.
[15]曾德明,于英杰,文金艷,等.基于Web of Science分類的學(xué)科交叉融合演化特征分析[J].情報學(xué)報,2020,39(8):872-884.
[16]Rafols I,Meyer M.Diversity and Network Coherence as Indicators of Interdisciplinarity:Case Studies in Bionanoscience[J].Scientometrics,2010,82(2):263-287.
[17]李長玲,紀雪梅,支嶺.基于E-I指數(shù)的學(xué)科交叉程度分析——以情報學(xué)等5個學(xué)科為例[J].圖書情報工作,2011,55(16):33-36.
[18]Freeman L C.Centrality in Social Networks Conceptual Clarification[J].Social Networks,1978,1(3):215-239.
[19]陳賽君,陳智高.領(lǐng)域交叉性分析指標(biāo)與方法新探及其實證研究[J].情報學(xué)報,2013,32(11):1184-1195.
[20]李亞婷.圖書情報學(xué)的學(xué)科交叉研究進展[J].情報科學(xué),2017,35(11):156-160,171.
[21]閔超,孫建軍.學(xué)科交叉研究熱點聚類分析——以國內(nèi)圖書情報學(xué)和新聞傳播學(xué)為例[J].圖書情報工作,2014,58(1):109-116.
[22]李長玲,劉非凡,郭鳳嬌.運用重疊社群可視化軟件CFinder分析學(xué)科交叉研究主題——以情報學(xué)和計算機科學(xué)為例[J].圖書情報工作,2013,57(7):75-80.
[23]李長玲,郭鳳嬌,支嶺.基于SNA的學(xué)科交叉研究主題分析——以情報學(xué)與計算機科學(xué)為例[J].情報科學(xué),2014,32(12):61-66.
[24]李長玲,郭鳳嬌,魏緒秋.基于時序關(guān)鍵詞的學(xué)科交叉研究主題分析——以情報學(xué)與計算機科學(xué)為例[J].情報資料工作,2014,(6):44-48.
[25]杜德慧,李長玲,相富鐘,等.基于引文關(guān)鍵詞的跨學(xué)科相關(guān)知識發(fā)現(xiàn)方法探討[J].情報雜志,2020,39(9):189-194.
[26]Xu H,Guo T,Yue Z,et al.Interdisciplinary Topics of Information Science:A Study Based on the Terms Interdisciplinarity Index Series[J].Scientometrics,2016,106(2):583-601.
[27]Dong K,Xu H,Luo R,et al.An Integrated Method for Interdisciplinary Topic Identification and Prediction:A Case Study on Information Science and Library Science[J].Scientometrics,2018,115(2):849-868.
[28]李長玲,高峰,牌艷欣.試論跨學(xué)科潛在知識生長點及其識別方法[J/OL].科學(xué)學(xué)研究:1-14[2021-03-01].https://doi.org/10.16192/j.cnki.1003-2053.20200828.003.
[29]Chi R,Young J.The Interdisciplinary Structure of Research on Intercultural Relations:A Co-citation Network Analysis Study[J].Scientometrics,2013,96(1):147-171.
[30]商憲麗.基于多模主題網(wǎng)絡(luò)的交叉學(xué)科知識組合模式研究——以數(shù)字圖書館為例[J].情報科學(xué),2018,36(3):130-137,150.
[31]韓正琪,劉小平,寇晶晶.基于Rao-Stirling指數(shù)和LDA模型的領(lǐng)域?qū)W科交叉主題識別——以納米科技為例[J].情報科學(xué),2020,38(2):116-124.
[32]張斌.交叉學(xué)科主題探究:從主題聚類視角[J].情報科學(xué),2020,38(10):49-55.
[33]Raimbault J.Exploration of an Interdisciplinary Scientific Landscape[J].Scientometrics,2019,119(2):617-641.
[34]Blei D M,Ng A Y,Jordan M I.Latent Dirichlet Allocation[J].Journal of Machine Learning Research,2003,3:993-1022.
[35]Piepenbrink A,Nurmammadov E.Topics in the Literature of Transition Economies and Emerging Markets[J].Scientometrics,2015,102(3):2107-2130.
[36]Stirling A.On the Economics and Analysis of Diversity[J].Science Policy Research Unit(SPRU),Electronic Working Papers Series,Paper,1998,28:1-156.
[37]Rousseau R.The Repeat Rate:From Hirschman to Stirling[J].Scientometrics,2018,116(1):645-653.
[38]Leydesdorff L,Wagner C S,Bornmann L.Interdisciplinarity as Diversity in Citation Patterns Among Journals:Rao-Stirling Diversity,Relative Variety,and the Gini Coefficient[J].Journal of Informetrics,2019,13(1):255-269.
[39]Blondel V D,Guillaume J L,Lambiotte R,et al.Fast Unfolding of Communities in Large Networks[J].Journal of Statistical Mechanics:Theory and Experiment,2008,2008(10):10008.
[40]馮佳.研究前沿識別與分析方法研究[D].長春:吉林大學(xué),2017.
[41]Mann G S,Mimno D,McCallum A.Bibliometric Impact Measures Leveraging Topic Analysis[C]//Proceedings of the 6th ACM/IEEE-CS Joint Conference on Digital Libraries,2006:65-74.
[42]Chavarro D,Tang P,Rafols I.Interdisciplinarity and Research on Local Issues:Evidence from a Developing Country[J].Research Evaluation,2014,23(3):195-209.
[43]徐庶睿,章成志,盧超.利用引文內(nèi)容進行主題級學(xué)科交叉類型分析[J].圖書情報工作,2017,61(23):15-24.
[44]章成志,徐庶睿,盧超.利用引文內(nèi)容監(jiān)測多學(xué)科交叉現(xiàn)象的方法與實證[J].圖書情報工作,2016,60(19):108-115.
[45]Brown P F,Pietra S A D,Pietra V J D,et al.An Estimate of an Upper Bound for the Entropy of English[J].Computational Linguistics,1992,18(1):31-40.
(責(zé)任編輯:陳 媛)