方思越 王學昭
1. 中國科學院文獻情報中心 北京 100190;
2. 中國科學院大學經(jīng)濟與管理學院 北京 100190
科研合作對科學發(fā)展和技術創(chuàng)新具有重要意義。在科學研究不斷深入和發(fā)展的過程中,研究的問題趨于復雜化,往往需要依靠合作解決。多項研究證實了科研合作有助于科研產(chǎn)出和科研質量的提高,促進科研主體的創(chuàng)新。20世紀70年代,Beaver等[1]在研究中指出學者的科研合作程度越高,科研產(chǎn)出和科研質量就越高。邱均平等[2]的研究也發(fā)現(xiàn)作者的合作程度與科研產(chǎn)出的學術影響力正相關關系顯著。除了學者之間的科研合作,產(chǎn)學研之間的科研合作也有積極正面的影響,如學者發(fā)表的科技文獻數(shù)量有所增加[3-4],而企業(yè)的持續(xù)性創(chuàng)新也得到了促進[5]。
對科研合作的研究也是科學學和科學計量學的重要分支。早在20世紀60年代初,科學計量學奠基人Price就開始對科研合作進行計量研究[6]。而隨著網(wǎng)絡分析理論、方法和技術的日益發(fā)展,從科研網(wǎng)絡出發(fā)的合作研究也日益增長。社會網(wǎng)絡方法的引入也為合作關系的考察提供了新的視角[7]。美國情報學者Robert M.Clark[8]認為,最高級形式的情報分析是對可能發(fā)生的情況進行預測的結構性思考,真正的情報分析總是預測性的。因此,在科研合作關系的研究中,對潛在合作關系進行預測顯得尤為重要。如何準確地預測識別潛在的合作伙伴,也是近年來圖書情報學研究的重要內容[9]。有很多研究領域相同、研究內容相似的作者由于時間、地理位置等原因無法合作,但是他們之間存在著潛在合作的可能[10]。當前國內外基于科研網(wǎng)絡的潛在合作關系預測研究已有部分成果,但尚缺乏系統(tǒng)總結?;诖耍疚耐ㄟ^文獻調研法,重點從方法理論層面解釋基于科研網(wǎng)絡的潛在合作關系預測研究進展和研究趨勢。
梳理基于科研網(wǎng)絡的潛在合作關系預測研究,首先需要界定研究主題。本研究中的科研網(wǎng)絡指基于科研合作構造的網(wǎng)絡,而科研合作可以被看作兩個或兩個以上科研人員或組織共同致力于同一研究任務,通過相互配合、協(xié)同工作而實現(xiàn)科研產(chǎn)出最大化目標的一種科學活動,其本質是合作者之間的資源共享[11],合作發(fā)表科研成果、形成研究的知識產(chǎn)權是科研合作的最主要表現(xiàn)形式[12]??蒲蓄I域的潛在合作關系指科研主體有可能產(chǎn)生合作但尚未產(chǎn)生合作的隱藏關系。綜上,本研究需要梳理的文獻包含兩個要素:(1)構建了科研網(wǎng)絡;(2)設計了預測潛在合作關系的方法。
基于對研究主題的界定,本研究期望解決的問題有:(1)基于科研網(wǎng)絡的潛在合作關系預測研究的發(fā)文量和逐年變化趨勢如何?主要分布在什么期刊上?(2)構建的科研網(wǎng)絡類型有哪些?潛在合作關系預測的方法有哪些?(3)當前研究方法的局限性是什么?未來潛在合作關系預測方法的發(fā)展方向可能是什么?
本研究數(shù)據(jù)來源于中國知網(wǎng)(CNKI)數(shù)據(jù)庫和科睿唯安Web of Science數(shù)據(jù)庫。根據(jù)研究問題,組合“合作”和“預測”相關的關鍵詞構建檢索式,檢索邏輯是“并含”。在CNKI中限定來源類別為北大核心和CSSCI,檢索式為“TI=’合作’*(’探測’+’預測’+’潛在’+’機會’+’發(fā)現(xiàn)’+’推薦’)”,檢索得到246條結果;在Web of Science中限定來源類別為SSCI和SCIE,檢索式為“TS=(scien*) AND TI=((“cooperat*” OR “collaborat*” OR “co*author*”O(jiān)R “partner*”) AND (“recommed*” OR“predict*” OR “forecast*”))”,按照文章類型為article或review article進行精煉,得到84條結果(檢索時間:2021年8月8日)。
對檢索到的文獻進行篩選,剔除與研究主題不相關的文獻。剔除重復文獻,閱讀文章標題和摘要,去掉和潛在合作關系發(fā)現(xiàn)無關的文獻,最終得到中文文獻37篇,英文文獻13篇,這50篇文獻組成本文的目標文獻集。
針對本研究的研究問題,首先對目標文獻做計量分析,對其發(fā)文趨勢和期刊分布進行描述。然后閱讀目標文獻,對從預測方法層面對科研領域潛在合作關系預測方法進行梳理和分析,最后對未來的研究方向提出改進建議。
中文文獻中,第一篇科研領域潛在合作關系預測研究相關文獻出現(xiàn)于2013年,自2014年起,國內關于潛在合作關系預測的研究有明顯的增長,峰值出現(xiàn)在2019年;外文的第一篇相關文獻出現(xiàn)在2014年,相關研究數(shù)量相對穩(wěn)定如圖1所示。截止論文成稿日,2021年的文獻尚未完全收錄。發(fā)文趨勢說明目前對潛在合作關系的研究還有增長的空間。
圖1 目標文獻集年份分布圖
對文獻分布的期刊做梳理,可得到已發(fā)表文獻的期刊分布如圖2所示。相關文獻收錄量排名前三的期刊為《情報學報》《情報理論與實踐》、Scientometrics和《情報科學》。從文獻的期刊分布看,潛在合作關系預測的研究多發(fā)表在圖書情報領域的期刊中,涉及數(shù)據(jù)科學研究、科學學研究、計算機科學研究和系統(tǒng)工程研究。
圖2 目標文獻集期刊分布圖
現(xiàn)有研究中,科研領域的潛在合作可發(fā)生在不同的科研主體之間,如學者-學者、高校-高校、高校-企業(yè)等。對潛在合作關系的預測,主要依據(jù)科研主體的研究領域、研究興趣、科研主體間的社會關系等預測潛在合作機會。對基于科研網(wǎng)絡的潛在合作預測研究進行梳理,發(fā)現(xiàn)多數(shù)研究都包含網(wǎng)絡構建、特征提取與表示、合作預測和預測結果評價模塊,將其視為潛在合作關系預測的一般流程,如圖3所示。
圖3 科研領域潛在合作預測的一般流程
2.2.1 網(wǎng)絡構建
根據(jù)網(wǎng)絡節(jié)點、邊的類型的不同,構建的網(wǎng)絡可以分為同質網(wǎng)絡、異質網(wǎng)絡和二分網(wǎng)絡如表1所示,同質網(wǎng)絡對數(shù)據(jù)的處理較為簡單,與同質網(wǎng)絡相比,異質網(wǎng)絡和二分網(wǎng)絡包含相對更豐富的信息。用不同的形狀代表不同的節(jié)點類型,可畫出這三種網(wǎng)絡的示意圖如圖4所示。
表1 網(wǎng)絡構建類型
圖4 網(wǎng)絡類型示意圖
同質網(wǎng)絡的節(jié)點為同一類型,邊也為同一類型,如合作網(wǎng)絡[13]、引用網(wǎng)絡[14]、共現(xiàn)網(wǎng)絡[15,16]。合作網(wǎng)絡一般由共著關系構建,在作者合作網(wǎng)絡中,一個節(jié)點表示一位學者,節(jié)點間的邊表示兩人共同發(fā)表了一篇文章;在專利權人合作網(wǎng)絡中,一個節(jié)點表示一個專利權人,節(jié)點間的邊表示兩個專利權人共同申請了一項專利。以作者為節(jié)點的引用網(wǎng)絡中,一個節(jié)點表示一位學者,其與合作網(wǎng)絡的區(qū)別在于邊的含義,如共引網(wǎng)絡中的邊代表共引關系,即兩位作者共同引用一篇文獻。共現(xiàn)網(wǎng)絡根據(jù)科研主體的研究內容構建,在作者-關鍵詞耦合網(wǎng)絡中,一個節(jié)點表示一位學者,節(jié)點間的邊表示兩人發(fā)表的文獻中有相同的關鍵詞;在專利權人-分類號耦合網(wǎng)絡中,一個節(jié)點表示一位專利權人,節(jié)點間的邊表示兩個專利權人申請的專利中有相同的分類號。
異質網(wǎng)絡是不同種類型節(jié)點和邊形成的網(wǎng)絡。異質網(wǎng)絡如作者-關鍵詞二模網(wǎng)絡[17,18]的節(jié)點為作者和關鍵詞,邊為作者間合作關系、關鍵詞與作者的對應關系,直觀展現(xiàn)作者與各研究對象、主題或方法間的對應關系;再如李睿等根據(jù)新加坡在中國申請并已授權的有效發(fā)明專利構建國家-技術二模網(wǎng)絡[19],網(wǎng)絡節(jié)點為中國和新加坡兩國的專利分類號,邊為兩國專利分類號間的引用關系。
二分網(wǎng)絡的所有節(jié)點可以分為兩個部分,僅不同類型的節(jié)點存在連邊,如韓菁等利用專利數(shù)據(jù)構建多層網(wǎng)絡,其中包含知識-合作二分網(wǎng)絡,該網(wǎng)絡的節(jié)點為發(fā)明人和知識,邊為發(fā)明人和知識之間的聯(lián)系[20]。
2.2.2 特征提取與表示
潛在合作關系預測中的特征可以分為網(wǎng)絡中的節(jié)點內容特征和網(wǎng)絡結構特征。
(1)節(jié)點內容特征
節(jié)點內容特征的提取和表示主要從科研主體發(fā)表的科技文獻入手,如提取作者發(fā)表文獻中的關鍵詞。關鍵詞作為論文研究內容最直接的表達形式,高度概括了文獻的基本內容,如陳衛(wèi)靜等使用改進的TF-IDF算法計算關鍵詞的權重,構建作者-關鍵詞權重矩陣[9]。盡管基于關鍵詞的方法簡單易用,但其語義信息較弱,因此部分學者引入基于語義分析的文本挖掘技術對節(jié)點屬性特征進行表示。溫亮等[21]使用SAO(Subject-Action-Object)語義分析的方法,提取專利信息的語義結構。劉萍等[15]使用LDA(Latent Dirichlet Allocation)模型構建作者的興趣模塊,王菲菲等[13]也使用LDA模型獲取機構-主題分布情況。相似地,蒲姍姍[22]引入作者關系的主題模型AT(Author-Topic Model)提取專家的知識結構與研究興趣,AT和LDA類似,都是包含詞-主題-作者的三層貝葉斯概率模型。部分學者提取不止一項屬性特征,如熊回香等[23]利用“百度學術”平臺搜集學者信息、學術合作信息、科研成果信息和研究內容關鍵詞等構建學者檔案。林原等[24]在抽取了學者的簡稱、全稱、關鍵詞、地址等信息的基礎上,利用Word2Vec表示學習模型進行學習,得到異質信息表示向量。
(2)網(wǎng)絡結構特征
網(wǎng)絡結構的特征和表示主要從網(wǎng)絡結構入手,挖掘網(wǎng)絡相關的特征,如節(jié)點位置、網(wǎng)絡結構、網(wǎng)絡模體等?;诠?jié)點位置和網(wǎng)絡結構,部分學者使用網(wǎng)絡表示學習的方法將網(wǎng)絡中的節(jié)點轉化為向量表示。如張金柱等[25]使用LINE(Large-scale information network embedding)網(wǎng)絡學習表示方法,融合節(jié)點間的共同鄰居信息作為網(wǎng)絡結構信息,形成相應的向量表示。林原等[26]以作者、機構、關鍵詞為節(jié)點,共現(xiàn)關系為邊構建異質信息網(wǎng)絡,使用node2vec網(wǎng)絡表示學習方法學習節(jié)點在網(wǎng)絡中的位置聯(lián)系,實現(xiàn)對各個節(jié)點的向量化表示。Zhao等[27]采用SkipGram模型對學者的動態(tài)結構特征進行編碼,構建基于學者向量的學術合作關系預測模型。劉云楓等[28]引入元路徑的概念,在異質網(wǎng)絡的基礎上計算基于元路徑與元結構的作者間關系序列,并作為word2vec模型網(wǎng)絡表示學習的語料。網(wǎng)絡模體是網(wǎng)絡的微觀結構,即真實網(wǎng)絡中頻繁出現(xiàn)的由少數(shù)個體組成的小規(guī)模同構子圖,網(wǎng)絡中的模體可以反應科研主體的合作模式[29]。曹紅艷等[30]提取了科學家合作網(wǎng)中的8個模體特征,在模體特征基礎上進行潛在合作預測。
2.2.3 合作預測
合作預測主要采用基于相似性的方法和基于機器學習的方法。
(1)基于相似性的方法
基于相似性的方法通過節(jié)點的屬性特征和(或)網(wǎng)絡的結構特征比較節(jié)點間的相似度,相似性越大,兩個節(jié)點越有可能產(chǎn)生連邊,即合作關系。多數(shù)學者利用指標計算相似性,再根據(jù)指標運算結果判斷潛在合作情況。計算相似性的指標又可根據(jù)特征的不同分為基于內容特征的文本相似性指標和基于網(wǎng)絡結構的節(jié)點拓撲相似度指標。文本相似性指標部分由作者定義,部分使用已有指標,如關鍵詞耦合強度指標[9],潛在合作空間指數(shù)[31],JS距離[15],KL距離[13]和余弦相似度指標[21,32,33]如表2所示。
表2 基于內容特征的文本相似性指標
基于網(wǎng)絡結構的拓撲相似度指標多采用鏈路預測中的相似性指標,如Yan等從作者、機構和國家三個層面構造合作網(wǎng)絡,使用CN、Jaccard、AA等8個鏈路預測指標對這三個網(wǎng)絡進行研究[34];王菲菲等[13]通過論文和專利兩個層面的機構合作網(wǎng)絡探測產(chǎn)學研的潛在合作機會,在合作網(wǎng)絡中使用CN、Salton、Jaccard等8個鏈路預測指標得到新的潛在合作機構邊,按照融合值進行降序排序,選擇前5連邊作為潛在合作預測結果。鏈路預測中的相似性指標又可分為基于局部信息的相似性指標、基于路徑的相似性指標和基于隨機游走的相似性指標,目標文獻集中主要被應用到的指標如表3所示。
表3 基于網(wǎng)絡結構的拓撲相似度指標
部分學者將這兩類指標結合起來進行潛在合作預測。劉竟和孫薇[33]考慮網(wǎng)絡中的路徑相似性和研究者科研興趣相似性,路徑相似性用Katz指標計算,科研興趣由作者發(fā)表文獻的題目、關鍵詞和摘要中提取的術語的頻次-逆文檔頻次分數(shù)值表示,相似度使用余弦距離計算,二者融合,預測潛在科研合作關系。相似地,林原等[35]建立卓越大學聯(lián)盟機構合作網(wǎng)絡和主題網(wǎng)絡,借助Katz指標和余弦距離衡量卓越大學聯(lián)盟與國內外高校間合作機會。韓菁等[20]以專利合作關系為研究對象,從CN、PA、Jaccard等6個鏈路預測指標中選擇最優(yōu)指標和5個基于知識屬性的相似性指標分別結合起來構建多層鏈路預測算法,在新能源汽車領域進行實驗分析,發(fā)現(xiàn)混合指標有較好的預測效果。
(2)基于機器學習的方法
基于機器學習的方法將合作預測看作二分類問題,兩個節(jié)點有連邊為正類,無連邊為負類,通過無監(jiān)督或有監(jiān)督的機器學習方法預測新科研主體節(jié)點對的連邊屬于正類或負類的概率[36]。余傳明等[37]從DeepWalk、node2vec、LINE和SDNE四種網(wǎng)絡表示學習方法中選擇效果相對較好的方法作為代表構建了一個集成模型,利用邏輯回歸計算節(jié)點對之間產(chǎn)生鏈接的概率值。Nikos等[38]構建了一個包含結構化和非結構化數(shù)據(jù)的科學知識圖,對其文本和結構信息進行特征提取,最后使用邏輯回歸進行二分類。
部分學者將鏈路預測和機器學習結合起來,構建準確性更高的預測方法。Guns等[39]搜集非洲、中東和東南亞在結核病研究上的研究合作,構建加權城市合作網(wǎng)絡,使用CN、Jaccard、AA、加權的SimRank等7個鏈路預測指標進行潛在合作的預測,然后聚合不同預測指標的預測效果,構建隨機森林分類器預測下一個時期發(fā)生鏈接的相對強度。呂偉民等[40]的研究基礎上改進得到極端隨機樹算法,構建加權作者合作網(wǎng),以不同鏈路預測指標作為特征輸入,使用改進算法進行分類,利用遍歷算法求取分類結果的最優(yōu)權重組合。
2.2.4 預測結果評價
基于網(wǎng)絡結構指標、混合指標或機器學習方法預測的潛在合作關系往往存在對算法準確度的評價,常用的評價指標有AUC、Precision和Ranking Score。AUC側重于從整體上衡量算法的精確度,Precision考慮排在前L位的邊預測得是否準確,Ranking Score更多考慮所預測的邊的排序[41]。
表4 評價指標
基于科研網(wǎng)絡的潛在合作關系預測的相關研究自2013年興起,穩(wěn)步發(fā)展至今,是圖書情報領域的重要研究內容之一。對相關文獻進行梳理,得到潛在合作關系預測的一般流程:網(wǎng)絡構建、特征提取與表示、合作預測、預測結果評價。不同類型的同質網(wǎng)絡、異質網(wǎng)絡和二分網(wǎng)絡是潛在合作預測的基礎,學者們在網(wǎng)絡中提取節(jié)點內容特征或網(wǎng)絡結構特征,在特征提取和表示上趨向于更全面、準確地描述科研主體的特征,將特征向量化。合作預測的方法可分為基于相似性的方法和基于機器學習的方法,前者通過比較內容或結構相似性的大小預測連邊的可能性,引入多類指標;后者將是否產(chǎn)生連邊看作二分類問題,引入機器學習中的分類算法。為了衡量預測結果的準確性,使用評價指標進行判斷,不同的研究根據(jù)研究問題選擇適用于當前研究的評價指標。
就目標文獻來看,當前關于潛在合作關系預測的研究存在一定的局限性。從研究領域來看,多數(shù)潛在合作預測研究實施在學術合作網(wǎng)絡中,對產(chǎn)學研合作的研究比較有限;從數(shù)據(jù)層面上看,主流使用期刊論文和專利數(shù)據(jù),對科研社交網(wǎng)站信息[23]做了有限的嘗試;從網(wǎng)絡構建上看,多數(shù)研究在較小規(guī)模的數(shù)據(jù)集上運行,如出現(xiàn)頻次大于一定閾值的科研主體形成的網(wǎng)絡,這使得合作預測一般出現(xiàn)在高產(chǎn)的科研主體之間,但產(chǎn)出較低的科研主體也應得到重視;從研究結果來看,與實際的聯(lián)系并不緊密,對實際合作的引導有待提升。
隨著信息化,智能化的迅速發(fā)展,科研領域潛在合作關系預測可能有以下發(fā)展方向:
(1)產(chǎn)學研潛在合作關系預測。與學術潛在合作關系不同,產(chǎn)學研各主體間的相似性不一定預示著合作,因此在預測方面需要考慮更多因素,如企業(yè)規(guī)模,產(chǎn)學研主體性質等。
(2)基于多數(shù)據(jù)源的潛在合作關系預測。從科研主體研究主題、研究興趣、社會關系、所處地域等多個視角搜集數(shù)據(jù),利用數(shù)據(jù)。
(3)大規(guī)??蒲泻献骶W(wǎng)絡的合作關系預測。構建大數(shù)據(jù)集,進行全部科研主體的科研合作預測,其中科研主體可能來自不同的研究領域。
(4)多特征融合的表示方法改進。將多種特征融入到表示學習方法中,構建更全面高效的計算模型。
(5)機器學習方法的改進。構建適用于潛在合作預測的機器學習模型。