王卓昊 徐晨陽(yáng) 江俊鵬 王東
(中國(guó)科學(xué)技術(shù)信息研究所,北京 100038)
根據(jù)國(guó)家統(tǒng)計(jì)局2019年發(fā)布的《科技發(fā)展大跨越 創(chuàng)新引領(lǐng)譜新篇——新中國(guó)成立70周年經(jīng)濟(jì)社會(huì)發(fā)展成就系列報(bào)告之七》,2018年我國(guó)按折合全時(shí)工作量計(jì)算的科研人員總量已達(dá)到419萬(wàn)人年,連續(xù)6年位居世界第一[1]。如果將科研人員視為節(jié)點(diǎn),那么眾多的科研人員就組成了一張巨大的圖或網(wǎng)絡(luò),根據(jù)論文合著、項(xiàng)目合作、師承等關(guān)系,該網(wǎng)絡(luò)可劃分為若干社區(qū)。借助數(shù)據(jù)挖掘技術(shù)從海量的科研數(shù)據(jù)中挖掘出科研關(guān)系網(wǎng)絡(luò),進(jìn)而發(fā)現(xiàn)科研人員社區(qū),對(duì)我國(guó)的科技管理工作具有重要意義:一方面,借助科研人員社區(qū)可以有針對(duì)性地建立一支完備的科研隊(duì)伍,滿足我國(guó)高水平科技項(xiàng)目的研發(fā)需求;另一方面,借助科研人員社區(qū)可以發(fā)現(xiàn)任意兩個(gè)科研人員之間的聯(lián)系緊密程度,有利于踐行項(xiàng)目申報(bào)、職稱評(píng)審等程序的回避原則,維護(hù)科研環(huán)境的公平公正。
目前,關(guān)于科研關(guān)系網(wǎng)絡(luò)發(fā)現(xiàn)的研究已經(jīng)取得了一些進(jìn)展:夏歡等[2]針對(duì)中國(guó)知網(wǎng)學(xué)術(shù)論文,利用Pajek構(gòu)建論文合著網(wǎng)絡(luò),進(jìn)而挖掘出科研社區(qū),并與經(jīng)典的社區(qū)發(fā)現(xiàn)算法Girvan-Newman(GN)算法[3]進(jìn)行了性能對(duì)比;羅紀(jì)雙[4]同樣針對(duì)科研論文,通過(guò)改進(jìn)Louvain算法對(duì)科研合作網(wǎng)絡(luò)進(jìn)行社區(qū)劃分,并基于FR算法優(yōu)化了社區(qū)內(nèi)部的可視化布局;蒲實(shí)等[5]針對(duì)科研網(wǎng)絡(luò)的動(dòng)態(tài)特征,提出一種基于動(dòng)態(tài)科研網(wǎng)絡(luò)表示學(xué)習(xí)的社區(qū)檢測(cè)算法DANE-CD,并與既有算法在準(zhǔn)確率、歸一化互信息和模塊度3個(gè)指標(biāo)上進(jìn)行了對(duì)比。以上研究雖然獲得了一定的成果,但是仍然存在一些問(wèn)題,主要體現(xiàn)在兩點(diǎn):一是現(xiàn)有研究大多基于論文合著或項(xiàng)目合作關(guān)系構(gòu)建社區(qū),沒(méi)有綜合考慮到其他關(guān)系(如同事、合伙人、師承、校友、同鄉(xiāng)等),因此構(gòu)建的科研關(guān)系網(wǎng)絡(luò)不能全面地反映科研人員之間的聯(lián)系緊密程度;二是所使用的社區(qū)發(fā)現(xiàn)算法(如Louvain、GN等)在超大規(guī)模網(wǎng)絡(luò)上的效率不夠高,社區(qū)構(gòu)建和更新的效率較低。
鑒于以上問(wèn)題,本文在科研人員多種關(guān)系的基礎(chǔ)上,對(duì)經(jīng)典的網(wǎng)頁(yè)排名算法PageRank[6]進(jìn)行改進(jìn),提出一種面向科研關(guān)系網(wǎng)絡(luò)的發(fā)現(xiàn)算法,能夠?qū)蒲腥藛T之間的關(guān)系進(jìn)行多維刻畫(huà),建立科研關(guān)系網(wǎng)絡(luò)模型,從單個(gè)科研人員出發(fā),快速發(fā)現(xiàn)該科研人員所處的局部社區(qū)。相對(duì)于現(xiàn)有的科研關(guān)系網(wǎng)絡(luò)發(fā)現(xiàn)方法,本文提出的算法不僅降低了社區(qū)發(fā)現(xiàn)的復(fù)雜度,而且提高了所發(fā)現(xiàn)社區(qū)的可用性。
在現(xiàn)實(shí)世界中,許多系統(tǒng)都可以用網(wǎng)絡(luò)進(jìn)行描述,如社交網(wǎng)絡(luò)、萬(wàn)維網(wǎng)、公路鐵路交通網(wǎng)等,網(wǎng)絡(luò)中的節(jié)點(diǎn)表示系統(tǒng)中的個(gè)體,節(jié)點(diǎn)之間的邊表示個(gè)體之間的關(guān)系。一個(gè)網(wǎng)絡(luò)可認(rèn)為是由若干個(gè)社區(qū)(community)組成的,同一社區(qū)內(nèi)的節(jié)點(diǎn)之間的聯(lián)系較為緊密,而社區(qū)與社區(qū)之間的聯(lián)系較為松散。社區(qū)發(fā)現(xiàn)(Community Detection)算法就是用來(lái)發(fā)現(xiàn)網(wǎng)絡(luò)中的社區(qū)結(jié)構(gòu),主要可分為以下3種。
(1)傳統(tǒng)的社區(qū)發(fā)現(xiàn)算法。這類算法主要分為兩類:第一類是基于圖分割的算法,如譜二分法[7]、Kernighan-Lin(KL)算法[8]等,它們的基本思路是將圖分為預(yù)定義大小的若干個(gè)簇或子圖,使得子圖內(nèi)部的邊數(shù)比子圖之間的邊數(shù)更密集;第二類是基于聚類的方法,包括分層聚類[9]、劃分聚類[10]、譜聚類[11]等,這類算法基于圖的鄰接矩陣表示方法,使用常規(guī)的算法對(duì)其中的子矩陣進(jìn)行聚類。
(2)基于分裂的社區(qū)發(fā)現(xiàn)算法。這類方法基于低相似性刪除網(wǎng)絡(luò)中的簇間的邊,從而將社區(qū)彼此分離,前面提到的GN算法就屬于這類算法。
(3)基于模塊度優(yōu)化的社區(qū)發(fā)現(xiàn)算法。模塊度(modularity)是用來(lái)衡量一個(gè)社區(qū)的劃分是否優(yōu)良的指標(biāo),可以簡(jiǎn)單將其理解為每一個(gè)社區(qū)內(nèi)部的邊的權(quán)重之和減去所有與社區(qū)節(jié)點(diǎn)相連邊的權(quán)重之和。這類方法可進(jìn)一步分為貪心法、模擬退火法、極值優(yōu)化法、譜優(yōu)化法等,前面提到的Louvain算法就屬于貪心法。
上面介紹的是目前較為成熟的社區(qū)發(fā)現(xiàn)方法,可應(yīng)用于大多數(shù)網(wǎng)絡(luò)結(jié)構(gòu)中。除此之外,新的方法也在不斷被提出,例如,對(duì)于更新較為頻繁的網(wǎng)絡(luò),學(xué)者陸續(xù)提出了多種動(dòng)態(tài)社區(qū)發(fā)現(xiàn)算法[12-14];再如,在一些網(wǎng)絡(luò)中,單個(gè)節(jié)點(diǎn)可能同時(shí)屬于多個(gè)社區(qū),即社區(qū)之間存在明顯的重疊情況,針對(duì)這種情況學(xué)者陸續(xù)提出了一些重疊社區(qū)檢測(cè)方法,如Clique percolation[15]、SVINET[16]等。
PageRank算法最早由Google創(chuàng)始人Larry Page和Sergey Brin在1998年提出,是一種對(duì)網(wǎng)頁(yè)重要性進(jìn)行排名的算法,其核心思想是:被很多網(wǎng)頁(yè)所鏈接的網(wǎng)頁(yè)重要性較高,同時(shí)被重要的網(wǎng)頁(yè)所鏈接的網(wǎng)頁(yè)重要性也較高。具體來(lái)說(shuō),互聯(lián)網(wǎng)中的網(wǎng)頁(yè)被視為若干節(jié)點(diǎn),網(wǎng)頁(yè)之間的超鏈接被視為節(jié)點(diǎn)之間的有向邊,每個(gè)節(jié)點(diǎn)的重要性取決于網(wǎng)絡(luò)中其他節(jié)點(diǎn)與該節(jié)點(diǎn)的鏈接數(shù)量,一個(gè)節(jié)點(diǎn)的總鏈接數(shù)越多,則其重要性越高;同時(shí),一個(gè)節(jié)點(diǎn)的總鏈接數(shù)越多,則其被指向的節(jié)點(diǎn)的重要性也越高。該算法通過(guò)PageRank值(PR值)來(lái)衡量節(jié)點(diǎn)的重要性,其計(jì)算方式如公式(1)所示。
其中,i和j表示節(jié)點(diǎn),PRi和PRj表示它們的PR值,Bi表示指向節(jié)點(diǎn)i的節(jié)點(diǎn)集合,Nj表示節(jié)點(diǎn)j所指向的節(jié)點(diǎn)個(gè)數(shù)。
通過(guò)迭代,最終網(wǎng)絡(luò)中所有的節(jié)點(diǎn)都會(huì)計(jì)算得到一個(gè)穩(wěn)定的PR值,但在實(shí)際的網(wǎng)絡(luò)中,可能會(huì)出現(xiàn)等級(jí)下沉(rank sink)的情況,它指的是節(jié)點(diǎn)的入度為0,即沒(méi)有被任何節(jié)點(diǎn)所鏈接的情況,會(huì)導(dǎo)致PR值異常。為了解決該問(wèn)題,可以引入阻尼系數(shù)或稱衰減因子α(0<α<1)對(duì)PR值的計(jì)算方式進(jìn)行修正,如公式(2)所示。
其中,α一般取值為0.85,n是網(wǎng)絡(luò)中的節(jié)點(diǎn)總數(shù);d是線性組合系數(shù),稱為阻尼因子,0≤d≤1。
上面介紹了PageRank算法在網(wǎng)頁(yè)重要性排名方面的應(yīng)用,實(shí)際上該算法可以被用在和圖有關(guān)的問(wèn)題上,如社會(huì)影響力分析[17]、文本聚類[18]等。在本文中,則將PageRank算法應(yīng)用到局部社區(qū)發(fā)現(xiàn)中。
我國(guó)擁有數(shù)量眾多的科研人員,彼此之間形成了一張超大規(guī)模的關(guān)系網(wǎng)絡(luò),即使應(yīng)用前述的Louvain等算法對(duì)該網(wǎng)絡(luò)進(jìn)行社區(qū)發(fā)現(xiàn),其復(fù)雜度也難以想象。因此,本文考慮從局部網(wǎng)絡(luò)入手,探討如何從某個(gè)節(jié)點(diǎn)出發(fā),在局部網(wǎng)絡(luò)中找到該節(jié)點(diǎn)所在的社區(qū),即所謂的局部社區(qū)發(fā)現(xiàn)。
本研究基于科研人員基本屬性數(shù)據(jù)設(shè)計(jì)科研關(guān)系模型,定義科研人員之間存在的多種關(guān)系,提出關(guān)系緊密度的計(jì)算方法。通過(guò)計(jì)算科研人員之間關(guān)系的緊密度,建立由節(jié)點(diǎn)和邊組成的科研關(guān)系網(wǎng)絡(luò),形成一張有向圖。提出一種面向科研關(guān)系網(wǎng)絡(luò)的發(fā)現(xiàn)算法,對(duì)科研關(guān)系網(wǎng)絡(luò)進(jìn)行關(guān)聯(lián)關(guān)系挖掘和分析,實(shí)現(xiàn)以單個(gè)科研人員為核心的局部社區(qū)發(fā)現(xiàn)。
科研人員相關(guān)數(shù)據(jù)主要包括兩部分:一部分是其發(fā)表或署名的各類科技文獻(xiàn),如論文、專利、申報(bào)書(shū)等;另一部分是其在個(gè)人主頁(yè)、機(jī)構(gòu)官網(wǎng)公開(kāi)或在人才數(shù)據(jù)庫(kù)中存儲(chǔ)的自我介紹,一般包括教育背景、工作經(jīng)歷、獲獎(jiǎng)信息等。這些數(shù)據(jù)體現(xiàn)了科研人員之間可能存在的合作/合伙、行政、師承等關(guān)系,為簡(jiǎn)單起見(jiàn),本文將其中的一對(duì)一關(guān)系作為基礎(chǔ),組織形成了科研關(guān)系模型。同時(shí),為刻畫(huà)兩個(gè)科研人員之間的關(guān)系緊密程度,參考項(xiàng)目申報(bào)、職稱評(píng)審等程序中的回避要求,本文對(duì)每種關(guān)系賦以權(quán)重,用于表示關(guān)系的緊密程度??蒲嘘P(guān)系的具體描述如表1所示。
表1 科研關(guān)系描述
需要注意的是,在計(jì)算科技文獻(xiàn)合作關(guān)系和項(xiàng)目/課題合作關(guān)系的權(quán)重時(shí),還需納入時(shí)間因素,這是由于主要考慮當(dāng)前關(guān)系的親密程度,即距當(dāng)前時(shí)間越近的合作理應(yīng)取得更高的權(quán)重,因此,根據(jù)表1計(jì)算出每一次合作的初始權(quán)重后,還需進(jìn)行以下處理,見(jiàn)公式(3)。
其中,w表示每次合作的初始權(quán)重,yearcoo和yearcur分別表示合作年份和當(dāng)前年份,yearstart表示起始年份,只有發(fā)生在yearstart之后的合作才會(huì)被納入考慮。例如,我們僅考慮近十年內(nèi)的合作關(guān)系,即yearstart設(shè)為2012,那么對(duì)于兩位科研人員在2019年合作的論文,若初始權(quán)重w=0.5,則修正后的權(quán)重
此外,考慮到科研人員之間可能存在多項(xiàng)合作,因此科技文獻(xiàn)合作關(guān)系和項(xiàng)目/課題合作關(guān)系的權(quán)重可以進(jìn)行疊加,疊加后的結(jié)果除以該類關(guān)系的最大值進(jìn)行歸一化即可。
定義好科研關(guān)系模型后,即可進(jìn)一步構(gòu)建科研關(guān)系網(wǎng)絡(luò),示例如圖1所示。首先,將每個(gè)科研人員視為一個(gè)個(gè)節(jié)點(diǎn),然后把科研人員之間的關(guān)系轉(zhuǎn)換成無(wú)向的有權(quán)邊,即若兩位科研人員存在某種關(guān)系,則在對(duì)應(yīng)的兩個(gè)節(jié)點(diǎn)之間連上一條邊,邊上的權(quán)重表示這種關(guān)系的強(qiáng)弱。
圖1 科研關(guān)系網(wǎng)絡(luò)構(gòu)建過(guò)程
由于兩位科研人員之間可能同時(shí)存在多種關(guān)系,因此關(guān)系的權(quán)重或邊的權(quán)重可以進(jìn)行疊加,如公式(4)所示。
PageRank算法實(shí)際上屬于隨機(jī)游走模型(Random Walk Model),因此可以基于該模型的思想將PR值的計(jì)算方法寫(xiě)成公式(5)的形式。
可以看出,PageRank算法的主要目的是對(duì)所有節(jié)點(diǎn)按照全局重要性排序,所以在初始化時(shí),算法設(shè)定所有節(jié)點(diǎn)的重要性都相同,然后通過(guò)迭代對(duì)重要性不斷調(diào)整。當(dāng)我們進(jìn)行局部社區(qū)發(fā)現(xiàn)時(shí),實(shí)際上也是對(duì)所有節(jié)點(diǎn)按照重要性排序,因此從理論上來(lái)說(shuō)可以基于PageRank算法實(shí)現(xiàn)。需注意的是,這里的重要性并不是全局重要性,而是相對(duì)于某個(gè)節(jié)點(diǎn)來(lái)說(shuō)的相對(duì)重要性。因此,在初始化時(shí),該節(jié)點(diǎn)的重要性應(yīng)與其他節(jié)點(diǎn)有所區(qū)別,在這個(gè)時(shí)候,PageRank算法就演化成了一種特殊形式,即Personalized PageRank(PPR)?;赑ersonalized PageRank算法,本文提出了一套面向科研關(guān)系網(wǎng)絡(luò)的發(fā)現(xiàn)算法。
在本算法中,首先選定某個(gè)節(jié)點(diǎn)作為源節(jié)點(diǎn),即認(rèn)為該節(jié)點(diǎn)局部社區(qū)的中心。然后計(jì)算其他節(jié)點(diǎn)相對(duì)于源節(jié)點(diǎn)的重要性即PPR值,如公式(6)所示。
在計(jì)算出其他節(jié)點(diǎn)的PPR值后,就可以根據(jù)PPR值由大到小的順序,依次嘗試將其他節(jié)點(diǎn)納入以源節(jié)點(diǎn)為核心的局部社區(qū)中,在這里我們提出一種用于衡量社區(qū)緊密程度的指標(biāo)Φ,當(dāng)某個(gè)節(jié)點(diǎn)加入社區(qū)S后Φ(S)變小了,則認(rèn)為該節(jié)點(diǎn)的加入使得社區(qū)S被強(qiáng)化了,那么就正式納入該節(jié)點(diǎn),否則不納入。Φ(S)的計(jì)算方法如公式(7)所示。
其中,S表示當(dāng)前考慮的局部社區(qū),表示網(wǎng)絡(luò)中由不屬于S社區(qū)的節(jié)點(diǎn)所構(gòu)成的社區(qū)。
至此,可以將面向科研關(guān)系網(wǎng)絡(luò)的發(fā)現(xiàn)算法描述如下。①選定某一科研人員s作為源節(jié)點(diǎn),初始化目標(biāo)社區(qū)S={s};②計(jì)算其他節(jié)點(diǎn)相對(duì)于s的重要程度即PPR值,按照從大到小的順序依次排列;③將當(dāng)前PPR值最大的節(jié)點(diǎn)t納入目標(biāo)社區(qū)S中,即S=S∪{t};④重新計(jì)算社區(qū)的緊密程度Φ(S),若Φ(S)減小了,則將節(jié)點(diǎn)t正式納入社區(qū)S中,否則剔除節(jié)點(diǎn)t;⑤考慮下一個(gè)節(jié)點(diǎn),執(zhí)行第③④步;若Φ(S)小于閾值δ,則認(rèn)為社區(qū)S已經(jīng)飽和,不再接受其他節(jié)點(diǎn);⑥返回社區(qū)S,表示局部社區(qū)發(fā)現(xiàn)完成。
基于上述算法進(jìn)行科研人員局部社區(qū)發(fā)現(xiàn)的過(guò)程如圖2所示。其中,A到G分別表示科研人員節(jié)點(diǎn),首先根據(jù)二者之間存在的各種關(guān)系構(gòu)建關(guān)系網(wǎng)絡(luò),并計(jì)算出邊的權(quán)重。然后,將A視為源節(jié)點(diǎn),通過(guò)面向科研關(guān)系網(wǎng)絡(luò)的發(fā)現(xiàn)算法計(jì)算出其他節(jié)點(diǎn)相對(duì)于A的重要程度即PPR值,然后按照從大到小的順序排列。最后,依次將其他節(jié)點(diǎn)納入以A為核心的目標(biāo)社區(qū)中,直至社區(qū)飽和??梢钥闯?,最終構(gòu)建的社區(qū)包括A、B、E、G、F共5個(gè)節(jié)點(diǎn)。
圖2 科研人員局部社區(qū)發(fā)現(xiàn)過(guò)程
為了說(shuō)明本文所提出的方法的有效性,設(shè)計(jì)實(shí)驗(yàn)進(jìn)行驗(yàn)證。本實(shí)驗(yàn)基于科研人員關(guān)系數(shù)據(jù),提取255項(xiàng)科研人員信息,其中包括科研人員的姓名、工作單位、論文、專利和戶籍關(guān)系等。利用Python對(duì)科研人員數(shù)據(jù)進(jìn)行相關(guān)關(guān)系抽取,得到表1中定義的科技文獻(xiàn)合作關(guān)系、項(xiàng)目/課題合作關(guān)系、行政關(guān)系、師承關(guān)系與合伙關(guān)系等幾類主要的關(guān)系,并根據(jù)上述關(guān)系的親密程度度量方法計(jì)算關(guān)系的權(quán)重。采用Neo4j圖數(shù)據(jù)庫(kù)建立科研人員關(guān)系網(wǎng)絡(luò)的圖模型,以該圖數(shù)據(jù)為基礎(chǔ),利用本文提出的面向科研關(guān)系網(wǎng)絡(luò)的發(fā)現(xiàn)算法進(jìn)行科研關(guān)系網(wǎng)絡(luò)的挖掘和分析,得到以科研人員為核心的社區(qū)。
本文實(shí)驗(yàn)的環(huán)境為Ubuntu 22.04.1 LTS x86_64(Intel Xeon Silver 4208(32)@ 3.200GHz),32GB內(nèi)存。實(shí)驗(yàn)工具為Python3.9.12,Visual Studio Code 1.71.1,Neo4j Community 4.4.10圖數(shù)據(jù)庫(kù),py2neo2021.2.3,numpy1.23.1,Neo4j Graph Data Science(GDS)library 2.1.11以及 MySQL5.7。
實(shí)驗(yàn)數(shù)據(jù)從關(guān)系數(shù)據(jù)庫(kù)MySQL中導(dǎo)出并存儲(chǔ)為CSV格式文件。首先,利用Python中的Pandas庫(kù)對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,包含缺失值填補(bǔ)、異常數(shù)據(jù)清理和數(shù)據(jù)對(duì)齊處理。接著從數(shù)據(jù)中抽取科研人員的關(guān)聯(lián)關(guān)系,并利用Cypher數(shù)據(jù)庫(kù)請(qǐng)求語(yǔ)句將科研人員相關(guān)關(guān)系映射至Neo4j圖數(shù)據(jù)庫(kù)中,建立科研人員關(guān)系網(wǎng)絡(luò)的圖模型,共包含694個(gè)節(jié)點(diǎn)以及3 369個(gè)邊。
基于上面構(gòu)建的科研關(guān)系網(wǎng)絡(luò),采用本文提出的面向科研關(guān)系網(wǎng)絡(luò)的發(fā)現(xiàn)算法,首先計(jì)算以科研人員為中心的各節(jié)點(diǎn)PPR值。接著根據(jù)PPR值進(jìn)行降序排序,根據(jù)社區(qū)緊密程度指標(biāo)將其他節(jié)點(diǎn)組織加入以源節(jié)點(diǎn)為核心的局部社區(qū)中。假設(shè)以科研人員41為核心,計(jì)算PPR值見(jiàn)表2。以科研人員41為核心的局部社區(qū)展示見(jiàn)圖3。
表2 以科研人員41為核心的PPR值
圖3 以科研人員41為核心的局部社區(qū)
對(duì)上述實(shí)驗(yàn)結(jié)果進(jìn)行分析,說(shuō)明本文提出的面向科研關(guān)系網(wǎng)絡(luò)的發(fā)現(xiàn)算法,能夠基于科研關(guān)系網(wǎng)絡(luò)實(shí)現(xiàn)局部社區(qū)的快速發(fā)現(xiàn),驗(yàn)證了本方法的有效性。由于本方法基于局部網(wǎng)絡(luò)進(jìn)行挖掘分析,能夠有效降低社區(qū)發(fā)現(xiàn)的復(fù)雜度,同時(shí)因?yàn)榭紤]的科研關(guān)系更加豐富并且通過(guò)關(guān)系緊密度對(duì)多種科研關(guān)系進(jìn)行歸一化處理,刻畫(huà)科研人員之間的聯(lián)系密切程度,使得所發(fā)現(xiàn)社區(qū)在可用性和實(shí)用性方面有所提升。接下來(lái)將增加實(shí)驗(yàn)數(shù)據(jù)、擴(kuò)展實(shí)驗(yàn)方法、與經(jīng)典方法進(jìn)行對(duì)比分析,進(jìn)一步驗(yàn)證本方法的性能。
本文提出的面向科研關(guān)系網(wǎng)絡(luò)的發(fā)現(xiàn)算法能夠基于科研關(guān)系網(wǎng)絡(luò)進(jìn)行局部社區(qū)發(fā)現(xiàn),其優(yōu)勢(shì)在于涵蓋了更多的關(guān)系類型,在社區(qū)發(fā)現(xiàn)的復(fù)雜度和所發(fā)現(xiàn)社區(qū)的可用性方面具有一定優(yōu)勢(shì),可進(jìn)一步應(yīng)用于面向重大科研需求的科研人員推薦,有針對(duì)性地組建科研隊(duì)伍,同時(shí)在項(xiàng)目申報(bào)、職稱評(píng)審等重要程序中能夠更準(zhǔn)確地發(fā)現(xiàn)人員之間的關(guān)聯(lián)關(guān)系,落實(shí)回避機(jī)制,對(duì)于科技管理工作具有較大意義。
接下來(lái)將進(jìn)一步通過(guò)試驗(yàn)對(duì)上述結(jié)果進(jìn)行驗(yàn)證。同時(shí)圍繞下面3個(gè)問(wèn)題進(jìn)行更深入的研究。
(1)本文所提出的算法建立在關(guān)系網(wǎng)絡(luò)的基礎(chǔ)上,即需要提取出科研人員之間的合作、行政、師承、合伙等關(guān)系,但是由于數(shù)據(jù)和方法上的問(wèn)題,其中某些關(guān)系很難被準(zhǔn)確、完整地提取出來(lái),因此可能會(huì)在不同程度上影響到最終局部社區(qū)發(fā)現(xiàn)效果。
(2)為了簡(jiǎn)單起見(jiàn),科研人員之間的大多數(shù)關(guān)系權(quán)重系數(shù)由人為定義,不夠靈活和精細(xì),也很難保證同一套權(quán)重系數(shù)可以在不同的網(wǎng)絡(luò)中均能取得最佳的表現(xiàn),因此后續(xù)需要進(jìn)一步優(yōu)化權(quán)重系數(shù)的處理方式。
(3)在本文所考慮的科研關(guān)系中,科技文獻(xiàn)合作關(guān)系是主要的組成部分。但是許多科技文獻(xiàn)涉及多個(gè)交叉學(xué)科,可能會(huì)導(dǎo)致最終的社區(qū)內(nèi)部科研人員之間的研究方向的相似性有所降低,這與許多用戶的直觀判斷產(chǎn)生了偏差,即一個(gè)社區(qū)內(nèi)部的科研人員應(yīng)基本屬于同一個(gè)研究方向。