李 翀,王宇宸,2*,杜偉靜,2,何曉濤,劉學(xué)敏,張士波,李樹仁
(1.中國(guó)科學(xué)院計(jì)算機(jī)網(wǎng)絡(luò)信息中心,北京 100190;2.中國(guó)科學(xué)院大學(xué),北京 100049)
(*通信作者電子郵箱wangyuchen@cnic.cn)
科研論文是科研人員重要成果之一,高水平科研論文既可以反映作者的科研水平,一定程度也能反映出研究熱點(diǎn)變化及國(guó)家科研投入變化情況。因此,基于時(shí)間序列對(duì)科研論文進(jìn)行熱點(diǎn)學(xué)科、科研社區(qū)、合著網(wǎng)絡(luò)、人才發(fā)現(xiàn)研究非常有意義。人才作為重大科技成果、科技發(fā)展和社會(huì)進(jìn)步的主體和源動(dòng)力,挖掘優(yōu)秀人才、培養(yǎng)和發(fā)現(xiàn)潛在人才尤為重要。
目前有較多對(duì)優(yōu)秀科研人才挖掘的研究,并取得了一定的成效,不論是整體數(shù)據(jù)挖掘范圍、挖掘精度方面,還是對(duì)科研人員學(xué)術(shù)能力評(píng)價(jià)方面,都取得了不錯(cuò)的效果。如馮嶺等[1]從專利數(shù)據(jù)中抽取發(fā)明人的各個(gè)特征構(gòu)建多層感知機(jī)模型,從而發(fā)現(xiàn)技術(shù)創(chuàng)新人才。江艷萍等[2]基于文獻(xiàn)計(jì)量方法對(duì)全球潛力華人青年學(xué)者進(jìn)行發(fā)現(xiàn)與評(píng)價(jià),通過制定相應(yīng)的檢索策略獲取數(shù)據(jù)集,從數(shù)據(jù)集中提煉出學(xué)者信息,利用篩選指標(biāo)體系和綜合評(píng)價(jià)指標(biāo)體系確定潛力候選人,最后與同學(xué)科領(lǐng)域的標(biāo)桿人物進(jìn)行比較分析,明確潛力候選人的科研水平和學(xué)術(shù)定位。王孟頔等[3]利用Hadoop 計(jì)算平臺(tái),通過網(wǎng)頁(yè)數(shù)據(jù)提取分析關(guān)鍵詞,根據(jù)關(guān)聯(lián)規(guī)則算法挖掘出關(guān)聯(lián)關(guān)鍵詞,采用基于相似項(xiàng)的策略推薦人才。
上述人才挖掘分析算法,在人才發(fā)現(xiàn)和學(xué)者評(píng)價(jià)角度都取得了較好的進(jìn)展,但也存在一定的不足之處。首先在科研成果數(shù)據(jù)的選取上缺乏權(quán)威性,同時(shí)數(shù)據(jù)較為雜亂;其次在人才學(xué)術(shù)評(píng)價(jià)上需要與標(biāo)桿學(xué)者進(jìn)行對(duì)比,具有評(píng)價(jià)的片面性;最后在人才挖掘上多數(shù)算法都屬于廣泛挖掘,缺乏針對(duì)性,并且在計(jì)算上過于復(fù)雜,對(duì)計(jì)算能力要求較高。除此以外還存在學(xué)術(shù)評(píng)價(jià)上不具有時(shí)間序列特性、不能根據(jù)學(xué)者自身特點(diǎn)進(jìn)行公平化評(píng)價(jià)等。
本文聚焦全球最大、覆蓋學(xué)科最多的綜合性學(xué)術(shù)資源WOS(Web Of Science)中收錄的中國(guó)科學(xué)院學(xué)術(shù)論文,在前期工作中,完成對(duì)熱點(diǎn)學(xué)科的學(xué)術(shù)論文語(yǔ)義圖譜構(gòu)建,并采用Louvain 社區(qū)發(fā)現(xiàn)算法(Community Detection)[4]對(duì)研究熱點(diǎn)背后相近研究領(lǐng)域的活躍學(xué)術(shù)圈進(jìn)行挖掘,使人才挖掘研究更具有針對(duì)性。本文主要工作基于前期研究成果,深入研究了相關(guān)人才挖掘算法,結(jié)合學(xué)術(shù)論文語(yǔ)義網(wǎng)絡(luò)屬性和優(yōu)化后的PageRank 人才發(fā)現(xiàn)算法進(jìn)行了設(shè)計(jì)和實(shí)現(xiàn)。實(shí)驗(yàn)表明,基于科研社區(qū)使得人才發(fā)現(xiàn)更有針對(duì)性,能夠快速定位不同學(xué)科方向代表性人才,改進(jìn)后算法使得在對(duì)優(yōu)秀人才挖掘、潛在人才發(fā)現(xiàn)更加精準(zhǔn)。
本章首先介紹關(guān)于人才挖掘領(lǐng)域的一些研究成果,然后介紹基于科研社區(qū)的人才挖掘算法研究并分析比較。
在目前的人才發(fā)現(xiàn)算法研究中,大致可以分為兩類:一類為利用學(xué)者相關(guān)特征進(jìn)行模型訓(xùn)練的監(jiān)督學(xué)習(xí)方法,另一類為通過合著網(wǎng)絡(luò)形式進(jìn)行預(yù)測(cè)的無(wú)監(jiān)督學(xué)習(xí)方法。以馮嶺等[1]研究成果為例,其工作主要是抽取了反映各個(gè)發(fā)明人技術(shù)創(chuàng)新實(shí)力的專利特征。抽取的發(fā)明人特征包括專利申請(qǐng)量、專利總被引用量、合作發(fā)明人數(shù)量、合作發(fā)明人的平均專利申請(qǐng)量、申請(qǐng)人維持的專利數(shù)量以及所申請(qǐng)專利的文本特征等;然后再通過神經(jīng)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練與預(yù)測(cè),并且在其實(shí)驗(yàn)中將神經(jīng)網(wǎng)絡(luò)模型與傳統(tǒng)機(jī)器學(xué)習(xí)模型進(jìn)行了對(duì)比,結(jié)果表明該實(shí)驗(yàn)取得了不錯(cuò)的效果。除此之外,隨著近幾年圖神經(jīng)網(wǎng)絡(luò)與知識(shí)圖譜領(lǐng)域的發(fā)展,也出現(xiàn)了一些新的思路。比如Park 等[5-6]提出的基于圖神經(jīng)網(wǎng)絡(luò)分析知識(shí)圖譜中節(jié)點(diǎn)重要性的方法,利用網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)信息與節(jié)點(diǎn)間謂詞關(guān)系,結(jié)合每個(gè)節(jié)點(diǎn)的自身特征,通過圖神經(jīng)網(wǎng)絡(luò)模型進(jìn)行節(jié)點(diǎn)重要性的預(yù)測(cè)。這個(gè)思路可以應(yīng)用到人才挖掘研究當(dāng)中,但需要合適且權(quán)威的數(shù)據(jù)集用于模型訓(xùn)練。
通過合著網(wǎng)絡(luò)方法進(jìn)行人才發(fā)現(xiàn)的研究也有很多,比如謝瑞霞等[7]的研究是基于合著網(wǎng)絡(luò)構(gòu)建學(xué)者影響力評(píng)價(jià)指標(biāo)。在其評(píng)價(jià)指標(biāo)中,不僅考慮了學(xué)者自身論文的影響力,還通過合著網(wǎng)絡(luò)中節(jié)點(diǎn)的介數(shù)中心度計(jì)算了學(xué)者的網(wǎng)絡(luò)影響力,也就是該學(xué)者在網(wǎng)絡(luò)中的重要性體現(xiàn)。在實(shí)驗(yàn)中,通過將兩種影響力結(jié)合計(jì)算,也取得了不錯(cuò)的效果。
本文充分吸取前面提到的相關(guān)研究的成功經(jīng)驗(yàn),在合著網(wǎng)絡(luò)的基礎(chǔ)上,首先通過學(xué)者論文相關(guān)特征計(jì)算學(xué)者的初始評(píng)分,再結(jié)合PageRank 在合著網(wǎng)絡(luò)上的傳遞性計(jì)算最終的評(píng)分,從而綜合考慮學(xué)者個(gè)人特征與合著網(wǎng)絡(luò)特征的影響,達(dá)到人才挖掘的目的。
在已挖掘的科研社區(qū)基礎(chǔ)上,后續(xù)工作將利用社區(qū)網(wǎng)絡(luò)中心性對(duì)科研社區(qū)中的優(yōu)秀科研人才進(jìn)行挖掘推薦。本節(jié)將對(duì)與此相關(guān)的Degree Centrality、Closeness Centrality、PageRank三個(gè)圖算法進(jìn)行深入研究,其關(guān)系及區(qū)別如圖1所示。
圖1 基于中心性的人才挖掘算法之間的比較Fig.1 Comparison between centrality-based talent mining algorithms
1.2.1 Degree Centrality算法
Degree Centrality 算法可用于在沒有方向的圖譜中,利用度中心性去測(cè)量網(wǎng)絡(luò)中節(jié)點(diǎn)間的相互關(guān)聯(lián)關(guān)系程度,類似于關(guān)聯(lián)關(guān)系矩陣,即表示當(dāng)前節(jié)點(diǎn)與其他所有節(jié)點(diǎn)的直接聯(lián)系總數(shù)[8]。但該種計(jì)算方式存在一定的弊端,如果社區(qū)中節(jié)點(diǎn)規(guī)模增大,則測(cè)量值均會(huì)增大,各節(jié)點(diǎn)的度中心性也會(huì)逐步增高。1994年,Stanley Wasserman 和Katherine Faust針對(duì)該問題提出一個(gè)新的標(biāo)準(zhǔn)化測(cè)量公式,如式(1)所示:
在對(duì)節(jié)點(diǎn)的度中心性進(jìn)行衡量過程中,首先以本身節(jié)點(diǎn)i為初始階段,測(cè)量出自身度中心性;其次測(cè)量出除本身節(jié)點(diǎn)外,其他g-1 個(gè)節(jié)點(diǎn)相連接的可能連接數(shù),從而計(jì)算出與本身節(jié)點(diǎn)i相關(guān)聯(lián)的其他節(jié)點(diǎn)的占比。最終比例范圍為0~1,0表示節(jié)點(diǎn)i不與任何節(jié)點(diǎn)相關(guān)聯(lián),1 表示與所有節(jié)點(diǎn)都有關(guān)系。
Degree Centrality 用于計(jì)算來(lái)自節(jié)點(diǎn)的傳入和傳出關(guān)系的數(shù)量,并用于在圖中查找流行節(jié)點(diǎn)[9]?;谝陨戏治?,在適用性方面,如果試圖通過查看傳入和傳出關(guān)系的數(shù)量來(lái)分析影響力,或者找到各個(gè)節(jié)點(diǎn)的“流行度”,可以使用Degree Centrality算法。
1.2.2 Closeness Centrality 算法
Closeness Centrality 依靠節(jié)點(diǎn)之間的距離判斷節(jié)點(diǎn)間的近鄰程度。首先計(jì)算本身節(jié)點(diǎn)i與網(wǎng)絡(luò)中其他所有節(jié)點(diǎn)之間的距離,并進(jìn)行相加求和,總值越小說明節(jié)點(diǎn)間可達(dá)且路徑越短,即在空間上與其他各節(jié)點(diǎn)越接近,最終發(fā)現(xiàn)處于有利位置的節(jié)點(diǎn),從而控制和獲取組織內(nèi)的重要信息和資源,具體應(yīng)用如文獻(xiàn)[10]。
為更明晰地表達(dá)該距離程度,Bavelas于1950年將計(jì)算的近鄰程度進(jìn)行歸一化定義,定義為近鄰距離計(jì)算的倒數(shù),最終的計(jì)算值取值范圍限定在(0,1),越接近于1 則節(jié)點(diǎn)的中心度越大,每個(gè)節(jié)點(diǎn)的具體計(jì)算公式如式(2)所示:
其中:u代表當(dāng)前節(jié)點(diǎn);n代表圖中節(jié)點(diǎn)的數(shù)量;d(u,v)代表節(jié)點(diǎn)u到節(jié)點(diǎn)v之間的最短距離。
Closeness Centrality 適用于篩選以最快速度傳播信息的節(jié)點(diǎn),其中使用加權(quán)關(guān)系對(duì)評(píng)估交流和行為分析中的交互速度效果展示較為明顯。該算法適用于連接圖中的節(jié)點(diǎn)中心性計(jì)算,但當(dāng)圖中兩個(gè)節(jié)點(diǎn)間沒有路徑時(shí),計(jì)算該節(jié)點(diǎn)的所有距離之和會(huì)出現(xiàn)偏差,緊密度趨向于無(wú)限,最終影響整個(gè)圖的中心性計(jì)算。
1.2.3 PageRank算法
PageRank 算法初始用途是對(duì)網(wǎng)站網(wǎng)頁(yè)重要性進(jìn)行排序,以此來(lái)評(píng)判網(wǎng)頁(yè)產(chǎn)生的影響力,具體計(jì)算如式(3)所示:
其中:u為待評(píng)估頁(yè)面。Bu為頁(yè)面u的鏈入集合。對(duì)于頁(yè)面u來(lái)說,每個(gè)入鏈頁(yè)面自身影響力PR(V)與V頁(yè)面的所有出鏈頁(yè)面數(shù)量之比,作為頁(yè)面V給頁(yè)面u帶來(lái)的影響力。這樣可以將頁(yè)面自身影響力平均分配至其每個(gè)出鏈上,再計(jì)算所有帶給u頁(yè)面的影響之和,便是網(wǎng)頁(yè)u的影響力。
但式(3)存在一些問題,如一個(gè)節(jié)點(diǎn)沒有出鏈或者入鏈,會(huì)出現(xiàn)等級(jí)泄漏或等級(jí)沉沒現(xiàn)象,故提出了一種新的優(yōu)化方式,加入阻尼系數(shù)d,如式(4)所示,這個(gè)阻尼系數(shù)代表用戶通過跳轉(zhuǎn)鏈接進(jìn)入的概率,通常取值0.85。
PageRank 算法通過關(guān)聯(lián)關(guān)系間的緊密程度來(lái)量化彼此間的影響力,通過出鏈入鏈的影響程度,最終確定最優(yōu)影響能力的節(jié)點(diǎn)。PageRank 算法更加適用于關(guān)系較多,且彼此影響力不均勻的關(guān)聯(lián)狀況。這與論文之間引用等關(guān)聯(lián)關(guān)系相似,適用于挖掘關(guān)系復(fù)雜的圖信息。PageRank 算法還存在一些缺點(diǎn),PageRank 算法在使用過程中,過于注重當(dāng)前數(shù)據(jù)特征,周圍關(guān)聯(lián)的節(jié)點(diǎn)會(huì)直接影響當(dāng)前節(jié)點(diǎn)的影響力;除此以外,PageRank 算法考量維度單一,對(duì)于出現(xiàn)較早的頁(yè)面會(huì)因鏈接度較高而提升影響力,沒有時(shí)間序列性。
綜上幾種對(duì)人才挖掘算法的分析,可以看出Degree Centrality 主要是度量節(jié)點(diǎn)的出度與入度,說明當(dāng)前節(jié)點(diǎn)的權(quán)威只受周圍關(guān)聯(lián)節(jié)點(diǎn)影響,應(yīng)用于優(yōu)秀科研人才挖掘上會(huì)具有單一性;另外,出入度計(jì)算上也存在大量重復(fù)計(jì)算,會(huì)導(dǎo)致計(jì)算效率較低。Closeness Centrality 算法主要利用節(jié)點(diǎn)間的距離來(lái)計(jì)算中心性,如果存在沒有相互關(guān)聯(lián)的節(jié)點(diǎn),會(huì)導(dǎo)致計(jì)算結(jié)果偏離正常值,應(yīng)用于優(yōu)秀人才挖掘上會(huì)導(dǎo)致挖掘結(jié)果不準(zhǔn)確。PageRank 算法是計(jì)算網(wǎng)頁(yè)重要性排名的算法,主要利用鏈接關(guān)聯(lián)性進(jìn)行分析,在計(jì)算上將節(jié)點(diǎn)影響力進(jìn)行均分,后進(jìn)行統(tǒng)計(jì)分析來(lái)確定節(jié)點(diǎn)的重要性,這在一定程度上突出了重要節(jié)點(diǎn)的影響力,達(dá)到了較為公平的計(jì)算效果,應(yīng)用于優(yōu)秀人才挖掘上能對(duì)優(yōu)秀人才賦予較大的影響力,從而突出其貢獻(xiàn)度。綜合比較分析,本文人才挖掘算法最終選擇為PageRank算法。
PageRank 算法的使用前提是需要有每位學(xué)者學(xué)術(shù)能力的初始評(píng)分,這能在一定程度上突出優(yōu)秀人才的貢獻(xiàn)度,但應(yīng)用在學(xué)術(shù)論文的人才挖掘上也會(huì)存在一定的不足。首先不能根據(jù)時(shí)間連續(xù)性對(duì)人才進(jìn)行篩選,隨著時(shí)間的變化,優(yōu)秀人才的科研方向和成果會(huì)發(fā)生變化,但PageRank 算法不能動(dòng)態(tài)地對(duì)科研能力進(jìn)行調(diào)整;其次,PageRank 算法評(píng)價(jià)維度單一,只是單一地考慮了關(guān)聯(lián)節(jié)點(diǎn)的影響力,沒有多維度評(píng)價(jià)因素,如論文被引用量、作者發(fā)文量等維度可以在一定程度上體現(xiàn)作者學(xué)術(shù)能力的強(qiáng)弱,提升優(yōu)秀人才挖掘的準(zhǔn)確性。為了解決該問題,達(dá)到更加準(zhǔn)確的人才挖掘效果,有必要對(duì)PageRank算法進(jìn)行了多維度優(yōu)化。
經(jīng)過調(diào)研,本文在實(shí)驗(yàn)中采用了Prathap于2010年提出的一種綜合性評(píng)價(jià)學(xué)術(shù)成果指標(biāo),對(duì)學(xué)者的學(xué)術(shù)能力從學(xué)術(shù)論文數(shù)量以及引用次數(shù)進(jìn)行評(píng)價(jià)。并通過結(jié)合常雨蕭[11]的研究成果,為學(xué)術(shù)指標(biāo)的計(jì)算加入時(shí)間因素、作者署名排序因素;在PageRank 算法中加入了作者間余弦相似度作為影響系數(shù)。將優(yōu)化后的算法應(yīng)用在科研社區(qū)中,進(jìn)行人才發(fā)現(xiàn)。
時(shí)間因素,作者署名排序因素以及學(xué)術(shù)指標(biāo)P(i)的計(jì)算如式(5)~(7)所示。其中作者署名排序是采用了貢獻(xiàn)度等級(jí)分配法[12],并參考了科研成果評(píng)價(jià)研究成果[13]。論文發(fā)表的時(shí)間越早,在學(xué)術(shù)成果指標(biāo)中的影響就越??;作者署名次序越靠后,該論文對(duì)于作者的影響力也越小。通過計(jì)算策略調(diào)整,使得近期活躍的學(xué)者可以得到更高的學(xué)術(shù)指標(biāo)值,更有利于活躍人才的挖掘。
其中:α為尺度系數(shù);Tc為當(dāng)前時(shí)間,Tk為論文發(fā)表時(shí)間;ak為論文k的作者總數(shù),ik為作者i在論文k中的位次,ck為論文k的引用次數(shù);C(i)為作者i的論文引用得分,N(i)為作者i的論文數(shù)目得分。
學(xué)者自身學(xué)術(shù)指標(biāo)值的計(jì)算,見算法1。
算法1 Calculate Initial Score。
輸入 待消歧作者的全部相關(guān)論文數(shù)據(jù)。其中:i表示作者;n表示論文篇數(shù);ak為論文k的作者總數(shù);ck為論文k的引用次數(shù);ik為作者i在論文k中的位次;Tc為當(dāng)前時(shí)間;Tk為論文發(fā)表時(shí)間。
輸出 學(xué)者i的自身學(xué)術(shù)指標(biāo)值。
對(duì)于PageRank 影響力傳遞過程,通過余弦相似度的方式計(jì)算作者節(jié)點(diǎn)間的關(guān)系。具體計(jì)算如式(8)、(9)所示,分別為作者間貢獻(xiàn)影響程度和作者影響力得分。
其中d為PageRank 中的阻尼系數(shù),一般取值為0.85。最終的學(xué)者影響力評(píng)分由多輪迭代后的Imp(i)得出。
PageRank算法的Imp值計(jì)算,見算法2。
算法2 Modified PageRank Algorithm。
輸入 所有作者的自身學(xué)術(shù)指標(biāo)值為Imp,所有作者間的貢獻(xiàn)影響度為Attr,每個(gè)作者的鄰居節(jié)點(diǎn)為neighbors,迭代輪次為n。
輸出 所有作者的最終評(píng)分列表。
操作系統(tǒng)為CentOS 7 64 位,Kernel Linux 3.10.0。開發(fā)環(huán)境為python3.7.3+Neo4j 3.5.13;CPU 為Intel Xeon Silver 4114@2.20 GHz 40核心;內(nèi)存為128 GB。
實(shí)驗(yàn)數(shù)據(jù)為1949—2019年的WOS核心合集數(shù)據(jù)庫(kù)中國(guó)科學(xué)院發(fā)表的4 199 篇計(jì)算機(jī)科學(xué)學(xué)術(shù)論文數(shù)據(jù),通過Neo4j創(chuàng)建論文語(yǔ)義網(wǎng)絡(luò)圖[14],其中有作者19 200 位,機(jī)構(gòu)26 232個(gè),生成Workwith 關(guān)系數(shù)15 799 個(gè),其中實(shí)體類型為Author(作者)、Paper(論文)、Org(作者所屬機(jī)構(gòu));實(shí)體間關(guān)系為Belong to、Write、Workwith(Workwith 中包含屬性Weight)。如圖2所示。
圖2 論文語(yǔ)義實(shí)體關(guān)系示意圖Fig.2 Paper entity relationship diagram
在學(xué)術(shù)語(yǔ)義網(wǎng)絡(luò)圖基礎(chǔ)上,應(yīng)用Louvain社區(qū)發(fā)現(xiàn)算法對(duì)活躍科研社區(qū)進(jìn)行挖掘[15]。通過使用模塊度和模塊度收益進(jìn)行評(píng)價(jià)[16],成功挖掘出模塊度收益較高的前10個(gè)活躍科研社區(qū),其分布如表1所示。
本實(shí)驗(yàn)是在計(jì)算機(jī)科學(xué)領(lǐng)域挖掘出活躍度前10 個(gè)科研社區(qū)基礎(chǔ)上(見表1)對(duì)活躍科研人才進(jìn)行挖掘。
表1 社區(qū)人數(shù)及社區(qū)中論文數(shù)量表Tab.1 Number of communities and the number of papers in communities
實(shí)驗(yàn)分為兩個(gè)部分:一是根據(jù)式(4)采用優(yōu)化前的PageRank 算法對(duì)社區(qū)人才進(jìn)行挖掘。在優(yōu)化前的算法中,得分值計(jì)算只利用了語(yǔ)義圖譜中作者節(jié)點(diǎn)間關(guān)系,而沒有考慮作者節(jié)點(diǎn)自身特征。二是根據(jù)式(9)采用優(yōu)化后的PageRank算法進(jìn)行計(jì)算,綜合考慮了作者自身節(jié)點(diǎn)的多個(gè)特征因素,并且作者間的關(guān)系也使用作者間貢獻(xiàn)影響程度值進(jìn)行了改進(jìn),使得不同鄰居節(jié)點(diǎn)對(duì)中心節(jié)點(diǎn)的影響程度具有獨(dú)特性。
本文以活躍度排名第一的141 號(hào)社區(qū)進(jìn)行的人才挖掘?yàn)槔?,?yōu)化前后的挖掘結(jié)果對(duì)比如表2和表3所示。
表2 活躍人才排名表(優(yōu)化前)Tab.2 Excellent talent ranking table(before optimization)
表3 活躍人才排名表(優(yōu)化后)Tab.3 Excellent talent ranking table(after optimization)
對(duì)于優(yōu)化前后的兩張表中的優(yōu)秀人才挖掘結(jié)果,本文利用自然科學(xué)基金委項(xiàng)目數(shù)據(jù)以及人才個(gè)人信息對(duì)挖掘結(jié)果進(jìn)行了驗(yàn)證分析,同時(shí)也對(duì)優(yōu)化的效果進(jìn)行了分析。
首先對(duì)挖掘結(jié)果的準(zhǔn)確性進(jìn)行分析,使用了較為權(quán)威的國(guó)家自然科學(xué)基金委員會(huì)項(xiàng)目數(shù)據(jù)對(duì)結(jié)果進(jìn)行佐證。八位學(xué)者在自然科學(xué)基金委中的項(xiàng)目數(shù)據(jù)如圖3 所示。八位學(xué)者中有七位都在國(guó)家自然科學(xué)基金委中都承擔(dān)有項(xiàng)目,其中有一位學(xué)者博士剛畢業(yè)尚無(wú)基金項(xiàng)目。另外,經(jīng)查證八位均為領(lǐng)域內(nèi)國(guó)家級(jí)或地方優(yōu)秀人才,說明了優(yōu)化改進(jìn)后的學(xué)術(shù)成果指標(biāo)和PageRank算法可以在人才挖掘方面較為準(zhǔn)確。
圖3 國(guó)家自然科學(xué)基金委員會(huì)項(xiàng)目數(shù)據(jù)統(tǒng)計(jì)Fig.3 Statistics of projects ofthe National Natural Science Foundation of China
其次對(duì)算法優(yōu)化有效性進(jìn)行分析,通過表3 中的分?jǐn)?shù)變化,可以看到受多個(gè)特征因素以及周邊關(guān)聯(lián)作者的得分變化的影響,八位學(xué)者的得分變化幅度不均。其中署名位次越靠前,論文發(fā)表時(shí)間越晚的學(xué)者得分增加幅度越大。以第四位與第五位學(xué)者為例,因?yàn)榧尤肓耸鹈樞蛞蛩?,在?yōu)化后排序發(fā)生了變化。這說明多個(gè)特征因素的加入會(huì)對(duì)學(xué)者的得分有著不同幅度的影響,進(jìn)而能使學(xué)者的最終得分更客觀、科學(xué)。
本文基于WOS 中收錄的中國(guó)科學(xué)院學(xué)術(shù)論文數(shù)據(jù),在構(gòu)建學(xué)術(shù)論文語(yǔ)義網(wǎng)絡(luò)圖和Louvain 科研社區(qū)發(fā)現(xiàn)結(jié)果的基礎(chǔ)上,將人才挖掘范圍聚焦于活躍科研學(xué)術(shù)圈,對(duì)PageRank 人才挖掘算法加入論文發(fā)表時(shí)間因子、作者署名排序遞減模型、周圍作者節(jié)點(diǎn)對(duì)當(dāng)前節(jié)點(diǎn)的影響因素、論文被引用量等指標(biāo)進(jìn)行算法優(yōu)化,使得人才挖掘更加客觀有效。實(shí)驗(yàn)結(jié)果表明,該算法具有一定的準(zhǔn)確性和有效性,對(duì)優(yōu)秀人才和潛在人才發(fā)現(xiàn)有一定的參考意義;同時(shí)也在一定程度證明了從高水平學(xué)術(shù)論文成果發(fā)現(xiàn)人才的可能性。