蔣馨劍,周艷波
(浙江工業(yè)大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,杭州 310023)
科技論文作為科研技術(shù)人員公開其學(xué)術(shù)研究成果的主要方式,它可以為相關(guān)行業(yè)提供重要的理論和應(yīng)用基礎(chǔ).準(zhǔn)確評(píng)價(jià)學(xué)術(shù)論文的學(xué)術(shù)價(jià)值和影響力,可以幫助科學(xué)技術(shù)人員快速發(fā)掘高質(zhì)量、代表科技發(fā)展趨勢(shì)的論文,也可以為各類學(xué)術(shù)基金選擇資助對(duì)象、科研機(jī)構(gòu)選拔評(píng)聘人才提供參考依據(jù).因此準(zhǔn)確評(píng)價(jià)科技論文的學(xué)術(shù)價(jià)值和影響力十分重要[1].科技論文的評(píng)價(jià)重點(diǎn)是論文的科學(xué)價(jià)值以及創(chuàng)新性,而兩者都是主觀、抽象的概念,除了人工評(píng)價(jià),很難準(zhǔn)確評(píng)價(jià)科技論文的價(jià)值.
如今科技論文數(shù)據(jù)的數(shù)字化給人們分析數(shù)據(jù)提供了便利[2],通過數(shù)據(jù)分析,量化對(duì)科技論文的評(píng)價(jià),這種方法簡(jiǎn)單客觀,具有較好的實(shí)用性.目前,當(dāng)評(píng)估科學(xué)論文或科學(xué)研究人員的影響時(shí),引用數(shù)量[3]是一個(gè)簡(jiǎn)單但廣泛使用的度量(例如引用次數(shù)、h-index、影響因子IF等).基于引用數(shù)量的方法只考慮引用的數(shù)量,忽略了引用的質(zhì)量[4].引用數(shù)量偏重于歷史數(shù)據(jù)的累積,具有明顯的冷啟動(dòng)問題,較難有效的評(píng)估最新發(fā)表的科研成果的價(jià)值.
科技論文可以根據(jù)其引用關(guān)系被描述為一個(gè)復(fù)雜的、自組織的、不斷發(fā)展的網(wǎng)絡(luò),每篇論文都是網(wǎng)絡(luò)中的一個(gè)節(jié)點(diǎn).引文網(wǎng)絡(luò)中蘊(yùn)含了大量的信息,可以通過復(fù)雜網(wǎng)絡(luò)分析的方法研究科技論文價(jià)值的評(píng)價(jià)算法.從科技論文的引文網(wǎng)絡(luò)中可以提取出兩個(gè)重要的性質(zhì):引文網(wǎng)絡(luò)結(jié)構(gòu)的異質(zhì)性和時(shí)間特性.引文網(wǎng)絡(luò)是一個(gè)有向網(wǎng)絡(luò),各個(gè)節(jié)點(diǎn)在網(wǎng)絡(luò)中的重要性以及節(jié)點(diǎn)間相互作用的強(qiáng)度不同,導(dǎo)致引文網(wǎng)絡(luò)結(jié)構(gòu)具有異質(zhì)性.然而大多只考慮到節(jié)點(diǎn)異質(zhì)性的科技論文評(píng)價(jià)算法往往存在著時(shí)間累積效應(yīng),舊論文能隨著時(shí)間累積獲得更高的評(píng)分[5].雖然時(shí)間累積的優(yōu)勢(shì)是客觀存在的,但是這種時(shí)間累積導(dǎo)致的偏見會(huì)影響科技論文評(píng)價(jià)的效果.而現(xiàn)有的考慮到時(shí)間信息的科技論文排序算法往往會(huì)由于過度的抑制舊論文的評(píng)分,導(dǎo)致影響了算法對(duì)整體論文排序的性能.
為了解決上述問題,本文從引文網(wǎng)絡(luò)結(jié)構(gòu)的異質(zhì)性和時(shí)間特性出發(fā),通過引入時(shí)間衰減參數(shù),研究論文之間引用時(shí)間對(duì)論文評(píng)分的影響.時(shí)間衰減機(jī)制削弱了科技論文評(píng)價(jià)中的時(shí)間累積效應(yīng),讓科技論文的排序結(jié)果更加客觀有效.不同于其他基于歷史累積數(shù)據(jù)的評(píng)價(jià)指標(biāo),本文致力于在論文發(fā)表早期發(fā)現(xiàn)它的相對(duì)影響力與重要性,幫助科研工作者快速準(zhǔn)確地定位關(guān)鍵信息,從而提高科研工作者的效率.
研究者們基于引用數(shù)量、引文網(wǎng)絡(luò)結(jié)構(gòu)和網(wǎng)絡(luò)演化機(jī)制等提出了很多相關(guān)的論文學(xué)術(shù)價(jià)值評(píng)價(jià)方法[6].最直接的學(xué)術(shù)價(jià)值評(píng)價(jià)方法就是引用數(shù)量[7],這也是應(yīng)用最普遍的方法.針對(duì)不同的學(xué)科領(lǐng)域引用數(shù)量的差異,Radicchi等人提出了一種相對(duì)引用指數(shù)[8],相對(duì)引用指數(shù)后來被擴(kuò)展應(yīng)用于科研機(jī)構(gòu)、學(xué)術(shù)雜志等的評(píng)價(jià)[9].由于很難準(zhǔn)確界定一篇論文所屬的學(xué)科領(lǐng)域,基于共同引文網(wǎng)絡(luò)的相對(duì)引用率可以根據(jù)引用結(jié)構(gòu)平衡不學(xué)同科領(lǐng)域的引用數(shù)差異.由于引文網(wǎng)絡(luò)存在先動(dòng)優(yōu)勢(shì)(first-mover advantage),某領(lǐng)域較早發(fā)表的論文比較晚發(fā)表的論文能具有更高的引用數(shù)[5].為了消除時(shí)間對(duì)論文價(jià)值判斷的影響,Newman提出了一種基于z-score的論文排序方法,發(fā)現(xiàn)這種方法可以預(yù)測(cè)論文的未來引用數(shù)[10].
由于論文的引用可能出于多種不同原因[11],比如有些論文被引用是由于其存在一些錯(cuò)誤[12],有些引用是自引[13].因此人們做了很多科技論文引用異質(zhì)性的研究,Zhang等人基于由三類實(shí)體組成的異構(gòu)網(wǎng)絡(luò),應(yīng)用迭代的類 PageRank 方法,通過相互強(qiáng)化,有效的減少了惡意操作的影響[14].Gualdi等人根據(jù)論文的相似度構(gòu)建了引文網(wǎng)絡(luò)的樹形骨架,每篇論文只保留相似度最高的論文對(duì)它的引用[15].Clough等人基于因果關(guān)系,通過移除一些論文間的引用關(guān)系,揭示出論文引文網(wǎng)絡(luò)的基礎(chǔ)骨架結(jié)構(gòu)[16].Zhu等人通過機(jī)器學(xué)習(xí)的方法發(fā)現(xiàn)一篇論文的關(guān)鍵參考論文與其在正文中出現(xiàn)的次數(shù)相關(guān)[4].通過賦予關(guān)鍵參考論文更大的權(quán)重,他們提出一種評(píng)價(jià)科學(xué)家的新方法.Valenzuela等人為發(fā)掘重要的引用關(guān)系,利用了監(jiān)督分類模型將引用分為4類[17].
基于引用數(shù)量的方法本質(zhì)上只考慮了引文網(wǎng)絡(luò)中的一節(jié)鄰居,忽略了引文網(wǎng)絡(luò)的結(jié)構(gòu)特性.用在網(wǎng)頁排序中的PageRank算法利用隨機(jī)游走過程來引入網(wǎng)絡(luò)中的高階鄰居信息,是一種考慮網(wǎng)絡(luò)結(jié)構(gòu)的排序算法.根據(jù)網(wǎng)絡(luò)結(jié)構(gòu)特性,馮勇等人利用PageRank算法進(jìn)行了微博用戶行為的特征分析[18].PageRank可以直接用在論文引用網(wǎng)絡(luò)中實(shí)現(xiàn)論文價(jià)值的排序.結(jié)合論文引用網(wǎng)絡(luò)的特點(diǎn),人們提出了很多PageRank的改進(jìn)方法[19].然而PageRank有著明顯的時(shí)間累積效應(yīng),因此Walker等人提出了CiteRank方法,在傳播過程中給予近期發(fā)表的論文更大的初始值[20],它假定研究人員優(yōu)先從較新的論文開始“瀏覽”.CiteRank分值代表每篇論文被訪問到的概率,代表了科技論文的影響力.Zeng等人提出了僅考慮每篇論文發(fā)表后10年內(nèi)引用的CPRank算法[21],這種方法可以削弱那些舊論文在時(shí)間上的累積優(yōu)勢(shì).Mariani等人提出一種基于時(shí)間縮放的PageRank方法,也可以消除時(shí)間累積效應(yīng)[22].王斌等人將節(jié)點(diǎn)信任度引入到 PageRank 算法中,構(gòu)建了一種關(guān)鍵節(jié)點(diǎn)識(shí)別算法TPR[23].Medo等人提出一種方法[24]可以平衡PageRank值在不同時(shí)間學(xué)術(shù)成果上的偏差.
科技論文的引文網(wǎng)絡(luò)是典型的復(fù)雜網(wǎng)絡(luò),復(fù)雜網(wǎng)絡(luò)的相關(guān)研究可以為科技論文評(píng)價(jià)算法研究提供思路.復(fù)雜網(wǎng)絡(luò)演化動(dòng)力學(xué)的研究發(fā)現(xiàn),時(shí)間效應(yīng)在網(wǎng)絡(luò)的動(dòng)態(tài)演化過程中具有重要的作用[25].對(duì)在線新聞瀏覽數(shù)據(jù)的研究中發(fā)現(xiàn)[26]:新聞的瀏覽量是隨時(shí)間無標(biāo)度遞減的.Medo等人通過對(duì)科技論文引用網(wǎng)絡(luò)數(shù)據(jù)的詳細(xì)分析,發(fā)現(xiàn)科技論文的適應(yīng)度是隨時(shí)間衰減的[27].在學(xué)術(shù)影響力預(yù)測(cè)中引入時(shí)間衰減因素可以提高預(yù)測(cè)的精度[28,29].
本文考慮到時(shí)間衰減因素可以提高預(yù)測(cè)的精度,基于PageRank算法,提出一種基于引文網(wǎng)絡(luò)時(shí)間特性的CGRank(CitationGapbased PageRank)算法.CGRank考慮了引文網(wǎng)絡(luò)中引用的時(shí)間間隔信息,設(shè)置引用的權(quán)重隨著發(fā)表時(shí)間和引用時(shí)間之間的間隔指數(shù)衰減.該方法在PageRank的基礎(chǔ)上,引入時(shí)間衰減機(jī)制,可以削弱時(shí)間累積效應(yīng)對(duì)算法的影響.本節(jié)將在PageRank算法的基礎(chǔ)上,詳細(xì)說明CGRank算法的原理以及計(jì)算方法.
PageRank算法是在有向網(wǎng)絡(luò)上隨機(jī)游走的過程.引文網(wǎng)絡(luò)是一個(gè)有向網(wǎng)絡(luò),其中每一個(gè)節(jié)點(diǎn)都代表一篇論文,而網(wǎng)絡(luò)中的鏈接代表論文之間的引文關(guān)系.那么如果論文i引用了論文j,在引文網(wǎng)絡(luò)中就會(huì)有一個(gè)從論文i到論文j的連邊,這個(gè)連邊是具有方向性的.PageRank算法可以自然地用于引文網(wǎng)絡(luò)對(duì)論文進(jìn)行排名.
PageRank算法是模擬網(wǎng)絡(luò)上隨機(jī)游走的過程.在隨機(jī)游走到達(dá)某個(gè)節(jié)點(diǎn)時(shí),以概率c隨機(jī)進(jìn)入一個(gè)該節(jié)點(diǎn)的下游節(jié)點(diǎn),以概率1-c跳出當(dāng)前游走路線,隨機(jī)跳轉(zhuǎn)到網(wǎng)絡(luò)中的任意節(jié)點(diǎn)開始游走.PageRank值(PR)表示隨機(jī)游走過程中到達(dá)某一個(gè)節(jié)點(diǎn)的概率.一般在使用PageRank算法進(jìn)行迭代計(jì)算前,為每篇論文附初始相等的PageRank值(PR).
在引文網(wǎng)絡(luò)中,對(duì)于某個(gè)論文pi,其對(duì)應(yīng)PR值大小的計(jì)算公式如公式(1)所示:
(1)
在PageRank中,節(jié)點(diǎn)的PR值的主要部分是由上游節(jié)點(diǎn)均勻劃分的分?jǐn)?shù)之和計(jì)算的.此過程不考慮時(shí)間信息,并對(duì)網(wǎng)絡(luò)中的每個(gè)鏈接一視同仁.在引文網(wǎng)絡(luò)中,每個(gè)引用的重要性可能不同.論文發(fā)表很長(zhǎng)一段時(shí)間后的引用會(huì)受到累積效應(yīng)的影響,因此論文早期的引用比論文發(fā)表很長(zhǎng)一段時(shí)間后的引用更重要.考慮到引用的異質(zhì)性和時(shí)間特性,CGRank算法對(duì)上游論文傳遞的分?jǐn)?shù)設(shè)置了不同的權(quán)重.
由于在科技論文的引文網(wǎng)絡(luò)中時(shí)間特性與時(shí)間累積效應(yīng)的相關(guān)性呈指數(shù)衰減[27],本文在算法模型中對(duì)引文網(wǎng)絡(luò)中的每?jī)蓚€(gè)引文之間引入一個(gè)時(shí)間衰減的權(quán)重.參考公式(1),在CGRank算法中,每個(gè)節(jié)點(diǎn)的值的計(jì)算如公式(2)所示:
(2)
Tij=(ti-tj)-α
(3)
α是一個(gè)控制衰減速度的衰減參數(shù),越大表示衰減速度越快,ti和tj分別為論文t和論文j的發(fā)表時(shí)間.當(dāng)α=0時(shí)表示從論文傳遞到參考論文的分?jǐn)?shù)權(quán)重不會(huì)隨著引用時(shí)間間隔而衰減,在這種情況下,CGRank算法與PageRank算法相同.
圖1 節(jié)點(diǎn)CG值計(jì)算示意圖Fig.1 Illustration of how to calculate CG value
(4)
不斷迭代公式(4),直到達(dá)到穩(wěn)態(tài),即CGn與CGn-1之間的差別足夠小,這樣就得到最終的CG值.
考慮到網(wǎng)絡(luò)中存在一些出度為零的節(jié)點(diǎn),最終可能會(huì)造成CG值的聚集,因此本文在CGRank算法中加入對(duì)出度為零的節(jié)點(diǎn)進(jìn)行特殊處理.在CGRank算法中,出度為零的節(jié)點(diǎn)會(huì)將其CG值均勻傳遞給網(wǎng)絡(luò)中的每一個(gè)節(jié)點(diǎn).更新后的CGRank算法如公式(5)所示:
(5)
其中如果論文i引用了論文j則Aij=1,否則Aij=0;δa,b為脈沖函數(shù),當(dāng)a=b時(shí)δa,b=1,否則δa,b=0.
本節(jié)通過幾組實(shí)驗(yàn),從多個(gè)方面證明CGRank算法的有效性.并且通過實(shí)驗(yàn)對(duì)比不同常用的科技論文排序算法,證明CGRank算法對(duì)新舊論文都具有很好的性能.
本文的實(shí)驗(yàn)使用美國(guó)物理學(xué)會(huì)(APS)提供的數(shù)據(jù)集(1)http://journals.aps.org/datasets分析不同評(píng)價(jià)方法的性能.該數(shù)據(jù)集包含1893年~2017年間《Physical Review Letters》,《Physical Review》和《Reviews of Modern Physics》全集的論文元數(shù)據(jù)以及論文之間的引用關(guān)系.
為了評(píng)估不同算法的有效性,實(shí)驗(yàn)需要選擇一些高價(jià)值的論文作為基準(zhǔn)集.如果一個(gè)學(xué)術(shù)評(píng)價(jià)算法可以給高價(jià)值的論文較高的評(píng)分,則說明這個(gè)學(xué)術(shù)評(píng)價(jià)算法具有較好的性能.
在本文中使用了兩組高價(jià)值的論文作為基準(zhǔn),分別是:
1)APS的Milestone Letters(2)http://journals.aps.org/prl/50years/milestones.這些文章是APS編輯們選擇的具有重大貢獻(xiàn)的論文,包括宣布了重大發(fā)現(xiàn)或開創(chuàng)了新的研究領(lǐng)域的論文.進(jìn)入該數(shù)據(jù)集是對(duì)論文價(jià)值的高度認(rèn)可,APS的Milestone Letters可以作為高價(jià)值論文基準(zhǔn)集.該集合包含87篇論文,發(fā)表年份從1958年~2002年.
2)諾貝爾獎(jiǎng)?wù)撐募?第2組基準(zhǔn)包含67篇論文,這些論文使其中的作者獲得了諾貝爾獎(jiǎng).這些論文被諾貝爾獎(jiǎng)?wù)J可,因此可以被認(rèn)為是極有價(jià)值的論文.諾貝爾獎(jiǎng)?wù)撐募姓撐牡陌l(fā)表年份從1946年~2002年.
論文的元數(shù)據(jù)中包含了文章的標(biāo)題、作者姓名、摘要、發(fā)表期刊號(hào)、發(fā)表時(shí)間、引用關(guān)系等信息.其中作者姓名、摘要等信息對(duì)于本文現(xiàn)階段的研究來說起不到作用.因此需要通過數(shù)據(jù)預(yù)處理,從元數(shù)據(jù)中提煉出有效的數(shù)據(jù)信息,包括論文的引用關(guān)系,和論文的發(fā)表時(shí)間信息,其中論文的發(fā)表時(shí)間以月為單位計(jì)算.
在清理數(shù)據(jù)的時(shí)候存在著一些論文信息的缺失,以及一些錯(cuò)誤的信息.刪除了這些無用的數(shù)據(jù),最后實(shí)驗(yàn)數(shù)據(jù)集中包含616316篇論文,以及7336550次的引用關(guān)系.
表1 各時(shí)間段APS數(shù)據(jù)集論文數(shù)量的分布Table 1 Distribution of the number of papers in the APS data set in each time period
表1以20年為一個(gè)時(shí)間段,顯示了APS數(shù)據(jù)集中各時(shí)間段論文的數(shù)量.從中可以看出,隨著時(shí)間的推移,數(shù)據(jù)集中論文數(shù)量呈指數(shù)級(jí)增長(zhǎng).表2以10年為一個(gè)時(shí)間段,顯示了兩個(gè)基準(zhǔn)集中各年齡段論文的數(shù)量.結(jié)果顯示,基準(zhǔn)集中的論文在各個(gè)時(shí)間段分布較均勻,各時(shí)間段論文數(shù)量沒有明顯的差異.如何從指數(shù)級(jí)增長(zhǎng)的論文中,發(fā)掘出有限的高價(jià)值論文是本文研究的核心問題.
表2 各時(shí)間段基準(zhǔn)集論文數(shù)量的分布Table 2 Distribution of the number of papers in eachbenchmark set in each time period
驗(yàn)證算法的有效性之前,本文首先利用APS數(shù)據(jù)集分析CGRank算法的基本性質(zhì),包括收斂性和CG值的累積概率分布.由于CGRank算法是通過迭代計(jì)算的方式實(shí)現(xiàn)的,因此本文需要確定該迭代過程具有收斂性,只有滿足收斂性CGRank算法才能稱為有效的算法.討論算法的收斂性時(shí),本文借鑒了PageRank算法中提出的方法,將第n步迭代的數(shù)量誤差定義為公式(6):
∑i|sn(i)-sn-1(i)|
(6)
其中sn(i)是節(jié)點(diǎn)i在n次迭代計(jì)算之后的分值,當(dāng)這個(gè)誤差值趨于不變時(shí),則可以說明算法是趨于收斂的.PageRank算法的收斂性由該算法的線性代數(shù)屬性來保證.因此,只要在計(jì)算時(shí)迭代次數(shù)足夠多,則PageRank算法將針對(duì)任何給定的公差值收斂.對(duì)比PageRank,本文分別計(jì)算了PageRank和CGRank在不同迭代步數(shù)時(shí)的誤差值,對(duì)應(yīng)結(jié)果如圖2(a)所示.
圖2 誤差值與累積概率分布Fig.2 Error value and cumulative probability distribution
實(shí)驗(yàn)結(jié)果表明,隨著迭代步數(shù)的增加,CGRank算法的誤差值趨向無限小,收斂的速度明顯比PageRank要快,因此實(shí)驗(yàn)證明了CGRank算法具有收斂的特性,CGRank是一個(gè)有效的排序算法.并且在衰減參數(shù)α取不同值時(shí),CGRank算法都比PageRank具有更快的收斂性,α越大收斂的速度越快.其次本文通過實(shí)驗(yàn)得出的累積概率分布結(jié)果,分析不同CG值的節(jié)點(diǎn)的分布情況.累積概率的定義為,在不確定的分析中,當(dāng)需要進(jìn)一步了解某個(gè)情況發(fā)生在某一區(qū)間的可能性有多大時(shí),計(jì)算這個(gè)區(qū)間所有可能取值的概率之和,即累積概率(Cumulative Probability).因此累積概率可以幫助本文清晰的看到實(shí)驗(yàn)結(jié)果中各個(gè)節(jié)點(diǎn)在各個(gè)分?jǐn)?shù)區(qū)間的概率.本文計(jì)算了CGRank算法中不同α衰減參數(shù)得到的各個(gè)節(jié)點(diǎn)CG值的累積概率分布和PageRank算法得出PR值的累積概率分布,對(duì)應(yīng)結(jié)果見圖2(b).
從實(shí)驗(yàn)結(jié)果可以看出兩種算法得到的分值的概率分布都具有明顯的冪律分布特征,說明大部分節(jié)點(diǎn)的分值較小,只有少數(shù)節(jié)點(diǎn)的分值較大,這與網(wǎng)絡(luò)中普遍存在的無標(biāo)度現(xiàn)象相一致.衰減參數(shù)α值越大,分布的冪律衰減越迅速.表明分值大的節(jié)點(diǎn)數(shù)隨著衰減參數(shù)α值的增大而減少.這說明本文提出的CGRank算法,通過引入時(shí)間衰減參數(shù)抑制了某些論文的分?jǐn)?shù),衰減參數(shù)α越大,抑制效果越明顯.這些論文很可能就是由于時(shí)間的累積帶來優(yōu)勢(shì)的論文,由于這些實(shí)驗(yàn)數(shù)據(jù)并不能完全認(rèn)定改進(jìn)后的CGRank算法取得了成功,因此本文將進(jìn)一步驗(yàn)證CGRank算法的有效性.
為了進(jìn)一步證明CGRank的有效性,本文采用高價(jià)值論文的平均排名情況,以及AUC(Area Under Curve)算法評(píng)價(jià)指標(biāo)這兩種方法.通過兩個(gè)方面的實(shí)驗(yàn),詳細(xì)的驗(yàn)證CGRank算法的有效性.
學(xué)術(shù)論文評(píng)價(jià)算法的有效性可以通過它識(shí)別真正高價(jià)值的論文的能力來評(píng)估,這是最直觀的方法.本文分別使用APS的Milestone Letters和諾貝爾獎(jiǎng)?wù)撐募鳛榛鶞?zhǔn)論文集,評(píng)估CGRank算法的有效性.如果一種學(xué)術(shù)價(jià)值評(píng)價(jià)算法能給基準(zhǔn)論文集中的論文更靠前的排名,則認(rèn)為這種方法具有更好的性能.因此,本文使用基準(zhǔn)集中論文的平均排名來定量評(píng)估所提出的CGRank算法的有效性,平均排名越低,說明算法效果越好.首先需要找到算法中的最優(yōu)參數(shù),圖3顯示了不同參數(shù)和下,CGRank模型計(jì)算得出的兩個(gè)基準(zhǔn)集中論文的平均排名.圖3(a)對(duì)應(yīng)APS的Milestone Letters基準(zhǔn)集的結(jié)果,圖3(b)對(duì)應(yīng)諾貝爾獎(jiǎng)?wù)撐募慕Y(jié)果.
圖3 各基準(zhǔn)集論文的平均排名與參數(shù)c和α的關(guān)系Fig.3 Relationship between the average ranking of papers in each benchmark set and the parameters c and α
從圖3中可以發(fā)現(xiàn),衰減參數(shù)α和阻尼因子c都會(huì)影響排序結(jié)果的有效性.當(dāng)α等于0時(shí),CGRank模型與PageRank相同,適當(dāng)?shù)腸值可以最小化基準(zhǔn)集中論文的平均排名.對(duì)于固定的阻尼因子c,適當(dāng)?shù)乃p參數(shù)α可以降低基準(zhǔn)集中論文的平均排名.這表明,衰減參數(shù)α的引入,確實(shí)可以提高學(xué)術(shù)評(píng)價(jià)算法的準(zhǔn)確性,論文在發(fā)表早期收到的引用比后期收到的引用在評(píng)價(jià)論文的科學(xué)意義方面更重要.如果引用的權(quán)重隨著引用時(shí)間的減少非常緩慢(對(duì)應(yīng)衰減參數(shù)α很小的情況),則CGRank的結(jié)果將與PageRank相似.然而,如果引用的權(quán)重與引用時(shí)間衰減的非常快,則論文所收到的引用將被過度抑制,從而導(dǎo)致排名準(zhǔn)確性的下降.因此,適度的衰減參數(shù)α,可以取得最優(yōu)的效果,平均排名可以在某些參數(shù)α和c下達(dá)到最小值.當(dāng)α=0.14且c=0.96時(shí)APS的Milestone Letters基準(zhǔn)集的平均排名達(dá)到最優(yōu).當(dāng)α=0.14且c=0.99時(shí)諾貝爾獎(jiǎng)獲獎(jiǎng)?wù)撐牡钠骄琶_(dá)到最優(yōu).這兩組參數(shù)相互接近,可以看作是CGRank方法的近似最優(yōu)參數(shù).
為了驗(yàn)證算法的效果,本文對(duì)比了4種相關(guān)的學(xué)術(shù)評(píng)價(jià)算法,分別是引用計(jì)數(shù)(CC),PageRank(PR),CiteRank(CR)和CPRank(CP).其中PageRank是只考慮引文網(wǎng)絡(luò)結(jié)構(gòu)特性的算法,CiteRank和CPRank是同時(shí)考慮網(wǎng)絡(luò)結(jié)構(gòu)特性和時(shí)間特性的算法.
表3顯示了通過不同方法計(jì)算出的基準(zhǔn)論文的平均排名,PageRank和CGRank的參數(shù)設(shè)置為具有最低平均排名的參數(shù).值得注意的是,在兩個(gè)基準(zhǔn)集中,使用CC方法和CR算法計(jì)算出的平均排名遠(yuǎn)遠(yuǎn)大于其他3種算法,說明這兩種方法不能有效的評(píng)價(jià)學(xué)術(shù)論文的價(jià)值.在其他3種算法中,本文所提出的CGRank算法計(jì)算出的平均排名明顯小于其他幾種算法,說明CGRank算法在評(píng)價(jià)學(xué)術(shù)價(jià)值方面具有明顯的優(yōu)勢(shì),可以較準(zhǔn)確的識(shí)別高價(jià)值論文.
表3 各算法得到的基準(zhǔn)論文平均排名Table 3 Average ranking of benchmark papers got by different algorithms
(7)
表4 各算法得到的AUC值Table 4 AUC value got by different algorithms
如果在排序算法給出的序列中,所有在正樣本都排在負(fù)樣本前面,AUC 的值就等于1.隨機(jī)序列對(duì)應(yīng)的AUC值為0.5.AUC值越接近1,說明排序結(jié)果越好.因此AUC值可以判斷學(xué)術(shù)論文評(píng)價(jià)的排序算法是否能準(zhǔn)確識(shí)別出高價(jià)值的論文.
實(shí)驗(yàn)分別將兩個(gè)基準(zhǔn)論文集中的論文做為正樣本,其余APS論文作為負(fù)樣本,計(jì)算出上述各個(gè)算法AUC指標(biāo)值,表4展示了對(duì)應(yīng)結(jié)果.顯然CGRank算法的AUC值比其他排序算法的高,因此從AUC指標(biāo)的角度來看,CGRank算法的效果優(yōu)于其他算法.
由于CGRank算法將引用的時(shí)間信息引入到學(xué)術(shù)評(píng)價(jià)算法中,在算法有效性的實(shí)驗(yàn)中表明,與其他相關(guān)方法相比,CGRank算法可以更好的識(shí)別出具有較高價(jià)值的論文.為了更好地理解CGRank算法的時(shí)間特性,了解算法是否削弱論文時(shí)間累積效應(yīng),本文通過實(shí)驗(yàn)進(jìn)一步分析了不同參數(shù)下CGRank算法排序結(jié)果的年齡偏差.
圖4 排名前1%的論文各年齡組的數(shù)量Fig.4 Number of top 1% papers in each age group
實(shí)驗(yàn)根據(jù)年齡將APS兩組數(shù)據(jù)集中的論文分為10個(gè)不同的組,其中每組論文數(shù)量相同.對(duì)應(yīng)地,第1組包含最老的10%的論文,第10組包含最新的10%的論文.然后,實(shí)驗(yàn)統(tǒng)計(jì)出每組中出現(xiàn)在排名結(jié)果的前1%中的論文數(shù)量.本文選取兩組參數(shù),c=0.85和c=0.5.α的取值分別選取,α=0,0.1和0.3.每組中出現(xiàn)在排名結(jié)果的前1%中的論文數(shù)量如圖4所示.圖4(a)顯示的是參數(shù)c=0.85的結(jié)果,圖4(b)顯示的是參數(shù)c=0.5的結(jié)果.從圖中本文可以看出,對(duì)于不同的c值,排名在前1%的舊論文數(shù)量都隨參數(shù)α的增大而減少,而排名在前1%的新論文的數(shù)量都隨參數(shù)α的增大而增多.當(dāng)衰減參數(shù)α=0時(shí),CGRank模型與PageRank相同.PageRank有明顯的時(shí)間累積效應(yīng),老論文的排名普遍比較靠前.圖4中可以發(fā)現(xiàn),本文提出的CGRank方法可以通過引入衰減參數(shù)來削弱這種偏差,降低老論文的排名的同時(shí)提升新論文的排名,從而給新發(fā)表的論文提供更多機(jī)會(huì).
為了研究CGRank算法對(duì)不同年代論文的有效性,實(shí)驗(yàn)通過準(zhǔn)論文集中不同年齡組論文的排名情況,將兩個(gè)基準(zhǔn)論文集中的論文按年代分組.通過計(jì)算各組論文的平均排名,本文同樣選取兩組參數(shù),α的取值分別選取α=0,0.1和0.3.相關(guān)結(jié)果展示在圖5中,圖5(a)和圖5(c)分別顯示的是參數(shù)c=0.85和c=0.5的Milestone Letters基準(zhǔn)集的結(jié)果,圖5(b)和圖5(d)分別顯示的是參數(shù)和的諾貝爾獎(jiǎng)?wù)撐募慕Y(jié)果.從圖中可以看出,隨著衰減參數(shù)α的增大,基準(zhǔn)集中舊論文的排名增大而較新發(fā)表的論文的排名減小.并且這種趨勢(shì)與基準(zhǔn)集和參數(shù)c無關(guān).因此,PageRank(對(duì)應(yīng)α=0)與CGRank相比,可以較好的識(shí)別出較老的基準(zhǔn)論文,但是其優(yōu)勢(shì)隨著論文的年齡的下降而迅速減弱,使得CGRank在識(shí)別較新的基準(zhǔn)論文方面有明顯優(yōu)勢(shì).
圖5 同年齡組基準(zhǔn)論文的平均排名Fig.5 Average ranking of benchmark papers in the same age group
CGRank算法通過引入時(shí)間衰減c,可以更好的識(shí)別出較新的基準(zhǔn)論文,衰減參數(shù)α越大,效果越明顯,但對(duì)老論文的識(shí)別率越低.為了在較長(zhǎng)的出版時(shí)間范圍內(nèi)獲得所有基準(zhǔn)論文的最佳性能,應(yīng)在排序算法識(shí)別舊論文和新發(fā)表論文的性能之間做出折中.因此為了提高CGRank算法整體評(píng)價(jià)效果,正如本文在上一節(jié)中討論的那樣,需要選擇一個(gè)合適的衰減參數(shù)α,能兼顧對(duì)新舊論文的效果.
圖6 各算法中不同年齡組基準(zhǔn)論文的平均排名Fig.6 Average ranking of benchmark papers for different age groups in each algorithm
上述實(shí)驗(yàn)證明CGRank算法對(duì)舊論文的累積優(yōu)勢(shì)具有一定的抑制,接下來本文將各種算法分時(shí)間段的平均排名結(jié)果進(jìn)行了比較,以證明CGRank算法在新舊論文上相比其他算法都具有一定的優(yōu)勢(shì).實(shí)驗(yàn)將基準(zhǔn)論文集中的論文按年代分組后,使用不同的算法計(jì)算出每組論文的平均排名,圖6中顯示對(duì)應(yīng)的結(jié)果.圖6(a)對(duì)應(yīng)得是APS的Milestone Letters基準(zhǔn)集的結(jié)果,圖6(b)對(duì)應(yīng)的是諾貝爾獎(jiǎng)?wù)撐募慕Y(jié)果.結(jié)果顯示,不同算法對(duì)不同年齡段的基準(zhǔn)論文有不同的效果.引用計(jì)數(shù)方法對(duì)所有年代的論文效果都很差.
對(duì)于早期發(fā)表的相對(duì)較老的論文,本文提出的CGRank方法與PageRank具有相似的性能,且明顯優(yōu)于其他方法.隨著論文發(fā)表年份的增長(zhǎng),PageRank的相對(duì)性能下降,而CGRank,CPRank和CiteRank的相對(duì)性能提升.CGRank,CPRank和CiteRank 3種方法在計(jì)算論文的評(píng)價(jià)分值時(shí)都考慮了時(shí)間信息,給新發(fā)表的論文分配更高的分值,因此在評(píng)價(jià)新發(fā)表的論文方面具有更好的性能.但是,CPRank和CiteRank方法低估了早期發(fā)表的較老論文的價(jià)值,導(dǎo)致它們的整體性能都相對(duì)較差.CGRank算法在有效評(píng)價(jià)新論文的同時(shí),也能保持對(duì)較老論文的評(píng)價(jià)準(zhǔn)確度,在識(shí)別基準(zhǔn)論文方面具有最好的整體效果.
本文從引文網(wǎng)絡(luò)結(jié)構(gòu)和時(shí)間特性著手,基于PageRank算法,提出了一種基于引用時(shí)間特性的CGRank學(xué)術(shù)評(píng)價(jià)算法.該算法通過引入隨時(shí)間指數(shù)衰減的參數(shù),削弱了科技論文評(píng)價(jià)中的時(shí)間累積效應(yīng),讓科技論文的價(jià)值評(píng)價(jià)更加客觀有效.本文利用APS數(shù)據(jù)集驗(yàn)證了算法的有效性,同時(shí)實(shí)驗(yàn)選取了兩組高價(jià)值的論文作為基準(zhǔn),對(duì)各種現(xiàn)有的學(xué)術(shù)評(píng)價(jià)算法得出的結(jié)果進(jìn)行對(duì)比.實(shí)驗(yàn)結(jié)果表明,與其他算法相比,CGRank算法具有最好的性能.同時(shí)本文還分析了CGRank算法排序結(jié)果的年齡偏差,發(fā)現(xiàn)CGRank算法通過引入時(shí)間衰減機(jī)制,可以更好的識(shí)別出較新的基準(zhǔn)論文,衰減參數(shù)α越大,效果越明顯.CGRank算法在有效評(píng)價(jià)新論文的同時(shí),能保持對(duì)較老論文的評(píng)價(jià)準(zhǔn)確度.該算法在保證整體評(píng)價(jià)準(zhǔn)確度的基礎(chǔ)上,可以在論文發(fā)表早期發(fā)現(xiàn)它的相對(duì)影響力與重要性,幫助科研工作者快速準(zhǔn)確地定位關(guān)鍵信息,具有很強(qiáng)的應(yīng)用價(jià)值.