金 潔,徐岳皓,劉振宇
(1.西安電子科技大學(xué),陜西 西安 710071;2.中國(guó)電子科學(xué)研究院,北京 100041;3.航天信息股份有限公司,北京 100086)
隨著網(wǎng)絡(luò)信息資源的豐富,數(shù)字化文獻(xiàn)已經(jīng)成為學(xué)習(xí)和日常工作的標(biāo)配,各個(gè)學(xué)校都具有網(wǎng)絡(luò)文獻(xiàn)數(shù)據(jù)庫提供查詢和下載服務(wù)。同時(shí)國(guó)內(nèi)外也有許多數(shù)字資源庫,例如萬方擁有12個(gè)專門存儲(chǔ)數(shù)字資源的數(shù)據(jù)庫,上億篇中外期刊論文,學(xué)位論文和會(huì)議論文千萬以上,以及專利、科技報(bào)告等其他文獻(xiàn)數(shù)據(jù)[1]。面對(duì)海量的數(shù)據(jù)文獻(xiàn),知網(wǎng)等文獻(xiàn)數(shù)據(jù)庫只是簡(jiǎn)單的根據(jù)引用量和搜索關(guān)系進(jìn)行排序,而未考慮到文獻(xiàn)的重要性以及文獻(xiàn)在引文網(wǎng)絡(luò)中的引用關(guān)系,因此檢索者很難從海量論文中找到對(duì)自己有用的高質(zhì)量論文。同時(shí)我國(guó)的學(xué)術(shù)期刊過于注重期刊的影響因子和期刊水平,往往忽略了引用和被引用期刊的水平,也忽視了部分新作者在普通期刊中發(fā)表的高水平文章[2]。因此,將重要文獻(xiàn)從引文網(wǎng)絡(luò)中篩選出來是本文的初衷。本文利用傳統(tǒng)的PageRank算法,同時(shí)結(jié)合論文引用及被引用的關(guān)系,提出了度數(shù)改進(jìn)的RageRank算法進(jìn)行引文網(wǎng)絡(luò)中文獻(xiàn)重要性評(píng)估方法,實(shí)驗(yàn)結(jié)果表明,該方法能很好的挖掘出引文網(wǎng)絡(luò)中的重要文獻(xiàn)并進(jìn)行排序。
將論文看做是節(jié)點(diǎn),論文的引用看做論文之間的鏈接邊,那么論文引用網(wǎng)絡(luò)就可以看做是一系列節(jié)點(diǎn)與邊構(gòu)成的網(wǎng)絡(luò)圖譜。
1998年P(guān)age等人[3]提出了PageRank算法,最早被應(yīng)用于搜索引擎的網(wǎng)頁排序當(dāng)中。1999 年, Kleinberg[4]提出了 HITS 算法將網(wǎng)頁分為兩類:中心網(wǎng)頁和權(quán)威網(wǎng)頁,算法通過迭代獲得網(wǎng)頁的中心值和權(quán)威值,但是沒有考慮時(shí)間信息。在此之后基于PageRank的改進(jìn)算法被廣泛運(yùn)用于社交、文獻(xiàn)引用、搜索引擎排名等方面[5]。Sayyadi等人提出了FutureRank算法[6],考慮到了時(shí)間和已有PageRank值,但是未考慮論文引用本身的含義,預(yù)測(cè)排名相關(guān)度較低。劉大有等人提出權(quán)威網(wǎng)絡(luò),但是權(quán)威網(wǎng)絡(luò)要求論文引用網(wǎng)絡(luò)全面陳舊,對(duì)新加入網(wǎng)絡(luò)的節(jié)點(diǎn)并不適用[7]。李仲謀通過引入ScholarNode建立學(xué)術(shù)論文影響力評(píng)價(jià)方法,增大了邊緣論文的高質(zhì)量論文重要度[8]。為了增強(qiáng)運(yùn)算速率,劉記云等人提出了運(yùn)用MapReduce進(jìn)行PageRank值的計(jì)算[9],但是MapReduce分布式并行計(jì)算本身不適合具有聯(lián)系性的圖數(shù)據(jù)進(jìn)行迭代運(yùn)算。針對(duì)以上研究的不足,本文提出一種新的論文重要程度排序算法,能很好的利用同一時(shí)間段論文被引量在網(wǎng)絡(luò)中的比重的改進(jìn)傳統(tǒng)PageRank算法的不足,獲得論文在引文網(wǎng)絡(luò)中的重要性排序。
我們將網(wǎng)絡(luò)抽象成一個(gè)有向圖,網(wǎng)絡(luò)中的網(wǎng)頁就是有向圖中的點(diǎn),網(wǎng)絡(luò)中的超鏈接就是有向圖中的有向邊。用有向圖1表示一個(gè)簡(jiǎn)單的網(wǎng)絡(luò)。
圖1 有向圖G
圖1表示含有五個(gè)節(jié)點(diǎn)的網(wǎng)絡(luò)圖之間的關(guān)系,每個(gè)節(jié)點(diǎn)將自身的PR值平均分配給它的出鏈節(jié)點(diǎn),而每個(gè)節(jié)點(diǎn)收集所有接入的節(jié)點(diǎn)傳來的PR值形成自己的PageRank值。以網(wǎng)頁A為例,A的PR值是網(wǎng)頁C平均分配到A點(diǎn)和D點(diǎn)的,而A的PR值又平均分配給節(jié)點(diǎn)B和節(jié)點(diǎn)E。
把節(jié)點(diǎn)Ai的PR值記為PR(Ai),把節(jié)點(diǎn)Ai的入鏈集合記為I(Ai),把節(jié)點(diǎn)Aj的出度記為N(Aj),那么PageRank算法的基本思想可以用公式(1)表示:
(1)
從公式(1)中我們可以看出,每個(gè)網(wǎng)頁的PR值會(huì)根據(jù)出度平均分配給它的各個(gè)出鏈網(wǎng)頁當(dāng)中,一個(gè)網(wǎng)頁被更多高質(zhì)量的網(wǎng)頁指向,那么這個(gè)節(jié)點(diǎn)就可以獲得更高的PR值,在鏈接網(wǎng)絡(luò)中的重要性就越高。但是從圖1可以看出B點(diǎn)沒有出鏈節(jié)點(diǎn),當(dāng)訪問者到達(dá)B點(diǎn)后會(huì)停止對(duì)外分配,從而形成等級(jí)沉積現(xiàn)象。同時(shí),當(dāng)訪問者進(jìn)入點(diǎn)D、E時(shí),會(huì)在由D、E構(gòu)成的弱連通圖中不斷循環(huán)從而產(chǎn)生等級(jí)滲漏現(xiàn)象。為了防止這種等級(jí)下沉和等級(jí)滲漏的現(xiàn)象,Page在PageRank算法中引入了衰減因子d,衰減因子使得節(jié)點(diǎn)停留在某點(diǎn)的概率為d(0 (2) 數(shù)字資源中論文的數(shù)量極多,論文之間存在復(fù)雜的引用關(guān)系,由引文及被引用文獻(xiàn)之間的引用關(guān)系構(gòu)成的有向無環(huán)圖稱之為引文網(wǎng)絡(luò)。引文網(wǎng)絡(luò)中的邊表示論文之間的參考、援引關(guān)系。如圖2所示,用節(jié)點(diǎn)代表論文,用有向邊代表論文之間的引用關(guān)系,如論文A指向論文B表示論文A對(duì)論文B有一次引用。 圖2 論文鏈接網(wǎng)絡(luò) 但是引文網(wǎng)絡(luò)不同于網(wǎng)頁之間的鏈接網(wǎng)絡(luò),網(wǎng)頁中存在大量的互鏈接操作,但是論文的引用關(guān)系與時(shí)間有很大的關(guān)系,越早的論文越會(huì)被引用,越晚的論文被引用的次數(shù)越少。但是論文都會(huì)去引用別人的文章,所以一般情況下越晚發(fā)表的論文,引用與被引用的次數(shù)差值就會(huì)越大。同時(shí),在同一時(shí)間段被引用越多的文獻(xiàn),說明該文獻(xiàn)在該時(shí)間段屬于高關(guān)注度文獻(xiàn)。如圖3所示。 圖3 論文引用網(wǎng)絡(luò) 引文網(wǎng)絡(luò)無法不同于鏈接網(wǎng)絡(luò),由于被引用文獻(xiàn)無法回引和自引用,所以很難構(gòu)成弱連通圖從而產(chǎn)生等級(jí)下沉的現(xiàn)象。但是引文網(wǎng)絡(luò)與時(shí)間有強(qiáng)相關(guān)性,所以選取數(shù)據(jù)集時(shí)容易產(chǎn)生時(shí)間靠前的論文找不到參考文獻(xiàn),無法產(chǎn)生出鏈論文,從而導(dǎo)致等級(jí)滲漏現(xiàn)象。此外,鏈接網(wǎng)絡(luò)是根據(jù)隨機(jī)沖浪模型演變來的,鏈接網(wǎng)絡(luò)之間的具有隨意性和跳躍性,相互之間的關(guān)系沒有引文網(wǎng)絡(luò)密。引文網(wǎng)絡(luò)一般屬于同一學(xué)科領(lǐng)域之間的引用,關(guān)系緊密并且不會(huì)存在互聯(lián)網(wǎng)中的惡意鏈接現(xiàn)象,所以引文網(wǎng)絡(luò)是一種特殊的鏈接網(wǎng)絡(luò)。引文網(wǎng)絡(luò)與鏈接網(wǎng)絡(luò)有很大不同,我們?cè)谑褂面溄泳W(wǎng)絡(luò)排序算法PageRank是需要考慮引文網(wǎng)絡(luò)的特殊性。 引文網(wǎng)絡(luò)的引用不同于網(wǎng)頁鏈接,它是真實(shí)可靠的,引文之間不存在虛假性和惡意鏈接的情況,因此引文網(wǎng)絡(luò)的出入度關(guān)系比傳統(tǒng)鏈接網(wǎng)絡(luò)中的出入度關(guān)系更具有信息。同時(shí)論文引用網(wǎng)絡(luò)具有稀疏性,根據(jù)帕雷托法則可以看出,20%的論文貢獻(xiàn)了該領(lǐng)域80%的價(jià)值,因此大部分論文的引用量遠(yuǎn)遠(yuǎn)小于其被引用量,只有少部分論文才會(huì)被大量引用,而這部分論文才是引文網(wǎng)絡(luò)中的核心。綜上所述,我們對(duì)論文的出入度數(shù)進(jìn)行挖掘,增大論文被引用次數(shù)高的論文在整個(gè)引文網(wǎng)絡(luò)中的重要性。我們規(guī)定,一篇論文的入出度數(shù)比越高,那么它在參考文獻(xiàn)中的重要性就越高,同理若是文獻(xiàn)入出比越低,那么說明它對(duì)引文的作用很小,重要程度也隨之降低。修改后的入度反饋權(quán)值如式(3)和式(4)所示: (3) (4) 公式(3)中din(din>0)和dout(dout>0)分別代表引文網(wǎng)絡(luò)中節(jié)點(diǎn)Pi的鏈入數(shù)和鏈出數(shù)即入出度數(shù),式(4)中O(Pj)是網(wǎng)頁P(yáng)j的出鏈集合,將Wd加入到PageRank算法中,那么Pi的入鏈Pj會(huì)根據(jù)Pi的入度權(quán)重為Pi分配PR值,即如果Pi是Pj出鏈中入度的節(jié)點(diǎn),Pj就會(huì)分配給Pi較大的入度權(quán)重。這樣可以根據(jù)論文的被引用情況來判斷論文在參考文獻(xiàn)中的作用程度,從該改變了傳統(tǒng)PageRank平均分配節(jié)點(diǎn)權(quán)重的不足。 同時(shí)引文網(wǎng)絡(luò)與時(shí)間有強(qiáng)關(guān)聯(lián)關(guān)系。理論上,時(shí)間越早的論文越容易被引用,而時(shí)間越晚的論文很難被其他論文引用,但是時(shí)間上靠后的論文不一定就是低質(zhì)量的論文,傳統(tǒng)的論文引用網(wǎng)絡(luò)質(zhì)量排序方法僅靠改變時(shí)間權(quán)重對(duì)舊論文進(jìn)行限制,同時(shí)提高新論文的時(shí)間權(quán)重,但是這樣會(huì)統(tǒng)一提升舊論文或者新論文的PageRank值,無法精確分辨出高質(zhì)量論文來。所以我們提出同時(shí)段被引量的概念,在不同時(shí)間節(jié)點(diǎn)人們總的關(guān)注度是一定的,所以論文質(zhì)量的好壞要與它同時(shí)段的論文進(jìn)行比較,一篇論文與它同時(shí)段相比獲得更大的引用量,那么這篇論文就被認(rèn)為是高質(zhì)量的論文?;诖耍覀兛梢缘玫讲煌瑫r(shí)段的高質(zhì)量論文,從而避免了僅靠時(shí)間權(quán)重導(dǎo)致的舊論文權(quán)重過大或者新論文權(quán)重過大的問題。如公式(5)所示: (5) 公式(5)中T是引文Pi、Pj共同的時(shí)間段,di(Pi)和di(Pj)分別表示節(jié)點(diǎn)Pi和節(jié)點(diǎn)Pj的入度個(gè)數(shù),因?yàn)樵谝木W(wǎng)絡(luò)中入度個(gè)數(shù)代表引文在該時(shí)間段被引用的次數(shù)。同一時(shí)間段中的論文,被引用的次數(shù)越多,說明論文在該時(shí)間段內(nèi)吸引了更多的關(guān)注度,屬于該時(shí)期的高質(zhì)量論文,避免了傳統(tǒng)引文計(jì)算網(wǎng)絡(luò)中通過添加時(shí)間權(quán)重導(dǎo)致新舊論文時(shí)間權(quán)重補(bǔ)足不均的缺點(diǎn)。 綜合節(jié)點(diǎn)入出度數(shù)比以及同時(shí)段關(guān)注度的綜合加權(quán)公式如式(6)所示: (1-d)/N (6) 公式(6)中a、b分別表示入出度權(quán)重和時(shí)間改進(jìn)權(quán)重的分配大小,影響節(jié)點(diǎn)在局部網(wǎng)絡(luò)和全局網(wǎng)絡(luò)中的權(quán)重分配,實(shí)驗(yàn)中分別選取0.7和0.3,衰減因子d一般取0.75,初始PR值取1。 實(shí)驗(yàn)采用從2014年到2018年四年內(nèi)400多篇DOA相關(guān)論文,引用網(wǎng)絡(luò)共3000節(jié)點(diǎn)6000條邊。從隨機(jī)論文節(jié)點(diǎn)開始發(fā)散,鏈接邊數(shù)在3以內(nèi)的3度引用網(wǎng)絡(luò)如圖4所示,可以看出論文網(wǎng)絡(luò)引用關(guān)系十分龐大并且復(fù)雜,而真正的引文網(wǎng)絡(luò)更加復(fù)雜多變,引用關(guān)系稀疏性更強(qiáng)。 圖4 隨機(jī)節(jié)點(diǎn)3度引用網(wǎng)絡(luò) 通過改進(jìn)的PageRank算法進(jìn)行引文網(wǎng)絡(luò)挖掘,對(duì)計(jì)算得到的網(wǎng)絡(luò)節(jié)點(diǎn)重要性結(jié)果排序取前七名如表1所示。 表1 引文網(wǎng)絡(luò)改進(jìn)PageRank挖掘結(jié)果排序 對(duì)重要度最高節(jié)點(diǎn)進(jìn)行可視化展示,展現(xiàn)論文2-drgee關(guān)系圖譜如圖5所示。 圖5 重要節(jié)點(diǎn)2度關(guān)系圖譜 對(duì)圖5進(jìn)行重要節(jié)點(diǎn)的標(biāo)記,標(biāo)記后的論文關(guān)系圖如圖6所示。 圖6中深紅色節(jié)點(diǎn)是計(jì)算得到的重要論文,淺紅色得到的是引用深紅色論文的其他論文如表2所示,從圖中可以明顯看出淺紅色節(jié)點(diǎn)與諸多論文有引用關(guān)系,屬于被經(jīng)常引用的論文,論文在引文網(wǎng)絡(luò)中重要性較高,而深紅色論文被四篇淺紅色論文所引用,說明深紅色論文在該時(shí)間段內(nèi)關(guān)注度較高,屬于高質(zhì)量論文。 圖6 最高節(jié)點(diǎn)圖數(shù)據(jù)關(guān)系圖譜-papername 表2 重要節(jié)點(diǎn)名稱信息 從實(shí)驗(yàn)結(jié)果可以看出,挖掘出的重要節(jié)點(diǎn)與鏈入它的其他節(jié)點(diǎn)的入度相似,但是重要節(jié)點(diǎn)的在引文網(wǎng)絡(luò)中有很大的入出度比率,論文的入度與出度比越大的文獻(xiàn)在引文網(wǎng)絡(luò)中的重要性越高。同時(shí)由于文獻(xiàn)數(shù)據(jù)來源于部分出名期刊,因此導(dǎo)致論文引用網(wǎng)絡(luò)中的文獻(xiàn)不僅存在引用稀疏性還存在文獻(xiàn)來源分類。我們認(rèn)為高質(zhì)量期刊的論文重要性大于普通期刊,因此部分出名期刊的論文重要程度遠(yuǎn)大于其他期刊文獻(xiàn),從而使得全局網(wǎng)絡(luò)最優(yōu)變?yōu)榫植?期刊)網(wǎng)絡(luò)最優(yōu),實(shí)驗(yàn)中Sensors期刊質(zhì)量較高并且數(shù)據(jù)源有較多文獻(xiàn),因此在引文網(wǎng)絡(luò)中有較高的計(jì)算權(quán)威性。 本文從論文引用網(wǎng)絡(luò)的特點(diǎn)出發(fā),針對(duì)傳統(tǒng)引文網(wǎng)絡(luò)檢索中特征單一的缺點(diǎn)以及傳統(tǒng)文獻(xiàn)網(wǎng)絡(luò)重要度排序中未考慮出入度差別和時(shí)間差別的不足,對(duì)PageRank算法進(jìn)行改進(jìn)。根據(jù)論文引用網(wǎng)絡(luò)參考文獻(xiàn)中不同論文的出入度比值的比一樣,改進(jìn)PageRank值分配方式,同時(shí)根據(jù)論文的發(fā)表時(shí)間不同,提出同時(shí)段吸引力的概念,將同一時(shí)間段的論文進(jìn)行差值加權(quán),從而將不同時(shí)間段的高質(zhì)量論文篩選出來。實(shí)驗(yàn)結(jié)果表明,該方法能很好的找到論文引用網(wǎng)絡(luò)中的高質(zhì)量文獻(xiàn),并對(duì)網(wǎng)絡(luò)中的高質(zhì)量論文進(jìn)行重要度排序。2.2 引文網(wǎng)絡(luò)
2.3 基于引用差值的改進(jìn)PageRank排序算法
3 實(shí)驗(yàn)結(jié)果
3.1 數(shù)據(jù)集
3.2 實(shí)驗(yàn)結(jié)果與展示
3.3 實(shí)驗(yàn)結(jié)果說明
4 結(jié) 語