張東紅 張冬芳 馬一凡
摘要:隨著學(xué)術(shù)網(wǎng)絡(luò)平臺(tái)的文獻(xiàn)數(shù)量不斷增長,快速高效的在眾多質(zhì)量參差不齊的文獻(xiàn)中找到適合自己研究領(lǐng)域的高質(zhì)量文獻(xiàn),對學(xué)術(shù)研究具有重要的意義。文中首先對傳統(tǒng)的PageRank算法的原理、基本思想以及其發(fā)展歷程進(jìn)行分析;然后在對比了鏈接網(wǎng)路與引文網(wǎng)絡(luò)的相似性和差異性后提出將鏈接網(wǎng)絡(luò)中的PageRank算法應(yīng)用到引文網(wǎng)絡(luò)中;最后對PageRank算法在引文網(wǎng)絡(luò)中的應(yīng)用進(jìn)行研究分析。研究發(fā)現(xiàn),傳統(tǒng)的PageRank算法存在一些缺陷,引文網(wǎng)絡(luò)中需將文獻(xiàn)發(fā)表時(shí)間和PageRank算法結(jié)合,進(jìn)而衡量文獻(xiàn)的重要性。
關(guān)鍵詞:學(xué)術(shù)網(wǎng)絡(luò)平臺(tái);PageRank算法;引文網(wǎng)絡(luò);文獻(xiàn)排名
中圖分類號:TP311? ? 文獻(xiàn)標(biāo)識碼:A
文章編號:1009-3044(2021)27-0044-03
Abstract: With the continuous growth of the amount of literature on academic network platforms, it is of great significance for academic research to quickly and efficiently find high-quality literature suitable for one's own research field among numerous literatures with uneven quality. Firstly, the principle, basic idea and development process of the traditional PageRank algorithm are analyzed. Then, after comparing the similarity and difference between link network and citation network, the PageRank algorithm in link network is proposed to apply to citation network. Finally, the application of PageRank algorithm in citation network is studied and analyzed. It is found that the traditional PageRank algorithm has some defects. In the citation network, the publication time of literature and PageRank algorithm should be combined to measure the importance of literature.
Key words: academic network platform; PageRank algorithm; citation network; literature ranking
1 引言
當(dāng)今時(shí)代是知識經(jīng)濟(jì)時(shí)代,網(wǎng)絡(luò)學(xué)術(shù)平臺(tái)成為人們獲取參考文獻(xiàn)的有效途徑。但隨著科學(xué)技術(shù)的進(jìn)步,文獻(xiàn)數(shù)量激增,對于開展學(xué)術(shù)研究產(chǎn)生了一定的不良影響。由于學(xué)術(shù)網(wǎng)絡(luò)平臺(tái)的文獻(xiàn)數(shù)量之龐大,文獻(xiàn)質(zhì)量參差不齊,想要在大量的數(shù)據(jù)中找到適合自己研究領(lǐng)域的高質(zhì)量文獻(xiàn)變得越來越困難,因此對文獻(xiàn)進(jìn)行有效的排序變得越來越重要。
通常對于文獻(xiàn)的重要性的研究是建立在文獻(xiàn)被引次數(shù)上的,但這存在著明顯的缺陷,比如,一般我們認(rèn)為,最新發(fā)表的文章是最具有參考價(jià)值的,但由于新發(fā)表的文獻(xiàn)被引用的次數(shù)較少,就會(huì)導(dǎo)致其排名靠后。文中結(jié)合文獻(xiàn)被引次數(shù)和文獻(xiàn)的發(fā)表時(shí)間對文獻(xiàn)排名進(jìn)行研究。
PageRank算法是用來度量網(wǎng)頁重要性的算法,在Google搜索引擎的網(wǎng)頁排名中取得了成功[1]。由于引文網(wǎng)絡(luò)和鏈接網(wǎng)絡(luò)的網(wǎng)絡(luò)構(gòu)成極為相似,文中將PageRank算法引入到引文網(wǎng)絡(luò)中進(jìn)行研究。
2 PageRank算法概述
2.1 PageRank算法的原理和基本思想
PageRank算法是一種經(jīng)典的網(wǎng)頁排序算法,它由Google的創(chuàng)始人L.Page和S.Brin提出[2]。PageRank算法用于衡量由搜索引擎構(gòu)成的Web圖中的每個(gè)網(wǎng)頁相對于其他網(wǎng)頁而言的重要程度[3]。
PageRank算法的基本原理:(1)起初,通過鏈接關(guān)系將各網(wǎng)頁構(gòu)建成Web圖,每一個(gè)頁面設(shè)置相等的PageRank值,通過一次一次的計(jì)算,得到每個(gè)頁面所獲得的PageRank值,每次計(jì)算,頁面的PageRank值都將更新;(2)每一個(gè)頁面將其當(dāng)前的PageRank值平均分配給本頁面包括的出鏈上,每一個(gè)頁面將所有指向該頁面的入鏈分配的值求和,進(jìn)而得到該頁面在本輪計(jì)算中的PageRank數(shù)值。
PageRank算法的核心觀點(diǎn)是:對于一個(gè)網(wǎng)頁來說,通常它會(huì)與其他網(wǎng)頁之間存在一定的聯(lián)系,比如,我們在其他網(wǎng)頁中可以看到此網(wǎng)頁的相關(guān)鏈接,并可以通過該鏈接對網(wǎng)頁進(jìn)行直接的訪問,PageRank算法恰好利用了這樣的鏈接關(guān)系來評價(jià)網(wǎng)頁的重要程度[4]。具體來說,被其他網(wǎng)頁鏈接的數(shù)量越大,那么這個(gè)網(wǎng)頁的重要程度就越高,相應(yīng)的,我們也就會(huì)得到更加大的PageRank數(shù)值。同樣的道理,如果能夠被一個(gè)非常重要的網(wǎng)頁所鏈接,那么被連接到的網(wǎng)頁的重要性不言而喻,因此,它所對應(yīng)的PageRank數(shù)值也會(huì)變大。
下述公式展示了如何去計(jì)算PageRank的數(shù)值:
其中,PR(pj)表示網(wǎng)頁pj的PageRank值,L(pj)表示網(wǎng)頁pj的出鏈數(shù)量,M(pi)表示網(wǎng)頁pi的入鏈網(wǎng)頁集合,N表示網(wǎng)頁的總數(shù)量,d表示阻尼系數(shù)。圖1為一個(gè)簡單的PageRank的計(jì)算過程。