李文靜 劉向 譚琳潔 嚴(yán)婷婷
收稿日期:2020-05-19
作者簡介:李文靜(1996-),女,碩士研究生,研究方向:數(shù)據(jù)挖掘與信息計(jì)量。譚琳潔(1997-),女,碩士研究生,研究方向:數(shù)據(jù)挖掘與信息計(jì)量。嚴(yán)婷婷(1996-),女,碩士研究生,研究方向:數(shù)據(jù)挖掘與信息計(jì)量。
通訊作者:劉向(1983-),男,副教授,碩士生導(dǎo)師,研究方向:數(shù)據(jù)挖掘與信息計(jì)量。
摘 要:[目的/意義]多主題覆蓋的樞紐節(jié)點(diǎn)群能夠快速“導(dǎo)航”至領(lǐng)域更多主題的高被引綜述文獻(xiàn)和權(quán)威節(jié)點(diǎn),從而可以使新領(lǐng)域工作者短時間全面了解領(lǐng)域已有研究、現(xiàn)狀和未來發(fā)展趨勢。[方法/過程]本文提出一種節(jié)點(diǎn)群發(fā)現(xiàn)算法——HubsRank算法,該算法基于引文網(wǎng)絡(luò)中節(jié)點(diǎn)影響力(信息、知識)的傳遞,通過多輪迭代,得到引文網(wǎng)絡(luò)中多主題覆蓋的樞紐節(jié)點(diǎn)群。[結(jié)果/結(jié)論]最后,與HITs算法進(jìn)行實(shí)證對比分析,本算法能更快、全面地提取樞紐節(jié)點(diǎn)群和不同主題的高被引權(quán)威節(jié)點(diǎn),且該算法可以有效避免主題集聚效應(yīng)。
關(guān)鍵詞:HubsRank算法;樞紐節(jié)點(diǎn)群;多主題覆蓋;科學(xué)引文網(wǎng)絡(luò)
DOI:10.3969/j.issn.1008-0821.2021.01.017
〔中圖分類號〕G250.252 〔文獻(xiàn)標(biāo)識碼〕A 〔文章編號〕1008-0821(2021)01-0144-08
Discovery of a Set of Hub Nodes with Multi-topic
Coverage in Scientific Citation Network
Li Wenjing Liu Xiang* Tan Linjie Yan Tingting
(School of Information Management,Central China Normal University,Wuhan 430079,China)
Abstract:[Purpose/Significance]The hub nodes with the multi-topic coverage can quickly lead to the highly cited literatures and authoritative nodes of multiple topics in the field,so that the new field workers can fully understand the existing research,current situation and future development trend in a short time.[Method/Process]This paper proposed a node group discovery algorithm,HubsRank algorithm,which is based on the transfer of node influence(information and knowledge)in citation network.Through multiple iterations,the hub nodes with multi-topic coverage in citation network was obtained.[Result/Conclusion]Finally,compared with HITs algorithm for empirical analysis,this algorithm can extract a set of hub nodes and highly cited authority nodes of different topics more quickly and comprehensively,and this algorithm can effectively avoid topic clustering effect.
Key words:HubsRank algorithm;hub nodes;multi-topic coverage;scientific citation network
樞紐節(jié)點(diǎn)指鏈接多個相關(guān)主題權(quán)威節(jié)點(diǎn)的一類節(jié)點(diǎn),一個好的樞紐節(jié)點(diǎn)通常指向許多好的權(quán)威節(jié)點(diǎn),一個好的權(quán)威節(jié)點(diǎn)被許多好的樞紐節(jié)點(diǎn)指向[1]。權(quán)威節(jié)點(diǎn)衡量節(jié)點(diǎn)對信息的原創(chuàng)性,樞紐節(jié)點(diǎn)則反映節(jié)點(diǎn)在信息傳播中的影響力[2]。高影響力的樞紐節(jié)點(diǎn)對網(wǎng)絡(luò)信息、知識等快速傳播起到重要作用。蘇成等[3]研究發(fā)現(xiàn),樞紐節(jié)點(diǎn)中綜述文獻(xiàn)比例高達(dá)50%,高被引的綜述文獻(xiàn)不僅能夠總結(jié)領(lǐng)域已有的研究成果,同時能夠啟示該領(lǐng)域未來的重大研究趨勢和發(fā)展方向。因此,從龐大的知識網(wǎng)絡(luò)中快速、全面地找到對某一領(lǐng)域形成多主題覆蓋的樞紐節(jié)點(diǎn)群,是初入新領(lǐng)域的學(xué)術(shù)研究者開啟研究的基礎(chǔ)和全面掌握知識的關(guān)鍵,對科研工作具有重要的理論和現(xiàn)實(shí)意義。
通過重要節(jié)點(diǎn)的發(fā)現(xiàn)以簡化網(wǎng)絡(luò),是研究復(fù)雜網(wǎng)絡(luò)架構(gòu)和特性的重要內(nèi)容。重要節(jié)點(diǎn)是指相比網(wǎng)絡(luò)其他節(jié)點(diǎn)能夠在更大程度上影響網(wǎng)絡(luò)的結(jié)構(gòu)與功能的一些特殊節(jié)點(diǎn)[4],其重要性表現(xiàn)在節(jié)點(diǎn)的影響力、權(quán)威性、控制力等方面[5]。重要節(jié)點(diǎn)的影響力包括局部影響力和全局影響力,節(jié)點(diǎn)的全局影響力越高,對整個網(wǎng)絡(luò)的信息、知識的傳播控制能力越強(qiáng)[2]。在已有研究中,度中心性[6]、k-殼分解法[7]、PageRank算法[8]、LeaderRank算法[9]都是基于節(jié)點(diǎn)重要性取決于鄰居節(jié)點(diǎn)的思想得到節(jié)點(diǎn)重要性排名,而上述這些節(jié)點(diǎn)排序方法都傾向于權(quán)威節(jié)點(diǎn)在網(wǎng)絡(luò)中的重要影響。HITs算法[1]第一次定義網(wǎng)絡(luò)中存在權(quán)威節(jié)點(diǎn)和樞紐節(jié)點(diǎn)兩類節(jié)點(diǎn),認(rèn)為節(jié)點(diǎn)的權(quán)威值是所有指向該節(jié)點(diǎn)的樞紐值之和,節(jié)點(diǎn)的樞紐值是該節(jié)點(diǎn)指向的所有節(jié)點(diǎn)權(quán)威值之和,從而明確了樞紐節(jié)點(diǎn)在網(wǎng)絡(luò)中的重要作用。但是,該算法在迭代過程中,聯(lián)系緊密度大的社區(qū),兩類節(jié)點(diǎn)的值往往會相互加強(qiáng),容易發(fā)生主題漂移[10]。近年來,越來越多的研究轉(zhuǎn)向一群全局高影響力節(jié)點(diǎn)的發(fā)現(xiàn),以求最大限度地快速擴(kuò)大網(wǎng)絡(luò)整體傳播范圍[11-12]。2016年,Zhang J X等[12]基于最大覆蓋的全局影響力思想提出了VoteRank算法,通過減小位于同一社區(qū)的節(jié)點(diǎn)被重復(fù)選中的概率,可以最大程度覆蓋到網(wǎng)絡(luò)的小社區(qū),有效避免了大社區(qū)的主題集聚。
單一、局部的重要節(jié)點(diǎn)排序算法研究決定了科研人員通常只關(guān)注“富者愈富”、聯(lián)系更為緊密的大社區(qū)少數(shù)節(jié)點(diǎn),忽略小社區(qū);而同一社區(qū)聯(lián)系緊密的節(jié)點(diǎn)主題往往又具有相似性。因此,局部節(jié)點(diǎn)排序算法對于領(lǐng)域主題的覆蓋往往是片面的?;诙嘀黝}覆蓋的樞紐節(jié)點(diǎn)群不僅能夠覆蓋到最具影響力的大社區(qū),同時能夠發(fā)現(xiàn)連接相對稀疏的小社團(tuán)、小主題、新興主題,從而可以更為全面地了解領(lǐng)域發(fā)展態(tài)勢。鑒于樞紐節(jié)點(diǎn)群挖掘的空白和樞紐節(jié)點(diǎn)對于領(lǐng)域發(fā)展的重要作用,本文基于VoteRank全局影響最大化的思想,通過改進(jìn)提出能夠?qū)W(wǎng)絡(luò)主題形成多覆蓋的HubsRank樞紐節(jié)點(diǎn)群發(fā)現(xiàn)算法。文章將以知識流動方向構(gòu)建科學(xué)引文網(wǎng)絡(luò),把文獻(xiàn)之間知識的傳播視為投票過程,通過節(jié)點(diǎn)之間的投票,選出得分最高的節(jié)點(diǎn)作為樞紐節(jié)點(diǎn);通過多次迭代,得到領(lǐng)域多主題覆蓋的樞紐節(jié)點(diǎn)群。統(tǒng)計(jì)樞紐節(jié)點(diǎn)鏈接權(quán)威節(jié)點(diǎn)的能力與主題覆蓋的速度和程度等,并與HITs算法進(jìn)行比較。
1 HubsRank算法設(shè)計(jì)
1.1 VoteRank算法概述
VoteRank算法以無向網(wǎng)絡(luò)為研究載體,通過設(shè)置影響力投票機(jī)制,找到一群全局影響力最大的種子傳播節(jié)點(diǎn)。算法基本思想是:對每個節(jié)點(diǎn)設(shè)置兩個屬性,分別為投票得分和投票能力。1個節(jié)點(diǎn)的得分取決于其所有鄰居節(jié)點(diǎn)的投票能力,初始每個節(jié)點(diǎn)的投票能力均設(shè)置為1。當(dāng)1個節(jié)點(diǎn)被選為種子節(jié)點(diǎn),則此節(jié)點(diǎn)及其鄰居節(jié)點(diǎn)的投票能力均下降至一定幅度,減小再被選中的概率。如此反復(fù)迭代,直至達(dá)到預(yù)定的節(jié)點(diǎn)數(shù)目或所有節(jié)點(diǎn)均被更新1遍停止。
1.2 HubsRank算法設(shè)計(jì)
與VoteRank算法所構(gòu)建的無向網(wǎng)絡(luò)不同,本文將其應(yīng)用于引文網(wǎng)絡(luò),構(gòu)造加權(quán)有向網(wǎng)絡(luò),其中節(jié)點(diǎn)代表文獻(xiàn),邊代表節(jié)點(diǎn)之間的知識流動,故而邊的方向與引用方向相反,即由被引文獻(xiàn)指向施引文獻(xiàn)。在引文網(wǎng)絡(luò)中,節(jié)點(diǎn)的影響力通過邊傳遞知識,文獻(xiàn)之間的知識傳遞也可以類比節(jié)點(diǎn)之間的投票,即視為被引文獻(xiàn)對施引文獻(xiàn)的知識“支持”。因此,本算法同樣設(shè)置每個節(jié)點(diǎn)u具有兩個屬性(Su,vau),即投票得分和投票能力。節(jié)點(diǎn)的投票得分Su源于其參考文獻(xiàn)(前向節(jié)點(diǎn))的知識“支持”,即某個節(jié)點(diǎn)的得分Su由其所有前向節(jié)點(diǎn)的投票能力之和決定,投票能力vau則由該節(jié)點(diǎn)u的前向節(jié)點(diǎn)數(shù)(參考文獻(xiàn)數(shù))和后向節(jié)點(diǎn)數(shù)(被引次數(shù))共同決定。
在引文網(wǎng)絡(luò)中,文獻(xiàn)具有實(shí)際意義,視每篇文獻(xiàn)同等重要是不合理的。因此,本文設(shè)置文獻(xiàn)的投票能力為被引次數(shù)減參考文獻(xiàn)數(shù)。文獻(xiàn)被引次數(shù)越多,文獻(xiàn)越重要,投票能力越強(qiáng)。被引數(shù)小于參考文獻(xiàn)數(shù)的節(jié)點(diǎn),投票能力設(shè)置為0,目的在于避免被引次數(shù)極低、參考文獻(xiàn)很多的節(jié)點(diǎn)成為樞紐節(jié)點(diǎn)被選中。當(dāng)被引次數(shù)遠(yuǎn)遠(yuǎn)大于參考文獻(xiàn)數(shù)時,節(jié)點(diǎn)的投票能力幾乎不受影響;當(dāng)被引次數(shù)小于參考文獻(xiàn)數(shù)時,認(rèn)為節(jié)點(diǎn)引用較多,原創(chuàng)性較低,近似設(shè)置投票能力為0,以此有效找到領(lǐng)域高被引的少數(shù)重要樞紐節(jié)點(diǎn)。
在相互投票過程中,聯(lián)系緊密度大的社區(qū),往往會產(chǎn)生TKC(Tightly Knit Community)效應(yīng)[10],選出的節(jié)點(diǎn)通常具有主題相似性,小的社區(qū)難以覆蓋。為了找到領(lǐng)域多主題覆蓋的樞紐節(jié)點(diǎn)群,本算法在迭代過程中,設(shè)置具有最高得分的節(jié)點(diǎn)將不參與以后迭代的投票,并且其前向節(jié)點(diǎn)的投票能力隨之降低,即主題相似性節(jié)點(diǎn)的投票能力將有很大概率下降,減少再被選中的幾率。
1.3 HubsRank算法步驟
第一步:構(gòu)建引文網(wǎng)絡(luò)。搜集待研究領(lǐng)域的文獻(xiàn),提取每篇文獻(xiàn)的作者、題目或DOI等唯一標(biāo)識文獻(xiàn)的特征。將搜集到的數(shù)據(jù)集通過引證關(guān)系,按照被引文獻(xiàn)指向施引文獻(xiàn)的知識流方向,構(gòu)建有向引文網(wǎng)絡(luò)。
第二步:初始化。設(shè)置所有節(jié)點(diǎn)兩個屬性:投票得分和投票能力,即(Su,vau)。初始時節(jié)點(diǎn)u的屬性是(0,koutu-kinu)。
第三步:投票。每個節(jié)點(diǎn)向其后向節(jié)點(diǎn)平均投票,同時接受其所有前向節(jié)點(diǎn)的投票之和作為自己的得分。然后計(jì)算每個節(jié)點(diǎn)的得分Su,選出具有最高分?jǐn)?shù)的節(jié)點(diǎn)作為樞紐節(jié)點(diǎn)。
第四步:更新。被選中的樞紐節(jié)點(diǎn)不再參與以后的投票,設(shè)置屬性為(0,0),同時降低其前向節(jié)點(diǎn)的投票能力為:(vau-f),直至降為0。此處簡單設(shè)置f=〈k〉,〈k〉為網(wǎng)絡(luò)平均度。
第五步:迭代。重復(fù)步驟二到步驟四,每次迭代都重新計(jì)算節(jié)點(diǎn)的得分,直到選出k個節(jié)點(diǎn)或每個節(jié)點(diǎn)都至少被更新1次為止。
為了便于理解,首先構(gòu)造一個簡單的引文網(wǎng)絡(luò),模擬HubsRank算法的過程,圖1是由11個節(jié)點(diǎn)構(gòu)成的有向網(wǎng)絡(luò)圖以及網(wǎng)絡(luò)中每個節(jié)點(diǎn)的初始狀態(tài)。
圖2是HubsRank算法第一輪迭代過程。節(jié)點(diǎn)1的前向節(jié)點(diǎn)是節(jié)點(diǎn)2和3,后向節(jié)點(diǎn)是節(jié)點(diǎn)4、5、6。初始時每個節(jié)點(diǎn)的屬性是(0,koutu-kinu)。在第一輪投票過程中,每個節(jié)點(diǎn)接受其前向節(jié)點(diǎn)的平均投票作為自己的得分,圖中節(jié)點(diǎn)1得分最高,被選中作為樞紐節(jié)點(diǎn)。第一輪投票結(jié)束后,節(jié)點(diǎn)1的投票得分和投票能力將永遠(yuǎn)降至為0,同時其前向節(jié)點(diǎn)的投票能力下降為(vau-〈k〉)。更新,然后進(jìn)行第二輪新的投票,如圖3所示,第二輪投票中,節(jié)點(diǎn)7被選為樞紐節(jié)點(diǎn),依次迭代進(jìn)行。
2 實(shí)驗(yàn)及結(jié)果分析
2.1 實(shí)驗(yàn)數(shù)據(jù)與對比說明
本文基于文獻(xiàn)[2]對“基于特征向量的排序方法”中的6種方法,分別為特征向量中心性(Eigenvector Centrality)、累計(jì)提名(Cumulative Nomination)、PageRank算法、LeaderRank算法、HITs算法、SALSA算法,作為實(shí)驗(yàn)的數(shù)據(jù)集。數(shù)據(jù)采集時間是1998—2019年,數(shù)據(jù)來源為Web of Science(WOS)核心合集,以6種方法的名稱作為檢索詞進(jìn)行檢索,獲取所有相關(guān)文獻(xiàn)題錄。另外,由于HITs算法和SALSA算法名稱與單詞Hits、Salsa以及其他學(xué)科名詞具有混淆性,剔除無關(guān)文獻(xiàn),進(jìn)行數(shù)據(jù)清理之后,最終得到文獻(xiàn)合計(jì)117 329篇。
由于以往的重要節(jié)點(diǎn)發(fā)現(xiàn)算法側(cè)重權(quán)威節(jié)點(diǎn)的排序,少有算法進(jìn)行樞紐節(jié)點(diǎn)以及樞紐節(jié)點(diǎn)群的研究。VoteRank算法雖然從節(jié)點(diǎn)群的角度出發(fā),但算法關(guān)注的依然是權(quán)威節(jié)點(diǎn)在網(wǎng)絡(luò)中的重要影響力。HITs算法第一次定義網(wǎng)絡(luò)中存在樞紐節(jié)點(diǎn),并給出了樞紐節(jié)點(diǎn)排名的具體方法,得到了學(xué)界的認(rèn)可與廣泛應(yīng)用。因此,本文將選擇HITs算法得到的樞紐節(jié)點(diǎn)與HubsRank算法得到的樞紐節(jié)點(diǎn)群做對比。
鑒于人們往往只關(guān)注排名靠前的節(jié)點(diǎn)的重要程度,以及考慮到新領(lǐng)域工作者時間、精力有限等現(xiàn)實(shí)情況,本文將分別選取HubsRank算法和HITs算法排名前30節(jié)點(diǎn)的特點(diǎn),進(jìn)行對比分析。
2.2 基本統(tǒng)計(jì)對比
表1顯示了兩個算法排名前10、前20和30樞紐節(jié)點(diǎn)的年份數(shù)量分布,從表中可以看出,兩個算法1998—2000年樞紐節(jié)點(diǎn)數(shù)量幾乎為0,占比最少,2016—2019年節(jié)點(diǎn)占比最多。其中,HubsRank算法在2016—2019年3次排名中樞紐節(jié)點(diǎn)分別占比40%、50%、53.3%,占比逐漸上升;HITs算法在3次排名中分別占比50%、40%、46.7%,占比較為穩(wěn)定。以上數(shù)據(jù)表明,兩個算法對于新節(jié)點(diǎn)發(fā)現(xiàn)均具有敏感性。
表2是根據(jù)WOS引文索引默認(rèn)劃分的兩個算法排名前10、前20和30樞紐節(jié)點(diǎn)的文獻(xiàn)類型分布。表中兩個算法的綜述文獻(xiàn)都占據(jù)較大比例,其中HubsRank算法在3次排名中綜述文獻(xiàn)分別占比80%、60%、50%;HITs算法分別占比80%、70%、57%,HITs算法占比略高于HubsRank算法。
根據(jù)WOS引文索引認(rèn)定的“高被引論文”中,HubsRank算法排名前30的樞紐節(jié)點(diǎn)有10篇為高被引論文,且有8篇為綜述文獻(xiàn),發(fā)表年份均在2010年之后,2017年1篇;HITs算法中有9篇為高被引論文,其中8篇為綜述文獻(xiàn),發(fā)表年份也均在2010年之后,2017年2篇。通過梳理兩個算法的文獻(xiàn)類型,再次證實(shí)樞紐文獻(xiàn)中綜述文獻(xiàn)占據(jù)較大比例;而且綜述文獻(xiàn)是高被引論文的比例依然很高。
近些年科學(xué)文獻(xiàn)的參考文獻(xiàn)數(shù)量呈現(xiàn)逐年上升的趨勢,大量新發(fā)表的科學(xué)文獻(xiàn)引用較多的參考文獻(xiàn),從而更容易成為樞紐節(jié)點(diǎn)受到關(guān)注。樞紐節(jié)點(diǎn)是新發(fā)表同時也是高被引論文的文獻(xiàn)占比很大,如果新發(fā)表的高被引樞紐文獻(xiàn)本身具有創(chuàng)新性或科學(xué)影響力,那么其本身也將有極大可能成為權(quán)威節(jié)點(diǎn)。
2.3 樞紐節(jié)點(diǎn)影響力對比
高影響力的樞紐節(jié)點(diǎn)是引用較多有影響力的權(quán)威節(jié)點(diǎn)的一類文獻(xiàn),而高影響力的權(quán)威節(jié)點(diǎn)被引次數(shù)也通常較高。因此,本文將對比HubsRank算法和HITs算法排名前20樞紐節(jié)點(diǎn)的前向節(jié)點(diǎn)(參考文獻(xiàn))的被引用情況,間接反映樞紐節(jié)點(diǎn)鏈接權(quán)威節(jié)點(diǎn)的能力以及樞紐節(jié)點(diǎn)的重要性。
本文利用樞紐節(jié)點(diǎn)的所有前向節(jié)點(diǎn)的總出度(參考文獻(xiàn)總被引數(shù))TN、前向節(jié)點(diǎn)數(shù)(參考文獻(xiàn)數(shù))LN以及前向節(jié)點(diǎn)篇均被引數(shù)AN來反映樞紐節(jié)點(diǎn)鏈接權(quán)威節(jié)點(diǎn)的范圍及廣度。在投票過程中,被引數(shù)較低的前向節(jié)點(diǎn)對其后向節(jié)點(diǎn)傳遞的知識流相對較少,因此本文將選擇每個樞紐節(jié)點(diǎn)的出度排名前5的前向節(jié)點(diǎn)出度之和占總出度TN的比例PN5來反映樞紐節(jié)點(diǎn)鏈接高被引權(quán)威節(jié)點(diǎn)的能力。該比例越高,說明排名靠前的高被引參考文獻(xiàn)對樞紐節(jié)點(diǎn)的影響力越強(qiáng),即樞紐節(jié)點(diǎn)的影響力是由為數(shù)不多的參考文獻(xiàn)的影響力決定的。
從表3和表4可知,兩個算法樞紐節(jié)點(diǎn)的參考文獻(xiàn)總被引數(shù)TN都較高,HITs算法總被引數(shù)相對高于HubsRank算法。從參考文獻(xiàn)數(shù)LN結(jié)果發(fā)現(xiàn),HubsRank算法的參考文獻(xiàn)數(shù)高于HITs算法的有14個,且參考文獻(xiàn)數(shù)低于300的節(jié)點(diǎn)占比10%,HITs算法占比40%;其他區(qū)間HubsRank算法占比都略高,表明HubsRank算法能夠鏈接更多的參考文獻(xiàn),鏈接范圍更廣。從AN的結(jié)果來看,HITs算法的參考文獻(xiàn)篇均被引數(shù)基本均遠(yuǎn)遠(yuǎn)高于HubsRank算法,即HITs算法鏈接的參考文獻(xiàn)被引次數(shù)普遍較高;從PN5結(jié)果發(fā)現(xiàn),HubsRank算法中有14個節(jié)點(diǎn)的占比明顯高于HITs算法,且位于0.61以上的區(qū)間占比50%,HITs算法占比30%,即HubsRank算法可以鏈接排名前5的更高被引的參考文獻(xiàn)。
綜合以上4個指標(biāo)分析,HubsRank算法能夠鏈接更多的參考文獻(xiàn),但鏈接的參考文獻(xiàn)被引次數(shù)差異較大,分布不均;HITs算法鏈接的參考文獻(xiàn)被引數(shù)普遍較高且差異小,但對排名前5的更高被引的參考文獻(xiàn)“導(dǎo)航”能力較差。從現(xiàn)實(shí)因素出發(fā),由于時間和精力有限,科研工作者往往只會瀏覽少數(shù)、多主題的高被引權(quán)威文獻(xiàn)作為研究入門的基礎(chǔ),因此對少數(shù)高被引的參考文獻(xiàn)具有更強(qiáng)“導(dǎo)航”能力的HubsRank算法可以更快速發(fā)現(xiàn),在現(xiàn)實(shí)科研中更具有實(shí)際意義。
2.4 主題覆蓋對比
由于本數(shù)據(jù)集選擇的主題是“基于復(fù)雜網(wǎng)絡(luò)的排序算法”,而通過關(guān)鍵詞、文本聚類等方法分析文獻(xiàn)主題本身具有相似性。因此,在對主題覆蓋方面做對比時,依然通過樞紐節(jié)點(diǎn)中出度排名前5的前向節(jié)點(diǎn)的文獻(xiàn)主題來比較兩個算法覆蓋權(quán)威節(jié)點(diǎn)主題的能力。
表5顯示了排名前10的樞紐節(jié)點(diǎn)中,出度排名前5的前向節(jié)點(diǎn)標(biāo)號。從表中統(tǒng)計(jì)分析得到,兩個算法覆蓋的權(quán)威節(jié)點(diǎn)的主題均包括復(fù)雜網(wǎng)絡(luò)“無標(biāo)度特性”[13](4號節(jié)點(diǎn))和“小世界特性”[14](310號)的文獻(xiàn),PageRank算法[8](30號),HITs算法[1](40號),度中心性[6](154號),中介中心性[15](274號)等相關(guān)文獻(xiàn),這表明兩個算法都能夠覆蓋到該領(lǐng)域重要的權(quán)威節(jié)點(diǎn),覆蓋效果良好。
從前向節(jié)點(diǎn)標(biāo)號發(fā)現(xiàn),在前10篇不重復(fù)的參考文獻(xiàn)中,HITs算法鏈接的權(quán)威節(jié)點(diǎn)均是關(guān)于排序算法的相關(guān)文獻(xiàn);HubsRank算法有兩篇文獻(xiàn)涉及到復(fù)雜網(wǎng)絡(luò)更廣的主題范圍,分別是Girvan M等提出的GN算法[16](817號),GN算法第一次以社團(tuán)結(jié)構(gòu)劃分復(fù)雜網(wǎng)絡(luò),開創(chuàng)了以社團(tuán)而不是單個節(jié)點(diǎn)分析網(wǎng)絡(luò)的先河;另一篇是H指數(shù)[17](159號)的提出,H指數(shù)通過信息計(jì)量量化學(xué)者的貢獻(xiàn),具有廣泛的應(yīng)用范圍,也因此衍生了含權(quán)網(wǎng)絡(luò)的H-度中心性排序算法[18]。另外,140號文獻(xiàn)是“基于特征向量排序算法”中重要的“特征向量中心性”方法[19]的文獻(xiàn),出現(xiàn)在HubsRank算法中第10名樞紐節(jié)點(diǎn)的參考文獻(xiàn)中,而HITs算法在第22名樞紐節(jié)點(diǎn)的參考文獻(xiàn)中才第一次出現(xiàn)。
擴(kuò)大到排名前30的樞紐節(jié)點(diǎn),前向節(jié)點(diǎn)出度(參考文獻(xiàn)被引數(shù))居于前5的所有文獻(xiàn),通過HubsRank算法得到:排名前10的文獻(xiàn)中,有19篇不重復(fù)文獻(xiàn),排名前20有38篇,排名前30有49篇,分別占比38%、38%、32.7%;HITs算法中排名前10有11篇,前20有13篇,前30有17篇,分別占比22%、13%、11.3%。從覆蓋的主題角度看,HubsRank算法能夠覆蓋到權(quán)威節(jié)點(diǎn)更多的主題。
立足在迭代中降低前向節(jié)點(diǎn)投票能力的原則,HubsRank算法不重復(fù)的前向節(jié)點(diǎn)標(biāo)號明顯較多,占比更大。而且相比HITs算法,HubsRank算法高被引的權(quán)威節(jié)點(diǎn)大量集中于排名靠前的樞紐節(jié)點(diǎn)中,且基本覆蓋了HITs算法發(fā)現(xiàn)的所有權(quán)威文獻(xiàn)。另外,由于HITs算法在迭代前迭代次數(shù)難以預(yù)設(shè)的固有缺陷,HubsRank算法則可以在迭代前設(shè)置迭代次數(shù),從而計(jì)算效率大大提高。通過數(shù)次迭代,就能夠更早發(fā)現(xiàn)、更快覆蓋到更多主題的高被引權(quán)威節(jié)點(diǎn)。后向延伸到更多排名,樞紐節(jié)點(diǎn)將會最大覆蓋到“排序算法”領(lǐng)域的主題,形成最大覆蓋的樞紐節(jié)點(diǎn)群。
3 結(jié)論與展望
本文基于引文網(wǎng)絡(luò)提出了HubsRank迭代算法,通過挖掘引文網(wǎng)絡(luò)中的樞紐節(jié)點(diǎn),發(fā)現(xiàn)復(fù)雜網(wǎng)絡(luò)中形成多主題覆蓋的樞紐節(jié)點(diǎn)群,從而找到領(lǐng)域最新、覆蓋更廣的高被引綜述文獻(xiàn)和權(quán)威文獻(xiàn)。在理論創(chuàng)新方面,本算法對于聯(lián)系緊密的大社區(qū),能夠通過數(shù)次迭代更早、更快發(fā)現(xiàn)樞紐節(jié)點(diǎn)和高被引的權(quán)威節(jié)點(diǎn);同時也能夠及時跳出大社區(qū),對網(wǎng)絡(luò)中的次社團(tuán)、小主題依然有良好的覆蓋效果,避免節(jié)點(diǎn)產(chǎn)生主題集聚效應(yīng)。在現(xiàn)實(shí)應(yīng)用層面,本算法能夠快速找到領(lǐng)域多主題的高被引綜述文獻(xiàn)和權(quán)威文獻(xiàn),對于新領(lǐng)域科研工作者全面了解領(lǐng)域知識具有重要引領(lǐng)、導(dǎo)航效果。
本算法對現(xiàn)有相關(guān)研究做出了一些貢獻(xiàn)。其一,HubsRank算法關(guān)注樞紐節(jié)點(diǎn)在復(fù)雜網(wǎng)絡(luò)中的重要作用,并提出了樞紐節(jié)點(diǎn)排序的方法。樞紐節(jié)點(diǎn)具有鏈接廣泛、傳播能力強(qiáng)、位置優(yōu)越等特點(diǎn),因此研究樞紐節(jié)點(diǎn)具有同等重要性和必要性。其二,與HITs算法不同,本算法發(fā)現(xiàn)多主題覆蓋的樞紐節(jié)點(diǎn)群,強(qiáng)調(diào)節(jié)點(diǎn)群的全局影響力。同時,多主題的樞紐節(jié)點(diǎn)群對新領(lǐng)域工作者具有一定實(shí)用價值。其三,本算法計(jì)算復(fù)雜度不高,可以針對大規(guī)模網(wǎng)絡(luò)進(jìn)行求解與挖掘。其四,HubsRank算法的應(yīng)用范圍不僅僅局限于科學(xué)引文網(wǎng)絡(luò),對于其他大型復(fù)雜網(wǎng)絡(luò)的樞紐節(jié)點(diǎn)挖掘以及節(jié)點(diǎn)群的發(fā)現(xiàn)同樣具有適用性和啟發(fā)意義。
以下幾個方面還有待進(jìn)一步改進(jìn):首先,針對科學(xué)引文網(wǎng)絡(luò),本算法適用于有引文的文獻(xiàn)題錄數(shù)據(jù)集,對于數(shù)據(jù)量少的數(shù)據(jù)集效果可能不佳。其次,本文僅分析了排名前30的科學(xué)文獻(xiàn),結(jié)果可能有所偏差。由于數(shù)據(jù)集本身以及從標(biāo)號查找原始文獻(xiàn)具有困難性,本文沒有對更多節(jié)點(diǎn)進(jìn)行統(tǒng)計(jì)分析。最后,對于節(jié)點(diǎn)迭代過程中,投票能力降低的參數(shù)設(shè)置還沒有統(tǒng)一的標(biāo)準(zhǔn)。因此,今后將繼續(xù)致力于算法的改進(jìn),進(jìn)行更深入的研究。
參考文獻(xiàn)
[1]Kleinberg J M.Authoritative Sources in a Hyperlinked Environment[J].JACM,1999,46:604-632.
[2]Lü L Y,Chen D B,et al.Vital Nodes Identification in Complex Networks[J].Physics Reports,2016,650:1-63.
[3]蘇成,Kim H S.基于PageRank,HITS和SALSA算法的學(xué)術(shù)論文評價[J].情報(bào)雜志,2015,(6):48-54.
[4]任曉龍,呂琳媛.網(wǎng)絡(luò)重要節(jié)點(diǎn)排序方法綜述[J].科學(xué)通報(bào),2014,13:1175-1197.
[5]吳思竹,張智雄.網(wǎng)絡(luò)中心度計(jì)算方法研究綜述[J].圖書情報(bào)工作,2010,54(18):107-110,148.
[6]Freeman L C.Centrality in Social Networks Conceptual Clarification[J].Social Networks,1979,(1):215-239.
[7]Kitsak M,Gallos L K,Havlin S,et al.Identification of Influential Spreaders in Complex Networks[J].Nature Phys,2010,(6):888-893.
[8]Brin S,Page L.The Anatomy of a Large-scale Hypertextual Web Search Engine[J].Computer Networks,1998,30:107-117.
[9]Lü L Y,Zhang Y C,Yeung C H,et al.Leaders in Social Networks,the Delicious Case[J].PLoS One,2011,(6):e21202.
[10]Lempel R,Moran S.The Stochastic Approach for Link-structure Analysis(SALSA)and the TKC Effect[J].Computer Networks,2000,33:387-401.
[11]Yang X,Huang D C,Zhang Z K.Neighborhood Coreness Algorithm for Identifying a Set of Influential Spreaders in Complex Networks[J].KSII Transactions on Internet and Information Systems,2017,11(6):2979-2995.
[12]Zhang J X,Chen D B,Dong Q,et al.Identifying a Set of Influential Spreaders in Complex Networks[J].Scientific Reports,2016,(6):1-9.
[13]Barabási A L,Albert R.Emergence of Scaling in Random Networks[J].Science,1999,286:509-512.
[14]Watts D J,Strogatz S H.Collective Dynamics of‘Small-worldNetworks[J].Nature,1998,393:440-442.
[15]Freeman L C.A Set of Measures of Centrality Based on Betweenness[J].Sociometry,1977,40(1):35-41.
[16]Girvan M,Newman M E J.Community Structure in Social and Biological Networks[J].Proceedings of the National Academy of Sciences,2002,99:7821-7826.
[17]Hirsch J E.An Index to Quantify an Individuals Scientific Research Output[J].Proceedings of the National Academy of Sciences of the United States of America,2005,102(46):16569-16572.
[18]Zhao S,Rousseau R,Ye F Y.h-Degree as a Basic Measure in Weighted Networks[J].Journal of Informetrics,2011,(5):668-677.
[19]Bonacich P.Factoring and Weighting Approaches to Status Scores and Clique Identification[J].Journal of Mathematical Sociology,1972,(2):113-120.
(責(zé)任編輯:陳 媛)