白瑩瑩
摘 要:隨著學術網絡平臺上科技論文的大量發(fā)表,高效地從復雜的學術網絡中找到符合用戶需要的有價值的文章及其作者成為當前一項重要而困難的工作。文章首先對學術社區(qū)發(fā)現算法的研究現狀進行說明;然后對論文排名和作者影響力評估算法進行論述;最后總結論文排名和作者影響力評估算法存在的不足和面臨的挑戰(zhàn),并對學術影響力排名的發(fā)展前景進行展望。
關鍵詞:學術社區(qū);文獻排名;PageRank算法;作者影響力
隨著科技的進步,越來越多的學者參與到科學研究工作當中,導致文獻的數量呈現海量增長。這些文獻為我們開展研究工作提供了很大方便的同時也帶來了一些困難。在開展科研工作的過程中,我們不可能閱讀所有的文獻,而是要在大量的數據中找到屬于自己研究領域的高水平文章和學者。這時就需要根據論文信息構建學術網絡,并根據論文的主題對學術網絡進行領域劃分。目前,學術網絡的相關研究得到了相當大的關注,是極具活力和熱度的研究領域。
1 學術社區(qū)發(fā)現
近年來,很多學者研究復雜網絡的社區(qū)結構得到許多不同的理論,提出了很多社區(qū)劃分算法,例如基于圖分割的算法、基于層次聚類的算法、基于模塊度優(yōu)化的算法和基于啟發(fā)式社區(qū)挖掘的算法等。
Kemighan等[1]提出了著名的K-L算法,主要是將效益函數和貪婪算法相結合來劃分網絡中的節(jié)點,或者將不同社區(qū)節(jié)點的位置進行交換,最終劃分社區(qū);辛娟娟[2]提出了一種基于拉普拉斯矩陣的譜特征劃分網絡社區(qū)的譜二分法;唐杰等[3]運用不同的函數對譜二分法進行改進,降低了算法的時間復雜度的算法也被提出;Girvan等[4]提出了GN算法,通過刪除最大網絡邊界數來實現社區(qū)劃分;運用統計學方法,一種與GN算法類似的算法被提出,降低了算法運行的時間復雜度;Newman[5]提出“模塊度”的概念用來評價社區(qū)質量好壞,他們認為模塊度越大,社區(qū)結構越明顯。隨著對模塊度概念的進一步理解,研究者提出許多關于優(yōu)化模塊度來尋找網絡社區(qū)最佳劃分的算法。
在社區(qū)發(fā)現算法中,標簽傳播算法因其簡單高效而被廣泛應用,但是算法也存在著準確率低、穩(wěn)定性差、易產生標簽震蕩現象的缺點[6]。針對這些情況,很多科研人員提出了改進的標簽傳播算法,在傳統標簽傳播算法的基礎上改善了標簽的更新策略和傳播策略,從而在保證算法效率的基礎上提高了算法的準確性和穩(wěn)定性,提升了社區(qū)劃分的質量。
2 文獻排名算法
目前國內外對于文獻排名算法的研究有很多,很多學者根據引文網絡和鏈接網絡的相似性將PageRank算法應用到文獻排名算法中,其計算公式如下:
其中,N為引文網絡中文獻總數;PR(A)表示引用了文獻A的文獻Pi的PageRank值;C(Pi)表示引用了文獻的文獻數;α為處于0~1之間的經驗常數。
隨著PageRank算法的廣泛應用,有學者開始在學術文獻排名中將PageRank算法和其他指標相結合來得到更好的排名結果[7]。Age-based PageRank算法[8]加入論文發(fā)表時間來改進排名算法;CiteRank算法是針對引用網絡而設計的一種文獻排名算法,它是一種基于文獻發(fā)表時間和隨機游走的方式對文獻進行排名的算法;FutureRank算法用來實現文獻未來的影響力的排名;和PageRank算法一樣,HITS算法最初也被用來定義網頁的重要性,劉大有等[9]將HITS算法應用到學術網絡中,定義了一對與作者相關且彼此關聯的評分標準一撰寫權威值和引用權威值,并基于FutureRank算法將文獻發(fā)表時間作為影響未來引用頻次的因素,預測文獻價值。
3 作者影響力評估
作者是學術活動中的主體,作者影響力評估是當前學術領域研究的熱點問題,獲得了科研工作者的廣泛關注,具有較強的應用價值。
Hirsch[10]將作者的發(fā)文量和被引次數進行綜合考量,提出h指數(H-index)[11]對作者進行評價研究,h指數是指某位學者至多有h篇論文分別被引用了至少h次,H-index綜合考慮了作者的發(fā)文數量和文獻的被引用次數;此后很多學者考慮到h指數的缺陷,在此基礎上對h指數進行修正,提出了一系列衍生算法。
傳統的PageRank算法評價作者影響力的算法評價作者的影響力忽略了時間因素,發(fā)表時間越久的論文被引用的次數可能更多,相應的PageRank值越大。但是在現實生活中,我們一般認為最新發(fā)表的論文應該具有更大的參考價值;H-index算法只考慮文章的被引頻次,忽略了文章本身的價值。文章結合這兩個算法,并加入時間因素對算法進行改進[12]。
4 作者影響力評估算法的改進
作者影響力評估算法改進的思想是:基于論文的引用關系矩陣[13],使用PageRank算法迭代計算每篇文章的PageRank值,然后基于作者和論文之間的關系矩陣采用HITS算法迭代求解作者和文獻的權威值[14],同時考慮加入時間因素對文獻排名算法進行改進,用改進的PageRank算法對社區(qū)內的文章進行影響力排名。
在文獻排名的基礎上對作者的影響力進行排名,使用改進的PageRank算法替換H-index算法中的引用數,可以得到一個改進的作者影響力評估算法。
5 結語
隨著科研工作的發(fā)展,越來越多的學者參與到科研工作中,大量的學術論文被發(fā)表。如何從龐大的科研工作數據庫中找到影響力較大的作者和文獻,是目前影響力評估算法研究的重點工作。本文對社區(qū)發(fā)現、論文排名和作者影響力評估相關算法研究成果進行分析綜述,總結了算法改進的措施,確定了下一步研究內容,為未來學術網絡的研究提供幫助。
[參考文獻]
[1]KEMIGHAN B W, LIN S.An efficient heuristic procedure for partitioning graphs[J].Bell System Technical Journal, 1970(49):291-307.endprint
[2]辛娟娟.社區(qū)劃分算法的研究與應用[D].北京:北京林業(yè)大學,2015.
[3]唐杰,宮繼兵,劉柳,等.基于話題模型的學術社會網絡建模以及應用[J].中國科技論文在線,2011(1):25-31.
[4]GIRVAN M,NEWMAN M E J. Community structure in social and biological networks[J].Proceedings of the National Academy of Sciences, 2002(12):7821-7826.
[5]NEWMAN M E J. Modularity and community in networks[J].Proceedings of the National Academy of Sciences, 2006(23):8577-8582.
[6]張俊麗,常艷麗,師文.標簽傳播算法理論及其應用研究綜述[J].計算機應用研究,2013(1):21-25.
[7]ERJIA Y, YING D. Discovering author impact:a page rank perspective:information processing and management[M].Amsterdam Elsevier Ltd., 2011.
[8]SAYYADI H, GETOOR L. FutureRank:ranking scientific articles by predicting their future PageRank[C].Siam International Conference on Data Mining , 2009 :533-544.
[9]劉大有,薛銳青,齊紅.基于作者權威值的論文價值預測算法[J].自動化學報,2012(10):1654-1662.
[10]HIRSCH J E.An index to quantify an individuals scientific output[J].Proceedings of the National Academy of Sciences of the United States of America, 2005(46):16569-16572.
[11]YAN R, TANG J, LIU X, et al. Citation count prediction:learning to estimate future citations for literature[C].Proceedings of the 20th ACM International Conference Information and Knowledge Management, Association for Computing Machinery, 2011:1247-1252.
[12]周金夢.基于學術異構網絡的學者影響力評估算法[D].大連:大連理工大學,2016.
[13]曾瑋.文獻排名預測算法及作者影響力評估算法研究[D].成都:西南大學,2014.
[14]薛銳青.基于作者權威值的論文排名預測算法研究[D].長春:吉林大學,2012.endprint