劉 玲,黃麗蓉,劉勝宗
(湖南財政經(jīng)濟學(xué)院 信息技術(shù)與管理學(xué)院,長沙 410205)
論文推薦系統(tǒng)的關(guān)鍵技術(shù)研究*
劉 玲,黃麗蓉,劉勝宗
(湖南財政經(jīng)濟學(xué)院 信息技術(shù)與管理學(xué)院,長沙 410205)
隨著海量的研究論文出版發(fā)表,向研究人員推薦相關(guān)論文以滿足他們的信息需求的論文推薦系統(tǒng)成為了一個重要的研究領(lǐng)域。論文相關(guān)度是論文推薦系統(tǒng)的核心,詳細介紹了圍繞這一核心的三類關(guān)鍵技術(shù):引用關(guān)系分類技術(shù)、基于引用圖的相關(guān)性度量技術(shù)和論文推薦算法,并實驗對比了目前常用的五種相關(guān)性度量方法(共引、共聯(lián)、CCIDF、HITS Vector-based和Katz距離)的推薦效果,由此提出用引用關(guān)系來量化論文之間的依賴關(guān)系,再結(jié)合Katz距離計算全局相關(guān)性這一改進意見.
引用關(guān)系;引用圖;論文相關(guān)性度量
隨著知識、信息的數(shù)字化,越來越多的科研成果存放在數(shù)字圖書館系統(tǒng)中,當(dāng)我們在享受這些系統(tǒng)豐富而全面的信息的同時,也面臨信息過載帶來的不便.通過改進數(shù)字圖書館的搜索算法,雖然能夠提升全局的結(jié)果排序性能,但其忽略了用戶的個性化需求.為此,數(shù)字圖書館迫切需要一種能夠匹配用戶興趣需求的論文推薦系統(tǒng).然而,發(fā)展了20多年、較為成熟的商業(yè)領(lǐng)域中的主流推薦技術(shù),由于缺少論文領(lǐng)域的用戶評分和用戶畫像,并不不適合在數(shù)字圖書館中完成論文推薦任務(wù).
論文推薦系統(tǒng)的關(guān)鍵技術(shù)是論文之間相關(guān)性的量化技術(shù),目前主要包括內(nèi)容分析(如計算文本的相似度)、社會網(wǎng)絡(luò)分析(如合作作者關(guān)系)、引文分析(如共引等)三大分支.
Strohman等人在文獻[1]中已經(jīng)指出,簡單的內(nèi)容分析在論文推薦中效果并不好,而引用信息更能精確地測量論文的相關(guān)性.至于社會網(wǎng)絡(luò)分析,給用戶推薦合作作者或是其他相關(guān)人員(例如關(guān)注的作者、權(quán)威的作者)的論文,我們認為靶向性受太多因素的干擾,比如,一個作者的研究領(lǐng)域常常是多樣性的;一個學(xué)者的興趣領(lǐng)域也常常是變化的.所以與其通過作者間接相關(guān),不如通過論文直接相關(guān).
如此分析,我們將重點放在引文分析這類相關(guān)性量化技術(shù)以及基于引文分析的推薦算法上,從引用關(guān)系分析技術(shù)和基于引用圖的相關(guān)性度量技術(shù)兩方面展開理論和實驗的研究,表1是下文用到的符號注釋表.
表1 符號注釋描述表
Tang等人在文獻[2]中認為,如果兩篇論文高度相關(guān),是因為它們描述了相似的內(nèi)容或主題.但我們認為,一些在內(nèi)容或主題上差異較大的兩篇論文,仍可能具有較高的相關(guān)性.例如,某篇論文中的關(guān)鍵算法或解決方法是基于其引用的一篇參考文獻而提出的,則這兩篇論文之間存在著基礎(chǔ)性的或標(biāo)準(zhǔn)方法類的相關(guān)關(guān)系.事實上,不同類型的引用關(guān)系有助于量化引文和被引文之間的相關(guān)性[3].一些研究者已經(jīng)在引用關(guān)系上開展了語義挖掘的研究,來將各種引文按照引用關(guān)系、引用影響力或是重要性進行分類.
Nanba等人[4]將引用關(guān)系分為三種類型:基于(Based-on)關(guān)系、比較(Comparable)關(guān)系和一般(General)關(guān)系.當(dāng)pciter的內(nèi)容是基于pcitee的擴展時,pciter與pcitee之間的引用鏈接就是基于關(guān)系,例如pciter提出的技術(shù)是基于pcitee提出的技術(shù).當(dāng)用pcitee用來與pciter在某方面進行相異或相似性比較時,pciter與pcitee之間的引用鏈接就是比較關(guān)系,例如pciter與pcitee用不同的方法解決了一個相似的研究問題.除了基于關(guān)系和比較關(guān)系,其他都是一般關(guān)系,例如pciter通過引用pcitee來介紹一些背景知識.Nanba首先采用事先為基于關(guān)系和比較關(guān)系指定的線索詞的匹配來收集引文被引用位置的上下文,然后用事先指定的160個規(guī)則作用在此收集到的線索詞集上來識別引用鏈接是哪種類型.本文覺得將引用關(guān)系分為以下三類更全面:(1)主題相關(guān)的論文,比如都是針對某個相同的研究問題或主題而提出的不同解決方案;(2)基礎(chǔ)性的或標(biāo)準(zhǔn)方法類的相關(guān)論文,這些論文主要提供基礎(chǔ)性的理論與工具,有利于研究人員解決其研究中的實際問題;(3)綜述或背景類的相關(guān)論文.但相關(guān)的分類技術(shù)還有待研究.
Tang等人[5]提出了一種監(jiān)督學(xué)習(xí)方法來分類引用鏈接,并且關(guān)注每個引用鏈接的影響強度的量化工作.他們認為如果一對pciter和pcitee描述了相似的內(nèi)容,那么pcitee就對pciter有很大的影響.但是,本文認為僅僅考慮內(nèi)容相似度來評價影響可能會帶來一些問題,因為一些高影響力的文章在內(nèi)容上可能變化很大.另外,[5]只考慮了直接引用鏈接的影響,然而使用引用圖的全局結(jié)構(gòu)可以檢索更多相關(guān)論文的候選項,所以進一步研究間接引用的影響強度是很有必要的.
Huang等人[6]提出了一個引文語義鏈網(wǎng)絡(luò)(C-SLN)來描述引文網(wǎng)絡(luò)的語義信息.他們使用一些自然語言處理方法來生成C-SLN并且計算引文的重要性,認為在論文的主體部分出現(xiàn)很多次的引用應(yīng)該有更高的重要性.然而,提取每個引用的發(fā)生位置是一項耗時的任務(wù).
目前引用信息已被廣泛用來計算學(xué)術(shù)論文之間的相關(guān)性.由論文數(shù)據(jù)集可建一個引用圖,圖上每個節(jié)點p∈V代表一篇論文,每條邊ε∈E代表一個引用鏈接.直觀的引用信息都包含在引用圖中,現(xiàn)有技術(shù)大都使用相鄰節(jié)點或是全局引用圖的結(jié)構(gòu)來度量論文相關(guān)性.
使用相鄰節(jié)點信息的主要方法有共引(co-citation)、共聯(lián)(co-coupling)和CCIDF.共引(co-citation)識別相關(guān)論文是指,若論文A和B均被同一篇論文C引用,則認為A與B是相關(guān)論文;通過共聯(lián)(co-coupling)識別相關(guān)論文是指,若論文A和B的參考文獻中均引用了相同的一篇或多篇論文,則認為A與B是相關(guān)論文[7].表2中各列出了一種基于共引共聯(lián)思想的相關(guān)度計算公式.共引和共聯(lián)法存在的問題包括:(1)對于最新發(fā)表的論文,由于其被引量少,通過共引關(guān)系較難判定其是否為相關(guān)論文;(2)對于一個新興領(lǐng)域早期階段發(fā)表的論文,由于其參考文獻數(shù)量少,通過共聯(lián)關(guān)系也較難判定其是否為相關(guān)論文.Lawrence等人在[8]中提出了CCIDF的相關(guān)度測量方法,但從表2所示的公式可看出 CCIDF是基于共引關(guān)系,所以其仍存在上述問題.CCIDF類似于信息檢索里的TF-IDF概念,用逆文本頻率指數(shù)IDF來給每篇論文賦權(quán),以此來降低高引用率的方法類論文的權(quán)重,使推薦列表里的論文類型更趨多樣化.
使用全局引用圖的結(jié)構(gòu)信息的主要方法有Lu等人在[9]中提出的HITS Vector-based測量方法和Liben-Nowell等人在[10]中提出的Katz距離測度等.HITS算法是由Jon Kleinberg博士于1997 年最先提出,用于網(wǎng)頁鏈接分析的一個非?;A(chǔ)且重要的算法,其核心思想是找到與用戶查詢主題相關(guān)的高質(zhì)量權(quán)威頁面(例如比如搜索引擎領(lǐng)域的Google和百度首頁)和包含了很多指向高質(zhì)量權(quán)威頁面鏈接的樞紐頁面(例如hao123首頁),尤其是權(quán)威頁面.[9]認為由學(xué)術(shù)論文和他們之間的引用形成的網(wǎng)絡(luò)空間具有同質(zhì)性,比萬維網(wǎng)更適合使用HITS算法,他們提出的HITS Vector-based算法是:首先對用于相似度計算的兩篇論文分別生成路徑長度為k的局部引用圖;接著對每個局部引用圖計算里面每個節(jié)點的樞紐性權(quán)值和權(quán)威性權(quán)值;再以兩個局部引用圖的并集節(jié)點為模,節(jié)點的樞紐性權(quán)值和權(quán)威性權(quán)值為值,對每一個局部引用圖生成一個向量(若該圖不包含某一節(jié)點,則該節(jié)點的值置為0);最后計算這兩個向量的余弦距離作為兩篇論文的相似度.Katz通過考慮節(jié)點之間的路徑數(shù)和每條路徑的長度來度量兩個節(jié)點的相關(guān)性,具體相關(guān)性計算公式見表2.但這類通過將引用關(guān)系轉(zhuǎn)換為圖模型,并據(jù)此衡量結(jié)點(即論文)之間相關(guān)度的研究中,都忽略了邊(即引用)之間的語義關(guān)系.
表2 各方法的相關(guān)性度量公式
眾所周知,協(xié)同過濾(Collaboration Filtering,簡稱CF)算法是推薦系統(tǒng)中最基本的算法,該算法不僅在學(xué)術(shù)界得到了深入研究,而且在業(yè)界得到了廣泛應(yīng)用.在論文推薦領(lǐng)域應(yīng)用CF算法的關(guān)鍵是完成引用圖和用戶物品評分矩陣(user-item rating matrix)之間的映射.至今常提及的共有如表3所示的三種映射:1)將用戶映射為論文作者,物品映射為參考文獻中的被引文,每個作者會給它的參考文獻評分(例如2表示參考過2次);2)將用戶映射為論文,物品映射為參考文獻中的被引文,每篇論文會給它的參考文獻投票(1表示引用過,0表示沒有引用過);3)用戶和物品都被映射為被引文,兩篇被引文對應(yīng)的評分是它們的共引度量(例如3表示兩篇論文曾同時被3篇論文引用過).映射一較難體現(xiàn)論文間的引用關(guān)系,也不適合直接用來建立用戶模型,用得比較少了;在映射二得到的共聯(lián)矩陣上可以使用UserCF算法,比較給定論文和候選論文的參考文獻的相似度,用共聯(lián)思想識別相關(guān)的論文;在映射三得到的共引矩陣上可以使用ItemCF算法,比較給定論文和候選論文的被引相似度,用共引思想識別相關(guān)的論文.
表3 引用圖到用戶物品評分矩陣的映射方法
Ekstrand等人[11]提出利用論文在引用網(wǎng)絡(luò)中的影響力來增強論文推薦算法的方法,他們提到的論文推薦算法包括協(xié)同過濾算法和基于內(nèi)容的算法.是根據(jù)用戶近期的研究興趣來為用戶推薦論文.然而用戶的研究興趣很有可能跨越很大,并且迄今為止沒有廣受認同的用戶模型,所以本文認為為指定的論文推薦相似論文更合理,用戶可以再和指定的論文建立關(guān)系.
為了更直觀的了解第2部分提到的常用論文相關(guān)性度量技術(shù)(Co-citation、Co-coupling、CCIDF、HITS Vector-based、Katz)的優(yōu)劣,我們進行了對比實驗.
實驗數(shù)據(jù)集:從ACL Anthology Network上下載的AAN數(shù)據(jù)集(http://clair.eecs.umich.edu/aan/index.php),該數(shù)據(jù)集包含19918篇論文和124812個引用鏈接、17954位作者和112558個合作鏈接.
實驗設(shè)計:輸入一篇論文p,首先在全局引用圖上提取p的相鄰(3個長度范圍以內(nèi))論文集Ap(Ap=Rp∪Qp),按照均勻分布隨機分成10份,隨機挑選一份作為測試集,標(biāo)記為Tp,并去掉所有p與Tp的鏈接,剩下的9份作為訓(xùn)練集.
評測指標(biāo):因為只有相關(guān)和不相關(guān)兩種分類,所以選用F1分?jǐn)?shù)和NDCG指標(biāo).F1分?jǐn)?shù)能同時兼顧準(zhǔn)確率和召回率;DCG的思想是越相關(guān)的結(jié)果排在越前面其值越大,NDCG是歸一化的DCG.其中D表示推薦論文集,precision是準(zhǔn)確率,recall是召回率,i表示檢索的論文的相關(guān)度排名,檢索的論文相關(guān)則Gi=1,不相關(guān)則Gi=0.
(1)
(2)
實驗結(jié)果:如表3所示,考慮了全局引用圖的結(jié)構(gòu)信息的HITS Vectors-based和Katz方法相對只考慮相鄰引用信息的cocitation、cocoupling和CCIDF方法具有更好的性能.特別是Katz方法,在此實驗中,明顯比其他方法的準(zhǔn)確率和召回率高了很多,并且相對HITS Vectors-based方法更容易實現(xiàn),執(zhí)行效率更高.
實驗結(jié)論:(1)使用全局引用圖3個長度以內(nèi)的鏈接信息相比只使用相鄰鏈接信息能獲得更好的推薦效果;(2)HITS Vectors-based方法中每篇論文的權(quán)威性權(quán)值必須用40次迭代求得,所以Katz方法不僅比HITS Vectors-based方法能獲得更好的推薦效果,而且更容易實現(xiàn).
表4 前十個結(jié)果的F1值和NDCG值
針對研究人員高效獲取、組織、定位相關(guān)學(xué)術(shù)論文的難題,以及數(shù)字圖書館對個性化論文推薦系統(tǒng)的實際需求,我們在推薦系統(tǒng)的核心——論文相關(guān)度上深入研究,發(fā)現(xiàn)目前基于引用圖的論文相關(guān)度研究是最高效最廣泛的,主要包括引用關(guān)系分類技術(shù)和相關(guān)度度量技術(shù),以及相應(yīng)的CF推薦算法.通過對目前常用的五種相關(guān)性度量方法的對比實驗發(fā)現(xiàn)使用全局引用圖結(jié)構(gòu)信息的Katz方法能獲得最好的推薦效果.
本文實驗用到的五種相關(guān)性度量方法并沒有用到引用關(guān)系,而根據(jù)實際經(jīng)驗可以確定引文并不是對所有被引文都具有相同的依賴性,且高依賴性的引文具有高相關(guān)性,所以我們未來將會研究如何利用引用關(guān)系來量化論文之間的依賴關(guān)系,再結(jié)合Katz距離計算全局相關(guān)性.
[1] Strohman, T., Croft, W., Jensen, D..Recommending Citations for Academic Papers[A].Proceedings of the 30th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, 2007:706-707.
[2] J. Tang, J. Zhang, J. Yu, Z. Yang. Topic Distributions over Links on Web[A]. Proceedings of the 2009 Ninth IEEE International Conference on Data Mining, 2009:1010-1015.
[3] Z. Huang, Y. Qiu. A Multiple-perspective Approach to Constructing and Aggregating Citation Semantic Link Network[J]. Future Generation Computer Systems, 2010,26(3):400-407.
[4] H. Nanba and M. Okumura.Towards multi-paper summarization using reference information[A]. International Joint Conferenceon ArtificialIntelligence, 1999(16):926-931.
[5] J. Tang, J. Zhang, J. Yu, Z. Yang, K. Cai, R. Ma, L. Zhang, and Z. Su.Topic Distributions over Links on Web[A]. Proceedings of the 2009 Ninth IEEE International Conference on Data Mining, 2009:1010-1015.
[6] Z. Huang and Y. Qiu. A Multiple-perspective Approach to Constructing and Aggregating Citation Semantic Link Network[J]. Future Generation Computer Systems, 2010,26(3):400-407.
[7] Y. Liang, Q. Li, T. Qian. Finding Relevant Papers Based on Citation Relations[A]. Proceedings of the 12th International Conference on Web-Age Information Management, 2011:403-414.
[8] Lawrence, S., Lee Giles, C., Bollacker, K.Digital Libraries and Autonomous Citation Indexing[J]. Computer, 1999,32(6):67-71.
[9] W. Lu, Janssen, J., Milios, E., Japkowicz, N., Zhang, Y.: Node Similarity in the Citation Graph[J]. Knowledge and Information Systems, 2007,11(1):105-129.
[10] Liben-Nowell, D., Kleinberg, J.: The Link-prediction Problem for Social Networks[J]. Journal of the American Society for Information Science and Technology, 2007,58(7):1019-1031.
[11] M. Ekstrand, P. Kannan, J. Stemper, J. Butler, J. Konstan, and J. Riedl. Automatically building research reading lists[A]. Proceedings of the fourth ACM conference on Recommender Systems, 2010:159-166.
ResearchonKeyTechnologyofPaperRecommendationSystem
LIU Ling,HUANG Li-rong,LIU Sheng-zong
(Information Technology and Management Institute, Hunan University of Finance and Economics, Changsha 410205,China)
With the tremendous amount of research publications, paper recommending system which recommends relevant papers to researchers to fulfill their information need becomes an important research area. This paper argues that paper relevance measurement is the core of paper recommending system.So three key technologies centering on this core are introduced in detail:citation relation classification,paper relevance measurement based on citation graph and paper recommendation algorithm.We evaluate five well-known approaches on a real-world publication data set and conduct an extensive comparison about them.At last, it is proposed to improve the global relevance of Katz by using reference relation to quantify the dependency between the papers.
citation relation; caitation graph; paper relevance measurement
2017-08-16
湖南省教育廳科研項目(16C0268).
劉 玲(1980-),女,碩士,講師,研究方向:數(shù)據(jù)挖掘和機器學(xué)習(xí).
TP391
A
1671-119X(2017)04-0043-05