劉 雪 晴
(復(fù)旦大學(xué)軟件學(xué)院 上海 201203)
由于信息技術(shù)的迅猛發(fā)展與普及,科研人員開展學(xué)術(shù)活動(dòng)的形式不再局限于會(huì)議、討論等線下互動(dòng)。很多科研工作者開始在各類不同的科研社交平臺(tái)上尋找感興趣的小同行及其群體,查看彼此的簡(jiǎn)歷,與各地的科研人員互相分享研究成果、交換意見和建議,構(gòu)成了一個(gè)覆蓋全世界的科研社交網(wǎng)絡(luò)。和其他社交網(wǎng)絡(luò)一樣,它也面臨著信息過載的問題。推薦系統(tǒng)是用來解決信息過載問題的重要方法之一,可以主動(dòng)滿足用戶的個(gè)性化信息需求[1]。因此,基于科研社交網(wǎng)絡(luò)的推薦研究非常重要。
基于科研社交網(wǎng)絡(luò)的推薦系統(tǒng)主要從以下三個(gè)方向展開:推薦科研成果、推薦科研人員、推薦科研社群。對(duì)于科研工作者來說,一個(gè)合適的同行研究者,帶來的不僅僅是有效的學(xué)術(shù)交流,更是顯著的知識(shí)發(fā)現(xiàn),對(duì)科研工作者生產(chǎn)力和創(chuàng)新力的提高提供一定的幫助。智能的科研小同行推薦系統(tǒng)可以有效地幫助科研人員更快地找到更合適的科研合作者,從而提高他們的學(xué)術(shù)競(jìng)爭(zhēng)力?,F(xiàn)有的基于科研社交網(wǎng)絡(luò)的科研人員推薦主要包括專家推薦[2]、合著者推薦。汪俊等[3]通過對(duì)科研社交網(wǎng)絡(luò)中科研人員的知識(shí)與社會(huì)關(guān)系信息進(jìn)行挖掘,構(gòu)建了鏈接預(yù)測(cè)模型實(shí)現(xiàn)專家推薦服務(wù)。文獻(xiàn)[4]基于結(jié)構(gòu)分析研究人員基于研究機(jī)構(gòu)的關(guān)系及其與外部研究人員間的關(guān)系,構(gòu)建了多元的科研社交模型,應(yīng)用到巴西在線科研社區(qū)中獲得了很好的推薦效果。文獻(xiàn)[5]基于合作者網(wǎng)絡(luò),構(gòu)建了一個(gè)隨機(jī)游走模型,為科研人員推薦潛在的科研合作者和科研合作群體??梢钥闯觯壳暗目蒲泻献髡哐芯侩m然混合使用了基于內(nèi)容推薦[6-7]、基于社交網(wǎng)絡(luò)推薦[8-9]、基于協(xié)同過濾推薦[10-12]的方法對(duì)科研社交網(wǎng)絡(luò)進(jìn)行挖掘,但是仍然缺乏一個(gè)考慮雙向意愿的推薦機(jī)制。實(shí)際上,科研人員無論從基于內(nèi)容還是基于行為的角度,都隱含著自己的偏好。是否選擇和另一個(gè)科研人員一起合作研究,需要同時(shí)滿足雙方的偏好,才能建立小同行鏈接,才算一個(gè)成功的推薦。為了彌補(bǔ)傳統(tǒng)推薦算法的這種不足,基于互惠性的雙向推薦[13-16]引起了國(guó)內(nèi)外學(xué)者的廣泛關(guān)注。
小同行推薦這個(gè)應(yīng)用場(chǎng)景本質(zhì)上是用戶到用戶的推薦,參與的雙方既是服務(wù)用戶,又是待推薦用戶,他們不僅在研究興趣偏好和行為偏好上相似,而且雙方的偏好都需要得到滿足,達(dá)到互惠的推薦效果,這也是雙向推薦技術(shù)的基本前提。然而在科研社交網(wǎng)絡(luò)中現(xiàn)有的推薦研究基本上只考慮一方的需求,很少有研究討論互惠性的概念。因此本文在挖掘科研人員基于相似性的特征之后,利用科研人員的行為網(wǎng)絡(luò)交互數(shù)據(jù),挖掘基于協(xié)同過濾的互惠性。首先提出一種基于協(xié)同過濾的雙向互惠小同行推薦模型CFRPR;隨后融合科研人員的多維度特征相似度,通過對(duì)比基于協(xié)同過濾的雙向推薦以及融合基于內(nèi)容的互惠相似性,實(shí)驗(yàn)驗(yàn)證了本文算法的有效性。同時(shí)也證明了基于互惠性的雙向推薦可以適當(dāng)?shù)亟鉀Q推薦系統(tǒng)中存在的冷啟動(dòng)問題。
與傳統(tǒng)的推薦方法相比,參與雙向推薦的雙方都是具有自主選擇能力的對(duì)象,因此匹配時(shí)需要滿足雙方的偏好。社交網(wǎng)絡(luò)中的用戶推薦與雙向互惠性聯(lián)系最為緊密,因?yàn)殡p向偏好的匹配直接決定了推薦的質(zhì)量。文獻(xiàn)[17]在基于社交網(wǎng)絡(luò)的業(yè)務(wù)合作伙伴識(shí)別中應(yīng)用了雙向推薦,通過使用所屬公司的簡(jiǎn)介和用戶之間的事務(wù)關(guān)系生成候選人。文獻(xiàn)[18]提出了一個(gè)三因素圖模型,將其應(yīng)用到社交網(wǎng)絡(luò)中的雙向鏈接預(yù)測(cè)。文獻(xiàn)[19-20]將雙向互惠性應(yīng)用到在線交友推薦中。其中文獻(xiàn)[20]通過同時(shí)考慮基于用戶偏好相似度的局部度量和基于雙向匹配的全局度量,提出了一個(gè)廣義的雙向互惠性推薦框架。通過在線約會(huì)網(wǎng)站和在線招聘網(wǎng)站上的實(shí)驗(yàn),證明了其有效性。
文獻(xiàn)[21]通過考慮雙向鏈接,給出了一種基于混合協(xié)同過濾(HCF)的解決方案,在推薦初始聯(lián)系和雙向聯(lián)系時(shí)均表現(xiàn)出了很高的性能。文獻(xiàn)[22]采用基于內(nèi)容的推薦算法學(xué)習(xí)雙方用戶的偏好相似度,同時(shí)利用用戶之間的交互數(shù)據(jù)挖掘目標(biāo)用戶的隱式偏好,基于雙向偏好匹配定義了一個(gè)新的評(píng)估度量(成功率)來評(píng)價(jià)算法的性能。該算法基于融合策略進(jìn)行推薦,解決了推薦系統(tǒng)中最常見的冷啟動(dòng)問題。但該算法具有一定的局限性,僅適用于信息對(duì)稱的推薦領(lǐng)域,具有一定的局限性。雙向推薦還被應(yīng)用到招聘中職位和求職者之間的匹配中[23],通過引入本體的概念,構(gòu)建了雙向推薦系統(tǒng)。
總的來講,基于內(nèi)容與基于協(xié)同過濾相結(jié)合的雙向混合推薦策略是目前最先進(jìn)的互惠性研究。然而科研社交網(wǎng)絡(luò)中現(xiàn)有的推薦研究基本上只考慮一方的需求,很少有研究討論互惠性的概念。文獻(xiàn)[24]在基于科研社交網(wǎng)絡(luò)的導(dǎo)師推薦研究中考慮了用戶之間性格偏好的匹配,但僅僅作為相似性度量的特征之一,并不能很好地度量用戶在不同指標(biāo)的雙向偏好匹配程度,也沒有強(qiáng)調(diào)互惠性的重要性。而小同行推薦本質(zhì)上是一個(gè)雙向互惠的任務(wù),科研人員的雙向意向?qū)⒅苯記Q定最終的推薦結(jié)果。因此如何將雙向互惠性推薦應(yīng)用到科研社交網(wǎng)絡(luò)的推薦系統(tǒng)中將是本文重點(diǎn)研究的問題。
在小同行推薦這個(gè)情境下,科研人員想要尋找的是在某個(gè)特定學(xué)科/專業(yè)能有效地滿足其專業(yè)知識(shí)需求,并且能通過個(gè)人社交網(wǎng)絡(luò)方便地與其建立連接的目標(biāo)用戶。因此,在科研人員之間相似度的計(jì)算中,除了利用基本的學(xué)術(shù)信息,也需要近一步抽取社交網(wǎng)絡(luò)相關(guān)特征。
本文在文獻(xiàn)[24]已有的研究成果基礎(chǔ)上提出基于多維度融合特征相似性的小同行推薦模型MSBPR(Multidimensional Similarity-based Peer Researcher Recommendation Model)。具體相似度計(jì)算方法如下:
1) 研究方向相似度(Expertise Similarity) 首先利用科研人員的科研成果相關(guān)信息、所參與基金項(xiàng)目的數(shù)量及相應(yīng)等級(jí)信息,根據(jù)JCR的期刊分區(qū)情況和AHP的項(xiàng)目分類情況賦予相應(yīng)的權(quán)重,結(jié)合G指數(shù)挖掘得到科研人員的學(xué)術(shù)質(zhì)量度。在此基礎(chǔ)上構(gòu)建學(xué)術(shù)質(zhì)量度加權(quán)的LDA模型,基于該主題分布首先得到科研人員的研究方向相似性:
(1)
式中:θv是候選科研人員v的研究方向主題分布,θu,v是科研人員u和v的聯(lián)合平均分布,表示二者研究方向的聯(lián)合分布。通過計(jì)算各自與聯(lián)合分布的距離來度量科研人員之間的研究方向匹配程度。
2) 基于個(gè)體層次的連接度(Individual Connectivity) 基于科研社交網(wǎng)絡(luò)上的合著者網(wǎng)絡(luò),混合使用基于鄰居和基于路徑的相似度度量方法挖掘科研人員基于個(gè)體層次的連接度:
IdCon(u,v)=δNPro(u,v)+(1-δ)PPro(u,v)
(2)
式中:δ是根據(jù)科研人員在網(wǎng)絡(luò)中的連接度引入的平滑參數(shù)。NPro(u,v)是科研人員u與v基于Adamic-Adar方法的鄰居距離(Neighbor Proximity)。PPro(u,v)是兩個(gè)科研人員基于最短路徑的相似度(Path Proximity)。
3) 基于機(jī)構(gòu)層次的連接度(Institutional Connectivity) 在選擇小同行建立合作關(guān)系時(shí),所屬機(jī)構(gòu)之間的合作連接也會(huì)影響結(jié)果[25]。本文基于機(jī)構(gòu)間的合作網(wǎng)絡(luò)挖掘兩個(gè)科研人員u與v基于機(jī)構(gòu)的連接度:
(3)
式中:ΓIu表示用戶u所屬機(jī)構(gòu)Iu的所有科研產(chǎn)出集合。分?jǐn)?shù)的分子表示兩個(gè)機(jī)構(gòu)的共同科研產(chǎn)出數(shù)量,分母則表示兩個(gè)科研人員所隸屬機(jī)構(gòu)的科研產(chǎn)出總和。
4) 基于多維度特征的相似度(Combining Similarity) 利用一種基于分值的無監(jiān)督學(xué)習(xí)方法——Comb-MNZ算法,來融合上述度量得到科研人員基于多維度特征的相似度度量:
(4)
(5)
式中:NR表示所有特征的數(shù)量,τ(v,NR)表示候選研究人員v在集合R中的出現(xiàn)頻率。Scorenorm(v,Rn)為候選研究人員v在特征n上正則化分?jǐn)?shù)。特征總數(shù)量為f,基于貪心策略為每個(gè)特征分配權(quán)重wn。
至此,將每位候選科研人員與目標(biāo)科研人員的相似度用融合后的分值(式(4))來度量,可以根據(jù)該得分來預(yù)測(cè)每個(gè)候選科研人員被推薦為小同行的概率。根據(jù)高低排序可以過濾候選推薦列表。
除了用戶相關(guān)的內(nèi)容信息,科研社區(qū)中還收集了大量與科研人員相關(guān)的行為數(shù)據(jù)。例如,當(dāng)一個(gè)用戶選擇與其他科研人員建立好友關(guān)系、合作關(guān)系時(shí),或是回復(fù)別人的消息時(shí),系統(tǒng)都會(huì)產(chǎn)生記錄,而這些記錄中也蘊(yùn)含著科研人員的偏好。
本文將科研人員在科研社區(qū)中的交互表示為一個(gè)雙向網(wǎng)絡(luò),其中一個(gè)節(jié)點(diǎn)代表一個(gè)科研人員,雙向網(wǎng)絡(luò)的邊通常連接著兩個(gè)研究興趣相近的用戶。在許多科研社區(qū)中,如果科研人員x對(duì)另一個(gè)科研人員y感興趣的話,他通常會(huì)發(fā)送一條簡(jiǎn)單的預(yù)設(shè)信息,例如“對(duì)您的研究方向很感興趣,是否有機(jī)會(huì)一起合作?”或者一個(gè)好友申請(qǐng),本文將其定義為初始聯(lián)系IC(Initial Contact)。如果y也對(duì)x感興趣,他/她可以發(fā)送一個(gè)回復(fù)(Reply)給x,這就構(gòu)成了兩個(gè)科研人員之間的雙向聯(lián)系RC(Reciprocal Contact)。本文將由這種雙向聯(lián)系組成的網(wǎng)絡(luò)定義為小同行網(wǎng)絡(luò)。圖1描述了基于科研社區(qū)的一個(gè)交互網(wǎng)絡(luò)案例。
圖1 基于科研社區(qū)的一個(gè)交互網(wǎng)絡(luò)案例
其中所有科研人員構(gòu)成了用戶集合U,本文將需要推薦服務(wù)的科研人員定義為服務(wù)用戶S,其中S?U。N=|S|是服務(wù)用戶的數(shù)量。M=|U|是科研人員的總數(shù)量(N≤M)。本文將服務(wù)用戶從所有用戶(科研人員)群里分離出來,是因?yàn)榛趨f(xié)同過濾的模型在擁有更多歷史行為的用戶群體上會(huì)表現(xiàn)得更好。
無論是初始聯(lián)系還是雙向聯(lián)系,都包含著用戶的行為偏好信息。從聯(lián)系的定義可以得到,由服務(wù)用戶發(fā)起的初始聯(lián)系包含了服務(wù)用戶對(duì)候選用戶的“品位”,而候選用戶選擇發(fā)送回復(fù),則說明該服務(wù)用戶與候選用戶的偏好相匹配,本文將其定義為服務(wù)用戶的“吸引力”。通過考慮服務(wù)用戶和候選用戶之間偏好及吸引力的匹配,定義基于協(xié)同過濾的互惠性特征。在用戶嘗試與其感興趣的科研人員建立小同行鏈接的應(yīng)用背景下,嘗試通過提高服務(wù)用戶得到候選科研人員回應(yīng)的概率,以提升推薦的性能。
本文使用經(jīng)典協(xié)同過濾小同行推薦模型CFBPR(CF-Based Peer Recommendation Model)作為第一個(gè)基準(zhǔn)模型,并基于該模型對(duì)科研人員的偏好建模,分以下三步進(jìn)行:
(1) 將科研人員的交互行為表示為一個(gè)M×N的鏈接矩陣C。在二分矩陣C中,如果科研人員i向科研人員j發(fā)起了初始聯(lián)系,則無論科研人員是否回復(fù)了科研人員i,都有Ci,j=1,否則Ci,j=0。因此,該矩陣的行表示一個(gè)服務(wù)用戶的所有初始聯(lián)系行為并且反映了他/她的偏好。圖2展示了一個(gè)初始聯(lián)系矩陣案例。
圖2 聯(lián)系矩陣:CFBPR模型
(2) 計(jì)算服務(wù)用戶u和w之間基于協(xié)同過濾的相似度CFSim(u,w)。在本文中,使用矩陣C中科研人員u和w行向量的余弦相似度來度量。相似度越高,表示兩個(gè)科研人員在選擇小同行時(shí)有著越相似的品位,即他們請(qǐng)求聯(lián)系了相似的科研人員。
(3) 候選科研人員推薦排序。對(duì)于一個(gè)服務(wù)用戶u,模型會(huì)對(duì)每一個(gè)與u還未有過互動(dòng)行為的候選科研人員v(v∈U并且v≠u)進(jìn)行迭代,計(jì)算u與v之間(將v推薦給u)的推薦成功分?jǐn)?shù):
(6)
基于該分?jǐn)?shù)對(duì)候選列表進(jìn)行排序,分?jǐn)?shù)越高,科研人員v越可能被推薦給u。該模型的基本思想是越多與服務(wù)用戶u偏好相似的學(xué)者向科研人員v發(fā)送初始聯(lián)系,科研人員v越可能會(huì)是u的潛在小同行。
為了與最終的模型做對(duì)比,提出一個(gè)只考慮雙向聯(lián)系的模型ROPR(Reciprocity-only Peer Recommendation Model)作為另一個(gè)基準(zhǔn)模型。即在該模型的二分聯(lián)系矩陣中,只有當(dāng)科研人員i與j之間有著雙向聯(lián)系時(shí)才會(huì)有Ci,j=1(不管由誰發(fā)起初始聯(lián)系),否則Ci,j=0。即使科研人員i單方面聯(lián)系/關(guān)注了j,只要j不回復(fù),那么Ci,j仍為0。聯(lián)系矩陣具體見圖3。因此,該矩陣的行既表示了一個(gè)用戶的品位,也表示了他/她的吸引力。
圖3 聯(lián)系矩陣:ROPR模型
相似度的計(jì)算方法及小同行的推薦方法均與基準(zhǔn)CF模型保持一致。該模型的主要思想為:只有當(dāng)候選科研人員v對(duì)服務(wù)用戶u感興趣并且吸引了與u有相似偏好及吸引力的科研人員,科研人員v才會(huì)被推薦給u。
ROPR模型雖然能夠描述用戶間基于協(xié)同過濾的顯示偏好(品位和吸引力),它仍有兩個(gè)限制:
1) 忽略了初始聯(lián)系請(qǐng)求未被回應(yīng)的情況下隱含的科研人員偏好信息。例如圖3中S1的行向量為空,因此無法不能追蹤他的品位。
2) 未利用不回復(fù)初始聯(lián)系行為所隱含的負(fù)反饋偏好信息。例如,當(dāng)R2選擇不回應(yīng)S2的初始聯(lián)系,這表示S2的吸引力與R2的品位不匹配。對(duì)于與S2有相似吸引力的用戶,R2可能不是一個(gè)好的候選推薦。
這兩個(gè)限制會(huì)影響用戶的互惠性特征計(jì)算。例如,圖3中S2和S4都聯(lián)系了用戶R4,但都沒有得到回復(fù),這種隱式品位相似性和吸引力相似性并沒有在該模型中體現(xiàn)出來,因而無法得到準(zhǔn)確的科研人員互惠性特征。
通過同時(shí)考慮初始聯(lián)系和雙向聯(lián)系,本文提出了一個(gè)基于協(xié)同過濾的雙向推薦模型CFRPR(CF-based Reciprocal Peer Recommendation Model),挖掘科研人員的顯式偏好和隱式偏好,對(duì)科研人員基于協(xié)同過濾的互惠性特征建模。這樣一來,聯(lián)系矩陣C則變成了一個(gè)三維矩陣。為了簡(jiǎn)化,本文仍然用一個(gè)二維矩陣來表示它:
ci,j=
(7)
當(dāng)科研人員i發(fā)送了一個(gè)信息(初始聯(lián)系或者回復(fù)聯(lián)系)給科研人員j(意味著j的吸引力與i的品位相匹配),那么此時(shí)Ci,j,1=1,否則Ci,j,1=0,表示i對(duì)j不感興趣。同樣地,如果科研人員j對(duì)科研人員i感興趣,Ci,j,2=1,反之Ci,j,2=0。圖4是混合模型的一個(gè)聯(lián)系矩陣案例。
圖4 聯(lián)系矩陣:CFRPR模型
該矩陣可以分為兩個(gè)二分矩陣,分別表示服務(wù)用戶和候選科研人員的品位。由于候選科研人員的偏好會(huì)反映服務(wù)用戶的吸引力,反之亦然。
為了簡(jiǎn)化說明,仍舊基于二維聯(lián)系矩陣來綜合考慮三種科研人員之間的相似性度量:
1) 品位相似性——兩個(gè)科研人員對(duì)相似的科研人員感興趣。
2) 吸引力相似性——兩個(gè)科研人員吸引了相似的科研人員。
3) 負(fù)反饋偏好相似性——兩個(gè)科研人員拒絕了相似的用戶/被相似的科研人員拒絕。
因此將兩個(gè)科研人員u和w之間基于協(xié)同過濾的相似度表示為:
其中函數(shù)f需要滿足以下條件:
1)f(
x1=x2 andy1=y2 andx1+x2+y1+y2>0;
2)f(
x1≠x2 andy1≠y2;
3)f(
x1=x2=y1=y2=0。
它表示在計(jì)算科研人員間相似度時(shí),品位和吸引力均相似(即雙向匹配)的科研人員會(huì)得到最高的分?jǐn)?shù),而品位和吸引力均不同的科研人員則會(huì)獲得最低的相似性度量??紤]以上條件,對(duì)函數(shù)f定義如下:
f(
(8)
式中:⊕表示異或操作,會(huì)產(chǎn)生三個(gè)不同的值:當(dāng)品位和吸引力均匹配時(shí)取2;單向匹配時(shí)取1;無匹配時(shí)取0。式子的分母dgr(u)+dgr(w)用來做歸一化處理,防止相似性向受歡迎的研究者傾斜,從而影響互惠性的計(jì)算。其中dgr(i)是科研人員i在無向網(wǎng)絡(luò)和無權(quán)重網(wǎng)絡(luò)中的中心度。
最后,得到用戶u與v基于協(xié)同過濾的互惠性:
(9)
式中:weight(ck,v)是綜合考慮品位、吸引力不同匹配情況的權(quán)重,定義如下:
(10)
從式(10)可以看出,本文對(duì)品位和吸引力雙向匹配的情況賦予完全權(quán)重,并為單向匹配分配一個(gè)懲罰因子s。
互惠性特征度量CFRec(u,v)就是將v推薦給u的成功分?jǐn)?shù):
RScore(u,v)=CFRec(u,v)
(11)
根據(jù)該分?jǐn)?shù)的高低為服務(wù)用戶u生成最終的科研人員推薦排序列表。
根據(jù)小同行的定義,推薦結(jié)果追求的是科研人員雙方偏好及吸引力同樣程度的匹配。因此在本文的研究中不區(qū)分偏好和吸引力的重要性,將其都?xì)w為單向匹配。拓展到其他應(yīng)用場(chǎng)景中,可以通過為f(cp,k,cq,k)定義不同的計(jì)算方法來進(jìn)行區(qū)分。例如在專家推薦中,服務(wù)用戶想要尋找的是一個(gè)與自己的偏好(尤其是某特定領(lǐng)域上的偏好)高度匹配的科研人員,因此可以在雙向推薦中賦予偏好匹配更高的權(quán)重。即在偏好和吸引力單向匹配的情況下,可以令f(cp,k,cq,k)的取值滿足:
f(<1,0>,<1,0>)>f(<0,1>,<0,1>)
(12)
同時(shí),在計(jì)算最終的互惠性時(shí),可以對(duì)偏好單向匹配和吸引力單向匹配分配不同的懲罰因子:
(13)
總的來說,本模型以經(jīng)典CF模型為原始模型,主要從兩個(gè)方向進(jìn)行基于雙向互惠性的拓展:
1) 針對(duì)被推薦的科研人員,在計(jì)算科研人員間相似度的時(shí)候考慮了“品位”和“吸引力”的雙向相似:偏好及吸引力均相似的科研人員之間的相似度要高于單向偏好/吸引力相似的科研人員。
2) 在進(jìn)行推薦時(shí),考慮“品位”和“吸引力”的雙向匹配:與服務(wù)用戶的“品味”和“吸引力”度量均匹配的科研人員最可能被推薦。相比只考慮單方面偏好的匹配成功率更高。
在本方法中,默認(rèn)品味和吸引力在雙向匹配中有著相同的重要性。
在第3節(jié)中基于協(xié)同過濾進(jìn)行了雙向推薦的拓展,通過考慮服務(wù)用戶和候選用戶之間的雙向偏好(即3.1節(jié)中定義的“品味”和“吸引力”),得到了科研人員基于協(xié)同過濾的互惠性特征CFRec(u,v)?,F(xiàn)有文獻(xiàn)對(duì)互惠性的研究證明了基于內(nèi)容和基于協(xié)同過濾的混合雙向推薦是最有效的方法。因此結(jié)合第2節(jié)中科研人員基于研究方向和科研社交網(wǎng)絡(luò)的融合相似性CSim(u,v),提出一種新穎的基于混合互惠性的雙向推薦算法CRBPR(Combing Reciprocity-based Peer Recommendation Model),詳細(xì)描述見算法1。
算法1基于混合互惠性的雙向推薦算法CRBPR
Input: Service Userr,
N number of recommendation candidatesc
Output: List of RecommendationsRFinal
Method:
1findr’s research interests preferencePr
2foreachcandidatecdo
3/*modeling combing similarity forrandcfromr*/
4S(r,c)←CSim(r,c)
5ifS(r,c)>0thenfindc’s interests preferencePc
6/*modeling combing similarity forrandcfromc*/
7S(c,r)←CSim(c,r)
8/*calculate the content-based reciprocity forrandc
*/
9ConBRec(r,c)←f1(S(r,c),S(c,r))
10/*sort the candidates generate the candidate list of
recommendationRC*/
11for?i≤N
12IfConBRec(r,ci)>ConBRec(r,ci+1)then
13sortR{c1,c2,…,cn}
14returnRC
15/*filter the candidate list*/
16foreachcandidatec∈RCdo
17/*calculate the combining reciprocity forrandc*/
18ComRec(r,c)←f2(ConBRec(r,c),CFRec(r,c))
19/*sort the candidates and generate the list of
recommendation */
20for?i≤M=|RC|
21IfComRec(r,ci)>ComRec(r,ci+1)then
22sortRC{c1,c2,…,cm}
23returnRFinal
由于多維度融合相似性CSim(u,v)是根據(jù)對(duì)科研人員概要進(jìn)行挖掘,其中包括個(gè)人簡(jiǎn)介、論文信息、科研社交網(wǎng)絡(luò)等內(nèi)容。因此本文將基于這種相似性計(jì)算得到的互惠特征稱為科研人員基于內(nèi)容的互惠性,即算法1中第9行的f1函數(shù)具體計(jì)算式如下:
ConBRec(u,v)=f1(u,v)=
(14)
式中:CSim(u,v)為候選科研人員v基于內(nèi)容滿足服務(wù)用戶u的程度;CSim(v,u)為服務(wù)用戶u基于內(nèi)容滿足候選科研人員v的程度。
本文使用調(diào)和平均數(shù)將雙方的相似度值聯(lián)系起來,通過其特有的調(diào)和作用,避免了在各自相似度值的差異度較大時(shí)對(duì)互惠性值所造成的影響。同時(shí)還可以反映用戶之間基于內(nèi)容互相選擇的程度。這說明科研人員在研究方向以及社交網(wǎng)絡(luò)連接等多維度的雙向匹配程度,可以生成基于內(nèi)容互惠的候選列表。為了提高匹配的成功率,將第3節(jié)基于協(xié)同過濾的互惠性考慮進(jìn)來,通過定義科研人員的聯(lián)合互惠性,近一步過濾候選科研人員,生成最終的小同行推薦列表,詳細(xì)描述見算法1。
ComRec(r,c)=α×ConBRec(u,v)+β×CFRec(u,v)
(15)
式中:參數(shù)α和β是調(diào)節(jié)基于內(nèi)容互惠性和基于協(xié)同過濾互惠性重要性的權(quán)重因子。當(dāng)在選擇小同行時(shí),對(duì)研究?jī)?nèi)容相關(guān)的互惠雙向匹配更看重時(shí),可以根據(jù)訓(xùn)練集的訓(xùn)練結(jié)果相應(yīng)地調(diào)大α的值;反之,如果科研人員更在乎歷史交互記錄中的隱式匹配成功率,就需要將β調(diào)大。根據(jù)后述在測(cè)試數(shù)據(jù)集上的實(shí)驗(yàn)發(fā)現(xiàn),一般β的值都要略小于α的值,這與科研社交網(wǎng)絡(luò)中科研人員對(duì)小同行的匹配需求相符。并且,當(dāng)取α=0.6,β=0.4時(shí)推薦效果最佳。
基于混合互惠性的雙向推薦,是建立在雙方研究興趣范圍一致且有鏈接建立意向的基礎(chǔ)上做出最后的推薦。通過雙向滿足和互惠互利的方式,做到了最真實(shí)、最有效的小同行推薦。
AMiner是清華大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系知識(shí)工程研究室研發(fā)的科研社會(huì)網(wǎng)絡(luò)搜索與挖掘系統(tǒng),同時(shí)也是學(xué)術(shù)大數(shù)據(jù)深度挖掘和知識(shí)服務(wù)平臺(tái)。Aimer使用機(jī)器學(xué)習(xí)方法,基于每個(gè)科研人員進(jìn)行多個(gè)(科研)社交網(wǎng)絡(luò)賬戶自動(dòng)關(guān)聯(lián),從各個(gè)不同的主頁以及賬戶自動(dòng)抽取科研人員的相關(guān)信息。本文使用AMiner的公開數(shù)據(jù)集對(duì)模型進(jìn)行描述與驗(yàn)證。由于現(xiàn)有科研社交網(wǎng)站的行為數(shù)據(jù)難獲取,本文考慮從LinkedIn和Slashdot的平臺(tái)數(shù)據(jù)集中獲取。LinkedIn網(wǎng)站的用戶之間有關(guān)注/不關(guān)注的鏈接關(guān)系,關(guān)注行為可以看作是一個(gè)初始聯(lián)系,互相關(guān)注則看作是一個(gè)雙向聯(lián)系。Slashdot是一個(gè)科研朋友共享技術(shù)相關(guān)咨詢的平臺(tái),允許用戶互相標(biāo)記為“朋友(喜歡)”或者“黑名單(不喜歡)”,因此也可以提取聯(lián)系信息。結(jié)合已有的科研社交網(wǎng)絡(luò)鏈接,對(duì)科研人員的行為偏好進(jìn)行挖掘。
通過對(duì)數(shù)據(jù)集做檔案匹配,提取了包含在176天內(nèi)4 000名科研人員的小同行鏈接行為記錄。其中有174 931個(gè)初始聯(lián)系,其中25.8%最終變成了雙向聯(lián)系。
實(shí)驗(yàn)時(shí),將前88天的科研人員交互行為用于訓(xùn)練,剩下的數(shù)據(jù)則作為測(cè)試數(shù)據(jù)集。本文選取了在訓(xùn)練集和測(cè)試集中均發(fā)送了超過5次初始聯(lián)系的科研人員作為服務(wù)用戶,大約總共有2 786個(gè)服務(wù)用戶。訓(xùn)練集包含了41 558對(duì)小同行聯(lián)系,測(cè)試集包含了42 766對(duì)小同行聯(lián)系。
推薦系統(tǒng)中對(duì)推薦質(zhì)量的評(píng)估標(biāo)準(zhǔn)有很多,其中最常用的統(tǒng)計(jì)精度度量方法是準(zhǔn)確率(Precision)、召回率(Recall)和調(diào)和平均數(shù)(F1值),它們的計(jì)算公式如下:
準(zhǔn)確率P:成功的推薦在所有推薦中所占的比例,體現(xiàn)的是推薦成功的比率。
(16)
召回率R:成功的推薦在所有已知成功的推薦中所占的比例,體現(xiàn)的是待推薦科研人員被推薦的比率。
(17)
式中:R為科研人員u的推薦列表;U為向科研人員u發(fā)起過小同行鏈接建立聯(lián)系的科研人員集合。
綜合以上兩項(xiàng)指標(biāo),可用F1值來反映整體的推薦質(zhì)量:
(18)
根據(jù)互惠性的定義,小同行推薦的結(jié)果是判斷一個(gè)科研人員是否為另一個(gè)科研人員的小同行,因此可以直接通過是否建立小同行鏈接來判斷推薦的效果。另外,使用平均絕對(duì)偏差(MAE)來評(píng)估算法的精確性。
平均絕對(duì)偏差(MAE):成功的推薦結(jié)果與預(yù)測(cè)的推薦之間的平均絕對(duì)偏差。
(19)
式中:predictu為預(yù)測(cè)的推薦列表;predictu,v為對(duì)科研人員v預(yù)測(cè)的匹配結(jié)果;realu,v為對(duì)科研人員實(shí)際的匹配結(jié)果;Nu為進(jìn)行預(yù)測(cè)的推薦個(gè)數(shù)。
平均絕對(duì)偏差越小,則推薦算法的效果越好。
5.3.1 基于MAE指標(biāo)評(píng)價(jià)本文算法
首先基于第2節(jié)MSBPR模型的推薦結(jié)果,分別應(yīng)用CFBPR模型、ROPR模型、CFRPR模型進(jìn)一步對(duì)候選列表進(jìn)行篩選排序,生成新的推薦列表。圖5是四種算法在不同的小同行推薦數(shù)目下,MAE值的變化情況。
圖5 基于相似性和基于互惠性算法的MAE比較
通過對(duì)比可以看出,本文所提出的小同行推薦中隱含的互惠性是有一定意義的,即使是基于傳統(tǒng)協(xié)同過濾算法的互惠性擴(kuò)展,也能夠進(jìn)一步降低預(yù)測(cè)結(jié)果與實(shí)際推薦結(jié)果之間的偏差。
5.3.2 基于Precision和Recall指標(biāo)評(píng)價(jià)本文算法
為了近一步體現(xiàn)雙向推薦的互惠性,本節(jié)給出了兩套精度評(píng)估推薦性能的標(biāo)準(zhǔn)用于對(duì)比:
1) 基于初始聯(lián)系IC(Initial Contacts)的標(biāo)準(zhǔn):
IC Precision@K衡量推薦的K個(gè)候選人員中服務(wù)用戶選擇聯(lián)系的科研人員數(shù)量在top K候選排名中的比例;IC Recall@K評(píng)估所有科研人員中服務(wù)用戶選擇聯(lián)系的科研人員數(shù)量在top K候選排名中的比例。第二套標(biāo)準(zhǔn)強(qiáng)調(diào)雙向互惠——一個(gè)初始聯(lián)系是否得到回應(yīng)。
2) 基于雙向聯(lián)系RC(reciprocal-contact)的標(biāo)準(zhǔn):
RC Precision@K評(píng)估推薦的K個(gè)候選科研人員中最后有多少與服務(wù)用戶建立了雙向聯(lián)系;RC Recall@K衡量與服務(wù)用戶建立雙向聯(lián)系中的科研人員,有多少在topK推薦排名中。
針對(duì)混合模型,本文根據(jù)不同的懲罰因子s進(jìn)行了測(cè)試。總體而言,隨著s的增加,混合模型能夠推薦更多潛在的雙向聯(lián)系,可以收獲更好的基于RC的性能以及稍微低一點(diǎn)的基于IC的度量值。盡管所有s值下的混合模型測(cè)試都能得到較好的性能,但本文選擇基于s=0.6與其他模型進(jìn)行比較。因?yàn)檫@種情況下基于IC和基于RC的度量值對(duì)應(yīng)的性能比較均衡。
圖6顯示了五種推薦方法的性能對(duì)比??傮w上基于混合互惠性的雙向推薦模型CRBPR表現(xiàn)得最好,并且基于RC基準(zhǔn)的混合模型CRBPR是五種方法中表現(xiàn)最好的。首先分析CFBPR、ROPR、CFRPR這三種基于協(xié)同過濾的模型分別在基于IC和RC基準(zhǔn)上的性能差異,可以通過它們利用科研人員“品位”和“吸引力”特征的不同方式來解釋。CFBPR模型使用了科研人員的所有行為偏好信息卻忽略了吸引力信息,因此它在基于IC的基準(zhǔn)會(huì)表現(xiàn)得稍微好些,這是因?yàn)樵摶鶞?zhǔn)下算法的性能只依賴于單向偏好的精準(zhǔn)捕獲。但是在基于RC的基準(zhǔn)下,CFBPR的性能卻遠(yuǎn)落后于ROPR和CFRPR模型。這是因?yàn)镽OPR模型考慮了吸引力(通過初始聯(lián)系的回復(fù)情況來表示)特征,但它忽略了科研人員行為數(shù)據(jù)中隱含的負(fù)反饋偏好。因此,ROPR模型在推薦符合科研人員“品位”的小同行時(shí)表現(xiàn)得較差,但提高了推薦用戶被科研人員所吸引的可能。而混合模型CFBPR利用了這三種信息——用戶的品位、吸引力和負(fù)反饋偏好,因此它在三者中總體上有更好的性能。然后,觀察基于協(xié)同過濾互惠性的雙向推薦模型CFBPR與基于混合互惠性的雙向推薦模型CRBPR在小同行推薦結(jié)果基于RC的精度對(duì)比??梢园l(fā)現(xiàn),在推薦數(shù)目較小的時(shí)候,二者的差距不是很明顯,但隨著推薦數(shù)目的增加,基于RC的召回率呈上升的趨勢(shì)。這是因?yàn)樵诖笠?guī)模數(shù)據(jù)集中,召回率和準(zhǔn)確率是兩個(gè)互相制約的指標(biāo),召回率體現(xiàn)的是查全率,因此隨著K的增大,召回率會(huì)相應(yīng)地提高,而準(zhǔn)確率則會(huì)逐漸下降。此時(shí)混合互惠性的優(yōu)勢(shì)也逐漸凸顯,基于協(xié)同過濾的互惠性效果次之,但都要明顯優(yōu)于其余三種算法。
5.3.3 基于F值指標(biāo)評(píng)價(jià)本文算法
圖7是對(duì)本文提出的算法進(jìn)行基于F值的對(duì)比??梢钥吹交谟脩魠f(xié)同過濾推薦和基于內(nèi)容相似性的推薦都只是將科研人員推薦給目標(biāo)人員,而基于互惠性的考慮需要進(jìn)行兩次這樣的單向匹配,從而進(jìn)一步縮小了推薦范圍,因此能夠更加準(zhǔn)確地定位候選推薦小同行。
圖7 基于相似性和基于互惠性算法的F值比較
從圖7中可以看出,考慮互惠性的算法CFRPR和CRBPR的F值都要略高于其他的推薦算法,進(jìn)一步證明了互惠性在小同行推薦中的優(yōu)化意義,使整體推薦效果有了明顯的提高。
5.3.4 評(píng)價(jià)不同α值對(duì)推薦結(jié)果的影響
針對(duì)算法CRBPR,為了檢測(cè)不同權(quán)重值條件下混合互惠性算法的性能情況,進(jìn)而反映基于協(xié)同過濾的隱式互惠和基于內(nèi)容的顯式互惠對(duì)用戶選擇的影響程度,通過對(duì)α和β設(shè)置不同的值,來對(duì)比推薦成功率的高低。成功率的定義是:科研人員選擇與候選人員建立小同行鏈接,則算成功。由于β=1-α,因此本節(jié)通過設(shè)置不同的α值來觀察變化,如圖8所示??梢钥闯?,當(dāng)α分別取0和1時(shí),推薦的成功率都相對(duì)較低。這表明單純地考慮顯式互惠性或者隱式互惠性都無法全面地度量用戶之間的互惠偏好,從而影響推薦的成功率。當(dāng)α取0.6左右時(shí),推薦的成功率最高,這與真實(shí)應(yīng)用場(chǎng)景中,科研人員在選擇小同行時(shí)更看重研究?jī)?nèi)容的雙向匹配度相符合。
圖8 權(quán)重α與推薦成功率之間的關(guān)系
5.3.5 針對(duì)冷啟動(dòng)問題評(píng)估本文算法
由于雙向推薦是基于兩個(gè)科研人員的偏好出發(fā)進(jìn)行建模,針對(duì)沒有任何行為記錄和科研成果等內(nèi)容時(shí),雙向推薦可以通過對(duì)候選人偏好賦予完全權(quán)重來實(shí)現(xiàn)推薦,很好地解決了冷啟動(dòng)問題。圖9是將兩個(gè)基于互惠性的雙向推薦算法CFRPR和CFBPPR,與不考慮互惠性的算法MSBPR和CFBPR針對(duì)新老科研人員的推薦成功率進(jìn)行比較。其中MSBPR和CFBPR在遇到新注冊(cè)科研人員的冷啟動(dòng)問題,采用近鄰科研人員的偏好相似來處理。
圖9 新老用戶推薦成功率對(duì)比
可以看出來,相對(duì)于已經(jīng)在科研社區(qū)活躍一段時(shí)間的科研人員來說,為新科研人員推薦小同行的成功率普遍要低一些。這是因?yàn)樾碌目蒲腥藛T缺少必要的信息支持,難以識(shí)別他/她無論是基于研究方向還是歷史行為的偏好。但與傳統(tǒng)的基于的推薦方法相比,針對(duì)同一組新注冊(cè)的科研人員,雙向推薦的成功率有了一定程度的提高。例如圖中的TOP10推薦,雙向推薦小同行的成功率大約可以達(dá)到30%左右,這是由于通過考慮候選科研人員的偏好,相比傳統(tǒng)地通過近鄰用戶的偏好來近似處理的方法,能夠盡可能地過濾出互惠的推薦,提高推薦的成功率。
5.3.6 其他實(shí)驗(yàn)探索
通過基于不同實(shí)驗(yàn)視角的對(duì)比,也發(fā)現(xiàn)了一些其他有趣的事實(shí)。在實(shí)驗(yàn)中將使用小同行推薦服務(wù)的科研人員分為兩組:
1) 成功推薦組SR:推薦算法至少向其推薦了一位成功建立小同行雙向鏈接的科研人員;
2) 未成功推薦組UR:所有其他使用小同行推薦服務(wù)的科研人員。
根據(jù)t檢驗(yàn)結(jié)果,SR組中的所有科研人員都比UR組中的科研人員發(fā)送了更多的好友請(qǐng)求(平均每個(gè)用戶發(fā)送的信息數(shù)為47.7 vs 28.9)。這也是協(xié)同過濾推薦的特點(diǎn)——科研人員更活躍地與他人聯(lián)系,推薦系統(tǒng)就能夠獲取更多關(guān)于其品味和吸引力的信息,推薦因此會(huì)更有效。
此外,所有模型在基于IC的基準(zhǔn)下對(duì)于較年輕的科研人員表現(xiàn)得更好,而較年長(zhǎng)的科研人員則在基于RC的基準(zhǔn)下有更好的性能表現(xiàn)。這是因?yàn)槟觊L(zhǎng)科研人員普遍來說相比年輕科研人員更少主動(dòng)發(fā)起鏈接請(qǐng)求,因此能夠獲取到關(guān)于其行為偏好的信息更少,從而導(dǎo)致較差的基于IC基準(zhǔn)的表現(xiàn)。然而,可能因?yàn)槟觊L(zhǎng)科研人員的科研成果較多,當(dāng)其要與科研人員建立小同行聯(lián)系時(shí),得到回復(fù)的概率更大(41.7% vs 年輕科研人員的21.4%)。因此通過這些雙向聯(lián)系仍然能夠捕獲他/她們的吸引力,從而獲得與年輕科研人員相近的基于RC基準(zhǔn)的表現(xiàn)。
小同行推薦的應(yīng)用場(chǎng)景本質(zhì)上是用戶到用戶的推薦,參與的雙方既是使用推薦服務(wù)的用戶,又是待推薦用戶。他們不僅在研究興趣偏好和行為偏好上相似,而且雙方的偏好都需要得到滿足,達(dá)到互惠的推薦效果。針對(duì)這種特征,本文提出了一種基于互惠性的雙向推薦方法。分別從基于協(xié)同過濾的角度以及融合基于內(nèi)容的互惠相似性進(jìn)行候選列表的過濾篩選。與傳統(tǒng)的推薦方法相比,可以很好地解決推薦系統(tǒng)中新用戶存在的冷啟動(dòng)問題,同時(shí)能提高小同行匹配的成功率,從而優(yōu)化推薦的效果。
由于雙向推薦是一個(gè)新興的研究熱點(diǎn),所以本文的研究還有待于進(jìn)一步地深入完善。通過加入一些敏感性分析(例如改變用戶池、改變測(cè)試/訓(xùn)練的時(shí)間段等)來進(jìn)一步提高混合模型的效果和魯棒性。另外,由于本文主要針對(duì)科研社交網(wǎng)絡(luò)中的小同行推薦研究,如何將該推薦方法完善優(yōu)化,以應(yīng)用到其他領(lǐng)域基于互惠性的推薦問題中,例如高校申請(qǐng)網(wǎng)絡(luò)(高校學(xué)生和高校作為節(jié)點(diǎn))、求職網(wǎng)絡(luò)(求職者和招聘單位作為節(jié)點(diǎn))等,將是下一步的研究重點(diǎn)。