馬國(guó)帥,錢(qián)宇華,3*,張亞宇,李俊霞,劉郭慶
(1.山西大學(xué) 大數(shù)據(jù)科學(xué)與產(chǎn)業(yè)研究院,太原 030006;2.山西大學(xué) 計(jì)算機(jī)與信息技術(shù)學(xué)院,太原 030006;3.計(jì)算智能與中文信息處理教育部重點(diǎn)實(shí)驗(yàn)室(山西大學(xué)),太原 030006)
隨著互聯(lián)網(wǎng)以及通信技術(shù)的快速發(fā)展,不同地域、單位的學(xué)者之間的學(xué)術(shù)交流越來(lái)越頻繁,科研合作已成為當(dāng)代科學(xué)研究的常態(tài)[1]。科研合作可以實(shí)現(xiàn)學(xué)者之間的優(yōu)勢(shì)互補(bǔ)、科研資源與設(shè)備的整合,擴(kuò)大學(xué)者的影響力,促進(jìn)越來(lái)越多的高質(zhì)量研究成果的產(chǎn)生[2]。一個(gè)優(yōu)秀的合作者能有效提高科研的效率與科研合作水平[3]。因此,許多合作者推薦算法根據(jù)學(xué)者的研究偏好、學(xué)術(shù)畫(huà)像等特征為他們推薦最可能的合作者[4],但這些算法局限于對(duì)潛在的合作者進(jìn)行分析與推薦,僅判斷了學(xué)者之間在某段時(shí)間內(nèi)是否會(huì)產(chǎn)生合作,忽略了合作的預(yù)期成果產(chǎn)出。若面向合作成果為研究人員推薦合適的學(xué)者進(jìn)行合作,將加速高水平研究成果的產(chǎn)出[5]。
合作潛力預(yù)測(cè)旨在通過(guò)學(xué)者合作預(yù)期的成果產(chǎn)出為學(xué)者推薦潛在收益最大的合作者[6]。然而,已有的方法僅使用了特征工程以及復(fù)雜網(wǎng)絡(luò)科學(xué)的方法對(duì)合作網(wǎng)絡(luò)中的部分淺層靜態(tài)屬性進(jìn)行了人工提取,并且受限于模型的可拓展性以及數(shù)據(jù)的完整性,忽略了合作網(wǎng)絡(luò)的演化屬性以及實(shí)體之間的關(guān)聯(lián)關(guān)系,無(wú)法提取各實(shí)體的深層次潛在特征。
科研合作網(wǎng)絡(luò)中耦合了學(xué)者、機(jī)構(gòu)、論文、期刊等多類(lèi)型實(shí)體[7],能否有效利用并融合這些不同的實(shí)體屬性信息以及實(shí)體之間的關(guān)聯(lián)結(jié)構(gòu)信息,是進(jìn)行合作潛力預(yù)測(cè)以及學(xué)術(shù)合作模式挖掘的重要挑戰(zhàn)之一。
本文針對(duì)科研合作網(wǎng)絡(luò)中多實(shí)體屬性信息融合以及合作潛力預(yù)測(cè)的模型結(jié)構(gòu),將合作者推薦與合作潛力預(yù)測(cè)進(jìn)行融合并建模為多任務(wù)優(yōu)化問(wèn)題。為了有效提取合作網(wǎng)絡(luò)的結(jié)構(gòu)信息以及實(shí)體的動(dòng)態(tài)演化特征,設(shè)計(jì)了一種基于圖神經(jīng)網(wǎng)絡(luò)的合作潛力預(yù)測(cè)(Collaboration Potential Prediction,CPP)模型,有效提取了合作網(wǎng)絡(luò)中各實(shí)體的深層動(dòng)態(tài)屬性信息。首先,在保證數(shù)據(jù)完整性的前提下搜集整理了相關(guān)的論文數(shù)據(jù),使用滑窗法依據(jù)學(xué)者在不同年份發(fā)表的論文數(shù)據(jù)構(gòu)建了動(dòng)態(tài)異構(gòu)信息網(wǎng)絡(luò);然后,根據(jù)作者與其他實(shí)體之間的相關(guān)關(guān)系以及實(shí)體的屬性信息,使用圖神經(jīng)網(wǎng)絡(luò)(Graph Neural Network,GNN)學(xué)習(xí)學(xué)者的深層動(dòng)態(tài)特征表示;最后,將合作者推薦以及合作潛力預(yù)測(cè)進(jìn)行協(xié)同優(yōu)化,從而優(yōu)化模型。本文的主要工作如下:
1)詳細(xì)分析了科研合作網(wǎng)絡(luò)中的各種實(shí)體之間的關(guān)聯(lián)關(guān)系,使用自注意力機(jī)制分層次挖掘多種實(shí)體之間的關(guān)聯(lián)關(guān)系,提出了一種融合動(dòng)態(tài)異構(gòu)信息的作者特征嵌入學(xué)習(xí)模型,有效提取了學(xué)者的合作網(wǎng)絡(luò)拓?fù)湫畔⒁约跋嚓P(guān)實(shí)體的動(dòng)態(tài)屬性信息。
2)將合作潛力與合作者推薦相結(jié)合建模為多任務(wù)優(yōu)化問(wèn)題,使用統(tǒng)一模型對(duì)兩個(gè)任務(wù)進(jìn)行預(yù)測(cè),提高了合作潛力預(yù)測(cè)以及合作推薦的性能以及實(shí)用性。
3)搜集并處理了發(fā)表在中國(guó)計(jì)算機(jī)學(xué)會(huì)(China Computer Federation,CCF)推薦期刊目錄中的50 余萬(wàn)篇論文的信息以及相關(guān)實(shí)體的屬性信息。
4)在構(gòu)建科研合作異構(gòu)信息網(wǎng)絡(luò)的基礎(chǔ)上,本文將不同時(shí)段的數(shù)據(jù)隨機(jī)輸入,對(duì)模型進(jìn)行訓(xùn)練,提高了模型的泛化性能,所得模型的測(cè)試誤差明顯低于對(duì)比算法,表明該模型可以較好地適用于短期合作潛力預(yù)測(cè)以及合作者推薦。
合作者推薦指通過(guò)挖掘已有學(xué)術(shù)數(shù)據(jù)為學(xué)者推薦與他一起從事科學(xué)研究的學(xué)者[8]。一般情況下,具有相似研究方向的學(xué)者相較于不同研究方向的學(xué)者更有可能進(jìn)行合作,因此誕生了許多基于學(xué)者的研究?jī)?nèi)容進(jìn)行合作者推薦的方法。基于研究?jī)?nèi)容的推薦主要關(guān)注學(xué)者過(guò)去以及當(dāng)前的研究?jī)?nèi)容,基于論文關(guān)鍵詞、標(biāo)題、摘要等,借助向量空間模型、語(yǔ)言模型等計(jì)算研究?jī)?nèi)容之間的相似度。Sharma 等[9]將過(guò)去20年來(lái)發(fā)表在機(jī)器學(xué)習(xí)領(lǐng)域的論文按時(shí)間分為四個(gè)階段,使用學(xué)者主題模型(Author-Topic Model,ATM)分析,利用Hellinger 距離計(jì)算作者間的相似度,找到相似的研究人員;Tang 等[10]提出基于隱含狄利克雷分布(Latent Dirichlet Allocation,LDA)模型改進(jìn)后的跨領(lǐng)域主題學(xué)習(xí)(Crossdomain Topic Learning,CTL)模型,改進(jìn)了跨領(lǐng)域?qū)W者推薦中的稀疏鏈接和主題偏離等問(wèn)題;周亦敏等[11]利用BERT(Bidirectional Encoder Representations from Transformer)聯(lián)合表示研究者和研究主題,得到句子層面的特征向量表示,并使用邏輯回歸輸出概率最大的Top-K個(gè)合作者;蒲姍姍[12]引入面向主題的H 指數(shù)和改進(jìn)的ATM,分析了專(zhuān)家的知識(shí)結(jié)構(gòu)并結(jié)合不同研究方向下的學(xué)者影響力進(jìn)行合作者推薦。
此外,學(xué)者之間的相互合作關(guān)系構(gòu)成了合作者網(wǎng)絡(luò),因此大量學(xué)者將復(fù)雜網(wǎng)絡(luò)分析方法嵌入到了合作者推薦算法中,以提高合作者推薦的精度。黃璐等[13]通過(guò)分析作者-關(guān)鍵詞的二模網(wǎng)絡(luò),綜合考慮了研究?jī)?nèi)容以及網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)對(duì)合作關(guān)系的影響,進(jìn)而對(duì)合作者進(jìn)行預(yù)測(cè);張?chǎng)蔚龋?4]采用余弦相似度計(jì)算利用網(wǎng)絡(luò)表示學(xué)習(xí)到的節(jié)點(diǎn)嵌入式向量表示作為作者的結(jié)構(gòu)相似性,形成了將網(wǎng)絡(luò)表示學(xué)習(xí)的表示和ATM 進(jìn)行融合的合作者預(yù)測(cè)方法;熊回香等[15]從學(xué)者的學(xué)術(shù)能力和合作關(guān)系網(wǎng)絡(luò)兩個(gè)維度構(gòu)建模型,根據(jù)歷史合作關(guān)系的合作質(zhì)量和利用相關(guān)學(xué)者的學(xué)術(shù)能力挖掘到的候選推薦學(xué)者的知識(shí)覆蓋度兩個(gè)方面作為合作者推薦的推薦值。Chuan 等[16]使用作者的論文的語(yǔ)義相似度擴(kuò)展了加權(quán)共同鄰居,將合作者推薦轉(zhuǎn)化為鏈路預(yù)測(cè)問(wèn)題;Xia 等[17]在計(jì)算研究者之間的鏈接重要性時(shí),使用合作者順序、最新合作時(shí)間和合作次數(shù)度量合作者之間的關(guān)系,提出了一種基于隨機(jī)游走的鏈路預(yù)測(cè)方法對(duì)合作者進(jìn)行推薦。
由于深度學(xué)習(xí)強(qiáng)大的特征提取能力,越來(lái)越多的學(xué)者使用相關(guān)算法進(jìn)行合作者推薦。林原等[18]使用節(jié)點(diǎn)嵌入模型學(xué)習(xí)科研合作網(wǎng)絡(luò)中各節(jié)點(diǎn)的特征向量,實(shí)現(xiàn)對(duì)各個(gè)節(jié)點(diǎn)的向量化表示,為學(xué)者推薦尚未產(chǎn)生合作關(guān)系的合作者。Wang 等[19]提出合作網(wǎng)絡(luò)嵌入模型,從學(xué)者的自身屬性出發(fā),同時(shí)考慮了網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)可以有效提高合作者預(yù)測(cè)的性能。
然而,這些合作者推薦算法主要關(guān)注合作產(chǎn)生的可能性,忽略了學(xué)者合作成果的質(zhì)量[20]。合作者潛力預(yù)測(cè)旨在預(yù)測(cè)合作雙方合作后產(chǎn)生的成果的質(zhì)量,指導(dǎo)學(xué)者選擇能使合作雙方利益最大化的學(xué)者進(jìn)行合作。艾科等[6]使用大數(shù)據(jù)分析技術(shù)對(duì)科研合作數(shù)據(jù)進(jìn)行多方面分析,提取相關(guān)的作者特征,并將合作潛力預(yù)測(cè)問(wèn)題轉(zhuǎn)化為二分類(lèi)問(wèn)題,采用集成學(xué)習(xí)算法構(gòu)建模型,從而對(duì)合作者合作后是否能發(fā)表高水平論文進(jìn)行預(yù)測(cè)。然而,在合作關(guān)系特征構(gòu)建過(guò)程中,作者的特征僅通過(guò)對(duì)學(xué)者以及論文的屬性信息進(jìn)行數(shù)據(jù)分析得到,忽略了合作者網(wǎng)絡(luò)中的高階信息。此外,受限于數(shù)據(jù)的完整性,文中并未將論文的某些屬性如引用量等信息以及學(xué)者的科研機(jī)構(gòu)等其他實(shí)體的屬性計(jì)算在內(nèi),而這些信息嚴(yán)重影響著合作潛力預(yù)測(cè)模型的性能。
針對(duì)已有的合作潛力預(yù)測(cè)算法存在的不足,本文不僅搜集了大量的論文數(shù)據(jù),也搜集了相關(guān)的學(xué)者、機(jī)構(gòu)、期刊等科研實(shí)體的相關(guān)信息,保證了數(shù)據(jù)的完整性;進(jìn)行合作潛力預(yù)測(cè)與合作者推薦兩種任務(wù),使模型擴(kuò)展為多任務(wù)優(yōu)化模型,可以同時(shí)實(shí)現(xiàn)合作潛力預(yù)測(cè)以及合作者推薦。
科研合作網(wǎng)絡(luò)中包含了論文、作者、機(jī)構(gòu)、期刊等實(shí)體,各種實(shí)體之間存在著各種各樣的直接或間接關(guān)系,這些實(shí)體相互關(guān)聯(lián)、密不可分。在進(jìn)行科研合作模式挖掘時(shí),充分利用這些關(guān)系將有利于發(fā)現(xiàn)科研合作機(jī)制,從而促進(jìn)科研從業(yè)人員更好地進(jìn)行合作交流。
在科研合作網(wǎng)絡(luò)中,學(xué)者之間的合作關(guān)系構(gòu)成了合作網(wǎng)絡(luò);學(xué)者與所屬機(jī)構(gòu)之間的關(guān)系為學(xué)者-機(jī)構(gòu)二模網(wǎng)絡(luò);學(xué)者與所署名論文之間形成了撰寫(xiě)關(guān)系;論文與所發(fā)表期刊之間構(gòu)成了刊登與被刊登的關(guān)系,實(shí)體間的關(guān)聯(lián)圖如圖1 所示。
圖1 科研合作網(wǎng)絡(luò)實(shí)體關(guān)聯(lián)Fig.1 Relationships among entities in scientific collaboration network
本文分別使用P、A、I、J表示異構(gòu)信息網(wǎng)絡(luò)中的4 種實(shí)體:論文、作者、機(jī)構(gòu)、期刊,R表示實(shí)體之間的相關(guān)關(guān)系。RPJ∈R 表示論文與期刊之間的刊登與收錄關(guān)系;RAI∈R 表示學(xué)者與所屬單位之間的隸屬關(guān)系;RAA∈R 表示學(xué)者與學(xué)者之間的合作關(guān)系;RAP∈R 表示學(xué)者與論文之間的撰寫(xiě)關(guān)系。若實(shí)體i與實(shí)體j之間存在直接聯(lián)系,則Rij=1;反之,Rij=0。本文使用G(P,A,I,J,…,RPJ,RAJ,RAA,RAP,…)表示科研合作異構(gòu)信息圖;F表示實(shí)體的特征表示,為論文p的特征向量。
除了以上4 種實(shí)體之間的直接關(guān)系外,科研合作異構(gòu)網(wǎng)絡(luò)中仍存在多種間接關(guān)系。一般情況下,學(xué)者在進(jìn)行投稿前會(huì)對(duì)所投稿的期刊進(jìn)行選擇,這種選擇是帶有偏好的主觀性選擇,以此構(gòu)成了學(xué)者與論文發(fā)表期刊之間的偏好選擇關(guān)系。學(xué)者與期刊之間的聯(lián)系是非直接的關(guān)聯(lián)關(guān)系,在進(jìn)行合作潛力預(yù)測(cè)時(shí)需要將學(xué)者與期刊的這種潛在聯(lián)系考慮在內(nèi),以利用學(xué)者投稿期刊的潛在偏好特征。此外,期刊與期刊之間雖然也不存在直接聯(lián)系,但它們所屬的研究方向卻構(gòu)成期刊與期刊的相似關(guān)系;學(xué)者與所屬機(jī)構(gòu)、機(jī)構(gòu)與機(jī)構(gòu)之間也存在類(lèi)似的關(guān)系。由此可見(jiàn),挖掘這些實(shí)體間的潛在關(guān)聯(lián)關(guān)系對(duì)于合作潛力預(yù)測(cè)的性能至關(guān)重要。為此,本文通過(guò)構(gòu)建實(shí)體之間的元路徑建立它們之間的關(guān)系;如通過(guò)元路徑“作者-論文-期刊”構(gòu)建作者與期刊之間的關(guān)系,并通過(guò)RAJ∈R表示該關(guān)系。
為了通過(guò)科研合作異構(gòu)網(wǎng)絡(luò)中的各實(shí)體之間豐富聯(lián)系實(shí)現(xiàn)合作潛力的準(zhǔn)確預(yù)測(cè),首先要根據(jù)實(shí)體間的關(guān)聯(lián)關(guān)系提取各類(lèi)型實(shí)體的網(wǎng)絡(luò)結(jié)構(gòu)特征,得到融合多重信息的學(xué)者特征嵌入向量,然后對(duì)合作潛力進(jìn)行預(yù)測(cè)。因此,本文構(gòu)建了一種融合科研合作網(wǎng)絡(luò)中多類(lèi)型實(shí)體信息的合作潛力預(yù)測(cè)(CPP)模型,模型的結(jié)構(gòu)如圖2 所示。CPP 模型主要分為兩個(gè)模塊:異構(gòu)信息融合的學(xué)者特征嵌入模塊與預(yù)測(cè)模塊。異構(gòu)信息融合模塊以學(xué)者為中心,以經(jīng)過(guò)數(shù)據(jù)預(yù)處理的實(shí)體屬性信息構(gòu)建各實(shí)體的特征矩陣并作為輸入(數(shù)據(jù)預(yù)處理過(guò)程見(jiàn)3.1 節(jié)),基于GNN 分別從學(xué)者的投稿偏好、研究興趣、合作關(guān)系、隸屬關(guān)系角度學(xué)習(xí)學(xué)者與他關(guān)聯(lián)的實(shí)體之間的隱藏特征,通過(guò)自注意力機(jī)制學(xué)習(xí)各特征分量的動(dòng)態(tài)變化特征,從而得到包含異構(gòu)網(wǎng)絡(luò)結(jié)構(gòu)與多實(shí)體關(guān)系的時(shí)序?qū)W者特征向量。預(yù)測(cè)模塊以待預(yù)測(cè)的學(xué)者特征作為輸入,通過(guò)多層感知機(jī)(MultiLayer Perceptron,MLP)預(yù)測(cè)合作成果不同等級(jí)的概率以及達(dá)成合作的概率。
圖2 動(dòng)態(tài)異構(gòu)信息融合的合作潛力預(yù)測(cè)模型的結(jié)構(gòu)Fig.2 Structure of cooperation potential prediction model with dynamic heterogeneous information fusion
2.2.1 異構(gòu)信息融合的學(xué)者特征嵌入模塊
在合作網(wǎng)絡(luò)中,學(xué)者之間合作產(chǎn)出(論文)除了與學(xué)者本身有關(guān),與期刊的收稿的研究方向、學(xué)者之間的合作網(wǎng)絡(luò)、所屬機(jī)構(gòu)的研究方向亦密不可分。因此,本文分別融合了學(xué)者的研究興趣、合作關(guān)系、機(jī)構(gòu)信息、投稿期刊偏好等信息獲得了學(xué)者的特征向量。
1)學(xué)者研究興趣特征嵌入層。
一般學(xué)者更傾向于與他具有相似研究方向的學(xué)者進(jìn)行合作,因此在研究合作者推薦以及合作潛力預(yù)測(cè)時(shí),學(xué)者的研究?jī)?nèi)容是不可或缺的重要特征之一。學(xué)者與論文組成撰寫(xiě)與被撰寫(xiě)關(guān)系的“學(xué)者-論文”二分網(wǎng)絡(luò)。然而由于不同的論文對(duì)同一學(xué)者研究方向的貢獻(xiàn)并不相同,因此本文通過(guò)自注意力機(jī)制[21]對(duì)學(xué)者所發(fā)表的不同論文賦予不同的權(quán)重,從而構(gòu)建學(xué)者研究興趣特征嵌入向量:
其中:NRPA(a)表示在作者(A)與論文(P)的鏈接關(guān)系下,論文a的鄰居,即撰寫(xiě)論文的作者為a的論文;σa,p為論文p在構(gòu)建學(xué)者a研究興趣特征嵌入向量時(shí)的權(quán)重。
然而,由于不同作者對(duì)論文的貢獻(xiàn)并不相同,在構(gòu)建作者與論文的撰寫(xiě)關(guān)系時(shí),為一篇論文所有作者分配相同的貢獻(xiàn)值并不公平[22]。因此,有必要對(duì)多作者論文的撰寫(xiě)關(guān)系的權(quán)重進(jìn)行相應(yīng)調(diào)整。常用的分配方法有諧波加權(quán)[23]以及Axiomatic Weighting[24]。Hagen[23]的研究結(jié)果表明,在自然科學(xué)和社會(huì)科學(xué)領(lǐng)域,諧波加權(quán)與學(xué)者們對(duì)作者信用的主觀評(píng)價(jià)密切相關(guān)。Stallings 等[24]考慮到合作傾向,提出了比諧波加權(quán)能更公平評(píng)價(jià)學(xué)者科學(xué)影響力的Axiomatic Weighting 方法。此外,按照計(jì)算機(jī)科學(xué)領(lǐng)域署名的慣例,作者是按照論文撰寫(xiě)的實(shí)際貢獻(xiàn)降序排列的,因此,本文在構(gòu)建作者與論文的撰寫(xiě)關(guān)系時(shí)使用Axiomatic Weighting 作為關(guān)系的權(quán)重。假設(shè)一篇論文p有n個(gè)署名作者{a1,a2,…,ai,…,an},那么第i位作者ai與論文p的撰寫(xiě)關(guān)系raip的權(quán)重為:
在不同學(xué)者對(duì)同一篇論文的貢獻(xiàn)不同的前提下,在構(gòu)建學(xué)者研究興趣特征向量時(shí),不同論文對(duì)同一學(xué)者研究興趣的權(quán)重σa,p的計(jì)算公式為:
2)學(xué)者合作關(guān)系嵌入層。
學(xué)者的合作關(guān)系網(wǎng)絡(luò)隱含了學(xué)者在合作網(wǎng)絡(luò)中的社區(qū)屬性、學(xué)術(shù)地位、合作者偏好等信息,是在對(duì)學(xué)者的特征進(jìn)行學(xué)習(xí)的過(guò)程中不可缺失的信息之一。圖卷積網(wǎng)絡(luò)(Graph Convolution Network,GCN)可以將合作網(wǎng)絡(luò)等非歐氏空間數(shù)據(jù)轉(zhuǎn)化為歐氏空間,相較于傳統(tǒng)的復(fù)雜網(wǎng)絡(luò)分析方法更能獲得節(jié)點(diǎn)以及邊的內(nèi)在規(guī)律和更加深層次的語(yǔ)義特征,對(duì)圖結(jié)構(gòu)數(shù)據(jù)擁有強(qiáng)大的非線性擬合能力。因此,本文從學(xué)者合作網(wǎng)絡(luò)出發(fā),使用GCN 學(xué)習(xí)學(xué)者的合作網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)嵌入:
3)學(xué)者機(jī)構(gòu)信息嵌入層。
科研單位是學(xué)者進(jìn)行學(xué)術(shù)研究的載體,研究單位/機(jī)構(gòu)除了本身的地理位置、機(jī)構(gòu)研究層次等特征之外,一般都有特定的研究領(lǐng)域,而研究單位的研究方向是由眾多研究人員的研究方向共同組成。事實(shí)上,不同的研究人員對(duì)機(jī)構(gòu)的研究方向的影響并不相同,因此在表示研究機(jī)構(gòu)時(shí)應(yīng)該對(duì)不同的研究成員的研究特征進(jìn)行相應(yīng)調(diào)整。本文通過(guò)自注意力機(jī)制對(duì)不同單位的作者特征進(jìn)行加權(quán)求和,以得到科研機(jī)構(gòu)的潛在特征表示:
其中:NRIA(i)表示在機(jī)構(gòu)(I)與作者(A)的鏈接關(guān)系RIA下,機(jī)構(gòu)i的鄰居,即所屬機(jī)構(gòu)為i的作者;表示作者a的特征。δi,a為作者a對(duì)機(jī)構(gòu)i的貢獻(xiàn)分?jǐn)?shù):
由于科研單位中包含了一定規(guī)模的研究人員,因此本文使用加權(quán)算法來(lái)獲得學(xué)者的機(jī)構(gòu)特征分量:
其中,θia為對(duì)應(yīng)的機(jī)構(gòu)i對(duì)作者a的影響力的權(quán)重。
4)學(xué)者投稿期刊信息嵌入層。
雖然在合作者網(wǎng)絡(luò)中學(xué)者與期刊并沒(méi)有直接的關(guān)聯(lián)關(guān)系,但是學(xué)者在投稿論文過(guò)程中會(huì)根據(jù)所投論文以及自身的研究興趣等特征選擇相應(yīng)的期刊進(jìn)行投稿,因此,作者與期刊之間存在著潛在關(guān)聯(lián)。此外,為了對(duì)預(yù)計(jì)合作成果的等級(jí)進(jìn)行預(yù)測(cè),需要提取各種期刊的潛在特征以對(duì)學(xué)者的特征信息進(jìn)行補(bǔ)充。
除了期刊本身的收錄論文量、等級(jí)等屬性外,期刊的刊載方向是由一篇篇論文構(gòu)成的。因此本文在利用了期刊自身屬性的基礎(chǔ)上使用發(fā)表在每種刊物上的論文來(lái)提取期刊的特征表示:
其中:NRJP(j)表示論文(P)與期刊(J)的關(guān)系下,期刊j的鄰居,即發(fā)表在期刊J上的論文。μp,j是論文p的自注意力分?jǐn)?shù):
在得到期刊的特征表示之后,為了獲取學(xué)者a投稿論文的期刊偏好,本文使用元路徑“期刊-論文-學(xué)者”(J-P-A)構(gòu)建期刊與學(xué)者關(guān)系,并以此獲得學(xué)者的投稿期刊特征分量:
其中,φl(shuí)ja為元路徑J-P-A的自注意力分?jǐn)?shù):
2.2.2 預(yù)測(cè)模塊
在科研合作網(wǎng)絡(luò)中,學(xué)者的研究興趣、合作關(guān)系在不斷變化,為了預(yù)測(cè)學(xué)者未來(lái)短期內(nèi)的研究興趣以及合作關(guān)系,本文采用自注意力機(jī)制對(duì)構(gòu)成學(xué)者特征的不同分量進(jìn)行預(yù)測(cè),令表示學(xué)者不同時(shí)間段的不同特征分量的特征集合,τ={P,S,I,J},則學(xué)者的在t+1 時(shí)刻的特征分量為:
在得到了未來(lái)短期學(xué)者的興趣特征分量、合作結(jié)構(gòu)特征分量、機(jī)構(gòu)特征分量以及期刊特征分量之后,本文將這些分量進(jìn)行融合以得到豐富的特征來(lái)表示學(xué)者:
其中,AGG 表示聚合函數(shù)(AGGregate),為了簡(jiǎn)化模型減少模型參數(shù),本文選用相加進(jìn)行聚合操作。
為了預(yù)測(cè)某個(gè)合作關(guān)系的合作潛力,將合作關(guān)系雙方的蘊(yùn)含學(xué)者不同維度信息的特征向量進(jìn)行拼接:
然后使用3 層全連接網(wǎng)絡(luò)進(jìn)行預(yù)測(cè),具體的模型為:
其中,?、f和g為映射函數(shù)。
經(jīng)過(guò)上述模塊,本文實(shí)現(xiàn)了對(duì)合作關(guān)系的隱層特征提取,得到了對(duì)應(yīng)的特征嵌入向量。為了對(duì)模型進(jìn)行優(yōu)化以及測(cè)試模型的性能,本文采用均方誤差(Mean-Square Error,MSE)度量模型對(duì)合作者合作潛力的預(yù)測(cè)值與真實(shí)值之間差異程度,具體的計(jì)算公式如下所示:
其中:Rl為測(cè)試集中的連接關(guān)系為預(yù)測(cè)值;yRl為測(cè)試集中的鏈接關(guān)系的真實(shí)標(biāo)簽。
另外,考慮到合作者推薦與合作潛力預(yù)測(cè)的相關(guān)性,本文在對(duì)合作潛力進(jìn)行預(yù)測(cè)的同時(shí),將合作者推薦建模為鏈路預(yù)測(cè)問(wèn)題并對(duì)模型進(jìn)行優(yōu)化,將模型建模為多任務(wù)優(yōu)化問(wèn)題進(jìn)行協(xié)同優(yōu)化。在進(jìn)行合作者推薦任務(wù)優(yōu)化時(shí),采用交叉熵來(lái)度量預(yù)測(cè)值與真實(shí)值之間的差異:
本文算法在提取學(xué)者的研究興趣、機(jī)構(gòu)信息、期刊信息特征分量時(shí),使用與學(xué)者關(guān)聯(lián)的實(shí)體的特征進(jìn)行學(xué)習(xí),假設(shè)輸入特征的維度為|F|,輸出的特征的維度為|F′|,學(xué)者的數(shù)量為NA,相關(guān)的實(shí)體的個(gè)數(shù)為Nτ,此時(shí)的算法復(fù)雜度為在提取學(xué)者的合作網(wǎng)絡(luò)拓?fù)鋵傩詴r(shí),使用GCN 作為特征提取器,此時(shí)復(fù)雜度為GCN 的復(fù)雜度。此外,在優(yōu)化模型過(guò)程中,本文采用隨機(jī)梯度下降(Stochastic Gradient Descent,SGD)[25]法進(jìn)行優(yōu)化,具體流程如算法1 所示。
算法1 異構(gòu)信息融合的CPP 算法。
輸入 異構(gòu)信息網(wǎng)絡(luò)G(P,A,I,J,RPJ,RAJ,RAA,RAP),論文的文本特征矩陣FP,機(jī)構(gòu)的屬性矩陣FI,期刊的屬性矩陣FJ,待預(yù)測(cè)合作關(guān)系Rl,最大訓(xùn)練次數(shù)S;
輸出 關(guān)系Rl合作與否,合作后產(chǎn)生高水平成果的概率。
中國(guó)計(jì)算機(jī)學(xué)會(huì)(CCF)為計(jì)算機(jī)科學(xué)的10 個(gè)領(lǐng)域分別制定了學(xué)術(shù)期刊推薦目錄——《中國(guó)計(jì)算機(jī)學(xué)會(huì)推薦國(guó)際學(xué)術(shù)會(huì)議和期刊目錄》(以下簡(jiǎn)稱(chēng)為CCF 推薦期刊目錄),CCF推薦期刊目錄已經(jīng)成為我國(guó)高校和科研單位學(xué)術(shù)評(píng)價(jià)的重要參考依據(jù)。
本文搜集了2019 年之前的發(fā)表在262 種CCF 推薦期刊目錄中的所有546 000 篇論文,這些論文中包含了來(lái)自超過(guò)150 個(gè)國(guó)家與地區(qū)的650 995 名作者。數(shù)據(jù)集中包含的實(shí)體以及屬性信息如表1 所示。
CCF 推薦期刊被劃分為A、B、C 三個(gè)等級(jí),并采用獨(dú)熱編碼進(jìn)行編碼,如人工智能頂級(jí)期刊IEEETransactionson PatternAnalysisandMachineIntelligence被劃分為A 類(lèi)期刊,則它的期刊等級(jí)編碼為(1,0,0)。
此外,不同作者、機(jī)構(gòu)以及期刊刊登的論文的總數(shù)與引用量之間存在顯著差異,直接使用原始數(shù)據(jù)作為模型的輸入將會(huì)增加模型的訓(xùn)練時(shí)間,模型無(wú)法在有效時(shí)間內(nèi)收斂。因此,本文對(duì)表中的數(shù)值型數(shù)據(jù)進(jìn)行最小最大歸一化(Min-Max Normalization),將它們的數(shù)值轉(zhuǎn)化為[0,1]范圍內(nèi)的數(shù)值型數(shù)據(jù)。由于全球定位系統(tǒng)(Global Positioning System,GPS)經(jīng)緯度的范圍為經(jīng)度[-180,180]、緯度[-90,90],因此,本文使用最大絕對(duì)值歸一化(Maximum Absolute Normalization)將經(jīng)緯度的范圍縮小到[-1,1]。經(jīng)過(guò)上述預(yù)處理過(guò)程,異構(gòu)網(wǎng)絡(luò)中的各實(shí)體的屬性均已轉(zhuǎn)換為數(shù)值型數(shù)據(jù),此時(shí)將機(jī)構(gòu)與期刊屬性各自整合,構(gòu)建為屬性矩陣。機(jī)構(gòu)的屬性矩陣中的屬性包括:發(fā)表論文總量、發(fā)表論文總引用量以及歸一化的經(jīng)緯度;期刊的屬性矩陣中的屬性包括:收錄論文總量、收錄論文總引用量以及期刊等級(jí)的獨(dú)熱編碼。
每篇論文的題目以及摘要能反映出論文的研究領(lǐng)域等信息,是合作者異構(gòu)信息網(wǎng)絡(luò)中可不或缺的信息。本文采用文檔嵌入模型Doc2Vec 訓(xùn)練所有論文的題目以及摘要組成的字符串,并輸出128 維的特征向量表示它們的研究?jī)?nèi)容。
本文使用Python3.8 環(huán)境下的PyTorch1.10 實(shí)現(xiàn),操作環(huán)境為Ubuntu 16.04;CPU 為Intel Xeon CPU E5-265;GPU 為NVIDIA Tesla P100;128 GB 內(nèi)存;所使用的存儲(chǔ)數(shù)據(jù)庫(kù)為Mongodb。模型訓(xùn)練過(guò)程中的學(xué)習(xí)率為0.001,隱藏層的輸出維度為64。
自20 世紀(jì)80 年代以來(lái),發(fā)表在CCF 推薦期刊上的論文數(shù)暴發(fā)式增長(zhǎng),且近年來(lái)論文數(shù)的增長(zhǎng)尤為顯著。為了更準(zhǔn)確地獲取科研合作演化機(jī)制以進(jìn)行合作者推薦以及合作潛力預(yù)測(cè),本文選取了年論文刊載量大于10 000 篇的年份(即1998 年)作為初始年份構(gòu)建訓(xùn)練集。
本文將2016—2018 年的論文發(fā)表數(shù)據(jù)作為測(cè)試集;以2005—2015 年的論文數(shù)據(jù)作為測(cè)試集構(gòu)建異構(gòu)信息網(wǎng)絡(luò)的數(shù)據(jù);訓(xùn)練集構(gòu)建的時(shí)間段則從1998 年開(kāi)始,前10 年的數(shù)據(jù)作為異構(gòu)網(wǎng)絡(luò)構(gòu)建數(shù)據(jù),而之后3 年為合作關(guān)系提取訓(xùn)練集中所對(duì)應(yīng)的合作關(guān)系。為了獲取學(xué)者在科研合作網(wǎng)絡(luò)中的動(dòng)態(tài)演化屬性,本文對(duì)構(gòu)建異構(gòu)信息網(wǎng)絡(luò)的10 年間的數(shù)據(jù)進(jìn)行切片,每5 年構(gòu)建一個(gè)異構(gòu)信息網(wǎng)絡(luò),以此得到了科研異構(gòu)信息網(wǎng)絡(luò)時(shí)序數(shù)據(jù)集,訓(xùn)練集的詳細(xì)信息如表2 所示。
在構(gòu)建合作潛力預(yù)測(cè)訓(xùn)練集與測(cè)試集時(shí),選取在合作關(guān)系選取時(shí)段中,合作學(xué)者之間發(fā)表超過(guò)3 篇論文的合作關(guān)系進(jìn)行預(yù)測(cè),并統(tǒng)計(jì)了合作者分別發(fā)表A、B、C 類(lèi)期刊論文的概率作為模型預(yù)測(cè)的目標(biāo)值,例如,某個(gè)學(xué)者發(fā)表A 類(lèi)期刊的概率為:
其中,NA表示作者發(fā)表在CCF 推薦期刊中A 類(lèi)期刊的論文的數(shù)量。此外,在構(gòu)建合作者推薦訓(xùn)練集與測(cè)試集時(shí),以合作關(guān)系選取時(shí)段的合作關(guān)系為正樣本,而通過(guò)隨機(jī)負(fù)采樣選取與正樣本相同數(shù)量的合作關(guān)系作為負(fù)樣本。在對(duì)模型的結(jié)果進(jìn)行評(píng)價(jià)時(shí),合作潛力預(yù)測(cè)采用MSE 損失,合作者推薦采用精度進(jìn)行評(píng)價(jià)。
由于本文方法同時(shí)應(yīng)用于合作者推薦和潛力預(yù)測(cè),因此對(duì)兩個(gè)任務(wù)的損失進(jìn)行協(xié)同優(yōu)化以訓(xùn)練模型。多任務(wù)協(xié)同優(yōu)化與單任務(wù)優(yōu)化對(duì)模型性能的影響如圖3 所示。相較于單獨(dú)對(duì)不同任務(wù)的損失進(jìn)行優(yōu)化,多任務(wù)優(yōu)化的收斂更快。對(duì)于不同任務(wù)進(jìn)行單獨(dú)優(yōu)化時(shí),另一種任務(wù)的精度或損失基本不變。在使用協(xié)同優(yōu)化之后,所得的模型合作潛力預(yù)測(cè)的誤差較小,且合作者推薦的精度更高。
圖3 協(xié)同優(yōu)化與單獨(dú)優(yōu)化的不同任務(wù)的精度變化Fig.3 Accuracy change for different tasks using co-optimization and separate optimization
為了驗(yàn)證融合作者的多種維度信息是否對(duì)合作潛力預(yù)測(cè)以及合作者推薦有效,本文分別刪除了學(xué)者機(jī)構(gòu)信息特征分量、學(xué)者期刊信息分量以及學(xué)者合作網(wǎng)絡(luò)結(jié)構(gòu)特征分量后對(duì)模型進(jìn)行訓(xùn)練,訓(xùn)練過(guò)程如圖4 所示。在刪除不同的信息分量后,兩種任務(wù)的性能均有所下降,且融合所有信息分量的模型可以取得更好的精度,說(shuō)明學(xué)者的不同的特征分量對(duì)模型的訓(xùn)練十分有效和必要,可以有效提升模型的性能。
圖4 融合部分特征信息模型精度的變化Fig.4 Accuracy change of models fusing partial feature information
構(gòu)建異構(gòu)網(wǎng)絡(luò)時(shí),訓(xùn)練集的時(shí)間段設(shè)置為10 年,而搜集到的數(shù)據(jù)為從1998 年開(kāi)始,所以本文按時(shí)間順序構(gòu)建了6 個(gè)動(dòng)態(tài)異構(gòu)網(wǎng)絡(luò)。為了有效利用這些數(shù)據(jù)以達(dá)到最優(yōu)的模型性能,本文分別將單一時(shí)段數(shù)據(jù)集作為輸入進(jìn)行訓(xùn)練,并與交叉訓(xùn)練進(jìn)行了比較,如圖5 所示。交叉訓(xùn)練是在進(jìn)行模型訓(xùn)練時(shí)每次迭代中都從這些數(shù)據(jù)中隨機(jī)選取某一時(shí)段的數(shù)據(jù)進(jìn)行訓(xùn)練。對(duì)于合作潛力預(yù)測(cè)來(lái)講,訓(xùn)練數(shù)據(jù)集與測(cè)試數(shù)據(jù)集越近模型的測(cè)試誤差越小,隨機(jī)交叉輸入訓(xùn)練所得的模型的誤差雖然較單獨(dú)輸入2003—2012 年的數(shù)據(jù)的誤差有所增加,但其測(cè)試誤差仍然較小,且與單獨(dú)輸入2003—2012 年的數(shù)據(jù)所得模型的測(cè)試誤差比較相近。在合作者推薦任務(wù)中,隨機(jī)交叉輸入取得了最好的預(yù)測(cè)精度,并且隨著迭代次數(shù)的增加依然處于上升趨勢(shì),隨機(jī)交叉輸入的訓(xùn)練方式有利于提升合作者推薦的精度。
圖5 單一時(shí)段數(shù)據(jù)訓(xùn)練與交叉訓(xùn)練對(duì)模型性能的影響Fig.5 Influence of single period data training and cross-training on model performance
在構(gòu)建合作潛力預(yù)測(cè)任務(wù)的訓(xùn)練集與測(cè)試集的過(guò)程中,本文選取了在預(yù)測(cè)時(shí)段合作次數(shù)超過(guò)一定次數(shù)的合作關(guān)系構(gòu)建訓(xùn)練集,為了驗(yàn)證合作次數(shù)對(duì)模型的訓(xùn)練效果是否有影響,本文分別使用不同的合作次數(shù)閾值構(gòu)建了訓(xùn)練集與測(cè)試集,分別對(duì)模型進(jìn)行了訓(xùn)練,所得的模型的預(yù)測(cè)性能如圖6所示。合作次數(shù)閾值越高,模型對(duì)于合作潛力預(yù)測(cè)任務(wù)的性能越高,誤差越小。
圖6 合作次數(shù)對(duì)合潛力預(yù)測(cè)性能的影響Fig.6 Influence of cooperation times on prediction performance of cooperation potential
為了驗(yàn)證本文模型隱藏層維度對(duì)模型精度的影響,本文對(duì)隱藏層的維度d設(shè)置為32、64 和128 的模型進(jìn)行了測(cè)試,結(jié)果如圖7 所示。在合作潛力預(yù)測(cè)中,隱藏層的維度為32 時(shí)MSE 損失最低。在合作者推薦任務(wù)中,隱藏層的維度為32時(shí)更加穩(wěn)定,而隱藏層維度為128 時(shí)有明顯的波動(dòng)。因此,本文在模型訓(xùn)練時(shí)選用64 作為隱藏層的維度。
圖7 不同隱藏層維度的模型性能Fig.7 Performance of models with different hidden layer dimensions
最后,為了驗(yàn)證本文模型CPP 的性能,使用GCN[26]、圖注意力網(wǎng)絡(luò)(Graph ATTention network,GAT)[27]、多層采樣聚合圖神經(jīng)網(wǎng)絡(luò)(Graph Sample and AggreGatE network,GraphSAGE)[28]、異構(gòu)圖注意力神經(jīng)網(wǎng)絡(luò)(Heterogeneous graph Attention neural Network,HAN)[29]以及傳統(tǒng)分類(lèi)算法決策樹(shù)[30]與本文提出的CPP 模型進(jìn)行了10 次獨(dú)立重復(fù)實(shí)驗(yàn),合作者推薦分別使用精確率、召回率、平衡F 分?jǐn)?shù)(Balanced F Score,F(xiàn)1)3 種指標(biāo)對(duì)算法的性能進(jìn)行評(píng)價(jià),而合作潛力采用MSE 進(jìn)行評(píng)價(jià),具體結(jié)果如表3 所示。由表3 可知,圖神經(jīng)網(wǎng)絡(luò)的算法比傳統(tǒng)的機(jī)器學(xué)習(xí)算法表現(xiàn)優(yōu)越,說(shuō)明圖神經(jīng)網(wǎng)絡(luò)可以有效學(xué)習(xí)復(fù)雜網(wǎng)絡(luò)中的節(jié)點(diǎn)的隱藏屬性,具有優(yōu)異的特征表達(dá)能力。相較于次優(yōu)的GraphSAGE 算法,CPP 在合作者推薦任務(wù)的分類(lèi)精確率提高了1.47 個(gè)百分點(diǎn),而且召回率以及F1 均表現(xiàn)良好;合作潛力預(yù)測(cè)任務(wù)中的測(cè)試誤差(MSE 損失)降低了1.23%。
表3 CPP與其他算法的性能對(duì)比Tab.3 Performance comparison of CPP and other algorithms
傳統(tǒng)的合作者推薦中鮮有考慮學(xué)者合作的成果產(chǎn)出,而現(xiàn)有的合作潛力預(yù)測(cè)算法存在信息提取不完全、實(shí)驗(yàn)數(shù)據(jù)不完整等缺點(diǎn)。本文將合作潛力預(yù)測(cè)與合作者推薦兩種任務(wù)進(jìn)行融合,建模為多任務(wù)優(yōu)化問(wèn)題,設(shè)計(jì)了一種融合基于動(dòng)態(tài)異構(gòu)網(wǎng)絡(luò)中實(shí)體關(guān)系的學(xué)者特征嵌入模型,實(shí)現(xiàn)了動(dòng)態(tài)異構(gòu)網(wǎng)絡(luò)中實(shí)體的特征提取,可以同時(shí)實(shí)現(xiàn)合作者推薦以及合作潛力預(yù)測(cè),且可以對(duì)合作雙方預(yù)計(jì)發(fā)表不同等級(jí)論文的概率進(jìn)行預(yù)測(cè)。在保證數(shù)據(jù)完整性與期刊評(píng)價(jià)的公平性的前提下,本文使用CCF 推薦期刊作為論文分級(jí)標(biāo)準(zhǔn),搜集了發(fā)表在這些期刊中的論文,并按時(shí)間段構(gòu)建了動(dòng)態(tài)異構(gòu)網(wǎng)絡(luò)數(shù)據(jù)集。在模型訓(xùn)練過(guò)程中,采取不同數(shù)據(jù)集交叉訓(xùn)練的方式對(duì)模型進(jìn)行訓(xùn)練,有效提高了模型的穩(wěn)定性以及泛化性能。實(shí)驗(yàn)結(jié)果表明,將不同于學(xué)者相關(guān)聯(lián)的實(shí)體的信息與學(xué)者自身的屬性進(jìn)行融合時(shí)能有效提高預(yù)測(cè)的準(zhǔn)確性。與相關(guān)的算法進(jìn)行比較時(shí),本文模型對(duì)于合作者推薦的預(yù)測(cè)精確度取得了最優(yōu)結(jié)果,而對(duì)于合作潛力預(yù)測(cè)任務(wù)測(cè)試誤差最小。因此,本文模型可以應(yīng)用于科研合作者推薦系統(tǒng)中,有助于學(xué)者尋找其適合的合作者,促進(jìn)學(xué)者之間合作交流,具有很好的應(yīng)用前景。
接下來(lái)的工作將繼續(xù)完善科研合作網(wǎng)絡(luò)中各種實(shí)體的特征信息,構(gòu)建學(xué)者學(xué)術(shù)畫(huà)像,探索優(yōu)秀學(xué)者間的科研合作模式。此外,本模型將拓展到其他領(lǐng)域中,以促進(jìn)不同研究領(lǐng)域之間的學(xué)術(shù)交叉研究。