• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      科學(xué)家相關(guān)性測(cè)度典型算法比較與評(píng)析

      2019-04-19 01:09:44吳振新單嵩巖
      數(shù)字圖書館論壇 2019年3期
      關(guān)鍵詞:異構(gòu)相似性節(jié)點(diǎn)

      吳振新 單嵩巖

      (1.中國(guó)科學(xué)院文獻(xiàn)情報(bào)中心,北京 100190;2.中國(guó)科學(xué)院大學(xué)圖書情報(bào)與檔案管理系,北京 100049)

      20世紀(jì)末期,學(xué)術(shù)界發(fā)起了一系列旨在克服傳統(tǒng)科學(xué)弊端的學(xué)術(shù)運(yùn)動(dòng)。這些運(yùn)動(dòng)凸顯了“自由、開放、合作、共享”的理念,與傳統(tǒng)科學(xué)文化的封閉性形成鮮明的對(duì)比,學(xué)術(shù)界將之稱為開放科學(xué)運(yùn)動(dòng)[1]。開放科學(xué)是一個(gè)廣義的概念,用于描述科學(xué)研究開展的方式,包括運(yùn)用技術(shù)使研究活動(dòng)更具協(xié)作性和開放性。開放科學(xué)環(huán)境為科研人員提供更多的知識(shí)獲取途徑,更為關(guān)鍵的是開放交流模型為科研人員提供更廣泛地尋求潛在的科研合作對(duì)象/團(tuán)體的可能,極大地促進(jìn)了科研合作共享。因此,科研合作也成為開放科學(xué)環(huán)境中信息服務(wù)的一個(gè)重要內(nèi)容。

      為了更好地支持科研、服務(wù)科研,很多信息服務(wù)機(jī)構(gòu)開始提供科研合作預(yù)測(cè)分析,并將其作為融入科研一線的智能知識(shí)服務(wù)的一項(xiàng)重要內(nèi)容,科研合作關(guān)系預(yù)測(cè)的研究引起了更多的關(guān)注。作為科研預(yù)測(cè)研究的關(guān)鍵技術(shù)之一,科學(xué)家相關(guān)性計(jì)算隨之得到越來越多的重視,取得不錯(cuò)的進(jìn)展。但隨著新技術(shù)方法的不斷引入,該研究還在不斷地改進(jìn)和提升。

      1 科研合作預(yù)測(cè)領(lǐng)域的作者相關(guān)度研究概述

      科研合作預(yù)測(cè)通常在學(xué)術(shù)論文構(gòu)建的科研合作網(wǎng)絡(luò)中進(jìn)行,目的是預(yù)測(cè)從未合作過的作者在未來產(chǎn)生合作的可能性。因此在合作網(wǎng)絡(luò)中,對(duì)科學(xué)家相關(guān)度計(jì)算可轉(zhuǎn)為作者相關(guān)度計(jì)算。作為社會(huì)網(wǎng)絡(luò)的一種,科研合作網(wǎng)絡(luò)體現(xiàn)了科學(xué)家間存在文章或者研究項(xiàng)目等的合作關(guān)系。

      作者相關(guān)度在很多科研合作預(yù)測(cè)文章中也被稱為相似度,在實(shí)際預(yù)測(cè)中,相比衡量不同作者間屬性特征是否相似,更關(guān)注不同作者在合作網(wǎng)絡(luò)中是否近鄰、是否屬于同一知識(shí)社區(qū)。如在合作網(wǎng)絡(luò)中,擁有共同合作者但研究領(lǐng)域不同的兩位作者,雖然屬性特征相似度不高,但網(wǎng)絡(luò)結(jié)構(gòu)相似性高,作者相關(guān)性大。在科研合作預(yù)測(cè)領(lǐng)域中的作者相關(guān)度應(yīng)用,主要根據(jù)作者節(jié)點(diǎn)屬性及網(wǎng)絡(luò)的結(jié)構(gòu)特征等信息(如相關(guān)人際關(guān)系,研究方向、領(lǐng)域、內(nèi)容、興趣等計(jì)算作者間的相關(guān)度),以相關(guān)度表示作者未來合作的可能性。

      對(duì)于目前的科研合作成因來說,兩個(gè)作者可能合作是因?yàn)橥幰粋€(gè)學(xué)術(shù)機(jī)構(gòu)、互為師生關(guān)系、研究領(lǐng)域交叉等。而隨著開放科學(xué)的發(fā)展,科學(xué)研究整個(gè)過程的開放性和互操作性不斷增強(qiáng),對(duì)從未合作過的作者在未來合作的預(yù)測(cè)會(huì)越來越復(fù)雜,但合作網(wǎng)絡(luò)自身的拓?fù)浣Y(jié)構(gòu)優(yōu)勢(shì)能夠揭示未來合作的可能性程度。如在合著網(wǎng)絡(luò)中,兩位擁有共同同事的作者;或在作者-關(guān)鍵詞網(wǎng)絡(luò)中,兩位擁有共同關(guān)鍵詞,研究?jī)?nèi)容相關(guān)的作者,就有合作的可能性。因此,作者相關(guān)性計(jì)算也就成為科研預(yù)測(cè)領(lǐng)域的關(guān)鍵技術(shù)之一。

      科研合作預(yù)測(cè)在本質(zhì)上是鏈路預(yù)測(cè)問題,通過已知的網(wǎng)絡(luò)結(jié)構(gòu)信息預(yù)測(cè)節(jié)點(diǎn)間未來產(chǎn)生連接的可能性,其中一類主流算法是基于節(jié)點(diǎn)相似性的方法?;诠?jié)點(diǎn)相似性的方法是根據(jù)已知網(wǎng)絡(luò)中的作者節(jié)點(diǎn)拓?fù)浣Y(jié)構(gòu),通過計(jì)算每一對(duì)未相連作者節(jié)點(diǎn)的結(jié)構(gòu)相似度,相似度越高,其存在連邊的概率越大,即作者未來合作的可能性更高[2]。

      早期科研合作預(yù)測(cè)研究基于同構(gòu)網(wǎng)絡(luò)(合著網(wǎng)絡(luò)、引文網(wǎng)絡(luò)等),采用多種節(jié)點(diǎn)拓?fù)湎嗨菩灾笜?biāo),如基于共同鄰居指標(biāo)、到達(dá)路徑指標(biāo)和隨機(jī)游走指標(biāo)計(jì)算作者相關(guān)性。Liben-Nowell等[3]率先將基于網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)的多種節(jié)點(diǎn)相似性指數(shù)應(yīng)用于社交網(wǎng)絡(luò)鏈接預(yù)測(cè),并在合著網(wǎng)絡(luò)中進(jìn)行了實(shí)驗(yàn)。隨后Zhou等[4]在包括合著網(wǎng)絡(luò)在內(nèi)的多種現(xiàn)實(shí)網(wǎng)絡(luò)應(yīng)用多種基于局部信息的指標(biāo)實(shí)施鏈路預(yù)測(cè),并提出資源分配(RA)指標(biāo)和局部路徑(LP)指標(biāo)。近年來,越來越多的研究者采用相似度指標(biāo)在合著網(wǎng)絡(luò)中通過計(jì)算作者相關(guān)度來預(yù)測(cè)合作的可能性。張斌等[5]在7門學(xué)科的合作網(wǎng)絡(luò)中應(yīng)用多種相似性指標(biāo)進(jìn)行鏈路預(yù)測(cè)。張金柱等[6]運(yùn)用多種相似度指標(biāo)在合著網(wǎng)絡(luò)中研究合作演化規(guī)律。

      現(xiàn)實(shí)中,科研合作網(wǎng)絡(luò)往往是異構(gòu)的,同構(gòu)網(wǎng)絡(luò)節(jié)點(diǎn)相似性雖然易于計(jì)算,但丟失了很多語(yǔ)義信息。傳統(tǒng)的節(jié)點(diǎn)相似性指標(biāo),根據(jù)同構(gòu)信息網(wǎng)絡(luò)設(shè)計(jì),無法直接應(yīng)用到異構(gòu)信息網(wǎng)絡(luò)中。為了計(jì)算異構(gòu)網(wǎng)絡(luò)中的節(jié)點(diǎn)相似性,Sun等[7]于2011年提出元路徑的概念,并在異構(gòu)書目網(wǎng)絡(luò)中研究了合作關(guān)系預(yù)測(cè)問題,將基于路徑指標(biāo)、隨機(jī)游走指標(biāo)擴(kuò)展到異構(gòu)網(wǎng)絡(luò)中。隨后多種基于元路徑的網(wǎng)絡(luò)拓?fù)湎嗨贫戎笜?biāo)相繼被提出,伍轉(zhuǎn)華[8]利用PathSim算法在DBLP文獻(xiàn)數(shù)據(jù)集構(gòu)成的“論文-作者-術(shù)語(yǔ)-會(huì)議”異構(gòu)網(wǎng)絡(luò)中尋找相關(guān)作者。Shi等[9]提出的HeteSim算法度量異質(zhì)網(wǎng)絡(luò)中任意節(jié)點(diǎn)對(duì)的相關(guān)性,在ACM(“機(jī)構(gòu)-作者-論文-術(shù)語(yǔ)-學(xué)科-會(huì)議-出版物”異構(gòu)網(wǎng)絡(luò))和DBLP數(shù)據(jù)集上計(jì)算作者節(jié)點(diǎn)相關(guān)度。孟曉峰[10]提出了一種基于元路徑的新型相似性度量算法AvgSim,并在ACM數(shù)據(jù)集和DBLP數(shù)據(jù)集上計(jì)算作者節(jié)點(diǎn)相關(guān)度。張舒虹[11]在APS(“論文-作者-機(jī)構(gòu)-術(shù)語(yǔ)-學(xué)科-期刊-年刊”異構(gòu)網(wǎng)絡(luò))和DBLP數(shù)據(jù)集上,基于時(shí)間動(dòng)態(tài)的路徑數(shù)、傳遞相似性的歸一化路徑數(shù)和作者屬性的對(duì)稱隨機(jī)游走計(jì)算作者節(jié)點(diǎn)間的相關(guān)性。

      由于傳統(tǒng)鏈路預(yù)測(cè)方法使用的網(wǎng)絡(luò)拓?fù)湎嗨菩灾笜?biāo)普遍存在計(jì)算效率較低和數(shù)據(jù)稀疏造成的維數(shù)過高問題,很難應(yīng)用于大規(guī)模數(shù)據(jù)集的科研合作網(wǎng)絡(luò)的合作預(yù)測(cè)。隨著表示學(xué)習(xí)的不斷發(fā)展,新興的網(wǎng)絡(luò)表示學(xué)習(xí)方法能夠?qū)D中的節(jié)點(diǎn)表示成向量,通過計(jì)算向量相似度獲得節(jié)點(diǎn)相似度。該方法可以高效地計(jì)算網(wǎng)絡(luò)中節(jié)點(diǎn)間的語(yǔ)義聯(lián)系,也能夠解決數(shù)據(jù)稀疏下的語(yǔ)義關(guān)聯(lián)抽取和計(jì)算復(fù)雜問題[12],因此學(xué)者們嘗試將新方法應(yīng)用于合作預(yù)測(cè)。Tang等[13]提出了LINE算法并在合著網(wǎng)絡(luò)中進(jìn)行了實(shí)驗(yàn),在識(shí)別相關(guān)作者中取得了良好的效果。張金柱等[12]利用LINE網(wǎng)絡(luò)表示學(xué)習(xí)方法得到作者的向量表示;通過向量夾角余弦值計(jì)算作者間的語(yǔ)義相似度。姚銳[14]構(gòu)建“論文-期刊-作者”的異構(gòu)網(wǎng)絡(luò),以作者為中心,結(jié)合元路徑應(yīng)用Node2vec模型得到作者的向量表示,根據(jù)明可夫斯基距離、余弦值計(jì)算作者間的向量相似度。Dong等[15]提出了metapath2vec表示學(xué)習(xí)方法,并在“作者-論文-會(huì)議”異構(gòu)網(wǎng)絡(luò)中進(jìn)行了相關(guān)作者聚類實(shí)驗(yàn)。

      2 面向科研合作預(yù)測(cè)的作者相關(guān)度算法分析和比較

      利用學(xué)術(shù)論文構(gòu)建的科研合作網(wǎng)絡(luò)主要有同構(gòu)網(wǎng)絡(luò)(如合著網(wǎng)絡(luò)[3])和異構(gòu)網(wǎng)絡(luò)(如“作者-關(guān)鍵詞”網(wǎng)絡(luò)[16]、“作者-文獻(xiàn)”網(wǎng)絡(luò)[17]、“作者-文獻(xiàn)-術(shù)語(yǔ)-會(huì)議”網(wǎng)絡(luò)[18])?;诠?jié)點(diǎn)相似性的方法在科研合作網(wǎng)絡(luò)中進(jìn)行合作預(yù)測(cè),根據(jù)作者節(jié)點(diǎn)的拓?fù)湫畔ⅲ煤现?、引用、同屬一個(gè)機(jī)構(gòu)等連邊的語(yǔ)義信息計(jì)算作者間的相關(guān)性,即利用拓?fù)湎嗨贫人惴ㄓ?jì)算作者網(wǎng)絡(luò)信息的相似程度。

      2.1 基于同構(gòu)網(wǎng)絡(luò)節(jié)點(diǎn)相似性指標(biāo)的作者相關(guān)度計(jì)算

      基于網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)相似度衡量作者間的相關(guān)度,是將作者實(shí)體間的關(guān)系連結(jié)起來構(gòu)成網(wǎng)絡(luò)圖,利用圖中節(jié)點(diǎn)間的連接屬性,來判定兩個(gè)作者的相關(guān)性。

      衡量同構(gòu)網(wǎng)絡(luò)(合著網(wǎng)絡(luò))中作者節(jié)點(diǎn)的相關(guān)性,一般采用節(jié)點(diǎn)拓?fù)湎嗨菩灾笜?biāo)來計(jì)算。相似性指標(biāo)包含基于鄰居的度量(網(wǎng)絡(luò)局部結(jié)構(gòu)的相似性)、基于路徑的度量(準(zhǔn)局部結(jié)構(gòu)的相似性)、基于隨機(jī)游走的度量(網(wǎng)絡(luò)全局結(jié)構(gòu)的相似性)。這里的“相似性”是相關(guān)文獻(xiàn)已成習(xí)慣的術(shù)語(yǔ),實(shí)際上很多相似性指標(biāo)衡量的并非是節(jié)點(diǎn)對(duì)是否具有相似的特征,而是衡量節(jié)點(diǎn)對(duì)在幾何或者拓?fù)淇臻g是否鄰近,或者在功能上是否具有較大的關(guān)聯(lián)[19],因此也被稱為“接近性”或“相關(guān)性”。其中最簡(jiǎn)單的相似性指標(biāo)是共同鄰居(Common Neighbors,CN),兩個(gè)節(jié)點(diǎn)如果有更多的共同鄰居就可能更相似?;诼窂蕉攘康南嗨菩运惴紤]到使用共同鄰居指標(biāo)進(jìn)行計(jì)算時(shí),相似性分?jǐn)?shù)可能分布過于集中,使得預(yù)測(cè)結(jié)果沒有區(qū)分度。因此,將兩個(gè)節(jié)點(diǎn)的共同鄰居擴(kuò)展到“n階共同鄰居”[5]?;陔S機(jī)游走的度量是利用一個(gè)節(jié)點(diǎn)到其鄰居的轉(zhuǎn)移概率來描述當(dāng)前節(jié)點(diǎn)隨機(jī)游走的目的地,可以根據(jù)整個(gè)網(wǎng)絡(luò)圖的信息來計(jì)算節(jié)點(diǎn)相似度,即使兩個(gè)節(jié)點(diǎn)之間沒有公共鄰居節(jié)點(diǎn)也能計(jì)算(見表1)。

      表1 代表性節(jié)點(diǎn)拓?fù)湎嗨贫戎笜?biāo)

      拓?fù)湎嗨菩灾笜?biāo)只涉及網(wǎng)絡(luò)的結(jié)構(gòu)信息,相似性指標(biāo)計(jì)算比較簡(jiǎn)單,但不同指標(biāo)在不同網(wǎng)絡(luò)中的預(yù)測(cè)能力不一致,其預(yù)測(cè)的精確度取決于對(duì)網(wǎng)絡(luò)結(jié)構(gòu)特征刻畫的好壞[20]。在高凝聚性的網(wǎng)絡(luò)中,基于鄰居和路徑的相似性指標(biāo)表現(xiàn)良好;在稀疏網(wǎng)絡(luò)中,基于隨機(jī)游走的度量預(yù)測(cè)效果比較好。在合著網(wǎng)絡(luò)中識(shí)別作者相關(guān)度,基于鄰居和路徑的相似性指標(biāo)表現(xiàn)良好,尤其是CN指標(biāo)、Adamic/Adar指標(biāo)、RA指標(biāo)和Katz指標(biāo)。

      合作關(guān)系所形成的合著網(wǎng)絡(luò)是一個(gè)熟人網(wǎng)絡(luò),日常生活中往往通過他人介紹或者更間接推薦來認(rèn)識(shí)某個(gè)人進(jìn)而與其合作。CN指標(biāo)能很好地衡量?jī)晌蛔髡叩闹苯雍献髡?,Katz指標(biāo)和LP指標(biāo)能很好地衡量?jī)晌蛔髡叩拈g接合作者。但是隨著路徑的增加,越間接的合著者對(duì)產(chǎn)生合著關(guān)系的影響越小,因此隨機(jī)游走指標(biāo)在合著網(wǎng)絡(luò)中表現(xiàn)不理想。Adamic/Adar指標(biāo)、RA指標(biāo)是改進(jìn)指標(biāo),賦予度數(shù)小的共同鄰居節(jié)點(diǎn)更大的權(quán)重,比共同鄰居指標(biāo)取得了更好的效果,因?yàn)槎葦?shù)小的作者選擇的合作者與其相關(guān)性更高。而Jaccard相關(guān)系數(shù)不考慮鄰居權(quán)重因此表現(xiàn)一般。PA指標(biāo)表示度數(shù)大的節(jié)點(diǎn)更容易產(chǎn)生連接,在合著網(wǎng)絡(luò)中往往取得的效果不好,因?yàn)閮晌欢葦?shù)大的作者即影響力大的作者通常合作概率小[3,5,6,20]。

      2.2 基于異構(gòu)網(wǎng)絡(luò)的元路徑拓?fù)湎嗨贫戎笜?biāo)的作者相關(guān)度計(jì)算

      科研合作網(wǎng)絡(luò)通常是異構(gòu)的,即網(wǎng)絡(luò)中存在多種類型的節(jié)點(diǎn)或連邊。同構(gòu)網(wǎng)絡(luò)只是異構(gòu)網(wǎng)絡(luò)的投影,如合著網(wǎng)絡(luò)是由“文獻(xiàn)-作者”網(wǎng)絡(luò)投影形成的,雖然合著網(wǎng)絡(luò)易于計(jì)算分析,但失去了原異構(gòu)科研合作網(wǎng)絡(luò)中豐富的語(yǔ)義信息。近年來,學(xué)者通過異構(gòu)網(wǎng)絡(luò)來解決科研合作預(yù)測(cè)問題,常見的方法包括基于元路徑。

      元路徑是定義在網(wǎng)絡(luò)模式上,用于描述異構(gòu)網(wǎng)絡(luò)中組合關(guān)系的路徑。不同的元路徑具有不同的語(yǔ)義來描述節(jié)點(diǎn)之間的相似程度。通過考慮依據(jù)不同元路徑的路徑,可以將同構(gòu)網(wǎng)絡(luò)中基于鄰居和路徑的屬性拓展到異構(gòu)信息網(wǎng)絡(luò)中。例如,如果區(qū)別看待不同類型的鄰居節(jié)點(diǎn),并且把一階鄰居擴(kuò)展為n階鄰居(某一節(jié)點(diǎn)和它的鄰居之間的距離為n),則兩個(gè)作者間共同鄰居屬性就變成兩個(gè)作者之間依據(jù)不同元路徑的路徑數(shù)目[14]。

      基于元路徑的相似性計(jì)算首先用元路徑定義兩個(gè)節(jié)點(diǎn)之間的拓?fù)浣Y(jié)構(gòu),然后在具體的拓?fù)渖隙x不同的度量標(biāo)準(zhǔn)。該方法考慮異構(gòu)信息網(wǎng)絡(luò)中不同拓?fù)浣Y(jié)構(gòu)的豐富語(yǔ)義信息和形成原因來進(jìn)行計(jì)算。如包含作者(A)、論文(P)、出版物(V)3種節(jié)點(diǎn)的合作異構(gòu)網(wǎng)絡(luò),兩個(gè)作者節(jié)點(diǎn)間的元路徑有:A1-P1-V1-P2-A2代表A1和A2在同一出版物上發(fā)表過文章;A1-P1→P2-A2代表A1的論文P1引用了作者A2的論文P2。

      在元路徑相似度指標(biāo)中(見表2),以路徑數(shù)和隨機(jī)游走為基礎(chǔ)的相似性度量適用于具有高出入度的對(duì)象,基于成對(duì)的隨機(jī)游走的相似性度量適用于集中的對(duì)象(即大部分的鏈接屬于小部分節(jié)點(diǎn))[8]。

      表2 代表性元路徑相似度指標(biāo)

      在科研合作異構(gòu)網(wǎng)絡(luò)中,連接兩個(gè)作者之間的元路徑越多,兩者越相關(guān),元路徑相似度指標(biāo)均能取得不錯(cuò)的效果,其中歸一化路徑數(shù)指標(biāo)表現(xiàn)更突出。PathSim指標(biāo)更傾向于發(fā)現(xiàn)對(duì)等作者,如領(lǐng)域和聲譽(yù)類似的作者。對(duì)稱隨機(jī)游走更傾向于高出入度的作者節(jié)點(diǎn),表示在網(wǎng)絡(luò)中越容易相互到達(dá)的作者更相關(guān),如合著論文數(shù)越多的兩位作者越相關(guān)。HeteSim指標(biāo)思想為與相關(guān)對(duì)象相連的對(duì)象是相關(guān)的,如相關(guān)的作者會(huì)在相關(guān)會(huì)議中發(fā)表論文,它能夠有效地度量作者相關(guān)度,但計(jì)算復(fù)雜性高也無法處理大規(guī)模網(wǎng)絡(luò)。AvgSim指標(biāo)以HeteSim指標(biāo)為切入點(diǎn),能夠有效地度量作者相關(guān)度,同時(shí)降低了計(jì)算復(fù)雜度[7,8,10]。

      表示兩位作者擁有共同合作者、在同一出版物上發(fā)表論文、研究相關(guān)領(lǐng)域和引用相同論文的元路徑,這些都在識(shí)別作者相關(guān)度中發(fā)揮了重要作用。雖然越長(zhǎng)的元路徑攜帶信息越多,但隨著元路徑長(zhǎng)度的增加,算法的復(fù)雜性也在增長(zhǎng),其精度增長(zhǎng)幅度不大,因此長(zhǎng)度一般控制在6個(gè)節(jié)點(diǎn)以內(nèi)。

      2.3 基于新興網(wǎng)絡(luò)表示學(xué)習(xí)方法的作者相關(guān)度計(jì)算

      除在科研合作網(wǎng)絡(luò)中采用結(jié)構(gòu)相似性指標(biāo)計(jì)算作者節(jié)點(diǎn)相關(guān)度外,隨著表示學(xué)習(xí)的發(fā)展,基于深度學(xué)習(xí)的網(wǎng)絡(luò)表示學(xué)習(xí)方法也得到了廣泛的應(yīng)用。網(wǎng)絡(luò)表示學(xué)習(xí)方法將圖中的節(jié)點(diǎn)表示成低維、實(shí)值、稠密的向量形式,通過計(jì)算向量間的距離判斷節(jié)點(diǎn)的相關(guān)度。

      基于神經(jīng)語(yǔ)言模型的網(wǎng)絡(luò)表示學(xué)習(xí)是目前的研究熱點(diǎn)(見表3),其基本原理和思路來源于代表性的詞向量生成工具Word2Vec[21]。Word2Vec工具包含CBOW模型和Skip-gram模型,通過選取輸入詞的前后n個(gè)詞作為上下文,學(xué)習(xí)到包含語(yǔ)義信息的輸入詞的向量表示。針對(duì)網(wǎng)絡(luò)結(jié)構(gòu)和神經(jīng)語(yǔ)言模型的特點(diǎn),網(wǎng)絡(luò)表示學(xué)習(xí)把節(jié)點(diǎn)類比為詞,把在網(wǎng)絡(luò)中獲得的節(jié)點(diǎn)序列類比為句子,將節(jié)點(diǎn)序列作為Word2Vec的輸入,根據(jù)每個(gè)節(jié)點(diǎn)的上下文信息,得到節(jié)點(diǎn)的向量表示。根據(jù)節(jié)點(diǎn)序列獲取方式的不同形成了以DeepWalk[22]、LINE[13]、Node2vec[23]、Metapath2Vec[15]等為代表的基于神經(jīng)語(yǔ)言模型的網(wǎng)絡(luò)表示學(xué)習(xí)方法。

      在科研合作網(wǎng)絡(luò)中利用網(wǎng)絡(luò)表示學(xué)習(xí)方法預(yù)測(cè)科研合作,學(xué)習(xí)作者在網(wǎng)絡(luò)中的上下文語(yǔ)境信息,得到每位作者的向量表示,將合作預(yù)測(cè)變?yōu)樽髡呦蛄肯嗨贫扔?jì)算問題,相似度越高,尚未合作過的作者越有可能進(jìn)行合作。

      表3 基于神經(jīng)語(yǔ)言模型的網(wǎng)絡(luò)表示學(xué)習(xí)代表性算法

      網(wǎng)絡(luò)表示學(xué)習(xí)為復(fù)雜網(wǎng)絡(luò)分析提供了新的視角,部分研究者開始初步探索將其應(yīng)用到科研合作網(wǎng)絡(luò)。在合著網(wǎng)絡(luò)中,DeepWalk、LINE、Node2vec都能取得不錯(cuò)的效果,其中Node2vec因?yàn)楦`活地選取鄰居節(jié)點(diǎn),同時(shí)考慮了合著網(wǎng)絡(luò)結(jié)構(gòu)中的結(jié)構(gòu)等價(jià)性與同質(zhì)性,在計(jì)算作者相關(guān)性方面表現(xiàn)得更好,但是能解決的網(wǎng)絡(luò)規(guī)模不如LINE。LINE更適合稠密大規(guī)模網(wǎng)絡(luò),能夠在具有高度數(shù)節(jié)點(diǎn)的合著網(wǎng)絡(luò)中有效識(shí)別相關(guān)作者。DeepWalk更適合稀疏的網(wǎng)絡(luò),但提出時(shí)間早,完全隨機(jī)的隨機(jī)游走策略在競(jìng)爭(zhēng)力方面不如之后提出來的改進(jìn)算法。Metapath2Vec能夠考慮不同類型節(jié)點(diǎn)間的不同語(yǔ)義,在科研合作異構(gòu)網(wǎng)絡(luò)中計(jì)算作者相關(guān)度方面取得良好的效果[13,15,23]。網(wǎng)絡(luò)表示學(xué)習(xí)能在大規(guī)模數(shù)據(jù)集中自動(dòng)提取合作網(wǎng)絡(luò)中作者關(guān)聯(lián)語(yǔ)義,在計(jì)算作者相關(guān)度方面有廣闊的研究應(yīng)用空間。

      3 結(jié)語(yǔ)

      在科研合作預(yù)測(cè)領(lǐng)域,作者相關(guān)度計(jì)算方法的研究發(fā)展緊跟新興技術(shù)發(fā)展步伐。通過科研合作網(wǎng)絡(luò)結(jié)構(gòu)信息判斷作者相關(guān)度,經(jīng)歷了從同構(gòu)網(wǎng)絡(luò)到異構(gòu)網(wǎng)絡(luò)的發(fā)展,在越來越復(fù)雜的研究中不斷的精細(xì)化、精準(zhǔn)化。

      從上述研究不難發(fā)現(xiàn)網(wǎng)絡(luò)表示學(xué)習(xí)方法將在作者相關(guān)度計(jì)算中得到進(jìn)一步應(yīng)用。隨著詞向量在文本相似度計(jì)算上的成功,涌現(xiàn)出一批借鑒語(yǔ)言模型完成的網(wǎng)絡(luò)圖表示學(xué)習(xí)的方法已在合作網(wǎng)絡(luò)中嘗試應(yīng)用,那么其他基于深度學(xué)習(xí)的網(wǎng)絡(luò)表示學(xué)習(xí)方法能否有更好的表現(xiàn),以及網(wǎng)絡(luò)中其他結(jié)構(gòu)的表示(如子圖向量、圖向量)能否應(yīng)用到作者相關(guān)度計(jì)算將成為今后探索的方向。此外,構(gòu)建科技知識(shí)圖譜能夠?yàn)樽髡呦嚓P(guān)度計(jì)算提供更多支持。與簡(jiǎn)單的科研合作網(wǎng)絡(luò)(如合著網(wǎng)絡(luò)、二分網(wǎng)絡(luò)、三種節(jié)點(diǎn)網(wǎng)絡(luò)等)相比,構(gòu)建擁有更全面的作者及相關(guān)實(shí)體節(jié)點(diǎn)、更豐富的作者語(yǔ)義信息的科技知識(shí)圖譜,能夠更全面地比較作者間相關(guān)度,因此在知識(shí)圖譜中尋找相關(guān)作者也將有更多應(yīng)用場(chǎng)景。

      開放科學(xué)給科研合作領(lǐng)域帶來了挑戰(zhàn),也帶來了機(jī)遇。作者相關(guān)度計(jì)算作為基礎(chǔ)研究問題已經(jīng)取得諸多成果,隨著新興技術(shù)與作者相關(guān)度研究不斷交叉融合,該研究成果勢(shì)必會(huì)進(jìn)一步推動(dòng)科研合作預(yù)測(cè)領(lǐng)域的發(fā)展。

      猜你喜歡
      異構(gòu)相似性節(jié)點(diǎn)
      一類上三角算子矩陣的相似性與酉相似性
      CM節(jié)點(diǎn)控制在船舶上的應(yīng)用
      試論同課異構(gòu)之“同”與“異”
      Analysis of the characteristics of electronic equipment usage distance for common users
      基于AutoCAD的門窗節(jié)點(diǎn)圖快速構(gòu)建
      淺析當(dāng)代中西方繪畫的相似性
      overlay SDN實(shí)現(xiàn)異構(gòu)兼容的關(guān)鍵技術(shù)
      低滲透黏土中氯離子彌散作用離心模擬相似性
      LTE異構(gòu)網(wǎng)技術(shù)與組網(wǎng)研究
      抓住人才培養(yǎng)的關(guān)鍵節(jié)點(diǎn)
      逊克县| 仪陇县| 高州市| 株洲县| 吉木萨尔县| 托克托县| 茂名市| 麻城市| 苗栗县| 甘孜| 射洪县| 修文县| 和林格尔县| 横山县| 龙门县| 东乌| 沙坪坝区| 淮阳县| 玉龙| 北海市| 英山县| 灌云县| 留坝县| 汤原县| 封开县| 内黄县| 广河县| 会同县| 夏河县| 普宁市| 武川县| 南漳县| 北川| 井研县| 宁德市| 文登市| 东源县| 朝阳县| 桓台县| 曲麻莱县| 靖安县|