• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于ORCID和加權(quán)跨層邊聚類(lèi)系數(shù)的研究者社區(qū)發(fā)現(xiàn)①

      2021-06-28 06:27:34王毅蒙孫善鵬周園春
      關(guān)鍵詞:異質(zhì)研究者關(guān)聯(lián)

      王毅蒙,田 野,孫善鵬,周園春,杜 一

      1(中國(guó)科學(xué)院 計(jì)算機(jī)網(wǎng)絡(luò)信息中心,北京 100190)

      2(中國(guó)科學(xué)院大學(xué),北京 100049)

      3(中國(guó)工業(yè)互聯(lián)網(wǎng)研究院,北京 100102)

      4(中國(guó)科學(xué)院 軟件研究所,北京 100190)

      科研組織是學(xué)術(shù)創(chuàng)新的主體,在學(xué)術(shù)創(chuàng)新中科研合作及學(xué)術(shù)交流發(fā)揮著越來(lái)越重要的作用,研究者將自身的科研知識(shí)、經(jīng)驗(yàn)和資源進(jìn)行共享,為其他研究者提供更多的靈感和思路,創(chuàng)造出更多更有價(jià)值的科研成果.因此,挖掘出研究者之間隱含的關(guān)聯(lián)關(guān)系,尋找相關(guān)學(xué)術(shù)社區(qū),是值得重點(diǎn)關(guān)注的問(wèn)題.

      傳統(tǒng)的學(xué)術(shù)社區(qū)多是著眼于研究者科技成果產(chǎn)生的關(guān)聯(lián)進(jìn)行社區(qū)發(fā)現(xiàn),忽略了研究者自身學(xué)術(shù)活動(dòng)產(chǎn)生的關(guān)聯(lián),如何獲取并利用相關(guān)學(xué)術(shù)信息進(jìn)行社區(qū)發(fā)現(xiàn)是本研究的重點(diǎn).隨著科技信息的爆炸式增長(zhǎng),不同于傳統(tǒng)的論文數(shù)據(jù),科技信息數(shù)據(jù)種類(lèi)更加豐富,包括科技成果數(shù)據(jù)、科技實(shí)體數(shù)據(jù)、科技活動(dòng)數(shù)據(jù)等.在此背景下,越來(lái)越多的學(xué)術(shù)資源網(wǎng)絡(luò)平臺(tái)應(yīng)運(yùn)而生,通過(guò)科研人員唯一身份標(biāo)識(shí)[1]將研究者及其學(xué)術(shù)活動(dòng)信息進(jìn)行關(guān)聯(lián),如Researcher ID[2],幫助研究者對(duì)其出版文獻(xiàn)進(jìn)行管理,注重對(duì)研究者著作的展示;ISNI (International Standard Name Identifier,國(guó)際標(biāo)準(zhǔn)名稱(chēng)標(biāo)識(shí)符)[3],將媒體內(nèi)容的貢獻(xiàn)者賦予唯一標(biāo)識(shí),標(biāo)識(shí)相同參與者在媒體價(jià)值鏈上的不同身份;ORCID (Open Research and Contributor ID,開(kāi)放研究者與貢獻(xiàn)者標(biāo)識(shí))[4],將研究者及其學(xué)術(shù)活動(dòng)精確關(guān)聯(lián),記錄研究者各項(xiàng)科研動(dòng)態(tài),并與相關(guān)科研管理系統(tǒng)、文獻(xiàn)數(shù)據(jù)平臺(tái)、機(jī)構(gòu)數(shù)據(jù)庫(kù)相連接.通過(guò)這些標(biāo)識(shí)體系形成了一種底層連通的信息樞紐機(jī)制,促進(jìn)相關(guān)信息在不同系統(tǒng)中的流動(dòng),可以更為便捷的得到研究者的各項(xiàng)學(xué)術(shù)活動(dòng)及學(xué)術(shù)資源的信息[5].

      因此,本文使用ORCID 獲取研究者相關(guān)學(xué)術(shù)信息,構(gòu)建學(xué)術(shù)信息網(wǎng)絡(luò),分析研究者通過(guò)不同學(xué)術(shù)活動(dòng)產(chǎn)生的關(guān)聯(lián),并針對(duì)網(wǎng)絡(luò)中存在的異質(zhì)性和網(wǎng)絡(luò)層次帶來(lái)的挑戰(zhàn),提出一種基于加權(quán)跨層邊聚類(lèi)系數(shù)的社區(qū)發(fā)現(xiàn)模型,挖掘出網(wǎng)絡(luò)背后隱藏的社區(qū)結(jié)構(gòu)[6],在提高劃分效果的同時(shí)對(duì)科技實(shí)體的推薦、評(píng)價(jià)、學(xué)科交叉和學(xué)科演化等相關(guān)研究均有重要意義[7].

      本文余下章節(jié)中,第1 節(jié)對(duì)涉及到的相關(guān)工作進(jìn)行概述,第2 節(jié)介紹基于ORCID 的社區(qū)發(fā)現(xiàn)模型,第3 節(jié)對(duì)所提方案進(jìn)行實(shí)現(xiàn)并對(duì)結(jié)果進(jìn)行分析,第4 節(jié)總結(jié)全文并對(duì)未來(lái)的發(fā)展與挑戰(zhàn)做出簡(jiǎn)要分析.

      1 相關(guān)工作

      如何構(gòu)建學(xué)術(shù)信息網(wǎng)絡(luò)以及如何利用學(xué)術(shù)信息進(jìn)行社區(qū)發(fā)現(xiàn)是我們需要關(guān)注的重點(diǎn).

      針對(duì)學(xué)術(shù)信息網(wǎng)絡(luò)的構(gòu)建,科研人員唯一標(biāo)識(shí)符發(fā)揮了重要的作用[8],科研人員唯一標(biāo)識(shí)符能夠?qū)崿F(xiàn)對(duì)科研人員的有效標(biāo)識(shí),提升科研成果檢索效果,便于管理科研成果和個(gè)人檔案,也可以通過(guò)對(duì)其他科研人員的信息的追蹤達(dá)到尋找合作伙伴的目的,還能將科研人員及其所屬機(jī)構(gòu)、參與的科研項(xiàng)目甚至是其他學(xué)術(shù)內(nèi)容生產(chǎn)價(jià)值鏈中的潛在關(guān)聯(lián)實(shí)體相鏈接,從而實(shí)現(xiàn)科研生態(tài)系統(tǒng)中不同要素之間的緊密相連[9],也可以接入相關(guān)科技領(lǐng)域大數(shù)據(jù)知識(shí)圖譜平臺(tái)[10]實(shí)現(xiàn)對(duì)科研數(shù)據(jù)的有效利用.ORCID,開(kāi)放研究者與貢獻(xiàn)者標(biāo)識(shí),以人為中心,為全球每位研究者分配一個(gè)終生有效的唯一身份標(biāo)識(shí),并以此為基礎(chǔ),把研究者所有相關(guān)的科研活動(dòng)與成果都精確地匹配并連接起來(lái),提高了科研人員檔案的準(zhǔn)確性.每一位研究者ORCID 記錄中可以關(guān)聯(lián)的信息包括教育經(jīng)歷、工作經(jīng)歷、發(fā)表論文、學(xué)協(xié)會(huì)會(huì)員、榮譽(yù)與獎(jiǎng)勵(lì)、大會(huì)報(bào)告、審稿貢獻(xiàn)、科研基金等,如圖1所示.

      圖1中該編碼采用16 個(gè)數(shù)字表示,每個(gè)編碼分為4 組顯示,如0000-1234-5678-0000.目前ORCID注冊(cè)量已經(jīng)超過(guò)5000 000 個(gè),有超過(guò)600 家學(xué)術(shù)圖書(shū)館、研究機(jī)構(gòu)、資助機(jī)構(gòu)和出版商會(huì)使用這些ID 來(lái)跟蹤數(shù)據(jù),也用于對(duì)研究者的研究成果進(jìn)行追蹤.因此,如何利用ORCID 獲取的數(shù)據(jù)進(jìn)行網(wǎng)絡(luò)的構(gòu)建是我們研究的第一個(gè)重點(diǎn).

      圖1 ORCID 數(shù)據(jù)內(nèi)容

      針對(duì)如何利用學(xué)術(shù)信息進(jìn)行社區(qū)發(fā)現(xiàn),在傳統(tǒng)學(xué)術(shù)社區(qū)發(fā)現(xiàn)中大多通過(guò)分析合著網(wǎng)絡(luò)或引文網(wǎng)絡(luò)尋找研究者之間的關(guān)聯(lián)關(guān)系,如圖2,網(wǎng)絡(luò)中包含作者、論文、會(huì)議等異質(zhì)節(jié)點(diǎn).

      圖2 合著網(wǎng)絡(luò)示例

      對(duì)于上述網(wǎng)絡(luò),NetClus 算法[11]針對(duì)以論文為中心的星型學(xué)術(shù)網(wǎng)絡(luò),利用排名提升聚類(lèi)結(jié)果,迭代調(diào)整每個(gè)對(duì)象的類(lèi)別,生成具有相同拓?fù)涞妮斎刖W(wǎng)絡(luò)的子網(wǎng)絡(luò)合集,每個(gè)聚類(lèi)結(jié)果有相同的主題.PathSelClus 算法[12]提出一種將元路徑與聚類(lèi)相結(jié)合的算法,通過(guò)預(yù)先為每個(gè)聚類(lèi)提供一部分種子節(jié)點(diǎn),系統(tǒng)學(xué)習(xí)到元路徑的權(quán)重,根據(jù)權(quán)重產(chǎn)社區(qū),疊加不同元路徑的聚類(lèi)結(jié)果生產(chǎn)最終社區(qū).Lu 等提出了Hete_MESE 多維社區(qū)檢測(cè)算法[13],首先將異構(gòu)信息網(wǎng)絡(luò)中的多個(gè)實(shí)體類(lèi)型之一指定為社區(qū)中心節(jié)點(diǎn)類(lèi)型,并相應(yīng)地提取復(fù)用網(wǎng)絡(luò),然后,基于復(fù)用網(wǎng)絡(luò)檢測(cè)重疊的節(jié)點(diǎn)中心社區(qū),將其視為種子社區(qū),吸收其他實(shí)體類(lèi)型以利用種子擴(kuò)展產(chǎn)生異質(zhì)社區(qū).文獻(xiàn)[14]基于Salton 方法計(jì)算作者間相似度以評(píng)估合著關(guān)系強(qiáng)弱,將節(jié)點(diǎn)間的邊作為聚類(lèi)對(duì)象,采用凝聚式層次聚類(lèi)進(jìn)行學(xué)術(shù)社區(qū)發(fā)現(xiàn).文獻(xiàn)[15]以直接引用關(guān)系構(gòu)建顯性關(guān)聯(lián),以引文抽取出的興趣標(biāo)簽構(gòu)建隱性關(guān)聯(lián),用以衡量研究者之間關(guān)系的強(qiáng)弱從而進(jìn)行社區(qū)發(fā)現(xiàn).而面對(duì)大規(guī)模的學(xué)術(shù)信息網(wǎng)絡(luò),如圖3,網(wǎng)絡(luò)中節(jié)點(diǎn)種類(lèi)更多,關(guān)聯(lián)關(guān)系更復(fù)雜,復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu)對(duì)社區(qū)發(fā)現(xiàn)帶來(lái)了新的挑戰(zhàn).

      圖3 復(fù)雜學(xué)術(shù)信息網(wǎng)絡(luò)

      針對(duì)異質(zhì)網(wǎng)絡(luò)的社區(qū)發(fā)現(xiàn)研究已得到了學(xué)者的廣泛關(guān)注,本文重點(diǎn)闡述多層網(wǎng)絡(luò)社區(qū)發(fā)現(xiàn)的相關(guān)研究成果.文獻(xiàn)[16]采用多目標(biāo)方法,在第一層應(yīng)用經(jīng)典社區(qū)發(fā)現(xiàn)算法,對(duì)其余的連續(xù)層,采用最大化當(dāng)前層模塊度和前一層劃分的社區(qū)結(jié)構(gòu)的相似性雙目標(biāo)優(yōu)化方法來(lái)發(fā)現(xiàn)社區(qū).文獻(xiàn)[17]對(duì)每一層網(wǎng)絡(luò)應(yīng)用經(jīng)典社區(qū)發(fā)現(xiàn)算法并用集成聚類(lèi)方法合并劃分的社區(qū)來(lái)發(fā)現(xiàn)社區(qū).文獻(xiàn)[18]提出了一種基于元路徑嵌入的聚類(lèi)方法MPEClus,將原始網(wǎng)絡(luò)轉(zhuǎn)換為具有由元路徑指定的擁有獨(dú)立語(yǔ)義的多個(gè)子網(wǎng),使用近似通勤嵌入學(xué)習(xí)節(jié)點(diǎn)的向量表示,并針對(duì)不同度量空間中學(xué)習(xí)的節(jié)點(diǎn)向量進(jìn)行社區(qū)發(fā)現(xiàn).文獻(xiàn)[19]使用基于頻譜聚類(lèi)和低秩矩陣分解的方法組合多層網(wǎng)絡(luò)的多層信息來(lái)進(jìn)行社區(qū)發(fā)現(xiàn).文獻(xiàn)[20]通過(guò)使用跨層邊聚系數(shù)計(jì)算節(jié)點(diǎn)間相似度并通過(guò)不斷更新?lián)p失函數(shù)實(shí)現(xiàn)多層網(wǎng)絡(luò)社區(qū)劃分.因此,如何解決學(xué)術(shù)信息網(wǎng)絡(luò)中異質(zhì)性和網(wǎng)絡(luò)層次帶來(lái)的挑戰(zhàn),從而進(jìn)行社區(qū)發(fā)現(xiàn),也是我們需要研究的重點(diǎn).

      2 基于ORCID和加權(quán)跨層邊聚類(lèi)系數(shù)的社區(qū)發(fā)現(xiàn)模型

      本文基于ORCID 獲取的數(shù)據(jù)集,分析研究者及其學(xué)術(shù)活動(dòng)信息構(gòu)建學(xué)術(shù)信息網(wǎng)絡(luò),尋找研究者之間多屬性的關(guān)聯(lián)關(guān)系并計(jì)算研究者之間的相似度,從而進(jìn)行學(xué)術(shù)社區(qū)的發(fā)現(xiàn),本文算法流程圖如圖4所示.

      圖4 基于ORCID 的學(xué)術(shù)社區(qū)發(fā)現(xiàn)算法流程

      2.1 構(gòu)建ORCID 異質(zhì)網(wǎng)絡(luò)

      通過(guò)分析ORCID 數(shù)據(jù)中包含的學(xué)術(shù)活動(dòng)信息,可以發(fā)現(xiàn)研究者之間通過(guò)不同學(xué)術(shù)信息可以產(chǎn)生多種關(guān)聯(lián),將不同學(xué)術(shù)信息作為不同類(lèi)型節(jié)點(diǎn)從而構(gòu)建異質(zhì)網(wǎng)絡(luò),網(wǎng)絡(luò)中包含研究者節(jié)點(diǎn)P,教育經(jīng)歷節(jié)點(diǎn)E、工作經(jīng)歷節(jié)點(diǎn)W、受邀職位節(jié)點(diǎn)I、服務(wù)單位節(jié)點(diǎn)S、學(xué)術(shù)領(lǐng)域節(jié)點(diǎn)D,如圖5所示,同時(shí),不同節(jié)點(diǎn)之間也存在不同類(lèi)型的關(guān)聯(lián)關(guān)系.通過(guò)ORCID 異質(zhì)網(wǎng)絡(luò),不僅可以快速獲取研究者相關(guān)的學(xué)術(shù)活動(dòng)信息,也可以通過(guò)某些學(xué)術(shù)活動(dòng)查詢(xún)到相關(guān)聯(lián)的研究者,不同研究者通過(guò)中間學(xué)術(shù)活動(dòng)節(jié)點(diǎn)也可以取得不同屬性的關(guān)聯(lián).

      圖5 ORCID 異質(zhì)網(wǎng)絡(luò)

      2.2 根據(jù)元路徑抽取研究者多維異質(zhì)網(wǎng)絡(luò)

      由于構(gòu)建的ORCID 異質(zhì)網(wǎng)絡(luò)中存在大量的學(xué)術(shù)活動(dòng)節(jié)點(diǎn),研究者之間并非直接相連,而是存在不同的路徑.不同路徑連接的研究者之間存在不同語(yǔ)義的關(guān)聯(lián)關(guān)系,構(gòu)成了多種元路徑,圖6展示了ORCID 異質(zhì)網(wǎng)絡(luò)中存在的部分元路徑,P為研究者節(jié)點(diǎn)、D為研究領(lǐng)域節(jié)點(diǎn)、W為工作單位節(jié)點(diǎn),P3D2P4 表示P3和P4 有相同的研究領(lǐng)域,P1W1P2 表示P1和P2 在相同的單位工作過(guò),P1W1D1W2P3 表示P1和P3 有相同領(lǐng)域內(nèi)的工作經(jīng)歷.

      圖6 ORCID 異質(zhì)網(wǎng)絡(luò)中的元路徑

      多種元路徑的存在既無(wú)法直觀(guān)發(fā)現(xiàn)研究者節(jié)點(diǎn)之間的關(guān)聯(lián)關(guān)系,也增加了計(jì)算研究者相似度的難度.因此,本文通過(guò)不同元路徑提取出研究者節(jié)點(diǎn)之間的多種直接關(guān)聯(lián)關(guān)系,從而構(gòu)成研究者多維異質(zhì)網(wǎng)絡(luò),網(wǎng)絡(luò)中僅包含研究者節(jié)點(diǎn)一種節(jié)點(diǎn)和多種不同屬性的邊.元路徑選擇如表1所示,從而根據(jù)新的關(guān)聯(lián)關(guān)系重構(gòu)研究者多維異質(zhì)網(wǎng)絡(luò),解決了ORCID 異質(zhì)網(wǎng)絡(luò)中節(jié)點(diǎn)多樣性而產(chǎn)生的社區(qū)劃分問(wèn)題.

      表1 ORCID 網(wǎng)絡(luò)元路徑語(yǔ)義表

      2.3 節(jié)點(diǎn)相似度計(jì)算

      基于研究者多維異質(zhì)網(wǎng)絡(luò),本文綜合考慮研究者節(jié)點(diǎn)間的多種屬性關(guān)聯(lián)關(guān)系來(lái)計(jì)算多維網(wǎng)絡(luò)中節(jié)點(diǎn)間的相似度.本文考慮使用Brodka 等提出的跨層邊聚類(lèi)系數(shù)CLECC[20]可以用來(lái)計(jì)算多維網(wǎng)絡(luò)中節(jié)點(diǎn)間的相似度,但是在計(jì)算過(guò)程中,只能針對(duì)某一層次計(jì)算節(jié)點(diǎn)間相似度,通過(guò)多次嘗試選出最優(yōu)結(jié)果,可控性不足,尤其是在網(wǎng)絡(luò)層數(shù)較大的情況下,計(jì)算開(kāi)銷(xiāo)和存儲(chǔ)開(kāi)銷(xiāo)很大.因此,本文提出加權(quán)跨層邊聚類(lèi)系數(shù)WCLECC,解決層次數(shù)不可控的問(wèn)題,綜合考慮層次數(shù)的所有可能值,對(duì)于在所有層次數(shù)下取得的相似度值進(jìn)行權(quán)重處理,層次數(shù)越高權(quán)重越大,對(duì)計(jì)算相似度的影響越大.加權(quán)跨層邊聚類(lèi)系數(shù)WCLECC計(jì)算公式如下:

      其中,|L|為最大網(wǎng)絡(luò)層數(shù).MN(x,a)為x節(jié)點(diǎn)的多層鄰居集合,是指與節(jié)點(diǎn)x有a層或a層以上關(guān)聯(lián)的鄰居節(jié)點(diǎn)的集合,z為歸一化因子.以此做為衡量節(jié)點(diǎn)間緊密度的指標(biāo),充分考慮了網(wǎng)絡(luò)中不同層的稀疏程度,且不需要進(jìn)行參數(shù)的調(diào)整,可以更準(zhǔn)確的衡量節(jié)點(diǎn)間的關(guān)系強(qiáng)度.

      2.4 社區(qū)發(fā)現(xiàn)

      通過(guò)使用WCLECC作為衡量節(jié)點(diǎn)間的相似度指標(biāo),將多維網(wǎng)絡(luò)轉(zhuǎn)化為同質(zhì)網(wǎng)絡(luò),然后運(yùn)用社區(qū)發(fā)現(xiàn)算法進(jìn)行社區(qū)劃分.將節(jié)點(diǎn)i加入到節(jié)點(diǎn)j所在社區(qū)產(chǎn)生的模塊度增量如式(2):

      ∑in表示社區(qū)內(nèi)邊的權(quán)重之和,∑tot表示與社區(qū)內(nèi)節(jié)點(diǎn)相連的邊的權(quán)重之和,ki,in表示社區(qū)內(nèi)節(jié)點(diǎn)與節(jié)點(diǎn)i的邊權(quán)重之和.算法流程如下所示:

      1)構(gòu)建網(wǎng)絡(luò)節(jié)點(diǎn)鄰接矩陣A,且將值均置為null;

      2)遍歷網(wǎng)絡(luò)中的每一個(gè)節(jié)點(diǎn)x,并記錄該節(jié)點(diǎn)的所有鄰居節(jié)點(diǎn)Y{y:y∈MN(x)};

      3)計(jì)算每一對(duì)節(jié)點(diǎn)(x,y)的相似度WCLECC(x,y),并更新鄰接矩陣A(x,y)的值;

      4)在鄰接矩陣A中,當(dāng)A(x,y)!=null,在新的網(wǎng)絡(luò)中連接x節(jié)點(diǎn)與y節(jié)點(diǎn)并將WCLECC(x,y)作為邊的權(quán)重,重構(gòu)研究者同質(zhì)網(wǎng)絡(luò)G';

      5)將G'中每個(gè)節(jié)點(diǎn)作為一個(gè)單獨(dú)的社區(qū),社區(qū)數(shù)與節(jié)點(diǎn)數(shù)相同;

      6)對(duì)G'每一個(gè)節(jié)點(diǎn)x,依次將x加入其鄰居所在社區(qū)之中,計(jì)算加入前后的模塊度變化情況ΔQ,記錄ΔQ最大的鄰居節(jié)點(diǎn)n,如果maxΔQ>0,則把節(jié)點(diǎn)x加入到n所在社區(qū),否則不改變x所在社區(qū);

      7)重復(fù)步驟6),直到所有節(jié)點(diǎn)所屬社區(qū)不再變化;

      8)對(duì)產(chǎn)生的社區(qū)進(jìn)行壓縮,將每一個(gè)社區(qū)看作一個(gè)新的節(jié)點(diǎn),社區(qū)內(nèi)邊的權(quán)重之和當(dāng)作社區(qū)自身環(huán)的權(quán)重,社區(qū)間邊的權(quán)重之和當(dāng)作新節(jié)點(diǎn)之間邊的權(quán)重;

      9)重復(fù)步驟5),直到全圖模塊度不再發(fā)生變化;

      10)選出模塊度最大時(shí)網(wǎng)絡(luò)的社區(qū)劃分結(jié)果,即為最終社區(qū)劃分情況.

      3 實(shí)驗(yàn)與分析

      3.1 社區(qū)評(píng)價(jià)標(biāo)準(zhǔn)

      常用的評(píng)價(jià)無(wú)監(jiān)督社區(qū)劃分結(jié)果優(yōu)劣的指標(biāo)為模塊度(modularity)[21].其物理意義是社區(qū)內(nèi)節(jié)點(diǎn)的連邊數(shù)所占的比例與隨機(jī)放置情況下社區(qū)內(nèi)節(jié)點(diǎn)期望連邊數(shù)的比例的差值,定義如下:

      其中,Aij是節(jié)點(diǎn)i和節(jié)點(diǎn)j之間邊的權(quán)重,ki為所有與節(jié)點(diǎn)i相連的邊的權(quán)重之和,Ci為節(jié)點(diǎn)i所屬的社區(qū),m為圖中所有邊的權(quán)重之和.通常取值范圍在[?1/2,1]之間,其值越靠近1,表明網(wǎng)絡(luò)劃分結(jié)果越好.

      3.2 實(shí)驗(yàn)結(jié)果及分析

      3.2.1 ORCID 學(xué)術(shù)信息網(wǎng)絡(luò)和研究者多維異質(zhì)網(wǎng)絡(luò)構(gòu)建結(jié)果

      本文通過(guò)對(duì)ORCID 數(shù)據(jù)集中研究者、教育經(jīng)歷、工作經(jīng)歷、受邀職位、服務(wù)單位的數(shù)據(jù)量進(jìn)行統(tǒng)計(jì),如圖7所示.

      圖7 ORCID 不同屬性數(shù)據(jù)量統(tǒng)計(jì)

      本文樣本的選擇根據(jù)ORCID 標(biāo)識(shí)符的11 種尾號(hào)(0~9、X)分層選取,每種尾號(hào)的數(shù)據(jù)選取1 萬(wàn)條,并去除掉未包含任何屬性信息的數(shù)據(jù),共選取3 組樣本,每組10 萬(wàn)余名研究者的信息進(jìn)行實(shí)驗(yàn),構(gòu)建ORCID學(xué)術(shù)信息網(wǎng)絡(luò),網(wǎng)絡(luò)具體數(shù)據(jù)如表2和表3所示.

      表2 ORCID 學(xué)術(shù)信息網(wǎng)絡(luò)各節(jié)點(diǎn)數(shù)量統(tǒng)計(jì)

      表3 ORCID 學(xué)術(shù)信息網(wǎng)絡(luò)各屬性邊數(shù)量統(tǒng)計(jì)

      在構(gòu)建好的ORCID 異質(zhì)網(wǎng)絡(luò)中,通過(guò)表1中的元路徑抽取研究者節(jié)點(diǎn)間不同屬性的直接關(guān)聯(lián)關(guān)系,構(gòu)建研究者多維異質(zhì)網(wǎng)絡(luò),網(wǎng)絡(luò)中只含有研究者節(jié)點(diǎn)及不同屬性連邊,網(wǎng)絡(luò)具體數(shù)據(jù)如表4所示.

      表4 研究者多維異質(zhì)網(wǎng)絡(luò)連邊數(shù)量統(tǒng)計(jì)

      通過(guò)元路徑的抽取,可以將ORCID 異質(zhì)網(wǎng)絡(luò)中多種類(lèi)多屬性的節(jié)點(diǎn)和邊簡(jiǎn)化為只存在研究者節(jié)點(diǎn)及其之間多屬性邊的多維網(wǎng)絡(luò),減少了網(wǎng)絡(luò)節(jié)點(diǎn)類(lèi)型,避免了其余組織機(jī)構(gòu)節(jié)點(diǎn)對(duì)社區(qū)劃分產(chǎn)生的影響,降低了網(wǎng)絡(luò)的復(fù)雜性和計(jì)算的復(fù)雜性.

      3.2.2 社區(qū)劃分結(jié)果

      (1) 通過(guò)構(gòu)建人造稀疏網(wǎng)絡(luò)和稠密網(wǎng)絡(luò)對(duì)本文算法進(jìn)行實(shí)驗(yàn),測(cè)試WCLECC與CLECC 在取不同a值的情況下對(duì)網(wǎng)絡(luò)的劃分取得的效果,以此檢測(cè)是否通過(guò)WCLECC避免了CLECC參數(shù)的不確定性對(duì)實(shí)驗(yàn)產(chǎn)生的影響且能取得優(yōu)于CLECC的實(shí)驗(yàn)結(jié)果.

      ① 圖8為4 層稀疏網(wǎng)絡(luò)中每層的初始連邊情況.

      圖8 稀疏網(wǎng)絡(luò)各層初始情況

      實(shí)驗(yàn)結(jié)果如表5所示,可以看出使用CLECC在a=2 時(shí),網(wǎng)絡(luò)劃分可以取得最大模塊度Q,而使用WCLECC劃分的社區(qū)數(shù)量和成員與其相同且模塊度提高了1.85%,實(shí)驗(yàn)效果更好.

      表5 稀疏網(wǎng)絡(luò)社區(qū)劃分結(jié)果表

      ② 圖9為4 層稠密網(wǎng)絡(luò)中每層的初始連邊情況.

      圖9 稠密網(wǎng)絡(luò)各層初始情況

      實(shí)驗(yàn)結(jié)果如表6所示,可以看出使用CLECC在a=3 時(shí),網(wǎng)絡(luò)劃分可以取得最大模塊度Q,而使用WCLECC劃分的社區(qū)數(shù)量和成員與其相同且模塊度提高了1.65%,實(shí)驗(yàn)效果更好.

      表6 稠密網(wǎng)絡(luò)社區(qū)劃分結(jié)果表

      通過(guò)上述實(shí)驗(yàn)可知,使用CLECC進(jìn)行社區(qū)劃分時(shí),在稀疏網(wǎng)絡(luò)中a取較小值可以得到更優(yōu)的實(shí)驗(yàn)結(jié)果,在稠密網(wǎng)絡(luò)中a取較大值可以得到更優(yōu)的實(shí)驗(yàn)結(jié)果.究其原因,當(dāng)網(wǎng)絡(luò)稀疏時(shí),高層次鄰居節(jié)點(diǎn)遠(yuǎn)少于低層次鄰居節(jié)點(diǎn),當(dāng)a取較大值時(shí)會(huì)造成部分節(jié)點(diǎn)間相似度丟失,影響社區(qū)劃分的準(zhǔn)確性,a取較小值時(shí)會(huì)有更多的鄰居節(jié)點(diǎn)參與相似度的計(jì)算,提高計(jì)算準(zhǔn)確性.而當(dāng)網(wǎng)絡(luò)稠密時(shí),高層次鄰居節(jié)點(diǎn)與低層次鄰居節(jié)點(diǎn)數(shù)量相近,a取較大值能更準(zhǔn)確計(jì)算出節(jié)點(diǎn)間的相似度,使網(wǎng)絡(luò)劃分更準(zhǔn)確.針對(duì)稀疏程度不確定的網(wǎng)絡(luò),使用CLECC進(jìn)行社區(qū)劃分必須要依次嘗試a取值的所有可能值才能找到最優(yōu)的實(shí)驗(yàn)結(jié)果,而WCLECC針對(duì)CLECC參數(shù)不確定的問(wèn)題,綜合考慮了a 參數(shù)的所有可能取值,簡(jiǎn)化了參數(shù)選擇的過(guò)程,并且在取得相同劃分結(jié)果的同時(shí)能取得更優(yōu)的實(shí)驗(yàn)結(jié)果.因此,當(dāng)網(wǎng)絡(luò)稀疏程度明確時(shí),可以考慮使用CLECC進(jìn)行計(jì)算,也可以使用WCLECC進(jìn)行計(jì)算,當(dāng)網(wǎng)絡(luò)稀疏程度不明確時(shí),為避免多次嘗試不同參數(shù)可以使用WCLECC進(jìn)行計(jì)算從而進(jìn)行社區(qū)劃分.

      同時(shí),WCLECC對(duì)于CLECC的改進(jìn)主要在于參數(shù)選擇的優(yōu)化,針對(duì)稀疏程度不明的網(wǎng)絡(luò)可以減少對(duì)不同參數(shù)的嘗試并能得到更優(yōu)的結(jié)果,但WCLECC需要同時(shí)考慮各個(gè)層次的鄰居,增加了部分計(jì)算時(shí)間,但整體時(shí)間仍保持在同樣的量級(jí),對(duì)時(shí)間開(kāi)銷(xiāo)方面并未造成過(guò)大的影響.

      (2) 在構(gòu)建好的研究者多維異質(zhì)網(wǎng)絡(luò)中運(yùn)行本文算法進(jìn)行社區(qū)發(fā)現(xiàn).圖10為3 次實(shí)驗(yàn)過(guò)程中社區(qū)劃分中模塊度隨迭代次數(shù)的變化,選取模塊度最高時(shí)的劃分結(jié)果作為最終的實(shí)驗(yàn)結(jié)果.表7為3 次實(shí)驗(yàn)中劃分的社團(tuán)數(shù)和模塊度結(jié)果的對(duì)比.

      表7 社區(qū)劃分結(jié)果

      圖10 社區(qū)劃分中模塊度隨迭代次數(shù)的變化

      由上述結(jié)果可以看到,a≥3時(shí)結(jié)果產(chǎn)生了突變,模塊度的值大幅提高同時(shí)劃分的社區(qū)數(shù)量過(guò)多,可能產(chǎn)生了大量孤立節(jié)點(diǎn)和小成員數(shù)的社區(qū),無(wú)法滿(mǎn)足社區(qū)發(fā)現(xiàn)的目的.針對(duì)上述情況,本文對(duì)所劃分的社區(qū)進(jìn)行了分析,統(tǒng)計(jì)所劃分社區(qū)中孤立節(jié)點(diǎn)社區(qū)的占比情況和擁有不同成員數(shù)的社區(qū)占比情況.圖11為3 次實(shí)驗(yàn)中未被劃分進(jìn)社區(qū)的孤立節(jié)點(diǎn)數(shù)占總節(jié)點(diǎn)數(shù)的比例情況.

      圖11 孤立節(jié)點(diǎn)占比情況

      圖12展示了3 次實(shí)驗(yàn)中社區(qū)成員數(shù)超過(guò)不同閾值的社區(qū)占比情況.

      圖12 成員數(shù)符合閾值的社區(qū)占比情況

      通過(guò)觀(guān)察上述結(jié)果,當(dāng)a=1 時(shí),實(shí)驗(yàn)結(jié)果中模塊度的值最低,劃分社區(qū)數(shù)最少,雖然所劃分的社區(qū)能覆蓋最多的節(jié)點(diǎn),但整體來(lái)看劃分效果不佳;當(dāng)a=2 時(shí),能取得較好的模塊度結(jié)果及適中的社區(qū)數(shù),孤立節(jié)點(diǎn)占比較低,雖然成員數(shù)超過(guò)不同閾值的社區(qū)數(shù)量較少,產(chǎn)生了大量的小社區(qū)團(tuán)體,但整體來(lái)看取得了較好的實(shí)驗(yàn)結(jié)果;當(dāng)a>2 時(shí),雖然模塊度的值均能接近理論最優(yōu)值,但劃分的社區(qū)數(shù)量過(guò)多,a=3 時(shí),孤立節(jié)點(diǎn)占比超過(guò)50%,且社區(qū)成員超過(guò)10 人的社區(qū)比例僅在樣本1 中達(dá)到20%以上,其余均低于10%,當(dāng)a>3 時(shí),所劃分社區(qū)幾乎全是孤立節(jié)點(diǎn)社區(qū),未起到社區(qū)劃分的真正意義,實(shí)驗(yàn)結(jié)果不佳.究其原因,由于不同層次的網(wǎng)絡(luò)稀疏程度不同,當(dāng)層數(shù)越深,節(jié)點(diǎn)間有多層關(guān)聯(lián)的鄰居越少,僅有少量節(jié)點(diǎn)間擁有多層次的關(guān)聯(lián)關(guān)系,忽略了低層次關(guān)聯(lián)產(chǎn)生的影響.WCLECC很好的解決了這一問(wèn)題,充分考慮了所有層的關(guān)聯(lián)關(guān)系,模塊度的值和孤立節(jié)點(diǎn)的占比情況均優(yōu)于a=2 的結(jié)果,在成員數(shù)符合閾值的社區(qū)比例中也能取得最優(yōu)的結(jié)果,可見(jiàn)使用WCLECC減少了孤立節(jié)點(diǎn)和小成員數(shù)社區(qū)的產(chǎn)生,整體來(lái)看取得的效果最佳.

      綜上所述,通過(guò)使用研究者學(xué)術(shù)活動(dòng)信息構(gòu)建ORCID 異質(zhì)網(wǎng)絡(luò),并使用WCLECC能取得最優(yōu)的社區(qū)劃分結(jié)果,既充分考慮了研究者節(jié)點(diǎn)間的多層關(guān)聯(lián)關(guān)系,又避免了參數(shù)的不可控,同時(shí)產(chǎn)生的社區(qū)覆蓋了較多的研究者節(jié)點(diǎn),減少了孤立節(jié)點(diǎn)的出現(xiàn),也減少了小成員數(shù)社區(qū)的出現(xiàn),劃分出了高質(zhì)量的社區(qū),得到了較好的實(shí)驗(yàn)結(jié)果.

      4 結(jié)語(yǔ)

      本文通過(guò)對(duì)ORCID 數(shù)據(jù)進(jìn)行分析,使用研究者學(xué)術(shù)活動(dòng)構(gòu)建科研信息網(wǎng)絡(luò)進(jìn)行學(xué)術(shù)社區(qū)的發(fā)現(xiàn),通過(guò)元路徑抽取出研究者節(jié)點(diǎn)間的直接關(guān)聯(lián)關(guān)系,降低了異質(zhì)網(wǎng)絡(luò)的復(fù)雜度,避免了中間節(jié)點(diǎn)對(duì)社區(qū)劃分產(chǎn)生的影響,提出加權(quán)跨層邊聚類(lèi)系數(shù)解決了多層網(wǎng)絡(luò)中節(jié)點(diǎn)相似度的度量問(wèn)題,改善了跨層邊聚類(lèi)系數(shù)的參數(shù)不可控性,充分利用研究者的學(xué)術(shù)信息去尋找其學(xué)術(shù)團(tuán)體,對(duì)學(xué)術(shù)社區(qū)發(fā)現(xiàn)提出了一種新的思路.在人造網(wǎng)絡(luò)和真實(shí)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),均取得了較好的實(shí)驗(yàn)結(jié)果.同時(shí),本文還存在一定的問(wèn)題,如尚未對(duì)全部數(shù)據(jù)進(jìn)行實(shí)驗(yàn),不同屬性信息對(duì)劃分結(jié)果的影響等也值得更進(jìn)一步的考慮,后續(xù)的工作將針對(duì)這些問(wèn)題進(jìn)行進(jìn)一步的研究.

      猜你喜歡
      異質(zhì)研究者關(guān)聯(lián)
      高等教育中的學(xué)生成為研究者及其啟示
      “一帶一路”遞進(jìn),關(guān)聯(lián)民生更緊
      研究者稱(chēng),經(jīng)CRISPR技術(shù)編輯過(guò)的雙胞胎已出生。科學(xué)將如何回應(yīng)?
      研究者調(diào)查數(shù)據(jù)統(tǒng)計(jì)
      中華手工(2018年6期)2018-07-17 10:37:42
      奇趣搭配
      智趣
      讀者(2017年5期)2017-02-15 18:04:18
      隨機(jī)與異質(zhì)網(wǎng)絡(luò)共存的SIS傳染病模型的定性分析
      醫(yī)生注定是研究者
      Ag2CO3/Ag2O異質(zhì)p-n結(jié)光催化劑的制備及其可見(jiàn)光光催化性能
      MoS2/ZnO異質(zhì)結(jié)的光電特性
      胶南市| 临江市| 高邑县| 涞水县| 吉木萨尔县| 安仁县| 柘城县| 贡嘎县| 凉山| 锦屏县| 阳朔县| 错那县| 格尔木市| 宝清县| 灵丘县| 衡水市| 南部县| 河间市| 斗六市| 团风县| 抚松县| 泰安市| 鸡泽县| 正镶白旗| 瑞丽市| 靖江市| 东乡族自治县| 双流县| 嘉黎县| 隆安县| 潼关县| 黔东| 英吉沙县| 金寨县| 汝南县| 娄底市| 拉萨市| 云浮市| 岳阳市| 桃源县| 安西县|