彭程程 吳斌
(北京郵電大學(xué)智能通信軟件與多媒體北京市重點(diǎn)實(shí)驗(yàn)室,北京 100876)
隨著科學(xué)技術(shù)的迅速發(fā)展,學(xué)術(shù)相關(guān)數(shù)據(jù)呈現(xiàn)了指數(shù)增長趨勢,現(xiàn)代社會對科研人才的需求也越來越明顯。雖然用戶可以在網(wǎng)絡(luò)上獲取到科研人員相關(guān)信息,但是海量的網(wǎng)絡(luò)學(xué)術(shù)信息使得科研人才信息分布零散,用戶不能直觀地獲取學(xué)者的相關(guān)信息。因此,快速、精確、全面地獲得學(xué)者信息成了亟待解決的問題。
用戶畫像是對真實(shí)用戶的抽象描述方式,通過構(gòu)建多維度標(biāo)簽屬性來描述用戶或用戶群的興趣、特征、行為及偏好,從而為產(chǎn)品優(yōu)化、精準(zhǔn)營銷、個(gè)性化服務(wù)等提供數(shù)據(jù)支撐。近年來,國內(nèi)外學(xué)者在用戶畫像領(lǐng)域做了大量的調(diào)研工作,并取得了一定的研究成果,這在學(xué)術(shù)界與產(chǎn)業(yè)界都具有重大意義。但是很少有研究人員能針對學(xué)者的個(gè)人特征及學(xué)術(shù)行為特征進(jìn)行深入、精細(xì)的描述和刻畫。
學(xué)者畫像系統(tǒng)可以相對明確地展示學(xué)者的基本信息、研究方向、社交關(guān)系,甚至整個(gè)行業(yè)的研究趨勢,這對于互聯(lián)網(wǎng)時(shí)代的科研發(fā)展和專家遴選非常重要。以研究學(xué)者為中心的學(xué)術(shù)智庫已在國家自然科學(xué)基金委員會、科技部、中國工程院等權(quán)威機(jī)構(gòu)展開了應(yīng)用[1]。
傳統(tǒng)的學(xué)者畫像從學(xué)者論文發(fā)表情況的角度出發(fā),只粗糙地對學(xué)者進(jìn)行表層刻畫,如過于簡略的個(gè)人信息、粗淺的學(xué)者合著網(wǎng)絡(luò)、不夠豐富直觀的學(xué)術(shù)關(guān)鍵詞、無法描述學(xué)者的學(xué)術(shù)譜系等。因此,本系統(tǒng)對多源數(shù)據(jù)進(jìn)行分析,使用實(shí)體消歧、數(shù)據(jù)融合等文本分析方法和社團(tuán)發(fā)現(xiàn)等數(shù)據(jù)挖掘方法,對學(xué)者和機(jī)構(gòu)進(jìn)行建模,多維度挖掘?qū)W者的深層學(xué)術(shù)信息。系統(tǒng)通過展示學(xué)者詳細(xì)的個(gè)人信息、豐富的合作關(guān)系、傳承的學(xué)術(shù)譜系、六度搜索路徑、關(guān)鍵人物的發(fā)現(xiàn)與替代等功能,刻畫更真實(shí)、更準(zhǔn)確、更立體的科研學(xué)者,為專家遴選、學(xué)術(shù)熱點(diǎn)分析等提供數(shù)據(jù)支持。
目前,傳統(tǒng)學(xué)者畫像主要以各機(jī)構(gòu)產(chǎn)出系統(tǒng)的形式進(jìn)行呈現(xiàn)。谷歌學(xué)術(shù)、百度學(xué)術(shù)、萬方數(shù)據(jù)知識服務(wù)平臺、中國知網(wǎng)、dblp、Aminer、c-dblp、科搜、Web of Science、Engineering Village、ACM Digital Library等平臺均對學(xué)者進(jìn)行了畫像構(gòu)建。
谷歌學(xué)術(shù)是影響力最大的學(xué)術(shù)搜索網(wǎng)站[2]。Web of Science擁有全球最大、覆蓋學(xué)科最廣的學(xué)術(shù)資源。Engineering Village是全球最權(quán)威的工程與應(yīng)用科學(xué)領(lǐng)域的文獻(xiàn)檢索平臺。這3個(gè)平臺側(cè)重于論文檢索,學(xué)者畫像功能比較單一,主要功能點(diǎn)包括簡略的個(gè)人信息與論文發(fā)表情況,缺乏對學(xué)者更豐富的刻畫。ACM Digital Library集合了ACM和5 000多家出版社的出版物,旨在為專業(yè)和非專業(yè)人士提供了解計(jì)算機(jī)和信息技術(shù)領(lǐng)域資源的窗口,其學(xué)者畫像功能包括學(xué)者的簡略個(gè)人信息、發(fā)表論文、研究關(guān)鍵詞、相關(guān)學(xué)者等,其學(xué)術(shù)評價(jià)指標(biāo)維度較為豐富新穎。百度學(xué)術(shù)是一個(gè)提供中英文文獻(xiàn)檢索的學(xué)術(shù)資源搜索平臺,涵蓋各類學(xué)術(shù)期刊、會議論文[3]。萬方數(shù)據(jù)知識服務(wù)平臺整合國內(nèi)外學(xué)術(shù)資源,集成期刊、學(xué)位論文、會議論文、科技報(bào)告、專利、視頻等十余種資源類型。中國知網(wǎng)提供中國學(xué)術(shù)文獻(xiàn)、外文文獻(xiàn)、學(xué)位論文、報(bào)紙、會議論文、年鑒、工具書等各類資源統(tǒng)一檢索、統(tǒng)一導(dǎo)航、在線閱讀和下載服務(wù)。這3個(gè)平臺同樣側(cè)重于論文檢索,學(xué)者畫像功能較為單一,功能主要包括學(xué)者的學(xué)術(shù)評價(jià)指標(biāo)、發(fā)表論文、合作學(xué)者、合作機(jī)構(gòu)。dblp與AMiner平臺針對計(jì)算機(jī)科學(xué)領(lǐng)域,為用戶提供該領(lǐng)域?qū)W者的相關(guān)信息。dblp是德國特里爾大學(xué)搭建的計(jì)算機(jī)科學(xué)文獻(xiàn)檢索網(wǎng)站,其中涵蓋計(jì)算機(jī)學(xué)術(shù)會議、期刊、報(bào)告、書籍在內(nèi)的海量文獻(xiàn)記錄,便于科研人員查詢計(jì)算機(jī)領(lǐng)域相關(guān)文獻(xiàn)信息,其權(quán)威性得到了研究界的高度認(rèn)可。但是,dblp沒有提供對中文文獻(xiàn)的收錄和檢索功能,其學(xué)者畫像功能包括學(xué)者發(fā)表論文、合作學(xué)者。AMiner是研究者學(xué)術(shù)搜索類網(wǎng)站,為計(jì)算機(jī)科學(xué)相關(guān)領(lǐng)域的研究者提供領(lǐng)域知識[4],主要功能模塊有個(gè)人信息、研究興趣、合作學(xué)者、發(fā)表論文、學(xué)術(shù)評價(jià)指標(biāo)、學(xué)者遷徙路線。該系統(tǒng)功能更為豐富,但同樣也存在學(xué)者個(gè)人信息過于簡略、不能描述學(xué)者的學(xué)術(shù)譜系等不足。c-dblp是由中國人民大學(xué)開發(fā)的基于中文論文的學(xué)術(shù)信息集成系統(tǒng),包括ScholarSearch、ScholarTree、ScholarExplorer、ScholarGraph和ScholarRankings5個(gè)子系統(tǒng),其中ScholarExplorer子系統(tǒng)是以作者為中心的學(xué)者畫像系統(tǒng),主要功能模塊包括個(gè)人信息、研究興趣、合作學(xué)者、發(fā)表中文論文、師承關(guān)系等??扑咽菄铱萍假Y源共享服務(wù)工程技術(shù)研究中心支持的學(xué)術(shù)搜索網(wǎng)站,主要功能模塊包括個(gè)人信息、研究興趣、學(xué)術(shù)圈、相關(guān)論文、相關(guān)獲獎等。
綜上所述,在用戶畫像的建模過程中,研究者對于立體精準(zhǔn)的學(xué)者畫像構(gòu)建研究較少。立體是指描述用戶的標(biāo)簽維度多,精準(zhǔn)是指描述用戶的標(biāo)簽準(zhǔn)確,能夠準(zhǔn)確地描述科研人員的各種特性,通過構(gòu)建立體精準(zhǔn)畫像保證從多個(gè)角度接近最真實(shí)的用戶。目前的畫像構(gòu)建方法已不能很好地解決這些問題。
與上述主流學(xué)者畫像系統(tǒng)比較,“智慧校園”學(xué)者畫像系統(tǒng)具有8個(gè)特點(diǎn):①學(xué)者個(gè)人信息屬性維度較多;②可從時(shí)間維度出發(fā),展示學(xué)者的學(xué)術(shù)關(guān)鍵詞變化趨勢;③相關(guān)學(xué)者信息較為豐富、直觀;④具有機(jī)構(gòu)社團(tuán)發(fā)現(xiàn)功能;⑤具有機(jī)構(gòu)關(guān)鍵詞變化趨勢功能;⑥可以描述多層的學(xué)術(shù)譜系,脈絡(luò)較為清晰;⑦具有六度搜索路徑功能;⑧具有團(tuán)隊(duì)核心人物演化分析功能。
1.2.1 信息抽取
學(xué)者畫像系統(tǒng)需要從結(jié)構(gòu)化數(shù)據(jù)與非結(jié)構(gòu)化數(shù)據(jù)中抽取出學(xué)者的個(gè)人信息、教育經(jīng)歷、所在機(jī)構(gòu)、聯(lián)系方式等。當(dāng)前主流的方法主要包括基于序列標(biāo)注的方法和基于關(guān)系抽取模型的方法。
基于序列標(biāo)注的方法大多依賴條件概率模型。信息抽取常用模型包括最大熵Markov模型、條件隨機(jī)場模型、動態(tài)條件隨機(jī)場模型、樹狀條件隨機(jī)場模型等。
基于關(guān)系抽取模型的方法將學(xué)者信息抽取問題轉(zhuǎn)化為關(guān)系抽取問題。近年來,深度學(xué)習(xí)被廣泛應(yīng)用于關(guān)系抽取領(lǐng)域,Zhou等[5]將LSTM與詞級別的注意力機(jī)制相結(jié)合,Lin等[6]將CNN與句子級別的注意力機(jī)制相結(jié)合,兩者的模型均取得了較大的提升;Yang等[7]將多個(gè)LSTM分類器組合在一起,進(jìn)一步提高模型效果。
學(xué)者信息抽取是構(gòu)建學(xué)者畫像的基礎(chǔ)工作。隨著互聯(lián)網(wǎng)數(shù)據(jù)指數(shù)級增長,信息抽取技術(shù)也逐漸從面向特定領(lǐng)域、特定信息的基于人工模板的方法轉(zhuǎn)變?yōu)槊嫦蜷_放領(lǐng)域的開放式信息抽取方法。
1.2.2 重名消歧
學(xué)者畫像系統(tǒng)構(gòu)建中的同名消歧問題一直被視為一個(gè)具有挑戰(zhàn)性的問題,學(xué)術(shù)文獻(xiàn)數(shù)量的飛速增長使得該問題變得更加困難與緊迫。盡管同名消歧已經(jīng)在學(xué)術(shù)界和工業(yè)界被大量研究,但該問題仍未能很好地解決。姓名消歧問題主要通過基于特征抽取的聚類與基于鏈接的聚類兩種方法進(jìn)行解決。
基于特征抽取的聚類方法通常采用有監(jiān)督的方法在文檔之間根據(jù)其特征向量學(xué)習(xí)一個(gè)正確的距離函數(shù)。Yoshida等[8]提出了兩階段聚類算法,第一階段是釆用凝聚聚類方法的強(qiáng)聚類,第二階段分別采用強(qiáng)聚類和弱聚類提高聚類結(jié)果的召回率。Louppe等[9]使用了一個(gè)分類器來學(xué)習(xí)兩實(shí)體之間的相似度,這種方法取得了比半監(jiān)督層次化聚類更好的效果。Zhang等[10]提出綜合全局監(jiān)督和局部內(nèi)容的網(wǎng)絡(luò)表示學(xué)習(xí)框架及端到端的聚類大小估計(jì)算法來獲取更好的消歧結(jié)果。
基于實(shí)體鏈接的方法可以利用圖的拓?fù)湫再|(zhì)和來自鄰居節(jié)點(diǎn)的聚合信息進(jìn)行消歧。Fan等[11]使用合作者信息作為輸入,通過對作者合作關(guān)系圖的構(gòu)建,進(jìn)而進(jìn)行有效路徑選擇及相似度計(jì)算,最終完成聚類。Tang等[12]在統(tǒng)一概率圖框架中,采用隱馬爾可夫隨機(jī)場對節(jié)點(diǎn)和邊的特征進(jìn)行構(gòu)建。Zhang等[13]嘗試基于文檔相似度和合作關(guān)系,通過對3個(gè)已經(jīng)構(gòu)建好的網(wǎng)絡(luò)進(jìn)行表示學(xué)習(xí)。
重名消歧工作是學(xué)者畫像系統(tǒng)中科研人物搜索、學(xué)者興趣挖掘、科學(xué)文獻(xiàn)管理、社交網(wǎng)絡(luò)分析等方面的基礎(chǔ)工作。
1.2.3 社區(qū)發(fā)現(xiàn)
學(xué)者畫像系統(tǒng)中的社區(qū)發(fā)現(xiàn)問題可以從網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)中發(fā)現(xiàn)潛在的學(xué)術(shù)群體化結(jié)構(gòu)特性,有助于觀察和研究整個(gè)學(xué)者關(guān)系網(wǎng)絡(luò)。
在靜態(tài)社區(qū)發(fā)現(xiàn)方面,Yin等[14]嘗試通過合并網(wǎng)絡(luò)結(jié)構(gòu)獲取高階的網(wǎng)絡(luò)信息表示來處理有向網(wǎng)絡(luò);Epasto等[15]提出一種自我網(wǎng)絡(luò)分裂框架,通過非重疊算法實(shí)現(xiàn)重疊社區(qū)發(fā)現(xiàn)。在動態(tài)社區(qū)發(fā)現(xiàn)方面,F(xiàn)olino等[16]提出了基于遺傳表示的算法來平衡最大化聚類精度與最小化兩個(gè)相鄰時(shí)間片之間的聚類差異;Ma等[17]通過構(gòu)建進(jìn)化非負(fù)矩陣分解框架在不增加時(shí)間復(fù)雜度的情況下,尋找全局最優(yōu)解,避開局部最優(yōu)解;Niu等[18]將標(biāo)簽傳播思想引入到動態(tài)社區(qū)檢測多目標(biāo)優(yōu)化算法中,提高社區(qū)發(fā)現(xiàn)質(zhì)量與收斂速度。在大規(guī)模并行社區(qū)發(fā)現(xiàn)方面,Wu等[19]提出了一種基于距離動態(tài)的大規(guī)模并行社區(qū)檢測算法PCDU,該方法適用于大規(guī)模網(wǎng)絡(luò)中的社區(qū)劃分結(jié)果評價(jià);Zhang等[20]提出一種基于增量計(jì)算的并行動態(tài)非重疊社區(qū)發(fā)現(xiàn)算法PICD,充分利用網(wǎng)絡(luò)短時(shí)平滑性特點(diǎn),通過不斷優(yōu)化網(wǎng)絡(luò)的PWCC來獲取高質(zhì)量的社區(qū)結(jié)構(gòu)。
“智慧校園”不僅提供了學(xué)者檢索、學(xué)者發(fā)表論文、學(xué)者合作關(guān)系等學(xué)者畫像系統(tǒng)基本功能,還通過抽取和分析機(jī)構(gòu)官網(wǎng)、學(xué)者發(fā)表論文數(shù)據(jù)、學(xué)位論文數(shù)據(jù)等多源數(shù)據(jù),深入挖掘?qū)W者的詳細(xì)個(gè)人信息、研究領(lǐng)域、學(xué)術(shù)關(guān)鍵詞、學(xué)術(shù)譜系、六度搜索路徑等信息,為科研評價(jià)和決策提供更多可信賴的依據(jù)。
2.1.1 系統(tǒng)技術(shù)架構(gòu)
“智慧校園”學(xué)者畫像系統(tǒng)設(shè)計(jì)模式采用MVC模式,其耦合性較低、可重用性較高、部署速度快、可維護(hù)性較高。前端開發(fā)使用HTML、CSS、JavaScript 3種語言,應(yīng)用Bootstrap和jQuery兩個(gè)前端開發(fā)框架。Bootstrap框架可以提高開發(fā)效率、便于后期維護(hù)、規(guī)范項(xiàng)目開發(fā)流程,同時(shí)也可以使CSS代碼更加簡明易懂,讓HTML代碼更規(guī)范合理。系統(tǒng)后臺開發(fā)使用SpringMVC框架,可以讓開發(fā)流程變得層次清晰。系統(tǒng)后臺開發(fā)使用Java語言,具有可解釋、可移植、多線程、動態(tài)性等優(yōu)點(diǎn)[21]。數(shù)據(jù)存儲使用Neo4j,Neo4j是一個(gè)NoSql數(shù)據(jù)庫,用于網(wǎng)絡(luò)圖的存儲,它對數(shù)據(jù)庫的操作更迅速,數(shù)據(jù)顯示方式更加直觀、靈活。
2.1.2 系統(tǒng)層次架構(gòu)
“智慧校園”學(xué)者畫像系統(tǒng)架構(gòu)層次從低層到高層共分為三層,即數(shù)據(jù)支撐層、文本挖掘?qū)?、?shù)據(jù)可視化層。
數(shù)據(jù)支撐層是系統(tǒng)架構(gòu)的最底層,包括數(shù)據(jù)的采集和存儲。數(shù)據(jù)源分為開源數(shù)據(jù)和閉源數(shù)據(jù)兩種;數(shù)據(jù)采用Neo4j數(shù)據(jù)庫存儲。文本挖掘?qū)佑脕硗瓿上到y(tǒng)中重要的數(shù)據(jù)處理任務(wù),包括實(shí)體識別與融合、關(guān)系發(fā)現(xiàn)、關(guān)鍵詞抽取、社團(tuán)發(fā)現(xiàn)等,對學(xué)者和機(jī)構(gòu)進(jìn)行建模。數(shù)據(jù)可視化層是系統(tǒng)與用戶交互的核心,以功能模塊的方式展示學(xué)者的個(gè)人信息、發(fā)表論文、研究關(guān)鍵詞、研究趨勢、合作關(guān)系、學(xué)術(shù)譜系、六度搜索路徑,以及關(guān)鍵學(xué)者的發(fā)現(xiàn)與替代及機(jī)構(gòu)的關(guān)鍵詞、研究趨勢、社團(tuán)劃分信息。具體架構(gòu)如圖1所示。
在傳統(tǒng)的社會科學(xué)領(lǐng)域,社會關(guān)系的多重性被用來表征用戶之間社會交換關(guān)系的多個(gè)方面。關(guān)系多重性的思想可以推廣到各種網(wǎng)絡(luò)中。在數(shù)據(jù)挖掘領(lǐng)域,使用“多關(guān)系網(wǎng)絡(luò)”來表示社交網(wǎng)絡(luò)中的多類型關(guān)系,有助于數(shù)據(jù)挖掘任務(wù)的進(jìn)行。
圖1 系統(tǒng)層次架構(gòu)設(shè)計(jì)
關(guān)系網(wǎng)絡(luò)是知識服務(wù)平臺的必要內(nèi)容。傳統(tǒng)的學(xué)者關(guān)系網(wǎng)絡(luò)即為“科研合著網(wǎng)絡(luò)”,主要采用論文署名中學(xué)者“共現(xiàn)”方法對學(xué)者之間的關(guān)系進(jìn)行建模[22]。然而,這種方法是粗糙的,學(xué)者之間的關(guān)系不僅包括論文合著關(guān)系,還包括項(xiàng)目合作關(guān)系、共同指導(dǎo)學(xué)生等關(guān)系。因此,在傳統(tǒng)的學(xué)者畫像系統(tǒng)中,作者之間深層的關(guān)系沒有得到精確的刻畫。
因此,我們用學(xué)位論文數(shù)據(jù)集中的致謝數(shù)據(jù)對傳統(tǒng)的學(xué)者關(guān)系網(wǎng)絡(luò)進(jìn)行深層次刻畫。不同學(xué)者在同一篇學(xué)位論文致謝部分的共現(xiàn)很大程度上體現(xiàn)了學(xué)者之間的工作合作關(guān)系,如共同指導(dǎo)學(xué)生關(guān)系、項(xiàng)目合作關(guān)系、共事關(guān)系等。我們將傳統(tǒng)的、粗糙的共現(xiàn)合著關(guān)系網(wǎng)絡(luò)結(jié)合相應(yīng)的領(lǐng)域深層數(shù)據(jù)進(jìn)行融合分析,以此構(gòu)建出更真實(shí)、更準(zhǔn)確的學(xué)者關(guān)系網(wǎng)絡(luò)。
如圖2所示,首先,進(jìn)行命名實(shí)體抽取工作。我們使用多語言實(shí)體之間的映射和命名實(shí)體消歧等技術(shù),從多個(gè)數(shù)據(jù)源中識別學(xué)者實(shí)體和連邊之間的關(guān)系作為圖中的節(jié)點(diǎn)之間的連邊,從而為多層網(wǎng)絡(luò)的構(gòu)建提供數(shù)據(jù)支撐。接著,進(jìn)行多層網(wǎng)絡(luò)的構(gòu)建。為了保存多網(wǎng)絡(luò)結(jié)構(gòu),需要對多網(wǎng)絡(luò)進(jìn)行數(shù)據(jù)結(jié)構(gòu)的存儲和網(wǎng)絡(luò)之間關(guān)系的建模。最常使用的是多層網(wǎng)絡(luò),該類型網(wǎng)絡(luò)不僅能夠保存多網(wǎng)絡(luò)的結(jié)構(gòu)特征,還能夠?qū)W(wǎng)絡(luò)之間的相互依賴進(jìn)行建模。然后,我們對致謝數(shù)據(jù)集的學(xué)位論文致謝部分抽取學(xué)者合作網(wǎng)絡(luò);對MAG(Microsoft Academic Graph)論文數(shù)據(jù)集抽取學(xué)者合著網(wǎng)絡(luò)。最后,進(jìn)行網(wǎng)絡(luò)融合。在構(gòu)建的致謝網(wǎng)絡(luò)中以標(biāo)注的社區(qū)結(jié)構(gòu)為標(biāo)準(zhǔn)數(shù)據(jù)集,利用隨機(jī)梯度下降算法(GBDT)實(shí)現(xiàn)半監(jiān)督的網(wǎng)絡(luò)融合。
圖2 網(wǎng)絡(luò)融合流程
學(xué)術(shù)譜系是由學(xué)術(shù)傳承關(guān)系(包括師承關(guān)系)關(guān)聯(lián)在一起的、不同代際的科學(xué)家所組成的學(xué)術(shù)群體[23]。對學(xué)術(shù)譜系的挖掘,旨在構(gòu)建并深入挖掘各門學(xué)科或主要學(xué)科分支層面上學(xué)術(shù)譜系的產(chǎn)生、運(yùn)作、發(fā)展的過程及一般趨勢,促進(jìn)一流學(xué)術(shù)譜系的傳承以及科研人才的培養(yǎng)[24]。學(xué)者學(xué)術(shù)譜系為分析學(xué)者之間的互動提供了至關(guān)重要的信息,也可以為研究者提供許多具體的應(yīng)用,如學(xué)術(shù)顧問推薦、學(xué)術(shù)新星挖掘等[25]。
學(xué)位論文中蘊(yùn)含著豐富而準(zhǔn)確的學(xué)術(shù)譜系關(guān)系。通過收集大量的學(xué)位論文并應(yīng)用實(shí)體抽取、關(guān)系抽取等技術(shù),可以挖掘出時(shí)間跨度大、覆蓋范圍廣、準(zhǔn)確度高的學(xué)術(shù)譜系。如圖3所示,“智慧校園”系統(tǒng)首先通過對含有論文指導(dǎo)關(guān)系的結(jié)構(gòu)化數(shù)據(jù)進(jìn)行〈導(dǎo)師,指導(dǎo)關(guān)系,學(xué)生〉三元組的構(gòu)建,接著使用基于自定義詞典的HanLP中文自然語言處理工具包對缺失結(jié)構(gòu)化論文指導(dǎo)關(guān)系的文本數(shù)據(jù)進(jìn)行實(shí)體識別、關(guān)系抽取以獲得三元組。對三元組集合采用基于邏輯規(guī)則的關(guān)系推斷方法識別潛在的師承關(guān)系,進(jìn)一步整理得到最終的多層學(xué)術(shù)譜系。
圖3 師承關(guān)系挖掘流程
團(tuán)隊(duì)核心人物演化分析在學(xué)者畫像方面的應(yīng)用在于:預(yù)測學(xué)術(shù)機(jī)構(gòu)內(nèi)某位學(xué)者離職后,哪位學(xué)者會接替他的位置。使用學(xué)院內(nèi)學(xué)者的職位變更記錄來模擬網(wǎng)絡(luò)的演變,以學(xué)者的科研水平模擬網(wǎng)絡(luò)的影響力。作出如下假設(shè):①科研能力越高對應(yīng)網(wǎng)絡(luò)的影響力越大,越有可能成為替代者;②科研能力通過教師發(fā)表的科技論文和網(wǎng)絡(luò)內(nèi)部合作體現(xiàn);③學(xué)者之間的關(guān)系是通過論文合作關(guān)系體現(xiàn)的;④學(xué)者的級別是根據(jù)教師的職稱來確定的;⑤職位變動的替代者來自網(wǎng)絡(luò)內(nèi)部;⑥職位變動依據(jù)的是學(xué)者在網(wǎng)絡(luò)內(nèi)部的科研能力。
算法主要分為3個(gè)部分。①繼任者問題(TSP)。當(dāng)某個(gè)學(xué)者r離職后,算法將推算r被另一名學(xué)者v替代的可能性。②網(wǎng)絡(luò)重塑問題(TNRP)。根據(jù)每個(gè)點(diǎn)的影響力計(jì)算網(wǎng)絡(luò)的整體影響力,并且確定出一個(gè)需要從網(wǎng)絡(luò)中清除的學(xué)者集合k,以此最大程度地降低剩下網(wǎng)絡(luò)的預(yù)期運(yùn)作效力。③多學(xué)者繼任者問題(MTSP)。當(dāng)從一個(gè)網(wǎng)絡(luò)中移除了多名學(xué)者后,算法將推算可能會誕生的新網(wǎng)絡(luò)以及相關(guān)的概率分布。算法流程圖如圖4所示。
圖4 關(guān)鍵人物發(fā)現(xiàn)與替代算法流程
在算法流程中,TNRP為了決定要從網(wǎng)絡(luò)中移除的k個(gè)頂點(diǎn),首先定義可能的網(wǎng)絡(luò)。求解TNRP的過程十分復(fù)雜,我們采用了一種貪心算法以進(jìn)行求解,其輸入為網(wǎng)絡(luò)及要移除的學(xué)者個(gè)數(shù)k,輸出為要刪除的頂點(diǎn)集合。如圖5所示的TNRP算法流程圖所示,每一次循環(huán)遍歷圖中的每一個(gè)節(jié)點(diǎn),假設(shè)要刪除該節(jié)點(diǎn)并計(jì)算刪除之后的網(wǎng)絡(luò)影響力,得到使網(wǎng)絡(luò)影響力最小的節(jié)點(diǎn),并真正刪除該節(jié)點(diǎn)。循環(huán)k次得到需要刪除的節(jié)點(diǎn)集合。
MTSP算法流程圖如圖6所示。要移除的頂點(diǎn)集合的候補(bǔ)者替代者集合中,必須滿足4個(gè)條件:①每個(gè)被刪除頂點(diǎn)具有一個(gè)替代頂點(diǎn);②替代頂點(diǎn)無法被移除;③替代節(jié)點(diǎn)必須為候補(bǔ)者;④候補(bǔ)者只能替代一個(gè)頂點(diǎn)。
MTSP在同時(shí)尋找多名重要性高的學(xué)者情況中,可能會存在許多網(wǎng)絡(luò)(如果有n個(gè)人可以替代a,m個(gè)人可以替代b,那么就可能會出現(xiàn)nm個(gè)新網(wǎng)絡(luò))。MTSP的設(shè)計(jì)目標(biāo)是幫助確定新網(wǎng)絡(luò)的概率。
圖5 TNRP算法流程
圖6 MTSP算法流程
機(jī)構(gòu)社團(tuán)劃分可以從社區(qū)發(fā)現(xiàn)的角度對機(jī)構(gòu)成員之間的關(guān)系作出直觀的刻畫,以此得到學(xué)者所在的學(xué)術(shù)群體。我們通過使用Fast Unfolding算法進(jìn)行機(jī)構(gòu)社團(tuán)發(fā)現(xiàn)。Fast Unfolding算法的流程:①先將圖中每個(gè)節(jié)點(diǎn)都看作一個(gè)獨(dú)立的社團(tuán),初始社團(tuán)的數(shù)目即為節(jié)點(diǎn)的數(shù)目;②對初始社團(tuán)中的每個(gè)節(jié)點(diǎn)i,依次嘗試把該節(jié)點(diǎn)分配到其每個(gè)鄰居節(jié)點(diǎn)所在的社團(tuán),計(jì)算分配前后的模塊度變化ΔQ,并記錄模塊度變化ΔQ最大的那個(gè)鄰居節(jié)點(diǎn),如果max(ΔQ)〉0,則把該節(jié)點(diǎn)分配到ΔQ最大的那個(gè)鄰居節(jié)點(diǎn)所在的社團(tuán),否則該節(jié)點(diǎn)所屬社團(tuán)保持不變;③重復(fù)步驟②,直到所有節(jié)點(diǎn)所在的社團(tuán)不再進(jìn)行變化;④對圖根據(jù)社團(tuán)進(jìn)行壓縮,將所有在同一個(gè)社團(tuán)的節(jié)點(diǎn)壓縮成一個(gè)新的節(jié)點(diǎn),社團(tuán)內(nèi)節(jié)點(diǎn)之間的邊權(quán)重轉(zhuǎn)化為新產(chǎn)生的節(jié)點(diǎn)的環(huán)權(quán)重,社團(tuán)間的邊權(quán)重轉(zhuǎn)化為新節(jié)點(diǎn)之間的邊權(quán)重;⑤重復(fù)步驟①直到整個(gè)圖的模塊度不再發(fā)生變化[26]。
系統(tǒng)依托的數(shù)據(jù)包括閉源數(shù)據(jù)和開源數(shù)據(jù)兩種類型。閉源數(shù)據(jù)為北京郵電大學(xué)高校碩士生及博士生畢業(yè)論文數(shù)據(jù)集中的致謝部分;開源數(shù)據(jù)包含兩個(gè)數(shù)據(jù)集,MAG數(shù)據(jù)集和機(jī)構(gòu)官網(wǎng)數(shù)據(jù)集。①高校碩士生及博士生畢業(yè)論文致謝數(shù)據(jù)集是1997—2015年碩士、博士學(xué)位論文致謝章節(jié)的集合。其中每個(gè)實(shí)體為一篇畢業(yè)論文,從中可以獲取到論文題目、作者姓名、作者所在高校、作者所在專業(yè)、指導(dǎo)老師姓名、論文關(guān)鍵詞、論文致謝部分內(nèi)容,其中包含了大量的人物信息及人物實(shí)體之間的關(guān)系,其語言為中文。②MAG數(shù)據(jù)集是微軟學(xué)術(shù)提供關(guān)于論文的數(shù)據(jù)集[27],其中每個(gè)實(shí)體為一篇論文,我們從中可以獲取到論文題目、作者姓名、作者所在單位、論文發(fā)表年份、關(guān)鍵詞、研究領(lǐng)域信息。③機(jī)構(gòu)官網(wǎng)數(shù)據(jù)包括機(jī)構(gòu)官網(wǎng)中對學(xué)者個(gè)人信息的描述和涉及到機(jī)構(gòu)新聞公告信息。
3.2.1 個(gè)人信息模塊
該模塊功能點(diǎn)為展示學(xué)者的個(gè)人信息,包括學(xué)者的姓名、性別、照片、供職機(jī)構(gòu)、所在中心、職稱、職務(wù)等信息?!爸腔坌@”系統(tǒng)利用爬蟲及文本分析方法,在北京郵電大學(xué)各學(xué)院官網(wǎng)抓取到信息與通信工程學(xué)院、電子工程學(xué)院、計(jì)算機(jī)學(xué)院、自動化學(xué)院、軟件學(xué)院、數(shù)字媒體與設(shè)計(jì)藝術(shù)學(xué)院、現(xiàn)代郵政學(xué)院、網(wǎng)絡(luò)空間安全學(xué)院、光電信息學(xué)院、理學(xué)院、公共管理學(xué)院、人文學(xué)院、馬克思主義學(xué)院、國際學(xué)院這14個(gè)學(xué)院中導(dǎo)師的個(gè)人網(wǎng)頁及相關(guān)校內(nèi)新聞。
傳統(tǒng)的學(xué)者畫像系統(tǒng)獲取學(xué)者個(gè)人信息的方式為:①從學(xué)者發(fā)表論文中提取學(xué)者的姓名、聯(lián)系方式、供職機(jī)構(gòu)等信息;②從互聯(lián)網(wǎng)中抽取學(xué)者相關(guān)的個(gè)人信息。這些方式存在著一些不足,如第一種方式獲取的學(xué)者信息量過少,無法對學(xué)者進(jìn)行多維刻畫;第二種方式獲取的學(xué)者信息量較多,同一屬性可能存在多個(gè)屬性值,對學(xué)者進(jìn)行精準(zhǔn)刻畫的概率較低。
從官網(wǎng)中獲取的學(xué)者信息擁有比從論文中抽取的信息更加豐富的維度,如性別、職稱、職務(wù)等。同時(shí),從官網(wǎng)中獲取的學(xué)者信息也會更新較快、更準(zhǔn)確。本系統(tǒng)通過解析機(jī)構(gòu)官網(wǎng)上的學(xué)者信息,進(jìn)行學(xué)者個(gè)人信息屬性的挖掘,從而得到更精準(zhǔn)、更多維的學(xué)者個(gè)人信息。
3.2.2 學(xué)者關(guān)系網(wǎng)絡(luò)
在傳統(tǒng)的學(xué)者畫像系統(tǒng)中,主要采用論文署名中學(xué)者“共現(xiàn)”方法對學(xué)者之間的關(guān)系進(jìn)行建模,構(gòu)建出的網(wǎng)絡(luò)為“學(xué)者合著網(wǎng)絡(luò)”,不能對學(xué)者之間的項(xiàng)目合作關(guān)系、共同指導(dǎo)學(xué)生等關(guān)系進(jìn)行更精細(xì)描述。
因此,我們對學(xué)位論文數(shù)據(jù)集中的致謝數(shù)據(jù)與學(xué)者發(fā)表論文數(shù)據(jù)進(jìn)行聯(lián)合挖掘。對致謝數(shù)據(jù)集的學(xué)位論文致謝部分抽取學(xué)者合作網(wǎng)絡(luò);對MAG論文數(shù)據(jù)集抽取學(xué)者合著網(wǎng)絡(luò)。最后進(jìn)行網(wǎng)絡(luò)融合,在構(gòu)建的致謝網(wǎng)絡(luò)中以標(biāo)注的社區(qū)結(jié)構(gòu)為標(biāo)準(zhǔn)數(shù)據(jù)集,利用隨機(jī)梯度下降算法(GBDT)實(shí)現(xiàn)半監(jiān)督的網(wǎng)絡(luò)融合。
1.綜合治療措施。沙門氏菌對土霉素、新霉素、氟苯尼考、磺胺嘧啶、新諾明比較敏感,大腸桿菌對土霉素、新霉素、氟苯尼考、卡那霉素、呋喃唑酮、喹諾酮類藥物敏感,魏氏梭菌可使用氟苯尼考治療。
3.2.3 學(xué)術(shù)關(guān)鍵詞模塊
學(xué)者的研究領(lǐng)域及學(xué)術(shù)關(guān)鍵詞是學(xué)者畫像中重要的組成部分,能夠充分體現(xiàn)出學(xué)者的研究方向、學(xué)術(shù)偏好,甚至可以體現(xiàn)出學(xué)者對該學(xué)科領(lǐng)域熱點(diǎn)的關(guān)注度。傳統(tǒng)的學(xué)者畫像系統(tǒng),如谷歌學(xué)術(shù)、百度學(xué)術(shù)等,不涉及學(xué)術(shù)關(guān)鍵詞功能;少數(shù)學(xué)者畫像系統(tǒng),如AMiner、中國知網(wǎng)等,只是對學(xué)術(shù)關(guān)鍵詞進(jìn)行簡單的羅列。這種描述方式并不能描繪學(xué)者在不同時(shí)間段關(guān)注的學(xué)術(shù)關(guān)鍵詞及學(xué)者的研究路線變遷趨勢。
因此,我們從時(shí)間維度出發(fā),對學(xué)者的學(xué)術(shù)關(guān)鍵詞進(jìn)行刻畫,將學(xué)者研究關(guān)鍵詞的變化趨勢直觀地體現(xiàn)出來,從而發(fā)現(xiàn)學(xué)者的學(xué)術(shù)研究脈絡(luò)。學(xué)術(shù)關(guān)鍵詞變化趨勢如圖7所示。
圖7 學(xué)術(shù)關(guān)鍵詞變化趨勢
3.2.4 學(xué)術(shù)譜系
傳統(tǒng)的學(xué)者畫像系統(tǒng)很少對學(xué)者的學(xué)術(shù)譜系進(jìn)行描述。“智慧校園”系統(tǒng)以學(xué)位論文為數(shù)據(jù)集,使用實(shí)體識別與關(guān)系抽取等方法從中挖掘?qū)嶓w及其鏈接關(guān)系,使用關(guān)系推斷等方法從網(wǎng)絡(luò)中識別出潛在的師承關(guān)系,進(jìn)一步歸納整理得到最終的學(xué)術(shù)譜系。如圖8所示,這是北京郵電大學(xué)陳俊亮院士的多層學(xué)術(shù)譜系,從中可以看出,陳俊亮指導(dǎo)的學(xué)生王柏作為導(dǎo)師指導(dǎo)了另一批學(xué)生。
圖8 學(xué)術(shù)譜系模塊
3.2.5 六度搜索
六度搜索的含義是指現(xiàn)實(shí)生活中的任意兩個(gè)人之間建立起關(guān)聯(lián)最多只需要通過六個(gè)人。在“六度分離”理論中,社會中普遍存在人與人之間的弱紐帶關(guān)系,這種關(guān)系能夠拉近互不相識的兩個(gè)人之間的距離,這在社會關(guān)系中發(fā)揮著巨大的作用?!傲确指簟碑a(chǎn)生的關(guān)系路徑可以利用熟人之間的聯(lián)系產(chǎn)生一個(gè)可信任的網(wǎng)絡(luò),這其中的潛能的確是無可估量的。
傳統(tǒng)的學(xué)者畫像系統(tǒng)不包含六度搜索功能。我們根據(jù)用戶輸入的兩個(gè)人物實(shí)體對象,發(fā)掘?qū)嶓w間的關(guān)聯(lián)路徑及其路徑中的人物。首先根據(jù)需要查詢的人物關(guān)系從關(guān)系網(wǎng)絡(luò)中進(jìn)行實(shí)體搜索,再通過圖算法獲取極大連通子圖作為網(wǎng)絡(luò)關(guān)系的查詢結(jié)果。本系統(tǒng)的六度搜索功能產(chǎn)生一個(gè)可信任的網(wǎng)絡(luò)路徑,通過這個(gè)網(wǎng)絡(luò)路徑,能夠更清晰明確地觀察到兩名學(xué)者在科研關(guān)系網(wǎng)絡(luò)中的信任路徑,為他們提供潛在的合作可能。六度搜索網(wǎng)絡(luò)如圖9所示。
圖9 六度搜索網(wǎng)絡(luò)
3.2.6 團(tuán)隊(duì)核心人物演化分析模塊
傳統(tǒng)的學(xué)者畫像系統(tǒng)缺少團(tuán)隊(duì)核心人物演化分析功能。團(tuán)隊(duì)核心人物的挖掘預(yù)測是對科研團(tuán)隊(duì)群體行為的分析,“智慧校園”學(xué)者畫像系統(tǒng)夠預(yù)測學(xué)術(shù)機(jī)構(gòu)內(nèi)某位學(xué)者離職后,哪位學(xué)者會接替他的位置。我們通過解決TNRP網(wǎng)絡(luò)重塑問題求出網(wǎng)絡(luò)中需要刪除的學(xué)者集合,接著解決MTSP多學(xué)者網(wǎng)絡(luò)繼任者問題來預(yù)測出可能構(gòu)建的新網(wǎng)絡(luò)及相關(guān)的概率。當(dāng)科研合作網(wǎng)絡(luò)中移除一名團(tuán)隊(duì)核心人物時(shí),該模塊可以預(yù)測出網(wǎng)絡(luò)的演化結(jié)果以及核心人物的更替。
3.2.7 機(jī)構(gòu)研究趨勢
機(jī)構(gòu)研究趨勢是某所機(jī)構(gòu)研究重心、研究熱點(diǎn)的直觀體現(xiàn)。機(jī)構(gòu)的研究趨勢也會間接影響學(xué)者未來的研究方向。傳統(tǒng)的學(xué)者畫像系統(tǒng),如谷歌學(xué)術(shù)、百度學(xué)術(shù)、中國知網(wǎng)、AMiner等都不包含對機(jī)構(gòu)學(xué)術(shù)研究關(guān)鍵詞研究趨勢的挖掘。同樣從時(shí)間維度出發(fā),我們由機(jī)構(gòu)名下學(xué)者的學(xué)術(shù)關(guān)鍵詞趨勢上卷得到該機(jī)構(gòu)的學(xué)術(shù)熱詞的演化趨勢。
3.2.8 機(jī)構(gòu)社團(tuán)劃分
傳統(tǒng)的學(xué)者畫像不包含機(jī)構(gòu)社團(tuán)劃分功能,我們通過使用Fast Unfolding算法進(jìn)行機(jī)構(gòu)社團(tuán)發(fā)現(xiàn),將刻畫兩名學(xué)者關(guān)系的“一對一層次”拓展到刻畫多名學(xué)者關(guān)系的“多對多層次”。這樣,可以更深入、更直觀地挖掘機(jī)構(gòu)名下的科研團(tuán)隊(duì)信息。
將本系統(tǒng)與其他學(xué)者畫像系統(tǒng)進(jìn)行功能對比,結(jié)果見表1?!爸腔坌@”學(xué)者畫像系統(tǒng)存在以下優(yōu)勢與特點(diǎn):個(gè)人信息屬性維度較多;能夠更直觀地展示在時(shí)間維度上的關(guān)鍵詞變化趨勢;相關(guān)學(xué)者信息較為豐富;有機(jī)構(gòu)社團(tuán)發(fā)現(xiàn)功能;有機(jī)構(gòu)關(guān)鍵詞變化趨勢功能;學(xué)術(shù)譜系脈絡(luò)較為清晰;有六度搜索路徑功能;有關(guān)鍵人物發(fā)現(xiàn)與替代功能。同時(shí)本系統(tǒng)也存在著一些缺點(diǎn),如數(shù)據(jù)量較小、沒有對論文引用關(guān)系進(jìn)行描述等。
本文首先討論了學(xué)者畫像在互聯(lián)網(wǎng)時(shí)代的重要意義,接著介紹了傳統(tǒng)學(xué)者畫像的功能特點(diǎn)及其存在的局限性,重點(diǎn)講述了“智慧校園”學(xué)者畫像系統(tǒng)的系統(tǒng)架構(gòu)、數(shù)據(jù)集和功能模塊的實(shí)現(xiàn)與可視化。本系統(tǒng)對多源數(shù)據(jù)進(jìn)行分析,使用實(shí)體消歧、數(shù)據(jù)融合等文本分析方法和社團(tuán)發(fā)現(xiàn)等數(shù)據(jù)挖掘方法,對學(xué)者和機(jī)構(gòu)進(jìn)行建模,從多維度挖掘?qū)W者的深層學(xué)術(shù)信息。本系統(tǒng)通過展示學(xué)者多屬性的個(gè)人信息、豐富的合作關(guān)系、傳承的學(xué)術(shù)譜系、六度搜索路徑等,為用戶刻畫更真實(shí)、更準(zhǔn)確、更生動的科研學(xué)者。最后,本文將“智慧校園”學(xué)者畫像系統(tǒng)與主流的其他學(xué)者畫像系統(tǒng)進(jìn)行功能對比,直觀體現(xiàn)出了本系統(tǒng)的特色功能。
表1 “智慧校園”與其他學(xué)者畫像系統(tǒng)對比
續(xù)表