李 倩 陳紅伶 許 鑫
(華東師范大學經濟與管理學部 上海 200062)
學者推薦系統(tǒng)可以準確高效地查找關聯(lián)的科研人員、學科知識和研究領域等信息,而推薦是依靠計算學者之間的相似度來實現(xiàn)的。學者之間的相似度可以通過對學者之間的顯性關系和隱性關系建模計算,顯性關系中應用最廣泛的是合著關系,隱性關系中則是引用關系,包括耦合關系(共引關系)、共被引關系等,隨著研究的深入,也有學者將關鍵詞、主題詞等納入研究的范疇,結合機構、地理位置等多種指標計算學者之間的相似度,量化學者之間的聯(lián)系,從而實現(xiàn)學者合作推薦等。但以往的研究中往往忽略時間對于知識累積和知識創(chuàng)新的影響,并未找到一個很好的方式衡量時間標簽在當中發(fā)揮的作用,因此對學者研究方向的衡量缺失動態(tài)性和精確性。
基于此本文認為在計算學者相似度時需要綜合考量科學文獻內部結構、文本語義以及時間維度的影響,以動態(tài)的方法對學者的研究主題進行更加客觀和全面的衡量,動靜結合,在此基礎上計算學者相似度才更具意義。
1.1學者相似度研究學者相似度可以從多個角度來進行計算,如合著關系、耦合關系、同被引關系等。首先,學者相似可直接從合作關系中定義。鄧少偉[1]提出了基于論文共同作者的學術關系計算,構建了科研人員之間基于相似度的學者推薦系統(tǒng),熊回香[2]在合作關系的基礎上增加了學者能力因素,通過學者的學術能力來挖掘候選學者,并根據(jù)歷史合作關系計算合作質量,綜合計算學者相似。其次,基于同被引計算學者相似度,學者發(fā)表的文獻被相同文獻引用的次數(shù)越多,則研究內容越相似。邱均平[3]基于國內制漿造紙領域構建了學者(第一作者)共被引矩陣,采用社會網絡分析方法計算共被引所形成的相似性。馬瑞敏[4]從第一作者耦合的角度計算作者相似度,耦合次數(shù)越多,研究方向越相似,對同被引計算相似度進行了補充。近期學界更多關注從研究主題、研究領域定義和計算學者相似度。傅城州[5]采集學者社會網絡平臺的學者信息,通過標簽提取的方式,利用學術領域相似的方法計算學者的相似度。陳潔敏通過“用戶-項目-標簽”三部圖擴散算法計算用戶的相似度,并引入了用戶興趣主題分布,通過KL距離綜合計算用戶相似度。孫賽美[6]通過主題模型衡量學者研究興趣,結合三度影響力理論,融合信任度和研究興趣相似度計算學者相似度。XU Yunhong[7]綜合考慮學者之間的學術關系和研究主題兩個因素,根據(jù)學者之間的主題詞和學者關系構建異質網絡,后通過網絡計算學者之間的相似度。Chaiwanarom[8]等將作者主題模型擴展而來的語義方法結合共同作者網絡,提出了一種尋找潛在合作者的方法。國內學者關鵬[9]、何勁[10]、逯萬輝[11]等采用作者主題模型算法, 抽取作者-主題關聯(lián)矩陣, 追蹤學科領域生命周期中的主題強度和作者研究興趣的變化、對作者-主題關聯(lián)的學科知識網絡進行演化分析,進行作者研究主題聚類等,但并未對時間標簽做進一步分析。Peng Hongwei[12]注意到了時間維度上學者的研究興趣可能會發(fā)生轉移,在計算學者相似度的過程中通過采集近期的文章來表示學者當前的研究方向和興趣。通過學者近期的研究成果來衡量學者當前的研究興趣具有可取性,但直接切斷以前的研究成果,對學者研究方向的整體衡量缺失了精確性和動態(tài)性。因此需要在時間維度上對學者的研究主題進行分析可以更加客觀和全面衡量學者的研究主題,在此基礎上計算學者相似度更具意義。
1.2基于時間加權的主題-作者模型研究傳統(tǒng)的主題建模方法利用文本的內部特征,忽略了基于語義的文檔間詞匯的內在結構,且不考慮時間因素的影響,這使得分析結果與真實情況總有所違背[13]?;跁r間維度的權重分析較早出現(xiàn)在計算機的推薦系統(tǒng)領域研究中,張磊[14]指出用戶對于資源的興趣基于時間變化,用戶評分的重要性也會隨時間衰減,通過基于遺忘曲線的相似度計算,提高推薦系統(tǒng)的準確度。陳海龍[15]針對傳統(tǒng)算法相似度計算不足的問題,提出了融合用戶興趣變化和類別關注度的推薦算法,將基于時間的興趣度權重函數(shù)引入項目相似度計算中,提高用戶推薦準確度。在學術文獻挖掘中,閔波[16]基于新文獻相對于舊文獻更助于科研人員獲取科學假設的基礎,建立時間加權的文獻知識發(fā)現(xiàn)方法,提高了發(fā)現(xiàn)的準確率。江秋菊[17]指出文獻在具備相同被引頻次的情況下,近期發(fā)表的文獻的影響力通常更高,提出了融入主題和時間因素的文獻影響力計算,從細粒度層面評價文獻的影響力。伍哲[18]同樣采用融合學術文獻的發(fā)表時間因素,通過文獻的發(fā)表時間增加特征詞的時間權重,提出了時間加權的TF-IDF學術文獻主題分析方法,使主題的區(qū)分度更高。Ho K.T.[19]等提出了一種結合作者主題模型與文本信息的Textual-ABM模型來文檔的內容及作者的興趣進行建模,進而分析社交網絡的動態(tài)性。當前大多數(shù)方法致力于發(fā)現(xiàn)靜態(tài)的潛在主題和用戶興趣,或者僅從文檔的文本內容出發(fā)來分析主題演變,而沒有直接考慮諸如作者、時間之類的影響因素。為了克服這個問題,有學者提出了一種使用帶有時間戳的作者和主題的文檔的動態(tài)用戶興趣模型 Author-Topic over Time(AToT)模型[20],但此類模型廣泛用于景點推薦[21]和電子郵件分析[22]等,較少用于研究學者之間的科研主題相似度。
雖然特定主題的概念幾乎不會發(fā)生改變,但主題和作者之間的混合分布及相關性會隨時間而變化。因此,本文將論文題錄結構和語義相結合,結合遺忘曲線的思想,給出引入時間加權得到學者的主題重要度和學者相似度計算方法,綜合考慮學者發(fā)文的主題和時間因素,通過分析學者在某主題和時間序列下的發(fā)文規(guī)律,沉淀舊主題,突出新主題,有效提高學者關聯(lián)匹配的準確性。
2.1 A-T模型研究A-T模型(Author-Topic Model),即作者-主題模型,是以無監(jiān)督學習方式從數(shù)據(jù)中學習主題和作者的分布模型[23],是在LDA模型的基礎上發(fā)展而來。LDA模型是語料庫的生成統(tǒng)計模型[24]。在LDA中,可以將每個文檔視為不同主題的混合,并且每個主題的特征在于單詞的有限詞匯量上的概率分布。LDA的生成模型由一個概率圖形來描述 ,但是LDA僅將文檔視為概率性主題的混合體,并未考慮作者的重要性,A-T模型在此基礎上加以改進,可以同時對文檔的內容和作者進行建模。
如果僅根據(jù)一篇研究論文對主題進行建模,則稱其為文檔-主題模型D-T模型;A-T模型不同于D-T模型:當收集了作者的全部研究論文以形成主題模型時,稱為A-T模型。如果作者僅發(fā)表了一篇研究論文,則A-T模型與D-T模型相同。作者主題是通過匯總作者的每篇研究論文的文檔來獲得研究主題,更能代表作者的研究興趣和方向[25]。
通過訓練語料庫,可以通過A-T模型來限定單詞-主題分布和主題-作者分布。本研究中選擇Python中的Gensim工具包來訓練和更新A-T模型,通過一致性來確定最佳主題數(shù)。
2.2學者時間維度的主題分布本文利用A-T模型挖掘隱含的“作者-主題”語義信息。對于每一篇文獻將LDA概率最大的主題作為該文獻的研究主題。本文默認第一作者對文獻的主題貢獻最高,通過第一作者-文獻的對應關系,將學者和主題對應起來,保留文獻的發(fā)表時間,從而得到作者的主題和時間兩個維度下的發(fā)文量分布。以范并思學者為例,如表1所示:
表1 學者時間-主題雙維度發(fā)文量分布
2.3基于時間加權的主題重要度計算
2.3.1 基于遺忘曲線的時間關注度計算 遺忘曲線是心理學領域中關于人類自然遺忘規(guī)律的曲線,是由德國的心理學家Hermann Ebbinghaus[26]提出的,曲線揭示了記憶和遺忘是指數(shù)形式的變化,并遵循先快后慢的規(guī)律[27]。江志恒[28]基于遺忘曲線,對記憶的保持量提出了定量計算的保持量函數(shù),如式1所示。
(1)
本文采用遺忘曲線擬合學者的特定主題下的發(fā)文隨時間變化的關注度,時間關注度timeweigh通過遺忘曲線的內涵表示學者近期的研究成果,更能代表學者現(xiàn)在的研究方向和偏好,如公式(2)所示。其中i代表年份,ti表示第i年,to則表示最新年份的時間,本文中to為2019,numi表示ti年份下學者特定主題的發(fā)文篇數(shù)。timeweigh表示的是根據(jù)年份和發(fā)文數(shù)量的加權和來表示該學者特定主題的關注度。時間距離現(xiàn)在越久,關注度權重越小。
(2)
2.3.2 基于發(fā)文間隔的穩(wěn)定性計算 學者近期的成果更能代表學者現(xiàn)在的研究方向和偏好,在此理解基礎上,本文對學者在一個主題下發(fā)文的穩(wěn)定性進行計算,如果學者的發(fā)文是連續(xù)不斷的,可以推斷學者在該研究方向和領域有著持續(xù)研究和產出,說明該主題是該學者的重點關注和研究的方向,如公式(3)所示。穩(wěn)定性successionweigh計算了主題下發(fā)文時間序列間隔期的方差倒數(shù),其中這一方差用sTopic2來表示,如果發(fā)文間隔期的方差越小,則穩(wěn)定性更高,則穩(wěn)定性指標的值更高。
(3)
2.3.3 學者主題重要度計算 本文采用時間關注度timeweigh和穩(wěn)定性successionweigh的乘積表示學者主題重要度Topicimportance,如公式(4)所示。當一個學者對于某個主題事件關注度越高,且關注越穩(wěn)定,那么有理由認為這一學者在該主題下的重要度是很高的。這一重要度不再平等看待所有發(fā)文,而是加入了時間權重,能有效區(qū)別部分作者很早之前所做的主題研究,提高其在近期所做研究主題的權重。
Topicimportance=timeweigh*successionweigh
(4)
2.4基于余弦相似度的學者相似度計算結合上述指標,引入基于時間加權的主題重要度計算方法,形成學者和主題的二維矩陣,數(shù)值為學者在該主題下的主題重要度,可以清晰得到學者的主題分布和以及在該主題下的關注度,即學者主題重要度Topicimportance。本文采用余弦相似度計算學者的相似度。余弦相似度用向量空間中兩個向量夾角的余弦值衡量兩個個體間的差異度大小,余弦值越接近1,兩個向量越相似。主題數(shù)量屬于高維度,采用余弦相似度計算更加適合和直觀,學者相似度Similarity公式計算如公式(5)所示,其中向量M和N表示學者的研究主題分布,向量Mi和Ni分別代表向量M和N的分量,即各學者在主題i下的主題重要度。
(5)
3.1數(shù)據(jù)獲取與處理本文的實驗數(shù)據(jù)來源是中國知網CSSCI和CSCD核心期刊數(shù)據(jù)庫,文獻分類目錄中勾選“圖書情報與數(shù)字圖書館”,圖書情報與數(shù)字圖書館領域兼顧人文社會和科學技術研究,比較有代表性,以該領域的文獻和作者信息作為實驗數(shù)據(jù)集驗證基于時間加權A-T模型計算的學者相似度具有較好的適用性。檢索日期是2019年4月29日,最終采集得到96 671條文獻題錄信息,覆蓋年份為1998-2019年。在采集得到的題錄數(shù)據(jù)中,去除掉作者、摘要或第一作者等重要字段為空的非研究類文獻,得到有效數(shù)據(jù)89 177條作為本文的實驗數(shù)據(jù),涉及11 85種期刊,47 206位作者。
本文通過Python的jieba工具包對文獻的摘要做文本預處理,包括分詞、去停用詞、同義替換以及作者消歧、語義消歧等,之后將所有文獻的題名摘要作為語料庫訓練LDA模型,根據(jù)困惑度確定最佳主題數(shù),最終確定返回50個主題,依次標為主題1、主題2、主題3……主題50,并以此作為每一篇論文的標簽,即該篇論文的研究主題。
得到每一篇文獻的主題后,采用Python的Pandas工具包對學者和主題構建學者-主題-時間矩陣表,導入基于時間加權的主題重要度模型進行計算,導出學者的主題重要度分布數(shù)值表,最后采用余弦相似度計算學者的相似度。
3.2實驗結果
3.2.1 學者-主題重要度矩陣可視化分析 首先對整體的學者主題關注度表現(xiàn)進行可視化,在學者-主題關注度矩陣當中表達了三維特征,橫軸表示主題,縱軸表示作者,值表示主題重要度,這里的主題重要度見前文的公式(4)。本文采用平行坐標圖Parallel coordinates plot進行繪制,隨機選擇了圖書館方向的24位學者及其主題進行主題重要度可視化。如圖 1所示,每條豎線表示一個特征,即某一個主題,數(shù)值是學者在該主題研究中關注的突出程度,表現(xiàn)在圖中即氣泡的大小??梢钥闯龃蠖鄶?shù)作者在主題的重要度上表現(xiàn)較為一致,即不會同時廣泛涉獵多個主題且有大量產出,但會集中于某少數(shù)主題進行深入研究。因此他們的主題重要度會在某一些主題上突出顯示,而在其他主題上顯示為零值,少有涉獵的話則會顯示較小的氣泡。以趙蓉英為例,她在主題39(基于知識圖譜的文獻計量)、主題24(競爭情報)、主題30(公共圖書館與圖書館聯(lián)盟)、主題42(基于引文分析的文獻計量)、主題43(圖書館學與情報學)上有顯示或大或小的氣泡,在其他主題上顯示為空。在這七個主題當中,趙蓉英對主題39(基于知識圖譜的文獻計量)中的關注度要顯著高于其他幾個主題,對主題30(公共圖書館與圖書館聯(lián)盟)和主題43(圖書館學與情報學)則是稍有涉獵,因為其氣泡大小(重要程度)明顯小于其他幾個主題。
對于部分主題來說學者的主題重要度都較小甚至為0,對于學者的區(qū)分度不高,除卻此類的主題以外,在少數(shù)主題上學者的差異度較大,這些少數(shù)主題就是區(qū)別學者的重要標志。以主題39(基于知識圖譜的文獻計量)為例,在圖1中顯示的20位學者當中,對主題39有所研究并有所產出的學者有7位,分別是邱均平、趙蓉英、張敏、唐曉波、馮佳、侯劍華和嚴貝妮,而這7位學者當中,雖然邱均平在該主題下的產出有161篇,明顯多于其他幾位學者,但排除長時間累積的因素,重點關注近年來該主題下的學術產出,趙蓉英學者的主題重要度相對更高。根據(jù)上述分析可以發(fā)現(xiàn)雖然隨機選擇的學者研究領域都是圖書館方向,但在細分領域下,經過時間加權后學者的表現(xiàn)具有更高的區(qū)分度。
圖1 學者和主題重要度平行坐標圖
3.2.2 靜態(tài)學者相似度分析 首先基于整體數(shù)據(jù)從靜態(tài)的角度判斷學者相似度。由于主題數(shù)量屬于高維度,采用余弦相似度計算更加直觀適合,因此本文基于學者在主題上重要度的余弦距離來計算學者之間的相似度。根據(jù)主題重要度之和對學者進行降序排列,選擇前8位學者,計算這些學者與其他幾位學者的相似度并可視化,如表2和圖 2所示,相似度范圍為0~1之間,學者和自身的相似度為1,相似度越大,越接近1,顏色越深;相似度越小,越接近0,顏色越淺;相似度為0則表示兩位學者并無研究領域的重合。對于高于0.85的相似度加粗表示,可以發(fā)現(xiàn)學者袁紅軍和學者劉磊、馬曉亭三者之間都保持高相似度;學者邱均平和學者趙蓉英相似度高,與其他6位學者相似度都較低;而學者吳稌年、王世偉以及王知津三位學者和其他幾位學者之間相似度都較低,說明上述3位學者都有自己專注的領域,研究的方向差異大。
圖2 前8位學者相似度熱力圖
表2 前8位學者相似度矩陣
續(xù)表2 前8位學者相似度矩陣
為進一步證明上述計算結果的合理性,以選擇的這8位學者為例,通過知網學者庫的機構、所標識的研究方向和本文得到的結果進行驗證,如表6所示,發(fā)現(xiàn)趙蓉英和邱均平同為武漢大學的學者,在知網學者庫中標識的研究方向都為“圖書情報與數(shù)字圖書館、高等教育、科學研究管理”,且在主題39(基于知識圖譜的文獻計量)和主題42(基于引文分析的文獻計量)中都有一定的研究,如表3所示。而袁紅軍、馬曉亭和劉磊雖然分屬不同機構,但在知網學者庫中的研究方向都與計算機軟件及計算機應用先關,但也有各自的細分方向,例如袁紅軍研究“檔案及博物館”,劉磊研究“新聞與傳媒”,馬曉亭研究“民商法”,3人都對主題40(高校圖書館與信息服務)有所研究,如表4所示。 吳稌年、王世偉和王知津3位學者則明顯有自己專注的領域,如吳稌年專注于主題23(圖書館史),王世偉專注于主題30(公共圖書館與圖書館聯(lián)盟),而王知津對主題42(圖書館學與情報學)研究較多。如表5所示。
表3 趙蓉英-邱均平主題重要度對比
表4 袁紅軍-馬曉亭-劉磊主題重要度對比
續(xù)表4 袁紅軍-馬曉亭-劉磊主題重要度對比
表5 吳稌年-王世偉-王知津主題重要度對比
表6 學者基本信息
上述分析是基于整體數(shù)據(jù)從靜態(tài)的角度判斷基于時間加權A-T模型識別相似學者的結果,根據(jù)回溯作者發(fā)文和作者機構可以發(fā)現(xiàn)本文提出的方法可以有效計算學者之間的相似度并識別得到在研究主題和方向上相似的學者,整體結果具有可信度。
3.2.3 動態(tài)學者相似度分析 由于引入了遺忘曲線計算事件關注度,即在關注主題的同時還考慮了時間變化在判別學者研究主題的影響,因此為了進一步探究本方法中時間加權思想對于學者相似度計算的影響,本文繼續(xù)深入挖掘不同時間下計算得到的學者相似度的結果,即從動態(tài)的角度分析學者之間的相似度。
在未考慮時間加權的背景下運用A-T模型計算作者相似度,為了同考慮時間加權的A-T模型展示效果一致,此處選擇輸出主題重要度加和排名前24名的作者,并采用R軟件根據(jù)作者間最小距離(Bray-curtis距離)進行層次聚類(UPGMA聚類),可視化結果如圖 3所示,聚類效果如圖 4所示。
圖3 未考慮時間加權A-T模型24位作者層次聚類
圖4 未考慮時間加權A-T模型24位作者層次聚類評估
根據(jù)時間加權A-T模型計算作者相似度,并采用R軟件根據(jù)作者間最小距離(Bray-curtis距離)進行層次聚類(UPGMA聚類),可視化結果如圖 5所示,聚類效果評估如圖 6所示:
圖5 時間加權A-T模型24位作者層次聚類
圖6 時間加權A-T模型24位作者層次聚類評估
在聚類評估結果可視化圖4、圖6中,實色直線和灰色曲線分別為常規(guī)線性擬合與Lowess平滑擬合線,根據(jù)使用Bray-curtis距離的UPGMA方法得到聚類評估結果可見兩次聚類效果都達到了理想狀態(tài),在未考慮時間影響的情況下,主題重要度之和與該作者的論文發(fā)表數(shù)量是一致的,并不能突出顯示其在某個主題或某個領域下的關注程度,也不能明確顯示近幾年該作者關注的主題,在輸出的24位學者當中有部分學者在早期有著十分充足的學術成果積累,并且在某些領域已經成為了學術權威,但隨著時間的推移和研究的專注,學術產出速度有所下降。就計算學者相似度并實現(xiàn)相似學者推薦而言,不考慮時間因素將上述學術權威作為相似學者進行推薦的結果是不夠理想的。與之不同的是考慮時間加權進行聚類的24位學者則是在近期、有持續(xù)產出且對某一主題或某些主題有重點關注的學者。從學者相似度聚類結果來看,是近期有相似的學術研究方向或相似的關注主題才會被聚為一類。時間加權的A-T模型計算所得的學者相似度是基于當前以及前一段時間學者的研究主題得到的,這正體現(xiàn)了時間加權的價值,即從動態(tài)的角度衡量判斷學者最近、最主要的研究主題,計算當下與該學者研究主題最為接近的其他學者,以此實現(xiàn)的學者推薦才能更具現(xiàn)實意義。
3.2.4 討論 根據(jù)上述實驗結果,從靜態(tài)的角度來看,基于時間加權A-T模型計算得到的學者相似度能夠在足夠寬泛的圖書情報與數(shù)字圖書館領域下繼續(xù)辨別、細分更多方向,為學者提供更精準的推薦;從動態(tài)的角度來看,基于時間加權的A-T模型對時間足夠敏感,能夠在不同的時間下識別出與該學者當前研究方向最為相似的學者,有效排除因時間久遠導致的舊主題積累等問題。
基于時間加權A-T模型將論文題錄結構和語義相結合,考量時間因素對于主題研究的影響,沉淀舊主題,突出新主題,使學者相似度的計算由靜態(tài)的結果變?yōu)閯討B(tài)的過程,能夠為學者之間交流合作做推薦提供新思路,為學術共同體的識別和基于學者個人以及整個學術共同體的主題演化提供新方法。
隨著時間的變化,學者的研究方向可能會更加深入,也可能會在研究興趣上有所轉移,從時間維度上來對學者的研究進行主題分析才更加全面和客觀,基于此,本文提出了基于時間加權A-T模型計算學者相似度的方法,引入遺忘曲線概念,將時間關注度和基于發(fā)文間隔的穩(wěn)定性結合來代表學者-主題重要度,并根據(jù)余弦相似度來計算學者相似度,最后在圖書情報領域得到了檢驗,證明該相似度的方法有其合理性,且能夠動態(tài)識別相似學者,為學術共同體的識別和科研團體合作網絡的演化等研究提供了新思路。
本文是基于第一作者和文獻主題之間的關系研究學者相似度,其普適性還需放到其他學科和語種下,并同時考慮作者順序等來進行進一步檢驗。