• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于算法歸因框架的LIS 領(lǐng)域?qū)W者施引影響因素實(shí)證研究

      2022-06-11 05:17:38丁恒阮靖龍
      圖書情報(bào)知識(shí) 2022年2期
      關(guān)鍵詞:學(xué)者參考文獻(xiàn)領(lǐng)域

      丁恒 阮靖龍

      (華中師范大學(xué)信息管理學(xué)院,武漢,430072)

      1 引言

      施引是科研人員基本的學(xué)術(shù)信息行為,體現(xiàn)出科研人員對(duì)他人學(xué)術(shù)貢獻(xiàn)的尊重,對(duì)科學(xué)研究中的知識(shí)傳播起到重要作用[1]。深入探索科研人員施引行為特點(diǎn),不僅能反映出科學(xué)交流、知識(shí)繼承與學(xué)科發(fā)展的普遍規(guī)律,同時(shí)也可應(yīng)用于科學(xué)評(píng)價(jià)、科技管理和科技政策制定等。當(dāng)前施引相關(guān)研究主要包括:施引的內(nèi)在動(dòng)機(jī)和原因研究[2-6]、施/被引影響因素研究[7-10]、引用預(yù)測研究[11-15]等,其中施/被引影響因素研究旨在回答“哪些因素會(huì)影響論文被引/哪些因素會(huì)影響科研人員的施引”,是科學(xué)計(jì)量學(xué)、科學(xué)學(xué)、圖書情報(bào)學(xué)等相關(guān)學(xué)科領(lǐng)域的重要研究主題。

      國內(nèi)外學(xué)者圍繞施/被引影響因素已展開大量研究,但仍存在以下不足:①在研究視角上,多分析某特定領(lǐng)域文獻(xiàn)的被引影響因素,較少探索領(lǐng)域?qū)W者的施引影響因素,且多對(duì)施/被引影響因素進(jìn)行靜態(tài)分析,較少探索影響因素隨時(shí)間變化的動(dòng)態(tài)特征;②在研究方法上,多采用線性回歸估計(jì)各影響因素的效應(yīng)量大小,難以有效刻畫各因素之間的非線性關(guān)系;③在研究樣本上,多基于領(lǐng)域內(nèi)數(shù)本期刊收集小規(guī)模樣本,研究結(jié)果易受樣本選擇偏差影響,難以體現(xiàn)領(lǐng)域內(nèi)施/被引影響因素的全貌。

      有鑒于此,本文以微軟學(xué)術(shù)圖譜(Microsoft Academic Graph, MAG)為數(shù)據(jù)源,選擇LIS領(lǐng)域18本期刊2000至2019年間的232,421篇參考文獻(xiàn)為研究樣本,基于可解釋機(jī)器學(xué)習(xí)構(gòu)建算法歸因研究框架,估算了影響LIS領(lǐng)域?qū)W者施引行為的各因素的作用大小,并分析了各因素隨時(shí)間的變化情況。

      2 相關(guān)研究概述

      2.1 施/被引影響因素實(shí)證研究

      施/被引影響因素實(shí)證研究旨在回答“哪些因素能夠影響文獻(xiàn)被引數(shù)量”這一問題,其研究目的在于揭示或驗(yàn)證各種影響因素(如文獻(xiàn)質(zhì)量[9,16-17]、作者聲譽(yù)[18-20]、期刊影響力[17,21-22]等)與文獻(xiàn)被引數(shù)量之間是否存在關(guān)聯(lián)關(guān)系。該類研究多采用“①自變量假設(shè)→②研究樣本選擇→③因變量提取→④統(tǒng)計(jì)推斷”的四步走實(shí)證研究框架。

      自變量假設(shè),即從某個(gè)研究理論或觀點(diǎn)出發(fā),提出與被引相關(guān)的潛在影響因素及計(jì)算指標(biāo)。從觀點(diǎn)差異上看,已有研究主要受引用行為規(guī)范理論[23]和引用行為社會(huì)構(gòu)建理論[24]兩種觀點(diǎn)影響,前者認(rèn)為引用是施引者認(rèn)同被引文獻(xiàn)價(jià)值的一種行為,后者則認(rèn)為引用行為受個(gè)人利益所驅(qū)使。從規(guī)范理論出發(fā),文獻(xiàn)價(jià)值是引發(fā)施引行為及文獻(xiàn)被引量增加的根本原因,能夠衡量文獻(xiàn)價(jià)值的指標(biāo)(如文獻(xiàn)質(zhì)量[9]、文獻(xiàn)創(chuàng)新性[25]等)可作為潛在的施/被引影響因素。社會(huì)構(gòu)建理論指出,“增加論文發(fā)表的可能性”是科研人員施引他人工作的動(dòng)機(jī)之一,引用知名學(xué)者或高水平期刊的文獻(xiàn)有益于提升文章說服力[26],部分研究探討了論文作者或發(fā)表期刊等外在因素對(duì)文獻(xiàn)被引的影響[18-22]。從自變量數(shù)量上看,已有研究可分為單因素研究[27-28]和多因素研究[21,29],前者僅考慮單個(gè)因素指標(biāo)與被引量之間的關(guān)系,后者同時(shí)對(duì)多個(gè)因素自變量與被引因變量進(jìn)行建模。由于影響因素之間可能存在相互作用,單因素研究易受自變量因素的潛在共線性因素影響,導(dǎo)致研究結(jié)論呈偽相關(guān)性。從自變量類型上看,部分研究探討了是否開放獲取[30]、作者性別[31]等分類變量因素對(duì)被引量的影響,另一些研究則聚焦于分析文章長度[32]、合作者人數(shù)與自引率[33]等連續(xù)變量因素的影響。

      研究樣本選擇,即劃定研究對(duì)象、收集數(shù)據(jù)樣本的方式。從樣本規(guī)模來看,已有研究多通過劃定時(shí)間跨度和目標(biāo)期刊來收集中小規(guī)模采樣樣本。例如:文獻(xiàn)[34]分析了2013-2015年發(fā)表在Life and Environmental期刊上的1,053篇文獻(xiàn),發(fā)現(xiàn)同行評(píng)議文獻(xiàn)比非公開同行評(píng)議文獻(xiàn)具有更高的被引頻次。文獻(xiàn)[35]以經(jīng)濟(jì)學(xué)領(lǐng)域期刊Agricultural and Applied Economics Association和American Journal of Agricultural Economics上多個(gè)年份的113篇文獻(xiàn)為研究樣本,發(fā)現(xiàn)自引率和文獻(xiàn)首年被引數(shù)能夠顯著影響文獻(xiàn)的總被引量?;谛∫?guī)模采樣數(shù)據(jù)的研究結(jié)果,易受樣本選擇偏差的影響,研究結(jié)論可能存在普適性問題。從樣本對(duì)象來看,已有研究主要以特定領(lǐng)域期刊的發(fā)表文獻(xiàn)為研究對(duì)象,較少關(guān)注被期刊引用的參考文獻(xiàn),發(fā)表文獻(xiàn)及其被引量適合于分析領(lǐng)域內(nèi)文獻(xiàn)的被引影響因素,而以參考文獻(xiàn)為研究對(duì)象則可探索特定領(lǐng)域期刊的施引影響因素。

      因變量提取,即獲取被引量的途徑及變量加工方式。從被引量數(shù)據(jù)來源上看,已有研究多從引文數(shù)據(jù)庫獲取研究樣本的被引數(shù)量,采用的數(shù)據(jù)庫包括Web Of Science[30]、Scopus[36]、IN-RECS database[37]、IEEE Xplore digital library[38]、Google Scholar[39]、Mendeley database[40]等。由于商業(yè)數(shù)據(jù)庫的限制,研究者較難獲取文獻(xiàn)被引量的動(dòng)態(tài)變化,僅能采集文獻(xiàn)特定時(shí)間節(jié)點(diǎn)的靜態(tài)變量,這不利于研究施/被引影響因素動(dòng)態(tài)變化。從因變量的處理來看,一部分研究直接將被引數(shù)量作為因變量,而另一部分研究則按被引數(shù)量大小把文獻(xiàn)劃分為高被引文獻(xiàn)和低被引文獻(xiàn),將因變量轉(zhuǎn)換為二值分類變量或多級(jí)分類變量進(jìn)行研究[33,41]。

      統(tǒng)計(jì)推斷是以某種統(tǒng)計(jì)推斷方法驗(yàn)證自變量與被引因變量之間的關(guān)系,當(dāng)前施/被引影響因素實(shí)證研究主要采用統(tǒng)計(jì)假設(shè)檢驗(yàn)(如Wilcoxon rank-sum test[42]、Mann-Whitney test[43]、Chi-square test[44]、t test[45])、相關(guān)性檢驗(yàn)[46]、回歸分析法(如線性回歸[47]、多元線性回歸[48]、邏輯回歸[49]、多元邏輯回歸[29])等統(tǒng)計(jì)推斷方法。從方法的使用上看,單因素研究多使用假設(shè)檢驗(yàn)和單因素回歸,而多因素研究則主要借助多元回歸分析。假設(shè)檢驗(yàn)適用于定性討論某因素對(duì)被引量有無影響,相關(guān)性檢驗(yàn)和回歸分析法則適合于估計(jì)影響的程度。多元線性回歸雖然能夠給出多個(gè)因素變量對(duì)被引量的影響大小,但作用于高維非線性數(shù)據(jù)時(shí)效果較差,無法有效刻畫各影響因素與被引量之間的復(fù)雜關(guān)系。

      2.2 施/被引影響因素應(yīng)用與分析

      被引量預(yù)測[11-13]是施/被引影響因素實(shí)證研究成果的主要應(yīng)用領(lǐng)域之一,該類研究以各種施/被引影響因素為特征指標(biāo),通過機(jī)器學(xué)習(xí)算法構(gòu)建預(yù)測模型,從而實(shí)現(xiàn)對(duì)文獻(xiàn)未來被引次數(shù)的預(yù)測。按預(yù)測年限劃分,主要有短期被引量預(yù)測和長期被引量預(yù)測。前者以文獻(xiàn)發(fā)表早期的信息為基礎(chǔ),估計(jì)文獻(xiàn)自發(fā)表日起5年內(nèi)的被引量,如文獻(xiàn)[12]依據(jù)臨床醫(yī)學(xué)文獻(xiàn)的內(nèi)容信息(文獻(xiàn)內(nèi)容特征因素)和發(fā)表三周內(nèi)在線文獻(xiàn)評(píng)級(jí)數(shù)據(jù)預(yù)測其兩年后的被引量。后者則關(guān)注文獻(xiàn)發(fā)表5年后的被引量,如文獻(xiàn)[11]基于文獻(xiàn)前兩年的被引次數(shù)(文獻(xiàn)影響力因素)、國家數(shù)量(科學(xué)合作程度因素)、論文類型(文獻(xiàn)內(nèi)容特征因素)等信息預(yù)測圖書館與信息科學(xué)期刊文獻(xiàn)發(fā)表5年后的被引量。按研究思路劃分,被引量預(yù)測可轉(zhuǎn)化為分類預(yù)測或回歸預(yù)測。分類預(yù)測的目標(biāo)是將待預(yù)測文獻(xiàn)被引量劃分為多個(gè)等級(jí),如文獻(xiàn)[50]將論文發(fā)表后4年內(nèi)的引用數(shù)量按規(guī)則分為少量(few)、若干(some)、許多(many)三個(gè)類別,并采用貝葉斯分類、邏輯斯蒂回歸、最近鄰等分類算法進(jìn)行預(yù)測。回歸預(yù)測旨在預(yù)測文獻(xiàn)數(shù)年后的被引頻次,如文獻(xiàn)[51]以作者、期刊、文獻(xiàn)三類因素的多個(gè)指標(biāo)為特征,采用高斯過程回歸、決策樹回歸構(gòu)建預(yù)測模型,預(yù)測文獻(xiàn)的短期和長期被引頻次。

      部分被引量預(yù)測研究討論了不同因素特征對(duì)預(yù)測效果的影響,并基于特征有效性或特征排序重要性推斷各影響因素對(duì)文獻(xiàn)被引量的影響。特征有效性指添加或刪除某個(gè)特征后預(yù)測模型準(zhǔn)確率的波動(dòng),核心思想是“若刪除特征A后模型預(yù)測效果大幅降低,則特征A所代表的因素對(duì)被引量有顯著影響”。如文獻(xiàn)[51]發(fā)現(xiàn)刪除作者排名、作者總影響力、作者社交性等特征會(huì)大大降低被引數(shù)預(yù)測的效果,而剔除文獻(xiàn)創(chuàng)新性、主題多樣性等內(nèi)容特征僅造成較小模型損失,依此推論“科研人員在施引他人文獻(xiàn)時(shí)存在偏見,作者因素和期刊因素是影響施引的重要因素”。特征排序重要性的基本思想是“若固定其他特征列不變,打亂特征A列的順序后模型預(yù)測效果大幅降低,則特征A所代表的因素對(duì)被引量有顯著影響”。如文獻(xiàn)[52]基于梯度回歸樹的特征排序重要性判斷不同因素對(duì)被引的影響大小,發(fā)現(xiàn)文獻(xiàn)影響力因素和作者影響力因素比期刊影響因子因素更重要。機(jī)器學(xué)習(xí)方法能夠模擬復(fù)雜的數(shù)學(xué)函數(shù),擬合多因素與被引量之間的數(shù)學(xué)關(guān)系,但尚無研究證明特征有效性和特征排序重要性具備可加性(即多個(gè)因素整體特征得分不等于各單因素特征得分之和),不適用于各影響因素之間的數(shù)值比較?;诖?,本研究結(jié)合機(jī)器學(xué)習(xí)的復(fù)雜建模能力與SHAP值的可加性性質(zhì),解決特征有效性和特征排序重要性在影響因素?cái)?shù)值比較分析上的適用性問題。

      3 研究方法

      3.1 研究框架

      算法歸因(又稱數(shù)據(jù)驅(qū)動(dòng)歸因,Data-driven Attribution)是一種基于機(jī)器學(xué)習(xí)算法的歸因方法,最早應(yīng)用于互聯(lián)網(wǎng)廣告營銷的歸因問題。文獻(xiàn)[53]指出引入機(jī)器學(xué)習(xí)能為信息行為分析提供新的方法,是信息系統(tǒng)領(lǐng)域重要的研究趨勢之一。盡管機(jī)器學(xué)習(xí)算法能從數(shù)據(jù)中發(fā)現(xiàn)魯棒的模式,以其為工具執(zhí)行探索性歸納任務(wù)可為構(gòu)建和測試?yán)碚撎峁┯幸鎱⒖糩54-55],但缺乏解釋性的預(yù)測過程使其備受質(zhì)疑[54]。受可解釋機(jī)器學(xué)習(xí)研究啟發(fā)[56],本文構(gòu)建了一個(gè)基于算法歸因的實(shí)證研究框架(圖1),該框架運(yùn)用機(jī)器學(xué)習(xí)從大規(guī)模數(shù)據(jù)中挖掘施/被引相關(guān)變量間的關(guān)系模式,以可解釋機(jī)器學(xué)習(xí)方法SHAP (Shapley Additive exPlanations)增強(qiáng)預(yù)測模型的透明度,實(shí)現(xiàn)基于算法的可信探索性歸因分析。

      算法歸因?qū)嵶C研究框架的執(zhí)行步驟如下:(1)數(shù)據(jù)樣本選擇與切分,根據(jù)研究目標(biāo)選擇合適的數(shù)據(jù)來源,并劃分出訓(xùn)練集和測試集樣本;(2)目標(biāo)變量識(shí)別與測度,基于已有理論研究成果,確定需進(jìn)行歸因的自變量與因變量;(3)預(yù)測模型訓(xùn)練、評(píng)估與選擇,采用不同的機(jī)器學(xué)習(xí)算法,在訓(xùn)練集上訓(xùn)練預(yù)測模型,在測試集上評(píng)估預(yù)測模型的效果,并選出最佳預(yù)測模型以供后續(xù)解釋器建模;(4)解釋器模型構(gòu)建,運(yùn)用可解釋機(jī)器學(xué)習(xí)方法SHAP 構(gòu)建預(yù)測模型的解釋器,并計(jì)算全部樣本各自變量因素的SHAP值;(5)基于樣本的SHAP值進(jìn)行探索性歸因分析。

      圖1 算法歸因研究框架圖Fig. 1 Framework of Algorithmic Attribution Research

      3.2 變量及測度

      本文以參考文獻(xiàn)在Y年是否被LIS領(lǐng)域?qū)W者多次引用為因變量 ,以施/被引影響因素為自變量(1)多次引用即引用次數(shù)大于1,標(biāo)記為1。反之,非多次引用標(biāo)記為0。,通過探尋因變量與自變量之間的量化關(guān)系,分析LIS領(lǐng)域?qū)W者在不同時(shí)期的施引影響因素大小及變化。表1歸納了當(dāng)前施/被引影響因素研究中出現(xiàn)的主要影響因素、所持觀點(diǎn)或假設(shè)、主要研究結(jié)論及代表性文獻(xiàn)。鑒于MAG數(shù)據(jù)限制和研究設(shè)計(jì),最終選擇14個(gè)因素及相應(yīng)指標(biāo)作為自變量進(jìn)行研究。

      3.3 預(yù)測模型訓(xùn)練、評(píng)估與選擇

      與統(tǒng)計(jì)學(xué)歸因方法不同,算法歸因通過機(jī)器學(xué)習(xí)算法構(gòu)建預(yù)測模型,挖掘數(shù)據(jù)間的潛在模式,擬合自變量與因變量間的量化關(guān)系。算法挖掘復(fù)雜模式的能力不同,構(gòu)建的預(yù)測模型效果存在差異。選擇預(yù)測效果更好的算法和模型,對(duì)揭示(逼近)變量間的實(shí)際量化關(guān)系是有益的[54]。本文采用線性支持向量機(jī)(Linear SVC)、多層感知機(jī)神經(jīng)網(wǎng)絡(luò)(MLP)、梯度回歸樹(GBDT)三種常用機(jī)器學(xué)習(xí)算法,在訓(xùn)練集樣本上訓(xùn)練預(yù)測模型,并通過測試集樣本評(píng)估不同模型的效果。模型評(píng)估指標(biāo)采用分類任務(wù)常用指標(biāo)正確率,具體計(jì)算公式如下:

      其中TP為預(yù)測標(biāo)記為1的正確樣本數(shù),TN為預(yù)測標(biāo)記為0的正確樣本數(shù),M為預(yù)測的總樣本數(shù)。

      3.4 解釋器模型構(gòu)建

      相較于實(shí)證研究中常用的線性回歸,復(fù)雜機(jī)器學(xué)習(xí)算法能更好地?cái)M合數(shù)據(jù)樣本,輸出與因變量更接近的預(yù)測值。但算法是以高維非線性形式構(gòu)建變量間數(shù)學(xué)關(guān)系,難以回答歸因分析中基本的問題,即自變量X增加或減少1個(gè)單位量時(shí)因變量的變化大小。具體到本文的研究場景,機(jī)器學(xué)習(xí)模型能根據(jù)作者h(yuǎn)指數(shù)(假設(shè)為11)、期刊影響因子(假設(shè)為4.78)、主題流行度(假設(shè)為100)等指標(biāo)輸出文獻(xiàn)A在2010年被LIS領(lǐng)域?qū)W者多次引用的概率為0.95,但無法解釋0.95的概率有大程度是受h指數(shù)影響,又有多少來源于期刊影響因子的作用。

      表1 施/被引影響因素分析表Table 1 Analysis of Factors Influencing Citation Number

      續(xù)表1

      本文采用基于博弈理論的SHAP方法[90]構(gòu)建預(yù)測模型解釋器,解決高維非線性模型的可解釋性問題。SHAP不僅能有效估計(jì)各特征因素的邊際貢獻(xiàn),同時(shí)能實(shí)現(xiàn)針對(duì)任意單個(gè)樣本的局部解釋,且不易受因素間的多重共線性影響[91-92],可用于量化LIS領(lǐng)域?qū)W者施引行為受參考文獻(xiàn)各因素/指標(biāo)的影響大小。具體而言,給定參考文獻(xiàn)m,其第i個(gè)因素/指標(biāo)的SHAP值為:

      其中{x1,…,xn}表示機(jī)器學(xué)習(xí)模型的特征集合,即表1中各影響因素指標(biāo),n為模型特征總數(shù),{x1,…,xn}/{xi}表示排除特征xi后的特征集合,{x1,…,xn}/{xi}的任一子集記為S,|S|是該子集包含的特征個(gè)數(shù)fm(S∪{xi})表示基于特征集合S和{xi}訓(xùn)練的模型在樣本m上的預(yù)測值,fm(S)則是以S中所有特征訓(xùn)練的模型在樣本m上的預(yù)測值。SHAP的理論基礎(chǔ)和詳細(xì)介紹可參見文獻(xiàn)[90]。

      4 數(shù)據(jù)與實(shí)驗(yàn)設(shè)置

      4.1 數(shù)據(jù)及預(yù)處理

      本文以MAG數(shù)據(jù)集中18本LIS領(lǐng)域期刊(2)以谷歌學(xué)術(shù)Top publications LIS 期刊列表為選擇依據(jù),去除MAG 數(shù)據(jù)集未包含的期刊Aslib Journal of Information Management后共計(jì)18個(gè)期刊。上2000-2019年間232,421篇參考文獻(xiàn)為研究對(duì)象,數(shù)據(jù)預(yù)處理過程如下:①隨機(jī)將每年的參考文獻(xiàn)劃分成訓(xùn)練樣本和測試樣本,各占50%;②對(duì)任意年份Y的每篇參考文獻(xiàn)A,基于MAG全量數(shù)據(jù)計(jì)算A在當(dāng)年被LIS領(lǐng)域?qū)W者引用的次數(shù),即18本LIS期刊Y年發(fā)表的文章中有幾篇文獻(xiàn)引用了參考文獻(xiàn)A;③依據(jù)MAG全量數(shù)據(jù)計(jì)算每篇參考文獻(xiàn)A在年份Y的各項(xiàng)影響因素指標(biāo)(見4.2節(jié));④MAG中部分文獻(xiàn)元數(shù)據(jù)字段缺失,導(dǎo)致參考文獻(xiàn)的指標(biāo)計(jì)算為空值,剔除包含空值項(xiàng)的無效參考文獻(xiàn)樣本后,最終數(shù)據(jù)時(shí)間分布如表2所示。其中發(fā)表文獻(xiàn)篇數(shù)為MAG數(shù)據(jù)集中18本期刊所在年的發(fā)表文章總數(shù),參考文獻(xiàn)總樣本數(shù)為MAG數(shù)據(jù)集中所在年發(fā)表文獻(xiàn)對(duì)應(yīng)的非重復(fù)參考文獻(xiàn)數(shù),一篇參考文獻(xiàn)在特定年可被18本期刊中多篇文章重復(fù)引用,參考文獻(xiàn)有效樣本數(shù)為執(zhí)行第④步預(yù)處理后剩余的參考文獻(xiàn)數(shù)。

      表2 2000-2019年數(shù)據(jù)樣本時(shí)間分布表Table 2 Annual Statistical Table of Data Samples from 2000 to 2019

      4.2 指標(biāo)計(jì)算說明

      主題內(nèi)容熱度(F8)和主題多樣性(F9)的計(jì)算公式如下:

      其中p(ti|r)表示參考文獻(xiàn)r屬于ti主題的概率,該概率通過gensim工具包(3)https://radimrehurek.com/gensim/在MAG數(shù)據(jù)集全量標(biāo)題和摘要文本上訓(xùn)練LDA模型獲得。

      文獻(xiàn)時(shí)效性(F13)指參考文獻(xiàn)被引年td與參考文獻(xiàn)發(fā)表年tr之差,記為PaperAge=td-tr。作者學(xué)術(shù)表現(xiàn)(F14)為參考文獻(xiàn)r所有作者在被引年td的h指數(shù)之和,作者生產(chǎn)力(F15)計(jì)算參考文獻(xiàn)r所有作者在被引年td的累積發(fā)文量之和,作者影響力(F17)是參考文獻(xiàn)r所有作者在被引年td的累積被引量之和,作者活躍程度(F18)指參考文獻(xiàn)r所有作者在被引年td的總發(fā)文量。期刊影響力(F19)、期刊長期聲譽(yù)(F20)和期刊短期聲譽(yù)(F21)均以參考文獻(xiàn)被引年為時(shí)間節(jié)點(diǎn)計(jì)算。文獻(xiàn)信息量(F2)直接使用參考文獻(xiàn)在MAG中起止頁碼之差計(jì)算,科學(xué)合作程度(F16)則統(tǒng)計(jì)參考文獻(xiàn)在MAG中作者字段的人數(shù)。文獻(xiàn)創(chuàng)新性(F4)以參考文獻(xiàn)被引年tr為時(shí)間計(jì)算節(jié)點(diǎn),在MAG全量數(shù)據(jù)集上獲取共被引期刊對(duì)及共性值(commonness),并依據(jù)文獻(xiàn)[63]所述過程按10百分位計(jì)算。

      4.3 模型設(shè)置與選擇

      線性支持向量機(jī)和多層感知機(jī)神經(jīng)網(wǎng)絡(luò)采用scikit-learn工具包(4)https://scikit-learn.org/實(shí)現(xiàn),梯度回歸樹采用XGBoost工具包(5)https://github.com/dmlc/xgboost實(shí)現(xiàn),所有算法均采用貪心算法在訓(xùn)練集上取得最優(yōu)參數(shù),并在測試集上獲取模型評(píng)分。梯度回歸樹的正確率為0.82,線性支持向量機(jī)的正確率為0.80,多層感知機(jī)神經(jīng)網(wǎng)絡(luò)的正確率為0.79。理論上,使用的機(jī)器學(xué)習(xí)算法不同,會(huì)形成不同的決策邊界及模型函數(shù)。以不同的函數(shù)模型為基礎(chǔ),SHAP必然輸出不完全一致的歸因結(jié)果。在傳統(tǒng)回歸分析中,一般認(rèn)為回歸函數(shù)擬合效果越好,則回歸系數(shù)的解釋性和可靠性越強(qiáng)。同理,算法歸因時(shí)可采用效果最佳的預(yù)測模型作為最優(yōu)解釋目標(biāo)函數(shù)。基于此樸素思想,本文選擇梯度回歸樹作為待解釋的預(yù)測模型,并采用SHapley Additiveex Planations工具包(6)https://github.com/slundberg/shap構(gòu)建模型解釋器。

      5 結(jié)果與分析

      5.1 因素重要性分析

      本文依據(jù)公式(2)計(jì)算出每篇參考文獻(xiàn)樣本在各因素上的SHAP值,然后對(duì)樣本在同一因素上的SHAP值進(jìn)行求和平均,最終得到各因素的SHAP值即參考文獻(xiàn)各因素對(duì)該文獻(xiàn)被LIS領(lǐng)域?qū)W者多次引用的影響程度。SHAP方法滿足可加性(additivity)原理[93],期刊因素的總SHAP值可用各子因素SHAP值之和表示,同理文獻(xiàn)因素和作者因素亦可通過各子因素SHAP值之和求得。

      圖2展示了文獻(xiàn)因素、作者因素、期刊因素的SHAP值及各子因素的SHAP值。由圖可知,LIS領(lǐng)域?qū)W者施引文獻(xiàn)時(shí)考慮的首要因素為文獻(xiàn)因素,次要因素為期刊因素,作者因素對(duì)其施引行為影響最小。在文獻(xiàn)因素中,文獻(xiàn)影響力的SHAP值最大,其次是文獻(xiàn)時(shí)效性,且兩者SHAP值之和占文獻(xiàn)因素SHAP值的一半,表明LIS領(lǐng)域?qū)W者施引參考文獻(xiàn)時(shí)十分注重文獻(xiàn)的被引頻次和文獻(xiàn)的發(fā)表時(shí)間。文獻(xiàn)的創(chuàng)新性和主題內(nèi)容熱度SHAP值均大于0.3,表明兩者是LIS領(lǐng)域?qū)W者施引時(shí)比較看重的文獻(xiàn)因素。文獻(xiàn)信息量則是LIS領(lǐng)域?qū)W者最不注重的文獻(xiàn)因素。在期刊因素中,相較于期刊影響因子和期刊短期聲譽(yù),LIS領(lǐng)域?qū)W者更看重期刊的長期聲譽(yù),傾向于引用長期聲譽(yù)高的期刊文獻(xiàn)。在作者因素中,僅有作者影響力因素的SHAP值大于0.3,其他子因素的SHAP值都較小,表明LIS領(lǐng)域?qū)W者施引參考文獻(xiàn)時(shí)沒有過多考慮作者身份。

      圖2 基于SHAP 的因素重要性分析圖Fig. 2 Factor Importance Analysis based on SHAP

      5.2 因素重要性的時(shí)間變化分析

      本文以表2中每個(gè)年份的所有參考文獻(xiàn)為樣本,分別計(jì)算文獻(xiàn)因素、作者因素、期刊因素的SHAP值,并依據(jù)公式計(jì)算各因素的當(dāng)年占比。公式中,I是文獻(xiàn)因素、作者因素、期刊因素的合集,i表示其中一個(gè)因素,φi為因素i的SHAP值,wi為該因素在當(dāng)年樣本上的占比。圖3展示了各因素重要性占比的變化趨勢 。在文獻(xiàn)因素中(7)由于部分因素?cái)?shù)值較小,以單年計(jì)量存在劇烈波動(dòng),因此本文以5年為一個(gè)間隔計(jì)算各因素SHAP 值,即因素在第i 年的SHAP 取值為i-2至i+2這5年的求和平均。,文獻(xiàn)信息量、文獻(xiàn)創(chuàng)新性、主題內(nèi)容熱度、內(nèi)容受眾廣度都呈現(xiàn)出遞減趨勢,而文獻(xiàn)影響力和文獻(xiàn)時(shí)效性因素占比則呈上升趨勢??赡茉蚴牵弘S著發(fā)表文獻(xiàn)數(shù)量的急劇增大,LIS領(lǐng)域?qū)W者難以閱讀所有文獻(xiàn),無法完全依據(jù)文獻(xiàn)的實(shí)質(zhì)內(nèi)容因素進(jìn)行價(jià)值判斷和施引;而學(xué)術(shù)數(shù)據(jù)庫和學(xué)術(shù)搜索引擎是學(xué)者獲取相關(guān)研究的主要渠道,兩者多提供基于文獻(xiàn)影響力(被引頻次)和文獻(xiàn)時(shí)效性(發(fā)表時(shí)間)的排序功能,使得影響力較高、時(shí)效性較強(qiáng)的文獻(xiàn)更易被LIS領(lǐng)域?qū)W者所閱讀和引用 。

      圖4展示了文獻(xiàn)因素、作者因素和期刊因素隨年份的變化趨勢。由圖可知,因素重要性的變化大體可分為兩個(gè)區(qū)間,即2000-2007年和2007-2019年。2000-2007年間,文獻(xiàn)因素的占比總體呈現(xiàn)下降趨勢,此時(shí)期刊因素占比從25%上升至30%,作者因素占比也有較小幅度的上升(約2%)。2007-2019年間,文獻(xiàn)因素占比持續(xù)增加,期刊因素占比變化較為平緩,而作者因素占比則呈逐年遞減趨勢。針對(duì)導(dǎo)致上述趨勢的主要原因,本文提供的一個(gè)解釋是:2000-2007年間LIS領(lǐng)域?qū)W者多以學(xué)科內(nèi)期刊為知識(shí)來源(此時(shí)他們的參考文獻(xiàn)來源于本領(lǐng)域期刊的占比較高,見圖4下半部分),這一時(shí)期LIS學(xué)者對(duì)其參考文獻(xiàn)的作者較為熟悉,因此作者因素對(duì)她/他們的施引行為具有更強(qiáng)影響;而2007年之后隨著LIS領(lǐng)域?qū)W者更多借鑒其他學(xué)科領(lǐng)域的研究成果,由于對(duì)其他學(xué)科領(lǐng)域?qū)W者并不熟悉,此時(shí)則主要依據(jù)文獻(xiàn)因素和期刊因素來判斷是否應(yīng)該施引。

      圖3 基于SHAP 值的各子因素重要性時(shí)間變化圖Fig. 3 The Change Trend of the Importance of Each Sub-factor

      圖4 基于SHAP 值的三大因素重要性時(shí)間變化圖Fig. 4 The Change Trend of the Importance of the Three Major Factors

      5.3 因素效應(yīng)關(guān)系分析

      圖5展示了各因素的SHAP依賴圖,每個(gè)子圖中的一個(gè)點(diǎn)表示一個(gè)參考文獻(xiàn)樣本,點(diǎn)的縱坐標(biāo)表示樣本在該因素的SHAP值,橫坐標(biāo)表示樣本在該因素上的取值,(log)標(biāo)記指因素橫軸上的刻度為實(shí)際值的對(duì)數(shù)。若樣本點(diǎn)的SHAP值大于0,則樣本的因素取值對(duì)LIS領(lǐng)域?qū)W者的施引行為產(chǎn)生正向影響,增加LIS領(lǐng)域?qū)W者對(duì)該參考文獻(xiàn)樣本的引用概率。反之,若樣本點(diǎn)的SHAP值小于0,表示樣本的因素取值對(duì)LIS領(lǐng)域?qū)W者的施引行為產(chǎn)生負(fù)向影響,降低LIS領(lǐng)域?qū)W者對(duì)該參考文獻(xiàn)樣本的引用概率。

      由圖5可知,隨著文獻(xiàn)影響力數(shù)值的增大,LIS領(lǐng)域?qū)W者施引該參考文獻(xiàn)的可能性逐漸增大,即LIS領(lǐng)域?qū)W者傾向引用文獻(xiàn)影響力更大的參考文獻(xiàn)。文獻(xiàn)影響力數(shù)值大于6之后,所有樣本點(diǎn)的SHAP值均大于0,表明一旦參考文獻(xiàn)的文獻(xiàn)影響力數(shù)值超過6,則會(huì)增加LIS領(lǐng)域?qū)W者對(duì)該參考文獻(xiàn)的引用可能性。文獻(xiàn)時(shí)效性因素則呈現(xiàn)N型變化,當(dāng)文獻(xiàn)時(shí)效性數(shù)值從0增大到3附近時(shí),樣本點(diǎn)的SHAP值逐漸增大,表明LIS領(lǐng)域?qū)W者引用參考文獻(xiàn)的概率增加;此后,文獻(xiàn)時(shí)效性數(shù)值從3到20,樣本點(diǎn)的SHAP值逐漸減小,且從正值變?yōu)樨?fù)值,表明參考文獻(xiàn)被LIS領(lǐng)域?qū)W者引用的概率降低;文獻(xiàn)時(shí)效性數(shù)值大于20之后,樣本點(diǎn)的SHAP值又呈現(xiàn)小幅度上漲,但僅有極少數(shù)樣本點(diǎn)的SHAP值大于0,表明除少數(shù)極為經(jīng)典的文獻(xiàn)之外,參考文獻(xiàn)的發(fā)表時(shí)間過長會(huì)對(duì)LIS領(lǐng)域?qū)W者的施引行為產(chǎn)生負(fù)面影響。文獻(xiàn)主題內(nèi)容熱度因素呈M型變化,過冷或過熱的主題都會(huì)降低LIS領(lǐng)域?qū)W者對(duì)參考文獻(xiàn)的引用概率,文獻(xiàn)內(nèi)容熱度數(shù)值為14和16時(shí),因素SHAP值達(dá)到峰值,表明LIS領(lǐng)域?qū)W者更傾向于引用中等主題熱度的參考文獻(xiàn)。內(nèi)容受眾廣度因素呈先增后緩的趨勢,且內(nèi)容受眾廣度數(shù)值趨近于0時(shí),絕大多數(shù)樣本點(diǎn)的SHAP值為負(fù),表明LIS領(lǐng)域?qū)W者較少引用研究主題特別狹窄的參考文獻(xiàn)。分析參考文獻(xiàn)的學(xué)科領(lǐng)域?qū)傩钥芍?,LIS領(lǐng)域?qū)W者引用的參考文獻(xiàn)屬多學(xué)科領(lǐng)域的占比91.48%,屬單學(xué)科領(lǐng)域的參考文獻(xiàn)占比僅8.52%。LIS領(lǐng)域?qū)W者多借鑒計(jì)算機(jī)科學(xué)(占比19.69%)、經(jīng)濟(jì)學(xué)(占比9.02%)、心理學(xué)(占比8.6%)、政治學(xué)(占比8.33%)和社會(huì)學(xué)(占比7.7%)等跨學(xué)科領(lǐng)域研究成果,較少引用化學(xué)(占比1.95%)、物理學(xué)(占比1.76%)、歷史學(xué)(占比1.17%)、地理學(xué)(占比1.13%)、地質(zhì)學(xué)(占比0.53%)、材料科學(xué)(0.45%)、環(huán)境科學(xué)(0.44%)等學(xué)科的研究。

      科學(xué)合作程度因素SHAP依賴圖表明LIS領(lǐng)域?qū)W者較少引用作者數(shù)量大于5的參考文獻(xiàn),可能是因?yàn)長IS領(lǐng)域?qū)W者關(guān)注的研究問題往往由小團(tuán)隊(duì)合作研究,與物理學(xué)等依賴大項(xiàng)目、多團(tuán)隊(duì)合作的研究不同。作者學(xué)術(shù)表現(xiàn)和作者生產(chǎn)力兩個(gè)因素都存在當(dāng)因素?cái)?shù)值特別大時(shí)SHAP值為負(fù)的現(xiàn)象,進(jìn)一步分析該部分樣本發(fā)現(xiàn),該部分樣本點(diǎn)多為由特別知名學(xué)者發(fā)表在LIS領(lǐng)域外期刊上的文章。當(dāng)作者影響力數(shù)值增大時(shí),樣本點(diǎn)的SHAP值逐漸增大,表明LIS領(lǐng)域?qū)W者引用參考文獻(xiàn)的概率隨參考文獻(xiàn)作者影響力的增加而增大。

      期刊影響因子數(shù)值在10至20之間時(shí),該部分樣本對(duì)應(yīng)的SHAP值多為負(fù)數(shù),主要原因在于LIS領(lǐng)域?qū)W者關(guān)注的管理學(xué)、社會(huì)學(xué)、信息科學(xué)期刊整體影響因子多分布于10以下,而期刊影響因子10至20之間的期刊多為醫(yī)學(xué)、生命科學(xué)等與LIS關(guān)系較遠(yuǎn)的學(xué)科領(lǐng)域。從期刊長期聲譽(yù)因素SHAP依賴圖可知,當(dāng)期刊長期聲譽(yù)數(shù)值大于100之后,SHAP值呈現(xiàn)一個(gè)上揚(yáng)的趨勢,而期刊短期聲譽(yù)因素呈先增加后趨于平緩的模式,表明LIS領(lǐng)域?qū)W者偏好引用期刊長期聲譽(yù)較好的文獻(xiàn)。

      6 發(fā)現(xiàn)與討論

      與已有研究相比,本文主要有以下不同:

      圖5 基于SHAP 的因素效應(yīng)關(guān)系分析圖Fig. 5 Analysis on the Relationship between Factors and Effects

      (1)研究視角由被引向施引轉(zhuǎn)變,文獻(xiàn)[11]以LIS期刊文獻(xiàn)為研究對(duì)象,分析了文獻(xiàn)引用特征、期刊特征和作者特征對(duì)LIS領(lǐng)域文獻(xiàn)被引總數(shù)的影響,本文則以LIS期刊參考文獻(xiàn)為研究對(duì)象,揭示了LIS領(lǐng)域?qū)W者施引參考文獻(xiàn)的特點(diǎn)及偏好。文獻(xiàn)[11]指出文獻(xiàn)被引特征是預(yù)測LIS期刊文獻(xiàn)未來被引量最關(guān)鍵的指標(biāo),與之相似本文發(fā)現(xiàn)文獻(xiàn)因素是LIS領(lǐng)域?qū)W者施引時(shí)的首要考慮因素,期刊因素次之,作者因素最次。在文獻(xiàn)因素中,本文發(fā)現(xiàn)文獻(xiàn)影響力和文獻(xiàn)時(shí)效性對(duì)LIS領(lǐng)域?qū)W者的施引行為起主要影響,文獻(xiàn)創(chuàng)新性和主題內(nèi)容熱度也具有較強(qiáng)影響作用,而文獻(xiàn)信息量和內(nèi)容受眾廣度的影響作用較小。而已有文獻(xiàn)[75]表明計(jì)算機(jī)領(lǐng)域內(nèi)容受眾廣度(主題多樣性)比主題內(nèi)容熱度(主題流行度)和文獻(xiàn)時(shí)效性對(duì)被引量的影響更大。

      (2)研究因素結(jié)論深入細(xì)化,大量研究表明期刊聲譽(yù)與文獻(xiàn)被引量呈正相關(guān)關(guān)系[29,32,42,82],本文進(jìn)一步比較了期刊長期和短期聲譽(yù),發(fā)現(xiàn)相比期刊短期聲譽(yù),LIS領(lǐng)域?qū)W者施引時(shí)更看重期刊長期聲譽(yù),傾向于引用發(fā)表在長期聲譽(yù)較好的期刊上的文章。文獻(xiàn)[71]指出法學(xué)研究的年被引量在文獻(xiàn)發(fā)表后第4年達(dá)到峰值,隨后持續(xù)下降。而本文發(fā)現(xiàn)文獻(xiàn)時(shí)效性SHAP值呈N型變化,LIS領(lǐng)域?qū)W者傾向于引用發(fā)表年限為0-3年的文獻(xiàn),除少數(shù)經(jīng)典文獻(xiàn)外,發(fā)表時(shí)間過長會(huì)對(duì)文獻(xiàn)年被引數(shù)產(chǎn)生負(fù)面影響。已有研究指出主題越熱文獻(xiàn)被引量越高[94],本文發(fā)現(xiàn)過冷或過熱的主題都會(huì)降低LIS領(lǐng)域?qū)W者對(duì)參考文獻(xiàn)的施引概率,且LIS領(lǐng)域?qū)W者較少引用研究主題特別狹窄的參考文獻(xiàn)。

      (3)靜態(tài)估計(jì)向動(dòng)態(tài)變化拓展,已有研究多對(duì)被引影響因素作靜態(tài)分析,主要圍繞因素與LIS文獻(xiàn)被引量之間的關(guān)聯(lián)分析[95-97]或影響程度估計(jì)[11,98]展開。本研究在此基礎(chǔ)上,探索了多個(gè)因素隨時(shí)間的動(dòng)態(tài)變化,結(jié)果發(fā)現(xiàn)2000-2019年間,文獻(xiàn)信息量、文獻(xiàn)創(chuàng)新性、主題內(nèi)容熱度、內(nèi)容受眾廣度和作者影響力等因素對(duì)LIS領(lǐng)域?qū)W者施引行為的影響呈現(xiàn)遞減趨勢,而文獻(xiàn)影響力和文獻(xiàn)時(shí)效性因素作用則逐漸增大,其潛在原因可能是學(xué)術(shù)搜索引擎多提供基于文獻(xiàn)影響力(被引頻次)和文獻(xiàn)時(shí)效性(發(fā)表時(shí)間)的排序功能,導(dǎo)致文獻(xiàn)影響力較高、文獻(xiàn)時(shí)效性較強(qiáng)的文獻(xiàn)更易被學(xué)者所獲取和引用。2000-2007年間,LIS領(lǐng)域?qū)W者較多地引用本領(lǐng)域期刊的文章,而2007年之后則大量引用其他領(lǐng)域期刊上的研究成果,不熟悉其他學(xué)科領(lǐng)域?qū)W者可能導(dǎo)致2007年之后LIS領(lǐng)域?qū)W者施引時(shí)較少考慮作者因素。

      7 結(jié)語

      本文以微軟學(xué)術(shù)圖譜(MAG)作為數(shù)據(jù)來源,采用可解釋機(jī)器學(xué)習(xí)構(gòu)建基于算法歸因的實(shí)證研究框架,對(duì)2000-2019年發(fā)表在LIS領(lǐng)域18本期刊上232,421篇參考文獻(xiàn)進(jìn)行分析,研究了14種因素對(duì)LIS領(lǐng)域?qū)W者施引行為的影響。本文的主要貢獻(xiàn)有:① 介紹了一種基于可解釋機(jī)器學(xué)習(xí)的算法歸因框架,為施引影響因素實(shí)證研究提供了新方法;② 將施引影響因素研究從基于截面數(shù)據(jù)的靜態(tài)分析拓展到基于面板數(shù)據(jù)的動(dòng)態(tài)分析;③ 揭示了LIS領(lǐng)域?qū)W者施引偏好特征,對(duì)設(shè)計(jì)適應(yīng)于LIS領(lǐng)域的科學(xué)評(píng)價(jià)指標(biāo)具有借鑒價(jià)值。

      本文仍存在一定的缺陷:首先,本文選取的施引影響因素及測度指標(biāo)多在文獻(xiàn)粒度,較少考慮文獻(xiàn)內(nèi)容粒度的影響因素和測度指標(biāo);其次,盡管MAG是當(dāng)前公開可獲取的最大學(xué)術(shù)數(shù)據(jù)集之一,但仍有部分參考文獻(xiàn)數(shù)據(jù)樣本的因素指標(biāo)無法計(jì)算,研究只能在部分有效樣本上得出結(jié)論。后續(xù)工作可以進(jìn)一步將研究深入到文獻(xiàn)內(nèi)容片段粒度的影響因素,如引用功能、引用情感等。

      作者貢獻(xiàn)說明

      丁恒:提出研究思路,設(shè)計(jì)研究方案,論文撰寫、修訂與定稿;

      阮靖龍:收集與梳理文獻(xiàn),采集、清洗和分析數(shù)據(jù)。

      支撐數(shù)據(jù)

      支撐數(shù)據(jù)由作者自存儲(chǔ),E-mail:jing86736238@mails.ccnu.edu.cn。

      1、丁恒,阮靖龍.allyear.csv. LIS 領(lǐng)域參考文獻(xiàn)特征數(shù)據(jù)。

      猜你喜歡
      學(xué)者參考文獻(xiàn)領(lǐng)域
      學(xué)者介紹
      學(xué)者簡介
      學(xué)者介紹
      The Muted Lover and the Singing Poet:Ekphrasis and Gender in the Canzoniere*
      領(lǐng)域·對(duì)峙
      青年生活(2019年23期)2019-09-10 12:55:43
      Study on the physiological function and application of γ—aminobutyric acid and its receptors
      東方教育(2016年4期)2016-12-14 13:52:48
      學(xué)者介紹
      新常態(tài)下推動(dòng)多層次多領(lǐng)域依法治理初探
      The Review of the Studies of Trilingual Education in inghai
      肯定與質(zhì)疑:“慕課”在基礎(chǔ)教育領(lǐng)域的應(yīng)用
      宿州市| 吉隆县| 台州市| 静安区| 漯河市| 金溪县| 夏津县| 如皋市| 克拉玛依市| 大关县| 东辽县| 黄山市| 特克斯县| 永善县| 泾源县| 济南市| 梨树县| 襄汾县| 潍坊市| 榆林市| 会宁县| 江山市| 尤溪县| 惠东县| 义马市| 响水县| 桐城市| 枣强县| 杂多县| 湖南省| 辽源市| 通海县| 高安市| 白银市| 墨玉县| 登封市| 涿州市| 烟台市| 迭部县| 抚远县| 建宁县|