關(guān)鍵詞: 引用動(dòng)機(jī); 學(xué)術(shù)生命周期; 成長(zhǎng)期學(xué)者; 主題識(shí)別; 主題演化
DOI:10.3969 / j.issn.1008-0821.2024.08.011
〔中圖分類號(hào)〕G250.2 〔文獻(xiàn)標(biāo)識(shí)碼〕A 〔文章編號(hào)〕1008-0821 (2024) 08-0110-14
隨著知識(shí)社會(huì)的發(fā)展, 學(xué)者作為知識(shí)生產(chǎn)和學(xué)術(shù)研究的微觀主體, 受到了越來(lái)越多的關(guān)注。通過(guò)對(duì)學(xué)者特征的研究, 可以有效揭示科學(xué)知識(shí)的生產(chǎn)規(guī)律。Merton R K[1] 通過(guò)對(duì)學(xué)者個(gè)體的學(xué)術(shù)活動(dòng)行為進(jìn)行研究, 首次提出科學(xué)界存在“馬太效應(yīng)” 現(xiàn)象; Cole J 等[2] 基于學(xué)者的科研成果產(chǎn)出, 剖析了科研產(chǎn)出性別分層化的“學(xué)術(shù)產(chǎn)出之謎”; Cao C[3]應(yīng)用科學(xué)社會(huì)學(xué)的方法系統(tǒng)地分析了中國(guó)科學(xué)院院士的成長(zhǎng)規(guī)律, 為后續(xù)研究做出了標(biāo)準(zhǔn)示范。這些研究都從不同角度探討了學(xué)者在不同階段所呈現(xiàn)出的不同特征。根據(jù)學(xué)術(shù)生命周期理論, 學(xué)者的學(xué)術(shù)生涯可以劃分為萌芽期、成長(zhǎng)期、成熟期和衰退期4 個(gè)階段。其中, 成長(zhǎng)期是學(xué)者學(xué)術(shù)生命周期中的關(guān)鍵期。在這一階段, 學(xué)者經(jīng)過(guò)萌芽期的積累, 在學(xué)術(shù)界站穩(wěn)腳跟并開始陸續(xù)產(chǎn)出科研成果, 其發(fā)文數(shù)量迅速增長(zhǎng), 發(fā)文質(zhì)量也隨之提升。這一時(shí)期學(xué)者的學(xué)術(shù)關(guān)注點(diǎn)、研究方向和引用行為可能對(duì)其未來(lái)產(chǎn)出產(chǎn)生深遠(yuǎn)影響。
在科研創(chuàng)作時(shí), 學(xué)者往往需要在對(duì)前人的成果進(jìn)行系統(tǒng)地梳理、學(xué)習(xí)和繼承的基礎(chǔ)上, 才能有所突破從而得出新的科研成果。為了達(dá)到這一目標(biāo),學(xué)者不僅要關(guān)注自己的科研產(chǎn)出, 還要關(guān)注自己的科研引用??蒲幸檬菍W(xué)者與前人和同行進(jìn)行學(xué)術(shù)對(duì)話和交流的重要方式, 它反映了學(xué)者對(duì)已有知識(shí)的認(rèn)識(shí)、評(píng)價(jià)和利用。廣泛參考國(guó)內(nèi)外相關(guān)高質(zhì)量的研究論文, 對(duì)科學(xué)問(wèn)題的提出、研究方案的制定和學(xué)術(shù)論文的寫作至關(guān)重要。而引用動(dòng)機(jī)承載了學(xué)者引用該文獻(xiàn)的目的和情感偏向, 通過(guò)對(duì)學(xué)者引用動(dòng)機(jī)的演化分析, 可以追蹤學(xué)者在成長(zhǎng)期內(nèi)對(duì)不同主題的關(guān)注程度和變化趨勢(shì), 深入了解成長(zhǎng)期學(xué)者在學(xué)術(shù)發(fā)展中的思考、選擇和轉(zhuǎn)變, 為更精準(zhǔn)的學(xué)術(shù)導(dǎo)向提供依據(jù)。
選取成長(zhǎng)期學(xué)者作為研究對(duì)象有利于深入了解這一關(guān)鍵階段的學(xué)術(shù)發(fā)展特點(diǎn), 為揭示學(xué)術(shù)生產(chǎn)的主題特征提供有力支持。本文探討學(xué)者在學(xué)術(shù)成長(zhǎng)期的引用動(dòng)機(jī)特征, 提出將主題模型與引用動(dòng)機(jī)結(jié)合的思想, 對(duì)成長(zhǎng)期學(xué)者發(fā)文進(jìn)行不同引用動(dòng)機(jī)下的主題演化分析, 探測(cè)其主題分布與變化, 了解成長(zhǎng)期學(xué)者在不同引用動(dòng)機(jī)下的主題選擇和變化趨勢(shì),從而更深入地揭示科研人才的成長(zhǎng)軌跡, 有助于科研管理者制定有針對(duì)性的引導(dǎo)和支持策略, 促進(jìn)學(xué)者更好地發(fā)展和取得成就, 對(duì)于培養(yǎng)更具潛力和創(chuàng)新力的科研人才具有指導(dǎo)意義。
1 相關(guān)研究
1.1 學(xué)術(shù)生命周期理論研究
生命周期這一概念源于生物學(xué), 該理念一經(jīng)提出便受到廣泛關(guān)注, 隨即應(yīng)用到各行各業(yè)。學(xué)術(shù)生命周期理論是將生命周期概念引入學(xué)術(shù)領(lǐng)域的一種創(chuàng)新性應(yīng)用。該理論將個(gè)體學(xué)者的職業(yè)發(fā)展過(guò)程視為一個(gè)動(dòng)態(tài)的、經(jīng)歷多個(gè)階段的生命周期, 類似于生物學(xué)中生物個(gè)體從誕生、成長(zhǎng)、成熟到衰老的過(guò)程。現(xiàn)有研究表明, 學(xué)者的學(xué)術(shù)生涯同樣也具有生命周期, 隨時(shí)間經(jīng)歷著萌芽、成長(zhǎng)、成熟、衰退等過(guò)程[4-6] 。萌芽期的科研人員處于知識(shí)學(xué)習(xí)和積累的階段, 科研產(chǎn)出方面剛剛起步, 學(xué)術(shù)影響力上升幅度較小; 步入成長(zhǎng)期后, 科研人員逐步產(chǎn)生成績(jī),有穩(wěn)定的科研產(chǎn)出表現(xiàn), 并致力于創(chuàng)造更多的科研成果, 科研事業(yè)處于蒸蒸日上的階段; 成熟期的學(xué)者已經(jīng)逐步建立和獲得學(xué)術(shù)地位, 達(dá)到學(xué)術(shù)產(chǎn)出的高峰期, 學(xué)術(shù)影響力呈現(xiàn)出先上升后下降的趨勢(shì);進(jìn)入衰退期的科研人員更多地將科研精力轉(zhuǎn)移到人才培養(yǎng)指導(dǎo)上, 而知識(shí)相對(duì)逐漸老化, 同時(shí)創(chuàng)造力衰減, 因而學(xué)術(shù)影響力呈現(xiàn)出明顯下降的趨勢(shì)。
學(xué)術(shù)生命周期的相關(guān)研究主要針對(duì)不同階段的學(xué)者特征展開。Sabharwal M[7] 通過(guò)實(shí)證發(fā)現(xiàn), 在計(jì)算機(jī)、信息科學(xué)等學(xué)科中, 由于知識(shí)的快速更新,處于職業(yè)生涯早期和中期的科研人員比職業(yè)生涯晚期的學(xué)者更富有成效; Abramo G 等[8] 使用考慮論文數(shù)量和影響的生產(chǎn)率指標(biāo)來(lái)考察意大利全職教授的科研表現(xiàn), 發(fā)現(xiàn)科研表現(xiàn)和年齡呈單調(diào)負(fù)相關(guān);倪蓉等[9] 計(jì)算學(xué)者在各學(xué)術(shù)年齡點(diǎn)的發(fā)文數(shù)量均值,發(fā)現(xiàn)學(xué)術(shù)年齡小于20 年時(shí), 學(xué)術(shù)產(chǎn)出先平穩(wěn)上升,后呈現(xiàn)快速增長(zhǎng)的特征, 這兩個(gè)階段分別稱為學(xué)術(shù)孕育期和發(fā)展期, 自第21 年起至第35 年, 學(xué)術(shù)產(chǎn)出量趨于穩(wěn)定且保持在一個(gè)較高水平, 隨后則進(jìn)入衰退期; 方勇等[10] 通過(guò)對(duì)國(guó)家杰出青年科學(xué)基金負(fù)責(zé)人的回溯性分析發(fā)現(xiàn), 杰青基金項(xiàng)目負(fù)責(zé)人在不同的成長(zhǎng)階段呈現(xiàn)出不同的學(xué)術(shù)價(jià)值和科研特征;王曰芬等[11] 基于復(fù)雜網(wǎng)絡(luò)分析方法, 探究不同生命周期階段中科學(xué)合作網(wǎng)絡(luò)整體結(jié)構(gòu)特征與分布,以及個(gè)體高影響力學(xué)者的成長(zhǎng)與演化特征。
1.2引用動(dòng)機(jī)研究
引用動(dòng)機(jī)指的是施引作者對(duì)被引文獻(xiàn)的引用目的或意圖, 反映的是施引文獻(xiàn)與被引文獻(xiàn)之間的關(guān)聯(lián)。與之相似的表述還有引用目的、引用功能等[12] ,以下統(tǒng)稱為引用動(dòng)機(jī)。目前, 國(guó)內(nèi)外學(xué)術(shù)界針對(duì)引用動(dòng)機(jī)的研究大致可總結(jié)為引用動(dòng)機(jī)的分類研究與基于引用動(dòng)機(jī)的引用行為分析。
在引用動(dòng)機(jī)的分類研究中, Garfield E[13] 根據(jù)被引文獻(xiàn)在施引文獻(xiàn)中的位置、文字內(nèi)容和引用方式等, 推斷歸納出15 種引用動(dòng)機(jī), 為后續(xù)的相關(guān)研究奠定基礎(chǔ); Moravcsik M J 等[14] 利用二分法,從概念性或操作性引用、陳述性或敷衍性引用、擴(kuò)展或繼承性引用、質(zhì)疑或否定性引用4 個(gè)維度對(duì)引用動(dòng)機(jī)進(jìn)行分類; 崔紅[15] 將我國(guó)科技人員的引文動(dòng)機(jī)分類為主題性引用、背景性引用、尊重性引用和方法性引用; 邱均平等[16] 將引用行為看作科研人員的一種信息行為, 并在總結(jié)前人研究的基礎(chǔ)上, 將引用動(dòng)機(jī)的類別劃分為內(nèi)在引用動(dòng)機(jī)和外在引用動(dòng)機(jī)兩類。而引用動(dòng)機(jī)的識(shí)別方法主要依靠利用訪談法、問(wèn)卷調(diào)查法等, 直接調(diào)研作者引用動(dòng)機(jī)[17-18] 、利用引文內(nèi)容語(yǔ)義信息進(jìn)行引用動(dòng)機(jī)的人工標(biāo)注[19] 或計(jì)算機(jī)自動(dòng)標(biāo)注[20-21] 等方法。目前, 關(guān)于引用動(dòng)機(jī)的分類體系眾多, 學(xué)界對(duì)此尚未形成一致共識(shí)?;谝脛?dòng)機(jī)的引用行為分析層面, 舒安琴等[22] 通過(guò)解析施引作者的引用動(dòng)機(jī), 提出不正當(dāng)引用行為的識(shí)別方法; 劉運(yùn)梅等[23] 基于對(duì)功能性引用動(dòng)機(jī)和情感類引用動(dòng)機(jī)兩大類引用動(dòng)機(jī)的標(biāo)注,深入挖掘三角引用現(xiàn)象中隱含的引用規(guī)律。
1.3 主題演化研究
按照主題的識(shí)別方法, 主題演化相關(guān)研究可以劃分為基于共詞分析的主題演化與基于概率模型的主題演化。共詞分析通過(guò)統(tǒng)計(jì)語(yǔ)料中詞語(yǔ)間的共現(xiàn)關(guān)系表征詞語(yǔ)間的親疏關(guān)系, 進(jìn)而揭示信息的內(nèi)容關(guān)聯(lián)。孟璇等[24] 從共詞網(wǎng)絡(luò)視角出發(fā), 通過(guò)對(duì)關(guān)鍵詞語(yǔ)義類型的劃分探究主題維度下研究方法的演化情況; 俞立平等[25] 通過(guò)詞頻分析與共詞網(wǎng)絡(luò)分析深入挖掘科研誠(chéng)信政策文本, 總結(jié)了我國(guó)科研誠(chéng)信政策的變化過(guò)程與演化特征。主題模型能有效地提取文本中隱含的主題信息和語(yǔ)義信息, 因而被廣泛應(yīng)用于主題提取研究中, 熊文靚等[26] 以跨學(xué)科研究為研究對(duì)象, 借助融合Coherence Score、LDA與CSR 的主題模型探索跨學(xué)科研究的宏觀與微觀層次演化特征; 馬建紅等[27] 提出的MW-LDA 通過(guò)多角度改進(jìn)詞匯權(quán)重并構(gòu)造復(fù)合權(quán)值, 以優(yōu)化LDA模型生成特征詞的構(gòu)成; 沈思等[28] 引入詞嵌入技術(shù), 將LDA 與Skip-gram 結(jié)合, 以腫瘤學(xué)領(lǐng)域科技報(bào)告為數(shù)據(jù)源, 對(duì)主題之間的潛在語(yǔ)義關(guān)聯(lián)信息進(jìn)行計(jì)算并用于主題演化分析。
綜上可以發(fā)現(xiàn), 首先, 不少研究已經(jīng)關(guān)注到學(xué)者的科研績(jī)效與學(xué)術(shù)影響力在不同學(xué)術(shù)階段具有不同特征, 但少有研究結(jié)合學(xué)術(shù)生命周期理論對(duì)成長(zhǎng)期學(xué)者的引用動(dòng)機(jī)特征進(jìn)行深入探索; 其次, 針對(duì)引用動(dòng)機(jī)的研究已由早期引用動(dòng)機(jī)類型劃分探討逐漸轉(zhuǎn)移到引用動(dòng)機(jī)應(yīng)用階段, 然而目前對(duì)引用動(dòng)機(jī)的應(yīng)用研究尚未形成一定規(guī)模; 第三, 當(dāng)前關(guān)于主題識(shí)別及其演化的研究一般都是從施引文獻(xiàn)文本內(nèi)容分析角度進(jìn)行主題識(shí)別及其演化分析, 從被引文獻(xiàn)內(nèi)容分析角度進(jìn)行主題識(shí)別及其演化的研究相對(duì)較少。然而, 從被引文獻(xiàn)角度展開主題分析可以有效地揭示施引文獻(xiàn)和被引文獻(xiàn)之間在語(yǔ)義內(nèi)容上的關(guān)聯(lián), 形成引用動(dòng)機(jī)的外在表現(xiàn)形式, 方便引用動(dòng)機(jī)的解釋和說(shuō)明。因此, 本文從引用動(dòng)機(jī)視角出發(fā),面向處于科研高速發(fā)展階段的成長(zhǎng)期學(xué)者, 利用主題演化分析挖掘被引文獻(xiàn)主題間的聯(lián)系和差異, 以此識(shí)別引用動(dòng)機(jī)變化所對(duì)應(yīng)的主題發(fā)展變化, 了解成長(zhǎng)期學(xué)者在不同引用動(dòng)機(jī)下的主題演化軌跡。
2研究思路
本文研究框架如圖1 所示, 主要包括數(shù)據(jù)獲取與預(yù)處理、成長(zhǎng)期學(xué)者識(shí)別、引用動(dòng)機(jī)劃分與主題演化4 個(gè)模塊。首先, 從文獻(xiàn)數(shù)據(jù)庫(kù)中采集圖情檔領(lǐng)域一定時(shí)間范圍內(nèi)公開發(fā)表的論文數(shù)據(jù), 通過(guò)每位學(xué)者的發(fā)文量統(tǒng)計(jì)初步篩選學(xué)者集合; 其次, 利用Zpc 指數(shù)評(píng)價(jià)學(xué)者逐年學(xué)術(shù)影響力, 根據(jù)學(xué)術(shù)影響力的變化速率識(shí)別成長(zhǎng)期學(xué)者; 第三, 基于文本篇章結(jié)構(gòu)對(duì)成長(zhǎng)期學(xué)者的引用動(dòng)機(jī)進(jìn)行劃分, 包括背景、述評(píng)、方法、實(shí)驗(yàn)、分析、總結(jié)6 個(gè)類別;最后, 融合Word2vec 詞向量模型[29] 和BTM(Bite?rm Topic Model) 主題模型[30] 對(duì)被引文獻(xiàn)的篇名、關(guān)鍵詞、摘要進(jìn)行主題提取, 并挖掘相鄰時(shí)間主題間的關(guān)聯(lián)關(guān)系。
2.1成長(zhǎng)期學(xué)者識(shí)別
本研究以學(xué)者的學(xué)術(shù)影響力變化趨勢(shì)作為學(xué)術(shù)生命周期的劃分依據(jù), 由于成長(zhǎng)期學(xué)者的學(xué)術(shù)影響力呈現(xiàn)出快速增長(zhǎng)的特點(diǎn), 因此將學(xué)者集合中學(xué)術(shù)影響力發(fā)展最快的學(xué)者定義為成長(zhǎng)期學(xué)者。學(xué)者的學(xué)術(shù)影響力主要指某一時(shí)期科研人員對(duì)其所在學(xué)科領(lǐng)域內(nèi)其他科研人員及其學(xué)術(shù)研究活動(dòng)的影響范圍和深度, 其根本來(lái)源是學(xué)者研究成果的價(jià)值, 主要體現(xiàn)在研究成果的質(zhì)量和數(shù)量?jī)煞矫?。由于成長(zhǎng)期學(xué)者經(jīng)歷萌芽期的磨練, 已有一定的成果積累, 首先, 根據(jù)普賴斯定律對(duì)核心學(xué)者進(jìn)行初步識(shí)別, 計(jì)算方法如式(1) 所示:
Zpc 指標(biāo)淡化了發(fā)文量的影響, 綜合考慮了作者對(duì)成果的貢獻(xiàn)率大小及成果本身的質(zhì)量, 更有利于對(duì)科研生涯較短的優(yōu)秀年輕學(xué)者的學(xué)術(shù)影響力評(píng)估。因此, 本文利用Zpc 指標(biāo)對(duì)學(xué)者年度學(xué)術(shù)影響力進(jìn)行統(tǒng)計(jì), 并根據(jù)Zpc 指標(biāo)年平均增長(zhǎng)率識(shí)別成長(zhǎng)期學(xué)者。
2.2引用動(dòng)機(jī)劃分
與其他類型文本不同, 學(xué)術(shù)文本一般具有較強(qiáng)的規(guī)范性, 并且內(nèi)部邏輯結(jié)構(gòu)嚴(yán)密。大多數(shù)相關(guān)研究將論文結(jié)構(gòu)劃分為引言、相關(guān)研究、方法、實(shí)驗(yàn)和結(jié)論5 個(gè)部分[34-35] , 這種劃分依據(jù)在理工科論文中具有較高的適用性, 但卻未充分考慮到學(xué)術(shù)論文中對(duì)研究?jī)?nèi)容進(jìn)行理論性探討和分析的章節(jié)部分。因此, 為了提升其在非實(shí)證類論文中的適用性, 本文在上述基礎(chǔ)上, 將論文的結(jié)構(gòu)細(xì)分為引言、述評(píng)、方法、實(shí)驗(yàn)、分析及總結(jié)6 個(gè)部分, 并以此為基礎(chǔ)進(jìn)行后續(xù)研究。
雖然目前對(duì)引用動(dòng)機(jī)的分類尚未形成統(tǒng)一標(biāo)準(zhǔn),但大致可以歸納為科學(xué)性引用動(dòng)機(jī)和戰(zhàn)略性引用動(dòng)機(jī)兩類[36] 。前者是指科研人員為了學(xué)術(shù)規(guī)范等研究科學(xué)性原因而進(jìn)行引用, 后者是指出于一些非學(xué)術(shù)性的主觀考慮, 如更傾向于引用發(fā)表在核心期刊上的學(xué)術(shù)論文等情況進(jìn)行引用。由于論文作者的引文目的是為自身文章服務(wù)的, 不同章節(jié)對(duì)于論文的內(nèi)容表達(dá)具有不同的功能和作用, 如“引言” 部分側(cè)重于介紹研究的背景與目的, “方法” 部分主要介紹研究所采用的方法及理論依據(jù)。作者基于不同的使用目的而選擇所要引用的文獻(xiàn), 因此不同章節(jié)位置的引文往往表征出不同的引用動(dòng)機(jī)。在此基礎(chǔ)上, 本文將科學(xué)性引用動(dòng)機(jī)與論文的篇章結(jié)構(gòu)相互映射[37] , 分別得到背景、述評(píng)、方法、實(shí)驗(yàn)、分析及總結(jié)6 個(gè)二級(jí)結(jié)構(gòu), 引用動(dòng)機(jī)也相應(yīng)劃分為背景引用、述評(píng)引用、方法引用、實(shí)驗(yàn)引用、分析引用、總結(jié)引用6 個(gè)類別, 如表1 所示??紤]到在現(xiàn)有的引文動(dòng)機(jī)分類研究中, 戰(zhàn)略性動(dòng)機(jī)因占比小往往被忽略[19] , 且不易被第三方研究者識(shí)別, 因此本文只對(duì)科學(xué)性動(dòng)機(jī)展開研究。
2.3引用動(dòng)機(jī)主題演化
2.3.1主題提取
本研究使用BTM 短文本主題模型對(duì)被引文獻(xiàn)的篇名、關(guān)鍵詞、摘要等文本內(nèi)容進(jìn)行主題提取。該模型的基本思想是一個(gè)詞對(duì)中的兩個(gè)詞擁有相同的主題, 這些主題來(lái)自整個(gè)語(yǔ)料庫(kù)的混合主題。它利用整個(gè)語(yǔ)料庫(kù)的豐富信息抽樣主題, 通過(guò)詞對(duì)共現(xiàn)模式來(lái)加強(qiáng)主題模型的學(xué)習(xí), 推斷整個(gè)語(yǔ)料庫(kù)全局的主題分布, 克服了短文本稀疏問(wèn)題, 較傳統(tǒng)主題模型能夠挖掘出可解釋性更強(qiáng)的主題。
針對(duì)獲取到的相關(guān)數(shù)據(jù)進(jìn)行預(yù)處理操作, 包括去除特殊字符、中文分詞和去停用詞。在數(shù)據(jù)預(yù)處理的基礎(chǔ)上, 根據(jù)BTM 主題模型對(duì)引文數(shù)據(jù)進(jìn)行處理。首先, 將引文數(shù)據(jù)作為引用動(dòng)機(jī)文檔集合W,并按照年份將每個(gè)時(shí)間段的引文數(shù)據(jù)作為一個(gè)子文檔集Wi(0<i≤6), 其中每一個(gè)子文檔集都是對(duì)應(yīng)時(shí)間段內(nèi)不同引用動(dòng)機(jī)下被引文獻(xiàn)的篇名、關(guān)鍵詞和摘要文本數(shù)據(jù), 對(duì)各個(gè)子文檔集Wi 進(jìn)行數(shù)據(jù)預(yù)處理, 得到對(duì)應(yīng)的分詞結(jié)果文檔; 其次, 對(duì)分詞結(jié)果文檔進(jìn)行BTM 模型訓(xùn)練, 構(gòu)建引用動(dòng)機(jī)主題模型, 并分別將每一子文檔集作為新文檔進(jìn)行主題提取。該模型的詞概率計(jì)算方式如式(4) 所示:
2.3.2 主題演化分析
基于全局詞共現(xiàn)的方法, 利用詞與詞之間的共現(xiàn)關(guān)系來(lái)解決短文本特征稀疏問(wèn)題, 但詞語(yǔ)統(tǒng)計(jì)層面的信息無(wú)法捕捉語(yǔ)義關(guān)系, 在深層語(yǔ)義信息表達(dá)方面未能有較多的考慮。而Word2vec 詞向量模型可以在捕捉文本中詞語(yǔ)的上下文語(yǔ)境信息的同時(shí)發(fā)現(xiàn)隱含的語(yǔ)義關(guān)系, 從語(yǔ)義方面為主題提取帶來(lái)了全新的視角。將BTM 模型與Word2vec詞向量模型結(jié)合起來(lái), 既解決了傳統(tǒng)主題模型(如LDA)無(wú)法處理短文本的數(shù)據(jù)稀疏性問(wèn)題, 又彌補(bǔ)了詞共現(xiàn)模型在上下文語(yǔ)義問(wèn)題上的欠缺, 能夠挖掘到更加連貫以及更有意義的主題。因此, 本研究采用離散化的方式生成各個(gè)時(shí)間窗口不同引用動(dòng)機(jī)分類下的主題抽取語(yǔ)料數(shù)據(jù), 綜合運(yùn)用BTM 主題模型與Word2vec 詞向量模型進(jìn)行主題的抽取與向量化。具體來(lái)說(shuō), 首先, 利用Word2vec 詞向量對(duì)經(jīng)過(guò)預(yù)處理后的被引文獻(xiàn)的篇名、關(guān)鍵詞、摘要等文本內(nèi)容進(jìn)行訓(xùn)練, 對(duì)所有詞語(yǔ)進(jìn)行向量化表示, 輸出與各特征詞最為相似的若干詞, 對(duì)原始語(yǔ)料進(jìn)行擴(kuò)充,構(gòu)成新的語(yǔ)料庫(kù); 其次, 利用BTM 主題模型對(duì)新的語(yǔ)料庫(kù)進(jìn)行訓(xùn)練, 提取主題。
得到各個(gè)時(shí)間段內(nèi)的不同引用動(dòng)機(jī)下的被引文獻(xiàn)主題之后, 需要建立相鄰時(shí)間段各主題之間的關(guān)聯(lián)關(guān)系, 不同時(shí)間段的各個(gè)主題之間的相關(guān)性可以通過(guò)計(jì)算前后時(shí)間段各主題之間的主題相似度對(duì)相鄰時(shí)間段主題之間的關(guān)聯(lián)關(guān)系進(jìn)行挖掘。本研究基于每個(gè)主題中主題詞的概率作為貢獻(xiàn)權(quán)重, 通過(guò)對(duì)主題下所有主題詞的向量加權(quán)取平均得到主題向量, 主題向量計(jì)算公式如式(6) 所示, 并計(jì)算相鄰時(shí)間段主題向量的余弦相似度測(cè)度不同時(shí)間段主題間的相關(guān)性。
假設(shè)每個(gè)動(dòng)機(jī)下一共有n 個(gè)主題, 每個(gè)主題下有k 個(gè)主題詞, i表示該主題下的第i 個(gè)主題詞,即i∈[0,k], Veci 代表第i 個(gè)主題詞經(jīng)過(guò)Word2vec計(jì)算后得到的特征向量, Wi 代表第i 個(gè)主題詞經(jīng)過(guò)BTM 模型計(jì)算后在當(dāng)前主題下的概率值, Vectopic_n代表當(dāng)前主題的加權(quán)向量值。
3 實(shí)證研究
3.1 數(shù)據(jù)獲取與預(yù)處理
本文以圖書情報(bào)與檔案管理學(xué)科領(lǐng)域?qū)W者為研究對(duì)象, 獲?。玻?本圖情領(lǐng)域CSSCI 核心來(lái)源期刊,分別為《中國(guó)圖書館學(xué)報(bào)》《情報(bào)學(xué)報(bào)》《圖書情報(bào)工作》《數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn)》《情報(bào)資料工作》《情報(bào)理論與實(shí)踐》《情報(bào)科學(xué)》《圖書情報(bào)知識(shí)》《大學(xué)圖書館學(xué)報(bào)》《檔案學(xué)研究》《檔案學(xué)通訊》《圖書館雜志》《圖書館論壇》《圖書與情報(bào)》《圖書館學(xué)研究》《圖書館建設(shè)》《情報(bào)雜志》《國(guó)家圖書館學(xué)刊》《現(xiàn)代情報(bào)》《信息資源管理學(xué)報(bào)》,其2016—2020年刊載的成果共21505篇, 刪除序論、專題、會(huì)議通知等不符合要求的文獻(xiàn), 去除重復(fù)和無(wú)效數(shù)據(jù)后, 獲得20269條論文數(shù)據(jù), 共計(jì)發(fā)文學(xué)者17 826位, 如表2 所示。由于成長(zhǎng)期學(xué)者經(jīng)歷萌芽期的磨練, 已有一定的成果積累, 根據(jù)普賴斯定律對(duì)核心學(xué)者進(jìn)行初步識(shí)別, 其中學(xué)者朱慶華發(fā)文量最多, 5 年間發(fā)文113篇, 即ηmax =113, 根據(jù)式(1) 計(jì)算得到核心作者發(fā)表論文數(shù)量的閾值N=7.962, 并利用學(xué)者單位信息對(duì)學(xué)者做同名消歧處理, 刪除發(fā)文量小于8篇的學(xué)者, 最終得到學(xué)者925 位, 發(fā)文共計(jì)10555篇。
3.2成長(zhǎng)期學(xué)者識(shí)別
對(duì)經(jīng)過(guò)初步識(shí)別得到的925位學(xué)者集合, 利用Zpc指數(shù)進(jìn)行學(xué)者篩選。首先, 針對(duì)學(xué)者集合中每一位學(xué)者統(tǒng)計(jì)2016—2020年的逐年發(fā)文量, 獲取每篇論文的作者署名位次與作者總數(shù), 利用上文式(2) 計(jì)算學(xué)者在每篇論文中的貢獻(xiàn)率; 其次, 從社會(huì)科學(xué)版2021年中國(guó)學(xué)術(shù)期刊影響因子年報(bào)獲取每篇論文所屬期刊的5 年綜合影響因子, 將該年度單篇論文的期刊影響因子乘以作者貢獻(xiàn)率并累加求和得到該學(xué)者該年度的Zpc 指數(shù); 最后, 計(jì)算所有學(xué)者的Zpc指數(shù)5 年平均增長(zhǎng)率并排序, 以排名前40 的學(xué)者作為本文實(shí)證研究對(duì)象, 計(jì)算結(jié)果如表3所示。
在此基礎(chǔ)上, 獲取成長(zhǎng)期學(xué)者的五年間全部發(fā)文共746 篇作為初始文獻(xiàn)集合, 并從表2 中獲取初始文獻(xiàn)集合共7960篇中文被引文獻(xiàn)的篇名、關(guān)鍵詞及摘要, 如表4 所示。
3.3引用動(dòng)機(jī)劃分
為了保證引用動(dòng)機(jī)劃分的準(zhǔn)確性, 本研究采用人工標(biāo)注的方式對(duì)中文被引文獻(xiàn)集合進(jìn)行引用動(dòng)機(jī)的標(biāo)注。由3 名本領(lǐng)域?qū)<覅⒄找脛?dòng)機(jī)分類標(biāo)準(zhǔn)對(duì)被引文獻(xiàn)集合引用動(dòng)機(jī)進(jìn)行獨(dú)立標(biāo)注, 針對(duì)有分歧的被引文獻(xiàn)部分進(jìn)行集中討論, 以保證標(biāo)注結(jié)果的一致性與準(zhǔn)確性。在標(biāo)注過(guò)程中, 根據(jù)被引文獻(xiàn)序號(hào)索引到原文中對(duì)應(yīng)的引用位置, 根據(jù)該位置所屬的篇章結(jié)構(gòu)功能標(biāo)注引用動(dòng)機(jī), 劃分結(jié)果及可視化展示分別如表5 和圖2 所示。
從圖2 中的總體情況來(lái)看, 首先, 述評(píng)引用在所有引用動(dòng)機(jī)中占比最大。這是因?yàn)槭鲈u(píng)引用部分主要用于陳述他人工作, 闡明當(dāng)前研究現(xiàn)狀和存在問(wèn)題, 通過(guò)新舊研究的對(duì)比說(shuō)明該研究的創(chuàng)新點(diǎn),因此需要大量引用他人的研究成果。其次, 實(shí)驗(yàn)引用占比較大且自2018年后占比急速下降。學(xué)術(shù)論文作為圖書情報(bào)與檔案管理學(xué)科主要研究對(duì)象之一,經(jīng)常作為實(shí)驗(yàn)數(shù)據(jù)在實(shí)驗(yàn)部分被引用, 導(dǎo)致實(shí)驗(yàn)引用部分占比較大; 而占比急劇下降其中之一的原因在于圖書情報(bào)與檔案管理學(xué)科的跨學(xué)科屬性使得該學(xué)科研究對(duì)象的不斷擴(kuò)充與新生, 如健康信息學(xué)、政策文本量化研究等都為圖情學(xué)科注入新的活力,且成長(zhǎng)期學(xué)者正處于學(xué)術(shù)研究的上升期, 更傾向于關(guān)注新興研究對(duì)象。方法引用主要用于說(shuō)明施引文獻(xiàn)所采用的研究方法的來(lái)源與理論依據(jù), 分析引用主要作為論據(jù)以支撐研究發(fā)現(xiàn)與結(jié)果, 這兩類引用動(dòng)機(jī)在施引文章中具有重要意義, 可以推動(dòng)本學(xué)科理論研究的不斷深入??偨Y(jié)引用主要是為了輔助研究作進(jìn)一步展望, 或?qū)φ掌渌芯糠治瞿壳把芯康木窒扌裕?而此類引用在總體引用情況中相對(duì)較少。
3.4 引用動(dòng)機(jī)主題演化
3.4.1主題提取
對(duì)不同引用動(dòng)機(jī)下的被引文獻(xiàn)數(shù)據(jù)集合進(jìn)行訓(xùn)練, 在Word2vec 模型中采用Skip-gram 算法, 設(shè)置詞向量維度為50 維對(duì)經(jīng)過(guò)分詞后的語(yǔ)料進(jìn)行訓(xùn)練, 選擇詞間相似度大于0.7的詞語(yǔ)對(duì)原始語(yǔ)料進(jìn)行擴(kuò)充, 將構(gòu)造的新的語(yǔ)料庫(kù)輸入BTM 主題模型進(jìn)行訓(xùn)練處理。首先, 將模型的主要參數(shù)設(shè)置為α =50/K, β =0.01,迭代次數(shù)為5 次, 每個(gè)主題所包含的主題詞數(shù)為10 個(gè), 對(duì)2016—2020 年不同時(shí)間區(qū)間不同引用動(dòng)機(jī)下的語(yǔ)料進(jìn)行訓(xùn)練, 得到主題提取結(jié)果; 其次, 根據(jù)PMI-Score 確定最優(yōu)主題數(shù)目, 本文以中文百度百科文章為外部語(yǔ)料庫(kù), 利用式(5) 計(jì)算PMI-Score??紤]到被引文獻(xiàn)語(yǔ)料大小, 研究設(shè)置主題數(shù)目K 的取值范圍為[3,20],取步長(zhǎng)為1 進(jìn)行主題提取, PMI-Score 和主題數(shù)目的關(guān)系分別如圖3~圖7 所示。
PMI-Score 值最大, 其對(duì)應(yīng)的主題數(shù)目最優(yōu)。由圖3~圖7 可知, 在2016 年, 背景引用、述評(píng)引用、方法引用、實(shí)驗(yàn)引用、分析引用和總結(jié)引用的最優(yōu)主題數(shù)目分別為4、4、3、6、3、6 個(gè); 在2017年, 背景引用、述評(píng)引用、方法引用、實(shí)驗(yàn)引用、分析引用和總結(jié)引用的最優(yōu)主題數(shù)目分別為3、3、6、3、3、3 個(gè); 在2018 年, 背景引用、述評(píng)引用、方法引用、實(shí)驗(yàn)引用、分析引用和總結(jié)引用的最優(yōu)主題數(shù)目分別為4、6、4、3、4、3 個(gè); 在2019 年,背景引用、述評(píng)引用、方法引用、實(shí)驗(yàn)引用、分析引用和總結(jié)引用的最優(yōu)主題數(shù)目分別為3、6、3、3、3、8 個(gè); 在2020 年, 背景引用、述評(píng)引用、方法引用、實(shí)驗(yàn)引用、分析引用和總結(jié)引用的最優(yōu)主題數(shù)目分別為4、4、5、3、4、5 個(gè)。最終共提取主題122 個(gè), 基于最優(yōu)主題數(shù)目確定的主題提取結(jié)果如表6 所示。
3.4.2主題關(guān)聯(lián)挖掘
利用式(6) 計(jì)算各主題的主題向量, 并構(gòu)建相鄰時(shí)間段主題關(guān)聯(lián)強(qiáng)度矩陣, 其中2016 年和2017年不同動(dòng)機(jī)下的主題關(guān)聯(lián)強(qiáng)度分布如表7 所示。通過(guò)挖掘主題關(guān)聯(lián)強(qiáng)度可以得到主題演化情況, 如圖8 所示。圖8 展示了2016—2020年不同引用動(dòng)機(jī)下的主題演化鏈, 其中節(jié)點(diǎn)代表主題, 連線表示主題關(guān)聯(lián), 并以不同的顏色體現(xiàn)不同的引用動(dòng)機(jī)。
3.4.3主題演化路徑分析
為研究主題演化過(guò)程的完整路徑, 本文將演化子路徑定義為相鄰時(shí)間切片的主題間路徑, 將演化強(qiáng)度定義為演化子路徑前后主題的相似程度。通過(guò)計(jì)算得到各時(shí)間段演化強(qiáng)度較高的演化子路徑, 如表8 所示。由于演化路徑過(guò)多且有些并不完整, 因此, 本文在構(gòu)成完整演化路徑的基礎(chǔ)上, 對(duì)比相鄰時(shí)間演化主題間的演化強(qiáng)度, 確定演化閾值為0 44,得到主題演化子路徑共170 條。
通過(guò)計(jì)算子路徑上的相鄰主題間演化強(qiáng)度的總和, 選擇得分較高的演化路徑作為成長(zhǎng)期學(xué)者引用動(dòng)機(jī)主題演化的主路徑, 如圖9 所示。將路徑上的相鄰主題間演化強(qiáng)度相加, 計(jì)算總分最高為2 091301779,該路徑為“2016 總結(jié)—圖書館殘疾讀者服務(wù), 2017總結(jié)—協(xié)同過(guò)濾推薦算法,2018總結(jié)—沖動(dòng)行為與應(yīng)急管理, 2019總結(jié)—時(shí)間戳技術(shù), 2020總結(jié)—外部知識(shí)搜索”?,F(xiàn)以此路徑為例進(jìn)行分析。2016年,“圖書館殘疾讀者服務(wù)” 主題聚焦于提升殘疾人群在圖書館中獲取信息的便利程度與質(zhì)量。成長(zhǎng)期學(xué)者認(rèn)為我國(guó)尚未形成相對(duì)完善的圖書館服務(wù)體系, 提出借鑒加拿大在殘疾人方面相對(duì)成熟的服務(wù)經(jīng)驗(yàn)。通過(guò)對(duì)加拿大大學(xué)圖書館的殘疾讀者服務(wù)資源、服務(wù)人員、注冊(cè)制度、服務(wù)項(xiàng)目等方面的分析, 為我國(guó)大學(xué)圖書館提供了有益的啟示, 包括提升服務(wù)意識(shí)、加強(qiáng)服務(wù)資源建設(shè)、實(shí)施專門服務(wù)項(xiàng)目等方面的建議。2017年, 在“協(xié)同過(guò)濾推薦算法” 主題下, 隨著社交網(wǎng)絡(luò)在日常生活中的普及, 成長(zhǎng)期學(xué)者們認(rèn)識(shí)到利用社交網(wǎng)絡(luò)中的好友信任關(guān)系可以有助于解決用戶評(píng)分?jǐn)?shù)據(jù)稀疏性問(wèn)題, 從而提升推薦系統(tǒng)的性能。這一改進(jìn)為推薦系統(tǒng)研究領(lǐng)域帶來(lái)了新的思路與方法。未來(lái)的研究將進(jìn)一步結(jié)合用戶之間的社交關(guān)系, 以實(shí)現(xiàn)更為精準(zhǔn)的個(gè)性化推薦。隨著社交大數(shù)據(jù)的崛起, 將有更多的信息可供挖掘, 從而為推薦系統(tǒng)提供更為豐富、準(zhǔn)確的輸入。這一方向的研究將會(huì)為推薦系統(tǒng)的發(fā)展帶來(lái)新的動(dòng)力與機(jī)遇, 也將為個(gè)性化服務(wù)的實(shí)現(xiàn)提供有力支持。2018年, 在“沖動(dòng)行為與應(yīng)急管理” 主題下, 成長(zhǎng)期學(xué)者們著重關(guān)注了用戶在信息行為中的情感因素。通過(guò)引入認(rèn)知情緒理論和沖動(dòng)行為的視角, 學(xué)者們探究了用戶原創(chuàng)信息分享行為中情感的影響機(jī)制。這一研究不僅為了解用戶原創(chuàng)信息分享的影響因素提供了實(shí)證依據(jù), 也為政府在應(yīng)急管理決策方面以及網(wǎng)站運(yùn)營(yíng)商的策略制定方面提供了有價(jià)值的參考。2019年, “時(shí)間戳技術(shù)”主題聚焦于時(shí)間戳技術(shù)在電子檔案管理中的應(yīng)用。通過(guò)分析電子檔案管理的業(yè)務(wù)技術(shù)需求以及時(shí)間戳技術(shù)的原理和應(yīng)用現(xiàn)狀, 學(xué)者們探討了時(shí)間戳技術(shù)在電子檔案管理中的適用性和可行性, 并提出了在該領(lǐng)域應(yīng)用時(shí)間戳的一些建議。時(shí)間戳技術(shù)作為一種保證信息真實(shí)性的關(guān)鍵技術(shù), 在電子檔案管理中扮演著重要的角色。通過(guò)合理地運(yùn)用時(shí)間戳技術(shù),可以有效地保證電子檔案的真實(shí)性和完整性, 為電子檔案的有效管理提供了有力的技術(shù)支持。2020年,在“外部知識(shí)搜索” 主題下, 成長(zhǎng)期學(xué)者們關(guān)注在開放式創(chuàng)新背景下, 如何進(jìn)行高效的外部知識(shí)搜索以促進(jìn)創(chuàng)新。學(xué)者們深入分析了外部知識(shí)搜索過(guò)程, 并在此基礎(chǔ)上構(gòu)建了基于創(chuàng)新網(wǎng)絡(luò)的外部知識(shí)搜索模型。研究結(jié)果表明, 外部知識(shí)搜索過(guò)程包括外部知識(shí)搜尋、知識(shí)吸收、知識(shí)整合和知識(shí)創(chuàng)造4個(gè)關(guān)鍵階段。此外, 核心企業(yè)和邊緣企業(yè)在外部知識(shí)搜索模型上存在一定的差異性。該研究構(gòu)建的基于創(chuàng)新網(wǎng)絡(luò)的外部知識(shí)搜索模型為企業(yè)明確外部知識(shí)搜索過(guò)程、建立和維系網(wǎng)絡(luò)關(guān)系、開展高效的外部知識(shí)搜索活動(dòng)提供了重要參考和借鑒。這對(duì)于開放式創(chuàng)新的研究和實(shí)踐具有積極的推動(dòng)作用。
4結(jié)語(yǔ)
為了探究成長(zhǎng)期學(xué)者的引用動(dòng)機(jī)特點(diǎn), 本文首先利用Zpc 指標(biāo)識(shí)別成長(zhǎng)期學(xué)者, 再基于文本篇章結(jié)構(gòu)實(shí)現(xiàn)引用動(dòng)機(jī)的分類, 最后結(jié)合BTM 主題模型與Word2vec詞向量模型進(jìn)行主題挖掘, 從主題維度上探索成長(zhǎng)期學(xué)者引用動(dòng)機(jī)的演化軌跡。通過(guò)分析主路徑上圖書館殘疾讀者服務(wù)、協(xié)同過(guò)濾推薦算法、沖動(dòng)行為與應(yīng)急管理、時(shí)間戳技術(shù)以及外部知識(shí)搜索5 個(gè)主題的發(fā)展軌跡, 揭示了成長(zhǎng)期學(xué)者們?cè)冢玻埃保丁玻埃玻澳甑膶W(xué)術(shù)關(guān)注與研究方向的演變。成長(zhǎng)期學(xué)者的研究興趣廣泛多樣, 涉及圖書館服務(wù)、推薦算法、應(yīng)急管理、時(shí)間戳技術(shù)以及外部知識(shí)搜索等多個(gè)方面。這表明在學(xué)術(shù)生涯的成長(zhǎng)階段, 學(xué)者們逐漸形成了自己獨(dú)特的學(xué)術(shù)關(guān)注點(diǎn), 并通過(guò)對(duì)不同主題的深入研究, 為學(xué)科領(lǐng)域的發(fā)展貢獻(xiàn)了多樣化的視角和研究方法。然而, 本文仍存在一定的局限性。由于研究獲取實(shí)驗(yàn)數(shù)據(jù)的局限, 實(shí)證過(guò)程僅面向中文被引文獻(xiàn), 且人工標(biāo)注引用動(dòng)機(jī)的方法的時(shí)間成本較高, 這也是后續(xù)研究和改善的方向。此外, 本文通過(guò)被引文獻(xiàn)篇關(guān)摘信息的主題提取以表征被引主題, 后續(xù)將會(huì)考慮基于引用內(nèi)容更深層次地揭示不同引用動(dòng)機(jī)中的主題演化狀態(tài)。