嚴(yán)煒煒,溫 馨,曹燦瑜
隨著學(xué)科相互交叉與融合,如何實(shí)現(xiàn)自身學(xué)科研究的突破與創(chuàng)新,跟蹤學(xué)科的最新發(fā)展動(dòng)向是科學(xué)研究的基礎(chǔ)工作[1],通過(guò)主題分析法可揭示研究中的主題結(jié)構(gòu)及研究趨勢(shì),幫助學(xué)者發(fā)現(xiàn)自身研究中的薄弱之處及改進(jìn)措施。在科學(xué)研究中,從不同源的科技文獻(xiàn)中識(shí)別挖掘科研熱點(diǎn),同樣對(duì)開展下一步的科研工作具有指導(dǎo)意義[2]。雖然當(dāng)前科研主題挖掘主要采用傳統(tǒng)學(xué)術(shù)媒介作為數(shù)據(jù)來(lái)源,但隨著社交網(wǎng)絡(luò)及其應(yīng)用工具以近乎零壁壘的信息發(fā)布與傳播方式傳遞著科學(xué)知識(shí)和信息[3],其權(quán)威性和真實(shí)性也得到圖情學(xué)者認(rèn)同[4],基于學(xué)術(shù)社交網(wǎng)絡(luò)交互內(nèi)容的主題挖掘正成為揭示學(xué)科用戶在線交流重點(diǎn)的新途徑。
區(qū)別于傳統(tǒng)學(xué)術(shù)交流媒介在科研成果收錄、在線交流效率等方面的局限性,學(xué)術(shù)社交網(wǎng)絡(luò)更加強(qiáng)調(diào)學(xué)科用戶在參與、分享、交流與協(xié)作的主觀能動(dòng)性,其多樣化的信息共享方式以及便捷的交流途徑,使學(xué)術(shù)資源得以高效組織與利用,彌補(bǔ)了傳統(tǒng)學(xué)術(shù)媒介傳播渠道單一的缺陷。作為學(xué)術(shù)社交網(wǎng)絡(luò)重要平臺(tái)之一,Research Gate(RG)是面向科學(xué)家和研究人員的專業(yè)網(wǎng)絡(luò),它將世界范圍內(nèi)的研究人員及其推進(jìn)科研工作所需的人員、研究和資源聯(lián)系起來(lái),擁有超過(guò)1,700萬(wàn)注冊(cè)會(huì)員以及1.35 億項(xiàng)科研成果[5]。Research Interest等指標(biāo)利用學(xué)術(shù)社交網(wǎng)絡(luò)環(huán)境中多種原始計(jì)數(shù)指標(biāo)(如瀏覽量、被引量等)進(jìn)行特定的組合計(jì)量,能夠及時(shí)、直觀歸納和呈現(xiàn)科研成果在平臺(tái)內(nèi)的網(wǎng)絡(luò)影響力表現(xiàn)。相關(guān)研究表明,RG逐漸受到圖情學(xué)科用戶的歡迎,主要利用其追蹤本學(xué)科領(lǐng)域內(nèi)的學(xué)術(shù)信息和前沿?zé)狳c(diǎn),對(duì)跨學(xué)科研究也有一定關(guān)注[6]??紤]到不同傳播媒介中用戶對(duì)于科研成果的關(guān)注點(diǎn)可能存在共通與相異之處,針對(duì)以RG為代表的學(xué)術(shù)社交網(wǎng)絡(luò)平臺(tái)指標(biāo)篩選得到的圖情學(xué)科高網(wǎng)絡(luò)影響力成果進(jìn)行主題分析,有助于圖情學(xué)科研究重點(diǎn)的直觀展現(xiàn)和補(bǔ)充揭示。因此,本文基于RG這一學(xué)術(shù)社交網(wǎng)絡(luò)典型平臺(tái)進(jìn)行圖情學(xué)科成果的主題挖掘,引入時(shí)間維度揭示科研成果的主題強(qiáng)度演化,在與傳統(tǒng)學(xué)術(shù)渠道中的學(xué)術(shù)熱點(diǎn)的定性比較中,凸顯在線學(xué)術(shù)交流背景下圖情學(xué)科用戶開展專業(yè)知識(shí)交流的規(guī)律特點(diǎn),以期指導(dǎo)學(xué)科用戶合理利用學(xué)術(shù)社交網(wǎng)絡(luò),促進(jìn)科研成果傳播與觀點(diǎn)交流的實(shí)際能力與效率;對(duì)學(xué)科發(fā)展而言,從學(xué)術(shù)社交網(wǎng)絡(luò)切入聚焦學(xué)科研究前沿重點(diǎn),為學(xué)科前瞻布局優(yōu)化和互動(dòng)創(chuàng)新激勵(lì)的提供參考,亦有助于平臺(tái)開展質(zhì)量建設(shè),促進(jìn)平臺(tái)有效利用與組織學(xué)術(shù)資源。
為跟蹤不同時(shí)期圖情學(xué)科發(fā)展?fàn)顩r,學(xué)者圍繞科研成果開展主題探究。隨著新一代信息技術(shù)快速發(fā)展,iSchools聯(lián)盟院校圖情學(xué)科的研究呈現(xiàn)多領(lǐng)域交叉融合和向不同產(chǎn)業(yè)領(lǐng)域應(yīng)用發(fā)展的態(tài)勢(shì)[7];大數(shù)據(jù)、人工智能、數(shù)據(jù)挖掘等成為2015年以來(lái)國(guó)際圖情學(xué)界關(guān)注的焦點(diǎn)[8]。美國(guó)研究主題集中于用戶信息行為研究和知識(shí)管理研究,信息系統(tǒng)的設(shè)計(jì)和績(jī)效評(píng)價(jià)、信息交流等是美國(guó)發(fā)文關(guān)注度較高的領(lǐng)域[9];亞非研究主題集中于信息檢索、信息需求、信息用戶等[10]。我國(guó)近年圖書情報(bào)領(lǐng)域呈現(xiàn)出圖書館學(xué)研究、信息情報(bào)研究、數(shù)字資源研究三足鼎立格局[11],與計(jì)算機(jī)科學(xué)領(lǐng)域的交流密切[12],研究主題共現(xiàn)網(wǎng)絡(luò)擴(kuò)張較為明顯且聚焦于關(guān)鍵性問(wèn)題[13],國(guó)際發(fā)文的研究領(lǐng)域具有明顯的跨學(xué)科性[14]。
當(dāng)前應(yīng)用于主題分析的常用方法主要有詞頻分析法、引文分析法、社會(huì)網(wǎng)絡(luò)分析法、文本挖掘方法等,其中詞頻分析法、引文分析法等基本信息單元是篇章,未涉及文本層面的內(nèi)容和語(yǔ)義,而文本挖掘處理的基本信息單元是符號(hào)群,通過(guò)直接對(duì)文本內(nèi)容分解來(lái)關(guān)注文本的內(nèi)部特征,得到的知識(shí)更細(xì)微并能夠進(jìn)行更深層次的研究[15]。隱含狄利克雷分布模型(Latent Dirichlet Allocation,LDA)是文本挖掘領(lǐng)域的常用主題模型之一,包含詞項(xiàng)、主題和文檔三層結(jié)構(gòu),在此結(jié)構(gòu)中假設(shè)詞是由主題概率分布混合產(chǎn)生,再假設(shè)文檔由潛在主題概率分布混合產(chǎn)生[16]。對(duì)某篇文檔,首先從該文檔的主題分布中抽取一個(gè)主題,再?gòu)脑撝黝}對(duì)應(yīng)的詞項(xiàng)分布中抽取某個(gè)單詞,重復(fù)此步驟形成整篇文檔。在這一過(guò)程中形成2個(gè)相互獨(dú)立的矩陣,即文檔-主題矩陣和主題-詞項(xiàng)矩陣,前者為文檔中各個(gè)主題的概率分布,后者包含由這些主題產(chǎn)生的詞項(xiàng)概率分布。LDA模型也視為通過(guò)使用聯(lián)合概率分布計(jì)算給定觀測(cè)變量值下的隱含變量的條件分布[17]。給定參數(shù)α(潛在主題強(qiáng)弱的先驗(yàn)參數(shù))和β(所有潛在主題下特征詞概率分布的先驗(yàn)參數(shù)),文檔中主題和特征詞的聯(lián)合后驗(yàn)分布概率如公式(1)所示[18]:
其中,θ是文檔中的主題分布,z為主題,w為詞項(xiàng),N指文檔的總詞數(shù),zn為文檔中第n個(gè)詞項(xiàng)的主題,wn為文檔中的第n個(gè)詞項(xiàng),因此LDA模型實(shí)質(zhì)在于給定文檔各個(gè)詞項(xiàng)w的前提下,計(jì)算各個(gè)詞項(xiàng)的主題標(biāo)識(shí)、文檔的主題分布及各個(gè)主題內(nèi)的詞項(xiàng)概率分布的后驗(yàn)概率分布。此外相比于NMF等模型,LDA能提供更廣泛主題的良好描述[19],提煉大規(guī)模語(yǔ)料庫(kù)中隱含的主題信息并展現(xiàn)其發(fā)展動(dòng)態(tài),在科研熱點(diǎn)識(shí)別[20]、核心研究主題演化路徑研究[21]、探測(cè)研究前沿[22]等方面也有諸多實(shí)踐應(yīng)用和改良優(yōu)化,面向?qū)W科成果文獻(xiàn)的主題揭示應(yīng)用已經(jīng)較為普遍。
盡管圖情學(xué)科的研究主題采用各種方法并結(jié)合實(shí)際數(shù)據(jù)集得到揭示和展現(xiàn),但數(shù)據(jù)樣本大多是基于綜合型數(shù)據(jù)庫(kù)(如Web of Science核心合集數(shù)據(jù)庫(kù)),而針對(duì)在線學(xué)術(shù)交流下的實(shí)證研究尚顯缺乏,不同媒介下的研究熱點(diǎn)也缺乏比較分析。本文聚焦于學(xué)術(shù)社交網(wǎng)絡(luò)中高影響力科研成果文本內(nèi)容的挖掘,采用LDA模型識(shí)別科研成果潛在的主題信息,進(jìn)行主題強(qiáng)度演化分析,與傳統(tǒng)學(xué)術(shù)交流方式下的研究熱點(diǎn)進(jìn)行定性比較,旨在提煉圖情學(xué)科用戶基于學(xué)術(shù)社交網(wǎng)絡(luò)交流的高影響力科研成果的主題偏好。
圖1 數(shù)據(jù)獲取與處理流程圖
圖情學(xué)科與其他學(xué)科的交叉融合形成以信息為中心并向跨學(xué)科方向發(fā)展的趨勢(shì),對(duì)傳統(tǒng)的圖情學(xué)科提出挑戰(zhàn),iSchools運(yùn)動(dòng)應(yīng)運(yùn)而生[23]。由于iSchools旨在形成一個(gè)大的信息學(xué)院聯(lián)盟體,用以拓寬圖書館學(xué)情報(bào)學(xué)等與信息相關(guān)學(xué)科的研究領(lǐng)域[24],致力于以信息、技術(shù)和人相互關(guān)系為中心的研究與實(shí)踐,成為近年國(guó)際圖情學(xué)科改革最顯著的舉動(dòng)[25]。因此,為獲取國(guó)際范圍內(nèi)圖情學(xué)科的高影響力科研成果樣本,選取全球頂尖信息科學(xué)學(xué)院聯(lián)盟iSchools層級(jí)最高的決策機(jī)構(gòu)iCaucus,獲取其成員在RG中公開分享的高影響力科研成果作為研究數(shù)據(jù),以此探究圖情學(xué)科高網(wǎng)絡(luò)影響力科研成果所展現(xiàn)的主題特性及演化情況。數(shù)據(jù)獲取與處理流程見(jiàn)圖1。由圖1 可見(jiàn),數(shù)據(jù)的獲取主要是通過(guò)iSchools 官網(wǎng)中查詢得到39所iCaucus成員機(jī)構(gòu),再根據(jù)各iCaucus機(jī)構(gòu)RG賬號(hào)URL獲取機(jī)構(gòu)成員用戶RG 主頁(yè)中所有科研成果的公開信息,包括摘要、來(lái)源年份、類型以及Research Interest(RI)等字段。其中,RI專注于單個(gè)科研成果在學(xué)術(shù)社交網(wǎng)絡(luò)中在瀏覽、推薦、引用等方面的綜合表現(xiàn),能夠度量同行對(duì)于該成果的關(guān)注、接受與應(yīng)用的整體水平[26],反映出該成果的網(wǎng)絡(luò)影響力。由于文獻(xiàn)的摘要也是語(yǔ)料構(gòu)建LDA文本語(yǔ)料庫(kù)比較理想的選擇,能夠廣泛、全面、準(zhǔn)確、清晰地抽取學(xué)科研究主題[27],因此本文將摘要經(jīng)處理后形成的語(yǔ)料庫(kù)應(yīng)用于主題挖掘。數(shù)據(jù)采集時(shí)間為2019年9月20日-10月20日,剔除頁(yè)面失效等成員機(jī)構(gòu)科研成果數(shù)據(jù)后,得到46,275條有效信息。
對(duì)數(shù)據(jù)的處理,二八定律能夠有效區(qū)分論文的學(xué)術(shù)價(jià)值且在不同學(xué)科領(lǐng)域中均保持相對(duì)穩(wěn)定[28],因此本文將RI 排名前20%的科研成果視為高影響力樣本(RI≥13.6),然后保留擁有摘要的文章類型(包括article 和conference paper 兩類),刪除無(wú)年份信息、摘要為非英語(yǔ)以及摘要為空的成果數(shù)據(jù),手動(dòng)檢查摘要并剔除不相關(guān)的內(nèi)容,共得到8,350條有效數(shù)據(jù)。經(jīng)過(guò)小寫轉(zhuǎn)換、刪除標(biāo)點(diǎn)符號(hào)和停用詞、詞形還原等預(yù)處理操作,最終形成語(yǔ)料庫(kù)以供后續(xù)模型訓(xùn)練。
由于LDA模型可以很好地模擬大規(guī)模語(yǔ)料的語(yǔ)義信息的特點(diǎn)[29],本文運(yùn)用LDA模型揭示圖情學(xué)科在網(wǎng)絡(luò)交流背景下的主題特征與演化規(guī)律,并與傳統(tǒng)學(xué)術(shù)渠道中的學(xué)術(shù)熱點(diǎn)進(jìn)行定性比較。
利用LDA模型進(jìn)行主題抽取時(shí),首先需要確定主題數(shù)目。主題一致性(topic coherence)是通過(guò)衡量主題中高概率詞項(xiàng)間的語(yǔ)義相似度來(lái)評(píng)估模型效果,明顯優(yōu)于目前提出的所有一致性的度量,故常作為主題數(shù)目確定的依據(jù)[30]。圖2分別計(jì)算各主題數(shù)目下模型的主題一致性,當(dāng)主題數(shù)目為5時(shí)所對(duì)應(yīng)的主題一致性(0.4365)最大,此時(shí)該模型的效果最優(yōu)。
圖2 主題數(shù)與主題一致性的關(guān)系圖
表1 高影響力科研成果的主題分布
經(jīng)LDA模型訓(xùn)練后,將每篇成果依據(jù)文檔-主題概率分布取概率最高值歸類,即每篇成果只屬于占比最高的主題,統(tǒng)計(jì)得到各個(gè)主題下的成果數(shù)量及占比;然后根據(jù)主題-詞項(xiàng)概率分布選取與主題相關(guān)的前10個(gè)高概率詞項(xiàng)視為主題的含義代表,并結(jié)合對(duì)應(yīng)的文檔內(nèi)容進(jìn)行主題標(biāo)識(shí),如表1所示。圖情學(xué)科在學(xué)術(shù)社交網(wǎng)絡(luò)中的高影響力成果呈現(xiàn)出主題多樣性,可劃分為健康信息學(xué)(Topic 1)、用戶信息行為(Topic 2)、算法技術(shù)(Topic 3)、應(yīng)用開發(fā)(Topic 4)、通信網(wǎng)絡(luò)(Topic 5)。
(1)健康信息學(xué)(Topic 1)。隨著計(jì)算機(jī)技術(shù)發(fā)展,1950年代以來(lái)信息技術(shù)在醫(yī)學(xué)領(lǐng)域得到廣泛應(yīng)用[31],呈現(xiàn)多學(xué)科融合特點(diǎn)。該主題內(nèi)容大部分屬于生物信息領(lǐng)域的信息分析與處理,特別是基因組學(xué)、蛋白質(zhì)組學(xué)、藥物設(shè)計(jì)等方向的研究,結(jié)合計(jì)算機(jī)科學(xué)與信息技術(shù)從海量數(shù)據(jù)中揭示生命科學(xué)規(guī)律,解決系統(tǒng)性的復(fù)雜問(wèn)題。此外,部分有關(guān)醫(yī)學(xué)信息資源建設(shè)與信息系統(tǒng)設(shè)計(jì)、公眾健康數(shù)據(jù)分析等方面的科研成果在學(xué)術(shù)社交網(wǎng)絡(luò)中受到較高關(guān)注,可見(jiàn)學(xué)術(shù)社交網(wǎng)絡(luò)中的圖情學(xué)科用戶正在積極拓寬研究領(lǐng)域,關(guān)注信息技術(shù)為生物醫(yī)學(xué)領(lǐng)域帶來(lái)的理論影響與技術(shù)變革。
(2)用戶信息行為(Topic 2)。重點(diǎn)關(guān)注用戶信息行為,即圍繞以滿足用戶信息需求為目標(biāo)的信息搜尋、瀏覽、使用、交流、共享等具體信息行為,尤其是聚焦網(wǎng)絡(luò)環(huán)境下研究人員、學(xué)生等用戶群體,結(jié)合元分析、共引分析等研究方法和技術(shù)手段進(jìn)行信息行為探究,研究角度涉及概念理論探討、影響因素分析、行為類型挖掘等方面。
(3)算法技術(shù)(Topic 3)。Topic 3的內(nèi)容與計(jì)算機(jī)科學(xué)相近,偏向于計(jì)算機(jī)理論(如數(shù)據(jù)結(jié)構(gòu)和算法、計(jì)算理論、編程方法與語(yǔ)言)和應(yīng)用技術(shù)(如計(jì)算機(jī)圖形學(xué)、科學(xué)計(jì)算、人工智能),特別是信息檢索、大數(shù)據(jù)管理、自然語(yǔ)言處理、信息可視化等方面成果多,既凸顯圖情與信息科學(xué)的學(xué)科交叉屬性,也說(shuō)明圖情學(xué)者在吸收計(jì)算機(jī)科學(xué)領(lǐng)域前沿知識(shí)和技術(shù)的過(guò)程中亦服務(wù)于自身學(xué)科建設(shè),促進(jìn)學(xué)術(shù)創(chuàng)新與科研質(zhì)量提升。
(4)應(yīng)用開發(fā)(Topic 4)。先進(jìn)實(shí)用的自動(dòng)化工具有利于圖書情報(bào)工作的順利開展,Topic 4的內(nèi)容與軟件工程學(xué)科相似,主要圍繞圖情學(xué)科的需求,設(shè)計(jì)和構(gòu)造高效實(shí)用的各類應(yīng)用程序,運(yùn)行和維護(hù)這些信息系統(tǒng)所必需的相關(guān)文檔資料,保障和提升軟件性能和運(yùn)行效率。與Topic 4相關(guān)的工具開發(fā)、模型優(yōu)化方案、軟件技術(shù)文檔等內(nèi)容在學(xué)術(shù)社交網(wǎng)絡(luò)中引起用戶關(guān)注和跟進(jìn)。
(5)通信網(wǎng)絡(luò)(Topic 5)。不同形式、地域與載體的信息資源以數(shù)字方式存貯并經(jīng)由通信網(wǎng)絡(luò)相互連接得以提供即時(shí)利用[32],針對(duì)通信網(wǎng)絡(luò)方面的研究同樣是圖情學(xué)者共享于學(xué)術(shù)社交網(wǎng)絡(luò)中的高影響力成果的關(guān)注重點(diǎn)之一。Topic 5的內(nèi)容除了通信網(wǎng)絡(luò)結(jié)構(gòu)理論與建設(shè)策略,還注重信息數(shù)據(jù)在交流與傳遞過(guò)程中的安全性、可靠性以及傳輸效率,探討其中涉及的信息安全與隱私問(wèn)題,為圖情業(yè)務(wù)中的諸多挑戰(zhàn)提供解決方案。
綜合而言,Topic 3的文檔比例與主題強(qiáng)度均為最高,可見(jiàn)算法、模型、技術(shù)等學(xué)科普適性內(nèi)容更大概率能在學(xué)術(shù)社交網(wǎng)絡(luò)中產(chǎn)生高影響力;與圖情學(xué)科研究?jī)?nèi)容更為相關(guān)的Topic 2和Topic4,其偏高的文檔比例與主題強(qiáng)度反映出該類學(xué)術(shù)成果同樣受到關(guān)注;歸屬于Topic 2的成果數(shù)量占比(32.635%)排名第二也顯示出信息行為主題是當(dāng)前學(xué)者研究的重點(diǎn)領(lǐng)域,這也印證了圖情科學(xué)在解釋人類信息行為中占據(jù)主導(dǎo)地位[33]。此外相關(guān)跨學(xué)科研究?jī)?nèi)容(如Topic 1 和Topic 5)也在高網(wǎng)絡(luò)影響力科研成果中逐漸顯現(xiàn),揭示了圖情學(xué)科鮮明的跨領(lǐng)域研究屬性。
為進(jìn)一步探究高影響力科研成果不同時(shí)期的主題強(qiáng)度變化,根據(jù)文檔-主題概率分布矩陣可得到每一篇文檔從屬于不同主題的概率,依此計(jì)算某個(gè)時(shí)間窗口內(nèi)的主題強(qiáng)度,可衡量這一時(shí)間窗口下該主題的受關(guān)注程度,如公式(2)所示:
其中,為文檔d中主題a所占的比例,Dt為該時(shí)間窗口t上的文檔集合,|Dt|表示文檔集合D中的文檔數(shù)量,由此計(jì)算得到在時(shí)間窗口t的文檔集合上a主題所占比例,即主題強(qiáng)度,其數(shù)值越大表明越有可能視為熱點(diǎn)主題。本文利用成果的來(lái)源年份信息離散到以年代劃分的6個(gè)時(shí)間窗口中,通過(guò)計(jì)算各個(gè)主題在不同時(shí)間窗口的主題強(qiáng)度值并繪制折線圖,即可分析各個(gè)主題在觀測(cè)時(shí)間內(nèi)的相對(duì)熱度演化情況。如圖3所示,根據(jù)形態(tài)全局特征可劃分為趨勢(shì)平穩(wěn)主題(Topic 1健康信息學(xué)),上升趨勢(shì)主題(Topic 2用戶信息行為、Topic 5通信網(wǎng)絡(luò))和下降趨勢(shì)主題(Topic 3算法技術(shù)、Topic 4應(yīng)用開發(fā))。
由圖3可見(jiàn),Topic 1的總體變化幅度較小,20世紀(jì)六七十年代呈下降趨勢(shì),隨后稍有起伏;2010年后主題強(qiáng)度出現(xiàn)回升,但整體數(shù)值均維持在較低水平,可見(jiàn)該主題在學(xué)術(shù)社交網(wǎng)絡(luò)中受到的關(guān)注度較為有限。雖然此前研究中曾指出健康信息學(xué)不是北美LIS 學(xué)院最熱門的研究方向[34],但仍有圖情學(xué)者對(duì)此開展研究,并在學(xué)術(shù)社交網(wǎng)絡(luò)中取得不小的關(guān)注度,可見(jiàn)在目前信息環(huán)境不斷變化的背景下,以健康信息學(xué)為代表的交叉學(xué)科內(nèi)容仍然是不可忽視的研究重點(diǎn)。
上升趨勢(shì)主題之一的Topic 2在1960-1969年間的主題強(qiáng)度值(0.0890)較小,在學(xué)術(shù)社交網(wǎng)絡(luò)中的影響力相對(duì)偏低,而在此后出現(xiàn)持續(xù)上升趨勢(shì),特別是2010-2019年間上升為最熱門主題,針對(duì)用戶信息行為的研究越來(lái)越受到關(guān)注且迅速成為研究熱點(diǎn)。由于用戶的信息行為與環(huán)境緊密相連,特別是進(jìn)入21 世紀(jì)以來(lái),逐漸普及的互聯(lián)網(wǎng)與日益加深的用戶參與程度使得該方面的研究進(jìn)入新時(shí)期[35]。相比于Topic 2,Topic 5同樣呈上升趨勢(shì),這表明圖情學(xué)科針對(duì)通信網(wǎng)絡(luò)等方向的研究同樣具有高網(wǎng)絡(luò)影響力,但整體偏低的數(shù)值可能歸因于非純工科的學(xué)術(shù)背景,該類主題的熱度上升后勁不足。
圖3 高影響力科研成果的主題強(qiáng)度演化圖
Topic 3 和Topic 4 均呈現(xiàn)出下降趨勢(shì)。Topic 3在21世紀(jì)前明顯減少,其后基本穩(wěn)定在0.3 左 右,除2010-2019 年 間的大部分時(shí)段中基本占據(jù)所有主題中的熱度最高值,盡管近年來(lái)算法技術(shù)主題的關(guān)注度有所降低,但仍然受到學(xué)術(shù)社交網(wǎng)絡(luò)用戶長(zhǎng)期熱情關(guān)注。而Topic 4在1970-1979 年間上升到頂峰后出現(xiàn)緩慢下降,21世紀(jì)后迅速下降,可能是針對(duì)應(yīng)用開發(fā)主題的研究日趨成熟,在學(xué)術(shù)社交網(wǎng)絡(luò)中的影響力有限。
傳統(tǒng)學(xué)術(shù)交流方式中的高影響力評(píng)判標(biāo)準(zhǔn)往往由其引用情況、刊載刊物等因素所決定;而學(xué)術(shù)社交網(wǎng)絡(luò)中的相關(guān)指標(biāo)也能為科研成果的網(wǎng)絡(luò)影響力的評(píng)價(jià)提供了一個(gè)及時(shí)、全面的度量,兩者在本質(zhì)上都是以各自媒介中的評(píng)價(jià)標(biāo)準(zhǔn)體系來(lái)對(duì)科研成果的影響力進(jìn)行評(píng)價(jià),對(duì)應(yīng)得到的主題分析結(jié)論可視為圖情學(xué)科在兩種傳播媒介中的研究熱點(diǎn),因此通過(guò)定性比較,可總結(jié)在學(xué)術(shù)社交網(wǎng)絡(luò)環(huán)境下當(dāng)前學(xué)科集中討論的重點(diǎn)方向,實(shí)現(xiàn)圖情學(xué)科研究主題的相互補(bǔ)充和完整揭示。
從主題相似性看,有學(xué)者通過(guò)應(yīng)用LDA模型分析1978-2014年圖情領(lǐng)域LISA數(shù)據(jù)庫(kù)中的科研成果主題,將19個(gè)主題歸納為數(shù)據(jù)處理、信息技術(shù)、圖書館和信息應(yīng)用4個(gè)領(lǐng)域[36];國(guó)際三大頂級(jí)期刊中iSchools聯(lián)盟的研究涵蓋科學(xué)發(fā)展研究、生物信息學(xué)、用戶信息行為、信息經(jīng)濟(jì)學(xué)、計(jì)算機(jī)技術(shù)、信息通信理論六大領(lǐng)域的內(nèi)容[37];2005-2015年的五大研究熱點(diǎn)為信息資源管理、替代計(jì)量學(xué)、H指數(shù)、科學(xué)結(jié)構(gòu)地圖和醫(yī)學(xué)信息技術(shù)[38]。上述從傳統(tǒng)學(xué)術(shù)媒介中得到的部分主題(如信息應(yīng)用、計(jì)算機(jī)技術(shù)、信息通信理論、醫(yī)學(xué)信息技術(shù)、用戶信息行為)與本文的結(jié)論較為相近。從主題強(qiáng)度變化看,國(guó)際圖情領(lǐng)域在1965-1985年最顯著的變化在于對(duì)技術(shù)方法和LIS分析失去興趣[39],這與上文中算法技術(shù)的主題強(qiáng)度在前期的大幅下降趨勢(shì)相一致。2008-2012 年的研究熱點(diǎn)分別是計(jì)量、管理、技術(shù)、網(wǎng)絡(luò)、檢索、醫(yī)學(xué)衛(wèi)生,研究前沿包括醫(yī)學(xué)信息學(xué)、引文分析、虛擬網(wǎng)絡(luò)社區(qū)、語(yǔ)義信息檢索等研究領(lǐng)域[40],前文中健康信息學(xué)主題強(qiáng)度近年也出現(xiàn)回升。相關(guān)研究顯現(xiàn)出近年該主題的相關(guān)研究較為豐富,其發(fā)展呈現(xiàn)出不斷深入、與時(shí)俱進(jìn)的特點(diǎn)。在未來(lái)仍會(huì)結(jié)合新出現(xiàn)的信息技術(shù)和不斷的學(xué)科融合而出現(xiàn)新的變化[41],學(xué)術(shù)社交網(wǎng)絡(luò)其學(xué)科邊界模糊性的知識(shí)交流方式也將給健康信息學(xué)等交叉主題帶來(lái)新的發(fā)展契機(jī)和研究潛力。
對(duì)比圖情領(lǐng)域在學(xué)術(shù)社交網(wǎng)絡(luò)與期刊領(lǐng)域中的高影響力成果,主題內(nèi)容相似性較高,部分期刊領(lǐng)域中的結(jié)論能對(duì)學(xué)術(shù)社交網(wǎng)絡(luò)得到的變化趨勢(shì)具有解釋性,可能原因在于多數(shù)RG用戶上傳期刊論文作為主要共享的學(xué)術(shù)資源。但由于期刊領(lǐng)域的研究一般通過(guò)選取圖情期刊及其成果來(lái)歸納當(dāng)前學(xué)科特點(diǎn),而未收錄該領(lǐng)域?qū)W者在其他學(xué)科期刊中的發(fā)文情況,因此學(xué)術(shù)社交網(wǎng)絡(luò)的高影響力科研成果的研究主題更凸顯其跨學(xué)科的一面,研究?jī)?nèi)容呈現(xiàn)出社會(huì)化、技術(shù)化與知識(shí)化的多元發(fā)展態(tài)勢(shì)。同時(shí)也發(fā)現(xiàn)結(jié)合當(dāng)前技術(shù)熱點(diǎn)的研究更容易在學(xué)術(shù)社交網(wǎng)絡(luò)中引起關(guān)注,相關(guān)詞項(xiàng)反映出在研究方法的設(shè)計(jì)上具有前沿性、創(chuàng)新性和智能化,傳統(tǒng)的理論與技術(shù)正拓展原有領(lǐng)域的應(yīng)用范圍,更加強(qiáng)調(diào)學(xué)科間的交流與融合。
本文聚焦于圖情學(xué)科,選取學(xué)術(shù)社交網(wǎng)絡(luò)中高影響力科研成果作為研究樣本,通過(guò)構(gòu)建LDA模型深入挖掘摘要文本內(nèi)容,結(jié)合來(lái)源年份信息分析各時(shí)期的主題演化情況,最后進(jìn)行跨媒介定性比較,全方位展現(xiàn)在線學(xué)術(shù)交流背景下圖情學(xué)科的研究重點(diǎn)及其變化趨勢(shì)。研究發(fā)現(xiàn),圖情學(xué)科的高影響力成果劃分為健康信息學(xué)、用戶信息行為、算法技術(shù)、應(yīng)用開發(fā)、通信網(wǎng)絡(luò)5 個(gè)主題。從主題強(qiáng)度變化來(lái)看,用戶信息行為、通信網(wǎng)絡(luò)呈現(xiàn)上升趨勢(shì),算法技術(shù)、應(yīng)用開發(fā)整體出現(xiàn)下降,健康信息學(xué)表現(xiàn)平穩(wěn)。計(jì)算機(jī)科學(xué)、圖書情報(bào)領(lǐng)域的科研成果更易受到密切關(guān)注,健康信息學(xué)等跨學(xué)科研究主題熱度相對(duì)有限。在跨媒介比較中,學(xué)術(shù)社交網(wǎng)絡(luò)與期刊領(lǐng)域得到的熱點(diǎn)主題雖具有一定的相似性,但學(xué)術(shù)社交網(wǎng)絡(luò)的情況更加表現(xiàn)出學(xué)科間的交叉與融合,研究方法設(shè)計(jì)上具有前沿性與智能化的成果受到學(xué)科用戶的重點(diǎn)關(guān)注。這顯現(xiàn)出學(xué)術(shù)社交網(wǎng)絡(luò)不僅僅只是期刊領(lǐng)域成果管理的新載體或共享途徑,更有助于其用戶在作者和讀者的雙重角色間不斷尋求科學(xué)研究的靈感與學(xué)科交叉的突破點(diǎn)。對(duì)于圖情學(xué)者而言,應(yīng)積極通過(guò)學(xué)術(shù)社交網(wǎng)絡(luò)分享科研成果,增加與世界范圍內(nèi)學(xué)術(shù)界同行尤其是跨學(xué)科領(lǐng)域?qū)W者的交流與學(xué)習(xí),提升學(xué)術(shù)影響力。對(duì)于平臺(tái)而言,應(yīng)加強(qiáng)學(xué)術(shù)資源建設(shè)與開發(fā),結(jié)合當(dāng)前學(xué)科的關(guān)注重點(diǎn)優(yōu)化學(xué)術(shù)資源的推薦與分發(fā),弱化信息繭房效應(yīng);開展主題交流活動(dòng)等方式也可鼓勵(lì)用戶參與其中,加強(qiáng)不同地域、不同學(xué)科用戶間的學(xué)術(shù)交流。本文的不足之處在于內(nèi)容挖掘僅涉及主題強(qiáng)度的演化,后續(xù)研究中可進(jìn)一步探索熱點(diǎn)主題隨時(shí)間變化或遷移的潛在特性,并可針對(duì)平臺(tái)中新興主題進(jìn)行識(shí)別分析。