袁潤 劉邦國 潘穎
摘要:文章利用LDA主題模型對ESI研究前沿進(jìn)行主題發(fā)現(xiàn)研究,將每1期的ESI分類的22個(gè)學(xué)科領(lǐng)域的研究前沿視為1個(gè)文檔,1年6期數(shù)據(jù)共計(jì)合成132個(gè)文檔,再將這些文檔構(gòu)成文檔集,利用R語言貢獻(xiàn)包中的LDA函數(shù)進(jìn)行主題建模,得到“文檔-主題-術(shù)語”矩陣,在此基礎(chǔ)上可視化表征學(xué)科領(lǐng)域的主題及其演變、交叉融合。
關(guān)鍵詞:研究前沿;主題發(fā)現(xiàn);主題建模;ESI;LDA
一、引言
科學(xué)文獻(xiàn)主題發(fā)現(xiàn)是科技情報(bào)分析的基礎(chǔ)。LDA主題模型因其具有對海量異構(gòu)文本數(shù)據(jù)建模的優(yōu)勢,在科學(xué)文獻(xiàn)知識(shí)挖掘、科學(xué)研究熱點(diǎn)發(fā)現(xiàn)與新興主題探測、科學(xué)研究主題演化、學(xué)術(shù)評價(jià)等研究方向得到了廣泛的應(yīng)用。關(guān)鵬、王曰芬等研究了最優(yōu)LDA主題數(shù)確定方法,分析了主題抽取的效果;張勇開展了基于詞性與LDA主題模型的文本分類技術(shù)研究,實(shí)驗(yàn)證明了詞性特征提取方法是有效的,具有普適性;李湘東等研究了基于LDA主題模型的圖書網(wǎng)頁書目信息提取方法。
目前,基于ESI研究前沿的研究主要集中在三個(gè)方面。一是關(guān)于研究前沿的探測,二是關(guān)于研究前沿的解讀,三是關(guān)于研究前沿的學(xué)科分析與服務(wù)。這些研究為我國高校圖書館開展學(xué)科知識(shí)服務(wù)提供了強(qiáng)大的理論支撐,特別是在“雙一流”建設(shè)大背景下,ESI備受關(guān)注,深入研究它對學(xué)科知識(shí)服務(wù)的價(jià)值具有很強(qiáng)的現(xiàn)實(shí)意義。
每期發(fā)布的ESI研究前沿都會(huì)有較大的變化,本文以1年6期ESI研究前沿為研究對象,對其開展了基于文本挖掘的探索性研究,旨在發(fā)現(xiàn)科學(xué)研究主題,為解析學(xué)科結(jié)構(gòu)、掌握學(xué)科發(fā)展脈絡(luò)、預(yù)測技術(shù)發(fā)展趨勢等學(xué)術(shù)情報(bào)分析奠定基礎(chǔ)。
二、ESI研究前沿的主題模型分析
主題模型是一種以非監(jiān)督學(xué)習(xí)的方式對文本集的隱含語義結(jié)構(gòu)進(jìn)行聚類的統(tǒng)計(jì)模型,廣泛應(yīng)用在語義分析和文本挖掘等研究領(lǐng)域。本文將每1期的每1個(gè)學(xué)科領(lǐng)域的研究前沿視為一個(gè)文檔,利用LDA算法生成“文檔-主題”“主題-術(shù)語”和“文檔-主題-術(shù)語”三種矩陣形式的結(jié)果,在此基礎(chǔ)上抽取領(lǐng)域?qū)W科主題。LDA主題建模需要預(yù)先給定主題的數(shù)量,需要不斷進(jìn)行嘗試才能尋找到最佳主題數(shù)量,存在一定的偶然性,因?yàn)镋SI設(shè)置了22個(gè)學(xué)科領(lǐng)域,所以有理由相信每個(gè)學(xué)科領(lǐng)域至少包含1個(gè)主題。利用R語言中topicmodels工具包中的LDA函數(shù)創(chuàng)建22個(gè)主題模型后首先得到主題-詞頻矩陣,如圖1所示。
接著,將每個(gè)主題與22個(gè)學(xué)科相對應(yīng),結(jié)果如表1所示。
從表1可見,有20個(gè)主題與學(xué)科領(lǐng)域一一對應(yīng),所以表明LDA對于ESI研究前沿的分類效果較好。而未能對應(yīng)學(xué)科的主題有2個(gè), 其中,9號主題是未能對應(yīng)到學(xué)科,而11號主題對應(yīng)到生物學(xué)和多學(xué)科2個(gè)領(lǐng)域。
以術(shù)語cancer為例,發(fā)現(xiàn)至少有107個(gè)文檔中包含了該術(shù)語,涉及到14個(gè)主題和多個(gè)學(xué)科,該術(shù)語主要分布于臨床醫(yī)學(xué)和化學(xué)兩個(gè)學(xué)科領(lǐng)域。如此可以探索術(shù)語(term)在文檔(document)、主題(topic)、學(xué)科(field)中的分布情況,并從中發(fā)現(xiàn)有價(jià)值的學(xué)術(shù)信息。另外,2019年5月的數(shù)據(jù)出現(xiàn)了突變,從20號主題變成5號主題,這些信息值得深入研究,也需要得到領(lǐng)域?qū)<业慕庾x。
三、ESI研究前沿的主題發(fā)現(xiàn)
(一)穩(wěn)定的學(xué)科及主題的發(fā)現(xiàn)
1. 農(nóng)業(yè)科學(xué)領(lǐng)域穩(wěn)定的研究對象發(fā)現(xiàn)
以農(nóng)業(yè)科學(xué)為例,圖2展示了農(nóng)業(yè)科學(xué)領(lǐng)域的主題術(shù)語演變級及出現(xiàn)頻次,明顯可以看出“水”、“土壤”、“小麥”、“大米”是農(nóng)業(yè)科學(xué)學(xué)科穩(wěn)定的研究對象,體現(xiàn)了作為人類賴以生存基礎(chǔ)的農(nóng)作物、農(nóng)作物的生長環(huán)境在農(nóng)業(yè)科學(xué)領(lǐng)域的重要位置。并且,很直觀地看出,“土壤”(soil)“食物”(food)兩個(gè)術(shù)語的詞頻遠(yuǎn)遠(yuǎn)大于其它術(shù)語,是該學(xué)科領(lǐng)域的核心主題。
2. 穩(wěn)定學(xué)科中的新增主題
穩(wěn)定的學(xué)科也會(huì)存在一絲波瀾,這些波瀾就是每一期涌現(xiàn)出的新的研究主題,比如2019年第3期、第5期相繼出現(xiàn)研究土壤微生物在生態(tài)化學(xué)計(jì)量、植物群落、土壤性質(zhì)變化等方面的文章。2019年第5期、第7期研究前沿新增了電化學(xué)法、電化學(xué)傳感器用于鉛、鎘等重金屬的測定研究。
3.社會(huì)因素對穩(wěn)定學(xué)科的影響
結(jié)合實(shí)際情況,可以推斷出部分穩(wěn)定學(xué)科中新增的主題與當(dāng)社會(huì)出現(xiàn)新問題有很大的相關(guān)性。比如2018年2月5日,伊朗吉蘭省發(fā)生H5N6亞型高致病性禽流感,在2019年第3期、第5期的研究前沿中就出現(xiàn)對特定地區(qū)食品健康風(fēng)險(xiǎn)評估研究熱點(diǎn),比如伊朗市場食品樣品中苯的風(fēng)險(xiǎn)評價(jià),伊朗水稻砷鉛含量的系統(tǒng)評價(jià)及致癌風(fēng)險(xiǎn)評價(jià)。這種影響存在一定的滯后性。
實(shí)際研究中發(fā)現(xiàn),研究前沿中存在穩(wěn)定研究主題的學(xué)科不在少數(shù),包括計(jì)算機(jī)科學(xué)、數(shù)學(xué)、微生物科學(xué)、植物科學(xué)等,這種穩(wěn)定學(xué)科的存在和發(fā)現(xiàn),有助于學(xué)者、機(jī)構(gòu)對研究前沿的發(fā)展進(jìn)行梳理、解讀和預(yù)測,存在進(jìn)一步深入研究的價(jià)值。
(二)學(xué)科主題變化及交叉融合的發(fā)現(xiàn)
如果某術(shù)語(term)在多個(gè)學(xué)科領(lǐng)域出現(xiàn),本文認(rèn)為這些術(shù)語為交叉學(xué)科主題。根據(jù)本次研究得出的交叉主題術(shù)語結(jié)合文獻(xiàn)的閱讀,分析出了如下交叉融合的實(shí)例:食品學(xué)科與光學(xué)學(xué)科的交叉產(chǎn)生了高光譜成像在食品質(zhì)量分析、分類、鑒別等方面的研究主題;計(jì)算科學(xué)的參與,產(chǎn)生了模型在智能預(yù)測、估算方面的研究,比如混合進(jìn)化模糊智能模型在懸沙濃度預(yù)測的應(yīng)用、非調(diào)諧數(shù)據(jù)模型在土壤溫度智能估算的應(yīng)用。按照這一思路提取的臨床醫(yī)學(xué)與生物學(xué)的交叉主題詞云如圖3所示。
四、結(jié)論與不足
本文使用了統(tǒng)計(jì)分析和主題模型的方法對ESI研究前沿進(jìn)行了探索性研究,對研究前沿的探測、解讀和服務(wù)具有一定意義,包括:第一,社會(huì)新問題或重要事件的出現(xiàn)以及持續(xù)的時(shí)間,會(huì)對新主題的誕生產(chǎn)生一定程度的影響。第二,學(xué)科之間目前已經(jīng)形成了交叉融合的研究模式,包含交叉主題、交叉學(xué)科等,這種交叉融合的模式對學(xué)術(shù)、學(xué)科、機(jī)構(gòu)等的管理有借鑒和參考作用。第三,基于本文的假設(shè),每一個(gè)學(xué)科至少存在一個(gè)最具代表性的主題,實(shí)際利用LDA主題模型進(jìn)行主題發(fā)現(xiàn)也的確驗(yàn)證了這一假設(shè),代表著不同主題雖然存在融合、交叉,但也有自己核心的研究主題。第四,相較于其他文章將著眼點(diǎn)放在主題的突變,本文以農(nóng)業(yè)科學(xué)為例,發(fā)現(xiàn)該學(xué)科研究主題術(shù)語極具穩(wěn)定性,作者稱之為穩(wěn)定的學(xué)科,穩(wěn)定的學(xué)科交易于進(jìn)行前沿的探索、解讀和預(yù)測,這種穩(wěn)定的學(xué)科也通常具有研究環(huán)境相對穩(wěn)定、試驗(yàn)周期長等特征。
本文尚存在以下局限。首先,主題模型的方法有很多,包括LSA(又稱LSI)、pLSA(又稱pLSI)、LDA、NMF等,由于本文主要目的是對ESI研究前沿進(jìn)行探索性研究,僅使用了LDA一種主題模型,并未對不同主題模型之間的特點(diǎn)和不足進(jìn)行對比分析。其次,本文是一種對ESI研究前沿較為粗粒度的研究,描述了一種或多種學(xué)科的外貌特征,包括學(xué)科交叉程度、學(xué)科發(fā)展穩(wěn)定性、學(xué)科主題演變情況、主題發(fā)現(xiàn)相關(guān)影響因素等,想要獲取更加縱向的深入的主題分析,需要在本文基礎(chǔ)上進(jìn)一步縮小范圍,縮小范圍進(jìn)行細(xì)粒度的研究分析。
參考文獻(xiàn):
[1]關(guān)鵬,王曰芬,傅柱.不同語料下基于IDA主題模型的科學(xué)文獻(xiàn)主題抽取效果分析[J].圖書情報(bào)工作,2016(02):112-121.
[2]關(guān)鵬,王日芬.科技情報(bào)分析中LDA主題模型最優(yōu)主題數(shù)確定方法研究[J].現(xiàn)代圖書情報(bào)技術(shù),2016,32(09):42-50.
[3]張勇.基于詞性與LDA主題模型的文本分類技術(shù)研究[D].合肥:安徽大學(xué),2016.
[4]李湘東,霍亞勇,張嬌.基于LDA主題模型的圖書網(wǎng)頁書目信息提取研究[J].情報(bào)科學(xué),2016,34(01):34-37.
[5]李牧南.基于關(guān)聯(lián)規(guī)則挖掘競爭情報(bào)研究前沿分析[J].情報(bào)雜志,2016,35(03):54-60.
[6]李小濤,金心怡,李艷.基于ESI高被引論文的醫(yī)學(xué)信息學(xué)研究前沿可視化分析[J].現(xiàn)代情報(bào),2018,38(12):122-127.
[7]孫震,冷伏海.一種基于知識(shí)元共現(xiàn)的ESI研究前沿 知識(shí)演進(jìn)分析方法[J].情報(bào)學(xué)報(bào),2018,37(11):23-41.
[8]王小梅,鄧啟平,李國鵬,等.ESI研究前沿的科學(xué)圖譜及在納米領(lǐng)域的應(yīng)用[J].圖書情報(bào)工作,2017,61(12):106-112.
[9]錢萬強(qiáng),張峰,江海燕,等.世界前沿科學(xué)發(fā)展趨勢研究:基于ESI數(shù)據(jù)庫和十大突破分析[J].中國科學(xué)基金,2017(01):66-71.
[10]邊文越,王海名,邢穎,等.基于ESI研究前沿的納米領(lǐng)域研究分析[J].中國科學(xué)院院刊,2017,32(10):1150-1158.
[11]周群,韓濤,左文革,等.基于學(xué)科前沿性視角的科研機(jī)構(gòu)評測研究與實(shí)證[J].現(xiàn)代情報(bào),2018,38(04):65-70+76.
[12]董彥邦,劉莉.全球?qū)W科排名與ESI研究前沿的相關(guān)性研究——以計(jì)算機(jī)學(xué)科為例[J].情報(bào)雜志,2019,38(05):81-86.
[13]周麗英,冷伏海,左文革.引文耦合增強(qiáng)的共詞分析方法改進(jìn)研究——以ESI農(nóng)業(yè)科學(xué)研究主題劃分為例[J].情報(bào)理論與實(shí)踐,2015,38(11):120-125.
*本文系國家社會(huì)科學(xué)基金項(xiàng)目“圖書館知識(shí)發(fā)現(xiàn)服務(wù)的功能定位和建設(shè)策略研究”(項(xiàng)目編號:14BTQ018)研究成果之一。項(xiàng)目負(fù)責(zé)人:袁潤。
(作者單位:袁潤、潘穎,江蘇大學(xué)圖書館;劉邦國,江蘇大學(xué)科技信息研究所)