張 暉, 楊小彥, 趙旭劍, 楊春明, 李 波
(1.西南科技大學(xué) 理學(xué)院 四川 綿陽 621010; 2.西南科技大學(xué) 計算機科學(xué)與技術(shù)學(xué)院 四川 綿陽 621010)
隨著信息資源數(shù)量和種類的急速增長,科學(xué)研究領(lǐng)域不斷開拓,科研人員和學(xué)者在掌握學(xué)科前沿?zé)狳c方面面臨著越來越多的挑戰(zhàn).如何快速、準(zhǔn)確地從科研文獻中提取和識別學(xué)科領(lǐng)域研究的前沿?zé)狳c,對當(dāng)前科研工作具有重要研究意義[1].傳統(tǒng)研究方法主要是以電子期刊、學(xué)位論文等作為數(shù)據(jù)源,采用詞頻分析[2]、共詞分析[3]、多維尺度分析[4]、社會網(wǎng)絡(luò)分析[5]和其他分析模型[6-8]來識別前沿?zé)狳c.這類研究方法主要通過分析文獻的學(xué)術(shù)傳播熱度來挖掘?qū)W科領(lǐng)域熱點,僅考慮了領(lǐng)域知識在專業(yè)學(xué)術(shù)平臺的影響力,忽視了科研文獻在社會網(wǎng)絡(luò)中的流行與傳播,熱點挖掘結(jié)果存在滯后、前瞻性較差等不足.
學(xué)科前沿?zé)狳c挖掘可分為兩類:第一類簡單地考慮文獻計量特征,包括詞頻分析、文獻引用、關(guān)鍵詞的共詞或共現(xiàn)分析;第二類是使用廣泛用于文本挖掘中的主題模型LDA、HDP等來識別主題熱點.由于引文和關(guān)鍵詞能較好地描述科技文獻的主題內(nèi)容,因此國內(nèi)外學(xué)者利用文獻計量的引文分析法、可視化圖譜[9]、關(guān)鍵詞的詞頻分析和共詞分析等方法進行學(xué)科前沿?zé)狳c挖掘.文獻[3]運用文獻計量中共詞和文檔共引,從高影響力文章、作者、期刊、機構(gòu)和國家等角度出發(fā),繪制知識圖譜,分析抗癌研究領(lǐng)域的研究熱點和整體發(fā)展趨勢.文獻[10]基于h指數(shù)和引文分析法梳理了國內(nèi)外碳市場研究領(lǐng)域的研究熱點、發(fā)展趨勢和主要區(qū)域分布等.文獻[11]利用WoSCC收錄的Treg領(lǐng)域相關(guān)文獻數(shù)據(jù)進行文獻計量方法和Citespace[12]繪制共引圖譜,分析該領(lǐng)域的研究熱點和發(fā)展演化趨勢.除此之外,基于主題模型的學(xué)科領(lǐng)域熱點識別方法也得到了廣泛運用,如文獻[13]使用LDA模型從論壇語料中識別熱點話題,并計算話題強度和特征關(guān)鍵詞,以找到熱點話題的發(fā)展及演化趨勢,實驗結(jié)果說明該方法是合理和有效的.文獻[14]提出基于主題模型的熱點發(fā)現(xiàn)技術(shù),實驗表明該模型在文本挖掘方面的熱點主題識別上具有明顯的優(yōu)勢.
相較于專業(yè)學(xué)術(shù)平臺,信息在社會網(wǎng)絡(luò)環(huán)境下往往傳播速度更快、范圍更廣,更能實時地體現(xiàn)傳播對象的冷熱程度及普遍性,充分保證學(xué)科熱點的前沿性.因此,科研文獻在社會網(wǎng)絡(luò)中的傳播影響力分析對挖掘?qū)W科前沿?zé)狳c具有重要研究意義和應(yīng)用價值.基于該思想,本文考慮了社會網(wǎng)絡(luò)中文獻傳播的普及,提出了一種用于熱點主題挖掘的方法.將文獻熱度屬性分為傳統(tǒng)和社會屬性,然后在社會網(wǎng)絡(luò)環(huán)境中構(gòu)建文獻熱度評價模型,計算和分析文獻關(guān)注度,挖掘具有社會傳播影響力的學(xué)術(shù)論文.其次,采用LDA算法對文獻內(nèi)容進行主題挖掘,生成學(xué)科前沿?zé)狳c主題.與已有的工作相比,本文的主要貢獻在于:
1) 從數(shù)據(jù)相關(guān)性的角度分析文獻傳播的評價指標(biāo)與文獻熱度的關(guān)聯(lián)性,采用無監(jiān)督學(xué)習(xí)方法進行各媒體指標(biāo)的主成分分析,劃分影響文獻熱度的熱度評價指標(biāo)主題類別,為測度文獻的社會網(wǎng)絡(luò)關(guān)注度指標(biāo)奠定了基礎(chǔ).
2) 通過挖掘評價指標(biāo)中的社會網(wǎng)絡(luò)關(guān)注度因子,構(gòu)建文獻熱度評價模型,計算文獻社會傳播熱度(社會網(wǎng)絡(luò)關(guān)注度),采用LDA主題模型對文獻內(nèi)容進行主題挖掘,生成學(xué)科前沿?zé)狳c主題.
3) 利用Altmetric[8]獲取“artificial intelligence and image processing”學(xué)科的16 658條論文記錄數(shù)據(jù)集,對提出的學(xué)科前沿?zé)狳c挖掘方法進行了對比實驗.實驗結(jié)果表明,本文提出的方法有效提高了學(xué)科熱點挖掘結(jié)果的時效性,熱點主題在時間維度上與傳統(tǒng)方法相比,挖掘結(jié)果更具有學(xué)科前沿性.
本文工作主要為兩部分:對指標(biāo)數(shù)據(jù)進行相關(guān)性分析,采用無監(jiān)督學(xué)習(xí)方法進行評價指標(biāo)的主成分聚類,剖析出影響文獻熱度的媒體指標(biāo)主題類別,挖掘社會關(guān)注度因子并構(gòu)建文獻熱度評價模型;采用吉布斯抽樣的LDA模型對科研文獻內(nèi)容進行學(xué)科前沿?zé)狳c挖掘,生成學(xué)科前沿?zé)狳c知識.熱點主題挖掘算法具體的方法流程如下所示.
輸入: K=
1.2.1相關(guān)性分析 通過數(shù)據(jù)分析,本文采用皮爾遜(Pearson)相關(guān)性模型挖掘文獻傳播的媒體指標(biāo)與文獻熱度的關(guān)聯(lián)性,計算其相關(guān)系數(shù)并剔除弱相關(guān)或無相關(guān)的指標(biāo),最終提取出6個文獻熱度評價指標(biāo)(Reddit、Bloggers、Twitter、Google+、News、Facebook).皮爾遜相關(guān)系數(shù)是用來反映兩個變量線性相關(guān)程度的統(tǒng)計量.皮爾遜相關(guān)系數(shù)用PX,Y表示,計算公式為
(1)
其中:n為樣本量;Xi和Yi分別為兩個變量X和Y的觀測值;σX為變量X的標(biāo)準(zhǔn)差.
1.2.2熱度評價模型指標(biāo)主題挖掘 6個文獻熱度評價指標(biāo)從不同維度表征了一篇論文在各媒體平臺的傳播影響力,然而通過研究發(fā)現(xiàn)每個評價指標(biāo)及其代表的媒體平臺都具有一定的主題性.因此,本文考慮采用無監(jiān)督學(xué)習(xí)方法進行熱度評價指標(biāo)的主成分分析,挖掘指標(biāo)主題.進行主成分聚類之前,需進行KMO-Bartlett檢驗,計算出KMO 值為0.690,大于0.5(KMO值小于0.5 不適合進行主成分分析)表明指標(biāo)間存在共同因子,因此也說明可以進行主成分分析.
雖然這些熱度指標(biāo)能提取出共同因子,這些共同因子能聚類到一起構(gòu)成幾個主成分,還需通過解釋總方差進行分析,各指標(biāo)解釋總方差如表1所示. 根據(jù)主成分的提取原則(主成分對應(yīng)的特征值應(yīng)大于1,主成分積累的總方差盡可能大(50%以上)),只有成分1和成分2的特征值合計大于1,而且這兩個成分積累的總方差比較大,達到61.149%,沒有影響原始數(shù)據(jù)的共同度,表明可以將6個指標(biāo)提取出兩個主成分.同時,如表2所示, 對各指標(biāo)進行了主成分載荷矩陣,F(xiàn)acebook、Google+、Twitter、Reddit、Bloggers 5類指標(biāo)對成分1貢獻較大,而成分2則主要依賴于News.因此,文獻熱度評價指標(biāo)可以劃分為兩個主題:由Facebook、Google+、Twitter、Reddit、Bloggers等社交平臺構(gòu)成的社會網(wǎng)絡(luò)媒體即社會屬性;News為代表的傳統(tǒng)網(wǎng)絡(luò)媒體即傳統(tǒng)屬性.
表1 各指標(biāo)解釋總方差Tab.1 Total variance explained
表2 主成分載荷矩陣Tab.2 Principal component load matrix
1.2.3文獻熱度評價模型構(gòu)建 由1.2.2節(jié)可知文獻熱度由具有不同主題屬性的6個評價指標(biāo)綜合決定,各指標(biāo)特征滿足AHP分析法中的單層次模型,因此采用AHP模型[15]思想構(gòu)建文獻熱度評價模型:
psoc=λ1·Ri+λ2·Bi+λ3·Ti+λ4·Gi+λ5·Ni+λ6·Fi,
(2)
ptra=γ1·Ri+γ2·Bi+γ3·Ti+γ4·Gi+γ5·Ni+γ6·Fi.
(3)
其中:psoc表示第i篇文獻在社會網(wǎng)絡(luò)媒體上的關(guān)注度,即文獻熱度;ptra表示第i篇文獻在傳統(tǒng)網(wǎng)絡(luò)媒體上的關(guān)注度;λ1代表Reddit指標(biāo)的權(quán)重;Ri代表Reddit對第i篇文獻的引用數(shù);λi是指第i個評價指標(biāo)在整體評價中的相對重要程度,權(quán)重越大則該指標(biāo)的重要性越高,對文獻熱度的影響就越大.
表3 成分得分系數(shù)矩陣Tab.3 Component score coefficient matrix
由熱度評價指標(biāo)主題類別可知,本文可采用主成分分析提取兩個主成分,借鑒文獻[16]使用主成分分析各指標(biāo)數(shù)據(jù)之間的潛在關(guān)系,利用回歸法計算出成分得分系數(shù),各指標(biāo)成分得分實際上是一個相對值,即該樣本偏離所有樣本均值的程度,正值說明超過平均水平,負(fù)值說明低于平均水平,正負(fù)值正好將各指標(biāo)劃分到對應(yīng)的主成分中,能很好地區(qū)分各主成分的主題類別,結(jié)果如表3.
從表3可知,Twitter、Facebook、Google+等指標(biāo)與主成分1密切相關(guān),系數(shù)均在0.2以上,由此可以發(fā)現(xiàn)主成分1中貢獻比較大的指標(biāo)主要用于測度學(xué)術(shù)論文在社會網(wǎng)絡(luò)媒體中的傳播影響,通過在線社交過程中的交互行為傳播所產(chǎn)生的影響力,是最具社會網(wǎng)絡(luò)關(guān)注度的因子,也是本文研究的重點.News對主成分2相關(guān)系數(shù)較高,故主成分2可以代表用于測度學(xué)術(shù)論文在新聞等傳統(tǒng)網(wǎng)絡(luò)媒體中傳播所產(chǎn)生的影響力.從成分得分系數(shù)矩陣確定指標(biāo)權(quán)重得到文獻熱度評價模型:
psoc=0.22·Ri+0.237·Bi+0.285·Ti+0.289·Gi+0.185·Ni+0.307·Fi,
(4)
ptra=-0.088·Ri+0.495·Bi-0.294·Ti-0.27·Gi+0.648·Ni-0.182·Fi.
(5)
本文利用Altmetric跟蹤“artificial intelligence and image processing”學(xué)科的指標(biāo)數(shù)據(jù)進行數(shù)據(jù)分析與處理,構(gòu)建文獻熱度評價模型.因為社會網(wǎng)絡(luò)媒體具有時間優(yōu)勢.故以主成分1構(gòu)建的具有社會網(wǎng)絡(luò)關(guān)注度的文獻熱度評價模型進行學(xué)科前沿?zé)狳c數(shù)據(jù)挖掘?qū)嶒灒ㄟ^該模型挖掘出社會網(wǎng)絡(luò)媒體上比較受用戶關(guān)注以及具有熱度的前沿?zé)狳c文獻數(shù)據(jù),列舉了社會網(wǎng)絡(luò)關(guān)注度排名前10的文獻數(shù)據(jù),結(jié)果如表4所示.
表4 社會網(wǎng)絡(luò)關(guān)注度排名前10文獻數(shù)據(jù)
從表4可知,在排名靠前的這10篇文獻中,Twitter、Facebook和Google+等社會網(wǎng)絡(luò)媒體上的文獻引用數(shù)較大,其社會網(wǎng)絡(luò)關(guān)注度的psoc值較大,說明通過主成分1構(gòu)建的文獻熱度評價模型能很好地體現(xiàn)文獻的社會網(wǎng)絡(luò)特性以及熱度.
由基于社交網(wǎng)絡(luò)的模型評估的文獻數(shù)據(jù)被表示為dataset 1,而dataset 2表示由基于傳統(tǒng)媒體的模型評估的文獻數(shù)據(jù).為了評估這兩種模型挖掘出的文獻在人工智能和圖像領(lǐng)域的影響,本文引入NCII指數(shù)來測量文獻的影響力.論文的引用次數(shù)與其出版時間有很大關(guān)系,一般來說,論文出版時間越早,引用的可能性就越大.這導(dǎo)致在不同時間出版的論文很難比較它們的影響力.因此,考慮到出版時間對參考文獻數(shù)量的影響,因此提出了一種新的NCII指數(shù)[17],其計算公式為
(6)
以最近五年內(nèi)的文獻作為前沿信息,通過式(6)計算傳統(tǒng)媒體和社交網(wǎng)絡(luò)媒體的文獻影響力,驗證兩種媒體識別出的科研文獻的時效性及影響力,結(jié)果如圖1所示.從圖中可知,社交媒體挖掘的文獻的影響力值均大于傳統(tǒng)媒體,說明社會網(wǎng)絡(luò)媒體挖掘的文獻數(shù)據(jù)更具時效性和影響力.
利用吉布斯抽樣的LDA主題模型,以dataset 1為實驗數(shù)據(jù)挖掘出50個潛在主題及其代表關(guān)鍵詞.主題是由一系列關(guān)鍵詞組成,而每個詞對主題的貢獻率各不相同,因此,選擇每個主題貢獻率最大的8個單詞表征該熱點主題.根據(jù)不同主題的關(guān)鍵詞表示,本文對各個熱點主題進行話題語義抽象.由于篇幅有限,表5給出了10個主題的挖掘結(jié)果.
同時,本文分析了主題模型計算出的潛在話題分布情況如圖2所示,從圖2可知,自然語言處理、算法優(yōu)化、情感分析、深度學(xué)習(xí)等熱點主題在“artificial intelligence and image processing”領(lǐng)域較其他主題占的比重較大,更為熱門;而圖像識別、大數(shù)據(jù)應(yīng)用、可視化等熱點主題在該領(lǐng)域發(fā)展較為均衡.
本文以dataset 1和dataset 2為實驗數(shù)據(jù)進行學(xué)科熱點主題挖掘,選取對熱點主題貢獻最大的文獻的發(fā)表時間作為該主題的熱點時間對比分析,兩種媒體類型挖掘的熱點主題對比結(jié)果如表6所示.
圖1 社會網(wǎng)絡(luò)與傳統(tǒng)媒體NCII影響力Fig.1 The NCII of social-network and tradition-media influence
圖2 熱點主題潛在話題分布Fig.2 Potential topics distribution of hotspots
表5 前沿?zé)狳c主題
從表6可知,兩者有2個熱點話題相似,其中相似話題“情感分析”和“自然語言處理”的熱點時間不同,社會網(wǎng)絡(luò)媒體挖掘的這兩個熱點主題時間比較新,原因是隨著深度學(xué)習(xí)的深入研究,直接推動情感分析和自然語言處理等相關(guān)技術(shù)的發(fā)展,使兩者也成了較新的研究熱點.除了共同熱點外,社會網(wǎng)絡(luò)媒體挖掘的熱點主題還包含一些特有的前沿?zé)狳c信息,如“社會信息安全”、“大數(shù)據(jù)應(yīng)用”、“算法優(yōu)化”和“可視化”等,這些熱點概念提出時間較晚,概念較新,近年來在學(xué)術(shù)著作中有大量的研究,其熱門趨勢也越來越明顯,故也成了該領(lǐng)域的研究熱點.
同時,為了進一步驗證本文方法的挖掘結(jié)果更具學(xué)科準(zhǔn)確性,以dataset 1為數(shù)據(jù)分別采用LDA主題模型和基于關(guān)鍵詞的共詞分析法[14]進行學(xué)科前沿?zé)狳c挖掘?qū)Ρ葘嶒?,?給出了這兩種方法的熱點挖掘結(jié)果.
從表7可得,兩種方法挖掘的熱點有30%是相似的.本文挖掘“人工智能與圖像處理”領(lǐng)域的前沿?zé)狳c,主題模型挖掘出關(guān)于圖像處理方面的熱點有“圖像識別”,其在2015年過后被廣泛關(guān)注,是該領(lǐng)域的研究熱點;然而傳統(tǒng)的研究方法并沒有挖掘出關(guān)于圖像方面的熱點,故該方法存在一定的不足.除上述熱點主題均只通過主題模型挖掘出,傳統(tǒng)研究方法也并未挖掘出“深度學(xué)習(xí)”、“文本挖掘”、“可視化”、“社會信息安全”等新技術(shù)或新熱點.通過知網(wǎng)學(xué)術(shù)趨勢(http://trend.cnki.net/TrendSearch/),查詢各熱點主題發(fā)展趨勢,以學(xué)術(shù)關(guān)注度最大的年份作為該熱點主題的學(xué)術(shù)關(guān)注時間;發(fā)現(xiàn)共詞分析法挖掘的熱點 “決策支持”、“行為研究”、“推理”和“認(rèn)知科學(xué)理論”最大學(xué)術(shù)關(guān)注度的時間偏離目前時間,說明其研究已久,故不能作為該領(lǐng)域的前沿?zé)狳c;總體而言,主題模型挖掘的熱點較共詞分析法挖掘的熱點更準(zhǔn)確.
表6 兩種媒體類型挖掘的熱點主題對比Tab.6 Hot topic results comparison of two media types
表7 兩種方法熱點主題挖掘結(jié)果對比Tab.7 Hotspot mining results comparison of two methods
針對以往挖掘?qū)W科前沿?zé)狳c存在時滯過長等不足,本文提出基于社會網(wǎng)絡(luò)關(guān)注度的學(xué)科領(lǐng)域文獻熱度評價模型挖掘?qū)W科前沿?zé)狳c.通過對各指標(biāo)進行相關(guān)性獲取相關(guān)屬性,采用主成分分析劃分社會與傳統(tǒng)屬性,構(gòu)建具有社會網(wǎng)絡(luò)關(guān)注度的文獻熱度評價模型.以“artificial intelligence and image processing”學(xué)科文獻記錄數(shù)據(jù)為實驗數(shù)據(jù),利用構(gòu)建的文獻熱度評價模型識別該學(xué)科有影響力和熱度的文獻,由于文獻內(nèi)容冗余和有噪聲,故本文采用在文本抽取中效果較好的LDA模型,通過兩組對比實驗,得出自然語言處理、算法優(yōu)化、情感分析、深度學(xué)習(xí)等熱點主題在人工智能和圖像處理領(lǐng)域較其他主題更為熱門,圖像識別,大數(shù)據(jù)應(yīng)用、可視化、人工智能理論、信息安全等熱點發(fā)展趨勢較均衡的結(jié)論,同時也驗證了本文挖掘的學(xué)科領(lǐng)域前沿?zé)狳c知識的前沿性、時效性和準(zhǔn)確性.