李靜 徐路路
摘要:[目的/意義]細(xì)粒度分析學(xué)科領(lǐng)域熱點(diǎn)主題發(fā)展脈絡(luò)并對(duì)利用機(jī)器學(xué)習(xí)算法對(duì)未來發(fā)展趨勢(shì)進(jìn)行準(zhǔn)確預(yù)測(cè)研究。[方法/過程]提出一種基于機(jī)器學(xué)習(xí)算法的研究熱點(diǎn)趨勢(shì)預(yù)測(cè)方法與分析框架,以基因工程領(lǐng)域?yàn)槔弥黝}概率模型識(shí)別WOS核心集中論文摘要數(shù)據(jù)研究熱點(diǎn)主題并進(jìn)行主題演化關(guān)聯(lián)構(gòu)建,然后選取BP神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)及LSTM模型等3種典型機(jī)器學(xué)習(xí)算法進(jìn)行預(yù)測(cè)分析,最后利用RE指標(biāo)和精準(zhǔn)度指標(biāo)評(píng)價(jià)機(jī)器學(xué)習(xí)算法預(yù)測(cè)效果并對(duì)基因工程領(lǐng)域在醫(yī)藥衛(wèi)生、農(nóng)業(yè)食品等方面研究趨勢(shì)進(jìn)行分析。[結(jié)果/結(jié)論]實(shí)驗(yàn)表明基于LSTM模型對(duì)熱點(diǎn)主題未來發(fā)展趨勢(shì)預(yù)測(cè)準(zhǔn)確度最高,支持向量機(jī)預(yù)測(cè)效果次之,BP神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)效果較差且預(yù)測(cè)穩(wěn)定性不足,同時(shí)結(jié)合專家咨詢和文獻(xiàn)調(diào)研表明本文方法可快速識(shí)別基因領(lǐng)域研究主題及發(fā)展趨勢(shì),可為我國學(xué)科領(lǐng)域大勢(shì)研判和架構(gòu)調(diào)整提供決策支持和參考。
關(guān)鍵詞:熱點(diǎn)主題;發(fā)展趨勢(shì);機(jī)器學(xué)習(xí);LSTM模型;支持向量機(jī)模型
DOI:10.3969/j.issn.1008-0821.2019.04.003
〔中圖分類號(hào)〕G203〔文獻(xiàn)標(biāo)識(shí)碼〕A〔文章編號(hào)〕1008-0821(2019)04-0023-11
Comparison and Analysis of Research Trend Prediction
Models Based on Machine Learning Algorithm
——BP Neural Network,Support Vector Machine and LSTM Model
Li Jing1Xu Lulu2*
(1.School of Economics and Management,Tongji University,Shanghai 200092,China;
2.Department of Information Resources Management,Business School,Nankai University,
Tianjin 300071,China)
Abstract:[Purpose/Signficance]Fine-grained analysis of the development context of hot topics in the subject field and accurate prediction of future development trends using machine learning algorithms.[Method/Process]This paper proposed a research hotspot prediction method and analysis framework based on machine learning algorithm.Taking the field of genetic engineering as an example,it used the topic probability model to identify the hot topics of the WOS core summary data and constructed the theme evolution association.Then selected three typical machine learning algorithms,such as BP neural network,support vector machine and LSTM model to predict and analyze.Finally,the prediction results of the machine learning algorithm were evaluated by using RE index and precision index,and analysed the research trend in the fields of medicine and health and agricultural food in the field of genetic engineering.[Result/Conclusion]The experiment showed that the LSTM model had the highest prediction accuracy for the future development trend of hot topics,the prediction effect of support vector machine was the second,the prediction effect of BP neural network was poor and the prediction stability was insufficient.At the same time,combining expert consultation and literature research,it showed that this method could quickly identify the topic and development trend of gene field.It could provide decision support and reference for the judgement and adjustment of the discipline in China.
Key words:hot topics;development trend;machine learning;LSTM model;support vector
21世紀(jì)以來,面對(duì)日益加劇的科技創(chuàng)新演變和國際科技競(jìng)爭(zhēng)態(tài)勢(shì),如何有效識(shí)別科學(xué)領(lǐng)域研究前沿?zé)狳c(diǎn)并對(duì)未來科技發(fā)展態(tài)勢(shì)進(jìn)行預(yù)判至關(guān)重要?;诳萍嘉墨I(xiàn)的研究前沿?zé)狳c(diǎn)探測(cè)一直是科技戰(zhàn)略情報(bào)的重點(diǎn)內(nèi)容,宏觀層面來講可對(duì)國家學(xué)科架構(gòu)規(guī)劃、智庫建設(shè)及基金規(guī)劃制定提供決策支持,中觀層面對(duì)于地區(qū)、高校、院系等體系的雙一流建設(shè)和學(xué)科帶頭點(diǎn)培養(yǎng)起指導(dǎo)作用,而從個(gè)體微觀角度來講,研究熱點(diǎn)的把握和趨勢(shì)追蹤對(duì)于科研工作者提升科研效率和科研產(chǎn)出意義顯著[1]。因此,有效捕捉當(dāng)前活躍的科研活動(dòng)信息,從而追蹤研究熱點(diǎn)趨勢(shì)成為一直以來關(guān)注的焦點(diǎn)。
目前,很多學(xué)者圍繞科學(xué)研究前沿及領(lǐng)域熱點(diǎn)態(tài)勢(shì)等進(jìn)行了有效研究并取得了豐碩的成果。但與此同時(shí),研究熱點(diǎn)探測(cè)多基于引文分析方法存在時(shí)間滯后問題[2],同時(shí)存在詞頻統(tǒng)計(jì)分析語義不足、演化分析較為充分但預(yù)測(cè)分析不足以及粗粒度時(shí)間切片不能有效揭示熱點(diǎn)主題的發(fā)展演化脈絡(luò)等諸多問題[3],使得研究熱點(diǎn)探測(cè)和趨勢(shì)分析科學(xué)性存在不足。
基于指數(shù)平滑、自回歸模型、神經(jīng)網(wǎng)絡(luò)模型等方法的時(shí)間序列預(yù)測(cè)模型基于歷史數(shù)據(jù)相空間重構(gòu)和反饋傳播從而把握事物演變態(tài)勢(shì)并對(duì)下一時(shí)間段的發(fā)展進(jìn)行預(yù)測(cè),在金融證券、風(fēng)電荷載及企業(yè)治理等領(lǐng)域應(yīng)用廣泛。但預(yù)測(cè)研究在情報(bào)學(xué)應(yīng)用較少,存在場(chǎng)景融合力度不足以及預(yù)測(cè)方法傳統(tǒng)單一等問題,因此,本文提出基于機(jī)器學(xué)習(xí)算法的研究熱點(diǎn)預(yù)測(cè)模型,利用主題概率模型識(shí)別領(lǐng)域主題強(qiáng)度并以表征研究熱點(diǎn),嘗試分析和對(duì)比不同機(jī)器學(xué)習(xí)算法預(yù)測(cè)效果以確定最優(yōu)預(yù)測(cè)模型選擇,對(duì)未來一段時(shí)間內(nèi)的發(fā)展趨勢(shì)進(jìn)行定量分析。本文嘗試尋求機(jī)器學(xué)習(xí)預(yù)測(cè)模型與研究前沿?zé)狳c(diǎn)的應(yīng)用結(jié)合點(diǎn),也為情報(bào)學(xué)領(lǐng)域的前沿識(shí)別追蹤領(lǐng)域提供一種新思路、新方法。
1相關(guān)研究
11研究熱點(diǎn)梳理
目前在情報(bào)學(xué)和科學(xué)學(xué)研究熱點(diǎn)及前沿?zé)狳c(diǎn)識(shí)別中主要分為兩大類方法:引文分析方法(如共被引、文獻(xiàn)耦合)和文本內(nèi)容分析(詞頻分析、共詞以及主題概率模型分析)。
1973年,Small H等[4]首次提出利用共被引聚類方法識(shí)別研究前沿?zé)狳c(diǎn)主題。1994年,Carfield S L等[5]利用共被引強(qiáng)度表征當(dāng)前研究活動(dòng)前沿信息并進(jìn)一步對(duì)研究前沿?zé)狳c(diǎn)內(nèi)涵分析定義。Kessler M M[6]最早將文獻(xiàn)耦合分析方法引入到前沿?zé)狳c(diǎn)識(shí)別中來,該方法有效揭示文獻(xiàn)間內(nèi)在聯(lián)系和學(xué)科架構(gòu)變化,圍繞該方法的研究逐步開展。如Persson[7]利用施引文獻(xiàn)—被引文獻(xiàn)二維矩陣揭示熱點(diǎn)研究主題,Morris S A等[8]基于文獻(xiàn)耦合方法進(jìn)一步可視化展示熱點(diǎn)主題分布、演變與衰老動(dòng)態(tài)時(shí)序變化。
基于共被引和文獻(xiàn)耦合等引文分析方法存在時(shí)間探測(cè)的滯后性,同時(shí)存在未深入文本內(nèi)容、欠缺語義關(guān)系等問題一定程度上制約了熱點(diǎn)主題探測(cè)的科學(xué)性。因此,目前基于詞頻分析、共詞分析以及主題模型成為熱點(diǎn)識(shí)別的主流先驅(qū)。2003年,Blei D M等[9]提出LDA模型從概率統(tǒng)計(jì)層面定量分析和識(shí)別出科技文獻(xiàn)動(dòng)態(tài)研究主題。2004年,Mane K K等[10]利用詞頻分析方法對(duì)生物醫(yī)學(xué)領(lǐng)域文獻(xiàn)進(jìn)行結(jié)構(gòu)分層并繪制研究熱點(diǎn)主題地圖。2012年,楊星等[11]提出基于主題模型的熱點(diǎn)及趨勢(shì)自動(dòng)識(shí)別方法并在時(shí)間軸上對(duì)熱點(diǎn)主題進(jìn)行動(dòng)態(tài)演化分析,相關(guān)研究學(xué)者還有傅柱等[12]、徐路路等[13]。目前基于研究熱點(diǎn)和前沿探測(cè)的方法取得了顯著的研究成果,演化分析較為充分但存在前瞻預(yù)測(cè)不足、預(yù)測(cè)方法單一老化等問題,因此本文將結(jié)合當(dāng)前機(jī)器學(xué)習(xí)相關(guān)算法對(duì)識(shí)別出的研究熱點(diǎn)主題進(jìn)行預(yù)測(cè)分析。
12基于機(jī)器學(xué)習(xí)預(yù)測(cè)方法梳理
1970年,美國科學(xué)家博克斯首次提出利用時(shí)間序列建模分析實(shí)現(xiàn)事物發(fā)展趨勢(shì)預(yù)測(cè)對(duì)模型設(shè)計(jì)、診斷、檢驗(yàn)以及控制等進(jìn)行了闡明。之后圍繞時(shí)序建模的思想和方法逐漸完善并在經(jīng)濟(jì)趨勢(shì)預(yù)測(cè)、國家產(chǎn)值預(yù)判及輿情風(fēng)險(xiǎn)評(píng)估等諸多方面取得了方法的應(yīng)用。目前傳統(tǒng)的時(shí)序預(yù)測(cè)方法主要有自回歸、Kalman濾波法、滑動(dòng)平均模型等。
基于傳統(tǒng)的時(shí)間序列預(yù)測(cè)方法側(cè)重于數(shù)理統(tǒng)計(jì),不具備自學(xué)習(xí)、自組織、自適應(yīng)能力,尤其對(duì)于非線性及多特征維度的數(shù)據(jù)類型不能有效擬合和函數(shù)表達(dá)。隨著萬物互聯(lián)和大數(shù)據(jù)生態(tài)環(huán)境的構(gòu)建,基于神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)回歸及隨機(jī)森林等模型的多種機(jī)器學(xué)習(xí)算法的時(shí)間序列預(yù)測(cè)模型日益發(fā)揮重要作用。
2004年,張烈平等[14]提出一種基于BP神經(jīng)網(wǎng)絡(luò)的自學(xué)習(xí)預(yù)測(cè)建模系統(tǒng),利用其并行結(jié)構(gòu)和處理能力將仿真實(shí)驗(yàn)精準(zhǔn)度有效提高。2008年,侯亞麗等[15]針對(duì)BP神經(jīng)預(yù)測(cè)模型收斂慢且易局部收斂等缺陷,提出一種基于改進(jìn)LM(Levenberg-Marquardt)優(yōu)化算法的神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)模型,修正后向傳播權(quán)重調(diào)整策略和偏置優(yōu)化有效提出模型運(yùn)行效率,圍繞BP神經(jīng)網(wǎng)絡(luò)及其他模型算法研究的還有夏玫等[16]、孫文俊等[17]及饒浩等[18]。2015年,羅知林等[19]提出基于隨機(jī)森林算法的微博信息傳播預(yù)測(cè)算法,利用隨機(jī)算法的高維度特征抽取能力對(duì)微網(wǎng)絡(luò)結(jié)構(gòu)及等特征進(jìn)行有效提取預(yù)測(cè)。2016年,李杰[20]提出改進(jìn)粒子群算法的支持向量機(jī)預(yù)測(cè)模型有效克服其參數(shù)收斂及優(yōu)化問題,并以工程造價(jià)領(lǐng)域進(jìn)行實(shí)證預(yù)測(cè)研究。2017年,張宇航等[21]針對(duì)小樣本電力荷載提出一種基于LSTM(Long Short-Term Memory,長(zhǎng)短期記憶網(wǎng)絡(luò))模型的短期負(fù)荷預(yù)測(cè)方法有效逼近其預(yù)測(cè)函數(shù)機(jī)制。
基于機(jī)器學(xué)習(xí)相關(guān)算法的預(yù)測(cè)模型在諸多領(lǐng)域取得廣泛應(yīng)用但在情報(bào)學(xué)研究領(lǐng)域尤其是前沿預(yù)測(cè)分析、熱點(diǎn)狀態(tài)追蹤等方面相關(guān)研究尚未開展。因此,本文將嘗試?yán)肂P網(wǎng)絡(luò)、支持向量機(jī)及LSTM模型對(duì)熱點(diǎn)前沿主題進(jìn)行預(yù)測(cè)分析并尋找最優(yōu)預(yù)測(cè)效果。
2方法框架
為有效對(duì)研究熱點(diǎn)進(jìn)行趨勢(shì)預(yù)測(cè)分析,本文提出一種基于機(jī)器學(xué)習(xí)算法的研究熱點(diǎn)預(yù)測(cè)模型,首先以基因工程領(lǐng)域?yàn)槔@取WOS核心合集摘要數(shù)據(jù),然后利用LDA主題模型實(shí)現(xiàn)科技文獻(xiàn)中信息抽取和主題強(qiáng)度表征熱點(diǎn)度,進(jìn)而利用余弦相似度定理建立主題關(guān)聯(lián)構(gòu)建,最后利用機(jī)器學(xué)習(xí)算法對(duì)其未來發(fā)展趨勢(shì)進(jìn)行預(yù)測(cè)分析并對(duì)不同機(jī)器學(xué)習(xí)算法預(yù)測(cè)能力進(jìn)行評(píng)估驗(yàn)證。實(shí)驗(yàn)框架如圖1所示。
21研究熱點(diǎn)主題探測(cè)
擬選用LDA模型為研究熱點(diǎn)主題探測(cè)工具。LDA主題模型可以表達(dá)主題、主題詞與文檔3層語義結(jié)構(gòu),利用無監(jiān)督機(jī)器學(xué)習(xí)方式抽取隱藏的主題信息并對(duì)主題詞進(jìn)行權(quán)重表示。研究熱點(diǎn)表示一定時(shí)期內(nèi)某一學(xué)科研究熱情及研究主題強(qiáng)度,可用關(guān)鍵詞或主題詞的權(quán)重表示,權(quán)重越大表示研究主題越熱門。利用機(jī)器學(xué)習(xí)算法進(jìn)行研究熱度預(yù)測(cè)首先需要得出每子時(shí)期主題強(qiáng)度值。本文提出熱點(diǎn)研究前沿主題強(qiáng)度指標(biāo)如下:
TIIzt=∑ni=1weight(ki)(1)
其中,weight(ki)表示主題詞權(quán)重比值;∑ni=1weight(ki)反映該主題累計(jì)主題詞權(quán)重值,TIIzt即為該主題權(quán)重值,越大表示研究主題越熱門,越代表當(dāng)前研究的重心和科技競(jìng)爭(zhēng)點(diǎn)。該指標(biāo)的有效探測(cè)和預(yù)測(cè)可對(duì)熱門研究前沿主題發(fā)展脈絡(luò)準(zhǔn)確把握和定位。
22主題關(guān)聯(lián)構(gòu)建
細(xì)粒度識(shí)別子時(shí)期研究主題熱度后需探索不同時(shí)間片段主題集群內(nèi)部與外部關(guān)聯(lián)關(guān)系,從而得到不同主題在不同時(shí)期的前驅(qū)與后繼關(guān)系形成動(dòng)態(tài)主題鏈。本文基于余弦相似度的方法計(jì)算時(shí)序主題的相似度,構(gòu)建基于時(shí)間序列發(fā)展的主題發(fā)展脈絡(luò),為后續(xù)基于機(jī)器學(xué)習(xí)算法做預(yù)測(cè)分析提供實(shí)驗(yàn)準(zhǔn)備和基礎(chǔ)。設(shè)定固定閾值進(jìn)行相似度判定,相似度大于閾值則說明兩個(gè)時(shí)間維度的熱點(diǎn)主題為同一主題的演進(jìn)與變化,公式如下所示:
Sim(Topici,Topicj)=cosθ=∑nk=1wk(Topici)×wk(Topicj)∑nk=1w2k(Topici)×∑nk=1w2k(Topicj)(2)
其中,分子表示兩個(gè)主題向量的點(diǎn)乘積,分母表示兩個(gè)主題向量的模的積。
23機(jī)器學(xué)習(xí)算法預(yù)測(cè)模型對(duì)比分析
選取目前時(shí)間序列預(yù)測(cè)研究中常用且準(zhǔn)確度較高的3種機(jī)器學(xué)習(xí)算法作為本實(shí)驗(yàn)研究熱點(diǎn)趨勢(shì)預(yù)測(cè)模型,分別為BP神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)和LSTM模型。
231BP神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)預(yù)測(cè)模型分析
1986年,Rumelhart首次提出誤差逆向修正多層反饋的BP神經(jīng)網(wǎng)絡(luò),憑借其優(yōu)越復(fù)雜模式分類能力和多維函數(shù)映射能力而取得了廣泛應(yīng)用。BP神經(jīng)網(wǎng)絡(luò)主要分為輸入層、隱含層和輸出層3層神經(jīng)結(jié)構(gòu),采用經(jīng)驗(yàn)風(fēng)險(xiǎn)最小和梯度下降法來計(jì)算目標(biāo)函數(shù)最優(yōu)值從而逼近函數(shù)表達(dá),BP神經(jīng)網(wǎng)絡(luò)網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。
其中,{x1,x2,x3,…,xn}表示n維的模型輸入單元,{y1,y2,y3,…,yn}表示模型輸入,從輸入到輸出對(duì)應(yīng)權(quán)重值w和偏置項(xiàng)b用于前向和后向傳播參數(shù)調(diào)整。對(duì)于神經(jīng)節(jié)點(diǎn)i輸入可表示為:
Hui=∑Jj=1WijVj=∑Jj=1Wijg∑Kk=1wjkxi(3)
經(jīng)過隱層節(jié)點(diǎn)得到模型輸入為:
Oui=g(Hui)=g∑Jj=1Wijg∑Kk=1WjkXi(4)
對(duì)于任意輸入模式u和輸入單元定義誤差函數(shù)為:
Eu(w)=12(xui-yui)2=12[xui-g(∑jWii) g(∑Wijxui)]2(5)
進(jìn)而對(duì)神經(jīng)元結(jié)構(gòu)進(jìn)行誤差平均處理得到模型預(yù)測(cè)器的誤差,使得隱層前向網(wǎng)絡(luò)結(jié)構(gòu)能夠逼近定義在Rn一個(gè)密集任意非線性函數(shù)得出模型最優(yōu)解。BP神經(jīng)網(wǎng)絡(luò)作為機(jī)器學(xué)習(xí)算法的一種具有較好的自學(xué)習(xí)、自適應(yīng)能力和一定的推廣能力。但BP神經(jīng)網(wǎng)絡(luò)面對(duì)復(fù)雜優(yōu)化目標(biāo)函數(shù)神經(jīng)元輸出逼近真實(shí)值時(shí)期訓(xùn)練效果較差且易陷入局部最優(yōu),其網(wǎng)絡(luò)結(jié)構(gòu)和神經(jīng)元需人為設(shè)定具有較強(qiáng)的主觀性,而該模型預(yù)測(cè)的推廣能力和泛化能力也有待于進(jìn)一步提升。
232支持向量機(jī)(SVM)預(yù)測(cè)模型分析
20世紀(jì)90年代科學(xué)家Vapnik等提出支持向量機(jī)(Support Vector Machine,SVM)算法,基于結(jié)構(gòu)風(fēng)險(xiǎn)最小化尋找歸納統(tǒng)計(jì)設(shè)計(jì)模型以實(shí)現(xiàn)最小風(fēng)險(xiǎn)泛函,利用核函數(shù)將數(shù)據(jù)從低維度映射高維度空間降低了維度災(zāi)難和計(jì)算復(fù)雜度而具有較好的推廣能力,在電力預(yù)測(cè)、文本分類等諸多領(lǐng)域取得了廣泛應(yīng)用。支持向量機(jī)采用核函數(shù)原理,將數(shù)據(jù)從低維空間映射到高維空間,有效避免“維數(shù)災(zāi)難”,提高了非線性數(shù)據(jù)的擬合能力(如圖1左側(cè)圖所示),利用核函數(shù)計(jì)算值K(xi,x)表達(dá)多維向量?jī)?nèi)積計(jì)算時(shí)間t時(shí)間段內(nèi)前m數(shù)據(jù)(即數(shù)據(jù)時(shí)間窗口為m)預(yù)測(cè)結(jié)果輸出,如圖3右側(cè)圖所示。
相比于BP神經(jīng)網(wǎng)絡(luò)等傳統(tǒng)神經(jīng)網(wǎng)絡(luò)算法,SVM模型采用結(jié)構(gòu)風(fēng)險(xiǎn)最優(yōu)而其推廣能力一直是該模型的優(yōu)點(diǎn)之一。對(duì)于給定樣本(xi,yi)(i=1,2,3,…,N),N為樣本容量,xi為輸入向量,yi為輸出目標(biāo),SVM模型采用高維映射特征空間Rn到Rm再在特征空間利用線性函數(shù)進(jìn)行函數(shù)逼近:
y=f(X)=[W,φ(X)]+b(6)
式中,W、f(X)為m維矢量數(shù)據(jù),b為函數(shù)閾值,y表示點(diǎn)積處理后函數(shù)值。根據(jù)統(tǒng)計(jì)學(xué)理論SVM最小化目標(biāo)函數(shù)得到擬合回歸函數(shù)公式:
minW,b∶12W2+c∑ni=1yi-[W,φ(xi)-bI](7)
式中c表示控制模型損失1/2w2和訓(xùn)練模型復(fù)雜度的懲罰系數(shù),i=1,2,…,n表示支持向量機(jī)點(diǎn)數(shù)。利用核函數(shù)可實(shí)現(xiàn)數(shù)據(jù)高維映射特征空間,進(jìn)而在不影響計(jì)算復(fù)雜度的前提下輸出模型預(yù)測(cè)時(shí)序結(jié)果。
g(xi)=wTΦ(xi)+b=∑mi=1αi[Φ(xi)Φ(x)]+b=∑αik(xi,x)+b(8)
支持向量機(jī)具有較強(qiáng)小樣本學(xué)習(xí)能力和非線性擬合能力,不容易陷入局部最優(yōu)同時(shí)參數(shù)設(shè)置相對(duì)簡(jiǎn)易,因此在機(jī)器學(xué)習(xí)時(shí)序預(yù)測(cè)領(lǐng)域取得了較為普遍的應(yīng)用,但在情報(bào)學(xué)科學(xué)研究前沿探測(cè)和預(yù)測(cè)分析中的應(yīng)用較少,因此本文選用支持向量機(jī)模型作為機(jī)器學(xué)習(xí)算法的一類展開論述分析。
233長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)預(yù)測(cè)模型分析
長(zhǎng)短期記憶網(wǎng)絡(luò)(Long Short Term Memory Networks,LSTM)作為特殊的RNN,有效克服了其在機(jī)器學(xué)習(xí)中梯度消失和梯度爆炸的缺陷,對(duì)于間隔和延遲相對(duì)較長(zhǎng)的時(shí)序數(shù)據(jù)具有強(qiáng)度處理能力。LSTM預(yù)測(cè)模型結(jié)構(gòu)包括:輸入序列X={x1,x2,x3,…,xn}、時(shí)序步長(zhǎng)及相應(yīng)輸入xt以及控制信息傳遞的遺忘門ft、輸入門it和輸出門ot,如圖4所示,在t時(shí)刻時(shí)t-1時(shí)刻輸入ht-1及記憶細(xì)胞狀態(tài)Ct-1到達(dá)并結(jié)合此時(shí)刻輸入通過輸入門并由遺忘門f過濾后得到該時(shí)刻模型輸出。
圖4LSTM模型預(yù)測(cè)模型結(jié)構(gòu)分析
對(duì)于LSTM輸入:
zt=∑Ii=1wxixti+∑Hh=1whiht-1i+∑Cc=1wsist-1c+bi(9)
yt=f(zt)(10)
式中,wxi、whi、wsi分別代表不同細(xì)胞機(jī)制權(quán)重分布,第一項(xiàng)表示與輸入門相關(guān)的外部信息變量,第三項(xiàng)表示cell中的輸入部分,第二項(xiàng)表示t-1時(shí)刻泛指狀態(tài),因?yàn)長(zhǎng)STM模型單元相關(guān)關(guān)聯(lián)其隱層節(jié)點(diǎn)信息共享,則它可視為外部輸入的一部分,b為偏置向量,f表示sigmoid激活函數(shù)。遺忘門和輸出門機(jī)構(gòu)機(jī)理和相關(guān)參數(shù)與輸入相似,最終隱層單元狀態(tài)值由tanh激活函數(shù)得到輸入預(yù)測(cè)值。
t=σ(w*h+b)(11)
3實(shí)證研究
31實(shí)驗(yàn)平臺(tái)
硬件:Window10操作系統(tǒng)、Genuine Intel(R)CPU @ 170GHz、8GRAM
軟件:Anaconda、基于Tensorflow(GPU版本)后端的Keras深度學(xué)習(xí)框架、Rapidminer
32數(shù)據(jù)集及預(yù)處理
數(shù)據(jù)庫:Wos核心論文集中基因工程領(lǐng)域論文數(shù)據(jù)
時(shí)間跨度:1965年至2017年
檢索式:Keyword=“Genetic Engineering”
檢索結(jié)果:2 764項(xiàng)。
自1965發(fā)表第一篇以基因工程為主題的文章但受限于當(dāng)時(shí)科研條件和理論基礎(chǔ)該研究后續(xù)未廣泛展開。1998年圍繞基因工程主題論文的研究相繼展開,科研產(chǎn)出數(shù)量逐年增加,自2003年開始相關(guān)研究呈現(xiàn)高度發(fā)展?fàn)顟B(tài),后續(xù)科技年代維持高熱情、高產(chǎn)出的發(fā)展態(tài)勢(shì)。本文利用LDA模型識(shí)別大規(guī)模文檔數(shù)據(jù)集中主題分布,因此為保證數(shù)據(jù)樣本充足性選用2003年為起始年份,以年為基本處理時(shí)間區(qū)間共計(jì)15年子區(qū)間。
33主題識(shí)別實(shí)驗(yàn)
331LDA相關(guān)參數(shù)設(shè)置
本文選用LDA模型進(jìn)行主題識(shí)別。LDA(Latent Dirichlet Allocation,隱含狄利克雷分配)是包括文檔集層、主題層及特征詞層3層結(jié)構(gòu)的貝葉斯概率分布模型,通過概率統(tǒng)計(jì)和參數(shù)擬合模擬大規(guī)模文檔生成過程,抽取科技文獻(xiàn)中具有代表實(shí)際意義的主題詞進(jìn)而可以深度挖掘文本數(shù)據(jù)蘊(yùn)含的隱含主題信息拓?fù)浣Y(jié)構(gòu)。
文檔集中主題數(shù)為超參數(shù),在進(jìn)行主題識(shí)別前需確定多源信息數(shù)據(jù)主題數(shù)目。復(fù)雜度(Perplexity)是衡量一個(gè)語言模型優(yōu)劣常用的一個(gè)指標(biāo),David等提出復(fù)雜度指標(biāo)并定義一個(gè)有M篇文檔的文檔集的主題模型的復(fù)雜度為:
perplexity(Dtest)=exp-∑Md=1logp(wd)∑Md=1logNd(12)
其中,M是文檔集中文檔的數(shù)目,P(Wd)是PLDA模型生成第d篇文檔的概率,Nd是單詞的個(gè)數(shù),當(dāng)perplexity(Dtest)最小時(shí),主題具有較好的語義表達(dá)效果,建立主題文檔映射,確定文檔集中的主題數(shù)。本文對(duì)主題數(shù)目及復(fù)雜度動(dòng)態(tài)對(duì)應(yīng)關(guān)系進(jìn)行實(shí)驗(yàn),經(jīng)實(shí)驗(yàn)主題步長(zhǎng)最終主題數(shù)選擇100。
332主題表征
利用余弦相似度定量建立不同子時(shí)期主題關(guān)聯(lián)關(guān)系,進(jìn)而在時(shí)間序列維度上建立一整條動(dòng)態(tài)時(shí)序主題鏈,時(shí)間跨度為2003-2017年間。經(jīng)實(shí)驗(yàn)相似度閾值取05時(shí),主題演化和關(guān)聯(lián)度較好,可以較為完整地表達(dá)不同主題類型在時(shí)間窗口的躍遷和演化特征。表2中相似度計(jì)算可以選擇相似度閾值大于05的主題類型建立關(guān)聯(lián),即2014年中Topic_1在2015年發(fā)展為Topic_2進(jìn)而成為Topic_7(2016),同理則可得到10個(gè)主題的主題發(fā)展變化。
建立主題動(dòng)態(tài)時(shí)序鏈為后續(xù)進(jìn)行機(jī)器學(xué)習(xí)算法預(yù)測(cè)研究提供理論基礎(chǔ),而具體主題強(qiáng)度值利用LDA模型實(shí)驗(yàn)可以得到主題詞權(quán)重表征研究熱度,進(jìn)而探測(cè)不同主題研究熱度在時(shí)間序列上的發(fā)展變化規(guī)律,對(duì)未來基因工程領(lǐng)域發(fā)展趨勢(shì)進(jìn)行研判。
34機(jī)器學(xué)習(xí)算法研究熱點(diǎn)預(yù)測(cè)與對(duì)比
341實(shí)驗(yàn)設(shè)置
選用BP神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)模型以及LSTM預(yù)測(cè)模型為本文研究熱點(diǎn)預(yù)測(cè)器。本文熱點(diǎn)主題探測(cè)區(qū)間為15年,選擇前10年為訓(xùn)練數(shù)據(jù)集,后5年為測(cè)試數(shù)據(jù)集,選擇相對(duì)誤差作為模型預(yù)測(cè)評(píng)估指標(biāo)。時(shí)間序列數(shù)據(jù)標(biāo)簽化處理,滑動(dòng)時(shí)間窗口為1,時(shí)間步長(zhǎng)為1年,即t年研究熱點(diǎn)預(yù)測(cè)未來t+1年的發(fā)展情況。BP神經(jīng)網(wǎng)絡(luò)選用三層神經(jīng)元結(jié)構(gòu),神經(jīng)元為1-20-10-1分布,m表示相空間重構(gòu)數(shù)為1,訓(xùn)練迭代次數(shù)為50,神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)率為常數(shù)001。支持向量機(jī)模型中參數(shù)Gamma決定數(shù)據(jù)映射高維度特征空間分布,設(shè)置為15,內(nèi)存大小Cache參數(shù)為400,懲罰函數(shù)中系數(shù)C設(shè)置為12,終止判據(jù)Epsilion設(shè)為0001,支持向量機(jī)和BP神經(jīng)網(wǎng)絡(luò)利用Rapidminer機(jī)器學(xué)習(xí)算子實(shí)現(xiàn),LSTM預(yù)測(cè)模型則利用Python35中的Keras框架下搭建兩層10維神經(jīng)元層和一層Dense預(yù)測(cè)輸出,訓(xùn)練批量Epochs設(shè)置為50共迭代實(shí)驗(yàn)50經(jīng)后向傳播參數(shù)調(diào)整后結(jié)果趨于穩(wěn)定收斂,評(píng)價(jià)模型為相對(duì)誤差。
342實(shí)驗(yàn)結(jié)果
選用相對(duì)誤差指標(biāo)(RE,Relative Error)描述模型預(yù)測(cè)效果。公式如下,其中表示相對(duì)誤差,yt表示真實(shí)值,yt表示模型預(yù)測(cè)值。本文測(cè)試集共分10個(gè)主題及每個(gè)主題下后5年的主題強(qiáng)度值,對(duì)每個(gè)主題不同子時(shí)期求得相對(duì)誤差RE并對(duì)其均值處理得到該主題的平均預(yù)測(cè)精度。部分基于不同機(jī)器學(xué)習(xí)算法預(yù)測(cè)精度比較見表5,以Topic0為例對(duì)2013-2017年主題熱度值分別利用BP神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)及LSTM模型進(jìn)行預(yù)測(cè)分析并最終得到該主題平均相對(duì)誤差分別為1569%、1298%和1075%,可見對(duì)于該主題LSTM模型預(yù)測(cè)精度較高,支持向量機(jī)預(yù)測(cè)效果低于LSTM模型但高于BP神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)模型,但對(duì)于Topic2而言預(yù)測(cè)精度最高的為支持向量機(jī)(1096%),LSTM模型和BP神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)精度相差較小分別為1308%和1425%。
BP神經(jīng)網(wǎng)絡(luò)模型預(yù)測(cè)準(zhǔn)確度為8364%,在機(jī)器學(xué)習(xí)算法預(yù)測(cè)模型中預(yù)測(cè)效果最差,基于支持向量機(jī)預(yù)測(cè)模型和LSTM模型的預(yù)測(cè)準(zhǔn)確度分別為8828%和8910%,預(yù)測(cè)效果相近,其中基于LSTM模型預(yù)測(cè)精準(zhǔn)度略高,同時(shí)基于長(zhǎng)短記憶神經(jīng)網(wǎng)絡(luò)和支持向量機(jī)模型預(yù)測(cè)穩(wěn)定性相對(duì)較好,可視化分析如圖6所示,10個(gè)圓環(huán)圖分別表示10個(gè)主題類型,每圓環(huán)從內(nèi)而外分別表示BP神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)和LSTM模型預(yù)測(cè)模型,可較為清晰表達(dá)預(yù)測(cè)結(jié)果差異性。
35趨勢(shì)分析
基因工程是通過外源基因載入并經(jīng)復(fù)制、轉(zhuǎn)錄、翻譯而對(duì)基因形狀正常的復(fù)制和表達(dá)的生物分子技術(shù)手段,具有廣泛的發(fā)展前景和應(yīng)用價(jià)值。利用本實(shí)驗(yàn)探測(cè)得到主題詞及主題發(fā)展演變,未來一段時(shí)間內(nèi)基金工程領(lǐng)域熱點(diǎn)主題趨勢(shì)上升并呈現(xiàn)穩(wěn)步增長(zhǎng)的態(tài)勢(shì),主要學(xué)科主題按權(quán)重詞分布可分為醫(yī)藥、農(nóng)業(yè)和環(huán)境及食品基礎(chǔ)研究四大主題維度。
基因工程在醫(yī)藥衛(wèi)生方面熱點(diǎn)與趨勢(shì)分析(Topic0、Topic5和Topic9):該主題主要圍繞基因工程在醫(yī)療檢驗(yàn)、基因診斷(Diagnosis)以及基因健康治療(Health)等方面展開,如利用同源重組基因剔、核苷酸基因合成及靶向藥物治療等手段提升基因工程診斷及治療藥物作用;采用基因工程胰島素及干擾素(Leading)等相關(guān)疫苗增強(qiáng)天然疫苗在人體良化反應(yīng);利用核酸分子和聚合酶鏈反應(yīng)進(jìn)行片段化基因檢測(cè),改良傳統(tǒng)特異性差靈敏度低級(jí)診斷誤差高等醫(yī)學(xué)診斷方式;利用代替性治療和抑制性(轉(zhuǎn)錄水平和mRNA翻譯水平)開展基因治療(Inherited)等。該領(lǐng)域是基因工程領(lǐng)域的研究熱點(diǎn),但也面臨著技術(shù)缺陷及實(shí)驗(yàn)臨床驗(yàn)證不足等問題,未來一段時(shí)間內(nèi)圍繞該領(lǐng)域布局可進(jìn)一步拓展,具有較好的發(fā)展趨勢(shì)。
基因工程在農(nóng)業(yè)方面熱點(diǎn)與趨勢(shì)分析(Topic4、Topic6和Topic8):該主題主要圍繞利用先進(jìn)基因工程(Engineering)手段進(jìn)行農(nóng)業(yè)作物改良、
作物制藥與微生物農(nóng)業(yè)控制等方面展開,如對(duì)氮代謝調(diào)節(jié)基因及攜帶固氮酶的微生物(Microbe)進(jìn)行基因改良以滿足植物肥料需求、改良自然菌株并對(duì)熒光假單胞菌等殺蟲防病細(xì)菌遺傳因子進(jìn)行試驗(yàn)以減少農(nóng)藥使用;植物基因改良增強(qiáng)光合作用及新品種培育增加作物產(chǎn)量等以及將毒蛋白基因?qū)霟煵荨⒚藁皸顦涞绒r(nóng)林作物以培養(yǎng)出抗蟲(Insect)特性;利用外部基因如磷酸乙酰轉(zhuǎn)移酶基因(Protein)等以培養(yǎng)抗逆性強(qiáng)農(nóng)作物。該主題主要圍繞基因工程在農(nóng)作物品種改良、抗蟲抗病等方面展開,我國作為傳統(tǒng)農(nóng)業(yè)大國,在政策部署和市場(chǎng)需求上具有較好的前景,因此圍繞該主題下的產(chǎn)業(yè)布局和學(xué)科架構(gòu)調(diào)整具有積極意義。
基因工程在環(huán)境及環(huán)境保護(hù)(Topic1、Topic3)熱點(diǎn)與發(fā)展趨勢(shì)較好,主要圍繞水體與土壤污染治理、石油污染及塑料降解等方面展開,如利用改良基因工程菌絮凝性能及生長(zhǎng)迅速等特點(diǎn)對(duì)有毒有害污染物(Pollutant)進(jìn)行降解處理;利用雜交技術(shù)與質(zhì)粒載體重組優(yōu)化抗菌去污能力以及提升微生物特異性DNA編碼轉(zhuǎn)換能力(Allele)進(jìn)行石油降解等。該主題研究力度和主題強(qiáng)度相對(duì)較小,未來有待于進(jìn)一步發(fā)展。主題Topic2和Topic7主要圍繞基因工程在食品工藝及果蔬產(chǎn)品優(yōu)化等方面的研究,如利用基因工程加入脫氫酶義基因等提升植物油硬脂酸含量等,加入淀粉合成酶使得直鏈淀粉合成抑制以提高食品(Food)質(zhì)量增加焙烤特性等;圍繞發(fā)酵食品品質(zhì)、產(chǎn)率及風(fēng)味(Flavor)特性的基因工程改良也是未來重要發(fā)展趨勢(shì)之一。受限于政策支持、市場(chǎng)調(diào)節(jié)和食品安全性等諸多因素,圍繞上述主題研究熱點(diǎn)發(fā)展相對(duì)較為緩慢,但未來該主題發(fā)展趨勢(shì)仍值得期待,具有良好的市場(chǎng)和環(huán)境保護(hù)價(jià)值,科技政策制定者需加大基金投入和政府引導(dǎo)以期發(fā)揮更大作用。
4討論
本文以基因工程領(lǐng)域?yàn)榉治鰯?shù)據(jù)源,利用主題概率模型識(shí)別其主題強(qiáng)度并對(duì)其發(fā)展演化關(guān)系進(jìn)行分析和關(guān)聯(lián)構(gòu)建,在此基礎(chǔ)上注重主題趨勢(shì)的預(yù)測(cè)分析,利用BP神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)及LSTM模型等代表性機(jī)器學(xué)習(xí)算法對(duì)基因工程領(lǐng)域的熱點(diǎn)主題未來發(fā)展趨勢(shì)進(jìn)行預(yù)測(cè)分析,實(shí)驗(yàn)表明基于長(zhǎng)短記憶神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)模型預(yù)測(cè)精準(zhǔn)度最高且穩(wěn)定性較好,支持向量機(jī)次于LSTM模型但優(yōu)于采用經(jīng)驗(yàn)風(fēng)險(xiǎn)最優(yōu)的BP神經(jīng)網(wǎng)絡(luò),以期為后期情報(bào)學(xué)預(yù)測(cè)研究展開提供實(shí)證基礎(chǔ)和論證思路。同時(shí),本實(shí)驗(yàn)采用文獻(xiàn)調(diào)研法[22-25]和具有生物醫(yī)學(xué)等基因工程背景專家咨詢,認(rèn)為本實(shí)驗(yàn)研究熱點(diǎn)識(shí)別及趨勢(shì)分析具有較好的科學(xué)性和準(zhǔn)確度。
本文不足之處在于采用了論文數(shù)據(jù)分析源,對(duì)于論文數(shù)據(jù)時(shí)間滯后性等問題未進(jìn)行充分分析,未來考慮加入基金數(shù)據(jù)、規(guī)劃文本等多源數(shù)據(jù)進(jìn)行充分驗(yàn)證與對(duì)比分析,以準(zhǔn)確識(shí)別基因工程領(lǐng)域熱點(diǎn)主題及趨勢(shì);同時(shí)本文在機(jī)器學(xué)習(xí)算法上選用了3種代表性學(xué)習(xí)算法,未來將進(jìn)一步考慮增加相關(guān)算法的分析驗(yàn)證同時(shí)在步長(zhǎng)選擇、相空間重構(gòu)等方面進(jìn)行多維度驗(yàn)證分析以提供預(yù)測(cè)模型的推廣能力和預(yù)測(cè)能力。本文注重對(duì)未來學(xué)科發(fā)展趨勢(shì)預(yù)測(cè)分析并結(jié)合情報(bào)學(xué)熱點(diǎn)探測(cè)等技術(shù),以期為我國學(xué)科領(lǐng)域及科研發(fā)展提供決策支撐和參考。
參考文獻(xiàn)
[1]趙蓉英,余波.國際數(shù)據(jù)挖掘研究熱點(diǎn)與前沿可視化分析[J].現(xiàn)代情報(bào),2018,38(6):128-137.
[2]逯萬輝,馬建霞,趙迎光.爆發(fā)詞識(shí)別與主題探測(cè)技術(shù)研究綜述[J].情報(bào)理論與實(shí)踐,2012,35(6):125-128.
[3]魏曉俊.基于科技文獻(xiàn)中詞語的科技發(fā)展監(jiān)測(cè)方法研究[J].情報(bào)雜志,2007,26(3):34-36.
[4]Small H,Griffith B C.The Structure of Scientific Literatures I:Identifying and Graphing Specialties[J].Science Studies,1974,4(1):17-40.
[5]Garfield S L,Bergin A E.Handbook of Psychotherapy and Behavior Change[M].JWiley,1994.
[6]Kessler M M.Bibliographic Coupling Between Scientific Papers[J].Journal of the American Society for Information Science & Technology,1963,14(1):10-25.
[7]Persson O.The Intellectual Base and Research Fronts of JASIS 1986-1990[J]. Journal of the Association for Information Science & Technology,1994,45(1):31-38.
[8]Morris S A,Yen G,Wu Z,et al.Time Line Visualization of Research Fronts[J].Journal of the Association for Information Science & Technology,2003,54(5):413-422.
[9]Blei D M,Ng A Y,Jordan M I.Latent Dirichlet Allocation[J].J Machine Learning Research Archive,2003,3:993-1022.
[10]Mane K K,B Rner K.Mapping topics and Topic Bursts in PNAS[J].Proc Natl Acad Sci U S A,2004,101(Suppl 1):5287-5290.
[11]楊星,李保利,金明舉.基于LDA模型的研究領(lǐng)域熱點(diǎn)及趨勢(shì)分析[J].計(jì)算機(jī)技術(shù)與發(fā)展,2012,(10):66-69.
[12]傅柱,王曰芬,關(guān)鵬.以分類主題抽取為視角的學(xué)科主題挖掘——基于LDA模型的國外知識(shí)流研究結(jié)構(gòu)探討[J].情報(bào)理論與實(shí)踐,2016,39(8):96-102.
[13]徐路路,王效岳,白如江.基于PLDA模型與多數(shù)據(jù)源融合相關(guān)性分析的新興主題探測(cè)研究——以石墨烯領(lǐng)域?yàn)槔齕J].情報(bào)理論與實(shí)踐,2018,41(4):63-69.
[14]張烈平,周德儉,牛秦洲.基于BP神經(jīng)網(wǎng)絡(luò)的預(yù)測(cè)建模系統(tǒng)的研究與實(shí)現(xiàn)[J].計(jì)算機(jī)仿真,2004,21(9):48-50.
[15]侯亞麗,李鐵.基于LM優(yōu)化算法的BP神經(jīng)網(wǎng)絡(luò)目標(biāo)識(shí)別方法[J].探測(cè)與控制學(xué)報(bào),2008,30(1):53-57.
[16]夏玫,陳立潮,王新波.一種提高BP神經(jīng)網(wǎng)絡(luò)泛化能力的改進(jìn)算法[J].計(jì)算機(jī)技術(shù)與發(fā)展,2009,19(9):62-64.
[17]孫文俊,杜娟.基于詞同現(xiàn)網(wǎng)絡(luò)與支持向量機(jī)的論文甄別[J].現(xiàn)代情報(bào),2010,30(7):87-92.
[18]饒浩,文海寧,林育曼,等.改進(jìn)的支持向量機(jī)在微博熱點(diǎn)話題預(yù)測(cè)中的應(yīng)用[J].現(xiàn)代情報(bào),2017,37(3):46-51.
[19]羅知林,陳挺,蔡皖東.一個(gè)基于隨機(jī)森林的微博轉(zhuǎn)發(fā)預(yù)測(cè)算法[J].計(jì)算機(jī)科學(xué),2014,41(4):62-64.
[20]李杰.改進(jìn)粒子群算法優(yōu)化支持向量機(jī)的工程造價(jià)預(yù)測(cè)[J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2016,25(6):202-206.
[21]張宇航,邱才明,賀興,等.一種基于LSTM神經(jīng)網(wǎng)絡(luò)的短期用電負(fù)荷預(yù)測(cè)方法[J].電力信息與通信技術(shù),2017,(9):19-25.
[22]劉一杰,薛永常.植物抗蟲基因工程的研究進(jìn)展[J].浙江農(nóng)業(yè)科學(xué),2016,57(6):873-878.
[23]申夢(mèng)雅,張永清,王德國,等.基因工程在食品工業(yè)中的應(yīng)用[J].廣東化工,2016,43(10):99-100.
[24]田立平,趙亞飛.基因工程技術(shù)對(duì)藥物發(fā)展的影響分析[J].臨床醫(yī)藥文獻(xiàn)電子雜志,2018,(16).
[25]王得華,馬義,韓磊,等.新型基因重組PACAP衍生物MPL-2的制備及其抗2型糖尿病作用研究[J].中國生物工程雜志,2017,37(5):59-65.
(責(zé)任編輯:陳媛)