趙軍豪,李玉華,霍 林,李瑞軒,辜希武
(1.華中科技大學(xué) 計算機(jī)科學(xué)與技術(shù)學(xué)院,武漢 430074; 2. 廣西大學(xué) 中國-東盟區(qū)域發(fā)展協(xié)同創(chuàng)新中心,南寧 530004)(*通信作者電子郵箱idcliyuhua@hust.edu.cn)
經(jīng)濟(jì)預(yù)測方法的研究經(jīng)過多年的發(fā)展,已經(jīng)出現(xiàn)了大量的預(yù)測模型。這些模型分為兩大類:一種是基于時序的方法,主要包括移動平均法、趨勢外推法等;另一種是基于因果的方法,主要包括回歸分析、馬爾可夫預(yù)測、人工神經(jīng)網(wǎng)絡(luò)等;另外深度學(xué)習(xí)的發(fā)展使得復(fù)雜系統(tǒng)的擬合更加準(zhǔn)確?;ヂ?lián)網(wǎng)的快速發(fā)展和中國網(wǎng)民的快速增加,使得人們產(chǎn)生信息和獲取信息的方式和規(guī)模都發(fā)生了變化,使用互聯(lián)網(wǎng)數(shù)據(jù)進(jìn)行預(yù)測模型的修正成為研究的熱點(diǎn),已經(jīng)有不少研究證實實時的互聯(lián)網(wǎng)數(shù)據(jù)能夠用于經(jīng)濟(jì)活動預(yù)測,并且起到積極的作用。
本文的主要貢獻(xiàn)如下:
1)提出了一種融合微博情感分析和深度學(xué)習(xí)的預(yù)測方法SA-LSTM(Long Short-Term Memory based on Weibo Sentiment Analysis), 該方法利用微博解決統(tǒng)計數(shù)據(jù)的滯后性問題,利用長短期記憶(Long Short-Term Memory, LSTM)及其變形構(gòu)建多層神經(jīng)網(wǎng)絡(luò)來擬合具有時序關(guān)系的復(fù)雜宏觀經(jīng)濟(jì)系統(tǒng)。
2) 在不同數(shù)據(jù)集上,利用差分自回歸移動平均模型(Autoregressive Integrated Moving Average model, ARIMA)、線性回歸(Linear Regression, LR)、反向傳播神經(jīng)網(wǎng)絡(luò)(Back Propagation Neural Network, BPNN)、LSTM網(wǎng)絡(luò)和SA-LSTM分別進(jìn)行實驗,實驗結(jié)果表明,SA-LSTM能夠明顯減小預(yù)測的相對誤差,有較強(qiáng)的泛化能力。
國內(nèi)外有很多對宏觀經(jīng)濟(jì)預(yù)測的研究。傳統(tǒng)的經(jīng)濟(jì)預(yù)測方法,比如ARIMA、線性回歸等,存在很大的局限性:ARIMA要求時序數(shù)據(jù)是穩(wěn)定的,或者差分后是穩(wěn)定的; 線性回歸對復(fù)雜的非線性系統(tǒng)擬合能力較差。針對宏觀經(jīng)濟(jì)預(yù)測中復(fù)雜非線性關(guān)系,對非線性系統(tǒng)擬合能力強(qiáng)的神經(jīng)網(wǎng)絡(luò)模型成為國內(nèi)外宏觀經(jīng)濟(jì)預(yù)測研究的熱點(diǎn)[1]。利用BPNN建立預(yù)測模型的研究有很多:孫安黎等[2]基于BPNN構(gòu)建輸電線工程造價預(yù)測模型,利用少量樣本即能夠準(zhǔn)確地估計工程造價,適用于工程前期對比方案的優(yōu)劣; 趙海華[3]結(jié)合徑向基(Radial Basis Function,RBF)神經(jīng)網(wǎng)絡(luò)以及無偏灰色模型(Grey Model,GM)建立灰色 RBF 神經(jīng)網(wǎng)絡(luò)預(yù)測模型,并通過對安徽省財政收入數(shù)據(jù)進(jìn)行預(yù)測分析,發(fā)現(xiàn)用該模型訓(xùn)練不僅收斂速度快、泛化能力強(qiáng),而且模型精度較高; Akbilgic等[4]提出了一種混合徑向基神經(jīng)網(wǎng)絡(luò),該網(wǎng)絡(luò)整合了嶺回歸、回歸數(shù)和徑向基神經(jīng)網(wǎng)絡(luò),通過對股票指數(shù)的日均走勢預(yù)測實驗證明了該網(wǎng)絡(luò)在變量間具有復(fù)雜的非線性關(guān)系以及具有相互依賴性時有較好的效果。經(jīng)過多年的研究和發(fā)展,人工神經(jīng)網(wǎng)絡(luò)及其各種改進(jìn)模型仍然不能完全擺脫其易陷入局部最小值的缺陷,不能反映樣本之間的時序關(guān)系;然而這種時序關(guān)系在經(jīng)濟(jì)領(lǐng)域普遍存在,對于預(yù)測分析有很大的幫助。與此同時,深度學(xué)習(xí)中LSTM在預(yù)測領(lǐng)域表現(xiàn)出極其出色的對時序數(shù)據(jù)的處理能力。陸澤楠等[5]結(jié)合近幾年鋼鐵交易價格的走勢數(shù)據(jù),訓(xùn)練LSTM模型,并與支持向量回歸模型對比分析,發(fā)現(xiàn)LSTM 神經(jīng)網(wǎng)絡(luò)可以更精確地預(yù)測鋼鐵的價格走勢;李浩等[6]用深度學(xué)習(xí)對我國1980~2015年國內(nèi)生產(chǎn)總值(Gross Domestic Product, GDP)數(shù)據(jù)建立預(yù)測模型,結(jié)果表明,基于深度學(xué)習(xí)的預(yù)測精度顯著高于ARMA、LR、指數(shù)回歸;Fu等[7]針對交通流的隨機(jī)性和非線性特征,使用LSTM和門控循環(huán)單位(Gated Recurrent Unit,GRU)神經(jīng)網(wǎng)絡(luò)方法來預(yù)測短期交通流量,實驗證明基于遞歸神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)方法 LSTM和GRU的表現(xiàn)優(yōu)于自ARIMA模型。
在互聯(lián)網(wǎng)快速發(fā)展的今天,互聯(lián)網(wǎng)非結(jié)構(gòu)化數(shù)據(jù)成為提高預(yù)測精度的積極補(bǔ)充[8]。陳衛(wèi)華等[9]利用深度學(xué)習(xí)和股吧發(fā)帖數(shù)增長率數(shù)據(jù)對滬深300指數(shù)波動率進(jìn)行樣本外預(yù)測,研究發(fā)現(xiàn)深度學(xué)習(xí)預(yù)測效果明顯好于選取的其他對比模型,另外股票論壇數(shù)據(jù)對提升波動率預(yù)測精度有所貢獻(xiàn);劉濤雄等[10]在政府統(tǒng)計變量的基礎(chǔ)上,增加互聯(lián)網(wǎng)搜索行為變量進(jìn)行GDP的預(yù)測,發(fā)現(xiàn)互聯(lián)網(wǎng)搜索行為可以提高預(yù)測精度;Huang等[11]提出了一種基于百度指數(shù)預(yù)測旅游流量的新方法,通過比較是否加入百度指數(shù),發(fā)現(xiàn)游客人數(shù)與百度指數(shù)中的一組相關(guān)關(guān)鍵詞之間存在長期均衡關(guān)系和Granger因果關(guān)系,且百度關(guān)鍵詞搜索指數(shù)與日益增長的觀光客流量呈正相關(guān)關(guān)系; Yao等[12]通過將谷歌指數(shù)作為一個外生變量納入ARIMA和自回歸移動平均線來研究谷歌指數(shù)對原油價格的影響和預(yù)測能力,實驗結(jié)果表明,谷歌指數(shù)原油價格有負(fù)面影響,有助于提高模型預(yù)測能力。
根據(jù)以上分析,本文結(jié)合互聯(lián)網(wǎng)微博數(shù)據(jù)以及 LSTM網(wǎng)絡(luò)提出的SA-LSTM宏觀經(jīng)濟(jì)預(yù)測方法,不僅解決了統(tǒng)計數(shù)據(jù)的滯后性問題,而且能夠很好地擬合宏觀經(jīng)濟(jì)系統(tǒng)中的非線性關(guān)系和時序關(guān)系。
本章主要介紹SA-LSTM模型結(jié)構(gòu)。首先描述了宏觀經(jīng)濟(jì)預(yù)測系統(tǒng)的特點(diǎn),然后介紹了模型的主要構(gòu)成LSTM及其特點(diǎn),接著講述了如何利用微博進(jìn)行預(yù)測分析,最后給出了SA-LSTM模型具體結(jié)構(gòu)。
在宏觀經(jīng)濟(jì)預(yù)測中,數(shù)據(jù)具有這樣的特點(diǎn):
1)可供訓(xùn)練的樣本太少。各個經(jīng)濟(jì)指標(biāo)的統(tǒng)計一般以季度或者年為單位,而且國家有明確且完整記載的數(shù)據(jù)只有十年左右。
2)樣本間具有一定的時序關(guān)系。經(jīng)濟(jì)的發(fā)展具有一定的規(guī)律,統(tǒng)計數(shù)據(jù)能夠在一定程度上反映未來的經(jīng)濟(jì)情況。
3)統(tǒng)計數(shù)據(jù)滯后。宏觀經(jīng)濟(jì)預(yù)測一般是以季度或者年為單位的,對于突發(fā)情況,統(tǒng)計數(shù)據(jù)不能夠及時反映。
4)經(jīng)濟(jì)的發(fā)展具有階段性,特別是進(jìn)入21世紀(jì)以來,經(jīng)濟(jì)發(fā)展可謂是日新月異。當(dāng)前年份經(jīng)濟(jì)的發(fā)展?fàn)顩r更多地受距它較近年份的影響,較遠(yuǎn)年份的影響小。
根據(jù)宏觀經(jīng)濟(jì)預(yù)測系統(tǒng)的特點(diǎn),本文通過融合微博情感分析和多層LSTM網(wǎng)絡(luò)來構(gòu)建預(yù)測模型,從而很好地解決該問題。
RNN(Recurrent Neural Network)是一種循環(huán)神經(jīng)網(wǎng)絡(luò),它的一個很大的特點(diǎn)是在訓(xùn)練和預(yù)測時加入了時間的概念,即本次輸出的計算會受到前一次輸出結(jié)果的影響,所以在模型結(jié)構(gòu)上,與BPNN最大的不同點(diǎn)在于隱含層節(jié)點(diǎn)之間是有連接的,每一個隱含層節(jié)點(diǎn)的輸入既包含了輸入層的輸入,又有來自上一時刻隱含層的輸出。
傳統(tǒng)的RNN模型一個很大的問題是會出現(xiàn)梯度消失和爆炸的情況,其原因在于在梯度下降過程中,每一層誤差反傳都會引入乘子,所以導(dǎo)致經(jīng)過多步之后,乘子的連乘會導(dǎo)致一系列麻煩。
LSTM神經(jīng)網(wǎng)絡(luò)對RNN的改進(jìn)在于對神經(jīng)元的改變,如圖1所示。在這個模型中,常規(guī)的神經(jīng)元被替代為存儲單元,每個存儲單元包含三部分:一個輸入門、一個輸出門和一個遺忘門,這個單元保證了誤差將以常數(shù)的形式在網(wǎng)絡(luò)中流動;然后在此基礎(chǔ)上添加乘法門和非線性函數(shù)為模型引入非線性變換,并使得信息有選擇性地表達(dá)。
本節(jié)主要介紹微博情感分值的表示方法,以便使之能夠參與模型的訓(xùn)練。情感分析的任務(wù)目標(biāo)是能夠判斷用戶情感是積極、消極或是中性的情感,并根據(jù)情感的程度給予不同的數(shù)值表示。方法主要有兩類:一類是基于深度學(xué)習(xí)的方法,分別在句子級、實體級、篇章級多粒度完整地建立分析任務(wù),這方面的工作比較著名的有百度自然語言處理(Natural Language Processing, NLP)實驗室等;另一類是傳統(tǒng)的利用情感詞典的方法。本文采用基于情感詞典的進(jìn)行規(guī)則匹配的方法,后續(xù)的工作會利用深度學(xué)習(xí)的方法進(jìn)行改進(jìn)。
基于情感詞典匹配的方法主要包含兩部分:對中文文本分詞和根據(jù)情感詞典計算微博情感分值。
2.3.1 中文分詞
不同于英文以詞為單位并且每個詞都可以獨(dú)立地表達(dá)一個意思,中文文本以字為單位,然而一個字不可以完整地表達(dá)一個意思。在中文中,一句話的意義是通過多個連續(xù)的字來傳達(dá)的,所以這就需要對中文文本進(jìn)行切分,分成一系列具有獨(dú)立意義的字符串。通常將此過程稱為中文分詞。
本文采用中國科學(xué)院研發(fā)的中文分詞系統(tǒng)ICTCLAS2014-JAVA版。一方面考慮到本文實驗代碼采用Java語言,另外最重要的是經(jīng)多年積累和驗證該分詞方法分詞速度快,單機(jī)速度可達(dá)1 Mb/s,分詞精度能夠達(dá)到98%以上, 被很多商業(yè)系統(tǒng)所采用。
2.3.2 微博情感分值計算
本文選用基于情感詞典的方法計算情感分值。情感詞典選取知網(wǎng)發(fā)布在2007年10月22日發(fā)布的“情感分析用詞語集(beta版)”。本文將“正面評價”和“正面情感”同時作為積極情感詞,將“負(fù)面評價”和“負(fù)面情感”同時作為消極情感詞。
本文計算微博情感分值的方法是:首先對每一條微博的每一句話,從左向右依次尋找情感詞,如果找到,則賦予一定的權(quán)值;然后找到該情感詞前后修飾情感詞的程度副詞、否定詞,并將它們的權(quán)值和情感詞的權(quán)值進(jìn)行累乘得到該情感詞的加權(quán)分值;接著將前面所有情感詞的加權(quán)分值進(jìn)行求和;最后分析該句子是否為感嘆句或者反問句,如果是則將上面的結(jié)果乘以感嘆句或者反問句的權(quán)值,得到本句話的情感分值。將每條微博內(nèi)每句話的情感分值求和即得到每條微博的情感分值。
因為本文實驗的數(shù)據(jù)樣本是以季度為單位的,所以對每個季度所有微博的情感分值求算術(shù)平均值。
一條微博內(nèi)每句話的情感分值計算如式(1):
(1)
其中:Non為否定詞權(quán)值,Seg為情感詞的權(quán)值,Lev為程度詞的權(quán)值,n為修飾當(dāng)前情感詞的程度詞的個數(shù)。
一條微博情感分值計算如式(2)所示:
(2)
其中:sen為本句話在句型上的權(quán)值,m為該條微博情感詞的個數(shù)。
根據(jù)宏觀經(jīng)濟(jì)預(yù)測系統(tǒng)的特點(diǎn),以及2.1節(jié)、2.2節(jié)所述的LSTM網(wǎng)絡(luò)和情感分值的計算方法,本節(jié)給出SA-LSTM的具體結(jié)構(gòu),該模型的具體結(jié)構(gòu)如圖1所示。
根據(jù)LSTM網(wǎng)絡(luò)的特點(diǎn),該模型第一個隱含層的輸入包括三部分:政府統(tǒng)計的經(jīng)濟(jì)指標(biāo)、微博情感分值以及上一時間片該隱含層的輸出,具體公式如下:
(3)
該模型第2個隱含層的輸入包括兩部分:同一時刻上一隱含層的輸出和同一隱含層上一時間片的輸出,具體公式如下:
(4)
該模型的損失函數(shù)是預(yù)測誤差平方和與模型權(quán)值參數(shù)的平方和之和,具體公式如式(5):
(5)
圖1 SA-LSTM模型結(jié)構(gòu)
該模型具有以下特點(diǎn):
1)能夠表征時序數(shù)據(jù)。RNN是專門用來處理時序數(shù)據(jù)的,其每一個隱含層節(jié)點(diǎn)的輸入既包含了輸入層的輸入,又有來自上一時刻隱含層的輸出,這使它可以使用先前的信息來學(xué)習(xí)當(dāng)前的任務(wù)。LSTM網(wǎng)絡(luò)基于RNN進(jìn)行改進(jìn),在保留上述優(yōu)點(diǎn)的基礎(chǔ)上,使得信息能夠保持長時間的記憶。利用該模型能夠很好地反映統(tǒng)計數(shù)據(jù)對未來的影響。
2)融合時效性強(qiáng)的微博文本。微博文本能夠?qū)崟r反映經(jīng)濟(jì)發(fā)展?fàn)顩r以及社會對于經(jīng)濟(jì)發(fā)展的輿論傾向,借此來彌補(bǔ)統(tǒng)計數(shù)據(jù)滯后的缺點(diǎn)。
3)模型層數(shù)少。本文使用的LSTM網(wǎng)絡(luò)只有兩層,分別為單向LSTM和雙向長短時記憶循環(huán)神經(jīng)網(wǎng)(Bidirectional-LSTM,BLSTM),這使得模型在保留自身特性的同時,降低由于訓(xùn)練樣本過少而產(chǎn)生過擬合的風(fēng)險。
本文實驗所使用數(shù)據(jù)包括兩部分:非結(jié)構(gòu)化數(shù)據(jù)和結(jié)構(gòu)化數(shù)據(jù)。
在本文中,結(jié)構(gòu)化數(shù)據(jù)是指政府機(jī)構(gòu)統(tǒng)計的指標(biāo)數(shù)據(jù)。精準(zhǔn)的預(yù)測結(jié)果和合理的預(yù)測指標(biāo)體系是分不開的,想要準(zhǔn)確地預(yù)測區(qū)域未來投資情況,需要有足夠而且覆蓋范圍廣但是又不冗余的預(yù)測指標(biāo),包括經(jīng)濟(jì)發(fā)展、交通發(fā)展、文化教育科技發(fā)展、對外貿(mào)易和能源等各方面的指標(biāo),它們從不同的角度反映了區(qū)域經(jīng)濟(jì)發(fā)展情況。
本文采集的數(shù)據(jù)來自中國經(jīng)濟(jì)網(wǎng)統(tǒng)計數(shù)據(jù)庫,分別采集了河南省、江蘇省、上海市、山西省4個省市2012- 01— 2016- 12五年20個季度的數(shù)據(jù)。在借鑒現(xiàn)有文獻(xiàn)研究成果的基礎(chǔ)上,遵循指標(biāo)變量的客觀性、代表性、非差異性及可獲得性4個原則, 重點(diǎn)考慮東道國的經(jīng)濟(jì)發(fā)展水平、交通建設(shè)、科技發(fā)展水平、市場開放程度、能源等影響東道國投資環(huán)境的重要因素,構(gòu)建評價指標(biāo)體系,具體包含了7個評價指標(biāo):地區(qū)生產(chǎn)總值、房地產(chǎn)開發(fā)企業(yè)投資完成額、股票成交額(深圳證券交易所)、運(yùn)輸業(yè)固定投資完成額、軟件業(yè)務(wù)收入、進(jìn)出口總額、發(fā)電量[13]。預(yù)測目標(biāo)是固定投資總額。本文以新浪微博作為非結(jié)構(gòu)化數(shù)據(jù),因為微博具有的自由、高流動性與時效性等特點(diǎn)能夠及時反映社會對經(jīng)濟(jì)發(fā)展?fàn)顩r的態(tài)度。
本文采用的獲取微博方法基于Python 語言,Selenium WebDriver 工具編寫爬蟲程序,自動獲得想要的微博文本,其中以河南經(jīng)濟(jì)報、新浪江蘇城市頻道、經(jīng)濟(jì)和信息化在線——上海、新浪山西四個公眾號所發(fā)的微博分別作為河南省、江蘇省、上海市、山西省數(shù)據(jù)集的非結(jié)構(gòu)化數(shù)據(jù)。時間范圍是2012- 01— 2016- 12,一共可分為20個季度,各個季度微博條數(shù)如表1所示。
表1 四省市2012 — 2016微博數(shù)
將預(yù)測模型SA-LSTM與以下4種模型進(jìn)行對比分析:
BPNN 這是一種按照誤差逆向傳播算法訓(xùn)練的多層前饋神經(jīng)網(wǎng)絡(luò)[14]。
LSTM網(wǎng)絡(luò) LSTM是一種時間遞歸神經(jīng)網(wǎng)絡(luò),適合于處理和預(yù)測時間序列中間隔和延遲相對較長的重要事件。在本實驗中構(gòu)建的網(wǎng)絡(luò)結(jié)構(gòu)包括LSTM和BLSTM兩個隱含層[15-19]。在實驗中,該模型的神經(jīng)網(wǎng)絡(luò)部分與SA-LSTM一樣,只是沒有加入微博情感分值。
ARIMA 該模型是將非平穩(wěn)的時間序列轉(zhuǎn)化為平穩(wěn)時間序列,然后將因變量僅對它的滯后值以及隨機(jī)誤差項的現(xiàn)值和滯后值進(jìn)行回歸所建立的模型。在本文中以要預(yù)測的投資預(yù)測總額作為時間序列[20]。
LR 該方法是利用數(shù)理統(tǒng)計中回歸分析來確定兩種或兩種以上變量間相互依賴的定量關(guān)系的一種統(tǒng)計分析方法[21]。
3.3.1 情感分析實驗結(jié)果
本文非結(jié)構(gòu)化數(shù)據(jù)的處理是通過2.2節(jié)介紹的基于情感詞典的微博情感分析方法,計算得到各省市各個季度的微博的情感分值,然后將之作為預(yù)測指標(biāo),和原指標(biāo)體系一起進(jìn)行結(jié)果預(yù)測。微博情感分值計算結(jié)果如表2所示。
3.3.2 預(yù)測模型實驗對比分析
在本實驗中,將2012年第1季度到2015年第4季度的16個季度數(shù)據(jù)作為訓(xùn)練集,2015年第4季度到2016年第4季度的4個季度的數(shù)據(jù)集作為測試集。在模型訓(xùn)練階段,輸入為前一個季度的地區(qū)生產(chǎn)總值、房地產(chǎn)開發(fā)企業(yè)投資完成額、進(jìn)出口總額、發(fā)電量、軟件業(yè)務(wù)收入、運(yùn)輸業(yè)固定投資完成額、股票成交額(深圳證券交易所)和本季度的微博情感分值,一共8個指標(biāo);輸出為本季度的固定投資總額。
根據(jù)江蘇省、河南省、上海市和山西省4個省市2012年第1季度到2015年第4季度的數(shù)據(jù),分別訓(xùn)練ARIMA、LR、BPNN、 LSTM和SA-LSTM五個模型;然后使用訓(xùn)練好的模型對2016年第1季度到2016年第4季度進(jìn)行預(yù)測。實驗結(jié)果如表3。
從表3可以看出,在河南、江蘇、上海、山西4個數(shù)據(jù)集上SA-LSTM預(yù)測的平均相對誤差都是最小的,與其他4種方法中的最優(yōu)方法相比,能夠分別降低0.06,0.92,0.94,0.66個百分點(diǎn),實驗結(jié)果說明本文構(gòu)建的SA-LSTM模型具有較強(qiáng)的非線性擬合能力,能夠很好地對宏觀經(jīng)濟(jì)進(jìn)行預(yù)測。
本文構(gòu)建的SA-LSTM模型與LSTM模型相比,SA-LSTM模型加入了微博情感分析來修正模型。通過表3中LSTM與SA-LSTM兩列可以發(fā)現(xiàn)加入微博情感分析后,平均能夠降低相對誤差4.95, 0.92, 1.21,0.66個百分點(diǎn), 微博情感分析對投資預(yù)測有積極的影響。
5個模型在4個數(shù)據(jù)集上預(yù)測相對誤差的方差如表4所示。
表4 預(yù)測相對誤差的方差
根據(jù)表4可以發(fā)現(xiàn),SA-LSTM在4個數(shù)據(jù)集上預(yù)測相對誤差的平均方差是最小的,比ARIMA、 LR、BPNN、LSTM分別低64.41、 56.09、 190.14、 0.52,這表明SA-LSTM預(yù)測結(jié)果穩(wěn)定,能夠很好地應(yīng)對突發(fā)情況,泛化能力強(qiáng)。
關(guān)于使用江蘇省、上海市、山西省數(shù)據(jù)集進(jìn)行預(yù)測時在某一個季度會出現(xiàn)加入微博數(shù)據(jù)范圍誤差較大的情況:一方面是因為本文選取的微博數(shù)據(jù)較少且來源單一,存在一定的局限性,并不能夠完全準(zhǔn)確地反映所對應(yīng)省份的輿論情況;另一方面是因為本文在預(yù)處理微博時僅僅去掉了非本省份的微博,剩余的微博里依然存在噪聲。這兩方面都會對預(yù)測的實驗結(jié)果造成影響。
對于宏觀經(jīng)濟(jì)預(yù)測系統(tǒng)中建模和預(yù)測存在的特點(diǎn):系統(tǒng)高度非線性、數(shù)據(jù)樣本較少和系統(tǒng)數(shù)據(jù)存在時滯性,本文從預(yù)測模型和數(shù)據(jù)擴(kuò)充兩個方面進(jìn)行改進(jìn),提出融合微博情感分析和深度學(xué)習(xí)的新的預(yù)測方法——SA-LSTM,該方法綜合實時性的微博數(shù)據(jù)和權(quán)威網(wǎng)站的統(tǒng)計數(shù)據(jù)進(jìn)行實驗并與其他四種算法進(jìn)行對比分析。實驗表明融合微博情感分析的深度學(xué)習(xí)宏觀經(jīng)濟(jì)預(yù)測方法能夠有效地對宏觀經(jīng)濟(jì)進(jìn)行預(yù)測,與ARIMA、Linear Regression、BPNN、LSTM模型相比具有更好的準(zhǔn)確性和泛化能力。
本文在算法設(shè)計、數(shù)據(jù)特征上做了相關(guān)工作,有較好的結(jié)果,但仍存在可以改進(jìn)的地方:
1)選取更加廣泛的互聯(lián)網(wǎng)數(shù)據(jù),而不僅僅是微博數(shù)據(jù)。并且需要對這些采集到的互聯(lián)網(wǎng)數(shù)據(jù)進(jìn)行更加更加科學(xué)的噪聲處理。
2)利用深度學(xué)習(xí)方法進(jìn)行微博情感分析。基于深度學(xué)習(xí)的方法,分別在句子級、實體級、篇章級多粒度建立完整的分析任務(wù)。這種方法能夠更好地捕捉情感極性在前后文表達(dá)的信息,效果上相對于傳統(tǒng)的方法有很大的提升。