• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于AGNN輿情指數(shù)網(wǎng)絡(luò)的價(jià)格指數(shù)預(yù)測(cè)研究

    2023-03-29 09:08:32謝士堯
    管理學(xué)報(bào) 2023年3期
    關(guān)鍵詞:輿情卷積食品

    曹 雷 尚 維 謝士堯 王 向

    (1.中國科學(xué)院數(shù)學(xué)與系統(tǒng)科學(xué)研究院;2.中國科學(xué)院科技戰(zhàn)略咨詢研究院;3.國家電網(wǎng)有限公司國網(wǎng)能源研究院有限公司)

    1 研究背景

    近年來,信息科學(xué)和人工智能推動(dòng)了經(jīng)濟(jì)和管理領(lǐng)域的研究,大量的數(shù)據(jù)積累和計(jì)算技術(shù)的發(fā)展為數(shù)智化創(chuàng)新與管理奠定了基礎(chǔ),也提出了一系列的挑戰(zhàn)。其中,利用新聞數(shù)據(jù)對(duì)經(jīng)濟(jì)和金融市場(chǎng)進(jìn)行分析和預(yù)測(cè),成為一個(gè)重要的研究方向[1,2]。我國經(jīng)濟(jì)領(lǐng)域越來越多的研究也開始應(yīng)用互聯(lián)網(wǎng)數(shù)據(jù),通過構(gòu)建輿情指數(shù)引入更廣泛的市場(chǎng)預(yù)期,來進(jìn)行價(jià)格指數(shù)水平變化的監(jiān)測(cè)[3,4]。這些研究發(fā)現(xiàn),互聯(lián)網(wǎng)新聞所代表的公眾輿論可能會(huì)影響投資者和消費(fèi)者的期望,從而影響生產(chǎn)、投資和消費(fèi)等經(jīng)濟(jì)行為,并進(jìn)一步影響市場(chǎng)[5,6]。建立基于互聯(lián)網(wǎng)新聞的經(jīng)濟(jì)輿情指數(shù)有助于發(fā)現(xiàn)市場(chǎng)變化的早期信號(hào),以更好地預(yù)測(cè)市場(chǎng)未來的發(fā)展趨勢(shì)。

    本研究注意到不同領(lǐng)域的新聞?shì)浨橹g存在著復(fù)雜的相互關(guān)聯(lián)。一方面,不同領(lǐng)域的新聞事件可能受到共同因素的影響。例如,蔬菜價(jià)格和水果價(jià)格會(huì)共同受到天氣因素影響,所有的食品價(jià)格都會(huì)受到政策、突發(fā)事件及防控形勢(shì)所引發(fā)的生產(chǎn)成本和物流成本的影響。另一方面,輿情可能會(huì)在相關(guān)的主題之間傳播。比如,關(guān)于糧食價(jià)格的輿情變化可能和關(guān)于畜肉或雞蛋價(jià)格的輿情變化之間有著相關(guān)關(guān)系,豬肉價(jià)格波動(dòng)和水產(chǎn)品價(jià)格波動(dòng)也存在關(guān)聯(lián)關(guān)系[7]。這種復(fù)雜的、動(dòng)態(tài)的時(shí)間和空間關(guān)聯(lián)特征形成了難以用靜態(tài)網(wǎng)絡(luò)結(jié)構(gòu)表征的輿情關(guān)聯(lián)網(wǎng)絡(luò)。由于新聞?shì)浨閿?shù)據(jù)在日度等更高頻度或具體行業(yè)產(chǎn)品和領(lǐng)域方面往往并不連續(xù),對(duì)不連續(xù)的新聞?shì)浨檫M(jìn)行數(shù)據(jù)補(bǔ)齊時(shí),除了數(shù)據(jù)本身的時(shí)序特征,也應(yīng)考慮到這些關(guān)聯(lián)特征,才能更好地刻畫輿情所反映的市場(chǎng)參與者預(yù)期。

    圖神經(jīng)網(wǎng)絡(luò)(GNN)是一種學(xué)習(xí)圖結(jié)構(gòu)數(shù)據(jù)的深度學(xué)習(xí)方法,具有強(qiáng)魯棒性、容錯(cuò)性、自學(xué)習(xí)處理不確定系統(tǒng)等特點(diǎn)。GNN用于輿情數(shù)據(jù)補(bǔ)齊,能夠充分地利用不同時(shí)間的網(wǎng)絡(luò)中其他各節(jié)點(diǎn)的觀測(cè)值的特征信息[8,9]。本研究以多主題輿情數(shù)據(jù)補(bǔ)齊為目標(biāo),構(gòu)造具備學(xué)習(xí)動(dòng)態(tài)圖結(jié)構(gòu)能力的圖神經(jīng)網(wǎng)絡(luò)框架(AGNN),探索多元時(shí)間序列的隱性圖結(jié)構(gòu),在GNN學(xué)習(xí)和消息傳遞的基礎(chǔ)上,實(shí)現(xiàn)快速有效的輿情數(shù)據(jù)補(bǔ)齊。

    本研究的貢獻(xiàn)主要體現(xiàn)在:①使用圖表示法來描述某一類相互關(guān)聯(lián)的經(jīng)濟(jì)指數(shù)所構(gòu)成的系統(tǒng),并且構(gòu)造以分項(xiàng)主題為節(jié)點(diǎn)的有向動(dòng)態(tài)圖,其中分項(xiàng)時(shí)間序列數(shù)據(jù)為節(jié)點(diǎn)特征;②設(shè)計(jì)具備圖學(xué)習(xí)層的AGNN網(wǎng)絡(luò),來學(xué)習(xí)動(dòng)態(tài)圖的結(jié)構(gòu)變化并預(yù)測(cè)標(biāo)簽,通過圖卷積模塊捕獲節(jié)點(diǎn)與節(jié)點(diǎn)鄰居的空間依賴關(guān)系,通過時(shí)間卷積模塊在時(shí)間維度上獲取信息,二者交替進(jìn)行,從而實(shí)現(xiàn)數(shù)據(jù)補(bǔ)全;③在AGNN網(wǎng)絡(luò)圖表示下,不連續(xù)的具體領(lǐng)域新聞?shì)浨閿?shù)據(jù)得以根據(jù)相關(guān)領(lǐng)域輿情變動(dòng)情況補(bǔ)齊,相比單一時(shí)間序列補(bǔ)齊和K近鄰等補(bǔ)齊方法,更能夠同時(shí)納入時(shí)間和空間的關(guān)聯(lián),解決了特定主題新聞不連續(xù)無法使用相應(yīng)輿情數(shù)據(jù)進(jìn)行預(yù)測(cè)的問題,促進(jìn)了計(jì)算機(jī)科學(xué)、經(jīng)濟(jì)學(xué)和管理學(xué)領(lǐng)域的交叉創(chuàng)新。

    2 文獻(xiàn)綜述

    2.1 經(jīng)濟(jì)領(lǐng)域新聞數(shù)據(jù)的應(yīng)用

    量化新聞文本中反映出的情感傾向和輿論觀點(diǎn),以及匯總輿情來反映經(jīng)濟(jì)趨勢(shì)是研究者普遍關(guān)注的方向?,F(xiàn)今新聞數(shù)據(jù)的處理主要分為3種方法:統(tǒng)計(jì)方法、詞典方法和機(jī)器學(xué)習(xí)方法。在統(tǒng)計(jì)方法的研究中,常利用主觀指定的關(guān)鍵詞的數(shù)量等文本特征來反映其情感傾向。經(jīng)濟(jì)政策不確定性指標(biāo)(EPU)經(jīng)常用于市場(chǎng)動(dòng)態(tài)分析當(dāng)中,EPU指數(shù)于2016年由斯坦福大學(xué)與芝加哥大學(xué)3位學(xué)者編制[10],選擇相關(guān)領(lǐng)域的報(bào)紙,統(tǒng)計(jì)了與經(jīng)濟(jì)政策相關(guān)的新聞中“不確定”這一關(guān)鍵詞的頻率,構(gòu)建了反映經(jīng)濟(jì)政策不確定性的指標(biāo)。研究表明,EPU指數(shù)與實(shí)際宏觀經(jīng)濟(jì)變量有顯著反向關(guān)系,甚至對(duì)權(quán)益市場(chǎng)的大幅波動(dòng)也有解釋作用[11]。使用機(jī)器學(xué)習(xí)方法的研究中,YADAV等[12]使用有監(jiān)督的情感分析方法來處理實(shí)時(shí)新聞數(shù)據(jù),以檢驗(yàn)期貨市場(chǎng)中投資者購買行為的可預(yù)測(cè)性;HAUSLER等[13]基于支持向量機(jī)處理新聞數(shù)據(jù),分別構(gòu)建了股市和房地產(chǎn)市場(chǎng)的情感指數(shù)。構(gòu)建情感詞典的方法在情感分析中占據(jù)主要地位,用詞典來區(qū)分語義情感具有結(jié)構(gòu)清晰、使用便捷和理論完整的優(yōu)點(diǎn)。

    2.2 互聯(lián)網(wǎng)數(shù)據(jù)在價(jià)格指數(shù)領(lǐng)域的預(yù)測(cè)

    近年來隨著互聯(lián)網(wǎng)的迅速發(fā)展,互聯(lián)網(wǎng)數(shù)據(jù)的可獲得性和可用性大大提高,已有大量研究通過用戶搜索行為和評(píng)論來構(gòu)建各類經(jīng)濟(jì)場(chǎng)景下的經(jīng)濟(jì)輿情指數(shù)。

    經(jīng)濟(jì)指標(biāo)的不穩(wěn)定會(huì)直接反映國家經(jīng)濟(jì)社會(huì)的諸多問題,因此國內(nèi)外的專家學(xué)者對(duì)于經(jīng)濟(jì)指標(biāo)的預(yù)測(cè)十分重視。APARICIO等[14]提出了基于網(wǎng)購價(jià)格的CPI預(yù)測(cè)方法,通過爬取網(wǎng)購商品價(jià)格的數(shù)據(jù)來計(jì)算網(wǎng)購商品CPI,以作為外生變量對(duì)實(shí)際CPI進(jìn)行預(yù)測(cè);劉張宇[15]通過對(duì)情感分析技術(shù)、鋼鐵行業(yè)上下游產(chǎn)業(yè)鏈以及鋼鐵價(jià)格指數(shù)的系統(tǒng)性研究,搭建了鋼鐵價(jià)格指數(shù)趨勢(shì)預(yù)測(cè)框架;POWELL等[16]研究集中在產(chǎn)品類別的平均價(jià)格,實(shí)現(xiàn)了自動(dòng)化地預(yù)測(cè)每日消費(fèi)者價(jià)格指數(shù)。同時(shí),隨著各大搜索引擎的搜索指數(shù)產(chǎn)品的陸續(xù)出現(xiàn),搜索指數(shù)成為研究經(jīng)濟(jì)輿情的有力工具。張瑞等[17]基于網(wǎng)絡(luò)搜索數(shù)據(jù)對(duì)商品零售價(jià)格進(jìn)行預(yù)測(cè);雷懷英等[18]通過對(duì)物價(jià)關(guān)鍵詞的搜索數(shù)據(jù)進(jìn)行整合,進(jìn)而探究互聯(lián)網(wǎng)數(shù)據(jù)與通貨膨脹的相關(guān)性。現(xiàn)有的互聯(lián)網(wǎng)數(shù)據(jù)應(yīng)用于經(jīng)濟(jì)領(lǐng)域的研究結(jié)構(gòu)有許多相似之處,大多基于搜索引擎數(shù)據(jù)使用主題詞和趨勢(shì)詞建模,但基于趨勢(shì)情感映射的輿情詞典可綜合評(píng)估不同類別詞匯對(duì)語義的影響,其中包含了情感詞、主題詞、否定詞以及程度副詞等,相比原有方法,能更有效地提高量化信息的準(zhǔn)確性[19]。

    2.3 多元時(shí)間序列缺失值填補(bǔ)

    目前已有大量關(guān)于時(shí)間序列中缺失值的填補(bǔ)的研究工作。傳統(tǒng)的統(tǒng)計(jì)推斷方法,如基于多項(xiàng)式曲線擬合、中值計(jì)算、均值計(jì)算等插值方法,未能利用到時(shí)間序列的信息特征和變量之間的關(guān)聯(lián)關(guān)系。而一些基于機(jī)器學(xué)習(xí)的計(jì)算方法,如期望最大化算法(EM)、K-最近鄰(KNN)、矩陣分解或狀態(tài)空間模型,無法建模時(shí)間序列的時(shí)間依賴性。最近,一些深度學(xué)習(xí)方法在多元時(shí)間序列缺失值填補(bǔ)工作中取得了成功。其中應(yīng)用最廣泛的是基于深度循環(huán)網(wǎng)絡(luò)(RNN)的自回歸方法[20~22]。CHE等[20]提出了GRU-D的深度神經(jīng)網(wǎng)絡(luò),通過門控循環(huán)單元(GRU)的隱藏狀態(tài)來表示數(shù)據(jù)的缺失模式,并整合進(jìn)模型,捕獲時(shí)間序列的長時(shí)間依賴。另一種成功研究策略是利用對(duì)抗神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)真實(shí)數(shù)據(jù)的完整生成序列,進(jìn)而對(duì)時(shí)間序列補(bǔ)齊[23~25]。GUO等[25]以GRUI(一種經(jīng)過修飾的GRU單元)來建模不完全時(shí)間序列,通過對(duì)抗生成模型學(xué)習(xí)時(shí)間關(guān)系、類內(nèi)相似性和數(shù)據(jù)集的分布。得益于圖神經(jīng)網(wǎng)絡(luò)高效的非線性時(shí)空間依賴關(guān)系捕獲能力,以及可擴(kuò)展性和靈活性,也有研究者將輸入的多元時(shí)間序列建模為圖序列,以邊表示不同變量之間的關(guān)系。WU等[26]提出了一種為多元時(shí)間序列數(shù)據(jù)設(shè)計(jì)的通用圖神經(jīng)網(wǎng)絡(luò)框架MTGNN,無需預(yù)先指定變量之間的關(guān)系,通過圖學(xué)習(xí)模塊學(xué)習(xí)多元變量之間潛在的依賴。但是現(xiàn)有的GNN補(bǔ)齊方法依賴于預(yù)定義的圖結(jié)構(gòu)來執(zhí)行時(shí)間序列預(yù)測(cè),除此之外,多數(shù)GNN方法只關(guān)注消息傳遞(GNN學(xué)習(xí)),而忽略了圖結(jié)構(gòu)不是最優(yōu)的并且應(yīng)該在訓(xùn)練期間更新的事實(shí)。所以,未知圖結(jié)構(gòu)或已知圖結(jié)構(gòu)但該結(jié)構(gòu)不是最佳的,對(duì)于預(yù)測(cè)來說都是需要解決的問題。

    3 研究方法

    3.1 研究框架

    本研究從互聯(lián)網(wǎng)新聞數(shù)據(jù)來提取特定行業(yè)變動(dòng)趨勢(shì)相關(guān)觀點(diǎn)文本,首先使用基于趨勢(shì)情感映射和考慮句法結(jié)構(gòu)的輿情詞典,對(duì)于同主題下的新聞數(shù)據(jù)進(jìn)行細(xì)分,再運(yùn)用該詞典量化各分項(xiàng)的新聞文本,從而構(gòu)建各個(gè)細(xì)項(xiàng)的日度輿情值。針對(duì)新聞數(shù)據(jù)的缺失問題,提出一種圖神經(jīng)網(wǎng)絡(luò)刻畫輿情指數(shù)之間的關(guān)聯(lián),以實(shí)現(xiàn)對(duì)于缺失指數(shù)數(shù)據(jù)節(jié)點(diǎn)的數(shù)據(jù)補(bǔ)齊。本研究將領(lǐng)域的分項(xiàng)視為節(jié)點(diǎn),而分項(xiàng)的輿情值視為節(jié)點(diǎn)的特征序列,利用設(shè)計(jì)的圖神經(jīng)網(wǎng)絡(luò)模型對(duì)存在的隱性圖結(jié)構(gòu)進(jìn)行學(xué)習(xí),發(fā)現(xiàn)節(jié)點(diǎn)之間隱藏的關(guān)聯(lián)性,捕獲節(jié)點(diǎn)間的時(shí)空依賴性,進(jìn)而預(yù)測(cè)缺失值來實(shí)現(xiàn)缺失補(bǔ)齊的目的。

    本研究基于互聯(lián)網(wǎng)新聞數(shù)據(jù)來構(gòu)建相關(guān)領(lǐng)域的輿情詞典[19],使用TextRank和TF-IDF算法選擇趨勢(shì)詞為種子詞。在這些種子詞及其同義詞擴(kuò)展的基礎(chǔ)上,通過集成學(xué)習(xí)Word2Vec和情感取向互信息(So-PMI)的相關(guān)性計(jì)算結(jié)果,判斷情感詞在輿情詞典中的歸屬,并用標(biāo)簽傳播算法將情感詞的相關(guān)值附加到輿情字典中。同時(shí),在輿情詞典中加入程度詞典和否定詞典來刻畫語義的強(qiáng)烈等級(jí),并在句子等級(jí)進(jìn)行主題匹配以提高量化文本的準(zhǔn)確性。由于本研究構(gòu)建的輿情詞典具有量化新聞文本的能力,故具有文本分類的功能。以物價(jià)的子領(lǐng)域劃分為細(xì)項(xiàng)輿情主題,通過所構(gòu)建的輿情詞典生成相應(yīng)細(xì)項(xiàng)的日度輿情特征序列,并利用設(shè)計(jì)的AGNN圖神經(jīng)網(wǎng)絡(luò)模型對(duì)存在的隱性圖結(jié)構(gòu)進(jìn)行學(xué)習(xí),構(gòu)成關(guān)于各領(lǐng)域價(jià)格指數(shù)的動(dòng)態(tài)輿情指數(shù)網(wǎng)絡(luò),捕獲各細(xì)項(xiàng)的新聞信息來實(shí)現(xiàn)缺失部分的預(yù)測(cè),進(jìn)而完善輿情指數(shù)。而設(shè)計(jì)的圖神經(jīng)網(wǎng)絡(luò)模型,主要由一個(gè)圖學(xué)習(xí)層、n個(gè)圖卷積模塊以及n個(gè)擴(kuò)張過濾器組成。最后,將補(bǔ)齊后的細(xì)項(xiàng)輿情指數(shù)與對(duì)應(yīng)的具體統(tǒng)計(jì)指標(biāo)進(jìn)行比較分析,并構(gòu)建預(yù)測(cè)模型,對(duì)所提出方法的實(shí)證效果進(jìn)行檢驗(yàn)。本研究框架見圖1。

    圖1 研究框架

    3.2 時(shí)間序列的自學(xué)習(xí)型圖神經(jīng)網(wǎng)絡(luò)

    使用動(dòng)態(tài)圖表示法來描述本研究問題后,構(gòu)建AGNN自學(xué)習(xí)圖神經(jīng)網(wǎng)絡(luò)模型以捕獲動(dòng)態(tài)網(wǎng)絡(luò)中的信息,并且根據(jù)時(shí)序數(shù)據(jù)進(jìn)行學(xué)習(xí)和優(yōu)化圖結(jié)構(gòu),過程中不僅考慮自身特征,還充分利用了其他觀測(cè)值的特征信息,進(jìn)一步完善預(yù)測(cè)效果。

    模型的具體框架如下(見圖2):對(duì)于特定的領(lǐng)域進(jìn)行主題細(xì)分,將各細(xì)分項(xiàng)視為節(jié)點(diǎn),其時(shí)間序列數(shù)據(jù)設(shè)定為節(jié)點(diǎn)的特征,第i個(gè)分項(xiàng)的第j個(gè)特征表示為Fji。而圖學(xué)習(xí)層可以自適應(yīng)地學(xué)習(xí)隱形圖的鄰接矩陣A∈Rn×n,以捕獲各個(gè)細(xì)項(xiàng)的時(shí)間序列數(shù)據(jù)之間的隱藏關(guān)系,鄰接矩陣中的元素aij∈{0,1},設(shè)Y∈Rn是標(biāo)簽集,P∈{0 or 1}n是分區(qū),其中只有當(dāng)aij=1時(shí),Pi=1,在訓(xùn)練測(cè)試中觀察到Y(jié)i。例如對(duì)于分項(xiàng)Ti,若aki=1,則表示分項(xiàng)Tk與分項(xiàng)Ti之間有有向邊,方向是Tk指向Ti,同時(shí)Pk=1,即在預(yù)測(cè)分項(xiàng)Ti的缺失特征值時(shí),訓(xùn)練過程中觀察到Y(jié)k,即分項(xiàng)Tk的標(biāo)簽。對(duì)于每個(gè)分項(xiàng),根據(jù)預(yù)測(cè)的標(biāo)簽結(jié)果選擇合適的其他分項(xiàng)作為鄰居,而每一個(gè)分項(xiàng)視為節(jié)點(diǎn),然后通過圖卷積模塊(GCM)融合節(jié)點(diǎn)的信息和節(jié)點(diǎn)鄰居的信息來處理空間依賴性。時(shí)間層面信息提取模塊(TCM),則是利用一維卷積濾波器來捕獲時(shí)間序列數(shù)據(jù)的順序模式,作用是捕獲時(shí)間層面的節(jié)點(diǎn)信息。時(shí)間卷積模塊通過在時(shí)間軸和節(jié)點(diǎn)軸上來過濾輸入(用虛線框表示),圖卷積模塊在每一步過濾輸入(用實(shí)線框表示),二者交替推進(jìn)。通過上述模型,即可補(bǔ)齊節(jié)點(diǎn)Ti在t+1時(shí)刻的缺失值,時(shí)間窗口繼續(xù)滑動(dòng)至新的特征矩陣(包含補(bǔ)齊的特征值和未被觀察的節(jié)點(diǎn)特征),再次利用自學(xué)習(xí)層,獲得新的鄰接矩陣A。

    3.2.1圖學(xué)習(xí)層

    圖學(xué)習(xí)層自適應(yīng)地學(xué)習(xí)圖的鄰接矩陣,以捕獲各個(gè)細(xì)項(xiàng)的時(shí)間序列數(shù)據(jù)之間的隱藏關(guān)系,而在多元時(shí)間序列預(yù)測(cè)中,希望節(jié)點(diǎn)的前期條件變化導(dǎo)致后期變化,故所學(xué)的關(guān)系應(yīng)該是單向的。出于該目的,圖學(xué)習(xí)層的設(shè)計(jì)有利于這種單向關(guān)系的提取,其核心公式如下:

    N1=tanh(αE1θ1);

    (1)

    N2=tanh(αE2θ2);

    (2)

    (3)

    idx=argtopk(A[i:]);

    (4)

    A[i,idx]=0(i=1,2,…,M),

    (5)

    式中,E1、E2表示為隨機(jī)初始化的節(jié)點(diǎn)嵌入,并且在訓(xùn)練過程中是可以學(xué)習(xí)的;θi是模型參數(shù);α是控制激活函數(shù)飽和率的超參數(shù);argtopk是返回top-k的索引向量的最大值。由式(3)實(shí)現(xiàn)的圖鄰接矩陣具有不對(duì)稱性質(zhì),其中減法項(xiàng)和RELU激活函數(shù)正則化鄰接矩陣,從而體現(xiàn)單向性,而一般的距離度量通常是對(duì)稱或者雙向的。式(4)和式(5)是制作鄰接矩陣的策略稀疏同時(shí)降低接下來圖卷積的計(jì)算成本。對(duì)于每個(gè)節(jié)點(diǎn),選擇它的前k個(gè)最近的節(jié)點(diǎn)作為其鄰居。在保留連接節(jié)點(diǎn)的權(quán)重的同時(shí),將非連接節(jié)點(diǎn)的權(quán)重設(shè)置為零。

    當(dāng)圖學(xué)習(xí)層學(xué)習(xí)到隱藏圖結(jié)構(gòu)的鄰接矩陣A,矩陣A導(dǎo)入圖卷積模塊,圖卷積模塊實(shí)質(zhì)是由兩個(gè)混合跳傳播層組成,當(dāng)圖學(xué)習(xí)層學(xué)習(xí)到鄰接矩陣,混合跳傳播層可以在空間層面處理相關(guān)節(jié)點(diǎn)的信息。

    3.2.2混合跳傳播層

    在給定圖鄰接矩陣的情況下,混合跳傳播層來處理空間相關(guān)節(jié)點(diǎn)上的信息流,其核心步驟主要為信息傳播過程和信息選擇過程。核心步驟的數(shù)學(xué)形式如下:

    ①信息傳播過程:

    (6)

    式中,β是一個(gè)超參數(shù),它控制保留的比率根節(jié)點(diǎn)的原始狀態(tài)。

    ②信息選擇過程:

    (7)

    本研究保留了一部分節(jié)點(diǎn)的原始狀態(tài)傳播過程,以便傳播的節(jié)點(diǎn)狀態(tài)既可以保留自身信息,又能探索鄰居節(jié)點(diǎn)的深層信息。如果只應(yīng)用信息傳播過程,將會(huì)丟失一些節(jié)點(diǎn)信息。因?yàn)樵诓淮嬖诳臻g依賴的情況下,聚合鄰里信息只會(huì)增加無用的噪音到每個(gè)節(jié)點(diǎn),引入信息選擇步驟是為了過濾掉可能出現(xiàn)的噪音,保留下每一跳產(chǎn)生的重要信息。根據(jù)信息選擇原理,參數(shù)矩陣W(k)功能作為一個(gè)特征選擇器,并且當(dāng)給定一個(gè)圖結(jié)構(gòu),該圖結(jié)構(gòu)不包含依賴關(guān)系時(shí),可以通過調(diào)整W(k)為0來保留原始節(jié)點(diǎn)的自身信息?;旌蟼鞑拥膫鞑ミ^程見圖3。

    圖3 混合傳播層的傳播過程

    3.2.3擴(kuò)張初始層

    時(shí)間層面信息提取模塊主要由兩個(gè)擴(kuò)張的初始層組成。一個(gè)擴(kuò)張的初始層之后是一個(gè)切線雙曲線激活函數(shù)作為過濾器,另一層之后是一個(gè)sigmoid激活函數(shù),其作為一個(gè)門,來控制過濾器傳遞給下一個(gè)模塊的信息。由于時(shí)間信號(hào)往往具有一些固有的時(shí)間周期,而量化的輿情值是日度數(shù)據(jù),符合這些時(shí)間周期的范圍,1×7尺寸的濾波器組成的時(shí)間初始層可以覆蓋上述周期。同時(shí),卷積網(wǎng)絡(luò)的感受野大小、網(wǎng)絡(luò)深度及過濾器內(nèi)核尺寸呈線性關(guān)系增加,比如一個(gè)卷積網(wǎng)絡(luò)具有n個(gè)一維卷積層,并且每個(gè)卷積層的內(nèi)核大小為c,那么這個(gè)卷積網(wǎng)絡(luò)的感受野大小為

    感受野=n(c-1)+1。

    (8)

    擴(kuò)張初始層可以減少模型的復(fù)雜度,因?yàn)楫?dāng)處理很長的時(shí)間序列,它需要一個(gè)非常深的網(wǎng)絡(luò)即非常大的過濾器,這就意味著復(fù)雜度過高導(dǎo)致模型運(yùn)算困難。解決該問題的具體方法為,設(shè)置膨脹因子q(q>1),對(duì)每q步的采樣輸入應(yīng)用標(biāo)準(zhǔn)卷積,讓每一層的膨脹因子以q的指數(shù)形式增加,假設(shè)初始膨脹因子為1,內(nèi)核為c的n個(gè)一維卷積層組成的卷積網(wǎng)絡(luò),其感受野大小為

    (9)

    3.2.4輸出層

    圖4 節(jié)點(diǎn)信息捕獲過程

    3.3 價(jià)格輿情指數(shù)網(wǎng)絡(luò)

    3.3.1價(jià)格輿情特征提取

    本研究采用基于詞典的方法進(jìn)行文本量化[19],詞典中的每個(gè)單詞都必須對(duì)應(yīng)地有一個(gè)極性得分,稱為該詞的觀點(diǎn)值,觀點(diǎn)值的大小用來衡量對(duì)應(yīng)詞在特定領(lǐng)域中的觀點(diǎn)強(qiáng)度,觀點(diǎn)值的正負(fù)反映對(duì)應(yīng)詞的觀點(diǎn)方向(繁榮或衰落)。本部分的目的是,建立與所研究領(lǐng)域主題的新聞特別相關(guān)的基于趨勢(shì)情感映射的輿情詞典,其主要由種子詞典、程度詞典、否定詞典和情感詞典組成。主題輿情詞典的構(gòu)造框架見圖5。

    圖5 輿情詞典的構(gòu)建

    選擇的種子詞及其擴(kuò)展為反映經(jīng)濟(jì)領(lǐng)域發(fā)展趨勢(shì)的詞(如“上升”“下降”等)。這樣的詞作為詞典的“種子”,更能充分提取經(jīng)濟(jì)市場(chǎng)的動(dòng)態(tài)信息。使用詞頻、詞頻-逆文本頻率和TextRank算法選擇種子詞及其擴(kuò)展。根據(jù)極性,在字典中將種子詞i的觀點(diǎn)值記為Vd,i。將在同義詞林中得到的詞與對(duì)應(yīng)種子詞組的平均相關(guān)性記為ci,則將詞典中同義詞i的觀點(diǎn)值記為Ve,i。使用神經(jīng)網(wǎng)絡(luò)詞向量訓(xùn)練Word2Vec方法和So-PMI方法對(duì)情感詞進(jìn)行處理,通過集成學(xué)習(xí)兩種算法的極性判別結(jié)果,來獲取情感詞在輿情詞典中的極性和相似度。情感詞i的極性歸屬可以由相關(guān)值Tc,i或Tp,i來判斷,而標(biāo)簽數(shù)據(jù)的敏感性分析決定判別極性的閾值ρ,本研究使用不同的閾值對(duì)情感詞進(jìn)行極性劃分,獲得Word2Vec和PMI兩種算法的最佳閾值分別為ρW2V和ρPMI,從而實(shí)現(xiàn)情感詞的極性劃分。完成極性劃分后,情感詞的相關(guān)值Cor_I與趨勢(shì)種子詞及其擴(kuò)展的觀點(diǎn)值并不相關(guān),故需要計(jì)算映射系數(shù),將相關(guān)值Cor_I映射到趨勢(shì)種子詞及其擴(kuò)展的觀點(diǎn)值的值域當(dāng)中。

    本研究基于標(biāo)簽傳播算法進(jìn)行映射系數(shù)的計(jì)算。具體為將詞典中的詞定義為圖模型的節(jié)點(diǎn),趨勢(shì)種子詞及其擴(kuò)展的矩陣記為FL,第i行表示第i個(gè)趨勢(shì)種子詞的觀點(diǎn)值;情感詞的矩陣記為FU,其每行的初始值都為0,將它們合并得到矩陣F(L+U)×1=[FL;FU]。對(duì)于圖模型的邊,將之前計(jì)算的Word2Vec和So-PMI算法的相關(guān)值的集成值作為圖模型的邊權(quán)wij。該圖模型為有向圖,情感詞與種子詞及其擴(kuò)展分別對(duì)應(yīng)相連,但同屬性的詞之間無邊(邊權(quán)wij=0)。由圖模型的邊權(quán)可以計(jì)算點(diǎn)i到點(diǎn)j的轉(zhuǎn)移概率Pij,得到一個(gè)(L+U)×(L+U)維的轉(zhuǎn)移概率矩陣P。進(jìn)行LP算法更新,結(jié)束后FU中的值即為情感詞i一一對(duì)應(yīng)的映射系數(shù)θi。

    經(jīng)過上述步驟,可以得到情感詞i的極性分組Polari、極性相關(guān)值Cor_Ii以及映射系數(shù)θi。則輿情詞典中情感詞i的觀點(diǎn)值Vs,i為

    (10)

    式中,Up和Down分別表示上漲集合和下降集合。

    3.3.2輿情指數(shù)網(wǎng)絡(luò)

    本研究使用構(gòu)建的輿情詞典對(duì)收集的文本按照主題進(jìn)行分類,分別將食品領(lǐng)域和有色金屬領(lǐng)域分為若干個(gè)細(xì)項(xiàng),通過量化各細(xì)項(xiàng)主題下的新聞文本,構(gòu)建相應(yīng)的日度物價(jià)輿情值。各細(xì)項(xiàng)組成圖的節(jié)點(diǎn)集,細(xì)項(xiàng)的日度值視為其特征序列,形成一個(gè)圖結(jié)構(gòu)數(shù)據(jù)。利用本研究設(shè)計(jì)的圖神經(jīng)網(wǎng)絡(luò)模型對(duì)動(dòng)態(tài)圖結(jié)構(gòu)進(jìn)行學(xué)習(xí),AGNN繼續(xù)抓取節(jié)點(diǎn)之間的關(guān)聯(lián)關(guān)系,捕獲時(shí)空依賴性;然后利用已有的信息去預(yù)測(cè)缺失部分,實(shí)現(xiàn)各細(xì)項(xiàng)的輿情指數(shù)的補(bǔ)齊,至此構(gòu)建了一個(gè)特定領(lǐng)域主題下的輿情指數(shù)動(dòng)態(tài)網(wǎng)絡(luò)。

    量化某篇新聞文本k的表達(dá)式為

    (11)

    式中,Vword in k表示新聞文本k中詞條的觀點(diǎn)值,搜索當(dāng)前詞條前后兩個(gè)詞的范圍,若出現(xiàn)程度詞i,則將當(dāng)前詞條的觀點(diǎn)值變換Ve,i倍;搜索當(dāng)前詞條前后3個(gè)詞的范圍,若出現(xiàn)奇數(shù)個(gè)否定詞,則否定系數(shù)Neg=-1,否則Neg=1。

    基于量化后的新聞,將同日的新聞?shì)浨榱炕登蠛推骄?。則日度輿情指數(shù)定義為

    POId=Average(NVd,k),

    (12)

    式中,NVd,k表示第d天的新聞值文本量化集合;Average表示求和平均。則月度輿情指數(shù)為

    POIt=Average(POIt,d),

    (13)

    式中,POIt,d表示第t月的日度輿情指數(shù)集合。新聞量化的初始輿情值和AGNN補(bǔ)齊后的日度輿情值按日期前后合并成新的日度輿情指數(shù),可定義為

    (14)

    式中,POIAGNN表示通過AGNN模型補(bǔ)齊的輿情缺失部分。則月度輿情指數(shù)為

    (15)

    4 實(shí)證分析

    4.1 食品領(lǐng)域價(jià)格指數(shù)預(yù)測(cè)

    4.1.1數(shù)據(jù)描述

    本研究采用一個(gè)經(jīng)過檢驗(yàn)的相對(duì)完整新聞數(shù)據(jù)集,篩選了來自2009年10月~2014年2月的搜狐新聞公開數(shù)據(jù)集中,正文包含“食品”“物價(jià)”“價(jià)格”“CPI”等相關(guān)字段,同時(shí)僅保留描述國內(nèi)食品物價(jià)情況的新聞,最終共選出2009~2014年全國食品物價(jià)新聞219 231條。由于本研究使用的新聞數(shù)據(jù)時(shí)間在2016年前,而在2016年1月之后,國家統(tǒng)計(jì)局對(duì)食品項(xiàng)構(gòu)成進(jìn)行了調(diào)整,故考慮舊食品項(xiàng)構(gòu)成并根據(jù)《價(jià)格指數(shù)生活必需品編制目錄》中的食品分項(xiàng)關(guān)鍵詞條篩選了9個(gè)細(xì)項(xiàng)數(shù)據(jù)集,分別為糧食、畜肉、食用油、水產(chǎn)品、蔬菜、水果、蛋類、調(diào)味品和其他食品。但是存在在某些監(jiān)測(cè)日內(nèi)并未有相關(guān)新聞報(bào)道的情況,所以收集的新聞數(shù)據(jù)存在著缺失問題,例如食品主題的缺失天數(shù)共計(jì)122天。

    4.1.2食品價(jià)格輿情指數(shù)網(wǎng)絡(luò)構(gòu)建

    物價(jià)的變化能夠很好地反映通貨膨脹等經(jīng)濟(jì)現(xiàn)象的趨勢(shì)情況,在現(xiàn)有的經(jīng)濟(jì)指標(biāo)中,居民消費(fèi)價(jià)格指數(shù)(CPI)可解釋一定時(shí)間內(nèi)通貨膨脹的變動(dòng)情況,而其中食品項(xiàng)為最重要的組成部分,故本研究使用CPI食品項(xiàng)當(dāng)月同比數(shù)據(jù)作為目標(biāo)變量進(jìn)行預(yù)測(cè)分析。使用輿情網(wǎng)絡(luò)框架對(duì)中國食品物價(jià)新聞數(shù)據(jù)集進(jìn)行量化,針對(duì)食品領(lǐng)域的新聞數(shù)據(jù),網(wǎng)絡(luò)框架是由Tensorflow中優(yōu)化器AdamOptimizer使用梯度裁剪進(jìn)行訓(xùn)練,選擇的學(xué)習(xí)率為0.001,L2正則化懲罰為0.000 1。在每個(gè)圖卷積模塊之后應(yīng)用分層形式,混合躍點(diǎn)傳播層的深度設(shè)置為2,保留率設(shè)置為0.04。圖學(xué)習(xí)層激活函數(shù)的飽和率設(shè)置為3,節(jié)點(diǎn)嵌入的維數(shù)不超過40。對(duì)于本研究量化的輿情值,使用6個(gè)圖卷積模塊和6個(gè)時(shí)間卷積模塊,膨脹指數(shù)因子為2。圖形卷積模塊和時(shí)間卷積模塊都有16個(gè)輸出通道,跳過連接層都有32個(gè)輸出通道,設(shè)置了9個(gè)節(jié)點(diǎn),每個(gè)節(jié)點(diǎn)的鄰域數(shù)設(shè)為不超過9,而批次大小設(shè)置為5。然后使用本研究所描述的輿情指數(shù)構(gòu)建方式,構(gòu)建各領(lǐng)域下的日度輿情值;而對(duì)于缺失的部分,利用構(gòu)建的AGNN模型對(duì)9個(gè)細(xì)項(xiàng)進(jìn)行信息捕獲,將其看成9個(gè)節(jié)點(diǎn),各自的日度輿情值視為節(jié)點(diǎn)的特征序列,圖神經(jīng)網(wǎng)絡(luò)對(duì)存在的隱性圖結(jié)構(gòu)進(jìn)行學(xué)習(xí),預(yù)測(cè)缺失部分。得到完整的日度輿情值后,使用文中的月度輿情指數(shù)構(gòu)建方法,形成各細(xì)項(xiàng)的月度輿情指數(shù)。根據(jù)2016年之前的食品項(xiàng)各構(gòu)成占比:糧食(10.5%)、食用油(3.9%)、肉禽及其制品(25%)、蛋(3.4%)、水產(chǎn)品(6.6%)、蔬菜(12.1%)、水果(12.1%)、調(diào)味品(2.9%)和其他食品(23.5%),最終合成了食品物價(jià)月度輿情指數(shù)POIfood。這里使用了常用的補(bǔ)齊方式(選擇刪除、均值填充和最近鄰點(diǎn)填充)對(duì)缺失的日度輿情值進(jìn)行填充,并且按照各構(gòu)成占比,合成不同的食品物價(jià)月度輿情指數(shù);同時(shí)用構(gòu)建的輿情詞典對(duì)食品項(xiàng)所有新聞進(jìn)行直接量化,然后合成食品物價(jià)總輿情指數(shù)POIfood_all(見圖6)。

    圖6 不同補(bǔ)齊方式的輿情指數(shù)

    食品項(xiàng)CPI和POI的Pearson相關(guān)系數(shù)見表1。由表1可知,不同方式合成的輿情指數(shù)與食品項(xiàng)CPI值之間具有較強(qiáng)的相關(guān)性,并且基于輿情網(wǎng)絡(luò)框架構(gòu)建的輿情指數(shù)和CPI值的相關(guān)系數(shù)提升至0.654,表明本研究方法可以更有效地提取信息。各細(xì)項(xiàng)CPI和POI的Pearson相關(guān)系數(shù)見表2。由表2可知,細(xì)項(xiàng)的輿情指數(shù)與CPI值之間都具有較強(qiáng)的相關(guān)性,例如肉禽及其制品項(xiàng)中兩項(xiàng)指標(biāo)的相關(guān)系數(shù)為0.845,糧食項(xiàng)中兩項(xiàng)指標(biāo)相關(guān)系數(shù)為0.665。進(jìn)一步說明了本研究方法提取輿情信息的有效性,相比其他方法捕獲了更多的信息。

    表1 食品項(xiàng)CPI和POI的Pearson相關(guān)系數(shù)(N=324)(1)利用本研究提出的方法,量化食品價(jià)格新聞文本,得到2009年10月~2014年2月的月度輿情指數(shù),共計(jì)54條,表1涉及6個(gè)變量,觀測(cè)值總計(jì)324。表2~表4同法得到相應(yīng)的觀測(cè)值。

    表2 各細(xì)項(xiàng)CPI和POI的Pearson相關(guān)系數(shù)(N=2 430)

    4.1.3基于輿情物價(jià)修正的食品價(jià)格指數(shù)預(yù)測(cè)

    為了探究所構(gòu)建的輿情指數(shù)與食品物價(jià)之間是否存在長期穩(wěn)定的均衡關(guān)系,對(duì)全國食品物價(jià)進(jìn)行基于回歸殘差的協(xié)整檢驗(yàn),檢驗(yàn)結(jié)果見表3。

    表3 食品物價(jià)和輿情指數(shù)協(xié)整檢驗(yàn)(N=324)

    協(xié)整檢驗(yàn)的結(jié)果說明,每組的兩個(gè)變量回歸得到的殘差序列都是平穩(wěn)的,即食品物價(jià)輿情指數(shù)POI與食品項(xiàng)CPI存在長期穩(wěn)定的均衡關(guān)系。長期均衡關(guān)系的存在也為利用輿情指數(shù)對(duì)食品物價(jià)進(jìn)行預(yù)測(cè)分析奠定了理論基礎(chǔ)。

    為了進(jìn)一步驗(yàn)證所構(gòu)建食品物價(jià)輿情指數(shù)網(wǎng)絡(luò)模型的有效性,本研究用基于食品物價(jià)輿情指數(shù)網(wǎng)絡(luò)補(bǔ)齊的食品分項(xiàng)輿情指數(shù)集合,對(duì)消費(fèi)者價(jià)格指數(shù)食品項(xiàng)(CPIfood)同比數(shù)據(jù)進(jìn)行預(yù)測(cè)。由于食品項(xiàng)CPI指數(shù)具有較強(qiáng)的季節(jié)性和趨勢(shì)性,首先通過X13季節(jié)調(diào)整加法模型剔除季節(jié)因素后,保留季節(jié)調(diào)整后值(SA項(xiàng))。而ARIMA模型在經(jīng)濟(jì)預(yù)測(cè)過程中既考慮了經(jīng)濟(jì)現(xiàn)象在時(shí)間序列上的依存性,又考慮了隨機(jī)波動(dòng)的干擾性,對(duì)于經(jīng)濟(jì)運(yùn)行短期趨勢(shì)的預(yù)測(cè)準(zhǔn)確率較高[27],模型只考慮內(nèi)生性而不需要外生變量。由于本研究的核心是探索輿情指數(shù)是否對(duì)食品價(jià)格指數(shù)變化存在外生影響,所以使用食品項(xiàng)CPI的SA項(xiàng)數(shù)據(jù)構(gòu)造自回歸滑動(dòng)平均預(yù)測(cè)模型(ARIMA),以去除數(shù)據(jù)本身內(nèi)生性帶來的效益,將預(yù)測(cè)的SA項(xiàng)值還原為預(yù)測(cè)的食品項(xiàng)CPI,與實(shí)際的食品項(xiàng)CPI比較分析。本研究使用2009年10月~2013年6月的食品物價(jià)輿情指數(shù)POIfood、食品物價(jià)總輿情指數(shù)POIfood_all、選擇刪除補(bǔ)齊的食品物價(jià)輿情指數(shù)POI選擇刪除、均值補(bǔ)齊的食品物價(jià)輿情指數(shù)POI均值補(bǔ)齊、最近鄰點(diǎn)法補(bǔ)齊的食品物價(jià)輿情指數(shù)POI最近鄰點(diǎn)分別與ARIMA模型得到的殘差構(gòu)造最小二乘法回歸模型,進(jìn)行誤差修正。

    (1)ARIMA模型的確定

    對(duì)食品項(xiàng)CPI的SA項(xiàng)進(jìn)行ADF單位根檢驗(yàn),結(jié)果顯示數(shù)據(jù)是一階差分平穩(wěn),可以設(shè)定ARIMA模型參數(shù)d=1;然后根據(jù)AIC準(zhǔn)則和BIC準(zhǔn)則,確立最合適的ARIMA模型參數(shù)p=1,q=1;最終選擇ARIMA(1,1,1)作為預(yù)測(cè)模型。模型表達(dá)式為

    ΔYt=c+β1ΔYt-1+γ1μt-1+μt,

    (16)

    式中,c為常數(shù)項(xiàng);β1為自回歸系數(shù);γ1為移動(dòng)回歸系數(shù);{μt}為白噪聲序列。

    由ARIMA模型直接預(yù)測(cè)的Yt為食品項(xiàng)CPI的SA項(xiàng)預(yù)測(cè)值,然后通過季節(jié)調(diào)整的加法模型還原為CPI預(yù)測(cè)值:

    CPIt=Yt+季節(jié)調(diào)整因子t;

    (17)

    季節(jié)調(diào)整因子=CPItrue-(TC+I),

    (18)

    式中,TC表示季節(jié)調(diào)整后的趨勢(shì)循環(huán)項(xiàng);I為不規(guī)則要素。

    基于該模型的食品項(xiàng)CPI預(yù)測(cè)結(jié)果見圖7。由圖7可知,預(yù)測(cè)結(jié)果與實(shí)際值之間的差距呈現(xiàn)一定的規(guī)律性,在大部分時(shí)間ARMA模型的擬合值都略微滯后于CPI的實(shí)際值。這與現(xiàn)有的CPI預(yù)測(cè)實(shí)證研究中的結(jié)果一致[27,28]。

    圖7 ARIMA預(yù)測(cè)食品項(xiàng)CPI和實(shí)際食品項(xiàng)CPI

    (2)食品項(xiàng)CPI的誤差修正

    ARIMA模型中誤差的產(chǎn)生是由于其只考慮了數(shù)據(jù)本身所在的時(shí)間序列特征,并沒有考慮外生變量對(duì)物價(jià)的影響。由于物價(jià)相關(guān)輿情從一定程度上可以體現(xiàn)很多方面對(duì)于物價(jià)的外來影響,而根據(jù)協(xié)整檢驗(yàn)的結(jié)果可知,本研究構(gòu)建的輿情指數(shù)和食品項(xiàng)CPI是存在長期穩(wěn)定的均衡關(guān)系。因此,這里用本研究構(gòu)建的食品分項(xiàng)輿情指數(shù)來修正食品項(xiàng)CPI預(yù)測(cè)值的誤差,選擇OLS回歸模型,并使用最優(yōu)子集回歸的方法進(jìn)行變量篩選。由于OLS回歸模型為時(shí)間序列模型,允許變量滯后項(xiàng)參與回歸過程,則生成各種食品物價(jià)輿情指數(shù)的1~3階滯后。經(jīng)過最優(yōu)子集回歸,根據(jù)AIC、BIC、Cp準(zhǔn)則以及擬合優(yōu)度R2,以ARIMA殘差(σ)為因變量,分別生成5種食品物價(jià)輿情指數(shù)的誤差修正模型,模型的基本形式為

    模型1:

    σ=α11POIfood_all+α12POIfood_all(-1)+δ1;

    (19)

    模型2:

    σ=α21POI選擇刪除+α22POI選擇刪除(-1)+δ2;

    (20)

    模型3:

    σ=α31POI均值補(bǔ)齊+α32POI均值補(bǔ)齊(-1)+

    α33POI均值補(bǔ)齊(-2)+δ3;

    (21)

    模型4:

    σ=α41POI最近鄰點(diǎn)+α42POI最近鄰點(diǎn)(-1)+

    α43POI最近鄰點(diǎn)(-2)+δ4;

    (22)

    模型5:

    σ=α51POIfood+α52POIfood(-1)+

    α53POIfood(-2)+δ5,

    (23)

    式中,αij(i=1,2,3,4,5;j=1,2,3)為回歸系數(shù);δi(i=1,2,3,4,5)為隨機(jī)誤差項(xiàng)。然后將由輿情指數(shù)修正的殘差與ARIMA的預(yù)測(cè)值進(jìn)行結(jié)合,再考慮季節(jié)調(diào)整因子的因素,得到最終的食品項(xiàng)CPI的預(yù)測(cè)值為CPIt=Yt+季節(jié)調(diào)整因子t+σt。

    4.1.4預(yù)測(cè)結(jié)果分析

    使用處理好的數(shù)據(jù)集對(duì)模型1~模型5和ARIMA模型分別建立預(yù)測(cè)模型,進(jìn)行靜態(tài)的樣本內(nèi)的預(yù)測(cè)(IN),時(shí)間區(qū)間為2009年10月~2013年6月。對(duì)模型的預(yù)測(cè)結(jié)果評(píng)估依據(jù)均方誤差(MSE)、誤差均方根(RMSE)、平均絕對(duì)誤差(MAE)、平均相對(duì)誤差絕對(duì)值(MAPE)、對(duì)稱平均絕對(duì)百分比誤差(SMAPE)5個(gè)指標(biāo)來評(píng)判。為了探究輿情指數(shù)在樣本外預(yù)測(cè)的效果,對(duì)6個(gè)模型分別建立預(yù)測(cè)模型,進(jìn)行動(dòng)態(tài)的樣本外預(yù)測(cè),使用時(shí)間區(qū)間為2009年10月~2013年6月的樣本數(shù)據(jù)對(duì)2013年6月~2014年2月進(jìn)行預(yù)測(cè),樣本內(nèi)外的預(yù)測(cè)效果對(duì)比見表4。

    表4 預(yù)測(cè)結(jié)果對(duì)比(N=1 620)

    由樣本內(nèi)預(yù)測(cè)結(jié)果可知,用食品物價(jià)輿情指數(shù)對(duì)ARIMA誤差進(jìn)行修正后的預(yù)測(cè)模型,其所有評(píng)價(jià)指標(biāo)都逐漸減小,有更加良好的預(yù)測(cè)結(jié)果,并且基于AGNN輿情指數(shù)網(wǎng)絡(luò)的誤差修正預(yù)測(cè)模型各項(xiàng)指標(biāo)均達(dá)到最小。而樣本外預(yù)測(cè)結(jié)果表明,加入食品物價(jià)輿情指數(shù)對(duì)預(yù)測(cè)精度有所提高,并且分細(xì)項(xiàng)后再合成的輿情指數(shù)能捕獲更多的信息,從而更好地預(yù)測(cè)食品項(xiàng)CPI。除此之外,構(gòu)建輿情指數(shù)網(wǎng)絡(luò)來實(shí)現(xiàn)數(shù)據(jù)補(bǔ)齊的方式是效果最好的,其涉及的預(yù)測(cè)模型評(píng)價(jià)指標(biāo)也是6個(gè)模型中數(shù)值最小的,有良好的樣本外預(yù)測(cè)效果。樣本內(nèi)和樣本外的預(yù)測(cè)驗(yàn)證了所構(gòu)建的全國食品物價(jià)輿情指數(shù)的有效性,通過對(duì)食品項(xiàng)CPI進(jìn)行預(yù)測(cè)建模,能夠提高食品項(xiàng)CPI的預(yù)測(cè)精度,為全國食品消費(fèi)市場(chǎng)的預(yù)測(cè)研究作出貢獻(xiàn)。

    4.2 有色金屬領(lǐng)域價(jià)格指數(shù)預(yù)測(cè)

    4.2.1數(shù)據(jù)描述

    為了進(jìn)一步驗(yàn)證本研究方法的合理性和可擴(kuò)展性,嘗試建立有色金屬行業(yè)領(lǐng)域基于互聯(lián)網(wǎng)新聞的輿情指數(shù)網(wǎng)絡(luò),爬取了來自中國有色網(wǎng)2015年1月~2021年12月的新聞數(shù)據(jù),進(jìn)行數(shù)據(jù)清洗過濾,最終共保留2015~2021年全國有色金屬行業(yè)新聞5 604條。

    4.2.2有色金屬領(lǐng)域輿情指數(shù)網(wǎng)絡(luò)構(gòu)建

    以主要有色金屬的價(jià)格及需求為主題進(jìn)行分項(xiàng),構(gòu)建有色金屬領(lǐng)域的輿情網(wǎng)絡(luò),利用本研究方法填補(bǔ)缺失部分,針對(duì)有色金屬領(lǐng)域的新聞數(shù)據(jù),混合躍點(diǎn)傳播層的深度設(shè)置為2,保留率設(shè)置為0.05。圖學(xué)習(xí)層激活函數(shù)的飽和率設(shè)置為2.5,節(jié)點(diǎn)嵌入的維數(shù)不超過30。對(duì)于本研究量化的輿情值,使用5個(gè)圖卷積模塊和5個(gè)時(shí)間卷積模塊,膨脹指數(shù)因子為2。圖形卷積模塊和時(shí)間卷積模塊都有10個(gè)輸出通道,跳過連接層都有20個(gè)輸出通道,設(shè)置了8個(gè)節(jié)點(diǎn),每個(gè)節(jié)點(diǎn)的鄰域數(shù)設(shè)為不超過8,而批次大小設(shè)置為4。

    合成有色金屬行業(yè)價(jià)格輿情指數(shù)(POIprice)和需求輿情指數(shù)(POIdemand),與有色金屬的工業(yè)生產(chǎn)者出廠價(jià)格指數(shù)(PPI同比)進(jìn)行相關(guān)性分析,并和其他補(bǔ)齊方法進(jìn)行比較,結(jié)果見表5。由表5可知,基于輿情網(wǎng)絡(luò)框架構(gòu)建的輿情指數(shù)和PPI值的相關(guān)系數(shù)提升至最高,表明本研究補(bǔ)齊方式可以更有效地提取信息。

    表5 有色金屬輿情值與有色金屬PPI的Pearson相關(guān)系數(shù)(N=3 060)(2)利用本研究提出的方法,量化有色金屬行業(yè)新聞文本,得到2015年1月~2021年12月的月度輿情指數(shù),共計(jì)84條,表5涉及40個(gè)變量,觀測(cè)值總計(jì)3 360。表6同法得到相應(yīng)的觀測(cè)值。

    4.2.3基于輿情修正的有色金屬行業(yè)價(jià)格指數(shù)預(yù)測(cè)

    同理,對(duì)有色金屬PPI的SA項(xiàng)進(jìn)行ADF單位根檢驗(yàn),結(jié)果顯示數(shù)據(jù)是一階差分平穩(wěn),可以設(shè)定ARIMA模型參數(shù)d=1,并根據(jù)AIC準(zhǔn)則和BIC準(zhǔn)則,確立最合適的ARIMA模型參數(shù)p=1,q=2,并且協(xié)整檢驗(yàn)說明,有色金屬輿情指數(shù)POI與有色金屬行業(yè)PPI存在長期穩(wěn)定的均衡關(guān)系。因此,最終選擇ARIMA(1,1,2)作為基準(zhǔn)模型,然后用本研究方法構(gòu)建的主題輿情指數(shù)來修正有色金屬PPI的預(yù)測(cè)殘差,根據(jù)AIC、BIC、Cp準(zhǔn)則以及擬合優(yōu)度R2,以ARIMA殘差(σ)為因變量,分別生成有色金屬行業(yè)輿情指數(shù)的誤差修正模型為

    模型1(ARIMA+POI選擇刪除):

    σ=ω11POIprice(-1)+ω12POIprice(-2)+

    ω13POIdemand(-1)+δ1;

    (24)

    模型2(ARIMA+POI均值補(bǔ)齊):

    σ=ω21POIprice(-1)+ω22POIprice(-2)+

    ω23POIdemand(-1)+δ2;

    (25)

    模型3(ARIMA+POI最近鄰點(diǎn)):

    σ=ω31POIprice(-1)+ω32POIprice(-2)+

    ω33POIdemand(-1)+δ3;

    (26)

    模型4(ARIMA+POIAGNN):

    σ=ω41POIprice(-1)+ω42POIprice(-2)+

    ω43POIdemand(-1)+δ4,

    (27)

    式中,ωij(i=1,2,3,4;j=1,2,3)為回歸系數(shù);δi(i=1,2,3,4)為隨機(jī)誤差項(xiàng)。

    4.2.4預(yù)測(cè)結(jié)果分析

    使用處理好的數(shù)據(jù)集對(duì)模型1~模型4和ARIMA模型分別建立預(yù)測(cè)模型進(jìn)行靜態(tài)的樣本內(nèi)的預(yù)測(cè)(IN)和動(dòng)態(tài)的樣本外的預(yù)測(cè)(OUT),使用時(shí)間區(qū)間為2015年1月~2021年6月的樣本數(shù)據(jù)對(duì)2021年7~12月進(jìn)行預(yù)測(cè),樣本內(nèi)外的預(yù)測(cè)效果對(duì)比見表6。

    表6 有色金屬預(yù)測(cè)結(jié)果對(duì)比(N=4 100)

    由預(yù)測(cè)結(jié)果可知,構(gòu)建輿情指數(shù)網(wǎng)絡(luò)來實(shí)現(xiàn)數(shù)據(jù)補(bǔ)齊的方式是效果最好的,其涉及的預(yù)測(cè)模型評(píng)價(jià)指標(biāo)也是諸多模型中數(shù)值最小的,有良好的樣本外預(yù)測(cè)效果。樣本內(nèi)和樣本外的預(yù)測(cè)驗(yàn)證了所構(gòu)建的有色金屬輿情指數(shù)的有效性,通過對(duì)有色金屬PPI進(jìn)行預(yù)測(cè)建模,能夠提高預(yù)測(cè)精度,本研究所提出的方法適用于不同的價(jià)格指數(shù)領(lǐng)域,具有擴(kuò)展性和實(shí)用性。

    5 結(jié)語

    本研究構(gòu)建了特定領(lǐng)域下的輿情指數(shù)動(dòng)態(tài)網(wǎng)絡(luò),解決了輿情指數(shù)構(gòu)建中由于新聞數(shù)據(jù)稀疏性導(dǎo)致的連續(xù)性和一致性等問題,能更有效地提取公眾輿情觀點(diǎn)。實(shí)證檢驗(yàn)顯示,本研究所提出的方法可提高基于輿情數(shù)據(jù)進(jìn)行食品價(jià)格和有色金屬價(jià)格預(yù)測(cè)的精度。由于構(gòu)建過程中僅采用了來自特定領(lǐng)域的新聞數(shù)據(jù)集和價(jià)格指標(biāo)時(shí)間序列,并沒有采用其他外生變量數(shù)據(jù)信息,所以本研究提供了一種不依賴于領(lǐng)域經(jīng)濟(jì)知識(shí)的建模和預(yù)測(cè)方法,是數(shù)據(jù)驅(qū)動(dòng)的便于應(yīng)用于其他類似領(lǐng)域的方法,具有較好的可擴(kuò)展性。

    本研究將動(dòng)態(tài)圖結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)用于輿情趨勢(shì)推斷,為更好地獲取新聞數(shù)據(jù)中輿情信息提供了一種方法,并且在與其他方法的比較過程中顯示出更好的性能,基于本研究輿情網(wǎng)絡(luò)框架構(gòu)建的食品物價(jià)輿情指數(shù)和有色金屬輿情指數(shù),與食品CPI和有色金屬行業(yè)PPI的相關(guān)系數(shù)結(jié)果表明,本研究方法可以更有效地提取信息。另外,在食品項(xiàng)價(jià)格指數(shù)方面,細(xì)項(xiàng)的輿情指數(shù)與各自CPI值之間都具有較強(qiáng)的相關(guān)性;有色金屬行業(yè)領(lǐng)域方面,細(xì)項(xiàng)的輿情指數(shù)與PPI之間也具有強(qiáng)相關(guān)性,進(jìn)一步說明本研究方法的有效性。在這種圖形表示下,特征插補(bǔ)可以自然地表示為節(jié)點(diǎn)級(jí)的預(yù)測(cè)任務(wù),而標(biāo)簽預(yù)測(cè)作為動(dòng)態(tài)圖隨時(shí)間變化的參考依據(jù),構(gòu)造出具備學(xué)習(xí)動(dòng)態(tài)圖結(jié)構(gòu)能力的圖神經(jīng)網(wǎng)絡(luò)框架,并且考慮了數(shù)據(jù)的特征性質(zhì)和標(biāo)簽類型,能更好地利用數(shù)據(jù)信息。僅需要從時(shí)間序列本身提取時(shí)序特征,利用輿情信息所蘊(yùn)含的外部信息作為外生變量的來源對(duì)時(shí)序預(yù)測(cè)模型進(jìn)行修正,從而實(shí)現(xiàn)快捷有效的時(shí)序預(yù)測(cè)。根據(jù)樣本內(nèi)和樣本外預(yù)測(cè)結(jié)果可知,在食品物價(jià)領(lǐng)域中,該預(yù)測(cè)模型的預(yù)測(cè)誤差均為6個(gè)預(yù)測(cè)模型中最低值;而在有色金屬行業(yè)領(lǐng)域中,基于輿情指數(shù)網(wǎng)絡(luò)方法的預(yù)測(cè)效果顯示最佳。

    本研究僅以單變量時(shí)間序列作為CPI預(yù)測(cè)和PPI預(yù)測(cè)的基準(zhǔn)模型進(jìn)行實(shí)證設(shè)計(jì),沒有考慮其他外生變量;在后續(xù)的研究中,將設(shè)計(jì)方法來驗(yàn)證輿情變量是否能夠完全涵蓋其他外生因素對(duì)于目標(biāo)時(shí)間序列的影響。雖然本研究方法具有一般性,但在其他領(lǐng)域應(yīng)用中可能會(huì)需要進(jìn)行模型算法的調(diào)整和改進(jìn),同時(shí)需要進(jìn)一步考慮經(jīng)濟(jì)變量理論上的關(guān)聯(lián)作為網(wǎng)絡(luò)結(jié)構(gòu)生成的約束。

    猜你喜歡
    輿情卷積食品
    國外如何進(jìn)行食品安全監(jiān)管
    基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
    從濾波器理解卷積
    電子制作(2019年11期)2019-07-04 00:34:38
    食品造假必嚴(yán)懲
    基于傅里葉域卷積表示的目標(biāo)跟蹤算法
    輿情
    中國民政(2016年16期)2016-09-19 02:16:48
    竟然被“健康食品”調(diào)戲了這么多年
    Coco薇(2016年7期)2016-06-28 19:07:36
    輿情
    中國民政(2016年10期)2016-06-05 09:04:16
    輿情
    中國民政(2016年24期)2016-02-11 03:34:38
    一種基于卷積神經(jīng)網(wǎng)絡(luò)的性別識(shí)別方法
    临澧县| 淳安县| 徐州市| 临武县| 汾阳市| 锡林郭勒盟| 迁安市| 沅陵县| 温泉县| 元阳县| 萍乡市| 洛隆县| 新平| 绍兴县| 黎川县| 乌鲁木齐县| 朝阳区| 邻水| 洪江市| 丹江口市| 伊吾县| 长宁县| 温宿县| 卢湾区| 汉阴县| 龙山县| 福贡县| 双峰县| 长丰县| 西贡区| 湖口县| 焉耆| 金溪县| 平塘县| 永川市| 孟村| 仪征市| 兴化市| 方山县| 九龙县| 上虞市|