摘 ?要:近年來,網(wǎng)絡(luò)搜索數(shù)據(jù)日益受到重視,它激發(fā)了學(xué)者們利用網(wǎng)絡(luò)搜索數(shù)據(jù)對經(jīng)濟(jì)行為的相關(guān)性研究。本文著重梳理了國內(nèi)網(wǎng)絡(luò)搜索數(shù)據(jù)與CPI的文獻(xiàn),從數(shù)據(jù)的來源、網(wǎng)絡(luò)搜索指數(shù)的合成、模型構(gòu)建方法、研究結(jié)論等方面進(jìn)行了研究,總結(jié)了該領(lǐng)域研究的關(guān)鍵點(diǎn)并對統(tǒng)計部門提出了建議。
關(guān)鍵詞:文獻(xiàn)回顧;網(wǎng)絡(luò)搜索數(shù)據(jù);CPI
基金資助:獲得北京教委科研項目《基于網(wǎng)絡(luò)搜索數(shù)據(jù)的北京CPI的預(yù)測研究》(編號SM201311417008)資助。
一、引言
隨著信息技術(shù)的快速發(fā)展,互聯(lián)網(wǎng)用戶呈逐年遞增趨勢,人們的多種活動從線下逐漸轉(zhuǎn)移到線上,互聯(lián)網(wǎng)用戶的每一次點(diǎn)擊、每一個操作都能夠被記錄下來,形成依托于互聯(lián)網(wǎng)的大數(shù)據(jù),它反映了人們的行為、態(tài)度,一定程度上是現(xiàn)實(shí)世界在網(wǎng)絡(luò)的映射。搜索引擎是互聯(lián)網(wǎng)早期就存在的且直到現(xiàn)在都必不可少的一種應(yīng)用形式,用戶在搜索引擎網(wǎng)站的搜索框里的每一次關(guān)鍵詞或句子的輸入行為都被網(wǎng)站所記錄下來,形成了基于搜索引擎的網(wǎng)絡(luò)搜索數(shù)據(jù),這種類型的數(shù)據(jù)被越來越多的學(xué)者所重視,較早的有利用網(wǎng)絡(luò)搜索數(shù)據(jù)研究失業(yè)率、流感的預(yù)測,之后的研究擴(kuò)展到經(jīng)濟(jì)領(lǐng)域的諸多現(xiàn)象如汽車銷量、游客人數(shù)、股票市場價格等。
居民消費(fèi)價格指數(shù)(CPI)反映的是一個國家的物價水平,衡量的是一個國家的通貨膨脹程度,學(xué)者已經(jīng)在探索如何利用網(wǎng)絡(luò)搜索數(shù)據(jù)構(gòu)建模型,提前一段時間來預(yù)測CPI,有鑒于此,本文旨在梳理國內(nèi)學(xué)者對網(wǎng)絡(luò)搜索數(shù)據(jù)與CPI之間的關(guān)系,從二者關(guān)系的機(jī)理、研究領(lǐng)域、研究方法等方面深入分析,以期為數(shù)據(jù)統(tǒng)計部門能運(yùn)用大數(shù)據(jù)的方式準(zhǔn)確、提早預(yù)測CPI,改變傳統(tǒng)的線下大量人工采集數(shù)據(jù)的方式提供一定的支持。
二、文獻(xiàn)基本情況
本文以“網(wǎng)絡(luò)搜索數(shù)據(jù)”、“搜索數(shù)據(jù)”加上“CPI”、“消費(fèi)者價格指數(shù)”為關(guān)鍵詞,在中國知網(wǎng)上共搜索到14篇中文論文,這些論文發(fā)表的年限主要集中在2012年到2018年,以2017年的論文數(shù)量最多,有5篇,占到了1/3,論文的形式有碩士、博士學(xué)位論文及期刊論文。這些文獻(xiàn)的研究主題多是網(wǎng)絡(luò)搜索數(shù)據(jù)對CPI的預(yù)測研究、二者的關(guān)系研究、關(guān)鍵詞的篩選、方法研究等。
三、網(wǎng)絡(luò)搜索數(shù)據(jù)對CPI的預(yù)測研究
去掉同一作者重復(fù)的研究內(nèi)容或者是不相關(guān)的內(nèi)容,以下對文獻(xiàn)按照發(fā)表年代進(jìn)行梳理。
張崇等(2012)應(yīng)該是國內(nèi)最早研究網(wǎng)絡(luò)搜索數(shù)據(jù)與CPI關(guān)系的,他們認(rèn)為網(wǎng)絡(luò)搜索數(shù)據(jù)是研究宏觀經(jīng)濟(jì)問題的微觀數(shù)據(jù)基礎(chǔ),通過構(gòu)建網(wǎng)絡(luò)搜索數(shù)據(jù)與CPI的概念模型,運(yùn)用Google Insight2004年1月至2009年8月的搜索數(shù)據(jù)及中國國家統(tǒng)計局的CPI數(shù)據(jù),揭示了網(wǎng)絡(luò)搜索數(shù)據(jù)與CPI之間存在的相關(guān)關(guān)系及先行滯后關(guān)系,構(gòu)建的模型能夠提前一個月預(yù)測CPI,并且對CPI轉(zhuǎn)折點(diǎn)有一定的預(yù)測能力。
孫毅(2014)的研究并不是主要針對CPI的,而是尋求構(gòu)建一種比較有效的網(wǎng)絡(luò)搜索指數(shù)合成方法,它以消費(fèi)者物價指數(shù)為例,比較逐步回歸法和主成分分析法在構(gòu)建搜索指數(shù)合成方面哪個更能預(yù)測CPI的走勢,結(jié)果表明主成分分析法是一種比較好的方法。
王睿(2015)根據(jù)互聯(lián)網(wǎng)用戶關(guān)注的重點(diǎn)所對應(yīng)的網(wǎng)絡(luò)搜索行為,把經(jīng)濟(jì)形勢指數(shù)、國家政策指數(shù)和居民消費(fèi)指數(shù)三類百度搜索數(shù)據(jù)進(jìn)行合成,建立搜索數(shù)據(jù)與總CPI、食品類CPI、服務(wù)類CPI的回歸模型,實(shí)證結(jié)果表明居民的不同關(guān)注重點(diǎn)及行為與CPI的變化有不同時長的先行性,對不同類型的CPI的影響也是有差異的。該研究在搜索指數(shù)合成和CPI的類別上有自己的獨(dú)特之處。
董倩(2016)以北京的霧霾經(jīng)濟(jì)為研究對象,利用網(wǎng)絡(luò)搜索指數(shù)研究霧霾經(jīng)濟(jì)與CPI的相關(guān)性。文章選取與霧霾經(jīng)濟(jì)有關(guān)的關(guān)鍵詞,經(jīng)過多次篩選找出四個關(guān)鍵詞,并選取25個月的四個關(guān)鍵詞的百度搜索指數(shù)為自變量,把中國國家統(tǒng)計局網(wǎng)站上的CPI數(shù)據(jù)作為因變量構(gòu)建預(yù)測模型,接著采用3折交叉驗證技術(shù),運(yùn)用支持向量機(jī)和線性回歸兩種方法進(jìn)行模型擬合,擬合結(jié)果表明,支持向量機(jī)的方法擬合結(jié)果與穩(wěn)定性都較好。文章最后認(rèn)為霧霾經(jīng)濟(jì)對CPI的影響是間接的。
董莉等(2017)找出93個關(guān)鍵詞5年半的百度指數(shù)數(shù)據(jù),運(yùn)用Elastic Net懲罰因子的分布滯后模型,構(gòu)建了CPI實(shí)時預(yù)測模型,驗證了全國、城鎮(zhèn)和農(nóng)村的CPI的實(shí)時預(yù)測效果,結(jié)果表明模型的實(shí)時預(yù)測效果比較好。
劉寬斌、張濤(2018)認(rèn)為商品價格變動的信息在不同的媒介平臺上的傳播,激發(fā)了人們對信息不確定性進(jìn)行驗證的心理,而搜索引擎是一個很好的驗證工具,人們對信息越不確定,在搜索引擎上進(jìn)行搜索的行為就越頻繁,因此認(rèn)為網(wǎng)絡(luò)搜索數(shù)據(jù)與CPI是有關(guān)聯(lián)的。文章基于價格決定理論,利用不同數(shù)據(jù)周期長度形成的不同頻率的百度指數(shù),運(yùn)用混頻抽樣數(shù)據(jù)模型 (MIDAS),分析比較日網(wǎng)絡(luò)搜索指數(shù)對月度CPI的預(yù)測模型,實(shí)證結(jié)果表明盡管兩種數(shù)據(jù)的頻率不同,高頻的網(wǎng)絡(luò)搜索數(shù)據(jù)能夠提前半個月預(yù)測CPI并且有較高的預(yù)測精度,同時對CPI趨勢中“拐點(diǎn)”的捕捉有較高的成功率,該方法主要預(yù)測短期CPI趨勢及拐點(diǎn)。
殷三杰(2018)的創(chuàng)新之處在于沒有單獨(dú)利用網(wǎng)絡(luò)搜索數(shù)據(jù)來預(yù)測CPI,而是同時利用政府統(tǒng)計數(shù)據(jù)和網(wǎng)絡(luò)搜索數(shù)據(jù)構(gòu)建模型來預(yù)測CPI。文章首先利用文本挖掘方法及時差相關(guān)分析法篩選關(guān)鍵詞,接著使用逐步回歸分析、Adaptive-Lasso算法、主成分分析三種降維方法進(jìn)行比較,用于選擇變量,之后用訓(xùn)練集和測試集擬合神經(jīng)網(wǎng)絡(luò)模型,構(gòu)建出含有網(wǎng)絡(luò)搜索數(shù)據(jù)的經(jīng)改造的CPI預(yù)測模型,該模型能夠提升CPI的預(yù)測效果。
四、文獻(xiàn)討論
通過對國內(nèi)的相關(guān)研究,本文發(fā)現(xiàn)利用網(wǎng)絡(luò)搜索數(shù)據(jù)對CPI的研究已經(jīng)形成了一定的成果,學(xué)者們普遍利用百度和谷歌的搜索數(shù)據(jù)作為數(shù)據(jù)來源,對網(wǎng)絡(luò)搜索數(shù)據(jù)與CPI的關(guān)系從理論上進(jìn)行了一定程度的論述,在關(guān)鍵詞的篩選、搜索指數(shù)的合成及模型的方法上都有了各種各樣的探討,下面是本文對此類研究關(guān)鍵點(diǎn)的總結(jié)。
(一) 合理選用關(guān)鍵詞
要準(zhǔn)確、提前預(yù)測CPI,關(guān)鍵詞的篩選非常重要,關(guān)鍵詞的篩選可以是利用CPI統(tǒng)計范圍內(nèi)的商品名稱或者是宏觀、微觀等經(jīng)濟(jì)形勢的詞語,隨后是對關(guān)鍵詞的網(wǎng)絡(luò)搜索指數(shù)與CPI的趨勢數(shù)據(jù)進(jìn)行相關(guān)性分析,以確定關(guān)鍵詞和CPI的相關(guān)程度。
(二) 構(gòu)建網(wǎng)絡(luò)搜索合成指數(shù)
關(guān)鍵詞篩選完畢后,要考慮用什么樣的方法構(gòu)建網(wǎng)絡(luò)搜索合成指數(shù),它是構(gòu)建CPI預(yù)測模型時需要明確自變量是什么的一個關(guān)鍵步驟,因為不可能把所有關(guān)鍵詞的網(wǎng)絡(luò)搜索數(shù)據(jù)不經(jīng)過加工直接變成自變量,這樣的自變量無法共同體現(xiàn)CPI的整體趨勢,只能反映一個側(cè)面,會導(dǎo)致模型結(jié)構(gòu)不合理,擬合效果差,因此,有必要構(gòu)建網(wǎng)絡(luò)搜索合成指數(shù)。目前,主要有三種方法,一是簡單加總法,不考慮權(quán)重,直接把不同關(guān)鍵詞的搜索量進(jìn)行簡單加總構(gòu)建網(wǎng)絡(luò)搜索合成指數(shù);二是分類合成法,用不同規(guī)則對關(guān)鍵詞進(jìn)行歸類,比如按照宏觀指標(biāo)或者微觀指標(biāo),或者按照關(guān)鍵詞搜索數(shù)據(jù)的時滯性等進(jìn)行歸類合成;三是降維法,利用關(guān)鍵詞搜索數(shù)據(jù)之間的相關(guān)性,運(yùn)用主成分分析、因子分析等方法進(jìn)行降維,把多個變量降維成幾個因子,并根據(jù)因子在方差累積貢獻(xiàn)率中所占比重計算權(quán)重,這種方法可以通過運(yùn)行軟件得到因子的數(shù)量和權(quán)重的大小,較為客觀。
(三)比較不同模型的適用條件,構(gòu)建預(yù)測模型
利用網(wǎng)絡(luò)搜索數(shù)據(jù)構(gòu)建預(yù)測模型的方法有很多種,例如支持向量機(jī)、時間序列、線性回歸等,各種方法的適用條件不一樣,模型的穩(wěn)定性、擬合效果也不一樣,因此,平常需要注意積累,總結(jié)不同模型的使用界限、擬合效果,以便使用時能夠快速選用。
五、建議
(一)樹立大數(shù)據(jù)思維
在大數(shù)據(jù)時代背景下,數(shù)據(jù)的產(chǎn)生更多的來自于互聯(lián)網(wǎng)用戶自發(fā)自動的行為,而這些行為能夠被信息技術(shù)完全記錄下來,數(shù)據(jù)已經(jīng)成為資產(chǎn),它不僅蘊(yùn)含著巨大財富,也重構(gòu)了我們對世界的認(rèn)識。無論是宏觀還是微觀領(lǐng)域,機(jī)構(gòu)或者組織都必須樹立大數(shù)據(jù)思維,學(xué)會利用網(wǎng)絡(luò)數(shù)據(jù),改變過去傳統(tǒng)模式下數(shù)據(jù)采集、加工、應(yīng)用的方式。
(二)建立新的CPI統(tǒng)計方法,成為標(biāo)準(zhǔn)的制定者
目前CPI統(tǒng)計方法是國際主流的方法,但這不意味著我們不可以進(jìn)行大膽嘗試。國內(nèi)外學(xué)者們已經(jīng)做了大量的研究,可以供統(tǒng)計部門借鑒。我國的統(tǒng)計部門可以借此深入下去,利用傳統(tǒng)數(shù)據(jù)融合互聯(lián)網(wǎng)數(shù)據(jù)或者純粹運(yùn)用互聯(lián)網(wǎng)數(shù)據(jù)的方法來重構(gòu)CPI的統(tǒng)計方法,待該種方法成熟時,向全世界推廣,成為該領(lǐng)域標(biāo)準(zhǔn)的制定者。
參考文獻(xiàn):
[1]張崇,呂本富,彭賡,劉穎.網(wǎng)絡(luò)搜索數(shù)據(jù)與CPI的相關(guān)性研究[J].管理科學(xué)學(xué)報,2012,15(07).
[2]孫毅,戴維,董紀(jì)昌,呂本富.基于主成分分析的網(wǎng)絡(luò)搜索數(shù)據(jù)合成方法研究[J].數(shù)學(xué)的實(shí)踐與認(rèn)識,2014,44(21).
[3]王睿.基于搜索引擎的消費(fèi)者行為對居民消費(fèi)價格指數(shù)的相關(guān)分析[J].現(xiàn)代商業(yè),2015(14).
[4]董倩.基于網(wǎng)絡(luò)搜索數(shù)據(jù)的霧霾經(jīng)濟(jì)與CPI相關(guān)性研究[J].調(diào)研世界,2016(12).
[5]董莉,彭凱越,唐曉彬.大數(shù)據(jù)背景下的CPI實(shí)時預(yù)測研究[J].調(diào)研世界,2017(08).
[6]劉寬斌,張濤.利用網(wǎng)絡(luò)搜索大數(shù)據(jù)實(shí)現(xiàn)對CPI的短期預(yù)報及拐點(diǎn)預(yù)測——基于混頻抽樣數(shù)據(jù)模型的實(shí)證研究[J].當(dāng)代財經(jīng),2018(11).
[7]殷三杰.加入網(wǎng)絡(luò)搜索數(shù)據(jù)的居民消費(fèi)價格指數(shù)預(yù)測[D].西北師范大學(xué),2018.
作者簡介:
付麗麗(1975.02-) ,女,河南鄭州人,博士,講師,北京聯(lián)合大學(xué)商務(wù)學(xué)院,研究方向:互聯(lián)網(wǎng)經(jīng)濟(jì)、企業(yè)管理。