米子川,姜天英
(山西財(cái)經(jīng)大學(xué) 統(tǒng)計(jì)學(xué)院,山西 太原 030006)
?
煤炭大數(shù)據(jù)指數(shù)編制及經(jīng)驗(yàn)?zāi)B(tài)分解模型研究
米子川,姜天英
(山西財(cái)經(jīng)大學(xué) 統(tǒng)計(jì)學(xué)院,山西 太原 030006)
基于開(kāi)放性數(shù)據(jù)源、連續(xù)觀測(cè)昨多變量數(shù)據(jù)編制的大數(shù)據(jù)指數(shù),與傳統(tǒng)的統(tǒng)計(jì)調(diào)查指數(shù)存在的差異不僅在于數(shù)據(jù)本身的無(wú)限擴(kuò)張,而且在于編制方法以及分解研究的規(guī)則、模型方面的差異。在大數(shù)據(jù)背景下,率先嘗試性地提出大數(shù)據(jù)指數(shù)的定義和數(shù)據(jù)假設(shè),將“互聯(lián)網(wǎng)大數(shù)據(jù)指數(shù)”引入煤炭交易價(jià)格指數(shù)綜合編制太原煤炭交易大數(shù)據(jù)指數(shù),從而反映煤炭?jī)r(jià)格的變動(dòng)趨勢(shì);導(dǎo)入經(jīng)驗(yàn)?zāi)B(tài)分解模型,對(duì)所編制的煤炭大數(shù)據(jù)指數(shù)進(jìn)行分解研究,嘗試比較與傳統(tǒng)的統(tǒng)計(jì)調(diào)查指數(shù)的差異。研究表明:新編制的煤炭?jī)r(jià)格大數(shù)據(jù)指數(shù)要比太原煤炭交易價(jià)格指數(shù)更為敏感和迅速,能更好地反映煤炭?jī)r(jià)格的變動(dòng)趨勢(shì)。隨著“互聯(lián)網(wǎng)+”和大數(shù)據(jù)戰(zhàn)略的逐漸普及,基于互聯(lián)網(wǎng)大數(shù)據(jù)編制的綜合指數(shù)會(huì)影響到更多領(lǐng)域,將成為經(jīng)濟(jì)管理和社會(huì)發(fā)展各個(gè)領(lǐng)域的晴雨表和指示器;與傳統(tǒng)統(tǒng)計(jì)調(diào)查指數(shù)逐步融合、互補(bǔ)或者升級(jí),成為宏觀經(jīng)濟(jì)大數(shù)據(jù)指數(shù)的重要組成部分。
煤炭交易;大數(shù)據(jù)指數(shù);EMD模型
“互聯(lián)網(wǎng)+”是當(dāng)今社會(huì)的操作系統(tǒng),指數(shù)是宏觀經(jīng)濟(jì)的晴雨表,基于“互聯(lián)網(wǎng)+”大數(shù)據(jù)編制的統(tǒng)計(jì)指數(shù)則是新經(jīng)濟(jì)和新規(guī)則的儀表盤(pán)。2015年6月12日,基于“互聯(lián)網(wǎng)+”的煤炭大數(shù)據(jù)平臺(tái)在太原中國(guó)煤炭交易中心正式上線,標(biāo)志著宏觀產(chǎn)業(yè)環(huán)境的不斷優(yōu)化正在推動(dòng)中國(guó)大數(shù)據(jù)產(chǎn)業(yè)鏈加速形成。近年來(lái),眾多互聯(lián)網(wǎng)企業(yè)圍繞大數(shù)據(jù)展開(kāi)的技術(shù)研發(fā)、應(yīng)用創(chuàng)新和產(chǎn)業(yè)探索取得了重要進(jìn)展,能源、交通、制造業(yè)、通訊等傳統(tǒng)行業(yè)都在積極利用大數(shù)據(jù)進(jìn)行應(yīng)用創(chuàng)新,大數(shù)據(jù)戰(zhàn)略已經(jīng)成為政府和社會(huì)各行業(yè)的戰(zhàn)略共識(shí)。DanahBoyd等人認(rèn)為大數(shù)據(jù)不僅帶來(lái)了技術(shù)、學(xué)術(shù)和文化上的挑戰(zhàn),而且?guī)?lái)了產(chǎn)業(yè)升級(jí)和經(jīng)濟(jì)趨勢(shì)的改變[1]。在此背景下,如何利用大數(shù)據(jù)并使其為國(guó)家治理、企業(yè)決策乃至個(gè)人生活服務(wù),正在逐漸成為大數(shù)據(jù)應(yīng)用價(jià)值的核心所在,而如何在大數(shù)據(jù)時(shí)代給予傳統(tǒng)統(tǒng)計(jì)指數(shù)以新活力,從而使指數(shù)呈現(xiàn)“大數(shù)據(jù)特性”,則又成為大數(shù)據(jù)指數(shù)應(yīng)用的基本階梯和必然方向。DemchenkoY甚至認(rèn)為大數(shù)據(jù)已經(jīng)成為處理商業(yè)經(jīng)濟(jì)和科學(xué)問(wèn)題的基礎(chǔ)數(shù)據(jù),以大數(shù)據(jù)為核心構(gòu)建的數(shù)據(jù)框架是自然科學(xué)和社會(huì)科學(xué)研究的重要依據(jù)[2]。
一般認(rèn)為,大數(shù)據(jù)指數(shù)是指以基于互聯(lián)網(wǎng)的電子商務(wù)大數(shù)據(jù)、社交網(wǎng)絡(luò)大數(shù)據(jù)和其他類型的社會(huì)經(jīng)濟(jì)大數(shù)據(jù)構(gòu)造的綜合指數(shù),是反映社會(huì)經(jīng)濟(jì)現(xiàn)象發(fā)展變化的趨勢(shì)和強(qiáng)度的一種新型指數(shù),有充分性、敏捷性、連續(xù)性、靈活性和多維性等方面的特點(diǎn)。
大數(shù)據(jù)時(shí)代,各種基于大數(shù)據(jù)和復(fù)雜算法的市場(chǎng)指數(shù)相繼出現(xiàn),基于抽樣調(diào)查的統(tǒng)計(jì)指數(shù)已不能全面反映經(jīng)濟(jì)社會(huì)的運(yùn)行狀況并對(duì)經(jīng)濟(jì)進(jìn)行更加準(zhǔn)確的預(yù)測(cè)。太原煤炭交易價(jià)格指數(shù)是山西煤炭交易市場(chǎng)的方向標(biāo),也是中國(guó)煤炭市場(chǎng)的晴雨表,目前也迎來(lái)了眾多網(wǎng)絡(luò)交易平臺(tái)提供的海量數(shù)據(jù)所帶來(lái)的挑戰(zhàn),因而面臨著煤炭交易價(jià)格指數(shù)樣本量少、數(shù)據(jù)不連續(xù)、存在一定時(shí)滯等問(wèn)題。因此,如何在大數(shù)據(jù)背景下利用有效方法對(duì)煤炭交易數(shù)據(jù)進(jìn)行篩選和處理,并且編制煤炭交易價(jià)格大數(shù)據(jù)指數(shù),使之能及時(shí)準(zhǔn)確地反映煤炭?jī)r(jià)格走勢(shì),實(shí)現(xiàn)煤炭?jī)r(jià)格的發(fā)現(xiàn)功能和指引功能,并對(duì)煤炭市場(chǎng)的變動(dòng)發(fā)展做出前瞻性的預(yù)測(cè),具有十分重要的意義。
統(tǒng)計(jì)學(xué)領(lǐng)域中對(duì)于大數(shù)據(jù)的研究,集中在2012年以來(lái)的學(xué)術(shù)交流、會(huì)議、報(bào)告和學(xué)術(shù)論文中,對(duì)于數(shù)據(jù)分析和統(tǒng)計(jì)指數(shù)的研究已經(jīng)有了一定的成果。徐宗本院士等人認(rèn)為,大數(shù)據(jù)的興起帶來(lái)了理論與實(shí)踐范式、支撐技術(shù)、價(jià)值開(kāi)發(fā)、產(chǎn)業(yè)與生態(tài)系統(tǒng)治理等多方面的重大挑戰(zhàn),需要在基礎(chǔ)理論、工程技術(shù)和人才培養(yǎng)等各個(gè)層面上加以應(yīng)對(duì),還特別提出了大數(shù)據(jù)驅(qū)動(dòng)的四個(gè)重要領(lǐng)域,其中包括大數(shù)據(jù)分析與處理的數(shù)學(xué)與計(jì)算基礎(chǔ),即可以認(rèn)為大數(shù)據(jù)指數(shù)是這方面的重要應(yīng)用之一[3];北京大學(xué)耿直教授在第十五次全國(guó)中青年統(tǒng)計(jì)科學(xué)研討會(huì)上提出了將統(tǒng)計(jì)機(jī)構(gòu)的數(shù)據(jù)作為金標(biāo)準(zhǔn)(即Goldstandard,指臨床醫(yī)學(xué)界用來(lái)診斷疾病的最可靠、最準(zhǔn)確和最常用的標(biāo)準(zhǔn),如組織病理學(xué)檢驗(yàn)、手術(shù)發(fā)現(xiàn)、影像診斷等)和框架,對(duì)互聯(lián)網(wǎng)數(shù)據(jù)進(jìn)行矯正,將互聯(lián)網(wǎng)數(shù)據(jù)作為補(bǔ)充資源對(duì)統(tǒng)計(jì)機(jī)構(gòu)的數(shù)據(jù)進(jìn)行實(shí)時(shí)更新,也許是解決問(wèn)題的一個(gè)思路[4];王元卓等人提出由于網(wǎng)絡(luò)大數(shù)據(jù)的復(fù)雜性、不確定性和涌現(xiàn)性,大數(shù)據(jù)的計(jì)算需要新的模式和范式[5];張崇等人研究了網(wǎng)絡(luò)搜索數(shù)據(jù)與CPI的相關(guān)性,開(kāi)始探索網(wǎng)絡(luò)搜索數(shù)據(jù)與現(xiàn)實(shí)生活中的CPI之間可能存在的一種關(guān)聯(lián)關(guān)系[6];李曉欣、喬晗、陳夢(mèng)根等人都比較集中地研究了利用掃描數(shù)據(jù)編制CPI的方法,開(kāi)始考慮利用行政管理的大數(shù)據(jù)嘗試編制宏觀經(jīng)濟(jì)指數(shù),針對(duì)中國(guó)掃描數(shù)據(jù)的現(xiàn)狀和政府價(jià)格統(tǒng)計(jì)的特點(diǎn)提出了一些利用掃描數(shù)據(jù)編制中國(guó)CPI的思路[7-9];李晉紅、張朋程、劉滿枝等人均提出了煤炭?jī)r(jià)格指數(shù)對(duì)于企業(yè)生產(chǎn)、投資判斷以及預(yù)測(cè)價(jià)格走勢(shì)具有重要意義,強(qiáng)調(diào)在大數(shù)據(jù)背景下對(duì)煤炭?jī)r(jià)格指數(shù)的研究顯得尤為必要[10-12];郭洪偉基于網(wǎng)絡(luò)大數(shù)據(jù)研究了消費(fèi)者信心指數(shù),并通過(guò)電商數(shù)據(jù)、消費(fèi)者情緒數(shù)據(jù)等非結(jié)構(gòu)化數(shù)據(jù)編制了消費(fèi)者信息指數(shù),這是大數(shù)據(jù)指數(shù)編制的一種嘗試,有著重要的實(shí)踐意義和應(yīng)用價(jià)值[13]。
基于生活消費(fèi)理論編制的阿里巴巴全網(wǎng)網(wǎng)購(gòu)價(jià)格指數(shù)(aSPI),是反映阿里巴巴網(wǎng)購(gòu)平臺(tái)上總體消費(fèi)價(jià)格水平變化的綜合統(tǒng)計(jì)指數(shù),是以葉子類目上月成交份額為權(quán)重計(jì)算的每月加權(quán)成交均價(jià)變動(dòng)指數(shù)。它不僅包含了商品層面的一般價(jià)格變動(dòng),而且包含了消費(fèi)者在葉子類目下消費(fèi)結(jié)構(gòu)變動(dòng)的信息。該結(jié)構(gòu)的變動(dòng)衡量了消費(fèi)者對(duì)同一基本分類下高價(jià)商品和低價(jià)商品的相對(duì)選擇替代程度,且該選擇由高價(jià)商品和低價(jià)商品的相對(duì)價(jià)格變動(dòng)、季節(jié)性因素以及網(wǎng)購(gòu)人群收入結(jié)構(gòu)變動(dòng)所驅(qū)動(dòng)。同時(shí),阿里巴巴還同步公布網(wǎng)購(gòu)核心商品價(jià)格指數(shù)(alibabaShoppingPriceIndex-core,aSPI-core),這項(xiàng)指數(shù)是固定籃子價(jià)格指數(shù),通過(guò)創(chuàng)新的篩選算法圈定阿里零售平臺(tái)上近五百個(gè)基本分類下接近10萬(wàn)種核心商品作為固定“籃子”,每月追蹤該籃子內(nèi)商品和服務(wù)實(shí)際網(wǎng)購(gòu)成交價(jià)格變化,以刻畫(huà)網(wǎng)購(gòu)主流商品和服務(wù)的一般價(jià)格波動(dòng),并從網(wǎng)絡(luò)零售渠道反映宏觀物價(jià)走勢(shì)。然而,這種設(shè)計(jì)也存在一定的缺陷,即由于產(chǎn)品更新速度快,新產(chǎn)品從上市到暢銷(xiāo)階段存在一定的溢價(jià),隨著替代品的增加,溢價(jià)會(huì)逐漸降低,使固定籃子指數(shù)在長(zhǎng)期有可能會(huì)低估消費(fèi)支出成本的上升趨勢(shì)。
大數(shù)據(jù)指數(shù)的編制是以傳統(tǒng)統(tǒng)計(jì)調(diào)查指數(shù)為基礎(chǔ)計(jì)算而來(lái),但同時(shí)也有與傳統(tǒng)統(tǒng)計(jì)調(diào)查指數(shù)諸多的不同之處。就目前網(wǎng)絡(luò)大數(shù)據(jù)指數(shù)的發(fā)展情況,可將其總結(jié)定義為兩大趨勢(shì):一是以新興電商為代表的可連續(xù)更新的覆蓋全部交易數(shù)據(jù)的微觀指數(shù),具有代表性的有阿里巴巴系列價(jià)格指數(shù)、百度指數(shù)、大數(shù)據(jù)300指數(shù)等;二是由于傳統(tǒng)統(tǒng)計(jì)調(diào)查指數(shù)尚無(wú)法達(dá)到連續(xù)更新的特點(diǎn),故考慮在統(tǒng)計(jì)調(diào)查指數(shù)的基礎(chǔ)上將行政管理記錄等大數(shù)據(jù)資源引入其中,使其具有大數(shù)據(jù)特性(見(jiàn)表1)。
本文以太原煤炭交易價(jià)格指數(shù)為研究對(duì)象,同時(shí)引入“網(wǎng)絡(luò)大數(shù)據(jù)指數(shù)”,包括煤炭?jī)r(jià)格、百度指數(shù)和原煤阿里指數(shù),從而使其具有“大數(shù)據(jù)的特性”,構(gòu)造太原煤炭?jī)r(jià)格大數(shù)據(jù)指數(shù),將大數(shù)據(jù)指數(shù)與太原煤炭交易綜合價(jià)格指數(shù)進(jìn)行對(duì)比研究,得出驗(yàn)證性結(jié)論和研究建議。
表1 大數(shù)據(jù)指數(shù)與統(tǒng)計(jì)調(diào)查指數(shù)比較表
(一)數(shù)據(jù)選取
依據(jù)上文提到的三個(gè)變量:太原煤炭交易價(jià)格指數(shù)(X1t)、原煤阿里指數(shù)(X2t)和煤炭?jī)r(jià)格百度指數(shù)(X3t),其來(lái)源分別為中國(guó)(太原)煤炭交易中心、阿里指數(shù)和百度指數(shù)。數(shù)據(jù)周期為周數(shù)據(jù),本文選取時(shí)間從2014年6月27日至2015年6月12日,共48周的數(shù)據(jù)進(jìn)行建模分析(不包括法定節(jié)假日的數(shù)據(jù))。嘗試通過(guò)對(duì)煤炭大數(shù)據(jù)指數(shù)的編制來(lái)反映近一年煤炭交易價(jià)格的變動(dòng)情況,從而探索煤炭大數(shù)據(jù)指數(shù)的適用性和不足。
(二)數(shù)據(jù)處理
1.數(shù)據(jù)標(biāo)準(zhǔn)化。由于太原煤炭交易價(jià)格指數(shù)、原煤阿里指數(shù)和煤炭?jī)r(jià)格百度指數(shù)三者數(shù)據(jù)的量綱不同,故首先對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理。采用的方法是離差標(biāo)準(zhǔn)化,即使標(biāo)準(zhǔn)化后的數(shù)據(jù)落入[0,1]區(qū)間,采用的公式為:
(i=1,2,…,m;t=1,2,…,n)
(1)
其中xit表示原始數(shù)據(jù),min{xit}表示原始數(shù)據(jù)中的最小值,max{xit}表示原始數(shù)據(jù)中的最大值,yit表示標(biāo)準(zhǔn)化后的數(shù)據(jù),且其屬于[0,1]區(qū)間。經(jīng)過(guò)標(biāo)準(zhǔn)化處理后,三個(gè)變量數(shù)據(jù)均屬于[0,1]區(qū)間,且基本上消除了量綱影響。
2.數(shù)據(jù)加權(quán)。數(shù)據(jù)的加權(quán)方法很多,由于本文新指標(biāo)的特殊性,故以太原煤炭交易價(jià)格指數(shù)為基準(zhǔn),分別求原煤阿里指數(shù)和煤炭?jī)r(jià)格百度指數(shù)與太原煤炭交易價(jià)格指數(shù)的相關(guān)系數(shù),并在此基礎(chǔ)上確定三者的權(quán)重,具體計(jì)算方法為:
第一步:計(jì)算三個(gè)變量與太原煤炭交易價(jià)格指數(shù)的相關(guān)系數(shù)。通過(guò)相關(guān)系數(shù)的計(jì)算公式,所得結(jié)果為:r1=1,r2=0.32,r3=0.02(r1表示太原煤炭交易價(jià)格指數(shù)與自身的相關(guān)系數(shù),r2表示太原煤炭交易價(jià)格指數(shù)與原煤阿里指數(shù)的相關(guān)系數(shù),r3表示太原煤炭交易價(jià)格指數(shù)與百度煤炭?jī)r(jià)格指數(shù)的相關(guān)系數(shù))。從相關(guān)系數(shù)中可以簡(jiǎn)要得出,以“煤炭?jī)r(jià)格”為搜索詞的百度指數(shù)對(duì)太原煤炭交易價(jià)格指數(shù)的影響較原煤阿里指數(shù)的影響較小,這與原煤阿里指數(shù)為采購(gòu)指數(shù)有關(guān);而百度指數(shù)僅反映其搜索量的信息,表現(xiàn)為一種關(guān)注強(qiáng)度,但為了更為全面地反映大數(shù)據(jù)指數(shù),將二者均包括在內(nèi)進(jìn)行計(jì)算。
第二步:確定權(quán)重。根據(jù)第一步中的相關(guān)系數(shù),確定各序列的權(quán)重,即:
(2)
通過(guò)以上數(shù)據(jù)標(biāo)準(zhǔn)化和確定權(quán)重兩個(gè)步驟,得到煤炭交易價(jià)格大數(shù)據(jù)指數(shù)。下文將對(duì)該指數(shù)進(jìn)行建模,通過(guò)構(gòu)建模型分析該指數(shù)的一些特征,并通過(guò)與統(tǒng)計(jì)調(diào)查指數(shù)的對(duì)比來(lái)反映該指數(shù)的優(yōu)勢(shì)。
(一)新序列Yt的組合與分解
通過(guò)以上步驟對(duì)數(shù)據(jù)進(jìn)行處理之后,可以得到一個(gè)新的序列Yt(=w1*X1t+w2*X2t+w3*X3t=P1t+P2t)。由于P1t(即w1*X1t)屬于傳統(tǒng)統(tǒng)計(jì)調(diào)查指數(shù)部分,P2t(即w2*X2t+w3*X3t)屬于互聯(lián)網(wǎng)實(shí)時(shí)更新數(shù)據(jù)部分,且從圖1和圖2上可以看出,P1t有較為明顯的下降趨勢(shì),P2t則顯示了較為劇烈的波動(dòng),故將其分開(kāi)進(jìn)行研究。
圖1 P1t時(shí)序圖
圖2 P2t時(shí)序圖
1.對(duì)序列P1t的分解。從圖1可以看出,序列P1t具有顯著的下行趨勢(shì),故考慮采用組合模型,對(duì)其進(jìn)行分解,組合模型對(duì)原序列分析的基本思想是將原序列分解為兩部分:其一為趨勢(shì)部分,用某一函數(shù)進(jìn)行擬合;其二是殘差項(xiàng),即波動(dòng)部分,這樣分解可以更好地反映出原序列的變動(dòng)情況,其具體步驟如下:
第一步:確定序列P1t與時(shí)間t的關(guān)系。通過(guò)序列與時(shí)間的散點(diǎn)圖可以得出,序列具有明顯的下降趨勢(shì),擬采用組合模型對(duì)其進(jìn)行擬合,其中函數(shù)采用指數(shù)函數(shù)和二次函數(shù)共同表示,即:
(3)
第二步:進(jìn)行回歸解釋。對(duì)原序列用指數(shù)函數(shù)和二次函數(shù)擬合,結(jié)果得出:
P1t=0.91exp{-0.19t}+0.05t-0.001t2
t(14.33) (-9.22) (33.28)(-27.44)
(4)
從結(jié)果可以看出,在顯著性水平為5%的條件下,模型的可決系數(shù)達(dá)到92.6%,調(diào)整后的可決系數(shù)達(dá)到92.1%,模型F值為72.05,表明模型擬合較好且均通過(guò)t檢驗(yàn)。
第三步:殘差項(xiàng)確定。通過(guò)前兩步,用原序列將擬合的序列減去,即可得到波動(dòng)項(xiàng)N1t。
2.P2t序列的分解。通過(guò)圖2可以看出,序列P2t波動(dòng)幅度較大,故考慮用經(jīng)驗(yàn)?zāi)B(tài)分解(Empirical Mode Decomposition, EMD)對(duì)序列進(jìn)行分解。經(jīng)驗(yàn)?zāi)B(tài)分解對(duì)于研究非平穩(wěn)序列具有優(yōu)勢(shì),其可將原序列分解為不同頻率的本征模函數(shù)(IMF,頻率依次遞減)和趨勢(shì)項(xiàng)。
本文擬將所有的本征模函數(shù)加總,共同表示序列P2t的波動(dòng)部分,剩余部分則為趨勢(shì)項(xiàng)。圖3為序列P2t的EMD分解結(jié)果。從圖3中可以看出,前5行即為IMF1-5,且其頻率依次遞減,最后一行為趨勢(shì)項(xiàng)T2t。通過(guò)將IMF1-5加總,得到波動(dòng)部分R2t,最終可得P2t=T2t+R2t。
圖3 EMD分解結(jié)果圖
3.小結(jié)。通過(guò)對(duì)P1t和P2t的分解結(jié)果得出二者各自的趨勢(shì)項(xiàng)和波動(dòng)項(xiàng),故將二者的趨勢(shì)部分和波動(dòng)部分分別相加,得到序列Yt的趨勢(shì)項(xiàng)(At)和波動(dòng)項(xiàng)(Bt),即:
(5)
最終將序列Yt表示為趨勢(shì)項(xiàng)At和波動(dòng)項(xiàng)Bt,其時(shí)序圖見(jiàn)圖4。
圖4 At和Bt時(shí)序圖
通過(guò)對(duì)序列Yt的分解結(jié)果可以得出其趨勢(shì)部分At具有明顯的拐點(diǎn):第一個(gè)拐點(diǎn)出現(xiàn)的時(shí)間為2014年8月中旬,在這一時(shí)間之后,煤炭交易價(jià)格大數(shù)據(jù)指數(shù)出現(xiàn)上升趨勢(shì),但是這一趨勢(shì)的增幅較為平緩,呈現(xiàn)這一趨勢(shì)的主要原因是后半年煤炭市場(chǎng)進(jìn)入旺季,對(duì)煤炭的需求量變大,對(duì)煤炭?jī)r(jià)格的關(guān)注度提升;第二個(gè)拐點(diǎn)的時(shí)間處于2015年1月初,這一時(shí)間之后煤炭交易價(jià)格大數(shù)據(jù)指數(shù)出現(xiàn)較為迅速的下行態(tài)勢(shì),主要原因有四個(gè):一是市場(chǎng)即將進(jìn)入淡季,煤炭需求減少,導(dǎo)致指數(shù)呈現(xiàn)下行趨勢(shì);二是中國(guó)經(jīng)濟(jì)進(jìn)入新常態(tài),工業(yè)生產(chǎn)增速放緩,火力發(fā)電的需煤量減少,作為工業(yè)能源的煤炭交易價(jià)格下行;三是中國(guó)政府環(huán)保壓力的增大,煤炭產(chǎn)業(yè)在缺少國(guó)家層面政策支持的情況下,煤炭?jī)r(jià)格開(kāi)始持續(xù)下降;四是在2014年12月份山西省出臺(tái)了一系列的煤焦公路運(yùn)銷(xiāo)改革措施,從而對(duì)煤炭交易價(jià)格的下降有著較強(qiáng)烈的影響,而且這一因素對(duì)基于太原煤炭交易價(jià)格綜合指數(shù)構(gòu)建的煤炭大數(shù)據(jù)指數(shù)的下行拐點(diǎn)起著主要影響。對(duì)其波動(dòng)部分,可將其解釋為隱性因素的影響,即無(wú)法進(jìn)行深度量化分析的因素,主要包括來(lái)自其他市場(chǎng)的影響、消費(fèi)者心理的影響因素和決策因素以及煤炭企業(yè)自身的發(fā)展因素等。
(二)新序列Yt與原序列X1t的對(duì)比研究
通過(guò)以上的研究,將新序列Yt分解為趨勢(shì)項(xiàng)和波動(dòng)項(xiàng),通過(guò)圖5可以看出序列Yt與序列X1t間存在較大差異,相比之下序列Yt波動(dòng)幅度較大,而序列X1t則較為平緩,主要原因是:Yt的波動(dòng)幅度是由于引入了阿里指數(shù)與百度指數(shù)這一互聯(lián)網(wǎng)實(shí)時(shí)指數(shù)的影響,因?yàn)榛ヂ?lián)網(wǎng)大數(shù)據(jù)是由海量用戶的網(wǎng)絡(luò)實(shí)時(shí)行為產(chǎn)生,所以引入這些互聯(lián)網(wǎng)指數(shù)構(gòu)建的煤炭?jī)r(jià)格大數(shù)據(jù)指數(shù)對(duì)煤炭?jī)r(jià)格的反應(yīng)更為靈敏,其波動(dòng)性也越強(qiáng)。如圖5所示,在時(shí)間2014年8月中旬到2015年1月初的這一時(shí)間段內(nèi),原序列X1t的變動(dòng)平緩而新構(gòu)建的序列Yt有著顯著的二次函數(shù)特征,這一特征出現(xiàn)的主要原因是互聯(lián)網(wǎng)對(duì)煤炭?jī)r(jià)格關(guān)注度的變動(dòng)引起的,從2014年8月中旬到2014年11月初,由于冬季供暖用煤量?jī)?chǔ)備的需求,煤炭交易進(jìn)入旺季,對(duì)煤炭?jī)r(jià)格的網(wǎng)絡(luò)關(guān)注度增加而使序列Yt持續(xù)上升,從2014年11月初到2015年1月煤炭?jī)r(jià)格的關(guān)注度回落,序列Yt開(kāi)始呈現(xiàn)下行趨勢(shì)。
筆者認(rèn)為這種波動(dòng)幅度的變大,可以更好地反應(yīng)煤炭?jī)r(jià)格的變動(dòng)情況以及反映煤炭市場(chǎng)的行情趨向。
圖5 序列Yt與X1t時(shí)序圖
1.序列X1t的擬合。類比(一)中的對(duì)P1t的擬合方法,對(duì)序列X1t仍采用組合模型進(jìn)行擬合,其具體結(jié)果為:
第一步,確定序列X1t與時(shí)間t的關(guān)系。通過(guò)序列與時(shí)間的散點(diǎn)圖可以得出序列具有明顯的趨勢(shì),擬采用組合模型對(duì)其進(jìn)行擬合,其中函數(shù)采用指數(shù)函數(shù)和二次函數(shù)共同表示,即:
(6)
第二步,進(jìn)行回歸解釋。通過(guò)對(duì)原序列用指數(shù)函數(shù)和二次函數(shù)擬合,結(jié)果得出:
Xit=1.21exp{-0.19t}+0.07t-0.001 5t2
t(14.34)(-9.25)(33.65)(-27.73)
(7)
從結(jié)果可以看出,在顯著性水平為5%的條件下,模型的可決系數(shù)達(dá)到92.5%,調(diào)整后的可決系數(shù)達(dá)到92.1%,模型F值為58.31,表明模型擬合較好且各變量均通過(guò)t檢驗(yàn)。
通過(guò)組合模型的擬合,也可將序列X1t分解為趨勢(shì)部分和波動(dòng)部分,而后將序列Yt和X1t的趨勢(shì)部分進(jìn)行對(duì)比,研究二者的同步性。
2.序列Yt和X1t的趨勢(shì)項(xiàng)同步性研究。本文采用同步系數(shù)法對(duì)兩個(gè)模型中的序列進(jìn)行同步性研究。該方法相比于相關(guān)系數(shù)法而言,不存在信息遺漏的問(wèn)題且對(duì)于序列特征亦無(wú)要求。同步系數(shù)是為了測(cè)量?jī)蓚€(gè)時(shí)間序列數(shù)據(jù)在對(duì)應(yīng)相鄰數(shù)據(jù)變化的一致性的指標(biāo),在滿足基本的計(jì)算原則下,同步系數(shù)法可歸結(jié)為:
1)假設(shè)有兩個(gè)時(shí)間序列變量:Xt和Yt(t相同),將Xt作為基序列。
2)分別對(duì)Xt和Yt進(jìn)行差分,比較二者在相同時(shí)間的差分方向是否一致,當(dāng)方向相同時(shí)記m=1,否則m=0。
3)對(duì)m進(jìn)行求和,得到M(0≤M≤n-1),利用同步系數(shù)的計(jì)算公式求得rr(0≤rr≤1),計(jì)算公式為:
(8)
且其規(guī)定:當(dāng)0≤rr≤0.5時(shí),說(shuō)明計(jì)算的兩個(gè)序列之間的同步性較差,表現(xiàn)為異步性較多;當(dāng)0.5 通過(guò)以上同步系數(shù)法的檢驗(yàn),得到rr的值為0.936,依據(jù)其原則可以得出序列Yt和X1t的趨勢(shì)項(xiàng)具有較強(qiáng)的同步性,并在一定程度上說(shuō)明對(duì)于整體序列,二者在其可見(jiàn)影響因素的影響下具有一定的同步性,這也從一個(gè)側(cè)面反映了新序列Yt的可解釋性和合理性。 3.序列Yt和X1t的波動(dòng)項(xiàng)研究。從圖6中可以看出,序列Yt的波動(dòng)項(xiàng)較序列X1t的波動(dòng)項(xiàng)波動(dòng)幅度更大,這主要是由于新序列Yt中的影響因素涉及面更廣,包括了大數(shù)據(jù)時(shí)代下的網(wǎng)絡(luò)實(shí)時(shí)數(shù)據(jù)。 通過(guò)以上對(duì)序列Yt和序列X1t的對(duì)比分析,在一定程度上可以認(rèn)為本文編制的大數(shù)據(jù)指數(shù)較之前的煤炭交易價(jià)格指數(shù)涉及面更為廣泛,且在其趨勢(shì)部分二者具有同步性,證明了新的煤炭大數(shù)據(jù)指數(shù)有其存在的合理性;且煤炭大數(shù)據(jù)指數(shù)的波動(dòng)部分能更好地包含其他不可控因素和消費(fèi)者的心理行為等因素,并能從側(cè)面反映出消費(fèi)者對(duì)煤炭關(guān)注度的時(shí)間段,可為煤炭的需求提供部分信息?;诖?,筆者認(rèn)為當(dāng)前構(gòu)建的大數(shù)據(jù)指數(shù)較傳統(tǒng)的太原煤炭交易價(jià)格指數(shù),能更好地適應(yīng)大數(shù)據(jù)時(shí)代和更好地反映煤炭?jī)r(jià)格的變化。 圖6 序列Yt和X1t波動(dòng)部分時(shí)序圖 (一)研究結(jié)論 煤炭交易價(jià)格大數(shù)據(jù)指數(shù)的編制原理,是在傳統(tǒng)價(jià)格指數(shù)中引入互聯(lián)網(wǎng)上反映關(guān)注煤炭?jī)r(jià)格的相關(guān)搜索、引用、評(píng)論和轉(zhuǎn)載的數(shù)據(jù),革新了統(tǒng)計(jì)指數(shù)的編制方法,對(duì)煤炭?jī)r(jià)格可以有更為清晰、直觀和全面的反映?;谇拔牡难芯浚贸鲆韵陆Y(jié)論:一是本文所構(gòu)造的大數(shù)據(jù)指數(shù)具有較好的可解釋性。大數(shù)據(jù)指數(shù)與傳統(tǒng)統(tǒng)計(jì)調(diào)查指數(shù)的趨勢(shì)項(xiàng)在一定范圍內(nèi)存在同向發(fā)展趨勢(shì),二者同步性特征較為顯著;二是大數(shù)據(jù)指數(shù)的涉及面更廣泛。大數(shù)據(jù)指數(shù)包含了傳統(tǒng)統(tǒng)計(jì)調(diào)查無(wú)法涉及的“網(wǎng)絡(luò)大數(shù)據(jù)指數(shù)”,可以更為全面地反映煤炭交易的諸多構(gòu)造面及影響因素;三是通過(guò)對(duì)太原煤炭?jī)r(jià)格指數(shù)的研究表明,近期煤炭?jī)r(jià)格仍處于不斷下行狀態(tài),煤炭市場(chǎng)不斷萎縮,未來(lái)仍需探求煤炭市場(chǎng)供需關(guān)系的發(fā)展以及國(guó)家能源政策的扶持。 (二)方法論方面的改進(jìn)與設(shè)想 本文作為大數(shù)據(jù)指數(shù)編制的初探,其方法、指標(biāo)選擇、權(quán)重設(shè)計(jì)和數(shù)據(jù)采集都還很不成熟:第一,對(duì)大數(shù)據(jù)指數(shù)的定義仍有待完善。本文嘗試性地歸納給出大數(shù)據(jù)指數(shù)的定義,具有一定的主觀性,后續(xù)研究應(yīng)對(duì)其進(jìn)行不斷地修改和完善;第二,指標(biāo)引入的代表性問(wèn)題尚沒(méi)有解決。本文的變量引入僅將與太原煤炭交易價(jià)格指數(shù)有關(guān)的原煤阿里指數(shù)和煤炭?jī)r(jià)格百度指數(shù)引入,由于技術(shù)和數(shù)據(jù)的限制,其代表性并不強(qiáng),并且涉及的范圍較窄,很難全面反映相關(guān)指數(shù)的所有情況,同時(shí)阿里指數(shù)和百度指數(shù)尚處在高速發(fā)展階段,數(shù)據(jù)的有效性也需進(jìn)一步討論;第三,在形成新指數(shù)的過(guò)程中,數(shù)據(jù)處理存在一定的局限性。在構(gòu)建煤炭交易價(jià)格大數(shù)據(jù)指數(shù)的過(guò)程中,各指數(shù)的權(quán)重確定還需一定的理論支撐以及優(yōu)化方法的引入,本文只是利用簡(jiǎn)單的系數(shù)加權(quán)法來(lái)賦予變量權(quán)重;第四,大數(shù)據(jù)抽樣的樣本量過(guò)少。由于阿里指數(shù)和百度指數(shù)等大數(shù)據(jù)條件下的實(shí)時(shí)數(shù)據(jù)起步較晚,時(shí)間區(qū)間較短,因此本文的樣本量較少,很難對(duì)總體做出準(zhǔn)確有效的描述、分析與推斷。 基于以上模型的不足之處,在之后的研究中可進(jìn)行適當(dāng)?shù)馗纳疲旱谝?,增加指?shù)編制的樣本量。樣本量對(duì)于總體推斷具有決定性的作用,適當(dāng)?shù)卦黾訕颖玖靠善鸬教岣吖烙?jì)精度和擬合優(yōu)度的效果;第二,引入更具代表性的變量以及范圍更為廣泛的變量。對(duì)于大指數(shù)的構(gòu)建,可更多地引入“網(wǎng)絡(luò)數(shù)據(jù)指數(shù)”等變量,但并不是無(wú)限制的引入,在變量的引入過(guò)程中需進(jìn)行變量的特征選擇。在大數(shù)據(jù)時(shí)代,傳統(tǒng)統(tǒng)計(jì)調(diào)查指數(shù)的轉(zhuǎn)型仍需借助當(dāng)前新興的數(shù)據(jù)存儲(chǔ)和提取技術(shù)與大數(shù)據(jù)有關(guān)的實(shí)時(shí)數(shù)據(jù),所以引入諸如阿里指數(shù)、百度指數(shù)等代表性較強(qiáng)的變量,對(duì)于構(gòu)建大數(shù)據(jù)指數(shù)具有指向性作用;從另一側(cè)面,可以將如阿里指數(shù)和百度指數(shù)進(jìn)行因素交互影響研究,如心理因素和行為因素等;第三,建立一套完備的引入變量的機(jī)制和原則等。在當(dāng)前錯(cuò)綜復(fù)雜的數(shù)據(jù)浪潮中,如何有效地利用實(shí)時(shí)數(shù)據(jù)是一個(gè)亟需解決的問(wèn)題,建立一套合理引入網(wǎng)絡(luò)數(shù)據(jù)的標(biāo)準(zhǔn),對(duì)于構(gòu)建大數(shù)據(jù)指數(shù)具有決定性作用;第四,對(duì)于大數(shù)據(jù)指數(shù)的定義。大數(shù)據(jù)指數(shù)的定義具有主觀性,在以后的研究中應(yīng)立足尋找其成立的理論支撐,同時(shí)應(yīng)該結(jié)合大數(shù)據(jù)固有的特征,探索新的算法模型來(lái)進(jìn)行大數(shù)據(jù)指數(shù)的編制;第五,對(duì)于煤炭交易價(jià)格指數(shù),可將其作為掃描數(shù)據(jù)的一種,并將其分為三類:一類是基于傳統(tǒng)價(jià)格網(wǎng)點(diǎn)的調(diào)查數(shù)據(jù),二類是在信息化高速發(fā)展的條件下加入電子計(jì)價(jià)單位的實(shí)時(shí)交易數(shù)據(jù),三類即為引入與研究變量息息相關(guān)的反映心理和行為等因素的網(wǎng)絡(luò)大數(shù)據(jù);第六,在大數(shù)據(jù)指數(shù)構(gòu)建之后,可將其與宏觀經(jīng)濟(jì)指標(biāo)進(jìn)行綜合分析,更進(jìn)一步地反映其合理性。 在大數(shù)據(jù)時(shí)代,大數(shù)據(jù)指數(shù)的出現(xiàn)給予政府統(tǒng)計(jì)以新思路,而如何合理合法地將當(dāng)前各種復(fù)雜的網(wǎng)絡(luò)數(shù)據(jù)有效導(dǎo)入傳統(tǒng)調(diào)查指數(shù)中,以更好反映其經(jīng)濟(jì)意義以及簡(jiǎn)化工作流程、減少成本,達(dá)到效用最大化,則是大數(shù)據(jù)時(shí)代傳統(tǒng)統(tǒng)計(jì)調(diào)查面臨的新課題。從宏觀經(jīng)濟(jì)、社會(huì)發(fā)展和政府管理的角度出發(fā),如何將大數(shù)據(jù)指數(shù)納入到現(xiàn)行的統(tǒng)計(jì)調(diào)查指數(shù)系列中,有效融合各自的優(yōu)勢(shì)和特長(zhǎng),面向全社會(huì)開(kāi)展積極有效的指數(shù)服務(wù),才是最重要的發(fā)展目標(biāo)。 [1]BoydD,CrawfordK.CriticalQuestionforBigData:ProvocationsforaCulturalTechnologicalandScholarlyPhenomenon[J].InformationCommunication&Society, 2012, 15(5). [2]DemchenkoY,GrossoP,deLaatC,etal.AddressingBigDataIssuesinScientificDataInfrastructure[R].InternationalConferenceonCollaborationTechnologies&SystemsSanDiegoCaliforniaUsaMayProceedings, 2013. [3]徐宗本,馮芷艷,郭迅華,曾大軍,陳國(guó)青.大數(shù)據(jù)驅(qū)動(dòng)的管理與決策前沿課題[J].管理世界, 2014(11). [4]耿直.大數(shù)據(jù)時(shí)代統(tǒng)計(jì)學(xué)面臨的機(jī)遇與挑戰(zhàn)[R].天津:第十五次全國(guó)中青年統(tǒng)計(jì)科學(xué)研討會(huì),2014. [5]王元卓,靳小龍,程學(xué)旗. 網(wǎng)絡(luò)大數(shù)據(jù):現(xiàn)狀與展望[J]. 計(jì)算機(jī)學(xué)報(bào), 2013(6). [6]張崇, 呂本富, 彭賡,等. 網(wǎng)絡(luò)搜索數(shù)據(jù)與CPI的相關(guān)性研究[J]. 管理科學(xué)學(xué)報(bào), 2012(7). [7]李曉欣. 大數(shù)據(jù)時(shí)代中國(guó)CPI調(diào)查與編制問(wèn)題研究[J]. 價(jià)格理論與實(shí)踐, 2014(10). [8]喬晗.大數(shù)據(jù)背景下利用掃描數(shù)據(jù)編制中國(guó)CPI問(wèn)題研究[J].統(tǒng)計(jì)與信息論壇, 2014(2). [9]陳夢(mèng)根,劉浩. 大數(shù)據(jù)對(duì)CPI統(tǒng)計(jì)的影響及方法改進(jìn)研究[J]. 統(tǒng)計(jì)與信息論壇, 2015(6). [10]李晉紅. 建立山西煤炭?jī)r(jià)格指數(shù)的背景和必要性分析[J]. 中北大學(xué)學(xué)報(bào):社會(huì)科學(xué)版, 2010(1). [11]張朋程.CR中國(guó)煤炭?jī)r(jià)格指數(shù)研究[J]. 煤炭經(jīng)濟(jì)研究, 2012(11). [12]劉滿芝,高曉峰. 中國(guó)煤炭需求波動(dòng)規(guī)律研究[J]. 資源科學(xué), 2013(4). [13]郭洪偉. 基于網(wǎng)絡(luò)大數(shù)據(jù)的消費(fèi)者信心指數(shù)編制[J].統(tǒng)計(jì)與信息論壇, 2015(6). TheBigDataIndexCompilingofCoalandtheResearchofEMDModels MIZi-chuan,JIANGTian-ying (SchoolofStatistics,ShanxiUniversityofFinance&Economics,Taiyuan030006,China) Basedonopendatasource,continuousobservationandmultivariatedataestablishment,thebigdataindexshowsacoupleofdifferenceswithtraditionalstatisticalsurveyindexintermsofunlimitedexpansionofdataitself,indexinganddecompositionmethodsaswellasdifferentresearchapproaches.Inthelightofbigdata,thispapertakestheleadintryingtoputforwardthedefinitionofbigdataindexanddatahypothesis,thenintroducing"internetbigdataindex"intoCTPI(CoalTransactionPriceIndex)inordertosyntheticallycompileabigdataindexofcoaltradinginTaiyuan,whichisexpectedtodepictthechangingtendencyofcoalprice.ThispaperadoptEMD(EmpiricalModeDecomposition)modelfordecompositionresearchofthealready-madebigdataindexcoaltransaction,intendingtocompareitwiththeonemadethroughtraditionalstatisticalsurvey.ThestudyshowsthatthebigdataindexofcoalpriceismoresensitiveandrapidthanCTPIinreflectingthechangingtendencyofcoalprice.Withtheincreasingpopularityof"InternetPlus"andStrategyofBigData,comprehensiveindexbasedontheinternetbigdatawillaffectmoreandmorefields,becomingabarometerandindicatorofeconomicmanagementandallotherfieldsofsocialdevelopment,graduallyreplacingorturningintoavitalsupplementoftraditionalstatisticalsurveyindex. coaltrade;bigdataindex;EMDmodel 2016-03-29;修復(fù)日期:2016-06-08 全國(guó)統(tǒng)計(jì)科學(xué)重點(diǎn)研究課題《基于移動(dòng)通信大數(shù)據(jù)的流動(dòng)人口精細(xì)化挖掘研究》(2015433);山西省高等學(xué)校哲學(xué)社會(huì)科學(xué)研究項(xiàng)目《晉商商業(yè)遺產(chǎn)研究》(2013325);山西省統(tǒng)計(jì)學(xué)會(huì)課題《城市流動(dòng)人口的大數(shù)據(jù)測(cè)度方法研究》(KY[2015]008) 米子川,男,山西祁縣人,統(tǒng)計(jì)學(xué)博士,副教授,碩士生導(dǎo)師,研究方向:應(yīng)用統(tǒng)計(jì)學(xué),抽樣調(diào)查與數(shù)據(jù)分析; F224.0 A 1007-3116(2016)08-0071-07 (責(zé)任編輯:郭詩(shī)夢(mèng)) 姜天英,女,山東煙臺(tái)人,碩士生,研究方向:應(yīng)用統(tǒng)計(jì)學(xué)與大數(shù)據(jù)指數(shù)分析。 【統(tǒng)計(jì)應(yīng)用研究】五、研究結(jié)論