李紹泰,劉建平
(1.中共臨海市委黨校 科研室,浙江 臨海 317000;2.懷化學(xué)院 商學(xué)院,湖南 懷化 418000)
大數(shù)據(jù)為CPI(消費(fèi)者價(jià)格指數(shù))編制帶來了新機(jī)遇,如何利用價(jià)格大數(shù)據(jù)改進(jìn)CPI編制的理論和方法成為經(jīng)濟(jì)統(tǒng)計(jì)領(lǐng)域的研究熱點(diǎn)。價(jià)格大數(shù)據(jù)中的超市掃描數(shù)據(jù)、電商數(shù)據(jù)、通信賬單數(shù)據(jù)等電子數(shù)據(jù)是新的統(tǒng)計(jì)數(shù)據(jù)來源,是目前少數(shù)幾個(gè)具備操作性和實(shí)用性的大數(shù)據(jù)類型,在改進(jìn)CPI編制上擁有巨大應(yīng)用前景。
1993年Diewert第一次提出了可以利用掃描數(shù)據(jù)編制CPI[1]。1995年Silver使用彩電掃描數(shù)據(jù)編制了基本分類指數(shù),證明了掃描數(shù)據(jù)能夠適用于傳統(tǒng)的編制公式[2]。從1995年開始研究掃描數(shù)據(jù)編制CPI的學(xué)者逐漸增多,研究內(nèi)容更加詳細(xì)具體。在大數(shù)據(jù)中針對權(quán)數(shù)確定和代表性商品抽樣的研究文獻(xiàn)不多。權(quán)數(shù)反映了商品或服務(wù)的相對重要性,Haan等利用荷蘭的咖啡掃描數(shù)據(jù)開始嘗試在編制公式中使用權(quán)數(shù),結(jié)果發(fā)現(xiàn)使用未加權(quán)的月度價(jià)格公式會導(dǎo)致價(jià)格指數(shù)被低估[3]。各國在實(shí)踐中都有一套自己的編制方法,荷蘭采用排除抽樣選擇代表性項(xiàng)目編制指數(shù),瑞典采用與規(guī)模成比例概率序列抽樣[4-5]。抽樣得到的代表性商品可能會出現(xiàn)價(jià)格缺失,需要進(jìn)行質(zhì)量調(diào)整,Silver等使用時(shí)間虛擬變量特征法、最優(yōu)的精確特征指數(shù)、匹配法三種方法測量質(zhì)量調(diào)整的價(jià)格變化,認(rèn)為特征法是最好的選擇[6-7]。Haan探討了特征指數(shù)的調(diào)整方法,指出對于不加權(quán)的特征指數(shù),時(shí)間虛擬法和特征虛擬法都能使匹配項(xiàng)目不受影響[8]。之后,國外學(xué)者的研究重點(diǎn)逐漸轉(zhuǎn)向解決鏈指數(shù)產(chǎn)生的偏離、缺失項(xiàng)目的替代上,Haan提出使用Lloyd-Moulton優(yōu)指數(shù),該指數(shù)能降低鏈偏離,但不能消除[9]。直到Ivancic等提出滾動年GEKS方法(RYGEKS),該方法保留了GEKS多邊指數(shù)的優(yōu)點(diǎn),在公式中運(yùn)用Fisher理想指數(shù),能夠免受鏈偏離的影響,且省去了要不斷修正前期數(shù)據(jù)的麻煩[10]。因此,這個(gè)指數(shù)產(chǎn)生后,被作為一個(gè)基準(zhǔn)指數(shù),荷蘭、挪威等國家的統(tǒng)計(jì)部門將本國掃描數(shù)據(jù)編制的指數(shù)與它進(jìn)行比較,并嘗試改進(jìn)本國的編制方法,都取得了很好的效果[4,11]。為提高編制結(jié)果的準(zhǔn)確度,很多學(xué)者提出了新的指數(shù)公式,如Imputation T?rnqvist RYGEK[12-13]、CCDI index[14]、imputation CCDI index[15],但未被統(tǒng)計(jì)機(jī)構(gòu)正式采用。目前已有荷蘭、挪威、瑞士、瑞典、比利時(shí)、丹麥和新西蘭等國家正式利用大數(shù)據(jù)編制CPI[16-17]。在中國,這方面的研究較少。陳相成等介紹了國外研究掃描數(shù)據(jù)的成果和應(yīng)用經(jīng)驗(yàn)[18]。李紹泰等利用Jevons和T?rnqvist公式編制奶酪和啤酒基本分類指數(shù),將編制結(jié)果與RYGEKS基準(zhǔn)指數(shù)進(jìn)行了比較,認(rèn)為T?rnqvist鏈指數(shù)是更優(yōu)的選擇[19]。
本文從利用價(jià)格大數(shù)據(jù)的角度,提出改進(jìn)CPI編制中代表性項(xiàng)目的抽樣方法,針對“有價(jià)格大數(shù)據(jù)”和“無價(jià)格大數(shù)據(jù)”的基本分類,分別設(shè)計(jì)代表性項(xiàng)目的抽樣方案和指數(shù)的編制方案,研究抽樣和納入所有項(xiàng)目編制的指數(shù)結(jié)果差異,證明在大數(shù)據(jù)中進(jìn)行代表性項(xiàng)目抽樣是可行的,分析不同抽樣方法、不同指數(shù)公式對價(jià)格指數(shù)編制結(jié)果的影響,為利用大數(shù)據(jù)編制價(jià)格指數(shù)提供參考。
中國調(diào)查網(wǎng)點(diǎn)的抽取是以銷售額或經(jīng)營規(guī)模為標(biāo)志,將抽樣框中的企業(yè)從高到低進(jìn)行排隊(duì),再使用等距抽樣抽取規(guī)定的數(shù)量[20]。抽樣框根據(jù)本地區(qū)的零售企業(yè)和農(nóng)貿(mào)市場經(jīng)營網(wǎng)點(diǎn)基本情況臺賬建立,不包括網(wǎng)上商戶[21]。而這些網(wǎng)上商戶,如天貓超市、京東超市、淘寶店等電商的銷售額很大且所占比重逐年提高,不納入調(diào)查必將影響價(jià)格的準(zhǔn)確性。抽樣框的更新維護(hù)只有少數(shù)地區(qū)做到按月進(jìn)行,大部分地區(qū)一年進(jìn)行一次,而抽樣框的涵蓋誤差影響估計(jì)精度。
國家統(tǒng)計(jì)局規(guī)定代表規(guī)格品要選擇同類商品中“消費(fèi)量大、質(zhì)量好、貨源穩(wěn)”的商品。在實(shí)際操作中,確定調(diào)查商品的代表規(guī)格品往往依靠主管業(yè)務(wù)人員和價(jià)格工作人員的判斷,極易出現(xiàn)選擇偏差。代表規(guī)格品確定后,原則上一年不會更改[22]。而現(xiàn)如今,商品更新?lián)Q代速度加快,特別是電子商品,采價(jià)員很難及時(shí)準(zhǔn)確地掌握新商品的進(jìn)入和舊商品的退出,導(dǎo)致規(guī)格品的代表性降低。
中國的采價(jià)制度采用定時(shí)、定人、定點(diǎn)的形式,由固定的采價(jià)員在每月固定的日期和時(shí)點(diǎn)到固定的調(diào)查網(wǎng)點(diǎn)采集商品或服務(wù)的價(jià)格[20]?!叭ā痹瓌t是為保持價(jià)格的連續(xù)性和可比性,但也帶來不少問題。采價(jià)員采集的價(jià)格是固定日期中某幾個(gè)時(shí)點(diǎn)的價(jià)格,不包括銷量信息,未能捕捉價(jià)格變化對銷量的影響,特別是固定的采價(jià)時(shí)間不一定在商品促銷期內(nèi),而在促銷期內(nèi)商品銷量往往較大,這會嚴(yán)重影響商品價(jià)格的準(zhǔn)確性。手持設(shè)備采集的商品價(jià)格,由于可能存在的折扣優(yōu)惠,也不一定是商品的真實(shí)價(jià)格。
中國價(jià)格指數(shù)編制的權(quán)數(shù)主要依據(jù)住戶調(diào)查中消費(fèi)支出資料確定,權(quán)數(shù)確定后,5年才有一次大的調(diào)整,而長時(shí)間保持固定,會導(dǎo)致權(quán)數(shù)偏差,使權(quán)數(shù)的可靠性和代表性降低。
大數(shù)據(jù)拓展了CPI的數(shù)據(jù)來源渠道,為改革CPI的編制方法帶來了機(jī)遇。利用大數(shù)據(jù)編制CPI方法主要體現(xiàn)在價(jià)格采集方式、代表性項(xiàng)目選擇、權(quán)數(shù)構(gòu)建、價(jià)格缺失的處理、質(zhì)量變化的調(diào)整、價(jià)格指數(shù)計(jì)算等方面,與現(xiàn)行的CPI編制方法存在較大區(qū)別。大數(shù)據(jù)包含商戶詳細(xì)的商品銷售額、價(jià)格和銷量等資料,能從數(shù)據(jù)中選擇銷售額占比大的代表性項(xiàng)目,可從數(shù)據(jù)中構(gòu)建各個(gè)層級的權(quán)數(shù),能根據(jù)所有同類項(xiàng)目的價(jià)格變化對缺失的項(xiàng)目進(jìn)行價(jià)格虛擬,并使利用優(yōu)指數(shù)公式編制CPI成為可能。利用大數(shù)據(jù)編制CPI與現(xiàn)行編制方法的區(qū)別主要為以下四方面:
第一,編制順序不同?,F(xiàn)行的CPI編制方法中,價(jià)格指數(shù)的編制要事先確定代表性項(xiàng)目、權(quán)數(shù),再確定調(diào)查網(wǎng)點(diǎn),最后去采集價(jià)格。在大數(shù)據(jù)中,編制順序發(fā)生了重大改變,首先要確定調(diào)查網(wǎng)點(diǎn),再從調(diào)查網(wǎng)點(diǎn)中采集價(jià)格數(shù)據(jù),最后從價(jià)格大數(shù)據(jù)中構(gòu)建權(quán)數(shù)、確定代表性項(xiàng)目。
第二,代表性項(xiàng)目的抽樣方法不同。目前大部分國家包括中國都采用代表性項(xiàng)目法。代表性項(xiàng)目法基于人的主觀判斷來選擇代表性項(xiàng)目,會降低樣本的代表性。在大數(shù)據(jù)中,不依靠主觀判斷來選擇代表性項(xiàng)目,而是采用與大數(shù)據(jù)編制方法相匹配的排除抽樣、與規(guī)模成比例概率序列抽樣,這兩種方法優(yōu)勢明顯,都是基于項(xiàng)目的支出份額計(jì)算一個(gè)包含概率,項(xiàng)目的支出份額越大,入樣的概率越高。
第三,權(quán)數(shù)來源不同。現(xiàn)行的編制方法中,商品基本分類的項(xiàng)目、基本分類及以上層級的權(quán)數(shù)構(gòu)建主要來源于城鄉(xiāng)居民家庭收支調(diào)查的消費(fèi)資料。在大數(shù)據(jù)中,主要通過計(jì)算商品項(xiàng)目的支出份額來構(gòu)建各個(gè)層級的權(quán)數(shù)。
第四,指數(shù)公式的選擇不同?,F(xiàn)行編制方法中,受人力、物力因素限制,每月采價(jià)次數(shù)有限,代表性項(xiàng)目通常只有幾個(gè)價(jià)格數(shù)據(jù),且不包括銷量信息,因此在編制CPI時(shí)只能選擇不加權(quán)的指數(shù)公式。大數(shù)據(jù)中,由商戶每月將商品基本分類詳細(xì)的項(xiàng)目價(jià)格、銷量等電子數(shù)據(jù)發(fā)送至統(tǒng)計(jì)部門,統(tǒng)計(jì)部門能使用加權(quán)的指數(shù)公式甚至優(yōu)指數(shù)來編制CPI。
在實(shí)際操作中,并不是將所有的價(jià)格大數(shù)據(jù)都納入到CPI編制中,而是采用抽樣的方法從商品的基本分類中抽取一定的商品項(xiàng)目,主要基于以下三方面的考慮:
第一,商品基本分類中的項(xiàng)目存在大量銷售期非常短或銷量少的項(xiàng)目(非季節(jié)性商品),容易出現(xiàn)價(jià)格缺失,如果全部納入,則需要花費(fèi)大量時(shí)間來虛擬價(jià)格缺失值,反而會影響指數(shù)的準(zhǔn)確性。
第二,商品基本分類項(xiàng)目支出的分布通常是高度偏斜的,相對少量的項(xiàng)目所占支出比重較大[23],將項(xiàng)目全部納入指數(shù)編制不僅沒有必要,還會增加時(shí)間成本,加重工作負(fù)擔(dān)和降低效率。
第三,采用抽樣方式編制的指數(shù)結(jié)果與包含所有項(xiàng)目編制的指數(shù)結(jié)果比較差異較小,且標(biāo)準(zhǔn)偏差在可控范圍內(nèi),已經(jīng)能夠反映價(jià)格指數(shù)的變化趨勢。本文的研究結(jié)果也證明采用抽樣是可行的。
隨著互聯(lián)網(wǎng)、電腦設(shè)備的普及,基本上都能從電商平臺或?qū)嶓w商戶采集到各種類型的電子數(shù)據(jù),即能夠獲得商戶所經(jīng)營商品的價(jià)格大數(shù)據(jù),但是由于某些條件的限制,可能還存在一些無價(jià)格大數(shù)據(jù)的商品。因此,本文按是否擁有價(jià)格大數(shù)據(jù),分別針對“有價(jià)格大數(shù)據(jù)”和“無價(jià)格大數(shù)據(jù)”的基本分類設(shè)計(jì)了代表性項(xiàng)目的抽樣方案和指數(shù)的編制方案。
在現(xiàn)行CPI編制方法中,因先確定代表性項(xiàng)目及其權(quán)數(shù),再確定調(diào)查網(wǎng)點(diǎn),采價(jià)人員去確定的調(diào)查網(wǎng)點(diǎn)直接將采集的代表性項(xiàng)目價(jià)格傳輸給統(tǒng)計(jì)部門,商戶及其經(jīng)營商品基本分類項(xiàng)目的構(gòu)成在編制過程中作用非常有限。在大數(shù)據(jù)中,由于編制順序的改變,在采集價(jià)格和確定代表性項(xiàng)目前要先確定調(diào)查網(wǎng)點(diǎn),商戶的重要性顯現(xiàn),商戶是價(jià)格數(shù)據(jù)的擁有者和提供者,商戶提供的商品基本分類所有項(xiàng)目(包括代表性項(xiàng)目和非代表性項(xiàng)目)數(shù)據(jù)都在編制過程中發(fā)揮作用。商品或服務(wù)的價(jià)格由各個(gè)商戶每月傳輸給統(tǒng)計(jì)部門,商品基本分類項(xiàng)目的抽樣框根據(jù)商戶發(fā)送的電子價(jià)格數(shù)據(jù)建立,權(quán)數(shù)的構(gòu)建直接來源于商戶提供的價(jià)格數(shù)據(jù),代表性項(xiàng)目的選擇是基于該項(xiàng)目在同類項(xiàng)目中所占的支出份額大小確定,因此非代表性項(xiàng)目價(jià)格數(shù)據(jù)對代表性項(xiàng)目的選擇和權(quán)數(shù)的構(gòu)建也有重要影響。
代表性項(xiàng)目是從項(xiàng)目所屬的基本分類里抽取的,一個(gè)商戶可能經(jīng)營多個(gè)基本分類項(xiàng)目,一個(gè)基本分類項(xiàng)目的價(jià)格數(shù)據(jù)可能來源于多個(gè)商戶。這與現(xiàn)行的編制方法有所不同,現(xiàn)行編制方法中一個(gè)基本分類中確定的代表性項(xiàng)目通常很少,且采集代表性項(xiàng)目價(jià)格的調(diào)查網(wǎng)點(diǎn)數(shù)量也只有幾個(gè)。在大數(shù)據(jù)中不再根據(jù)代表性項(xiàng)目去選擇調(diào)查網(wǎng)點(diǎn),編制順序的改變要求編制方法也要相應(yīng)改變,應(yīng)通過商戶這個(gè)商品價(jià)格數(shù)據(jù)的載體來選擇代表性項(xiàng)目。但是,各種類型的商戶成千上萬,且商戶銷售額的分布(與基本分類項(xiàng)目相似)也是高度偏斜的,沒有必要全部調(diào)查,應(yīng)抽取具有代表性的商戶進(jìn)行調(diào)查。針對有價(jià)格大數(shù)據(jù)的調(diào)查網(wǎng)點(diǎn),先按商戶主營業(yè)務(wù)所屬的商品大類或中類將商戶進(jìn)行歸類,同類商戶按銷售額從高到低排序,計(jì)算同類商戶中各個(gè)商戶所占的銷售份額。同類商戶中,可以設(shè)定合適的商戶銷售份額值,抽取銷售份額最大的幾個(gè)商戶,使這些商戶的累計(jì)銷售份額超過設(shè)定的銷售份額值。調(diào)查網(wǎng)點(diǎn)越多,價(jià)格的準(zhǔn)確性越高,且有價(jià)格大數(shù)據(jù)的商戶不需要進(jìn)行人工采價(jià),因此可以適當(dāng)?shù)靥岣呱虘翡N售份額的設(shè)定值,以抽取更多的同類型商戶。商戶抽樣是實(shí)施項(xiàng)目抽樣的前提,抽取的商戶越多,所得到的商品基本分類項(xiàng)目越齊全,越能反映項(xiàng)目的價(jià)格變化。
1.抽樣框的構(gòu)建和維護(hù)。被抽中的商戶每月定期將所有商品基本分類項(xiàng)目的價(jià)格、銷量等資料發(fā)送給統(tǒng)計(jì)部門,統(tǒng)計(jì)部門將各個(gè)類型商戶的所有價(jià)格數(shù)據(jù)按基本分類進(jìn)行匯總,在此基礎(chǔ)上建立有價(jià)格大數(shù)據(jù)項(xiàng)目的總體抽樣框。若項(xiàng)目出現(xiàn)永久性價(jià)格缺失,則尋找相似的項(xiàng)目進(jìn)行替代;若項(xiàng)目出現(xiàn)暫時(shí)性的價(jià)格缺失,根據(jù)所有同類項(xiàng)目的價(jià)格變化對缺失的項(xiàng)目進(jìn)行價(jià)格虛擬。
2.代表性項(xiàng)目的抽樣方法。代表性項(xiàng)目的抽樣方法有概率抽樣和非概率抽樣。概率抽樣常用的方法是與規(guī)模成比例的概率抽樣,瑞典與美國使用較多;非概率抽樣中常用方法包括排除抽樣、定額抽樣和代表性項(xiàng)目法[24]。荷蘭使用排除抽樣,大部分國家包括中國采用代表性項(xiàng)目法。代表性項(xiàng)目法基于人的主觀判斷,不易及時(shí)發(fā)現(xiàn)新商品的進(jìn)入和舊商品的退出,會降低樣本的代表性。定額抽樣也是基于個(gè)人判斷來選擇代表性項(xiàng)目,且無法確定估算值的標(biāo)準(zhǔn)誤差。
在大數(shù)據(jù)中,采用與規(guī)模成比例概率序列抽樣和排除抽樣優(yōu)勢比較明顯,但哪種方法更適合,則需要進(jìn)一步驗(yàn)證。因此,本文利用奶酪和啤酒兩個(gè)基本分類項(xiàng)目的掃描數(shù)據(jù)進(jìn)行實(shí)證分析。
(1)排除抽樣
排除抽樣指事先設(shè)定一個(gè)閾值,選擇超過這個(gè)閾值的na個(gè)最大的抽樣單位,并排除剩余的抽樣單位。商品基本分類項(xiàng)目的支出是高度偏斜的,使用排除抽樣必定會納入支出份額大的重要項(xiàng)目,而支出份額小的項(xiàng)目通常會被排除。具體的計(jì)算方法如下:
(2)與規(guī)模成比例概率序列抽樣法
與規(guī)模成比例概率序列抽樣也是選擇支出份額大的重要項(xiàng)目,但選擇方法與排除抽樣不同。與規(guī)模成比例概率序列抽樣要先根據(jù)層的支出份額大小確定各層擬分配的樣本量,層內(nèi)的項(xiàng)目都要計(jì)算一個(gè)包含概率,包含概率公式為:
(1)
序列變量計(jì)算公式如下:
(2)
其中,Rhi為每個(gè)項(xiàng)目設(shè)定的永久隨機(jī)數(shù),服從(0,1)均勻分布。項(xiàng)目按層h和序列變量Qhi進(jìn)行升序排序。在價(jià)格采集時(shí),每一層前nh種項(xiàng)目被選入樣本[5]。
“無價(jià)格大數(shù)據(jù)”的基本分類表示該基本分類中所有項(xiàng)目或大多數(shù)項(xiàng)目無價(jià)格大數(shù)據(jù)?,F(xiàn)行的CPI編制方法中,即無價(jià)格大數(shù)據(jù)時(shí),采用代表性項(xiàng)目法,選擇同類項(xiàng)目中“消費(fèi)量大、質(zhì)量好、貨源穩(wěn)”的具體項(xiàng)目,價(jià)格指數(shù)的編制要事先確定代表性項(xiàng)目,再確定調(diào)查網(wǎng)點(diǎn),最后去采集價(jià)格。此時(shí)分成兩種情況處理:
第一,采集價(jià)格時(shí)發(fā)現(xiàn)事先確定的代表性項(xiàng)目無價(jià)格大數(shù)據(jù),但該基本分類中少量項(xiàng)目有價(jià)格大數(shù)據(jù),且這些項(xiàng)目具有替代性,則選擇有價(jià)格大數(shù)據(jù)的相似項(xiàng)目采集價(jià)格,不再調(diào)查原先確定的無價(jià)格大數(shù)據(jù)的代表性項(xiàng)目。
第二,如果同類項(xiàng)目中不存在擁有價(jià)格大數(shù)據(jù)的可替代項(xiàng)目,則人工采集事先確定的代表性項(xiàng)目的價(jià)格,同一規(guī)格品至少要從兩個(gè)調(diào)查網(wǎng)點(diǎn)采集價(jià)格。
1.無價(jià)格大數(shù)據(jù)時(shí),基本分類及以上層級的權(quán)數(shù)構(gòu)建主要來源于城鄉(xiāng)居民家庭收支調(diào)查的消費(fèi)資料。
2.在大數(shù)據(jù)中,基本分類項(xiàng)目的權(quán)數(shù)根據(jù)該項(xiàng)目的消費(fèi)支出在同類項(xiàng)目總支出中所占的比重來獲得;基本分類層級的權(quán)數(shù)根據(jù)該基本分類在所屬細(xì)類總支出中所占的比重來構(gòu)建;基本分類層級以上的權(quán)數(shù),即大類、中類、小類和細(xì)類的權(quán)數(shù)等于其對應(yīng)分項(xiàng)的權(quán)數(shù)總和,如大類的權(quán)數(shù)等于其對應(yīng)的各個(gè)中類的權(quán)數(shù)加總。
3.若一個(gè)基本分類中部分項(xiàng)目有價(jià)格大數(shù)據(jù),部分項(xiàng)目無價(jià)格大數(shù)據(jù),則略去無價(jià)格大數(shù)據(jù)的項(xiàng)目,只計(jì)算有價(jià)格大數(shù)據(jù)項(xiàng)目的權(quán)數(shù),按大數(shù)據(jù)中的方法進(jìn)行確定;若一個(gè)細(xì)類中,部分基本分類無價(jià)格大數(shù)據(jù),部分基本分類有價(jià)格大數(shù)據(jù),則基本分類層級的權(quán)數(shù)需要根據(jù)價(jià)格大數(shù)據(jù)、城鄉(xiāng)居民家庭收支調(diào)查資料綜合衡量后確定;基本分類以上層級若出現(xiàn)同樣情況,也要綜合考慮。
4.基本分類層級及以上的指數(shù)加總采用的權(quán)數(shù)是基于基本分類所有項(xiàng)目的年度支出,無論這個(gè)項(xiàng)目是否被選中為代表性項(xiàng)目,權(quán)數(shù)在每年12月重新構(gòu)建。
對于“有價(jià)格大數(shù)據(jù)”的基本分類,基本分類指數(shù)按照代表性項(xiàng)目的價(jià)格進(jìn)行計(jì)算。對于“無價(jià)格大數(shù)據(jù)”的基本分類,基本分類指數(shù)的計(jì)算分兩種情況處理:
第一,如果基本分類抽中的代表性項(xiàng)目無價(jià)格大數(shù)據(jù),但該基本分類中存在少量能采集到價(jià)格大數(shù)據(jù)的可替代項(xiàng)目,則選擇同類項(xiàng)目進(jìn)行替代,基本分類指數(shù)按照價(jià)格大數(shù)據(jù)的方法選擇指數(shù)公式計(jì)算,更高層級的指數(shù)按照層級逐次向上加權(quán)匯總。
第二,抽中的代表性項(xiàng)目無價(jià)格大數(shù)據(jù),且基本分類中也不存在有價(jià)格大數(shù)據(jù)的可替代項(xiàng)目,則該基本分類指數(shù)使用人工采集的代表性項(xiàng)目的價(jià)格進(jìn)行計(jì)算?!坝袃r(jià)格大數(shù)據(jù)”的基本分類和“無價(jià)格大數(shù)據(jù)”需人工采價(jià)的基本分類向更高層級的指數(shù)進(jìn)行合成時(shí),基本分類、細(xì)類、小類、中類的權(quán)數(shù)已于前一年的12月確定,因此采集的項(xiàng)目價(jià)格只需按公式向上逐級加權(quán)。
分別使用排除抽樣、與規(guī)模成比例概率序列抽樣兩種方法對奶酪和啤酒基本分類的掃描數(shù)據(jù)觀察值進(jìn)行抽樣,研究抽樣和納入所有項(xiàng)目編制的指數(shù)結(jié)果差異、在大數(shù)據(jù)中進(jìn)行代表性項(xiàng)目抽樣是否可行,探討抽樣方法的不同對指數(shù)編制結(jié)果的影響,以選擇在大數(shù)據(jù)中更優(yōu)的抽樣方式。奶酪和啤酒的價(jià)格數(shù)據(jù)來源于美國多米尼克數(shù)據(jù)庫,奶酪共有 917.5萬條觀察值,啤酒有38.5萬條觀察值。在計(jì)算時(shí)將4個(gè)星期作為1個(gè)月處理,奶酪和啤酒掃描數(shù)據(jù)各自包含36個(gè)月的數(shù)據(jù)。根據(jù)項(xiàng)目的規(guī)格(按重量或容量劃分)進(jìn)行分層。先使用排除抽樣法確定樣本總量,χ值越大,則閾值越小,入選的項(xiàng)目數(shù)越多。但是,項(xiàng)目的支出是高度偏斜的,當(dāng)入選項(xiàng)目達(dá)到一定的數(shù)量后,通過增加入選項(xiàng)目來使支出份額增長的作用不再明顯,且還會增加成本、加重工作負(fù)擔(dān)。荷蘭統(tǒng)計(jì)局經(jīng)過反復(fù)試驗(yàn)發(fā)現(xiàn)設(shè)定χ=1.25最好,本文使用χ=1.25是因?yàn)樵撛O(shè)定值經(jīng)過驗(yàn)證,且在奶酪和啤酒基本分類中抽樣效果較好,奶酪和啤酒入樣項(xiàng)目數(shù)量適中,數(shù)量占比分別為44.1%和33.9%,但入樣項(xiàng)目的平均支出份額超過了80%。出于方法比較的目的,與規(guī)模成比例概率序列抽樣的樣本總量為排除抽樣確定的樣本總量,按照各層的支出份額分配樣本量。
奶酪掃描數(shù)據(jù)共有28種規(guī)格、331個(gè)項(xiàng)目。應(yīng)用排除抽樣共抽取146個(gè)項(xiàng)目,這些入選項(xiàng)目歸屬于18種規(guī)格,即有18種規(guī)格至少存在1個(gè)項(xiàng)目入選;應(yīng)用與規(guī)模成比例概率序列抽樣共抽取146個(gè)項(xiàng)目,歸屬于19種規(guī)格。啤酒掃描數(shù)據(jù)共有23種規(guī)格、310個(gè)項(xiàng)目。應(yīng)用排除抽樣共抽取105個(gè)項(xiàng)目,歸屬于6種規(guī)格;應(yīng)用與規(guī)模成比例概率序列抽樣共抽取105個(gè)項(xiàng)目,歸屬于11種規(guī)格。奶酪和啤酒排除抽樣設(shè)定的閾值分別為0.258%和0.242%,如果某個(gè)項(xiàng)目的平均支出份額超過對應(yīng)的閾值,則選入樣本。與規(guī)模成比例概率序列抽樣先計(jì)算包含概率,如果某個(gè)項(xiàng)目的包含概率大于1,則直接選入樣本,如果小于1,則根據(jù)序列變量大小進(jìn)行升序排序,選擇序列變量值最小的nh個(gè)項(xiàng)目入樣。
通過入選項(xiàng)目的比較,可以發(fā)現(xiàn)兩種抽樣方法的不同。第一,與規(guī)模成比例概率序列抽樣入選樣本的層數(shù)(規(guī)格數(shù))要比排除抽樣多。排除抽樣是基于層內(nèi)某個(gè)項(xiàng)目的平均支出份額是否超過閾值,超過則入選,不受層支出份額的影響;與規(guī)模成比例概率序列抽樣是先根據(jù)層的支出份額計(jì)算該層應(yīng)分配的樣本量,只要層的支出份額足夠大,分配到的樣本量大于等于1,則該層就會有項(xiàng)目入選,入選的項(xiàng)目數(shù)等于分配的樣本量,無論這些項(xiàng)目是否超過閾值,這與排除抽樣不同,因此與規(guī)模成比例概率序列抽樣入樣的層數(shù)覆蓋更多。
第二,與規(guī)模成比例概率序列抽樣的某些層出現(xiàn)了需要超過100%抽樣的情況。有些層的支出份額大,按支出份額計(jì)算擬分配給這些層的樣本量大于層包含的項(xiàng)目數(shù),此時(shí)這些層需要超過100%的抽樣。實(shí)際操作中,對這些層進(jìn)行100%抽樣,再將剩余的待分配的樣本量在其他層內(nèi)進(jìn)行分配;而排除抽樣則不會出現(xiàn)上述情況。
傳統(tǒng)的基本分類指數(shù)公式的選擇上,因?yàn)槿鄙俅硇皂?xiàng)目的權(quán)數(shù)信息,一般使用Jevons指數(shù)。當(dāng)前幾個(gè)正式使用大數(shù)據(jù)編制價(jià)格指數(shù)的國家都選擇月度鏈指數(shù),月度鏈指數(shù)指通過將環(huán)比指數(shù)連乘,鏈接到特定時(shí)期得到的指數(shù)。循環(huán)性檢驗(yàn)指兩個(gè)時(shí)期之間的鏈指數(shù)等于這兩個(gè)時(shí)期的定基指數(shù),如:通過環(huán)比指數(shù)逐期相乘得到的鏈指數(shù)P0,3=P0,1×P1,2×P2,3與第3期對0期的定基指數(shù)相等,則滿足循環(huán)性檢驗(yàn);如果不滿足,則產(chǎn)生了鏈偏離。荷蘭、瑞典和瑞士使用Jevons鏈指數(shù)。Jevons鏈指數(shù)不加權(quán),能有效避免鏈偏離,但在價(jià)格大數(shù)據(jù)能給出項(xiàng)目層級權(quán)數(shù)的情況下,不進(jìn)行加權(quán)是對數(shù)據(jù)的一種浪費(fèi)。挪威則使用了優(yōu)指數(shù)——T?rnqvist鏈指數(shù)。國際CPI手冊指出,當(dāng)有詳細(xì)的價(jià)格和數(shù)量信息可用時(shí),優(yōu)指數(shù)是最佳的選擇[25]。但是,當(dāng)時(shí)期間存在大的價(jià)格和數(shù)量波動時(shí),使用鏈?zhǔn)絻?yōu)指數(shù)可能會導(dǎo)致鏈偏離。RYGEKS指數(shù)具有良好的指數(shù)特性,能通過循環(huán)性檢驗(yàn),在匹配項(xiàng)目中能防止鏈偏離,但這種方法也有缺陷,它忽略了不匹配項(xiàng)目,忽略了新項(xiàng)目與舊項(xiàng)目間價(jià)格變化的影響,因此這個(gè)指數(shù)只是被各個(gè)國家當(dāng)作基準(zhǔn)指數(shù)進(jìn)行比較,并未在實(shí)際中采用該指數(shù)公式編制CPI[12]。在基本分類層級,這三個(gè)指數(shù)公式使用最普遍,有優(yōu)點(diǎn),也存在缺陷。本文選擇了這三個(gè)指數(shù)公式進(jìn)行抽樣方法的比較,根據(jù)兩種不同的抽樣方式分別編制了Jevons指數(shù)、T?rnqvist指數(shù)和RYGEKS指數(shù),進(jìn)行兩個(gè)維度的比較:一是采用入樣項(xiàng)目編制的指數(shù)與包含所有項(xiàng)目編制的指數(shù)進(jìn)行比較,探討不同的抽樣方式但采用相同的指數(shù)公式對指數(shù)結(jié)果的影響;二是相同的抽樣方式但采用不同的指數(shù)公式,探討哪個(gè)指數(shù)公式編制的指數(shù)結(jié)果更加準(zhǔn)確。
1.Jevons鏈指數(shù)的比較。Jevons指數(shù)的公式如下:
(3)
圖1 不同抽樣方式編制的Jevons逐月鏈指數(shù)
與包含所有奶酪和啤酒項(xiàng)目編制的指數(shù)相比,使用排除抽樣、與規(guī)模成比例概率序列抽樣兩種抽樣方式抽取的代表性項(xiàng)目編制的Jevons逐月鏈指數(shù)結(jié)果差異較大。排除抽樣編制的啤酒Jevons逐月鏈指數(shù)與所有啤酒項(xiàng)目編制的Jevons逐月鏈指數(shù)每個(gè)月差值的平均值為0.37個(gè)百分點(diǎn),每個(gè)月差值的標(biāo)準(zhǔn)差為1.08,都比與規(guī)模成比例概率序列抽樣小;排除抽樣編制的奶酪Jevons逐月鏈指數(shù)與所有奶酪項(xiàng)目編制的Jevons逐月鏈指數(shù)每個(gè)月差值的平均值為-0.44個(gè)百分點(diǎn),標(biāo)準(zhǔn)差為2.30,與規(guī)模成比例概率序列抽樣相比,都相對更大。
從總體上看,使用相同的指數(shù)公式,即Jevons指數(shù)公式,采用排除抽樣、與規(guī)模成比例概率序列抽樣兩種抽樣方式抽取的項(xiàng)目編制的價(jià)格指數(shù)與包含所有項(xiàng)目編制的指數(shù)比較走向不規(guī)則且差異較大,無法判斷哪種抽樣方式編制的效果更好。偏差大的原因主要在于Jevons指數(shù)公式。在采用抽樣的方法選擇代表性項(xiàng)目時(shí),已將不符合入選標(biāo)準(zhǔn)的項(xiàng)目淘汰,在指數(shù)計(jì)算中,那些被淘汰的項(xiàng)目價(jià)格不會在指數(shù)中反映,但在編制納入所有項(xiàng)目的指數(shù)中,原本在抽樣過程中被淘汰的項(xiàng)目的價(jià)格被編制到指數(shù)中,增加了價(jià)格的波動性。且采用的Jevons指數(shù)公式未加權(quán),支出份額小的項(xiàng)目和原本該被淘汰的項(xiàng)目價(jià)格變化的作用在指數(shù)編制中被放大,導(dǎo)致結(jié)果偏差增大,偏離比較明顯。
2.T?rnqvist鏈指數(shù)的比較。T?rnqvist指數(shù)是優(yōu)指數(shù),挪威在基本分類層級選擇了T?rnqvist指數(shù)公式。T?rnqvist指數(shù)公式與Jevons指數(shù)公式的差異主要在于指數(shù)是否加權(quán)。T?rnqvist指數(shù)的公式如下:
(4)
T?rnqvist逐月鏈指數(shù)的編制結(jié)果如圖2所示。與包含所有項(xiàng)目編制的價(jià)格指數(shù)相比,使用排除抽樣、與規(guī)模成比例概率序列抽樣兩種抽樣方法編制的結(jié)果都存在較小的偏差,且趨勢方向基本相同。
圖2 不同抽樣方式編制的T?rnqvist逐月鏈指數(shù)
無論是啤酒基本分類還是奶酪基本分類,采用排除抽樣編制的T?rnqvist逐月鏈指數(shù)與包含基本分類所有項(xiàng)目編制的T?rnqvist逐月鏈指數(shù),每個(gè)月差值的平均值都比與規(guī)模成比例概率序列抽樣的結(jié)果大,表明與規(guī)模成比例概率序列抽樣編制的指數(shù)相對更好。
采用相同的T?rnqvist指數(shù)公式,與規(guī)模成比例概率序列抽樣編制的指數(shù)結(jié)果要比排除抽樣更加準(zhǔn)確,偏差更小。T?rnqvist指數(shù)公式是加權(quán)的指數(shù),與項(xiàng)目所在層的權(quán)數(shù)有關(guān)。與規(guī)模成比例概率序列抽樣是先根據(jù)層的支出份額大小計(jì)算該層應(yīng)分配的樣本量,層中入選項(xiàng)目的加權(quán)平均價(jià)格更具有代表性;而排除抽樣中項(xiàng)目是否入選與項(xiàng)目的支出份額有關(guān),樣本量的大小與層的支出份額關(guān)系不大。此外,與規(guī)模成比例序列抽樣入選的規(guī)格數(shù)相對更多,因此更能反映價(jià)格的變化情況,指數(shù)的精確性相對更高。
3.滾動年GEKS指數(shù)(RYGEKS)的比較。GEKS多邊指數(shù)是所有雙邊Fisher指數(shù)比率的幾何平均值,GEKS指數(shù)的缺點(diǎn)是當(dāng)有新時(shí)期的數(shù)據(jù)時(shí),所有的前期數(shù)據(jù)必須要重新計(jì)算。RYGEKS指數(shù)克服了這個(gè)缺陷,不用修正前期數(shù)據(jù),且保留了GEKS多邊指數(shù)良好的循環(huán)性和傳遞性等指數(shù)特性[19]。RYGEKS指數(shù)能通過多期恒等性檢驗(yàn)、時(shí)間逆檢驗(yàn)和循環(huán)性檢驗(yàn),能夠避免鏈偏離的影響[10],因此各國將RYGEKS指數(shù)作為基準(zhǔn)指數(shù),將各自編制的消費(fèi)者價(jià)格指數(shù)與RYGEKS基準(zhǔn)指數(shù)進(jìn)行比較。
RYGEKS的一般表達(dá)式如下:
(5)
其中,Pt,τ表示時(shí)期t和τ間的一個(gè)價(jià)格指數(shù)。Ivancic等使用的是Fisher價(jià)格指數(shù)[10],不過在之后的研究中,Haan和Grient基于T?rnqvist價(jià)格指數(shù),荷蘭統(tǒng)計(jì)局也是使用T?rnqvist價(jià)格指數(shù)[11]。T?rnqvist是優(yōu)指數(shù),具有良好的指數(shù)特性,所以本文也編制基于T?rnqvist優(yōu)指數(shù)的RYGEKS基準(zhǔn)指數(shù)。
從圖3可知,與納入所有項(xiàng)目編制的指數(shù)結(jié)果比較,兩種抽樣方式編制的RYGEKS基準(zhǔn)指數(shù)都存在上行或下行的偏差,但基本趨勢相同,編制結(jié)果與T?rnqvist逐月鏈指數(shù)相似。與規(guī)模成比例概率序列抽樣編制的奶酪和啤酒兩個(gè)基本分類指數(shù)分別與包含奶酪和啤酒基本分類所有項(xiàng)目的指數(shù)比較時(shí),每個(gè)月差值的平均值和標(biāo)準(zhǔn)差都比排除抽樣小,表明使用RYGEKS指數(shù)公式時(shí),采用與規(guī)模成比例概率序列抽樣方法更好。
圖3 不同抽樣方式編制的RYGEKS指數(shù)
通過與納入所有項(xiàng)目編制的指數(shù)結(jié)果比較,發(fā)現(xiàn)使用與規(guī)模成比例概率序列抽樣編制的T?rnqvist指數(shù)和RYGEKS指數(shù)都相對更好。采用Jevons指數(shù)、T?rnqvist指數(shù)和RYGEKS指數(shù)公式編制的兩個(gè)基本分類指數(shù)結(jié)果中,無論采用哪種指數(shù)公式,使用兩種抽樣方式編制的奶酪基本分類指數(shù)間的差距都較大,而啤酒基本分類指數(shù)間差距都較小,這主要是受基本分類支出權(quán)數(shù)的集中度影響。集中度高的基本分類入選的規(guī)格數(shù)相對更少,支出權(quán)數(shù)集中在少數(shù)幾個(gè)規(guī)格,這幾個(gè)規(guī)格入選的項(xiàng)目相對較多,兩種抽樣方式抽取的項(xiàng)目重合率較高,因此兩種抽樣方式編制的基本分類指數(shù)間的差異較小。奶酪有28種規(guī)格,權(quán)數(shù)最大的4個(gè)規(guī)格所占的比重只有72.6%,相對比較分散。啤酒有23種規(guī)格,其中3種規(guī)格的權(quán)數(shù)已占所有項(xiàng)目的90%,集中度非常高。針對支出權(quán)數(shù)集中度低的基本分類,使用排除抽樣產(chǎn)生的偏離較大,不是較好的選擇。支出權(quán)數(shù)集中度高的基本分類使用排除抽樣、與規(guī)模成比例概率序列抽樣產(chǎn)生的偏離相差不大,但從總體上看,與規(guī)模成比例概率序列抽樣偏離相對更小。
4.采用與規(guī)模成比例概率序列抽樣的不同指數(shù)公式編制比較。采用相同的指數(shù)公式、不同的抽樣方式比較時(shí),發(fā)現(xiàn)與規(guī)模成比例概率序列抽樣編制的指數(shù)偏差相對更小,因此在比較不同指數(shù)公式對編制結(jié)果影響時(shí),采用了與規(guī)模成比例概率序列抽樣。圖4是各個(gè)指數(shù)的編制結(jié)果。從趨勢圖可知,Jevons逐月鏈指數(shù)與基準(zhǔn)指數(shù)RYGEKS比較時(shí),趨勢走向不一致,存在較大的偏差。T?rnqvist逐月鏈指數(shù)與基準(zhǔn)指數(shù)RYGEKS比較偏差較小,且大部分月份的數(shù)據(jù)出現(xiàn)重合,只有最后3個(gè)月出現(xiàn)了偏離。這主要與基準(zhǔn)指數(shù)公式中Pt,τ采用了T?rnqvist指數(shù)有關(guān)。RYGEKS忽略了不匹配項(xiàng)目,忽略了新項(xiàng)目與舊項(xiàng)目間價(jià)格變化的影響,因此RYGEKS指數(shù)并不適合在實(shí)際編制中使用,T?rnqvist指數(shù)公式是更優(yōu)的選擇。
圖4 同種抽樣方式不同指數(shù)公式編制的指數(shù)
本文討論了大數(shù)據(jù)中的不同抽樣方式、不同指數(shù)公式對指數(shù)編制結(jié)果的影響。采用排除抽樣、與規(guī)模成比例概率序列抽樣方法編制了Jevons逐月鏈指數(shù)、T?rnqvist逐月鏈指數(shù)和RYGEKS指數(shù),并將抽選的代表性項(xiàng)目編制的指數(shù)與包含所有項(xiàng)目的指數(shù)進(jìn)行比較,證明了在大數(shù)據(jù)中進(jìn)行代表性項(xiàng)目抽樣是可行的,結(jié)論如下:
1.代表性項(xiàng)目的選擇。同與規(guī)模成比例概率序列抽樣方式比較,排除抽樣的代表性項(xiàng)目選擇更加簡單,操作更加方便。設(shè)定一個(gè)閾值,只要基本分類層級中項(xiàng)目的平均支出份額高于這個(gè)閾值,即被納入樣本,它的入選標(biāo)準(zhǔn)是統(tǒng)一的。而與規(guī)模成比例概率序列抽樣則要先根據(jù)層的支出份額大小確定各層的樣本量,層內(nèi)要計(jì)算目標(biāo)包含概率,若目標(biāo)包含概率低于1,還要計(jì)算序列變量,操作相對復(fù)雜。各層間的包含概率是獨(dú)立計(jì)算的,因此層間各個(gè)項(xiàng)目入選的標(biāo)準(zhǔn)是不統(tǒng)一的,但與規(guī)模成比例概率序列抽樣能夠控制每個(gè)規(guī)格(每層)的代表性項(xiàng)目入選的樣本量,樣本控制更加靈活;而排除抽樣通過設(shè)定參數(shù)χ的大小,只能控制總樣本量。在大數(shù)據(jù)中,如果由電腦系統(tǒng)設(shè)定程序自動完成,樣本量的分配、包含概率和序列變量的計(jì)算都不需要人工操作,操作的復(fù)雜性不應(yīng)該考慮,入選項(xiàng)目的代表性應(yīng)該是主要因素,從指數(shù)的編制結(jié)果來看,與規(guī)模成比例概率序列抽樣抽取的項(xiàng)目代表性更高。
2.支出權(quán)數(shù)?;痉诸愔笖?shù)是編制價(jià)格指數(shù)中最基礎(chǔ)也是最關(guān)鍵的環(huán)節(jié)?;痉诸惖闹С鰴?quán)數(shù)對抽樣方式的選擇有一定的影響。支出權(quán)數(shù)集中度低的基本分類應(yīng)該使用與規(guī)模成比例概率序列抽樣,排除抽樣編制的指數(shù)產(chǎn)生的偏離較大,不是一個(gè)較好的選擇。支出權(quán)數(shù)集中度高的基本分類使用排除抽樣、與規(guī)模成比例概率序列抽樣產(chǎn)生的偏離相差不大,但從總體上看,與規(guī)模成比例概率序列抽樣產(chǎn)生的偏離相對更小,是更優(yōu)的選擇。
3.指數(shù)公式的選擇。其一,在采用相同的指數(shù)公式、不同的抽樣方式比較編制指數(shù)結(jié)果的維度上,與納入奶酪和啤酒兩個(gè)基本分類所有項(xiàng)目編制的指數(shù)比較,使用排除抽樣的T?rnqvist逐月鏈指數(shù)和RYGEKS指數(shù)比與規(guī)模成比例概率序列抽樣編制的指數(shù)偏差更大,因此對于加權(quán)的指數(shù),采用與規(guī)模成比例概率序列抽樣更好。其二,在采用不同的指數(shù)公式、相同的抽樣方式比較編制指數(shù)結(jié)果的維度上,使用與規(guī)模成比例概率序列抽樣編制的Jevons逐月鏈指數(shù)、T?rnqvist逐月鏈指數(shù)與RYGEKS基準(zhǔn)指數(shù)比較時(shí)發(fā)現(xiàn),Jevons公式編制的逐月鏈指數(shù)與基準(zhǔn)指數(shù)偏差較大且趨勢不一致;T?rnqvist逐月鏈指數(shù)偏差較小且趨勢走向基本一致,很多時(shí)期還出現(xiàn)了重合,因此T?rnqvist逐月鏈指數(shù)是更優(yōu)的選擇。