謝波峰
中國人民大學(xué)金融與財(cái)稅電子化研究所,北京 100872
基于大數(shù)據(jù)的稅收經(jīng)濟(jì)分析和預(yù)測探索
謝波峰
中國人民大學(xué)金融與財(cái)稅電子化研究所,北京 100872
在現(xiàn)有的稅收經(jīng)濟(jì)預(yù)測理論和實(shí)踐當(dāng)中,大數(shù)據(jù)的出現(xiàn)為理論的完善和實(shí)踐的發(fā)展提供了契機(jī)??偨Y(jié)了目前稅收經(jīng)濟(jì)領(lǐng)域的主要研究進(jìn)展,歸納概括了大數(shù)據(jù)在稅收經(jīng)濟(jì)分析和預(yù)測中的特點(diǎn)和主要特征,并針對我國稅收經(jīng)濟(jì)分析和預(yù)測的大數(shù)據(jù)應(yīng)用提出了若干設(shè)想和展望。
analysis of economics of tax, forecasting of tax, big data
1.1 國外大數(shù)據(jù)在經(jīng)濟(jì)研究中的典型案例
隨著大數(shù)據(jù)在經(jīng)濟(jì)研究中關(guān)注度的不斷提高,若干經(jīng)典案例已經(jīng)成為了大數(shù)據(jù)應(yīng)用的范例,具體介紹如下。
Piketty和Saez[1]通過使 用美國國內(nèi)稅務(wù)局(Internal Revenue Service,IRS)的長期數(shù)據(jù),研究分配的不平等現(xiàn)象。近些年中國經(jīng)濟(jì)學(xué)家熟知的法國經(jīng)濟(jì)學(xué)家皮卡蒂(Piketty)以其著作《二十一世紀(jì)新資本論》成為了世界經(jīng)濟(jì)圈的明星,該著作的核心支撐是通過對IRS數(shù)十年的不同收入等級納稅人的大數(shù)據(jù)進(jìn)行挖掘得到的,這一研究對應(yīng)用大數(shù)據(jù)進(jìn)行包括稅收經(jīng)濟(jì)在內(nèi)的經(jīng)濟(jì)研究的價(jià)值給予了充分的證明。
通過大數(shù)據(jù)計(jì)算價(jià)格指數(shù)。例如在美國,Cavallo A等人[2]推出了著名的萬億商品價(jià)格計(jì) 劃(billion prices projects,BPP)項(xiàng)目,通過50多個(gè)國家在線網(wǎng)站的數(shù)據(jù),計(jì)算零售價(jià)格的變動,由此代替?zhèn)鹘y(tǒng)計(jì) 算居民消費(fèi)價(jià)格指數(shù)(consumer price index,CPI)的辦法。這一類似做法在一些擁有商業(yè)網(wǎng)絡(luò)的公司并不鮮見,例如VISA 、MASTER等信用卡平臺。
結(jié)合網(wǎng)站搜索數(shù)據(jù)進(jìn)行所謂的實(shí)時(shí)預(yù) 測(now-casting)。最著名的例子就是Google公司首席經(jīng)濟(jì)學(xué)家Varian H R等通過Google搜索指 數(shù)[3],對當(dāng)前的經(jīng)濟(jì)情況進(jìn)行預(yù)測,由于這種預(yù)測比傳統(tǒng)的經(jīng)濟(jì)預(yù)測方法更為及時(shí)地反映了當(dāng)期的經(jīng)濟(jì)情況,所以被稱為“實(shí)時(shí)預(yù)測”。
研究長序列的兒童教育效果。Chetty R等人[4]使用了近20年的IRS、紐約市政教育部門的數(shù)據(jù),研究兒童教育的長期效應(yīng),該研究指出更好的教育大約可以帶來四分之一的收入增加。
除此之外,Levin J等人[5]在電子商務(wù)領(lǐng)域通過大數(shù)據(jù)研究消費(fèi)者的行為范式,也是大數(shù)據(jù)提供的傳統(tǒng)研究方法無法達(dá)到的研究。
對于這些大數(shù)據(jù)在經(jīng)濟(jì)分析中的應(yīng)用,Varian H R等人[6]指出:現(xiàn)代經(jīng)濟(jì)學(xué)要與數(shù)據(jù)打交道,而傳統(tǒng)分析用的是樣本等小數(shù)據(jù),隨著經(jīng)濟(jì)交流的日益頻繁和技術(shù)水平的提高,數(shù)據(jù)越來越大,大數(shù)據(jù)的出現(xiàn)使得傳統(tǒng)經(jīng)濟(jì)學(xué)分析方法在分析時(shí)顯得捉襟見肘。
近年來,隨著機(jī)器學(xué)習(xí)熱點(diǎn)的形成,Ath ey S[7]等經(jīng)濟(jì)學(xué)家開始進(jìn)一步探索和歸納機(jī)器學(xué)習(xí)在經(jīng)濟(jì)分析中的應(yīng)用。
1.2 國內(nèi)大數(shù)據(jù)在經(jīng)濟(jì)研究中的應(yīng)用現(xiàn)狀
1.2.1 基于大數(shù)據(jù)的經(jīng)濟(jì)指數(shù)編制
(1)行業(yè)經(jīng)濟(jì)指數(shù)
從國內(nèi)的研究來看,在Google公司等大數(shù)據(jù)應(yīng)用先鋒的啟發(fā)下,百度、騰訊、阿里巴巴等互聯(lián)網(wǎng)企業(yè)紛紛啟動相應(yīng)的基于大數(shù)據(jù)的行業(yè)經(jīng)濟(jì)指數(shù)。例如基于搜索情況,推出全行業(yè)、中小企業(yè)、大企業(yè)點(diǎn)擊量景氣指數(shù)等大數(shù)據(jù)指標(biāo),通過與全行業(yè)、中小企業(yè)、大企業(yè)消費(fèi)量景氣指標(biāo)進(jìn)行對比,發(fā)現(xiàn)對應(yīng)的景氣指標(biāo)之間具有一定的聯(lián)動性。
除了互聯(lián)網(wǎng)企業(yè)通過互聯(lián)網(wǎng)數(shù)據(jù)形成行業(yè)經(jīng)濟(jì)指數(shù)之外,擁有大數(shù)據(jù)的傳統(tǒng)企業(yè)也推出了一些行業(yè)經(jīng)濟(jì)指數(shù),例如中國銀聯(lián)和清華大學(xué)數(shù)據(jù)科學(xué)研究院在2015年提出的“清數(shù)銀聯(lián)智策指數(shù)”,是基 于銀聯(lián)卡結(jié)算的數(shù)據(jù)形成的行業(yè)指數(shù),中國銀聯(lián)擁有超過50億張借記卡和信用卡、超過8億持卡人和1 500余萬商戶的消費(fèi)數(shù)據(jù)?;谥袊y聯(lián)借記卡、信用卡的消費(fèi)數(shù)據(jù),推出了房地產(chǎn)業(yè)指數(shù)、高端酒店指數(shù)及餐飲服務(wù)指數(shù)等。
(2)新興的統(tǒng)計(jì)數(shù)據(jù)
通過新的角度、新的方式,產(chǎn)生新的統(tǒng)計(jì)數(shù)據(jù),也成為了大數(shù)據(jù)時(shí)代的發(fā)展方向,包括對新興經(jīng)濟(jì)的統(tǒng)計(jì)、網(wǎng) 絡(luò)CPI統(tǒng)計(jì)以及基于在線購物平臺的消費(fèi)指數(shù)等,典型的代表有新經(jīng)濟(jì)指數(shù) (new economy index,NEI)、基于互聯(lián)網(wǎng)在線數(shù)據(jù)的居民消費(fèi)價(jià)格指數(shù)(internet-based consumer price index,iCPI)、淘寶網(wǎng)絡(luò)零售價(jià)格指數(shù)(internet shopping price index,iSPI)等。
● NEI:針對傳統(tǒng)經(jīng)濟(jì)指數(shù)形成的分析和預(yù)測方法在新經(jīng)濟(jì)領(lǐng)域中往往有些無力。最近,被李克強(qiáng)總理多次提及 的BB D新經(jīng)濟(jì)指數(shù)在這一方面做出了相應(yīng)的嘗試。NEI指標(biāo)體系首先梳理了新經(jīng)濟(jì)行業(yè),包括制造業(yè)與服務(wù)業(yè)等9個(gè)類別,分別考察高端勞動投入、優(yōu)質(zhì)資本投入與科技與創(chuàng)新投入(分別代表了新經(jīng)濟(jì)發(fā)展的勞動力投入、資本投入、科技與創(chuàng)新投入)等一級指標(biāo)和11個(gè)二級指標(biāo)的情況。針對這些指標(biāo),需要基于大數(shù)據(jù)理念,采集大量的非傳統(tǒng)信息。例如,根據(jù)2015年發(fā)布的信息顯示,為了生成NEI指標(biāo),采集了以下信息:企業(yè)網(wǎng)絡(luò)招聘的信息(5 200萬條)、網(wǎng)上公示的新成立企業(yè)工商登記信息(270萬條)、風(fēng)險(xiǎn)投資數(shù)據(jù) 、網(wǎng)上的招標(biāo)投標(biāo)數(shù)據(jù)(370萬條)、三板上市數(shù)據(jù)、各類專利數(shù)據(jù)等。
● iCPI:2016年11月 ,清華大學(xué)經(jīng)濟(jì)研究所推出了iCPI指數(shù),類似于上文提及的國外BPP項(xiàng)目,對我國的居民消費(fèi)價(jià)格進(jìn)行實(shí)時(shí)性的在線搜集和在線分析。
● iSPI:網(wǎng)絡(luò)零售價(jià)格是概括網(wǎng)絡(luò)零售交易商品一般價(jià)格水平的指標(biāo)。它建立在淘寶交易平臺匯聚和實(shí)時(shí)積累的海量交易行為數(shù)據(jù)基礎(chǔ)之上。目前,淘寶網(wǎng)是國內(nèi)最主要的網(wǎng)絡(luò)零售交易平臺,基于淘寶網(wǎng)的iSPI可以大體反映國內(nèi)網(wǎng)絡(luò)零售渠道的一般物價(jià)變動。
1.2.2 國內(nèi)基于大數(shù)據(jù)的經(jīng)濟(jì)分析和預(yù)測研究
近年來,國內(nèi)在基于大數(shù)據(jù)的經(jīng)濟(jì)分析和預(yù)測方面也有不少的研究成果。中國學(xué)者通過學(xué)習(xí)和總結(jié)大數(shù)據(jù)在經(jīng) 濟(jì)應(yīng)用中的發(fā)展[8],基于中國數(shù)據(jù),將對宏觀經(jīng)濟(jì)的CPI和失業(yè)率等重要變量的預(yù)測,與新方法、新指標(biāo)進(jìn)行結(jié)合[9,10]。在實(shí)踐方面,對宏 觀經(jīng)濟(jì)監(jiān)測預(yù)測[11]也進(jìn)行了相應(yīng)的探索,并且在模型算法上 進(jìn)行了較新的嘗試[12]?;诰W(wǎng)絡(luò)數(shù)據(jù)進(jìn)行算法改造,將實(shí)時(shí)預(yù)報(bào) 和短期預(yù)測進(jìn)行結(jié)合[13]。
1.3 稅收經(jīng)濟(jì)分析和預(yù)測
作為經(jīng)濟(jì)分析重要組成部分的稅收經(jīng)濟(jì)分析,既有一般性的特點(diǎn),又有相對獨(dú)立的一些特色。
1.3.1 國外發(fā)展情況
由于管理上的優(yōu)勢,稅收一直以來就擁有豐富的數(shù)據(jù),以美國 納稅人遵從測算項(xiàng)目(taxpayer compliance measurement program,TCMP)和 國民研究計(jì)劃(national research program,NRP)項(xiàng)目最為著名。這兩個(gè)調(diào)查都是采取分層抽樣的方式,從個(gè)人所得稅申報(bào)表、公司所得稅申報(bào)表和 S類公司(符合特定條件的小企業(yè))申報(bào)表中隨機(jī)選取一定數(shù)量的數(shù)據(jù),用于美國納稅人的遵從情況研究。
隨著稅務(wù)管理信息化的深入,稅收日常管理中積累了海量數(shù)據(jù),這些數(shù)據(jù)可以彌補(bǔ)TCMP和NRP等隨機(jī)樣本數(shù)據(jù)的缺點(diǎn),例如需要大量的人力、物力進(jìn)行納稅檢查,并有一定的時(shí)滯,因此有些國家稅務(wù)管理當(dāng)局提出了應(yīng)用稅收管理數(shù)據(jù)(operational data)的設(shè)想。稅收管理數(shù)據(jù)不僅包括納稅人正常申報(bào)給稅務(wù)管理部門的各種數(shù)據(jù),還包括一定時(shí)期內(nèi)稅務(wù)部門運(yùn)用各種稅收檢查手段,對納稅人進(jìn)行檢查的數(shù)據(jù)。應(yīng)用稅收管理數(shù)據(jù)的優(yōu)點(diǎn)是可以在具體稅務(wù)管理活動中產(chǎn)生大量樣本,而不必專門花費(fèi)大量時(shí)間和金錢進(jìn)行調(diào)查。
擁有這些數(shù)據(jù)的稅務(wù)管理部門早就開始探索應(yīng) 用。Debarr D[14]的研究提到美國國內(nèi)稅務(wù)局早在2004年左右,就嘗試通過關(guān)系型挖掘技術(shù)發(fā)現(xiàn)海量納稅人數(shù)據(jù)中的遵從信息,針對高收入人群非法避稅的現(xiàn)象,應(yīng)用了支持向量機(jī)的數(shù)據(jù)挖掘方法,使用2000—2003年納稅年度的數(shù)據(jù),該模型識別了不少高收入納稅人不遵從的稅收案例,每個(gè)案例都涉及上百萬美元的偷逃稅額。目前,各國稅務(wù)部門正在積極探索相關(guān)方面的研究,在 經(jīng)濟(jì)合作與發(fā)展組織(Organization for Economic Cooperation and Development,OEC D)的國家中,德國、荷蘭、瑞典等國家的稅務(wù)部門設(shè)計(jì)了網(wǎng)絡(luò)爬蟲,收集相關(guān)的電子商務(wù)交易數(shù)據(jù),整理來自社交媒體的有用信息,包括博客、社交網(wǎng)絡(luò)、合作性質(zhì)的維基百科類/互動類論壇、 簡易信息聚合(really simple syndication,RSS)和小插件、微博(推特)等多種形式,用于稅務(wù)管理和稅收政策制定[15]。
1.3.2 國內(nèi)現(xiàn)狀
(1)稅收分析和預(yù)測的理論研究
國內(nèi)對稅收收入預(yù)測的研究也有不少優(yōu)秀的成果,包括對相關(guān)的稅收收入能力估算的探討、對各種預(yù)測方法的研究,不僅包括了各種傳統(tǒng)計(jì)量模型的應(yīng)用,系統(tǒng)動力學(xué)、神經(jīng)網(wǎng)絡(luò)等新方法的引入,還涉及稅收滾動預(yù)測實(shí)踐經(jīng)濟(jì)的總結(jié),并且也吸取了不少國際經(jīng)驗(yàn)。
在這些研究和實(shí)踐的基礎(chǔ)上,近年來,也開始探索大數(shù)據(jù)的應(yīng)用,例如構(gòu)建微觀數(shù)據(jù)體系的應(yīng)用[16]、在納稅評估體系建設(shè)中的應(yīng)用[17]、基于大數(shù)據(jù)的算法改進(jìn)[18]。總體來看,基于大數(shù)據(jù)的稅收分析和預(yù)測越來越得到重視,有著廣闊的發(fā)展空間。
(2)稅務(wù)領(lǐng)域大數(shù)據(jù)的發(fā)展
值得一提的是,目前我國稅務(wù)領(lǐng)域積累了數(shù)量可觀的大數(shù)據(jù),為進(jìn)一步的研究奠定了良好的數(shù)據(jù)基礎(chǔ)。
第一,稅務(wù)管理數(shù)據(jù)。由于我國納稅人數(shù)量眾多,涉稅事項(xiàng)各種各樣,在稅務(wù)管理和稅收政策應(yīng)用中,大數(shù)據(jù)的形成已成良好態(tài)勢。根據(jù)2010年前后金稅三期立項(xiàng)需求的不完全統(tǒng)計(jì),當(dāng)時(shí)全國國稅部門的數(shù)據(jù)量約為17 901 GB,地稅部門數(shù)據(jù)量約為13 068 GB,并且還在以378 GB/月的速度遞增。據(jù)了解,目前蘇州市國家稅務(wù)局已經(jīng)建立了稅務(wù)系統(tǒng)首個(gè)基于Hadoop的大數(shù)據(jù)體系。
自2015年4月1日起,隨著增值稅發(fā)票升級版的正式運(yùn)行,所有存量納稅人將不斷納入發(fā)票管理系統(tǒng),并且在2015年12月1日全國推廣電子發(fā)票。據(jù)不完全估計(jì),在營業(yè)稅改增值稅(以下簡稱營改增)推廣前,全國增值稅專用發(fā)票數(shù)量超過2.4億張,因此可以預(yù)期,隨著營改增的全面推廣,將形成基于電子發(fā)票的稅務(wù)管理大數(shù)據(jù)。
第二,稅收調(diào)查數(shù)據(jù)。除了在稅務(wù)管理信息系統(tǒng)中通過 重點(diǎn)稅源管理分析系統(tǒng)(taxation resource analysing system,TRAS)對重點(diǎn)稅源企業(yè)進(jìn)行監(jiān)控之外,我國稅務(wù)系統(tǒng)還借鑒國外的稅收微觀數(shù)據(jù)庫建設(shè)經(jīng)驗(yàn)。為了進(jìn)一步掌握稅源情況,國家稅務(wù)總局大概從2006年開始開展全國稅收調(diào)查,對稅收經(jīng)濟(jì)情況進(jìn)行了深入了解。全國稅收調(diào)查覆蓋了國民經(jīng)濟(jì)所有行業(yè)的納稅人,包括優(yōu)惠政策等重要事項(xiàng)的數(shù)據(jù),是其他數(shù)據(jù)(包括規(guī)模以上工業(yè)企業(yè)數(shù)據(jù)或經(jīng)濟(jì)普查數(shù)據(jù))等力不能及的。
第1節(jié)對大數(shù)據(jù)在經(jīng)濟(jì)和稅收領(lǐng)域分析預(yù)測現(xiàn)狀進(jìn)行了介紹,本節(jié)將對稅收經(jīng)濟(jì)領(lǐng)域大數(shù)據(jù)應(yīng)用特征、研究方法和理論進(jìn)一步概括。
2.1 更長、更寬、更活的序列
(1)變量變“長”
在前文提到的大數(shù)據(jù)典型案例中,大數(shù)據(jù)技術(shù)應(yīng)用在稅收經(jīng)濟(jì)研究中,不僅可以具有更多的觀測樣本,還可以回溯到更遠(yuǎn)的過去,在一個(gè)更長的時(shí)間序列中觀察稅收經(jīng)濟(jì)變量的長期變化規(guī)律,由于時(shí)間拉長,往往比較短時(shí)空中呈現(xiàn)的微弱變化更加明顯,增強(qiáng)了識別能力。
(2)變量變“寬”
在前文提到的大數(shù)據(jù)應(yīng)用典型案例中,Varian H R等將互聯(lián)網(wǎng)搜索情況納入分析預(yù)測考慮的變量,即根據(jù)使用Google瀏覽器進(jìn)行搜索的情況,將搜索關(guān)鍵詞分類,形成上千個(gè)關(guān)鍵詞,對這些關(guān)鍵詞的搜索次數(shù)進(jìn)行標(biāo)準(zhǔn)化、指數(shù)化,用以研究和預(yù)測某一方面的發(fā)展變化。許多基于大數(shù)據(jù)的研究還將變量選擇范圍拓寬到傳統(tǒng)領(lǐng)域之外,并提出了不少新穎的變量。
(3)粒度變“活”
一直以來,宏觀數(shù)據(jù)與微觀數(shù)據(jù)之間的銜接對應(yīng),總是不盡如人意,這一狀態(tài),大數(shù)據(jù)時(shí)代或許有所改觀,正如有些研究提出的宏觀、微觀數(shù)據(jù)的“混搭”探索一樣,在大數(shù)據(jù)的支撐下,或許可以在多個(gè)不同數(shù)據(jù)顆粒度下進(jìn)行分析,獲得更多的了解和發(fā)現(xiàn)。
2.2 新的研究方法
在大數(shù)據(jù)的支撐下,經(jīng)濟(jì)分析方法和模型將出現(xiàn)新的進(jìn)展。以Varian H R在Google大數(shù)據(jù)上的預(yù)測應(yīng)用為例,可以發(fā)現(xiàn),根據(jù)預(yù)測的目的,可以將搜索指數(shù)與傳統(tǒng)模型進(jìn)行結(jié)合。例如,在對汽車銷售量的預(yù)測中,通過在傳統(tǒng)的時(shí)間序列模型中加入搜索指數(shù),可改善模型的預(yù)測效果,如式(1)所示:
其中,xt是加入傳統(tǒng)時(shí)序模型的t期的搜索指數(shù),t-1、t-12分別是滯后1期和滯后12期的數(shù)據(jù),xt(1)是對應(yīng)的時(shí)序月份中的第一周的搜索指數(shù),yt是t期的預(yù)測值。從預(yù)測判斷的錯(cuò)誤百分比(PE)、平均絕對錯(cuò)誤(MAE)等指標(biāo)來看,加入了Google趨勢搜索指數(shù)的模型,在樣本預(yù)測期內(nèi),比傳統(tǒng)模型小3個(gè)百分點(diǎn)左右,可以認(rèn)為對預(yù)測結(jié)果有一定的改善。
除了在數(shù)據(jù)上引入大數(shù)據(jù)的理念之外,在模型方面,現(xiàn)有的研究也做了積極的嘗試,例如引入現(xiàn)有的理論方法進(jìn)行大數(shù)據(jù)情況下的模型優(yōu)化。在一般的模型表述形式中,如式(2)所示:
其中,yt是估測變量,εt是估測偏差。針對所謂的“胖?jǐn)?shù)據(jù)”,向量xt中維度數(shù)量遠(yuǎn)大于t,由于向量β大部分元素為0,所以可以通過所謂的Spike-and-Slab變量選擇回歸。
近年來,隨著機(jī)器學(xué)習(xí)熱點(diǎn)的形成,Athey S等人[7]進(jìn)一步開始探索機(jī)器學(xué)習(xí)在經(jīng)濟(jì)分析中的應(yīng)用。機(jī)器學(xué)習(xí)是一個(gè)廣義的名詞,而在狹義的定義上,機(jī)器學(xué)習(xí)則可以分為有監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí),具體包括 CART、 Boosting、 Bagging、Bootstrap、 Lasso等方法。傳統(tǒng)的計(jì)量經(jīng)濟(jì)學(xué)模型是指定某個(gè)模型后,通過其他備選模型來檢驗(yàn)其頑健性。與計(jì)量經(jīng)濟(jì)學(xué)方法相比,許多機(jī)器學(xué)習(xí)方法是通過交叉檢驗(yàn)選擇模型的,即機(jī)器學(xué)習(xí)反復(fù)在部分?jǐn)?shù)據(jù)上估計(jì)模型,在另一部分?jǐn)?shù)據(jù)上檢驗(yàn)?zāi)P?,然后通過復(fù)雜性懲罰項(xiàng),找到最合適的模型。這種特點(diǎn)被概括為所謂的施加約束性(regularization)和系統(tǒng)性的模型選擇(systematic model selection),在更長序列、更寬變量、更多粒度選擇的大數(shù)據(jù)經(jīng)濟(jì)分析環(huán)境下,或許將會變成經(jīng)濟(jì)學(xué)實(shí)證分析的標(biāo)配。
另外,雖然目前普遍認(rèn)為機(jī)器學(xué)習(xí)只注重基于相關(guān)關(guān)系的分析和預(yù)測,對于因果推斷還很不足,但部分學(xué)者已經(jīng)開始了探索,例 如Kolesar M等人[19]在理論層面的分析,還有一些研究者將機(jī)器學(xué)習(xí)應(yīng)用到因果推斷中,通過改變目標(biāo)函數(shù),將需要估計(jì)的因果效果通過定義一個(gè)算法來優(yōu)化,從而能夠測量因果關(guān)系。比如,Athey S[7]將隨機(jī)森林模型改造后用于估計(jì)個(gè)體處理效應(yīng),通過個(gè)體特征的模型,可以呈現(xiàn)某個(gè)具有特定特征的群體是如何對價(jià)格進(jìn)行變化的。
2.3 新的理論發(fā)現(xiàn)
在新數(shù)據(jù)、新方法的支持下,在包括稅收經(jīng)濟(jì)在內(nèi)的經(jīng)濟(jì)理論方面,或許會有一些新的發(fā)現(xiàn),例如爭論許久的稅收經(jīng)濟(jì)理論問題(如一致性減稅好還是結(jié)構(gòu)性減稅好、流轉(zhuǎn)稅制好還是所得稅制好等)可能會出現(xiàn)一絲曙光。另外,在預(yù)測理論上的一些難題(如是否存在能夠應(yīng)對突變的一般性理論模型和估計(jì)方法)也將有所突破。
在基于大數(shù)據(jù)的經(jīng)濟(jì)分析和預(yù)測方面,新的變量、新的方法和新的理論這3個(gè)特征之間應(yīng)該存在著互相推進(jìn)、齒輪聯(lián)動的有機(jī)關(guān)系,在某一方面的推進(jìn),必將推動其他兩個(gè)方面的進(jìn)展。
在國內(nèi)外的研究基礎(chǔ)上,將基于大數(shù)據(jù)的稅收分析和預(yù)測體系分解成了以下兩大目標(biāo):第一,涉稅大數(shù)據(jù)的獲取和處理,依托大數(shù)據(jù)技術(shù),抓取、清洗、分析稅收分析和預(yù)測所需的涉稅信息;第二,通過傳統(tǒng)方法和創(chuàng)新方法的結(jié)合,開展稅收分析和預(yù)測分析,以提高分析預(yù)測工作的科學(xué)化和智能化水平。
圍繞這兩大目標(biāo),構(gòu)建了相應(yīng)的總體方案,如圖11所示。
3.1 稅收分析和預(yù)測大數(shù)據(jù)庫的形成
稅收分析和預(yù)測大數(shù)據(jù)庫的形成首先應(yīng)該關(guān)注的問題是綜合不同來源稅收數(shù)據(jù),形成微觀稅收大數(shù)據(jù)體系,具體而言,包括以下工作。
(1)非稅務(wù)部門、非傳統(tǒng)渠道(主要是網(wǎng)絡(luò)分布數(shù)據(jù))的數(shù)據(jù)收集、清洗
大數(shù)據(jù)時(shí)代稅收分析和預(yù)測所需的數(shù)據(jù)不僅僅限于稅務(wù)管理部門已有的信息系統(tǒng)獲得的征管和財(cái)務(wù)數(shù)據(jù),還需要整合更多來源的信息,包括其他政府管理部門等第三方提供的結(jié)構(gòu)化數(shù)據(jù)和其他來源的數(shù)據(jù),尤其是動態(tài)發(fā)展中的來自于信息網(wǎng)絡(luò)互動中的涉稅信息,以實(shí)現(xiàn)大數(shù)據(jù)時(shí)代所謂“數(shù)據(jù)互聯(lián)”的要求。典型的非稅務(wù)部門非傳統(tǒng)渠道數(shù)據(jù)具有分散式、非結(jié)構(gòu)化等特點(diǎn),對于這些數(shù)據(jù)需要考慮數(shù)據(jù)的有效收集機(jī)制,并對收集的數(shù)據(jù)進(jìn)行清洗。
(2)非結(jié)構(gòu)化數(shù)據(jù)的結(jié)構(gòu)化轉(zhuǎn)換
根據(jù)稅收分析和預(yù)測的需要,按照工作中不同數(shù)據(jù)粒度的要求,對非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行結(jié)構(gòu)化轉(zhuǎn)換。
(3)不同來源涉稅數(shù)據(jù)的匹配
不同來源的數(shù)據(jù)必然存在不匹配問題,解決簡單的不匹配問題不僅僅是統(tǒng)一個(gè)體在不同系統(tǒng)中的標(biāo)識符(如稅務(wù)管理中的納稅人識別號與商業(yè)數(shù)據(jù)庫中企業(yè)代碼不同),或者消除部分個(gè)體。實(shí)際上,解決數(shù)據(jù)匹配問題的思路應(yīng)該借鑒經(jīng)濟(jì)研究過程中通過數(shù)據(jù)的彌補(bǔ)和插值來平滑缺失數(shù)據(jù)的做法,盡可能地拼接不同來源的數(shù)據(jù),以形成相對完整的數(shù)據(jù)信息全圖,并將最終呈現(xiàn)大數(shù)據(jù)模式下的涉稅數(shù)據(jù)的完整信息鏈。
圖1 基于大數(shù)據(jù)的稅收分析和預(yù)測體系示意
3.2 面向大數(shù)據(jù)的稅收分析和預(yù)測理論及模型構(gòu)建
本節(jié)將研究大數(shù)據(jù)時(shí)代數(shù)據(jù)分析的理論,根據(jù)不同市場(包括傳統(tǒng)市場和新興電子商務(wù)領(lǐng)域)的稅收經(jīng)濟(jì)機(jī)制,研究重要的稅收政策和管理問題的模型化問題。具體工作包括以下幾方面。
(1)大數(shù)據(jù)的數(shù)據(jù)分析理論
針對大數(shù)據(jù)的數(shù)據(jù)分析理論需要進(jìn)行創(chuàng)新探索,而不僅僅局限于相對模糊的智能學(xué)習(xí)方法等分析理論?;诖髷?shù)據(jù)的稅收分析理論的實(shí)質(zhì)是多維變量空間的數(shù)據(jù)分析理論,可以簡單描述如下:
其中,各變量x1,x2,x3,…,xn可以構(gòu)成n維空間,y是這個(gè)n維空間的一個(gè)函數(shù)值,這個(gè)映射形成的多維空間樣本點(diǎn)為(yi,xi1,xi2,xi3,…,xin),i為不同的多維樣本點(diǎn)的個(gè)數(shù)。其中的關(guān)鍵科學(xué)問題是將若干個(gè)多維空間樣本點(diǎn)(yi,xi1,xi2,xi3,…,xin)構(gòu)成的小樣本群適用的已有傳統(tǒng)分析理論一般化,以適用于全部多維空間樣本點(diǎn)中,并且建立具有理論統(tǒng)一性的方法解釋、有效的估計(jì)方法、科學(xué)的模型判斷體系。
(2)面向大數(shù)據(jù)的稅收分析和預(yù)測模型和算法構(gòu)建
本部分的工作是應(yīng)用大數(shù)據(jù)分析理論,在大數(shù)據(jù)空間中,對關(guān)鍵稅收管理和稅收政策問題選擇算法和建立分析模型。針對稅收管理和稅收政策現(xiàn)有理論基礎(chǔ)的不同情況,采用適用的算法建立模型。對于具有堅(jiān)實(shí)理論基礎(chǔ)的稅收分析和預(yù)測問題,通過應(yīng)用回歸模型、決策樹、邏輯回歸、關(guān)聯(lián)規(guī)則等算法建立模型。而對于理論上尚處于探索的問題,則采用聚類算法、隨機(jī)森林、神經(jīng)網(wǎng)絡(luò)、深度學(xué)習(xí)等算法開展模型庫建設(shè)。通過以上思路,形成面向稅收分析和預(yù)測的算法和程序,結(jié)合預(yù)測大數(shù)據(jù)庫,得出分析和預(yù)測模型,為應(yīng)用奠定科學(xué)基礎(chǔ)。
3.3 大數(shù)據(jù)環(huán)境中稅收分析和預(yù)測應(yīng)用
建立基于大數(shù)據(jù)的稅收數(shù)據(jù)應(yīng)用體系是非常必要的,通過這個(gè)體系更加能夠體現(xiàn)和挖掘稅收大數(shù)據(jù)的價(jià)值。在稅收分析和預(yù)測數(shù)據(jù)管理平臺的支撐下,包括以下兩項(xiàng)主要的應(yīng)用。
● 基于大數(shù)據(jù)的稅收分析和預(yù)測結(jié)果指標(biāo)。將分析預(yù)測模型和算法用于大數(shù)據(jù),產(chǎn)生稅收分析和預(yù)測結(jié)果指標(biāo)。
● 稅收預(yù)測結(jié)果公開體系。在大數(shù)據(jù)稅收分析和預(yù)測結(jié)果指標(biāo)的基礎(chǔ)上,經(jīng)過分析加工,建立反映稅務(wù)系統(tǒng)、政府稅門、社會公眾等不同群體關(guān)注的稅收分析和預(yù)測結(jié)果,體現(xiàn)不同群體的關(guān)注重點(diǎn),形成分析數(shù)據(jù)公開、分析模型透明、結(jié)論可重復(fù)的稅收分析和預(yù)測公開體系。
3.4 稅收經(jīng)濟(jì)分析和預(yù)測的重點(diǎn)和難點(diǎn)
實(shí)現(xiàn)上述框架體系涉及的重點(diǎn)工作如下。
● 探索和形成基于大數(shù)據(jù)的若干稅源變量,包括建立若干重點(diǎn)行業(yè)點(diǎn)擊量景氣指數(shù)、重點(diǎn)行業(yè)關(guān)鍵詞指數(shù)序列、重點(diǎn)產(chǎn)品和服務(wù)點(diǎn)擊量景氣指數(shù)(可以考慮在卷煙、酒、紡織品、煤炭、原油、成品油、電力、化工產(chǎn)品、機(jī)械運(yùn)輸設(shè)備、鋼坯鋼材、有色金屬、建材、服務(wù)皮革、電氣器材、電信設(shè)備等領(lǐng)域及金融服務(wù)、建筑、租賃和商務(wù)服務(wù)業(yè)、住宿餐飲業(yè)、房地產(chǎn)業(yè)等重點(diǎn)行業(yè)中,選擇數(shù)據(jù)基礎(chǔ)好、可行性較強(qiáng)的若干行業(yè)),抓取在線交易商品和服務(wù)信息,生成涉稅居民消費(fèi)品價(jià)格指數(shù)。
● 基于大數(shù)據(jù)的稅源數(shù)據(jù),整合稅務(wù)內(nèi)部大數(shù)據(jù),建立重點(diǎn)行業(yè)稅收分析和預(yù)測模型,目前的設(shè)想是在國家稅務(wù)總局分析預(yù)測模型基礎(chǔ)上,加入以上構(gòu)建的大數(shù)據(jù)變量,探索應(yīng)用與現(xiàn)在大數(shù)據(jù)匹配可行的新模型和新方法,形成基于大數(shù)據(jù)的稅收收入分析和預(yù)測模型。
● 推出重點(diǎn)行業(yè)稅收預(yù)測的公開體系。在以上工作的基礎(chǔ)上,根據(jù)稅務(wù)部門、政府管理、納稅人、其他經(jīng)濟(jì)分析部門等不同群體需求,嘗試推出部分重點(diǎn)行業(yè)重要指標(biāo)的稅收分析和預(yù)測,以利于相關(guān)部門和企業(yè)的決策。
從目前各行各業(yè)的大數(shù)據(jù)實(shí)踐以及筆者的前期探索來看,以上設(shè)想工作的展開預(yù)計(jì)會存在以下難點(diǎn)。
● 稅收分析預(yù)測和相關(guān)大數(shù)據(jù)源的確定。由于不同部門工作需求的不同,稅收分析預(yù)測所需的相關(guān)稅源數(shù)據(jù)可能并不存在,需要通過系統(tǒng)性調(diào)查研究確定稅收收入分析領(lǐng)域與哪些互聯(lián)網(wǎng)大數(shù)據(jù)聯(lián)系比較緊密,來源于哪些互聯(lián)網(wǎng)數(shù)據(jù)源(搜索、微博、特定網(wǎng)站等),根據(jù)可行性確定相應(yīng)的獲取方案。
● 多源數(shù)據(jù)的融合。來源于不同部門的數(shù)據(jù)必然存在數(shù)據(jù)口徑不同的問題,甚至隨著時(shí)間的變化,各部門自身的數(shù)據(jù)也會發(fā)生口徑差異,而稅收經(jīng)濟(jì)分析必須融合多部門的數(shù)據(jù),因此工作中必然碰到稅務(wù)部門數(shù)據(jù)與大數(shù)據(jù)來源數(shù)據(jù)的融合問題。
● 基于大數(shù)據(jù)的模型構(gòu)建。對于大數(shù)據(jù)而言,傳統(tǒng)的稅收經(jīng)濟(jì)分析模型已經(jīng)碰到困難,探索“胖?jǐn)?shù)據(jù)”等特征的大數(shù)據(jù)模型成為應(yīng)用大數(shù)據(jù)發(fā)現(xiàn)更多稅收經(jīng)濟(jì)規(guī)律的核心所在。
本文通過梳理大數(shù)據(jù)在經(jīng)濟(jì)和稅收領(lǐng)域的國內(nèi)外發(fā)展情況,概括了基于大數(shù)據(jù)的稅收經(jīng)濟(jì)分析和預(yù)測的3個(gè)主要特征,并嘗試進(jìn)一步構(gòu)建基于大數(shù)據(jù)的稅收分析和預(yù)測框架體系,為推進(jìn)該領(lǐng)域的發(fā)展做出初步的探索。
[1] CHETTY R, FRIEDMAN J N, FRIEDMAN J N, et al. Measuring the impacts of teachers i: evaluating bias in teacher valueadded estimates[J]. The American Economic Review, 2013, 104(9): 2593-2632.
[2] CAVALLO A, RIGOBON R. The billion prices project: using online prices for measurement and research[J]. Journal of Economic Perspectives, 2016, 30(2): 151-178.
[3] VARIAN H R, CHOI H. Predicting the present with Google trends[J]. Economic Record, 2009(88): 2-9.
[4] CHETTY R, FRIEDMAN J N, FRIEDMAN J N, et al. Measuring the impacts of teachers I: evaluating bias in teacher valueadded estimates[J]. The American Economic Review, 2013, 104(9): 2593-2632.
[5] EINAV L, LEVIN J. Economics in the age of big data[J]. Science, 2014, 346(6210): 1243089.
[6] VARIAN H R. Big data: new tricks for econometrics[J]. Journal of Economic Perspectives, 2014, 28(2): 3-28.
[7] ATHEY S. Machine learning and causal inference for policy evaluation[C]//The 21th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, August 10-13, 2015, Sydney, NSW, Australia. New York: ACM Press, 2015.
[8] 劉濤雄, 徐曉飛. 大數(shù)據(jù)與宏觀經(jīng)濟(jì)分析研究綜述[J]. 國外理論動態(tài), 2015(1): 57-64. LIU T X, XU X F. The research of big data and macroeconomic analysis[J]. Foreign Theoretical Trends, 2015(1): 57-64.
[9] 張崇, 呂本富, 彭庚, 等. 網(wǎng)絡(luò)搜索數(shù)據(jù)與CPI的相關(guān)性研究[J]. 科學(xué)管理學(xué)報(bào), 2012(7): 50-59. ZHANG C, LV B F, PENG G, et al. A study on correlation between web search data and CPI[J]. Journal of Management Sciences in China, 2012(7): 50-59.
[10] 袁慶玉, 彭賡, 劉穎, 等. 基于網(wǎng)絡(luò)關(guān)鍵詞搜索數(shù)據(jù)的汽車銷量預(yù)測研究[J]. 管理學(xué)家: 學(xué)術(shù)版, 2011(1): 12-24. YUAN Q Y, PENG G, LIU Y, et al. A prediction study on the amount of automotive sales based on web search data[J]. Management Scientist: Academic Edition, 2011(1): 12-24.
[11] 陳龍, 王建冬, 竇悅. 基于互聯(lián)網(wǎng)大數(shù)據(jù)的宏觀經(jīng)濟(jì)監(jiān)測預(yù)測研究:理論與方法[J]. 電子政務(wù), 2016(1): 18-25. CHEN L, WANG J D, DOU Y. The research on macroeconomic forecast based on internet big data: theory and method [J]. E-Government, 2016(1): 18-25.
[12] 彭庚, 蘇亞軍, 李娜. 失業(yè)率預(yù)測研究——基于網(wǎng)絡(luò)搜索數(shù)據(jù)及改進(jìn)的逐步回歸模型[J].現(xiàn)代科學(xué)管理, 2013(12): 40. PENG G, SU Y J, LI N. The unemployment rate forecasting: the stepwise regression model based on web search data[J]. Modern Management Science, 2013(12): 40.
[13] 劉漢, 劉金全. 中國宏觀經(jīng)濟(jì)總量的實(shí)時(shí)預(yù)報(bào)與短期預(yù)測——基于混頻數(shù)據(jù)預(yù)測模型的實(shí)證研究[J]. 經(jīng)濟(jì)研究, 2011(3): 4-6. LIU H, LIU J Q. The real time and short term prediction of China's macro economy: an empirical study based on mixed data prediction model[J]. Economic Research Journal, 2011(3): 4-6.
[14] DEBARR D, HARWOOD M. Relational mining for compliance risk[R]. Washington: Internal Revenue Service, 2004.
[15] OECD. Tax administration in OECD and selected non-OECD countries: comparative information series(2010)[R]. Paris: OECD, 2011.
[16] 謝波峰. 大數(shù)據(jù)時(shí)代微觀數(shù)據(jù)體系的構(gòu)建[J].稅務(wù)研究, 2015(1): 92-95. XIE B F. The construction of micro data system in the era of big data[J]. Taxation Research, 2015(1): 92-95.
[17] 劉尚希, 孫靜, 王亞軍. 大數(shù)據(jù)思維在納稅評估選案建模中的應(yīng)用[J]. 稅務(wù)研究, 2015(10): 7-11. LIU S X, SUN J, WANG Y J. Big data thinking in the application of tax assessment system modeling[J]. Taxation Research, 2015(10): 7-11.
[18] 孫存一, 王敏. 基于大數(shù)據(jù)算法的納稅遵從風(fēng)險(xiǎn)的行為軌跡與動機(jī)[J]. 稅務(wù)研究, 2015(10): 16-20. SUN C Y, WANG M. The behavior track and motivation of tax compliance risk based on big data algorithm[J]. Taxation Research, 2015(10): 16-20.
[19] KOLESAR M, CHETTY R, FRIEDMAN J N, et al. Identification and inference with many invalid instruments[J]. Journal of Business & Economic Statistics, 2015, 33(4): 474-484.
Exploratory research on big data application of analysis and forecasting in economics of tax
XIE Bofeng
School of Finance, Renmin University of China, Beijing 100872, China
Based on the current forecasting theory and practice in the economics of tax, big data applications give chance for the improvement and development of theory and practice. The main progress and characters in this field were summarized. The main progress and characters of economic analysis and forecasting with big data in tax field were summarized, and some advices about the future development were given.
The National Natural Science Foundation of China(No.71373267)
F810.42
A
10.11959/j.issn.2096-0271.2017026
謝波峰(1976-),男,中國人民大學(xué)財(cái)政金融學(xué)院副教授,中國人民大學(xué)金融與財(cái)稅電子化研究所執(zhí)行所長,國家電子商務(wù)示范城市專家委員會成員,上海市數(shù)據(jù)科學(xué)重點(diǎn)實(shí)驗(yàn)室數(shù)據(jù)科學(xué)家,近年來主要研究方向?yàn)榇髷?shù)據(jù)與互聯(lián)網(wǎng)對財(cái)稅金融管理的影響、基于微觀數(shù)據(jù)的稅收政策分析、企業(yè)稅收風(fēng)險(xiǎn)管理。
2017-02-22
國家自然科學(xué)基金資助項(xiàng)目(No.71373267)
稅收經(jīng)濟(jì)分析;稅收預(yù)測;大數(shù)據(jù)