吳衛(wèi)華 李俊萍
隨著經(jīng)濟的發(fā)展,現(xiàn)金交易量已是萬億級,高頻的現(xiàn)金收支數(shù)據(jù)日益積累為現(xiàn)金收支大數(shù)據(jù),能否有效利用現(xiàn)金收支大數(shù)據(jù)的波動反映地區(qū)宏觀經(jīng)濟形勢,對于及時監(jiān)測地區(qū)經(jīng)濟發(fā)展狀態(tài)具有重要意義。本文在收集浙江省主要銀行機構現(xiàn)金收支數(shù)據(jù)的基礎上,區(qū)別于以往研究中通過宏觀經(jīng)濟變量波動對現(xiàn)金投放、回籠數(shù)據(jù)進行預測,另辟蹊徑,通過機器學習的方法,建立模型,透過現(xiàn)金收支數(shù)據(jù)“見微知著”地預測有關宏觀經(jīng)濟指標,并給出預測效果評價。結果顯示,使用微觀的銀行現(xiàn)金收支數(shù)據(jù)對社會消費品零售總額預測效果較好,對地方GDP和固定資產(chǎn)投資額預測在部分地市有效、部分無效,而對于居民消費價格指數(shù)(CPI)的預測則完全無效。
一、引言
近兩年,新冠疫情這一“黑天鵝”事件的出現(xiàn),導致經(jīng)濟波動相較以往更為頻繁,如何及時有效預測宏觀經(jīng)濟以便于“對癥施策”,成為擺在決策者面前的重大課題。而現(xiàn)金作為社會大眾持有和使用面最廣的金融工具,連接著“千家萬戶”。銀行作為央行向社會投放和回籠現(xiàn)金的唯一“通道”,匯集了各行各業(yè)的現(xiàn)金收支信息,現(xiàn)金收支數(shù)據(jù)已然是名副其實的大數(shù)據(jù)。既然如此,銀行現(xiàn)金收支大數(shù)據(jù)能否得以有效利用,以便從其變化及時測度宏觀經(jīng)濟指標變動趨勢?進一步地,現(xiàn)金收支大數(shù)據(jù)能預測反映哪些地區(qū)宏觀經(jīng)濟指標?又無法預測反映哪些宏觀指標?本文嘗試對此進行探索。
針對現(xiàn)金與宏觀經(jīng)濟之間的關系,已有研究大多集中于宏觀經(jīng)濟對現(xiàn)金收支的影響或者現(xiàn)金對宏觀經(jīng)濟的反映層面。歸納來說,就是經(jīng)濟變動決定著現(xiàn)金波動,現(xiàn)金波動反映著經(jīng)濟變化(張紅地,2002)。而對于從現(xiàn)金收支大數(shù)據(jù)預測宏觀經(jīng)濟的研究,現(xiàn)有文獻尚較為匱乏。但現(xiàn)代經(jīng)濟依賴于大規(guī)模的數(shù)據(jù)整合和交換(涂子沛,2015)。因而,利用銀行現(xiàn)金收支大數(shù)據(jù)“窺探”宏觀經(jīng)濟指標波動規(guī)律的研究,十分必要,凸顯了本文研究的價值與意義。
為此,本文從Fayyad(1996)和謝平等(2014)提出的大數(shù)據(jù)“描述”和“預測”兩個基本功能出發(fā),構建一個基于銀行現(xiàn)金收支大數(shù)據(jù)的宏觀經(jīng)濟分析和預測框架模型,旨在提高現(xiàn)金收支管理的預見性。首先,我們闡述了現(xiàn)金收支數(shù)據(jù)的性質(zhì)和特征,以及與宏觀經(jīng)濟變量的內(nèi)在關系,這是使用現(xiàn)金收支數(shù)據(jù)預測分析宏觀經(jīng)濟的基礎。然后,提出分析和預測的框架模型。最后,使用銀行現(xiàn)金收支數(shù)據(jù)實證檢驗模型的可用性。
研究表明,銀行現(xiàn)金收支大數(shù)據(jù)能夠預測部分宏觀經(jīng)濟指標,而對個別宏觀經(jīng)濟指標預測則完全無效。具體地,使用微觀的銀行現(xiàn)金收支數(shù)據(jù)對社會消費品零售總額預測效果較好,對地方上的GDP和固定資產(chǎn)投資額預測效果在省內(nèi)部分地市有效、部分無效,而對于居民消費價格指數(shù)(CPI)的預測則完全無效。
本文的貢獻在于首次嘗試從銀行現(xiàn)金收支視角預測地區(qū)宏觀經(jīng)濟指標,且給出預測效果的評價,彌補了學術界關于現(xiàn)金收支與宏觀經(jīng)濟之間關系的研究視角的不足。余下部分安排:第二部分是現(xiàn)金大數(shù)據(jù)分析預測經(jīng)濟指標的理論分析;第三部分是預測模型設定;第四部分是實證分析與預測評價;第五部分是研究結論。
二、現(xiàn)金大數(shù)據(jù)分析預測宏觀經(jīng)濟的理論分析
在“中央銀行——商業(yè)銀行”二級銀行制度下,現(xiàn)金收支主要分為兩大環(huán)節(jié),第一環(huán)節(jié)是人民銀行發(fā)行庫發(fā)行基金到商業(yè)銀行業(yè)務庫的發(fā)行過程,以及商業(yè)銀行業(yè)務庫現(xiàn)金回到人民銀行發(fā)行庫的現(xiàn)金回籠過程;第二環(huán)節(jié)是經(jīng)濟主體與銀行之間現(xiàn)金存入與取出的過程??紤]到對經(jīng)濟波動的及時感知以及與宏觀經(jīng)濟的關聯(lián)度,在此分析銀行與社會經(jīng)濟主體之間的現(xiàn)金收支數(shù)據(jù)。
有大量的研究考察現(xiàn)金收支數(shù)據(jù)與宏觀指標之間的聯(lián)系,如孫春廣(2014)通過協(xié)整回歸進行實證分析,研究表明宏觀經(jīng)濟總量與現(xiàn)金凈投放呈現(xiàn)明顯的相關性。杜銘(2014)利用模型分析湖南省現(xiàn)金指標與宏觀經(jīng)濟量化關系,分析表明湖南省GDP 的增長與現(xiàn)金投放、回籠規(guī)模之間存在緊密的內(nèi)在聯(lián)系且現(xiàn)金收支的最終格局由第二、三產(chǎn)業(yè)的共同作用來決定??傊?,大多數(shù)研究都表明現(xiàn)金收支與經(jīng)濟發(fā)展密切相關。但是大部分研究關注的是宏觀經(jīng)濟運行對現(xiàn)金投放的影響,缺乏從現(xiàn)金投放觀察宏觀經(jīng)濟的研究,而且已有研究大部分著眼于人民銀行發(fā)行庫到銀行業(yè)務庫的數(shù)據(jù),缺乏從銀行現(xiàn)金收支數(shù)據(jù)入手的研究。
各行各業(yè)的交易數(shù)據(jù)是形成宏觀經(jīng)濟指標的因素,而人民幣現(xiàn)金作為便利交易的支付工具,其使用頻率高低或數(shù)量多寡,實實在在反映著行業(yè)或個體的興衰更替,甚至可以將現(xiàn)金視為插入實體經(jīng)濟內(nèi)部的“體溫計”。基于此,本文提出如下研究假設:
H1:在銀行現(xiàn)金收支大數(shù)據(jù)與宏觀經(jīng)濟指標之間,能夠通過銀行現(xiàn)金收支大數(shù)據(jù)分析預測宏觀經(jīng)濟變量。
三、數(shù)據(jù)來源、處理與模型設定
(一)數(shù)據(jù)來源和處理
本文以浙江省為例,對浙江省內(nèi)各地市宏觀經(jīng)濟運行進行分析預測。數(shù)據(jù)分為分析數(shù)據(jù)指標和預測宏觀經(jīng)濟指標兩大類。
1.分析數(shù)據(jù)指標方面。選擇省內(nèi)現(xiàn)金業(yè)務量較大的7家(類)銀行機構,分別是:浙江農(nóng)信聯(lián)社、浙商銀行、杭州銀行、建設銀行、郵儲銀行、泰隆銀行、臺州銀行等7家(類)銀行,2020年該7家(類)銀行機構現(xiàn)金收支占到全省現(xiàn)金收支總額的72%,具有較強代表性。后續(xù),以該7家樣本銀行機構2010年第1季度-2019年第4季度在浙江省域內(nèi)發(fā)生的現(xiàn)金收支數(shù)據(jù)作為分析對象。采集的數(shù)據(jù)包括存現(xiàn)總額、取現(xiàn)總額、存入筆數(shù)、取出筆數(shù)、存取現(xiàn)客戶量、存入大于30萬元的筆數(shù)、取現(xiàn)大于30萬元的筆數(shù)、ATM存現(xiàn)金額、ATM取現(xiàn)金額等9個。由于絕對值會因各地地域面積、客戶量的差異存在較大差異,因此對數(shù)據(jù)做相對化處理。
具體指標可以分為三類:第一類反映區(qū)域內(nèi)單位面積現(xiàn)金收支總體情況,如相關密度指標:存現(xiàn)密度(存入總額/面積)、取現(xiàn)密度(取現(xiàn)總額/面積)、存業(yè)務密度(存入業(yè)務量/面積)、取業(yè)務密度(取現(xiàn)業(yè)務量/面積);第二類是反映區(qū)域逐筆現(xiàn)金收支平均情況的指標,如客均交易額(存取總額/存取交易賬戶數(shù))、客均業(yè)務量(存取業(yè)務總量/存取交易賬戶數(shù));第三類反映現(xiàn)金收支的結構情況,如大額存現(xiàn)比(超過30萬額度的存入業(yè)務量/取現(xiàn)業(yè)務量)、大額取現(xiàn)比(超過30萬額度的取現(xiàn)業(yè)務量/取現(xiàn)業(yè)務量)、ATM存現(xiàn)比(ATM存現(xiàn)總額/存現(xiàn)總額)、ATM取現(xiàn)比(ATM取現(xiàn)總額/取現(xiàn)總額)。之所以會選擇這些指標,主要考慮如下因素:
第一類指標中,區(qū)域內(nèi)現(xiàn)金存入、取現(xiàn)密度是一個區(qū)域內(nèi)各銀行現(xiàn)金存入以及取出額與區(qū)域面積的比值。區(qū)域內(nèi)存入業(yè)務、取現(xiàn)業(yè)務密度則是相應的業(yè)務量與區(qū)域面積的比值。姚雯和婁飛鵬(2009)實證認為人均 GDP影響銀行現(xiàn)金收支,又考慮到以地級市為單位進行研究,轄區(qū)面積不一樣,銀行的網(wǎng)點數(shù)量不盡相同,而現(xiàn)金收支量往往與網(wǎng)點數(shù)量有關,因此將地域面積考慮在內(nèi),考察單位面積的現(xiàn)金收支密度對一地宏觀經(jīng)濟的預測。
第二類指標中,戶均存、取現(xiàn)額是該區(qū)域內(nèi)的存現(xiàn)總額、取現(xiàn)總額與發(fā)生存取交易的賬戶數(shù)的比值。與第一類指標類似,單純的存取現(xiàn)總量不僅會受到轄區(qū)大小造成的網(wǎng)點數(shù)量差異而無可比較性,客戶的總量也會影響存取現(xiàn)總額。存取現(xiàn)總額與發(fā)生存取現(xiàn)業(yè)務的客戶數(shù)之比就是一個客均的概念,客均數(shù)比單純的總數(shù)更能比較出各地的差異。
第三類指標中,區(qū)域類大額存入、大額取出占比是存入、取出超過30萬的業(yè)務占所有的現(xiàn)金存取業(yè)務的比例。浙江省大額現(xiàn)金管理試點中,對個人存取現(xiàn)管理起點為30萬,因此本文將大額的閾值設置為30萬。有較大比例的大額現(xiàn)金交易的地區(qū),未被觀測的地下經(jīng)濟活動的規(guī)??赡茌^大,劉丹丹(2009)的研究認為在經(jīng)濟加速增長時期,未觀測經(jīng)濟會加劇官方經(jīng)濟的波動,在經(jīng)濟緊縮時期,未觀測經(jīng)濟會減弱官方經(jīng)濟的波動。所以大額現(xiàn)金交易背后未被觀測的經(jīng)濟活動會影響官方披露的經(jīng)濟數(shù)據(jù)。ATM存現(xiàn)、取現(xiàn)占比是ATM存取現(xiàn)的金額在總的存取現(xiàn)金額中的比例。ATM可以提供全天候服務,因此ATM取現(xiàn)的占比一定程度上反映了銀行非營業(yè)時間的現(xiàn)金存取活動,體現(xiàn)了一些非網(wǎng)點、非營業(yè)時間的現(xiàn)金存取活動,另外ATM數(shù)量也和當?shù)亟?jīng)濟活動密度較為相關,在經(jīng)濟繁榮的地方數(shù)量較大,因此ATM取現(xiàn)占比也體現(xiàn)了一些經(jīng)濟密度大的區(qū)域的現(xiàn)金存取活動。
但現(xiàn)金收支大數(shù)據(jù)指標在數(shù)量級上有差別,如果不進行處理,數(shù)量級大的指標就會貢獻大部分的結果解釋,數(shù)量級較小指標中蘊含的數(shù)據(jù)信息會被“掩蓋”,因此,需要對數(shù)據(jù)統(tǒng)一標準,進行歸一化處理。文中對數(shù)據(jù)按照特征維度進行歸一化:。
2.預測宏觀經(jīng)濟指標方面。參考已有文獻,選擇消費者物價指數(shù)(CPI)、社會消費品零售總額(COST)、國內(nèi)生產(chǎn)總值(GDP)、固定資產(chǎn)投資增速(INV)等4個宏觀經(jīng)濟指標進行預測。其中,居民消費價格指數(shù)(CPI),反映消費產(chǎn)品價格的變化情況,與個人消費者相關。社會消費品零售總額(COST)代表貿(mào)易量,貨幣天然就是為便利貿(mào)易而產(chǎn)生的,因而相關指標也應該是現(xiàn)金收支數(shù)據(jù)天然可以預測的。國內(nèi)生產(chǎn)總值(GDP)是一個流量概念,是衡量一個國家或地區(qū)一定時期內(nèi)以貨幣計價的最終產(chǎn)品和勞務價值總和。此外,投資也是推動經(jīng)濟增長的重要因素。固定資產(chǎn)投資作為衡量投資的一個重要指標,它需要大量資金,直接增加了大量貨幣需求,增加了現(xiàn)金投放。所以,將固定資產(chǎn)投資額(INV)也作為預測指標引入。相關預測宏觀經(jīng)濟指標見表1。
(二)預測模型設定
基于機器學習方法和python語言,構建線性回歸模型,利用銀行現(xiàn)金收支大數(shù)據(jù)預測宏觀經(jīng)濟指標。
模型的構建和運行,具體通過python模型工具箱調(diào)用實現(xiàn),主要分為六個步驟:
第一步,對數(shù)據(jù)進行標準化預處理。使用前述的數(shù)據(jù)歸一化的方法,將數(shù)據(jù)進行標準化,使數(shù)據(jù)落在[0,1]之間。
第二步,對輸入的分析指標降維處理。為降低銀行現(xiàn)金收支大數(shù)據(jù)各項分析指標的相關性,同時避免輸入指標過多導致的大數(shù)據(jù)“維度災難”①,使用傳統(tǒng)的主成分分析法對分析指標降維處理。
第三步,相關性分析。降維得出主成分指標后,需要分析主成分指標與要預測的宏觀經(jīng)濟指標的相關性,以檢驗理論上是否可以使用選取的大數(shù)據(jù)特征指標得到一個有預測能力的模型。
第四步,構建線性回歸模型。回歸過程使用python機器學習完成。線性回歸可以對觀測數(shù)據(jù)集的y和X的值擬合出一個預測模型,對于一個新增的X值,在沒有給定與它相配對的y的情況下,可以用這個擬合過的模型預測出y值。
第五步,訓練模型。隨機抽樣選取約80%的數(shù)據(jù)作為訓練集,20%數(shù)據(jù)作為測試集。將輸入值和輸出值在訓練集中估計出最佳擬合模型參數(shù),然后在測試集中用該參數(shù)進行預測。根據(jù)訓練集和測試集準確率,調(diào)整參數(shù)估計方法,可使用隨機梯度下降法對算法進行優(yōu)化。
第六步,模型評估。使用python語言中驗證模型準確性的指令,得到模型準確度得分。
四、實證分析
(一)降維
降維時采用主成分分析法。將原來多個指標做線性組合,作為新的綜合指標。本文采用python的sklearn庫中的相關模塊自動完成主成分分析并輸出,最終可以確定前5個成分占據(jù)了大部分解釋,因此最終選擇5個主成分。
(二)模型訓練與結果預測評估
在本文中,研究選擇的數(shù)據(jù)集是銀行現(xiàn)金收支大數(shù)據(jù),而預測的指標是相關宏觀經(jīng)濟指標,適合使用線性回歸。為了排除回歸結果的偶然性,本文將數(shù)據(jù)集打亂后重新按照訓練集80%,測試集20%的比例劃分后進行訓練與檢驗。
將五個主成分的訓練集合定義為x_train,測試集定義為x_test。將宏觀經(jīng)濟指標GDP、CPI、社會消費品零售總額(COST)、固定資產(chǎn)投資增速((INV))依次設為Y1_train到Y4_train,同樣地,測試集分別為Y1_test到Y4_test。通過輸入訓練集合中的自變量集和觀測值學習構建完成預測模型,因有4個觀測的目標變量,因此需要分別進行訓練和預測。因為浙江省各地市經(jīng)濟結構存在差異,不同的現(xiàn)金收支指標對當?shù)氐暮暧^經(jīng)濟變量映射情況也存在差異。因此,在進行學習與測試時,11個地市分別進行。首先運用各地的x_train與Y_train進行學習,得到模型后輸入x_test預測Y值。圖1展示的是杭州實際宏觀變量值與模型預測情況的對比圖。
由于篇幅原因,浙江省其余10市的模型預測情況不再羅列展示。為了更好的評估預測效果以及模型的準確度,本文使用評估模型計算模型的得分。
在本文機器學習模型使用的python的sklearn模塊中,包含四種評價尺度,分別是均方差、平均絕對值誤差、可釋方差得分、中值絕對誤差和R^2決定系數(shù),此處采用擬合優(yōu)度即R^2來評價回歸模型。表2展示了回歸結果的擬合優(yōu)度,得分越接近1,表明模型的預測效果越好,得分接近0表明預測值接近真實值的平均,得分為負,則說明模型完全隨機,無預測效果。
表2報告了預測效果評價得分,可以看出:第一,就宏觀經(jīng)濟變量GDP的預測來看,整體上,銀行現(xiàn)金收支大數(shù)據(jù)與GDP之間存在著一定的映射關系,大部分預測評價得分在0.5左右,其中,使用銀行現(xiàn)金收支數(shù)據(jù)預測杭州地區(qū)GDP的效果最好,評價得分達到了0.71。第二,對于使用現(xiàn)金收支數(shù)據(jù)預測居民消費價值指數(shù)(CPI)的評價,結果比較出乎意料,銀行現(xiàn)金收支大數(shù)據(jù)對于CPI的預測基本無效,二者之間并無穩(wěn)定的關系。第三,關于社會消費品零售總額的預測,銀行現(xiàn)金收支大數(shù)據(jù)對當季社會消費品零售總額有較好的預測效果,模型預測效果平均評價得分0.76,方差0.23,為四個預測宏觀經(jīng)濟變量中預測方差最小值,足以說明使用銀行現(xiàn)金收支數(shù)據(jù)預測社會消費品零售總額效果較好且較為穩(wěn)定。第四,對于固定資產(chǎn)投資額的預測,部分地市有效,部分無效。銀行現(xiàn)金收支數(shù)據(jù)預測固定資產(chǎn)投資額的效果評價地區(qū)差異較大,在舟山地區(qū)預測效果較好,而在衢州地區(qū)模型預測無效。
五、研究結論
本文通過python機器學習的方法對微觀的銀行現(xiàn)金收支大數(shù)據(jù)與宏觀經(jīng)濟指標進行了學習回歸,研究發(fā)現(xiàn),銀行現(xiàn)金收支大數(shù)據(jù)與國內(nèi)生產(chǎn)總值、物價變動指數(shù)、固定資產(chǎn)投資增速、社會消費品零售總額等宏觀指標映射關系
第一,關于對消費者物價指數(shù)CPI的預測,銀行現(xiàn)金收支大數(shù)據(jù)指標與消費者物價指數(shù)CPI的基本沒有映射關系,預測模型無效,即兩者幾乎不存在穩(wěn)定關系;
第二,關于社會消費品零售總額的預測,銀行現(xiàn)金收支大數(shù)據(jù)與社會消費品零售總額有較強的映射關系,杭州、湖州、臺州三市的模型擬合優(yōu)度甚至高于0.9,說明銀行現(xiàn)金收支大數(shù)據(jù)對當季度的社會消費品零售總額有較好的預測效果,且各地模型預測得分平均分達到了0.76,方差只有0.23,預測效果良好且比較穩(wěn)定。本項目中因溫州社會消費品零售總額缺失值較多,無法得出準確結果,因此數(shù)據(jù)空缺;
第三,關于地方GDP的預測,銀行現(xiàn)金收支大數(shù)據(jù)與GDP的存在一定的映射關系,大部分預測得分在0.5左右,杭州的預測效果最好,得分達到了0.71,嘉興預測得分最差只有0.11,方差0.31,銀行現(xiàn)金收支大數(shù)據(jù)與當季GDP有一些穩(wěn)定的映射關系,映射關系不明顯;
第四,關于固定資產(chǎn)投資額的預測,銀行現(xiàn)金收支大數(shù)據(jù)對各地固定資產(chǎn)投資額的映射關系內(nèi)部差異較大,在舟山顯示出了較好的映射,但是在衢州,模型則完全失效,剔除極端的幾個數(shù)據(jù),其預測的效果和預測GDP的效果類似。
總而言之,可以認為銀行現(xiàn)金收支大數(shù)據(jù)對一地當期的社會消費品零售總額提前做出較好、較穩(wěn)定的預測,而對GDP與固定資產(chǎn)投資額的預測效果不明顯,可以因地區(qū)差異謹慎利用,而對CPI來說,模型基本無效,使用銀行現(xiàn)金收支大數(shù)據(jù)無法預測CPI。
注釋:
①在大數(shù)據(jù)處理過程中,對于已知樣本數(shù)目,存在一個特征數(shù)目的最大值,當實際使用的特征數(shù)目超過這個最大值時,分類器的性能退化。這種現(xiàn)象在識別模式中被稱為“維度災難”。
參考文獻:
[1] Fayyad,Usama,Piatetsky-Shapiro,et al. From data mining to knowledge discovery in databases,Ai Magazine,1996.
[2] 杜銘.湖南省現(xiàn)金指標與宏觀經(jīng)濟量化關系的實證研究[J]. 金融經(jīng)濟, 2014,(04):2-5.
[3] 劉丹丹.未觀測經(jīng)濟影響了中國經(jīng)濟增長嗎?[J].財經(jīng)問題研究,2009(07):11-16.
[4] 孫春廣.宏觀經(jīng)濟總量指標與央行現(xiàn)金凈投放的關聯(lián)性分析與解讀[J]. 武漢金融,2014(01):29-32.
[5] 涂子沛.大數(shù)據(jù)[M].桂林:廣西師范大學出版社,2015.
[6] 謝平,鄒傳偉,劉海二.互聯(lián)網(wǎng)金融手冊[M].北京:中國人民大學出版社,2014.
[7] 姚雯,婁飛鵬.金融機構現(xiàn)金收支對人均GDP的影響——基于建國60年來數(shù)據(jù)的實證分析[J].國際金融研究,2009(10):91-96.
[8] 張紅地.現(xiàn)金管理[M].北京:中國人民公安大學出版社,2002.
作者單位:吳衛(wèi)華,中國人民銀行杭州中心支行,博士,中級經(jīng)濟師;李俊萍,北京久芯科技有限公司,碩士研究生,中級經(jīng)濟師、中級會計師。