劉曉鑫 景祥云 葉駿驊 金 博 畢文祥
(中國人民銀行長春中心支行,吉林長春 130051)
2008年全球金融危機(jī)爆發(fā)以來,隨著國際金融監(jiān)管改革的深化和拓展,如何有效使用快速增長的金融數(shù)據(jù)成為擺在各國中央銀行面前的一項重要課題。由于大數(shù)據(jù)技術(shù)能夠有效提升數(shù)據(jù)挖掘和使用的效率,并通過提供更完整、即時和詳細(xì)的資料作為“傳統(tǒng)”宏觀經(jīng)濟(jì)指標(biāo)的補(bǔ)充,從而增強(qiáng)分析能力,以便做出更好的決策,因此大數(shù)據(jù)分析工具得到了各國央行的高度重視。在此背景下,本文重點搜集了央行應(yīng)用大數(shù)據(jù)方法的相關(guān)文獻(xiàn),探索大數(shù)據(jù)為央行制定和執(zhí)行經(jīng)濟(jì)政策提供的支持,尤其是如何改善統(tǒng)計信息、宏觀經(jīng)濟(jì)分析和預(yù)測、金融市場監(jiān)測和金融風(fēng)險評估。
從央行應(yīng)用大數(shù)據(jù)的領(lǐng)域來看,大數(shù)據(jù)可以在提高經(jīng)濟(jì)分析和金融管理等方面發(fā)揮重要作用。國際貨幣基金組織正在研究大數(shù)據(jù)模型,將大數(shù)據(jù)作為衡量經(jīng)濟(jì)指標(biāo)的一種新方法,如分析價格、勞動力市場狀況、住房市場、商業(yè)情緒等(Hammer等,2017年)。許多央行目前正在研究如何利用金融大數(shù)據(jù)集的特點來執(zhí)行其任務(wù)(Coeuré,2017)。大數(shù)據(jù)在細(xì)節(jié)、靈活性、及時性和效率方面具有許多優(yōu)勢(Nymand Andersen,2016)。中央銀行有興趣開發(fā)各種試點項目,以更好地理解新的數(shù)據(jù)集和技術(shù),評估其與傳統(tǒng)方法相比的附加值,并開發(fā)具體的“用例”(IFC,2015)。
大數(shù)據(jù)可以成為改進(jìn)官方統(tǒng)計機(jī)構(gòu)的有用手段。首先,它可以成為支持目前官方統(tǒng)計數(shù)據(jù)編制的新來源,使人們能夠獲得更廣泛的數(shù)據(jù)集。這些數(shù)據(jù)通常不是為特定的統(tǒng)計目的而收集或設(shè)計,而是其他活動的副產(chǎn)品(Groves,2011)。它們的范圍相當(dāng)大,包括交易數(shù)據(jù)(如在線記錄的價格)、其他的數(shù)據(jù)(如社交媒體帖子、互聯(lián)網(wǎng)上顯示的產(chǎn)品評論),以及各種商業(yè)、財務(wù)和行政指標(biāo),如克強(qiáng)指數(shù)①克強(qiáng)指數(shù)是三種經(jīng)濟(jì)指標(biāo)(工業(yè)用電量新增、鐵路貨運(yùn)量新增和銀行中長期貸款新增)來評估GDP的增長。。
數(shù)據(jù)可以用來加強(qiáng)現(xiàn)有的統(tǒng)計工作,特別是在現(xiàn)有的統(tǒng)計體系難以完全覆蓋的情況下。例如,在一些發(fā)達(dá)經(jīng)濟(jì)體在線零售商價格數(shù)據(jù)的直接網(wǎng)絡(luò)抓取可以用來更好地衡量通貨膨脹的某些特定組成部分。在極端情況下這些數(shù)據(jù)可以取代官方統(tǒng)計系統(tǒng)不發(fā)達(dá)的國家的傳統(tǒng)指標(biāo)。正如美國麻省理工學(xué)院的Roberto Rigobon所開展的“十億價格項目”研究,該項目允許為缺乏官方或綜合指數(shù)的國家構(gòu)建通脹指數(shù)。
第二,大數(shù)據(jù)分析模型可以更加高效便捷地獲取和分析除官方數(shù)據(jù)以外的海量數(shù)據(jù),消除傳統(tǒng)意義上的統(tǒng)計時間差。由各種網(wǎng)絡(luò)和電子設(shè)備(如搜索查詢)即時生成的信息提供了高頻指標(biāo),有助于當(dāng)局更及時地跟蹤當(dāng)前的經(jīng)濟(jì)發(fā)展。實際上,“十億價格項目”的另一個目標(biāo)是以更高的頻率提供包括發(fā)達(dá)經(jīng)濟(jì)體在內(nèi)的許多國家的通貨膨脹的先行信息,例如消費者物價指數(shù)(CPI)是每天而不是每月一次。在實體經(jīng)濟(jì)方面,如新西蘭銀行的Tugrul Vehbi提出的一些指標(biāo)現(xiàn)在可以通過使用基于網(wǎng)絡(luò)的信息和機(jī)器學(xué)習(xí)算法來提前估計,大數(shù)據(jù)源的高速運(yùn)行有助于提供更及時的信息,這在危機(jī)期間尤為重要。
第三,大數(shù)據(jù)分析提供新類型的統(tǒng)計數(shù)據(jù)能夠“補(bǔ)充”傳統(tǒng)統(tǒng)計數(shù)據(jù)集。一方面,數(shù)字化文本信息的可用性大大增加,這使得人們能夠從社交媒體數(shù)據(jù)中得出諸如經(jīng)濟(jì)主體的情緒和預(yù)期等有用信息?;诨ヂ?lián)網(wǎng)的資源可以涵蓋更廣泛的主題,例如宏觀經(jīng)濟(jì)金融形勢特別是系統(tǒng)性風(fēng)險發(fā)生的概率。另一方面,一個重要因素是增加使用大顆粒數(shù)據(jù)集來改進(jìn)宏觀經(jīng)濟(jì)總量的匯編,從而更好地了解其分散性(IFC,2016)——這類分布信息在國民賬戶體系(SNA)中普遍缺失。李紅艷等(2013)提出新型國民經(jīng)濟(jì)核算體系的概念,對全社會經(jīng)濟(jì)活動,即每一個產(chǎn)品或服務(wù)(存款、或貸款)從其產(chǎn)生到被消費(消亡)的全過程進(jìn)行動態(tài)跟蹤記錄,對每個經(jīng)濟(jì)主體的每次經(jīng)濟(jì)活動和經(jīng)濟(jì)關(guān)聯(lián)活動進(jìn)行跟蹤記錄,2013年末我國國家統(tǒng)計局就與百度、阿里巴巴等多家企業(yè)簽署的《大數(shù)據(jù)戰(zhàn)略合作框架協(xié)議》以及2020年人民銀行成立的金融基礎(chǔ)數(shù)據(jù)中心使得這一構(gòu)想成為可能。
許多國家的中央銀行已經(jīng)在使用大數(shù)據(jù)集進(jìn)行宏觀經(jīng)濟(jì)預(yù)測。例如,Per Nymand-Andersen(ECB)展示了如何利用Google-Trends數(shù)據(jù)編制歐元區(qū)汽車銷售預(yù)估的短期預(yù)測;英格蘭銀行的Eleni Kalamara等將文本信息與有監(jiān)督的機(jī)器學(xué)習(xí)技術(shù)相結(jié)合,改進(jìn)了對宏觀經(jīng)濟(jì)變量(包括GDP、通貨膨脹和失業(yè))的預(yù)測。從統(tǒng)計學(xué)視角來看,有些指標(biāo)在預(yù)測國內(nèi)生產(chǎn)總值時可能效果良好,但在預(yù)測其未來發(fā)展時可能效果不佳。事實上,一些基于網(wǎng)絡(luò)的指標(biāo)在即時預(yù)測中的效果可能不如傳統(tǒng)的商業(yè)信心調(diào)查。
鑒于這些注意事項,并考慮到可能獲得的大量數(shù)據(jù),遵循結(jié)構(gòu)化的過程可能是有用的。泰國銀行的Paphatsorn Sawaengsuksant建議,在選擇諸如因特網(wǎng)搜索查詢等感興趣的指標(biāo)時采用系統(tǒng)方法。例如,Google-Trends數(shù)據(jù)中的關(guān)鍵詞可以根據(jù)其通用程度、受歡迎程度(即記錄的搜索次數(shù))、敏感性(即對微小語義變化的敏感度)、預(yù)測值(即與宏觀指標(biāo)的相關(guān)性)來選擇關(guān)鍵詞,從經(jīng)濟(jì)學(xué)的角度來看,被測試的關(guān)系是否有意義。
與宏觀經(jīng)濟(jì)領(lǐng)域一樣,大數(shù)據(jù)模型在監(jiān)測金融市場發(fā)展方面也很有價值,這是央行的一個關(guān)鍵領(lǐng)域。例如,香港金融管理局的調(diào)查報告顯示,一些新興的主權(quán)債券市場的回報可以用各種技術(shù)交易規(guī)則和機(jī)器學(xué)習(xí)技術(shù)來預(yù)測,評估其穩(wěn)健性與特定外國(如美國貨幣政策)和國內(nèi)因素的相對影響;許偉(2016)通過在基于網(wǎng)絡(luò)情感和搜索行為(谷歌搜索)的數(shù)據(jù)挖掘集成模型中加入房地產(chǎn)價格指數(shù)時間序列的滯后項,運(yùn)用支持向量回歸模型對房地產(chǎn)價格指數(shù)進(jìn)行了更好的預(yù)測。
其他類型的項目是在尋找非結(jié)構(gòu)化的數(shù)據(jù)。例如,印度尼西亞銀行的Okiriza Wibisono(2018)描述了如何使用文本挖掘算法來監(jiān)測公眾對印度尼西亞利率走向的預(yù)期。已有多家央行的經(jīng)驗表明,新的大數(shù)據(jù)來源也有助于監(jiān)測金融市場的發(fā)展,并預(yù)測其潛在的未來方向。就日本央行而言,高頻數(shù)據(jù)的使用有助于監(jiān)測政府債券市場的流動性和因此有可能導(dǎo)致的價格風(fēng)險。英格蘭銀行也制定了具體的項目,以監(jiān)測外匯市場動態(tài)和在市場大幅波動時的流動性。
大數(shù)據(jù)方法還可以提升金融當(dāng)局識別金融風(fēng)險的效果——無論是負(fù)責(zé)微觀金融監(jiān)管的機(jī)構(gòu),還是宏觀審慎監(jiān)管的機(jī)構(gòu)(Tissot,2019)。在該領(lǐng)域早期的研究包括:Nag & Mitra(1999)首次將人工神經(jīng)網(wǎng)絡(luò)引入預(yù)警模型,之后很多學(xué)者利用人工神經(jīng)網(wǎng)絡(luò)對系統(tǒng)性風(fēng)險進(jìn)行分析,結(jié)果表示神經(jīng)網(wǎng)絡(luò)的樣本外預(yù)測能力明顯優(yōu)于KLR模型。陳秋玲等(2009)基于bp人工神經(jīng)網(wǎng)絡(luò)計算了2008年中國國家綜合金融風(fēng)險,財政貿(mào)易風(fēng)險,宏觀經(jīng)濟(jì)風(fēng)險等預(yù)警等級,與實際情況基本符合。Yu et al.(2010)提出了基于經(jīng)驗?zāi)B(tài)分解法(EMD)的多量程神經(jīng)網(wǎng)絡(luò)模型,提高了預(yù)測精度,改善了泛化性能,結(jié)果優(yōu)于其它分類方法和bp神經(jīng)網(wǎng)絡(luò)。但是對于小型數(shù)據(jù)集而言,支持向量機(jī)有著更好的精度;林宇等(2013)將隨機(jī)欠采樣 (RU) 、合成少數(shù)類過采樣 (SMOTE) 與傳統(tǒng)支持向量機(jī) (SVM) 相結(jié)合, 提出一種改進(jìn)的SVM模型,具有更高的預(yù)測精度和性能。但是神經(jīng)網(wǎng)絡(luò)算法雖然預(yù)測結(jié)果精確但是計算量很大,計算速度也隨著數(shù)據(jù)量的增加指數(shù)級增長,對設(shè)備要求較高且參數(shù)很多不易解釋(李欣海,2013)。
2001年,Breiman等人在貝爾實驗室(Ho,1995, 1998)所提出的隨機(jī)決策森林 (random decision forests)的基礎(chǔ)上創(chuàng)造了隨機(jī)森林算法,選用隨機(jī)化特征和數(shù)據(jù)建立決策樹來降低計算量,運(yùn)用建立多棵樹形成一片森林最后匯總結(jié)果投票選出最佳結(jié)果的方法來保證預(yù)測精度(Breiman,2001a)。在風(fēng)險預(yù)警方面如Joy et al.(2015)分析1970-2010年36個發(fā)達(dá)經(jīng)濟(jì)體銀行和貨幣危機(jī)爆發(fā)前的經(jīng)濟(jì)、金融和結(jié)構(gòu)狀況,通過隨機(jī)森林確定了銀行業(yè)危機(jī)的短期先兆是凈息差較低,收益率曲線較淺,或是倒掛,長期先兆是高房價通脹;而貨幣危機(jī)則可由國內(nèi)短期利率和匯率作為短期預(yù)測因素。Xu et al.(2018)結(jié)合Wavelet變化和隨機(jī)森林模型度貨幣危機(jī)進(jìn)行預(yù)測,實證表示在16-32個月的時間范圍內(nèi)衡量的實際匯率升值是影響最大的因子。Takuji(2019)利用隨機(jī)森林和DWT變換結(jié)合,建立了貨幣危機(jī)預(yù)測模型,對危機(jī)預(yù)測具有較高的精度,并證明了月度實際匯率和外匯儲備凈國DWT變換之后可以作為可靠的預(yù)測指標(biāo)。
王克達(dá)(2019)基于1970—2011年全球各國金融危機(jī)數(shù)據(jù)對系統(tǒng)性銀行危機(jī)、貨幣危機(jī)和主權(quán)債務(wù)危機(jī)的預(yù)警進(jìn)行了實證研究表示隨機(jī)森林預(yù)測精度最優(yōu),最能識別先導(dǎo)指標(biāo)。蕭超武等(2014)建立了基于隨機(jī)森林組合分類算法的個人信用評估模型,實證表示該模型具有較好的預(yù)測精度和穩(wěn)定性。葉曉楓和魯亞會(2017)將樸素貝葉斯與隨機(jī)森林模型融合建立信用評估模型,實證表示具有更高的預(yù)測準(zhǔn)確度。還有企業(yè)信用及其破產(chǎn)研究,如盛夏等(2016)年比較隨機(jī)森林和adaboost對中國上市公司的信用評級變動的預(yù)測顯示隨機(jī)森林具有更好的預(yù)測精度。信用卡風(fēng)險評估如方匡南等(2010)對信用卡風(fēng)險實證研究表明隨機(jī)森林比logistic回歸和支持向量機(jī)具有更好的預(yù)測性能。
2008年以來,全球主要國家央行高度重視微觀金融數(shù)據(jù)基礎(chǔ)設(shè)施的建設(shè),大量顆粒度較高的微觀金融數(shù)據(jù)被源源不斷地匯聚到中央銀行的數(shù)據(jù)信息系統(tǒng)中。這對于央行的數(shù)據(jù)存儲和分析能力提出了巨大挑戰(zhàn)。如何開發(fā)適合央行特性的金融大數(shù)據(jù)系統(tǒng),探索金融大數(shù)據(jù)分析方法,已經(jīng)成為各國央行亟待解決的重要問題。一般而言,可供央行借鑒和使用的大數(shù)據(jù)分析方法主要包括機(jī)器學(xué)習(xí)、文本挖掘以及網(wǎng)絡(luò)分析等方法。中央銀行借助大數(shù)據(jù)分析方法,能夠進(jìn)一步拓展信息渠道、提升統(tǒng)計時效,改善宏觀經(jīng)濟(jì)預(yù)測效果,改進(jìn)金融市場監(jiān)測效率,并進(jìn)一步強(qiáng)化宏觀審慎監(jiān)管職能。當(dāng)然,央行在使用大數(shù)據(jù)方法履職時,也面臨一系列的問題和挑戰(zhàn),包括在設(shè)立和運(yùn)行新的大數(shù)據(jù)組織的過程中如何契合現(xiàn)有的央行文化與組織機(jī)制,如何更加有效地對大數(shù)據(jù)方法和傳統(tǒng)的計量和統(tǒng)計方法進(jìn)行融合創(chuàng)新,以及如何解決在數(shù)據(jù)設(shè)備投資和數(shù)字人才培養(yǎng)等方面的挑戰(zhàn)等等。顯然,中央銀行探索大數(shù)據(jù)模型和方法的應(yīng)用,還有相當(dāng)長一段路要走。