婁峰
摘要:在經(jīng)濟學(xué)領(lǐng)域,大數(shù)據(jù)應(yīng)用還處于初步探索階段,但隨著海量經(jīng)濟數(shù)據(jù)的幾何式增長,以及網(wǎng)絡(luò)技術(shù)與計算方法的不斷完善和更新,將大數(shù)據(jù)運用于經(jīng)濟學(xué)逐漸成為學(xué)術(shù)界、商界以及社會廣泛關(guān)心的熱點問題之一。文章分析了大數(shù)據(jù)經(jīng)濟學(xué)特征、大數(shù)據(jù)在經(jīng)濟學(xué)領(lǐng)域應(yīng)用的基本原理、大數(shù)據(jù)對經(jīng)濟學(xué)的影響、應(yīng)用前景以及面臨的挑戰(zhàn)等問題。認(rèn)為大數(shù)據(jù)與經(jīng)濟學(xué)的結(jié)合為經(jīng)濟學(xué)和其他社會科學(xué)提出了新的機遇和挑戰(zhàn),未來大數(shù)據(jù)可能會帶來經(jīng)濟學(xué)顛覆性的改變,也有可能成為一門獨立的學(xué)科和方法論。
關(guān)鍵詞:大數(shù)據(jù);經(jīng)濟學(xué);數(shù)據(jù)分析
大數(shù)據(jù)作為一種有用的信息資源,在商業(yè)、金融等領(lǐng)域發(fā)揮著越來越重要作用,也逐漸成為社會科學(xué)的國際前沿應(yīng)用研究內(nèi)容之一。然而,在經(jīng)濟學(xué)領(lǐng)域,大數(shù)據(jù)還鮮少被用到(據(jù)統(tǒng)計,截至2014年12月,google中學(xué)術(shù)搜索到的與“大數(shù)據(jù)”有關(guān)的研究論文共3026篇,其中僅有29篇是和經(jīng)濟學(xué)相關(guān))。但因海量經(jīng)濟數(shù)據(jù)資源的快速增長,計算技術(shù)和能力的不斷提高,以及方法論的不斷發(fā)展,將大數(shù)據(jù)分析技術(shù)運用于經(jīng)濟學(xué)已成為一個值得探討的新課題。展望未來,由于經(jīng)濟學(xué)是一門理論與實踐相結(jié)合的學(xué)科,將大數(shù)據(jù)應(yīng)用于經(jīng)濟學(xué),有可能會開辟一個全新的經(jīng)濟學(xué)發(fā)展領(lǐng)域。
一、大數(shù)據(jù)在經(jīng)濟學(xué)領(lǐng)域應(yīng)用的基本原理
大數(shù)據(jù)在經(jīng)濟學(xué)中應(yīng)用的基本思路以大樣本數(shù)據(jù)統(tǒng)計與機器學(xué)習(xí)技術(shù)為基礎(chǔ)。其中大樣本統(tǒng)計的過程概括如下:用N個代入變量得出對應(yīng)的N個測量結(jié)果與K個潛在的預(yù)測因子,比如:以居民消費價格CPI指數(shù)預(yù)測為例,首先通過GOOGLE數(shù)據(jù)搜索或其他軟件,篩選出同CPI有關(guān)的一系列關(guān)鍵詞(比如糧食產(chǎn)量、原油期貨價格、氣候溫度、價格改革政策等),然后通過這些關(guān)鍵詞在文本數(shù)據(jù)(新聞、微博、評論、研究報告、學(xué)術(shù)論文等)出現(xiàn)的時間頻次,計算它們之間的相關(guān)關(guān)系和邏輯路徑關(guān)系,從而得到測量結(jié)果N和預(yù)測因子K。在許多情形下,每一個代入變量的信息是足夠豐富的,但不具有結(jié)構(gòu)性,故可能會產(chǎn)生很多潛在預(yù)測因子,因此,需要注意的是:若是過度擬合,即預(yù)測因子K的個數(shù)可能會遠(yuǎn)遠(yuǎn)大于觀測變量N的個數(shù)時,雖然模型可完美解釋觀測到的結(jié)果,但樣本外數(shù)據(jù)的解釋力卻很差。在這種狀況下,構(gòu)造一個最大化樣本解釋力的模型便成為首要目標(biāo),同時構(gòu)建的模型還不能出現(xiàn)因過度擬合所導(dǎo)致的樣本外無力解釋的情形。因模型構(gòu)建不同,使用方法也隨之改變,懲罰預(yù)測因子的過度使用方式也不同。如Lasso回歸模型,在滿足一系列約束條件下,依據(jù)最小化離差平方和來選擇模型系數(shù)。通過將樣本分為“訓(xùn)練樣本”和“測試樣本”(“訓(xùn)練樣本”用來估計模型參數(shù),“測試樣本”用來評估模型)進(jìn)行過度擬合。而在評估預(yù)測效果時,一般交叉使用樣本內(nèi)預(yù)測與過度擬合,但目前這種交叉驗證的方法在當(dāng)前的實證微觀經(jīng)濟學(xué)中也鮮少用到。
機器學(xué)習(xí)的一個非常重要假設(shè)就是機器學(xué)習(xí)的環(huán)境是相對穩(wěn)定的,也就是樣本數(shù)據(jù)(訓(xùn)練樣本與測試樣本情形相同)獨立產(chǎn)生于同一過程。但由于現(xiàn)實環(huán)境會隨著時間發(fā)生改變,故這一假設(shè)并不合理,因此,在高頻使用新數(shù)據(jù)的應(yīng)用中,往往通過對自身持續(xù)“再訓(xùn)練”,從而使得模型可以隨著時間與環(huán)境的變化對預(yù)測結(jié)果進(jìn)行調(diào)整。當(dāng)然,對于機器學(xué)習(xí),有些經(jīng)濟學(xué)家提出了盧卡斯批判的疑問,即若根據(jù)模型的預(yù)測結(jié)果進(jìn)行政策調(diào)整,則政策調(diào)整后的現(xiàn)實結(jié)果可能與初始模型的預(yù)測結(jié)果有差異,因為政策的改變會影響數(shù)據(jù)間的潛在行為關(guān)系,但這一疑問在其他預(yù)測模型,比如計量經(jīng)濟模型、結(jié)構(gòu)方程模型和聯(lián)立系統(tǒng)模型中也都存在。
二、大數(shù)據(jù)對經(jīng)濟學(xué)的影響及前景
如今,隨著數(shù)據(jù)樣本容量的急劇增加,使得大數(shù)據(jù)的使用方式不盡相同。作為一個規(guī)律性科學(xué),經(jīng)濟學(xué)需要廣泛、詳細(xì)的數(shù)據(jù),并運用統(tǒng)計技術(shù)來處理新型數(shù)據(jù),大數(shù)據(jù)的出現(xiàn)可能會在社會學(xué)與計算機科學(xué)間構(gòu)建一架橋梁,其學(xué)科價值可能在于創(chuàng)造新的思維方式,這將會導(dǎo)致對經(jīng)濟學(xué)的新思考和研究方法創(chuàng)新,甚至?xí)矸治鼋?jīng)濟學(xué)方法的質(zhì)變。
一方面,由于多維度的精細(xì)間隔,大數(shù)據(jù)可以為經(jīng)濟學(xué)研究人員提供更多研究變量和視角,可以研究以前難以測度的行為理論,這為經(jīng)濟理論研究提供了一種全新的測量方法。例如:麻省理工大學(xué)助理教授Alberto Cavallo設(shè)計的“百萬價格”項目,該項目旨在通過一個網(wǎng)絡(luò)程序,獲取網(wǎng)上物品價格,繼而運用這些數(shù)據(jù)計算得出通脹指數(shù),該通貨膨脹指數(shù)就是阿根廷的精確透明通貨膨脹指標(biāo),其實時價格數(shù)據(jù)的捕捉能力和準(zhǔn)確度,使得該指標(biāo)作為政府測量通脹的替代選擇。又如,谷歌提供的請求式數(shù)據(jù)選擇也提供了一個探索新機會的理由,目前一個備受矚目的例子就是“及時預(yù)報”,在某些方面它可以通過龐大經(jīng)濟社會數(shù)據(jù)集進(jìn)行短期精確預(yù)測。
另一方面,大數(shù)據(jù)已與行為經(jīng)濟學(xué)相適應(yīng),成為產(chǎn)業(yè)相關(guān)經(jīng)濟規(guī)律研究的一部分,并且,大數(shù)據(jù)在經(jīng)濟學(xué)領(lǐng)域已經(jīng)顯示出眾多的優(yōu)越性。大數(shù)據(jù)已有潛力去挑戰(zhàn)理性概念,例如對于經(jīng)濟學(xué)家在預(yù)測問題上的出錯概率,強調(diào)樣本偏差的方法;或者對于政策刺激的外部效應(yīng)問題,強調(diào)在社會媒體中情緒化分析出現(xiàn)的混亂問題,總而言之,大數(shù)據(jù)與先進(jìn)的建模策略相結(jié)合,可以產(chǎn)生更詳細(xì)、更準(zhǔn)確和更有說服力的解釋和分析。
從經(jīng)濟學(xué)理論的發(fā)展歷程或者研究思想上看,總體來說,目前大數(shù)據(jù)分析技術(shù)在經(jīng)濟學(xué)中的應(yīng)用還剛剛開始,處于初級階段和輔助地位,目前還沒有出現(xiàn)跨時代、里程碑式的技術(shù)進(jìn)展。相比于比較完善的宏微觀經(jīng)濟學(xué)理論、計量經(jīng)濟學(xué)理論和金融學(xué)等理論等,大數(shù)據(jù)技術(shù)的劣勢在于沒有嚴(yán)謹(jǐn)?shù)?、完整的?jīng)濟學(xué)理論作基礎(chǔ),其對不同關(guān)鍵詞的選擇具有主觀性,很難洞悉其背后的因果關(guān)系和邏輯關(guān)系;其使用的各種數(shù)據(jù)挖掘技術(shù)(比如自然語言處理算法、分段算法和機器學(xué)習(xí)算法),從技術(shù)上講,這些技術(shù)沒有突破傳統(tǒng)的理論和思路;而且大數(shù)據(jù)分析技術(shù)的原理主要是分析不同關(guān)鍵詞的關(guān)聯(lián)關(guān)系及其強弱度,方法比較單一,遠(yuǎn)遠(yuǎn)不能代替現(xiàn)有的宏微觀建模技術(shù)和分析方法。
但是,大數(shù)據(jù)在經(jīng)濟學(xué)中的應(yīng)用前景曠闊而深遠(yuǎn)。隨著時間的延續(xù),數(shù)據(jù)容量在飛速增長,數(shù)據(jù)彼此之間的關(guān)系也越來越復(fù)雜。對于經(jīng)濟學(xué)家而言,傳統(tǒng)經(jīng)濟領(lǐng)域就已經(jīng)有較多的數(shù)據(jù)量:各種金融交易數(shù)據(jù),如優(yōu)惠卡數(shù)據(jù)、在線消費數(shù)據(jù)、詳細(xì)人口數(shù)據(jù)等間隔性數(shù)據(jù)。大數(shù)據(jù)通過對各種媒體和渠道(比如搜索引擎、社交網(wǎng)絡(luò)、通話記錄、傳感器、網(wǎng)絡(luò)日志等)中不同類型的海量的結(jié)構(gòu)數(shù)據(jù)、非結(jié)構(gòu)數(shù)據(jù)和半結(jié)構(gòu)數(shù)據(jù)進(jìn)行快速計算和分析,能夠解析存在于現(xiàn)實社會、虛擬世界以及虛實混合社會的復(fù)雜網(wǎng)絡(luò)關(guān)系,并適時動態(tài)地做出判斷和決策,這不僅僅是一個把基礎(chǔ)數(shù)據(jù)轉(zhuǎn)變?yōu)樾畔?、信息轉(zhuǎn)變?yōu)橹R、知識轉(zhuǎn)變?yōu)橹腔鄣挠傻偷礁叩霓D(zhuǎn)變過程,該過程融合貫通了國家、區(qū)域、行業(yè)和個人,顛覆了傳統(tǒng)的、線性的、自上而下的目標(biāo)驅(qū)動式的精英決策模式,形成了動態(tài)的、隨機的、非線性的、自下而上的發(fā)現(xiàn)群體智慧的數(shù)據(jù)驅(qū)動決策模式;而且這也是一種新技術(shù)、新工具,其依據(jù)海量的網(wǎng)絡(luò)資源,充分發(fā)揮了電腦對海量信息收集能力和批量化處理能力遠(yuǎn)遠(yuǎn)高于人腦的優(yōu)勢,從而有效地彌補人腦功能的不足,這在當(dāng)今隨著互聯(lián)網(wǎng)、云計算、物聯(lián)網(wǎng)、社交網(wǎng)絡(luò)等技術(shù)的興起和普及導(dǎo)致的信息化數(shù)據(jù)爆發(fā)時代,優(yōu)勢明顯,應(yīng)用前景看好。已有研究表明,對于經(jīng)濟學(xué)家而言,大數(shù)據(jù)是一座巨大的寶庫,大數(shù)據(jù)對于社會學(xué)研究的魅力已經(jīng)逐漸顯現(xiàn),不從事大數(shù)據(jù)研究的經(jīng)濟學(xué)家可能會產(chǎn)生較大的機會成本(Mayer,2013)。
三、大數(shù)據(jù)在經(jīng)濟學(xué)應(yīng)用中面臨的挑戰(zhàn)
一方面,大數(shù)據(jù)已經(jīng)在經(jīng)濟學(xué)的研究中展示出越來越多的優(yōu)勢和強大能力,但另一方面也面臨一些問題和質(zhì)疑,比如大數(shù)據(jù)集的可獲得性,大數(shù)據(jù)集的管理和處理,以及如何有效地提取大數(shù)據(jù)集中所隱藏的關(guān)鍵信息等,具體的問題包括以下幾點。
1. 因果關(guān)系。僅僅通過大數(shù)據(jù)分析技術(shù),有時難以洞悉或找到事情背后的真正因果關(guān)系,比如,根據(jù)某城市的數(shù)據(jù),電視數(shù)量越多,犯罪案件也就越多,兩者是正相關(guān)的,但是它們之間不是因果關(guān)系,真正的因果關(guān)系是這個城市的人口在增加,而導(dǎo)致電視多,同時犯罪數(shù)量也在增加。雖然在商業(yè)應(yīng)用中,如果通過大數(shù)據(jù)分析找出了電視和犯罪數(shù)量相關(guān),就可以直接應(yīng)用了,而不在乎里面的原因和結(jié)果,但這種相關(guān)沒有經(jīng)濟學(xué)意義,因此,即使對于大數(shù)據(jù)分析技術(shù)得出的計算結(jié)果,在使用前應(yīng)該反復(fù)思考,思考其背后經(jīng)濟學(xué)邏輯,而不是完全盲目信任。
2. 大數(shù)據(jù)依然存在數(shù)據(jù)局限。雖然大數(shù)據(jù)具有容量大的特征,但是這也是相對的,由于數(shù)據(jù)收集、硬件設(shè)施、數(shù)據(jù)機密屬性等問題,真正的完全樣本很難獲得,即使在美國,所謂的海量數(shù)據(jù)也可能存在局部性和片面性,這些數(shù)據(jù)的抽樣樣本也不能完全滿足統(tǒng)計學(xué)中隨機抽樣的假設(shè)(即,i.d.假設(shè))。正如Linnet Taylor(2014)所說,實際上影響社會變革的很多分布都是非對稱的,其實很多不是對稱的,因此做抽樣的時候就得非常慎重。甚至是谷歌(google)和面書(facebook)公司,它們聲稱的全數(shù)據(jù)樣本,但實際上也不是全部數(shù)據(jù),因為,上facebook僅僅是那些有facebook的人或能夠上網(wǎng)的人,這些人的觀點也不能夠代表全部居民,而且這些人的占比和很小,可能沒有代表性;還有,這些數(shù)據(jù)的同質(zhì)性是沒有辦法保證的,因為它們是在不同時段用不同方法來收集數(shù)據(jù),然后整合在一起,這樣的處理辦法很難保證這些網(wǎng)站的數(shù)據(jù)具有完整性和隨機性。
3. 如何清洗和獲得數(shù)據(jù)。因為數(shù)據(jù)越大,噪音可能就越多,比如從微博里面提取的數(shù)據(jù),由于這些數(shù)據(jù)大部分都是無關(guān)信息或者是重復(fù)信息,因此,如何篩選信息以提高信息準(zhǔn)確性也是非常重要和比較棘手的問題。另外,盡管經(jīng)濟學(xué)已經(jīng)具有處理數(shù)據(jù)量較大樣本的嫻熟技能和統(tǒng)計技巧,但是大數(shù)據(jù)的資源可獲性仍是社會科學(xué)研究面臨的一個難題。由于數(shù)據(jù)資源大部分是專有的(比如,Google的大眾可獲得數(shù)據(jù)庫(如insight和trend)都是被監(jiān)管的,且在短時期內(nèi)不太可能完全公開),因此,經(jīng)濟學(xué)領(lǐng)域的許多研究者都會碰到獲取合適數(shù)據(jù)的難題。運用企業(yè)數(shù)據(jù)也面臨同樣的問題,因為數(shù)據(jù)具有私有性,故研究者只有在與企業(yè)簽訂保密合同的情形下,才可獲得這些數(shù)據(jù)的使用權(quán),雖然隨著更多的研究者在其研究中應(yīng)用大數(shù)據(jù),數(shù)據(jù)也就不再那么難獲得,但是,數(shù)據(jù)資源的完全開放在短期內(nèi)仍是無法實現(xiàn)的美好愿望。
然而,總而言之,大數(shù)據(jù)與經(jīng)濟學(xué)的結(jié)合為經(jīng)濟學(xué)和其他社會科學(xué)提出了新的機遇和挑戰(zhàn),在未來的幾十年,大數(shù)據(jù)可能會改變經(jīng)濟政策與經(jīng)濟學(xué)的研究方法。大數(shù)據(jù)在經(jīng)濟學(xué)中的使用是分析方法、數(shù)據(jù)管理和分析策略的改變,也是一次基礎(chǔ)性的轉(zhuǎn)變,即從基于“正態(tài)”均值和標(biāo)準(zhǔn)差的科學(xué)研究轉(zhuǎn)變?yōu)榛趥€體觀測值的研究,認(rèn)識論的改變將給經(jīng)濟學(xué)準(zhǔn)則基本原理帶來質(zhì)變和量變的雙重挑戰(zhàn)。由于這些原因,大數(shù)據(jù)可能會帶來經(jīng)濟學(xué)顛覆性的改變,也有可能成為一門具有獨立的學(xué)科和方法論。
參考文獻(xiàn):
[1]Mayer S.,Nberger V. and Cukier K, “Big Data: a revolution that will transform how we live, work, and think[M]”. New York: Houghton Mifflin Harcourt, 2013.
[2]Linnet Taylor, Ralph Schroeder, Eric Meyer,“Emerging practices and perspectives on Big Data analysis in economics: Bigger and better or more of the same”[J]. Big Data & Society, Volume 7,2014.
[3]于曉龍,王金照.大數(shù)據(jù)的經(jīng)濟涵義及價值創(chuàng)造機制[J].中國國情國力,2014(02).
[4]俞立平.大數(shù)據(jù)與大數(shù)據(jù)經(jīng)濟學(xué)[J].中國軟科學(xué),2013(07).
(作者單位:中國社會科學(xué)院數(shù)量經(jīng)濟與技術(shù)經(jīng)濟研究所)