• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      數(shù)字金融發(fā)展中的數(shù)據(jù)治理挑戰(zhàn)

      2021-09-16 12:05:10沈艷
      清華金融評論 2021年3期
      關(guān)鍵詞:金融數(shù)字算法

      近年來,數(shù)字金融市場發(fā)生的風險事件,表明與大數(shù)據(jù)相關(guān)的金融基礎(chǔ)設(shè)施不足,是新金融業(yè)態(tài)存在新風險隱患的主要原因之一。對模型算法討論的缺失,導致在數(shù)字金融發(fā)展過程中存在一些認識上的誤區(qū),這種誤區(qū)可能帶來治理偏誤。本文旨在從對模型算法治理的角度來討論數(shù)字金融發(fā)展中需要應對的大數(shù)據(jù)治理挑戰(zhàn),并針對數(shù)據(jù)治理提出了相關(guān)政策建議。

      隨著互聯(lián)網(wǎng)、大數(shù)據(jù)、云計算、區(qū)塊鏈、人工智能等技術(shù)在金融業(yè)的廣泛應用,我國數(shù)字金融市場蓬勃發(fā)展。根據(jù)銀保監(jiān)會和中國人民銀行發(fā)布的《2019年中國普惠金融發(fā)展報告》,2019年全國使用電子支付的成年人比例達82.39%。在新冠肺炎疫情沖擊中,我國互聯(lián)網(wǎng)銀行對小微企業(yè)發(fā)放的貸款及時幫助小微企業(yè)擺脫困境,發(fā)揮了災害情況下的經(jīng)濟穩(wěn)定器作用。我國數(shù)字金融的一些業(yè)務模式也已經(jīng)走在世界前列。根據(jù)國際貨幣基金組織(International Monetary Fund,簡稱IMF)的測算,我國數(shù)字金融公司估值已經(jīng)超過全球總估值的70%,其中2016年中國個人移動支付總額達7900億美元,是美國的11倍;中國最大的移動支付提供商的處理能力大約是美國同行的3倍??傮w來看,我國對數(shù)字金融助力普惠金融、促進經(jīng)濟高質(zhì)量增長方面,寄予厚望。

      但要促進數(shù)字金融市場進一步健康發(fā)展,就不能忽視金融基礎(chǔ)設(shè)施中的短板。近年來,數(shù)字金融市場發(fā)生的風險事件,表明與大數(shù)據(jù)相關(guān)的金融基礎(chǔ)設(shè)施不足,是新金融業(yè)態(tài)存在新風險隱患的主要原因之一。例如,我國個體對個體網(wǎng)絡(luò)借貸在過去的十多年經(jīng)歷了萌芽、繁榮、興盛和衰落的過程。仔細梳理這一過程可發(fā)現(xiàn),雖然滿足個人旺盛的金融需求、幫助中小企業(yè)解決“貸款貴、貸款難”問題的初衷良好,但在我國數(shù)字金融基礎(chǔ)設(shè)施還比較落后,尤其是缺乏廣泛可靠的個人征信系統(tǒng)的情況下,構(gòu)架于其上的業(yè)務模式商業(yè)不可持續(xù),而最終的失敗難以避免。

      金融基礎(chǔ)設(shè)施中,與數(shù)據(jù)要素密切相關(guān)的是信息基礎(chǔ)設(shè)施(涉及信息記錄、數(shù)據(jù)分析和計算能力三方面)和監(jiān)管基礎(chǔ)設(shè)施中的數(shù)據(jù)隱私監(jiān)管。而與金融大數(shù)據(jù)治理相關(guān)的問題主要有四個:一是如何構(gòu)建金融大數(shù)據(jù)要素市場;二是如何做好數(shù)據(jù)隱私和信息安全管理;三是如何甄別和處置數(shù)據(jù)壟斷;四是如何做好模型算法等方面的管理。對于前三個問題,相關(guān)研究和討論已經(jīng)展開。政府和業(yè)界分別對打破數(shù)據(jù)壟斷也有探討,但是對數(shù)字金融市場中算法治理討論較少。

      對模型算法討論的缺失,導致在數(shù)字金融發(fā)展過程中存在一些認識上的誤區(qū)。例如,一些觀點認為,采用金融大數(shù)據(jù)一定比采用傳統(tǒng)數(shù)據(jù)更好;基于金融大數(shù)據(jù)的分析更科學更公正;基于機器學習模型設(shè)計的產(chǎn)品因為沒有人工干預因而比傳統(tǒng)決策體系更優(yōu)越;進而將“零人工干預”作為業(yè)務的一個主要優(yōu)勢加以宣傳。但上述觀點是否成立,既取決于對大數(shù)據(jù)的作用是否有充分恰當?shù)脑u估,也取決于對金融決策中人的作用的理解。由于目前機器學習算法重相關(guān)關(guān)系,而不重基于挖掘金融內(nèi)在發(fā)展規(guī)律的因果關(guān)系分析,決策中高估大數(shù)據(jù)分析的模型算法優(yōu)勢而忽略人的作用,就會帶來新的金融風險隱患。

      本文旨在從對模型算法治理的角度來討論數(shù)字金融發(fā)展中需要應對的大數(shù)據(jù)治理挑戰(zhàn)。分析金融領(lǐng)域“大數(shù)據(jù)自大”的潛在危害,討論忽略大數(shù)據(jù)算法模型等數(shù)據(jù)治理可能產(chǎn)生偏誤的原因,并提出相關(guān)政策建議。

      “大數(shù)據(jù)自大”的潛在危害

      2014年大衛(wèi)·拉澤(David Lazer)等學者提出的“大數(shù)據(jù)自大”(Big Data Hubris),針對的是高估大數(shù)據(jù)分析的作用、但忽略其中潛在問題的現(xiàn)象。大衛(wèi)·拉澤等學者是在《科學》雜志發(fā)文討論谷歌公司流感趨勢預測出現(xiàn)重大偏差的原因時提出上述觀點。2008年11月,谷歌公司啟動了谷歌流感趨勢(Google Flu Trends,簡稱GFT)項目,目標是預測美國疾控中心報告的流感發(fā)病率。2009年,GFT團隊在《自然》發(fā)文稱,只須分析數(shù)十億搜索中45個與流感相關(guān)的關(guān)鍵詞,GFT就能比美國疾控中心提前兩周預報2007—2008季流感的發(fā)病率。但該研究發(fā)現(xiàn),2009年GFT沒有能預測到非季節(jié)性流感A-H1N1;并且從2011年8月開始的108周里,GFT有100周高估了美國疾控中心報告的流感發(fā)病率,高估程度達1.5倍~2倍多。

      他們認為,這些估計偏差反映了“大數(shù)據(jù)自大”這樣一個理念,就是大科技企業(yè)擁有的“海量數(shù)據(jù)”就是“全量數(shù)據(jù)”,采用這樣的數(shù)據(jù)做分析比科學抽樣基礎(chǔ)上形成的傳統(tǒng)數(shù)據(jù)更優(yōu)越、更可靠、更讓我們接近客觀真理。但他們對GFT項目的評估表明,這樣的看法并不正確。

      在數(shù)字金融領(lǐng)域,如果沒有恰當?shù)哪P退惴ㄖ卫恚诮鹑诖髷?shù)據(jù)分析的產(chǎn)品和業(yè)務模式可能產(chǎn)生決策“知其然不知其所以然”、出現(xiàn)“算法歧視”等問題,甚至可能產(chǎn)生算法腐敗的問題。

      忽略算法模型治理可能產(chǎn)生偏誤的原因

      基于金融大數(shù)據(jù)的預測模型的具體執(zhí)行步驟可以被分為三個過程:學習過程、測試過程和應用過程。以預測貸款人是否會逾期這一機器學習任務為例,首先需要獲得歷史的貸款數(shù)據(jù),其中既要包括有逾期的人員也要包括沒有逾期的人員。然后將這一數(shù)據(jù)分為兩部分:訓練集和測試集。第三步,用訓練數(shù)據(jù)訓練模型,得到相應參數(shù);再用測試數(shù)據(jù)來檢驗預測能力的高低,進而調(diào)整參數(shù)得到最好的模型。最后,預測能力最強的模型會被用于實際場景中。

      從上述步驟可知,實際應用中基于金融大數(shù)據(jù)模型的優(yōu)勢需要滿足以下三個條件:第一,實際應用數(shù)據(jù)和歷史數(shù)據(jù)沒有重大結(jié)構(gòu)變化;第二,訓練數(shù)據(jù)有充分的代表性;第三,模型有可解釋性,并且應用者能及時評估模型的適用性。如果這三個條件不能滿足,那么基于金融大數(shù)據(jù)的模型就可能帶來額外風險。

      歷史數(shù)據(jù)和未來數(shù)據(jù)不相似。金融大數(shù)據(jù)至少有兩個不同于傳統(tǒng)數(shù)據(jù)的特征:一是結(jié)構(gòu)變化更難檢驗,二是金融大數(shù)據(jù)的生成機制更復雜多變。這就容易導致用于訓練和測試的歷史數(shù)據(jù)和預測使用的未來數(shù)據(jù)不相似。

      金融大數(shù)據(jù)存在不易檢驗的結(jié)構(gòu)變化。由于我國數(shù)字經(jīng)濟和數(shù)字金融領(lǐng)域運用大數(shù)據(jù)的時間還比較短,跨越較長經(jīng)濟周期、體量大、顆粒度細的大數(shù)據(jù)系統(tǒng)尚在建設(shè)中。而大數(shù)據(jù)分析所依據(jù)的機器學習或者深度學習模型,都假定了訓練數(shù)據(jù)的生成機制和真實數(shù)據(jù)的生成機制是相似的,即不存在重大結(jié)構(gòu)性變化。和傳統(tǒng)數(shù)據(jù)不同的是,大數(shù)據(jù)難以在不同研究機構(gòu)之間分享、不少算法模型如同“黑匣子”,難以用經(jīng)典的檢驗數(shù)據(jù)結(jié)構(gòu)變換的模型去識別數(shù)據(jù)是否產(chǎn)生了重大結(jié)構(gòu)變化。在這樣的情況下,當經(jīng)濟和金融領(lǐng)域出現(xiàn)重大結(jié)構(gòu)性變化,但是算法依據(jù)的模型無法快速發(fā)現(xiàn)這種變化還繼續(xù)沿用過去運行良好的模型,就會出現(xiàn)預測不準的現(xiàn)象。

      金融大數(shù)據(jù)的生成機制受生成平臺的運營活動影響。和傳統(tǒng)數(shù)據(jù)的生成機制不同,大數(shù)據(jù)不再是由政府特定部門或者特定機構(gòu)主持收集,而是經(jīng)濟社會主體運營中產(chǎn)生的副產(chǎn)品,因此大數(shù)據(jù)生成受平臺自身運營狀況影響。例如,金融大數(shù)據(jù)分析中,不少模型加入個體的社交媒體信息作為風控的額外維度,對這類數(shù)據(jù)的分析常常建立在一個假定之上,即社交媒體上用戶的多少、活躍度等,客觀反映了人們對社交媒體的使用狀況。但實際收集到的用戶數(shù)據(jù)是用戶自身因素和平臺運營管理共同作用的結(jié)果。例如,最初某旅游信息平臺記錄保存客戶信息的動機僅僅是本公司發(fā)展業(yè)務需要,并沒有對客戶采取分層定價;但在精準營銷下采用了“大數(shù)據(jù)殺熟”,提高了對優(yōu)質(zhì)客群的定價??蛻粼诎l(fā)覺后選擇離開該平臺,導致客群整體質(zhì)量下降。當該科技公司和金融機構(gòu)合作時,這一客群質(zhì)量的下降并非由于經(jīng)濟金融狀況惡化導致,而是由于合作公司自身的利益訴求帶來,如果不能識別這一變化原因,金融機構(gòu)會在相應的借貸決定中產(chǎn)生偏差。

      另一個影響金融大數(shù)據(jù)生成機制的是算法調(diào)整。例如,某支付平臺的主要目標是幫助用戶實現(xiàn)方便快捷的支付。為了實現(xiàn)這一目標,數(shù)據(jù)科學家與工程師不斷更新算法,讓用戶可以有越來越好的用戶體驗。這一策略在商業(yè)上非常必要,但在數(shù)據(jù)生成機制方面卻導致不同時期的數(shù)據(jù)不可比。如果數(shù)據(jù)分析團隊和算法演化團隊沒有充分溝通,數(shù)據(jù)分析團隊不知道算法調(diào)整對數(shù)據(jù)生成機制的影響,就會誤將數(shù)據(jù)變動解讀為市場真實變動而帶來誤判。

      金融大數(shù)據(jù)的代表性需要驗證。目前,金融科技公司和金融機構(gòu)之間的助貸和聯(lián)合貸款,在發(fā)揮金融科技公司的技術(shù)優(yōu)勢、金融機構(gòu)的資金優(yōu)勢,提高資金配置效率方面,發(fā)揮了重要作用。但不容忽視的是,金融科技公司和金融機構(gòu)都有其特定的客群,因此適用于某一平臺的客群分析或者某一地區(qū)適用于該地區(qū)金融科技公司和金融機構(gòu)的合作模式是否可以外推到其他地區(qū),也就是金融大數(shù)據(jù)是否具有代表性的問題,都需要進一步驗證。這一問題的重要性可以用2020年人工智能領(lǐng)域熱議的事件來佐證。當時使用者輸入奧巴馬低分辨率照片后,PULSE算法輸出了高分辨率白人圖片,而對這一偏差最主要的解釋,就是訓練集中的照片大多數(shù)是白人照片。如果金融科技公司的特定客群數(shù)據(jù)和訓練集中的白人圖片類似,而金融機構(gòu)的目標客戶群和奧巴馬的圖片類似,那么就會出現(xiàn)代表性不足的問題。例如,新冠肺炎疫情暴發(fā)之初對餐飲行業(yè)影響較大,如果采用某餐飲行業(yè)平臺產(chǎn)生的大數(shù)據(jù)分析得到的小微企業(yè)沖擊嚴重程度,進而指導全市其他行業(yè)小微企業(yè)的貸款發(fā)放,就可能高估不良率的發(fā)生。

      不少金融大數(shù)據(jù)分析模型可解釋性低。基于金融大數(shù)據(jù)分析的模型在極大提高了運算效率的同時也有代價,模型解釋性低就是一個主要問題。其中,常用的模型包括在邏輯斯蒂模型、決策樹模型(如隨機森林、梯度提升模型),支持向量機模型、卷積神經(jīng)網(wǎng)絡(luò)模型等。這些模型的共同特征是致力于尋找最優(yōu)的預測,因此探尋不同經(jīng)濟金融特征與預測目標之間的因果關(guān)系,并不是機器學習模型分析的重點。這就產(chǎn)生了兩個不容忽視的問題:一是“知其然不知其所以然”,除了邏輯斯蒂模型對于數(shù)據(jù)生成機制作出較為清晰的假定、參數(shù)含義較為清晰之外,其余模型從輸入到輸出表現(xiàn)為“黑匣子”;二是忽略了模型結(jié)果實際存在的主觀性。

      以金融機構(gòu)是否需要給個人發(fā)放貸款這一決策為例。以大數(shù)據(jù)中維度可能是成千上萬客戶數(shù)據(jù)作為輸入錄入模型后,模型最終會給出具有某些特征的人可以發(fā)放貸款,而另一些特征的人不應發(fā)放的預測。在傳統(tǒng)金融模式下,貸款發(fā)放于貸款責任人之間有密切關(guān)系,這就要求信貸員對于自己發(fā)放貸款的理由有清晰的認識。但基于機器學習的模型只給出了“發(fā)或者不發(fā)”的決策建議,并不會給出“為什么發(fā)或者不發(fā)”的原因,這就會讓“知道你的客戶”失去抓手。

      另一個常見誤區(qū)是,既然貸款發(fā)放決策由機器學習模型決定,那么這一決策一定比人做更客觀。但由于較為復雜的機器學習模型需要由人事先設(shè)定參數(shù),而模型越復雜需要設(shè)定的參數(shù)越多。例如,用一個卷積神經(jīng)網(wǎng)絡(luò)模型做有監(jiān)督的分類決策可能需要事先設(shè)定上百萬參數(shù)。參數(shù)過多的情況下,設(shè)定會存在較大主觀性,導致更為復雜機器學習模型的結(jié)果未必更好的現(xiàn)象。

      在介紹自身大數(shù)據(jù)分析優(yōu)勢時,不少平臺強調(diào)“零人工干預”帶來的效率改進。上述分析表明,在數(shù)據(jù)體量大不容易識別結(jié)構(gòu)性變遷、數(shù)據(jù)代表性不清晰、數(shù)據(jù)生成機制變化有經(jīng)濟金融之外的因素、模型可解釋性低的情況下,應當慎言“零人工干預”。這是因為,在金融大數(shù)據(jù)分析還存在上述諸多挑戰(zhàn)的情況下,如果大量貸款決策都是“零人工干預”,也就是將決策責任從人轉(zhuǎn)移到機器,那么當模型預測能力下降時,就難以分別產(chǎn)生的原因究竟是數(shù)據(jù)問題、是算法問題、是外部環(huán)境問題,還是內(nèi)部治理問題,出現(xiàn)既不了解自己的客戶、又不了解自己的現(xiàn)象。這樣的數(shù)據(jù)治理架構(gòu)的金融安全隱患顯然不容小覷。

      加強金融大數(shù)據(jù)治理的建議

      提高大數(shù)據(jù)使用的透明度,加強對大數(shù)據(jù)質(zhì)量的評估。由于大數(shù)據(jù)體量大、分析難度高等問題,不僅大數(shù)據(jù)的收集過程可能是“黑箱”,大數(shù)據(jù)分析也可能存在過程不透明的現(xiàn)象。例如在GFT案例中,研究人員指出,谷歌公司從未明確用于搜索的45個關(guān)鍵詞是哪些;雖然谷歌工程師在2013年調(diào)整了數(shù)據(jù)算法,但是谷歌并沒有公開相應數(shù)據(jù),也沒有解釋這類數(shù)據(jù)是如何搜集的。與透明度相關(guān)的是,大數(shù)據(jù)分析結(jié)果的可復制性問題。由于谷歌以外的研究人員難以獲得GFT使用的數(shù)據(jù),因此就難以復制、評估采用該數(shù)據(jù)分析結(jié)果的可靠性。這種數(shù)據(jù)生成和分析的“黑箱”特征,容易成為企業(yè)或者機構(gòu)操縱數(shù)據(jù)生成過程和研究報告結(jié)果的溫床。通過推動金融大數(shù)據(jù)分析的透明化,建立其健康的數(shù)據(jù)分析文化,是夯實金融信息基礎(chǔ)設(shè)施的重要步驟。

      在保護隱私和數(shù)據(jù)安全的基礎(chǔ)上,通過加大傳統(tǒng)數(shù)據(jù)和大數(shù)據(jù)的開放共享力度來解決單個企業(yè)數(shù)據(jù)顆粒度較高但代表性不足的“信息孤島”問題。在具體執(zhí)行上,可以按照數(shù)據(jù)的所有權(quán)屬性差異分層施策。對作為公共產(chǎn)品的數(shù)據(jù),政府部門需要在不涉密的情況下,盡可能向社會和公眾開放政府數(shù)據(jù)。對大數(shù)據(jù)征信產(chǎn)品這類準公共產(chǎn)品,可采用俱樂部付費式的產(chǎn)品模式,并推動政府推動設(shè)立的公司和相關(guān)金融科技公司合作聯(lián)合開發(fā)相關(guān)征信數(shù)據(jù)。對基于大量個人數(shù)據(jù)、數(shù)據(jù)所有權(quán)界定困難的大數(shù)據(jù),可以通過安全多方計算、同態(tài)加密、聯(lián)邦學習等技術(shù)研發(fā),允許擁有數(shù)據(jù)的各方在不像其他機構(gòu)公開數(shù)據(jù)敏感信息的情況下,實現(xiàn)數(shù)據(jù)共享與利用。最后,可進一步探索開放銀行模式和數(shù)據(jù)信托模式等在不同場景中的適用性。

      推動數(shù)據(jù)和模型算法審計工作。要求企業(yè)發(fā)布經(jīng)審計的財務報表是國內(nèi)外為保障金融市場健康運轉(zhuǎn)、保護相關(guān)方利益的通行做法。這一做法的邏輯是,由于公司內(nèi)部運作狀況對外部投資者來說也像“黑匣子”,經(jīng)理人就可能會濫用對投資者的這一信息優(yōu)勢;通過要求企業(yè)提供經(jīng)過第三方獨立審計過的運營情況報告就可以在一定程度上遏制這一問題。由于大數(shù)據(jù)分析的算法模型等也有類似的“黑匣子”特征,歐美等發(fā)達國家和地區(qū)的監(jiān)管機構(gòu)已經(jīng)開始探索數(shù)據(jù)和模型算法審計相關(guān)工作。例如,歐盟的通用數(shù)據(jù)保護條例就要求,企業(yè)能夠解釋他們的算法決策過程。要應對數(shù)字金融治理問題帶來的相應金融風險,我國應提早布局,探索金融大數(shù)據(jù)相關(guān)的算法審計的可行性、推進對算法模型審計人員的培養(yǎng)。

      加強算法模型治理,是夯實數(shù)字金融基礎(chǔ)設(shè)施中的重要一環(huán)。由于金融大數(shù)據(jù)的算法和模型不僅涉及計算機科學、機器學習方法,在使用相應模型時,不應高估“零人工干預”的重要性。事實上,良好的算法和模型治理機制需要將人的創(chuàng)造性、主觀能動性和機器與大數(shù)據(jù)的優(yōu)勢相結(jié)合。通過推動精通計算機科學、機器學習方法、金融專業(yè),乃至心理學、行為經(jīng)濟學、倫理學等多個領(lǐng)域?qū)I(yè)人士的共同努力,實現(xiàn)及時識別與解決算法模型相關(guān)問題的目標,促進數(shù)字金融市場的穩(wěn)健發(fā)展。

      (沈艷為北京大學國家發(fā)展研究院教授、北京大學數(shù)字金融研究中心副主任。本文編輯/王曄君)

      猜你喜歡
      金融數(shù)字算法
      基于MapReduce的改進Eclat算法
      Travellng thg World Full—time for Rree
      何方平:我與金融相伴25年
      金橋(2018年12期)2019-01-29 02:47:36
      君唯康的金融夢
      進位加法的兩種算法
      答數(shù)字
      數(shù)字看G20
      南風窗(2016年19期)2016-09-21 16:56:12
      一種改進的整周模糊度去相關(guān)算法
      P2P金融解讀
      成雙成對
      开江县| 湖口县| 旺苍县| 新安县| 长沙市| 星座| 喜德县| 大同市| 恩平市| 五寨县| 宜都市| 潼关县| 本溪市| 衡阳县| 洪泽县| 曲阜市| 获嘉县| 昌江| 周口市| 嘉峪关市| 石棉县| 天峻县| 故城县| 瑞金市| 宜丰县| 湘乡市| 留坝县| 河东区| 阿拉尔市| 临西县| 天峻县| 五常市| 承德县| 宜章县| 比如县| 会东县| 贵南县| 綦江县| 增城市| 安达市| 尖扎县|