歐鋒
在1688年,牛頓發(fā)表《自然哲學(xué)的數(shù)學(xué)原理》,世界自此進(jìn)入 “大科學(xué)”時(shí)代。
人們認(rèn)識(shí)到,天空沒(méi)有宙斯的神殿,海洋也不是波塞冬的地盤(pán)。
宏偉而經(jīng)典的牛頓力學(xué)體系,甚至讓100年后的法國(guó)數(shù)學(xué)家拉普拉斯斷言:“牛頓是迄今為止最幸運(yùn)的人,全宇宙只有一條定律,被牛頓發(fā)現(xiàn)了?!?/p>
但后來(lái),相對(duì)論、量子力學(xué)、海森堡不確定性原理等現(xiàn)代物理學(xué)理論,撕裂了“絕對(duì)時(shí)空觀”“因果決定論”。
而面對(duì)持續(xù)肆虐的疫情,上海市新冠肺炎醫(yī)療救治專家組組長(zhǎng)、復(fù)旦大學(xué)附屬華山醫(yī)院感染科主任張文宏在2月28日接受媒體專訪時(shí)說(shuō):“現(xiàn)在中國(guó)的答卷正在交上來(lái),確實(shí)2~4個(gè)月有可能控制住疫情。但是我們預(yù)測(cè)到了開(kāi)始,沒(méi)有預(yù)測(cè)到結(jié)果?!?/p>
這是因?yàn)檫B日來(lái),全球多國(guó)新冠肺炎疫情升級(jí)。
世衛(wèi)組織在日內(nèi)瓦宣布,將新冠肺炎全球風(fēng)險(xiǎn)級(jí)別提至最高級(jí)別——“非常高”,全球疫情防控進(jìn)入“決定性時(shí)刻”。世衛(wèi)組織提倡每一個(gè)國(guó)家必須同時(shí)為所有可能發(fā)生的情況做好準(zhǔn)備,任何國(guó)家都不應(yīng)抱有本國(guó)不會(huì)出現(xiàn)病例的僥幸心理。
科學(xué)的發(fā)展歷程告訴我們,這個(gè)世界,是一個(gè)復(fù)雜系統(tǒng)。對(duì)于復(fù)雜系統(tǒng),需要保持謙卑的態(tài)度,承認(rèn)過(guò)去的經(jīng)驗(yàn)不一定正確,更多依靠觀察而非理論,去描述進(jìn)而預(yù)測(cè)這個(gè)世界。
只有不斷試錯(cuò),不斷完善自己的模型,才能無(wú)限逼近我們尋找的信號(hào)。
關(guān)于預(yù)測(cè),納特·西爾弗在他的《信號(hào)與噪聲》一書(shū)中認(rèn)為,我們大多數(shù)人,包括專家們,在生活中,往往表現(xiàn)得更像一個(gè)喝多了酒的司機(jī)。
他在書(shū)中寫(xiě)道:這個(gè)喝多了的司機(jī)正在權(quán)衡是否應(yīng)該開(kāi)車(chē)回家,他認(rèn)為自己一生中開(kāi)過(guò)大約2萬(wàn)次車(chē),從來(lái)沒(méi)有出過(guò)嚴(yán)重車(chē)禍。因此,基于龐大的樣本規(guī)模以及幾乎完美的駕駛記錄,他上路了。實(shí)際上他做出了錯(cuò)誤的決定。他的樣本規(guī)模實(shí)際上為零,因?yàn)樗硗獾?萬(wàn)次駕駛記錄不能算數(shù),而且那時(shí)他更清醒。
所以,西爾弗認(rèn)為問(wèn)題的關(guān)鍵是,我們真的不善于預(yù)測(cè),因?yàn)槲覀儍A向于挑選那些與觀點(diǎn)相符的數(shù)據(jù),而忽略其他數(shù)據(jù)。
在《信號(hào)與噪聲》中,納特·西爾弗提到,美國(guó)2007—2009年金融危機(jī)不僅讓華爾街多家頂級(jí)投行陷入向美國(guó)政府伸手要援助的窘境,更讓評(píng)級(jí)機(jī)構(gòu)陷入尷尬。
以標(biāo)準(zhǔn)普爾為代表的評(píng)級(jí)機(jī)構(gòu)在美國(guó)房地產(chǎn)泡沫、有毒債券泡沫破滅之前,乃至破滅過(guò)程中,仍在發(fā)表著帶有極強(qiáng)誤導(dǎo)性的預(yù)測(cè)結(jié)論。
這些評(píng)級(jí)公司忽略了泡沫現(xiàn)象,嚴(yán)重低估了顯示高風(fēng)險(xiǎn)的信息。
因?yàn)樵u(píng)級(jí)公司孤立判定許多項(xiàng)目?jī)?nèi)的風(fēng)險(xiǎn),并在預(yù)估總體風(fēng)險(xiǎn)時(shí)將各項(xiàng)風(fēng)險(xiǎn)的概率相乘,這樣就得出可以被忽略不計(jì)的極小數(shù)據(jù);但問(wèn)題是,以次級(jí)債為例,涉及的各個(gè)環(huán)節(jié)在風(fēng)險(xiǎn)上是相互連接的,即一個(gè)風(fēng)險(xiǎn)的爆發(fā)會(huì)觸發(fā)其他的、系統(tǒng)性的風(fēng)險(xiǎn),計(jì)算總體風(fēng)險(xiǎn)應(yīng)該以最高風(fēng)險(xiǎn)值的項(xiàng)目為錨定。并且,風(fēng)險(xiǎn)概率的存在,并不意味著風(fēng)險(xiǎn)事件將嚴(yán)格按照特定周期的時(shí)長(zhǎng)出現(xiàn),如果某金融機(jī)構(gòu)出現(xiàn)壞賬的概率為5%,這并不能被理解為,在頭一次壞賬出現(xiàn)后的第20年才會(huì)曝出第2次壞賬問(wèn)題。
所以,歸結(jié)起來(lái)就是,預(yù)測(cè)常常流于錯(cuò)誤的第一個(gè)原因,就是我們對(duì)風(fēng)險(xiǎn)、概率等基本問(wèn)題的不正確理解。
另外,國(guó)際政治學(xué)者常常通過(guò)大眾媒體和自媒體,發(fā)表對(duì)其他國(guó)家政治選舉的預(yù)測(cè)結(jié)論。一些學(xué)者的預(yù)測(cè)結(jié)論頻頻出錯(cuò),并不是因?yàn)閷?duì)影響政治選舉結(jié)果的各項(xiàng)因素、風(fēng)險(xiǎn)、概率的理解出了問(wèn)題,而是受意識(shí)形態(tài)影響,在收集各方面信息得出預(yù)判之前,自己的大腦就形成了認(rèn)為自己的判斷是“應(yīng)當(dāng)正確”的先入為主的判斷,拒絕接受與之相反的信息。
納特·西爾弗將這種學(xué)者稱為“刺猬型專家”,分析指出,他們雖然善于從噪聲中辨識(shí)和捕捉信號(hào),卻遺漏和忽略了其他信號(hào),預(yù)測(cè)正確率也因此降到了“路人”隨機(jī)選擇的勝率之下。
這樣,先入為主、固執(zhí)己見(jiàn),就成為導(dǎo)致預(yù)測(cè)出錯(cuò)的第二個(gè)原因。
納特·西爾弗建議人們,要注意吸取“刺猬型專家”的教訓(xùn),學(xué)會(huì)“狐貍型”的預(yù)測(cè)方法,用概率的方法思考問(wèn)題、重視外部信息包括那些顯示己方預(yù)判存在錯(cuò)誤的信息,承認(rèn)自己在做出判斷時(shí)面臨的局限性。
《信號(hào)與噪聲》還通過(guò)判斷一個(gè)年輕運(yùn)動(dòng)員的成長(zhǎng)潛力,是球探的主觀經(jīng)驗(yàn)更值得信賴,還是基于計(jì)算機(jī)平臺(tái)的數(shù)據(jù)分析系統(tǒng)更靠譜的案例,歸納出只重視那些實(shí)際上代表性存疑的數(shù)據(jù),或者只依賴感性經(jīng)驗(yàn)而得出預(yù)測(cè),是預(yù)測(cè)出錯(cuò)的第三個(gè)原因。
但頗具有諷刺意味的是,按照納特·西爾弗的分析,導(dǎo)致預(yù)測(cè)出錯(cuò)的第四個(gè)原因,應(yīng)該是預(yù)測(cè)者屈從于商業(yè)利益、社會(huì)觀念壓力而對(duì)預(yù)測(cè)結(jié)果所做的“技術(shù)性處理”。
比如說(shuō),如果一項(xiàng)天氣預(yù)報(bào)結(jié)論顯示下雨,實(shí)際上并沒(méi)有下雨,民眾最多嘲諷預(yù)報(bào)機(jī)構(gòu)“又錯(cuò)了”,但反過(guò)來(lái),如果預(yù)報(bào)天晴卻下了大雨,預(yù)報(bào)機(jī)構(gòu)就會(huì)面臨更大壓力甚至訴訟。
這直接推高了天氣預(yù)報(bào)中的災(zāi)害天氣比重。
金融機(jī)構(gòu)往往也基于同樣的考慮,“報(bào)喜不報(bào)憂”,免得因悲觀預(yù)報(bào)信息而流失客戶。
所以,預(yù)測(cè)的準(zhǔn)確性有賴于預(yù)測(cè)者對(duì)不確定性的認(rèn)識(shí),預(yù)測(cè)者越能認(rèn)識(shí)到自己的局限,對(duì)不確定性的影響越抱以敬畏,做出的預(yù)測(cè)相對(duì)就能更準(zhǔn)確;反之,那些僅僅根據(jù)一套精妙的數(shù)據(jù)模型,或者在“大數(shù)據(jù)”系統(tǒng)的幫助下掌握更多信息而顯得自信滿滿,對(duì)不確定性不屑一顧的人,就會(huì)非常明顯地產(chǎn)生偏離乃至錯(cuò)誤。
預(yù)測(cè)的準(zhǔn)確性有賴于預(yù)測(cè)者對(duì)不確定性的認(rèn)識(shí),預(yù)測(cè)者越能認(rèn)識(shí)到自己的局限,對(duì)不確定性的影響越抱以敬畏,做出的預(yù)測(cè)相對(duì)就能更準(zhǔn)確。
在《信號(hào)與噪聲》一書(shū)中,西爾弗用七章的篇幅,從失敗的預(yù)測(cè)里提煉出了三條準(zhǔn)則:
首先,必須要有足夠的信息,這是一切預(yù)測(cè)的大前提。如何在預(yù)測(cè)之前收集足夠多的信息,也就成了預(yù)測(cè)成功與否的標(biāo)準(zhǔn)。
其次,預(yù)測(cè)需要一個(gè)適當(dāng)?shù)姆椒ɑ蚰P?,用?lái)處理第一階段里收集到的大量信息。
再次,以客觀理性的態(tài)度來(lái)對(duì)待這些信息以及經(jīng)過(guò)處理后所呈現(xiàn)的數(shù)據(jù),譬如在深藍(lán)與卡斯帕羅夫?qū)Q中,深藍(lán)就完美地詮釋了什么是客觀與理性,相比而言,卡斯帕羅夫就稍遜一籌,當(dāng)然,大家都知道,深藍(lán)只是一臺(tái)機(jī)器。
本書(shū)的前七章,涉及政治、經(jīng)濟(jì)(金融)、棒球、天氣、地震、流行病等多個(gè)領(lǐng)域,知識(shí)領(lǐng)域跨度非常之大,但本書(shū)的精華部分其實(shí)在后半部分。
在第八章里,西爾弗拋出了自己預(yù)測(cè)理論的基礎(chǔ)——貝葉斯定理。
貝葉斯定理是英國(guó)數(shù)學(xué)家托馬斯·貝葉斯于1763年提出的一個(gè)理論。不過(guò),貝葉斯的生平記載很少,但有一部很重要的著作流傳了下來(lái),叫《機(jī)會(huì)的學(xué)說(shuō)概論》。他的思想被法國(guó)概率論學(xué)家拉普拉斯發(fā)揚(yáng)光大,形成了統(tǒng)計(jì)學(xué)中的貝葉斯方法。
這個(gè)定理可能是概率論中最為有名的定理之一。
在貝葉斯的觀點(diǎn)中,任何未知的事物都可以被建模為一個(gè)概率分布,而預(yù)測(cè)的任務(wù)就是給定最初的猜測(cè),不斷地使用新的證據(jù)、新的發(fā)現(xiàn)更新最初的猜測(cè)。
在貝葉斯的語(yǔ)境中,最初的猜測(cè)即主觀的先驗(yàn)概率,而經(jīng)過(guò)新的證據(jù)更新之后,形成了后驗(yàn)概率。貝葉斯定理將主觀的先驗(yàn)不停地使用新的證據(jù)更新,從而逐漸逼近真相。簡(jiǎn)言之,就是觀念隨著事實(shí)發(fā)生改變。
貝葉斯定理通過(guò)簡(jiǎn)單的計(jì)算就可以推導(dǎo)出重大的預(yù)測(cè)。
例如,它的一個(gè)有趣應(yīng)用就是德州撲克。在德州撲克中,當(dāng)玩家看到自己的底牌時(shí),都會(huì)形成一個(gè)對(duì)其他每位玩家可能的牌組合的先驗(yàn)概率,以后每一次發(fā)牌以及下注,玩家都可以通過(guò)這些公開(kāi)信息,不斷地更新自己對(duì)于其他玩家的牌的后驗(yàn)概率,同時(shí)根據(jù)這一預(yù)測(cè)進(jìn)行下注的操作。
實(shí)際上,科學(xué)知識(shí)的積累,也可以看成貝葉斯定理中更新后驗(yàn)概率的過(guò)程。
科學(xué)研究一直強(qiáng)調(diào)客觀性。
但物理學(xué)家和哲學(xué)家邁克爾·波蘭尼在《個(gè)人知識(shí)》一書(shū)中質(zhì)疑:從科研工具的制造到科研過(guò)程的深入,每一個(gè)階段都有人的主觀性介入;馬歇爾在《經(jīng)濟(jì)學(xué)原理》中也有類似的觀點(diǎn),認(rèn)為經(jīng)濟(jì)學(xué)的假設(shè)都有內(nèi)涵人的主觀判斷。
《信號(hào)與噪聲》中就是上述思路的更為通俗的表達(dá),而且也是貫穿全書(shū)的主線。
西爾弗認(rèn)為預(yù)測(cè)的困難來(lái)自測(cè)量,而測(cè)量可以分為易觀察的、不易觀察的。前者受人的主觀性影響較小,而后者的測(cè)量則更多地要依靠人的想象力和創(chuàng)造力。
預(yù)測(cè)成功的關(guān)鍵在于有沒(méi)有承認(rèn)人的無(wú)知,而不是對(duì)自己所采用的模型和方法的科學(xué)性、客觀性過(guò)于自信。
對(duì)工具本身過(guò)于自信,就不容易識(shí)別出噪聲,從而失去正確的預(yù)測(cè)信號(hào);而只有承認(rèn)自己的無(wú)知,下結(jié)論時(shí)遵循貝葉斯式的概率思維,才能時(shí)刻警惕噪聲的存在,發(fā)現(xiàn)真正的信號(hào)。
貝葉斯定理如今在投資學(xué)中運(yùn)用得非常廣泛,而互聯(lián)網(wǎng)的很多技術(shù)也依賴于貝葉斯定理。
盡管貝葉斯定理在預(yù)測(cè)方面已有非常高的成功率,但西爾弗還是反復(fù)強(qiáng)調(diào)預(yù)測(cè)的困難性。
因?yàn)樵诖髷?shù)據(jù)時(shí)代,在人們擁有的數(shù)據(jù)呈指數(shù)級(jí)增長(zhǎng)的同時(shí),人們需要檢驗(yàn)的因果關(guān)系,也呈指數(shù)級(jí)增長(zhǎng),這就導(dǎo)致每個(gè)因果關(guān)系成立的可能性都不高,或者說(shuō),每個(gè)因果關(guān)系成立的先驗(yàn)概率都不高。
在這種情況下,根據(jù)貝葉斯定理,人們極有可能在眾多的因果關(guān)系中,錯(cuò)誤地將沒(méi)有因果關(guān)系誤認(rèn)為存在因果關(guān)系,因而在大數(shù)據(jù)時(shí)代,人們面臨的挑戰(zhàn)也就更加嚴(yán)峻了。
《信號(hào)與噪聲》的作者納特·西爾弗于1978年在一個(gè)美國(guó)知識(shí)分子家庭出生。
他熱愛(ài)棒球。早在童年時(shí),他就是底特律老虎隊(duì)的球迷,并且從少年時(shí)代起,就熱衷于收集和分析各種球員的數(shù)據(jù)。
2000年,納特·西爾弗成為名聲響當(dāng)當(dāng)?shù)漠咇R威會(huì)計(jì)師事務(wù)所的一名經(jīng)濟(jì)咨詢顧問(wèn)。
不過(guò),他似乎并不喜歡這份工作。兩年后,他開(kāi)始利用業(yè)余時(shí)間分析棒球,并為棒球雜志撰寫(xiě)評(píng)論。這是他預(yù)測(cè)分析事業(yè)的開(kāi)端。
棒球和很多球類運(yùn)動(dòng)不同,它有著比其他球類更豐富、更精確的數(shù)據(jù)統(tǒng)計(jì)。
西爾弗利用每年出版的公開(kāi)數(shù)據(jù),配合自己設(shè)計(jì)研發(fā)的一套可預(yù)測(cè)棒球的數(shù)據(jù)模型,來(lái)判斷一個(gè)投手的能力,并為棒球刊物撰寫(xiě)文章,預(yù)測(cè)球員的表現(xiàn)。
2004年,他從畢馬威辭職,靠著風(fēng)靡一時(shí)的德州撲克網(wǎng)絡(luò)賭博來(lái)養(yǎng)活自己。
2007年,還在為棒球雜志寫(xiě)作的西爾弗開(kāi)始撰寫(xiě)一個(gè)政治分析專欄,這個(gè)專欄后來(lái)演變成了538網(wǎng)站。
2008年大選,西爾弗的關(guān)注者從棒球迷擴(kuò)展到全體公眾,一下子火了。
因?yàn)樵谶@一年,西爾弗利用自己研發(fā)的那套棒球數(shù)據(jù)預(yù)測(cè)模型,幾乎成功預(yù)測(cè)了美國(guó)大選結(jié)果——在全美50個(gè)州選舉中,他成功預(yù)測(cè)了49個(gè)州的結(jié)果。
從噪聲中區(qū)分信號(hào)既需要科學(xué)知識(shí),也需要自知之明,比如平靜地承認(rèn)我們無(wú)法預(yù)測(cè)的事物,勇敢地說(shuō)出我們能夠預(yù)測(cè)的事物,還有就是明智地區(qū)別二者的不同。
這使他聲名大噪,名滿美利加。
2012年,西爾弗再登神壇,成功預(yù)測(cè)了美國(guó)50個(gè)州的大選結(jié)果。
一時(shí)之間,出版社重金簽約書(shū)稿,紐約時(shí)報(bào)邀請(qǐng)開(kāi)設(shè)政治專欄,并把538直接移到了自己的網(wǎng)站上,TED 大會(huì)也邀請(qǐng)他演講。
西爾弗走上了超級(jí)名人之路。
他不再是那個(gè)玩棒球數(shù)據(jù)的極客,而是一個(gè)能預(yù)測(cè)總統(tǒng)大選的人。
登上神壇的這一年,納特·西爾弗的第一本書(shū)《信號(hào)與噪聲》出版。它的英文副標(biāo)題是“Why Most Predictions Fail but Some Don't”——為什么有些預(yù)測(cè)是錯(cuò)的而有些不會(huì)。