大數(shù)據(jù)中一個耳熟能詳?shù)恼f法是:大數(shù)據(jù)長于分析相關關系,而非因果關系。但這可能是一個偽命題。如何從相關關系中推斷出因果關系,才是大數(shù)據(jù)真正問題所在。這個問題,被稱為因果推斷(causal inference),它是蘋果iPhone 6的語音識別和谷歌的無人駕馭汽車技術的基礎。這個領域的大牛,美國工程院院士于達·珀爾(Judea Pearl,國內一般譯為朱迪亞·珀爾)因此獲得2011年的圖靈獎。珀爾院士提出概率和因果推理演算法,徹底改變了人工智能最初基于規(guī)則和邏輯的方向。
珀爾院士的思想,在圖靈問題的頂層設計高度,改變了我關于大數(shù)據(jù)的認識。與珀爾院士的深度思想交流事出偶然?!懊绹髱熜小钡呐f金山站安排9月3日下午見珀爾院士。本來只是禮節(jié)性的見面,請他簡單介紹一下研究成果。但珀爾院士顯然理解錯了,以為是專業(yè)交流,于是準備了64頁的數(shù)學講義。當他聽說聽眾竟然來自媒體、法律、經(jīng)濟等文科背景時,不禁瞠目結舌。他說:“對不起,我不知道你們……”。改講義已來不及了,只好硬著頭皮,對牛彈琴。不料,兩小時后,珀爾院士談得興起,早忘了我們是學什么的,奔放的數(shù)學思想噴薄而出,圖論、概率論、非線性數(shù)學的公式像袋鼠一樣,隔著十幾步十幾步地跳躍,如黃河之水,一發(fā)而不可收。時間已到,主辦方反復提示無效,又講了一個多小時。
我身旁的兄弟,被我晃醒,好像還在夢中,幾乎已經(jīng)坐不正了。我靠一杯一杯的咖啡支撐,勉強聽著。之后,卻意外地聽入了迷,最后聽到如醉如癡。因為我發(fā)現(xiàn)珀爾院士講的,正是我在大數(shù)據(jù)上日思夜想的問題。
近年來,我在介紹大數(shù)據(jù)時,對相關關系與因果關系這個說法一直心存疑惑。雖然也引進美國大數(shù)據(jù)理論,如巴拉巴西院士的說法,但這個疑惑并沒有消除。相關關系對應經(jīng)驗歸納,因果關系對應理性演繹。但難道大數(shù)據(jù)只有歸納,沒有演繹嗎,或者問,大數(shù)據(jù)如何才能實現(xiàn)歸納與演繹間的轉化?在這個思維瓶頸上,珀爾院士一下點破了我。
珀爾院士走后,大家面面相覷,互相打聽,這三個半小時,灌的是什么東東。在交流學習體會時,一位數(shù)學專業(yè)的專家說,他感到珀爾院士是在用一種非線性的方法,解決線性的問題。統(tǒng)計過去不能處理因果關系,只能處理相關關系,珀爾院士的貢獻是把因果關系引入了統(tǒng)計概率分析,把非結構化的東西半結構化了。半途接替口語翻譯進行專業(yè)翻譯的查理,是騰訊大數(shù)據(jù)師,專業(yè)研究方向與珀爾同領域。他以“西安的模型能否用于成都”為比喻,從專業(yè)角度又向大家解釋了一遍。我被當作文科的代表,在毫無心理準備的情況下,推到臺上交流體會。直到被研究非線性物理出身的查理超贊時,才確認自己聽的、想的,確實是珀爾院士講的,感覺像中了獎一樣。
我一上來就說,圖靈問題的核心是人與自然(機器)關系問題,人工智能就是要實現(xiàn)二者的統(tǒng)一。這個問題對應的今天的主題,是定性(非結構化)與定量,歸納與演繹,感性與理性的關系——相關關系與因果關系——如何統(tǒng)一的問題。用珀爾院士的話說,就是從巴比倫思維到雅典思維的問題(The causal revolution from associations to counterfactuals from Babylon to Athens)。大數(shù)據(jù)發(fā)展當前存在的問題是,偏離了圖靈原問題的軌道,變成理性計算的天下,以谷歌的數(shù)學算法為代表;而忽視了臉譜的算法(基于人與人associations的感性算法)。后者在統(tǒng)計學中,就是相關關系數(shù)據(jù)分析。珀爾院士對后者也不滿意,因此才批評說“不要老想數(shù)據(jù),先把現(xiàn)實用模型模擬出來”(大意如此),意思是要把非結構化的定性問題結構化。
查理此前曾說珀爾院士提出的是休謨的問題。我說,珀爾院士提出和解決問題的思路讓我想起康德,我覺得他今天講的內容,就是《純粹理性批判》的數(shù)學版,而方法上的思路讓我聯(lián)想到牛頓與萊布尼茨。我回國后查閱專業(yè)資料時,發(fā)現(xiàn)有人這么評價珀爾院士的問題意識:“有人提到了哲學(史)上的休謨問題(我的轉述):人類是否能從有限的經(jīng)驗中得到因果律?這的確是一個問題,這個問題最后促使德國哲學家康德為調和英國經(jīng)驗派(休謨)和大陸理性派(萊布尼茲-沃爾夫)而寫了巨著《純粹理性批判》?!笨磥硭娐酝?。
康德《純粹理性批判》的原問題,是經(jīng)驗與理性之間的關系,相當于大數(shù)據(jù)中相關關系與因果關系之間的關系。我說,康德當年解同樣問題的思路,像極了珀爾院士。康德設置了一個叫“圖式”的概念,作為溝通經(jīng)驗與理性的中間框架(FRAME)。“圖式”的特征是,兼具經(jīng)驗的具體性與理性的普遍性,但既不同于經(jīng)驗,也不等于理性。珀爾院士的“圖式”就是因果圖 (Causal Diagram),是他的結構化理論。這個結構不是完全理性的,而是可以靈活調整的。我說,珀爾院士的結構與康德的圖式唯一不同在于,前者設置了可替換的部件模塊,用于根據(jù)情況臨時調整,因此不是機械的結構,而是活的、松耦合的結構(例如,就象查理講的,西安的“普遍真理”模型,只要更換一些適應成都“具體實踐”的子模塊,就可以用于成都)。
在方法上,珀爾院士以柏拉圖著名的洞穴寓言,說明因果(真相)、結構(人)與相關(影子)之間的映射關系。我說,這更像牛頓和萊布尼茨的方法論:以理性為極限值,以經(jīng)驗為數(shù)列,中間設一個結構化的函數(shù)(相當于洞穴中的人)。經(jīng)驗(相關)可以無限接近理性(因果),永遠達不到因果(極限值),但可以視為等于因果。珀爾院士的獨特之處,只不過是把這個“函數(shù)”(圖式),泛函化了,實現(xiàn)了從結構化向非結構化、從線性到非線性的轉化。為此,在結構模型上,進行大量復雜的數(shù)學展開,成為他理論的重點。他的模型被稱為“圖模型”或者“貝葉斯網(wǎng)絡”(Bayesian network),用來描述變量聯(lián)合分布或者數(shù)據(jù)生成機制。好在聽眾睡覺時,他講的都是這一部分具體內容。關于他的因果結構理論,我聽課時私底下議論說,這個用流形上的微積分(Calculus on Manifolds),所謂“橡皮膜上的拓撲幾何學”也做得出來。
當前,人們討論大數(shù)據(jù),有一個不好的傾向,在結構化還沒有打好基礎情況下,片面追求所謂非結構化數(shù)據(jù)。這樣就陷入珀爾院士批評的“老想數(shù)據(jù)”的狀態(tài),相當于解微分的時候,不列函數(shù),就想直接從數(shù)列中求極值一樣。在中國,這種情況尤為嚴重。這會把大數(shù)據(jù)搞成脫離表義基礎的禪宗。在商業(yè)上,不排除實用主義地利用大數(shù)據(jù),找到賣貨上的皮毛聯(lián)系,但更適合小攤小販,畢竟不知其所以然,就做不大,做不長。
不過這也不奇怪,整個統(tǒng)計學和概率論,目前還停留在這個水平上,大多是關于“相關關系”的理論,而關于“因果關系”的理論非常稀少。Karl Pearson 就明確反對用統(tǒng)計研究因果關系。困擾統(tǒng)計的根本問題(辛普森悖論,Yule-Simpsons Paradox),也同樣是困擾大數(shù)據(jù)的根本問題。
泛而言之,在整個邏輯學中,歸納論只能表示事物之間的相關關系,還無法指出真正的因果關系。這是有人類以來的難題。巴比倫人在畢達哥拉斯之前一千年已掌握了勾股定理的應用,也早就開始了天文觀察;但雅典人卻從經(jīng)驗中提煉出了天文學的思辨理論。我們現(xiàn)在在還只是大數(shù)據(jù)上的巴比倫人。
話說回來,因果推斷過猶不及。如果把相關關系完全結構化了,也有問題,那就會排斥人類自由意志的空間。玻爾院士似乎還沒有想過其中的哥德爾悖論問題。正如段永朝評論玻爾院士的那樣:“不可知與可知,一定是你中有我,我中有你。他們想解決這個問題。確定性、不確定攪成一團。一時來看,方法上實現(xiàn)了;但根本上來說,科學觀要升級?!?/p>
想一想珀爾院士也真不容易,畢業(yè)于人稱的“野雞”大學,超前人類幾十年為大數(shù)據(jù)奠基,卻少有人聽懂他。他兒子Daniel Pearl是華爾街日報的駐外記者,9-11后在巴基斯坦被恐怖組織抓住,幾天后斬首碎尸。珀爾院士沒回答提問就走了,說要陪夫人。因為就在上午傳來消息,第二位美國記者像他兒子一樣被恐怖組織斬首,他夫人一定會再次想起兒子。