□文/ 姚阿逍
(西安財經(jīng)大學(xué)統(tǒng)計學(xué)院 陜西·西安)
[提要] 因果關(guān)系是近十年來研究的熱點,但人們對因果關(guān)系的理解依然建立在直覺之上。本文從哲學(xué)角度闡述人們對因果關(guān)系的研究是如何產(chǎn)生的,主要綜述統(tǒng)計學(xué)對因果關(guān)系的研究,分為兩類:一類為因果推斷;另一類為概率因果論。運用簡單的例子解釋人們?yōu)槭裁磿e把相關(guān)性視為因果性。
歷史上對因果關(guān)系的理解尚未達(dá)成一致,還沒有一個大多數(shù)人能接受的定義。因果關(guān)系一般指的是兩個事件之間的一種作用關(guān)系,其中一個事件會導(dǎo)致另一個事件的發(fā)生,前一個稱為原因,后一個稱為結(jié)果。中國的文學(xué)作品中對一些自然現(xiàn)象提出一些感性的追問,如屈原的《天問》,追問日月星辰運行的原因。中國最早對因果的理解來自佛教,因緣果報是佛教重要的思想之一,但因緣與果報是一種十分宏觀的理解,沒有與科學(xué)產(chǎn)生聯(lián)系。因果關(guān)系的科學(xué)研究主要是通過量化以及歸納推理的方法,主要可以分為四種:充分因果、必要因果、充要因果和部分因果。前三種因果關(guān)系可通過實驗或者邏輯方法得出,但部分因果必須借助觀測數(shù)據(jù)進(jìn)行研究。部分因果又叫貢獻(xiàn)因果,也是我們社會生活中最常見的因果關(guān)系。目前,自然科學(xué)和社會科學(xué)中對因果關(guān)系的研究方法主要可分為四種,分別為新休謨理論、反事實理論、操控實驗理論、機制理論。
無論在社會科學(xué)還是自然科學(xué)中,事物之間的聯(lián)系錯綜復(fù)雜,如果能發(fā)現(xiàn)事物間準(zhǔn)確的影響關(guān)系將會有很多益處,這樣我們就可以通過控制確定的事物來影響不可控制的事物。古代史上偉大的哲學(xué)家亞里士多德認(rèn)為,我們不能僅僅關(guān)注于結(jié)果“是什么”,還應(yīng)該掌握“為什么”,這樣才算真正理解一個事物。近些年來,統(tǒng)計機器學(xué)習(xí)發(fā)展迅速,也取得了很大的進(jìn)步,但是當(dāng)前統(tǒng)計機器學(xué)習(xí)主要是對變量之間的相關(guān)性探究,并非變量之間的因果性,而且目前的機器人并非真正意義上的智能。統(tǒng)計學(xué)、經(jīng)濟學(xué)、社會學(xué)、政治學(xué)、教育學(xué)、流行病學(xué)、計算機科學(xué)、哲學(xué)等領(lǐng)域均對因果關(guān)系做出了研究。在醫(yī)學(xué)中,通過操控實驗尋找病因是醫(yī)學(xué)界最常用的因果檢測方法。通過將人群隨機分為兩組,使兩組在各種評價指標(biāo)上都盡可能相似,而唯一不同的是待考察的原因,進(jìn)而根據(jù)兩組之間的區(qū)別判定因果關(guān)系。15 世紀(jì),探險家長期航海,船員出現(xiàn)了身體虛弱和牙齦出血等癥狀,通過實驗發(fā)現(xiàn)橘子可以治療該疾病,直到20 世紀(jì)才發(fā)現(xiàn)橘子中的維生素C 可以治療該癥狀;在經(jīng)濟學(xué)中,判斷某種政策對經(jīng)濟的影響,如新冠肺炎疫情的防疫政策對經(jīng)濟造成嚴(yán)重影響,如果該政策在北京不造成影響,那么在上海是否會有影響,以及預(yù)測新的防疫政策能否解決該問題。但通過統(tǒng)計學(xué)的方法探究因果關(guān)系寸步難行。統(tǒng)計學(xué)研究的是觀察數(shù)據(jù),信息的不充分限制了可知的界限。比如想要研究吸煙是否會導(dǎo)致肺癌,這個方法不能采用醫(yī)學(xué)實驗的方法,不能強迫某個人去吸煙以及不吸煙,這不符合倫理道德,退而求其次,人們不得不尋找統(tǒng)計學(xué)的方法。多爾和希爾通過20 所醫(yī)院的數(shù)據(jù)發(fā)現(xiàn)吸煙與肺癌之間的強相關(guān)關(guān)系,隨后費希爾質(zhì)疑該觀點,從他們的數(shù)據(jù)中發(fā)現(xiàn),吸入式抽煙的人群患肺癌的比率要低于非吸入式,所以不能排除是某種基因同時導(dǎo)致人們抽煙和引起肺癌,最終的結(jié)論只能說明吸煙與肺癌之間存在強相關(guān)關(guān)系,不能得出具體的因果性。因果關(guān)系在應(yīng)用方面極為重要。在基于相關(guān)關(guān)系的推薦系統(tǒng)中,如果你買一本統(tǒng)計學(xué)書,可能會給你推薦一系列統(tǒng)計類相關(guān)書籍,如果在基于因果系統(tǒng)的推薦系統(tǒng),它不僅會推薦統(tǒng)計相關(guān)書籍,還會推薦考研書籍,甚至輔導(dǎo)班;如果你在網(wǎng)上購買牙刷,相關(guān)系統(tǒng)會推薦各種品牌的牙刷,在因果系統(tǒng)中會給你推薦牙膏和牙刷。
西方最早對因果關(guān)系的理解是,原因?qū)Y(jié)果起著推動與延緩作用。關(guān)于如何推動與延緩,歷史上,亞里士多德首次做出了四因說的解釋,分別為動力因、目的因、質(zhì)料因、形式因。以工匠做雕像為例,雕像的材質(zhì)作為質(zhì)料因,工匠腦海中雕塑的形象為形式因,雕塑過程中使用的工具作為動力因,實現(xiàn)雕塑家所想象的完整雕像為目的因。17 世紀(jì)出現(xiàn)了對因果關(guān)系是否客觀存在的爭論,一方以萊布尼茲為代表的理性主義認(rèn)為因果關(guān)系來源于理智,可以通過邏輯演繹推理得到,另一方洛克卻認(rèn)為因果關(guān)系只是人們的一種觀念或感覺。隨后,休謨繼承了經(jīng)驗主義的觀點,否認(rèn)因果關(guān)系存在的必然性,認(rèn)為因果關(guān)系只是人們的一種信念產(chǎn)物,我們只能觀察一個事物伴隨著另一個事物的變化規(guī)律,不能真正認(rèn)識到它們之間的關(guān)聯(lián),支撐我們現(xiàn)實的一切必然事物都將失去其必然性,我們永遠(yuǎn)不能得到真正的因果關(guān)系,只能觀察因果關(guān)系之間在時間上存在著前赴后繼的時滯性以及關(guān)聯(lián)性。休謨提出這種觀念后,使得人們不斷地懷疑這個世界的真理。就在這個世界籠罩著懷疑主義的陰影時,德國哲學(xué)家康德提出了先天綜合判斷的哲學(xué)思想,沖擊了休謨提出的因果律。他認(rèn)為因果關(guān)系存在著必然性,因果關(guān)系是一種人們的經(jīng)驗知識與先天認(rèn)知能力的一種結(jié)合體,如果把因果關(guān)系認(rèn)為是一種觀念認(rèn)知,那么就無法解釋數(shù)學(xué)知識。19世紀(jì),邏輯學(xué)家穆勒對歸納法做了一次系統(tǒng)的闡述,得出如何通過邏輯方法探究事物之間的因果關(guān)系,提出了著名的探索因果聯(lián)系的歸納方法──穆勒五法,使人們開始關(guān)注如何從邏輯上推斷因果關(guān)系。
進(jìn)入20 世紀(jì)以后,隨著量子力學(xué)和邏輯實證主義的發(fā)展,哲學(xué)界對于因果的理解發(fā)生了根本的轉(zhuǎn)變,量子力學(xué)幾乎徹底否定了因果關(guān)系存在的必然性。現(xiàn)代的因果關(guān)系研究不再從哲學(xué)上進(jìn)行探討,更多的是邏輯實證主義研究。
生物學(xué)家高爾頓在研究父母與子女身高中發(fā)現(xiàn),并不是父母身高越高,子女身高也會更高,反而存在著“回歸”現(xiàn)象,矮個子的父母反而會生出高個子的子女。自此,人們對因果關(guān)系的研究轉(zhuǎn)向相關(guān)性。皮爾遜認(rèn)為因果關(guān)系是一種無法被證明的關(guān)聯(lián),因果關(guān)系只是現(xiàn)代科學(xué)高深莫測的迷信,應(yīng)當(dāng)在許多科學(xué)中去除,引入皮爾遜相關(guān)系數(shù)度量因果關(guān)聯(lián)的強度。1921年,萊特最早對因果關(guān)系進(jìn)行形式化的定義,通過數(shù)學(xué)方法進(jìn)行因果關(guān)系度量,利用等式和圖的結(jié)合來表示因果關(guān)系,提出了結(jié)構(gòu)方程模型,其中箭頭表示出發(fā)結(jié)點對目的結(jié)點的因果作用,如果不存在箭頭則表示兩個因素之間不存在因果關(guān)系,如X→Z→Y。統(tǒng)計學(xué)家費希爾繼承了皮爾遜的觀點,對萊特利用統(tǒng)計方法研究因果關(guān)系進(jìn)行了強烈的批判,使得對因果推斷的研究推遲了近40年。1973年,劉易斯重新發(fā)展了休謨對因果反事實框架的概念,并對其進(jìn)行規(guī)范化和形式化,奠定了反事實框架的基礎(chǔ)。例如,想要研究受教育程度是否會影響收入,根據(jù)其定義,要讓一個人同時上大學(xué)且不上大學(xué),比較收入差異。正如哲學(xué)家所言,一個人不能踏入兩條河流,平行宇宙的概念只是人們假想的,一個人要么上大學(xué)要么不上大學(xué),所以現(xiàn)實中不能得出反事實因果。內(nèi)曼在研究兩種肥料對農(nóng)作物產(chǎn)量的影響時,用數(shù)學(xué)化的語言提出了潛在結(jié)果概念,如果說這個人已經(jīng)上了大學(xué),那么它的對立面不上大學(xué)作為潛在結(jié)果且不能觀測。費希爾雖然不認(rèn)可萊特的因果路徑圖,但他認(rèn)為在能采取隨機試驗的條件下,得出的因果結(jié)論是可信的。對一個群體采用隨機抽樣的方法,硬幣正面讓其上大學(xué),反面去工作,如果存在差異則表明存在因果關(guān)系。
就在最近十年,通過觀測方法研究因果關(guān)系成為熱門。1974年,魯賓在反事實框架基礎(chǔ)上,結(jié)合內(nèi)曼的潛在結(jié)果和費希爾的隨機試驗,系統(tǒng)地提出魯賓潛在結(jié)果模型,這是一種通過觀測數(shù)據(jù)去模擬隨機試驗的方法,其中的傾向匹配方法受到廣泛應(yīng)用,其思想是通過樣本配對盡可能使兩個畢業(yè)生之間條件相似,如他們的家庭環(huán)境、長相、性格等因素。但在當(dāng)時,因為統(tǒng)計學(xué)對因果推斷的回避卻很少人關(guān)注,直到近十年才發(fā)現(xiàn)魯賓是真正意義上的因果推斷奠基人。但潛在結(jié)果模型仍有不足點,因為假定個體處理值穩(wěn)定,即個體的潛在結(jié)果不受其他個體的處理影響,一個人上大學(xué)可能會被另一個人影響,例如李四上大學(xué)會被張三影響,而且要求每個個體和處理只有一種潛在結(jié)果,需要通過一定方法彌補該缺陷;由于因果關(guān)系之間存在因果反饋的現(xiàn)象,即與之相互影響,不能描繪反饋機制的因果系統(tǒng)是最大的缺陷。1995年,珀爾在萊特的基礎(chǔ)上通過概率語言完善了萊特的因果圖模型。珀爾將結(jié)構(gòu)方程模型和潛在結(jié)果框架相結(jié)合,提出了結(jié)構(gòu)因果模型,其在流行病學(xué)和社會科學(xué)研究中被廣泛使用,同時他結(jié)合反事實框架提出了一種認(rèn)知因果關(guān)系的過程,首先通過觀測發(fā)現(xiàn)存在的問題,然后對該問題進(jìn)行干預(yù)或處理,最后進(jìn)行反事實的思考得出因果結(jié)論。人們發(fā)現(xiàn)公雞打鳴后太陽升起,有人認(rèn)為雞鳴是太陽升起的原因,那么通過干預(yù)使得公雞第二天不打鳴,發(fā)現(xiàn)太陽依舊升起,說明公雞無論打不打鳴太陽依舊升起,所以公雞打鳴不是太陽升起的原因。
如果說我們不能通過因果推斷得出因果關(guān)系,卻急需一個因果解釋用來做決策時,那么因果關(guān)系的可能理論具有一定實際意義。部分哲學(xué)家更喜歡用概率表示因果關(guān)系:如果X 提高了Y 的概率P(Y|X)>P(Y),那么我們就說X 導(dǎo)致了Y。自反事實框架的提出后,還有部分學(xué)者喜歡用P(Y|X)>P(Y|X)表示。由概率得出的因果關(guān)系,被稱為貢獻(xiàn)因果或部分因果。
概率因果論有四種問題需要注意:(1)不完全,原因不一定會產(chǎn)生結(jié)果,吸煙只是增加了肺癌概率;(2)無關(guān)性,伴隨結(jié)果出現(xiàn)的條件可能與結(jié)果無關(guān),例如鹽被魔法師施了魔法,放在水中會溶解,但施魔法不會使鹽溶解;(3)不對稱,如果A 導(dǎo)致B,那么通常B 不會導(dǎo)致A,如吸煙會導(dǎo)致肺癌,但肺癌不會導(dǎo)致吸煙;(4)偽相關(guān),水銀柱的下降標(biāo)志著氣壓下降,氣壓下降導(dǎo)致暴風(fēng)雨來臨,但水銀下降不是暴風(fēng)雨來臨的原因。1956年,漢斯·萊辛巴赫的《時間的方向》出版,在這本書中,萊辛巴赫關(guān)注的是時間不對稱現(xiàn)象的起源,特別是熱力學(xué)第二定律所決定的熵增,他第一個提出了概率因果理論,盡管其中一些觀點可以追溯到1925年的一篇更早的論文。
香農(nóng)熵表示隨機變量的平均不確定程度,表示為H(X)=-∑p(x)logp(x),隨機變量的不確定程度越大,H(X)越大,如果H(Y|X)<H(X),那么X 是Y 的原因。1958年,控制論之父維納從預(yù)測角度對概率因果提出了一種新的哲學(xué)概念,在時間序列模型中,如果X 是Y 的原因,那么X 可以提高Y 的預(yù)測。然而維納的定義對數(shù)據(jù)分析產(chǎn)生了一定的困難。格蘭杰1969年利用隨機過程的向量自回歸模型進(jìn)一步優(yōu)化了維納的因果預(yù)測理論,其主要思想為:若采用時間序列X 和Y 的歷史信息對Y 進(jìn)行預(yù)測,優(yōu)于僅采用Y 的歷史信息對Y 進(jìn)行預(yù)測的結(jié)果,即時間序列X 有助于解釋時間序列Y 的未來變化趨勢,那么時間序列X是時間序列Y 的格蘭杰原因。
隨后,有很多人誤認(rèn)為格蘭杰原因是真實的因果關(guān)系,如閃電可以預(yù)測打雷,但閃電不是打雷的原因,為了避免誤解,他也提出一種新的名詞解釋“時間相關(guān)”。1970年,蘇佩斯在概率因果的基礎(chǔ)上,加入時間變量解釋概率因果論,可簡單理解為,如果X 在Y 之前發(fā)生導(dǎo)致了Y 的發(fā)生,P(Yt|Xt')>P(Yt),t'<t,那么X 是Y 的原因。1995年,珀爾也對概率因果進(jìn)行了改進(jìn),如果對X 進(jìn)行一個人為干預(yù)或處理能提高Y 的概率,則X 是Y 的原因,用do(X)算子表示讓X 吸煙,公式變?yōu)镻(Y|do(X))>P(Y)。2000年,施萊伯等人提出了轉(zhuǎn)移熵的概念,如果兩個變量之間存在因果關(guān)系,那么在時間上存在從因到果的信息轉(zhuǎn)移,這種信息流動可以用熵率表示,熵率通俗的理解是隨機過程平均每產(chǎn)生一個隨機字符所帶來的不確定度大小。通過比較兩個系統(tǒng)之間熵率的差異定義轉(zhuǎn)移熵,轉(zhuǎn)移熵越大,表示因果關(guān)系越強。2009年,巴奈特等證明了格蘭杰因果分析與轉(zhuǎn)移熵之間的聯(lián)系,在一定條件下格蘭杰因果關(guān)系與轉(zhuǎn)移熵是等價的。以恩斯特·馬赫、伯特蘭·羅素等人為代表的物理學(xué)家和數(shù)學(xué)家,改造了休謨的理論,提出了新休謨式的框架——X如果是Y 的原因,那么X 的出現(xiàn)應(yīng)該是Y 出現(xiàn)的充分條件。據(jù)此,2012年蘇吉哈拉等基于系統(tǒng)動力學(xué)提出了收斂交叉映射方法,基本思想為如果變量X 對變量Y 有影響,而且可以從Y 的時間序列歷史中恢復(fù)變量X 的信息,則可以建立從X 到Y(jié) 的因果關(guān)系,該因果影響通過計算預(yù)測X 值和觀察到的X 值之間的相關(guān)系數(shù)來度量。另一個典型的方法是2019年11月的Science Advances 一篇論文中提出的PCMCI算法,該方法可以檢測非線性系統(tǒng)下的因果關(guān)系。
人們對因果關(guān)系的理解普遍建立在概率因果論之上,所以會容易把相關(guān)性當(dāng)作因果性。原因是人們不能很好地分辨內(nèi)生性問題。內(nèi)生性問題分為混淆變量、中間變量和對撞偏倚。因果推斷主要是判別混淆變量、中間變量和對撞偏倚,因果網(wǎng)絡(luò)圖模型結(jié)合潛在結(jié)果模型可以簡單直觀地分辨內(nèi)生性,然而概率因果會回避此類問題,通常把它們視作隨機誤差項。根據(jù)休謨對因果關(guān)系的理解,其中最重要的一點就是不能存在任何的內(nèi)生性問題。最為經(jīng)典的當(dāng)屬辛普森悖論。通過數(shù)據(jù)發(fā)現(xiàn),某高等院校會對性別有歧視,男生的錄取率遠(yuǎn)高于女性,但在劃分專業(yè)后卻不存在該問題。如果原因出現(xiàn)了多個結(jié)果,那么該原因就是一個混淆變量,結(jié)果之間會存在正相關(guān)關(guān)系,用路徑圖表示為X←Z→Y,如有人認(rèn)為孩子鞋的尺碼會影響孩子的閱讀能力,并且有著很強的正相關(guān)性,但人們忽略了年齡這一混淆變量,孩子的年齡越大,他的鞋碼就會越大,閱讀能力就會更強。中間變量表示為X→Z→Y,則認(rèn)為Z 是一種中介物,間接影響了X 與Y 之間的相關(guān)性,而Z 才是Y的真正原因,如過去認(rèn)為橘子是治療壞血病的原因,直到維生素C 的發(fā)現(xiàn),使得人們相信維生素C 才是真正的原因。一個人的長相與才華會幫助他成為明星,當(dāng)我們看到一個長相不佳的明星時,我們會自然地認(rèn)為他很有才華,在確定是一個明星的條件下,顏值與才華呈現(xiàn)出負(fù)相關(guān)關(guān)系,這就說明出現(xiàn)了對撞偏倚的現(xiàn)象。對撞偏倚可以理解為一個結(jié)果出現(xiàn)了多個原因,用路徑圖表示為X→Z←Y。