雷麗娟,李潤珍
(太原科技大學(xué) 哲學(xué)研究所,山西 太原 030024)
大數(shù)據(jù)背景下的因果關(guān)系與相關(guān)關(guān)系
雷麗娟,李潤珍
(太原科技大學(xué) 哲學(xué)研究所,山西 太原 030024)
因果關(guān)系是現(xiàn)代科學(xué)建立的基石,而科學(xué)研究則以探尋事物的因果關(guān)系為根本任務(wù)。在實踐中,無論是獲取因果關(guān)系還是用因果關(guān)系解釋事物之間的聯(lián)系,都存在著極大的困難。大數(shù)據(jù)時代的到來,為相關(guān)關(guān)系的獲取提供了極大的便利,雖然對一些領(lǐng)域的探索只止步于相關(guān)關(guān)系,而沒有去探究其中的因果關(guān)系,但這些探索卻能使我們更全面、更迅速地把握事物的本質(zhì)。
因果關(guān)系;相關(guān)關(guān)系;大數(shù)據(jù)
牛頓經(jīng)典力學(xué)的巨大成功導(dǎo)致了機械論、因果律的盛行,并使探求因果關(guān)系成了科學(xué)研究的主要任務(wù)。人們認(rèn)為,任何事物的發(fā)展變化都有其內(nèi)在的原因,要把握事物的本質(zhì),就必須看到它的原因。因此,因果關(guān)系就成了理解和預(yù)測事物運動變化的基礎(chǔ), 成了人們認(rèn)識未知世界的重要途徑。愛因斯坦說: “西方科學(xué)的發(fā)展是以兩個偉大的成就為基礎(chǔ)的, 那就是:希臘哲學(xué)家發(fā)明的形式邏輯體系(歐幾里德幾何學(xué)),以及通過系統(tǒng)的實驗有可能找出因果關(guān)系?!盵1]
因果關(guān)系具有決定論的性質(zhì),通過建立因果關(guān)系可以解釋經(jīng)驗現(xiàn)象之所以發(fā)生以及如何發(fā)生的原因。長期以來,由于牛頓范式、機械決定論的巨大影響,以及人類對于未來的心理訴求,使因果關(guān)系受到了極大的重視。與之相對的則是相關(guān)關(guān)系,相關(guān)關(guān)系表征的是兩個或多個因素間的關(guān)聯(lián)密切程度,即當(dāng)某些現(xiàn)象發(fā)生時,另一些現(xiàn)象也會隨之發(fā)生可能性。這是一種概率性的描述。相關(guān)關(guān)系一般不具有決定論的性質(zhì),且不能揭示事物內(nèi)部的運作機制,即便找到了相關(guān)關(guān)系,也不能了解事情發(fā)生的背后原因。這是因為,長期以來,我們并沒有把注意力放在相關(guān)關(guān)系的發(fā)現(xiàn)和使用上。
2009年2月,谷歌公司在《自然》上發(fā)表的一篇論文[2]說明:谷歌通過每天來自全球超過30億條的搜索記錄,成功地預(yù)測出了冬季流感的傳播源頭、爆發(fā)時間、傳播路徑等,其預(yù)測結(jié)果與官方數(shù)據(jù)的一致性高達(dá)97%,而這種預(yù)測卻幾乎是實時的。谷歌的流感預(yù)測主要是從相關(guān)性著手,即通過測試流感在時間和空間上的傳播與諸如“哪些藥物治療發(fā)熱和咳嗽效果好”等特定檢索詞條的使用頻率之間的聯(lián)系完成了預(yù)測。這成為在大數(shù)據(jù)背景下應(yīng)用相關(guān)關(guān)系去認(rèn)識世界的一個典型案例。大數(shù)據(jù)時代的到來,使許多獲取相關(guān)關(guān)系的限制條件逐步消失——我們不但擁有越來越多的數(shù)據(jù),而且也擁有了強大的機器計算能力去從紛繁的數(shù)據(jù)中發(fā)現(xiàn)相關(guān)關(guān)系。只要發(fā)現(xiàn)了兩個現(xiàn)象之間存在的顯著相關(guān)性,即使是在只知道“是什么”,而不知道“為什么”的情況下,仍可以推動社會的進(jìn)步,并創(chuàng)造出巨大的經(jīng)濟效益。一邊是獲取更容易、更快捷的相關(guān)關(guān)系,一邊是人類前行的基石——因果關(guān)系,我們該如何平衡“相關(guān)”和“因果”,就成為當(dāng)前需要考量的問題。
通過因果關(guān)系去理解世界是人類重要的認(rèn)知方式。我們熱衷于用因果關(guān)系去看待周圍的一切,當(dāng)兩件事情接連發(fā)生時,我們習(xí)慣于提出“為什么”,即便確定其間的因果關(guān)系很困難,或者用途不大,人們也會樂此不疲。
2002年諾貝爾經(jīng)濟學(xué)獎獲得者、普林斯頓大學(xué)心理學(xué)專家丹尼爾·卡尼曼證明人有兩套認(rèn)知系統(tǒng),即系統(tǒng)1和系統(tǒng)2。系統(tǒng)1是毫不費力的快速思維,其思維方式是無意識運作,它依賴直覺,通常幾秒鐘就能得出結(jié)果;系統(tǒng)2是比較費力的慢性思維,是一種受控運作的思維方式,對于特定的問題,需要集中注意力認(rèn)真思考,其結(jié)果則可能更為精確、理性。丹尼爾·卡尼曼認(rèn)為,系統(tǒng)1見聞廣博,依賴經(jīng)驗、記憶和情感可以快速建立起因果關(guān)系,人類依賴這種因果關(guān)系能夠在信息量匱乏卻必須快速作出決斷的特殊情況下化險為夷[3]。即便是在并不危急的情境中,人類也很少慢條斯理地去思考問題,系統(tǒng)1的快速思維模式總是占據(jù)著上風(fēng)。因此,系統(tǒng)1通過建立一個又一個的因果關(guān)系來幫助我們解釋現(xiàn)象、認(rèn)識世界。這種建立因果關(guān)系的方法就是我們用來避免辛苦思考的捷徑。但實際上,這種認(rèn)知捷徑只是給了我們一種自己已經(jīng)理解的錯覺,因為大量的因果關(guān)系是我們主觀建立的,是不存在的。例如,通過“肺癌患者大多愛吸煙”和“吸煙者更容易得肺癌”這兩個統(tǒng)計結(jié)果,人們通過直覺得出“吸煙導(dǎo)致肺癌”這個因果關(guān)系。事實上,這樣推出的因果關(guān)系是不可靠的,真實的情況可能是“肺癌導(dǎo)致吸煙”,比如說也許是肺的癌變使人產(chǎn)生了對煙的需求。
即便我們啟用大腦中的系統(tǒng)2來分析問題,甚至借助計算機的強大計算能力,也仍然很難證明因果關(guān)系。一般情況下,科學(xué)家常用設(shè)立對照組的實驗方法來證明因果關(guān)系。實驗中,設(shè)立兩個完全一致的對照組,其中一組施加誘因,另一組不作處理,之后比較實驗結(jié)果。如果施加誘因組確實產(chǎn)生了無誘因組所沒有的現(xiàn)象,即可證明誘因和現(xiàn)象之間存在因果關(guān)系。例如,欲證明“吸煙導(dǎo)致肺癌”,可以尋找兩組完全相同的健康人,讓其中一組吸煙,另一組不吸煙,其他方面也完全一致。若干年后,如果吸煙組中的肺癌患者數(shù)高于不吸煙組,那么鑒于這兩個組的唯一區(qū)別就是吸煙,我們由此推出“吸煙導(dǎo)致肺癌”這個因果關(guān)系[4]??墒聦嵤牵@種理想實驗無法完全一致地進(jìn)行,因為現(xiàn)實世界根本不存在“完全相同”的兩組人。因此,我們只能說兩者之間很可能存在因果關(guān)系。所以,因果關(guān)系被完全證實幾乎沒有可能,并且這種探尋因果關(guān)系的方法也面臨著高成本、甚至違背倫理道德的風(fēng)險。例如,在“吸煙導(dǎo)致肺癌”的實驗中,我們不能逼人吸煙。就算實驗可以操作,其操作成本也會非常昂貴。除獲取難度大之外,因果關(guān)系的解釋能力和解釋范圍也需要重新考察?!耙蚬笔恰跋嚓P(guān)”的子集,因果關(guān)系是相關(guān)關(guān)系的一種特殊情況,因果解釋不能代替對事物全部關(guān)系的解釋。
首先,因果關(guān)系強調(diào)時間上的先后??档略凇都兇饫硇耘小分兄赋觯阂蚬缘膱D型就是時間的“相繼性”,屬于時間的“關(guān)系圖型”;因果聯(lián)系必然要求時間存在間隔,以致原因在先結(jié)果在后,無時空性的因果性是根本不存在的[5]。對于共時發(fā)生的事件,欲認(rèn)識和處理其間的關(guān)系就必須訴諸于因果之外的其他關(guān)系。
其次,用因果關(guān)系來解釋非線性的相互作用是非常困難的。系統(tǒng)科學(xué)證明,現(xiàn)實系統(tǒng)的絕大多數(shù)是非線性的。所謂的非線性是指系統(tǒng)的行為不能表達(dá)為描述它的線性函數(shù),不能簡化為線性的相互作用,即在數(shù)學(xué)上它不能滿足疊加原理。這是因為元素之間的關(guān)系、元素與結(jié)構(gòu)之間的關(guān)系、因變量與自變量之間的關(guān)系不成比例。小原因可以有大結(jié)果,大原因可以有小結(jié)果。然而,當(dāng)前我們對世界的認(rèn)識仍主要是基于牛頓范式所體現(xiàn)出的線性因果思維,因此用線性因果關(guān)系去描述非線性的現(xiàn)實系統(tǒng)顯然是不可行的。盡管系統(tǒng)科學(xué)提出了“非線性因果關(guān)系”的概念,并試圖以此突破線性因果關(guān)系的框架,幫助我們認(rèn)識現(xiàn)實世界的復(fù)雜聯(lián)系,但我們應(yīng)清醒地認(rèn)識到,在龐雜的系統(tǒng)中尋找非線性因果關(guān)系往往難以實現(xiàn)。
2004年以來,F(xiàn)acebook、Twitter等社交媒體相繼問世,實現(xiàn)了人們基于互聯(lián)網(wǎng)的實時互動、交流協(xié)同。每一位網(wǎng)絡(luò)用戶都成了數(shù)據(jù)的制造者,這不但引發(fā)了迄今為止最大規(guī)模的數(shù)據(jù)爆炸,也標(biāo)志著大數(shù)據(jù)時代的正式到來?!按髷?shù)據(jù)”是人類在量化認(rèn)識世界道路上的一次巨大飛躍,過去不可存儲、計量的東西都轉(zhuǎn)變?yōu)橐环N可分析的形式:可以把文字轉(zhuǎn)化為數(shù)字格式;通過GPS衛(wèi)星把坐標(biāo)位置數(shù)據(jù)化處理;通過安裝傳感器,使環(huán)境質(zhì)量數(shù)據(jù)化;通過對Facebook、Twitter、微信、微博用戶數(shù)據(jù)進(jìn)行分析,人的經(jīng)歷、情感、情緒、人與人的關(guān)系、態(tài)度均可被轉(zhuǎn)化為計算機可識別的數(shù)據(jù)。這就為相關(guān)關(guān)系的發(fā)掘提供了條件。
相關(guān)關(guān)系之表現(xiàn):當(dāng)一個數(shù)據(jù)值增加時,另一個數(shù)據(jù)值也會隨之增加(或隨之減小,即反相關(guān));相反,在無相關(guān)關(guān)系的情況下,一個數(shù)據(jù)值的增減,并不能影響另一個數(shù)據(jù)值的變化。相關(guān)關(guān)系背后的數(shù)學(xué)描述是直接的、可視的,借助計算機技術(shù)和數(shù)據(jù)分析工具,可以輕易地獲取數(shù)據(jù)間的相關(guān)關(guān)系。隨著計算機科學(xué)的發(fā)展,以及新型相關(guān)關(guān)系分析工具的出現(xiàn),發(fā)現(xiàn)數(shù)據(jù)中的非線性相關(guān)關(guān)系也就成了可能。
基于海量數(shù)據(jù),我們不僅能迅速發(fā)掘相關(guān)關(guān)系,而且還可以避免傳統(tǒng)科學(xué)發(fā)現(xiàn)過程中的弊病。對于未知知識領(lǐng)域的探索,傳統(tǒng)科學(xué)范式通常針對現(xiàn)象在已有經(jīng)驗、理論的基礎(chǔ)上建立一個假設(shè),這個假設(shè)一般是能夠揭示現(xiàn)象產(chǎn)生機理的因果關(guān)系,然后通過實驗收集與之相關(guān)的數(shù)據(jù)來對這個假設(shè)的優(yōu)劣進(jìn)行評測。如果評測結(jié)果不理想,研究者出于對數(shù)據(jù)收集精度的擔(dān)憂,通常會固執(zhí)地再次嘗試。經(jīng)過多次評測,最終可證實或推翻一個假設(shè)。這種不斷提出假設(shè)進(jìn)行評測的方法無疑可以促進(jìn)學(xué)科的發(fā)展,但這種發(fā)展將會非常緩慢。由于建立假設(shè)、評測方法的主觀性,在對所假設(shè)的因果關(guān)系進(jìn)行驗證的過程中,有可能受到偏見的影響,進(jìn)而得到錯誤或者片面的理解。
例如,在對“什么導(dǎo)致少兒多動癥”的研究中,研究者假設(shè)“母親孕期焦慮導(dǎo)致日后小孩患有少兒多動癥”。在對假設(shè)進(jìn)行驗證的過程中,研究者詢問了203位“多動癥”小孩的母親在孕期是否心理壓力過大。研究結(jié)果表明,孕期越焦慮,其孩子“多動癥”的現(xiàn)象越嚴(yán)重。這是一個有明顯偏見的研究,因為母親們不太可能準(zhǔn)確地記住自己懷孕時的焦慮狀況,她們可能是不自覺地為了配合研究者的理論而高估了自己當(dāng)時的心理壓力[6]。雖然數(shù)據(jù)支持了研究者的假設(shè),但有可能這只是一個非常微弱的效應(yīng)。要想發(fā)現(xiàn)導(dǎo)致少兒多動癥的無偏見的因果關(guān)系,需要盡可能全面地考慮各種影響因素,如懷孕期間女人的作息是否規(guī)律、懷孕年齡、孕婦是否喝酒吸煙等。只有如此,其研究結(jié)果才更具有參考價值。
基于大數(shù)據(jù)的相關(guān)關(guān)系挖掘能有效地避免這種偏見。通過計算機運算,數(shù)據(jù)中的相關(guān)關(guān)系可直觀地呈現(xiàn)在研究者的眼前。例如,將孕婦在孕期的各項指標(biāo)進(jìn)行全面監(jiān)測并存入數(shù)據(jù)庫,日后如果小孩出現(xiàn)多動癥的現(xiàn)象,則可準(zhǔn)確地分析出多動癥與孕婦在孕期的哪些表現(xiàn)有關(guān)。這種方式不但不需要研究者預(yù)先建立假設(shè)再考查實驗數(shù)據(jù),而且還能有效地避免研究人員的主觀影響。
此外,世界正在朝著復(fù)雜性不斷增加的方向演進(jìn)[7],提出假設(shè)進(jìn)行評測的研究方法已越來越不可行。因為事物的聯(lián)系太過復(fù)雜,需要考查的領(lǐng)域也太廣,研究者很難充分考慮到事物的各個方面。通過數(shù)據(jù)挖掘,迅速獲取相關(guān)關(guān)系,然后再以相關(guān)關(guān)系為指引,考察其間的因果關(guān)系,將成為我們認(rèn)識世界、探索未知領(lǐng)域的一條捷徑。正如數(shù)學(xué)家Duncan Watts所言:“一旦知道了結(jié)果,一切都很容易?!?/p>
在大數(shù)據(jù)的背景下,相關(guān)關(guān)系較因果關(guān)系能在預(yù)測功能上展現(xiàn)出更大的優(yōu)勢。人類自文明產(chǎn)生以來,便試圖通過對過去和現(xiàn)在事件的分析,來獲得對未來的預(yù)測。而數(shù)字技術(shù)的發(fā)展讓過去和現(xiàn)在均可被數(shù)據(jù)化,即轉(zhuǎn)換為計算機可存儲、分析的格式。在此基礎(chǔ)上,通過對海量數(shù)據(jù)的挖掘,可實現(xiàn)更為全面、準(zhǔn)確的預(yù)測。大數(shù)據(jù)通過對相關(guān)關(guān)系的把握來實現(xiàn)對未來的預(yù)測,如果A和B有很高的關(guān)聯(lián)度,即A發(fā)生時B通常也會發(fā)生。那么,只要我們持續(xù)監(jiān)測A是否發(fā)生,就可預(yù)測B發(fā)生的可能性,即便B是不可直接觀察或測量的。
在很多情況下,基于相關(guān)關(guān)系的快速清晰的預(yù)測比先證明因果關(guān)系再進(jìn)行預(yù)測更為實用。例如,在汽車發(fā)動機上安裝用于測量機箱溫度、承壓、振幅、發(fā)音頻率的傳感器,之后將傳感器收集到的數(shù)據(jù)傳至微型電腦進(jìn)行分析。通常,發(fā)動機在發(fā)生故障前,都會先出現(xiàn)一些異常情況,如機箱過熱、引擎嗡嗡聲等。將傳感器全面收集到的相關(guān)數(shù)據(jù)與歷史上的正常數(shù)據(jù)進(jìn)行對比,即可預(yù)測出發(fā)動機有可能發(fā)生的故障。適當(dāng)?shù)胤艞墶耙蚬?,將關(guān)注點轉(zhuǎn)為“相關(guān)”,有助于我們更迅速、更全面地把握事件的發(fā)生,我們可以從“出現(xiàn)問題-邏輯分析-找出原因”的事后補救模式轉(zhuǎn)換到“收集數(shù)據(jù)-預(yù)測問題-解決問題”的主動預(yù)警模式。
大數(shù)據(jù)正在開啟一場思維革命,正如顯微鏡為我們打開了微觀世界的大門,大數(shù)據(jù)也會逐步改變我們考察世界的方式方法。大數(shù)據(jù)描繪出了一幅“一切皆可量化”的圖景,為世界提供了前所未有的數(shù)據(jù)化維度。在海量數(shù)據(jù)中,我們可以快捷、直接、清楚地挖掘出其中的相關(guān)關(guān)系。相關(guān)關(guān)系雖不能揭示某件事情為何發(fā)生,但它會告訴我們這件事正在發(fā)生,并能實時地預(yù)測出未來的走勢。在很多情況下,只知道“是什么”,不知道“為什么”,也足以讓我們把握住復(fù)雜的社會動態(tài),并創(chuàng)造出巨大的經(jīng)濟或社會效益。
但是,我們決不能因此而放棄對因果關(guān)系的追求。徐繼華等[8]的研究為我們描繪出了一幅未來通過收集某人從小到大的考試成績、生活習(xí)慣、網(wǎng)頁瀏覽習(xí)慣等大量數(shù)據(jù),以及對數(shù)據(jù)進(jìn)行預(yù)測性分析,得出某人的性格特點和潛在能力,進(jìn)而為其推薦合適的學(xué)校、制訂合適的教育培訓(xùn)課程的圖景。但這種貌似美好的畫面卻隱藏著巨大的危機——由于數(shù)據(jù)庫中有著相似學(xué)習(xí)成績、相似行為習(xí)慣的大多數(shù)人都會表現(xiàn)出對某一學(xué)科的共同興趣,預(yù)測系統(tǒng)便會根據(jù)這種極強的相關(guān)性判斷出某個人也會作出相同的抉擇,這無疑是對自由意志的巨大沖擊,并將個人意志完全禁錮在集體意志之中。而類似問題的解決途徑,恰恰在于不僅依據(jù)相關(guān)關(guān)系作出預(yù)測,而且也需要挖掘出其中的因果關(guān)系,并互為補充。此外,如果完全放棄對因果關(guān)系的探索,人類凌駕于計算機之上的分析能力不但會蕩然無存,個人的自由意志也將會無從談起,這無疑是人類自身的墮落。
不可否認(rèn),在大數(shù)據(jù)的背景下,獲取相關(guān)關(guān)系極為便捷,基于相關(guān)關(guān)系的預(yù)測具有很強的實用功能,正如人類學(xué)家Clifford Geertz所言:“努力在可以應(yīng)用、可以拓展的地方,應(yīng)用它、拓展它;在不能應(yīng)用、不能拓展的地方,就停下來?!盵9]這應(yīng)該是在面對某些新觀念時應(yīng)持有的態(tài)度。
[1] 愛因斯坦.愛因斯坦文集:第1卷[M].許良英,范岱年,譯.北京: 商務(wù)印書館,1976:574.
[2] JEREMY G, MATHEW H M, RAJAN S P.Detecting influenza epidemics using search engine query data[J]. Nature,2009,457(19): 1-3.
[3] 丹尼爾·卡尼曼. 思考,快與慢[M].胡曉姣,李愛民,何夢瑩,譯.北京:中信出版社,2012:3-14.
[4] 萬維剛.萬萬沒想到——理工科思維理解世界[M].北京:電子工業(yè)出版社,2014:228-229.
[5] 王世進(jìn),李先.從因果性到一般關(guān)聯(lián)性初探[J].系統(tǒng)科學(xué)學(xué)報,2012,20(4): 1-2.
[6] GRIZENKO N,SHAYAN Y R,POLOTSKAIA A,et al.Relation of maternal stress during pregnancy to symptom severity and response to treatment in children with ADHD[J]. Journal of psychiatry & neuroscience,2008,33(1):10-16.
[7] 張華夏.系統(tǒng)哲學(xué)三大定律[M].北京:人民出版社,2015:141-143.
[8] 徐繼華,馮啟娜,陳貞汝.智慧政府——大數(shù)據(jù)治國時代的來臨[M].北京:中信出版社,2014:1-8.
[9] 克利福德·格爾茨.文化的解釋[M].韓莉,譯.南京:譯林出版社,1999:31-32.
[責(zé)任編輯 楊玉東]
Causation and correlation under the background of big data
LEI Lijuan,LI Runzhen
(InstituteofPhilosophy,TaiyuanUniversityofScienceandTechnology,Taiyuan030024,Shanxi,China)
The fundamental task of scientific researches have been to explore causation of things, the cornerstone of modern science. In practice, it is usually difficult either to obtain causation or to explain the relationship between things using causation. The arrival of the era of big data provides a great convenience to obtain correlation which enables us to grasp the essence of things more comprehensively and quickly.
causation; correlation; big data
10.16698/j.hpu(social.sciences).1673-9779.2017.01.007
2016-10-12
太原科技大學(xué)2015年研究生科技創(chuàng)新項目(20151038)
雷麗娟(1988—),女,山西大同人,碩士生,主要從事系統(tǒng)科學(xué)哲學(xué)研究。 E-mail:1015885739@qq.com
B025.5
A
1673-9779(2017)01-0036-04
雷麗娟,李潤珍.大數(shù)據(jù)背景下的因果關(guān)系與相關(guān)關(guān)系[J].2017,18(1):036-039.