學(xué)過《概率論》的人都知道擲硬幣的概率計(jì)算問題,擲一枚硬幣,計(jì)算正面或反面出現(xiàn)的概率。這是概率計(jì)算的經(jīng)典例子。我們受到的教育是拿一枚硬幣擲一次,正面向上的概率是0.5,重復(fù)做第二次實(shí)驗(yàn)正面出現(xiàn)的概率還是0.5,因?yàn)槲覀儍纱螌?shí)驗(yàn)是獨(dú)立的,所以有以上的結(jié)果。那我們考慮如下的問題,假設(shè)每次擲硬幣都是獨(dú)立的,我們連續(xù)擲20次,都是正面向上,那么第21次正面向上的概率會是多大呢?
不同的人可能有不同的答案。不管怎樣,答案只會有以下三種情況:
第一種情況:因?yàn)槊看瓮稊S都是獨(dú)立的,所以不管前20次怎樣都不會影響第21次的概率,所以第21次正面向上的概率仍是0.5。這可能是剛學(xué)完《概率論》的學(xué)生最容易給出的答案。
第二種情況:有人會想,連續(xù)投擲20次都是正面向上的概率已經(jīng)很小了,那連續(xù)21次正面向上的概率會更小,所以第21次不可能再是正面了,所以答案是第21次出現(xiàn)正面向上的概率很小。
第三種情況:聰明一點(diǎn)的人會發(fā)現(xiàn)題目沒有對硬幣是否均勻等背景描述,雖然每次投擲都是獨(dú)立的,但連續(xù)20次都是正面向上,這個(gè)歷史數(shù)據(jù)不能不考慮。
我們用假設(shè)檢驗(yàn)的思想,如果每次出現(xiàn)正面向上的概率都是0.5,那么連續(xù)20次都是正面向上的概率是9.53674×10-7,但實(shí)際上這個(gè)小概率事件發(fā)生了,那說明單獨(dú)擲一次正面向上的概率不是0.5,肯定要大于0.5,甚至可能會接近于1,也就是說硬幣可能的不均勻質(zhì)地導(dǎo)致連續(xù)20次都是正面向上,所以第21次投擲為正面向上的概率很大,甚至接近于1。
回過頭來看看前兩種答案,顯然都是錯誤的。我們仔細(xì)分析他們的思維過程會發(fā)現(xiàn)他們都沒有尊重?cái)?shù)據(jù),而是一味的去按照過去腦子里的固有模式去思考。我們受的教育就是這樣。所以很多人想當(dāng)然地去得出上面兩種答案。在此問題中,實(shí)際上,隱藏在數(shù)據(jù)背后的條件已經(jīng)改變,在這里隱含的條件就是“硬幣不是均勻的”,這個(gè)條件已經(jīng)通過統(tǒng)計(jì)數(shù)據(jù)的形式展現(xiàn)給你,但是你沒有好好的分析,所以會得出錯誤的結(jié)論。
我們實(shí)際工作中何嘗不是這樣呢?當(dāng)我們腦子里對某種事物有先期判斷后,我們再去搜集數(shù)據(jù)去分析,若發(fā)現(xiàn)結(jié)論和我們預(yù)想的不符合,很多人首先會懷疑數(shù)據(jù),而不是懷疑自己的判斷,這樣是很危險(xiǎn)的。因?yàn)槭挛锏膬?nèi)在變化,往往會體現(xiàn)在統(tǒng)計(jì)數(shù)據(jù)中,如果我們不能從數(shù)據(jù)中發(fā)現(xiàn)細(xì)微的變化,或者對這些數(shù)據(jù)變化熟視無睹,那么統(tǒng)計(jì)工作就失去了基本意義。
讓統(tǒng)計(jì)數(shù)據(jù)說話是我們工作的基本原則。但實(shí)際工作中,只看數(shù)據(jù),有時(shí)會得出顯而易見的錯誤結(jié)論,那時(shí)我們還要相信數(shù)據(jù)嗎?我們看下面這個(gè)例子。有人研究汽車交通事故的統(tǒng)計(jì)數(shù)據(jù),發(fā)現(xiàn)離家越近汽車的交通事故發(fā)生率越高。我們通過常識知道,汽車發(fā)生事故,應(yīng)該與離家遠(yuǎn)近沒有直接關(guān)系。那上面的結(jié)論明顯不對,會是數(shù)據(jù)出現(xiàn)錯誤嗎?如果數(shù)據(jù)沒有錯誤,這個(gè)矛盾又怎么解釋呢?其實(shí)我們知道在這個(gè)問題的背后有個(gè)隱藏的變量,事故發(fā)生率和家的聯(lián)系通過這個(gè)隱藏變量而存在,這個(gè)隱藏變量就是你的駕駛時(shí)間。其他地方可能只去一次,離家越遠(yuǎn)你去的越少,在那里的駕駛時(shí)間少,事故率自然少,離家越近你駕駛時(shí)間越多所以事故率自然會上升。
這個(gè)例子說明,即使造成矛盾的結(jié)論,我們還要相信數(shù)據(jù),矛盾的原因可能是有隱含的變量我們沒有找到,我們要努力尋找問題背后的隱藏變量,而不是去質(zhì)疑數(shù)據(jù)。
從上面兩個(gè)例子可以看出數(shù)據(jù)的重要性。統(tǒng)計(jì)數(shù)據(jù)是我們統(tǒng)計(jì)工作的基礎(chǔ),也是我們可以信任的工具,我們要時(shí)刻牢記從數(shù)據(jù)出發(fā),用數(shù)據(jù)說話。當(dāng)然,對于那些造假的數(shù)據(jù)或搜集過程有瑕疵的數(shù)據(jù)不在我們討論之列。