文/鄭 念
統(tǒng)計(jì)是經(jīng)濟(jì)社會(huì)管理的重要依據(jù),也是現(xiàn)代(社會(huì))科學(xué)研究的重要技術(shù)手段,在大數(shù)據(jù)出現(xiàn)以前更是如此。然而,任何技術(shù)都具有兩面性,具有雙刃劍作用,只有正確使用才能產(chǎn)生好的效果,否則,濫用或錯(cuò)誤運(yùn)用,其破壞性也是不容小覷的。
善于運(yùn)用統(tǒng)計(jì)是科學(xué)理性的表現(xiàn),是進(jìn)步的標(biāo)志之一。最典型例子,大概20多年前,天氣預(yù)報(bào)往往會(huì)用肯定性的語(yǔ)言,如今天小雨,或陰天,或晴天,或小雨轉(zhuǎn)多云等。但發(fā)現(xiàn)群眾意見(jiàn)很大,因?yàn)橐罁?jù)天氣預(yù)報(bào)來(lái)安排日程,往往出錯(cuò)。于是后來(lái)的表述就更科學(xué)一些了,采用統(tǒng)計(jì)或概率的方法,如降水概率50%,或者濕度80%。
小數(shù)據(jù)時(shí)代,統(tǒng)計(jì)學(xué)在研究宏觀現(xiàn)象時(shí)非常有效,用于微觀現(xiàn)象則要慎重,但如果正確運(yùn)用則具有意想不到的效果。比如,量子力學(xué)、統(tǒng)計(jì)力學(xué)在理解很多熱力學(xué)概念(例如熵、溫度、氣體狀態(tài))的起源方面取得了巨大成功,尤其是在普朗克1911年提出光量子的統(tǒng)計(jì)原理后,與量子理論的結(jié)合進(jìn)一步完善了統(tǒng)計(jì)力學(xué)的基礎(chǔ)。
大數(shù)據(jù)學(xué)科的出現(xiàn),在一定程度上豐富了統(tǒng)計(jì)學(xué)的內(nèi)容,提升了統(tǒng)計(jì)技術(shù)。大多數(shù)情況下,可以運(yùn)用云計(jì)算直接分析整體(全樣本)大數(shù)據(jù),而不必要進(jìn)行抽樣,以樣本推斷總體,這就改變了傳統(tǒng)科學(xué)研究的線(xiàn)性思維,而用直接面對(duì)復(fù)雜科學(xué)的系統(tǒng)思維,更多考慮要素之間的相關(guān)性,而不是因果關(guān)系。但這并不能否定統(tǒng)計(jì)思維的作用,因?yàn)榇髷?shù)據(jù)學(xué)科中包括了統(tǒng)計(jì)學(xué)中數(shù)據(jù)分析的基本方法,如回歸分析、分類(lèi)模型、集成模型、聚類(lèi)模型等,描述的性質(zhì)也是統(tǒng)計(jì)學(xué)語(yǔ)言,仍然需要統(tǒng)計(jì)思維來(lái)發(fā)現(xiàn)規(guī)律。
我們經(jīng)常會(huì)在媒體上看到各種各樣違背常識(shí)或是與我們想象中不同的驚人結(jié)論,每當(dāng)看到這樣的結(jié)論時(shí),公眾都會(huì)產(chǎn)生疑惑,時(shí)間長(zhǎng)了人們可能逐漸不再相信媒體報(bào)道的數(shù)據(jù)。越來(lái)越多不靠譜的結(jié)論讓人們很難再相信它們。
這不是統(tǒng)計(jì)思維的問(wèn)題,而是使用統(tǒng)計(jì)技術(shù)的人出現(xiàn)了錯(cuò)誤。對(duì)于公眾來(lái)說(shuō),了解統(tǒng)計(jì)技術(shù),具備統(tǒng)計(jì)思維,更有利于識(shí)別和判斷信息的有效性。否則,一旦統(tǒng)計(jì)結(jié)論和實(shí)際情況的偏差并且不能讓我們意識(shí)到,我們就會(huì)很輕易地相信了這些結(jié)論。所以,在學(xué)習(xí)使用統(tǒng)計(jì)思維時(shí),通過(guò)思考如何避免常見(jiàn)的統(tǒng)計(jì)陷阱是非常有必要的。我們這樣做不僅可以避免相信錯(cuò)誤結(jié)論,而且能夠讓我們對(duì)于統(tǒng)計(jì)思維的本質(zhì)有更深層次的思考。
一些作者尤其是學(xué)生,喜歡用調(diào)查數(shù)據(jù)來(lái)論證,用定量方法進(jìn)行分析,從研究的角度考慮,這是提高科學(xué)性增進(jìn)結(jié)論可靠性的有效技術(shù)路線(xiàn)。但問(wèn)題是很多作者只是停留在形式上,并不考慮抽樣框如何確定、技術(shù)是否合理,數(shù)據(jù)是否可靠,即使用了定量分析,也不能把結(jié)論與分析結(jié)合起來(lái),有時(shí)都不知道為什么要研究這個(gè)問(wèn)題,于是,大量的研究成為無(wú)效勞動(dòng),出現(xiàn)很多偽命題偽研究,浪費(fèi)時(shí)間和資源。
大數(shù)據(jù)時(shí)代的到來(lái),對(duì)于公眾來(lái)說(shuō),提升統(tǒng)計(jì)思維顯得非常必要。但要避免統(tǒng)計(jì)陷阱。一是要思考數(shù)據(jù)的來(lái)源和方法。當(dāng)看到結(jié)論時(shí),我們要同時(shí)思考輔助結(jié)論推導(dǎo)出來(lái)的源數(shù)據(jù)是如何進(jìn)行采集、錄入、加工到輸出的,這中間是否存在影響結(jié)論客觀公正性的問(wèn)題。二是統(tǒng)計(jì)方法是否合適。日常工作生活中,我們要結(jié)合研究目的、數(shù)據(jù)類(lèi)型及特點(diǎn),來(lái)選擇合適的方式。例如,平均值適合的情況是樣本分布呈正態(tài)分布或是橄欖球形狀的,在偏態(tài)分布或是兩極分化嚴(yán)重的隨機(jī)現(xiàn)象中,更合適的方式是采用分位數(shù)。三是避免大數(shù)據(jù)忽悠。所有的分析工作最終都是為了得到一個(gè)結(jié)論,有了結(jié)論就會(huì)做出相應(yīng)的決策,這些決策一般都會(huì)帶來(lái)較為重要的影響,所以發(fā)現(xiàn)結(jié)論錯(cuò)誤是非常重要且非常有必要的。常見(jiàn)的結(jié)論謬誤是以偏概全,即將結(jié)論的影響因素只歸結(jié)到了少數(shù)幾種因素,對(duì)于某些重要因素并沒(méi)有考慮到。