王 慧 吳 丹 夏俊榮
(南京信息工程大學 大氣科學學院/氣象災(zāi)害教育部重點實驗室,江蘇 南京 210044)
正態(tài)分布又名高斯分布,是一種非常重要的概率分布,其在統(tǒng)計學的許多方面有著重大的影響力。資料的正態(tài)分布檢驗和正態(tài)化轉(zhuǎn)換方法是大學本科課程“氣象統(tǒng)計方法”中的一部分內(nèi)容。該課程是在概率統(tǒng)計、線性代數(shù)的基礎(chǔ)上,學習利用統(tǒng)計學方法對氣象要素的特征及成因進行診斷和分析或?qū)庀蟋F(xiàn)象進行預(yù)報的方法。它是大氣科學專業(yè)的一門專業(yè)主干課。通過該課程的教學,使學生能夠掌握對天氣、氣候現(xiàn)象進行診斷分析及預(yù)報的常用統(tǒng)計學方法的基本原理和技術(shù),培養(yǎng)學生運用所學的方法與技能從事科學研究的能力,為將來從事實際氣象業(yè)務(wù)預(yù)報及科學研究工作打下基礎(chǔ)。本文針對該課程教學中對資料正態(tài)分布檢驗問題重視不夠,導(dǎo)致學生在科研工作中往往出錯等問題,提出自己的看法,希望引起大家的重視,使學生更好地理解和利用統(tǒng)計學方法解決氣象中的一些科學問題,這對學生將來的工作有很大的幫助。
目前,在“氣象統(tǒng)計方法”課程中對資料的正態(tài)分布檢驗這部分,很多教師只是簡單講授資料正態(tài)分布的統(tǒng)計量和正態(tài)化方法等,多數(shù)是抽象地介紹課本上的相關(guān)公式,關(guān)注的是學生能否記住統(tǒng)計量的名稱、意義和應(yīng)用條件。因而大部分學生為了應(yīng)付考試,都是死記硬背定義和公式,考試也最多考到正態(tài)分布統(tǒng)計量的名稱,等考試完了也都全忘記了,根本不能引起學生的注意。所以,如果教師對這部分內(nèi)容不進行強調(diào)和詳細講解,很多學生并不能很好地理解和認識其重要性,這可能導(dǎo)致他們在以后的科研和預(yù)報工作中犯一些低級錯誤,研究結(jié)果有誤自己都不能發(fā)現(xiàn)。在碩士甚至博士研究生答辯中都有類似事情發(fā)生。
對于資料的正態(tài)分布檢驗這部分內(nèi)容沒有固定的學時安排,授課時間因教師而異,有些教師可能自己也不重視,快速、簡單地講授一下,不超過一個學時就講完了。這部分內(nèi)容筆者一般安排2個學時的課程講授。資料正態(tài)分布檢驗的重要性大概占0.5個學時。
首先,對正態(tài)分布進行簡單介紹,展示正態(tài)分布曲線圖形。若隨機變量X服從一個數(shù)學期望為μ、方差為σ2的高斯分布,記為N(μ,σ2)。其概率密度函數(shù)為正態(tài)分布的期望值μ決定了其位置,其標準差σ決定了其分布的幅度。因其曲線呈鐘形,因此人們又經(jīng)常稱之為鐘形曲線。我們通常所說的標準正態(tài)分布是μ=0,σ=1的正態(tài)分布。正態(tài)曲線與橫軸間的總面積等于1。正態(tài)曲線下橫軸上一定區(qū)間的面積反映資料的取值分布在該區(qū)間的個數(shù)占總觀測次數(shù)的百分比,或變量值落在該區(qū)間的概率。橫軸(μ-σ,μ+σ)區(qū)間內(nèi)的面積為68.3%,(μ-1.96σ,μ+1.96σ)區(qū)間內(nèi)的面積為95.4%,(μ-2.58σ,μ+2.58σ)區(qū)間內(nèi)的面積為99.7%。這也是我們通常說氣候異常超過±1.96σ和±2.58σ的概率不超過0.05和0.01的原因。
接著,重點介紹氣象統(tǒng)計分析中氣候資料正態(tài)分布檢驗的必要性和重要性。資料符合正態(tài)分布是各類統(tǒng)計預(yù)報模型和統(tǒng)計檢驗方法的先決條件,大多數(shù)氣候診斷方法和預(yù)報模型是在氣候變量呈正態(tài)分布假定前提下進行的[1-3]。變量是否遵從正態(tài)分布,直接影響氣象統(tǒng)計分析結(jié)果和預(yù)測模型的應(yīng)用效果。因此,對于氣候變量是否為正態(tài)分布的檢驗,不僅很有必要而且很重要。研究表明,年、月平均氣溫、氣壓、多雨地區(qū)的月降水量通常符合正態(tài)分布[4],旬平均氣溫基本符合正態(tài)分布?,F(xiàn)實生活中,非正態(tài)變量在氣候要素中占有重要地位,如候、旬降水量,降水稀少地區(qū)的月降水量[4],各種天氣(如降水、積雪、冰雹、大風和高溫等)日數(shù)和旱澇指數(shù)等。近年來,在全球氣候變暖背景下,極端氣候異常頻繁地光顧地球,嚴重影響著世界各國的經(jīng)濟社會發(fā)展和人民生活,所以對極端氣候事件的研究成了大家關(guān)注的焦點。由于大多的天氣、氣候極端事件往往出現(xiàn)于非正態(tài)時間序列中,所以在研究這些氣候要素的時空特征和演變規(guī)律時,若應(yīng)用基于正態(tài)分布條件下的各種統(tǒng)計方法,由于其分布的非正態(tài)性,可能會導(dǎo)致研究和預(yù)報的失敗。長期以來,我們對月、季、年降水量預(yù)報準確率不高,這可能是原因之一[4]。這里建議舉一些現(xiàn)實生活和科研工作中的例證加以說明,使學生更容易理解且記憶深刻。比如筆者會拿平均值舉例,某同學到一個公司找工作,公司負責人告訴他,該公司的月平均工資是5 000元,該同學一聽很高興,但到公司上班后發(fā)現(xiàn)每月只拿到2 000多元,這是為什么?其實該公司一共25人,有普通員工18人,月工資是2 000多,有主管5人,月工資是10 000多,還有2個部門經(jīng)理,月工資是20 000多,這樣該公司的平均工資就是5 000多。統(tǒng)計學上,平均值的物理含義是描述某一數(shù)據(jù)序列平均水平的量,這是基于數(shù)據(jù)序列呈正態(tài)分布的前提下。但是因為該公司的工資不呈正態(tài)分布,所以這時的平均工資根本代表不了該公司工資的平均水平。該同學不了解這一點自然吃虧上當。再比如某一同學研究東亞夏季風的爆發(fā)時間及其環(huán)流特征,研究發(fā)現(xiàn)東亞夏季風爆發(fā)時間集中在兩個階段,一個在4月中上旬,一個在5月中下旬,這時他將兩個時段平均了一下,得到東亞夏季風平均在5月初爆發(fā),然后從5月初的大氣環(huán)流背景場上找東亞夏季風爆發(fā)的成因,怎么也找不到合適的解釋。這是必然的結(jié)果,因為5月初恰恰正是東亞夏季風不爆發(fā)的時間或東亞夏季風比較弱的階段。這位同學忽視了他所分析資料的非正態(tài)分布問題,隨意地取平均值從而導(dǎo)致了研究的失敗。
在利用氣象統(tǒng)計方法進行氣象科研和預(yù)報工作中,資料是否符合正態(tài)分布問題非常重要,這一點值得注意。教師在教學中應(yīng)對此進行強調(diào)和詳細講解,使學生能夠更好地理解和認識其重要性。對于一些非正態(tài)分布氣候要素(如候、旬降水量,降水日數(shù),積雪日數(shù),風速,旱澇指數(shù)和極端氣候事件等),我們必須首先進行資料正態(tài)化數(shù)學變換(如對數(shù)變換、立方根變換和雙曲正切轉(zhuǎn)換等)使之變?yōu)檎龖B(tài)分布的序列后再進行分析。
參考文獻:
[1]魏鳳英.現(xiàn)代氣候統(tǒng)計診斷與預(yù)測技術(shù)[M].北京:氣象出版社, 2009.
[2]黃嘉佑.氣象統(tǒng)計分析與預(yù)報方法[M].北京:氣象出版社,2000.
[3]施能.氣象統(tǒng)計預(yù)報[M].北京:氣象出版社,2009.
[4]曹杰,陶云.中國的降水量符合正態(tài)分布嗎[J].自然災(zāi)害學報,2002,11(3):115~120.