陳明明,馬江洪,姬楠楠
(長安大學 a.經濟與管理學院;b.理學院,陜西 西安 710064)
Alpha正態(tài)分布及其在環(huán)境污染中的應用
陳明明a,馬江洪b,姬楠楠b
(長安大學 a.經濟與管理學院;b.理學院,陜西 西安 710064)
摘要:目前,對實際數據的處理常采用一些對稱分布,如正態(tài)分布和t分布等,而這種對稱分布所給出的結果往往并不能令人滿意。偏分布常用來處理有偏重尾數據,基于傳統(tǒng)正態(tài)分布,提出一種處理偏態(tài)和重尾數據的alpha正態(tài)分布,并研究其參數估計方法及基本性質。將所提分布應用于環(huán)境污染數據,通過擬合檢驗alpha正態(tài)分布給出了很好的結果。
關鍵詞:偏正態(tài)分布;alpha正態(tài)分布;MLE估計;環(huán)境污染
一、引 言
偏正態(tài)分布由Azzalini于1985年提出,由正態(tài)分布中引入非對稱參數所得,偏正態(tài)分布作為正態(tài)分布的一種擴展,被廣泛應用于建模不同的有偏重尾數據集中[9]。我們稱隨機變量X服從一元偏正態(tài)分布,若其密度函數為?(x;α)=2φ(x)Φ(αx),x,α∈R,記為X~SN(α),其中φ(x)是標準正態(tài)分布的密度函數,Φ(x)是標準正態(tài)分布的分布函數,α是用來控制偏度的形狀參數。當α=0時,就簡化為正態(tài)分布;當α=1時它代表了兩個獨立標準正態(tài)變量最大值的分布。
由于此分布包含原正態(tài)分布,所以也有一些與原對稱分布相同的性質,因此能很好地應用于有偏數據擬合中。Henze進一步研究了偏正態(tài)分布的概率表達式并推導出了此分布的奇數階矩[10];且Azzalini等將一元偏正態(tài)分布推廣到了多元的情形[11-12];隨后Huang等給出了基于一個對稱分布通過引入一個偏態(tài)函數來構建偏對稱分布的一般公式[13];陳明明等提出Levy偏穩(wěn)定分布的性質等問題[14]。
目前,關于環(huán)境污染數據中大多應用了我們所熟知的對數正態(tài)分布,很少有文獻將偏分布應用其中,本文在大量處理偏態(tài)數據分布的基礎上[15],提出了一種基于傳統(tǒng)正態(tài)分布的alpha正態(tài)分布,并研究此分布的參數估計及相關的統(tǒng)計性質,最后將其應用于實際數據集中,同時通過比較正態(tài)分布、偏正態(tài)分布、對數正態(tài)分布及alpha正態(tài)分布,得出本文所提模型的有效性。
二、Alpha正態(tài)分布
定義1若隨機變量X的密度函數為:
f(x;α)=α[1-Φ(x)]α-1φ(x),x∈R,α>0
(1)
其中φ(x)和Φ(x)分別是標準正態(tài)隨機變量的密度函數和分布函數,α是用來控制偏度的形狀參數,則稱隨機變量X服從參數為α的alpha正態(tài)分布,記為X~AN(α)。
當α=1時,式(1)就簡化為標準正態(tài)分布;當α>1時,alpha正態(tài)分布的密度函數向右偏;當α<1時,密度函數向左偏。圖1給出了α取不同值時的密度函數曲線。
圖1 α不同時alpha正態(tài)分布的概率密度函數曲線
若X~AN(α),則其分布函數為:
F(x;α)=1-[1-Φ(x)]α,x∈R,α>0
(2)
圖2給出了α取不同值時的分布函數曲線。從圖2中可以看出α取值越大,分布函數曲線越陡峭。
圖2 α不同時alpha正態(tài)分布的分布函數曲線
三、Alpha正態(tài)分布的性質
(一)期望和方差
若隨機變量X~AN(α),則其期望為:
由于被積函數為奇函數[16],所以:
=0
則
C2m+1(λ)
由此可得:
X2的矩母函數為:
MX2(t)=E(etX2)
則
由Var(X2)=E(X2)-[E(X)]2可得方差的值。k階中心矩為[17]:
=(k-1)E[Xk-2]+
=(k-1)E[Xk-2]+
=(k-1)E[Yk-2]+
其中U的密度函數為:
(二)隨機數的生成
由上述alpha正態(tài)分布的定義,可利用反函數法產生隨機數[18]485-490。首先,從[0,1]區(qū)間上生成n個均勻分布的隨機數ri,i=1,2,…,n,然后令ri=1-[1-Φ(xi)]α解出。本文中取n=1 000、α=2時alpha正態(tài)分布的隨機數。圖3和圖4分別為所抽取隨機數的密度直方圖和分布函數圖。
圖3 生成隨機數的密度直方圖與alpha正態(tài)密度函數曲線圖
圖4 生成隨機數的經驗分布圖
從圖3核密度估計曲線與alpha正態(tài)分布的密度函數曲線對比以及圖4可以看出,生成的隨機數是來自于alpha正態(tài)分布的。
四、極大似然估計
下面通過在密度函數中引入位置參數μ和尺度參數σ來考慮alpha正態(tài)分布的一般形式。記Y為來自alpha正態(tài)分布AN(α)的隨機變量,令X=μ+σY,μ∈R,σ>0,則X的密度函數為:
f(x;μ,σ,α)
(3)
假設X1,X2,…,Xn為來自式(3)的n個隨機樣本,記θ=(μ,σ,α)則對數似然函數為[19]199-202:
(4)
解上述方程可得:
(5)
將式(5)帶入式(4)得:
利用R中L-BFGS-B方法求得上式極大值,即可得到μ、σ的估計值,進而可得α的估計值。
五、模擬學習
眾所周知,極大似然估計量在一定條件下具有漸近正態(tài)性和一致性。為了說明估計的性質,從alpha正態(tài)分布中產生1 000個隨機數,分別抽取30次和100次進行模擬學習,所得到的模擬結果如表1所示。
從表1可以看出,隨著樣本量的增加估計值逐漸趨近于真實值。
表1 不同alpha正態(tài)分布參數的經驗均值和標準差
六、數據分析
本節(jié)中采用香港特別行政區(qū)2010年全年日觀測一氧化氮濃度數據作為分析對象,利用alpha正態(tài)分布對所提出的數據進行建模,計算各參數的最大似然估計以及對數似然值。利用AIC準則(即AIC=-2logL+2k)和BIC準則(即BIC=-2logL+klogn)進行模型擬合,其中k是參數的個數,L是似然函數的極大值,n是樣本的個數,并將alpha正態(tài)分布、偏正態(tài)與廣泛應用的正態(tài)分布、對數正態(tài)分布的擬合進行比較,其相應的密度函數分別為:
計算結果如表2所示。
表2 正態(tài)、偏正態(tài)、對數正態(tài)及alpha正態(tài)的準則值
從表2可以看出,對于一氧化氮濃度數據集,alpha正態(tài)分布的AIC和BIC值最小,而似然函數值最大,對數正態(tài)分布與偏正態(tài)分布相差不大,而正態(tài)分布由于是對稱分布則不能夠捕捉到數據的有偏重尾性,這表明alpha正態(tài)分布能夠有效地描述數據集的特性。
圖5 一氧化氮濃度直方圖及其各擬合曲線圖
另外從圖5中也可以看出,alpha正態(tài)分布不論是從偏度上還是峰度上都能夠很好地擬合數據集,是擬合一氧化氮濃度的最佳分布;其次是所熟知的對數正態(tài)分布。對數正態(tài)分布能夠較好地擬合數據的偏度,而偏正態(tài)分布盡管在處理右尾時的數據不如對數正態(tài)分布,但是在擬合數據左邊的厚尾時要比對數正態(tài)分布更為適合,因此在對大氣污染數據處理時也可以選擇目前并沒被廣泛應用的偏正態(tài)分布以及本文所提出的alpha正態(tài)分布,這些分布為處理實際生活中的有偏重尾數據提供了很好的模型。
下來考慮對于給定的數據集,正態(tài)分布和alpha正態(tài)分布有無顯著性差異,其對應的假設為:
H0:α=1,即樣本來自正態(tài)分布
H1:α≠1,即樣本來自alpha正態(tài)分布
七、結 論
本文介紹了一個包含正態(tài)分布作為特殊情形的新分布族——alpha正態(tài)分布,并研究了它的基本性質、隨機數的生成以及參數的極大似然估計方法,且從其密度函數曲線可以看出alpha正態(tài)分布可以是左偏、右偏或者對稱的,此種新的有偏分布相比偏正態(tài)分布以及目前在污染物濃度數據集中被廣泛應用的對數正態(tài)分布,在處理有偏和重尾數據上有著更大的靈活性,因此可用此分布來擬合非對稱數據集。 本文中通過擬合空氣污染物濃度數據,并利用統(tǒng)計判別準則將其與偏正態(tài)分布、正態(tài)分布及對數正態(tài)分布進行比較,得出所提分布對此數據集提供了一個更好的擬合,這為我們處理現實生活中的非對稱數據集提供了一個新的統(tǒng)計模型。
參考文獻:
[1]范紹佳. 城市大氣污染物濃度分布研究[J]. 中山大學學報論叢,1993,12(1).
[2]韓婧,代志光,李文韜. 西安市灰霾天氣下PM2.5濃度與氣象條件分析[J]. 環(huán)境污染與防治, 2014, 36(2).
[3]陳靜. 榆林市空氣污染物濃度統(tǒng)計特征及其氣象影響研究[D]. 西安:長安大學碩士學位論文, 2015.
[4]Wayne R Ott. A Physical Explanation of the Lognormality of Pollutant Concentrations[J]. Air and Waste Manage. Assoc., 1990,40(10).
[5]Larry G Blackwood. The Lognormal Distribution, Environmental Data and Radiological Monitoring[J]. Environmental Monitoring and Assessment,1992, 21(3).
[6]Lu Hsin-Chung. The Statistical Characters of PM10 Concentration in Taiwan Area[J]. Atmospheric Environment, 2002, 36(3).
[7]Kan Haidong, Bingheng Chen. Statistical Distributions of Ambient Air Pollutants in Shanghai, China [J]. Biomedical and Environmental Sciences, 2004, 17(3).
[8]Ahrens L H. The Log-normal Distribution of the Elements[J]. Geochimica Et Cosmochimica Acta, 1954, 6(2).
[9]Azzalini A. A Class of Distributions Which Includes the Normal Ones[J]. Scand. J. of Statist.,1985, 12(2).
[10]Henze N. A Probabilistic Representation of the Skew-normal Distribution [J]. Scand. J. Statist., 1986, 13(4).
[11]Azzalini A, Dalla Valle A. The Multivariate Skew-normal Distribution [J]. Biometrika,1996, 83(4).
[12]Azzalini A, Capitanio A. Statistical Applications of the Multivariate Skewed Normal Distribution [J]. Journal of Royal Statistical Society, 1999, 61(3).
[13]Huang W J, Chen Y H. Generalized Skew Cauchy Distribution [J]. Statist. Probab. Lett.,2007, 77(11).
[14]陳明明,馬江洪,楊楠. 關于斜Laplace分布與Levy偏穩(wěn)定分布的性質[J]. 統(tǒng)計與信息論壇,2014, 29(7).
[15]Gupta R D, Gupta R C. Analyzing Skewed Data by Power Normal Model[J]. Test, 2008, 17(1).
[16]Arnold B C, Beaver R J. Skewed Multivariate Models Related to Hidden Truncation and Selective Reporting[J]. Test, 2002, 11(11).
[17]Gupta R C, Gupta R D. Generalized Skew Normal Model[J]. Test, 2004,13(2).
[18]薛毅,陳立萍. R統(tǒng)計建模與R軟件[M]. 北京:清華大學出版社,2007.
[19]茆詩松,程依明,濮曉龍. 概率論與數理統(tǒng)計教程[M].北京:高等教育出版社,2004.
(責任編輯:崔國平)
The Alpha Normal Distribution and Its Application to Environmental Pollution
CHEN Ming-minga, MA Jiang-hongb, JI Nan-nanb
(a. School of Economics and Management; b. College of Science, Chang'an University, Xi'an 710064, China)
Abstract:In the present, some symmetric distributions are often used to deal with real data, such as normal and t distribution. However, the results given by these symmetric distributions are not very satisfactory. Skew distributions are commonly used to handle with skew and heavy-tailed data, based on the classical normal distribution, we propose a new model, called alpha normal distribution, to deal with such data, develop its parametric estimation methods and several basic properties. Applying the proposed distribution to environmental pollution data, through the test shows that the alpha normal distribution gives good results.
Key words:skew distribution; alpha normal distribution; maximum likelihood estimation; environmental pollution
收稿日期:2015-12-31
基金項目:國家自然科學基金項目《基于信息瓶頸編碼原理的深度學習研究》(11501049);國家自然科學基金項目《模糊假設的統(tǒng)計檢驗理論和方法研究》(11261044)
作者簡介:陳明明,女,山東棗莊人,博士生,研究方向:運輸統(tǒng)計分析。
中圖分類號:O212.1∶F205
文獻標志碼:A
文章編號:1007-3116(2016)06-0022-06
馬江洪,男,陜西綏德人,教授,理學博士,研究方向:數據挖掘的統(tǒng)計學方法。
姬楠楠,女,陜西渭南人,講師,理學博士,研究方向:深度學習。
【統(tǒng)計理論與方法】