房欽欽,趙為華
(南通大學理學院,江蘇南通226019)
標準Logistic回歸模型中,實際數(shù)據(jù)是在峰度和平均值相等頻率情況下進行分析,然而在實際問題中,數(shù)據(jù)中因變量的不對稱性或不平衡會導致統(tǒng)計分析中的均方誤差提高,模型效果也會下降,最后所得到的數(shù)據(jù)結(jié)論也許會與實際情況相差很大,為此,本文引用了偏態(tài)參數(shù),該參數(shù)值體現(xiàn)了數(shù)據(jù)的分布偏度情況,利用這一參數(shù)在標準Logistic分布的基礎(chǔ)上構(gòu)造了有偏Logistic分布。先對有偏Logistic分布進行簡單地研究。
有偏Logistic分布[1]的密度函數(shù)為f(x;α)=它的分布函數(shù)為F(x;α)=偏態(tài)參數(shù)。以上記為第一類有偏Logistic分布。
還有一類有偏Logistic分布函數(shù)為F(x;α)=1-應的概率密度函數(shù)為f(x;α)=為第二類有偏Logistic分布。
由圖1和圖3可以看出:第一類有偏Logistic分布的偏態(tài)參數(shù)α取值越大,分布函數(shù)會越來越接近1。第二類有偏Logistic分布函數(shù)的情況正好相反。
由圖2和圖4可以看出:密度函數(shù)圖中,偏態(tài)參數(shù)α∈(0,1)時,一類有偏Logistic分布為左偏,α>1時,一類有偏Logistic分布為右偏。而二類有偏Logistic密度分布函數(shù)的情況也正好相反。
圖1四種α不同值的一類有偏函數(shù)圖
圖2四種α不同值的一類有偏密度函數(shù)圖
圖3四種α不同值的二類有偏函數(shù)圖
圖4四種α不同值的二類有偏密度函數(shù)圖
通過前面了解到了兩類有偏Logistic分布函數(shù)與密度函數(shù)的特點。為了探討基于有偏Logistic分布回歸模型在實際數(shù)據(jù)上的運用,本文建立兩類有偏Logistic分布回歸模型[2],并對參數(shù)進行估計。
令yi~LG(μi,σi),μi=β,σi=exp(zγ),i=1,2,...,n,β=(β1,β2,...,βp)T是p×1的位置模型的未知參數(shù)向量,γ=(γ1,γ2,...,γq)T是q×1的尺度模型的位置參數(shù)向量,xi與zi分別為對應yi位置和尺度部分的解釋變量。
兩種模型可表示為:
利用牛頓迭代法實現(xiàn)計算,并對參數(shù)進行估計。算法[3]如下:
步驟二:給定當前值實現(xiàn)迭代θ(k+1)=θ(k)-H-1(θ(k))S(θ(k))。
步驟三:重復第二步直到收斂條件滿足。
從模型中產(chǎn)生模擬數(shù)據(jù),用以下三個均方誤差用來評價估計的好壞為:
一類有偏Logistic分布的似然函數(shù)為:
對數(shù)似然函數(shù)為:
二類有偏似然函數(shù)為:
下面,通過隨機模擬來說明估計方法的有效性。
因為有偏Logistic分布中F(X)~U(0,1),所以本文首先由y*~U(0,1),n=50,100...,xi~N(0,1)生成隨機數(shù),并由逆函數(shù)法可得yi=F-1(y*)~L(μ,σ),由最小二乘法得到參數(shù)的估計初值,再經(jīng)過牛頓迭代法進行收斂,得到參數(shù)估計,和。其中兩類有偏分布的逆函數(shù)分別為
利用牛頓迭代法,在α=0.5,γ=(1,0.5,-1)T,β=(0.5,-0.8)T和α=1.5,γ=(1,0.5,-1)T,β=(0.5,-0.8)T兩種情況下,xi和zi的分量獨立產(chǎn)生于N(0,1),進行200次模擬實驗。模擬結(jié)果見表1。
表1 兩種有偏Logistic分布參數(shù)估計的均方誤差表
從表1可以知道,在這兩種類型的有偏Logistic位置與尺度模型中,參數(shù)的均方誤差隨著樣本量n的增加越來越小,說明了模擬方法的效果越來越好。
在實際回歸建模時,需要評價模型的正確性和模型中自變量的重要性。為此本文應用Score檢驗統(tǒng)計量對參數(shù)的重要性進行檢驗,并通過隨機模擬來說明檢驗統(tǒng)計量的檢驗功效。
在這兩類回歸模型中,應用Score檢驗統(tǒng)計量[4]主要對有偏參數(shù)α的重要性進行檢驗。假設(shè)H0:α=1;H1:α≠1。若表示原假設(shè)H0下的限制最大似然估計,則關(guān)于H1的為Fisher信息陣[5],Iαα為觀測Fisher信息陣的逆矩陣對應參數(shù)α=1的分塊矩陣。由漸近性質(zhì)可知,檢驗統(tǒng)計量SC漸近服卡方分布χ2(1)。
下面探討Score檢驗統(tǒng)計量的檢驗功效問題。在數(shù)據(jù)生成時,對α=1,其他參數(shù)β=(1,0,-1)T,γ=(0.5,1)T保持不變的情況下,分別取α=0.4,0.6,0.8,0.9,1,1.1,1.2,1.4和1.6時,考察檢驗統(tǒng)計量SC的檢驗功效,在顯著性水平0.05下,計算1000次模擬中拒絕原假設(shè)H0的比例。
表2 兩種有偏Logistic分布α參數(shù)檢驗比例表
圖5 參數(shù)α的檢驗功效圖
從表2和圖5中可以看到,對H1:α≠1,α>0,在α→0,α∈(0,1),Score檢驗量趨近于1;在α→+∞,α∈(1,+∞),Score檢驗量也趨近于1,趨近速度小于α∈(0,1)時的速度;而當α=1時,Score檢驗量接近于名義水平0.05。也說明了Score檢驗統(tǒng)計量對該參數(shù)的檢驗是有效的。
當然,也可以對位置和尺度兩個參數(shù)進行功效檢驗,受篇幅限制,在此僅對第一類有偏Logistic位置-尺度模型中β進行Score檢驗。
取β=(1,-1,0)T,其他參數(shù)γ=(0.5,1)T,α=0.5;α=1.5保持不變的情況下,假設(shè)H0:β2=0;H1:β2≠0,分別取β2=0,0.2,0.4,0.6,0.8和1時,考察其檢驗統(tǒng)計量的檢驗功效,即在顯著性水平0.05下,計算300次模擬中拒絕原假設(shè)H0的比例。
表3 第一類有偏Logistic分布β參數(shù)檢驗比例表
從表3可以看到,無論偏態(tài)參數(shù)α為何值(α>0),在相同的樣本量下,隨著參數(shù)β2的取值遠離0時,檢驗的功效顯著增加;另一方面,隨著樣本量的增大,檢驗的功效迅速接近于1,且在原假設(shè)正確時(β2=0),檢驗的功效非常接近于名義水平0.05。
為了探究經(jīng)濟中產(chǎn)出與投入之間的關(guān)系,將上述模型應用于一組希臘1961—1987年制造業(yè)的數(shù)據(jù)中,該數(shù)據(jù)來自《計量經(jīng)濟學基礎(chǔ)上冊(第五版)》,“資本”作解釋變量x1,“勞動”作解釋變量x2,“產(chǎn)出”作因變量y,分析資本和勞動對產(chǎn)出的影響(產(chǎn)出以1970年不變價格的十億德拉克馬計,勞動以每千人計)。
圖6至圖8為資本、勞動和產(chǎn)出三種變量的箱形圖。
圖6資本箱線圖
圖7勞動箱線圖
圖8產(chǎn)出箱線圖
由圖6至圖8可知,勞動x2和產(chǎn)出y分布呈現(xiàn)左偏態(tài),都集中在較大值的一側(cè),而資本x1中位數(shù)無偏離情況??梢圆聹y勞動x2對產(chǎn)出y的影響較大。
在第一類有偏Logistic回歸模型中位置、尺度和偏態(tài)參數(shù)分別為=(-64.25,0.164,0.139)T,=(-9.154,-0.017,0.016)T,=6.63,于是得到的回歸方程為=-64.25+0.164x1+0.139x2,此方程說明了每增加一單位資本,則多1.64億德拉克馬的產(chǎn)出;每增加一千人的勞動,會多產(chǎn)1.39億德拉克馬,該結(jié)果表明了這與先前的猜測不符合,為此第二次猜測偏態(tài)參數(shù)對結(jié)果有影響。所以對偏態(tài)參數(shù)進行Score檢驗,求得SCα=18.356>χ2(1)=3.84,這證實了本文的第二猜測:偏態(tài)參數(shù)α對該回歸模型結(jié)果有顯著影響,。
為了從這兩種模型和標準Logistic回歸模型以及線性回歸模型中選擇最優(yōu)模型,利用AIC信息準則和BIC信息準則:
其中k為參數(shù)的個數(shù),log(L)為對數(shù)似然函數(shù),n為樣本量。兩種準則是衡量模型擬合好壞的標準,它們的值越小,說明模型對數(shù)據(jù)擬合得越好。三種模型的計算結(jié)果為:
由下頁表4和表5可以看到,對于所應用的實例數(shù)據(jù),從AIC信息量、BIC信息量和標準差估計三個方面比較,都能得到二類有偏Logistic回歸模型擬合程度最高,兩類有偏Logistic回歸模型都比標準Logistic回歸模型模擬得好,且三種Logistic回歸模型比用最小二乘法的線性回歸模型模擬得好。
表4 四種模型AIC和BIC信息準則量
表5 四種模型所求參數(shù)估計值
本文從兩種Logistic回歸模型的建立、模型的數(shù)據(jù)模擬、Score檢驗統(tǒng)計量、實例運用這幾個方面敘述和論證,說明了基于該分布的回歸模型對數(shù)據(jù)能夠進行有效的分析。本文也將這兩種模型和標準Logistic分布回歸模型以及線性回歸應用于同一實際案例,并利用AIC和BIC信息準則選擇出了最優(yōu)模型。大量數(shù)值模擬和實例數(shù)據(jù)分析驗證了所提方法的有效性,并且得出了結(jié)論:基于有偏Logistic分布的回歸模型比最小二乘法的線性回歸模型和標準Logistic分布回歸模型能更好地分析復雜型數(shù)據(jù)。
參考文獻:
[1]史小康,常志勇.兩類有偏logistic分布在信用評分模型中的應用[J].統(tǒng)計與決策,2015,(14).
[2]李玲雪,吳劉倉,邱貽濤.Logistic分布下聯(lián)合位置與尺度模型[J].統(tǒng)計與決策,2014,(20).
[3]吳劉倉,李會瓊.極值分布下聯(lián)合位置與散度模型的變量選擇[J].工程數(shù)學學報,2012,29(5).
[4]Xie F C,Lin J G,Wei B C.Diagnostics for Skew-normal Nonlinear Regression Models With AR(1)errors[J].Computational Statistics and Data Analysis,2009,(53).
[5]史道濟.馬爾科夫鏈的Fisher信息陣及參數(shù)的最大似然估計[J].天津大學學報,1993,(3).