琪美格
(新疆維吾爾自治區(qū)水文分析計算中心,新疆 烏魯木齊 830000)
在中長期水文預(yù)報實踐中,會遇到預(yù)報對象是分類因變量的情況,如一條河流未來來水是偏豐、正常還是偏枯。本文通過選用五圣宮水文站前期預(yù)報因子,將4至5月平均流量構(gòu)建為反映春季來水偏豐、正?;蚱莸姆诸愐蜃兞浚瑢Ψ诸愐蜃兞课磥砀黝惪赡馨l(fā)生的概率用多項Logistic回歸分析進行嘗試性的預(yù)報,確保符合精度要求。
多項Logistic回歸分析是指通過一組預(yù)報因子,采用多個二值Logistic回歸方程,來描述分類因變量各類與參照類相比的條件下預(yù)報因子對預(yù)報對象的作用。
如果預(yù)報對象y(分類因變量)有J個類別,令第j(j=1、2、…、J)類的概率為Pj,則預(yù)報對象的樣本觀測值在這J個類別中的分布服從多項分布,且∑Pj= 1。若用xk(k=1、2、…、m,m是預(yù)報因子總數(shù))表示預(yù)報因子,aj和bjk分別表示第j類的常數(shù)項和預(yù)報因子回歸系數(shù),則多項Logistic回歸方程可表示為:
ln(pj/pJ)=aj+bj1·x1+…+bjk·xk+…+bjm·xm(j=1、2、…、J-1)
上述方程是以分類因變量最后一類(J)為基線的,可見,在每個類別j與基線類別J之間建立了J-1個二值Logistic回歸方程。若令P=∑(Exp(aj+bj1·x1+…+bjk·xk+…+bjm·xm)),則分類因變量各類可能發(fā)生的概率Pj的計算式為:
Pj=Exp(aj+bj1·x1+…+bjk·xk+…+bjm·xm)/P(j=1、2、…、J-1)
基線對應(yīng)的常數(shù)項與回歸系數(shù)均為0,故基線類別可能發(fā)生的概率PJ=1/P。
五圣宮水文站1981-2019年3月下旬旬平均流量Q、2月中旬降水量R、1月上旬旬平均氣溫T及4至5月平均流量Q4-5序列SPSS數(shù)據(jù)文件(僅顯示局部)見圖1。
計得Q4-5序列多年均值為2.44 m3/s。本次約定,Q4-5低于2.20 m3/s(即距平值﹤-10)時,來水量為偏枯,對應(yīng)的分類因變量Y取1;介于2.20 m3/s和2.68 m3/s之間(即距平值介于-10和10之間)為正常,Y取2;高于2.68 m3/s(即距平值﹥10)為偏豐,Y取3。構(gòu)建的分類因變量Y序列見圖1。
圖1 五圣宮水文站分類因變量及前期預(yù)報因子序列
SPSS操作步驟為:
步驟1:在圖1中依次單擊菜單“分析→回歸→多項Logistic”,從彈出的多項Logistic回歸對話框左側(cè)的列表框中選擇“Y”,移動到因變量列表框,選擇“Q”、“R”和“T”,移動到協(xié)變量列表框。
步驟2:單擊“統(tǒng)計量”按鈕,在打開的對話框中勾擇“個案處理摘要”、“步驟摘要”、“模型擬合度信息”、“分類表”、“擬合度”、“估計”和“似然比檢驗”,單擊“繼續(xù)”按鈕返回多項Logistic回歸對話框。
步驟3:單擊“確定”按鈕,執(zhí)行多項Logistic回歸的操作。
SPSS輸出的回歸效果統(tǒng)計檢驗結(jié)果如下:
(1)案例處理摘要:39個分類因變量個案全部有效,其中偏枯18個,正常9個,偏豐12個。
(2)模型擬合信息:僅包含截距項的模型和最終模型的似然比檢驗結(jié)果,其-2倍對數(shù)似然值分別為82.517、54.992,2=27.524,自由度為6,顯著性水平ρ=0.000<0.001,表明最終模型要優(yōu)于只含截距項的模型,即最終模型成立,說明模型中至少有1個預(yù)報因子有統(tǒng)計學意義。
(4)似然比檢驗:預(yù)報因子中,1月上旬旬平均氣溫T的顯著性水平ρ小于0.5,其余因子都小于0.05,說明在0.5顯著性水平下,預(yù)報因子對多項Logistic回歸方程的貢獻都有統(tǒng)計學意義。
(5)以類別3為基線的多項Logistic回歸方程參數(shù)估計
分類因變量Y各類可能發(fā)生的概率Pj的計算式為:
P1=Exp(11.334-13.830*Q-0.842*R-0.173*T)/(1+Exp(11.334-13.830*Q-0.842*R-0.173*T)+Exp(8.244-10.727*Q-0.673*R-0.182*T))
P2=Exp(8.244-10.727*Q-0.673*R-0.182*T)/(1+Exp(11.334-13.830*Q-0.842*R-0.173*T)+Exp(8.244-10.727*Q-0.673*R-0.182*T))
P3=1/(1+Exp(11.334-13.830*Q-0.842*R-0.173*T)+Exp(8.244-10.727*Q-0.673*R-0.182*T))
式中:P1是類別1與基線類別3相比較得到的預(yù)測概率(偏枯型),P2是類別2與基線類別3相比較得到的預(yù)測概率(正常型),P3是基線類別3的預(yù)測概率(偏豐型)。
(6)分類表中總的正確預(yù)測百分率為59.0%,說明多項Logistic回歸方程的預(yù)測效果良好。
五圣宮水文站2020年3月下旬旬平均流量Q為0.754 m3/s,2月中旬降水量R為2.3 mm,1月上旬旬平均氣溫T為-8.7℃,代入上述3個類別的預(yù)測概率計算式,計得P1、P2、P3分別為0.42、0.32和0.26。
可見,P1值最大,所以分類因變量取1的可能性最大,即五圣宮水文站2020年4-5月平均流量預(yù)計為偏枯的可能性較大。實際情況是1.86 m3/s,低于偏枯的上限值2.20 m3/s,屬于偏枯型,預(yù)報正確。
(1)選用前期預(yù)報因子,用多項Logistic回歸分析對分類因變量Y未來各類可能發(fā)生的概率進行預(yù)報,是一次成功的嘗試。
(2)多項Logistic回歸模型擬合信息表明,最終模型成立,且至少有1個預(yù)報因子有統(tǒng)計學意義;擬合優(yōu)度檢驗顯示,模型擬合優(yōu)度較好;似然比檢驗表明,預(yù)報因子對模型的貢獻在0.5信度下都有統(tǒng)計學意義;分類表顯示,模型的預(yù)測效果良好。
(3)2020年4-5月平均流量的豐枯趨勢的預(yù)報結(jié)果為正確,說明該技術(shù)在中長期水文定性預(yù)報方面有一定的實用價值。