□文/鄭婉迪
(安徽建筑大學數理學院 安徽·合肥)
[提要]在全球經濟快速發(fā)展進程中,我國作為東方大國為全球經濟增長貢獻巨大的力量,努力發(fā)展自身的同時也帶動著周邊國家的經濟增長。經濟活躍的直接體現(xiàn)是人均生產總值的不斷增加,探究我國人均生產總值的主要影響因素對穩(wěn)步提高居民生產消費水平具有重要意義。本文選取我國2020年31個省市地區(qū)人均生產總值進行建模預測。先對數據進行預處理,參考歷史相關文獻篩選出8個指標建立多元線性模型,得出粗略的預測結果。為改進預測效果,再使用Lasso變量選擇方法篩選出主要影響變量,根據變量間線性相關顯著性挑選出線性和非線性影響因素,繼而建立半參數部分線性可加模型進行預測,該模型提高預測精度與穩(wěn)健性,使回歸結果在很大程度上得到優(yōu)化。
從經濟角度看,一個國家GDP的波動直接反映了該國家的經濟發(fā)展狀況變化。GDP大幅增長,說明該國經濟發(fā)展蓬勃、國民收入增加,消費能力自然也隨之增強;若GDP下降,則代表經濟發(fā)展受損,應引起相關人員的高度關注以便及時調控。2020年爆發(fā)的新冠肺炎疫情,各國感染病例爆發(fā)式增長。為了人民的健康,黨中央及時部署,采取大范圍封閉管理政策,疫情得到控制的間接影響就是經濟活力下降,人均收入和支出下滑。此時,研究GDP問題更有助于了解人民的收入、國家的收入和經濟的健康發(fā)展情況,同時有助于維持社會的穩(wěn)定等。針對這一話題的研究國內學者們多數集中在定性分析或使用傳統(tǒng)的統(tǒng)計回歸模型進行定量分析。王小魯等人從政策制度方面分析了人均生產總值的影響因素和調控措施。曹海波使用因子分析的方法對影響經濟增長的因素進行研究。傳統(tǒng)的統(tǒng)計模型需要提前設定回歸模型的形式,對數據的限制較大。影響GDP的因素多且復雜,采用OLS方法建立傳統(tǒng)的回歸模型必然導致多重共線性的出現(xiàn),因此本文采用Lasso方法篩選主要的影響變量,針對此問題建立半參數部分可加模型。Lasso方法是當下比較流行的數據降維方法,雖然相比于最小二乘估計(OLS)方法對參數的估計是有偏的,但能夠在保證數據相關性的同時精簡變量,對處理高維數據十分有效。半參數部分線性可加模型是一種參數和非參數的組合模型,集兩種模型的優(yōu)點于一身,現(xiàn)已具有非常廣泛的應用范圍。
變量間的非函數關系我們常稱為相關關系,若它們之間存在因果關系,則可以進行回歸分析。在具有因果關系的變量間建立模型進行預測也即多元回歸。變量之間的線性關系在數學上是指二者存在一次函數的關系。一般的多元線性回歸模型如下:
其中,Y為因變量,X1,X2,…,Xp為自變量,(Yi;Xi1,…,Xip)(i=1,2,…,n)是Y與X1,X2,…,Xp的n組觀測數據,β0,β1,…,βp為未知的常值參數,εi為不可觀測的隨機誤差項,滿足E(εi)=0,Var(εi)=σ2>0,cov(εi,εj)=0,i≠j。這種模型在以往的定量分析中是最基礎的模型,也是采用最多的模型。接下來本文就建立該模型作為對比的基礎。
(一)模型構建??紤]到數據的可得性和完整性,本文研究的樣本空間單元為全國31個省市地區(qū),數據來源于2021年《中國統(tǒng)計年鑒》。由于影響人均GDP的變量較多,為了盡可能地包含這些因素,參考國內現(xiàn)有的文獻并結合目前的經濟市場,本文選取了就業(yè)率(%)、人均第一產業(yè)生產額(元)、人均第三產業(yè)生產額(元)、城鎮(zhèn)人口比重(%)、人均消費支出(元)、工業(yè)化程度(%)、人均進出口總額(元/人)和人均電力消費量(千瓦/時)為自變量,按序記為x1,x2,…,x8,人均生產總值(元)為因變量,建立如下多元線性回歸模型并進行預測:
利用R語言中OLS對上式進行求解,擬合結果顯示,雖然模型的R2a高達0.9354,R2a為自由度調整的復決定系數,但是多個變量的P值大于0.05,并不能通過檢驗。這粗略地說明自變量與因變量之間可能不是線性關系,也有可能是各自變量之間存在高度的相關關系,這將導致模型的穩(wěn)定性非常低。
(二)模型預測。用上述模型對數據進行預測,結果如表2中模型1對應數值。根據表中數據分析,整個模型的預測精度較高,但是由于文中僅使用了一年數據進行建模,模型的穩(wěn)定性并不能保證。結合多元線性的擬合結果,各自變量中僅有人均第三生產總額的p值比較顯著,可以達到建模要求,而模型中選擇的其他變量或多或少會對因變量產生影響,卻不能通過檢驗,而且對于經濟問題的多重共線性也不能很好地解決。因此,直接用OLS方法估計的結果是不可靠的。
表2 模型預測結果對比一覽表
選擇與研究對象相適應的統(tǒng)計模型是建立模型的第一步。當下常見的統(tǒng)計模型主要包括參數、非參數和半參數這三大類。參數模型具有結構簡單便于理解、估計結果容易解釋等優(yōu)點,但同時也存在許多缺點,比如模型設定嚴格且不靈活。非參數模型僅含未知函數,具有靈活性強的優(yōu)點。但非參數模型也有著致命的不足:一是容易出現(xiàn)高維災難的現(xiàn)象,即當解釋變量X維度過高時,為使得估計精度在相對準確的范圍內,在數據收集和計算時,所需數據量都不切實際地大;二是不能用于預測;三是當X的維數大于2時,估計的結果無法很好解釋。第三種模型是依據前兩種模型的優(yōu)點組合出的模型,是含有已知的函數部分和未知參數形式的模型。此模型通過未知函數來減少模型預測偏差,加大適應性,通過未知參數來降低維度。部分線性、部分線性變系數、部分函數線性、部分函數部分線性以及部分線性可加性等五種模型均是比較常見的半參數回歸模型。在這些模型中比較有代表性的是部分線性可加模型,它在減少模型偏差的同時,還能有效避免“維數禍根”。本文所采用的正是這種模型。一般的部分線性可加模型,模型形式如下:
其中,Y是因變量,X=(U,T)是d維解釋變量。滿足E(ε|U,T)=0,Var(Y|U,T)=Var(ε|U,T)=σ2(U,T)。
(一)Lasso變量篩選。進行統(tǒng)計建模的第一步便是選擇合適的自變量,這一步做好了,建立的模型才能準確反映自變量與因變量之間的關系。尤其是在經濟問題中自變量個數很多時,彼此之間很容易存在多重共線性,不對變量進行篩選,回歸系數的估計值就會產生較大偏差,直接影響就是預測不夠準確。此外,變量選擇還可以剔除掉與因變量關系不大的變量,減少自變量的個數即降低模型的維度,達到精簡模型的目的。本文采用Lasso這種基于懲罰函數的方法對人均GDP影響因素的變量進行篩選。Lasso變量篩選理論于1996年被Robert Tibshirani提出。但由于技術限制,在2005年才被接受應用。它和嶺回歸類似,都是通過構造一個懲罰函數來壓縮一些回歸系數,是將L2范數改為L1范數。雖然這種方法是有偏估計,但在處理具有共線性的數據時優(yōu)點頗多。
設樣本是(xij;yi),i=1,2,…,N,j=1,2,…,p,其中xij(xi1,…,xip)T是解釋變量,yi是被解釋變量。
相對于普通最小二乘估計(OLS),Lasso回歸不僅簡化了模型的變量,還降低了估計的方差。當樣本量不足而變量卻是高維時,采用最小二乘法就不合適。而Lasso對于參數的估計具有連續(xù)性,因此有必要采用Lasso做變量篩選,它可以篩選出對被解釋變量影響較大的變量從而降低維度。本文采用LARS算法和CV選擇參數,用R語言中的lar函數進行篩選,得到Lasso篩選結果。Lasso從所有變量中篩選出x3(人均第三產業(yè)生產額)、x5(人均消費支出)、x7(人均進出口總額)三個變量,其他的變量則被壓縮至0。這就說明人均第三產業(yè)生產額、人均消費支出和人均進出口總額主要影響著人均生產總值的變化。變量篩選完畢,接下來建立部分線性可加模型。
(二)模型構建。在均方誤差最小時,Lasso篩選出人均第三產業(yè)生產額、人均消費支出、人均進出口總額三個變量,基于上文建立線性模型時,人均第三產業(yè)生產額是唯一顯著的線性變量,所以把這一變量作為部分線性可加模型中的線性部分,而人均消費支出和人均進出口總額則作為模型中的非線性部分,最終建立如下部分線性可加模型:
用R語言對上式進行求解,參數擬合結果如表1所示。(表1)
由表1可以看出,人均第三產業(yè)生產額的回歸系數β1=1.861,經濟解釋就是人均第三產業(yè)生產額每增加一個單位,人均國內生產總值平均增加1.861個單位,且人均第三產業(yè)生產額的系數p-值遠小于0.05,說明人均第三產業(yè)生產額通過了檢驗,是非常顯著的。非線性部分的擬合不易解釋,但從擬合過程可以大略地看出,人均消費支出在10,000~20,000元之間時,對人均生產總值的影響基本是不變的,這也比較符合我國當前的消費水平;當人均消費支出繼續(xù)增加時,對人均生產總值的影響開始變小。而人均進出口總額的增加則會導致其對人均生產總值的影響變大,這也間接反映出閉關鎖國只會落后的歷史經驗,即使在疫情之下,我們也要盡量保持在安全的情況下刺激進出口交易。綜上,可以將半參數回歸模型確立為:
表1 部分線性可加模型線性參數估計及模型擬合效果一覽表
下面通過計算模型的擬合優(yōu)度來判斷該模型擬合的好壞。通過計算可得模型的擬合優(yōu)度R2=0.9996,R2a也達到了0.9975。可以看出,部分線性可加模型較上文多元線性模型的擬合效果有很大提升,而且所涉及的變量只包含人均第三產業(yè)生產額、人均消費支出、人均進出口總額三個變量,整體也更加精簡,這將會為我們的預測省下很多不必要數據收集的時間。
(一)模型預測結果。將真實數據代入預測模型,經計算,預測結果如表2模型2中對應數值。(表2)
和多元線性回歸模型的預測結果進行對比發(fā)現(xiàn),用部分線性可加模型建立的預測更加貼合實際數據,而且模型涉及的變量更少。
(二)討論分析。由表2可以非常直觀地看出,多元線性回歸模型在云南、西藏、甘肅、四川等藏區(qū)的估計偏差過大。改革開放后,藏區(qū)人民的生活已經發(fā)生了翻天覆地的變化,網絡和物流的發(fā)展讓當地人民的農產品和特色食品傳入全國甚至全球,旅游業(yè)更是在很大程度上對當地的經濟進行刺激,人均進出口總額和人均第三產業(yè)總額對這些地區(qū)的影響更大,因此這些變量對人均生產總值的影響程度并不是固定的。相對來說,半參數部分線性可加模型在這些地區(qū)的估計值更貼合實際。半參數部分線性可加模型型對人均GDP的擬合值很明顯比多元線性模更加貼近真實值,說明半參數部分線性可加模型對人均GDP擬合的效果更好,而且涉及的變量也比多元線性回歸模型少得多,解釋起來更加具有針對性和合理性,涉及變量少,投入此項工作的時間精力消耗都會大大減少。如果政府相關部門想要對當下的經濟進行調控,可以主要從第三產業(yè)和進出口方面著手。當下人民生活水平日漸提高,第三產業(yè)已經占據產業(yè)結構中的主導地位。同時,加強進出口消費,倡導全球經濟一體化已經多年,我們也享受到全球化的紅利,接下來更要踐行這一偉大倡議,迎合全球發(fā)展趨勢,帶動自身的發(fā)展。