付舉望, 孔新兵
(南京審計(jì)大學(xué) 統(tǒng)計(jì)與數(shù)據(jù)科學(xué)學(xué)院,南京 211815)
統(tǒng)計(jì)學(xué)中,相關(guān)關(guān)系能夠通過相關(guān)系數(shù)進(jìn)行度量,而因果關(guān)系卻很難有一個(gè)明確的度量指標(biāo),由此衍生出的因果推斷(Causal Inference)問題成為統(tǒng)計(jì)學(xué)者們關(guān)注的焦點(diǎn)。Rubin[1]在反事實(shí)理論基礎(chǔ)上構(gòu)建了潛在結(jié)果模型(Rubin Causal Model),其核心是比較同一個(gè)研究對(duì)象在接受干預(yù)和不接受干預(yù)時(shí)的結(jié)果差異,即該干預(yù)的因果效應(yīng)(Causal Effects)。在該反事實(shí)框架下,因果推斷問題轉(zhuǎn)變?yōu)榉词聦?shí)值的估計(jì)問題。目前,關(guān)于受數(shù)據(jù)限制較小,能夠服務(wù)于高維數(shù)據(jù),且估計(jì)效果更好的因果推斷方法,還有待進(jìn)一步研究。
Rubin關(guān)注單個(gè)協(xié)變量情形下平均處理效應(yīng)的估計(jì)問題,通過處理組與控制組的分離與再匹配估計(jì)反事實(shí)值; Heckman等[2-3]使用雙重差分法(Difference-in-Difference) 估計(jì)反事實(shí)值,并將其應(yīng)用于社會(huì)公共政策評(píng)估;Abadie 等[4]提出合成控制法(Synthetic Control Method),將控制組個(gè)體加權(quán),合成一個(gè)與處理組相似的虛擬組,通過比較干預(yù)前后的處理組和虛擬組的變量變化,得出平均處理效應(yīng), 改進(jìn)了雙重差分法的內(nèi)生性問題;Zheng 等[5]又在此基礎(chǔ)上,使用機(jī)器學(xué)習(xí)二次規(guī)劃法來確定控制組的權(quán)重并重構(gòu)虛擬組,以預(yù)測反事實(shí)值;Doudchenko 等[6]比較了雙重差分法、合成控制法、約束回歸法、最優(yōu)子集選擇法對(duì)于估計(jì)參數(shù)的不同限制條件,并使用彈性網(wǎng)法(Elastic Net)設(shè)置懲罰項(xiàng),以此篩選控制變量構(gòu)造模型,獲得反事實(shí)值預(yù)測。這些方法都是基于觀測到的面板數(shù)據(jù)特點(diǎn)進(jìn)行模型假設(shè),導(dǎo)致其受限于所得觀測數(shù)據(jù),在面對(duì)具有不同特征的數(shù)據(jù)時(shí)穩(wěn)健性較弱。
因子分析作為常見的宏觀經(jīng)濟(jì)變量預(yù)測方法,面對(duì)高維數(shù)據(jù)表現(xiàn)優(yōu)異且能應(yīng)用于不同特征的數(shù)據(jù)。因此在反事實(shí)框架下,學(xué)者們通過非隨機(jī)觀測數(shù)據(jù),在因子分析的視角下進(jìn)行因果推斷,提出了新的反事實(shí)值估計(jì)方法。Xiong 等[7]提出帶有缺失值情況下的潛在因子模型,其通過行列調(diào)整后的協(xié)方差矩陣估計(jì)獲得公共因子與因子載荷,由此得到反事實(shí)值估計(jì);Bai 等[8]提出TW算法(Tall-Wide algorithm),其假設(shè)面板數(shù)據(jù)具有強(qiáng)因子結(jié)構(gòu),并將數(shù)據(jù)劃分為bal、tall、wide、miss 4塊(block),分別利用tall-block 估計(jì)公共因子、wide-block估計(jì)旋轉(zhuǎn)后的因子載荷,從而得到平均處理效應(yīng)的估計(jì)。這些方法都是在因子分析前對(duì)面板數(shù)據(jù)進(jìn)行調(diào)整,將缺失值所在行、列或是周圍一整塊數(shù)據(jù)丟棄,導(dǎo)致已有觀測數(shù)據(jù)信息無法完全利用。
本文從優(yōu)化的角度提出L2因子分析方法,獲得平均處理效應(yīng)估計(jì),且避免了信息丟失問題。與Xiong 等不同,該優(yōu)化方法的顯著優(yōu)勢在于勿需調(diào)整面板數(shù)據(jù)的行和列,也勿需為了構(gòu)造滿足奇異值分解的子矩陣而整行或整列地丟棄數(shù)據(jù);而與Bai等的區(qū)別在于:該優(yōu)化方法將除缺失值以外的所有數(shù)據(jù)作為整體進(jìn)行因子分析,而非將整個(gè)面板數(shù)據(jù)劃分后根據(jù)特定數(shù)據(jù)塊分別進(jìn)行潛在因子與因子載荷估計(jì),勿需舍棄未使用數(shù)據(jù)塊的信息。該方法僅需舍棄面板中的缺失值,即可通過優(yōu)化一步得到潛在數(shù)據(jù)生成效應(yīng),即潛在結(jié)果,從而提高估計(jì)效率。另外,與上述文獻(xiàn)關(guān)心平均處理效應(yīng)不同,本文還通過引入L1損失函數(shù)并優(yōu)化L1風(fēng)險(xiǎn),得到中位數(shù)處理效應(yīng)的估計(jì)。
本文以政策評(píng)估為例,簡述反事實(shí)框架與隨機(jī)對(duì)照實(shí)驗(yàn)。假設(shè)某個(gè)城市(i)在某個(gè)時(shí)刻(t)被政策介入,在該地區(qū)對(duì)感興趣的某項(xiàng)指標(biāo)yI,t進(jìn)行研究??紤]擁有關(guān)于該城市以及其他未被政策介入的城市的面板數(shù)據(jù)Y∈RN×T,其中在政策實(shí)施前的數(shù)據(jù)一共有a年,實(shí)施后的數(shù)據(jù)一共有b年,共計(jì)T年(T=a+b)。
借鑒已有因果模型變量設(shè)置方法,記城市i=1,2,…,n1為被政策介入的城市,作為實(shí)驗(yàn)組(treat unit);城市j=1,2,…,n2為未被政策介入的城市,作為控制組(control unit),共計(jì)N個(gè)城市(N=n1+n2)。時(shí)間t=T1,T2,…,Ta,Ta+1,…,Ta+b,其中t=T1,T2,…,Ta為介入前,t=Ta+1,Ta+2,…,Ta+b為介入后,將面板數(shù)據(jù)YN×T劃分為4個(gè)部分,具體變量設(shè)置如表1所示。
表1 變量設(shè)置
(1)
由式(1)可以看出:只需要多次進(jìn)行實(shí)驗(yàn)估計(jì)反事實(shí)值,將其與真實(shí)觀測值的差求期望即可得到政策的因果效應(yīng)。Rubin(1973)提出了一般化的估計(jì)方法框架:
(2)
即實(shí)驗(yàn)組的值可以表示為控制組值的線性組合。由此一來,就可以通過對(duì)處理前實(shí)驗(yàn)組和控制組進(jìn)行回歸,得到參數(shù)ω=(ω1,ω2,…,ωn2)和μ,再使用估計(jì)出的參數(shù)和處理后控制組的值估計(jì)處理后實(shí)驗(yàn)組的反事實(shí)預(yù)測值。這樣一來,問題就由求反事實(shí)估計(jì)值變?yōu)榍蠡貧w估計(jì)參數(shù)θ=(μ,ω)。一個(gè)簡單的想法是利用簡單最小二乘法最小化以下目標(biāo)函數(shù)Q0,來得到參數(shù)ω和μ的估計(jì):
但當(dāng)θ=(μ,ω)的維數(shù)較高時(shí),最小二乘法將導(dǎo)致較大的預(yù)測誤差,使得政策效應(yīng)的估計(jì)變得非常不穩(wěn)定。因此,在這基礎(chǔ)上還需要一些假設(shè)條件對(duì)參數(shù)θ=(μ,ω)加以限制。而目前的各種方法,均是基于已有面板數(shù)據(jù)設(shè)立模型假設(shè),在該假設(shè)下對(duì)參數(shù)θ=(μ,ω)施加條件,以獲得更好的估計(jì)效果。
近年來,因子模型的理論和應(yīng)用已經(jīng)得到了很大的完善和發(fā)展,動(dòng)態(tài)因子模型常被應(yīng)用于宏觀經(jīng)濟(jì)政策的評(píng)估、經(jīng)濟(jì)指數(shù)的構(gòu)建和經(jīng)濟(jì)指標(biāo)的預(yù)測。統(tǒng)計(jì)學(xué)中,學(xué)者們關(guān)注因子個(gè)數(shù)的確定研究以及公共因子與因子載荷的估計(jì)方法研究。Bai[9]提出確定靜態(tài)因子個(gè)數(shù)的信息準(zhǔn)則,該準(zhǔn)則在保證因子模型的擬合優(yōu)度前提下,通過面板數(shù)據(jù)結(jié)構(gòu)特征得到因子個(gè)數(shù)的無偏估計(jì);Fan等[10]討論具有條件稀疏結(jié)構(gòu)的高維協(xié)方差估計(jì)問題,通過引入POET(Principal Orthogonal compl Ement Thresholding)方法來探索這種近似因子結(jié)構(gòu);Kong[11]提出一種局部主成分分析方法,用高頻數(shù)據(jù)確定具有時(shí)變因子載荷的連續(xù)時(shí)間因子模型的公共因子數(shù),該模型采用離散時(shí)間因子模型在收縮塊上進(jìn)行局部近似。
(3)
通常,一個(gè)數(shù)據(jù)集總是由若干隨機(jī)變量的若干觀測組成。因子分析的目標(biāo)就是將原始數(shù)據(jù)集進(jìn)行降維,將這些觀測投射到一個(gè)低維因子空間中。這樣的投射有無數(shù)種,主成分方法希望找到這樣一種投射,可以使得數(shù)據(jù)在低維空間的投影擁有最大的方差。而L2因子分析問題則可以表述為目標(biāo)函數(shù)Q1的最小化問題:
其中:Λ=(λ1,…,λn1,λn1+1,…,λN)T,F=(f1,…,fa,fa+1,…,fT)。對(duì)于目標(biāo)函數(shù)Q1的最小化問題,常用方法為對(duì)協(xié)方差矩陣YTY進(jìn)行奇異值分解(SVD),尋找最大的r個(gè)特征值,再用其對(duì)應(yīng)的r個(gè)特征向量構(gòu)成的矩陣做低維投影降維。
在對(duì)帶有大量缺失值的面板數(shù)據(jù)進(jìn)行因子分析時(shí),基于最小二乘法的經(jīng)典方法會(huì)遇到穩(wěn)健性問題,難以得到滿意的公共因子與因子載荷。對(duì)于缺失值處理,Xiong 等提出帶有缺失值情況下的潛在因子模型,在協(xié)方差矩陣估計(jì)時(shí),對(duì)所有個(gè)體重加權(quán),刪除缺失值所在的行和列,從而將面板數(shù)據(jù)調(diào)整為滿足奇異值分解的子矩陣,再根據(jù)所得矩陣的特征向量進(jìn)行潛在因子與因子載荷的估計(jì); Bai 等將面板數(shù)據(jù)劃分為4塊(block),分別利用tall-block 估計(jì)公共因子、wide-block 估計(jì)旋轉(zhuǎn)后的因子載荷;而本文則從優(yōu)化的角度直接舍棄目標(biāo)函數(shù)中對(duì)應(yīng)缺失的累加項(xiàng),此時(shí)的目標(biāo)函數(shù)Q2改寫為
s.t.ΛTΛ/N=IN,FFT/T為對(duì)角陣。
使用該方法的優(yōu)點(diǎn)是勿需對(duì)面板數(shù)據(jù)的行列進(jìn)行拼湊和刪減操作,且使用了所有未缺失數(shù)據(jù)的信息。
L2因子分析的缺陷是對(duì)離群值十分敏感,為了解決該問題,本文使用更具有穩(wěn)健性的L1因子分析進(jìn)行研究。
將目標(biāo)函數(shù)Q2更換為使用L1范數(shù),即可得目標(biāo)函數(shù)Q3:
s.t.ΛTΛ/N=IN,FFT/T為對(duì)角陣。
目標(biāo)函數(shù)Q1、Q2與Q3的最小化問題實(shí)質(zhì)為無約束最優(yōu)化問題。其中Q1為均值插補(bǔ)后的因子分析,可使用奇異值分解進(jìn)行直接計(jì)算;Q2與Q3則需要使用優(yōu)化算法解決。
一種經(jīng)典的方法是使用交替凸優(yōu)化算法求解該問題。該算法的思想是:當(dāng)面臨一個(gè)兩維變量的優(yōu)化問題,而該問題不是凸優(yōu)化問題因此無法求其最優(yōu)解時(shí),可以采用交替迭代的方法,每一步將其中一維未知變量的值看作是常數(shù)(使用該變量上次迭代的取值),來求解另一維未知量。由目標(biāo)函數(shù)Q2與Q3給出式(4)、式(5):
(4)
(5)
改寫目標(biāo)函數(shù)Q2與Q3,有
Q2(Λ,F)=‖Y-Λ(m-1)F‖L2=
Q3(Λ,F)=‖Y-Λ(m-1)F‖L1=
(6)
(7)
同理將式(5)轉(zhuǎn)化為下面的N個(gè)獨(dú)立的子優(yōu)化問題:
(8)
(9)
其中:λs是Λ的第s行。式(6)—式(9)都可以采用線性規(guī)劃問題求解。在帶有缺失值的情況下,直接舍棄目標(biāo)函數(shù)中的對(duì)應(yīng)累加項(xiàng),在上述算法中對(duì)應(yīng)的做法就是直接刪除一個(gè)約束條件。
需要注意的是,交替凸優(yōu)化算法只能保證在每一步求得當(dāng)前最優(yōu)解,并不能保證最后得到全局最優(yōu)解。具體算法步驟如下(以L2因子分析為例):
Step1 初始化參數(shù):給出Λ、Σ的初始值Λ(0)、Σ(0)。
Step2 交替凸優(yōu)化:對(duì)于迭代次數(shù)m(m=1,2,…,M),有
將算法中L2范數(shù)改為L1范數(shù)即為交替凸優(yōu)化求解L1因子分析。關(guān)于初始值的選取,Σ為對(duì)角矩陣,使用單位矩陣作為初始值Σ(0);而Λ可以采用簡單隨機(jī)數(shù)進(jìn)行初始化,這里為了加快收斂速度,使用均值插補(bǔ)后通過奇異值分解(SVD)算法得到的因子載荷矩陣作為初始值Λ(0)。
由于反事實(shí)值永遠(yuǎn)無法得到真實(shí)的觀測值,所以在隨機(jī)對(duì)照實(shí)驗(yàn)中無法獲得預(yù)測誤差,從而無法比較各個(gè)方法的預(yù)測效果。常用的解決方法是Abadie提出的安慰劑檢驗(yàn)法,其在因果研究中用于檢驗(yàn)反事實(shí)估計(jì)量是否具有穩(wěn)健性。安慰劑(placebo)源于醫(yī)學(xué)上的隨機(jī)實(shí)驗(yàn)。研究者為檢驗(yàn)藥物是否有效,將實(shí)驗(yàn)人群隨機(jī)分為服用真藥的實(shí)驗(yàn)組與服用安慰劑的控制組,通過不讓實(shí)驗(yàn)者知道自己服用的是真藥還是安慰劑,來避免主觀心理作用的影響。以此為基礎(chǔ)的安慰劑檢驗(yàn),其核心思想在于從控制組中選取偽實(shí)驗(yàn)組,并用相同的方法估計(jì)虛擬的“反事實(shí)值”,這樣能同時(shí)獲得真實(shí)的觀測值與估計(jì)的預(yù)測值,即可對(duì)預(yù)測結(jié)果進(jìn)行評(píng)價(jià)。由此得到的安慰劑效應(yīng)(即真實(shí)值與虛擬反事實(shí)值之差)越趨于0,說明其與該政策的因果效應(yīng)差距越大,也就說明估計(jì)方法越穩(wěn)健。在實(shí)證研究中,安慰劑檢驗(yàn)受到了廣泛使用。Abadie通過假定控制組城市受到政策影響估計(jì)安慰劑效應(yīng),并作圖比較,說明合成控制法的穩(wěn)健性;Athey等[13]則分別假設(shè)虛擬實(shí)驗(yàn)組與虛擬政策實(shí)施時(shí)間,對(duì)雙重差分、帶懲罰項(xiàng)的橫向遞減法(horizontal regression)、矩陣補(bǔ)全方法(Matrix Completion Methods)等多種方法進(jìn)行了比較。
本文具體考慮以下兩種情況:
(1) 隨機(jī)選取控制組城市j*,假設(shè)其在t=Ta+1,Ta+2,…,Ta+b時(shí)間段中受到政策介入影響,成為偽實(shí)驗(yàn)組(pseudo-treat unit)。其余控制組城市(j(.))仍然為控制組,政策介入時(shí)間不變。具體變量設(shè)置由表2所示。
表2 偽實(shí)驗(yàn)組假設(shè)
(2) 隨機(jī)選取時(shí)刻Ta+c與Ta+d(其中Ta+c滿足時(shí)間順序Ta+1,Ta+2,…,Ta+c,…,Ta+d;1 表3 偽時(shí)間假設(shè) 在以上兩種情形中,同樣地將“介入后”的“實(shí)驗(yàn)組”數(shù)據(jù)視作缺失值,用上節(jié)的方法進(jìn)行因子分析,并將得到的L1因子和L2因子以及對(duì)應(yīng)因子載荷建立預(yù)測模型,預(yù)測“反事實(shí)值”。在安慰劑檢驗(yàn)中,能同時(shí)獲得真實(shí)的觀測值與估計(jì)的預(yù)測值,對(duì)預(yù)測結(jié)果進(jìn)行評(píng)價(jià)。下面選取3種指標(biāo):FMSE、FMAE和FMPAE,并由這3種指標(biāo)比較各方法的預(yù)測精度。計(jì)算方法如式(10)所示(eit為實(shí)驗(yàn)組城市i在t時(shí)刻的預(yù)測誤差): (10) 本文選取因果推斷研究中部分學(xué)者使用的關(guān)于加利福尼亞州限制吸煙政策的數(shù)據(jù)(Abadie等,2010; Doudchenko等,2016; Athey等,2021)。使用該數(shù)據(jù)的優(yōu)勢在于:可以通過本文使用方法得出的結(jié)果與以往已有估計(jì)方法得到的結(jié)果進(jìn)行比較,對(duì)因果效應(yīng)是否存在進(jìn)行基本驗(yàn)證。在該數(shù)據(jù)中,加利福尼亞州于1988年被限制吸煙政策介入,作為實(shí)驗(yàn)組;選取另外38個(gè)未被任何吸煙管控政策介入的州作為控制組。同時(shí)選取了1970—2000年共計(jì)31a間各州的煙草銷量數(shù)據(jù),并設(shè)定1988年為政策介入時(shí)刻(Ta),該政策于1989年(Ta+1)起對(duì)煙草銷量產(chǎn)生因果效應(yīng)。 實(shí)證研究中,面板數(shù)據(jù)Y為39行、31列的矩陣。在具體因子分析模型中,N=39,n1=1,n2=38;T=31,a=16,b=15。采用Bai等提出的信息準(zhǔn)則確定靜態(tài)因子個(gè)數(shù)。在該信息準(zhǔn)則下,因子個(gè)數(shù)需要最小化: 其中,V(Λ,F)為因子殘差平方和,G(N,T)為懲罰函數(shù),其使得在N,T→∞時(shí),G(N,T)→0,且min(N,T)G(N,T)→∞。參考Bai&Ng(2002)建議,本文在實(shí)證研究中選擇式(11)作為懲罰函數(shù): (11) 之后對(duì)目標(biāo)函數(shù)Q2與Q3利用交替凸優(yōu)化算法進(jìn)行迭代,分別得到對(duì)應(yīng)的潛在因子Ft與因子載荷Λs;再通過Ft與Λs進(jìn)行估計(jì),獲得加州在沒有被政策介入情況下的反事實(shí)預(yù)測值;最后由式(1)得到加州限制吸煙政策在不同方法下計(jì)算出的政策效應(yīng)。 實(shí)證研究中,除了本文因子分析相關(guān)的3種方法外,使用因果推斷中常見的雙重差分法(Difference-in-Difference,DID)以及Doudchenko(2016)使用的彈性網(wǎng)絡(luò)法(Elastic Networks)作為比較,由式(4)計(jì)算所得的政策效應(yīng)(表4)。 表4 政策效應(yīng)估計(jì) 表4給出了用不同方法得到的限制吸煙政策對(duì)于煙草價(jià)格的因果效應(yīng)??梢钥闯稣咝?yīng)均為正,且本文所使用的3種方法效應(yīng)更顯著。具體每年的預(yù)測值如圖1所示。 圖1 各方法每年預(yù)測值 其中,線y為加州煙草銷售額的實(shí)際變化。由圖1可以看出,雙重差分法(線yhatDID)全時(shí)間段估計(jì)效果均較差,不能說明政策效應(yīng)是否顯著。經(jīng)過均值插補(bǔ)后的簡單因子分析(線yhat)雖然在1989年政策介入后的估計(jì)與實(shí)際值有顯著差異,能夠說明政策的因果效應(yīng),但在政策介入前的時(shí)間段(1970—1988)與實(shí)際值相差較大。而L1因子分析(線yhatL1)、L2因子分析(線yhatL2)以及彈性網(wǎng)絡(luò)方法(線yhatEN)均能在政策介入前與實(shí)際值保持一致,且在介入后與實(shí)際值表現(xiàn)出顯著差距。 偽實(shí)驗(yàn)組假設(shè)中,隨機(jī)抽取5個(gè)原控制組州作為偽實(shí)驗(yàn)組,其余33個(gè)州仍為控制組。政策介入時(shí)刻、介入前后總時(shí)間不變,由式(10)計(jì)算所得誤差如表5所示。 表5 偽實(shí)驗(yàn)組假設(shè)預(yù)測誤差 由表5可以看出:通過均值插補(bǔ)后的簡單因子分析得出的結(jié)果誤差較大,而L1、L2因子分析的效果均不錯(cuò),且L1范數(shù)較L2范數(shù)具有更小的平均預(yù)測誤差。具體到每個(gè)偽實(shí)驗(yàn)組的平均預(yù)測誤差,L1、L2因子分析所得的箱線圖如圖2所示。 圖2 偽實(shí)驗(yàn)組假設(shè)預(yù)測誤差 由圖2可以看出:L1因子分析離群值點(diǎn)更少,最大值也更小,總體而言預(yù)測誤差也小于L2因子分析,可以認(rèn)為該情況下,L1范數(shù)預(yù)測效果略好于L2范數(shù)。 偽時(shí)間假設(shè)情況中,將1999年作為偽政策偽介入時(shí)刻(Ta+c),該政策于2000年(Ta+c+1)起對(duì)煙草銷量產(chǎn)生因果效應(yīng)??刂平M與實(shí)驗(yàn)組不變,選取1989—2019年共計(jì)31a間各州的煙草銷量數(shù)據(jù),由式(10)計(jì)算所得誤差如表6所示。 表6 偽時(shí)間假設(shè)預(yù)測誤差 由表6可以看出:通過均值插補(bǔ)后的簡單因子分析得出的結(jié)果誤差較大,而L1、L2因子分析的效果均不錯(cuò),且L1范數(shù)與偽實(shí)驗(yàn)組假設(shè)一樣具有更小的預(yù)測誤差。具體到實(shí)驗(yàn)組每年的預(yù)測誤差,L1、L2因子分析所得的箱線圖如圖3所示。 圖3 偽時(shí)間假設(shè)預(yù)測誤差 由圖3可以看出:L1因子分析離群值點(diǎn)情況與L2因子分析相差無幾,而總體預(yù)測誤差明顯小于L2因子分析,可以認(rèn)為該情況下L1范數(shù)預(yù)測效果同樣好于L2范數(shù)。綜上所述,經(jīng)均值插補(bǔ)后的簡單因子分析表現(xiàn)較差,各個(gè)誤差顯著大于另外兩種方法。而L1、L2因子分析的預(yù)測效果在不同情況下表現(xiàn)優(yōu)秀,且L1因子分析在兩種假設(shè)下效果均略好于L2因子分析。通過比較,可以認(rèn)為L2因子分析在進(jìn)行因果推斷時(shí),雖然具有一定穩(wěn)健性,但較之于L1因子分析仍有所欠缺。 首先簡要介紹了因果推斷的提出與發(fā)展歷程。通過已有文獻(xiàn),概述了因果推斷的相關(guān)模型,確定其最終目的是反事實(shí)值估計(jì),并介紹了已有的估計(jì)反事實(shí)值的方法與理論模型;之后引入因子模型的基礎(chǔ)理論,包括基本概念和模型參數(shù)的估計(jì)方法:正交因子模型主要通過主成分分析法來估計(jì),而主成分估計(jì)得出的因子得分可以很好地應(yīng)用于宏觀經(jīng)濟(jì)變量預(yù)測;由此,結(jié)合因果推斷與正交因子模型,將因果推斷反事實(shí)值估計(jì)轉(zhuǎn)變?yōu)閹в腥笔е档臐撛谝蜃幽P凸烙?jì)。 基于以上理論依據(jù),舍棄面板數(shù)據(jù)中的缺失值,通過優(yōu)化一步得到潛在結(jié)果與平均處理效應(yīng);并采用L1因子分析代替L2因子分析來估計(jì)模型,做出穩(wěn)健性上的改進(jìn),獲得中位數(shù)處理效應(yīng);通過對(duì)L1因子分析的問題進(jìn)行表述,介紹了一種交替凸優(yōu)化算法并給出其實(shí)現(xiàn)步驟。 最后,為了驗(yàn)證L1因子分析能否代替L2因子分析作為因子模型的估計(jì),基于加利福尼亞州限制煙草政策案例作了實(shí)證研究,將兩種不同的主成分估計(jì)應(yīng)用在反事實(shí)值的預(yù)測上。實(shí)證研究的結(jié)果表明:因子模型的L1估計(jì)量同樣適用于宏觀經(jīng)濟(jì)變量預(yù)測。后又通過偽實(shí)驗(yàn)組與偽介入的假設(shè),分析比較了L1、L2因子分析的預(yù)測效果,結(jié)果表明L1因子分析較之其他方法具有更穩(wěn)健的預(yù)測效果。3 實(shí)證分析
3.1 數(shù)據(jù)選取與變量設(shè)置
3.2 模型設(shè)置
3.3 預(yù)測結(jié)果分析
3.4 預(yù)測誤差分析
4 總 結(jié)