• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      權(quán)數(shù)對(duì)基于模型推斷的影響分析

      2022-03-25 03:06:00金勇進(jìn)劉曉宇
      統(tǒng)計(jì)與信息論壇 2022年3期
      關(guān)鍵詞:權(quán)數(shù)估計(jì)量總體

      金勇進(jìn),劉曉宇

      (中國(guó)人民大學(xué) a.應(yīng)用統(tǒng)計(jì)科學(xué)研究中心;b.統(tǒng)計(jì)學(xué)院;c.調(diào)查技術(shù)研究所,北京 100872)

      一、引言

      在實(shí)際抽樣調(diào)查中,常需要對(duì)總體的一些參數(shù)進(jìn)行推斷,如總值、均值、比例等。對(duì)這些總體參數(shù)的推斷途徑主要分為兩種:一種是傳統(tǒng)基于抽樣設(shè)計(jì)的推斷,以入樣概率為基礎(chǔ),根據(jù)從有限總體中進(jìn)行的隨機(jī)抽樣對(duì)有限總體特征進(jìn)行推斷;另一種是基于模型的推斷,假定有限總體是超總體模型的一次隨機(jī)實(shí)現(xiàn),通過估計(jì)超總體的模型參數(shù)來(lái)推斷有限總體特征。

      長(zhǎng)久以來(lái),基于設(shè)計(jì)和基于模型推斷之間存在廣泛的討論?;谠O(shè)計(jì)的推斷僅在調(diào)查設(shè)計(jì)階段要求對(duì)總體進(jìn)行一些假設(shè),例如依據(jù)中心極限定理,當(dāng)樣本量足夠大時(shí)樣本統(tǒng)計(jì)量服從正態(tài)分布等,這些假設(shè)通常比較寬松,在大樣本情況下能夠得到可靠的估計(jì)?;谀P偷耐茢嘣趩我怀闃臃椒ㄏ?存在最優(yōu)估計(jì)量理論并得到相對(duì)有效的目標(biāo)量估計(jì)。事實(shí)上,兩種途徑各有利弊,基于設(shè)計(jì)的推斷在存在非抽樣誤差或總體結(jié)構(gòu)存在線性趨勢(shì)等情況下,估計(jì)結(jié)果低效甚至無(wú)效;而基于模型的推斷對(duì)模型的識(shí)別敏感、模型的錯(cuò)誤識(shí)別可能會(huì)造成推斷失效。對(duì)基于設(shè)計(jì)和基于模型推斷,有比較優(yōu)劣的研究,有探索關(guān)聯(lián)的研究,也有模型輔助的估計(jì)[1],但鮮有文獻(xiàn)涉及二者的結(jié)合,在充分考慮調(diào)查數(shù)據(jù)概率特征的基礎(chǔ)上進(jìn)行建模分析[2-3]?;谠O(shè)計(jì)和基于模型推斷的結(jié)合不僅缺乏理論研究,在實(shí)際應(yīng)用中同樣缺乏指導(dǎo)。導(dǎo)致這種情況的主要原因是,調(diào)查設(shè)計(jì)和數(shù)據(jù)分析通常是由不同的人來(lái)執(zhí)行,數(shù)據(jù)分析人員能夠掌握的現(xiàn)場(chǎng)調(diào)查信息受到限制,例如抽樣框、抽樣設(shè)計(jì)和原始數(shù)據(jù)的某些復(fù)雜特征可能被隱藏。同時(shí),抽樣設(shè)計(jì)相關(guān)的方法集中在基于設(shè)計(jì)的推斷體系上,與許多主流應(yīng)用統(tǒng)計(jì)常用的建模分析完全不同,會(huì)對(duì)習(xí)慣基于模型推斷體系的數(shù)據(jù)分析人員造成混淆。

      權(quán)數(shù)在基于設(shè)計(jì)推斷中起著核心作用,它與入樣概率相關(guān),是樣本推斷總體的擴(kuò)張系數(shù)用于衡量各樣本單元的變量值在總體中的作用大小。將權(quán)數(shù)引入基于模型的推斷,可以使得基于模型的分析結(jié)果反映樣本的概率特征,具有總體代表性,實(shí)現(xiàn)兩種推斷體系優(yōu)勢(shì)的組合。本文創(chuàng)新性地將權(quán)數(shù)引入基于模型的推斷,針對(duì)因果推斷問題探究權(quán)數(shù)對(duì)模型推斷效果的影響,將權(quán)數(shù)納入模型擬合,構(gòu)造處理效應(yīng)的雙重穩(wěn)健估計(jì);一方面從估計(jì)的角度討論權(quán)數(shù)的功能,旨在獲得更準(zhǔn)確、穩(wěn)健的估計(jì)結(jié)果;另一方面為實(shí)際應(yīng)用提供參考,說明設(shè)計(jì)權(quán)數(shù)對(duì)于模型推斷的重要性,強(qiáng)調(diào)在對(duì)調(diào)查數(shù)據(jù)分析時(shí)應(yīng)充分考慮抽樣設(shè)計(jì)的影響。

      二、基于設(shè)計(jì)與基于模型的推斷框架分析

      (一)基于設(shè)計(jì)的推斷思路

      主流抽樣教科書中介紹的估計(jì)方法均以隨機(jī)化為基礎(chǔ),被稱作基于設(shè)計(jì)的推斷方法,也稱作基于隨機(jī)化的推斷方法,例如HT估計(jì)、HH估計(jì)等?;谠O(shè)計(jì)的推斷只研究有限總體的特征,生成數(shù)據(jù)的模型雖然可能存在,但是不需要知道模型的具體形式,也不依賴于任何模型假設(shè)。

      (1)

      (2)

      (3)

      如果估計(jì)量的期望值等于真實(shí)值,則估計(jì)量是無(wú)偏的。如果偏差和方差都隨著樣本量的增加而趨近于0,則估計(jì)量是一致的。根據(jù)以上分析可知,通過設(shè)計(jì)權(quán)數(shù)將樣本信息還原到總體,HT估計(jì)量具有無(wú)偏性和一致性。權(quán)數(shù)在基于設(shè)計(jì)的推斷中發(fā)揮著重要作用。

      (二)基于模型的推斷思路

      在社會(huì)科學(xué)領(lǐng)域的研究中,常需要對(duì)調(diào)查數(shù)據(jù)進(jìn)行建模分析,這種途徑被稱作基于模型的推斷方法。該方法假定有限總體是來(lái)自一個(gè)無(wú)限超總體的樣本,通過樣本尋找一個(gè)生成總體的模型,并估計(jì)模型參數(shù)。與基于設(shè)計(jì)的“估計(jì)”相比,基于模型的方法側(cè)重于“預(yù)測(cè)”,通過對(duì)目標(biāo)變量Y的分布建模,預(yù)測(cè)總體中未入樣單元,估計(jì)量的性質(zhì)取決于模型假設(shè),與抽樣設(shè)計(jì)和樣本選擇無(wú)關(guān)。Royall在線性回歸模型下對(duì)有限總體估計(jì)進(jìn)行了研究,被認(rèn)為是基于模型推斷體系初步形成的標(biāo)志[5]。

      現(xiàn)以一個(gè)簡(jiǎn)單的超總體模型為例,分析基于模型估計(jì)量的性質(zhì)。假定總體中的所有單元k=1,2,…,N服從如下模型:

      μ=EM(yk),vM(yk)=σ2

      (4)

      (5)

      (6)

      (三)方法評(píng)述

      基于設(shè)計(jì)與基于模型的推斷是兩類重要的抽樣推斷體系,二者各有特色?;谠O(shè)計(jì)的推斷更側(cè)重“描述”,基于模型的推斷更具有“分析性”,因此后者在經(jīng)濟(jì)學(xué)、社會(huì)學(xué)等領(lǐng)域的應(yīng)用更為廣泛。事實(shí)上,基于模型可以規(guī)避基于設(shè)計(jì)估計(jì)時(shí)存在的一些缺陷,具體包括以下幾點(diǎn):第一,方差估計(jì)問題。實(shí)際抽樣設(shè)計(jì)通常較復(fù)雜,難以獲得準(zhǔn)確的πkl值,此時(shí)無(wú)法通過式(3)計(jì)算基于設(shè)計(jì)估計(jì)量的方差,需借助其他近似方法或重抽樣方法,且在不放回抽樣中可能出現(xiàn)Δkl<0的情況,致使式(3)的計(jì)算值為負(fù),這有悖于方差的含義。而基于模型估計(jì)量的方差取決于yk,與包含概率無(wú)關(guān),不受抽樣設(shè)計(jì)的影響,不存在失效的風(fēng)險(xiǎn)。第二,樣本量問題?;谠O(shè)計(jì)的方法需要較大的樣本量來(lái)保證估計(jì)量的漸近性質(zhì),若實(shí)際樣本量無(wú)法達(dá)到要求,尤其是在對(duì)于總體估計(jì)時(shí),估計(jì)精度將大打折扣。而基于模型的推斷效果與樣本量無(wú)關(guān),當(dāng)模型選擇合適時(shí),僅通過小樣本就可以得到總體的優(yōu)良估計(jì)。第三,估計(jì)量的穩(wěn)健性問題?;谠O(shè)計(jì)估計(jì)量的性質(zhì)可能會(huì)受到其他因素的影響,例如總體結(jié)構(gòu)中存在的線性趨勢(shì)、周期波動(dòng)和自相關(guān)問題、非抽樣誤差以及離群值等,而基于模型的方法可以依據(jù)對(duì)總體分布的認(rèn)識(shí),靈活設(shè)置超總體模型,進(jìn)而避免這些因素的影響。

      然而,基于模型推斷總體的一大局限性在于,若選擇了不恰當(dāng)?shù)某傮w模型,可能會(huì)得到比基于設(shè)計(jì)方法更差的推斷結(jié)果。且當(dāng)樣本的入樣過程不具有無(wú)信息性時(shí),總體單元是否入樣與目標(biāo)變量的取值有關(guān),此時(shí)基于模型的推斷結(jié)果存在選擇性偏差。由于基于模型推斷淡化了抽樣設(shè)計(jì),導(dǎo)致該方法對(duì)樣本概率特征的反映并不是很敏感,那么,在模型確定的情況下,是否可以通過引入權(quán)數(shù),改善基于模型的推斷效果,組合兩種推斷途徑的優(yōu)勢(shì),既能保留對(duì)總體的代表性,又能得到精度高且效果穩(wěn)定的估計(jì)結(jié)果,本文以因果推斷問題為背景,對(duì)此展開討論。

      三、權(quán)數(shù)在因果推斷中的使用

      從觀測(cè)數(shù)據(jù)中推斷因果效應(yīng)常借助傾向得分實(shí)現(xiàn),目前大部分研究在實(shí)際推斷時(shí)忽略了抽樣設(shè)計(jì)的影響,少數(shù)學(xué)者嘗試將權(quán)數(shù)納入推斷過程,但尚未形成統(tǒng)一結(jié)論[6-8]。在基于傾向得分對(duì)處理效應(yīng)進(jìn)行模型估計(jì)時(shí),涉及傾向得分模型和預(yù)測(cè)模型兩個(gè)模型,本部分在分析權(quán)數(shù)功能的基礎(chǔ)上,討論如何在估計(jì)過程中利用權(quán)數(shù)構(gòu)造雙穩(wěn)健估計(jì),并對(duì)其中涉及的一些問題進(jìn)行思考,作為后續(xù)模擬研究的基礎(chǔ)。

      (一)基于傾向得分的因果推斷法

      在科學(xué)研究中,經(jīng)常需要識(shí)別不同處理對(duì)于結(jié)果變量的影響,即進(jìn)行因果推斷。研究因果關(guān)系的黃金法則是隨機(jī)化試驗(yàn)。然而在實(shí)際研究中,無(wú)論是出于執(zhí)行成本和執(zhí)行難度,還是道德和倫理的限制,無(wú)法實(shí)施隨機(jī)化試驗(yàn),而借助觀測(cè)數(shù)據(jù)開展的因果推斷研究得以發(fā)展。在實(shí)際中,個(gè)體一旦處于某種狀態(tài),將無(wú)法回到原始狀態(tài),更無(wú)法得到其處于其他狀態(tài)下的結(jié)果,也就是說,研究者永遠(yuǎn)無(wú)法同時(shí)觀測(cè)到一個(gè)特定個(gè)體的兩個(gè)潛在結(jié)果,處理組的個(gè)體只能看到處理后的狀態(tài),對(duì)照組的個(gè)體只能看到未處理的狀態(tài)。但是,如果能夠知道潛在結(jié)果,或者是對(duì)潛在結(jié)果進(jìn)行一些合理的假設(shè),便可估計(jì)處理效應(yīng),這是利用觀測(cè)數(shù)據(jù)進(jìn)行因果推斷所依據(jù)的主要思想。在基于觀測(cè)數(shù)據(jù)的因果推斷研究中,如何控制混雜變量造成的偏差至關(guān)重要?;祀s變量會(huì)同時(shí)影響個(gè)體是否接受處理和結(jié)果變量,若不加以控制,將無(wú)法確定結(jié)果變量的差異是來(lái)自不同處理還是混雜變量。

      傾向得分理論最早由美國(guó)統(tǒng)計(jì)學(xué)家Rosenbaum和Rubin提出[9],是控制潛在混雜對(duì)推斷造成的影響的常用方法。傾向得分法是指在控制了協(xié)變量后,觀測(cè)樣本中的單元被分配至處理組的概率。假設(shè)每個(gè)樣本單元的觀測(cè)值為{yi,ti,xi;i∈s},其中y為待研究變量,t為示性變量,ti=1時(shí)表示第i個(gè)觀測(cè)樣本單元被分配至處理組,ti=0時(shí)表示第i個(gè)觀測(cè)樣本單元被分配至對(duì)照組,x為混雜因素,定義傾向得分為ei=P(ti=1|x,y;γ,γ0),其中γ、γ0是未知參數(shù),分別表示真實(shí)模型中x、y的系數(shù)。傾向得分法的假設(shè)如下:

      (1)?i∈s,滿足P(ti=1|x,y;γ)=P(ti=1|x;γ,γ0)

      (2)?i∈s,0

      (3)?i∈s,P(ti=1|x;γ)=P(ti=1|xi;γ)

      Rubin對(duì)傾向得分的性質(zhì)進(jìn)行了研究,結(jié)果表明,通過傾向得分不僅有效控制了混雜因素,使得處理組與對(duì)照組的待研究變量具有可比性,還能實(shí)現(xiàn)協(xié)變量的充分降維,得到的處理效應(yīng)估計(jì)具有無(wú)偏性[9]。傾向得分可與傳統(tǒng)方法如匹配、分層、回歸等相結(jié)合,在此基礎(chǔ)上Hirano等提出了利用傾向得分進(jìn)行逆概率加權(quán)的方法估計(jì)因果效應(yīng)[10]。

      (二)權(quán)數(shù)的功能

      假設(shè)樣本量為n,對(duì)于每個(gè)樣本單元i∈s;ti為示性變量,ti=1時(shí)表示單元i被分配至處理組,ti=0時(shí)表示單元i被分配至對(duì)照組;xi為混雜因素,f(x|t=1)表示處理組的混雜變量分布,f(x|t=0)表示對(duì)照組的混雜變量分布;y0i表示對(duì)照組的潛在結(jié)果變量,y1i表示處理組的潛在結(jié)果變量,二者只有一個(gè)可以觀測(cè)到。

      因果推斷要求處理的分配是隨機(jī)的,此時(shí)處理組和對(duì)照組的混雜變量分布相同,即f(x|t=1)和f(x|t=0)相同。而實(shí)際上,二者并不相同。為實(shí)現(xiàn)隨機(jī)化的要求和樣本對(duì)總體的代表性,需對(duì)兩分布構(gòu)造一個(gè)權(quán)數(shù)w(x),使得f(x|t=1)=w(x)f(x|t=0,s=1),根據(jù)貝葉斯公式有:

      (7)

      其中1/f(s=1|t=0,x)為樣本的設(shè)計(jì)權(quán)數(shù),f(t=1|x)/[1-f(t=1|x)]為從處理組出發(fā)估計(jì)的風(fēng)險(xiǎn)比。若隨機(jī)樣本與總體的處理分配不同,即f(t=1|x)≠f(t=1|x,s=1),那么w(x)將無(wú)法使處理組和對(duì)照組的混雜達(dá)到平衡,僅基于樣本處理的分布f(t=1|x,s=1)對(duì)總體處理的分布f(t=1|x)進(jìn)行推斷,可能無(wú)法準(zhǔn)確刻畫總體的分布特征。因此在估計(jì)f(t=1|x)時(shí),需充分考慮樣本與總體的關(guān)系,發(fā)揮權(quán)數(shù)的作用。

      根據(jù)以上分析可知,在基于調(diào)查數(shù)據(jù)進(jìn)行因果推斷時(shí),權(quán)數(shù)的使用包括兩步:一是在對(duì)f(t=1|x)進(jìn)行估計(jì)時(shí)納入權(quán)數(shù);二是無(wú)論基于設(shè)計(jì)還是基于模型推斷,應(yīng)在處理效應(yīng)的估計(jì)中考慮權(quán)數(shù)。

      (三)權(quán)數(shù)的使用

      1.回歸模型中的權(quán)數(shù)

      眾所周知,標(biāo)準(zhǔn)線性回歸是典型的基于模型推斷的方法,一般采用普通最小二乘法(OLS)或極大似然法進(jìn)行擬合。對(duì)于OLS法,在進(jìn)行擬合時(shí)需要假定殘差的方差恒定,當(dāng)殘差不滿足方差齊性時(shí),將單元i殘差的方差表示為σ2/ui,其中ui是一個(gè)已知常數(shù),那么可以通過加權(quán)最小二乘法(WLS)得到更好的推論,即回歸模型中樣本單元i與ui成比例進(jìn)行加權(quán)。WLS同樣是基于模型的推斷方法。若要在基于模型的推斷中結(jié)合基于設(shè)計(jì)的推斷,加權(quán)方法則會(huì)出現(xiàn)完全不同的形式。在基于設(shè)計(jì)的推斷中,設(shè)計(jì)權(quán)數(shù)di是根據(jù)抽樣方案確定的,代表樣本在總體中的相對(duì)重要程度。此時(shí),在模型推斷中考慮抽樣的隨機(jī)性,應(yīng)根據(jù)權(quán)數(shù)di進(jìn)行加權(quán)最小二乘法的估計(jì),將包含概率的倒數(shù)加入最小二乘方程。由于每個(gè)樣本i代表總體的1/πi個(gè)單元,所以它在回歸中的權(quán)數(shù)與1/πi成正比。兩種加權(quán)方式都是合理的,但它們的思路完全不同,對(duì)y的分布的建模導(dǎo)致利用ui加權(quán),隨機(jī)抽樣導(dǎo)致利用1/πi加權(quán)。

      對(duì)于極大似然法,假設(shè)超總體模型的形式為g(E[Y|X=x])=g(μ)=η=x′β,方差v[Y|X=x]=σ2V(μ),示性變量Ii表示單元是否入樣,若單元i入樣,則Ii為1,否則為0,那么參數(shù)估計(jì)通過求解如下的得分方程得到:

      (8)

      當(dāng)考慮抽樣設(shè)計(jì)時(shí),極大似然法演變?yōu)閭螛O大似然法,得分方程變?yōu)?

      (9)

      根據(jù)大數(shù)定律和中心極限定理,若正確地指定了超總體模型,偽極大似然法得到的參數(shù)估計(jì)值具有漸近正態(tài)性和一致性。接下來(lái)考慮更加復(fù)雜的情形,針對(duì)基于傾向得分的因果推斷,利用權(quán)數(shù)構(gòu)造雙穩(wěn)健估計(jì)。

      2.雙穩(wěn)健估計(jì)中的權(quán)數(shù)

      雙穩(wěn)健估計(jì)采用兩種關(guān)系模型估計(jì)待估參數(shù),即使其中一個(gè)模型被錯(cuò)誤指定,所得的估計(jì)量仍具有一致性。通過傾向得分可以保證處理分配機(jī)制的可忽略性,通過預(yù)測(cè)模型可以進(jìn)行參數(shù)估計(jì)。如何利用權(quán)數(shù)構(gòu)造兩個(gè)估計(jì)模型,實(shí)現(xiàn)處理效應(yīng)的雙穩(wěn)健估計(jì),是本部分討論的重點(diǎn)。

      (1)傾向得分的估計(jì)

      傾向得分模型常采用通過Logistic或者Probit回歸擬合,屬于概率估計(jì)模型,處理作為因變量,其他混雜因素作為自變量。為了實(shí)現(xiàn)對(duì)背景變量的平衡、減少選擇性偏差和控制估計(jì)量的方差,傾向得分模型應(yīng)包含與處理和結(jié)果變量均相關(guān)的變量,通過控制這些變量排除它們對(duì)結(jié)果變量的影響,使結(jié)果變量的差異僅來(lái)自不同處理。若納入與處理有關(guān)而與結(jié)果變量無(wú)關(guān)的變量,無(wú)法控制估計(jì)量的方差;若納入與處理無(wú)關(guān)但與結(jié)果變量相關(guān)的變量,無(wú)法排除混雜的影響,消除選擇性偏差[11]。

      根據(jù)調(diào)查數(shù)據(jù)進(jìn)行因果分析,需同時(shí)考察樣本選擇機(jī)制和處理分配機(jī)制,識(shí)別影響樣本選擇的變量,以及這些變量與傾向得分模型中的協(xié)變量的包含關(guān)系。傾向得分模型涉及處理分配機(jī)制。假設(shè)變量z影響樣本選擇機(jī)制,傾向得分模型根據(jù)協(xié)變量x建立,ei=f(t=1|xi),總體治療組的平均處理效應(yīng)ATT的估計(jì)為:

      (10)

      對(duì)于式(10)的前半部分,根據(jù)貝葉斯公式計(jì)算可得:

      =E(y1|t=1)

      (11)

      對(duì)于式(10)的后半部分,根據(jù)貝葉斯公式以及傾向得分的性質(zhì),即對(duì)協(xié)變量x取條件后t與y0獨(dú)立,分子為:

      dy0dxdz

      (12)

      分母的計(jì)算類似,可得

      (13)

      欲使式(13)是E(y0|t=1)的一致估計(jì),需要f(y0,x,s|t)=f(y0,x|t)f(s|t)成立。然而,由于變量z影響樣本選擇機(jī)制,(y0,x)與s的獨(dú)立性難以保證,而在傾向得分模型中引入權(quán)數(shù)獲得f(t=1|x)的一致估計(jì),在一定程度上能彌補(bǔ)由此造成的推斷誤差[6]。引入的方式可分為兩種:一種是將權(quán)數(shù)作為協(xié)變量擬合模型;另一種是保留權(quán)數(shù)的原始含義,采用偽極大似然法進(jìn)行估計(jì)。具體效果如何,將在模擬部分予以討論。

      (2)處理效應(yīng)的估計(jì)

      (14)

      (15)

      利用權(quán)數(shù)構(gòu)造雙穩(wěn)健估計(jì),理論上能得到性質(zhì)優(yōu)良的估計(jì)結(jié)果。然而,實(shí)際情況更為復(fù)雜,具體應(yīng)用效果如何需要從以下幾個(gè)方面進(jìn)行考察:第一,權(quán)數(shù)與因果推斷的結(jié)合涉及樣本選擇機(jī)制和處理分配機(jī)制,影響二者的變量包含關(guān)系如何,是重疊還是獨(dú)立,均有可能影響推斷效果,實(shí)際中完整找到這兩類變量并判斷其關(guān)系并不容易,通過權(quán)數(shù)構(gòu)造的雙穩(wěn)健估計(jì)能否在不同情況下保持優(yōu)良性質(zhì)有待研究。第二,由于無(wú)法得知真實(shí)模型,若傾向得分模型沒有包含與樣本選擇機(jī)制有關(guān)的變量,或錯(cuò)誤指定了模型形式時(shí),設(shè)計(jì)權(quán)數(shù)的加入是否能彌補(bǔ)由此造成的誤差值得探討。第三,受資料的限制,研究中往往需要將兩個(gè)不同調(diào)查的數(shù)據(jù)集進(jìn)行融合分析,此時(shí)具有相同抽樣權(quán)數(shù)的受訪者不具有相同特征,利用權(quán)數(shù)構(gòu)造雙穩(wěn)健估計(jì)的方法是否適用有待研究。下文的模擬研究將依據(jù)以上三點(diǎn)設(shè)計(jì)不同情形,對(duì)所提出方法的準(zhǔn)確性和穩(wěn)定性進(jìn)行探究。

      四、模擬研究

      結(jié)合第三部分的分析,本部分通過設(shè)置不同情形模擬實(shí)際應(yīng)用,探究前文所述方法的準(zhǔn)確性和穩(wěn)定性。

      (一)數(shù)據(jù)生成與模型設(shè)置

      模擬樣本的生成方式如下:假設(shè)總體共有10 000個(gè)單元,根據(jù)x劃分為5層,每層2 000個(gè);一維協(xié)變量x~N(0.25j-0.75,1),j=1,2,3,4,5,一維協(xié)變量z~N(0.5,0.5);潛在結(jié)果y0、y1服從正態(tài)分布,根據(jù)x生成y0~N(1+x,0.5),y1~N(y0+0.2+0.1x,0.5);t為是否接受處理的示性變量。樣本由分層抽樣得到,每層抽取的樣本量分別為100、150、200、250、300。

      為比較不同情況下權(quán)數(shù)對(duì)傾向得分法推斷結(jié)果的影響,分別用符號(hào)s和符號(hào)t代表樣本選擇機(jī)制和處理分配機(jī)制,在以下五個(gè)不同s與t的關(guān)系下進(jìn)行模擬。情形1,s與t均與x相關(guān),這是較理想的情況,在控制x后,s與t的影響均得到控制,理論推斷效果好;情形2,s與x無(wú)關(guān),t與x有關(guān),與情形1相同,理論推斷效果好;情形3,s與z有關(guān),t與x有關(guān),此時(shí)傾向得分模型沒有包含與樣本選擇機(jī)制有關(guān)的變量z,用以研究權(quán)數(shù)對(duì)由此造成誤差的彌補(bǔ)情況;情形4,在已知t的情況下,s與x有關(guān),t與x有關(guān),人為將控制組的權(quán)數(shù)擴(kuò)大1.8倍,處理組不變,使得兩組中權(quán)數(shù)相同的單元特征及其在總體中的相對(duì)重要程度均不同,此情形用以研究來(lái)自不同調(diào)查的樣本;情形5,s與t均與x相關(guān),但形式不同,假設(shè)s與x呈線性關(guān)系,t與x呈非線性關(guān)系,此情形用以研究?jī)A向得分模型識(shí)別錯(cuò)誤時(shí)的估計(jì)效果。以上情形的具體生成形式見表1。

      表1 樣本選擇機(jī)制和處理分配機(jī)制的生成

      模擬部分根據(jù)利用權(quán)數(shù)構(gòu)造的雙穩(wěn)健估計(jì)對(duì)ATE進(jìn)行推斷。對(duì)于傾向得分模型的擬合采用Logistic回歸進(jìn)行,為研究權(quán)數(shù)在傾向得分法中的效果,考慮如下四種方式:模型1,不進(jìn)行傾向得分建模,直接比較兩組結(jié)果變量的差異;模型2,根據(jù)協(xié)變量x擬合模型,不考慮權(quán)數(shù)的影響;模型3,將權(quán)數(shù)作為協(xié)變量,根據(jù)協(xié)變量x和權(quán)數(shù)d擬合模型;模型4,將權(quán)數(shù)作為樣本單元相對(duì)重要程度的度量,可看作將樣本單元做d倍的復(fù)制,根據(jù)協(xié)變量x擬合模型。此外,傾向得分模型僅涉及x項(xiàng),不涉及x2項(xiàng)。預(yù)測(cè)模型采用線性形式,分別采用不考慮權(quán)數(shù)的極大似然法和考慮權(quán)數(shù)的偽極大似然法,擬合y~t以及y~(t、x)的關(guān)系。

      (二)模擬與結(jié)果分析

      模擬過程共進(jìn)行1 000次重復(fù)試驗(yàn),評(píng)價(jià)方法采用協(xié)變量的平衡性、估計(jì)值的均方誤差根和真實(shí)參數(shù)的覆蓋率。

      通過傾向得分可平衡處理組和對(duì)照組的協(xié)變量,因此,對(duì)協(xié)變量的平衡性檢驗(yàn)可以評(píng)價(jià)傾向得分模型的效果,不同情況下協(xié)變量的標(biāo)準(zhǔn)化均數(shù)差(SMD)的數(shù)值見表2。

      表2 協(xié)變量平衡檢查結(jié)果

      由表2可見,傾向得分法有利于協(xié)變量的平衡;若傾向得分模型中未考慮權(quán)數(shù),在一些情況下會(huì)使協(xié)變量的差異更大,甚至劣于不進(jìn)行傾向得分建模(見情形5);若在傾向得分模型中將權(quán)數(shù)作為協(xié)變量使用,協(xié)變量得到了一定程度的平衡,但在樣本選擇機(jī)制和處理分配機(jī)制較復(fù)雜時(shí)效果一般(見情形3~5);若在傾向得分模型中將權(quán)數(shù)作為樣本單元相對(duì)重要程度的度量,與其他方法相比,協(xié)變量的平衡性最好且效果穩(wěn)定。

      均方誤差根可以綜合評(píng)價(jià)方法的準(zhǔn)確性,出于篇幅考慮僅展示部分結(jié)果,具體數(shù)值見表3。

      表3 估計(jì)量的均方誤差根

      對(duì)比表3不同行的數(shù)據(jù)可知,總體而言,當(dāng)預(yù)測(cè)模型不考慮權(quán)數(shù)時(shí),估計(jì)值的均方誤差根增大,推斷效果變差(對(duì)比1~4行與9~12行)。比較不同預(yù)測(cè)模型自變量對(duì)估計(jì)的影響,當(dāng)自變量是x、t時(shí),估計(jì)值的均方誤差根較小,推斷效果更優(yōu)(對(duì)比1~4行與5~8行),其原因是x、t可以更好地刻畫待研究變量y的特征。當(dāng)合理指定了預(yù)測(cè)模型且加入權(quán)數(shù)時(shí)(對(duì)應(yīng)1~4行),不同傾向得分模型對(duì)均方誤差根的影響不大,雖然不采用傾向得分模型的估計(jì)均方誤差根不大(見1行),但其對(duì)協(xié)變量的平衡效果差,不符合因果推斷的要求,此外,加入權(quán)數(shù)的傾向得分模型表現(xiàn)更穩(wěn)定且相對(duì)更優(yōu)(見4行);當(dāng)預(yù)測(cè)模型的指定有所偏離但加入權(quán)數(shù)時(shí)(對(duì)應(yīng)5~8行),采用加入權(quán)數(shù)的傾向得分模型進(jìn)行估計(jì),得到的估計(jì)標(biāo)準(zhǔn)誤最小,推斷效果最好且表現(xiàn)穩(wěn)定(見8行)。

      表4是估計(jì)量95%置信區(qū)間對(duì)真實(shí)參數(shù)覆蓋率的部分結(jié)果,由于預(yù)測(cè)模型不使用權(quán)數(shù)的方法得到的預(yù)測(cè)準(zhǔn)確度低且穩(wěn)定性差,相關(guān)數(shù)據(jù)未予展示。

      由表4可知,當(dāng)傾向得分模型和預(yù)測(cè)模型均使用權(quán)數(shù)時(shí),95%置信區(qū)間對(duì)真實(shí)參數(shù)的覆蓋率最高,且在不同的樣本選擇機(jī)制和處理分配機(jī)制下表現(xiàn)穩(wěn)定。

      表4 真實(shí)參數(shù)覆蓋率

      (三)總結(jié)評(píng)價(jià)

      模擬研究對(duì)前文的理論分析展開了進(jìn)一步驗(yàn)證,分別將權(quán)數(shù)納入傾向得分模型和預(yù)測(cè)模型,構(gòu)造ATE的雙穩(wěn)健估計(jì)。通過設(shè)置不同情形研究估計(jì)量的性質(zhì),相關(guān)結(jié)論如下:第一,無(wú)論影響樣本選擇機(jī)制的變量與影響處理分配機(jī)制的變量是相互重疊還是彼此獨(dú)立,利用權(quán)數(shù)構(gòu)造的雙穩(wěn)健估計(jì)量均具有高的精確度;第二,當(dāng)傾向得分模型在變量和形式指定上有所偏誤時(shí),設(shè)計(jì)權(quán)數(shù)的加入能夠彌補(bǔ)由此造成的誤差,提高推斷效果;第三,對(duì)于不同來(lái)源的數(shù)據(jù)集,在數(shù)據(jù)融合后所述方法仍然適用且估計(jì)量性質(zhì)穩(wěn)定。

      總體而言,在采用傾向得分法進(jìn)行調(diào)查數(shù)據(jù)的因果推斷時(shí),應(yīng)充分考慮調(diào)查設(shè)計(jì)對(duì)樣本的影響,分別在傾向得分和處理效應(yīng)的估計(jì)中加入權(quán)數(shù),且保留權(quán)數(shù)的原本含義,體現(xiàn)樣本對(duì)總體還原。據(jù)此方法得到的協(xié)變量平衡性最好,估計(jì)量的均方誤差根更小,估計(jì)量更準(zhǔn)確且表現(xiàn)穩(wěn)定。

      五、實(shí)證分析

      本文采用2017年CGSS(China General Social Survey)調(diào)查數(shù)據(jù),進(jìn)行處理效應(yīng)的估計(jì)。CGSS調(diào)查始于2003年,是中國(guó)最早的全國(guó)性、綜合性、連續(xù)性學(xué)術(shù)調(diào)查項(xiàng)目,全面收集了社會(huì)、社區(qū)、家庭、個(gè)人多個(gè)層次的數(shù)據(jù),由中國(guó)人民大學(xué)調(diào)查與數(shù)據(jù)中心組織實(shí)施。調(diào)查的目標(biāo)總體范圍涵蓋了全國(guó)31個(gè)省、自治區(qū)、直轄市(不含港澳臺(tái))的所有城市、農(nóng)村家庭戶,并通過分層三階段抽樣的方式獲取了全國(guó)層面的代表性樣本。

      經(jīng)濟(jì)學(xué)中的人力資本理論將勞動(dòng)者收入差異主要?dú)w結(jié)為勞動(dòng)者人力資本的不同,教育水平是影響人力資本的重要因素。教育可以提高人的知識(shí)和技能,進(jìn)而提高生產(chǎn)能力,增加個(gè)人收入,進(jìn)一步使得個(gè)人工資和薪金結(jié)構(gòu)發(fā)生變化,理論上來(lái)看,受教育程度與個(gè)人年收入之間存在因果關(guān)系[12],這也潛在影響了人口流動(dòng)[13]。因此,實(shí)證部分對(duì)個(gè)人年收入和是否接受高等教育之間的因果關(guān)系進(jìn)行研究。

      選取來(lái)自CGSS調(diào)查的2 000個(gè)樣本,個(gè)人年收入作為待研究變量,估計(jì)總體的平均處理效應(yīng)(ATE),涉及的其他變量有性別、年齡、城鄉(xiāng)劃分、受教育程度、父親受教育程度、母親受教育程度、婚姻狀況、政治面貌和民族等。樣本中個(gè)人年收入的均值為996 930.5元,接受過高等教育的個(gè)人年收入均值為1 106 653元,未接受過高等教育的個(gè)人年收入均值為933 178.6元。傾向得分采用Logistic模型擬合。由于實(shí)證部分的目的并非研究個(gè)人年收入與其他變量的關(guān)系,因此為了對(duì)自變量的選擇和模型形式的指定進(jìn)行探討,假定預(yù)測(cè)模型為線性形式,模型中僅包含協(xié)變量的一次項(xiàng)。

      現(xiàn)估計(jì)教育造成的收入差異,受教育程度按照是否接受過高等教育劃分處理組和對(duì)照組,其他變量作為協(xié)變量,分別采用四種估計(jì)方法檢查協(xié)變量的平衡情況:方法1,不采用傾向得分模型且預(yù)測(cè)模型不加入權(quán)數(shù),直接計(jì)算兩組協(xié)變量的差異;方法2,不采用傾向得分模型但預(yù)測(cè)模型加入權(quán)數(shù);方法3,采用不加入權(quán)數(shù)的傾向得分模型和加入權(quán)數(shù)的預(yù)測(cè)模型;方法4,采用加入權(quán)數(shù)的傾向得分模型和加入權(quán)數(shù)的預(yù)測(cè)模型。8個(gè)協(xié)變量平衡情況的具體結(jié)果見圖1,8條折線分別代表8個(gè)變量對(duì)應(yīng)的標(biāo)準(zhǔn)化均數(shù)差數(shù)值變化情況。

      圖1 協(xié)變量的平衡情況

      由圖1可以看到,整體來(lái)看采用方法4估計(jì)時(shí)處理組和對(duì)照組的協(xié)變量差異最小。四種方法下得到ATE的估計(jì)值及p值分別為46 219.286(p>0.5)、45 700.433(p>0.1)、37 023.474(p<0.001)、36 638.211(p<0.001)??梢钥吹?第一,不采用傾向得分模型會(huì)忽略其他因素對(duì)收入的影響,造成估計(jì)量被高估且不具有顯著性,此時(shí)在預(yù)測(cè)模型建模時(shí)加入權(quán)數(shù)有利于改善估計(jì)效果。第二,在預(yù)測(cè)模型加入權(quán)數(shù)的情況下,傾向得分模型是否加入權(quán)數(shù)對(duì)估計(jì)的影響不大,估計(jì)量均具有高度顯著性,但加入權(quán)數(shù)的傾向得分模型對(duì)協(xié)變量的平衡效果更好,因此有理由認(rèn)為由該方法得到的結(jié)果可信度更高。第三,綜合考慮協(xié)變量的平衡性和估計(jì)量的顯著程度,本例表明應(yīng)同時(shí)在傾向得分模型和預(yù)測(cè)模型中引入權(quán)數(shù)。采用不同方法進(jìn)行因果推斷會(huì)得到不同的結(jié)果,未平衡混雜變量或未合理使用權(quán)數(shù)均會(huì)造成估計(jì)值的偏離,在實(shí)際研究中應(yīng)充分考慮抽樣設(shè)計(jì)對(duì)樣本造成的影響,將權(quán)數(shù)引入推斷的各個(gè)過程。

      六、討論

      基于設(shè)計(jì)和基于模型的推斷各有優(yōu)劣?;谠O(shè)計(jì)的推斷理論完善,但它僅根據(jù)一次抽樣結(jié)果進(jìn)行推斷,受到樣本量、非抽樣誤差和總體分布等因素的影響,估計(jì)效率較低;基于模型的推斷則能根據(jù)實(shí)際情況選用不同模型,更充分地利用各類輔助信息,提高估計(jì)效率,但對(duì)于模型識(shí)別較敏感。實(shí)際抽樣調(diào)查多采用復(fù)雜抽樣,基于模型的推斷在復(fù)雜樣本中具有更重要的現(xiàn)實(shí)價(jià)值,它能更好地利用先驗(yàn)信息和輔助信息,解決如小樣本推斷、小域估計(jì)、誤差分析和缺失值處理等實(shí)際問題,因此具有更廣泛的應(yīng)用前景。

      本研究從因果推斷入手,嘗試將基于設(shè)計(jì)與基于模型推斷結(jié)合,通過引入權(quán)數(shù)提高基于模型推斷的準(zhǔn)確度和穩(wěn)定性,提出了利用權(quán)數(shù)構(gòu)造雙穩(wěn)健估計(jì)的方法。結(jié)合理論分析與模擬研究,指出應(yīng)將設(shè)計(jì)權(quán)數(shù)同時(shí)加入傾向得分模型和預(yù)測(cè)模型中,具體優(yōu)勢(shì)體現(xiàn)在以下幾點(diǎn):第一,在該方法下協(xié)變量的平衡性最好;第二,通過該方法估計(jì)的處理效應(yīng)均方誤差根最小,準(zhǔn)確度最高;第三,該方法效果穩(wěn)定,即使傾向得分模型在變量和形式指定上有所偏誤,該方法仍能得到準(zhǔn)確度高的估計(jì)結(jié)果。實(shí)證部分將所述方法應(yīng)用于收入的推斷中,對(duì)不同方法的估計(jì)效果進(jìn)行了分析,這為其他社會(huì)科學(xué)領(lǐng)域進(jìn)行因果關(guān)系研究提供了參考價(jià)值,具有較大的現(xiàn)實(shí)意義。值得一提的是,對(duì)于不同來(lái)源的數(shù)據(jù)集,在數(shù)據(jù)融合后所述方法仍然可行且推斷效果好,由此拓展了各類調(diào)查數(shù)據(jù)的使用范圍,使得一些科學(xué)研究成為可能。事實(shí)上,不僅是因果推斷,凡是基于調(diào)查數(shù)據(jù)的問題研究,研究者都應(yīng)對(duì)抽樣設(shè)計(jì)的影響予以重視,嘗試將權(quán)數(shù)納入分析。

      兩種推斷途徑的結(jié)合有利于發(fā)揮各自的優(yōu)點(diǎn),既能實(shí)現(xiàn)樣本對(duì)總體還原,又能綜合各方面的信息提高估計(jì)效率,靈活解決各種推斷問題,還能提高估計(jì)的穩(wěn)健性。本文的討論僅以因果推斷為切入點(diǎn),作為此類研究的一個(gè)范例,對(duì)于如何在其他具體問題中將基于設(shè)計(jì)和基于模型相結(jié)合,達(dá)到更好的估計(jì)效果,還存在廣泛的探討空間。

      猜你喜歡
      權(quán)數(shù)估計(jì)量總體
      用樣本估計(jì)總體復(fù)習(xí)點(diǎn)撥
      2020年秋糧收購(gòu)總體進(jìn)度快于上年
      微觀調(diào)查數(shù)據(jù)抽樣權(quán)數(shù)的可忽略性檢驗(yàn)及實(shí)證研究
      豬肉在CPI中的權(quán)數(shù)被調(diào)低了嗎?
      豬肉在CPI中的權(quán)數(shù)被調(diào)低了嗎?
      外匯市場(chǎng)運(yùn)行有望延續(xù)總體平穩(wěn)發(fā)展趨勢(shì)
      權(quán)數(shù)可靠性的假設(shè)檢驗(yàn)探討
      直擊高考中的用樣本估計(jì)總體
      淺談估計(jì)量的優(yōu)良性標(biāo)準(zhǔn)
      基于配網(wǎng)先驗(yàn)信息的諧波狀態(tài)估計(jì)量測(cè)點(diǎn)最優(yōu)配置
      周至县| 景德镇市| 德格县| 芦溪县| 九寨沟县| 黔南| 新闻| 兰西县| 开封市| 方山县| 福建省| 老河口市| 德兴市| 西林县| 日土县| 六安市| 宁蒗| 文山县| 梨树县| 信宜市| 河津市| 伊宁市| 星子县| 万年县| 修武县| 宽甸| 合作市| 龙井市| 灵武市| 永平县| 蕉岭县| 政和县| 泾川县| 青河县| 屯昌县| 山阴县| 通化市| 彩票| 英山县| 喀喇沁旗| 会东县|