張維群,尤靖琛
(西安財(cái)經(jīng)大學(xué) 統(tǒng)計(jì)學(xué)院,陜西 西安 710100)
空間抽樣方法廣泛應(yīng)用于農(nóng)業(yè)、人口和自然資源等領(lǐng)域的總體推斷中,通常將研究區(qū)域按照特定方式劃分成互不重疊的面積單元,形成區(qū)域抽樣框[1]8-9,并采用一定的抽樣方法抽取具有代表性的樣本單元,利用樣本信息實(shí)現(xiàn)對(duì)總體特征的推斷。由于區(qū)域劃分方式可變,所形成的不同抽樣框中樣本的代表性有所差異,因此,空間抽樣調(diào)查結(jié)果往往受到樣本單元尺寸和形狀的影響。而實(shí)際應(yīng)用中,單元尺寸的設(shè)計(jì)一般采用經(jīng)驗(yàn)方法予以確定,由于區(qū)域抽樣框的尺度效應(yīng),不同單元尺寸抽樣框的抽樣估計(jì)精度和調(diào)查成本也有所不同,科學(xué)地設(shè)計(jì)抽樣單元尺寸對(duì)于提高空間抽樣估計(jì)精度和節(jié)約調(diào)查成本均具有現(xiàn)實(shí)意義。
目前,文獻(xiàn)對(duì)于單元尺寸確定問題的理論研究存在一些探索性的思想,給出了確定單元尺寸的思路,但并未形成科學(xué)的理論體系。在空間抽樣實(shí)踐中,人們首先發(fā)現(xiàn)了抽樣框的尺度效應(yīng),認(rèn)為抽樣框中單元的尺寸影響著抽樣估計(jì)精度,González通過對(duì)單元尺寸和估計(jì)量方差進(jìn)行相關(guān)分析,提出了優(yōu)化單元尺寸的思想[2];與此同時(shí),Carfagna和Gallgeo通過對(duì)單元尺寸與方差間的相關(guān)關(guān)系圖分析,給出了優(yōu)化單元尺寸的思路[3];在空間抽樣的實(shí)踐中,張錦水等在對(duì)冬小麥種植面積空間分層抽樣效率的影響因素分析中,也發(fā)現(xiàn)方差的大小與單元尺寸有著明顯的相關(guān)關(guān)系,并且伴隨著網(wǎng)格尺寸的增大,抽樣方差也會(huì)增大[4]。以上文獻(xiàn)考慮了抽樣單元尺寸對(duì)總體估計(jì)有效性的影響,提出了優(yōu)化空間單元尺寸的思想,但沒有給出精確確定單元尺寸的數(shù)理方法,使得所確定的單元尺寸對(duì)于提高總體推斷精度的效果有限。從尺度效應(yīng)的內(nèi)容來看,空間抽樣單元尺寸不僅影響著總體估計(jì)量方差,還影響著抽樣成本與樣本容量等方面。王迪等利用空間自相關(guān)系數(shù)與抽樣單元尺寸的關(guān)系進(jìn)行單元尺寸初選,并且以相對(duì)誤差、變異系數(shù)和樣本容量為抽樣效率評(píng)價(jià)指標(biāo),通過定量分析不同單元尺寸的抽樣效率,實(shí)現(xiàn)對(duì)抽樣單元尺寸的優(yōu)選[5]。有關(guān)文獻(xiàn)對(duì)于確定空間抽樣最優(yōu)單元尺寸的思路不盡相同,歸納起來有以下幾方面的思想:基于遙感影像分辨率確定單元尺寸的最小下限;從調(diào)查成本角度給出單元尺寸的最大上限;基于空間分層抽樣識(shí)別性考慮的單元尺寸不超過最小層面積的思想;基于空間單元獨(dú)立性要求的單元尺寸確定方法。但是,文獻(xiàn)對(duì)于單元尺寸如何影響調(diào)查成本并未討論。此外,目前的文獻(xiàn)通常是在指定一部分單元尺寸中選擇最優(yōu),并非是單元尺寸全部定義域內(nèi)的全局最優(yōu)尺寸,缺乏單元尺寸確定方法的科學(xué)設(shè)計(jì)。因此,本文擬從單元尺寸對(duì)估計(jì)精度和調(diào)查成本影響入手,提出一種確定最優(yōu)單元尺寸的方法,使得空間抽樣方案中單元尺寸設(shè)計(jì)具有一定的科學(xué)性。
本文通過分析單元尺寸對(duì)調(diào)查成本和估計(jì)精度的影響,構(gòu)造空間抽樣的成本函數(shù)和樣本方差統(tǒng)計(jì)量;結(jié)合單元標(biāo)志值及其地理信息擬合標(biāo)志值函數(shù),構(gòu)建成本約束下使樣本方差達(dá)到最小的目標(biāo)函數(shù),以此確定最優(yōu)的抽樣單元尺寸;同時(shí)對(duì)目標(biāo)總體進(jìn)行估計(jì),據(jù)此討論最優(yōu)單元尺寸確定方法的優(yōu)良性。
在空間抽樣問題研究中,將研究區(qū)域劃分為“不重不漏”的抽樣單元,以形成空間抽樣調(diào)查區(qū)域抽樣框。研究區(qū)域可被劃分成規(guī)則的格子或柵格,也可以分為不規(guī)則的抽樣單元,為了方便抽樣設(shè)計(jì)過程,增加實(shí)際調(diào)查可操作性,通常劃分調(diào)查區(qū)域形成面積相等的正方形網(wǎng)格抽樣框進(jìn)行抽樣。
在傳統(tǒng)的抽樣調(diào)查中,調(diào)查成本通常分為固定成本和可變成本兩部分。固定成本是指組織實(shí)施一次調(diào)查必須花費(fèi)且固定不變的成本,包括調(diào)查方案設(shè)計(jì)、人員的培訓(xùn)等方面的費(fèi)用??勺兂杀臼请S著樣本容量的大小而改變的成本,包括調(diào)查資料準(zhǔn)備、調(diào)查者勞動(dòng)報(bào)酬等方面的費(fèi)用。傳統(tǒng)抽樣調(diào)查的成本函數(shù)定義為:
C=C0+nC1
其中,第一項(xiàng)C0是固定成本部分;第二項(xiàng)為可變成本部分,C1是調(diào)查的單位成本,n是抽樣調(diào)查的樣本量。
謝邦昌認(rèn)為,抽樣調(diào)查的成本可以看作是樣本量n、抽樣單位大小x、抽樣概率p和調(diào)查范圍s的一個(gè)函數(shù),即:
C=f(n,x,p,s)
成本常隨著樣本大小與調(diào)查范圍的增大而增大;而樣本內(nèi)基本單位個(gè)數(shù)相同時(shí)又隨著抽樣單位的增大而縮小[6]24-25。
與傳統(tǒng)抽樣的成本函數(shù)相比,空間調(diào)查成本除了受到樣本量的影響外,還有抽樣單位大小x和調(diào)查范圍s的影響??臻g抽樣中,抽樣單位是地理空間上區(qū)域網(wǎng)格抽樣框的每一小格,顯而易見,當(dāng)格子單元的尺寸增大時(shí),抽樣單位大小x隨之增大,在其它因素不變的情況下樣本區(qū)域的調(diào)查成本將有所提高;調(diào)查范圍s對(duì)成本的影響主要體現(xiàn)在樣本分布的疏密程度上,其它影響因素不變時(shí),調(diào)查范圍越大,樣本在空間上分布越松散,在各樣本點(diǎn)之間轉(zhuǎn)移時(shí)所形成的交通成本也越高。
基于樣本量、抽樣單位大小和調(diào)查范圍對(duì)空間抽樣調(diào)查成本的作用機(jī)理,以及平均最近鄰距離理論,構(gòu)建空間簡單隨機(jī)抽樣的成本函數(shù)為:
(1)
其中,C0是固定成本;C1是單位交通成本;a是空間區(qū)域抽樣框的單元面積,na是調(diào)查的總面積;C2是調(diào)查的單位面積成本。
傳統(tǒng)的抽樣調(diào)查中,由于標(biāo)志值大的單位對(duì)總體總量的影響比標(biāo)志值小的單位大得多,因此使標(biāo)志值大的單位具有較大的入樣概率,此時(shí)所采用的不等概率抽樣比采用相同概率抽樣得到的估計(jì)更有效[8]。在不等概率抽樣法中,比例抽樣法以其實(shí)施方便、數(shù)據(jù)處理簡單的特點(diǎn),廣泛應(yīng)用于實(shí)際抽樣調(diào)查[9]。使用比例抽樣法時(shí),樣本大小的度量常與研究標(biāo)志的某個(gè)輔助變量的值有關(guān),單位被抽取的概率與輔助變量的大小成比例,如短時(shí)間內(nèi)地區(qū)的勞動(dòng)力、資本等生產(chǎn)要素不會(huì)發(fā)生大的變化,所以可以將某一時(shí)期的地區(qū)生產(chǎn)總值作為下一期經(jīng)濟(jì)抽樣調(diào)查的參考。一般情況下,空間單元的標(biāo)志值與其單元面積呈現(xiàn)正向關(guān)系,單元面積大的抽樣框中各單元標(biāo)志值的水平整體比小尺寸抽樣框的標(biāo)志值高,抽樣估計(jì)時(shí),不同尺寸單元的標(biāo)志值對(duì)于目標(biāo)總體的影響不盡相同。因此,遵循不等概率抽樣中“標(biāo)志值大的單位具有較大入樣概率”的思想,將空間單元面積的大小作為輔助指標(biāo),以衡量單元指標(biāo)值對(duì)總體總量的影響,采用放回抽樣法進(jìn)行抽樣,則有總體總量的無偏估計(jì)量為:
(2)
(3)
遵循傳統(tǒng)抽樣理論中“控制成本,使方差達(dá)到最小”的最優(yōu)決策思想,為了使方差盡可能小,從式(3)中可以看出,當(dāng)單元面積為a時(shí),增加樣本量n能夠有效降低總體估計(jì)量的方差,但由于調(diào)查經(jīng)費(fèi)的限制,樣本量不可能無限增大。當(dāng)成本固定為CT時(shí),樣本量n隨抽樣單元面積a的變化而改變,記可變成本為Cv=CT-C0,由式(1)可得樣本量:
(4)
顯然,式(4)表明樣本單元尺寸大小也影響著樣本量的大小,故取給定預(yù)算下的最大樣本量用以估計(jì)總體,此時(shí)的總體總值估計(jì)量即為抽樣單元面積為a時(shí)的有效估計(jì)。
當(dāng)單元尺寸較大時(shí),各個(gè)面積單元內(nèi)總量指標(biāo)值較大,同時(shí)由于空間單元的異質(zhì)性特征,即使面積相同的單元,在不同地理位置上所表現(xiàn)的觀測值也不同,因此面積抽樣框中各單元的標(biāo)志值Yi可以用關(guān)于經(jīng)度值Z1、緯度值Z2和單元尺寸(面積)a的函數(shù)來表示,即Yi=Y(Z1,i,Z2,i,a),結(jié)合式(4),得樣本方差:
(5)
當(dāng)總成本控制為CT時(shí),單元尺寸a的變化會(huì)引起抽樣樣本方差的變化。樣本方差值較小時(shí),在一次抽樣中估計(jì)值落在總體真值附近的概率較大,此時(shí)估計(jì)的精度也就越高。因此,固定總成本時(shí)使樣本方差達(dá)到最小值的抽樣單元尺寸即為成本約束下最優(yōu)單元尺寸。對(duì)式(5)關(guān)于a求偏導(dǎo),令導(dǎo)函數(shù)等于零,有:
(6)
由于面積抽樣框中各單元的值yi是關(guān)于其經(jīng)度值Z1、緯度值Z2和單元尺寸(面積)a的函數(shù),即Yi=Y(Z1,i,Z2,i,a)。假設(shè)Yi=Y(Z1,i,Z2,i,a)是關(guān)于各參數(shù)連續(xù)可導(dǎo)的函數(shù),通過泰勒展開可表示為一個(gè)無限多項(xiàng)式,不妨令Yi=Y(Z1,i,Z2,i,a)近似為二次多項(xiàng)式:
(7)
(8)
(9)
生產(chǎn)要素的空間分布往往呈現(xiàn)不均衡的特性[10]。經(jīng)濟(jì)活動(dòng)的本質(zhì)是追求利潤的最大化,這驅(qū)使了生產(chǎn)要素和經(jīng)濟(jì)活動(dòng)在地理空間上的流動(dòng)。生產(chǎn)要素的流動(dòng)造成了不同地區(qū)經(jīng)濟(jì)活動(dòng)的空間關(guān)聯(lián),即空間維度上的交互作用[11]。它是區(qū)域經(jīng)濟(jì)發(fā)展的重要影響因素,從經(jīng)濟(jì)學(xué)角度出發(fā),人們更傾向于將這種交互作用稱為空間溢出效應(yīng)[12]。經(jīng)濟(jì)學(xué)研究中,通常將行政區(qū)劃作為研究的基本單元[13-17]。假定在單元內(nèi)的生產(chǎn)要素是同質(zhì)的,然而實(shí)際情況并非如此,即使在同一行政區(qū)域內(nèi),不同地區(qū)的生產(chǎn)要素結(jié)構(gòu)也有所差異。一般來說,距離近的地區(qū)生產(chǎn)要素結(jié)構(gòu)具有較強(qiáng)的相似性,這種相似性隨著距離的增大逐漸減小。如果以行政區(qū)劃作為研究的基本單元,往往會(huì)將相似度高的區(qū)域劃分到不同的單元內(nèi),影響經(jīng)濟(jì)問題的分析。此時(shí),若基于以規(guī)則網(wǎng)格劃分地理區(qū)域形成的基本單元進(jìn)行研究,可以很大限度上保證單元內(nèi)生產(chǎn)要素的同質(zhì)性,有利于準(zhǔn)確分析經(jīng)濟(jì)學(xué)機(jī)理。
本文數(shù)據(jù)源于2015年陜西省107個(gè)區(qū)縣的地區(qū)GDP,總體總量為17 687.84億元。用ArcGIS處理地圖時(shí),以陜西最南緯度線與最西經(jīng)度線的交點(diǎn)為坐標(biāo)原點(diǎn),建立抽樣方案設(shè)計(jì)的坐標(biāo)系,此時(shí)坐標(biāo)原點(diǎn)對(duì)應(yīng)基礎(chǔ)坐標(biāo)系點(diǎn)(264.89,3 510.20),單位為千米,即U=264.89km,V=3 510.20km。由于陜西省的行政區(qū)劃并非規(guī)則的正方形網(wǎng)格,往往存在一個(gè)抽樣單元橫跨多個(gè)區(qū)縣或者一區(qū)縣被分為多個(gè)抽樣單元的情況,此時(shí)該區(qū)縣的地區(qū)生產(chǎn)總值并不等同于這一個(gè)或多個(gè)抽樣單元的觀測值。因此,對(duì)于每一個(gè)抽樣單元,以其覆蓋的各區(qū)縣面積占該區(qū)縣的總面積為權(quán)重,定義多個(gè)區(qū)縣地區(qū)生產(chǎn)總值的加權(quán)平均數(shù)為此抽樣單元的標(biāo)志值,表示為:
(10)
其中,Yi抽樣單元包含了k個(gè)區(qū)縣的區(qū)域,sj為該抽樣單元中第j個(gè)區(qū)縣所占的面積,Sj為第j個(gè)區(qū)縣的總面積,GDPj為第j個(gè)區(qū)縣的GDP值。以20×20km2的正方形網(wǎng)格抽樣框?yàn)槔?,抽樣單元?shù)據(jù)分布如圖1。
圖1顯示,就地區(qū)生產(chǎn)總值的整體水平而言,關(guān)中地區(qū)的地區(qū)生產(chǎn)總值最高,陜北地區(qū)次之,陜南地區(qū)的地區(qū)生產(chǎn)總值最低。就地區(qū)生產(chǎn)總值的空間格局來看,陜西省各個(gè)城市市轄區(qū)的地區(qū)生產(chǎn)總值較高,抽樣單元GDP隨著與各市轄區(qū)的距離增大呈逐漸減小的趨勢,說明陜西省各市轄區(qū)的經(jīng)濟(jì)發(fā)展對(duì)其周邊地區(qū)的經(jīng)濟(jì)有一定的帶動(dòng)作用。
圖1 2015年陜西省地區(qū)生產(chǎn)總值空間分布圖
在陜西省地圖的基礎(chǔ)上,用大小相等、整齊排列的正方形網(wǎng)格分割地圖以形成區(qū)域抽樣框,其中的單元面積從25km2至2 700km2,共形成50個(gè)水平的抽樣框。根據(jù)式(10)定義每種水平區(qū)域抽樣框中各抽樣單元的指標(biāo)值,并記錄每一個(gè)抽樣單元的中心經(jīng)度值、中心緯度值和單元面積,擬合得標(biāo)志值函數(shù):
(11)
式(11)顯示各樣本單元的標(biāo)志值隨著緯度的升高和單元尺寸的擴(kuò)大呈增大的趨勢。根據(jù)式(8)、式(9),得到:
(12)
(13)
不妨令總成本CT為10 000,固定成本C0為500,單位交通成本C1為2,單位面積成本C2為1。若總成本只能夠調(diào)查一個(gè)樣本,得maxa=9 046km2。將各成本參數(shù)代入成本約束下確定最優(yōu)單元尺寸關(guān)系式(6),結(jié)合式(12)、式(13),解得最優(yōu)抽樣單元尺寸a=220.851 1km2(如圖2);根據(jù)式(4),有樣本量ns=31。
圖2 總體總值樣本方差關(guān)于抽樣單元尺寸的偏導(dǎo)函數(shù)圖
為了避免地圖制圖誤差對(duì)抽樣效率的影響,在最優(yōu)單元尺寸面積的基礎(chǔ)上分別加減30km2和60km2,以新的單元尺寸劃分陜西省2015年地區(qū)生產(chǎn)總值,以形成新的區(qū)域抽樣框。在成本約束下,分別計(jì)算基于各面積抽樣框的成本、樣本量、總體總值估計(jì)量、相對(duì)標(biāo)準(zhǔn)誤及其方差,結(jié)果如表1。
表1顯示,在相同的成本約束下,基于最優(yōu)單元尺寸220.8511km2所構(gòu)建的空間區(qū)域抽樣框?qū)τ陉兾魇〉貐^(qū)生產(chǎn)總值的估計(jì)精度明顯高于非最優(yōu)單元尺寸的抽樣框。同時(shí)可以看出,由于空間抽樣調(diào)查的總成本限制,隨著抽樣單元尺寸的擴(kuò)大,樣本量逐漸減小,導(dǎo)致在各樣本間轉(zhuǎn)移所花費(fèi)的交通成本減小,但調(diào)查的面積成本有所增加。
表1 最優(yōu)單元尺寸與其他尺寸下空間抽樣效率對(duì)比
將陜西省地圖數(shù)據(jù)劃分為面積為220.851 1km2的正方形網(wǎng)格,形成面積抽樣框(共1 078個(gè)單元)。為了評(píng)價(jià)最優(yōu)單元尺寸下空間簡單隨機(jī)抽樣的效率,以各區(qū)縣的緯度值為主關(guān)鍵字按升序排列、以經(jīng)度值為次關(guān)鍵字按升序排列,對(duì)陜西省107個(gè)區(qū)縣進(jìn)行編號(hào),以形成傳統(tǒng)簡單隨機(jī)抽樣的抽樣框。取各區(qū)縣面積的均值帶入式(4)計(jì)算得成本控制下傳統(tǒng)簡單隨機(jī)抽樣的樣本量n0=4。分別對(duì)兩種抽樣框下的總體總值、相對(duì)標(biāo)準(zhǔn)誤及其樣本方差進(jìn)行估計(jì),結(jié)果如表2。
表2 最優(yōu)單元尺寸下空間抽樣與傳統(tǒng)簡單隨機(jī)抽樣效率對(duì)比
注:平均面積比為調(diào)查面積占全省總面積的比例。
表2顯示,在成本約束下,基于最優(yōu)單元尺寸的空間簡單隨機(jī)抽樣總體總值的估計(jì)量相比于傳統(tǒng)簡單隨機(jī)抽樣更接近于真實(shí)值17 687.7億元,估計(jì)量的方差也遠(yuǎn)小于傳統(tǒng)抽樣下估計(jì)量的方差,說明最優(yōu)單元尺寸下空間簡單隨機(jī)抽樣具有有效性。傳統(tǒng)簡單隨機(jī)抽樣用各區(qū)縣面積的均值進(jìn)行抽樣設(shè)計(jì),但由于各區(qū)縣面積差異較大,在實(shí)際調(diào)查中很難準(zhǔn)確控制總成本,因此會(huì)出現(xiàn)實(shí)際調(diào)查費(fèi)用超出預(yù)算成本的情況;而空間簡單隨機(jī)抽樣每一抽樣單元的面積相同,可以有效地將總成本控制在一定范圍內(nèi),從而體現(xiàn)空間抽樣方案設(shè)計(jì)的經(jīng)濟(jì)性。若不控制調(diào)查的總成本,取相同的樣本量時(shí),空間簡單隨機(jī)抽樣的估計(jì)精度仍高于傳統(tǒng)簡單隨機(jī)抽樣,且調(diào)查的總成本遠(yuǎn)小于傳統(tǒng)抽樣方式。實(shí)際調(diào)查中,空間抽樣調(diào)查的面積小于傳統(tǒng)抽樣下的調(diào)查面積。綜上所述,在成本約束下,相比于傳統(tǒng)簡單隨機(jī)抽樣,空間抽樣以較小的調(diào)查面積,可達(dá)到較高的估計(jì)精度,其抽樣效率遠(yuǎn)高于傳統(tǒng)的簡單隨機(jī)抽樣。
本文研究了一種基于空間區(qū)域抽樣框的最優(yōu)單元尺寸確定方法,并且運(yùn)用到實(shí)踐中驗(yàn)證其抽樣效果,將調(diào)查單元的地理信息以自變量的形式加入到標(biāo)志值函數(shù)中,體現(xiàn)了數(shù)據(jù)的空間特性,準(zhǔn)確量化了地理信息對(duì)于個(gè)體影響的程度和方向;考慮空間抽樣調(diào)查的特性,構(gòu)造了基于單元尺寸、調(diào)查距離和調(diào)查面積等因素影響的空間抽樣調(diào)查成本函數(shù);分析空間單元尺寸對(duì)于抽樣調(diào)查的估計(jì)精度和調(diào)查成本的影響,提出了成本約束下確定最優(yōu)單元尺寸的方法,對(duì)于提高空間抽樣估計(jì)精度具有現(xiàn)實(shí)意義,對(duì)空間抽樣理論進(jìn)行了補(bǔ)充。
本文研究了成本約束下空間抽樣最優(yōu)單元尺寸的確定問題,為空間調(diào)查方案設(shè)計(jì)中如何劃分網(wǎng)格區(qū)域抽樣框提供了一定參考。本文成本函數(shù)的各項(xiàng)參數(shù)均是主觀指定,成本函數(shù)假定各抽樣單元的調(diào)查成本和交通成本相同,但現(xiàn)實(shí)中調(diào)查和交通成本往往受到地理環(huán)境、氣候條件等多個(gè)因素的影響,其理論研究與實(shí)踐應(yīng)用存在著偏差??紤]多種因素的影響,重構(gòu)成本函數(shù),進(jìn)而確定最優(yōu)的單元尺寸,以及考慮多目標(biāo)變量時(shí)空間抽樣單元尺寸的確定等問題,需要以后進(jìn)一步研究。