適應(yīng)性群團(tuán)抽樣,最早由Thompson提出,針對稀疏總體分布估計(jì)的抽樣方法。適應(yīng)性群團(tuán)抽樣是一種自適應(yīng)抽樣方案,它的工作原理是:當(dāng)一個(gè)初始選擇的抽樣單元的觀測值滿足一定的條件C時(shí),在一些預(yù)定義的伴隨鄰域內(nèi)的其他附加單元也將被添加到樣本中;反過來,如果這些額外的單元滿足C,那么它們的相關(guān)單元鄰域也會(huì)被添加到樣本中,以此類推。當(dāng)沒有遇到滿足C的附加單元時(shí),此過程將停止。本文將介紹ACS的主要發(fā)展和問題。
1 ACS抽樣介紹
在自適應(yīng)抽樣方案下,選擇樣本單位的程序可能取決于在調(diào)查期間所觀察到的有關(guān)變量的值,即抽樣是根據(jù)數(shù)據(jù)“調(diào)整”的?!耙话銇碚f,這意味著如果你在一個(gè)特定的地點(diǎn)找到了你要找的東西,你就在那個(gè)地點(diǎn)附近取樣,希望獲得更多的信息?!蓖ㄟ^此種方法,我們得到一個(gè)個(gè)的網(wǎng)絡(luò),最小的網(wǎng)絡(luò)單元是一階鄰域。一階鄰域由單元本身和共享一個(gè)共同邊界的四個(gè)相鄰單元(表示為北、南、東和西)組成,二階鄰域包含八個(gè)單元,由一階鄰域加上西北、東北、西南和東南單元組成。這兩種鄰域類型適用于滿足C的y趨于聚集且沒有任何特定方向的研究。然而,面向社區(qū)抽樣時(shí),鄰里關(guān)系可以通過單位之間的社會(huì)關(guān)系來定義,從技術(shù)上講,附近的單元不必是物理上相鄰的。ACS適用于:總體是個(gè)體趨于聚集且個(gè)體數(shù)量相對較少的群體。在這些情況下,如果使用經(jīng)典的抽樣設(shè)計(jì)(簡單隨機(jī)抽樣),大多數(shù)測量值將為0,許多群團(tuán)將被遺漏。因此,與估計(jì)總體均值或總體有關(guān)的方差將很大。
ACS現(xiàn)已被廣泛適用于生態(tài)學(xué)、生物學(xué)、流行病學(xué)、環(huán)境科學(xué)、人口統(tǒng)計(jì)學(xué)和地質(zhì)學(xué)ACS還可能適用于由于群集、分散模式和環(huán)境碎片性等因素而具有聚集傾向的動(dòng)植物種群。
2 ACS抽樣設(shè)計(jì)
(1)選擇初始樣本
ACS抽樣的第一步即選擇初始樣本,關(guān)于初始樣本的選擇方法是多種多樣的,包括:簡單隨機(jī)抽樣(有放回和無放回)、條帶抽樣、系統(tǒng)抽樣、分層抽樣、按概率比例大小抽樣和簡單拉丁方抽樣。從成本的角度來看,最后兩個(gè)選擇方法的潛在優(yōu)勢是采樣單元之間的平均距離更小,更容易找到樣方位置。
(2)網(wǎng)絡(luò)數(shù)量和規(guī)模
ACS抽樣方法的基礎(chǔ)是網(wǎng)絡(luò)單元的選取。網(wǎng)絡(luò)的實(shí)際數(shù)量取決于總體的空間結(jié)構(gòu)、臨界值和鄰域單元的設(shè)計(jì)。
① 總體的空間結(jié)構(gòu)
在一項(xiàng)模擬研究中,利用泊松聚類過程的一種變體,以不同的速率k1生成200個(gè)種群。獨(dú)立個(gè)體在不同距離的星系團(tuán)中心呈指數(shù)分布。隨著總數(shù)的增加,網(wǎng)絡(luò)的數(shù)量增加,達(dá)到最大值,然后減少。這是由于超網(wǎng)絡(luò)現(xiàn)象。也就是說,在某一時(shí)刻,當(dāng)k1增加時(shí),相鄰的網(wǎng)絡(luò)開始合并,形成更大的網(wǎng)絡(luò),從而形成更少的總體網(wǎng)絡(luò)。
②臨界值
一個(gè)小的臨界值可以導(dǎo)致更大(數(shù)量更少)的群團(tuán)的形成,而一個(gè)大的臨界值可以導(dǎo)致更?。〝?shù)量更多)的群團(tuán)的形成。因此,臨界值的選擇將取決于抽樣工作是集中于對較大的單個(gè)集群進(jìn)行抽樣,還是集中于對許多較小的群團(tuán)進(jìn)行抽樣,而這些較小的群團(tuán)最終取決于最大的變異源在群團(tuán)內(nèi)部還是群團(tuán)之間。
③ 鄰域單元的設(shè)計(jì)
Chrisman使用三種類型的社區(qū)對幾個(gè)人群的ACS進(jìn)行了研究。結(jié)果是,最有效的ACS設(shè)計(jì)是基于物理上相鄰的單元來利用鄰域。對于所有的總體,網(wǎng)絡(luò)的數(shù)量隨著鄰域定義的大小的減小而增加。小鄰域定義的使用提高了總體臨界值越大(網(wǎng)絡(luò)數(shù)越多)的相對效率,而對于非常低的臨界值(網(wǎng)絡(luò)數(shù)越少),相對效率越小。
(3)估計(jì)量的選擇
① Hansen-Hurwitz估計(jì)量
② Horvitz-Thompson估計(jì)量
(4)額外抽樣的標(biāo)準(zhǔn)
在某些調(diào)查情況下,條件的選擇可能很難或不可能確定。也許研究者還想尋找y的高值。在這種情況下,可以根據(jù)觀察到的樣本值,根據(jù)樣本順序統(tǒng)計(jì)量來確定額外抽樣的標(biāo)準(zhǔn)。
3 ACS抽樣方法的發(fā)展
(1)兩階段適應(yīng)性群團(tuán)抽樣
關(guān)于自適應(yīng)群團(tuán)抽樣方法的一種發(fā)展是采用兩階段設(shè)計(jì)方法,提出的目的是為了避免使用邊緣單元,具體方法是:主要抽樣單元被選擇,并根據(jù)預(yù)設(shè)條件的值,對整個(gè)主要單元進(jìn)行調(diào)查;在下一步中,如果滿足第二個(gè)條件,則選擇周圍的主樣本單元。
(2)逆自適應(yīng)群團(tuán)抽樣
逆自適應(yīng)群團(tuán)抽樣方法中預(yù)先規(guī)定最初抽樣單元數(shù)中非零觀察值的樣本數(shù)量,直至抽到滿足的樣本數(shù)量,則最初形成的網(wǎng)絡(luò)數(shù)小于等于最初的單元數(shù)。
參考文獻(xiàn)
[1] Steven K. Thompson. Adaptive Cluster Sampling[J]. Publications of the American Statistical Association,1990,85(412):1050-1059.
作者簡介:郭歡萍(1994-)山西晉中人,研究方向:非概率抽樣。