孫海泉肖革新郭 瑩于石成△馬家奇△
流行病生態(tài)學(xué)研究的統(tǒng)計(jì)分析方法*
孫海泉1肖革新2郭 瑩3于石成1△馬家奇1△
1.一般情況
流行病學(xué)生態(tài)學(xué)研究(ecological study of epidemiology)[1]是一種描述性研究,它是在群體水平上研究某種暴露因素與疾病之間的關(guān)系,以群體為觀察和分析單位,通過描述不同人群中某因素的暴露情況與疾病發(fā)生或死亡頻率,分析該暴露因素與疾病之間的關(guān)系。
流行病學(xué)生態(tài)學(xué)研究可應(yīng)用常規(guī)資料或現(xiàn)成資料(如數(shù)據(jù)庫)來進(jìn)行研究,因而節(jié)省時間、人力和物力,可以很快得到結(jié)果。生態(tài)學(xué)研究對病因未明的疾病可提供病因線索,以進(jìn)行深入研究,這是生態(tài)學(xué)研究最顯著的優(yōu)點(diǎn)。當(dāng)研究的暴露因素在一個人群中變異程度很小,很難測量其與疾病的關(guān)系,這種情況下,更適合采用多個人群比較的生態(tài)學(xué)研究。在疾病監(jiān)測工作中,可應(yīng)用生態(tài)學(xué)研究來估計(jì)監(jiān)測疾病的發(fā)展趨勢,為制定疾病預(yù)防與控制的策略和措施提供依據(jù)。
流行病學(xué)生態(tài)學(xué)研究最主要的缺點(diǎn)是生態(tài)學(xué)謬誤,它是由于生態(tài)學(xué)研究以各個不同情況的個體“集合”而成的群體為觀察和分析單位,以及存在的混雜因素等原因而造成研究結(jié)果與真實(shí)情況不符。生態(tài)學(xué)研究在進(jìn)行兩變量之間的相關(guān)或回歸分析時采用的觀察單位為群體,暴露水平或疾病測量準(zhǔn)確性相對較低,且暴露或疾病因素是非時間趨勢設(shè)計(jì)的,其時序關(guān)系不易確定,故其研究結(jié)果不可作為因果關(guān)系的有力證據(jù)[2]。
2.生態(tài)學(xué)研究發(fā)展概況
生態(tài)學(xué)(ecology)是研究有機(jī)體與其周圍環(huán)境相互關(guān)系的科學(xué)[3]。環(huán)境包括非生物和生物環(huán)境,前者如溫度、可利用水、風(fēng)等,而后者包括同種或異種其他有機(jī)體。當(dāng)代生態(tài)學(xué)研究把人類社會與自然環(huán)境的關(guān)系包括在其研究范疇之內(nèi),用社會-經(jīng)濟(jì)-自然復(fù)合生態(tài)系統(tǒng)的觀點(diǎn),研究社會面臨的問題,愈來愈注意與群體相結(jié)合,與社會發(fā)展和生產(chǎn)實(shí)際的需要相結(jié)合,并成為政府的決策和行動的基礎(chǔ)。生態(tài)學(xué)研究在如下幾方面的進(jìn)展值得我們注意。
(1)研究設(shè)施和手段的現(xiàn)代化
生態(tài)學(xué)研究的手段正在發(fā)生新的變化,除了用一些能準(zhǔn)確地獲取信息的手段,如遙感、地理信息系統(tǒng)、全球定位系統(tǒng)(3S系統(tǒng)),連續(xù)、精密觀測儀器的使用外,還強(qiáng)調(diào)應(yīng)用模擬和模型方法來研究大尺度、多因素的大系統(tǒng)。
(2)研究平臺從分散走向網(wǎng)絡(luò)
由于研究對象和任務(wù)的變化,生態(tài)學(xué)的研究是在相對孤立的局部地區(qū)研究的基礎(chǔ)上逐步向著區(qū)域化和全球化發(fā)展并形成網(wǎng)絡(luò)進(jìn)行綜合與對比的。我國在經(jīng)過SARS之后,已經(jīng)在全國范圍建立了良好的疾病控制信息系統(tǒng)。這對疾病生態(tài)學(xué)研究有很大的實(shí)質(zhì)性意義。近幾年,我國學(xué)者通過研究發(fā)現(xiàn)了SARS的爆發(fā)與野生動物的販賣以及當(dāng)?shù)匚幕c人類流動之間的相互關(guān)系。由證據(jù)分析得到SARS可能是從廣東以野生動物為賣點(diǎn)的餐廳中的果子貍上傳播來的[4]。
(3)學(xué)科發(fā)展與融合
生態(tài)學(xué)的研究是在相對孤立的局部地區(qū)研究的基礎(chǔ)上逐步向著區(qū)域化和全球化發(fā)展并形成網(wǎng)絡(luò)進(jìn)行綜合與對比的。在此過程中,與數(shù)學(xué)、化學(xué)、物理、流行病學(xué)等基礎(chǔ)學(xué)科交叉促進(jìn)了數(shù)學(xué)生態(tài)、化學(xué)生態(tài)、物理生態(tài)及疾病生態(tài)學(xué)的發(fā)展,近幾年,疾病生態(tài)學(xué)研究在艾滋病的研究中廣泛利用,而且還取得大量的成果。國外學(xué)者也出版了疾病生態(tài)學(xué)研究的專著。另據(jù)科學(xué)時報2006年11月6日報道“據(jù)美國國務(wù)院國際信息局消息,美國國家衛(wèi)生院(NIH)10月27日宣布,美國國家科學(xué)基金會(NSF)和NIH將聯(lián)合資助8個屬于感染性疾病生態(tài)學(xué)研究計(jì)劃的項(xiàng)目”[5]。從而可以看出,盡管生態(tài)學(xué)研究有其局限性,但就其應(yīng)用已有的監(jiān)測數(shù)據(jù)和與現(xiàn)代統(tǒng)計(jì)方法、空間統(tǒng)計(jì)方法的結(jié)合,生態(tài)學(xué)研究在研究疾病危險因素或病因上將起到更重要的作用。
生態(tài)學(xué)研究分析的數(shù)據(jù)總量通常比較大,數(shù)據(jù)分析處理的方式也比較多。統(tǒng)計(jì)分析方法主要包括傳統(tǒng)的統(tǒng)計(jì)分析方法和空間統(tǒng)計(jì)分析方法。
1.傳統(tǒng)的統(tǒng)計(jì)分析方法
(1)單因素分析
生態(tài)學(xué)研究其分析單位為群體,如區(qū)縣、市或?。ㄖ陛犑校?,在群體水平上收集或監(jiān)測發(fā)病、患病和死亡,以及危險因素等資料,如空氣污染指標(biāo)、氣象指標(biāo)和社會經(jīng)濟(jì)發(fā)展指標(biāo),構(gòu)建疾病與危險因素的關(guān)聯(lián)關(guān)系。常用的單因素分析有t檢驗(yàn)、F檢驗(yàn)[6]、Mann-Whitney檢驗(yàn)[7]和相關(guān)分析等。黎新宇等[8]在北京市氣象因素與霍亂發(fā)病關(guān)系的生態(tài)學(xué)研究中,對北京市1996-2004年各月平均氣溫、氣壓、風(fēng)速、日照時數(shù)、降水量5項(xiàng)氣象因素與霍亂平均月發(fā)病率分別做單因素相關(guān)分析,結(jié)果表明:霍亂發(fā)病與氣溫、降水量均呈顯著正相關(guān)(P<0.01);與氣壓呈顯著負(fù)相關(guān)(P<0.05);與風(fēng)速呈負(fù)相關(guān)。
(2)多因素分析
①.對應(yīng)分析(correspondence analysis) 對應(yīng)分析又稱相應(yīng)分析,主要用于分析二維數(shù)據(jù)矩陣中行因素和列因素間的關(guān)系。對應(yīng)分析的基本原理是:對二維數(shù)據(jù)矩陣進(jìn)行適當(dāng)?shù)淖儞Q(即對應(yīng)變換),使變換后的數(shù)據(jù)的行與列是相對應(yīng)的,從而可以同時對行和列進(jìn)行分析,以便發(fā)現(xiàn)行列因素間的關(guān)系。實(shí)際上它是將R-型因子分析與Q-型因子分析相結(jié)合,對指標(biāo)與樣品同時進(jìn)行分類的一種多元統(tǒng)計(jì)分析方法。李寶紅等[9]通過對1982年部分城市男性居民胃癌組死亡率與對應(yīng)這些城市男性居民的部分食品攝入量之間進(jìn)行對應(yīng)分析,發(fā)現(xiàn)人們的飲食,特別是南方飲食習(xí)慣的男性居民,應(yīng)適當(dāng)減少米類特別是精制米類的攝入,而增加面類、植物油的攝入,多吃清淡的食物,減少食鹽的攝人量,從膳食角度預(yù)防胃癌的發(fā)生,降低胃癌的死亡率。
②.回歸分析(regression analysis) 回歸分析是處理2個及2個以上變量間線性依存關(guān)系的統(tǒng)計(jì)方法。其中,2個及2個以上自變量對1個因變量的數(shù)量變化關(guān)系,稱為多重線性回歸分析,表現(xiàn)這一數(shù)量關(guān)系的數(shù)學(xué)公式,稱為多重線性回歸模型。多重線性回歸的解釋變量x1,x2,…,xp是確定性變量時,較為普遍,一般用于預(yù)測研究;當(dāng)解釋變量為隨機(jī)變量時,一般用于變量之間關(guān)系的探索性研究。尤愛國等[10]在氣象因素與發(fā)熱伴血小板減少綜合征(FTLS)發(fā)病關(guān)系的生態(tài)學(xué)研究中,通過對發(fā)熱伴血小板減少綜合征有影響的因素(氣壓、溫度、濕度、風(fēng)速等)采用逐步回歸法篩選,結(jié)果表明,氣溫對FTLS發(fā)病有重要影響。揚(yáng)進(jìn)等[11]采用Poisson回歸分析對傷寒Vi多糖菌苗接種率與甲型副傷寒爆發(fā)的關(guān)系進(jìn)行生態(tài)學(xué)研究,結(jié)果表明,甲型副傷寒爆發(fā)只與Vi疫苗接種率有顯著的正相關(guān)關(guān)系,而與Vi疫苗使用時間無相互關(guān)聯(lián)。
③.主成分分析(principal components analysis, PCA)主成分分析是將多個變量通過線性變換,選出較少個數(shù)的重要變量,以達(dá)到壓縮變量的一種方法。又稱主分量分析。它首先是由Karl Pearson從非隨機(jī)變量引入的,爾后H霍林特將此方法推廣到隨機(jī)向量的情形。在生態(tài)學(xué)研究中,為了全面分析問題,往往提出很多相關(guān)的變量(或因素)。但是,在用統(tǒng)計(jì)分析方法研究多變量的問題時,變量個數(shù)太多就會增加所研究問題的復(fù)雜性。另外,變量之間是有一定的相關(guān)性,當(dāng)兩個變量之間有一定相關(guān)關(guān)系時,可以解釋為這兩個變量反映某個問題的信息有一定的重疊。主成分分析是對于原先提出的所有變量,建立盡可能少的新變量,使得這些變量在反映問題的信息方面盡可能保持原有的信息。劉桂然等[12]應(yīng)用主成分分析對高血壓病患者左心房收縮功能影響因素進(jìn)行分析,結(jié)果表明,影響高血壓患者的左心房射血力的各因素之間存在嚴(yán)重的多重共線關(guān)系,用建立的7個主成分代替原來的19項(xiàng)指標(biāo),大大簡化了評價指標(biāo)。
④.聚類分析(cluster analysis)聚類分析也稱群分析、點(diǎn)群分析,它是直接比較各事物之間的性質(zhì),將性質(zhì)相近的歸為一類,將性質(zhì)差別較大的歸入不同類的一種多元統(tǒng)計(jì)分析方法。進(jìn)行聚類分析時,所研究的樣品或指標(biāo)(變量)之間存在程度不同的相異性(親疏關(guān)系),聚類分析的原則是同一類中的個體有較大的相似性,不同類中的個體差異很大??梢赃\(yùn)用一定的方法將相似程度較大的數(shù)據(jù)或單位劃為一類,劃類時關(guān)系密切的聚合為一小類,關(guān)系相對疏遠(yuǎn)的聚合為一大類,直到把所有的樣品(或指標(biāo))聚合完畢,這就是聚類的基本思想。聚類分析根據(jù)樣品相似度的不同和聚類原則的差異,聚類方法是多種多樣的,常見的有系統(tǒng)聚類、動態(tài)聚類、最優(yōu)分割法和模糊聚類等。王春曉等[13]根據(jù)頸椎病患者的臨床表現(xiàn)設(shè)計(jì)調(diào)查表,收集575例頸椎病患者的癥狀、體征、舌脈等信息,采用聚類分析和主成分分析法對調(diào)查表中98個常見癥狀進(jìn)行聚類分析。提示聚類分析和主成分分析用于中醫(yī)證型的分類研究具有一定科學(xué)性。
⑤.時間序列分析(time series)
ARIMA模型(autoregressive integrated moving average)又稱Box-Jenkins模型,其思想是將自回歸與時間序列中的移動平均相結(jié)合[14]。潘浩等[15]應(yīng)用SPSS18.0軟件對上海市2005-01/2010-06手足口病月發(fā)病率進(jìn)行ARIMA模型建模擬合,并與實(shí)際發(fā)病率進(jìn)行比較。結(jié)果表明,ARIMA(1,0,0)(0,1,0)模型能很好地?cái)M合既往時間段的發(fā)病序列,對2010-01/06的預(yù)測值符合上海市該病的發(fā)病率變動趨勢,2011和2012年上海市預(yù)測手足口病的發(fā)病率分別為235.32/10萬和294.59/10萬。
近年來,廣義相加模型(generalized additive mod-el,GAM)[16]被廣泛應(yīng)用于氣象因素與健康關(guān)系的研究中,其采用非參數(shù)擬合模型,并利用可加性原理,對影響溫度等其他因素的混雜因子進(jìn)行控制,調(diào)整長期趨勢、季節(jié)趨勢和短期波動等,具有線性模型所不具備的靈活性。李芙蓉[17]等對重慶市疾病預(yù)防控制中心提供的2003年1月1日至2007年12月31日的某縣居民每日死亡資料和中國氣象局提供的相應(yīng)期間氣象監(jiān)測資料,采用時間序列的Poisson廣義相加模型,在控制長期趨勢、季節(jié)趨勢、短期波動及雙休日效應(yīng)等混雜因素的基礎(chǔ)上,分析氣溫、相對濕度、氣壓、降雨量、風(fēng)速等氣象因素及空氣污染指數(shù)與居民每日死亡的關(guān)系。結(jié)果表明,氣溫每上升1℃,超額死亡率為12%;其他混雜因子中,相對濕度每下降1%,超額死亡率為4%;空氣污染指數(shù)每上升1個單位,超額死亡率為0.6%。
2.空間統(tǒng)計(jì)分析方法
傳統(tǒng)統(tǒng)計(jì)分析方法是建立在樣本獨(dú)立與大樣本兩個基本假設(shè)之上的,對于空間數(shù)據(jù),這兩個基本假設(shè)前提通常都得不到滿足??臻g上分布的對象與事件在空間上的相互依賴性普遍存在,這使得大部分空間數(shù)據(jù)樣本并不獨(dú)立,即不滿足傳統(tǒng)統(tǒng)計(jì)分析的樣本獨(dú)立性前提,因而不適用于傳統(tǒng)統(tǒng)計(jì)分析。在傳染病研究中,各種空間統(tǒng)計(jì)分析方法的運(yùn)用為疾病的空間聚集性、影響因素的探索及疾病的預(yù)防控制提供了更有力的研究方法和工具。
空間統(tǒng)計(jì)分析,即地統(tǒng)計(jì)學(xué)(geostatistics),亦稱地理統(tǒng)計(jì)學(xué),是以區(qū)域化變量理論為基礎(chǔ),以變異函數(shù)(variogram)為基本工具,研究分布于空間并呈現(xiàn)出一定的隨機(jī)性和結(jié)構(gòu)性的自然現(xiàn)象的科學(xué),是現(xiàn)代計(jì)量地理學(xué)中一個快速發(fā)展的方向和領(lǐng)域。該方法可研究某些變量(或特征)的空間分布特性,并對其進(jìn)行最優(yōu)估計(jì)。在模擬研究對象的離散性、波動性或其他性質(zhì)時,也可應(yīng)用空間統(tǒng)計(jì)分析的理論與方法[18]。
(1)空間統(tǒng)計(jì)分析方法的統(tǒng)計(jì)描述:
由于資料的特殊性,傳統(tǒng)的統(tǒng)計(jì)描述指標(biāo)與圖表不再適用??臻g統(tǒng)計(jì)分析方法的統(tǒng)計(jì)描述主要包括中心化指標(biāo)、密度指標(biāo)、凸殼(convex hull)與標(biāo)準(zhǔn)差橢圓(standard deviation ellipse)等。與傳統(tǒng)的統(tǒng)計(jì)描述方法相似,中心化指標(biāo)分集中和離散趨勢兩部分。集中趨勢的測量指標(biāo)包括點(diǎn)集分布的平均中心、中位數(shù)中心和歐幾里得中心等;離散性的空間測度常用標(biāo)準(zhǔn)距離和相對距離度量;而凸殼與標(biāo)準(zhǔn)差橢圓則類似于傳統(tǒng)統(tǒng)計(jì)學(xué)中統(tǒng)計(jì)圖,能夠直觀顯示病例(或衛(wèi)生事件)的空間分布狀況。類似于傳統(tǒng)統(tǒng)計(jì)學(xué)中的統(tǒng)計(jì)描述指標(biāo),均數(shù)中心與標(biāo)準(zhǔn)差距離適用于病例(或衛(wèi)生事件)橫坐標(biāo)(x)與縱坐標(biāo)(y)均呈正態(tài)分布的情形;而中位數(shù)中心與四分位數(shù)間距距離適用于病例(或衛(wèi)生事件)橫坐標(biāo)(x)或縱坐標(biāo)(y)呈偏態(tài)分布的情形。調(diào)和均數(shù)則要求病例(或衛(wèi)生事件)橫坐標(biāo)(x)與縱坐標(biāo)(y)均服從正態(tài)分布[19]。
(2)空間統(tǒng)計(jì)分析方法的統(tǒng)計(jì)推斷:
空間統(tǒng)計(jì)分析的方法包括空間自相關(guān)分析、空間分類分析(空間聚類分析、空間聚合分析和判別分析)、多變量統(tǒng)計(jì)分析(含主成分分析、主因子分析、變量聚類分析和采樣點(diǎn)聚類分析)、空間插值分析、空間結(jié)構(gòu)分析以及空間模擬等,其核心是認(rèn)識與地理位置相關(guān)的統(tǒng)計(jì)關(guān)系[20]。以下主要介紹在流行病研究中常用的方法。
①空間自相關(guān)分析(spatial auto-correlation analysis)
空間自相關(guān)是指空間位置上越靠近的事物或現(xiàn)象越相似,即事物或現(xiàn)象具有對空間位置的依賴關(guān)系。在度量空間自相關(guān)時,需要解決地理空間結(jié)構(gòu)的數(shù)學(xué)表達(dá),定義空間對象的相互鄰接關(guān)系[21]。與經(jīng)典統(tǒng)計(jì)學(xué)中的相關(guān)相比,空間自相關(guān)的差別在于處理的數(shù)據(jù)資料不同。空間自相關(guān)指同一屬性值在不同空間位置上的相互關(guān)系;而經(jīng)典的相關(guān)是指兩個或多個屬性變量之間的相互關(guān)系及密切程度。計(jì)算空間自相關(guān)的方法通常分為全局性和局部性兩種類型,最為常用的方法是Moran’s I、Geary’s C、Getis[22]以及半變異圖與空間自相關(guān)系數(shù)圖等。
a.全局空間自相關(guān)分析全局空間自相關(guān)(global spatial autocorrelation)主要用于描述整個研究區(qū)域的空間對象某一屬性取值的空間分布狀態(tài),以判斷該對象在空間上是否存在聚集性。常用的分析指標(biāo)包括Moran’sI與Geary’s C統(tǒng)計(jì)量[23],用于描述疾病整體分布狀況,并以此來判斷是否存在空間聚集性。Moran’sI統(tǒng)計(jì)量的取值在-1~1之間,I>0表示研究對象之間存在空間正相關(guān),I<0表示存在空間負(fù)相關(guān)。Geary’s C統(tǒng)計(jì)量的取值介于0~2之間,其越接近于0表示觀察變量的空間正相關(guān)關(guān)系越強(qiáng),越接近于2則表示負(fù)空間相關(guān)關(guān)系越強(qiáng),越接近于1表示數(shù)據(jù)越有可能隨機(jī)分布,即不具有空間相關(guān)性。范新生等[24]運(yùn)用Moran’sI和Getis統(tǒng)計(jì)量對我國2003年爆發(fā)的SARS疫情的省級空間分布格局進(jìn)行了分析,結(jié)果表明:SARS疫情的空間分布在疫情發(fā)源階段以及新暴發(fā)中心形成階段具有很強(qiáng)的空間自相關(guān)性。
b.局部空間自相關(guān)分析全局空間自相關(guān)是對整個研究空間的總體描述,僅對同質(zhì)的空間過程有效。然而,由于環(huán)境和社會因素等外界條件的不同,空間自相關(guān)的大小在整個研究空間,特別是在范圍較大的研究空間上并不一定是均勻同質(zhì)的,其可能隨空間位置的不同有所變化,甚至可能在一些空間位置發(fā)現(xiàn)正空間自相關(guān),而在另一些空間位置發(fā)現(xiàn)負(fù)空間自相關(guān)。這種現(xiàn)象稱為空間異質(zhì)性(spatial heterogeneity),在全局空間自相關(guān)分析中是無法發(fā)現(xiàn)的,而局部空間自相關(guān)統(tǒng)計(jì)量則可對其進(jìn)行識別。局部空間自相關(guān)分析的指標(biāo)主要包括局部Moran’sI統(tǒng)計(jì)量、局部空間自相關(guān)統(tǒng)計(jì)量(local indicators of spatial association,LISA)和局部Getis統(tǒng)計(jì)量(local getis)等。斐小琴等[25]采用R、GeoDa等軟件對內(nèi)蒙古自治區(qū)2004-2005年布魯氏菌病資料進(jìn)行的空間分布模式等分析,其局域系數(shù)統(tǒng)計(jì)顯示,布魯氏菌病發(fā)病率和空間自相關(guān)系數(shù)大小存在一定的空間統(tǒng)一性和差異性。
②空間插值分析
空間插值分析是指根據(jù)一組已知的離散數(shù)據(jù)或分區(qū)數(shù)據(jù),按照某種數(shù)學(xué)關(guān)系推求其他未知點(diǎn)或未知區(qū)域的數(shù)據(jù)分析過程,可分為整體插值和局部插值方法兩類。整體插值方法用于研究區(qū)所有采樣點(diǎn)的數(shù)據(jù),以進(jìn)行全區(qū)特征擬合,主要包括邊界內(nèi)插值法、趨勢面分析、變換函數(shù)插值等。局部插值方法則是用鄰近的數(shù)據(jù)點(diǎn)來估計(jì)未知點(diǎn)的值,能彌補(bǔ)整體插值方法的缺陷,可用于局部異常值,且不受插值表面上其他點(diǎn)的內(nèi)插值影響。主要包括泰森多邊形、距離倒數(shù)插值、樣條函數(shù)插值方法及克里格(kriging)插值法[26]等。
Kriging插值法[27]假設(shè)任意一個測量值是一個自由函數(shù)(或自由過程,或隨機(jī)場)的一次實(shí)現(xiàn),并將任何變量的空間變化表示成3個部分:結(jié)構(gòu)分量,空間關(guān)聯(lián)分量和白噪聲。克里格主要是使用樣點(diǎn)周圍值來進(jìn)行預(yù)報[28]。協(xié)和克里格及在此基礎(chǔ)上演化而來的指示克里格、Cokriging等,則提供點(diǎn)在空間區(qū)域上的優(yōu)化插值,用戶可以選擇最恰當(dāng)?shù)淖儾钅P蛠磉M(jìn)行插值。張治英等[29]運(yùn)用普通克里格的變異函數(shù)對江寧縣江灘釘螺分布的空間自相關(guān)性進(jìn)行了分析,結(jié)果顯示2000年江寧縣江灘釘螺分布呈空間自相關(guān)性,其變異函數(shù)為球型模型,且距離<0.0301時,釘螺空間分布變異與距離有關(guān),并以此為基礎(chǔ)用普通克里格法建立了江寧縣江灘釘螺分布預(yù)測圖。
③空間回歸分析
空間回歸分析技術(shù)是地理相關(guān)性研究及生態(tài)學(xué)分析的主要方法,其可用于探討估計(jì)值的空間關(guān)系,而地理學(xué)對象中的空間依賴性和空間異質(zhì)性使得一般回歸方法不宜用于空間分析。其有聯(lián)立自回歸模型(simultaneous autoregressive model)、空間移動平均模型(spatial moving average model)和條件自回歸模型(conditional autoregressive model)等三種特殊形式[30]。此分析方法主要從地理(或生態(tài)學(xué))的角度研究疾病發(fā)病(或患病、死亡等)的空間分布與環(huán)境因素(如空氣、水、土壤等)、社會經(jīng)濟(jì)因素間的關(guān)系。
④流行病學(xué)標(biāo)點(diǎn)地圖法[19]
a.以密度為基礎(chǔ)的流行病學(xué)標(biāo)點(diǎn)地圖的空間推斷方法。此類方法又稱一階效應(yīng),它描述的是某個參數(shù)均值的總體變化性,即全局的趨勢。此類方法主要包括病例(或衛(wèi)生事件)空間分布狀態(tài)的統(tǒng)計(jì)推斷、空間分布的概率函數(shù)和核密度估計(jì)法。病例(或衛(wèi)生事件)空間分布狀態(tài)的統(tǒng)計(jì)推斷、空間分布的概率函數(shù)能夠反應(yīng)疾病的空間分布狀態(tài),而核密度估計(jì)法則通過核密度插值揭示病例(或衛(wèi)生事件)在整個研究區(qū)域內(nèi)的分布狀況。
b.以距離為基礎(chǔ)的流行病學(xué)標(biāo)點(diǎn)地圖的空間推斷方法。此類方法能夠揭示病例(或衛(wèi)生事件)的分布是隨機(jī)的、聚集的、還是規(guī)則的,而且能夠揭示空間點(diǎn)數(shù)據(jù)在不同空間尺度上的分布特征,描述兩類病例(或衛(wèi)生事件)分布模式的關(guān)系及隨時間的演化規(guī)律。此類方法主要包括最鄰近距離指數(shù)法、Ripley’s K函數(shù)方法及Ripley’s K函數(shù)方法的擴(kuò)展方法(二元模式與空間時間模式)。最鄰近距離指數(shù)法能夠從總體上反應(yīng)疾?。ɑ蛐l(wèi)生事件)的分布是否具有空間異質(zhì)性;而Ripley’s K函數(shù)方法能夠分析各種尺度上病例(或衛(wèi)生事件)的聚集規(guī)模,能在更精細(xì)的水平上反映病例(或衛(wèi)生事件)的空間分布特性。
c.以“熱點(diǎn)”分析為基礎(chǔ)的流行病學(xué)標(biāo)點(diǎn)地圖的空間推斷方法,又稱空間聚類分析,是一類發(fā)現(xiàn)病例(或衛(wèi)生事件)高發(fā)區(qū)域的方法。結(jié)合GIS軟件,可以直觀地揭示疾病的空間分布熱點(diǎn)。在流行病學(xué)領(lǐng)域,這對于疾病的預(yù)防及控制措施的制定具有重要的指導(dǎo)意義。研究空間“熱點(diǎn)”的主要方法有:最鄰近空間系統(tǒng)聚類、調(diào)整危險因素的最鄰近空間系統(tǒng)聚類等。最鄰近空間系統(tǒng)聚類分析發(fā)現(xiàn)研究區(qū)域內(nèi)病例(或衛(wèi)生事件)的“熱點(diǎn)”區(qū)域;而調(diào)整危險因素的最鄰近空間系統(tǒng)聚類分析則能探索去除人口密度等協(xié)變量后“真正”的空間分布“熱點(diǎn)”。
目前,傳統(tǒng)統(tǒng)計(jì)分析方法在流行病學(xué)中的應(yīng)用已非常成熟,但空間統(tǒng)計(jì)分析在流行病研究中的應(yīng)用主要集中于血吸蟲病、瘧疾等疾病,其他方面尚不深入。究其原因,是由于長期以來在我國的流行病學(xué)研究中缺乏相應(yīng)的空間理論、方法和技術(shù)手段,長期以來積累的數(shù)據(jù)缺乏空間屬性,因而限制了空間統(tǒng)計(jì)分析在相關(guān)流行病研究中的深入運(yùn)用。隨著空間信息基礎(chǔ)設(shè)施的建設(shè)和發(fā)展,快速獲取和掌握大量的自然、生態(tài)、環(huán)境及社會經(jīng)濟(jì)等數(shù)據(jù)信息已經(jīng)成為可能;加之一些流行病空間數(shù)據(jù)庫的構(gòu)建,這些都從客觀上促進(jìn)了空間統(tǒng)計(jì)分析在流行病學(xué)研究的應(yīng)用,同時也為流行病學(xué)理論研究及預(yù)防控制提供了有力的工具及技術(shù)支持。
1.李立明.流行病學(xué).第6版.北京:人民衛(wèi)生出版社,2010,51-54.
2.Rothman KJ.Modern Epidem iology Third Edition.Lippincott W illiams&Wilkins,2008.
3.孫儒泳,李慶芬,牛翠娟,等.基礎(chǔ)生態(tài)學(xué).高等教育出版社,2003.
4.靈輝,劉于飛,陳秋霞,等.一例與果子貍相關(guān)的SARS病例調(diào)查研究.中國人獸共患病雜志,2005,21(9):827-828.
5.李文華.我國生態(tài)學(xué)研究及其對社會發(fā)展的貢獻(xiàn).生態(tài)學(xué)報,2011,3l(19):5421,5428.
6.郭志榮,蔣國雄,陸啟新.基本消滅血吸蟲病后不同時期的結(jié)腸、直腸癌死亡情況的生態(tài)學(xué)研究.江蘇醫(yī)藥,2006,32(8):785-787.
7.徐飚,俞順章,李旭亮,等.乳腺癌與圍產(chǎn)期激素水平的生態(tài)學(xué)研究.中國公共衛(wèi)生,2001,17(11):983-985.
8.黎新宇,王全意,賈蕾,等.北京市氣象因素與霍亂發(fā)病關(guān)系的生態(tài)學(xué)研究.中國自然醫(yī)學(xué)雜,2006,8(3):201-202.
9.李寶紅,董時富,孫振球,等.對應(yīng)分析在生態(tài)學(xué)研究中的應(yīng)用.中華流行病雜志,2007,28(9):914-917.
10.尤愛國,康鍇,王海峰,等.氣象因素與發(fā)熱伴血小板減少綜合征發(fā)病關(guān)系的生態(tài)學(xué)研究.中國人獸共患病學(xué)報,2012,28(9):898-901.
11.揚(yáng)進(jìn),董柏省,龔健,等.傷寒Vi多糖菌苗接種率與甲型副傷寒爆發(fā)的生態(tài)學(xué)研究.中國熱帶醫(yī)學(xué),2001,8(11):1919-1920.
12.劉桂然,吳長剛,王岳恒,等.高血壓病患者左心房收縮功能影響因素的主成分回歸分析.中國衛(wèi)生統(tǒng)計(jì),2011,28(5):580-584.
13.王春曉,謝興文,李寧,等.聚類分析與主成分分析在頸椎病中醫(yī)證型規(guī)范化研究中的應(yīng)用.中國組織工程研究與臨床康復(fù),2011,15(43):8083-8088.
14.王振龍.時間序列分析.北京:中國統(tǒng)計(jì)出版社,2002,181-192.
15.潘浩,鄭楊,吳寰宇,等.ARIMA模型預(yù)測上海市手足口病發(fā)病趨勢.預(yù)防醫(yī)學(xué)情報雜志,2011,27(6):408-411.
16.Hastie T,Tibshirani RJ.Generalized additivemodels.London:Chapman and Hall,1990.
17.李芙蓉,毛德強(qiáng),李麗萍.廣義相加模型在氣溫對人群死亡率影響研究中的應(yīng)用.環(huán)境與健康雜志,2009,26(8):704-707.
18.侯景儒.中國地質(zhì)統(tǒng)計(jì)學(xué)(空間信息統(tǒng)計(jì)學(xué))發(fā)展的回顧與前景.地質(zhì)與勘探,1997,33(1):53-58.
19.高杰.流行病學(xué)標(biāo)點(diǎn)地圖統(tǒng)計(jì)分析方法體系的研究.山東大學(xué)碩士學(xué)位論文,2009.
20.馮益明,唐守正,李增元.空間統(tǒng)計(jì)分析在林業(yè)中的應(yīng)用.林業(yè)科學(xué),2004,40(3):149-154.
21.張學(xué)良.探索性空間數(shù)據(jù)分析模型研究.當(dāng)代經(jīng)濟(jì)管理,2007,29(2):26-29.
22.Getis A,Ord JK.The analysis of spatial association by use of distance statistics.Geog Anal,1992,24(3):189-206.
23.Getis A.Reflections on spatial autocorrelation.Reg Sci Urban Econ,2007,37(4):491-496.
24.范新生,應(yīng)龍根.中國SARS疫情的探索性空間數(shù)據(jù)分析.地理科學(xué)進(jìn)展,2005,20(3):6-9.
25.蔣敏,李曉松,馮子健,等.四川省HIV/AIDS空間自相關(guān)分析.現(xiàn)代預(yù)防醫(yī)學(xué),2008,35(22):4329-4331.
26.鄔倫,劉瑜,張晶,等.地理信息系統(tǒng)——原理、方法和應(yīng)用.北京:科學(xué)出版社,2000,178-191.
27.Cressie,Noel.The origins of Kriging.Mathematical Geology,1990,22,239-252.
28.Cressie,Noel.Spatial prediction and ordinary kriging.Mathematical Geology,1988,20:405-421.
29.張治英,徐德忠,彭華,等.普通克里格法預(yù)測江寧縣江灘釘螺分布.中國寄生蟲學(xué)與寄生蟲病雜志,2004,22(3):170-172.
30.Lance AW,Carol AG.Applied spatial statistics for public health data. New Jersey:W iley,2004,274-313.
(責(zé)任編輯:劉 壯)
淮河流域癌癥綜合防治項(xiàng)目(基金號:1310800003)
1.中國疾病預(yù)防控制中心公共衛(wèi)生監(jiān)測與信息服務(wù)中心(102206)
2.國家食品安全風(fēng)險評估中心
3.中國醫(yī)學(xué)科學(xué)院,北京協(xié)和醫(yī)學(xué)院公共衛(wèi)生學(xué)院
△通信作者:于石成,E-mail:shicheng_yu@hotmail.com;馬家奇,E-mail:majq@chinacdc.cn