哈爾濱醫(yī)科大學(xué)公共衛(wèi)生學(xué)院(150086) 李 萌 劉妍妍 于 磊 王 蕊 張茂祥 劉美娜
基于ZIGP模型的陽性過敏原數(shù)影響因素研究*
哈爾濱醫(yī)科大學(xué)公共衛(wèi)生學(xué)院(150086) 李 萌 劉妍妍 于 磊 王 蕊 張茂祥 劉美娜△
目的利用零膨脹廣義泊松模型,分析陽性過敏原數(shù)的分布及相關(guān)的影響因素,為過敏和過敏性疾病的預(yù)防提供科學(xué)依據(jù)。方法收集2782例過敏患者信息,利用過離散O檢驗、Vuong檢驗和AIC、BIC等信息準(zhǔn)則選取最優(yōu)模型——零膨脹廣義泊松模型,應(yīng)用該模型分析過敏患者陽性過敏原數(shù)的影響因素。結(jié)果在就診患者中,陽性過敏原數(shù)為0的患者有1969例,占70.78%。過離散的O=52.13,P<0.001,說明因變量存在過離散現(xiàn)象;兩次Vuong檢驗的值分別是22.728和4.648,值均小于0.05,說明零膨脹模型優(yōu)于傳統(tǒng)計數(shù)模型;結(jié)合AIC、BIC值確定零膨脹廣義泊松模型。影響因素分析,文化程度高易出現(xiàn)陽性過敏原(OR=2.232,OR 95%CI=1.2067~4.1286);性別(OR=0.596,OR 95%CI=-0.7703~-0.2663)、文化程度(OR=0.869,OR 95%CI=-0.2759~-0.0043)、辛辣食物(OR=1.119,OR 95%CI=0.0052~0.2190)和接觸寵物以及毛絮物品(OR=1.338,OR 95%CI=0.0868~0.4962)是影響陽性過敏原數(shù)多少的因素,男性相對于女性、文化程度低相對于文化程度高的人群陽性過敏原數(shù)更多,喜好辛辣食物和常接觸寵物以及毛絮物品的人群是陽性過敏原數(shù)增加的危險因素。結(jié)論分析零膨脹數(shù)據(jù)時模型的選擇至關(guān)重要,合適的統(tǒng)計模型有助于提高數(shù)據(jù)的擬合效果,使分析結(jié)果更全面可靠;過敏患者可以是單一或多種過敏原呈陽性反應(yīng),同時發(fā)生多種陽性過敏原更應(yīng)關(guān)注男性、文化程度低、喜好辛辣食物和常接觸寵物等人群,從而減少過敏的發(fā)生,達(dá)到預(yù)防過敏性疾病的目的。
零膨脹現(xiàn)象 過離散 ZIGP模型 陽性過敏原數(shù)
在計數(shù)資料中,經(jīng)常發(fā)現(xiàn)觀察事件發(fā)生數(shù)中存在大量的零計數(shù),這些零的比例遠(yuǎn)超過傳統(tǒng)計數(shù)模型的預(yù)測能力,這種現(xiàn)象稱為零膨脹(zero-inflated)。Johnson和Kotz[1]最早在理論上對零膨脹現(xiàn)象進(jìn)行初步研究和探索。Lambert在1992年提出零膨脹Poisson模型很好地解決了數(shù)據(jù)中存在過多零的問題,即對0計數(shù)部分和非0計數(shù)部分建立混合概率分布,建立具有協(xié)變量的零膨脹泊松模型[2]。近年來研究發(fā)現(xiàn),一些計數(shù)資料中不僅0計數(shù)過多,而且還存在過離散現(xiàn)象(overdispersion),即觀察事件發(fā)生數(shù)的方差大于均值。對于這類資料,Poisson回歸常常低估參數(shù)估計值的標(biāo)準(zhǔn)誤,從而增大Ⅰ類錯誤,夸大解釋變量效應(yīng),即零膨脹泊松模型的擬合效果不理想。Consul和Famoye(1992)首次提出了廣義泊松回歸模型[3],常用于處理過離散數(shù)據(jù)。本研究利用過離散O檢驗、Vuong檢驗和AIC、BIC等信息準(zhǔn)則進(jìn)行模型選擇,對零膨脹廣義泊松模型進(jìn)行參數(shù)估計,并應(yīng)用該模型對陽性過敏原數(shù)進(jìn)行影響因素分析。
研究人群來源于2013年4月至2014年9月在哈爾濱醫(yī)科大學(xué)附屬醫(yī)院過敏反應(yīng)科就診的2782名患者,對研究人群進(jìn)行問卷調(diào)查以及血清過敏原特異性IgE檢測。
零膨脹模型的基本思想是將事件數(shù)的發(fā)生看成兩個可能的過程:第一個是零計數(shù)發(fā)生過程,假定服從二項概率分布,此過程個體取值只能為0,這個過程產(chǎn)生的零解釋了數(shù)據(jù)中零膨脹現(xiàn)象的原因;第二個過程對應(yīng)事件發(fā)生數(shù),由常規(guī)計數(shù)分布支配,此過程個體的取值可以是0或正數(shù)。即:
其中,φ是零膨脹參數(shù),表示第一個過程零的概率。當(dāng)φ=0,零膨脹模型退化成傳統(tǒng)計數(shù)模型。
其中,參數(shù)α是離散參數(shù)且假定存在唯一的。當(dāng)α=0時,零膨脹廣義Poisson回歸模型退化為零膨脹泊松回歸模型;當(dāng)α>0時,表明數(shù)據(jù)存在過離散性。ZIGP的期望和方差分別為
(3)參數(shù)估計
關(guān)于零膨脹模型的參數(shù)估計,常用的方法有兩種,即極大似然估計和Bayes估計。本文采用極大似然估計的Gauss-New ton迭代法進(jìn)行模型擬合,獲得參數(shù)估計結(jié)果、P值、擬合效果等指標(biāo)。
(4)模型選擇
①過度離散檢驗
O檢驗是基于均值和方差的一種過度離散性檢驗的方法[4],O統(tǒng)計量為:
其中,n為總的觀察事件數(shù),s2和為事件數(shù)的方差和均值。當(dāng)|O|≥1.96時,證明數(shù)據(jù)存在過度離散。
②Vuong檢驗
若兩個模型是非嵌套關(guān)系,用Vuong檢驗判斷計數(shù)資料中0頻數(shù)是否過多即是否存在零膨脹現(xiàn)象,從而判斷選擇傳統(tǒng)計數(shù)回歸模型或選擇零膨脹模型[5]。Vuong檢驗統(tǒng)計量為:
1)零膨脹泊松回歸模型(zero-inflated poisson,ZIP)
如果上式Ki服從泊松分布,即得到ZIP模型的概率密度函數(shù)為:
其中,期望和方差分別為
(2)零膨脹廣義泊松回歸模型(zero-inflated generalized poisson,ZIGP)
如果上式Ki服從廣義泊松分布,即得到ZIGP模型的概率密度函數(shù)為:
③AIC和BIC統(tǒng)計量
其中,l表示對數(shù)似然函數(shù)值,p和k表示參數(shù)的個數(shù),n表示樣本個數(shù)。AIC和BIC統(tǒng)計量的值越小,說明模型對實際數(shù)據(jù)的擬合效果越好。
陽性過敏原數(shù)的范圍從0到10,陽性過敏原數(shù)為0的人數(shù)占總?cè)藬?shù)的70.78%,陽性過敏原數(shù)為1的人數(shù)占總?cè)藬?shù)的18.37%,隨著陽性過敏原數(shù)的增加,其人數(shù)所占比例也越來越小。從圖l可以看出,陽性過敏原數(shù)為0的人數(shù)具有較大的概率堆積,可以推測該數(shù)據(jù)中存在零膨脹現(xiàn)象。
調(diào)查問卷包括患者基本信息、疾病家族史以及環(huán)境因素與生活習(xí)慣三部分,具體變量賦值見表1。
過離散O檢驗得知,O=52.13,P<0.001。同時,ZIGP模型中的離散參數(shù),二者均表明數(shù)據(jù)存在過離散現(xiàn)象。ZIP與泊松模型、ZIGP與廣義泊松模型的Vuong檢驗結(jié)果分別是22.728、4.648,均大于1.96(P<0.05),說明零膨脹模型優(yōu)于傳統(tǒng)計數(shù)模型。由表2可知,ZIGP模型的-2LL、AIC、BIC值均小于 ZIP模型,說明零膨脹廣義泊松模型優(yōu)于零膨脹泊松模型。圖2為陽性過敏原數(shù)分布及兩種零膨脹模型的預(yù)測概率分布圖,ZIGP模型相對ZIP模型的預(yù)測概率分布更接近于實際觀測值的分布曲線,其擬合效果更好。綜上,零膨脹廣義泊松模型的擬合效果最優(yōu)。
圖1 陽性過敏原數(shù)分布
表1 變量賦值說明
表2 模型的擬合指標(biāo)
根據(jù)相關(guān)文獻(xiàn)、結(jié)合臨床及單因素logistic回歸分析,考慮到模型中影響logit部分和計數(shù)部分的因素不同,因此對兩部分選取不同的協(xié)變量。logit回歸中納入單因素logistic回歸有統(tǒng)計學(xué)意義的變量,主要為患者的年齡、性別、文化程度、自身過敏史、被動吸煙以及高鹽食物的食用頻率;計數(shù)回歸中納入表1中的全部協(xié)變量。以陽性過敏原數(shù)為反應(yīng)變量,ZIGP模型回歸分析結(jié)果見下表。
圖2 陽性過敏原個數(shù)分布及各種模型的預(yù)測概率分布圖
ZIGP模型的logit部分用來解釋協(xié)變量是否影響陽性過敏原的發(fā)生;文化程度有統(tǒng)計學(xué)意義(P=0.0106),文化程度高出現(xiàn)陽性過敏原是文化程度低患者的2.232倍。廣義泊松部分用來解釋協(xié)變量影響陽性過敏原數(shù)的多少。有統(tǒng)計學(xué)意義的因素分別為性別、文化程度、辛辣食物和常接觸寵物及毛絮物品(P<0.05),保護(hù)因素為性別(OR=0.596)和文化程度(OR=0.869),男性相對于女性、文化程度低相對于文化程度高的人群陽性過敏原數(shù)更多。辛辣食物(OR=1.119)和接觸寵物以及毛絮物品(OR=1.338)的人群是陽性過敏原數(shù)增加的危險因素;喜好辛辣食物相對于不喜好辛辣食物、常接觸寵物以及毛絮物品相對于不常接觸寵物以及毛絮物品的人群的陽性過敏原數(shù)更多。
ZIP模型是分析零膨脹數(shù)據(jù)的基本方法,但數(shù)據(jù)常因零計數(shù)過多存在過離散現(xiàn)象,使ZIP模型擬合效果欠佳。ZIGP模型是通過在模型中引入了離散參數(shù)來處理數(shù)據(jù)的過離散現(xiàn)象,相對ZIP模型更適用于分析零膨脹數(shù)據(jù)。Gupta(1996)應(yīng)用零膨脹廣義泊松(ZIGP)回歸模型對胎兒運動與死亡次數(shù)數(shù)據(jù)進(jìn)行了擬合[6]。Czado,Erhardt,M in與 Wagner(2007)又在此基礎(chǔ)上對ZIGP回歸模型做了進(jìn)一步的研究與分析[7],發(fā)現(xiàn)ZIGP模型可以同時解決零計數(shù)過多和過離散兩個問題,本研究利用ZIGP模型來處理存在過離散現(xiàn)象的零膨脹數(shù)據(jù)。
過敏原是誘發(fā)過敏反應(yīng)及過敏性疾病發(fā)生的直接病因,過敏原的出現(xiàn)和數(shù)目是患者個人特征、生活習(xí)慣以及環(huán)境因素綜合作用的結(jié)果。從個人方面看,0~44歲群體中,男性患過敏性疾病的概率高于女性[8],因為睪丸素是男性的主要性激素,成年男性睪丸素分泌量是女性的20倍,根據(jù)相關(guān)研究表明,隨著睪丸素的增加會降低CD4/CD8的比值導(dǎo)致免疫力的下降,故睪丸素對免疫系統(tǒng)起抑制作用[9]。本研究也顯示,男性相對于女性的陽性過敏原數(shù)更多。文化程度低的人群獲得防治過敏性疾病相關(guān)知識的途徑有限,同時由于某些工作性質(zhì)和環(huán)境的特殊,會接觸較多的過敏原[10],故文化程度低的人群陽性過敏原數(shù)更多。從環(huán)境因素方面看,寵物的皮屑、毛發(fā)、分泌物等是主要過敏原之一,它由空氣中2.5um以下粘附性強的顆粒攜帶,這種顆??梢栽诳諝庵虚L時間停留,易被人吸入,尤其是貓的過敏原已成為令人關(guān)注的強烈致敏物[11]。過多的使用空調(diào)、地毯、毛絨制品等,使塵螨濃度增加,導(dǎo)致對螨過敏的患者增多[12]。吸入塵螨后機(jī)體外周血特異性IgE、白細(xì)胞介素-2受體和支氣管肺泡灌洗液中的嗜酸細(xì)胞陽離子蛋白(ECP)的水平均增加,提示塵螨可以激活體內(nèi)T淋巴細(xì)胞和氣道內(nèi)嗜酸細(xì)胞,引起氣道炎癥。從生活習(xí)慣方面看,在接觸性皮炎的研究中發(fā)現(xiàn),免疫狀態(tài)也是引起化妝品皮炎的重要因素之一[13-14],大量辛辣食物刺激機(jī)體時可明顯增加白細(xì)胞在血管內(nèi)皮中粘附,導(dǎo)致更多炎癥細(xì)胞浸潤于血管內(nèi)皮,使ICAM-1陽性炎癥細(xì)胞表達(dá)增加,從而提高化妝品反應(yīng)性接觸性皮炎的發(fā)病率和輕重程度[15]。
表3 零膨脹廣義泊松模型回歸分析
過敏原的陽性反應(yīng)和陽性反應(yīng)數(shù)目是過敏及過敏性疾病的防治重點,通過過敏原檢測技術(shù),明確過敏原類型和數(shù)目的同時,也應(yīng)采取健康講座、健康教育等形式使患者了解過敏原在過敏性疾病的發(fā)生、發(fā)展中的重要性,使患者避免與其接觸,減少過敏性疾病的發(fā)生。
[1]Johnson NL,Kotz S.Distribution in statistics:discrete distribution.W iley,1969.
[2]Lambert D.Zero-inflated Poisson regression,with an application to defects in manufacturing.Technometrics,1992,34(1):1-14.
[3]Consul PC,F(xiàn)amoye F.Generalized poisson regression model.Communications in Statistics-Theory and Methods,1992,21(1):89-109.
[4]Carrivick PJW,Lee AH,Yau KKW.Zero-inflated Poisson modeling to evaluate occupational safety interventions.Safety Science,2003,41(1):53-63.
[5]Yau KKW,Lee AH,Carrivick PJW.Modeling zero-inflated count series with application to occupational health.Computer Methods and Programs in Biomedicine,2004,74(1):47-52.
[6]Gupta PL,Gupta RC,Tripathi RC.Analysis of zero-adjusted count data.Computational Statistics&Data Analysis,1996,23(2):207-218.
[7]Czado C,Erhardt V,M in A,et al.Zero-inflated generalized Poisson models with regression effects on the mean,dispersion and zero-inflation level applied to patent outsourcing rates.Statistical Modelling,2007,7(2):125-153.
[8]孫寶清,韋妮莉,王紅玉,等.呼吸道過敏性疾病患者血清總抗體E檢測及意義.中國公共衛(wèi)生,2008,24(1):103-104.
[9]姚根宏,侯亞義.睪酮對未成熟雄性大鼠體液和細(xì)胞免疫力的影響.免疫學(xué)雜志,2001,17(5):334-337.
[10]錢迪,洪蘇玲,楊玉成,等.我國西部部分地區(qū)變應(yīng)性鼻炎流行病學(xué)抽樣調(diào)查.第三軍醫(yī)大學(xué)學(xué)報,2008,30(6):539-542.
[11]吳清香,開月梅,張楊.過敏性鼻炎變應(yīng)原皮膚點刺試驗結(jié)果分析.護(hù)理學(xué)雜志,2006,21(4):45-47.
[12]楊越楠.包頭市某三甲醫(yī)院變應(yīng)性疾病就醫(yī)患者過敏原現(xiàn)狀及影響因素研究.山東大學(xué),2010.
[13]Rietschel RL,Bruze M,Gruvberger B,et al.The relationship of vehicle and concentration of imidazolidinylurea,with attention to formaldehyde allergy status.Dermatitis,2006,17(1):48-49.
[14]Niklasson B.The relationship of vehicle and concentration for imidazolidinylurea,with attention to formaldehyde allergy status.Dermatitis,2006,17(2):93.
[15]李周娜.辛辣食物對三種香料變應(yīng)性接觸性皮炎的影響.延邊大學(xué),2010.
The Study about Influencing Factors of Positive Allergens′Number Based on ZIGP Model
Li Meng,Liu Yanyan,Yu Lei,et al(Harbin Medical University(150086),Harbin)
ObjectiveTo determine the distribution and influencing factors of the number of positive allergen using Zeroinflated generalized Poisson model(ZIGP),and provide scientific evidence for preventing allergy and allergic disease.Methods2782 patients′information was collected in hospital.Over dispersion O test,Vuong test and model fitting index value suggested that ZIGP model was the best regression model to investigate positive allergens data.Results1969 of 2782(70.78%)patients were positive allergens number of0.Over dispersion(O=52.13,P<0.001)suggested that response variables are discrete;Vuong test(V=22.728 and 4.648,P<0.05)suggested that zero-inflated model was better than traditional counting model;according to AIC and BIC values,ZIGP model was determined.High education degree(OR=2.232,OR 95%CI=1.2067~4.1286)is prone to appear positive allergens;Gender(OR=0.596,OR 95%CI=-0.7703~-0.2663),education degree(OR=0.869,OR 95%CI=-0.2759~-0.0043),spicy food(OR=1.119,OR 95%CI=0.0052~0.2190)and touching pets(OR=1.338,OR 95%CI=0.0868~0.4962)are factors affecting the number of positive allergens.Compared with female and high education degree,those being male and low education degree will be likely to have more positive allergens.Spicy food and touching frequently pets were risk factor for increase of positive allergen.ConclusionModel selection for zero-inflated data is significant,appropriate statistical model is helpful to improve the data fitting effect,and make the results more comprehensive and reliable;allergies can be single or multiple allergens positive,the later condition was more likely for the male,the lower education degree,favor of spicy food and touching frequently pets.To pay more attention to these risk factors will reduce the occurrence of allergic and prevent allergic disease.
Zero-inflated;Over dispersion;ZIGP model;Positive allergens′number
國家重大專項課題(2014ZX08011005)
△通信作者:劉美娜E-mail:liumeina369@163.com
(責(zé)任編輯:郭海強)