胡良平
(1.軍事科學(xué)院研究生院,北京 100850;2.世界中醫(yī)藥學(xué)會聯(lián)合會臨床科研統(tǒng)計學(xué)專業(yè)委員會,北京 100029*通信作者:胡良平,E-mail:lphu927@163.com)
在自然界中,有一系列看起來彼此互不相干的隨機(jī)變量,它們卻遵從同一種分布規(guī)律。例如在單位空間中某些野生動物或昆蟲數(shù);在一定人群中某種患病率很低的非傳染性疾病的患病數(shù)或死亡數(shù)等,這些“稀有事件”的發(fā)生次數(shù)常遵從一種被稱為“Poisson分布”的概率分布。本文將簡要介紹與該分布有關(guān)的主要內(nèi)容,并結(jié)合精神衛(wèi)生領(lǐng)域中的實例,介紹Poisson分布的具體應(yīng)用方法以及基于SAS實現(xiàn)數(shù)據(jù)分析的技巧。
Poisson分布規(guī)律是由法國數(shù)學(xué)家Simeon Denis Poisson于1837年發(fā)現(xiàn),故稱為Poisson分布[1-3]。
Poisson分布常用于描述單位時間內(nèi)或指定范圍(平面或空間)內(nèi)罕見“質(zhì)點(diǎn)”總數(shù)的隨機(jī)分布規(guī)律,常用于下列醫(yī)學(xué)研究場合:①研究細(xì)菌、血細(xì)胞等單位面積(容積)內(nèi)計數(shù)的分布;②人群中某些發(fā)病率很低的傳染病的患病人數(shù)或死亡人數(shù)的分布;③人群中某些惡性腫瘤的患病人數(shù)或死亡人數(shù)的分布;④放射醫(yī)學(xué)中放射性核素計數(shù)的分布;⑤某些疾病的地區(qū)或家族聚集性家庭數(shù)的分布;⑥癲癇患者治療出院后在未來一年內(nèi)癲癇發(fā)作次數(shù)的分布等。諸如此類“稀有事件”發(fā)生次數(shù)的分布規(guī)律的研究都可應(yīng)用Poisson分布。
若離散型隨機(jī)變量X的取值為非負(fù)整數(shù),且相應(yīng)的概率函數(shù)[4]為:
則稱隨機(jī)變量X服從Poisson分布,記作X~P(λ)。其中,λ為服從Poisson分布的隨機(jī)變量X的均值,同時也是其方差。
Poisson分布具有很多優(yōu)良的數(shù)學(xué)性質(zhì),包括:該分布的均值等于其方差;該分布具有可加性(即多個服從Poisson分布的隨機(jī)變量之和仍然服從Poisson分布);當(dāng)其均值趨向無窮大時,分布趨向于標(biāo)準(zhǔn)正態(tài)分布。因篇幅所限,其他性質(zhì)從略。
【例1】文獻(xiàn)[5]的目的是探討卒中類型、卒中部位與卒中后癲癇的多因素關(guān)系,為卒中后癲癇的防治提供參考。以1 804例卒中患者為研究對象,收集其性別、年齡、卒中類型、卒中部位、卒中后癲癇發(fā)生的時間等資料,根據(jù)卒中后是否發(fā)生癲癇,將患者分為卒中后無癲癇組(n=1 487)和卒中后癲癇組(n=317),分析卒中后癲癇發(fā)作的危險因素。本例以文獻(xiàn)[5]中卒中后出現(xiàn)癲癇的317例患者為研究對象,其中,早發(fā)性癲癇為141例,遲發(fā)性癲癇為176例。試探索卒中后早發(fā)性癲癇人數(shù)是否一定低于遲發(fā)性癲癇人數(shù)。
【例2】已知文獻(xiàn)[5]中卒中后早發(fā)性癲癇患者共有141例,其中,男性98例,女性43例。試探索卒中后早發(fā)性癲癇患者中男性人數(shù)是否一定高于女性人數(shù)。
【例3】已知文獻(xiàn)[5]中卒中類型為“額葉、顳葉”的患者卒中后出現(xiàn)癲癇的患者共有38例,其中,早發(fā)性癲癇為24例,遲發(fā)性癲癇為14例。試探索卒中后早發(fā)性癲癇人數(shù)與遲發(fā)性癲癇人數(shù)之間的差別是否具有統(tǒng)計學(xué)意義。
2.2.1 四要素之簡介
在進(jìn)行兩Poisson均值的比較時,涉及到下列四個要素,即“檢驗假設(shè)(包括H0和H1)”“前提條件”“Z檢驗統(tǒng)計量”和“拒絕域”。由于這四個方面存在著密切的聯(lián)系,需將它們合并在一起進(jìn)行論述。
2.2.2 四要素之概述
兩Poisson均值比較的四要素可以概括為下面的表格[6],見表1。
表1 兩Poisson均值比較的四要素
表1中的式(2)~式(5)如下:
式(2)和式(3)中定義的“檢驗統(tǒng)計量(隨機(jī)變量)”服從標(biāo)準(zhǔn)正態(tài)分布。
2.2.3 分析方法的合理選擇
根據(jù)例1中已知的條件,可假定患癲癇病的人數(shù)近似服從Poisson分布。且因X1=141<X2=176,希望得出它們對應(yīng)的總體均值“λ1<λ2”(屬于備擇假設(shè))的結(jié)論,故本例屬于“下單側(cè)檢驗”問題。
根據(jù)例2中已知的條件,可假定患癲癇病的人數(shù)近似服從Poisson分布。且因X1=98>X2=43,希望得出它們對應(yīng)的總體均值“λ1>λ2”(屬于備擇假設(shè))的結(jié)論,故本例屬于“上單側(cè)檢驗”問題。
根據(jù)例3中已知的條件,可假定患癲癇病的人數(shù)近似服從Poisson分布;進(jìn)一步還假定早發(fā)性癲癇人數(shù)與遲發(fā)性癲癇人數(shù)對應(yīng)的總體均值不等(屬于備擇假設(shè))的結(jié)論,故本例屬于“雙側(cè)檢驗”問題。
SAS程序如下:
【程序說明】前7行是注釋語句(即用“*”開頭),第8和第9行為例1的數(shù)據(jù),即現(xiàn)在是計算例1中的數(shù)據(jù)。若希望計算例2中的數(shù)據(jù),就需要用第3和第4行替換第8和第9行(應(yīng)刪除開頭的“*”);若希望計算例3中的數(shù)據(jù),就需要用第5和第6行替換第8和第9行(應(yīng)刪除開頭的“*”)。
【SAS主要輸出結(jié)果及解釋】
以上為例1的輸出結(jié)果,因例1屬于“下單側(cè)檢驗問題”。下單側(cè)檢驗結(jié)果的判定:若z<za,則接受(H1:λ1<λ2);否則,就接受(H0:λ1≥λ2);PL為下單側(cè)概率。又因z=-1.96580<-1.64485,故P=0.024661<0.05,應(yīng)拒絕零假設(shè),而接受備擇假設(shè),即可以認(rèn)為,在總體上,卒中后早發(fā)性癲癇人數(shù)少于遲發(fā)性癲癇人數(shù)。
以上為例2的輸出結(jié)果,因例2屬于“上單側(cè)檢驗問題”。上單側(cè)檢驗結(jié)果的判定:若z>z1_a,則接受(H1:λ1>λ2);否則,就接受(H0:λ1≤λ2);PU為上單側(cè)概率。又因z=4.63184>1.64485,故P=0.000001812<0.05,應(yīng)拒絕零假設(shè),而接受備擇假設(shè),即可以認(rèn)為,在總體上,卒中后早發(fā)性癲癇患者中男性人數(shù)多于女性人數(shù)。
以上為例3的輸出結(jié)果,因例3屬于“雙側(cè)檢驗問題”。雙側(cè)檢驗結(jié)果的判定:若z<zha或z>z1_ha,則接受(H1:λ1≠λ2);否則,就接受(H0:λ1=λ2);PT為雙側(cè)概率。又因,故P=0.10476>0.05,應(yīng)接受零假設(shè),即可以認(rèn)為,在總體上,卒中后早發(fā)性癲癇人數(shù)與遲發(fā)性癲癇人數(shù)相等。
服從Poisson分布的隨機(jī)變量屬于離散型隨機(jī)變量,其取值為0、1、2等,這樣的隨機(jī)變量及其取值一同被稱為“計數(shù)資料”。本文通過將兩個服從Poisson分布的“計數(shù)數(shù)據(jù)”直接代入公式計算,其中每一個計數(shù)數(shù)據(jù)都被視為特定條件下的一個“均值”,就可獲得檢驗統(tǒng)計量的數(shù)值,這樣的“計數(shù)數(shù)據(jù)”與“家庭人口數(shù)”“脈搏次數(shù)/分鐘”等的“計數(shù)資料”似乎是完全一樣的,但當(dāng)沒有理由認(rèn)為后者是服從Poisson分布時,是不能僅依據(jù)兩個“計數(shù)數(shù)據(jù)”就進(jìn)行假設(shè)檢驗的,而需要將它們視為“計量資料”,在求得“平均值”或“平均秩”后,再采取相應(yīng)的統(tǒng)計分析方法進(jìn)行假設(shè)檢驗。
本文結(jié)合3個實例,介紹了兩Poisson均值比較的三種Z檢驗及SAS實現(xiàn)。在統(tǒng)計學(xué)上,一般按“備擇假設(shè)”所決定的“方向(大、小順序)”來確定“上單側(cè)檢驗”“下單側(cè)檢驗”或“雙側(cè)檢驗”。當(dāng)備擇假設(shè)為“A<B”時,就是“下單側(cè)檢驗(拒絕域位于概率分布曲線下的左側(cè)尾端)”;當(dāng)備擇假設(shè)為“A>B”時,就是“上單側(cè)檢驗(拒絕域位于概率分布曲線下的右側(cè)尾端)”;當(dāng)備擇假設(shè)為“A≠B”時,就是“雙側(cè)檢驗(對關(guān)于坐標(biāo)原點(diǎn)對稱分布而言,拒絕域位于概率分布曲線下的左、右兩尾端,例如標(biāo)準(zhǔn)正態(tài)分布和t分布。而對僅取零和正值的非對稱分布而言,拒絕域位于概率分布曲線下的左側(cè)或右側(cè),例如Poisson分布、F分布、χ2分布等)。