朱 凱 李 悅 劉偉新
醫(yī)學(xué)上有些資料是用角度、季節(jié)或晝夜時(shí)間表示的,如心電向量的電軸、子宮頸口潰瘍的位置、疾病發(fā)作時(shí)間、嬰兒出生時(shí)刻等,這類用角度或時(shí)間表示的數(shù)據(jù)往往有周期性,形成圓形分布資料〔1〕。一組圓形分布資料,若有集中于某個(gè)時(shí)間或位置發(fā)生的傾向,則這一傾向可用平均角表示其集中位置。圓形統(tǒng)計(jì)分析的變量值是角度,所以作圓形統(tǒng)計(jì)分析時(shí),計(jì)算平均角時(shí)需將非角度表示的原始數(shù)據(jù)轉(zhuǎn)換為角度資料,令αi表示 α1,α2,…,αn角,ˉα 表示樣本平均角,是總體角均數(shù)的估計(jì)值。平均角的計(jì)算方法如下〔1〕:X=(∑
然而圓形分布的傳統(tǒng)統(tǒng)計(jì)分析方法雖然能計(jì)算樣本的平均角、估計(jì)角度的標(biāo)準(zhǔn)差,但由于無(wú)法獲知平均角的確切分布故難以求出平均角的置信區(qū)間。因此本文引入Bootstrap非參數(shù)方法,利用大量的隨機(jī)模擬求出平均角的置信區(qū)間。
Bootstrap方法計(jì)算平均角的置信區(qū)間主要操作步驟:
1.根據(jù)實(shí)際觀察到的原數(shù)據(jù)建立一個(gè)原始數(shù)據(jù)樣本,含有n個(gè)觀察值;
2.自原始數(shù)據(jù)樣本 x=(x1,x2,…,xn)按有放回抽樣的方法,抽得容量為n的樣本x*=)(簡(jiǎn)稱為Bootstrap樣本);
3.相繼地、獨(dú)立地求出k個(gè)(k≥1000)容量為n的樣本,i=1,2,…,k。對(duì)于第i個(gè)Bootstrap樣本,按圓形分布資料方法計(jì)算平均角,,i=1,2,…,k(稱為 θ的第i個(gè)Bootstrap估計(jì));
現(xiàn)有某市492例精神分裂癥患者復(fù)發(fā)發(fā)生時(shí)間,列于表1,欲估計(jì)復(fù)發(fā)時(shí)間的平均高峰角及平均高峰角的可信區(qū)間(α =0.95)〔3〕。
對(duì)該數(shù)據(jù)求平均發(fā)病時(shí)間的可信區(qū)間。每個(gè)Bootstrap樣本含量n取492例。由文獻(xiàn)〔2〕可知,重復(fù)10000次以上即可以得到相當(dāng)好的估計(jì)。由于matlab軟件執(zhí)行效率較高,此處重復(fù)抽樣100000次(k=100000)。每次抽樣后得到一個(gè)圓形分布平均角,所以全部抽樣完成后,一共能得到100000個(gè)平均角。對(duì)這100000個(gè)平均角由小到大排序后,找出2.5%和97.5%百分位數(shù),從而得到平均角的95%的可信區(qū)間。對(duì)于Bootstrap方法計(jì)算平均角的可信區(qū)間,筆者編寫了Matlab程序?qū)崿F(xiàn)。程序如下,通過運(yùn)行該程序,得到了平均角的點(diǎn)估計(jì)值為42.18,95%的可信區(qū)間為(31.41,52.95)。
表1 492例精神分裂癥患者復(fù)發(fā)發(fā)生時(shí)間表
a=[609054533125241822283552];%數(shù)據(jù)錄入
在總體分布未知,沒有合適公式估計(jì)統(tǒng)計(jì)量或進(jìn)行統(tǒng)計(jì)推斷時(shí),可以使用Bootstrap抽樣來(lái)進(jìn)行參數(shù)或非參數(shù)估計(jì)。在應(yīng)用Bootstrap方法進(jìn)行圓形分布資料平均角區(qū)間估計(jì)時(shí)需注意如下幾個(gè)問題:
1.使用Bootstrap方法前須用Rayleigh’s test對(duì)圓形分布數(shù)據(jù)進(jìn)行檢驗(yàn),以確保數(shù)據(jù)分布具有集中傾向〔4〕;
2.由于Bootstrap樣本是在原數(shù)據(jù)中抽樣獲得的,如果已知樣本含量太小,Bootstrap樣本中重復(fù)抽得的數(shù)據(jù)就會(huì)增多,從而引起計(jì)算誤差,故原數(shù)據(jù)中的樣本含量應(yīng)盡量大;
3.模擬誤差來(lái)源于從Monte Carlo模擬抽樣。理論上,無(wú)限次的模擬將會(huì)完全消除模擬誤差,但顯然這是不可能也沒有必要的。因此確定模擬誤差足夠小并且計(jì)算可行的Bootstrap抽樣次數(shù)是有效控制模擬誤差的必要程序;
4.由于程序運(yùn)行中要用到隨機(jī)數(shù),因此最終的結(jié)果有一定的誤差,因此建議多次反復(fù)運(yùn)行程序,待結(jié)果相對(duì)穩(wěn)定時(shí)再下結(jié)論。
1.陸守曾.醫(yī)學(xué)統(tǒng)計(jì)學(xué).北京:中國(guó)統(tǒng)計(jì)出版社,2002,264-268.
2.盛驟等.概率論與數(shù)理統(tǒng)計(jì).北京:高等教育出版社,2008,270-279.
3.田考聰.描述性統(tǒng)計(jì)分冊(cè).北京:人民衛(wèi)生出版社,2004,108-110.
4.張圣勤.MATLAB教程及實(shí)訓(xùn).北京:機(jī)械工業(yè)出版社,2008,118-125.
5.蔡雪亞,金丕煥,曹素華.用Bootstrap方法計(jì)算中位數(shù)的可信區(qū)間.中國(guó)衛(wèi)生統(tǒng)計(jì),2002,19(3):185-186.