董曉芳, 張良勇
(河北經貿大學 數(shù)學與統(tǒng)計學學院,河北 石家莊050061)
排序集抽樣(Ranked set sampling,RSS)方法是澳大利亞農業(yè)學家McIntyre[1]在估計農場牧草產量時提出的,已被廣泛應用到臨床醫(yī)學、系統(tǒng)可靠性、管理工程、生態(tài)環(huán)境等領域[2~7]。排序集樣本不僅包含了樣本信息,還包含了次序信息,在實際中只要感興趣的樣本不易具體測量,但較容易直觀排序時,RSS方法比簡單隨機抽樣(Simple random sampling,SRS)方法更加有效。例如,Risch和Zhang[2]在《Science》上論證了對配對親屬進行RSS,遺傳相關性試驗效率能得到顯著地提高。
指數(shù)分布在可靠性試驗中占有非常重要的地位,它可以很好地用來描述某些電子元器件的壽命[8]。產品可靠度是描述產品可靠性的重要度量指標[9]。若產品壽命T服從指數(shù)分布,t0表示規(guī)定的時間,則T的可靠度為
其中θ為未知參數(shù)。近年來,一些學者研究了RSS下R(t0)的估計問題。El-Neweihi和Sinha[10]首次指出RSS樣本單元T(i)j可看作可靠性工程中表決系統(tǒng)i/m(F)的壽命時間,并利用此關系構造了RSS下R(t0)的無偏估計量。Ghitany[11]進一步證明了文獻[10]的RSS無偏估計量一致優(yōu)于SRS下相應估計量,但通過舉例指出文獻[10]中最優(yōu)估計量的方差并不是最小的。Sinha等[12]利用RSS樣本的次序統(tǒng)計量構造了R(t0)的無偏估計量,并分析了其統(tǒng)計性質。
文獻[10~12]均通過比較RSS下估計量與SRS下相應估計量的估計效率,證明了RSS方法的高效率性。但是,這些文獻都是采用RSS經驗分布函數(shù)來構造可靠度的估計量。我們知道當總體分布已知時,極大似然估計是尋求點估計的最重要方法,應用很廣[9]。針對指數(shù)分布可靠度的估計問題,本文研究基于RSS方法的MLE及其修正估計,分析它們的統(tǒng)計性質,并進行估計效率的理論比較和實際應用比較。
本節(jié)分析RSS下R(t0)的MLE及其漸近分布。首先簡要介紹RSS方法的抽樣過程及其樣本特點。
RSS方法的具體抽樣過程為:
第一步,從總體中抽取樣本量為m2的簡單隨機樣本,隨機劃分為m組,每組m個;
第二步,利用直觀感知的信息對每組樣本進行由小到大的排序,這些信息包括專家觀點、主觀經驗判斷以及一些易于獲得的信息,但不包括與所推斷量有關的具體測量;
第三步,從第i個排序小組中抽出次序為i的樣本單元,i=1,2,…,m。
以上整個過程稱為一次循環(huán),為了增大樣本量,循環(huán)重復k次。若令T(i)j表示在第j次循環(huán)中從第i組中抽出次序為i的樣本單元,則排序集樣本表示為:
最終只對這n=mk個樣本單元進行實際測量。排序集樣本的顯著特點有:(i)排序集樣本單元之間相互獨立;(ii)每一行的樣本單元之間獨立同分布;(iii)每一列都包含了各個秩次的信息。
令產品壽命T的分布函數(shù)和概率密度函數(shù)分別為F(t)=1-e-t/θ和f(t)=e-t/θ/θ。令T(i)j,i=1,2,…,m;j=1,2,…,k為抽自的排序集樣本,則T(i)j的概率密度函數(shù)為
顯然,T(i)j的分布與j無關。
由式(2),RSS下θ的似然函數(shù)為
(3),RSS下θ的對數(shù)似然函數(shù)為
下面定理證明了(t0)的存在性和唯一性。
定理1對于任意給定的小組數(shù)m、循環(huán)次數(shù)k和規(guī)定時間t0,(t0)存在且唯一。
證明根據(jù)式(5),得
令IRSS(θ)表示RSS下θ的Fisher信息。由Chen等[13]可知,指數(shù)分布的次序統(tǒng)計量滿足Fisher信息的常規(guī)條件,于是IRSS(θ)存在。再根據(jù)T(i)j,j=1,2,…,k的獨立同分布性和式(5),得
式(9)中=t(i)1/θ表示標準指數(shù)分布的RSS樣本單元。
定理2對于給定的小組數(shù)m和規(guī)定時間t0,當n→∞(k→∞)時,有
證 明漸 近 正 態(tài) 性 的 證 明 可 以 通 過dlnL(θ)/dθ的泰勒級數(shù)展開式和中心極限定理來實現(xiàn),采用的方法與SRS方法相似,這里就不再詳述。再根據(jù)式(9)和(10)的漸近方差為
定理得證。
根據(jù)文獻[13]中定理3.8的推論,我們可以得到下面引理。
引理1若φ=φ(θ)是θ的一個可導函數(shù),且關于θ具有漸近正態(tài)性。則φ()關于φ(θ)具有漸近正態(tài)性,且其漸近方差為(θ)[dφ(θ)/dθ]2。
下面定理證明了(t0)的漸近正態(tài)性。
定理3對于給定的小組數(shù)m和規(guī)定時間t0,當n→∞(k→∞)時,有
再將式(15)及式(12)的第二個等式代入式(16)即可得式(14)。定理得證。
顯然,式(17)很難求出顯式解。為了解決這一問題,下面我們采用Mehrotra和Nanda[14]的部分期望法對MLE進行修正。
令Ti,i=1,2,…,n為抽自T的簡單隨機樣本。由茆詩松等[15]知,SRS下θ的MLE為,其中n。這樣,SRS下R(t0)的MLE為
下面定理證明了0)的漸近正態(tài)性,并給出其漸近方差。
定理4對于給定的小組數(shù)m和規(guī)定時間t0,當n→∞時,有
證明由文獻[15]可知,SRS下θ的Fisher信息ISRS(θ)=n/θ2,并且當n→∞時,有(-θ)N(0,θ2)。再由文獻[13]知,引理1對于SRS方法依然成立。于是(t0)具有漸近正態(tài)性,且(t0)的漸近方差為
定理得證。
上式中最后等式是由式(14)和(23)所得。由式(11)知,ARE((t0),(t0))僅與小組數(shù)m有關。
表1給出了當m=2,3,4,…,10時ARE((t0),(t0))的取值??梢钥闯鰉,對于任意給定的,ARE((t0),(t0))>1,這 說 明(t0)的估計效率一致高于(t0),并且隨著m的增大(t0)的相對優(yōu)勢越明顯。
表1 (t0)與(t0)的漸近相對效率
表1 (t0)與(t0)的漸近相對效率
m 2 3 4 5 6 7 8 9 10 ARE 1.4041 1.8082 2.2123 2.6165 3.0206 3.4247 3.8288 4.2329 4.6370
為了比較(t0)與(t0)的估計效率,我們進行了計算機模擬,模擬次數(shù)為10000次。一個估計量的偏差和均方誤差分別定義為
(t0)與(t0)的模擬相對效率(Simulation relative efficiency,SRE)定義為它們均方誤差比的倒數(shù),即
表2給出了當k=10、m=3,5,8、θ=0.5,1,2和t0=0.5θ,θ,2θ時(t0)與(t0)的偏差和相對效率??梢钥闯?,對于任意給定的m、θ和t0,|B((t0))|均小于|B((t0))|,并且SRE((t0)(t0))>1,這些說明(t0)一致優(yōu)于(t0)。另外,對于任意給定的θ和t0,SRE((t0),(t0))隨著m的增加而增大。實際上,我們對于m=2,3,4,…,10、θ=0.5,1,1.5,…,3和t0=0.5θ,0.6θ,0.7θ,…,2θ都進行了模擬,結果均與表2一致。
表2 (t0)與(t0)的模擬偏差和模擬相對效率
表2 (t0)與(t0)的模擬偏差和模擬相對效率
m θ t0 B(R^MMLE,SRS(t0)) B(R^MMLE,RSS(t0)) SRE(R^MMLE,RSS(t0)),R^MLE,SRS(t0))3 0.5 0.5θ -0.00790 -0.00457 1.85320 θ-0.00676 -0.00334 1.79489 2θ -0.00026 -0.00011 1.73452 1 0.5θ -0.00722 -0.00403 1.73919 θ-0.00654 -0.00278 1.76729 2θ -0.00027 0.00023 1.68713 2 0.5θ -0.00787 -0.00447 1.85541 θ-0.00611 -0.00305 1.77283 2θ 0.00043 -0.00001 1.73716 5 0.5 0.5θ -0.00512 -0.00164 2.68006 θ-0.00442 -0.00167 2.48937 2θ -0.00008 0.00003 2.56475 1 0.5θ -0.00409 -0.00144 2.56489 θ-0.00344 -0.00141 2.46309 2θ -0.00010 0.00003 2.47106 2 0.5θ -0.00425 -0.00227 2.62846 θ-0.00371 -0.00161 2.48012 2θ 0.00007 -0.00005 2.44036 8 0.5 0.5θ -0.00281 -0.00079 3.74360 θ-0.00189 -0.00055 3.71482 2θ -0.00039 0.00033 3.47553 1 0.5θ -0.00341 -0.00091 3.77391 θ-0.00253 -0.00092 3.73931 2θ -0.00009 0.00000 3.63831 2 0.5θ -0.00351 -0.00043 3.84700 θ-0.00189 -0.00080 3.77170 2θ -0.00002 0.00000 3.55154
本節(jié)將排序集抽樣方法應用到臨床醫(yī)學研究中,我們采用Royston等[16]給出的醫(yī)學研究委員會RE01轉移性腎癌試驗數(shù)據(jù)。RE01試驗給出了323名腎癌病人的緩解時間(月),并已證實緩解時間服從參數(shù)θ=22的指數(shù)分布。為了比較(t0)與(t0),我們把所有病人的緩解時間作為總體。由于總體單元數(shù)不多,我們取排序小組數(shù)m=3,4,5,循環(huán)次數(shù)k=5,RSS方法和SRS方法都采用放回式抽樣,抽樣次數(shù)為20次。表3和表4分別給出了樣本量n=15(m=3)的一次排序集樣本值和一次簡單隨機樣本值。
表3 排序集抽樣下轉移性腎癌病人的緩解時間(月)
表4 簡單隨機抽樣下轉移性腎癌病人的緩解時間(月)
表5給出了當m=3,4,5(n=15,20,25)和t0=11,22,44時(t0)與(t0)的偏差和均方誤差??梢钥闯鰧τ诮o定的m和t0,|B((t0))|小于|B((t0))|,且MSE((t0))小于MSE((t0))。另外對于給 定 的t0,MSE((t0))/MSE((t0))隨著m(n)的增加而增大,即RSS相對于SRS的優(yōu)勢越明顯。應用結果進一步驗證了(t0)優(yōu)于(t0)。
表5 轉移性腎癌數(shù)據(jù)中S(t0)與(t0)的偏差和均方誤差
表5 轉移性腎癌數(shù)據(jù)中S(t0)與(t0)的偏差和均方誤差
m n t0 B(R^MLE,SRS(t0)) B(R^MMLE,RSS(t0)) MSE(R^MLE,SRS(t0)) MSE(R^MMLE,RSS(t0))3 15 11 -0.02030 -0.01498 0.00723 0.00540 22 -0.01631 -0.01203 0.00871 0.00608 44 0.00185 -0.00084 0.00448 0.00202 4 20 11 -0.01264 -0.01105 0.00510 0.00222 22 -0.00768 0.00734 0.00664 0.00399 44 0.00145 -0.00049 0.00333 0.00109 5 25 11 -0.01645 -0.00959 0.00398 0.00169 22 -0.00775 -0.00280 0.00531 0.00227 44 0.00092 -0.00071 0.00273 0.00089
針對指數(shù)分布產品可靠度的估計問題,本文研究了RSS下可靠度的MLE及其漸近分布,并給出帶有具體表達式的修正MLE。漸近相對效率和模擬相對效率的研究結果均表明:RSS下MLE和修正MLE的估計效率都一致高于SRS下MLE。臨床醫(yī)學的實際應用結果進一步驗證了理論研究結果的正確性。另外,在實際應用RSS方法時,為了減少排序誤差,我們可以參考文獻[17]進行排序。