林存津,曹小雙,李開燦
(湖北師范學院 數(shù)學與統(tǒng)計學院,湖北 黃石 435002)
列行比值之差的可壓縮性
林存津,曹小雙,李開燦
(湖北師范學院 數(shù)學與統(tǒng)計學院,湖北 黃石 435002)
在高維列聯(lián)表中,列(行)比值的差是度量變量關聯(lián)性的一種有用的測度,利用嚴格的條件概率的性質,對高維列聯(lián)表中關于隨機變量間的關聯(lián)測度列(行)比值的差的可壓縮性進行討論,分別給出了這兩個關聯(lián)測度強可壓縮性的充分必要條件.
列比值的差;行比值的差;可壓縮性
隨著數(shù)理統(tǒng)計的廣泛應用,屬性數(shù)據(jù)的研究越來越被統(tǒng)計界重視. 屬性數(shù)據(jù)研究的一個方面是高維列聯(lián)表的分析. 然而,有時由于統(tǒng)計數(shù)據(jù)的缺少,不得不對高維列聯(lián)表各變量進行壓縮,如果舍棄背景變量,可能使得它發(fā)生實質性的變化,這被稱為Simpson悖論[1]. 可壓縮性就是解決該悖論的重要手段之一.
人們通過引進各種關聯(lián)測度,從它們的大小和方向來描述隨機變量間的相關程度. 許多研究者對高維列聯(lián)表中的關聯(lián)測度可壓縮性的條件進行了討論,如耿直研究了相對風險和線性模型關聯(lián)測度的可壓縮性[2,3]. 由于相對風險和線性模型關聯(lián)測度并不是研究屬性數(shù)據(jù)僅有的關聯(lián)測度. 為此,受耿直的影響,李開燦研究了輔助交互作用的強可壓縮性[4]和混合導數(shù)測度的可壓縮性[5],郭建華研究了對數(shù)回歸系數(shù)可壓縮性、Yule測度可壓縮性、差積比強可壓縮性和輔助交互作用連續(xù)可壓縮性[6~9],馬中民研究了相依分布可壓縮性[10].
從文獻[11]第2章第2節(jié)的知識知道,列(行)比值的差也是十分重要的關聯(lián)測度,由于列(行)比值的差在醫(yī)學等調(diào)查數(shù)據(jù)的列聯(lián)表分析中具有廣泛的應用,因此本文研究其強可壓縮性的充分必要條件.本文在第1節(jié)首先給出必要的定義與記號,第2節(jié)給出列(行)比值的差在高維表中強可壓縮性的充分必要條件,第3節(jié)對本文做了簡短的總結.
考慮由離散型隨機變量V1,V2和V3組成的I×J×K維列聯(lián)表,令pijk=P(V1=i;V2=j;V3=k),并假設所有的pijk為正. 令pij+=∑kpijk. 條件概率記為pij|k=pijk/p++k.V1⊥V2表示“隨機變量V1和V2獨立”,即pij=pi+p+j對任意的i,j都成立;V1⊥V2|V3表示“給定V3條件下V1和V2條件獨立”,即pij|k=pi+|kp+j|k對任意的i,j,k都成立.
定義1 在I×J×K維列聯(lián)表中,記
分別稱fi(k),gj(k)為V1對V2關于V3的一組列(行)比值的差. 當I×J×K表沿V3壓縮成為I×J維邊緣表后,V1對V2的列(行)比值的差分別是
令Γ={1,2,…,K} 表示V3的分類水平的集合,ω為Γ中的某一子集. 將ω中的所有分類水平合并,得到一個部分邊緣表,簡稱為偏表. 這個偏表中的聯(lián)合概率記為pijω=∑k∈ωpi+j+k,條件概率記為
pij|ω=pijω/∑k∈ωpi+j+k
定義2 在I×J×K維列聯(lián)表中,若fi(k)=fi(k′)對一切i,k≠k′成立稱fi(k)關于V3是一致的,當列比值的差fi(k)在V3上是一致時,記該公共值為fi(0);又若fi(k)=fi(+)對一切i,k成立,稱fi(k)關于V3是簡單可壓縮的. 而當Γ={1,2,…,K} 中對任一子集ω有fi(ω)=fi(+)時對一切i,ω成立,稱fi(k)關于V3是強可壓縮的. 其中
同理定義行比值的差gj(k)關于V3的簡單可壓縮性和強可壓縮性. 由于行比值的差與列比值的差有類似的性質,下面我們先研究列比值的差的簡單可壓縮性和強可壓縮性并且給出其充分必要條件.
從定義2可知,如果列比值的差fi(k)是簡單可壓縮的,那么我們能在合并背景V3而得到的邊緣表上有效地研究它們. 然而簡單可壓縮性的定義與背景的分類有關,它并不能保證列比值的差在合并部分水平的偏表上也保持不變. 為此,我們引入了列比值的差的強可壓縮性. 具體來說,強可壓縮性是指列比值的差在任意合并若干個背景變量的水平得到的偏表上都保持不變,即意味著不管如何改變背景變量的壓縮順序和背景變量的度量或分類都不會影響相關測度.
定理1 在I×2×K列聯(lián)表中,列比值的差fi(k)關于V3是強可壓縮的充要條件是列比值的差fi(k)在V3上是一致的且V2⊥V3.
故對任意的非空子集ω?Γ,有
由列比值的差fi(k)在V2上是一致的可得
故fi(k)=fi(ω). 此時對任意的非空子集ω?Γ,有fi(ω)=fi(0),即fi(ω)在V3上是一致的.
已知列比值的差fi(k)在V3上是一致的且V2⊥V3,要證任意的ω?Γ,總有fi(ω)=fi(0). 選ω′,使ω∪ω′=Γ,則p++ω+p++ω′=1,則有
再證必要性,由列比值的差fi(k)關于V3的強可壓縮性定義知,fi(k)在V3上是一致的,且存在ω1,ω2?Γ,使得fi(ω1)=fi(ω2)=fi(+),其中ω1∪ω2=Γ.
整理得p+2ω1p+2+(pi1ω1p+1ω2-pi1ω2p+1ω1)=p+1ω1p+1+(pi2ω1p+2ω2-pi2ω2p+2ω1)
則有
(1)
其次,當fi(ω2)=fi(+)時,同(1)的證明過程,有
(2)
因此,由等式(1)(2)可得,
(3)
又p+1ω1+p+2ω1=p++ω1,p+2ω2=p+2+-p++ω1+p+1ω1,p+1ω1+p+1ω2=p+1+
p+2ω1+p+2ω2=p+2+,p+1ω2+p+2ω2=p++ω2,p+2ω1=1-p++ω2-p+1++p+1ω2
整理可得對任意的j=1,2,ω=ω1,ω2,有p+j ω=p+j+p++ω,當取遍滿足ω1∪ω2=Γ的所有子集ω1和ω2時,則對任意的j,ω,有p+jω=p+j+p++ω故對任意的j=1,2,k=1,2,…,K,有p+jk=p+j+p++k,即V2⊥V3.
以上我們已經(jīng)得出列比值的差強可壓縮性的充分必要條件,從定理可以知道,給出的條件是有關獨立性的問題. 但是,有時我們不從獨立性方向考慮問題,而是從列比值的差的定義直接研究其強可壓縮性的充分必要條件,那么下面先給出命題.
命題1 對任意的ω?Γ和任意的i,有
證 對任意的ω?Γ,由定義知
定理2 下列陳述等價:
1)列比值的差fi(k)是強可壓縮的; 2)列比值的差fi(k)一致且V2⊥V3;
3)列比值的差fi(k)一致且對任意的ω?Γ,有μk(ω)=1,vi(ω)=0.
證 由定理1可知1)和2)等價; 2)推出 3)顯然;由命題1可知3)能推出1). 行比值的差與列比值的差有著類似的性質,下面我們可以給出行比值的差強可壓縮性充要條件.
定理3 對名義背景變量V3,下列陳述等價:
1)行比值的差gj(k)是強可壓縮的; 2)行比值的差gj(k)一致且V1⊥V3.
3)行比值的差gj(k)一致且對任意的ω?Γ,μk(ω)=1,vj(ω)=0.
定理3中記號μk(ω)和vj(ω)與定理2中的記號μk(ω)和vi(ω)有著類似的定義,即
本文引入了列(行)比值的差簡單可壓縮性和強可壓縮性的定義,并證明了在高維表中列(行)比值的差強可壓縮性的充分必要條件. 雖然該結果還沒有推廣到更一般的情形,但我們的結果表明,這些結論在理論和實際中也有很大的用處. 我們知道,對于多種背景變量的分類準則,它們可能得到不同的結果. 簡單可壓縮性合并成一個較粗的水平,但簡單可壓縮性在合并后的粗水平間是有差別,而在粗水平內(nèi)無差別. 針對以上陳述,強可壓縮性就可作為名義背景重新分類的準則. 事實上,本文還未給出在有序背景變量下關聯(lián)測度連續(xù)可壓縮性的條件,由于人們在實際中常常喜歡合并背景的鄰近水平,因此連續(xù)可壓縮性是值得研究的課題.
[1]Simpson E H. The interpretation of interaction in contingency tables[J]. J R Statist Soc B,1951,13:238~241.
[2]Geng Z. Collapsibility of relative risk in contingency tables with a response variable[J]. J R Statist Soc B, 1992,54:585~593.
[3]Geng Z. Strong collapsibility of assciation measure in linear model[J]. J R Statist Soc B, 1993,55.
[4]李開燦. 列聯(lián)表輔助交互作用的可壓縮性[J]. 應用概率統(tǒng)計,1998,14(2):173~176.
[5]李開燦,耿 直. 混合導數(shù)測度的性質及其應用[J]. 應用概率統(tǒng)計. 2003(02):187~192.
[6]Guo J H, Geng Z. Collapsibility of logistic regression coefficients[J].J R Statist Soc B, 1995,57:263-267.
[7]郭建華,耿 直,史寧中. Yule測度的可壓縮性[J]. 中國科學,2001,31(4):324~331.
[8]Guo J H, Geng Z, Fung W K. Consecutive collapsibility of odds ratios over an ordinal background variable[J]. Journal of multivariate analysis, 2001,79(1): 89~98.
[9]郭建華,馬文卿. 輔助交互作用的有序可壓縮性[J]. 應用概率統(tǒng)計,2001,17(1):39~43.
[10]Ma Z, Xie X, Geng Z. Collapsibility of distribution dependence[J]. J R Statist Soc B, 2006,68(1):127~133.
[11]Bishop Y M M.離散多元分析: 理論與實踐[M]. 張堯庭,譯. 北京:中國統(tǒng)計出版社,1998.
[12]Cox D R, Wermuth N. A general condition for avoiding effect reversal after marginalization[J]. J R Statist Soc B, 2003,65(4):937~941.
[13]Yule G U. Notes on the theory of association of attributes in statistics[J]. Biometrika, 1903,2(2):121~134.
Collapsibilityofthedifferenceofcolumnratio(thedifferenceoflineratio)
LIN Cun-jin, CAO Xiao-shuang, LI Kai-can
(College of Mathematics and Statistics, Hubei Normal University,Huangshi 435002,China)
The difference of column ratio and the difference of line ratio are useful measures for measure association of variables in high dimensional contingency table. In this paper,we discuss the collapsibility of the difference of column ratio and the difference of line ratio by using the properties of conditional probability strictly,and present the necessary and sufficient conditions for strong collapsibility of the association measures of random variables.
the difference of column ratio;the difference of line ratio;collapsibility
2014-05-01
國家自然科學基金資助項目( 11071022),湖北省教育廳重點項目( D20112503)
林存津( 1989— ),男,福建福州人,碩士研究生,研究方向為離散多元分析.
O212.4
A
1009-2714(2014)04- 0059- 04
10.3969/j.issn.1009-2714.2014.04.013