楊元啟
摘 要:分類數(shù)據(jù)是定性數(shù)據(jù),有別于定量數(shù)據(jù),在數(shù)學上不易進行處理分析。本文對分類數(shù)據(jù)的顯著性檢驗問題做了一些討論。主要介紹了分類數(shù)據(jù)的X2-檢驗和似然比檢驗。
關鍵詞:分類數(shù)據(jù);定性數(shù)據(jù); X2-檢驗;似然比檢驗
生活中存在著大量的數(shù)據(jù),類型可分為定量數(shù)據(jù)和定性數(shù)據(jù)。定量數(shù)據(jù)常見于計量、計數(shù)等,易于用數(shù)學的方法處理分析;但生活中仍有許多不可量化的數(shù)據(jù),如表示事物性質、規(guī)定事物類別的文字表述型數(shù)據(jù),將其統(tǒng)稱為定性數(shù)據(jù)。對定性數(shù)據(jù)的研究,有時作純定性研究,沒有或缺乏數(shù)量分析,其結論往往具有概括性和較濃的思辨色彩;為便于作定量分析,還得將這些數(shù)據(jù)合理量化,并建立相應的統(tǒng)計模型。
定性數(shù)據(jù)有時只表示事物的屬性,如人的性別,婚姻狀況,物體的顏色、形狀。我們常用數(shù)"0"和"1"來表示其屬性的分類。而有些事物的屬性有一個順序關系,如人的文化程度由低到高可分為文盲、小學、初中、高中、中專和大專、大學等5類。用數(shù)0,1,2,3和4分別表示文盲,小學,初中,高中,中專和大專,大學。有如顧客對某商場營業(yè)員服務態(tài)度的評價分為"滿意"、"一般"、"不滿意"三類,可分別用"3"、"2"、"1"表示。這些數(shù)只起一個順序作用,這一類數(shù)據(jù)稱為有序定性數(shù)據(jù),簡稱有序數(shù)據(jù)。
本文將對分類數(shù)據(jù)的顯著性檢驗問題做一些討論。主要介紹分類數(shù)據(jù)的 -檢驗和似然比檢驗。
分類數(shù)據(jù)的顯著性檢驗一般有如下提法。
設總體的某個指標數(shù)據(jù)被分為r類:A1,…Ar。根據(jù)相關理論,或從經(jīng)驗出發(fā)提出了一個原假設:
H■:類A■所占的比例為P■=P■(i=1,…,r)
其中:P■,i=1,…,r,■P■=1為已知的r個數(shù)。對該總體進行n次獨立重復觀察,每次觀察一個個體,看它屬于哪一類。此時,個體的觀察值不是數(shù),而是事物的屬性。
設n個個體中屬于Ai類的觀察個數(shù)為n■i=1,…,r。顯然,■n■=n?;谟^察值n■i=1,…,r對原假設H■進行檢驗。
1 分類數(shù)據(jù)的X2-檢驗
如果原假設H■成立,則n個個體中屬于Ai類的"期望個數(shù)"為np■■i=1,…,r。ni與np■■分別稱為屬于Ai類的實際頻數(shù)與期望頻數(shù)。當原假設H■成立時,對每一個i=1,…,r,實際頻數(shù)ni都應該接近于期望頻數(shù)np■■。用皮爾遜(Pearson)統(tǒng)計量X■=■■來作為衡量實際頻數(shù)n■,…,n■與期望頻數(shù)np■,…,np■ ∞的偏差的綜合指標,分子說明實際頻數(shù)與期望頻數(shù)的差異,將其差平方是為累加差異。平方項除以期望頻數(shù),是給以權數(shù),體現(xiàn)"相對性",當然也與統(tǒng)計量的漸進分布有關。
如果原假設H■成立, X2統(tǒng)計量的值應該比較小,若X2統(tǒng)計量的值比較大,說明實際頻數(shù)與期望頻數(shù)的差異較大,應該拒絕原假設H■。衡量統(tǒng)計量X2必須有一個臨界值。皮爾遜證明了,在原假設H■成立時,該統(tǒng)計量的漸進分布為X2(r-1)分布,它的自由度為類別個數(shù)r減去1。記X21-a(r-1)為自由度為r-1的X2分布的(下側)1-a分位數(shù),則事件"x■≥x■■r-1"發(fā)生的概率為a。a是顯著性水平,一個很小的數(shù)。這說明,"x■≥x■■r-1"是一個小概率事件,小概率事件在一次實驗中不大可能發(fā)生,如果發(fā)生了我們可以做出"拒絕原假設H0" 的判斷。拒絕原假設時,可能會犯"棄真"的錯誤,其概率不超過a。因此顯著性水平為a的X2-檢驗的拒絕域為x■≥x■■r-1,其中,x■■r-1是自由度為r-1的X2分布的上側a-分位數(shù)。
也可以通過計算P值完成檢驗的程序。P值等于自由度為r-1的X2變量大于等于X2統(tǒng)計量值的概率:P(X2(r-1)≥X2)。如果a≥P值,則在水平a下拒絕原假設H0;如果a
2 分類數(shù)據(jù)的似然比檢驗
分類數(shù)據(jù)的檢驗問題也可以用統(tǒng)計中常用的似然比檢驗方法。觀察值ni(i=1,…,r)服從多項分布M(n,p1,…,pr),其分布律為pn■,…,n■=■p■■…p■■,■n■=n。
記n■,…,n■~Mn,p■,…p■ 。若r=2,則Mn,p■,p■=B(n,p1),即二項分布。故n1,n■~Mn,,p■,p■等價于n■~bn,p■ ,或等價于n■~bn,p■ 。
對M(n,p1,…,pr),觀測值n■,…,n■的似然函數(shù)為LP■,…,P■=■p■■…p■■,將P■,…,P■看作變量,注意到■■p■■…p■■=1,因而對似然函數(shù)而言,可以略去也可以添上與參數(shù)P■,…,P■無關的任意一個因子,所以似然函數(shù)可以簡記作Lp■,…,p■∞p■■…p■■
或者也可以寫成 Lp■,…,p■∞p■■…p■■1-p■-…p■■
令Lp■,…,p■的偏導數(shù)為0,可以求出P■,…,P■的極大似然估計分別為■,…,■。
由此得檢驗問題的似然比為?撰=■=■=■■■
?撰的值在0與1之間,其值越接近1,則越傾向于認為檢驗問題的原假設Ho為真,所以在?撰的值越接近0,或者在-2ln?撰=-2■n■ln■的值比較大的時候拒絕原假設Ho。通常把-2ln(?撰)稱為似然比檢驗統(tǒng)計量。
在分類數(shù)據(jù)的X2檢驗中,皮爾遜把式X■=■■作為衡量實際頻數(shù)n■,…,n■與期望頻數(shù)np■■,…,np■■的偏差的綜合指標,而分類數(shù)據(jù)的似然比檢驗用式-2ln?撰=-2■n■ln■作為衡量實際頻數(shù)與期望頻數(shù)的偏差綜合指標。X2-檢驗與似然比檢驗的差別可以認為在于它們采用了不同的衡量偏差的綜合指標。
在原假設Ho成立時,-2ln?撰的漸進分布和皮爾遜的X2統(tǒng)計量的漸近分布相同,都是X2(r-1),起自由度都等于類別個數(shù)r減去1。事實上我們也可以根據(jù)似然比檢驗統(tǒng)計量的極限分布定理,從而在原假設Ho成立時,-2ln?撰有漸進分布X2(r-1),其中漸近X2分布的自由度可看作完全參數(shù)空間被估價的獨立參數(shù)的個數(shù)與原假設成立時參數(shù)空間被估價的獨立參數(shù)的個數(shù)的差。
顯著性水平為a的似然比檢驗的拒絕域為-2ln?撰≥X21-a(r-1)。
也可以通過計算p值完成檢驗程序。p值為p=p(X21-a(r-1)≥-2ln?撰)。如果 ,則在水平a≥p下拒絕原假設Ho;如果a
參考文獻:
[01]張堯庭, 方開泰. 多元統(tǒng)計分析引論[M]. 北京: 科學出版社, 1982.
[02]王靜龍,梁小筠.定性數(shù)據(jù)統(tǒng)計分析[M].北京,中國統(tǒng)計出版社,2008.
[03]史希來. 屬性數(shù)據(jù)分析引論[M]. 北京: 北京大學出版社, 2006.
[04]黃強.定性資料的數(shù)量分析[J].統(tǒng)計與決策,1997,(3).
摘 要:分類數(shù)據(jù)是定性數(shù)據(jù),有別于定量數(shù)據(jù),在數(shù)學上不易進行處理分析。本文對分類數(shù)據(jù)的顯著性檢驗問題做了一些討論。主要介紹了分類數(shù)據(jù)的X2-檢驗和似然比檢驗。
關鍵詞:分類數(shù)據(jù);定性數(shù)據(jù); X2-檢驗;似然比檢驗
生活中存在著大量的數(shù)據(jù),類型可分為定量數(shù)據(jù)和定性數(shù)據(jù)。定量數(shù)據(jù)常見于計量、計數(shù)等,易于用數(shù)學的方法處理分析;但生活中仍有許多不可量化的數(shù)據(jù),如表示事物性質、規(guī)定事物類別的文字表述型數(shù)據(jù),將其統(tǒng)稱為定性數(shù)據(jù)。對定性數(shù)據(jù)的研究,有時作純定性研究,沒有或缺乏數(shù)量分析,其結論往往具有概括性和較濃的思辨色彩;為便于作定量分析,還得將這些數(shù)據(jù)合理量化,并建立相應的統(tǒng)計模型。
定性數(shù)據(jù)有時只表示事物的屬性,如人的性別,婚姻狀況,物體的顏色、形狀。我們常用數(shù)"0"和"1"來表示其屬性的分類。而有些事物的屬性有一個順序關系,如人的文化程度由低到高可分為文盲、小學、初中、高中、中專和大專、大學等5類。用數(shù)0,1,2,3和4分別表示文盲,小學,初中,高中,中專和大專,大學。有如顧客對某商場營業(yè)員服務態(tài)度的評價分為"滿意"、"一般"、"不滿意"三類,可分別用"3"、"2"、"1"表示。這些數(shù)只起一個順序作用,這一類數(shù)據(jù)稱為有序定性數(shù)據(jù),簡稱有序數(shù)據(jù)。
本文將對分類數(shù)據(jù)的顯著性檢驗問題做一些討論。主要介紹分類數(shù)據(jù)的 -檢驗和似然比檢驗。
分類數(shù)據(jù)的顯著性檢驗一般有如下提法。
設總體的某個指標數(shù)據(jù)被分為r類:A1,…Ar。根據(jù)相關理論,或從經(jīng)驗出發(fā)提出了一個原假設:
H■:類A■所占的比例為P■=P■(i=1,…,r)
其中:P■,i=1,…,r,■P■=1為已知的r個數(shù)。對該總體進行n次獨立重復觀察,每次觀察一個個體,看它屬于哪一類。此時,個體的觀察值不是數(shù),而是事物的屬性。
設n個個體中屬于Ai類的觀察個數(shù)為n■i=1,…,r。顯然,■n■=n?;谟^察值n■i=1,…,r對原假設H■進行檢驗。
1 分類數(shù)據(jù)的X2-檢驗
如果原假設H■成立,則n個個體中屬于Ai類的"期望個數(shù)"為np■■i=1,…,r。ni與np■■分別稱為屬于Ai類的實際頻數(shù)與期望頻數(shù)。當原假設H■成立時,對每一個i=1,…,r,實際頻數(shù)ni都應該接近于期望頻數(shù)np■■。用皮爾遜(Pearson)統(tǒng)計量X■=■■來作為衡量實際頻數(shù)n■,…,n■與期望頻數(shù)np■,…,np■ ∞的偏差的綜合指標,分子說明實際頻數(shù)與期望頻數(shù)的差異,將其差平方是為累加差異。平方項除以期望頻數(shù),是給以權數(shù),體現(xiàn)"相對性",當然也與統(tǒng)計量的漸進分布有關。
如果原假設H■成立, X2統(tǒng)計量的值應該比較小,若X2統(tǒng)計量的值比較大,說明實際頻數(shù)與期望頻數(shù)的差異較大,應該拒絕原假設H■。衡量統(tǒng)計量X2必須有一個臨界值。皮爾遜證明了,在原假設H■成立時,該統(tǒng)計量的漸進分布為X2(r-1)分布,它的自由度為類別個數(shù)r減去1。記X21-a(r-1)為自由度為r-1的X2分布的(下側)1-a分位數(shù),則事件"x■≥x■■r-1"發(fā)生的概率為a。a是顯著性水平,一個很小的數(shù)。這說明,"x■≥x■■r-1"是一個小概率事件,小概率事件在一次實驗中不大可能發(fā)生,如果發(fā)生了我們可以做出"拒絕原假設H0" 的判斷。拒絕原假設時,可能會犯"棄真"的錯誤,其概率不超過a。因此顯著性水平為a的X2-檢驗的拒絕域為x■≥x■■r-1,其中,x■■r-1是自由度為r-1的X2分布的上側a-分位數(shù)。
也可以通過計算P值完成檢驗的程序。P值等于自由度為r-1的X2變量大于等于X2統(tǒng)計量值的概率:P(X2(r-1)≥X2)。如果a≥P值,則在水平a下拒絕原假設H0;如果a
2 分類數(shù)據(jù)的似然比檢驗
分類數(shù)據(jù)的檢驗問題也可以用統(tǒng)計中常用的似然比檢驗方法。觀察值ni(i=1,…,r)服從多項分布M(n,p1,…,pr),其分布律為pn■,…,n■=■p■■…p■■,■n■=n。
記n■,…,n■~Mn,p■,…p■ 。若r=2,則Mn,p■,p■=B(n,p1),即二項分布。故n1,n■~Mn,,p■,p■等價于n■~bn,p■ ,或等價于n■~bn,p■ 。
對M(n,p1,…,pr),觀測值n■,…,n■的似然函數(shù)為LP■,…,P■=■p■■…p■■,將P■,…,P■看作變量,注意到■■p■■…p■■=1,因而對似然函數(shù)而言,可以略去也可以添上與參數(shù)P■,…,P■無關的任意一個因子,所以似然函數(shù)可以簡記作Lp■,…,p■∞p■■…p■■
或者也可以寫成 Lp■,…,p■∞p■■…p■■1-p■-…p■■
令Lp■,…,p■的偏導數(shù)為0,可以求出P■,…,P■的極大似然估計分別為■,…,■。
由此得檢驗問題的似然比為?撰=■=■=■■■
?撰的值在0與1之間,其值越接近1,則越傾向于認為檢驗問題的原假設Ho為真,所以在?撰的值越接近0,或者在-2ln?撰=-2■n■ln■的值比較大的時候拒絕原假設Ho。通常把-2ln(?撰)稱為似然比檢驗統(tǒng)計量。
在分類數(shù)據(jù)的X2檢驗中,皮爾遜把式X■=■■作為衡量實際頻數(shù)n■,…,n■與期望頻數(shù)np■■,…,np■■的偏差的綜合指標,而分類數(shù)據(jù)的似然比檢驗用式-2ln?撰=-2■n■ln■作為衡量實際頻數(shù)與期望頻數(shù)的偏差綜合指標。X2-檢驗與似然比檢驗的差別可以認為在于它們采用了不同的衡量偏差的綜合指標。
在原假設Ho成立時,-2ln?撰的漸進分布和皮爾遜的X2統(tǒng)計量的漸近分布相同,都是X2(r-1),起自由度都等于類別個數(shù)r減去1。事實上我們也可以根據(jù)似然比檢驗統(tǒng)計量的極限分布定理,從而在原假設Ho成立時,-2ln?撰有漸進分布X2(r-1),其中漸近X2分布的自由度可看作完全參數(shù)空間被估價的獨立參數(shù)的個數(shù)與原假設成立時參數(shù)空間被估價的獨立參數(shù)的個數(shù)的差。
顯著性水平為a的似然比檢驗的拒絕域為-2ln?撰≥X21-a(r-1)。
也可以通過計算p值完成檢驗程序。p值為p=p(X21-a(r-1)≥-2ln?撰)。如果 ,則在水平a≥p下拒絕原假設Ho;如果a
參考文獻:
[01]張堯庭, 方開泰. 多元統(tǒng)計分析引論[M]. 北京: 科學出版社, 1982.
[02]王靜龍,梁小筠.定性數(shù)據(jù)統(tǒng)計分析[M].北京,中國統(tǒng)計出版社,2008.
[03]史希來. 屬性數(shù)據(jù)分析引論[M]. 北京: 北京大學出版社, 2006.
[04]黃強.定性資料的數(shù)量分析[J].統(tǒng)計與決策,1997,(3).
摘 要:分類數(shù)據(jù)是定性數(shù)據(jù),有別于定量數(shù)據(jù),在數(shù)學上不易進行處理分析。本文對分類數(shù)據(jù)的顯著性檢驗問題做了一些討論。主要介紹了分類數(shù)據(jù)的X2-檢驗和似然比檢驗。
關鍵詞:分類數(shù)據(jù);定性數(shù)據(jù); X2-檢驗;似然比檢驗
生活中存在著大量的數(shù)據(jù),類型可分為定量數(shù)據(jù)和定性數(shù)據(jù)。定量數(shù)據(jù)常見于計量、計數(shù)等,易于用數(shù)學的方法處理分析;但生活中仍有許多不可量化的數(shù)據(jù),如表示事物性質、規(guī)定事物類別的文字表述型數(shù)據(jù),將其統(tǒng)稱為定性數(shù)據(jù)。對定性數(shù)據(jù)的研究,有時作純定性研究,沒有或缺乏數(shù)量分析,其結論往往具有概括性和較濃的思辨色彩;為便于作定量分析,還得將這些數(shù)據(jù)合理量化,并建立相應的統(tǒng)計模型。
定性數(shù)據(jù)有時只表示事物的屬性,如人的性別,婚姻狀況,物體的顏色、形狀。我們常用數(shù)"0"和"1"來表示其屬性的分類。而有些事物的屬性有一個順序關系,如人的文化程度由低到高可分為文盲、小學、初中、高中、中專和大專、大學等5類。用數(shù)0,1,2,3和4分別表示文盲,小學,初中,高中,中專和大專,大學。有如顧客對某商場營業(yè)員服務態(tài)度的評價分為"滿意"、"一般"、"不滿意"三類,可分別用"3"、"2"、"1"表示。這些數(shù)只起一個順序作用,這一類數(shù)據(jù)稱為有序定性數(shù)據(jù),簡稱有序數(shù)據(jù)。
本文將對分類數(shù)據(jù)的顯著性檢驗問題做一些討論。主要介紹分類數(shù)據(jù)的 -檢驗和似然比檢驗。
分類數(shù)據(jù)的顯著性檢驗一般有如下提法。
設總體的某個指標數(shù)據(jù)被分為r類:A1,…Ar。根據(jù)相關理論,或從經(jīng)驗出發(fā)提出了一個原假設:
H■:類A■所占的比例為P■=P■(i=1,…,r)
其中:P■,i=1,…,r,■P■=1為已知的r個數(shù)。對該總體進行n次獨立重復觀察,每次觀察一個個體,看它屬于哪一類。此時,個體的觀察值不是數(shù),而是事物的屬性。
設n個個體中屬于Ai類的觀察個數(shù)為n■i=1,…,r。顯然,■n■=n。基于觀察值n■i=1,…,r對原假設H■進行檢驗。
1 分類數(shù)據(jù)的X2-檢驗
如果原假設H■成立,則n個個體中屬于Ai類的"期望個數(shù)"為np■■i=1,…,r。ni與np■■分別稱為屬于Ai類的實際頻數(shù)與期望頻數(shù)。當原假設H■成立時,對每一個i=1,…,r,實際頻數(shù)ni都應該接近于期望頻數(shù)np■■。用皮爾遜(Pearson)統(tǒng)計量X■=■■來作為衡量實際頻數(shù)n■,…,n■與期望頻數(shù)np■,…,np■ ∞的偏差的綜合指標,分子說明實際頻數(shù)與期望頻數(shù)的差異,將其差平方是為累加差異。平方項除以期望頻數(shù),是給以權數(shù),體現(xiàn)"相對性",當然也與統(tǒng)計量的漸進分布有關。
如果原假設H■成立, X2統(tǒng)計量的值應該比較小,若X2統(tǒng)計量的值比較大,說明實際頻數(shù)與期望頻數(shù)的差異較大,應該拒絕原假設H■。衡量統(tǒng)計量X2必須有一個臨界值。皮爾遜證明了,在原假設H■成立時,該統(tǒng)計量的漸進分布為X2(r-1)分布,它的自由度為類別個數(shù)r減去1。記X21-a(r-1)為自由度為r-1的X2分布的(下側)1-a分位數(shù),則事件"x■≥x■■r-1"發(fā)生的概率為a。a是顯著性水平,一個很小的數(shù)。這說明,"x■≥x■■r-1"是一個小概率事件,小概率事件在一次實驗中不大可能發(fā)生,如果發(fā)生了我們可以做出"拒絕原假設H0" 的判斷。拒絕原假設時,可能會犯"棄真"的錯誤,其概率不超過a。因此顯著性水平為a的X2-檢驗的拒絕域為x■≥x■■r-1,其中,x■■r-1是自由度為r-1的X2分布的上側a-分位數(shù)。
也可以通過計算P值完成檢驗的程序。P值等于自由度為r-1的X2變量大于等于X2統(tǒng)計量值的概率:P(X2(r-1)≥X2)。如果a≥P值,則在水平a下拒絕原假設H0;如果a
2 分類數(shù)據(jù)的似然比檢驗
分類數(shù)據(jù)的檢驗問題也可以用統(tǒng)計中常用的似然比檢驗方法。觀察值ni(i=1,…,r)服從多項分布M(n,p1,…,pr),其分布律為pn■,…,n■=■p■■…p■■,■n■=n。
記n■,…,n■~Mn,p■,…p■ 。若r=2,則Mn,p■,p■=B(n,p1),即二項分布。故n1,n■~Mn,,p■,p■等價于n■~bn,p■ ,或等價于n■~bn,p■ 。
對M(n,p1,…,pr),觀測值n■,…,n■的似然函數(shù)為LP■,…,P■=■p■■…p■■,將P■,…,P■看作變量,注意到■■p■■…p■■=1,因而對似然函數(shù)而言,可以略去也可以添上與參數(shù)P■,…,P■無關的任意一個因子,所以似然函數(shù)可以簡記作Lp■,…,p■∞p■■…p■■
或者也可以寫成 Lp■,…,p■∞p■■…p■■1-p■-…p■■
令Lp■,…,p■的偏導數(shù)為0,可以求出P■,…,P■的極大似然估計分別為■,…,■。
由此得檢驗問題的似然比為?撰=■=■=■■■
?撰的值在0與1之間,其值越接近1,則越傾向于認為檢驗問題的原假設Ho為真,所以在?撰的值越接近0,或者在-2ln?撰=-2■n■ln■的值比較大的時候拒絕原假設Ho。通常把-2ln(?撰)稱為似然比檢驗統(tǒng)計量。
在分類數(shù)據(jù)的X2檢驗中,皮爾遜把式X■=■■作為衡量實際頻數(shù)n■,…,n■與期望頻數(shù)np■■,…,np■■的偏差的綜合指標,而分類數(shù)據(jù)的似然比檢驗用式-2ln?撰=-2■n■ln■作為衡量實際頻數(shù)與期望頻數(shù)的偏差綜合指標。X2-檢驗與似然比檢驗的差別可以認為在于它們采用了不同的衡量偏差的綜合指標。
在原假設Ho成立時,-2ln?撰的漸進分布和皮爾遜的X2統(tǒng)計量的漸近分布相同,都是X2(r-1),起自由度都等于類別個數(shù)r減去1。事實上我們也可以根據(jù)似然比檢驗統(tǒng)計量的極限分布定理,從而在原假設Ho成立時,-2ln?撰有漸進分布X2(r-1),其中漸近X2分布的自由度可看作完全參數(shù)空間被估價的獨立參數(shù)的個數(shù)與原假設成立時參數(shù)空間被估價的獨立參數(shù)的個數(shù)的差。
顯著性水平為a的似然比檢驗的拒絕域為-2ln?撰≥X21-a(r-1)。
也可以通過計算p值完成檢驗程序。p值為p=p(X21-a(r-1)≥-2ln?撰)。如果 ,則在水平a≥p下拒絕原假設Ho;如果a
參考文獻:
[01]張堯庭, 方開泰. 多元統(tǒng)計分析引論[M]. 北京: 科學出版社, 1982.
[02]王靜龍,梁小筠.定性數(shù)據(jù)統(tǒng)計分析[M].北京,中國統(tǒng)計出版社,2008.
[03]史希來. 屬性數(shù)據(jù)分析引論[M]. 北京: 北京大學出版社, 2006.
[04]黃強.定性資料的數(shù)量分析[J].統(tǒng)計與決策,1997,(3).