(中南財經(jīng)政法大學(xué)統(tǒng)計與數(shù)學(xué)學(xué)院 430073)
多項選擇題數(shù)據(jù)的非參數(shù)統(tǒng)計方法探究
程 曦
(中南財經(jīng)政法大學(xué)統(tǒng)計與數(shù)學(xué)學(xué)院 430073)
在統(tǒng)計研究中的各類問卷調(diào)查中,多項選擇題的應(yīng)用十分普遍。多項選擇題有較多備選項,可以同時選擇多個選項,其復(fù)雜度也強于一般分類數(shù)據(jù)。因此,本文運用本學(xué)期所學(xué)的非參數(shù)統(tǒng)計檢驗知識,針對各選項的顯著性,嘗試運用多種方法對該類數(shù)據(jù)進(jìn)行檢驗與分析,也對各類方法的效果進(jìn)行分析和比較。
在記錄多選題調(diào)查結(jié)果時,為了便于定量分析,采用多重二分法(Multiple Dichotomy Method)的編碼方法,即將多項選擇題的每一個選項視為一個“處理”,每一份問卷看作一個“區(qū)組”,并用“0”表示沒有被選中、“1”表示被選中。這樣,多項選擇題的數(shù)據(jù)可以表示為二元完全區(qū)組數(shù)據(jù)。
本文的例證數(shù)據(jù)采用以下多選題的調(diào)查數(shù)據(jù):請問您日常飲用下列哪種水?(多選)A 自來水,B井水,C 家用凈水器處理后的水,D 桶裝水或瓶裝水。
選取調(diào)查結(jié)果中的25份問卷,其調(diào)查結(jié)果以多重二分法編碼如下:
(一)模型建立
游程檢驗是用于檢驗取值“1”概率為p的Bernoulli試驗中的“1”和“0”是否隨機(jī)出現(xiàn)的方法。其原理是,將連在一起的“0”或“1”作為一個游程,當(dāng)已知出現(xiàn)了多少個“1”和“0”時,游程個數(shù)R服從固定的分布。
其假設(shè)為:H0:有隨機(jī)性;H1:無隨機(jī)性(有聚類傾向)
統(tǒng)計量及其分布為:R=游程數(shù)~Y(m ,n)
其中m為“0”的個數(shù),n為“1”的個數(shù),Y代表游程分布。
其具體計算是通過累加概率求得P值:
(二)模型求解
編寫R程序?qū)崿F(xiàn)這一檢驗方法,得到4個選項檢驗的p值分別為:(α=0.05)
可見,均不能拒絕原假設(shè),即認(rèn)為源數(shù)據(jù)的隨機(jī)性良好,符合問卷調(diào)查的隨機(jī)抽樣原則。也就是說,這部分問卷在填寫時并沒有出現(xiàn)較為嚴(yán)重的相互抄襲或人為編造等影響問卷質(zhì)量的現(xiàn)象,因此,該數(shù)據(jù)適合進(jìn)行進(jìn)一步分析。
(一)模型建立
McNemar檢驗是用于檢驗配對二元取值數(shù)據(jù)中取“1”的比例是否相等的檢驗方法,對于本例,則是選擇某選項的比例,該方法首先將數(shù)據(jù)寫成列聯(lián)表形式:
分別為處理1和處理2的取“1”的比例,則檢驗的假設(shè)為:
統(tǒng)計量和近似分布為:
其p值即是統(tǒng)計量2χ在分布中的雙邊概率值。
(二)模型求解
編寫R程序?qū)崿F(xiàn)這一檢驗方法,得到AD、DC、CB三對檢驗的p值分別為:(α=0.05)
可見,A>D>C>B中的A>D,D>C,C>B這三個關(guān)系都不是顯著的。也就是說,目前沒有足夠的理由認(rèn)為飲用“自來水”的人數(shù)多于“桶裝水或瓶裝水”,飲用“桶裝水或瓶裝水”的人數(shù)多于“家用凈水器處理后的水”,飲用“家用凈水器處理后的水”的人數(shù)多于“井水”。
那么,如果跨步檢驗,即A>C,D>B,甚至直接檢驗A>B,大于關(guān)系是否顯著呢?檢驗結(jié)果為:
可見,結(jié)果發(fā)生了巨大變化,全部都非常顯著。
(一)模型建立
Cochran檢驗是對二元響應(yīng)的完全區(qū)組數(shù)據(jù)中不同處理的位置參數(shù)是否相同的檢驗。位置參數(shù)表征四個選項在受訪者眼中的排序。假設(shè)iθ為第i個選項的位置參數(shù),則檢驗的假設(shè)為:不全相等全相等
統(tǒng)計量及其分布為:
其中,b為區(qū)組數(shù),即問卷數(shù);k為處理數(shù),即選項數(shù);Ni為第i個選項1出現(xiàn)的個數(shù);Lj為第j個問卷中選1的個數(shù);N為1出現(xiàn)的總個數(shù)。
(二)模型求解
編寫R程序?qū)崿F(xiàn)這一檢驗方法,得到檢驗的p值為:P=0.00005<0.05
可見,顯著性是非常強的。也就是說,對于“自來水”“井水”“家用凈水器處理后的水”“桶裝水或瓶裝水”這幾種飲用水方式,人們對其選擇的比例差異是非常大的。這也說明,該問卷中該多項選擇題的設(shè)置是十分有意義的,收回問卷后得到的數(shù)據(jù)也是十分有比較價值的。
通過各個模型的建立、實際問題的求解,以及對二元數(shù)據(jù)的新的處理方法的效果討論,可以從實際問題和研究方法兩方面得出結(jié)論。
對于本文所示的多項選擇題來說,其調(diào)查所得數(shù)據(jù)的隨機(jī)性是良好的;在4個選項之間的兩兩大小關(guān)系的比較中,只有3個跨步大小關(guān)系是顯著的,因此A>D>C>B不是顯著成立的,只能確信A>C,D>B,A>B這三種關(guān)系。作為多選題整體來看,該題的整體選項差異是顯著的,因此用本例來進(jìn)行調(diào)查是有意義的。
對于研究方法來說,游程檢驗?zāi)軌蚝芎玫嘏袛嗾{(diào)查問卷所得數(shù)據(jù)是否具有隨機(jī)性,即是否是完全隨機(jī)抽樣;McNemar檢驗?zāi)軌蚝芎玫乇容^兩個選項的差異性,即選一種選項的人數(shù)是否顯著大于另一種;Cochran檢驗?zāi)軌蚝芎玫嘏袛喽噙x題整體的各個選項是否具有差異性,即從整體判斷多選題調(diào)查的效果;而加入隨機(jī)變量后的Friedman檢驗方法也在本例中達(dá)到了比較好的效果,能夠以較高的準(zhǔn)確率判斷多選題整體差異性是否顯著。
[1]李燦.調(diào)查問卷中多項選擇題的處理方法[J].統(tǒng)計與決策,2006(06).
[2]吳喜之,趙博娟.非參數(shù)統(tǒng)計[M].中國統(tǒng)計出版社,2013.
[3]趙江濤.多項選擇模型的參數(shù)估計[J].網(wǎng)絡(luò)財富,2009(15).
[4]羅明奎.配對資料McNemar檢驗法的適用范圍[J].中國衛(wèi)生統(tǒng)計,1993(03).
[5]趙國龍,杜詩軍.非虛假設(shè)綜合卡方檢驗[J].應(yīng)用概率統(tǒng)計,2003(04).
(責(zé)編 趙景霞)