文小波
摘? 要:該文首先依托樣本與中位數(shù)構造了中心差,研究了中心差、中心差絕對值、中心差平方和的相關性質,并予以了論證。然后將非參數(shù)假設檢驗的一些思想引入切尾均值的計算中,利用中心差絕對值排秩法來切除數(shù)據(jù),利用剩下的數(shù)據(jù)來計算切尾均值。最后引入了聚類分析的方法來計算切尾均值。對于中心差絕對值排秩法和聚類分析法舉例計算了某班成績的切尾均值。
關鍵詞:中心差? 排秩法? 聚類分析? 切尾均值
中圖分類號:O211.1 ? ? 文獻標識碼:A 文章編號:1672-3791(2019)12(a)-0216-03
在切尾均值的計算時,當數(shù)據(jù)為對稱數(shù)據(jù)時,一般采用等尾切尾就可以達到較好的效果,此時的切尾均值就能較好地體現(xiàn)數(shù)據(jù)的平均情況。但當數(shù)據(jù)為非對稱數(shù)據(jù)時,如此時依然采用等尾切尾就可能會造成一些較大的誤差。此時對數(shù)據(jù)一般采用非等尾切尾,在確定切尾率不變的情況下,兩邊分別取截尾率為和,利用剩下的數(shù)據(jù)來計算切尾均值。此時和的比例的確定方法不唯一,常用圖像觀察法來確定兩端切尾的比例。圖像法雖然直觀,但有時不夠嚴謹??傮w來說,切尾率的確定以及切尾方式的確立都是一個較為困難的問題。該文提出中心差絕對值排秩法和聚類分析法來研究切尾均值,在一定程度上簡化問題的思考與計算。
1? 中心差及其結論
定義1? 從某總體中抽取樣本,將所得樣本按照從小到大排列為有序樣本,找出中位數(shù)m0.5,稱為中心差。
當n為奇數(shù)時,,當n為偶數(shù)時,,中位數(shù)具有穩(wěn)健性,可以代表數(shù)據(jù)的中心。利用樣本和中位數(shù)計算中心差,這樣算的中心差會出現(xiàn)正負抵消的情況,所以一般在研究距離的時候算的都是正值,即,但由于絕對值利用的復雜性,經(jīng)??紤]使用。關于中心差、中心差絕對值、中心差平方有如下的一些結論。
定理1? 中心差,則有。
證明
特別的,當時,。
定理2? 中心差絕對值,則有:
即,在形如的函數(shù)中,是取值最小
的,其中c為任意給定的常數(shù)。
證明 當n為奇數(shù)時,,當n為偶數(shù)時,,
不妨設此時n為奇數(shù)時,則有,進一步設,其中,則存在這樣的j,使得j+1≤k,且。
由于,則有n=2k-1,則有j-(n-k)=j-k+2,
又由于,所以
[j-(n-k)](c-m0.5)=[k-j-l](m0.5-c)=(k-j)(m0.5-c)+(c-m0.5)
從而
得證此時是同類型函數(shù)中取值最小的。
同理可證明? 當n為奇數(shù)時,時亦有此結論。
同理可證明? 當n為偶數(shù)時,也是同類型函數(shù)中取值最小的。
定理3? 中心差平方,則有:
證明,,
特別的,當時,,由于樣本S2是同類型函數(shù)中取值最小的,所以有在形如的函數(shù)中,是取值最小的,其中α為任意給定的常數(shù)。
2? 利用中心差排秩
引入非參數(shù)假設檢驗的一些方法來思考切尾均值問題,m0.5為中位數(shù),中心差出現(xiàn)的正負號幾乎是一樣多的,所以利用符號檢驗的思想,只關注正負號的個數(shù)是很難起到效果的,可以利用符號秩和的思想來思考。雖然中心差出現(xiàn)的正負號幾乎一樣多,但是正負中心差的絕對值大小不一樣,分別計算其正秩和和負秩和,一般來說數(shù)據(jù)較為均衡的時候,其正負秩和應該大小一致,總秩和越接近零,兩端相對均衡,當秩和離零較遠,說明中位數(shù)兩端部分不均勻。當然由于從非參數(shù)方法中引入的符號秩和的結論有時精度不是特別高,故還是進一步尋求排秩法來研究切尾均值。
在考慮切尾的時候,可以對中心差絕對值排秩,秩次越小說明μi越接近零,數(shù)據(jù)離中位數(shù)越近。對于相同秩次,即結的問題,可以借鑒一般非參數(shù)假設檢驗的處理方式,為了計算的需要該文中采用平均秩次的表示方式,即兩個并列第一的話,按照1.5名來計算其秩次,這樣保證了其秩和為3。將排秩后的數(shù)據(jù)按照切尾比例(一般為10%)切除數(shù)據(jù)。這樣思考的優(yōu)勢是不用考慮兩邊分別的切尾率,只需算一個總體的切尾率,將較大部分的|μi|按照切尾率切除即可。完全由數(shù)值大小來決定切除的數(shù)據(jù)。將離中位數(shù)較遠部分的數(shù)值切除,可能是單側切尾,也可能是雙側切尾,可能是等尾切尾,也可能是非等尾切尾,完全由數(shù)據(jù)與切尾率來決定切除的數(shù)值,簡化了運算與思考。通過下面例題來使用中心差絕對值排秩法來求解切尾均值。
例1? 某班有51個同學,獲得其某次考試成績如下所示,利用中心差排秩法,切尾率α=0.1,來計算其切尾均值。
69? 69? 73? 61? 55? 76? 59? 40? 66? 48? 42? 56? 54? 68? 70? 55? 67? 71? 42? 67? 78? 83? 67? 67? 49? 79? 68? 66? 62? 71? 60? 66? 48? 62? 78? 75? 62? 76? 82? 70? 61? 65? 60? 72? 65? 65? 70? 65? 81? 85? 80
解? 將數(shù)據(jù)錄入SPSS軟件之中,通過個案排秩,將數(shù)據(jù)排序,并找出中位數(shù)=67,通過計算變量選項計算,得出中心差μi,然后計算中心差絕對值|μi|,然后將中心差絕對值|μi|進行個案排秩,按照預先給定的切尾率α=0.1,切除|μi|較大的10個數(shù)據(jù),其較小部分切除的是4個數(shù),較大數(shù)字部分切除的是6個數(shù),由數(shù)據(jù)本身的特點決定了其非等尾切尾的情況,利用剩下的41個數(shù)據(jù)來計算切尾均值。數(shù)據(jù)較多,在此不一一呈現(xiàn)其具體軟件操作步驟了。給出其最終結果=66.9756。
利用中心差絕對值排秩法可以在一定程度上簡化切尾均值的計算,可以推廣到其他需要運算切尾均值的地方。
3? 利用聚類分析計算切尾均值
聚類分析是一種常用的多元統(tǒng)計分析方法,主要用于處理高維數(shù)據(jù)。該文將聚類分析的思想和方法引入切尾均值之中,而一般情況下切尾均值所研究的數(shù)據(jù)多為一維數(shù)據(jù)。K-均值聚類法是一種可以將樣本指定聚為幾類的一種快速聚類方法,將樣本聚為3類,選取其中最具代表性的第二類(中間類)來計算其切除數(shù)據(jù)后剩下樣本的均值。通過如下例題來加以分析。
例2? 依然采用例1中的51個同學的英語成績的數(shù)據(jù),利用聚類分析法來計算其切尾均值。
解? 將數(shù)據(jù)錄入SPSS軟件之中,通過K-均值快速聚類分析,將樣本分為3類,在此給出其最終的聚類中心和聚類案例數(shù)。
通過分析操作得出中間類別的案例數(shù)為26個,利用其算得切尾均值=63.5769,與中間類的聚類中心較為一致。當然此算法中樣本切尾率將近50%了,切除較多,可能會影響到數(shù)據(jù)真實的結論。
當然也可以利用系統(tǒng)聚類法,將數(shù)據(jù)聚類,利用其聚類圖或者冰柱圖,來分析其數(shù)據(jù)聚集形式,切除離群較遠的類別或者數(shù)據(jù),利用剩下的數(shù)據(jù)來計算切尾均值。
利用聚類分析來研究切尾均值,由數(shù)據(jù)本身來決定切尾部分,可能會使得切除部分過大,一般難以按照預先的切尾率來切除數(shù)據(jù)。如在指定切尾率的情況下,可以指定m0.5以為聚類中心,將離聚類中心較近的保留水平下的數(shù)據(jù)聚為一類,其余的數(shù)字為其他部分,類似于高等數(shù)學中的一維數(shù)軸上的鄰域的思想??梢杂梅侄魏瘮?shù)的調用完成數(shù)據(jù)的篩選,最后利用保留的數(shù)字來計算切尾均值。在此不予贅述。
4? 結語
通過中心差的計算,利用個案排秩來計算切尾均值,是把假設檢驗的思想引入了切尾均值的計算之中,利用聚類分析來計算切尾均值是引入了多元統(tǒng)計分析方法的聚類分析思想。同樣,可以思考將其他的一些分析方法與切尾均值的計算相結合,相信亦可得到較好的結論。將該文所研究的方法推廣到更廣范圍的切尾均值的計算,亦會有良好的結果,在實際運用中要注意傳統(tǒng)切尾均值的計算方法與新方法的對比,挑選出合適的切尾均值計算方法。
參考文獻
[1] 茆詩松,程依明,濮曉龍.高等數(shù)理統(tǒng)計[M].北京:高等教育出版社,2006.
[2] 杜強,賈麗艷,嚴先鋒.SPSS統(tǒng)計分析從入門到精通[M].北京:人民郵電出版社,2014.
[3] 盛驟,謝式千,潘承毅.概率論與數(shù)理統(tǒng)計[M].4版.北京:高等教育出版社,2010.
[4] 茆詩松,程依明,濮曉龍.概率論與數(shù)理統(tǒng)計教程[M].北京:高等教育出版社,2011.
[5] 胡曉華.解析顯著性水平及應用[J].統(tǒng)計與決策,2017(13):88-91.
[6] 羅葵,馬學敏,馬志偉,等.隨機切尾均值及其自舉的統(tǒng)計分析[J].數(shù)學雜志,2015(2):237-251.