侯縣平 成都信息工程大學(xué)物流學(xué)院
描述性統(tǒng)計是對數(shù)據(jù)的大小、離散程度、分布形狀等概括性數(shù)據(jù)進行計算,用以描述和發(fā)現(xiàn)數(shù)據(jù)的特征,從而為后續(xù)的進一步數(shù)據(jù)分析做好準(zhǔn)備,是統(tǒng)計學(xué)課程必須掌握的基礎(chǔ)性內(nèi)容。然而,描述性統(tǒng)計的計算較為繁瑣,而R語言是一款免費的統(tǒng)計軟件,能夠方便快捷的進行統(tǒng)計分析,滿足個性化、多樣化的統(tǒng)計需求[1,2]。借助于R語言進行描述性統(tǒng)計教學(xué),簡單易學(xué),容易理解,能夠提高計算效率,提升學(xué)生的學(xué)習(xí)興趣,提高教學(xué)效果。本文以具體數(shù)據(jù)為例,分析如何通過R語言來進行描述性統(tǒng)計的教學(xué)。
本文以car包中[3]的Mroz數(shù)據(jù)集為例進行分析。Mroz數(shù)據(jù)集是對美國已婚婦女勞動力參與就業(yè)的收入調(diào)查,包含753個觀測值,8個指標(biāo)。Mroz數(shù)據(jù)集的前6行如表1所示,實現(xiàn)代碼如下:
表1 Mroz數(shù)據(jù)集
表1中,1-6為序號,lfp指是否參與就業(yè),k5指5歲及以下孩子的數(shù)量,k618指6至18歲孩子的數(shù)量,age指年齡,wc指妻子是否接受過大學(xué)教育,hc指丈夫是否接受過大學(xué)教育,lwg指期望的工資水平,inc指除妻子收入外的家庭收入。
數(shù)據(jù)水平就是指數(shù)據(jù)的大小,描述水平的統(tǒng)計量主要有均值、中位數(shù)、四分位數(shù)等。在R語言中,可以輕松的計算這些統(tǒng)計量。下文的計算是針對lwg進行的,如果要計算inc,則將lwg替換為inc即可。
描述數(shù)據(jù)的差異的統(tǒng)計量主要有極差、四分位差、方差和標(biāo)準(zhǔn)差,這些統(tǒng)計量用以反映數(shù)據(jù)的離散程度。
數(shù)據(jù)的分布可以通過直方圖來觀察,并與正態(tài)分布做比較。通過偏度系數(shù)和峰度系數(shù)測度數(shù)據(jù)分布的不對稱性和峰值高低。lwg的直方圖及正態(tài)分布曲線如圖1所示。
圖1 lwg的直方圖及正態(tài)分布曲線
有時候需要對數(shù)據(jù)進行綜合描述,希望一次性得到多個統(tǒng)計量,則可以通過下面的方式實現(xiàn)。
或者,一次性想得到若干變量的統(tǒng)計結(jié)果,則可以運行如下代碼,結(jié)果見表2.
表2 lwg和inc的描述統(tǒng)計
如果想對多個變量進行分組描述統(tǒng)計,則無需繁瑣的逐步進行,用下面的方式非常方便,結(jié)果見表3。
表3 基于lfp和wc分組的lwg和inc的分組描述統(tǒng)計
甚至可以編寫自己的函數(shù)來進行描述性統(tǒng)計,從而滿足個性化的統(tǒng)計需求。
從以上分析中可以看出,R語言是一款優(yōu)秀的統(tǒng)計軟件,可以輕松實現(xiàn)編程,能夠方便快捷地實現(xiàn)個性化的統(tǒng)計需求。將R語言應(yīng)用于教學(xué),能夠較好的激發(fā)學(xué)生的學(xué)習(xí)興趣和動力,提高學(xué)生動手實踐的積極性和能力。