葉超
摘 ?要:該文在數(shù)理統(tǒng)計(jì)的視角下,分別以日為單位和以周為單位對溫州職業(yè)技術(shù)學(xué)院2013年9月~2018年12月公寓晚歸數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析。研究發(fā)現(xiàn)2種統(tǒng)計(jì)口徑下學(xué)生晚歸行為分布與泊松分布之間有顯著相關(guān)性,其卡方檢驗(yàn)結(jié)果分別為P1=0.048、P2=0.045。因此,以周為單位的晚歸概率分布更好地符合泊松分布的特點(diǎn)。根據(jù)該文的研究結(jié)果可知,在探究學(xué)生晚歸行為時(shí),可以將此類隨機(jī)事件轉(zhuǎn)化為一個(gè)已知均值的泊松分布問題,將復(fù)雜問題簡單化、模型化,從而為高校教師和管理者更好地管理學(xué)生提供分析和決策依據(jù)。
關(guān)鍵詞:泊松分布;卡方檢驗(yàn);晚歸;隨機(jī)事件;概率分布
中圖分類號(hào):O211.3 ? ? ? ? 文獻(xiàn)標(biāo)志碼:A
0 引言
眾所周知,泊松分布[1](Poisson Distribution)是一種離散型隨機(jī)概率分布,它是由法國著名的數(shù)學(xué)家和物理學(xué)家泊松(Poisson S.D)在1837年首先提出來的,與之相關(guān)的泊松過程、復(fù)合泊松過程等在物理學(xué)、金融學(xué)、經(jīng)濟(jì)學(xué)、工程學(xué)和管理學(xué)領(lǐng)域扮演者重要的角色。泊松分布主要用于描述單位時(shí)間或空間內(nèi)隨機(jī)事件X發(fā)生k次的概率分布數(shù)學(xué)模型,在描述稀有事件出現(xiàn)的概率時(shí)顯得特別有用,例如單位時(shí)間內(nèi)電話總機(jī)接到用戶呼叫的次數(shù);單位時(shí)間內(nèi),電路受到外界電磁波的沖擊次數(shù);1 m2內(nèi)玻璃上產(chǎn)生的水滴數(shù);某一公交車站上車的乘客數(shù);某項(xiàng)保險(xiǎn)的索賠次數(shù);某一液滴中觀察到的微生物數(shù)等。
學(xué)生公寓晚歸行為通常是指學(xué)生在規(guī)定門禁時(shí)間之后回到公寓的一種違紀(jì)情況。學(xué)生無故晚歸會(huì)對學(xué)生公寓正常管理帶來諸多影響,存在極大的安全隱患。學(xué)生晚歸行為作為一種隨機(jī)事件,高校教師和管理者通常只關(guān)注發(fā)生晚歸行為的學(xué)生,而忽略了晚歸這一行為在統(tǒng)計(jì)學(xué)上的特征和表現(xiàn)。通常情況下,我們無法準(zhǔn)確地預(yù)測某一天有幾個(gè)同學(xué)晚歸,但是我們能統(tǒng)計(jì)出某一月、某一學(xué)期發(fā)生了多少次晚歸,而泊松分布恰好適合描述這種隨機(jī)事件。因此,該文將探究晚歸行為與泊松分布之間的關(guān)系。
作者跟蹤整理了溫州職業(yè)技術(shù)學(xué)院從2013年開始長期開展學(xué)生公寓學(xué)生晚歸。截至2018年底,總共整理匯總1319期學(xué)數(shù)據(jù),其中晚上未按時(shí)回校2 146人次。為該次分析和研究提供了數(shù)據(jù)支持。
1 以日為單位的泊松分布研究
泊松分布概率函數(shù)通常可表示為:
上式可理解為:隨機(jī)變量X在取值為k時(shí)的概率,其中k=0,1,2…、λ表示隨機(jī)事件在一段時(shí)間內(nèi)發(fā)生的平均次數(shù)。對于任意隨機(jī)事件如要將其看作泊松過程研究,需滿足3個(gè)條件。1)隨機(jī)事件具有獨(dú)立性。2)隨機(jī)事件在不同時(shí)間段內(nèi)發(fā)生的概率具有穩(wěn)定性。3)隨機(jī)事件是個(gè)小概率事件[1]。
該文研究了對象學(xué)生晚歸行為,這一隨機(jī)事件能夠較好地符合上述3個(gè)條件。即學(xué)生晚歸行為為個(gè)人行為,不會(huì)受到之前晚歸的學(xué)生的影響;除了涉及假期的月份,其他月份學(xué)生的晚歸總數(shù)相對穩(wěn)定,說明學(xué)生晚歸概率具有穩(wěn)定性;根據(jù)統(tǒng)計(jì)可得,2013年9月~2018年12月溫州職業(yè)技術(shù)學(xué)院學(xué)生總計(jì)晚歸次數(shù)2 146次,平均日晚歸次數(shù)λ≈1.5。對于在校生10 000人左右學(xué)校,平均每天有1.5個(gè)人晚歸,晚歸概率約為0.01%可以認(rèn)為是一個(gè)小概率事件。因此,可以認(rèn)為學(xué)生晚歸行為是一個(gè)泊松過程,其概率分布應(yīng)有泊松分布的趨勢和特點(diǎn)。
由于周末不單獨(dú)發(fā)布晚歸數(shù)據(jù),每周五、周六和周日的晚歸數(shù)據(jù)會(huì)下一周周一起發(fā)布,即每周一的公告實(shí)際包含了周五、周六和周日3天的數(shù)據(jù)。所以,為了補(bǔ)全公告未體現(xiàn)的數(shù)據(jù),該文對這部分未體現(xiàn)的天數(shù)做了如下處理:根據(jù)λ=1.5得到泊松分布的概率分布,可認(rèn)定某天晚上不發(fā)生晚歸的概率為P(0)=0.22,如果周末3天都未發(fā)生晚歸(其概率為0.223),則認(rèn)定為這3天為無晚歸。根據(jù)上述處理,補(bǔ)全了確實(shí)的數(shù)據(jù),得到溫州職業(yè)技術(shù)學(xué)院2013年9月~2018年12月以來的晚歸次數(shù)的概率分布。
如圖1(a)所示,黑線為實(shí)際晚歸概率分布Pr(X),紅線為泊松分布Pr(X)| λ=1.5。兩者有相似的趨勢,吻合度較高,這說明學(xué)生的晚歸次數(shù)的概率分布具有泊松分布的趨勢。為了定量地描述實(shí)際概率分布的與泊松分布的關(guān)系,該文利用卡方檢驗(yàn)[2](交叉分析)研究泊松分布(λ=1.5)與實(shí)際分布的差異關(guān)系,經(jīng)計(jì)算可知x12=180、p1=0.048<0.05。這說明兩者有顯著性關(guān)系,學(xué)生每日晚歸次數(shù)具有泊松分布的特點(diǎn)。因此,只要知道一段時(shí)間內(nèi)的平均晚歸次數(shù),我們就能用對應(yīng)的泊松分布來描述晚歸次數(shù)分布,將一個(gè)未知概率分布轉(zhuǎn)化成已知的概率分布。
2 以周為單位的泊松分布研究
根據(jù)上文討論可知,由于晚歸數(shù)據(jù)統(tǒng)計(jì)上的特點(diǎn),每周一的數(shù)據(jù)實(shí)際包含了周五、周六和周日3天的晚歸數(shù)據(jù)。該文的處理方式是將λ=1.5的泊松分布P(0)概率當(dāng)作某天晚上不發(fā)生晚歸的概率為,從而補(bǔ)全空余的數(shù)據(jù)。雖然,實(shí)際概率分布與泊松分布(λ=1.5)有著相同的趨勢,且卡方檢驗(yàn)顯示兩者有顯著相關(guān)性。但是Pr(0)和P(0)|λ=1.5仍有一定的差別,這樣的數(shù)據(jù)處理必將對結(jié)果產(chǎn)生一定的影響。因此,為了避免數(shù)據(jù)處理對研究結(jié)果產(chǎn)生影響,該文通過改進(jìn)統(tǒng)計(jì)方式,以周為單位統(tǒng)計(jì)了每周發(fā)生的晚歸次數(shù),從而避開了數(shù)據(jù)補(bǔ)全的過程。
如圖1(b)所示,黑線為的實(shí)際晚歸概率分布Pr(X),
紅線為泊松分布 P(X)| λ=10(根據(jù)計(jì)算可知,每周發(fā)生晚歸數(shù)λ≈10)。通過比較可知,兩條曲線有相似的趨勢,吻合度較高。利用卡方檢驗(yàn)(交叉分析)研究泊松分布(λ=10)與實(shí)際分布的差異關(guān)系,經(jīng)計(jì)算可知x22=93.6、p2=0.045<0.05,這進(jìn)一步說明兩者之間存在顯著性關(guān)系。此外,x22>x12 ,p1 通過進(jìn)一步比較兩者的分布圖像,實(shí)際概率分布的波峰較寬,峰值相對較低。這主要是由于實(shí)際分布Pr(X>24)≠0,在X大于24后仍有一定的概率,而P(X>24)| λ=10=0,在X大于24概率為0造成。這種情況通常是因?yàn)樵趯?shí)際生活中一些特殊的節(jié)假日和活動(dòng)造成的,如舉辦運(yùn)動(dòng)會(huì)、惡劣天氣造成交通大面積延誤等。因此,如圖1(b)說明學(xué)生的晚歸次數(shù)的概率分布確實(shí)具有泊松分布的趨勢。同時(shí)也說明在在第二小節(jié)中的數(shù)據(jù)處理具有一定的可靠性。 3 結(jié)語 該文通過數(shù)理統(tǒng)計(jì)的方法研究發(fā)現(xiàn),溫州職業(yè)技術(shù)學(xué)院2013年9月至2018年12月共11個(gè)學(xué)期的學(xué)生公寓晚歸現(xiàn)象具有泊松過程的特點(diǎn),其發(fā)生次數(shù)的概率分布與泊松分布有顯著性關(guān)系。其中,以日為單位統(tǒng)計(jì)的晚歸分布卡方檢驗(yàn)結(jié)果分別為x12=180、p1=0.048, 滿足學(xué)生晚歸分布和泊松分布具有顯著性關(guān)系的判斷標(biāo)準(zhǔn)。在研究過程中,為了減少數(shù)據(jù)處理對結(jié)果的影響,該文對統(tǒng)計(jì)分布做了一定的優(yōu)化,不以日為統(tǒng)計(jì)單位,通過統(tǒng)計(jì)每周的晚歸次數(shù),避開了數(shù)據(jù)補(bǔ)全過程中對數(shù)據(jù)準(zhǔn)確性造成的影響。其中,以周為單位統(tǒng)計(jì)的晚歸分布卡方檢驗(yàn)結(jié)果分別為x22=93.6、p2=0.045。計(jì)算結(jié)果表明以周為單位的統(tǒng)計(jì)分布,確實(shí)能更好地符合泊松分布的特點(diǎn)(x22>x12 ,p1 根據(jù)上述討論,該文可將學(xué)生晚歸行為這一未知的隨機(jī)事件,轉(zhuǎn)化為研究一個(gè)符合泊松分布的隨機(jī)事件,從而將復(fù)雜的問題簡單化、模型化。自1837年首次提出后,圍繞泊松分布有大量的基礎(chǔ)和應(yīng)用研究,以及諸多被實(shí)踐證實(shí)的性質(zhì)。泊松分布的特點(diǎn)能為高校教師和管理者更好地組織學(xué)生提供科學(xué)依據(jù)和決策依據(jù),并為學(xué)校在制定相關(guān)政策過程中提供幫助,如預(yù)測明年學(xué)校將發(fā)生的晚歸次數(shù)、定義大規(guī)模晚歸事件的閾值等。 參考文獻(xiàn) [1]夏元睿,吳俊,葉冬青.泊松分布與概率論的發(fā)展——西蒙·丹尼爾·泊松[J].中華疾病控制雜志,2019,23(7):881-884. [2]林照授,李金釬,陳森森.基于Excel函數(shù)及圖表工具的泊松分布卡方檢驗(yàn)法應(yīng)用[J].綠色科技,2019(21):171-173.