劉德志,李曉智,商可心,胡孟穎
(安徽財經(jīng)大學a.統(tǒng)計與應用數(shù)學學院;b.數(shù)量經(jīng)濟研究所,安徽蚌埠 233030)
在科學技術(shù)創(chuàng)新和生產(chǎn)高速發(fā)展的時代,未知和未來的問題逐漸成為我們關(guān)注的主題.概率統(tǒng)計作為研究和衡量未來事件發(fā)生的可能性的量度,雖然在一次隨機試驗中某個事件的發(fā)生是帶有偶然性的,但那些可在相同條件下大量重復的隨機試驗卻往往呈現(xiàn)出明顯的數(shù)量規(guī)律,因此受到現(xiàn)代科學發(fā)展的極大關(guān)注并被廣泛應用[1].
在大學階段數(shù)學的學習中,“概率論與數(shù)理統(tǒng)計”作為一門數(shù)學后續(xù)專業(yè)核心課,其重要程度不言而喻.然而,由于“概率論與數(shù)理統(tǒng)計”課程的學習是要建立在微積分和線性代數(shù)基礎(chǔ)知識掌握之上的,使得很多初學者在學習該課程中會存在一些困難.在該門課程中,隨機變量理解和分析作為重要的內(nèi)容貫穿整個階段學習,但是很多本科生乃至研究生對其理解偏誤,所以本文就此問題展開分析和討論.
在眾多的“概率論與數(shù)理統(tǒng)計”課程教科書中,大都這樣定義隨機變量:定義在樣本空間上Ω 的實值函數(shù)X=X(ω)稱為隨機變量,常常用大寫字母X,Y,Z 等表示隨機變量,其取值用小寫字母x,y,z 等表示[2].其定義方式都是通過幾個例子的引入直接給出,往往非常簡單,這樣就不利于很多初學者的理解和掌握.
從隨機變量的定義來看,其本質(zhì)的內(nèi)涵就是一個映射,從樣本空間Ω 上映射到實數(shù)集合R 上的子集上,樣本點作為原象,而對應的實數(shù)作為象,隨機變量則代表的是一種對應法則.這種對應法則并非我們常見的函數(shù)形式,而是一種多形式的表達.我們可以從“兩點分布”這樣一個最簡單的例子來說明:
隨機試驗的樣本空間為Ω={ω1,ω2},設置的隨機變量X1為
從而形成b(1,p),則隨機變量X1~b(1,p),則X1的概率分布為
在整個隨機變量的設置過程中,無法看到建立的對應法則,也就是說樣本點ω1對應0 是如何建立的無法通過確切的對應法則來表示,而是通過固有的經(jīng)驗來建立的.基于以上原則,兩點分布也可以設置為下面隨機變量X2為
因此,同一個隨機試驗可以設置多個隨機變量,而最重要是在隨機試驗中對隨機變量的描述,確立了在眾多設置方式中的一種形式,且同一個隨機試驗設置多個隨機變量是等價的,比如設隨機變量表示骰子出現(xiàn)的點數(shù),即表示Y(ωk)=k(k=1,2,…,6),其中表示樣本點出現(xiàn)點.
在隨機變量定義之后,很多教材在定義隨機事件時就直接寫成如下的形式:X≥k,X=k,X=k.這讓很多初學者和實際應用的工作者無法理解其本質(zhì)的含義,無法和隨機事件是樣本空間子集的定義統(tǒng)一起來.其實對于上述隨機事件來說,在形式上省略了很多的內(nèi)容,比如隨機事件{X≥k}完整的形式為{ω:X(ω)≥k},其含義是滿足X(ω)≥k 條件的元素ω 組成的集合,即為樣本空間的子集,和隨機事件的基本定義統(tǒng)一起來.
對隨機變量的研究和分析,首先應該確定其類型,然后根據(jù)不同的類型進行分析.隨機變量從取值的角度可以分為離散型隨機變量、連續(xù)型隨機變量和既不離散也不連續(xù)型隨機變量三類,大學教材中一般只涉及到前兩類[3].
在隨機變量的分類中,離散型隨機變量的定義是最簡單的,假如一個隨機變量僅可能取有限個或者可列個值,則稱其為離散型隨機變量.由隨機變量取值就可以確定樣本點數(shù)量為有限個或者可列個的隨機試驗皆屬于離散型的范疇,通過概率分布列來表示概率分布,比如常見的0-1 分布、二項分布、多項分布、泊松分布、幾何分布、超幾何分布和負二項分布等.
對于離散型隨機變量,其分布函數(shù)形式為階梯型函數(shù),由于分布函數(shù)的不減性,所以分布函數(shù)的圖形為遞增的階梯形式,其中間斷點的橫坐標值為隨機變量的取值,而在間斷點處,縱坐標“跳躍”的高度為隨機變量取橫坐標值時的概率.
連續(xù)型隨機變量在現(xiàn)實生活中應用是非常廣泛的,其定義為假如一個隨機變量的可能取值充滿數(shù)軸上的一個區(qū)間(a,b),則稱其為連續(xù)型隨機變量,其中a 可以是-∞,b 可以是∞.由此定義可以看出,連續(xù)時間相依隨機變量大都是連續(xù)隨機變量,比如壽命等.連續(xù)分布通過可能存在的非負可積密度函數(shù)來刻畫,常見的連續(xù)型隨機變量的分布有均分分布、正態(tài)分布、對數(shù)正態(tài)分布、伽馬分布、指數(shù)分布、威布爾分布、貝塔分布、柯西分布、邏輯分布、雙指數(shù)型分布等[4].
對于連續(xù)型隨機變量的分布函數(shù)而言,很多初學者和實際應用的工作者都存在理解上的誤區(qū),認為連續(xù)型隨機變量和分布函數(shù)是連續(xù)的,兩者是統(tǒng)一等價的,其實不然[5].連續(xù)型隨機變量的分布函數(shù)一定是連續(xù)的,但是分布函數(shù)是連續(xù)函數(shù)的隨機變量不一定是連續(xù)型隨機變量.反例如下:
容易驗證F(x)是連續(xù)函數(shù),且由存在定理可知存在隨機變量X,其分布函數(shù)為F(x).然而,如果假設隨機變量X 為連續(xù)型隨機變量,且取值區(qū)間為[0,1],則F′(x)=0,a.e.,x∈[0,1],于是
這和連續(xù)型隨機變量的密度函數(shù)定義是矛盾的,說明隨機變量X 不是連續(xù)型的.
對于隨機變量的最后一類,既不離散也不連續(xù)型隨機變量在很多的本科教材上都沒有涉及,但是時常出現(xiàn)在各類高級別的概率論考試中.在本文中,我們以最簡單的兩點分布和區(qū)間[a,b]上均勻分布綜合為例來說明如何研究這一類隨機變量.
例如,隨機變量X 分布為如下形式:在區(qū)間[a,b]的兩個端點發(fā)生的概率為P(X=a)=p1,P(X=b)=p2,在區(qū)間(a,b)上為“均勻分布”,則該隨機變量在(a,b)的“密度函數(shù)”為
由該密度函數(shù)和分布函數(shù)的形式就可以發(fā)現(xiàn),對于此類隨機變量,首先第一步是將離散部分在每個取值上的概率確定下來,然后用總體的概率“1”減掉離散部分概率的總和,用剩余的差再作為連續(xù)部分概率的總和,形成一個“概率分布列”和一個或者多個“概率密度函數(shù)”,即
其中,x0=-∞,x∞=∞,區(qū)間(xi,xi+1)(i=1,2,…)為離散部分取值對實數(shù)區(qū)間R 的分割.
關(guān)于隨機變量間的關(guān)系,有很多的分類方法.線性的角度作為一個非常重要的分類指標,常常用于現(xiàn)代生產(chǎn)生活中,其大致可以分為兩大類,具有相關(guān)關(guān)系和不相關(guān)關(guān)系[6].
隨機變量間X 和Y 相關(guān)關(guān)系一般用兩隨機變量間的相關(guān)系數(shù)衡量,即相關(guān)系數(shù)ρ≠0.由相關(guān)系數(shù)ρ 的取值區(qū)間[-1,0]∪(0,1],則可以細分為0<│ρ│<1 和│ρ│=1,對于0<│ρ│<1 這種情況來說,由于相關(guān)系數(shù)是對兩隨機變量之間的線性關(guān)系的描述,所以│ρ│當靠近1 時,說明兩隨機變量X 和Y 具有較強的線性關(guān)系,即兩隨機變量取值形成的散點分布在一條直線附近;當│ρ│靠近0 時,說明兩隨機變量X 和Y 具有較弱的線性關(guān)系,即兩隨機變量取值形成的散點無法分布在一條直線附近;而對于│ρ│=1 這種情況來說,等價為兩隨機變量X 和Y 在依概率1 的情況下,存在線性關(guān)系,即存在系數(shù)a≠0,b∈R,則│ρ│=1 ?P{Y=aX+b}=1,或者Y=aX+b,a.e..需要說明的是,這種關(guān)系并非普通意義下的線性關(guān)系[7].
隨機變量間X 和Y 不相關(guān)關(guān)系則可以用相關(guān)系數(shù)ρ=0來表示,說明兩者之間不存在線性關(guān)系.對于此種情況則可以分為兩隨機變量獨立和不獨立兩種關(guān)系,更進一步,對于不獨立又可以進行分類[8].為了更加清楚表示分類關(guān)系,我們以圖示說明.
其中“具有一定的非線性關(guān)系”需要進一步做出解釋,在表達兩個隨機變量間X 和Y 存在非線性關(guān)系的方面,缺少類似線性關(guān)系的參考參數(shù)——相關(guān)系數(shù),因此只能以“具有一定的非線性關(guān)系”來表示這一個分類.
隨機變量作為概率論中最重要的概念,對于其把握直接影響和決定很多初學者和實際應用的工作者的學習效果.本文在從本質(zhì)上給出隨機變量含義的同時,并給出了其分類,也糾正了很多初學者的誤解.對于多個隨機變量之間關(guān)系刻畫過程中的“具有一定的非線性關(guān)系”情況,我們將在后續(xù)的研究中進一步探討.因此,希望通過本文的闡述分析,能給許多初學者提供很好的幫助.