中國人民大學(xué) 孫乙丹
最初的統(tǒng)計(jì)學(xué)知識對各類數(shù)據(jù)按照信息需求者的要求整合并描述,統(tǒng)計(jì)學(xué)經(jīng)過發(fā)展,已經(jīng)融合了相關(guān)數(shù)理理論,逐步成為具備一定理論價值和獨(dú)特研究方法的統(tǒng)計(jì)學(xué)科。統(tǒng)計(jì)學(xué)距今已經(jīng)有三百多年歷史,邏輯框架極為嚴(yán)謹(jǐn)。隨著近年來計(jì)算機(jī)和互聯(lián)網(wǎng)的普及,給統(tǒng)計(jì)學(xué)帶來了顛覆性進(jìn)展,各種統(tǒng)計(jì)推斷模型和方法以及數(shù)理統(tǒng)計(jì)等對統(tǒng)計(jì)學(xué)發(fā)展具有推動作用,統(tǒng)計(jì)學(xué)隨著大數(shù)據(jù)的發(fā)展,逐步滲透到各領(lǐng)域。
在之前的統(tǒng)計(jì)實(shí)踐中,僅僅局限于實(shí)物階段,對事物簡單記錄和統(tǒng)計(jì)。統(tǒng)計(jì)學(xué)研究的內(nèi)容上分為政治算數(shù)和國術(shù)兩個學(xué)派。這兩大統(tǒng)計(jì)學(xué)派的誕生,促使統(tǒng)計(jì)學(xué)除了計(jì)數(shù)功能外,增加了更多的實(shí)用功能。同時它們還對統(tǒng)計(jì)學(xué)理論有了更深一層的概括,將不同的統(tǒng)計(jì)實(shí)踐概括成了比較成熟的理論??梢哉f,這兩大學(xué)派使得統(tǒng)計(jì)知識更加系統(tǒng)和完備。在這之后的很長一段時間,兩大學(xué)派互相爭論,兩大理論互相碰撞,也是傳統(tǒng)統(tǒng)計(jì)學(xué)的雛形。
1.概率論—統(tǒng)計(jì)學(xué)的基石
(1)初期概率論
上文提到的在政治算術(shù)學(xué)派和國勢學(xué)派的爭論時期,有的數(shù)學(xué)家通過博彩業(yè)中出現(xiàn)的大量問題,提出概率論。隨著時代的發(fā)展,逐步衍生了組合、遞推、條件概率等,這些公式、理念的提出促使概率計(jì)算從最原始的技術(shù)進(jìn)入較為高精的階段。概率論最初與統(tǒng)計(jì)學(xué)關(guān)聯(lián)度并不高,隨著數(shù)學(xué)分析等數(shù)學(xué)理論融合概率論,概率論具備了數(shù)學(xué)的嚴(yán)謹(jǐn)性,提高了適用性,進(jìn)一步擴(kuò)大了與統(tǒng)計(jì)學(xué)的關(guān)聯(lián)程度,也擴(kuò)大了應(yīng)用范圍。
(2)大數(shù)定律
英國數(shù)學(xué)家將賭博中的現(xiàn)象理論化并提出伯努利定理,也是大數(shù)定律的最初模型,初期的統(tǒng)計(jì)學(xué)方法和理論都是建立在該理論基礎(chǔ)上而形成的。
(3)中心極限理論
中心極限定理于17世紀(jì)30年代被提出,歷經(jīng)了200年,于上世紀(jì)30年代才完成,論證了獨(dú)立變量和中心極限理論。概率論中的中心極限定理在樣本量為N→∞時,極限分布呈現(xiàn)正態(tài)方式,也是數(shù)理統(tǒng)計(jì)學(xué)中的大樣本方法基礎(chǔ)。
(4)隨機(jī)過程
概率論從最初的靜態(tài)變量發(fā)展為隨機(jī)變量時間序列,在發(fā)展到隨機(jī)變量過程中還不斷深入研究概率論的應(yīng)用范圍,隨機(jī)變量實(shí)現(xiàn)了靜態(tài)到動態(tài)的重大研究發(fā)現(xiàn)。隨機(jī)變量描述了時間推進(jìn)過程中變量運(yùn)動情況,并對結(jié)果進(jìn)行判斷和決策,促進(jìn)了數(shù)學(xué)和非數(shù)學(xué)領(lǐng)域得以延展,具有一定的突破性和實(shí)用性。
2.數(shù)理統(tǒng)計(jì)的提出與發(fā)展
“逆概率”是二項(xiàng)分布概率P的新問題,也是大數(shù)據(jù)定律和中心極限定理衍生出的數(shù)理統(tǒng)計(jì),統(tǒng)計(jì)推斷包括頻率和貝葉斯兩個學(xué)派。頻率學(xué)派是將所推斷的參數(shù)θ假設(shè)為固定的未知常數(shù),樣本χ屬于隨機(jī)任意數(shù),重心放在樣本空間。貝葉斯學(xué)派則將θ假設(shè)為隨機(jī)變量,樣本χ為固定常數(shù),重心放在參數(shù)空間。貝葉斯學(xué)派是貝式統(tǒng)計(jì)理論發(fā)展而來的,以概率為基礎(chǔ)研究“逆概率”理論。在樣本量較少,參數(shù)模型不多的前提下,貝葉斯較頻率方法更加便捷,因?yàn)榭墒∪コ闃臃植脊ぷ鞑襟E。如果先驗(yàn)分布設(shè)定存在困難,在沒有參數(shù)模型的前提下,則頻率方法更加便捷。統(tǒng)計(jì)學(xué)中的概率理論和實(shí)踐過程中的各類數(shù)據(jù)在數(shù)理統(tǒng)計(jì)作用下可以結(jié)合,可反向推導(dǎo)統(tǒng)計(jì)參數(shù),為統(tǒng)計(jì)學(xué)樣本的概率作出預(yù)測、控制和分析而夯實(shí)基礎(chǔ)。
傳統(tǒng)統(tǒng)計(jì)方法需要人工收集數(shù)據(jù)并按照數(shù)據(jù)要求進(jìn)行整合,數(shù)據(jù)主要來源于實(shí)地調(diào)查或者其他渠道獲得,數(shù)據(jù)獲取難度較大,統(tǒng)計(jì)過程中多以抽樣為主,且統(tǒng)計(jì)分析方法基于因果關(guān)系,是通過部分?jǐn)?shù)據(jù)推測整體的事物分布的統(tǒng)計(jì)學(xué)科。隨著大數(shù)據(jù)的發(fā)展和計(jì)算機(jī)互聯(lián)網(wǎng)的普及,數(shù)據(jù)獲取、儲存更加便捷,統(tǒng)計(jì)數(shù)據(jù)實(shí)現(xiàn)云計(jì)算,實(shí)現(xiàn)大數(shù)據(jù)智能分析。統(tǒng)計(jì)學(xué)仍以數(shù)據(jù)為基礎(chǔ),大數(shù)據(jù)提高了統(tǒng)計(jì)學(xué)的統(tǒng)計(jì)效率。大數(shù)據(jù)為背景的數(shù)據(jù)具有高效性、大量性和多樣性特點(diǎn),彌補(bǔ)了傳統(tǒng)統(tǒng)計(jì)的高成本和高誤差的不足。但大數(shù)據(jù)的一些聚類、搜索以及分類離不開統(tǒng)計(jì)學(xué)的理論方法。大數(shù)據(jù)背景下統(tǒng)計(jì)學(xué)可以實(shí)現(xiàn)機(jī)器學(xué)習(xí),也是計(jì)算機(jī)和統(tǒng)計(jì)方法的融合,彰顯人工智能對數(shù)據(jù)的處理能力。機(jī)器學(xué)習(xí)是基于統(tǒng)計(jì)學(xué)概念和理論的,拓展了統(tǒng)計(jì)學(xué)范圍,提高了統(tǒng)計(jì)學(xué)的應(yīng)用價值。
1.概率論方法的應(yīng)用
統(tǒng)計(jì)學(xué)在人工智能發(fā)展中主要應(yīng)用自然語言處理,使機(jī)器具備人的思維能力,來完成自然語言處理,統(tǒng)計(jì)學(xué)運(yùn)用于自然語言處理打破了傳統(tǒng)思想禁錮。隨著大數(shù)據(jù)的應(yīng)用,數(shù)據(jù)量加大,計(jì)算能力有所提高,統(tǒng)計(jì)學(xué)中的語言模型已經(jīng)演變?yōu)樽匀徽Z言處理,一些語音識別、手寫體識別、漢字輸入等技術(shù)被廣泛應(yīng)用。統(tǒng)計(jì)學(xué)中的語言模型是根據(jù)語料庫對單詞出現(xiàn)概率進(jìn)行估計(jì),系統(tǒng)會自動選取出現(xiàn)的概率大的當(dāng)做輸出對象。因此,統(tǒng)計(jì)語言模型是自然語言處理方法中最有效的一種。
2.貝葉斯統(tǒng)計(jì)理論方法的應(yīng)用
貝葉斯統(tǒng)計(jì)理論衍生了樸素貝葉斯分類器,可以對條件概率分布作出獨(dú)立性假設(shè)。樸素貝葉斯法進(jìn)一步對自變量、因變量進(jìn)行估計(jì),貝葉斯公式對給定的輸入χ,對條件概率分布和先驗(yàn)概率模型作出后驗(yàn)概率分布,假設(shè)后驗(yàn)概率確定為χ類,通過貝葉斯定理可以得出模型的估計(jì)。樸素貝葉斯模型在分類問題中對結(jié)果概率評估具有一定優(yōu)勢,隨著貝葉斯統(tǒng)計(jì)理論的發(fā)展,其分類模型以及衍生的領(lǐng)域在醫(yī)療診斷和文本分類領(lǐng)域應(yīng)用廣泛。
3.回歸分析方法的應(yīng)用
首先是線性模型法,是對變量之間存在的線性關(guān)系進(jìn)行預(yù)測,?(χ)=w1χ1+w2χ2+……+wdxd+b,模型在小二乘法w1,w2……wd,b后證實(shí)確定?;貧w分析模型中,線性模型是機(jī)器學(xué)習(xí)所有回歸問題的基礎(chǔ),具有易于掌握的特點(diǎn),因此,w的分量大小在預(yù)測中突出了屬性的影響力。機(jī)器學(xué)習(xí)中,變量間的關(guān)系用線性無法表達(dá)時,可選用核函數(shù)變量補(bǔ)充處理,回歸問題中線性模型是應(yīng)用中最廣泛的一種方式?;貧w問題中還能對線性判別模型進(jìn)行分析,運(yùn)用降維方法在監(jiān)督學(xué)習(xí)中運(yùn)用。
其次,邏輯斯蒂回歸模型回歸問題中,線性回歸模型可以在分類過程中將分類作出標(biāo)記,運(yùn)用可導(dǎo)函數(shù)γ與預(yù)測出的回歸模型相聯(lián)系,促使回歸模型轉(zhuǎn)化為分類模型。邏輯斯蒂函數(shù)y=1/1+е-Χ作為替代函數(shù),并用預(yù)測結(jié)果估計(jì)對數(shù)概率。同時可以實(shí)現(xiàn)預(yù)測類別,對近似概率實(shí)現(xiàn)預(yù)測,在輔助決策的事物中可以應(yīng)用近似概率。
4.多元統(tǒng)計(jì)分析方法的應(yīng)用
主成分分析在多元統(tǒng)計(jì)分析中最為常見,是機(jī)器學(xué)習(xí)中一種比較常見的降維方法。在一些超大量數(shù)據(jù)處理的場景中,太多變量出現(xiàn)容易影響和擾亂模型運(yùn)行效率和準(zhǔn)確率。這種情況需要減少變量個數(shù),在此基礎(chǔ)上得到最全面的信息,這是主成分分析領(lǐng)域的基礎(chǔ)思想。因此通常根據(jù)最大方差思想來處理變量中最關(guān)鍵、最重要的信息。一般情況,在面對海量數(shù)據(jù)時,尤其這些數(shù)據(jù)還呈現(xiàn)出比較典型的特征時,這種思想能起到化繁為簡的重要作用,同時也會降低模型后期的運(yùn)算消耗。
多元統(tǒng)計(jì)分析衍生出的聚類分析處于初期階段,該分析方法主要是根據(jù)一種分類方法把沒有分類的變量根據(jù)一定規(guī)律使其相似部分歸為一類。具體包括系統(tǒng)、圖論、有序樣品、模糊等方法,根據(jù)度量法劃分為多個類別數(shù)據(jù)集,在多元統(tǒng)計(jì)分析中,具有一定相似性的數(shù)據(jù)歸為一個類別,而類別之間的數(shù)據(jù)具有存異性特點(diǎn),在數(shù)據(jù)處理和提取中有一定分析優(yōu)勢,也是多元統(tǒng)計(jì)的一大特點(diǎn)。
根據(jù)CIKI數(shù)據(jù)庫有關(guān)機(jī)器學(xué)習(xí)、統(tǒng)計(jì)方法、大數(shù)據(jù)領(lǐng)域等文獻(xiàn)發(fā)表,可以證實(shí),10年前有關(guān)機(jī)器學(xué)習(xí)領(lǐng)域的論文不多見,2016年,統(tǒng)計(jì)方法領(lǐng)域的論文數(shù)量攀升至最高點(diǎn)。大數(shù)據(jù)領(lǐng)域的相關(guān)文獻(xiàn)數(shù)量增長,并且增長速度一直居高不下。從文獻(xiàn)內(nèi)容上可以看出當(dāng)前我國大數(shù)據(jù)發(fā)展勢態(tài),更為明顯的是,增長速度已經(jīng)超越了傳統(tǒng)統(tǒng)計(jì)方法,進(jìn)入了全新時期。
從WOS核心分析機(jī)器學(xué)習(xí)、大數(shù)據(jù)以及統(tǒng)計(jì)方法研究相關(guān)文獻(xiàn)數(shù)量來看,2012年以來相關(guān)文獻(xiàn)發(fā)表較多。值得注意的是,機(jī)器學(xué)習(xí)領(lǐng)域論文數(shù)量從2016年開始超出統(tǒng)計(jì)方法數(shù)量,這兩個領(lǐng)域的論文數(shù)量一直高于大數(shù)據(jù)領(lǐng)域。在我國,這兩個領(lǐng)域的論文相關(guān)觀點(diǎn)和理論闡述與國際先進(jìn)水平相比仍有上升空間,表明我國該領(lǐng)域還需不斷創(chuàng)新研發(fā),提高各項(xiàng)技術(shù)水平。
為了進(jìn)一步證實(shí)統(tǒng)計(jì)學(xué)方法以及大數(shù)據(jù)領(lǐng)域發(fā)展防線,通過CNKI數(shù)據(jù)庫搜索引擎對該領(lǐng)域有關(guān)的關(guān)鍵詞進(jìn)行查找分析,運(yùn)用專用圖譜軟件,結(jié)果顯示,統(tǒng)計(jì)方法領(lǐng)域“統(tǒng)計(jì)分析”“主成分分析”等詞匯出現(xiàn)頻率較高,而大數(shù)據(jù)領(lǐng)域“數(shù)據(jù)時代”“云計(jì)算”等關(guān)鍵詞匯出現(xiàn)頻率較高。通過上述關(guān)鍵詞中不難發(fā)現(xiàn)當(dāng)前國內(nèi)統(tǒng)計(jì)和大數(shù)據(jù)領(lǐng)域的研究特點(diǎn),可以判斷出兩種統(tǒng)計(jì)方向有部分重合的區(qū)域,大數(shù)據(jù)需要統(tǒng)計(jì)學(xué)方法作輔助,統(tǒng)計(jì)學(xué)方法需要大數(shù)據(jù)作為數(shù)據(jù)支撐。
可以說,世界上有數(shù)據(jù)的地方就有統(tǒng)計(jì)學(xué)的存在。統(tǒng)計(jì)學(xué)從17世紀(jì)發(fā)展到今天,經(jīng)歷了諸多變革,內(nèi)容和理論也在不斷更新完善,應(yīng)用的領(lǐng)域也在不斷擴(kuò)大。大數(shù)據(jù)時代已經(jīng)來臨,大數(shù)據(jù)和統(tǒng)計(jì)學(xué)具有互補(bǔ)性,大數(shù)據(jù)背景下統(tǒng)計(jì)學(xué)應(yīng)具備智能化特點(diǎn),借助當(dāng)前信息發(fā)展不斷創(chuàng)新統(tǒng)計(jì)學(xué)方法。我國統(tǒng)計(jì)學(xué)和大數(shù)據(jù)技術(shù)與國際相關(guān)領(lǐng)域?qū)Ρ?,都傾向于數(shù)據(jù)分析和發(fā)掘方向。因此,應(yīng)鼓勵統(tǒng)計(jì)方法與新技術(shù)進(jìn)行融合,促進(jìn)統(tǒng)計(jì)方法在大數(shù)據(jù)背景下發(fā)揮作用。