• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      應(yīng)用統(tǒng)計(jì)學(xué)在大數(shù)據(jù)背景下的應(yīng)用與創(chuàng)新

      2022-01-01 16:26:55中國人民大學(xué)孫乙丹
      區(qū)域治理 2021年17期
      關(guān)鍵詞:概率論貝葉斯概率

      中國人民大學(xué) 孫乙丹

      最初的統(tǒng)計(jì)學(xué)知識對各類數(shù)據(jù)按照信息需求者的要求整合并描述,統(tǒng)計(jì)學(xué)經(jīng)過發(fā)展,已經(jīng)融合了相關(guān)數(shù)理理論,逐步成為具備一定理論價值和獨(dú)特研究方法的統(tǒng)計(jì)學(xué)科。統(tǒng)計(jì)學(xué)距今已經(jīng)有三百多年歷史,邏輯框架極為嚴(yán)謹(jǐn)。隨著近年來計(jì)算機(jī)和互聯(lián)網(wǎng)的普及,給統(tǒng)計(jì)學(xué)帶來了顛覆性進(jìn)展,各種統(tǒng)計(jì)推斷模型和方法以及數(shù)理統(tǒng)計(jì)等對統(tǒng)計(jì)學(xué)發(fā)展具有推動作用,統(tǒng)計(jì)學(xué)隨著大數(shù)據(jù)的發(fā)展,逐步滲透到各領(lǐng)域。

      一、不同階段統(tǒng)計(jì)方法發(fā)展概述

      (一)統(tǒng)計(jì)學(xué)方法的萌芽

      在之前的統(tǒng)計(jì)實(shí)踐中,僅僅局限于實(shí)物階段,對事物簡單記錄和統(tǒng)計(jì)。統(tǒng)計(jì)學(xué)研究的內(nèi)容上分為政治算數(shù)和國術(shù)兩個學(xué)派。這兩大統(tǒng)計(jì)學(xué)派的誕生,促使統(tǒng)計(jì)學(xué)除了計(jì)數(shù)功能外,增加了更多的實(shí)用功能。同時它們還對統(tǒng)計(jì)學(xué)理論有了更深一層的概括,將不同的統(tǒng)計(jì)實(shí)踐概括成了比較成熟的理論??梢哉f,這兩大學(xué)派使得統(tǒng)計(jì)知識更加系統(tǒng)和完備。在這之后的很長一段時間,兩大學(xué)派互相爭論,兩大理論互相碰撞,也是傳統(tǒng)統(tǒng)計(jì)學(xué)的雛形。

      (二)統(tǒng)計(jì)學(xué)方法的關(guān)鍵發(fā)展

      1.概率論—統(tǒng)計(jì)學(xué)的基石

      (1)初期概率論

      上文提到的在政治算術(shù)學(xué)派和國勢學(xué)派的爭論時期,有的數(shù)學(xué)家通過博彩業(yè)中出現(xiàn)的大量問題,提出概率論。隨著時代的發(fā)展,逐步衍生了組合、遞推、條件概率等,這些公式、理念的提出促使概率計(jì)算從最原始的技術(shù)進(jìn)入較為高精的階段。概率論最初與統(tǒng)計(jì)學(xué)關(guān)聯(lián)度并不高,隨著數(shù)學(xué)分析等數(shù)學(xué)理論融合概率論,概率論具備了數(shù)學(xué)的嚴(yán)謹(jǐn)性,提高了適用性,進(jìn)一步擴(kuò)大了與統(tǒng)計(jì)學(xué)的關(guān)聯(lián)程度,也擴(kuò)大了應(yīng)用范圍。

      (2)大數(shù)定律

      英國數(shù)學(xué)家將賭博中的現(xiàn)象理論化并提出伯努利定理,也是大數(shù)定律的最初模型,初期的統(tǒng)計(jì)學(xué)方法和理論都是建立在該理論基礎(chǔ)上而形成的。

      (3)中心極限理論

      中心極限定理于17世紀(jì)30年代被提出,歷經(jīng)了200年,于上世紀(jì)30年代才完成,論證了獨(dú)立變量和中心極限理論。概率論中的中心極限定理在樣本量為N→∞時,極限分布呈現(xiàn)正態(tài)方式,也是數(shù)理統(tǒng)計(jì)學(xué)中的大樣本方法基礎(chǔ)。

      (4)隨機(jī)過程

      概率論從最初的靜態(tài)變量發(fā)展為隨機(jī)變量時間序列,在發(fā)展到隨機(jī)變量過程中還不斷深入研究概率論的應(yīng)用范圍,隨機(jī)變量實(shí)現(xiàn)了靜態(tài)到動態(tài)的重大研究發(fā)現(xiàn)。隨機(jī)變量描述了時間推進(jìn)過程中變量運(yùn)動情況,并對結(jié)果進(jìn)行判斷和決策,促進(jìn)了數(shù)學(xué)和非數(shù)學(xué)領(lǐng)域得以延展,具有一定的突破性和實(shí)用性。

      2.數(shù)理統(tǒng)計(jì)的提出與發(fā)展

      “逆概率”是二項(xiàng)分布概率P的新問題,也是大數(shù)據(jù)定律和中心極限定理衍生出的數(shù)理統(tǒng)計(jì),統(tǒng)計(jì)推斷包括頻率和貝葉斯兩個學(xué)派。頻率學(xué)派是將所推斷的參數(shù)θ假設(shè)為固定的未知常數(shù),樣本χ屬于隨機(jī)任意數(shù),重心放在樣本空間。貝葉斯學(xué)派則將θ假設(shè)為隨機(jī)變量,樣本χ為固定常數(shù),重心放在參數(shù)空間。貝葉斯學(xué)派是貝式統(tǒng)計(jì)理論發(fā)展而來的,以概率為基礎(chǔ)研究“逆概率”理論。在樣本量較少,參數(shù)模型不多的前提下,貝葉斯較頻率方法更加便捷,因?yàn)榭墒∪コ闃臃植脊ぷ鞑襟E。如果先驗(yàn)分布設(shè)定存在困難,在沒有參數(shù)模型的前提下,則頻率方法更加便捷。統(tǒng)計(jì)學(xué)中的概率理論和實(shí)踐過程中的各類數(shù)據(jù)在數(shù)理統(tǒng)計(jì)作用下可以結(jié)合,可反向推導(dǎo)統(tǒng)計(jì)參數(shù),為統(tǒng)計(jì)學(xué)樣本的概率作出預(yù)測、控制和分析而夯實(shí)基礎(chǔ)。

      (三)統(tǒng)計(jì)學(xué)方法在大數(shù)據(jù)時代的應(yīng)用

      傳統(tǒng)統(tǒng)計(jì)方法需要人工收集數(shù)據(jù)并按照數(shù)據(jù)要求進(jìn)行整合,數(shù)據(jù)主要來源于實(shí)地調(diào)查或者其他渠道獲得,數(shù)據(jù)獲取難度較大,統(tǒng)計(jì)過程中多以抽樣為主,且統(tǒng)計(jì)分析方法基于因果關(guān)系,是通過部分?jǐn)?shù)據(jù)推測整體的事物分布的統(tǒng)計(jì)學(xué)科。隨著大數(shù)據(jù)的發(fā)展和計(jì)算機(jī)互聯(lián)網(wǎng)的普及,數(shù)據(jù)獲取、儲存更加便捷,統(tǒng)計(jì)數(shù)據(jù)實(shí)現(xiàn)云計(jì)算,實(shí)現(xiàn)大數(shù)據(jù)智能分析。統(tǒng)計(jì)學(xué)仍以數(shù)據(jù)為基礎(chǔ),大數(shù)據(jù)提高了統(tǒng)計(jì)學(xué)的統(tǒng)計(jì)效率。大數(shù)據(jù)為背景的數(shù)據(jù)具有高效性、大量性和多樣性特點(diǎn),彌補(bǔ)了傳統(tǒng)統(tǒng)計(jì)的高成本和高誤差的不足。但大數(shù)據(jù)的一些聚類、搜索以及分類離不開統(tǒng)計(jì)學(xué)的理論方法。大數(shù)據(jù)背景下統(tǒng)計(jì)學(xué)可以實(shí)現(xiàn)機(jī)器學(xué)習(xí),也是計(jì)算機(jī)和統(tǒng)計(jì)方法的融合,彰顯人工智能對數(shù)據(jù)的處理能力。機(jī)器學(xué)習(xí)是基于統(tǒng)計(jì)學(xué)概念和理論的,拓展了統(tǒng)計(jì)學(xué)范圍,提高了統(tǒng)計(jì)學(xué)的應(yīng)用價值。

      1.概率論方法的應(yīng)用

      統(tǒng)計(jì)學(xué)在人工智能發(fā)展中主要應(yīng)用自然語言處理,使機(jī)器具備人的思維能力,來完成自然語言處理,統(tǒng)計(jì)學(xué)運(yùn)用于自然語言處理打破了傳統(tǒng)思想禁錮。隨著大數(shù)據(jù)的應(yīng)用,數(shù)據(jù)量加大,計(jì)算能力有所提高,統(tǒng)計(jì)學(xué)中的語言模型已經(jīng)演變?yōu)樽匀徽Z言處理,一些語音識別、手寫體識別、漢字輸入等技術(shù)被廣泛應(yīng)用。統(tǒng)計(jì)學(xué)中的語言模型是根據(jù)語料庫對單詞出現(xiàn)概率進(jìn)行估計(jì),系統(tǒng)會自動選取出現(xiàn)的概率大的當(dāng)做輸出對象。因此,統(tǒng)計(jì)語言模型是自然語言處理方法中最有效的一種。

      2.貝葉斯統(tǒng)計(jì)理論方法的應(yīng)用

      貝葉斯統(tǒng)計(jì)理論衍生了樸素貝葉斯分類器,可以對條件概率分布作出獨(dú)立性假設(shè)。樸素貝葉斯法進(jìn)一步對自變量、因變量進(jìn)行估計(jì),貝葉斯公式對給定的輸入χ,對條件概率分布和先驗(yàn)概率模型作出后驗(yàn)概率分布,假設(shè)后驗(yàn)概率確定為χ類,通過貝葉斯定理可以得出模型的估計(jì)。樸素貝葉斯模型在分類問題中對結(jié)果概率評估具有一定優(yōu)勢,隨著貝葉斯統(tǒng)計(jì)理論的發(fā)展,其分類模型以及衍生的領(lǐng)域在醫(yī)療診斷和文本分類領(lǐng)域應(yīng)用廣泛。

      3.回歸分析方法的應(yīng)用

      首先是線性模型法,是對變量之間存在的線性關(guān)系進(jìn)行預(yù)測,?(χ)=w1χ1+w2χ2+……+wdxd+b,模型在小二乘法w1,w2……wd,b后證實(shí)確定?;貧w分析模型中,線性模型是機(jī)器學(xué)習(xí)所有回歸問題的基礎(chǔ),具有易于掌握的特點(diǎn),因此,w的分量大小在預(yù)測中突出了屬性的影響力。機(jī)器學(xué)習(xí)中,變量間的關(guān)系用線性無法表達(dá)時,可選用核函數(shù)變量補(bǔ)充處理,回歸問題中線性模型是應(yīng)用中最廣泛的一種方式?;貧w問題中還能對線性判別模型進(jìn)行分析,運(yùn)用降維方法在監(jiān)督學(xué)習(xí)中運(yùn)用。

      其次,邏輯斯蒂回歸模型回歸問題中,線性回歸模型可以在分類過程中將分類作出標(biāo)記,運(yùn)用可導(dǎo)函數(shù)γ與預(yù)測出的回歸模型相聯(lián)系,促使回歸模型轉(zhuǎn)化為分類模型。邏輯斯蒂函數(shù)y=1/1+е-Χ作為替代函數(shù),并用預(yù)測結(jié)果估計(jì)對數(shù)概率。同時可以實(shí)現(xiàn)預(yù)測類別,對近似概率實(shí)現(xiàn)預(yù)測,在輔助決策的事物中可以應(yīng)用近似概率。

      4.多元統(tǒng)計(jì)分析方法的應(yīng)用

      主成分分析在多元統(tǒng)計(jì)分析中最為常見,是機(jī)器學(xué)習(xí)中一種比較常見的降維方法。在一些超大量數(shù)據(jù)處理的場景中,太多變量出現(xiàn)容易影響和擾亂模型運(yùn)行效率和準(zhǔn)確率。這種情況需要減少變量個數(shù),在此基礎(chǔ)上得到最全面的信息,這是主成分分析領(lǐng)域的基礎(chǔ)思想。因此通常根據(jù)最大方差思想來處理變量中最關(guān)鍵、最重要的信息。一般情況,在面對海量數(shù)據(jù)時,尤其這些數(shù)據(jù)還呈現(xiàn)出比較典型的特征時,這種思想能起到化繁為簡的重要作用,同時也會降低模型后期的運(yùn)算消耗。

      多元統(tǒng)計(jì)分析衍生出的聚類分析處于初期階段,該分析方法主要是根據(jù)一種分類方法把沒有分類的變量根據(jù)一定規(guī)律使其相似部分歸為一類。具體包括系統(tǒng)、圖論、有序樣品、模糊等方法,根據(jù)度量法劃分為多個類別數(shù)據(jù)集,在多元統(tǒng)計(jì)分析中,具有一定相似性的數(shù)據(jù)歸為一個類別,而類別之間的數(shù)據(jù)具有存異性特點(diǎn),在數(shù)據(jù)處理和提取中有一定分析優(yōu)勢,也是多元統(tǒng)計(jì)的一大特點(diǎn)。

      二、國內(nèi)外對于統(tǒng)計(jì)方法的研究趨勢

      (一)國內(nèi)外統(tǒng)計(jì)學(xué)方法及相關(guān)領(lǐng)域的動態(tài)分析

      根據(jù)CIKI數(shù)據(jù)庫有關(guān)機(jī)器學(xué)習(xí)、統(tǒng)計(jì)方法、大數(shù)據(jù)領(lǐng)域等文獻(xiàn)發(fā)表,可以證實(shí),10年前有關(guān)機(jī)器學(xué)習(xí)領(lǐng)域的論文不多見,2016年,統(tǒng)計(jì)方法領(lǐng)域的論文數(shù)量攀升至最高點(diǎn)。大數(shù)據(jù)領(lǐng)域的相關(guān)文獻(xiàn)數(shù)量增長,并且增長速度一直居高不下。從文獻(xiàn)內(nèi)容上可以看出當(dāng)前我國大數(shù)據(jù)發(fā)展勢態(tài),更為明顯的是,增長速度已經(jīng)超越了傳統(tǒng)統(tǒng)計(jì)方法,進(jìn)入了全新時期。

      從WOS核心分析機(jī)器學(xué)習(xí)、大數(shù)據(jù)以及統(tǒng)計(jì)方法研究相關(guān)文獻(xiàn)數(shù)量來看,2012年以來相關(guān)文獻(xiàn)發(fā)表較多。值得注意的是,機(jī)器學(xué)習(xí)領(lǐng)域論文數(shù)量從2016年開始超出統(tǒng)計(jì)方法數(shù)量,這兩個領(lǐng)域的論文數(shù)量一直高于大數(shù)據(jù)領(lǐng)域。在我國,這兩個領(lǐng)域的論文相關(guān)觀點(diǎn)和理論闡述與國際先進(jìn)水平相比仍有上升空間,表明我國該領(lǐng)域還需不斷創(chuàng)新研發(fā),提高各項(xiàng)技術(shù)水平。

      (二)國內(nèi)外統(tǒng)計(jì)學(xué)方法及相關(guān)領(lǐng)域的研究方向分析

      為了進(jìn)一步證實(shí)統(tǒng)計(jì)學(xué)方法以及大數(shù)據(jù)領(lǐng)域發(fā)展防線,通過CNKI數(shù)據(jù)庫搜索引擎對該領(lǐng)域有關(guān)的關(guān)鍵詞進(jìn)行查找分析,運(yùn)用專用圖譜軟件,結(jié)果顯示,統(tǒng)計(jì)方法領(lǐng)域“統(tǒng)計(jì)分析”“主成分分析”等詞匯出現(xiàn)頻率較高,而大數(shù)據(jù)領(lǐng)域“數(shù)據(jù)時代”“云計(jì)算”等關(guān)鍵詞匯出現(xiàn)頻率較高。通過上述關(guān)鍵詞中不難發(fā)現(xiàn)當(dāng)前國內(nèi)統(tǒng)計(jì)和大數(shù)據(jù)領(lǐng)域的研究特點(diǎn),可以判斷出兩種統(tǒng)計(jì)方向有部分重合的區(qū)域,大數(shù)據(jù)需要統(tǒng)計(jì)學(xué)方法作輔助,統(tǒng)計(jì)學(xué)方法需要大數(shù)據(jù)作為數(shù)據(jù)支撐。

      三、統(tǒng)計(jì)方法發(fā)展展望

      可以說,世界上有數(shù)據(jù)的地方就有統(tǒng)計(jì)學(xué)的存在。統(tǒng)計(jì)學(xué)從17世紀(jì)發(fā)展到今天,經(jīng)歷了諸多變革,內(nèi)容和理論也在不斷更新完善,應(yīng)用的領(lǐng)域也在不斷擴(kuò)大。大數(shù)據(jù)時代已經(jīng)來臨,大數(shù)據(jù)和統(tǒng)計(jì)學(xué)具有互補(bǔ)性,大數(shù)據(jù)背景下統(tǒng)計(jì)學(xué)應(yīng)具備智能化特點(diǎn),借助當(dāng)前信息發(fā)展不斷創(chuàng)新統(tǒng)計(jì)學(xué)方法。我國統(tǒng)計(jì)學(xué)和大數(shù)據(jù)技術(shù)與國際相關(guān)領(lǐng)域?qū)Ρ?,都傾向于數(shù)據(jù)分析和發(fā)掘方向。因此,應(yīng)鼓勵統(tǒng)計(jì)方法與新技術(shù)進(jìn)行融合,促進(jìn)統(tǒng)計(jì)方法在大數(shù)據(jù)背景下發(fā)揮作用。

      猜你喜歡
      概率論貝葉斯概率
      第6講 “統(tǒng)計(jì)與概率”復(fù)習(xí)精講
      第6講 “統(tǒng)計(jì)與概率”復(fù)習(xí)精講
      概率與統(tǒng)計(jì)(一)
      概率與統(tǒng)計(jì)(二)
      淺談《概率論與數(shù)理統(tǒng)計(jì)》課程的教學(xué)改革
      貝葉斯公式及其應(yīng)用
      基于貝葉斯估計(jì)的軌道占用識別方法
      一種基于貝葉斯壓縮感知的說話人識別方法
      電子器件(2015年5期)2015-12-29 08:43:15
      論《概率論與數(shù)理統(tǒng)計(jì)》教學(xué)改革與學(xué)生應(yīng)用能力的培養(yǎng)
      IIRCT下負(fù)二項(xiàng)分布參數(shù)多變點(diǎn)的貝葉斯估計(jì)
      道真| 博乐市| 阆中市| 皮山县| 宁海县| 桦川县| 辰溪县| 远安县| 吉隆县| 清徐县| 锡林浩特市| 眉山市| 湘潭县| 子长县| 民和| 定南县| 綦江县| 兰州市| 志丹县| 松滋市| 太和县| 合肥市| 梨树县| 民和| 孝昌县| 湖南省| 佛山市| 玉环县| 星座| 筠连县| 兴国县| 华蓥市| 高台县| 治县。| 晋中市| 开江县| 惠安县| 鄂温| 始兴县| 曲靖市| 巨野县|