• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于貝葉斯高斯CP分解在醫(yī)療數(shù)據(jù)插補(bǔ)中的應(yīng)用

    2020-08-13 11:26:55陳雁聲
    數(shù)碼世界 2020年6期
    關(guān)鍵詞:時(shí)間序列

    陳雁聲

    摘要:時(shí)間序列分析是在諸如氣象預(yù)報(bào),交通流量預(yù)測(cè)等領(lǐng)域中的是常用的方法手段之一,但是在這些領(lǐng)域數(shù)據(jù)中經(jīng)常會(huì)發(fā)生觀測(cè)數(shù)據(jù)缺失的情況。本文使用了一種基于概率矩陣分解的改進(jìn)方法,醫(yī)療數(shù)據(jù)進(jìn)行插補(bǔ),并評(píng)估了該方法對(duì)于時(shí)間序列缺失數(shù)據(jù)插補(bǔ)的準(zhǔn)確度。

    關(guān)鍵詞:時(shí)間序列 數(shù)據(jù)插補(bǔ) 概率矩陣分解

    1 引言

    目前傳統(tǒng)的數(shù)據(jù)插補(bǔ),如基于統(tǒng)計(jì)學(xué)的插補(bǔ)方法,在對(duì)于符合正態(tài)分布的隨機(jī)缺失類型的數(shù)據(jù)集進(jìn)行處理時(shí)較為常用。但這類方法會(huì)造成插補(bǔ)后的數(shù)據(jù)集的整體方差變小,造成數(shù)據(jù)大量的同質(zhì)化,樣本分布扭曲,不適用于大范圍的缺失情況。此外基于機(jī)器學(xué)習(xí)的插補(bǔ)方法,如極大似然補(bǔ)差(EM)和K鄰近插補(bǔ)(KNN),這類方法有著更高的插補(bǔ)精度,但這類方法應(yīng)在時(shí)間序列插補(bǔ)時(shí)還無(wú)法考慮到相鄰數(shù)據(jù)間的時(shí)序信息。

    2 貝葉斯高斯CP分解

    貝葉斯高斯CP分解(BGCP)是在由Salakhutdinov和Mnih于2008 年提出的貝葉斯矩陣分解(BMF)的基礎(chǔ)上,改進(jìn)而來(lái)的算法。該算法與一般的矩陣分解算法不同,是從貝葉斯理論而不是傳統(tǒng)概率學(xué)角度出發(fā);不再把系統(tǒng)參數(shù)當(dāng)作一個(gè)固定值估計(jì),而是作為一個(gè)服從某種分布的隨機(jī)變量,轉(zhuǎn)而估計(jì)該分布的參數(shù)。并且將BMF算法中的觀測(cè)數(shù)據(jù)矩陣的標(biāo)準(zhǔn)差也視為未知量,并假設(shè)標(biāo)準(zhǔn)差服從于彈性共軛Gamma分布以提高模型的魯棒性。

    2.1模型簡(jiǎn)介

    2.2吉布斯采樣

    接下來(lái)引入Gibbs采樣算法,以對(duì)提出的上述模型進(jìn)行迭代。Gibbs采樣的想法是在每次迭代中順序更新所有變量。對(duì)于一個(gè)變量,在所有其他變量都固定在當(dāng)前值下,從該布中采樣進(jìn)行采樣。Gibbs采樣算法的關(guān)鍵是為所有變量定義這種分布。這些條件分布通常稱為完全條件。

    2.2.1對(duì)因子矩陣U(k)進(jìn)行采樣

    本質(zhì)上,對(duì)因子矩陣采樣是為了獲得觀測(cè)值xi (i∈Ω)與超參數(shù)μ(k)及Λ(k)(k=1,2,3)之間的依賴關(guān)系。

    給定部分觀測(cè)到的張量18689.jpg,我們首先定義一個(gè)標(biāo)志張量B,該張量B與張量X大小相同,且對(duì)于B中任意元素bi,如果i∈Ω則bi等1,否則bi取1。

    對(duì)于矩陣U(1),可以由對(duì)所有的18695.jpg進(jìn)行以此采樣獲得。

    對(duì)于三階張量還可以用相似的推導(dǎo)寫(xiě)出ui2(2)和ui3(3)的后驗(yàn)概率。

    2.3插值算法

    上一章推導(dǎo)了三階張量的吉布斯采樣中所有變量的全部條件。在吉布斯采樣算法達(dá)到平穩(wěn)狀態(tài)之后,可以從蒙特卡洛近似估計(jì)所有缺失值。

    3 數(shù)據(jù)實(shí)驗(yàn)

    3.1實(shí)驗(yàn)設(shè)置

    3.1.1實(shí)驗(yàn)數(shù)據(jù)集

    本次使用的實(shí)驗(yàn)室數(shù)據(jù)集為實(shí)驗(yàn)個(gè)體個(gè)體的白細(xì)胞變化趨勢(shì)。樣本分為死亡樣本和存活樣本,分別為121例和106例。每個(gè)樣本是由以每?jī)尚r(shí)為間隔所測(cè)量的個(gè)體體內(nèi)白細(xì)胞的數(shù)量所組成的長(zhǎng)度為7的時(shí)間序列。數(shù)據(jù)集的數(shù)據(jù)缺失率為45%。

    3.1.2實(shí)驗(yàn)方法

    由于數(shù)據(jù)集是不完整的,直接計(jì)算數(shù)據(jù)插補(bǔ)的準(zhǔn)確率是不可能的。本人使用不同的數(shù)據(jù)插補(bǔ)方法對(duì)該數(shù)據(jù)集進(jìn)行插補(bǔ),再使用這些經(jīng)過(guò)數(shù)據(jù)插補(bǔ)的數(shù)據(jù)集訓(xùn)練同一個(gè)分類器。最終,數(shù)據(jù)插補(bǔ)的準(zhǔn)確率可以由分類器對(duì)于不同數(shù)據(jù)集的分類準(zhǔn)確率間接得出。本實(shí)驗(yàn)使用了KNN數(shù)據(jù)插補(bǔ)法、SVD插補(bǔ)法、矩陣分解插補(bǔ)法這三個(gè)數(shù)據(jù)插補(bǔ)方法與基于BGCP的數(shù)據(jù)插補(bǔ)法進(jìn)行比較。采用的分類器為基于線性核(Linear)和基于徑向基核(Radial Basis Function)的SVM分類器、隨機(jī)森林分類器和邏輯回歸分類器。對(duì)于訓(xùn)練集的劃分按樣本類別比例的分層抽樣,進(jìn)行10次10折交叉驗(yàn)證。

    3.2對(duì)比實(shí)驗(yàn)

    本文的BGCP算法建模是在Matlab下實(shí)現(xiàn),其CP秩設(shè)置為10,輸入數(shù)據(jù)的形式為大小為227×7的二階張量。通過(guò)對(duì)實(shí)驗(yàn)和統(tǒng)計(jì)結(jié)果的分析,得出BGCP算法在插補(bǔ)精度與傳統(tǒng)的數(shù)據(jù)插補(bǔ)法的插補(bǔ)精度相比有2%的提升。

    4 結(jié)論與展望

    本文使用了BGCP對(duì)于醫(yī)療時(shí)序數(shù)據(jù)進(jìn)行插補(bǔ),實(shí)驗(yàn)表明其結(jié)果不弱若于傳統(tǒng)的插補(bǔ)算法。理論上,該算法在3階張量下的插補(bǔ)效果最優(yōu),但實(shí)驗(yàn)數(shù)據(jù)的表示方式為2階張量,所以算法性能可能受到影響。此外,該算法假設(shè)數(shù)據(jù)為高斯分布,該假設(shè)在對(duì)于現(xiàn)實(shí)中的數(shù)據(jù)不一定成立,所以將該算法推廣到不同的數(shù)據(jù)分布假設(shè)下,是今后需要開(kāi)展的工作之一。

    參考文獻(xiàn)

    [1]李圣瑜.調(diào)查數(shù)據(jù)缺失值的多重插補(bǔ)研究[D].河北經(jīng)貿(mào)大學(xué),2015.

    [2]孫曉麗,郭艷,李寧,宋曉祥.基于改進(jìn)RNN的多變量時(shí)間序列缺失數(shù)據(jù)填充算法[J].信息技術(shù)與網(wǎng)絡(luò)安全,2019,38(11):47-53.

    [3]駱科東.短時(shí)間序列挖掘方法研究[D].清華大學(xué),2004.

    [4]郭艷,宋曉祥,李寧,錢(qián)鵬.多變量時(shí)間序列中基于克羅內(nèi)克壓縮感知的缺失數(shù)據(jù)預(yù)測(cè)算法[J].電子與信息學(xué)報(bào),2019,41(04):858-864.

    猜你喜歡
    時(shí)間序列
    基于分布式架構(gòu)的時(shí)間序列局部相似檢測(cè)算法
    基于嵌入式向量和循環(huán)神經(jīng)網(wǎng)絡(luò)的用戶行為預(yù)測(cè)方法
    醫(yī)學(xué)時(shí)間序列中混沌現(xiàn)象的初步研究
    科技視界(2016年26期)2016-12-17 17:12:56
    基于時(shí)間序列分析南京市二手房的定價(jià)模型
    云南銀行產(chǎn)業(yè)集聚與地區(qū)經(jīng)濟(jì)增長(zhǎng)研究
    基于Eviews上證綜合指數(shù)預(yù)測(cè)
    上證綜指收益率的影響因素分析
    基于指數(shù)平滑的電站設(shè)備故障時(shí)間序列預(yù)測(cè)研究
    基于時(shí)間序列的我國(guó)人均GDP分析與預(yù)測(cè)
    商(2016年32期)2016-11-24 16:20:57
    基于線性散列索引的時(shí)間序列查詢方法研究
    軟件工程(2016年8期)2016-10-25 15:43:57
    仙游县| 获嘉县| 镇坪县| 巴彦淖尔市| 沧州市| 进贤县| 东方市| 乾安县| 平顶山市| 左贡县| 巍山| 宝兴县| 北碚区| 涟源市| 华阴市| 辽宁省| 河东区| 黔西| 德钦县| 兴安县| 巫溪县| 内乡县| 宣城市| 沽源县| 若尔盖县| 万宁市| 皮山县| 定安县| 乌鲁木齐县| 武威市| 辉县市| 蓬溪县| 阿城市| 高台县| 延津县| 夹江县| 湟中县| 灌南县| 古蔺县| 沧源| 张北县|