• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    高維相關(guān)性缺失數(shù)據(jù)的分塊填補(bǔ)算法研究*

    2017-10-12 03:40:02王魯濱于亮亮
    計算機(jī)與生活 2017年10期
    關(guān)鍵詞:高維分塊準(zhǔn)確度

    楊 杰,楊 虎,王魯濱,金 鑫,郭 華,于亮亮

    1.中央財經(jīng)大學(xué) 信息學(xué)院,北京 100081

    2.國網(wǎng)荊州供電公司 信通分公司,湖北 荊州 434000

    3.國網(wǎng)遼寧省電力有限公司 信息通信分公司,沈陽 110000

    高維相關(guān)性缺失數(shù)據(jù)的分塊填補(bǔ)算法研究*

    楊 杰1+,楊 虎1,王魯濱1,金 鑫1,郭 華2,于亮亮3

    1.中央財經(jīng)大學(xué) 信息學(xué)院,北京 100081

    2.國網(wǎng)荊州供電公司 信通分公司,湖北 荊州 434000

    3.國網(wǎng)遼寧省電力有限公司 信息通信分公司,沈陽 110000

    Abstract:This paper studies the method of filling the high dimensional correlation missing data,and proposes a new imputation algorithm based on data block.The key idea of the algorithm is to consider the correlation between variables when filling missing data,and only use the data correlated with the missing data to fill,thereby reducing imputation effects of the missing data caused by the irrelevant data,and improving the accuracy of data imputation.At the same time,the proposed imputation algorithm can be implemented in a parallel way,so that it performs efficiently to fill the high dimensional missing data.In order to divide the missing data with unknown information about blocks into several blocks,this paper proposes a block algorithm based onk-means clustering.Simulation research and application show that the proposed imputation algorithm is more effective and accurate to handle themissing for the correlation high dimensional data with considering variables'block relationship than others with not.

    Key words:high dimensional correlation data;missing data;block imputation algorithm

    研究了高維相關(guān)性缺失數(shù)據(jù)的填補(bǔ)方法,提出了分塊填補(bǔ)算法。該算法核心思想是:在填補(bǔ)數(shù)據(jù)的過程中會考慮變量之間的相互關(guān)系,僅利用與待填補(bǔ)數(shù)據(jù)有相關(guān)性的數(shù)據(jù)進(jìn)行填補(bǔ),從而降低不相關(guān)數(shù)據(jù)對缺失數(shù)據(jù)填補(bǔ)的影響,提高數(shù)據(jù)填補(bǔ)的準(zhǔn)確度。同時,該算法能夠并行處理缺失數(shù)據(jù),從而提高數(shù)據(jù)填補(bǔ)效率,對于高維缺失數(shù)據(jù)的填補(bǔ)有重要意義。為了對分塊情況未知的缺失數(shù)據(jù)進(jìn)行分塊,提出了基于k-means聚類的分塊算法。大量的仿真實(shí)驗(yàn)和基于真實(shí)數(shù)據(jù)集的實(shí)驗(yàn)表明,對于相關(guān)性數(shù)據(jù),分塊填補(bǔ)算法能夠有效地利用相關(guān)信息進(jìn)行填補(bǔ),從而提高數(shù)據(jù)填補(bǔ)準(zhǔn)確度。

    高維相關(guān)性數(shù)據(jù);缺失數(shù)據(jù);分塊填補(bǔ)算法

    1 引言

    隨著大數(shù)據(jù)相關(guān)理論和技術(shù)的發(fā)展,大數(shù)據(jù)在電力、醫(yī)療、金融、交通、電信等方面有了廣泛應(yīng)用。由于大數(shù)據(jù)的數(shù)據(jù)量非常巨大,在采集和存儲過程中,不可避免地出現(xiàn)數(shù)據(jù)缺失的現(xiàn)象。缺失數(shù)據(jù)往往含有重要的信息和價值,對缺失數(shù)據(jù)處理不當(dāng),會對數(shù)據(jù)分析結(jié)果產(chǎn)生巨大影響,甚至?xí)?yán)重影響數(shù)據(jù)的客觀性和研究結(jié)論的正確性[1]。因此,如何對大數(shù)據(jù)中的缺失數(shù)據(jù)進(jìn)行填補(bǔ)是一個重要的研究內(nèi)容。

    傳統(tǒng)的數(shù)據(jù)填補(bǔ)方法包括多重插補(bǔ)[2]、基于回歸的填補(bǔ)算法[3]、基于關(guān)聯(lián)規(guī)則的填補(bǔ)算法[4]、基于決策樹的填補(bǔ)算法[5]、基于K近鄰的填補(bǔ)算法[6]、基于貝葉斯的填補(bǔ)算法[7]、基于聚類的填補(bǔ)算法[8]。更進(jìn)一步,可以結(jié)合兩種或兩種以上的算法對缺失數(shù)據(jù)進(jìn)行填補(bǔ),如基于關(guān)聯(lián)規(guī)則和K近鄰算法的填補(bǔ)算法[9]、基于關(guān)聯(lián)規(guī)則和聚類的填補(bǔ)算法[10]、基于聚類和最近鄰算法的填補(bǔ)算法[11]。

    研究表明,傳統(tǒng)的數(shù)據(jù)填補(bǔ)算法對于小數(shù)據(jù)集填補(bǔ)的確有一定的準(zhǔn)確性,但面對大數(shù)據(jù)集,往往填補(bǔ)效果不佳。針對這一問題,相關(guān)學(xué)者已經(jīng)進(jìn)行了一些缺失大數(shù)據(jù)填補(bǔ)方法的研究。陳肇強(qiáng)等人[12]運(yùn)用互聯(lián)網(wǎng)中海量信息對缺失大數(shù)據(jù)進(jìn)行填補(bǔ),提出了基于上下文感知實(shí)體排序的缺失數(shù)據(jù)修復(fù)方法;金連等人[13]結(jié)合Map-Reduce的并行化特點(diǎn),提出來了基于Map-Reduce的大數(shù)據(jù)缺失值填補(bǔ)算法,提高了大數(shù)據(jù)的填補(bǔ)效率;冷泳林等人[14]同時結(jié)合聚類算法和并行處理對缺失大數(shù)據(jù)進(jìn)行填補(bǔ);趙飛等人[15]針對高速流數(shù)據(jù)中的缺失值,提出了基于最小計數(shù)/頻率概要的缺失值填補(bǔ)方法。

    傳統(tǒng)的針對一般缺失數(shù)據(jù)的填補(bǔ)方法和現(xiàn)有的針對缺失大數(shù)據(jù)的填補(bǔ)方法只考慮了觀測樣本之間的關(guān)系,而忽略了變量之間的關(guān)系,而變量之間的相關(guān)性往往會影響數(shù)據(jù)的填補(bǔ)效果。例如,身高與體重之間有相關(guān)關(guān)系,而與智力沒有直接關(guān)系,如果將智力這個變量的信息用于填補(bǔ)身高數(shù)據(jù)的缺失,則會對數(shù)據(jù)填補(bǔ)結(jié)果造成一定的影響。在高維大數(shù)據(jù)情形下,不相關(guān)變量會越來越多,對數(shù)據(jù)填補(bǔ)準(zhǔn)確性的影響也會越來越大。

    一些研究已經(jīng)注意到了這些問題,它們主要通過變量約簡的方法,剔除掉不相關(guān)的變量,來提高數(shù)據(jù)填補(bǔ)的效果。例如,陳志奎等人[16]通過變量約簡,將變量分成重要變量和非重要變量,分別采用不同的填補(bǔ)算法進(jìn)行填補(bǔ)。劉春英[17]通過考慮變量之間的依賴關(guān)系而對變量進(jìn)行區(qū)分,分別進(jìn)行填補(bǔ)。

    為了處理缺失高維大數(shù)據(jù),本文創(chuàng)新性地提出了一種針對高維相關(guān)性缺失數(shù)據(jù)的分塊填補(bǔ)算法。本文算法首先通過變量之間的相關(guān)性,將原始數(shù)據(jù)集進(jìn)行縱向分割,形成眾多的低維子數(shù)據(jù)集;然后利用數(shù)據(jù)填補(bǔ)算法,分別對每個分塊進(jìn)行填補(bǔ)。本文算法最大的優(yōu)點(diǎn)在于降低了不相關(guān)變量對填補(bǔ)結(jié)果的影響,從而能夠提高填補(bǔ)準(zhǔn)確度;同時本文算法能夠以并行的方式對高維缺失大數(shù)據(jù)進(jìn)行填補(bǔ),不僅能提高缺失填補(bǔ)的精度,還能降低數(shù)據(jù)填補(bǔ)的計算時間。

    本文組織結(jié)構(gòu)如下:第2章給出了分塊填補(bǔ)算法及其相關(guān)定義,從理論上證明了分塊填補(bǔ)能夠提高準(zhǔn)確性,并提出了基于k-means的數(shù)據(jù)分塊算法;第3章給出分塊填補(bǔ)算法的具體步驟;第4章通過模擬仿真說明本文填補(bǔ)算法處理高維缺失大數(shù)據(jù)的準(zhǔn)確度和效率;第5章將分塊填補(bǔ)算法應(yīng)用于基因測序數(shù)據(jù),說明處理真實(shí)數(shù)據(jù)的能力;第6章總結(jié)全文。

    2 相關(guān)理論

    2.1 相關(guān)定義

    定義1(缺失數(shù)據(jù)集)含缺失數(shù)據(jù)的數(shù)據(jù)集稱為缺失數(shù)據(jù)集。為了方便描述,本文利用粗糙集理論中信息系統(tǒng)的概念來進(jìn)行描述。一個信息系統(tǒng)由一個四元組來表示:

    其中,U={x(1),x(2),…,x(n)}表示對象集,n為對象的個數(shù);A={a1,a2,…,ap}表示變量集,p表示變量的個數(shù);V表示每個變量的值域;f是U×A到V的一個映射,即:

    當(dāng)信息系統(tǒng)S至少存在一組(i,j)使得,其中i=1,2,…,|U|,j=1,2,…,|A|,則稱該信息系統(tǒng)為不完備信息系統(tǒng),即缺失數(shù)據(jù)集。

    定義2(遺失數(shù)據(jù)集)遺失數(shù)據(jù)集是對缺失數(shù)據(jù)的描述,缺失數(shù)據(jù)集S的遺失數(shù)據(jù)集MI定義為:

    其中,i=1,2,…,|U|,j=1,2,…,|A|。

    定義3(變量相關(guān)性)變量相關(guān)性表示變量之間的相關(guān)程度或者依賴程度。本文用r(ai,aj)來表示變量ai和aj之間的相關(guān)性,其中ai,aj∈A,0≤r(ai,aj)≤ 1,r(ai,aj)越大,表示ai和aj相關(guān)性越高。r(ai,aj)=0,表示ai和aj完全無關(guān);r(ai,aj)=1,表示ai和aj完全相關(guān)。

    關(guān)于不同變量之間相關(guān)性的定義,在不同的領(lǐng)域都有不同的定義。由于相關(guān)性不是本文重點(diǎn)討論的內(nèi)容,本文僅采用歸納的研究方法對相關(guān)性進(jìn)行歸納描述,不做深入的討論和研究。在實(shí)際應(yīng)用中,相關(guān)系數(shù)、關(guān)聯(lián)規(guī)則、依賴度等均可以用來表示變量之間的相關(guān)性。

    (1)相關(guān)系數(shù)

    相關(guān)系數(shù)可以刻畫兩個變量之間的變動關(guān)系,常用于數(shù)學(xué)、統(tǒng)計等領(lǐng)域。相關(guān)系數(shù)一般用ρ表示,值域?yàn)閇-1,1]。ρ的絕對值越大,表示相關(guān)性越高,反之越低。

    (2)關(guān)聯(lián)規(guī)則

    關(guān)聯(lián)規(guī)則在數(shù)據(jù)挖掘領(lǐng)域中用來表示不同事務(wù)之間的相關(guān)性,其最大的特點(diǎn)就是能夠找出表面上不易發(fā)現(xiàn),內(nèi)在卻存在的相關(guān)性。例如一個人購物籃里面物品之間的相關(guān)性就可以用關(guān)聯(lián)規(guī)則來描述。

    (3)依賴度

    依賴度是粗糙集理論中的一個概念,用來表示一個變量對另外一個變量的依賴程度,依賴度越高,意味著其相關(guān)性也越高。

    定義4(相關(guān)變量集)相關(guān)變量集RA是A的一個子集,設(shè)0≤?≤1為變量相關(guān)性閾值,則RA定義如下:

    其中,ai,aj∈RA,i≠j。

    定理1變量集A與相關(guān)變量集RA的關(guān)系為為變量集分塊個數(shù)。

    證明 由定義4可知,RA是A的子集,且RAi?RAj=? ,i≠j。因此,對任意的i∈[1,K],RAi是A的真子集,從而

    定義5(分塊數(shù)據(jù)集)根據(jù)RA可以將S分成多個子數(shù)據(jù)集,每個子數(shù)據(jù)集稱為一個分塊數(shù)據(jù)集,分塊數(shù)據(jù)集RS定義為:

    RS=(U,RA,V,f)

    定理2數(shù)據(jù)集S與分塊數(shù)據(jù)集RS的關(guān)系為,K為數(shù)據(jù)集分塊個數(shù)。

    定義6(分塊填補(bǔ)算法)數(shù)據(jù)填補(bǔ)算法可以統(tǒng)一定義為一種映射函數(shù)h:S→S′。其中S為缺失數(shù)據(jù)集,S′=(U′,A,V,f′)為經(jīng)過填補(bǔ)后的完備數(shù)據(jù)集。

    根據(jù)填補(bǔ)算法依賴的變量的不同,可以將填補(bǔ)算法分成3類:單變量依賴填補(bǔ)算法、全變量依賴填補(bǔ)算法和分塊填補(bǔ)算法。

    設(shè)(i,j)∈MI(S),為的填補(bǔ)值。

    (1)單變量依賴填補(bǔ)算法是指對缺失值的填補(bǔ)只與當(dāng)前的缺失變量有關(guān),而與其他變量值無關(guān),如均值填補(bǔ)、眾數(shù)填補(bǔ)等,定義如下:

    (2)全變量依賴填補(bǔ)算法是指對缺失值的填補(bǔ)與所有的變量都有關(guān),如KNN填補(bǔ)算法、回歸填補(bǔ)算法等,其定義如下:

    (3)分塊填補(bǔ)算法是指對缺失值的填補(bǔ)只與部分變量相關(guān),定義如下:

    其中,RAj為變量aj所在的相關(guān)變量集。

    2.2 分塊填補(bǔ)的性質(zhì)

    假設(shè)存在一個高維數(shù)據(jù)集A∈Rn×p,n?p,假定A滿足以下的假設(shè)。

    (1)可分性。A可以按列分成K個分塊,即:

    (2)獨(dú)立性。各塊之間相互獨(dú)立,即有:

    (3)線性關(guān)系。各變量之間有近似的線性相關(guān)關(guān)系,即有:

    其中,ui為白噪聲,i∈[1,p];A*=Aai,表示不包含第i個變量。

    (4)數(shù)據(jù)隨機(jī)缺失。

    同時,本文用均方根誤差(root mean square error,RMSE)來評價數(shù)據(jù)填補(bǔ)的準(zhǔn)確程度,RMSE定義如下:

    其中,N為缺失數(shù)據(jù)的個數(shù);為缺失數(shù)據(jù)xi的填補(bǔ)估計值;ei2表示殘差的平方。RMSE越小,表示填補(bǔ)準(zhǔn)確度越高,反之越低。

    根據(jù)上述假設(shè),可得到定理3。

    定理3在滿足4個假設(shè)條件的前提下,分塊填補(bǔ)的精度高于不分塊填補(bǔ)的準(zhǔn)確性。

    證明(1)由假設(shè)(3),各變量之間存在近似的線性相關(guān)關(guān)系,因此可以采用最小二乘的方法來對缺失數(shù)據(jù)的填補(bǔ)值進(jìn)行估計,用表示ai的最小二乘估計值。對ai的估計有兩種情況:一種是利用全部的信息進(jìn)行估計,即不分塊填補(bǔ);另一種是僅利用最相關(guān)信息進(jìn)行估計,即分塊填補(bǔ)。

    情形1ai的不分塊估計值:

    由假設(shè)(1)可知,A是按列可分的,因此式(2)可以變換為:

    則ai不分塊估計的殘差平方和為:

    情形2ai的分塊估計值為:

    則ai的分塊估計的殘差平方和為:

    用aim表示變量ai上由缺失數(shù)據(jù)組成的向量,由假設(shè)(4)可知,由于缺失方式為隨機(jī)缺失,aim也滿足假設(shè)(2)的獨(dú)立性條件。因此,變量ai上缺失數(shù)據(jù)在不分塊估計和分塊估計上的殘差平方和(分別用和表示)也滿足:

    (3)根據(jù)RMSE的定義,不分塊填補(bǔ)和分塊填補(bǔ)兩種方式下的填補(bǔ)精度(用RMSEnb和RMSEb來表示)分別為:

    結(jié)合式(7)可得,RMSEnb≥RMSEb,即分塊填補(bǔ)的精度高于不分塊填補(bǔ)的精度。

    2.3 分塊方法

    根據(jù)對數(shù)據(jù)集的理解情況,可以分為分塊已知和分塊未知兩種情況進(jìn)行討論。

    2.3.1 分塊已知的情況

    對于一個分塊信息已知的情況,直接根據(jù)已知分塊信息進(jìn)行分塊即可。分塊已知的情況一般出現(xiàn)在變量較少,且對變量的含義有明確認(rèn)識的情況。

    2.3.2 分塊未知的情況

    實(shí)際中,大多數(shù)數(shù)據(jù)集都是未知分塊的。特別是對于高維數(shù)據(jù)或者對變量含義不了解的數(shù)據(jù),難以識別其中的分塊信息。針對分塊未知的情況,本文基于k-means算法,通過改進(jìn)數(shù)據(jù)缺失情況下的距離度量方式,從而實(shí)現(xiàn)了對缺失數(shù)據(jù)進(jìn)行分塊,本文稱之為KMB算法(k-means block algorithm)。

    (1)k-means算法

    k-means是一種經(jīng)典的聚類算法。給定數(shù)據(jù)集A∈Rn×p。k-means算法步驟如下所示。

    算法1k-means算法

    輸入:數(shù)據(jù)集A,聚類個數(shù)K。

    輸出:每個對象a(i)所在的聚類。

    步驟1隨機(jī)選取K個聚類中心為u1,u2,…,uK∈Rp。

    步驟2迭代直至收斂。

    對A中的每一個對象a(i),計算其所屬的聚類:

    對于每一個類j,更新類的中心:

    (2)基于k-means的分塊算法

    結(jié)合k-means算法的思想,本文提出了對變量進(jìn)行分塊的KMB算法。在描述算法之前,需要解決以下幾個問題。

    第一,聚類算法可以分為Q型聚類和R型聚類。Q型聚類是指對數(shù)據(jù)對象進(jìn)行聚類,k-means算法就是一種Q型聚類算法。R型聚類是指對變量進(jìn)行聚類。為了能夠使用k-means算法對變量進(jìn)行聚類,首先需要對數(shù)據(jù)集進(jìn)行轉(zhuǎn)置得到AT∈Rp×n,然后對A′進(jìn)行聚類。

    第二,k-means算法對高維數(shù)據(jù)的處理效果不佳,存在一定的局限性。本文中,當(dāng)樣本量n較小時,轉(zhuǎn)置后的AT是一個低維的數(shù)據(jù)集,則使用k-means算法進(jìn)行聚類不存在局限性問題。當(dāng)n比較大時,轉(zhuǎn)置后的AT仍然是一個高維的數(shù)據(jù)集,此時使用k-means算法進(jìn)行聚類存在一定的局限性。為了解決這一問題,本文采用Witten等人[18]提出的稀疏性k-means算法(sparsek-means clustering)進(jìn)行變量選擇。其核心思想是約束目標(biāo)函數(shù)中變量的權(quán)重,使得權(quán)重較小的變量不參與聚類,而保留權(quán)重較大的變量,從而實(shí)現(xiàn)變量選擇,其目標(biāo)函數(shù)定義如下所示:

    其中,w為變量的權(quán)重向量;wv表示第v個變量的權(quán)重系數(shù);s為調(diào)整參數(shù)。

    這樣,通過變量選擇解決了數(shù)據(jù)量很大時kmeans算法的局限性問題。

    第三,經(jīng)典k-means算法一般采用歐式距離來計算距離,在數(shù)據(jù)缺失的條件下,難以計算歐式距離。本文采用Hathaway等人[19]提出的計算缺失數(shù)據(jù)的距離的方法。包含缺失對象a(i)和a(j)之間的距離定義為:

    第四,經(jīng)典k-means算法一般采用算數(shù)平均的方法來更新聚類的中心,但在數(shù)據(jù)缺失的情況下,此方法不再可行。同樣借鑒Hathaway等人的思想,本文提出了在缺失情況下更新聚類中心的方法。設(shè)第j個聚類中有s個對象{a(1),a(2),…,a(s)},且包含缺失,則類中心uj在第i個變量上的取值定義為:

    解決了以上問題,下面給出具體的KMB算法步驟,如下所示。

    算法2KMB算法

    輸入:數(shù)據(jù)集A,聚類個數(shù)K。

    輸出:分塊數(shù)據(jù)集。

    步驟1對A進(jìn)行轉(zhuǎn)置,得到AT。

    步驟2隨機(jī)選取K個聚類中心點(diǎn)為u1,u2,…,uK∈Rn。

    步驟3迭代直至收斂。

    對AT中的每一個對象a(i),計算其所屬的聚類:

    對于每一個類j,按照本文定義的方法更新聚類的中心:

    步驟4轉(zhuǎn)置聚類完成的數(shù)據(jù)集,得到A1。

    步驟5根據(jù)聚類結(jié)果分割數(shù)據(jù)集A1,得到多個分塊數(shù)據(jù)集。

    3 分塊填補(bǔ)算法

    分塊填補(bǔ)算法是根據(jù)數(shù)據(jù)集的特征,通過對數(shù)據(jù)集進(jìn)行分塊而形成的一種缺失數(shù)據(jù)填補(bǔ)算法。其最大的特征是適用的填補(bǔ)算法范圍廣,凡是依賴于其他變量的數(shù)據(jù)填補(bǔ)算法均適用于分塊填補(bǔ)的方案,統(tǒng)稱此類算法為宿主算法。分塊填補(bǔ)算法步驟見算法3。

    算法3分塊填補(bǔ)算法

    輸入:缺失數(shù)據(jù)集S=(U,A,V,f)。

    輸出:完備數(shù)據(jù)集S′=(U′,A,V,f′)。

    步驟1確定分塊。如果分塊已知,則直接進(jìn)行分塊;否則應(yīng)用KMB算法(算法2)進(jìn)行分塊,得到分塊信息。

    步驟2根據(jù)分塊信息,對缺失數(shù)據(jù)集S進(jìn)行分割,得到K個子缺失數(shù)據(jù)集RSi=(U,Ai,V,f),i=1,2,…,K。

    步驟3對于每一個子缺失數(shù)據(jù)集,使用宿主填補(bǔ)算法進(jìn)行填補(bǔ),得到完備的子數(shù)據(jù)集Si=(U′,Ai,V,f′),i=1,2,…,K。

    步驟4合并完備的子數(shù)據(jù)集Si,得到完備數(shù)據(jù)集S′=(U′,A,V,f′)。

    由算法3可知,分塊填補(bǔ)算法具有以下特點(diǎn):

    (1)缺失數(shù)據(jù)集是可分的,即可以分成多個塊內(nèi)相關(guān)性高,塊間相關(guān)性低的數(shù)據(jù)分塊。一方面,如果缺失數(shù)據(jù)集的所有變量之間都具有很高的相關(guān)性,那么對數(shù)據(jù)集進(jìn)行分割,反而會破壞這種強(qiáng)的相關(guān)性,不利于數(shù)據(jù)填補(bǔ)。另一方面,如果數(shù)據(jù)集的變量之間均存在較弱的相關(guān)性,劃分之后,變量之間的相關(guān)性仍然很低,也不利于數(shù)據(jù)填補(bǔ)。

    (2)適用的宿主填補(bǔ)算法廣,即大部分傳統(tǒng)的填補(bǔ)算法均可作為本文提出的分塊填補(bǔ)算法的宿主算法,適用范圍廣。具體來講,除均值填補(bǔ)和眾數(shù)填補(bǔ)等少數(shù)不依賴變量的填補(bǔ)算法外,都適合分塊填補(bǔ)算法。

    (3)并行填補(bǔ),提高填補(bǔ)效率。通過對原始數(shù)據(jù)集進(jìn)行分塊,對每個分塊可以采用并行的方式進(jìn)行填補(bǔ),總的填補(bǔ)計算時間降為max(t1,t2,…,tK),其中K為分塊個數(shù),tK表示第K個分塊的填補(bǔ)時間。當(dāng)數(shù)據(jù)集的維度和數(shù)據(jù)量很大時,分塊填補(bǔ)能夠明顯降低填補(bǔ)計算時間。

    4 仿真實(shí)驗(yàn)

    4.1 實(shí)驗(yàn)環(huán)境

    (1)實(shí)驗(yàn)數(shù)據(jù)生成

    為了評價分塊填補(bǔ)算法對存在分塊的高維相關(guān)性缺失數(shù)據(jù)在分塊已知和分塊未知兩種情況下的填補(bǔ)效果,本文仿真生成了樣本量固定為n=100,變量個數(shù)分別為p=100,p=200和p=400的3個仿真數(shù)據(jù)集,來檢驗(yàn)對于不同變量個數(shù)的數(shù)據(jù)集,分塊填補(bǔ)算法的效果。每個數(shù)據(jù)集的生成方式如下:首先確定數(shù)據(jù)集的分塊數(shù)為K塊;然后對于每個分塊Ki,它有pi個變量,數(shù)據(jù)由多元正態(tài)分布N(ui,Σi)產(chǎn)生,其中ui是pi維期望向量,Σi是pi×pi的協(xié)方差矩陣。為了保證不同塊之間有一定的差異,使不同分塊的期望向量之間存在一定的差異;最后將各個分塊合并形成仿真數(shù)據(jù)集,并重復(fù)100次。

    (2)實(shí)驗(yàn)平臺

    本實(shí)驗(yàn)采用Matlab 2011B作為實(shí)驗(yàn)平臺,操作系統(tǒng)是Windows8.1專業(yè)版,Intel?Pentium?CPU P6200 2.13 GHz,2 GB 內(nèi)存,320 GB硬盤。

    4.2 實(shí)驗(yàn)設(shè)置

    (1)實(shí)驗(yàn)方法

    采用隨機(jī)缺失的方法,根據(jù)設(shè)定的缺失率,隨機(jī)地置空仿真數(shù)據(jù)集,得到包含缺失的數(shù)據(jù)集。分別使用宿主填補(bǔ)算法KNN(K近鄰)填補(bǔ)算法和REGRESS(線性回歸)填補(bǔ)算法對缺失數(shù)據(jù)進(jìn)行分塊填補(bǔ),并與不分塊的填補(bǔ)算法進(jìn)行對比,比較它們的填補(bǔ)準(zhǔn)確度和填補(bǔ)計算時間。每種算法均用于分析100個模擬生成的數(shù)據(jù),并計算平均填補(bǔ)準(zhǔn)確度和平均填補(bǔ)計算時間。

    (2)評價指標(biāo)

    根據(jù)數(shù)據(jù)類型的不同,對填補(bǔ)準(zhǔn)確度的衡量方法也不同。對于數(shù)值型數(shù)據(jù),使用均方根誤差(RMSE)來衡量填補(bǔ)準(zhǔn)確度,其定義見式(1)。

    對于離散性數(shù)據(jù),采用填補(bǔ)準(zhǔn)確率(Precise)來衡量,即填補(bǔ)正確的數(shù)據(jù)記錄數(shù)占整個缺失數(shù)據(jù)的比例。Precise越大,填補(bǔ)精度越高。其定義為:

    (3)實(shí)驗(yàn)設(shè)計

    根據(jù)實(shí)驗(yàn)?zāi)康牟煌?,本文總共設(shè)計了兩個實(shí)驗(yàn)。

    實(shí)驗(yàn)1假定分塊已知,即按照仿真數(shù)據(jù)產(chǎn)生時設(shè)定的分塊對各數(shù)據(jù)集進(jìn)行分塊,然后使用K近鄰(KNN)填補(bǔ)算法和回歸(REGRESS)填補(bǔ)算法分別進(jìn)行填補(bǔ),將結(jié)果與不分塊的情況進(jìn)行比較,以驗(yàn)證在數(shù)據(jù)存在分塊的情況下,本文提出的分塊填補(bǔ)算法是否優(yōu)于不分塊填補(bǔ)算法。

    實(shí)驗(yàn)2假定分塊未知,即實(shí)驗(yàn)前只知道數(shù)據(jù)存在分塊,但并不知道具體的分塊情況。首先使用本文提出的分塊算法KMB(算法2)對數(shù)據(jù)進(jìn)行分塊,然后用KNN填補(bǔ)算法和REGRESS填補(bǔ)算法分別進(jìn)行填補(bǔ);最后比較和驗(yàn)證在數(shù)據(jù)存在分塊但分塊未知的情況下,本文提出的分塊填補(bǔ)算法是否優(yōu)于不分塊填補(bǔ)算法,并對KMB算法進(jìn)行評價。

    4.3 實(shí)驗(yàn)結(jié)果

    (1)實(shí)驗(yàn)1結(jié)果分析

    按10%、20%、30%、40%和50%缺失比例隨機(jī)缺失3個變量個數(shù)不同的數(shù)據(jù)集,然后在分塊和不分塊的情形下,分別采用KNN填補(bǔ)算法和REGRESS填補(bǔ)算法進(jìn)行填補(bǔ)。各算法填補(bǔ)的均方根誤差和平均填補(bǔ)時間分別由表1和表2給出。

    表1表明,已知分塊的情況下,在相同的缺失率水平下,同一宿主算法的分塊填補(bǔ)算法的均方根誤差均大于其不分塊填補(bǔ)算法,即分塊填補(bǔ)算法的填補(bǔ)準(zhǔn)確度高于不分塊填補(bǔ)算法,這在3個變量個數(shù)不同的數(shù)據(jù)集中均成立;對于任意的填補(bǔ)算法,填補(bǔ)的準(zhǔn)確度均隨缺失率的上升而下降。以上結(jié)果表明,在數(shù)據(jù)存在分塊的情況下,本文提出的分塊填補(bǔ)算法能夠提高填補(bǔ)準(zhǔn)確度。

    表2是各算法對不同數(shù)據(jù)集在不同缺失率情況下進(jìn)行填補(bǔ)的平均時間比較。可以得到,對于相同的數(shù)據(jù)集,各算法的平均填補(bǔ)時間均隨缺失率的上升而上升;對于相同數(shù)據(jù)集和相同缺失率,同一宿主算法分塊填補(bǔ)的平均填補(bǔ)時間小于不分塊填補(bǔ);同一算法在相同缺失率水平下,平均填補(bǔ)時間隨變量個數(shù)的增加而增加。以上表明,本文提出的分塊填補(bǔ)算法能夠有效降低數(shù)據(jù)填補(bǔ)時間。

    Table 1 RMSE of different imputation algorithms in different simulation datasets表1 不同模擬數(shù)據(jù)集上各個填補(bǔ)算法的均方根誤差

    Table 2 Average imputation time of different imputation algorithms in different simulation datasets表2 不同模擬數(shù)據(jù)集上各個填補(bǔ)算法的平均填補(bǔ)時間

    (2)實(shí)驗(yàn)2結(jié)果分析

    實(shí)驗(yàn)2采用仿真生成的(n=100,p=100)和(n=100,p=1 000)兩個數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),分別代表變量個數(shù)較小和變量個數(shù)較大的兩種情況。與實(shí)驗(yàn)1不同的是,實(shí)驗(yàn)前假定并不知道具體分塊情況,而是通過KMB算法(算法2)來自動進(jìn)行分塊,然后使用KNN填補(bǔ)算法和REGRESS填補(bǔ)算法進(jìn)行填補(bǔ)。由于并不知道具體的分塊數(shù),因而無法確定KMB算法中的K值。本文通過設(shè)定一個較大的K值(MAXK),然后從K=1到K=MAXK循環(huán)調(diào)用KMB算法進(jìn)行分塊,同時對每個分塊使用KNN填補(bǔ)算法和REGRESS填補(bǔ)算法進(jìn)行填補(bǔ),然后觀察比較在K的不同取值下,填補(bǔ)結(jié)果的RMSE與K的關(guān)系。

    情形1變量較少的情況

    在仿真數(shù)據(jù)集(n=100,p=100)下,設(shè)定MAXK=25,相關(guān)結(jié)果如圖1所示。

    Fig.1 Results of case 1(n=100,p=100)圖1 情形1(n=100,p=100)的實(shí)驗(yàn)結(jié)果

    圖1(a)描述了在不同缺失率下,KNN填補(bǔ)算法的RMSE與K的關(guān)系。由圖1(a)可以看出,隨著K的增加,RMSE先減小,后增加,整個圖形呈“U”型,在K=5左右達(dá)到最小值。從圖1(a)中可以得到以下結(jié)論:

    (1)在分塊數(shù)K相同時,RMSE隨缺失率的增加而增加,意味著在分塊未知的情況下,填補(bǔ)準(zhǔn)確度仍隨著缺失率的上升而下降。

    (2)關(guān)于“U”型形狀的解釋。當(dāng)K=1時,為不分塊填補(bǔ),填補(bǔ)結(jié)果有較大的均方根誤差,因?yàn)槿笔?shù)據(jù)中含有較多的不相關(guān)信息參與了缺失值的填補(bǔ);隨著K的逐漸增加,同一分塊中的不相關(guān)變量被分割出去,相關(guān)變量的比例上升,即同一分塊的相關(guān)性相對上升,從而使得填補(bǔ)的準(zhǔn)確性上升;當(dāng)K增加到一定程度之后,同一分塊的變量之間已經(jīng)具有較多的相關(guān)變量,同時具有較低的不相關(guān)變量;當(dāng)K進(jìn)一步增加,同一分塊的變量個數(shù)必然下降,致使部分相關(guān)性高的變量被分割出去,即分塊內(nèi)本身存在的強(qiáng)相關(guān)性此時也被破壞,從而導(dǎo)致了填補(bǔ)準(zhǔn)確度下降;當(dāng)K很大時,分塊填補(bǔ)的準(zhǔn)確度甚至?xí)^不分塊填補(bǔ)的準(zhǔn)確度,因?yàn)榇藭r產(chǎn)生了大量相關(guān)性弱的分塊。

    (3)分塊未知的情況下,以及在K較小的情況下,KMB算法能夠找到合適的分塊來提高填補(bǔ)準(zhǔn)確度,說明KMB算法能夠很好地對分塊未知的數(shù)據(jù)進(jìn)行分塊。

    圖1(b)描述了在不同缺失率下,KNN算法平均填補(bǔ)時間隨K的變動情況??梢钥闯?,隨K的增加,各缺失率下,平均填補(bǔ)時間呈下降趨勢,當(dāng)K增加到一定程度時,平均填補(bǔ)時間保持平穩(wěn)。這是因?yàn)榇藭r每個分塊都很小,不再是影響填補(bǔ)時間的主要因素。同時,對于相同的K,平均填補(bǔ)時間隨著缺失率的上升而上升。

    圖1(c)和(d)分別是REGRESS填補(bǔ)算法在數(shù)據(jù)集1上填補(bǔ)的均方根誤差和平均填補(bǔ)時間隨分塊數(shù)K的變動情況。與KNN算法相比,有類似的結(jié)論,這里不再贅述。

    情形2變量較多的情況

    在仿真數(shù)據(jù)集(n=100,p=1 000)下,設(shè)定MAXK=100,相關(guān)結(jié)果如圖2所示。

    從圖2(a)中可以看出,基于KNN的分塊填補(bǔ)算法在變量個數(shù)較多的情況下RMSE與K仍具有明 顯的“U”型特征,填補(bǔ)的均方根誤差隨缺失率上升而上升。

    從圖2(b)中可以看出,填補(bǔ)時間隨K的增加而減少,隨缺失率的上升而上升。說明KNN填補(bǔ)算法對不同的樣本量具有良好的穩(wěn)定性。

    Fig.2 Results of case 2(n=100,p=1 000)圖2 情形2(n=100,p=1 000)的實(shí)驗(yàn)結(jié)果

    從圖2(c)中可以看出,在變量很多的情況下,REGRESS算法的均方根誤差與分塊數(shù)的“U”型特征不是十分明顯,均方根誤差先隨著分塊數(shù)的增加逐步下降,然后逐步保持在較低的水平,當(dāng)K=40左右才有微弱的上升趨勢。主要是因?yàn)镵值還不夠大,總的變量個數(shù)又很多,所以各個分塊還有足夠的相關(guān)變量用于缺失數(shù)據(jù)的填補(bǔ)。

    從圖2(d)中可以看出,平均填補(bǔ)時間隨K的增加仍然有逐步減少,然后保持在較低水平的規(guī)律。

    綜上,仿真實(shí)驗(yàn)的結(jié)果表明了對于相關(guān)性數(shù)據(jù),在已知分塊的情況下,分塊填補(bǔ)的準(zhǔn)確度高于不分塊填補(bǔ),同時可以降低填補(bǔ)時間;在分塊未知的情況下,也可以通過KMB算法(算法2)找到分塊,從而提高數(shù)據(jù)填補(bǔ)的準(zhǔn)確度。仿真實(shí)驗(yàn)還揭示了分塊填補(bǔ)的準(zhǔn)確度隨分塊個數(shù)的增加,先增加后降低的規(guī)律;當(dāng)分塊數(shù)足夠大時,會因?yàn)椴徽_的分塊導(dǎo)致分塊填補(bǔ)的準(zhǔn)確度低于不分塊填補(bǔ)的情況出現(xiàn)。

    5 真實(shí)數(shù)據(jù)分析

    為了評價分塊填補(bǔ)算法在電力、醫(yī)療等真實(shí)數(shù)據(jù)上的填補(bǔ)效果,本文將分塊填補(bǔ)算法應(yīng)用到白血病的基因表達(dá)數(shù)據(jù)集leukemia上。該數(shù)據(jù)集來源于麻省理工學(xué)院和哈佛大學(xué)的生物醫(yī)學(xué)和基因組研究中心Broad Institute,含有461個變量,1 394個樣本。因?yàn)閿?shù)據(jù)分塊未知,先用KMB算法(算法2)進(jìn)行分塊,然后采用KNN填補(bǔ)算法進(jìn)行填補(bǔ),實(shí)驗(yàn)結(jié)果如圖3和圖4所示。

    Fig.3 Relationship betweenRMSEandK圖3 均方根誤差與分塊數(shù)K的關(guān)系

    Fig.4 Relationship between average imputation time andK圖4 平均填補(bǔ)時間與分塊數(shù)K的關(guān)系

    從圖3中可以看出,采用不分塊的方式進(jìn)行填補(bǔ)(K=1)有較高的均方根誤差,隨著分塊數(shù)的增加,均方根誤差逐步減小,在K=10左右達(dá)到最低,然后波動上升,整個圖形呈“U”型。同時,在分塊數(shù)K相同時,RMSE隨著缺失率的提高而上升,即填補(bǔ)準(zhǔn)確度隨缺失率上升而下降。綜上可知,使用分塊填補(bǔ)算法在真實(shí)數(shù)據(jù)集中也能夠提高填補(bǔ)準(zhǔn)確度。

    由圖4可知,相同缺失率下,平均填補(bǔ)時間隨著分塊數(shù)的增加而減少;相同分塊數(shù)下,平均填補(bǔ)時間隨缺失率上升而下降。

    綜上可知,真實(shí)數(shù)據(jù)中的結(jié)果與仿真實(shí)驗(yàn)得到的結(jié)論一致,進(jìn)一步說明了分塊填補(bǔ)算法能夠提高填補(bǔ)準(zhǔn)確度和降低填補(bǔ)時間。

    6 結(jié)束語

    本文針對高維相關(guān)性數(shù)據(jù)提出了基于變量分塊的分塊填補(bǔ)算法,有助于解決現(xiàn)實(shí)中電力、醫(yī)療等行業(yè)的大數(shù)據(jù)缺失填補(bǔ)問題。在分塊已知的情況下,仿真實(shí)驗(yàn)表明分塊填補(bǔ)能夠提高數(shù)據(jù)填補(bǔ)的準(zhǔn)確度和降低數(shù)據(jù)填補(bǔ)的計算時間。在分塊未知的情況下,本文首先利用改進(jìn)的k-means算法進(jìn)行分塊,然后再分別對各分塊進(jìn)行填補(bǔ)。仿真實(shí)驗(yàn)和真實(shí)數(shù)據(jù)分析結(jié)果表明,分塊未知情況下分塊填補(bǔ)同樣可以提高填補(bǔ)準(zhǔn)確度和降低數(shù)據(jù)填補(bǔ)的計算時間。同時實(shí)驗(yàn)表明,填補(bǔ)準(zhǔn)確度隨分塊數(shù)的增加有先增加再減少的規(guī)律,即不同的分塊數(shù)對填補(bǔ)準(zhǔn)確度的提高程度不同。如何確定最優(yōu)的分塊數(shù)使得能夠最大程度地提高分塊填補(bǔ)算法的填補(bǔ)準(zhǔn)確度是進(jìn)一步研究的方向。

    [1]Nakagawa S,Freckleton R P.Missing inaction:the dangers of ignoring missing data[J].Trends in Ecology and Evolution,2008,23(11):592-596.

    [2]Rubin D B.Multiple imputation in sample surveys—a phenomenological Byesian approach to nonresponse[M]//Survey Research Methodology Section.Washington:American StatisticalAssociation,1978:20-34.

    [3]Bello A L.Imputation techniques in regression analysis:looking closely at their implementation[J].Computational Statistics and DataAnalysis,1995,20(1):45-57.

    [4]Shen J J,Chang C C,Li Y C.Combined association rules for dealing with missing values[J].Journal of Information Science,2007,33(4):468-480.

    [5]Vateekul P,Sarinnapakorn K.Tree-based approach to missing data imputation[C]//Proceedings of the 2009 International Conference on Data Mining Workshops,Miami,USA,Dec 6,2009.Washington:IEEE Computer Society,2009:70-75.

    [6]Zhang Sunli,Yang Huizhong.Missing data completion based on an improvedK-neighbor algorithm[J].Computers and Applied Chemistry,2015,32(12):1499-1502.

    [7]Zou Wei,Wang Huijin.EM algorithm to implement missing values based on naive Bayesian[J].Microcomputer&Its Applications,2011,30(16):75-77.

    [8]Wu Sen,Feng Xiaodong,Shan Zhiguang.Missing data imputation approach based on incomplete data clustering[J].Chinese Journal of Computers,2012,35(8):1726-1738.

    [9]Wang Fengmei,Hu Lixia.A missing data imputation method based on neighbor rules[J].Computer Engineering,2012,38(21):53-55.

    [10]Fang Kuangnan,Xie Bangchang.Research on dealing with missing data based on clustering and association rule[J].Statistical Research,2011,28(2):87-92.

    [11]Zhang Chi,Feng Hongcai,Jin Kai,et al.Nearest neighbor filling algorithm for missing data based on cluster analysis[J].ComputerApplications and Software,2014,31(5):282-284.

    [12]Chen Zhaoqiang,Li Jiajun,Jiang Chuan,et al.A contextaware entity ranking method for Web-based data imputation[J].Chinese Journal of Computers,2015,38(9):1755-1766.

    [13]Jin Lian,Wang Hongzhi,Huang Shenbing,et al.Missing value imputation in big data based on Map-Reduce[J].Journal of Computer Research and Development,2013,50(S1):312-321.

    [14]Leng Yonglin,Chen Zhikui,Zhang Qingchen,et al.Distributed clustering and filling algorithm of incomplete big data[J].Computer Engineering,2015,41(5):19-25.

    [15]Zhao Fei,Liu Qizhi,Zhang Yan,et al.Fill absent values in massive domain data stream[J].Journal of Nanjing University:Natural Sciences,2011,47(1):32-39.

    [16]Chen Zhikui,Yang Yingda,Zhang Qingchen,et al.Novel algorithm for filling incomplete data of Internet of things based on attribute reduction[J].Computer Engineering and Design,2013,34(2):418-422.

    [17]Liu Chunying.A sequential filling algorithm for missing values based on attribute dependency[J].Computer Applications and Software,2013,30(9):215-218.

    [18]Witten D M,Tibshirani R.A framework for feature selection in clustering[J].Journal of theAmerican StatisticalAssociation,2012,105(490):713-726.

    [19]Hathaway R J,Bezdek J C.Fuzzy C-means clustering of incomplete data[J].IEEE Transactions on Systems,Man and Cybernetics:Part B Cybernetics,2001,31(5):735-744.

    附中文參考文獻(xiàn):

    [6]張孫力,楊惠中.基于改進(jìn)的K近鄰缺失數(shù)據(jù)補(bǔ)全[J].計算機(jī)應(yīng)用與化學(xué),2015,32(12):1499-1502.

    [7]鄒微,王會進(jìn).基于樸素貝葉斯的EM缺失數(shù)據(jù)填充算法[J].微型機(jī)與應(yīng)用,2011,30(16):75-77.

    [8]武森,馮小東,單志廣.基于不完備數(shù)據(jù)聚類的缺失數(shù)據(jù)填補(bǔ)方法[J].計算機(jī)學(xué)報,2012,35(8):1726-1738.

    [9]王鳳梅,胡麗霞.一種基于近鄰規(guī)則的缺失數(shù)據(jù)填補(bǔ)方法[J].計算機(jī)工程,2012,38(21):53-55.

    [10]方匡南,謝邦昌.基于聚類關(guān)聯(lián)規(guī)則的缺失數(shù)據(jù)處理研究[J].統(tǒng)計研究,2011,28(2):87-92.

    [11]張赤,豐洪才,金凱,等.基于聚類分析的缺失數(shù)據(jù)最近鄰填補(bǔ)算法[J].計算機(jī)應(yīng)用與軟件,2014,31(5):282-284.

    [12]陳肇強(qiáng),李佳俊,蔣川,等.基于上下文感知實(shí)體排序的缺失數(shù)據(jù)修復(fù)方法[J].計算機(jī)學(xué)報,2015,38(9):1755-1766.

    [13]金連,王宏志,黃沈冰,等.基于Map-Reduce的大數(shù)據(jù)缺失值填充算法[J].計算機(jī)研究與發(fā)展,2013,50(S1):312-321.

    [14]冷泳林,陳志奎,張清辰,等.不完整大數(shù)據(jù)的分布式聚類填充算法[J].計算機(jī)工程,2015,41(5):19-25.

    [15]趙飛,劉奇志,張剡,等.一種大域數(shù)據(jù)流中缺失值的填充方法[J].南京大學(xué)學(xué)報:自然科學(xué),2011,47(1):32-39.

    [16]陳志奎,楊英達(dá),張清辰,等.基于變量約簡的物聯(lián)網(wǎng)不完全數(shù)據(jù)填充算法[J].計算機(jī)工程與設(shè)計,2013,34(2):418-422.

    [17]劉春英.基于變量依賴度的缺失值順序填充算法[J].計算機(jī)應(yīng)用與軟件,2013,30(9):215-218.

    Research on Block Imputation Algorithm for High Dimensional Correlation Missing Data*

    YANG Jie1+,YANG Hu1,WANG Lubin1,JIN Xin1,GUO Hua2,YU Liangliang3
    1.School of Information,Central University of Finance and Economics,Beijing 100081,China
    2.Jingzhou Power Supply Company ICT Branch of State Grid Corporation,Jingzhou,Hubei 434000,China
    3.Liaoning Power Supply Company ICT Branch of State Grid Corporation,Shenyang 110000,China

    A

    TP311

    +Corresponding author:E-mail:yangjiecufe@163.com

    YANG Jie,YANG Hu,WANG Lubin,et al.Research on block imputation algorithm for high dimensional correlation missing data.Journal of Frontiers of Computer Science and Technology,2017,11(10):1557-1569.

    ISSN 1673-9418 CODEN JKYTA8

    Journal of Frontiers of Computer Science and Technology

    1673-9418/2017/11(10)-1557-13

    10.3778/j.issn.1673-9418.1609010

    E-mail:fcst@vip.163.com

    http://www.ceaj.org

    Tel:+86-10-89056056

    *The Young Teachers Development Foundation of Central University of Finance and Economics under Grant No.QJJ1510(中央財經(jīng)大學(xué)青年教師發(fā)展基金);the Technology Project of State Grid Corporation of China under Grant No.SGTYHT/14-JS-188(國家電網(wǎng)科技部項(xiàng)目).

    Received 2016-09,Accepted 2016-11.

    CNKI網(wǎng)絡(luò)優(yōu)先出版:2016-11-07,http://www.cnki.net/kcms/detail/11.5602.TP.20161107.1703.002.html

    YANG Jie was born in 1992.He is an M.S.candidate at Central University of Finance and Economics.His research interest is data analysis.

    楊杰(1992—),男,四川廣元人,中央財經(jīng)大學(xué)碩士研究生,主要研究領(lǐng)域?yàn)閿?shù)據(jù)分析。

    YANG Hu was born in 1983.He received the Ph.D.degree in statistics from Renmin University of China in 2014.Now he is a lecturer at Central University of Finance and Economics,and the member of CCF.His research interests include E-business,data analysis and computational statistics,etc.

    楊虎(1983—),男,貴州貴陽人,2014年于中國人民大學(xué)統(tǒng)計學(xué)專業(yè)獲得博士學(xué)位,現(xiàn)為中央財經(jīng)大學(xué)信息學(xué)院講師,CCF會員,主要研究領(lǐng)域?yàn)殡娮由虅?wù),數(shù)據(jù)分析與統(tǒng)計計算等。主持中央財經(jīng)大學(xué)青年發(fā)展基金等項(xiàng)目。

    WANG Lubin was born in 1960.He is a professor at Central University of Finance and Economics.His research interests include information management and financial informatization,etc.

    王魯濱(1960—),男,黑龍江哈爾濱人,中央財經(jīng)大學(xué)繼續(xù)教育學(xué)院院長、教授,主要研究領(lǐng)域?yàn)樾畔⒐芾恚鹑谛畔⒒?。主持國家自然科學(xué)基金等項(xiàng)目。

    JIN Xin was born in 1974.He received the Ph.D.degree in control theory and engineering from Donghua University in 2004.Now he is a professor at Central University of Finance and Economics,and the member of CCF.His research interests include big data analysis and business intelligence,etc.

    金鑫(1974—),男,內(nèi)蒙古烏海人,2004年于東華大學(xué)控制工程專業(yè)獲得博士學(xué)位,現(xiàn)為中央財經(jīng)大學(xué)信息學(xué)院教授,CCF會員,主要研究領(lǐng)域?yàn)榇髷?shù)據(jù)分析,商務(wù)智能等。

    GUO Hua was born in 1972.He is an engineer at Jingzhou Power Supply Company ICT Branch of State Grid Corporation.His research interest is information system and management.

    郭華(1972—),男,湖北荊州人,荊州供電公司信通分公司工程師,主要研究領(lǐng)域?yàn)樾畔⑾到y(tǒng)運(yùn)維及安全管理。

    YU Liangliang was born in 1986.He is an engineer at Liaoning Power Supply Company ICT Branch of State Grid Corporation.His research interest is power system communication.

    于亮亮(1986—),男,內(nèi)蒙赤峰人,華北電力大學(xué)通信與信息系統(tǒng)專業(yè)碩士,國網(wǎng)遼寧省電力有限公司信息通信分公司工程師,主要研究領(lǐng)域?yàn)殡娏ο到y(tǒng)通信。

    猜你喜歡
    高維分塊準(zhǔn)確度
    分塊矩陣在線性代數(shù)中的應(yīng)用
    一種改進(jìn)的GP-CLIQUE自適應(yīng)高維子空間聚類算法
    幕墻用掛件安裝準(zhǔn)確度控制技術(shù)
    建筑科技(2018年6期)2018-08-30 03:40:54
    基于加權(quán)自學(xué)習(xí)散列的高維數(shù)據(jù)最近鄰查詢算法
    反三角分塊矩陣Drazin逆新的表示
    動態(tài)汽車衡準(zhǔn)確度等級的現(xiàn)實(shí)意義
    基于自適應(yīng)中值濾波的分塊壓縮感知人臉識別
    一般非齊次非線性擴(kuò)散方程的等價變換和高維不變子空間
    基于多分辨率半邊的分塊LOD模型無縫表達(dá)
    高維Kramers系統(tǒng)離出點(diǎn)的分布問題
    国产在线免费精品| 国产一区亚洲一区在线观看| 欧美国产精品一级二级三级| 午夜福利影视在线免费观看| 免费少妇av软件| 新久久久久国产一级毛片| 亚洲中文av在线| 91aial.com中文字幕在线观看| 午夜久久久在线观看| 9色porny在线观看| 在线观看美女被高潮喷水网站| av天堂久久9| 综合色丁香网| 亚洲色图综合在线观看| 热re99久久国产66热| 9热在线视频观看99| 精品亚洲成国产av| 亚洲欧美精品自产自拍| 中文精品一卡2卡3卡4更新| 亚洲成人手机| 99久久人妻综合| 黄色配什么色好看| 又大又黄又爽视频免费| 亚洲欧美日韩卡通动漫| 蜜桃国产av成人99| videosex国产| 成人国产麻豆网| 国精品久久久久久国模美| 国产无遮挡羞羞视频在线观看| kizo精华| 男人操女人黄网站| 男男h啪啪无遮挡| 18禁动态无遮挡网站| 精品少妇黑人巨大在线播放| 免费人妻精品一区二区三区视频| 精品第一国产精品| 久久久久精品性色| 一区二区日韩欧美中文字幕 | 亚洲国产精品一区三区| 欧美xxxx性猛交bbbb| 亚洲第一av免费看| 一级片免费观看大全| 2018国产大陆天天弄谢| 亚洲人与动物交配视频| 亚洲性久久影院| av在线观看视频网站免费| 免费av中文字幕在线| 国产精品熟女久久久久浪| tube8黄色片| 一本一本久久a久久精品综合妖精 国产伦在线观看视频一区 | 男人爽女人下面视频在线观看| 中国国产av一级| 亚洲精品久久午夜乱码| 欧美日韩视频高清一区二区三区二| 久久国产亚洲av麻豆专区| 亚洲精品久久午夜乱码| 日韩免费高清中文字幕av| 99热6这里只有精品| 久久国产精品男人的天堂亚洲 | 女性被躁到高潮视频| 国产一区二区三区av在线| 一区二区av电影网| 亚洲综合精品二区| 日本欧美视频一区| 最新的欧美精品一区二区| 亚洲欧洲日产国产| 国产老妇伦熟女老妇高清| 夜夜爽夜夜爽视频| 国产精品 国内视频| 亚洲欧洲日产国产| 亚洲精品456在线播放app| 精品少妇黑人巨大在线播放| 最新中文字幕久久久久| 午夜福利影视在线免费观看| 久久婷婷青草| 亚洲精品自拍成人| 国精品久久久久久国模美| 天天躁夜夜躁狠狠躁躁| 狠狠婷婷综合久久久久久88av| 久久久久视频综合| 免费黄色在线免费观看| 国产xxxxx性猛交| 国产在线视频一区二区| 在线看a的网站| freevideosex欧美| 最新中文字幕久久久久| 一级a做视频免费观看| 黄色怎么调成土黄色| 亚洲综合精品二区| 亚洲成人一二三区av| 亚洲第一av免费看| 深夜精品福利| 在线天堂最新版资源| 婷婷色麻豆天堂久久| 久久久久精品久久久久真实原创| 爱豆传媒免费全集在线观看| av一本久久久久| 美女内射精品一级片tv| 久久久久网色| 男男h啪啪无遮挡| 在线免费观看不下载黄p国产| 乱人伦中国视频| 人妻一区二区av| 免费观看在线日韩| 日本av免费视频播放| 五月玫瑰六月丁香| 国产亚洲最大av| 9191精品国产免费久久| 在线免费观看不下载黄p国产| 三上悠亚av全集在线观看| 日韩,欧美,国产一区二区三区| 蜜臀久久99精品久久宅男| 亚洲国产精品专区欧美| 亚洲精品日本国产第一区| 午夜视频国产福利| 婷婷色综合大香蕉| 高清欧美精品videossex| 精品视频人人做人人爽| 最新的欧美精品一区二区| 综合色丁香网| 国产色爽女视频免费观看| 国产成人精品无人区| 精品一区在线观看国产| 99久久人妻综合| 一级毛片黄色毛片免费观看视频| 日本猛色少妇xxxxx猛交久久| 亚洲五月色婷婷综合| 欧美激情 高清一区二区三区| 免费观看a级毛片全部| 免费观看性生交大片5| 国产精品99久久99久久久不卡 | 中文欧美无线码| 18禁裸乳无遮挡动漫免费视频| 久久综合国产亚洲精品| 51国产日韩欧美| 深夜精品福利| 国产一区亚洲一区在线观看| 最近2019中文字幕mv第一页| 亚洲成av片中文字幕在线观看 | 国产一区亚洲一区在线观看| 亚洲精品成人av观看孕妇| 亚洲在久久综合| 菩萨蛮人人尽说江南好唐韦庄| av不卡在线播放| 午夜免费观看性视频| 欧美亚洲 丝袜 人妻 在线| 久久97久久精品| 老女人水多毛片| 美女大奶头黄色视频| 天堂8中文在线网| 内地一区二区视频在线| 满18在线观看网站| 最近中文字幕高清免费大全6| 97在线人人人人妻| 亚洲激情五月婷婷啪啪| 国精品久久久久久国模美| 在线观看人妻少妇| 久久99蜜桃精品久久| 亚洲成人手机| 18+在线观看网站| 日韩中字成人| 国产精品熟女久久久久浪| 欧美老熟妇乱子伦牲交| 亚洲av成人精品一二三区| 亚洲av免费高清在线观看| 国产不卡av网站在线观看| 亚洲熟女精品中文字幕| 久久久久网色| 久久精品人人爽人人爽视色| 国产片内射在线| 天天躁夜夜躁狠狠躁躁| 国产福利在线免费观看视频| 亚洲情色 制服丝袜| 日韩制服丝袜自拍偷拍| 亚洲av国产av综合av卡| av国产精品久久久久影院| videos熟女内射| 亚洲精品乱码久久久久久按摩| 国产精品蜜桃在线观看| 亚洲欧美精品自产自拍| 午夜免费鲁丝| 极品少妇高潮喷水抽搐| 午夜日本视频在线| 夜夜骑夜夜射夜夜干| 国产成人午夜福利电影在线观看| 日日撸夜夜添| 少妇 在线观看| 久热这里只有精品99| 日本免费在线观看一区| av福利片在线| 青春草亚洲视频在线观看| 在现免费观看毛片| 亚洲美女搞黄在线观看| 在线精品无人区一区二区三| 亚洲av国产av综合av卡| 男女边吃奶边做爰视频| av女优亚洲男人天堂| 在线观看人妻少妇| 人人妻人人澡人人爽人人夜夜| 亚洲美女黄色视频免费看| 男女国产视频网站| 欧美人与性动交α欧美软件 | 2022亚洲国产成人精品| 九色成人免费人妻av| 婷婷色综合www| 十八禁高潮呻吟视频| 久久久久久久久久久久大奶| 91精品国产国语对白视频| 精品一区二区三卡| 最新中文字幕久久久久| 欧美xxxx性猛交bbbb| 女性生殖器流出的白浆| 精品第一国产精品| 亚洲国产精品国产精品| 免费观看a级毛片全部| www日本在线高清视频| 久久精品国产亚洲av涩爱| 国产欧美另类精品又又久久亚洲欧美| 亚洲国产成人一精品久久久| 亚洲av国产av综合av卡| 最后的刺客免费高清国语| 亚洲精品一二三| 国产成人免费观看mmmm| 黄色 视频免费看| 成人毛片60女人毛片免费| 9色porny在线观看| 两个人免费观看高清视频| 精品一区二区三区四区五区乱码 | 亚洲欧美精品自产自拍| av在线播放精品| h视频一区二区三区| 日韩不卡一区二区三区视频在线| 亚洲av综合色区一区| 男女免费视频国产| 午夜老司机福利剧场| 色5月婷婷丁香| 欧美日韩成人在线一区二区| 成人漫画全彩无遮挡| 老司机亚洲免费影院| 蜜桃国产av成人99| 深夜精品福利| 日韩中字成人| 国产成人a∨麻豆精品| 欧美成人午夜免费资源| 99国产综合亚洲精品| 黑人猛操日本美女一级片| 国产深夜福利视频在线观看| 香蕉国产在线看| 国产亚洲精品久久久com| 高清视频免费观看一区二区| 一边亲一边摸免费视频| 国产爽快片一区二区三区| 久久免费观看电影| 丝袜美足系列| 国产成人精品福利久久| 中文字幕最新亚洲高清| 在线观看免费视频网站a站| 草草在线视频免费看| 久久精品久久久久久久性| 在线看a的网站| 美女福利国产在线| 18禁国产床啪视频网站| 久久久国产一区二区| 乱人伦中国视频| 久久99精品国语久久久| 亚洲国产精品成人久久小说| www.av在线官网国产| 国产片内射在线| 老女人水多毛片| 欧美日韩精品成人综合77777| 狂野欧美激情性bbbbbb| 99精国产麻豆久久婷婷| av国产精品久久久久影院| 国产午夜精品一二区理论片| 少妇的逼好多水| 韩国精品一区二区三区 | 午夜福利视频精品| 国产精品一区二区在线不卡| 最近手机中文字幕大全| 国产日韩欧美亚洲二区| 肉色欧美久久久久久久蜜桃| 久久久久视频综合| 热99国产精品久久久久久7| 国产又爽黄色视频| 成人毛片a级毛片在线播放| 男女高潮啪啪啪动态图| 妹子高潮喷水视频| 亚洲精品美女久久av网站| 亚洲熟女精品中文字幕| 美女福利国产在线| 精品99又大又爽又粗少妇毛片| 中文字幕人妻丝袜制服| 国产亚洲午夜精品一区二区久久| 国产色婷婷99| 自拍欧美九色日韩亚洲蝌蚪91| 乱人伦中国视频| 哪个播放器可以免费观看大片| 一级黄片播放器| 交换朋友夫妻互换小说| 亚洲国产精品成人久久小说| 久久99一区二区三区| 午夜91福利影院| 九草在线视频观看| 亚洲精品av麻豆狂野| 久久av网站| 国产精品欧美亚洲77777| 又黄又爽又刺激的免费视频.| 搡女人真爽免费视频火全软件| 国产乱来视频区| 男的添女的下面高潮视频| 一本久久精品| 亚洲成色77777| xxxhd国产人妻xxx| 99re6热这里在线精品视频| 91久久精品国产一区二区三区| 欧美97在线视频| 七月丁香在线播放| videos熟女内射| 少妇被粗大猛烈的视频| 女人被躁到高潮嗷嗷叫费观| 在线观看免费日韩欧美大片| 麻豆精品久久久久久蜜桃| 精品福利永久在线观看| a级毛片黄视频| 免费观看av网站的网址| 一级毛片我不卡| 成人亚洲精品一区在线观看| 国产成人a∨麻豆精品| 亚洲在久久综合| 成人18禁高潮啪啪吃奶动态图| 97在线视频观看| 黄色 视频免费看| av在线观看视频网站免费| 亚洲欧美中文字幕日韩二区| 欧美日韩一区二区视频在线观看视频在线| 久久午夜福利片| 国产精品.久久久| 91在线精品国自产拍蜜月| 亚洲精品一二三| 97在线视频观看| 久久精品熟女亚洲av麻豆精品| 亚洲精品色激情综合| av在线app专区| 亚洲av成人精品一二三区| 亚洲国产成人一精品久久久| 日韩伦理黄色片| 免费黄色在线免费观看| 欧美亚洲 丝袜 人妻 在线| 亚洲人与动物交配视频| 这个男人来自地球电影免费观看 | 亚洲内射少妇av| 日本欧美视频一区| 亚洲综合色网址| 又黄又爽又刺激的免费视频.| 人人妻人人澡人人看| 激情视频va一区二区三区| 国产精品国产三级专区第一集| 丰满少妇做爰视频| 欧美日韩一区二区视频在线观看视频在线| 一本大道久久a久久精品| 99精国产麻豆久久婷婷| 午夜福利影视在线免费观看| 天堂中文最新版在线下载| 如日韩欧美国产精品一区二区三区| 亚洲国产精品成人久久小说| 制服丝袜香蕉在线| 男人爽女人下面视频在线观看| 亚洲欧美精品自产自拍| 亚洲国产精品成人久久小说| 视频在线观看一区二区三区| 麻豆乱淫一区二区| 日产精品乱码卡一卡2卡三| 99热6这里只有精品| 国产精品 国内视频| 午夜激情av网站| 美女大奶头黄色视频| 下体分泌物呈黄色| 亚洲精品视频女| 亚洲人与动物交配视频| 久久99精品国语久久久| 黄网站色视频无遮挡免费观看| 最新的欧美精品一区二区| 亚洲五月色婷婷综合| 午夜日本视频在线| 热re99久久精品国产66热6| 制服诱惑二区| 国产一级毛片在线| 26uuu在线亚洲综合色| 97人妻天天添夜夜摸| 看十八女毛片水多多多| 精品久久久精品久久久| 人人妻人人澡人人爽人人夜夜| 91久久精品国产一区二区三区| 久久国产精品男人的天堂亚洲 | 亚洲,欧美精品.| 精品第一国产精品| 99国产精品免费福利视频| 校园人妻丝袜中文字幕| 国产在线免费精品| 国产免费一区二区三区四区乱码| 成年美女黄网站色视频大全免费| 亚洲成人手机| 国产伦理片在线播放av一区| 日韩中字成人| 一区二区av电影网| www日本在线高清视频| 美女脱内裤让男人舔精品视频| 黄色怎么调成土黄色| 日韩成人伦理影院| 亚洲国产欧美在线一区| 亚洲精品456在线播放app| 18在线观看网站| 人妻少妇偷人精品九色| 久久99一区二区三区| 一级毛片电影观看| 午夜视频国产福利| 九色成人免费人妻av| 国产免费又黄又爽又色| 精品久久蜜臀av无| 午夜影院在线不卡| 亚洲国产精品专区欧美| 乱人伦中国视频| 亚洲欧洲国产日韩| 在线亚洲精品国产二区图片欧美| 黄片无遮挡物在线观看| a级毛片黄视频| 国产成人精品无人区| 卡戴珊不雅视频在线播放| 日韩欧美一区视频在线观看| 母亲3免费完整高清在线观看 | 亚洲精品久久久久久婷婷小说| 国产精品久久久久成人av| 欧美日本中文国产一区发布| 多毛熟女@视频| 在线观看一区二区三区激情| 亚洲国产精品专区欧美| 欧美成人精品欧美一级黄| 婷婷色麻豆天堂久久| 亚洲国产色片| 美女脱内裤让男人舔精品视频| 中文字幕av电影在线播放| 欧美激情 高清一区二区三区| 欧美精品av麻豆av| 午夜影院在线不卡| 日韩制服骚丝袜av| 成人二区视频| 国产精品国产三级专区第一集| 99热全是精品| 亚洲av欧美aⅴ国产| 亚洲精品日本国产第一区| 成人毛片60女人毛片免费| 女性被躁到高潮视频| 国产免费一级a男人的天堂| 老司机亚洲免费影院| 成人亚洲欧美一区二区av| 日本av手机在线免费观看| 亚洲,欧美精品.| www.熟女人妻精品国产 | 国产亚洲欧美精品永久| 在线观看www视频免费| 男女啪啪激烈高潮av片| 在线 av 中文字幕| 一级毛片黄色毛片免费观看视频| 国精品久久久久久国模美| 97超碰精品成人国产| 啦啦啦在线观看免费高清www| 亚洲美女搞黄在线观看| 国产一区二区在线观看日韩| 亚洲国产色片| 精品熟女少妇av免费看| 最后的刺客免费高清国语| 国产免费现黄频在线看| 综合色丁香网| 午夜激情久久久久久久| 美女中出高潮动态图| 久久热在线av| videosex国产| 国产精品久久久久久精品电影小说| 91国产中文字幕| 黑人巨大精品欧美一区二区蜜桃 | 日韩视频在线欧美| 日韩av免费高清视频| 久久精品熟女亚洲av麻豆精品| 五月玫瑰六月丁香| 欧美成人午夜免费资源| 日韩中字成人| 蜜桃国产av成人99| 国产精品 国内视频| 国产精品熟女久久久久浪| 色网站视频免费| 日韩欧美精品免费久久| 岛国毛片在线播放| av国产精品久久久久影院| 捣出白浆h1v1| 欧美日韩视频高清一区二区三区二| 熟女av电影| 搡女人真爽免费视频火全软件| 18禁观看日本| 亚洲国产精品专区欧美| 午夜视频国产福利| 男男h啪啪无遮挡| 永久免费av网站大全| 婷婷成人精品国产| 久久久久视频综合| 伦精品一区二区三区| 最后的刺客免费高清国语| 91午夜精品亚洲一区二区三区| 久久久久久久国产电影| 免费久久久久久久精品成人欧美视频 | 久久久a久久爽久久v久久| 伦理电影免费视频| 免费av不卡在线播放| 亚洲人与动物交配视频| 人人妻人人澡人人看| 成年女人在线观看亚洲视频| 日本爱情动作片www.在线观看| 久久人妻熟女aⅴ| 久久久精品区二区三区| 成人国语在线视频| 日韩在线高清观看一区二区三区| 好男人视频免费观看在线| 一级,二级,三级黄色视频| 国产爽快片一区二区三区| 国产男女内射视频| 精品酒店卫生间| 国产精品一区www在线观看| 26uuu在线亚洲综合色| 男女无遮挡免费网站观看| 久久97久久精品| 久久99一区二区三区| 国产精品久久久久久久久免| 午夜激情久久久久久久| 岛国毛片在线播放| 午夜激情av网站| 亚洲欧美成人综合另类久久久| 日韩欧美一区视频在线观看| 毛片一级片免费看久久久久| 欧美人与善性xxx| 国产av国产精品国产| 永久免费av网站大全| 久久久久久久大尺度免费视频| 高清av免费在线| 精品酒店卫生间| 97人妻天天添夜夜摸| 亚洲欧美成人综合另类久久久| 精品人妻在线不人妻| 亚洲成人手机| 国产极品天堂在线| 精品亚洲成国产av| 综合色丁香网| 永久免费av网站大全| 午夜精品国产一区二区电影| 免费久久久久久久精品成人欧美视频 | 国产黄频视频在线观看| 久久久久久久亚洲中文字幕| 免费观看性生交大片5| 亚洲精品aⅴ在线观看| 中文字幕免费在线视频6| 97在线视频观看| 老司机影院毛片| 黄网站色视频无遮挡免费观看| 十分钟在线观看高清视频www| 高清视频免费观看一区二区| www日本在线高清视频| 亚洲第一区二区三区不卡| 9热在线视频观看99| 少妇人妻 视频| 蜜桃在线观看..| 国产在视频线精品| 波多野结衣一区麻豆| 成年女人在线观看亚洲视频| 嫩草影院入口| 一区二区三区精品91| 巨乳人妻的诱惑在线观看| 日日摸夜夜添夜夜爱| 亚洲精品自拍成人| 久久久国产欧美日韩av| 精品少妇久久久久久888优播| 边亲边吃奶的免费视频| av线在线观看网站| 9色porny在线观看| 国产福利在线免费观看视频| 欧美成人午夜免费资源| 成人18禁高潮啪啪吃奶动态图| 欧美xxⅹ黑人| 久久久久久人妻| 91久久精品国产一区二区三区| 国产有黄有色有爽视频| 黄色 视频免费看| 多毛熟女@视频| 99精国产麻豆久久婷婷| 999精品在线视频| 国国产精品蜜臀av免费| 99视频精品全部免费 在线| 欧美亚洲日本最大视频资源| 夫妻午夜视频| 熟女电影av网| 女人被躁到高潮嗷嗷叫费观| 精品一区在线观看国产| 天堂中文最新版在线下载| 18禁观看日本| 成人18禁高潮啪啪吃奶动态图| 男女免费视频国产| 国产深夜福利视频在线观看| 9色porny在线观看| 边亲边吃奶的免费视频| 亚洲少妇的诱惑av| 免费观看性生交大片5| 亚洲精品自拍成人| 国产精品麻豆人妻色哟哟久久| 91精品国产国语对白视频| 超色免费av| 国产淫语在线视频| 欧美日韩国产mv在线观看视频| 亚洲天堂av无毛|