• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      數(shù)據(jù)清洗方法研究綜述

      2018-01-09 13:51:34趙一凡卞良叢昕
      軟件導刊 2017年12期
      關鍵詞:數(shù)據(jù)預處理數(shù)據(jù)質(zhì)量

      趙一凡+卞良+叢昕

      摘要:數(shù)據(jù)是數(shù)據(jù)挖掘和應用的重要保證,“臟數(shù)據(jù)”會導致不可靠輸出,這種輸出導致的結果有可能難以彌補。因此,數(shù)據(jù)清洗方法研究意義重大。闡述了數(shù)據(jù)預處理過程中的數(shù)據(jù)清洗方法,介紹了缺失值填充及去除數(shù)據(jù)噪聲的常用方法,總結了數(shù)據(jù)挖掘的應用前景,展望了數(shù)據(jù)清洗研究方向。

      關鍵詞:數(shù)據(jù)預處理;數(shù)據(jù)清洗;數(shù)據(jù)質(zhì)量;缺失值

      DOIDOI:10.11907/rjdk.172093

      中圖分類號:TP301

      文獻標識碼:A 文章編號:1672-7800(2017)012-0222-03

      Abstract:Data is an important guarantee for data mining and application, “Dirty Data” can lead to unreliable output, the result of this output may be difficult to make up, therefore, the data cleaning method has important research significance. Aiming at the data preprocessing process data cleaning is surveyed in this paper, clarifying the missing values and removing the noise in the data method, comparison of the advantage and disadvantage of commonly used methods, summarize the shortcoming of data cleaning research and the application of data mining.

      Key Words:data preprocessing;data cleaning;data quality; missing value

      0 引言

      不同的數(shù)據(jù)清洗方法有各自的優(yōu)缺點。大數(shù)據(jù)開發(fā)、挖掘和應用越來越廣泛,但臟數(shù)據(jù)卻普遍存在。臟數(shù)據(jù)指源系統(tǒng)中的數(shù)據(jù)不在給定的范圍內(nèi),或?qū)τ跇I(yè)務毫無意義,或是數(shù)據(jù)格式非法,以及在源系統(tǒng)中存在不規(guī)范的編碼或含糊的業(yè)務邏輯[1]。挖掘的數(shù)據(jù)基本上是來自生產(chǎn)、生活、商業(yè)中的實際數(shù)據(jù),各種原因都可能導致缺失某些重要數(shù)據(jù)、采集到的數(shù)據(jù)不正確或含有噪聲、不一致等問題。數(shù)據(jù)質(zhì)量是數(shù)據(jù)挖掘效果的重要保證,因此,數(shù)據(jù)清洗方法研究意義重大,也面臨很多亟待解決的問題。

      1 數(shù)據(jù)預處理

      數(shù)據(jù)預處理技術可以改進數(shù)據(jù)質(zhì)量,提高挖掘過程的準確率和效率。數(shù)據(jù)預處理分為數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)規(guī)約、數(shù)據(jù)變換[2]幾方面。數(shù)據(jù)清洗是通過填寫缺失值、光滑噪聲數(shù)據(jù)、識別或刪除離群點等方法,解決不一致性問題[3]。本文主要闡述了數(shù)據(jù)預處理過程中數(shù)據(jù)的清洗方法,數(shù)據(jù)清洗的主要任務就是填充缺失值和去除數(shù)據(jù)噪聲。

      2 缺失值處理

      (1)缺失值處理最原始的方法就是刪除法,數(shù)據(jù)在數(shù)據(jù)庫中以表的形式存在,將存在缺失值的記錄刪除,解決數(shù)據(jù)缺失問題。

      (2)插補法。通常數(shù)據(jù)挖掘為大型數(shù)據(jù)庫,屬性成百上千,因一個值的缺失而舍棄一條記錄,會造成極大浪費。因此,一般用最可能的值來填補缺失值,常用的插補方法如下:①均值插補。數(shù)據(jù)分數(shù)值型與非數(shù)值型,當缺失值為數(shù)值型(可進行加減運算的數(shù)據(jù)),就用平均值插補缺失值,當缺失值是非數(shù)值型時,就用眾數(shù)插補缺失值,如果數(shù)據(jù)符合較規(guī)范的分布規(guī)律,還可用中值插補;②回歸插補?;貧w法可以用于數(shù)據(jù)缺失問題,Rubin[4]用貝葉斯Logistic回歸法進行多重插補。于力超、金勇進[5]利用回歸插補法對缺失數(shù)據(jù)進行插補。戴明鋒等[6]在分析數(shù)據(jù)缺失機制前提下,通過二分類Logistic回歸插補法,根據(jù)發(fā)生概率大小確定插補值。劉燕[7]提出了基于Logistic回歸的近鄰擇優(yōu)補差法。通過模擬比較發(fā)現(xiàn),基于回歸的近鄰擇優(yōu)插補法的均方誤差最小,波動性最小,插補效果較好;③極大似然估計。極大似然估計(Max Likelihood)是指在缺失類型為隨機缺失條件下,通過觀測數(shù)據(jù)的邊際分布推出未知參數(shù),此方法又稱忽略缺失值的極大似然估計。極大似然估計實際上是一種數(shù)學期望,已知某參數(shù)能使樣本出現(xiàn)的概率最大,就當然會忽略小概率的樣本。因此,實際中常采用期望值最大化EM(Expectation Maximization)的計算方法;④其它插補方法。關聯(lián)規(guī)則插補:Ragel等[8]提出RAR(Robust Association Rules)方法,充分利用有效數(shù)據(jù),減少數(shù)據(jù)信息的浪費; MVC(Missing Value Completion)方法,首次提到用關聯(lián)規(guī)則對缺失數(shù)據(jù)進行插補[9]。Shen等[10]提出了 FRCAR(Fast Recycle Combined Association Rules)方法,結合非頻繁項信息對缺失值進行插補,解決了生成規(guī)則少、不足以對所有缺失值進行插補的情況。Leila等[11-12]提出GBARMVC(Generic Basis of Association Rules),解決了存在多條規(guī)則時對同一缺失值進行插補問題。于力超等[13]提出了基于最近鄰插補法和關聯(lián)規(guī)則法,采用屬性之間關聯(lián)規(guī)則的支持度和提升度,計算樣本單元間加權距離,用加權距離最小確定唯一插補值。

      3 噪聲過濾

      噪聲是數(shù)據(jù)中存在的隨機誤差,由于隨機誤差產(chǎn)生的噪聲數(shù)據(jù)是正常的,影響變量真值,所以也需要對這些噪聲數(shù)據(jù)進行過濾。常用的噪聲過濾法有回歸法、均值平滑法、離群點分析及小波去噪法。

      (1)回歸法?;貧w法是用一個函數(shù)擬合數(shù)據(jù)來光滑數(shù)據(jù),去除數(shù)據(jù)中的噪聲,即用回歸后的函數(shù)值代替原始數(shù)據(jù),從而避免噪聲數(shù)據(jù)的干擾。回歸法依賴數(shù)據(jù)趨勢的判斷,符合線性趨勢的才用回歸法,所以往往需要先對數(shù)據(jù)進行可視化,判斷數(shù)據(jù)的趨勢及規(guī)律,然后再確定是否可用回歸法進行去噪。endprint

      (2)均值平滑法。均值平滑法是對具有序列特征的變量,用鄰近的若干數(shù)據(jù)均值來替換原始數(shù)據(jù),對于具有正弦時序特征的數(shù)據(jù),利用均值平滑法對其噪聲進行過濾,去噪效果顯著。

      (3)離群點分析。離群點分析是用聚類等方法來檢測離群點。由聚類生成一組數(shù)據(jù)對象集合稱為簇,同一簇中的數(shù)據(jù)對象相似程度較高,其它簇中的數(shù)據(jù)對象相似程度較低(常用距離來度量相似度),落在簇集合之外的值稱為離群點,將其刪除,從而實現(xiàn)去噪。

      (4)小波法。小波去噪屬于音頻處理,具有較好的時頻特性。從數(shù)學角度分析,小波去噪本質(zhì)是函數(shù)逼近問題,根據(jù)衡量標準找出對原信號的“最佳”逼近,區(qū)別原信號與噪聲信號,找到實際信號空間到小波函數(shù)空間的最佳映射,便于恢復最佳的原信號[14]。從信號學角度分析,小波去噪是信號濾波問題,雖然小波去噪很大程度上可看作低通濾波,但它優(yōu)于傳統(tǒng)低通濾波器的地方是去噪后還能成功保留信號特征,小波去噪可看作是特征提取和低通濾波功能的綜合。輸入帶噪信號后,經(jīng)過特征提取與低通濾波可得到重建信號。

      4 常用方法優(yōu)缺點比較

      目前,數(shù)據(jù)預處理過程中的數(shù)據(jù)清洗方法很多,且不同數(shù)據(jù)清洗方法都有優(yōu)點與局限性:刪除或忽略缺失值雖簡單易行,但小樣本時會損失樣本量,統(tǒng)計功效弱,且當每個屬性缺失值百分比變化巨大時性能較差;相比刪除法,插補法產(chǎn)生的信息丟失要少很多。常用的缺失值處理方法如表1所示。

      常用的噪聲過濾方法有回歸、均值平滑、離群點分析、小波法。常用的去噪處理方法如表2所示。

      在某些情況下,缺失值并不代表數(shù)據(jù)有誤。數(shù)據(jù)庫中,有些屬性值允許為空值NULL,得到這樣的數(shù)據(jù)后要盡力清洗數(shù)據(jù)。在數(shù)據(jù)庫輸入設計階段給出空值應如何處理或轉換的說明,就能大大降低缺失值或錯誤的數(shù)量,降低數(shù)據(jù)清洗難度。

      5 結語

      數(shù)據(jù)挖掘技術廣泛應用于醫(yī)療、能源、零售、汽車、金融等諸多領域,通過挖掘有價值的信息,提供決策和建議。對醫(yī)學數(shù)據(jù)的挖掘能給患者提供有針對性的指導意見,預測身體健康狀況的改變及發(fā)展趨勢,防患于未然。精準分析能減少過度治療及治療不足;利用大數(shù)據(jù)分析能源購買量,從而預測能源消費,通過管理能源用戶來提高能源效率、降低成本;對于零售企業(yè),數(shù)據(jù)挖掘技術能很好地整合各類信息,幫助企業(yè)掌握客戶需求,實現(xiàn)精準營銷和個性化服務;借助數(shù)據(jù)挖掘技術能幫助保險公司全面了解駕駛者的駕駛習慣和駕駛行為,提供不同類型的保險產(chǎn)品,等等。臟數(shù)據(jù)的普遍存在,導致數(shù)據(jù)挖掘過程中可利用數(shù)據(jù)有限,數(shù)據(jù)清洗顯得尤為重要,不同的數(shù)據(jù)清洗方法各有優(yōu)缺點,對數(shù)據(jù)清洗方法的研究也將更加深入。

      參考文獻:

      [1] 張興華.數(shù)據(jù)清洗方法在電力企業(yè)數(shù)據(jù)中心的應用研究[D].蘭州:蘭州理工大學,2011.

      [2] 羅艷霞,王庭熙,駱紹曄.數(shù)據(jù)預處理在圖書借閱中的應用[J].莆田學院學報,2016(2):50-53.

      [3] 周健昌,劉波.一種條件函數(shù)依賴挖掘算法的分析與實現(xiàn)[J].計算機與數(shù)字工程,2012(9):8-11.

      [4] RUBIN D B. Statistical analysis with missing data[M].New York: John Wiley & Sons,2002:59-75.

      [5] 于力超,金勇進.美國縱向調(diào)查中缺失數(shù)據(jù)的應對方法及對我國的啟示[J].現(xiàn)代管理科學,2015(9):33-35.

      [6] 戴明鋒,金勇進,查奇芬,等.二分類Logistic回歸插補法及其應用[J].數(shù)學的實踐與認識,2013(21):162-167.

      [7] 劉燕.基于Logistic回歸的近鄰擇優(yōu)插補法[D].天津:天津財經(jīng)大學, 2013.

      [8] RAGEL A, CREMILLEUX B. Treatment of missing values for association rules[C]. Proceedings of the Second Pacific-Asia Conference on Knowledge Discovery and Data Mining(PAKDD-98), Melbourne, Australia, Lecture Notes in Artificial Intelligence 1394, Berlin: Springer, 1998.

      [9] RAGEL A, CREMILLEUX B. MVC-A reprocessing method to deal with missing values[J]. Knowledge-Based System Journal, 1999,12(5/6):158-163.

      [10] SHEN J J, CHANG C C, LI Y C. Combined association rules for dealing with missing values[J]. Journal of Information Science, 2007,33(4):246-254.

      [11] LEILA BEN OTHMAN, SADOK BEN YAHIA. GBARMVC: generic basis of association rules based approach for missing values completion[J]. International Journal of Computing & Information Sciences, 2011,9(1):16-22.

      [12] LEILA BEN OTHMAN, SADOK BEN YAHIA. Yet another approach for completing missing values[C]. Springer-Verlag Berlin Heidelberg, CLA 2006, LNAI 4923, 2008.

      [13] 于力超,金勇進,王俊.缺失數(shù)據(jù)插補方法探討-基于最近領插補法和關聯(lián)規(guī)則法[J].統(tǒng)計與信息論壇,2015(1):35-39.

      [14] 王藝龍,楊守志.基于連續(xù)閾值函數(shù)的小波去噪方法[J].汕頭大學學報:自然科學版,2014(4):66-67.

      (責任編輯:杜能鋼)endprint

      猜你喜歡
      數(shù)據(jù)預處理數(shù)據(jù)質(zhì)量
      基于小轎車車門拉手的逆向建模設計
      科技視界(2016年27期)2017-03-14 22:45:40
      自動氣象站數(shù)據(jù)預處理方法
      電子商務平臺數(shù)據(jù)質(zhì)量控制系統(tǒng)及仿真模型分析
      強化統(tǒng)計執(zhí)法提高數(shù)據(jù)質(zhì)量
      芻議電力系統(tǒng)規(guī)劃設計在電力工程設計中的應用
      中國市場(2016年41期)2016-11-28 05:30:48
      淺析統(tǒng)計數(shù)據(jù)質(zhì)量
      中國市場(2016年40期)2016-11-28 04:58:19
      金融統(tǒng)計數(shù)據(jù)質(zhì)量管理的國際借鑒與中國實踐
      時代金融(2016年27期)2016-11-25 19:02:25
      淺談統(tǒng)計數(shù)據(jù)質(zhì)量控制
      提高政府統(tǒng)計數(shù)據(jù)質(zhì)量,增強政府公信力
      慢性乙肝癥狀與生物信息相關性的數(shù)據(jù)挖掘研究
      土默特左旗| 灵寿县| 诸暨市| 阿克陶县| 和林格尔县| 蛟河市| 革吉县| 拉萨市| 博湖县| 辉南县| 会泽县| 长春市| 随州市| 湘西| 新巴尔虎左旗| 陆河县| 始兴县| 宜宾市| 和硕县| 宜阳县| 怀远县| 化州市| 谢通门县| 洞头县| 泰安市| 慈溪市| 涟水县| 浙江省| 海门市| 翼城县| 镇宁| 谢通门县| 唐山市| 张家港市| 通化市| 清丰县| 论坛| 静安区| 穆棱市| 广宗县| 砚山县|