• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    知識(shí)發(fā)現(xiàn)過程中的數(shù)據(jù)預(yù)處理技術(shù)研究

    2022-03-27 11:02:14毛田野李華鄭健張驍駿
    智能物聯(lián)技術(shù) 2022年5期
    關(guān)鍵詞:預(yù)處理噪聲變量

    毛田野,李華,鄭健,張驍駿

    (91388 部隊(duì),廣東 湛江 524022)

    0 引言

    “數(shù)據(jù)就是未來新時(shí)代的石油”。隨著互聯(lián)網(wǎng)經(jīng)濟(jì)的快速發(fā)展和大數(shù)據(jù)時(shí)代的到來,數(shù)據(jù)作為一種生產(chǎn)要素在社會(huì)發(fā)展中的重要性日益凸顯,對(duì)數(shù)據(jù)的挖掘應(yīng)用與知識(shí)發(fā)現(xiàn)已經(jīng)逐漸滲透到了工業(yè)、軍事、教育等各個(gè)行業(yè)領(lǐng)域。但與此同時(shí),我們所面對(duì)的數(shù)據(jù)體系越來越龐大,數(shù)據(jù)存儲(chǔ)規(guī)模已經(jīng)達(dá)到了PB(Petabyte)、甚至EB(Exabyte)的級(jí)別,數(shù)據(jù)類型和組織形式也越來越多樣化[1,2]。海量數(shù)據(jù)的處理對(duì)我們來說本身就是一個(gè)不小的挑戰(zhàn),而且原始數(shù)據(jù)中可能還包含著許多問題數(shù)據(jù),例如數(shù)據(jù)屬性值出現(xiàn)了缺失或錯(cuò)誤、數(shù)據(jù)信息存在重復(fù)冗余以及數(shù)據(jù)結(jié)構(gòu)不一致等[3],對(duì)我們從中進(jìn)行知識(shí)發(fā)現(xiàn)造成了諸多困難。因此,數(shù)據(jù)預(yù)處理技術(shù)的重要性日益凸顯出來:一方面,對(duì)數(shù)據(jù)進(jìn)行預(yù)處理能夠排除問題數(shù)據(jù),提高源數(shù)據(jù)的規(guī)范性,節(jié)省后續(xù)處理海量數(shù)據(jù)的時(shí)間;另一方面,數(shù)據(jù)預(yù)處理能夠優(yōu)化改良問題數(shù)據(jù),提升源數(shù)據(jù)的質(zhì)量。如圖1 所示,目前數(shù)據(jù)預(yù)處理的工作內(nèi)容主要包括數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)歸約以及數(shù)據(jù)變換等處理過程。在知識(shí)發(fā)現(xiàn)過程中,數(shù)據(jù)預(yù)處理扮演著承上啟下的重要角色[4,5]。

    圖1 知識(shí)發(fā)現(xiàn)的基本過程示意圖Figure1 Schematic diagram of knowledge discovery

    1 數(shù)據(jù)清洗

    數(shù)據(jù)清洗是指檢測(cè)數(shù)據(jù)中存在的問題數(shù)據(jù),通過填寫缺失的數(shù)值、識(shí)別和刪除離群點(diǎn)以及光滑噪聲數(shù)據(jù)等方法對(duì)數(shù)據(jù)進(jìn)行處理,形成合理的數(shù)據(jù)集合[5]。根據(jù)所處理的問題數(shù)據(jù)類型,數(shù)據(jù)清洗可以分為以下幾種。

    1.1 清洗缺失數(shù)據(jù)

    由于系統(tǒng)存在缺陷或者出現(xiàn)運(yùn)行錯(cuò)誤等問題,導(dǎo)致所產(chǎn)生數(shù)據(jù)集的某些屬性值出現(xiàn)丟失,這種情況稱為數(shù)據(jù)缺失。例如某武器裝備信息表Weapon中某些記錄的“型號(hào)”屬性W.marque 的值被記為空(NULL)。關(guān)鍵信息的缺失,會(huì)導(dǎo)致數(shù)據(jù)集的價(jià)值大大降低,影響后續(xù)的信息匹配和計(jì)算,因此對(duì)缺失數(shù)據(jù)進(jìn)行清洗有很大的必要性。常見的清洗方法主要分為刪除法和填充法兩大類。

    1.1.1 刪除法

    刪除法即是直接對(duì)存在屬性缺失的數(shù)據(jù)進(jìn)行刪除。該方法操作過程簡(jiǎn)單易行,經(jīng)常作為缺省的方法用于缺失數(shù)據(jù)比較少的情況下。但當(dāng)缺失數(shù)據(jù)占數(shù)據(jù)集的比例比較大時(shí),采用直接刪除的方法可能會(huì)導(dǎo)致所得到的數(shù)據(jù)分析結(jié)果發(fā)生偏離,進(jìn)而影響結(jié)論的準(zhǔn)確性。此外,當(dāng)缺失的數(shù)據(jù)為有價(jià)值的關(guān)鍵信息時(shí),刪除法顯然會(huì)對(duì)后續(xù)的數(shù)據(jù)挖掘工作造成不利影響。

    1.1.2 填充法

    在實(shí)際操作中,人們更多地會(huì)利用最接近缺失值的數(shù)據(jù)來填充缺失數(shù)據(jù),這種方法稱為填充法或插補(bǔ)法。利用填充法對(duì)數(shù)據(jù)進(jìn)行清洗主要可以通過以下幾種途徑來實(shí)現(xiàn)。

    (1)聚合值填充:當(dāng)數(shù)據(jù)對(duì)象可直接進(jìn)行加減運(yùn)算時(shí),則取算數(shù)平均值來填充缺失值,其他數(shù)據(jù)對(duì)象的眾數(shù)、中位數(shù)等均可用來賦予該缺失值。使用聚合值進(jìn)行填充的方法簡(jiǎn)單快速,但有可能會(huì)產(chǎn)生有偏估計(jì),對(duì)缺失數(shù)據(jù)和其他數(shù)據(jù)之間原本的相關(guān)性產(chǎn)生不利影響。

    (2)模型預(yù)測(cè)插補(bǔ):通過機(jī)器學(xué)習(xí)模型對(duì)缺失值進(jìn)行預(yù)測(cè)和插補(bǔ),例如假設(shè)缺失值所在變量與樣本中其他變量之間存在線性關(guān)系,然后通過建立回歸模型對(duì)缺失值進(jìn)行預(yù)測(cè)和填補(bǔ)。該方法利用了盡可能多的現(xiàn)有數(shù)據(jù),得到的結(jié)果更具有說服力,但往往容易忽略隨機(jī)誤差。其他常用的模型還有決策樹、貝葉斯、隨機(jī)森林等。

    (3)極大似然估計(jì):通過引入隱變量創(chuàng)建概率模型來對(duì)未知參數(shù)進(jìn)行極大似然估計(jì),也可稱為忽略缺失值的數(shù)學(xué)期望。該方法適用范圍也比較廣泛,估計(jì)量具有一致性和有效性,但解方程時(shí)有可能得不到解或者不是有限解[6]。

    1.2 清洗重復(fù)數(shù)據(jù)

    在同一數(shù)據(jù)庫(kù)中可能會(huì)出現(xiàn)相同對(duì)象或?qū)傩該碛胁煌拿Q,或者多個(gè)屬性表示同一特征的情況,這種現(xiàn)象稱為數(shù)據(jù)重復(fù)或數(shù)據(jù)冗余,主要包括屬性重復(fù)和屬性值重復(fù)兩種情況。在數(shù)據(jù)庫(kù)的實(shí)際應(yīng)用中,大多數(shù)系統(tǒng)都存在數(shù)據(jù)重復(fù)現(xiàn)象。

    比較算法是處理數(shù)值型數(shù)據(jù)重復(fù)的常用方法。首先通過專門的公式計(jì)算出記錄不同屬性的相似度,例如當(dāng)需要判斷某關(guān)系表中A 屬性和B 屬性兩者之間是否相互冗余時(shí),可以通過皮爾遜相關(guān)系數(shù)即公式(1)來進(jìn)行相關(guān)性計(jì)算[7]:

    式中,rA,B為A 與B 屬性相似度;N 為A 或B屬性的屬性值個(gè)數(shù);ai和bi分別為A、B 屬性的每個(gè)屬性值分別為A、B 屬性的平均值;σA和σB分別為A、B 屬性的標(biāo)準(zhǔn)差為A、B 兩屬性叉積的和。

    得到不同屬性相似度之后,再考慮每個(gè)屬性的不同權(quán)重值,加權(quán)平均后得到記錄的相似度。若相似度超過了某一閾值,則認(rèn)為兩條記錄是存在冗余的,可對(duì)其中的一條記錄進(jìn)行刪除操作,否則則認(rèn)為兩條記錄指向不同的實(shí)體。此外,近鄰排序法也常用于相似度計(jì)算[8],即對(duì)記錄按關(guān)鍵字進(jìn)行排序后,以固定步長(zhǎng)(窗口)來檢測(cè)其中的記錄是否相似,可以在一定程度上減少記錄的比較次數(shù)。需要注意的是,比較算法對(duì)計(jì)算機(jī)的運(yùn)行速度和儲(chǔ)存空間要求比較高,配置有限的個(gè)人計(jì)算機(jī)往往采用在線刪除和離線刪除相結(jié)合的手段[9]。對(duì)于分類型數(shù)據(jù)的冗余檢測(cè),可以利用公式(2)假設(shè)檢驗(yàn)中的卡方檢驗(yàn)來實(shí)現(xiàn)[10],通過能否拒絕原假設(shè)來對(duì)屬性是否冗余進(jìn)行判斷。

    式中,χ2為卡方值,其值越大表明變量越有可能相關(guān);Ob 代表某個(gè)類別的觀測(cè)值,Ex 代表計(jì)算出來的期望值(Ex=行總數(shù)×列總數(shù)∕總數(shù))。

    1.3 清洗噪聲數(shù)據(jù)

    由于系統(tǒng)工作狀況等原因,實(shí)際采集的數(shù)據(jù)、整理所得到的數(shù)據(jù)集往往會(huì)包含部分不在合理數(shù)據(jù)域內(nèi)的數(shù)據(jù),這些“離群”的數(shù)據(jù)被稱為噪聲數(shù)據(jù)。本質(zhì)上來講,噪聲數(shù)據(jù)是一種隨機(jī)誤差。常見的處理噪聲數(shù)據(jù)的方法可以分為噪聲平滑和噪聲過濾兩大類。

    1.3.1 噪聲平滑

    平滑噪聲數(shù)據(jù)可以通過以下幾種方法來實(shí)現(xiàn)。

    (1)分箱法:把需要進(jìn)行預(yù)處理的數(shù)據(jù)分到若干個(gè)箱中,然后通過考察周圍臨近的數(shù)值來對(duì)有序數(shù)列進(jìn)行平滑,分箱實(shí)質(zhì)上是一種數(shù)據(jù)離散化。一般來講,箱的寬度越大,光滑的效果越好,也可以指定箱子的寬度,即箱值的范圍是一個(gè)常量。箱平均值、中位數(shù)以及最近的邊界值等均可作為噪聲數(shù)據(jù)的替代對(duì)象[11]。

    (2)回歸法:由大多數(shù)穩(wěn)定的數(shù)據(jù)樣本擬合得到回歸函數(shù),根據(jù)回歸系數(shù)和預(yù)測(cè)變量反解出自變量的近似值,然后對(duì)原始數(shù)據(jù)進(jìn)行近似值替換。該方法需要建立在穩(wěn)定數(shù)據(jù)的基礎(chǔ)之上,而且只有符合線性趨勢(shì)的數(shù)據(jù)樣本才能進(jìn)行回歸分析。對(duì)于比較復(fù)雜的多因素模型可利用多線性回歸法進(jìn)行平滑,將數(shù)據(jù)擬合到多維曲面上,去噪聲效果比較好[12]。

    (3)均值法:利用異常值臨近的若干數(shù)據(jù)均值來替換離群點(diǎn)的一種去噪方法。該方法操作簡(jiǎn)單、計(jì)算速度快,但局限于具有序列特征的樣本,尤其是當(dāng)數(shù)據(jù)集具有正弦時(shí)序特征時(shí),均值法的去噪效果比較顯著。

    1.3.2 噪聲過濾

    利用聚類的方法找到并刪除數(shù)據(jù)集中的離群點(diǎn),這種方法稱為噪聲過濾,又叫作離群點(diǎn)分析。在該方法中,聚類生成的數(shù)據(jù)對(duì)象集合被稱為簇,同一簇中的數(shù)據(jù)對(duì)象具有比較高的相似度,落在簇之外的點(diǎn)則被直觀地稱為離群點(diǎn)。本質(zhì)上來講,利用聚類進(jìn)行噪聲過濾是一種形式的數(shù)據(jù)規(guī)約,該方法需要預(yù)先知道數(shù)據(jù)樣本的分布特征,并建立在標(biāo)準(zhǔn)的統(tǒng)計(jì)學(xué)基礎(chǔ)上,對(duì)數(shù)據(jù)和檢驗(yàn)類型的充分性要求也比較高,否則難以保證能發(fā)現(xiàn)所有的離群點(diǎn)。

    2 數(shù)據(jù)集成

    所謂數(shù)據(jù)集成,通俗來講是指將來自多個(gè)數(shù)據(jù)源的異構(gòu)數(shù)據(jù)合并在一起,并存放在一個(gè)一致的數(shù)據(jù)存儲(chǔ)中。數(shù)據(jù)樣本的來源和涉及領(lǐng)域越廣泛,數(shù)據(jù)集成的難度也會(huì)越大,該過程需要解決數(shù)據(jù)的選擇、數(shù)據(jù)的一致性以及兼容性等問題[13]。而數(shù)據(jù)的一致性和兼容性主要面臨多數(shù)據(jù)源中屬性的語(yǔ)義差異、結(jié)構(gòu)差異和冗余重復(fù)等難題。

    2.1 屬性語(yǔ)義問題

    例如在對(duì)來自兩個(gè)數(shù)據(jù)源中的武器裝備信息統(tǒng)計(jì)表進(jìn)行集成時(shí),發(fā)現(xiàn)兩個(gè)數(shù)據(jù)樣本中都有名為“Date”的屬性,但實(shí)際上一個(gè)記錄的是出廠時(shí)間,另一個(gè)記錄的是列裝時(shí)間。上述情況在數(shù)據(jù)集成中是經(jīng)常發(fā)生的,通常需要操作人員在數(shù)據(jù)集成之前對(duì)數(shù)據(jù)樣本進(jìn)行調(diào)研,確認(rèn)各個(gè)屬性的實(shí)際意義。

    2.2 屬性結(jié)構(gòu)問題

    屬性結(jié)構(gòu)差異幾乎是數(shù)據(jù)集成中必須要解決的問題。以武器裝備信息表Weapon 中的“造價(jià)”屬性W.price 為例,表1 總結(jié)了數(shù)據(jù)集成中幾種常見的屬性結(jié)構(gòu)差異問題。針對(duì)這類問題,往往需要在數(shù)據(jù)集成過程中對(duì)數(shù)據(jù)屬性進(jìn)行結(jié)構(gòu)上的明確,通過再定義來對(duì)數(shù)據(jù)進(jìn)行約束,避免屬性結(jié)構(gòu)問題對(duì)數(shù)據(jù)集成造成阻力。

    表1 常見的屬性結(jié)構(gòu)差異Table1 Common differences of property structure

    2.3 冗余重復(fù)問題

    仍以武器裝備信息表中的造價(jià)屬性為例,兩個(gè)數(shù)據(jù)樣本記錄的都是某型武器裝備的造價(jià)情況,但一個(gè)屬性名為“Price”,另一個(gè)屬性名為“Value”,若對(duì)兩個(gè)表進(jìn)行數(shù)據(jù)集成,則同時(shí)保留的兩個(gè)屬性是相互冗余的。對(duì)于判斷數(shù)值型屬性是否相互冗余,可以通過公式(1)來實(shí)現(xiàn),標(biāo)稱型屬性則可通過公式(2)來實(shí)現(xiàn),具體方法在此不再贅述。此外,對(duì)數(shù)據(jù)重復(fù)還可以通過表的主鍵進(jìn)行判定,沒有主鍵的表則需要在數(shù)據(jù)集成前進(jìn)行調(diào)研和定義主鍵,或者對(duì)表進(jìn)行拆分和整合。

    3 數(shù)據(jù)變換

    數(shù)據(jù)變換是指采用線性或者非線性的數(shù)學(xué)變換方法對(duì)數(shù)據(jù)進(jìn)行規(guī)格化處理,將多維數(shù)據(jù)壓縮成較少維的數(shù)據(jù),以達(dá)到消除其在時(shí)間、空間、屬性及精度等特征表現(xiàn)方面差異的目的。簡(jiǎn)單來講,數(shù)據(jù)變換就是根據(jù)需要將數(shù)據(jù)從一個(gè)大的區(qū)間壓縮到一個(gè)小的區(qū)間內(nèi)。例如將數(shù)據(jù)集{-5,2,18,100}轉(zhuǎn)換為數(shù)據(jù)集{-0.5,0.2,1.8,10}即是一個(gè)簡(jiǎn)單的數(shù)據(jù)變換過程。又如在武器裝備信息表Weapon中,裝備“造價(jià)”屬性W.price 要比裝備的“使用壽命”屬性W.age 的值大得多,如果不進(jìn)行數(shù)據(jù)變換而直接開展基于類似神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)挖掘工作的話,W.price 屬性的作用將會(huì)在數(shù)據(jù)對(duì)象的距離計(jì)算中被遠(yuǎn)遠(yuǎn)放大,進(jìn)而對(duì)數(shù)據(jù)挖掘帶來不利影響。表2 總結(jié)了幾種常用的數(shù)據(jù)變換方法[14]。

    表2 常用的數(shù)據(jù)變換方法Table2 Common methods of data transformation

    4 數(shù)據(jù)歸約

    在盡可能保證數(shù)據(jù)原有的完整性和有效性基礎(chǔ)上,通過使用降低數(shù)據(jù)規(guī)模、減少數(shù)據(jù)存儲(chǔ)空間、將數(shù)據(jù)以合乎要求的方式表示出來等策略對(duì)數(shù)據(jù)進(jìn)行預(yù)處理操作叫作數(shù)據(jù)歸約[15]。對(duì)數(shù)據(jù)集進(jìn)行歸約處理將有助于改善后續(xù)挖掘分析效果。數(shù)據(jù)規(guī)約過程所涉及的方法主要有以下幾種。

    4.1 維度歸約

    維度歸約是使用數(shù)據(jù)編碼或數(shù)據(jù)變換方案,以得到原始數(shù)據(jù)的簡(jiǎn)化或壓縮表示,其核心是減少隨機(jī)變量或?qū)傩缘膫€(gè)數(shù)。維度歸約常用的技術(shù)手段主要有小波變換、主成分分析、屬性子集選擇以及單變量重要性等。

    4.1.1 小波變換

    小波變換是一種由傅里葉變換發(fā)展而來的線性信號(hào)處理技術(shù)。在方法上,小波變換將傅里葉變換的基由無(wú)限長(zhǎng)的三角函數(shù)基換成了有限長(zhǎng)會(huì)衰減的小波基,能實(shí)現(xiàn)在獲取頻率的同時(shí)定位時(shí)間[16]。當(dāng)用于數(shù)據(jù)變量X 的時(shí)候,可以將其變成數(shù)值上不同的小波系數(shù)向量X’,向量具有相同的長(zhǎng)度。在數(shù)據(jù)歸約中,每個(gè)元組可以看作為一個(gè)n 維數(shù)據(jù)向量X=(x1,x2,…,xn),用來描述n 個(gè)數(shù)據(jù)庫(kù)屬性在元組上的n 個(gè)測(cè)量值,對(duì)數(shù)據(jù)進(jìn)行小波變換后截?cái)鄶?shù)據(jù),保留最強(qiáng)的小波系數(shù),從而保留近似的壓縮數(shù)據(jù),達(dá)到數(shù)據(jù)歸約的目的。

    在實(shí)際的數(shù)據(jù)預(yù)處理操作中,小波變換適合用于處理高維度數(shù)據(jù),如數(shù)據(jù)立方體等,可以將變換用于第一個(gè)維,然后第二個(gè),如此依次進(jìn)行。對(duì)于稀疏或者傾斜數(shù)據(jù),以及具有有序?qū)傩缘臄?shù)據(jù),小波變換往往也能給出較好的處理效果。除數(shù)據(jù)歸約以外,小波變換在圖像壓縮處理、計(jì)算機(jī)嗅覺等領(lǐng)域也有廣泛的應(yīng)用[17,18]。

    4.1.2 主成分分析

    相對(duì)于小波變換法,主成分分析(Principal Component Analysis,PCA)更適合用于處理離散或稀疏數(shù)據(jù)。該方法通常是搜索k 個(gè)最能代表數(shù)據(jù)的n 維正交向量(k≤n),將原始數(shù)據(jù)投影到一個(gè)更小的空間中,實(shí)現(xiàn)維度歸約[19]。其基本處理過程如圖2 所示。

    圖2 主成分分析處理過程Figure2 Process of principal component analysis

    4.1.3 屬性子集選擇

    屬性子集選擇是通過檢測(cè)相關(guān)程度較弱或重復(fù)的屬性,對(duì)其刪除來達(dá)到數(shù)據(jù)歸約目的的一種方法。該方法的關(guān)鍵之處在于找到最小屬性集,使得該屬性集的數(shù)據(jù)概率分布與包含所有屬性的原分布盡可能地接近,簡(jiǎn)單來講即是用最小屬性集“描述”原數(shù)據(jù)樣本。壓縮搜索空間的啟發(fā)式算法為該方法常用算法,其策略為期望通過做局部最優(yōu)選擇來獲得全局最優(yōu)解,實(shí)踐證明該方法的確行之有效[20,21]。常用的基本啟發(fā)式方法包括:逐步向前選擇、逐步向后刪除、逐步向前選擇與向后刪除的結(jié)合、決策樹歸納等。

    4.1.4 單變量重要性

    單變量重要性是從統(tǒng)計(jì)學(xué)和信息的角度分析單變量與目標(biāo)變量的相關(guān)性,對(duì)預(yù)測(cè)能力較低的變量進(jìn)行刪除。常用的方法主要有:利用皮爾遜相關(guān)系數(shù)或卡方檢驗(yàn)分析目標(biāo)變量與單變量之間的相關(guān)性、利用線性回歸對(duì)變量的表決系數(shù)進(jìn)行重要性排序、利用決策樹提取變量的重要度并進(jìn)行排序等[22]。

    4.2 數(shù)值歸約

    數(shù)值歸約是指選擇替代的、較小的數(shù)據(jù)形式來替換原數(shù)據(jù),達(dá)到減小數(shù)據(jù)量的目的。數(shù)值歸約技術(shù)主要可以分為參數(shù)化模型和非參數(shù)化模型兩大類[23]。

    4.2.1 參數(shù)化模型

    參數(shù)化數(shù)據(jù)歸約可以利用回歸和對(duì)數(shù)線性模型來實(shí)現(xiàn)。對(duì)于數(shù)值型數(shù)據(jù),采用回歸模型建模方法,使之?dāng)M合到一條直線上。例如可以用以下公式將隨機(jī)變量Y 表示成另一個(gè)隨機(jī)變量X 的線性函數(shù):Y=aX+b,其中X 稱為自變量,Y 稱為因變量,假定Y 的方差為常量,a 和b 分別為直線的Y 軸截取和斜率,可用最小二乘法求得。當(dāng)分析多個(gè)分類變量間的關(guān)系時(shí),可以采用對(duì)數(shù)線性模型。常見的邏輯回歸就是對(duì)數(shù)線性模型的一種。

    4.2.2 非參數(shù)化模型

    常見的非參數(shù)化數(shù)據(jù)歸約主要包括以下幾種:

    (1)直方圖。利用直方圖將屬性的數(shù)據(jù)分布劃分為若干不相交的子集或桶,桶表示給定屬性的一個(gè)連續(xù)空間。該方法適用于處理近似稀疏和稠密數(shù)據(jù)、高傾斜和均勻數(shù)據(jù)。

    (2)聚類。將數(shù)據(jù)元組劃分為群或簇,一個(gè)簇中的對(duì)象相互相似,不同簇中的對(duì)象相互相異,在數(shù)據(jù)歸約中,用數(shù)據(jù)的簇來替代原始數(shù)據(jù)。

    (3)抽樣。因?yàn)槌闃踊谟眯?shù)據(jù)量的樣本來表示大數(shù)據(jù)集的思想,所以剛好適用于數(shù)據(jù)歸約。常見的抽樣方法有樣本無(wú)放回隨機(jī)抽樣、樣本有放回隨機(jī)抽樣、聚類抽樣、分層抽樣等。

    (4)數(shù)據(jù)立方體聚集。將細(xì)粒度的屬性聚集到粗粒度的屬性,最細(xì)的粒度是最小的立方體,每個(gè)較高層抽象成更大的立方體,進(jìn)一步減小數(shù)據(jù)的規(guī)模。

    5 結(jié)語(yǔ)

    綜上所述,數(shù)據(jù)預(yù)處理工作包含了許多處理步驟,每一個(gè)步驟都有多種不同的實(shí)現(xiàn)方法,也有不少方法能夠應(yīng)用在不同的預(yù)處理階段中。例如,回歸法既可以在數(shù)據(jù)清洗階段用于平滑噪聲,又可以在數(shù)據(jù)歸約階段實(shí)現(xiàn)數(shù)值歸約;相關(guān)性分析可以用于數(shù)據(jù)清洗、數(shù)據(jù)集成以及數(shù)據(jù)規(guī)約等。不同預(yù)處理方法之間既相互獨(dú)立又相互關(guān)聯(lián),實(shí)施起來也沒有嚴(yán)格的先后順序,在實(shí)際的應(yīng)用過程中,需要針對(duì)具體研究的問題以及面向數(shù)據(jù)的類型選用合適的預(yù)處理方法。在當(dāng)今大數(shù)據(jù)時(shí)代背景下,數(shù)據(jù)的重要性日益彰顯,同時(shí)我們所面對(duì)的數(shù)據(jù)體系規(guī)模也越來越龐大,數(shù)據(jù)預(yù)處理技術(shù)發(fā)展至今仍是一個(gè)活躍的研究領(lǐng)域。作為對(duì)海量數(shù)據(jù)挖掘分析和知識(shí)發(fā)現(xiàn)過程的核心環(huán)節(jié),它也將會(huì)發(fā)揮越來越重要的作用。

    猜你喜歡
    預(yù)處理噪聲變量
    抓住不變量解題
    噪聲可退化且依賴于狀態(tài)和分布的平均場(chǎng)博弈
    也談分離變量
    控制噪聲有妙法
    基于預(yù)處理MUSIC算法的分布式陣列DOA估計(jì)
    淺談PLC在預(yù)處理生產(chǎn)線自動(dòng)化改造中的應(yīng)用
    絡(luò)合萃取法預(yù)處理H酸廢水
    SL(3,3n)和SU(3,3n)的第一Cartan不變量
    基于自適應(yīng)預(yù)處理的改進(jìn)CPF-GMRES算法
    一種基于白噪聲響應(yīng)的隨機(jī)載荷譜識(shí)別方法
    亚洲成人免费av在线播放| 免费不卡黄色视频| 五月开心婷婷网| 国产老妇伦熟女老妇高清| 日韩有码中文字幕| 亚洲成人国产一区在线观看| 啦啦啦啦在线视频资源| 婷婷丁香在线五月| 高清黄色对白视频在线免费看| 久久久久久人人人人人| 精品高清国产在线一区| 日韩一卡2卡3卡4卡2021年| 免费女性裸体啪啪无遮挡网站| 波多野结衣av一区二区av| 热99国产精品久久久久久7| 欧美日韩亚洲国产一区二区在线观看 | 国产成+人综合+亚洲专区| 精品久久久久久电影网| 国产成人精品无人区| 在线观看一区二区三区激情| 精品少妇内射三级| 中文字幕色久视频| 久久人妻熟女aⅴ| 国产免费av片在线观看野外av| 下体分泌物呈黄色| 午夜福利影视在线免费观看| 在线观看免费高清a一片| 久久热在线av| 国产高清videossex| 国产一区二区三区在线臀色熟女 | 欧美乱码精品一区二区三区| 后天国语完整版免费观看| 啦啦啦 在线观看视频| 国产日韩欧美亚洲二区| 国产精品99久久99久久久不卡| 成人三级做爰电影| 国产国语露脸激情在线看| 日韩人妻精品一区2区三区| 国产一区二区三区综合在线观看| 高清欧美精品videossex| 国产成人欧美在线观看 | 18在线观看网站| 午夜免费观看性视频| 国产精品1区2区在线观看. | 午夜91福利影院| 大片电影免费在线观看免费| 99国产精品一区二区蜜桃av | 亚洲成人手机| 黄片播放在线免费| 精品一区二区三区av网在线观看 | 久久精品人人爽人人爽视色| 亚洲国产欧美日韩在线播放| 老司机深夜福利视频在线观看 | av欧美777| 午夜福利视频在线观看免费| 国产av国产精品国产| 老司机午夜十八禁免费视频| 男女边摸边吃奶| 人人妻人人澡人人爽人人夜夜| 纯流量卡能插随身wifi吗| 黑人巨大精品欧美一区二区mp4| a级毛片黄视频| 亚洲av电影在线观看一区二区三区| 日本av免费视频播放| 亚洲欧美精品自产自拍| 国产成人精品在线电影| 精品久久久久久久毛片微露脸 | 天天添夜夜摸| 精品亚洲乱码少妇综合久久| 欧美激情久久久久久爽电影 | 免费黄频网站在线观看国产| 曰老女人黄片| 国精品久久久久久国模美| 国产成人欧美在线观看 | 欧美日韩精品网址| 啦啦啦中文免费视频观看日本| 国产精品亚洲av一区麻豆| 免费看十八禁软件| 国产av精品麻豆| 精品人妻在线不人妻| 飞空精品影院首页| 免费在线观看视频国产中文字幕亚洲 | 日日摸夜夜添夜夜添小说| 777米奇影视久久| 制服诱惑二区| 99国产精品一区二区蜜桃av | 亚洲欧洲精品一区二区精品久久久| 极品人妻少妇av视频| 成年美女黄网站色视频大全免费| 国产深夜福利视频在线观看| 在线亚洲精品国产二区图片欧美| 久久国产精品影院| 亚洲精品一卡2卡三卡4卡5卡 | 精品人妻1区二区| 99久久人妻综合| 亚洲伊人色综图| 狂野欧美激情性bbbbbb| 免费在线观看视频国产中文字幕亚洲 | 亚洲精品第二区| 亚洲五月色婷婷综合| 国产av国产精品国产| 亚洲国产欧美在线一区| 热99re8久久精品国产| 亚洲精品久久久久久婷婷小说| 热99久久久久精品小说推荐| 97在线人人人人妻| 新久久久久国产一级毛片| 国产精品久久久av美女十八| 亚洲 国产 在线| 老司机靠b影院| 丰满饥渴人妻一区二区三| 欧美激情久久久久久爽电影 | 久久久欧美国产精品| 999久久久国产精品视频| 亚洲精品第二区| 欧美国产精品va在线观看不卡| 久久 成人 亚洲| 国产激情久久老熟女| 色婷婷av一区二区三区视频| 后天国语完整版免费观看| 亚洲激情五月婷婷啪啪| 亚洲九九香蕉| 五月开心婷婷网| 亚洲精品国产一区二区精华液| 亚洲五月婷婷丁香| 亚洲一码二码三码区别大吗| 俄罗斯特黄特色一大片| 亚洲精品国产精品久久久不卡| 国产一卡二卡三卡精品| 国产精品麻豆人妻色哟哟久久| 狠狠精品人妻久久久久久综合| 欧美成人午夜精品| 手机成人av网站| 咕卡用的链子| 亚洲精品av麻豆狂野| 国产高清国产精品国产三级| 久久久国产一区二区| 欧美中文综合在线视频| 操美女的视频在线观看| 免费在线观看黄色视频的| 18禁黄网站禁片午夜丰满| 成人三级做爰电影| 黄片播放在线免费| 99久久综合免费| 亚洲午夜精品一区,二区,三区| 建设人人有责人人尽责人人享有的| av电影中文网址| 咕卡用的链子| 成年人午夜在线观看视频| 水蜜桃什么品种好| 欧美 日韩 精品 国产| 蜜桃国产av成人99| 一本大道久久a久久精品| 99国产精品99久久久久| 脱女人内裤的视频| 9191精品国产免费久久| 色视频在线一区二区三区| 亚洲国产精品一区三区| 王馨瑶露胸无遮挡在线观看| 免费日韩欧美在线观看| 国产在视频线精品| 777久久人妻少妇嫩草av网站| 狂野欧美激情性bbbbbb| 一本综合久久免费| 18禁国产床啪视频网站| 高清欧美精品videossex| 午夜福利视频精品| xxxhd国产人妻xxx| 亚洲av电影在线观看一区二区三区| 欧美一级毛片孕妇| 两人在一起打扑克的视频| 久久久精品国产亚洲av高清涩受| 久9热在线精品视频| 久9热在线精品视频| 久久香蕉激情| 国产av又大| 香蕉国产在线看| 一区二区三区精品91| 嫁个100分男人电影在线观看| 一区二区av电影网| 夜夜夜夜夜久久久久| 18禁黄网站禁片午夜丰满| 久久精品久久久久久噜噜老黄| 在线观看免费午夜福利视频| 一区在线观看完整版| 别揉我奶头~嗯~啊~动态视频 | netflix在线观看网站| 脱女人内裤的视频| 黄色毛片三级朝国网站| 久久99热这里只频精品6学生| 精品少妇久久久久久888优播| 窝窝影院91人妻| 欧美 亚洲 国产 日韩一| 侵犯人妻中文字幕一二三四区| 老熟妇仑乱视频hdxx| 国产日韩欧美在线精品| 精品乱码久久久久久99久播| 欧美变态另类bdsm刘玥| 一本一本久久a久久精品综合妖精| 久久女婷五月综合色啪小说| av网站免费在线观看视频| 波多野结衣一区麻豆| 久久久久国产一级毛片高清牌| 18禁黄网站禁片午夜丰满| 久9热在线精品视频| 亚洲国产av新网站| 大码成人一级视频| 淫妇啪啪啪对白视频 | 欧美日韩国产mv在线观看视频| 秋霞在线观看毛片| 精品人妻一区二区三区麻豆| 国产精品香港三级国产av潘金莲| 99精品欧美一区二区三区四区| 老汉色av国产亚洲站长工具| 大香蕉久久网| 国产福利在线免费观看视频| 亚洲熟女精品中文字幕| 欧美日韩亚洲国产一区二区在线观看 | 丁香六月欧美| 国产成人av教育| 国产精品亚洲av一区麻豆| av网站在线播放免费| 男女高潮啪啪啪动态图| av天堂久久9| 日日摸夜夜添夜夜添小说| 亚洲欧美一区二区三区久久| 一本大道久久a久久精品| 99国产精品一区二区三区| 777久久人妻少妇嫩草av网站| 少妇粗大呻吟视频| 国产xxxxx性猛交| 在线天堂中文资源库| av超薄肉色丝袜交足视频| 日本wwww免费看| 久久ye,这里只有精品| 欧美国产精品va在线观看不卡| 国产精品一区二区精品视频观看| 激情视频va一区二区三区| 波多野结衣av一区二区av| 亚洲国产日韩一区二区| 日韩人妻精品一区2区三区| 日韩一卡2卡3卡4卡2021年| 熟女少妇亚洲综合色aaa.| √禁漫天堂资源中文www| 精品国内亚洲2022精品成人 | 国产日韩欧美视频二区| 韩国精品一区二区三区| 亚洲男人天堂网一区| 满18在线观看网站| 亚洲一卡2卡3卡4卡5卡精品中文| 欧美一级毛片孕妇| 人人妻人人添人人爽欧美一区卜| 亚洲自偷自拍图片 自拍| 亚洲精品一卡2卡三卡4卡5卡 | 国产一卡二卡三卡精品| 亚洲一码二码三码区别大吗| e午夜精品久久久久久久| 久久久国产一区二区| 丰满迷人的少妇在线观看| 在线观看免费高清a一片| 色婷婷久久久亚洲欧美| 久久人人爽人人片av| 纯流量卡能插随身wifi吗| 亚洲国产毛片av蜜桃av| 国产一卡二卡三卡精品| 人人妻人人澡人人爽人人夜夜| 亚洲av欧美aⅴ国产| 久9热在线精品视频| 老司机午夜福利在线观看视频 | 大陆偷拍与自拍| 美女大奶头黄色视频| 欧美日韩一级在线毛片| 中文字幕色久视频| 精品一区二区三区av网在线观看 | 久久久国产成人免费| 夜夜夜夜夜久久久久| 国产高清国产精品国产三级| 国产成人精品久久二区二区免费| 亚洲av成人不卡在线观看播放网 | 日韩制服骚丝袜av| 午夜久久久在线观看| 窝窝影院91人妻| 下体分泌物呈黄色| 亚洲专区中文字幕在线| h视频一区二区三区| 性高湖久久久久久久久免费观看| 交换朋友夫妻互换小说| 操出白浆在线播放| 夫妻午夜视频| 亚洲av成人一区二区三| 国产一级毛片在线| 日韩欧美一区二区三区在线观看 | 亚洲一卡2卡3卡4卡5卡精品中文| 正在播放国产对白刺激| 亚洲欧美精品综合一区二区三区| 午夜影院在线不卡| 日韩视频一区二区在线观看| 免费在线观看黄色视频的| 国产99久久九九免费精品| 国产视频一区二区在线看| av视频免费观看在线观看| 国产伦人伦偷精品视频| av片东京热男人的天堂| 久久 成人 亚洲| 91字幕亚洲| avwww免费| 国产欧美日韩精品亚洲av| 国产成人精品久久二区二区91| 亚洲天堂av无毛| 欧美另类一区| 亚洲国产精品成人久久小说| 亚洲伊人色综图| 成年人免费黄色播放视频| 如日韩欧美国产精品一区二区三区| av天堂久久9| 久久人人爽人人片av| 考比视频在线观看| 男女边摸边吃奶| 少妇的丰满在线观看| 99久久综合免费| 丝瓜视频免费看黄片| 中文字幕人妻丝袜一区二区| 国产一区二区三区av在线| 一区在线观看完整版| 欧美另类一区| 男男h啪啪无遮挡| 超碰97精品在线观看| 久久精品国产亚洲av香蕉五月 | 丰满人妻熟妇乱又伦精品不卡| 91九色精品人成在线观看| 精品国产超薄肉色丝袜足j| 国产又爽黄色视频| 久久99一区二区三区| 777米奇影视久久| 又黄又粗又硬又大视频| av在线老鸭窝| 亚洲欧美一区二区三区黑人| 国产亚洲欧美精品永久| 午夜激情av网站| 久久毛片免费看一区二区三区| 日韩人妻精品一区2区三区| 久久久精品94久久精品| 999久久久精品免费观看国产| 午夜福利视频在线观看免费| 亚洲国产日韩一区二区| 欧美亚洲 丝袜 人妻 在线| 精品第一国产精品| 婷婷成人精品国产| 国产在线免费精品| 国产精品秋霞免费鲁丝片| 脱女人内裤的视频| 久久久精品区二区三区| 国产欧美日韩一区二区三 | 一区在线观看完整版| 国产精品一区二区免费欧美 | 大型av网站在线播放| 午夜激情久久久久久久| 国产老妇伦熟女老妇高清| 久久久精品免费免费高清| 黄频高清免费视频| 狂野欧美激情性xxxx| 国产亚洲精品一区二区www | 欧美日韩福利视频一区二区| 亚洲欧美日韩高清在线视频 | 精品国产超薄肉色丝袜足j| 人人妻人人爽人人添夜夜欢视频| av超薄肉色丝袜交足视频| 午夜激情久久久久久久| 两性午夜刺激爽爽歪歪视频在线观看 | 国产精品香港三级国产av潘金莲| 高清黄色对白视频在线免费看| 日本wwww免费看| 久久 成人 亚洲| 亚洲少妇的诱惑av| 亚洲精品中文字幕一二三四区 | 色婷婷av一区二区三区视频| 亚洲自偷自拍图片 自拍| 日韩电影二区| 一区二区三区精品91| 国产成人免费无遮挡视频| 亚洲三区欧美一区| 91精品三级在线观看| 亚洲人成电影免费在线| 色播在线永久视频| 波多野结衣av一区二区av| 亚洲av欧美aⅴ国产| 国产人伦9x9x在线观看| 国产精品国产三级国产专区5o| 国产精品久久久人人做人人爽| 大香蕉久久成人网| 丁香六月欧美| 成人国产一区最新在线观看| 亚洲av电影在线进入| 桃花免费在线播放| 黑人巨大精品欧美一区二区mp4| 亚洲,欧美精品.| 中文字幕人妻熟女乱码| 中文字幕高清在线视频| 国产精品麻豆人妻色哟哟久久| 亚洲国产欧美一区二区综合| 日本av手机在线免费观看| 999久久久国产精品视频| 日韩欧美免费精品| 免费久久久久久久精品成人欧美视频| 狂野欧美激情性bbbbbb| 一本一本久久a久久精品综合妖精| 久久精品亚洲av国产电影网| 亚洲 欧美一区二区三区| 97在线人人人人妻| 老鸭窝网址在线观看| 久久久久久久精品精品| 日韩欧美国产一区二区入口| 久久中文字幕一级| 亚洲国产欧美在线一区| 9热在线视频观看99| 久热这里只有精品99| 18在线观看网站| 色视频在线一区二区三区| 12—13女人毛片做爰片一| 啦啦啦 在线观看视频| 国产国语露脸激情在线看| 亚洲av片天天在线观看| 精品亚洲成a人片在线观看| 成年美女黄网站色视频大全免费| 一级片'在线观看视频| 狂野欧美激情性bbbbbb| 亚洲国产精品999| 国产av又大| 91精品伊人久久大香线蕉| 亚洲成人免费av在线播放| 狠狠狠狠99中文字幕| 久久久国产一区二区| 一级a爱视频在线免费观看| 18禁观看日本| 在线天堂中文资源库| 日本撒尿小便嘘嘘汇集6| 热99国产精品久久久久久7| 久热这里只有精品99| 亚洲美女黄色视频免费看| 精品国内亚洲2022精品成人 | 考比视频在线观看| 中文字幕人妻熟女乱码| 亚洲va日本ⅴa欧美va伊人久久 | 在线观看免费高清a一片| 国产精品麻豆人妻色哟哟久久| 99热网站在线观看| 中文字幕最新亚洲高清| 黑人巨大精品欧美一区二区蜜桃| 亚洲精品中文字幕一二三四区 | 中文字幕色久视频| 蜜桃国产av成人99| 亚洲一码二码三码区别大吗| 一级毛片精品| avwww免费| 热99re8久久精品国产| 亚洲精品一卡2卡三卡4卡5卡 | 成年人黄色毛片网站| 亚洲av成人一区二区三| 另类亚洲欧美激情| 亚洲国产av新网站| 午夜两性在线视频| 黑丝袜美女国产一区| 午夜久久久在线观看| 欧美日韩亚洲高清精品| 亚洲七黄色美女视频| 久久久久久久精品精品| 男女无遮挡免费网站观看| 99精品久久久久人妻精品| 五月天丁香电影| 一本一本久久a久久精品综合妖精| 精品一区二区三区四区五区乱码| 欧美精品啪啪一区二区三区 | 国产亚洲精品久久久久5区| 国产人伦9x9x在线观看| 91字幕亚洲| 亚洲激情五月婷婷啪啪| 女人爽到高潮嗷嗷叫在线视频| 男女无遮挡免费网站观看| 国产av又大| 一边摸一边抽搐一进一出视频| 亚洲精品美女久久av网站| 日本猛色少妇xxxxx猛交久久| 嫩草影视91久久| 视频在线观看一区二区三区| 大片免费播放器 马上看| 亚洲男人天堂网一区| 国产亚洲欧美精品永久| 亚洲精品一区蜜桃| 十八禁人妻一区二区| 黑人操中国人逼视频| 久久久水蜜桃国产精品网| 亚洲精品久久午夜乱码| 欧美精品高潮呻吟av久久| 久9热在线精品视频| 国产精品免费视频内射| 91成年电影在线观看| 亚洲av电影在线观看一区二区三区| 亚洲欧美色中文字幕在线| 国产欧美日韩综合在线一区二区| 欧美日韩精品网址| 19禁男女啪啪无遮挡网站| 国产精品欧美亚洲77777| 人人妻,人人澡人人爽秒播| 午夜福利在线观看吧| 中文字幕精品免费在线观看视频| 在线天堂中文资源库| www.熟女人妻精品国产| 91成人精品电影| 99精品久久久久人妻精品| 一级黄色大片毛片| 久久人妻熟女aⅴ| 热re99久久国产66热| 久久毛片免费看一区二区三区| 可以免费在线观看a视频的电影网站| 国产一级毛片在线| 亚洲精品自拍成人| 亚洲一区中文字幕在线| 久久精品人人爽人人爽视色| 久久热在线av| 他把我摸到了高潮在线观看 | 成人手机av| 欧美性长视频在线观看| 视频区欧美日本亚洲| 精品一区二区三区av网在线观看 | 亚洲自偷自拍图片 自拍| 啦啦啦 在线观看视频| √禁漫天堂资源中文www| 新久久久久国产一级毛片| 欧美日韩视频精品一区| 精品福利观看| 国内毛片毛片毛片毛片毛片| 久久人人爽av亚洲精品天堂| 精品国产一区二区三区四区第35| 热99re8久久精品国产| 亚洲成人免费电影在线观看| 中文字幕人妻丝袜制服| 亚洲精品av麻豆狂野| 国产不卡av网站在线观看| 91麻豆av在线| 国产在线一区二区三区精| 久久性视频一级片| 国产精品国产三级国产专区5o| 国产精品久久久久久人妻精品电影 | 久久99一区二区三区| 国产亚洲精品一区二区www | 高潮久久久久久久久久久不卡| 考比视频在线观看| 老司机福利观看| 丝袜喷水一区| 可以免费在线观看a视频的电影网站| 免费黄频网站在线观看国产| 三级毛片av免费| 不卡一级毛片| a在线观看视频网站| 老司机影院成人| 免费女性裸体啪啪无遮挡网站| 丝袜美足系列| 国产免费现黄频在线看| 亚洲av电影在线观看一区二区三区| 考比视频在线观看| 2018国产大陆天天弄谢| 日本欧美视频一区| 爱豆传媒免费全集在线观看| 精品人妻1区二区| 国产精品秋霞免费鲁丝片| 久久久久久久国产电影| 午夜精品久久久久久毛片777| 少妇 在线观看| 啪啪无遮挡十八禁网站| 国产成+人综合+亚洲专区| 女性生殖器流出的白浆| 国精品久久久久久国模美| 一二三四社区在线视频社区8| 黑人欧美特级aaaaaa片| 亚洲第一青青草原| 中文字幕最新亚洲高清| 午夜福利一区二区在线看| 欧美中文综合在线视频| 国产又爽黄色视频| 欧美一级毛片孕妇| 国产xxxxx性猛交| 777米奇影视久久| 国产日韩欧美在线精品| 亚洲国产欧美在线一区| tube8黄色片| 桃花免费在线播放| www.自偷自拍.com| 久9热在线精品视频| 老司机靠b影院| 日韩有码中文字幕| 纯流量卡能插随身wifi吗| 美女主播在线视频| 悠悠久久av| 欧美日韩福利视频一区二区| 999久久久精品免费观看国产| 在线观看免费日韩欧美大片| 日韩一区二区三区影片| 亚洲精品日韩在线中文字幕| 久久国产精品影院| 又大又爽又粗| 亚洲熟女毛片儿| 久久精品亚洲av国产电影网| 亚洲三区欧美一区| 国产精品成人在线| 婷婷成人精品国产| 亚洲一卡2卡3卡4卡5卡精品中文| 丝袜在线中文字幕| 午夜老司机福利片| 国产亚洲精品第一综合不卡| 日韩大片免费观看网站| 欧美av亚洲av综合av国产av| 大码成人一级视频| 午夜免费观看性视频| 久久久久精品国产欧美久久久 | www.av在线官网国产|