• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于多尺度數(shù)據(jù)挖掘的數(shù)據(jù)尺度劃分方法

      2020-02-04 06:33:10張煜睿
      電子技術(shù)與軟件工程 2020年21期
      關(guān)鍵詞:精確度數(shù)據(jù)挖掘尺度

      張煜睿

      (呂梁學(xué)院計算機(jī)科學(xué)與技術(shù)系 山西省呂梁市 033099)

      大數(shù)據(jù)時代中每天都會產(chǎn)生海量的數(shù)據(jù),如何有效地提取這些數(shù)據(jù)中的有效成分,并根據(jù)這些信息得到正確的決策,成為了計算機(jī)行業(yè)研究的重點內(nèi)容。數(shù)據(jù)尺度劃分是一種監(jiān)督式的學(xué)習(xí)方法,通過分析已經(jīng)確定類別的訓(xùn)練數(shù)據(jù)集的分布特征,構(gòu)建其潛在分類模型,最后對新數(shù)據(jù)進(jìn)行劃分。在對計算機(jī)網(wǎng)絡(luò)大數(shù)據(jù)的研究中,數(shù)據(jù)尺度劃分占據(jù)著重要的地位,是一切大數(shù)據(jù)分析和決策的基礎(chǔ)[1]。當(dāng)前對于數(shù)據(jù)尺度層級劃分的研究中,已經(jīng)有了很多成功的經(jīng)驗,例如基于多尺度關(guān)聯(lián)規(guī)則的數(shù)據(jù)尺度劃分方法、基于多尺度聚類的數(shù)據(jù)尺度劃分方法等,但是這些數(shù)據(jù)劃分方法在精確度和算法冗余度上都存在一定的缺陷。因此本文提出了基于多尺度數(shù)據(jù)挖掘方法,以求彌補(bǔ)傳統(tǒng)方法的不足之處。

      1 多尺度數(shù)據(jù)挖掘方法研究

      尺度在計算機(jī)領(lǐng)域通常被作為一種擁有具體含義的比例尺,而多尺度則是一個具備一定順序的多個尺度的集合Hi[2]。因此可以對其進(jìn)行定義:若H1與H2是相鄰尺度,且滿足則可以稱H1是H2的父尺度;若H1與H2是相鄰尺度,且滿足則可以稱H1是H2的子尺度;若H1與H2是是不相鄰尺度,且滿足則可以稱H1是H2的子孫尺度;若H1與H2是不相鄰尺度,且滿足則可以稱H1是H2的祖先尺度。例如,若構(gòu)建一個某市全體中小學(xué)生數(shù)量的數(shù)據(jù)集,且在這一數(shù)據(jù)集中擁有五個尺度,則可以稱班級是學(xué)校的子孫尺度,班級是年級的子尺度。

      而多尺度數(shù)據(jù)挖掘是一種能夠?qū)⒕邆涠喑叨葘傩缘男畔?shù)據(jù)作為研究對象,并對其進(jìn)行一定的處理的數(shù)據(jù)操作方法[3]。在使用多尺度數(shù)據(jù)挖掘方法處理數(shù)據(jù)時,首先需要預(yù)處理,使計算機(jī)中的數(shù)據(jù)形成一個具備多尺度特征的數(shù)據(jù)集。在多尺度數(shù)據(jù)挖掘的引導(dǎo)下將這些數(shù)據(jù)集中的隱含信息推導(dǎo)出來,形成一個特征點,并將這些尺度擴(kuò)散到其他信息尺度中。

      2 數(shù)據(jù)尺度劃分方法設(shè)計

      2.1 構(gòu)建多尺度數(shù)據(jù)集

      在構(gòu)建多尺度數(shù)據(jù)集之前,首先需要根據(jù)上文所述的多尺度定義研究將數(shù)據(jù)集多尺度化的方法,然后才能夠根據(jù)所得到的尺度熵構(gòu)建多尺度數(shù)據(jù)集。

      數(shù)據(jù)集多尺度化的時間復(fù)雜度呈現(xiàn)循環(huán)嵌套的結(jié)構(gòu),數(shù)據(jù)集多尺度的劃分呈現(xiàn)了各數(shù)據(jù)屬性的尺度特征,并為后續(xù)的研究提供了一個測量方法,在之后的研究中,很有可能導(dǎo)致數(shù)據(jù)復(fù)雜程度的變化,進(jìn)而影響數(shù)據(jù)熵的變化[4]。從另一個角度,數(shù)據(jù)熵也可以作為一種檢測數(shù)據(jù)多尺度的評價方法,通過對于數(shù)據(jù)尺度特征的尋優(yōu),構(gòu)建多尺度數(shù)據(jù)集。在構(gòu)架多尺度數(shù)據(jù)集時,不僅需要考慮尺度特征的復(fù)雜性,也需要確定數(shù)據(jù)尺度劃分后的數(shù)據(jù)熵的大小,因此可以對數(shù)據(jù)熵進(jìn)行定義,其公式如下所示:

      圖1:數(shù)據(jù)尺度劃分方法算法流程

      式中,m 表示信息熵的尺度層次;pij表示第id 個層級中數(shù)據(jù)j出現(xiàn)的概率;Nm表示數(shù)據(jù)劃分的第m 層中所具備的劃分塊數(shù)[5]。因此可以得知,在構(gòu)建多尺度的數(shù)據(jù)集時,選擇數(shù)據(jù)熵的尺度越高,其數(shù)據(jù)集建立的覆蓋度就會越大。

      2.2 標(biāo)簽數(shù)據(jù)的基準(zhǔn)尺度選擇方法設(shè)計

      本文基于多尺度數(shù)據(jù)挖掘的數(shù)據(jù)尺度劃分方法以標(biāo)簽數(shù)據(jù)的基準(zhǔn)尺度的最優(yōu)選擇方法為實現(xiàn)數(shù)據(jù)尺度劃分的依據(jù),通過上文中對于數(shù)據(jù)集的構(gòu)建過程,可以得到設(shè)計標(biāo)簽數(shù)據(jù)的基準(zhǔn)尺度選擇方法。

      表1:實驗結(jié)果

      2.3 數(shù)據(jù)尺度劃分方法研究

      首先需要依據(jù)上文中的標(biāo)簽數(shù)據(jù)的基準(zhǔn)尺度選擇方法確定數(shù)據(jù)尺度的模型及其對于尺度特征屬性的劃分。通過迭代的方式,將數(shù)據(jù)集中的范圍尺度、粒度尺度進(jìn)行劃分,例如可以將中小學(xué)的“年級”劃分為“一年級”、“二年級”、“三年級”、……、“九年級”等。因此可以得到其算法流程如圖1所示。

      通過上述算法流程劃分?jǐn)?shù)據(jù)尺度,對輸出的m 層尺度劃分結(jié)果進(jìn)行計算,并通過公式(1)得到其數(shù)據(jù)熵。在該類數(shù)據(jù)尺度劃分的計算中,可以通過迭代法不斷循環(huán)計算,直到尺度層級達(dá)到最大。

      3 實驗設(shè)計

      3.1 實驗準(zhǔn)備工作

      本實驗采用對比實驗的方法,需要首先在計算機(jī)上設(shè)置一個虛擬環(huán)境,其實驗環(huán)境參數(shù)如下:CPU 為Intel Xeon E5-2690 v3 i7-6700 2.6GHz、8GB 運行內(nèi)存、Windows 10 操作系統(tǒng)、MS SQL Server 2012 數(shù)據(jù)庫。

      本實驗中以某市全體中小學(xué)生的數(shù)量作為數(shù)據(jù)集,同時以IBM T10I4D100K 數(shù)據(jù)集作為輔助,驗證上表中各開發(fā)程序及MSARMA算法的準(zhǔn)確性。在某市全體中小學(xué)生數(shù)據(jù)集中,學(xué)生的戶籍所在地以及所在學(xué)校、班級十分完整,其屬性可以形成一個具備多尺度的概念分級。在這個數(shù)據(jù)分級中,將班級內(nèi)的學(xué)生數(shù)作為最初級的尺度,將所有一年級至九年級的學(xué)生都納入到數(shù)據(jù)集中。為了保證實驗結(jié)果的準(zhǔn)確性,該實驗需要反復(fù)進(jìn)行5 次,最后計算5 次實驗結(jié)果的平均值。

      3.2 實驗評價指標(biāo)

      在本實驗中,為了驗證本文提出的基于多尺度數(shù)據(jù)挖掘的數(shù)據(jù)尺度劃分方法的有效性以及對比其他方法的優(yōu)越性,對其與基于多尺度關(guān)聯(lián)規(guī)則的數(shù)據(jù)尺度劃分方法、基于多尺度聚類的數(shù)據(jù)尺度劃分方法進(jìn)行對比實驗。將算法的覆蓋率、精確度以及該算法的執(zhí)行時間作為評判依據(jù)。

      3.3 實驗結(jié)果分析

      將5 次試驗的結(jié)果通過Matlab 軟件進(jìn)行整理和分析,得到如表1所示的實驗結(jié)果。

      由表1 可以看出,基于多尺度數(shù)據(jù)挖掘方法的覆蓋率和精確度與基于多尺度聚類算法的覆蓋率和精確度相差不大,且均大于基于多尺度關(guān)聯(lián)規(guī)則算法。而執(zhí)行時間的數(shù)據(jù)可以表示該算法的程序冗余度,執(zhí)行時間越短,則該算法越簡潔。在上表中,基于多尺度數(shù)據(jù)挖掘方法在5 個實驗中的執(zhí)行總時間為84s,基于多尺度關(guān)聯(lián)規(guī)則算法的執(zhí)行總時間為82s,基于多尺度聚類算法的執(zhí)行總時間為138s,因此可以判斷前兩種算法的算法簡潔性遠(yuǎn)遠(yuǎn)大于第三種算法。根據(jù)以上數(shù)據(jù),本文設(shè)計的基于多尺度數(shù)據(jù)挖掘的數(shù)據(jù)尺度劃分方法既能夠?qū)崿F(xiàn)覆蓋率和精確度的優(yōu)越性,又具備算法的簡潔性,在綜合評價上優(yōu)于傳統(tǒng)的兩種算法。

      4 結(jié)束語

      本文為了能夠更好地進(jìn)行數(shù)據(jù)尺度劃分工作,將多尺度數(shù)據(jù)挖掘引入到了該領(lǐng)域,提出了多尺度數(shù)據(jù)挖掘在數(shù)據(jù)尺度劃分中的理論基礎(chǔ),使用對比實驗證明了本文研究的算法在精確度和簡潔性上的綜合性能超過傳統(tǒng)的數(shù)據(jù)尺度劃分方法。在下一步的研究中我們還需要繼續(xù)將多尺度數(shù)據(jù)挖掘繼續(xù)進(jìn)行尺度上推或下推理論研究,分析在數(shù)據(jù)尺度劃分的過程中多尺度挖掘的變化規(guī)律,并探究進(jìn)一步提高數(shù)據(jù)尺度劃分精確率的方法。

      猜你喜歡
      精確度數(shù)據(jù)挖掘尺度
      探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
      研究核心素養(yǎng)呈現(xiàn)特征提高復(fù)習(xí)教學(xué)精確度
      財產(chǎn)的五大尺度和五重應(yīng)對
      “硬核”定位系統(tǒng)入駐兗礦集團(tuán),精確度以厘米計算
      基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
      電力與能源(2017年6期)2017-05-14 06:19:37
      宇宙的尺度
      太空探索(2016年5期)2016-07-12 15:17:55
      一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
      9
      基于GPGPU的離散數(shù)據(jù)挖掘研究
      近似數(shù)1.8和1.80相同嗎
      舞钢市| 锡林郭勒盟| 客服| 寻甸| 舒兰市| 定南县| 岚皋县| 汤阴县| 四子王旗| 宁阳县| 汉川市| 湖北省| 嵊泗县| 石河子市| 晋州市| 建德市| 辽阳市| 吉木乃县| 永川市| 崇义县| 香港| 万州区| 中西区| 天峻县| 新巴尔虎右旗| 太保市| 浦城县| 孝感市| 德令哈市| 安丘市| 石渠县| 方城县| 永春县| 施秉县| 罗江县| 泉州市| 新丰县| 金门县| 崇礼县| 岳西县| 枣庄市|