• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      數(shù)據(jù)挖掘中關(guān)聯(lián)規(guī)則算法的研究與應(yīng)用

      2016-12-31 11:08:52孫慧強(qiáng)沈陽市信息工程學(xué)校
      數(shù)碼世界 2016年8期
      關(guān)鍵詞:置信度沈陽市數(shù)據(jù)挖掘

      孫慧強(qiáng)沈陽市信息工程學(xué)校

      數(shù)據(jù)挖掘中關(guān)聯(lián)規(guī)則算法的研究與應(yīng)用

      孫慧強(qiáng)
      沈陽市信息工程學(xué)校

      隨著“互聯(lián)網(wǎng)+”技術(shù)的不斷發(fā)展,人們在大數(shù)據(jù)時代所產(chǎn)生的數(shù)據(jù)量也呈現(xiàn)出急速發(fā)展的趨勢,面對如此復(fù)雜的、海量的數(shù)據(jù),如何進(jìn)行有用信息和數(shù)據(jù)的提取成為重要的問題,數(shù)據(jù)挖掘便成為關(guān)鍵,而關(guān)聯(lián)規(guī)則則是數(shù)據(jù)挖掘中的重要組成部分,主要用于對數(shù)據(jù)集中項等之間聯(lián)系的發(fā)現(xiàn),對于從大數(shù)據(jù)中通過關(guān)聯(lián)規(guī)則來進(jìn)行挖掘已是最成熟且最活躍的研究方向之一。

      數(shù)據(jù)挖掘 關(guān)聯(lián)規(guī)則 算法研究

      1 關(guān)于數(shù)據(jù)挖掘

      1.1數(shù)據(jù)挖掘的涵義

      數(shù)據(jù)挖掘是一門交叉學(xué)科,涵蓋了數(shù)據(jù)庫技術(shù)、統(tǒng)計學(xué)、可視化與信息科學(xué),同時,又是一種決策支持過程,從不同角度看具有不同含義,數(shù)據(jù)庫的觀點認(rèn)為數(shù)據(jù)挖掘就是從存儲在數(shù)據(jù)庫、數(shù)據(jù)倉庫或其它信息倉庫中的大量數(shù)據(jù)中發(fā)現(xiàn)有趣的知識的過程;統(tǒng)計學(xué)的觀點則認(rèn)為數(shù)據(jù)挖掘就是分析所觀察的數(shù)據(jù)集以發(fā)現(xiàn)可信的數(shù)據(jù)間的未知關(guān)系并提供給數(shù)據(jù)擁有者可理解的、新穎的和有用的歸納數(shù)據(jù)。

      1.2數(shù)據(jù)挖掘的過程

      (1)確定挖掘?qū)ο?,主要是要清晰定義挖掘?qū)ο螅J(rèn)清挖掘目的,(2)數(shù)據(jù)準(zhǔn)備,這對于數(shù)據(jù)挖掘是至關(guān)重要的,如果單純的進(jìn)行數(shù)據(jù)挖掘會毫無意義,主要包括數(shù)據(jù)的選擇、預(yù)處理與轉(zhuǎn)換,(3)數(shù)據(jù)知識與信息,要確定挖掘的任務(wù)類型,且要選擇合適的挖掘技術(shù),根據(jù)算法進(jìn)行挖掘,(4)模式的解釋與評價,要過濾出有用知識,將無關(guān)的、多余的模式進(jìn)行過濾。

      1.3數(shù)據(jù)挖掘的任務(wù)

      數(shù)據(jù)挖掘就是要通過其解決實際問題需求,發(fā)現(xiàn)之間的相互關(guān)聯(lián),一般來說,數(shù)據(jù)挖掘的任務(wù)主要是:(1)數(shù)據(jù)總結(jié),對數(shù)據(jù)進(jìn)行濃縮給出緊湊描述,(2)分類,主要目的就是建立分類函數(shù)或模型,將數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)行映射,(3)聚類,就是將個體相似的進(jìn)行分類,與同類縮小距離,不同類增大距離,(4)關(guān)聯(lián)規(guī)則,決定哪些事情是可以一起發(fā)生的。

      2 關(guān)聯(lián)規(guī)則挖掘

      2.1關(guān)聯(lián)規(guī)則的描述

      在數(shù)據(jù)挖掘的模式中,關(guān)聯(lián)規(guī)則是最為活躍的分支,關(guān)聯(lián)規(guī)則要處理在數(shù)據(jù)集中的不同屬性之間的必然存在的某種隱藏的規(guī)律,這種規(guī)律既可能是群體法則,又可能是自然法則,而將這種隱藏規(guī)律通過數(shù)學(xué)的方式進(jìn)行挖掘,就是稱為規(guī)則。

      2.2關(guān)聯(lián)規(guī)則的分類

      一般研究的關(guān)聯(lián)規(guī)則是不帶約束的關(guān)聯(lián)規(guī)則,主要可以分為四類:即基于規(guī)則中處理的變涼的類別,關(guān)聯(lián)規(guī)則可以分為布爾型與數(shù)值型;基于規(guī)則中數(shù)據(jù)的抽象層次,可以分為單層關(guān)聯(lián)規(guī)則和多層關(guān)聯(lián)規(guī)則;基于規(guī)則中涉及到的數(shù)據(jù)的維數(shù),關(guān)聯(lián)規(guī)則可以分為單維的和多維的;基于關(guān)聯(lián)規(guī)則帶約束條件與否,可以分為不帶約束的關(guān)聯(lián)規(guī)則和約束性關(guān)聯(lián)規(guī)則。

      3 關(guān)聯(lián)規(guī)則算法的研究與創(chuàng)新

      3.1Apriori算法研究

      對于數(shù)據(jù)挖掘關(guān)聯(lián)規(guī)則本質(zhì)就是要在頻繁集中去發(fā)現(xiàn)符合最小置信度的規(guī)則,要找出所有的頻繁集和所有的強(qiáng)關(guān)聯(lián)規(guī)則。對于Apriori算法的缺點就是需要對數(shù)據(jù)進(jìn)行多次掃描,使讀寫操作的時間增多,數(shù)據(jù)挖掘算法的時間成本就上升,而且會產(chǎn)生大量的候選頻率集,算法在廣度與深度上適應(yīng)性差。

      3.2FT-tree 算法

      這種算法就是對數(shù)據(jù)集進(jìn)行數(shù)據(jù)挖掘的時候首先對一顆頻繁模式樹進(jìn)行創(chuàng)建,將事物數(shù)據(jù)庫的數(shù)據(jù)與數(shù)據(jù)之間的關(guān)系進(jìn)行映射到頻繁模式樹,進(jìn)行遍歷最終獨處關(guān)聯(lián)規(guī)則,F(xiàn)T-tree 算法的優(yōu)點是可以將這些事務(wù)數(shù)據(jù)庫中的數(shù)據(jù)一一對應(yīng)共同構(gòu)造頻繁模式數(shù),對頻繁模式樹進(jìn)行遍歷可以對于數(shù)據(jù)庫多次的讀寫操作節(jié)省大量的時間,從而提高了效率。

      3.3開源數(shù)據(jù)挖掘工具weka對算法驗證

      Weka作為一種開源的數(shù)據(jù)挖掘軟件工具,可以將多種主流的數(shù)據(jù)挖掘算法進(jìn)行整合,具有強(qiáng)大的功能,可以對數(shù)據(jù)進(jìn)行預(yù)處理、分類與聚類、關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘,且可以在新的交互式界面進(jìn)行可視化等。通過對Apriori算法和FP-tree算法進(jìn)行驗證,可以看出兩種算法對大數(shù)據(jù)量進(jìn)行關(guān)聯(lián)規(guī)則挖掘會有明顯不同,也驗證了Apriori算法對大量候選項集對此I/O操作花費的長時間,F(xiàn)P-tree算法進(jìn)行關(guān)聯(lián)規(guī)則挖掘的時間基本穩(wěn)定。

      3.4對關(guān)聯(lián)規(guī)則挖掘結(jié)果的創(chuàng)新思考

      通過對兩種主流算法的實驗和研究,看出兩種算法事實上只能對布爾型離散數(shù)據(jù)進(jìn)行關(guān)聯(lián)規(guī)則挖掘,挖掘的結(jié)果可能是一維也可能是多維,可以通過對一維關(guān)聯(lián)規(guī)則進(jìn)行創(chuàng)新,便可獲得更有意義的關(guān)聯(lián)規(guī)則結(jié)果,可以通過互相置信度,就是說當(dāng)在規(guī)則A B中,A、B都是兩個事務(wù)集合,則該條規(guī)則的互相置信度可以用confidence (A B) =confidence(A=>B)*confidence ( B=>A)表示,通過在Apriori算法增加對互相置信度的約束,就可以挖掘出如“A B”的規(guī)則,這樣就可以使結(jié)果更有意義。

      4 總結(jié)

      總之,人類社會已經(jīng)隨著信息技術(shù)的發(fā)展進(jìn)入到了大數(shù)據(jù)的時代,數(shù)據(jù)挖掘可以幫助我們在海量的數(shù)據(jù)之中將與我們息息相關(guān)的信息進(jìn)行分析,而在對關(guān)聯(lián)規(guī)則的數(shù)據(jù)挖掘理論的工作中,更是要對不同的算法進(jìn)行優(yōu)缺點的驗證,并要結(jié)合數(shù)據(jù)挖掘的流程與并聯(lián)規(guī)則的相關(guān)理論,來獲得更加有意義的結(jié)果,使其在實際的運用中可以發(fā)揮出更大的作用。

      孫慧強(qiáng)(1965-)、男,漢族,遼寧省沈陽市人,學(xué)歷:本科;高級講師;研究方向:計算機(jī)教學(xué),工作單位:沈陽市信息工程學(xué)校。

      猜你喜歡
      置信度沈陽市數(shù)據(jù)挖掘
      沈陽市盛京小學(xué)
      遼寧教育(2023年5期)2023-03-28 12:07:24
      沈陽市渾南區(qū)第八小學(xué)
      遼寧教育(2022年24期)2022-12-28 05:36:48
      沈陽市渾南區(qū)創(chuàng)新第一小學(xué)
      硼鋁復(fù)合材料硼含量置信度臨界安全分析研究
      探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
      沈陽市新立堡橋設(shè)計
      正負(fù)關(guān)聯(lián)規(guī)則兩級置信度閾值設(shè)置方法
      基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
      電力與能源(2017年6期)2017-05-14 06:19:37
      一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
      置信度條件下軸承壽命的可靠度分析
      軸承(2015年2期)2015-07-25 03:51:04
      林西县| 共和县| 阿拉善右旗| 札达县| 娄底市| 卢氏县| 惠东县| 泸州市| 萨迦县| 墨竹工卡县| 沁水县| 全州县| 郯城县| 龙口市| 庄河市| 汉沽区| 庆城县| 达孜县| 西昌市| 清远市| 如皋市| 灯塔市| 曲松县| 长沙市| 宁安市| 化隆| 张掖市| 三门峡市| 肇源县| 宣威市| 滁州市| 聂拉木县| 梨树县| 芦山县| 多伦县| 池州市| 夏河县| 甘肃省| 滁州市| 邳州市| 轮台县|