• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于關聯規(guī)則的網絡信息數據挖掘方法

    2021-05-25 10:04:18王潤芳丁曉敏
    科學技術創(chuàng)新 2021年11期
    關鍵詞:標號事務數據挖掘

    王潤芳 丁曉敏

    (長春工業(yè)大學人文信息學院 信息工程系,吉林 長春130122)

    數據挖掘是一種利用分類、聚類、關聯分析等多種方式對數據進行分析和處理的重要手段,當前信息技術和存儲技術的發(fā)展,使得各行業(yè)擁有的數據信息量不斷增加,而數據挖掘的應用需求逐漸凸顯[1]。當前傳統(tǒng)數據庫已經無法實現對隱藏在海量數據當中的相關內容進行挖掘,因此造成了數據海量卻缺乏信息的現象產生[2]?;诖?,為了提升數據挖掘的實際應用效果,本文開展基于關聯規(guī)則的網絡信息數據挖掘方法研究。

    1 網絡信息數據挖掘方法設計

    1.1 基于關聯規(guī)則的數據挖掘規(guī)則設計

    在對網絡環(huán)境當中的信息數據進行挖掘時,設置數據挖掘規(guī)則的主要目的是找出在海量數據集當中的頻繁事務,即頻繁項集。關聯規(guī)則是一種以增長趨勢為主要形式的挖掘算法。本文結合關聯規(guī)則,對網絡信息數據挖掘規(guī)則進行設計[3]。在進行網絡信息數據挖掘時,需要經歷兩次網絡數據庫。第一次,在開始挖掘階段,對候選集進行挖掘。在這一階段中,生成的單項頻繁項集即為挖掘出的結果。第二次,在挖掘候選集的過程中對原本復雜程度較高的挖掘數據進行優(yōu)化,以此緩解挖掘執(zhí)行過程中的壓力。具體挖掘規(guī)則為:

    首先,將選取的待挖掘樣本進行分塊處理,并將處理后的結果輸入到集群的各個節(jié)點當中,通過關聯規(guī)則對每一項數據節(jié)點的支持度進行計算。再完成對map 程序的執(zhí)行,從網絡文件當中獲取到本地相關數據集,并在mapper 當中輸入一個已知的數據記錄,利用combiner 完成對本地數據集記錄內容的簡易合并,并將其帶有相同護具的鍵值統(tǒng)一分配到一個reducer 當中。再將提取到的所有數據值進行累積,并將其統(tǒng)一整合為一個整體,并通過上述計算得出的支持度從小到大的順序組合成一個順序圖。

    其次,在mapper 當中輸入另外一個數值記錄信息,并將其與上一步中的數值記錄信息進行對比,將其中存在的相同數據信息統(tǒng)一發(fā)送到相同的節(jié)點當中,并對其進行頻繁地挖掘,最終得到相應的挖掘結果。

    最后,將不同數據值的數據信息統(tǒng)一到不同的數據節(jié)點當中,保證在同一時間當中,對應的頻繁項集不會都存在于一個數據節(jié)點上,以此確保挖掘后的數據信息具有一定的規(guī)律順序。再結合關聯規(guī)則當中的默認對關鍵數值排序功能,將關鍵數值替換為構造算法當中的某一項,將所有的結果進行匯總,得到的數據才為通過數據挖掘得到的最終結果。

    1.2 篩選網絡信息數據挖掘候選集

    完成對基于關聯規(guī)則的數據挖掘規(guī)則設計后,在網絡環(huán)境當中對信息進行數據挖掘時,由于信息量較為龐大,因此挖掘的候選集較多,會增加挖掘的壓力,造成挖掘結果無法達到預期的問題產生。因此,為了有效提高本文基于關聯規(guī)則的網絡信息數據挖掘方法的挖掘效率,需要對其候選集進行篩選。根據網絡信息數據挖掘候選集的性質,假設T 為數據集P 當中的頻繁x 項候選集,則T 的所有x-1 項的子集也可以稱之為使其頻繁x-1 的項目集。因此,進一步分析得出,Tx為數據集P 當中的頻繁x 項候選集,則頻繁x-1 候選集集合Lx-1中包括的x-1項目子集的個數一定為x。若某一要素在挖掘的過程中將成為某一個x 維頻繁項目集當中的元素,則該要素在頻繁x-1 項目集合當中出現的次數一定不會小于x-1。根據上述分析,對網絡信息數據挖掘候選集進行篩選,根據候選集的性質,本文提出進一步篩選候選集的個數算法為:利用Lx-1產生的Cx 之前先對Lx-1進行一次裁剪。統(tǒng)計Lx-1當中所有的項目弧線的實際次數,將Lx-1當中包含的出現次數小于x-1 的項目的項目集刪除,以此得到L’x-1。為了實現對二者的區(qū)分,將上述過程稱之為裁剪A,即候選集篩選前的裁剪。再利用關聯規(guī)則本身提供的裁剪方式將其稱之為裁剪B,即候選集篩選后的裁剪。因此,針對某一需要進行挖掘的候選集,其篩選的結果可通過如下算法產生:首先,對候選集進行裁剪A;用Lx-1對其中某一要去的執(zhí)行連接求得候選集當中潛在的頻繁項目集;對該項目集執(zhí)行裁剪B,得到的最終結果即為篩選完成后的網絡信息數據挖掘候選集。

    1.3 候選集信息數據挖掘

    在完成對網絡信息數據挖掘候選集的篩選后,對候選集當中的信息進行數據挖掘,由于候選集當中仍然含有海量的數據信息,因此本文在挖掘的過程中,將編程思想作為基礎,結合本文上述提出的數據挖掘規(guī)則,將網絡環(huán)境當中候選集的海量數據進行重構,并對其文本進行統(tǒng)一分類。計算網絡環(huán)境中候選集的每一類別下的特征出現概率。在實際挖掘過程中,若頻繁出現某一特征下的數據時,則會造成挖掘的應用價值降低,導致挖掘的數據集中占重要數據集的百分比下降。因此,為了能夠有效避免這一問題的產生,本文在實際執(zhí)行關聯規(guī)則對網絡信息候選集進行數據挖掘時,引入另一種Apriori 算法,對該網絡環(huán)境當中的每一個候選集的權重集合理分配,其分配方式可用如下表達式表示:

    公式(1)中,M表示網絡環(huán)境當中的每一個候選集的權重分配值;Q 表示該候選集在網絡環(huán)境當中的出現次數;d 表示Apriori 算法系數。根據上述公式(1)完成對候選集的權重分配,并在此基礎上,對網絡環(huán)境當中的所有候選集進行分類,以此確保最終挖掘結果的準確性,進一步提高關聯規(guī)則的應用意義。通過上述權重分配結果,得到的數值可看作是對候選集的評價結果,通過對評價輸出的數據最終值與全局簇中心點數值是否存在一致性進行判斷,完成對網絡信息數據的挖掘。若結果顯示二者之間存在一致性,則認為該數值具有一定的應用價值,若計算結果顯示二者之間不存在一致性,則可利用執(zhí)行智能過濾行為對其進行過濾,并將過濾的數據看作是冗余數據,直到完成對網絡環(huán)境當中所有的離群點均挖掘完畢后,完成對其一致性判斷。

    2 對比實驗

    為進一步驗證本文提出的基于關聯規(guī)則的網絡信息數據挖掘方法在實際應用中的性能,建立如下對比實驗:

    采用經典數據集作為實驗樣本,挖掘該數據集當中的所有關聯規(guī)則,對數據集分別進行從1~9 的標號,不同標號對應不同的事務,其中標號1 為事務A、B、E;標號2 為事務B 和D;標號3 為事務B 和C;標號4 為事務A、B、D;標號5 為事務A 和C;標號6 為事務B 和C;標號7 為事務A 和C;標號8 為事務A、B、C、E;標號9 為事務A、B、C。當前數據集當中項與項之間存在正相關時,則認為其提升度超過1;當項與項之間存在負相關時,則認為其提升度小于1。將實驗環(huán)境的支持度水平設置為0.3,置信度水平設置為0.8,利用Python3.1 的開發(fā)工具,通過編程的方式完成對兩種挖掘方法的應用實現。對比兩種挖掘方法完成挖掘后,得出的數據集中占重要數據集的百分比,并將實驗結果記錄如表1 所示。

    表1 兩種挖掘方法實驗結果對比表

    表1 中P 值表示為本文方法或傳統(tǒng)方法完成挖掘后,得到的數據集中占重要數據集的百分比,P 值越大則表示該方法挖掘有效性更強;反之,P 值越小則表示該方法挖掘有效性越弱。由表1 可以看出,本文方法的P 值均在90.0%以上,而傳統(tǒng)方法P 值僅在30.0%~70.0%范圍以內,明顯本文方法P 值更高。從標號1、標號4、標號8 和標號9 可以看出,傳統(tǒng)方法在對事務較多的數據集進行挖掘時,其有效性更差,而本文方法在對數據集挖掘的過程中不會受到數據集內部事務數量的影響。因此,通過對比實驗進一步證明,本文提出的基于關聯規(guī)則的網絡信息數據挖掘方法在實際應用中的挖掘有效性更強,能夠完成對更高利用價值的信息數據挖掘,提高數據的有效利用率。

    3 結論

    數據挖掘是當前一種多學科相互交織的新興技術,在各個行業(yè)領域當中的應用優(yōu)勢逐漸凸顯,本文通過開展基于關聯規(guī)則的網絡信息數據挖掘方法設計研究,提出一種全新的挖掘方法,并通過實驗證明了該方法的實際應用效果。當前該挖掘方法只針對網絡環(huán)境,引入如何實現將該挖掘方法與其它相關領域的應用更加緊密地結合,是未來研究的重點,以此進一步擴大本文挖掘方法的適用范圍。

    猜你喜歡
    標號事務數據挖掘
    “事物”與“事務”
    基于分布式事務的門架數據處理系統(tǒng)設計與實現
    探討人工智能與數據挖掘發(fā)展趨勢
    河湖事務
    基于并行計算的大數據挖掘在電網中的應用
    電力與能源(2017年6期)2017-05-14 06:19:37
    非連通圖2D3,4∪G的優(yōu)美標號
    一種基于Hadoop的大數據挖掘云服務及應用
    非連通圖D3,4∪G的優(yōu)美標號
    非連通圖(P1∨Pm)∪C4n∪P2的優(yōu)美性
    基于GPGPU的離散數據挖掘研究
    宁南县| 沙河市| 唐山市| 施秉县| 江达县| 中超| 乌拉特前旗| 淮北市| 十堰市| 正镶白旗| 锦州市| 萍乡市| 台前县| 宝山区| 思南县| 外汇| 邓州市| 鹤山市| 介休市| 尉氏县| 东乌珠穆沁旗| 海门市| 项城市| 维西| 逊克县| 彭山县| 龙游县| 铜梁县| 武邑县| 盘锦市| 防城港市| 崇阳县| 都安| 龙门县| 望谟县| 林州市| 台北县| 青阳县| 应城市| 长白| 凤阳县|