• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于Web的數(shù)據(jù)挖掘模型研究

    2021-12-24 04:30:56蒲道北
    中國新通信 2021年19期
    關(guān)鍵詞:數(shù)據(jù)挖掘模型

    蒲道北

    【摘要】? ? 從海量、復雜的Web數(shù)據(jù)中獲取有價值的信息一直以來都是互聯(lián)網(wǎng)研究的熱點,本文在基于Web數(shù)據(jù)挖掘的研究中,優(yōu)化出一種新的面向Web的數(shù)據(jù)挖掘模型,該模型利用Robot程序采集到的Web數(shù)據(jù)與特征信息進行匹配規(guī)范,然后在數(shù)據(jù)層中進行容差處理,調(diào)整差值數(shù)據(jù),最終通過模式分析得到有用信息。實驗結(jié)果表明,利用提出的模型對Web數(shù)據(jù)的挖掘結(jié)果質(zhì)量上有了明顯的改善和提升。

    【關(guān)鍵詞】? ? Web數(shù)據(jù)? ? 數(shù)據(jù)挖掘? ? 模型? ? 數(shù)據(jù)智能

    引言:

    Web有著分布廣泛的、全球性的信息,成為人們獲取信息的主要渠道。然而如何在Web上搜索找到適合它使用者興趣的信息呢?目前,人們主要通過3中主要方式查找:1.使用基于關(guān)鍵字或主路徑瀏覽的搜索引擎,如百度或Google,它們通過使用關(guān)鍵字索引或人工建立路徑來查找文檔;2.查詢深度Web資源。如amazon.com的書籍數(shù)據(jù)和realtor.com的固定資產(chǎn)數(shù)據(jù);3.隨機訪問,通過網(wǎng)頁鏈接一頁一頁瀏覽[1-2]。盡管基于關(guān)鍵字、IP地址和主題的搜索引擎支持Web信息搜索,但還存在著返回結(jié)果太多、查詢質(zhì)量低、查詢覆蓋面小、缺乏多維分析和數(shù)據(jù)挖掘支持等缺點。為了克服以上缺點,業(yè)界提出將數(shù)據(jù)挖掘技術(shù)應用在Web數(shù)據(jù)上,并形成一個新的研究方向,本文就現(xiàn)有的web數(shù)據(jù)挖掘技術(shù)基礎(chǔ)上優(yōu)化出一種新的Web數(shù)據(jù)挖掘的模型,該模型充分利用了XML的優(yōu)點,采用Robot程序采集Web中的有用數(shù)據(jù),并將得到的數(shù)據(jù)與特征信息進行匹配,匹配成功后在數(shù)據(jù)層中進行數(shù)據(jù)容差處理,調(diào)整差值數(shù)據(jù),得到數(shù)據(jù)模式,通過模式分析最終得到有用數(shù)據(jù)。

    一、Web數(shù)據(jù)挖掘技術(shù)

    Web數(shù)據(jù)挖掘是指將數(shù)據(jù)挖掘方法運用到 Web信息挖掘上,針對web頁面的內(nèi)容、頁面之間的關(guān)系和結(jié)構(gòu)、使用者所需要訪問的信息、電子商務(wù)資料等各類Web數(shù)據(jù),應用數(shù)據(jù)挖掘手段和方法去分析并發(fā)現(xiàn)其所蘊含的、不可預測的、具有潛在價值的模型等過程。

    1.1 Web數(shù)據(jù)挖掘的任務(wù)

    為了更好地獲得Web上的信息,通過Web進行商業(yè)決策,在Web上有效應用數(shù)據(jù)挖掘技術(shù),必須完成以下任務(wù)和解決研究中的問題:

    1.分析Web搜索引擎得到的數(shù)據(jù);

    2.分析Web的鏈接結(jié)構(gòu);

    3.Web文檔自動分類;

    4.挖掘Web頁面語義結(jié)構(gòu)和內(nèi)容;

    5.挖掘Web動態(tài)特征;

    6.建立多層和多維Web信息庫。

    1.2常用Web數(shù)據(jù)挖掘技術(shù)

    1.路徑分析技術(shù):主要采用圖進行分析,將網(wǎng)站上的頁面定義成節(jié)點,頁面之間的超鏈接定義成圖中的邊,從圖中確定最頻繁的路徑訪問模式或最大參引訪問序列[1]。

    2.關(guān)聯(lián)規(guī)則挖掘技術(shù):挖掘出用戶在一個訪問期間從服務(wù)器上訪問的頁面/文件之間的聯(lián)系,這些頁面之間可能并不存在直接的參引關(guān)系。

    3.序列模式挖掘技術(shù):要挖掘出頁面上交易集之間的有時間序列的模式[2]。例如,有70%的用戶訪問了頁面A 之后在一定的時間內(nèi)又訪問了頁面B,也就是70%以上的用戶對頁面A和頁面B都敢興趣。

    4.聚類分類技術(shù):按照某個特定標準把一個數(shù)據(jù)集分割成不同的類或簇,使得同一個簇內(nèi)的數(shù)據(jù)對象的相似性,從而以挖掘出某些共同的特性。

    二、Web數(shù)據(jù)智能挖掘模型和實現(xiàn)分析

    為了更好的對Web信息進行挖掘和運用,本文對現(xiàn)有Web數(shù)據(jù)挖掘模型進行了優(yōu)化,優(yōu)化后的模型可以向用戶提供個性化的深層次服務(wù),不僅能提供原始的Web資料,還可以根據(jù)用戶的需求對內(nèi)容和結(jié)構(gòu)進行充分的挖掘,包括數(shù)據(jù)采集層、數(shù)據(jù)層、數(shù)據(jù)分析層等。

    2.1 數(shù)據(jù)采集層

    整個過程主要分六個步驟[4-6]來完成:

    1.用戶接口:根據(jù)用戶提供的目標信息,將信息與系統(tǒng)相連。

    2. 提取特征信息:根據(jù)目標信息中的信息,提取相應的特征向量,并根據(jù)特征向量計算出對應的權(quán)值;

    3.Web信息獲取:即先用搜索引擎選擇待采集Web站點,再利用Robot程序采集靜態(tài)Web頁面文檔,利用XML結(jié)構(gòu)信息作為搜索條件,通過對其標記的匹配率進行文檔過濾。

    4.信息特征匹配:即提取“文檔暫存庫”中的信息特征向量,將符合閥值條件的信息送入下一步。

    5.數(shù)據(jù)規(guī)范:采用XML結(jié)構(gòu)存儲規(guī)范。例如中國電信業(yè)務(wù)可采用“電信業(yè)務(wù)cnXML”作為規(guī)范。

    6.文檔知識庫:按照數(shù)據(jù)規(guī)范將規(guī)范好的數(shù)據(jù)存入數(shù)據(jù)庫中,建立一個電子數(shù)據(jù)交換規(guī)范庫,并階段性地更新數(shù)據(jù)庫中的信息。

    2.2 數(shù)據(jù)層

    采用XML形式存儲數(shù)據(jù),并檢查、糾正數(shù)據(jù)中可能存在的錯誤信息,再采用矢量空間模型法(VSM)進行元數(shù)據(jù)處理,最后,將提取的元數(shù)據(jù)發(fā)送到數(shù)據(jù)分析層[7]。

    2.3 數(shù)據(jù)分析層

    在數(shù)據(jù)分析層中,首先是把查詢結(jié)果按照優(yōu)先級進行排序,再進行模式提取,得到有用的模式。在此分析的方法很多,有回歸分析、遺傳算法、聚類分析等數(shù)十種,在實際分析時,應針對其目標采用適當?shù)姆治龇椒āW詈筮€需要將結(jié)果通過友好的界面提供給用戶。

    三、仿真實例及其分析

    根據(jù)模型的思路開發(fā)出一個仿真系統(tǒng),并在該系統(tǒng)上主要進行了計算機編程軟件的搜索實驗。并將得到數(shù)據(jù)進行分析和處理,最終得到預期的結(jié)果。

    實驗如下:

    第一步:在仿真系統(tǒng)上查詢java核心編程、Windows核心編程兩個主題得到如下數(shù)據(jù):

    第二步:選擇前100項搜索結(jié)果進行篩選,得到有用如下數(shù)據(jù)的比例:

    第三步:將得到的數(shù)據(jù)建立文檔知識庫,采用聚類算法對采集到的數(shù)據(jù)進行有效的分析。

    通過仿真實驗的結(jié)果可以看出,該模型能夠成功地在網(wǎng)上進行資源查找,并建立文檔知識庫,通過數(shù)據(jù)挖掘算法對文檔知識庫中的內(nèi)容進行有效地挖掘,得到有利于數(shù)據(jù)決策地信息。達到了預期的效果。

    四、結(jié)束語

    由于Web信息大多數(shù)是異質(zhì)、異構(gòu)的半結(jié)構(gòu)化或非結(jié)構(gòu)化信息[8],因而Web數(shù)據(jù)挖掘一直以來都是業(yè)界研究的熱點,本文在基于Web數(shù)據(jù)挖掘的研究中,優(yōu)化出一種新的面向Web的數(shù)據(jù)挖掘模型,可以提高對Web數(shù)據(jù)的采集和分析性能,可為業(yè)界Web數(shù)據(jù)挖掘提供參考。

    參? 考? 文? 獻

    [1]方傳霞, 閆仁武. 基于Web挖掘的電子商務(wù)推薦系統(tǒng)研究[J]. 電子設(shè)計工程, 2015, 000(011):30-32,35.

    [2]王玉珍. 基于電子商務(wù)的Web挖掘技術(shù)研究[J]. 北京電子科技學院學報(4):22-25.

    [3]王劍鋒, 喬冬, 麻麗娜,等. 基于潛在語義分析的網(wǎng)頁文本分類研究[J]. 應用能源技術(shù), 2009, 000(011):41-44.

    [4]王劍霞, 邢晶晶. 基于WEB數(shù)據(jù)挖掘的網(wǎng)絡(luò)輿情分析研究[J]. 數(shù)字化用戶, 2014, 000(005):126-127,129.

    [5]張麗霞. 基于Web的數(shù)據(jù)挖掘模型[J]. 菏澤學院學報, 2007, 29(2):44-46.

    [6]魏和平. Web內(nèi)容大數(shù)據(jù)挖掘的特征匹配法探究[J]. 信息技術(shù)與信息化, 2020, No.242(05):70-71.

    [7]王琦超, 李廣輝. 云計算在Web數(shù)據(jù)挖掘技術(shù)中的應用[J]. 九江學院學報:自然科學版, 2020(1):74-76.

    [8]劉愛琴, 趙慧敏, 尚珊. Web環(huán)境下語義挖掘模型的構(gòu)建[J]. 圖書館理論與實踐, 2018, 228(10):61-65.

    猜你喜歡
    數(shù)據(jù)挖掘模型
    一半模型
    p150Glued在帕金森病模型中的表達及分布
    探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
    重要模型『一線三等角』
    重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
    基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應用
    電力與能源(2017年6期)2017-05-14 06:19:37
    數(shù)據(jù)挖掘技術(shù)在中醫(yī)診療數(shù)據(jù)分析中的應用
    3D打印中的模型分割與打包
    一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應用
    FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
    革吉县| 康乐县| 苍溪县| 吉林省| 拜泉县| 鄂温| 龙游县| 海安县| 都兰县| 德化县| 宁波市| 米易县| 平邑县| 宜宾市| 察隅县| 武隆县| 和田市| 两当县| 馆陶县| 扎鲁特旗| 松原市| 灌南县| 棋牌| 宿州市| 台中县| 尚义县| 松潘县| 潞城市| 台湾省| 绵竹市| 临湘市| 广元市| 舒兰市| 定南县| 永春县| 博兴县| 渭南市| 深水埗区| 玉田县| 山阳县| 商城县|