齊慧
摘? 要:文章首先對(duì)web數(shù)據(jù)挖掘技術(shù)進(jìn)行概括,分別從數(shù)據(jù)挖掘技術(shù)概念、技術(shù)應(yīng)用優(yōu)勢(shì)與技術(shù)原理三方面進(jìn)行論述。其次,重點(diǎn)探討基于python基礎(chǔ)上的web數(shù)據(jù)挖掘技術(shù)開發(fā)設(shè)計(jì)方法,對(duì)數(shù)據(jù)挖掘過程中的各類爬蟲技術(shù)應(yīng)用優(yōu)勢(shì)進(jìn)行對(duì)比,可以作為數(shù)據(jù)挖掘系統(tǒng)構(gòu)建過程中的理論參照。
關(guān)鍵詞:python語言;數(shù)據(jù)挖掘技術(shù);仿真實(shí)驗(yàn)
中圖分類號(hào):TP309? ? ?文獻(xiàn)標(biāo)識(shí)碼:A
Abstract:This paper firstly summarizes web data mining technology,discussing the concept,application advantages and principles of data mining technology.Secondly,it mainly discusses the development and design methods of web data mining technology based on python,and compares the application advantages of various crawler technologies in the process of data mining,which can be used as a theoretical reference in the construction of data mining system.
Keywords:Python;data mining technology;simulation experiments
1? ?引言(Introduction)
運(yùn)用web數(shù)據(jù)挖掘技術(shù),能夠模擬出用戶基于網(wǎng)絡(luò)環(huán)境中的瀏覽過程,并根據(jù)用戶操作過程中的使用功能需求,自動(dòng)跳轉(zhuǎn)至指定的信息頁面。通過數(shù)據(jù)挖掘,將無序并且數(shù)量龐大的信息自動(dòng)提取存儲(chǔ),將其整理成為結(jié)構(gòu)化的信息形式[1]。一方面,方便用戶在信息瀏覽過程中對(duì)自身需要的數(shù)據(jù)進(jìn)行存儲(chǔ),另一方面也能夠根據(jù)數(shù)據(jù)挖掘?qū)Ω黝惞δ苓M(jìn)行表達(dá),滿足用戶信息瀏覽過程中的不同需求。數(shù)據(jù)挖掘技術(shù)使用范圍十分廣闊,能夠用于不同區(qū)域,并且在功能整合過程中也能夠根據(jù)最終的綜合控制能力,判斷接下來的數(shù)據(jù)挖掘方向[2]。數(shù)據(jù)挖掘技術(shù)是存儲(chǔ)功能實(shí)現(xiàn)不可缺少的基礎(chǔ),也具有極強(qiáng)的整合能力,能夠與其他技術(shù)方法相結(jié)合,高效便捷的完成數(shù)據(jù)捕捉和存儲(chǔ)。數(shù)據(jù)挖掘技術(shù)在不同領(lǐng)域均充當(dāng)著重要角色,將web數(shù)據(jù)挖掘技術(shù),與學(xué)習(xí)型匯編語言相結(jié)合,在程序設(shè)計(jì)過程中更能夠體現(xiàn)出人性化功能,也能處于網(wǎng)絡(luò)環(huán)境下,對(duì)數(shù)據(jù)信息進(jìn)行高效定位,實(shí)現(xiàn)安全便捷的數(shù)據(jù)挖掘以及功能指令傳輸。
2? 數(shù)據(jù)挖掘技術(shù)發(fā)展優(yōu)勢(shì)(Development advantages of data mining technology)
隨著網(wǎng)絡(luò)信息技術(shù)不斷發(fā)展進(jìn)步,數(shù)據(jù)挖掘技術(shù)也具有廣闊的應(yīng)用前景。網(wǎng)絡(luò)環(huán)境中的各類數(shù)據(jù)信息資源,并沒有固定結(jié)構(gòu)存在。瀏覽網(wǎng)絡(luò)信息中對(duì)于其中的有用數(shù)據(jù)提取往往會(huì)消耗過多時(shí)間。通過互聯(lián)網(wǎng)技術(shù)普及,數(shù)據(jù)挖掘技術(shù)的應(yīng)用能夠?qū)⒘闵⒌男畔⑦M(jìn)行整合,并根據(jù)用戶不同使用功能選擇自動(dòng)或手動(dòng)的挖掘存儲(chǔ)[3]。數(shù)據(jù)挖掘技術(shù)在信息整合速度上十分快,具有極強(qiáng)的技術(shù)適應(yīng)能力,應(yīng)用該技術(shù)能夠體現(xiàn)出不同挖掘項(xiàng)目之間的統(tǒng)籌能力,并根據(jù)挖掘過程中體現(xiàn)出的多角度問題[4]。新型技術(shù)應(yīng)用方向調(diào)整,基于python語言基礎(chǔ)上的網(wǎng)絡(luò)系統(tǒng)設(shè)置,能夠明顯降低數(shù)據(jù)傳輸過程中的誤差,并幫助查找遺漏,對(duì)遺漏數(shù)據(jù)自動(dòng)填補(bǔ)。尤其是面對(duì)統(tǒng)計(jì)任務(wù)量較大的數(shù)據(jù)時(shí),能夠快速完成信息分類對(duì)接,并根據(jù)用戶使用過程中的各類規(guī)則,對(duì)程序進(jìn)行調(diào)整,糾正程序中存在的錯(cuò)誤。數(shù)據(jù)挖掘過程中,能夠確定數(shù)據(jù)傳輸?shù)淖罴崖窂剑瑥亩趥鬏斶^程中節(jié)省時(shí)間。由此可見,數(shù)據(jù)挖掘技術(shù)具有明顯的發(fā)展優(yōu)勢(shì),未來技術(shù)發(fā)展中,也將進(jìn)入到更理想的狀態(tài)中,通過不同匯編語言之間的相互結(jié)合,達(dá)到理想的設(shè)計(jì)效果。
3? 數(shù)據(jù)挖掘技術(shù)應(yīng)用原理(Application principle of data mining technology)
數(shù)據(jù)挖掘技術(shù)在應(yīng)用過程中的功能實(shí)現(xiàn),通過對(duì)用戶基于網(wǎng)絡(luò)環(huán)境中瀏覽信息的腳本捕捉,自動(dòng)進(jìn)行有效數(shù)據(jù)信息排序,并根據(jù)用戶所發(fā)出的功能指令對(duì)有用信息進(jìn)行子集合構(gòu)建,并對(duì)信息系統(tǒng)中的數(shù)據(jù)進(jìn)行訪問。訪問wed頁面內(nèi)的相關(guān)內(nèi)容后,根據(jù)反復(fù)的信息驗(yàn)證。數(shù)據(jù)挖掘功能原理如圖1所示。
確定最終的有用信息結(jié)合范圍,從而實(shí)現(xiàn)子頁面內(nèi)的各類數(shù)據(jù)結(jié)合,進(jìn)行切實(shí)有效的數(shù)據(jù)信息分類與整合。信息分類整合同樣是實(shí)現(xiàn)模塊化管理的基礎(chǔ),也是數(shù)據(jù)挖掘功能實(shí)現(xiàn)的原理,在數(shù)據(jù)挖掘過程中,會(huì)涉及不同爬蟲算法的使用,選擇的爬蟲算法直接關(guān)系到數(shù)據(jù)信息挖掘,提取速度與最終的數(shù)據(jù)集合構(gòu)成穩(wěn)定性。數(shù)據(jù)挖掘技術(shù)在功能實(shí)現(xiàn)方面,需要對(duì)不同爬蟲算法進(jìn)行對(duì)比,從用戶登錄web頁面后的起始頁至最后一頁進(jìn)行連續(xù)的數(shù)據(jù)提取逐漸向外層延伸,并構(gòu)建多角度信息獲取鏈接,自動(dòng)實(shí)現(xiàn)信息的捕捉[5]。數(shù)據(jù)挖掘與數(shù)據(jù)提取是相對(duì)應(yīng)的功能,挖掘后并確定數(shù)據(jù)的來源范圍,才能進(jìn)行下一步功能構(gòu)建。提取數(shù)據(jù)后并將其發(fā)送到指定的功能層,在頁面功能實(shí)現(xiàn)過程中,篩選有用信息并進(jìn)行結(jié)構(gòu)化整合,經(jīng)過數(shù)據(jù)搜索與分析最終確定挖掘?qū)ο螅瑢?shí)現(xiàn)一系列數(shù)據(jù)提取功能。
4? 數(shù)據(jù)挖掘技術(shù)中的算法比較(Comparison of algorithms in data mining)
4.1? ?廣度優(yōu)先算法
數(shù)據(jù)挖掘技術(shù)應(yīng)用過程中,算法的比較研究內(nèi)容比較多,首先是廣度優(yōu)先的算法策略,在計(jì)算過程中從起始頁到最終的頁面,要進(jìn)行由內(nèi)而外的延伸運(yùn)算。并對(duì)多鏈接信息進(jìn)行整合,在數(shù)據(jù)挖掘過程中自動(dòng)進(jìn)入到下一集層的深度中,確保數(shù)據(jù)挖掘在web網(wǎng)絡(luò)環(huán)境中的廣度。在挖掘分析過程中,對(duì)不同目錄進(jìn)行深入分析,確保挖掘過程中的分析內(nèi)容涵蓋整體目錄。其優(yōu)勢(shì)在于廣度優(yōu)先策略,在運(yùn)算過程中精準(zhǔn)度十分高,其劣勢(shì)在于挖掘過程中對(duì)目錄分析將會(huì)耗費(fèi)大量時(shí)間。廣度優(yōu)先算法主要是針對(duì)目錄精準(zhǔn)排查,實(shí)現(xiàn)鏈接的提取與扣件。能夠進(jìn)行算法的并行處理,同時(shí)在Web信息的挖掘,提取出多少也會(huì)有所提升。如果挖掘數(shù)據(jù)信息涉及到深層目錄,最終的功能將會(huì)受到影響。
4.2? ?深度優(yōu)先算法
深度優(yōu)先算法應(yīng)用在數(shù)據(jù)挖掘技術(shù)中,注重在同一區(qū)域范圍內(nèi)的深層次數(shù)據(jù)捕捉。根據(jù)用戶的瀏覽內(nèi)容在當(dāng)前頁面訪問時(shí),會(huì)進(jìn)行深層次數(shù)據(jù)挖掘,直到在當(dāng)前頁面的最深點(diǎn)數(shù)據(jù)挖掘成功后,視為完成一個(gè)分支任務(wù)。并返回到最初的訪問界面,從而進(jìn)入到另一個(gè)爬行分支中進(jìn)行相關(guān)數(shù)據(jù)的挖掘整理,直到對(duì)所有鏈接的深層次分析結(jié)束后,完成整體爬行任務(wù)。算法流程語言如下:
該種分析方法,能夠確保挖掘信息的深度,但如果在挖掘過程中,需要對(duì)更深層次的數(shù)據(jù)進(jìn)行捕捉,將會(huì)消耗大量的分析資源。深度優(yōu)先算法對(duì)于低層站點(diǎn)的數(shù)據(jù)挖掘和統(tǒng)計(jì),這種效果并不理想,并且在最終的數(shù)據(jù)對(duì)比分析中,容易在某一鏈接范圍內(nèi)產(chǎn)生誤差。因此該種技術(shù)手段應(yīng)用,還需要進(jìn)行技術(shù)方法之間的相互結(jié)合,達(dá)到最佳控制效果。
4.3? ?數(shù)據(jù)結(jié)構(gòu)化存儲(chǔ)
數(shù)據(jù)結(jié)構(gòu)化存儲(chǔ)也是數(shù)據(jù)挖掘過程中最常使用的技術(shù)手段,結(jié)構(gòu)性存儲(chǔ)能夠針對(duì)原本雜亂無序的數(shù)據(jù)信息進(jìn)行歸類整合,并達(dá)到最佳的結(jié)構(gòu)化存儲(chǔ)形式。通過無結(jié)構(gòu)信息的提取,并將其整合成為另一種鏈接形式,存儲(chǔ)到本地文檔中。能夠確保數(shù)據(jù)信息的存儲(chǔ)形式得到規(guī)范統(tǒng)一,并在執(zhí)行過程通過人工整合達(dá)到最理想的場(chǎng)景構(gòu)建模式。在存儲(chǔ)過程中,結(jié)構(gòu)化處理需要確保準(zhǔn)確度與速度,既要滿足多鏈接數(shù)據(jù)挖掘需求,同時(shí)也能夠根據(jù)存儲(chǔ)結(jié)構(gòu)的調(diào)整,快速實(shí)現(xiàn)各鏈接之間的相互結(jié)合。結(jié)構(gòu)化存儲(chǔ)功能對(duì)于數(shù)據(jù)的綜合處理能力十分快,處于Web環(huán)境下能夠?qū)崿F(xiàn)數(shù)據(jù)信息的自動(dòng)結(jié)構(gòu)調(diào)整,并通過結(jié)構(gòu)之間的相互轉(zhuǎn)換,減少人工操作帶來的數(shù)據(jù)誤差,結(jié)構(gòu)圖見圖2。
結(jié)構(gòu)僅僅作為數(shù)據(jù)存儲(chǔ)中的一種形式,在統(tǒng)一結(jié)構(gòu)的同時(shí),還需要考慮不同數(shù)據(jù)信息類型。自動(dòng)選取最為高效便捷的存儲(chǔ)方式,保證數(shù)據(jù)信息在存儲(chǔ)過程中的安全性與使用效率。數(shù)據(jù)結(jié)構(gòu)化存儲(chǔ)對(duì)數(shù)據(jù)挖掘技術(shù)精準(zhǔn)度要求極高,不僅在穩(wěn)定性與速度上要達(dá)到使用標(biāo)準(zhǔn)同時(shí)還需要滿足自動(dòng)歸類功能,能夠在歸類過程中增強(qiáng)綜合控制能力,實(shí)現(xiàn)數(shù)據(jù)結(jié)構(gòu)化的自動(dòng)存儲(chǔ),在結(jié)構(gòu)化存儲(chǔ)過程中自動(dòng)生成二維表格,達(dá)到最佳功能整合效果。
5? 基于python的WEB數(shù)據(jù)挖掘設(shè)計(jì)(Design of WEB data mining based on python)
5.1? ?爬蟲功能設(shè)計(jì)
基于python語言技術(shù)基礎(chǔ)上的web數(shù)據(jù)挖掘設(shè)計(jì),首先需要對(duì)爬蟲功能進(jìn)行選擇,根據(jù)用戶日常使用過程中對(duì)于功能的特殊性需求,對(duì)比不同爬蟲方法之間的優(yōu)勢(shì)與劣勢(shì)。借助python技術(shù)的分析功能,在計(jì)算過程中對(duì)數(shù)據(jù)的廣度進(jìn)行擴(kuò)增,并根據(jù)不同數(shù)據(jù)以及關(guān)鍵詞在網(wǎng)絡(luò)信息瀏覽中的出現(xiàn)次數(shù),進(jìn)行自動(dòng)分析定位,確定接下來的語言擴(kuò)增形式。數(shù)據(jù)結(jié)構(gòu)設(shè)計(jì)過程中,不僅需要對(duì)穩(wěn)定性進(jìn)行對(duì)比,還需要根據(jù)數(shù)據(jù)抓取過程中的鏈接分析,進(jìn)行最終的匹配鏈條確定。爬蟲功能根據(jù)瀏覽頁面的實(shí)際情況,對(duì)腳本內(nèi)容進(jìn)行構(gòu)建,通過應(yīng)答服務(wù)體系以及構(gòu)建過程中的超鏈接獲取,實(shí)現(xiàn)對(duì)數(shù)據(jù)信息的快速篩選。但在最終的數(shù)據(jù)信息獲取和整合過程中,根據(jù)所分析的內(nèi)容進(jìn)行最終的數(shù)據(jù)整合。并在挖掘過程中對(duì)所涉及的各類功能進(jìn)一步調(diào)整,針對(duì)數(shù)據(jù)挖掘設(shè)計(jì)中的功能在強(qiáng)化過程中體現(xiàn)出多元化整合能力。數(shù)據(jù)分析時(shí)對(duì)頁面的源代碼進(jìn)行提取,在源代碼分析基礎(chǔ)上進(jìn)入到更穩(wěn)定的數(shù)據(jù)整合階段,并根據(jù)場(chǎng)合得到的各類結(jié)果,采取多元化調(diào)整措施,提升數(shù)據(jù)信息之間的相互配合能力。
5.2? ?數(shù)據(jù)表達(dá)設(shè)計(jì)
數(shù)據(jù)表達(dá)設(shè)計(jì)過程中,一方面要考慮數(shù)據(jù)挖掘與最終使用的穩(wěn)定情況,另一方面也需要根據(jù)數(shù)據(jù)的具體表達(dá)能力。在設(shè)計(jì)過程中體現(xiàn)出最佳的表達(dá)方法,對(duì)數(shù)據(jù)的構(gòu)建形式加以完善。數(shù)據(jù)表達(dá)中需要考慮不同頁面訪問的過程調(diào)整,并根據(jù)元數(shù)據(jù)體系最終的判斷,在表達(dá)形式上體現(xiàn)出控制指令之間的對(duì)接能力。對(duì)于數(shù)據(jù)表達(dá)過程中不同方法理念之間的選擇以及構(gòu)建,更需要多元化的融合角度體現(xiàn)出數(shù)據(jù)表達(dá)的綜合控制能力,尤其是在數(shù)據(jù)表達(dá)設(shè)計(jì)階段,各個(gè)功能方法之間的相互結(jié)合,充分體現(xiàn)出元數(shù)據(jù)的多元化控制能力,以及最終的數(shù)據(jù)綜合挖掘情況。在不同功能頁面,采用多種結(jié)構(gòu)的形式對(duì)數(shù)據(jù)進(jìn)行表達(dá),數(shù)據(jù)表達(dá)后才能進(jìn)入到接下來的有用信息捕捉與自動(dòng)存儲(chǔ)階段。數(shù)據(jù)表達(dá)設(shè)計(jì)階段,同樣需要借助python語言來進(jìn)行模擬設(shè)計(jì),實(shí)現(xiàn)數(shù)據(jù)表達(dá)過程中的爬蟲功能,以及在數(shù)據(jù)挖掘提取階段不同功能之間的相互控制能力。運(yùn)用多元化數(shù)據(jù)整合模式,進(jìn)行分層結(jié)構(gòu)完善以及結(jié)構(gòu)化功能的實(shí)現(xiàn),完成數(shù)據(jù)挖掘、數(shù)據(jù)提取和結(jié)構(gòu)構(gòu)建多元化功能之間的融合。數(shù)據(jù)表達(dá)設(shè)計(jì)期間的綜合控制能力提升,以及最終的運(yùn)行狀態(tài)調(diào)整,還需要在管理階段體現(xiàn)出數(shù)據(jù)的綜合表達(dá)能力,對(duì)表達(dá)流程和表達(dá)形式進(jìn)一步設(shè)計(jì),實(shí)現(xiàn)數(shù)據(jù)表達(dá)與數(shù)據(jù)提取一體化模式。
5.3? ?仿真功能檢驗(yàn)
仿真功能檢驗(yàn)是指在功能應(yīng)用過程中,對(duì)于所構(gòu)建設(shè)計(jì)的全部系統(tǒng)以及數(shù)據(jù)信息提取形式進(jìn)行仿真功能驗(yàn)證,觀察是否在仿真功能上能夠達(dá)到預(yù)期效果,以及最終的仿真能力是否與開發(fā)設(shè)計(jì)中所確定的功能目標(biāo)保持一致。對(duì)于開發(fā)設(shè)計(jì)階段所確定的各類功能,需要通過仿真實(shí)驗(yàn)后確定其可行性,才能在接下來的系統(tǒng)中制定進(jìn)一步的綜合控制目標(biāo)。仿真實(shí)驗(yàn)需要模擬網(wǎng)絡(luò)環(huán)境中潛藏的風(fēng)險(xiǎn)隱患,對(duì)所構(gòu)建的系統(tǒng)結(jié)構(gòu)進(jìn)一步整合,觀察系統(tǒng)結(jié)構(gòu)的綜合控制能力。模擬病毒對(duì)系統(tǒng)進(jìn)行攻擊,從而判斷系統(tǒng)開發(fā)設(shè)計(jì)中需要進(jìn)一步完善的內(nèi)容。仿真功能檢驗(yàn)過程中,對(duì)于所存在的問題,需要將其劃分到同一集合中。腳本仿真實(shí)驗(yàn)程序如下:
6? ?結(jié)論(Conclusion)
在接下來的開發(fā)設(shè)計(jì)階段,重點(diǎn)針對(duì)現(xiàn)存問題部分加以完善,并通過仿真功能檢驗(yàn)對(duì)問題進(jìn)行拓展,觀察是否存在系統(tǒng)之間的相互影響。并通過干擾分析增強(qiáng)最終的仿真功能穩(wěn)定性,根據(jù)所得到的仿真功能檢驗(yàn)結(jié)果,確定系統(tǒng)在網(wǎng)絡(luò)環(huán)境中運(yùn)行使用的薄弱環(huán)節(jié),通過數(shù)據(jù)挖掘技術(shù),增強(qiáng)最終的功能穩(wěn)定性。
參考文獻(xiàn)(References)
[1] 王雪峰.基于Python的數(shù)據(jù)挖掘——陽光集團(tuán)的具體數(shù)據(jù)挖掘項(xiàng)目[J].電腦知識(shí)與技術(shù),2018,14(23):15-20;36.
[2] 邢娜.淺析基于Web數(shù)據(jù)挖掘應(yīng)用于電氣自動(dòng)化技術(shù)對(duì)社會(huì)經(jīng)濟(jì)發(fā)展促進(jìn)作用的研究[J].青春歲月,2017(12):427.
[3] 李巖松.集成Vissim和Python的車聯(lián)網(wǎng)仿真平臺(tái)研究[J].計(jì)算機(jī)仿真,2018,35(12):159-162;421.
[4] 唐琳.基于Python的自然語言數(shù)據(jù)處理系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J].電子技術(shù)與軟件工程,2018,138(16):176-178.
[5] 黃雪華.基于Python的決策樹算法在學(xué)生招生錄取數(shù)據(jù)中的應(yīng)用研究[J].電腦知識(shí)與技術(shù),2018,14(29):22-23.