馬驍
摘要:伴隨著科學(xué)技術(shù)的不斷發(fā)展,使得大數(shù)據(jù)技術(shù)數(shù)據(jù)庫挖掘技術(shù)在不斷的得到更新和發(fā)展,而且規(guī)模也是逐年上升的。因很多的數(shù)據(jù)不容易將隱藏的可以支持決策的信息內(nèi)容進行分辨,同時傳統(tǒng)常規(guī)的查詢以及報表工具已經(jīng)不能實現(xiàn)相關(guān)信息資料的挖掘需求,所以就必須要采取新型數(shù)據(jù)分析技術(shù)展開大量數(shù)據(jù)的有效處理。在這種形勢下,數(shù)據(jù)挖掘技術(shù)產(chǎn)生了,其能夠在高效的處理好各種數(shù)據(jù)的基礎(chǔ)上,實現(xiàn)對潛在有價值知識內(nèi)容進行抽取。在此次研究中,主要是對于最新大數(shù)據(jù)技術(shù)數(shù)據(jù)挖掘技術(shù)展開相應(yīng)的分析,同時對于相關(guān)應(yīng)用算法實施探討。
關(guān)鍵詞:大數(shù)據(jù)技術(shù);數(shù)據(jù)挖掘技術(shù);應(yīng)用算法
數(shù)據(jù)屬于知識的重要源泉,對數(shù)據(jù)進行收集其實就是為了得到大量的信息資料。伴隨著數(shù)據(jù)的不斷的增加,數(shù)據(jù)分析方法也會相應(yīng)的獲得到更新和與時俱進。目前很多的領(lǐng)域已經(jīng)深刻的貫徹大數(shù)據(jù)挖掘技術(shù)理念,不僅提供給計算機產(chǎn)業(yè)眾多的機遇,同時也產(chǎn)生了各種挑戰(zhàn)。因為若想有效的進行大數(shù)據(jù)挖掘工作,就應(yīng)該實施科學(xué)的數(shù)據(jù)挖掘應(yīng)用算法。
一、數(shù)據(jù)挖掘技術(shù)概況
(一)數(shù)據(jù)挖掘技術(shù)的概念
數(shù)據(jù)挖掘即為在數(shù)據(jù)集合中,將隱藏于數(shù)據(jù)內(nèi)相關(guān)的信息進行自動化的抽取的一種非平凡過程,信息表現(xiàn)形式較豐富,即涉及概念、規(guī)則以及模式、規(guī)律等等。不僅能夠輔助決策人員將數(shù)據(jù)的過去和現(xiàn)在的狀態(tài)進行分析,找到隱藏的模式以及關(guān)聯(lián)性,對將來能夠出現(xiàn)的行為實施良好的預(yù)測。另外,數(shù)據(jù)挖掘的過程另一種稱法就是發(fā)現(xiàn)知識的過程?,F(xiàn)下的數(shù)據(jù)挖掘研究和開發(fā)總體水平是不高的,急需要應(yīng)用更先進的諸如DBMS系統(tǒng)和關(guān)系模式、SQL查詢語言等方法進行指導(dǎo),使得應(yīng)用數(shù)據(jù)挖掘技術(shù)更好的推廣。當前,對數(shù)據(jù)挖掘技術(shù)的技術(shù),主要的方向就是:找到數(shù)據(jù)挖掘期間可視化舉措、發(fā)現(xiàn)語言形式化描述、研究基于網(wǎng)絡(luò)環(huán)境狀態(tài)中數(shù)據(jù)挖掘技術(shù)、重視提升開采各種非結(jié)構(gòu)化數(shù)據(jù)等等。
(二)數(shù)據(jù)挖掘的過程分析
數(shù)據(jù)挖掘的過程具備完整性的特征,此過程為挖掘出大型數(shù)據(jù)內(nèi)先前未知的、實用性較高的以及有效的信息內(nèi)容,應(yīng)用這些信息最終做出相應(yīng)的決策以及豐富的知識。數(shù)據(jù)挖掘的過程、步驟主要如下圖1所示。
二、數(shù)據(jù)挖掘的基本分析方法
對于數(shù)據(jù)挖掘來說,分析方法屬于關(guān)鍵性的內(nèi)容之一,只有采取具有科學(xué)性、先進性以及安全可靠的算法,才能夠進行挖掘數(shù)據(jù),并且將潛在的數(shù)據(jù)中相關(guān)規(guī)律進行發(fā)掘,以各異分析方法,對類型不同的問題實施解決和處理。當前,常應(yīng)用到的數(shù)據(jù)挖掘分析方法較多,下面進行分別的闡述。
(一)聚類分析法
聚類分析主要就是經(jīng)聚類分組數(shù)據(jù)對象的方式,構(gòu)建起相應(yīng)板塊,把各種不具有規(guī)律性的數(shù)據(jù),最終形成有關(guān)聯(lián)的、有邏輯的分組數(shù)據(jù)。同時在分組數(shù)據(jù)內(nèi)將存在一定價值數(shù)據(jù)內(nèi)容實施抽選,并展開深入的分析以及利用。聚類分析法的應(yīng)用也是相對廣泛的,在統(tǒng)計學(xué)、心理學(xué)以及數(shù)據(jù)識別等領(lǐng)域中均具有良好的應(yīng)用。
(二)特征性數(shù)據(jù)分析法
在信息化時代的發(fā)展中,網(wǎng)絡(luò)數(shù)據(jù)已然發(fā)展為數(shù)據(jù)爆炸式的狀態(tài),具備非常廣泛化的數(shù)據(jù)資源,同時普及的范圍是相當之普遍。怎樣做到科學(xué)合理的針對網(wǎng)絡(luò)爆炸式數(shù)據(jù)展開有關(guān)特性的分類,是當前主要的整理分類數(shù)據(jù)的關(guān)鍵。同時,常存在諸多的舉措為經(jīng)計算機的途徑,獲得到數(shù)據(jù)分類的虛擬的,同時可以將數(shù)據(jù)之間具有的普遍規(guī)律性找到,進而實現(xiàn)分析數(shù)據(jù)主要特性,最終達到更好的分類成效。
(三)關(guān)聯(lián)性分析法
通常情況下,數(shù)據(jù)自身是具有隱蔽性特征的,這時就很不容易采取普通數(shù)據(jù)分析法展開數(shù)據(jù)挖掘以及利用工作,所以就應(yīng)該實施關(guān)聯(lián)性分析的方案,展開科學(xué)合理的關(guān)聯(lián)性分析數(shù)據(jù)信息內(nèi)容,實現(xiàn)輔助人力進行分辨數(shù)據(jù)的工作。關(guān)聯(lián)性數(shù)據(jù)分析法一般為具有一定的目的性特點,所在其在高精準度要求的信息管理工作中具有廣泛的應(yīng)用。
三、大數(shù)據(jù)技術(shù)數(shù)據(jù)挖掘技術(shù)的工具和任務(wù)
(一)數(shù)據(jù)挖掘技術(shù)的工具
數(shù)據(jù)挖掘技術(shù)在不斷發(fā)展的形勢下,也不斷的出現(xiàn)著新型的數(shù)據(jù)挖掘商業(yè)軟件工具。數(shù)據(jù)挖掘的工具包含特定領(lǐng)域數(shù)據(jù)挖掘工具、通用數(shù)據(jù)挖掘工具兩大種類。介紹兩種相對常見的并且先進的數(shù)據(jù)挖掘工具:其一為QUEST。QUEST為一種多任務(wù)數(shù)據(jù)挖掘系統(tǒng),提出方就是IBM公司的Almaden研究中心,能夠提供給新一代決策支持系統(tǒng)應(yīng)用和開發(fā),更好、更優(yōu)質(zhì)的數(shù)據(jù)開采構(gòu)件。QUEST系統(tǒng)的特征包括:具備專門從大型數(shù)據(jù)庫上展開開采的職能,即涉及到的功能方面包括關(guān)聯(lián)規(guī)則發(fā)現(xiàn)、時間序列聚類、遞增式主動開采、決策樹分類等;各開采的算法均存在近似線性計算復(fù)雜度,能夠在數(shù)據(jù)中進行應(yīng)用,不會受到數(shù)據(jù)庫大小的權(quán)限;算法具有良好的找全性特征,也就是能夠發(fā)掘出全部的可以適應(yīng)指定類型的模式,而且能夠提供給很多發(fā)現(xiàn)功能諸多的并行算法。其二為DBMiner,其屬于多任務(wù)數(shù)據(jù)挖掘系統(tǒng),提出方為加拿大SimonFraser,并且DBMiner前身為DBLearn。進行設(shè)計此系統(tǒng)的目標就是結(jié)合關(guān)系數(shù)據(jù)庫以及數(shù)據(jù)開采兩項指標,建立在面向?qū)傩远嗉壐拍罨A(chǔ)上,獲得到相應(yīng)的知識。此系統(tǒng)特征也是較多的,包括的方面為:可以進行很多知識的發(fā)現(xiàn),即發(fā)現(xiàn)關(guān)聯(lián)規(guī)則、泛化規(guī)則、分類規(guī)則以及特性規(guī)則、演化知識等;全面的聯(lián)系諸多形式的數(shù)據(jù)開采技術(shù),涉及到面向?qū)傩缘臍w納、元規(guī)則引導(dǎo)發(fā)現(xiàn)等;達到建立在客戶/服務(wù)器體系結(jié)構(gòu)的Unix以及PC版本系統(tǒng)基礎(chǔ)上的效果;可以采取交互式類SQL語言,即數(shù)據(jù)開采查詢語言DMQL。數(shù)據(jù)挖掘的研究成果具有一定的邏輯特點,如下圖2所示。
(二)數(shù)據(jù)挖掘技術(shù)的主要任務(wù)
數(shù)據(jù)挖掘技術(shù)的開采任務(wù)主要是包括四方面。第一種為,數(shù)據(jù)總結(jié)為濃縮數(shù)據(jù),并且提供緊湊描述。數(shù)據(jù)挖掘為建立在數(shù)據(jù)泛化角度方面上,展開討論數(shù)據(jù)總結(jié)的;作為非常關(guān)鍵的一種內(nèi)容,分類發(fā)現(xiàn)發(fā)揮出的作用不言而喻。分類為采取分類器將數(shù)據(jù)庫內(nèi)部相關(guān)數(shù)據(jù)項,在指定類別中進行反映,最終預(yù)測未來的數(shù)據(jù)內(nèi)容;聚類即為將一組個體遵循一定的規(guī)律進行劃分類別,最終就是做到在同樣類別個體之間,顯著的減小差距,同時最大化的分離開不同類別個體間距;關(guān)聯(lián)規(guī)則屬于事物之間是否具有較大的可靠度以及支持度,對于關(guān)聯(lián)規(guī)則來說,如果想做到有意義,就必須要具備具體的最小可信度、最小支持度兩項指標。
四、數(shù)據(jù)挖掘技術(shù)應(yīng)用算法的探究
伴隨計算機技術(shù)的大量的應(yīng)用,以及日常管理工作中產(chǎn)生的大數(shù)據(jù),迅速的達到高質(zhì)高效的在不同形式數(shù)據(jù)以及有噪聲大數(shù)據(jù)環(huán)境中進行數(shù)據(jù)內(nèi)涵的分析,找到有用知識體系以及規(guī)律引領(lǐng)人們實施科學(xué)的預(yù)測以及決策非常重要,所以Apriori算法產(chǎn)生在這種形勢下,在大數(shù)據(jù)挖掘其間成為一種先進的、新型的算法。Apriori算法屬于挖掘布爾型關(guān)聯(lián)規(guī)則的頻繁項集迭代算法,于數(shù)據(jù)挖掘其間經(jīng)很多的描述數(shù)據(jù)庫方式,找到相應(yīng)的候選集之后展開剪枝,也就是將具有非頻繁子集候選集排除。經(jīng)科學(xué)的設(shè)置最小支持度閾值,對于候選項不斷的增長的數(shù)量展開有效控制,同時于大數(shù)據(jù)數(shù)據(jù)挖掘期間構(gòu)建起更好的研究價值。
(一)Apriori算法過程分析
Apriori算法的實現(xiàn)原理就是采取逐層搜索的迭代方法,具體的實現(xiàn)過程即為:首先,對于事務(wù)數(shù)據(jù)庫D展開掃描,得到支持度Ci的計算,進而獲得Li即頻繁項集集合;其次,就是連接步,其屬于算法的自連接過程,必須要充分的保障一致于前項,同時嚴格的遵循關(guān)聯(lián)規(guī)則展開合理的連接;接下來,為剪枝步,即主要為充分的維持任意一個頻繁項集非空子集是具有頻繁屬性的,也就是如果存在候選非空子集并非頻繁性的,那么其候選也一定并非頻繁,所以可以排除掉;最后,經(jīng)迭代掃描數(shù)據(jù)庫D,將各項集支持度展開科學(xué)的計算,排除不符合要求的項集,經(jīng)迭代循環(huán)的方式一直達到某值是空的狀態(tài),此時停止算法。Apriori算法如下圖3所示。
(二)Apriori算法改進
分析顯示,Apriori算法是具有弊端問題的。一方面就是在進行找到頻繁項集、候選項集期間,均需對于數(shù)據(jù)庫D展開掃描;另一方面就是,在具有非常復(fù)雜的事務(wù)數(shù)據(jù)庫數(shù)據(jù)量情況下,構(gòu)建起的頻繁項集、候選項集數(shù)量均會相應(yīng)的提升,所以很容易于分析檢索大量數(shù)據(jù)庫期間明顯的降低Apriori算法效率,同時也能夠相應(yīng)提升計算機資源的占用開銷。
為對于Apriori算法實施良好的改進,積極的分析原理,應(yīng)用實際算法時,生產(chǎn)實現(xiàn)處理候選頻繁項目期間,在掃描事務(wù)過程中將無需的候選頻繁級進行最先的刪除,同時對于數(shù)據(jù)展開壓縮,記錄好事務(wù)數(shù)據(jù)庫,就會相應(yīng)的提升掃描的效率,并且有效的減少計算機資源的開銷。當前,Apriori算法改進技術(shù)涉及到AprioriTid算法、基于采樣算法(Sampling)、基于散列算法(Hash)、事務(wù)壓縮技術(shù)等。
(三)Apriori算法的應(yīng)用情況
當前,應(yīng)用Apriori算法已經(jīng)相對普遍。應(yīng)用到教學(xué)質(zhì)量動態(tài)檢測和評價中:經(jīng)數(shù)據(jù)挖掘,能夠在大量學(xué)生對于教學(xué)評價數(shù)據(jù)內(nèi),將關(guān)聯(lián)規(guī)則進行找到,并且將有關(guān)的課程教學(xué)效果同教師教學(xué)的狀態(tài)的關(guān)聯(lián)性實施探究,幫助推動提升教學(xué)的質(zhì)量和水平;應(yīng)用于電子商務(wù)交易方面,采取Apriori算法能夠建立在網(wǎng)絡(luò)實現(xiàn)電商交易期間,可以將客戶的消費習(xí)慣以及能力、消費的群體等進行分析,提供給電商供應(yīng)商更好的了解消費市場的途徑,同時展開同客戶之間的良性商務(wù)互動;應(yīng)用于學(xué)生就業(yè)方面上,可以在人才培養(yǎng)模式有關(guān)的知識體系以及專業(yè)等海量的數(shù)據(jù)中,對于大學(xué)生的受教育程度、同社會就業(yè)的需求存在的關(guān)系進行分析,幫助大學(xué)提供給學(xué)生人才培養(yǎng)更好的依據(jù);應(yīng)用于動態(tài)網(wǎng)絡(luò)輿情監(jiān)控,經(jīng)應(yīng)用intemet平臺實現(xiàn)實施的采集以及分析網(wǎng)絡(luò)信息傳輸交互,對于網(wǎng)絡(luò)用戶信息進行了解,幫助政府獲得網(wǎng)絡(luò)輿情,對于客戶依據(jù)進行提供。
結(jié)語:
面對傳統(tǒng)常規(guī)的查詢以及報表工具已經(jīng)不能實現(xiàn)相關(guān)信息資料的挖掘需求狀態(tài),必須要采取新型數(shù)據(jù)分析技術(shù)展開大量數(shù)據(jù)的有效處理。在這種形勢下,數(shù)據(jù)挖掘技術(shù)隨即產(chǎn)生,其能夠?qū)撛谟袃r值知識進行抽取,應(yīng)用價值巨大。
參考文獻:
[1]李戈春,潘斌,豐雷.大數(shù)據(jù)分析在教學(xué)實踐中的應(yīng)用策略[J].課程教育研究,2017(44):213-214.
[2]張佳,朱宇華.運用大數(shù)據(jù)技術(shù)推進節(jié)約型校園建設(shè)——以蘇州工藝美術(shù)職業(yè)技術(shù)學(xué)院為例[J].高校后勤研究,2015(03):88-90.
[3]李傳軍.大數(shù)據(jù)技術(shù)與智慧城市建設(shè)——基于技術(shù)與管理的雙重視角[J].天津行政學(xué)院學(xué)報,2015(04):39-45.
[4]沈才俊,常云志,徐暑芬,李章林.大數(shù)據(jù)技術(shù)在科技項目評審過程中的應(yīng)用現(xiàn)狀[J].江蘇科技信息,2016(34):28-29+34.