• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      數(shù)據(jù)挖掘作為交叉學(xué)科的特點(diǎn)

      2017-04-20 14:32:34趙義軍商夢(mèng)嬌
      時(shí)代金融 2017年9期
      關(guān)鍵詞:數(shù)據(jù)倉(cāng)庫(kù)機(jī)器學(xué)習(xí)數(shù)據(jù)挖掘

      趙義軍+商夢(mèng)嬌

      【摘要】本文主要講述了數(shù)據(jù)挖掘的內(nèi)涵以及作為機(jī)器學(xué)習(xí),數(shù)據(jù)倉(cāng)庫(kù),統(tǒng)計(jì)學(xué),智能決策等多個(gè)學(xué)科的交叉學(xué)科的特點(diǎn)。

      【關(guān)鍵詞】數(shù)據(jù)挖掘 機(jī)器學(xué)習(xí) 數(shù)據(jù)倉(cāng)庫(kù) 統(tǒng)計(jì)學(xué) 智能決策

      20世紀(jì)90年代后期,信息技術(shù)、計(jì)算機(jī)以及網(wǎng)絡(luò)技術(shù)迅猛發(fā)展,人類(lèi)社會(huì)從此邁進(jìn)了一個(gè)嶄新的數(shù)字時(shí)代。但是,精彩紛呈的數(shù)據(jù)也帶來(lái)了利用這些數(shù)據(jù)的煩惱,怎樣才能充分利用這些數(shù)據(jù),怎樣才能從中得到最有價(jià)值的信息,是我們共同的目標(biāo)和心愿,而數(shù)據(jù)挖掘技術(shù)的出現(xiàn),則在很大程度上解決了這些問(wèn)題,使大數(shù)據(jù)時(shí)代迎來(lái)了一個(gè)春天。

      一、數(shù)據(jù)挖掘的內(nèi)涵

      大多數(shù)人認(rèn)為,數(shù)據(jù)挖掘(data mining)的概念最早是由1995年Fayyad在知識(shí)發(fā)現(xiàn)會(huì)議上所提出來(lái)的,他認(rèn)為數(shù)據(jù)挖掘是一個(gè)自動(dòng)或半自動(dòng)化地從大量數(shù)據(jù)中發(fā)現(xiàn)有效的、有意義的、潛在有用的、易于理解的數(shù)據(jù)模型的復(fù)雜過(guò)程[1]。在實(shí)際問(wèn)題的解決過(guò)程中,人們慢慢總結(jié)出數(shù)據(jù)挖掘的真正內(nèi)涵,那就是,數(shù)據(jù)挖掘是一項(xiàng)以發(fā)現(xiàn)數(shù)據(jù)中有價(jià)值的模式和規(guī)律為基本目標(biāo)的獨(dú)立的數(shù)據(jù)組織和協(xié)作的建模歷程。數(shù)據(jù)挖掘是為發(fā)現(xiàn)大規(guī)模數(shù)據(jù)中所隱藏的有意義的模式和規(guī)律而進(jìn)行的探索、實(shí)驗(yàn)和分析。數(shù)據(jù)挖掘是一門(mén)需要結(jié)合各行各業(yè)領(lǐng)域知識(shí)的交叉學(xué)科。

      二、數(shù)據(jù)挖掘的特點(diǎn)

      數(shù)據(jù)挖掘作為一種新型門(mén)類(lèi),自然有它自己獨(dú)特的特點(diǎn),但是它并不專(zhuān)屬于某一個(gè)學(xué)科門(mén)類(lèi),而是多種學(xué)科的交叉,相關(guān)的學(xué)科包括機(jī)器學(xué)習(xí),數(shù)據(jù)倉(cāng)庫(kù),統(tǒng)計(jì)學(xué),智能決策等多個(gè)學(xué)科,接下來(lái)文章將要講述數(shù)據(jù)挖掘作為一種交叉學(xué)科在各個(gè)學(xué)科中的應(yīng)用中所表現(xiàn)出來(lái)的特點(diǎn)。

      (一)數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)

      當(dāng)數(shù)據(jù)挖掘在機(jī)器學(xué)習(xí)相結(jié)合時(shí)所體現(xiàn)出來(lái)的主要特點(diǎn)是強(qiáng)調(diào)數(shù)據(jù)的特點(diǎn)和分布,有嚴(yán)格的原則和方法。這個(gè)特點(diǎn)主要是在機(jī)器學(xué)習(xí)在大數(shù)據(jù)庫(kù)上的應(yīng)用上來(lái)體現(xiàn)的。

      根據(jù)Tom Michael于1997年提出的定義,機(jī)器學(xué)習(xí)是面向任務(wù)解決的基于經(jīng)驗(yàn)提煉模型實(shí)現(xiàn)最優(yōu)解設(shè)計(jì)的計(jì)算機(jī)程序。從這個(gè)定義我們可看出所謂的機(jī)器學(xué)習(xí)的算法旨在存在經(jīng)驗(yàn)觀測(cè)的領(lǐng)域中提出解決工具來(lái)為缺乏理論模型作出指導(dǎo)。然而早期的機(jī)器學(xué)習(xí)并非是把原始的經(jīng)驗(yàn)觀測(cè)輸入,而輸入的是經(jīng)驗(yàn)中的規(guī)則,進(jìn)而學(xué)習(xí)算法就是基于規(guī)則分析的基礎(chǔ)上形成的。但是隨之而來(lái)的問(wèn)題也出現(xiàn)了,隨著經(jīng)驗(yàn)觀測(cè)的量越來(lái)越大,要求學(xué)習(xí)算法不僅要分析規(guī)則,更要去理解有意義的規(guī)則,甚至還要去考慮經(jīng)驗(yàn)觀測(cè)的存儲(chǔ)格式問(wèn)題,例如銷(xiāo)售業(yè)中各個(gè)銷(xiāo)售分店的位置定位問(wèn)題,圖像庫(kù)中與指定圖片匹配的跟蹤問(wèn)題,遺傳病在一個(gè)家庭中蔓延的基因等等,這些問(wèn)題通常需要涉及大范圍而且多個(gè)角度的數(shù)據(jù)采集,由于諸類(lèi)原因,伴隨產(chǎn)生了很多棘手的問(wèn)題,比如信噪比較低,模式結(jié)構(gòu)不明等問(wèn)題,這就需要人們從大量數(shù)據(jù)中通過(guò)建立模型認(rèn)識(shí)數(shù)據(jù)內(nèi)在結(jié)構(gòu)和規(guī)律的解決思慮和算法設(shè)計(jì)也納入到機(jī)器學(xué)習(xí)的研究范圍中,這時(shí)數(shù)據(jù)挖掘便開(kāi)始發(fā)揮它的作用。機(jī)器學(xué)習(xí)的結(jié)果是產(chǎn)生新的處理數(shù)據(jù)的算法,機(jī)器學(xué)習(xí)在大數(shù)據(jù)庫(kù)上的應(yīng)用就是數(shù)據(jù)挖掘。任務(wù)、訓(xùn)練數(shù)據(jù)和實(shí)施性能是構(gòu)成機(jī)器學(xué)習(xí)的三個(gè)基本要素,而機(jī)器學(xué)習(xí)的結(jié)果就是產(chǎn)生新的智能處理數(shù)據(jù)的算法,顯然,這就是數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)之間的內(nèi)在聯(lián)系。

      一個(gè)機(jī)器學(xué)習(xí)的算法由5個(gè)方面構(gòu)成:

      ①任務(wù):算法的目標(biāo),簡(jiǎn)要的如分類(lèi),類(lèi)聚等;

      ②模型或模式的結(jié)構(gòu):線(xiàn)性回歸模型,高斯混合模型,圖模型等;

      ③得分函數(shù):評(píng)價(jià)模型或算法優(yōu)良性的函數(shù),比如敏感度,BIC等;

      ④達(dá)到最優(yōu)結(jié)果的途徑設(shè)計(jì):達(dá)到方法最優(yōu)的參數(shù)估計(jì)計(jì)算算法,最速下降,MCMC等;

      ⑤數(shù)據(jù)管理技術(shù):數(shù)據(jù)的保存、索引和提取、展現(xiàn)數(shù)據(jù)的方式,特別是數(shù)據(jù)量較大的時(shí)候存儲(chǔ)的設(shè)計(jì)等[2]。

      由此可以看出,數(shù)據(jù)分析和機(jī)器學(xué)習(xí)之間既有聯(lián)系又有區(qū)別,機(jī)器學(xué)習(xí)產(chǎn)生的算法稱(chēng)為“直升機(jī)型”程序,因?yàn)槠浜诵氖侨蝿?wù)和任務(wù)完成的質(zhì)量。這種算法的優(yōu)點(diǎn)是其算法具有很高的效率,可以突出問(wèn)題的重點(diǎn),缺點(diǎn)是對(duì)數(shù)據(jù)特點(diǎn)的靈活性考慮不周,使算法很容易受到外界因素的干擾,其自主調(diào)節(jié)性能也就很弱。數(shù)據(jù)分析在機(jī)器學(xué)習(xí)中的應(yīng)用則很大程度上解決了諸類(lèi)問(wèn)題,因?yàn)閿?shù)據(jù)分析強(qiáng)調(diào)數(shù)據(jù)的特點(diǎn)和分布,并且有嚴(yán)格的原則和方法,強(qiáng)調(diào)建模過(guò)程和統(tǒng)計(jì)設(shè)計(jì),這時(shí)數(shù)據(jù)分析的優(yōu)勢(shì)和特點(diǎn)也就顯現(xiàn)出來(lái)。

      (二)數(shù)據(jù)挖掘與數(shù)據(jù)倉(cāng)庫(kù)

      當(dāng)我們進(jìn)行數(shù)據(jù)挖掘技術(shù)時(shí)要先把數(shù)據(jù)從數(shù)據(jù)倉(cāng)庫(kù)中拿出來(lái),放到一個(gè)專(zhuān)門(mén)的數(shù)據(jù)庫(kù)或者數(shù)據(jù)集市中進(jìn)行數(shù)據(jù)挖掘,我把數(shù)據(jù)挖掘這個(gè)特點(diǎn)總結(jié)為間接性。

      那為什么不能在數(shù)據(jù)倉(cāng)庫(kù)上直接挖掘,非要先把數(shù)據(jù)放到另一個(gè)數(shù)據(jù)挖掘庫(kù)或者數(shù)據(jù)集市中去挖掘呢?到底能不能直接在數(shù)據(jù)倉(cāng)庫(kù)上直接挖掘呢?答案是肯定的。首先來(lái)說(shuō),數(shù)據(jù)挖掘是可以直接在數(shù)據(jù)倉(cāng)庫(kù)上進(jìn)行的,除此之外,如果直接在數(shù)據(jù)倉(cāng)庫(kù)上挖掘的話(huà),還有一定的好處,數(shù)據(jù)的不一致問(wèn)題得到解決,因?yàn)閿?shù)據(jù)挖掘是首先要進(jìn)行數(shù)據(jù)清理工作,不但要對(duì)數(shù)據(jù)挖掘的數(shù)據(jù)進(jìn)行清理,而且還要對(duì)數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)進(jìn)行清理,因此可能會(huì)導(dǎo)致數(shù)據(jù)的不一致問(wèn)題出現(xiàn),如果是在數(shù)據(jù)倉(cāng)庫(kù)中直接挖掘的話(huà),則避免了這一問(wèn)題的出現(xiàn),如果數(shù)據(jù)在導(dǎo)入數(shù)據(jù)倉(cāng)庫(kù)時(shí)已經(jīng)進(jìn)行過(guò)清理工作,那么將數(shù)據(jù)導(dǎo)入數(shù)據(jù)倉(cāng)庫(kù)后就沒(méi)有必要在進(jìn)行一遍清理工作,而是在數(shù)據(jù)倉(cāng)庫(kù)中直接進(jìn)行數(shù)據(jù)挖掘,這樣一來(lái)就避免數(shù)據(jù)不一致的現(xiàn)象,也省去了很多了時(shí)間,但是我們忽略了一個(gè)問(wèn)題,那就是,沒(méi)考慮到數(shù)據(jù)倉(cāng)庫(kù)的計(jì)算資源量的問(wèn)題,當(dāng)一個(gè)數(shù)據(jù)倉(cāng)庫(kù)的計(jì)算資源和充足的情況下,完全可以直接在數(shù)據(jù)倉(cāng)庫(kù)上進(jìn)行數(shù)據(jù)挖掘,但是,如果數(shù)據(jù)倉(cāng)庫(kù)的計(jì)算資源不充足,那數(shù)據(jù)挖掘工作則無(wú)法完成,這時(shí)就需要另外建立一個(gè)數(shù)據(jù)挖掘挖掘庫(kù)或者是數(shù)據(jù)集,這類(lèi)問(wèn)題則迎刃而解了。

      (三)數(shù)據(jù)挖掘與統(tǒng)計(jì)學(xué)

      隨著社會(huì)的進(jìn)步,人們對(duì)生活和工作提出了越來(lái)越高的要求。很多時(shí)候需要人們?nèi)ソ⒛P蛠?lái)解決較為棘手的問(wèn)題,并且還要做出相對(duì)準(zhǔn)確的預(yù)測(cè),數(shù)據(jù)挖掘和統(tǒng)計(jì)學(xué)這兩門(mén)學(xué)科都是致力于模型發(fā)現(xiàn)和預(yù)測(cè),在模型發(fā)現(xiàn)和預(yù)測(cè)方面,數(shù)據(jù)挖掘較統(tǒng)計(jì)學(xué)而言的顯著特點(diǎn)就是數(shù)據(jù)驅(qū)動(dòng)。

      與數(shù)據(jù)驅(qū)動(dòng)相對(duì)的是經(jīng)驗(yàn)驅(qū)動(dòng),所謂經(jīng)驗(yàn)驅(qū)動(dòng)強(qiáng)調(diào)先有設(shè)計(jì)然后通過(guò)數(shù)據(jù)來(lái)驗(yàn)證設(shè)計(jì)的合理性,統(tǒng)計(jì)學(xué)在應(yīng)用的過(guò)程中顯然是經(jīng)驗(yàn)驅(qū)動(dòng),在經(jīng)濟(jì)以及社會(huì)問(wèn)題的研究中,統(tǒng)計(jì)模型常常以經(jīng)驗(yàn)驗(yàn)證和理論證據(jù)的角色起作用,而數(shù)據(jù)挖掘則不然,大數(shù)據(jù)分析需要的是建模過(guò)程,更強(qiáng)調(diào)的是數(shù)據(jù)驅(qū)動(dòng)的分析。經(jīng)驗(yàn)驅(qū)動(dòng)還是數(shù)據(jù)驅(qū)動(dòng)可以作為數(shù)據(jù)挖掘和統(tǒng)計(jì)學(xué)這兩個(gè)學(xué)科的基本區(qū)別。除此之外這兩門(mén)學(xué)科還有其他的不同點(diǎn),在處理問(wèn)題的類(lèi)型方面,傳統(tǒng)的統(tǒng)計(jì)學(xué)善于處理結(jié)構(gòu)化的問(wèn)題,而數(shù)據(jù)挖掘則善于處理非結(jié)構(gòu)或者半結(jié)構(gòu)化的問(wèn)題,傳統(tǒng)統(tǒng)計(jì)學(xué)所使用的主要方法論是估計(jì)與假設(shè)檢驗(yàn),而數(shù)據(jù)挖掘所使用的主要方法論是探索、推斷與評(píng)價(jià),下面來(lái)看看分析的目標(biāo)和數(shù)據(jù)來(lái)源方面,傳統(tǒng)的統(tǒng)計(jì)學(xué)是預(yù)先定義目標(biāo)變量,設(shè)計(jì)抽樣方案來(lái)收集數(shù)據(jù),而數(shù)據(jù)挖掘則是探索目標(biāo),與目標(biāo)分析結(jié)合觀測(cè)數(shù)據(jù),接下來(lái)看兩者收集的數(shù)據(jù)特征,傳統(tǒng)統(tǒng)計(jì)學(xué)收集來(lái)的數(shù)據(jù)集較小,具有同質(zhì)性,靜態(tài),主觀性強(qiáng)等特點(diǎn),而通過(guò)數(shù)據(jù)挖掘收集來(lái)的數(shù)據(jù)來(lái)源廣泛,數(shù)據(jù)量大,具有異質(zhì)性和動(dòng)態(tài)的特點(diǎn),傳統(tǒng)統(tǒng)計(jì)學(xué)的分析類(lèi)型確定,變量個(gè)數(shù)小,信噪比較強(qiáng),而數(shù)據(jù)挖掘的分析類(lèi)型不確定,通過(guò)探索性分析來(lái)確定,變量個(gè)數(shù)很小,信噪比較弱。

      現(xiàn)代統(tǒng)計(jì)學(xué)已經(jīng)將數(shù)據(jù)挖掘作為其中的核心內(nèi)容,高維變量建模問(wèn)題、多模式建模問(wèn)題、復(fù)雜網(wǎng)絡(luò)建模、非參數(shù)建模等技術(shù)發(fā)展很快,為數(shù)據(jù)挖掘源源不斷輸入新的血液。

      (四)數(shù)據(jù)挖掘與智能決策

      數(shù)據(jù)挖掘是以解決問(wèn)題為導(dǎo)向的數(shù)據(jù)綜合利用技術(shù),而智能決策作為企業(yè)輔助決策的動(dòng)能與數(shù)據(jù)挖掘相結(jié)合會(huì)促進(jìn)企業(yè)的有效發(fā)展,此時(shí)我把數(shù)據(jù)挖掘所體現(xiàn)出來(lái)的特點(diǎn)稱(chēng)為可預(yù)測(cè)性。

      在這個(gè)經(jīng)濟(jì)全球化的趨勢(shì)下,各行各業(yè)擁有者越來(lái)越多的機(jī)遇,同時(shí)也面臨著越來(lái)越多的挑戰(zhàn)。正在成長(zhǎng)期的企業(yè)需要正確把握效率與發(fā)展的平衡,這就需要肩負(fù)重任的企業(yè)家有洞察新問(wèn)題的能力和謀求新發(fā)展的戰(zhàn)略思考。于是在各大企業(yè)做決策時(shí)將會(huì)面臨著各種問(wèn)題和困難,于是對(duì)他們提出了更高的要求,這時(shí)數(shù)據(jù)挖掘就起到了很大很重要的決定,它可以幫助人們做出盡可能正確的決定,給企業(yè)創(chuàng)造更大的利潤(rùn)。數(shù)據(jù)挖掘與智能決策時(shí)如何相結(jié)合的呢?當(dāng)企業(yè)要做出重要決策時(shí),并不總是直接從原始的運(yùn)營(yíng)數(shù)據(jù)中找出有用的信息,而是從原始數(shù)據(jù)中按照一定的順序,經(jīng)過(guò)加工、整理和分析即數(shù)據(jù)挖掘之后,從中提煉出更加清晰和有層次的信息,而這些信息往往是啟發(fā)企業(yè)延伸思考和最終形成明智穩(wěn)妥的密鑰。

      常見(jiàn)的數(shù)據(jù)挖掘與智能決策相結(jié)合的案例如下:

      第一,2015年,長(zhǎng)虹啟動(dòng)用戶(hù)標(biāo)簽管理系統(tǒng),深入洞察用戶(hù)行為、偏好以及產(chǎn)品訴求等各方面特征。用戶(hù)標(biāo)簽系統(tǒng)與400客服中心對(duì)接后,售后人員可提前了解用戶(hù)購(gòu)買(mǎi)產(chǎn)品偏好等各方面信息,延保服務(wù)銷(xiāo)量增加了80%。

      第二,德國(guó)寶馬汽車(chē)公司以大數(shù)據(jù)為基礎(chǔ)建設(shè),并大量借助與第三方供應(yīng)商。2016年4月寶馬又與微軟合作,希望借助微軟Azure云計(jì)算平臺(tái)以及微軟數(shù)據(jù)庫(kù)和機(jī)器學(xué)習(xí)功能,為寶馬用戶(hù)提供路況、導(dǎo)航等應(yīng)用,從而提高用戶(hù)體驗(yàn)。

      第三,當(dāng)顧客向BELL公司投訴電話(huà)使用中的問(wèn)題時(shí),該公司決定派怎樣的技術(shù)人員去解決這個(gè)問(wèn)題,1991年主體解決方案是專(zhuān)家系統(tǒng)。1999年則利用數(shù)據(jù)挖掘創(chuàng)建匹配規(guī)則,學(xué)習(xí)得到的規(guī)則每年為BELL公司節(jié)約1000多萬(wàn)美元,因?yàn)閷?zhuān)家系統(tǒng)難以有效維護(hù),而學(xué)習(xí)得到的系統(tǒng)卻通過(guò)實(shí)例訓(xùn)練得到,因此降低了維護(hù)成本。

      綜上所述,不管是在自然領(lǐng)域還是在社會(huì)領(lǐng)域,信息網(wǎng)絡(luò)技術(shù)已經(jīng)為我們締造了一個(gè)巨大而神秘的大數(shù)據(jù)世界,這就需要用我們的智慧來(lái)迎接這個(gè)大數(shù)據(jù)時(shí)代向我們發(fā)起的挑戰(zhàn),進(jìn)而激發(fā)了我們?nèi)祟?lèi)對(duì)自然對(duì)社會(huì)的更深層的探索,并且產(chǎn)生了由衷的敬畏之情,需要我們用寬廣的胸襟接受自然的考驗(yàn),這就是我們?yōu)槭裁匆M(jìn)行大數(shù)據(jù)分析的原因。

      參考文獻(xiàn)

      [1]Usama M.Fayyad,Ramasamy Uthurusamy(Eds.):Proceedings of the First International Conferenceon Knowledge[J].Discovery and Data Mining(KDD-95),Montreal,Cnnada,August 20-21,1995.

      [2]王星.大數(shù)據(jù)分析:方法與應(yīng)用[M].北京:清華大學(xué)出版社,2013.

      作者簡(jiǎn)介:商夢(mèng)嬌(1992-),女,漢族,山東德州人,山東科技大學(xué)在校研究生,研究方向:計(jì)算理論與數(shù)據(jù)處理。

      猜你喜歡
      數(shù)據(jù)倉(cāng)庫(kù)機(jī)器學(xué)習(xí)數(shù)據(jù)挖掘
      探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
      基于數(shù)據(jù)倉(cāng)庫(kù)的住房城鄉(xiāng)建設(shè)信息系統(tǒng)整合研究
      基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
      電力與能源(2017年6期)2017-05-14 06:19:37
      分布式存儲(chǔ)系統(tǒng)在液晶面板制造數(shù)據(jù)倉(cāng)庫(kù)中的設(shè)計(jì)
      電子制作(2016年15期)2017-01-15 13:39:15
      基于機(jī)器學(xué)習(xí)的圖像特征提取技術(shù)在圖像版權(quán)保護(hù)中的應(yīng)用
      探析電力系統(tǒng)調(diào)度中數(shù)據(jù)倉(cāng)庫(kù)技術(shù)的應(yīng)用
      基于網(wǎng)絡(luò)搜索數(shù)據(jù)的平遙旅游客流量預(yù)測(cè)分析
      前綴字母為特征在維吾爾語(yǔ)文本情感分類(lèi)中的研究
      基于支持向量機(jī)的金融數(shù)據(jù)分析研究
      一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
      齐河县| 浮梁县| 阿图什市| 印江| 皋兰县| 天全县| 石棉县| 满城县| 图木舒克市| 天台县| 兴业县| 博白县| 柘荣县| 西城区| 屏山县| 伊吾县| 新田县| 乳山市| 凤城市| 沅陵县| 绩溪县| 旌德县| 峨山| 铜陵市| 和静县| 化隆| 长沙县| 通道| 湖口县| 祁东县| 泰宁县| 漠河县| 自治县| 甘孜| 石河子市| 靖宇县| 上高县| 新乡市| 会泽县| 通海县| 兴山县|