摘 要:隨著改革開放的進一步深化,以及經(jīng)濟全球化的快速發(fā)展,我國各行各業(yè)都有了質(zhì)的飛躍,發(fā)展方向更加全面。特別是近年來科學技術(shù)的發(fā)展和普及,更是促進了各領(lǐng)域的不斷發(fā)展,各學科均出現(xiàn)了科技交融。在這種社會背景下,數(shù)據(jù)形式和規(guī)模不斷向著更加快速、精準的方向發(fā)展,促使經(jīng)濟社會發(fā)生了翻天覆地的變化,同時也意味著大數(shù)據(jù)時代即將來臨。就目前而言,數(shù)據(jù)已經(jīng)改變傳統(tǒng)的結(jié)構(gòu)模式,在時代的發(fā)展推動下積極向著結(jié)構(gòu)化、半結(jié)構(gòu)化,以及非結(jié)構(gòu)化的數(shù)據(jù)模式方向轉(zhuǎn)換,改變了以往的只是單一地作為簡單的工具的現(xiàn)象,逐漸發(fā)展成為具有基礎(chǔ)性質(zhì)的資源。文章主要針對大數(shù)據(jù)時代下的數(shù)據(jù)分析與挖掘進行了分析和討論,并論述了建設(shè)數(shù)據(jù)分析與挖掘體系的原則,希望可以為從事數(shù)據(jù)挖掘技術(shù)的分析人員提供一定的幫助和理論啟示,僅供參考。
關(guān)鍵詞:大數(shù)據(jù);數(shù)據(jù)分析;數(shù)據(jù)挖掘;體系建設(shè)
引言
進入21世紀以來,隨著高新科技的迅猛發(fā)展和經(jīng)濟全球化發(fā)展的趨勢,我國國民經(jīng)濟迅速增長,各行業(yè)、領(lǐng)域的發(fā)展也頗為迅猛,人們生活水平與日俱增,在物質(zhì)生活得到極大滿足的前提下,更加追求精神層面以及視覺上的享受,這就涉及到數(shù)據(jù)信息方面的內(nèi)容。在經(jīng)濟全球化、科技一體化、文化多元化的時代,數(shù)據(jù)信息的作用和地位是不可小覷的,處理和歸類數(shù)據(jù)信息是達到信息傳遞的基礎(chǔ)條件,是發(fā)展各學科科技交融的前提。
然而,世界上的一切事物都包含著兩個方面,這兩個方面既相互對立,又相互統(tǒng)一。矛盾即對立統(tǒng)一。矛盾具有斗爭性和同一性兩種基本屬性,我們必須用一分為二的觀點、全面的觀點看問題。同時要積極創(chuàng)造條件,促進矛盾雙方的相互轉(zhuǎn)變。數(shù)據(jù)信息在帶給人們生產(chǎn)生活極大便利的同時,還會被諸多社會數(shù)據(jù)信息所困擾。為了使廣大人民群眾的日常生活更加便捷,需要其客觀、正確地使用、處理數(shù)據(jù)信息,完善和健全數(shù)據(jù)分析技術(shù)和數(shù)據(jù)挖掘手段,通過各種切實可行的數(shù)據(jù)分析方法科學合理地分析大數(shù)據(jù)時代下的數(shù)據(jù),做好數(shù)據(jù)挖掘技術(shù)工作。
1 實施數(shù)據(jù)分析的方法
在經(jīng)濟社會快速發(fā)展的背景下,我國在科學信息技術(shù)領(lǐng)域取得長足進步??萍夹畔⒌陌l(fā)展在極大程度上促進了各行各業(yè)的繁榮發(fā)展和長久進步,使其發(fā)展更加全面化、科學化、專業(yè)化,切實提升了我國經(jīng)濟的迅猛發(fā)展,從而形成了一個最佳的良性循環(huán),我國也由此進入了大數(shù)據(jù)時代。對于大數(shù)據(jù)時代而言,數(shù)據(jù)分析環(huán)節(jié)是必不可少的組成部分,只有科學準確地對信息量極大的數(shù)據(jù)進行處理、篩選,才能使其更好地服務(wù)于社會,服務(wù)于廣大人民群眾。正確處理數(shù)據(jù)進行分析過程是大數(shù)據(jù)時代下數(shù)據(jù)分析的至關(guān)重要的環(huán)節(jié)。眾所周知,大數(shù)據(jù)具有明顯的優(yōu)勢,在信息處理的過程中,需要對大容量數(shù)據(jù)、分析速率,以及多格式的數(shù)據(jù)三大問題進行詳細的分析和掌握。
1.1 Hadoop HDFS
HDFS,即分布式文件系統(tǒng),主要由客戶端模塊、元數(shù)據(jù)管理模塊、數(shù)據(jù)存儲服務(wù)模塊等模塊組成,其優(yōu)勢是儲存容量較大的文件,通常情況下被用于商業(yè)化硬件的群體中。相比于低端的硬件群體,商業(yè)化的硬件群體發(fā)生問題的幾率較低,在儲存大容量數(shù)據(jù)方面?zhèn)涫軞g迎和推崇。Hadoop,即是分布式計算,是一個用于運行應(yīng)用程序在大型集群的廉價硬件設(shè)備上的框架,為應(yīng)用程序的透明化的提供了一組具有穩(wěn)定性以及可靠性的接口和數(shù)據(jù)運動,可以不用在價格較高、可信度較高的硬件上應(yīng)用。一般情況下,面對出現(xiàn)問題概率較高的群體,分布式文件系統(tǒng)是處理問題的首選,它采用繼續(xù)運用的手法進行處理,而且還不會使用戶產(chǎn)生明顯的運用間斷問題,這是分布式計算的優(yōu)勢所在,而且還在一定程度上減少了機器設(shè)備的維修和維護費用,特別是針對于機器設(shè)備量龐大的用戶來說,不僅降低了運行成本,而且還有效提高了經(jīng)濟效益。
1.2 Hadoop的優(yōu)點與不足
隨著移動通信系統(tǒng)發(fā)展速度的不斷加快,信息安全是人們關(guān)注的重點問題。因此,為了切實有效地解決信息數(shù)據(jù)安全問題,就需要對大量的數(shù)據(jù)進行數(shù)據(jù)分析,不斷優(yōu)化數(shù)據(jù)信息,使數(shù)據(jù)信息更加準確,安全。在進行數(shù)據(jù)信息的過程中,Hadoop是最常用的解決問題的軟件構(gòu)架之一,它可以對眾多數(shù)據(jù)實行分布型模式解決,在處理的過程中,主要依據(jù)一條具有可信性、有效性、可伸縮性的途徑進行數(shù)據(jù)信息處理,這是Hadoop特有的優(yōu)勢。但是世界上一切事物都處在永不停息地變化發(fā)展之中,都有其產(chǎn)生、發(fā)展和滅亡的歷史,發(fā)展的實質(zhì)是事物的前進和上升,是新事物的產(chǎn)生和舊事物的滅亡,因此,要用科學發(fā)展的眼光看待問題。Hadoop同其他數(shù)據(jù)信息處理軟件一樣,也具有一定的缺點和不足。主要表現(xiàn)在以下幾個方面。
首先,就現(xiàn)階段而言,在企業(yè)內(nèi)部和外部的信息維護以及保護效用方面還存在一定的不足和匱乏,在處理這種數(shù)據(jù)信息的過程中,需要相關(guān)工作人員以手動的方式設(shè)置數(shù)據(jù),這是Hadoop所具有的明顯缺陷。因為在數(shù)據(jù)設(shè)置的過程中,相關(guān)數(shù)據(jù)信息的準確性完全是依靠工作人員而實現(xiàn)的,而這種方式的在無形中會浪費大量的時間,并且在設(shè)置的過程中出現(xiàn)失誤的幾率也會大大增加。一旦在數(shù)據(jù)信息處理過程中的某一環(huán)節(jié)出現(xiàn)失誤,就會導(dǎo)致整個數(shù)據(jù)信息處理過程失效,浪費了大量的人力、物力,以及財力。
其次,Hadoop需求社會具備投資構(gòu)建的且專用的計算集群,在構(gòu)建的過程中,會出現(xiàn)很多難題,比如形成單個儲存、計算數(shù)據(jù)信息和儲存,或者中央處理器應(yīng)用的難題。不僅如此,即使將這種儲存形式應(yīng)用于其他項目的上,也會出現(xiàn)兼容性難的問題。
2 實施數(shù)據(jù)挖掘的方法
隨著科學技術(shù)的不斷發(fā)展以及我國社會經(jīng)濟體系的不斷完善,數(shù)據(jù)信息處理逐漸成為相關(guān)部門和人們重視的內(nèi)容,并且越來越受到社會各界的廣泛關(guān)注和重視,并使數(shù)據(jù)信息分析和挖掘成為熱點話題。在現(xiàn)階段的大數(shù)據(jù)時代下,實施數(shù)據(jù)挖掘項目的方法有很多,且不同的方法適用的挖掘方向不同?;诖耍趯嶋H進行數(shù)據(jù)挖掘的過程中,需要根據(jù)數(shù)據(jù)挖掘項目的具體情況選擇相應(yīng)的數(shù)據(jù)挖掘方法。數(shù)據(jù)挖掘方法有分類法、回歸分析法、Web數(shù)據(jù)挖掘法,以及關(guān)系規(guī)則法等等。文章主要介紹了分類法、回歸分析法、Web數(shù)據(jù)挖掘法對數(shù)據(jù)挖掘過程進行分析。
2.1 分類法
隨著通信行業(yè)快速發(fā)展,基站建設(shè)加快,網(wǎng)絡(luò)覆蓋多元化,數(shù)據(jù)信息對人們的生產(chǎn)生活影響越來越顯著。計算機技術(shù)等應(yīng)用與發(fā)展在很大程度上促進了經(jīng)濟的進步,提高了人們的生活水平,推動了人類文明的歷史進程。在此背景下,數(shù)據(jù)分析與挖掘成為保障信息安全的基礎(chǔ)和前提。為了使得數(shù)據(jù)挖掘過程更好地進行,需要不斷探索科學合理的方法進行分析,以此確保大數(shù)據(jù)時代的數(shù)據(jù)挖掘進程更具準確性和可靠性。分類法是數(shù)據(jù)挖掘中常使用的方法之一,主要用于在數(shù)據(jù)規(guī)模較大的數(shù)據(jù)庫中尋找特質(zhì)相同的數(shù)據(jù),并將大量的數(shù)據(jù)依照不同的劃分形式區(qū)分種類。對數(shù)據(jù)庫中的數(shù)據(jù)進行分類的主要目的是將數(shù)據(jù)項目放置在特定的、規(guī)定的類型中,這樣做可以在極大程度上為用戶減輕工作量,使其工作內(nèi)容更加清晰,便于后續(xù)時間的內(nèi)容查找。另外,數(shù)據(jù)挖掘的分類還可以為用戶提高經(jīng)濟效益。
2.2 回歸分析法
除了分類法之外,回顧分析法也是數(shù)據(jù)挖掘經(jīng)常采用的方法。不同于分類法中對相同特質(zhì)的數(shù)據(jù)進行分類,回歸分析法主要是對數(shù)據(jù)庫中具有獨特性質(zhì)的數(shù)據(jù)進行展現(xiàn),并通過利用函數(shù)關(guān)系來展現(xiàn)數(shù)據(jù)之間的聯(lián)系和區(qū)別,進而分析相關(guān)數(shù)據(jù)信息特質(zhì)的依賴程度。就目前而言,回歸分析法通常被用于數(shù)據(jù)序列的預(yù)計和測量,以及探索數(shù)據(jù)之間存在的聯(lián)系。特別是在市場營銷方面,實施回歸分析法可以在營銷的每一個環(huán)節(jié)中都有所體現(xiàn),能夠很好地進行數(shù)據(jù)信息的挖掘,進而為市場營銷的可行性奠定數(shù)據(jù)基礎(chǔ)。
2.3 Web數(shù)據(jù)挖掘法
通訊網(wǎng)絡(luò)極度發(fā)達的現(xiàn)今時代,大大地豐富了人們的日常生活,使人們的生活更具科技性和便捷性,這是通過大規(guī)模的數(shù)據(jù)信息傳輸和處理而實現(xiàn)的。為了將龐大的數(shù)據(jù)信息有目的性地進行分析和挖掘,就需要通過合適的數(shù)據(jù)挖掘方法進行處理。Web數(shù)據(jù)挖掘法主要是針對網(wǎng)絡(luò)式數(shù)據(jù)的綜合性科技,到目前為止,在全球范圍內(nèi)較為常用的Web數(shù)據(jù)挖掘算法的種類主要有三種,且這三種算法涉及的用戶都較為籠統(tǒng),并沒有明顯的界限可以對用戶進行明確、嚴謹?shù)膭澐?。隨著高新科技的迅猛發(fā)展,也給Web數(shù)據(jù)挖掘法帶來了一定的挑戰(zhàn)和困難,尤其是在用戶分類層面、網(wǎng)站公布內(nèi)容的有效層面,以及用戶停留頁面時間長短的層面。因此,在大力推廣和宣傳Web技術(shù)的大數(shù)據(jù)時代,數(shù)據(jù)分析技術(shù)人員要不斷完善Web數(shù)據(jù)挖掘法的內(nèi)容,不斷創(chuàng)新數(shù)據(jù)挖掘方法,以期更好地利用Web數(shù)據(jù)挖掘法服務(wù)于社會,服務(wù)于人們。
3 大數(shù)據(jù)分析挖掘體系建設(shè)的原則
隨著改革開放進程的加快,我國社會經(jīng)濟得到明顯提升,人們物質(zhì)生活和精神文化生活大大滿足,特別是二十一世紀以來,科學信息技術(shù)的發(fā)展,更是提升了人們的生活水平,改善了生活質(zhì)量,計算機、手機等先進的通訊設(shè)備比比皆是,傳統(tǒng)的生產(chǎn)關(guān)系式和生活方式已經(jīng)落伍,并逐漸被淘汰,新的產(chǎn)業(yè)生態(tài)和生產(chǎn)方式噴薄而出,人們開始進入了大數(shù)據(jù)時代。因此,為了更好地收集、分析、利用數(shù)據(jù)信息,并從龐大的數(shù)據(jù)信息中精準、合理地選擇正確的數(shù)據(jù)信息,進而更加迅速地為有需要的人們傳遞信息,就需要建設(shè)大數(shù)據(jù)分析與挖掘體系,并在建設(shè)過程中始終遵循以下幾個原則。
3.1 平臺建設(shè)與探索實踐相互促進
經(jīng)濟全球化在對全球經(jīng)濟發(fā)展產(chǎn)生巨大推力的同時,還使得全球技術(shù)競爭更加激烈。為了實現(xiàn)大數(shù)據(jù)分析挖掘體系良好建設(shè)的目的,需要滿足平臺建設(shè)與探索實踐相互促進,根據(jù)體系建設(shè)實際逐漸摸索分析數(shù)據(jù)挖掘的完整流程,不斷積累經(jīng)驗,積極引進人才,打造一支具有專業(yè)數(shù)據(jù)分析與挖掘水準的隊伍,在實際的體系建設(shè)過程中吸取失敗經(jīng)驗,并適當借鑒發(fā)達國家的先進數(shù)據(jù)平臺建設(shè)經(jīng)驗,取其精華,促進平臺建設(shè),以此構(gòu)建并不斷完善數(shù)據(jù)分析挖掘體系。
3.2 技術(shù)創(chuàng)新與價值創(chuàng)造深度結(jié)合
從宏觀意義上講,創(chuàng)新是民族進步的靈魂,是國家興旺發(fā)達的不竭動力。而對于數(shù)據(jù)分析挖掘體系建設(shè)而言,創(chuàng)新同樣具有重要意義和作用。創(chuàng)新是大數(shù)據(jù)的靈魂,在建設(shè)大數(shù)據(jù)分析挖掘體系過程中,要將技術(shù)創(chuàng)新與價值創(chuàng)造深度結(jié)合,并將價值創(chuàng)造作為目標,輔以技術(shù)創(chuàng)新手段,只有這樣,才能達到大數(shù)據(jù)分析挖掘體系建設(shè)社會效益與經(jīng)濟效益的雙重目的。
3.3 人才培養(yǎng)與能力提升良性循環(huán)
意識對物質(zhì)具有反作用,正確反映客觀事物及其發(fā)展規(guī)律的意識,能夠指導(dǎo)人們有效地開展實踐活動,促進客觀事物的發(fā)展。歪曲反映客觀事物及其發(fā)展規(guī)律的意識,則會把人的活動引向歧途,阻礙客觀事物的發(fā)展。由此可以看出意識正確與否對于大數(shù)據(jù)分析挖掘體系平臺建設(shè)的重要意義。基于此,要培養(yǎng)具有大數(shù)據(jù)技術(shù)能力和創(chuàng)新能力的數(shù)據(jù)分析人才,并定期組織教育學習培訓,不斷提高他們的數(shù)據(jù)分析能力,不斷進行交流和溝通,培養(yǎng)數(shù)據(jù)分析意識,提高數(shù)據(jù)挖掘能力,實現(xiàn)科學的數(shù)據(jù)挖掘流程與高效的數(shù)據(jù)挖掘執(zhí)行,從而提升數(shù)據(jù)分析挖掘體系平臺建設(shè)的良性循環(huán)。
4 結(jié)束語
通過文章的綜合論述可知,在經(jīng)濟全球化趨勢迅速普及的同時,科學技術(shù)不斷創(chuàng)新與完善,人們的生活水平和品質(zhì)都有了質(zhì)的提升,先進的計算機軟件等設(shè)備迅速得到應(yīng)用和推廣。人們實現(xiàn)信息傳遞的過程是通過對大規(guī)模的數(shù)據(jù)信息進行處理和計算形成的,而信息傳輸和處理等過程均離不開數(shù)據(jù)信息的分析與挖掘。可以說,我國由此進入了大數(shù)據(jù)時代。然而,就我國目前數(shù)據(jù)信息處理技術(shù)來看,相關(guān)數(shù)據(jù)技術(shù)還處于發(fā)展階段,與發(fā)達國家的先進數(shù)據(jù)分析技術(shù)還存在一定的差距和不足。所以,相關(guān)數(shù)據(jù)分析人員要根據(jù)我國的基本國情和標準需求對數(shù)據(jù)分析技術(shù)進行完善,提高思想意識,不斷提出切實可行的方案進行數(shù)據(jù)分析技術(shù)的創(chuàng)新,加大建設(shè)大數(shù)據(jù)分析挖掘體系的建設(shè),搭建可供進行數(shù)據(jù)信息處理、劃分的平臺,為大數(shù)據(jù)時代的數(shù)據(jù)分析和挖掘提供更加科學、專業(yè)的技術(shù),從而為提高我國的科技信息能力提供基本的保障和前提。
參考文獻
[1]唐東波.基于神經(jīng)網(wǎng)絡(luò)集成的電信客戶流失預(yù)測建模及應(yīng)用[J].大眾商務(wù),2010(06).
[2]劉蓉,陳曉紅.基于數(shù)據(jù)挖掘的移動通信客戶消費行為分析[J].計算機應(yīng)用與軟件,2006(02).
[3]魏娟,梁靜國.基于數(shù)據(jù)挖掘技術(shù)的企業(yè)客戶關(guān)系管理(CRM)[J].商業(yè)研究,2005(07).
[4]田苗苗.數(shù)據(jù)挖掘之決策樹方法概述[J].長春大學學報,2004(06).
[5]王曉佳,楊善林,陳志強.大數(shù)據(jù)時代下的情報分析與挖掘技術(shù)研究——電信客戶流失情況分析[J].情報學報,2013.
[6]劉京臣.大數(shù)據(jù)時代的古典文學研究——以數(shù)據(jù)分析、數(shù)據(jù)挖掘與圖像檢索為中心[J].文學遺產(chǎn),2015.
[7]李浩博,陳睿.大數(shù)據(jù)時代火力發(fā)電廠數(shù)據(jù)價值深度挖掘應(yīng)用探析[J].中國電機工程學會電力行業(yè)信息化年會,2012.
[8]劉曉亮.大數(shù)據(jù)時代的圖書館數(shù)據(jù)挖掘技術(shù)探討[J].無線互聯(lián)科技,2015.