石秋發(fā) 邱瀚
(1.山東省電子政務(wù)大數(shù)據(jù)工程技術(shù)研究中心 山東省濟(jì)南市 250014 2.華中科技大學(xué)管理學(xué)院 湖北省武漢市 430074)
互聯(lián)網(wǎng)技術(shù)和智能化技術(shù)在不斷的發(fā)展普及,在日常生活中人們越來越離不開互聯(lián)網(wǎng)信息技術(shù),這些新興的技術(shù)在工作和日常生活中得到了廣泛的應(yīng)用,因此每天產(chǎn)生的數(shù)據(jù)數(shù)量極多,數(shù)據(jù)的類型也十分豐富,這意味著我們已經(jīng)進(jìn)入了大數(shù)據(jù)時代。在大數(shù)據(jù)時代中數(shù)據(jù)信息具有很高的商業(yè)價值,能夠推動各行各業(yè)的發(fā)展和改革,決定著企業(yè)的盈利水平。目前數(shù)據(jù)挖掘中面臨著數(shù)據(jù)源的處理和海量數(shù)據(jù)的處理,兩種問題,計(jì)算機(jī)行業(yè)的高速發(fā)展使得數(shù)據(jù)庫以外的數(shù)據(jù)不斷出現(xiàn),如何進(jìn)行數(shù)據(jù)源和數(shù)據(jù)信息的有效處理,使數(shù)據(jù)挖掘技術(shù)中需要重點(diǎn)考慮的問題,同時隨著互聯(lián)網(wǎng)等行業(yè)的發(fā)展和普及數(shù)據(jù)量在不斷的增加,需要進(jìn)一步提高數(shù)據(jù)挖掘技術(shù)的效率和質(zhì)量。大數(shù)據(jù)挖掘技術(shù)通過加入云計(jì)算技術(shù)可以有效的提高數(shù)據(jù)挖掘的效率,但是也面臨著眾多的問題,這些問題的存在阻礙著云計(jì)算中大數(shù)據(jù)挖掘技術(shù)的發(fā)展,因此基于云計(jì)算的大數(shù)據(jù)挖掘體系構(gòu)建研究具有重大的意義。
云計(jì)算技術(shù)是一種以互聯(lián)網(wǎng)為基礎(chǔ)的計(jì)算模式,通過虛擬化的方式處理信息資源,并進(jìn)行計(jì)算云計(jì)算技術(shù)具有強(qiáng)大的儲存功能,能夠有效提高用戶使用的便捷性,云計(jì)算是并行計(jì)算和分布式計(jì)算的發(fā)展結(jié)果。數(shù)據(jù)挖掘是指從大量數(shù)據(jù)中挖掘具有價值數(shù)據(jù)的過程,通過數(shù)據(jù)挖掘能夠發(fā)現(xiàn)大數(shù)據(jù)中所隱藏的價值和知識,并對用戶進(jìn)行指導(dǎo)作用,目前數(shù)據(jù)挖掘技術(shù)并用到了多個領(lǐng)域的決策指導(dǎo)中。數(shù)據(jù)挖掘主要包括預(yù)測任務(wù)和描述任務(wù)兩種預(yù)測任務(wù)是指根據(jù)屬性對目標(biāo)屬性做出預(yù)測描述,任務(wù)則是將數(shù)據(jù)間隱藏的聯(lián)系所描述出來。在大數(shù)據(jù)中應(yīng)用數(shù)據(jù)挖掘能夠獲取更大價值的信息數(shù)據(jù),從而為各行各業(yè)創(chuàng)造出更大的效益。
在數(shù)量龐大的數(shù)據(jù)中隱藏著具有很高價值的數(shù)據(jù)信息,同時數(shù)據(jù)類型也存在多樣化的特點(diǎn),比如說文本形式,數(shù)據(jù)信息,圖片,視頻形式的數(shù)據(jù)信息。大數(shù)據(jù)挖掘就是指從這些海量的數(shù)據(jù)中挖掘出具有價值的數(shù)據(jù)信息,然后為用戶提供所需的數(shù)據(jù)由于大數(shù)據(jù)數(shù)量龐大,價值密度低,導(dǎo)致傳統(tǒng)的數(shù)據(jù)挖掘,無法快速高效率的挖掘數(shù)據(jù)。因此全新的大數(shù)據(jù)挖掘技術(shù)就此出現(xiàn)并發(fā)揮出了積極的作用,大數(shù)據(jù)挖掘具有廣泛性,主動性和復(fù)雜性的特點(diǎn),廣泛性是指大數(shù)據(jù)挖掘過程中,挖掘的數(shù)據(jù)源十分廣泛,主動性是指大數(shù)據(jù)挖掘使用收集數(shù)據(jù)的方式,主動進(jìn)行數(shù)據(jù)收集,復(fù)雜性則是指大數(shù)據(jù)挖掘過程中挖掘的數(shù)據(jù)類型十分復(fù)雜。
近年來我國互聯(lián)網(wǎng)技術(shù)在不斷的發(fā)展,數(shù)據(jù)傳輸?shù)乃俣茸兊脴O快,因此產(chǎn)生的數(shù)據(jù)量也越來越多,對于用戶來說信息需求較大,這種時候大數(shù)據(jù)技術(shù)和云計(jì)算技術(shù)得到了快速的發(fā)展,以此來滿足用戶的需求。在大數(shù)據(jù)時代傳統(tǒng)的數(shù)據(jù)挖掘已經(jīng)無法滿足用戶需求,需要通過基于云計(jì)算的大數(shù)據(jù)挖掘來解決數(shù)據(jù)挖掘存在的問題,不僅能夠彌補(bǔ)傳統(tǒng)數(shù)據(jù)挖掘中的漏洞,還能夠有效的提高數(shù)據(jù)處理的速度和效率,實(shí)現(xiàn)大數(shù)據(jù)挖掘。基于云計(jì)算的大數(shù)據(jù)挖掘具有眾多的優(yōu)勢,能夠在海量數(shù)據(jù)中挖掘出有價值的信息,并將數(shù)據(jù)信息高度應(yīng)用,這是傳統(tǒng)數(shù)據(jù)挖掘技術(shù)的創(chuàng)新發(fā)展,能夠?qū)崿F(xiàn)大數(shù)據(jù)時代的快速傳遞和處理。
基于云計(jì)算的大數(shù)據(jù)挖掘是將大數(shù)據(jù)挖掘和云計(jì)算技術(shù)相結(jié)合,能夠有效的提高大數(shù)據(jù)挖掘的速度和效率,云計(jì)算是一種需要付費(fèi)的計(jì)算模式,能夠?yàn)橛脩籼峁┨摂M化資源,在大數(shù)據(jù)挖掘中能夠有效的提高大數(shù)據(jù)挖掘的存儲能力,加快大數(shù)據(jù)挖掘的處理速度。云計(jì)算技術(shù)的核心是分布式儲存和計(jì)算技術(shù),這種技術(shù)能夠有效的解決數(shù)據(jù)挖掘中儲存空間不足和計(jì)算過慢的問題,讓大數(shù)據(jù)挖掘,能夠在儲存的過程中并進(jìn)行計(jì)算。云計(jì)算技術(shù)能夠有效的提高大數(shù)據(jù)挖掘的性能,將大數(shù)據(jù)挖掘的深度和廣度進(jìn)行拓展,并實(shí)現(xiàn)實(shí)時處理和分析數(shù)據(jù),能夠有效的滿足用戶對信息數(shù)據(jù)的需求?;谠朴?jì)算的大數(shù)據(jù)挖掘體系,是大數(shù)據(jù)挖掘依靠云計(jì)算技術(shù)而構(gòu)建的數(shù)據(jù)處理系統(tǒng),能夠有效的提高數(shù)據(jù)獲取,處理和分析。
分布式并行技術(shù)是云計(jì)算技術(shù)的核心內(nèi)容,通過提供分布式文件存儲并進(jìn)行相關(guān)計(jì)算。分布式文件存儲的主要作用是提高數(shù)據(jù)信息的處理速度并滿足計(jì)算的要求,這是大數(shù)據(jù)挖掘中的關(guān)鍵技術(shù),目前分布式文件系統(tǒng)在商業(yè)領(lǐng)域和學(xué)術(shù)領(lǐng)域被廣泛應(yīng)用。分布式并行計(jì)算主要是對數(shù)據(jù)分布,任務(wù)執(zhí)行,數(shù)據(jù)容錯等問題進(jìn)行編碼處理用戶僅需調(diào)用執(zhí)行即可以使用計(jì)算結(jié)果。
數(shù)據(jù)的挖掘算法是統(tǒng)計(jì)學(xué)模式識別人工智能等多領(lǐng)域的結(jié)合是大數(shù)據(jù)挖掘平臺中的核心技術(shù),最常見的方法是統(tǒng)計(jì)分析和決策數(shù)等。統(tǒng)計(jì)分析是最為簡單的方法,通過對數(shù)據(jù)各項(xiàng)值進(jìn)行統(tǒng)計(jì)分析。決策數(shù)是對數(shù)據(jù)行分類后快速描述。神經(jīng)網(wǎng)絡(luò)具有較強(qiáng)的學(xué)習(xí)組織和適應(yīng)能力,可以對數(shù)據(jù)信息進(jìn)行分類和預(yù)測,不同的大數(shù)據(jù)算法都具有自己的優(yōu)勢,能夠用到不同的領(lǐng)域中,需要根據(jù)用戶的需求進(jìn)行大數(shù)據(jù)挖掘算法的應(yīng)用組合。
基于云計(jì)算的大數(shù)據(jù)挖掘平臺,主要是利用云計(jì)算自身的存儲能力和分布式處理技術(shù)的優(yōu)勢來完成大數(shù)據(jù)挖掘,基于云計(jì)算的大數(shù)據(jù)挖掘模型,主要包括三層結(jié)構(gòu)。
基于云計(jì)算的大數(shù)據(jù)挖掘體系頂層,主要包括工作流子系統(tǒng)和用戶接口子系統(tǒng),主要的作用是面向用戶,其中工作流子系統(tǒng)是用來幫助用戶建立數(shù)據(jù)挖掘任務(wù),而用戶接口子系統(tǒng)的主要作用是跟用戶實(shí)現(xiàn)交互功能用戶在界面輸入模塊設(shè)置參數(shù),選擇合適的數(shù)據(jù)挖掘算法,通過大數(shù)據(jù)挖掘平臺開始數(shù)據(jù)挖掘,最后以可視化簡單的方式呈現(xiàn)到用戶眼前。
中間層是數(shù)據(jù)挖掘系統(tǒng)中的核心部分,包括數(shù)據(jù)處理子系統(tǒng)和數(shù)據(jù)挖掘子系統(tǒng)在云計(jì)算中大數(shù)據(jù)挖掘平臺計(jì)算模型主要適用于同類型結(jié)構(gòu)一致的數(shù)據(jù),因此需要數(shù)據(jù)處理子系統(tǒng)對大量的數(shù)據(jù)結(jié)構(gòu)進(jìn)行提前處理相處理的結(jié)果,以數(shù)據(jù)挖掘算法進(jìn)行輸入。常用的數(shù)據(jù)處理方法,包括數(shù)據(jù)清洗,數(shù)據(jù)轉(zhuǎn)化,抽取,集成和加載等。數(shù)據(jù)信息經(jīng)過中間層的處理后,無用的數(shù)據(jù)信息會進(jìn)行排除清理,提高了數(shù)據(jù)挖掘的效率和質(zhì)量。數(shù)據(jù)挖掘子系統(tǒng)是數(shù)據(jù)挖掘平臺的核心模塊,目前數(shù)據(jù)挖掘算法種類繁多,由于數(shù)據(jù)挖掘平臺是基于云計(jì)算的算法模型,因此云計(jì)算平臺上無法直接使用部分算法,必須要對現(xiàn)有的算法進(jìn)行整合和改造,才能實(shí)現(xiàn)在云計(jì)算平臺上使用。
數(shù)據(jù)中心層是系統(tǒng)中的最底層,主要的作用是用來儲存儲大數(shù)據(jù)并對大數(shù)據(jù)進(jìn)行處理的部分,數(shù)據(jù)中心層需要保留多份數(shù)據(jù)副本以保證數(shù)據(jù)的安全性,由于云計(jì)算使用的是并行工作模式,即使大量的用戶在發(fā)出請求時也可以做出迅速反應(yīng),以此來提高大數(shù)據(jù)挖掘平臺的工作效率。
大數(shù)據(jù)技術(shù)不斷發(fā)展,基于云計(jì)算的大數(shù)據(jù)挖掘速度和效率都得到了顯著的提高,但是在大數(shù)據(jù)時代,數(shù)據(jù)信息的安全問題也不斷出現(xiàn)。如何保證數(shù)據(jù)信息的安全,是基于云計(jì)算的大數(shù)據(jù)挖掘體系構(gòu)建過程中需要重點(diǎn)考慮的問題,只有解決數(shù)據(jù)信息的安全問題,才能保證基于云計(jì)算的大數(shù)據(jù)挖掘體系,處于安全的環(huán)境中進(jìn)行運(yùn)行。首先要提高數(shù)據(jù)安全保護(hù)意識,做到主動保護(hù)數(shù)據(jù)信息安全,通過多種方式來保障數(shù)據(jù)安全,比如說設(shè)立防火墻和局域網(wǎng)密碼。其次提高數(shù)據(jù)信息安全保護(hù)的水平,技術(shù)人員通過提升大數(shù)據(jù)挖掘體系的抵抗性,對數(shù)據(jù)信息進(jìn)行定期監(jiān)測,及時更新防火墻補(bǔ)丁,保障用戶數(shù)據(jù)安全。
基于云計(jì)算的大數(shù)據(jù)挖掘體系的功能是吸引用戶注意力的主要因素,絕大多數(shù)企業(yè)在進(jìn)行大數(shù)據(jù)挖掘體系開發(fā)過程中,對于功能的設(shè)計(jì)較少,不能滿足用戶的需求,也無法獲得更高的利益。因此為了提高企業(yè)的收益,要加強(qiáng)大數(shù)據(jù)挖掘體系的研究,將開發(fā)人員的工資和績效相掛鉤,以此來提高開發(fā)人員的工作熱情,另外可以設(shè)置獎勵機(jī)制,對于開發(fā)人員提出的有效建議要進(jìn)行獎金獎勵,從而提高開發(fā)人員的工作熱情。其次要加強(qiáng)和用戶的溝通,基于云計(jì)算大數(shù)據(jù)挖掘體系,主要服務(wù)對象就是用戶了解用戶的需求,才能設(shè)計(jì)出符合用戶需求的功能。
基于云計(jì)算的大數(shù)據(jù)挖掘體系構(gòu)建,主要依靠相關(guān)的云計(jì)算和大數(shù)據(jù)挖掘人才進(jìn)行支撐,是在實(shí)際的工作中,絕大多數(shù)的企業(yè)都面臨著云計(jì)算和大數(shù)據(jù)人才缺失的問題。該問題存在的原因,一方面是因?yàn)槠髽I(yè)沒有做好相關(guān)者招聘和培訓(xùn)工作,在招聘時過于重視應(yīng)聘者的學(xué)歷,對于應(yīng)聘者所具備的專業(yè)水平和能力不予重視,因此導(dǎo)致云計(jì)算和大數(shù)據(jù)挖掘人才嚴(yán)重缺失。另外一方面是因?yàn)槠髽I(yè)缺乏相關(guān)的培訓(xùn)工作,導(dǎo)致部分具有云計(jì)算和大數(shù)據(jù)挖掘技術(shù)的人才,無法進(jìn)行相關(guān)專業(yè)的培訓(xùn)工作,阻礙了員工的發(fā)展和專業(yè)水平的提高。首先為了解決人才缺失的問題,相關(guān)企業(yè)要做好招聘工作,在進(jìn)行招聘時,對于應(yīng)聘者進(jìn)行技術(shù)和能力考核來測試應(yīng)聘者自身的專業(yè)水平和能力,降低學(xué)歷要求從應(yīng)聘者中選拔優(yōu)秀的人才,對于有相關(guān)工作經(jīng)驗(yàn)的人要進(jìn)行優(yōu)先錄取,對于專業(yè)水平高,但實(shí)際工作經(jīng)驗(yàn)較低的人,采取培訓(xùn)的方式來提高能力。其次,企業(yè)內(nèi)部要做好培訓(xùn)工作,積極開展多種培訓(xùn)方式,可以聘請專家到公司進(jìn)行講述,也可以舉辦內(nèi)部討論大會,讓企業(yè)員工互相幫助互相學(xué)習(xí),通過培訓(xùn)的方式來提高員工的綜合素質(zhì)和專業(yè)水平。
綜上所述,云計(jì)算技術(shù)和大數(shù)據(jù)技術(shù)的不斷發(fā)展,基于云計(jì)算的大數(shù)據(jù)挖掘體系構(gòu)建也在不斷的完善,能夠滿足用戶的信息需求,為用戶提供高質(zhì)量的數(shù)據(jù)挖掘,有效的提高數(shù)據(jù)挖掘的效率和質(zhì)量。隨著大數(shù)據(jù)時代的來臨,數(shù)據(jù)挖掘服務(wù)是時代的產(chǎn)物,基于云計(jì)算的數(shù)據(jù)挖掘系統(tǒng)在互聯(lián)網(wǎng)行業(yè)將變得不可或缺,它能夠有效的解決數(shù)據(jù)挖掘所面臨的問題,提高數(shù)據(jù)挖掘的性能,幫助互聯(lián)網(wǎng)企業(yè)在大數(shù)據(jù)時代中獲取有價值的信息資源,基于云計(jì)算的數(shù)據(jù)挖掘體系構(gòu)建,表現(xiàn)出了更高的可能,能夠有效解決傳統(tǒng)數(shù)據(jù)挖掘所面臨的各種問題,提高大數(shù)據(jù)挖掘的效率和質(zhì)量,推動我們企業(yè)的發(fā)展水平,提高社會的發(fā)展水平。