鄭小樂(lè)
摘要:云計(jì)算環(huán)境下的數(shù)據(jù)存儲(chǔ)和挖掘有別于傳統(tǒng)的數(shù)據(jù)存儲(chǔ)和挖掘技術(shù),更注重分布式數(shù)據(jù)環(huán)境的設(shè)計(jì)和網(wǎng)絡(luò)對(duì)數(shù)據(jù)的協(xié)調(diào)傳輸能力。數(shù)據(jù)挖掘在云環(huán)境下的數(shù)據(jù)模型的好壞直接決定了數(shù)據(jù)挖掘的效果質(zhì)量。
Abstract: Data storage and mining in a cloud computing environment is different from traditional data storage and mining technologies, and more attention is paid to the design of distributed data environments and the ability of networks to coordinate data transmission. The quality of data mining in a cloud environment directly determines the quality of data mining.
關(guān)鍵詞:云計(jì)算;數(shù)據(jù)存儲(chǔ);數(shù)據(jù)挖掘
Key words: cloud computing;data storage;data mining
中圖分類號(hào):TP311.1? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 文章編號(hào):1006-4311(2020)12-0202-02
0? 引言
隨著互聯(lián)網(wǎng)技術(shù)的不斷發(fā)展,海量數(shù)據(jù)出現(xiàn)爆炸式的增長(zhǎng),海量數(shù)據(jù)的存儲(chǔ)和使用成了互聯(lián)網(wǎng)發(fā)展的關(guān)鍵技術(shù)。大量的、動(dòng)態(tài)增長(zhǎng)的、非關(guān)系型的數(shù)據(jù)使得傳統(tǒng)的數(shù)據(jù)存儲(chǔ)和處理技術(shù)不再適應(yīng),如何從海量的數(shù)據(jù)提取和挖掘有用的數(shù)據(jù)信息知識(shí),傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)也無(wú)法滿足要求,因此當(dāng)前需要一種能夠存儲(chǔ)海量數(shù)據(jù)的云存儲(chǔ)技術(shù)和大數(shù)據(jù)挖掘來(lái)應(yīng)對(duì)當(dāng)前數(shù)據(jù)存儲(chǔ)和增長(zhǎng)的挑戰(zhàn)。然而當(dāng)前通用的數(shù)據(jù)存儲(chǔ)和挖掘模型尚少,雖然有些企業(yè)有自己的解決方案,但是系統(tǒng)存在著不可移植性,如何在云計(jì)算環(huán)境下實(shí)現(xiàn)可靠的數(shù)據(jù)存儲(chǔ)、清洗、抽取、聚合等相關(guān)數(shù)據(jù)挖掘步驟,成了亟需解決的關(guān)鍵技術(shù)問(wèn)題[1]。
1? 傳統(tǒng)存儲(chǔ)和云計(jì)算存儲(chǔ)
傳統(tǒng)的數(shù)據(jù)由于其量小,固定,并且是非動(dòng)態(tài)的增長(zhǎng),所以存儲(chǔ)起來(lái)比較簡(jiǎn)單,一般是存儲(chǔ)在單一的存儲(chǔ)介質(zhì)和物理位置上[2]。數(shù)據(jù)的應(yīng)用和存取也大多是現(xiàn)場(chǎng)使用或是通過(guò)網(wǎng)絡(luò)訪問(wèn)單一處的存儲(chǔ)介質(zhì),在處理技術(shù)上不復(fù)雜,只要擴(kuò)大存儲(chǔ)介質(zhì)的容量和網(wǎng)絡(luò)流量,就可以很容易的實(shí)現(xiàn)數(shù)據(jù)的調(diào)用和處理。對(duì)少量的數(shù)據(jù)也可以通過(guò)軟盤、光盤、U盤等各種移動(dòng)存儲(chǔ)介質(zhì)實(shí)現(xiàn)數(shù)據(jù)的靈活移動(dòng),而對(duì)大多數(shù)據(jù)來(lái)講,主要是存儲(chǔ)在物理硬盤上,所以傳統(tǒng)的數(shù)據(jù)存儲(chǔ)技術(shù)的發(fā)展和物理存儲(chǔ)介質(zhì)的發(fā)展是分不開(kāi)的,只要擴(kuò)大物理存儲(chǔ)介質(zhì)的容量就可以提高傳統(tǒng)數(shù)據(jù)的存儲(chǔ)能力,和網(wǎng)絡(luò)的處理能力沒(méi)有多大關(guān)系。
而當(dāng)數(shù)據(jù)發(fā)展到大數(shù)據(jù)時(shí)代,單一的物理介質(zhì)很難滿足數(shù)據(jù)的存儲(chǔ),所以云計(jì)算存儲(chǔ)和傳統(tǒng)的存儲(chǔ)有著比較大的區(qū)別,除了存儲(chǔ)方式上有很大的區(qū)別外,在運(yùn)算方式上也有著根本的轉(zhuǎn)變。云計(jì)算下的存儲(chǔ)是通過(guò)復(fù)雜的網(wǎng)絡(luò)系統(tǒng),通過(guò)分布式處理系統(tǒng)將數(shù)據(jù)存儲(chǔ)在不同位置,不同存儲(chǔ)介質(zhì)上,所以云計(jì)算下的存儲(chǔ)技術(shù)的關(guān)鍵點(diǎn)不再是物理存儲(chǔ)介質(zhì)容量的擴(kuò)大,而是如何通過(guò)網(wǎng)絡(luò)將分布在不同位置的數(shù)據(jù)進(jìn)行有效的傳統(tǒng)和組合,這是傳統(tǒng)存儲(chǔ)技術(shù)無(wú)法實(shí)現(xiàn)的問(wèn)題。同時(shí),云計(jì)算存儲(chǔ)設(shè)備也不再僅僅是計(jì)算機(jī)系統(tǒng)中的各類硬件設(shè)備、儲(chǔ)存設(shè)備等,而是各種能夠存儲(chǔ)信息的設(shè)備所構(gòu)成的一個(gè)復(fù)雜的云系統(tǒng),個(gè)人手機(jī)、網(wǎng)絡(luò)設(shè)備等都有可能成為云計(jì)算存儲(chǔ)因子。由此可以看出云計(jì)算存儲(chǔ)的關(guān)鍵不是存儲(chǔ)介質(zhì)(存儲(chǔ)介質(zhì)基本沒(méi)變),而是如何將分布在云中的數(shù)據(jù)組織和調(diào)用起來(lái)。
2? 云計(jì)算儲(chǔ)存技術(shù)中的核心要素
云計(jì)算的存儲(chǔ)是指如何將數(shù)據(jù)存儲(chǔ)在云端并且為用戶提供良好的服務(wù),用戶在存取數(shù)據(jù)的時(shí)候并不知道數(shù)據(jù)存儲(chǔ)位置,也不知道數(shù)據(jù)是如何進(jìn)行調(diào)用的,而存儲(chǔ)數(shù)據(jù)的管理人員或是軟件設(shè)計(jì)者將數(shù)據(jù)存儲(chǔ)的位置、調(diào)用方法、提供服務(wù)的先后順序都設(shè)計(jì)在分布式管理系統(tǒng)中,對(duì)用戶來(lái)說(shuō)是透明的,用戶只要通過(guò)授權(quán)驗(yàn)證就可以使用這些云端的數(shù)據(jù)。
2.1 云計(jì)算存儲(chǔ)中的介質(zhì)層
云計(jì)算的存儲(chǔ)按照不同的功能分為四個(gè)層次,介質(zhì)層、訪問(wèn)層、接口層和管理層。由于云計(jì)算的數(shù)據(jù)最終存儲(chǔ)地址仍然是存儲(chǔ)介質(zhì),所以存儲(chǔ)介質(zhì)仍然是云計(jì)算存儲(chǔ)中最為基礎(chǔ)的部分?,F(xiàn)在的存儲(chǔ)設(shè)備也多了很多,比如FC、NAS或是采用DAS技術(shù)的存儲(chǔ)設(shè)備,這些設(shè)備可以分布在不同的物理位置,當(dāng)數(shù)據(jù)被調(diào)用的時(shí)候,通過(guò)云計(jì)算的數(shù)據(jù)調(diào)用算法,從不同物理位置或設(shè)備中提取數(shù)據(jù),不同存儲(chǔ)設(shè)備之間通過(guò)互聯(lián)網(wǎng)進(jìn)行信息溝通,形成完整的儲(chǔ)存設(shè)備管理系統(tǒng)。
2.2 云計(jì)算存儲(chǔ)中的訪問(wèn)層
存儲(chǔ)在介質(zhì)層中的數(shù)據(jù)可以供用戶進(jìn)行訪問(wèn),但是不是任意用戶都可以訪問(wèn)任何數(shù)據(jù)的,只有通過(guò)授權(quán)的用戶才能夠通過(guò)訪問(wèn)層訪問(wèn)云計(jì)算存儲(chǔ)系統(tǒng),所以云計(jì)算存儲(chǔ)中的訪問(wèn)層對(duì)數(shù)據(jù)的安全起著一定的作用,本層給用戶通過(guò)標(biāo)準(zhǔn)的接口進(jìn)行存儲(chǔ)和訪問(wèn)。在實(shí)際使用的過(guò)程中,不同單位可以通過(guò)設(shè)計(jì)自己的訪問(wèn)層接口,因而會(huì)造成不同使用單位之間的接口不統(tǒng)一,從而各單位之間存儲(chǔ)的云數(shù)據(jù)交流會(huì)出現(xiàn)障礙,給云計(jì)算存儲(chǔ)的數(shù)據(jù)管理上帶來(lái)一定的困難。
2.3 云計(jì)算存儲(chǔ)中的應(yīng)用接口層
應(yīng)用接口層是一個(gè)綜合功能的設(shè)備來(lái)實(shí)現(xiàn)的,相對(duì)比較靈活,在本層中需要通過(guò)網(wǎng)絡(luò)的接入、用戶的認(rèn)證和系統(tǒng)對(duì)用戶授權(quán)的管理,在當(dāng)今市場(chǎng)中,有各種可以提供此功能的設(shè)備,用戶可以根據(jù)需要選擇合適的應(yīng)用接口。為了提高云計(jì)算存儲(chǔ)的效率,可以根據(jù)不同的應(yīng)用接口開(kāi)發(fā)出各不相同的云存儲(chǔ)應(yīng)用。
2.4 云計(jì)算存儲(chǔ)中的基礎(chǔ)管理層
本層是云計(jì)算的存儲(chǔ)和調(diào)用的最核心的層次,數(shù)據(jù)管理者可以在本層次制定數(shù)據(jù)訪問(wèn)和調(diào)用的最好的解決方式,為了能夠讓云端數(shù)據(jù)提供更好的服務(wù),需要對(duì)各存儲(chǔ)設(shè)備中的數(shù)據(jù)和提供服務(wù)的順序提供最為合理的服務(wù)。如何協(xié)調(diào)各設(shè)備中的數(shù)據(jù)和傳輸關(guān)系著數(shù)據(jù)存儲(chǔ)設(shè)備和網(wǎng)絡(luò)能否提供優(yōu)質(zhì)的服務(wù),也決定了數(shù)據(jù)的穩(wěn)定和流暢性,在基礎(chǔ)管理層的設(shè)置好壞,決定了云計(jì)算數(shù)據(jù)是否能夠提供良好的服務(wù)。在本層上管理人員也可以進(jìn)行數(shù)據(jù)安全的設(shè)置,比如對(duì)各存儲(chǔ)的數(shù)據(jù)進(jìn)行云端加密,這個(gè)加密是對(duì)存儲(chǔ)過(guò)程和存取過(guò)程的加密,不是對(duì)數(shù)據(jù)進(jìn)行加密,可以保證數(shù)據(jù)結(jié)構(gòu)的完整性。
3? 云計(jì)算數(shù)據(jù)中的數(shù)據(jù)挖掘技術(shù)
數(shù)據(jù)挖掘技術(shù)是指將存儲(chǔ)設(shè)備的數(shù)據(jù)進(jìn)行有效提取和分析,從而能夠?qū)?shù)據(jù)中隱藏的數(shù)據(jù)規(guī)律表達(dá)出來(lái)。傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)主要是通過(guò)聚類分析、回歸分析等技術(shù)進(jìn)行處理,但是在云計(jì)算存儲(chǔ)的數(shù)據(jù)中,這些傳統(tǒng)方法難以應(yīng)對(duì)復(fù)雜而龐大的數(shù)據(jù)信息,動(dòng)態(tài)增長(zhǎng)和非結(jié)構(gòu)化的數(shù)據(jù)也讓傳統(tǒng)的方法無(wú)能為力。因此在云計(jì)算環(huán)境下,需要通過(guò)新的數(shù)據(jù)挖掘機(jī)制來(lái)實(shí)現(xiàn)對(duì)分布式的數(shù)據(jù)處理,同時(shí)需要結(jié)合用戶、企業(yè)的要求來(lái)設(shè)計(jì)新的數(shù)據(jù)挖掘系統(tǒng)。
3.1 云計(jì)算環(huán)境下數(shù)據(jù)挖掘模型的建立
云環(huán)境下因?yàn)閿?shù)據(jù)是海量的,所以數(shù)據(jù)挖掘的核心問(wèn)題是提高數(shù)據(jù)并行的能力,而在分布式數(shù)據(jù)環(huán)境下提高數(shù)據(jù)處理的并發(fā)能力和數(shù)據(jù)存儲(chǔ)能力,最關(guān)鍵的因素是建立數(shù)據(jù)挖掘的模型。數(shù)據(jù)挖掘的模型主要實(shí)現(xiàn)三個(gè)功能,數(shù)據(jù)存儲(chǔ)和處理、數(shù)據(jù)挖掘、數(shù)據(jù)信息反饋,分別有三個(gè)層次來(lái)實(shí)現(xiàn):服務(wù)層,運(yùn)算層,用戶層。服務(wù)層的主要功能是實(shí)現(xiàn)數(shù)據(jù)的存儲(chǔ)和并行處理,這一層是基礎(chǔ)層,是保證數(shù)據(jù)挖掘能夠正常進(jìn)行的關(guān)鍵層次,保證數(shù)據(jù)的安全、可靠、實(shí)用性等,同時(shí)為了避免數(shù)據(jù)丟失,本層還負(fù)責(zé)數(shù)據(jù)的冗余存儲(chǔ)功能。
運(yùn)算層的主要功能是數(shù)據(jù)挖掘算法的實(shí)現(xiàn),主要進(jìn)行數(shù)據(jù)預(yù)處理和數(shù)據(jù)挖掘算法的實(shí)施,通過(guò)對(duì)大量數(shù)據(jù)進(jìn)行預(yù)處理和網(wǎng)絡(luò)并行的運(yùn)算,完成對(duì)數(shù)據(jù)的分類、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)清洗、數(shù)據(jù)抽取等數(shù)據(jù)挖掘步驟,通過(guò)數(shù)據(jù)預(yù)處理工作,完成數(shù)據(jù)挖掘的必要步驟,提高數(shù)據(jù)挖掘質(zhì)量和效率。
用戶層的主要功能是發(fā)布數(shù)據(jù)挖掘指令,控制數(shù)據(jù)實(shí)施,并將最終的結(jié)果反還給用戶,是數(shù)據(jù)挖掘可視化層面的信息傳遞層。
3.2 云計(jì)算環(huán)境下數(shù)據(jù)挖掘算法
在云環(huán)境下的數(shù)據(jù)挖掘模型建立好的前提下,數(shù)據(jù)挖掘算法的好壞直接決定了數(shù)據(jù)挖掘結(jié)果的有效性。目前常用的算法有sprint、sliq、cart等,每一種算法都有其優(yōu)越性,同時(shí)可以對(duì)這些算法進(jìn)行并行設(shè)計(jì)。目前,數(shù)據(jù)量依然在不斷增加的過(guò)程中,數(shù)據(jù)挖掘工作也要不斷地發(fā)展,在這樣的狀態(tài)下,想要對(duì)數(shù)據(jù)進(jìn)行有效處理,就要結(jié)合不同行業(yè)特色,設(shè)計(jì)出更具個(gè)性化的數(shù)據(jù)挖掘算法機(jī)制,讓數(shù)據(jù)性和安全性得到進(jìn)一步提高[3]。
4? 結(jié)語(yǔ)
在互聯(lián)網(wǎng)越來(lái)越發(fā)達(dá)的今天,各行各業(yè)的數(shù)據(jù)量在不斷的增加,傳統(tǒng)的數(shù)據(jù)存儲(chǔ)和挖掘方式已經(jīng)不適應(yīng)于今天的云計(jì)算環(huán)境,為了更好的利用數(shù)據(jù)我們應(yīng)該提高云計(jì)算數(shù)據(jù)的存儲(chǔ)能力和數(shù)據(jù)挖掘能力,提高數(shù)據(jù)的服務(wù)性,真正做到數(shù)據(jù)為我所用。
參考文獻(xiàn):
[1]HILBERT? M. Big? Data? for? Development:? A? Review? of Promises? and? Challenges[J] Development? Policy? Review, 2016,34(1):135-174.
[2]吳紅姣.計(jì)算機(jī)網(wǎng)絡(luò)安全存儲(chǔ)中云計(jì)算技術(shù)的運(yùn)用[J].電子技術(shù)與軟件工程,2019(15).
[3]崔辰.云計(jì)算技術(shù)下海量數(shù)據(jù)挖掘的實(shí)現(xiàn)機(jī)制[J].微型電腦應(yīng)用,2019(4):129-131.