摘要:隨著科技的不斷進(jìn)步和經(jīng)濟(jì)的不斷發(fā)展,人們?cè)讷@取數(shù)據(jù)方面取得技術(shù)性突破,由于存儲(chǔ)器價(jià)格的下降以及人們希望獲取數(shù)據(jù)信息等,進(jìn)而催生大數(shù)據(jù)的產(chǎn)生。在大數(shù)據(jù)時(shí)代,微小型數(shù)據(jù)庫的擴(kuò)展性遇到瓶頸,難以支持多樣化的數(shù)據(jù)類型。本文試圖沿著數(shù)據(jù)庫技術(shù)進(jìn)步的歷史脈絡(luò),從應(yīng)用維度入手,為當(dāng)今數(shù)據(jù)管理技術(shù)的新格局,討論具有挑戰(zhàn)性的重要問題。
關(guān)鍵詞:微小型數(shù)據(jù)庫 大數(shù)據(jù) 趨勢(shì)
1 大數(shù)據(jù)概述
1.1 大數(shù)據(jù)的概念
隨著科技的不斷發(fā)展,繼云計(jì)算物聯(lián)網(wǎng)之后,大數(shù)據(jù)成為全球關(guān)注的焦點(diǎn)問題,大數(shù)據(jù)憑借自身巨大的潛在價(jià)值,備受社會(huì)各界的認(rèn)可和關(guān)注。從2009年開始,在互聯(lián)網(wǎng)上開始流行大數(shù)據(jù),專家和學(xué)者們分別從不同的角度對(duì)大數(shù)據(jù)進(jìn)行定義。由于大數(shù)據(jù)本身抽象性比較強(qiáng),進(jìn)而在一定程度上增加對(duì)其定義進(jìn)行統(tǒng)一的難度。
對(duì)于大數(shù)據(jù),在內(nèi)涵方面,一方面大數(shù)據(jù)包含海量數(shù)據(jù)和大規(guī)模數(shù)據(jù),另一方面大數(shù)據(jù)包含各種復(fù)雜的數(shù)據(jù)類型;在處理數(shù)據(jù)方面,大數(shù)據(jù)的響應(yīng)時(shí)間比較迅速,并且由傳統(tǒng)的周、天、小時(shí)等逐漸向分、秒轉(zhuǎn)變,借助云計(jì)算物聯(lián)網(wǎng)技術(shù),數(shù)據(jù)處理成本不斷降低,同時(shí)數(shù)據(jù)處理速度不斷提高。
1.2 大數(shù)據(jù)的特征
對(duì)于大數(shù)據(jù)來說,通常情況下,是指規(guī)模超過10TB的數(shù)據(jù)集,規(guī)模性、多樣性、高速性和價(jià)值性是大數(shù)據(jù)的主要特征。
1.2.1 規(guī)模性
隨著經(jīng)濟(jì)的發(fā)展,科學(xué)技術(shù)的進(jìn)步,數(shù)據(jù)信息出現(xiàn)爆長,社交網(wǎng)絡(luò)、移動(dòng)網(wǎng)絡(luò)、智能終端等逐漸成為人們掌握數(shù)據(jù)信息的來源,據(jù)相關(guān)統(tǒng)計(jì)顯示,近4億的淘寶網(wǎng)會(huì)員每天產(chǎn)生約20TB的商品交易信息;約10億的Facebook用戶每天產(chǎn)生超過300TB的日志信息;Google通過云計(jì)算平臺(tái)每天處理超過13.4PB的數(shù)據(jù)。在數(shù)據(jù)大爆炸時(shí)代,人們?cè)谥悄芩惴ǎ瑪?shù)據(jù)處理平臺(tái),以及先進(jìn)的處理技術(shù)方面都提出了更高的要求,進(jìn)一步對(duì)大規(guī)模的數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析和預(yù)測(cè),以便做出實(shí)時(shí)處理。
1.2.2 多樣性
由于產(chǎn)生數(shù)據(jù)的應(yīng)用系統(tǒng)和設(shè)備存在差異,進(jìn)而在一定程度上決定了大數(shù)據(jù)形式的多樣性,其多樣性主要體現(xiàn)為:一是財(cái)務(wù)系統(tǒng)數(shù)據(jù)、信息管理系統(tǒng)數(shù)據(jù)、醫(yī)療系統(tǒng)數(shù)據(jù)等結(jié)構(gòu)化數(shù)據(jù),這些數(shù)據(jù)的特點(diǎn)存在較強(qiáng)的因果關(guān)系;二是視頻、圖片、音頻等非結(jié)構(gòu)化數(shù)據(jù),該數(shù)據(jù)的特點(diǎn)是數(shù)據(jù)之間不存在因果關(guān)系;三是HTML文檔、郵件、網(wǎng)頁等半結(jié)構(gòu)化數(shù)據(jù),這些數(shù)據(jù)的特點(diǎn)是數(shù)據(jù)之間存在比較弱的因果關(guān)系。
1.2.3 高速性
與海量數(shù)據(jù)相比,大數(shù)據(jù)的區(qū)別,主要體現(xiàn)在:一是在數(shù)據(jù)規(guī)模方面,大數(shù)據(jù)的規(guī)模更大;二是在數(shù)據(jù)處理的響應(yīng)速度方面,大數(shù)據(jù)的要求更為嚴(yán)格,并且都是對(duì)數(shù)據(jù)進(jìn)行實(shí)時(shí)分析,而不是所謂的批量分析,對(duì)于數(shù)據(jù)來說,輸入、處理、丟棄等都是立刻見效,根本不存在延遲現(xiàn)象,對(duì)于大數(shù)據(jù)來說,其高速性主要體現(xiàn)在數(shù)據(jù)的增長速度和處理速度兩個(gè)方面。
1.2.4 價(jià)值性
有價(jià)值的數(shù)據(jù)在大數(shù)據(jù)中只占很小的比例。從大量不相關(guān)的數(shù)據(jù)中,對(duì)未來趨勢(shì)與模式預(yù)測(cè)分析有價(jià)值的數(shù)據(jù)進(jìn)行挖掘,這是大數(shù)據(jù)價(jià)值性的重要體現(xiàn),對(duì)這些有價(jià)值的數(shù)據(jù),通過機(jī)器學(xué)習(xí)方法、人工智能方法或數(shù)據(jù)挖掘方法等進(jìn)行深度分析,進(jìn)而廣泛運(yùn)用于農(nóng)業(yè)、金融、醫(yī)療等領(lǐng)域,以便創(chuàng)造更大的價(jià)值。
2 微小型數(shù)據(jù)庫技術(shù)
隨著科學(xué)技術(shù)的不斷進(jìn)步,在微小型數(shù)據(jù)庫系統(tǒng)需求方面,嵌入式操作系統(tǒng)為數(shù)據(jù)庫技術(shù)開辟了新的空間。目前,微小型數(shù)據(jù)庫技術(shù)逐漸從研究領(lǐng)域延伸到應(yīng)用領(lǐng)域。對(duì)于微小型數(shù)據(jù)庫系統(tǒng)來說,通常情況下,可以將其定義為:數(shù)據(jù)庫系統(tǒng)的內(nèi)核僅需一個(gè)很小的內(nèi)存就可以支持。在微小型數(shù)據(jù)庫系統(tǒng)中,對(duì)于便攜式設(shè)備來說,其內(nèi)存空間一般只有2MB,對(duì)于掌上設(shè)備或者其他手持設(shè)備來說,其內(nèi)存空間通常只有50KB。內(nèi)存空間的大小在一定程度上影響和制約著微小型數(shù)據(jù)庫系統(tǒng)的運(yùn)行速度。根據(jù)占用內(nèi)存的大小,可以將微小型數(shù)據(jù)庫系統(tǒng)分為:超微DBMS(pico-DBMS)、微小DBMS(micro-DBMS)和嵌入式DBMS。
在各種智能型嵌入設(shè)備或移動(dòng)設(shè)備上,通過將微小型數(shù)據(jù)庫系統(tǒng)與操作系統(tǒng)進(jìn)行集成,進(jìn)而確保設(shè)備的征程運(yùn)行。目前,微小型數(shù)據(jù)庫技術(shù)逐漸從研究領(lǐng)域延伸到應(yīng)用領(lǐng)域,同時(shí)涌現(xiàn)出各種微小型數(shù)據(jù)庫產(chǎn)品。在各種智能設(shè)備中,隨著移動(dòng)數(shù)據(jù)處理和管理需求的不斷提高,在學(xué)術(shù)界、工業(yè)界、軍事領(lǐng)域和民用部門等給予了嵌入式移動(dòng)數(shù)據(jù)庫技術(shù)高度重視,并且不斷實(shí)用化。
3 微小型數(shù)據(jù)庫的發(fā)展
隨著科技的發(fā)展,對(duì)數(shù)據(jù)管理提出新的要求和挑戰(zhàn),研究和開發(fā)工作出現(xiàn)一片繁忙的景象。研究的重點(diǎn)依然是更高的性能,以及更為復(fù)雜、多樣的數(shù)據(jù)。
3.1 面向云平臺(tái)的數(shù)據(jù)管理技術(shù)
通過對(duì)計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)等硬件資源進(jìn)行整合,云平臺(tái)為用戶提供了虛擬化技術(shù),進(jìn)而在一定程度上為用戶使用這些資源提供了便利性,同時(shí)確保了經(jīng)濟(jì)性。對(duì)于云計(jì)算來說,虛擬化和動(dòng)態(tài)伸縮性是其主要的特點(diǎn)。在管理面向操作型應(yīng)用數(shù)據(jù)、分析型應(yīng)用數(shù)據(jù)的過程中,采用云平臺(tái)還需面對(duì)許多的挑戰(zhàn),例如,在具有動(dòng)態(tài)伸縮性的云平臺(tái)上,如何支持事務(wù)處理,如何在云平臺(tái)上部署新的存儲(chǔ)模型,如何放置數(shù)據(jù),如何對(duì)數(shù)據(jù)進(jìn)行容錯(cuò),以及如何將新的索引結(jié)構(gòu)部署到云平臺(tái)上等,以及如何在云平臺(tái)上將數(shù)據(jù)庫當(dāng)作一個(gè)服務(wù)進(jìn)行部署,隨著時(shí)代的不斷發(fā)展,上述問題需要繼續(xù)進(jìn)行深入研究分析。節(jié)能、隱私保護(hù)和安全等關(guān)鍵問題還需要面向云平臺(tái)的數(shù)據(jù)管理進(jìn)行解決和處理,進(jìn)而贏得用戶的信任,進(jìn)一步實(shí)現(xiàn)產(chǎn)業(yè)化。
3.2 大數(shù)據(jù)統(tǒng)一處理平臺(tái)
通過對(duì)上文進(jìn)行分析,圍繞RDBMS和Hadoop技術(shù)分別產(chǎn)生了一個(gè)分析生態(tài)系統(tǒng),以及正在產(chǎn)生一個(gè)分析生態(tài)系統(tǒng)。在某些方面這兩個(gè)系統(tǒng)是重疊的,在這種情況下,能否采取相應(yīng)的措施,將兩項(xiàng)技術(shù)和生態(tài)系統(tǒng)融合到一起?在理論界、工業(yè)界的共同努力下,一定會(huì)形成一個(gè)統(tǒng)一的大數(shù)據(jù)處理框架以及生態(tài)系統(tǒng)。但是需要深入的研究某些問題,例如,如何在一個(gè)存儲(chǔ)層上(數(shù)據(jù)組織方式)上整合多類型的數(shù)據(jù);如何采取措施建立智能的存儲(chǔ)層;如何改進(jìn)和優(yōu)化查詢的調(diào)度算法,以及執(zhí)行算法等,進(jìn)而在一定程度上與多核、GPU、異構(gòu)環(huán)境等相應(yīng)的硬件環(huán)境相互適應(yīng),并且在云平臺(tái)上能夠正常運(yùn)行;如何確保服務(wù)和功能超越SQL,對(duì)編程和應(yīng)用接口進(jìn)行擴(kuò)展,針對(duì)普通用戶、高級(jí)用戶、統(tǒng)計(jì)學(xué)家,以及數(shù)學(xué)家等不同類型的用戶,進(jìn)而提供個(gè)性化的數(shù)據(jù)分析環(huán)境和分析工具;如何對(duì)大數(shù)據(jù)的處理結(jié)果進(jìn)行可視化。
4 結(jié)論
隨著時(shí)代的不斷發(fā)展,大數(shù)據(jù)時(shí)代正在向我們走來,數(shù)據(jù)管理技術(shù)研究逐漸進(jìn)入新的階段。本文通過對(duì)技術(shù)進(jìn)步的歷史思路進(jìn)行分析,同時(shí)對(duì)數(shù)據(jù)管理技術(shù)的發(fā)展進(jìn)程進(jìn)行闡述,并展開當(dāng)今數(shù)據(jù)管理技術(shù)新畫卷。
參考文獻(xiàn):
[1]李斌.大數(shù)據(jù)及其發(fā)展趨勢(shì)研究[J].廣西教育,2013(09).
[2]覃雄派,王會(huì)舉,杜小勇,王珊.大數(shù)據(jù)分析——RDBMS與 MapReduce的競(jìng)爭(zhēng)與共生[J].軟件學(xué)報(bào),2012,23(1):32.
[3]林子雨,賴永炫,林琛,謝怡,鄒權(quán).云數(shù)據(jù)庫研究[J].軟件學(xué)報(bào),2012,23(5):1148.
[4]王意潔,孫偉東,周松,裴曉強(qiáng),李小勇.云計(jì)算環(huán)境下的分布存儲(chǔ)關(guān)鍵技術(shù)[J].軟件學(xué)報(bào),2012,23(4):962.
作者簡(jiǎn)介:豐娟娟(1981-),女,湖北谷城人,教師,講師職稱,研究方向:數(shù)據(jù)庫技術(shù)。