◆楊永周
(云南電網(wǎng)有限責任公司保山供電局 云南 678000)
分布式存儲關(guān)鍵技術(shù)及優(yōu)勢分析研究
◆楊永周
(云南電網(wǎng)有限責任公司保山供電局 云南 678000)
隨著信息技術(shù)的飛速發(fā)展,計算機系統(tǒng)需要處理的數(shù)據(jù)大量增加。同時,這些數(shù)據(jù)還需要有效地保存在存儲系統(tǒng)中,為數(shù)據(jù)分析和處理提供保障和便利。隨著網(wǎng)絡(luò)技術(shù)的不斷發(fā)展和創(chuàng)新,分布式存儲技術(shù)本身也在飛速地發(fā)展。毫無疑問,各個大型網(wǎng)站也都存儲著海量的數(shù)據(jù),這些海量的數(shù)據(jù)如何有效存儲,是每個大型網(wǎng)站的架構(gòu)師必須要解決的問題。分布式存儲技術(shù)就是為了解決這個問題而發(fā)展起來的技術(shù)。
分布式存儲;關(guān)鍵技術(shù);分布式存儲應用
與目前常見的集中式存儲技術(shù)不同,分布式存儲技術(shù)并不是將數(shù)據(jù)存儲在某個或多個特定的節(jié)點上,而是通過網(wǎng)絡(luò)使用企業(yè)中的每臺機器上的磁盤空間,并將這些分散的存儲資源構(gòu)成一個虛擬的存儲設(shè)備,數(shù)據(jù)分散的存儲在企業(yè)的各個角落。
傳統(tǒng)存儲陣列發(fā)展的幾十年里,確實給數(shù)據(jù)中心的建設(shè)帶來了巨大的發(fā)展,但是隨著虛擬化的普及以及大數(shù)據(jù)、云計算、互聯(lián)網(wǎng)+等等概念的落實,傳統(tǒng)存儲陣列的疲態(tài)凸顯,在處理能力、擴展性、可維護性、可靠性方面,以及成本考量都呈現(xiàn)出更多的劣勢。存儲廠商一味在增強、擴大這個“鐵盒子”,維護傳統(tǒng)領(lǐng)域“蛋糕”的同時,也在加緊研究著另一種背道而馳的存儲技術(shù),這就是分布式存儲技術(shù)。
分布式存儲系統(tǒng),是將數(shù)據(jù)分散存儲在多臺獨立的設(shè)備上。傳統(tǒng)的網(wǎng)絡(luò)存儲系統(tǒng)采用集中的存儲服務(wù)器存放所有數(shù)據(jù),存儲服務(wù)器成為系統(tǒng)性能的瓶頸,也是可靠性和安全性的焦點,不能滿足大規(guī)模存儲應用的需要。分布式網(wǎng)絡(luò)存儲系統(tǒng)采用可擴展的系統(tǒng)結(jié)構(gòu),利用多臺存儲服務(wù)器分擔存儲負荷,利用位置服務(wù)器定位存儲信息,它不但提高了系統(tǒng)的可靠性、可用性和存取效率,還易于擴展。
常見的元數(shù)據(jù)管理可以分為集中式和分布式元數(shù)據(jù)管理架構(gòu),在大數(shù)據(jù)環(huán)境下,元數(shù)據(jù)的體量也非常大,元數(shù)據(jù)的存取性能是整個分布式文件系統(tǒng)性能的關(guān)鍵。
實現(xiàn)存儲系統(tǒng)的高可擴展性首先要解決兩個方面的重要問題,包含元數(shù)據(jù)的分配和數(shù)據(jù)的透明遷移;在大數(shù)據(jù)環(huán)境下,數(shù)據(jù)規(guī)模和復雜度的增加往往非常迅速,對系統(tǒng)的擴展性能要求較高。
構(gòu)建存儲系統(tǒng)時,需要基于成本和性能來考慮,因此存儲系統(tǒng)通常采用多層不同性價比的存儲器件組成存儲層次結(jié)構(gòu)。大數(shù)據(jù)的規(guī)模大,因此構(gòu)建高效合理的存儲層次結(jié)構(gòu),可以在保證系統(tǒng)性能的前提下,降低系統(tǒng)能耗和構(gòu)建成本,利用數(shù)據(jù)訪問局部性原理,可以從兩個方面對存儲層次結(jié)構(gòu)進行優(yōu)化。從提高性能的角度,可以通過分析應用特征,識別熱點數(shù)據(jù)并對其進行緩存或預取,通過高效的緩存預取算法和合理的緩存容量配比,以提高訪問性能。從降低成本的角度,采用信息生命周期管理方法,將訪問頻率低的冷數(shù)據(jù)遷移到低速廉價存儲設(shè)備上,可以在小幅犧牲系統(tǒng)整體性能的基礎(chǔ)上,大幅降低系統(tǒng)的構(gòu)建成本和能耗。
傳統(tǒng)數(shù)據(jù)存儲模型需要支持盡可能多的應用,因此需要具備較好的通用性。大數(shù)據(jù)具有大規(guī)模、高動態(tài)及快速處理等特性,通用的數(shù)據(jù)存儲模型通常并不是最能提高應用性能的模型。而大數(shù)據(jù)存儲系統(tǒng)對上層應用性能的關(guān)注遠遠超過對通用性的追求。針對應用和負載來優(yōu)化存儲,就是將數(shù)據(jù)存儲與應用耦合。簡化或擴展分布式文件系統(tǒng)的功能,根據(jù)特定應用、特定負載、特定的計算模型對文件系統(tǒng)進行定制和深度優(yōu)化,使應用達到最佳性能。這類優(yōu)化技術(shù)在谷歌、Facebook等互聯(lián)網(wǎng)公司的內(nèi)部存儲系統(tǒng)上,管理超過千萬億字節(jié)級別的大數(shù)據(jù),能夠達到非常高的性能。
傳統(tǒng)存儲陣列需要一臺昂貴的硬件,以及相應的存儲交換機、HBA等專用配件,對于存儲陣列的配置需要專業(yè)的人員進行管理,甚至受制于存儲廠商。而VMware分布式存儲技術(shù),直接利用了服務(wù)器的磁盤,服務(wù)器本身就是控制器,在數(shù)據(jù)中心的架構(gòu)中,減少了整整一個存儲硬件層面,大大簡化了數(shù)據(jù)中心建設(shè)的復雜程度。
傳統(tǒng)存儲的優(yōu)勢是性能,但是這一點已經(jīng)被顛覆,對于絕大部分中低端存儲來說,性能反而一直是一個“雞肋”,在虛擬化環(huán)境中,由于集中化了 I/O處理,而且 I/O處理是共享式的,因此很可能造成對于某些虛擬機的影響,或者干脆由于整體性能不行拖累了虛擬化平臺。分布式存儲技術(shù)的性能,取決于高速緩存的處理能力和大小,而它采用的是固態(tài)盤技術(shù)(SSD),單塊SSD的性能可達上萬IOPS,如果組建集群的話,性能可以線性擴充,這大大緩解了性能瓶頸。
分布式存儲的優(yōu)勢就是“分布式”,所謂的“分布式”就是能夠?qū)⒍鄠€物理節(jié)點整合在一起形成共享的存儲池,節(jié)點可以線性擴充,這樣可以源源不斷地通過擴充節(jié)點提升性能和擴大容量,這是傳統(tǒng)存儲陣列無法做到的。
這里所提到的“對象”,是虛擬機,傳統(tǒng)存儲陣列都是“塊”一級的操作,存儲規(guī)則的定義與虛擬機、應用無任何關(guān)聯(lián)性,這就造成存儲與應用、業(yè)務(wù)系統(tǒng)的脫節(jié),而新一代的分布式存儲技術(shù),所有的存儲規(guī)則都可以定義到虛擬機級別,每個虛擬機都可以有自己的個性化的存儲規(guī)則,比如“副本的多少、條帶化、存儲格式”等等,這才真正做到存儲層面與應用的互動,“存儲感知應用”,及時為業(yè)務(wù)系統(tǒng)創(chuàng)造合適的存儲環(huán)境。
由于分布式存儲的架構(gòu)是分散式的,數(shù)據(jù)的存放也是分散在不同的節(jié)點之上,因此如果個別節(jié)點損壞,對于整體架構(gòu)沒有任何影響。“單點故障”是一直是困擾傳統(tǒng)存儲陣列最大的問題,而配置多臺存儲陣列做鏡像的意義不大,同時成本不菲,而分布式存儲技術(shù)輕松地解決了這個問題。尤其是跨站點的VSAN技術(shù)出來之后,使得這種可靠性擴展到了容災級別。
這里所提到的維護,指的是維護硬件。傳統(tǒng)存儲架構(gòu)中,如果出現(xiàn)了故障,我們要逐層排查故障點,其中比較復雜的層面就是存儲陣列和存儲網(wǎng)絡(luò),因為這是專業(yè)的領(lǐng)域,需要專業(yè)技術(shù)人員來配合解決,而分布式存儲技術(shù),由于與虛擬化內(nèi)核緊密耦合,服務(wù)器層就是存儲層,并且通過虛擬化管理軟件可以一覽無余的看到分布式存儲的狀態(tài),因此對于整體維護來說非常方便。
分布式存儲的優(yōu)勢就是“更快更省更簡單”,分布式存儲發(fā)展不會一步登天,會有一個過程。首先分布式存儲會蠶食增量存儲市場,然后隨著用戶對于技術(shù)理解的不斷加深,最終將一統(tǒng)江湖。分布式存儲稱雄市場是早晚的事情。“當務(wù)之急是團結(jié)合作,打敗共同的敵人--傳統(tǒng)存儲。”這是超融合產(chǎn)業(yè)聯(lián)盟倡導的產(chǎn)業(yè)情懷和志向。
總而言之,分布式系統(tǒng)是大數(shù)據(jù)時代企業(yè)級應用的首選平臺,它有良好的可擴展性,尤其是橫向可擴展性(Scale Out),使得分布式系統(tǒng)非常靈活,能應對千變?nèi)f化的企業(yè)級需求,而且降低了企業(yè)客戶對服務(wù)器硬件的要求,真正能做到應用服務(wù)層面的彈性擴展(auto-scaling)。
[1]ChinaByte.專家博客:分布式存儲系統(tǒng)的實現(xiàn)[EB/OL].http://storage.chinabyte.com/89/11678089.shtml.
[2]于廣軍,楊佳泓主編.醫(yī)療大數(shù)據(jù)[M].上海:上??茖W技術(shù)出版社,2015.
[3]盧益陽.分布式存儲系統(tǒng)調(diào)查[J].企業(yè)科技與發(fā)展,2011.
[4]陳敏,張東,張引,亓開元編著.大數(shù)據(jù)-大數(shù)據(jù)整體解決方案及關(guān)鍵技術(shù)探索[M].湖北:華中科技大學出版社,2015.