宮魯沙 孫紅偉 于艷/大連船舶重工集團(tuán)有限公司
目前網(wǎng)絡(luò)存儲(chǔ)技術(shù)主要有兩種,第一種是網(wǎng)絡(luò)附加存儲(chǔ),簡(jiǎn)稱(chēng)NAS,它擁有自己的磁盤(pán)和文件系統(tǒng),實(shí)際上就是一個(gè)網(wǎng)絡(luò)文件系統(tǒng),利用NFS、CIFS等文件協(xié)議進(jìn)行訪(fǎng)問(wèn)。隨著海量數(shù)據(jù)的增長(zhǎng)出現(xiàn)了存儲(chǔ)區(qū)域網(wǎng),簡(jiǎn)稱(chēng)SAN,它實(shí)際上是一個(gè)存儲(chǔ)的網(wǎng)絡(luò),而不是某種設(shè)備,這個(gè)網(wǎng)絡(luò)中涵蓋了一切后端相關(guān)存儲(chǔ)元素。Pro-CIMS服務(wù)平臺(tái)以數(shù)據(jù)為中心,如何有效的存儲(chǔ)和管理日益增長(zhǎng)的數(shù)據(jù)是我們面臨的挑戰(zhàn)。
SAN由物理服務(wù)器、網(wǎng)絡(luò)設(shè)備、存儲(chǔ)設(shè)備和相應(yīng)的存儲(chǔ)管理軟件構(gòu)成,利用FC等互連協(xié)議連接起來(lái)的,可以在服務(wù)器與存儲(chǔ)設(shè)備之間以及存儲(chǔ)設(shè)備之間直接傳送數(shù)據(jù)的網(wǎng)絡(luò)。SAN采用纖維通道技術(shù),因而性能優(yōu)異,但在其應(yīng)用中需要FC交換機(jī)連接服務(wù)器和存儲(chǔ)設(shè)備,用于數(shù)據(jù)太集中的環(huán)境。存儲(chǔ)區(qū)域網(wǎng)的典型結(jié)構(gòu)如圖1所示。
圖1 存儲(chǔ)區(qū)域網(wǎng)結(jié)構(gòu)
在SAN中,F(xiàn)C作為一種高速骨干網(wǎng)絡(luò)互連技術(shù)應(yīng)用在各主流存儲(chǔ)設(shè)備中。FC全稱(chēng)為Fibre Channel,也就是 “纖維通道”的意思,也可稱(chēng)為“網(wǎng)狀通道”。傳輸介質(zhì)以光纖(單?;蚨嗄9饫w)為主,可支持1Gb/s傳輸速率,單模光纖長(zhǎng)達(dá)10km。FC協(xié)議棧有5個(gè)標(biāo)準(zhǔn)層,如圖2所示。
(1)SAN的層次結(jié)構(gòu)
①FC-0:第一層是物理層。
②FC-1:第二層是編碼子層。用于定義在網(wǎng)絡(luò)上發(fā)送數(shù)據(jù)時(shí)使用的編碼方案、以及定時(shí)信號(hào)錯(cuò)誤檢測(cè)機(jī)制。
③FC-2:第三層是鏈路層。用于定義了傳輸機(jī)制、包括幀定位,幀頭內(nèi)容、使用規(guī)則以及流量控制等。
④FC-3:第四層為公共服務(wù)層。用于定義一些公共服務(wù),即端口間的結(jié)構(gòu)協(xié)議和流動(dòng)控制。
⑤FC-4:第四層為傳輸層,定義了適配上層協(xié)議的接口。FC-4定義了四種服務(wù)類(lèi)型:Class1、Class2、Class3和 Class4。
(2)SAN的技術(shù)優(yōu)勢(shì)
① 采用高速鏈路,適用于大塊順序的IO密集環(huán)境,具備很高的速度;
② 完善存儲(chǔ)網(wǎng)絡(luò)管理,將存儲(chǔ)設(shè)備實(shí)現(xiàn)集中管理和檢測(cè),更新和配置更加簡(jiǎn)單。
③ 很高的容錯(cuò)性能和平滑擴(kuò)容能力。
④ 數(shù)據(jù)備份、恢復(fù)、遷移通過(guò)存儲(chǔ)局域網(wǎng)本身完成,無(wú)須借助服務(wù)器和現(xiàn)有的LAN/WAN,提高了現(xiàn)有服務(wù)器和網(wǎng)絡(luò)的吞吐能力。
⑤ 使用SCSI協(xié)議,兼容舊存儲(chǔ)設(shè)備。
(3)SAN的拓?fù)浣Y(jié)構(gòu)
①點(diǎn)對(duì)點(diǎn):最簡(jiǎn)單一種互聯(lián)方式,通過(guò)光纖將兩個(gè)節(jié)點(diǎn)直接連接,適合簡(jiǎn)單的最少的節(jié)點(diǎn)環(huán)境模式,當(dāng)隨著節(jié)點(diǎn)的增加這種方式就不合適了;
② 仲裁環(huán)結(jié)構(gòu)FC-AL:類(lèi)似于以太網(wǎng)共享總線(xiàn)拓?fù)?,可連接的節(jié)點(diǎn)數(shù)達(dá)到127個(gè),其結(jié)構(gòu)類(lèi)似令牌環(huán)和FDDI環(huán)的結(jié)構(gòu),數(shù)據(jù)幀傳輸方向是單向的,任何時(shí)候只能是一跳一跳往下游傳輸。圖3為AL環(huán)路數(shù)據(jù)幀傳輸機(jī)制示意圖。
③ Fabic,意思為“網(wǎng)狀構(gòu)造”,表明這種拓?fù)淦鋵?shí)是一個(gè)網(wǎng)狀交換矩陣,交換矩陣的架構(gòu)相對(duì)于仲裁環(huán)來(lái)說(shuō),提供更寬的帶寬,提高了轉(zhuǎn)發(fā)效率,其總帶寬為所有端口帶寬之和。接入交換矩陣的所有節(jié)點(diǎn)都可以實(shí)現(xiàn)點(diǎn)對(duì)點(diǎn)的通訊,每個(gè)節(jié)點(diǎn)帶寬恒定不變,不會(huì)隨著節(jié)點(diǎn)數(shù)的增加而產(chǎn)生變化,即共享的環(huán)路帶寬。
通過(guò)拓?fù)浞绞降难芯康弥?,以FC交換機(jī)為互聯(lián)核心的SAN才是我們應(yīng)用重點(diǎn)。物理主機(jī)、存儲(chǔ)設(shè)備、備份設(shè)備都是通過(guò)FC交換機(jī)完成數(shù)據(jù)交換。EMC DS6505交換機(jī)采用第五代纖維通道,支持2、4、8或16Gbps的速度。24端口總共可提供384Gbps的全雙工交換能力,可以應(yīng)對(duì)不斷增長(zhǎng)的SAN工作負(fù)載?;贓xchange的動(dòng)態(tài)路徑選擇可以?xún)?yōu)化Fabric架構(gòu)范圍性能,實(shí)現(xiàn)負(fù)載均衡的優(yōu)化。在虛擬化環(huán)境下應(yīng)用EMC DS6505提供高可用性;提高數(shù)據(jù)的可靠性和安全性;易擴(kuò)展性和兼容性;集中管理、共享存儲(chǔ);提高數(shù)據(jù)訪(fǎng)問(wèn)速度。
圖2 纖維協(xié)議的層次結(jié)構(gòu)
圖3 AL環(huán)路數(shù)據(jù)傳輸機(jī)制示意圖
RAID技術(shù)在高性能存儲(chǔ)系統(tǒng)中被廣泛應(yīng)用。RAID(廉價(jià)磁盤(pán)冗余陣列)。通過(guò)硬件將多塊物理驅(qū)動(dòng)器組成一塊邏輯驅(qū)動(dòng)器來(lái)存儲(chǔ)管理數(shù)據(jù)的系統(tǒng)。RAID技術(shù)使用可提高數(shù)據(jù)讀取速度,實(shí)現(xiàn)自動(dòng)備份和容錯(cuò)等功能。為了在不同工作環(huán)境下使用,RAID技術(shù)主要包含了RAID 0- RAID 50等數(shù)個(gè)規(guī)范。每種規(guī)范都各自有其自身優(yōu)點(diǎn)與缺點(diǎn)。目前,在人們可接受空間和成本中廣泛應(yīng)用該技術(shù)實(shí)現(xiàn)存儲(chǔ)區(qū)域網(wǎng)絡(luò)高性能和可靠性,有證據(jù)表明磁盤(pán)發(fā)生故障可能性隨著存儲(chǔ)系統(tǒng)規(guī)模的增加而變大。這里我們重點(diǎn)研究下 RAID6、RAID1+0和 RAID0+1,合理選擇 RAID 級(jí)別,提高磁盤(pán)陣列的安全性能、縮短磁盤(pán)發(fā)生故障后的重建時(shí)間,確保數(shù)據(jù)安全可靠。
RAID 6:具備兩種獨(dú)立分布式奇偶校驗(yàn)碼的獨(dú)立磁盤(pán)結(jié)構(gòu)。一個(gè)典型的RAID6存儲(chǔ)系統(tǒng)其結(jié)構(gòu)為使用水平碼的K+2塊磁盤(pán),其中K塊盤(pán)用于存放原數(shù)據(jù),剩余2塊盤(pán)作為校驗(yàn)盤(pán)來(lái)使用。兩個(gè)奇偶校驗(yàn)系統(tǒng)使用獨(dú)立算法生成兩個(gè)不同校驗(yàn)碼,連同條帶化數(shù)據(jù)一起被分布寫(xiě)入到所有磁盤(pán)中,這樣能在兩塊硬盤(pán)同時(shí)損壞的情況下保證數(shù)據(jù)的安全,其可靠性非常高,數(shù)據(jù)恢復(fù)能力很強(qiáng)。不過(guò)在增加一位校驗(yàn)位后,就需要一個(gè)比較復(fù)雜的控制器來(lái)進(jìn)行控制,同時(shí)也使磁盤(pán)的寫(xiě)能力降低,并且還需占用一定的磁盤(pán)空間。每次寫(xiě)操作中的“寫(xiě)損失”遠(yuǎn)大于其他RAID模式,尤其是當(dāng)出現(xiàn)在順序IO中隨機(jī)IO情況時(shí),寫(xiě)性能會(huì)非常差。
RAID 0+1:由RAID0和RAID1組合形成的產(chǎn)物。RAID0實(shí)現(xiàn)了數(shù)據(jù)條帶化,數(shù)據(jù)塊分別保存在不同磁盤(pán)驅(qū)動(dòng)器中。當(dāng)讀取數(shù)據(jù)時(shí),并行讀、寫(xiě)于多塊磁盤(pán)。RAID1實(shí)現(xiàn)了磁盤(pán)鏡像形成數(shù)據(jù)冗余,數(shù)據(jù)安全性高。由于可以同時(shí)讀取多塊磁盤(pán)數(shù)據(jù),所以讀性能不錯(cuò)。RAID 0+1同時(shí)擁有RAID0高速傳輸和RAID1的鏡像冗余的特點(diǎn),數(shù)據(jù)吞吐率高,負(fù)載也較均衡,不需要校驗(yàn)碼即可實(shí)現(xiàn)數(shù)據(jù)恢復(fù)功能。其結(jié)構(gòu)如下圖4所示:兩塊以上(含兩塊)硬盤(pán)先做條帶(RAID0),組成相同的兩組一級(jí)邏輯盤(pán)。再將兩組邏輯盤(pán)做鏡像(RAID1)。
圖4 RAID 0+1結(jié)構(gòu)圖
圖5 RAID1+0結(jié)構(gòu)圖
在RAID 0+1中,磁盤(pán)的利用率為1/2;從冗余性來(lái)看,只要有一塊盤(pán)出錯(cuò),它所在的RAID0就會(huì)整體離線(xiàn),系統(tǒng)出現(xiàn)故障的可能性是N/(2N-1),這時(shí)只能靠最外層的RAID1的冗余來(lái)支撐。實(shí)際上,只能允許一塊盤(pán)出錯(cuò),一旦一個(gè)硬盤(pán)壞了,一半的硬盤(pán)無(wú)法工作,如果每個(gè)條帶上各壞1個(gè)硬盤(pán),整個(gè)RAID組徹底癱瘓。I/O讀寫(xiě)效率均可以實(shí)現(xiàn)N/2(N為硬盤(pán)總數(shù))的理論帶寬。
RAID 1+0:是將RAID1的鏡像功能和RAID0的數(shù)據(jù)分割功能混合了起來(lái),因此需要至少4塊硬盤(pán)驅(qū)動(dòng)器(2塊互為鏡像盤(pán),2塊作為數(shù)據(jù)盤(pán))來(lái)運(yùn)行。其結(jié)構(gòu)如圖5所示。所有磁盤(pán)先兩兩做數(shù)據(jù)鏡像,然后數(shù)據(jù)條帶化到每組鏡像驅(qū)動(dòng)器組中。當(dāng)發(fā)生數(shù)據(jù)重建時(shí),只需拷貝鏡像組的驅(qū)動(dòng)器數(shù)據(jù),不需通過(guò)奇偶校驗(yàn)運(yùn)算就可獲得丟失數(shù)據(jù),其可靠性更高。
在RAID1+0中,磁盤(pán)的利用率為1/2;從冗余性來(lái)看,只要有一塊盤(pán)出錯(cuò),它所在的RAID1中不會(huì)有問(wèn)題,所以每組RAID1中都允許有一塊盤(pán)離線(xiàn),系統(tǒng)出現(xiàn)故障可能性是1/(2N-1)。而安全性上來(lái)看,損壞兩塊盤(pán)崩潰的機(jī)會(huì)只有2/(N-1),但如果同一個(gè)鏡像組的2個(gè)驅(qū)動(dòng)器都?jí)牡舻脑?huà)所有數(shù)據(jù)都會(huì)丟失;I/O讀寫(xiě)效率均可以實(shí)現(xiàn)N/2(N為硬盤(pán)總數(shù))的理論帶寬。
Pro-CIMS服務(wù)平臺(tái)是船舶設(shè)計(jì)、生產(chǎn)、物資等主要業(yè)務(wù)的管理平臺(tái),通過(guò)平臺(tái)的應(yīng)用,將實(shí)現(xiàn)部門(mén)間的數(shù)據(jù)積累、整合和信息共享,促進(jìn)部門(mén)的協(xié)調(diào)與溝通,優(yōu)化業(yè)務(wù)流程、進(jìn)行產(chǎn)品數(shù)據(jù)的有效積累與持續(xù)優(yōu)化,實(shí)現(xiàn)信息的及時(shí)有效分析,最終建立以生產(chǎn)計(jì)劃體系為核心的設(shè)計(jì)、生產(chǎn)、物資管理為一體的網(wǎng)絡(luò)管理系統(tǒng)。通過(guò)對(duì)該系統(tǒng)應(yīng)用環(huán)境的分析,采用SAN技術(shù)實(shí)現(xiàn)Pro-CIMS服務(wù)器和存儲(chǔ)設(shè)備之間直接進(jìn)行高速數(shù)據(jù)傳輸,數(shù)據(jù)訪(fǎng)問(wèn)和平滑簡(jiǎn)單的擴(kuò)容是最為合理和可靠。
(1)SAN技術(shù)對(duì)性能提升的體現(xiàn)
① 優(yōu)秀的集中管理:傳統(tǒng)模式需要重啟或關(guān)閉服務(wù)器才能完成新存儲(chǔ)配置,而SAN 技術(shù)的優(yōu)秀可擴(kuò)展性使得服務(wù)器不停機(jī)或重啟就可對(duì)存儲(chǔ)進(jìn)行擴(kuò)容,集中管理數(shù)據(jù)使得成本大大降低。
② 服務(wù)器集群的實(shí)現(xiàn):由于虛擬化服務(wù)器集群是Pro-CIMS的主要服務(wù)器資源供給方式,SAN結(jié)構(gòu)采用全共享方式提供存儲(chǔ)資源,這與集群將數(shù)據(jù)當(dāng)作是一個(gè)單一的系統(tǒng)映像是相同的。
③ 數(shù)據(jù)移動(dòng)方便:在傳統(tǒng)WANLAN中,數(shù)據(jù)的移動(dòng)或復(fù)制是通過(guò)服務(wù)器來(lái)完成。用戶(hù)發(fā)出移動(dòng)請(qǐng)求,服務(wù)器響應(yīng)后負(fù)責(zé)從源設(shè)備中讀取,傳輸和寫(xiě)入目標(biāo)設(shè)備。這種方式數(shù)據(jù)慢、耗用大量WAN/LAN的網(wǎng)絡(luò)資源。而SAN技術(shù)的LAN-Free,將磁帶庫(kù)和磁盤(pán)陣列各自作為獨(dú)立的光纖節(jié)點(diǎn)。數(shù)據(jù)備份時(shí),數(shù)據(jù)流直接從磁盤(pán)陣列傳輸?shù)酱艓?kù),而無(wú)需占用LAN網(wǎng)絡(luò)帶寬。
(2)IOPS的衡量
磁盤(pán)性能主要體現(xiàn)在兩個(gè)方面:IOPS和每秒IO吞吐量。完成一次IO所用的時(shí)間=尋道時(shí)間+數(shù)據(jù)傳輸時(shí)間。IOPS=IO并發(fā)系數(shù)/(尋道時(shí)間+數(shù)據(jù)傳輸時(shí)間)。由于尋道時(shí)間遠(yuǎn)遠(yuǎn)大于傳輸時(shí)間,所以影響IOPS關(guān)鍵因素就是降低尋道時(shí)間。
每個(gè)磁盤(pán)系統(tǒng)的IOPS是有上限的,如果設(shè)計(jì)的存儲(chǔ)系統(tǒng),實(shí)際的IOPS超過(guò)了磁盤(pán)組的上限,則系統(tǒng)反應(yīng)會(huì)變慢,影響系統(tǒng)的性能。Pro-CIMS服務(wù)平臺(tái)涉及到大量數(shù)據(jù)的積累和共享,數(shù)據(jù)的檢索傳輸需要高性能磁盤(pán)來(lái)支持。按照計(jì)劃的40TB空間部署,為了保證性能配置5塊300GB15000轉(zhuǎn)SAS硬盤(pán),5塊 200GB SSD,65塊 600GB 15Krpm的SAS硬盤(pán),理論上可以支撐的最大流量為65×13MB/s=910MB/s(15Krpm 最大流量為 13MB/s),采用16Gb的FCHBA卡(16Gb光纖卡所支持最大流量為16Gb/8= 2000M/s)。在同樣的壓力和磁盤(pán),I/O的每個(gè)操作,RAID6中實(shí)際發(fā)生4個(gè)I/O,而RAID1+0只發(fā)生2個(gè)I/O,后者性能是前者1.5倍。數(shù)據(jù)庫(kù)將采用RAID1+0模式,而其他非數(shù)據(jù)庫(kù)的應(yīng)用采用RAID6模式。
(3)最終設(shè)計(jì)
鑒于以上相關(guān)技術(shù)研究,我們對(duì)所構(gòu)建的存儲(chǔ)網(wǎng)絡(luò)進(jìn)行了設(shè)計(jì),選用2臺(tái)24端口的DS6505光纖交換機(jī),24口激活,拓?fù)浞绞綖镕abic網(wǎng)絡(luò)交換矩陣形式,主機(jī)與EMC VNX5400盤(pán)陣控制器前端接口與后端接口都采用FC端口,存儲(chǔ)控制器配置一級(jí)緩存共44GB。經(jīng)過(guò)以上對(duì)虛擬化技術(shù)和SAN技術(shù)的介紹,服務(wù)器硬件配置和性能、虛擬化平臺(tái)應(yīng)用業(yè)務(wù)需求等進(jìn)行分析和計(jì)算,得出Pro-CIMS服務(wù)平臺(tái)虛擬化環(huán)境如下:三臺(tái)HP DL580 Gen9服務(wù)器作為ESXi主機(jī),一臺(tái)虛擬化主機(jī)來(lái)作為vSphere套件中的vCenter服務(wù)器,配置EMC VNX5400光纖存儲(chǔ)和磁盤(pán)擴(kuò)展柜,兩臺(tái)CISCO WS-C3560X-48T-L三層交換機(jī)用于以太網(wǎng)接入。通過(guò)將資源、存儲(chǔ)、網(wǎng)絡(luò)和安全性等進(jìn)行抽象化、組件化和池化,可以快速建立起一個(gè)完整的數(shù)據(jù)中心并實(shí)現(xiàn)管理,有效穩(wěn)定地保障了平臺(tái)的正常運(yùn)行?!?/p>