王仁詮
(江西銅業(yè)集團有限公司 貴溪冶煉廠,江西 貴溪 335424)
在科學(xué)技術(shù)不斷發(fā)展的推動下,信息化技術(shù)取得了很多優(yōu)秀的成果,其中云計算技術(shù)尤為突出,該技術(shù)自發(fā)展完善后已經(jīng)被廣泛地應(yīng)用到各行各業(yè)中,不僅提高了工作質(zhì)量,提升了工作效率,同時提高了管理水平,為各個行業(yè)與領(lǐng)域帶來了變化與創(chuàng)新。隨著中國制造2025規(guī)劃的發(fā)布,智能制造在各個行業(yè)紛紛開展試點,工業(yè)和信息化部也印發(fā)了《關(guān)于開展智能制造試點示范2016專項行動的通知》。在這種背景下,貴冶也開展了智能工廠的試點工作。
云計算的核心思想,是采用網(wǎng)絡(luò)連接的方式,將大量的計算資源進行統(tǒng)一管理和調(diào)度,從而構(gòu)成一個計算資源池并按照用戶需求提供服務(wù)。而提供資源的網(wǎng)絡(luò)被稱為“云”。這些計算資源能夠被快速提供,僅需投入很少的管理工作,從而方便用戶進行使用和管理。
云計算技術(shù)的實踐結(jié)合了:虛擬化、分布式計算、網(wǎng)絡(luò)計算[1]。其核心技術(shù)主要包括以下四個方面:
2.2.1 平臺的優(yōu)化和管理
優(yōu)化和管理是提高云平臺的運行質(zhì)量和平臺性能的核心技術(shù)。其核心技術(shù)有:
(1)云服務(wù)資源管理。研究底層物理設(shè)備、虛擬機與集群的按用戶所需管理以及虛擬分區(qū)直接的隔離機制;
(2)云平臺內(nèi)的任務(wù)管理。研究云計算平臺的任務(wù)調(diào)度、高效使用、負載均衡、任務(wù)管理與容錯機制等;
(3)數(shù)據(jù)管理。研究不同類型的數(shù)據(jù),如結(jié)構(gòu)化、非結(jié)構(gòu)化、以及多媒體等數(shù)據(jù)的建模、存儲、歸類、備份、搜索、和離線保護等數(shù)據(jù)技術(shù)[4];
(4)平臺內(nèi)的應(yīng)用探索。研究云計算對應(yīng)用的負載均衡、各類任務(wù)監(jiān)控,與云平臺底層任務(wù)的互相兼容性;
(5)數(shù)據(jù)安全及個人隱私保護。對于個人用戶支持的功能、性能以及出現(xiàn)故障后的恢復(fù)和隔離機制,研究用戶身份驗證和個人隱私數(shù)據(jù)的保護,支持監(jiān)督機構(gòu)的接口等。
2.2.2 云計算應(yīng)用部署與系統(tǒng)集成
云計算應(yīng)用部署與系統(tǒng)集成是向最終用戶提供環(huán)境交付的關(guān)鍵。其主要技術(shù)如:虛擬資源池、網(wǎng)絡(luò)虛擬化、集成技術(shù)。
2.2.3 云計算平臺不間斷運行
對于用戶的關(guān)鍵業(yè)務(wù),云計算平臺環(huán)境的穩(wěn)定且持續(xù)運行是基本要求,國內(nèi)外大型云資源提供商,其不間斷穩(wěn)定運行要求,一般都在99.99%以上,因此對于云計算平臺的不間斷運行技術(shù),主要在:
(1)云計算平臺底層物理設(shè)備和虛擬化資源的異常監(jiān)控;
(2)云計算平臺各類進程和服務(wù)的監(jiān)控、云計算底層應(yīng)用和租用用戶的監(jiān)控;
(3)對于監(jiān)控中出現(xiàn)的故障進行評估、異常做應(yīng)對性處理、容錯和及時恢復(fù)機制,以及軟件的實時切換技術(shù)等;
(4)關(guān)注云計算平臺中虛擬主機出錯后的快速切換機制、虛擬化集群的容錯、虛擬主機安全防護等。
2.2.4 云計算平臺的客戶端接入技術(shù)
云平臺的計算是以數(shù)據(jù)、最終用戶和提供的服務(wù)為基礎(chǔ),在云端的各用戶之間的共存、互動是云平臺架構(gòu)的發(fā)展趨勢。而云客戶端訪問會有如:PC機、筆記本、手機、掌上電腦等智能移動設(shè)備。面向云計算行業(yè)用戶的各種應(yīng)用需求,需要提供多種模式,以及未來5G環(huán)境下的各種移動端接入技術(shù),為最終用戶提供多樣的云計算服務(wù)。
考慮到貴冶生產(chǎn)數(shù)據(jù)的私密性,我們采用私有云的方式來建設(shè)貴冶的云計算平臺。
對于部署方式來說,我們采用圖1的架構(gòu)設(shè)計來確保冗余性和安全性。
圖1 邏輯架構(gòu)設(shè)計
私有云解決方案的平臺構(gòu)建是在底層服務(wù)器硬件的基礎(chǔ)上進行的[3],同時考慮到生產(chǎn)環(huán)境中網(wǎng)絡(luò)的重要性,所以方案中對于網(wǎng)絡(luò)設(shè)備采用雙路冗余的設(shè)計。以下是方案的重點。
(1)圖1中所有連線默認均為10Gbps連接。
(2)交換機之間進行兩兩堆疊,接入交換機之間也進行兩兩堆疊,即虛擬成一個邏輯的交換機,為 active-active。
(3)為確保冗余和高速,所有接入設(shè)備均分別上聯(lián)2臺交換機。
(4)管理與備份區(qū)單站點推薦采用4臺物理服務(wù)器,其中3臺作為管理KS服務(wù),2臺復(fù)用作為VBR備份與鏡像服務(wù)。
(5)云平臺VG虛擬網(wǎng)關(guān)區(qū)采用2臺物理服務(wù)器,承擔(dān)云內(nèi)與云外邊界及負載集群服務(wù)。
(6)計算存儲區(qū)但站點推薦采用8臺4路融合型物理服務(wù)器設(shè)備,用于分布式計算、分布式存儲和分布式網(wǎng)絡(luò)服務(wù)。
虛擬資源池是基礎(chǔ)設(shè)施層的具體應(yīng)用,主要模塊有計算存儲資源模塊(計算存儲節(jié)點)、網(wǎng)絡(luò)資源模塊(網(wǎng)絡(luò)設(shè)備)和業(yè)務(wù)管理系統(tǒng)(管理節(jié)點)。
3.3.1 計算存儲資源模塊
服務(wù)器是搭建云平臺重要的組成設(shè)備之一,所以方案中底層的服務(wù)器資源也采用傳統(tǒng)的X86架構(gòu)的服務(wù)器。底層虛擬化技術(shù)采用國際最主流的KVM, KVM目前已成為學(xué)術(shù)界的主流VMM之一,是基于硬件的完全虛擬化,因此性能一舉超過其他的虛擬化技術(shù),經(jīng)過調(diào)優(yōu)之后的KVM更是將這種性能發(fā)揮到極致,虛擬資源的能力可以達到98%的物理資源的能力。
正是因為采用了KVM這樣全虛擬化的技術(shù),云平臺系統(tǒng)可以為其用戶提供支持QoS策略保障虛擬機資源分配,不會造成用戶之間共享物理資源時相互干擾,這是以前半虛擬化技術(shù)所不能達到的[6]。多點、跨域自動化調(diào)度是云平臺系統(tǒng)另外一個特點,支持x86架構(gòu)服務(wù)器的管理數(shù)量無設(shè)計上限,實現(xiàn)多地的統(tǒng)一管理。
要讓這些虛擬機正常工作,還需要為他們提供映像(image)。映像是一個包含了軟件及必要配置的機器模版。對于基礎(chǔ)軟件操作系統(tǒng)是必須的,也可以根據(jù)自己的需求將任何應(yīng)用軟件(比如,數(shù)據(jù)庫、中間件等)放入映像中。所以映像分為兩類:其一是系統(tǒng)提供的,稱之為“系統(tǒng)映像”,包括了各種Linux、Windows等操作系統(tǒng);其二是用戶通過捕獲一個主機來自行創(chuàng)建的,名為“自有映像”。系統(tǒng)映像全局可見可用,自有映像只有用戶本人可見可用。在映像中用戶可以自行開發(fā)和測試各種服務(wù)和應(yīng)用,并通過系統(tǒng)提供的映像功能,建立、配置并捕獲模板,用于提供給不同的團隊與項目使用。
存儲資源也是搭建云平臺重要的組成設(shè)備之一。云平臺存儲資源目前主要針對塊存儲設(shè)備(磁盤),會將所有的磁盤構(gòu)成一個全局的塊存儲系統(tǒng),由它為云平臺上的用戶統(tǒng)一提供存儲服務(wù)。
在存儲資源模塊設(shè)計時,根據(jù)實際運營的經(jīng)驗數(shù)據(jù),建議配置的存儲系統(tǒng)可以支持多種類型的磁盤:SSD型磁盤、SAS型磁盤、SATA型磁盤,正如物理世界中的磁盤。SSD型磁盤適用于對I/O要求特別高的應(yīng)用,例如數(shù)據(jù)庫等在線業(yè)務(wù);SAS型磁盤適用于跑一般的虛擬機和對I/O有比較高要求的應(yīng)用,SATA型磁盤擁有更大的單塊磁盤容積,適用于對容量要求較高的應(yīng)用,例如文檔存儲等離線業(yè)務(wù)。
存儲資源中提供的磁盤獨立于主機的生命周期而存在,可以被連接到任意運行中的主機上,為主機提供持久化的、塊級存儲,并可以隨時解除連接,轉(zhuǎn)接至其他主機,如此還可以實現(xiàn)數(shù)據(jù)的快速轉(zhuǎn)移。
除了磁盤,還提供了備份服務(wù)。備份(Snapshot)用于在塊設(shè)備級別(block device level)上進行磁盤的備份與恢復(fù),可以同時對多張磁盤做備份(包括系統(tǒng)盤和數(shù)據(jù)盤),也可以對正在運行的主機做在線備份。一張磁盤可以有多個備份鏈,每條備份鏈包括一個全量備份點以及多個增量備份點,用戶可以隨時從任意一個備份點恢復(fù)數(shù)據(jù)。
3.3.2 網(wǎng)絡(luò)資源模塊
盡管網(wǎng)絡(luò)資源模塊也是搭建云平臺重要的組成設(shè)備之一,但是在云平臺對于網(wǎng)絡(luò)設(shè)備的使用都只當做為二層(鏈路層)設(shè)備來使用,物理網(wǎng)絡(luò)設(shè)備只是解決連通性問題,無需使用任何三層(網(wǎng)絡(luò)層)的協(xié)議。這樣的好處是在確保性能最優(yōu)的前提下,無需復(fù)雜的配置,無論是工程實施,還是后期維護,工作量都大大減少了。
為了提升整個云平臺的高可靠性,系統(tǒng)中設(shè)計了多重實時副本,一旦發(fā)生硬件設(shè)備故障時,異地的實時副本就會自動開始工作,確保用戶數(shù)據(jù)不會丟失,甚至上層的業(yè)務(wù)系統(tǒng)也不會下線。正是為了在內(nèi)部支撐網(wǎng)絡(luò)中高效傳送多重實時副本,以及確保虛擬機之間的通信帶寬,強烈建議采購方采用萬兆(10Gb/s)以太網(wǎng)交換機來構(gòu)建后端的網(wǎng)絡(luò)系統(tǒng)。這些萬兆網(wǎng)絡(luò)設(shè)備都只以二層設(shè)備方式工作,把所有物理服務(wù)器連接起來,并且與互聯(lián)網(wǎng)進行連通即可。
除了后端支撐網(wǎng)絡(luò)系統(tǒng)外,網(wǎng)絡(luò)資源模塊設(shè)計還包括用戶層面的網(wǎng)絡(luò)服務(wù)。提供了多種組網(wǎng)方式:VPC虛擬私有云網(wǎng)絡(luò)、與現(xiàn)有企業(yè)網(wǎng)直連的基礎(chǔ)網(wǎng)絡(luò)。
基礎(chǔ)網(wǎng)絡(luò)的好處是簡單,無需用戶做任何配置與管理即可直接使用, 但正因為它是全局網(wǎng)絡(luò),所以其安全保障需要依靠防火墻(Security Group)來實現(xiàn)的。
VPC私有網(wǎng)絡(luò)需要用戶創(chuàng)建并管理,VPC之間是100%隔離的,以滿足對安全的100%追求。
私有網(wǎng)絡(luò)類似物理世界中使用交換機(L2 Switch)將多臺服務(wù)器連接在一起,組成的局域網(wǎng)[5]。VPC用于多個受管私有網(wǎng)絡(luò)之間互聯(lián),并提供多項附加服務(wù):DHCP服務(wù)、端口轉(zhuǎn)發(fā)、VPN、隧道服務(wù)和訪問控制,涵蓋了常用的網(wǎng)絡(luò)配置與管理工作。如果提供的VPC功能仍然無法滿足網(wǎng)絡(luò)管理的需求,可以創(chuàng)建自管私有網(wǎng)絡(luò),并自行配置和管理該網(wǎng)絡(luò)。
IP地址的管理也是網(wǎng)絡(luò)資源模塊設(shè)計中的一個重要部分。彈性IP地址是在互聯(lián)網(wǎng)(或企業(yè)內(nèi)部辦公網(wǎng)絡(luò))上合法的靜態(tài)IP地址。在系統(tǒng)中,彈性IP地址與用戶的賬戶而非特定的資源關(guān)聯(lián),用戶可以將申請到的彈性IP地址分配到任意主機、負載均衡器和VPC中的資源,并隨時可以解綁、再分配到其他資源,如此可以快速替換用戶的對外資源。
3.3.3 業(yè)務(wù)管理系統(tǒng)
在規(guī)劃好計算資源、存儲資源和網(wǎng)絡(luò)資源后,還需要規(guī)劃智能管理系統(tǒng),這部分功能可以運行在物理服務(wù)器上。作為管理節(jié)點,主要負責(zé):
(1)物理機器的管理。每臺物理機器都需要分配獨有的ID,并能標識出物理機器的狀態(tài)(活躍、待命、修復(fù)、不可用)。
(2)機器人管理。在P2P機器人社區(qū)中有各種類型的機器人,為這些機器人分配獨有的ID,并能標識出機器人所處的狀態(tài)[2]。
(3)區(qū)域管理。系統(tǒng)支持多地域的部署,需要為每個部署做個命名與標識。
(4)控制臺管理??刂婆_與多地域也是具備獨立生命周期的,既可以為每個地域的部署配置控制臺,也可以讓1個控制臺服務(wù)于多個地域。
(5)API管理。對于通過API方式進行資源調(diào)度與管理的用戶,需要管理訪問的Quota以及密鑰。
在分布式虛擬機和虛擬磁盤上采用多副本機制保證了數(shù)據(jù)的安全。這些副本都要是實時副本,而且至少包含1份異地副本,即數(shù)據(jù)的寫入只有在多個副本上都完成后才算成功,實時副本可以保證硬件設(shè)備出現(xiàn)問題時數(shù)據(jù)不丟失,這樣即使源數(shù)據(jù)所在的主機突然出現(xiàn)問題,通過異地副本也能快速恢復(fù)。1份原始數(shù)據(jù)有多份實時副本,這也是系統(tǒng)熱遷移的技術(shù)基礎(chǔ)。構(gòu)建在低延遲無損耗的物理專線上的跨數(shù)據(jù)中心異地副本也能快速恢復(fù)。
備份快照用于在虛擬磁盤塊設(shè)備級別上進行磁盤的備份與恢復(fù),可以同時對多張磁盤做備份(包括系統(tǒng)盤和數(shù)據(jù)盤),也可以對正在運行的主機做在線備份。1張磁盤可以有多個備份鏈,每條備份鏈包括1個全量備份點以及多個增量備份點,可以隨時從任意一個備份點恢復(fù)數(shù)據(jù)。
通過云計算平臺,我們可以實現(xiàn)虛擬化平臺、云平臺管理軟件、SDN分布式網(wǎng)絡(luò)和SDS分布式存儲,支持硬件的自動發(fā)現(xiàn)與配置,支持通過簡單的增加節(jié)點、連線、上電完成云平臺的部署和擴容,滿足業(yè)務(wù)大規(guī)模發(fā)展的需求。云平臺提供的服務(wù)涉及IT基礎(chǔ)設(shè)施層所有元素:計算、存儲、網(wǎng)絡(luò)和安全,還包括自動監(jiān)控和運維,在云平臺系統(tǒng)中可以一站式解決。
在本次云平臺的建設(shè)中還有很多不足,例如:(1)對于虛擬化環(huán)境,需要建立一套適應(yīng)江銅內(nèi)部管理和運維的新流程。(2)自動化是云平臺的一個重要組成部分,但隨著自動化的不斷完善會變得逐漸復(fù)雜,這就要求IT團隊不斷更新和儲備知識。(3)私有云平臺對外是一個相對封閉的平臺,日后第三方的軟件在接口對接上需要不斷完善。
貴冶的云平臺建設(shè)可以減少新系統(tǒng)上線的初期投資成本、降低業(yè)務(wù)部門整體運營成本,從而實現(xiàn)業(yè)務(wù)快速上線能力,最終提升貴冶的整體創(chuàng)新能力。