王增波
WANG Zeng-bo
(寧波鋼鐵有限公司,寧波 315807)
多年來國內(nèi)冶金行業(yè)控制系統(tǒng)一直采用服務(wù)器冷切換方式、熱切換方式或集群方式作為數(shù)據(jù)庫、I/O服務(wù)器的控制方式。傳統(tǒng)采用的是雙機(jī)熱備方案,該方法不僅不能節(jié)省投資成本,而且系統(tǒng)的可靠性得不到保證。
隨著經(jīng)濟(jì)的迅速發(fā)展和計算機(jī)、網(wǎng)絡(luò)等技術(shù)的不斷進(jìn)步,冶金企業(yè)在加快建設(shè)步伐的同時,也面臨著控制系統(tǒng)的要求越來越高這樣一個局面。因此,建立高精度、高可靠性的冶金控制系統(tǒng),已經(jīng)是當(dāng)務(wù)之急。
隨著運行時間的增加,整個監(jiān)控系統(tǒng)的安全性越來越受重視。各種升級后的計算機(jī)設(shè)備、路由設(shè)備、交換設(shè)備、操作系統(tǒng)、數(shù)據(jù)庫系統(tǒng)等都會有不同程度的故障風(fēng)險,再加上使用環(huán)境、資源共享、數(shù)據(jù)通信、計算機(jī)病毒以及網(wǎng)絡(luò)管理等方面的不安全因素,使得控制系統(tǒng)數(shù)據(jù)的安全性和有效性變得更加重要。以往,為提高控制系統(tǒng)數(shù)據(jù)信息的可靠性,通常在控制系統(tǒng)中采用雙機(jī)熱備方案。盡管采用該方案對系統(tǒng)的可靠性有所提高,但卻增加了系統(tǒng)整體的軟硬件投資費用,同時增加了系統(tǒng)的管理和維護(hù)工作,更重要的是,系統(tǒng)的可靠性并不一定能得到足夠的保障。
因此,尋找并采用一種具備高可用性、低成本、易維護(hù)的服務(wù)器應(yīng)用方案,是眾多冶金企業(yè)一直在研究的課題。筆者根據(jù)多年的冶金行業(yè)服務(wù)器應(yīng)用經(jīng)驗,結(jié)合目前國內(nèi)外在高可用性服務(wù)器領(lǐng)域的成熟技術(shù)方案和有效應(yīng)用成果,發(fā)現(xiàn)使用可用性高于99.999%以上的Stratus容錯服務(wù)器代替?zhèn)鹘y(tǒng)的雙機(jī)熱備方案是一種有效的途徑。
寧波鋼鐵五豐塘焦化廠為了能更好的提供控制系統(tǒng)核心服務(wù)器的連續(xù)可用性,采用了世界上最先進(jìn)的容錯服務(wù)器作為控制系統(tǒng)核心服務(wù)器。這種方案不但可避免雙機(jī)熱備方案中單硬件系統(tǒng)故障所造成的系統(tǒng)停機(jī)以及系統(tǒng)切換帶來的的經(jīng)濟(jì)損失,同時還可減少焦化控制系統(tǒng)的后續(xù)維護(hù)量及維護(hù)費用。由于容錯服務(wù)器采用了硬件冗余設(shè)計,整個硬件系統(tǒng)從主板、CPU、內(nèi)存到I/O模塊都采用雙份冗余模式,并且基于先進(jìn)的鎖步(LockStep)技術(shù),各冗余模塊在同一時鐘周期執(zhí)行相同的指令,使得整個系統(tǒng)能夠消除單點故障、無故障切換時間,連續(xù)可用性高于99.999%。
圖1 容錯系統(tǒng)原理圖
容錯服務(wù)器(如圖1所示)與傳統(tǒng)服務(wù)器(如圖2所示)在物理結(jié)構(gòu)上最重要的區(qū)別有兩點:1)容錯服務(wù)器采用了雙份冗余容錯硬件,包括CPU、內(nèi)存、主板、硬盤、I/O系統(tǒng)等等;2)容錯服務(wù)器在物理構(gòu)成上將CPU-內(nèi)存單元與I/O單元分離,中間增加了容錯公司定制的故障偵測與隔離邏輯芯片組進(jìn)行PCI橋接,該芯片組是容錯服務(wù)器實現(xiàn)時鐘同步操作、容錯、糾錯等功能的基礎(chǔ)。
圖2 傳統(tǒng)計算機(jī)系統(tǒng)原理圖
Stratus容錯的核心技術(shù)——連續(xù)處理技術(shù)是三十年來為全球最苛刻的應(yīng)用確保連續(xù)運行時間之經(jīng)驗的結(jié)晶。連續(xù)處理技術(shù)主要由三個核心要素構(gòu)成,分別是:時鐘同步技術(shù)、故障安全軟件和主動服務(wù)體系。
鎖步技術(shù)(Lockstep Technology),也稱時鐘同步技術(shù),采用雙份的容錯硬件,由同一時鐘源進(jìn)行控制,兩套硬件在同一時刻執(zhí)行相同的指令。在一個部件出現(xiàn)故障的情況下,其冗余部件就像已激活了的備件一樣繼續(xù)正常的操作,預(yù)防了停機(jī)現(xiàn)象。鎖步技術(shù)使系統(tǒng)還能消除可引起軟件故障的瞬間硬件錯誤。
Stratus故障安全軟件(Failsafe Software)與鎖步技術(shù)協(xié)同工作,能夠預(yù)防許多會升級到停機(jī)的軟件故障。與通常的服務(wù)器或集群系統(tǒng)不同,ftServer的硬件和軟件以透明的方式處理這類錯誤,而對操作系統(tǒng)、中間件、應(yīng)用軟件進(jìn)行屏蔽,同時駐留內(nèi)存數(shù)據(jù)也得到很好的保護(hù)及維護(hù)。
此外,其管理和診斷特性還對其他軟件問題進(jìn)行跟蹤、分析,以及向Stratus通報這些軟件問題,使支持人員在軟件問題發(fā)生之前超前糾正問題。強(qiáng)化的設(shè)備驅(qū)動程序也顯著增加了ftServer系統(tǒng)內(nèi)Windows環(huán)境的穩(wěn)定性。
Stratus獨到的主動服務(wù)體系(ActiveService)能提供冠絕群倫的服務(wù)能力。Stratus ftServer系統(tǒng)能夠持續(xù)監(jiān)視自身的操作,發(fā)現(xiàn)故障后,服務(wù)器會即時隔離故障,并且自動呼叫Stratus支持中心,準(zhǔn)確告知其應(yīng)采取何種解決措施。
圖3 焦化廠分布式控制系統(tǒng)結(jié)構(gòu)圖
ftServer通過訪問適配器及Stratus全球主動服務(wù)網(wǎng)絡(luò)(ActiveServiceNetwork)為客戶提供遠(yuǎn)程支持服務(wù),服務(wù)工程師據(jù)此實現(xiàn)在線故障診斷、排障,在線解決率達(dá)95%以上。必要時,系統(tǒng)還能自動訂購其熱插拔替換部件,確保相應(yīng)的部件能在24小時內(nèi)運到全球主要地點客戶手中??蛻舾梢栽趂tServer無中斷的情況下,輕易安裝需更換的備件。同時,Stratus和客戶授權(quán)的經(jīng)銷商還可透過互聯(lián)網(wǎng)的主動服務(wù)管理器(ActiveService Manager)互相協(xié)作,快速解決問題。
寧波鋼鐵五豐塘焦化廠為了能更好的提高控制系統(tǒng)的連續(xù)可用性,采用了世界上最先進(jìn)的容錯服務(wù)器作為控制系統(tǒng)核心服務(wù)器及HMI服務(wù)器。五豐塘焦化廠是一個新建項目,有JN60-6型焦?fàn)t兩座,以及與之配套的管帶機(jī)、圓形料場、備煤、焦?fàn)t除塵、干熄焦、篩貯焦、煤氣回收、污水處理等生產(chǎn)系統(tǒng),各生產(chǎn)車間工段均設(shè)置相應(yīng)的PLC控制系統(tǒng),并設(shè)置了中控室,各個控制系統(tǒng)均通過網(wǎng)絡(luò)將生產(chǎn)實時數(shù)據(jù)引入中控室,以實現(xiàn)生產(chǎn)的集中監(jiān)控、集中管理和統(tǒng)一調(diào)度功能。系統(tǒng)通訊采用C/S模式,在中控室設(shè)置了備煤、焦?fàn)t、煤氣凈化、篩焦等生產(chǎn)系統(tǒng)的Data Server和HMI Server;另外還設(shè)置了超級服務(wù)器,采集和存儲全廠生產(chǎn)實時數(shù)據(jù),并用于對過程機(jī)和EMS能源中心進(jìn)行生產(chǎn)管控和能源計量數(shù)據(jù)的實時發(fā)布和上傳。其中煤氣凈化系統(tǒng)為化工性質(zhì)、連續(xù)生產(chǎn),對服務(wù)器提出了高可靠性、連續(xù)可用性要求;超級服務(wù)器作為全廠生產(chǎn)管控系統(tǒng)的核心,其重要性更是不言而喻。焦化廠控制系統(tǒng)結(jié)構(gòu)圖如圖3所示。
按照傳統(tǒng),為提高控制系統(tǒng)的可靠性,通常采用雙機(jī)熱備方案,由兩臺獨立服務(wù)器構(gòu)成,再通過集群軟件完成故障切換。但是,這種方案的可靠性是建立在集群軟件的基礎(chǔ)上。隨著數(shù)據(jù)庫越來越大,應(yīng)用越來越復(fù)雜,一旦系統(tǒng)中某一環(huán)節(jié)出現(xiàn)故障,其切換時間需要幾分鐘到幾十分鐘,同時,切換時間內(nèi)的動態(tài)實時數(shù)據(jù)將隨之丟失。更重要的是,切換工作并不一定每次都能成功。
相比之下,Stratus容錯服務(wù)器所采用的冗余硬件同步技術(shù)(Lockstep),能保持多CPU/內(nèi)存單元在精確的同步狀態(tài)——同一時鐘周期執(zhí)行相同的指令,即能夠確保包括瞬時錯誤在內(nèi)的任何故障都不會影響到系統(tǒng)運行,系統(tǒng)可以在任何CPU/內(nèi)存單元,或I/O單元發(fā)生錯誤的情況下不丟失動態(tài)數(shù)據(jù),也不需產(chǎn)生中斷進(jìn)行錯誤處理,避免了雙機(jī)熱備方案所產(chǎn)生的故障切換和恢復(fù)時間,以及該過程中數(shù)據(jù)的丟失。
在焦化廠控制系統(tǒng)中采用容錯服務(wù)器,能確保系統(tǒng)在可用性、維護(hù)性、總體成本三方面具備無與倫比的優(yōu)勢。
寧波鋼鐵五豐塘焦化廠控制系統(tǒng)煤氣凈化服務(wù)器和超級服務(wù)器采納了容錯技術(shù)方案,根據(jù)系統(tǒng)規(guī)模及數(shù)據(jù)庫的大小,考慮到系統(tǒng)的可用性,煤氣凈化服務(wù)器采用了Stratus ftServer 2510配置,超級服務(wù)器采用了Stratus ftServer 4410配置。自2009年11月份投產(chǎn)以來,容錯服務(wù)器一直運行穩(wěn)定可靠,管理維護(hù)簡單方便,為確保生產(chǎn)的安全穩(wěn)定順行發(fā)揮了至關(guān)重要的作用。
通過分析Stratus容錯服務(wù)器的設(shè)計思想、關(guān)鍵技術(shù)以及與雙機(jī)熱備方案的比較,我們可以看出,在焦化控制系統(tǒng)中,采用高可靠性的容錯服務(wù)器,不僅能滿足系統(tǒng)7×24小時連續(xù)運行的需要,還能為用戶節(jié)省總投資成本,減少后期維護(hù)工作及維護(hù)費用。
[1] STRATUS《容錯服務(wù)器白皮書》.