李 燁,張家瑋,馮 艷
(1.國網(wǎng)山西省電力公司檢修分公司,山西 太原 030032;2.國網(wǎng)山西省電力公司電力調(diào)度控制中心,山西 太原 030001;3.河北興泰發(fā)電有限責(zé)任公司,河北 邢臺 054000)
SCADA系統(tǒng)故障應(yīng)急處理方案的探討
李 燁1,張家瑋2,馮 艷3
(1.國網(wǎng)山西省電力公司檢修分公司,山西 太原 030032;2.國網(wǎng)山西省電力公司電力調(diào)度控制中心,山西 太原 030001;3.河北興泰發(fā)電有限責(zé)任公司,河北 邢臺 054000)
SCADA(supervison control and data acquisition)是數(shù)據(jù)采集與監(jiān)視控制系統(tǒng),是調(diào)度自動化系統(tǒng)的核心,是保證電網(wǎng)調(diào)度生產(chǎn)運行的技術(shù)基礎(chǔ)。為適應(yīng)國網(wǎng)公司“三集五大”體系建設(shè)的要求,實現(xiàn)山西省變電站無人值守的規(guī)劃,并充分發(fā)揮檢修公司生產(chǎn)值班室備用監(jiān)控的作用,SCADA系統(tǒng)接入了全省所有500 kV及以上輸變電設(shè)備信息,它的穩(wěn)定運行對檢修公司的安全生產(chǎn)起著至關(guān)重要的作用。對SCADA系統(tǒng)故障發(fā)生時的應(yīng)急處理方案進行探討,并進行了實例分析。
SCADA系統(tǒng);無人值守;備用監(jiān)控;應(yīng)急處理
SCADA系統(tǒng)是調(diào)度自動化系統(tǒng)的核心,是保證電網(wǎng)調(diào)度生產(chǎn)運行的技術(shù)基礎(chǔ)。該系統(tǒng)可以通過變電站遠動工作站直采直送設(shè)備實時運行數(shù)據(jù)、告警信息或遙控命令,也可以通過站端KVM、遠方終端或圖形網(wǎng)關(guān)等方式實現(xiàn)“告警直傳、遠程瀏覽”功能。對于調(diào)度員和監(jiān)控員來說,SCADA系統(tǒng)就像是人的“眼睛和耳朵”,值班人員通過SCADA系統(tǒng)實現(xiàn)了電網(wǎng)和設(shè)備的遠程調(diào)控。
山西省電力公司檢修公司(檢修公司)生產(chǎn)指揮平臺將19座500 kV及以上變電站、81條輸電線路數(shù)據(jù)全部接入SCADA系統(tǒng),按照監(jiān)控信息規(guī)范要求進行了核對完善。實現(xiàn)了對全省500 kV及以上輸變電設(shè)備的遠程監(jiān)控、遠程信息瀏覽以及實時遙測、遙信信息的采集功能。
目前,檢修公司SCADA系統(tǒng)的配置如下:部署2臺歷史服務(wù)器、2臺SCADA服務(wù)器、1組磁盤陣列、1臺WEB服務(wù)器、6臺工作站、1臺物理隔離裝置、1臺防火墻以及網(wǎng)絡(luò)、光纖交換機等主要局域網(wǎng)絡(luò)設(shè)備。檢修公司調(diào)度SCADA系統(tǒng)結(jié)構(gòu)圖如圖1所示。
圖1 檢修公司調(diào)度SCADA系統(tǒng)結(jié)構(gòu)圖
檢修公司自動化系統(tǒng)主站功能主要包括SCADA、變電站集中控制等功能,并能提供信息查詢等輔助服務(wù)功能[1]。
2.1 SCADA功能
SCADA功能包括:數(shù)據(jù)采集和處理、事故告警處理、控制和調(diào)節(jié)、趨勢曲線記錄、報表顯示打印、模擬盤接口、系統(tǒng)事件處理及系統(tǒng)時鐘同步、動態(tài)著色等,各項指標(biāo)均應(yīng)達到或超過調(diào)度自動化系統(tǒng)實用化標(biāo)準(zhǔn)。除此之外,還應(yīng)該能正常接入DTS調(diào)度員仿真系統(tǒng)并同時可以實現(xiàn)智能化電網(wǎng)D5000系統(tǒng)的進一步升級改造。
2.2 變電站集中控制
檢修公司所轄變電站正朝著無人、少人值守的運行模式發(fā)展,因此SCADA系統(tǒng)應(yīng)能滿足對無人值班變電站的綜合管理及遠程操作和控制的要求。系統(tǒng)需能提供集控站責(zé)任分區(qū)、責(zé)任區(qū)域的設(shè)置和管理、責(zé)任區(qū)域相應(yīng)的信息分層處理等功能。
2.3 計算機聯(lián)網(wǎng)及通信
采用DL476-92通信規(guī)約實現(xiàn)與現(xiàn)有SCADA系統(tǒng)、高層應(yīng)用軟件的數(shù)據(jù)交換和聯(lián)網(wǎng)運行。通過計算機通信所采集的數(shù)據(jù),在數(shù)據(jù)的應(yīng)用功能及處理上與通過RTU設(shè)備所采集的數(shù)據(jù)相同。
系統(tǒng)支持與電力市場交易系統(tǒng)、電力營銷系統(tǒng)、電量計費系統(tǒng)、負(fù)荷管理系統(tǒng)、OMS等其他系統(tǒng)通信的功能,并具備與諸多的電力系統(tǒng)應(yīng)用軟件接口的能力。
WEB瀏覽服務(wù)通過正向安全隔離裝置與SCADA系統(tǒng)通信服務(wù)器通信取得實時信息,WEB瀏覽服務(wù)器通過防火墻直接掛在MIS網(wǎng)上,以保證兩系統(tǒng)的完全隔離,保證SCADA系統(tǒng)的安全[2]。
2.4 WEB瀏覽服務(wù)功能
提供了一個其他系統(tǒng)訪問SCADA系統(tǒng)實時數(shù)據(jù)的平臺,可實現(xiàn)信息查詢等輔助服務(wù)。用戶通過WindowsXP、Vista、Linux等Web瀏覽器工具,瀏覽器軟件,獲得實時和歷史信息,畫面、圖表與SCADA系統(tǒng)統(tǒng)一生成,不需另外生成和維護。
OPEN-3000系統(tǒng)是一種兼具先進性、實用性及可靠性于一身的EMS子系統(tǒng),但在實際運行中也會出現(xiàn)各種各樣的故障及運行異常的情況。這些異常及故障,有些是系統(tǒng)本身的BUG所造成的,但還有些則是無法預(yù)料及不可避免的情況。產(chǎn)品故障與服務(wù)中斷都會影響到公司調(diào)度運行、生產(chǎn)管理的正常進行以及對今后無人值守站運行情況的實時監(jiān)控。因此如果需要及時排查系統(tǒng)異常并快速處理系統(tǒng)故障,就應(yīng)對OPEN3000系統(tǒng)故障診斷和快速恢復(fù)的技術(shù)方案進行深入研究和學(xué)習(xí),可以很大程度上提高管理水平與使用經(jīng)驗,實現(xiàn)對電網(wǎng)運行狀況的實時監(jiān)控。
本方案所列問題現(xiàn)象與處理方法可幫助技術(shù)人員快速準(zhǔn)確地找到問題的癥結(jié)所在,及時恢復(fù)系統(tǒng),保證SCADA系統(tǒng)的安全穩(wěn)定運行。
3.1 計算機硬件類故障
3.1.1 故障現(xiàn)象
a)實時遙測遙信數(shù)據(jù)無法正常刷新。
b)工作站操作界面無響應(yīng)或者響應(yīng)速度慢。
c)通過ems用戶無法登錄服務(wù)器。
3.1.2 故障原因及分析
a)主機服務(wù)器的磁盤陣列受到損壞。
b)對系統(tǒng)的操作日志進行檢查,對服務(wù)器磁盤信息檢測進行檢查。
3.1.3 解決方案
a)拔掉硬件出現(xiàn)故障的服務(wù)器網(wǎng)線。
b)將系統(tǒng)應(yīng)用切為備機運行,故障服務(wù)器暫時停止運行。
c)將故障服務(wù)器進行關(guān)閉。
3.2 網(wǎng)絡(luò)故障
3.2.1 故障現(xiàn)象
a)交換機發(fā)生故障,告警窗彈出故障告警。
b)告警窗顯示“交換機某個端口斷網(wǎng)”告警。
c) 操作界面通斷顯示某臺主機網(wǎng)絡(luò)狀態(tài)異常,已斷網(wǎng),并且無法更新“刷新時間”。
3.2.2 故障原因及診斷
a)交換機未通電,或者交換機本身硬件發(fā)生故障。
b)交換機硬件故障。
c)在該端口上連接的主機之間網(wǎng)線出現(xiàn)故障。
d)出現(xiàn)故障 (常見情況是掉電)。
3.2.3 解決方案
a)對交換機恢復(fù)供電。
b)關(guān)閉故障的交換機并報修。
c)對于交換機故障,進行及時關(guān)閉。
d)如果是主機間網(wǎng)線故障的情況,進行及時的更換。
e)對主機的供電情況進行檢查。
3.3數(shù)據(jù)庫故障
3.3.1 故障現(xiàn)象
a)數(shù)據(jù)庫發(fā)出告警:數(shù)據(jù)庫連接失敗或系統(tǒng)進入1+N狀態(tài)。
b)數(shù)據(jù)庫無法通過sqlplus進行連接。
c)無法ping到數(shù)據(jù)庫服務(wù)器。
d)曲線、歷史告警不能查看。
3.3.2 故障原因及診斷
a)數(shù)據(jù)庫服務(wù)器磁盤損壞。
b)數(shù)據(jù)庫實例服務(wù)崩潰。
c)數(shù)據(jù)庫磁盤空間滿。
3.3.3 解決方案
a)重新啟動ORACLE。
b)重新拔插網(wǎng)線,或更換新的網(wǎng)線(如果是光纖連接,還需要檢查是否有物理損壞,若有損害需要進行及時更換)。
c)對DB_SERVICE應(yīng)用進行切換或者重啟。
d)對數(shù)據(jù)庫容量聯(lián)系廠家進行容量擴充或者將部分采樣與歷史告警數(shù)據(jù)備份后清除。
3.4 廠站類故障
a)故障類型:單個網(wǎng)絡(luò)通道;成組常規(guī)通道退出;所有廠站通道退出。
b)故障原因及診斷:網(wǎng)絡(luò)連接中斷;對方服務(wù)中斷;終端服務(wù)器軟件或者硬件故障;前置交換機與終端服務(wù)器未正確連接或連接已中斷;通信規(guī)約進程出現(xiàn)異常。
c)解決方案:更換終端服務(wù)器的端口,修改通道定義,如果故障被排除,基本判斷為終端服務(wù)器與通道板連接線問題,并逐層更換排查;恢復(fù)物理連接,通知對方啟動服務(wù);對終端服務(wù)器進行更換;并恢復(fù)終端服務(wù)器與交換機的連接;將相應(yīng)規(guī)約進程抹掉[3]。
3.5 WEB服務(wù)類故障
3.5.1 故障類型
a)網(wǎng)頁的內(nèi)容用戶在電腦的WEB客戶端無法進行瀏覽,錯誤提示為“無法顯示該頁”。
b)通過電腦客戶端登錄時出現(xiàn)錯誤,錯誤提示為“無法連接數(shù)據(jù)庫”。
c)通過客戶端登錄后,界面圖形顯示數(shù)據(jù)不刷新。
d)登錄前置機界面中后,不能正確顯示遙測遙信信息甚至無顯示。
3.5.2 故障原因及診斷
a)未將服務(wù)器信息發(fā)布軟件進行啟動;或者已啟動軟件,但配置不正確,網(wǎng)絡(luò)運行異常。
b) 網(wǎng)絡(luò)設(shè)備(如防火墻) 的端口未全部開放 , 例 如 : 11000, 11112, 11115, 11125,12063,12064,12069,8000。
c)服務(wù)器與物理隔離的連接出現(xiàn)中斷。
3.5.3 解決方案
a) 啟動 tomcat,啟動方法:catalina.sh run &,或?qū)UBLIC應(yīng)用重新啟動。
b)可以通過端口8000進行通訊,盡快修復(fù)、排查網(wǎng)絡(luò)設(shè)備故障。
c)開放網(wǎng)絡(luò)設(shè)備(如防火墻)的端口。
d)把某些設(shè)備間中斷的連接進行恢復(fù):如物理隔離與服務(wù)器的連接[4]。
4.1 數(shù)據(jù)庫故障
2015年8月16日10點05分,自動化人員接到檢修公司生產(chǎn)值班室值班員匯報:值班人員在使用SCADA系統(tǒng)過程當(dāng)中,發(fā)現(xiàn)歷史曲線不能正常查看,歷史告警不能正常查詢。自動化人員立即啟用故障應(yīng)急處理預(yù)案,對故障原因進行分析判斷,可能的故障原因如下:data_srv應(yīng)用異常;midhs服務(wù)異常;數(shù)據(jù)庫磁盤空間滿;數(shù)據(jù)庫故障。分析出故障原因后進行逐項排查,結(jié)果登錄到商用庫服務(wù)器,查看數(shù)據(jù)文件所在分區(qū)磁盤空間使用百分比為100%,從而最終確定故障原因為數(shù)據(jù)庫磁盤空間已滿。
此故障的具體處理步驟:自動化人員聯(lián)系廠家人員進行數(shù)據(jù)庫的擴容;若無法進行擴容,則應(yīng)將數(shù)據(jù)庫中部分采樣與歷史告警數(shù)據(jù)備份后刪除,留出足夠的運行空間,保證系統(tǒng)的正常使用。
4.2 主機服務(wù)器所有應(yīng)用斷網(wǎng)
檢修公司調(diào)度自動化人員在日常巡視SCADA系統(tǒng)過程中突然發(fā)現(xiàn):有1臺主機服務(wù)器中所有應(yīng)用都斷網(wǎng),“刷新時間”不更新,系統(tǒng)中數(shù)據(jù)上傳發(fā)生異常。自動化人員立即對故障原因進行排查,判斷可能的原因為:該服務(wù)器的廣播報文無法被其他機器收到。
判斷出可能的故障原因后,自動化人員及時采取故障處理措施:檢查斷網(wǎng)服務(wù)器是否能ping通其他機器。如果無法ping通,修改出錯的地址或者子網(wǎng)掩碼,并重啟該服務(wù)器;sys_appstatus或者sys_servicemanage進程不在運行,則運行進程或該服務(wù)器系統(tǒng)重啟。最終自動化人員修改出錯的地址后,主機服務(wù)器恢復(fù)了正常的網(wǎng)絡(luò)連接。
5.1 增加智能語音告警模塊
系統(tǒng)自帶語音告警功能單一,無法滿足集控中心實時監(jiān)控及安全生產(chǎn)要求。為此,需要在現(xiàn)有調(diào)度SCADA系統(tǒng)上另外增加智能語音告警功能模塊,提高告警的自動化程度。
5.2 增加遠方調(diào)取定值和軟壓板投退模塊
為了滿足調(diào)控一體化建設(shè)要求,SCADA系統(tǒng)需要包含軟壓板投退功能。為此,需要在現(xiàn)有調(diào)度SCADA系統(tǒng)上另外增加遠方調(diào)取定值和軟壓板投退功能模塊,使系統(tǒng)的功能得到完善,從而提高作業(yè)效率。
[1]曹茂昇,高伏英.電網(wǎng)調(diào)度自動化主站運行 [M].北京:中國電力出版社,2011.
[2]王華忠.監(jiān)控與數(shù)據(jù)采集(SCADA) 系統(tǒng)及其應(yīng)用(第2版)[M].北京:電子工業(yè)出版社,2012.
[3]周宇植.電網(wǎng)調(diào)度自動化廠站端調(diào)試檢修 [M].北京:中國電力出版社,2011.
[4]王振明.基于WEB的SCADA系統(tǒng) [M].北京:機械工業(yè)出版社,2010.
Discussion on the Fault Emergency Treatment Plan of SCADA System
LI Ye1,ZHANG Jiawei2,FENG Yan3
(1.Maintenance Co.of State Grid Shanxi Electric Corporation,Taiyuan,Shanxi030032,China; 2.State Grid Shanxi Electric Power Corporation Dispatch and Control Center, Taiyuan,Shanxi030001,China; 3.Hebei Xingtai Power Generation Co.,Ltd.,Xingtai,Hebei054000,China)
SCADA system is the core of dispatching automation system and the technical basis to guarantee the grid dispatching operation.In order toadapt tothe requirement of“Three Intensifications and Five Systems”ofSGCC,and alsoin order torealize substation unattendance all over Shanxi province,the information of all the transmission and transformation equipments of 500 kV and above in Shanxi province is accessed to SCADA system.Its stable operation plays a vital role in the safe operation of maintenance companies.This article has discussed the fault emergencytreatment plan ofSCADAsystem,and carried out practical case analysis.
SCADAsystem;unattended;alter monitor;emergencytreatment
TM734
A
1671-0320(2017)02-0043-04
2017-01-12,
2017-02-10
李 燁(1986),女,山西定襄人,2009年畢業(yè)于太原理工大學(xué)電氣工程及其自動化專業(yè),助理工程師,從事電力調(diào)度自動化系統(tǒng)的日常運維和管理工作;
張家瑋(1982),男,山西忻州人,2009年畢業(yè)于太原理工大學(xué)電力系統(tǒng)及其自動化專業(yè),碩士,工程師,從事電力系統(tǒng)調(diào)度設(shè)備監(jiān)控和繼電保護管理工作;
馮 艷(1973),女,河北邢臺人,1999年畢業(yè)于石家莊電力學(xué)?;瘜W(xué)監(jiān)督專業(yè),技師,從事熱控技術(shù)檢修工作。