張詩鵬
(國網(wǎng)福建省電力有限公司檢修分公司,福建 福州350000)
變電站自動化網(wǎng)絡系統(tǒng)對變電站整體運行及遠程監(jiān)控系統(tǒng)起了重要作用[1],而當變電站自動護網(wǎng)絡系統(tǒng)發(fā)生網(wǎng)絡風暴時將危及到變電站正常運行。本文將介紹一起因站控層網(wǎng)絡交換機故障發(fā)生網(wǎng)絡風暴導致全站設備通訊中斷的處理過程,分析網(wǎng)絡風暴的異?,F(xiàn)象,總結常規(guī)變電站網(wǎng)絡風暴處理方法。
2018 年4 月12 日,500kV 某變電站出現(xiàn)了出現(xiàn)部分設備通訊中斷,19 時19 分左右全站數(shù)據(jù)不刷新,出現(xiàn)大面積通訊中斷,19 時27 分時站內(nèi)設備通訊逐步恢復,19 時36 分恢復正常。
2018 年4 月16 日,二次檢修人員到該站檢查4 月12 日的異?,F(xiàn)象。檢查過程中再次出現(xiàn)的全站設備通訊中斷的現(xiàn)象,本次通訊中斷的持續(xù)的時間較4 月12 日故障時間更長,而且沒有自行恢復,隔離聯(lián)變35kV 保護小室交換機1 后才逐步恢復正常。
故障發(fā)生時觀察到如下現(xiàn)象:一是首先觀察到聯(lián)變35kV保護小室的A、B 網(wǎng)交換機1 的網(wǎng)口通訊燈出現(xiàn)不規(guī)則閃爍,正常運行時交換機的網(wǎng)口通訊燈應同時閃爍;二是500kV 保護小室的A 網(wǎng)交換機遲于聯(lián)變35kV 保護小室交換機出現(xiàn)不規(guī)則閃爍;三是故障發(fā)生時監(jiān)控后臺出現(xiàn)卡死,數(shù)據(jù)無法刷新;四是故障發(fā)生后測控裝置面板出現(xiàn)“請等待”卡死畫面,詳見圖1。
圖1 故障時,測控裝置出現(xiàn)卡死畫面
二次檢修人員導出4 月12 日故障發(fā)生時的該變電站遠動機上送的報文及設備通訊中斷的事件記錄。通過分析4 月12日通訊中斷事件記錄,詳見表1,發(fā)現(xiàn)如下規(guī)律:一是19:04:27.220 時出現(xiàn)多臺設備B 網(wǎng)同時中斷,19:05:27.225 時出現(xiàn)多臺設備A 網(wǎng)同時中斷;二是19:04 至19:19 之間出現(xiàn)通訊中斷的設備均為聯(lián)變35kV 保護小室內(nèi)設備;三是通過遠動機報文分析,19:19:24.591 兩臺遠動機均不刷新,故出現(xiàn)了其他保護小室內(nèi)設備通訊中斷;四是19:28:54.500 時220kV、500kV 保護小室設備通訊陸續(xù)恢復正常,19:36:24.484 時最后幾臺設備通訊恢復正常,最后恢復的設備為最早通訊中斷的聯(lián)變35kV 保護小室設備。綜上所述,初步判斷某臺站控層交換機故障引起站控層網(wǎng)絡出現(xiàn)網(wǎng)絡風暴,測控裝置CPU 處理不了大量報文,陸續(xù)出現(xiàn)通訊中斷,遠動機被大量報文堵塞造成上送數(shù)據(jù)不刷新,造成全站設備通訊中斷。
4 月16 日,二次檢修人員到站內(nèi)檢查時發(fā)現(xiàn)聯(lián)變35kV 保護小室的A、B 網(wǎng)交換機1 的網(wǎng)口燈閃爍異常,懷疑此兩臺交換機異常。13 時54 分,運維人員通知檢修人員站內(nèi)部分設備通訊中斷。二次檢修人員判斷4 月12 日故障現(xiàn)象再次出現(xiàn),隨后到各保護小室檢查發(fā)現(xiàn)A 網(wǎng)交換機出現(xiàn)不規(guī)則閃爍。14 時24 分,該站全站設備A、B 網(wǎng)通訊中斷,數(shù)據(jù)無法刷新,判斷此時站控層網(wǎng)絡發(fā)生了網(wǎng)絡風暴,需要緊急申請隔離部分交換機查找網(wǎng)絡風暴源頭,恢復站內(nèi)監(jiān)控,具體處理情況如下:
(1)將站內(nèi)網(wǎng)絡情況向省調(diào)反饋,確認站內(nèi)上送數(shù)據(jù)均無法刷新,向省調(diào)申請將該站轉(zhuǎn)就地監(jiān)控,需要斷開站內(nèi)斷開各小室交換機查找故障原因。
(2)將相鄰兩臺已卡死的測控裝置分別拔掉A 網(wǎng)、B 網(wǎng)網(wǎng)線,觀察哪臺測控恢復正常來確定網(wǎng)絡風暴發(fā)生在A 網(wǎng)還是B網(wǎng)。通過觀察拔掉A 網(wǎng)網(wǎng)線的測控恢復正常,確定網(wǎng)絡風暴發(fā)生在A 網(wǎng)。
(3)從220kV 保護小室(一)開始逐臺隔離A 網(wǎng)交換機,觀察站內(nèi)設備是否恢復恢復正常,隔離聯(lián)變35kV 保護小室A 網(wǎng)交換機1 后不久站內(nèi)裝置通訊恢復正常,至此判定聯(lián)變35kV保護小室A 網(wǎng)交換機1 為故障源頭。
(4)15 時03 分站內(nèi)設備通訊恢復正常,遠動上送數(shù)據(jù)恢復正常刷新。聯(lián)變35kV 保護小室A 網(wǎng)交換機的光纖未插回,處于觀察狀態(tài)。檢修人員與運維人員一同檢查了監(jiān)控后臺顯示通訊恢復正常,數(shù)據(jù)正常刷新,同時向省調(diào)匯報了異常處理情況,確認了遠動機上送數(shù)據(jù)恢復刷新。
表1 2018 年04 月12 日某變電站通訊中斷事件記錄
通過檢修處理過程分析得出以下結論:
(1)站控層網(wǎng)絡發(fā)生了網(wǎng)絡風暴,網(wǎng)絡風暴產(chǎn)生了大量的報文,造成測控裝置及遠動機CPU 無法處理,導致全站設備通訊中斷。
(2)通過分別拔出相鄰兩臺已卡死的測控裝置的A 網(wǎng)、B 網(wǎng)網(wǎng)線,通過觀察拔掉A 網(wǎng)網(wǎng)線的測控恢復正常,確定網(wǎng)絡風暴發(fā)生在A 網(wǎng)。
(3)通過逐臺隔離A 網(wǎng)交換機,確認聯(lián)變35kV 保護小室A網(wǎng)交換機1 異常導致產(chǎn)生網(wǎng)絡風暴。
變電站出現(xiàn)網(wǎng)絡風暴的原因比較復雜,歸納起來有如下幾種原因:
(1)網(wǎng)卡損壞:如果網(wǎng)絡機器的網(wǎng)卡損壞,也同樣會產(chǎn)生廣播風暴[2]。故障的網(wǎng)卡不停向交換機發(fā)送大量的數(shù)據(jù)包,交換機不斷轉(zhuǎn)發(fā)導致網(wǎng)絡擁堵,最終導致廣播風暴[3]。
(2)網(wǎng)絡環(huán)路:一條物理網(wǎng)絡線路的兩端同時接在了一臺網(wǎng)絡設備中將導致網(wǎng)絡環(huán)路的產(chǎn)生,導致了網(wǎng)絡性能驟然下降。這種故障,就是典型的網(wǎng)絡環(huán)路。在變電站綜自網(wǎng)絡改造過程中如果網(wǎng)絡搭接未先斷開舊的級聯(lián)網(wǎng)線就接上新的級聯(lián)網(wǎng)絡將導致發(fā)生網(wǎng)絡風暴。
(3)網(wǎng)絡病毒:網(wǎng)絡病毒一旦入侵網(wǎng)絡設備,它們便會立即通過網(wǎng)絡進行傳播,會占據(jù)大量的網(wǎng)絡帶寬,引起網(wǎng)絡堵塞,進而引起廣播風暴。
(4)黑客軟件的攻擊:網(wǎng)絡黑客利用黑客軟件入侵變電站的內(nèi)部網(wǎng)絡進行攻擊,也可能產(chǎn)生廣播風暴。
(1)變電站自動化網(wǎng)絡若發(fā)生疑似網(wǎng)絡風暴現(xiàn)象,應及時確定是否發(fā)生了網(wǎng)絡風暴,可以通過接入站控層網(wǎng)絡交換機進行抓包分析,如果交換機的CPU 利用率較高,且大部分的資源都被"IP Input"進程占用,則基本可以確定網(wǎng)絡中有大流量的數(shù)據(jù)
(2)迅速定位網(wǎng)絡風暴源頭,根據(jù)分別隔離的辦法確認網(wǎng)絡風暴發(fā)生站控A 網(wǎng)還是B 網(wǎng),以便及時查找故障源頭。
(3)分段隔離查找故障點,可以采用局部隔離的辦法迅速鎖定故障點,盡快回復站內(nèi)自動化網(wǎng)絡。
(4)查找過程中應檢查近期是否有自動化網(wǎng)絡的工作是否可能導致產(chǎn)生網(wǎng)絡環(huán)網(wǎng)。
網(wǎng)絡風暴將嚴重影響變電站自動化網(wǎng)絡正常運行,若未及時有效處理將有可能導致站內(nèi)自動化網(wǎng)絡系統(tǒng)癱瘓。當變電站發(fā)生網(wǎng)絡風暴時,應根據(jù)異?,F(xiàn)象采取正確的方法及時查找出并隔離網(wǎng)絡風暴源頭后消除隱患。