孫磊, 孫淑昕, 王博文, 任賀賀, 彭輝
(1. 中國礦業(yè)大學 信息化建設與管理處,江蘇 徐州 221116;2. 中國礦業(yè)大學 信息與控制工程學院,江蘇 徐州 221116;3. 兗州煤業(yè)股份有限公司 濟南煤炭科技研究院分公司,山東 濟南 272100;4. 中國銀行股份有限公司徐州分行,江蘇 徐州 221116)
第四次工業(yè)革命促使礦業(yè)生產(chǎn)向安全、智能、生態(tài)轉(zhuǎn)型,5G、大數(shù)據(jù)、人工智能、物聯(lián)網(wǎng)、遙感探測等新技術為礦山數(shù)字化、智能化運行提供了技術支撐。王國法等[1]針對我國煤礦智能化發(fā)展現(xiàn)狀,提出了“一朵云+一張融合網(wǎng)+三級平臺+N個應用模塊”的智能化煤礦建設總體技術架構(gòu),通常在大型煤礦集團建設綜合數(shù)據(jù)交互中心,各礦業(yè)公司建設二級數(shù)據(jù)交互中心,生產(chǎn)煤礦則建設三級數(shù)據(jù)中心。當前煤礦智能化建設大多關注智能掘進、智能采煤、智能主輔運輸、智能通風、智能排水與供電、智能安全監(jiān)控等業(yè)務模塊,對智能化相關軟件開發(fā)、大數(shù)據(jù)中心建設、智能化綜合管控平臺建設等[1],特別是工業(yè)生產(chǎn)網(wǎng)絡及數(shù)據(jù)中心的網(wǎng)絡安全問題重視不夠。
震網(wǎng)病毒能破壞礦業(yè)、化工、發(fā)電等企業(yè)的核心生產(chǎn)控制軟件,通過病毒、分布式拒絕服務(Distributed Denial of Service,DDOS)方式攻擊服務器,竊取商業(yè)機密、生產(chǎn)信息等,對企業(yè)造成網(wǎng)絡安全事故和經(jīng)濟損失,如2019年3月,委內(nèi)瑞拉電力系統(tǒng)遭受網(wǎng)絡攻擊,陷入癱瘓。煤炭產(chǎn)業(yè)作為我國能源安全的關鍵基礎保障,煤礦企業(yè)能否正常生產(chǎn)運行直接關系到國計民生,因此保障煤礦企業(yè)數(shù)據(jù)中心的網(wǎng)絡安全成為當前亟需解決的問題。
煤礦企業(yè)數(shù)據(jù)中心網(wǎng)絡安全設備目前大多采用串行部署方式,存在單點故障、鏈路瓶頸、運維耦合等問題。針對上述問題,本文采用軟件定義網(wǎng)絡(Software Defined Network,SDN)安全服務鏈技術,設計了安全設備并行部署方式,以解決煤礦生產(chǎn)過程中安全設備單點故障問題,實現(xiàn)網(wǎng)絡資源靈活調(diào)度、設備升級迭代優(yōu)化等。
隨著煤礦智能化升級,在云-邊-端協(xié)同體系框架下,各類安全監(jiān)測系統(tǒng)、生產(chǎn)遠控系統(tǒng)和APP管控平臺等上線,其穩(wěn)定性均依賴于“煤礦大腦”-數(shù)據(jù)中心的穩(wěn)定運行和數(shù)據(jù)安全。為防范網(wǎng)絡攻擊,保證數(shù)據(jù)中心安全,煤礦企業(yè)通常在數(shù)據(jù)中心出口以串行方式部署相關的網(wǎng)絡安全設備,如防火墻(Firewall)、入侵防御系統(tǒng)(Intrusion Prevention System,IPS) 、Web應用防護系統(tǒng)(Web Application Firewall,WAF)等,如圖1所示。
圖1 煤礦企業(yè)數(shù)據(jù)中心網(wǎng)絡安全設備串行部署方式Fig. 1 Serial deployment mode of network security equipment of data center in coal mine enterprise
煤礦企業(yè)數(shù)據(jù)中心的安全設備串行部署方式存在以下問題:① 當數(shù)據(jù)中心受到網(wǎng)絡攻擊或安全設備發(fā)生單點故障時,會影響整個網(wǎng)絡通信。② 在網(wǎng)絡運行過程中,所有流量需經(jīng)過每臺安全設備,處理能力不足的設備會成為整個鏈路的瓶頸。③ 網(wǎng)絡設備之間耦合大,擴展設備或更改服務時,需手動調(diào)整網(wǎng)絡安全設備的策略,無法進行快速服務調(diào)整,至少需中斷2 h才能排除故障。實際上,由于煤礦企業(yè)現(xiàn)場信息安全和網(wǎng)絡安全方面的專業(yè)人員不足,可能需要更長的運行恢復時間,影響了煤礦正常運行。針對上述問題,本文采用SDN安全服務鏈技術予以解決。
傳統(tǒng)的安全服務鏈是指網(wǎng)絡流量按照業(yè)務邏輯要求的既定順序經(jīng)過安全設備的路徑,與網(wǎng)絡結(jié)構(gòu)緊密耦合,遇到問題很難快速定位。SDN是一種數(shù)據(jù)轉(zhuǎn)發(fā)與控制平面分離、集中控制、開放接口的新型網(wǎng)絡架構(gòu),可與網(wǎng)絡功能虛擬化(Network Function Virtualization,NFV)緊密結(jié)合,實現(xiàn)網(wǎng)絡設備的高效管理和編排。SDN主要特點:① 可編程,為用戶提供全體系的應用程序接口(Application Program Interface,API),使用戶在控制器上編程即可實現(xiàn)對網(wǎng)絡的配置、控制和管理。② 數(shù)據(jù)轉(zhuǎn)發(fā)與控制平面分離,二者通過OpenFlow協(xié)議接口相互通信。③ 邏輯上集中控制,控制器收集和管理所有網(wǎng)絡狀態(tài)信息,并根據(jù)業(yè)務需求進行資源全局調(diào)配和優(yōu)化,為網(wǎng)絡自動化管理提供可能性[2-3]。
SDN安全服務鏈將SDN和NFV緊密結(jié)合,為安全服務部署提供了新的模式。NFV將服務功能從專用硬件設備中解耦,網(wǎng)絡服務由虛擬網(wǎng)絡功能完成,通過定制所需的服務鏈,實現(xiàn)動態(tài)、靈活的安全服務功能按需組合。根據(jù)安全需求管理和控制安全服務功能的行為,將服務功能鏈(Service Function Chaining,SFC)集成到網(wǎng)絡安全功能接口(Interface to Network Security Functions,I2NSF)架構(gòu)中,指定所需的安全服務類型組合,最終形成并行結(jié)構(gòu)的SDN安全服務鏈。
采用SDN安全服務鏈后,煤礦企業(yè)數(shù)據(jù)中心網(wǎng)絡安全設備旁路部署在安全服務鏈上,所有的安全設備仍是服務節(jié)點,部署方式由原有的串行結(jié)構(gòu)變成并行結(jié)構(gòu),如圖2所示。物理拓撲上串入1臺SFC交換機,其他服務節(jié)點接入SFC交換機。SDN 控制器作為集中控制設備,對所有接入SFC交換機的設備及經(jīng)過SFC交換機的流量進行控制,通過配置實現(xiàn)與拓撲無關、靈活的SDN安全服務鏈。
圖2 煤礦企業(yè)數(shù)據(jù)中心網(wǎng)絡安全設備并行部署方式Fig. 2 Parallel deployment mode of network security equipment of data center in coal mine enterprise
在網(wǎng)絡安全設備并行部署方式下,SDN安全服務鏈可根據(jù)安全設備的健康狀況,靈活地調(diào)整服務路徑。當單個或多個安全設備出現(xiàn)故障或無法正常提供服務時,SDN安全服務鏈自動更新一條無故障設備作為服務節(jié)點的新安全服務路徑,并發(fā)出告警,極大地提高了鏈路的穩(wěn)定性及可靠性。當安全設備需要升級時,僅需將待升級設備移出服務路徑,完成升級后再納入服務路徑,升級過程中無需改動任何線路。當需要增加新的安全設備時,只需通過SDN控制器下發(fā)新的服務鏈策略,即可將新設備加入網(wǎng)絡中??傮w來說,網(wǎng)絡安全設備的上下線對用戶來說完全無感知,大大降低了用戶訪問煤礦企業(yè)數(shù)據(jù)中心資源時出現(xiàn)中斷的概率[4-6]。
針對大型煤礦集團典型應用場景,搭建了數(shù)據(jù)中心SDN安全服務鏈測試環(huán)境,在企業(yè)園區(qū)數(shù)據(jù)中心出口部署Firewall,WAF等安全設備,如圖3所示。在不改變數(shù)據(jù)中心和園區(qū)網(wǎng)之間雙鏈路部署方式的情況下,考慮到單臺SFC交換機可能會引起單點故障等因素,部署2臺SFC交換機、1臺SDN控制器,其中SDN控制器用于管理、控制SDN安全服務鏈,F(xiàn)irewall和WAF并行部署在2臺SFC交換機之間。
圖3 SDN安全服務鏈測試環(huán)境Fig. 3 Test environment for software defined network(SDN)security service chain
數(shù)據(jù)中心出口的所有流量均經(jīng)過SDN安全服務鏈進行流量調(diào)度,雖然Firewall,WAF分別只有1臺物理設備,但為了防止發(fā)生各種單點故障,通過SDN安全服務鏈將Firewall,WAF分別虛擬為2臺物理設備,實現(xiàn)SDN安全服務鏈負載均衡,保證在任何設備或端口出現(xiàn)故障時,園區(qū)網(wǎng)訪問數(shù)據(jù)中心的流量保持暢通[7-9]。
將2臺SFC交換機定義為左右安全服務鏈,左右安全服務鏈各自通過eth-0-1接口與園區(qū)網(wǎng)核心交換機連接,通過eth-0-9接口與數(shù)據(jù)中心核心交換機連接;2臺虛擬Firewall分別定義為FW[1],F(xiàn)W[2],其中FW[1]連接左安全服務鏈的eth-0-3和eth-0-4,F(xiàn)W[2]連接右安全服務鏈的eth-0-3和eth-0-4;2臺虛擬WAF分別定義為WAF[1],WAF[2],其中WAF[1]連接左安全服務鏈的eth-0-7和eth-0-8,WAF[2]連接右安全服務鏈的eth-0-7和eth-0-8,如圖4所示。
圖4 SFC交換機定義及設備連線Fig. 4 Definition of service function chaining(SFC) switch and equipment connection
在邏輯上建立2條安全服務鏈策略:① 優(yōu)先級為6(優(yōu)先級越高,則越優(yōu)先)的SFC聚合策略,使流量正常通過FW[1],F(xiàn)W[2],WAF[1],WAF[2]。② 優(yōu)先級為1的SFC-1NO,SFC-2NO逃生策略,當FW[1],F(xiàn)W[2],WAF[1],WAF[2]同時出現(xiàn)問題時,停用SFC聚合策略,啟用逃生策略(所有進出數(shù)據(jù)中心的流量不再經(jīng)過安全設備,直接通過左右安全服務鏈的eth-0-1,eth-0-9轉(zhuǎn)發(fā))。
安全設備健康檢測配置如圖5所示。SFC交換機通過互聯(lián)端口每2 s向FW[1],F(xiàn)W[2],WAF[1],WAF[2]發(fā)送健康檢測報文,對其進行狀態(tài)檢測,如連續(xù)發(fā)送5次未獲得某安全設備的回復報文,則判定該安全設備故障、端口故障或線路故障,直接跳過該安全設備,流量從正常回復健康檢測報文的安全設備轉(zhuǎn)發(fā)[10-12]。
圖5 安全設備健康檢測配置Fig. 5 Health inspection disposition of safety equipment
園區(qū)網(wǎng)核心交換機去往數(shù)據(jù)中心的流量隨機到達左右安全服務鏈,SFC聚合策略下測試流量走向,結(jié)果如圖6所示。以左安全服務鏈為例,其先通過eth-0-3接口將流量送至FW[1]的1號接口,經(jīng)FW[1]檢測后,通過FW[1]的2號接口送至左安全服務鏈的eth-0-4接口;左安全服務鏈再通過eth-0-7接口將流量送至WAF[1]的1號接口,經(jīng)WAF[1]檢測后,通過WAF[1]的2號接口送至左安全服務鏈的eth-0-8接口;左安全服務鏈最終通過eth-0-9接口把流量送至數(shù)據(jù)中心核心交換機。右安全服務鏈流量走向與此類似。
圖6 SFC聚合策略測試結(jié)果Fig. 6 Test results of SFC polymerization strategy
當SFC聚合策略停用時,自動切換至逃生策略。逃生策略測試結(jié)果如圖7所示。此時流量不再經(jīng)過FW[1],F(xiàn)W[2],WAF[1],WAF[2],直接經(jīng)2臺SFC交換機轉(zhuǎn)發(fā)去數(shù)據(jù)中心。同時,去往數(shù)據(jù)中心的測試ping包無丟包現(xiàn)象,實現(xiàn)了用戶無感知切換。
圖7 逃生策略測試結(jié)果Fig. 7 Test results of aggregation strategy
當SFC聚合策略再次被人工啟用后,安全服務鏈策略自動切換至SFC聚合策略,該過程中測試無丟包,流量恢復從FW[1],F(xiàn)W[2],WAF[1],WAF[2]轉(zhuǎn)發(fā)。
為驗證SDN安全服務鏈極限異常處理能力,人工關閉左安全服務鏈的eth-0-3接口來模擬FW[1]異常,人工關閉右安全服務鏈的eth-0-7接口來模擬WAF[2]異常,如圖8所示。
圖8 FW[1],WAF[2]異常模擬Fig. 8 Simulated FW[1], WAF[2] abnormalities
FW[1]異常時左安全服務鏈流量處理過程(①-⑨)如圖9所示??煽闯鰪膱@區(qū)網(wǎng)核心交換機到達左安全服務鏈的流量先通過左安全服務鏈eth-0-23接口的生命線到達右安全服務鏈的FW[2]進行分析處理,之后由右安全服務鏈通過eth-0-23接口的生命線返回左安全服務鏈的WAF[1]進行分析處理,最后轉(zhuǎn)發(fā)至數(shù)據(jù)中心。
圖9 FW[1]異常時左安全服務鏈流量處理過程Fig. 9 Traffic processing process of left security service chain when FW[1] is abnormal
WAF[2]異常時右安全服務鏈流量處理過程(①-⑧)如圖10所示??煽闯鰪膱@區(qū)網(wǎng)核心交換機到達右安全服務鏈的流量先由右安全服務鏈正常轉(zhuǎn)發(fā)到FW[2]進行分析處理;因右安全服務鏈上的WAF[2]異常,流量經(jīng)FW[2]處理后,通過右安全服務鏈eth-0-23接口的生命線到達左安全服務鏈上的WAF[1]進行分析處理;之后通過左安全服務鏈的生命線返回右安全服務鏈,最后轉(zhuǎn)發(fā)至數(shù)據(jù)中心。
圖10 WAF[2]異常時右安全服務鏈流量處理過程Fig. 10 Traffic processing process of right security service chain when WAF[2] is abnormal
因FW[1],WAF[2]異常,園區(qū)網(wǎng)去往數(shù)據(jù)中心的流量只經(jīng)過FW[2],WAF[1],如圖11所示。在整個測試過程中,F(xiàn)W[2],WAF[1]轉(zhuǎn)發(fā)流量時無丟包,這對用戶體驗來講,實現(xiàn)了無感知切換。
圖11 FW[1],WAF[2]異常時FW[2],WAF[1]轉(zhuǎn)發(fā)流量情況Fig. 11 Forwarding traffic by FW[2] and WAF[1] when FW[1]and WAF[2] are abnormal
(1) 針對煤礦企業(yè)數(shù)據(jù)中心網(wǎng)絡安全運行維護方面的實際問題,采用SDN安全服務鏈技術,將生產(chǎn)網(wǎng)絡和數(shù)據(jù)中心之間的安全設備部署方式由串行轉(zhuǎn)變?yōu)椴⑿校蒘FC交換機定期向安全設備發(fā)送檢測報文,探測安全設備健康狀況,根據(jù)配置自動跳過故障服務,在保障業(yè)務正常運行的同時發(fā)出告警信息,避免單點故障帶來的問題,實現(xiàn)安全設備無感知上下線。
(2) 通過場景平臺運行測試,驗證了煤礦企業(yè)數(shù)據(jù)中心網(wǎng)絡安全服務鏈技術支持可視化靈活調(diào)度安全服務資源,可按需啟用/停用服務鏈上安全服務或配置不同優(yōu)先級的服務鏈,為煤礦企業(yè)數(shù)據(jù)中心安全防護提供可靠保障。
(3) 隨著煤礦企業(yè)數(shù)據(jù)中心規(guī)?;ㄔO推進和各類APP應用上線,煤礦生產(chǎn)、管控各環(huán)節(jié)的智能化系統(tǒng)和應用將面臨更多的網(wǎng)絡威脅和攻擊。因此,煤礦企業(yè)應加大網(wǎng)絡安全設備投入和人員技能培訓,以保障煤礦生產(chǎn)網(wǎng)絡安全。