許海清 ,黃 敏
(1.江蘇省電力公司電力科學研究院,江蘇南京211103;2.無錫供電公司信通分公司,江蘇無錫214061)
近年來,大數(shù)據被人們談論的越來越多,大數(shù)據甚至受到了包括美國政府在內的諸多機構組織的重大關注,大數(shù)據在互聯(lián)網、電信運營、金融投資等相關領域的率先應用也已經累積了相當?shù)氖痉缎猍1,2],不論是傳統(tǒng)的 IBM,Oracle,SAP,Intel等 IT 廠家, 還是以Google,Amazon為代表的新興互聯(lián)網產品供應商,都推出了各種各樣的解決方案和軟硬件產品。正是在大數(shù)據逐步推行到各行各業(yè)的背景下,電力行業(yè)也開始謀求將大數(shù)據應用于電力行業(yè)的生產管理,預期切實借助大數(shù)據提高電力企業(yè)的運營水平??梢灶A見,在不久的將來,大數(shù)據將會廣泛應用于電力行業(yè),全方位的覆蓋輸電、配電、調度、營銷等電網運行的諸多環(huán)節(jié)[3],作為電力信息化企業(yè)支撐的信息運行,無疑將在大數(shù)據這一廣泛性應用中發(fā)揮基礎性的作用。
麥肯錫公司認為大數(shù)據是指無法在一定時間內用傳統(tǒng)數(shù)據庫軟件工具對其內容進行抓取、管理和處理的數(shù)據集合[4]。此外,Gartner公司也認為:“大數(shù)據是需要新處理模式才能具有更強的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產”[5]。簡言之,大數(shù)據指的就是所涉及的資料量規(guī)模巨大到無法通過目前主流軟件工具,在合理時間內達到擷取、管理、處理、并整理成為幫助企業(yè)經營決策更積極目的資訊。
IBM 公司認為大數(shù)據具有 3個 V(Volume,Variety,Velocity)的特征,隨著發(fā)展,業(yè)界又增加了一個Value特征,簡稱4V特征。其中,Volume表示數(shù)據量巨大,當前一些大企業(yè)的數(shù)據量已經接近EB數(shù)量級;Variety是數(shù)據類型多,不僅包括結構化數(shù)據還包括非結構化的數(shù)據;Velocity表示處理速度快,最后一個V即表示數(shù)據價值密度低,對于海量數(shù)據而言,相應有價值的東西并不會多,因此對數(shù)據處理技術提出了更高的要求。
電力行業(yè)的信息時代正處于關鍵轉折點,隨著智能變電站系統(tǒng)、現(xiàn)場移動檢修系統(tǒng)、測控一體化系統(tǒng)、地理信息系統(tǒng)、智能表計等智能電網系統(tǒng)的建設,以往數(shù)據類型較為單一、增長較為緩慢的情況將發(fā)生轉變,逐漸步入到由復雜及異構數(shù)據源廣泛存在和驅動的時代,電力大數(shù)據將快速的向著異構、多源、PB級規(guī)模發(fā)展[6]。電力大數(shù)據究竟該如何定義,目前行業(yè)內普遍認為電力大數(shù)據是指通過傳感器、智能設備、視頻監(jiān)控設備、音頻通信設備、移動終端等各種數(shù)據采集渠道收集到的,結構化、半結構化、非結構化的海量業(yè)務數(shù)據的集合[7]。
挖掘電力大數(shù)據,形成真正適用的電力大數(shù)據應用系統(tǒng),如電網安全大數(shù)據系統(tǒng)、全社會用電信息大數(shù)據系統(tǒng)等,這些系統(tǒng)將產生大量的應用價值,有利于電力企業(yè)高效的生產運行和精細化運營管理,是下一代智能化電力系統(tǒng)在大數(shù)據時代下價值形態(tài)的躍升。
基于大數(shù)據產業(yè)鏈的定義,電力大數(shù)據的關鍵技術既包括數(shù)據分析技術等核心技術,也包括數(shù)據管理、數(shù)據處理、數(shù)據可視化等重要技術。
(1)數(shù)據分析技術:包括數(shù)據挖掘、機器學習等人工智能技術,具體是指電網安全在線分析、間歇性電源發(fā)電預測、設施線路運行狀態(tài)分析等技術[8]。由于電力系統(tǒng)安全穩(wěn)定運行的重要性以及電力發(fā)輸變配用的瞬時性,相比其他行業(yè),電力大數(shù)據對分析結果的精度要求更高。
(2)數(shù)據管理技術:包括關系型和非關系型數(shù)據庫技術、數(shù)據融合和集成技術、數(shù)據抽取技術、數(shù)據清洗和過濾技術,具體是指電力數(shù)據 ETL(Extract,Transfer和Load)、電力數(shù)據統(tǒng)一公共模型等技術。電力數(shù)據質量本身不高,準確性、及時性均有所欠缺,也對數(shù)據管理技術提出了更高的要求。
(3)數(shù)據處理技術:包括分布式計算技術、內存計算技術、流處理技術。具體是指電力云、電力數(shù)據中心軟硬件資源虛擬化等技術。近幾年電力數(shù)據的海量增長使得電力企業(yè)需要通過新型數(shù)據處理技術來更有效的利用軟硬件資源,在降低IT投入、維護成本和物理能耗的同時,為電力大數(shù)據的發(fā)展提供更為穩(wěn)定、強大的數(shù)據處理能力。
(4)數(shù)據展現(xiàn)技術:包括可視化技術、歷史流展示技術、空間信息流展示技術等。具體是指電網狀態(tài)實時監(jiān)視、互動屏幕與互動地圖、變電站三維展示與虛擬現(xiàn)實等技術。電力數(shù)據種類繁雜,電力相關指標復雜,加以未來的電力用戶雙向互動需求,需要大力發(fā)展數(shù)據展現(xiàn)技術,提高電力數(shù)據的直觀性和可視性,從而提升電力數(shù)據的可利用價值。
隨著大數(shù)據在電力領域的縱深推廣應用,電力信息運行必須要適應這一變化而提前加強自身建設。
數(shù)據中心是企業(yè)數(shù)據物理承載的核心,數(shù)據量的數(shù)量級增長無疑對數(shù)據中心的建設和運維形成巨大影響,這些影響從目前來看主要是3個方面。
(1)首先在企業(yè)建設數(shù)據中心時應充分考慮擴展性和靈活性,要預留較大的機房空間,數(shù)據大幅地增加肯定需要大量的存儲,要增加大量的硬件設備如服務器、存儲設備和網絡交換機,大量硬件設備的增減對機房基礎設施肯定帶來新的挑戰(zhàn),如機房散熱通風、網絡帶寬等等因素;(2)大數(shù)據下的信息系統(tǒng)會更多地采用分布式的數(shù)據庫和文件系統(tǒng),因此集中化的數(shù)據中心、云計算中心和超級計算機中心將成為數(shù)據中心的新目標。(3)就是運行維護人員生產技能培訓方面,大數(shù)據的存儲和計算更多建立在Hadoop多層次的技術生態(tài)圈中,因此運行維護人員學習和掌握Hadoop體系的技能知識,將成為未來數(shù)據中心的運行維護基礎。
大數(shù)據的網絡特點決定了對信息網絡有著更高的要求。(1)高帶寬,典型的網絡重載業(yè)務,持續(xù)大帶寬通信;(2)集群部署,降低成本,與其他業(yè)務混合部署,減少突發(fā)對其他業(yè)務影響;(3)TCP incast,傳輸性能優(yōu)化。因此信息網絡基礎設施也要逐步升級,滿足大數(shù)據下的網絡要求。首先,網絡交換設備要選擇有合理緩存的設備;其二,主網絡帶寬要從1 G向10G發(fā)展,數(shù)據中心的網絡應該是全光網絡,建設新一代高性能光網絡。
在大數(shù)據給企業(yè)帶來的機遇同時,大數(shù)據也給企業(yè)信息安全帶來了新的挑戰(zhàn)。由于企業(yè)的更多信息以海量數(shù)據的形式存在,數(shù)據更加全樣本,而且這些數(shù)據管理相比以往更為集中,訪問的形式也更方便和多樣,便利的同時意味著風險更大,一旦出現(xiàn)信息安全事件,后果更為嚴重,因此必須要加強信息安全管理和應為更為先進的安全技術,保護海量數(shù)據的安全,提升企業(yè)的整體信息安全治理水平[9]。
在電力信息運行領域的各個環(huán)節(jié)也蘊含著海量數(shù)據,既然擁有海量數(shù)據,就可以借助大數(shù)據的平臺和技術對這些海量數(shù)據進行分析和處理,從而挖掘其中的價值。
構成電力信息運行主體主要有主機設備、網絡設備、PC桌面計算機、各類信息系統(tǒng),在長期信息運行過程中,各個環(huán)節(jié)已經累積了巨量的日志信息數(shù)據,而且每天還在不斷地產生新的日志信息數(shù)據,這些數(shù)據按照來源可以分為2類數(shù)據:
(1)信息設備和信息系統(tǒng)自身的運行日志信息,可以細分為正常運行、異常運行、預警事件日志信息,通過這些運行日志信息,就可以描畫出信息設備和信息系統(tǒng)的運行狀況,甚至對未來的運行狀況進行預測,由這些運行狀況大的信息就可以來組織一些運維工作,比如設備采購、運行檢修等等;
(2)信息設備和信息系統(tǒng)自身的訪問日志的信息,通過這些訪問日志的信息,就可以描畫用戶的行為,哪些信息系統(tǒng)用戶訪問的最多,哪些用戶對信息系統(tǒng)的使用更多,通過這些數(shù)據的挖掘,就可以對整個電力公司的業(yè)務狀況等等信息進行梳理和統(tǒng)計,從而對公司信息化輔助決策。這些日志信息按照數(shù)據類型來分,應該分為結構化數(shù)據和非結構化數(shù)據,結構化數(shù)據主要是專業(yè)的監(jiān)控系統(tǒng)保存在數(shù)據庫中的數(shù)據,非結構化則是一些文本的數(shù)據信息,而且這類數(shù)據還占大多數(shù)。
顯然,這些日志信息無法憑借以前的平臺和技術進行處理,首先是數(shù)據量巨大,其次還存在大量的非結構化數(shù)據,因此必須借助于大數(shù)據平臺和技術來進行的數(shù)據的存儲、處理、挖掘和可視化展示。
以國網江蘇公司為例,江蘇公司目前在全省范圍內開通了信息客服熱線5186,任何有關信息方面的事宜都可以通過該熱線進行反映,據統(tǒng)計,每天語音電話受理量都在100起左右,而且還在不斷地增長中。這些語音數(shù)據僅是存儲就是一個問題,如果不借助于大數(shù)據的廉價存儲,長期保存這些數(shù)據,企業(yè)將不堪重負,如果沒有高性能的計算分析處理能力,這些語音數(shù)據也僅限于作為檔案資料進行保存,而失去應有的價值,使用大數(shù)據平臺強大的計算能力和一些語音分析模型就可以對這些語音數(shù)據進行分析處理,比如分析錄音數(shù)據中的客戶投訴抱怨、咨詢建議、個性特征、服務偏好等等信息。
信息機房更是蘊藏著海量數(shù)據。首先機房視頻監(jiān)控系統(tǒng)中的視頻數(shù)據,也應該像客服語音數(shù)據進行相同處理;其次各類設備如門禁、UPS、空調、電源、溫濕度等機房動力設備和環(huán)境監(jiān)控設備也將會產生大量的數(shù)據,這些數(shù)據也完全可以應用大數(shù)據平臺和技術進行處理。
面對大數(shù)據時代的發(fā)展趨勢,應對電力行業(yè)海量數(shù)據帶來的挑戰(zhàn),尤其是智能電網建設的快速發(fā)展,作為技術支撐的企業(yè)信息化,應更為主動的融入到這一趨勢中,不斷適應新形勢下的變化,探索出更多路徑,努力創(chuàng)建出大數(shù)據下的電力信息運行新模式。
[1]維克托·邁爾—舍恩伯格,肯尼思·庫克耶.大數(shù)據時代[M].杭州:浙江人民出版社,2013:25-30.
[2]涂子沛.數(shù)據之巔[M].南寧:廣西師范大學出版社,2013:46-50.
[3]趙 剛.大數(shù)據:技術與應用實踐指南[M].北京:電子工業(yè)出版社,2013:120-124.
[4]道格拉斯·W·哈伯德.數(shù)據化決策[M].北京:中國出版集團,2013:52-56.
[5]趙國棟,易歡歡,糜萬軍.大數(shù)據時代的歷史機遇[M].北京:清華大學出版社,2013:28-25.
[6]宋亞奇,周國亮,朱永利.智能電網大數(shù)據處理技術現(xiàn)狀與挑戰(zhàn)[J].電網技術,2013,37(4):927-935.
[7]王春毅.電力行業(yè)的大數(shù)據發(fā)展解析[J].電力信息化,2013,11(2):8-9.
[8]衡星辰,周 力.分布式技術在電力大數(shù)據高性能處理中的應用[J].電力信息化,2013,11(9):40-43.
[9]李國杰,程學旗.大數(shù)據研究:未來科技及經濟社會發(fā)展的重大戰(zhàn)略領域[J].中國科學院院刊,2012,08(9):647-657.