祝恩國,劉 宣,葛磊蛟
(1.中國電力科學研究院,北京 100192;2.天津大學電氣與自動化工程學院,天津 300072)
用電信息采集系統(tǒng)非結構化數(shù)據(jù)管理設計
祝恩國1,劉宣1,葛磊蛟2
(1.中國電力科學研究院,北京 100192;2.天津大學電氣與自動化工程學院,天津 300072)
針對用電信息采集系統(tǒng)的非結構化數(shù)據(jù)具有海量、接入點多而分散等特點,本文提出一種用電信息采集系統(tǒng)非結構化數(shù)據(jù)管理設計方案。首先,對用電信息采集系統(tǒng)的非結構化數(shù)據(jù)進行分類。其次,提出了數(shù)據(jù)采集、數(shù)據(jù)存儲和數(shù)據(jù)挖掘等3部分的管理設計方案:數(shù)據(jù)采集主要實現(xiàn)非結構化數(shù)據(jù)的收集;數(shù)據(jù)存儲包括數(shù)據(jù)預處理和Hadoop兩部分,完成海量數(shù)據(jù)的快速存儲;數(shù)據(jù)挖掘按照文本、視頻、音頻3種類別分類處理,實現(xiàn)海量數(shù)據(jù)挖掘應用。該方案對用電信息采集系統(tǒng)的海量非結構化數(shù)據(jù)管理,有一定的參考價值。
用電信息采集系統(tǒng);非結構化數(shù)據(jù);框架設計;海量數(shù)據(jù);數(shù)據(jù)挖掘
全覆蓋、全采集、全預付費的用電信息采集系統(tǒng)在國家電網(wǎng)公司的推廣應用,提高了國網(wǎng)公司的電力營銷服務能力,提升了電網(wǎng)企業(yè)形象,但是當前實際投入營運的國-網(wǎng)-省-市-縣等用電信息采集系統(tǒng)所采集的用戶數(shù)據(jù),僅僅是涉及電力營銷核心業(yè)務的電力用戶計量計費的結構化數(shù)據(jù)[1-3],具有格式多樣、數(shù)據(jù)分散、海量、增速快、利用率不高等特征;隨著電網(wǎng)用戶側雙向互動化業(yè)務的開展,大范圍的用戶日志分析、用能習慣預測等電力營銷相關的高級應用將成為一種趨勢,并且這類應用的基礎輸入數(shù)據(jù)不僅需要傳統(tǒng)結構化數(shù)據(jù)而且需要電力客戶的文本、音頻和視頻等非結構化數(shù)據(jù)支撐,致使現(xiàn)有的運行系統(tǒng)不僅面臨實施條件、運維成本等問題,也將面臨非結構化數(shù)據(jù)的采集、存儲和挖掘等管理問題。
與相對于可直接存入Oracle、MySQL等數(shù)據(jù)庫的二維邏輯結構化數(shù)據(jù),任何不便于用二維邏輯表存儲的數(shù)據(jù)統(tǒng)稱為非結構化數(shù)據(jù),主要包括辦公文檔、文本、圖片、視頻、音頻等。對于非結構化數(shù)據(jù)的管理,近年來國內(nèi)外有很多學者進行過相關研究:文獻[4]針對非結構化數(shù)據(jù)難搜索、不易管理等特點,提出了非結構化數(shù)據(jù)-半結構化數(shù)據(jù)-結構化數(shù)據(jù)的三步轉化方法,實現(xiàn)對非結構數(shù)據(jù)的管理;文獻[5]為了處理海量、異構、關聯(lián)等特征的非結構化數(shù)據(jù),設計了融合HDFS、HBase、XMLDB等存儲設施的非結構化數(shù)據(jù)統(tǒng)一存儲管理平臺。
對于Hadoop的應用研究,國內(nèi)外學者也進行過相關研究,文獻[6]為解決海洋環(huán)境信息中對海洋流場可視化和特征可視化的大數(shù)據(jù)問題,提出一種GPU嵌入Hadoop云平臺的并行計算框架,大大提高了計算速度和顯示效果;文獻[7]為解決海量用戶登錄的身份認證問題,設計了一種基于身份認證ID-CAP的Hadoop訪問控制方案。
本文針對用電信息采集系統(tǒng)非結構化數(shù)據(jù)具有海量、接入點多而分散等特點,立足對用電信息采集系統(tǒng)非結構化數(shù)據(jù)的管理,從數(shù)據(jù)預處理、數(shù)據(jù)存儲和數(shù)據(jù)挖掘3方面闡述用電信息采集系統(tǒng)非結構化數(shù)據(jù)管理框架設計方案。
用電信息采集系統(tǒng)是由主站、通信信道和采集設備3部分組成,主要實現(xiàn)對電力用戶用電信息的數(shù)據(jù)采集、數(shù)據(jù)管理、電能質量數(shù)據(jù)統(tǒng)計、線損統(tǒng)計分析等,達到對電力用戶用電信息及時采集和掌握,以及準確發(fā)現(xiàn)電力用戶的用電異常情況,對電力用戶的用電負荷情況進行有效監(jiān)測和控制,并為峰谷電價、階梯電價、智能費控等營銷業(yè)務策略的實施提供支撐[8-10]。
近年來,隨著電網(wǎng)智能化、自動化、信息化程度的增加,用電信息采集系統(tǒng)所采集數(shù)據(jù)一方面包括傳統(tǒng)用電數(shù)據(jù),即用電度數(shù)、電價信息、用戶繳費信息、客戶資料,另一方面也包括實時用電信息、異常故障報警信息。在歐、美等智能電網(wǎng)發(fā)達的地區(qū),還包括地理位置信息、天氣交通數(shù)據(jù)、電動汽車數(shù)據(jù)等。
但是,隨著電網(wǎng)用戶側的雙向互動化業(yè)務的開展,分布式電源、微電網(wǎng)和柔性負荷等接入電力系統(tǒng),以及用戶需求響應等新型業(yè)務的開展,對于用戶日志分析、廣域負荷需求預測、用戶能源特性分析等基于大數(shù)據(jù)技術的用電信息采集系統(tǒng)高級應用正成為一個熱點研究課題。如果僅僅以當前的用電信息采集系統(tǒng)中所含有的大型專變用戶A類、中小型專變用戶B類、三相一般工商業(yè)用戶C類、單相一般工商業(yè)用戶D類、居民用戶E類等5類不同電力用戶計量計費的結構化數(shù)據(jù)作為其分析的基礎數(shù)據(jù),很難對用戶用能趨勢和特性進行準確預測,無法滿足未來實際電力營銷業(yè)務的高級應用需求,需要電力用戶的視頻、文本、音頻等非結構化數(shù)據(jù)的支撐。
A~E 5類不同用戶的客戶網(wǎng)絡web頁面資料數(shù)據(jù)、電子圖片和視頻信息、音頻信息等非結構化數(shù)據(jù),是用戶用電特征抽取、用能影響因素深入分析,以及電力營銷業(yè)務預警和預判的重要基礎數(shù)據(jù),根據(jù)其對用戶用電預測和故障預判趨勢分析的重要程度,按照其不同層次組成和5類不同用戶所包含的數(shù)據(jù)內(nèi)容,依據(jù)5類用戶數(shù)據(jù)從A至E的逐層包含關系,可以大致分為基礎類、普通類、專用類和特殊類等4種,如圖1所示。
圖1 用電信息采集系統(tǒng)非結構化數(shù)據(jù)組成Fig.1 Unstructured data of the electrical information acquisition system
然而,用電信息采集系統(tǒng)的非結構化數(shù)據(jù)具有海量(每年達到PB級別)、更新速度極快、分布地域廣泛等實際的客觀條件,當前非結構化數(shù)據(jù)管理技術、大數(shù)據(jù)的存儲和分析技術均處于研究階段,分析技術手段還不夠完善、針對大數(shù)據(jù)的快速分析算法還不夠成熟;同時,當前的硬盤、磁帶、磁盤陣列等存儲物理設備在內(nèi)存容量、硬盤容量和處理器速度,以及性價比、異構的兼容性等方面也存在一些實際問題。因此,對用電信息采集系統(tǒng)非結構化數(shù)據(jù)的管理進行頂層設計非常必要。
用電信息采集系統(tǒng)的非結構化數(shù)據(jù)一方面具有不同用戶類型,其數(shù)據(jù)的大小和種類均不同,且從這些數(shù)據(jù)海量中難以快速發(fā)現(xiàn)有價值的規(guī)律性;另一方面,其的確具有很多內(nèi)在的數(shù)據(jù)規(guī)律,符合大數(shù)據(jù)的特征信息,具備很大的挖掘空間;如果可合理利用有效的大數(shù)據(jù)分析工具對客戶基本信息、客戶日志、客戶用電預測、客戶用能分析等數(shù)據(jù)進行分析,對區(qū)域范圍內(nèi)的能源需求進行有效預測和預判,可為未來營銷業(yè)務的拓展提供新思路。下面從頂層設計的思路,從數(shù)據(jù)采集、數(shù)據(jù)存儲和數(shù)據(jù)挖掘3個方面進行用電信息采集系統(tǒng)非結構化數(shù)據(jù)管理的框架設計;數(shù)據(jù)采集負責完成前端數(shù)據(jù)的感知和收集;數(shù)據(jù)存儲負責將非結構化數(shù)據(jù)進行結構化存儲,主要包括數(shù)據(jù)預處理和Hadoop兩部分組成;數(shù)據(jù)挖掘實現(xiàn)非結構化數(shù)據(jù)的利用。3部分層層遞進,相輔相成,其最終的目標是實現(xiàn)用電信息采集系統(tǒng)的非結構化數(shù)據(jù)管理。其架構如圖2所示。
圖2 用電信息采集系統(tǒng)非結構化數(shù)據(jù)管理系統(tǒng)架構Fig.2 Architecture of data management system of unstructured data for electrical information acquisition system
2.1數(shù)據(jù)采集
數(shù)據(jù)采集是用電信息采集系統(tǒng)非結構化數(shù)據(jù)處理的基礎和最前端,也是其來源,所有的用戶數(shù)據(jù)經(jīng)采集完成后,經(jīng)通信設備上傳至數(shù)據(jù)中心,為數(shù)據(jù)存儲做好前期準備;根據(jù)非結構化數(shù)據(jù)的不同來源,可以分為采集終端、系統(tǒng)平臺和用戶側3個方面;其中,采集終端是指安裝在用戶計量現(xiàn)場的不僅可以采集傳統(tǒng)計費計量結構化數(shù)據(jù)而且可以采集視頻、音頻等非結構化數(shù)據(jù)的采集設備,實時實現(xiàn)對用戶信息采集、上傳等,主要有集中器、采集器和智能電表;系統(tǒng)平臺是指電網(wǎng)企業(yè)為了用電營銷業(yè)務開展所建設的客服、運維、收費等系統(tǒng),主要有95598、用電信息采集系統(tǒng)和客戶營銷管理系統(tǒng);用戶側是指電力用戶為了追蹤、查詢其自身的電費、設備報修等情況所使用的信息渠道,主要有門戶網(wǎng)站、公共服務平臺和手機客戶端等。
2.2數(shù)據(jù)存儲
用電信息采集系統(tǒng)的非結構化數(shù)據(jù)有以下幾個特點:①視頻、音頻、文本等非結構化數(shù)據(jù)格式不同,導致存儲的空間范圍和元數(shù)據(jù)的內(nèi)存劃分尺度不同;②相同數(shù)據(jù)格式,不同的用戶其數(shù)據(jù)的容量大小和屬性不同;③不同的數(shù)據(jù)格式和不同的數(shù)據(jù)屬性組成混合文件屬性。如此多樣性的非結構化數(shù)據(jù),從前端采集進入管理系統(tǒng)后,給數(shù)據(jù)存儲、分析和挖掘均帶來諸多不便,因此,首先在硬件層面上,利用Hadoop的分布式架構,從國-網(wǎng)-省-市等各層級現(xiàn)有的用電信息采集有關的計算機資源,進行主從式虛擬化,完成基礎構建,由于此部分是Hadoop平臺的基本功能,這里不再贅述[11-18];然后進行數(shù)據(jù)預處理,最后利用Hadoop技術進行存儲管理。
2.2.1數(shù)據(jù)預處理
針對用電信息采集系統(tǒng)的非結構化數(shù)據(jù)特征,擬采用的數(shù)據(jù)預處理主要包括數(shù)據(jù)清洗、數(shù)據(jù)選樣、數(shù)據(jù)變換和數(shù)據(jù)歸一化4個部分,最終實現(xiàn)用電信息采集系統(tǒng)非結構化數(shù)據(jù)的分類管理,提煉含有數(shù)據(jù)檢索信息的元數(shù)據(jù),形成以半結構化數(shù)據(jù)的Xml格式表示實際數(shù)據(jù)存儲地址的元數(shù)據(jù)庫,為下一步數(shù)據(jù)存儲Hadoop提供前期的準備,從而完成數(shù)據(jù)預處理工作。其過程如圖3所示。
圖3 用電信息采集系統(tǒng)非結構化數(shù)據(jù)預處理Fig.3 Data preprocessing of unstructured data for electrical information acquisition system
數(shù)據(jù)清洗:數(shù)據(jù)清洗是一種同一實體可能對應多條記錄信息的信息處理技術,常采用的方法是基本近鄰排序算法SNM(stored neighborhood method),其主要的思想是將數(shù)據(jù)集合中的記錄按照指定的關鍵字(key)、特征格式(txt、rm等)等特征值進行排序,然后在排序后的數(shù)據(jù)集合上依次移動一個固定大小的窗口,通過檢測窗口內(nèi)的記錄,判定它們是否與相關關鍵字或者特征格式相匹配;一般分為抽取特征值、數(shù)據(jù)排序和合并3個步驟。
數(shù)據(jù)選樣:數(shù)據(jù)選樣是根據(jù)預設的特征值從數(shù)據(jù)集合中選取數(shù)據(jù);其選樣的標準是數(shù)據(jù)集合中被選中數(shù)據(jù)在特征上應與特征值數(shù)據(jù)一致或者接近;主要的方法有簡單隨機選樣、分層選樣、逐步向前選樣。
數(shù)據(jù)變換:數(shù)據(jù)變換是將已經(jīng)選樣好的數(shù)據(jù),根據(jù)用戶設定形成xml格式的元數(shù)據(jù)過程,一般是根據(jù)不同數(shù)據(jù),決定選樣不同的數(shù)據(jù)變換方法;常用的變換方法有簡單函數(shù)變換、規(guī)范化[19-24]。
數(shù)據(jù)歸一化:數(shù)據(jù)歸一化是將變換后的數(shù)據(jù)集合進行xml格式元數(shù)據(jù)和實際數(shù)據(jù)映射關系標準化的統(tǒng)一表示,其主要的技術有維度歸一化、屬性選擇和離散化技術等。
2.2.2Hadoop
Hadoop是從2004年出現(xiàn)的一個開源分布式計算框架,主要包括Hadoop Common、HDFS(hadoop distributed file system)和MapReduce 3部分,是由Yahoo支持研發(fā),隨后在百度、新浪、Amazon、Facebook、淘寶等大型IT企業(yè)都得到最為廣泛應用的開源云計算軟件平臺之一。其主旨是構建一個具有高可靠性和良好擴展性的分布式系統(tǒng),主要優(yōu)點是擴容能力強、成本低廉、效率高、高可靠性、免費開源及良好的可移值性。
其中,Hadoop Common主要分為兩個階段,第一階段是Hadoop0.20及以前版本,主要包含HDFS、MapReduce和其他項目的所有公共內(nèi)容;第二階段是從0.21版本開始,由于HDFS和MapReduce全部成為獨立項目,于是HDFS、MapReduce以外的所有公共內(nèi)容均為Hadoop Common。
HDFS和MapReduce是Hadoop的核心內(nèi)容,均采用典型的Master/Slaves結構;其中,HDFS的Master/Slaves分別對應Namenode/Datanode進程;MapReduce的Master/Slaves則分別對應JobTrackers/TaskTrackers進程。
1)HDFS
HDFS是一個針對PB級大數(shù)據(jù)存儲和管理的分布式文件系統(tǒng),類似于Google的GFS(google file system),并能夠管理非結構化數(shù)據(jù),具有Master/Slaves架構,由Namenode和Datanode兩個部分組成;其中,Master節(jié)點僅僅存在一個,并運行進程Namenode;而Slaves節(jié)點可以具有多個,每一個Slaves節(jié)點運行一個進程Datanode,并且Namenode與每個Datanode之間通過Heartbeat的方式進行通信和管理。
1939年生于吉林長春。1955年考入東北美專附中,1964年畢業(yè)于魯迅美術學院中國畫系。曾任遼寧畫院院長。現(xiàn)任遼寧畫院顧問,中國畫學會常務理事,遼寧中國畫研究會執(zhí)行會長,中國同澤書畫研究院終身名譽院長,中國當代畫派聯(lián)誼會常務副主席,中國國家畫院研究員、國家畫院趙華勝工作室導師,國家一級美術師,遼寧省文史研究館館員,遼寧省政協(xié)第六、第七、第八、第九屆委員。關東畫派領軍人及代表性畫家。享受政府特殊津貼專家。
同時,一般實際文件的元數(shù)據(jù)(FSImage信息和EditLog信息)存放在Master節(jié)點上,具體的文件內(nèi)容存放在Slaves節(jié)點上。
而且,任意一個大文件均被拆分為64 M大小的多個文件塊,分別存放在多個Slaves節(jié)點上;為了數(shù)據(jù)文件的安全性,每個文件塊缺省有3個副本,其副本存放的具體位置按照Hadoop的放置算法自適應地計算所得。另外,一般HDFS中有默認的文件塊大小和副本數(shù),但是默認參數(shù)也支持手動設置,可通過設置Slaves節(jié)點上的dfs.block.size和dfs.replication兩個參數(shù),來設定設置文件塊的大小和副本數(shù)。HDFS的組成情況如表1所示。
表1 HDFS的主要組件功能表Tab.1 Function table of main components in HDFS
另外,HDFS對應用程序的數(shù)據(jù)提供高吞吐量,并開放一些POSIX的必須接口,支持流式訪問文件系統(tǒng)的數(shù)據(jù);并且,HDFS將大規(guī)模數(shù)據(jù)按照默認的數(shù)據(jù)塊進行分割、存儲在多個不同數(shù)據(jù)節(jié)點組成的分布式集群中,具有較強的可擴展性;同時,每個數(shù)據(jù)塊在不同節(jié)點中默認有3個副本,具有很高的容錯性,以及在數(shù)據(jù)批處理方面具有很強的快速性能表現(xiàn)。
2)MapReduce
MapReduce適用于大規(guī)模PB級別數(shù)據(jù)計算,其主要思想來源于函數(shù)式編程語言,它由Map和Reduce兩部分用戶程序組成;Map負責將數(shù)據(jù)打散,Reduce負責將數(shù)據(jù)進行聚集;具有典型的Master/Slaves系統(tǒng)架構,一般在Master節(jié)點上運行Job-Tracker進程,在Slaves節(jié)點上運行TaskTrackers進程;并且,JobTracker進程作為控制主進程,會根據(jù)所處理數(shù)據(jù)的任務量,在計算機集群上運行多個TaskTracker進程實例來處理各個Map子任務,然后指派多個TaskTracker進程再對結果進行歸并而完成Reduce子任務。
與傳統(tǒng)關系型數(shù)據(jù)庫相比,MapReduce具有處理數(shù)據(jù)規(guī)模大、數(shù)據(jù)更新速度快、數(shù)據(jù)集成度低等諸多優(yōu)點,其對比情況如表2所示。
表2 MapReduce與傳統(tǒng)關系型數(shù)據(jù)庫對比Tab.2 Comparison between MapReduce and traditional relational database
3)Hadoop工作流程
非結構化的用電信息數(shù)據(jù)通過數(shù)據(jù)預處理后,形成了統(tǒng)一的標準xml格式元數(shù)據(jù)和實際數(shù)據(jù)兩個部分數(shù)據(jù),為基于Hadoop平臺的數(shù)據(jù)處理提供了基礎,基于Hadoop技術的用電信息采集系統(tǒng)非結構化數(shù)據(jù)管理工作流程如圖4所示。
圖4 Hadoop數(shù)據(jù)存儲工作流程Fig.4 Workflow of Hadoop data storage
在主節(jié)點上,HDFS的Namenode進程對元數(shù)據(jù)的屬性信息(FSImage信息和EditLog信息)進行備份、進程監(jiān)測等管理;MapReduce的JobTracker進程對元數(shù)據(jù)的內(nèi)容信息進行更新管理,例如一個大數(shù)據(jù)經(jīng)過Map后,分散到下面具體分節(jié)點的節(jié)點號、數(shù)據(jù)表、字段等信息,被JobTracker及時計算出來,然后更新信息。在分節(jié)點上,HDFS的Datanode進程對實際數(shù)據(jù)的屬性進行管理;MapReduce的TaskTracker進程對實際數(shù)據(jù)的分配進行管理,例如來自兩個用戶的實際數(shù)據(jù),在分節(jié)點上分配、調(diào)度存入分節(jié)點的對應具體存儲空間,由TaskTracker完成。
2.3數(shù)據(jù)挖掘
根據(jù)電網(wǎng)企業(yè)業(yè)務需求和電力客戶需求,對海量的用電信息采集系統(tǒng)非結構化數(shù)據(jù)順利進行及時、快速有效分析和挖掘,發(fā)揮其大數(shù)據(jù)的規(guī)?;?,為企業(yè)和用戶提供輔助決策支撐是數(shù)據(jù)挖掘的重要作用之一。
非結構化數(shù)據(jù)由于數(shù)據(jù)類型多樣,差異性較大,無法按照處理傳統(tǒng)結構化數(shù)據(jù)所采用的統(tǒng)一方式,其數(shù)據(jù)挖掘方法按照文本、視頻和音頻等3種不同類型分別進行,如圖5所示。
數(shù)據(jù)挖掘的方法很多,且不同數(shù)據(jù)類型所適應的方法一般不同,關于文本數(shù)據(jù),擬按照文本分類、分詞和特征項抽取等方式進行處理;關于視頻數(shù)據(jù),一般采用可視化特征提取、對象識別、模型庫比對等方法;關于音頻數(shù)據(jù),宜應用相關性分組、聚集和描述與可視化等技術。
圖5 用電信息采集系統(tǒng)非結構化數(shù)據(jù)挖掘技術Fig.5 Data mining of unstructured data for electrical information acquisition system
本文根據(jù)用電信息采集系統(tǒng)所采集的A~E 5類用戶數(shù)據(jù)逐層依次包含的特點,將其分為基礎類、普通類、專用類和特殊類;為有效利用這些海量數(shù)據(jù),提出了數(shù)據(jù)采集、數(shù)據(jù)存儲和數(shù)據(jù)挖掘等3部分的系統(tǒng)框架,該設計框架在一定程度上解決了海量用電信息非結構數(shù)據(jù)管理問題。但是由于電力用戶用電信息數(shù)據(jù)關系工業(yè)用戶的能耗情況、商業(yè)用戶的用能情況和居民用戶的生活習慣,具有較強的隱私性或者商業(yè)秘密,對于在保障數(shù)據(jù)的安全、可靠的前提下,實現(xiàn)數(shù)據(jù)網(wǎng)絡共享,發(fā)揮數(shù)據(jù)的實際作用,為管理節(jié)能、低碳電力提供實際的支撐是下一步的重點研究課題。
[1]陳馳(Chen Chi).基于用電信息采集系統(tǒng)的運行電表故障智能分析(Intelligent analysis on the malfunction meter based on the electric energy data acquisition system)[J].電測與儀表(Electrical Measurement&Instrumentation),2014,51(15):18-22.
[2]孔祥玉,房大中,崔凱(Kong Xiangyu,F(xiàn)ang Dazhong,Cui Kai).電力系統(tǒng)輸電極限分析軟件的設計與實現(xiàn)(Design and application of total transmission capability analysis software in power system)[J].電力系統(tǒng)及其自動化學報(Proceedings of the CSU-EPSA),2009,21(2):1-5.
[3]陸春艷,向兵,姜煒超,等(Lu Chunyan,Xiang Bing,Jiang Weichao,et al).用電信息采集系統(tǒng)中重復數(shù)據(jù)刪除技術研究(Research on data de-duplication technologies in electric energy data acquisition system)[J].電測與儀表(Electrical Measurement&Instrumentation),2010,47(536A):87-90.
[4]萬里鵬(Wan Lipeng).非結構化到結構化數(shù)據(jù)轉換的研究與實現(xiàn)(Research and Implementation of the Transformation from Unstructured to Structured Data)[D].成都:西南交通大學電氣工程學院(Chengdu:School of Electrical Engineering of Southwest Jiaotong University),2013.
[5]何穎鵬(He Yingpeng).非結構化數(shù)據(jù)統(tǒng)一存儲平臺的設計與實現(xiàn)(Design and Implementation of Unstructured Data Unified Storage Platform)[D].杭州:浙江大學電氣工程學院(Hangzhou:College of Electrical Engineering,Zhejiang University),2013.
[6]張凱,秦勃,劉其成(Zhang Kai,Qin Bo,Liu Qicheng).基于GPU-Hadoop的并行計算框架研究與實現(xiàn)(Study of parallel computing framework based on GUP-Hadoop)[J].計算機應用研究(Application Research of Computers),2014,31(8):2548-2556.
[7]王志華,龐海波,李占波(Wang Zhihua,Pang Haibo,Li Zhanbo).一種適用于Hadoop云平臺的訪問控制方案(Access control for Hadoop-based cloud computing)[J].清華大學學報:自然科學版(Journal of Tsinghua University:Science and Technology),2014,54(1):53-59.
[8]Labrinidis A,Jagadish H V.Challenges and opportunities with big data[J].Proceedings of the VLDB Endowment,2012,5(12):2032-2033.
[9]Li Wei,Lang Bo.A tetrahedral data model for unstructured data management[J].Science in China Series F,2010,53(8):1497-1510.
[10]葛磊蛟,邢恩福,耿躍華(Ge Leijiao,Xing Enfu,Geng Yuehua).基于ATmega64云臺板卡測試平臺的設計(Design of the test platform based on ATmega64 for dome board)[J].微計算機信息(Micro Computer Information),2009,25(32):107-109.
[11]Abbasi A,Khunjush F,Azimi R.A preliminary study of incorporating GPUs in the Hadoop framework[C]//16th CSI International Symposium on Computer Architecture and Digital Systems.Shiraz,Iran,2012:178-185.
[12]Jungkyu Han,Ishii M,Makino H.A Hadoop performance model for multi-rack clusters[C]//5th International Conference on Computer Science and Information Technology.Amman,Jordan,2013:265-274.
[13]He Gang,Ren Siying,Yu Decheng,et al.Analysis of enterprise user behavior on Hadoop[C]//6th International Conference on Intelligent Human-Machine Systems and Cybernetics.Hangzhou,China,2014:230-233.
[14]Alam A,Ahmed J.Hadoop architecture and its issues[C]//International Conference on Computational Science and Computational Intelligence.Las Vegas,USA,2014:288-291.
[15]葛磊蛟,高波,周志超(Ge Leijiao,Gao Bo,Zhou Zhichao).用戶側用電安全檢查技術淺談(Discussion on inspection techniques of demand-side electrical safety)[J].供用電(Distribution&Utilization),2014(7):62-64.
[16]孫慧賢,張玉華,羅飛路(Sun Huixian,Zhang Yuhua,Luo Feilu).采用USB和CAN總線的電力監(jiān)控數(shù)據(jù)采集系統(tǒng)(Data collection system for power monitor based on USB and CAN bus)[J].電力系統(tǒng)及其自動化學報(Proceedings of the CSU-EPSA),2009,21(1):99-103.
[17]張炳達,姚浩,張學博(Zhang Bingda,Yao Hao,Zhang Xuebo).數(shù)字化變電站過程層通信故障發(fā)生裝置(Digital substation process layer communication fault generator)[J].電力系統(tǒng)及其自動化學報(Proceedings of the CSU-EPSA),2015,27(1):60-63.
[18]張少敏,李曉強,王保義(Zhang Shaomin,Li Xiaoqiang,Wang Baoyi).基于Hadoop的智能電網(wǎng)數(shù)據(jù)安全存儲設計(Design of data security storage in smart grid based on Hadoop)[J].電力系統(tǒng)保護與控制(Power System Protection and Control),2013,41(14):136-140.
[19]Sadasivam G S,Selvaraj D.A novel parallel hybrid PSOGA using MapReduce to schedule jobs in Hadoop data grids[C]//Second World Congress on Nature and Biologically Inspired Computing.Fukuoka,Japan,2010:377-382.
[20]菅志剛,金旭(Jian Zhigang,Jin Xu).數(shù)據(jù)挖掘中數(shù)據(jù)預處理的研究與實現(xiàn)(Research on data preprocess in data mining and its application)[J].計算機應用研究(Application Research of Computers),2004(7):117-118,157.
[21]歐陽柳波,李學勇,楊貫中,等(Ouyang Liubo,Li Xueyong,Yang Guanzhong,et al).基于近似匹配模型的XML元數(shù)據(jù)檢索(XML metadata retrieval based on approximately matching model)[J].計算機應用(Computer Applications),2005,25(4):820-823,826.
[22]王德文(Wang Dewen).基于云計算的電力數(shù)據(jù)中心基礎架構及其關鍵技術(Basic framework and key technology for a new generation of data center in electric power corporation based on cloud computation)[J].電力系統(tǒng)自動化(Automation of Electric Power Systems),2012,36(11):67-71,107.
[23]曲朝陽,朱莉,張士林(Qu Zhaoyang,Zhu Li,Zhang Shilin).基于Hadoop的廣域測量系統(tǒng)數(shù)據(jù)處理(Data processing of Hadoop-based wide area measurement system)[J].電力系統(tǒng)自動化(Automation of Electric Power Systems),2013,37(4):92-97.
[24]阿廖沙·葉,祝恩國,成倩,等(Aliaosha Ye,Zhu Enguo,Cheng Qian,et al).用電設備安全評估的改進區(qū)間層次分析法(Improved interval analytic hierarchy process method for electrical equipment safety assessment)[J].電力系統(tǒng)及其自動化學報(Proceedings of the CSU-EPSA),2015,27(1):32-36.
Management Design for Unstructured Data in Electrical Information Acquisition System
ZHU Enguo1,LIU Xuan1,GE Leijiao2
(1.China Electric Power Research Institute,Beijing 100092,China;2.School of Electrical Engineering and Automation,Tianjin University,Tianjin 300072,China)
According to the characteristics of massive quantity and numerous scattered points for unstructured data in the electrical information acquisition system,an unstructured data management framework is designed in this paper:first,the unstructured data are classified;second,a design scheme is put forward including data acquisition,data storage and data mining,where the first part realizes the collection of unstructured data,the second completes the fast storage of massive data by data preprocessing and Hadoop,and the third processes the massive data according to the categories of text,video and audio,respectively.This solution is useful for the management of massive unstructured data in the electrical information acquisition system.
electrical information acquisition system;unstructured data;framework design;massive data;data mining
TM727
A
1003-8930(2016)10-0123-06
10.3969/j.issn.1003-8930.2016.10.021
2015-03-116;
2016-01-10
國家電網(wǎng)公司基礎性前瞻性科技資助項目(JL-71-14-001)
祝恩國(1978—),男,博士,高級工程師,研究方向為智能用電、電力需求側管理技術、高級量測體系。Email:zhuenguo@epri.sgcc.com.cn
劉宣(1978—),男,碩士,工程師,研究方向為電力系統(tǒng)自動化、智能用電技術、用電信息采集技術。Email:liuxuan@epri.sgcc.com.cn
葛磊蛟(1984—),男,通信作者,博士,講師,研究方向為智能配用電網(wǎng)和大數(shù)據(jù)等。Email:legendglj99@tju.edu.cn