陳 銳,吳應(yīng)雙,曹 杰,劉明順
(貴州電網(wǎng)有限責(zé)任公司電力調(diào)度控制中心,貴州 貴陽(yáng) 550002)
電力系統(tǒng)是一個(gè)復(fù)雜的能源網(wǎng)絡(luò)系統(tǒng),與其相關(guān)的輸變電設(shè)備物聯(lián)網(wǎng)作為物聯(lián)網(wǎng)技術(shù)在智能電網(wǎng)中的新應(yīng)用,是智能電網(wǎng)由系統(tǒng)智能化向輸變電設(shè)備智能化的延伸和發(fā)展。輸變電設(shè)備種類繁多,分散在電網(wǎng)中各電壓等級(jí)間的不同廠站及連接這些廠站的各種輸變電設(shè)備全景信息具有海量、多源、多態(tài)、高度異構(gòu)的特征;這些特征造成了電力系統(tǒng)中各種數(shù)據(jù)間的“信息孤島”,聚合這些復(fù)雜數(shù)據(jù)信息首先要處理這些數(shù)據(jù)固有的多源與異構(gòu)的難點(diǎn)問(wèn)題[1]。
異構(gòu)數(shù)據(jù)源主要有三種類型:語(yǔ)義、模式及系統(tǒng)等三種異構(gòu)形式。數(shù)據(jù)源在表達(dá)同一數(shù)據(jù)時(shí)的不同稱為語(yǔ)義異構(gòu),它是數(shù)據(jù)聚合中要解決的關(guān)鍵問(wèn)題,也是難點(diǎn)。采用本體技術(shù)可以解決數(shù)據(jù)聚合中存在的語(yǔ)義異構(gòu)問(wèn)題。本體技術(shù)可以快速梳理出不同數(shù)據(jù)概念間存在的聯(lián)系,然后表達(dá)出這些數(shù)據(jù)間的語(yǔ)義聯(lián)系,從而實(shí)現(xiàn)信息共享與重用?;谥悄茈娋W(wǎng)中各種輸變電設(shè)備數(shù)據(jù)信息的多源異構(gòu)特征,本文提出了一種基于Hadoop和HBase的輸變電設(shè)備全景信息數(shù)據(jù)聚合方法[2]。
云計(jì)算是分布式計(jì)算、并行計(jì)算和網(wǎng)格計(jì)算發(fā)展的結(jié)果,目前主要用于“數(shù)據(jù)密集型”應(yīng)用,通過(guò)虛擬技術(shù)、海量分布式數(shù)據(jù)存儲(chǔ)技術(shù)、MapReduce并行編程模型等技術(shù),為用戶提供高可靠性、高安全性的海量數(shù)據(jù)存儲(chǔ)平臺(tái),這種數(shù)據(jù)平臺(tái)為未來(lái)電力系統(tǒng)的趨勢(shì)智能電網(wǎng)的信息平臺(tái)建設(shè)提供了一種可行的全新解決思路[3]。
本文提出運(yùn)用本體技術(shù)在開源的云計(jì)算平臺(tái)Hadoop集群上實(shí)現(xiàn)海量、多源、異構(gòu)數(shù)據(jù)的聚合。首先介紹了本體技術(shù)及采用的改進(jìn)混合本體法、Hadoop和HBase數(shù)據(jù)庫(kù)等技術(shù);隨后提出了基于HBase和Hadoop的智能電網(wǎng)輸變電設(shè)備異構(gòu)數(shù)據(jù)聚合平臺(tái)框架,并設(shè)計(jì)了基于MapReduce的查詢和推理流程。該平臺(tái)具有標(biāo)準(zhǔn)化和開放性特點(diǎn),可以屏蔽底層異構(gòu)數(shù)據(jù)源物理和邏輯的差異性,并且具有良好的可擴(kuò)展性,可用于解決原有電力系統(tǒng)中數(shù)據(jù)信息共享性差、信息呈孤島、非結(jié)構(gòu)化數(shù)據(jù)難以處理等問(wèn)題。
在我國(guó),電力系統(tǒng)當(dāng)中的輸變電設(shè)備主要指110 kV及以上電壓等級(jí)的架空輸電線路、變壓器(電抗器)、高壓開關(guān)設(shè)備、互感器、直流設(shè)備、高壓支柱絕緣子、避雷器、消弧線圈,以及相關(guān)變電站站內(nèi)的電容器組、站用電系統(tǒng)、接地裝置、防誤閉鎖裝置、照明系統(tǒng)、接線箱等設(shè)備。這些設(shè)備及相關(guān)的數(shù)據(jù)信息主要來(lái)自電網(wǎng)的五大數(shù)據(jù)系統(tǒng),分別為生產(chǎn)運(yùn)行管理系統(tǒng)(PMS)、輸電設(shè)備精益化管理系統(tǒng)、變電設(shè)備現(xiàn)場(chǎng)作業(yè)數(shù)據(jù)采集系統(tǒng)、生產(chǎn)運(yùn)維自動(dòng)化服務(wù)平臺(tái)以及人工數(shù)據(jù)管理平臺(tái)。
電力系統(tǒng)生產(chǎn)運(yùn)行管理系統(tǒng)(PMS)當(dāng)中的數(shù)據(jù)主要包括設(shè)備的臺(tái)賬信息、設(shè)備的日常運(yùn)行日志、設(shè)備實(shí)時(shí)運(yùn)行工況、設(shè)備的測(cè)試作記錄、設(shè)備的試驗(yàn)記錄、設(shè)備的檢修記錄、設(shè)備的操作記錄、設(shè)備的缺陷記錄、設(shè)備的事故記錄;這些數(shù)據(jù)的格式屬于傳統(tǒng)結(jié)構(gòu)化的數(shù)據(jù)格式。這些數(shù)據(jù)體量巨大,處理起來(lái)很不方便。
輸電設(shè)備精益化管理系統(tǒng)當(dāng)中的數(shù)據(jù)主要包括設(shè)備的跳閘記錄、設(shè)備的隱患記錄、輸電線路的交叉跨越、設(shè)備的監(jiān)測(cè)記錄、各種作業(yè)表單、設(shè)備缺陷記錄;這些數(shù)據(jù)的格式也屬于傳統(tǒng)結(jié)構(gòu)化的數(shù)據(jù)格式。
變電現(xiàn)場(chǎng)作業(yè)數(shù)據(jù)采集系統(tǒng)當(dāng)中的數(shù)據(jù)主要包括設(shè)備巡視記錄、工器具定檢記錄、避雷器泄露電流及動(dòng)作次數(shù)記錄;斷路器動(dòng)作次數(shù)記錄;變壓器鐵芯及夾件泄漏電流測(cè)量記錄;SF6氣體壓力抄錄記錄;這些數(shù)據(jù)的格式同樣屬于傳統(tǒng)結(jié)構(gòu)化的數(shù)據(jù)格式。
運(yùn)維自動(dòng)化平臺(tái)當(dāng)中的數(shù)據(jù)主要包括SCADA量測(cè)數(shù)據(jù);在線監(jiān)測(cè)量測(cè)數(shù)據(jù);保護(hù)裝置動(dòng)作記錄及錄波記錄;雷電定位系統(tǒng)數(shù)據(jù);覆冰監(jiān)測(cè)數(shù)據(jù);微氣象監(jiān)測(cè)數(shù)據(jù);這些數(shù)據(jù)的格式有傳統(tǒng)結(jié)構(gòu)化的數(shù)據(jù)格式,也有非結(jié)構(gòu)化的數(shù)據(jù)格式。這些數(shù)據(jù)共享性查且處理非常復(fù)雜。
人工管理數(shù)據(jù)平臺(tái)當(dāng)中的數(shù)據(jù)主要包括各種文檔、報(bào)表、實(shí)驗(yàn)報(bào)告等;這些數(shù)據(jù)的格式屬于非結(jié)構(gòu)化的數(shù)據(jù)格式,且數(shù)據(jù)共享性極差[4]。
2.1.1 本體概述
本體(ontology)是“數(shù)據(jù)共享概念的形式化規(guī)范說(shuō)明”。本體的四個(gè)要素主要表現(xiàn)為:數(shù)據(jù)明確化(explicit)、數(shù)據(jù)概念模型(conceptualization)、數(shù)據(jù)共享(share)和數(shù)據(jù)的形式化(formal)。數(shù)據(jù)明確化表明相關(guān)數(shù)據(jù)概念及數(shù)據(jù)之間的聯(lián)系被明確定義;數(shù)據(jù)概念模型是對(duì)客觀事物現(xiàn)象的抽象模型;數(shù)據(jù)共享則意味著使用者對(duì)于數(shù)據(jù)本體所反映的信息達(dá)成了共識(shí);而數(shù)據(jù)形式化則要求由精準(zhǔn)的數(shù)學(xué)描述相關(guān)的數(shù)據(jù)。
運(yùn)用本體技術(shù)起到數(shù)據(jù)信息的中間代理作用,將其用于數(shù)據(jù)聚合,可以完成數(shù)據(jù)庫(kù)對(duì)底層異構(gòu)數(shù)據(jù)源中相關(guān)數(shù)據(jù)的透明訪問(wèn)。本體強(qiáng)大的語(yǔ)義特性,可準(zhǔn)確的反映數(shù)據(jù)所攜帶的內(nèi)在信息,在數(shù)據(jù)聚合過(guò)程中應(yīng)用本體技術(shù)能夠解決信息共享與數(shù)據(jù)交換中語(yǔ)義異構(gòu)的問(wèn)題[5]。
本體技術(shù)的這種強(qiáng)大數(shù)據(jù)處理功能,非常適合用于解決電力系統(tǒng)中大量輸變電設(shè)備間的復(fù)雜數(shù)據(jù)處理與聚合問(wèn)題。
2.1.2 本體語(yǔ)言
目前,數(shù)據(jù)庫(kù)技術(shù)當(dāng)中有RDF/S,DAML+OIL,OWL等語(yǔ)言均能描述本體。其中,OWL(web ontology language)為W3C推薦的一種對(duì)數(shù)據(jù)本體進(jìn)行語(yǔ)義解釋的語(yǔ)言標(biāo)準(zhǔn)。W3C提出的本體語(yǔ)言棧如圖1所示。OWL位于本體語(yǔ)言棧的最上層,它添加了更多用于描述數(shù)據(jù)屬性與數(shù)據(jù)類型的詞匯,用于描述豐富的數(shù)據(jù)語(yǔ)義。支持對(duì)數(shù)據(jù)的互操作和集成[6-7]。OWL本體語(yǔ)言提供了將兩個(gè)本體的類和屬性關(guān)聯(lián)起來(lái)的方式,利用OWL能在語(yǔ)義層面上對(duì)多種資源的互操作和集成進(jìn)行支持。
2.1.3 基于本體的數(shù)據(jù)聚合方法
按照數(shù)據(jù)集成方法不同的方式分類,基于本體的數(shù)據(jù)聚合有三種常用的實(shí)現(xiàn)方法:一是采用單數(shù)據(jù)本體方法;二是采用多數(shù)據(jù)本體方法;三是采用混合數(shù)據(jù)本體方法。
單本體方法中所有數(shù)據(jù)信息僅與一個(gè)全局本體相關(guān),該全局本體是所有數(shù)據(jù)信息的核心,由該全局本體提供所有的數(shù)據(jù)詞匯,這種構(gòu)建方法簡(jiǎn)單,但在多源信息的復(fù)雜情境下容易受到較大的限制。多本體方法則采用多個(gè)本體描述不同數(shù)據(jù)源所包含的信息,然而這種方法缺乏了統(tǒng)一的全局本體進(jìn)行多元融合?;旌媳倔w方法很好地解決了上述兩種方法存在的缺陷,這種結(jié)構(gòu)如圖2所示。
混合本體方法針對(duì)每一個(gè)數(shù)據(jù)源,首先采用OWL本體語(yǔ)言對(duì)數(shù)據(jù)進(jìn)行全面描述,進(jìn)而產(chǎn)生局部數(shù)據(jù)源本體;然后通過(guò)匯集共享詞生產(chǎn)相關(guān)領(lǐng)域本體,進(jìn)而形成全局本體。本文采用了一種更為合理的改進(jìn)混合本體法,如圖3。這種方法與常規(guī)混合本體法的主要不同在于眾多局部本體間沒(méi)有任何映射關(guān)系且耦合程度低,這樣,在對(duì)底層數(shù)據(jù)源進(jìn)行查詢時(shí),查詢將被分解和轉(zhuǎn)換成面向具體數(shù)據(jù)源的查詢。將OWL本體語(yǔ)言技術(shù)和語(yǔ)義網(wǎng)絡(luò)規(guī)則語(yǔ)言(semantic web rule language,SWRL)技術(shù)相結(jié)合,運(yùn)用兩者間映射關(guān)系來(lái)表達(dá)局部、全局本體可實(shí)現(xiàn)標(biāo)準(zhǔn)化與可擴(kuò)展性[8]。
2.2.1 Hadoop
Hadoop是Apache基金會(huì)開發(fā)的一個(gè)開源分布式系統(tǒng)基礎(chǔ)框架。這個(gè)架構(gòu)可以保證用戶在不了解分布式底層細(xì)節(jié)的情況下,也可以充分開發(fā)分布式程序。該架構(gòu)是以Hadoop分布式文件系統(tǒng)HDFS(hadoop distributed file system)和Map/Reduce(google map reduce的開源實(shí)現(xiàn))為核心。Hadoop為用戶提供了系統(tǒng)底層細(xì)節(jié)透明的分布式基礎(chǔ)架構(gòu)。這種架構(gòu)在廉價(jià)硬件設(shè)備上可實(shí)現(xiàn)數(shù)據(jù)密集型應(yīng)用,具有高可靠性、低成本、高效性、高容錯(cuò)性和良好的可擴(kuò)展性等五大優(yōu)勢(shì)。
HDFS和Map/Reduce構(gòu)成Hadoop分布式系統(tǒng)的核心。HDFS和Map/Reduce在集群上分別實(shí)現(xiàn)了分布式文件系統(tǒng)及相關(guān)計(jì)算和任務(wù)處理。HDFS為Map/Reduce的任務(wù)處理提供相關(guān)文件操作及數(shù)據(jù)存儲(chǔ)等,Map/Reduce在HDFS的基礎(chǔ)上解決了任務(wù)的分發(fā)調(diào)度、跟蹤監(jiān)視、執(zhí)行等工作,它們共同處理了Hadoop的大部分工作任務(wù)[9-10]。
2.2.2 HBase
HBase是Apache的Hadoop項(xiàng)目的子項(xiàng)目。與一般的關(guān)系數(shù)據(jù)庫(kù)不同,HBase是一個(gè)分布式的、面向列的開源數(shù)據(jù)庫(kù)。HBase以HDFS為基礎(chǔ),能夠向用戶提供高性能、列存儲(chǔ)、可伸縮、實(shí)時(shí)讀寫的數(shù)據(jù)庫(kù)。它介于NoSQL和RDBMS之間,僅支持單行事務(wù)且僅能通過(guò)RowKey和Range檢索;因此,該數(shù)據(jù)庫(kù)主要用于存儲(chǔ)非結(jié)構(gòu)化或者半結(jié)構(gòu)化數(shù)據(jù)。HBase沒(méi)有關(guān)系數(shù)據(jù)庫(kù)的列、輔助索引等高級(jí)查詢語(yǔ)言;從這方面看,HBase嚴(yán)格意義上來(lái)說(shuō)并不是數(shù)據(jù)庫(kù),它只能算作一種數(shù)據(jù)存儲(chǔ)的方式,主要是用以彌補(bǔ)傳統(tǒng)關(guān)系型數(shù)據(jù)庫(kù)處理大量數(shù)據(jù)時(shí)的局限性。傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù)并沒(méi)有充分考慮數(shù)據(jù)庫(kù)的擴(kuò)展性、可靠性。HBase就是為處理海量數(shù)據(jù)的存儲(chǔ)、高速讀寫、用戶并發(fā)訪問(wèn)等問(wèn)題而設(shè)計(jì)的,這種設(shè)計(jì)降低了對(duì)硬件設(shè)備數(shù)據(jù)處理性能的要求[11]。
本章所提出的基于Hadoop和本體的輸變電設(shè)備大數(shù)據(jù)聚合平臺(tái)架構(gòu)如圖4所示??梢灾庇^的看出,這種架構(gòu)自下而上由數(shù)據(jù)源層、本體轉(zhuǎn)換層、知識(shí)庫(kù)層、應(yīng)用層四個(gè)層構(gòu)成。
按照系統(tǒng)數(shù)據(jù)應(yīng)用的需要,數(shù)據(jù)源層接入相關(guān)風(fēng)險(xiǎn)數(shù)據(jù)源和電網(wǎng)中輸變電相關(guān)運(yùn)行信息。應(yīng)用層訪問(wèn)數(shù)據(jù)源層,數(shù)據(jù)源層返回需要的數(shù)據(jù)信息,啟動(dòng)數(shù)據(jù)庫(kù)訪問(wèn)流程。數(shù)據(jù)源層包括HDFS和HBase。
HDFS提供了框架體系結(jié)構(gòu)中HBase與Map/Reduce的分布式運(yùn)算基礎(chǔ),將本體數(shù)據(jù)文件通過(guò)“塊”的形式實(shí)現(xiàn)數(shù)據(jù)分布式儲(chǔ)存。Hadoop平臺(tái)能夠?qū)崿F(xiàn)本體數(shù)據(jù)文件的分發(fā)、容錯(cuò)及備份等必要的功能。HBase運(yùn)行于HDFS之上,對(duì)用戶上傳的海量RDF及OWL文件進(jìn)行分布式儲(chǔ)存與有效管理,可滿足用戶對(duì)本體數(shù)據(jù)的添加、修改、刪除以及快速訪問(wèn)。
本體轉(zhuǎn)換層主要是為了實(shí)現(xiàn)本體轉(zhuǎn)換,解決數(shù)據(jù)異構(gòu)問(wèn)題,包括數(shù)據(jù)適配器(data adapter)、RDF接口、本體及映射。
數(shù)據(jù)適配器是數(shù)據(jù)交換的唯一接口。這種適配器接口具備查詢和邏輯推理功能,可以對(duì)數(shù)據(jù)庫(kù)中本體數(shù)據(jù)并行化訪問(wèn)。在數(shù)據(jù)庫(kù)中,邏輯層通過(guò)適配器對(duì)數(shù)據(jù)存儲(chǔ)層與數(shù)據(jù)層的數(shù)據(jù)進(jìn)行交換處理。一方面,數(shù)據(jù)適配器以數(shù)據(jù)預(yù)處理器轉(zhuǎn)換后的本體數(shù)據(jù)解析模型為輸入,實(shí)現(xiàn)本體數(shù)據(jù)在HBase與HDFS中的并行化錄入和分布式存儲(chǔ);另外,數(shù)據(jù)適配器根據(jù)框架中的查詢和邏輯推理計(jì)算任務(wù),實(shí)現(xiàn)對(duì)HBase數(shù)據(jù)庫(kù)或HDFS文件系統(tǒng)中本體數(shù)據(jù)的并行化訪問(wèn)。
RDF接口將數(shù)據(jù)源的數(shù)據(jù)公開轉(zhuǎn)換為RDF數(shù)據(jù)。通過(guò)RDF接口集成數(shù)據(jù)源,能夠?qū)?shù)據(jù)從應(yīng)用程序中分離出來(lái),實(shí)現(xiàn)了已有數(shù)據(jù)源的交換以及集成且不需要大量改動(dòng),這樣就可以很方便的實(shí)現(xiàn)新的數(shù)據(jù)源集成。RDF從語(yǔ)義層面上極大的減少了數(shù)據(jù)共享的問(wèn)題,而且便于擴(kuò)展,具有很大的靈活性。RDF接口將每個(gè)數(shù)據(jù)源公開為RDF后,通過(guò)OWL語(yǔ)言構(gòu)造數(shù)據(jù)源本體,流程如圖5所示。
圖5 RDF接口功能
Fig.5 Interface function of RDF
本體語(yǔ)言構(gòu)建全局與局部本體,然后應(yīng)用OWL本體構(gòu)造和SWRL(semantic web rule language)規(guī)則相結(jié)合建立本體間映射關(guān)系,實(shí)現(xiàn)本體間的相互關(guān)聯(lián),這是數(shù)據(jù)聚合的核心。如果兩個(gè)本體已經(jīng)校準(zhǔn),并且也確定出了它們的概念之間的正確映射,那么在運(yùn)行過(guò)程中,本體之間就進(jìn)行了轉(zhuǎn)換。
基于Hadoop的Map/Reduce分布式運(yùn)算環(huán)境構(gòu)建的知識(shí)庫(kù)層對(duì)海量的本體數(shù)據(jù)進(jìn)行查詢與邏輯推理。知識(shí)庫(kù)層主要包括查詢與邏輯推理任務(wù)生成器、Map/Reduce查詢引擎(query engine)、Map/Reduce SWRL推理引擎等。查詢與推理任務(wù)生成器(querying and reasoning plan generator)以查詢與規(guī)則分析器輸出的解析模型為輸入,生成相應(yīng)的查詢和推理任務(wù)模型。
查詢引擎(query engine)根據(jù)Map/Reduce查詢?nèi)蝿?wù)模型,在 Map/Reduce環(huán)境下執(zhí)行大規(guī)模RDF數(shù)據(jù)的 SPARQL(simple protocol and RDF query language)分布式查詢。最終查詢結(jié)果構(gòu)造器根據(jù)輸入SPARQL查詢條件中的查詢表單生成查詢結(jié)果。
推理引擎是Map/Reduce環(huán)境下的SWRL規(guī)則分布式推理機(jī)。該模塊以框架數(shù)據(jù)層中大規(guī)模 OWL本體數(shù)據(jù)及查詢與規(guī)則分析器生成的SWRL 規(guī)則模型為輸入,并根據(jù)查詢與推理任務(wù)生成器生成的推理計(jì)劃以及Map/Reduce環(huán)境下的SWRL 規(guī)則分布式推理算法,執(zhí)行一組Map/Reduce任務(wù),以實(shí)現(xiàn) SWRL規(guī)則的分布式規(guī)則推理,并最終返回推理結(jié)果。
為用戶提供訪問(wèn)接口的是應(yīng)用層,負(fù)責(zé)數(shù)據(jù)查詢、推理的上傳及將結(jié)果可視化。應(yīng)用層根據(jù)用戶需求,完成相應(yīng)功能建設(shè),涵蓋了輸變電設(shè)備的數(shù)據(jù)邏輯發(fā)掘、輸變電設(shè)備的狀態(tài)評(píng)價(jià)、輸變電設(shè)備的故障診斷、輸變電設(shè)備的停運(yùn)模型、輸變電設(shè)備的全生命周期過(guò)程管控等相關(guān)功能[12-14]。
知識(shí)庫(kù)層完成了對(duì)數(shù)據(jù)庫(kù)中本體數(shù)據(jù)的查詢與邏輯推理,它是在Hadoop的MapReduce運(yùn)算環(huán)境中構(gòu)建而成的。查詢語(yǔ)言以SPARQL為依據(jù),對(duì)大量語(yǔ)義Web本體數(shù)據(jù)信息進(jìn)行高效分布式存儲(chǔ)、快速查詢及邏輯推理,其功能流程如圖6所示。
具體流程如下[15-16]:
(1)用戶提供SPARQL查詢語(yǔ)言進(jìn)行查詢;
(2)MapReduce查詢引擎解析用戶提供的SPARQL查詢命令;
(3)本體解析器實(shí)現(xiàn)讀取并解析本體文件的功能;
(4)MapReduce SWRL推理引擎完成具體查詢與推理計(jì)算流程的執(zhí)行;
(5)結(jié)果輸出器輸出查詢或推理結(jié)果,形成直接針對(duì)RDF接口的查詢。
用戶或者應(yīng)用程序通過(guò)查詢接口訪問(wèn)知識(shí)庫(kù),采用SPARQL作為查詢語(yǔ)言。對(duì)知識(shí)庫(kù)的查詢被分解和轉(zhuǎn)換成面向RDF接口的查詢,每個(gè)RDF接口的查詢則直接面向具體數(shù)據(jù)源,下層異構(gòu)數(shù)據(jù)源根據(jù)需求返回查詢結(jié)果,啟動(dòng)數(shù)據(jù)流程。如圖7所示,具體的數(shù)據(jù)流程描述如下[17-20]。
(1)輸變電設(shè)備監(jiān)測(cè)數(shù)據(jù)和設(shè)備所處環(huán)境數(shù)據(jù)經(jīng)過(guò)RDF接口,數(shù)據(jù)被公開為RDF格式,并通過(guò)OWL本體描敘語(yǔ)言被構(gòu)造為數(shù)據(jù)源本體;
(2)運(yùn)用本體構(gòu)造和SWRL轉(zhuǎn)換,數(shù)據(jù)源本體之間建立了對(duì)應(yīng)的數(shù)據(jù)映射關(guān)系,進(jìn)而完成了數(shù)據(jù)源本體間的相互轉(zhuǎn)換;
(3)知識(shí)庫(kù)起到了提供查詢接口,存儲(chǔ)本體轉(zhuǎn)換的結(jié)果和執(zhí)行本體推理的作用;
(4)轉(zhuǎn)換完成后,查詢結(jié)果被返回給用戶或應(yīng)用程序,在此過(guò)程中多源異構(gòu)數(shù)據(jù)實(shí)現(xiàn)了聚合。
利用各數(shù)據(jù)源本體建立全局本體,形成全局本體與各數(shù)據(jù)源本體對(duì)應(yīng)的映射關(guān)系,局部本體之間相互耦合,形成數(shù)據(jù)交換規(guī)則,并存儲(chǔ)在知識(shí)庫(kù)中,在數(shù)據(jù)交換過(guò)程中用來(lái)將源本體文檔轉(zhuǎn)換成目標(biāo)本體文檔,數(shù)據(jù)交換規(guī)則如圖8所示。
智能電網(wǎng)是未來(lái)電力系統(tǒng)發(fā)展的方向,處理電力系統(tǒng)當(dāng)中的各種數(shù)據(jù)信息尤為重要。來(lái)自電網(wǎng)的五大數(shù)據(jù)系統(tǒng)的輸變電設(shè)備數(shù)據(jù)來(lái)源廣、種類多、結(jié)構(gòu)復(fù)雜、體量巨大、共享性差、信息呈孤島,將這些數(shù)據(jù)完全聚合起來(lái)用于生產(chǎn)實(shí)際是個(gè)十分復(fù)雜而又艱巨的工作,但這也是未來(lái)智能電網(wǎng)必須解決的問(wèn)題。電力系統(tǒng)中輸變電設(shè)備全景數(shù)據(jù)信息主要存在異構(gòu)、多源等突出特征;為了實(shí)現(xiàn)這些大量信息的高效利用與聚合,本文采用了一種改進(jìn)混合本體法,在開源的云計(jì)算平臺(tái)Hadoop集群上實(shí)現(xiàn)海量、多源、異構(gòu)數(shù)據(jù)的聚合方案,將本體技術(shù)應(yīng)用在這些數(shù)據(jù)信息的聚合當(dāng)中,并得到以下結(jié)論:
(1)應(yīng)用本體技術(shù)與Hadoop分布式計(jì)算平臺(tái),搭載改進(jìn)混合本體方法作為多源異構(gòu)數(shù)據(jù)聚合方案,可有效解決電力系統(tǒng)中輸變電設(shè)備數(shù)據(jù)的多源異構(gòu)問(wèn)題;
(2)提出了基于HBase和Hadoop的智能電網(wǎng)異構(gòu)數(shù)據(jù)聚合平臺(tái)框架,并設(shè)計(jì)了基于Map/Reduce的查詢和推理流程;
(3)采用開放性的標(biāo)準(zhǔn)化建模語(yǔ)言,對(duì)底層異構(gòu)數(shù)據(jù)源的差異性進(jìn)行了屏蔽的同時(shí),解決了輸變電設(shè)備原有數(shù)據(jù)存在的非結(jié)構(gòu)化、共享性差、數(shù)據(jù)信息孤島等棘手的問(wèn)題。