齊 俊,曲朝陽(yáng),婁建樓,王 沖
?
一種基于Hadoop的電力大數(shù)據(jù)屬性實(shí)體識(shí)別算法
齊 俊1,曲朝陽(yáng)1,婁建樓1,王 沖2
(1.東北電力大學(xué)信息工程學(xué)院,吉林 吉林 132012;(2.國(guó)網(wǎng)內(nèi)蒙古東部電力有限公司信息通信分公司,內(nèi)蒙古 呼和浩特 010020)
隨著大數(shù)據(jù)時(shí)代的來(lái)臨,傳統(tǒng)的實(shí)體識(shí)別技術(shù)由于電網(wǎng)數(shù)據(jù)體積大以及類型復(fù)雜等特性已經(jīng)無(wú)法有效地進(jìn)行數(shù)據(jù)預(yù)處理。近年來(lái)興起的Hadoop技術(shù)能夠?qū)Υ髷?shù)據(jù)進(jìn)行較好的處理。因此提出一種基于Hadoop的電力大數(shù)據(jù)屬性實(shí)體識(shí)別算法。該算法利用改進(jìn)離散化算法選取出信息準(zhǔn)確率較高的離散點(diǎn),并提出了一種離散化評(píng)價(jià)指標(biāo)。最后,在Hadoop平臺(tái)上對(duì)某風(fēng)電機(jī)組的監(jiān)測(cè)數(shù)據(jù)進(jìn)行了屬性實(shí)體識(shí)別。實(shí)驗(yàn)證明,該算法在實(shí)驗(yàn)正確性和斷點(diǎn)數(shù)目方面表現(xiàn)良好,并且具有較好的加速比,適用于電力大數(shù)據(jù)的屬性實(shí)體識(shí)別處理。
電力大數(shù)據(jù);實(shí)體識(shí)別;離散化算法;信息準(zhǔn)確率
隨著信息通信技術(shù)的不斷進(jìn)步,數(shù)字化、信息化已經(jīng)深入滲透到我們生活的方方面面,電力企業(yè)的信息化進(jìn)程也得到了長(zhǎng)足的發(fā)展。下一代智能電網(wǎng)的全面建設(shè)過(guò)程中產(chǎn)生的溫度、時(shí)間等數(shù)據(jù)的關(guān)聯(lián)分析也使得電力大數(shù)據(jù)的類型不斷增加,對(duì)電力大數(shù)據(jù)中有效信息的分析處理要求也不斷提高。如何從電力大數(shù)據(jù)中獲取電力企業(yè)決策時(shí)需要的有效信息,是在大數(shù)據(jù)時(shí)代電網(wǎng)企業(yè)進(jìn)行數(shù)據(jù)預(yù)處理時(shí)的一個(gè)重要難題[1]。實(shí)體識(shí)別一直以來(lái)都是數(shù)據(jù)質(zhì)量管理研究的一項(xiàng)關(guān)鍵技術(shù),對(duì)能否提高數(shù)據(jù)預(yù)處理的質(zhì)量起著至關(guān)重要的作用。在電力大數(shù)據(jù)中,數(shù)據(jù)類型復(fù)雜、數(shù)據(jù)表現(xiàn)不一致的現(xiàn)象更為普遍。因此,實(shí)體識(shí)別技術(shù)在電力大數(shù)據(jù)中也具有更為廣泛的應(yīng)用[2]。
電力大數(shù)據(jù)中的屬性實(shí)體識(shí)別是在給定的大數(shù)據(jù)集中,精準(zhǔn)地識(shí)別屬于同一種實(shí)體的不同實(shí)體名和屬性并將其聚類,使得每個(gè)實(shí)體在電網(wǎng)決策中能夠被更為有價(jià)值地識(shí)別出來(lái)的過(guò)程。與傳統(tǒng)的中文實(shí)體識(shí)別技術(shù)不同,電力大數(shù)據(jù)具有更為復(fù)雜的結(jié)構(gòu),如XML數(shù)據(jù)等。因此,盡可能地尋找一種有效的電力大數(shù)據(jù)實(shí)體識(shí)別方法對(duì)降低數(shù)據(jù)處理規(guī)模,提高數(shù)據(jù)分析效率具有重要作用,例如文獻(xiàn)[3]利用基于并行機(jī)群的大數(shù)據(jù)實(shí)體識(shí)別算法。此算法借助n-Gram算法輔助解決同一物體有不同屬性的問(wèn)題,在短時(shí)間內(nèi)對(duì)大數(shù)據(jù)高效地進(jìn)行實(shí)體識(shí)別并取得了較好的效果。傳統(tǒng)的實(shí)體識(shí)別技術(shù)有很多,但主要集中在文本形式的詞組或關(guān)系數(shù)據(jù)上,針對(duì)不同類型數(shù)據(jù)的實(shí)體識(shí)別的研究還剛剛興起。文獻(xiàn)[4]提出了一種兩階段的關(guān)聯(lián)實(shí)體識(shí)別模型,考慮了實(shí)體的模式特征與屬性特征,并提出了一種增量式驗(yàn)證算法。
當(dāng)前已有的研究方法主要是面向識(shí)別的有效性,即重點(diǎn)在于如何能夠準(zhǔn)確地識(shí)別出描述同一實(shí)體的對(duì)象,面向大數(shù)據(jù)中的實(shí)體識(shí)別效率的技術(shù)仍然較少。而且這些方法大多針對(duì)字符串和關(guān)系元組,對(duì)XML數(shù)據(jù)、圖數(shù)據(jù)等非結(jié)構(gòu)化數(shù)據(jù)的判別方法研究仍然較少[5-6]。同時(shí),這些算法缺少有效評(píng)估大數(shù)據(jù)實(shí)體識(shí)別結(jié)果質(zhì)量的理論及公共測(cè)試數(shù)據(jù)集合。
Hadoop是一種能夠?qū)Υ髷?shù)據(jù)進(jìn)行分布式處理的基礎(chǔ)架構(gòu)平臺(tái)。其架構(gòu)底層HDFS的上層是Map-Reduce執(zhí)行引擎,該引擎由單獨(dú)運(yùn)行在主節(jié)點(diǎn)上的JobTracker和多個(gè)運(yùn)行在集群節(jié)點(diǎn)上的TaskTracker組成。MapReduce是一種編程模型,用于大規(guī)模數(shù)據(jù)集的并行運(yùn)算。其主要概念包括“Map(映射)”和“Reduce(歸約)”兩個(gè)過(guò)程。當(dāng)前的算法實(shí)現(xiàn)是指定一個(gè)Map(映射)函數(shù),用來(lái)把一組鍵值對(duì)映射成一組新的鍵值對(duì),指定并發(fā)的Reduce(歸約)函數(shù)。
本文深入研究了Map-Reduce編程模型,在電力大數(shù)據(jù)的背景下,給出了一種基于信息準(zhǔn)確率的電力大數(shù)據(jù)實(shí)體識(shí)別算法(Entity Recognition in Big Data Based on Information Accuracy, ERBIA)。該算法首先通過(guò)離散化方案計(jì)算類屬性的分布與屬性值的相似程度,從而通過(guò)ERBIA算法選出信息準(zhǔn)確率較高的離散點(diǎn),而后提出一種改進(jìn)的離散化評(píng)價(jià)指標(biāo)得到了最終決策結(jié)果。最后,在Hadoop平臺(tái)上對(duì)真實(shí)數(shù)據(jù)集和隨機(jī)產(chǎn)生的數(shù)據(jù)進(jìn)行了多組對(duì)比試驗(yàn),得到了具有更好的有效性和高效性的電力大數(shù)據(jù)處理方案。
數(shù)據(jù)處理的首要問(wèn)題是知識(shí)的表達(dá)。為了便于數(shù)據(jù)的集成處理,提高數(shù)據(jù)預(yù)處理的效率,本文采用列聯(lián)表對(duì)電力大數(shù)據(jù)屬性進(jìn)行形式化定義,每組數(shù)據(jù)的屬性形式化定義如式(1)。
根據(jù)上述定義,電力大數(shù)據(jù)集可以表示為屬性域中元素個(gè)數(shù)為的關(guān)系列表,即電力大數(shù)據(jù)集中有個(gè)屬性值,對(duì)于其中的第個(gè)屬性值有,值域?yàn)?,中的值的集合可以表示為,其中表示在中的?shù)量。假設(shè)為數(shù)據(jù)集中的任一連續(xù)屬性,且在每一個(gè)連續(xù)屬性上都存在一種離散化方案,將閾值為的屬性域集合劃分為個(gè)交集為零的區(qū)間,,其中屬性的值域,方案R中的值按順序排列并組成相應(yīng)的斷點(diǎn)集。由于斷點(diǎn)集與所提出的離散化方案相對(duì)應(yīng),因此可以采用兩者中的任意一種對(duì)屬性離散化進(jìn)行表述。根據(jù)以上定義可以建立某種屬性對(duì)應(yīng)的離散化方案D的對(duì)應(yīng)表,如表1所示。
表1 某種屬性a對(duì)應(yīng)的離散化方案D的對(duì)應(yīng)表
從上述定義可以看出,本文提出的離散化算法對(duì)電力大數(shù)據(jù)集進(jìn)行實(shí)體識(shí)別[7-8],實(shí)質(zhì)上是通過(guò)選取適當(dāng)?shù)拈g斷區(qū)間對(duì)數(shù)據(jù)的屬性集進(jìn)行劃分。這樣可以避免傳統(tǒng)數(shù)據(jù)實(shí)體識(shí)別方法通常采用的針對(duì)單一實(shí)體模式特征或者基于單一類型實(shí)體屬性特征的方法對(duì)數(shù)據(jù)間的關(guān)聯(lián)性進(jìn)行衡量時(shí),難以對(duì)兩者進(jìn)行有效地整合的問(wèn)題。下面給出一種Hadoop平臺(tái)上一種基于信息準(zhǔn)確率的大數(shù)據(jù)實(shí)體識(shí)別算法。
傳統(tǒng)的屬性離散化算法主要用于知識(shí)發(fā)現(xiàn)以及知識(shí)決策等領(lǐng)域,檢驗(yàn)離散化效果優(yōu)劣的指標(biāo)主要由信息熵來(lái)表現(xiàn)。信息熵作為用于度量信息量的概念,可以更為細(xì)致地對(duì)離散化區(qū)間進(jìn)行劃分,并使離散化后的區(qū)間上的信息更加明確。但是基于信息熵的評(píng)價(jià)指標(biāo)的弊端在于,雖然分類的信息量所包含的內(nèi)容越來(lái)越多,但是由于離散區(qū)間的劃分過(guò)于細(xì)致,會(huì)導(dǎo)致計(jì)算過(guò)程中產(chǎn)生的內(nèi)存過(guò)大,對(duì)算法的效率和硬件的消耗均有影響,并且不利于后續(xù)數(shù)據(jù)的處理[9]。因此,本文在信息論的基礎(chǔ)上,針對(duì)電力大數(shù)據(jù)屬性提出了一種基于信息準(zhǔn)確率的大數(shù)據(jù)實(shí)體識(shí)別算法ERBIA,并提出了一種新的離散化評(píng)價(jià)指標(biāo)使算法的效率得到提高。
2.1 電力大數(shù)據(jù)的來(lái)源及特點(diǎn)
電力系統(tǒng)不斷運(yùn)行的過(guò)程中所產(chǎn)生的數(shù)據(jù)也具有大數(shù)據(jù)的典型特征。電力系統(tǒng)大數(shù)據(jù)地理位置分布廣、通信調(diào)度高度可靠、實(shí)時(shí)運(yùn)行從不停止的特點(diǎn)決定了電力系統(tǒng)運(yùn)行時(shí)產(chǎn)生的數(shù)據(jù)數(shù)量龐大、增長(zhǎng)快速、類型豐富,完全符合大數(shù)據(jù)的描述特征,是典型的大數(shù)據(jù)。因此在電力系統(tǒng)數(shù)據(jù)高速增長(zhǎng)的形勢(shì)下,傳統(tǒng)的數(shù)據(jù)處理技術(shù)不能滿足從海量電力數(shù)據(jù)中快速獲取知識(shí)與信息的要求,大數(shù)據(jù)技術(shù)在電力行業(yè)中的應(yīng)用是電力行業(yè)信息化、智能化發(fā)展的必然要求[10]。
由于智能電網(wǎng)的不斷深入推進(jìn),電力系統(tǒng)的數(shù)字化、信息化帶來(lái)了更多的數(shù)據(jù)源,例如智能電表收集到的家庭和企業(yè)終端用電數(shù)據(jù),電力設(shè)備狀態(tài)監(jiān)測(cè)系統(tǒng)從數(shù)以萬(wàn)計(jì)的變壓器、發(fā)電機(jī)、開(kāi)關(guān)設(shè)備、高壓電纜等設(shè)備中獲取的不斷累積的監(jiān)測(cè)數(shù)據(jù),光伏和風(fēng)電功率預(yù)測(cè)過(guò)程中所需的大量歷史運(yùn)行數(shù)據(jù)等。這些運(yùn)行數(shù)據(jù)會(huì)有若干種屬性,然而在監(jiān)測(cè)機(jī)器是否正常運(yùn)行時(shí)無(wú)關(guān)屬性過(guò)多會(huì)導(dǎo)致決策時(shí)的效率低下。因此,將若干相似屬性進(jìn)行離散化處理可以簡(jiǎn)化決策過(guò)程,提高決策效率。電力大數(shù)據(jù)屬性離散劃分點(diǎn)的選取就成為提高離散化算法處理效率需要處理的首要問(wèn)題。
2.2 信息準(zhǔn)確率定義
電力大數(shù)據(jù)屬性離散化的本質(zhì)是在屬性的值域范圍內(nèi)設(shè)置離散劃分點(diǎn),將屬性的值域劃分為區(qū)間,最后用整數(shù)值點(diǎn)代表每種劃分的屬性值[11]。因此首先要對(duì)劃分點(diǎn)的選取進(jìn)行研究。在本文中將劃分點(diǎn)選取的標(biāo)準(zhǔn)定義為信息準(zhǔn)確率,假設(shè)存在信息表,存在屬性的信息準(zhǔn)確率,則表示決策系統(tǒng)中屬性的信息準(zhǔn)確率,表示當(dāng)屬性取值為時(shí)的值,即決策屬性可能取到的數(shù)目值。從定義可以看出,當(dāng)?shù)闹翟酱螅f(shuō)明屬性在離散化點(diǎn)的選取中越準(zhǔn)確。在文獻(xiàn)[10]中已經(jīng)得到證明,屬性的重要程度之間在概率統(tǒng)計(jì)上是相互獨(dú)立的,則信息表離散點(diǎn)總準(zhǔn)確率可以定義為,其中當(dāng)數(shù)據(jù)量趨于無(wú)限大時(shí),可以認(rèn)為各個(gè)相等,將其標(biāo)記為,則有,可得。
2.3 改進(jìn)的離散化評(píng)價(jià)指標(biāo)
在確定了信息準(zhǔn)確率的定義之后,本文提出了一種改進(jìn)的基于信息熵的離散化評(píng)價(jià)指標(biāo),用來(lái)度量電力大數(shù)據(jù)中某種屬性所對(duì)應(yīng)的離散化方案的離散效果。傳統(tǒng)的信息熵定義表示如下。
對(duì)所提出的改進(jìn)的離散化評(píng)價(jià)指標(biāo)定義如下:
2.4 算法描述
算法:一種基于信息準(zhǔn)確率的電力大數(shù)據(jù)實(shí)體識(shí)別算法。
Step1:通過(guò)聚類生成需要進(jìn)行電力大數(shù)據(jù)預(yù)處理的初始離散點(diǎn)集合;
Step5:設(shè)定劃分區(qū)間數(shù)目初始值為1;
Step8:將評(píng)價(jià)后的結(jié)果用數(shù)字進(jìn)行編碼表示,得到?jīng)Q策結(jié)果。
為了驗(yàn)證本文提出的基于信息準(zhǔn)確率的大數(shù)據(jù)實(shí)體識(shí)別算法的有效性,本文以遼寧某風(fēng)電公司并網(wǎng)風(fēng)電機(jī)組在線監(jiān)測(cè)數(shù)據(jù)為例,從算法的正確性、斷點(diǎn)數(shù)目分析以及加速比為例進(jìn)行分析[12]。
3.1 正確性
本文選取2013年12月遼寧某風(fēng)電公司風(fēng)電機(jī)組部分運(yùn)行監(jiān)測(cè)數(shù)據(jù),選取數(shù)據(jù)中的幾種運(yùn)行參數(shù)作為類別屬性,以離散效果作為決策條件,選取風(fēng)電機(jī)組的6種不同溫度作為輸入數(shù)據(jù),分別為NCC300溫度,NCC320溫度,機(jī)側(cè)半導(dǎo)體溫度,環(huán)境溫度,網(wǎng)側(cè)半導(dǎo)體溫度和齒輪箱軸承溫度。為了方便表示,本文將決策結(jié)果用三種編碼表示,分別是用00表示正常,用10表示合格,用11表示不合格。表2是從監(jiān)測(cè)數(shù)據(jù)中截取的部分屬性的數(shù)值(單位為攝氏溫度)。
表2 部分監(jiān)測(cè)數(shù)據(jù)屬性值
在Eclipse環(huán)境下采用ERBIA算法對(duì)上述屬性進(jìn)行離散化后的數(shù)據(jù)如表3所示。
可以看出,本文提出的ERBIA算法與常規(guī)算法所得出的計(jì)算結(jié)果具有一致性,而常規(guī)算法采用的整體計(jì)算均值的算法會(huì)使個(gè)別屬性的評(píng)判具有較大偏差,使得決策結(jié)果與實(shí)際運(yùn)行情況偏差較大。
表3 經(jīng)過(guò)ERBIA算法離散化后部分監(jiān)測(cè)數(shù)據(jù)屬性值
3.2 斷點(diǎn)數(shù)目分析
對(duì)數(shù)據(jù)屬性進(jìn)行離散化的目標(biāo)就是在保持原數(shù)據(jù)信息的前提下簡(jiǎn)化斷點(diǎn)區(qū)間數(shù),斷點(diǎn)數(shù)目越少,說(shuō)明算法對(duì)數(shù)據(jù)類別信息的完整性保持的越好。在電力系統(tǒng)大數(shù)據(jù)中,斷點(diǎn)數(shù)目越少說(shuō)明需要合并的數(shù)據(jù)屬性越少,對(duì)原數(shù)據(jù)的破壞性越小。對(duì)于上述實(shí)驗(yàn)數(shù)據(jù)使用CAIM算法進(jìn)行離散化處理,CAIM算法是一種全局靜態(tài)的、自上而下的有監(jiān)督離散化算法,該算法的優(yōu)點(diǎn)是以實(shí)現(xiàn)屬性相關(guān)度最大化和最少斷點(diǎn)數(shù)為目標(biāo),因此將本文提出的ERBIA算法與CAIM算法在斷點(diǎn)數(shù)目方面進(jìn)行比較。表4是兩種離散化算法在斷點(diǎn)數(shù)目方面的比較。由表4可以看出,ERBIA算法的斷點(diǎn)數(shù)顯著減少。
表4 兩種算法在斷點(diǎn)數(shù)目方面的比較
3.3 加速比
本實(shí)驗(yàn)采用兩臺(tái)DELL PowerEdge R720服務(wù)器。在每臺(tái)服務(wù)器上安裝VMware ESXI 5.5虛擬機(jī)軟件。此外,本實(shí)驗(yàn)JDK采用JDK1.6版本,程序集成開(kāi)發(fā)環(huán)境采用Eclipse-SDK-4.2.2,Hadoop版本是2.4.0。
加速比定義為同一個(gè)任務(wù)在單處理器系統(tǒng)和并行處理器系統(tǒng)中運(yùn)行時(shí)間的比率,用來(lái)衡量程序并行化的性能和效果,加速比也可以定義為在單機(jī)中運(yùn)行的時(shí)間與在集群中運(yùn)行的時(shí)間的比率。本文提供的測(cè)試數(shù)據(jù)集為某風(fēng)電機(jī)組的運(yùn)行監(jiān)測(cè)數(shù)據(jù),其中包含若干監(jiān)測(cè)屬性,數(shù)據(jù)大小為2 G,分別在節(jié)點(diǎn)數(shù)為2, 4, 6, 8的不同集群上進(jìn)行加速比試驗(yàn),得到的實(shí)驗(yàn)數(shù)據(jù)如表5所示。
表5 不同節(jié)點(diǎn)集群的加速比
本文對(duì)數(shù)據(jù)進(jìn)行加速比測(cè)試的主要目的是證明ERBIA算法在大數(shù)據(jù)并行處理環(huán)境下有較好的表現(xiàn)。從實(shí)驗(yàn)結(jié)果可以看出,隨著節(jié)點(diǎn)數(shù)目的增加,算法運(yùn)行時(shí)間明顯減少,算法的運(yùn)算速度得到提高,本文提出的算法獲得了良好的加速比。
傳統(tǒng)的實(shí)體識(shí)別算法只能對(duì)簡(jiǎn)單的命名等關(guān)系進(jìn)行識(shí)別,而隨著電力大數(shù)據(jù)時(shí)代的來(lái)臨,對(duì)電力大數(shù)據(jù)中關(guān)系復(fù)雜的數(shù)據(jù)屬性進(jìn)行實(shí)體識(shí)別的問(wèn)題已經(jīng)迫在眉睫[13-15]。本文提出的ERBIA算法,針對(duì)現(xiàn)有實(shí)體識(shí)別算法的不足,利用離散化方法的優(yōu)點(diǎn),提出了一種基于信息準(zhǔn)確率的離散化方案,并提出了一種改進(jìn)的離散評(píng)價(jià)指標(biāo)對(duì)算法進(jìn)行評(píng)價(jià),最后在Hadoop集群上進(jìn)行了實(shí)驗(yàn)。實(shí)驗(yàn)證明了本文算法的正確性以及在離散斷點(diǎn)數(shù)目和加速比方面的優(yōu)勢(shì)。下一步的工作重點(diǎn)是研究對(duì)大數(shù)據(jù)集冗余和相關(guān)分析的問(wèn)題[16],以便更好地對(duì)大數(shù)據(jù)集進(jìn)行預(yù)處理,從而為電網(wǎng)中的最終決策提供支持。
[1] 李明達(dá), 王宏志, 張佳程, 等. PEIF: 基于并行機(jī)群的大數(shù)據(jù)實(shí)體識(shí)別算法[J]. 計(jì)算機(jī)研究與發(fā)展, 2013, 50(增刊1): 211-220.
LI Mingda, WANG Hongzhi, ZHANG Jiacheng, et al. PEIF: parallel entity resolution on big data[J]. Journal of Computer Research and Development, 2013, 50(S1): 211-220.
[2] 寇月, 申德榮, 劉恒, 等. 異構(gòu)網(wǎng)絡(luò)中關(guān)聯(lián)實(shí)體識(shí)別模型及增量式驗(yàn)證算法研究[J]. 計(jì)算機(jī)學(xué)報(bào), 2013, 36(10): 2096-2108.
KOU Yue, SHEN Derong, LIU Heng, et al. Research on related entity identification model and incremental verification algorithm for heterogeneous networks[J]. Chinese Journal of Computers, 2013, 36(10): 2096-2108.
[3] 覃雄派, 王會(huì)舉, 杜小勇, 等. 大數(shù)據(jù)分析——RDBMS與MapReduce的競(jìng)爭(zhēng)與共生[J]. 軟件學(xué)報(bào), 2012, 23(1): 32-45.
QIN Xiongpai, WANG Huiju, DU Xiaoyuan, et al. Big data analysis-competition and symbiosis of RDBMs and Mapreduce[J]. Journal of Software, 2012, 23(1): 32-45.
[4] 李玲娟, 張敏. 云計(jì)算環(huán)境下關(guān)聯(lián)規(guī)則挖掘算法的研究[J]. 計(jì)算機(jī)技術(shù)與發(fā)展, 2011, 21(2): 43-46, 50.
LI Lingjuan, ZHANG Min. Research on algorithm of mining association rule under cloud computing environment[J]. Computer Technology and Development, 2011, 21(2): 43-46, 50.
[5] LI L, WANG H, GAO H, et al. EIF: a framework of effective entity identification[J]. Lecture Notes in Computer Science, 2010: 717-728.
[6] 曲朝陽(yáng), 朱莉, 張士林. 基于Hadoop的廣域測(cè)量系統(tǒng)數(shù)據(jù)處理[J]. 電力系統(tǒng)自動(dòng)化, 2013, 37(4): 92-97.
QU Zhaoyang, ZHU Li, ZHANG Shilin. Data processing of Hadoop-based wide area measurement system[J]. Automation of Electric Power Systems, 2013, 37(4): 92-97.
[7] 王宏志, 樊文飛. 復(fù)雜數(shù)據(jù)上的實(shí)體識(shí)別技術(shù)研究[J]. 計(jì)算機(jī)學(xué)報(bào), 2011, 34(10): 1843-1852.
WANG Hongzhi, FAN Wenfei. Object identification on complex data: a survey[J]. Chinese Journal of Computers, 2011, 34(10): 1843-1852.
[8] 董雷, 張昭, 蒲天驕, 等. 基于PMU量測(cè)信息的電壓穩(wěn)定在線評(píng)估指標(biāo)[J]. 電力系統(tǒng)保護(hù)與控制, 2015, 43(11): 1-6.
DONG Lei, ZHANG Zhao, PU Tianjiao, et al. An online voltage stability index based on measuring information of phasor measurement unit[J]. Power System Protection and Control, 2015, 43(11): 1-6.
[9] 周國(guó)亮, 朱永利, 王桂蘭, 等. 實(shí)時(shí)大數(shù)據(jù)處理技術(shù)在狀態(tài)監(jiān)測(cè)領(lǐng)域中的應(yīng)用[J]. 電工技術(shù)學(xué)報(bào), 2014, 29(增刊1): 432-437.
ZHOU Guoliang, ZHU Yongli, WANG Guilan, et al. Real-time big data processing technology application in the field of state monitoring[J]. Transactions of China Electrotechnical Society, 2014, 29(S1): 432-437.
[10] 孫英娟. 基于粗糙集的分類方法研究[D]. 長(zhǎng)春: 吉林大學(xué), 2011.
SUN Yingjuan. Research on classification methods based on rough set[D]. Changchun: Jilin University, 2011.
[11] 曲朝陽(yáng), 陳帥, 楊帆, 等. 基于云計(jì)算技術(shù)的電力大數(shù)據(jù)預(yù)處理屬性約簡(jiǎn)方法[J]. 電力系統(tǒng)自動(dòng)化, 2014, 38(8): 67-71.
QU Zhaoyang, CHEN Shuai, YANG Fan, et al. An attribute reducing method for electric power big data processing based on cloud computing technology[J]. Automation of Electric Power Systems, 2014, 38(8): 67-71.
[12] 李輝, 胡姚剛, 唐顯虎, 等. 并網(wǎng)風(fēng)電機(jī)組在線運(yùn)行狀態(tài)評(píng)估方法[J]. 中國(guó)電機(jī)工程學(xué)報(bào), 2010, 30(33): 103-109.
LI Hui, HU Yaogang, TANG Xianhu, et al. Method for on-line operating conditions assessment for a grid-connected wind turbine generator system[J]. Proceedings of the CSEE, 2010, 30(33): 103-109.
[13] 李俊剛, 張愛(ài)民, 張杭, 等. 廣域保護(hù)系統(tǒng)數(shù)據(jù)網(wǎng)絡(luò)可靠性評(píng)估[J]. 電工技術(shù)學(xué)報(bào), 2015, 30(12): 344-350.
LI Jungang, ZHANG Aimin, ZHANG Hang, et al. Reliability evaluation of the wide area protect system[J]. Transactions of China Electrotechnical Society, 2014, 2015, 30(12): 344-350.
[14] 劉巍, 黃曌, 李鵬, 等. 面向智能配電網(wǎng)的大數(shù)據(jù)統(tǒng)一支撐平臺(tái)體系與構(gòu)架[J]. 電工技術(shù)學(xué)報(bào), 2014, 29(增刊1): 486-491.
LIU Wei, HUANG Zhao, LI Peng, et al. Summary about system and framework of unified supporting platform of big data for smart distribution grid[J]. Transactions of China Electrotechnical Society, 2014, 29(S1): 486-491.
[15]王茂海, 趙玉江, 齊霞, 等. 電網(wǎng)實(shí)際運(yùn)行環(huán)境中相量測(cè)量裝置性能在線評(píng)價(jià)方法[J]. 電力系統(tǒng)保護(hù)與控制, 2015, 43(6): 86-92.
WANG Maohai, ZHAO Yujiang, QI Xia, et al. Proposal of index for PMU field performance evaluation in actual operating environment[J]. Power System Protection and Control, 2015, 43(6): 86-92.
[16] 金小明, 吳鴻亮, 周保榮, 等. 電網(wǎng)規(guī)劃運(yùn)行數(shù)據(jù)庫(kù)與集成管理平臺(tái)的設(shè)計(jì)與實(shí)現(xiàn)[J]. 電力系統(tǒng)保護(hù)與控制, 2015, 43(15): 126-131.
JIN Xiaoming, WU Hongliang, ZHOU Baorong, et al. Design and implementation of integrated database management platform for power grid planning and operation[J]. Power System Protection and Control, 2015, 43(15): 126-131.
(編輯 魏小麗)
A kind of attribute entity recognition algorithm based on Hadoop for power big data
QI Jun1, QU Zhaoyang1, LOU Jianlou1, WANG Chong2
(1. School of Information Science and Engineering, Northeast Dianli University, Jilin 132012, China; 2. Information & Telecommunication Branch Company, State Grid East Inner Mongolia Electric Power Co., Ltd., Hohhot 010020, China)
With the coming of the era of big data, traditional entity recognition technologies have been unable to effectively finish data pre-processing because of the large scale of power grid data and volume complex type features. The rising of the Hadoop technologies in these years can deal with the big data processing better. Therefore this paper proposes a power big data entity recognition algorithm based on Hadoop. This algorithm uses the discretization algorithm to select higher information accuracy discrete points and puts forward a discretization evaluation indicator. In the end, the entity recognition of the monitoring data of wind turbines is finished on Hadoop platform. Experimental results show that the proposed algorithm performs well in terms of correctness and breakpoint number experiments and it has a good speed-up ratio. The proposed algorithm can be applied to power large data entity recognition processing. This work is supported by National Natural Science Foundation of China (No. 51277023).
power big data; entity recognition algorithm; discretization; information accuracy
10.7667/PSPC152053
國(guó)家自然科學(xué)基金資助項(xiàng)目(51277023);吉林省科技廳社發(fā)處重點(diǎn)科技攻關(guān)項(xiàng)目(20150204084GX)
2015-11-25;
2016-01-19
齊 俊(1989-),男,通信作者,碩士研究生,研究方向?yàn)橹悄茈娋W(wǎng)信息工程;E-mail: qij0427@163.com 曲朝陽(yáng)(1964-),男,博士,教授,主要研究方向?yàn)殡娏π畔⒒?、?jì)算機(jī)網(wǎng)絡(luò)技術(shù); 婁建樓(1972-),男,副教授,碩導(dǎo),主要研究方向?yàn)樵朴?jì)算、物聯(lián)網(wǎng)應(yīng)用、大數(shù)據(jù)處理等。