林耀
摘 要:本文通過(guò)兩部分對(duì)用電信息采集的非結(jié)構(gòu)化數(shù)據(jù)的管理工作進(jìn)行了詳細(xì)的說(shuō)明,首先對(duì)非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行了概述;之后重點(diǎn)介紹了其系統(tǒng)結(jié)構(gòu)的內(nèi)容。
關(guān)鍵詞:用電信息采集系統(tǒng) 非結(jié)構(gòu)化數(shù)據(jù) 結(jié)構(gòu)化數(shù)據(jù)
一、用電信息采集系統(tǒng)非結(jié)構(gòu)化數(shù)據(jù)的概述
全覆蓋與全采集的用電信息采集系統(tǒng)廣泛運(yùn)用于國(guó)家電網(wǎng)中,在一定程度上提升了國(guó)網(wǎng)公司的電力營(yíng)銷服務(wù)能力,同時(shí)提升了國(guó)家電網(wǎng)的企業(yè)形象。然而,當(dāng)前所采集的信息與數(shù)據(jù),呈現(xiàn)數(shù)據(jù)分散以及利用效率較低等特點(diǎn)。而且,電力營(yíng)銷服務(wù)工作,不但要求擁有結(jié)構(gòu)化的數(shù)據(jù),同時(shí)也要求以文本與視頻等非結(jié)構(gòu)化數(shù)據(jù)作為支撐。因此,相關(guān)的工作人員需要重點(diǎn)管理用電信息采集系統(tǒng)非結(jié)構(gòu)化數(shù)據(jù)。
用電信息采集系統(tǒng)主要由三部分構(gòu)成:主站、通信信道以及采集設(shè)備。用電信息系統(tǒng)能夠?qū)τ脩粜畔⑦M(jìn)行及時(shí)的采集與處理,從而準(zhǔn)確地了解用戶的用電狀況,及時(shí)發(fā)現(xiàn)是否存在異常狀況。電子信息技術(shù)的進(jìn)步,在一定程度上推動(dòng)了電網(wǎng)信息化程度,使得用電信息采集系統(tǒng)需要采集傳統(tǒng)結(jié)構(gòu)化數(shù)據(jù)以及非結(jié)構(gòu)化數(shù)據(jù)。當(dāng)前,電力領(lǐng)域的研究人員開(kāi)始研究基于大數(shù)據(jù)信息技術(shù)的用電信息采集系統(tǒng)的應(yīng)用問(wèn)題。只是運(yùn)用結(jié)構(gòu)化數(shù)據(jù)對(duì)用戶的用電特點(diǎn)進(jìn)行分析,則無(wú)法滿足電力營(yíng)銷服務(wù)的高級(jí)應(yīng)用內(nèi)容。因此,必須做好電力用戶的非結(jié)構(gòu)數(shù)據(jù)的采集以及管理工作,從而更好地滿足電力營(yíng)銷服務(wù)。研究人員將用戶類型分為A-E五個(gè)分類,這些用戶的非結(jié)構(gòu)數(shù)據(jù)是電力營(yíng)銷服務(wù)的重要支撐數(shù)據(jù)。同時(shí),根據(jù)數(shù)據(jù)對(duì)用電預(yù)測(cè)狀況以及故障預(yù)判趨勢(shì)的重要程度,分為基礎(chǔ)類、普通類、專用類以及特殊類。具體分類以及介紹如圖1所示。
但是,國(guó)內(nèi)的非結(jié)構(gòu)化數(shù)據(jù)的研究進(jìn)度比較慢,同時(shí)其專業(yè)信息技術(shù)還有待完善。與此同時(shí),存儲(chǔ)物理設(shè)備的容量以及兼容性等問(wèn)題。所以,必須對(duì)用電信息采集系統(tǒng)的非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行科學(xué)合理的管理和設(shè)計(jì)。
二、用電信息采集系統(tǒng)的系統(tǒng)架構(gòu)
非結(jié)構(gòu)化數(shù)據(jù)的用戶擁有不同的類型,同時(shí)數(shù)據(jù)分類和大小也有所差異,從而無(wú)法從數(shù)據(jù)分析中提煉有價(jià)值的研究?jī)?nèi)容。然而,這些非結(jié)構(gòu)化數(shù)據(jù)擁有大數(shù)據(jù)的主要特征,所以擁有較大的研究作用。運(yùn)用非結(jié)構(gòu)化數(shù)據(jù)對(duì)電力用戶的用電信息進(jìn)行分析與預(yù)測(cè),能夠在很大程度上拓展電力營(yíng)銷業(yè)務(wù)的范圍。
通過(guò)數(shù)據(jù)采集、存儲(chǔ)以及挖掘三方面對(duì)非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行管理。首先,數(shù)據(jù)采集主要感知和采集前端的相關(guān)數(shù)據(jù);而數(shù)據(jù)存儲(chǔ)主要是將非結(jié)構(gòu)化數(shù)據(jù)實(shí)施結(jié)構(gòu)化存儲(chǔ);最后數(shù)據(jù)挖掘主要是運(yùn)用這些非結(jié)構(gòu)化數(shù)據(jù)的過(guò)程。具體的非結(jié)構(gòu)化數(shù)據(jù)管理過(guò)程如圖2所示。
1.非結(jié)構(gòu)化數(shù)據(jù)管理的數(shù)據(jù)采集。電力用戶的數(shù)據(jù)信息經(jīng)過(guò)采集之后,將信息傳送到數(shù)據(jù)中心。其中,將這些非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行分類,根據(jù)來(lái)源的不同主要分為采集終端、系統(tǒng)平臺(tái)以及用戶側(cè)三類。采集終端能夠采集結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù),能夠?qū)崟r(shí)采集與上傳信息。系統(tǒng)平臺(tái)是用電營(yíng)銷業(yè)務(wù)工作過(guò)程中,所建立的客服以及收費(fèi)等功能系統(tǒng)。用戶側(cè)主要是用戶為了滿足自我信息查詢與追蹤所運(yùn)用的信息渠道。
2.非結(jié)構(gòu)化數(shù)據(jù)管理的數(shù)據(jù)存儲(chǔ)。多樣化的非結(jié)構(gòu)化數(shù)據(jù),使得數(shù)據(jù)的存儲(chǔ)與挖掘存在一些不方便。比如:非結(jié)構(gòu)化數(shù)據(jù)的保存格式不同,使得存儲(chǔ)的空間范圍以及內(nèi)存劃分尺度不同;同時(shí)盡管數(shù)據(jù)格式相同,然而不同的用戶數(shù)據(jù)的容量與屬性也不相同。所以,需要運(yùn)用Hadoop的分布式架構(gòu),實(shí)施主從式的虛擬化;之后實(shí)施數(shù)據(jù)的預(yù)處理工作;最終運(yùn)用Hadoop信息技術(shù)實(shí)施數(shù)據(jù)的存儲(chǔ)管理。
Hadoop信息技術(shù)主要由三部分組成:Hadoop Common、HDFS以及MapReduce。其中HDFS屬于Hadoop的重要內(nèi)容之一。同時(shí),HDFS主要是針對(duì)大數(shù)據(jù)實(shí)施存儲(chǔ)以及管理的文件系統(tǒng),該系統(tǒng)能夠較好地實(shí)施非結(jié)構(gòu)化數(shù)據(jù)的管理工作。HDFS的主要組件以及功能介紹如表1所示。
MapReduce也屬于Hadoop的重要內(nèi)容之一,同時(shí)該數(shù)據(jù)庫(kù)主要針對(duì)大規(guī)模的PB級(jí)別的數(shù)據(jù)實(shí)施計(jì)算管理。MapReduce區(qū)別于傳統(tǒng)關(guān)系型的數(shù)據(jù)庫(kù)來(lái)說(shuō),擁有很多優(yōu)點(diǎn),比如:MapReduce可以處理的數(shù)據(jù)規(guī)模較大,同時(shí)數(shù)據(jù)更新速度也比較快。MapReduce與傳統(tǒng)關(guān)系型數(shù)據(jù)對(duì)比來(lái)說(shuō),其具體的特點(diǎn)說(shuō)明如表2所示。
3.非結(jié)構(gòu)化數(shù)據(jù)管理的數(shù)據(jù)挖掘。非結(jié)構(gòu)化數(shù)據(jù)的類型較多,同時(shí)這些數(shù)據(jù)之間擁有較大的差異,所以運(yùn)用不同的數(shù)據(jù)挖掘方法。對(duì)于文本數(shù)據(jù)來(lái)說(shuō),可以根據(jù)文本的分類或者抽取特征項(xiàng)的方式,對(duì)數(shù)據(jù)進(jìn)行挖掘。同時(shí),對(duì)視頻數(shù)據(jù)可以運(yùn)用對(duì)象識(shí)別以及模型庫(kù)比對(duì)等方式進(jìn)行數(shù)據(jù)挖掘;而音頻數(shù)據(jù)的挖掘,一半運(yùn)用相關(guān)性分組以及可視化等技術(shù)進(jìn)行數(shù)據(jù)挖掘。
總 結(jié)
用電信息系統(tǒng)采集的非結(jié)構(gòu)化數(shù)據(jù)擁有一定的隱私性,同時(shí)也擁有較強(qiáng)的實(shí)用性。因此,對(duì)這些非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行管理設(shè)計(jì),成為了相關(guān)研究人員的重點(diǎn)研究課題。運(yùn)用相應(yīng)的專業(yè)技術(shù),對(duì)非結(jié)構(gòu)數(shù)據(jù)進(jìn)行采集、存儲(chǔ)以及挖掘,同時(shí)根據(jù)所挖掘的信息與數(shù)據(jù)更好地管理電力工作。
參考文獻(xiàn):
[1] 祝恩國(guó),劉宣,葛磊蛟.用電信息采集系統(tǒng)非結(jié)構(gòu)化數(shù)據(jù)管理設(shè)計(jì)[J].電力系統(tǒng)及其自動(dòng)化學(xué)報(bào),2016,(10).