• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    利用大數(shù)據(jù)技術(shù)提升電力客戶檔案資源管理和服務(wù)能力

    2022-07-20 03:13:14陳明劉睿李樂李銳鋒曾琴李玉婷
    電力大數(shù)據(jù) 2022年2期
    關(guān)鍵詞:字段決策樹分類器

    (陳明,劉睿,李樂,李銳鋒,曾琴,李玉婷)

    (1.國網(wǎng)甘肅省電力公司酒泉供電公司,甘肅 酒泉 735000;2.成都科普威信息技術(shù)有限責(zé)任公司,四川 成都 610042)

    電力行業(yè)大數(shù)據(jù)具有體量大、速率高、類型多、真實(shí)性要求高、價(jià)值高的特點(diǎn)[1],智能電網(wǎng)大數(shù)據(jù)技術(shù)的應(yīng)用,使得電力系統(tǒng)運(yùn)行更加高效和安全[2-5],電力市場是信息流、業(yè)務(wù)流、數(shù)據(jù)流高度融合的體現(xiàn),分析電力市場用戶大數(shù)據(jù),提供精準(zhǔn)用戶服務(wù)、金融服務(wù)、地區(qū)E-GDP值預(yù)測等新思路[6-9],電力客戶檔案管理具有提供用戶滿意度、提升工作效率的重要意義[10],當(dāng)前供電公司客戶基礎(chǔ)檔案雜亂,客戶檔案信息依靠人工經(jīng)驗(yàn)判斷填報(bào),易出錯(cuò)、效率低,電力營銷系統(tǒng)臺賬信息更新不及時(shí),導(dǎo)致部分用戶檔案與實(shí)際不符,從而影響計(jì)量裝置管理配置、電費(fèi)電價(jià)核算、線損考核、線損分析等一系列問題[11]。隨著大數(shù)據(jù)技術(shù)的成熟發(fā)展,客戶檔案管理研究已從簡單的信息化管理提升為信息數(shù)字化、信息安全等角度提升檔案管理能力[12-15],從電費(fèi)的角度切入,與其他業(yè)務(wù)關(guān)系的深度挖掘,探索業(yè)擴(kuò)報(bào)裝、電費(fèi)核抄、檔案管理的應(yīng)用效果[16];基于數(shù)據(jù)驅(qū)動(dòng)的臺區(qū)戶-變關(guān)系核查的方法,給出疑似檔案錯(cuò)誤的用戶合集,提高了工作效率[17],應(yīng)用大數(shù)據(jù)挖掘及Bootstrap重采樣技術(shù)對客戶群體細(xì)分,了解客戶機(jī)器購買力行為,為服務(wù)決策提供有力的支撐[18]。

    綜合已有研究,本文提出應(yīng)用大數(shù)據(jù)分析技術(shù),對電力客戶檔案分類、建立關(guān)鍵詞關(guān)聯(lián)模型,一是為業(yè)務(wù)人員準(zhǔn)確填報(bào)客戶檔案數(shù)據(jù)提供參考,提高客戶檔案填報(bào)準(zhǔn)確率,二是反查營銷系統(tǒng)內(nèi)的客戶檔案,識別存在錯(cuò)誤的信息,提高檔案數(shù)據(jù)治理效率。

    1 數(shù)據(jù)挖掘過程

    1.1 數(shù)據(jù)準(zhǔn)備

    1.1.1 數(shù)據(jù)來源

    數(shù)據(jù)主要來源于國網(wǎng)某市級供電公司的SG186系統(tǒng)和用電信息采集系統(tǒng)內(nèi)所有數(shù)據(jù)。抽取基礎(chǔ)檔案字段包含但不限于供電容量、行業(yè)類別、計(jì)量方式、電價(jià)碼、功率因素、峰谷執(zhí)行標(biāo)志信息,在數(shù)據(jù)數(shù)量上客戶基礎(chǔ)信息數(shù)據(jù)將抽取系統(tǒng)所有高壓用戶和低壓非居用戶數(shù)據(jù),涉及反查的客戶電量及用電金額信息將抽取將近兩年數(shù)據(jù),按月度計(jì)算統(tǒng)計(jì),反查數(shù)據(jù)總量超過百萬。

    1.1.2 數(shù)據(jù)質(zhì)量

    初次抽取的數(shù)據(jù)中發(fā)現(xiàn)存在一些冗余和異常的情況,未達(dá)到利用大數(shù)據(jù)技術(shù)對數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析的質(zhì)量要求,需對數(shù)據(jù)進(jìn)行二次分析形成軟件數(shù)據(jù)圖譜[19]。對初次抽取的數(shù)據(jù)進(jìn)行基于Spark框架的大數(shù)據(jù)清洗模型分析后[20],整理出數(shù)據(jù)中唯一識別的字段分別為用戶編號、計(jì)量點(diǎn)編號、供電電源性質(zhì)三個(gè)字段,即通過用戶編號、計(jì)量點(diǎn)編號、供電電源性質(zhì)三個(gè)字段關(guān)聯(lián)規(guī)則進(jìn)行數(shù)據(jù)篩選去重的操作。同時(shí)整理出供電電壓、計(jì)量方式、行業(yè)類別、用電類別等所有抽取字段之間存在的相互影響的規(guī)則,在通過數(shù)據(jù)去重和字段規(guī)則關(guān)聯(lián)處理異常數(shù)據(jù)后,數(shù)據(jù)已基本滿足統(tǒng)計(jì)分析前數(shù)據(jù)預(yù)處理的質(zhì)量要求。

    1.1.3 數(shù)據(jù)預(yù)處理

    (1)數(shù)據(jù)清洗

    抽取的數(shù)據(jù)中,分為客戶基礎(chǔ)信息數(shù)據(jù)和客戶用電信息數(shù)據(jù)?;A(chǔ)信息包含客戶編號、戶名、用電地址等數(shù)據(jù),這類數(shù)據(jù)字段值屬于獨(dú)立形成,一般情況為固定值,極少變更;而客戶用電信息數(shù)據(jù)包含電壓等級、用電類別、計(jì)量方式、電價(jià)碼、計(jì)費(fèi)方式等數(shù)據(jù),這一類數(shù)據(jù)的字段值之間存在相互依賴、相互影響的關(guān)系。

    需要對抽取的數(shù)據(jù)的缺失值和異常值進(jìn)行處理,為此來保證計(jì)算分析的數(shù)據(jù)的準(zhǔn)確性。如果是基礎(chǔ)信息的缺失或異常,因基礎(chǔ)信息的獨(dú)立性,將很難對戶號、戶名、用電地址缺失值進(jìn)行填充,該條數(shù)據(jù)將只有作為異常數(shù)據(jù)丟棄。而用電信息數(shù)據(jù)字段之間存在直接或間接的相關(guān)性,通過找出字段值之間的關(guān)系便直接對缺失值和噪聲數(shù)據(jù)進(jìn)行填充和完善。

    (2)數(shù)據(jù)整合

    數(shù)據(jù)集成,即合并來自多個(gè)數(shù)據(jù)存儲的數(shù)據(jù)。目的在于減少數(shù)據(jù)結(jié)果集的冗余和不一致,有助于提高后期數(shù)據(jù)挖掘過程的準(zhǔn)確性和速度。

    在模型使用數(shù)據(jù)過程中,可將抽取的數(shù)據(jù)按照元組、屬性維度分為單一維度的基礎(chǔ)業(yè)務(wù)信息數(shù)據(jù)和以固定周期統(tǒng)計(jì)的特性反查用電數(shù)據(jù)。

    表1 基礎(chǔ)業(yè)務(wù)信息數(shù)據(jù)寬表Tab.1 Data wide table of basic business information

    表2 反查用電數(shù)據(jù)寬表Tab.2 Power consumption data width table for reverse check

    (3)數(shù)據(jù)轉(zhuǎn)換

    因數(shù)據(jù)規(guī)模大,字段值格式復(fù)雜,為保證在挖掘過程中的效率和挖掘結(jié)果的準(zhǔn)確性,對抽取的數(shù)據(jù)的字段值通過變換策略進(jìn)行必要的數(shù)據(jù)變換。如在抽取的基礎(chǔ)業(yè)務(wù)信息數(shù)據(jù)和特性反查用電數(shù)據(jù)表中,原始抽取的字段電壓等級的值為“交流10kV”、“交流20kV”、“交流35kV”等以文本、字母、數(shù)字結(jié)合的值類型,將字段值直接批量轉(zhuǎn)換為數(shù)字“10”、“20”、“35”來進(jìn)行計(jì)算分析,減少了在挖掘過程中因數(shù)值類型復(fù)雜帶來的高性能運(yùn)算負(fù)擔(dān),同時(shí)也減少了挖掘數(shù)據(jù)的耗時(shí)。

    2 多維統(tǒng)計(jì)分析

    從最終確定的字段形成的數(shù)據(jù)規(guī)模來看,僅高壓用戶累計(jì)5550戶,從2019年1月至2020年7月,電費(fèi)電量信息數(shù)據(jù)累計(jì)超過23萬余條。

    在基礎(chǔ)業(yè)務(wù)信息數(shù)據(jù)寬表和特性反查用電數(shù)據(jù)寬表抽取的數(shù)據(jù)中,確定抽取的所有字段兩兩之間、多字段間均存在相關(guān)性,且大部分字段都存在相互依存的關(guān)系,涵蓋單相關(guān)、復(fù)相關(guān)、偏相關(guān)復(fù)雜的相互依賴關(guān)系[21-22]。具體如流程如圖1所示。

    圖1 基礎(chǔ)業(yè)務(wù)信息字段關(guān)系圖Fig.1 Relationship diagram of basic business information fields

    兩兩之間相關(guān)聯(lián)的字段存在的關(guān)系成為單相關(guān)。由同一字段同時(shí)直接和間接影響同一字段的稱之為復(fù)相關(guān),兩個(gè)字段之間沒有明確直接相關(guān)聯(lián)的關(guān)系,但結(jié)果字段值卻受另一字段值影響的稱之為偏相關(guān)。

    在對數(shù)據(jù)的復(fù)相關(guān)性分析過程中,對有復(fù)相關(guān)性的字段進(jìn)行統(tǒng)一整理,有相關(guān)特征的字段包含計(jì)量方式、電流變比、綜合倍率、電壓變比、功率因素標(biāo)準(zhǔn),這些字段屬性值的結(jié)果會由兩個(gè)及以上的字段屬性值共同分析得到。

    偏相關(guān)分析是指當(dāng)兩個(gè)變量同時(shí)與第三個(gè)變量相關(guān)時(shí),將第三個(gè)變量的影響剔除,只分析另外兩個(gè)變量之間相關(guān)程度的過程,判定指標(biāo)是相關(guān)系數(shù)的R值。

    圖2 偏相關(guān)系數(shù)R值判定Fig.2 Determination of R value of partial correlation coefficient

    3 模型構(gòu)建

    客戶檔案異常數(shù)據(jù)分析業(yè)務(wù)包括業(yè)務(wù)規(guī)則反查模型和數(shù)據(jù)特性分析模型,分析數(shù)據(jù)庫中所有數(shù)據(jù);業(yè)務(wù)操作分析包括新增和變更業(yè)務(wù)智能分析模型,針對工作人員在相關(guān)業(yè)務(wù)辦理時(shí)對數(shù)據(jù)進(jìn)行分析的過程,其要求的實(shí)時(shí)性和準(zhǔn)確率極高,分析的數(shù)據(jù)量一般為單條數(shù)據(jù)。

    3.1 基于大數(shù)據(jù)的業(yè)務(wù)規(guī)則反查模型

    在業(yè)務(wù)規(guī)則反查模型中,整個(gè)模型訓(xùn)練的參數(shù)均按照樣本選擇后的算法和方法來進(jìn)行計(jì)算,首先AdaBoost分類器[23-24]將每一個(gè)字段的屬性值進(jìn)行AdaBoost分類器分析,找出各字段屬性值的占比及屬性值類型,對不適合用AdaBoost分類器的字段進(jìn)行篩選,用相應(yīng)的分析算法分析。

    將原始數(shù)據(jù)集選擇S次后得到S個(gè)新數(shù)據(jù)集,新數(shù)據(jù)集與原始數(shù)據(jù)集大小相等,每個(gè)數(shù)據(jù)集都是通過在原始數(shù)據(jù)集中隨機(jī)選擇一個(gè)樣本來替換得到的,這就意味著可以多次選擇同一個(gè)樣本。在S個(gè)數(shù)據(jù)集建好之后,將某個(gè)學(xué)習(xí)算法分別作用于每個(gè)數(shù)據(jù)集就得到了S個(gè)分類器,當(dāng)我們要對新數(shù)據(jù)分類時(shí),就可以用這S個(gè)分類器進(jìn)行分類,選擇分類器投票結(jié)果最多的類別作為最后分類結(jié)果。boosting通過集中關(guān)注被已有分類器錯(cuò)分的數(shù)據(jù)來獲得新的分類器,boosting給每個(gè)分類器的權(quán)重不相等,每個(gè)權(quán)重代表的是對應(yīng)的分類器在上一輪迭代中的成功度,分類結(jié)果是基于所有分類器的加權(quán)求和得到的。

    基本步驟。首先,有n個(gè)數(shù)據(jù),我們初始化每個(gè)數(shù)據(jù)的權(quán)重都是一樣的。

    (1)

    接下來,我們對每一個(gè)弱分類器(1,……,M)都進(jìn)行如下操作。

    1)訓(xùn)練一個(gè)弱分類器,使得其分類誤差最小,此時(shí)計(jì)算該分類器的誤差計(jì)算如下公式(2):

    ∈m=∑yi≠fm(x)·wm

    (2)

    這個(gè)公式的含義就是模型的誤差等于每一個(gè)錯(cuò)分的樣本權(quán)重之和。

    當(dāng)該模型是第一個(gè)弱分類器(即第一次迭代的時(shí)候),該公式中的含義就是計(jì)算當(dāng)前弱分類器分錯(cuò)的樣本個(gè)數(shù),除以總的樣本數(shù)量,得到該弱分類器的誤差(因?yàn)?,此時(shí)每個(gè)樣本的誤差都是1/n)。同時(shí)注意,在后面的迭代中,每個(gè)錯(cuò)分的樣本的權(quán)重是不同的,這里的m表示第m次迭代時(shí)候,該樣本的權(quán)重。

    2)根據(jù)當(dāng)前弱分類器的誤差,計(jì)算該分類器的權(quán)重:

    (3)

    該公式的含義就是,當(dāng)該弱分類器的準(zhǔn)確率(1-前面的誤差)大于0.5,那么這個(gè)權(quán)重就是正值(因?yàn)榇藭r(shí)εm< 0.5,那么對數(shù)內(nèi)部就是大于1,結(jié)果就是正數(shù)了);否則該權(quán)重為負(fù)值。也就是說,只要這個(gè)分類器的準(zhǔn)確率結(jié)果不是0.5(這個(gè)時(shí)候就相當(dāng)于隨機(jī)猜測了),它總會給最終的分類器提供一些信息。

    3)最后,我們根據(jù)模型權(quán)重更新數(shù)據(jù)的權(quán)重:

    (4)

    這里的Zm是正規(guī)化系數(shù),確保所有的數(shù)據(jù)權(quán)重總和為1。

    指數(shù)內(nèi)部-θmyifm(xi)這個(gè)乘積的含義是如果弱分類器m的分類結(jié)果和真實(shí)的結(jié)果一致,那么結(jié)果是-θm,是一個(gè)負(fù)值,那么exp[-θmyifm(xi)]結(jié)果小于1。也就是說該數(shù)據(jù)集的樣本權(quán)重降低,否則該數(shù)據(jù)樣本的權(quán)重增高。因此,通過這種計(jì)算就可以讓那些容易分錯(cuò)的樣本的權(quán)重升高,容易分對的樣本權(quán)重降低。繼續(xù)迭代就會導(dǎo)致對難分的樣本能分對的模型的權(quán)重上漲。最終,達(dá)到一個(gè)強(qiáng)分類器的目的。

    對屬性值分析完后,逐一進(jìn)行單相關(guān)性和復(fù)相關(guān)性的分析,在單相關(guān)性的分析時(shí)利用IF-THEN規(guī)則分類,能將兩兩字段之間的關(guān)系更好地進(jìn)行[25]表達(dá);所有屬性值和關(guān)系規(guī)則分析訓(xùn)練完成,達(dá)到準(zhǔn)確可靠的結(jié)果值,根據(jù)對應(yīng)的分析結(jié)果和可靠規(guī)則完成對整個(gè)業(yè)務(wù)字段的決策樹建立[26],形成業(yè)務(wù)規(guī)則分析的完整模型。

    3.2 基于大數(shù)據(jù)的數(shù)據(jù)特性分析模型

    數(shù)據(jù)特性分析模型主要是對用電電量數(shù)據(jù)的一套偏相關(guān)性的分析規(guī)則。

    在對用戶電價(jià)異常分析過程中,首先將所有用戶數(shù)據(jù)進(jìn)行分類,根據(jù)類型屬性值利用AdaBoost分類器將寬表用戶類別數(shù)據(jù)不停的迭代最終分析記為X(大工業(yè)中小化肥、非工業(yè)、非居民照明、農(nóng)業(yè)排灌、農(nóng)業(yè)生產(chǎn)用電、貧困縣農(nóng)業(yè)排灌用電、商業(yè)用電、中小學(xué)教學(xué)用電、大工業(yè)用電、普通工業(yè)、其他)。

    通過分類后進(jìn)行篩選可得到每一個(gè)用電類別的用電電價(jià)區(qū)間記為Dm=(x1,x2,……,xn),對應(yīng)區(qū)間如下:

    商業(yè)用電:0.5843~0.6043

    大工業(yè)用電:0.2359~0.9632

    大工業(yè)中小化肥:0.3932~0.4132

    非工業(yè):0.2443~0.8176

    非居民照明:0.5664~0.6043

    農(nóng)業(yè)排灌:0.0755~0.4605

    農(nóng)業(yè)生產(chǎn)用電:0.4289~0.4489

    貧困縣農(nóng)業(yè)排灌用電:0.0755~0.3805

    普通工業(yè):0.5843~0.8943

    中小學(xué)教學(xué)用電:0.515~0.525

    其他:0.0422~0.6422

    將Dm所有的區(qū)間與X元組的所有用戶進(jìn)行相關(guān)性分析,在模型中通過散點(diǎn)分布的形式可視化電價(jià)可能存在異常的用戶,在區(qū)間內(nèi)的數(shù)據(jù)則為正常用戶執(zhí)行電價(jià),反之區(qū)間外的散點(diǎn)數(shù)據(jù)則為可能存在異常的數(shù)據(jù)。

    圖3 不同用電類別電價(jià)異常分析Fig.3 Analysis of abnormal electricity prices for different power consumption categories

    在功率因素標(biāo)準(zhǔn)異常分析模塊中,利用AdaBoost分類器將所有用戶數(shù)據(jù)的NAME.pfStdCode(功率因數(shù)考核標(biāo)準(zhǔn))的屬性值按照固定的考核指標(biāo)0.8、考核指標(biāo)0.85、考核指標(biāo)0.9、不考核分別分成不同的類,定義為P元組。

    在用戶基礎(chǔ)業(yè)務(wù)信息數(shù)據(jù)寬表中獨(dú)立劃分所有用戶contract_cap(合同容量)、elecTypeCode(用電類別)以及contract_cat(合同類別)的值,形成單獨(dú)的類元組數(shù)據(jù),按照規(guī)則將NAME.pfStdCode與字段contract_cap、elecTypeCode、contract_cat屬性值進(jìn)行分析,形成單獨(dú)的結(jié)果元組集E,利用偏相關(guān)性系數(shù)算法對字段contract_cap、elecTypeCode、contract_cat每兩兩之間在此進(jìn)行可能存在的偏相關(guān)性分析,結(jié)果顯示沒有相關(guān)性結(jié)果值,隨后將P與E進(jìn)行分類分析,根據(jù)P可得出可能存在異常的用戶數(shù)據(jù)。結(jié)果以可視化效果展示。

    圖4 功率因素標(biāo)準(zhǔn)異常分析Fig.4 Abnormal analysis of power factor standard

    在力率調(diào)整電費(fèi)分析中,需要對基礎(chǔ)業(yè)務(wù)信息數(shù)據(jù)寬表和特性反查用電數(shù)據(jù)寬表的數(shù)據(jù)統(tǒng)一分類到單獨(dú)的類表來做處理,通過確定主鍵字段cons_no(用戶編號)—mp_no(計(jì)量點(diǎn)編號)共同決定對類表的分類。將NAME.pfStdCode、cons_no、mp_no、actual_pf(功率因數(shù))進(jìn)行重新分類后形成新的類表,在類表中,通過Apriori算法將actual_pf屬性值進(jìn)行連接形成圖網(wǎng)分析,隨后按照層級一次進(jìn)行剪枝,將分析的結(jié)果進(jìn)行可視化。

    圖5 力率調(diào)整電費(fèi)異常分析Fig.5 Abnormal analysis of power rate adjustment electricity tariff

    分析結(jié)果以正負(fù)坐標(biāo)圖的散點(diǎn)坐標(biāo)進(jìn)行顯示,分析結(jié)果在正象限時(shí),則這部分用戶的力率電費(fèi)為應(yīng)該增收的用戶,反之在負(fù)象限這些用戶在一定程度應(yīng)該獎(jiǎng)勵(lì)電費(fèi)。

    在基本電費(fèi)異常分析中,根據(jù)NAME.baCalcMode(基本電費(fèi)計(jì)算方式)的屬性值將數(shù)據(jù)分為按容量、實(shí)際最大需量、合約最大需量、不計(jì)算類元組,定義為B1、B2、B3、B4;隨后再將分裂的元組中的THIS_READ_PQ(需量考核定值)、ba(電價(jià)基準(zhǔn)值)、BA_VALUE(最大電量值)通過AdaBosst分類器將其劃分出來,屬性值表示為X={x1,x2,x3,……,xn},Y={y1,y2,y3,……,yn},Z={z1,z2,z3,……,zn},按照B1、B2、B3對應(yīng)的規(guī)則基數(shù)與用戶每一個(gè)屬性值進(jìn)行計(jì)算分析,得出一個(gè)結(jié)果元組集R,最后按照cons_no將R與ba進(jìn)行計(jì)算分析,最終結(jié)果以可視化的形式展示。

    圖6 基本電費(fèi)異常分析Fig.6 Abnormal analysis of basic electricity bill

    3.3 基于大數(shù)據(jù)的業(yè)務(wù)智能分析模型

    新增、變更業(yè)務(wù)智能分析模型主要目的是在客戶辦理新裝、增容、減容等業(yè)務(wù)時(shí),僅輸入用電容量、用電性質(zhì)、行業(yè)關(guān)鍵字,模型自動(dòng)輸出用電類別、行業(yè)分類等基礎(chǔ)信息,為業(yè)務(wù)人員準(zhǔn)確填報(bào)數(shù)據(jù)提供參考。在模型場景輸出最正確的電價(jià)碼、功率因數(shù)考核、峰谷執(zhí)行標(biāo)志,提高電價(jià)執(zhí)行合規(guī)性。

    根據(jù)該模型所需要實(shí)現(xiàn)的功能,分析其數(shù)據(jù)結(jié)構(gòu)和格式,采用決策樹作為所有字段的框架建立的算法,利用IF-THEN規(guī)則[27]分類實(shí)現(xiàn)對所有字段兩兩之間存在的單相關(guān)性進(jìn)行計(jì)算分析。

    IF-THEN規(guī)則分類主要尋找所有字段屬性值之間存在的關(guān)系,將所有關(guān)系進(jìn)行歸類,隨之將利用決策樹的算法將所有字段和屬性值進(jìn)行層級的樹枝分類計(jì)算,并將相關(guān)關(guān)系的歸類規(guī)則融入到?jīng)Q策樹的過程中,形成決策樹的細(xì)分類,決策樹分類模型主要分為兩類,即單分類決策樹模型和集成分類決策樹模型。在該模型中采用單分類決策樹模型。

    單分類器模型是不斷用新的數(shù)據(jù)來遞歸地更新自身結(jié)構(gòu),使自身結(jié)構(gòu)能夠適應(yīng)流中數(shù)據(jù)的變化,并在流中對實(shí)例能夠準(zhǔn)確分類。最早提出用于處理數(shù)據(jù)流的決策樹分類算法是基于Heoffding樹,后繼很多決策樹算法也是基于Hoeffding不等式設(shè)計(jì)而來的。

    Hoeffding樹算法的一個(gè)關(guān)鍵特性是,它可以保證產(chǎn)生的樹漸近地接近批量學(xué)習(xí)分類器生成的樹[28]。換句話說,Hoeffding樹算法的增量特性不會顯著影響其生成樹的質(zhì)量:為了做到這一點(diǎn),需要定義兩個(gè)決策樹之間不一致的概念,如定義1和定義2。設(shè)P(X)是被觀察到的屬性向量X的概率,I為指標(biāo)(評估)函數(shù),如果其參數(shù)為true則返回1,否則為0。

    定義1:兩個(gè)決策樹DT1和DT2之間的差異Δu,是它們產(chǎn)生不同類預(yù)測的概率,如式(5)所示:

    (5)

    如果兩個(gè)內(nèi)部節(jié)點(diǎn)包含不同的測試結(jié)果,那么這兩個(gè)內(nèi)部節(jié)點(diǎn)是不同的。如果它們包含不同的類預(yù)測,那么這兩個(gè)葉子也是不同的,并且內(nèi)部節(jié)點(diǎn)與葉子是不同的。另外,如果樹中的兩條路徑長度不同,或者至少在一個(gè)節(jié)點(diǎn)上不同,那么也要考慮它們是不同的。

    定義2:兩種決策樹DT1和DT2之間的差異率Δi,是指一個(gè)示例通過DT1的路徑與通過DT2路徑不同的概率,如式(6)所示:

    (6)

    式中,Pathi(X)是示例X到樹DTi的路徑,兩種決策樹DT1和DT2在某種意義上有如下式(7)關(guān)系:

    ?DT1,DT2Δu(DT1,DT2)≤Δi(DT1,DT2)

    (7)

    定理1:如果HTΦ是由Hoeffding樹算法生成的樹,所需的概率為Φ,給出無窮多個(gè)例子,DT*是漸近批處理樹,p是葉節(jié)點(diǎn)概率,則有如下關(guān)系式(8)成立。

    E[Δi(HTδ,DT*)]≤φ/P

    (8)

    Hoffding界表明,以概率1-δ,范圍為R的隨機(jī)變量的真實(shí)均值不會與n次獨(dú)立觀測后的估計(jì)均值相差超過:

    (9)

    式中,R=log2C,C是類的數(shù)目,δ是分裂置信度,n是葉節(jié)點(diǎn)數(shù)。

    在該模型中,IF-THEN規(guī)則分類只作為樹模型的構(gòu)成語句,由一個(gè)或多個(gè)針對預(yù)測變量的if-then語句組成,它們被用來對數(shù)據(jù)進(jìn)行劃分,基于這些劃分,一個(gè)特定的模型將用來對結(jié)果變量進(jìn)行預(yù)測。IF-THEN規(guī)則分類同樣將所有屬性值規(guī)則進(jìn)行分析后利用決策樹分類器將所有屬性值通過節(jié)點(diǎn)和分支的形式整合成一個(gè)完整的樹狀網(wǎng)。

    4 成效及結(jié)論

    基于大數(shù)據(jù)的業(yè)務(wù)規(guī)則反查模型解決了營銷部門對國網(wǎng)用戶用電異常數(shù)據(jù)的困擾。通過搭建的業(yè)務(wù)規(guī)則反查模型實(shí)現(xiàn)了一次性對所有用戶數(shù)據(jù)的計(jì)算分析,且經(jīng)過多次反復(fù)的對模型的訓(xùn)練,實(shí)現(xiàn)了對公司營銷系統(tǒng)數(shù)據(jù)的治理。結(jié)果以表格及統(tǒng)計(jì)圖表的可視化效果展示。

    圖7 業(yè)務(wù)規(guī)則反查模型應(yīng)用效果Fig.7 Application effect of business rule reverse inspection model

    數(shù)據(jù)特性分析模型從偏相關(guān)的角度出發(fā)對國網(wǎng)酒泉供電公司系統(tǒng)數(shù)據(jù)進(jìn)行了分析,對用戶執(zhí)行電價(jià)、峰谷執(zhí)行標(biāo)準(zhǔn)、功率因素執(zhí)行標(biāo)準(zhǔn)、力率調(diào)整電費(fèi)以及公司收回的基本電費(fèi)進(jìn)行了綜合性的計(jì)算分析,對分析結(jié)果直接進(jìn)行了可視化的展示,同時(shí)對異常數(shù)據(jù)也形成單獨(dú)的列表展示。

    圖8 數(shù)據(jù)特性分析模型應(yīng)用效果Fig.8 Application effect of data characteristic analysis model

    業(yè)務(wù)智能分析模型主要對供電公司營銷部門的日常新裝、增容、減容、改類、改壓、分戶、暫停業(yè)務(wù)實(shí)現(xiàn)了業(yè)務(wù)過程數(shù)據(jù)的預(yù)測分析,輸入不同字段,自動(dòng)輸出相關(guān)字段結(jié)果,所見即所得的可視化操作方式,如圖:

    圖9 新增業(yè)務(wù)智能分析模型應(yīng)用效果Fig.9 Application effect of new business intelligence analysis model

    5 問題及展望

    本文對電力客戶檔案中的字段關(guān)系進(jìn)行了初步實(shí)際應(yīng)用效果探究,仍需要不斷地實(shí)踐應(yīng)用以調(diào)整模型,提高其準(zhǔn)確率和穩(wěn)定性。在當(dāng)前社交網(wǎng)絡(luò)服務(wù)、電商網(wǎng)絡(luò)平臺等,存有海量用戶及隨時(shí)更新變化的數(shù)據(jù),通過大數(shù)據(jù)技術(shù)、人工智能分析形成推薦算法系統(tǒng),以滿足公眾差異化、精細(xì)化服務(wù)需求[29-31]。供電公司作為大型供電系統(tǒng),同樣存有海量用戶數(shù)據(jù),如何整合復(fù)雜屬性環(huán)境非關(guān)系型數(shù)據(jù),實(shí)現(xiàn)數(shù)據(jù)的最大化價(jià)值還需要不斷探索。

    猜你喜歡
    字段決策樹分類器
    圖書館中文圖書編目外包數(shù)據(jù)質(zhì)量控制分析
    一種針對不均衡數(shù)據(jù)集的SVM決策樹算法
    決策樹和隨機(jī)森林方法在管理決策中的應(yīng)用
    電子制作(2018年16期)2018-09-26 03:27:06
    BP-GA光照分類器在車道線識別中的應(yīng)用
    電子測試(2018年1期)2018-04-18 11:52:35
    加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
    結(jié)合模糊(C+P)均值聚類和SP-V-支持向量機(jī)的TSK分類器
    基于決策樹的出租車乘客出行目的識別
    基于肺癌CT的決策樹模型在肺癌診斷中的應(yīng)用
    CNMARC304字段和314字段責(zé)任附注方式解析
    無正題名文獻(xiàn)著錄方法評述
    蕉岭县| 修武县| 瑞丽市| 拉萨市| 全南县| 静宁县| 鄯善县| 固镇县| 安龙县| 禄劝| 达孜县| 全椒县| 乐业县| 奇台县| 垣曲县| 绩溪县| 宝坻区| 高安市| 澄江县| 万全县| 青阳县| 罗江县| 盐山县| 莎车县| 元氏县| 新乡县| 利津县| 独山县| 大化| 志丹县| 自贡市| 泸定县| 弋阳县| 商都县| 哈尔滨市| 尚义县| 鄱阳县| 曲松县| 乌鲁木齐县| 民勤县| 五莲县|