徐 偉
(桐城師范高等??茖W(xué)校,安徽 桐城 231400)
大數(shù)據(jù)技術(shù)發(fā)展帶來的巨大信息風(fēng)暴正在改變?nèi)藗兊纳睢⒐ぷ骱退季S方式,也是開啟重大時代轉(zhuǎn)型的鑰匙。全球各國普遍認(rèn)識到數(shù)據(jù)作為戰(zhàn)略性資源對發(fā)展和競爭帶來的關(guān)鍵作用,諸多國家開始制定以大數(shù)據(jù)為核心的戰(zhàn)略或發(fā)展計(jì)劃,借此實(shí)現(xiàn)業(yè)務(wù)創(chuàng)新和新興產(chǎn)業(yè)發(fā)展。大數(shù)據(jù)技術(shù)能夠挖掘海量數(shù)據(jù)的內(nèi)在規(guī)律,打開全新思維和認(rèn)知視角,在“互聯(lián)網(wǎng)+”的時代背景下,為各行各業(yè)的發(fā)展保駕護(hù)航[1]。本文討論基于大數(shù)據(jù)的數(shù)據(jù)挖掘關(guān)鍵技術(shù),理清思路,突出數(shù)據(jù)挖掘價(jià)值,并以電力行業(yè)為例,分析大數(shù)據(jù)挖掘技術(shù)在企業(yè)生產(chǎn)經(jīng)營中的應(yīng)用場景和應(yīng)用價(jià)值。
數(shù)據(jù)挖掘技術(shù)是利用算法搜索,從海量數(shù)據(jù)中提取重要信息和有趣模式的過程[2]。圖1所示為數(shù)據(jù)挖掘的數(shù)據(jù)模型建立過程。
圖1 數(shù)據(jù)挖掘建模過程
第一個階段是數(shù)據(jù)的預(yù)處理,將采集到的原始數(shù)據(jù)轉(zhuǎn)化為符合項(xiàng)目需求的有效數(shù)據(jù)。數(shù)據(jù)預(yù)處理是為了有效彌補(bǔ)原始數(shù)據(jù)缺陷,保證數(shù)據(jù)的可靠、完整。數(shù)據(jù)抽取就是要在海量數(shù)據(jù)中快速獲取與項(xiàng)目有關(guān)的數(shù)據(jù)。
第二個階段是數(shù)據(jù)挖掘。根據(jù)數(shù)據(jù)倉庫中數(shù)據(jù)的普遍特征,選擇合適的算法和工具,采用案例推理、規(guī)則推理、模糊集、遺傳算法、神經(jīng)網(wǎng)絡(luò)、統(tǒng)計(jì)學(xué)等方法處理信息。數(shù)據(jù)挖掘的關(guān)鍵在于明確挖掘任務(wù),并找到合適的挖掘算法。
第三個階段是知識表示和模式評估。模式主要用于準(zhǔn)確表達(dá)出數(shù)據(jù)的挖掘成果,最終構(gòu)建出有識別能力的完整的表達(dá)模式。
數(shù)據(jù)挖掘是集統(tǒng)計(jì)學(xué)、軟件開發(fā)、機(jī)器學(xué)習(xí)、數(shù)據(jù)庫等技術(shù)的綜合多學(xué)科先進(jìn)技術(shù),經(jīng)過大量數(shù)據(jù)的分析處理,挖掘隱含的高價(jià)值信息,為決策提供技術(shù)支持。狹義算法是指一些統(tǒng)計(jì)算法、分類算法、規(guī)則提取算法等。常見的狹義數(shù)據(jù)挖掘算法包括K-means聚類算法、Apriori布爾型關(guān)聯(lián)規(guī)則算法、最大期望算法、K最近鄰分類算法等。廣義算法泛指一切數(shù)據(jù)處理、規(guī)則提取的方法來發(fā)現(xiàn)數(shù)據(jù)中的信息,能夠轉(zhuǎn)化為數(shù)據(jù)信息進(jìn)行關(guān)鍵知識提取的方法都可以被看作是數(shù)據(jù)挖掘,例如圖像處理也可以是一種數(shù)據(jù)挖掘算法[3,4]。下面將著重介紹幾種常見數(shù)據(jù)挖掘算法。
決策樹分類算法是一種應(yīng)用非常廣泛的數(shù)據(jù)挖掘分類算法,包括C4.5和ID3算法。決策樹算法是針對給定數(shù)據(jù)集快速生成分類的有效方法。決策樹算法關(guān)鍵是從無次序、無規(guī)則的數(shù)據(jù)集中推理出數(shù)據(jù)分類的規(guī)則,采用決策樹方式將分類結(jié)果表現(xiàn)出來。決策樹分類算法的核心思想是自上而下在樹結(jié)點(diǎn)利用遞歸的方式比較數(shù)據(jù)屬性值,不同的屬性值決定了樹的走向,結(jié)論表現(xiàn)在葉子結(jié)點(diǎn)處。
決策樹分類算法的第一步是按照給定數(shù)據(jù)集創(chuàng)建決策樹,核心是對元數(shù)據(jù)源的機(jī)器學(xué)習(xí);第二步是根據(jù)第一步建立的決策樹進(jìn)行分類學(xué)習(xí)。構(gòu)造決策樹是決策樹算法的關(guān)鍵步驟,屬性和判斷邏輯的選擇直接決定了決策樹的結(jié)構(gòu)和處理效果。一般來說,決策樹算法利用剪枝方法處理過分適應(yīng)的問題,利用統(tǒng)計(jì)度量消除這種情況,快速實(shí)現(xiàn)數(shù)據(jù)集分類,提升數(shù)據(jù)分類效果和速度。
關(guān)聯(lián)規(guī)則是非?;钴S的一種數(shù)據(jù)挖掘算法,可以在龐大、無規(guī)律、雜亂的數(shù)據(jù)中建立數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系,對未來可能發(fā)生的情況進(jìn)行預(yù)測。關(guān)聯(lián)規(guī)則常用置信度、支持度兩個指標(biāo)表示結(jié)論的正確性和顯著性。
置信度用于衡量A發(fā)生的前提下,結(jié)論B發(fā)生的概率,即P(A|B),表示這一規(guī)則在數(shù)據(jù)中所占比率。置信度是衡量關(guān)聯(lián)規(guī)則可信度的指標(biāo),一般將設(shè)置最小值不小于0.5,以此過濾正確率低的規(guī)則。
支持度用于衡量已知A和B均發(fā)生的概率,即P(A∩B)。假設(shè)最小支持度的目標(biāo)是過濾數(shù)據(jù)比率低的關(guān)聯(lián)項(xiàng),提升關(guān)聯(lián)規(guī)則的代表性。
Support(A?B)=P(A∩B)
神經(jīng)網(wǎng)絡(luò)是模擬人腦神經(jīng)元建立的數(shù)學(xué)模型,包括大量分布式單元,通過控制神經(jīng)元之間的信息實(shí)現(xiàn)知識信息學(xué)習(xí)。神經(jīng)元的相互關(guān)聯(lián)組成了神經(jīng)網(wǎng)絡(luò),神經(jīng)元有多個輸入輸出端,輸入端權(quán)重系數(shù)能夠進(jìn)行調(diào)整,通過函數(shù)關(guān)系輸出計(jì)算結(jié)果[5]。圖2所示為單層神經(jīng)網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)示意圖。
圖2 單層神經(jīng)網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)示意圖
遺傳算法屬于一種全局優(yōu)化算法,主要用于求解最優(yōu)解,當(dāng)一個問題有多個答案時,常用遺傳算法來選擇最優(yōu)答案。遺傳算法利用生物遺傳學(xué)知識,模仿自然優(yōu)勝劣汰以及遺傳機(jī)制,提升個體適應(yīng)性。利用遺傳算法求解問題,首先是抽象問題模型結(jié)構(gòu),將問題轉(zhuǎn)換為編碼,對改組后的編碼結(jié)構(gòu)進(jìn)行賦值、交叉、變異運(yùn)算等,為機(jī)器學(xué)習(xí)算法的檢索提供指導(dǎo)。
電力大數(shù)據(jù)主要是指在智能電網(wǎng)運(yùn)營過程中產(chǎn)生的海量數(shù)據(jù),既包括電網(wǎng)調(diào)度數(shù)據(jù)、設(shè)備運(yùn)維數(shù)據(jù),也包括用戶用電數(shù)據(jù)等。數(shù)據(jù)通過部署在設(shè)備上的傳感器、用戶家中的智能電表、客戶反饋等數(shù)據(jù)源產(chǎn)生,并匯聚到數(shù)據(jù)中心統(tǒng)一存儲管理[6]。電力大數(shù)據(jù)是智能電網(wǎng)穩(wěn)定發(fā)展、可靠、高效運(yùn)行的重要支撐。電力大數(shù)據(jù)價(jià)值挖掘是促進(jìn)電網(wǎng)精益化管理、優(yōu)化電力生產(chǎn)調(diào)度、建立用戶用電行為模型的基礎(chǔ)支撐。電力大數(shù)據(jù)的基本特征表現(xiàn)為:
第一個特點(diǎn)是體量大,隨著智能電網(wǎng)的快速發(fā)展,電網(wǎng)智能設(shè)備終端的部署越來越密集,采集的數(shù)據(jù)量激增;第二個特點(diǎn)是類型多,電力生產(chǎn)、銷售等環(huán)節(jié)會產(chǎn)生大量結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù);第三個特點(diǎn)是速度快,電力運(yùn)營數(shù)據(jù)的采集響應(yīng)速度非??欤K端數(shù)據(jù)量快速增加,對數(shù)據(jù)存儲系統(tǒng)有較高的要求。
圖3 電力大數(shù)據(jù)流轉(zhuǎn)示意圖
支持分布式挖掘算法是電力大數(shù)據(jù)分析的關(guān)鍵,通過分析建模、模型運(yùn)行、模型發(fā)布等功能,滿足高效的數(shù)據(jù)挖掘分析需求。電力數(shù)據(jù)挖掘常用方法包括傳統(tǒng)數(shù)據(jù)統(tǒng)計(jì)分析、多維分析、邏輯回歸算法、回歸分析、聚類算法、關(guān)聯(lián)分析等等。除此之外,還經(jīng)常使用分類算法、演化分析、異類分析等預(yù)測性挖掘算法。針對電力各環(huán)節(jié)大量存在的文本、視頻、圖片等非結(jié)構(gòu)化數(shù)據(jù),多采用文本分析、圖像分析、語音分析等算法加以處理。數(shù)據(jù)挖掘在電力行業(yè)的應(yīng)用場景有電力負(fù)荷預(yù)測、設(shè)備重過載預(yù)警分析、配網(wǎng)故障搶修分析等。
圖4 電力大數(shù)據(jù)挖掘應(yīng)用
業(yè)擴(kuò)報(bào)裝包括新裝、增容、減容和減容恢復(fù)等,預(yù)測的第一步是建立模型,根據(jù)歷史用戶業(yè)擴(kuò)情況以及業(yè)擴(kuò)對電量的影響規(guī)律,建立全行業(yè)的業(yè)擴(kuò)電量影響模型,反映業(yè)擴(kuò)對負(fù)荷利用率的影響。第二步是將需要分析的歷史預(yù)測、預(yù)測時間等代入定義好的預(yù)測模型,推算業(yè)擴(kuò)影響預(yù)測電量。
1.?dāng)?shù)據(jù)清洗。電力營銷系統(tǒng)中,每天會產(chǎn)生大量業(yè)擴(kuò)報(bào)裝數(shù)據(jù),要進(jìn)行數(shù)據(jù)挖掘,第一步是數(shù)據(jù)清洗。用戶業(yè)擴(kuò)報(bào)裝的原因很多,要消除因?yàn)榫€路變更、接入雙電源等申請的報(bào)裝數(shù)據(jù)。保留在業(yè)擴(kuò)工單結(jié)束之后,能夠確切影響用戶用電量的數(shù)據(jù)。
2.?dāng)?shù)據(jù)預(yù)處理。用戶會在不同時間提起業(yè)擴(kuò)報(bào)裝申請,所以需要從時間維度進(jìn)行歸一化處理。業(yè)擴(kuò)申請的時間是起始時間,該月份表示為第0個月,后續(xù)的每月用電量的時間時段被設(shè)置為1-18個月。如果某個時間段內(nèi)多次發(fā)生業(yè)擴(kuò)報(bào)裝,那么將該用戶的數(shù)據(jù)剔除,因?yàn)闊o法判斷哪次業(yè)擴(kuò)報(bào)裝對用戶量產(chǎn)生的影響最大。
3.剔除外部因素。用戶的業(yè)擴(kuò)報(bào)裝申請工單完成之后,用電量的變化可能會受到節(jié)假日、天氣等因素的影響。如果考慮這些外部因素,則需要利用氣象、節(jié)假日對用電量的影響模型來全面分析外部因素對負(fù)荷利用率的影響。所以此次的研究中,剔除外部因素的影響。
4.模型計(jì)算。經(jīng)過上述步驟之后,要搭建業(yè)擴(kuò)負(fù)荷利用率的變化值模型。
業(yè)擴(kuò)負(fù)荷利用率變化值根據(jù)下式進(jìn)行計(jì)算:
上式中,F(xiàn)表示的是業(yè)擴(kuò)的月負(fù)荷率;Tind表示的是用電行業(yè)的類型;Mperiod表示的是業(yè)擴(kuò)報(bào)裝的月份和業(yè)擴(kuò)影響電量統(tǒng)計(jì)月份的間隔;KTYPe表示的是業(yè)擴(kuò)報(bào)裝類型,KTYPe值等于1時業(yè)擴(kuò)類型為新裝和增容,值等于2時表示業(yè)擴(kuò)類型為減容銷戶;S表示的是某個行業(yè)中業(yè)擴(kuò)申請用戶總數(shù);Ai為不同用電行業(yè)中某個業(yè)擴(kuò)申請用戶的月度用電量變化情況;Paddi表示的是行業(yè)中某個業(yè)擴(kuò)申請用戶容量變化。
5.模型應(yīng)用。選取某個地區(qū)2018年3-6月份的業(yè)擴(kuò)報(bào)裝情況,基于此分析對于第四季度用電量的影響。
第一步:分地區(qū)、行業(yè)、業(yè)擴(kuò)類型統(tǒng)計(jì)二季度業(yè)擴(kuò)數(shù)據(jù);
第二步:循環(huán)第二季度各個月份的數(shù)據(jù)進(jìn)行計(jì)算,5月相對10月、11月分別間隔5個月和6個月,根據(jù)負(fù)荷利用率的變化模型,計(jì)算出不同行業(yè)、不同業(yè)擴(kuò)類型、不同間隔月份的負(fù)荷利用變化值;
第三步:負(fù)荷率變化值的計(jì)算和電量增長值的計(jì)算;
第四步:累加所有月份和地區(qū)的業(yè)擴(kuò)的電量增長值。
計(jì)算Mstart~Mend月份的業(yè)擴(kuò)對于未來Meffect月份業(yè)擴(kuò)容量情況:
上式中,Mstart和Mend表示的是統(tǒng)計(jì)開始和統(tǒng)計(jì)結(jié)束的月份;Meffect表示容量影響的對應(yīng)月份;S表示的是某個行業(yè)中業(yè)擴(kuò)申請用戶總數(shù);Pj表示行業(yè)內(nèi)第j個申請用戶業(yè)擴(kuò)容量的變化;F(·)表示負(fù)荷率計(jì)算函數(shù)。
表1 電量預(yù)測數(shù)據(jù)
6.應(yīng)用成效。選取造紙業(yè)、醫(yī)藥制造、交通業(yè)、批發(fā)零售行業(yè)對業(yè)擴(kuò)-電量影響模型進(jìn)行測試,表1所示為上述行業(yè)2018年的電量預(yù)測結(jié)果。
機(jī)器學(xué)習(xí)科學(xué)的進(jìn)步推動數(shù)據(jù)挖掘技術(shù)的發(fā)展,產(chǎn)生的數(shù)據(jù)越多,數(shù)據(jù)的價(jià)值就越大,相應(yīng)的數(shù)據(jù)處理的難度就越大。本文梳理了數(shù)據(jù)挖掘的概念、理論,并介紹了數(shù)據(jù)挖掘的幾個主要算法。以電力行業(yè)為例,概括電力行業(yè)大數(shù)據(jù)的特征,分析了基于用電大數(shù)據(jù)的業(yè)擴(kuò)影響電量預(yù)測模型,用實(shí)踐案例驗(yàn)證了大數(shù)據(jù)挖掘技術(shù)的應(yīng)用成效。