國網(wǎng)江蘇省電力有限公司物資分公司 溫富國 許 斌 李金霞
隨著我國經(jīng)濟的高速發(fā)展,對電力的需求也不斷增加[1]。為了滿足國民經(jīng)濟全面、協(xié)調(diào)、可持續(xù)發(fā)展對電力的需求,提高電力供應(yīng)能力,提高電力系統(tǒng)供電水平勢在必行。而加快電網(wǎng)建設(shè),提高電力系統(tǒng)供電水平都離不開電力系統(tǒng)中輸變電物資的采購供應(yīng)。但是當(dāng)前物資采購供應(yīng)環(huán)節(jié)存在諸多不平衡現(xiàn)象,一方面普遍存在供大于求的現(xiàn)象,庫存積壓相當(dāng)嚴(yán)重;另一方面少數(shù)物料又存在供應(yīng)不足現(xiàn)象。例如某配變類工程,大部分物料儲備都很充足,但是缺少某一型號的變壓器,導(dǎo)致項目延期,無法順利完成,嚴(yán)重影響電力建設(shè)。
從技術(shù)上說,各物料之間存在相互配合、相互備用等現(xiàn)象,需求數(shù)量有“同增同減”或“此消彼長”的特點,如水泥桿跟架空絕緣導(dǎo)線理論上就存在一定的相關(guān)關(guān)系。所以對物料使用數(shù)量相關(guān)性的研究被認為是解決物料采購不平衡問題的一個方向。但由于物料種類較多,采用傳統(tǒng)的相關(guān)性系數(shù)法,容易掉入偽回歸[2]陷阱。
所以本文從大數(shù)據(jù)挖掘的角度,分析2016年江蘇省配農(nóng)網(wǎng)項目的物資使用規(guī)律,然后采用關(guān)聯(lián)規(guī)則,研究分析各物資之間的相關(guān)性,得到物料頻繁項集,從而得到物資的相關(guān)關(guān)系,最后從時間序列[3]角度用相關(guān)性系數(shù)法對所得結(jié)果進行了驗證。結(jié)果表明,關(guān)聯(lián)規(guī)則挖掘出來的頻繁項集內(nèi)的各個物料具有較強的相關(guān)性。物料相關(guān)性的研究成果可以用于指導(dǎo)物資采購和庫存設(shè)置,對于提升協(xié)議庫存物資精細化管理具有重大意義,將很大程度地改善當(dāng)前物資采購不平衡的現(xiàn)象,從而全面提高采購管理效益水平[4]。
關(guān)聯(lián)規(guī)則[5-7]挖掘是由Agrawal等人于1993年提出,最早是為了解決購物籃分析問題,可以用來挖掘商品間在零售業(yè)商品交易事務(wù)數(shù)據(jù)庫中的聯(lián)系規(guī)則以及顧客習(xí)慣的購買模式。近年來,關(guān)聯(lián)規(guī)則挖掘被認為是數(shù)據(jù)挖掘領(lǐng)域的熱點。
設(shè)數(shù)據(jù)集D為事務(wù)數(shù)據(jù)的集合,數(shù)據(jù)集D中包含了n條記錄,m個項等參數(shù)屬性,即是數(shù)據(jù)庫中所有項的集合。D中每條記錄即每個事務(wù)T都是非空集合,T是項的集合,每條記錄的標(biāo)識符號為TID。Tk中的元素組成的集合即稱為項集,包含k個項的集合稱為k-項集。
頻繁模式是在數(shù)據(jù)集中頻繁出現(xiàn)的模式,頻繁模式挖掘是在給定數(shù)據(jù)集中搜索頻繁出現(xiàn)的關(guān)聯(lián)形式。可以用關(guān)聯(lián)規(guī)則的形式表示系統(tǒng)內(nèi)部參數(shù)屬性間的頻繁關(guān)聯(lián),關(guān)聯(lián)規(guī)則為形如形式的關(guān)系式,式中。規(guī)則的支持度與置信度是用來描述規(guī)則興趣度的兩種度量,如式(1)與式(2)所示,它們分別表示所挖掘規(guī)則的有用性和確定性。規(guī)則在數(shù)據(jù)集D中成立,具有的支持度s指的是數(shù)據(jù)集D中包含的百分比,即概率,置信度C是D中包含A的記錄同時又包含B的記錄的百分比,即條件概率。
例如,[support=30%,confidence=80%],即規(guī)則的支持度為30%,置信度為80%,表示在整個數(shù)據(jù)集中,有30%的記錄是屬性A與屬性B同時出現(xiàn)的,且在屬性A出現(xiàn)的記錄中有80%的記錄屬性B也出現(xiàn)了,即表示在屬性A出現(xiàn)的情況下有80%的可能屬性B也會出現(xiàn)。獲得的關(guān)聯(lián)規(guī)則是指滿足最小支持度閾值與最小置信度閾值的規(guī)則,關(guān)聯(lián)規(guī)則的挖掘過程即為先獲取所有頻繁項集,再由頻繁項集生成關(guān)聯(lián)規(guī)則。
Apriori算法[8]是一種用來獲取頻繁項集的布爾型關(guān)聯(lián)規(guī)則算法,該算法使用迭代法進行逐層計算,并基于候選集來獲得頻繁項集,即使用(k-1)-項集Lk-1產(chǎn)生k-項集Lk。圖1及圖2分別為頻繁1-項集及k-項集的計算流程圖。通過掃描數(shù)據(jù)源,累計每個項的計數(shù),得到滿足最小支持度的項,從而找出頻繁1-項集的集合,記為L1,之后再通過頻繁1-項集的集合L1尋找頻繁2-項集的集合L2,以此類推,直到無法獲取滿足條件的項集,這樣得到的項集稱為最大頻繁項集。
圖1 獲得頻繁1-項集的過程
圖2 獲得頻繁k-項集的過程
從Lk-1項集獲取Lk項集時主要需要執(zhí)行連接步與剪枝歩兩個過程的操作。連接步:將Lk-1與自身連接產(chǎn)生候選k-項集的集合,記為Ck。假設(shè)l1,l2為Lk-1中的項,將其按照記錄中的字典順序排列,如果它們的前(k-2)項相同,則表示Lk-1中的元素是可連接的。剪枝歩:候選項集的集合Ck是Lk-1的超集,使用先驗知識:任何非頻繁的(k-1)-項集都不可能是頻繁k-項集的子集。因此,如果候選k-項集的任意一個(k-1)項子集不存在于Lk-1中,則可以刪除該候選項集,最終可以得到頻繁k-項集的集合Lk。
首先從江蘇公司ERP系統(tǒng)中導(dǎo)出2014-2016年的歷史出入庫數(shù)據(jù),共1042.4萬條出庫記錄,每條出入庫記錄包含物料名稱、實發(fā)數(shù)量、過賬日期、領(lǐng)用單位等信息。再按三級分類篩選出配農(nóng)網(wǎng)項目,共計63218個項目。然后采用統(tǒng)計手段,按工程項目統(tǒng)計出每個項目所需物料的種類和數(shù)量,2016年全年共使用2232種物料。
這63218個工程項目對應(yīng)關(guān)聯(lián)規(guī)則n條記錄,2232種物料對應(yīng)關(guān)聯(lián)規(guī)則中的m個項,從而構(gòu)成數(shù)據(jù)集。每一條記錄包含個項,即某個工程項目使用到了p種物料。然后設(shè)定support=0.1,confidence = 0.6,采用Apriority關(guān)聯(lián)分析算法先是得到L1項集,然后進行連接歩、剪枝歩操作得到頻繁項集。
表1列出了10種支持度較高的物料,如線路柱式瓷絕緣子共在38494個項目中使用過,其支持度高達60%,是使用頻率最高的物料。L1項集支持度的大小表征了物料在工程項目中常用程度,這些物料一般都屬于通用物資范疇,在采購過程中尤其要注意這些物資的采購,各地市項目單位在設(shè)置庫存時也應(yīng)備足余量。
表1 L1項集-常用物料
表2 最大頻繁項集
通過Apriori算法的不斷迭代,分別可以得到項集,最終得到的滿足最小支持度的最大k為6,即L6項集,各項集的物料都具有很強的相關(guān)性。如表2為L6項集的一組物料。這6種物料在7380個項目中一起出現(xiàn)過,組合出現(xiàn)頻率較高,我們稱之為頻繁項集。一組頻繁項集實際上表征了一種類型的工程項目的物資使用特性。所以,從項目設(shè)計與使用的角度來看,我們可以認為這些物料具有較強的相關(guān)性。
上述方法得到了電網(wǎng)物資的頻繁項集,頻繁項集中的各個物料經(jīng)常在實際工程項目中配套使用,被認為具有較強的相關(guān)性。為了驗證挖掘結(jié)果的準(zhǔn)確性,我們采用相關(guān)性系數(shù)法對頻繁項集中的物料相關(guān)性進行了驗證。
首先基于歷史數(shù)據(jù),按時間統(tǒng)計出每個月各個物料的使用量。利用簡單相關(guān)性系數(shù)法求得各個物料之間的相關(guān)性系數(shù)。驗證方法采用的是簡單相關(guān)性系數(shù)法[9],公式(3)給出了其定義式:
其中為X與Y的協(xié)方差,Var[X]為X的方差,Var[Y]為Y的方差。一般來說,取絕對值后,0-0.1為沒有相關(guān),0.1-0.3是弱相關(guān),0.3-0.5為中等相關(guān)關(guān)系,0.5-1.0表示具有較強的相關(guān)性。
以表2中的頻繁項集為例,先統(tǒng)計得到每種物料2014-2016年每個月的使用量,再用相關(guān)性系數(shù)法求得它們兩兩之間的相關(guān)性系數(shù)。其結(jié)果如表3所示(Xi為表2中的第i種物料),表格第i行第j列表示第i個物料與第j個物料之間的相關(guān)性系數(shù)??梢钥闯鲞@些物料之間的相關(guān)性系數(shù)都很高。
表3 物料之間的相關(guān)性系數(shù)
圖3給出了“錐形水泥桿,非預(yù)應(yīng)力,整根桿,15m,190mm,M”和“架空絕緣導(dǎo)線,AC10kV,JKLYJ,50”兩種物料2014-2016年各月的出庫量,這兩種物料為頻繁項集,且相關(guān)性系數(shù)為0.99,從圖中也可以看出這兩種物料每年出庫總量具有一致的趨勢性,相關(guān)性較強。兩種物料在數(shù)量上基本呈正比同步變化關(guān)系,可以用來指導(dǎo)采購和庫存設(shè)置。
圖3 兩種物料逐月使用量對比
從以上分析可得,為頻繁項集的物料其相關(guān)性系數(shù)都較高,而且在時序圖上具有較強的一致性。
本文通過關(guān)聯(lián)規(guī)則算法得到常用物料和物料頻繁項集,然后計算頻繁項集各個物料使用數(shù)量的相關(guān)性系數(shù),證明了關(guān)聯(lián)規(guī)則挖掘出來的物料頻繁項集確實具有很高的相關(guān)性。該方法得到的物資相關(guān)性可靠性強,更符合于項目工程實際。該研究結(jié)論可以很好地指導(dǎo)電網(wǎng)物資的采購與庫存設(shè)置,從而提升協(xié)議庫存物資管理水平。
[1]沈高鋒.電力消費與中國經(jīng)濟增長的關(guān)系分析[J].消費導(dǎo)刊,2017(26).
[2]姜高霞,王文劍.時序數(shù)據(jù)曲線排齊的相關(guān)性分析方法[J].軟件學(xué)報,2014(9):2002-2017.
[3]趙一鵬,丁云峰,姚愷豐.BP神經(jīng)網(wǎng)絡(luò)誤差修正的電力物資時間序列預(yù)測[J].計算機系統(tǒng)應(yīng)用,2017,26(10).
[4]沈男.基于改進BP神經(jīng)網(wǎng)絡(luò)的電網(wǎng)物資需求預(yù)測研究[D].華北電力大學(xué)(北京)華北電力大學(xué),2014.
[5]郭秀娟.基于關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘算法的研究[D].吉林大學(xué),2004.
[6]胡濤.基于關(guān)聯(lián)規(guī)則的數(shù)據(jù)挖掘算法[J].電子技術(shù)與軟件工程,2018(2).
[7]李艷.關(guān)于數(shù)據(jù)挖掘中關(guān)聯(lián)規(guī)則算法的相關(guān)問題研究[J].科技創(chuàng)新與應(yīng)用,2017(33):161.
[8]郭濤,張代遠.基于關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘Apriori算法的研究與應(yīng)用[J].計算機技術(shù)與發(fā)展,2011,21(6):101-103.
[9]謝明文.關(guān)于協(xié)方差、相關(guān)系數(shù)與相關(guān)性的關(guān)系[J].數(shù)理統(tǒng)計與管理,2004,23(3):33-36.