李亭立
(1.湖南工業(yè)大學(xué)計算機學(xué)院,湖南 株洲412000;2.湖南省智能信息感知及處理技術(shù)重點實驗室,湖南 株洲412000)
服裝行業(yè)整體環(huán)境具有復(fù)雜動態(tài)性,服裝企業(yè)大規(guī)模生產(chǎn)面料,難以挖掘出面料間的關(guān)聯(lián)規(guī)則。服裝的面料組成復(fù)雜,不同服裝由不同規(guī)格型號的面料構(gòu)成?,F(xiàn)實情況下,不同功能特性的服裝由不同規(guī)格型號的面料制造而成,一件服裝所需的面料種類多。更進一步的,由于客戶需求各式各樣,導(dǎo)致服裝生產(chǎn)企業(yè)在生產(chǎn)順應(yīng)市場環(huán)境的服裝產(chǎn)品時,對不同規(guī)格型號的面料需求也越來越多。因此,企業(yè)只有在挖掘出不同規(guī)格型號面料間關(guān)聯(lián)規(guī)則的基礎(chǔ)上,才能更好地完成不同服飾產(chǎn)品的生產(chǎn),進一步提升經(jīng)濟價值。
由于服裝面料復(fù)雜多樣性的特征,服裝企業(yè)通過先驗算法挖掘并分析不同規(guī)格型號面料間的關(guān)聯(lián)規(guī)則,較人工相比,能快速找到千百種面料間的服裝成品的關(guān)系構(gòu)成。服裝面料歷史訂單是標(biāo)準(zhǔn)型數(shù)據(jù),采用先驗算法可以挖掘歷史訂單中不同規(guī)格型號面料間的強關(guān)聯(lián)關(guān)系。先驗算法具有某項集頻繁則子項集也頻繁的特性,依據(jù)這個特性可以防止項集的數(shù)目過快的增多,能實現(xiàn)在更短的時間里得到頻繁項集的目的,這適合面料間關(guān)聯(lián)規(guī)則問題的解決。
本文為解決服裝企業(yè)對不同規(guī)格型號面料關(guān)聯(lián)關(guān)系挖掘難的問題,通過先驗算法挖掘面料間的關(guān)聯(lián)規(guī)則,實現(xiàn)多批多類服裝面料的關(guān)聯(lián)生產(chǎn)與銷售,提升企業(yè)經(jīng)濟效益,推動企業(yè)智能化發(fā)展。
關(guān)聯(lián)規(guī)則主要指基于某些事件或物體同時發(fā)生的情況下,這些事件或物體之間的關(guān)聯(lián)聯(lián)系[1]。關(guān)聯(lián)規(guī)則是在大型的數(shù)據(jù)集中發(fā)掘變量間重要規(guī)則的方法[2]。Agrawal 等首次提出先驗關(guān)聯(lián)規(guī)則算法,關(guān)聯(lián)規(guī)則的挖掘有助于分析事物間的關(guān)聯(lián)性,有利于決策的制定[3]。本文通過先驗算法挖掘不同規(guī)格型號面料間的關(guān)聯(lián)規(guī)則,對于在復(fù)雜的服裝生產(chǎn)過程中,分析多批多類面料的關(guān)聯(lián)程度以及多款多類服裝產(chǎn)品間的構(gòu)成關(guān)系有所幫助?;谙闰炈惴ǖ姆b面料關(guān)聯(lián)規(guī)則挖掘方法有助于企業(yè)生產(chǎn)效率的提高以及經(jīng)濟效益的提升。
本文采用某服裝生產(chǎn)企業(yè)的歷史面料生產(chǎn)數(shù)據(jù)進行實驗。選取該企業(yè)2017 年3 月至2018 年3 月共計106 種類別的面料歷史數(shù)據(jù)進行預(yù)處理,每組數(shù)據(jù)都記錄了不同型號面料的日期、面料型號以及數(shù)量信息。面料數(shù)據(jù)由于其行業(yè)性質(zhì),通常會一次性生產(chǎn)一批服裝產(chǎn)品,一批產(chǎn)品供一段時間使用,體現(xiàn)在數(shù)據(jù)上會存在某些不規(guī)則數(shù)據(jù)的干擾。因此,對歷史數(shù)據(jù)進行預(yù)處理非常重要。通過研究實際的生產(chǎn)情況,分析異常數(shù)據(jù)以及缺失數(shù)據(jù)出現(xiàn)的原因,根據(jù)數(shù)據(jù)特征進行相應(yīng)的預(yù)處理。在進行數(shù)據(jù)預(yù)處理時,考慮企業(yè)實際生產(chǎn)情況中每批次面料生產(chǎn)數(shù)量大,并且單次面料生產(chǎn)量可供一段時間使用,體現(xiàn)在數(shù)據(jù)上可能過于離散。因此,采用重采樣的方法處理數(shù)據(jù)過于離散的問題。多維度整合后的面料歷史數(shù)據(jù)可以用于挖掘不同規(guī)格型號面料間的關(guān)聯(lián)規(guī)則。
先驗算法通過循環(huán)進行逐層搜索的方式尋找關(guān)聯(lián)規(guī)則,其主要分為連接步和剪枝步兩部分。連接步是指將所有項集內(nèi)的內(nèi)容分別按照屬性值順序排序,若兩個項集彼此的前部分值完全相同,只有最后一項的值不同,則可以將這兩個項集進行連接。剪枝步是根據(jù)先驗算法的原理去除不符合的項集的過程,即某項集不頻繁其子集也不頻繁的原理,則當(dāng)搜索到非頻繁項集時,將非頻繁的項集舍棄。
支持度、置信度和提升度是評估關(guān)聯(lián)規(guī)則的三個重要指標(biāo)。支持度代表著在數(shù)據(jù)集中某些存在關(guān)聯(lián)的數(shù)據(jù)共同存在的量與數(shù)據(jù)集中數(shù)據(jù)項的量的比值,可以用存在關(guān)聯(lián)的數(shù)據(jù)同時存在的概率來表示。支持度是評估頻繁項集的一項重要指標(biāo),支持度越高,構(gòu)成頻繁項集的可能性越高,并且支持度低于某個限度時將被去除。這個限度就是最小支持度閾值,其代表著項集的最小支持度。頻繁項集是指支持度大小在最小支持度閾值之上的項集,反之在其之下的項目則是非頻繁項集。在現(xiàn)實商業(yè)環(huán)境中,它代表著消費者要求關(guān)聯(lián)規(guī)則必須滿足的最低概率,用于指定規(guī)則需要滿足的最低標(biāo)準(zhǔn)[4]。置信度表示的是當(dāng)數(shù)據(jù)集中存在某項之后,另一不同的項也存在的概率,所有置信度越高,關(guān)聯(lián)規(guī)則越可靠[5]。提升度代表著兩事件之間存在著某種關(guān)聯(lián)關(guān)系的強弱程度,當(dāng)提升度的值越大時,則代表著兩者間關(guān)聯(lián)的程度也越強。當(dāng)提升度的值大于1 時,說明兩事件之間成正相關(guān)關(guān)系;當(dāng)提升度的值為1 時,說明兩事件之間沒有相關(guān)關(guān)系;當(dāng)提升度的值小于1 時,說明兩事件之間成負相關(guān)關(guān)系[6]。
預(yù)處理面料歷史數(shù)據(jù)后,構(gòu)建先驗算法挖掘不同規(guī)格型號面料間的關(guān)聯(lián)規(guī)則。首先,遍歷所有不同規(guī)格型號的面料數(shù)據(jù),生成面料類別候選頻繁1 項集。然后,計算各面料類別頻繁1 項集的支持度。再將計算得到的結(jié)果依次和提前設(shè)置的最小支持度對比,去除小于最小支持度閾值的面料類別項集。然后判斷剩余的項集是否為空,成立時將產(chǎn)生關(guān)聯(lián)規(guī)則。不成立時,連接生成k+1 項面料類別頻繁項集。循環(huán)連接與剪枝的步驟,直至生成具有可信度的不同規(guī)格型號間的面料關(guān)聯(lián)規(guī)則?;谙闰炈惴ǖ姆b面料關(guān)聯(lián)規(guī)則挖掘流程如圖1 所示。
圖1 基于先驗算法的面料關(guān)聯(lián)規(guī)則挖掘流程圖Fig.1 Flowchart of mining fabricassociation rules based on prioralgorithm
針對面料的復(fù)雜性,采用先驗算法挖掘不同規(guī)格型號服裝面料間的關(guān)聯(lián)程度。先驗算法能找出數(shù)據(jù)集之間的關(guān)聯(lián)信息,其具有良好的整體性能。先驗算法與頻繁項集挖掘面料間關(guān)聯(lián)規(guī)則的辦法相比,能降低計算量,提高挖掘效率,適合本文多批多類不同規(guī)格型號面料需求預(yù)測問題的解決。在關(guān)聯(lián)規(guī)則產(chǎn)生的部分,由于不需要再遍歷數(shù)據(jù)集內(nèi)的各數(shù)據(jù)項,因此頻繁項集發(fā)掘是算法非常重要的一部分。在尋找頻繁項集的階段,若是數(shù)據(jù)集中的項目過多,則會產(chǎn)生數(shù)據(jù)組合爆炸的問題。因此傳統(tǒng)的基于頻繁項集挖掘關(guān)聯(lián)關(guān)系的方法具有缺陷性。針對此問題,先驗算法具有某項集頻繁則子項集也頻繁,以及某項集非頻繁則對應(yīng)超集也非頻繁的特性。在相同情況下,先驗算法的過程更簡單,效率更高。
先驗算法通過遍歷數(shù)據(jù)的方式,查找其中經(jīng)常出現(xiàn)的數(shù)據(jù)構(gòu)成頻繁項集,然后采取對這些頻繁項集進行約束的方式來找到關(guān)聯(lián)規(guī)則,基于此來幫助決策者制定相關(guān)策略。但此過程中,單單以某項集出現(xiàn)的次數(shù)來衡量是否是頻繁項集的方法是片面的,此過程需要按照關(guān)聯(lián)規(guī)則的信度標(biāo)準(zhǔn)進行衡量。采用先驗算法分析不同規(guī)格型號面料間的關(guān)聯(lián)程度可以找到面料間潛在的關(guān)聯(lián)規(guī)則。最小支持度閾值的設(shè)置是挖掘不同規(guī)格型號面料規(guī)則的重點,通過對比不同支持度閾值生成的規(guī)則數(shù)可以得到合適的最小支持度閾值參數(shù)。為保證基于先驗算法的服裝面料關(guān)聯(lián)規(guī)則挖掘模型有更好的效果,本實驗不采用模型默認的最小支持度閾值,而采用對比的方法確定該值。由于面料種類多,分別設(shè)置支持度閾值大小為0.1%、0.5%、1%、2%、3%、4%以及5%,得到不同的生成的面料關(guān)聯(lián)規(guī)則條數(shù)。其中當(dāng)支持度閾值為2%時,生成了56 條關(guān)聯(lián)規(guī)則,并且有32 條有0.5 以上的置信度。說明最小支持度閾值設(shè)置為2%時,挖掘出的不同規(guī)格型號面料間的關(guān)聯(lián)規(guī)則具有可信度。因此,本實驗設(shè)置服裝面料的最小支持度閾值為2%。
提升度Lift 代表著事件之間存在著某種關(guān)聯(lián)的強弱程度,當(dāng)提升度的值越大時,則代表著兩者間關(guān)聯(lián)的程度也越強。當(dāng)Lift>1 時,面料間呈正相關(guān),且當(dāng)值越大時,面料間的關(guān)聯(lián)正相關(guān)程度越高。當(dāng)Lift=1 時,面料間沒有相關(guān)關(guān)系。當(dāng)Lift<1 時,面料間呈負相關(guān),且當(dāng)數(shù)值越小時,負相關(guān)程度越高。將提升度Lift 作為規(guī)則排序的度量依據(jù),并設(shè)置最小度量值為1。由于總共有106 種規(guī)格型號的面料,因此設(shè)置最大的項集長度為106,以此來防止關(guān)聯(lián)算法失效?;谙闰炈惴ǖ拿媪详P(guān)聯(lián)規(guī)則挖掘模型的參數(shù)配置如表1 所示。
表1 基于先驗算法的面料關(guān)聯(lián)規(guī)則挖掘模型參數(shù)配置Tab.1 Parameter configuration of fabric association rule mining model based on prior algorithm
采用先驗算法遍歷服裝面料歷史生產(chǎn)數(shù)據(jù),同時生成候選的面料類別頻繁項集。按照面料類別分別計算其支持度,將計算得到的結(jié)果與最小支持度閾值做比較,去除小于2%的候選面料項集,循環(huán)連接生成候選頻繁項集直至產(chǎn)生面料關(guān)聯(lián)規(guī)則。基于先驗算法挖掘出的不同規(guī)格型號面料間的關(guān)聯(lián)結(jié)果如表2 所示。
表2 面料關(guān)聯(lián)結(jié)果Tab.2 Fabric association results
由結(jié)果可知,面料jsfkl45786 與面料hgfsd15354 的關(guān)聯(lián)程度最高,其Lift 值為5.62,Confidence 為83.72%,代表著這兩種面料具有很強的正相關(guān)性,且具有可靠性。
本文主要采用基于先驗算法的服裝面料關(guān)聯(lián)規(guī)則挖掘方法,解決服裝企業(yè)大規(guī)模多批多類面料關(guān)聯(lián)規(guī)則挖掘難的問題。挖掘不同規(guī)格型號面料間的關(guān)聯(lián)規(guī)則,能根據(jù)服裝成品的關(guān)系構(gòu)成,優(yōu)化服裝的生產(chǎn)過程。本文在研究實際業(yè)務(wù)場景的基礎(chǔ)上,針對面料的復(fù)雜性,采取相應(yīng)的方法對歷史數(shù)據(jù)中的異常數(shù)據(jù)以及缺失數(shù)據(jù)進行預(yù)處理,為模型提供一批可靠的高質(zhì)量數(shù)據(jù)。采用先驗算法挖掘不同規(guī)格型號服裝面料間的關(guān)聯(lián)程度,并設(shè)計相關(guān)實驗進行驗證,將評價指標(biāo)作為判定生成規(guī)則有效性的依據(jù),驗證面料關(guān)聯(lián)規(guī)則挖掘的實現(xiàn)。基于先驗算法的服裝面料關(guān)聯(lián)規(guī)則挖掘方法能找到多批多類服裝面料間的關(guān)聯(lián),適配了服裝生產(chǎn)過程中面料需求的不確定性,有利于服裝企業(yè)生產(chǎn)效率的提高以及經(jīng)濟效益的提升。