薛春蘭 周傳華 劉福文
[摘 要]SAS數(shù)據(jù)挖掘應用在鋼鐵生產(chǎn)管理數(shù)據(jù)集市中能有效地進行數(shù)據(jù)分析、發(fā)現(xiàn)數(shù)據(jù)之間的關聯(lián)、找出數(shù)據(jù)背后潛在的知識。本文首先建立數(shù)據(jù)集市,為數(shù)據(jù)挖掘提供挖掘平臺;其次分析數(shù)據(jù)挖掘的主要過程以及SAS數(shù)據(jù)挖掘方法;最后列舉SAS數(shù)據(jù)挖掘在鋼鐵企業(yè)生產(chǎn)管理數(shù)據(jù)集市中的實例。通過實例分析,根據(jù)各無委托原因之間的關聯(lián),不僅找到了快速解決無委托板坯量的途徑,而且提供了提高完成合同率的解決方法。
[關鍵詞]數(shù)據(jù)集市;SAS/EM;數(shù)據(jù)挖掘;生產(chǎn)管理
[中圖分類號]TP311.1 [文獻標識碼]A [文章編號]1005-6432(2013)6-0056-03
1 引 言
隨著經(jīng)濟的發(fā)展,鋼鐵企業(yè)面臨的市場競爭越來越大,在鋼材的品種、規(guī)格上,用戶提出的需求越來越多樣化,客戶需求越來越體現(xiàn)多品種、小批量的特點。因此,鋼鐵企業(yè)除了在保證產(chǎn)品質量和交貨期內交貨的情況下,還要大力加強生產(chǎn)管理體制,才能增強企業(yè)的市場競爭力[1]。把數(shù)據(jù)挖掘技術引入到鋼鐵生產(chǎn)管理領域中,以指導鋼鐵生產(chǎn),從而節(jié)約了不必要的資源浪費,提高了企業(yè)效益。在這些潛在的信息中列舉某一個:合同管理中出現(xiàn)大量由于板坯無委托原因所致的合同完成下降問題。如何快速地找出這些原因以及找出這些原因之間的關系,是需要解決的問題。
2 鋼鐵生產(chǎn)管理數(shù)據(jù)集市的建立
傳統(tǒng)的操作型數(shù)據(jù)庫系統(tǒng)技術,主要是事務驅動、面向應用的,而數(shù)據(jù)挖掘和決策支持需要把各種不同源的數(shù)據(jù)進行統(tǒng)一,產(chǎn)生質量高的、純潔的、集成的數(shù)據(jù)。因此,盡管操作型數(shù)據(jù)庫中的數(shù)據(jù)很豐富,但用于決策和數(shù)據(jù)挖掘還是不足的,建立數(shù)據(jù)集市或數(shù)據(jù)倉庫以提供給數(shù)據(jù)挖掘和決策分析是必然的。
數(shù)據(jù)倉庫也就是數(shù)據(jù)的集合,這種集合的特點主要有:面向主題、集成、相對穩(wěn)定、反映歷史變化。數(shù)據(jù)倉庫的實施周期相對較長、成本比較大,且見效比較慢;數(shù)據(jù)集市與數(shù)據(jù)倉庫相比,數(shù)據(jù)集市則是在某一特定部門決策支持的需求基礎上建立起來的,它是一種更小、更集中的、面向特定主題的數(shù)據(jù)倉庫,為決策者提供了一個部門級的數(shù)據(jù)分析的應用系統(tǒng)。
在鋼鐵生產(chǎn)管理系統(tǒng)的基礎上,將數(shù)據(jù)挖掘和數(shù)據(jù)集市引入到鋼鐵生產(chǎn)管理領域中,能獲得有效的管理模型,從而進一步提高鋼鐵生產(chǎn)管理的水平,整個系統(tǒng)如圖1 所示。
2.1 數(shù)據(jù)集市的實現(xiàn)方法
在生產(chǎn)管理數(shù)據(jù)集市的實現(xiàn)過程中,充分利用了已有的生產(chǎn)管理數(shù)據(jù)倉庫和其他操作型環(huán)境下的數(shù)據(jù),采用“利用已有”和“吸收四圍”結合的方法如圖2所示,其中技術質量、生產(chǎn)管理都是企業(yè)最關心的問題,結合當前的需求進行建立初始的數(shù)據(jù)集市,然后根據(jù)實際問題和日常變動的動態(tài)情況隨時擴充完善該數(shù)據(jù)集市。
2.2 數(shù)據(jù)集市的實現(xiàn)過程
無論是數(shù)據(jù)倉庫還是數(shù)據(jù)集市都是為數(shù)據(jù)挖掘和決策支持服務的,從數(shù)據(jù)源抽取時,一般經(jīng)過清洗、轉換、集成等步驟。經(jīng)過對數(shù)據(jù)源數(shù)據(jù)進行聚集、轉換和最后導入數(shù)據(jù)集市等幾個過程最終構建成鋼鐵車間數(shù)據(jù)集市。
(1)數(shù)據(jù)聚集
數(shù)據(jù)聚集就是對數(shù)據(jù)源中的相關數(shù)據(jù)進行匯總。在此聚集的過程中要考慮到數(shù)據(jù)集市的粒度劃分。粒度指的是數(shù)據(jù)倉庫中數(shù)據(jù)單元的詳細程度和數(shù)據(jù)單元的級別,數(shù)據(jù)越詳細,粒度越小,級別越低;反之數(shù)據(jù)綜合度越高,粒度越大,級別就越高。
(2)數(shù)據(jù)轉換
數(shù)據(jù)轉換就是對數(shù)據(jù)進行一定的格式轉換以方便進行數(shù)據(jù)挖掘。在數(shù)據(jù)集市中,例如:對于板坯熱送標志來說,不是采用“計劃下線”、“計劃熱送”、“必須熱送”來存儲,而是將它們分別轉換為“0”、“1”、“2”,不但提高了數(shù)據(jù)集市的存儲性和訪問性能,而且還增強了數(shù)據(jù)挖掘的簡便性。
(3)數(shù)據(jù)導入
數(shù)據(jù)導入過程就是將轉換好的數(shù)據(jù)或數(shù)據(jù)源中本來不需要轉換的數(shù)據(jù)直接放入到數(shù)據(jù)集市中。鋼鐵生產(chǎn)車間原操作數(shù)據(jù)庫存儲了一些如物料消耗信息、工藝信息、工序信息和班組信息等靜態(tài)的數(shù)據(jù)信息,這些數(shù)據(jù)可以直接導入到數(shù)據(jù)集市中。[2]
以上3個過程是相互融合的,并不是孤立的一個過程。對于靜態(tài)數(shù)據(jù)的導入,只有在靜態(tài)信息更新時才會重新導入;而對于聚集,通常在每月的最后一天進行聚集,同時對需要轉換的數(shù)據(jù)進行必要的轉換。
3 數(shù)據(jù)挖掘技術
3.1 數(shù)據(jù)挖掘的基本步驟
數(shù)據(jù)挖掘并不是一個簡單的過程,其主要步驟歸結為:①數(shù)據(jù)清洗,目的是清除數(shù)據(jù)噪聲以及清除與研究目標顯然無關的數(shù)據(jù)。②數(shù)據(jù)集成,其過程就是把多方數(shù)據(jù)源中的相關數(shù)據(jù)進行組合。③數(shù)據(jù)轉換,其作用就是將數(shù)據(jù)轉換成為數(shù)據(jù)挖掘所能識別的數(shù)據(jù)存在形式,即對數(shù)據(jù)進行一定的格式轉換。④數(shù)據(jù)挖掘,利用挖掘算法尋找用戶所需的數(shù)據(jù)模式或規(guī)則以及規(guī)律知識。⑤模式評估,根據(jù)特定的評估標準篩選出有意義的規(guī)則、趨勢、類別、模型等。⑥知識表示,對所挖掘出來的模式進行可視化,把挖掘的結果展示給用戶。
3.2 數(shù)據(jù)挖掘模型選擇
數(shù)據(jù)挖掘模型雖然很多,但比較典型的數(shù)據(jù)挖掘算法主要有:關聯(lián)分析、序列模式分析、分類分析和聚類分析等[3]。每個模型都有其優(yōu)缺點,主要是看在具體某一類的問題上哪種算法更有效,這主要取決于問題的類型以及數(shù)據(jù)的類型、規(guī)模。本文聯(lián)系鋼鐵生產(chǎn)管理中合同管理主題的實際應用,結合關聯(lián)規(guī)則形式的簡潔性、易于解釋和理解行以及捕捉數(shù)據(jù)間重要關系的有效性,選取關聯(lián)規(guī)則分析方法作為本文在生產(chǎn)管理數(shù)據(jù)集市中的分析研究的數(shù)據(jù)挖掘方法。
4 SAS 數(shù)據(jù)挖掘方法
SAS軟件不僅提供了包括SAS/EM在內的一系列數(shù)據(jù)分析組件,而且還提供了自己的數(shù)據(jù)挖掘方法論即SEMMA:①Sample 即數(shù)據(jù)取樣,抽取有關的數(shù)據(jù)。②Explore 即對數(shù)據(jù)子集進行探索和分析,從而找出未知的模式。③Modify 即對數(shù)據(jù)進行調整和技術的選擇。通過①②兩個步驟,對數(shù)據(jù)的狀態(tài)和趨勢就有了一定的了解,問題也有了進一步的明確,這時就需要對數(shù)據(jù)進行選擇、增減、轉化、量化等,以便進一步地進行數(shù)據(jù)挖掘。④Model 即模型開發(fā),選用合適的分析工具,建立模型,進行預測。⑤Assess 即對數(shù)據(jù)挖掘結果進行評價,看其是否是具有有效性和可靠性。
當然以上步驟也不可能一次完成,其中的某些步驟可能要反復進行。在反復進行的過程中,實現(xiàn)對目標問題的解決方案進行不斷的優(yōu)化[4]。
5 SAS數(shù)據(jù)挖掘在鋼鐵生產(chǎn)管理數(shù)據(jù)集市中的實例應用 某鋼鐵企業(yè)使用SAS軟件作為其數(shù)據(jù)分析和決策支持系統(tǒng)的主流平臺,基于SAS的數(shù)據(jù)挖掘技術已經(jīng)在該公司的各個領域內得到了很好的應用,并取得了滿意的效果。本文選取SAS數(shù)據(jù)挖掘在該企業(yè)生產(chǎn)管理數(shù)據(jù)集市中的應用作為研究內容[5]。
在該鋼鐵企業(yè)合同管理中,由于無委托板坯原因導致的合同完成率下降問題在合同管理中一直居高不下(一個合同號對應多個板坯號),而無委托的板坯量相對企業(yè)來說也是極大的一種浪費,在生產(chǎn)板坯過程中如何盡可能以最快的速度來減少無委托板坯量進而提高合同完成率是該鋼鐵企業(yè)長久以來所面臨的較大難題。本文選定如何快速找出各無委托原因之間的關系,進而降低煉鋼中產(chǎn)生的無委托量作為數(shù)據(jù)挖掘的業(yè)務問題[6]。
(1)數(shù)據(jù)準備
本文收集的數(shù)據(jù)是從某鋼鐵企業(yè)產(chǎn)銷系統(tǒng)中抽取的,因為各鋼鐵企業(yè)的實際生產(chǎn)過程是相似的,所以該數(shù)據(jù)具有代表性。通過簡單除去不需要的字段,剩余字段全部用SAS程序讀到數(shù)據(jù)集市中,以此提高數(shù)據(jù)抽取的效率,為下文的數(shù)據(jù)抽取做準備。
(2)數(shù)據(jù)抽取
從某鋼鐵企業(yè)的生產(chǎn)管理數(shù)據(jù)集中抽取某天的無委托板坯實際生產(chǎn)數(shù)據(jù),通過輸入數(shù)據(jù)源節(jié)點讀取所需要的數(shù)據(jù)源,以方便下文數(shù)據(jù)挖掘過程中進行處理、定義各數(shù)據(jù)項的屬性。
現(xiàn)利用SAS/EM工具提供的解決方案來隨機抽取某一天的生產(chǎn)實際數(shù)據(jù)(余材原因即無委托原因),如表1所示。
由表1看出,產(chǎn)生無委托的庫存量是很大的。那么我們如何快速地解決這個問題?首先要找到各無委托原因之間存在什么關系,然后根據(jù)它們之間的關聯(lián)把這些原因反饋到各負責部門,這樣解決問題的能力就大大提高。
(3)數(shù)據(jù)探索
數(shù)據(jù)探索就是在數(shù)據(jù)抽取的基礎上,通過簡單的統(tǒng)計方法來探索影響板坯庫存量和合同管理的無委托各原因的基本情況。數(shù)據(jù)探索是對數(shù)據(jù)的初步研究,來探究數(shù)據(jù)的特殊屬性,以便助于為數(shù)據(jù)挖掘選擇合適的數(shù)據(jù)處理和分析技術。
(4)數(shù)據(jù)調整
數(shù)據(jù)調整是利用無委托板坯的實際生產(chǎn)知識對抽取的數(shù)據(jù)進行加工修改,使之符合無委托板坯的生產(chǎn)實際。
(5)目標變量設定
通過以上分析,由本文的研究內容可知,該數(shù)據(jù)挖掘的目標是尋找各無委托原因數(shù)據(jù)的關系。本文把無委托板坯原因設置為目標變量。
根據(jù)以上數(shù)據(jù)挖掘的分析步驟,由上文選定的關聯(lián)規(guī)則數(shù)據(jù)挖掘模型來分析。SAS平臺中關聯(lián)規(guī)則數(shù)據(jù)挖掘的流程圖,如圖3所示。
根據(jù)SAS關聯(lián)規(guī)則挖掘算法,運行后得到的結果如表2所示。