劉鑫
摘 要:數(shù)據(jù)挖掘技術日趨成熟,聚類分析是數(shù)據(jù)挖掘的重要方法。本文以國內(nèi)某產(chǎn)品制造企業(yè)產(chǎn)品生產(chǎn)線自動化采集數(shù)據(jù)為例,研究在聚類分析前,針對生產(chǎn)企業(yè)生產(chǎn)過程數(shù)據(jù)開展基于主成分分析方法的數(shù)據(jù)預處理的過程。
【關鍵詞】數(shù)據(jù)挖掘 主成分分析 預處理 生產(chǎn)行為
當今世界,計算機性能不斷提高,生產(chǎn)企業(yè)內(nèi)部的信息化程度越來越高,數(shù)據(jù)庫管理系統(tǒng)應用越來越廣泛,存儲數(shù)據(jù)的規(guī)模也在不斷地擴大。同時,企業(yè)的生產(chǎn)普遍向著工藝復雜化精細化發(fā)展,產(chǎn)品生產(chǎn)工序增加,操作技術要求提升,這對企業(yè)的生產(chǎn)過程管理、產(chǎn)品質(zhì)量控制帶來了嚴峻的考驗。實際中,企業(yè)管理者面對的數(shù)據(jù)也越來越繁雜,如何從大量復雜的生產(chǎn)過程數(shù)據(jù)中提取出有價值的知識,通過把生產(chǎn)行為數(shù)據(jù)和實際業(yè)務管理有效結合、歸納、挖掘其中的隱藏信息,發(fā)現(xiàn)這些信息之間存在的潛在聯(lián)系,成為了有針對性的產(chǎn)品質(zhì)量控制,支持企業(yè)生產(chǎn)高效率運營的關鍵。
數(shù)據(jù)預處理是數(shù)據(jù)挖掘聚類分析前必須要做的工作,其中包括對原始數(shù)據(jù)進行必要的清洗、集成、轉換、離散和歸約等一系列工作,使之達到挖掘算法進行知識獲取研究所要求的最低規(guī)范和標準。處理過程涉及多種統(tǒng)計學方法,如序列分析、回歸分析、貝葉斯分析、判別分析、相關分析、主成分分析等,本文主要介紹應用主成分分析方法處理生產(chǎn)過程數(shù)據(jù),降低維度變量的問題。
1 主成分分析的介紹
主成分分析方法是利用數(shù)據(jù)集變量降低維度的思想,把反映一個事物特征的多個變量,用較少的具有代表性的變量描述。它的中心思想是縮減一個包括很多相互聯(lián)系著的變量的數(shù)據(jù)集,在數(shù)據(jù)集中,保留盡可能多的有用的變量。主成分分析方法用所有的初始變量來得到新變量的更小的集合,而這個集合能較好表示初始變量。初始變量的關聯(lián)性越大,結果集所需要的變量個數(shù)就越少。應當考慮原始數(shù)據(jù)之間的關聯(lián)性,即變量之間是否具有可提取的綜合變量的必然聯(lián)系,提取的變量在多大程度上能代表原始事物的信息。
主成分列中,第一個主要成分y1是x1,x2…xp的一切線性組合之中最大的;第二個主要成分y2是x1,x2…xp的一切線性組合之中第二大的;第n個主要成分yn是x1,x2…xp的一切線性組合之中第n大的,而且提取出來的各個主成分中yi與yj相互無關??梢酝ㄟ^公式‖S - λI = O‖計算出方差矩陣S的特征值λ。λ1 ≥λ2≥…≥λp。λ1對應y1的方差,λ2對應y2的方差,…,λp對應yp的方差,因此有
由大到小累計的方差貢獻率達到了閾值,則表示相應主成分覆蓋了原數(shù)據(jù)集的大部分信息,其余的都是噪聲。
2 基于產(chǎn)品制造過程數(shù)據(jù)的主成分分析應用
首先數(shù)據(jù)挖掘對象是產(chǎn)品生產(chǎn)過程中設備采集數(shù)據(jù),以生產(chǎn)單作為主關聯(lián),生產(chǎn)形式是離散線性多次的生產(chǎn),也就是每個生產(chǎn)單之間在生產(chǎn)過程中沒有直接的聯(lián)系,產(chǎn)品可以在一臺設備上操作多次,設備運轉系統(tǒng)采集記錄了設備前部、中部、后部三個部件的溫度以及壓力的數(shù)值,在一個生產(chǎn)階段完成后繼續(xù)進行下一個生產(chǎn)階段的生產(chǎn),不會有并行生產(chǎn)的情況。從過去幾年的系統(tǒng)記錄數(shù)據(jù)計算獲得這些變量,并整合在產(chǎn)品質(zhì)量上,描述生產(chǎn)行為,形成數(shù)據(jù)聚類分析使用的主表。此次研究樣本涉及變量可以分為兩類: 聚類變量與描述變量。聚類變量是根據(jù)既定的業(yè)務目標選擇的并參與聚類的變量。描述變量主要是在利用聚類變量對產(chǎn)品生產(chǎn)特征分類后,為了達到更徹底地了解產(chǎn)品生產(chǎn)特征的目的而需要使用的其他變量,以及其他沒有參與聚類的變量都算作描述變量。
其中“生產(chǎn)單號”、“設備名稱”、“操作員”等作為描述型變量,“平均前壓力值”、“平均后壓力值”、“平均中壓力值”、“平均前溫度值”、“平均后溫度值”、“平均中溫度值”、“平均電流值”、“最小前壓力值”、“最小后壓力值”、“最小中壓力值”、“最小前溫度值”、“最小后溫度值”、“最小中溫度值”、“最小電流值”、“最大前壓力值”、“最大后壓力值”、“最大中壓力值”、“最大前溫度值”、“最大后溫度值”、“最大中溫度值”、“最大電流值”、“研磨時間”,“混合時間”、“高速混合時間”、“上下混合時間”、“重量”、“色差”、“粘度”、“細度”、“干性”等,其中壓力、溫度等值,會有多次記錄,如“第一次平均前壓力值”,“第二次平均前壓力值”、“第三次平均前壓力值”。經(jīng)過統(tǒng)計最多有90個屬性變量參與聚類過程。
對于數(shù)據(jù)集中設備生產(chǎn)時的數(shù)據(jù)采集變量,有些變量之間存在一定的相關性,如果存在較強相關性,那么說明信息存在冗余,可以進行維度縮減。減少參與聚類的變量的個數(shù),將提高聚類的效果。由于生產(chǎn)工序在設備使用上相對獨立,生產(chǎn)工序之間又具有相似的特征,所以首先針對第一階段生產(chǎn)過程中的溫度、壓力生產(chǎn)特征變量進行分析。
主成分分析依賴測量單位的度量,所以在進行主成分分析之前,必須進行變量標準化后再進行簡單相關分析,得到變量特征矩陣,表1顯示了溫度相關變量的相關性矩陣,可以看出變量之間存在正相關性。
進行主成分分析計算關聯(lián)矩陣特征值,并根據(jù)特征值占有率的累計值選取主成分的個數(shù)。特征值表2如下。
由表2可以看出特征值大于1的主成分共有7個,其保留了原始變量74.63%的信息。從左邊部分可以看出特征值大小與主成分個數(shù)的關系,從右邊部分可以看出主成分個數(shù)與累積信息含量的關系。
主成分分析的關鍵是要給主成分賦予新的意義,給出合理的解釋,這個解釋應根據(jù)主成分的計算結果結合定性。通過特征方程(1-1)分析,
Prin1=0.382922*fronttempavg+0.403264*backtempavg+0.378092*middletempavg+0.316121*fronttempmin+0.302468*backtempmin+0.28823*middletempmin+0.282235*fronttempmax+0.276663*backtempmax+0.279643*middletempmax
Prin2=0.310109*leftpressavg+0.231412*rightpressavg+0.220604*middlepressavg+0.27013*leftpressmin+0.26198*rightpressmin+0.20965*middlepressmin+0.453727*leftpressmax+0.410205*rightpressmax+0.233996*middlepressmax
Prin3=0.21342*currentvalueavg+0.61568*currentvaluemin+0.634203* currentvaluemax
Prin4= 0.573596*currentvalueavg+ 0.556702* cl (1)
設備的壓力、溫度、電流等參數(shù)的平均值與其運行中的最大值、最小值存在高度關聯(lián)性,產(chǎn)量與電流平均值之間也存在高度關聯(lián)性,但是前、中、后部件的溫度或壓力的關聯(lián)性相對獨立,研磨時間也相對獨立。之后分別對第二、三階段的研磨數(shù)據(jù)進行分析,也同樣出現(xiàn)了相同的結果。由此,為了降低數(shù)據(jù)集維度數(shù)量,提高聚類的效果,針對實例企業(yè)生產(chǎn)設備采集數(shù)據(jù)可以進行適當?shù)淖兞靠s減,保留變量:“平均前壓力值”、“平均后壓力值”、“平均中壓力值”、“平均前溫度值”、“平均后溫度值”、“平均中溫度值”、“研磨時間”,“混合時間”、“高速混合時間”、“上下混合時間”、“重量”、“色差”、“粘度”、“細度”、“干性”,數(shù)據(jù)集總變量數(shù)也由90個縮減為33個。
3 結論
研究可以發(fā)現(xiàn)企業(yè)生產(chǎn)數(shù)據(jù)集中存在著大量冗余的變量,如果放任不管,可能會增加聚類分析的復雜度,影響聚類的準確性。所以,通過SAS主成分分析方法對數(shù)據(jù)進行預處理,可以有效地發(fā)現(xiàn)生產(chǎn)過程中的關鍵變量信息,以及它們之間的關聯(lián)關系。
參考文獻
[1]阮靜.SAS統(tǒng)計分析從入門到精通[M].北京:人民郵電出版社,2009.
[2]何曉群.現(xiàn)代統(tǒng)計分析方法與應用[M].北京:中國人民大學出版社,1998(01).
[3]唐懿芳,鐘達夫.主成分分析方法對數(shù)據(jù)進行預處理[J].廣西師范大學學報,1001-6597.2002.s1.050.
作者單位
中鈔油墨有限公司 上海市 201315