常廣炎 楊彬
摘 要:物聯(lián)網(wǎng)與工業(yè)制造深度融合,物聯(lián)信息系統(tǒng)將生產(chǎn)中的供應、制造、銷售等信息數(shù)據(jù)化、智慧化,最后達到快速、有效、個性化的產(chǎn)品供應。文中描述了制造業(yè)中使用數(shù)據(jù)分析的挑戰(zhàn),根據(jù)應用程序中的經(jīng)驗,提出了操作建議,并分享了首選的技術(shù)堆棧。
關(guān)鍵詞:物聯(lián)網(wǎng);大數(shù)據(jù);制造分析;工業(yè)制造;信息系統(tǒng);智慧化
中圖分類號:TP274文獻標識碼:A文章編號:2095-1302(2019)03-0-03
0 引 言
德國“工業(yè)4.0”和美國的“工業(yè)互聯(lián)網(wǎng)”將重構(gòu)世界工業(yè)布局和經(jīng)濟格局,給世界各國帶來不同的挑戰(zhàn)和機遇。我國國務院印發(fā)“中國制造2025”,作為實施制造強國戰(zhàn)略第一個十年的行動綱領(lǐng),將加快推動物聯(lián)網(wǎng)技術(shù)與制造技術(shù)融合發(fā)展[1]。物聯(lián)網(wǎng)收集有關(guān)機器操作、材料使用、設(shè)施物流等數(shù)據(jù),帶來了操作人員的透明度。這種透明性是由數(shù)據(jù)分析應用所帶來的,它指的是使用統(tǒng)計和機器學習方法來發(fā)現(xiàn)不同的數(shù)據(jù)特征和模式。機器學習技術(shù)越來越多地用于各種制造應用中,如預測性維護,測試時間縮短,供應鏈優(yōu)化和流程優(yōu)化等[2-4]。企業(yè)的制造過程已由傳統(tǒng)的“黑箱”模式逐漸向“多維度、透明化和泛在感知”模式發(fā)展[5]。
1 制造分析面臨的挑戰(zhàn)
制造分析的目標是通過降低成本而不影響質(zhì)量來提高生產(chǎn)力:
(1)減少測試時間和校準,包括預測測試結(jié)果和校準參數(shù);
(2)提高質(zhì)量,通過確定廢品的根本原因和自行優(yōu)化生產(chǎn)線來降低生產(chǎn)廢品(壞件)的成本;
(3)降低保修成本,使用質(zhì)量測試和過程數(shù)據(jù)來預測現(xiàn)場故障,以及跨價值流分析;
(4)提高產(chǎn)量,跨生產(chǎn)線和工廠的基準分析,提高第一次通過率,提高首過產(chǎn)量,并找出總體設(shè)備效率(OEE)或周期時間等性能瓶頸的原因;
(5)執(zhí)行預測性維護,分析機器運行狀況,確定故障的主要原因,預測部件故障以避免計劃外停機。
傳統(tǒng)的質(zhì)量改進計劃包括六西格瑪、戴明循環(huán)、全面質(zhì)量管理(TQM)和多里安·謝寧的統(tǒng)計工程(SE)[6]。在20世紀80年代和90年代開發(fā)的方法通常應用于少量的數(shù)據(jù),并找到參與因素之間的單變量關(guān)系。 使用MapReduce范式簡化大型數(shù)據(jù)集中的數(shù)據(jù)處理及其進一步發(fā)展導致大數(shù)據(jù)分析的主流擴散[7]。隨著機器學習技術(shù)的發(fā)展,大數(shù)據(jù)分析的發(fā)展提供了一系列新的工具,可應用于制造分析。 這些功能包括能夠在批處理和流模式下分析千兆字節(jié)的數(shù)據(jù),能夠在許多變量之間找到復雜的多元非線性關(guān)系,以及將因果關(guān)系與相關(guān)性區(qū)分開來的機器學習算法。
在生產(chǎn)線上生產(chǎn)數(shù)以百萬計的零件,并為他們收集了數(shù)千個工序和質(zhì)量測量的數(shù)據(jù),這對提高質(zhì)量和降低成本非常重要。實驗設(shè)計(DoE),通過控制實驗,反復探索數(shù)千個原因,往往太耗時,成本高昂。制造專家依靠其領(lǐng)域知識來檢測可能影響質(zhì)量的關(guān)鍵因素,再根據(jù)這些因素運行DoE。大數(shù)據(jù)分析和機器學習的進步使得檢測關(guān)鍵因素能夠有效地影響質(zhì)量和產(chǎn)量。這與領(lǐng)域知識相結(jié)合,能夠快速檢測故障的根本原因。然而,在制造業(yè)中有一些獨特的數(shù)據(jù)科學挑戰(zhàn)。
(1)虛警和假陰性的不相等成本,在計算準確率時,必須認識到虛警和假陰性可能產(chǎn)生不相等的成本。假設(shè)一個假陰性是一個壞的部分/實例,被錯誤地預測為好的。另外,假設(shè)一個錯誤的警報是一個好的部分,被錯誤地預測為壞的。進一步假設(shè)所生產(chǎn)的部件是安全關(guān)鍵部件,錯誤地預測壞的部分是好的(假陰性),會使人的生命處于危險之中。因此,假陰性的代價可能比假警報高得多。在將業(yè)務目標轉(zhuǎn)化為技術(shù)目標和候選評估方法時,需要考慮這種權(quán)衡。
(2)數(shù)據(jù)收集和可追溯性問題,數(shù)據(jù)收集問題經(jīng)常發(fā)生, 許多裝配線缺乏“端到端的可追溯性”。換句話說,通常沒有與正在生產(chǎn)部件和處理步驟相關(guān)聯(lián)的唯一標識符。一種解決方法是使用時間戳來代替標識符。另一種情況涉及不完整的數(shù)據(jù)集。這種情況下,在預測和分析中省略不完整信息部分或?qū)嵗?,或者使用一些估算方法(在咨詢了制造專家之后)?/p>
(3)大量的特性,與傳統(tǒng)的數(shù)據(jù)挖掘中的數(shù)據(jù)集不同的是在制造分析中觀察到的特征可能數(shù)以千計。因此必須注意避免機器學習算法只能使用精簡數(shù)據(jù)集(即具有少量特征的數(shù)據(jù)集)。
(4)多重共線性,當產(chǎn)品通過裝配線時,在生產(chǎn)流程的不同站點上采取不同的測量方法。這些測量中的一些可以是高度相關(guān)的,然而許多機器學習和數(shù)據(jù)挖掘算法特性相互獨立,對于提出的分析方法,應該仔細研究多重共線性問題。
(5)分類失衡問題,好的和壞的部分(或廢品,即不通過質(zhì)量控制測試的部分)之間存在極大的不平衡。比例范圍可能從9∶1到甚至低于99 000 000∶1。應用標準分類技術(shù)區(qū)分好的零件和廢料是困難的,因此提出了幾種處理類不平衡方法,并應用于制造分析[8]。
(6)非平穩(wěn)數(shù)據(jù),由于各種因素,如供應商或運營商的變化以及機器中的校準偏差,基礎(chǔ)制造過程可能會發(fā)生變化。因此需要應用更穩(wěn)健的數(shù)據(jù)非穩(wěn)態(tài)性質(zhì)的方法。
(7)模型可能難以解釋,生產(chǎn)和質(zhì)量控制工程師需要了解告知流程或設(shè)計更改的分析解決方案。否則生成的建議和決策可能會被忽略。
2 利用大數(shù)據(jù)工具鏈
從制造產(chǎn)品價值鏈收集的數(shù)據(jù)存儲到數(shù)據(jù)庫中后,需要一個數(shù)據(jù)分析系統(tǒng)對這些數(shù)據(jù)進行分析。制造數(shù)據(jù)分析系統(tǒng)框架如圖1所示。數(shù)據(jù)首先從不同的數(shù)據(jù)庫提取、轉(zhuǎn)換和加載(ETL)到分布式文件系統(tǒng),如Hadoop分布式文件系統(tǒng)(HDFS)或NoSQL數(shù)據(jù)庫(如MongoDB)中。接下來,機器學習和分析工具執(zhí)行預測建?;蛎枋鲂苑治?。為了部署預測模型,前面提到的工具被用來將歷史數(shù)據(jù)上的訓練模型轉(zhuǎn)換為開放的、封裝的統(tǒng)計數(shù)據(jù)挖掘模型和關(guān)聯(lián)的元數(shù)據(jù),稱為預測模型標記語言(PMML),并將其存儲在一個計分引擎中。任何來源的新數(shù)據(jù)都使用存儲在計分引擎中的模型進行評估[9]。
用于制造分析的大數(shù)據(jù)軟件堆??梢允情_源、商業(yè)和專有工具的混合體,制造分析軟件堆棧示例如圖2所示。從已完成的項目中獲悉,現(xiàn)有的堆棧供應商目前沒有提供完整的解決方案。盡管技術(shù)領(lǐng)域正在迅速發(fā)展,但目前最好的選擇是模塊化,重點是真正的分布式組件,成功的核心思想是將開源和商業(yè)組件混合在一起[10]。
除了這里介紹的體系結(jié)構(gòu)之外,還有各種商用物聯(lián)網(wǎng)平臺。其中包括GE的Predix(www.predix.com),博世的物聯(lián)網(wǎng)套件(www.bosch-iot-suite.com),IBM的Bluemix(www.ibm.com/cloud-computing/),ABB基于Microsoft Azure的物聯(lián)網(wǎng)服務和人員平臺(https://azure.microsoft.com)以及亞馬遜的物聯(lián)網(wǎng)云(https://aws.amazon.com/iot)。這些平臺提供了許多用于物聯(lián)網(wǎng)和分析的標準服務,包括身份管理和數(shù)據(jù)安全,這里的案例研究中沒有涉及。另一方面,最好的方法提供了靈活性和可定制的功能,使實現(xiàn)比標準的商業(yè)解決方案更有效。但是實施這樣的解決方案可能需要在實施現(xiàn)場提供一個有能力的數(shù)據(jù)科學團隊。這個選擇可以歸結(jié)為幾個因素,非功能性需求、成本、物聯(lián)網(wǎng)和分析技術(shù)。
3 降低廢品率的案例研究
任何在工廠組裝或生產(chǎn)的產(chǎn)品都要經(jīng)過一系列的質(zhì)量檢測,以確定是否需要報廢。高報廢率是由于不及時向客戶交付產(chǎn)品的機會成本、人員浪費時間、非可重復使用部件的浪費及設(shè)備管理費用造成的。降低廢品率是制造商需要解決的主要問題之一。減少廢品的方法包括找出產(chǎn)品質(zhì)量低的根本原因。
3.1 數(shù)據(jù)處理
根源分析從整合生產(chǎn)線上所有可用的數(shù)據(jù)開始。裝配線、工作站和機器構(gòu)成了工業(yè)生產(chǎn)單元,可被視為等同于物聯(lián)網(wǎng)傳感器網(wǎng)絡(luò)。在制造過程中,有關(guān)過程狀態(tài)、機器狀態(tài)、工具和部件的信息不斷地被傳遞和存儲。在本案例研究中考慮工廠生產(chǎn)的數(shù)量、規(guī)模和頻率,以至于需要使用一個大數(shù)據(jù)工具棧,類似于圖2所示的數(shù)據(jù)工具棧,用于流、存儲、預處理和連接數(shù)據(jù)。這條數(shù)據(jù)管道幫助在批處理歷史數(shù)據(jù)和流實時數(shù)據(jù)上構(gòu)建機器學習模型。雖然批量數(shù)據(jù)分析幫助識別制造過程中的問題,但流式數(shù)據(jù)分析使工廠工程師能夠定期訪問最新問題及其根本原因。使用Kafka(https://kafka.apache.org)和Spark streaming(http://spark.apache.org/streaming)傳輸來自不同數(shù)據(jù)源的實時數(shù)據(jù);使用Hadoop(http://hadoop.apache.org)和HBase(https://hbase.apache.org)高效地存儲數(shù)據(jù);使用Spark(http://spark.apache.org)和MapReduce框架分析數(shù)據(jù)。
使用這些工具的兩個主要原因是它們作為開源產(chǎn)品的可用性,以及它們龐大而活躍的開發(fā)人員網(wǎng)絡(luò),通過這些網(wǎng)絡(luò)不斷地更新這些工具。
3.2 機器學習
隨著Spark MLLib(http://spark.apache.org/mllib)和SparkR(http://spark.apache.org/docs/latest/index.html)等分布式計算工具的功能增加,其變得更加容易實現(xiàn)分布式和在線的機器學習模型,如支持向量機、梯度推進樹及大量數(shù)據(jù)的決策樹。測試不同的機器參數(shù)和過程測量對整體產(chǎn)品質(zhì)量的影響,從相關(guān)分析到方差分析和卡方假設(shè)檢驗,有助于確定個體測量對產(chǎn)品質(zhì)量的影響。本設(shè)計訓練了一些分類和回歸模型,這些模型可以區(qū)分通過質(zhì)量控制的部分和不通過質(zhì)量控制的部分,可以使用經(jīng)過訓練的模型來推斷決策規(guī)則。根據(jù)純度最高的規(guī)則,純度定義為Nb / N,其中N是滿足規(guī)則的產(chǎn)品數(shù)量,Nb是滿足規(guī)則的有缺陷或壞部件的總數(shù)。
雖然這些模型可以識別變量之間的線性和非線性關(guān)系,但它們并不表示因果關(guān)系。因果關(guān)系對于確定真正的根本原因至關(guān)重要,使用貝葉斯因果模型來推斷所有數(shù)據(jù)的因果關(guān)系。
3.3 可視化
收集大數(shù)據(jù)的可視化平臺至關(guān)重要。工程師面臨的主要挑戰(zhàn)是對完整的制造過程沒有清晰而全面的概述。這樣的概述將幫助他們在發(fā)生任何不良事件之前做出決定并評估其狀態(tài)。描述性分析使用Tableau(www.tableau.com)和微軟 BI(https://powerbi.microsoft.com/en-us)等工具幫助實現(xiàn)此目的。描述性分析包括許多視圖,如直方圖、雙變量圖和相關(guān)性圖。
除了可視化統(tǒng)計描述外,還應為所有預測模型提供一個清晰的視覺界面。所有影響特定質(zhì)量參數(shù)的測量都可以被可視化,后端的數(shù)據(jù)可按時間過濾。
4 結(jié) 語
“物聯(lián)網(wǎng)+ 中國制造2025”是實現(xiàn)我國制造業(yè)與新一代信息技術(shù)深度結(jié)合的具體表現(xiàn),互聯(lián)制造業(yè)正經(jīng)歷一場技術(shù)革命,用戶會要求在所有產(chǎn)品中增加個性化和許多消費電子產(chǎn)品功能。制造分析有利于發(fā)展智能制造和大規(guī)模個性化定制,提升網(wǎng)絡(luò)化協(xié)同制造水平,加速制造業(yè)服務化轉(zhuǎn)型。這將關(guān)閉設(shè)計、制造、營銷、銷售和上市后跟蹤/監(jiān)視之間的循環(huán)。物聯(lián)網(wǎng)將成為“中國制造”轉(zhuǎn)型升級、提升附加值的重要手段。大數(shù)據(jù)和相關(guān)分析將成為工程連續(xù)過程中提取所需知識和提供智能的關(guān)鍵技術(shù)。
參 考 文 獻
[1]陳玉川.“物聯(lián)網(wǎng)+中國制造2025”的實現(xiàn)路徑研究[J]. 物聯(lián)網(wǎng)技術(shù),2016,6(6):63-66.
[2] WANG S,YAO X.Using Class Imbalance Learning for Software Defect Prediction[J]. IEEE Trans. Reliability,2013,62(2):434–443.
[3] ELBANNA M.A novel approach for classifying imbalance welding data:mahalanobis genetic algorithm (MGA) [J]. Advanced manufacturing Technology,2015,77(1):407–425.
[4] CHOUDHARY A K,HARDING J A,TIWARI M K.Data mining in manufacturing:a review based on the kind of knowledge[J]. Intelligent Manufacturing,2008,20(5):501-521.
[5]劉明周,馬靖,王強,等. 一種物聯(lián)網(wǎng)環(huán)境下的制造資源配置及信息集成技術(shù)研究[J]. 中國機械工程,2015,26(3):339-347
[6] SENAPATI N R.Six sigma:myths and realitie[J]. Quality & Reliability Management,2004,21(6):683-690.
[7] DEAN J,GHEMAWAT S. MapReduce:simplified data processing on large clusters[J]. J. Dean and S. Ghemawat Comm.ACM,2008,51(1):107-113.
[8] HONG C,GHOSH R,SRINIVASAN S.Dealing with class imbalance using thresholding[C]. presentation,ODD 4.0:Outlier Definition,Detection,and Description on Demand,ACM SIGKDD,2016.
[9]傅建中.智能制造裝備的發(fā)展現(xiàn)狀與趨勢[J].機電工程,2014(8):959-962.
[10]孫柏林.未來智能裝備制造業(yè)發(fā)展趨勢述評[J].自動化儀表,2013(1):1-5.