石慧芳,陳陽(yáng)
(廣東省科技基礎(chǔ)條件平臺(tái)中心,廣州510033)
基于大數(shù)據(jù)的制造業(yè)企業(yè)信息化數(shù)據(jù)分析及應(yīng)用技術(shù)研究
石慧芳,陳陽(yáng)
(廣東省科技基礎(chǔ)條件平臺(tái)中心,廣州510033)
分析制造業(yè)企業(yè)對(duì)數(shù)據(jù)處理的需求,提出采用NoSQL數(shù)據(jù)庫(kù)實(shí)現(xiàn)生產(chǎn)參數(shù)數(shù)據(jù)的存取,從現(xiàn)有生產(chǎn)系統(tǒng)中分流、緩解數(shù)據(jù)處理壓力;結(jié)合數(shù)據(jù)挖掘技術(shù)和Hadoop計(jì)算框架,從海量的生產(chǎn)數(shù)據(jù)中挖掘出有價(jià)值的信息,研究產(chǎn)品最終特性、良品率等指標(biāo)與產(chǎn)品制造過(guò)程參數(shù)之間的關(guān)系,建立相關(guān)模型,指導(dǎo)企業(yè)快速解決產(chǎn)品品質(zhì)和生產(chǎn)管理等問(wèn)題,提高企業(yè)競(jìng)爭(zhēng)力。
NoSQL數(shù)據(jù)庫(kù);Hadoop;制造執(zhí)行系統(tǒng)
制造業(yè)是國(guó)民經(jīng)濟(jì)的主體,制造業(yè)強(qiáng)則實(shí)體經(jīng)濟(jì)強(qiáng)。目前,制造業(yè)在不斷的變革,數(shù)字化、網(wǎng)絡(luò)化、智能化、服務(wù)化已逐漸成為制造業(yè)發(fā)展的主流。廣東是國(guó)內(nèi)制造大省和全球重要制造基地,但在新經(jīng)濟(jì)形勢(shì)下,我省制造業(yè)發(fā)展也面臨嚴(yán)峻挑戰(zhàn),迫使制造業(yè)必須加快轉(zhuǎn)型升級(jí),由“制造”向“智造”改變。本研究以“廣東制造”向“廣東智造”轉(zhuǎn)型為契機(jī),重點(diǎn)關(guān)注制造業(yè)企業(yè)信息化升級(jí)中的數(shù)據(jù)價(jià)值分析,解決制造業(yè)生產(chǎn)環(huán)境“數(shù)據(jù)豐富,信息匱乏”的問(wèn)題。
大數(shù)據(jù)(Big Data)是一個(gè)綜合性概念,它包括因具備規(guī)模性(volume)、多樣性(variety)、高速性(velocity)和價(jià)值性(value)四個(gè)典型特征且難以進(jìn)行管理的數(shù)據(jù),具有對(duì)這些數(shù)據(jù)進(jìn)行存儲(chǔ)、處理、分析的技術(shù),以及能夠通過(guò)分析這些數(shù)據(jù)獲得實(shí)用意義和觀點(diǎn)的人才和組織[1]。
制造業(yè)中的電子半導(dǎo)體生產(chǎn)、精密儀器制造、生物制藥等高端制造業(yè),往往具有嚴(yán)密的工程設(shè)計(jì)、復(fù)雜的裝配生產(chǎn)線、大量的控制加工設(shè)備與工藝參數(shù)、精確的過(guò)程控制和材料的嚴(yán)格規(guī)范[4]。隨著工業(yè)4.0技術(shù)的發(fā)展,制造業(yè)的工藝、裝備和信息技術(shù)也不斷發(fā)展,現(xiàn)代制造業(yè)在生產(chǎn)過(guò)程中產(chǎn)生和積累了大量歷史數(shù)據(jù)。這些數(shù)據(jù)中蘊(yùn)含對(duì)生產(chǎn)和管理有很高價(jià)值的知識(shí)和信息,但企業(yè)工作人員通過(guò)人工分析很難察覺(jué)到參數(shù)間的關(guān)聯(lián)模式和影響品質(zhì)的重要生產(chǎn)要素等信息。制造業(yè)中產(chǎn)生的這些數(shù)據(jù)完全符合大數(shù)據(jù)的特征,因此,本文提出利用基于NoSQL、Hadoop和數(shù)據(jù)挖掘的大數(shù)據(jù)技術(shù)解決制造業(yè)海量信息數(shù)據(jù)處理,以提升產(chǎn)品性能和生產(chǎn)效率。
作為制造業(yè)企業(yè)信息化重要組成部分的制造執(zhí)行系統(tǒng)(MES)中包含了大量的生產(chǎn)管理一線的數(shù)據(jù),本文從這些海量數(shù)據(jù)入手,研究如何從中過(guò)濾、提取有價(jià)值的信息,利用數(shù)據(jù)挖掘技術(shù)研究企業(yè)產(chǎn)品的最終特性與制造過(guò)程中參數(shù)之間的關(guān)系,建立針對(duì)制造企業(yè)生產(chǎn)領(lǐng)域的數(shù)據(jù)挖掘模型,幫助企業(yè)快速解決產(chǎn)品品質(zhì)和技術(shù)等問(wèn)題。
本文以質(zhì)量管理理論中的“人機(jī)料法環(huán)”五個(gè)影響產(chǎn)品質(zhì)量的主要因素中的四個(gè):“機(jī)料法環(huán)”為基礎(chǔ),通過(guò)收集這四個(gè)因素的數(shù)據(jù),挖掘出有價(jià)值的信息,分析這四個(gè)因素的調(diào)整對(duì)產(chǎn)品質(zhì)量的影響。
(1)機(jī):是指生產(chǎn)中所使用的設(shè)備、工具等輔助生產(chǎn)用具。本文通過(guò)收集、記錄生產(chǎn)設(shè)備的日常運(yùn)行數(shù)據(jù),監(jiān)測(cè)設(shè)備健康狀態(tài),研究設(shè)備負(fù)載,分析設(shè)備在滿負(fù)荷工作、均衡負(fù)荷工作等狀態(tài)下,對(duì)產(chǎn)品數(shù)量、質(zhì)量的影響,為設(shè)備調(diào)度和更新升級(jí)等提供指導(dǎo)。
(2)料:指物料,半成品、配件、原料等產(chǎn)品用料。產(chǎn)品用料的來(lái)源和管理是影響產(chǎn)品質(zhì)量的一個(gè)重要因素。本文通過(guò)收集、記錄產(chǎn)品用料的構(gòu)成、使用量等數(shù)據(jù),分析用料成分,用量等因素與產(chǎn)品特性的關(guān)聯(lián)關(guān)系。
(3)法:指生產(chǎn)過(guò)程中所需遵循的規(guī)章制度、工藝等。本研究重點(diǎn)關(guān)注制造業(yè)企業(yè)的生產(chǎn)工序的管理,分析生產(chǎn)線各個(gè)工序之間安排是否合理,工序間對(duì)接的時(shí)間安排等數(shù)據(jù),研究各個(gè)工序的最佳參數(shù)組合,指導(dǎo)生產(chǎn)工序的改進(jìn)。
(4)環(huán):指生產(chǎn)環(huán)境。本文根據(jù)產(chǎn)品生產(chǎn)所要求的環(huán)境條件,分析生產(chǎn)環(huán)境中溫度、濕度等環(huán)境因素對(duì)產(chǎn)品的影響。
本文通過(guò)分析制造業(yè)企業(yè)對(duì)數(shù)據(jù)處理的需求,采用NoSQL數(shù)據(jù)庫(kù)實(shí)現(xiàn)生產(chǎn)參數(shù)數(shù)據(jù)的存取,從現(xiàn)有生產(chǎn)系統(tǒng)中分流、緩解數(shù)據(jù)處理壓力;結(jié)合數(shù)據(jù)挖掘技術(shù)和Hadoop計(jì)算框架,從海量的生產(chǎn)數(shù)據(jù)中挖掘出有價(jià)值的信息,研究產(chǎn)品最終特性、良品率等指標(biāo)與產(chǎn)品制造過(guò)程參數(shù)之間的關(guān)系,建立相關(guān)模型,指導(dǎo)企業(yè)快速解決產(chǎn)品品質(zhì)和生產(chǎn)管理等問(wèn)題,提高企業(yè)競(jìng)爭(zhēng)力。
3.1基于NoSQL的生產(chǎn)實(shí)時(shí)數(shù)據(jù)存取
在生產(chǎn)系統(tǒng)如MES等產(chǎn)生的大量監(jiān)控?cái)?shù)據(jù)、設(shè)備運(yùn)行記錄、作業(yè)狀態(tài)數(shù)據(jù)等,需要進(jìn)行實(shí)時(shí)的處理,這類數(shù)據(jù)往往具有數(shù)據(jù)量大,呈現(xiàn)非結(jié)構(gòu)化、半結(jié)構(gòu)化等特點(diǎn),而且隨著生產(chǎn)計(jì)劃和生產(chǎn)管理的變更,數(shù)據(jù)的模式可能需要進(jìn)行相應(yīng)調(diào)整。如果采用傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù)對(duì)這類數(shù)據(jù)進(jìn)行存取,效率相對(duì)較低。NoSQL是近年來(lái)快速發(fā)展起來(lái)的數(shù)據(jù)庫(kù)技術(shù),主要用于解決互聯(lián)網(wǎng)應(yīng)用大規(guī)模和高并發(fā)量的數(shù)據(jù)存取需求[3]。NoSQL適用于存儲(chǔ)非結(jié)構(gòu)化數(shù)據(jù),對(duì)數(shù)據(jù)模式約束較少,其通過(guò)多節(jié)點(diǎn)部署等方式達(dá)到數(shù)據(jù)高可用性,避免數(shù)據(jù)單點(diǎn)丟失。隨著企業(yè)對(duì)生產(chǎn)等環(huán)節(jié)的數(shù)據(jù)監(jiān)控、數(shù)據(jù)處理等實(shí)時(shí)性要求的提高,NoSQL數(shù)據(jù)庫(kù)也逐步在生產(chǎn)制造企業(yè)中得到應(yīng)用。因此,基于數(shù)據(jù)實(shí)時(shí)處理和模式變更等方面考慮,本研究將采用NoSQL以滿足生產(chǎn)系統(tǒng)的數(shù)據(jù)處理需求,發(fā)揮NoSQL技術(shù)優(yōu)勢(shì),提高生產(chǎn)實(shí)時(shí)數(shù)據(jù)的存取效率。
圖1 總體研究路線圖
從傳統(tǒng)的關(guān)系模式到NoSQL的轉(zhuǎn)換可以采用反模式化的分解方法,用JSON格式來(lái)表示NoSQL數(shù)據(jù)。例如生產(chǎn)系統(tǒng)在關(guān)系型數(shù)據(jù)庫(kù)中存在以下2個(gè)關(guān)系模式:
表1 生產(chǎn)線信息表
上述2張表根據(jù)外鍵<所屬生產(chǎn)線>進(jìn)行關(guān)聯(lián)。將上述的關(guān)系模式轉(zhuǎn)換為NoSQL數(shù)據(jù)模式時(shí),我們可以采用JSON內(nèi)嵌對(duì)象表示它們的關(guān)系,存儲(chǔ)在NoSQL數(shù)據(jù)庫(kù)中,如下所示:
采用NoSQL數(shù)據(jù)庫(kù)存儲(chǔ)生產(chǎn)一線的實(shí)時(shí)數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù),利用NoSQL靈活的數(shù)據(jù)模式應(yīng)對(duì)生產(chǎn)數(shù)據(jù)模型的不斷更新,增強(qiáng)系統(tǒng)靈活度。分析提取現(xiàn)有生產(chǎn)系統(tǒng)中對(duì)數(shù)據(jù)實(shí)時(shí)性要求高、數(shù)據(jù)模型更新快的數(shù)據(jù),采用NoSQL數(shù)據(jù)庫(kù)進(jìn)行存取,緩解現(xiàn)有系統(tǒng)的數(shù)據(jù)處理壓力。對(duì)數(shù)據(jù)實(shí)時(shí)性要求不高的模塊,仍保留原有系統(tǒng)功能接口,降低系統(tǒng)改造成本。
3.2采用Hadoop實(shí)現(xiàn)并行計(jì)算任務(wù)
Hadoop是一種分布式系統(tǒng)基礎(chǔ)框架,包括HDFS(分布式文件系統(tǒng))和MapReduce(分布式計(jì)算),利用該平臺(tái)可以輕松地對(duì)海量數(shù)據(jù)進(jìn)行分布式處理。本研究將搭建基于Hadoop的計(jì)算平臺(tái),把數(shù)據(jù)挖掘算法中可以并行計(jì)算的任務(wù)交給Hadoop的MapReduce計(jì)算框架完成。MapReduce計(jì)算的核心就是將問(wèn)題分而治之。本研究將所需處理的數(shù)據(jù)劃分為多個(gè)獨(dú)立的子數(shù)據(jù)塊,將它們傳遞給Map節(jié)點(diǎn)。這些Map節(jié)點(diǎn)根據(jù)系統(tǒng)定義的map函數(shù)對(duì)各個(gè)數(shù)據(jù)塊進(jìn)行處理,并存儲(chǔ)中間結(jié)果。然后,再把中間結(jié)果傳遞給Reduce節(jié)點(diǎn),調(diào)用系統(tǒng)定義的reduce函數(shù)做進(jìn)一步處理,合并最終結(jié)果,作為輸出傳遞給系統(tǒng)的下一個(gè)模塊。通過(guò)基于Hadoop的并行計(jì)算,解決海量數(shù)據(jù)的處理問(wèn)題,提高數(shù)據(jù)處理和信息挖掘的效率,為數(shù)據(jù)挖掘提供基礎(chǔ)數(shù)據(jù)保障。
圖2 MapReduce框架圖
3.3采用數(shù)據(jù)挖掘提取有價(jià)值的信息
本研究的最終目標(biāo)是在大量生產(chǎn)數(shù)據(jù)中挖掘有價(jià)值的信息,研究最終產(chǎn)品特性、良品率等指標(biāo)與生產(chǎn)參數(shù)之間的關(guān)系。根據(jù)系統(tǒng)產(chǎn)生的數(shù)據(jù)類型和產(chǎn)品指標(biāo)等特征,采用相應(yīng)的數(shù)據(jù)挖掘方法。例如運(yùn)用單個(gè)工序,全線工序過(guò)程參數(shù)值與產(chǎn)品最終特性的關(guān)系數(shù)據(jù),收集某個(gè)季度的歷史數(shù)據(jù),進(jìn)行數(shù)據(jù)挖掘算法的研究。隨著數(shù)據(jù)的不斷累積,數(shù)據(jù)挖掘算法的不斷迭代,逐步優(yōu)化產(chǎn)品特性與生產(chǎn)參數(shù)數(shù)據(jù)的關(guān)聯(lián)模型。
圖3 數(shù)據(jù)挖掘流程圖
以某一以生物制藥為主的高端制造企業(yè)為例,根據(jù)系統(tǒng)產(chǎn)生的數(shù)據(jù)類型和產(chǎn)品指標(biāo),采用回歸分析和特征組合挖掘的方法,具體如圖4所示,工作流1先集成多種特征選擇的方法,來(lái)選出影響生產(chǎn)制造的重要工藝參數(shù),然后通過(guò)回歸分析方法建立回歸模型,從而建立參數(shù)與產(chǎn)品質(zhì)量的關(guān)系。工作流2是通過(guò)特征組合挖掘的方法,利用頻繁模式分析來(lái)挖掘重要工藝參數(shù)的關(guān)聯(lián)關(guān)系,從而挖掘出可行的參數(shù)配方。通過(guò)數(shù)據(jù)挖掘技術(shù)的應(yīng)用,來(lái)提高生產(chǎn)制造的良品率和綜合效率。
當(dāng)前NoSQL主要應(yīng)用于互聯(lián)網(wǎng)行業(yè),在生產(chǎn)制造行業(yè)的應(yīng)用較少,本文基于企業(yè)數(shù)據(jù)模型的分析,采用NoSQL滿足企業(yè)對(duì)部分實(shí)時(shí)數(shù)據(jù),模式變動(dòng)頻繁的數(shù)據(jù)處理需求。本文提出數(shù)據(jù)挖掘與Hadoop的結(jié)合,將數(shù)據(jù)挖掘中需要并行計(jì)算的任務(wù),采用Hadoop計(jì)算平臺(tái)完成,實(shí)現(xiàn)基于制造業(yè)MES系統(tǒng)的海量數(shù)據(jù)挖掘。
圖4 數(shù)據(jù)挖掘工作流示意圖
[1]趙國(guó)棟,易歡歡,糜萬(wàn)軍,鄂維南.大數(shù)據(jù)時(shí)代的歷史機(jī)遇——產(chǎn)業(yè)變革與數(shù)據(jù)科學(xué)[M].清華大學(xué)出版社,2013.7.
[2]孫彥超,王興芬.基于Hadoop框架的MapReduce計(jì)算模式的優(yōu)化設(shè)計(jì)[J].計(jì)算機(jī)科學(xué),2014(11):333-336.
[3]申德榮,于戈,王習(xí)特,聶鐵錚,寇月.支持大數(shù)據(jù)管理的NoSQL系統(tǒng)研究綜述[J].軟件學(xué)報(bào),2013,24(8):1786-1803.
[4]李濤,曾春秋,周武柏等.大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘——從應(yīng)用的角度看大數(shù)據(jù)挖掘[J].大數(shù)據(jù),2015,041:1-24.
Research on Data Analysis and Application Technology of Manufacturing Enterprise Informatization Based on Big Data
SHI Hui-fang,CHEN Yang
(Guangdong Science&Technology Infrastructure Center,Guangzhou 510033)
Based on the analysis of the demand for data processing in manufacturing enterprises,proposes the use of NoSQL database to realize the access to the data of production parameters,which can ease the pressure of data processing from the current production system.Uses data mining and Hadoop framework technology to dig out valuable information from the mass production data,studies the relationship between the characteristics of the final product,yield and other indicators and product manufacturing process parameters,and establishes related model which can guide enterprises to quickly solve product quality and production management and enhance the competitiveness of enterprises.
NoSQL Database;Hadoop;MES
1007-1423(2016)16-0050-04DOI:10.3969/j.issn.1007-1423.2016.16.015
石慧芳(1984-),女,福建龍巖人,研究生碩士,信息系統(tǒng)項(xiàng)目管理師,研究方向?yàn)殡娮有畔⒓夹g(shù)應(yīng)用
2016-05-25
2016-06-01
廣東省省級(jí)科技計(jì)劃項(xiàng)目(No.2016B080802002、No.2016A010106003)
陳陽(yáng)(1984-),男,廣東潮州人,本科,信息系統(tǒng)項(xiàng)目管理師,研究方向?yàn)橛?jì)算機(jī)、電子信息技術(shù)應(yīng)用