曹文梁 王超英 鐘 輝
(1.東莞職業(yè)技術(shù)學(xué)院計(jì)算機(jī)工程系 東莞 523808)(2.廣東匯興精工智造股份有限公司 東莞 523000)
傳統(tǒng)質(zhì)量控制的方法是當(dāng)出現(xiàn)質(zhì)量問題以后,通過科學(xué)合理的方式進(jìn)行充分解決,但是在信息化的背景下,此種被動(dòng)式的處理方式,難以滿足企業(yè)的產(chǎn)品生產(chǎn)需求。數(shù)據(jù)挖掘是一種數(shù)據(jù)分析方法,其主要目的尋找大量數(shù)據(jù)之間的聯(lián)系和規(guī)律,在信息化的背景下,企業(yè)產(chǎn)品生產(chǎn)制造過程中產(chǎn)生的數(shù)據(jù)量呈指數(shù)增加,需要通過數(shù)據(jù)挖掘方法才能在海量數(shù)據(jù)中找到有效的信息。目前,我國(guó)對(duì)基于數(shù)據(jù)挖掘的質(zhì)量監(jiān)控和評(píng)價(jià)軟件系統(tǒng)的研究文獻(xiàn)較少。因此,本文結(jié)合生產(chǎn)實(shí)踐,通過C4.5決策樹算法構(gòu)建了質(zhì)量監(jiān)控和評(píng)價(jià)軟件系統(tǒng)模型,從而提高產(chǎn)品質(zhì)量檢驗(yàn)的效率和準(zhǔn)確性。
我國(guó)質(zhì)量監(jiān)控和評(píng)價(jià)軟件系統(tǒng)的起步比較晚,和很多發(fā)達(dá)國(guó)家相比仍然存在較大差距,目前仍然采用傳統(tǒng)的質(zhì)量檢驗(yàn)評(píng)價(jià)體系,不但工作效率比較低,而且誤差也比較大。如果按照傳統(tǒng)質(zhì)量評(píng)價(jià)體系,當(dāng)發(fā)現(xiàn)不合格產(chǎn)品后,就可以判定該產(chǎn)品質(zhì)量不合格,需要檢測(cè)完全部產(chǎn)品以后,才能進(jìn)行最后的判定,大大增加了產(chǎn)品質(zhì)量檢驗(yàn)工作量。在檢驗(yàn)過程容易受到個(gè)體差異等因素的影響,而且檢驗(yàn)效果也不夠穩(wěn)定,通過不完全統(tǒng)計(jì),傳統(tǒng)質(zhì)量判定的準(zhǔn)確率為85%~90%,而在合格產(chǎn)品中出現(xiàn)不合格率為2%~5%,生產(chǎn)制造業(yè)產(chǎn)品基數(shù)比較大,所以每天誤判定的產(chǎn)品數(shù)量非常驚人,在一定程度上限制了企業(yè)的發(fā)展和質(zhì)量評(píng)定體系的完善[1~4]。
產(chǎn)品細(xì)分是生產(chǎn)制造企業(yè)提供差異化產(chǎn)品和服務(wù)的基礎(chǔ),也是現(xiàn)代營(yíng)銷模式發(fā)展的必然趨勢(shì),大量相關(guān)實(shí)例表明,通過質(zhì)量細(xì)分經(jīng)營(yíng)模式,可以促使企業(yè)產(chǎn)品和服務(wù)更好地滿足消費(fèi)者的具體需求,進(jìn)而實(shí)現(xiàn)企業(yè)資源的最大化利用。在全球經(jīng)濟(jì)一體化進(jìn)程的影響下,各行各業(yè)面臨的市場(chǎng)競(jìng)爭(zhēng)越來越激烈,生產(chǎn)制造企業(yè)要想在激烈的市場(chǎng)環(huán)境中占得一席之地,就必須對(duì)客戶群進(jìn)行精細(xì)化的分類和管理。
就流水線產(chǎn)品生產(chǎn)企業(yè)而言,產(chǎn)品的質(zhì)量直接關(guān)系到企業(yè)經(jīng)濟(jì)利益和形象聲譽(yù),所以必須建立科學(xué)合理的質(zhì)量評(píng)價(jià)標(biāo)準(zhǔn)體系,根據(jù)產(chǎn)品的具體需求,在性能、強(qiáng)度、耐久性等方面制定標(biāo)準(zhǔn)體系,先把產(chǎn)品分為合格和不合格兩大類,然后根據(jù)不同的營(yíng)銷方式和產(chǎn)品定價(jià),分為優(yōu)等產(chǎn)品和合格產(chǎn)品兩大類。
1)C4.5決策樹算法概念
決策樹算法[5~9]是目前應(yīng)用最廣泛的推理歸納算法之一,對(duì)處理連續(xù)型和類別變量型問題有非常獨(dú)特的優(yōu)勢(shì),可以有效地利用if-then規(guī)則和相應(yīng)的圖形來具體表示模型,具有很高的可讀性,同時(shí)通過決策樹算法還能不斷地劃分信息,最終實(shí)現(xiàn)把信息分類到不同分枝和不同組織平臺(tái)上。其主要目標(biāo)是針對(duì)類別的應(yīng)變量對(duì)質(zhì)量評(píng)價(jià)的結(jié)果進(jìn)行解釋和預(yù)測(cè)。決策樹算法在數(shù)據(jù)挖掘中的應(yīng)用也非常廣泛,具有以下優(yōu)勢(shì):第一,圖形化分析的結(jié)果更加直觀易于理解;第二,能夠詳細(xì)處理連續(xù)型變量和類別性變量;第三,能夠詳細(xì)科學(xué)地處理大量信息,而且決策樹的大小和數(shù)據(jù)庫(kù)大小無(wú)關(guān),大大降低了數(shù)據(jù)挖掘工作量,當(dāng)多個(gè)變量同時(shí)進(jìn)入模型后,決策樹仍然能發(fā)揮應(yīng)有的作用;第四,其模型可以通過圖形和規(guī)則來表示,進(jìn)一步加強(qiáng)了有效性。
2)C4.5決策樹算法的原理
C4.5 決策樹算法[10~14]主要應(yīng)用了信息理論中的信息增益,從而找到數(shù)據(jù)庫(kù)中信息增益最大的屬性,并建立相應(yīng)的節(jié)點(diǎn),根據(jù)數(shù)據(jù)庫(kù)中信息增益的不同,形成不同的信息分支,然后根據(jù)每個(gè)分支建立同樣的分支,從而形成決策樹,在決策樹上每個(gè)分支都代表了一個(gè)分類規(guī)則,大量相關(guān)實(shí)例表明,和其他分類模型相比,決策樹算法最大的優(yōu)勢(shì)是可以實(shí)現(xiàn)模型的圖形化,為數(shù)據(jù)挖掘工作人員提供有效的數(shù)據(jù)依據(jù)。
設(shè)定某一事件發(fā)生的概率為p,那么此事件發(fā)生后所產(chǎn)生的所有信息量就可以用1(p)來表示,如果p=1,那么1(p)=0,表示此事件屬于必然事件,即該事件一定會(huì)發(fā)生,因此該事件不能提供任何有效的信息。如果一個(gè)事件發(fā)生的概率非常小,而且在具體運(yùn)行中存在較大的不確定性,那么該事件產(chǎn)生的信息也就越多,綜合而言,1(p)屬于一個(gè)遞減函數(shù)[15]。
假設(shè)數(shù)據(jù)庫(kù)中信息量為S,類別變量E包含m個(gè)不同類,通過變量E就可以將信息總量分為m分量。對(duì)應(yīng)m種可能發(fā)生概率,第i種結(jié)果的信息量,該給定樣本分類所得的平均信息為熵,熵是測(cè)量一個(gè)隨機(jī)變量不確定性的測(cè)量標(biāo)準(zhǔn),可以用來測(cè)量訓(xùn)練信息集內(nèi)純度的標(biāo)準(zhǔn)。熵的函數(shù)表示如下式:
變量分類訓(xùn)練信息集的能力,可以利用數(shù)據(jù)增加來檢測(cè)。通過熵函數(shù)得到每個(gè)影響因素的信息增加,具有高級(jí)的數(shù)據(jù)增加的因素選為判定集合的分類因素。由此得到一個(gè)節(jié)點(diǎn),利用這個(gè)因素作為標(biāo)記,對(duì)每個(gè)變量位進(jìn)行分支化處理,并以此得到不同的樣本數(shù)據(jù)。
就流水線產(chǎn)品生產(chǎn)企業(yè)而言,產(chǎn)品的質(zhì)量直接關(guān)系到企業(yè)經(jīng)濟(jì)利益和形象聲譽(yù),所以必須建立科學(xué)合理的質(zhì)量評(píng)價(jià)標(biāo)準(zhǔn)體系,根據(jù)產(chǎn)品的具體需求,在性能、強(qiáng)度、耐久性等方面制定標(biāo)準(zhǔn)體系,先把產(chǎn)品分為合格和不合格兩大類,然后根據(jù)不同的營(yíng)銷方式和產(chǎn)品定價(jià),分為優(yōu)等產(chǎn)品和合格產(chǎn)品兩大類。
在建立數(shù)據(jù)挖掘模型前,必須要對(duì)樣本的具體情況進(jìn)行確定之后,才能構(gòu)建決策樹的具體屬性,具體如表1所示。
然后對(duì)這些數(shù)據(jù)進(jìn)行處理:針對(duì)性剔除無(wú)效的質(zhì)量評(píng)價(jià)信息,簡(jiǎn)化信息處理量。通過A、B、C三種評(píng)定標(biāo)準(zhǔn)進(jìn)行評(píng)定,其中A為優(yōu)質(zhì)產(chǎn)品、B為合格產(chǎn)品、C為不合格產(chǎn)品。根據(jù)具體質(zhì)量檢驗(yàn)情況,把檢驗(yàn)產(chǎn)品分為A、B、C三大類。然后利用決策樹算法來構(gòu)建分類模型,由于決策樹是樹形結(jié)構(gòu),所以每個(gè)分枝都是一個(gè)信息屬性。利用C4.5決策樹算法來處理數(shù)據(jù)集,由于一類標(biāo)號(hào)中都含有不同的2個(gè)屬性值,也就可以獲得兩個(gè)類別,假定優(yōu)等用C1來表示共有9個(gè)樣本信息數(shù)據(jù),用C2來表示共有5個(gè)樣本,通過數(shù)據(jù)挖掘技術(shù),就可以獲得所需的數(shù)據(jù):
表1 樣本數(shù)據(jù)集
在得到分類的模型之后,要用測(cè)試數(shù)據(jù)來判斷模型的正確情況,用來測(cè)試的數(shù)據(jù)都是從數(shù)據(jù)庫(kù)里抽取的,與樣本無(wú)關(guān)聯(lián)的數(shù)據(jù)。本文主要利用構(gòu)建的數(shù)據(jù)分類模型進(jìn)行試驗(yàn),為確保試驗(yàn)的準(zhǔn)確性,采用K折交叉檢驗(yàn)的方法進(jìn)行試驗(yàn),就是先把樣本均等分為K份,然后對(duì)每一組的正確性進(jìn)行檢驗(yàn),再對(duì)分組檢驗(yàn)的正確率和總樣本相除,就可以獲得C4.5決策樹算法的正確率,具體如表2所示。
表2 K折交叉檢驗(yàn)法險(xiǎn)溢數(shù)據(jù)挖掘檢測(cè)正確率對(duì)比
從表2中可以看出,如果質(zhì)量檢驗(yàn)的數(shù)量不斷增加,傳統(tǒng)手工產(chǎn)品質(zhì)量檢測(cè)的正確率明顯下降,而通過數(shù)據(jù)挖掘C4.5決策樹算法檢驗(yàn)結(jié)果的正確性則明顯上升,當(dāng)樣品數(shù)量為100時(shí),由于質(zhì)量檢驗(yàn)的數(shù)量比較少,難以發(fā)揮出數(shù)據(jù)挖掘算法真正的價(jià)值和作用,其正確率為80%,但是樣品數(shù)量在600時(shí),正確率為92%,在800時(shí),正確率為95%,已經(jīng)明顯超過了人工質(zhì)量檢驗(yàn)的的正確率。
近年來,我國(guó)軟件系統(tǒng)的發(fā)展,基于數(shù)據(jù)挖掘的質(zhì)量監(jiān)控和評(píng)價(jià)軟件系統(tǒng)的種類和品牌越來越多,但是目前我國(guó)市場(chǎng)上質(zhì)量監(jiān)控和評(píng)價(jià)軟件系統(tǒng)幾乎都是通用的軟件,沒有針對(duì)不同生產(chǎn)企業(yè)的具體情況而制定具體的指標(biāo)體系以及判定標(biāo)準(zhǔn)。在這樣的基礎(chǔ)上研發(fā)出一套符合實(shí)際的基于數(shù)據(jù)挖掘的質(zhì)量監(jiān)控和評(píng)價(jià)軟件系統(tǒng)就顯得尤為重要。但軟件系統(tǒng)的開發(fā)投資比較大,并存在一定的風(fēng)險(xiǎn)。所以在具體開發(fā)過程中,不但要滿足客戶的需求,而且要從企業(yè)的技術(shù)力量、經(jīng)濟(jì)實(shí)力、管理能力等多個(gè)方面入手。就質(zhì)量評(píng)價(jià)軟件系統(tǒng)的可行性而言,可以從三個(gè)方面入手,即技術(shù)可行性、經(jīng)濟(jì)可行性、社會(huì)可行性,具體如圖1所示。
圖1 質(zhì)量監(jiān)控和評(píng)價(jià)軟件系統(tǒng)可行性分析
就基于數(shù)據(jù)挖掘的質(zhì)量監(jiān)控和評(píng)價(jià)軟件系統(tǒng)體系的結(jié)構(gòu)而言,主要有C/S和B/S模式,其中C/S模式,需要客戶安裝相應(yīng)的客戶端,通過客戶端軟件上傳設(shè)計(jì)圖,而其他客戶可以通過像查詢和檢索對(duì)質(zhì)量監(jiān)控和評(píng)價(jià)軟件系統(tǒng)上的信息進(jìn)行檢索和獲取,其主要缺點(diǎn)是需要在所有工作人員的計(jì)算機(jī)上安裝客戶端,工作量比較大,對(duì)計(jì)算機(jī)的配置要求較高,其維護(hù)成本也比較大。而B/S模式屬于瀏覽器服務(wù)模式,不需要用戶安裝任何客戶端,通過計(jì)算機(jī)等終端設(shè)備和移動(dòng)設(shè)備就可以查詢和下載,對(duì)計(jì)算機(jī)配置的要求比較低,而且靈活實(shí)用,能有效地滿足產(chǎn)品質(zhì)量評(píng)價(jià)需求。
基于數(shù)據(jù)挖掘的質(zhì)量監(jiān)控和評(píng)價(jià)軟件系統(tǒng)不但提高企業(yè)產(chǎn)品質(zhì)量管理的效率,而且也能行之有效地預(yù)測(cè)未來產(chǎn)品質(zhì)量的變化情況,為企業(yè)制定后期發(fā)展戰(zhàn)略目標(biāo)提供真實(shí)有效的數(shù)據(jù)依據(jù),從而實(shí)現(xiàn)降低企業(yè)生產(chǎn)成本的目的,同時(shí)也減少了原管理過程中工時(shí)浪費(fèi)現(xiàn)象,進(jìn)一步減少了資源浪費(fèi)問題。
本文提出的基于數(shù)據(jù)挖掘的質(zhì)量監(jiān)控和評(píng)價(jià)軟件系統(tǒng)能徹底顛覆傳統(tǒng)產(chǎn)品質(zhì)量管理模式,取消了原來被動(dòng)式的質(zhì)量管理模式,即簡(jiǎn)化了產(chǎn)品質(zhì)量管理的流程,而且促使整個(gè)產(chǎn)品質(zhì)量管理具有更強(qiáng)的預(yù)警功能。受到社會(huì)各界人士的廣泛關(guān)注和支持,為軟件系統(tǒng)的調(diào)研和開發(fā)提供了必要的數(shù)據(jù)支持。
綜上所述,產(chǎn)品質(zhì)量對(duì)生產(chǎn)制造企業(yè)的可持續(xù)發(fā)展有非常重要的作用,隨著人們生活水平的提高,對(duì)產(chǎn)品質(zhì)量提出了更高的要求。所以企業(yè)必須不斷提升自身競(jìng)爭(zhēng)力,結(jié)合企業(yè)產(chǎn)品加工生產(chǎn)各個(gè)環(huán)節(jié)對(duì)質(zhì)量影響因素,研發(fā)出基于數(shù)據(jù)挖掘的質(zhì)量監(jiān)控和評(píng)價(jià)軟件系統(tǒng)對(duì)企業(yè)生產(chǎn)和發(fā)展就顯得尤為重要。本文通過C4.5決策樹算法研究表明,基于數(shù)據(jù)挖掘的質(zhì)量監(jiān)控和評(píng)價(jià)軟件系統(tǒng)能很大程度上提高質(zhì)量檢驗(yàn)的效率和準(zhǔn)確性,在技術(shù)、經(jīng)濟(jì)、社會(huì)三個(gè)方面具有很強(qiáng)的可行性,值得大力推廣。
[1]鮮于丹謙,李宏坤.基于數(shù)據(jù)挖掘的質(zhì)量監(jiān)控和評(píng)價(jià)軟件設(shè)計(jì)與開發(fā)[J].數(shù)字技術(shù)與應(yīng)用,2014(10):136.XIAN Yudanqian,LIHongkun.Design and Development of Quality Monitoring and Evaluation Software Based Data Mining[J].Digital Technology and Applications,2014(10):136.
[2]齊良春,侯開虎,張培發(fā),等.基于自動(dòng)識(shí)別與數(shù)據(jù)采集技術(shù)的質(zhì)量監(jiān)控系統(tǒng)構(gòu)架研究[J].機(jī)電工程技術(shù),2006,35(11):19-21,109.QILiangchun,HOU Kaihu,ZHANG Peifa,etal.Research on Quality Monitoring System Architecture Based on Automatic Identification and Data Acquisition Technology[J].Mechanical and Electrical Engineering Technology,2006,35(11):19-21,109.
[3]趙方,李蘭英.基于業(yè)務(wù)流程的Web應(yīng)用監(jiān)控系統(tǒng)研究[J].計(jì)算機(jī)工程,2013,39(2):41-45.ZHAO Fang,LI Lanying.Research on Web Application Monitoring System Based Business Process[J].Computer Engineering,2013,39(2):41-45.
[4]王博倫,姜思寧,左健健,等.產(chǎn)品質(zhì)量數(shù)據(jù)評(píng)價(jià)軟件系統(tǒng)設(shè)計(jì)[J].中國(guó)科技信息,2017(3):79-81.WANG Bolun,JIANG Sining,ZUO Jianjian,etal.Product quality data evaluation software system design[J].China Science and Technology Information,2017(3):79-81.
[5]周桂如.決策樹算法的研究及實(shí)例分析[J].南京工程學(xué)院學(xué)報(bào)(自然科學(xué)版),2013,11(3):58-61.ZHOU Guiru.Research on the Decision Tree Algorithm[J].Journal of Nanjing Institute of Engineering(Natural Science Edition),2013,11(3):58-61.
[6]張琳,陳燕,李桃迎,等.決策樹分類算法研究[J].計(jì)算機(jī)工程,2011,37(13):66-67,70.ZHANG Lin,CHEN Yan,LITaoying,et al.Research on Decision Tree Classification Algorithms[J].Computer Engineering,2011,37(13):66-67,70.
[7]馮少榮.決策樹算法的研究與改進(jìn)[J].廈門大學(xué)學(xué)報(bào)(自然科學(xué)版),2007,46(4):496-500.FENG Shaorong.Research and Improvement of Decision Tree Algorithm[J].Xiamen University(Natural Science Edition),2007,46(4):496-500.
[8]譚俊璐,武建華.基于決策樹規(guī)則的分類算法研究[J].計(jì)算機(jī)工程與設(shè)計(jì),2010,31(5):1071-1019.TAN Junlu,WU Jianhua.Classification Based on Decision Tree Algorithm rule[J].Computer Engineering and Design,2010,31(5):1071-1019.
[9]季桂樹,陳沛玲,宋航.決策樹分類算法研究綜述[J].科技廣角,2007(1):9-12.JI Guishu,CHEN Peiling,SONG Hang.Review of research on decision tree classification algorithm[J].Science and technologywide angle,2007(1):9-12.
[10]楊學(xué)兵,張俊.決策樹算法及其核心技術(shù)[J].計(jì)算機(jī)技術(shù)與發(fā)展,2007,17(1):43-45.ZHANG Jun,YANG Xuebing.Decision tree algorithm and its core technology[J].Computer technology and development,2007,17(1):43-45.
[11]W.G.Teng,M.-S.Chen,and P.S.Yu.A Egression-Based Temporal Pattern Mining Scheme for Data Streams[C]//In Proc. of the 29th VLDB Conference,2003.
[12]HuiChen.Mining Frequent Patterns in the Recent Time Window over Data Streams[C]//Proc in:the 10th IEEE International Conference on High Performance Computing and Communications,2009:586-593.
[13]Chi,Y,Wang H,Yu P.MOMENT:maintaining closed frequent itemsets over a data stream sliding window[C]//In:Proceedings of the 2004 IEEE International Conference on DataMining,Brighton,UK,2004:59-66.
[14]Hua-Fu Li,Suh-Yin Lee.Online Mining(Recently)Maximal Frequent Itemsets over Data Streams[C]//In:Proceedings of the 15th RIDE-SDMA Conference,Tokyo,Japan,2005:11-18.
[15]Golab.L.etal.Identifying Frequent Items in Sliding Windows over On-Line Packet Streams[C]//SIGCOMM Internet Measurement Conference.Miami.ACM,2003:173-178.