王家海 郝保偉
摘要:本文介紹一種應用于工業(yè)領(lǐng)域數(shù)據(jù)挖掘的方法論,它提出了傳統(tǒng)數(shù)據(jù)挖掘方法CRISP-DM需要在工業(yè)情境下關(guān)注的內(nèi)容,同時舉例說明深度學習在工業(yè)時序數(shù)據(jù)分類方面的應用并指出其發(fā)展方向及意義。
關(guān)鍵詞:數(shù)據(jù)挖掘方法;時序數(shù)據(jù)分類;深度學習
中圖分類號:TP311 文獻標識碼:A 文章編號:1007-9416(2019)11-0052-02
0 引言
時序數(shù)據(jù)是指一系列的數(shù)據(jù)點按照時間順序進行排列或編號,通常情況下,這些數(shù)據(jù)點按照等時間間隔進行選取。時序數(shù)據(jù)的分類問題是數(shù)據(jù)挖掘中最重要的問題之一[1]。隨著對工業(yè)設(shè)備狀態(tài)監(jiān)控、設(shè)備健康管理的需要以及傳感器技術(shù)的發(fā)展,產(chǎn)生了龐大的數(shù)據(jù)量。從獲得的數(shù)據(jù)發(fā)掘出有價值的信息或規(guī)律,并利用這些信息和規(guī)律進行分析和預測,這是時序數(shù)據(jù)進行數(shù)據(jù)挖掘的任務和意義。
1 CRISP-DM數(shù)據(jù)挖掘方法論
作為目前最為廣泛使用的數(shù)據(jù)挖掘方法論,跨行業(yè)數(shù)據(jù)挖掘標準流程(cross-industry standard process for data mining,CRISP-DM)包含了六個階段,如圖1所示,表1是各階段包含的內(nèi)容。
2 DMME(Data Mining Methodology in Engineering)數(shù)據(jù)挖掘方法論
為了適應工業(yè)領(lǐng)域的應用,考慮工業(yè)情境下數(shù)據(jù)獲取、處理以及其他特定的工程問題,Steffen Huber等人[3]提出了DMME(DM-Methodology in Engineering)方法作為CRISP-DM的拓展,DMME包含的過程如圖2所示。相比CRISP-DM,該方法論多了技術(shù)理解、技術(shù)實現(xiàn)和技術(shù)落實過程,三個過程包含的具體內(nèi)容如表2所示。技術(shù)理解過程將業(yè)務目標轉(zhuǎn)化為技術(shù)目標并設(shè)計實驗方案,技術(shù)實現(xiàn)步驟對實驗方案進行測試和選擇,技術(shù)落實步驟將生產(chǎn)過程的實時數(shù)據(jù)傳遞給評估過的模型。該方法能夠很好地指導工業(yè)應用的開發(fā)工作,例如生產(chǎn)過程優(yōu)化、機械設(shè)備零部件的監(jiān)控以及預知性維護(predictive maintenance)。
3 基于深度學習的時序數(shù)據(jù)分類
數(shù)據(jù)挖掘任務可分為兩大類,分別是預測任務和描述任務,常見的有聚類分析、預測建模、關(guān)聯(lián)分析和異常檢測[4]。機器學習是數(shù)據(jù)挖掘的一個重要手段。傳統(tǒng)機器學習通過訓練樣本,嘗試對未來數(shù)據(jù)行為或趨勢進行預測。相關(guān)算法包括邏輯回歸、隱馬爾科夫方法、支持向量機、K近鄰方法、貝葉斯方法以及決策樹方法等。用于數(shù)據(jù)挖掘一般步驟如圖3所示,其中數(shù)據(jù)預處理、特征提取和特征轉(zhuǎn)換合稱特征處理,合理的特征處理便于分類器的設(shè)計,有利于提高準確性。傳統(tǒng)機器學習的預測所用的特征主要依靠人為設(shè)定。
深度學習是建立深層結(jié)構(gòu)模型的學習方法,它將原始的數(shù)據(jù)特征通過多步的特征轉(zhuǎn)換得到一種特征表示,并進一步輸入到預測函數(shù)得到最終結(jié)果[5]-[6],是一種端到端的學習方法,其數(shù)據(jù)挖掘流程如圖4所示。所謂端到端學習是指在學習過程中不進行分模塊或分階段進行訓練,直接優(yōu)化任務的總體目標。在端到端學習中,一般不需要明確地給出不同模塊或階段的功能,中間過程不需要人為干預。典型的深度學習算法包括深度置信網(wǎng)絡(luò)、卷積神經(jīng)網(wǎng)絡(luò)、受限玻爾茲曼機和循環(huán)神經(jīng)網(wǎng)絡(luò)等。對于時序數(shù)據(jù)分類問題,最新的研究方向主要有多層感知機(multilayer perceptron,MLP)和卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)等。
卷積神經(jīng)網(wǎng)絡(luò)一般是由卷積層、匯聚層和全連接層交叉堆疊而成的前饋神經(jīng)網(wǎng)絡(luò),使用反向傳播算法進行訓練。卷積神經(jīng)網(wǎng)絡(luò)主要使用在圖像和視頻分析的各種任務上,并逐漸被運用到時序數(shù)據(jù)分類問題。如圖5所示。
4 結(jié)語
本文對比了兩種數(shù)據(jù)挖掘方法論(CRISP-DM方法和DMME方法),提出數(shù)據(jù)挖掘在工業(yè)領(lǐng)域?qū)嶋H應用所需要特別關(guān)注的內(nèi)容。同時對比了兩類基于機器學習的數(shù)據(jù)挖掘方法(傳統(tǒng)機器學習方法和深度學習方法),指出傳統(tǒng)的機器學習方法的不足,而深度學習的端到端的特性,避免了特征工程的繁瑣工作。上述內(nèi)容對生產(chǎn)企業(yè)進行數(shù)據(jù)挖掘軟件的開發(fā)工作具有一定的指導作用。
參考文獻
[1] Yang Q,Wu X.10 challenging problems in data mining research[J].International Journal of Information Technology & Decision Making,2006,05(04):597-604.
[2] Wirth R,Hipp J.CRISP-DM:Towards a standard process model for data mining[C]//the 4th International Conference on the Practical Applications of Knowledge Discovery and Data Mining,2000.
[3] Steffen H,Hajo W,et al.DMME:Data mining methodology for engineering applications a holistic extension to the CRISP-DM model[J].Procedia CIRP,2019,79:403-408.
[4] PANG-NINGTAN,MICHAELSTEINBACH,VIPINKUMAR.數(shù)據(jù)挖掘?qū)д摚和暾鎇M].人民郵電出版社,2011.
[5] 邱錫鵬.神經(jīng)網(wǎng)絡(luò)與深度學習[EB/OL].[2019-11-06].https://nndl.github.io/.
[6] Lecun Y,Bengio Y,Hinton G.Deep learning[J].Nature,2015,521(7553):436.