摘 要:預(yù)測(cè)性流程監(jiān)控可以在業(yè)務(wù)流程運(yùn)行過(guò)程中提供及時(shí)的信息,以便采取措施來(lái)應(yīng)對(duì)潛在風(fēng)險(xiǎn),如何提高流程預(yù)測(cè)的準(zhǔn)確度一直受到高度關(guān)注?,F(xiàn)有的研究方法大部分都在靜態(tài)環(huán)境下引入,很少有結(jié)合數(shù)字孿生技術(shù)用于動(dòng)態(tài)環(huán)境的流程預(yù)測(cè)。為此,提出了一個(gè)基于概念漂移檢測(cè)的方法,并構(gòu)建數(shù)字孿生流程預(yù)測(cè)模型(digital twin based on concept drift,DTBCD)預(yù)測(cè)下一個(gè)活動(dòng)。首先利用事件流行為關(guān)系和權(quán)重散度將流程中的活動(dòng)進(jìn)行特征提取,得到數(shù)據(jù)流的特征集,其次進(jìn)行漂移檢測(cè),動(dòng)態(tài)選擇特征集輸入人工智能模型中訓(xùn)練并預(yù)測(cè)下一個(gè)活動(dòng),然后運(yùn)用物聯(lián)網(wǎng)和云計(jì)算等先進(jìn)技術(shù)創(chuàng)建數(shù)字孿生虛擬環(huán)境,最后得到基于概念漂移的數(shù)字孿生模型。通過(guò)公開可用的數(shù)據(jù)集進(jìn)行評(píng)估分析,實(shí)驗(yàn)結(jié)果表明,提出的方法能夠有效提高預(yù)測(cè)的準(zhǔn)確性。
關(guān)鍵詞:預(yù)測(cè)性流程監(jiān)控; 活動(dòng)預(yù)測(cè); 漂移檢測(cè); 數(shù)字孿生
中圖分類號(hào):TP391.9 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):1001-3695(2024)07-017-2039-07
doi:10.19734/j.issn.1001-3695.2023.11.0541
Digital twin process prediction model based on concept drift detection
Abstract:Predictive process monitoring can provide timely information during the operation of business processes, in order to take measures to address potential risks. How to improve the accuracy of process prediction has always been highly concerned. Most of the existing research methods focus on process prediction in static environments, with few combining digital twin technology for process prediction in dynamic environments. To this end, this paper proposed a method based on concept drift detection and constructed a digital twin process prediction model to predict the next activity. Firstly, this method used behavioral relationship between event streams and weight divergence to extract features from activities in the process and obtained the feature sets of data flows. Secondly, this method performed drift detection. It dynamically selected feature sets and input them into the artificial intelligence model for training and predicting the next activity. Then, it used advanced technologies such as the Internet of Things and cloud computing to create a digital twin virtual environment. Finally, this paper obtained a digital twin model based on concept drift. It carried out evaluation and analysis on publicly available datasets, and the experimental results show that the proposed method can improve the effectiveness of prediction.
Key words:predictive process monitoring; activity prediction; drift detection; digital twin
0 引言
伴隨著當(dāng)代信息技術(shù)高速穩(wěn)步發(fā)展,制造工業(yè)的智能化也應(yīng)運(yùn)而生。由于制造工業(yè)流程的復(fù)雜化和智能化,其可靠性和安全性也逐步引起了相關(guān)利益者的廣泛關(guān)注。數(shù)字孿生(digital twin,DT)技術(shù)被認(rèn)為是工業(yè)4.0核心力量之一[1],為了減少制造工業(yè)系統(tǒng)的損失以及及時(shí)對(duì)制造系統(tǒng)流程作出決策,數(shù)字孿生發(fā)揮了不容忽視的作用。DT可以被認(rèn)為是一個(gè)虛擬模型,能夠在網(wǎng)絡(luò)虛擬世界反映物理世界的過(guò)程,并且通過(guò)實(shí)時(shí)的高保真建模,它能夠在整個(gè)生命周期對(duì)物理實(shí)體進(jìn)行有效監(jiān)控和預(yù)測(cè)。對(duì)于真實(shí)實(shí)體中發(fā)生的變化,DT可以及時(shí)更新仿真模型,這使得數(shù)字提取的仿真模型能夠成為真實(shí)實(shí)體在實(shí)時(shí)建模時(shí)的高保真副本[2],并且能夠通過(guò)模擬和映射物理實(shí)體得到的虛擬模型,完成動(dòng)態(tài)優(yōu)化[3]。數(shù)字孿生主要由以下四個(gè)部分組成[2]:a)真實(shí)世界實(shí)體,如制造工業(yè)的某個(gè)工廠,或是工廠內(nèi)某個(gè)機(jī)器(組件);b)數(shù)據(jù)驅(qū)動(dòng)仿真模型,包括描述仿真模型的算法、機(jī)器學(xué)習(xí)、深度學(xué)習(xí)和數(shù)據(jù)挖掘,對(duì)數(shù)據(jù)深度挖掘的分析、提煉模型及其軟件實(shí)現(xiàn)等;c)連接組件,物聯(lián)網(wǎng)系統(tǒng)和云計(jì)算等;d)物理世界的動(dòng)態(tài)變化:真實(shí)世界實(shí)體已經(jīng)或正在生成的動(dòng)態(tài)數(shù)據(jù)。第四個(gè)部分是數(shù)字孿生的關(guān)鍵部分,它影響數(shù)字孿生虛擬建模目標(biāo)的完整復(fù)現(xiàn)程度。
現(xiàn)有的數(shù)字孿生方法是基于公司或咨詢專家制造的模型結(jié)構(gòu),最近的研究側(cè)重于事件日志數(shù)據(jù)等數(shù)據(jù)驅(qū)動(dòng)技術(shù),以實(shí)現(xiàn)數(shù)據(jù)流創(chuàng)建仿真模型的目標(biāo)[4]。流程挖掘可用于預(yù)測(cè)制造場(chǎng)景中流程變化的結(jié)果或原因[5],因此使用流程挖掘方法來(lái)跟蹤和確定各種特征的研究越來(lái)越受歡迎。制造工業(yè)中產(chǎn)生的數(shù)據(jù)紛繁復(fù)雜,但是對(duì)人工智能技術(shù)的研究表明,它能夠有效學(xué)習(xí)這些數(shù)據(jù),并驅(qū)動(dòng)著數(shù)字孿生的實(shí)現(xiàn),從而使現(xiàn)實(shí)世界中復(fù)雜的數(shù)據(jù)可以更容易地轉(zhuǎn)換為虛擬世界的數(shù)據(jù)。通過(guò)使用人工智能模型,提前預(yù)測(cè)可能具備嚴(yán)重影響性的問題并采取應(yīng)對(duì)措施,從而減少不必要的資源浪費(fèi),此外與數(shù)字孿生的結(jié)合,擴(kuò)大了它們的適用范圍。預(yù)測(cè)性流程監(jiān)控作為流程挖掘中不可分割的一個(gè)部分,大多數(shù)采用的方法就是人工智能技術(shù)中的深度學(xué)習(xí)技術(shù)[6~8],通過(guò)訓(xùn)練模型來(lái)提高預(yù)測(cè)的準(zhǔn)確度,但很少結(jié)合數(shù)字孿生技術(shù)在動(dòng)態(tài)環(huán)境中預(yù)測(cè)。實(shí)際上的業(yè)務(wù)流程中總是不斷變化的[9],因此動(dòng)態(tài)環(huán)境中的預(yù)測(cè)性流程監(jiān)控能夠更有效地捕捉業(yè)務(wù)流程中的變化,從而避免出現(xiàn)突發(fā)情況,造成難以估計(jì)的時(shí)間和物質(zhì)上的損失。文獻(xiàn)[9~11]是在動(dòng)態(tài)環(huán)境下的流程預(yù)測(cè),但是沒有結(jié)合DT技術(shù),文獻(xiàn)[5]為了預(yù)測(cè)剩余循環(huán)時(shí)間,提出了一種使用過(guò)程變遷技術(shù)的數(shù)字孿生發(fā)現(xiàn)框架。在本文中,利用DT技術(shù)建立數(shù)字孿生模型是以準(zhǔn)確度為指標(biāo),預(yù)測(cè)流程中下一個(gè)活動(dòng),并且考慮了流程的動(dòng)態(tài)變化,這關(guān)系到什么時(shí)候流程可能會(huì)出現(xiàn)異常情況(如制造工業(yè)中機(jī)器的故障),數(shù)據(jù)的概念漂移檢測(cè)則可以很好地處理這種情況。此外,DT在虛擬空間中實(shí)時(shí)的監(jiān)控和預(yù)測(cè)也可以及時(shí)應(yīng)對(duì)突發(fā)情況,并且在短期和中期場(chǎng)景中都有助于對(duì)過(guò)程的當(dāng)前狀態(tài)作出適當(dāng)?shù)臎Q策[4]。
本文的主要貢獻(xiàn)如下:a)考慮流程中的動(dòng)態(tài)變化,利用事件流的行為關(guān)系,并結(jié)合信息理論中的熵概念將事件日志轉(zhuǎn)換為數(shù)據(jù)流,從而進(jìn)行概念漂移檢測(cè);b)基于數(shù)字孿生技術(shù)構(gòu)建一個(gè)虛擬模型來(lái)預(yù)測(cè)制造工業(yè)流程中的下一個(gè)活動(dòng),此外還能將物理世界接收到的動(dòng)態(tài)事件日志應(yīng)用于改進(jìn)模型,從而構(gòu)建更精確的數(shù)字孿生模型;c)使用公開可用數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),并對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行分析,結(jié)果表明本文方法可以有效提高預(yù)測(cè)的準(zhǔn)確性。
1 相關(guān)工作
1.1 數(shù)字孿生
數(shù)字孿生正在對(duì)工業(yè)進(jìn)行改革,未來(lái)的物理世界將通過(guò)數(shù)字孿生技術(shù)被克隆到數(shù)字空間中,文獻(xiàn)[12]以五維數(shù)字孿生模型為出發(fā)點(diǎn),研究數(shù)字孿生相關(guān)常用技術(shù)和工具,并對(duì)其進(jìn)行總結(jié),為今后數(shù)字孿生的應(yīng)用提供一定的參考價(jià)值。文獻(xiàn)[13]基于數(shù)字孿生技術(shù)提出了一種四層設(shè)計(jì)架構(gòu):CMCO(configuration design-motion planning-control development-optimization decoupling),基于此模型,提出了一個(gè)數(shù)字孿生系統(tǒng),即制造系統(tǒng)設(shè)計(jì)平臺(tái),并驗(yàn)證了此設(shè)計(jì)平臺(tái)的可行性和有效性。文獻(xiàn)[14]提出了一種自動(dòng)發(fā)現(xiàn)制造系統(tǒng)并生成適當(dāng)數(shù)字孿生的方法,根據(jù)事件日志中的相關(guān)特征,產(chǎn)生仿真模型并進(jìn)行調(diào)優(yōu),保證了在短時(shí)間內(nèi)的任何時(shí)間都可以獲得物理系統(tǒng)的更新和合理詳細(xì)的數(shù)字孿生模型。針對(duì)目前智能制造企業(yè)迎來(lái)的嚴(yán)峻的現(xiàn)實(shí)問題,文獻(xiàn)[15]旨在對(duì)基于數(shù)字孿生的工業(yè)信息集成系統(tǒng)驅(qū)動(dòng)的智能制造進(jìn)行定量綠色績(jī)效評(píng)估(green performance evaluation of smart manufacturing,GPEoSM),構(gòu)建的GPEoSM框架通過(guò)案例證明是有效的。文獻(xiàn)[2]提出了一個(gè)數(shù)據(jù)驅(qū)動(dòng)的方法,利用了機(jī)器學(xué)習(xí)和過(guò)程挖掘技術(shù),并對(duì)模型進(jìn)行不斷改進(jìn)和持續(xù)驗(yàn)證,在建立仿真模型需要一定的先驗(yàn)知識(shí)和專家知識(shí)的情況下,此框架的目標(biāo)是最小化并充分定義,甚至消除這些知識(shí)的需求。
1.2 預(yù)測(cè)性流程監(jiān)控
預(yù)測(cè)性流程監(jiān)控領(lǐng)域已有許多研究方法,在過(guò)去的幾年中,深度學(xué)習(xí)被廣泛應(yīng)用于此,如長(zhǎng)短期記憶(long short-term memory,LSTM)網(wǎng)絡(luò),已被提出用于下一個(gè)活動(dòng)[16]、后綴生成[17]、流程的剩余時(shí)間預(yù)測(cè)[18]和結(jié)果預(yù)測(cè)[7]。Hinkka 等人[19]應(yīng)用循環(huán)神經(jīng)網(wǎng)絡(luò),通過(guò)從事件日志的跡中提取有標(biāo)簽的流程實(shí)例,以有監(jiān)督的方式來(lái)訓(xùn)練模型。Pasquadibisceglie等人[20]運(yùn)用卷積神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)運(yùn)行跡中的下一個(gè)活動(dòng),其特色是將時(shí)間數(shù)據(jù)轉(zhuǎn)換為空間數(shù)據(jù)來(lái)訓(xùn)練深度學(xué)習(xí)的模型。Taymouri等人[16]針對(duì)訓(xùn)練數(shù)據(jù)不足或網(wǎng)絡(luò)配置和架構(gòu)次優(yōu)的問題,提出了一個(gè)對(duì)抗訓(xùn)練框架來(lái)預(yù)測(cè)下一個(gè)事件標(biāo)簽和時(shí)間戳[14]。注意力機(jī)制可以解決序列建模的長(zhǎng)距離依賴問題,并且無(wú)須考慮它們?cè)谳斎牒洼敵鲂蛄兄械木嚯x,因此,Vaswani等人[21]引入了一個(gè)深度序列模型,即Transformer神經(jīng)網(wǎng)絡(luò),它采用自我注意從而保持長(zhǎng)距離序列的一致性,實(shí)驗(yàn)證明了模型的質(zhì)量更優(yōu)越,更具并行性,并且訓(xùn)練時(shí)間更少。由于Transformer的流行,基于它的編碼器-解碼器模型已經(jīng)迅速成為神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯和自然語(yǔ)言理解的主導(dǎo)架構(gòu)[22~24]。
1.3 概念漂移
大多數(shù)業(yè)務(wù)流程具有動(dòng)態(tài)的特性,會(huì)隨著時(shí)間的推移而發(fā)生變化,過(guò)程中的變化可能是突然性的或逐步性的[25],因此對(duì)于流程管理來(lái)說(shuō),發(fā)現(xiàn)流程中的這種概念漂移并進(jìn)行深度理解和采取恰當(dāng)?shù)奶幚矸绞绞侵陵P(guān)重要的。文獻(xiàn)[26]提出了一種新方法——ElStream(ensemble and conventional machine lear-ning techniques detect distribution of streaming data),該方法使用集成和傳統(tǒng)的機(jī)器學(xué)習(xí)技術(shù)來(lái)檢測(cè)概念漂移,ElStream是基于多數(shù)投票技術(shù),只制作最佳分類器來(lái)投票決定是否產(chǎn)生漂移。概念漂移的檢測(cè)也是流程預(yù)測(cè)工作中一個(gè)重要部分,文獻(xiàn)[9]在增量流程預(yù)測(cè)中對(duì)于漂移的檢測(cè)采取了文獻(xiàn)[25]的方法,即提取事件日志中不同的特征表示活動(dòng)之間的關(guān)系,并轉(zhuǎn)換為數(shù)據(jù)流,接著利用滑動(dòng)窗口技術(shù)和統(tǒng)計(jì)方法檢測(cè)這些特征數(shù)據(jù)流,用于發(fā)現(xiàn)連續(xù)窗口之間的差異,從而判斷出漂移發(fā)生點(diǎn)。文獻(xiàn)[27]提出了一個(gè)在線預(yù)測(cè)監(jiān)控(in-line predictive monitoring,ILPM)框架,在第一階段使用過(guò)程參數(shù)監(jiān)控,在第二階段使用設(shè)備參數(shù)監(jiān)控。為了保持魯棒性和準(zhǔn)確性,使用概念漂移來(lái)實(shí)時(shí)更新ILPM模型。
2 準(zhǔn)備工作
2.1 事件日志
本文定義了事件日志,它用于表示流程執(zhí)行記錄。
定義1 事件日志。令ε為所有事件的集合,事件日志L是一組K大小的事件序列(或案例),記作L={σi:i=1,…,K},且σi=(e1i,…,enii)。此外,序列中的每個(gè)事件都與屬性和屬性值相關(guān)聯(lián)[28]。
表1是某制造工業(yè)的部分事件日志,它包含案例號(hào)、活動(dòng)(機(jī)器的操作)、資源(工作的單元)、機(jī)器開始和結(jié)束時(shí)間以及工作訂單數(shù)量。
2.2 動(dòng)態(tài)貝葉斯網(wǎng)絡(luò)
貝葉斯網(wǎng)絡(luò)(Bayesian network,BN)是一個(gè)有向無(wú)環(huán)圖,其中每一個(gè)節(jié)點(diǎn)表示一個(gè)屬性,當(dāng)屬性Ai依賴于Aj時(shí),就存在一條有向邊(Ai,Aj)。此時(shí)稱變量Ai為Aj的父級(jí)。Pa(A)是A所有父節(jié)點(diǎn)的集合,即A所依賴的屬性。對(duì)于所有節(jié)點(diǎn)(X0,X1,…,Xn)的聯(lián)合概率分布為[29]
條件概率表(conditional probability table,CPT)捕獲屬性Xi的P(Xi|Pa(Xi)),這些表在父值出現(xiàn)的前提下包含所有可能值的概率。通過(guò)學(xué)習(xí)CPT和模型結(jié)構(gòu)(屬性之間的依賴關(guān)系)來(lái)學(xué)習(xí)BN。動(dòng)態(tài)貝葉斯網(wǎng)絡(luò)(dynamic Bayesian network,DBN)[30]結(jié)合了序列層面,是通過(guò)向網(wǎng)絡(luò)添加額外的變量來(lái)實(shí)現(xiàn)的。動(dòng)態(tài)貝葉斯網(wǎng)絡(luò)由模型結(jié)構(gòu)和模型參數(shù)兩者組成,結(jié)構(gòu)和參數(shù)都可以從數(shù)據(jù)中學(xué)習(xí)獲得,因此都可以單獨(dú)更新。DBN的結(jié)構(gòu)描述了數(shù)據(jù)中屬性之間的條件依賴關(guān)系。DBN的參數(shù)描述了所有屬性的條件概率,可按如下公式計(jì)算[9]:
2.3 LSTM網(wǎng)絡(luò)
LSTM是一種神經(jīng)網(wǎng)絡(luò),專門用于處理長(zhǎng)序列數(shù)據(jù)[31],它有 “門”結(jié)構(gòu)來(lái)去除或者增加信息到LSTM單元狀態(tài)的能力,這些門是使用邏輯函數(shù)實(shí)現(xiàn)的,用于計(jì)算0到1之間的值。乘法應(yīng)用于此值以部分允許或拒絕信息流入或流出內(nèi)存[32]。圖1描述了單個(gè)LSTM單元的架構(gòu),每個(gè)藍(lán)線框都代表一個(gè)LSTM單元(用A表示),該單元通過(guò)輸入前一個(gè)隱藏狀態(tài)ht-1和單元狀態(tài)Ct-1以及當(dāng)前輸入Xt來(lái)輸出下一個(gè)狀態(tài)ht和Ct。單個(gè)LSTM單元完成的操作由式(3)描述,其中Wi、Wf、Wc和Wo是可訓(xùn)練的權(quán)重矩陣,bi、bf、bc和bo是偏置矩陣。
3 基于概念漂移的數(shù)字孿生
為了避免業(yè)務(wù)流程中出現(xiàn)突發(fā)情況,造成難以估計(jì)的時(shí)間和物質(zhì)上的損失,在不斷變化的流程中進(jìn)行動(dòng)態(tài)預(yù)測(cè)是至關(guān)重要的。此外,利用DT技術(shù)在虛擬空間中進(jìn)行實(shí)時(shí)監(jiān)控和預(yù)測(cè),可以及時(shí)應(yīng)對(duì)突發(fā)情況,有助于針對(duì)流程的當(dāng)前狀態(tài)采取適當(dāng)?shù)膶?duì)策措施以及決策優(yōu)化。本文提出了基于概念漂移的數(shù)字孿生虛擬模型架構(gòu)DTBCD(digital twin based on concept drift),在動(dòng)態(tài)環(huán)境下進(jìn)行預(yù)測(cè)性流程監(jiān)控。
3.1 概念漂移檢測(cè)
業(yè)務(wù)流程中不確定性通常表現(xiàn)為執(zhí)行過(guò)程中的重大變化[33],這種現(xiàn)象被稱為概念漂移。它包含突發(fā)式漂移、逐漸式漂移、反復(fù)式漂移和增量式漂移四種類型[25],它的特點(diǎn)是數(shù)據(jù)分布的變化,而正是通過(guò)這種數(shù)據(jù)的變化可以研究動(dòng)態(tài)環(huán)境中的流程,并且能夠快速充分地對(duì)流程中的變化作出反應(yīng)。本文基于事件流嚴(yán)格序、排他序和交叉序[10]考慮事件日志中活動(dòng)之間的關(guān)系。
在事件日志中,如果在活動(dòng)a出現(xiàn)的跡中,活動(dòng)b都直接跟隨a,那么說(shuō)b嚴(yán)格遵循a,即事件流中的嚴(yán)格序;如果b沒有直接或沒有間接跟隨a,反之亦然,那么說(shuō)b排他遵循a,對(duì)應(yīng)于事件流中的排他序。事件日志中a出現(xiàn)的情況下,若活動(dòng)b僅在部分跡中直接跟隨活動(dòng)a,為此本文設(shè)定了一個(gè)閾值λ,這部分跡出現(xiàn)的次數(shù)與所有跡總數(shù)的比值小于或等于某個(gè)閾值(λ),則說(shuō)b微遵循a;若大于,則說(shuō)b常遵循a。例如,假設(shè)跡的總數(shù)為l,活動(dòng)b僅在幾條跡中(這樣的跡的數(shù)量較少)直接跟隨活動(dòng)a、活動(dòng)b在大部分跡中(這樣的跡的數(shù)量較多)直接跟隨活動(dòng)a的這兩種情況。λ可以體現(xiàn)這種變化差異,即能夠?qū)ζ频臋z測(cè)更加敏感(能夠更好地感知到數(shù)據(jù)流的變化)。
那么在事件日志L中活動(dòng)之間定義四個(gè)關(guān)系:對(duì)于活動(dòng)對(duì)(a,b),b嚴(yán)格遵循a(用S表示),b排他遵循a(用P表示),b常遵循a(用C表示),b微遵循a(用U表示),如表2所示。
定義5 跟隨關(guān)系。對(duì)于事件日志L中某個(gè)活動(dòng)a∈A,RLfow(a)=〈cS,cC,cU,cP〉,cS、cC、cU和cP表示事件日志中嚴(yán)格遵循、常遵循、微遵循和排他遵循a的活動(dòng)數(shù)量。
定義6 熵。如果隨機(jī)變量x出現(xiàn)的概率為p(x),則隨機(jī)變量x的熵定義(信息論中為信息量的多少)為
定義7 交叉熵。把來(lái)自一個(gè)分布為q(x)的變量信息使用另一個(gè)分布p(x)的最佳方式傳達(dá)的平均信息長(zhǎng)度稱為交叉熵:
定義8 KL散度。KL(Kullback-Leibler)散度是交叉熵和熵之間的差,能夠衡量?jī)蓚€(gè)分布之間的差異,且它是非對(duì)稱的。p相對(duì)q的KL散度可定義為
Dq(p)=Hq(p)-H(p)(6)
在以上定義的基礎(chǔ)上提出本文的權(quán)重散度。
定義9 權(quán)重散度。對(duì)于事件日志中某個(gè)活動(dòng)a∈A,權(quán)重散度lLWK(a)如下:
其中:pS=αcS/|A|,pC=βcC/|A|,pU=(1-β)×cU/|A|,pP=(1-α)×cP/|A|,α和β是權(quán)重參數(shù)(0<α<1,0<β<1)。
通過(guò)定義5和9得到的特征集,可以將n個(gè)事件日志轉(zhuǎn)換為數(shù)據(jù)流/序列D,特征值的數(shù)據(jù)集D可以被視為m個(gè)值的時(shí)間序列,此過(guò)程被稱作特征提取。為了檢測(cè)概念漂移,考慮m個(gè)值中大小為w的連續(xù)數(shù)值群體(w<m),并檢查兩個(gè)群體之間是否存在顯著差異(即檢測(cè)大小為w的滑動(dòng)窗口之間的差異),接著使用統(tǒng)計(jì)假設(shè)檢驗(yàn)[9](例如:Kolmogorov-Smirnov檢驗(yàn)、Mann-Whitney U檢驗(yàn)或Hotelling T2檢驗(yàn))來(lái)檢測(cè)差異,從而發(fā)現(xiàn)這些變化點(diǎn)。
3.2 DTBCD系統(tǒng)結(jié)構(gòu)
本文使用一個(gè)基于數(shù)字孿生的虛擬模型架構(gòu)DTBCD來(lái)預(yù)測(cè)流程中的下一個(gè)活動(dòng)。第一步基于事件日志數(shù)據(jù)先對(duì)數(shù)據(jù)流進(jìn)行概念漂移檢測(cè)(如3.1節(jié)所述),提取的數(shù)據(jù)用于構(gòu)建DT模型。第二步通過(guò)機(jī)器學(xué)習(xí)來(lái)解決預(yù)測(cè)的問題。此外,由于技術(shù)不足的專業(yè)性問題的存在,所提出的虛擬模型架構(gòu)可以通過(guò)與其他相關(guān)公司企業(yè)的合作來(lái)處理。圖2展示了DTBCD模型。
首先在事件日志中跟蹤制造過(guò)程的活動(dòng),利用事件流行為關(guān)系和權(quán)重散度(如3.1節(jié)所介紹)對(duì)流程中的活動(dòng)進(jìn)行特征提取。其次,根據(jù)特征提取得到的數(shù)據(jù)流進(jìn)行概念漂移檢測(cè),從而得到數(shù)據(jù)變化點(diǎn)并將其作為數(shù)據(jù)選擇的依據(jù),然后將所選數(shù)據(jù)嵌入人工智能模型進(jìn)行訓(xùn)練,并學(xué)習(xí)輸出值。通過(guò)與公司的合作,運(yùn)用物聯(lián)網(wǎng)和云計(jì)算等先進(jìn)技術(shù)就可以創(chuàng)建一個(gè)數(shù)字孿生模型來(lái)預(yù)測(cè)流程中下一個(gè)活動(dòng),最后得到基于概念漂移的數(shù)字孿生DTBCD,如圖2所示。
DTBCD虛擬模型的構(gòu)建算法如下所示:最初輸入一個(gè)事件日志,最后輸出一個(gè)數(shù)字孿生模型。首先進(jìn)行變量初始化,再進(jìn)行數(shù)據(jù)的轉(zhuǎn)換操作(步驟a)),以便調(diào)用概念漂移檢測(cè)的方法,然后將數(shù)據(jù)按“天”或是“周”分批(步驟b))。接著根據(jù)事件流行為關(guān)系和權(quán)重散度對(duì)每一個(gè)活動(dòng)進(jìn)行特征提取,轉(zhuǎn)換為數(shù)據(jù)流(步驟c))。其次是模型訓(xùn)練部分,先利用DBN或是LSTM進(jìn)行模型的初始訓(xùn)練(步驟d)),然后進(jìn)行概念漂移檢測(cè),即對(duì)每一個(gè)批次內(nèi)的數(shù)據(jù),都會(huì)檢驗(yàn)滑動(dòng)窗口內(nèi)是否存在差異。若存在,則將該批次的數(shù)據(jù)添加到更新數(shù)據(jù)中,并利用更新的數(shù)據(jù)訓(xùn)練模型,從而得到更新后的模型來(lái)預(yù)測(cè)下一個(gè)活動(dòng);若沒有差異,則利用當(dāng)前數(shù)據(jù)訓(xùn)練模型來(lái)預(yù)測(cè)(步驟e))。最后將機(jī)器學(xué)習(xí)模型和人工智能技術(shù)結(jié)合,構(gòu)建出數(shù)字孿生模型(步驟f))。由于算法只有兩個(gè)順序執(zhí)行的循環(huán)語(yǔ)句,所以算法復(fù)雜度為O(n)。
算法1 構(gòu)建DTBCD模型
隨著物聯(lián)網(wǎng)技術(shù)的發(fā)展,實(shí)時(shí)收集通過(guò)概念漂移檢測(cè)方法預(yù)測(cè)得到的動(dòng)態(tài)數(shù)據(jù)信息,在云計(jì)算環(huán)境中與相關(guān)企業(yè)公司共享,從而用于創(chuàng)建的數(shù)字孿生虛擬模型。此外,在與他們合作的過(guò)程中,根據(jù)其提供的人工智能技術(shù),可將物理世界接受到的動(dòng)態(tài)真實(shí)事件日志數(shù)據(jù)應(yīng)用于改進(jìn)模型,從而構(gòu)建更精確的DT。數(shù)字孿生模型的應(yīng)用前景廣闊,在虛擬環(huán)境中可以創(chuàng)建客戶和流程進(jìn)行實(shí)驗(yàn),結(jié)果將交付給制造工業(yè)的工廠,以便客戶能夠?qū)χ圃爝^(guò)程進(jìn)行長(zhǎng)期監(jiān)控與預(yù)測(cè),如圖3所示。
3.3 具體實(shí)施流程
本文提出的漂移檢測(cè)方法,用于業(yè)務(wù)流程中下一個(gè)活動(dòng)的預(yù)測(cè),并借助了機(jī)器學(xué)習(xí)模型和事件流行為輪廓的知識(shí)。具體的實(shí)施流程如圖4所示。
首先輸入事件日志,進(jìn)行數(shù)據(jù)預(yù)處理并將其分為n批數(shù)據(jù),然后對(duì)流程中的活動(dòng)進(jìn)行特征提取,即根據(jù)活動(dòng)之間的跟隨關(guān)系計(jì)算權(quán)重散度,即將事件日志轉(zhuǎn)換為數(shù)據(jù)流,從而得到特征集(特征值的數(shù)據(jù)集)。
其次,為了檢測(cè)概念漂移,應(yīng)用自適應(yīng)滑動(dòng)窗口,即隨著窗口的移動(dòng),通過(guò)假設(shè)檢驗(yàn)來(lái)檢測(cè)特征集中兩個(gè)窗口之間的差異,從而判斷是否有概念漂移現(xiàn)象產(chǎn)生。若發(fā)生,則將此訓(xùn)練數(shù)據(jù)加入到更新數(shù)據(jù)之中,反之則保留原來(lái)數(shù)據(jù)。窗口大小的設(shè)置由數(shù)據(jù)量決定。
然后,為了使用數(shù)據(jù)進(jìn)行機(jī)器學(xué)習(xí),將更新后選擇的數(shù)據(jù)輸入人工智能模型進(jìn)行訓(xùn)練,從而學(xué)習(xí)輸出值。模型可以根據(jù)不同的數(shù)據(jù)選擇產(chǎn)生不同的模型(即模型更新)。
最后通過(guò)訓(xùn)練的模型來(lái)預(yù)測(cè)流程中下一個(gè)活動(dòng),并輸出預(yù)測(cè)的準(zhǔn)確度。
4 實(shí)驗(yàn)評(píng)估
本文的實(shí)驗(yàn)是在Windows 10操作系統(tǒng)上進(jìn)行測(cè)試,使用的硬件包括3.20 GHz AMD R7 5800H CPU和16 GB主內(nèi)存以及4 GB內(nèi)存的NVIDIA GeForce MX450 GPU。測(cè)試框架是在使用Python編程語(yǔ)言的測(cè)試系統(tǒng)上構(gòu)建的。
4.1 實(shí)驗(yàn)數(shù)據(jù)集
為了測(cè)試在模型中的概念漂移檢測(cè)的效果,本文需要在活動(dòng)視角中發(fā)生一些漂移的數(shù)據(jù)集。本文使用人工創(chuàng)建的仿真事件日志、公開數(shù)據(jù)集(表3)以及實(shí)際案例數(shù)據(jù)集的事件日志進(jìn)行評(píng)估,數(shù)據(jù)集介紹如下:
a)Artificial Log:仿真事件日志,包括175個(gè)案例、17個(gè)活動(dòng)、2 372個(gè)事件。
b)BPI12W_Complete:2012年BPI挑戰(zhàn)(BPI12 W完成)事件日志,是全球融資組織內(nèi)個(gè)人貸款或透支的申請(qǐng)流程。本文保留了類型為“完成”的6項(xiàng)活動(dòng)的72 413個(gè)事件,共有9 658條跡。預(yù)處理跡的長(zhǎng)度在1~74。
c)Production_Data:來(lái)自某制造工業(yè)工廠的數(shù)據(jù)集,包括一些機(jī)器名稱以及其對(duì)應(yīng)的操作,如:Packing、Final Inspection Q.C.等。數(shù)據(jù)還包括機(jī)器開始和結(jié)束完成時(shí)間等內(nèi)容,以及不同級(jí)別的屬性(例如,涉及的機(jī)器操作者Worker ID)。
d)Sepsis:是包含處理醫(yī)院中膿毒癥患者流程的事件日志。包括1 050個(gè)案例,總共有15 214起事件,記錄在16種不同的活動(dòng)中。此外,還記錄了39個(gè)數(shù)據(jù)屬性,例如,負(fù)責(zé)活動(dòng)的小組、測(cè)試結(jié)果和檢查表中的信息。
在本文的實(shí)驗(yàn)中,感興趣的是概念漂移檢測(cè)之后數(shù)據(jù)是否更新的差異,因此,將更新納入下一個(gè)活動(dòng)預(yù)測(cè)。在數(shù)據(jù)預(yù)處理之后,會(huì)對(duì)流程中的活動(dòng)進(jìn)行特征提取,據(jù)此進(jìn)行概念漂移檢測(cè)??紤]使漂移檢測(cè)更加敏感(即能夠更好地感知到數(shù)據(jù)流的變化)從而提高檢測(cè)的有效性,本文利用參數(shù)λ(表2),在[0,1]區(qū)間每隔0.1不斷調(diào)試,得到0.8的效果最佳。同理α和β(如定義9所述)分別為0.7和0.9。檢測(cè)之后便可對(duì)數(shù)據(jù)進(jìn)行選擇,數(shù)據(jù)選擇有兩種方式,即原始無(wú)更新的數(shù)據(jù)、概念漂移檢測(cè)之后滑動(dòng)窗口內(nèi)的數(shù)據(jù)(即更新后的數(shù)據(jù))。
4.2 模型訓(xùn)練設(shè)置
為了測(cè)試不同的概念漂移檢測(cè)方法,選擇了機(jī)器學(xué)習(xí)模型動(dòng)態(tài)貝葉斯網(wǎng)絡(luò)DBN,由于DBN針對(duì)多屬性的預(yù)測(cè)效率較高,所以選擇了DBN來(lái)提高預(yù)測(cè)的有效性。此外還選擇了深度學(xué)習(xí)模型LSTM,用于在深度學(xué)習(xí)技術(shù)領(lǐng)域中進(jìn)行本文概念漂移方法的檢測(cè)研究。將數(shù)據(jù)輸入到兩種模型中——?jiǎng)討B(tài)貝葉斯網(wǎng)絡(luò)DBN和LSTM,即可得到原始的模型和更新的模型。本文的實(shí)驗(yàn)是根據(jù)不同的數(shù)據(jù)選擇,將進(jìn)行漂移檢測(cè)以及無(wú)漂移檢測(cè)這兩種情況,分別在DBN與LSTM兩個(gè)模型上進(jìn)行比較來(lái)得出結(jié)論。
在本文的實(shí)驗(yàn)中,提出兩種將數(shù)據(jù)分批的方法:按天和按周來(lái)進(jìn)行實(shí)驗(yàn)。當(dāng)評(píng)估預(yù)測(cè)性能時(shí),使用交叉測(cè)試然后訓(xùn)練的方法。首先根據(jù)時(shí)間戳對(duì)數(shù)據(jù)集中的事件進(jìn)行排序,然后按時(shí)間順序?qū)⒂?xùn)練和測(cè)試集按1∶1的比例劃分。初始模型從訓(xùn)練集中訓(xùn)練得到,測(cè)試集用于測(cè)試方法并逐步更新模型。
本文使用DBN是根據(jù)屬性之間依賴關(guān)系進(jìn)行訓(xùn)練,對(duì)于LSTM模型,用一個(gè)共享層訓(xùn)練兩層LSTM,并使用Nadam梯度下降優(yōu)化器進(jìn)行訓(xùn)練,該優(yōu)化器在各種類型的神經(jīng)網(wǎng)絡(luò)中準(zhǔn)確率較高[34],dropout設(shè)置為0.2,最后使用一個(gè)全連接層進(jìn)行輸出。
4.3 實(shí)驗(yàn)結(jié)果
本文側(cè)重于不同方法的準(zhǔn)確性如何隨時(shí)間變化,因而為了衡量下一個(gè)事件預(yù)測(cè)的準(zhǔn)確性,本文使用正確預(yù)測(cè)占預(yù)測(cè)總數(shù)的比例[34]。本文的指標(biāo)準(zhǔn)確度、精確度和召回率定義如下:
其中:tp表示真正例;tn表示真負(fù)例;fn表示假負(fù)例;fp表示假正例,N=tp+tn+fp+fn。此外,本文使用一個(gè)圖形表示,如圖5、6所示,x軸上為按時(shí)間順序的事件索引,y軸表示預(yù)測(cè)的準(zhǔn)確度、精確度和召回率,利用該圖(使用滑動(dòng)窗口來(lái)計(jì)算準(zhǔn)確度、精確度和召回率),即可查找預(yù)測(cè)這三者隨時(shí)間的變化。最后將本文方法(Weight Divergence)與在動(dòng)態(tài)環(huán)境中預(yù)測(cè)的Jmeasure[11]方法(Jmeasure)以及無(wú)漂移檢測(cè)模型預(yù)測(cè)的方法(No Drift)進(jìn)行比較,接下來(lái)展示實(shí)驗(yàn)結(jié)果。
4.3.1 仿真數(shù)據(jù)集
由于仿真數(shù)據(jù)集結(jié)構(gòu)較為簡(jiǎn)單,所以實(shí)驗(yàn)只將它按天分批,預(yù)測(cè)的準(zhǔn)確度如圖5所示。由圖5可以看出,相較于無(wú)漂移檢測(cè)的方法和Jmeasure方法,在仿真數(shù)據(jù)集中本文權(quán)重散度方法的預(yù)測(cè)準(zhǔn)確度有一定程度的提升,且在DBN和LSTM網(wǎng)絡(luò)中都得到了較為不錯(cuò)的效果。
表4展示了仿真數(shù)據(jù)集預(yù)測(cè)準(zhǔn)確度,加粗表示預(yù)測(cè)最好的結(jié)果。由表4結(jié)果可知,在仿真數(shù)據(jù)集上利用LSTM預(yù)測(cè),本文方法的預(yù)測(cè)準(zhǔn)確度相比于無(wú)漂移檢測(cè)的方法和Jmeasure方法,分別提高了0.754%和0.881%。而利用DBN進(jìn)行預(yù)測(cè)時(shí),本文方法相較于后兩者分別提高了0.998%和0.872%。
4.3.2 BPIC12數(shù)據(jù)集
由圖6可以得到對(duì)于DBN模型不論是按天或按周進(jìn)行預(yù)測(cè),總體來(lái)看采用本文漂移檢測(cè)的方法(Weight Divergence)比無(wú)漂移檢測(cè)和Jmeasure預(yù)測(cè)的準(zhǔn)確度要高。除此之外,按周進(jìn)行預(yù)測(cè)的準(zhǔn)確度要高于按天預(yù)測(cè)的準(zhǔn)確度,即相對(duì)于無(wú)漂移檢測(cè),本文權(quán)重散度的方法按周預(yù)測(cè)的準(zhǔn)確度提升幅度更大。
此外對(duì)于LSTM模型,不論是按天或是按周進(jìn)行預(yù)測(cè),采用本文漂移檢測(cè)的方法(Weight Divergence)都比無(wú)漂移檢測(cè)的預(yù)測(cè)準(zhǔn)確度要高。除此之外,按周進(jìn)行預(yù)測(cè)的準(zhǔn)確度要高于按天預(yù)測(cè)的準(zhǔn)確度,相對(duì)于Jmeasure的預(yù)測(cè)漂移,本文權(quán)重散度的方法在按周預(yù)測(cè)的準(zhǔn)確度較大,而按天的準(zhǔn)確度較小。
4.3.3 實(shí)際案例的數(shù)據(jù)集
1)Production_Data 數(shù)據(jù)集模型預(yù)測(cè)結(jié)果
圖7展示了Production_Data數(shù)據(jù)集DBN和LSTM模型預(yù)測(cè)的結(jié)果。由圖7可以得到,對(duì)于DBN模型,不論是按天或是按周進(jìn)行預(yù)測(cè),采用本文漂移檢測(cè)的方法都比無(wú)漂移檢測(cè)和Jmeasure預(yù)測(cè)的準(zhǔn)確度要高。除此之外,按周進(jìn)行預(yù)測(cè)的準(zhǔn)確度要高于按天預(yù)測(cè)的準(zhǔn)確度,即相對(duì)于無(wú)漂移檢測(cè),本文權(quán)重散度的方法在按周預(yù)測(cè)的準(zhǔn)確度上提升幅度更大。更進(jìn)一步,按天預(yù)測(cè)中,本文將權(quán)重散度和Jmeasure兩種概念漂移檢測(cè)的方法進(jìn)行比對(duì),在時(shí)間序列的開始部分兩者幾乎沒有明顯差異,后來(lái)可以觀察到權(quán)重散度預(yù)測(cè)的準(zhǔn)確度要略微高于Jmeasure,即在DBN模型預(yù)測(cè)中,權(quán)重散度預(yù)測(cè)的準(zhǔn)確度要更高一點(diǎn)。按周預(yù)測(cè)中,兩者預(yù)測(cè)準(zhǔn)確度沒有區(qū)別。
對(duì)于LSTM模型來(lái)說(shuō),在三種方法中按天預(yù)測(cè)的準(zhǔn)確度相差較小,且沒有DBN模型預(yù)測(cè)的效果好。也就是說(shuō),相對(duì)于無(wú)漂移檢測(cè)的方法來(lái)說(shuō),LSTM模型嵌入漂移檢測(cè)方法之后預(yù)測(cè)的準(zhǔn)確度提升幅度不大,甚至可以說(shuō)沒有提升。除此之外,在LSTM模型按周預(yù)測(cè)中,使用權(quán)重散度的漂移檢測(cè)方法來(lái)預(yù)測(cè)制造過(guò)程的下一個(gè)活動(dòng)的準(zhǔn)確度要明顯高于無(wú)漂移檢測(cè)和Jmeasure方法。
圖8(a)(b)是DBN模型預(yù)測(cè)精確度,圖8(c)(d)是召回率。精確度是模型描述的行為在日志中出現(xiàn)多少的程度,而召回率對(duì)應(yīng)的是一致性檢查的適合度,即事件日志中有多少跡能夠被模型正確描述。本文權(quán)重散度的方法在精確度上效果不是很好,然而對(duì)于召回率來(lái)說(shuō),在按天預(yù)測(cè)中,權(quán)重散度最后的結(jié)果要優(yōu)于無(wú)漂移檢測(cè)的方法,并且除了最后的時(shí)間段,大部分時(shí)間都優(yōu)于Jmeasure方法;在按周預(yù)測(cè)中,可以說(shuō)權(quán)重散度的結(jié)果優(yōu)于其他兩種方法。表5展示了Production_Data數(shù)據(jù)集準(zhǔn)確度,加粗表示預(yù)測(cè)最好的結(jié)果。由表5結(jié)果可知,在Production_Data數(shù)據(jù)集上利用DBN預(yù)測(cè),Weight Divergence預(yù)測(cè)準(zhǔn)確度相比于無(wú)漂移檢測(cè)的方法和已有文獻(xiàn)中的漂移檢測(cè)Jmeasure方法,在按天和按周預(yù)測(cè)方面分別提高了13.97%、1.493%和4.70%、10.61%。而利用DBN進(jìn)行預(yù)測(cè)時(shí),本文方法相較于后兩者,在按天中分別提高了22.49%、0.855%和22.49%、0.855%,在按周預(yù)測(cè)中,本文方法相較于無(wú)漂移檢測(cè)的方法提高了53.66%。
2)Sepsis數(shù)據(jù)集模型預(yù)測(cè)結(jié)果
圖9展示了Sepsis數(shù)據(jù)集DBN和LSTM模型預(yù)測(cè)的結(jié)果。由圖9可以得到對(duì)于DBN模型進(jìn)行預(yù)測(cè),采用本文漂移檢測(cè)的方法剛開始預(yù)測(cè)效果不是非常好,但最終比無(wú)漂移檢測(cè)和Jmeasure的預(yù)測(cè)準(zhǔn)確度要高,除此之外,按周進(jìn)行預(yù)測(cè)的準(zhǔn)確度要高于按天預(yù)測(cè)的準(zhǔn)確度。對(duì)于LSTM模型來(lái)說(shuō),本文方法也得到了較好的效果。由于在數(shù)字孿生虛擬環(huán)境中可以選擇所需的機(jī)器學(xué)習(xí)模型或深度學(xué)習(xí)模型,所以本文只選擇了兩種在預(yù)測(cè)準(zhǔn)確度上較有優(yōu)勢(shì)的模型,從而能夠保證本文方法在準(zhǔn)確度方面的有效性,并由實(shí)驗(yàn)結(jié)果可以得到,總體來(lái)看DBN模型的預(yù)測(cè)效果要好于LSTM模型。綜上表明,基于概念漂移檢測(cè)的權(quán)重散度方法具有較高的預(yù)測(cè)準(zhǔn)確度。
5 結(jié)束語(yǔ)
在本文中,為了創(chuàng)建一個(gè)數(shù)字孿生模型來(lái)預(yù)測(cè)制造過(guò)程中的下一個(gè)活動(dòng),使用基于概念漂移檢測(cè)的方法對(duì)人工智能的模型(DBN和LSTM)進(jìn)行了驗(yàn)證,本文提出的基于概念漂移的數(shù)字孿生虛擬模型DTBCD不僅有利于制造工業(yè)的智能化,還能在制造流程預(yù)測(cè)中提高效率。此外,基于概念漂移檢測(cè)的方法有助于應(yīng)對(duì)緊急突發(fā)情況的發(fā)生。通過(guò)實(shí)驗(yàn)表明,本文方法在預(yù)測(cè)性流程監(jiān)控中顯示了良好的結(jié)果。數(shù)字孿生是當(dāng)前的一個(gè)熱點(diǎn),相關(guān)利益者對(duì)它的興趣也在不斷增加。隨著制造業(yè)發(fā)生日新月異的變化,預(yù)測(cè)工業(yè)過(guò)程的需求也隨之增加。使用本文提出的基于概念漂移的數(shù)字孿生模型可以幫助更多的企業(yè)通過(guò)數(shù)字孿生技術(shù)進(jìn)行合作。未來(lái)的研究可以著眼于提出更好的算法或預(yù)測(cè)制造流程中的其他內(nèi)容(如時(shí)間、資源等),從而升級(jí)該模型,提高其可靠性,并將該模型應(yīng)用于其他領(lǐng)域。
參考文獻(xiàn):
[1]Liu Mengnan, Fang Shuiliang, Dong Huiyue, et al. Review of digital twin about concepts, technologies, and industrial applications[J]. Journal of Manufacturing Systems, 2021,58: 346-361.
[2]Friederich J, Francis D P, Lazarova-Molnar S, et al. A framework for data-driven digital twins of smart manufacturing systems[J]. Computers in Industry, 2022, 136: 103586.
[3]Xu Yan, Sun Yanming, Liu Xiaolong, et al. A digital-twin-assisted fault diagnosis using deep transfer learning[J]. IEEE Access, 2019, 7: 19990-19999.
[4]Lugaresi G, Matta A. Real-time simulation in manufacturing systems: Challenges and research directions[C]//Proc of Winter Simulation Conference. Piscataway,NJ:IEEE Press, 2018: 3319-3330.
[5]Yang M, Moon J, Jeong J, et al. A novel embedding model based on a transition system for building industry-collaborative digital twin[J]. Applied Sciences, 2022, 12(2): 553.
[6]Chiorrini A, Diamantini C, Mircoli A, et al. Exploiting instance graphs and graph neural networks for next activity prediction[C]//Proc of International Conference on Process Mining. Cham: Springer International Publishing, 2021: 115-126.
[7]Wang Jiaojiao, Yu Dongjin, Liu Chengfei, et al. Outcome-oriented predictive process monitoring with attention-based bidirectional LSTM neural networks[C]//Proc of IEEE International Conference on Web Services. Piscataway,NJ:IEEE Press, 2019: 360-367.
[8]Van Der Aalst W M P, Schonenberg M H, Song M. Time prediction based on process mining[J]. Information Systems, 2011, 36(2): 450-475.
[9]Pauwels S, Calders T. Incremental predictive process monitoring: the next activity case[C]//Proc of International Conference on Business Process Management. Cham: Springer International Publishing, 2021: 123-140.
[10]盧可, 方賢文, 方娜. 基于行為向量的在線事件流預(yù)測(cè)[J]. 計(jì)算機(jī)集成制造系統(tǒng), 2022, 28(10): 3052-3063. (Lu Ke, Fang Xianwen, Fang Nan. Online event stream prediction based on beha-vior vectors[J]. Computer Integrated Manufacturing Systems, 2022, 28(10): 3052-3063.)
[11]Rizzi W, Di Francescomarino C, Ghidini C, et al. How do I update my model?On the resilience of predictive process monitoring models to change[J]. Knowledge and Information Systems, 2022,64(5): 1385-1416.
[12]Qi Qinglin, Tao Fei, Hu Tianliang, et al. Enabling technologies and tools for digital twin[J]. Journal of Manufacturing Systems, 2021,58: 3-21.
[13]Liu Qiang, Leng Jiewu, Yan Douxi, et al. Digital twin-based designing of the configuration, motion, control, and optimization model of a flow-type smart manufacturing system[J]. Journal of Manufactu-ring Systems, 2021, 58: 52-64.
[14]Lugaresi G, Matta A. Automated manufacturing system discovery and digital twin generation[J]. Journal of Manufacturing Systems, 2021,59: 51-66.
[15]Li Lianhui, Lei Bingbing, Mao Chuilei. Digital twin in smart manufacturing[J]. Journal of Industrial Information Integration, 2022, 26: 100289.
[16]Taymouri F, Rosa M L, Erfani S, et al. Predictive business process monitoring via generative adversarial nets: the case of next event prediction[C]//Proc of the 18th International Conference on Business Process Management. Cham:Springer International Publishing, 2020: 237-256.
[17]Lin Li, Wen Lijie, Wang Jianmin. MM-pred: a deep predictive mo-del for multi-attribute event sequence[C]//Proc of SIAM Internatio-nal Conference on Data Mining. Philadelphia,PA: Society for Industrial and Applied Mathematics, 2019: 118-126.
[18]Teinemaa I, Dumas M, Rosa M L, et al. Outcome-oriented predictive process monitoring: review and benchmark[J]. ACM Trans on Knowledge Discovery from Data, 2019,13(2): 1-57.
[19]Hinkka M, Lehto T, Heljanko K, et al. Classifying process instances using recurrent neural networks[C]//Proc of Business Process Management Workshops. Cham:Springer International Publishing, 2019: 313-324.
[20]Pasquadibisceglie V, Appice A, Castellano G, et al. Using convolutional neural networks for predictive process analytics[C]//Proc of International Conference on Process Mining. Piscataway,NJ:IEEE Press, 2019: 129-136.
[21]Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need[C]//Proc of the 31st International Conference on Neural Information Processing Systems. Red Hook,NY:Curran Associates Inc., 2017: 6000-6010.
[22]Wolf T, Debut L, Sanh V, et al. Transformers: state-of-the-art natural language processing[C]//Proc of Conference on Empirical Me-thods in Natural Language Processing: System Demonstrations. Stroudsburg,PA:ACL Press, 2020: 38-45.
[23]Ni Weijian, Zhao Gang, Liu Tong, et al. Predictive business process monitoring approach based on hierarchical transformer[J]. Electro-nics, 2023, 12(6): 1273.
[24]Hennig M C. Transformer for predictive and prescriptive process monitoring in IT service management[C]//Proc of ICPM Doctoral Consortium and Demo Track. 2022: 22-26.
[25]Bose R P J C, Van Der Aalst W M P, liobaitè I, et al. Dealing with concept drifts in process mining[J]. IEEE Trans on Neural Networks and Learning Systems, 2014,25: 154-171.
[26]Abbasi A, Javed A R, Chakraborty C, et al. ElStream: an ensemble learning approach for concept drift detection in dynamic social big data stream learning[J]. IEEE Access, 2021, 9: 66408-66419.
[27]Lee C Y, Wu C S, Hung Y H. In-line predictive monitoring framework[J]. IEEE Trans on Automation Science and Engineering, 2020, 18(4): 1668-1678.
[28]Senderovich A, Di Francescomarino C, Maggi F M. From knowledge-driven to data-driven inter-case feature encoding in predictive process monitoring[J]. Information Systems, 2019, 84: 255-264.
[29]Pauwels S, Calders T. Bayesian network based predictions of business processes[C]//Proc of Business Process Management Forum: BPM Forum. Cham:Springer International Publishing, 2020: 159-175.
[30]Russell S J, Norvig P. Artificial intelligence a modern approach[M]. 2010.
[31]Staudemeyer R, Morris E. Understanding LSTM-a tutorial into long short-term memory recurrent neural networks[EB/OL]. (2019-09-12). https://arxiv.org/abs/1909.09586.
[32]Guzzo A, Joaristi M, Rullo A, et al. A multi-perspective approach for the analysis of complex business processes behavior[J]. Expert Systems with Applications, 2021, 177: 114934.
[33]Adams J N, Van Zelst S, Rose T, et al. Explainable concept drift in process mining[J]. Information Systems, 2023, 114: 102177.
[34]Uddin M J, Li Yubin, Sattar M A, et al. Effects of learning rates and optimization algorithms on forecasting accuracy of hourly typhoon rainfall: experiments with convolutional neural network[J]. Earth and Space Science, 2022, 9 (3): 2021EA002168.