徐興榮,劉 聰,,李 婷,郭 娜,任崇廣,曾慶田
(1.山東理工大學計算機科學與技術學院,山東淄博 255000;2.山東科技大學計算機科學與工程學院,山東青島 266590)
預測型流程監(jiān)控[1]作為流程挖掘領域中重要的研究方向,其目標是對正在執(zhí)行的業(yè)務流程實例進行預測分析,進一步準確預測在未來一段時間內可能出現(xiàn)的執(zhí)行狀態(tài),例如某個實例的演變、下一個將要執(zhí)行的活動、實例剩余時間[2]等.
業(yè)務流程剩余時間預測[3]是預測型流程監(jiān)控中的一項主要預測任務,旨在對當前業(yè)務流程實例剩余執(zhí)行時間進行預測.對于傳統(tǒng)剩余時間預測方法,其事先在業(yè)務流程歷史日志中挖掘變遷系統(tǒng)[4]、隨機Petri網(wǎng)[5]等形式化流程模型,然后利用挖掘的模型對剩余時間進行預測.近年來,深度學習技術被廣泛應用于剩余時間預測任務中,如長短期記憶(Long Short-Term Memory,LSTM)循環(huán)神經(jīng)網(wǎng)絡[6],并取得較好的預測效果.
然而,基于深度學習技術的業(yè)務流程剩余時間預測還處于起步階段,如下問題尚未得到解決:
(1)應用深度學習技術的前提是需要建立高質量的訓練數(shù)據(jù),就目前已有方法中,主要是以時間戳或時間先后次序索引來提取歷史流程實例軌跡前綴序列,并將其作為深度學習技術的訓練數(shù)據(jù).但是,在整個業(yè)務流程中,不同種類的流程實例軌跡前綴之間存在著較大的差異性[7],例如對于一個剛開始不久的流程實例與一個即將結束的流程實例而言,在對它們剩余時間進行預測時所考慮的因素是各不相同的.此外,不同長度的流程實例軌跡前綴數(shù)量呈不均勻分布,且短流程實例軌跡前綴數(shù)量在一般情況下要多于長流程實例軌跡前綴,倘若單純的將二者混合以訓練剩余時間預測模型,會被數(shù)量較多的短流程實例軌跡前綴影響,從而在一定程度上降低剩余時間預測準確度.
(2)已有方法大都以傳統(tǒng)LSTM 構建剩余時間預測模型,但由于LSTM 對序列數(shù)據(jù)建模能力有限且在處理大規(guī)模序列數(shù)據(jù)時存在訓練速度緩慢的問題,因此如何在提升剩余時間預測效果的同時,提高預測模型的訓練速度,需進行深入研究.
基于目前工作存在的不足,本文提出一種基于雙向準循環(huán)神經(jīng)網(wǎng)絡和注意力機制的業(yè)務流程剩余時間預測方法,主要創(chuàng)新點體現(xiàn)在:首先,設計了一種基于注意力機制的雙向準循環(huán)神經(jīng)網(wǎng)絡剩余時間預測模型.該預測模型在利用門函數(shù)和記憶單元保證序列信息上下文相關性的同時,通過應用矩陣卷積運算實現(xiàn)對輸入序列信息及門函數(shù)的有效處理,進而提高了預測模型的并行計算能力,加快了預測模型的訓練時間.引入注意力機制是為了在訓練過程中通過對不同位置的序列信息權重的計算,進一步提高重要特征對預測結果的影響.然后,設計了一種基于不同長度軌跡前綴訓練迭代策略,解決并提升了流程實例中不同長度軌跡前綴間的數(shù)量差異性和關聯(lián)性.最后,提出一種基于Word2vec 的事件表示學習方法,通過對事件日志中事件的高質量向量化表示,達到增強事件辨識度和提升剩余時間預測效果的目的.
目前,業(yè)務流程剩余時間預測在流程挖掘領域中擁有較強的研究價值,它不僅可以起到優(yōu)化業(yè)務系統(tǒng)性能的作用,而且還可以為管理者提供可靠的決策性依據(jù).起初,Will van der Aalst 等[3]利用構建的多層次抽象變遷系統(tǒng)記錄事件日志中所有流程實例可能出現(xiàn)的狀態(tài),并為每個狀態(tài)標注所屬時間信息,以之進行剩余時間預測;Rogge-Solti 等[5]通過對事件日志中隨機Petri 網(wǎng)的挖掘以模擬正在執(zhí)行的流程實例,并根據(jù)相應結果對剩余時間進行預測.由于傳統(tǒng)流程挖掘方法在面對剩余時間預測任務時存在較多局限性,導致這些方法在處理海量事件日志的過程中不能獲得較優(yōu)的預測效果.
隨著機器學習技術的廣泛應用,研究者將其融入到剩余時間預測任務中.Folino 等[8]通過對不同類型數(shù)據(jù)的分析,提出一種基于聚類的剩余時間預測方法,該方法利用邏輯規(guī)則對聚類模型進行表示,從而幫助隱形上下文更好地適應事后分析[9];Polato 等[10]在文獻[3]的基礎上提出數(shù)據(jù)感知變遷系統(tǒng).它通過樸素貝葉斯分類方式為存在的狀態(tài)節(jié)點建立模型,然后利用支持向量機進行剩余時間預測;Verenich等[11]將業(yè)務流程抽象為流程樹,并在每個流程樹節(jié)點上訓練回歸模型以預測剩余時間.
近幾年,研究者逐漸開始利用深度學習技術進行業(yè)務流程剩余時間的預測工作.Evermann 等[12]通過利用簡單的LSTM和嵌入方式對變量進行分類訓練,實現(xiàn)對業(yè)務流程剩余時間預測的目標;Nguyen 等[13]在現(xiàn)有的基礎上提出新特征表示方法,以提高目前深度學習模型的預測能力;倪維健等[14]在文獻[2]的基礎上通過引入注意力機制,進一步提高了業(yè)務流程剩余時間的準確度.隨著時間推移,部分研究者通過將深度神經(jīng)網(wǎng)絡與相關分析技術融合研究出新結構變體.Khan 等[15]利用記憶增強神經(jīng)網(wǎng)絡來解決業(yè)務流程剩余時間預測任務中復雜問題的過程分析;Pasquadibisceglie 等[16]提出一種數(shù)據(jù)工程方法.該方法事先將業(yè)務流程中事件時間數(shù)據(jù)轉換為抽象的空間圖像結構,然后利用卷積神經(jīng)網(wǎng)絡進行處理,從而獲得剩余時間預測結果;Taymouri 等[17]采用生成式對抗網(wǎng)絡在生成事件后綴的同時,預測剩余時間;Bukhsh 等[18]提出一種高級表示方法.該方法通過使用Transformer 模型克服傳統(tǒng)預測模型不能有效捕捉輸入序列長期依賴關系的問題,實現(xiàn)對剩余時間的準確預測.
本節(jié)將對業(yè)務流程剩余時間預測任務的相關知識進行詳細介紹,并給出形式化描述.
定義1事件是業(yè)務系統(tǒng)中一個活動的執(zhí)行實例,可以用元組e=(a,id,Tstart,Tend,P1,…,Pm)進行表示.其中,a為事件執(zhí)行活動,id 為事件所屬流程實例ID,Tstart和Tend分別為事件執(zhí)行的開始時間和結束時間,P1,…,Pm為事件含有的屬性,包括:事件相關資源、執(zhí)行代價等信息.
定義2軌跡是非空且有限的事件序列,可以用σ=(e1,…,e|σ|)進行表示.其中,對于?1≤i≤|σ|,ei代表執(zhí)行的第i個事件,|σ|代表軌跡中事件數(shù)量.
定義3軌跡前綴是軌跡σ中的前k個事件,可以用σ(k)=(e1,…,ek)進行表示,其中1≤k≤|σ|.軌跡前綴剩余時間RemainTime(σ,k)=e|σ|.Tend-ek.Tend.
定義4流程實例是整個業(yè)務流程的執(zhí)行實例,可以用元組c=(Cid,σ,Z1,…,Zn)進行表示.其中,Cid 為流程實例的ID,σ為該流程實例中包含的軌跡,Z1,…,Zn為流程實例含有的屬性.
定義5事件日志是對業(yè)務流程歷史執(zhí)行情況的記錄,是全部流程實例的集合,可以用L={c1,…,c|l|}進行表示.其中,|l|表示事件日志L包含的流程實例c數(shù)目.
定義6對于業(yè)務系統(tǒng),假若系統(tǒng)給定事件空間為X,則流程實例中軌跡及軌跡前綴空間可表示為X*,剩余時間預測目標是通過建立的預測模型f=X*→R+預測流程實例軌跡前綴的剩余時間.
需說明,本文只利用流程實例軌跡信息開展剩余時間預測任務,故在無特殊情況下通過軌跡表示其所屬的流程實例,而如何融入流程實例中其它屬性信息將作為下一階段主要的研究工作.
基于深度學習技術的業(yè)務流程剩余時間預測可分為訓練和應用兩個階段.其中,訓練階段是通過抽取事件日志中流程實例集合訓練預測模型f;應用階段,是利用預測模型f對正在執(zhí)行的流程實例(即軌跡前綴)剩余時間進行預測.
訓練階段,訓練數(shù)據(jù)集的構建是在流程實例軌跡前綴長度的基礎上進行,詳細步驟如算法1 所示,基本思想是:遍歷事件日志L中每條軌跡σ,并在設定的軌跡前綴長度范圍[kmin,kmax]內進行截取,隨之得到長度不一的軌跡前綴σ(k)以及對應的剩余時間RemainTime(σ,k),并作為訓練集Dk中的訓練樣本,最后經(jīng)組合獲得全部長度的訓練數(shù)據(jù)集D.
應用階段,是利用生成的訓練數(shù)據(jù)集學習剩余時間預測模型f,為防止學習過程中過擬合情況的出現(xiàn),引入正則項Ω(f),即:
基于雙向準循環(huán)神經(jīng)網(wǎng)絡和注意力機制的業(yè)務流程剩余時間預測方法框架如圖1所示.
圖1 基于雙向準循環(huán)神經(jīng)網(wǎng)絡和注意力機制的業(yè)務流程剩余時間預測方法框架圖
首先,根據(jù)算法1將事件日志劃分為不同長度軌跡前綴訓練數(shù)據(jù)集;然后,抽取訓練數(shù)據(jù)集中全部事件,利用基于Word2vec的事件表示學習方法對事件進行向量表示,并將其作為預測模型的輸入.同時,為進一步克服和提升不同長度軌跡前綴間的數(shù)量差異性和關聯(lián)性,利用基于不同長度軌跡前綴訓練迭代策略對預測模型進行迭代訓練;最后,獲得業(yè)務流程剩余時間預測結果.經(jīng)實驗結果表明,將該方法應用于業(yè)務流程剩余時間預測任務后,在預測效果等方面展現(xiàn)出一定優(yōu)勢.
目前,基于深度學習技術的業(yè)務流程剩余時間預測方法大都以獨熱(one-hot)編碼的方式對事件進行表示,但因one-hot編碼存在語義鴻溝等問題,使得剩余時間預測準確度還有待提升.基于此,提出一種基于Word2vec 的事件表示學習方法,以之對事件日志中事件進行表示學習,并將訓練得到的事件向量作為預測模型的輸入,從而實現(xiàn)提升事件表示質量和預測效果的目標.
由定義1可知,執(zhí)行活動與執(zhí)行時間是事件的關鍵組成部分,因此將其當作事件的主要標識,并進行向量化表示.然而,由于事件執(zhí)行時間是連續(xù)值,故需對其離散化處理,旨在將事件日志中事件對應活動可能出現(xiàn)的執(zhí)行時間進行細化分類.經(jīng)離散化后事件e的執(zhí)行時間為:
式中,t(e)代表事件e的連續(xù)執(zhí)行時間,tMIN(EndTime-StartTime)(e.a)和tMAX(EndTime-StartTime)(e.a)代表經(jīng)計算整個事件日志所有活動a執(zhí)行時間后選擇的最短與最長執(zhí)行時間,N代表離散化后事件e執(zhí)行時間所劃分的數(shù)量(本文N=10).由此,事件表示學習的目標是將業(yè)務系統(tǒng)中全部活動與離散化執(zhí)行時間進行拼接,通過訓練得到事件向量
對事件進行表示學習時,主要利用自然語言處理領域中基于Word2vec 中的CBOW(continuous bag-ofword model)詞向量學習方法[19],基本思想為:首先,取第t時刻事件et的上下文c個事件{et-c,…,et-1,et+1,…,et+c}進行one-hot 編碼(實驗環(huán)節(jié)c設置為2),并作為訓練模型的輸入,此時輸入向量通過與權重矩陣相乘及加權平均后獲得隱藏層向量;然后,隱藏層向量隨之與輸出層之間權重矩陣相乘,經(jīng)Softmax 操作后得到事件et的概率分布.最終,經(jīng)訓練獲得的權重矩陣為事件et的表示向量.
由于LSTM 在計算每個時間步時都依賴于前一個時間步的輸出,使得在處理大規(guī)模序列數(shù)據(jù)時無法進行有效地并行計算,進一步降低了對序列數(shù)據(jù)的建模能力.而準循環(huán)神經(jīng)網(wǎng)絡(Quasi-Recurrent Neural Network,QRNN)[20]通過一種交替卷積層的神經(jīng)序列建模方法,在輸出時充分利用輸入序列的順序信息[21],實現(xiàn)了對序列數(shù)據(jù)跨時間步長的并行處理.除此之外,QRNN 在LSTM 結構的基礎上進行簡化,只需計算遺忘門和輸出門,減少了網(wǎng)絡計算量[22].卷積層和池化層是QRNN 主要組成部分,其網(wǎng)絡模型結構如圖2 所示.其中,卷積層的作用在于提取輸入序列數(shù)據(jù)的特征信息并對門函數(shù)進行卷積處理,池化層則是提取卷積層輸出的特征信息,以達到減少特征數(shù)目的目的.
圖2 QRNN網(wǎng)絡模型結構
假設長度為T的序列X=(x1,x2,…,xT)是QRNN 卷積層輸入序列,首先以卷積方式經(jīng)數(shù)量為w、寬度為r的濾波器在時間維度上對輸入序列特征信息加以卷積處理,使當前及過去時刻信息輸入至QRNN 單元,QRNN單元結構如圖3 所示.倘若在t時刻,輸入序列為X=(x(t-r+1),…,xt),則輸出序列zt、遺忘門ft和輸出門ot計算過程為:
圖3 QRNN單元結構圖
式中,Wz、Wf、Wo代表權重矩陣,Sigmoid和tanh代表激活函數(shù).當濾波器寬度r增大時,模型可以計算更多NGarm特征,實驗環(huán)節(jié)濾波器寬度為2.
池化層采用fo-pooling 池化方式對第t時刻記憶單元狀態(tài)ct進行更新:
最后,QRNN 輸出ht由第t時刻輸出門ot和記憶單元狀態(tài)ct計算而得:
式中,⊙代表向量按位相乘運算,ct-1表示上一時刻記憶單元狀態(tài).
針對單向QRNN 在處理序列數(shù)據(jù)時不能較好地顧及上下文信息之間的聯(lián)系以及有效區(qū)分不同位置的重要程度,本文使用帶有注意力機制的雙向準循環(huán)神經(jīng)網(wǎng)絡(Bi-directional Quasi-Recurrent Neural Network with Attention,Att-Bi-QRNN)構建剩余時間預測模型.該預測模型包含如下關鍵模塊:
(1)基于雙向QRNN的上下文編碼
雙向QRNN 由一條正向QRNN和一條反向QRNN組成,相較于單向QRNN,雙向QRNN 可以充分考慮軌跡前綴中不同事件間的相關性.假設正向QRNN和反向QRNN 獲得的輸出隱向量分別是,則第t時刻上下文編碼為
(2)基于注意力機制的軌跡前綴編碼
獲得第t時刻軌跡前綴上下文編碼Ht后,利用注意力機制計算整個軌跡前綴編碼,計算過程為:
式中,at代表第t時刻上下文編碼權重,同時也進一步反映出軌跡前綴中不同事件對剩余時間預測任務的重要程度.
針對訓練單一剩余時間預測模型而言,利用多個預測模型可以在一定程度上提高剩余時間預測的有效性和針對性,但也面臨著眾多困難與挑戰(zhàn).第一,利用算法1將事件日志劃分為多個訓練集后,其內部的軌跡前綴數(shù)量會進一步減少,尤其是在現(xiàn)實事件日志,軌跡前綴數(shù)量會根據(jù)其長度出現(xiàn)逐漸下降的現(xiàn)象,導致長度較長的軌跡前綴數(shù)據(jù)量變得較少,再加上深度學習技術需要大量的訓練數(shù)據(jù)作為支撐,倘若只在各個訓練集中進行訓練,將會很難得到準確的預測模型;第二,由于長度較長的軌跡前綴涵蓋了所有長度小于其本身的軌跡前綴,因此長度較短的軌跡前綴預測模型可以為長度較長的軌跡前綴預測模型提供有用的預測信息,而僅在各長度不一的軌跡前綴訓練集上獨立訓練預測模型,忽視了不同長度軌跡前綴之間的關聯(lián)性.
基于此,設計了一種基于不同長度軌跡前綴訓練迭代策略,詳細步驟如算法2 所示.首先,設定軌跡前綴長度范圍[min,max],其中min 表示事件日志中最短軌跡前綴長度,max表示過濾掉不頻繁長軌跡前綴后的最大軌跡前綴長度.而過濾掉不頻繁長軌跡前綴主要原因在于不頻繁出現(xiàn)的長軌跡前綴在整個事件日志中數(shù)據(jù)量極少,因此在對其進行訓練時很容易造成過擬合的情況,進而影響剩余時間預測效果.然后,利用算法1 生成多個訓練集Dk.min,…,Dk.max,并在長度短(min)且數(shù)量多的軌跡前綴訓練集Dk.min上訓練剩余時間預測模型Fk.min,當預測模型Fk.min訓練完畢,將其訓練參數(shù)共享于長軌跡前綴預測模型,并進行迭代訓練,直至得到最長(max)軌跡前綴的剩余時間預測模型Fk.max.利用此策略不僅可以充分使用不同長度軌跡前綴內在關聯(lián)性,而且還可以解決長軌跡前綴數(shù)據(jù)量較少的問題,從而提升剩余時間預測準確性.
本節(jié)對提出的基于雙向準循環(huán)神經(jīng)網(wǎng)絡和注意力機制的業(yè)務流程剩余時間預測方法進行實驗探究與分析.
實驗基于PC Intel Core i5-10400F 2.90 GHz、NVIDA GeForce RTX 2070 SUPER 環(huán)境,使用Pytorch 框架實現(xiàn).
實驗使用5 個來自4TU Center for Research 平臺公開的事件日志數(shù)據(jù)集,分別為:BPIC_2012_A、BPIC_2012_O、BPIC_2012_W、Helpdesk、Hospital_Billing,其中:
BPIC_2012_A:是記錄荷蘭財政機構貸款申請審批流程的事件日志;
BPIC_2012_O:同BPIC_2012_A,且僅記錄了貸款審批狀態(tài)的變更信息;
BPIC_2012_W:同BPIC_2012_A,且僅記錄了貸款審批資源狀態(tài)的變更信息;
Helpdesk:是記錄意大利軟件公司票務管理系統(tǒng)后臺流程的事件日志;
Hospital_Billing:是記錄某地區(qū)醫(yī)院EPR 系統(tǒng)中出院結算流程的事件日志;
上述5 個事件日志數(shù)據(jù)集的基本信息統(tǒng)計情況如表1所示.
表1 事件日志數(shù)據(jù)集基本信息統(tǒng)計
利用平均絕對誤差(Mean Absolute Error,MAE)作為剩余時間預測任務的總體評價指標,通過計算軌跡前綴剩余時間真實值和預測值之間差值的絕對值評判剩余時間預測準確度.MAE值越低,表明預測的剩余時間越準確.
式中,σ(k)代表軌跡前綴,f(σ(k))代表軌跡前綴剩余時間的預測值,RemainTime(σ,k)代表軌跡前綴剩余時間的真實值.
實驗通過5折交叉驗證的方式進行有效評估,故將數(shù)據(jù)集隨機劃分為5 等份,每次將4 份數(shù)據(jù)選作訓練集,1 份選作測試集,重復5 次實驗,最后把每次實驗MAE值的平均值作為最終評估結果.
5.3.1 業(yè)務流程剩余時間預測準確度對比分析
本文在5個事件日志數(shù)據(jù)集上進行了對比實驗,實驗結果如表2 所示.為驗證以QRNN 為基準的預測模型(即QRNN、引入雙向機制的Bi-QRNN、引入雙向機制和注意力機制的Att-Bi-QRNN)在剩余時間預測任務上的有效性,將與文獻[14]提出的基于注意力雙向循環(huán)神經(jīng)網(wǎng)絡剩余時間預測方法進行比較,同時在預測模型順序結構和隱層節(jié)點數(shù)的設置上與對比方法[14]保持一致.此外,Batch_size 設置為512,迭代150 輪,使用Adam優(yōu)化算法.
表2 業(yè)務流程剩余時間預測方法對比實驗結果
對比QRNN、LSTM、GRU 三種預測模型(QRNN vs LSTM vs GRU、Bi-QRNN vs Bi-LSTM vs Bi-GRU、Att-Bi-QRNN vs Att-Bi-LSTM vs Att-Bi-GRU),QRNN 整體預測效果在5 個事件日志數(shù)據(jù)集中優(yōu)于LSTM和GRU,因此可認為QRNN 比LSTM、GRU 更加適合剩余時間預測任務.
引入雙向機制后,Bi-QRNN 相比于QRNN 在5 個事件日志數(shù)據(jù)集中獲得較低MAE 值,說明雙向機制可以有效提升事件之間的關聯(lián)性,達到提高預測效果的目的.而在Bi-QRNN 基礎上引入注意力機制后,Att-Bi-QRNN在各事件日志數(shù)據(jù)集上MAE值進一步降低,表明注意力機制經(jīng)對不同位置事件信息權重的計算,有效區(qū)分出不同事件對剩余時間預測任務的影響,進而獲取關鍵事件信息.此外,在同級相比的條件下,以QRNN為基準的預測模型MAE 值在5 個事件日志數(shù)據(jù)集中比以LSTM和GRU 為基準的預測模型平均下降近10%(Bi-QRNN vs Bi-LSTM、Bi-GRU)和4%(Att-Bi-QRNN vs Att-Bi-LSTM、Att-Bi-GRU),說明將Att-Bi-QRNN預測模型應用于業(yè)務流程剩余時間預測任務具有一定的可行性.
相比于文獻[14]以LSTM和GRU 為基準的最佳預測方法,本文方法(即Trans-Att-Bi-QRNN,以Att-Bi-QRNN作為基礎預測模型,融入基于不同長度軌跡前綴訓練迭代策略和基于Word2vec 的事件表示學習方法)在5 個不同的事件日志數(shù)據(jù)集中MAE 值平均下降近15%,表明本文提出的剩余時間預測方法在剩余時間預測任務中具備優(yōu)越性.
5.3.2 基于不同長度軌跡前綴訓練迭代策略分析
在實驗中,以帶有注意力機制的雙向QRNN 為基準模型(即Att-Bi-QRNN),并在此基礎上訓練不同長度軌跡前綴預測模型,具體訓練方式如下:
(1)在不同長度軌跡前綴數(shù)據(jù)集上單獨訓練剩余時間預測模型,以Diff-Att-Bi-QRNN表示;
(2)在不同長度軌跡前綴數(shù)據(jù)集上利用第4.3 節(jié)基于不同長度軌跡前綴訓練迭代策略訓練多個剩余時間預測模型,以Trans-Att-Bi-QRNN表示;
兩種不同方法在5 個事件日志數(shù)據(jù)集上所獲得的業(yè)務流程剩余時間預測準確度(MAE)如圖4(a)~(e)所示.
圖4 基于不同長度軌跡前綴訓練迭代策略效果對比圖
由圖4實驗結果可知,Trans-Att-Bi-QRNN在各事件日志數(shù)據(jù)集中獲得的MAE 值優(yōu)于Diff-Att-Bi-QRNN,同時,對于BPIC_2012_O、BPIC_2012_W、Helpdesk、Hospital_Billing 事件日志數(shù)據(jù)集,Trans-Att-Bi-QRNN 在長軌跡前綴上展現(xiàn)出一定優(yōu)勢,說明基于不同長度軌跡前綴訓練迭代策略可解決不同長度軌跡前綴之間數(shù)量存在差異性的問題,提升了不同長度軌跡前綴的關聯(lián)性.
為進一步說明Trans-Att-Bi-QRNN 在剩余時間預測任務中的有效性,將Trans-Att-Bi-QRNN 及Diff-Att-Bi-QRNN 在不同長度軌跡前綴數(shù)據(jù)集下取得的MAE 值進行加權平均,結果如表3所示.
通過表3結果可知,Trans-Att-Bi-QRNN在各事件日志數(shù)據(jù)集中MAE 值相比于Diff-Att-Bi-QRNN 降低近13%,表明在引入基于不同長度軌跡前綴訓練迭代策略后,其對剩余時間預測效果呈現(xiàn)出正影響狀態(tài),印證了基于不同長度軌跡前綴訓練迭代策略確有助于提升剩余時間預測準確度.
表3 基于不同長度軌跡前綴訓練迭代策略實驗結果
5.3.3 基于Word2vec的事件表示學習方法分析
在實驗中,以Trans-Att-Bi-QRNN 為基礎模型,分別將基于Word2vec 的事件表示方法得到的向量(表示為Trans-Att-Bi-QRNN-Vector)及傳統(tǒng)one-hot 編碼(表示為Trans-Att-Bi-QRNN-NoVector)得到的向量作為預測模型的輸入,以驗證事件表示學習方法對剩余時間預測效果的影響.
圖5 展示了兩種不同方法的MAE 值.可以看出,Trans-Att-Bi-QRNN-Vector 在5 個事件日志數(shù)據(jù)集上的MAE值比Trans-Att-Bi-QRNN-NoVector 的MAE值低3%,因此可以認為基于Word2vec 的事件表示學習方法對提升業(yè)務流程剩余時間預測效果具有積極的作用.
圖5 基于Word2vec的事件表示學習方法效果對比圖
5.3.4 時間性能對比分析
本節(jié)在5個事件日志數(shù)據(jù)集上對各預測模型的訓練時間(單位:秒)進行了對比實驗,實驗結果如圖6(a)~(e)所示.在實驗過程中,預測模型在不同方法下采用相同模型參數(shù):迭代次數(shù)為150、學習率為0.01、Batch_size為512、輸入事件向量維度為3、神經(jīng)元隱向量維度為5.
圖6 預測模型訓練時間對比圖
由實驗結果可知,在有無基于Word2vec 的事件表示學習方法和基于不同長度軌跡前綴訓練迭代策略的條件下,對于BPIC_2012_A,以QRNN 為基準的預測模型訓練時間比以LSTM和GRU 為基準的預測模型訓練時間平均縮短11%~18%;對于BPIC_2012_O,以QRNN為基準的預測模型訓練時間比以LSTM和GRU 為基準的預測模型訓練時間平均縮短19%~29%;對于BPIC_2012_W,以QRNN 為基準的預測模型訓練時間比以LSTM和GRU 為基準的預測模型訓練時間平均縮短20%~35%;對于Helpdesk,以QRNN 為基準的預測模型訓練時間比以LSTM和GRU 為基準的預測模型訓練時間平均縮短13%~20%;對于Hospital_Billing,以QRNN為基準的預測模型訓練時間比以LSTM和GRU 為基準的預測模型訓練時間平均縮短15%~25%.
綜上所述,以QRNN 為基準的預測模型相比于以LSTM和GRU 為基準的預測模型在5 個事件日志數(shù)據(jù)集中訓練速度平均縮短了約26%,說明本文使用的預測模型具備更快的系統(tǒng)運行速度,從而使預測模型的整體性能得到有效提升.
綜合分析5 個事件日志數(shù)據(jù)集在各項實驗中的結果可知,相比于LSTM、Bi-LSTM、Att-Bi-LSTM、GRU、Bi-GRU、Att-Bi-GRU,所提方法無論是在剩余時間預測效果,還是在預測模型訓練速度,都取得較優(yōu)的實驗結果,說明該方法在剩余時間預測任務中存在一定優(yōu)勢.
另外,表4 給出9 種剩余時間預測模型的參數(shù)規(guī)模,可見在同級相比的條件下,QRNN 預測模型參數(shù)量明顯少于LSTM和GRU預測模型,說明QRNN預測模型在沒有明顯增加網(wǎng)絡參數(shù)的條件下進一步提升了業(yè)務流程剩余時間預測性能.
表4 各預測模型參數(shù)規(guī)模
本文提出一種基于雙向準循環(huán)神經(jīng)網(wǎng)絡和注意力機制的業(yè)務流程剩余時間預測方法.該方法采用處理序列數(shù)據(jù)更佳的準循環(huán)神經(jīng)網(wǎng)絡,有效克服傳統(tǒng)LSTM因缺少并行計算能力而導致訓練緩慢的問題.同時,通過引入雙向機制和注意力機制進一步提升了上下文信息之間的聯(lián)系以及重要特征對預測結果的影響.此外,經(jīng)使用基于不同長度軌跡前綴訓練迭代策略和基于Word2vec 的事件表示學習方法,不僅加強了業(yè)務流程剩余時間預測的針對性,而且還為預測模型提供了高質量的輸入事件向量.由實驗結果表明,本文方法在預測效果以及訓練時間上明顯優(yōu)于已有研究.
然而,所提方法只是針對流程實例中軌跡信息、事件信息進行剩余時間預測,而流程實例中還包含執(zhí)行者、資源等額外屬性,因此可在當前工作的基礎上增加其他屬性,以驗證多屬性對剩余時間預測效果的影響.此外,作為一種深度學習方法,該方法雖然獲得較優(yōu)的預測效果,但可解釋性較差,即使部分研究者開始著手于此方面的研究,但這些方法對深度學習技術應用于剩余時間預測任務的解釋效果并不是很理想,因此如何提高剩余時間預測任務的可解釋性,是今后一項重要的研究工作.