摘? 要:事件日志的預(yù)處理是過(guò)程挖掘的第一步,事件日志中存在的大量噪音、低頻行為對(duì)過(guò)程挖掘造成了極大的困擾。以往的研究大多是從控制流角度出發(fā),只考慮了活動(dòng)之間的發(fā)生順序,較少涉及活動(dòng)所包含的數(shù)據(jù)屬性。由此提出了在控制流關(guān)聯(lián)規(guī)則的基礎(chǔ)上進(jìn)行數(shù)據(jù)流關(guān)聯(lián)規(guī)則的挖掘方法,首先基于Apriori算法挖掘出具有高度依賴關(guān)系的活動(dòng)集合,再?gòu)臄?shù)據(jù)流角度對(duì)事件日志進(jìn)行過(guò)濾。具體的實(shí)例分析和仿真實(shí)驗(yàn)驗(yàn)證了方法的有效性。
關(guān)鍵詞:過(guò)程挖掘;關(guān)聯(lián)規(guī)則;Apriori
中圖分類號(hào):TP391.9? ? 文獻(xiàn)標(biāo)識(shí)碼:A? 文章編號(hào):2096-4706(2023)02-0069-05
Event Log Anomaly Analysis and Filtering Method Based on Multi-View Association Rules
HU Wei
(School of Computer Science and Engineering, Anhui University of Science and Technology, Huainan? 232001, China)
Abstract: The preprocessing of event log is the first step of process mining. A lot of noise and low-frequency behavior in event log cause great trouble to process mining. From the perspective of control flow, most of the previous studies only consider the sequence of occurrence among activities, and rarely involve the data attributes contained in activities. Thus this paper puts forward the mining method of data flow association rules based on control flow association rules. Firstly, based on Apriori algorithm, it mines the set of activities with high degree of dependency relationship. Then it filters the event log from the perspective of the data flow. The effectiveness of the method is verified by the actual example analysis and simulation experiments.
Keywords: process mining; association rule; Apriori
0? 引? 言
關(guān)聯(lián)規(guī)則(Association Rules)反映了多個(gè)數(shù)據(jù)項(xiàng)之間的相互關(guān)系和依賴性,如最著名的“啤酒和尿布”營(yíng)銷案例,就是利用了兩件商品之間的相互依賴關(guān)系,時(shí)至今日,關(guān)聯(lián)規(guī)則已成為數(shù)據(jù)挖掘領(lǐng)域的一個(gè)重要技術(shù)。而過(guò)程挖掘就是對(duì)事件日志中的知識(shí)進(jìn)行提取、挖掘,從而去發(fā)現(xiàn)、監(jiān)控、優(yōu)化實(shí)際流程。在實(shí)際應(yīng)用中,過(guò)程挖掘所用到的事件日志往往不是完備的,常常包含大量的低頻行為、噪音、異常,這對(duì)發(fā)現(xiàn)過(guò)程模型造成了嚴(yán)重的困擾,如何過(guò)濾掉事件日志中的噪音、無(wú)效低頻行為是過(guò)程挖掘研究的熱點(diǎn)。文獻(xiàn)[1]提出一種名為“日志自動(dòng)機(jī)”的技術(shù)來(lái)自動(dòng)過(guò)濾低頻行為。文獻(xiàn)[2]提出了一種利用關(guān)聯(lián)規(guī)則和模糊關(guān)聯(lián)規(guī)則的方法對(duì)異常行為進(jìn)行檢測(cè),判斷其是欺詐行為的可能性。文獻(xiàn)[3]則是從三個(gè)不同的視角控制流(活動(dòng))、時(shí)間(時(shí)間戳)、資源(活動(dòng)執(zhí)行資源)出發(fā),檢測(cè)事件日志中的異常行為。文獻(xiàn)[4]重點(diǎn)從醫(yī)療領(lǐng)域的一系列實(shí)際流程出發(fā),從數(shù)據(jù)流和控制流兩個(gè)角度將事件日志與模型進(jìn)行對(duì)齊,分析和分類了數(shù)據(jù)預(yù)期目的和數(shù)據(jù)使用環(huán)境相關(guān)的偏差,并提供了一種新的算法來(lái)識(shí)別不一致的用戶行為。文獻(xiàn)[5]采用了一種將過(guò)程挖掘和關(guān)聯(lián)規(guī)則挖掘相結(jié)合的混合方法,通過(guò)關(guān)聯(lián)規(guī)則算法產(chǎn)生的正負(fù)規(guī)則與事件日志進(jìn)行一致性檢查來(lái)判斷異常行為,與單純的過(guò)程挖掘方法相比,混合方法具有更低的錯(cuò)誤發(fā)現(xiàn)率和更高的準(zhǔn)確度,在該方法中,最佳的準(zhǔn)確度取決于一定的置信閾值。
本文將活動(dòng)的名稱、資源、時(shí)間戳視為活動(dòng)自帶的內(nèi)部屬性,通過(guò)探索屬性之間的關(guān)聯(lián)規(guī)則篩選出合法活動(dòng)與異?;顒?dòng)。本文不僅考慮單個(gè)活動(dòng)是否符合流程規(guī)則,更進(jìn)一步地考慮活動(dòng)與活動(dòng)之間的關(guān)聯(lián)規(guī)則,并通過(guò)根據(jù)Apriori算法計(jì)算出的關(guān)聯(lián)規(guī)則區(qū)分出合法行為和異常行為,并以此對(duì)事件日志進(jìn)行過(guò)濾。
1? 基本概念
定義1(事件日志):業(yè)務(wù)流程的執(zhí)行以事件日志的形式記錄下來(lái),設(shè)一個(gè)事件日志L是一組執(zhí)行跡的集合,日志跡t=
(1)ea:事件的執(zhí)行活動(dòng),這里用活動(dòng)名稱表示。
(2)er:事件的執(zhí)行資源,表示活動(dòng)是由特定角色或系統(tǒng)執(zhí)行。
(3)et:事件執(zhí)行所需的時(shí)間,由活動(dòng)的開(kāi)始時(shí)間戳、結(jié)束時(shí)間戳以及相關(guān)的隸屬度函數(shù)確定。
(4)es:活動(dòng)執(zhí)行的開(kāi)始時(shí)間戳,任意eies>0∩
eies∈R。
(5)ec:活動(dòng)執(zhí)行的結(jié)束時(shí)間戳,任意eiec>0∩
eiec∈R。
例如表一中的跡t1中的事件e1=(A,Tom,0,5,Low),A代表e1執(zhí)行的活動(dòng),Tom表示A活動(dòng)是由Tom執(zhí)行,0、5表示A活動(dòng)的開(kāi)始時(shí)間戳與結(jié)束時(shí)間戳,因?yàn)闀r(shí)間屬性屬于模糊數(shù),為了方便定義與后續(xù)的計(jì)算,本文將時(shí)間分為三個(gè)等級(jí),通過(guò)相關(guān)的隸屬度函數(shù)確定其等級(jí),Low表示該活動(dòng)執(zhí)行所需的時(shí)間等級(jí)為低。
圖1中橫坐標(biāo)表示活動(dòng)的執(zhí)行所需的總時(shí)間,由ec-es計(jì)算所得??v坐標(biāo)表示隸屬度。
根據(jù)圖1的隸屬度函數(shù)可以確定活動(dòng)執(zhí)行時(shí)間的等級(jí),使用三種不同顏色的曲線表示三種不同的等級(jí)(Low,Middle,High),通過(guò)隸屬度的不同確定其歸屬的等級(jí)。如表1中事件e1es=0,e1ec=5,事件e1的活動(dòng)執(zhí)行所需時(shí)間為5,通過(guò)隸屬度函數(shù)可知e1et=Low,其隸屬度為0.25。
定義2(規(guī)則):設(shè)R=(rc,rd)為關(guān)聯(lián)規(guī)則的集合,其中rc=(rcea1,rcea2,…,rcean)代表控制流的關(guān)聯(lián)規(guī)則,即只涉及活動(dòng)與活動(dòng)之間的關(guān)聯(lián)規(guī)則。rd=(rdea,rder,rdet)代表數(shù)據(jù)流(包含資源er、時(shí)間et)的關(guān)聯(lián)規(guī)則,用rdet∈{Tom,Eve,…,Mike,Alan}表示數(shù)據(jù)流規(guī)則包含的資源屬性et,用rdet∈{Low,Middle,High}表示數(shù)據(jù)流規(guī)則包含的時(shí)間屬性et。其中rc滿足以下條件:
(1)rcea1是rcea2的前繼活動(dòng),如對(duì)于跡L1={A,B,C},rcea1=A,則rcea2=B。
(2)對(duì)于一個(gè)規(guī)則rc,當(dāng)且僅當(dāng)n≥2是成立。
對(duì)于數(shù)據(jù)流規(guī)則rd,滿足以下條件:
(1)rdea≠?且唯一。
(2)同一規(guī)則的資源和時(shí)間屬性都?xì)w屬于同一活動(dòng)。
即單個(gè)數(shù)據(jù)流規(guī)則只考慮單個(gè)活動(dòng)的內(nèi)部屬性之間的關(guān)聯(lián),而控制流規(guī)則更多是考慮多個(gè)活動(dòng)(至少兩個(gè)活動(dòng))之間的關(guān)聯(lián)。
2? 基于關(guān)聯(lián)規(guī)則的異常分析
流程挖掘是一個(gè)新興領(lǐng)域,專門用于從事件日志中記錄的實(shí)際數(shù)據(jù)中獲取知識(shí)[6]。但是事件日志中往往存在異?;蛘咂?,即噪音,噪音的存在會(huì)影響業(yè)務(wù)流程的結(jié)構(gòu)。事件日志存儲(chǔ)有關(guān)流程的重要信息。反過(guò)來(lái),對(duì)這些信息的分析可以讓公司追蹤其系統(tǒng)中記錄的實(shí)際數(shù)據(jù)和事件[7]。本文通過(guò)對(duì)控制流和數(shù)據(jù)流兩個(gè)不同角度的關(guān)聯(lián)規(guī)則分析活動(dòng)與活動(dòng)之間以及活動(dòng)與資源、時(shí)間等屬性的特定關(guān)系,首先在控制流角度挖掘出滿足最小支持度(最小支持度根據(jù)實(shí)際結(jié)果人為設(shè)置)的頻繁項(xiàng)集,計(jì)算其置信度是否達(dá)到設(shè)置的閾值(最小置信度)。對(duì)于達(dá)到最小置信度的規(guī)則將其稱為合規(guī)規(guī)則[8],而對(duì)于只包含合規(guī)規(guī)則的事件日志還需對(duì)日志進(jìn)行數(shù)據(jù)流的關(guān)聯(lián)規(guī)則挖掘,從而將事件日志中的噪音進(jìn)行過(guò)濾。
關(guān)聯(lián)規(guī)則學(xué)習(xí)是一種無(wú)監(jiān)督的數(shù)據(jù)挖掘方法,旨在發(fā)現(xiàn)大量數(shù)據(jù)中項(xiàng)與項(xiàng)之間相關(guān)關(guān)系[9]。在這里,本文將關(guān)聯(lián)規(guī)則學(xué)習(xí)應(yīng)用于過(guò)程挖掘領(lǐng)域,將多個(gè)相關(guān)聯(lián)的事件中的活動(dòng)集合視作一個(gè)項(xiàng)集,利用先驗(yàn)算法[10]滿足閾值(最小置信度)的頻繁項(xiàng)集,具體方法流程通過(guò)一個(gè)實(shí)際案例展示。
2.1? 控制流關(guān)聯(lián)規(guī)則挖掘
控制流描述了流程的執(zhí)行順序,是判斷流程是否合規(guī)的第一步,首先給出支持度與置信度的相關(guān)定義。
定義3(支持度):支持度表示事件日志中該項(xiàng)集所占的比例,X代表一組活動(dòng)集合(項(xiàng)集)中的前繼活動(dòng),Y代表X的后繼活動(dòng)。對(duì)于項(xiàng)集(A,B)其支持度表示活動(dòng)A、B共同在事件日志中出現(xiàn)的比例。
Support(X,Y)=P(X∪Y)
定義4(置信度):置信度表示前繼活動(dòng)出現(xiàn)后期后繼活動(dòng)出現(xiàn)的概率,項(xiàng)集(A,B)的置信度表示在A活動(dòng)發(fā)生之后B活動(dòng)發(fā)生的概率。
算法1 控制流關(guān)聯(lián)規(guī)則挖掘方法:
輸入:事件日志L={t1,t2,t3,…,tn},最小支持度Min_Supt和最小置信度Min_Conf;
輸出:控制流關(guān)聯(lián)規(guī)則;
步驟1:對(duì)事件日志L={t1,t2,t3,…,tn}進(jìn)行預(yù)處理,計(jì)算日志中所有活動(dòng)的出現(xiàn)次數(shù),將活動(dòng)出現(xiàn)的次數(shù)除以日志所包含的跡的總數(shù),得到每個(gè)活動(dòng)的支持度,大于等于最小支持度的活動(dòng)作為初始的頻繁一項(xiàng)集。
步驟2:將步驟1中得到的頻繁一項(xiàng)集進(jìn)行兩兩組合,組成不相同的二項(xiàng)集,再分別計(jì)算每個(gè)二項(xiàng)集的支持度,保留大于或等于最小支持度的二項(xiàng)集作為頻繁二項(xiàng)集。
步驟3:不斷重復(fù)步驟2的操作,將上個(gè)步驟得到的頻繁K項(xiàng)集兩兩組合得到頻繁K+1項(xiàng)集,如果頻繁K+1項(xiàng)集為空則算法返回頻繁K項(xiàng)集,如果頻繁K+1項(xiàng)集只有一項(xiàng),直接返回頻繁K+1項(xiàng)集,計(jì)算其置信度,大于等于最小置信度的頻繁K+1項(xiàng)集作為算法結(jié)果返回,算法結(jié)束。
下面是其偽代碼:
Algorithm 1 控制流關(guān)聯(lián)規(guī)則挖掘算法
Input:事件日志L={t1,t2,t3,…,tn},最小支持度Minsupport,最小置信度Minconfidence
Output:控制流關(guān)聯(lián)規(guī)則集合Rc={rc1,rc2,…,rcn}
1:for m = 1 → M do //m 表示迭代次數(shù)
2:? ? C ? Findfrequentitem //初始化項(xiàng)集
3:? ? for i = 1 → n do //循環(huán)遍歷項(xiàng)集
4:? ? supportCi ? Support(Ci) //計(jì)算當(dāng)前項(xiàng)集的支持度
5:? ? if then supportCi ≤ Minsupport
6:? ? ? ? ? ?Item1 ? Item1 ∪ {Ci} //將低于最小支持度的項(xiàng)集劃分到相應(yīng)的集合
7:? ? else
8:? ? ? ? ? ? ?Item2 ? Item2 ∪ {Ci}
9:? ? end if
10:? end for
11:? ? ? ? ?Cditem = cd1,cd2,…,cdn ? CandidateItem() ? RanAssort(Item2) //將頻繁項(xiàng)集隨機(jī)組合成頻繁候選集
12:? for i = 1 → n do
13:? Confidcdi ? Confidence(cdi)//計(jì)算其置信度
14:? if then? Confidcdi ≤ Minconfidence //判斷是否小于最小置信度
15:? break? Rc ? Rc ∪ {cdi}
16:? return Rc //輸出結(jié)果
2.2? 數(shù)據(jù)流關(guān)聯(lián)規(guī)則挖掘
由算法1得到的控制流規(guī)則從事件日志中提取出了相互關(guān)聯(lián)、相互依賴的活動(dòng)集合,在實(shí)際的應(yīng)用流程中,如信貸申請(qǐng)流程中接受申請(qǐng)活動(dòng)往往與核實(shí)申請(qǐng)人信息活動(dòng)綁定在一起,又比如在醫(yī)療領(lǐng)域流程中病人在接受檢查之后醫(yī)生才能為其指定治療方案。但控制流關(guān)聯(lián)規(guī)則只能挖掘活動(dòng)與活動(dòng)之間的依賴關(guān)系,而對(duì)于流程中出現(xiàn)的數(shù)據(jù)流異常卻無(wú)能為力,如在信貸申請(qǐng)流程中,大額貸款的申請(qǐng)需要經(jīng)理同意才能得到批準(zhǔn),這就對(duì)活動(dòng)的執(zhí)行資源進(jìn)行了限制,數(shù)據(jù)流關(guān)聯(lián)規(guī)則針對(duì)活動(dòng)與資源、時(shí)間等屬性的依賴關(guān)系進(jìn)行挖掘,有效解決了事件日志中數(shù)據(jù)流的異常行為。
算法 2 數(shù)據(jù)流關(guān)聯(lián)規(guī)則挖掘方法:
輸入:算法1得到的控制流關(guān)聯(lián)規(guī)則,事件所包含的所有屬性(資源er,活動(dòng)ea,時(shí)間et);
輸出:數(shù)據(jù)流關(guān)聯(lián)規(guī)則;
步驟1:將控制流關(guān)聯(lián)規(guī)則所包含的事件的所有屬性作為初始的三項(xiàng)集,即包含活動(dòng)ea、資源er、事件et的三項(xiàng)集。
步驟2:分別計(jì)算由不同資源和時(shí)間執(zhí)行同一活動(dòng)的事件的支持度,與算法1類似,保留大于等于最小支持度的三項(xiàng)集作為頻繁項(xiàng)集。
步驟3:再通過(guò)計(jì)算頻繁項(xiàng)集的置信度得到數(shù)據(jù)流關(guān)聯(lián)規(guī)則,作為算法結(jié)果返回,算法結(jié)束。
下面是其偽代碼:
Algorithm 2 數(shù)據(jù)流關(guān)聯(lián)規(guī)則挖掘算法
Input:事件日志L={t1,t2,t3,…,tn},最小支持度Minsupport,最小置信度Minconfidence,活動(dòng)ea,資源er,開(kāi)始時(shí)間es,結(jié)束時(shí)間ec,數(shù)據(jù)流項(xiàng)集,df
Output:數(shù)據(jù)流關(guān)聯(lián)規(guī)則集合Rd={rd1,rd2,…,rdn}
1:for m = 1 → M do //m 表示迭代次數(shù)
2:? ? C ? Findfrequentitem //初始化項(xiàng)集
3:? ? for i = 1 → n do //循環(huán)遍歷項(xiàng)集
4:? ? ? et ? Membership(es,ec) //通過(guò)隸屬度函數(shù)確定執(zhí)行時(shí)間 et 的級(jí)別
5:? ? ? supportdf ? Support(ea,er,et) //計(jì)算當(dāng)前項(xiàng)集的支持度
6:? ? if then supportdf ≤ Minsupport
7:? ? ? ? Item1 ? Item1 ∪ {df } //將低于最小支持度的項(xiàng)集劃分到相應(yīng)的集合
8:? ? else
9:? ? ? ? Item2 ? Item2 ∪ {df }
10:? end if
11:? end for
12:? Df Cditem = cd1,cd2,…,cdn ? CandidateItem() ? RanAssort(Item2) //將頻繁項(xiàng)集隨機(jī)組合成頻繁候選集
13:? for i = 1 → n do
14:? Confidcdi? ? Confidence(cdi)//計(jì)算其置信度
15:? if? ?thenConfidcdi? ≤ Minconfidence //判斷是否小于最小置信度
16:? break Rd ? Rd ∪ {cdi}
17:? return Rd //輸出結(jié)果
3? 實(shí)例分析及仿真實(shí)驗(yàn)
為驗(yàn)證上述方法的可行性,以銀行信貸申請(qǐng)流程為例,首先客戶提交貸款申請(qǐng),銀行在收到貸款申請(qǐng)之后會(huì)核實(shí)客戶的個(gè)人信息,檢查其申請(qǐng)資料是否完整合格,申請(qǐng)通過(guò)之后客戶需辦理?yè)?dān)保手續(xù),將抵押物抵押給銀行,銀行會(huì)根據(jù)抵押物品類、價(jià)值的不同決定貸款金額的大小,而大額貸款的同意往往需要經(jīng)理同意才能簽訂貸款合同,合同簽訂完銀行才會(huì)發(fā)放貸款資金到客戶的賬號(hào)上。表2是給出的一個(gè)事件日志實(shí)例,其中e1表示提交貸款申請(qǐng),e2表示核實(shí)客戶信息,e3表示檢查申請(qǐng)資料,e4表示根據(jù)貸款金額選擇抵押品類,e5表示房屋抵押貸款,e6表示車輛抵押貸款,e7表示股權(quán)抵押貸款,e8表示評(píng)估抵押品的價(jià)值,e9表示辦理?yè)?dān)保手續(xù),e10表示檢查手續(xù)是否合規(guī),e11表示貸款交由經(jīng)理處理,e12表示貸款交由職員處理,e13表示簽訂貸款合同,e14表示檢查貸款合同是否合規(guī),e15發(fā)放貸款金額,e16表示拒絕貸款請(qǐng)求。
表2中的事件日志已按頻數(shù)從大到小進(jìn)行排序,首先對(duì)事件日志應(yīng)用算法1進(jìn)行控制流關(guān)聯(lián)規(guī)則的挖掘,對(duì)于事件日志中所有的事件{e1,…,e16},將單個(gè)事件作為一項(xiàng)集,由定義3計(jì)算支持度,如二項(xiàng)集{e1,e4}的支持度為:
這里最小支持度設(shè)為0.15,大于等于最小支持度的予以保留,得到頻繁一項(xiàng)集。再根據(jù)算法1將得到的頻繁一項(xiàng)集兩兩組合成二項(xiàng)集,通過(guò)定義3計(jì)算二項(xiàng)集的支持度,剔除小于最小支持度的二項(xiàng)集得到頻繁二項(xiàng)集。不斷重復(fù)以上操作,可以得到頻繁K項(xiàng)集,直到算法終止如圖2所示。由于篇幅原因,這里只計(jì)算到頻繁三項(xiàng)集,對(duì)于頻繁三項(xiàng)集,通過(guò)定義4計(jì)算三項(xiàng)集{e7,e9,e10}的置信度,此處將e7視作X,(e9,e10)視作Y
同樣的,此處將最小置信度設(shè)為0.2,關(guān)聯(lián)規(guī)則(e7,(e9,e10))的置信度為0.55,即在事件e7發(fā)生之后(e9,e10)發(fā)生的概率為0.55,大于最小置信度,說(shuō)明兩者之間關(guān)聯(lián)度較高,在控制流上具有很強(qiáng)的相互依賴性。
在對(duì)事件日志應(yīng)用完算法1之后,對(duì)得到的控制流關(guān)聯(lián)規(guī)則應(yīng)用算法2,為了方便計(jì)算演示,只對(duì)關(guān)聯(lián)規(guī)則(e7,(e9,e10))應(yīng)用算法二,而包含該關(guān)聯(lián)規(guī)則只有t3,表3給出了部分事件日志所包含的數(shù)據(jù)流屬性。
表3還給出了規(guī)則中的事件在不同的執(zhí)行資源和執(zhí)行時(shí)間下所對(duì)應(yīng)的支持度,最小支持度設(shè)為0.15,由表3可知,(e7,Eve,Hgih)的支持度遠(yuǎn)遠(yuǎn)小于最小支持度,這在實(shí)際應(yīng)用中表現(xiàn)為往常股權(quán)抵押貸款是由Tom負(fù)責(zé),而某次股權(quán)抵押貸款負(fù)責(zé)人不是Tom,變成了由Eve負(fù)責(zé),這種異常行為控制流無(wú)法檢測(cè),因?yàn)樵诳刂屏鹘嵌绕涫录膱?zhí)行順序并無(wú)異常,只是事件的執(zhí)行資源出現(xiàn)異常,而通過(guò)對(duì)數(shù)據(jù)流規(guī)則的挖掘,能夠在控制流正常的情況下發(fā)現(xiàn)其屬性異常。對(duì)于(e10,Alan,High),其執(zhí)行時(shí)間出現(xiàn)了異常,因此其支持度也不滿足條件。
為了驗(yàn)證本文提出的方法的有效性,將本文提出的方法與啟發(fā)式挖掘方法的適合度進(jìn)行了比較,適合度指的是流程模型重現(xiàn)事件日志所包含的流程行為的能力,適合度測(cè)量值為0表示無(wú)法重現(xiàn)日志中記錄的任何行為,而值為1表示能夠重現(xiàn)所有記錄的行為。由圖3的一致性度分析結(jié)果可知,本文提出的方法在事件日志實(shí)例數(shù)較多的情況下有著更好的表現(xiàn)。
由以上可知,通過(guò)對(duì)事件日志中控制流和數(shù)據(jù)流兩個(gè)角度關(guān)聯(lián)規(guī)則的挖掘,在基于發(fā)生頻率的基礎(chǔ)上計(jì)算不同規(guī)則(項(xiàng)集)的支持度以及置信度,通過(guò)對(duì)閾值(最小支持度、最小置信度)的設(shè)置,可以篩選出符合要求的事件日志。
4? 結(jié)? 論
本文在基于以往的研究基礎(chǔ)上,給出了從控制流以及數(shù)據(jù)流兩個(gè)角度進(jìn)行關(guān)聯(lián)規(guī)則挖掘?qū)κ录罩具M(jìn)行過(guò)濾和異常分析的方法,首先基于流程中活動(dòng)的發(fā)生順序以及頻率挖掘事件日志中具有緊密關(guān)聯(lián)的活動(dòng)集合(項(xiàng)集),通過(guò)計(jì)算其支持度,也就是在事件日志中發(fā)生的概率,找出在事件日志中一起頻繁發(fā)生的活動(dòng)集合,即控制流關(guān)聯(lián)規(guī)則。再對(duì)控制流關(guān)聯(lián)規(guī)則中所包含的單個(gè)事件的活動(dòng)、資源、時(shí)間等屬性進(jìn)行數(shù)據(jù)流關(guān)聯(lián)規(guī)則的挖掘,這里的時(shí)間通過(guò)時(shí)間戳以及隸屬度函數(shù)確定,從而解決了單一控制流規(guī)則無(wú)法發(fā)現(xiàn)屬性異常的缺陷,有效減少了事件日志中的噪音對(duì)過(guò)程挖掘的影響。
本文是從兩個(gè)不同角度對(duì)事件日志進(jìn)行過(guò)濾,未來(lái)還要對(duì)過(guò)濾后的事件日志應(yīng)用過(guò)程挖掘算法挖掘過(guò)程模型,再對(duì)挖掘出的過(guò)程模型與事件日志進(jìn)行控制流與數(shù)據(jù)流兩種角度對(duì)齊操作,從而更好的驗(yàn)證對(duì)模型精度的提升。
參考文獻(xiàn):
[1] CONFORTI R,LA ROSA M,HOFSTEDE A H M. Filtering out infrequent behavior from business process event logs [J].IEEE Transactions on Knowledge and Data Engineering,2016,29(2):300-314.
[2] SARNO R,SINAGA F,SUNGKONO K R. Anomaly detection in business processes using process mining and fuzzy association rule learning [J].Journal of Big Data,2020,7(1):1-19.
[3] B?HMER K,RINDERLE-MA S. Association rules for anomaly detection and root cause analysis in process executions [C]//International Conference on Advanced Information Systems Engineering.Cham:Springer,2018:3-18.
[4] ALIZADEH M,Lu X,F(xiàn)AHLAND D,et al. Linking data and process perspectives for conformance analysis [J].Computers & Security,2018,73:172-193.
[5] SARNO R,DEWANDONO R D,AHMAD T,et al. Hybrid Association Rule Learning and Process Mining for Fraud Detection [J].IAENG International Journal of Computer Science,2015,42(2):59-72.
[6] LEE C K H,TSE Y K,HO G T S,et al. Fuzzy association rule mining for fashion product development [J].Industrial Management & Data Systems,2015,115(2):383-399.
[7] DENISOV V,F(xiàn)AHLAND D,VAN DER AALST W M P. Repairing event logs with missing events to support performance analysis of systems with shared resources [C]//International Conference on Applications and Theory of Petri Nets and Concurrency. Cham:Springer,2020:239-259.
[8] NOLLE T,LUETTGEN S,SEELIGER A,et al. Binet:Multi-perspective business process anomaly classification [J/OL].Information Systems,2022,103:1-12[2022-06-20].https://arxiv.org/pdf/1902.03155.pdf.
[9] FANI SANI M,ZELST S J,VAN DER AALST W M P. Repairing outlier behaviour in event logs [C]//International Conference on Business Information Systems.Cham:Springer,2018:115-131.
[10] TAGHIABADI E R,GROMOV V,F(xiàn)AHLAND D,et al. Compliance checking of data-aware and resource-aware compliance requirements [C]//OTM Confederated International Conferences" On the Move to Meaningful Internet Systems". Berlin:Springer,2014:237-257.
作者簡(jiǎn)介:胡偉(1997—),男,漢族,安徽安慶人,碩士在讀,研究方向:過(guò)程挖掘。
收稿日期:2022-07-26
基金項(xiàng)目:國(guó)家自然科學(xué)基金項(xiàng)目(61572035,61402011)