余建波, 鄭小云, 李傳鋒, 董晨陽(yáng)
(同濟(jì)大學(xué) 機(jī)械與能源工程學(xué)院,上海 201804)
臨床路徑是醫(yī)生、護(hù)士和其他人員共同制定的針對(duì)某病種所做的最適當(dāng)?shù)挠许樞蛐院蜁r(shí)間性的整體服務(wù)計(jì)劃,目的是使患者獲得最佳的服務(wù),減少康復(fù)的延遲和資源的浪費(fèi)[1].通過(guò)臨床路徑模型的建立和分析可以發(fā)現(xiàn)診療系統(tǒng)中存在的瓶頸問(wèn)題,同時(shí)可以對(duì)臨床路徑的執(zhí)行實(shí)施監(jiān)控,對(duì)臨床路徑管理具有重大意義.臨床路徑執(zhí)行過(guò)程中產(chǎn)生的事件日志中包含大量的信息,是建立臨床路徑模型的數(shù)據(jù)來(lái)源,因此從事件日志中挖掘相關(guān)知識(shí),將信息形成可用的流程,并在此基礎(chǔ)上對(duì)臨床路徑進(jìn)行建模分析是亟待解決的問(wèn)題.
對(duì)于臨床路徑進(jìn)行建模,首先需要從事件日志中提取信息,得到完整的診療流程,這需要采用過(guò)程挖掘(process mining)算法發(fā)掘診療流程.過(guò)程挖掘是從實(shí)際事件日志中,運(yùn)用過(guò)程挖掘算法,發(fā)現(xiàn)、監(jiān)控和改進(jìn)實(shí)際業(yè)務(wù)流程的思想.過(guò)程挖掘可以深入分析診療活動(dòng)之間可能存在的關(guān)系,不遺漏事件日志中任何出現(xiàn)的活動(dòng),并且可以自身反復(fù)驗(yàn)證結(jié)果,從而得到一個(gè)完整的流程.過(guò)程挖掘思想最早由Cook等[2]提出,Agrawal等[3]將其引入工作流領(lǐng)域,并正式命名為過(guò)程挖掘.Herbst等[4]提出3個(gè)可以判斷重名任務(wù)的過(guò)程挖掘算法,在過(guò)程挖掘上更加深入了一步.對(duì)于過(guò)程挖掘算法的研究,以Aalst等[5]提出的α算法最為全面,目前已經(jīng)衍生成一系列算法:α+[6]、α++[7]、α#[8]、α*[9]以及Tsinghua-α[10]算法.α系列算法是基于工作流網(wǎng)絡(luò)(workflow net,WF-net)的行為推理算法,該系列算法不僅可以發(fā)掘事件日志中不同活動(dòng)之間的順序、并行、因果等基礎(chǔ)關(guān)系,同時(shí)對(duì)事件日志中存在的非自由選擇、重復(fù)活動(dòng)等特殊關(guān)系也有著相當(dāng)完善的處理.α系列算法都是建立在事件日志中沒(méi)有噪聲且事件日志中活動(dòng)按照有序排列的前提假設(shè)基礎(chǔ)上.當(dāng)事件日志中存在較多無(wú)規(guī)律噪聲的時(shí)候,α系列算法往往會(huì)出現(xiàn)過(guò)擬合和準(zhǔn)確度下降的情況.
臨床路徑模型是對(duì)臨床路徑整個(gè)流程的抽象化模型,用物理模型的方式將臨床路徑中診療活動(dòng)、資源、信息等關(guān)系表達(dá)出來(lái).臨床路徑模型是對(duì)診療流程分析的基礎(chǔ),也是實(shí)現(xiàn)臨床路徑管理的根本,因此模型的準(zhǔn)確性和完整性十分重要[1].對(duì)于臨床路徑建模的研究主要分為2個(gè)方向:基于Petri網(wǎng)建模和基于UML建模.在實(shí)際的運(yùn)用中,由于Petri網(wǎng)更加直觀,更加符合使用人員的直觀思維,同時(shí)Petri網(wǎng)是工作流最為常用的建模方法,因此對(duì)于臨床路徑建模研究主要集中在Petri網(wǎng)模型上.文獻(xiàn)[11]將保存在數(shù)據(jù)庫(kù)中的文本診療常規(guī)轉(zhuǎn)換為工作流過(guò)程描述語(yǔ)言(WPDL)模型和Petri網(wǎng),分析診療常規(guī)的實(shí)施效果,驗(yàn)證了模型的行為正確性.文獻(xiàn)[12]提出利用一種臨床路徑典型語(yǔ)言PROforma對(duì)臨床路徑進(jìn)行建模,并將臨床路徑轉(zhuǎn)化成著色Petri網(wǎng)絡(luò).文獻(xiàn)[13]提出一種基于分層賦時(shí)著色Petri網(wǎng)對(duì)復(fù)雜病種建立臨床路徑模型的方法,實(shí)現(xiàn)了對(duì)診療狀態(tài)、信息流轉(zhuǎn)及診療活動(dòng)間關(guān)系的可視化監(jiān)控,并基于仿真結(jié)果給出了資源配置建議.文獻(xiàn)[14]在[13]的研究基礎(chǔ)上做出改進(jìn),在對(duì)臨床路徑建模時(shí),修改和新增部分與時(shí)間相關(guān)的參數(shù)和函數(shù),增設(shè)費(fèi)用相關(guān)變量及函數(shù),對(duì)臨床路徑的住院時(shí)間和診療費(fèi)用進(jìn)行了定量分析.
綜上所述,目前對(duì)于臨床路徑建模研究主要存在以下2個(gè)問(wèn)題:第一,建模研究往往立足于已經(jīng)存在的診療流程之上,并不能實(shí)現(xiàn)從事件日志中得到臨床路徑模型.第二,目前常用的過(guò)程挖掘算法對(duì)于噪聲的控制并不好,而在實(shí)際事件日志中的噪聲數(shù)據(jù)總是存在且不可控制的.因此需要首先給出一個(gè)可以消除噪聲干擾并且能保證算法準(zhǔn)確度的過(guò)程挖掘算法,再將其同Petri網(wǎng)模型集成,得到一個(gè)基于過(guò)程挖掘算法的臨床路徑Petri網(wǎng).兩者集成不僅可以從事件日志中直接提取知識(shí)得到完善的工作流程,而且可以將臨床路徑轉(zhuǎn)換成臨床路徑Petri網(wǎng)絡(luò),同時(shí)保證了模型準(zhǔn)確率和建模效率.
本文提出了一種基于統(tǒng)計(jì)α算法的臨床路徑Petri網(wǎng)模型,將過(guò)程挖掘算法和Petri網(wǎng)絡(luò)進(jìn)行集成,實(shí)現(xiàn)了對(duì)于臨床路徑事件日志知識(shí)抽取,得到臨床路徑完善的診療流程,并據(jù)此建立Petri網(wǎng)模型,進(jìn)行從事件日志到Petri網(wǎng)模型的轉(zhuǎn)換.
提出的基于統(tǒng)計(jì)α算法的臨床路徑Petri網(wǎng)建模方案如圖1所示,包括算法挖掘和建模過(guò)程兩塊.過(guò)程挖掘?qū)⑤斎氲氖录罩就ㄟ^(guò)重名活動(dòng)判別和統(tǒng)計(jì)α算法2個(gè)步驟得到活動(dòng)關(guān)系矩陣及相關(guān)臨床路徑知識(shí).建模過(guò)程將Petri網(wǎng)和統(tǒng)計(jì)α算法以及臨床路徑的特征集成得到臨床路徑Petri網(wǎng)模型(CP-net).接著將已經(jīng)得到的活動(dòng)關(guān)系矩陣和臨床路徑知識(shí)融入已經(jīng)得到的CP-net模型中,得到針對(duì)該病種的CP-net模型,進(jìn)一步可以對(duì)模型進(jìn)行可達(dá)性、結(jié)構(gòu)完整性和行為完整性的分析,并對(duì)該臨床路徑的完善程度進(jìn)行考察.
過(guò)程挖掘是從大量的事件日志中挖掘活動(dòng)之間的關(guān)系,得到一個(gè)由這些活動(dòng)關(guān)系組成的工作流.因此,過(guò)程挖掘是實(shí)現(xiàn)事件日志到工作流模型的重要工具,通過(guò)過(guò)程挖掘算法對(duì)于臨床路徑事件日志的分析,才能得到完整的臨床路徑的工作流程,進(jìn)而建立CP-net模型.在過(guò)程挖掘中,對(duì)于活動(dòng)之間關(guān)系的定義是整個(gè)算法的基礎(chǔ),活動(dòng)關(guān)系的定義如表1所示[5].
圖1 基于統(tǒng)計(jì)α算法的臨床路徑Petri網(wǎng)建模方案Fig.1 Scheme of clinical pathway Petri net modeling based on statistical α-algorithm表1 活動(dòng)關(guān)系定義Tab.1 Definition of activity relations
名稱(chēng)符號(hào)定義順序關(guān)系a>wba,b∈σ={…,a,b,…}因果關(guān)系a→wba>wb∧(a>wb)選擇關(guān)系a#wb(a>wb)∧(b>wa)并行關(guān)系a‖wba>wb∧b>wa
統(tǒng)計(jì)α算法以活動(dòng)對(duì)為識(shí)別的噪聲最小單位,在創(chuàng)建活動(dòng)對(duì)集合Array(AC)時(shí)計(jì)算每個(gè)活動(dòng)對(duì)的頻率,在數(shù)據(jù)量較大時(shí),用頻率估計(jì)活動(dòng)對(duì)的概率.在利用統(tǒng)計(jì)α算法進(jìn)行活動(dòng)對(duì)關(guān)系判斷之前,篩選出現(xiàn)概率低于顯著性水平的活動(dòng)對(duì),并將其從Array(AC)刪除,不在最終的結(jié)果中出現(xiàn).噪聲在事件日志中具體有3種體現(xiàn):①小概率隨機(jī)活動(dòng)的增加.由于該活動(dòng)是低概率的,其組成的活動(dòng)對(duì)必然也是低概率的,按照規(guī)則將從Array(AC)刪除.②小概率活動(dòng)的替換.同樣地,被替換的活動(dòng)是低概率的,其組成的活動(dòng)對(duì)也會(huì)被刪除.③小概率的活動(dòng)缺失.活動(dòng)對(duì)缺失會(huì)出現(xiàn)新的活動(dòng)對(duì),而該活動(dòng)同樣是低概率的,因此也會(huì)被刪除,從而消除活動(dòng)缺失帶來(lái)的噪聲影響.算法具體步驟圖如2所示.
圖2 統(tǒng)計(jì)α算法流程Fig.2 Procedure of statistical α-algorithm
步驟1:活動(dòng)對(duì)定義.統(tǒng)計(jì)α算法以活動(dòng)對(duì)為單位,活動(dòng)對(duì)的定義如下.
定義1對(duì)于任意病種的一個(gè)事件日志W(wǎng),假設(shè)有流程軌跡δi={…,Ti,Ti+1,…}?W,流程軌跡中的元素按照?qǐng)?zhí)行時(shí)間的先后順序排列.其中任意2個(gè)相鄰的活動(dòng)Ti和Ti+1及其出現(xiàn)的次數(shù)組成一個(gè)結(jié)構(gòu)體,稱(chēng)為活動(dòng)對(duì)(activities couple,AC).具體定義如下.
Structure 活動(dòng)對(duì){
StringFA,第一個(gè)活動(dòng)名稱(chēng)(Ti);
StringSA,第二個(gè)活動(dòng)名稱(chēng)(Ti+1);
intF,出現(xiàn)次數(shù)=1;
StringR,活動(dòng)關(guān)系=順序關(guān)系(默認(rèn));
}
步驟2:活動(dòng)對(duì)概率統(tǒng)計(jì).遍歷事件日志中的所有流程軌跡可得一個(gè)由不同活動(dòng)對(duì)組成的活動(dòng)對(duì)集合,記作Array(AC).計(jì)算活動(dòng)對(duì)集合Array(AC)中每個(gè)活動(dòng)對(duì)的出現(xiàn)概率.考慮到重名活動(dòng)的存在,可得活動(dòng)對(duì)AC(Ti,Ti+1)的概率為
式中:AC(Ti,Ti+1).F為活動(dòng)對(duì)AC(Ti,Ti+1)的出現(xiàn)次數(shù),如果在活動(dòng)對(duì)集合Array(AC)中不存在AC(Ti,Ti+1),則AC(Ti,Ti+1).F=0;N為流程軌跡數(shù);nr=nr(Ti)+nr(Ti+1)等于活動(dòng)Ti和活動(dòng)Ti+1重名活動(dòng)的數(shù)目總和.
步驟3:檢索需要判斷活動(dòng)關(guān)系的活動(dòng)對(duì).對(duì)于任意病種的流程軌跡來(lái)說(shuō),順序關(guān)系是出現(xiàn)次數(shù)最多的活動(dòng)關(guān)系[10].對(duì)于可以確定為順序關(guān)系的活動(dòng)對(duì),不需要對(duì)其進(jìn)行二次判斷.為了簡(jiǎn)化活動(dòng)關(guān)系的判斷流程,減少判斷活動(dòng)對(duì)的數(shù)目,需要對(duì)活動(dòng)對(duì)進(jìn)行篩選.以流程軌跡為單位,縱向比較每條預(yù)處理后的流程軌跡,排除可以確定為順序關(guān)系的活動(dòng)對(duì),得到一個(gè)活動(dòng)關(guān)系待定的活動(dòng)對(duì)集合,記作DArray(AC),顯然DArray(AC)?Array(AC).
步驟4:判斷活動(dòng)對(duì)關(guān)系.利用統(tǒng)計(jì)α算法進(jìn)行活動(dòng)對(duì)活動(dòng)關(guān)系判斷時(shí)需要考察與該活動(dòng)對(duì)相關(guān)的活動(dòng)對(duì),因此這里給出與之相關(guān)的2個(gè)活動(dòng)對(duì)的定義,即同前活動(dòng)對(duì)和轉(zhuǎn)置活動(dòng)對(duì).
定義2同前活動(dòng)對(duì):對(duì)于任意活動(dòng)對(duì)AC(A,B),若存在一個(gè)活動(dòng)對(duì)和它有相同的第1個(gè)活動(dòng)A,第2個(gè)活動(dòng)不同,則稱(chēng)為AC(A,B)的同前活動(dòng)對(duì),記作#AC(A,B).
定義3轉(zhuǎn)置活動(dòng)對(duì):對(duì)于任意活動(dòng)對(duì)AC(A,B),若存在一個(gè)活動(dòng)對(duì)的第1個(gè)活動(dòng)等于它的第2個(gè)活動(dòng),第2個(gè)活動(dòng)等于它的第1個(gè)活動(dòng),則稱(chēng)為AC(A,B)的轉(zhuǎn)置活動(dòng)對(duì),記作-AC(A,B).
結(jié)合上述定義,這里給出統(tǒng)計(jì)α算法,如下.
InputWd//事件日志,α//顯著性水平
Output Matrix[Array(AC)]//活動(dòng)關(guān)系矩陣
1. Foreach(σiinWd)
σi←{T1,T2,…,Tj,Tj+1,…}//賦值
j: 1→σi.Length
If (AC(Ti,Ti+1) is exist)then
AC(Ti,Ti+1).F++//活動(dòng)對(duì)頻數(shù)
Else
AC(Ti,Ti+1).FA←Ti
AC(Ti,Ti+1).SA←Ti+1
Array(AC).Add(AC(Ti,Ti+1))//向活動(dòng)對(duì)集合中添加元素,得到原始活動(dòng)對(duì)集合
2. Foreach(σinWd)
σi←{A1,A2,…,Aj,Aj+1,…}//構(gòu)造軌跡
σk←{B1,B2,…,Bj,Bj+1,…}//構(gòu)造軌跡
j: 1→σi.Length
If(Aj≠Bj)
DArray(AC).Add(AC(Aj,Aj+1))
DArray(AC).Add(AC(Aj-1,Aj))
End
OutputDArray(AC)
3. Foreach (ACinDArray(AC))
AC←AC(A,B)
#AC(A,B)←AC(A,C)//同前活動(dòng)對(duì)
-AC(A,B)←AC(B,A)//轉(zhuǎn)置活動(dòng)對(duì)
If (P(AC(A,C))>α) then
DimAC(B,C)
If (P(AC(B,C))>α) then
If (P(AC(B,C))>α) then
B||wC
Else
B#wC
Else
B#wC
A>wB,A>wC
Else
If (P(AC(B,A))>α) then
A||wB
Else
A→wB
End.
Output Matrix[Array(AC)]//活動(dòng)關(guān)系矩陣
在事件日志的某一條流程軌跡中,某一活動(dòng)可能多次出現(xiàn),但是每次代表的具體含義可能并不相同.因此在活動(dòng)關(guān)系判斷之前,需要對(duì)這類(lèi)活動(dòng)進(jìn)行區(qū)分,為了方便描述這一類(lèi)活動(dòng),這里給出2個(gè)定義.
定義4在任一條流程軌跡中,若活動(dòng)A出現(xiàn)一次以上,則該活動(dòng)稱(chēng)為重名活動(dòng)(cognominal activities).為了區(qū)分同一條流程軌跡中的重名活動(dòng),用記號(hào)δi(A,ni)表示在流程軌跡δi中第ni個(gè)活動(dòng)A[9].
定義5重名活動(dòng)根據(jù)其具體活動(dòng)內(nèi)容是否相同分為2種:活動(dòng)內(nèi)容相同的稱(chēng)為重復(fù)性重名活動(dòng),簡(jiǎn)稱(chēng)重復(fù)活動(dòng)(duplicate activities,DA);活動(dòng)內(nèi)容不同的稱(chēng)為非重復(fù)性重名活動(dòng)(homonyms activities,HA).提出重名活動(dòng)判別規(guī)則是為了將重名活動(dòng)區(qū)分為DA和HA,并對(duì)2類(lèi)重名活動(dòng)進(jìn)行不同處理,以消除HA對(duì)過(guò)程挖掘的影響.
為了提高重名活動(dòng)判斷效率,將任意活動(dòng)A的2個(gè)前驅(qū)活動(dòng)TP、TPP和2個(gè)后繼活動(dòng)TS、TSS組成的有序集合{TPP,TP,A,TS,TSS}記作一個(gè)活動(dòng)組(activities group),記作GA,并以活動(dòng)組作為重名活動(dòng)判別的基本單位對(duì)重名活動(dòng)進(jìn)行判別.
為了進(jìn)一步確定重復(fù)活動(dòng)的定義,這里引用Herbst等[4]對(duì)于重名活動(dòng)和重復(fù)活動(dòng)的定義,采用試驗(yàn)來(lái)探索定義.Herbst等提出的重名活動(dòng)稱(chēng)為“非獨(dú)特活動(dòng)”指的是在一個(gè)模型中多次出現(xiàn)的具體活動(dòng).重名活動(dòng)定義基于文獻(xiàn)[9]中的定義,以整個(gè)事件日志為對(duì)象來(lái)尋找重名活動(dòng),而Herbst更加著眼于模型中的重名活動(dòng).Herbst對(duì)于重復(fù)活動(dòng)的定義更加符合實(shí)際應(yīng)用場(chǎng)景中的定義,因此本文在正式提出重復(fù)活動(dòng)定義之前,通過(guò)試驗(yàn)將假設(shè)與Herbst的結(jié)果進(jìn)行對(duì)比,確保了本文中重復(fù)活動(dòng)定義的可靠性.試驗(yàn)采用內(nèi)蒙古某三甲醫(yī)院2010年3月到10月之間7個(gè)月的若干病種的事件日志數(shù)據(jù),以活動(dòng)組為單位,分析4個(gè)病種,共510條流程軌跡.通過(guò)統(tǒng)計(jì)發(fā)現(xiàn),當(dāng)2個(gè)重名活動(dòng)對(duì)應(yīng)的2個(gè)活動(dòng)組中的元素對(duì)應(yīng)相等,即活動(dòng)組中的元素和元素順序都相同時(shí),根據(jù)Herbst等[4]對(duì)于重復(fù)活動(dòng)的定義可知,這2個(gè)重名活動(dòng)是重復(fù)活動(dòng)的概率高達(dá)99.7%.因此可以得到以下重復(fù)活動(dòng)的定義.
提出的過(guò)程挖掘算法集成了重復(fù)活動(dòng)判別和統(tǒng)計(jì)α算法,具體算法實(shí)施步驟,如圖3所示,可以分為以下步驟:
圖3 基于重名活動(dòng)判別和統(tǒng)計(jì)α算法的過(guò)程挖掘方案Fig.3 Scheme of process mining that based on statistical α-algorithm and cognominal activity identification
(1) 原始數(shù)據(jù)的篩選.獲取數(shù)據(jù)庫(kù)中結(jié)構(gòu)完整、數(shù)據(jù)量較大的完備事件日志.
(2)工作分解結(jié)構(gòu).將事件日志中的工作流按照其階段、內(nèi)容分成若干部分,從而可以減少每一部分包含的活動(dòng)數(shù)目,降低算法運(yùn)行時(shí)間,提高準(zhǔn)確度.
(3)數(shù)據(jù)預(yù)處理.將事件日志中的活動(dòng)進(jìn)行重命名排序操作,為重復(fù)活動(dòng)判別做準(zhǔn)備.
(4)重復(fù)活動(dòng)判別.以流程軌跡為單位,對(duì)其中出現(xiàn)的重名活動(dòng)進(jìn)行分析,根據(jù)分析結(jié)果重新修正活動(dòng)命名,為活動(dòng)關(guān)系識(shí)別做準(zhǔn)備.
(5)活動(dòng)關(guān)系識(shí)別.采用本文提出的統(tǒng)計(jì)α算法,提取工作流程知識(shí),分析活動(dòng)之間的依賴(lài)關(guān)系,得到活動(dòng)關(guān)系矩陣.
(6)得到結(jié)果并修正.根據(jù)上一步驟中得到的活動(dòng)關(guān)系矩陣,并將模型問(wèn)題還原到實(shí)際問(wèn)題之中.
臨床路徑是一種特殊的工作流,工作流與Petri網(wǎng)有著天然的契合關(guān)系,因此建立臨床路徑的Petri網(wǎng)模型可以形象地將臨床路徑流程表現(xiàn)出來(lái).通過(guò)Petri網(wǎng)可達(dá)性、完整性等屬性的分析,可以分析臨床路徑在執(zhí)行中存在的問(wèn)題、可能出現(xiàn)的瓶頸,Petri網(wǎng)模型使得臨床路徑管理更加便捷.臨床路徑Petri網(wǎng)的定義可以在工作流網(wǎng)絡(luò)(WF-net)[5]的基礎(chǔ)上加以修改實(shí)現(xiàn).在臨床路徑中,將病人看作唯一實(shí)體,病人的工作流是整個(gè)臨床路徑中的唯一工作流,下面給出臨床路徑Petri網(wǎng)(CP-net)的定義.
定義7令CP-net=(P,T;F,K,W,M0),其中N=(P,T;F)是一個(gè)WF-net,稱(chēng)為CP-net的基網(wǎng),是構(gòu)成CP-net的最基本內(nèi)容.P為庫(kù)所集,對(duì)應(yīng)病人狀態(tài).T為變遷集,對(duì)應(yīng)臨床診治操作;F為流關(guān)系,F(xiàn)=(P×T)∪(T×P).K為N上的容量函數(shù),規(guī)定了每個(gè)位置上的最大令牌數(shù),該容量必須為有限值,可認(rèn)為是臨床路徑上醫(yī)生、護(hù)士、器材、藥物等資源.W為流關(guān)系上的權(quán)函數(shù),對(duì)應(yīng)到臨床路徑之中,可以認(rèn)為權(quán)函數(shù)規(guī)定了診療活動(dòng)開(kāi)展的資源等條件.M0為CP-net的初始標(biāo)識(shí),標(biāo)定了病人的初始狀態(tài).WF-net是CP-net的基礎(chǔ),是模型的基本框架,在WF-net中包含了所有的診療活動(dòng)、病人狀態(tài)和流關(guān)系.CP-net是工作流網(wǎng)的拓展,把臨床路徑中的相關(guān)條件和資源融入其中.在進(jìn)行過(guò)程挖掘時(shí),主要還是以工作流網(wǎng)為對(duì)象,首先從事件日志中挖掘出工作流模型,再?gòu)氖录罩竞拖嚓P(guān)醫(yī)療資料中挖掘診療信息,最后在模型形成階段將診療信息融入其中形成CP-net.
CP-net需要滿(mǎn)足以下5條約束:
(1)起止唯一性:有且僅有一個(gè)pi∈P滿(mǎn)足·pi=?;有且僅有一個(gè)po∈P滿(mǎn)足po·=?.臨床路徑的起止分別為病人的最初狀態(tài)和最終狀態(tài),這個(gè)狀態(tài)是唯一的.
(2)無(wú)孤性:不存在p∈P,使得·p∩p·=?;不存在t∈T,使得·t∩t·=?.病人狀態(tài)不可能單獨(dú)存在,同樣地,單獨(dú)存在的診療活動(dòng)也不可能出現(xiàn)在事件日志中.
(3)有界性:對(duì)于?p∈P,?M∈R(M0),存在一個(gè)非負(fù)整數(shù)k,都有k≥M(p),即任何狀態(tài)下,庫(kù)所的令牌總是有限個(gè)的,不存在沒(méi)有輸入庫(kù)所的變遷.在臨床路徑中,每一個(gè)診療活動(dòng)的開(kāi)展都是以病人當(dāng)前狀態(tài)為基礎(chǔ)的.
(4)無(wú)死鎖:對(duì)于?t∈T,都可以通過(guò)執(zhí)行某一變遷序列從而最終使得t使能.即在臨床路徑中出現(xiàn)的診療活動(dòng)都是有機(jī)會(huì)實(shí)施的,無(wú)法實(shí)施的診療活動(dòng)不能包含在臨床路徑中.
(5)無(wú)活鎖:對(duì)于最終庫(kù)所po,M(po)=W(·po,po),保證最終托肯數(shù)量為零.在臨床路徑中一旦到達(dá)病人最終狀態(tài),不再進(jìn)行該病種的任何診療活動(dòng).如果后續(xù)其他活動(dòng)出現(xiàn),則判定為路徑跳轉(zhuǎn).
基于統(tǒng)計(jì)α算法的過(guò)程挖掘算法是建立CP-net的基礎(chǔ)和前提,通過(guò)過(guò)程挖掘算法發(fā)掘事件日志中活動(dòng)的相互關(guān)系,進(jìn)而得到整個(gè)診療流程,形成最終的CP-net模型.本文采用的過(guò)程挖掘算法是結(jié)合了重復(fù)活動(dòng)判別的統(tǒng)計(jì)α算法,通過(guò)將統(tǒng)計(jì)α算法與CP-net結(jié)合,可以使CP-net直接使用事件日志中的信息,能消除事件日志中的噪聲數(shù)據(jù),使得CP-net模型更加準(zhǔn)確.在本文使用的統(tǒng)計(jì)α算法中,對(duì)于活動(dòng)關(guān)系的判斷以活動(dòng)對(duì)為單位,因此需要首先給出活動(dòng)對(duì)在CP-net中的定義.
定義8對(duì)于CP-net=(P,T;F,K,W,M0),?a∈N=(P,T;F),用記號(hào)a表示節(jié)點(diǎn)a的前一個(gè)節(jié)點(diǎn),記號(hào)?a表示節(jié)點(diǎn)a的后一個(gè)節(jié)點(diǎn).顯然如果a∈P,則a,?a∈T.
定義9對(duì)于CP-net=(P,T;F,K,W,M0),?a,b∈T,使得a·∩·b=?a=b,那么將活動(dòng)組合(a,b)成為活動(dòng)對(duì),記作AC(a,b).
表1給出了過(guò)程挖掘判斷的活動(dòng)基本關(guān)系類(lèi)型:順序、因果、并行和選擇.這些活動(dòng)關(guān)系是過(guò)程挖掘算法的主要結(jié)果,因此需要先將這些關(guān)系同Petri網(wǎng)結(jié)合起來(lái).這里引入工作流Petri網(wǎng)(WF-net)中的特殊節(jié)點(diǎn)AND-split/join和OR-split/join,描述活動(dòng)之間關(guān)系如圖4所示.圖4a至4c分別用圖形化的形式表達(dá)了順序、并行和選擇關(guān)系,對(duì)于包括因果關(guān)系的4個(gè)基本活動(dòng)關(guān)系這里給出如下的定義.
定義10令CP-net=(P,T;F,K,W,M0),U是重復(fù)活動(dòng)集合,?a,b∈T,則
(1)若a·∩·b≠?∧b·∩·a=?∧a,b?U,則a→wb(因果關(guān)系)
(2)若a·∩·b=?a=b,則a>wb(順序關(guān)系)
(3)若OR-split∈·a∩·b∧OR-join∈a·∩b·,則a#wb(選擇關(guān)系)
(4)若AND-split∈·a∩·b∧AND-join∈a·∩b·則a||wb(并行關(guān)系)
本文提出的統(tǒng)計(jì)α算法是以活動(dòng)對(duì)為單位進(jìn)行活動(dòng)關(guān)系判斷的算法,基于對(duì)“同前活動(dòng)對(duì)”、“轉(zhuǎn)置活動(dòng)對(duì)”和活動(dòng)對(duì)概率的計(jì)算,這里給出基于統(tǒng)計(jì)α算法的Petri網(wǎng)描述.
a 順序關(guān)系
c 并行關(guān)系
d 選擇關(guān)系圖4 活動(dòng)關(guān)系Petri網(wǎng)描述Fig.4 Description of activity relation in Petri net
令W為活動(dòng)集合T上的事件日志,給定顯著性系數(shù)為α,統(tǒng)計(jì)α算法α定義如下:
(1)XW={AC(a,b)|?a,b∈W,a·∩·b=?a=b}
(2)DXW={AC(a,b)|?σ,σ'∈WAC(a,b)≠AC′(a,b),AC(A,b)∈σ,AC′(a,b)∈σ′}
(3)TW={t∈T|t∈AC,AC.P≥α}
(4)Ti={t∈T|?σ∈Wt=first(σ)}
(5)To={t∈T|?σ∈Wt=last(σ)}
(6)PW={p(a,b)|(a,b)∈XW}∪{iW,oW},
(7)FW={(a,p(a,b))|a∈AC(a,b)∈DXW}∪{b,p(a,b))|b∈AC(a,b)∈DXW}∪{(a,b)|a,b∈AC(a,b)∈XW,AC(a,b)?DXW}∪{(iW,t)|t∈TI}∪{(t,oW)|t∈TO}
(8)α(W)={PW,TW,FW}
在上述定義中,XW代表著所有活動(dòng)對(duì)的集合,活動(dòng)對(duì)出現(xiàn)概率需要包含在XW之中.DXW則表示存在著差異的活動(dòng)對(duì)集合,相對(duì)于上文中的DArray(AC).TW代表所有活動(dòng)的集合,這些活動(dòng)出現(xiàn)概率必須高于顯著性系數(shù),否則以噪聲方式過(guò)濾掉,TW是CP-net中所有變遷的集合.Ti和To分別是流程軌跡δ∈W的起始活動(dòng)和終止活動(dòng)的集合,根據(jù)Ti和To設(shè)置起止庫(kù)所iW和oW.PW是CP-net中所有庫(kù)所的集合,P(a,b)表示變遷a和變遷b之間的庫(kù)所,庫(kù)所和變遷直接的連接方式如圖5所示,因此P(a,b)可能不止一個(gè)庫(kù)所,當(dāng)變遷a,b是順序關(guān)系或者是因果關(guān)系時(shí),P(a,b)的數(shù)量為一;而當(dāng)a,b是并行關(guān)系時(shí),變遷a,b的前一個(gè)變遷為AND-split節(jié)點(diǎn),此時(shí)a,b變遷與其之間則各有一個(gè)庫(kù)所存在;而當(dāng)a和b是選擇關(guān)系時(shí),a和b的庫(kù)所則為OR-split節(jié)點(diǎn).FW是CP-net中所有流關(guān)系的集合,統(tǒng)計(jì)α算法得到的CP-net主網(wǎng)絡(luò)則主要由{PW,TW,FW}三者組成.
根據(jù)上述定義,如圖5給出基于過(guò)程挖掘算法的臨床路徑Petri網(wǎng)建模步驟.
圖5 基于過(guò)程挖掘算法的臨床路徑Petri網(wǎng)建模過(guò)程Fig.5 Procedure of clinical pathway modeling based on process mining
(1)得到事件日志.從原始數(shù)據(jù)開(kāi)始,首先需要獲得構(gòu)建CP-net必需的事件日志,這是過(guò)程挖掘的基礎(chǔ),也是CP-net主體網(wǎng)絡(luò)的基本構(gòu)成.
(2)得到活動(dòng)關(guān)系矩陣.對(duì)于每個(gè)單病種事件日志,首先按照定義生成活動(dòng)對(duì),得到活動(dòng)對(duì)集合XW,同時(shí)計(jì)算每個(gè)活動(dòng)對(duì)的出現(xiàn)概率,據(jù)此按照規(guī)則去除噪聲數(shù)據(jù)得到變遷集合TW.接下來(lái)通過(guò)比對(duì)得到待判斷活動(dòng)對(duì)集合DXW以及活動(dòng)每條流程軌跡的起始和終止變遷集合Ti和To.對(duì)于集合DXW,需要通過(guò)遍歷該集合,利用統(tǒng)計(jì)α算法識(shí)別每一個(gè)活動(dòng)對(duì)的活動(dòng)關(guān)系,結(jié)合XW集合中已知的活動(dòng)對(duì)關(guān)系,構(gòu)造活動(dòng)關(guān)系矩陣.
(3)構(gòu)造主網(wǎng)絡(luò).在得到的活動(dòng)關(guān)系矩陣以及變遷集合TW基礎(chǔ)上按照α(W)定義的第6條生成相應(yīng)的庫(kù)所集合PW,并由PW、TW、Ti和To得到主網(wǎng)絡(luò)的流關(guān)系集合FW.
(4)構(gòu)造CP-net.在主網(wǎng)絡(luò)形成之后,根據(jù)原始數(shù)據(jù)中對(duì)資源的分配得到容量函數(shù)K,根據(jù)每項(xiàng)診療活動(dòng)的開(kāi)展條件得到流關(guān)系的權(quán)函數(shù)W,根據(jù)病人的初始狀態(tài)得到CP-net的初始標(biāo)識(shí)M0,由此便得到最終的CP-net模型.
為了驗(yàn)證算法和模型的有效性,試驗(yàn)分為2個(gè)部分,第一部分采用仿真數(shù)據(jù)分析和比較統(tǒng)計(jì)α算法與經(jīng)典的α算法以及α+算法在準(zhǔn)確度、擬合度和運(yùn)行時(shí)間上的差異[15].同時(shí)利用其中一組數(shù)據(jù)進(jìn)行建模,分析模型的可達(dá)性、結(jié)構(gòu)完整性和行為完整性等指標(biāo).第二部分利用從醫(yī)院采集到的真實(shí)臨床數(shù)據(jù)進(jìn)行建模,評(píng)價(jià)模型的可達(dá)性、結(jié)構(gòu)完整性和行為完整性等指標(biāo).
采用文獻(xiàn)[16]中給出的仿真數(shù)據(jù)生成方法,生成了如表2中的4組數(shù)據(jù),每組數(shù)據(jù)中都包含了順序、因果、選擇和并行4種關(guān)系,分別從事件日志的軌跡長(zhǎng)度、軌跡數(shù)目和噪聲數(shù)目3個(gè)層面考察2種算法的性能表現(xiàn).算法準(zhǔn)確度和運(yùn)行時(shí)間結(jié)果分別如圖6和圖7所示.
表2 仿真數(shù)據(jù)信息Tab.2 Details of simulate data
圖6 算法準(zhǔn)確度對(duì)比Fig.6 Comparison of accuracy
根據(jù)圖6可以看到,不論仿真數(shù)據(jù)軌跡長(zhǎng)度、軌跡數(shù)目和噪聲數(shù)目如何變化,經(jīng)典α算法和α+算法在各種參數(shù)上結(jié)果相近.統(tǒng)計(jì)α算法在準(zhǔn)確度上總是好于經(jīng)典α算法和α+算法,從多組試驗(yàn)對(duì)比來(lái)看,統(tǒng)計(jì)α算法準(zhǔn)確度總是比經(jīng)典α算法和α+算法高3%~4%左右,在準(zhǔn)確度上有明顯的優(yōu)勢(shì).根據(jù)圖8可以看到,隨著軌跡數(shù)目的增加,統(tǒng)計(jì)α算法在運(yùn)行時(shí)間上明顯優(yōu)于經(jīng)典α算法和α+算法;而隨著噪聲數(shù)目和軌跡長(zhǎng)度的增加,2個(gè)算法在運(yùn)行時(shí)間上不相上下;因此在第1組的試驗(yàn)中,大多數(shù)情況下統(tǒng)計(jì)α算法在運(yùn)行時(shí)間上優(yōu)于經(jīng)典α算法.
為了分析2種算法運(yùn)行時(shí)間上的差異,這里給出算法的時(shí)間復(fù)雜度分析:假設(shè)有一個(gè)軌跡數(shù)目為n、軌跡平均長(zhǎng)度為m的事件日志,可以將該日志看作一個(gè)m×n的矩陣.對(duì)于統(tǒng)計(jì)α算法而言,首先需要遍歷事件日志得到活動(dòng)對(duì)集合Array(AC),并計(jì)算每個(gè)活動(dòng)對(duì)的出現(xiàn)概率,此過(guò)程需循環(huán)(m-1)n次,在得到活動(dòng)對(duì)集合后,計(jì)算每個(gè)活動(dòng)對(duì)的具體活動(dòng)關(guān)系,判斷過(guò)程中不再包含循環(huán)結(jié)構(gòu),只有若干次選擇結(jié)構(gòu)(假設(shè)為k次),因此統(tǒng)計(jì)α算法的總循環(huán)次數(shù)為kn(m-1)2.而對(duì)于經(jīng)典α算法而言,由于沒(méi)有以活動(dòng)對(duì)為基本單位,因此共需要對(duì)整個(gè)矩陣循環(huán)2次,總循環(huán)次數(shù)為n2m(m-1).因此,當(dāng)軌跡程度不變時(shí),統(tǒng)計(jì)α算法運(yùn)行時(shí)間隨著軌跡數(shù)目的增加線性增加,而經(jīng)典α算法則是冪增加,在n較大時(shí),統(tǒng)計(jì)α算法在運(yùn)行時(shí)間上明顯優(yōu)于經(jīng)典α算法.而在軌跡數(shù)目不變時(shí),軌跡程度的變化對(duì)于2種算法的運(yùn)行時(shí)間影響并不大.
圖7 算法運(yùn)行時(shí)間比較Fig.7 Comparison of runtime
對(duì)于過(guò)程挖掘算法評(píng)價(jià)的另一個(gè)常用指標(biāo)是擬合度.擬合度用來(lái)反映過(guò)程挖掘結(jié)果模型對(duì)原始數(shù)據(jù)的擬合程度.在算法結(jié)果中噪聲較多時(shí),模型往往會(huì)出現(xiàn)擬合程度過(guò)高而超過(guò)100%的情況,過(guò)擬合同樣是不理想的情況.擬合度越接近100%,結(jié)果越好.同樣對(duì)于上述4組仿真數(shù)據(jù)進(jìn)行試驗(yàn),可以得到表3中的結(jié)果.
α系列算法由于其對(duì)噪聲的消除不夠,因而常常
表3 算法擬合度對(duì)比Tab.3 Comparison of fitness
出現(xiàn)過(guò)擬合的問(wèn)題.而統(tǒng)計(jì)α算法在進(jìn)行活動(dòng)關(guān)系判斷之前,將其中的噪聲進(jìn)行消除,而這種消除的方式則是通過(guò)對(duì)于活動(dòng)概率的統(tǒng)計(jì)進(jìn)行的,因此,統(tǒng)計(jì)α算法的結(jié)果在擬合度上往往接近100%.
對(duì)第3組仿真數(shù)據(jù)進(jìn)行建模試驗(yàn),將算法中得到的活動(dòng)關(guān)系矩陣轉(zhuǎn)化為CP-net模型.對(duì)于模型的分析指標(biāo)主要有3個(gè):結(jié)構(gòu)完整性、行為完整性和可達(dá)性[14].其中結(jié)構(gòu)完整性衡量了模型對(duì)于有意義的活動(dòng)的包含程度,越高越好;行為完整性則是為了衡量模型中活動(dòng)關(guān)系的準(zhǔn)確性和完整性;可達(dá)性是Petri網(wǎng)模型不發(fā)生死鎖的衡量標(biāo)準(zhǔn).圖8是仿真數(shù)據(jù)Z1的模型部分截圖,分析模型可得到如下結(jié)果:
(1) 結(jié)構(gòu)完整性.通過(guò)對(duì)模型和事件日志中活動(dòng)的對(duì)比,該模型并沒(méi)有包含仿真數(shù)據(jù)中出現(xiàn)的所有活動(dòng),根據(jù)計(jì)算,該模型的擬合度為98.2%,若對(duì)照對(duì)仿真數(shù)據(jù)Z1中噪聲的設(shè)定,該模型幾乎沒(méi)有包含任何噪聲信息,很好地消除了事件日志中的噪聲.
(2) 行為完整性.這里重點(diǎn)考察仿真數(shù)據(jù)中添加的特殊結(jié)構(gòu).該模型由于其對(duì)于因果關(guān)系沒(méi)有直接的體現(xiàn),因此在因果關(guān)系方面略有不足.但是對(duì)并行、選擇等關(guān)系模型都能精準(zhǔn)地表現(xiàn)出來(lái).
(3) 可達(dá)性.通過(guò)對(duì)于關(guān)鍵結(jié)構(gòu)點(diǎn)的托肯分布以及變遷使能條件的分析,該模型可達(dá)率為100%.
表4是對(duì)Z1至Z5這5個(gè)仿真數(shù)據(jù)建模分析的結(jié)果.可以看到該模型在結(jié)構(gòu)完整性和可達(dá)率上都達(dá)到了一個(gè)較高的水平,行為完整性由于因果關(guān)系在模型中沒(méi)有直接的展現(xiàn),所以數(shù)據(jù)并不算太好,但是也達(dá)到了α系列算法的平均水平.
圖8 仿真數(shù)據(jù)Z1的Petri網(wǎng)模型(部分)截圖Fig.8 Petri net model of data Z1(part)表4 仿真數(shù)據(jù)Petri網(wǎng)建模分析結(jié)果Tab.4 Analysis of Petri net model for data
仿真數(shù)據(jù)代號(hào)結(jié)構(gòu)完整性行為完整性可達(dá)率Z198.2%88.7%100%Z297.9%88.7%100%Z397.5%87.3%100%Z497.3%88.7%100%Z596.8%87.3%99%
臨床路徑建模試驗(yàn)的數(shù)據(jù)來(lái)自?xún)?nèi)蒙古某三甲醫(yī)院2010年7月到12月鎖骨骨折病種的事件日志,為了減少試驗(yàn)的計(jì)算時(shí)間,這里選取了鎖骨骨折手術(shù)監(jiān)護(hù)期的數(shù)據(jù).該部分?jǐn)?shù)據(jù)流程軌跡平均長(zhǎng)度為60,重復(fù)活動(dòng)有5對(duì),事件日志中共有156條流程軌跡.
首先,分別使用統(tǒng)計(jì)α算法、經(jīng)典α算法和α+算法對(duì)事件日志進(jìn)行分析,得到算法結(jié)果如表5所示.可以看到,結(jié)合了重復(fù)活動(dòng)判別的統(tǒng)計(jì)α算法在準(zhǔn)確度上明顯優(yōu)于經(jīng)典α算法和α+算法,同時(shí)由于統(tǒng)計(jì)α算法對(duì)于噪聲的消除,擬合度上也沒(méi)有出現(xiàn)過(guò)擬合的現(xiàn)象,總體優(yōu)于經(jīng)典α算法和α+算法.
表5 算法結(jié)果對(duì)比Tab.5 Comparison of results
接下來(lái)利用CPN Tools軟件對(duì)算法結(jié)果進(jìn)行CP-net建模分析,得到圖9的CP-net模型圖.分析模型可以得到如下結(jié)果:
(1) 結(jié)構(gòu)完整性.不同于仿真數(shù)據(jù)中噪聲隨機(jī)的產(chǎn)生,該日志經(jīng)過(guò)人工分析,噪聲存在于事件日志中活動(dòng)偶爾出現(xiàn)的缺失和錯(cuò)位,噪聲量并不大,因此最終得到的模型在擬合度方面表現(xiàn)很好,結(jié)構(gòu)完整性高達(dá)99.3%.
(2) 行為完整性.首先,該病種的事件日志中,存在著5對(duì)重名活動(dòng),模型準(zhǔn)確地將重名活動(dòng)識(shí)別出來(lái),并分辨出其中一對(duì)為非重復(fù)性重名活動(dòng),重名活動(dòng)判別準(zhǔn)確率為100%.其次,該事件日志中存在的特殊關(guān)系較多,模型成功識(shí)別并表達(dá)出3處并行結(jié)構(gòu)和2處選擇結(jié)構(gòu),對(duì)于并行結(jié)構(gòu)和選擇結(jié)構(gòu)的識(shí)別準(zhǔn)確率為100%.對(duì)于因果關(guān)系該模型同樣沒(méi)有直接表現(xiàn)出來(lái),屬于模型欠缺的地方.通過(guò)模型還可以發(fā)現(xiàn),最后一處的選擇結(jié)構(gòu)為2層選擇結(jié)構(gòu)的嵌套,對(duì)于該處的選擇結(jié)構(gòu)可以進(jìn)行如下理解:在手術(shù)完成后并經(jīng)過(guò)基本護(hù)理后,需要對(duì)病人的狀態(tài)進(jìn)行詢(xún)問(wèn)和定義,若病人狀態(tài)良好讓病人正常休息、正常進(jìn)食即可完成整個(gè)臨床路徑;若病人出現(xiàn)身體疼痛等生理問(wèn)題,需要進(jìn)行“疼痛護(hù)理”活動(dòng),為病人緩解病痛;若病人出現(xiàn)心理不安,則需要進(jìn)行“心理護(hù)理”活動(dòng),為病人緩解壓力.總之,該模型對(duì)于特殊活動(dòng)關(guān)系的反映率達(dá)到了90%.
(3) 可達(dá)性.該模型不存在死鎖之處,短循環(huán)也存在著循環(huán)次數(shù)的限制,可達(dá)率為100%.
總之,基于統(tǒng)計(jì)α算法的臨床路徑Petri網(wǎng)絡(luò)模型在結(jié)構(gòu)完整性和可達(dá)性上有很好的表現(xiàn).盡管在行為完整性上,對(duì)于因果關(guān)系的表達(dá)并不直接,但是因果關(guān)系在實(shí)際的臨床路徑執(zhí)行過(guò)程中同順序關(guān)系區(qū)別不大,因此整個(gè)模型對(duì)于實(shí)際醫(yī)院的運(yùn)作依然具有較好的指導(dǎo)意義.通過(guò)對(duì)于具有完整數(shù)據(jù)的CP-net模型進(jìn)行分析,可以得到如下結(jié)果:①通過(guò)模型建立、實(shí)現(xiàn)從事件日志的流程重構(gòu)至得到實(shí)際臨床路徑與標(biāo)準(zhǔn)路徑中的區(qū)別,發(fā)現(xiàn)診療異常;②通過(guò)托肯分布和弧權(quán)重分布分析,可以發(fā)現(xiàn)關(guān)鍵庫(kù)所,確定關(guān)鍵診療活動(dòng),從而優(yōu)化資源分配;③通過(guò)CP-net模型最短路徑搜索和實(shí)際可能性分析,優(yōu)化診療流程,形成新的標(biāo)準(zhǔn)化臨床路徑.
此外,由于模型去除了噪聲的干擾,整個(gè)模型可看作一個(gè)病種最基礎(chǔ)的網(wǎng)絡(luò),具有極強(qiáng)的拓展性,在此基礎(chǔ)上對(duì)于模型的衍生可以實(shí)現(xiàn)更多的功能,該模型也為臨床路徑的費(fèi)用管理、資源調(diào)度等進(jìn)一步的工作奠定基礎(chǔ).
圖9 鎖骨骨折手術(shù)監(jiān)護(hù)期臨床路徑Petri網(wǎng)模型截屏Fig.9 The Petri net model of clavicle fracture
顯著性系數(shù)是統(tǒng)計(jì)α算法中的重要參數(shù),其數(shù)值直接影響最終的結(jié)果.為了確定顯著性系數(shù)α對(duì)試驗(yàn)結(jié)果的影響,增加顯著性系數(shù)敏感性分析試驗(yàn).試驗(yàn)數(shù)據(jù)采用來(lái)自?xún)?nèi)蒙古某三甲醫(yī)院2010年7月到12月正常分娩和急性闌尾炎病種的事件日志.將顯著性系數(shù)分別設(shè)定在0.01~0.20之間,共5組數(shù)據(jù).試驗(yàn)結(jié)果如表6所示.
表6 顯著性系數(shù)敏感性分析結(jié)果Tab.6 Significant level sensitivity analysis results
從試驗(yàn)結(jié)果可以看出:當(dāng)顯著性系數(shù)較小和較大時(shí),結(jié)果的準(zhǔn)確度和泛化性都會(huì)明顯下降;擬合度在顯著性系數(shù)較大時(shí)明顯下降.具體來(lái)看,當(dāng)顯著性系數(shù)較小時(shí),因果關(guān)系和選擇關(guān)系識(shí)別率明顯降低,出現(xiàn)第一類(lèi)錯(cuò)誤;反之,當(dāng)顯著性系數(shù)較大時(shí),結(jié)果受到噪聲的影響明顯增大,保留了較多噪聲,出現(xiàn)較多誤判的因果關(guān)系和選擇關(guān)系,出現(xiàn)了第二類(lèi)錯(cuò)誤.需要保證敏感性系數(shù)在一個(gè)合理的范圍內(nèi),一般可以設(shè)定為0.05~0.10.
針對(duì)臨床路徑建模提出了一套基于統(tǒng)計(jì)α算法的臨床路徑Petri網(wǎng)建模方法.首先給出了結(jié)合重復(fù)活動(dòng)判別的統(tǒng)計(jì)α算法,實(shí)現(xiàn)了從包含噪聲的事件日志中提取知識(shí),形成完整的工作流程;接著提出了基于統(tǒng)計(jì)α算法的臨床路徑Petri網(wǎng)模型,該模型很好地契合了統(tǒng)計(jì)α算法,實(shí)現(xiàn)了事件日志到Petri網(wǎng)模型的轉(zhuǎn)化.通過(guò)仿真數(shù)據(jù)和真實(shí)的臨床路徑數(shù)據(jù)試驗(yàn)驗(yàn)證了統(tǒng)計(jì)α算法較經(jīng)典α算法在準(zhǔn)確度和運(yùn)行時(shí)間方面的明顯優(yōu)勢(shì);試驗(yàn)也證明了基于統(tǒng)計(jì)α算法的臨床路徑Petri網(wǎng)模型的可行性,該模型在可達(dá)性和結(jié)構(gòu)完整性上表現(xiàn)優(yōu)秀,可以用作臨床路徑管理的輔助工具.
參考文獻(xiàn):
[1] LANG M, BüRKLE T, LAUMANN S,etal. Process mining for clinical workflows: Challenges and current limitations[J]. Studies in Health Technology & Informatics, 2008, 136:229.
[2] COOK J E, WOLF A L. Automating process discovery through event-data analysis[C]//Proceedings of the 17th international conference on Software engineering. [S.l.]: ACM, 1995: 73-82.
[3] AGRAWAL R, GUNOPULOS D, LEYMANN F. Mining process models from workflow logs[C]//International Conference on Extending Database Technology. Berlin Heidelberg: Springer, 1998: 467-483.
[4] HAMMORI M, HERBST J, KLEINER N. Interactive workflow mining-requirements, concepts and implementation[J]. Data & Knowledge Engineering, 2006, 56(1): 41.
[5] AALST W V D, WEIJTERS T, MARUSTER L. Workflow mining: Discovering process models from event logs[J]. IEEE Transactions on Knowledge & Data Engineering, 2004, 16(9):1128.
[6] MEDEIROS A K A D, Dongen B F V, AALST W M P V D,etal. Process mining for ubiquitous mobile systems: An overview and a concrete algorithm[C]// International Workshop on Ubiquitous Mobile Information and Collaboration Systems. [S.l.]: Springer, 2004: 151-165.
[7] WEN L, AALST W M P V D, WANG J,etal. Mining process models with non-free-choice constructs[J]. Data Mining & Knowledge Discovery, 2007, 15(2):145.
[8] WEN L, WANG J, SUN J. Mining invisible tasks from event logs[C]// Joint, asia-pacific web and international conference on web-age information management conference on advances in data and web management. [S.l.]: Springer-Verlag, 2007:358-365.
[9] 李嘉菲, 劉大有, 楊博. 過(guò)程挖掘中一種能發(fā)現(xiàn)重復(fù)任務(wù)的擴(kuò)展α算法[J]. 計(jì)算機(jī)學(xué)報(bào), 2007, 30(8):1436.
LI Jiafei, LIU Dayou, YANG Bo. Process mining: An extendedα-algorithm to discovery duplicate tasks[J]. Chinese Journal of Computers, 2007, 30(8):1436.
[10] WEN L, WANG J, AALST W M P V D,etal. A novel approach for process mining based on event types[J]. Journal of Intelligent Information Systems, 2009, 32(2):163.
[11] QUAGLINI S, STEFANELLI M, LANZOLA G,etal. Flexible guideline-based patient careflow systems[J]. Artificial Intelligence in Medicine, 2001, 22(1):65.
[12] GRANDO M A, GLASSPOOL D W, FOX J. Petri nets as a formalism for comparing expressiveness of workflow-based clinical guideline languages[C]// International Conference on Business Process Management. [S.l.]: Springer, 2008: 348-360.
[13] 趙艷麗, 江志斌, 李娜. 基于分層賦時(shí)著色Petri網(wǎng)的臨床路徑建模[J]. 上海交通大學(xué)學(xué)報(bào), 2010(2):252.
ZHAO Yanli, JIANG Zhibing, LI Na. Modeling of clinical pathway based on hierarchical timed colored Petri net[J]. Journal of Shanghai Jiaotong University, 2010(2):252.
[14] 田燕, 馬曉普, 張新剛,等. 基于Petri網(wǎng)的臨床路徑評(píng)估與優(yōu)化[J]. 計(jì)算機(jī)科學(xué), 2013, 40(5):193.
TIAN Yan, MA Xiaopu, ZHANG Xingang,etal. Evaluation and optimization of clinical pathway based on Petri net[J]. Computer Science, 2013, 40(5):193.
[15] WEERAPONG S, POROUHAN P, PREMCHAISWADI W. Process mining usingα-algorithm as a tool: A case study of student registration[C]//2012 10th International Conference on ICT and Knowledge Engineering. Bangkok: IEEE, 2012:213-220.
[16] AALST W M P V D, DONGEN B F V, HERBST J,etal. Workflow mining: A survey of issues and approaches[J]. Data & Knowledge Engineering, 2003, 47(2):237.