崔融融
(大同煤炭職業(yè)技術(shù)學(xué)院,山西 運(yùn)城 037003)
在企業(yè)信息系統(tǒng)的運(yùn)行過(guò)程中,用戶的異常行為不僅會(huì)影響系統(tǒng)中正常用戶的行為模式,同時(shí),還會(huì)影響整個(gè)系統(tǒng)的穩(wěn)定運(yùn)行。當(dāng)前,隨著企業(yè)系統(tǒng)的應(yīng)用逐漸深入,用戶的異常行為造成的威脅程度也逐漸加劇,嚴(yán)重者甚至?xí)绊懙接脩舻墓ぷ髻|(zhì)量及效率,造成較大的經(jīng)濟(jì)損失,并威脅整個(gè)企業(yè)的穩(wěn)定、安全及發(fā)展。近年來(lái),企業(yè)違規(guī)金額損失事故時(shí)常發(fā)生,最主要的原因是內(nèi)部員工在使用企業(yè)信息系統(tǒng)的過(guò)程中存在異常行為,并且這一部分比例占所有導(dǎo)致企業(yè)違規(guī)金額損失事故行為超過(guò)一半。因此,針對(duì)這一問(wèn)題,相關(guān)領(lǐng)域的研究人員對(duì)此開(kāi)展了更加深入的研究,并且這一問(wèn)題也逐漸成為業(yè)界和學(xué)術(shù)界廣泛關(guān)注的熱點(diǎn)。企業(yè)信息系統(tǒng)在運(yùn)行的過(guò)程中,主要運(yùn)行模式是通過(guò)利用日志將系統(tǒng)內(nèi)用戶的行為數(shù)據(jù)進(jìn)行記錄,并通過(guò)捕捉或分析的方式對(duì)用戶可能存在的異常行為進(jìn)行判斷。當(dāng)前,常見(jiàn)的預(yù)測(cè)方法包括基于規(guī)則或基于數(shù)據(jù)驅(qū)動(dòng)的方法,但這兩種方法在實(shí)際應(yīng)用中逐漸無(wú)法滿足數(shù)據(jù)呈指數(shù)上升的日志分析需要?;诖耍疚倪M(jìn)行了企業(yè)信息系統(tǒng)用戶異常行為預(yù)測(cè)方法探究。
為了確保本文設(shè)計(jì)的企業(yè)信息系統(tǒng)用戶異常行為預(yù)測(cè)方法在實(shí)際應(yīng)用中更加有效,需要結(jié)合具體企業(yè)運(yùn)行情境,選擇出能夠幫助后期預(yù)測(cè)訓(xùn)練和識(shí)別的用戶異常行為特征。同時(shí),考慮到數(shù)據(jù)獲取和處理時(shí)的多種可能性,本文采用用戶個(gè)體屬性特征作為模型核心結(jié)構(gòu)。表1為本文系統(tǒng)用戶異常行為特征模型。
表1 系統(tǒng)用戶異常行為特征模型
根據(jù)表1中的內(nèi)容,將每一位企業(yè)信息系統(tǒng)當(dāng)中的用戶都按照上述模型層次進(jìn)行劃分,并對(duì)其相關(guān)數(shù)據(jù)進(jìn)行分類,按照來(lái)源引入到不同模型層次當(dāng)中,以此構(gòu)建系統(tǒng)用戶異常行為特征模型。
在對(duì)企業(yè)信息系統(tǒng)當(dāng)中的用戶異常行為進(jìn)行預(yù)測(cè)時(shí),首先需要對(duì)其行為進(jìn)行分類和界定,考慮到針對(duì)企業(yè)而言,用戶異常行為還會(huì)造成不利后果,本文從用戶認(rèn)知特征的角度,對(duì)用戶異常行為進(jìn)行劃分;其次,為了確保劃分后的用戶異常行為能夠更加貼切地實(shí)現(xiàn)對(duì)用戶行為的描述,本文還將基于時(shí)間和地點(diǎn)對(duì)上述構(gòu)建的系統(tǒng)用戶異常行為特征模型的應(yīng)用層異常行為進(jìn)行界定。
綜合上述論述,將用戶異常行為類型劃分為無(wú)意產(chǎn)生、基于規(guī)則以及基于知識(shí)三個(gè)不同分類。其中第一種類型表示為未按照計(jì)劃執(zhí)行動(dòng)作的用戶異常行為,通常情況下不存在推出時(shí)間;第二種類型表示為在用戶行為產(chǎn)生時(shí),規(guī)則被錯(cuò)誤應(yīng)用的類型,通常情況下為非正常時(shí)間登錄或未在規(guī)定地點(diǎn)登錄;第三種類型表示為用戶的思維模式或知識(shí)儲(chǔ)備不足錯(cuò)誤造成的異常行為,通常情況下會(huì)超出合理操作的時(shí)間范圍。
當(dāng)?shù)谝环N用戶異常行為產(chǎn)生時(shí),企業(yè)信息系統(tǒng)當(dāng)中的退出時(shí)間t會(huì)丟失,此時(shí)在操作記錄當(dāng)中t∈?;當(dāng)?shù)诙N用戶異常行為產(chǎn)生時(shí),企業(yè)信息系統(tǒng)的正常工作時(shí)間應(yīng)當(dāng)為Tin-△T~Tout-△T,其中Tin表示為在企業(yè)信息系統(tǒng)中用戶行為開(kāi)始時(shí)間;Tout-表示為在企業(yè)信息系統(tǒng)中用戶行為結(jié)束時(shí)間;當(dāng)?shù)谌N用戶異常行為產(chǎn)生時(shí),可將閾值F作為確定的區(qū)間條件,當(dāng)用戶異常行為產(chǎn)生的時(shí)間在該閾值范圍內(nèi)時(shí),則說(shuō)明不存在用戶異常行為,反之同理。
由于在實(shí)際應(yīng)用中,企業(yè)信息系統(tǒng)用戶行為數(shù)據(jù)量巨大,因此,預(yù)測(cè)過(guò)程更加復(fù)雜,為了進(jìn)一步提高預(yù)測(cè)結(jié)果的準(zhǔn)確性,本文引入機(jī)器學(xué)習(xí)技術(shù),建立本文上述構(gòu)建的系統(tǒng)用戶異常行為特征模型到更高層次語(yǔ)義特征之間的映射,并結(jié)合深度神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)對(duì)模型的預(yù)測(cè)訓(xùn)練。首先,在深度神經(jīng)網(wǎng)絡(luò)輸入層當(dāng)中設(shè)定某企業(yè)信息系統(tǒng)已知存在用戶異常行為數(shù)據(jù)量的85%數(shù)據(jù)作為訓(xùn)練集,將其余15%數(shù)據(jù)集作為預(yù)測(cè)集;其次,按照公式(1)對(duì)數(shù)據(jù)集進(jìn)行歸一化處理:
公式(1)中,'ne表示為經(jīng)過(guò)歸一化處理后的用戶異常行為數(shù)據(jù)特征,ne表示為未經(jīng)過(guò)歸一化處理后的用戶異常行為數(shù)據(jù)特征,nδ表示為深度神經(jīng)網(wǎng)絡(luò)特征平均值,nα表示為深度神經(jīng)網(wǎng)絡(luò)特征標(biāo)準(zhǔn)差;最后,完成對(duì)數(shù)據(jù)集的歸一化處理后,利用遺忘門結(jié)構(gòu)層對(duì)細(xì)胞狀態(tài)進(jìn)行決策,并通過(guò)讀取上一層得到的輸出結(jié)果和當(dāng)前企業(yè)信息系統(tǒng)中用戶的行為時(shí)間對(duì)比,對(duì)用戶在下一時(shí)刻出現(xiàn)異常行為進(jìn)行預(yù)測(cè)。
根據(jù)本文上述論述,完成對(duì)企業(yè)信息系統(tǒng)用戶異常行為預(yù)測(cè)方法的理論設(shè)計(jì),為進(jìn)一步驗(yàn)證該方法在實(shí)際應(yīng)用中的效果,將該預(yù)測(cè)方法與傳統(tǒng)基于規(guī)則的用戶異常行為預(yù)測(cè)方法應(yīng)用到相同的實(shí)驗(yàn)環(huán)境當(dāng)中,完成如下對(duì)比實(shí)驗(yàn)。
本文選擇以某企業(yè)作為實(shí)驗(yàn)環(huán)境,將該企業(yè)的信息系統(tǒng)近幾年運(yùn)行數(shù)據(jù)作為實(shí)驗(yàn)依托,該企業(yè)業(yè)務(wù)運(yùn)行十分復(fù)雜,因此,選用該企業(yè)作為本文實(shí)驗(yàn)環(huán)境獲取到的實(shí)驗(yàn)樣本具有一定代表性。同時(shí),該企業(yè)使用信息系統(tǒng)時(shí)間已經(jīng)長(zhǎng)達(dá)10年,因此,具有良好的應(yīng)用基礎(chǔ),能夠?yàn)楸疚膶?shí)驗(yàn)提供更加可靠的實(shí)驗(yàn)數(shù)據(jù),以此能夠進(jìn)一步實(shí)現(xiàn)更加可行的預(yù)測(cè)方法應(yīng)用效果研究。對(duì)于該企業(yè)而言,在信息系統(tǒng)運(yùn)行的過(guò)程中,用戶若出現(xiàn)異常行為,則會(huì)對(duì)該企業(yè)造成嚴(yán)重的損失,基于這一問(wèn)題,該企業(yè)急需一種能夠?qū)崿F(xiàn)對(duì)其用戶異常行為預(yù)測(cè)的方法,因此,為本文研究提供了良好的實(shí)驗(yàn)案例條件。表2為該企業(yè)信息系統(tǒng)部分原始數(shù)據(jù)記錄表。
表2 業(yè)信息系統(tǒng)部分原始數(shù)據(jù)記錄表
表2專用TPS表示為事務(wù)處理模塊;DSS表示為決策支持模塊。根據(jù)表2中記錄格式,在該企業(yè)信息系統(tǒng)當(dāng)中提取共152630條數(shù)據(jù),并通過(guò)系統(tǒng)自動(dòng)完成噪聲處理、不一致數(shù)據(jù)處理、重復(fù)數(shù)據(jù)處理等操作,獲取到150000條日志數(shù)據(jù)。為了確保實(shí)驗(yàn)結(jié)果的準(zhǔn)確性,本文設(shè)置在150000條日志數(shù)據(jù)當(dāng)中共包含了存在用戶異常行為的150條數(shù)據(jù),將其平均分配到日志數(shù)據(jù)集當(dāng)中,將前50000條日志數(shù)據(jù)作為訓(xùn)練樣本,分別利用兩種預(yù)測(cè)方法對(duì)之后100000條日志數(shù)據(jù)進(jìn)行預(yù)測(cè),并將實(shí)驗(yàn)結(jié)果繪制成如圖1所示。
圖1 兩種預(yù)測(cè)方法實(shí)驗(yàn)結(jié)果對(duì)比表
根據(jù)圖1中兩條變化曲線可以看出,本文提出的預(yù)測(cè)方法在應(yīng)用到該企業(yè)信息系統(tǒng)環(huán)境當(dāng)中,能夠?qū)崿F(xiàn)對(duì)用戶異常行為數(shù)據(jù)的全部正確預(yù)測(cè)。而傳統(tǒng)預(yù)測(cè)方法隨著日志數(shù)據(jù)總量的不斷增加,正確預(yù)測(cè)用戶異常行為數(shù)據(jù)量逐漸減少。因此,通過(guò)對(duì)比實(shí)驗(yàn)證明,本文提出的企業(yè)信息系統(tǒng)用戶異常行為預(yù)測(cè)方法在實(shí)際應(yīng)用中能夠達(dá)到更高精度的預(yù)測(cè)結(jié)果,為企業(yè)信息系統(tǒng)安全、穩(wěn)定運(yùn)行提供保障。
針對(duì)當(dāng)前用戶異常行為對(duì)企業(yè)信息系統(tǒng)中帶來(lái)的問(wèn)題,本文進(jìn)行了針對(duì)用戶異常行為的預(yù)測(cè)方法設(shè)計(jì)探究。本文提出了一種全新的預(yù)測(cè)方法,將其應(yīng)用于實(shí)際能夠有效解決用戶異常行為造成的企業(yè)運(yùn)行事故問(wèn)題。但因研究時(shí)間有限,本文提出的預(yù)測(cè)方法仍然具有一定的局限性,需要在未來(lái)對(duì)其進(jìn)行進(jìn)一步的擴(kuò)展和完善。例如,針對(duì)不同用戶異常行為可能會(huì)造成的后果并沒(méi)有進(jìn)行細(xì)分,在未來(lái)的研究中將針對(duì)不同用戶異常行為進(jìn)行細(xì)化分析,從而進(jìn)一步提高本文預(yù)測(cè)方法的適用性。