毋文超,任志宇,杜學(xué)繪
基于權(quán)限聚類的屬性值優(yōu)化
毋文超1,2,任志宇1,杜學(xué)繪1
(1. 信息工程大學(xué),河南 鄭州 450001;2. 中國人民解放軍31668部隊(duì),青海 西寧 810000)
在新型大規(guī)模計(jì)算環(huán)境下應(yīng)用ABAC(基于屬性的訪問控制)面臨著屬性數(shù)量多、來源復(fù)雜、質(zhì)量參差不齊、難以人工修正、難以直接應(yīng)用于訪問控制的問題。針對(duì)屬性標(biāo)稱值的優(yōu)化問題,設(shè)計(jì)了一種基于權(quán)限聚類的屬性值優(yōu)化算法,通過將實(shí)體表示成對(duì)應(yīng)的權(quán)限集合,對(duì)實(shí)體進(jìn)行基于密度的聚類,為實(shí)體賦予權(quán)限對(duì)應(yīng)的類別標(biāo)簽,而后基于粗糙集理論對(duì)屬性值進(jìn)行化簡與修正。最后在UCI公開數(shù)據(jù)集上對(duì)算法進(jìn)行了驗(yàn)證,證明應(yīng)用該算法后,ABAC策略挖掘在真陽性率和1得分上均具有較大的提升。
屬性值優(yōu)化;粗糙集理論;基于屬性的訪問控制;訪問控制
在云計(jì)算、大數(shù)據(jù)等新型計(jì)算環(huán)境下,實(shí)體數(shù)量繁多、安全需求復(fù)雜、權(quán)限動(dòng)態(tài)變化,以及傳統(tǒng)的訪問控制模型難以直接適用于新型計(jì)算環(huán)境,基于屬性的訪問控制(ABAC,attribute-based access control)機(jī)制以屬性作為權(quán)限判決的依據(jù),可以較好地滿足大規(guī)模環(huán)境下復(fù)雜的訪問控制需求[1]。作為權(quán)限判決的基本依據(jù),屬性質(zhì)量的高低直接關(guān)系到ABAC能否實(shí)施及其實(shí)施的效率[2]。然而在新型計(jì)算環(huán)境中,實(shí)體的屬性來源復(fù)雜、質(zhì)量參差不齊,需要對(duì)屬性進(jìn)行預(yù)處理以獲取優(yōu)質(zhì)決策屬性集[1]。
屬性約簡可從屬性集中選出完備的較小的屬性子集,目前已經(jīng)有較多關(guān)于屬性約簡的方法,但這些方法無法獲取比原屬性集更加完備的屬性子集,約簡后的屬性集質(zhì)量依賴于原屬性集中的屬性質(zhì)量,無法修正標(biāo)定錯(cuò)誤的屬性。在云計(jì)算、大數(shù)據(jù)環(huán)境中,屬性數(shù)量多、來源復(fù)雜、質(zhì)量參差不齊,人工修正屬性標(biāo)定的難度極大,亟須研究自動(dòng)化的屬性標(biāo)定質(zhì)量優(yōu)化技術(shù)。
屬性按其性質(zhì)可以分為標(biāo)稱屬性、序數(shù)屬性、區(qū)間屬性和比率屬性。其中標(biāo)稱屬性只對(duì)相等和不等操作有意義,性質(zhì)簡單、易于分析,其他類型屬性的約束都可以用等價(jià)的標(biāo)稱屬性約束代替,因此標(biāo)稱屬性被廣泛應(yīng)用于ABAC策略挖掘中[3-5]。但真實(shí)環(huán)境中的屬性類型不全為標(biāo)稱屬性,屬性標(biāo)定質(zhì)量良莠不齊,現(xiàn)有的相關(guān)研究集中在將其他類型屬性轉(zhuǎn)化為標(biāo)稱屬性上,缺乏對(duì)標(biāo)稱屬性值本身進(jìn)行優(yōu)化的研究。如果屬性標(biāo)定質(zhì)量過低,會(huì)導(dǎo)致策略臃腫、策略執(zhí)行效率低,甚至無法構(gòu)建正確完備的策略。針對(duì)該問題,本文提出了一種基于主客體權(quán)限關(guān)系聚類的屬性值優(yōu)化方案,通過權(quán)限信息對(duì)實(shí)體進(jìn)行聚類,而后基于聚類中實(shí)體屬性的分布信息,為低質(zhì)量的標(biāo)稱屬性調(diào)優(yōu)。
屬性預(yù)處理是ABAC策略挖掘的重要前置工作,其目標(biāo)是獲取用以訪問控制決策的最優(yōu)屬性集。它可以抽象為決策表中屬性的約簡優(yōu)化,主要分為兩方面:一方面是屬性數(shù)量約簡,目標(biāo)是從蘊(yùn)含冗余信息的原始屬性集中挑選出最小的屬性子集,同時(shí)保證該屬性集維持原始屬性集的權(quán)限區(qū)分能力[6];另一方面是屬性值優(yōu)化,包括將屬性轉(zhuǎn)化為易于處理的類型、合并冗余屬性值以及修正錯(cuò)誤的屬性標(biāo)定,使屬性能夠清晰地表達(dá)權(quán)限關(guān)系。
鄧大勇等[7]對(duì)屬性約簡準(zhǔn)則進(jìn)行了歸納,證明了以條件屬性信息熵為約簡準(zhǔn)則的約簡與絕對(duì)約簡等價(jià)、在一致決策表中以聯(lián)合熵為約簡準(zhǔn)則的約簡與絕對(duì)約簡等價(jià);指出了其他類型的約簡僅僅不損失本約簡準(zhǔn)則下的信息,但可能損失條件屬性信息熵下的信息。屬性約簡結(jié)果往往不是唯一的,研究者通常使用啟發(fā)式算法獲取其中的一個(gè),而難以從多個(gè)約簡中選出最優(yōu)。鄧大勇等[8]提出了屬性約簡重心的概念,從而選擇距離重心最近的屬性約簡作為最優(yōu)的屬性約簡,并通過實(shí)驗(yàn)進(jìn)行了證實(shí)。張維等[9]提出了一種處理部分標(biāo)記數(shù)據(jù)的粗糙集屬性約簡算法,針對(duì)有標(biāo)記數(shù)據(jù)獲取困難的問題,基于半監(jiān)督協(xié)同學(xué)習(xí)理論為半監(jiān)督數(shù)據(jù)設(shè)計(jì)了屬性約簡算法,該算法利用大量無標(biāo)記數(shù)據(jù)提高了有限有標(biāo)記數(shù)據(jù)屬性約簡的質(zhì)量,但損失了約簡的性能。曾孝文等[10]提出了一種基于粗糙集理論的屬性值約簡改進(jìn)算法,將不相容的決策表劃分為若干個(gè)相容的子決策表,而后在子決策表中嘗試刪除屬性值來消除不相容,該算法會(huì)產(chǎn)生屬性語義上的損失。
本文針對(duì)傳統(tǒng)的屬性預(yù)處理方法在屬性值優(yōu)化方面存在的問題,提出了一種基于權(quán)限聚類的屬性值優(yōu)化算法,對(duì)實(shí)體按照權(quán)限關(guān)系進(jìn)行聚類,而后通過分析聚類內(nèi)屬性值的分布,對(duì)屬性值進(jìn)行優(yōu)化,去除冗余值、修正錯(cuò)誤值,使屬性能夠更加有效地應(yīng)用于訪問控制。
屬性被用來描述實(shí)體的性質(zhì),如教師的任教科目、學(xué)生的班級(jí)、試卷的科目等。研究者通常使用如下性質(zhì)區(qū)分屬性的類型。
屬性按以上性質(zhì)可以分為標(biāo)稱屬性、序數(shù)屬性、區(qū)間屬性和比率屬性[11],它們的特點(diǎn)和常見的示例如表1所示。
表1 屬性分類
標(biāo)稱屬性僅對(duì)相等和不相等操作有意義,基于標(biāo)稱屬性構(gòu)造的策略形式最為簡單直觀,現(xiàn)有的策略構(gòu)建與驗(yàn)證方法大多依賴于高質(zhì)量標(biāo)稱屬性,在屬性質(zhì)量較低時(shí)表現(xiàn)不佳。因此本文針對(duì)標(biāo)稱屬性值的優(yōu)化進(jìn)行研究,從而為策略構(gòu)建與維護(hù)提供有力保障。
屬性優(yōu)化可以抽象為決策表的屬性值優(yōu)化問題。粗糙集理論是處理不完整、不確定知識(shí)的數(shù)學(xué)工具,該理論認(rèn)為知識(shí)的本質(zhì)是分辨能力,它也是決策表屬性約簡的重要工具。本文根據(jù)粗糙集理論將屬性優(yōu)化問題定義為信息系統(tǒng)中屬性的優(yōu)化問題。
定義1 信息系統(tǒng)
定義2 不可分辨關(guān)系
定義3 下近似集
在ABAC中,屬性是ABAC進(jìn)行權(quán)限判決的依據(jù),權(quán)限判決可以看作以屬性為特征,判決結(jié)果為標(biāo)簽的分類過程。但根據(jù)權(quán)限判決結(jié)果分類所得的類別只有兩個(gè),難以利用粗糙集理論對(duì)屬性進(jìn)行有效的優(yōu)化。因此本文根據(jù)主客體的權(quán)限關(guān)系中主體對(duì)應(yīng)的權(quán)限集合,為主體分類賦予足夠的類別標(biāo)簽,以便通過粗糙集理論對(duì)主體屬性進(jìn)行優(yōu)化,使其更加清晰準(zhǔn)確地區(qū)分主體的權(quán)限(客體屬性的優(yōu)化與之相同,將客體按對(duì)應(yīng)的權(quán)限集合進(jìn)行分類,而后優(yōu)化,下文均以主體屬性的優(yōu)化為例)。
聚類的目的是為主體分配類別標(biāo)簽,為屬性優(yōu)化提供依據(jù)。聚類的依據(jù)為主體的權(quán)限,即該主體能訪問的客體的集合,因此采用Jaccard距離作為距離標(biāo)準(zhǔn)。
定義6 Jaccard距離
DBSCAN是一種基于密度的聚類算法,它基于中心來定義密度,數(shù)據(jù)集中某個(gè)點(diǎn)的密度通過對(duì)該點(diǎn)長eps的半徑之內(nèi)的點(diǎn)計(jì)數(shù)(包括本身)來估計(jì),每個(gè)核心點(diǎn)eps鄰域應(yīng)該具有的最少數(shù)據(jù)點(diǎn)數(shù)由參數(shù)min_pts確定。相比于最常用的算法-means,它不需要指定聚類的數(shù)目,且對(duì)于噪聲的容忍能力較強(qiáng),能夠處理任意形狀和大小的簇、高效地對(duì)主體按權(quán)限集合進(jìn)行聚類。
屬性值可能存在的問題分兩方面。一方面是多個(gè)相同意義的值導(dǎo)致的冗余;另一方面是屬性值錯(cuò)誤。因此屬性優(yōu)化值也包含兩步:合并冗余值和修正錯(cuò)誤值(錯(cuò)誤標(biāo)定的屬性值)。
第一步是合并冗余值。實(shí)體的屬性不可避免地存在相同意義的值,以客體的屬性為例,CPU和中央處理器具有相同的含義,但如果在進(jìn)行策略制定時(shí)沒有考慮到這一點(diǎn),就會(huì)導(dǎo)致策略臃腫。對(duì)于具有相同意義的屬性值,直接將其合并。在信息系統(tǒng)中,判斷屬性值是否具有相同意義的方法是查看屬性值區(qū)分類標(biāo)簽的能力是否相同,即屬性值關(guān)于類標(biāo)簽的分布是否相同。
將主體按其具有的權(quán)限聚類的過程如算法1所示,首先根據(jù)主體權(quán)限關(guān)系,統(tǒng)計(jì)出每個(gè)主體具有的權(quán)限,保存入sor字典(第1行),而后初始化所有主體的聚類標(biāo)識(shí)為UNCLASSIFIED(第3行),存入clusters字典,繼而對(duì)主體進(jìn)行基于密度的聚類(第4~18行)。
算法1 主體聚類
這一步把每個(gè)屬性同分布的值進(jìn)行合并,如算法2所示,首先統(tǒng)計(jì)每個(gè)屬性值在哪些聚類中出現(xiàn)過,以及出現(xiàn)的頻率(第1行),分別存入ds和freq,將具有相同分布的屬性值保存到一起(第3~9行),存入二維列表dealt,然后對(duì)同分布屬性值進(jìn)行合并(第10行)。為了加快聚類集合的比較,將ds按聚類集合的長度排序,只比較長度相同的集合。
算法2 同分布屬性值合并
這一步嘗試將頻率低于閾值的屬性值合并到在同一聚類內(nèi)出現(xiàn)過的其他值上,如算法3所示,首先初始化保存所有的屬性名稱(第1行),然后計(jì)算去掉某個(gè)屬性后屬性集對(duì)聚類標(biāo)簽的支持度,存入AttrKDict(第2行),接著將屬性名按照AttrKDict中的支持度從低到高進(jìn)行排序,存入隊(duì)列(第3行),進(jìn)而依次從中取出屬性,找出該屬性的低頻屬性值,嘗試將其修改為該屬性的其余值,若支持度不下降,則將值對(duì)存入pairs列表(第5~13行),最后依據(jù)pairs對(duì)newSar進(jìn)行更新(第14行)。
算法3 低頻屬性優(yōu)化
實(shí)驗(yàn)環(huán)境為Ubuntu 18.04操作系統(tǒng),配置為Intel Core i7-8750H CPU,16 GB內(nèi)存;使用Python3.7編寫代碼,實(shí)現(xiàn)了基于Jaccard相似度的DBSCAN算法;編寫了基于權(quán)限聚類的屬性優(yōu)化算法。
實(shí)驗(yàn)數(shù)據(jù)集為UCI的Amazon Access Samples公開數(shù)據(jù)集[12],數(shù)據(jù)集信息如表2所示,其中HOST,PERMGROUP,SYSTEM_SUPPORT為3種不同的客體,值為ID,PERSON_ID為主體ID。
實(shí)驗(yàn)1 聚類參數(shù)選取
為了保證屬性優(yōu)化的效果,所得的聚類數(shù)目必須合適,同時(shí)被標(biāo)記為噪聲點(diǎn)的主體不能太多。表3和表4分別為調(diào)整參數(shù)eps和min_pts對(duì)應(yīng)的噪聲點(diǎn)占比情況和聚類數(shù)目情況,可以看出,隨著eps增大,噪聲點(diǎn)占比逐漸下降,聚類數(shù)目逐漸減少;隨著min_pts增大,噪聲點(diǎn)占比逐漸增大,聚類數(shù)目逐漸減少;在eps較大時(shí),min_pts變化對(duì)噪聲點(diǎn)占比和聚類數(shù)目的影響都會(huì)減小。
表2 數(shù)據(jù)集信息
當(dāng)eps取0.6和0.7時(shí),雖然噪聲點(diǎn)占比不高,但聚類數(shù)目只有3個(gè),對(duì)主體的區(qū)分能力太弱;當(dāng)eps取小于0.5的值時(shí),有超過0.01的主體無法被分類,因此eps取0.5。在eps取0.5的前提下,當(dāng)min_pts取大于5的值,均有超過0.01的主體無法被分類,對(duì)后續(xù)優(yōu)化影響較大,因此min_pts取5。
表3 調(diào)整參數(shù)eps和min_pts對(duì)應(yīng)的噪聲點(diǎn)占比情況
實(shí)驗(yàn)2 屬性優(yōu)化結(jié)果
應(yīng)用算法完成屬性值優(yōu)化后,利用FPGrowth算法對(duì)主體權(quán)限關(guān)系進(jìn)行策略挖掘,并比較優(yōu)化前后FPGrowth算法在真陽性率(TPR,true positive rate)和F1得分等評(píng)價(jià)標(biāo)準(zhǔn)上的表現(xiàn)。本文使用的數(shù)據(jù)集中權(quán)限關(guān)系相比于所有主客體的組合特別稀疏,因此采用對(duì)稀疏訪問支持更好的關(guān)聯(lián)規(guī)則挖掘算法對(duì)算法進(jìn)行驗(yàn)證[4],利用pyfim庫[13]中的FPGrowth算法來進(jìn)行策略挖掘,如圖1、圖2所示。本文提出的屬性值優(yōu)化算法對(duì)FPGrowth算法挖掘授權(quán)規(guī)則的真陽性率和F1得分有較明顯的提升。
表4 調(diào)整參數(shù)eps和min_pts得到聚類的數(shù)量情況
圖1 優(yōu)化前后FPGrowth算法取得的TPR隨關(guān)聯(lián)規(guī)則的支持度變化情況對(duì)比
Figure 1 Comparation of the TPR changes with the support of association rules before and after the optimization
圖2 優(yōu)化前后FPGrowth算法取得的F1得分隨關(guān)聯(lián)規(guī)則的支持度變化情況對(duì)比
Figure 2 Comparation of the F1-score changes with the support of association rules before and after the optimization
實(shí)驗(yàn)3 性能分析
圖3 主體屬性優(yōu)化消耗時(shí)間隨主體數(shù)量變化情況
Figure 3 Time consumed by subject attribute optimization changes with the number of subjects
針對(duì)新型大規(guī)模計(jì)算環(huán)境下屬性繁多、質(zhì)量差強(qiáng)人意、難以人工修正、難以直接用于ABAC策略構(gòu)建的問題,本文設(shè)計(jì)了基于權(quán)限聚類的屬性值優(yōu)化算法。首先,基于實(shí)體的權(quán)限集合表示和DBSCAN聚類算法為實(shí)體分配與權(quán)限對(duì)應(yīng)的類別標(biāo)簽;接著,基于粗糙集理論對(duì)屬性值進(jìn)行化簡與修正,使其能夠更加清晰有力地區(qū)分實(shí)體的權(quán)限、高效地用以ABAC的實(shí)施與維護(hù);最后,在UCI公開數(shù)據(jù)集上對(duì)屬性值優(yōu)化的效果進(jìn)行了驗(yàn)證,根據(jù)本文提出的屬性值優(yōu)化算法對(duì)數(shù)據(jù)集中的主體屬性進(jìn)行優(yōu)化后,F(xiàn)PGrowth算法挖掘到的ABAC策略質(zhì)量在真陽性率和F1得分上有較為明顯的提升。但是,算法中屬性集對(duì)類標(biāo)簽的支持度計(jì)算復(fù)雜度較高,在處理大規(guī)模數(shù)據(jù)集的性能有待進(jìn)一步優(yōu)化,下一步計(jì)劃研究支持度的增量式更新。
[1] 房梁, 殷麗華, 郭云川, 等. 基于屬性的訪問控制關(guān)鍵技術(shù)研究綜述[J]. 計(jì)算機(jī)學(xué)報(bào), 2017, 40(7): 1680-1698.
FANG L, YIN L H, GUO Y C, et al. A survey of key technologies in attribute-based access control scheme[J]. Chinese Journal of Computers, 2017, 40(7): 1680-1698.
[2] HU C T, FERRAIOLO D F, KUHN D R, et al. Guide to attribute based access control (ABAC) definition and considerations [includes updates as of 02-25-2019][R]. 2019.
[3] XU Z, STOLLER S D. Mining attribute-based access control policies from logs[C]//IFIP Annual Conference on Data and Applications Security and Privacy. 2014: 276-291.
[4] COTRINI C, WEGHORN T, BASIN D. Mining ABAC rules from sparse logs[C]//2018 IEEE European Symposium on Security and Privacy (EuroS&P). 2018: 31-46.
[5] IYER P, MASOUMZADEH A. Mining positive and negative attribute-based access control policy rules[C]//Proceedings of the 23nd ACM on Symposium on Access Control Models and Technologies. 2018: 161-172.
[6] 張任偉, 白曉穎, 郁蓮, 等. 決策表的屬性約簡算法綜述[J]. 計(jì)算機(jī)科學(xué), 2011, 38(11): 1-6.
ZHANG R W, BAI X Y, YU L, et al. Survey of decision table research of attribute reduction[J]. Computer Science, 2011, 38(11): 1-6.
[7] 鄧大勇, 薛歡歡, 苗奪謙, 等. 屬性約簡準(zhǔn)則與約簡信息損失的研究[J]. 電子學(xué)報(bào), 2017, 45(2): 401-407.
DENG D Y, XUE H H, MIAO D Q, et al. Study on criteria of attribute reduction and information loss of attribute reduction[J]. Acta Electronica Sinica, 2017, 45(2): 401-407.
[8] 鄧大勇, 葛雅雯, 黃厚寬. 屬性約簡簇的優(yōu)化選擇[J]. 電子學(xué)報(bào), 2019, 47(5): 1111-1120.
DENG D Y, GE Y W, HUANG H K. An optimizing selection in a family of attribute reducts[J]. Acta Electronica Sinica, 2019, 47(5): 1111-1120.
[9] 張維, 苗奪謙, 高燦, 等. 一種處理部分標(biāo)記數(shù)據(jù)的粗糙集屬性約簡算法[J]. 計(jì)算機(jī)科學(xué), 2017, 44(1): 25-31.
ZHANG W, MIAO D Q, GAO C, et al. Rough set attribute reduction algorithm for partially labeled data[J]. Computer Science, 2017, 44(1): 25-31.
[10] 曾孝文, 胡虛懷, 嚴(yán)權(quán)峰. 一種基于粗糙集理論的屬性值約簡改進(jìn)算法[J]. 電子技術(shù), 2017 (1): 1.
ZENG X W, HU X H, YAN Q F. An improved algorithm for attribute value reduction base on rough set theory[J]. Electronics Technology, 2017(1): 1.
[11] TAN P N, STEINBACH M, KUMAR V. Introduction to data mining[M]. Pearson Education India, 2016: 21.
[12] LICHMAN M. UCI machine learning repository. amazon access samples data set[EB]. 2011.
[13] BORGELT C. Frequent item set mining[J]. Wiley Interdisciplinary Reviews: Data Mining and Knowledge Discovery, 2012, 2(6): 437-456.
Permission clustering-based attribute value optimization
WU Wenchao1,2, REN Zhiyu1, DU Xuehui1
1. Information Engineering University, Zhengzhou 450001, China 2. 31668 Unit PLA, Xining 810000, China
In new large-scale computing environment, the attributes of entities were massive and they had complex sources and uneven quality, which were great obstacles to the application of ABAC (attribute-based access control). The attributes were also hard to be corrected manually, making it difficult to be applied in access control system straightly. To solve the optimization problem of nominal attributes, a novel algorithm of attribute value optimization based on permission clustering was designed, in which entities were presented by the privilege set related to them. So that the entities were tagged by density-based clustering method with distances of their privilege set presentations. Then the attribute values were reduced and corrected based on rough set theory. Finally, the algorithm was verified on UCI data sets, which proved that after applying it, ABAC policy mining was improved in the evaluation criteria, such as the true positive rate and1-score.
attribute value optimization, rough set theory, ABAC, access control
TP393
A
10.11959/j.issn.2096?109x.2021077
2020?04?08;
2020?08?07
任志宇,ren_ktzy@163.com
國家重點(diǎn)研發(fā)計(jì)劃(2018YFB0803603);國家自然科學(xué)基金(61702550,61802436)
TheNational Key R&D Program of China (2018YFB0803603), The National Natural Science Foundation of China (61702550, 61802436)
毋文超, 任志宇, 杜學(xué)繪. 基于權(quán)限聚類的屬性值優(yōu)化[J]. 網(wǎng)絡(luò)與信息安全學(xué)報(bào), 2021, 7(4): 175-182.
WU W C, REN Z Y, DU X H. Permission clustering-based attribute value optimization[J]. Chinese Journal of Network and Information Security, 2021, 7(4): 175-182.
毋文超(1995?),男,河南焦作人,中國人民解放軍31668部隊(duì)助理工程師,主要研究方向?yàn)槭跈?quán)管理與訪問控制。
任志宇(1974?),女,河南湯陰人,博士,信息工程大學(xué)副教授,主要研究方向?yàn)榫W(wǎng)絡(luò)與信息安全。
杜學(xué)繪(1968?),女,河南新鄉(xiāng)人,博士,信息工程大學(xué)教授、博士生導(dǎo)師,主要研究方向?yàn)榫W(wǎng)絡(luò)與信息安全、空間信息網(wǎng)絡(luò)、云計(jì)算安全。