摘 要:在大數(shù)據(jù)及云計(jì)算技術(shù)、物聯(lián)網(wǎng)技術(shù)快速發(fā)展的背景下,圖書館局域網(wǎng)內(nèi)書籍、文獻(xiàn)資料、文檔文案等信息逐漸增多,網(wǎng)絡(luò)安全態(tài)勢感知、安全預(yù)警與防護(hù)成為多方關(guān)注的重要問題。為解決網(wǎng)絡(luò)攻擊、網(wǎng)絡(luò)用戶訪問導(dǎo)致的圖書館信息系統(tǒng)安全問題,引入Hadoop分布式軟件架構(gòu)、MapReduce編程模型、HDFS(Hadoop Distributed File System)分布式文件系統(tǒng)、Hive數(shù)據(jù)倉庫、MySQL數(shù)據(jù)庫等組件,建構(gòu)面向圖書館網(wǎng)絡(luò)日志監(jiān)測、告警分析的安全管理系統(tǒng),收集局域網(wǎng)間數(shù)據(jù)傳輸通信的用戶訪問、網(wǎng)絡(luò)威脅攻擊等安全日志,使用K-means數(shù)據(jù)簇聚類算法展開數(shù)據(jù)挖掘分析,作為網(wǎng)絡(luò)安全預(yù)測與評估的依據(jù),提出ABE(Attribute Based Encryption)算法進(jìn)行圖書館通信數(shù)據(jù)的加解密操作,從而最大程度地保障圖書館系統(tǒng)傳輸層、應(yīng)用層的網(wǎng)絡(luò)數(shù)據(jù)訪問及傳輸安全性。
關(guān)鍵詞:圖書館信息系統(tǒng);網(wǎng)絡(luò)安全;數(shù)據(jù)加密
中圖分類號:G 25 " " 文獻(xiàn)標(biāo)志碼:A
在“互聯(lián)網(wǎng)+”產(chǎn)業(yè)轉(zhuǎn)型的環(huán)境下,各地區(qū)圖書館紛紛依托大數(shù)據(jù)及云計(jì)算平臺、物聯(lián)網(wǎng)技術(shù)建構(gòu)數(shù)字圖書館信息系統(tǒng),然而大量外部用戶訪問圖書館平臺、檢索館藏?cái)?shù)據(jù)資源將帶來嚴(yán)重的網(wǎng)絡(luò)安全與管理問題。面臨網(wǎng)絡(luò)用戶非法訪問、木馬或病毒入侵攻擊等安全威脅,基于MapReduce并行部署方案采集入侵的網(wǎng)絡(luò)日志數(shù)據(jù)信息,使用K-Means聚類算法挖掘分析監(jiān)測的用戶訪問、入侵攻擊信息,根據(jù)不同的網(wǎng)絡(luò)入侵攻擊威脅等級,使用網(wǎng)絡(luò)節(jié)點(diǎn)通信的ABE算法、DEA算法、RSA算法進(jìn)行圖書館書籍?dāng)?shù)據(jù)加密傳輸,提升網(wǎng)絡(luò)用戶訪問及攻擊的數(shù)據(jù)安全防護(hù)效果。
1 圖書館網(wǎng)絡(luò)安全監(jiān)測與管理系統(tǒng)建構(gòu)的主要技術(shù)
當(dāng)前,圖書館局域網(wǎng)絡(luò)的非法訪問、入侵攻擊等安全威脅包括探測攻擊(Probe)、遠(yuǎn)程權(quán)限獲取攻擊(Remote to Local,R2L)、遠(yuǎn)程用戶攻擊(Remote to User,R2U)、用戶提權(quán)(User to Root,U2R)攻擊、拒絕服務(wù)(Denial of Service,DoS)攻擊,面對不同網(wǎng)絡(luò)攻擊類型的日志數(shù)據(jù)感知與分析,通常涉及以下4個方面的技術(shù)[1]。
1.1 Hadoop分布式集群架構(gòu)技術(shù)
Hadoop分布式軟件架構(gòu)為服務(wù)應(yīng)用程序開發(fā)、文件存儲的結(jié)構(gòu),主要由MapReduce編程計(jì)算模型、HDFS分布式文件系統(tǒng)、Mahout數(shù)據(jù)挖掘庫、Hive數(shù)據(jù)倉庫、Pig數(shù)據(jù)流處理、Flume日志收集工具等組件構(gòu)成,不同模塊分別負(fù)責(zé)數(shù)據(jù)預(yù)處理、并行數(shù)據(jù)計(jì)算、傳輸數(shù)據(jù)提取、分布式數(shù)據(jù)存儲的業(yè)務(wù)功能實(shí)現(xiàn),具體框架結(jié)構(gòu)如圖1所示[2]。
1.2 MapReduce并行計(jì)算技術(shù)
MapReduce編程模型是面向大規(guī)模數(shù)據(jù)集處理的并行計(jì)算技術(shù),通常將Map任務(wù)、Reduce任務(wù)處理組件組合為MapReduce應(yīng)用程序,負(fù)責(zé)完成圖書館訪問或入侵?jǐn)?shù)據(jù)的篩選、合并操作。其中,Map任務(wù)執(zhí)行階段主要面向網(wǎng)絡(luò)節(jié)點(diǎn)的訪問數(shù)據(jù),將輸入數(shù)據(jù)集拆分為多個切片片段,例如將0、1、2、3、4等數(shù)據(jù)片段分配至Map任務(wù)節(jié)點(diǎn),各任務(wù)在特定的塊存儲服務(wù)器中運(yùn)行后,處理得到(K0,V0)、(K1,V1)、(K2,V2)、(K3,V3)、(K4,V4)的中間鍵/值對。然后,在Reduce任務(wù)階段將中間鍵/值對集合重新排序,生成新的二元組數(shù)據(jù)集(K',V'),使用reduce自定義函數(shù)運(yùn)行數(shù)據(jù)處理指令對相同的數(shù)據(jù)文件名/文件內(nèi)容進(jìn)行合并,生成輸出鍵/值對(K*,V*)結(jié)果。
1.3 HDFS分布式存儲技術(shù)
HDFS分布式文件系統(tǒng)是面向海量網(wǎng)絡(luò)數(shù)據(jù)、大文件數(shù)據(jù)集的存儲方式,其采用ScaleOut橫向擴(kuò)展架構(gòu),定義最小存儲單元為Block,最大存儲文件為TB~PB級別,通常該組件被分散部署于云服務(wù)器中,將網(wǎng)絡(luò)數(shù)據(jù)處理、存儲任務(wù)分配至多個網(wǎng)絡(luò)節(jié)點(diǎn)。當(dāng)外部Client客戶端向HDFS文件系統(tǒng)發(fā)送數(shù)據(jù)讀寫請求后,由分布式文件系統(tǒng)的NameNode節(jié)點(diǎn)監(jiān)測數(shù)據(jù)文件名、數(shù)據(jù)塊號是否存在,如果存在,那么基于數(shù)據(jù)塊分配策略讀寫數(shù)據(jù)文件,由DataNode節(jié)點(diǎn)調(diào)用、檢索后臺服務(wù)器的數(shù)據(jù)文件,否則返回I/O流異常信息;在數(shù)據(jù)讀寫的所有訪問請求完成后,利用NameNode節(jié)點(diǎn)將編號數(shù)據(jù)塊存放至文件查詢隊(duì)列,并將請求數(shù)據(jù)返回至Client客戶端。
1.4 網(wǎng)絡(luò)安全日志挖掘技術(shù)
基于Flume日志采集工具、Hive數(shù)據(jù)倉庫、Zookeeper分布式協(xié)作服務(wù)等組件,收集各網(wǎng)絡(luò)節(jié)點(diǎn)的Apache訪問日志、NCSA擴(kuò)展日志等安全日志文件,根據(jù)自定義日志文件格式記錄安全事件的源IP、目的IP、攻擊描述信息、安全響應(yīng)信息等[3]。例如以Apache訪問日志為例,192.168.1.20--[21/Apr/2020:14:27:49+0800] “GET /1/index.php / HTTP/1.1” 404 490 “http ://www.gxlib.org.cn(廣西壯族自治區(qū)圖書館)”(Mozilla/5.0;Windows NT 5.1;Maxthon),該安全日志中分別記錄著網(wǎng)絡(luò)訪問IP、訪問時間、Client客戶請求、通信協(xié)議、返回驗(yàn)證碼、訪問網(wǎng)址、傳輸字節(jié)數(shù)等數(shù)據(jù)信息。一旦發(fā)生網(wǎng)絡(luò)入侵或攻擊的安全故障,F(xiàn)lume采集器便會將收集的日志數(shù)據(jù)傳輸?shù)紿ive數(shù)據(jù)倉庫,Hive提取重要的日志數(shù)據(jù)字節(jié),將結(jié)構(gòu)化數(shù)據(jù)文件映射為數(shù)據(jù)庫表,再利用K-Means聚類算法對安全日志進(jìn)行關(guān)聯(lián)聚類分析。
2 圖書館信息系統(tǒng)網(wǎng)絡(luò)安全監(jiān)測與管理方案
2.1 網(wǎng)絡(luò)安全監(jiān)測與管理的服務(wù)組成架構(gòu)
面向圖書館信息系統(tǒng)的網(wǎng)絡(luò)安全監(jiān)測服務(wù)架構(gòu)通常涵蓋軟硬件支撐層、數(shù)據(jù)采集層、挖掘分析層、存儲服務(wù)層等層級,具體組成架構(gòu)如圖2所示。在Hadoop集群架構(gòu)、HDFS分布式文件系統(tǒng)、Hbase數(shù)據(jù)庫、TCP/IP通信協(xié)議、網(wǎng)絡(luò)主機(jī)、Web應(yīng)用服務(wù)器、Tomcat服務(wù)器等軟硬件支持下,收集有關(guān)網(wǎng)絡(luò)用戶訪問、入侵攻擊的安全日志數(shù)據(jù)、使用MapReduce分布式數(shù)據(jù)計(jì)算、K-Means關(guān)聯(lián)聚類算法對日志數(shù)據(jù)進(jìn)行挖掘分析,將日志數(shù)據(jù)塊、日志數(shù)據(jù)集文件隊(duì)列、副本日志等信息存儲至后臺服務(wù)器[4]。
由圖2可知,圖書館網(wǎng)站訪問、數(shù)據(jù)信息請求的網(wǎng)絡(luò)安全管理是先由Flume采集器通過級聯(lián)方式,采集TCP/IP網(wǎng)絡(luò)通信協(xié)議傳輸?shù)陌踩罩緮?shù)據(jù),獲取與網(wǎng)絡(luò)用戶訪問、入侵攻擊威脅相關(guān)的結(jié)構(gòu)化/非結(jié)構(gòu)化安全數(shù)據(jù),以及與網(wǎng)絡(luò)主機(jī)、后臺服務(wù)器等硬件相關(guān)的漏洞數(shù)據(jù);再以NameNode主節(jié)點(diǎn)、NameNode從節(jié)點(diǎn)、Source節(jié)點(diǎn)、Channel節(jié)點(diǎn)為基本單元,利用MapReduce并行計(jì)算模型、K-Means聚類算法對各網(wǎng)絡(luò)節(jié)點(diǎn)的入侵攻擊行為進(jìn)行識別分析,提取多層級網(wǎng)絡(luò)入侵源日志的安全態(tài)勢指標(biāo),發(fā)現(xiàn)網(wǎng)絡(luò)安全風(fēng)險與威脅問題;將日志數(shù)據(jù)塊、日志數(shù)據(jù)集文件隊(duì)列、副本日志等安全信息緩存至HDFS分布式文件系統(tǒng),存儲至Tomcat后臺服務(wù)器,以便于網(wǎng)絡(luò)搜索引擎的安全日志查詢、調(diào)用及挖掘分析操作。
2.2 基于K-Means聚類算法的網(wǎng)絡(luò)安全指標(biāo)提取
針對多種網(wǎng)絡(luò)用戶訪問、入侵攻擊的安全日志數(shù)據(jù),利用K-Means聚類算法設(shè)定K個初始聚類中心,對不同網(wǎng)絡(luò)安全數(shù)據(jù)集進(jìn)行分組聚類分析。假設(shè)某一網(wǎng)絡(luò)用戶訪問或攻擊的數(shù)據(jù)集合為X=(x1,x2,…,xn)T,按照數(shù)據(jù)簇聚類的就近劃分原則,將數(shù)據(jù)項(xiàng)劃分至最近類簇,利用歐幾里得度量公式計(jì)算k—項(xiàng)集簇內(nèi)數(shù)據(jù)點(diǎn)到聚類中心點(diǎn)的距離,如公式(1)所示[5]。
(1)
如果某一網(wǎng)絡(luò)用戶訪問、入侵攻擊數(shù)據(jù)簇的聚類中心點(diǎn)為,那么基于x'i=xi+vi、v'i=vi+c1·rand(kibest-xi)+c2·rand(Gibest-vi)的數(shù)據(jù)粒子群位置優(yōu)化公式,將同一類型的不同數(shù)據(jù)集聚類展開粒子適應(yīng)度計(jì)算,得到網(wǎng)絡(luò)入侵?jǐn)?shù)據(jù)粒子與聚類中心間的距離,記錄數(shù)據(jù)粒子的最大適應(yīng)度值(wi為第i個簇的適應(yīng)度值;m為wi數(shù)據(jù)加權(quán)平均值;kibest為初始聚類中心;Gibest為粒子群最優(yōu)位置;c1、c2為學(xué)習(xí)因子;xi'為更新后的數(shù)據(jù)粒子位置;vi為t時刻數(shù)據(jù)粒子xi的速度;vi'為更新速度)。根據(jù)每次迭代后的最大適應(yīng)度值重新選擇k個聚類的中心位置,對網(wǎng)絡(luò)訪問數(shù)據(jù)樣本、聚類中心間的距離進(jìn)行多次迭代,利用極大似然估計(jì)法(Maximum likelihood estimation)計(jì)算數(shù)據(jù)簇點(diǎn)到K個中心點(diǎn)的誤差平方和,如公式(2)所示。
(2)
輸入包括多個樣本點(diǎn)的網(wǎng)絡(luò)入侵攻擊數(shù)據(jù)集,結(jié)合K-Means聚類算法的SSE函數(shù)計(jì)算數(shù)據(jù)點(diǎn)的和方差,得到Snort、Ossec等類別的入侵攻擊安全日志,安全日志為ASCII(American Standard Code for Information Interchange)、Tcpdump二進(jìn)制字符的數(shù)據(jù)格式,記錄日志類別、通信協(xié)議類型、源/目的IP地址、攻擊編號、端口號、告警日期/時間、日志優(yōu)先級等信息,安全管理人員可提取和記錄外部用戶訪問、網(wǎng)絡(luò)入侵攻擊事件的日志信息,將數(shù)據(jù)文件壓縮存儲至Tomcat后臺服務(wù)器。
3 基于數(shù)據(jù)加密的圖書館信息系統(tǒng)網(wǎng)絡(luò)安全防護(hù)研究
ABE屬性基的對稱加密算法可被用于外部用戶網(wǎng)絡(luò)訪問的安全控制,通過建構(gòu)由上至下的樹形網(wǎng)絡(luò)結(jié)構(gòu)對各網(wǎng)絡(luò)節(jié)點(diǎn)間的用戶訪問、數(shù)據(jù)傳輸與分發(fā)進(jìn)行加密。假設(shè)網(wǎng)絡(luò)訪問用戶的請求數(shù)據(jù)集合為{P1,P2,...,Pn},且A為該數(shù)據(jù)集合的非空子集,那么用B∈Aamp;BC、C∈A表示樹形訪問結(jié)構(gòu)的父子關(guān)系[6]。由圖書館后臺管理人員設(shè)置網(wǎng)絡(luò)用戶訪問私鑰SK、屬性集合的控制權(quán)限,將后臺存儲數(shù)據(jù)屬性設(shè)為G、多階屬性循環(huán)群設(shè)為GT、數(shù)據(jù)屬性生成元設(shè)為g,就可用G×G→GT表示數(shù)據(jù)屬性集的雙線性映射。
由K個授權(quán)中心機(jī)構(gòu)設(shè)置數(shù)據(jù)屬性私鑰集合{tk1,tk2,...,tkn},生成屬性公鑰{gk1,gk2,...,gkn},而后將傳輸或分發(fā)數(shù)據(jù)m、數(shù)據(jù)屬性集合A{G1,G2,...,Gn}發(fā)送至多個授權(quán)中心。根據(jù)屬性門限閾值q0=yk得到授權(quán)中心的訪問控制節(jié)點(diǎn)集合的求導(dǎo)y'、用戶私鑰DA=gq0-y';隨后基于訪問用戶私鑰DA、數(shù)據(jù)屬性公鑰{Tk1,Tk2,...,Tkn}={gk1,gk2,...,gkn}加密后輸出密文EA={m(gk1,gk2,...,gki),i∈Ak}。當(dāng)網(wǎng)絡(luò)節(jié)點(diǎn)訪問的數(shù)據(jù)解密時,由k個屬性授權(quán)中心選擇滿足att(y)∈Ak的d屬性,使用拉格朗日插值公式計(jì)算得到屬性循環(huán)群yku=e(g,g)q0s,并由訪問用戶聯(lián)合授權(quán)機(jī)構(gòu)密鑰解密得到原始的數(shù)據(jù)明文m。
如果網(wǎng)絡(luò)節(jié)點(diǎn)y為網(wǎng)絡(luò)通信根節(jié)點(diǎn),其子節(jié)點(diǎn)個數(shù)為n、節(jié)點(diǎn)域值為ky,那么就可以定義網(wǎng)絡(luò)節(jié)點(diǎn)訪問或通信的屬性門限域值為0lt;kylt;numy,只要用戶訪問的節(jié)點(diǎn)滿足屬性特征ky,就可以通過Tomcat服務(wù)器授權(quán)中心的訪問控制驗(yàn)證。將樹形訪問結(jié)構(gòu)的根節(jié)點(diǎn)記為parent(y)、子節(jié)點(diǎn)記為att(y),子節(jié)點(diǎn)的屬性特征門限閾值為ty∈(0,numy],當(dāng)1﹤ty﹤numy時,表明樹形訪問結(jié)構(gòu)的子節(jié)點(diǎn)對應(yīng)多個屬性,當(dāng)ty=numy時,表示子節(jié)點(diǎn)只對應(yīng)一個數(shù)據(jù)屬性,但授權(quán)中心對用戶私鑰訪問可能完全受信,也可能一定程度上受信,“4/7”表示7個子樹的數(shù)據(jù)屬性需要滿足任意4個才可允許訪問,“2/2”表示子樹的數(shù)據(jù)屬性需要全部滿足才可訪問。
4 仿真試驗(yàn)結(jié)果論證
4.1 試驗(yàn)參數(shù)設(shè)置
選用NSL-KDD入侵檢測數(shù)據(jù)集作為試驗(yàn)數(shù)據(jù),其中整個試驗(yàn)數(shù)據(jù)包括15個數(shù)據(jù)集、1265個數(shù)據(jù)樣本,基于MATLAB R2022a仿真試驗(yàn)軟件對使用“K-Means聚類算法+ABE屬性基加密”的網(wǎng)絡(luò)安全管理模式進(jìn)行數(shù)據(jù)粒子群迭代。根據(jù)以上數(shù)據(jù)粒子群位置優(yōu)化公式將第i個簇的自適應(yīng)度值wi設(shè)定為[0.5,1.0],變化率代數(shù)為10~20,將傳統(tǒng)Web網(wǎng)關(guān)防火墻的信息安全防護(hù)模式作為比對,“K-Means+ABE屬性基加密”的算法聚類分析測試運(yùn)行50~100次,直到被測數(shù)據(jù)集簇的自適應(yīng)度值wi無明顯變化時停止,具體得到的仿真試驗(yàn)結(jié)果,見表1。
4.2 試驗(yàn)結(jié)果論證分析
利用歐幾里得度量公式、數(shù)據(jù)粒子群位置優(yōu)化公式對被測數(shù)據(jù)粒子進(jìn)行多維位置測量后得出,當(dāng)wimin=0.39、wimax=0.85時,“K-Means+ABE屬性基加密”算法的性能最優(yōu)。測試圖書館局域網(wǎng)內(nèi)使用“K-Means+ABE屬性基加密”算法、“Web網(wǎng)關(guān)防火墻+對稱加密”算法的安全數(shù)據(jù)日志挖掘情況,得到網(wǎng)絡(luò)安全數(shù)據(jù)的位置匹配方差、收斂概率、簇的自適應(yīng)度值結(jié)果。
由表1可知,與傳統(tǒng)“Web網(wǎng)關(guān)防火墻+對稱加密”的網(wǎng)絡(luò)安全管理算法相比,基于“K-Means+ABE屬性基加密”算法的網(wǎng)絡(luò)安全日志挖掘、加密控制的性能均更好,簇的自適應(yīng)度值也更合理,收斂概率為1,表明算法不存在局部迭代的過早收斂問題,因此“K-Means+ABE屬性基加密”算法可被應(yīng)用于圖書館局域網(wǎng)的網(wǎng)絡(luò)信息安全管理,且入侵識別與安全管理的效果更好。
5 結(jié)語
大數(shù)據(jù)及云計(jì)算、“互聯(lián)網(wǎng)+”環(huán)境下圖書館網(wǎng)絡(luò)數(shù)據(jù)傳輸與分發(fā)容易受到不明用戶訪問、網(wǎng)絡(luò)入侵攻擊等因素的影響,且網(wǎng)絡(luò)訪問或攻擊造成的安全事件呈現(xiàn)出高發(fā)態(tài)勢。因此,從圖書館信息系統(tǒng)的網(wǎng)絡(luò)安全防護(hù)角度出發(fā),基于Hadoop分布式軟件架構(gòu)、Hadoop關(guān)聯(lián)組件等技術(shù),建設(shè)面向圖書館網(wǎng)絡(luò)安全日志監(jiān)測與分析的管理系統(tǒng),利用K-means聚類算法加強(qiáng)網(wǎng)絡(luò)入侵?jǐn)?shù)據(jù)挖掘與管理,使用ABE算法完成圖書館傳輸數(shù)據(jù)的加解密,可最大程度地保障數(shù)字圖書館網(wǎng)絡(luò)安全監(jiān)測與防護(hù)的安全性和有效性。
參考文獻(xiàn)
[1]楊靜,趙俊杰.國外科學(xué)數(shù)據(jù)管理情況研究[J].全球科技經(jīng)濟(jì)瞭望,2019(1):26-31.
[2]張冉.個人信息保護(hù)之目的限制原則的適用與反思[J].網(wǎng)絡(luò)空間安全,2023(2):22-27.
[3]周綱,孫宇.開創(chuàng)性的下一代圖書館服務(wù)平臺解決方案——FOLIO[J].中國圖書館學(xué)報,2020(1):34-36.
[4]梁愛梅.基于等級保護(hù)的公共圖書館網(wǎng)絡(luò)安全實(shí)施建議[J].網(wǎng)絡(luò)安全技術(shù)與應(yīng)用,2020(3):109-110.
[5]王洪磊,孫靜.探討云平臺背景下的網(wǎng)絡(luò)安全等級保護(hù)測評策略[J].網(wǎng)絡(luò)安全技術(shù)與應(yīng)用,2021(9):89-90.
[6]陳天文,高洪臻.公共圖書館網(wǎng)絡(luò)安全等級保護(hù)工作要求及具體措施[J].河南圖書館學(xué)刊,2021(5):9-11.