蘇铓,李鳳華,史國振,李莉
(1. 西安電子科技大學(xué) 綜合業(yè)務(wù)網(wǎng)理論及關(guān)鍵技術(shù)國家重點(diǎn)實(shí)驗(yàn)室,陜西 西安710071;2. 中國科學(xué)院 信息工程研究所,北京100093;3. 北京電子科技學(xué)院 電子信息工程系,北京100070)
隨著網(wǎng)絡(luò)、數(shù)字出版等技術(shù)的進(jìn)步,閱讀終端的飛速發(fā)展,使文檔閱讀的需求發(fā)生了巨大的變化,要求文檔能夠面向多樣化、普及化的終端,既有版式的清晰性和條理性,也要具備流式的內(nèi)容可變性,并能夠自適應(yīng)終端屏幕大小。結(jié)構(gòu)化文檔融合了流式和版式描述信息,面向多樣化的閱讀、顯示需求,已經(jīng)逐步成為互聯(lián)網(wǎng)信息傳播的重要載體。針對(duì)結(jié)構(gòu)化文檔格式的研究一直是文檔描述的重點(diǎn)。一個(gè)文檔可以采用層次化組織的物理和邏輯結(jié)構(gòu)進(jìn)行描述,物理結(jié)構(gòu)反映文檔的布局,邏輯結(jié)構(gòu)反映文檔的組織。文檔的物理結(jié)構(gòu)和邏輯結(jié)構(gòu)的整體構(gòu)成了文檔模型[1]。
訪問控制最初面向大型機(jī)資源共享的需求,傳統(tǒng)的訪問控制研究經(jīng)歷了自主訪問控制、強(qiáng)制訪問控制、基于角色的訪問控制等模型。為了適應(yīng)分布式網(wǎng)絡(luò)環(huán)境的特點(diǎn),出現(xiàn)了基于任務(wù)的訪問控制、面向分布式和跨域的訪問控制、與時(shí)空相關(guān)的訪問控制等模型。云計(jì)算、移動(dòng)計(jì)算等的出現(xiàn),使得訪問控制的研究向細(xì)粒度、多要素的方向發(fā)展,基于屬性的訪問控制、基于行為的訪問控制等模型相繼出現(xiàn)。目前如何針對(duì)網(wǎng)絡(luò)環(huán)境下信息的傳輸進(jìn)行對(duì)象化、細(xì)粒度的訪問控制,滿足用戶個(gè)性化需求的同時(shí),保證信息資源合理、合法使用成為了訪問控制研究面臨的新挑戰(zhàn)。
多級(jí)安全[2]主要關(guān)注信息的分級(jí)管理和訪問授權(quán),保證不同安全級(jí)別的信息只能被享有相應(yīng)權(quán)限的用戶訪問,BLP[3]、Biba[4]等模型通過實(shí)施嚴(yán)格的強(qiáng)制訪問控制策略,在一定程度上保護(hù)了信息的機(jī)密性和完整性。
目前,泛在網(wǎng)絡(luò)環(huán)境下的信息多以結(jié)構(gòu)化文檔的方式進(jìn)行交互和傳播,而且隨著在線交互設(shè)備的多樣化,結(jié)構(gòu)化文檔的訪問控制及安全屬性描述已經(jīng)逐漸走向?qū)ο蠹?jí)、細(xì)粒度,即文檔包含子文檔,子文檔包含對(duì)象,客體的訪問控制以對(duì)象為單位?,F(xiàn)有的結(jié)構(gòu)化文檔描述模型中缺少針對(duì)訪問控制和多級(jí)安全的支持,導(dǎo)致在多級(jí)安全環(huán)境下,結(jié)構(gòu)化文檔的機(jī)密性、完整性受到威脅,基于結(jié)構(gòu)化文檔的訪問控制不能迎合多級(jí)安全的需求。因此本文提出一種面向多級(jí)安全的結(jié)構(gòu)化文檔描述模型,能夠保證文檔流式和版式信息完備,并解決結(jié)構(gòu)化文檔在日趨復(fù)雜的網(wǎng)絡(luò)環(huán)境下機(jī)密性、完整性、訪問控制等問題。
結(jié)構(gòu)化文檔同時(shí)描述了文檔的版式信息和流式信息,能夠更好的適用于自適應(yīng)顯示。在眾多的結(jié)構(gòu)化文檔描述模型中,PDF、XPS和CEBX較為成熟。其中,Adobe推出的PDF 1.3規(guī)范引入了logical structure,PDF 1.4規(guī)范引入了tagged PDF來完善流式信息的表達(dá);其后又將XML引入,用于對(duì)MARS文檔格式中信息進(jìn)行結(jié)構(gòu)化的描述。李寧等人針對(duì)“標(biāo)文通”與Tagged PDF的信息交換進(jìn)行了實(shí)驗(yàn),為減少辦公文檔的跑版問題提供了積極的借鑒意義[5]。微軟公司也在其固定版式文件XPS(XML paper specification)中采用類似的方式對(duì)邏輯結(jié)構(gòu)信息進(jìn)行了兼容[6],但是以上研究并沒有完全解決信息數(shù)據(jù)的結(jié)構(gòu)化問題。Bloechle等人基于Dori模型開展了一系列的研究工作,于2006年提出了XCDF[7]格式,XCDF文檔與Tagged PDF相比,版式信息與流式信息的結(jié)合更為緊密合理,并且采用了XML來描述相關(guān)信息,使得其構(gòu)造、使用更為方便,基于上述研究,文獻(xiàn)[8]提出了一種從已有固定版式文檔中重新構(gòu)造文檔邏輯結(jié)構(gòu)的方法——Dolores。為了縮小文檔體積、便于使用,Bloechle對(duì)XCDF格式進(jìn)行了優(yōu)化[9]。
北大方正公司2005年在原來CEB版式結(jié)構(gòu)文檔的基礎(chǔ)上啟動(dòng)了CEBX計(jì)劃,并吸收Tagged-PDF、MARS流式特征,推出了CEBX 1.1版本,能夠較好的解決版式和流式文檔的融合問題,并分別針對(duì)移動(dòng)設(shè)備和文檔存儲(chǔ),提出了CEBX 1.2-M和CEBX 1.2-A版本。CEBX采用了打包的形式,將文檔整體描述、安全描述、版式信息、流式信息以及資源和物理層信息進(jìn)行整合。CEBX添加了文檔整體安全描述[10],能夠?qū)崿F(xiàn)整個(gè)文檔及其包含文件的加密、簽名以及整體使用權(quán)限的定義,并且支持DRM解決方案,初步解決了結(jié)構(gòu)化文檔在網(wǎng)絡(luò)傳輸和使用過程中的機(jī)密性、完整性等問題。
但是,隨著分布式計(jì)算、移動(dòng)計(jì)算、云計(jì)算以及泛在計(jì)算的出現(xiàn),網(wǎng)絡(luò)環(huán)境日趨復(fù)雜,如何對(duì)結(jié)構(gòu)化文檔進(jìn)行多級(jí)安全管理,并滿足用戶隨時(shí)、隨地訪問結(jié)構(gòu)化文檔的控制需求,成為結(jié)構(gòu)化文檔描述的未來的研究方向。
針對(duì)上述結(jié)構(gòu)化文檔在泛在網(wǎng)絡(luò)環(huán)境中面臨的訪問控制和多級(jí)安全管理問題,本文將基于CEBX等結(jié)構(gòu)化文檔描述方法,提出一種如圖1所示的新型結(jié)構(gòu)化文檔描述模型。該模型分為2個(gè)層次,第1層包含了文檔入口、文檔安全屬性描述、文檔根節(jié)點(diǎn)、頁面信息、文檔邏輯結(jié)構(gòu)描述、文檔樣式結(jié)構(gòu)描述。其中,文檔入口描述了文檔的安全屬性、基礎(chǔ)信息、文檔根節(jié)點(diǎn)等內(nèi)容及其相互關(guān)聯(lián)關(guān)系;文檔安全屬性描述了對(duì)文檔信息進(jìn)行加密和簽名所使用的算法、密鑰以及初始向量等信息;文檔根節(jié)點(diǎn)的定義主要用于實(shí)現(xiàn)文檔的嵌套和包含,描述了文檔及其子文檔之間的邏輯關(guān)系,子文檔同樣包含了文檔入口、安全屬性描述等信息;文檔邏輯結(jié)構(gòu)描述與文檔樣式結(jié)構(gòu)描述對(duì)文檔的元素組織形式、顯示方式進(jìn)行了描述,包含了文檔章、節(jié)等的組織結(jié)構(gòu)和樣式表等信息;頁面信息描述了頁面的邏輯組成、關(guān)聯(lián)關(guān)系、數(shù)量等信息。為了進(jìn)一步描述結(jié)構(gòu)化文檔所包含資源及其物理數(shù)據(jù),定義了模型的第2個(gè)層次,包含頁面,每個(gè)頁面由資源目錄、資源描述和物理數(shù)據(jù)組成。資源是對(duì)一組圖元或其他數(shù)據(jù)描述的集合。在頁面中出現(xiàn)的圖元、使用的數(shù)據(jù)或者結(jié)構(gòu)都保存在資源中,在需要使用時(shí)從相應(yīng)的資源中讀取。一個(gè)文檔可以包含一個(gè)或多個(gè)資源。
在圖1所示的結(jié)構(gòu)化文檔模型中,文檔邏輯結(jié)構(gòu)描述、文檔樣式結(jié)構(gòu)描述需要在網(wǎng)絡(luò)傳輸和使用中保證其完整性,從而保證文件格式和版式的正常顯示。并且需要保證文檔所包含資源的合法使用,因此需要結(jié)合目前網(wǎng)絡(luò)環(huán)境的多樣性和用戶訪問個(gè)性化的需求,為資源描述添加安全屬性描述,包含該資源的域安全屬性、時(shí)態(tài)屬性、環(huán)境屬性,為了能夠滿足多級(jí)安全管理的需求,為安全屬性描述添加了安全級(jí)別和訪問范疇的定義。
文檔邏輯結(jié)構(gòu)和樣式結(jié)構(gòu)描述的完整性標(biāo)識(shí)保證了結(jié)構(gòu)化文檔在網(wǎng)絡(luò)傳輸過程中文檔格式、顯示形式等描述的完整、不可篡改;資源安全屬性描述的添加能夠?yàn)橛脩籼峁┰谌我鈺r(shí)間、任意地點(diǎn)對(duì)任意資源合法訪問的控制以及滿足資源多級(jí)管理的需求。
安全屬性描述包含了文檔整體的安全屬性描述、針對(duì)邏輯結(jié)構(gòu)描述和樣式結(jié)構(gòu)描述的完整性標(biāo)識(shí)以及針對(duì)資源訪問控制和多級(jí)安全管理的環(huán)境、時(shí)態(tài)、安全等級(jí)、訪問范疇和域安全屬性的描述。綜合各類不同安全屬性描述的特點(diǎn),為圖1中的描述模型添加安全屬性描述定義,說明如圖2和表1所示。
訪問控制標(biāo)簽(access control label)主要包含了權(quán)限描述、權(quán)限對(duì)象、用戶信息、管理員信息、域安全屬性、時(shí)態(tài)屬性、環(huán)境屬性、安全級(jí)別和訪問范疇。其中,權(quán)限定義了Read、Write、Create、Modify 4類,并且可以依據(jù)需要將其具體化,例如:針對(duì)多媒體文件,可以定義為View(查看)、Play(播放)等。為了保證權(quán)限信息的完整性,為該項(xiàng)內(nèi)容定義了簽名標(biāo)簽。為了支持對(duì)結(jié)構(gòu)化文檔跨域流通時(shí)的控制,定義了域安全屬性,主要描述在傳播過程中所經(jīng)由域的約束信息。時(shí)態(tài)、環(huán)境屬性的定義用于對(duì)用戶訪問進(jìn)行控制,結(jié)合基于行為的訪問控制模型[11],時(shí)態(tài)和環(huán)境屬性分別標(biāo)識(shí)了可以對(duì)文檔及其對(duì)象進(jìn)行訪問的時(shí)間區(qū)段和環(huán)境要求。安全等級(jí)和訪問范疇的定義為多級(jí)安全管理提供支持,安全級(jí)別標(biāo)識(shí)了能夠訪問該文檔或者資源對(duì)象主體的最低安全級(jí)別,訪問范疇則標(biāo)識(shí)了訪問主體所處的組信息,例如:部門、系部等。
圖1 泛在網(wǎng)絡(luò)環(huán)境下結(jié)構(gòu)化文檔描述模型
圖2 安全屬性描述結(jié)構(gòu)定義
簽名標(biāo)簽的定義主要用于保證文檔及其相關(guān)信息的完整性,該標(biāo)簽中定義了簽名所使用的算法、簽名的有效期以及簽名生成的數(shù)據(jù)即完整性標(biāo)識(shí)信息,如圖3所示。其中,ID為數(shù)字簽名的唯一標(biāo)識(shí),TimeStamp為時(shí)間戳,用于記錄簽名時(shí)間和數(shù)字簽名的有效期。由于結(jié)構(gòu)化文檔描述文件包含信息較多,因此在進(jìn)行數(shù)字簽名前,需要生成摘要數(shù)據(jù)。DigestMethod和DigestValue分別表示了摘要算法和摘要數(shù)據(jù)。SignatureMethod和Signature Value分別對(duì)應(yīng)簽名算法和簽名數(shù)據(jù)。CertificationType和CertificationData分別描述用于驗(yàn)證簽名的證書類型和證書數(shù)據(jù)。在網(wǎng)絡(luò)數(shù)據(jù)的傳輸過程中,接收方將依據(jù)接收到文檔的Signature中摘要算法、簽名算法、證書數(shù)據(jù)中的公鑰信息生成驗(yàn)簽數(shù)據(jù),并與摘要數(shù)據(jù)對(duì)比以確認(rèn)結(jié)構(gòu)化文檔該部分信息的完整性。
用戶可以根據(jù)需求的不同而選取不同的字段,針對(duì)文檔邏輯結(jié)構(gòu)描述和樣式結(jié)構(gòu)描述需要選取Signature標(biāo)簽;針對(duì)資源的安全屬性描述則需要選取訪問控制標(biāo)簽,Signature標(biāo)簽可以按照需要取舍。
表1 安全屬性描述標(biāo)簽說明
圖3 Signature描述結(jié)構(gòu)定義
為了進(jìn)一步說明圖1所示模型以及圖2、圖3所描述結(jié)構(gòu)的使用方法,本節(jié)將給出一個(gè)針對(duì)性的實(shí)例。定義結(jié)構(gòu)化文檔的邏輯結(jié)構(gòu)和樣式結(jié)構(gòu)描述的完整性標(biāo)簽,采用MD5算法計(jì)算消息摘要,RSA算法生成簽名,證書采用X.509格式,簽名生成時(shí)間為當(dāng)前系統(tǒng)時(shí)間。對(duì)應(yīng)的安全屬性描述文件Security_1.xml如下。
針對(duì)該結(jié)構(gòu)化文檔的訪問控制需求,例如,該文檔的訪問時(shí)間是上午8點(diǎn)到下午5點(diǎn),地點(diǎn)為公司內(nèi)部,可以被安全級(jí)別3及以上級(jí)別部門A的人員進(jìn)行修改操作。Domain標(biāo)簽將記錄該文檔在跨域傳遞過程中經(jīng)由安全域的信息,如ID、網(wǎng)絡(luò)位置等內(nèi)容。具體描述文件Security_2.xml如下。
結(jié)構(gòu)化文檔安全屬性描述模型為結(jié)構(gòu)化文檔、子文檔及其對(duì)象定義了安全屬性標(biāo)簽,包含了完整性標(biāo)記,能夠保證邏輯結(jié)構(gòu)描述、樣式結(jié)構(gòu)描述以及資源和數(shù)據(jù)在網(wǎng)絡(luò)傳輸過程中的完整性和不可篡改性。
該模型支持為文檔及其描述文件和資源的加密,可以定義對(duì)應(yīng)的加解密算法、工作模式、密鑰以及初始化向量。能夠保證在文檔傳輸和使用過程中,數(shù)據(jù)信息的機(jī)密性。
安全屬性描述中包含域?qū)傩?、時(shí)態(tài)、環(huán)境屬性,為用戶描述訪問時(shí)所處的物理環(huán)境、軟硬件平臺(tái)、時(shí)間狀態(tài)等信息,并對(duì)結(jié)構(gòu)化文檔進(jìn)行對(duì)象級(jí)的環(huán)境、時(shí)態(tài)約束。文檔管理系統(tǒng)通過定義用戶與結(jié)構(gòu)化文檔,添加主客體環(huán)境、時(shí)態(tài)標(biāo)簽,實(shí)現(xiàn)結(jié)構(gòu)化文檔的多要素訪問控制,進(jìn)一步適用于分布式計(jì)算、云計(jì)算、泛在計(jì)算等復(fù)雜網(wǎng)絡(luò)環(huán)境。
安全屬性描述中包含的安全級(jí)別和訪問范疇能夠約束主客體的安全級(jí)別及所屬范圍,針對(duì)不同的安全級(jí)別設(shè)置不同的訪問規(guī)則及其操作類型,從而對(duì)結(jié)構(gòu)化文檔實(shí)現(xiàn)多級(jí)安全管理。
分布式計(jì)算、移動(dòng)計(jì)算、云計(jì)算以及泛在計(jì)算的出現(xiàn)推動(dòng)了信息化社會(huì)的發(fā)展,結(jié)構(gòu)化文檔作為一種融合了版式和流式信息的表現(xiàn)形式,在網(wǎng)絡(luò)信息的傳播中扮演了重要的角色。但是,網(wǎng)絡(luò)環(huán)境的復(fù)雜特性為結(jié)構(gòu)化文檔的訪問控制帶來了新的挑戰(zhàn),不同的網(wǎng)絡(luò)環(huán)境、物理位置、用戶角色、時(shí)間狀態(tài)等使得傳統(tǒng)的訪問控制方式不能夠適用于多樣化環(huán)境下的結(jié)構(gòu)化文檔管理。而且,多級(jí)安全的出現(xiàn)使得結(jié)構(gòu)化文檔的描述日趨復(fù)雜。因此,需要一種結(jié)合多種訪問要素、具有多級(jí)安全特征的結(jié)構(gòu)化文檔描述方法。本文通過對(duì)傳統(tǒng)結(jié)構(gòu)化文檔描述模型的研究,結(jié)合訪問控制和多級(jí)安全需求,提出了一種面向多級(jí)安全的結(jié)構(gòu)化文檔描述模型定義和描述方法,定義了安全屬性的描述結(jié)構(gòu),并給出了相應(yīng)的XML描述實(shí)例。該模型能夠解決結(jié)構(gòu)化文檔在網(wǎng)絡(luò)跨域流轉(zhuǎn)過程中邏輯結(jié)構(gòu)描述、樣式結(jié)構(gòu)描述以及資源數(shù)據(jù)的完整性和機(jī)密性問題,保證結(jié)構(gòu)化文檔的合理、合法使用。
[1] KLINK S, DENGEL A, KIENINGER T. Document structure analysis based on layout and textual features[A]. Proceedings of the 4th IAPR International Workshop on Document Analysis Systems[C]. Rio de Janeiro, Brazil. 2000. 99 - 111.
[2] The future of multi-level secure (MLS) information systems[EB/OL].http://csrc.nist.gov/nissc/1998/ proceedings /panelF3.pdf, 1998.
[3] BELL D E. Looking Back at the Bell-LaPadula model[A]. Proceedings of the 21st Conference On Annual Computer Security Applications[C]. Washington, DC, USA, 200.337-351.
[4] BIBA K J. Integrity Considerations for Secure Computer Systems[R].MTR-3153, The Mitre Corporation, 1977, 04.
[5] 李寧, 田英愛, 侯霞等. 辦公文檔與固定版式文檔格式關(guān)系探討[J].電子學(xué)報(bào), 2008, 36(B12): 128-132.LI N, TIAN A Y, HOU X, etal. A discussion on relationship between revisable and non-revisable document formats[J]. Acta Electronica Sinica, 2008, 36(B12): 128-132.
[6] Microsoft Corporation. XPS Specification and Reference Guide[S].2010, 06, 30.
[7] BLOECHLE J L, RIGAMONTI M, HADJAR K, etal. Xcdf: a canonical and structured document format[A]. Proceedings of the 7th International Workshop on Document Analysis Systems[C]. Nelson,New Zealand, 2006. 141 - 152.
[8] BLOECHLE J L, PUGIN C, INGOLD R. Dolores: an interactive and class-free approach for document logical restructuring[A]. Proceedings of the 8th International Workshop on Document Analysis Systems[C].Nara, Japan, 2008. 644 - 652.
[9] BLOECHLE J L, LALANNE D, INGOLD R. OCD: an optimized and canonical document format[A]. Proceedings of the 10th International Conference on Document Analysis and Recognition[C]. Barcelona,USA, 2009. 236 - 240.
[10] CEBX/Mv1.2 Standard Manual[S]. 2011.8.
[11] 李鳳華, 王巍, 馬建峰等. 基于行為的訪問控制模型及其行為管理[J].電子學(xué)報(bào), 2008, 10, 36(10): 1881-1890.LI F H, WANG W, MA J F, etal. Access control model and administration of action[J].Acta Electronica Sinica, 2008, 10, 36(10):1881-1890.